CN111753126B - 用于视频配乐的方法和装置 - Google Patents

用于视频配乐的方法和装置 Download PDF

Info

Publication number
CN111753126B
CN111753126B CN202010588216.XA CN202010588216A CN111753126B CN 111753126 B CN111753126 B CN 111753126B CN 202010588216 A CN202010588216 A CN 202010588216A CN 111753126 B CN111753126 B CN 111753126B
Authority
CN
China
Prior art keywords
music
music information
information
preset
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010588216.XA
Other languages
English (en)
Other versions
CN111753126A (zh
Inventor
朱延东
袁泽寰
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010588216.XA priority Critical patent/CN111753126B/zh
Publication of CN111753126A publication Critical patent/CN111753126A/zh
Application granted granted Critical
Publication of CN111753126B publication Critical patent/CN111753126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了用于视频配乐的方法和装置。该方法的一具体实施方式包括:获取待配乐视频;根据该待配乐视频,得到与该待配乐视频对应的至少一个关键词组和各关键词组对应的概率;从预设的乐曲信息库中选取与该至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合,其中,该预设的乐曲信息库中的各乐曲信息与乐曲内容相关的至少一个预设关键词组相对应;基于该备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从该备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合,其中,该第二数目小于第一数目。该实施方式有效提升了视频配乐的匹配度。

Description

用于视频配乐的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于视频配乐的方法和装置。
背景技术
随着互联网技术的发展,UGC(User Generated Content,用户生成内容)也取得了越来越广泛的应用。在视频配乐领域,相关的方式通常采用优先将历史采纳率较高或近期热门的歌曲推荐给用户,或者利用用户的历史数据(例如历史投稿的视频及其配乐)来指导模型训练,从而学习视频和配乐之间的关联关系。
发明内容
本申请实施例提出了用于视频配乐的方法和装置。
第一方面,本申请实施例提供了一种用于视频配乐的方法,该方法包括:获取待配乐视频;根据待配乐视频,得到与待配乐视频对应的至少一个关键词组和各关键词组对应的概率;从预设的乐曲信息库中选取与至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合,其中,预设的乐曲信息库中的各乐曲信息与乐曲内容相关的至少一个预设关键词组相对应,预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合与所得到的至少一个关键词组一致;基于备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合,其中,第二数目小于第一数目。
在一些实施例中,上述预设的乐曲信息库中的各乐曲信息还与乐曲内容相关的至少一个预设关键词组各自对于所对应的乐曲的内容贡献度相对应;以及上述基于备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合,包括:基于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定备选乐曲信息集合中的乐曲信息对应的匹配值;按照所确定的匹配值从高至低的顺序选取第二数目条乐曲信息生成匹配乐曲信息集合。
在一些实施例中,上述基于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定备选乐曲信息集合中的乐曲信息对应的匹配值,包括:对于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组中的关键词组,确定该关键词组对应的概率和内容贡献度的乘积;基于所确定的至少一个乘积,生成至少一个关键词组对应的乐曲信息对应的匹配值。
在一些实施例中,上述基于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定备选乐曲信息集合中的乐曲信息对应的匹配值,包括:确定备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组各自对应的概率和内容贡献度的融合值;基于备选乐曲信息集合中的乐曲信息的标题中是否存在与匹配的至少一个关键词组一致的词,获取匹配的至少一个关键词组各自对应的预设权重值;将所确定的融合值与获取的权重值进行加权求和,生成备选乐曲信息集合中的乐曲信息对应的匹配值。
在一些实施例中,上述预设的乐曲信息库通过以下步骤得到:获取乐曲文本信息集合,其中,乐曲文本信息集合包括乐曲的标题和歌词集合;对乐曲文本信息集合进行分词,生成分词结果集合;对分词结果集合进行预处理,生成第三数目个预设关键词组,其中,预处理包括同义词聚类,预设关键词组中包括聚类后的同义词,第三数目不小于第一数目;生成各预设关键词组与包括预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系。
在一些实施例中,上述预处理还包括预设类别词语过滤;以及在生成各预设关键词组与包括预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系之后,各预设关键词组的内容贡献度通过以下步骤得到:根据所生成的各预设关键词组在包括预设关键词组中的词的乐曲文本信息中的出现次数,生成各预设关键词组对于所对应的乐曲的内容贡献度。
在一些实施例中,该方法还包括:向目标终端设备发送匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,其中,提示信息与匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;响应于接收到目标终端设备发送的推荐反馈信息,从预设的乐曲信息库中选取与推荐反馈信息匹配的乐曲信息作为调整后的匹配乐曲信息集合,其中,推荐反馈信息包括调整后的关键词组;将调整后的匹配乐曲信息集合发送至目标终端设备。
第二方面,本申请实施例提供了一种用于显示匹配乐曲的方法,该方法包括:向目标服务器发送待配乐视频;接收目标服务器发送的与待配乐视频相匹配的匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,提示信息与匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;显示与待配乐视频相匹配的匹配乐曲信息集合以及提示信息。
在一些实施例中,该方法还包括:获取推荐反馈信息,其中,推荐反馈信息基于用户针对所显示的提示信息的调整而生成,调整包括以下至少一项:删除关键词,增加关键词,调整关键词之间的顺序;将推荐反馈信息发送至目标服务器;响应于接收到目标服务器发送的与推荐反馈信息匹配的调整后的匹配乐曲信息集合,显示调整后的匹配乐曲信息集合。
第三方面,本申请实施例提供了一种用于视频配乐的装置,该装置包括:获取单元,被配置成获取待配乐视频;分类单元,被配置成根据待配乐视频,得到与待配乐视频对应的至少一个关键词组和各关键词组对应的概率;选取单元,被配置成从预设的乐曲信息库中选取与至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合,其中,预设的乐曲信息库中的各乐曲信息与乐曲内容相关的至少一个预设关键词组相对应,预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合与所得到的至少一个关键词组一致;生成单元,被配置成基于备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合,其中,第二数目小于第一数目。
在一些实施例中,上述预设的乐曲信息库中的各乐曲信息还与乐曲内容相关的至少一个预设关键词组各自对于所对应的乐曲的内容贡献度相对应;以及上述生成单元包括:确定模块,被配置成基于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定备选乐曲信息集合中的乐曲信息对应的匹配值;选取模块,被配置成按照所确定的匹配值从高至低的顺序选取第二数目条乐曲信息生成匹配乐曲信息集合。
在一些实施例中,上述确定模块包括:第一确定子模块,被配置成对于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组中的关键词组,确定该关键词组对应的概率和内容贡献度的乘积;第一生成子模块,被配置成基于所确定的至少一个乘积,生成至少一个关键词组对应的乐曲信息对应的匹配值。
在一些实施例中,上述确定模块包括:第二确定子模块,被配置成确定备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组各自对应的概率和内容贡献度的融合值;获取子模块,被配置成基于备选乐曲信息集合中的乐曲信息的标题中是否存在与匹配的至少一个关键词组一致的词,获取匹配的至少一个关键词组各自对应的预设权重值;第二生成子模块,被配置成将所确定的融合值与获取的权重值进行加权求和,生成备选乐曲信息集合中的乐曲信息对应的匹配值。
在一些实施例中,上述预设的乐曲信息库通过以下步骤得到:获取乐曲文本信息集合,其中,乐曲文本信息集合包括乐曲的标题和歌词集合;对乐曲文本信息集合进行分词,生成分词结果集合;对分词结果集合进行预处理,生成第三数目个预设关键词组,其中,预处理包括同义词聚类,预设关键词组中包括聚类后的同义词,第三数目不小于第一数目;生成各预设关键词组与包括预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系。
在一些实施例中,上述预处理还包括预设类别词语过滤;以及在生成各预设关键词组与包括预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系之后,各预设关键词组的内容贡献度通过以下步骤得到:根据所生成的各预设关键词组在包括预设关键词组中的词的乐曲文本信息中的出现次数,生成各预设关键词组对于所对应的乐曲的内容贡献度。
在一些实施例中,该装置还包括:信息发送单元,被配置成向目标终端设备发送匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,其中,提示信息与匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;再选取单元,被配置成响应于接收到目标终端设备发送的推荐反馈信息,从预设的乐曲信息库中选取与推荐反馈信息匹配的乐曲信息作为调整后的匹配乐曲信息集合,其中,推荐反馈信息包括调整后的关键词组;信息再发送单元,被配置成将调整后的匹配乐曲信息集合发送至目标终端设备。
第四方面,本申请实施例提供了一种用于显示匹配乐曲的装置,该装置包括:视频发送单元,被配置成向目标服务器发送待配乐视频;接收单元,被配置成接收目标服务器发送的与待配乐视频相匹配的匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,其中,提示信息与匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;显示单元,被配置成显示与待配乐视频相匹配的匹配乐曲信息集合以及提示信息。
在一些实施例中,该装置还包括:信息获取单元,被配置成获取推荐反馈信息,其中,推荐反馈信息基于用户针对所显示的提示信息的调整而生成,调整包括以下至少一项:删除关键词,增加关键词,调整关键词之间的顺序;反馈信息发送单元,被配置成将推荐反馈信息发送至目标服务器;再显示单元,被配置成响应于接收到目标服务器发送的与推荐反馈信息匹配的调整后的匹配乐曲信息集合,显示调整后的匹配乐曲信息集合。
第五方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面或第二方面中任一实现方式描述的方法。
第六方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面中任一实现方式描述的方法。
本申请实施例提供的用于视频配乐的方法和装置,通过乐曲内容相关的预设关键词组与视频内容关键词之间的匹配,充分利用了视频与乐曲本身的内容信息进行符合主题的视频配乐推荐,从而有效提升了视频配乐的匹配度。而且,由于选取内容信息这一维度来显式地呈现视频与乐曲的匹配度,相比于传统的通过初始随机编码的ID特征的模型具有更强的可解释性,从而有助于后期对于模型的调试和优化。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于视频配乐的方法的一个实施例的流程图;
图3是根据本申请的实施例的用于视频配乐的方法的一个应用场景的示意图;
图4是根据本申请的用于视频配乐的方法的又一个实施例的流程图;
图5是根据本申请的用于显示匹配乐曲的方法的一个实施例的流程图;
图6是根据本申请的用于视频配乐的装置的一个实施例的结构示意图;
图7是根据本申请的用于显示匹配乐曲的装置的一个实施例的结构示意图;
图8是适于用来实现本申请的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于视频配乐的方法或用于视频配乐的装置的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件、文本编辑类应用、视频编辑类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持音视频编辑的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上推荐的视频配乐提供支持的后台服务器。后台服务器可以对接收的待配乐视频进行分析等处理,并生成处理结果(如与待配乐视频匹配的推荐乐曲的信息)或将处理结果反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于视频配乐的方法一般由服务器105执行,相应地,用于视频配乐的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于视频配乐的方法的一个实施例的流程200。该用于视频配乐的方法包括以下步骤:
步骤201,获取待配乐视频。
在本实施例中,用于视频配乐的方法的执行主体(如图1所示的服务器105)可以通过有线连接方式或者无线连接方式获取待配乐视频。其中,上述待配乐视频可以包括各种具有一定内容主题的视频,例如电子相册、美食视频等。
作为示例,上述执行主体可以获取预先存储于本地的待配乐视频,也可以获取与之通信连接的电子设备(例如图1所示的终端设备)发送的用户上传的投稿视频。
步骤202,根据待配乐视频,得到与待配乐视频对应的至少一个关键词组和各关键词组对应的概率。
在本实施例中,上述执行主体可以通过各种方式根据步骤201所获取的待配乐视频得到上述待配乐视频对应的至少一个关键词组和各关键词组对应的概率。上述概率通常可以表现为概率分布,即各关键词组对应的概率之和为1。作为示例,上述执行主体可以将步骤201所获取的待配乐视频输入至预先训练的视频分类模型,得到与上述待配乐视频对应的至少一个关键词组和各关键词组对应的概率。其中,上述视频分类模型可以用于表征关键词组和对应的概率与待配乐视频之间的对应关系。上述视频分类模型可以包括各种利用机器学习方式所训练的用于分类的模型,例如CNN(Convolutional Neural Networks,卷积神经网络)。上述视频分类模型可以输出上述待配乐视频对应的至少一个关键词组和各关键词组对应的分类概率或置信度。上述关键词组可以作为上述视频分类模型的分类标签,例如可以包括“天空”、“小鸟”。上述关键词组可以包括多个关键词。例如,关键词组“天空”中可以包括“天”、“蓝天”、“天际”、“sky”等。
步骤203,从预设的乐曲信息库中选取与至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合。
在本实施例中,上述执行主体可以从预设的乐曲信息库中选取与步骤202所得到的至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合。其中,上述预设的乐曲信息库中的各乐曲信息通常与乐曲内容相关的至少一个预设关键词组相对应。上述预设关键词组可以通过各种方式得到。例如可以从歌词、标题或乐曲所对应的网络标签中提取。上述预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合通常与所得到的至少一个关键词组一致,即上述预先训练的视频分类模型的分类标签即为预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合的子集。上述乐曲信息可以包括用于唯一标识乐曲的各种信息,例如ID、数字编码、字符串等等。上述乐曲可以包括包含歌词的歌曲,也可以包括不包含歌词的纯音乐,还可以包括歌曲或纯音乐的片段。上述第一数目可以是预先指定的任意数目,也可以是满足预设规则的数目,例如满足选取规则的乐曲信息的条数,在此不作限定。
在本实施例中,作为示例,上述预设的乐曲信息库中可以包括10,000首乐曲。上述每首乐曲可以与乐曲内容相关的至少一个关键词组相对应。其中,上述不同乐曲所对应的关键词组之间可以存在交集。上述执行主体可以选取所对应的关键词组中包括上述所得到的至少一个关键词组中最大概率所对应的关键词组的乐曲信息作为备选乐曲信息。作为又一示例,上述执行主体还可以选取所对应的关键词组中包括上述所得到的至少一个关键词组中大于预设选取概率阈值的概率所对应的关键词组的数目超过预设选取数目阈值的乐曲信息作为备选乐曲信息。例如,上述预设选取概率阈值可以为0.2。上述预设选取数目阈值可以为2。与上述待配乐视频对应的概率大于0.2的关键词组为“毕业”、“同学”、“再见”、“图书馆”。则上述执行主体可以选取同时包括“毕业”、“同学”、“再见”、“图书馆”中至少三者的预设关键词组对应的乐曲信息作为备选乐曲信息。
在本实施例的一些可选的实现方式中,上述预设的乐曲信息库中的各乐曲信息还可以与上述至少一个预设关键词组各自对于所对应的乐曲的内容贡献度相对应。其中,上述预设关键词组的内容贡献度可以用于指示使用该预设关键词组对对应的乐曲的表征程度的大小。例如,在一首完全关于小鸟的歌曲和一首提到了一句小鸟的歌曲中,“小鸟”这个关键词对于前一首歌曲的内容贡献度更大。上述关键词组的内容贡献度可以基于NLP(Natural Language Processing,自然语言处理)技术得到,例如词频,TF-IDF(termfrequency–inverse document frequency,词频-逆文档频率)等。因此,对于上述预设的乐曲信息库中的每一首乐曲,都可以与各乐曲对应的预设关键词所属的预设关键词组的内容贡献度相对应。
基于上述可选的实现方式,通过引入内容贡献度这一概念更加细化关键词组对于乐曲的表征程度,有助于提升乐曲匹配的准确性。
需要说明的是,上述预设关键词通常可以指根据大量乐曲的分词结果所得到的词,也可以指对根据分词结果所得到的词进行筛选后所得到的词,在此不做限定。
步骤204,基于备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合。
在本实施例中,基于步骤203所选取的备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,上述执行主体可以通过各种方式从备选乐曲信息集合中选取第二数目条乐曲信息,从而生成匹配乐曲信息集合。其中,上述第二数目通常小于上述第一数目。
作为示例,上述执行主体可以首先对备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率进行累计,生成乐曲信息对应的匹配概率累计值。而后,上述执行主体可以按照上述匹配概率累计值从大至小的顺序选取第二数目条乐曲信息。可选地,上述执行主体还可以选取匹配概率累计值大于预设累计阈值的乐曲信息作为匹配乐曲信息,从而生成上述匹配乐曲信息集合。其中,上述第二数目可以是根据实际的应用需求,预先指定的大于上述第一数目的任意数值。上述第二数目也可以是根据规则而定的数值,例如匹配概率累计值大于预设累计阈值的乐曲信息的数目。
在本实施例的一些可选的实现方式中,基于上述预设的乐曲信息库中的各乐曲信息对应的上述至少一个预设关键词组各自对于所对应的乐曲的内容贡献度,上述执行主体还可以按照如下步骤从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合:
第一步,基于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定备选乐曲信息集合中的乐曲信息对应的匹配值。
在这些实现方式中,上述执行主体可以通过各种方式对上述备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度进行融合。其中,上述方式可以包括但不限于取最大值、取最小值、取平均值等。而后,基于对应于同一乐曲信息的各关键词组所得到的融合结果,上述执行主体可以生成各乐曲信息对应的匹配值。作为示例,响应于确定乐曲信息匹配的关键词的个数为1,上述执行主体可以直接将所得到的融合结果确定为上述乐曲信息对应的匹配值。作为又一示例,响应于确定乐曲信息匹配的关键词的个数大于1,上述执行主体可以对所得到的融合结果进行如取最大值、取最小值、取平均值等操作,从而得到上述乐曲信息对应的匹配值。
可选地,上述执行主体还可以按照如下步骤确定备选乐曲信息集合中的乐曲信息对应的匹配值:
S1、对于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组中的关键词组,确定该关键词组对应的概率和内容贡献度的乘积。
在这些可选的实现方式中,作为示例,上述乐曲信息集合中的乐曲信息X所匹配的关键词组“天空”、“小鸟”对应的模型输出的概率可以分别为0.6、0.3,关键词组“天空”、“小鸟”对于乐曲信息X所指示的乐曲的内容贡献度可以分别为0.3、0.4。则上述关键词组“天空”对应的乘积为0.18,上述关键词组“小鸟”对应的乘积为0.12。
S2、基于所确定的至少一个乘积,生成至少一个关键词组对应的乐曲信息对应的匹配值。
在这些可选的实现方式中,基于步骤S1所确定的至少一个乘积,上述执行主体可以通过各种方式生成至少一个关键词组对应的乐曲信息对应的匹配值。上述方式可以包括但不限于取最大值、取最小值、取平均值等。
基于上述可选的实现方式,通过关键词组的内容贡献度和与待配乐视频的分类标签的匹配程度的乘积来量化乐曲与视频之间是否匹配,有助于提升视频配乐的准确性。
可选地,上述执行主体还可以按照如下步骤确定备选乐曲信息集合中的乐曲信息对应的匹配值:
S1、确定备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组各自对应的概率和内容贡献度的融合值。
S2、基于备选乐曲信息集合中的乐曲信息的标题中是否存在与匹配的至少一个关键词组一致的词,获取匹配的至少一个关键词组各自对应的预设权重值。
在这些实现方式中,上述预设权重值可以包括标题权重值和非标题权重值。由于在用户投稿平台应用中通常只将乐曲名称呈现给用户端,因此乐曲名称对用户的直观影响更大。(用户只能看到歌名)。因此上述标题权重值通常大于上述非标题权重值。即,如果乐曲信息对应的与匹配的关键词组一致的词出现在标题中,则该匹配的关键词组可以对应一个比仅出现在非标题(如歌词)中的词对应的关键词组更大的权重值。
S3、将所确定的融合值与获取的权重值进行加权求和,生成备选乐曲信息集合中的乐曲信息对应的匹配值。
在这些实现方式中,通过步骤S1所确定的融合值和步骤S2所获取的权重值进行加权求和,上述执行主体可以生成匹配至少一个的关键词组各自对应的加权求和结果。而后,基于对应于同一乐曲信息的各关键词组所得到的加权求和结果,上述执行主体可以生成各乐曲信息对应的匹配值。作为示例,响应于确定乐曲信息匹配的关键词的个数为1,上述执行主体可以直接将所得到的加权求和结果确定为上述乐曲信息对应的匹配值。作为又一示例,响应于确定乐曲信息匹配的关键词的个数大于1,上述执行主体可以对所得到的加权求和结果进行如取最大值、取最小值、取平均值等操作,从而得到上述乐曲信息对应的匹配值。
基于上述可选的实现方式,通过根据与关键词组一致的词是否出现在乐曲标题中来对关键词组赋予不同的融合权重,实现了对关键词组对乐曲贡献的更细粒度的表达,从而可以进一步提升视频配乐的准确性。
第二步,按照所确定的匹配值从高至低的顺序选取第二数目条乐曲信息生成匹配乐曲信息集合。
在这些实现方式中,按照上述第一步所确定的匹配值从高至低的顺序,上述执行主体可以选取第二数目条乐曲信息,从而生成匹配乐曲信息集合。
基于上述可选的实现方式,通过综合考量关键词组的内容贡献度和与待配乐视频的分类标签的匹配程度,有助于提升视频配乐的准确性。
在本实施例的一些可选的实现方式中,上述执行主体还可以继续执行以下步骤:
第一步,向目标终端设备发送匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息。
在这些实现方式中,上述执行主体可以向目标终端设备发送上述步骤204所生成的匹配乐曲信息集合以及用于表征上述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息。其中,上述提示信息可以与上述匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联。上述提示信息例如可以包括与匹配的关键词组中的关键词的含义相同或相近的词。上述目标设备可以包括上述待配乐视频对应的客户端,例如发送上述待配乐视频的用户终端。
基于上述可选的实现方式,上述目标设备可以将与待配乐视频对应的匹配乐曲信息集合显示给用户以显式地呈现乐曲推荐理由。
第二步,响应于接收到目标终端设备发送的推荐反馈信息,从预设的乐曲信息库中选取与推荐反馈信息匹配的乐曲信息作为调整后的匹配乐曲信息集合。
在这些实现方式中,响应于接收到目标终端设备发送的推荐反馈信息,上述执行主体可以采用与前述用于视频配乐的方法一致的方式,从预设的乐曲信息库中选取与接收到的推荐反馈信息匹配的乐曲信息作为调整后的匹配乐曲信息集合。其中,上述推荐反馈信息通常包括调整后的关键词组。
第三步,将调整后的匹配乐曲信息集合发送至目标终端设备。
基于上述可选的实现方式,上述执行主体可以根据目标设备所发送的推荐反馈信息对所推荐的匹配乐曲信息集合中所包括的乐曲信息进行调整,从而利用与用户之间的交互来提升视频配乐的匹配度。
继续参见图3,图3是根据本申请实施例的用于视频配乐的方法的应用场景的一个示意图。在图3的应用场景中,用户301使用终端设备302向后台服务器303上传待配乐视频304。根据获取的待配乐视频304,后台服务器303可以得到与待配乐视频304对应的关键词组及其对应的概率(如标号305所示)。而后,后台服务器303从预设的乐曲信息库(如标号306所示)中选取与得到的关键词组的乐曲信息作为备选乐曲信息集合(如标号307所示)。其中,备选乐曲信息集合307中的乐曲信息对应的预设关键词组通常包括上述视频分类模型输出的概率较高的关键词组(例如图3中的“毕业”、“同学”、“聚会”)。之后,基于备选乐曲信息集合307中的乐曲信息匹配的关键词组对应的概率(例如求和),后台服务器303可以从备选乐曲信息集合307中选取乐曲信息生成匹配的乐曲信息集合308。可选地,后台服务器303还可以将所生成的匹配的乐曲信息集合308发送至终端设备302,以使用户301可以从匹配的乐曲信息列表中选取与待配乐视频匹配的乐曲。
目前,现有技术之一通常是优先将历史采纳率较高或近期热门的歌曲推荐给用户,或者利用用户的历史数据(例如历史投稿的视频及其配乐)来训练表征视频和配乐之间的关联关系的模型,导致在用户的历史数据并不充分(例如投稿数量少的用户或历史使用量少的乐曲)的情况下视频与配乐之间匹配度不高。而本申请的上述实施例提供的方法,通过乐曲内容相关的预设关键词组与视频内容关键词之间的匹配,充分利用了视频与乐曲本身的内容信息进行符合主题的视频配乐推荐,从而有效提升了视频配乐的匹配度。而且,由于选取内容信息这一维度来显式地呈现视频与乐曲的匹配度,相比于传统的通过初始随机编码的ID特征的模型具有更强的可解释性,从而有助于后期对于模型的调试和优化。
进一步参考图4,其示出了用于视频配乐的方法的又一个实施例的流程400。该用于视频配乐的方法的流程400,包括以下步骤:
步骤401,获取乐曲文本信息集合。
在本实施例中,用于视频配乐的方法的执行主体(例如图1所示的服务器105)可以通过各种方式获取大量的乐曲文本信息集合。其中,上述乐曲文本信息集合可以包括各乐曲的标题和歌词集合。上述乐曲文本信息集合中的上述乐曲文本信息通常与前述实施例中的乐曲信息一一对应。
步骤402,对乐曲文本信息集合进行分词,生成分词结果集合。
在本实施例中,上述执行主体可以通过各种现有的分词技术对上述乐曲文本信息集合进行分词,生成分词结果集合。
步骤403,对分词结果集合进行预处理,生成第三数目个预设关键词组。
在本实施例中,上述执行主体可以通过各种方式对上述步骤402所生成的分词结果集合进行预处理,从而生成第三数目个预设关键词组。其中,上述预处理包括同义词聚类。上述同义词可以包括等义词和近义词。可选地,上述等义词可以包括不同语种下对应于同一概念的词,例如“宝贝”和“baby”。上述预设关键词组中可以包括聚类后的同义词。上述第三数目通常不小于上述第一数目。
在本实施例的一些可选的实现方式中,上述预处理还可以包括预设类别词语过滤。其中,上述预设类别可以包括但不限于以下至少一项:意义不明确的词(例如“我是”、“的”),语气词(例如“了”),拟声词(例如“嘿”)。可选地,上述预设类别还可以包括歌手名、作曲者名、作词者名等。
基于上述可选的实现方式,可以避免内容不相关的词对乐曲内容信息的干扰,从而提升关键词组对乐曲内容的表征准确性,进而为视频配乐的匹配度的提高提供数据基础。
步骤404,生成各预设关键词组与包括预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系。
在本实施例中,上述执行主体可以按照预设关键词组中的词所属于的乐曲文本信息,生成上述各预设关键词组与乐曲信息之间的对应关系。作为示例,预设关键词组“天空”中可以包括“天”、“蓝天”、“天际”、“sky”等,预设关键词组“花”中可以包括“玫瑰”、“丁香”、等。乐曲A的乐曲文本信息的分词结果中包括“蓝天”,乐曲B的乐曲文本信息的分词结果中包括“玫瑰”。则上述执行主体可以生成预设关键词组“天空”与乐曲A的乐曲信息之间的对应关系和预设关键词组“玫瑰”与乐曲B的乐曲信息之间的对应关系。
在本实施例的一些可选的实现方式中,用于得到预设的乐曲信息库的执行主体还可以继续执行以下步骤:
根据所生成的各预设关键词组在包括预设关键词组中的词的乐曲文本信息中的出现次数,生成各预设关键词组对于所对应的乐曲的内容贡献度。其中,上述内容贡献度可以与前述实施例中步骤203的可选的实现方式中的描述一致,此处不再赘述。
需要说明的是,在本实施例中,上述步骤401-步骤404也可以由不同于上述用于视频配乐的方法的执行主体(例如图1所示的服务器105)的其他电子设备执行。此时,上述电子设备可以将生成的预设乐曲库发送至上述用于视频配乐的方法的执行主体。
步骤405,获取待配乐视频。
步骤406,将待配乐视频输入至预先训练的视频分类模型,得到与待配乐视频对应的至少一个关键词组和各关键词组对应的概率。
步骤407,从预设的乐曲信息库中选取与至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合。
步骤408,基于备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合。
上述步骤405、步骤406、步骤407和步骤408分别与前述实施例中的步骤201、步骤202、步骤203、步骤204及其可选的实现方式一致,上文针对步骤201、步骤202、步骤203、步骤204及其可选的实现方式的描述也适用于步骤405、步骤406、步骤407和步骤408,此处不再赘述。
在本实施例的一些可选的实现方式中,上述执行主体还可以继续执行如前述实施例中步骤204的可选的实现方式中所描述的第一步至第三步,此处不再赘述。
从图4中可以看出,本实施例中的用于视频配乐的方法的流程400体现了生成预设的乐曲信息库的具体步骤。由此,本实施例描述的方案可以利用针对乐曲文本内容构建的乐曲信息库作为视频配乐中乐曲检索的基础数据库,从而进一步提升了视频配乐的匹配度。
继续参考图5,示出了根据本申请的用于显示匹配乐曲的方法的一个实施例的流程500。该用于显示匹配乐曲的方法包括以下步骤:
步骤501,向目标服务器发送待配乐视频。
在本实施例中,用于显示匹配乐曲的方法的执行主体(如图1所示的终端设备101、102、103)可以通过有线连接方式或者无线连接方式向目标服务器(例如图1所示的服务器105)发送待配乐视频。其中,上述待配乐视频可以与前述实施例中步骤201的相关描述一致,此处不再赘述。作为示例,上述待配乐视频可以是用户在自驾游途中拍摄的风景短视频。
步骤502,接收目标服务器发送的与待配乐视频相匹配的匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息。
在本实施例中,上述执行主体可以接收上述目标服务器发送的与待配乐视频相匹配的匹配乐曲信息集合以及用于表征上述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息。其中,上述提示信息通常与上述匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联。
在本实施例中,上述与待配乐视频相匹配的匹配乐曲信息集合可以由上述目标服务器通过各种信息匹配的方式而确定。上述提示信息可以用于表征上述匹配的依据。作为示例,上述提示信息可以包括至少一个用于表征乐曲内容的关键词。例如,上述提示信息可以包括“草原”、“天空”、“路”。
在本实施例的一些可选的实现方式中,上述与待配乐视频相匹配的匹配乐曲信息集合以及用于表征上述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息可以通过前述实施例中用于视频配乐的方法而得到。
步骤503,显示与待配乐视频相匹配的匹配乐曲信息集合以及提示信息。
在本实施例中,上述执行主体可以在显示屏上呈现步骤502所接收到的与待配乐视频相匹配的匹配乐曲信息集合以及上述提示信息。作为示例,上述执行主体可以显示匹配乐曲信息集合(例如《我和草原有个约定》、《天堂》、《海阔天空》、《天空之城》、《平凡之路》、《敢问路在何方》、《天路》)和提示信息(例如“草原”、“天空”、“公路”)。作为又一示例,上述执行主体可以将匹配乐曲信息集合中的乐曲信息与提示信息对应显示。例如,与“草原”对应的乐曲信息可以包括《我和草原有个约定》和《天堂》。
在本实施例的一些可选的实现方式中,上述执行主体还可以继续执行以下步骤:
第一步,获取推荐反馈信息。
在这些实现方式中,上述执行主体可以检测用户对所显示的提示信息的调整。其中,上述调整可以包括以下至少一项:删除关键词,增加关键词,调整关键词之间的顺序。响应于检测到用户的调整操作,上述执行主体可以生成推荐反馈信息。其中,上述推荐反馈信息可以用于指示提示信息经用户调整后所得到的信息。
第二步,将推荐反馈信息发送至目标服务器。
第三步,响应于接收到目标服务器发送的与推荐反馈信息匹配的调整后的匹配乐曲信息集合,显示调整后的匹配乐曲信息集合。
基于上述可选的实现方式,上述执行主体可以获取用户对所推荐的匹配乐曲信息及其提示信息的反馈,通过用户反馈获取与反馈后的信息相匹配的调整后的匹配乐曲信息集合,从而实现了用户与推荐系统的有机互动,从而可以提升视频配乐的匹配度。此外,还可以将所获取的用户的推荐反馈信息作为对推荐系统进行优化的训练样本,为推荐系统后续的优化、迭代提供有价值的数据基础。
从图5中可以看出,本实施例中的用于显示匹配乐曲的方法的流程500,通过对与待配乐视频相匹配的匹配乐曲信息集合以及提示信息的显示,来显式地呈现所匹配的乐曲信息的推荐依据,具有更强的可解释性。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了用于视频配乐的装置的一个实施例,该装置实施例与图2或图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备(例如服务器)中。
如图6所示,本实施例提供的用于视频配乐的装置600包括获取单元601、分类单元602、选取单元603和生成单元604。其中,获取单元601,被配置成获取待配乐视频;分类单元602,被配置成根据待配乐视频,得到与待配乐视频对应的至少一个关键词组和各关键词组对应的概率;选取单元603,被配置成从预设的乐曲信息库中选取与至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合,其中,预设的乐曲信息库中的各乐曲信息与乐曲内容相关的至少一个预设关键词组相对应,预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合与所得到的至少一个关键词组一致;生成单元604,被配置成基于备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合,其中,第二数目小于第一数目。
在本实施例中,用于视频配乐的装置600中:获取单元601、分类单元602、选取单元603和生成单元604的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述预设的乐曲信息库中的各乐曲信息还可以与乐曲内容相关的至少一个预设关键词组各自对于所对应的乐曲的内容贡献度相对应。上述生成单元604可以包括:确定模块(图中未示出)、选取模块(图中未示出)。其中,上述确定模块,可以被配置成基于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定备选乐曲信息集合中的乐曲信息对应的匹配值。上述选取模块,可以被配置成按照所确定的匹配值从高至低的顺序选取第二数目条乐曲信息生成匹配乐曲信息集合。
在本实施例的一些可选的实现方式中,上述确定模块可以包括:第一确定子模块(图中未示出)、第一生成子模块(图中未示出)。其中,上述第一确定子模块,可以被配置成对于备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组中的关键词组,确定该关键词组对应的概率和内容贡献度的乘积。上述第一生成子模块,可以被配置成基于所确定的至少一个乘积,生成至少一个关键词组对应的乐曲信息对应的匹配值。
在本实施例的一些可选的实现方式中,上述确定模块可以包括:第二子确定模块(图中未示出)、获取子模块(图中未示出)、第二生成子模块(图中未示出)。其中,上述第二确定子模块,可以被配置成确定备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组各自对应的概率和内容贡献度的融合值。上述获取子模块,可以被配置成基于备选乐曲信息集合中的乐曲信息的标题中是否存在与匹配的至少一个关键词组一致的词,获取匹配的至少一个关键词组各自对应的预设权重值。上述第二生成子模块,可以被配置成将所确定的融合值与获取的权重值进行加权求和,生成备选乐曲信息集合中的乐曲信息对应的匹配值。
在本实施例的一些可选的实现方式中,上述预设的乐曲信息库可以通过以下步骤得到:获取乐曲文本信息集合;对乐曲文本信息集合进行分词,生成分词结果集合;对分词结果集合进行预处理,生成第三数目个预设关键词组;生成各预设关键词组与包括预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系。其中,上述乐曲文本信息集合可以包括乐曲的标题和歌词集合。上述预处理可以包括同义词聚类。上述预设关键词组中可以包括聚类后的同义词。上述第三数目通常不小于第一数目。
在本实施例的一些可选的实现方式中,上述预处理还可以包括预设类别词语过滤。在上述生成各预设关键词组与包括预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系之后,各预设关键词组的内容贡献度可以通过以下步骤得到:根据所生成的各预设关键词组在包括预设关键词组中的词的乐曲文本信息中的出现次数,生成各预设关键词组对于所对应的乐曲的内容贡献度。
在本实施例的一些可选的实现方式中,用于视频配乐的装置600还可以包括:信息发送单元(图中未示出)、再选取单元(图中未示出)、信息再发送单元(图中未示出)。其中,上述信息发送单元,可以被配置成向目标终端设备发送匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息。其中,上述提示信息可以与匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联。上述再选取单元,可以被配置成响应于接收到目标终端设备发送的推荐反馈信息,从预设的乐曲信息库中选取与推荐反馈信息匹配的乐曲信息作为调整后的匹配乐曲信息集合。其中,上述推荐反馈信息可以包括调整后的关键词组。上述信息再发送单元,可以被配置成将调整后的匹配乐曲信息集合发送至目标终端设备。
本申请的上述实施例提供的装置,通过获取单元601获取待配乐视频。而后,分类单元602根据待配乐视频,得到与待配乐视频对应的至少一个关键词组和各关键词组对应的概率。之后,选取单元603从预设的乐曲信息库中选取与至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合。其中,预设的乐曲信息库中的各乐曲信息与乐曲内容相关的至少一个预设关键词组相对应。预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合与所得到的至少一个关键词组一致。最后,生成单元604基于备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合。其中,第二数目小于第一数目。从而可以充分利用视频与乐曲本身的内容信息进行符合主题的视频配乐推荐,因此能够有效提升了视频配乐的匹配度。而且,由于选取内容信息这一维度来显式地呈现视频与乐曲的匹配度,相比于传统的通过初始随机编码的ID特征的模型具有更强的可解释性,从而有助于后期对于模型的调试和优化。
进一步参考图7,作为对上述各图所示方法的实现,本申请提供了用于显示匹配乐曲的装置的一个实施例,该装置实施例与图5所示的方法实施例相对应,该装置具体可以应用于各种电子设备(例如终端设备)中。
如图7所示,本实施例提供的用于显示匹配乐曲的装置700包括视频发送单元701、接收单元702和显示单元703。其中,视频发送单元701,被配置成向目标服务器发送待配乐视频;接收单元702,被配置成接收目标服务器发送的与待配乐视频相匹配的匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,其中,提示信息与匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;显示单元703,被配置成显示与待配乐视频相匹配的匹配乐曲信息集合以及提示信息。
在本实施例中,用于显示匹配乐曲的装置700中:视频发送单元701、接收单元702和显示单元703的具体处理及其所带来的技术效果可分别参考图5对应实施例中的步骤501、步骤502和步骤503的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,用于显示匹配乐曲的装置700还可以包括:信息获取单元(图中未示出)、反馈信息发送单元(图中未示出)、再显示单元(图中未示出)。其中,上述信息获取单元,可以被配置成获取推荐反馈信息。上述推荐反馈信息可以基于用户针对所显示的提示信息的调整而生成。上述调整包括以下至少一项:删除关键词,增加关键词,调整关键词之间的顺序。上述反馈信息发送单元,可以被配置成将推荐反馈信息发送至目标服务器。上述再显示单元,可以被配置成响应于接收到目标服务器发送的与推荐反馈信息匹配的调整后的匹配乐曲信息集合,显示调整后的匹配乐曲信息集合。
本申请的上述实施例提供的装置,通过视频发送单元701向目标服务器发送待配乐视频。而后,接收单元702接收目标服务器发送的与待配乐视频相匹配的匹配乐曲信息集合以及用于表征匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息。其中,提示信息与匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联。最后,显示单元703,被配置成显示与待配乐视频相匹配的匹配乐曲信息集合以及提示信息。从而可以显式地呈现所匹配的乐曲信息的推荐依据,具有更强的可解释性。
下面参考图8,其示出了适于用来实现本申请实施例的电子设备(例如图1中的服务器或终端设备)800的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置806;包括例如液晶显示器(LCD,Liquid Crystal Display)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图8中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本申请的实施例的方法中限定的上述功能。
需要说明的是,本申请的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(Radio Frequency,射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待配乐视频;根据待配乐视频,得到与待配乐视频对应的至少一个关键词组和各关键词组对应的概率;从预设的乐曲信息库中选取与至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合,其中,预设的乐曲信息库中的各乐曲信息与乐曲内容相关的至少一个预设关键词组相对应,预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合与所得到的至少一个关键词组一致;基于备选乐曲信息集合中的乐曲信息匹配的关键词组对应的概率,从备选乐曲信息集合中选取第二数目条乐曲信息生成匹配乐曲信息集合,其中,第二数目小于第一数目。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括获取单元、分类单元、选取单元、生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待配乐视频的单元”。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于视频配乐的方法,包括:
获取待配乐视频;根据所述待配乐视频,得到与所述待配乐视频对应的至少一个关键词组和各关键词组对应的概率;
从预设的乐曲信息库中选取与所述至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合,其中,所述预设的乐曲信息库中的各乐曲信息与乐曲内容相关的至少一个预设关键词组相对应,所述预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合与所得到的至少一个关键词组一致;所述预设的乐曲信息库中的各乐曲信息还与所述乐曲内容相关的至少一个预设关键词组各自对于所对应的乐曲的内容贡献度相对应;所述乐曲内容相关的至少一个预设关键词组表征乐曲本身的内容信息;
基于所述备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定所述备选乐曲信息集合中的乐曲信息对应的匹配值;
按照所确定的匹配值从高至低的顺序选取第二数目条乐曲信息生成匹配乐曲信息集合,其中,所述第二数目小于所述第一数目;
向目标终端设备发送所述匹配乐曲信息集合以及用于表征所述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,所述提示信息与所述匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;
响应于接收到所述目标终端设备发送的推荐反馈信息,从所述预设的乐曲信息库中选取与所述推荐反馈信息匹配的乐曲信息作为调整后的匹配乐曲信息集合,其中,所述推荐反馈信息包括调整后的关键词组;
将所述调整后的匹配乐曲信息集合发送至所述目标终端设备;
所述预设的乐曲信息库通过以下步骤得到:
获取乐曲文本信息集合,其中,所述乐曲文本信息集合包括乐曲的标题和歌词集合;
对所述乐曲文本信息集合进行分词,生成分词结果集合;
对所述分词结果集合进行预处理,生成第三数目个预设关键词组,其中,所述预处理包括同义词聚类,预设关键词组中包括聚类后的同义词,所述第三数目不小于所述第一数目;
生成各预设关键词组与包括所述预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系。
2.根据权利要求1所述的方法,其中,所述基于所述备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定所述备选乐曲信息集合中的乐曲信息对应的匹配值,包括:
对于所述备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组中的关键词组,确定该关键词组对应的概率和内容贡献度的乘积;
基于所确定的至少一个乘积,生成所述至少一个关键词组对应的乐曲信息对应的匹配值。
3.根据权利要求1所述的方法,其中,所述基于所述备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定所述备选乐曲信息集合中的乐曲信息对应的匹配值,包括:
确定所述备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组各自对应的概率和内容贡献度的融合值;
基于所述备选乐曲信息集合中的乐曲信息的标题中是否存在与匹配的至少一个关键词组一致的词,获取所述匹配的至少一个关键词组各自对应的预设权重值;
将所确定的融合值与获取的权重值进行加权求和,生成所述备选乐曲信息集合中的乐曲信息对应的匹配值。
4.根据权利要求1所述的方法,其中,所述预处理还包括预设类别词语过滤;以及
在所述生成各预设关键词组与包括所述预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系之后,所述各预设关键词组的内容贡献度通过以下步骤得到:
根据所生成的各预设关键词组在包括所述预设关键词组中的词的乐曲文本信息中的出现次数,生成各预设关键词组对于所对应的乐曲的内容贡献度。
5.一种用于显示匹配乐曲的方法,包括:
向目标服务器发送待配乐视频;
接收所述目标服务器发送的与所述待配乐视频相匹配的匹配乐曲信息集合以及用于表征所述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,其中,所述提示信息与所述匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;所述提示信息包括至少一个用于表征乐曲内容的关键词;所述与所述待配乐视频相匹配的匹配乐曲信息集合以及用于表征所述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息通过权利要求1-4任一项所述的一种用于视频配乐的方法而得到;
显示所述与所述待配乐视频相匹配的匹配乐曲信息集合以及所述提示信息。
6.根据权利要求5所述的方法,所述方法还包括:
获取推荐反馈信息,其中,所述推荐反馈信息基于用户针对所显示的提示信息的调整而生成,所述调整包括以下至少一项:删除关键词,增加关键词,调整关键词之间的顺序;
将所述推荐反馈信息发送至所述目标服务器;
响应于接收到所述目标服务器发送的与所述推荐反馈信息匹配的调整后的匹配乐曲信息集合,显示所述调整后的匹配乐曲信息集合。
7.一种用于视频配乐的装置,包括:
获取单元,被配置成获取待配乐视频;
分类单元,被配置成根据所述待配乐视频,得到与所述待配乐视频对应的至少一个关键词组和各关键词组对应的概率;
选取单元,被配置成从预设的乐曲信息库中选取与所述至少一个关键词组匹配的第一数目条乐曲信息作为备选乐曲信息集合,其中,所述预设的乐曲信息库中的各乐曲信息与乐曲内容相关的至少一个预设关键词组相对应,所述预设的乐曲信息库中各乐曲信息对应的预设关键词组所组成的预设关键词集合与所得到的至少一个关键词组一致;所述预设的乐曲信息库中的各乐曲信息还与所述乐曲内容相关的至少一个预设关键词组各自对于所对应的乐曲的内容贡献度相对应;所述乐曲内容相关的至少一个预设关键词组表征乐曲本身的内容信息;
生成单元,被配置成基于所述备选乐曲信息集合中的乐曲信息匹配的至少一个关键词组对应的概率和内容贡献度的融合,确定所述备选乐曲信息集合中的乐曲信息对应的匹配值;按照所确定的匹配值从高至低的顺序选取第二数目条乐曲信息生成匹配乐曲信息集合,其中,所述第二数目小于所述第一数目;
信息发送单元,被配置成向目标终端设备发送所述匹配乐曲信息集合以及用于表征所述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,所述提示信息与所述匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;
再选取单元,被配置成响应于接收到所述目标终端设备发送的推荐反馈信息,从所述预设的乐曲信息库中选取与所述推荐反馈信息匹配的乐曲信息作为调整后的匹配乐曲信息集合,其中,所述推荐反馈信息包括调整后的关键词组;
信息再发送单元,被配置成将所述调整后的匹配乐曲信息集合发送至所述目标终端设备;
所述预设的乐曲信息库通过以下步骤得到:
获取乐曲文本信息集合,其中,所述乐曲文本信息集合包括乐曲的标题和歌词集合;
对所述乐曲文本信息集合进行分词,生成分词结果集合;
对所述分词结果集合进行预处理,生成第三数目个预设关键词组,其中,所述预处理包括同义词聚类,预设关键词组中包括聚类后的同义词,所述第三数目不小于所述第一数目;
生成各预设关键词组与包括所述预设关键词组中的词的乐曲文本信息对应的乐曲信息之间的对应关系。
8.一种用于显示匹配乐曲的装置,包括:
视频发送单元,被配置成向目标服务器发送待配乐视频;
接收单元,被配置成接收所述目标服务器发送的与所述待配乐视频相匹配的匹配乐曲信息集合以及用于表征所述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息,所述提示信息与所述匹配乐曲信息集合中的乐曲信息匹配的关键词组相关联;所述提示信息包括至少一个用于表征乐曲内容的关键词;所述与所述待配乐视频相匹配的匹配乐曲信息集合以及用于表征所述匹配乐曲信息集合基于乐曲文本内容信息推荐的提示信息通过权利要求1-4任一项所述的一种用于视频配乐的方法而得到;
显示单元,被配置成显示所述与所述待配乐视频相匹配的匹配乐曲信息集合以及所述提示信息。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202010588216.XA 2020-06-24 2020-06-24 用于视频配乐的方法和装置 Active CN111753126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010588216.XA CN111753126B (zh) 2020-06-24 2020-06-24 用于视频配乐的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010588216.XA CN111753126B (zh) 2020-06-24 2020-06-24 用于视频配乐的方法和装置

Publications (2)

Publication Number Publication Date
CN111753126A CN111753126A (zh) 2020-10-09
CN111753126B true CN111753126B (zh) 2022-07-15

Family

ID=72677037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010588216.XA Active CN111753126B (zh) 2020-06-24 2020-06-24 用于视频配乐的方法和装置

Country Status (1)

Country Link
CN (1) CN111753126B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687680A (zh) * 2021-07-26 2023-02-03 脸萌有限公司 音乐筛选方法、装置、设备、存储介质及程序产品
CN114390342B (zh) * 2021-12-10 2023-08-29 阿里巴巴(中国)有限公司 一种视频配乐方法、装置、设备及介质
CN114501138B (zh) * 2022-02-09 2024-06-21 浙江核新同花顺网络信息股份有限公司 一种视频配乐的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912722A (zh) * 2016-05-04 2016-08-31 广州酷狗计算机科技有限公司 歌曲发送方法及装置
CN107799119A (zh) * 2016-09-07 2018-03-13 中兴通讯股份有限公司 音频制作方法、装置及系统
CN110362711A (zh) * 2019-06-28 2019-10-22 北京小米智能科技有限公司 歌曲推荐方法及装置
CN110704682A (zh) * 2019-09-26 2020-01-17 新华智云科技有限公司 一种基于视频多维特征智能推荐背景音乐的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019962B (zh) * 2017-10-27 2024-01-02 优酷网络技术(北京)有限公司 一种视频文案信息的生成方法及装置
CN109587554B (zh) * 2018-10-29 2021-08-03 百度在线网络技术(北京)有限公司 视频数据的处理方法、装置及可读存储介质
CN110072140B (zh) * 2019-03-22 2021-05-28 厦门理工学院 一种视频信息提示方法、装置、设备及存储介质
CN110336957B (zh) * 2019-06-10 2022-05-03 北京字节跳动网络技术有限公司 一种视频制作方法、装置、介质和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912722A (zh) * 2016-05-04 2016-08-31 广州酷狗计算机科技有限公司 歌曲发送方法及装置
CN107799119A (zh) * 2016-09-07 2018-03-13 中兴通讯股份有限公司 音频制作方法、装置及系统
CN110362711A (zh) * 2019-06-28 2019-10-22 北京小米智能科技有限公司 歌曲推荐方法及装置
CN110704682A (zh) * 2019-09-26 2020-01-17 新华智云科技有限公司 一种基于视频多维特征智能推荐背景音乐的方法及系统

Also Published As

Publication number Publication date
CN111753126A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
US10795939B2 (en) Query method and apparatus
US11461388B2 (en) Generating a playlist
CN111753126B (zh) 用于视频配乐的方法和装置
CN109165302B (zh) 多媒体文件推荐方法及装置
US20180121547A1 (en) Systems and methods for providing information discovery and retrieval
US20200321005A1 (en) Context-based enhancement of audio content
US11263255B2 (en) Content carousel in a social media timeline
CN112074857A (zh) 组合机器学习和社交数据以生成个性化推荐
CN110597962B (zh) 搜索结果展示方法、装置、介质及电子设备
US11157542B2 (en) Systems, methods and computer program products for associating media content having different modalities
US9576050B1 (en) Generating a playlist based on input acoustic information
CN109582825B (zh) 用于生成信息的方法和装置
CN111767431A (zh) 用于视频配乐的方法和装置
CN111324700A (zh) 资源召回方法、装置、电子设备及计算机可读存储介质
US20240061899A1 (en) Conference information query method and apparatus, storage medium, terminal device, and server
CN110990598B (zh) 资源检索方法、装置、电子设备及计算机可读存储介质
CN111883131B (zh) 语音数据的处理方法及装置
CN111695041A (zh) 用于推荐信息的方法和装置
CN112364235A (zh) 搜索处理方法、模型训练方法、装置、介质及设备
US20220308987A1 (en) Debugging applications for delivery via an application delivery server
CN115618024A (zh) 多媒体推荐方法、装置及电子设备
CN111078849A (zh) 用于输出信息的方法和装置
EP3729259B1 (en) Assessing applications for delivery via an application delivery server
CN111767259A (zh) 内容分享的方法、装置、可读介质和电子设备
CN111552831A (zh) 一种音乐推荐的方法及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant