CN114501138A

CN114501138A - 一种视频配乐的方法和系统

Info

Publication number: CN114501138A
Application number: CN202210122139.8A
Authority: CN
Inventors: 毛冰城; 马天翼; 谌明
Original assignee: Hithink Royalflush Information Network Co Ltd
Current assignee: Hithink Royalflush Information Network Co Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-13
Anticipated expiration: 2042-02-09
Also published as: CN114501138B

Abstract

本说明书实施例提供一种视频配乐的方法和系统，该方法包括确定待处理视频的至少一个待匹配关键点；基于至少一个待匹配关键点从关系图谱中确定多个候选关键点，其中，关系图谱中包含多个节点和连接多个节点的至少一个边，该多个节点代表参考视频的视频关键点，对于该至少一个边中的一个，边代表连接的两个节点对应的视频关键点同时与至少一个参考视频相关，边的值由相关的参考视频的数量确定；基于多个候选关键点和待处理视频的相关特征，从音乐库中确定与待处理视频匹配的至少一个目标音乐，并将该至少一个目标音乐作为待处理视频的配乐音乐，其中，音乐库中包括多个参考音乐及与该多个参考音乐对应的音乐关键点。

Description

一种视频配乐的方法和系统

技术领域

本说明书涉及计算机领域，特别涉及一种视频配乐方法和系统。

背景技术

随着互联网及移动网络的发展，短视频越来越成为热点。人们希望使用短视频来分享自己的人生，经历等；许多公司也希望使用短视频来达到提升公司知名度、推广公司产品等目的。想要高质量地完成一个的短视频制作，从选材，剪辑，配乐多个方面都需要比较专业的人士进行制作。对于许多非专业人士而言，一般直接采用软件模板进行制作，整个制作过程不可见，不可控，重复性高，尤其是在短视频配乐方面。对于一个高质量的短视频来说，配乐是十分重要的，现有的短视频配乐依赖于制作者本身的音乐素养和视频制作经验来挑选配合，或者是自动生成。但是，依赖于制作者本身进行配乐，对于非专业人士来说繁琐、困难；而自动生成的配乐匹配度低，重复性高。

因此，希望提供一种视频配乐方法和系统。

发明内容

本说明书实施例之一提供一种视频配乐的方法。所述方法包括：确定待处理视频的至少一个待匹配关键点；基于所述至少一个待匹配关键点从关系图谱中确定多个候选关键点，其中，所述关系图谱中包含多个节点和连接所述多个节点的至少一个边，所述多个节点代表参考视频的视频关键点，对于所述至少一个边中的一个，所述边代表连接的两个节点对应的视频关键点同时与至少一个所述参考视频相关，所述边的值由相关的所述参考视频的数量确定；基于所述多个候选关键点和所述待处理视频的相关特征，从音乐库中确定与所述待处理视频匹配的至少一个目标音乐，并将所述至少一个目标音乐作为所述待处理视频的配乐音乐，其中，所述音乐库中包括多个参考音乐及与所述多个参考音乐对应的音乐关键点。

本说明书实施例之一提供一种视频配乐的系统，包括待匹配关键点确定模块、候选关键点确定模块和配乐音乐确定模块；所述待匹配关键点确定模块用于确定待处理视频的至少一个待匹配关键点；所述候选关键点确定模块基于所述至少一个待匹配关键点从关系图谱中确定多个候选关键点，其中，所述关系图谱中包含多个节点和连接所述多个节点的至少一个边，所述多个节点代表参考视频的视频关键点，对于所述至少一个边中的一个，所述边代表连接的两个节点对应的视频关键点同时与至少一个所述参考视频相关，所述边的值由相关的所述参考视频的数量确定；所述配乐音乐确定模块用于基于所述多个候选关键点和所述待处理视频的相关特征，从音乐库中确定与所述待处理视频匹配的至少一个目标音乐，并将所述至少一个目标音乐作为所述待处理视频的配乐音乐，其中，所述音乐库中包括多个参考音乐及与所述多个参考音乐对应的音乐关键点。

本说明书实施例之一提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行所述视频配乐的方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的视频配乐的系统的应用场景示意图；

图2是根据本说明书一些实施例所示的视频配乐的系统的示意图；

图3是根据本说明书一些实施例所示的视频配乐的方法的示例性流程图；

图4是根据本说明书一些实施例所示的更新关系图谱的方法的示例性流程图；

图5是根据本说明书一些实施例所示的确定节点关联度的方法的示例性流程图；

图6是根据本说明书一些实施例所示的视频配乐的方法的示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

在一些应用场景中，视频配乐的系统可以包括服务器和用户终端，视频配乐的系统可以通过处理设备等实施本说明书中披露的方法和/或过程，实现对来自用户终端的视频自动生成配乐方案，用户可以基于该配乐方案为视频生成配乐，从而实现对视频和配乐的匹配，减轻视频制作者的工作负担，提高视频配乐的匹配准确性，从而获得配乐与视频特征高度匹配的短视频的制作，并满足视频制作者的需求。

图1是根据本说明书一些实施例所示的视频配乐的系统的应用场景示意图。

如图1所示，在一些实施例中，系统100可以包括服务器110、网络120、终端130、用户终端140和存储设备150。

服务器110可以处理数据和/或信息。服务器110可以处理从系统100中至少一个组件(例如，终端130、用户终端140和存储设备150)或外部设备中获得的数据和/或信息，基于这些数据、信息和/或处理结果执行本说明书一些实施例中所示的视频配乐的方法，以完成一个或多个本说明书一些实施例中描述的功能。在一些实施例中，服务器110可以是单个服务器或服务器组。服务器群可以是集中式的或分布式的(例如，服务器110可以是分布式的系统)。在一些实施例中，服务器110可以是本地的或远程的。例如，服务器110可以通过网络120存取储存于终端130、用户终端140和/或存储设备150中的信息和/或数据。又例如，服务器110可以直接连接到终端130、用户终端140和/或存储设备150，以存取储存的信息和/或数据。在一些实施例中，服务器110可以在云端平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、小区云、分布云、跨云、多云等或上述举例的任意组合。

网络120可以促进信息及/或数据的交换。在一些实施例中，系统100中的至少一个组件(例如，服务器110、终端130、用户终端140和存储设备150)可以通过网络120向系统100中的其他组件发送信息和/或数据。例如，服务器110可以通过网络120从用户终端140获得/获取视频配乐的服务请求。在一些实施例中，网络120可以是有线网络或无线网络中的任意一种，或其组合。仅仅作为示例，网络120可以包括电缆网络、有线网络、光纤网络、远程通信网络、内部网络、因特网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网络(MAN)、公共交换电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或上述举例的任意组合。

终端130可以提供视频素材和/或音乐素材。在一些实施例中，终端130可以向服务器110提供视频素材作为参考视频，以用于生成/更新关系图谱。在一些实施例中，终端130可以提供音乐素材以用于建立音乐库。在一些实施例中，终端130可以提供已配乐的视频用于模型的训练。在一些实施例中，终端130可以包括移动终端130-1、平板计算机130-2、膝上型计算机130-3、台式计算机130-4等或其任意组合。移动终端130-1可以包括移动电话、个人数字助理、智能穿戴设备、车载终端等或其任意组合；平板计算机130-2可以包括安卓平板、苹果iPad、Windows平板等；膝上型计算机130-3可以包括各种笔记本计算机等；台式计算机130-4可以包括运行操作系统的任何个人台式计算机、服务器等或其任意组合。

用户终端140可以提供视频。用户终端140可以提供待处理视频，例如，待配乐的视频。在一些实施例中，用户终端140可以将待配乐的视频提供给服务器110处理，以获取配乐方案。在一些实施例中，用户终端140可以是一个与终端130类似或者相同的装置，可以包括移动终端140-1、平板计算机140-2、膝上型计算机140-3、台式计算机140-4等或其任意组合。在一些实施例中，用户终端140可以向服务器110提供视频素材作为参考视频，以用于生成/更新关系图谱。

存储设备150可以存储数据和/或指令。在一些实施例中，存储设备150可以存储从终端130和/或用户终端140获得的数据。在一些实施例中，存储设备150可以存储供服务器110执行或使用的数据和/或指令，服务器110可以通过执行或使用所述数据和/或指令以实现本申请描述的示例性方法。在一些实施例中，存储设备150可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或上述举例的任意组合。在一些实施例中，存储设备150可以在云平台上实现。仅仅作为示例，所述云平台可以包括私有云、公共云、混合云、小区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中，存储设备150可以与网络120连接以与系统100中的一个或多个部件(例如，服务器110、终端130、用户终端140等)通信。在一些实施例中，存储设备150可以直接与系统100的一个或多个部件(例如，服务器110、终端130、用户终端140等)连接或通讯。在一些实施例中，存储设备150可以是服务器110的一部分。

图2是根据本说明书一些实施例所示的视频配乐的系统的示意图。

如图2所示，在一些实施例中，系统200可以包括待匹配关键点确定模块210、候选关键点确定模块220和配乐音乐确定模块230。

在一些实施例中，待匹配关键点确定模块210可以用于确定待处理视频的一个或多个待匹配关键点。

在一些实施例中，候选关键点确定模块220可以用于基于至少一个待匹配关键点从关系图谱中确定多个候选关键点。其中，该关系图谱中可以包含多个节点和连接多个节点的至少一个边，多个节点可以代表参考视频的视频关键点；对于至少一个边中的一个，该边代表连接的两个节点对应的视频关键点可以同时与至少一个参考视频相关，该边的值可以由相关的参考视频的数量确定。

在一些实施例中，视频关键点和/或音乐关键点可以包括内容分类和情绪分类中的至少一种。

在一些实施例中，候选关键点确定模块220可以用于从关系图谱中确定与至少一个待匹配关键点满足预设匹配要求的目标关键点；基于目标关键点与关系图谱中除目标关键点之外的其他关键点之间的邻近关系，确定多个候选关键点。

在一些实施例中，配乐音乐确定模块230可以用于基于多个候选关键点和待处理视频的相关特征，从音乐库中确定与待处理视频匹配的至少一个目标音乐，并将至少一个目标音乐作为待处理视频的配乐音乐，其中，该音乐库中可以包括多个参考音乐及与多个参考音乐对应的音乐关键点。

在一些实施例中，配乐音乐确定模块230可以用于基于多个候选关键点和所述待处理视频的相关特征，通过匹配模型获取匹配方案，其中，该匹配方案中可以包括至少一个目标音乐与待处理视频中至少一个视频片段之间的对应关系。

在一些实施例中，系统200还可以包括关系图谱更新模块240。关系图谱更新模块可以用于对关系图谱进行多轮更新，其中，多轮更新中的每一轮更新可以包括：基于预设规则处理关系图谱中至少一个边的值，使得至少一个边的值增大；获取新的参考视频，基于新的参考视频的视频关键点，对关系图谱中多个节点和至少一个边进行更新；和/或对于关系图谱中至少一个边中的一个，基于该边连接的两个节点之间的第一关联度，对边的值进行更新。

在一些实施例中，确定关系图谱中边连接的两个节点之间的第一关联度可以包括：对于这两个节点中的每一个节点，确定该节点的关联概率分布，关联概率分布代表该节点与关系图谱中任意一个节点之间的第二关联度的概率分布；基于两个节点的关联概率分布之间的差异和两个节点之间的最短距离，确定两个节点之间的第一关联度。

在一些实施例中，确定关系图谱中节点的关联概率分布可以包括：若任意一个节点是该节点的邻节点，则第二关联度可以基于该节点和该任意一个节点之间的最短距离确定；若该任意一个节点不是该节点的邻节点，则第二关联度可以为预设值。

需要注意的是，以上对于视频配乐的系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。在一些实施例中，图2中披露的待匹配关键点确定模块、候选关键点确定模块、配乐音乐确定模块和关系图谱更新模块可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。诸如此类的变形，均在本说明书的保护范围之内。

图3是根据本说明书一些实施例所示的视频配乐的方法的示例性流程图。

如图3所示，流程300包括下述步骤。在一些实施例中，流程300可以由服务器110执行。

步骤310，确定待处理视频的至少一个待匹配关键点。在一些实施例中，步骤310可以由待匹配关键点确定模块210执行。

待处理视频是指需要匹配音乐的视频，即待配乐视频，例如，待配乐的短视频等。在一些实施例中，待处理视频可以是未配乐的视频，例如，未经过处理的原始拍摄视频等。在一些实施例中，待处理视频可以是已经配乐的视频，例如，用户对原配乐音乐不满意，希望重新配乐的视频。在一些实施例中，可以从多种途径获取待处理视频，例如，由用户手动/自动从客户端、网页、上传工具等上传、从存储设备等主动获取等。

关键点是指事物的特征信息，事物可以是任何事物，例如，视频、音乐、人等；对应的事物的特征可以是任何可以表示事物的信息，例如，视频/音乐的标题、视频中描述的场景、视频/音乐中表达的情绪等、人的姓名等；特征信息可以是特征标签，可以是特征对应的文字或其他形式的表述。

视频关键点是指视频的特征信息，例如，视频的标签信息、视频的情绪信息等。标签信息是指视频本身内容和所属类别的标签，可以是视频网站等预设好的，也可以是额外添加的。例如，做菜视频的标签信息可以是美食，如果做的是红烧肉，则标签还可以有红烧肉。又例如，婚礼视频的标签信息可以是婚礼。情绪信息是指视频传递的情绪，例如，高兴、气愤等，情绪信息也可以称为情绪标签。待匹配关键点是指用于匹配的视频特征信息。在一些实施例中，可以基于待匹配关键点来确定与待处理视频匹配的配乐音乐。

音乐关键点是指音乐的特征信息，例如，描述音乐风格的音乐风格标签、描述音乐表达的情绪的情绪标签等。

在一些实施例中，视频关键点和/或音乐关键点可以是对视频和/或音乐的内容和/或情绪(情感)进行分类，其中，内容可以是对视频画面的场景、音乐的风格等的描述，情绪可以是对视频/音乐中的情感的描述。

在一些实施例中，可以从待处理视频通过多种方式获取多个视频特征，然后从这些特征中确定待处理视频的一个或多个待匹配关键点。在一些实施例中，可以通过自然语言处理(NLP，Natural Language Processing)和/或类似技术来获取待处理视频中的特征信息，例如，视频标签信息、视频中的情绪标签等。在一些实施例中，可以通过其他方式，例如，人工处理等，来获取待处理视频中的视频特征信息。在一些实施例中，可以通过NLP抽取等获取视频画面的描述等标签信息。在一些实施例中，可以通过机器学习模型或人工等方式进行视频情绪识别，获取情绪标签。

步骤320，基于至少一个待匹配关键点从关系图谱中确定多个候选关键点。在一些实施例中，步骤320可以由候选关键点确定模块220执行。

关系图谱是指记录了不同特征以及特征间关联关系的图数据结构，例如，视频的特征以及这些视频特征之间的关联关系等。其中，关系图谱中的每一个节点可以是关键点，用来表示特征，而连接两个节点的边，可以代表这两个节点表示的特征存在关联，例如，都在同一个视频中出现过。又例如，都在同一个音乐中出现过。

候选关键点是与待匹配关键点匹配的关键点，例如，相同或相近的关键点，存在关联关系的关键点等。仅作为示例，待匹配关键点是“婚礼服装”，则候选关键点可以是“婚纱”、“秀禾服”、“婚礼”、“高兴”、“幸福”、“恭贺”、“祝福”等。

参考视频是指用于构建关系图谱的视频，数量越多、覆盖范围越广，构建的关系图谱的准确性越高，能够匹配的视频也就越多。在一些实施例中，可以从多种途径获取参考视频，例如，用户上传、从网络搜集、自行制作等。在一些实施例中，可以从网络上获取高点击的热门视频作为参考视频。

在一些实施例中，关系图谱中可以包含多个节点和连接多个节点的至少一个边。其中，这些节点可以代表参考视频的视频关键点，即视频特征，这些视频关键点可以是视频标签或视频的情绪标签；这些边可以代表其连接的两个节点对应的视频关键点同时与一个或多个参考视频相关，该边的值可以由相关的参考视频的数量确定。

在一些实施例中，关系图谱中的边的值可以与上述参考视频的数量负相关。例如，两个节点a和b，连接这两个节点的边为E_ab，若a和b表示的两个视频关键点同时出现的参考视频的数量为n_ab，则边E_ab的值可以设置为1/n_ab。

在一些实施例中，可以通过以下方式初始化并建立关系图谱：首先，获取一个或多个参考视频，通过多种方式(例如，NLP、机器学习模型、人工处理等)提取参考视频中的视频关键点，例如，视频描述的场景等视频标签、视频中的情绪标签等；然后，为每一个视频关键点建立一个图节点，初始图所有节点之间没有关联，通过抓取的同一参考视频中的几个标签，建立节点间的边联系。例如，从一个或多个参考视频中获取其视频标签和情绪标签作为初始标签节点，假设初始共有a、b、c、d四个标签节点，则此时该关系图谱中共有四个节点，没有边联系；在几个参考视频中，确定了a和b同时出现，则a和b之间将有边联系，将该边记为E_ab，并且将E_ab的边值设置为1/n_ab，这里n_ab代表a和b同时出现的次数；如果在这些参考视频中出现了两个以上的标签，则每两个标签按照其同时出现的参考视频的数量为其进行边的值的添加或者更新。

在一些实施例中，可以对关系图谱进行多轮更新，使得关系图库能够更精确地匹配视频，反映最新的热门视频或流行趋势等，同时能够覆盖更多类型的视频。关于如何更新关系图谱的内容可以参见图4、图5的相关内容，在此不再赘述。

在一些实施例中，可以基于至少一个待匹配关键点通过多种方式从关系图谱中确定多个候选关键点。例如，基于关键点之间的邻近关系等。

在一些实施例中，可以从关系图谱中确定与待匹配关键点满足预设匹配要求的目标关键点，再基于目标关键点确定多个候选关键点。

在一些实施例中，预设匹配要求可以是目标关键点与待匹配关键点语义相同或相近，例如，待匹配关键点是“婚礼”，确定的目标关键点可以是“婚礼”、“婚礼典礼”、“婚庆”、“婚宴”等。

在一些实施例中，可以基于目标关键点与关系图谱中除该目标关键点之外的其他关键点之间的邻近关系，通过多种方式确定多个候选关键点。例如，在关系图谱中，可以从目标关键点出发，通过随机游走算法等算法走过多个节点，例如，K个节点，将这些走过的多个节点作为候选关键点。又例如，在关系图谱中，可以基于目标关键点的关联概率分布，通过采样等方式确定多个候选关键点，示例的，将关联概率分布中概率值排在前K个的标签作为候选关键点。关于如何获取关系图谱中关键点的关联概率分布的具体细节，可以参见步骤510的相关内容，在此不再赘述。

在一些实施例中，候选关键点可以包括目标关键点自身。

在一些实施例中，还可以通过其他方式确定候选关键点，例如，通过机器学习模型、人工选取等。

步骤330，基于多个候选关键点和待处理视频的相关特征，从音乐库中确定与待处理视频匹配的至少一个目标音乐，并将至少一个目标音乐作为待处理视频的配乐音乐。在一些实施例中，步骤330可以由配乐音乐确定模块230执行。

音乐库是指包含多首音乐和/或音乐片段的集合，例如，歌曲、乐曲、配乐等的集合。音乐库可以通过多种方式获取，例如，通过音乐网站获取、通过唱片公司等版权拥有者授权、通过从已有视频中提取等。

在一些实施例中，音乐库中除音乐本身外，还可以包括这些音乐的音乐关键点，即音乐的特征信息(标签)。在一些实施例中，可以通过多种方式获取音乐的标签，例如，通过音乐网站、音乐评论或者已有的高传播量短视频中获取。又例如，可以通过机器学习模型识别或人工标注等方式获取。在一些实施例中，已有库中的每一个音乐可以同时匹配多个风格标签和情感标签。

在一些实施例中，音乐库中可以包括多个参考音乐及与多个参考音乐对应的音乐关键点。在一些实施例中，参考音乐是可能与待处理视频存在匹配关系的音乐，可以是一对一、一对多、多对一、多对多中任意一种匹配关系，例如，一个参考音乐可以与待处理视频的至少一个片段匹配，也可以与整个待处理视频匹配。在一些实施例中，匹配关系可以是参考音乐的一个或多个标签，即关系图谱中的节点，与待处理视频的至少一个片段的一个或多个标签相同或相近。在一些实施例中，匹配关系可以是参考音乐的一个或多个标签对，即关系图谱中的边连接的两个节点，与待处理视频的至少一个片段的一个或多个标签对相同或相近。在一些实施例中，标签相同或相近可以是指文字上的相同或相近，也可以是指语义上的相同或相近。

待处理视频的相关特征是指与待处理视频的视频本身属性相关的特征，例如，视频的长度、视频的编码、视频包含的场景数量、视频的场景变换特征、视频的场景特征等。在一些实施例中，待处理视频的相关特征可以包括视频的长度、场景变换节点和场景特征等，其中，场景特征可以包括视频的场景色彩度等光影特征。

场景变换节点是指当画面的像素点有一定比例(例如，80％、95％等)以上在同一时刻进行变换，且在该时刻之前预设时间段(例如，1s)和该时刻之后预设时间段的变化幅度比较小的时间点。在一些实施例中，场景变换节点是以秒为单位的视频中的时间点。在一些实施例中，画面的像素点在同一时刻进行变换的比例可以预先设置。

场景色彩度是指对应于某个场景变换，在没有经过变换的同一个场景内的所有像素点的平均值。

在一些实施例中，可以基于多个候选关键点和待处理视频的相关特征，通过各种方式确定待处理视频的配乐音乐，例如，通过机器学习模型、人工匹配等。

在一些实施例中，可以基于多个候选关键点和待处理视频的相关特征，从音乐库中确定与待处理视频匹配的至少一个目标音乐，并将至少一个目标音乐作为待处理视频的配乐音乐。

在一些实施例中，可以基于多个候选关键点和待处理视频的相关特征，通过匹配模型获取匹配方案，其中，匹配方案中包括至少一个目标音乐与待处理视频中至少一个视频片段之间的对应关系。在一些实施例中，该对应关系可以是一个目标音乐与待处理视频中的一个或多个视频片段对应。在一些实施例中，该对应关系可以是一个目标音乐与整个待处理视频对应。

在一些实施例中，匹配模型的输入可以是待处理视频的待匹配关键点和候选关键点(例如，待处理视频的视频标签和/或情感标签，以及候选的视频标签和/或情感标签)、待处理视频的时长、待处理视频的场景变换节点和待处理视频的场景特征，输出可以是待处理视频在各个时间段对应的音乐，例如，配乐音乐1对应时间段1、配乐音乐2对应时间段2、配乐音乐3对应时间段3、……等。在一些实施例中，可以基于参考视频(例如，热门视频等)的音乐配对构建训练样本和标签，用于训练匹配模型。

在一些实施例中，匹配模型的训练标签获取过程可以包括：获取大量已配乐的样本视频(例如，大量热门视频等)；获取这些样本视频中的视频片段和视频中的配乐音乐的匹配关系；获取这些样本视频的视频关键点和相关特征；将样本视频的视频关键点和相关特征与相应的视频片段和配乐音乐的匹配关系之间的对应关系作为训练标签。

在一些实施例中，匹配模型的训练过程可以包括：将样本视频的视频关键点和相关特征输入匹配模型，获取输出的样本视频中各个视频片段与配乐音乐的匹配关系，其中，这些配乐音乐是从音乐库中获取的，而音乐库是由从样本视频中提取出的所有配乐音乐组成的；根据训练标签对匹配模型的参数进行调整，使得输出的匹配关系与样本视频中原始的匹配关系逐步接近直至相同。

在一些实施例中，匹配模型至少可以包括序列模型，例如，长短期记忆(LSTM，LongShort-Term Memory)、循环神经网络(RNN，Recurrent Neural Network)等。

在一些实施例中，可以根据预设的匹配函数计算待处理视频中视频片段与目标音乐的匹配得分，将得分高于阈值或得分最高的一个或多个目标音乐作为待处理视频的配乐音乐。

在一些实施例中，完成配乐后的视频可以由用户(例如，待处理视频的制作者或发布者等)自行选择保留视频中的部分片段或全部视频。

在本说明书一些实施例中，基于视频特征标签和音乐特征标签来为未配乐的视频生成配乐方案，使得为视频配乐的难度降低，视频与音乐配乐的匹配度更高，生成高质量配乐视频(例如，短视频)更为便利和高效，减轻了视频制作人的负担，满足了高质量配乐视频的制作需求。

图4是根据本说明书一些实施例所示的更新关系图谱的方法的示例性流程图。

在一些实施例中，可以对关系图谱进行多轮更新，每一轮更新可以如图4所示，其中，流程400可以包括下述步骤。在一些实施例中，流程400可以由关系图谱更新模块240执行。

步骤410，基于预设规则处理关系图谱中至少一个边的值，使得至少一个边的值增大。

在一些实施例中，可以每隔一段时间(例如，一天、三天、一周、一个月等)，将关系图谱中边的值放大，例如，将边的值乘以预设的倍数(例如，1.1、1.2等)。在一些实施例中，当边的值大于阈值(例如，5、6等)，可以将该边的值清空。

在一些实施例中，当关系图谱中某个边的值被清空，可以按照关系图谱初始化的方式重新计算边的新值，即获取参考视频中的视频关键点，计算该边连接的两个节点同时出现的次数n_ab，将该边的值更新，例如，更新为1/n_ab。

随着时间的流逝，关系图谱中旧的视频关键点及其之间的联系有可能失效，在本说明书一些实施例中，可以通过定期扩大边的值来更新关系图谱，使得关系图谱可以定期淘汰其中随时间失效的节点和/或边，从而反映最新的视频的特征，更准确地匹配视频和音乐配乐。

步骤420，获取新的参考视频，基于新的参考视频的视频关键点，对关系图谱中多个节点和至少一个边进行更新。

在一些实施例中，在更新关系图谱时，可以获取新的参考视频；按照初始化关系图谱的方式，获取新参考视频的视频关键点加入关系图谱中；然后计算出新的关系图谱中每两个节点同时出现的次数n_ab；如果原来这两个节点有边连接，原来边的值为e_ab，可以按照如下公式1来计算新的边值e_ab’：

如果原来这两个节点没有边连接，相当于公式1中的e_ab为无穷大，则新的边值e_ab’可以为1/n_ab。

在本说明书一些实施例中，可以通过加入新的参考视频来更新关系图谱，使得关系图谱可以反映新的热点和/或流行趋势，从而提高关系图谱的准确性，并进而得到匹配度更高的视频配乐，提高视频配乐的质量，更好地满足用户的需求。

步骤430，对于关系图谱中至少一个边中的一个，基于边连接的两个节点之间的第一关联度，对边的值进行更新。

对于一些语义上的标签对，时间等因素并不影响其关联性，例如，婚礼和婚礼庆典、高兴和开心等，这样的标签对应该在更新中得到保留。在一些实施例中，可以通过多种方式来识别语义上的标签对，例如，通过基于里奇流的社区发现算法等各种算法、通过基于机器学习的语言模型等。

第一关联度是指连接边的两个节点间的语义关联度，可以用离散里奇曲率等来表示。在一些实施例中，对于关系图谱中的一个边，可以获取该边连接的两个节点之间的第一关联度，基于第一关联度对边的值进行更新。

在一些实施例中，可以通过以下公式2来计算边的新值：

其中，

表示第i轮更新后的边ab第i+1次的值；d⁽ⁱ⁾(a,b)表示第i轮更新前a和b节点在关系图谱中的最短距离；ε表示学习率，可以根据实验结果确定，其值大于0，例如，可以取其默认值1；

表示第i轮更新前节点a和b之间的第一关联度。

关于如何基于边连接的两个节点之间的第一关联度对边的值进行更新的更多细节，可以参见图5的相关内容，在此不再赘述。

在本说明书一些实施例中，可以通过基于边连接的两个节点之间的第一关联度对边的值进行更新，从而保留关系图谱中具有稳定关联关系的标签对，更好更准确地反映标签间的关联关系，使得关系图谱更加准确，基于关系图谱得到的视频配乐匹配度更好。

图5是根据本说明书一些实施例所示的确定节点关联度的方法的示例性流程图。

在一些实施例中，可以根据如图4所示的方法获取两个节点间的第一关联度，其中，流程500可以包括下述步骤。在一些实施例中，流程500可以由关系图谱更新模块240执行。

步骤510，对于两个节点中的一个节点，确定节点的关联概率分布。

第二关联度是指关系图谱中两个节点间的关联程度，可以用关联概率来表示。在一些实施例中，第二关联度，即关联概率的数值可以根据两个节点是否是邻节点来确定。关系图谱中两个节点为邻节点可以表示这两个节点是由一条边直接连接的。

在一些实施例中，关系图谱中一个节点的关联概率分布可以代表该节点与关系图谱中任意一个节点之间的第二关联度的概率分布。关联概率分布是指不同前提条件下节点间的关联概率(关联程度)。

在一些实施例中，对于关系图谱中边连接的两个节点中的一个，可以通过如下所示的公式3来确定该节点的关联概率分布：

其中，

是节点x的概率分布函数，对于节点x，x与x的邻节点(即π(x))会组成一个团，在这个团中，节点x是中心点，其余每个节点对x这个中心节点要么相似要么相关联，其中，相似是指两节点的语义等相同或相近(例如，婚礼和婚宴)，相关联是指两节点可以通过边连接，但是语义可以完全不同(例如，婚礼和高兴)，m_x是通过概率分布函数来衡量其余节点对中心节点x的关联或相似程度；α和p是提前预设好的值，其值可以通过实验来确定，其取值范围可以是0<α<1，p>1；d(x,x_i)表示节点x与节点x_i之间的最短距离；C是一个归一化项，可以是固定值；x_i∈π(x)表示节点x_i是节点x的邻节点，x_i＝x表示节点x_i是节点x自身。

在关系图谱中，如果从图谱中(称为源节点)到达另一顶点(称为终点)的路径可能不止一条，那么存在一条路径使得沿此路径上各边上的节点间距离的总和达到最小，则该路径可以称为最短路径，最短路径上所有边的值的和称为源节点和终点之间的最短距离，其中，边的值即为连接该条边的两节点间的距离。例如：节点a和节点b间的边的值为1/2，其距离也是1/2，同理，节点a和节点c间的距离是1/6，节点c和节点b间的距离是1/6，那么节点a和节点b的最短路径为a-c-b，节点a和节点b间的最短距离d(a,b)为1/3。

如公式3所示，在一些实施例中，若节点x_i是节点x的邻节点，即x_i∈π(x)，则节点x与节点x_i之间的第二关联度可以基于节点x与节点x_i之间的最短距离d(x,x_i)确定，即

如公式3所示，在一些实施例中，若节点x_i不是节点x的邻节点，则节点x与节点x_i之间的第二关联度可以为预设值，例如，当节点x_i是节点x自身，即x_i＝x时，第二关联度

可以为预设值α。又例如，当节点x_i既不是节点x的邻节点，也不是节点x自身时，第二关联度

可以为0。

步骤520，基于两个节点的关联概率分布之间的差异和两个节点之间的最短距离，确定两个节点之间的第一关联度。

在一些实施例中，可以基于两个节点的关联概率分布之间的差异(例如，Wasserstein距离等)和两个节点之间的最短距离，通过如下所示的公式4来确定两个节点之间的第一关联度：

其中，K_ab表示节点a和节点b的第一关联度，W(m_a,m_b)表示节点a和节点b之间的Wasserstein距离，m_a和m_b分别是节点a和节点b的第二关联度；d(a,b)表示节点a和节点b之间的最短距离。

在一些实施例中，关系图谱中两个节点关联概率分布的差异，可以用两个节点间概率分布之间的距离来表示，例如，公式4中的Wasserstein距离等。

在本说明书一些实施例中，可以基于节点间的关联概率分布间的差异来获取节点间的语义关联度，能够得到更为准确的节点间的语义关联关系，从而保留了关系图谱中具有稳定关联关系的标签对。

应当注意的是，上述有关流程300、流程400、流程500的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程300、流程400、流程500进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。例如，步骤420和步骤430的执行顺序可以交换。又例如，步骤410、步骤420和步骤430中的更新方式可以单独使用，也可以任意组合使用。

在一些实施例中，可以建立并维护候选标签情绪关系图谱，例如，关系图谱610。关系图谱610中可以包含多个节点和连接这些节点的至少一个边，这些节点可以代表参考视频(例如，实时热点620)的视频关键点，即参考视频的视频标签和情绪标签，对于这些边中的一个，这个边可以代表连接的两个节点对应的视频关键点同时与至少一个参考视频相关，这个边的值可以由相关的参考视频的数量确定。

在一些实施例中，关系图谱610可以通过步骤611对关系图谱初始化，步骤611可以包括：抓取热门视频，即实时热点620作为参考视频；使用NLP抽取，情感分类等方式将实时热点620中的视频标签和情绪标签提取出来；为每一个视频标签和情绪标签建立一个图节点，初始图所有节点之间没有关联，通过抓取的同一视频中的几个标签，建立节点间的边联系。仅作为示例，初始关系图谱中共有a、b、c、d四个标签节点，没有边联系。在几个参考视频中，识别到了a和b同时出现，则a和b之间将有边E_ab联系，并且边E_ab的值可以设置为1/n_ab，其中，n_ab代表a和b同时出现的参考视频的数量；如果在这些参考视频中出现了两个以上的标签，则每两个标签按照其同时出现的参考视频的数量为其进行边值的添加或者更新。

在一些实施例中，关系图谱610可以经过多轮更新，其中，每一轮更新至少可以包括步骤613关系图谱热点更新和步骤615关系图谱里奇流更新。

在一些实施例中，步骤613可以包括：基于预设规则处理关系图谱中边的值，使得边的值增大，更多内容可以参见步骤410；然后，可以获取新的参考视频，即实时热点620，基于新的参考视频的视频关键点，对关系图谱中节点和边进行更新，更多内容可以参见步骤420，在此不再赘述。

在一些实施例中，步骤615可以包括：对于关系图谱中的一个边，基于该边连接的两个节点之间的第一关联度，对该边的值进行更新，更多细节可以参见步骤430及图5相关内容，在此不再赘述。

在一些实施例中，对于待处理视频630，可以通过步骤631获取至少一个视频关键点作为待匹配关键点，然后基于至少一个待匹配关键点通过步骤632从关系图谱610中选取(确定)多个候选关键点。

在一些实施例中，可以基于多个候选关键点和待处理视频的相关特征，从音乐库640中确定与待处理视频匹配的至少一个目标音乐，并将至少一个目标音乐作为待处理视频的配乐音乐。

在一些实施例中，可以通过步骤636获取待处理视频的相关特征。

在一些实施例中，可以通过步骤641从音乐库640中进行音乐匹配选取，步骤641可以包括：基于多个候选关键点和待处理视频的相关特征，通过匹配模型获取匹配方案，其中，匹配方案中可以包括至少一个目标音乐与待处理视频中至少一个视频片段之间的对应关系，更多内容可以参见步骤330，在此不再赘述。

在一些实施例中，当获取到与待处理视频匹配的音乐后，可以通过步骤642生成配乐视频，例如，可以根据匹配方案，将匹配的音乐与视频结合，获取带有配乐的视频，完成后的视频可以由视频发布者等自行选择保留视频中的哪些部分。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种视频配乐的方法，包括：

确定待处理视频的至少一个待匹配关键点；

基于所述至少一个待匹配关键点从关系图谱中确定多个候选关键点，所述关系图谱中包含多个节点和连接所述多个节点的至少一个边，所述多个节点代表参考视频的视频关键点，对于所述至少一个边中的一个，所述边代表连接的两个节点对应的视频关键点同时与至少一个所述参考视频相关，所述边的值由相关的所述参考视频的数量确定；

基于所述多个候选关键点和所述待处理视频的相关特征，从音乐库中确定与所述待处理视频匹配的至少一个目标音乐，并将所述至少一个目标音乐作为所述待处理视频的配乐音乐，所述音乐库中包括多个参考音乐及与所述多个参考音乐对应的音乐关键点。

2.如权利要求1所述的方法，所述视频关键点和/或所述音乐关键点包括：

内容分类和情绪分类中的至少一种。

3.如权利要求1所述的方法，所述待处理视频的相关特征包括视频的长度、场景变换节点和场景特征。

4.如权利要求1所述的方法，还包括：对所述关系图谱进行多轮更新，所述多轮更新中的每一轮更新包括：

基于预设规则处理所述关系图谱中所述至少一个边的值，使得所述至少一个边的值增大；

获取新的参考视频，基于所述新的参考视频的视频关键点，对所述关系图谱中所述多个节点和所述至少一个边进行更新；和/或

对于所述关系图谱中所述至少一个边中的一个，基于所述边连接的两个节点之间的第一关联度，对所述边的值进行更新。

5.如权利要求4所述的方法，确定所述边连接的两个节点之间的第一关联度，包括：

对于所述两个节点中的一个节点，确定所述节点的关联概率分布，所述关联概率分布代表所述节点与所述关系图谱中任意一个节点之间的第二关联度的概率分布；

基于所述两个节点的所述关联概率分布之间的差异和所述两个节点之间的最短距离，确定所述两个节点之间的第一关联度。

6.如权利要求5所述的方法，所述确定所述节点的关联概率分布，包括：

若所述任意一个节点是所述节点的邻节点，则所述第二关联度基于所述节点和所述任意一个节点之间的最短距离确定；

若所述任意一个节点不是所述节点的邻节点，则所述第二关联度为预设值。

7.如权利要求1所述的方法，所述基于所述至少一个待匹配关键点从关系图谱中确定多个候选关键点包括：

从所述关系图谱中确定与所述至少一个待匹配关键点满足预设匹配要求的目标关键点；

基于所述目标关键点与所述关系图谱中除所述目标关键点之外的其他关键点之间的邻近关系，确定所述多个候选关键点。

8.如权利要求1所述的方法，所述基于所述多个候选关键点和所述待处理视频的相关特征，从音乐库中确定与所述待处理视频匹配的至少一个目标音乐包括：

基于所述多个候选关键点和所述待处理视频的相关特征，通过匹配模型获取匹配方案，所述匹配方案中包括所述至少一个目标音乐与所述待处理视频中至少一个视频片段之间的对应关系。

9.一种视频配乐的系统，包括待匹配关键点确定模块、候选关键点确定模块和配乐音乐确定模块；

所述待匹配关键点确定模块用于确定待处理视频的至少一个待匹配关键点；

所述候选关键点确定模块用于基于所述至少一个待匹配关键点从关系图谱中确定多个候选关键点，所述多个节点代表参考视频的视频关键点，对于所述至少一个边中的一个，所述边代表连接的两个节点对应的视频关键点同时与至少一个所述参考视频相关，所述边的值由相关的所述参考视频的数量确定；

所述配乐音乐确定模块用于基于所述多个候选关键点和所述待处理视频的相关特征，从音乐库中确定与所述待处理视频匹配的至少一个目标音乐，并将所述至少一个目标音乐作为所述待处理视频的配乐音乐，所述音乐库中包括多个参考音乐及与所述多个参考音乐对应的音乐关键点。

10.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1～8任一项所述的视频配乐的方法。