CN113656635A

CN113656635A - 视频彩铃合成方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113656635A
Application number: CN202111035624.3A
Authority: CN
Inventors: 龙宇
Original assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-11-16
Anticipated expiration: 2041-09-03
Also published as: CN113656635B

Abstract

本发明公开了一种视频彩铃合成方法、装置、设备及计算机可读存储介质，视频彩铃合成方法包括：采集用户演唱过程中的音视频数据，其中，所述音视频数据包括：所述用户演唱过程中的面部视频数据以及演唱音频数据；根据所述面部视频数据确定面部情绪值；根据所述演唱音频数据确定声音情绪值；根据所述面部情绪值和声音情绪值确定目标情绪值，并根据所述目标情绪值推荐歌曲至移动终端，以便所述移动终端根据推荐的歌曲进行视频彩铃合成。本发明避免了视频彩铃合成方式单一、智能程度低的现象发生。

Description

视频彩铃合成方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种视频彩铃合成方法、装置、设备及计算机可读存储介质。

背景技术

现有视频彩铃合成场景是：用户在咪咕爱唱K歌房中，选择曲目进行演唱，然后将演唱的曲目进行合成为视频彩铃后，下发至用户手机账号上。现有视频彩铃的制作方式是只能采集用户在K歌房中演唱曲目的音频和原始曲目进行合成，形式单一、传统，不能很好的和用户形成互动，用户也较难按照自己意愿编辑出符合自己喜好的视频彩铃。

发明内容

本发明的主要目的在于提供一种视频彩铃合成方法、装置、设备及计算机可读存储介质，旨在解决目前的视频彩铃合成方式单一，智能程度低的技术问题。

为实现上述目的，本发明提供一种视频彩铃合成方法，包括以下步骤：

采集用户演唱过程中的音视频数据，其中，所述音视频数据包括：所述用户演唱过程中的面部视频数据以及演唱音频数据；

根据所述面部视频数据确定面部情绪值；

根据所述演唱音频数据确定声音情绪值；

根据所述面部情绪值和声音情绪值确定目标情绪值，并根据所述目标情绪值推荐歌曲至移动终端，以便所述移动终端根据推荐的歌曲进行视频彩铃合成。

可选地，所述面部视频数据包括多个人物图像，所述根据所述面部视频数据确定面部情绪值的步骤，包括：

遍历各所述人物图像，得到所述人物图像对应的面部矩阵；

确定所述人物图像中所有关键特征在所述面部矩阵的关键特征坐标；

将所述关键特征坐标输入至预设的面部表情变化计算公式进行计算，以得到面部情绪值。

可选地，所述将所述关键特征坐标输入至预设的面部表情变化计算公式进行计算，以得到面部情绪值的步骤，包括：

确定所述人物图像对应的其它人物图像，并将所述人物图像的关键特征坐标作为第一关键特征坐标，将所述其它人物图像的关键特征坐标作为第二关键特征坐标；

将所述第一关键特征坐标和所述第二关键特征坐标输入至预设的面部表情变化计算公式进行计算，得到面部表情变化值；

根据所述面部表情变化值确定面部情绪值。

可选地，所述根据所述面部表情变化值确定面部情绪值的步骤，包括：

获取所述面部表情变化值中的最大面部表情变化值，并确定预设的面部情绪对照表中和所述最大面部表情变化值匹配的匹配面部表情变化值；

获取所述面部情绪对照表中匹配面部表情变化值对应的第一情绪值，并将所述第一情绪值作为面部情绪值。

可选地，所述根据所述演唱音频数据确定声音情绪值的步骤，包括：

获取所述演唱音频数据中的用户声音和标准声音，并根据所述用户声音和标准声音计算声音变化值；

确定预设的声音情绪对照表中和所述声音变化值匹配的匹配声音变化值，并将所述匹配声音变化值对应的情绪值作为声音情绪值。

可选地，所述根据所述用户声音和标准声音计算声音变化值的步骤，包括：

对用户声音进行波形图处理，得到用户声音波形图，并确定所述用户声音波形图中波峰和波谷之间的第一最大落差；

对标准声音进行波形图处理，得到标准声音波形图，并确定所述标准声音波形图中波峰和波谷之间的第二最大落差；

计算所述第一最大落差和所述第二最大落差的差值，并确定所述差值在所述第二最大落差中所占据的比例值，将所述比例值作为声音变化值。

可选地，所述根据所述面部情绪值和声音情绪值确定目标情绪值，并根据所述目标情绪值推荐歌曲至移动终端的步骤，包括：

若所述面部情绪值的等级大于所述声音情绪值的等级，则将所述面部情绪值作为目标情绪值，或，若所述声音情绪值的等级大于所述面部情绪值的等级，则将所述声音情绪值作为目标情绪值；

若所述目标情绪值的优先级最大，则将所述目标情绪值对应的歌曲推荐至移动终端。

此外，为实现上述目的，本发明还提供一种视频彩铃合成装置，包括：

采集模块，用于采集用户演唱过程中的音视频数据，其中，所述音视频数据包括：所述用户演唱过程中的面部视频数据以及演唱音频数据；

面部情绪分析模块，用于根据所述面部视频数据确定面部情绪值；

声音情绪分析模块，用于根据所述演唱音频数据确定声音情绪值；

推荐模块，用于根据所述面部情绪值和声音情绪值确定目标情绪值，并根据所述目标情绪值推荐歌曲至移动终端，以便所述移动终端根据推荐的歌曲进行视频彩铃合成。

此外，为实现上述目的，本发明还提供一种视频彩铃合成设备，视频彩铃合成设备包括存储器、处理器及存储在存储器上并可在处理器上运行的视频彩铃合成程序，视频彩铃合成程序被处理器执行时实现如上述的视频彩铃合成方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有视频彩铃合成程序，视频彩铃合成程序被处理器执行时实现如上述的视频彩铃合成方法的步骤。

本发明通过在用户处于唱歌状态时，获取采集的音视频数据，并根据音视频数据中的面部视频数据确定面部情绪值，根据音视频数据中的演唱音频数据确定声音情绪值，再根据面部情绪值和声音情绪值确定目标情绪值，并根据目标情绪值推荐歌曲至移动终端进行视频彩铃合成，从而避免了现有技术中用户无法按照意愿编辑出符合自己喜好的视频彩铃，导致智能程度单一的现象发生，通过根据目标情绪值推荐歌曲来进行视频彩铃合成，提高了视频彩铃合成的智能程度，并且由于目标情绪值是根据采集的音视频数据进行情绪分析得到的，也符合用户自身的意愿，避免了视频彩铃合成方式单一的现象发生。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图；

图2为本发明视频彩铃合成方法第一实施例的流程示意图；

图3为本发明视频彩铃合成装置的装置单元示意图；

图4为本发明视频彩铃合成方法中的流程示意图；

图5为本发明视频彩铃合成方法中的面部矩阵示意图；

图6为本发明视频彩铃合成方法中的用户声音波形示意图；

图7为本发明视频彩铃合成方法中的标准声音波形示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端为视频彩铃合成设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端设备移动到耳边时，关闭显示屏和/或背光。当然，终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频彩铃合成程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频彩铃合成程序，并执行以下操作：

根据所述面部视频数据确定面部情绪值；

根据所述演唱音频数据确定声音情绪值；

参照图2，本发明提供一种视频彩铃合成方法，在视频彩铃合成方法的第一实施例中，视频彩铃合成方法包括以下步骤：

步骤S10，采集用户演唱过程中的音视频数据，其中，所述音视频数据包括：所述用户演唱过程中的面部视频数据以及演唱音频数据；

由于目前的视频彩铃合成方式单一，智能性低。因此，在本实施例中，是基于K歌房的终端采集能力，采集上报终端用户在K歌过程中的音视频数据，上报至中心服务器，中心服务器根据抽帧进行面部识别，分析终端用户所演唱的歌曲、用户演唱期间的面部表情、用户演唱过程中的情绪波动等计算因子，通过针对原数据进行标签化管理，根据该歌曲标签及权重的算法调整，动态对用户自定义编辑彩铃的素材进行推荐，提高用户的自定义编辑体验。

也就是在本实施例中，是借助K歌房的音视频采集传感器，对用户输入的音画图像进行分析，并且和演唱曲目进行匹配，从而计算、推荐出契合用户当前情绪的彩铃素材供用户进行编辑，合成、生成视频彩铃。

并且本实施例中的视频彩铃合成方法是应用于中心服务器，因此在中心服务器开始处理之前，需要先确定K歌房用户选择的曲目，并在用户开始K歌时，K歌房利用传感器采集用户的音视频数据，并将其上传至中心服务器。具体的，当用户处于唱歌时，即用户处于唱歌状态时，K歌房将采集的音视频数据发送至中心服务器。并且在本实施例中，音视频数据包括用户演唱过程中的面部视频数据以及演唱音频数据，而面部视频数据又包括人物图像、演唱音频数据又包括声音信息(用户声音和标准声音)。而人物图像的获取方式可以是通过K歌房的高清摄像头对正在K歌的用户连续、间歇拍摄多张图片，作为人物图像，如拍摄三张图片，分别记为P0、P1、P2。而用户声音的获取方式则是对采集用户的声音信息进行提取，截取5秒声音信息文件，记为V，并将其作为用户声音。标准声音的获取方式是抽取用户所唱歌曲同时间段的原唱音源模块语言库信息文件，记为S，即标准声音。

步骤S20，根据所述面部视频数据确定面部情绪值；

步骤S30，根据所述演唱音频数据确定声音情绪值；

在本实施例中，当中心服务器获取到音视频数据后，会构建个性化视频彩铃素材推荐模型，即会根据用户K歌时面部特征获取用户对当下(演唱歌曲)的情绪值，同时通过用户K歌时的声音与原音比较获取用户对当下(演唱歌曲)的情绪值，再根据体现用户对当下(演唱歌曲)的两个情绪值进行合并计算，得出用户最终对当下(演唱歌曲)的情绪值，根据该情绪值向用户实时推荐与之匹配的视频彩铃制作素材，供用户进行合成使用。

因此，在对音视频数据中的面部视频数据进行面部情绪分析时，可以先将所有的人物图像划分为面部矩阵，再对各个面部图像进行比对计算，以得出用户的面部表情变化值，根据用户的面部表情变化值获得用户的面部情绪值。在对音视频数据中的演唱音频数据进行声音情绪分析时，可以对用户声音和标准声音分别进行波形图处理，再计算用户声音变化值，根据用户声音变化值确定用户的声音情绪值。

需要说明的是，在本实施例中，对音视频数据进行面部情绪分析或声音情绪分析的时间先后顺序并不做限制，即可以同时进行，也可以分开进行。

步骤S40，根据所述面部情绪值和声音情绪值确定目标情绪值，并根据所述目标情绪值推荐歌曲至移动终端，以便所述移动终端根据推荐的歌曲进行视频彩铃合成。

在本实施例中，可以提前将情绪值之间的大小关系设定为激动>兴奋>高兴>投入>正常。将表情变化对应的情绪值和声音变化对应的情绪值合并进行计算，取两者间最高等级作为用户的情绪标签Mf＝Max(Mm,Ms)。例如：表情变化应对的情绪标签是投入，声音变化应对的情绪标签是兴奋，则用户情绪标签为“兴奋”。

因此在得到面部情绪值和声音情绪值时，若面部情绪值的情绪标签的等级大于声音情绪值的情绪标签等级，则直接将面部情绪值作为目标情绪值。同理，若声音情绪值的情绪标签的等级大于面部情绪值的情绪标签等级，则直接将声音情绪值作为目标情绪值。而在根据目标情绪值推荐歌曲至移动终端时，需要根据目标情绪值的优先级进行推荐，即会根据用户K歌时各个情绪值对应的歌曲风格标签，并将这些风格标签进行推荐优先级排序。

如若用户K歌时，目标情绪值是激动，则此时对应的歌曲风格标签为最优推荐，优先级为0；若用户K歌时，目标情绪值是兴奋，则此时对应的歌曲风格标签为次优推荐，优先级为1；若用户K歌时，目标情绪值是高兴，则此时对应的歌曲风格标签为一般推荐，优先级为2；若用户K歌时，目标情绪值是投入，则此时对应的歌曲风格标签为可考虑推荐，优先级为3；若用户K歌时，目标情绪值是正常，则此时对应的歌曲风格标签为不推荐，优先级为4。并且在本实施例中，在制作视频彩铃的素材库中，已经为各种视频彩铃素材预设了对应的歌曲风格标签，根据业务运营场景需要，向用户推荐视频彩铃制作素材时，按用户的歌曲风格标签推荐优先级向用户推荐视频彩铃的制作素材。

并且在本实施例中，当中心服务器根据目标情绪值推荐歌曲到移动终端后，移动终端会根据推荐的歌曲构建制作视频彩铃的素材库，并在素材库中选择合适的歌曲进行视频彩铃合成。

此外，为辅助理解本实施例中，对视频彩铃合成流程的理解，下面进行举例说明。

例如，如图4所示，用户在咪咕爱唱K歌房选择曲目，开始K歌；K歌房利用传感器，采集用户的音视频原始数据，即采集用户图像和采集用户音频；K歌房将用户音视频数据通过网络上传至中心服务器；中心服务器对用户音视频数据进行分析，动态判断用户情绪；中心服务器根据用户数据的分析结果，结合用户选择曲目，推荐相关的彩铃编辑素材；用户完成彩铃合成，并下发至自己手机账户。

在本实施例中，通过在用户处于唱歌状态时，获取采集的音视频数据，并根据音视频数据中的面部视频数据确定面部情绪值，根据音视频数据中的演唱音频数据确定声音情绪值，再根据面部情绪值和声音情绪值确定目标情绪值，并根据目标情绪值推荐歌曲至移动终端进行视频彩铃合成，从而避免了现有技术中用户无法按照意愿编辑出符合自己喜好的视频彩铃，导致智能程度单一的现象发生，通过根据目标情绪值推荐歌曲来进行视频彩铃合成，提高了视频彩铃合成的智能程度，并且由于目标情绪值是根据采集的音视频数据进行情绪分析得到的，也符合用户自身的意愿，避免了视频彩铃合成方式单一的现象发生。

进一步地，基于上述本发明的第一实施例，提出本发明视频彩铃合成方法的第二实施例，在本实施例中，上述实施例步骤S20，根据所述面部视频数据确定面部情绪值的步骤的细化，包括：

步骤a，遍历各所述人物图像，得到所述人物图像对应的面部矩阵；

步骤w，确定所述人物图像中所有关键特征在所述面部矩阵的关键特征坐标；

在本实施例中，面部视频数据包括多个人物图像。在获取面部情绪值时，可以先遍历各个人物图像，并将遍历的人物图像转换为面部矩阵，并且在本实施例中需要将所有的人物图像都依次转换为各自对应的面部矩阵，在转换时，可以对人物图像进行面部特写提取，也就是面部矩阵中只需要包括面部特征即可。并且构建面部矩阵时，可以是以鼻尖为图像中心参照物，耳廓为边界，将面部特写图片等分为X*Y＝20*28的面部矩阵，如图5所示的面部矩阵。

并且当构建好面部矩阵后，需要确定遍历的人物图像中所有关键特征在面部矩阵中的坐标，即关键特征坐标，如左眼中心(Ax，Ay)、右眼中心(Bx，By)、嘴唇中间上部(Cx，Cy)、嘴唇中间下部(Dx，Dy)、嘴唇左嘴角(Ex，Ey)、嘴唇右嘴角(Fx，Fy)的坐标位置(分别记录为x0,y0至x2，y2)。

步骤b，将所述关键特征坐标输入至预设的面部表情变化计算公式进行计算，以得到面部情绪值。

并且在本实施例中，由于每个人物图像都对应有各自对应的面部矩阵，因此可以获取各个人物图像对应的所有关键特征，并依次输入至提前设置好的面部表情变化计算公式中进行计算，再根据计算的所有结果来确定面部情绪值。

在本实施例中，通过获取人物图像对应的面部矩阵，并确定各个关键特征坐标，并将关键特征坐标输入到面部表情变化计算公式进行计算，得到面部情绪值，从而保障了获取到的面部情绪值的准确性。

具体地，将所述关键特征坐标输入至预设的面部表情变化计算公式进行计算，以得到面部情绪值的步骤，包括：

步骤c，确定所述人物图像对应的其它人物图像，并将所述人物图像的关键特征坐标作为第一关键特征坐标，将所述其它人物图像的关键特征坐标作为第二关键特征坐标；

在计算面部情绪值时，可以遍历各个人物图像，确定各个人物图像中除了遍历的人物图像之外的其它人物图像，例如可以将P0作为遍历的人物图像，将P1和P2作为其它人物图像，再将遍历的人物图像的关键特征坐标作为第一关键特征坐标，将其它人物图像的关键特征坐标作为第二关键特征坐标。

步骤d，将所述第一关键特征坐标和所述第二关键特征坐标输入至预设的面部表情变化计算公式进行计算，得到面部表情变化值；

并且在计算面部表情变化值时，可以直接将第一关键特征坐标和第二关键特征输入至面部表情变化计算变化计算公式中进行计算，例如，以P1和P0为例，则面部表情变化值为

MP10＝{[√(Ax1-Ax0)₂+(Ay1-Ay0)₂]+[√(Bx1-Bx0)₂+(By1-By0)2]+[√(Cx1-Cx0)₂+(Cy1-Cy0)₂]+[√(Dx1-Dx0)₂+(Dy1-Dy0)2]+[√(Ex1-Ex0)₂+(Ey1-Ey0)₂]+[√(Fx1-Fx0)₂+(Fy1-Fy0)₂]}/6。

并且在本实施例中，需要计算每两个人物图像之间的面部表情变化值。

步骤e，根据所述面部表情变化值确定面部情绪值。

当获取到各个人物图像对应的面部表情变化值后，可以直接在各个面部表情变化值中选择最大的面部表情变化值。若面部表情变化值为MP10和MP20，则最大的面部表情变化值为MP＝Max(MP10，MP20)。

然后再将最大的面部表情变化值对应的情绪值作为面部情绪值。

在本实施例中，通过确定人物图像对应的第一关键特征坐标和其它人物图像对应的第二关键特征坐标，并将其输入至面部表情变化计算公式进行计算，得到面部表情变化值，再根据各个面部表情变化值确定面部情绪值，从而保障了获取到的面部情绪值的准确性。

具体地，根据所述面部表情变化值确定面部情绪值的步骤，包括：

步骤f，获取所述面部表情变化值中的最大面部表情变化值，并确定预设的面部情绪对照表中和所述最大面部表情变化值匹配的匹配面部表情变化值；

在本实施例中，需要获取各个人物图像对应的所有面部表情变化值中最大的面部表情变化值，并将其作为最大面部表情变化值，再将提前设置好的面部情绪对照表和最大面部表情变化值进行匹配，以确定面部情绪表中和最大面部表情变化值匹配的匹配面部表情变化值。

步骤g，获取所述面部情绪对照表中匹配面部表情变化值对应的第一情绪值，并将所述第一情绪值作为面部情绪值。

并在确定匹配面部表情变化值后，可以直接将匹配面部表情变化值在面部情绪对照表中对应的情绪值作为第一情绪值，并将第一情绪值作为面部情绪值。其中，面部情绪对照表可以如下表1所示，但不限制于表1。

面部表情变化值	情绪值
		(0，0.5】	正常
(0.5，1】	投入
		(1，1.5】	高兴
(1.5，2】	兴奋
		大于2	激动

表1

在本实施例中，通过确定最大面部表情变化值，并将最大面部表情变化值在面部情绪对照表中对应的第一情绪值作为面部情绪值，从而保障了获取到的面部情绪值的准确性。

进一步地，根据所述演唱音频数据确定声音情绪值的步骤，包括：

步骤h，获取所述演唱音频数据中的用户声音和标准声音，并根据所述用户声音和标准声音计算声音变化值；

在本实施例中，演唱音频数据包括声音信息。在对音视频数据进行声音情绪分析时，可以是先确定声音信息中的用户声音和标准声音，再分别对用户声音和标准声音进行图形转换处理，并进行相应的计算，以得到声音变化值。

步骤k，确定预设的声音情绪对照表中和所述声音变化值匹配的匹配声音变化值，并将所述匹配声音变化值对应的情绪值作为声音情绪值。

在计算得到声音变化值后，可以直接在提前设置的声音情绪对照表中，来确定和声音变化值匹配的匹配声音变化值，并将匹配声音变化值在声音情绪对照表中对应的情绪值作为声音情绪值。其中，声音情绪对照表可以如下

表2所示。

声音变化值	情绪值
		(0，20％】	正常
(20％，30％】	投入
		(30％，40％】	高兴
(40％，50％】	兴奋
		大于50％	激动

表2

在本实施例中，通过根据声音信息中的用户声音和标准声音计算声音变化值，并根据声音情绪对照表确定声音变化值对应的声音情绪值，从而保障了获取到的声音情绪值的准确性。

具体地，根据所述用户声音和标准声音计算声音变化值的步骤，包括：

步骤m，对用户声音进行波形图处理，得到用户声音波形图，并确定所述用户声音波形图中波峰和波谷之间的第一最大落差；

在本实施例中，可以对用户声音进行波形图处理，即对声音信息文件V进行波形图处理，得到用户声音波形图，如图6所示，然后再计算用户声音波形图中波峰和波谷之间的落差，并从各个落差中选择最大的落差作为第一最大落差N。

步骤n，对标准声音进行波形图处理，得到标准声音波形图，并确定所述标准声音波形图中波峰和波谷之间的第二最大落差；

在本实施例中，还可以对标准声音进行波形图处理，即对声音信息文件S进行波形图处理，得到标准声音波形图，如图7所示，然后再计算标准声音波形图中波峰和波谷之间的落差，并从各个落差中选择最大的落差作为第二最大落差L。

步骤p，计算所述第一最大落差和所述第二最大落差的差值，并确定所述差值在所述第二最大落差中所占据的比例值，将所述比例值作为声音变化值。

然后再计算第一最大落差和第二最大落差之间的差值，计算该差值在第二最大落差中所占据的比例值，并将其作为声音变化值，即计算用户声音变化值MS＝(N-L)/L*100％。

在本实施例中，通过对用户声音进行波形图处理，以确定第一最大落差，对标准声音进行波形图处理，以确定第二最大落差，再计算第一最大落差和第二最大落差的差值，并将该差值在第二最大落差中的比例值作为声音变化值，从而保障了获取到的声音变化值的准确性。

进一步地，根据所述面部情绪值和声音情绪值确定目标情绪值，并根据所述目标情绪值推荐歌曲至移动终端的步骤，包括：

步骤x，若所述面部情绪值的等级大于所述声音情绪值的等级，则将所述面部情绪值作为目标情绪值，或，若所述声音情绪值的等级大于所述面部情绪值的等级，则将所述声音情绪值作为目标情绪值；

在本实施例中，会对各个情绪值设置不同的情绪标签，且各个情绪标签存在相应的等级关系，如激动>兴奋>高兴>投入>正常。当面部情绪值的情绪标签的等级大于声音情绪值的情绪标签的等级时，将面部情绪值作为目标情绪值。当声音情绪值的情绪标签的等级大于面部情绪值的情绪标签的等级时，将声音情绪值作为目标情绪值。

步骤y，若所述目标情绪值的优先级最大，则将所述目标情绪值对应的歌曲推荐至移动终端。

并在确定目标情绪值后，由于各个情绪标签的等级不同，因此各个情绪标签对应的歌曲风格的优先级也不同。若目标情绪值的优先级最大，则直接将目标情绪值对应的歌曲作为最优推荐，推荐至移动终端。若目标情绪值的优先级最低，则不推荐。

在本实施例中，通过根据面部情绪值和声音情绪值的等级确定目标情绪值，并在目标情绪值的优先级最大时，将目标情绪值对应的歌曲推荐至移动终端，从而便于后续的视频彩铃合成。

此外，参照图3，本发明实施例还提供一种视频彩铃合成装置，包括：

采集模块A10，用于采集用户演唱过程中的音视频数据，其中，所述音视频数据包括：所述用户演唱过程中的面部视频数据以及演唱音频数据；

面部情绪分析模块A20，用于根据所述面部视频数据确定面部情绪值；

声音情绪分析模块A30，用于根据所述演唱音频数据确定声音情绪值；

推荐模块A40，用于根据所述面部情绪值和声音情绪值确定目标情绪值，并根据所述目标情绪值推荐歌曲至移动终端，以便所述移动终端根据推荐的歌曲进行视频彩铃合成。

可选地，所述面部视频数据包括多个人物图像，所述面部情绪分析模块A20，用于：

遍历各所述人物图像，得到所述人物图像对应的面部矩阵；

可选地，所述面部情绪分析模块A20，用于：

根据所述面部表情变化值确定面部情绪值。

可选地，所述面部情绪分析模块A20，用于：

可选地，所述声音情绪分析模块A30，用于：

可选地，所述推荐模块A40，用于：

其中，视频彩铃合成装置的各个功能模块实现的步骤可参照本发明视频彩铃合成方法的各个实施例，此处不再赘述。

此外，本发明还提供一种视频彩铃合成设备，所述视频彩铃合成设备包括：存储器、处理器及存储在所述存储器上的视频彩铃合成程序；所述处理器用于执行所述视频彩铃合成程序，以实现上述视频彩铃合成方法各实施例的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述视频彩铃合成方法各实施例的步骤。

本发明计算机可读存储介质具体实施方式与上述视频彩铃合成方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频彩铃合成方法，其特征在于，所述视频彩铃合成方法包括以下步骤：

根据所述面部视频数据确定面部情绪值；

根据所述演唱音频数据确定声音情绪值；

2.如权利要求1所述的视频彩铃合成方法，其特征在于，所述面部视频数据包括多个人物图像，所述根据所述面部视频数据确定面部情绪值的步骤，包括：

遍历各所述人物图像，得到所述人物图像对应的面部矩阵；

3.如权利要求2所述的视频彩铃合成方法，其特征在于，所述将所述关键特征坐标输入至预设的面部表情变化计算公式进行计算，以得到面部情绪值的步骤，包括：

根据所述面部表情变化值确定面部情绪值。

4.如权利要求3所述的视频彩铃合成方法，其特征在于，所述根据所述面部表情变化值确定面部情绪值的步骤，包括：

5.如权利要求1所述的视频彩铃合成方法，其特征在于，所述根据所述演唱音频数据确定声音情绪值的步骤，包括：

6.如权利要求5所述的视频彩铃合成方法，其特征在于，所述根据所述用户声音和标准声音计算声音变化值的步骤，包括：

7.如权利要求1-6任一项所述的视频彩铃合成方法，其特征在于，所述根据所述面部情绪值和声音情绪值确定目标情绪值，并根据所述目标情绪值推荐歌曲至移动终端的步骤，包括：

8.一种视频彩铃合成装置，其特征在于，所述视频彩铃合成装置包括：

9.一种视频彩铃合成设备，其特征在于，所述视频彩铃合成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频彩铃合成程序，所述视频彩铃合成程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频彩铃合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频彩铃合成程序，所述视频彩铃合成程序被处理器执行时实现如权利要求1至7中任一项所述的视频彩铃合成方法的步骤。