CN109887524A

CN109887524A - 一种演唱评分方法、装置、计算机设备及存储介质

Info

Publication number: CN109887524A
Application number: CN201910042509.5A
Authority: CN
Inventors: 郑郁晶
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-06-14

Abstract

本发明公开了一种演唱评分方法，该方法首先获取演唱比对请求；从待比对视频数据中提取出对应的待比对音频信息；计算待比对音频信息和基准音频信息的音频相似度，根据音频相似度得到音频数据评分；根据基准时间从待比对视频数据中提取出每一基准时间对应的待比对图像；将待比对图像输入到微表情识别模型中进行识别，得到每一待比对图像的待比对微表情单元；根据基准时间将待比对微表情单元和基准微表情单元进行匹配，根据匹配结果得到微表情数据评分；最后根据音频数据评分和微表情数据评分得到演唱评分，提高了演唱评分的准确性。本发明还公开了一种演唱评分装置及相关计算机设备及存储介质。

Description

一种演唱评分方法、装置、计算机设备及存储介质

技术领域

本发明涉及微表情识别领域，尤其涉及一种演唱评分方法、装置、计算机设备及存储介质。

背景技术

目前很多场景中需要对用户的歌曲演唱进行和原唱作者的相似程度进行评分。已有评分体系基本都是通过进行音频相似度的评估来实现。音频相似度评估通常是基于一个说话人语音信息进行特征提取，提取不同的语音特征等信息后，通常的做法是使用机器学习相关算法对该信息进行分类或者聚类。这样做得到的聚类信息对做相似度评估虽然具有一定作用，但是也存在一些问题，演唱通常包括表演和歌唱两个环节，上述做法只是基于歌唱部分的评分，而忽略了表演的部分，缺乏整体性、全面性。因此在很多场景中仅仅通过音频相似度评估从而得到该歌曲演唱的相似程度缺乏一定的准确性。

发明内容

本发明实施例提供一种演唱评分方法、装置、计算机设备及存储介质，以解决演唱评分准确性不高的问题。

一种演唱评分方法，包括：

获取演唱比对请求，所述演唱比对请求包括待比对视频数据和基准歌曲标识；

根据所述基准歌曲标识获取基准比对视频数据，所述基准比对视频数据包括基准音频信息和基准微表情信息，所述基准微表情信息包括基准时间和每一基准时间对应的基准微表情单元；

从所述待比对视频数据中提取待比对音频信息；

计算所述待比对音频信息和所述基准音频信息的音频相似度，根据所述音频相似度得到音频数据评分；

根据所述基准时间从所述待比对视频数据中提取每一所述基准时间对应的待比对图像；

将所述待比对图像输入到微表情识别模型中进行识别，得到每一所述待比对图像的待比对微表情单元；

根据所述基准时间将所述待比对微表情单元和所述基准微表情单元进行匹配，根据匹配结果得到微表情数据评分；

根据所述音频数据评分和所述微表情数据评分得到演唱评分。

一种演唱评分装置，包括：

演唱比对请求获取模块，用于获取演唱比对请求，所述演唱比对请求包括待比对视频数据和基准歌曲标识；

基准比对视频数据获取模块，用于根据所述基准歌曲标识获取基准比对视频数据，所述基准比对视频数据包括基准音频信息和基准微表情信息，所述基准微表情信息包括基准时间和每一基准时间对应的基准微表情单元；

待比对音频信息提取模块，用于从所述待比对视频数据中提取待比对音频信息；

音频数据评分计算模块，用于计算所述待比对音频信息和所述基准音频信息的音频相似度，根据所述音频相似度得到音频数据评分；

待比对图像提取模块，用于根据所述基准时间从所述待比对视频数据中提取每一所述基准时间对应的待比对图像；

微表情单元识别模块，用于将所述待比对图像输入到微表情识别模型中进行识别，得到每一所述待比对图像的待比对微表情单元；

微表情数据评分获取模块，用于根据所述基准时间将所述待比对微表情单元和所述基准微表情单元进行匹配，根据匹配结果得到微表情数据评分；

演唱评分获取模块，用于根据所述音频数据评分和所述微表情数据评分得到演唱评分。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述演唱评分方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述演唱评分方法。

上述演唱评分方法、装置、计算机设备及存储介质中，通过获取演唱比对请求，演唱比对请求包括待比对视频数据和基准歌曲标识；根据基准歌曲标识获取基准比对视频数据；从待比对视频数据中提取出对应的待比对音频信息；计算待比对音频信息和基准音频信息的音频相似度，根据音频相似度得到音频数据评分；根据基准时间从待比对视频数据中提取出每一基准时间对应的待比对图像；将待比对图像输入到微表情识别模型中进行识别，得到每一待比对图像的待比对微表情单元；根据基准时间将待比对微表情单元和基准微表情单元进行匹配，根据匹配结果得到微表情数据评分；最后根据音频数据评分和微表情数据评分得到演唱评分。通过音频数据评分和微表情数据评分两个因素综合得到待比对视频数据的模仿相似程度，提高了演唱评分的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中演唱评分方法的一应用环境示意图；

图2是本发明一实施例中演唱评分方法的一示例图；

图3是本发明一实施例中演唱评分方法的另一示例图；

图4是本发明一实施例中演唱评分方法的另一示例图；

图5是本发明一实施例中演唱评分方法的另一示例图；

图6是本发明一实施例中演唱评分方法的另一示例图；

图7是本发明一实施例中演唱评分方法的另一示例图；

图8是本发明一实施例中演唱评分装置的一原理框图；

图9是本发明一实施例中演唱评分装置的另一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的演唱评分方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务端进行通信。客户端发送演唱比对请求至服务端，服务端获取演唱比对请求；根据基准歌曲标识获取基准比对视频数据；从待比对视频数据中提取待比对音频信息；计算待比对音频信息和基准音频信息的音频相似度，根据音频相似度得到音频数据评分；根据基准时间从待比对视频数据中提取每一基准时间对应的待比对图像；将待比对图像输入到微表情识别模型中进行识别，得到每一待比对图像的待比对微表情单元；根据基准时间将待比对微表情单元和基准微表情单元进行匹配，根据匹配结果得到微表情数据评分；根据音频数据评分和微表情数据评分得到演唱评分。其中，客户端(计算机设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种演唱评分方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取演唱比对请求，演唱比对请求包括待比对视频数据和基准歌曲标识。

其中，演唱比对请求是指客户端触发的对歌曲演唱进行比对评分的请求。具体地，该演唱比对请求可以为客户端通过特定的控件或者指令来触发，或者在客户端播放特定歌曲时自动触发该演唱比对请求，或者是在客户端接收到特定名称或者标识的比对数据的时候自动触发该演唱比对请求。该特定名称或者标识可以预先定义，客户端在检测到比对数据中包含该特定名称或者标识之后，便触发该演唱比对请求。演唱比对请求包括待比对视频数据和基准歌曲标识。待比对视频数据是指要和特定歌曲的原唱或者特定版本的演唱视频数据进行比对的视频数据，该待比对视频数据包括演唱者的面部图像数据。基准歌曲标识是指用于指示用来和待比对视频数据的歌曲的对应标识。可选地，该基准歌曲标识可以由数字、字母、文字或者符号中的至少一项组成。优选地，该基准歌曲标识可以由歌曲名称和演唱作者共同组成。

在一个具体实施方式中，基准歌曲标识由数字、字母、文字或者符号中的至少一项组成。具体地，客户端获取用户选择或者输入的歌曲信息(例如：歌曲名称和演唱作者)，然后根据该歌曲信息在客户端进行查询，查询到该歌曲信息对应的基准歌曲标识。

S20：根据基准歌曲标识获取基准比对视频数据，基准比对视频数据包括基准音频信息和基准微表情信息，基准微表情信息包括基准时间和每一基准时间对应的基准微表情单元。

其中，基准比对视频数据是预先录制好的用于作为比对基准的视频数据。基准比对视频数据包括基准音频信息和基准微表情信息。基准音频信息是指在基准比对视频数据中对应的音频信息，主要包括演唱者的演唱音频信息。基准微表情信息是指演唱者在演唱过程中的微表情相关的信息。基准微表情信息包括基准时间和每一基准时间对应的基准微表情单元。

基准时间为视频数据中的具体的时间点，可选地，该基准时间为复数个。例如，对于一视频时长为10分钟的基准比对视频数据中。基准时间指示的是基准比对视频数据中的具体时间点，若基准时间为1分50秒和3分40秒，则代表的是该模仿视频中第1分50秒和第3分40秒。基准微表情单元则是作为比对基准的微表情。而每一基准时间对应的基准微表情单元可以是基于该基准时间在基准比对视频数据中获取对应的人脸图像，再对该人脸图像进行微表情识别，以得到基准微表情单元。可以理解地，基准时间和基准微表情单元的数量是相同的。

在该步骤中，根据基准歌曲标识获取基准比对视频数据。在服务端的数据库中，预先将基准歌曲标识和基准比对视频数据进行了关联存储，即一个基准歌曲标识和一个基准比对视频数据是唯一对应的。因此根据基准歌曲标识就可以获取到与之对应的基准比对视频数据。

S30：从待比对视频数据中提取待比对音频信息。

其中，待比对音频信息是指待比对视频数据中的声音信息，特别地，是指演唱者的歌唱部分的声音信息。具体地，可以采用FFmpeg来实现从待比对视频数据中提取出对应的待比对音频信息。FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。示例性地，可以采用如下语句实现：

ffmpeg -i ABC.mp4 -f s16le -ar 16000 test.wav；

其中，ABC.mp4为待比对视频数据，而test.wav为提取得到的待比对音频信息的名称。-ar 16000指采样率为16k，s16le代表数据为16位。可以理解地，上述后缀以及具体数据仅是一个示例性的说明，具体可以根据实际需要进行调整。

S40：计算待比对音频信息和基准音频信息的音频相似度，根据音频相似度得到音频数据评分。

具体地，可以预先分别将待比对音频信息和基准音频信息进行特征向量或者向量矩阵的转化，再根据对应的相似度计算算法来得到音频相似度。进而根据音频相似度进行音频数据评分的确定。示例性地，可以采用基于梅尔倒频谱系数(Mel Frequency CepstrumCoefficient,MFCC)算法分别提取待比对音频信息和基准音频信息的音频特征参数，再根据相似度计算算法来计算两个音频特征参数的相似度即得到音频数据评分。可选地，相似度计算算法可以为欧式距离算法。

S50：根据基准时间从待比对视频数据中提取出每一基准时间对应的待比对图像。

待比对图像为从待比对视频数据中提取的用于进行微表情识别的图像信息。具体地，根据基准时间从待比对视频数据中对应的时间点处提取待比对图像。

具体地，可以根据每一基准时间在待比对视频数据中对应的时间点截取人脸图像，将截取的人脸图像作为待比对图像。进一步地，可以从基准时间对应的时间点附近截取多张人脸图像，以更好地进行后续的比对过程，避免误差。具体地，服务端可以通过截屏的方式从待比对视频数据中提取人脸图像。可以通过OpenCV来实现获取人脸图像的过程，OpenCV提供了一个简便易用的框架以提取视频文件中的图像帧。示例性地，采用VideoCapture类来进行视频读取和写入的操作。首先采用VideoCapture类中的cap＝cv2.VideoCapture()函数显示对应的待比对视频数据，再通过VideoCapture类中的cap.read()函数按预设的帧率读取待比对视频数据，cap.read()函数的返回值有两个：ret和frame。其中，ret是布尔值，如果读取帧是正确的则返回True，如果该待比对视频数据已经读取到结尾，它的返回值就为False，即可以通过cap.read()函数的返回值来判断该待比对视频数据是否读取完毕。frame就是当前截取的图像，其可以为一个三维矩阵。

S60：将待比对图像输入到微表情识别模型中进行识别，得到每一待比对图像的待比对微表情单元。

其中，微表情识别模型是预先训练得到的一个网络模型，用于对待检测信息的人脸微表情进行识别，并输出一个识别结果，即微表情信息。示例性地，微表情信息为开心、悲伤、恐惧、生气、惊讶、厌恶或轻蔑。微表情识别模型可以判断输入的视频数据中人脸对应于预设的多种微表情的概率值，若某种微表情的概率值超过对应的预设阈值，则得到待比对图像对应的微表情即为待比对微表情单元。例如，在本实施例中，可以将微表情识别模型中的情绪设定为开心、悲伤、恐惧、生气、惊讶、厌恶和轻蔑7种。具体地，可以预先采集分别代表这7种情绪的大量视频数据或图像数据进行标注，形成视频数据集获取图像数据集，然后选择对应的神经网络模型或者分类器进行训练，最终得到微表情识别模型。在得到待比对图像之后，将待比对图像输入到微表情识别模型中进行识别，得到每一待比对图像的待比对微表情单元。

S70：根据基准时间将待比对微表情单元和基准微表情单元进行匹配，根据匹配结果得到微表情数据评分。

在该步骤中，根据基准时间将每一待比对图像的待比对微表情单元和对应的基准微表情单元进行比对。具体地，将待比对图像中的待比对微表情单元根据基准时间在基准微表情信息中找到对应的基准微表情单元，再判断待比对微表情单元和该基准微表情单元是否一致。如此对待比对图像中的待比对微表情单元在基准微表情信息中进行一一匹配，得到所有的匹配结果。再根据这个匹配结果，得到微表情数据评分。例如，根据匹配结果中微表情一致的比例来作为微表情数据评分，或者将匹配结果中微表情不一致的比例来作为微表情数据评分。

S80：根据音频数据评分和微表情数据评分得到演唱评分。

在该步骤中，在分别得到音频数据评分和微表情数据评分之后，将音频数据评分和微表情数据评分进行综合，即得到演唱评分。具体地，可以直接将音频数据评分和微表情数据评分进行相加，得到演唱评分。或者可以分别为音频数据评分和微表情数据评分各自赋予一定的权值，进行加权相加，以得到演唱评分。

在本实施例中，通过获取演唱比对请求，演唱比对请求包括待比对视频数据和基准歌曲标识。根据基准歌曲标识获取基准比对视频数据。从待比对视频数据中提取出对应的待比对音频信息。计算待比对音频信息和基准音频信息的音频相似度，根据音频相似度得到音频数据评分。根据基准时间从待比对视频数据中提取出每一基准时间对应的待比对图像。将待比对图像输入到微表情识别模型中进行识别，得到每一待比对图像的待比对微表情单元。根据基准时间将待比对微表情单元和基准微表情单元进行匹配，根据匹配结果得到微表情数据评分。最后根据音频数据评分和微表情数据评分得到演唱评分。通过音频数据评分和微表情数据评分两个因素综合得到待比对视频数据的模仿相似程度，提高了演唱评分的准确性。

在一个实施例中，如图3所示，根据基准时间从待比对视频数据中提取出每一基准时间对应的待比对图像，具体包括如下步骤：

S51：根据基准时间和预设时间段信息，获取对应的时间区间。

其中，预设时间段信息为一个预设的时间段，具体可以根据实际需要而设置，例如，该时间段信息可以为3秒、5秒或者8秒等。再得到基准时间和预设时间段信息之后，将基准时间分别往前取该预设时间段信息，再往后取该预设时间段信息，即得到了对应的时间区间。例如，若基准时间为3分20秒，该预设时间段信息为5秒，则对应的时间区间为[3分15秒,3分25秒]。

S52：根据时间区间从待比对视频数据中进行视频截取，得到待识别视频。

根据得到的时间区间，从待比对视频数据中对应的时间段进行视频截取，即得到待识别视频。例如，若时间区间为[3分15秒,3分25秒]，则将待比对视频数据中对应的[3分15秒,3分25秒]之间的视频数据截取下来，得到待识别视频。

S53：从待识别视频中进行图像提取，得到每一基准时间对应的待比对图像。

在该步骤中，从待识别视频中进行图像提取，具体的提取数量可以根据实际需要进行设定。具体提取方式可以和步骤S50相同，在此不再赘述。

在本实施例中，通过基准时间和预设时间段信息获取到对应的时间区间，再根据时间区间从待检测视频中进行视频截取，得到待识别视频。最终从待识别视频中进行图像提取，得到每一基准时间对应的待比对图像。进一步保证了待比对图像获取的完整性，保证后续比对的准确性。

在一个实施例中，如图4所示，计算待比对音频信息和基准音频信息的音频相似度，根据音频相似度得到音频数据评分，具体包括如下步骤：

S41：分别将待比对音频信息和基准音频信息转换为音频片段的能量谱。

具体地，提取待比对音频信息和基准音频信息，对待比对音频信息和基准音频信息分别进行傅里叶变换并运用窗函数，来得到待比对音频信息的音频片段的能量谱和基准音频信息的音频片段的能量谱。

S42：分别提取两个音频片段能量谱中每帧的chroma特征向量，并组成chroma特征向量组，得到待比对特征矩阵和基准特征矩阵。

其中，Chroma特征向量就是将音频谱信号根据一个音阶中12个的不同音高分入12个块，统计每块中的能量而得到的音频信号特征。客观地说，Chroma特征向量作为一个基于内容的中层语义特征，应用在音色、节奏、配器等差异较大的流行歌曲中，可以体现出比较强的鲁棒性。分别提取两个音频片段能量谱中每帧的chroma特征向量，并各自组成chroma特征向量组，得到待比对特征矩阵和基准特征矩阵。本实施例中，将chroma特征向量应用到音频信息比对中，一是可以绕开时间成本较高的众多机器学习算法，二是保证了本提案中音频信息比对的鲁棒性。

S43：计算待比对特征矩阵和基准特征矩阵的相似程度，得到音频相似度。

在得到待比对音频信息和基准音频信息对应的特征矩阵之后，计算两个特征矩阵的相似程度，即得到音频相似度。具体地，可以采用动态时间归整(Dynamic Time Warping，DTW)算法计算待比对特征矩阵和基准特征矩阵的相似程度。

S44：将音频相似度进行归一化处理，得到音频数据评分。

在得到音频相似度之后，将该音频相似度进行归一化处理，即得到音频数据评分。例如，将音频相似度转化为[0,100]区间的音频数据评分。

在本实施例中，首先分别将待比对音频信息和基准音频信息转换为音频片段的能量谱。分别提取两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，得到待比对特征矩阵和基准特征矩阵。计算待比对特征矩阵和基准特征矩阵的相似程度，得到音频相似度。最后将音频相似度进行归一化处理，得到音频数据评分，保证了音频数据评分计算的效率和准确性。

在一个实施例中，如图5所示，根据音频数据评分和微表情数据评分得到演唱评分，具体包括如下步骤：

S81：分别获取音频数据评分和微表情数据评分对应的音频权值和微表情权值。

具体地，音频权值和微表情权值是分别为音频数据评分和微表情数据评分设定的权重占比值，具体数值的设定可以根据歌曲比对中对音频数据评分和微表情数据评分的重视程度来设定。若更注重音频数据评分，则可以将音频权值的数值调高，若更注重微表情数据评分，则可以将微表情权值的数值调高。可选地，该音频权值和微表情权值可以是预先设置好并保存在服务端中。或者是在每次演唱评分中重新输入，再由客户端发送至服务端。

S82：根据如下公式计算演唱评分S：

S＝音频数据评分*a+微表情数据评分*b；

其中，S为演唱评分，a为音频权值，b为微表情权值，且a+b＝1。

在得到上述公式中的各个数值之后，将对应的数值代入到公式中，即得到演唱评分S。

在本实施例中，通过分别获取音频数据评分和微表情数据评分对应的音频权值和微表情权值，并将对应的各个数值之后，将对应的数值代入到公式中，即得到演唱评分S。为音频数据评分和微表情数据评分设置权值，以可以根据不同需要进行调整，更好地保证了演唱评分S在不同场景下的灵活性。

在一个实施例中，如图6所示，根据基准时间将待比对微表情单元和基准微表情单元进行匹配，根据匹配结果得到微表情数据评分，具体包括如下步骤：

S71:判断同一基准时间对应的待比对微表情单元和基准微表情单元是否一致，若一致，则输出该基准时间的微表情匹配结果为相同；若不一致，则输出该基准时间的微表情匹配结果为不相同。

在该步骤中，根据基准时间来判断对应的待比对微表情单元和基准微表情单元是否一致。如果两者一致，则输出该基准时间的微表情匹配结果为相同。如果两者不一致，则输出该基准时间的微表情匹配结果为不相同。由此完成对待比对视频数据的微表情的匹配环节。将每一基准时间对应的待比对微表情单元和基准微表情单元进行判断，得到每一匹配结果。

S72：统计微表情匹配结果为相同的次数和微表情匹配结果为不相同的次数。

在比对完成之后，分别统计微表情比对结果中两种结果(相同和不相同)的次数。

S73：根据微表情匹配结果为相同的次数和微表情匹配结果为不相同的次数得到微表情数据评分。

根据统计得到的微表情匹配结果为相同和微表情匹配结果为不相同的次数得到微表情匹配分数。例如，将微表情匹配结果为相同的次数除以微表情匹配结果的总次数，即得到微表情数据评分。或者将微表情匹配结果为相同的次数除以微表情匹配结果的总次数，再将得到的结果进行归一化处理，即得到微表情数据评分。

在这个实施例中，根据基准时间判断对应的待比对微表情单元和基准微表情单元是否一致，并根据所有的微表情匹配结果最终得到微表情数据评分。保证了最终微表情数据评分的准确性。

在一个实施例中，如图7所示，在根据基准歌曲标识获取基准比对视频数据的步骤之前，该演唱评分方法还包括如下步骤：

S21：获取基准比对视频数据，将基准比对视频数据进行分帧处理，得到N幅基准检测图像，N为正整数。

在该步骤中，对基准比对视频数据进行分帧处理，得到N幅基准检测图像。具体地，预先设定一定的帧率或者帧数之后，按照预设的帧率和帧数对基准比对视频数据进行分帧处理，即得到对应的N幅基准检测图像。帧率或者帧数越高，基准检测图像的数量就越多，后续得到的基准比对信息就越精确，相应地，服务端地计算消耗会越高，整体效率会降低。因此，可以根据实际精度和效率需要来设定帧率和帧数。

S22：将N幅基准检测图像输入到微表情识别模型中进行识别，得到每一基准检测图像的微表情单元和微表情单元对应的概率分数。

在得到基准检测图像之后，将每一基准检测图像输入到微表情识别模型中进行识别，即得到每一基准检测图像的微表情单元和微表情单元对应的概率分数。其中，微表情单元为对应基准检测图像属于何种微表情，而概率分数则是该基准检测图像属于该微表情的概率值。

S23：按照基准比对视频数据的时序对N幅基准检测图像的微表情单元进行排序，得到微表情单元序列。

根据基准检测图像在基准比对视频数据中的时序对N幅基准检测图像的微表情单元进行排序，得到微表情单元序列。即按照基准比对视频数据中的时间先后顺序对每一幅基准检测图像对应的为表情单元进行排序，从而得到微表情单元序列。

S24：在微表情单元序列中，将相邻且相同的微表情单元进行合并，得到基准微表情单元，并获取合并的基准微表情单元中，对应的概率分数最高的基准检测图像在基准比对视频数据中的时间点，作为该基准微表情单元的基准时间。

在微表情单元序列中，将相邻且相同的微表情单元进行合并，直至相邻的微表情单元都不相同。并且，获取获取合并的微表情单元中，对应的概率分数最高的基准检测图像在基准比对视频数据中的时间点，作为该基准微表情的基准时间。例如，在微表情单元序列中，存在三个相邻的微表情单元A、B和C，对应的微表情都为开心，概率分数分别为85％、80和90％，并且三个微表情单元A、B和C在基准比对视频数据中的时间点分别为1分30秒、1分33秒和1分35秒。此时，将这三个相邻且相同的微表情单元进行合并，并且将概率分数最高(90％)的基准检测图像在基准比对视频数据中的时间点(1分35秒)，作为该基准微表情的基准时间。

S25：将微表情单元序列中的每一基准微表情单元和对应的基准时间组成基准微表情信息。

在该步骤中，将微表情单元序列中的每一基准微表情和对应的基准时间组成基准比对信息。

S26：从基准比对视频数据中提取基准音频信息。

具体地，该步骤中从基准比对视频数据中提取出对应的基准音频信息的方式和步骤S30相同，在此不再赘述。可以理解地，该步骤可以在该实施例中获取基准比对视频数据之后的任意环节进行，并没有时序上的限定。

在本实施例中，首先获取基准比对视频数据，将基准比对视频数据进行分帧处理，得到N幅基准检测图像。将N幅基准检测图像输入到微表情识别模型中进行识别，得到每一基准检测图像的微表情单元和微表情单元对应的概率分数。按照基准比对视频数据的时序对N幅基准检测图像的微表情单元进行排序，得到微表情单元序列。在微表情单元序列中，将相邻且相同的微表情单元进行合并，得到基准微表情单元，并获取合并的基准微表情单元中，对应的概率分数最高的基准检测图像在基准比对视频数据中的时间点，作为该基准微表情单元的基准时间。将微表情单元序列中的每一基准微表情单元和对应的基准时间组成基准微表情信息。从基准比对视频数据中提取基准音频信息。通过对基准比对视频数据微表情的提取，并且采用微表情单元序列进行基准微表情信息的获取，保证了基准微表情信息获取的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种演唱评分装置，该演唱评分装置与上述实施例中演唱评分方法一一对应。如图8所示，该演唱评分装置包括演唱比对请求获取模块10、基准比对视频数据获取模块20、待比对音频信息提取模块30、音频数据评分计算模块40、待比对图像提取模块50、微表情单元识别模块60、微表情数据评分获取模块70和演唱评分获取模块80。各功能模块详细说明如下：

演唱比对请求获取模块10，用于获取演唱比对请求，演唱比对请求包括待比对视频数据和基准歌曲标识；

基准比对视频数据获取模块20，用于根据基准歌曲标识获取基准比对视频数据，基准比对视频数据包括基准音频信息和基准微表情信息，基准微表情信息包括基准时间和每一基准时间对应的基准微表情单元；

待比对音频信息提取模块30，用于从待比对视频数据中提取待比对音频信息；

音频数据评分计算模块40，用于计算待比对音频信息和基准音频信息的音频相似度，根据音频相似度得到音频数据评分；

待比对图像提取模块50，用于根据基准时间从待比对视频数据中提取每一基准时间对应的待比对图像；

微表情单元识别模块60，用于将待比对图像输入到微表情识别模型中进行识别，得到每一待比对图像的待比对微表情单元；

微表情数据评分获取模块70，用于根据基准时间将待比对微表情单元和基准微表情单元进行匹配，根据匹配结果得到微表情数据评分；

演唱评分获取模块80，用于根据音频数据评分和微表情数据评分得到演唱评分。

优选地，待比对图像提取模块50包括时间区间获取单元、待识别视频截取单元和待比对图像提取单元。

时间区间获取单元，用于根据基准时间和预设时间段信息，获取对应的时间区间；

待识别视频截取单元，用于根据时间区间从待比对视频数据中进行视频截取，得到待识别视频；

待比对图像提取单元，用于从待识别视频中进行图像提取，得到每一基准时间对应的待比对图像。

优选地，音频数据评分计算模块40包括能量谱转换单元、特征矩阵组成单元、音频相似度计算单元和音频数据评分转换单元。

能量谱转换单元，用于分别将待比对音频信息和基准音频信息转换为音频片段的能量谱；

特征矩阵组成单元，用于分别提取两个音频片段能量谱中每帧的chroma特征向量，并组成chroma特征向量组，得到待比对特征矩阵和基准特征矩阵；

音频相似度计算单元，用于计算待比对特征矩阵和基准特征矩阵的相似程度，得到音频相似度；

音频数据评分转换单元，用于将音频相似度进行归一化处理，得到音频数据评分。

优选地，演唱评分获取模块80用于分别获取音频数据评分和微表情数据评分对应的音频权值和微表情权值；根据如下公式计算演唱评分S：

S＝音频数据评分*a+微表情数据评分*b；

优选地，微表情数据评分获取模块70包括微表情判断单元、微表情统计单元和微表情数据评分计算单元。

微表情判断单元，用于判断同一基准时间对应的待比对微表情单元和基准微表情单元是否一致，若一致，则输出该基准时间的微表情匹配结果为相同；若不一致，则输出该基准时间的微表情匹配结果为不相同；

微表情统计单元，用于统计微表情匹配结果为相同的次数和微表情匹配结果为不相同的次数；

微表情数据评分计算单元，用于根据微表情匹配结果为相同的次数和微表情匹配结果为不相同的次数得到微表情数据评分。

优选地，如图9所示，该演唱评分装置还包括基准比对视频数据获取模块21、基准检测图像识别模块22、微表情单元序列排序模块23、微表情单元合并模块24、基准微表情信息组成模块25和基准音频信息提取模块26。

基准比对视频数据获取模块21，用于获取基准比对视频数据，将基准比对视频数据进行分帧处理，得到N幅基准检测图像，N为正整数；

基准检测图像识别模块22，用于将N幅基准检测图像输入到微表情识别模型中进行识别，得到每一基准检测图像的微表情单元和微表情单元对应的概率分数；

微表情单元序列排序模块23，用于按照基准比对视频数据的时序对N幅基准检测图像的微表情单元进行排序，得到微表情单元序列；

微表情单元合并模块24，用于在微表情单元序列中，将相邻且相同的微表情单元进行合并，得到基准微表情单元，并获取合并的基准微表情单元中，对应的概率分数最高的基准检测图像在基准比对视频数据中的时间点，作为该基准微表情单元的基准时间；

基准微表情信息组成模块25，用于将微表情单元序列中的每一基准微表情单元和对应的基准时间组成基准微表情信息；

基准音频信息提取模块26，用于从基准比对视频数据中提取基准音频信息。

关于演唱评分装置的具体限定可以参见上文中对于演唱评分方法的限定，在此不再赘述。上述演唱评分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于上述演唱评分方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种微表情评分方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中任一演唱评分方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中任一演唱评分方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种演唱评分方法，其特征在于，包括：

从所述待比对视频数据中提取待比对音频信息；

2.如权利要求1所述的演唱评分方法，其特征在于，所述根据所述基准时间从所述待比对视频数据中提取每一所述基准时间对应的待比对图像，具体包括：

根据所述基准时间和预设时间段信息，获取对应的时间区间；

根据所述时间区间从所述待比对视频数据中进行视频截取，得到待识别视频；

从待识别视频中进行图像提取，得到每一所述基准时间对应的待比对图像。

3.如权利要求1所述的演唱评分方法，其特征在于，所述计算所述待比对音频信息和所述基准音频信息的音频相似度，根据所述音频相似度得到音频数据评分，具体包括：

分别将所述待比对音频信息和所述基准音频信息转换为音频片段的能量谱；

分别提取两个所述音频片段能量谱中每帧的chroma特征向量，并组成chroma特征向量组，得到待比对特征矩阵和基准特征矩阵；

计算所述待比对特征矩阵和所述基准特征矩阵的相似程度，得到音频相似度；

将所述音频相似度进行归一化处理，得到音频数据评分。

4.如权利要求1所述的演唱评分方法，其特征在于，所述根据所述音频数据评分和所述微表情数据评分得到演唱评分，具体包括：

分别获取所述音频数据评分和所述微表情数据评分对应的音频权值和微表情权值；

根据如下公式计算演唱评分S：

S＝音频数据评分*a+微表情数据评分*b；

5.如权利要求1所述的演唱评分方法，其特征在于，所述根据基准时间将所述待比对微表情单元和所述基准微表情单元进行匹配，根据匹配结果得到微表情数据评分，具体包括：

判断同一基准时间对应的待比对微表情单元和基准微表情单元是否一致，若一致，则输出该基准时间的微表情匹配结果为相同；若不一致，则输出该基准时间的微表情匹配结果为不相同；

统计微表情匹配结果为相同的次数和微表情匹配结果为不相同的次数；

根据所述微表情匹配结果为相同的次数和所述微表情匹配结果为不相同的次数得到微表情数据评分。

6.如权利要求1所述的演唱评分方法，其特征在于，在所述根据所述基准歌曲标识获取基准比对视频数据的步骤之前，所述演唱评分方法还包括：

获取基准比对视频数据，将所述基准比对视频数据进行分帧处理，得到N幅基准检测图像，N为正整数；

将N幅所述基准检测图像输入到微表情识别模型中进行识别，得到每一所述基准检测图像的微表情单元和所述微表情单元对应的概率分数；

按照所述基准比对视频数据的时序对N幅基准检测图像的微表情单元进行排序，得到微表情单元序列；

在所述微表情单元序列中，将相邻且相同的微表情单元进行合并，得到基准微表情单元，并获取合并的基准微表情单元中对应的概率分数最高的基准检测图像在基准比对视频数据中的时间点，作为该基准微表情单元的基准时间；

将微表情单元序列中的每一基准微表情单元和对应的基准时间组成基准微表情信息；

从所述基准比对视频数据中提取基准音频信息。

7.一种演唱评分装置，其特征在于，包括：

8.如权利要求7所述的演唱评分装置，其特征在于，所述演唱评分装置还包括：

基准比对视频数据获取模块，用于获取基准比对视频数据，将所述基准比对视频数据进行分帧处理，得到N幅基准检测图像，N为正整数；

基准检测图像识别模块，用于将N幅所述基准检测图像输入到微表情识别模型中进行识别，得到每一所述基准检测图像的微表情单元和所述微表情单元对应的概率分数；

微表情单元序列排序模块，用于按照所述基准比对视频数据的时序对N幅基准检测图像的微表情单元进行排序，得到微表情单元序列；

微表情单元合并模块，用于在所述微表情单元序列中，将相邻且相同的微表情单元进行合并，得到基准微表情单元，并获取合并的基准微表情单元中，对应的概率分数最高的基准检测图像在基准比对视频数据中的时间点，作为该基准微表情单元的基准时间；

基准微表情信息组成模块，用于将微表情单元序列中的每一基准微表情单元和对应的基准时间组成基准微表情信息；

基准音频信息提取模块，用于从所述基准比对视频数据中提取基准音频信息。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述演唱评分方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述演唱评分方法。