CN116994308A

CN116994308A - 唇音同步结果的检测方法、装置、电子设备及存储介质

Info

Publication number: CN116994308A
Application number: CN202211324144.3A
Authority: CN
Inventors: 夏晗深; 常健; 黄小明; 黄煜雄; 林海彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-11-03

Abstract

本申请涉及数据处理技术领域和人工智能技术领域，尤其涉及一种唇音同步结果的检测方法、装置、电子设备及存储介质，该方法为：得到样本口型帧序列和样本语音序列后，采用被测唇音同步产品基于样本语音序列生成的待检测口型帧序列；针对各样本口型帧和各待检测口型帧，分别提取得到人脸关键点信息集合；依次获取对应相同排序位置的样本口型帧和待检测口型帧，其中，每获取一次，执行以下操作：基于提取得到的各人脸关键点信息集合，获得所述样本口型帧和所述待检测口型帧之间的口型信息相似度；再基于获得的各口型信息相似度，获得对应的测试结果。这样，简化了唇音同步结果的检测过程，提高了检测效率，降低了检测难度。

Description

唇音同步结果的检测方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种唇音同步结果的检测方法、装置、电子设备及存储介质。

背景技术

在进行动画制作或者游戏开发等需要生成口型动画的应用场景下，可以采用基于音素的唇音同步(lip-sync)算法，基于语音生成对应的唇音同步结果。

相关技术下，在对唇音同步结果进行检测时，通常需要根据获得的口型帧序列进行人脸建模，得到对应的人脸三维模型，并比对各个口型帧对应的人脸三维模型，与对应的人脸三维模型真值中，各个顶点之间的距离差异，得到对应的检测结果。

这样，在对唇音同步结果进行检测时，需要耗费大量的时间成本和人力成本进行人脸建模，使得检测过程极为复杂，降低了唇音同步结果的检测效率，增加了唇音同步结果的检测难度，难以对唇音同步效果进行量化。

发明内容

本申请实施例提供一种唇音同步结果的检测方法、装置、电子设备及存储介质，以解决现有技术下唇音同步结果的检测成本高、实现过程复杂，以及检测效率低的问题。

第一方面，提出一种唇音同步结果的检测方法，包括：

基于录制的样本多媒体文件，拆分得到样本口型帧序列和样本语音序列；

将采用被测唇音同步产品基于所述样本语音序列生成的待检测口型帧序列，作为对应的唇音同步结果；

针对所述样本口型帧序列中的各样本口型帧，以及所述待检测口型帧序列中的各待检测口型帧，分别提取得到人脸关键点信息集合；

依次分别从所述样本口型帧序列和所述待检测口型帧序列中，获取对应相同排序位置的样本口型帧和待检测口型帧，其中，每获取一次，执行以下操作：基于提取得到的各人脸关键点信息集合，获得所述样本口型帧和所述待检测口型帧之间的口型信息相似度；

基于获得的各口型信息相似度，获得对应的检测结果。

第二方面，提出一种唇音同步结果的检测装置，包括：

拆分单元，用于基于录制的样本多媒体文件，拆分得到样本口型帧序列和样本语音序列；

生成单元，用于将采用被测唇音同步产品基于所述样本语音序列生成的待检测口型帧序列，作为对应的唇音同步结果；

提取单元，用于针对所述样本口型帧序列中的各样本口型帧，以及所述待检测口型帧序列中的各待检测口型帧，分别提取得到人脸关键点信息集合；

执行单元，用于依次分别从所述样本口型帧序列和所述待检测口型帧序列中，获取对应相同排序位置的样本口型帧和待检测口型帧，其中，每获取一次，执行以下操作：基于提取得到的各人脸关键点信息集合，获得所述样本口型帧和所述待检测口型帧之间的口型信息相似度；

获得单元，用于基于获得的各口型信息相似度，获得对应的检测结果。可选的，所述基于提取得到的各人脸关键点信息集合，获得所述样本口型帧和所述待检测口型帧之间口型信息相似度时，所述执行单元用于：

分别在所述样本口型帧和所述待检测口型帧各自对应的人脸关键点信息集合中，确定构成嘴唇形状的嘴部关键点信息集合，以及在提取得到的各个人脸关键点信息集合中，确定参与表征下颌张开情况的器官关键点信息集合；

基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息，并计算所述样本口型帧和所述待检测口型帧之间的口型信息相似度。

可选的，基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息时，所述执行单元用于：

采用预设的几何特征提取算法，基于所述样本口型帧和所述待检测口型帧各自对应的嘴部关键点信息集合，分别提取得到对应的嘴唇特征信息；

针对所述样本口型帧和所述待检测口型帧，基于各个器官关键点信息集合，分别确定对应的下颌张开程度值；

基于针对所述样本口型帧得到的嘴唇特征信息和下颌张开程度信息，组合得到对应的口型信息，以及基于针对所述待检测口型帧得到的嘴唇形状特征和下颌张开程度信息，组合得到对应的口型信息。

可选的，器官关键点信息集合中包括鼻尖关键点和下巴中心关键点在二维平面上的位置信息；针对所述样本口型帧，基于各个器官关键点信息，确定对应的下颌张开程度值时，所述执行单元用于：

将基于所述样本口型帧序列中各个样本口型帧的器官关键点集合确定的，鼻尖关键点和下巴中心关键点在所述二维平面上的最大投影距离和最小投影距离，作为所述样本口型帧序列对应的下颌长度最大值和下颌长度最小值；

基于根据所述样本口型帧对应的器官关键点集合确定的投影距离，确定对应的下颌长度值，并基于所述下颌长度值、所述下颌长度最大值，以及所述下颌长度最小值，确定所述样本口型帧对应的下颌张开程度值。

可选的，器官关键点信息集合中包括鼻尖关键点和下巴中心关键点对应的三维点云数据；针对所述样本口型帧，基于各个器官关键点信息，确定对应的下颌张开程度值时，所述执行单元用于：

采用预设的人脸姿态估计算法，基于所述样本口型帧对应的人脸关键点信息集合中，各个人脸关键点的三维点云数据，确定所述样本口型帧对应的面部向量，并将与所述面部向量垂直的平面确定为映射平面；

将基于所述样本口型帧序列中各个样本口型帧的器官关键点集合确定的，鼻尖关键点和下巴中心关键点在所述映射平面上的最大投影距离和最小投影距离，作为所述样本口型帧序列对应的下颌长度最大值和下颌长度最小值；

可选的，所述基于所述下颌长度值、所述下颌长度最大值，以及所述下颌长度最小值，确定所述样本口型帧对应的下颌张开程度值时，所述执行单元用于：

确定所述下颌长度值与所述下颌长度最小值之间的第一长度差异值，以及所述下颌长度最大值与所述下颌长度最小值之间的第二长度差异值；

将所述第一长度差异值在所述第二长度差异值中的占比信息，确定为所述样本口型帧对应的下颌张开程度值。

可选的，所述人脸关键点信息集合中包括舌尖位置信息，所述基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息时，所述执行单元用于：

基于人脸关键点信息集合中的舌尖位置信息，在预先针对各个可选的舌尖位置信息量化确定的位置量化值中，分别确定对应的目标位置量化值；

基于根据嘴部关键点信息集合确定的嘴唇形状特征、根据舌尖位置信息确定的目标位置量化值，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息。

可选的，所述基于根据嘴部关键点信息集合确定的嘴唇形状特征、根据舌尖位置信息确定的目标位置量化值，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息时，所述执行单元用于：

基于嘴部关键点信息集合确定嘴唇形状特征，并基于针对所述嘴唇形状特征预设的第一权重，对所述嘴唇形状特征进行特征加权；

基于各个器官关键点信息集合确定对应的下颌张开程度值，并基于针对所述下颌张开程度值预设的第二权重，对所述下颌张开程度值进行数值加权；

基于针对所述舌尖位置信息预设的第三权重，对所述目标位置量化值进行数据加权后，将加权处理后的所述嘴唇形状特征、下颌张开程度值，以及所述目标位置量化值作为不同维度的内容，拼接得到口型信息。

可选的，人脸关键点信息集合中包括各个人脸关键点的三维点云数据；获取一次样本口型帧和待检测口型帧之后，所述基于提取得到的各人脸关键点信息集合，获得所述样本口型帧和所述待检测口型帧之间的口型信息相似度之前，所述执行单元还用于：

采用预设的人脸姿态估计算法，基于所述样本口型帧和所述待检测口型帧各自对应的人脸关键点信息集合，分别确定所述样本口型帧和所述待检测口型帧各自对应的面部向量；

将所述样本口型帧和所述待检测口型帧各自对应的面部向量进行方向一致性调整，分别得到调整后的人脸关键点信息集合。

可选的，所述基于获得的各口型信息相似度，获得对应的检测结果，所述获得单元用于：

按照各个口型信息相似度获得的先后顺序，绘制对应的口型信息相似度变化曲线，以及基于所述各个口型信息相似度的平均值，生成对应的相似度综合结果；

将所述口型信息相似度变化曲线和所述相似度综合结果，确定为对应的检测结果。

第三方面，提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面中任一项所述的唇音同步结果的检测方法。

第四方面，提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的唇音同步结果的检测方法。

第五方面，提出一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的唇音同步结果的检测方法。

本申请有益效果如下：

本申请实施例中，提出了一种唇音同步结果的检测方法、装置、电子设备及存储介质，基于录制的样本多媒体文件，拆分得到样本口型帧序列和样本语音序列；再将采用被测唇音同步产品基于所述样本语音序列生成的待检测口型帧序列，作为对应的唇音同步结果；进而对样本口型帧序列中的各样本口型帧，以及待检测口型帧序列中的各待检测口型帧，分别提取得到对应的人脸关键点信息集合；再依次从样本口型帧序列和待检测口型帧序列中，获取对应相同排序位置的样本口型帧和待检测口型帧，并基于预先针对各样本口型帧和各待检测口型帧提取的各人脸关键点集合，获得当前获取的样本口型帧和待检测口型帧之间的口型信息相似度；最终基于获得的各口型信息相似度，获得对应的检测结果。

这样，通过比对待检测口型帧序列，与对应的样本口型帧序列之间，对应的各帧图像中口型信息的相似情况，即可实现对于唇音同步结果的检测；而且，在具体的检测过程中，基于人脸关键点信息集合确定了在不同图像帧中的口型状态后，通过计算口型信息相似度，表征出相对应的样本口型帧和待检测口型帧之间的口型差异情况，即可实现对唇音同步结果的检测，极大的降低了检测所需要的人力成本和时间成本，简化了唇音同步结果的检测过程，提高了检测效率，降低了检测难度；另外，由于唇音同步结果的生成效果，反映了被测唇音同步产品的处理能力，故获得的检测结果还能够为被测唇音同步产品的处理能力改进提供依据。

附图说明

图1为本申请实施例中现有技术下算法驱动的部分人脸三维模型和部分人脸三维模型GT示意图；

图2为本申请实施例中可能的应用场景示意图；

图3A为本申请实施例中唇音同步结果的检测流程示意图；

图3B为本申请实施例中识别出的各人脸关键点示意图；

图3C为本申请实施例中获得口型信息相似度的流程示意图；

图3D为本申请实施例中选定构成嘴唇形状的各人脸关键点示意图；

图3E为本申请实施例中在二维平面上的投影距离示意图；

图3F为本申请实施例中在映射平面上的投影距离示意图；

图4A为本申请实施例中检测过程示意图；

图4B为本申请实施例中口型信息的生成过程示意图；

图4C为本申请实施例中计算下巴张开距离的过程示意图；

图5为本申请实施例中相关技术下的检测流程与本申请提出检测流程的处理时效差异示意图；

图6为本申请实施例中唇音同步结果的检测装置的逻辑结构示意图；

图7为本申请实施例的一种电子设备的一个硬件组成结构示意图；

图8为本申请实施例中的一个计算装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请提出的唇音同步结果的检测方法，可以应用于人工智能技术的处理过程中。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

唇音同步(lip-sync)技术：是指根据语音制作口型动画的技术，换言之，是一种通过声音驱动产生口型动画的技术。

唇音同步结果：是指将音频序列输入被测唇音同步产品后得到的口型动画帧序列，其中，口型动画帧序列也称口型帧序列，持续播放口型动画帧序列能够得到对应的口型动画，得到的口型动画可以是三维(three dimensional，3D)动画，被测唇音同步产品可以是指在产品开发或者产品测试阶段，基于lip-sync技术所得到的具体产品或工具。

基于关键帧(Key Frame，K帧)的动画生成技术：在动画制作过程中，是指使用手工确定的关键帧与自动插帧相结合的方式制作动画的技术。

动作捕捉(motion capture，Mocap)：指运动物体的关键部位捕捉技术，可以采集真实人物的动作、表情动画数据，映射到虚拟角色身上。

真值(GroundTruth，GT)：是指标准的结果，是指在测试过程中用作参考的样本内容。

下面对本申请实施例的设计思想进行简要介绍：

在3D游戏、动画内容制作行业中，制作准确、逼真的口型动画一直是一个难题。近年来，随着技术进步，出现了基于音素的lip-sync技术，可以通过语音生成对齐的口型动画，该技术解放了大量动画师的工作，广泛应用于各样产品中。

相关技术下，通常需要对生成的唇音同步结果进行检测，在具体的检测过程中，通常采用主观评价与计算人脸三维模型中点云差异相结合的方式，实现对唇音同步结果的检测评估，其中，在进行人脸三维点云差异计算的过程中，需要针对K帧构建对应的人脸三维模型GT或者，采用Mocap技术制作对应的人脸三维模型GT。

例如，参阅图1所示，其为本申请实施例中相关技术下算法驱动的部分人脸三维模型和部分人脸三维模型GT示意图，结合图1所示意的内容在进行实施时，通过模型点云迭代就近点法(Iterative Closest Point，ICP)，配准并计算算法驱动的各帧人脸三维模型与人脸动作捕捉(mocap)得到的人脸三维模型GT中，对应的顶点之间的距离差异以及表征整体差异的均方根误差指标(Root Mean Square Error，RMSE)，其中，顶点指的是人脸三维模型中的每个点，根据人脸三维模型的精度，顶点具有不同的数量级变化，一般而言，采用mocap技术捕捉确定的人脸三维模型中存在数量级别为10万级的顶点数目。

在具体的检测结果计算过程中，完成点云的配准对齐后，采用如下公式，基于对应的顶点之间的欧式距离得到表征整体差异的均方根误差：

其中，m为点云中顶点总数量，为两个对应的顶点的欧式距离。

然而，在相关技术下的结果检测过程中，由于使用的三维人脸模型GT需要使用mocap技术生成，或者，基于K帧的动画生成技术生成；这使得对于唇音同步结果的检测成本极高，检测结果的计算过程极为复杂，降低了检测效率，而且特别的，在比对检测各个非开源的唇音同步产品生成的唇音同步结果时，由于无法有效构建对应的人脸三维模型GT，使得无法有效的完成比对检测，增加了唇音同步结果的检测难度。

有鉴于此，本申请实施例中，提出了一种唇音同步结果的检测方法、装置、电子设备及存储介质，获取检测过程中使用的样本口型帧序列，以及获取基于样本语音序列生成的唇音同步结果，其中，样本语音序列与样本口型帧序列相对齐，唇音同步结果中包括待检测口型帧序列；进而对样本口型帧序列中的各样本口型帧，以及待检测口型帧序列中的各待检测口型帧，分别提取得到对应的人脸关键点信息集合；再依次从样本口型帧序列和待检测口型帧序列中，获取对应相同排序位置的样本口型帧和待检测口型帧，并基于预先针对各样本口型帧和各待检测口型帧提取的各人脸关键点集合，获得当前获取的样本口型帧和待检测口型帧之间的口型信息相似度；最终基于获得的各口型信息相似度，获得对应的检测结果。

这样，通过比对待检测口型帧序列，与对应的样本口型帧序列之间，对应的各帧图像中口型信息的相似情况，即可实现对于唇音同步结果的检测；而且，在具体的检测过程中，基于人脸关键点信息集合确定了在不同图像帧中的口型状态后，通过计算口型信息相似度，表征出相对应的样本口型帧和待检测口型帧之间的口型差异情况，即可实现对唇音同步结果的检测，极大的降低了检测所需要的人力成本和时间成本，简化了唇音同步结果的检测过程，提高了检测效率，降低了检测难度；另外，由于唇音同步结果的生成效果，反映了生成唇音同步结果的产品的处理能力，故基于获得的检测结果能够对生成唇音同步结果的产品的处理能力改进提供了分析依据。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

参阅图2所示，为本申请实施例中可能的应用场景示意图。该应用场景示意图中，包括终端设备210(可能包括终端设备2101、2102…)，以及检测设备220。

需要说明的是，终端设备210与检测设备220之间，可以通过有线网络或无线网络进行通信连接。

在本申请可能的实施例中，终端设备210中可能安装有唇音同步产品，检测设备220可以从终端设备210中获取待测试唇音同步产品，基于样本语音序列输出的唇音同步结果，并进行针对性检测。

终端设备210具体可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居，以及车载终端等具有一定计算能力的计算机设备。

检测设备220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者，可以是个人计算机、平板电脑、笔记本等可以实现检测功能的计算机设备。

另外，需要说明的是，在一些可能的应用场景中，在检测设备220自身安装有唇音同步产品的情况下，检测设备220可以自行完成检测过程，本申请在此不做具体说明。

本申请提出的技术方案，可以在各样的检测场景中，实现对于唇音同步结果的检测。

场景一、应用于自研模型产品的训练阶段。

具体的，可以应用于唇音同步产品的自研开发过程中，将处于开发或者训练调整阶段的唇音同步产品，作为生成待检测口型帧序列的被测唇音同步产品；进而将样本口型帧序列输入自研构建的被测唇音同步产品中，得到唇音同步结果，并通过对唇音同步结果的检测，协助进行被测唇音同步产品的测试调整。

例如，在基于自研的唇音同步算法构建被测唇音同步产品后，在对被测唇音同步产品的学习训练阶段，可以采用本申请提出的检测方法，确定对应的检测结果，并基于检测结果对被测试唇音同步产品进行参数调整。

场景二、应用于对自研的模型产品的处理效果测试。

具体的，可以应用于唇音同步产品的应用过程中，将开发后上线应用的唇音同步产品，作为生成待检测口型帧序列的被测唇音同步产品；进而在得到唇音同步结果后，通过对唇音同步结果进行检测，实现对于唇音同步产品或工具的测试。

例如，在基于自研的唇音同步算法构建唇音同步产品，并完成产品发布后，可以采用本申请提出的检测方法，得到检测结果；基于获得的检测结果，一方面，能够对唇音同步结果的准确性进行有效界定，另一方面，能够衡量发布后的唇音同步产品的处理能力和处理效果。

场景三、应用于对开源的模型产品的处理效果测试。

具体的，可以应用于对开源的唇音同步产品的测试过程中，将根据实际处理需要选定的、目前开源的某个唇音同步产品，确定为被测唇音同步产品，并基于该被测唇音同步产品得到唇音同步结果；通过计算确定对应的检测结果，实现了对唇音同步结果的生成效果的量化评价，以及实现了对于唇音同步产品的测试。

例如，将目前开源的唇音同步产品作为被测唇音同步产品，并采用本申请提出的检测方法，实现对发布后的唇音同步结果的检测，以确定该开源的唇音同步产品的处理能力，以及确定唇音同步结果的生成效果。

场景四、应用于比较不同唇音同步产品的处理效果。

具体的，可以应用于对自研产品和其他模型产品的处理效果比较过程中，分别将自研上线的唇音同步产品和其他唇音同步产品，确定为被测唇音同步产品，并得到唇音同步结果；再采用本申请提出的检测方法，针对相同的样本语音序列，分别得到对应的唇音同步结果，进而分别得到对应的检测结果；以及通过比较检测结果差异，在确定产品的处理效果差异的同时，确定了唇音同步结果的生成效果差异。

本申请以下的描述中，将从检测设备220的角度，对涉及到的测试过程进行示意性说明。

下面结合附图，对本申请实施例中唇音同步结果的检测过程进行具体说明：

参阅图3A所示，其为本申请实施例中唇音同步结果的检测流程示意图，下面结合附图3A，对本申请实施例中唇音同步结果的检测过程进行说明：

步骤301：检测设备基于录制的样本多媒体文件，拆分得到样本口型帧序列和样本语音序列。

本申请实施例中，检测设备在实现对唇音同步结果的检测时，需要获取测试所需的样本数据，即，获取样本口型帧序列，以及获取与该样本口型帧序列对齐的样本语音序列。

具体的，检测设备可以采用以下方式，生成样本口型帧序列和样本语音序列：录制相关对象朗读测试文本的多媒体文件，其中，录制的内容中包括相关对象的肩部以上画面，并能够清楚记录相关对象在朗读过程中的口型变化情况；基于录制的多媒体文件，拆分得到样本口型帧序列，并提取该多媒体文件中的音频，得到对应的样本语音序列，其中，从录制的多媒体文件(或称录像)中拆分出图像帧序列和语音序列的方式为本领域的成熟技术，本申请对此不做具体说明；

需要说明的是，本申请实施例中，由于样本口型帧序列和样本语音序列是基于一个录像确定的，故样本口型帧序列和样本语音序列之间存在相互对齐的关系。另外，本申请中提及的样本口型帧序列和样本语音序列之间的对齐关系，是指样本口型帧序列中的图像帧总数，与样本语音序列中的语音帧总数相同，且每帧对应表达的内容相同，如，每帧样本口型帧和样本语音帧对应朗读的同一部分内容。

这样，能够得到存在对应关系的样本口型帧序列和样本语音序列，并为后续的测试过程提供了测试依据。

步骤302：检测设备将采用被测唇音同步产品基于样本语音序列生成的待检测口型帧序列，作为对应的唇音同步结果。

具体的，检测设备根据实际的检测需要，获取基于样本语音序列生成的唇音同步结果，其中，根据实际的处理需要，唇音同步结果可以是采用如下方式获取的：在自研的或者其他能够实现基于音轨数据输出口型动画功能的算法工具或产品中，选择确定被测唇音同步产品，进而将样本语音序列输入该被测唇音同步产品中得到待检测口型帧序列，其中，样本语音序列与样本口型帧序列相对齐，待检测口型帧序列也称唇音同步结果。

需要说明的是，本申请实施例中，得到的待检测口型帧序列与样本口型帧序列具有相同的总帧数，且在待检测口型帧序列和样本口型帧序列中，相同排序位置处的待检测口型帧和样本口型帧，对应相同的样本语音帧。

这样，由于相同排序位置处的待检测口型帧和样本口型帧，与相同的样本语音帧相对应，故相同排序位置处的待检测口型帧和样本口型帧之间具有口型信息的可比性。

步骤303：检测设备针对样本口型帧序列中的各样本口型帧，以及待检测口型帧序列中的各待检测口型帧，分别提取得到人脸关键点信息集合。

本申请实施例中，检测设备获取样本口型帧序列和待检测口型帧序列之后，可以采用预设的人脸跟踪技术，针对各样本口型帧和各待检测口型帧进行人脸关键点信息提取，分别得到对应的人脸关键点信息集合，其中，各样本口型帧是指获取的样本口型帧序列中的各帧图像，各待检测口型帧是指获取的待检测口型帧序列中的各帧图像。

具体的，检测设备可以根据实际的处理需要，选择能够提取得到二维人脸关键点的人脸跟踪技术，使得能够确定各个人脸关键点在二维平面上的位置信息；或者，选择能够提取得到三维人脸关键点的人脸跟踪技术，使得能够确定各个人脸关键点的三维位置信息；进而针对各帧视频图像，分别得到对应的人脸关键点信息集合，其中，人脸关键点信息集合中的内容包括但不限于：采用人脸跟踪技术识别出的人脸关键点的位置信息。

需要说明的是，考虑到人脸跟踪技术处理得到的可能是二维人脸关键点，或者，人脸三维点云数据，对应的，对于获得的一个人脸关键点信息集合而言，可能包括各个人脸关键点在二维图像空间的二维关键点坐标，或者，可能包括各个人脸关键点在三维空间中的位置信息，本申请不对所选择的人脸跟踪技术进行具体限制，其中，三维点云数据是指各个人脸关键点的三维位置信息。

例如，参阅图3B所示，其为本申请实施例中识别出的各人脸关键点示意图，如图3B所示意的，检测设备可以采用预设的人脸跟踪技术，分别识别出各帧图像中的包括的各人脸关键点，并得到各人脸关键点各自对应的位置信息。

这样，借助于人脸跟踪技术，能够识别出各帧图像中各个人脸关键点的位置信息，为后续口型信息的比较和生成提供了处理依据。

步骤304：检测设备依次分别从样本口型帧序列和待检测口型帧序列中，获取对应相同帧序号的样本口型帧和待检测口型帧，其中，每获取一次，执行以下操作：基于提取得到的各人脸关键点信息集合，获得样本口型帧和待检测口型帧之间的口型信息相似度。

本申请实施例中，检测设备依次分别从样本口型帧序列和待检测口型帧序列中，获取对应相同帧序号的样本口型帧和待检测口型帧。

具体的，对于帧序列而言，由于不同帧图像之间存在时间的先后顺序，基于此，对于得到的帧序列而言，各个帧图像关联有表征时间先后顺序的帧序号；检测设备可以根据实际的处理需要，按照帧序号从小到大，或者，帧序号从大到小的顺序，依次获取对应的帧序号相同的样本口型帧和待检测口型帧。

进而，检测设备针对每一次获取的样本口型帧和待检测口型帧，执行以下操作：基于预先提取得到的各人脸关键点信息集合，获得当前获取的样本口型帧和待检测口型帧之间的口型信息相似度。

可选的，本申请实施例中，检测设备获取一次样本口型帧和待检测口型帧之后，还可以校正面部姿态，将样本口型帧和待检测口型帧的面部向量调整为方向一致，使得能够呈现更多的人脸关键点信息。

在具体进行面部姿态校准时，可以先采用人脸姿态估计算法获取面部向量，再通过矩阵旋转的方法校正数据坐标。

具体的，当人脸关键点信息集合中包括各个人脸关键点的三维点云数据的情况下，检测设备可以采用预设的人脸姿态估计算法，基于样本口型帧和待检测口型帧各自对应的人脸关键点信息集合，分别确定样本口型帧和待检测口型帧各自对应的面部向量；再将样本口型帧和待检测口型帧各自对应的面部向量进行方向一致性调整，分别得到调整后的人脸关键点信息集合。

当人脸跟踪技术提取得到的是三维点云数据时，由于进行人脸姿态估计通常需要明确相机参数，以及进行位姿估计的物体上n个3D点的位置信息和这些3D点在图像中相应的2D投影的位置信息。那么，可以基于拍摄得到样本口型帧时的相机参数(主要是焦距信息)、各个人脸关键点的三维位置信息，以及映射在图像帧中得到的二维位置信息，进而将确定的图像帧中的人脸朝向向量，确定为对应的面部向量。

当人脸关键点信息集合中包括各人脸关键点在图像空间的二维关键点坐标的情况下，可以分别从待检测口型帧和样本口型帧各自对应的人脸关键点信息集合中，选定双眼的眼睛中心点，并分别在待检测口型帧和样本口型帧中，确定由左眼中心点指向右眼中心点的连接向量，以及将获得的连接向量视为对应的面部向量。

进而，检测设备在进行面部向量一致性调整时，检测设备可以将样本口型帧的面部向量，调整为与待检测口型帧对应的面部向量方向一致，或者，可以将待检测口型帧对应的面部向量，调整为与样本口型帧的面部向量一致，又或者，可以将样本口型帧的面部向量，与待检测口型帧对应的面部向量，统一调整为指定方向；基于此，检测设备可以借助于矩阵旋转的方式，在对面部向量进行方向一致性调整的同时，对人脸关键点的坐标数据进行适应性调整。

这样，能够对获取的样本口型帧和待检测口型帧进行人脸方向校正，使得样本口型帧和待检测口型帧中的人脸朝向一致，有助于后续从各人脸关键点信息中确定测试相关的关键点信息，并有助于提高检测精度。

在具体针对获取的样本口型帧和待检测口型帧进行口型信息相似度计算时，参阅图3C所示，其为本申请实施例中获得口型信息相似度的流程示意图，下面结合附图3C，对获得一次样本口型帧和待检测口型帧后，对获取的样本口型帧和待检测口型帧进行口型信息相似度计算的过程进行详细说明：

步骤3041：检测设备分别在样本口型帧和待检测口型帧各自对应的人脸关键点信息集合中，确定构成嘴唇形状的嘴部关键点信息集合，以及在提取得到的各个人脸关键点信息集合中，确定参与表征下颌张开情况的器官关键点信息集合。

需要说明的是，由于针对各个人脸关键点而言，每个人脸关键点具有对应的描述名称，因而可以从人脸关键点信息集合中，确定构成嘴唇形状的各个嘴部关键点信息，进而得到嘴部关键点信息集合。

具体的，检测设备可以提取上下嘴唇上的各人脸关键点信息，进而基于提取的上下嘴唇上各人脸关键点的坐标数据，得到嘴部关键点信息集合。

特殊的，若预先检测得到的各人脸关键点中，在上下嘴唇上存在多层关键点，则可以根据实际的处理需要，选定上下嘴唇中间层的人脸关键点，作为构建嘴唇形状的各个人脸关键点。

例如，参阅图3D所示，其为本申请实施例中选定构成嘴唇形状的各人脸关键点示意图，在图3D所示意的嘴唇部分的各人脸关键点中，上下嘴唇上均包括三层人脸关键点，可以选择中间层的各人脸关键点构成嘴唇形状，基于图3D中粗线上的各个人脸关键点信息，组成嘴部关键点信息集合。

与此同时，检测设备可以根据实际的处理需要，在各人脸关键点信息集合中，分别确定表征下颌张开情况的器官关键点信息集合。

具体的，根据实际的处理需要，检测设备可以从各人脸关键点中，选择可以表征下颌张开情况的关键点，作为器官关键点，进而获得器官关键点信息集合。

例如，检测设备可以选择鼻尖关键点和下巴中心关键点作为器官关键点，并基于鼻尖关键点信息和下巴中心关键点信息组成器官关键点信息集合。

又例如，检测设备可以在选择下巴中心关键点的同时，在人脸对称线上选择人脸关键点，作为器官关键点，以表征出下颌张开情况。

步骤3042：检测设备基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息，并计算样本口型帧和待检测口型帧之间的口型信息相似度。

本申请可能实施例中，检测设备可以基于嘴唇形状特征和下颌张开程度值，组合得到口型信息，进而针对性的计算样本口型帧和待检测口型帧之间的口型信息相似度。

具体的，检测设备可以采用预设的几何特征提取算法，基于样本口型帧和待检测口型帧各自对应的嘴部关键点信息集合，分别提取得到对应的嘴唇特征信息；再针对样本口型帧和待检测口型帧，基于各个器官关键点信息集合，分别确定对应的下颌张开程度值；进而基于针对样本口型帧得到的嘴唇特征信息和下颌张开程度信息，组合得到对应的口型信息，以及基于针对待检测口型帧得到的嘴唇形状特征和下颌张开程度信息，组合得到对应的口型信息。

需要说明的是，检测设备可以根据实际的处理需要，选择几何特征提取算法，对嘴部关键点信息集合进行处理，提取嘴唇形状对应的嘴唇特征信息，其中，采用的几何特征提取算法可以是点特征直方图算法(point feature histograms，PFH)、快速点特征直方图算法(fast point feature histograms，FPFH)，以及向量场直方图算法(Vector FieldHistogram，VFH)等算法中的任意一项，本申请对此不做具体限制。

例如，假设嘴唇关键点集合中包括嘴唇上各人脸关键点的三维点云数据(或称各三维位置信息)，那么，可以采用预设的几何特征提取算法，提取嘴唇形状的点云特征，得到嘴唇特征信息。

下面的说明中将示意性地以器官关键点信息集合中包括鼻尖关键点和下巴中心关键点的位置信息为例进行示意性说明。检测设备针对样本口型帧和待检测口型帧，基于各个器官关键点信息集合，分别确定对应的下颌张开程度值时，考虑到关键点信息集合中可能包括有关键点在二维平面的位置信息或者对应的三维点云数据，那么，检测设备在确定下颌张开程度值时，可能存在以下两种可能的确定方式：

方式一、基于鼻尖关键点和下巴中心关键点在二维平面上的位置信息，确定对应的下颌张开程度值。

本申请实施例中，检测设备在分别针对样本口型帧和待检测口型帧，确定对应的下颌张开程度值时，可以采用相同的处理方式，针对样本口型帧和待检测口型帧进行分别处理，进而分别得到对应的下颌张开程度值。

以确定样本口型帧对应的下颌张开程度值为例，检测设备可以将基于样本口型帧序列中各个样本口型帧的器官关键点集合确定的，鼻尖关键点和下巴中心关键点在二维平面上的最大投影距离和最小投影距离，作为样本口型帧序列对应的下颌长度最大值和下颌长度最小值；再基于根据样本口型帧对应的器官关键点集合确定的投影距离，确定对应的下颌长度值，并基于下颌长度值、下颌长度最大值，以及下颌长度最小值，确定样本口型帧对应的下颌张开程度值。

例如，参阅图3E所示，其为本申请实施例中在二维平面上的投影距离示意图，针对一张图像帧，在确定下颌长度值时，可以对应图3E所示意的，二维平面上的鼻尖关键点和下巴中心关键点所对应的投影距离。

基于此，检测设备可以针对样本口型帧序列中的每个样本口型帧，确定对应的下颌长度值，进而在各个下颌长度值中，确定样本口型帧序列对应的下颌长度最大值和下颌长度最小值。

同理，检测设备可以针对待检测口型帧序列中的每个待检测口型帧，确定对应的下颌长度值，进而在各个下颌长度值中，确定待检测口型帧序列对应的下颌长度最大值和下颌长度最小值。

进而，以计算样本口型帧对应的下颌张开程度值为例，可以确定下颌长度值与对应的下颌长度最小值之间的第一长度差异值，以及对应的下颌长度最大值与下颌长度最小值之间的第二长度差异值；再将第一长度差异值在第二长度差异值中的占比信息，确定为该样本口型帧对应的下颌张开程度值。

具体的，可以采用以下公式计算下颌张开程度值：

下颌张开程度值＝(AB-min_AB)/(max_AB-min_AB)*％

其中，在计算样本口型帧对应的下颌张开程度值时，AB为获取的一个样本口型帧对应的下颌长度值，min_AB为样本口型帧序列内各样本口型帧中的下颌长度最小值，max_AB为样本口型帧序列内各样本口型帧中的下颌长度最大值；在计算待检测口型帧对应的下颌张开程度值时，AB为获取的一个待检测口型帧对应的下颌长度值，min_AB为待检测口型帧序列内各待检测口型帧中的下颌长度最小值，max_AB为待检测口型帧序列内各待检测口型帧中的下颌长度最大值。AB-min_AB为第一长度差异值，max_AB-min_AB为第二长度差异值。

这样，通过计算下颌长度值与归属的帧序列中下颌长度最小值的差异，以及归属的帧序列中下颌长度最大值与下颌长度最小值的差异，能够确定当前图像帧中下颌长度差异情况下，相对于最大差异情况的差异程度，进而能够借助于下颌张开程度值，量化当前图像帧中的下颌张开长度与下颌长度最大张开长度之间的关系。

另外，基于方式一的处理方式，能够根据器官关键点在二维平面上的位置信息，对当前图像帧在图像帧序列中的下颌张开程度进行量化，使得能够表征出不同图像帧中的下颌张开情况差异。

方式二、基于鼻尖关键点和下巴中心关键点对应的三维点云数据，确定对应的下颌张开程度值。

具体的，检测设备在分别针对样本口型帧和待检测口型帧，确定对应的下颌张开程度值时，同理，可以采用相同的处理方式，针对样本口型帧和待检测口型帧进行分别处理，进而分别得到对应的下颌张开程度值。

以确定样本口型帧对应的下颌张开程度值为例，检测设备可以采用预设的人脸姿态估计算法，基于样本口型帧对应的人脸关键点信息集合中，各个人脸关键点的三维点云数据，确定样本口型帧对应的面部向量，并将与面部向量垂直的平面确定为映射平面；再将基于样本口型帧序列中各个样本口型帧的器官关键点集合确定的，鼻尖关键点和下巴中心关键点在该映射平面上的最大投影距离和最小投影距离，作为样本口型帧序列对应的下颌长度最大值和下颌长度最小值；进而基于根据样本口型帧对应的器官关键点集合确定的投影距离，确定对应的下颌长度值，并基于下颌长度值、下颌长度最大值，以及下颌长度最小值，确定样本口型帧对应的下颌张开程度值。

具体的，检测设备可以前述步骤304中确定面部向量的方式，采用预设的人脸姿态估计算法，基于人脸关键点的三维点云数据，确定面部向量；进而将与面部向量垂直的平面确定为映射平面，以及将鼻尖关键点和下巴中心关键点在该映射平面上的投影距离，作为对应的下颌长度值。

例如，参阅图3F所示，其为本申请实施例中在映射平面上的投影距离示意图，根据图3F所示意的，鼻尖关键点在投影平面上对应的映射点为点A，下巴中心关键点在投影平面上对应的映射点为点B，那么，在一帧图像中，得到的下颌长度值为AB。

与方式一中涉及到的处理过程同理，检测设备可以针对样本口型帧序列中的每个样本口型帧，确定对应的下颌长度值，进而在各个下颌长度值中，确定样本口型帧序列对应的下颌长度最大值和下颌长度最小值；以及同理针对待检测口型帧序列中的每个待检测口型帧，确定对应的下颌长度值，进而在各个下颌长度值中，确定待检测口型帧序列对应的下颌长度最大值和下颌长度最小值。

进而，与方式一的处理过程同理，检测设备在计算下颌张开程度值时，可以确定下颌长度值与对应的下颌长度最小值之间的第一长度差异值，以及对应的下颌长度最大值与下颌长度最小值之间的第二长度差异值；再将第一长度差异值在第二长度差异值中的占比信息，确定为该样本口型帧对应的下颌张开程度值，具体的，可以采用以下公式计算一个样本口型帧或待检测口型帧对应的下颌张开程度值：

下颌张开程度值＝(AB-min_AB)/(max_AB-min_AB)*％

其中，AB为下颌长度值，min_AB为在归属的帧序列中确定的下颌长度最小值，max_AB为在归属的帧序列中确定的下颌长度最大值。

需要说明的是，对于待检测口型帧序列或者样本口型帧序列而言，由于帧序列中记录了口型变化过程，故相当于将无声状态的下颌长度值确定为下颌长度最小值min_AB，并针对性计算得到的下颌张开程度值为0％；同理，将整个视频(或称帧序列)中下颌长度值的最大值，确定为下颌最大长度值max_AB，并针对性计算得到对应的下颌张开程度值为100％。

这样，通过计算下颌长度值与下颌长度最小值的差值，能够确定下颌张开情况，进而基于当前的下颌张开长度(由下颌长度值与下颌长度最小值的差值确定)与下颌最大能够张开的长度(由下颌长度最大值与下颌长度最小值的差值确定)，计算得到的下颌张开程度值，能够以百分比的形式，表征出了图像帧在归属的帧序列中的下颌张开程度，为衡量图像帧中嘴巴的张开情况，提供了能够进行相对性比较的依据。

本申请实施例中，根据实际的处理需要，检测设备针对每帧图像(样本口型帧或待检测口型帧)，可以将嘴唇形状特征，与确定的下颌张开程度值，组合得到该帧图像对应的口型信息。

具体的，检测设备针对样本口型帧或者待检测口型帧，在提取嘴唇形状特征的基础上，可以将确定的下颌张开程度值，作为新增维度的信息内容，进而组合得到口型信息。

可选的，在组合得到口型信息时，可以针对嘴唇形状特征和下颌张开程度值分别配置对应的权重值，并按照对应的权重值，将嘴唇形状特征和下颌张开程度值，组合为口型信息。

例如，假设针对一个样本口型帧，得到的嘴唇形状特征为N维向量，例如分别为(a1，a2…，aN)，得到的下颌张开程度值为85％(或记为0.85)，且，针对嘴唇形状特征和下颌张开程度值配置的权重为8:2，那么，得到的口型信息为N+1维的向量，例如：(8*a1，8*a2…，8*aN，2*0.85)。

特别的，当人脸关键点信息集合中包括舌尖位置信息时，检测设备在组合得到对应的口型信息时，可以基于人脸关键点信息集合中的舌尖位置信息，在预先针对各个可选的舌尖位置信息量化确定的位置量化值中，分别确定对应的目标位置量化值；再基于根据嘴部关键点信息集合确定的嘴唇形状特征、根据舌尖位置信息确定的目标位置量化值，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息。

具体的，当人脸关键点信息集合中包括人脸跟踪技术先前检测得到的舌尖位置信息时，可以针对不同舌尖位置配置对应的位置量化值，进而可以将舌尖位置信息也包括在口型信息中，使得口型信息中包括根据舌尖位置信息确定的目标位置量化值、下颌张开程度信息，以及嘴唇形状特征。

例如，由于舌尖位置在正常说话中变化相对较小，可以按舌尖在口腔中的相对坐标简单分为高、中、低三个形态(或称位置信息)；或者，高、半高、半低、低四个形态，不同形态的数值化可使用百分比均匀分配。

又例如，假设舌尖位置信息包括高、半高、半低、低四个形态，则针对性量化配置的内容可以为：高：100％；半高：75％；半低：50％；低：25％。

这样，能够在口型信息中综合更多的可考量内容，通过考量舌尖位置信息，为图像中的口型比对提供了更多可考量的信息。

另外，在根据嘴唇形状特征、下颌张开程度值，以及目标位置量化值得到口型信息时，检测设备可以基于嘴部关键点信息集合确定嘴唇形状特征，并基于针对嘴唇形状特征预设的第一权重，对嘴唇形状特征进行特征加权；再基于各个器官关键点信息集合确定对应的下颌张开程度值，并基于针对下颌张开程度值预设的第二权重，对下颌张开程度值进行数值加权；之后，基于针对舌尖位置信息预设的第三权重，对目标位置量化值进行数据加权后，将加权处理后的嘴唇形状特征、下颌张开程度值，以及目标位置量化值作为不同维度的内容，拼接得到口型信息，其中，第一权重、第二权重，以及第三权重的取值根据实际的处理需要设置，本申请对此不做具体限制。

本申请实施例中，检测设备针对样本口型帧或者待检测口型帧，在提取嘴唇形状特征的基础上，可以将确定的下颌张开程度值和目标位置量化值，作为新增维度的信息内容，进而组合得到口型信息。

例如，假设针对一个样本口型帧，得到的嘴唇形状特征为N维向量，分别为(a1，a2…，aN)，得到的下颌张开程度值为85％(或记为0.85)，针对确定的舌尖位置信息：高，配置的目标位置量化值为100％(或记为1)，且针对嘴唇形状特征、下颌张开程度值，以及目标位置量化值配置的权重为5:4:1，那么，得到的口型信息为N+2维向量，例如(5*a1，5*a2…，5*aN，4*0.85，1*1)。

这样，能够根据实际的处理需要，针对不同信息配置不同的权重值，使得在得到的口型信息中，对于不同内容的考量程度存在差异性，使得测试结果中能够不同程度的考量不同信息内容，为测试结果的信息内容偏向性提供了调整空间。

进一步的，检测设备获得口型信息后，可以采用预设的相似度计算算法，计算样本口型帧中的口型信息和待检测口型帧中的口型信息之间的相似度，得到对应的口型信息相似度，其中，预设的相似度计算算法可以是余弦距离(cosine)算法，或者，其他能够实现信息相似度计算的算法，本申请对此不做具体限制。

步骤305：检测设备基于获得的各口型信息相似度，获得对应的检测结果。

检测设备针对每次获取的样本口型帧和待检测口型帧，能够得到对应的口型信息相似度，基于此，在完成对样本口型帧序列和待检测口型帧序列中全部帧的获取后，能够得到各个口型信息相似度。

进而，检测设备根据实际的处理需要，可以对获得的各口型信息相似度进行处理，得到对应的检测结果。

具体的，检测设备按照各个口型信息相似度获得的先后顺序，绘制对应的口型信息相似度变化曲线，以及基于各个口型信息相似度的平均值，生成对应的相似度综合结果；再将口型信息相似度变化曲线和相似度综合结果，确定为对应的检测结果。

例如，假设待检测口型帧序列和样本口型帧序列中各包括20帧图像，则由于待检测口型帧序列和样本口型帧序列相互对齐，故对应一次获取的相对位置相同的待检测口型帧和样本口型帧而言，对应于相同的时间信息；基于此，可以绘制口型信息相似度随时间的变化曲线，且该变化曲线中包括20个口型信息相似度的取值。与此同时，检测设备可以将20个口型信息相似度的平均值，确定为对应的相似度综合结果；进而，将口型信息相似度变化曲线和相似度综合结果，确定为对应的检测结果。

这样，在本申请所公开的检测过程中，本发明的技术方案无需构建虚拟人物三维人脸模型，只需要基于最终渲染的动画视频，即可完成对唇音同步结果的效果评估；对整体的检测过程而言，可以理解为，检测设备获取虚拟人物和真人说同一段语音的头部图像，使用AI算法学习图像信息与语音关联的特征，进而处理得到口型特征(或称口型信息)，通过计算两个特征的相似度得出虚拟人物口型动画的生成效果，实现对唇音同步结果的检测评估。

下面以一个具体的举例，假设对被测lip sync产品或算法生成的唇音同步结果进行检测，对本申请实施例中具体的检测过程进行示意性说明：

参阅图4A所示，其为本申请实施例中检测过程示意图，在图4A所示意的检测过程中，需要经过测试数据准备、被测视频生成，以及效果指标计算三个阶段。

在测试数据准备过程中，可以先准备测试文本，并录制模特肩部以上正面说话的录像，即，模特(相关对象)阅读测试文本的录像；进而，从录制的录像中确定视频文件和音频文件，其中，得到的视频文件相当于前述图3A流程中示意的样本口型帧序列。

在被测视频生成的过程中，可以采用被测lip sync产品或算法，基于音频文件渲染动画视频，得到被测视频，即，渲染动画视频，其中，渲染动画视频相当于前述图3A中示意的待检测口型帧序列。

在效果指标计算的过程中，可以采用抽帧的方式，从视频文件和渲染动画视频中分别抽取对应相同排序位置的图像帧，进而针对抽取的图像帧进行口型特征计算，相当于针对抽取的样本口型帧和待检测口型帧，进行口型信息的生成；之后，检测设备基于得到的口型特征进行特征相似度计算，最终得到视频每帧的效果指标，其中，效果指标是指口型信息相似度，或称，口型特征相似度。

具体的，在进行效果指标计算的过程中，生成口型信息时，参阅图4B所示，其为本申请实施例中口型信息的生成过程示意图，在图4B所示意的处理过程中，在进行抽帧处理得到抽帧图片后，采用预设的人脸跟踪技术，得到人脸关键点的三维点云数据；进而从人脸关键点的三维点云数据中确定嘴唇三维点云(即嘴部关键点信息集合)，并采用预设的几何特征提取算法，基于嘴唇三维点云，得到对应的嘴唇特征；与此同时，基于人脸关键点的三维点云数据，确定下巴张开距离(或称下颌长度值与下颌长度最小值的差值)，进而确定下巴张开距离百分比(或称下颌张开程度值)；另外，在人脸跟踪技术得到舌尖位置信息的情况下，确定针对舌尖位置信息量化确定的目标位置量化值。

需要说明的是，在具体计算下巴张开距离时，参阅图4C所示，其为本申请实施例中计算下巴张开距离的过程示意图，结合附4C可知，在计算下巴张开距离时，采用预设的人脸跟踪技术，识别出抽帧图片中各个人脸关键点的关键点数据；进而采用人脸姿态估计算法，基于人脸跟踪技术处理得到的关键点数据，确定面部向量，进而将与面部向量垂直的平面确定的正脸平面(或称投影平面)；之后，得到关键点数据正脸投影，即，得到各个人脸关键点在正脸平面上的投影，进而计算鼻尖关键点到下巴中心点关键点的投影距离，在此基础上，能够得到当前抽帧图片中的下巴张开距离，其中，下巴张开距离为当前基于鼻尖关键点到下巴中心关键点的投影距离，与在归属的视频中确定的投影距离最小值之间的差值。

为了体现本申请的检测流程相比于相关技术下检测流程的高效性，下面结合附图，对相关技术下的检测流程与本申请中的检测流程进行比对说明：

参阅图5所示，其为本申请实施例中相关技术下的检测流程与本申请提出检测流程的处理时效差异示意图。

根据图5所示意的内容可知，对于采用基于K帧的动画生成技术进行人脸建模得到人脸三维模型，并基于人脸三维模型进行检测的方案而言，进行模特说话视频录制之后，将录制的多媒体文件拆分为视频内容和音频内容；进而采用被测lip sync产品或算法，基于得到的音频内容，处理得到算法驱动的动画模型(人脸三维模型)，与此同时，动画师参考视频对K帧动画进行建模制作，得到K帧动画模型GT(人脸三维模型GT)；进而通过对模型中的点云进行配准，并比对每帧对应的人脸三维模型和人脸三维模型GT中，各个顶点的距离差异，得到检测结果，此过程通常需要费时5-8天。

对于采用mocap技术生成建模结果的方案而言，需要在模特面部贴上掩码(mask)点，戴上面部mocap设备录制说话时的动画数据和声音；进而采用被测lip sync产品或算法，基于音频内容，处理得到算法驱动的动画模型(即人脸三维模型)；与此同时，技术人员调试，使mocap数据可以映射到模型上，进而动画师对mocap的动画进行校准，最终得到mocap动画模型GT(即人脸三维模型GT)；之后，进而通过对模型中的点云进行配准，并比对每帧对应的人脸三维模型和人脸三维模型GT中，各个顶点的距离差异，得到检测结果，此过程通常需要3-5天。

而本申请提出的技术方案中，进行模特说话视频录制之后，采用被测lip sync产品或算法，对录制的音频内容进行处理，得到渲染的动画视频，以及基于录制的视频和得到的动画视频，进行口型特征提取和相似度计算，最终得到检测结果，此过程仅需要0.5-1天。

这样，通过比对可知，采用本申请提出的检测方案，在极大地降低检测时间的同时，能够极大地降低检测的复杂性，简化了检测过程中的操作，提高了检测效率。

为了进一步执行本申请提出的检测方式，与执行相关技术下的检测方式时的处理差异，分别对得到检测结果的过程进行比对说明：

对于相关技术下提出的检测方式而言，在录制得到多媒体文件，并从多媒体文件中拆分得到对齐的音频内容和视频内容后，首先，采用被测唇音同步产品，基于录制的音频内容，得到由唇音同步算法驱动得到的人脸三维模型，以及采用动作捕捉方式或者建模制作的方式得到的人脸三维模型真值，其中，人脸三维模型和人脸三维模型真值各自对应的三维点云数据中，包括数以十万计的顶点；之后，对人脸三维模型和人脸三维模型真值中的三维点云数据进行点云配准后，计算人脸三维模型和人脸三维模型真值中对应的顶点之间的欧式距离，得到数以十万计的欧式距离结果；进而，将基于各欧式距离结果计算得到的均方根误差，确定为检测结果。

而申请提出的技术方案中，在录制得到多媒体文件，并从多媒体文件中拆分得到对齐的音频内容和视频内容后，首先，采用被测唇音同步产品，基于录制的音频内容得到口型动画；之后，依次从口型动画和视频内容中，获取帧序号相同的图像帧，并采用人脸跟踪技术，分别对图像帧进行关键点检测，得到对应的人脸关键点信息集合，其中，得到的人脸关键点的总数通常不会超过500，人脸关键点是指从人脸跟踪技术定义的关键点中选择的、能够代表关键信息的点，或者，可以是指人脸跟踪技术中定义的点；进而，针对口型动画和视频内容中对应相同帧序号的口型动画帧和视频帧，分别执行以下操作：

根据关键点名称，在人脸关键点信息集合中确定嘴唇关键点信息集合，并采用几何特征提取算法，基于嘴唇关键点信息集合确定嘴唇形状特征；根据人脸关键点信息集合中下巴中心关键点和鼻尖关键点之间的投影距离、归属的图像序列中对应的最大投影距离和最小投影距离，计算下颌张开程度值；在确定人脸关键点信息集合中包括检测得到的舌尖关键点的位置信息时，则针对舌尖位置信息确定对应的目标位置量化值；进而基于嘴唇形状特征、下颌张开程度值，以及目标位置量化值，组合得到口型信息。

之后，通过计算帧序号相同的口型动画帧和视频帧之间的口型信息相似度，最终得到检测结果。

对比可知，相关技术下检测结果的计算依据的是人脸三维模型中的顶点距离，且顶点的数目通常为10万以上，故为了得到检测结果，一方面，需要耗费人力成本和时间成本构建人脸三维模型真值，另一方面，需要经过极为复杂的顶点配置和计算过程，极大的降低了检测效率；而本申请提出的方案中，首先依据唇音同步产品生成的唇音同步结果，以及已有的样本数据，就能够实现对唇音同步结果的检测和分析，在具体的检测过程中，聚焦于对图像帧中口型信息的分析和构建，使得在构建了能够有效表征图像帧中口型情况的口型信息后，通过计算口型信息之间的口型信息相似度，即能够实现对于唇音同步结果的检测和效果评价，不涉及到复杂的人脸三维模型构建过程，也不涉及到大量的数据计算过程，极大的降低了检测难度，提高了检测效率。

基于同一发明构思，参阅图6所示，其为本申请实施例中唇音同步结果的检测装置的逻辑结构示意图，唇音同步结果的检测装置600中包括拆分单元601、生成单元602、提取单元603，以及执行单元604，获得单元605其中，

拆分单元601，用于基于录制的样本多媒体文件，拆分得到样本口型帧序列和样本语音序列；

生成单元602，用于将采用被测唇音同步产品基于样本语音序列生成的待检测口型帧序列，作为对应的唇音同步结果；

提取单元603，用于针对样本口型帧序列中的各样本口型帧，以及待检测口型帧序列中的各待检测口型帧，分别提取得到人脸关键点信息集合；

执行单元604，用于依次分别从样本口型帧序列和待检测口型帧序列中，获取对应相同排序位置的样本口型帧和待检测口型帧，其中，每获取一次，执行以下操作：基于提取得到的各人脸关键点信息集合，获得样本口型帧和待检测口型帧之间的口型信息相似度；

获得单元605，用于基于获得的各口型信息相似度，获得对应的检测结果。可选的，基于提取得到的各人脸关键点信息集合，获得样本口型帧和待检测口型帧之间口型信息相似度时，执行单元604用于：

分别在样本口型帧和待检测口型帧各自对应的人脸关键点信息集合中，确定构成嘴唇形状的嘴部关键点信息集合，以及在提取得到的各个人脸关键点信息集合中，确定参与表征下颌张开情况的器官关键点信息集合；

基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息，并计算样本口型帧和待检测口型帧之间的口型信息相似度。

可选的，基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息时，执行单元604用于：

采用预设的几何特征提取算法，基于样本口型帧和待检测口型帧各自对应的嘴部关键点信息集合，分别提取得到对应的嘴唇特征信息；

针对样本口型帧和待检测口型帧，基于各个器官关键点信息集合，分别确定对应的下颌张开程度值；

基于针对样本口型帧得到的嘴唇特征信息和下颌张开程度信息，组合得到对应的口型信息，以及基于针对待检测口型帧得到的嘴唇形状特征和下颌张开程度信息，组合得到对应的口型信息。

可选的，器官关键点信息集合中包括鼻尖关键点和下巴中心关键点在二维平面上的位置信息；针对样本口型帧，基于各个器官关键点信息，确定对应的下颌张开程度值时，执行单元604用于：

将基于样本口型帧序列中各个样本口型帧的器官关键点集合确定的，鼻尖关键点和下巴中心关键点在二维平面上的最大投影距离和最小投影距离，作为样本口型帧序列对应的下颌长度最大值和下颌长度最小值；

基于根据样本口型帧对应的器官关键点集合确定的投影距离，确定对应的下颌长度值，并基于下颌长度值、下颌长度最大值，以及下颌长度最小值，确定样本口型帧对应的下颌张开程度值。

可选的，器官关键点信息集合中包括鼻尖关键点和下巴中心关键点对应的三维点云数据；针对样本口型帧，基于各个器官关键点信息，确定对应的下颌张开程度值时，执行单元604用于：

采用预设的人脸姿态估计算法，基于样本口型帧对应的人脸关键点信息集合中，各个人脸关键点的三维点云数据，确定样本口型帧对应的面部向量，并将与面部向量垂直的平面确定为映射平面；

将基于样本口型帧序列中各个样本口型帧的器官关键点集合确定的，鼻尖关键点和下巴中心关键点在映射平面上的最大投影距离和最小投影距离，作为样本口型帧序列对应的下颌长度最大值和下颌长度最小值；

可选的，基于下颌长度值、下颌长度最大值，以及下颌长度最小值，确定样本口型帧对应的下颌张开程度值时，执行单元604用于：

确定下颌长度值与下颌长度最小值之间的第一长度差异值，以及下颌长度最大值与下颌长度最小值之间的第二长度差异值；

将第一长度差异值在第二长度差异值中的占比信息，确定为样本口型帧对应的下颌张开程度值。

可选的，人脸关键点信息集合中包括舌尖位置信息，基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息时，执行单元604用于：

可选的，基于根据嘴部关键点信息集合确定的嘴唇形状特征、根据舌尖位置信息确定的目标位置量化值，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息时，执行单元604用于：

基于嘴部关键点信息集合确定嘴唇形状特征，并基于针对嘴唇形状特征预设的第一权重，对嘴唇形状特征进行特征加权；

基于各个器官关键点信息集合确定对应的下颌张开程度值，并基于针对下颌张开程度值预设的第二权重，对下颌张开程度值进行数值加权；

基于针对舌尖位置信息预设的第三权重，对目标位置量化值进行数据加权后，将加权处理后的嘴唇形状特征、下颌张开程度值，以及目标位置量化值作为不同维度的内容，拼接得到口型信息。

可选的，人脸关键点信息集合中包括各个人脸关键点的三维点云数据；获取一次样本口型帧和待检测口型帧之后，基于提取得到的各人脸关键点信息集合，获得样本口型帧和待检测口型帧之间的口型信息相似度之前，执行单元604还用于：

采用预设的人脸姿态估计算法，基于样本口型帧和待检测口型帧各自对应的人脸关键点信息集合，分别确定样本口型帧和待检测口型帧各自对应的面部向量；

将样本口型帧和待检测口型帧各自对应的面部向量进行方向一致性调整，分别得到调整后的人脸关键点信息集合。

可选的，基于获得的各口型信息相似度，获得对应的检测结果，获得单元605用于：

按照各个口型信息相似度获得的先后顺序，绘制对应的口型信息相似度变化曲线，以及基于各个口型信息相似度的平均值，生成对应的相似度综合结果；

将口型信息相似度变化曲线和相似度综合结果，确定为对应的检测结果。

在介绍了本申请示例性实施方式的唇音同步结果的检测方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备，参阅图7所示，其为应用本申请实施例的一种电子设备的一个硬件组成结构示意图，电子设备700可以至少包括处理器701、以及存储器702。其中，存储器702存储有程序代码，当程序代码被处理器701执行时，使得处理器701执行上述任意一种唇音同步结果的检测步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请唇音同步结果的检测步骤。例如，处理器可以执行如图3A中所示的步骤。

下面参照图8来描述根据本申请的这种实施方式的计算装置800。如图8所示，计算装置800以通用计算装置的形式表现。计算装置800的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。

总线803表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022，还可以进一步包括只读存储器(ROM)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置800也可以与一个或多个外部设备804(例如键盘、指向设备等)通信，还可与一个或者多个使得对象能与计算装置800交互的设备通信，和/或与使得该计算装置800能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且，计算装置800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器806通过总线803与用于计算装置800的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的唇音同步结果的检测的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的唇音同步结果的检测方法中的步骤，例如，电子设备可以执行如图3A中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种唇音同步结果的检测方法，其特征在于，包括：

基于获得的各口型信息相似度，获得对应的检测结果。

2.如权利要求1所述的方法，其特征在于，所述基于提取得到的各人脸关键点信息集合，获得所述样本口型帧和所述待检测口型帧之间口型信息相似度，包括：

3.如权利要求2所述的方法，其特征在于，基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息，包括：

4.如权利要求3所述的方法，其特征在于，器官关键点信息集合中包括鼻尖关键点和下巴中心关键点在二维平面上的位置信息；针对所述样本口型帧，基于各个器官关键点信息，确定对应的下颌张开程度值，包括：

5.如权利要求3所述的方法，其特征在于，器官关键点信息集合中包括鼻尖关键点和下巴中心关键点对应的三维点云数据；针对所述样本口型帧，基于各个器官关键点信息，确定对应的下颌张开程度值，包括：

6.如权利要求4或5所述的方法，其特征在于，所述基于所述下颌长度值、所述下颌长度最大值，以及所述下颌长度最小值，确定所述样本口型帧对应的下颌张开程度值，包括：

7.如权利要求2所述的方法，其特征在于，所述人脸关键点信息集合中包括舌尖位置信息，所述基于根据嘴部关键点信息集合确定的嘴唇形状特征，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息，包括：

8.如权利要求7所述的方法，其特征在于，所述基于根据嘴部关键点信息集合确定的嘴唇形状特征、根据舌尖位置信息确定的目标位置量化值，以及根据各个器官关键点信息集合确定的下颌张开程度值，组合得到对应的口型信息，包括：

9.如权利要求1-5、7-8任一项所述的方法，其特征在于，人脸关键点信息集合中包括各个人脸关键点的三维点云数据；获取一次样本口型帧和待检测口型帧之后，所述基于提取得到的各人脸关键点信息集合，获得所述样本口型帧和所述待检测口型帧之间的口型信息相似度之前，还包括：

10.如权利要求1-5、7-8任一项所述的方法，其特征在于，所述基于获得的各口型信息相似度，获得对应的检测结果，包括：

11.一种唇音同步结果的检测装置，其特征在于，包括：

获得单元，用于基于获得的各口型信息相似度，获得对应的检测结果。

12.如权利要求11所述的装置，其特征在于，所述基于提取得到的各人脸关键点信息集合，获得所述样本口型帧和所述待检测口型帧之间口型信息相似度时，所述执行单元用于：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10任一项所述的唇音同步结果的检测方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-10任一项所述的唇音同步结果的检测方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-10任一项所述的唇音同步结果的检测方法。