CN114494930A

CN114494930A - 语音与图像同步性衡量模型的训练方法及装置

Info

Publication number: CN114494930A
Application number: CN202111058177.3A
Authority: CN
Inventors: 王淳; 曾定衡; 王洪斌; 吴海英; 周迅溢; 蒋宁
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2022-05-13
Anticipated expiration: 2041-09-09
Also published as: CN114494930B

Abstract

本申请提供一种语音与图像同步性衡量模型的训练方法及装置，该方法包括：将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据，将随机图像片段处理为第二图像数据、随机语音片段处理为第三语音数据，将第一图像数据和第一语音数据组成正样本，将第一图像数据和第二语音数据组成第一负样本，将第一图像数据和第三语音数据组成第二负样本，将第一语音数据或第二语音数据，和第二图像数据组成第三负样本，采用正样本、第一负样本、第二负样本和第三负样本训练语音与图像同步性衡量模型。这样，使得训练样本的类型更加丰富，能够提高语音与图像同步性衡量模型的精确度。

Description

语音与图像同步性衡量模型的训练方法及装置

技术领域

本申请涉及神经网络技术领域，尤其涉及一种语音与图像同步性衡量模型的训练方法及装置。

背景技术

在一段视频中，往往都包含有图像和语音。并且，当视频中的人物说话时，图像中该人物的嘴部运动应当与该人物所发出的语音保持同步。

为了衡量视频中人物的嘴部运动与其所发出的语音是否同步，现有一般采用的是SyncNet类技术。所谓SyncNet类技术，可以参考文献Chung,Joon Son,and AndrewZisserman."Out of time:automated lip sync in the wild."Asian conference oncomputer vision.Springer,Cham,2016。具体来说，就是将视频中的语音片段输入一个神经网络，得到语音特征。再将视频中的图像片段输入另一个神经网络，得到视觉特征。最后，通过对比语音特征与视觉特征，进而判断视频中人物的嘴部运动与其所发出的语音是否同步。

但是，采用SyncNet类技术衡量视频中人物的嘴部运动与其所发出的语音是否同步，准确性仍然较低。

发明内容

本申请实施例的目的是提供一种语音与图像同步性衡量模型的训练方法及装置，以提高语音与图像同步性衡量模型的精确度。

为解决上述技术问题，本申请实施例提供如下技术方案：

本申请第一方面提供一种语音与图像同步性衡量模型的训练方法，所述方法包括：将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据，将随机图像片段处理为第二图像数据、所述随机语音片段处理为第三语音数据，将所述第一图像数据和所述第一语音数据组成正样本，将所述第一图像数据和所述第二语音数据组成第一负样本，将所述第一图像数据和所述第三语音数据组成第二负样本，将所述第一语音数据或所述第二语音数据，和所述第二图像数据组成第三负样本，采用所述正样本、所述第一负样本、所述第二负样本和所述第三负样本训练语音与图像同步性衡量模型。

本申请第二方面提供一种语音与图像同步性衡量模型的训练装置，所述装置包括：数据处理模块，用于将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据；数据处理模块，还用于将随机图像片段处理为第二图像数据、所述随机语音片段处理为第三语音数据；样本生成模块，用于将所述第一图像数据和所述第一语音数据组成正样本；所述样本生成模块，还用于将所述第一图像数据和所述第二语音数据组成第一负样本；所述样本生成模块，还用于将所述第一图像数据和所述第三语音数据组成第二负样本；所述样本生成模块，还用于将所述第一语音数据或所述第二语音数据，和所述第二图像数据组成第三负样本；训练模块，用于采用所述正样本、所述第一负样本、所述第二负样本和所述第三负样本训练语音与图像同步性衡量模型。

本申请第三方面提供一种电子设备，包括：处理器、存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行第一方面中的方法。

本申请第四方面提供一种计算机可读存储介质，包括：存储的程序；其中，在所述程序运行时控制所述存储介质所在设备执行第一方面中的方法。

相较于现有技术，本申请第一方面提供的语音与图像同步性衡量模型的训练方法，在第一训练视频中具有同步性的第一图像片段和第一语音片段，与第一图像片段不具有同步性的第二语音片段，以及第一训练视频外的随机图像片段和随机语音片段，对应处理为第一图像数据、第一语音数据、第二语音数据、第二图像数据和第三语音数据后，将第一图像数据和第一语音数据组成正样本，将第一图像数据和第二语音数据组成第一负样本，将第一图像数据和第三语音数据组成第二负样本，将第一语音数据或第二语音数据，和第二图像数据段组成第三负样本。这样，使得训练样本的类型更加丰富，尤其是使得图像与语音不具有同步性的负样本的类型的更加丰富。进而采用类型丰富的正样本、第一负样本、第二负样本和第三负样本训练语音与图像同步性衡量模型，能够提高语音与图像同步性衡量模型的精确度，进而提高语音与图像同步性衡量的准确性。

本申请第二方面提供的语音与图像同步性衡量模型的训练装置、第三方面提供的电子设备、第四方面提供的计算机可读存储介质，与第一方面提供的语音与图像同步性衡量模型的训练方法具有相同或相似的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，相同或对应的标号表示相同或对应的部分，其中：

图1为本申请实施例中语音与图像同步性衡量模型的训练方法的流程示意图；

图2为本申请实施例中语音与图像同步性的衡量方法的流程示意图；

图3为本申请实施例中处理语音片段的流程示意图；

图4为本申请实施例中下半脸的范围的示意图；

图5为本申请实施例中处理图像片段的流程示意图；

图6为本申请实施例中衡量语音与图像同步性的架构示意图；

图7为本申请实施例中语音神经网络的架构示意图；

图8为本申请实施例中生成语音特征的流程示意图；

图9为本申请实施例中生成视觉特征的流程示意图；

图10为本申请实施例中训练神经网络的流程示意图；

图11为本申请实施例中语音与图像同步性的衡量方法的完整流程示意图；

图12为本申请实施例中语音与图像同步性衡量模型的训练装置的结构示意图一；

图13为本申请实施例中语音与图像同步性衡量模型的训练装置的结构示意图二；

图14为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

在现有技术中，采用SyncNet类技术衡量视频中人物的嘴部运动与其所发出的语音是否同步，准确性较低。

发明人经过仔细研究发现，SyncNet类技术衡量嘴部运动与语音是否同步准确性低的原因在于：SyncNet类技术中需要使用到两个神经网络。一个是语音神经网络，用于提取语音特征。一个是视觉神经网络，用于提取视觉特征。无论是语音神经网络，还是视觉神经网络，在进行训练时，都无法做到与说话人的自身特征无关。也就是说，在采用样本进行训练时，样本中携带有说话人的自身特征，而训练后的网络中也学习到了样本中说话人的特征。对于样本中未覆盖到的说话人，通过语音神经网络和视觉神经网络获取的语音特征和视觉特征的准确性就会有所下降。

有鉴于此，本申请实施例提供了一种语音与图像同步性衡量模型的训练方法，在该方法中，当对语音与图像同步性衡量模型进行训练时，预先获取各种类型的训练样本，即获取类型多样的训练样本，例如：同一段训练视频中具有同步性的图像片段和语音片段，同一段训练视频中不具有同步性的图像片段和语音片段，不同训练视频中的图像片段和语音片段，等等。采用多种类型的训练样本对语音与图像同步性衡量模型进行训练，能够提高语音与图像同步性衡量模型的精确度，进而提高语音与图像同步性衡量的准确性。

这里需要说明的是，所有的训练视频来自于训练视频集，训练视频的数量可以是一个，也可以是多个。对于训练视频的数量，此处不做限定。第一训练视频为训练视频集中的一个训练视频。从训练视频集中选取一个与第一训练视频不同的训练视频，作为第二训练视频。

图1为本申请实施例中语音与图像同步性衡量模型的训练方法的流程示意图，参见图1所示，该方法可以包括：

S101：将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据。

其中，第一图像片段、第一语音片段和第二语音片段来自于第一训练视频，第一图像片段与第一语音片段具有同步性，第一图像片段与第二语音片段不具有同步性。也就是说，第一图像数据、第一语音数据和第二语音数据来自于第一训练视频。

具体来说，就是获取第一训练视频的第一区间的图像片段和语音片段，得到第一图像片段和第一语音片段。获取第一训练视频的第二区间的语音片段，得到第二语音片段。在这里，第一区间与第二区间可以完全不重叠，或者部分重叠。这样，能够确保第一语音片段与第二语音片段的内容所有差异。

举例来说，将第一训练视频中第10ms至第30ms对应的图像作为第一图像片段，将第一训练视频中第10ms至第30ms对应的语音作为第一语音片段，以及将第一训练视频中第35ms至第55ms对应的语音作为第二语音片段。

S102：将随机图像片段处理为第二图像数据、所述随机语音片段处理为第三语音数据。

其中，随机图像片段和随机语音片段来自于第二训练视频。也就是，第二图像数据和第三语音数据来自于第二训练视频。

第一训练视频和第二训练视频为不同的两段视频，均来自于训练视频集。也就是说，为了丰富训练样本，还需要获取除第一训练视频外的其它视频中的图像片段和语音片段，这些图像片段和语音片段分别称之为随机图像片段和随机语音片段。

这里需要说明的是，第一训练视频与第二训练视频在图像或语音的具体内容上需要存在一定程度的差异，以便后续语音与图像同步性衡量模型能够进行更加准确地学习，进而提升图像与语音同步性衡量的准确性。

S103：将第一图像数据和第一语音数据组成正样本。

为了训练语音与图像同步性衡量模型，就需要获得训练样本。而为了进一步提升训练后的语音与图像同步性衡量模型的精准性，就需要获取各种类型的训练样本。也就是说，不仅需要获取具有同步性的图像片段和语音片段，还需要获取各种类型的不具有同步性的图像片段和语音片段。

在获取正样本的过程中，就是将同一段训练视频中同一个区间的第一图像片段和第一语音片段，处理成第一图像数据和第一语音数据后，组成一个正样本。

而在同一段训练视频中，存在有多个区间，并且这些区间可以是相互独立的，也可以是部分重合的，因此，基于同一段训练视频也能够获得多个正样本。

举例来说，将第一训练视频中第10ms至第30ms对应的第一图像片段和第一语音片段，对应的第一图像数据和第一语音数据作为一个正样本。将第一训练视频中第40ms至第60ms对应的第一图像片段和第一语音片段，对应的第一图像数据和第一语音数据作为另一个正样本。以及将第一训练视频中第20ms至第40ms对应的第一图像片段和第一语音片段，对应的第一图像数据和第一语音数据作为一个正样本。

S104：将第一图像数据和第二语音数据组成第一负样本。

S105：将第一图像数据和第三语音数据组成第二负样本。

S106：将第一语音数据或第二语音数据，和第二图像数据组成第三负样本。

在获取负样本的过程中，由于不具有同步性的图像片段与语音片段是多种多样的，因此，可以将能够罗列出的各种不具有同步性的图像片段和语音片段都罗列出来，以便对语音与图像同步性衡量模型进行更加充分的训练。

具体来说，以第一训练视频中的第一图像片段为基准，将与第一图像片段不具有同步性的语音片段，与第一图像片段，进行数据预处理后组成一个负样本。这里的不具有同步性的语音片段就包含有两种情况。

第一种情况：不具有同步性的语音片段也来自于第一训练视频。即，该语音片段可以是第二语音片段。此时，就可以将第一图像片段与第二语音片段，处理成第一图像数据与第二语音数据后组成语音与图像错位的第一负样本。

第二种情况：不具有同步性的语音片段来自于第二训练视频。即，该语音片段可以是随机语音片段。此时，就可以将第一图像片段与随机语音片段，处理成第一图像数据与第三语音数据后组成图像固定的第二负样本。

除了上述两种情况之外，在不以第一训练视频中的第一图像片段为基准，而是以第一训练视频中的语音片段为基准的情况下，还存在有一种情况。

第三种情况：不具有同步性的图像片段来自于第二训练视频。也就是说，将第二语音片段与其它图像片段，处理成第二语音数据与第二图像数据后组成语音固定的第三负样本。当然，也可以是将第一语音片段与其它图像片段，处理成第一语音数据与第二图像数据后组成语音固定的第三负样本。只要第三负样本中的语音片段来自于第一训练视频即可。

这样，训练样本的类型就比较丰富了，尤其是负样本的类型较为丰富。

第一语音片段、第二语音片段、随机语音片段进过处理后，转化成了特定信号，该特定信号与语音片段中说话人的个体特征无关。即第一语音数据、第二语音数据、第三语音数据均为特定信号，该特定信号与对应的语音片段中说话人的个人特征无关。

第一图像片段和随机图像片段进过处理后，转化为目标人物的人脸轮廓图，该人脸轮廓图与图像片段中的说话人的个人特征无关。即第一图像数据和第二图像数据均为目标人物的人脸轮廓图，该人脸轮廓图与对应图像片段中的说话人的个人特征无关。

S107：采用正样本、第一负样本、第二负样本和第三负样本训练语音与图像同步性衡量模型。

在采集到正样本、第一负样本、第二负样本和第三负样本后，将正样本、第一负样本、第二负样本和第三负样本输入语音与图像同步性衡量模型中进行训练，即调整语音与图像同步性衡量模型中的各项参数，优化语音与图像同步性衡量模型，使得后续输入待衡量的图像数据和语音数据后，语音与图像同步性衡量模型能够更加精准地进行衡量。

这里需要说明的是，在语音与图像同步性衡量模型中，主要包含有两个神经网络，即语音神经网络和视觉神经网络。语音神经网络主要基于语音数据获得语音特征，而视觉神经网络主要基于图像数据获取视觉特征。此外，还包含有一个同步性度量模块，该模块也可以是一个神经网络。因此，对语音与图像同步性衡量模型进行训练，也就是说对语音与图像同步性衡量模型中的各个神经网络进行训练。

由上述内容可知，本申请实施例提供的语音与图像同步性衡量模型的训练方法，在第一训练视频中具有同步性的第一图像片段和第一语音片段，与第一图像片段不具有同步性的第二语音片段，以及第一训练视频外的随机图像片段和随机语音片段，对应处理为第一图像数据、第一语音数据、第二语音数据、第二图像数据和第三语音数据后，将第一图像数据和第一语音数据组成正样本，将第一图像数据和第二语音数据组成第一负样本，将第一图像数据和第三语音数据组成第二负样本，将第一语音数据或第二语音数据，和第二图像数据段组成第三负样本。这样，使得训练样本的类型更加丰富，尤其是使得图像与语音不具有同步性的负样本的类型的更加丰富。进而采用类型丰富的正样本、第一负样本、第二负样本和第三负样本训练语音与图像同步性衡量模型，能够提高语音与图像同步性衡量模型的精确度，进而提高语音与图像同步性衡量的准确性。

进一步地，作为图1所示方法的细化和扩展，本申请实施例还提供了一种语音与图像同步性的衡量方法。图2为本申请实施例中语音与图像同步性的衡量方法的流程示意图，参见图2所示，该方法可以包括：

S201：获取视频中的语音片段和图像片段。

视频，就是需要判断其中的图像与语音是否同步的视频。这里的同步性，用于表征语音片段中的声音与图像片段中目标人物的动作相匹配。

所谓相匹配，是指在一段视频中，图像片段中目标人物的动作所发出的声音与语音片段中的声音在语义和时间上是相同的。其中，目标人物的动作可以是下半脸运动。

举例来说，图像片段中目标人物的嘴部做出了发出“苹果”这一声音的嘴型，并且语音片段中的声音也是“苹果”，那么就可以认为该图像片段与语音片段具有同步性。再有，图像片段中目标人物的嘴部做出了发出“苹果”这一声音的嘴型，并且语音片段中的声音是“香蕉”，那么就可以认为该图像片段与语音片段不具有同步性。

一般来说，并不会直接将视频中的所有图像与所有语音放在一起进行判断，而是将视频中的一部分图像与相应的语音放在一起进行判断。选取的部分图像就是视频中的图像片段，相应的，选取的语音也就是视频中的语音片段。选取的语音片段与图像片段在视频中具有对应关系。

所谓对应关系，是指选取的语音片段和图像片段在视频中的起始时间相同、终止时间相同或者在时间上具有一定的错位(该错位在人眼的视觉范围内是可以被接受的)。

举例来说，获取视频中第1帧至第10帧对应的图像和语音。视频中第1帧至第10帧的图像就组成了图像片段，视频中第1帧至第10帧的语音就组成了语音片段。这里的第1帧至第10帧就是一个具体的位置。对于获取图像片段和语音片段的具体位置，可以根据实际情况设置，此处不做具体限定。

当然，图像片段还可以是某1帧图像，相应的语音片段还可以是该帧的语音以及该帧前后几帧的语音。

在判断完视频中的一部分图像与相应的语音是否同步后，再判断视频中的另一部分图像与相应的语音是否同步，直到视频中所有的图像与相应的语音的同步性判断完成为止。

下面分别从语音和图像两个方面，对输入神经网络前的语音片段和图像片段进行处理，对应处理成语音数据和图像数据的过程进行具体说明。

一、语音片段处理方面

由于语音片段中包含有说话人自身的特征，例如：音色、语调等。因此，在将语音片段输入语音神经网络中获取语音特征之前，先将语音片段中说话人自身的特征抹去，进而将抹去说话人自身特征的语音数据输入语音神经网络，能够提升语音与图像同步性对比的准确性。

S202：将语音片段的采样频率转换为特定频率。

从视频中将语音片段进行分离，改为单通道后，由于采集视频的终端的配置不同，故而语音的采样频率也存在差异，为了后续能够准确地对语音片段进行处理，因此，需要先将语音片段的采样频率进行统一。

在实际应用中，可以将语音片段的采样频率统一为16kHz。当然，也可以将语音片段的采样频率统一为其它数值，如：8kHz、20kHz等。具体的数值可以根据实际情况设置，此处不做限定。

S203：对语音片段进行去噪。

在这里，步骤S203可以包括两个方面。

S2031：去除语音片段中的背景音。

具体的，可以利用短时谱估计中的谱相减法对语音片段进行去噪，以压制语音片段中的背景音，突出语音片段中的语音。当然，也可以采用其它方式去除语音片段中的背景音，如：自适应滤波技术。而至于采用何种具体的方式去除语音片段中的背景音，此处不做限定。

S2032：将语音片段中不同说话人的语音分离，得到至少一个语音子片段。

有时语音片段中并不是只有一个人在说话，可能有多人同时说话，那么，就需要将语音片段中不同说话人的语音进行分离，分别获得各说话人的语音子片段。

在获得多个说话人的语音子片段后，有时只需要判断某个说话人的语音是否与图像同步，有时候需要判断多个说话人的语音是否与图像同步。此时，可以根据实际判断情况，选择某一个说话人的语音子片段或某几个说话人的语音子片段作为去噪后的语音片段。

S204：采用滑动加权的方式，将语音片段切分为多个语音帧。

其中，相邻的语音帧之间存在重叠。

具体来说，可以利用窗函数将语音片段滑动加权切分为多个语音帧。窗函数可以是汉明窗函数，也可以是其它类的窗函数。切分成的多个语音帧可以是25ms的片段，也可以是其它长度的片段。每一个片段称作一个语音帧。相邻语音帧之间一般保持10ms的重叠，这是因为：语音帧太短，可能一个音都没有发完，所以，使相邻语音帧保持一定程度的重叠，能够更加充分的对语义进行理解，进而提高语音与图像同步性衡量的准确性。

这里需要说明的是，步骤S202、S203、S204的执行顺序可以不按照序号的大小顺序执行，可以以任意顺序执行。对于步骤S202、S203、S204的执行顺序，此处不做具体限定。

S205：将每个语音帧转换为特定信号。

其中，特定信号与语音片段中说话人的个体特征无关。

在现有技术中，在将语音片段输入语音神经网络之前，需要先将语音片段转换为梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)信号，然后将MFCC信号输入语音神经网络，以获得相应的语音特征。然而，MFCC信号并不能够很好地抹去语音片段中说话人自身的特征，即身份信息，进而得到的语音特征中也会包含有说话人的身份信息，进而降低语音与图像同步性衡量的准确性。

有鉴于此，在将语音片段输入语音神经网络之前，可以先将语音片段转换为特定信号。这里的特定信号与语音片段中说话人自身的特征的无关，即能够更好地抹去语音片段中说话人自身的特征。这样，将特定信号输入语音神经网络，得到的语音特征就不再包含说话人自身的特征，进而提升语音与图像同步性衡量的准确性。

在实际应用中，特定信号可以是语音类别后验概率(Phonetic Posterior Grams，PPG)信号。PPG信号能够更好地抹去语音片段中与说话人身份相关的信息。并且，PPG信号还能够进一步抹去语音片段中的背景音，降低语音神经网络输入的方差，进而提升语音与图像同步性衡量的准确性。

当然，还可以将语音片段转换为其它类的信号，如DeepSpeech模型提取的特征，只要能够抹去说话人的身份信息即可。对于特定信号的具体类型，此处不做限定。

在实际应用中，为了将语音片段转换为PPG信号，可以将语音片段输入说话者无关的语音识别(Speaker-Independent Automatic Speech Recognition，SI-ASR)系统，通过SI-ASR系统对语音片段进行处理，生成PPG信号。在SI-ASR系统中，具体的PPG信号的维度P和SI-ASR支持的音素数量与支持的语言有关。这里采用支持中文和英文的SI-ASR系统，共支持P＝400个音素。一语音帧所得的PPG信号为1×400维的特征向量。T个连续语音帧所得PPG信号为T×400维的特征矩阵。采用其他SI-ASR系统可根据支持的音素数量做相应调整。

当然，还可以通过其它方式将语音片段转换为抹去说话人的身份信息的信号，例如：深度学习模型DeepSpeech。该深度学习模型可以将语音信号转化为相应的文字。因此，在DeepSpeech提取的特征中，仅存在有说话的内容本身，不会存在说话人的音色等个人特征。这样，提取后也能够将说话人的身份信息和背景等与语义无关的内容抹去。

图3为本申请实施例中处理语音片段的流程示意图，参见图3所示，首先，将语音输入预处理模块。在预处理模块中，能够对语音进行统一采样频率、去噪、分割等处理。然后，对语音片段处理后得到的语音数据输入SI-ASR系统。在SI-ASR系统中，能够将语音片段转换成PPG信号。

二、图像片段处理方面

由于图像片段中包含有说话人自身的特征，例如：嘴唇薄厚、嘴大小等。因此，在将图像片段输入图像神经网络中获取图像特征之前，先将图像片段中说话人自身的特征抹去，进而将抹去说话人自身特征的图像数据输入图像神经网络，能够提升语音与图像同步性对比的准确性。

下面以从图像片段中提取下半脸特征为例，对根据图像片段生成目标人物的轮廓图进行说明。这里提取的轮廓图目标人物的个体特征无关。

S206：对图像片段进行人脸检测，得到人脸检测框。

一般来说，对每一帧图像进行人脸检测，得到人脸检测框。

S207：将人脸检测框中的人脸进行水平对齐。

具体的，可以利用稠密人脸对齐算法，找出人脸检测框中人脸关键点在原图像中的位置，包括但不限于左眼中心位置、右眼中心位置、左嘴角位置和右嘴角位置。上述的左、右为图像中人脸生理意义的左右，而非在图像中的左右，并假设图像中人脸是正面。利用上述人脸关键点的位置信息，基于规则计算将人脸图像处理成符合规则的形式。此处规则可以如下：

计算左眼中心关键点和右眼中心关键点的中间位置，记为P_eyecentre；

计算左嘴角关键点和右嘴角关键点的中间位置，记为P_mouthcentre；

计算左眼中心关键点到右眼中心关键点的向量，记为V_eyetoeye；

计算P_eyecentre到P_mouthcentre的向量，并逆时针旋转90度，使其与V_eyetoeye成锐角，记为V_eyetomouth；

计算V_eyetoeye和V_eyetomouth的向量差，并对向量差进行模长归一化，得到单位向量X_unit；

将X_unit放大，放大倍率为V_eyetoeye模长的2倍和V_eyetomouth模长的1.8倍两者的较大值，得到向量X，并对X逆时针旋转90度得到向量Y；

以P_eyecentre移动0.1倍V_eyetomouth为中心C，可在图像中得到一个矩形，矩形的左上角坐标为C+X+Y，右下角坐标为C-X-Y；

利用插值算法将上述矩形内的图像取出，缩放到预定尺寸，如256*256像素，就得到了对齐后的人脸。

这里用于找出人脸关键点的稠密人脸对齐算法可以是三维稠密人脸对齐(3Dimentional Dense Face Alignment，3DDFA)算法。当然，还可以采用其他对齐算法获取人脸关键点，继而采用上述规则实现人脸对齐。此处对于使用的具体算法，不做限定。

相比于更为常用的计算人脸关键点和预设正脸人脸关键点模板之间的仿射变换来对齐人脸的方式，此方法可以兼容大角度侧脸和正脸的对齐。

S208：从人脸中提取目标人物的表情系数。

具体的，可以通过三维可形变参数化人脸模型(3Dimensional MorphableModels，3DMM)参数估计算法提取人脸检测框中目标人物的表情系数，表情系数符合三维可形变参数化人脸模型的标准。

在将人脸检测框中的内容作为输入，利用3DMM参数估计算法对人脸检测框中的内容进行处理后，就能够获取到目标人物的符合3DMM模型标准的身份系数和表情系数。可以将表情系数记为α_exp。

其中，3DMM参数估计算法是能够估计3DMM参数的算法，用来估计人脸的身份系数和表情系数，且身份系数和表情系数符合3DMM定义的标准。

具体来说，本申请采用的3DMM参数估计算法是用深度神经网络模型实现的。可以利用预先训练的深度神经网络模型，向模型中输入对齐后的人脸检测框中的人脸图像和现有目标人物对应的身份系数，提取对齐后人脸图像中目标人物的表情系数和身份系数，并根据输出的身份系数更新现有目标人物对应的身份系数，用于后续图像帧估计。此处目标人物对应的身份系数为时序上相邻图像帧估计的身份系数的滑动加权平均。

相比于单独从对齐后人脸图像直接计算目标人物的表情系数，此处通过将时序上相邻图像帧对目标人物的身份系数的计算结果输入深度神经网络模型，可以更好的让模型使用表情系数，而不是改变身份系数，来拟合人脸的形态变化，从而获得更为准确的表情系数。

类似的，此处也可以借鉴其他的能够稳定身份系数的3DMM参数估计算法，如Face2Face算法(Thies,Justus,et al."Face2face:Real-time face capture andreenactment of rgb videos."Proceedings of the IEEE conference on computervision and pattern recognition.2016.)获取每一帧的表情系数。

表情系数α_exp包含有表征嘴部的位置、嘴的开合程度等与说话人个体无关的特征。而与说话人个体相关的特征都是在身份系数中表征。所以，仅仅基于表情系数α_exp和标准身份系数(这里使用标准身份系数替代目标人物的身份系数，去除目标人物的个体特征)，输入通用参数化人脸模型生成目标人物的人脸轮廓图，能够排除说话人的个体特征，进而提高嘴部运动与语音同步性衡量的准确性。

S209：提取表情系数中下半脸对应的下半脸表情系数。

在3DMM的定义下，所有表情系数的影响都是全脸的，只是有的对嘴影响大对眼睛影响可忽略。因此，提取表情系数中与下半脸运动相关性高的表情系数，作为下半脸表情系数。

需要将图像中目标人物的某一部位与语音进行同步性衡量，就从系统中提取目标人物该部位的与个体特征无关的系数。在这里，需要将下半脸运动与语音进行同步性衡量，那么就从表情系数中提取下半脸的表情系数，记为α_halfface，进而基于下半脸的表情系数生成下半脸轮廓图，以与语音进行同步性衡量。

S210：将下半脸表情系数输入通用三维人脸模型，得到目标人物的下半脸对应的三维人脸模型。

目标人物的下半脸对应的三维人脸模型也就是目标人物的下半脸表情系数结合标准身份系数的三维人脸模型。

通用三维人脸模型，就是抽象化的人脸模型。在通用三维人脸模型中，眉毛、眼睛、鼻子、脸、嘴等部位的数据均是基于众多的人脸平均后得到的，具有普适性。

将下半脸表情系数输入通用三维人脸模型后，得到的就是目标人物的嘴部表情目标人物的下半脸对应的三维人脸模型。

具体的，在通用三维人脸模型中，将预定义的完整表情正交基底B_exp对应改为与下半脸运动相关的B_halfface。具体如下式(1)所示：

其中，S为目标人物在中性表情下的嘴型的几何模型，

为预定义的中性表情下对应的平均人脸几何模型，B_halfface为与嘴部运动相关的正交基底，α_halfface为下半脸表情系数。

这样，得到的目标人物的下半脸表情对应的三维人脸模型就能够消除无关表情的影响。

S211：获取三维人脸模型中下半脸的顶点集合。

所谓下半脸，是指人脸中左右耳底部与鼻尖连线以下的人脸区域。图4为本申请实施例中下半脸的范围的示意图，参见图4所示，将左耳底部的位置401、鼻尖的位置402、右耳底部的位置404连接，得到连线404。连线404就将人脸分为了上半脸和下半脸。而连线404以下的人脸就是下半脸。

下半脸在选时，连线604可以有一定的调整幅度，如向上移动到眼部位置，或者向下移动到鼻子位置等。即下半脸的选取可以根据实际需要调整。

S212：将顶点集合投影到二维平面，得到目标人物的下半脸轮廓图，并将下半脸轮廓图作为目标人物的人脸轮廓图。

具体的，收集得到的几何模型S上对应嘴部轮廓和下巴区域的顶点，得到顶点集合V。再利用尺度正交投影(Scale Orthographic Projects)将顶点集合V投影到二维平面，得到下半脸的轮廓图I，具体如下式(2)所示：

其中，I为目标人物下半脸的二维轮廓图，f为尺度系数，P为正交投影矩阵，S(v)为三维人脸模型中下半脸的顶点集合。在这里，轮廓图I的尺寸可以是128×256的长方形，嘴部和下半脸的轮廓居中。特别的，为增强轮廓图的可见性，投影时，将每个顶点投影成一个以顶点投影位置为圆心，半径为r个像素的二维高斯圆斑。半径r的取值和I的尺寸正相关，对应于128×256的I，这里取r＝2个像素。

在对图像片段进行处理的过程中，并没有对模型进行旋转和平移，而是通过3DMM直接获取图像片段中目标人物的表情系数，进而结合标准身份系数得到通用三维人脸模型，生成消除了目标人物个体特征的下半脸轮廓图，得到的轮廓图是正脸特征下的轮廓图，消除了原始图像中人脸姿态以及遮挡物的影响。

图5为本申请实施例中处理图像片段的流程示意图，参见图5所示，首先，将图像进行稠密人脸对齐，得到对齐后的图像；然后，将对齐后的图像进行人脸3D模型表情系数提取；接着，采用正面视角，标准脸型，根据提取的表情系数生成3D模型；最后，将3D模型进行对应顶点的投影，得到下半脸的二维轮廓。

在将语音片段处理为PPG信号，以及将图像片段处理为人脸正面下半部的二维轮廓图之后，就可以将PPG信号输入语音神经网络，以及将二维轮廓图输入视觉神经网络，分别得到语音特征和视觉特征，进而将语音特征与视觉特征进行对比，确定语音片段与图像片段是否具有同步性。

S213：通过语音神经网络获得特定信号的语音特征。

将语音片段输入语音神经网络，通过语音神经网络对语音片段进行处理，语音神经网络的输出就是语音特征。

这里的语音神经网络可以是任何一种能够获取语音片段中语音特征的神经网络。对于语音神经网络的具体类型，此处不做具体限定。

S214：通过视觉神经网络获得人脸轮廓图的视觉特征。

将对图像片段处理后得到的轮廓图输入视觉神经网络，通过视觉神经网络对轮廓图进行处理，视觉神经网络的输出就是视觉特征。

这里的视觉神经网络可以是任何一种能够获取图像片段中视觉特征的神经网络。对于视觉神经网络的具体类型，此处不做具体限定。

S215：根据语音特征与视觉特征，确定语音片段与图像片段是否具有同步性。

在语音神经网络输出语音特征，视觉神经网络输出视觉特征后，通过具有对比功能的算法将语音特征与视觉特征进行对比，根据对比结果，就能够确定语音片段与图像片段是否具有同步性了。这里的同步性，用于表征语音片段中的声音与图像片段中目标人物的动作相匹配。也就是说，根据对比结果，确定语音片段中的声音与图像片段中目标人物的动作的含义是否相同。也可以理解为图像片段中目标人物的动作所发出的声音与语音片段中的声音在语义和时间上是相同的。这里的目标人物的动作一般是指目标人物的下半脸动作，即与嘴部相关的动作。

一般来说，输出为0至1之间的一个数值。并且，在0至1之间设置一个阈值。若输出的数值大于或等于该阈值，则说明语音特征与视觉特征的相似度较高，语音片段与图像片段同步。若输出的数值小于该阈值，则说明语音特征与视觉特征的相似度较低，语音片段与图像片段不同步。对于数值的具体范围和阈值，此处不做具体限定。

图6为本申请实施例中衡量语音与图像同步性的架构示意图，参见图6所示，在从视频中分别提取出语音片段和图像片段后，一方面，将语音片段输入语音神经网络，得到语音特征。另一方面，将图像片段输入视觉神经网络，得到视觉特征。最后，将语音特征和视觉特征输入同步性度量模块，同步性度量模块通过语音特征和视觉特征确定相应的语音片段和图像片段是否具有同步性。这里的同步性度量模块就是通过语音特征与视觉特征的对比，确定相应的语音片段和图像片段是否具有同步性的模块。对于同步性度量模块的具体形式，此处不做限定。

在实际应用中，为了获得语音片段的语音特征，可以将语音片段输入到语音神经网络中进行处理，以获得语音特征。以及为了获得图像片段的视觉特征，可以将图像片段输入到视觉神经网络中进行处理，以获得视觉特征。下面分别从神经网络的构建、训练数据采样、训练这三个方面进行说明。

一、神经网络构建

1、语音神经网络构建

由于在将语音片段输入语音神经网络之前，已经将语音片段转化为特定信号，具体是维度为T×P的PPG信号。并且每一个维度均具有明确的物理含义，P为音素数量，T为时间上的采样次数，每一列是一个语音帧对应的音素后验概率分布。基于这些明确的物理含义，语音神经网络具体可以做如下搭建。

图7为本申请实施例中语音神经网络的架构示意图，参见图7所示，语音神经网络至少包括有：卷积层(Conv1D(3×1,stride＝(2,1))LeakyReLU(0.02))、……卷积层(Conv1D(3×1,stride＝(2,1))LeakyReLU(0.02))、重组层(Reshape)、全连接层(FullyConnection Layer LeakyReLU(0.02))、全连接层(Fully Connection Layer LeakyReLU(0.02))、全连接层(Fully Connection Layer LeakyReLU(0.02))、线性投影层(LinearProjection Layer)。

考虑到相邻的语音片段之间存在重叠，因此，先采用多个1维卷积层(卷积核尺寸为3×1，卷积步长为(2，1)，并采用有效扩充(valid padding))对时间维度进行处理。再将得到的矩阵重组为特征向量。接着，采用3个全连接层对特征向量进行处理。最后，经过1个线性投影层得到512维的语音特征向量。其中，卷积层的层数与输入的特定信号(PPG信号对应的特征矩阵)的时长相关。最终输出的语音特征向量的维度与后续输出的视觉特征向量的维度一致。本申请实施例中的语音特征向量也就是语音特征，视觉特征向量也就是视觉特征。

具体来说，当P＝400，输入时长＝200ms时，T＝13，PPG特征矩阵为13×400维度。对应的，可以采用2层1维卷积层，得到3×400的特征矩阵。重组为1×1200的特征向量后，经过3个全连层和1个线性层，得到最后的512维语音特征向量。

图8为本申请实施例中生成语音特征的流程示意图，参见图8所示，该过程可以包括：

S801：采用多个1维卷积层对特定信号在时间维度上进行处理，得到特征矩阵。

其中，1维卷积层的数量与特定信号对应的时长相关。

S802：将特征矩阵重组为特征向量。

S803：采用3个全连层和1个线性投影层对特征向量进行处理，得到512维的语音特征向量。

当然，最终得到的语音特征向量的维度并不仅限于只有512维。语音特征向量的维度与输入到模型中的语音数据的数据量和语音神经网络所采用的损失函数的类型相关。

2、视觉神经网络构建

由于在将图像片段输入视觉神经网络之前，已经将图像片段中对下半脸运动信息形成干扰的因素(例如：光照、表情、姿态等)在很大程度上进行了去除，因此，视觉神经网络就可以采用计算量较为轻量级的网络结构。

具体来说，视觉神经网络可以采用ResNet18的主干网，并做如下改动：

(1)若输入的图像片段为多张图像，可以将多张图像按照时间增序沿着通道维度排列后作为视觉神经网络的输入。因此，视觉神经网络的第1层中卷积的参数维度需要做相应的调整。

(2)由于图像片段被处理为下半脸的轮廓图，分辨率为128×256，高宽比为1：2，这与ResNet18默认输入高宽比1：1不同。对此，需要在ResNet18的第1层卷积采用较大卷积核尺寸，例如：7×7，并将卷积步长设置为(1，2)。

以上卷积尺寸和步长仅仅为一种具体的数值，这并不意在限制本申请实施例中采用的卷积核尺寸和步长只能够是7×7和(1，2)。在实际应用中，卷积层的卷积核尺寸和步长与轮廓图的尺寸相关。可以根据轮廓图的高宽比设置相应的步长，并且将卷积核的尺寸设置的稍大一些。这样，采用一个卷积核较大的卷积层就能够将轮廓图一次处理完成。当然，也可以采用多个卷积核较小的卷积层进行多次处理实现。

(3)在ResNet18主干网的最后增加了1层全连接层，这样能够得到512维的视觉特征向量。

当然，最终得到的视觉特征向量的维度并不仅限于只有512维。视觉特征向量的维度与输入到模型中的视觉数据的数据量和视觉神经网络所采用的损失函数的类型相关。

当然，视觉神经网络除了采用ResNet18的主干网之外，还可以采用其它的深度神经网络进行改动后使用，例如：MobilenetV2等。

图9为本申请实施例中生成视觉特征的流程示意图，参见图9所示，该过程可以包括：

S901：采用卷积层处理轮廓图，得到特征矩阵。

其中，卷积层的卷积核尺寸和步长与轮廓图的尺寸相关。

S902：采用视觉神经网络的主干网络处理特征矩阵，得到特征向量。

这里的主干网络，是指神经网络中的主要架构。为了构建本申请实施例中的视觉神经网络，在获取到现有的某一个视觉神经网络后，采用该现有的视觉神经网络中的架构，即主干网络，并对某些层中的参数进行适应性修改，就能够得到本申请实施例的视觉神经网络了。

S903：采用全连接层处理特征向量，得到512维的视觉特征向量。

二、训练数据采样

对于训练视频，采用单人说话的人像视频。在该人像视频中，背景声的干扰程度小于特定程度。也就是说，需要采用背景声相对干净的单人说话的视频。并且，训练视频可以是大量的，以便使得后续训练能够更加充分。在实际应用中，可以采用25Hz的高清视频。这样，能够提高视觉特征提取训练的精准性。

在采集完训练视频后，先将每段视频中的音频信号处理成16kHz，以及将视频信号切分为帧，并记录时间线。这样，就得到了语音片段和图像片段。然后，再采用上述步骤S202-S205中的处理方式对语音片段进行处理，得到特定信号，后续采样时简称为语音，以及采用上述步骤S206-S212中的处理方式对图像片段进行处理，得到人脸轮廓图，后续采样时简称为视觉。

接下来，就可以正式对训练数据进行采样了。在这里，主要包括正样本采样和负样本采样。所谓正样本，就是指输入的语音与视觉是同步的。而所谓负样本，就是指输入的语音与视觉是不同步的。通过输入正样本和负样本进行训练，能够提高语音与图像同步性衡量的准确性。

1、正样本采样

所谓正样本，就是训练时使用的语音和视觉需要来自于同一段训练视频，并且在时间上同步。

并且，若语音长度过短，可能会导致一个完整的发音未包含在语音内，甚至还可能会影响语音中语义的理解，有鉴于此，为了提高语音特征识别的准确性，进而提高同步性衡量的准确性，可以使语音的帧长大于视觉的帧长。而语音的帧长具体选择多少，可以基于训练视频的帧率确定。

举例来说，对于25Hz帧率的训练视频，可以选取T时刻的一帧图像，以及(T-20ms，T+20ms)的语音片段，经过处理后构成一个正样本对。此时，视觉的长度为1帧，而语音的长度为40ms。很明显，这就是使语音的帧长大于视觉的帧长。而语音的长度设置为40ms，就是为了配合训练视频中25Hz的帧率。而若采用其它帧率的训练视频，语音的长度可以进行相应的调整。

从训练视频集中选取一个训练视频，简称为第一训练视频；从训练视频集中选取另一个训练视频，简称为第二训练视频。第一训练视频和第二训练视频为不同的训练视频。

在本申请实施例中，从第一训练视频中获取的第一图像片段和第一语音片段，处理成第一图像数据和第一语音数据后，组成的就是正样本。

2、负样本采样

所谓负样本，就是训练时使用的语音和视觉并不同步。这里的不同步可以包含有多种情况。而为了能够更加充分地进行训练，可以将不同步的所有情况都进行样本采集。

现有的，在采集负样本对时，就是从不同的视频中分别采集图像片段和语音片段，或者从同一视频中的不同时间处采集图像片段和语音片段，进而组成负样本。但是，这样采集的负样本对中仍有可能存在正样本。例如：若视频A中的语音片段与视频B中的语音片段相同，那么视频A中的语音片段与视频B中的语音片段对应的图像片段也具有同步性，若将视频A中的语音片段与视频B中的语音片段对应的图像片段组成负样本，而实际上，上述两者组成的是正样本。再例如：若视频A中某一图像片段对应的语音为静音，视频B中另一图像片段对应的语音也是静音，若将视频A中的图像片段与视频B中的图像片段对应的语音片段进行组合，实际上，组成的是正样本。这样，在负样本对中就出现了不合理的负样本，进而降低神经网络训练的准确性，进而降低后续同步性度量的准确性。

有鉴于此，在本申请实施例中，在进行负样本采集时，需要去除不合理的负样本，也就是对训练数据库进行清洗，去除不适合用于训练的负样本。这样，能够提高负样本的准确性，进而提高神经网络训练的准确性，进而提高语音与图像同步性衡量的准确性。

具体的，可以通过以下三种方式进行负样本采样。

(1)错位的负样本

所谓错位的负样本，是指虽然语音和视觉来自于同一段训练视频，但是语音与视觉在时间上没有同步，即存在少量错位。

举例来说，采集T时刻的一帧图像，以及(T-t-20ms，T-t+20ms)的语音片段，进行处理后，构成一个负样本对。即把图像片段处理为图像数据，把语音片段处理为语音数据，再构建样本对<语音数据，图像数据>，简写为<语音，视觉>。

例如：对于错位负样本：<语音，视觉>负样本采自同一段视频，时间线少量错位，T时刻的一帧图像和(T-t-20ms,T-t+20ms)语音片段构成一个负样本对，其中|t|>80ms。即，语音和视觉需要错位至少80ms，对应两帧图像的时间长度，以上才被作为负样本对。并确保(T-20ms,T+20ms)语音片段和(T-t-20ms,T-t+20ms)语音片段，两者语义不同。

具体来说，就是在构建错位的负样本时，语音与视觉的错位的时长需要大于或等于2倍的视觉时长。这样，能够确保错位负样本中的语音与错位负样本中与视觉对应同步的语音完全错开，进而确保后续训练的准确性。

而若采用其它帧率的训练视频，语音的帧长可以进行相应的调整，视觉的帧长也进行相应的调整。

此外，为了进一步提高后续训练的精准性，还需要确保错位负样本中的语音与错位负样本中与视觉对应同步的语音的语义不同。

在本申请实施例中，从第一训练视频中获取的第一图像片段和第二语音片段，处理成第一图像数据和第二语音数据后，组成的就是第一负样本。

(2)语音固定的负样本

所谓语音固定的负样本，是指语音是从同一段训练视频中提取出的，而视觉是从这段训练视频外的其它某段训练视频中随机提取出的。而上述其它某段训练视频中的语音与从上述同一段训练视频中提取出的语音在语义上存在不同。

例如：对于固定语音片段负样本：<语音，视觉>负样本采自不同视频，其中语音片段固定，从其他训练视频随机采样一帧图像，构成一个负样本对。其中，确保负样本对中的语音，和视觉所属正样本对中的语音，两者的语义不同。如负样本对中的语音的语义为“静音”，则负样本对中的视觉所属正样本对中的语音的语义不能为“静音”。

在本申请实施例中，从第一训练视频中获取的第一图像片段，以及从第二训练视频中获取的随机语音片段，处理成第一图像数据和第三语音数据后，组成的就是第二负样本。

(3)视觉固定的负样本

所谓视觉固定的负样本，是指视觉是从同一段训练视频中提取出的，而语音是从这段训练视频外的其它某段训练视频中随机提取出的。而上述其它某段训练视频中的视觉与从上述同一段训练视频中提取出的视觉在图像中人物的下半脸运动上存在不同。

例如：对于固定视觉帧负样本：<语音，视觉>负样本采自不同视频，其中视频帧固定，从其他视频随机采样一个语音片段，构成一个负样本对。其中，确保负样本对中的视频帧，和语音片段所属正样本对中的视觉图像，两个有足够下半脸运动上的差异。

在本申请实施例中，从第一训练视频中获取的第二语音片段，以及第二训练视频中获取的随机图像片段，处理成第二语音数据和第二图像数据后，组成的就是第三负样本。

上述第一图像片段和随机图像片段均为一个或多个连续时间点的图像。

此外，在实际应用中，考虑到单帧图像没有上下文信息，进而无法充分表达出图像中人物下半脸运动信息，因此，在采样时，可以采集连续T个时间点的图像，从而得到视觉，以及采集T个时间点的图像对应的语音片段，从而得到语音，进而将得到的视觉和语音进过处理后组成样本对，输入到神经网络中进行训练。一般来说，可以将T设置为5，对应的语音片段就是200ms。

在得到了上述三种候选负样本后，针对这三种候选的负样本，均需要做视觉规则判定和语音规则判定，并且，只保留两种判定都通过的候选负样本作为合格的负样本。具体判断过程如下：

1)语音规则判定：

判定负样本<语音a，视觉v>中，语音a，和视觉v所属正样本对中的语音a_positive，在语义上需要不同。

具体来说，其核心思路就是度量PPG特征序列之间的差异。

由于语音样本已经处理为PPG特征序列，每个PPG特征是对应语音帧的所含音素的后验概率分布，因此，对后验概率分布取概率最大值，可以得到语音帧对应的音素，从而可以将PPG特征序列转化为音素序列P＝[p₀…p_i…p_t]。

在得到负样本中语音a和对应正样本中语音a_positive的音素序列后，计算两个音素序列的编辑距离。具体的，可以用莱文斯坦距离(Levenshtein Distance)计算负样本中的语音P₁和对应正样本中的语音P₂之间的编辑距离D＝L(P₁,P₂)。即通过删除、插入和替换操作，将P₁变成P₂得需要多少步骤，越相似的序列之间所需步骤越小。当D的值低于一个预设阈值，就判定两个语音样本过于相似；当D的值高于预设阈值，则判定两个语音样本有足够差异。预设阈值可由一个数据库统计获得。

2)视觉规则判定：

判定负样本<语音a，视觉v>中，视觉v，和语音a所属正样本对中的视觉v_positive，在下半脸运动上有足够不同。

具体来说，其核心思路就是判断负样本中视觉与相应正样本中的视觉的相似度如何。

由于上述两个视觉样本已经经过了预处理，都被处理成了下半脸的轮廓图，并且由于用的同一标准身份信息和投影坐标系，已经对齐。因此，可以利用阈值，将两个轮廓图从0～255的灰度图变成0/1的二值化轮廓图，记为M_v1和M_v2。

下半脸然后，计算两个二值化轮廓图的绝对差异D₁＝∑|M_v1-M_v2|，以及计算两个二值化轮廓图的结构相似性(Structural Similarity，SSIM)D₂＝SSIM(M_v1,M_v2)，进而得到两者的加权和D＝λ₁D₁+λ₂D₂。当D的值低于一个预设阈值，就判定两张视觉样本过于相似；当D的值高于预设阈值，则判定两张视觉样本有足够差异。权重λ₁,λ₂和预设阈值可由一个数据库统计获得。

当每个视觉样本包含连续T个时间点的图像时，对T帧图像进行预处理，逐一根据上述视觉规则判定两个视觉样本间对应帧之间的差异性，进而根据有差异帧的数量，与视觉样本中帧的总数量的比例做最终判定，若比例高于预设阈值，则判定两个视觉样本有足够差异。

以上的视觉规则判定和语音规则判定这个双重判定很重要，因为很多语音不同的字，嘴部运动是非常相似的。例如：体育的“育”和出门的“出”，都会嘟嘴一下。因此，只有通过双重判定的负样本，才属于合理的负样本，后续才能够用来对神经网络进行训练。这样，能够提高神经网络训练的准确性，进而提高语音与图像同步性衡量的准确性。

在对这三种候选负样本进行筛选后，就得到了第一负样本、第二负样本和第三负样本，进而采用第一负样本、第二负样本和第三负样本进行神经网络训练。

三、神经网络训练

基于图6所示的架构图，将上述采集得到的正样本、第一负样本、第二负样本和第三负样本输入语音与图像同步性衡量模型中进行训练，就能够调整语音与图像同步性衡量模型中的各项参数，进而更加准确地对语音与图像的同步性进行衡量。

在这里，语音与图像同步性衡量模型就是语音神经网络、视觉神经网络以及同步性衡量模型所组成的。

图10为本申请实施例中训练神经网络的流程示意图，参见图10所示，该过程可以包括训练前期和训练后期两个阶段，具体如下：

1、训练前期

S1001：将正样本、第一负样本、第二负样本和第三负样本分为不同批次输入语音与图像同步性衡量模型进行训练，调整语音与图像同步性衡量模型中的参数。其中，通过平衡采样，使得每个批次内的正样本数量和负样本数量相近，有助于模型训练。

具体来说，可以通过损失函数来调整语音与图像同步性衡量模型中的参数，损失函数具体如下式(3)所示：

其中，L表示损失值，N表示批次的大小，n表示样本的标号，y_n表示样本的标签，y_n＝1表示正样本，y_n＝0表示负样本，d_p表示正样本距离，

d_n表示负样本距离，

v表示视觉神经网络抽取的视觉特征，a表示语音神经网络抽取的语音特征，marg in₁为特定值。这里的marg in₁与训练后期的marg in₂可以不同。

而基于损失函数值调整模型中的各项参数的具体方式，例如：可以通过利用Adam优化算法训练模型，对应参数为beta_1＝0.99,beta_2＝0.999。在训练前期，将批次大小设置为256，训练1000个时代(epochs)，并将学习率初始设置为0.005，并在100个时代(epoch)后利用余弦衰减策略将学习率逐渐衰减到0。类似的，在训练后期，训练500个时代(epochs)，将学习率初始设置为0.001，并在100个时代(epoch)后利用余弦衰减策略将学习率逐渐衰减到0。使用中上述具体的训练参数和模型参数，需要随数据库变化而做相应调整。当然，还可以采用其它具体方式，此处不做限定。

2、训练后期

为了进一步对语音与图像同步性衡量模型进行优化，在前期训练完模型后，可以继续在每个训练批次中采用在线难样本挖掘策略，使用在线挖掘出的难样本对模型再次进行训练，直到训练后的模型处于某一精度区间不再产生较大波动为止。

具体来说，与训练前期不同，训练后期只将所有的正样本分为不同批次(如M批)，并通过将批次内的不同正样本间做组合，在线获得负样本，称为批次内的负样本。对每个批次内的正样本和负样本按照规则，根据损失函数输出的损失值进行排序；根据所述损失值获取当前批次内所述正样本中的难正样本；根据所述损失值获取当前批次内的负样本中的多个难负样本。

S1002：获取一批次内正样本中的难正样本。

具体来说，在训练集合中随机采样N个正样本(语音和视觉)组成训练批次后，通过当前的语音神经网络和视觉神经网络分别提取出语音特征a_i和视觉特征v_i，i∈N。然后，找出每个批次内的难正样本。难正样本具体如下式(4)所示：

其中，

表示难正样本，v表示视觉神经网络抽取的视觉特征，a表示语音神经网络抽取的语音特征，N表示样本的标号。

S1003：获取该批次内的负样本和负样本中的多个难负样本。

具体为，根据该批次内正样本生成该批次内的负样本，获取该批次内的负样本中的多个难负样本。

其中，根据每个批次内正样本生成本批次内的负样本，具体为，将步骤S1002中的训练批次内的N个正样本获取的N个语音特征和N个视觉特征两两组合，可以形成一个N×N矩阵，排除对角线上正样本组合，得到N×(N-1)个组合作为候选负样本，经过视觉规则判定和语音规则判定，得到的合格负样本即为批次内负样本。

其中，多个负样本与正样本中的每个样本对应。也就是说，步骤S1002中的每一个正样本，都对应有多个负样本。步骤S1003就是针对每一个正样本，在其对应的多个负样本中找出难负样本。

其中，获取所述每个批次内的负样本中的多个难负样本，具体为对语音特征a_i对应的负样本按照损失函数输出的损失值进行排序，根据损失值获取语音特征a_i对应的难负样本；和/或对视觉特征v_i对应的负样本按照损失函数输出的损失值进行排序，根据损失值获取视觉特征v_i对应的难负样本。

举例来说，假设存在3个正样本，则可以组成一个3×3矩阵，除去对角线上的正样本组合，共6个候选负样本，即

去除矩阵内的不合格负样本后，矩阵内所剩均为合格负样本。矩阵内每i横行为第i个正样本的语音对应的负样本，每横行中损失函数最大的记为第i个正样本的语音对应的难负样本；类似的，矩阵内第i纵列为第i个正样本的视觉对应的负样本，每纵列中损失函数最大的记为第i个正样本的视觉对应的难负样本。

其中，在本实施例中，损失函数最大，对应于距离

最小。

特别的，当某一横行或某一纵列不含有合格负样本时，则不计算难负样本。

难负样本具体如下式(5)和(6)所示：

其中，

表示第j个正样本的语音对应的难负样本的距离，

表示第j个正样本的视觉对应的难负样本的距离，v表示视觉神经网络抽取的视觉特征，a表示语音神经网络抽取的语音特征。

其中，当第j横行不含有合格负样本时，

mar gin₂为特定值。类似的，当第j纵列不含有合格负样本时，

也就是说，难负样本挖掘的本质就是排序。在一个训练批次内，对于一个语音样本a_j，遍历批次内所有视觉样本，构建负样本对组合(v₀,a_j),…,(v_N,a_j)，若存在合格负样本，则从合格负样本中选出难的一个负样本对。以及对于一个视觉样本v_j，遍历批次内所有语音样本，构建负样本对组合(v_j,a₀),…,(v_j,a_N)，若存在合格负样本，则从合格负样本中选出难的一个负样本对。

S1004：将难正样本和多个难负样本输入调整参数后的语音与图像同步性衡量模型进行训练，再次调整语音与图像同步性衡量模型中的参数。

从正样本和负样本中在线挖掘出难正样本以及负样本后，就无需再对批次内所有的正样本和负样本进行损失计算了。因此，语音与图像同步性衡量模型对应的损失函数也相应的会发生一些变化，变化后的损失函数具体如下式(7)所示：

其中，L表示损失值，

表示难正样本距离，

表示第j个正样本的语音对应的难负样本的距离，

表示第j个正样本的视觉对应的难负样本的距离，N表示样本的批次的大小，marg in₂为特定值。

通过难正样本和负样本，以及发生相应变化后的损失函数，就能够进一步对语音与图像同步性衡量模型中的参数进行调整，进一步优化模型，提高模型预测的准确性。

在实际的模型优化过程中，一般来说，并不只进行一次优化，而是会多次进行优化。也就是说，在利用当前批次的训练数据优化完一次模型后，再次利用下一批次的训练数据并获取对应的难正样本和负样本，然后输入到当前的模型中再次进行训练，反复多次，直到对应的损失函数的输出值维持在一个稳定的区域，即输出值处于某一精度区间不再产生较大波动为止。

S1005：再次获取下一批次内正样本中的难正样本。

S1006：再次获取该批次内的负样本和负样本中的多个难负样本。

其中，多个难负样本与正样本中的每个样本对应。

S1007：将再次获取的难正样本和多个难负样本输入再次调整参数后的语音与图像同步性衡量模型进行训练，调整语音与图像同步性衡量模型中的参数，直到语音与图像同步性衡量模型对应的损失函数输出的损失值收敛为止。即损失值处于某一精度区间不再产生较大波动为止。

步骤S1005、S1006、S1007与上述步骤S1002、S1003、S1004的具体实现方式相似，此处不再赘述。

至此按照上述方式处理m批样本后，语音与图像同步性衡量模型就训练完成了。其中，m小于或等于M(M为正样本划分的批次)。当需要衡量某一视频中的语音片段与图像片段是否具有同步性时，将该视频中的语音片段与图像片段分别通过上述步骤S202-S205与S206-S212进行处理后，再分别输入语音与图像同步性衡量模型中，模型的输出结果就能够表征该视频中的语音片段与图像片段是否具有同步性了。

在这里，完整地对本申请实施例提供的语音与图像同步性的衡量方法的流程进行说明。

图11为本申请实施例中语音与图像同步性的衡量方法的完整流程示意图，参见图11所示，在获取到视频流后，分为两路。其中一路，将视频流输入预处理模块，对视频流进行预处理，得到语音片段。再将语音片段输入SI-AR系统，将视频流处理成PPG信号。再将多个单帧的PPG信号累积为一个语音数据。进而将语音数据输入语音神经网络，得到语音特征。另外一路，将视频流逐帧进行稠密人脸对齐。在一帧图像中，可能有多个人脸，需要对每一张人脸都执行以下步骤：从人脸中提取表情系数。采用正面姿态、标准ID，将从人脸图像中提取到的表情系数生成3D模型。将3D模型中对应的顶点进行投影，得到2D关键点连线。将获得的多帧2D关键点连线累积为一个图像数据。进而将图像数据输入视觉神经网络，得到视觉特征。最后，将语音特征和视觉特征输入到同步性度量模块中，以衡量视频流中的语音与图像是否同步。若满足阈值，则确定同步；若不满足阈值，则确定不同步。通过同步性度量模块，能够判定语音特征和视觉特征的同步性。具体的同步性度量可以通过计算语音特征与视觉特征在向量上的距离，进而与预设的阈值的比较实现。最后，通过同步性度量模块，能够判定出同步性最佳的人脸。若视频中所有人脸的同步性都达不到预设的阈值，则判断当前时间片段下视频图像中没有合适的人脸。

在实际应用中，本申请实施例提供的方法可以应用在各种需要判断语音与图像是否同步的场景下。下面以三个具体场景为例，进一步对本申请实施例提供的方法进行说明。

场景一：判定说话人。

当视频中有多人进行谈话时，为了确定当前正在说话的说话人，首先，从视频中提取出相应的语音片段和图像片段；然后，将语音片段处理为PPG信号，以抹去说话人的音色、语调等个人特征，以及将图像片段通过3DMM参数估计算法提取表情系数，处理成人脸正面下半部的二维轮廓图，以消除侧面、遮挡等情况的干扰，图像中有多少个人脸，就有多少个二维轮廓图；接着，将对语音片段处理后得到的语音数据输入语音神经网络，以及对图像片段处理后得到的图像数据输入视觉神经网络，分别得到语音特征和多个视觉特征；最后，将多个视觉特征分别与语音特征进行同步性匹配，进而确定出与语音特征同步性最高的视觉特征，进而将该视觉特征对应的人确定为视频中当前的说话人。

场景二：伪造视频鉴别。

某些视频中的声音或者画面可能并不是原有的，而是后期人为加上去的。例如：将一些明星的视频重新进行配音，配上一些明星根本没有说过的话。再例如：在一些交互式的活体认证中，需要用户读出屏幕上所显示的字，然后录制成视频上传。而不法分子为了能够通过验证，就事先获取用户的图像，然后进行配音，制作成视频上传。

为了判断视频是否是伪造的，首先，从视频中提取出相应的语音片段和图像片段；然后，将语音片段处理为PPG信号，以抹去说话人的音色、语调等个人特征，以及将图像片段通过3DMM参数估计算法提取表情系数，处理成人脸正面下半部的二维轮廓图，以消除侧面、遮挡等情况的干扰；接着，对语音片段处理后得到的语音数据输入语音神经网络，以及对图像片段处理后得到的图像数据输入视觉神经网络，分别得到语音特征和视觉特征；最后，将语音特征与视觉特征进行同步性匹配，匹配度越高，说明视频中的图像和语音是同步的，而不是后期人为加入的。当匹配度高于特定值时，就可以确定视频中的图像和语音是同一个人同时产生的，即视频中的语音片段属于图像片段中的人物。

场景三：视频调制。

一些非专业级别的多媒体设备在录制视频时，采集语音的设备和采集图像的设备往往是分开的。采集语音可以使用麦克风，采集图像可以使用摄像头。然后再将采集的语音和图像融合成视频。这样，很容易导致视频中的语音与图像在时间上发生错位，即音画不同步。

为了解决视频中音画不同步的问题，首先，从视频中提取出相应的语音片段和图像片段；然后，将语音片段处理为PPG信号，以抹去说话人的音色、语调等个人特征，以及将图像片段通过3DMM参数估计算法提取表情系数，处理成人脸正面下半部的二维轮廓图，以消除侧面、遮挡等情况的干扰；接着，对语音片段处理后得到的语音数据输入语音神经网络，以及对图像片段处理后得到的图像数据输入视觉神经网络，分别得到语音特征和视觉特征；最后，将语音特征与视觉特征进行同步性匹配，确定语音与图像错位的程度，进而进行辅助标定，从而根据标定将语音与图像的时间对齐，以消除错位。

基于同一发明构思，作为对上述方法的实现，本申请实施例还提供了一种语音与图像同步性衡量模型的训练装置。图12为本申请实施例中语音与图像同步性衡量模型的训练装置的结构示意图一，参见图12所示，该装置可以包括：

数据处理模块1201，用于将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据，其中：第一图像片段、第一语音片段和第二语音片段来自于第一训练视频，第一图像片段与第一语音片段具有同步性，第一图像片段与第二语音片段不具有同步性。

数据处理模块1201，还用于将随机图像片段处理为第二图像数据、随机语音片段处理为第三语音数据，其中：随机图像片段和随机语音片段来自于第二训练视频。

样本生成模块1202，用于将第一图像数据和第一语音数据组成正样本。

样本生成模块1202，还用于将第一图像数据和第二语音数据组成第一负样本。

样本生成模块1202，还用于将第一图像数据和第三语音数据组成第二负样本。

样本生成模块1202，还用于将第一语音数据或第二语音数据，和第二图像数据组成第三负样本。

训练模块1203，用于采用正样本、第一负样本、第二负样本和第三负样本训练语音与图像同步性衡量模型。

进一步地，作为图12所示装置的细化和扩展，本申请实施例还提供了一种语音与图像同步性衡量模型的训练装置。图13为本申请实施例中语音与图像同步性衡量模型的训练装置的结构示意图二，参见图13所示，该装置可以包括：

接收模块1301，用于获取第一训练视频中的第一图像片段、第一语音片段、第二语音片段，第一图像片段与第一语音片段具有同步性，第一图像片段与第二语音片段不具有同步性。

接收模块1301，还用于获取随机图像片段和随机语音片段，随机图像片段和随机语音片段来自于第二训练视频。

其中，第一图像片段和随机图像片段的帧长均小于第一语音片段、第二语音片段或随机语音片段的帧长。

语音数据的语音帧数与所述图像数据的图像帧数相关。语音数据包括第一语音数据、第二语音数据或第三语音数据。图像数据包括第一图像数据或第二图像数据。

第二语音片段与第一图像片段错位的时长大于或等于第二语音片段的总时长的2倍。

第一图像片段和随机图像片段均为一个或多个连续时间点的图像。

训练视频为单人说话的人像视频，训练视频中背景声的干扰程度小于特定程度。

数据处理模块1302，用于分别从第一图像片段和随机图像片段中提取目标人物的轮廓图，轮廓图与目标人物的个体特征无关。和/或，

所述数据处理模块1302，还用于分别将第一语音片段、第二语音片段和随机语音片段转换为特定信号，特定信号与第一语音片段、第二语音片段以及随机语音片段中说话人的个体特征无关。

样本生成模块1303，用于将第一图像数据和第一语音数据组成正样本。

所述样本生成模块1303，还用于将第一图像数据和第二语音数据组成第一负样本。

所述样本生成模块1303，还用于将第一图像数据和第三语音数据组成第二负样本。

所述样本生成模块1303，还用于将第一语音数据或第二语音数据，和第二图像数据组成第三负样本。

训练模块包括1304：

参数调整单元1304a，用于将所述正样本、所述第一负样本、所述第二负样本和所述第三负样本分为不同批次输入语音与图像同步性衡量模型进行训练，调整所述语音与图像同步性衡量模型中的参数。

难样本选择单元1304b，用于获取一批次内正样本中的难正样本。

所述难样本选择单元1304b，还用于获取该批次内的负样本和负样本中的多个难负样本，所述多个难负样本与所述正样本中的每个样本对应。

参数再调单元1304c，用于将所述难正样本和所述多个难负样本输入调整参数后的语音与图像同步性衡量模型进行训练，再次调整所述语音与图像同步性衡量模型中的参数。

难样本再选单元1304d，用于再次获取下一批次正样本中的难正样本。

所述难样本再选单元1304d，还用于再次获取该批次内的负样本和负样本中的多个难负样本，所述多个难负样本与所述正样本中的每个样本对应。

判定单元1304e，用于将再次获取的难正样本和多个难负样本输入再次调整参数后的语音与图像同步性衡量模型进行训练，调整所述语音与图像同步性衡量模型中的参数，直到所述语音与图像同步性衡量模型对应的损失函数输出的损失值收敛为止。

至此按照上述方式处理m批样本后，语音与图像同步性衡量模型就训练完成了。其中，m小于或等于M(M为正样本划分的批次)。

这里需要指出的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

基于同一发明构思，本申请实施例还提供了一种电子设备。图14为本申请实施例中电子设备的结构示意图，参见图14所示，该电子设备可以包括：处理器1401、存储器1402、总线1403；其中，处理器1401、存储器1402通过总线1403完成相互间的通信；处理器1401用于调用存储器1402中的程序指令，以执行上述一个或多个实施例中的方法。

这里需要指出的是，以上电子设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请电子设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，该存储介质可以包括：存储的程序；其中，在程序运行时控制存储介质所在设备执行上述一个或多个实施例中的方法。

这里需要指出的是，以上存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音与图像同步性衡量模型的训练方法，其特征在于，所述方法包括：

将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据，其中：所述第一图像片段、所述第一语音片段和所述第二语音片段来自于第一训练视频，所述第一图像片段与所述第一语音片段具有同步性，所述第一图像片段与所述第二语音片段不具有同步性；

将随机图像片段处理为第二图像数据、随机语音片段处理为第三语音数据，其中：所述随机图像片段和所述随机语音片段来自于第二训练视频；

将所述第一图像数据和所述第一语音数据组成正样本；

将所述第一图像数据和所述第二语音数据组成第一负样本；

将所述第一图像数据和所述第三语音数据组成第二负样本；

将所述第一语音数据或所述第二语音数据，和所述第二图像数据组成第三负样本；

采用所述正样本、所述第一负样本、所述第二负样本和所述第三负样本训练语音与图像同步性衡量模型。

2.根据权利要求1所述的方法，其特征在于，语音数据的语音帧数与图像数据的图像帧数相关，所述语音数据包括第一语音数据、第二语音数据或第三语音数据，所述图像数据包括第一图像数据或第二图像数据。

3.根据权利要求1所述的方法，其特征在于，所述第二语音片段与所述第一图像片段错位的时长大于或等于所述第二语音片段的总时长的2倍。

4.根据权利要求1所述的方法，其特征在于，所述第一图像片段和所述随机图像片段均为一个或多个连续时间点的图像。

5.根据权利要求1所述的方法，其特征在于，训练视频为单人说话的人像视频，所述训练视频中背景声的干扰程度小于特定程度；其中：训练视频包括所述第一训练视频和所述第二训练视频。

6.根据权利要求1所述的方法，其特征在于，所述将所述第一图像数据和所述第二语音数据组成第一负样本；将所述第一图像数据和所述第三语音数据组成第二负样本；将所述第一语音数据或所述第二语音数据，和所述第二图像数据组成第三负样本，包括：

当判定出所述第一图像数据对应的语音数据与所述第二语音数据在语音类别后验概率上存在不同，以及所述第一图像数据与所述第二语音数据对应的图像数据在下半脸运动上存在不同时，将所述第一图像数据和所述第二语音数据组成第一负样本；

当判定出所述第一图像数据对应的语音数据与所述第三语音数据在语音类别后验概率上存在不同，以及所述第一图像数据与所述第三语音数据对应的图像数据在下半脸运动上存在不同时，将所述第一图像数据和所述第三语音数据组成第二负样本；

当判定出所述第二图像数据对应的语音数据与所述第一语音数据或所述第二语音数据在语音类别后验概率上存在不同，以及所述第二图像数据与所述第一语音数据或所述第二语音数据对应的图像片段在下半脸运动上存在不同时，将所述第一语音数据或所述第二语音数据，和所述第二图像数据组成第三负样本。

7.根据权利要求1所述的方法，其特征在于，在将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据、将随机图像片段处理为第二图像数据、所述随机语音片段处理为第三语音数据，包括：

根据所述第一图像片段生成目标人物的轮廓图，得到第一图像数据；

根据所述随机图像片段生成目标人物的轮廓图，得到第二图像数据；

所述轮廓图与所述目标人物的个体特征无关；

将所述第一语音片段转换为特定信号，得到第一语音数据；

将所述第二语音片段转换为特定信号，得到第二语音数据；

将所述随机语音片段转换为特定信号，得到第三语音数据；

所述特定信号与所述第一语音片段、所述第二语音片段以及所述随机语音片段中说话人的个体特征无关。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述采用所述正样本、所述第一负样本、所述第二负样本和所述第三负样本训练语音与图像同步性衡量模型，包括：

所述训练语音与图像同步性衡量模型分为训练前期和训练后期两个阶段；其中，训练前期将所述正样本、所述第一负样本、所述第二负样本和所述第三负样本分批次输入语音与图像同步性衡量模型进行训练，调整所述语音与图像同步性衡量模型中的参数；

训练后期将所述正样本分批次输入调整参数后的语音与图像同步性衡量模型进行训练，包括：

获取每个批次内所述正样本中的难正样本；

根据每个批次内所述正样本生成本批次内的负样本；

获取所述每个批次内的负样本中的多个难负样本；

将所述难正样本和所述多个难负样本输入调整参数后的语音与图像同步性衡量模型进行训练，调整所述语音与图像同步性衡量模型中的参数，直到所述语音与图像同步性衡量模型对应的损失函数输出的损失值收敛为止。

9.根据权利要求8所述的方法，其特征在于，根据每个批次内所述正样本生成本批次内的负样本，包括：

将每个批次内N个正样本对应的N个语音特征a_i和N个视觉特征v_i两两组合，得到N×(N-1)个候选负样本；

将所述候选负样本经过视觉规则判定和语音规则判定，得到合格负样本确定为本批次内负样本；

其中，i∈N，N为正整数。

10.根据权利要求8所述的方法，其特征在于，获取每个批次内所述正样本中的难正样本，包括：

将所有的正样本分为不同批次；

对每个批次内的正样本按照损失函数输出的损失值进行排序；

根据所述损失值获取当前批次内所述正样本中的难正样本。

11.根据权利要求9所述的方法，其特征在于，获取所述每个批次内的负样本中的多个难负样本，包括：

对语音特征a_i对应的负样本按照损失函数输出的损失值进行排序；

根据所述损失值获取语音特征a_i对应的难负样本；和/或

对视觉特征v_i对应的负样本按照损失函数输出的损失值进行排序；

根据所述损失值获取视觉特征v_i对应的难负样本。

12.一种语音与图像同步性衡量模型的训练装置，其特征在于，所述装置包括：

数据处理模块，用于将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据，其中：所述第一图像片段、所述第一语音片段和所述第二语音片段来自于第一训练视频，所述第一图像片段与所述第一语音片段具有同步性，所述第一图像片段与所述第二语音片段不具有同步性；

数据处理模块，还用于将随机图像片段处理为第二图像数据、所述随机语音片段处理为第三语音数据，其中：所述随机图像片段和所述随机语音片段来自于第二训练视频；

样本生成模块，用于将所述第一图像数据和所述第一语音数据组成正样本；

所述样本生成模块，还用于将所述第一图像数据和所述第二语音数据组成第一负样本；

所述样本生成模块，还用于将所述第一图像数据和所述第三语音数据组成第二负样本；

所述样本生成模块，还用于将所述第一语音数据或所述第二语音数据，和所述第二图像数据组成第三负样本；

训练模块，用于采用所述正样本、所述第一负样本、所述第二负样本和所述第三负样本训练语音与图像同步性衡量模型。

13.一种电子设备，其特征在于，包括：处理器、存储器、总线；

其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1至11中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，包括：存储的程序；其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1至11中任一项所述的方法。