CN114422825A

CN114422825A - 音视频同步方法、装置、介质、设备及程序产品

Info

Publication number: CN114422825A
Application number: CN202210095944.6A
Authority: CN
Inventors: 闻战胜; 张景宣; 高万军
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-04-29

Abstract

本申请公开一种音视频同步方法、装置、介质、设备及程序产品。该方法包括：对待处理视频进行特征提取，得到待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，定长音频帧与定长视频帧的时长相同；将定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算待处理视频的音视频之间的时间偏差值，其中，训练好的同步网络模型是根据音视频同步的样本视频训练得到的；基于待处理视频的音视频之间的时间偏差值，对待处理视频中的视频流和音频流进行同步处理。本申请实施例在进行音视频同步时不依赖时间戳，可以基于面部唇形图像以及音频特征实现音视频同步，提高了音视频同步的准确性。

Description

音视频同步方法、装置、介质、设备及程序产品

技术领域

本申请涉及计算机应用技术领域，具体涉及一种音视频同步方法、装置、介质、设备及程序产品。

背景技术

多模语音识别是指同时利用说话人语音及面部图像进行语音识别的技术。由于能够同时利用图像和音频两个维度的信息，多模语音识别在嘈杂环境(如车载场景)、低人声等场景下表现出优于纯语音识别的效果，因此是未来语音识别技术的趋势。

目前的技术，如基于RTP/RTCP的流媒体传输协议，依赖视频帧与音频帧中的时间戳(Presentation Time Stamp,PTS)进行音视频同步。而在多模语音识别场景中，可能存在视频与音频不在同一设备上采集的情况，例如在原有纯语音识别系统中扩展多模语音识别系统时，说话人音频由原有设备采集，而说话人面部图像由新增的摄像头设备采集，然后再将两台设备分别采集的图像与音频汇总进行多模语音识别。然而不同设备间的绝对时间可能不一致，因此在不同设备中分别打上PTS的视频帧和音频帧，即使PTS相同却可能是在不同时间采集的。目前的技术方案中比较依赖于音视频帧中PTS信息，若出现视频帧和音频帧中时间戳PTS相同而实际是在不同时间采集的情况，则依赖于时间戳PTS进行音视频同步时，会导致同步效果较差。

发明内容

本申请实施例提供一种音视频同步方法、装置、介质、设备及程序产品，可以基于面部唇形图像以及音频特征实现音视频同步，提高了音视频同步的准确性。

一方面，提供一种音视频同步方法，所述方法包括：对待处理视频进行特征提取，得到所述待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，所述定长音频帧与所述定长视频帧的时长相同；将所述定长音频帧的音频特征信息和所述定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算所述待处理视频的音视频之间的时间偏差值，其中，所述训练好的同步网络模型是根据音视频同步的样本视频训练得到的；基于所述待处理视频的音视频之间的时间偏差值，对所述待处理视频中的视频流和音频流进行同步处理。

可选的，所述对待处理视频进行特征提取，得到所述待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，包括：对所述待处理视频进行音频提取处理，得到所述定长音频帧；基于所述定长音频帧对所述待处理视频进行图像抽帧处理，得到与所述定长音频帧时长相同的定长视频帧，所述定长视频帧为连续视频帧；对所述定长音频帧进行特征提取，得到所述定长音频帧的音频特征信息；对所述定长视频帧进行特征提取，得到所述定长视频帧的唇形图像序列信息。

可选的，所述对所述定长视频帧进行特征提取，得到所述定长视频帧的唇形图像序列信息，包括：对所述定长视频帧内的各帧图像进行人脸检测，以定位所述各帧图像中人脸所在的位置，得到各帧图像分别对应的人脸图像；对所述人脸图像进行关键点检测，以定位所述人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的唇形图像序列信息；对各帧图像分别对应的所述唇形图像序列信息进行归一化处理，以使得各帧图像分别对应的所述唇形图像序列信息具有相同大小的分辨率。

可选的，所述对所述人脸图像进行关键点检测，以定位所述人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的唇形图像序列信息，包括：对所述人脸图像进行关键点检测，以定位所述人脸图像中嘴部唇形所在的关键点位置；根据所述关键点位置对所述人脸图像进行图像裁剪，得到各帧图像分别对应的唇形图像序列信息。

可选的，所述对所述定长音频帧进行特征提取，得到所述定长音频帧的音频特征信息，包括：对所述定长音频帧进行梅尔频率倒谱系数特征提取，得到所述定长音频帧的音频特征信息。

可选的，所述对所述待处理视频进行音频提取处理，得到所述定长音频帧，包括：对所述待处理视频进行音频提取处理，得到所述待处理视频的音频流；对所述音频流进行语音端点检测，以获取所述音频流中的有效语音片段，并从所述有效语音片段中提取出所述定长音频帧。

可选的，所述方法还包括：对所述待处理视频进行多次特征提取，得到所述多次特征提取分别对应的定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，其中，所述多次特征提取分别对应的定长音频帧为不同的音频帧，所述多次特征提取分别对应的定长视频帧为不同的视频帧；基于所述多次特征提取分别对应的定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，多次计算所述待处理视频的音视频之间的时间偏差值，以得到多个时间偏差值；基于所述多个时间偏差值的平均值，对所述待处理视频中的视频流和音频流进行同步处理。

可选的，在所述将所述定长音频帧的音频特征信息和所述定长视频帧的唇形图像序列信息输入训练好的同步网络模型中计算音视频之间的时间偏差值之前，所述方法还包括：对音视频同步的样本视频进行特征提取，得到所述样本视频的样本音频特征信息和样本唇形图像序列信息；将所述样本音频特征信息和所述样本唇形图像序列信息输入同步网络模型中计算所述样本视频的音视频之间的时间偏差值；基于所述样本视频的音视频之间的时间偏差值，训练所述同步网络模型的损失函数，以得到所述训练好的同步网络模型。

另一方面，提供一种音视频同步装置，所述装置包括：

特征提取单元，用于对待处理视频进行特征提取，得到所述待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，所述定长音频帧与所述定长视频帧的时长相同；

计算单元，用于将所述定长音频帧的音频特征信息和所述定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算所述待处理视频的音视频之间的时间偏差值，其中，所述训练好的同步网络模型是根据音视频同步的样本视频训练得到的；

同步单元，用于基于所述待处理视频的音视频之间的时间偏差值，对所述待处理视频中的视频流和音频流进行同步处理。

另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的音视频同步方法中的步骤。

另一方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的音视频同步方法中的步骤。

另一方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上任一实施例所述的音视频同步方法中的步骤。

本申请实施例通过对待处理视频进行特征提取，得到待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，定长音频帧与定长视频帧的时长相同；将定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算待处理视频的音视频之间的时间偏差值，其中，训练好的同步网络模型是根据音视频同步的样本视频训练得到的；基于待处理视频的音视频之间的时间偏差值，对待处理视频中的视频流和音频流进行同步处理。本申请实施例在进行音视频同步时不依赖时间戳，可以基于面部唇形图像以及音频特征实现音视频同步，提高了音视频同步的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的音视频同步方法的应用场景示意图。

图2为本申请实施例提供的音视频同步方法的第一流程示意图。

图3为本申请实施例提供的音视频同步方法的第二流程示意图。

图4为本申请实施例提供的音视频同步方法的第三流程示意图。

图5为本申请实施例提供的音视频同步方法的第一应用场景示意图。

图6为本申请实施例提供的音视频同步方法的第二应用场景示意图。

图7为本申请实施例提供的音视频同步装置的结构示意图。

图8为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种音视频同步方法、装置、计算机设备和存储介质。具体地，本申请实施例的音视频同步方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能音箱、穿戴式智能设备、智能车载终端等设备，终端还可以包括客户端，该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例可应用于人工智能、语音识别、智慧交通等各种场景。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语作如下解释：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音处理技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

智慧交通是在整个交通运输领域充分利用物联网、空间感知、云计算、移动互联网等新一代信息技术，综合运用交通科学、系统方法、人工智能、知识挖掘等理论与工具，以全面感知、深度融合、主动服务、科学决策为目标，通过建设实时的动态信息服务体系，深度挖掘交通运输相关数据，形成问题分析模型，实现行业资源配置优化能力、公共决策能力、行业管理能力、公众服务能力的提升，推动交通运输更安全、更高效、更便捷、更经济、更环保、更舒适的运行和发展，带动交通运输相关产业转型、升级。

语音端点检测(Voice Activity Detection,VAD)，用于鉴别音频信号当中的语音出现(speech presence)和语音消失(speech absence)。语音端点检测可以根据语音的一些时域或频域特征对输入的语音中的语音信号和静默信号进行区分。具体的，可以将音频信号进行分帧处理；从每一帧数据当中提取特征；在一个已知语音和静默信号区域的数据帧集合上训练一个分类器；对未知的分帧数据进行分类，判断其属于语音信号还是静默信号。即VAD技术可以具有以下功能：对音频信号进行分帧处理；去掉语音信号中的静音成分；获取输入语音中的有效语音片段；去除噪声，对语音信号进行增强。

为了保证多模语音识别结果的准确性，必须使音频数据和图像数据时刻保持同步地输入到神经网络模型，即需要保证图像帧与音频帧之间的对应关系。传统的多媒体数据使用时间戳(Presentation Time Stamp,PTS)进行同步，在多媒体播放端，往往以音频流作为主多媒体流进行持续播放，然后在视频流中查找具有相同PTS的图像，即通过同时播放具有相同PTS的音频帧和图像帧实现同步。基于PTS时间戳的音视频同步方法在多模语音识别中会遇到一些问题。实际应用中，可能会存在音频与视频具有相同PTS但本身就不同步情形；或者在进行多模语音识别时，音视频数据来源不具备记录PTS的条件。例如在车载场景中，为了保证实际的识别和检测效果，获取图像数据的摄像头和获取音频数据的麦克风往往布局在不同的位置，即摄像头和麦克风是独立的，不在同一台设备上，系统时间本身就可能不同步，从而导致同一时间采集的数据具有不同的PTS；又如多模语音识别的训练数据可能是现有的音视频数据，但是数据在录制阶段并未记录PTS等。

为了解决多模语音识别中的音视频同步问题，需要提出一种不依赖PTS的音视频同步方法。由于在多模语音识别的场景中，图像帧中都包含说话人的人脸面部信息。因此本申请实施例提出了一种基于面部唇形图像以及音频特征的端到端的音视频同步方法。主要应用于车载场景中的多模语音识别。该方法的输入为存在少量时间差的音频流和视频流，通过该方法同步后的音频流与视频流可以用于进行多模语音识别，可以得到更高的识别准确率和召回率。

请参阅图1，图1为本申请实施例提供的音视频同步方法的应用场景示意图。以音视频同步方法和预测方法由计算机设备执行为例，其中，该计算机设备可以为终端或者服务器等设备。在训练阶段时，计算机设备获取通过音视频采集软件同步录制的音视频同步的样本视频，并对音视频同步的样本视频进行特征提取，得到样本视频的样本音频特征信息和样本唇形图像序列信息，然后将样本音频特征信息和样本唇形图像序列信息输入同步网络模型中计算样本视频的音视频之间的时间偏差值，并基于样本视频的音视频之间的时间偏差值，训练同步网络模型的损失函数，以得到训练好的同步网络模型。在应用阶段时，用户可以通过计算机设备中安装的客户端、浏览器客户端或即时通信客户端上待处理视频，计算机设备获取用户上传的待处理视频后，进一步对待处理视频进行特征提取，得到待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，定长音频帧与定长视频帧的时长相同，将定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算待处理视频的音视频之间的时间偏差值，基于待处理视频的音视频之间的时间偏差值，对待处理视频中的视频流和音频流进行同步处理。

需要说明的是，同步网络模型的训练过程、实际应用过程可以在服务器中完成，也可以在终端中完成。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

本申请各实施例提供了一种音视频同步方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以音视频同步方法由终端执行为例来进行说明。

请参阅图2至图6，图2至图4均为本申请实施例提供的音视频同步方法的流程示意图，图5和图6均为本申请实施例提供的音视频同步方法的应用场景示意图。该方法包括：

步骤210，对待处理视频进行特征提取，得到待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，定长音频帧与定长视频帧的时长相同。

例如，在多模语音识别场景中，可能存在视频与音频不在同一设备上采集的情况，比如说话人音频由原有设备采集，而说话人面部图像由新增的摄像头设备采集，然后再将两台设备分别采集的图像与音频汇总生成待处理视频。然而不同设备间的绝对时间可能不一致，因此，在对该待处理视频进行多模语音识别之前，需要对该待处理视频进行同步处理。具体的，可以先对待处理视频进行特征提取，得到待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，然后再基于特征提取的信息对待处理视频进行同步处理。

例如，以车载场景为例，该待处理视频可以为实车搭建摄像头和录音设备录制的主驾驶员的音视频数据。

可选的，如图3所示，步骤210可通过步骤211至步骤214来实现，具体为：

步骤211，对待处理视频进行音频提取处理，得到定长音频帧。

可选的，对待处理视频进行音频提取处理，得到定长音频帧，包括：

对待处理视频进行音频提取处理，得到待处理视频的音频流；

对音频流进行语音端点检测，以获取音频流中的有效语音片段，并从有效语音片段中提取出定长音频帧。

例如，可以基于音频提取模块对待处理视频进行音频提取处理，得到待处理视频的音频流，然后按照预设定长从音频流中任意提取出定长音频帧。比如该预设定长可以为200ms时长。例如，以帧长25ms，帧间隔10ms为例，取连续20帧音频得到的200ms时长音频为该定长音频帧。

例如，为了节省对无效帧的计算，可以先对音频流进行语音端点检测，以获取音频流中的有效语音片段，然后再从语音端点检测检测后得到的有效语音片段中提取出定长音频帧，进而减少运算量。

例如，基于语音端点检测将待处理视频的音频流进行分帧处理，然后从每一分帧数据当中提取特征，然后对分帧数据进行分类，判断其属于语音信号还是静默信号，以根据判断结果获取音频流中的有效语音片段，并从该有效语音片段中提取出定长音频帧。

步骤212，基于定长音频帧对待处理视频进行图像抽帧处理，得到与定长音频帧时长相同的定长视频帧，定长视频帧为连续视频帧。

例如，该定长音频帧为200ms时长音频，从待处理视频中获取出与该定长音频帧(200ms时长音频)对应的定长视频帧(对应200ms时长的视频)。

步骤213，对定长音频帧进行特征提取，得到定长音频帧的音频特征信息。

可选的，对定长音频帧进行特征提取，得到定长音频帧的音频特征信息，包括：

对定长音频帧进行梅尔频率倒谱系数特征提取，得到定长音频帧的音频特征信息。

例如，对定长音频帧的进行梅尔频率倒谱系数(MFCC)特征提取，得到的定长音频帧的音频特征信息是定长音频帧的MFCC值。以帧长25ms，帧间隔10ms为例，取连续20帧音频，即200ms时长音频提取其MFCC特征。

步骤214，对定长视频帧进行特征提取，得到定长视频帧的唇形图像序列信息。

例如，进行图像抽帧处理得到的对应200ms时长的视频包含了5帧图像，则在特征提取过程中，将提取连续5帧图像的特征。为了使特征提取更加准确高效，首先提取图像帧中的人脸唇形区域，再对唇形图像进行特征提取。

可选的，对定长视频帧进行特征提取，得到定长视频帧的唇形图像序列信息，包括：

对定长视频帧内的各帧图像进行人脸检测，以定位各帧图像中人脸所在的位置，得到各帧图像分别对应的人脸图像；

对人脸图像进行关键点检测，以定位人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的唇形图像序列信息；

对各帧图像分别对应的唇形图像序列信息进行归一化处理，以使得各帧图像分别对应的唇形图像序列信息具有相同大小的分辨率。

例如，先对定长视频帧(即连续视频帧)内的各帧图像进行人脸检测，人脸检测的目的是定位各帧图像中人脸所在的位置。具体可通过MTCNN、FaceBoxes、Mask-RCNN等技术实现。

其中，人脸检测是一种在多种应用中使用的计算机技术，可以识别数字图像中的人脸。人脸检测还指人类在视觉场景中定位人脸的过程。人脸检测可以视为目标检测的一种特殊情况。在目标检测中，任务是查找图像中给定类的所有对象的位置和大小。

其中，MTCNN(Multi-task Cascaded Convolutional Networks)算法是一种基于深度学习的人脸检测和人脸对齐方法，它可以同时完成人脸检测和人脸对齐的任务，相比于传统的算法，它的性能更好，检测速度更快。

其中，FaceBoxes是一个足够轻量的人脸检测器，旨在实现CPU下的实时人脸检测。

Mask-RCNN在RCNN的基础上添加Mask，通过在Faster-RCNN的基础上添加一个分支网络，在实现目标检测的同时，把目标像素分割出来。Mask R-CNN是一种在有效检测目标的同时输出高质量的实例分割mask。是对faster r-cnn的扩展，与bbox识别并行的增加一个预测分割mask的分支。Mask R-CNN可以应用到人体姿势识别，并且在实例分割、目标检测、人体关键点检测三个任务都取得较好的效果。

可选的，对人脸图像进行关键点检测，以定位人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的唇形图像序列信息，包括：

对人脸图像进行关键点检测，以定位人脸图像中嘴部唇形所在的关键点位置；

根据关键点位置对人脸图像进行图像裁剪，得到各帧图像分别对应的唇形图像序列信息。

然后，对定长视频帧(即连续视频帧)内的各帧人脸图像进行关键点检测，人脸关键点检测的目的是定位人脸图像中嘴部唇形所在的关键点位置。具体可通过MTCNN、TCNN等技术实现。

TCNN(Tweaked Convolutional Neural Networks)，对CNN提取的特征进行聚类，将各簇对应的样本进行分析，最后发现同一簇表现出“相同属性”(姿态，微笑，性别)的人脸。对此，设计了K个FC5和K个FC6层，用以对不同“面部属性”的人脸进行关键点检测。

在通过关键点检测后，根据检测的人脸图像中嘴部唇形所在的关键点位置进行对人脸图像进行图像裁剪，以得到唇形图像序列信息。其中，该唇形图像序列信息包括唇形图像特征点序列。在进行特征提取时，先进行人脸及关键点检测获取面部图像区域并裁剪出唇形图像，再提取唇形图像特征点序列进行唇音同步，从而减少了运算量，并减少了无关画面对特征提取的干扰，提高了特征匹配的准确度。

然后，对各帧图像分别对应的唇形图像序列信息进行归一化处理，以使得各帧图像分别对应的唇形图像序列信息具有相同大小的分辨率。例如，由于说话人的头部可能发生运动，裁剪后的唇形图像序列中各幅唇形图像的大小可能不一致，因此还需要进行归一化处理，处理方式可以为将各个唇形图像缩放成同一分辨率大小的图像，例如80*80。而且为了降低运算量，采用的唇形图像是灰度图。因此，定长视频帧的唇形图像序列信息可以为定长视频帧的连续唇形灰度图。

步骤220，将定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算待处理视频的音视频之间的时间偏差值，其中，训练好的同步网络模型是根据音视频同步的样本视频训练得到的。

例如，训练好的同步网络模型中，模型输入的是定长音频帧的MFCC值以及对应时长的定长视频帧的连续唇形灰度图，模型输出的是MFCC值与连续唇形灰度图二者之间的同步偏差值大小，该同步偏差值大小可以作为待处理视频的音视频之间的时间偏差值。

步骤230，基于待处理视频的音视频之间的时间偏差值，对待处理视频中的视频流和音频流进行同步处理。

其中，计算出待处理视频的音视频之间的时间偏差值后，将待处理视频的视频流与音频流按照时间偏差值进行偏移，从而完成最终的唇音同步，即完成音视频同步。将同步后的唇形图像序列信息和音频特征信息进行多模语音识别，可以明显提升多模语音识别的精准率和召回率。

可选的，方法还包括：

对待处理视频进行多次特征提取，得到多次特征提取分别对应的定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，其中，多次特征提取分别对应的定长音频帧为不同的音频帧，多次特征提取分别对应的定长视频帧为不同的视频帧；

基于多次特征提取分别对应的定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，多次计算待处理视频的音视频之间的时间偏差值，以得到多个时间偏差值；

基于多个时间偏差值的平均值，对待处理视频中的视频流和音频流进行同步处理。

其中，多次进行音视频特征提取和时间偏差值的计算，以最终多个时间偏差值的平均值作为音视频同步的条件，可以降低系统误差，提高系统鲁棒性。具体的音视频特征提取和时间偏差值的计算过程可参上述的步骤20＝10至步骤230，在此不再赘述。

可选的，在将定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息输入训练好的同步网络模型中计算音视频之间的时间偏差值之前，方法还包括训练同步网络模型的步骤。如图4所示，该训练同步网络模型的步骤可以通过步骤410至步骤430来实现，具体为：

步骤410，对音视频同步的样本视频进行特征提取，得到样本视频的样本音频特征信息和样本唇形图像序列信息；

步骤420，将样本音频特征信息和样本唇形图像序列信息输入同步网络模型中计算样本视频的音视频之间的时间偏差值；

步骤430，基于样本视频的音视频之间的时间偏差值，训练同步网络模型的损失函数，以得到训练好的同步网络模型。

其中，进行多模语音识别之前(即在应用多模语音识别的一端)利用深度学习模型提取语音和图像特征，通过训练的同步网络模型计算音视频之间的时间偏差值，从而达到唇音同步的目的，不依赖原始音视频流中的时间戳。不仅适用于多模语音识别的前向推理阶段，也适用于多模语音识别的模型训练阶段。

例如，在进行同步网络模型的训练之前，还需对训练数据进行预处理。其中，训练数据包括音视频同步的样本视频。

如图5所示，图5中的视频即为样本视频，样本视频是实车搭建摄像头和录音设备通过音视频采集软件同步录制的主驾驶员的音视频数据，没有进行相关标注，包括音素标签或者标注音视频之间精确的同步偏差等。图5中的热力图是由音频的MFCC值编码而成，横向表示每个时间步长，纵向表示每个梅尔频带的MFCC值。

例如，可以对样本视频进行音频提取处理，得到样本定长音频帧，然后对样本定长音频帧进行特征提取，得到样本定长音频帧的样本音频特征信息，该样本音频特征信息为MFCC值，由样本定长音频帧的MFCC值编码组成图5中的热力图，该热力图用于表示样本音频特征信息。

例如，基于样本定长音频帧对样本视频进行图像抽帧处理，得到与样本定长音频帧时长相同的样本定长视频帧，样本定长视频帧为连续视频帧；对样本定长视频帧内的各帧图像进行人脸检测，以定位各帧图像中人脸所在的位置，得到各帧图像分别对应的人脸图像；对人脸图像进行人脸关键点检测，以定位人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的样本唇形图像序列信息；对各帧图像分别对应的样本唇形图像序列信息进行归一化处理，以使得各帧图像分别对应的样本唇形图像序列信息具有相同大小的分辨率。

例如，由于通过数据增强可以提升验证性能并有效降低过拟合现象，因此，可以对录制的训练数据进行对应的数据增强操作。其中，可以对训练数据中的样本视频对应的音频进行随机的音量改变，比如音量增加10％左右、或者音量降低10％左右。对应样本视频对应的图像则进行常用的数据增强方法，例如随机擦除、翻转和颜色变化等数据增强处理。

例如，如图8所示的同步网络模型的结构示意图，同步网络模型包括音频网络和和视频网络，该同步网络模型由两个不对称的流组成，两组独立的参数，以及两个不同域的输入，其中音频网络的输入是MFCC特征值，视频网络的输入格式是一序列的脸部唇形灰度图。同步网络模型的训练过程与单个输入流的卷积网络模型的常用步骤类似，采用的是音视频流对进行训练，比如该因视频流对包括样本定长音频帧和与该样本定长音频帧时长相同的样本定长视频帧，该样本定长音频帧可以为整个样本视频对应的音频片段，也可以为从中节选的预设时长的音频片段，相应的，样本定长视频帧与该样本定长音频帧相对应，可以为整个样本视频，也可以为从中节选的预设时长的与样本定长音频帧相对应的视频片段。然后，通过动量随机梯度下降法学习网络的权值，而且是同时学习网络中两个流的参数集。

其中，训练过程中的样本均是真实同步的音视频流，训练目标是使其输出的向量相似度较高(差异小于阈值)，即对于真实同步的音频流和视频流，音频和视频网络模型输出是相似的，而对于不同步的音视频流，网络模型的输出是不同的。具体来说，采用对比损失函数，函数可以采用以下公式(1)和公式(2)表示：

dn＝||v_n-a_n||₂ (2)

其中，E表示损失函数的损失值；v表示视频流的fc7向量；a表示音频流的fc7向量；y∈[0,1],y表示音频流和视频流之间二值化的相似性度量；d表示视频流和音频流二者之间的距离。如果样本唇形图像序列信息和样本音频特征信息基本一致，则视频流和音频流二者之间的距离就小，损失函数的值就小；反之，如果样本唇形图像序列信息和样本音频特征信息不一致时，则视频流和音频流二者之间的距离就大，损失函数的值就大。

在训练阶段或者应用阶段，为了计算音视频之间的时间偏差值，通过计算图6中分别表示的音视特征(样本音频特征信息)和视频特征(样本唇形图像序列信息)的两个256维的fc7向量之间的欧式距离作为相似性度量标准。通过滑动窗口的方法，对于每200毫秒、25fps、5帧的视频特征，计算对应±1秒范围内的所有音频特征和视频特征之间的欧式距离，取欧式距离最小时对应的时间差作为音视频之间的时间偏差值。计算出音视频之间的时间偏差值后，将视频流与音频流按照时间偏差值进行偏移，从而完成最终的唇音同步，即完成音视频同步。将同步后的唇形图像序列信息和音频特征信息进行多模语音识别，可以明显提升多模语音识别的精准率和召回率。

另外，由于在车载场景中，可能存在各种干扰因素导致音频及视频采集和数据传输不稳定的情形，如果一直按照固定的时间偏差进行音视频同步，会导致同步效果逐渐变差。针对这种情况，可以定时计算新的时间偏差值，从而不断修正已计算的时间偏差值，达到最佳的同步效果。定时进行时间偏差值的计算可以解决因采集速率、音视频传输速度不稳定等因素造成的音视频间时间偏移不稳定的问题。

本申请实施例是基于面部唇形图像以及音频特征实现音视频同步的，不需要提取音频流与视频流的语义文本信息，能够有效节省运算量。端到端的同步网络模型计算音视频偏差的方式相对于语义特征匹配的方式，能够达到更好的同步效果。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

为便于更好的实施本申请实施例的音视频同步方法，本申请实施例还提供一种音视频同步装置。请参阅图7，图7为本申请实施例提供的音视频同步装置的结构示意图。其中，该音视频同步装置700可以包括：

特征提取单元701，用于对待处理视频进行特征提取，得到待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，定长音频帧与定长视频帧的时长相同；

计算单元702，用于将定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算待处理视频的音视频之间的时间偏差值，其中，训练好的同步网络模型是根据音视频同步的样本视频训练得到的；

同步单元703，用于基于待处理视频的音视频之间的时间偏差值，对待处理视频中的视频流和音频流进行同步处理。

可选的，特征提取单元701，可以用于：对待处理视频进行音频提取处理，得到定长音频帧；基于定长音频帧对待处理视频进行图像抽帧处理，得到与定长音频帧时长相同的定长视频帧，定长视频帧为连续视频帧；对定长音频帧进行特征提取，得到定长音频帧的音频特征信息；对定长视频帧进行特征提取，得到定长视频帧的唇形图像序列信息。

可选的，特征提取单元701在对定长视频帧进行特征提取，得到定长视频帧的唇形图像序列信息时，可以用于：对定长视频帧内的各帧图像进行人脸检测，以定位各帧图像中人脸所在的位置，得到各帧图像分别对应的人脸图像；对人脸图像进行关键点检测，以定位人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的唇形图像序列信息；对各帧图像分别对应的唇形图像序列信息进行归一化处理，以使得各帧图像分别对应的唇形图像序列信息具有相同大小的分辨率。

可选的，特征提取单元701在对人脸图像进行关键点检测，以定位人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的唇形图像序列信息时，可以用于：对人脸图像进行关键点检测，以定位人脸图像中嘴部唇形所在的关键点位置；根据关键点位置对人脸图像进行图像裁剪，得到各帧图像分别对应的唇形图像序列信息。

可选的，特征提取单元701在对定长音频帧进行特征提取，得到定长音频帧的音频特征信息时，可以用于：对定长音频帧进行梅尔频率倒谱系数特征提取，得到定长音频帧的音频特征信息。

可选的，特征提取单元701在对待处理视频进行音频提取处理，得到定长音频帧时，可以用于：对待处理视频进行音频提取处理，得到待处理视频的音频流；对音频流进行语音端点检测，以获取音频流中的有效语音片段，并从有效语音片段中提取出定长音频帧。

可选的，特征提取单元701，可以用于对待处理视频进行多次特征提取，得到多次特征提取分别对应的定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，其中，多次特征提取分别对应的定长音频帧为不同的音频帧，多次特征提取分别对应的定长视频帧为不同的视频帧；

计算单元702，可以用于基于多次特征提取分别对应的定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，多次计算待处理视频的音视频之间的时间偏差值，以得到多个时间偏差值；

同步单元703，可以用于基于多个时间偏差值的平均值，对待处理视频中的视频流和音频流进行同步处理。

可选的，装置还包括训练单元，用于：对音视频同步的样本视频进行特征提取，得到样本视频的样本音频特征信息和样本唇形图像序列信息；将样本音频特征信息和样本唇形图像序列信息输入同步网络模型中计算样本视频的音视频之间的时间偏差值；基于样本视频的音视频之间的时间偏差值，训练同步网络模型的损失函数，以得到训练好的同步网络模型。

需要说明的是，本申请实施例中的音视频同步装置700中各模块的功能可对应参考上述各方法实施例中任意实施例的具体实现方式，这里不再赘述。

上述音视频同步装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。

音视频同步装置700例如可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该音视频同步装置700为该终端或服务器。

可选的，本申请还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

图8为本申请实施例提供的计算机设备的结构示意图，如图8所示，计算机设备800可以包括：通信接口801，存储器802，处理器803和通信总线804。通信接口801，存储器802，处理器803通过通信总线804实现相互间的通信。通信接口801用于装置800与外部设备进行数据通信。存储器802可用于存储软件程序以及模块，处理器803通过运行存储在存储器802的软件程序以及模块，例如前述方法实施例中的相应操作的软件程序。

可选的，该处理器803可以调用存储在存储器802的软件程序以及模块执行如下操作：对待处理视频进行特征提取，得到所述待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，所述定长音频帧与所述定长视频帧的时长相同；将所述定长音频帧的音频特征信息和所述定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算所述待处理视频的音视频之间的时间偏差值，其中，所述训练好的同步网络模型是根据音视频同步的样本视频训练得到的；基于所述待处理视频的音视频之间的时间偏差值，对所述待处理视频中的视频流和音频流进行同步处理。

可选的，计算机设备800可以为该终端或服务器。该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机等设备。该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本申请实施例中的音视频同步方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的音视频同步方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序，该计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的音视频同步方法中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种音视频同步方法，其特征在于，所述方法包括：

对待处理视频进行特征提取，得到所述待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，所述定长音频帧与所述定长视频帧的时长相同；

将所述定长音频帧的音频特征信息和所述定长视频帧的唇形图像序列信息输入训练好的同步网络模型中，计算所述待处理视频的音视频之间的时间偏差值，其中，所述训练好的同步网络模型是根据音视频同步的样本视频训练得到的；

基于所述待处理视频的音视频之间的时间偏差值，对所述待处理视频中的视频流和音频流进行同步处理。

2.如权利要求1所述的音视频同步方法，其特征在于，所述对待处理视频进行特征提取，得到所述待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，包括：

对所述待处理视频进行音频提取处理，得到所述定长音频帧；

基于所述定长音频帧对所述待处理视频进行图像抽帧处理，得到与所述定长音频帧时长相同的定长视频帧，所述定长视频帧为连续视频帧；

对所述定长音频帧进行特征提取，得到所述定长音频帧的音频特征信息；

对所述定长视频帧进行特征提取，得到所述定长视频帧的唇形图像序列信息。

3.如权利要求2所述的音视频同步方法，其特征在于，所述对所述定长视频帧进行特征提取，得到所述定长视频帧的唇形图像序列信息，包括：

对所述定长视频帧内的各帧图像进行人脸检测，以定位所述各帧图像中人脸所在的位置，得到各帧图像分别对应的人脸图像；

对所述人脸图像进行关键点检测，以定位所述人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的唇形图像序列信息；

对各帧图像分别对应的所述唇形图像序列信息进行归一化处理，以使得各帧图像分别对应的所述唇形图像序列信息具有相同大小的分辨率。

4.如权利要求3所述的音视频同步方法，其特征在于，所述对所述人脸图像进行关键点检测，以定位所述人脸图像中嘴部唇形所在的关键点位置，得到各帧图像分别对应的唇形图像序列信息，包括：

对所述人脸图像进行关键点检测，以定位所述人脸图像中嘴部唇形所在的关键点位置；

根据所述关键点位置对所述人脸图像进行图像裁剪，得到各帧图像分别对应的唇形图像序列信息。

5.如权利要求2所述的音视频同步方法，其特征在于，所述对所述定长音频帧进行特征提取，得到所述定长音频帧的音频特征信息，包括：

对所述定长音频帧进行梅尔频率倒谱系数特征提取，得到所述定长音频帧的音频特征信息。

6.如权利要求2所述的音视频同步方法，其特征在于，所述对所述待处理视频进行音频提取处理，得到所述定长音频帧，包括：

对所述待处理视频进行音频提取处理，得到所述待处理视频的音频流；

对所述音频流进行语音端点检测，以获取所述音频流中的有效语音片段，并从所述有效语音片段中提取出所述定长音频帧。

7.如权利要求1所述的音视频同步方法，其特征在于，所述方法还包括：

对所述待处理视频进行多次特征提取，得到所述多次特征提取分别对应的定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，其中，所述多次特征提取分别对应的定长音频帧为不同的音频帧，所述多次特征提取分别对应的定长视频帧为不同的视频帧；

基于所述多次特征提取分别对应的定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息，多次计算所述待处理视频的音视频之间的时间偏差值，以得到多个时间偏差值；

基于所述多个时间偏差值的平均值，对所述待处理视频中的视频流和音频流进行同步处理。

8.如权利要求1所述的音视频同步方法，其特征在于，在所述将所述定长音频帧的音频特征信息和所述定长视频帧的唇形图像序列信息输入训练好的同步网络模型中计算音视频之间的时间偏差值之前，所述方法还包括：

对音视频同步的样本视频进行特征提取，得到所述样本视频的样本音频特征信息和样本唇形图像序列信息；

将所述样本音频特征信息和所述样本唇形图像序列信息输入同步网络模型中计算所述样本视频的音视频之间的时间偏差值；

基于所述样本视频的音视频之间的时间偏差值，训练所述同步网络模型的损失函数，以得到所述训练好的同步网络模型。

9.一种音视频同步装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-8任一项所述的音视频同步方法中的步骤。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1-8任一项所述的音视频同步方法中的步骤。

12.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-8任一项所述的音视频同步方法中的步骤。