CN109040641A

CN109040641A - 一种视频数据合成方法及装置

Info

Publication number: CN109040641A
Application number: CN201811005354.XA
Authority: CN
Inventors: 张凯
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2018-12-18
Anticipated expiration: 2038-08-30
Also published as: CN109040641B

Abstract

本发明提供了一种视频数据合成方法及装置，涉及视频处理技术领域。其中，所述方法包括：获取原始音频信号以及原始图像信号；将所述原始音频信号分离为多个子音频信号；从所述原始图像信号识别目标对象的口型特征信息；从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号；将所述目标子音频信号与所述原始图像信号合成为视频数据。通过原始图像信号中目标对象的口型特征信息，准确确定了目标对象的声音，将该目标子音频信号与原始图像信号合成为视频数据，避免了对环境声音信号的合成，合成视频中仅记录了目标对象的声音，避免了环境声音影响目标对象声音，提升了视频数据合成质量。

Description

一种视频数据合成方法及装置

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频数据合成方法、及装置。

背景技术

视频数据能够同时记录声音和图像，为用户提供较多的信息，且具有很好的娱乐效果，因此，应用广泛。

目前，在视频数据合成过程中，通常通过摄像头和麦克风的简单组合进行，在记录图像的同时，将麦克风采集到的所有声音都进行记录。

发明人在研究上述现有技术的过程中发现，上述现有技术方案存在如下缺点：当在嘈杂的环境中视频数据合成时，不仅合成了目标对象的声音，同时还合成了环境的声音，导致声音混乱，更有甚者，目标对象的声音淹没于环境声音中，无法听清。

发明内容

本发明提供一种视频数据合成方法及装置，旨在解决在视频数据合成过程中，环境声音影响目标对象声音的问题。

第一方面，本发明实施例提供了一种视频数据合成方法，所述包括：

获取原始音频信号以及原始图像信号；

将所述原始音频信号分离为多个子音频信号；

从所述原始图像信号识别目标对象的口型特征信息；

从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号；

将所述目标子音频信号与所述原始图像信号合成为视频数据。

第二方面，本发明实施例还提供了一种视频数据合成装置，包括：

原始信号获取模块，用于获取原始音频信号以及原始图像信号；

音频分离模块，用于将所述原始音频信号分离为多个子音频信号；

口型特征信息识别模块，用于从所述原始图像信号识别目标对象的口型特征信息；

目标子音频信号确定模块，用于从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号；

视频数据合成模块，用于将所述目标子音频信号与所述原始图像信号合成为视频数据。

第三方面，本发明实施例还提供了一种移动终端，该移动终端包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明所述的视频数据合成方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现本发明所述的视频数据合成方法的步骤。

在本发明实施例中，获取原始音频信号以及原始图像信号；将所述原始音频信号分离为多个子音频信号；从所述原始图像信号识别目标对象的口型特征信息；从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号；将所述目标子音频信号与所述原始图像信号合成为视频数据。通过原始图像信号中目标对象的口型特征信息，准确确定了目标对象的目标子音频信号，即准确确定了目标对象的声音，将该目标子音频信号与原始图像信号合成为视频数据，避免了对环境声音信号的合成，进而合成的视频数据中只有目标对象的目标子音频信号，即，合成视频中仅记录了目标对象的声音，避免了环境声音影响目标对象声音，提升了视频数据合成质量。

附图说明

图1示出了本发明实施例一中提供的视频数据合成方法的流程图；

图2示出了本发明实施例二中提供的视频数据合成方法的流程图；

图3示出了根据本发明实施例三提供的视频数据合成装置的结构框图；

图4示出了根据本发明实施例三提供的另一视频数据合成装置的结构框图；

图5是本发明实施例中的一种移动终端的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参照图1，示出了本发明实施例一中提供的视频数据合成方法的流程图，具体可以包括如下步骤：

步骤101，获取原始音频信号以及原始图像信号。

在本发明实施例中，获取原始音频信号以及原始图像信号。具体的，可以通过麦克风获取原始音频信号，可以通过一个麦克风获取该原始音频信号，还可以通过多个麦克风获取原始音频信号。在本发明实施例中，对此不做具体限定。

在本发明实施例中，可以通过摄像头获取原始图像信号。上述原始音频信号和原始图像信号可以同时获取，也可以不同时获取，例如，同时获取原始音频信号和原始图像信号，或者先获取原始音频信号，后获取原始图像信号等。在本发明实施例中，对此不做具体限定。

需要说明的是，上述原始图像信号中需要包括目标对象对应的图像信号。在本发明实施例中，该目标对象可以人物、动物、其他物体等，具体可以是一个或多个人物，还可以是一个或多个动物等，在本发明实施例中，对此不做具体限定。

步骤102，将所述原始音频信号分离为多个子音频信号。

在本发明实施例中，将上述原始音频信号分离为多个子音频信号。在本发明实施例中，可以根据声源的不同，将该原始音频信号分离为多个子音频信号。在本发明实施例中，对此不做具体限定。

例如，若目标对象为一个人，如X，则可以将目标对象X视为第一声源，可以将除目标对象X之外的其他人视为第二声源，该原始音频信号中除人之外的发音体视为第三声源，需要说明的是，实际应用中第二声源或第三声源也可能不存在，在本发明实施例中，对此不作具体限定。

若目标对象为一个人，如X，则将上述原始音频信号分离为目标对象X子音频信号和除目标对象X之外的其他子音频信号。若上述原始音频信号的声源包括：第二声源和第三声源，则将上述原始音频信号分离为目标对象X子音频信号、第二声源子音频信号、第三声源子音频信号。

具体的，可以获取该原始音频信号的频率、信号强度等，通过语音增强、多说话人分离等途径，将上述原始音频信号分离为：目标对象子音频信号、第二声源子音频信号、第三声源子音频信号，需要说明的是，由于上述原始音频信号包括的声源可能不存在第二声源或第三声源，因此，上述原始音频信号分离后，也可能不存在第二声源子音频信号或第三声源子音频信号，在本发明实施例中，对此不作具体限定。

在本发明实施例中，通过上述方式将原始音频信号分离为多个子音频信号的过程中，还可以考虑剔除该原始音频信号中各个子音频信号的回声对该原始音频信号分离的影响，在本发明实施例中，对此不作具体限定。

在本发明实施例中，若目标对象为多个人，例如M和N，则在对原始音频信号进行分离的过程中，可以采用上述方式对各个目标对象的子音频信号逐一进行分离，进而得到各个目标对象的子音频信号。具体的，可以在从原始音频信号中分离出目标对象M子音频信号的过程中，可以将目标对象N作为非目标对象进行处理，即将目标对象N划分至上述第二声源，进而可以分离得到目标对象M子音频信号；在从原始音频信号中分离出目标对象N子音频信号的过程中，可以将目标对象M作为非目标对象进行处理，即将目标对象M划分至上述第二声源，进而可以分离得到目标对象N子音频信号。在本发明实施例中，对此不作具体限定。

即，在本发明实施例中，若目标对象为多个发声主体时，在从原始音频信号中分离出一个目标对象的子音频信号的过程中，可以将除该目标主体之外的其余目标主体，作为上述第二声源或第三声源进行处理，在本发明实施例中，对此不作具体限定。

在本发明实施例中，通过对上述原始音频信号的分离处理，得到了多个子音频信号。

步骤103，从所述原始图像信号识别目标对象的口型特征信息。

在本发明实施例中，从上述原始图像信号中，识别目标对象的口型特征信息。在本发明实施例中，上述原始图像信号包括该目标对象的图像信号。例如，若目标对象为一个人，如X，则上述原始图像信号中包括该目标对象X的图像信号。

在本发明实施例中，可以通过原始图像信号中，该目标对象的图像信号中确定该目标对象的口型特征信息。在本发明实施例中，该口型特征信息可以为两唇张合形状、大小等信息。例如，若两唇的张合形状为圆形，该圆形的直径为1cm，则上述口型特征信息即可以为：两唇的张合形状为圆形，该圆形的直径为1cm。例如，针对上述例子，目标对象为一个人X，则该口型特征信息可以为该原始图像信号中X两唇张合形状、大小等信息。在本发明实施例中，对此不作具体限定。

在本发明实施例中，通过上述口型特征信息，可以进一步确定该口型特征信息对应的发音内容以及发音功率等信息。上述发音功率等信息，同样可以用于从原始音频信号的多个子音频信号中，确定与上述口型特征信息匹配的目标子音频信号。在本发明实施例中，对此不作具体限定。

在本发明实施例中，若上述目标对象的音频数据并不由口型特征信息决定的情况下，则还可以从上述原始图像信号中，通过目标对象的其他发音特征信息，例如上述表征发音主体振动的图像信号等，例如，若目标对象为风扇，则该其他发音特征信息则可以为风扇的风叶转动角度，转动速度等表征振动的图像信号。在本发明实施例中，对此不作具体限定。

步骤104，从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号。

在本发明实施例中，从上述多个子音频信号中，确定与上述口型特征信息匹配的目标子音频信号。具体应用中，可以根据上述口型特征信息，得到该口型特征信息可能对应的发音信号，将该可能的发音信号与上述多个子音频信号进行一一比对，进而得到该口型特征信息匹配的目标子音频信号。

具体的，在将原始音频信号分离为多个子音频信号后，根据上述口型特征信息可能的发音信号，对上述多个子音频信号一一比对，可以通过两个信号的相位、信号强度等方面进行一一比对，在比对过程中，可以预设匹配阈值，若一一比对过程中，两者相匹配的比例达到预设匹配阈值，则可以认为找到了该口型特征信息匹配的目标子音频信号。在本发明实施例中，对此不作具体限定。

在本发明实施例中，通过原始图像信号中，目标对象的口型特征信息确定与其匹配的目标子音频信号，即保证了声音和图像的一致性，由此能够准确确定目标对象的声音信号，即上述目标子音频信号准确体现目标对象的声音信号。

例如，若上述原始音频信号和原始图像信号为直播过程中的原始音频信号和原始图像信号，若目标对象为直播主体，根据原始图像信号中直播主体的口型特征信息，从多个子音频信号中确定与该主播主体的口型特征信息匹配的目标子音频信号，进而能够保证直播主体声音和图像的一致性，因此，能够准确确定直播主体的声音信号，即上述目标子音频信号准确体现直播主体的声音信号。

再例如，若上述原始音频信号和原始图像信号为录像过程中的原始音频信号和原始图像信号，根据原始图像信号中目标对象的口型特征信息等声音特征信息，从多个子音频信号中确定与该目标对象的口型特征信息等声音特征信息匹配的目标子音频信号，进而能够保证目标对象声音和图像的一致性，因此，能够准确确定目标对象的声音信号，即上述目标子音频信号准确体现目标对象的声音信号。

步骤105，将所述目标子音频信号与所述原始图像信号合成为视频数据。

在本发明实施例中，将上述目标子音频信号与上述原始图像信号合成为视频数据。具体的，可以根据目标子音频信号与原始图像信号的时域或频率的相关性，合成视频数据，在本发明实施例中，对此不作具体限定。

例如，针对上述例子，若目标对象为一个人，如X，则将与原始图像信号中目标对象X的口型特征信息匹配的目标子音频信号，与上述原始图像信号合称为视频数据。

在本发明实施例中，该目标子音频信号是根据原始图像中目标对象的口型特征信息确定的，即保证了目标对象声音信号的准确性，进而由目标子音频信号和原始图像信号合成的视频数据中，其实只保留了目标对象的声音信号，避免了对环境声音信号的合成，进而合成的视频数据中只有目标对象的目标子音频信号，即，合成视频中仅记录了目标对象的声音，避免了环境声音影响目标对象声音。

实施例二

参照图2，示出了本发明实施例二中提供的视频数据合成方法的流程图，具体可以包括如下步骤：

步骤201，获取原始音频信号以及原始图像信号。

在本发明实施例中，步骤201可以参照本发明实施例中步骤101的具体记载，在本发明实施例中对此不作具体限定。

步骤202，根据原始音频信号的频率、信号强度，将所述原始音频信号分离为多个子音频信号。

在本发明实施例中，根据原始音频信号的频率、信号强度，将上述原始音频信号分离为多个子音频信号。具体的可以首先确定，该原始音频信号的获取过程的通道个数，根据通道个数，以及原始音频信号的频率、信号强度，确定对应的方法，将上述原始音频信号分离为多个子音频信号。

例如，若上述原始音频信号是由一个通道获取的，则可以采用单通道的声音分离方法，根据原始音频信号的频率、信号强度，将上述原始音频信号分离为多个子音频信号；若上述原始音频信号是由多个通道获取的，则可以采用多通道的声音分离方法，根据原始音频信号的频率、信号强度，将上述原始音频信号分离为多个子音频信号，在本发明实施例中，对此不作具体限定。

在本发明实施例中，若上述原始音频数据是通过一个麦克风获取的，若该麦克风对应一个通道，则可以获取该原始音频数据的频率、信号强度，对上述原始音频数据的频率、信号强度进行预处理，得到该原始音频数据的时频信息，对该原始音频数据的时频信息，构建训练数据，训练神经网络模型等，通过该神经网络模型等，对上述原始音频信号进行预测，得到预测的该原始音频信号的时频信息，根据上述预测的该原始音频信号的时频信息，将上述原始音频信号分离为多个子音频信号。在本发明实施例中，对此不作具体限定。

在本发明实施例中，若上述原始音频数据是通过一个麦克风获取的，若该麦克风对应一个通道，则还可以是根据源滤波器模型建立人声模型，该人声模型可以包括声带振动功率模型和声道口腔的滤波器模型，将所述原始音频信号，及该原始音频信号的频率、信号强度等作为输入，利用上述声带振动功率模型和声道口腔的滤波器模型构建上述原始音频信号的人声功率、以及除人声外的其他环境声功率，根据构建的人声功率和其他环境声功率对上述原始音频信号重建信号功率谱，求解重建的信号功率谱中人声功率和其他环境声功率，根据求解得到的人声功率和其他环境声功率，先将上述原始音频信号分离为人声信号和其他环境声信号，若目标对象为人，若上述人声信号包括多个人的人声信号，再将上述多个人的人声信号根据声纹信息等进行分离，得到各个人的人声信号，进而将上述原始音频信号分离为多个子音频信号。在本发明实施例中，对此不作具体限定。

在本发明实施例中，若上述原始音频数据是通过多个麦克风获取的，若每个麦克风对应一个通道，则上述原始音频数据由多个通道对应的子原始音频信号混合而成，则还可以通过空间滤波器，将来自多个方向的各个通道的子原始音频信号以相同的相位相加，并根据各个通道的子原始音频信号的相差削减来自其它方向的子原始音频信号，结合上述原始音频信号，及该原始音频信号的频率、信号强度等，将上述原始音频信号分离为多个子音频信号。在本发明实施例中，对此不作具体限定。

步骤203，从所述原始图像信号识别所述目标对象。

在本发明实施例中，可以指定目标对象，还可以根据上述原始图像信号，自动确定目标对象。具体可以通过先通过灰度阈值。灰度相关化等将原始图像信号分离为各个主体对应的子图像信号、获取该原始图像信号中，各个子图像信号在该原始图像中占的像素比例等，确定该原始图像信号中的目标对象，例如，在该原始图像中某一主体的子图像信号的像素比例最大，则可以认为该主体可能为目标对象，进而自动从该原始图像信号中识别出目标对象。在本发明实施例中，对此不作具体限定。

在本发明中，还可以通过口型识别等，自动确定该原始图像信号中的目标对象，例如，若原始图像信号由一个人X以及一个桌子构成，由于只有X具有口型等，即根据上述的口型等，则可以将X确定为目标对象。在本发明实施例中，对此不作具体限定。

在本发明实施例中，还可以通过人脸识别的方式，从上述原始图像信号中识别出目标对象。在本发明实施例中，对此不作具体限定。

步骤204，识别所述目标对象的口型特征信息。

在本发明实施例中，确定出目标对象后，可以直接从该目标对象对应的子图像信号中，识别该目标对象的口型特征信息。

具体的，可以在上述目标对象对应的子图像信号中，分离该目标对象的口型特征信息，进而得到该目标对象的口型特征信息。例如，若目标对象为人，可以预置人的嘴巴对应的参考图像信号，进而从该目标对象对应的子图像信号中，确定与该目标对象的口型特征信息。再例如，若目标对象为狗，可以预置狗的嘴巴对应的参考图像信号，进而从该目标对象对应的子图像信号中，确定与该目标对象的口型特征信息。在本发明实施例中，对此不作具体限定。

在本发明实施例中，确定的该目标对象的口型特征信息，可以是一系列的嘴巴张合形状的图像信号。在本发明实施例中，对此不作具体限定。

步骤205，根据口型特征信息样本和参照音频信号样本，训练所述口型特征转换模型。

在本发明实施例中，根据口型特征信息样本和参照音频信号样本，训练口型特征转换模型。例如，针对上述例子，口型特征信息样本若为：两唇的张合形状为圆形，该圆形的直径为1cm，则根据参照音频样本信号，根据训练的口型特征转换模型，得到该口型特征信息样本对应的参照音频信号可能为：发音内容为：我，发音功率为5db，以及对应的时域特征或频率特征等。在本发明实施例中对此不作具体限定。

在本发明实施例中，可以通过深度学习或人工神经网络的方式，对口型特征信息样本和参照音频信号样本，进行训练，训练得到口型特征转换模型。在本发明实施例中，对此不作具体限定。

步骤206，采用预设的口型特征转换模型，确定所述口型特征信息对应的参照音频信号。

在本发明实施例中，根据预设的口型特征转换模型，确定口型特征信息对应的参照音频信号。

具体的，根据预设的口型特征转换模型，将上述从原始图像信号中确定的目标对象的口型特征信息，转化为对应的参照音频信号。例如，若目标对象为人，则将该口型特征信息，根据预设的口型特征转换模型，转化为对应的参照音频信号。例如，若口型特征信息为：两唇的张合形状为圆形，该圆形的直径为1cm，则根据预设的口型特征转换模型，确定该口型特征信息对应的参照音频信号可能为：发音内容为：我，发音功率为5db，以及对应的时域特征或频率特征等。在本发明实施例中，对此不作具体限定。

再例如，若目标对象为猫，则将该口型特征信息，根据预设的口型特征转换模型，转化为对应的参照音频信号。该参照音频信号为猫的参照音频信号。在本发明实施例中，对此不作具体限定。

在本发明实施例中，如果发音主体发或目标对象，由其他发音特征信息发音，该其他发音特征信息可以为表征发音主体振动的图像信号等，例如，若目标对象为风扇，则该其他发音特征信息则可以为风扇的风叶转动角度、转动速度等表征振动的图像信号。则可以通过其对应的其他发音特征转换模型，将表征发音主体振动的图像信号转化为对应的参照音频信号。该参照音频信号可以为风扇风叶的参照音频信号。在本发明实施例中，对此不作具体限定。

步骤207，从所述多个子音频信号中，确定与所述参照音频信号匹配的目标子音频信号。

在本发明实施中，从上述多个子音频信号中，确定与上述参照音频信号匹配的目标子音频信号。

在本发明实施例中，可以从参照音频信号中，提取其时域特征或频率特征等，同样的，针对多个子音频信号，也一一提取其时域特征或频率特征，可以根据上述参照音频信号的时域特征或频率特征等，从上述多个子音频信号中，确定与上述参照音频信号的时域特征或频率特征匹配的目标子音频信号。在本发明实施例中，对此不作具体限定。

在本发明实施例中，根据预设的口型特征转换模型，确定原始图像信号中目标对象的口型特征信息对应的参照音频信号，从上述多个子音频信号中，确定与该参照音频信号匹配的目标子音频信号，从目标对象的口型特征信息匹配目标子音频信号，准确性高，得到的目标子音频信号即为目标对象的子音频信号。

步骤208，将所述目标子音频信号与所述原始图像信号合成为视频数据。

在本发明实施例中，步骤208可以参照上述实施例一中的步骤105，此处不再赘述。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定都是本申请实施例所必须的。

实施例三

参照图3所示，为本发明实施例三提供的视频数据合成装置300的结构框图，上述视频数据合成装置300具体可以包括：

原始信号获取模块301，用于获取原始音频信号以及原始图像信号；

音频分离模块302，用于将所述原始音频信号分离为多个子音频信号；

口型特征信息识别模块303，用于从所述原始图像信号识别目标对象的口型特征信息；

目标子音频信号确定模块305，用于从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号；

视频数据合成模块306，用于将所述目标子音频信号与所述原始图像信号合成为视频数据。

可选地，参照图4所示，在上述图3的基础上，所述目标子音频信号确定模块305可以包括：

参照音频信号确定单元3051，用于采用预设的口型特征转换模型，确定所述口型特征信息对应的参照音频信号；

目标子音频信号确定单元3052，用于从所述多个子音频信号中，确定与所述参照音频信号匹配的目标子音频信号。

可选的，所述装置还可以包括：模型训练模块304，用于根据口型特征信息样本和参照音频信号样本，训练所述口型特征转换模型。

可选的，所述口型特征信息识别模块303可以包括：

目标对象识别单元3031，用于从所述原始图像信号识别所述目标对象；

口型特征信息识别单元3032，用于识别所述目标对象的口型特征信息。

可选的，所述音频分离模块302可以包括：

音频分离单元3021，用于根据原始音频信号的频率、信号强度，将所述原始音频信号分离为多个子音频信号。

本发明实施例提供的视频数据合成装置能够实现图1至图2的方法实施例中视频数据合成装置实现的各个过程，为避免重复，这里不再赘述。

这样，在本发明实施例中，获取原始音频信号以及原始图像信号；将所述原始音频信号分离为多个子音频信号；从所述原始图像信号识别目标对象的口型特征信息；从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号；将所述目标子音频信号与所述原始图像信号合成为视频数据。通过原始图像信号中目标对象的口型特征信息，准确确定了目标对象的目标子音频信号，即准确确定了目标对象的声音，将该目标子音频信号与原始图像信号合成为视频数据，避免了对环境声音信号的合成，进而合成的视频数据中只有目标对象的目标子音频信号，即，合成视频中仅记录了目标对象的声音，避免了环境声音影响目标对象声音，提升了视频数据合成质量。

图5为实现本发明各个实施例中的一种移动终端的硬件结构示意图，该移动终端700包括但不限于：射频单元701、网络模块702、声音输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图5中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，输入单元704，用于获取原始音频信号以及原始图像信号；

处理器710，用于将所述原始音频信号分离为多个子音频信号；

从所述原始图像信号识别目标对象的口型特征信息；

本发明实施例，获取原始音频信号以及原始图像信号；将所述原始音频信号分离为多个子音频信号；从所述原始图像信号识别目标对象的口型特征信息；从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号；将所述目标子音频信号与所述原始图像信号合成为视频数据。通过原始图像信号中目标对象的口型特征信息，准确确定了目标对象的目标子音频信号，即准确确定了目标对象的声音，将该目标子音频信号与原始图像信号合成为视频数据，避免了对环境声音信号的合成，进而合成的视频数据中只有目标对象的目标子音频信号，即，合成视频中仅记录了目标对象的声音，避免了环境声音影响目标对象声音，提升了视频数据合成质量。

应理解的是，本发明实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

声音输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的声音数据转换成声音信号并且输出为声音。而且，声音输出单元703还可以提供与移动终端700执行的特定功能相关的声音输出(例如，呼叫信号接收声音、消息接收声音等等)。声音输出单元703包括扬声器、蜂鸣器以及受话器等。

输入单元704用于接收声音或图像信号。输入单元704可以包括图形处理器(Graphics Processing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为声音数据。处理后的声音数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。

移动终端700还包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在移动终端700移动到耳边时，关闭显示面板7061或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。

用户输入单元707可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图5中，触控面板7071与显示面板7061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元708为外部装置与移动终端700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、声音输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端700内的一个或多个元件或者可以用于在移动终端700和外部装置之间传输数据。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如声音数据、电话本等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器709内的软件程序或模块，以及调用存储在存储器709内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器710可包括一个或多个处理单元；优选的，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端700还可以包括给各个部件供电的电源711(比如电池)，优选的，电源711可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端700包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种移动终端，包括处理器710，存储器709，存储在存储器709上并可在上述处理器710上运行的计算机程序，该计算机程序被处理器710执行时实现上述视频数据合成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

基于上述移动终端的硬件结构，以下对本发明各实施例进行详细详述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频数据合成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，上述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种视频数据合成方法，其特征在于，所述方法包括：

获取原始音频信号以及原始图像信号；

将所述原始音频信号分离为多个子音频信号；

从所述原始图像信号识别目标对象的口型特征信息；

2.根据权利要求1所述的方法，其特征在于，所述从所述多个子音频信号中，确定与所述口型特征信息匹配的目标子音频信号的步骤包括：

采用预设的口型特征转换模型，确定所述口型特征信息对应的参照音频信号；

从所述多个子音频信号中，确定与所述参照音频信号匹配的目标子音频信号。

3.根据权利要求2所述的方法，其特征在于，所述采用预设的口型特征转换模型，确定所述口型特征信息对应的参照音频信号的步骤之前，所述方法还包括：

根据口型特征信息样本和参照音频信号样本，训练所述口型特征转换模型。

4.根据权利要求1所述的方法，其特征在于，所述从所述原始图像信号识别目标对象的口型特征信息的步骤包括：

从所述原始图像信号识别所述目标对象；

识别所述目标对象的口型特征信息。

5.根据权利要求1所述的方法，其特征在于，所述将所述原始音频信号分离为多个子音频信号的步骤包括：

根据原始音频信号的频率、信号强度，将所述原始音频信号分离为多个子音频信号。

6.一种视频数据合成装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述目标子音频信号确定模块包括：

参照音频信号确定单元，用于采用预设的口型特征转换模型，确定所述口型特征信息对应的参照音频信号；

目标子音频信号确定单元，用于从所述多个子音频信号中，确定与所述参照音频信号匹配的目标子音频信号。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

模型训练模块，用于根据口型特征信息样本和参照音频信号样本，训练所述口型特征转换模型。

9.一种移动终端，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的视频数据合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的视频数据合成方法的步骤。