CN110808048B

CN110808048B - 语音处理方法、装置、系统及存储介质

Info

Publication number: CN110808048B
Application number: CN201911109001.9A
Authority: CN
Inventors: 张银平; 杨琳; 汪俊杰; 贾宸; 梁玉龙
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2022-10-25
Anticipated expiration: 2039-11-13
Also published as: CN110808048A

Abstract

本申请提供了一种语音处理方法、装置、系统及存储介质，在嘈杂的场景下，多媒体处理设备获取包含多个语音的语音信息及视频界面展示的人脸图像后，通过对该人脸图像的嘴部区域进行追踪检测，得到相应的嘴部运行信息，由于不同嘴部运动信息对应的语音往往不同，所以，本申请可以据此直接从这多个语音信息中，提取与该嘴部运动信息匹配的目标语音信息，即提取处视频界面展示的发言人的目标语音，之后，通过增强目标语音的信号强度，增大该目标语音信息与其他语音信息(即噪声)之间的信号强度的差距，突出输出的目标语音信息，提高了嘈杂场景下识别目标语音信息的效率及准确性，保证收听者能够准确地得知发言人的发言内容。

Description

语音处理方法、装置、系统及存储介质

技术领域

本申请主要涉及数据处理技术领域，更具体地说是涉及一种语音处理方法、装置、系统及存储介质。

背景技术

目前，在会议、电视采访、演讲等场景下，为了方便参加的每一个成员清楚看到发言人在发言过程中的动作、表情，收听到发言人的语音信息，通常会配置至少一个视频界面，来展示发言人的人脸图像，同时播放发言人的语音信息。

然而，在发言人实际发言过程中，可能会受到场景的环境声、其他成员说话声等噪声的影响，导致实际输出的语音信息包含很多噪声，导致收听者无法准确收听到发言人的发言内容。

发明内容

有鉴于此，本申请提供了以下技术方案：

一方面，本申请提出了一种语音处理方法，所述方法包括：

获取多个语音信息及视频界面展示的人脸图像；

对所述人脸图像中的嘴部区域进行追踪检测，得到相应的嘴部运动信息；

从所述多个语音信息中，提取与所述嘴部运动信息匹配的目标语音信息，增强所述目标语音信息的信号强度并输出。

在一些实施例中，所述方法还包括：

获取图像采集设备检测到的多个人脸图像；

将所述多个语音信息与多个人脸图像各自嘴部运动信息进行匹配处理，得到多个嘴部运动信息与所述多个语音信息之间的对应关系；

所述从所述多个语音信息中，提取与所述嘴部运动信息相匹配的目标语音信息，包括：

利用所述对应关系，从所述多个语音信息中，提取与所述视频界面所展示的人脸图像的嘴部运动信息对应的目标语音信息。

在一些实施例中，所述方法还包括：

构建人脸图像对应的人脸模型；

利用所述人脸图像的嘴部运动信息匹配的目标语音信息，构建相应的声纹模型。

在一些实施例中，所述方法还包括：

监测视频界面展示的人脸图像；

如果所述视频界面当前未展示人脸图像，将当前获取的至少一个语音信息与第一声纹模型进行比对，得到第一声纹比对结果，所述第一声纹模型是所述目标语音信息对应的声纹模型；

如果所述第一声纹比对结果满足声纹匹配条件，利用所述第一声纹模型对应的第一人脸模型，对获取的多个人脸图像进行人脸识别，将得到的发言人的人脸图像展示至所述视频界面。

在一些实施例中，所述方法还包括：

如果所述第一声纹比对结果不满足所述声纹匹配条件，将当前获取的至少一个语音信息与已有的第二声纹模型进行比对，得到第二声纹比对结果；

如果所述第二声纹比对结果满足所述声纹匹配条件，利用与满足所述声纹匹配条件的第二声纹模型对应的第二人脸模型，对获取的多个人脸图像进行人脸识别，将得到的发言人的人脸图像展示至所述视频界面；

如果所述第二声纹比对结果不满足所述声纹匹配条件，对获取的至少一个人脸图像的嘴部区域进行跟踪检测，得到相应的待定嘴部运动信息；

利用所述待定嘴部运动信息及所述至少一个语音信息，获取发言人的人脸图像，将所述发言人的人脸图像展示至所述视频界面。

在一些实施例中，所述利用所述第一声纹模型对应的第一人脸模型，对获取的多个人脸图像进行人脸识别，包括：

调整目标图像采集设备的拍摄角度，所述目标图像采集设备是检测到所述视频界面上一时刻展示的人脸图像的图像采集设备；

在调整所述拍摄角度过程中，依据所述第一声纹模型对应的第一人脸模型，对调整后的目标图像采集设备检测到的人脸图像进行人脸识别，得到发言人的人脸图像；

如果所述目标图像采集设备未检测到与所述第一人脸模型对应的人脸图像，利用所述第一人脸模型，对至少一个第二图像采集设备检测到的人脸图像进行人脸识别，得到发言人的人脸图像；

将检测到所述发言人的人脸图像的第二图像采集设备更新为目标图像采集设备。

在一些实施例中，所述方法还包括：

从当前获取的至少一个语音信息中，提取与所述视频界面展示的发言人的人脸图像的嘴部运动信息对应的语音信息；

将提取到的语音信息更新为目标语音信息，执行步骤所述增强所述目标语音信息的信号强度并输出。

又一方面，本申请还提供了一种语音处理装置，所述装置包括：

信息获取模块，用于获取多个语音信息及视频界面展示的人脸图像；

第一嘴部运动检测模块，用于对所述人脸图像中的嘴部区域进行追踪检测，得到相应的嘴部运动信息；

目标语音信息增强模块，用于从所述多个语音信息中，提取与所述嘴部运动信息匹配的目标语音信息，增强所述目标语音信息的信号强度并输出。

又一方面，本申请还提供了一种存储介质，其上存储有程序，所述程序被处理器调用并执行，实现如上述语音处理方法的各步骤。

又一方面，本申请还提供了一种语音处理系统，所述系统包括：

至少一个图像采集设备，用于采集人脸图像；

至少一个声音采集设备，用于采集语音信息；

多媒体处理设备，所述多媒体处理设备包括至少一个存储器和至少一个处理器，其中：

所述存储器，用于存储实现如上述语音处理方法的程序；

所述处理器，用于加载并执行所述存储器存储的程序，以实现如上述语音处理方法的各步骤。

由此可见，与现有技术相比，本申请提供了一种语音处理方法、装置、系统及存储介质，在嘈杂的场景下，多媒体处理设备获取包含多个语音的语音信息及视频界面展示的人脸图像后，通过对该人脸图像的嘴部区域进行追踪检测，得到相应的嘴部运行信息，由于不同嘴部运动信息对应的语音往往不同，所以，本申请可以据此直接从这多个语音信息中，提取与该嘴部运动信息匹配的目标语音信息，即提取处视频界面展示的发言人的目标语音，之后，通过增强目标语音的信号强度，增大该目标语音信息与其他语音信息(即噪声)之间的信号强度的差距，突出输出的目标语音信息，提高了嘈杂场景下识别目标语音信息的效率及准确性，保证收听者能够准确地得知发言人的发言内容。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了实现本申请提出的语音处理方法的语音处理系统的一可选示例的系统结构图；

图2示出了本申请提出的语音处理方法的一可选示例的流程图；

图3示出了本申请提出的语音处理方法的又一可选示例的流程图；

图4示出了本申请提出的语音处理方法的又一可选示例的流程图；

图5示出了本申请提出的语音处理装置的一可选示例的结构图；

图6示出了本申请提出的语音处理装置的又一可选示例的结构图；

图7示出了本申请提出的多媒体处理设备的一可选示例的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参照图1，示出了实现本申请提出的语音处理方法的一可选示例的系统架构图，但并不局限于图1所示的应用场景及其组成结构，本申请仅以此为例来辅助说明本申请提出的语音处理方法能够适用的应用场景，如图1所示，该系统可以包括：图像采集设备100、声音采集设备200以及多媒体处理设备300，其中：

图像采集设备100与声音采集设备200的数量可以是一个或多个，并不局限于图1示出的图像采集设备100与声音采集设备200的数量。图像采集设备100可以用于采集所在场景下的人脸图像，该图像采集设备100具体可以是摄像头/摄像机等具有图像采集功能的电子设备，并不局限于图1示出的产品类型。实际应用中，可以将其安装在该场景下的墙体或桌面等结构体上，并使得各图像采集设备100的总拍摄范围覆盖该场景，保证能够至少一个图像采集设备100能够采集到该场景下用户的人脸图像。

根据场景需求，该图像采集设备100也可以是用户使用的电子设备上的摄像头，这样，用户可以手持电子设备，以使该电子设备携带的摄像头能够采集到该用户的人脸图像，当然，用户也可以将该电子设备放置到桌子或其他支架上，保证该电子设备的镜头朝向用户，该用户在该摄像头的拍摄范围内即可，本申请对该电子设备的产品类型及其放置方式、携带的摄像头的结构等均不作限定。

在一些实施例中，上述摄像头可以具有可旋转镜头或可旋转支架等部件，以调整其拍摄范围，获取所需用户的人脸图像，当然，该摄像头也可以具有固定的拍摄范围，通过增加摄像头数量和/或预先确定的各摄像头的拍摄角度等方式，保证多个摄像头能够采集到当前场景的各用户的人脸图像。

可见，在不同应用场景下，图像采集设备的产品类型、结构及其安装方式可以不同，并不局限于上文列举的几种方式，可以根据实际场景的需求灵活调整，本申请不做一一详述。

声音采集设备200可以用于采集语音信息，本申请主要对包含多个语音的嘈杂场景下，如何实现语音处理的过程进行描述。

本实施例中，该声音采集设备200可以包括线性或球型等结构的麦克风阵列，并不局限于图1所示的声音采集设备200的产品类型、数量及其与图像采集设备100的布局关系。在实际应用中，每一个声音采集设备200可以采集当前场景下产生的各种语音，通常情况下，距离该声音采集设备200的距离越近的声源，该声音采集设备200采集到的相应语音的信号强度越大，本申请对声音采集设备200的具体结构及其安装方式不做限定，通常可以依据具体应用场景、上述图像采集设备100的安装方式等因素确定，在此不做一一详述。

媒体处理设备300可以包括至少一个存储器310和至少一个处理器320，其中：

存储器310可以用于存储实现本申请各实施例提出的语音处理方法的程序。

在一些实施例中，该存储器310可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

在一些实施例中，存储器310可以包括程序存储区和数据存储区，该程序存储区可以存储操作系统、以及至少一个功能(如音视频输出功能)所需的应用程序、实现本申请提出的语音处理方法的程序等；数据存储区可以存储电子设备使用过程中所产生的数据，如获取的语音信息、人脸图像、嘴部运动信息等等。

处理器320可以用于加载并执行存储器310存储的程序，以实现本申请各实施例提出的语音处理方法，具体实现过程可以参照下文实施例相应部分的描述。

在一些实施例中，上述处理器320可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specific integrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

应该理解的是，上述多媒体处理设备300包含的组成结构，并不局限于上文列举的存储器310和处理器320，还可以包括用于输出人脸图像的显示设备、各种类型的通信接口，振动机构、各种传感器组件等等，可以根据该多媒体处理设备300的具体产品类型及其功能确定，本申请在此不做详述，也就是说，图1所示的系统结构及其包含的多媒体处理设备的结构，并不构成对本申请实施例的系统和多媒体处理设备的限定，在实际应用中系统和多媒体处理设备可以包括比图1所示的更多或更少的部件，或者组合某些部件，本申请在此不做一一列举。

参照图2，示出了本申请提出的语音处理方法的一可选示例的流程图，该方法可以应用于多媒体处理设备，关于该多媒体处理设备的结构组成，可以参照但并不局限于上文实施例相应部分的描述，且本申请该对多媒体处理设备的产品类型不做限定，如图2所示，该语音处理方法可以包括但并不局限于以下步骤：

步骤S11，获取多个语音信息及视频界面展示的人脸图像；

如上文分析，本申请主要对嘈杂场景(如会议、电视采访、演讲等场景)下，如何识别发言人的目标语音的过程进行描述，所以说，声音采集设备对当前场景进行实时语音检测后，通常会得到多个语音信息，但本实施例对如何获取这多个语音信息的过程不做详述。

在如会议、电视采访、演讲等场景中，在某一用户发言期间，为了方便其他用户了解该发言人的动作、表情等，多媒体处理设备通常会将获取的该发言人的人脸图像展示在视频界面上，本申请对如何获取发言人的人脸图像，以及视频界面对该人脸图像的展示方式均不作限定。

在一些实施例中，可以在多媒体处理设备的视频界面上，展示发言人的人脸图像，当然，也可以展示该场景下多个用户的人脸图像，可以依据具体应用场景的需求确定，本申请对如何确定将哪一个或多个用户的人脸图像展示到视频界面上的方法不做限定。

步骤S12，对该人脸图像中的嘴部区域进行追踪检测，得到相应的嘴部运动信息；

继上文分析，通常情况下，视频界面展示的人脸图像是发言人的人脸图像，或参与讨论输出语音的用户的人脸图像，但由于当前场景比较嘈杂，所获取的语音信息不仅包含具有该人脸图像的用户输出的语音信息，还包含了其他噪声(如环境声、其他人声)的语音信息，为了提高收听效果，本实施例不会直接输出获取的多个语音信息。

具体的，为了从获取的多个语音信息中识别出，哪个语音信息是由哪个人脸图像对应的用户输出的，本实施例提出获取人脸图像中的嘴部运动信息(如口形变化信息)，利用用户说话时的口形变化与输出的语音信息具有一定的匹配关系，来区分多个语音中，不同嘴部运动信息匹配的不同语音信息。因此，本实施例在获取视频界面展示的人脸图像后，可以进一步获取该人脸图像的嘴部运动信息，具体可以利用唇动检测算法实现，本申请对步骤S12的具体实现方法不做限定。

步骤S13，从这多个语音信息中，提取与嘴部运动信息匹配的目标语音信息，增强目标语音信息的信号强度并输出。

如上述分析，由于不同嘴部口形输出的语音信息是不同的，所以，本申请在得到视频界面展示的人脸图像的嘴部运动信息后，可以直接将其与得到的多个语音信息进行匹配，并将获取的多个语信息音中，与嘴部运动信息匹配的语音信息确定为目标语音信息，即具有该嘴部运动信息的发言人输出的语音，关于该目标语音信息的具体提取过程，本申请不做详述。

之后，为了在多个语音信息中突出目标语音信息，以便收听者能够从输出的多个语音信息中，准确收听到目标语音信息的全部内容，本实施例从多个语音信息中提取出目标语音信息后，可以对目标语音信息的信号强度进行增强处理，再输出增强后的目标语音信息，本申请对该目标语音信息的增强处理方法不做限定。

在一些实施例中，对于语音信息包含的多个语音信息的声源位置可能不同，具体可以由麦克风阵列采集得到，但并不局限于这种采集方式，之后，可以利用beamforming技术，实现对多个语音信息中的目标语音信息的信号强度的增强，以增大目标语音与噪声之间的信号强度的差距，有助于收听者在嘈杂场景下，能够准确且可靠地得知目标语音信息的内容。

其中，beamforming是一种通用信号处理技术，用于控制传播的方向和射频信号的接收，本实施例中，可以通过这种技术控制目标语音的传播方向以及该目标语音的接收，增强接收到的目标语音输出的信号强度，还可以在该目标语音的声源方向进行增强处理，以便后续能够更加准确且可靠地从嘈杂场景中获取目标语音，具体增强处理的实现过程本实施例不做详述。

综上所述，在嘈杂的场景下，本实施例在获取包含多个语音的语音信息及视频界面展示的人脸图像后，通过对该人脸图像的嘴部区域进行追踪检测，得到相应的嘴部运行信息，由于不同嘴部运动信息对应的语音往往不同，所以，本申请可以据此直接从这多个语音信息中，提取与该嘴部运动信息匹配的目标语音信息，即提取处视频界面展示的发言人的目标语音，之后，通过增强目标语音信息的信号强度，增大该目标语音信息与其他语音信息(即噪声)之间的信号强度的差距，突出输出的目标语音信息，提高了嘈杂场景下识别目标语音信息的效率及准确性，保证收听者能够准确地得知发言人的发言内容。

参照图3，示出了本申请提出的语音处理方法的又一可选示例的流程图，本实施例描述的可以是上文实施例的语音处理方法的一种细化实现方式，但并不局限于本实施例描述的一种细化实现方式，如图3所示，本实施例提出的语音处理方法可以包括：

步骤S21，获取图像采集设备检测到的多个人脸图像，以及声音采集设备检测到的多个语音信息；

步骤S22，获取多个人脸图像各自的嘴部运动信息；

步骤S23，将多个语音信息与多个嘴部运动信息进行匹配处理，得到多个嘴部运动信息与多个语音信息之间的对应关系；

结合上述实施例描述，系统中部署的至少一个图像采集设备能够获取当前场景下每一个用户的人脸图像，但并不局限的是由哪个图像采集设备、在什么时刻、以什么样的拍摄角度来检测到用户的人脸图像，可以依据具体应用场景的实际情况确定。同理，对于当前嘈杂场景下的多个语音信息的检测过程本实施例也不做详述。

在实际应用中，可能不会为每一个用户配置一个专用的图像采集设备及声音采集设备，以确定每一个用户的人脸图像及其对应的语音信息，往往会存在多个用户共享一个图像采集设备和/或声音采集设备的情况下，这就会导致多媒体处理设备获取多个人脸图像及多个语音信息后，往往无法得知哪个人脸图像对应哪个语音信息，即无法得知各语音信息具有是由现场的哪一张嘴输出的，对此，结合上述实施例相应部分的分析，可以利用不同语音信息的嘴部运动信息不同的特点来解决。所以，本实施例可以在检测到任一人脸图像后，对该人脸图像中的嘴部区域进行追踪检测，得到该人脸图像的嘴部运动信息，具体实现过程不做详述。

之后，可以将得到的每一个嘴部运动信息与每一个语音信息进行匹配处理，确定出多个嘴部运动信息各自与哪个语音信息匹配，在相匹配的嘴部运动信息与语音信息之间构建对应关系，从而得到多个嘴部运动信息与多个语音信息之间的对应关系，本申请对该对应关系的表示方式及其存储方式不做限定。

步骤S24，检测到视频界面展示有第一人脸图像，利用该对应关系，从多个语音信息中，提取与该第一人脸图像的嘴部运动信息对应的目标语音信息；

步骤S25，增强目标语音信息的信号强度并输出。

继上文分析，在某图像采集设备将检测到的人脸图像(本实施例将其记为第一人脸图像)，如发言人的人脸图像展示到视频界面后，多媒体处理设备可以获取该第一人脸图像，以及当前场景下的多个语音信息，为了能够从这多个语音信息中可靠识别出第一人脸图像中的嘴输出的目标语音信息，可以直接利用上述得到的对应关系，从多个语音信息中，提取与该第一人脸图像中的嘴部运动信息对应的目标语音信息，后续处理过程可以参照上述实施例相应部分的描述。

应该理解的是，对于新进入当前场景的用户，首次检测到人脸图像或语音信息，且该用户进入当前场景后就作为发言人输出语音信息的情况，视频界面可能会直接将检测到的该用户的人脸图像输出，这种情况下，可以按照上述实施例描述的方式，直接获取该用户的人脸图像中的嘴部运动信息，再将其与当前获取的多个语音信息进行匹配处理，识别出与该用户的嘴部运动信息匹配的目标语音信息。

综上，本实施例中，对于从当前场景中检测到的多个人脸图像及多个语音信息，将利用不同嘴部运动信息与不同语音信息之间的匹配特点，构建多个人脸图像各自的嘴部运动信息与多个语音信息之间的对应关系，这样，在视频界面展示任一人脸图像时，可以直接利用该对应关系，从当前获取的多个语音信息中，提取与展示的人脸图像的嘴部运动信息相匹配的目标语音信息，并在增强该目标语音信息的信号强度后输出，从而使得最终输出的多个语音信息中，目标语音信息与其他语音信息的信号强度存在较大差异，保证了收听者能够准确且可靠地收到的目标语音信息的内容，相当于降低了噪声信号对发言人输出的目标语音的干扰。

结合上述各实施例的描述，在发言人进行语音发言过程中，可能会因为该发言人移动导致其离开相应图像采集设备(即获取当前多媒体处理设备输出的人脸图像的图像采集设备，可以称为焦点图像采集设备)的拍摄范围，导致视频界面不能再展示该发言人的人脸图像；或者因更换了新的发言人，导致视频界面还未展示该新的发言人的人脸图像等情况，为了能够保证当前发言人输出的语音信息能够及时且准确输出，面对类似场景，本申请可以先获取当前发言人的人脸图像，将其展示在视频界面，再按照上述实施例描述的方式，对其嘴部运动信息进行追踪检测，在输出人脸图像的同时，准确输出与其嘴部运动信息相匹配的目标语音信息。

基于此，为了方便快速查找当前场景中的发言人，本申请按照上述方式得到人脸图像及其对应的目标语音信息后，可以构建该人脸图像的人脸模型，并利用该人脸图像的嘴部运动信息匹配的目标语音信息，构建相应的声纹模型，从而得到了人脸模型与声纹模型之间的对应关系，本申请对该人脸模型及声纹模型的具体构建过程不做详述。

继上述分析，参照图4，示出了本申请提出的语音处理方法的又一可选示例的流程图，该方法仍可以适用于多媒体处理设备，如图4所示，该方法可以包括但并不局限于：

步骤S31，监测视频界面展示的人脸图像；

本实施例中，尤其是在场地较大，或参与用户角度的场景下，为了保证将发言人的人脸图像及时展示到视频界面，以使得其他用户能够及时看到发言人在发言期间的动作、表情等，本实施例可以对视频界面展示的人脸图像进行监测，具体监测方式不做限定。

步骤S32，如果视频界面当前未展示人脸图像，将当前获取的至少一个语音信息与第一声纹模型进行比对，得到第一声纹比对结果；

本实施例主要对某一发言人进行过发言或正在进行发言，且视频界面展示了发言人的人脸图像之后，因发言人移动或变更，导致视频界面没有及时跟踪展示人脸图像，这种情况下，本申请可以查询发言人的人脸图像，具体可以从当前各图像采集设备检测到的人脸图像中，选择出发言人的人脸图像，或者调整图像采集设备的拍摄范围，来寻找发言人的人脸图像等方式，得到发言人的人脸图像。

需要说明的是，在视频界面未展示人脸图像的期间，发言人仍在发言，此时，多媒体处理设备能够继续接收到至少一个语音信息，可以是仅包含发言人的目标语音信息，也可以是包含发言人的目标语音信息及噪声语音信息的多个语音信息，本申请对视频界面未展示人脸图像时，检测到的语音数量及内容不做限定。

其中，第一声纹模型是目标语音信息对应的声纹模型，也就是上一时刻发言人的声纹模型，具体构建过程不做限定。

步骤S33，检测该第一声纹比对结果是否满足声纹匹配条件，如果满足，执行步骤S34，如果不满足，进入步骤S35；

继上述分析，多媒体处理设备得到当前检测到的至少一个语音信息后，可以将其与第一声纹模型进行比对，来确定上一时刻的发言人是否正在继续发言，若此时检测到的增强处理后的多个语音信息中，存在与第一声纹模型匹配的目标语音信息，即当前获取的语音信息与第一声纹模型比对得到的第一声纹比对结果满足声纹匹配条件，可以认为当前发言人与上一时刻发言人是同一用户，本申请对语音信息与声纹模型的匹配方式不做限定。

基于此，上述声纹匹配条件可以是表明语音信息与输出构建相应第一声纹模型的语音信息的声纹差异小于第一阈值，或者说由获取到的语音信息构建的声纹模型与该第一声纹模型的差异小于第二阈值，本申请对该声纹匹配条件的内容，以及上述第一阈值和第二阈值的具体数值不做限定。另外，对于第一声纹比对结果的内容，可以依据该声纹匹配条件的内容确定，本申请在此不做详述。

步骤S34，利用第一声纹模型对应的第一人脸模型，对获取的多个人脸图像进行人脸识别，得到的发言人的人脸图像；

经过上述比对分析，确定当前发言人与上一时刻发言人是同一人的情况下，由于发言人在发言过程中，其移动速度往往比较慢，当其超过相应图像采集设备的拍摄范围后，就会按照本实施例提出的方式，查找发言人的人脸图像，此时该发言人并未远离该拍摄范围。

因此，在一些实施例的实现方式中，本申请可以通过调整目标图像采集设备的拍摄角度，并在调整该拍摄角度过程中，依据第一人脸模型，对调整后的目标图像采集设备检测到的人脸图像进行人脸识别，得到发言人的人脸图像，此时，该目标图像采集设备可以是检测到视频界面上一时刻展示的人脸图像的图像采集设备，本申请对该目标图像采集设备的位置及其与上一时刻发言人的位置关系不做限定。

在一些实施例的另一实现方式中，在调整目标图像采集设备的拍摄结果过程中，若该目标图像采集设备未检测到与第一人脸模型对应的人脸图像，本申请可以利用第一人脸模型，对至少一个第二图像采集设备(当前场景下除了目标图像采集设备之外的图像采集设备)检测到的人脸图像进行人脸识别，得到发言人的人脸图像，也就是说，若调整目标图像采集设备的拍摄角度，仍然无法得到发言人的人脸图像，可以将向视频界面发送展示的人脸图像的目标图像采集设备切换到其他图像采集设备，将其他图像采集设备采集到的发言人的人脸图像展示到该视频界面，即重新确定焦点图像采集设备，具体确定过程本申请不做详述。

在又一些实施例中，本申请还可以直接获取当前各图像采集设备检测到的多个人脸图像，并利用第一人脸模型，对当前获取的多个人脸图像进行人脸识别，得到当前发言人的人脸图像，同时将检测到所述发言人的人脸图像的第二图像采集设备更新为目标图像采集设备，后续可以将更新后的目标图像采集设备采集到的人脸图像展示至视频界面。

由此可见，本申请在确定当前发言人即为上一时刻发言人的情况下，可以利用上一个时刻发言人的第一人脸模型，对当前获取的多个人脸图像进行人脸识别，得到当前发言人的人脸图像，具体获取过程可以参照但并不局限于上文列举的几种实现方式，还可以在人脸识别的基础，进一步结合唇动检测和/或声源定位等方式，来定位当前的发言人，并将检测到的发言人的人脸图像展示视频界面等等，具体实现方式本申请不做一一详述。

步骤S35，将当前获取的至少一个语音信息与已有的第二声纹模型进行比对，得到第二声纹比对结果；

步骤S36，检测第二声纹比对结果是否满足声纹匹配条件，如果满足，进入步骤S37；如果不满足，执行步骤S38；

经过上述比对，在确定当前发言人不是上一时刻发言人，即上一时刻发言人结束发言的情况下，本申请可以进一步检测当前发言人是否是首次发言，具体可以通过将获取的至少一个语音信息与已有的第二声纹模型进行比对确定，需要说明，发言人首次发言过程中，通常可以按照上述方式构建其人脸模型及声纹模型，以便利用人脸图像、声纹信息等具有唯一特性的生理特征信息，实现对该发言人的快速识别，可见，该第二声纹模型可以是存在发言记录的非上一时刻发言人的声纹模型。

其中，第二声纹比对结果可以包括：当前获取的每一个语音信息与每一个第二声纹模型的声纹比对结果，或者是获取的至少一个语音信息整体与每一个第二声纹模型的声纹比对结果，本申请对第二声纹比对结果包含的内容不做限定，可以依据当前能够获取的语音信息的数量等因素确定。

步骤S37，利用与满足声纹匹配条件的第二声纹模型对应的第二人脸模型，对获取的多个人脸图像进行人脸识别，得到的发言人的人脸图像；

经上述比对，第二声纹比对结果表明当前获取的至少一个语音信息中，存在与第二声纹模型相匹配的语音信息，可以认为当前的发言人并非是首次发言，那么，系统存储有该发言人的人脸模型，所以，本申请可以获取与满足声纹匹配条件的第二声纹模型对应的第二人脸模型，即当前的发言人的人脸模型，之后，利用第二人脸模型，对获取的多个人脸图像进行人脸识别，定位发言人，得到的发言人的人脸图像，根据需要还可以控制获取发言人的人脸图像的图像采集设备，对该发言人进行追踪检测，直至该发言人超出该图像采集设备的拍摄范围，或者更换新的发言人不在该图像采集设备的拍摄范围内，可以按照本实施例描述的方式，继续定位发言人。

在一些实施例中，在利用上述人脸识别结果，定位发言人的过程中，还可以进一步结合唇动检测结果，即利用检测到的嘴部运动信息，精确识别发言人，还可以结合声源定位方式，综合识别发言人，并不局限于步骤S37描述的实现方式，关于利用嘴部运动信息识别发言人的方式，可以参照上述实施例相应部分的描述，本申请不再赘述。

步骤S38，对获取的至少一个人脸图像的各嘴部区域进行跟踪检测，得到相应的待定嘴部运动信息；

步骤S39，利用待定嘴部运动信息及至少一个语音信息，获取发言人的人脸图像；

经过上述分析，确定当前的发言人是首次发言的情况下，系统并未存储当前的发言人的声纹模型、人脸模型等信息，这种情况下，可以通过对当前获取的各人脸图像的嘴部运动信息与获取的语音信息的匹配结果，来定位发言人，得到发言人的人脸图像，同时，还可以控制获取发言人的人脸图像的图像采集设备对定位的发言人进行追踪拍摄，具体实现过程不做详述。

步骤S310，将发言人的人脸图像展示至视频界面；

步骤S311，从当前获取的至少一个语音信息中，提取与视频界面展示的发言人的人脸图像的嘴部运动信息对应的语音信息；

步骤S312，将提取到的语音信息更新为目标语音信息，增强目标语音信息的信号强度并输出。

综上，在本实施例实际应用中，在出现任一发言人发言过程中移动出拍摄范围，或更换的新发言人的人脸图像未及时展示至视频界面的情况，将监测到视频界面未展示人脸图像，此时可以通过将获取的语音信息与已有声纹模型进行比对的方式，来判断当前的发言人是上一时刻的发言人，还是更换了新的发言人，以及该新的发言人是否是首次发言，对于不同的判断结果，可以采用相应的定位规则(具体内容可以参照上述相应部分的描述)，灵活、快速且准确定位当前的发言人，并将该发言人的人脸图像及时展示至视频界面，之后，若发言环境仍比较嘈杂，可以继续获取视频界面展示的人脸图像的嘴部运动信息，将其与当前获取的各语音信息进行匹配，提出的发言人的目标语音信息，并对其信号强度进行增强后输出，保证收听者听到的语音信息与视频界面展示的人脸图像的嘴部运动信息匹配。

参照图5，示出了本申请提出的语音处理装置的一可选示例的结构图，该装置可以适用于多媒体处理设备，如图5所示，该装置可以包括：

信息获取模块41，用于获取多个语音信息及视频界面展示的人脸图像；

第一嘴部运动检测模块42，用于对所述人脸图像中的嘴部区域进行追踪检测，得到相应的嘴部运动信息；

目标语音信息增强模块43，用于从所述多个语音信息中，提取与所述嘴部运动信息匹配的目标语音信息，增强所述目标语音信息的信号强度并输出。

在一些实施例中，该装置还可以包括：

人脸图像获取模块，用于获取图像采集设备检测到的多个人脸图像；

对应关系获取模块，用于将所述多个语音信息与多个人脸图像各自嘴部运动信息进行匹配处理，得到多个嘴部运动信息与所述多个语音信息之间的对应关系；

相应地，上述目标语音信息增强模块43可以包括：

目标语音信息提取单元，用于利用所述对应关系，从所述多个语音信息中，提取与所述视频界面所展示的人脸图像的嘴部运动信息对应的目标语音信息。

目标语音信息增强单元，用于增强所述目标语音信息的信号强度并输出。

在一些实施例中，上述语音处理装置还可以包括：

人脸模型构建模块，用于构建人脸图像对应的人脸模型；

声纹模型构建模块，用于利用所述人脸图像的嘴部运动信息匹配的目标语音信息，构建相应的声纹模型。

在一些实施例的实现方式中，如图6所示，上述语音处理装置还可以包括：

视频界面监测模块44，用于监测视频界面展示的人脸图像；

第一声纹比对模块45，用于在视频界面当前未展示人脸图像的情况下，将当前获取的至少一个语音信息与第一声纹模型进行比对，得到第一声纹比对结果，所述第一声纹模型是所述目标语音信息对应的声纹模型；

第一人脸识别模块46，用于在第一声纹比对结果满足声纹匹配条件的情况下，利用所述第一声纹模型对应的第一人脸模型，对获取的多个人脸图像进行人脸识别，将得到的发言人的人脸图像展示至所述视频界面。

在一些实施例中，该第一人脸识别模块46可以包括：

拍摄角度调整单元，用于调整目标图像采集设备的拍摄角度，所述目标图像采集设备是检测到所述视频界面上一时刻展示的人脸图像的图像采集设备；

第一人脸识别单元，用于在调整所述拍摄角度过程中，依据所述第一声纹模型对应的第一人脸模型，对调整后的目标图像采集设备检测到的人脸图像进行人脸识别，得到发言人的人脸图像；

第二人脸识别单元，用于在目标图像采集设备未检测到与所述第一人脸模型对应的人脸图像的情况下，利用所述第一人脸模型，对至少一个第二图像采集设备检测到的人脸图像进行人脸识别，得到发言人的人脸图像；

更新单元，用于将检测到所述发言人的人脸图像的第二图像采集设备更新为目标图像采集设备。

第二声纹比对模块47，用于在第一声纹比对结果不满足所述声纹匹配条件的情况下，将当前获取的至少一个语音信息与已有的第二声纹模型进行比对，得到第二声纹比对结果；

第二人脸识别模块48，用于在第二声纹比对结果满足所述声纹匹配条件的情况下，利用与满足所述声纹匹配条件的第二声纹模型对应的第二人脸模型，对获取的多个人脸图像进行人脸识别，将得到的发言人的人脸图像展示至所述视频界面；

第二嘴部运动检测模块49，用于在第二声纹比对结果不满足所述声纹匹配条件的情况下，对获取的至少一个人脸图像的嘴部区域进行跟踪检测，得到相应的待定嘴部运动信息；

人脸图像选择模块410，用于利用所述待定嘴部运动信息及所述至少一个语音信息，获取发言人的人脸图像，将所述发言人的人脸图像展示至所述视频界面。

在一些实施例中，主要是在更换发言人的情况下，本申请提出的语音处理装置还可以包括：

语音信息提取模块，用于从当前获取的至少一个语音信息中，提取与所述视频界面展示的发言人的人脸图像的嘴部运动信息对应的语音信息；

语音增强模块，用于将提取到的语音信息更新为目标语音信息，增强所述目标语音信息的信号强度并输出。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请实施例还提供了一种存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的语音处理方法的各个步骤。

参照上图1，本申请实施例还提供了一种多媒体处理设备，如图7所示，该多媒体处理设备可以包括：至少一个存储器310和至少一个处理器320，其中，存储器310，用于存储实现上述任一方法实施例描述的语音处理方法的程序，处理器320，用于加载并执行该存储器310存储的程序，实现上述任一方法实施例描述的语音处理方法的各步骤，具体实现过程可以参照上述方法实施例相应部分的描述。

需要说明，结合上述分析，如图7所示，多媒体处理设备还可以包括通信接口330、输入设备340和输出设备350等，并不局限于上文给出的存储器310和处理器320，具体可以依据该多媒体处理设备的产品类型及其功能确定，本申请不做一一详述。

通信接口330可以为通信模块的接口，如GSM模块的接口，可以实现与其他设备(如图像采集设备、声音采集设备等)的数据交互，还可以包括如USB接口、串/并口等接口，用于实现电子设备内部组成部件之间的数据交互，可以根据该多媒体处理设备的产品类型确定，本申请不做一一详述。

输入设备340可以包括感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标等设备中的至少一个，可以依据多媒体处理设备的产品类型等因素确定。

输出设备350可以包括：显示器、扬声器、振动机构、灯等设备中的至少一个，显示器可以包括显示面板，如触摸显示面板等；振动机构可以包括电动机和偏心振子，电动机带动偏心振子转动从而产生振动；灯的亮度和/或颜色可调，在一种可能的实现方式中，可通过灯的亮灭、亮度、颜色中的至少一个体现不同的信息，如通过灯发出红色光体现报警信息的等等。

应该理解的是，图7所示的多媒体处理设备的结构并不构成对本申请实施例中多媒体处理设备的限定，在实际应用中，多媒体处理设备可以包括比图7所示的更多或更少的部件，或者组合某些部件，本申请在此不做一一列举。

最后，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、系统及多媒体处理设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音处理方法，所述方法包括：

获取多个语音信息及视频界面展示的人脸图像；

从所述多个语音信息中，提取与所述嘴部运动信息匹配的目标语音信息，增强所述目标语音信息的信号强度并输出；

构建人脸图像对应的人脸模型；

利用所述人脸图像的嘴部运动信息匹配的目标语音信息，构建相应的声纹模型；

监测视频界面展示的人脸图像；

如果所述第一声纹比对结果满足声纹匹配条件，利用所述第一声纹模型对应的第一人脸模型，对获取的多个人脸图像进行人脸识别，将得到的发言人的人脸图像展示至所述视频界面；

其中，所述利用所述第一声纹模型对应的第一人脸模型，对获取的多个人脸图像进行人脸识别，包括：

2.根据权利要求1所述的方法，所述方法还包括：

获取图像采集设备检测到的多个人脸图像；

3.根据权利要求1所述的方法，所述方法还包括：

4.根据权利要求3所述的方法，所述方法还包括：

5.一种语音处理装置，所述装置包括：

目标语音信息增强模块，用于从所述多个语音信息中，提取与所述嘴部运动信息匹配的目标语音信息，增强所述目标语音信息的信号强度并输出；

所述语音处理装置，还用于构建人脸图像对应的人脸模型；利用所述人脸图像的嘴部运动信息匹配的目标语音信息，构建相应的声纹模型；监测视频界面展示的人脸图像；如果所述视频界面当前未展示人脸图像，将当前获取的至少一个语音信息与第一声纹模型进行比对，得到第一声纹比对结果，所述第一声纹模型是所述目标语音信息对应的声纹模型；如果所述第一声纹比对结果满足声纹匹配条件，利用所述第一声纹模型对应的第一人脸模型，对获取的多个人脸图像进行人脸识别，将得到的发言人的人脸图像展示至所述视频界面；

6.一种存储介质，其上存储有程序，所述程序被处理器调用并执行，实现如权利要求1～4任一项所述语音处理方法的各步骤。

7.一种语音处理系统，所述系统包括：

至少一个图像采集设备，用于采集人脸图像；

至少一个声音采集设备，用于采集语音信息；

所述存储器，用于存储实现如权利要求1～4任一项所述语音处理方法的程序；

所述处理器，用于加载并执行所述存储器存储的程序，以实现如权利要求1～4任一项所述语音处理方法的各步骤。