CN116013262A

CN116013262A - 语音信号处理方法、装置、可读存储介质及电子设备

Info

Publication number: CN116013262A
Application number: CN202310035251.2A
Authority: CN
Inventors: 李文鹏; 潘复平; 朱长宝
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-04-25

Abstract

本公开实施例公开了一种语音信号处理方法、装置、可读存储介质及电子设备，其中，该方法包括：获取目标空间内的语音信号和图像序列；基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号；基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号；确定当前的语音信号处理状态是否符合语音信号输出条件；若符合语音信号输出条件，确定图像序列的图像质量信息；基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。本公开实施例根据图像质量有针对性地选择输出的语音片段信号的来源，进而有助于提高语音识别的准确性。

Description

语音信号处理方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种语音信号处理方法、装置、计算机可读存储介质及电子设备。

背景技术

传统的语音识别技术仅对语音信号进行处理以得到识别结果，这种语音识别方法在语音清晰的环境下识别效果较好。然而，在一些高噪声等复杂环境下，传统的语音识别技术的识别率会迅速下降。为了提高语音识别率，目前存在借助唇部动作视频协助进行语音识别的多模态语音识别方法，在一定程度上提高了高噪声场景下语音的识别率。

但是，在实时语音交互系统中，在用户的脸部被遮挡、脸部图像不清晰等情况下，基于图像识别得到的视觉特征成为无效的干扰输入，多模态语音识别方法的性能会出现显著下降，因此在视觉特征无效的情况下，如何将无效特征去除，只对有效的语音信号进行识别是需要解决的问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音信号处理方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种语音信号处理方法，该方法包括：获取目标空间内的语音信号和图像序列；基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号；基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号；确定当前的语音信号处理状态是否符合语音信号输出条件；响应于语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息；基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。

根据本公开实施例的另一个方面，提供了一种语音信号处理装置，该装置包括：获取模块，用于获取目标空间内的语音信号和图像序列；第一提取模块，用于基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号；第二提取模块，用于基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号；第一确定模块，用于确定当前的语音信号处理状态是否符合语音信号输出条件；第二确定模块，用于响应于语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息；输出模块，用于基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述语音信号处理方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述语音信号处理方法。

基于本公开上述实施例提供的语音信号处理方法、装置、计算机可读存储介质及电子设备，基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号，基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号，然后响应于当前的语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息，最后基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。本公开的实施例实现了根据拍摄的图像序列的图像质量，自动选择单模语音处理方式提取的第一语音片段信号或多模语音处理方式提取的第二语音片段信号作为语音识别所需的目标语音片段信号，从而在对输出的目标语音片段信号进行识别时，根据图像质量有针对性地选择输出的语音片段信号的来源，进而有助于提高语音识别的准确性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的语音信号处理方法的流程示意图。

图3是本公开另一示例性实施例提供的语音信号处理方法的流程示意图。

图4是本公开另一示例性实施例提供的语音信号处理方法的流程示意图。

图5是本公开另一示例性实施例提供的语音信号处理方法的流程示意图。

图6是本公开另一示例性实施例提供的语音信号处理方法的流程示意图。

图7是本公开一示例性实施例提供的语音信号处理装置的结构示意图。

图8是本公开另一示例性实施例提供的语音信号处理装置的结构示意图。

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实时语音交互系统中，在用户的脸部被遮挡、脸部图像不清晰等情况下，基于图像识别得到的视觉特征成为无效的干扰输入，多模态语音识别方法的性能会出现显著下降，因此需要系统实现根据拍摄的图像质量进行单多模识别的实时切换，解决视觉遮挡情况下的语音识别问题。当前多模态语音识别方法，没有对用户的脸部图像的质量进行判断，无法避免无效的视觉特征对语音识别效果的影响。

为解决该问题，本公开实施例提供了一种语音信号处理方法，可以实现对拍摄的图像序列进行实时地图像质量判断，根据判断结果输出通过单模处理方式提取的语音信号，或通过多模处理方式提取的语音信号，进而降低图像质量不符合条件时，由视觉特征造成的对语音识别精度的影响。

示例性系统

图1示出了可以应用本公开的实施例的语音信号处理方法或语音信号处理装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102、服务器103、图像采集设备104和语音采集设备105。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

图像采集设备104和语音采集设备105可以设置在目标空间内，目标空间可以是各种类型的空间，例如车内空间、房屋内空间等。图像采集设备104和语音采集设备105用于针对目标用户采集图像序列和语音信号。采集的图像序列和语音信号可以保存到终端设备101，或由终端设备101发送到服务器103。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如搜索类应用、浏览器应用、即时通信工具等。

终端设备101可以是各种电子设备，包括但不限于诸如车载终端、移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的图像序列和语音信号进行处理的后台服务器。后台服务器可以对接收到的图像序列和语音信号按照第一语音处理方式和第二语音处理方式进行处理，输出目标语音片段信号。

需要说明的是，本公开的实施例所提供的语音信号处理方法可以由服务器103执行，也可以由终端设备101执行，相应地，语音信号处理装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在图像序列和语音信号不需要从远程获取的情况下，上述系统架构可以不包括网络，只包括服务器或终端设备。

示例性方法

图2是本公开一示例性实施例提供的语音信号处理方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，获取目标空间内的语音信号和图像序列。

在本实施例中，电子设备可以获取目标空间内的语音信号和图像序列。其中，目标空间可以是任意类型的空间，例如，车辆内部空间、房间内部空间等。语音信号和图像序列可以是针对目标空间内的用户采集的。

上述图像序列可以由如图1所示的图像采集设备104拍摄得到，图像采集设备104可以针对某个位置进行拍摄，得到上述图像序列。上述语音信号可以由如图1所示的语音采集设备105采集得到。

需要说明的是，上述语音信号和图像序列在时间尺度上是对应的，即语音信号的起始时刻和结束时刻与图像序列的起始时刻和结束时刻相同。

步骤202，基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号。

在本实施例中，电子设备可以基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号。

其中，第一语音处理方式是单独对语音信号进行处理的方式，通常又可以称为单模语音处理方式。第一语音处理方式可以对输入的单模语音信号进行截取，将连续的音频流形式的语音信号切分为多个语音片段信号，并且在每个语音片段信号的开始点和结束点设置开始标记和结束标记。

可选的，第一语音处理方式可以采用VAD(语音活动检测，Voice ActivityDetection)方法实现，VAD的目的是从音频流里识别和消除长时间的静音片段信号，从而提取出有效的语音片段信号(query)。例如，若用户发出语音“今天天气怎么样”，则采用VAD方法可以从采集到的语音信号中提取出“今天天气怎么样”对应的语音片段信号，通常，在“今”字对应的音频帧之前设置开始标记(vad_start)，在“样”字对应的音频帧之后设置结束标记(vad_end)，电子设备可以将开始标记和结束标记之间的语音片段信号确定为第一语音片段信号并将其提取出来。

步骤203，基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号。

在本实施例中，电子设备可以基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号。

其中，第二语音处理方式是将图像序列和语音信号相结合进行语音识别的方式，通常又称为多模语音处理方式。通常，第二语音处理方式的执行过程为：将语音信号输入语音特征提取网络，得到语音特征数据，将图像序列包括的图像输入图像特征提取网络，得到图像序列特征数据，图像序列特征数据表示用户的目标部位(例如唇部、眼球等部位)的动作特征；然后将语音特征数据和图像特征数据进行拼接后输入特征融合网络，得到掩码(mask)值；最后将上述语音信号与掩码值相乘，从而可以得到第二语音片段信号。

步骤204，确定当前的语音信号处理状态是否符合语音信号输出条件。

在本实施例中，电子设备可以确定当前的语音信号处理状态是否符合语音信号输出条件。其中，语音信号处理状态可以包括忙状态和闲状态，通常，若当前的语音信号处理状态为闲状态，则可以确定当前的语音信号处理状态符合语音信号输出条件。

忙状态表示电子设备目前正在处理一些信息，无法输出语音片段信号，例如，若电子设备当前正在处理语音信号，即从语音信号中提取出一条第一语音片段信号或第二语音片段信号的操作尚未结束，确定语音信号处理状态为忙状态，若当前未在处理语音信号，即已得到完整的第一语音片段信号或第二语音片段信号时，确定语音信号处理状态为闲状态；或者，若电子设备当前正在输出语音片段信号，则确定语音信号处理状态为忙状态，若当前没有输出任何语音片段信号，则确定语音信号处理状态为闲状态；或者，若用于进行语音识别的电子设备当前的目标资源占用率(例如CPU占用率)超过预设占用率，则确定语音信号处理状态为忙状态，否则确定语音信号处理状态为闲状态。

步骤205，响应于语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息。

在本实施例中，电子设备可以响应于语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息。

图像质量信息可以是表示图像序列包括的图像的整体质量是否合格的信息，例如数字1表示合格，数字0表示不合格。通常，电子设备可以确定图像序列中的每帧图像的图像质量分值，再按照预设的统计方法，根据每帧图像的图像质量分值确定图像序列的图像质量信息。例如，可以确定各个图像质量分值的平均值(或中位数值等)，若平均值大于等于预设值，生成表示图像质量合格的图像质量信息，若平均值小于预设值，生成表示图像质量不合格的图像质量信息。

可选的，电子设备可以按照确定图像清晰度的方法，确定图像序列中的每帧图像的清晰度，将清晰度确定为图像质量分值；电子设备还可以按照目标检测的方法，从每帧图像中确定用户的目标部位的位置，再确定目标部位的面积占图像总面积的比例，将该比例确定为图像质量分值；电子设备还可以确定上述目标部位显示的完整程度值作为图像质量分值，作为示例，目标部位显示的完整程度值可以通过确定目标部位上的关键点的数量得到，即将当前显示的目标部位包括的关键点的数量与目标部位在完整显示时包括的关键点的数量的比值作为完整程度值。

可选的，还可以按照多种确定图像质量分值的方法，得到多个图像质量分值，再对这些图像质量分值进行融合(例如求平均值、加权求和等)，得到图像质量信息。

需要说明的是，由于图像序列包括的图像是按照顺序实时获取到的，因此，每帧图像的图像质量分值可以在每获取到一帧图像后实时确定，从而减小确定图像序列的图像质量信息的延时。

步骤206，基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。

在本实施例中，电子设备可以基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。输出的目标语音片段信号可以进一步被用于进行语音识别，得到识别结果，识别结果可以进一步被用于进行人机交互。

可选的，电子设备可以响应于图像序列的图像质量信息表示图像序列的整体质量合格，确定第二语音片段信号为目标语音片段信号；响应于图像序列的图像质量信息表示图像序列的整体质量不合格，确定第一语音片段信号为目标语音片段信号。通过在图像质量信息表示图像序列的整体质量不合格时，将第一语音片段信号作为目标语音片段信号输出，可以避免图像序列的整体图像质量不合格时造成输出的语音片段信号的准确性降低，从而提高了后续语音识别的准确性。

本公开的上述实施例提供的方法，基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号，基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号，然后响应于当前的语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息，最后基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。本公开的实施例实现了根据拍摄的图像序列的图像质量，自动选择单模语音处理方式提取的第一语音片段信号或多模语音处理方式提取的第二语音片段信号作为语音识别所需的目标语音片段信号，从而在对输出的目标语音片段信号进行识别时，根据图像质量有针对性地选择输出的语音片段信号的来源，进而有助于提高语音识别的准确性。

在一些可选的实现方式中，如图3所示，步骤203包括：

步骤2031，基于预设的音频特征提取网络，确定语音信号的音频特征数据。

可选的，上述音频特征提取网络的结构可以包括但不限于RNN(循环神经网络，Recurrent Neural Network)、LSTM(长短期记忆网络，Long Short-Term Memory)、UNet(U型网络)、Complex UNet等，以及基于自注意力机制及跨域注意力机制的Transformer架构等。

步骤2032，基于预设的图像序列特征提取网络，确定图像序列的图像序列特征数据。

其中，图像序列特征数据表示图像中的用户的目标部位(例如唇部、眼部等)的动作状态。例如，图像序列特征提取网络可以从每帧图像中确定唇部区域，然后确定每个唇部区域的唇部外形特征数据(例如，包括嘴角之间的距离、上下嘴唇之间的距离等)，将各个唇部区域的唇部外形特征数据合并为表示唇部动作状态变化特征的图像序列特征数据。再例如，图像序列特征提取网络可以从每帧图像中确定眼部区域，然后根据眼部区域确定眼部特征数据(例如，包括视线角度、眼部的张开程度等)，将各个眼部特征数据合并为表示眼部动作状态变化特征的图像序列特征数据。

步骤2033，将音频特征数据和图像序列特征数据合并，并将合并后的数据输入预先训练的特征融合网络，得到掩码数据。

其中，上述合并是指将音频特征数据和图像序列特征数据的各自包括的通道直接合并。通常，特征融合网络可以包括融合子网络和解码网络。其中，融合子网络可以执行特征融合方法，对音频特征数据和图像序列特征数据进行融合，得到融合特征数据。作为示例，上述特征融合方法可以包括以下任一种：concat特征融合方法，elemwise_add特征融合方法，attention(注意力)特征融合方法等。

上述解码网络可以对融合特征数据进行解码，得到掩码数据。通常，解码网络可以具有上采样的功能，融合特征数据通常是小尺度的特征数据，通过解码网络，可以将小尺度的融合特征数据进行上采样，得到与上述语音信号的频域数据的尺度相同的掩码数据。

步骤2034，基于掩码数据，从语音信号中提取第二语音片段信号。

具体地，可以将掩码数据与语音信号的频域数据(例如对语音信号进行短时傅里叶变换得到)相乘，得到频域的第二语音片段信号。或者，将频域的第二语音片段信号进行诸如逆傅里叶变换等处理，得到时域的第二语音片段信号。

本实施例通过使用音频特征提取网络、图像序列特征提取网络和特征融合网络，从语音信号中提取第二语音片段信号，充分利用神经网络的高预测精度的特点，提高了按照多模语音处理方法从语音信号中提取第二语音片段信号的准确性。

在一些可选的实现方式中，如图4所示，步骤204包括：

步骤2041，确定当前是否存在按照当前的输出通道对应的语音处理方式正在处理的语音片段信号。

其中，输出通道是指按照一种语音处理方式对语音信号进行处理并输出语音片段信号所经过的流程。在本实施例中，包含两个输出通道，一个是通过第一语音处理方式从语音信号中提取出第一语音片段并输出第一语音片段的流程，即单模语音处理流程；另一个是通过第二语音处理方式从语音信号中提取出第二语音片段并输出第一语音片段的流程，即多模语音处理流程。通常，语音片段信号是按照顺序逐帧排列的，每个语音片段信号的起始帧包括起始标记，结束帧包括结束标记，电子设备可以实时监测当前的输出通道对应的语音信号处理方式得到的语音片段信号是否包括结束标记，若包括结束标记，则确定不存在正在处理的语音片段信号；若不包括结束标记，则确定存在正在处理的语音片段信号。或者，由于语音片段信号是按照顺序逐帧输出的，电子设备可以实时检测当前的输出通道正在输出的帧是否包括结束标记，若包括结束标记，则确定当前输出的语音片段信号已输出完毕，此时不存在正在处理的语音片段信号；若正在输出的帧不包括结束标记，则确定存在正在处理的语音片段信号。

通常，若确定存在正在处理的语音片段信号，则保持当前的输出通道不变，继续处理语音信号并输出语音片段信号。

步骤2042，响应于当前不存在按照当前的输出通道对应的语音处理方式正在处理的语音片段信号，确定当前的语音信号处理状态符合语音信号输出条件。

若当前不存在正在处理的语音片段信号，则可以继续执行步骤205-步骤206，在一个语音片段信号输出完毕后，再根据图像质量信息从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，即在输出完整的语音片段信号后，再切换下次输出的语音片段信号的输出通道，从而保持输出的语音片段信号的完整性，避免在输出语音片段信号的过程中切换语音片段信号的来源对后续语音识别造成的影响。

在一些可选的实现方式中，如图5所示，步骤205包括：

步骤2051，对于图像序列中的每帧图像，确定该图像中是否包含用户的目标部位。

其中，目标部位可以包括但不限于以下至少一项：脸部整体、唇部、眼部、手部等。通常，可以按照基于神经网络的目标检测方法，确定每帧图像中是否包括目标部位。

步骤2052，响应于该图像不包含目标部位，生成表示该图像的图像质量不合格的第一图像质量信息。

步骤2053，响应于该图像包含目标部位，确定目标部位的可识别度。

其中，可识别度可以通过确定目标部位的清晰度、目标部位的面积占图像总面积的比例、目标部位显示的完整程度值等数据确定。

可选的，电子设备可以按照确定图像清晰度的方法，确定图像中的目标部位的清晰度，将清晰度确定为可识别度；电子设备还可以确定目标部位的面积占图像总面积的比例，将该比例确定为可识别度；电子设备还可以确定目标部位显示的完整程度值作为可识别度，目标部位显示的完整程度值可以通过确定目标部位上的关键点的数量得到，即将当前显示的目标部位包括的关键点的数量与目标部位在完整显示时包括的关键点的数量的比值作为完整程度值。

可选的，电子设备还可以根据预设的权重，对上述清晰度、面积比例、完整程度值等数据进行加权求和，得到可识别度。

步骤2054，响应于确定可识别度符合可识别条件，生成表示该图像的图像质量合格的第二图像质量信息。

通常，当可识别度大于或等于预设阈值时，确定符合可识别条件。

步骤2055，响应于确定可识别度不符合可识别条件，生成表示该图像的图像质量不合格的第一图像质量信息。

通常，当可识别度小于预设阈值时，确定不符合可识别条件。

步骤2056，基于得到的第一图像质量信息的数量和第二图像质量信息的数量，确定图像序列的图像质量信息。

可选的，当得到第一图像质量信息的数量大于第二图像质量信息的数量，或第一图像质量信息的数量大于等于预设数量阈值时，表示不合格图像的数量较多，此时可以生成表示图像序列的整体质量不合格的图像质量信息；当得到第一图像质量信息的数量小于或等于第二图像质量信息的数量，或第二图像质量信息的数量大于等于预设数量阈值时，表示合格图像的数量较多，此时可以生成表示图像序列的整体质量合格的图像质量信息。

应当理解，上述步骤2051-步骤2055是针对图像序列中的每帧图像执行的，即针对一帧图像，执行一次步骤2051-步骤2055，步骤2056是在对图像序列中的每帧图像进行图像质量判定后执行的。

可选的，由于图像序列包括的图像是按照顺序实时获取到的，因此，可以在每获取到一帧图像后实时对该图像执行上述步骤2051-步骤2055，在确定语音信号处理状态符合语音信号输出条件时，再执行步骤2056，从而减小确定图像序列的图像质量信息的延时。

本实施例通过对图像序列中的每帧图像进行目标部位检测，以及确定目标部位的可识别度，进而确定每帧图像的图像质量是否合格，从而可以准确地确定图像序列的整体图像质量是否合格，进而提高多模语音识别的准确性。

在一些可选的实现方式中，如图6所示，步骤2053包括：

步骤20531，从该图像中确定包含目标部位的目标区域。

具体地，可以利用目标检测方法，从该图像中确定包含目标部位的目标区域，可选的，目标区域可以是包含目标部位的矩形区域，也从图像中分割出的包含目标部位的轮廓等。

步骤20532，利用预先训练的目标部位质量检测模型，对目标区域进行图像质量检测，得到目标部位的可识别度。

其中，目标部位质量检测模型可以是预先基于机器学习方法训练得到的模型，目标部位质量检测模型的类型可以包括但不限于以下至少一项：关键点检测模型、姿态检测模型、视线检测模型等。

作为示例，当目标部位是人脸时，电子设备可以利用关键点检测模型，检测图像中显示的人脸的关键点，再根据检测出的人脸关键点确定可识别度。例如，电子设备可以步确定检测到的人脸关键点的数量和正常显示的人脸关键点的数量的比值，将该比值确定为表示图像中的显示的人脸的完整程度的可识别度。

作为另一示例，当目标部位是人脸时，电子设备可以利用姿态检测模型，检测人脸的姿态角，再根据姿态角确定可识别度。例如，电子设备可以确定检测到的姿态角与理想情况(即人脸正对图像采集设备的镜头)下的姿态角的偏差的倒数作为可识别度，即偏差越小，可识别度越大。

本实施例通过使用预先训练的目标部位质量检测模型，可以有效利用通过机器学习方法训练得到的高精度的目标部位质量检测模型，从而有助于提高对图像进行质量判定的精度。

示例性装置

图7是本公开一示例性实施例提供的语音信号处理装置的结构示意图。本实施例可应用在电子设备上，如图7所示，语音信号处理装置包括：获取模块701，用于获取目标空间内的语音信号和图像序列；第一提取模块702，用于基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号；第二提取模块703，用于基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号；第一确定模块704，用于确定当前的语音信号处理状态是否符合语音信号输出条件；第二确定模块705，用于响应于语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息；输出模块706，用于基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。

在本实施例中，获取模块701可以获取目标空间内的语音信号和图像序列。其中，目标空间可以是任意类型的空间，例如，车辆内部空间、房间内部空间等。语音信号和图像序列可以是针对目标空间内的用户采集的。

在本实施例中，第一提取模块702可以基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号。

在本实施例中，第二提取模块703可以基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号。

在本实施例中，第一确定模块704可以确定当前的语音信号处理状态是否符合语音信号输出条件。其中，语音信号处理状态可以包括忙状态和闲状态，通常，若当前的语音信号处理状态为闲状态，则可以确定当前的语音信号处理状态符合语音信号输出条件。

在本实施例中，第二确定模块705可以响应于语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息。

在本实施例中，输出模块706可以基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。输出的目标语音片段信号可以进一步被用于进行语音识别，得到识别结果，识别结果可以进一步被用于进行人机交互。

参照图8，图8是本公开另一示例性实施例提供的语音信号处理装置的结构示意图。

在一些可选的实现方式中，第二提取模块703包括：第一确定单元7031，用于基于预设的音频特征提取网络，确定语音信号的音频特征数据；第二确定单元7032，用于基于预设的图像序列特征提取网络，确定图像序列的图像序列特征数据；融合单元7033，用于将音频特征数据和图像序列特征数据合并，并将合并后的数据输入预先训练的特征融合网络，得到掩码数据；提取单元7034，用于基于掩码数据，从语音信号中提取第二语音片段信号。

在一些可选的实现方式中，第一确定模块704包括：第三确定单元7041，用于确定当前是否存在按照当前的输出通道对应的语音处理方式正在处理的语音片段信号；第四确定单元7042，用于响应于当前不存在按照当前的输出通道对应的语音处理方式正在输出的语音片段信号，确定当前的语音信号处理状态符合语音信号输出条件。

在一些可选的实现方式中，第二确定模块705包括：第五确定单元7051，用于对于图像序列中的每帧图像，确定该图像中是否包含用户的目标部位；第一生成单元7052，用于响应于该图像不包含目标部位，生成表示该图像的图像质量不合格的第一图像质量信息；第六确定单元7053，用于响应于该图像包含目标部位，确定目标部位的可识别度；第二生成单元7054，用于响应于确定可识别度符合可识别条件，生成表示该图像的图像质量合格的第二图像质量信息；第三生成单元7055，用于响应于确定可识别度不符合可识别条件，生成表示该图像的图像质量不合格的第一图像质量信息；第七确定单元7056，用于基于得到的第一图像质量信息的数量和第二图像质量信息的数量，确定图像序列的图像质量信息。

在一些可选的实现方式中，第六确定单元7053包括：确定子单元70531，用于从该图像中确定包含目标部位的目标区域；检测子单元70532，用于利用预先训练的目标部位质量检测模型，对目标区域进行图像质量检测，得到目标部位的可识别度。

在一些可选的实现方式中，输出模块706包括：第八确定单元7061，用于响应于图像序列的图像质量信息表示图像序列的整体质量合格，确定第二语音片段信号为目标语音片段信号；第九确定单元7062，用于响应于图像序列的图像质量信息表示图像序列的整体质量不合格，确定第一语音片段信号为目标语音片段信号。

本公开上述实施例提供的语音信号处理装置，通过第一语音处理方式，从语音信号中提取第一语音片段信号，基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号，然后响应于当前的语音信号处理状态符合语音信号输出条件，确定图像序列的图像质量信息，最后基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。本公开的实施例实现了根据拍摄的图像序列的图像质量，自动选择单模语音处理方式提取的第一语音片段信号或多模语音处理方式提取的第二语音片段信号作为语音识别所需的目标语音片段信号，从而在对输出的目标语音片段信号进行识别时，根据图像质量有针对性地选择输出的语音片段信号的来源，进而有助于提高语音识别的准确性。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图9示出了根据本公开实施例的电子设备的框图。

如图9所示，电子设备900包括一个或多个处理器901和存储器902。

处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备900中的其他组件以执行期望的功能。

存储器902可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器901可以运行程序指令，以实现上文的本公开的各个实施例的语音信号处理方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如图像序列、语音信号等各种内容。

在一个示例中，电子设备900还可以包括：输入装置903和输出装置904，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置903可以是相机、麦克风、鼠标、键盘等设备，用于输入图像序列、语音信号、各种命令等。在该电子设备是单机设备时，该输入装置903可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的图像序列、语音信号、各种命令。

该输出装置904可以向外部输出各种信息，包括目标语音片段信号等。该输出装置904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出装置等等。

当然，为了简化，图9中仅示出了该电子设备900中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备900还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音信号处理方法，包括：

获取目标空间内的语音信号和图像序列；

基于所述语音信号，通过第一语音处理方式，从所述语音信号中提取第一语音片段信号；

基于所述语音信号和所述图像序列，通过第二语音处理方式，从所述语音信号中提取第二语音片段信号；

确定当前的语音信号处理状态是否符合语音信号输出条件；

响应于所述语音信号处理状态符合所述语音信号输出条件，确定所述图像序列的图像质量信息；

基于所述图像序列的图像质量信息，从所述第一语音片段信号和所述第二语音片段信号中确定目标语音片段信号，并输出所述目标语音片段信号。

2.根据权利要求1所述的方法，其中，所述基于所述语音信号和所述图像序列，通过第二语音处理方式，从所述语音信号中提取第二语音片段信号，包括：

基于预设的音频特征提取网络，确定所述语音信号的音频特征数据；

基于预设的图像序列特征提取网络，确定所述图像序列的图像序列特征数据；

将所述音频特征数据和所述图像序列特征数据合并，并将合并后的数据输入预先训练的特征融合网络，得到掩码数据；

基于所述掩码数据，从所述语音信号中提取所述第二语音片段信号。

3.根据权利要求1所述的方法，其中，所述确定当前的语音信号处理状态是否符合语音信号输出条件，包括：

确定当前是否存在按照当前的输出通道对应的语音处理方式正在处理的语音片段信号；

响应于当前不存在按照当前的输出通道对应的语音处理方式正在处理的语音片段信号，确定当前的语音信号处理状态符合语音信号输出条件。

4.根据权利要求1所述的方法，其中，所述确定所述图像序列的图像质量信息，包括：

对于所述图像序列中的每帧图像，确定该图像中是否包含用户的目标部位；

响应于该图像不包含所述目标部位，生成表示该图像的图像质量不合格的第一图像质量信息；

响应于该图像包含所述目标部位，确定所述目标部位的可识别度；

响应于确定所述可识别度符合可识别条件，生成表示该图像的图像质量合格的第二图像质量信息；

响应于确定所述可识别度不符合所述可识别条件，生成表示该图像的图像质量不合格的第一图像质量信息；

基于得到的第一图像质量信息的数量和第二图像质量信息的数量，确定所述图像序列的图像质量信息。

5.根据权利要求4所述的方法，其中，所述确定所述目标部位的可识别度，包括：

从该图像中确定包含所述目标部位的目标区域；

利用预先训练的目标部位质量检测模型，对所述目标区域进行图像质量检测，得到所述目标部位的可识别度。

6.根据权利要求1所述的方法，其中，所述基于所述图像序列的图像质量信息，从所述第一语音片段信号和所述第二语音片段信号中确定目标语音片段信号，并输出所述目标语音片段信号，包括：

响应于所述图像序列的图像质量信息表示所述图像序列的整体质量合格，确定所述第二语音片段信号为所述目标语音片段信号；

响应于所述图像序列的图像质量信息表示所述图像序列的整体质量不合格，确定所述第一语音片段信号为所述目标语音片段信号。

7.一种语音信号处理装置，包括：

获取模块，用于获取目标空间内的语音信号和图像序列；

第一提取模块，用于基于所述语音信号，通过第一语音处理方式，从所述语音信号中提取第一语音片段信号；

第二提取模块，用于基于所述语音信号和所述图像序列，通过第二语音处理方式，从所述语音信号中提取第二语音片段信号；

第一确定模块，用于确定当前的语音信号处理状态是否符合语音信号输出条件；

第二确定模块，用于响应于所述语音信号处理状态符合所述语音信号输出条件，确定所述图像序列的图像质量信息；

输出模块，用于基于所述图像序列的图像质量信息，从所述第一语音片段信号和所述第二语音片段信号中确定目标语音片段信号，并输出所述目标语音片段信号。

8.根据权利要求7所述的装置，其中，所述第二提取模块包括：

第一确定单元，用于基于预设的音频特征提取网络，确定所述语音信号的音频特征数据；

第二确定单元，用于基于预设的图像序列特征提取网络，确定所述图像序列的图像序列特征数据；

融合单元，用于将所述音频特征数据和所述图像序列特征数据合并，并将合并后的数据输入预先训练的特征融合网络，得到掩码数据；

提取单元，用于基于所述掩码数据，从所述语音信号中提取所述第二语音片段信号。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的方法。