CN111933174A

CN111933174A - 语音处理方法、装置、设备和系统

Info

Publication number: CN111933174A
Application number: CN202010822240.5A
Authority: CN
Inventors: 路博; 李旭滨
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-08-16
Filing date: 2020-08-16
Publication date: 2020-11-13

Abstract

本发明提供一种语音处理方法、装置、设备和系统，方法包括获取同步采集的音频信号和视频信号；从所有视频信号中提取位于所述音频信号的方向上的目标视频信号；若所述目标视频信号包括发声人员的人脸图像，确定所述发声人员的人脸图像中所述发声人员的唇部状态；若所述唇部状态表示处于说话状态，对所述音频信号进行增强处理，得到增强音频信号；对所述增强音频信号进行语音识别，实现了语音识别前对音频信号的有效性的确认，提高了音频信号的指令，并得到增强音频信号后，对增强音频信号进行语音识别。采用本发明的技术方案，能够提高语音识别的识别结果准确率、降低无效的语音识别的概率。

Description

语音处理方法、装置、设备和系统

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、设备和系统。

背景技术

目前的语音识别技术，都是由语音识别设备对接收的音频信号后，基于接收的音频信号进行直接识别，在整个语音识别过程中采用的主要方法，是通过对输入的音频信号进行分析，得出音频信号中的语音文本内容。

但是，人们传递语音信息的过程常常不可避免会受到外界噪声的干扰，这些干扰可能会导致音频信号质量下降、无效信息的增加、有效信息的滤除等，从而导致语音识别的识别结果准确率较低、无效的语音识别的概率较大。

发明内容

有鉴于此，本发明的目的在于提出一种语音处理方法、装置、设备和系统，以解决现有技术中语音识别的识别结果准确率较低、无效的语音识别的概率较大的问题。

基于上述目的，本发明提供了一种语音处理方法，包括：

获取同步采集的音频信号和视频信号；

从所有视频信号中提取位于所述音频信号的方向上的目标视频信号；

若所述目标视频信号包括发声人员的人脸图像，确定所述发声人员的人脸图像中所述发声人员的唇部状态；

若所述唇部状态表示处于说话状态，对所述音频信号进行增强处理，得到增强音频信号；

对所述增强音频信号进行语音识别。

进一步地，上述所述的语音处理方法中，所述获取同步采集的音频信号和视频信号，包括：

利用通用串行总线USB获取同步采集的音频信号和视频信号。

进一步地，上述所述的语音处理方法，还包括：

若所述唇部状态表示未处于说话状态，滤除所述音频信号。

进一步地，上述所述的语音处理方法中，确定所述发声人员的唇部状态，包括：

根据所述目标视频信号，确定所述发声人员的唇部动作频率；

根据预设的唇部动作频率与唇部状态的关联关系，确定与所述发声人员的唇部特征相对应的唇部状态。

进一步地，上述所述的语音处理方法中，对所述音频信号进行增强处理，得到增强音频信号之前，还包括：

基于预设的行为数据库，确定所述发声人员的行为；

确定所述发声人员的行为属于当前业务场景的可语音识别的行为。

进一步地，上述所述的语音处理方法中，所述确定所述发声人员的行为属于当前业务场景的可语音识别的行为，包括：

将所述发声人员的行为与当前业务场景预设的禁止语音识别的行为进行比对，得到比对结果；

若所述比对结果表示不一致，确定所述发声人员的行为属于当前业务场景的可语音识别的行为。

本发明还提供一种语音处理装置，包括：

获取模块，用于获取同步采集的音频信号和视频信号；

提取模块，用于从所述视频信号中提取位于所述音频信号的方向上的目标视频信号；

确定模块，用于若所述目标视频信号包括发声人员的人脸图像，确定所述发声人员的人脸图像中所述发声人员的唇部状态；

处理模块，用于若所述唇部状态表示处于说话状态，对所述音频信号进行增强处理，得到增强音频信号；

识别模块，用于对所述增强音频信号进行语音识别。

本发明还提供一种语音处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的语音处理方法。

本发明还提供一种语音处理系统，包括语音采集设备、视频采集设备和如上所述的语音处理设备；

所述语音采集设备和所述视频采集设备分别与所述语音处理设备相连；

所述语音采集设备用于采集音频信号；

所述视频采集设备用于采集视频信号；

所述语音处理设备用于实现如上任意一项所述的语音处理方法。

进一步地，上述所述的语音处理系统，所述语音采集设备设置有麦克阵列。

从上面所述可以看出，本发明提供的语音处理方法、装置、设备和系统，通过获取同步采集的音频信号和视频信号，并从视频信号中提取位于音频信号的方向上的目标视频信号后，若检测到目标视频信号包括发声人员的唇部，且发声人员的唇部状态表示处于说话状态，才对音频信号进行增强处理，实现了语音识别前对音频信号的有效性的确认，提高了音频信号的指令，并得到增强音频信号后，对增强音频信号进行语音识别。采用本发明的技术方案，能够提高语音识别的识别结果准确率、降低无效的语音识别的概率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音处理方法实施例的流程图；

图2为本发明的语音处理装置实施例的结构示意图；

图3为本发明的语音处理设备实施例的结构示意图；

图4为本发明的语音处理系统实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1为本发明的语音处理方法实施例的流程图，如图1所示，本实施例的语音处理方法具体可以包括如下步骤：

100、获取同步采集的音频信号和视频信号；

在一个具体实现过程中，可以利用声音采集设备采集周围的音频信号，利用视频采集设备采集周围的视频信号。本实施例中，可以获取同步采集的音频信号和视频信号，也就是说获取的音频信号对应地时间段和视频信号对应的时间段一致。其中，视频采集设备优选为摄像头。

在实际应用中，声音采集设备中若设置单双麦克风可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号，但是，若声源距离麦克风距离较远，并且真实环境存在大量的噪声、多径反射和混响，导致拾取信号的质量下降，这会严重影响语音识别率。另外，单双麦克风接收的音频信号，是由多个声源和环境噪声叠加的，很难实现各个声源的分离，人声噪杂的环境下，无法实现定向拾音，因此，本实施例中优选为在声音采集设备中设置麦克阵列，由麦克阵列采集音频信号。这样，可以采集的不同空间方向的声音信号进行空时处理，实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能，进而提高语音信号处理质量，以提高真实环境下的语音识别率。其中，本实施例中的麦克阵列优选为8个麦克风。

101、从获取的所有视频信号中提取位于音频信号的方向上的目标视频信号；

在一个具体实现过程中，由于外界噪声的干扰，可能为无效音频信号，例如，喇叭广播、周围人讲话、电视中的声音等。为了防止对无效音频信号进行识别，本实施例中，由于采用麦克阵列采集音频信号，因此，可以对声源进行定位，从而确定获取的音频信号的方向。摄像头在拍摄视频信号过程中，可以根据摄像头的视场确定每个视频信号的方向，从而可以从获取的所有视频信号中提取位于音频信号的方向上的目标视频信号。

102、若目标视频信号包括发声人员的人脸图像，确定发声人员的人脸图像中发声人员的唇部状态；

本实施例中，在获取到目标视频信号后，可以对目标视频信号进行处理，以检测目标视频信号中是否存在发声人员的人脸图像，并在检测到发声人员的人脸图像后，进一步确定发声人员的唇部状态。

具体地，可以检测发声人员的嘴部是否存在张开闭合的状态确定发声人员的唇部状态是否为说话状态，但是在实际应用中，发声人员可能会打哈欠等，唇部也会张开闭合，造成误判断，因此，本实施例中，可以根据目标视频信号，确定发声人员的唇部动作频率；例如，可以从目标视频信号中获取多张图像序列，并基于获取的多张图像序列确定发声人员的唇部动作频率。例如，可以根据每张图像序列中唇部的开闭次数，和每张图像的时间间隔，计算出发声人员的唇部动作频率，例如，所有图像的总开闭次数与所有图像的总时间的比值即为发声人员的唇部动作频率。在确定发声人员的唇部动作频率后，可以根据预设的唇部动作频率与唇部状态的关联关系，确定与所述发声人员的唇部特征相对应的唇部状态。例如，发声人员发出每个字的频率通常是固定的，因此，可以将一个频率段中的频率作为说话状态，而该频率段以外的频率作为非说话状态，如打哈欠等。

103、若发声人员的唇部状态表示处于说话状态，对音频信号进行增强处理，得到增强音频信号；

在实际应用中，若发声人员的唇部状态表示处于说话状态，说明获取的音频信号是有效音频信号，可以对音频信号进行增强处理，得到增强音频信号，避免对无效音频信号的识别，提高音频信号的质量。

104、对增强音频信号进行语音识别。

本实施例中，在得到增强音频信号后，可以对增强音频信号进行语音识别，从而提高语音识别的准确率。

本实施例的语音处理方法，通过获取同步采集的音频信号和视频信号，并从视频信号中提取位于音频信号的方向上的目标视频信号后，若检测到目标视频信号包括发声人员的唇部，且发声人员的唇部状态表示处于说话状态，才对音频信号进行增强处理，实现了语音识别前对音频信号的有效性的确认，提高了音频信号的指令，并得到增强音频信号后，对增强音频信号进行语音识别。采用本发明的技术方案，能够提高语音识别的识别结果准确率、降低无效的语音识别的概率。

进一步地，上述实施例中，为了适应各种语音识别设备的各种主控平台，本实施例中优选为主控平台与语音采集设备之间，以及主控平台与视频采集设备之间均采用通用串行总线(Universal Serial Bus，USB)进行数据交互，以解决采用I2S总线只适用于某一主控平台的缺陷，这样，可以利用USB获取同步采集的音频信号和视频信号。本实施例中，主控平台优选为rk3288型号的芯片。

在实际应用中，若发声人员的唇部状态表示未处于说话状态，本实施例中，可以人为该音频信号为无效音频信号，并滤除该音频信号，不再对其进行语音识别。

在一个具体实现过程中，虽然结合位于采集的音频信号的方向上的目标视频信号能够在语音识别前对音频信号的有效性进行判断，但是，麦克阵列可能会获取多个方向的音频信号，也就说可能存在多个发声人员，这样，可能确定存在多个有效音频信号，但实际中，多个有效音频信号中也只有部分是需要识别的，例如，在视频会议中，发言人的音频信号是必须识别的，但是在发言人发言过程中，可能存在部分人私下讨论一些内容，无意中可能会发出声音，该声音对应的音频信号也能够被采集到，但是这些音频信号实际上是不需要识别的，因此，为了解决上述技术问题，本发明还提供了以下技术方案。

具体地，本实施例中，还可以利用机器学习技术，对目标视频信号中发声人员的行为进行识别，以判断发声人员的行为是否属于当前业务场景的可语音识别的行为。例如，将发声人员的行为与当前业务场景预设的禁止语音识别的行为进行比对，得到比对结果，若比对结果表示不一致，确定发声人员的行为属于当前业务场景的可识别行，若比对结果表示一致，确定发声人员的行为不属于当前业务场景的可识别行。例如，在视频会议中，可以设置交头接耳行为为禁止语音识别的行为，这样，若检测到发声人员的行为与交头接耳行为一致，可以将存在交头接耳行为对应的发声人员的音频信号滤除，提高了语音处理的准确性，在发声人员的行为与交头接耳行为不一致时，确定发声人员的行为属于当前业务场景的可语音识别的行为。例如，可以预先构建一个行为识别模型，将采集的视频画面输入该行为识别模型后，对视频画面进行识别，从而确定视频画面中说话人的行为。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的语音处理装置实施例的结构示意图，如图2所示，本实施例的语音处理装置包括获取模块20、提取模块21、确定模块22、处理模块23和识别模块24。

获取模块20，用于获取同步采集的音频信号和视频信号；

提取模块21，用于从所有视频信号中提取位于音频信号的方向上的目标视频信号；

确定模块22，用于若目标视频信号包括发声人员的人脸图像，确定发声人员的人脸图像中发声人员的唇部状态；

具体地，可以根据目标视频信号，确定发声人员的唇部动作频率；根据预设的唇部动作频率与唇部状态的关联关系，确定与发声人员的唇部特征相对应的唇部状态。

处理模块23，用于若唇部状态表示处于说话状态，对音频信号进行增强处理，得到增强音频信号；

识别模块24，用于对增强音频信号进行语音识别。

本实施例的语音处理装置，通过获取同步采集的音频信号和视频信号，并从视频信号中提取位于音频信号的方向上的目标视频信号后，若检测到目标视频信号包括发声人员的唇部，且发声人员的唇部状态表示处于说话状态，才对音频信号进行增强处理，实现了语音识别前对音频信号的有效性的确认，提高了音频信号的指令，并得到增强音频信号后，对增强音频信号进行语音识别。采用本发明的技术方案，能够提高语音识别的识别结果准确率、降低无效的语音识别的概率。

进一步地，上述实施例中，获取模块20，可以利用通用串行总线USB获取同步采集的音频信号和视频信号。

若唇部状态表示未处于说话状态，滤除音频信号。

处理模块23，还用于若唇部状态表示未处于说话状态，滤除音频信号。

在一个具体实现过程中，处理模块23，还用于基于预设的行为数据库，确定发声人员的行为；

确定发声人员的行为属于当前业务场景的可语音识别的行为。

具体地，将发声人员的行为与当前业务场景预设的禁止语音识别的行为进行比对，得到比对结果；若比对结果表示不一致，确定发声人员的行为属于当前业务场景的可语音识别的行为。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图3为本发明的语音处理设备实施例的结构示意图，如图3所示，本实施例的通行设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

图4为本发明的语音处理系统实施例的结构示意图，如图4所示，本实施例的语音处理系统包括语音采集设备40、视频采集设备41和上述实施例的语音处理设备42；

语音采集设备40和视频采集设备41分别与语音处理设备42相连；

语音采集设备40用于采集音频信号；其中，语音采集设备40设置有麦克阵列。

视频采集设备41用于采集视频信号；

语音处理设备42用于实现上述实施例的语音处理方法。

本发明还提供一种存储介质，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施例的语音处理方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，包括：

获取同步采集的音频信号和视频信号；

对所述增强音频信号进行语音识别。

2.根据权利要求1所述的语音处理方法，其特征在于，所述获取同步采集的音频信号和视频信号，包括：

利用通用串行总线USB获取同步采集的音频信号和视频信号。

3.根据权利要求1所述的语音处理方法，其特征在于，还包括：

若所述唇部状态表示未处于说话状态，滤除所述音频信号。

4.根据权利要求1所述的语音处理方法，其特征在于，确定所述发声人员的唇部状态，包括：

5.根据权利要求1所述的语音处理方法，其特征在于，对所述音频信号进行增强处理，得到增强音频信号之前，还包括：

基于预设的行为数据库，确定所述发声人员的行为；

6.根据权利要求5所述的语音处理方法，其特征在于，所述确定所述发声人员的行为属于当前业务场景的可语音识别的行为，包括：

7.一种语音处理装置，其特征在于，包括：

获取模块，用于获取同步采集的音频信号和视频信号；

识别模块，用于对所述增强音频信号进行语音识别。

8.一种语音处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的语音处理方法。

9.一种语音处理系统，其特征在于，包括语音采集设备、视频采集设备和如权利要求8所述的语音处理设备；

所述语音采集设备用于采集音频信号；

所述视频采集设备用于采集视频信号；

所述语音处理设备用于实现如权利要求1至6任意一项所述的语音处理方法。

10.根据权利要求9所述的语音处理系统，其特征在于，所述语音采集设备设置有麦克阵列。