CN111326159B

CN111326159B - 一种语音识别方法、装置、系统

Info

Publication number: CN111326159B
Application number: CN202010160564.7A
Authority: CN
Inventors: 刘兵兵; 包飞; 刘淼泽; 樊锅旭; 倪合强
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-07-25
Anticipated expiration: 2040-03-10
Also published as: CN111326159A

Abstract

本申请实施例公开一种语音识别方法、装置、系统，方法包括：对接收到的由麦克风阵列系统发送的音频数据进行回声消除；将回声消除后得到的周围声源数据输入至一语音识别模型中以进行语音识别，同时根据一信噪比计算方法对周围声源数据进行信噪比计算；对语音识别结果和信噪比计算结果进行判断，当语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时，将语音识别结果和信噪比计算结果进行加权处理；判断加权结果是否大于预设值，当大于时，进行声源定位并根据定位结果生成语音提示并将语音提示发送至耳机。本申请可以识别周围是否有他人在对耳机佩戴者讲话，从而进行提醒，提高了沟通效率。

Description

一种语音识别方法、装置、系统

技术领域

本发明属于声学领域，尤其涉及一种语音识别方法、装置、系统。

背景技术

由于耳机具有方便使用、自由沟通、提高效率等优点，已经成为许多“移动群族”日常生活中不可缺少的沟通工具。但随着日常生活的长期使用，使用耳机造成的“交流误解”变成了人们日常生活中的痛点。其具体表现在，当使用者佩戴耳机进行聊天时，容易沉浸在电话中，因此会对旁人视而不见，当周围人有意沟通时，由于使用者的主要集中在聊天内容上，无法注意到他人的话语，即他人很难“唤醒”使用者，容易造成场面尴尬、产生误会，降低沟通效率。

发明内容

为了解决现有技术的问题，本发明提出了一种语音识别方法、装置、系统，本方法通过对周围声源进行语音识别和信噪比计算，当语音识别结果和信噪比计算结果满足预设条件时，即表明周围有人在与耳机佩戴者进行沟通，从而提示耳机佩戴者，提高了沟通效率，减少沟通成本和不必要的误会，让人与人之间的交流更加和谐。

本发明实施例提供的具体技术方案如下：

第一方面，本发明提供一种语音识别方法，所述方法包括：

对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据；

将所述周围声源数据输入至一语音识别模型中以进行语音识别，同时根据一信噪比计算方法对所述周围声源数据进行信噪比计算；

对语音识别结果和信噪比计算结果进行判断，当所述语音识别结果与预存储的常用沟通用语文本数据的至少一种相同并且信噪比计算结果大于信噪比阈值时，将所述语音识别结果和信噪比计算结果进行加权处理；

判断加权结果是否大于预设值，当大于时，获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息；

根据所述目标声源位置信息生成语音提示并将所述语音提示发送至耳机。

优选的，在根据一信噪比计算方法对所述周围声源数据进行信噪比计算之前，所述方法还包括：

对所述周围声源数据进行傅里叶变换以得到周围声源数据的能量；

根据预设的能量阈值，获取大于所述能量阈值的能量所对应的周围声源数据。

优选的，获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息具体包括：

在所述周围声源数据中确定与所述加权结果相对应的目标声源数据，所述目标声源数据由安装在左、右两个耳机上的麦克风阵列系统发送得到；

对所述目标声源数据进行声源定位以得到目标声源位置信息。

优选的，所述语音识别模型的获取方法包括：

构建样本语音库；所述样本语音库为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与所述历史语音数据相对应的历史文本数据，所述历史语音数据包括常用沟通用语语音数据，所述历史文本数据包括常用沟通用语文本数据，所述常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语；

根据所述样本语音库对一基础模型进行训练以得到所述语音识别模型。

优选的，所述方法还包括：

根据一信噪比计算方法对所述样本语音库中的每一条历史语音数据进行信噪比计算，得到历史信噪比值；

根据所述历史信噪比值确定信噪比阈值。

优选的，在对音频数据进行回声消除得到周围声源数据后，所述方法还包括：

对所述周围声源数据进行降噪处理。

第二方面，本发明提供一种语音识别装置，其特征在于，包括：

分离模块，用于对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据；

处理模块，用于将所述周围声源数据输入至一语音识别模型中以进行语音识别，同时根据一信噪比计算方法对所述周围声源数据进行信噪比计算；以及用于对语音识别结果和信噪比计算结果进行判断，当所述语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时，将所述语音识别结果和信噪比计算结果进行加权处理；

判断模块，用于判断加权结果是否大于预设值；

定位模块，用于当加权结果大于预设值时，获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息；

生成模块，用于根据所述目标声源位置信息生成语音提示；

发送模块，用于将所述语音提示发送至耳机。

优选的，所述处理模块还用于：

在根据一信噪比计算方法对所述周围声源数据进行信噪比计算之前，对所述周围声源数据进行傅里叶变换以得到周围声源数据的能量；

优选的，所述定位模块具体用于：

优选的，所述装置还包括：

建模模块，用于构建样本语音库；所述样本语音库为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与所述历史语音数据相对应的历史文本数据，所述历史语音数据包括常用沟通用语语音数据，所述历史文本数据包括常用沟通用语文本数据，所述常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语；

以及根据所述样本语音库对一基础模型进行训练以得到所述语音识别模型。

优选的，所述装置还包括：

预处理模块，用于根据一信噪比计算方法对所述样本语音库中的每一条历史语音数据进行信噪比计算，得到历史信噪比值；

以及用于根据所述历史信噪比值确定信噪比阈值。

优选的，所述装置还包括：

滤波模块，用于在对音频数据进行回声消除得到周围声源数据后，对所述周围声源数据进行降噪处理。

第三方面，本发明提供一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

对语音识别结果和信噪比计算结果进行判断，当所述语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时，将所述语音识别结果和信噪比计算结果进行加权处理；

本发明实施例具有如下有益效果：

1、本发明对麦克风阵列系统发送的音频数据进行回声消除后得到的周围声源数据进行语音识别和信噪比计算，当语音识别结果以及信噪比计算结果满足条件时，进行声源定位，从而可以具体定位到声源方向，便于耳机佩戴者确定周围发声者的位置以实现沟通，提高了沟通效率，减少沟通成本和不必要的误会，让人与人之间的交流更加和谐；

2、本发明在计算周围声源数据的信噪比之前，先获取周围声源数据的能量，从而得到高于能量阈值的能量所对应的周围声源数据，如此，可以进一步保证周围声源数据的有效性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的一种语音识别方法的流程图；

图2是本申请实施例二提供的一种语音识别装置的结构示意图；

图3是本申请实施例三提供的一种计算机系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本申请提供一种语音识别方法，可以应用于一智能终端(如：手机)上，智能终端通过网络与麦克风阵列系统及耳机通信，其中，耳机可以为蓝牙耳机，也可以为有线耳机；麦克风阵列系统为两个，可以分别安装在左、右两个耳机上，从而实时获取预设范围内(如：距离耳机佩戴者3m内)的声源数据，并将声源数据发送至智能终端，智能终端对接收到的数据进行处理，具体如图1所示，包括：

S11、对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据。

在通话过程中，通常前几秒(如：前3秒)的时间都是打招呼用语，因此该段时间内麦克风阵列系统采集到的音频数据对于后续的语音识别意义不大，基于此，在本方案中，较优的，上述音频数据为通话时长超过预设值后麦克风阵列采集到的音频数据。

即，智能终端在对接收到的由麦克风阵列系统发送的音频数据进行回声消除之前，还包括：

判断是否存在通话请求，若存在，则获取通话开始时刻，同时向麦克风阵列系统发送音频数据采集请求以使麦克风阵列系统采集音频数据并将采集到的音频数据发送至智能终端；

获取当前通话时刻，根据通话开始时刻和当前通话时刻计算通话时长；

将通话时长与预设值进行比较，当通话时长超过预设值时，对通话时长超过预设值后麦克风阵列采集到的音频数据进行回声消除以得到周围声源数据。

在进行回声消除后，即将耳机佩戴者的说话声等进行过滤，得到周围声源数据。

在回声消除后，本方案还可以包括：

对周围声源数据进行降噪处理。

从而，可以对周围环境噪声进行过滤，得到更为纯净的周围声源数据。

S12、将周围声源数据输入至一语音识别模型中以进行语音识别，同时根据一信噪比计算方法对周围声源数据进行信噪比计算。

其中，上述语音识别模型的获取方法包括：

1、构建样本语音库；

其中，样本语音库为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与历史语音数据相对应的历史文本数据；

其中，历史语音数据包括常用沟通用语语音数据，历史文本数据包括常用沟通用语文本数据；常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语、周围用户与目标用户之间的打招呼用语等。

示例性的，如获取距离耳机佩戴者1米至3米范围内，前、后、左、右四个方位的不同周围用户相对于耳机佩戴者所发出的语音。

2、根据样本语音库对一基础模型进行训练以得到语音识别模型。

如此，便可使用上述语音识别模型来进行语音识别，从而判断周围有没有人在跟耳机佩戴者说话。

此外，信噪比为信号的平均功率和噪声的平均功率之比，上述信噪比计算方法可以为本领域中常用的信噪比计算公式，如：信噪比(dB)＝10*log₁₀(S/N)，其中S为信号的平均能量，N为噪声的平均能量。

根据上述信噪比计算公式，便可对周围声源数据进行计算，从而得到不同的声源的信噪比值。

为了进一步获得有效的周围声源数据，便于后续计算，在在根据一信噪比计算方法对所述周围声源数据进行信噪比计算之前，本方案还可以包括：

1、对周围声源数据进行傅里叶变换以得到周围声源数据的能量；

2、根据预设的能量阈值，获取大于能量阈值的能量所对应的周围声源数据。

如此，便能对周围声源数据进行初步筛选，获取有效的声源，随后再对有效的声源进行信噪比计算，可以进一步提高有效声源获取的准确度。

S13、对语音识别结果和信噪比计算结果进行判断，当语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时，将语音识别结果和信噪比计算结果进行加权处理。

其中，信噪比阈值的确定方法如下：

1、根据一信噪比计算方法对样本语音库中的每一条历史语音数据进行信噪比计算，得到历史信噪比值；

同样的，可以使用上述信噪比计算公式进行计算，得到历史信噪比值。

2、根据历史信噪比值确定信噪比阈值。

具体的，对历史信噪比值进行归纳、统计，从而确定一信噪比阈值。

将语音识别结果和信噪比计算结果进行加权处理的目的在于：若某一声源数据的信噪比计算结果大于信噪比阈值，但是其对应的语音识别结果并不满足常用沟通用语文本数据中的至少一种(如周围人用方言对耳机佩戴者讲话时)，为了平衡此类场景，需要对语音识别结果和信噪比计算结果进行加权处理，从而达到一个较优的识别效果。

S14、判断加权结果是否大于预设值，当大于时，获取与加权结果相对应的目标声源数据并根据目标声源数据计算目标声源位置信息。

当加权结果大于预设值时，即表明周围有人在对耳机佩戴者讲话，此时，还需要进一步对声源进行定位，具体包括如下步骤：

1、在周围声源数据中确定与加权结果相对应的目标声源数据，目标声源数据包括由安装在左、右两个耳机上的麦克风阵列系统发送得到；

2、对目标声源数据进行声源定位以得到目标声源位置信息。

具体的，上述步骤包括：

计算左、右两个耳机上的麦克风阵列系统发送的目标声源数据之间的时间差；

根据时间差计算得到目标声源位置信息。

S15、根据目标声源位置信息生成语音提示并将语音提示发送至耳机。

此时便可生成语音提示并发送给耳机，耳机进行提醒，本方案中，声源定位可以为“前”、“后”、“左”、“右”四个方向。因此提醒内容可以为：“右方有人找你”，耳机佩戴者便可及时进行响应。

通过上述方法，便能定位到声源的具体位置，从而使得沟通更通畅。

根据上述语音识别方法对不同场景进行了测试，测试结果如下表1所示：

表1距离佩戴耳机用户1m时判断有人朝用户说话的准确率

其中，上述用户说话的准确率由对语音识别结果和信噪比计算结果进行加权处理后的加权结果与实际语音进行对比统计后所得到。

表2距离佩戴耳机用户1m时声源定位准确率

其中，上述声源定位准确率由根据目标声源数据计算得到的目标声源位置信息与实际的声源位置信息进行对比统计后得到。

本方案通过对麦克风阵列系统发送的音频数据进行回声消除后得到的周围声源数据进行语音识别和信噪比计算，当语音识别结果以及信噪比计算结果满足条件时，实现声源定位，即判断得出周围有人在对耳机佩戴者进行讲话，如此便能及时提醒耳机佩戴者，提高了沟通效率，减少沟通成本和不必要的误会，让人与人之间的交流更加和谐；

更进一步地，本方案在计算周围声源数据的信噪比之前，先获取周围声源数据的能量，从而得到高于能量阈值的能量所对应的周围声源数据，如此，可以进一步保证周围声源数据的有效性。

实施例二

如图2所示，本申请还提供一种语音识别装置，包括：

分离模块21，用于对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据；

处理模块22，用于将周围声源数据输入至一语音识别模型中以进行语音识别，同时根据一信噪比计算方法对周围声源数据进行信噪比计算；以及用于对语音识别结果和信噪比计算结果进行判断，当语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时，将语音识别结果和信噪比计算结果进行加权处理；

判断模块23，用于判断加权结果是否大于预设值；

定位模块24，用于当加权结果大于预设值时，获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息；

生成模块25，用于判断加权结果是否大于预设值，当大于时，生成语音提示；

发送模块26，用于将语音提示发送至耳机。

优选的，上述处理模块22还用于：

在根据一信噪比计算方法对周围声源数据进行信噪比计算之前，对周围声源数据进行傅里叶变换以得到周围声源数据的能量；

根据预设的能量阈值，获取大于能量阈值的能量所对应的周围声源数据。

优选的，上述定位模块24具体用于：

在所述周围声源数据中确定与加权结果相对应的目标声源数据，目标声源数据由安装在左、右两个耳机上的麦克风阵列系统发送得到；

对目标声源数据进行声源定位以得到目标声源位置信息。

优选的，上述装置还包括：

建模模块27，用于构建样本语音库；样本语音库为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与历史语音数据相对应的历史文本数据，历史语音数据包括常用沟通用语语音数据，历史文本数据包括常用沟通用语文本数据，常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语；

以及根据样本语音库对一基础模型进行训练以得到语音识别模型。

优选的，上述装置还包括：

预处理模块28，用于根据一信噪比计算方法对样本语音库中的每一条历史语音数据进行信噪比计算，得到历史信噪比值；

以及用于根据历史信噪比值确定信噪比阈值。

优选的，上述装置还包括：

滤波模块29，用于在对音频数据进行回声消除得到周围声源数据后，对周围声源数据进行降噪处理。

实施例三

本申请还提供一种计算机系统，包括：

一个或多个处理器；以及

将周围声源数据输入至一语音识别模型中以进行语音识别，同时根据一信噪比计算方法对周围声源数据进行信噪比计算；

对语音识别结果和信噪比计算结果进行判断，当语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时，将语音识别结果和信噪比计算结果进行加权处理；

判断加权结果是否大于预设值，当大于时，获取与加权结果相对应的目标声源数据并根据目标声源数据计算目标声源位置信息；

根据目标声源位置信息生成语音提示并将语音提示发送至耳机。

其中，图3示例性的展示出了计算机系统的架构，具体可以包括处理器32，视频显示适配器34，磁盘驱动器36，输入/输出接口38，网络接口310，以及存储器312。上述处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310，与存储器312之间可以通过通信总线314进行通信连接。

其中，处理器32可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器312可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器312可以存储用于控制计算机系统30运行的操作系统316，用于控制计算机系统的低级别操作的基本输入输出系统(BIOS)318。另外，还可以存储网页浏览器320，数据存储管理系统322等等。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器312中，并由处理器32来调用执行。

输入/输出接口38用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口310用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

通信总线314包括一通路，在设备的各个组件(例如处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310，与存储器312之间传输信息。

另外，该计算机系统还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310，存储器312，通信总线314等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务端，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。另外，上述实施例提供的计算机系统、语音识别装置与语音识别方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

对语音识别结果和信噪比计算结果进行判断，当所述语音识别结果并不满足预存储的常用沟通用语文本数据中的至少一种并且信噪比计算结果大于信噪比阈值时，将所述语音识别结果和信噪比计算结果进行加权处理；

2.根据权利要求1所述的方法，其特征在于，在根据一信噪比计算方法对所述周围声源数据进行信噪比计算之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息具体包括：

4.根据权利要求1所述的方法，其特征在于，所述语音识别模型的获取方法包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据所述历史信噪比值确定信噪比阈值。

6.根据权利要求1～5任意一项所述的方法，其特征在于，在对音频数据进行回声消除得到周围声源数据后，所述方法还包括：

对所述周围声源数据进行降噪处理。

7.一种语音识别装置，其特征在于，包括：

处理模块，用于将所述周围声源数据输入至一语音识别模型中以进行语音识别，同时根据一信噪比计算方法对所述周围声源数据进行信噪比计算；以及用于对语音识别结果和信噪比计算结果进行判断，当所述语音识别结果并不满足预存储的常用沟通用语文本数据中的至少一种并且信噪比计算结果大于信噪比阈值时，将所述语音识别结果和信噪比计算结果进行加权处理；

判断模块，用于判断加权结果是否大于预设值；

生成模块，用于根据所述目标声源位置信息生成语音提示；

发送模块，用于将所述语音提示发送至耳机。

8.根据权利要求7所述的装置，其特征在于，所述处理模块还用于：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.一种计算机系统，其特征在于，包括：

一个或多个处理器；以及