CN111599364A

CN111599364A - 语音识别降噪方法、系统、移动终端及存储介质

Info

Publication number: CN111599364A
Application number: CN202010257503.2A
Authority: CN
Inventors: 肖龙源; 李稀敏; 刘晓葳; 谭玉坤; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-08-28

Abstract

本发明适用于语音识别技术领域，提供了一种语音识别降噪方法、系统、移动终端及存储介质，该方法包括：当接收到用户发出的语音采集指令时，对用户进行语音采集，得到语音音频信息；对用户进行环境识别得到发声环境，对发声环境进行声源识别，得到噪声声源；获取噪声声源的运行状态，根据运行状态查询噪声数据库中的噪声数据，得到目标噪声数据；根据目标噪声数据对语音音频信息进行降噪处理，对降噪后的语音音频信息进行语音识别，得到语音文字。本发明通过基于噪声声源的运行状态进行噪声数据查询的设计，有效的降低了环境中设备噪声对语音识别的干扰，提高了语音识别过程中的降噪效率。

Description

语音识别降噪方法、系统、移动终端及存储介质

技术领域

本发明属于语音识别技术领域，尤其涉及一种语音识别降噪方法、系统、移动终端及存储介质。

背景技术

语音识别技术简要来说就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括声音特征提取技术、模式匹配准则及模型训练技术等方面。目前语音识别技术已经得到快速的发展以及广泛的使用。但是，在环境噪声较大的环境下，例如在体育场等嘈杂环境下，语音识别技术的应用却受到了很大的限制，因此，语音识别过程中的降噪方法越来越受人们所重视。

现有的语音识别降噪方法使用过程中，均是通过采用降噪器的方式实现语音降噪，但由于降噪器是针对指定语音音频进行降噪，进而导致其语音降噪效率低下，降低了语音识别的准确性。

发明内容

本发明实施例的目的在于提供一种语音识别降噪方法、系统、移动终端及存储介质，旨在解决现有的语音识别降噪方法中，由于采用降噪器进行语音降噪所导致的语音降噪效率低下的问题。

本发明实施例是这样实现的，一种语音识别降噪方法，所述方法包括：

当接收到用户发出的语音采集指令时，对所述用户进行语音采集，得到语音音频信息；

对所述用户进行环境识别得到发声环境，并对所述发声环境进行声源识别，得到噪声声源；

获取所述噪声声源的运行状态，并根据所述运行状态查询噪声数据库中的噪声数据，得到目标噪声数据；

根据所述目标噪声数据对所述语音音频信息进行降噪处理，并对降噪后的所述语音音频信息进行语音识别，得到语音文字。

更进一步的，所述对所述用户进行环境识别得到发声环境，并对所述发声环境进行声源识别，得到噪声声源步骤包括：

对所述用户当前所处环境进行图像拍摄，得到环境图像，并对所述环境图像中的设备图像进行识别，得到环境设备；

判断所述环境设备是否为噪声设备；

当判断到所述环境设备是所述噪声设备时，将所述环境设备设置为噪声声源。

更进一步的，所述获取所述噪声声源的运行状态，并根据所述运行状态查询噪声数据库中的噪声数据的步骤包括：

获取所述噪声声源在所述环境图像中的运行图像，并根据所述运行图像获取所述噪声声源的档位信息；

获取所述噪声声源对应所述环境设备的设备名称，并将所述设备名称和所述档位信息与所述噪声数据库进行匹配，以得到所述目标噪声数据。

更进一步的，所述对所述用户进行环境识别得到发声环境的步骤包括：

对所述用户进行位置定位，得到定位坐标，并根据所述定位坐标查询目标信号发射源；

获取与所述目标信号发射源之间的信号强度，并根据所述信号强度查询高度坐标；

将所述定位坐标和所述高度坐标与本地预存储的环境数据库进行匹配，以得到所述发声环境。

获取所述运行状态中存储的档位信息，并获取所述噪声声源与拾音器之间的采集距离；

将所述档位信息和所述采集距离与所述噪声数据库进行匹配，以得到所述目标噪声数据。

更进一步的，所述对所述用户进行语音采集的步骤之后，所述方法还包括：

判断第一预设时间内采集到的语音音量是否持续小于音量阈值；

当判断到所述第一预设时间内采集到的所述语音音量持续小于所述音量阈值时，停止所述语音音频信息的采集。

本发明实施例的另一目的在于提供一种语音识别降噪系统，所述系统包括：

语音采集模块，用于当接收到用户发出的语音采集指令时，对所述用户进行语音采集，得到语音音频信息；

声源识别模块，用于对所述用户进行环境识别得到发声环境，并对所述发声环境进行声源识别，得到噪声声源；

噪声数据查询模块，用于获取所述噪声声源的运行状态，并根据所述运行状态查询噪声数据库中的噪声数据，得到目标噪声数据；

语音降噪模块，用于根据所述目标噪声数据对所述语音音频信息进行降噪处理，并对降噪后的所述语音音频信息进行语音识别，得到语音文字。

更进一步的，所述声源识别模块还用于：

判断所述环境设备是否为噪声设备；

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的语音识别降噪方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的语音识别降噪方法的步骤。

本发明实施例，通过对所述发声环境进行声源识别的设计，能有效的获取到用户当前所处环境中的噪声声源，进而能针对性的进行语音降噪，提高了语音降噪效率，通过基于噪声声源的运行状态进行噪声数据查询的设计，有效的降低了环境中设备噪声对语音识别的干扰，提高了语音识别过程中的降噪效率。

附图说明

图1是本发明第一实施例提供的语音识别降噪方法的流程图；

图2是本发明第二实施例提供的语音识别降噪方法的流程图；

图3是本发明第三实施例提供的语音识别降噪方法的流程图；

图4是本发明第四实施例提供的语音识别降噪系统的结构示意图；

图5是本发明第五实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的语音识别降噪方法的流程图，包括步骤：

步骤S10，当接收到用户发出的语音采集指令时，对所述用户进行语音采集，得到语音音频信息；

其中，该语音采集指令可以采用按键指令、语音指令或无线信号指令的方式进行传输，该语音识别降噪方法可以应用于任意具有语音控制功能的设备，例如智能家居、手机、平板或服务器等设备；

具体的，本实施例中该语音采集指令采用语音指令的方式进行传输控制，即当接收到携带预设语音标识的语音指令时，则判定接收到了用户发出的语音采集指令，并通过发送控制信号至拾音器，以对该用户进行语音采集，得到对应语音音频信息；

步骤S20，对所述用户进行环境识别得到发声环境，并对所述发声环境进行声源识别，得到噪声声源；

其中，该发声环境可以通过采用图像拍摄和位置定位等方式进行环境识别，以得到对应的发声环境，且通过对该发声环境进行声源识别的设计，以获取用户当前所处的发声环境中的噪声声源，进而使得后续能针对性的进行语音降噪，提高了语音识别的准确性；

例如，当该发声环境为用户的住所客厅时，则通过对该住所客厅中的发声设备进行识别，以确定该噪声声源；例如当该发声环境为用户公司时，则通过对用户住所公司中的发声设备进行识别，以确定该噪声声源，优选的，在其他实施例中该发声环境还可以任意室内或室外场所；

优选的，该步骤中，被识别到的噪声声源可以为任意具有发声功能的设备，或发声设备的发声音量大于预设音量时，则将该发声设备判定为噪声声源；

步骤S30，获取所述噪声声源的运行状态，并根据所述运行状态查询噪声数据库中的噪声数据，得到目标噪声数据；

其中，该噪声数据库中存储有所有噪声声源处于不同运行状态下所对应发出的噪声数据，该运行状态包括运行功率、运行模式或运行档位中的至少一个参数信息，由于噪声声源处于不同运行状态下所发出的噪声不相同，因此该步骤中，通过获取该噪声声源的运行状态，以对应查询当前噪声声源所发出的目标噪声数据；

优选的，该步骤中所述发声环境中的噪声声源的数量可以为多个，例如当该发声环境为用户的住所客厅时，该噪声声源可以为电扇、空调、电脑或冰箱等设备，当该发声环境为用户的住所厨房时，则该噪声声源可以为水龙头、抽油烟机或排风扇等设备，且该步骤中，通过获取所有噪声声源的运行状态，以查询对应目标噪声数据；

步骤S40，根据所述目标噪声数据对所述语音音频信息进行降噪处理，并对降噪后的所述语音音频信息进行语音识别，得到语音文字；

其中，可以基于语音音频比对的方式进行该目标噪声数据与语音音频信息之间的降噪处理，即通过采用频谱比对、功率谱比对或倒频谱等比对方式，以进行该目标噪声数据与语音音频信息之间的重复音频信息的查询，并基于重复音频信息查询结果去处该语音音频信息中的重复音频，以达到对该语音音频信息降噪的效果；

优选的，当完成该语音音频信息的降噪处理后，将降噪后的语音音频信息输出语音识别模型，以输出该语音文字，并根据该语音文字对应执行指令操作，例如当该语音识别模型输出的语音文字为“打开客厅空调”时，则控制用户的住所客厅中的空调开启；

本实施例，通过对所述发声环境进行声源识别的设计，能有效的获取到用户当前所处环境中的噪声声源，进而能针对性的进行语音降噪，提高了语音降噪效率，通过基于噪声声源的运行状态进行噪声数据查询的设计，有效的降低了环境中设备噪声对语音识别的干扰，提高了语音识别过程中的降噪效率。

实施例二

请参阅图2，是本发明第二实施例提供的语音识别降噪方法的流程图，包括步骤：

步骤S11，当接收到用户发出的语音采集指令时，对所述用户进行语音采集，得到语音音频信息；

步骤S21，对所述用户当前所处环境进行图像拍摄，得到环境图像，并对所述环境图像中的设备图像进行识别，得到环境设备；

其中，可以通过控制摄像头对该用户所处环境进行拍摄的设计，以获取该环境图像，优选的，该步骤中，摄像头可以采用全景镜头或通过控制摄像头进行旋转，以获取全景状态下的环境图像，进而有效的提高了该环境图像中设备图像识别的准确性；

该步骤中，通过对该环境图像中的设备图像进行识别的设计，以分析用户当前所处环境中所有的环境设备，以保障后续噪声声源识别的准确性，例如当用户当前所处环境为住所客厅时，则通过摄像头对该住所客厅进行拍摄，得到环境图像，并对该环境图像进行图像识别，以分析该环境图像中的环境设备；

具体的，该步骤中，可以通过将该环境图像与本地预存储的设备图像数据库进行图像匹配，以分析获取该环境图像中的环境设备，该环境设备可以为电扇、空调、电脑或冰箱等设备；

此外，该步骤中，所述对所述用户进行环境识别得到发声环境的步骤还可以为：

将所述定位坐标和所述高度坐标与本地预存储的环境数据库进行匹配，以得到所述发声环境；

其中，通过将该定位坐标和高度坐标与环境数据库进行匹配以获取发声环境得设计，以防止当用户处于楼层建筑中所导致的环境图像获取错误的现象，优选的，本实施例中，当判断到该定位坐标未设置有对应的目标信号发射源时，则判定用户当前处于底层建筑中，即通过该定位坐标就可进行对应发声环境的获取，上述方法通过基于位置定位的方式进行该发声环境的获取，有效的提高了该发声环境的获取效率；

步骤S31，判断所述环境设备是否为噪声设备；

其中，判断所述环境设备是否为噪声设备所采用的判断条件可以根据需求进行设置，例如该判断条件可以为，判断该环境设备是否为预设设备，当判断当该环境设备为预设设备时，则判定该环境设备为噪声设备；

优选的，该判断条件还可以设置为，判断该环境设备是否处于开启状态，当判断到该环境设备处于开启状态时，则判定该环境设备为噪声设备；

该判断条件还可以设置为，判断该环境设备的运行标识是否大于预设标识，当判断到该运行标识大于预设标识时，则判定该环境设备为噪声设备，该运行标识可以为档位标识或功率标识等，且该预设标识可以根据需求设置参数值的设置；

当判断到所述环境设备是所述噪声设备时，执行步骤S41；

步骤S41，将所述环境设备设置为噪声声源，并获取所述噪声声源在所述环境图像中的运行图像；

其中，可以采用图像匹配的方式进行该运行图像的获取，即在本地预存储有所有环境设备的设备图像，通过将该设备图像与环境图像进行图像相似度匹配，以获取该运行图像；

步骤S51，根据所述运行图像获取所述噪声声源的档位信息，并获取所述噪声声源对应所述环境设备的设备名称；

其中，通过分析该运行图像中存储的档位标识以获取该噪声声源的档位信息，该档位标识可以采用文字或档位颜色的方式进行存储，例如当该噪声声源为空调时，则该档位标识采用文字的方式显示在运行图像中，当该噪声声源为风扇或电脑时，则该档位标识采用档位颜色的方式显示在运行图像中；

步骤S61，将所述设备名称和所述档位信息与所述噪声数据库进行匹配，以得到所述目标噪声数据；

步骤S71，根据所述目标噪声数据对所述语音音频信息进行降噪处理，并对降噪后的所述语音音频信息进行语音识别，得到语音文字；

实施例三

请参阅图3，是本发明第三实施例提供的语音识别降噪方法的流程图，包括步骤：

步骤S12，当接收到用户发出的语音采集指令时，对所述用户进行语音采集；

步骤S22，判断第一预设时间内采集到的语音音量是否持续小于音量阈值；

其中，该第一预设时间可以根据需求进行设置，例如0.5s、1s或2s等，具体的，该步骤中，当接收到该语音采集指令时，对应控制拾音器对用户当前所处环境进行语音采集；

当判断到所述第一预设时间内采集到的所述语音音量持续小于所述音量阈值时，执行步骤S32；

步骤S32，停止所述语音音频信息的采集；

当判断到所述第一预设时间内采集到的所述语音音量未持续小于所述音量阈值时，执行步骤S42；

步骤S42，持续对所述用户进行语音采集，得到语音音频信息；

步骤S52，对所述用户进行环境识别得到发声环境，并对所述发声环境进行声源识别，得到噪声声源；

步骤S62，获取所述噪声声源的运行状态中存储的档位信息，并获取所述噪声声源与拾音器之间的采集距离；

步骤S72，将所述档位信息和所述采集距离与所述噪声数据库进行匹配，以得到所述目标噪声数据；

其中，该噪声数据库中存储有所有噪声声源在不同档位信息下不同采集距离所对应的噪声数据；

该步骤中，由于当噪声声源与拾音器之间的距离不同时，则对应的噪声干扰不相同，因此，该步骤通过基于档位信息和采集距离为依据与该噪声数据库进行匹配，有效的提高了该目标噪声数据获取的准确性；

步骤S82，根据所述目标噪声数据对所述语音音频信息进行降噪处理，并对降噪后的所述语音音频信息进行语音识别，得到语音文字；

本实施例中，通过对所述发声环境进行声源识别的设计，能有效的获取到用户当前所处环境中的噪声声源，进而能针对性的进行语音降噪，提高了语音降噪效率，通过基于噪声声源的运行状态进行噪声数据查询的设计，有效的降低了环境中设备噪声对语音识别的干扰，提高了语音识别过程中的降噪效率。

实施例四

请参阅图4，是本发明第四实施例提供的语音识别降噪系统100的结构示意图，包括：语音采集模块10、声源识别模块11、噪声数据查询模块12和语音降噪模块13，其中：

语音采集模块10，用于当接收到用户发出的语音采集指令时，对所述用户进行语音采集，得到语音音频信息。

其中，所述语音采集模块10还用于：判断第一预设时间内采集到的语音音量是否持续小于音量阈值；

声源识别模块11，用于对所述用户进行环境识别得到发声环境，并对所述发声环境进行声源识别，得到噪声声源。

其中，所述声源识别模块11还用于：对所述用户当前所处环境进行图像拍摄，得到环境图像，并对所述环境图像中的设备图像进行识别，得到环境设备；

判断所述环境设备是否为噪声设备；

优选的，所述声源识别模块11还用于：对所述用户进行位置定位，得到定位坐标，并根据所述定位坐标查询目标信号发射源；

噪声数据查询模块12，用于获取所述噪声声源的运行状态，并根据所述运行状态查询噪声数据库中的噪声数据，得到目标噪声数据。

其中，所述噪声数据查询模块12还用于：获取所述噪声声源在所述环境图像中的运行图像，并根据所述运行图像获取所述噪声声源的档位信息；

优选的，所述噪声数据查询模块12还用于：获取所述运行状态中存储的档位信息，并获取所述噪声声源与拾音器之间的采集距离；

语音降噪模块13，用于根据所述目标噪声数据对所述语音音频信息进行降噪处理，并对降噪后的所述语音音频信息进行语音识别，得到语音文字。

实施例五

请参阅图5，是本发明第五实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音识别降噪方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

获取待识别语音，并将所述待识别语音输入有限状态转换器，以得到多条识别语句；

分别对每条所述识别语句进行置信度计算，以得到多个语句置信度，并根据所述语句置信度对所述识别语句进行排序，以得到识别排序表；

获取目标文本特征，并根据所述目标文本特征依序与所述识别排序表中的所述识别语句进行匹配，当匹配成功时，将当前的所述识别语句进行输出。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图4中示出的组成结构并不构成对本发明的语音识别降噪系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-3中的语音识别降噪方法亦采用图4中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音识别降噪系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标语音识别降噪系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别降噪方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音识别降噪方法，其特征在于，所述对所述用户进行环境识别得到发声环境，并对所述发声环境进行声源识别，得到噪声声源步骤包括：

判断所述环境设备是否为噪声设备；

3.如权利要求2所述的语音识别降噪方法，其特征在于，所述获取所述噪声声源的运行状态，并根据所述运行状态查询噪声数据库中的噪声数据的步骤包括：

4.如权利要求1所述的语音识别降噪方法，其特征在于，所述对所述用户进行环境识别得到发声环境的步骤包括：

5.如权利要求1所述的语音识别降噪方法，其特征在于，所述获取所述噪声声源的运行状态，并根据所述运行状态查询噪声数据库中的噪声数据的步骤包括：

6.如权利要求1所述的语音识别降噪方法，其特征在于，所述对所述用户进行语音采集的步骤之后，所述方法还包括：

7.一种语音识别降噪系统，其特征在于，所述系统包括：

8.如权利要求7所述的语音识别降噪系统，其特征在于，所述声源识别模块还用于：

判断所述环境设备是否为噪声设备；

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的语音识别降噪方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的语音识别降噪方法的步骤。