CN110473547B

CN110473547B - 一种语音识别方法

Info

Publication number: CN110473547B
Application number: CN201910630131.0A
Authority: CN
Inventors: 谢政彪
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-07-30
Anticipated expiration: 2039-07-12
Also published as: CN110473547A

Abstract

本发明提供了一种语音识别的方法，包括：获取待识别的第一语音信号，并对第一语音信号进行回声消除处理，获得相应的第二语音信号,且第二语音信号中包括第三语音信号；识别第三语音信号，确定相应的场景信息；根据所确定的场景信息，并基于预设映射表得到与场景信息对应的预设领域；根据所得到的预设领域，从预先存储的语音模型数据库中调取出相应的语音识别模型；基于所调取出的语音识别模型对第二语音信号进行识别，获得相应的语音识别结果。用以通过识别第三语音信号，确定相应的场景信息，有利于提高对语音信号的识别率。

Description

一种语音识别方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别方法。

背景技术

根据现有技术，在对一段语音信息进行识别的过程中，一般会将语音信息中的噪声和背景音等干扰识别的因素进行过滤和删除，但是由于噪音和背景音实际上包含了语音信息所发生的场景信息，使得在识别时，由于缺乏相关的场景信息，只是通过识别语音信息，不能确定其语音信息所属的领域，导致识别率变差。

发明内容

本发明提供一种语音识别方法，用以通过识别第三语音信号，确定相应的场景信息，有利于提高对语音信号的识别率。

本发明提供一种语音识别的方法，包括：

获取待识别的第一语音信号，并对所述第一语音信号进行回声消除处理，获得相应的第二语音信号,且所述第二语音信号中包括第三语音信号；

识别所述第三语音信号，确定相应的场景信息；

根据所确定的所述场景信息，并基于预设映射表得到与所述场景信息对应的预设领域；

根据所得到的所述预设领域，从预先存储的语音模型数据库中调取出相应的语音识别模型；

基于所调取出的所述语音识别模型对所述第二语音信号进行识别，获得相应的语音识别结果。

在一种可能实现的方式中，

所述第三语音信号包括相关的场景噪音和/或场景背景音。

在一种可能实现的方式中，

在获取待识别的第一语音信号的过程中，需将其中所产生的输出信号进行输出，来获取最终的待识别的第一语音信号，其步骤包括：

步骤11：对标准参考信号进行自适应滤波处理，获得相应的第一滤波信号；

步骤12：求解所述第一语音信号和所述第一滤波信号之间的差值，获得第一误差信号；

对所述标准参考信号进行增益处理，获得第三处理信号；

步骤13：对所述第三处理信号分别进行失真处理，得到对应的第四处理信号；并对所述第四处理信号进行自适应滤波处理，获得相应的第二滤波信号；

步骤14：求解所述第一误差信号与所述第二滤波信号之间的差值，并获得第二误差信号；

步骤15：将所述第一误差信号和所述第二误差信号进行融合处理，得到对应的输出信号，将所述输出信号输出，获得最终的待识别的第一语音信号。

在一种可能实现的方式中，

对所述第一语音信号进行回声消除处理，获得相应的第二语音信号的步骤包括：

步骤21：获取第一语音信号中的第一信号；

步骤22：利用回声消除算法生成与所述第一信号波形相反的第二信号，利用所述第二信号与所述第一信号叠加处理，得到相应的第二语音信号。

在一种可能实现的方式中，

所述语音识别模型是预先训练好的，且是基于卷积神经网络获取到的，

在基于所述语音识别模型对所述第二语音信号进行识别的过程中，根据所述第二语音信号中的第一帧和所述第一帧之前的预设时间段内的第二帧，对所述第二语音信号中的第一帧进行识别。

在一种可能实现的方式中，

对所述第二语音信号中的第一帧进行识别的过程中，需对第一帧中的语音帧进行提取，其包括：

采集第一帧中每个频率采样点对应的能量；

判断第一音帧对应的帧类型，当频率采样点的能量处于第一预设范围时，判断当前第一帧为语音帧，且标定语音帧对应的第一位置；

当频率采样点的能量处于第二预设范围时，判断当前第一帧为噪声帧，且标定噪声帧对应的第二位置；

当频率采样点的能量处于第三预设范围时，判断当前第一帧为次语音帧，且标定次语音帧对应的第三位置；

当频率采样点的能量处于第四预设范围时，判断当前第一帧为次噪音帧，且标定次噪音帧对应的第四位置；

且提取所述第二语音信号中所述第一帧处于第一预设范围时的语音帧，并将所提取的所述语音帧组成语音集合，来对所述语音集合进行识别。

在一种可能实现的方式中，

在识别所述第三语音信号之前，还包括：提取所述第二语音信号中的第三语音信号，其所提取的所述第三语音信号是对应的声音波形。

在一种可能实现的方式中，

所述通过识别所述第三语音信号，确定相应的场景信息的步骤包括：

步骤31：提取所述第三语音信号中的场景噪声信号，并对所述场景噪声信号进行识别，获得相应的第一场景结果；

步骤32：提取所述第三语音信号中的场景背景音信号，并对所述场景背景音信号进行识别，获得相应的第二场景结果；

步骤33：对所获得的第一场景结果和第二场景结果进行拟合处理，获得最终的第三场景结果，所述第三场景结果即为所确定的相应的场景信息。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种语音识别方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

在一实施例中，为了解决现有技术中，在语音识别过程中，将噪音及背景音作为干扰识别的因素进行过滤和删除，而噪音和背景音实际上包含了语音发生的场景信息，识别领域需要用户设置，不够智能，并且产品只能针对固定的领域，导致应用范围被限制，有时候为了提升应用范围，设置了很多领域，又导致性能变差，如果用户对领域不熟悉，很容易设置错误，导致识别率变差。因此，通过对噪声和背景音自动提取场景信息，就变得尤为重要。

因此，本发明实施例提供了一种语音识别的方法，如图1所示，包括：

步骤1：获取待识别的第一语音信号，并对第一语音信号进行回声消除处理，获得相应的第二语音信号,且第二语音信号中包括第三语音信号；

第三语音信号包括相关的场景噪音和/或场景背景音。

步骤2：识别第三语音信号，确定相应的场景信息；

场景信息包括：医院、马路、法院、公园、家庭或书房中的任一种或多种场景信息。

步骤3：根据所确定的场景信息，并基于预设映射表得到与场景信息对应的预设领域；

上述预设领域可以是，医疗领域、法律领域、交通领域、生活领域等。

步骤4：根据所得到的预设领域，从预先存储的语音模型数据库中调取出相应的语音识别模型；

语音识别模型是预先训练的模型，可以是基于卷积神经网络获取到的，例如可以通过获取与至少一个与第二语音信号相关的多段待识别音频样本，并使用多段待识别音频样本，对至少一个设定深度学习模型进行训练，获得与第二语音信号对应的至少一个语音识别模型；

且，语音识别模型可以是基于语音辅助算法生成的，语音辅助算法是根据音高、音强、音长、音色等得到的。

其好处是，对语音识别模型进行训练，可以提高识别预设语音的精度。

在基于语音识别模型对第二语音信号进行识别的过程中，根据第二语音信号中的第一帧和第一帧之前的预设时间段内的第二帧，对第二语音信号中的第一帧进行识别。

步骤5：基于所调取出的语音识别模型对第二语音信号进行识别，获得相应的语音识别结果。

例如，当所识别的第三语音信号是与医院相关的场景信息时，在场景与预设领域映射表中查找到与医院相关的场景信息的预设领域为医疗领域，从预先存储的语音模型数据库中调取出与医疗领域相应的语音识别模型，例如当对第二语音信号如“药品”进行识别时，获得相应的语音识别结果为“药品”，而不是“要拼”，因此，通过获取到预设领域，可以提高语音识别识别率，进一步使得获得的识别结果更加准确。

步骤3中涉及到的映射表可以是如下表：

上述技术方案的有益效果是：通过识别第三语音信号，确定相应的场景信息，有利于提高对语音信号的识别率。

本发明提供一种语音识别的方法，

步骤12：求解第一语音信号和第一滤波信号之间的差值，获得第一误差信号；

对标准参考信号进行增益处理，获得第三处理信号；

步骤13：对第三处理信号分别进行失真处理，得到对应的第四处理信号；并对第四处理信号进行自适应滤波处理，获得相应的第二滤波信号；

步骤14：求解第一误差信号与第二滤波信号之间的差值，并获得第二误差信号；

步骤15：将第一误差信号和第二误差信号进行融合处理，得到对应的输出信号，将输出信号输出，获得最终的待识别的第一语音信号。

上述标准参考信号，是预先设定好的，是为了提供标准参考参数，以方便获得第一误差信号。

上述技术方案的有益效果是：通过经将获取的输出信号进行输出，可以避免其输出信号对所获取的第一语音信号造成干扰。

本发明提供一种语音识别的方法，

对第一语音信号进行回声消除处理，获得相应的第二语音信号的步骤包括：

步骤21：获取第一语音信号中的第一信号；

步骤22：利用回声消除算法生成与第一信号波形相反的第二信号，利用第二信号与第一信号叠加处理，得到相应的第二语音信号。

上述第一信号是回声信号，上述第二信号是与回声信号相反的信号。

上述叠加处理，如下表所示(其中第一信号和与第一信号对应的第二信号都用数值表示)：

第一信号	1	2	1	1	0	-1
							地位信号	-1	-2	-1	-1	0	1

其好处就是为了将第一信号和第二信号抵消。

上述技术方案的有益效果是：通过采用步骤21-22，对第一语音信号进行回声消除处理，提高语音识别的清晰度。

本发明提供一种语音识别的方法，

对第二语音信号中的第一帧进行识别的过程中，需对第一帧中的语音帧进行提取，其包括：

采集第一帧中每个频率采样点对应的能量；

且提取第二语音信号中第一帧处于第一预设范围时的语音帧，并将所提取的语音帧组成语音集合，来对语音集合进行识别。

采集第一帧中每个频率采样点对应的能量的原理是：声音是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线，由于波是无限光滑的，可以将弦线看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样，其中采样的过程就是抽取某点的频率值，并获得该点对应的能量。其好处是，通过对第一音频的采样可以有效地判断出当前帧所处的状态，再通过阈值的对比，可以及时了解当前帧对应的帧类型。

例如将不同帧类型对应的采样点的能量进行归一化处理得到对应的分贝值，假设当分贝大于500分贝时，判断此帧为噪声帧，当分贝大于300分贝且小于500分贝时，判断此帧为次噪声帧，当分贝大于100分贝且小于300分贝时，判断此帧为次语音帧，当分贝小于100分贝时，判断此帧为语音帧。其中，需要说明的是上述第一阈值小于第三阈值，第三阈值小于第四阈值，第四阈值小于第三阈值。

且上述标定的第一位置、第二位置、第三位置个第四位置都是为了方便在对第一帧进行标定结束后，只提取第一位置的语音帧，方便可以及时获取到要提取的位置，节省提取时间。

上述技术方案的有益效果是：在识别出其所属场景的基础上，确定其中的语音帧，并将语音帧提取集合到语音集合中，可以提高识别率，还可以节省识别时间。

本发明提供一种语音识别的方法，

在识别第三语音信号之前，还包括：提取第二语音信号中的第三语音信号，其所提取的第三语音信号是对应的声音波形。

上述技术方案的有益效果是：通过对第三语音信号进行提取，便于后续对第三语音信号的识别。

本发明提供一种语音识别的方法，

通过识别第三语音信号，确定相应的场景信息的步骤包括：

步骤31：提取第三语音信号中的场景噪声信号，并对场景噪声信号进行识别，获得相应的第一场景结果；

步骤32：提取第三语音信号中的场景背景音信号，并对场景背景音信号进行识别，获得相应的第二场景结果；

步骤33：对所获得的第一场景结果和第二场景结果进行拟合处理，获得最终的第三场景结果，第三场景结果即为所确定的相应的场景信息。

如，当上述场景噪声信号，可以是掺杂多人交流，且和电器折扣相关的噪声信号，获得第一场景信息为电器折扣店铺；

对应的场景背景音，可以是“苏宁之歌”的背景音时，获得相应的第二场景结果为苏宁店铺；

获取最终的第三场景结果即为苏宁易购店铺。

上述技术方案的有益效果是：通过对所识别场景噪声信号和场景背景音信号的结果进行拟合处理，提高获取场景信息的准确性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别的方法，其特征在于，包括：

识别所述第三语音信号，确定相应的场景信息；

基于所调取出的所述语音识别模型对所述第二语音信号进行识别，获得相应的语音识别结果；

对所述标准参考信号进行增益处理，获得第三处理信号；

2.如权利要求1所述的方法，其特征在于，所述第三语音信号包括相关的场景噪音和/或场景背景音。

3.如权利要求1所述的方法，其特征在于，对所述第一语音信号进行回声消除处理，获得相应的第二语音信号的步骤包括：

步骤21：获取第一语音信号中的第一信号；

4.如权利要求1所述的方法，其特征在于，

5.如权利要求4所述的方法，其特征在于，对所述第二语音信号中的第一帧进行识别的过程中，需对第一帧中的语音帧进行提取，其包括：

采集第一帧中每个频率采样点对应的能量；

6.如权利要求1所述的方法，其特征在于，在识别所述第三语音信号之前，还包括：提取所述第二语音信号中的第三语音信号，其所提取的所述第三语音信号是对应的声音波形。

7.如权利要求1所述的方法，其特征在于，所述通过识别所述第三语音信号，确定相应的场景信息的步骤包括：