CN110706688B

CN110706688B - 语音识别模型的构建方法、系统、终端及可读存储介质

Info

Publication number: CN110706688B
Application number: CN201911099097.5A
Authority: CN
Inventors: 陈昊亮; 许敏强; 杨世清
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2022-06-17
Anticipated expiration: 2039-11-11
Also published as: CN110706688A

Abstract

本发明公开了一种语音识别模型的构建方法、系统、终端及可读存储介质，方法包括：采集终端周围环境的声音数据；若声音数据中包含有人声音特征时，则将声音数据分离为人声音特征和非人声音特征；将人声音特征的信号值调整放大和将非人声音特征的信号值调整缩小；经调整后的人声音特征和非人声音特征进行重新合并，以获得目标声音数据。这样，经调整后的人声音特征和非人声音特征作为样本声音数据进行训练，以更新语音识别模型，从而生成能够应对自然环境噪声的语音识别模型，使得该语音识别模型的构建更贴合自然环境，进而提高语音识别模型的准确性。

Description

语音识别模型的构建方法、系统、终端及可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别模型的构建方法、系统、终端及可读存储介质。

背景技术

语音识别以语音为研究对象，通过语音信号处理和模型识别让机器自动识别和理解人的语言，把语音信号转化为相应的文本或命令。传统的语音识别模型为了提高语音识别的准确性，会通过大量的无噪声的样本声音数据进行训练以构建该语音识别模型。

然后，在实际的生活情况中，自然环境中有各种各样的噪音。例如，鸟声、空调声等噪音。终端在采集用户的声音数据时，会将周围环境的噪音一并采集，这样，终端将带有噪音的声音数据输入至上述语音识别模型，会导致语音识别模型不准确。

发明内容

本发明的主要目的在于提供一种语音识别模型的构建方法、系统、终端及可读存储介质，旨在解决现有技术中的语音识别模型的识别不准确的技术问题。

为实现上述目的，本发明提供一种语音识别模型的构建方法，所述语音识别模型的构建方法包括：

所述语音识别模型的构建方法包括：

采集终端周围环境的声音数据；

若所述声音数据中包含有人声音特征时，则将所述声音数据分离为所述人声音特征和非人声音特征；

将所述人声音特征的信号值调整放大和将所述非人声音特征的信号值调整缩小；

经调整后的所述人声音特征和所述非人声音特征进行重新合并，以获得目标声音数据；

将所述目标声音数据作为样本声音数据，以训练构建语音识别模型。

进一步地，所述将所述人声音特征的信号值调整放大和将所述非人声音特征的信号值调整缩小的步骤，包括：

获取所述人声音特征，并按第一预设百分比将所述人声音特征的信号值调整放大；

获取所述非人声音特征，并按第二预设百分比将所述人声音特征的信号值调整缩小，其中所述第一预设百分比大于所述第二预设百分比。

进一步地，所述若所述声音数据中包含有人声音特征时的步骤之后，包括：

判断人声音特征的能量值是否大于或等于预设能量阀值；

若所述人声音特征的能量值大于或等于所述预设能量阀值时，则将所述声音数据分离为所述人声音特征和所述非人声音特征。

进一步地，所述若所述声音数据中包含有人声音特征时，则将所述声音数据分离为所述人声音特征和非人声音特征的步骤，包括：

判断所述声音数据中是否包含有所述人声音特征；

若所述声音数据中包含有所述人声音特征时，则从所述声音数据中剪切出人声音特征的部分；将未被剪切的部分作为所述非人声音特征，以获得分离后的所述人声音特征和所述非人声音特征。

进一步地，所述判断所述声音数据中是否包含有所述人声音特征的步骤，包括：

检测所述声音数据中是否包含有人声音的频率；

若所述声音数据中包含有人声音的频率，则判定所述声音数据中包含有所述人声音特征；

若所述声音数据中不包含有人声音的频率，则判定所述声音数据中不含有所述人声音特征。

进一步地，所述将所述目标声音数据作为样本声音数据，以训练构建语音识别模型的步骤，包括：

获取所述目标声音数据；

将所述目标声音数据作为样本声音数据输入至深度卷积神经网络进行训练，以构建所述语音识别模型。

进一步地，所述将所述目标声音数据作为样本声音数据，以训练构建语音识别模型的步骤之后，包括：

获取用户输入的声音数据；

将所述声音数据输入至所述语音识别模型进行检验调节，并输出经检验调节后的所述语音识别模型。

本发明还提供一种语音识别模型的构建系统，所述语音识别模型的构建系统包括：

采集模块，用于采集终端周围环境的声音数据；

分离模块，用于若所述声音数据中包含有人声音特征时，则将所述声音数据分离为所述人声音特征和非人声音特征；

调整模块，用于将所述人声音特征的信号值调整放大和将所述非人声音特征的信号值调整缩小；

合并模块，用于经调整后的所述人声音特征和所述非人声音特征进行重新合并，以获得目标声音数据；

构建模块，用于将所述目标声音数据作为样本声音数据，以训练构建语音识别模型。

本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述语音识别模型的构建程序被所述处理器执行时实现如上述的语音识别模型的构建方法的步骤。

本发明还提供一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的语音识别模型的构建方法的步骤。

本发明实施例提出的语音识别模型的构建方法，采集终端周围环境的声音数据；若声音数据中包含有人声音特征时，则将声音数据分离为人声音特征和非人声音特征；将人声音特征的信号值调整放大和将非人声音特征的信号值调整缩小；经调整后的人声音特征和非人声音特征进行重新合并，以获得目标声音数据。这样，经调整后的人声音特征和非人声音特征作为样本声音数据进行训练，以更新语音识别模型，从而生成能够应对自然环境噪声的语音识别模型，使得该语音识别模型的构建更贴合自然环境，进而提高语音识别模型的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行的终端的结构示意图；

图2是本发明一种语音识别模型的构建方法第一实施例的流程示意图；

图3是本发明一种语音识别模型的构建系统一实施例的框架结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别模型的构建程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音识别模型的构建程序，并执行以下操作：

采集终端周围环境的声音数据；

进一步地，获取所述人声音特征，并按第一预设百分比将所述人声音特征的信号值调整放大；

进一步地，处理器1001可以调用存储器1005中存储的语音识别模型的构建程序，还执行以下操作：

判断人声音特征的能量值是否大于或等于预设能量阀值；

进一步地，判断所述声音数据中是否包含有所述人声音特征；

进一步地，检测所述声音数据中是否包含有人声音的频率；

进一步地，获取所述目标声音数据；

获取用户输入的声音数据；

参照图2，本发明基于上述终端硬件结构，提出本发明方法各个实施例。

本发明提供一种语音识别模型的构建方法，语音识别模型的构建方法应用于终端，在语音识别模型的构建方法第一实施例中，参照图2，该方法包括：

步骤S10，采集终端周围环境的声音数据；

采集终端周围环境的声音数据。其中，终端可以是PC，也可以是智能手机、平板电脑等设备。在本实施例中，将设置有麦克风等语音设备进行采集终端周围环境的声音数据。

步骤S20，若声音数据中包含有人声音特征时，则将所述声音数据分离为所述人声音特征和非人声音特征；

若声音数据中包含有人声音特征时，则将声音数据分离为人声音特征和非人声音特征。其中，非人声音特征是指将人声音特征除外，即噪音。在本实施例中，可以通过现有技术将所述声音数据分离为所述人声音特征和非人声音特征。

步骤S30，将人声音特征的信号值调整放大和将非人声音特征的信号值调整缩小。

终端将人声音特征的信号值调整放大和将非人声音特征的信号值调整缩小。在本实施例中，采集终端周围环境的声音数据；若声音数据中包含有人声音特征时，则将声音数据分离为人声音特征和非人声音特征，并将人声音特征的信号值调整放大和将非人声音特征的信号值调整缩小。

步骤S40，经调整后的人声音特征和非人声音特征进行重新合并，以获得目标声音数据；

终端经调整后的人声音特征和非人声音特征进行重新合并，以获得目标声音数据。在本实施例中，将人声音特征进行放大信号处理和非人声音特征进行降低信号处理，以获得经调整后的人声音特征和非人声音特征，并将其进行重新合并，以获得目标声音数据。

步骤S50，将目标声音数据作为样本声音数据，以训练构建语音识别模型。

终端将目标声音数据作为样本声音数据，以训练构建语音识别模型。其中，语音识别模型是预先通过大量无噪音的样本声音数据进行训练得到的语音识别模型，具有识别语音的功能。在本实施例中，目标声音数据是经处理后的人声音特征和非人声音特征，并将目标声音数据作为样本声音数据进行训练以更新语音识别模型。

在本实施例中，采集终端周围环境的声音数据；若声音数据中包含有人声音特征时，则将声音数据分离为人声音特征和非人声音特征；将人声音特征的信号值调整放大和将非人声音特征的信号值调整缩小；经调整后的人声音特征和非人声音特征进行重新合并，以获得目标声音数据。这样，经调整后的人声音特征和非人声音特征作为样本声音数据进行训练，以更新语音识别模型，从而生成能够应对自然环境噪声的语音识别模型，使得该语音识别模型的构建更贴合自然环境，进而提高语音识别模型的准确性。

进一步地，上述第一实施例的步骤S30，将所述人声音特征和所述非人声音特征进行处理的步骤，包括：

步骤S31，获取人声音特征，并按第一预设百分比将人声音特征的信号值调整放大；

步骤32，获取非人声音特征，并按第二预设百分比将人声音特征的信号值调整缩小。

终端获取人声音特征，并按第一预设百分比将人声音特征的信号值调整放大，以及获取非人声音特征，并按第二预设百分比将人声音特征的信号值调整缩小，其中第一预设百分比大于第二预设百分比。在本实施例中，第一预设百分比是大于或等于1，第二预设百分比是小于1，将人声音特征的信号值乘以第一预设百分比进行调整放大，将非人声音特征的信号值乘以第二预设百分比进行调整缩小。

进一步地，在若所述声音数据中包含有人声音特征时的步骤之后，包括：

步骤S21，判断人声音特征的能量值是否大于或等于预设能量阀值；

步骤S22，若人声音特征的能量值大于或等于预设能量阀值时，则将声音数据分离为人声音特征和所述非人声音特征。

终端判断人声音特征的能量值是否大于或等于预设能量阀值，若人声音特征的能量值大于或等于预设能量阀值时，则将声音数据分离为人声音特征和所述非人声音特征，若人声音特征的能量值小于预设能量阀值时，则不将声音数据分离为人声音特征和所述非人声音特征。在本实施例中，若人声音特征的能量值小于预设能量阀值时，即说明人说话的声音很小，且几乎听不清，则不对声音数据进行分离处理。

进一步地，上述第一实施例的步骤S20，若所述声音数据中包含有人声音特征时，则将所述声音数据分离为所述人声音特征和非人声音特征的步骤，包括：

步骤S201，判断声音数据中是否包含有所述人声音特征；

步骤S202，若声音数据中包含有人声音特征时，则从声音数据中剪切出人声音特征的部分；将未被剪切的部分作为所述非人声音特征，以获得分离后的所述人声音特征和非人声音特征。

终端判断所述声音数据中是否包含有所述人声音特征，若声音数据中包含有人声音特征时，则从声音数据中剪切出人声音特征的部分；将未被剪切的部分作为非人声音特征，以获得分离后的人声音特征和所述非人声音特征，若声音数据中不包含有所述人声音特征时，则不对声音数据做分离处理操作。

进一步地，在本实施例步骤S201中，判断声音数据中是否包含有所述人声音特征的步骤，包括：

步骤A，检测所述声音数据中是否包含有人声音的频率；

步骤B，若所述声音数据中包含有人声音的频率，则判定所述声音数据中包含有所述人声音特征；

步骤C，若所述声音数据中不包含有人声音的频率，则判定所述声音数据中不含有所述人声音特征。

终端检测声音数据中是否包含有人声音的频率，若声音数据中包含有人声音的频率，则判定声音数据中包含有人声音特征，若所声音数据中不包含有人声音的频率，则判定声音数据中不含有人声音特征。

进一步地，上述第一实施例步骤S50，将所述目标声音数据作为样本声音数据，以训练更新语音识别模型的步骤，包括：

步骤S51，获取目标声音数据；

步骤S52，将目标声音数据作为样本声音数据输入至深度卷积神经网络进行训练，以构建语音识别模型。

在本实施例中，终端获取目标声音数据，将目标声音数据作为样本声音数据输入至深度卷积神经网络进行训练，以构建语音识别模型。其中，样本声音数据是带有噪声的声音数据。应当理解的是，需要使用带噪声的声音数据作为样本声音数据，进行模型训练，以构建语音识别模型。

进一步地，在步骤S50之后，包括：

步骤S501，获取用户输入的声音数据；

步骤S502，将声音数据输入至语音识别模型进行检验调节，并输出经检验调节后的语音识别模型。

在本实施例中，终端获取用户输入的声音数据，将声音数据输入至以训练构建的语音识别模型中，并进行检验调节，输出经检验调节后的语音识别模型。

在一个实施例中，如图3所示，图3是本发明一种语音识别模型的构建系统一实施例的框架结构示意图，包括：采集模块、分离模块、调整模块、合并模块以及构建模块，其中：

采集模块，用于采集终端周围环境的声音数据；

关于语音识别模型的构建系统的具体限定可以参见上文中对于语音识别模型的构建方法的限定，在此不再赘述。上述语音识别模型的构建系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

此外，本发明实施例还提出一种可读存储介质(即计算机可读存储器)，所述可读存储介质上存储有语音识别模型的构建程序，所述语音识别模型的构建程序被处理器执行时实现如下操作：

采集终端周围环境的声音数据；

进一步地，所述语音识别模型的构建程序被处理器执行时还实现如下操作：判断人声音特征的能量值是否大于或等于预设能量阀值；

进一步地，检测所述声音数据中是否包含有人声音的频率；

进一步地，获取所述目标声音数据；

进一步地，所述语音识别模型的构建程序被处理器执行时还实现如下操作：获取用户输入的声音数据；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别模型的构建方法，其特征在于，所述语音识别模型的构建方法包括：

采集终端周围环境的声音数据；

将所述目标声音数据作为样本声音数据输入至深度卷积神经网络进行训练，以训练构建语音识别模型；

获取用户输入的声音数据，将所述声音数据输入至所述语音识别模型进行检验调节，并输出经检验调节后的所述语音识别模型。

2.如权利要求1所述的语音识别模型的构建方法，其特征在于，所述将所述人声音特征的信号值调整放大和将所述非人声音特征的信号值调整缩小的步骤，包括：

3.如权利要求1所述的语音识别模型的构建方法，其特征在于，所述若所述声音数据中包含有人声音特征时的步骤之后，包括：

判断人声音特征的能量值是否大于或等于预设能量阈值；

若所述人声音特征的能量值大于或等于所述预设能量阈值时，则将所述声音数据分离为所述人声音特征和所述非人声音特征。

4.如权利要求1所述的语音识别模型的构建方法，其特征在于，所述若所述声音数据中包含有人声音特征时，则将所述声音数据分离为所述人声音特征和非人声音特征的步骤，包括：

判断所述声音数据中是否包含有所述人声音特征；

5.如权利要求4所述的语音识别模型的构建方法，其特征在于，所述判断所述声音数据中是否包含有所述人声音特征的步骤，包括：

检测所述声音数据中是否包含有人声音的频率；

6.一种语音识别模型的构建系统，其特征在于，所述语音识别模型的构建系统包括：

采集模块，用于采集终端周围环境的声音数据；

7.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述语音识别模型的构建程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音识别模型的构建方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音识别模型的构建方法的步骤。