CN110176228A

CN110176228A - 一种小语料语音识别方法及系统

Info

Publication number: CN110176228A
Application number: CN201910455300.1A
Authority: CN
Inventors: 黄志春; 张定国; 李永锡; 陈育翔; 伍宇文
Original assignee: Guangzhou Weihong Intelligent Technology Co Ltd
Current assignee: Guangzhou Weihong Intelligent Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-27

Abstract

本发明公开了一种小语料语音识别方法及系统，包括语音采集、语音识别分类、构建训练模型、代入训练模型、判断识别结果和输出识别结果，本发明结构科学合理，使用安全方便，首先对小语料语音数据抽取收集，对小语料语音数据进行分类标注，可以节省标注语料的时间，避免工作人员在标注时出错，随后将小语料语音数据代入至小语料语音识别模型内，进行运算，输出识别结果，若识别结果未达到预定识别值，则保存小语料语音数据至训练集内，语音训练模型构建时，首先会获取相关的语料数据，对语料进行语义识别，进行语义标注，得出语音训练模型，对训练出的模型进行验证，若是识别率过低，则自动修改参数并继续进行新一轮训练。

Description

一种小语料语音识别方法及系统

技术领域

本发明涉及语音识别技术领域，具体为一种小语料语音识别方法及系统。

背景技术

语料，即语言材料，语料是语言学研究的内容，语料是构成语料库的基本单元，在对语音进行识别时，由于部分语音中含有的语料过于罕见，语音识别系统容易产生无法识别的情况，并且目前市面上现有的语音识别都是针对通用场景进行处理，针对小语料的训练识别效果一般，获得的效果一般，同时针对特定客户的特定需求，或者特定行业的需求不能很好的满足或者说代价太大；

本发明针对小语料进行训练，在得到的训练模型中选取最优模型，使用了深度学习神经网络进行模型训练，同时针对性的去获取相关语料，可以节省标注语料的时间，并可避免人在标注时出错，导致训练模型出现准确性上的错误，另一方面还结合了语义识别的方法，能够保证输出的内容更加准确。

发明内容

本发明提供技术方案，可以有效解决上述背景技术中提出的针对小语料的训练识别效果一般，获得的效果一般，同时针对特定客户的特定需求，或者特定行业的需求不能很好的满足或者说代价太大的问题。

为实现上述目的，本发明提供如下技术方案：一种小语料语音识别方法，包括如下步骤：

S1、语音采集：抽取需要识别的小语料语音数据，并传输至主机内进行存储；

S2、语音识别分类：将语音进行初步识别，分类保存在对应的文件夹中；

S3、构建训练模型：构建小语料语音识别训练模型，并对训练模型的准确性进行验证；

S4、代入训练模型：将分类保存的小语料语音数据代入至小语料语音识别模型内，输出识别结果；

S5、判断识别结果：分析识别结果，并将分析结果与预定值进行对比；

S6、输出识别结果：将小语料语音数据识别结果，转化为对应的汉字输出。

根据上述技术特征，所述步骤S1中，抽取小语料语音数据时，会采用写好的脚本工具进行收集，并传输至主机内进行存储。

根据上述技术特征，所述步骤S2中，获取的小语料语音数据，会通过Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现，对小语料语音数据进行分类标注和保存。

根据上述技术特征，所述步骤S3具体分为如下步骤：

a、音频数据提取：根据模型建立需求针对性获取相关的语料数据，并对语料进行音频数据分析提取；

b、特征标注：使用语义识别的方法对提取到的音频数据进行语义识别，将音频数据以分句、分词的形式进行语义标注；

c、构建模型：使用深度学习网络对音频数据进行训练，得出语音训练模型；

d、准确性验证：针对每次训练出来的模型进行验证，计算出训练模型得出的识别率；

e、保存模型：若是识别率达到标准，则保存训练模型，若是识别率过低，则自动修改参数并继续进行新一轮训练。

根据上述技术特征，所述步骤S4中，分类保存的小语料语音数据首先会代入至小语料语音识别模型内，进行运算，输出识别结果。

根据上述技术特征，所述步骤S5中，若识别结果达到预定识别值，则输出识别结果，若识别结果未达到预定识别值，则保存小语料语音数据至训练集内，并代入步骤S3中，进行训练，得出语音训练模型。

根据上述技术特征，所述步骤S6中，将小语料语音数据识别结果，通过基于概率图的最大熵隐马尔可夫模型，转化为对应的汉字输出。

根据上述技术特征，一种小语料语音识别系统，包括语音采集模块、分析处理模块和数据存储模块，所述语音采集模块包括数据接收器和语音转换器，所述分析处理模块包括语音分析器和数据处理器，所述数据存储模块包括分类存储单元和训练集存储单元，所述语音采集模块、分析处理模块和数据存储模块之间均相互连接。

根据上述技术特征，所述语音采集模块包括数据接收器和语音转换器，所述数据接收器是指主动使用写好的脚本工具去收集小语料语音数据资料，并且被动接收传输至主机的小语料语音数据资料，所述语音转换器是指对接收的小语料语音数据资料进行整理，将小语料语音数据转化为主机所能接收的格式。

根据上述技术特征，所述分析处理模块包括语音分析器和数据处理器，所述语音分析器是指对转化为主机所能接收格式的小语料语音数据进行分析处理，识别出小语料语音数据的特征，并根据特征对小语料语音数据进行分类传输，所述数据处理器是指接收指定特征的小语料语音数据，将小语料语音数据代入预设的识别模型内，进行分析处理。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便：

首先会采用写好的脚本工具，对小语料语音数据进行主动抽取收集，同时被动接收传输至主机的小语料语音数据资料，之后将接收的小语料语音数据资料进行整理，转化为主机所能接收的格式，传输至主机内进行存储；获取的小语料语音数据，会通过Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现，对小语料语音数据进行分类标注，分类标注后的小语料语音数据会保存在对应的文件夹中，可以节省标注语料的时间，避免工作人员在标注时出错，增加了训练模型的准确性；随后将分类保存的小语料语音数据代入至小语料语音识别模型内，进行运算，输出识别结果，若识别结果达到预定识别值，则输出识别结果，若识别结果未达到预定识别值，则保存小语料语音数据至训练集内，在语音训练模型构建，进行训练，得出对应的语音训练模型，语音训练模型构建时，首先会根据模型建立需求针对性获取相关的语料数据，并对语料进行音频数据分析提取，随后使用语义识别的方法对提取到的音频数据进行语义识别，将音频数据以分句、分词的形式进行语义标注，并使用深度学习网络对音频数据进行训练，得出语音训练模型，针对每次训练出来的模型进行验证，计算出训练模型得出的识别率，若是识别率达到标准，则保存训练模型，若是识别率过低，则自动修改参数并继续进行新一轮训练。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的步骤流程图；

图2是本发明的系统框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1-2所示，本发明提供技术方案，一种小语料语音识别方法，包括如下步骤：

根据上述技术特征，步骤S1中，抽取小语料语音数据时，会采用写好的脚本工具进行收集，并传输至主机内进行存储。

根据上述技术特征，步骤S2中，获取的小语料语音数据，会通过Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现，对小语料语音数据进行分类标注和保存。

根据上述技术特征，步骤S3具体分为如下步骤：

根据上述技术特征，步骤S4中，分类保存的小语料语音数据首先会代入至小语料语音识别模型内，进行运算，输出识别结果。

根据上述技术特征，步骤S5中，若识别结果达到预定识别值，则输出识别结果，若识别结果未达到预定识别值，则保存小语料语音数据至训练集内，并代入步骤S3中，进行训练，得出语音训练模型。

根据上述技术特征，步骤S6中，将小语料语音数据识别结果，通过基于概率图的最大熵隐马尔可夫模型，转化为对应的汉字输出。

根据上述技术特征，一种小语料语音识别系统，包括语音采集模块、分析处理模块和数据存储模块，语音采集模块包括数据接收器和语音转换器，分析处理模块包括语音分析器和数据处理器，数据存储模块包括分类存储单元和训练集存储单元，语音采集模块、分析处理模块和数据存储模块之间均相互连接。

根据上述技术特征，语音采集模块包括数据接收器和语音转换器，数据接收器是指主动使用写好的脚本工具去收集小语料语音数据资料，并且被动接收传输至主机的小语料语音数据资料，语音转换器是指对接收的小语料语音数据资料进行整理，将小语料语音数据转化为主机所能接收的格式。

根据上述技术特征，分析处理模块包括语音分析器和数据处理器，语音分析器是指对转化为主机所能接收格式的小语料语音数据进行分析处理，识别出小语料语音数据的特征，并根据特征对小语料语音数据进行分类传输，数据处理器是指接收指定特征的小语料语音数据，将小语料语音数据代入预设的识别模型内，进行分析处理。

本发明的工作原理及使用流程：首先会采用写好的脚本工具，对小语料语音数据进行主动抽取收集，同时被动接收传输至主机的小语料语音数据资料，之后将接收的小语料语音数据资料进行整理，转化为主机所能接收的格式，传输至主机内进行存储；获取的小语料语音数据，会通过Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现，对小语料语音数据进行分类标注，分类标注后的小语料语音数据会保存在对应的文件夹中，可以节省标注语料的时间，避免工作人员在标注时出错，增加了训练模型的准确性；随后将分类保存的小语料语音数据代入至小语料语音识别模型内，进行运算，输出识别结果，若识别结果达到预定识别值，则输出识别结果，若识别结果未达到预定识别值，则保存小语料语音数据至训练集内，在语音训练模型构建，进行训练，得出对应的语音训练模型，语音训练模型构建时，首先会根据模型建立需求针对性获取相关的语料数据，并对语料进行音频数据分析提取，随后使用语义识别的方法对提取到的音频数据进行语义识别，将音频数据以分句、分词的形式进行语义标注，并使用深度学习网络对音频数据进行训练，得出语音训练模型，针对每次训练出来的模型进行验证，计算出训练模型得出的识别率，若是识别率达到标准，则保存训练模型，若是识别率过低，则自动修改参数并继续进行新一轮训练。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种小语料语音识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种小语料语音识别方法，其特征在于，所述步骤S1中，抽取小语料语音数据时，会采用写好的脚本工具进行收集，并传输至主机内进行存储。

3.根据权利要求1所述的一种小语料语音识别方法，其特征在于，所述步骤S2中，获取的小语料语音数据，会通过Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现，对小语料语音数据进行分类标注和保存。

4.根据权利要求1所述的一种小语料语音识别方法，其特征在于，所述步骤S3具体分为如下步骤：

5.根据权利要求1所述的一种小语料语音识别方法，其特征在于，所述步骤S4中，分类保存的小语料语音数据首先会代入至小语料语音识别模型内，进行运算，输出识别结果。

6.根据权利要求1所述的一种小语料语音识别方法，其特征在于，所述步骤S5中，若识别结果达到预定识别值，则输出识别结果，若识别结果未达到预定识别值，则保存小语料语音数据至训练集内，并代入步骤S3中，进行训练，得出语音训练模型。

7.根据权利要求1所述的一种小语料语音识别方法，其特征在于，所述步骤S6中，将小语料语音数据识别结果，通过基于概率图的最大熵隐马尔可夫模型，转化为对应的汉字输出。

8.根据权利要求1-7中任一项所述的一种小语料语音识别系统，其特征在于，包括语音采集模块、分析处理模块和数据存储模块，所述语音采集模块包括数据接收器和语音转换器，所述分析处理模块包括语音分析器和数据处理器，所述数据存储模块包括分类存储单元和训练集存储单元，所述语音采集模块、分析处理模块和数据存储模块之间均相互连接。

9.根据权利要求8所述的一种小语料语音识别系统，其特征在于，所述语音采集模块包括数据接收器和语音转换器，所述数据接收器是指主动使用写好的脚本工具去收集小语料语音数据资料，并且被动接收传输至主机的小语料语音数据资料，所述语音转换器是指对接收的小语料语音数据资料进行整理，将小语料语音数据转化为主机所能接收的格式。

10.根据权利要求8所述的一种小语料语音识别系统，其特征在于，所述分析处理模块包括语音分析器和数据处理器，所述语音分析器是指对转化为主机所能接收格式的小语料语音数据进行分析处理，识别出小语料语音数据的特征，并根据特征对小语料语音数据进行分类传输，所述数据处理器是指接收指定特征的小语料语音数据，将小语料语音数据代入预设的识别模型内，进行分析处理。