CN110889278A

CN110889278A - 一种用于语音识别的词典生成方法

Info

Publication number: CN110889278A
Application number: CN201911180960.XA
Authority: CN
Inventors: 方伟; 成海燕
Original assignee: Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Current assignee: Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-17
Anticipated expiration: 2039-11-27
Also published as: CN110889278B

Abstract

本发明涉及语音识别领域，公开了一种用于语音识别的词典生成方法，解决了使用增量语料进行语音识别的训练过程中所需要的增量词典生成问题，其技术方案要点是使用开源分词工具对标注文件的词句进行分词，分别使用开源词典标注脚本、多音字词组标注脚本、单字标注脚本进行音素标注，得到新的词典文件；生成新的词典文件之后，以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本，能够适用于多音字的转化标注，在旧的词典转化文件基础上不断的增加新词典文件，降低后续新收集语料的词典标注的工作量。

Description

一种用于语音识别的词典生成方法

技术领域

本发明涉及语音识别领域，更具体地说，它涉及一种用于语音识别的词典生成方法。

背景技术

语音识别模型训练需要2个必要的资源文件，一个是标注文件，一个是词典文件，通过标注，可以知道声音文件对应的内容，通过词典，可以知道字词的音素构成，这样才好进行声学模型及语音模型的训练。

中文语音识别需要大量的声音语料数据及其标注来进行模型训练，网络上有一些开源的语料库，基本上就几十，几百，最多也就上千小时的声音语料，而想要训练出一个可以商用的语音识别模型，通常需要几万甚至几十万的声音语料，语言组织方式越丰富，语料牵涉到的领域越多，那么词典必然会爆发式增长，绝对不是手工就能完成的，词典生成方法很关键。

现有的开源中文语料词典通常只针对当前最多几百小时的声音语料，超出范围的不会涉及，更不会有超出部分的词典生成方式，使用增量语料进行语音识别的训练过程中所需要的增量词典无法生成。另外开源工程多数用的是英文语料，生成词典的方式并不适合中文，譬如中文有多音字，同一单字，不同的词，需使用不同的标注。

发明内容

本发明的目的是提供一种用于语音识别的词典生成方法，能够适用于多音字的转化标注，在旧的词典转化文件基础上不断的增加新词典文件，降低后续新收集语料的词典标注的工作量。

本发明的上述技术目的是通过以下技术方案得以实现的：一种用于语音识别的词典生成方法，所述方法如下：

S1.使用开源分词工具对标注文件的词句进行分词，得到第一文件；使用开源词典标注脚本对第一文件进行音素标注，得到第二文件，再提取音素标注不成功的字词组成第三文件；

S2.使用多音字词组标注脚本，对第三文件进行音素标注，得到第四文件，再提取未转化的词，组成第五文件；

S3.使用开源分词工具将第五文件的字词全部切分为单字，组成第六文件；

S4.使用单字标注脚本对第六文件的单字进行音素标注，得到第七文件，再提取未转化的字词，组成第八文件；

S5.工作人员对第八文件的字词进行音素标注并得到第九文件；

S6.合并第一文件、第二文件、第四文件、第七文件以及第九文件得到新的词典文件；

S7.生成新的词典文件之后，以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本。

作为优选，开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为：使用文档编辑工具的列式操作进行批量字符操作，将待处理的文件中的字词替换成音素标注文件。

作为优选，所述开源词典标注脚本内含现有的基础词典文件，用于对词典文件内已有的字词进行音素标注。

作为优选，所述多音字词组标注脚本内含有多音字词组的词典文件，用于对多音字词组进行音素标注。

作为优选，所述单字标注脚本包含有现有的单字词典文件，用于对单字进行音素标注。

作为优选，所述开源分词工具包括开源分词软件，用于对词句分词或对词组分字。

作为优选，在开源分词工具对标注文件的词句进行分词之后，把标注文件的第一列wav文件名删掉，使用awk命令统计各个字词出现的次数生成统计文件，取出统计文件的第一列得到第一文件。

作为优选，词典文件的合并方式为：将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。

作为优选，开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。

综上所述，本发明具有以下有益效果：专门考虑了多音字的转化标注，使用很多的标注文件，只需要很少的人工操作，就可以得到语音识别必不可少的词典文件，并且在旧的词典转化文件基础上不断的增加新词典文件，降低后续新收集语料的词典标注的工作量，在语音识别模型训练中，结合标注文件核词典文件，通过标注，可以知道声音文件对应的内容，通过词典，可以知道字词的音素构成，以便更好的进行声学模型及语音模型的训练。

附图说明

图1是本发明整体流程图；

图2是本发明单字标注脚本创建流程图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

一种用于语音识别的词典生成方法，如图1所示，方法如下：

本实施例中，值得说明的是，开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为：使用文档编辑工具的列式操作进行批量字符操作，将待处理的文件中的字词替换成音素标注文件。

本实施例中，值得说明的是，开源词典标注脚本内含现有的基础词典文件，用于对词典文件内已有的字词进行音素标注。

本实施例中，值得说明的是，多音字词组标注脚本内含有多音字词组的词典文件，用于对多音字词组进行音素标注。

本实施例中，值得说明的是，如图2所示，单字标注脚本包含有现有的单字词典文件，用于对单字进行音素标注，创建单字标注脚本的流程为：首先提取开源词典的字和词，一般是第一列，根据每一行的长度排序，单字都会排在文档的前面，删掉后面二字及二字以上的词，然后使用开源词典标注脚本对将文档中的字词转化为音素标注，再列式合并标注前的文件，即生成单字词典，再手工生成单字标注脚本。

本实施例中，值得说明的是，开源分词工具包括开源分词软件，用于对词句分词或对词组分字，一般语音识别是以词为单位输出识别结果，所以标注文件一般都是经过分词的，如果不分词，那么识别结果会是以句子为单位，实时性会差很多。

本实施例中，值得说明的是，在开源分词工具对标注文件的词句进行分词之后，把标注文件的第一列wav文件名删掉，使用awk命令统计各个字词出现的次数生成统计文件，取出统计文件的第一列得到第一文件。

本实施例中，值得说明的是，词典文件的合并方式为：将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。

本实施例中，值得说明的是，开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。

综上所述，本发明的优势在于，本方法专门考虑了多音字的转化，使用很多的标注文件，只需要很少的人工操作，就可以得到语音识别必不可少的词典文件，并且在旧的词典转化文件基础上不断的增加新词典文件，降低后续新收集语料的词典标注的工作量，在语音识别模型训练中，结合标注文件核词典文件，通过标注，可以知道声音文件对应的内容，通过词典，可以知道字词的音素构成，以便更好的进行声学模型及语音模型的训练。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于语音识别的词典生成方法，其特征是：所述方法如下：

2.根据权利要求1所述的一种用于语音识别的词典生成方法，其特征是：开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为：使用文档编辑工具的列式操作进行批量字符操作，将待处理的文件中的字词替换成音素标注文件。

3.根据权利要求1所述的一种用于语音识别的词典生成方法，其特征是：所述开源词典标注脚本内含现有的基础词典文件，用于对词典文件内已有的字词进行音素标注。

4.根据权利要求1所述的一种用于语音识别的词典生成方法，其特征是：所述多音字词组标注脚本内含有多音字词组的词典文件，用于对多音字词组进行音素标注。

5.根据权利要求1所述的一种用于语音识别的词典生成方法，其特征是：所述单字标注脚本包含有现有的单字词典文件，用于对单字进行音素标注。

6.根据权利要求1所述的一种用于语音识别的词典生成方法，其特征是：所述开源分词工具包括开源分词软件，用于对词句分词或对词组分字。

7.根据权利要求1所述的一种用于语音识别的词典生成方法，其特征是：在开源分词工具对标注文件的词句进行分词之后，把标注文件的第一列wav文件名删掉，使用awk命令统计各个字词出现的次数生成统计文件，取出统计文件的第一列得到第一文件。

8.根据权利要求1所述的一种用于语音识别的词典生成方法，其特征是：词典文件的合并方式为：将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。

9.根据权利要求1所述的一种用于语音识别的词典生成方法，其特征是：开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。