CN110889278B - 一种用于语音识别的词典生成方法 - Google Patents

一种用于语音识别的词典生成方法 Download PDF

Info

Publication number
CN110889278B
CN110889278B CN201911180960.XA CN201911180960A CN110889278B CN 110889278 B CN110889278 B CN 110889278B CN 201911180960 A CN201911180960 A CN 201911180960A CN 110889278 B CN110889278 B CN 110889278B
Authority
CN
China
Prior art keywords
file
labeling
dictionary
script
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911180960.XA
Other languages
English (en)
Other versions
CN110889278A (zh
Inventor
方伟
成海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Skyworth Institute Of Information Technology Co ltd
Original Assignee
Nanjing Skyworth Institute Of Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Skyworth Institute Of Information Technology Co ltd filed Critical Nanjing Skyworth Institute Of Information Technology Co ltd
Priority to CN201911180960.XA priority Critical patent/CN110889278B/zh
Publication of CN110889278A publication Critical patent/CN110889278A/zh
Application granted granted Critical
Publication of CN110889278B publication Critical patent/CN110889278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及语音识别领域,公开了一种用于语音识别的词典生成方法,解决了使用增量语料进行语音识别的训练过程中所需要的增量词典生成问题,其技术方案要点是使用开源分词工具对标注文件的词句进行分词,分别使用开源词典标注脚本、多音字词组标注脚本、单字标注脚本进行音素标注,得到新的词典文件;生成新的词典文件之后,以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本,能够适用于多音字的转化标注,在旧的词典转化文件基础上不断的增加新词典文件,降低后续新收集语料的词典标注的工作量。

Description

一种用于语音识别的词典生成方法
技术领域
本发明涉及语音识别领域,更具体地说,它涉及一种用于语音识别的词典生成方法。
背景技术
语音识别模型训练需要2个必要的资源文件,一个是标注文件,一个是词典文件,通过标注,可以知道声音文件对应的内容,通过词典,可以知道字词的音素构成,这样才好进行声学模型及语音模型的训练。
中文语音识别需要大量的声音语料数据及其标注来进行模型训练,网络上有一些开源的语料库,基本上就几十,几百,最多也就上千小时的声音语料,而想要训练出一个可以商用的语音识别模型,通常需要几万甚至几十万的声音语料,语言组织方式越丰富,语料牵涉到的领域越多,那么词典必然会爆发式增长,绝对不是手工就能完成的,词典生成方法很关键。
现有的开源中文语料词典通常只针对当前最多几百小时的声音语料,超出范围的不会涉及,更不会有超出部分的词典生成方式,使用增量语料进行语音识别的训练过程中所需要的增量词典无法生成。另外开源工程多数用的是英文语料,生成词典的方式并不适合中文,譬如中文有多音字,同一单字,不同的词,需使用不同的标注。
发明内容
本发明的目的是提供一种用于语音识别的词典生成方法,能够适用于多音字的转化标注,在旧的词典转化文件基础上不断的增加新词典文件,降低后续新收集语料的词典标注的工作量。
本发明的上述技术目的是通过以下技术方案得以实现的:一种用于语音识别的词典生成方法,所述方法如下:
S1.使用开源分词工具对标注文件的词句进行分词,得到第一文件;使用开源词典标注脚本对第一文件进行音素标注,得到第二文件,再提取音素标注不成功的字词组成第三文件;
S2.使用多音字词组标注脚本,对第三文件进行音素标注,得到第四文件,再提取未转化的词,组成第五文件;
S3.使用开源分词工具将第五文件的字词全部切分为单字,组成第六文件;
S4.使用单字标注脚本对第六文件的单字进行音素标注,得到第七文件,再提取未转化的字词,组成第八文件;
S5.工作人员对第八文件的字词进行音素标注并得到第九文件;
S6.合并第一文件、第二文件、第四文件、第七文件以及第九文件得到新的词典文件;
S7.生成新的词典文件之后,以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本。
作为优选,开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为:使用文档编辑工具的列式操作进行批量字符操作,将待处理的文件中的字词替换成音素标注文件。
作为优选,所述开源词典标注脚本内含现有的基础词典文件,用于对词典文件内已有的字词进行音素标注。
作为优选,所述多音字词组标注脚本内含有多音字词组的词典文件,用于对多音字词组进行音素标注。
作为优选,所述单字标注脚本包含有现有的单字词典文件,用于对单字进行音素标注。
作为优选,所述开源分词工具包括开源分词软件,用于对词句分词或对词组分字。
作为优选,在开源分词工具对标注文件的词句进行分词之后,把标注文件的第一列wav文件名删掉,使用awk命令统计各个字词出现的次数生成统计文件,取出统计文件的第一列得到第一文件。
作为优选,词典文件的合并方式为:将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。
作为优选,开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。
综上所述,本发明具有以下有益效果:专门考虑了多音字的转化标注,使用很多的标注文件,只需要很少的人工操作,就可以得到语音识别必不可少的词典文件,并且在旧的词典转化文件基础上不断的增加新词典文件,降低后续新收集语料的词典标注的工作量,在语音识别模型训练中,结合标注文件核词典文件,通过标注,可以知道声音文件对应的内容,通过词典,可以知道字词的音素构成,以便更好的进行声学模型及语音模型的训练。
附图说明
图1是本发明整体流程图;
图2是本发明单字标注脚本创建流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
一种用于语音识别的词典生成方法,如图1所示,方法如下:
S1.使用开源分词工具对标注文件的词句进行分词,得到第一文件;使用开源词典标注脚本对第一文件进行音素标注,得到第二文件,再提取音素标注不成功的字词组成第三文件;
S2.使用多音字词组标注脚本,对第三文件进行音素标注,得到第四文件,再提取未转化的词,组成第五文件;
S3.使用开源分词工具将第五文件的字词全部切分为单字,组成第六文件;
S4.使用单字标注脚本对第六文件的单字进行音素标注,得到第七文件,再提取未转化的字词,组成第八文件;
S5.工作人员对第八文件的字词进行音素标注并得到第九文件;
S6.合并第一文件、第二文件、第四文件、第七文件以及第九文件得到新的词典文件;
S7.生成新的词典文件之后,以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本。
本实施例中,值得说明的是,开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为:使用文档编辑工具的列式操作进行批量字符操作,将待处理的文件中的字词替换成音素标注文件。
本实施例中,值得说明的是,开源词典标注脚本内含现有的基础词典文件,用于对词典文件内已有的字词进行音素标注。
本实施例中,值得说明的是,多音字词组标注脚本内含有多音字词组的词典文件,用于对多音字词组进行音素标注。
本实施例中,值得说明的是,如图2所示,单字标注脚本包含有现有的单字词典文件,用于对单字进行音素标注,创建单字标注脚本的流程为:首先提取开源词典的字和词,一般是第一列,根据每一行的长度排序,单字都会排在文档的前面,删掉后面二字及二字以上的词,然后使用开源词典标注脚本对将文档中的字词转化为音素标注,再列式合并标注前的文件,即生成单字词典,再手工生成单字标注脚本。
本实施例中,值得说明的是,开源分词工具包括开源分词软件,用于对词句分词或对词组分字,一般语音识别是以词为单位输出识别结果,所以标注文件一般都是经过分词的,如果不分词,那么识别结果会是以句子为单位,实时性会差很多。
本实施例中,值得说明的是,在开源分词工具对标注文件的词句进行分词之后,把标注文件的第一列wav文件名删掉,使用awk命令统计各个字词出现的次数生成统计文件,取出统计文件的第一列得到第一文件。
本实施例中,值得说明的是,词典文件的合并方式为:将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。
本实施例中,值得说明的是,开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。
综上所述,本发明的优势在于,本方法专门考虑了多音字的转化,使用很多的标注文件,只需要很少的人工操作,就可以得到语音识别必不可少的词典文件,并且在旧的词典转化文件基础上不断的增加新词典文件,降低后续新收集语料的词典标注的工作量,在语音识别模型训练中,结合标注文件核词典文件,通过标注,可以知道声音文件对应的内容,通过词典,可以知道字词的音素构成,以便更好的进行声学模型及语音模型的训练。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种用于语音识别的词典生成方法,其特征是:所述方法如下:
S1.使用开源分词工具对标注文件的词句进行分词,得到第一文件;使用开源词典标注脚本对第一文件进行音素标注,得到第二文件,再提取音素标注不成功的字词组成第三文件;
S2.使用多音字词组标注脚本,对第三文件进行音素标注,得到第四文件,再提取未转化的词,组成第五文件;
S3.使用开源分词工具将第五文件的字词全部切分为单字,组成第六文件;
S4.使用单字标注脚本对第六文件的单字进行音素标注,得到第七文件,再提取未转化的字词,组成第八文件;
S5.工作人员对第八文件的字词进行音素标注并得到第九文件;
S6.合并第一文件、第二文件、第四文件、第七文件以及第九文件得到新的词典文件;
S7.生成新的词典文件之后,以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本;开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为:使用文档编辑工具的列式操作进行批量字符操作,将待处理的文件中的字词替换成音素标注文件。
2.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:所述开源词典标注脚本内含现有的基础词典文件,用于对词典文件内已有的字词进行音素标注。
3.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:所述多音字词组标注脚本内含有多音字词组的词典文件,用于对多音字词组进行音素标注。
4.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:所述单字标注脚本包含有现有的单字词典文件,用于对单字进行音素标注。
5.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:所述开源分词工具包括开源分词软件,用于对词句分词或对词组分字。
6.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:在开源分词工具对标注文件的词句进行分词之后,把标注文件的第一列wav文件名删掉,使用awk命令统计各个字词出现的次数生成统计文件,取出统计文件的第一列得到第一文件。
7.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:词典文件的合并方式为:将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。
8.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。
CN201911180960.XA 2019-11-27 2019-11-27 一种用于语音识别的词典生成方法 Active CN110889278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911180960.XA CN110889278B (zh) 2019-11-27 2019-11-27 一种用于语音识别的词典生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911180960.XA CN110889278B (zh) 2019-11-27 2019-11-27 一种用于语音识别的词典生成方法

Publications (2)

Publication Number Publication Date
CN110889278A CN110889278A (zh) 2020-03-17
CN110889278B true CN110889278B (zh) 2023-09-05

Family

ID=69749003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911180960.XA Active CN110889278B (zh) 2019-11-27 2019-11-27 一种用于语音识别的词典生成方法

Country Status (1)

Country Link
CN (1) CN110889278B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质

Also Published As

Publication number Publication date
CN110889278A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN107608949B (zh) 一种基于语义模型的文本信息抽取方法及装置
CN107066455B (zh) 一种多语言智能预处理实时统计机器翻译系统
Cho et al. Segmentation and punctuation prediction in speech language translation using a monolingual translation system
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN110276052B (zh) 一种古汉语自动分词及词性标注一体化方法及装置
CN101196881A (zh) 文本中数字和特殊符号串的文字符号化处理方法及系统
CN109977398A (zh) 一种特定领域的语音识别文本纠错方法
CN104679735A (zh) 语用机器翻译方法
CN110991179A (zh) 基于电力专业术语的语义分析方法
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN103885924A (zh) 一种领域自适应的公开课字幕自动生成系统及方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN114678001A (zh) 语音合成方法和语音合成装置
CN110889278B (zh) 一种用于语音识别的词典生成方法
CN102945231B (zh) 一种面向增量式翻译的结构化语言模型构建方法及系统
CN115688703A (zh) 一种特定领域文本纠错方法、存储介质和装置
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法
CN111354339B (zh) 词汇音素表构建方法、装置、设备及存储介质
CN109325225B (zh) 一种通用的基于关联的词性标注方法
CN112364212A (zh) 一种基于近似音识别的语音人名识别方法
CN108008885A (zh) 指令式语音控制语法文件辅助生成系统
Zhao et al. An accent marking algorithm of english conversion system based on morphological rules
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备
Linn et al. Part of speech tagging for kayah language using hidden markov model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant