CN110889278A - 一种用于语音识别的词典生成方法 - Google Patents

一种用于语音识别的词典生成方法 Download PDF

Info

Publication number
CN110889278A
CN110889278A CN201911180960.XA CN201911180960A CN110889278A CN 110889278 A CN110889278 A CN 110889278A CN 201911180960 A CN201911180960 A CN 201911180960A CN 110889278 A CN110889278 A CN 110889278A
Authority
CN
China
Prior art keywords
file
dictionary
script
words
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911180960.XA
Other languages
English (en)
Other versions
CN110889278B (zh
Inventor
方伟
成海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Original Assignee
Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth filed Critical Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Priority to CN201911180960.XA priority Critical patent/CN110889278B/zh
Publication of CN110889278A publication Critical patent/CN110889278A/zh
Application granted granted Critical
Publication of CN110889278B publication Critical patent/CN110889278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音识别领域,公开了一种用于语音识别的词典生成方法,解决了使用增量语料进行语音识别的训练过程中所需要的增量词典生成问题,其技术方案要点是使用开源分词工具对标注文件的词句进行分词,分别使用开源词典标注脚本、多音字词组标注脚本、单字标注脚本进行音素标注,得到新的词典文件;生成新的词典文件之后,以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本,能够适用于多音字的转化标注,在旧的词典转化文件基础上不断的增加新词典文件,降低后续新收集语料的词典标注的工作量。

Description

一种用于语音识别的词典生成方法
技术领域
本发明涉及语音识别领域,更具体地说,它涉及一种用于语音识别的词典生成方法。
背景技术
语音识别模型训练需要2个必要的资源文件,一个是标注文件,一个是词典文件,通过标注,可以知道声音文件对应的内容,通过词典,可以知道字词的音素构成,这样才好进行声学模型及语音模型的训练。
中文语音识别需要大量的声音语料数据及其标注来进行模型训练,网络上有一些开源的语料库,基本上就几十,几百,最多也就上千小时的声音语料,而想要训练出一个可以商用的语音识别模型,通常需要几万甚至几十万的声音语料,语言组织方式越丰富,语料牵涉到的领域越多,那么词典必然会爆发式增长,绝对不是手工就能完成的,词典生成方法很关键。
现有的开源中文语料词典通常只针对当前最多几百小时的声音语料,超出范围的不会涉及,更不会有超出部分的词典生成方式,使用增量语料进行语音识别的训练过程中所需要的增量词典无法生成。另外开源工程多数用的是英文语料,生成词典的方式并不适合中文,譬如中文有多音字,同一单字,不同的词,需使用不同的标注。
发明内容
本发明的目的是提供一种用于语音识别的词典生成方法,能够适用于多音字的转化标注,在旧的词典转化文件基础上不断的增加新词典文件,降低后续新收集语料的词典标注的工作量。
本发明的上述技术目的是通过以下技术方案得以实现的:一种用于语音识别的词典生成方法,所述方法如下:
S1.使用开源分词工具对标注文件的词句进行分词,得到第一文件;使用开源词典标注脚本对第一文件进行音素标注,得到第二文件,再提取音素标注不成功的字词组成第三文件;
S2.使用多音字词组标注脚本,对第三文件进行音素标注,得到第四文件,再提取未转化的词,组成第五文件;
S3.使用开源分词工具将第五文件的字词全部切分为单字,组成第六文件;
S4.使用单字标注脚本对第六文件的单字进行音素标注,得到第七文件,再提取未转化的字词,组成第八文件;
S5.工作人员对第八文件的字词进行音素标注并得到第九文件;
S6.合并第一文件、第二文件、第四文件、第七文件以及第九文件得到新的词典文件;
S7.生成新的词典文件之后,以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本。
作为优选,开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为:使用文档编辑工具的列式操作进行批量字符操作,将待处理的文件中的字词替换成音素标注文件。
作为优选,所述开源词典标注脚本内含现有的基础词典文件,用于对词典文件内已有的字词进行音素标注。
作为优选,所述多音字词组标注脚本内含有多音字词组的词典文件,用于对多音字词组进行音素标注。
作为优选,所述单字标注脚本包含有现有的单字词典文件,用于对单字进行音素标注。
作为优选,所述开源分词工具包括开源分词软件,用于对词句分词或对词组分字。
作为优选,在开源分词工具对标注文件的词句进行分词之后,把标注文件的第一列wav文件名删掉,使用awk命令统计各个字词出现的次数生成统计文件,取出统计文件的第一列得到第一文件。
作为优选,词典文件的合并方式为:将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。
作为优选,开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。
综上所述,本发明具有以下有益效果:专门考虑了多音字的转化标注,使用很多的标注文件,只需要很少的人工操作,就可以得到语音识别必不可少的词典文件,并且在旧的词典转化文件基础上不断的增加新词典文件,降低后续新收集语料的词典标注的工作量,在语音识别模型训练中,结合标注文件核词典文件,通过标注,可以知道声音文件对应的内容,通过词典,可以知道字词的音素构成,以便更好的进行声学模型及语音模型的训练。
附图说明
图1是本发明整体流程图;
图2是本发明单字标注脚本创建流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
一种用于语音识别的词典生成方法,如图1所示,方法如下:
S1.使用开源分词工具对标注文件的词句进行分词,得到第一文件;使用开源词典标注脚本对第一文件进行音素标注,得到第二文件,再提取音素标注不成功的字词组成第三文件;
S2.使用多音字词组标注脚本,对第三文件进行音素标注,得到第四文件,再提取未转化的词,组成第五文件;
S3.使用开源分词工具将第五文件的字词全部切分为单字,组成第六文件;
S4.使用单字标注脚本对第六文件的单字进行音素标注,得到第七文件,再提取未转化的字词,组成第八文件;
S5.工作人员对第八文件的字词进行音素标注并得到第九文件;
S6.合并第一文件、第二文件、第四文件、第七文件以及第九文件得到新的词典文件;
S7.生成新的词典文件之后,以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本。
本实施例中,值得说明的是,开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为:使用文档编辑工具的列式操作进行批量字符操作,将待处理的文件中的字词替换成音素标注文件。
本实施例中,值得说明的是,开源词典标注脚本内含现有的基础词典文件,用于对词典文件内已有的字词进行音素标注。
本实施例中,值得说明的是,多音字词组标注脚本内含有多音字词组的词典文件,用于对多音字词组进行音素标注。
本实施例中,值得说明的是,如图2所示,单字标注脚本包含有现有的单字词典文件,用于对单字进行音素标注,创建单字标注脚本的流程为:首先提取开源词典的字和词,一般是第一列,根据每一行的长度排序,单字都会排在文档的前面,删掉后面二字及二字以上的词,然后使用开源词典标注脚本对将文档中的字词转化为音素标注,再列式合并标注前的文件,即生成单字词典,再手工生成单字标注脚本。
本实施例中,值得说明的是,开源分词工具包括开源分词软件,用于对词句分词或对词组分字,一般语音识别是以词为单位输出识别结果,所以标注文件一般都是经过分词的,如果不分词,那么识别结果会是以句子为单位,实时性会差很多。
本实施例中,值得说明的是,在开源分词工具对标注文件的词句进行分词之后,把标注文件的第一列wav文件名删掉,使用awk命令统计各个字词出现的次数生成统计文件,取出统计文件的第一列得到第一文件。
本实施例中,值得说明的是,词典文件的合并方式为:将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。
本实施例中,值得说明的是,开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。
综上所述,本发明的优势在于,本方法专门考虑了多音字的转化,使用很多的标注文件,只需要很少的人工操作,就可以得到语音识别必不可少的词典文件,并且在旧的词典转化文件基础上不断的增加新词典文件,降低后续新收集语料的词典标注的工作量,在语音识别模型训练中,结合标注文件核词典文件,通过标注,可以知道声音文件对应的内容,通过词典,可以知道字词的音素构成,以便更好的进行声学模型及语音模型的训练。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种用于语音识别的词典生成方法,其特征是:所述方法如下:
S1.使用开源分词工具对标注文件的词句进行分词,得到第一文件;使用开源词典标注脚本对第一文件进行音素标注,得到第二文件,再提取音素标注不成功的字词组成第三文件;
S2.使用多音字词组标注脚本,对第三文件进行音素标注,得到第四文件,再提取未转化的词,组成第五文件;
S3.使用开源分词工具将第五文件的字词全部切分为单字,组成第六文件;
S4.使用单字标注脚本对第六文件的单字进行音素标注,得到第七文件,再提取未转化的字词,组成第八文件;
S5.工作人员对第八文件的字词进行音素标注并得到第九文件;
S6.合并第一文件、第二文件、第四文件、第七文件以及第九文件得到新的词典文件;
S7.生成新的词典文件之后,以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本。
2.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:开源词典标注脚本、单字标注脚本以及多音字词组标注脚本的标注过程为:使用文档编辑工具的列式操作进行批量字符操作,将待处理的文件中的字词替换成音素标注文件。
3.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:所述开源词典标注脚本内含现有的基础词典文件,用于对词典文件内已有的字词进行音素标注。
4.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:所述多音字词组标注脚本内含有多音字词组的词典文件,用于对多音字词组进行音素标注。
5.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:所述单字标注脚本包含有现有的单字词典文件,用于对单字进行音素标注。
6.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:所述开源分词工具包括开源分词软件,用于对词句分词或对词组分字。
7.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:在开源分词工具对标注文件的词句进行分词之后,把标注文件的第一列wav文件名删掉,使用awk命令统计各个字词出现的次数生成统计文件,取出统计文件的第一列得到第一文件。
8.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:词典文件的合并方式为:将第二文件、第四文件、第七文件以及第九文件合并后再与第一文件进行列式合并。
9.根据权利要求1所述的一种用于语音识别的词典生成方法,其特征是:开源分词工具、开源词典标注脚本、单字标注脚本以及多音字词组标注脚本能够运行的操作系统包括linux操作系统。
CN201911180960.XA 2019-11-27 2019-11-27 一种用于语音识别的词典生成方法 Active CN110889278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911180960.XA CN110889278B (zh) 2019-11-27 2019-11-27 一种用于语音识别的词典生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911180960.XA CN110889278B (zh) 2019-11-27 2019-11-27 一种用于语音识别的词典生成方法

Publications (2)

Publication Number Publication Date
CN110889278A true CN110889278A (zh) 2020-03-17
CN110889278B CN110889278B (zh) 2023-09-05

Family

ID=69749003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911180960.XA Active CN110889278B (zh) 2019-11-27 2019-11-27 一种用于语音识别的词典生成方法

Country Status (1)

Country Link
CN (1) CN110889278B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质

Also Published As

Publication number Publication date
CN110889278B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN107657947B (zh) 基于人工智能的语音处理方法及其装置
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
CN107066455B (zh) 一种多语言智能预处理实时统计机器翻译系统
CN107145584B (zh) 一种基于n-gram模型的简历解析方法
CN101447185B (zh) 一种基于内容的音频快速分类方法
CN100568225C (zh) 文本中数字和特殊符号串的文字符号化处理方法及系统
CN110765759B (zh) 意图识别方法及装置
US6975985B2 (en) Method and system for the automatic amendment of speech recognition vocabularies
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
CN101446942A (zh) 一种自然语言句子的语义角色标注方法
CN109977398A (zh) 一种特定领域的语音识别文本纠错方法
CN104679735A (zh) 语用机器翻译方法
CN110991179A (zh) 基于电力专业术语的语义分析方法
CN108984159B (zh) 一种基于马尔可夫语言模型的缩略词组扩展方法
CN107797986B (zh) 一种基于lstm-cnn的混合语料分词方法
CN105225659A (zh) 一种指令式语音控制发音词典辅助生成方法
CN111933116B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111916063A (zh) 基于bpe编码的序列化方法、训练方法、系统及存储介质
CN110889278B (zh) 一种用于语音识别的词典生成方法
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
CN111179937A (zh) 文本处理的方法、设备和计算机可读存储介质
CN111354339B (zh) 词汇音素表构建方法、装置、设备及存储介质
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法
CN115688703A (zh) 一种特定领域文本纠错方法、存储介质和装置
CN112101003B (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant