CN105225659A - 一种指令式语音控制发音词典辅助生成方法 - Google Patents
一种指令式语音控制发音词典辅助生成方法 Download PDFInfo
- Publication number
- CN105225659A CN105225659A CN201510574070.2A CN201510574070A CN105225659A CN 105225659 A CN105225659 A CN 105225659A CN 201510574070 A CN201510574070 A CN 201510574070A CN 105225659 A CN105225659 A CN 105225659A
- Authority
- CN
- China
- Prior art keywords
- phonetic order
- character string
- chinese character
- voice command
- computer program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种指令式语音控制发音词典辅助生成方法,包含以下步骤:a)向计算机程序输入语音指令汉字字符串及该语音指令汉字字符串对应的音调信息;b)计算机程序将语音指令汉字字符串转换为对应的语音指令拼音字符串;c)计算机程序将语音指令拼音字符串转换为语音指令音素发音注记字符串;d)由计算机程序在语音控制发音字典文件中添加语音指令汉字字符及该语音指令汉字字符对应的音素发音注记字符串。本发明将人工全手动输入编辑发音字典文件的方式转变成计算机辅助生成方式,有效降低语音控制产品开发、测试、修改过程的工作量。
Description
技术领域
本发明属语音处理技术,模式识别技术。
背景技术
随着语音识别技术的发展和不断成熟,语音识别技术产品的应用领域和范围在不断扩展,逐渐深入到人们生活、生产的各个环节,成为改善生活和工作质量、提高效率的重要支撑工具。
语音识别技术的应用领域不同,其实现的方式有所区别。以互联网平台为基础的语音识别服务依托于强大的数据服务器和背后庞大的系统维护专业团队,能够为人们提供日常生活交流的语音服务。然而对于各专业领域的工作系统,一般不具备上述条件,适合采用专用的指令式的语音控制操作方式,这种语音控制功能一般不需要日常更新和维护,也不需要大型的服务器平台,能够实时识别响应,适合于在各专业生产领域内广泛应用。
目前的语音识别技术,在实现过程中包含两部分的处理,即语音模型处理和语法模型处理。语音模型处理主要基于连续HMM模型,识别出语音的发音序列,语法模型处理中包含了由各字词组成语句的语言组织语法规则。大规模互联网语音识别应用采用无限词汇,其词汇和语法规则需要不断地维护和刷新,以适应于不断涌现的新的词汇和用法;专用系统的语音控制仅仅针对系统人机操作本身有限的词汇,其词法和语法相对固定,不需要频繁刷新维护,因此在语音识别的实现技术上可以采用预先设计定义的词法和语法结构。其中,发音字典文件就是定义指令式语音控制目标系统指令词汇及其发音的专用词法文件。
发音字典文件的基本实现形式如下:
a)每个词(或短语)为一条记录,每条记录包括词(短语)的汉字码和发音两部分数据;
b)发音为该词(短语)的发音序列在识别模型库中对应的单音素发音注记字符组合。
其中,每个单音素发音注记字符是模型库对每个基本发音单位的符号表示,这些注记字符实际上是与拼音(或国际音标)功能相似的另一套音标表示方式,语音识别器使用这些注记字符的组合用于定义所有的语言发音,同时也存在着注记字符组合与汉语拼音的一一对应关系。
发音字典在语音识别中主要应用在两个方面:其一是在识别过程中建立识别出的声音音素模型与字(词)和语句之间的映射关系;其二是用于个性化自适应处理过程中的自适应样本采集和训练脚本。
发音字典中包含了语音控制系统所有语音指令中所包含的字词,其数量规模随实际应用系统而定,复杂的系统(飞机驾驶舱控制)可以有近1000条的词条规模。
在指令式语音识别控制系统开发过程中,一直采用人工编辑的方式产生发音字典文件,这需要编辑人员非常熟悉单音素发音注记字符,一套汉字注记符包含143个基本音素发音符号。对于一套指令数量较多的语音控制系统,人工编辑发音字典文件过程中难免会产生一些错误,需要反复的测试来查找修正这些错误,耗费较多的人力和时间。
本发明面向中大词汇量的语音控制产品,利用该发明可以有效降低语音控制产品开发过程的工作量,降低实现难度,并能够保证语音控制产品的开发质量,降低对相关开发人员的专业性要求,实现语音控制产品开发人力资源的合理利用,也有助于提高产品开发效率、缩短产品开发周期,进而产生良好的经济效益。
发明内容
此项发明的目的在于提供一种指令式语音控制发音词典辅助生成方法,将人工全手动输入编辑发音字典文件的方式转变成计算机辅助生成方式,有效降低语音控制产品开发、测试、修改过程的工作量,消除产生人为差错的可能性,提高语音控制产品的开发质量和效率,节省人力资源、缩短产品开发周期。
本发明的发明目的通过以下技术方案实现:
一种指令式语音控制发音词典辅助生成方法,包含以下步骤:
a)向计算机程序输入语音指令汉字字符串及该语音指令汉字字符串对应的音调信息;
b)计算机程序按语音指令汉字字符串中字符出现的依次将语音指令汉字字符转换为对应的语音指令拼音字符;
c)计算机程序将语音指令拼音字符转换为语音指令音素发音注记字符;
d)由计算机程序在语音控制发音字典文件中添加语音指令汉字字符及该语音指令汉字字符对应的音素发音注记字符。
本发明的有益效果在于:
通过使用该发明,语音控制发音字典文件的计算机处理生成效率比全人工编辑提高3倍以上,不会产生差错,免除了针对语音控制发音字典文件的错误查找和修正,降低了语音控制产品的整体缺陷故障因素。
附图说明
图1为本发明的实例界面;
图2为本发明的实施流程图。
具体实现方式
下面结合附图和实施例对本发明作进一步的详细描述。
1、操作界面与基本处理流程
操作界面的形式如附图1所示。
其中,文件管理菜单中实现文件创建、文件打开、文件保存的功能;在查找修改菜单中实现添加、查找及修改字典内容的功能选择;查找结果框中显示查找指定指令词或短语有无的结果;添加词条按钮用于选择添加新的指令词或短语;确认按钮用于确认当前指令词发音标注码的生成结束;添加停顿按钮用于选择是否在指令词发音标注码尾部添加停顿标注。词条输入框用于输入指令词条汉字字符串;字音选择按钮框将显示出当前处理字符的所有拼音发音,提供操作者加以选择,三角箭头按钮用于在输入的指令字符串中选择当前处理的字符;发音注记框显示出当前已处理字符的发音注记转换结果。
整体的基本处理流程如附图2所示。对于每一个输入的指令词或短语字符串,按照每个汉字在该字符串中出现的顺序逐一人工确定其在指令中的发音,计算机程序将该发音的拼音转换成相应的音素发音注记符,顺序拼接各音素发音注记符形成与指令字符串相对应的因素发音注记符串,再根据实际需要选择在其末尾处添加停顿注记符,完成一条指令词或短语的音素发音注记符转换处理。
2、汉字字符与拼音字符串的转换
本发明实例中,汉字字符串与拼音字符串的转换,主要用于选择汉字在语音指令中的实际发音,并获得相应的拼音表示字符串。
本发明在实现过程中使用带有音调标注的汉字-拼音对照表,可用汉字字符查找出其对应的所有发音的拼音字符串及其音调标注。其中,汉字-拼音对照表可以在互联网的相关网站获得。其查找方法可根据该表的编排规律自行确定。
3、拼音字符串与音素发音注记字符串的转换
本发明实例中,拼音字符串与音素发音注记字符串的转换是利用拼音-注记符对照表,可用拼音查找出其相应的音素发音注记符字符串。该表是和语音模型库配套的数据文件,共有1000多条记录,包含了所有汉语中出现的发音拼音,每条记录中包含了带声调的拼音字符串和相对应的音素发音注记符字符串,其查找方法可根据该表的编排规律自行确定。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (1)
1.一种指令式语音控制发音词典辅助生成方法,包含以下步骤:
a)向计算机程序输入语音指令汉字字符串及该语音指令汉字字符串对应的音调信息;
b)计算机程序按语音指令汉字字符串中字符出现的依次将语音指令汉字字符转换为对应的语音指令拼音字符;
c)计算机程序将语音指令拼音字符转换为语音指令音素发音注记字符;
d)由计算机程序在语音控制发音字典文件中添加语音指令汉字字符及该语音指令汉字字符对应的音素发音注记字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510574070.2A CN105225659A (zh) | 2015-09-10 | 2015-09-10 | 一种指令式语音控制发音词典辅助生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510574070.2A CN105225659A (zh) | 2015-09-10 | 2015-09-10 | 一种指令式语音控制发音词典辅助生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105225659A true CN105225659A (zh) | 2016-01-06 |
Family
ID=54994570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510574070.2A Pending CN105225659A (zh) | 2015-09-10 | 2015-09-10 | 一种指令式语音控制发音词典辅助生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105225659A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108008885A (zh) * | 2017-11-15 | 2018-05-08 | 中国航空无线电电子研究所 | 指令式语音控制语法文件辅助生成系统 |
CN109918619A (zh) * | 2019-01-07 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
WO2020187301A1 (zh) * | 2019-03-20 | 2020-09-24 | 海信视像科技股份有限公司 | 节目名检索辅助装置以及节目名检索辅助方法 |
CN113506559A (zh) * | 2021-07-21 | 2021-10-15 | 成都启英泰伦科技有限公司 | 一种根据越南语书写文本生成发音词典的方法 |
CN113724710A (zh) * | 2021-10-19 | 2021-11-30 | 广东优碧胜科技有限公司 | 语音识别方法及装置、电子设备、计算机可读存储介质 |
CN109918619B (zh) * | 2019-01-07 | 2024-04-26 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1315722A (zh) * | 2000-03-28 | 2001-10-03 | 松下电器产业株式会社 | 用于汉语语音识别系统的连续语音处理方法和装置 |
CN1666253A (zh) * | 2002-07-11 | 2005-09-07 | 索尼电子有限公司 | 利用优化音素集进行普通话语音识别的系统和方法 |
CN1753083A (zh) * | 2004-09-24 | 2006-03-29 | 中国科学院声学研究所 | 语音标记方法、系统及基于语音标记的语音识别方法和系统 |
CN101286317A (zh) * | 2008-05-30 | 2008-10-15 | 同济大学 | 语音识别装置、模型训练方法、及交通信息服务平台 |
US20090150157A1 (en) * | 2007-12-07 | 2009-06-11 | Kabushiki Kaisha Toshiba | Speech processing apparatus and program |
US20100312550A1 (en) * | 2009-06-03 | 2010-12-09 | Lee Gil Ho | Apparatus and method of extending pronunciation dictionary used for speech recognition |
CN102314878A (zh) * | 2010-06-30 | 2012-01-11 | 上海视加信息科技有限公司 | 一种音素自动切分方法 |
-
2015
- 2015-09-10 CN CN201510574070.2A patent/CN105225659A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1315722A (zh) * | 2000-03-28 | 2001-10-03 | 松下电器产业株式会社 | 用于汉语语音识别系统的连续语音处理方法和装置 |
CN1666253A (zh) * | 2002-07-11 | 2005-09-07 | 索尼电子有限公司 | 利用优化音素集进行普通话语音识别的系统和方法 |
CN1753083A (zh) * | 2004-09-24 | 2006-03-29 | 中国科学院声学研究所 | 语音标记方法、系统及基于语音标记的语音识别方法和系统 |
US20090150157A1 (en) * | 2007-12-07 | 2009-06-11 | Kabushiki Kaisha Toshiba | Speech processing apparatus and program |
CN101286317A (zh) * | 2008-05-30 | 2008-10-15 | 同济大学 | 语音识别装置、模型训练方法、及交通信息服务平台 |
US20100312550A1 (en) * | 2009-06-03 | 2010-12-09 | Lee Gil Ho | Apparatus and method of extending pronunciation dictionary used for speech recognition |
CN102314878A (zh) * | 2010-06-30 | 2012-01-11 | 上海视加信息科技有限公司 | 一种音素自动切分方法 |
Non-Patent Citations (2)
Title |
---|
王宁等: "《汉语语音音素分割的一种新方法》", 《上海大学学报(自然科学版)》 * |
黄中伟等: "《普通话语音识别中的基本音素分析》", 《深圳大学学报理工版》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108008885A (zh) * | 2017-11-15 | 2018-05-08 | 中国航空无线电电子研究所 | 指令式语音控制语法文件辅助生成系统 |
CN109918619A (zh) * | 2019-01-07 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
CN109918619B (zh) * | 2019-01-07 | 2024-04-26 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
WO2020187301A1 (zh) * | 2019-03-20 | 2020-09-24 | 海信视像科技股份有限公司 | 节目名检索辅助装置以及节目名检索辅助方法 |
CN113506559A (zh) * | 2021-07-21 | 2021-10-15 | 成都启英泰伦科技有限公司 | 一种根据越南语书写文本生成发音词典的方法 |
CN113506559B (zh) * | 2021-07-21 | 2023-06-09 | 成都启英泰伦科技有限公司 | 一种根据越南语书写文本生成发音词典的方法 |
CN113724710A (zh) * | 2021-10-19 | 2021-11-30 | 广东优碧胜科技有限公司 | 语音识别方法及装置、电子设备、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
Jiampojamarn et al. | Joint processing and discriminative training for letter-to-phoneme conversion | |
CN103823857B (zh) | 基于自然语言处理的空间信息检索方法 | |
Kaur et al. | Review of machine transliteration techniques | |
CA2650614A1 (en) | System and method for generating a pronunciation dictionary | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN105225659A (zh) | 一种指令式语音控制发音词典辅助生成方法 | |
CN104049963A (zh) | 汉语语音控制机电设备运行的方法 | |
Parlikar et al. | The festvox indic frontend for grapheme to phoneme conversion | |
CN101576909A (zh) | 一种蒙古语数字化知识库系统构建方法 | |
Schmidt et al. | A swiss german dictionary: Variation in speech and writing | |
CN104049964A (zh) | 汉语语音近距或远程控制机电设备运行的方法 | |
CN109213846A (zh) | 一种自然语言处理系统 | |
József et al. | Automated grapheme-to-phoneme conversion system for Romanian | |
CN104049965A (zh) | 外语语音控制机电设备运行的方法 | |
CN103164396A (zh) | 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法 | |
JP2006236037A (ja) | 音声対話コンテンツ作成方法、装置、プログラム、記録媒体 | |
Liu et al. | A maximum entropy based hierarchical model for automatic prosodic boundary labeling in mandarin | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN115171647A (zh) | 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质 | |
CN113362801A (zh) | 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质 | |
CN103853705A (zh) | 计算机汉语语音与外语语音实时语音字幕翻译方法 | |
CN103577148A (zh) | 语音朗读方法及装置 | |
CN109284012A (zh) | 一种古彝文语言输入控制系统及方法、信息数据处理终端 | |
CN108008885A (zh) | 指令式语音控制语法文件辅助生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160106 |