CN111128186B - 多音字标音方法及装置 - Google Patents
多音字标音方法及装置 Download PDFInfo
- Publication number
- CN111128186B CN111128186B CN201911398661.3A CN201911398661A CN111128186B CN 111128186 B CN111128186 B CN 111128186B CN 201911398661 A CN201911398661 A CN 201911398661A CN 111128186 B CN111128186 B CN 111128186B
- Authority
- CN
- China
- Prior art keywords
- phonetic
- vocabulary
- voice
- preset
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000035897 transcription Effects 0.000 title claims abstract description 74
- 238000013518 transcription Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000003993 interaction Effects 0.000 claims abstract description 40
- 238000012937 correction Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明是关于多音字标音方法及装置。该方法包括:获取语音交互信息;识别所述语音交互信息,获得语音识别结果;基于所述语音识别结果,得到语音反馈信息;确定所述语音反馈信息中的待注音词汇;利用预设声学模型对所述待标音词汇进行标音。通过本发明的技术方案,可利用该预设声学模型对该待标音词汇自动进行标音,以提高标音效率和准确率,避免人为标注发音。
Description
技术领域
本发明涉及终端技术领域,尤其涉及多音字标音方法及装置。
背景技术
目前,在对多音字进行标注时,通常都是按照预先设置的规则从多音字的多个发音中选择一个发音进行标注,甚至是手动对多音字的发音进行标注,以确保多音字的发音是正确的,而这种标音方式准确率比较低,甚至需要过多人为操作。
发明内容
本发明实施例提供了多音字标音方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种多音字标音方法,包括:
获取语音交互信息;
识别所述语音交互信息,获得语音识别结果;
基于所述语音识别结果,得到语音反馈信息;
确定所述语音反馈信息中的待注音词汇;
利用预设声学模型对所述待标音词汇进行标音。
在一个实施例中,所述方法还包括:
获取预设语言模型和预设注音词典;
利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
在一个实施例中,将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
在一个实施例中,所述确定所述语音反馈信息中的待注音词汇,包括:
确定所述语音反馈信息中的多个实体;
根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述利用预设声学模型对所述待标音词汇进行标音,包括:
当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述方法还包括:
将对所述待标音词汇进行标音后的语音反馈信息进行播报。
根据本发明实施例的第二方面,提供一种多音字标音装置,包括:
第一获取模块,用于获取语音交互信息;
识别模块,用于识别所述语音交互信息,获得语音识别结果;
处理模块,用于基于所述语音识别结果,得到语音反馈信息;
确定模块,用于确定所述语音反馈信息中的待注音词汇;
标音模块,用于利用预设声学模型对所述待标音词汇进行标音。
在一个实施例中,所述装置还包括:
第二获取模块,用于获取预设语言模型和预设注音词典;
校正模块,用于利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
在一个实施例中,更新模块,用于将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
在一个实施例中,所述确定模块包括:
第一确定子模块,用于确定所述语音反馈信息中的多个实体;
第二确定子模块,用于根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述标音模块包括:
标音子模块,用于当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述装置还包括:
播报模块,用于将对所述待标音词汇进行标音后的语音反馈信息进行播报。
本发明的实施例提供的技术方案可以包括以下有益效果:
在获得语音交互信息后,可识别该语音交互信息以获得语音识别结果,然后自动确定语音识别结果中的待标音词汇,从而利用该预设声学模型对该待标音词汇自动进行标音,以提高标音效率和准确率,避免人为标注发音。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种多音字标音方法的流程图。
图2是根据一示例性实施例示出的一种多音字标音装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种多音字标音方法,该方法可用于多音字标音程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S105:
在步骤S101中,获取语音交互信息;
在步骤S102中,识别所述语音交互信息,获得语音识别结果;
在步骤S103中,基于所述语音识别结果,得到语音反馈信息;
语音反馈信息是执行主体根据语音识别结果反馈的交互信息。
在步骤S104中,确定所述语音反馈信息中的待注音词汇;
在步骤S105中,利用预设声学模型对所述待标音词汇进行标音(即对待标音词汇的发音、音调进行标注,如将待注音词汇“剥”标音为bo或bao)。
在获得语音交互信息后,可识别该语音交互信息以获得语音识别结果,然后基于所述语音识别结果,得到语音反馈信息,从而自动确定语音反馈信息中的待标音词汇,利用该预设声学模型在人机交互过程中对该待标音词汇自动进行标音,以提高标音效率和准确率,避免人为标注发音。
在一个实施例中,所述方法还包括:
获取预设语言模型和预设注音词典;
利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
在对所述待标音词汇初次进行标音之后,可利用预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正,以进一步提高待标音词汇的标音正确率,即能够更加准确地标注待标音词汇的发音。
在一个实施例中,将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
通过将注音校正后的所述待标音词汇添加至所述预设注音词典,可自动更新所述预设注音词典,以确保注音词典中的多音字在动态变化中不断保持最新发音。
在一个实施例中,所述确定所述语音识别结果中的待注音词汇,包括:
确定所述语音反馈信息中的多个实体;实体为语音反馈信息中的人名、公司名、建筑名、小区名等,如实体可以是“打电话给李重”“导航到莘松小区”。
根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述利用预设声学模型对所述待标音词汇进行标音,包括:
当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述方法还包括:
将对所述待标音词汇进行标音后的语音反馈信息进行播报。
在确定语音识别结果中的多个实体后,可确定各实体是否存在多音字,若存在,则将语音识别结果中的多音字或多音词自动确定为待标音词汇,然后基于语音交互信息中待标音词汇的发音、语音交互信息中除待标音词汇之外的其他词汇的发音(也即语音交互信息中除待标音词汇之外的上下文信息的发音)以及预设声学模型,对语音反馈信息中的待标音词汇进行标音,以便对结合用户对待标音词汇的发音、上下文发音以及声学模型对语音反馈信息中待标音词汇进行标音,以提高标音准确率,进而将准确标音的语音反馈信息进行播报。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述多音字标音方法,本发明实施例还提供一种多音字标音装置,如图2所示,该装置包括:
第一获取模块201,用于获取语音交互信息;
识别模块202,用于识别所述语音交互信息,获得语音识别结果;
处理模块203,用于基于所述语音识别结果,得到语音反馈信息;
确定模块204,用于确定所述语音反馈信息中的待注音词汇;
标音模块205,用于利用预设声学模型对所述待标音词汇进行标音。
在一个实施例中,所述装置还包括:
第二获取模块,用于获取预设语言模型和预设注音词典;
校正模块,用于利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
在一个实施例中,更新模块,用于将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
在一个实施例中,所述确定模块包括:
第一确定子模块,用于确定所述语音反馈信息中的多个实体;
第二确定子模块,用于根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述标音模块包括:
标音子模块,用于当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述装置还包括:
播报模块,用于将对所述待标音词汇进行标音后的语音反馈信息进行播报。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (4)
1.一种多音字标音方法,其特征在于,包括:
获取语音交互信息;
识别所述语音交互信息,获得语音识别结果;
基于所述语音识别结果,得到语音反馈信息;
确定所述语音反馈信息中的待标音词汇;
利用预设声学模型对所述待标音词汇进行标音
获取预设语言模型和预设注音词典;
利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正;
将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
2.根据权利要求1中任一项所述的方法,其特征在于,
所述确定所述语音反馈信息中的待标音词汇,包括:
确定所述语音反馈信息中的多个实体;
根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述利用预设声学模型对所述待标音词汇进行标音,包括:
当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述方法还包括:
将对所述待标音词汇进行标音后的语音反馈信息进行播报。
3.一种多音字标音装置,其特征在于,包括:
第一获取模块,用于获取语音交互信息;
识别模块,用于识别所述语音交互信息,获得语音识别结果;
处理模块,用于基于所述语音识别结果,得到语音反馈信息;
确定模块,用于确定所述语音反馈信息中的待标音词汇;
标音模块,用于利用预设声学模型对所述待标音词汇进行标音;
第二获取模块,用于获取预设语言模型和预设注音词典;
校正模块,用于利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正;
更新模块,用于将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
4.根据权利要求3中任一项所述的装置,其特征在于,
所述确定模块包括:
第一确定子模块,用于确定所述语音反馈信息中的多个实体;
第二确定子模块,用于根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述标音模块包括:
标音子模块,用于当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述装置还包括:
播报模块,用于将对所述待标音词汇进行标音后的语音反馈信息进行播报。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911398661.3A CN111128186B (zh) | 2019-12-30 | 2019-12-30 | 多音字标音方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911398661.3A CN111128186B (zh) | 2019-12-30 | 2019-12-30 | 多音字标音方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111128186A CN111128186A (zh) | 2020-05-08 |
CN111128186B true CN111128186B (zh) | 2022-06-17 |
Family
ID=70505455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911398661.3A Active CN111128186B (zh) | 2019-12-30 | 2019-12-30 | 多音字标音方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128186B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151072B (zh) * | 2020-08-21 | 2024-07-02 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
CN113157852A (zh) * | 2021-04-26 | 2021-07-23 | 深圳市优必选科技股份有限公司 | 语音处理的方法、系统、电子设备及存储介质 |
CN113268981B (zh) * | 2021-05-27 | 2023-04-28 | 咪咕音乐有限公司 | 一种信息处理方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152043A (ja) * | 2006-12-18 | 2008-07-03 | Toshiba Corp | 音声認識装置及び音声認識方法 |
JP2010197859A (ja) * | 2009-02-26 | 2010-09-09 | Gifu Univ | 発話差音声認識システム |
CN106710585A (zh) * | 2016-12-22 | 2017-05-24 | 上海语知义信息技术有限公司 | 语音交互过程中的多音字播报方法及系统 |
CN110491365A (zh) * | 2018-05-10 | 2019-11-22 | 微软技术许可有限责任公司 | 为纯文本文档生成音频 |
-
2019
- 2019-12-30 CN CN201911398661.3A patent/CN111128186B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152043A (ja) * | 2006-12-18 | 2008-07-03 | Toshiba Corp | 音声認識装置及び音声認識方法 |
JP2010197859A (ja) * | 2009-02-26 | 2010-09-09 | Gifu Univ | 発話差音声認識システム |
CN106710585A (zh) * | 2016-12-22 | 2017-05-24 | 上海语知义信息技术有限公司 | 语音交互过程中的多音字播报方法及系统 |
CN110491365A (zh) * | 2018-05-10 | 2019-11-22 | 微软技术许可有限责任公司 | 为纯文本文档生成音频 |
Also Published As
Publication number | Publication date |
---|---|
CN111128186A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128186B (zh) | 多音字标音方法及装置 | |
EP1203366B1 (en) | Automatically determining the accuracy of a pronunciation dictionary in a speech recognition system | |
EP1226574B1 (en) | Method and apparatus for discriminative training of acoustic models of a speech recognition system | |
US20170148432A1 (en) | System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections | |
US20020111805A1 (en) | Methods for generating pronounciation variants and for recognizing speech | |
US10186256B2 (en) | Method and apparatus for exploiting language skill information in automatic speech recognition | |
US9330665B2 (en) | Automatic updating of confidence scoring functionality for speech recognition systems with respect to a receiver operating characteristic curve | |
JPH10507536A (ja) | 言語認識 | |
CN105282332B (zh) | 语音拨号方法及装置 | |
CN108735200A (zh) | 一种说话人自动标注方法 | |
KR20070060581A (ko) | 화자적응 방법 및 장치 | |
CN110808049B (zh) | 语音标注文本修正方法、计算机设备和存储介质 | |
JP2015049254A (ja) | 音声データ認識システム及び音声データ認識方法 | |
KR20170127618A (ko) | 음성인식 학습 시스템 | |
CN111985234A (zh) | 语音文本纠错方法 | |
US6377921B1 (en) | Identifying mismatches between assumed and actual pronunciations of words | |
CN112216284A (zh) | 训练数据更新方法及系统、语音识别方法及系统、设备 | |
CN112767942B (zh) | 语音识别引擎适配方法、装置、电子设备及存储介质 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN105447019A (zh) | 一种基于用户使用场景的输入识别结果校正方法和系统 | |
CN113158649B (zh) | 一种用于地铁站点名识别的纠错方法、设备、介质及产品 | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
US20150206539A1 (en) | Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning | |
CN111143528B (zh) | 多音字词汇的标注方法及装置 | |
CN113744718A (zh) | 语音文本的输出方法及装置、存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |