CN111128186A - 多音字标音方法及装置 - Google Patents

多音字标音方法及装置 Download PDF

Info

Publication number
CN111128186A
CN111128186A CN201911398661.3A CN201911398661A CN111128186A CN 111128186 A CN111128186 A CN 111128186A CN 201911398661 A CN201911398661 A CN 201911398661A CN 111128186 A CN111128186 A CN 111128186A
Authority
CN
China
Prior art keywords
phonetic
vocabulary
voice
preset
transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911398661.3A
Other languages
English (en)
Other versions
CN111128186B (zh
Inventor
王鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911398661.3A priority Critical patent/CN111128186B/zh
Publication of CN111128186A publication Critical patent/CN111128186A/zh
Application granted granted Critical
Publication of CN111128186B publication Critical patent/CN111128186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Abstract

本发明是关于多音字标音方法及装置。该方法包括:获取语音交互信息;识别所述语音交互信息,获得语音识别结果;基于所述语音识别结果,得到语音反馈信息;确定所述语音反馈信息中的待注音词汇;利用预设声学模型对所述待标音词汇进行标音。通过本发明的技术方案,可利用该预设声学模型对该待标音词汇自动进行标音,以提高标音效率和准确率,避免人为标注发音。

Description

多音字标音方法及装置
技术领域
本发明涉及终端技术领域,尤其涉及多音字标音方法及装置。
背景技术
目前,在对多音字进行标注时,通常都是按照预先设置的规则从多音字的多个发音中选择一个发音进行标注,甚至是手动对多音字的发音进行标注,以确保多音字的发音是正确的,而这种标音方式准确率比较低,甚至需要过多人为操作。
发明内容
本发明实施例提供了多音字标音方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种多音字标音方法,包括:
获取语音交互信息;
识别所述语音交互信息,获得语音识别结果;
基于所述语音识别结果,得到语音反馈信息;
确定所述语音反馈信息中的待注音词汇;
利用预设声学模型对所述待标音词汇进行标音。
在一个实施例中,所述方法还包括:
获取预设语言模型和预设注音词典;
利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
在一个实施例中,将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
在一个实施例中,所述确定所述语音反馈信息中的待注音词汇,包括:
确定所述语音反馈信息中的多个实体;
根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述利用预设声学模型对所述待标音词汇进行标音,包括:
当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述方法还包括:
将对所述待标音词汇进行标音后的语音反馈信息进行播报。
根据本发明实施例的第二方面,提供一种多音字标音装置,包括:
第一获取模块,用于获取语音交互信息;
识别模块,用于识别所述语音交互信息,获得语音识别结果;
处理模块,用于基于所述语音识别结果,得到语音反馈信息;
确定模块,用于确定所述语音反馈信息中的待注音词汇;
标音模块,用于利用预设声学模型对所述待标音词汇进行标音。
在一个实施例中,所述装置还包括:
第二获取模块,用于获取预设语言模型和预设注音词典;
校正模块,用于利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
在一个实施例中,更新模块,用于将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
在一个实施例中,所述确定模块包括:
第一确定子模块,用于确定所述语音反馈信息中的多个实体;
第二确定子模块,用于根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述标音模块包括:
标音子模块,用于当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述装置还包括:
播报模块,用于将对所述待标音词汇进行标音后的语音反馈信息进行播报。
本发明的实施例提供的技术方案可以包括以下有益效果:
在获得语音交互信息后,可识别该语音交互信息以获得语音识别结果,然后自动确定语音识别结果中的待标音词汇,从而利用该预设声学模型对该待标音词汇自动进行标音,以提高标音效率和准确率,避免人为标注发音。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种多音字标音方法的流程图。
图2是根据一示例性实施例示出的一种多音字标音装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种多音字标音方法,该方法可用于多音字标音程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S105:
在步骤S101中,获取语音交互信息;
在步骤S102中,识别所述语音交互信息,获得语音识别结果;
在步骤S103中,基于所述语音识别结果,得到语音反馈信息;
语音反馈信息是执行主体根据语音识别结果反馈的交互信息。
在步骤S104中,确定所述语音反馈信息中的待注音词汇;
在步骤S105中,利用预设声学模型对所述待标音词汇进行标音(即对待标音词汇的发音、音调进行标注,如将待注音词汇“剥”标音为bo或bao)。
在获得语音交互信息后,可识别该语音交互信息以获得语音识别结果,然后基于所述语音识别结果,得到语音反馈信息,从而自动确定语音反馈信息中的待标音词汇,利用该预设声学模型在人机交互过程中对该待标音词汇自动进行标音,以提高标音效率和准确率,避免人为标注发音。
在一个实施例中,所述方法还包括:
获取预设语言模型和预设注音词典;
利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
在对所述待标音词汇初次进行标音之后,可利用预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正,以进一步提高待标音词汇的标音正确率,即能够更加准确地标注待标音词汇的发音。
在一个实施例中,将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
通过将注音校正后的所述待标音词汇添加至所述预设注音词典,可自动更新所述预设注音词典,以确保注音词典中的多音字在动态变化中不断保持最新发音。
在一个实施例中,所述确定所述语音识别结果中的待注音词汇,包括:
确定所述语音反馈信息中的多个实体;实体为语音反馈信息中的人名、公司名、建筑名、小区名等,如实体可以是“打电话给李重”“导航到莘松小区”。
根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述利用预设声学模型对所述待标音词汇进行标音,包括:
当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述方法还包括:
将对所述待标音词汇进行标音后的语音反馈信息进行播报。
在确定语音识别结果中的多个实体后,可确定各实体是否存在多音字,若存在,则将语音识别结果中的多音字或多音词自动确定为待标音词汇,然后基于语音交互信息中待标音词汇的发音、语音交互信息中除待标音词汇之外的其他词汇的发音(也即语音交互信息中除待标音词汇之外的上下文信息的发音)以及预设声学模型,对语音反馈信息中的待标音词汇进行标音,以便对结合用户对待标音词汇的发音、上下文发音以及声学模型对语音反馈信息中待标音词汇进行标音,以提高标音准确率,进而将准确标音的语音反馈信息进行播报。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述多音字标音方法,本发明实施例还提供一种多音字标音装置,如图2所示,该装置包括:
第一获取模块201,用于获取语音交互信息;
识别模块202,用于识别所述语音交互信息,获得语音识别结果;
处理模块203,用于基于所述语音识别结果,得到语音反馈信息;
确定模块204,用于确定所述语音反馈信息中的待注音词汇;
标音模块205,用于利用预设声学模型对所述待标音词汇进行标音。
在一个实施例中,所述装置还包括:
第二获取模块,用于获取预设语言模型和预设注音词典;
校正模块,用于利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
在一个实施例中,更新模块,用于将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
在一个实施例中,所述确定模块包括:
第一确定子模块,用于确定所述语音反馈信息中的多个实体;
第二确定子模块,用于根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述标音模块包括:
标音子模块,用于当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述装置还包括:
播报模块,用于将对所述待标音词汇进行标音后的语音反馈信息进行播报。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (8)

1.一种多音字标音方法,其特征在于,包括:
获取语音交互信息;
识别所述语音交互信息,获得语音识别结果;
基于所述语音识别结果,得到语音反馈信息;
确定所述语音反馈信息中的待注音词汇;
利用预设声学模型对所述待标音词汇进行标音。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预设语言模型和预设注音词典;
利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
3.根据权利要求2所述的方法,其特征在于,
将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
所述确定所述语音反馈信息中的待注音词汇,包括:
确定所述语音反馈信息中的多个实体;
根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述利用预设声学模型对所述待标音词汇进行标音,包括:
当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述方法还包括:
将对所述待标音词汇进行标音后的语音反馈信息进行播报。
5.一种多音字标音装置,其特征在于,包括:
第一获取模块,用于获取语音交互信息;
识别模块,用于识别所述语音交互信息,获得语音识别结果;
处理模块,用于基于所述语音识别结果,得到语音反馈信息;
确定模块,用于确定所述语音反馈信息中的待注音词汇;
标音模块,用于利用预设声学模型对所述待标音词汇进行标音。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取预设语言模型和预设注音词典;
校正模块,用于利用所述预设语言模型和所述预设注音词典,对标音后的所述待标音词汇进行注音校正。
7.根据权利要求6所述的装置,其特征在于,
更新模块,用于将注音校正后的所述待标音词汇加入所述预设注音词典,以更新所述预设注音词典。
8.根据权利要求5至7中任一项所述的装置,其特征在于,
所述确定模块包括:
第一确定子模块,用于确定所述语音反馈信息中的多个实体;
第二确定子模块,用于根据所述多个实体中各实体是否为多音字,确定所述待标音词汇;
所述标音模块包括:
标音子模块,用于当所述语音交互信息包括所述待标音词汇时,基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型,对所述语音反馈信息中的待标音词汇进行标音;
所述装置还包括:
播报模块,用于将对所述待标音词汇进行标音后的语音反馈信息进行播报。
CN201911398661.3A 2019-12-30 2019-12-30 多音字标音方法及装置 Active CN111128186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911398661.3A CN111128186B (zh) 2019-12-30 2019-12-30 多音字标音方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911398661.3A CN111128186B (zh) 2019-12-30 2019-12-30 多音字标音方法及装置

Publications (2)

Publication Number Publication Date
CN111128186A true CN111128186A (zh) 2020-05-08
CN111128186B CN111128186B (zh) 2022-06-17

Family

ID=70505455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911398661.3A Active CN111128186B (zh) 2019-12-30 2019-12-30 多音字标音方法及装置

Country Status (1)

Country Link
CN (1) CN111128186B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151072A (zh) * 2020-08-21 2020-12-29 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN113157852A (zh) * 2021-04-26 2021-07-23 深圳市优必选科技股份有限公司 语音处理的方法、系统、电子设备及存储介质
CN113268981A (zh) * 2021-05-27 2021-08-17 咪咕音乐有限公司 一种信息处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152043A (ja) * 2006-12-18 2008-07-03 Toshiba Corp 音声認識装置及び音声認識方法
JP2010197859A (ja) * 2009-02-26 2010-09-09 Gifu Univ 発話差音声認識システム
CN106710585A (zh) * 2016-12-22 2017-05-24 上海语知义信息技术有限公司 语音交互过程中的多音字播报方法及系统
CN110491365A (zh) * 2018-05-10 2019-11-22 微软技术许可有限责任公司 为纯文本文档生成音频

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152043A (ja) * 2006-12-18 2008-07-03 Toshiba Corp 音声認識装置及び音声認識方法
JP2010197859A (ja) * 2009-02-26 2010-09-09 Gifu Univ 発話差音声認識システム
CN106710585A (zh) * 2016-12-22 2017-05-24 上海语知义信息技术有限公司 语音交互过程中的多音字播报方法及系统
CN110491365A (zh) * 2018-05-10 2019-11-22 微软技术许可有限责任公司 为纯文本文档生成音频

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151072A (zh) * 2020-08-21 2020-12-29 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN113157852A (zh) * 2021-04-26 2021-07-23 深圳市优必选科技股份有限公司 语音处理的方法、系统、电子设备及存储介质
CN113268981A (zh) * 2021-05-27 2021-08-17 咪咕音乐有限公司 一种信息处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN111128186B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN111128186B (zh) 多音字标音方法及装置
EP1203366B1 (en) Automatically determining the accuracy of a pronunciation dictionary in a speech recognition system
US5638425A (en) Automated directory assistance system using word recognition and phoneme processing method
EP1226574B1 (en) Method and apparatus for discriminative training of acoustic models of a speech recognition system
US20170148432A1 (en) System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections
US7996224B2 (en) System and method of using meta-data in speech processing
JP2017058674A (ja) 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
US20020111805A1 (en) Methods for generating pronounciation variants and for recognizing speech
Aleksic et al. Improved recognition of contact names in voice commands
EP3097553B1 (en) Method and apparatus for exploiting language skill information in automatic speech recognition
CN106935239A (zh) 一种发音词典的构建方法及装置
CN110675855A (zh) 一种语音识别方法、电子设备及计算机可读存储介质
NO309750B1 (no) Talegjenkjenning
TWI421857B (zh) 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
CN112634866A (zh) 语音合成模型训练和语音合成方法、装置、设备及介质
CN111985234B (zh) 语音文本纠错方法
CN112805734A (zh) 用于唤起对发言禁止用语的注意的演讲辅助装置
US6377921B1 (en) Identifying mismatches between assumed and actual pronunciations of words
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN112767942B (zh) 语音识别引擎适配方法、装置、电子设备及存储介质
CN111143528B (zh) 多音字词汇的标注方法及装置
CN113158649B (zh) 一种用于地铁站点名识别的纠错方法、设备、介质及产品
KR20170056253A (ko) 영어 발음 평가 방법 및 시스템
Bartisiute et al. Speech server based Lithuanian voice commands recognition
CA2914677A1 (en) Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant