CN111143528B - 多音字词汇的标注方法及装置 - Google Patents

多音字词汇的标注方法及装置 Download PDF

Info

Publication number
CN111143528B
CN111143528B CN201911325565.6A CN201911325565A CN111143528B CN 111143528 B CN111143528 B CN 111143528B CN 201911325565 A CN201911325565 A CN 201911325565A CN 111143528 B CN111143528 B CN 111143528B
Authority
CN
China
Prior art keywords
word
dialogue
voice
tone
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911325565.6A
Other languages
English (en)
Other versions
CN111143528A (zh
Inventor
范久慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911325565.6A priority Critical patent/CN111143528B/zh
Publication of CN111143528A publication Critical patent/CN111143528A/zh
Application granted granted Critical
Publication of CN111143528B publication Critical patent/CN111143528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明是关于多音字词汇的标注方法及装置。该方法包括:接收对话语音;根据所述对话语音查询目标多音字词汇库;根据所述目标多音字词汇库对所述对话语音进行拼音标注。通过本发明的技术方案,可对对话语音自动地进行拼音标注,从而提高多音字词汇的语音标注准确率和效率,避免人为标注多音字的拼音或声调。

Description

多音字词汇的标注方法及装置
技术领域
本发明涉及语音处理技术领域,尤其涉及多音字词汇的标注方法及装置。
背景技术
目前,在对多音字词汇进行标注时,通常都是在庞大的多音字词汇库中找到多音字然后进行人为标注,即人为标注多音字的拼音或声调,而这种语音标注方式显然准确率低、效率差。
发明内容
本发明实施例提供了多音字词汇的标注方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种多音字词汇的标注方法,包括:
接收对话语音;
根据所述对话语音查询目标多音字词汇库;
根据所述目标多音字词汇库对所述对话语音进行拼音标注。
在一个实施例中,所述根据所述对话语音查询目标多音字词汇库,包括:
根据所述对话语音查询对话意图;
根据所述对话意图查询所述目标多音字词汇库。
在一个实施例中,所述方法还包括:
基于多个预设对话的意图,创建多个多音字词汇库;
所述根据所述对话语音查询对话意图,包括:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述根据所述对话意图查询所述目标多音字词汇库,包括:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
在一个实施例中,所述根据所述目标多音字词汇库对所述对话语音进行拼音标注,包括:
从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
利用所述多音字词汇,对所述对话语音进行拼音标注。
根据本发明实施例的第二方面,提供一种多音字词汇的标注装置,包括:
接收模块,用于接收对话语音;
查询模块,用于根据所述对话语音查询目标多音字词汇库;
标注模块,用于根据所述目标多音字词汇库对所述对话语音进行拼音标注。
在一个实施例中,所述查询模块包括:
第一查询子模块,用于根据所述对话语音查询对话意图;
第二查询子模块,用于根据所述对话意图查询所述目标多音字词汇库。
在一个实施例中,所述装置还包括:
创建模块,用于基于多个预设对话的意图,创建多个多音字词汇库;
所述第一查询子模块具体用于:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述第二查询子模块具体用于:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
在一个实施例中,所述标注模块包括:
第三查询子模块,用于从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
标注子模块,用于利用所述多音字词汇,对所述对话语音进行拼音标注。
本发明的实施例提供的技术方案可以包括以下有益效果:
在接收到对话语音时,可查询该目标多音字词汇库,然后根据目标多音字词汇库对所述对话语音自动地进行拼音标注,从而提高多音字词汇的语音标注准确率和效率,避免人为标注多音字的拼音或声调。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种多音字词汇的标注方法的流程图。
图2是根据一示例性实施例示出的另一种多音字词汇的标注方法的流程图。
图3是根据一示例性实施例示出的一种多音字词汇的标注装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种多音字词汇的标注方法,该方法可用于多音字词汇的标注程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S103:
在步骤S101中,接收对话语音;
在步骤S102中,根据所述对话语音查询目标多音字词汇库;
目标多音字词汇库中预存储有大量的多音字词汇,例如多音字词汇可以是朝阳(zhāo yáng)区、朝阳(cháo yáng)区,剥bāo、剥bō。
在步骤S103中,根据所述目标多音字词汇库对所述对话语音进行拼音标注。
在接收到对话语音时,可查询该目标多音字词汇库,然后根据目标多音字词汇库对所述对话语音自动地进行拼音标注,从而提高多音字词汇的语音标注准确率和效率,避免人为标注多音字的拼音或声调。
在一个实施例中,所述根据所述对话语音查询目标多音字词汇库,包括:
根据所述对话语音查询对话意图;
根据所述对话意图查询所述目标多音字词汇库。
对该对话语音进行语音识别,可查询该对话意图,然后根据该对话意图自动查询相应的目标多音字词汇库,从而利用准确的目标多音字词汇库对对话语音进行自动标注,以提高语音标注效率,并进一步提高语音标注的准确率。
目标多音字词汇库可以是地区多音字词汇库、姓名多音字词汇库、景点多音字词汇库。
在一个实施例中,所述方法还包括:
基于多个预设对话的意图,创建多个多音字词汇库;
所述根据所述对话语音查询对话意图,包括:
根据自然语言理解技术(NLP,Natural Language Processing),识别所述对话语音的所述对话意图;
所述根据所述对话意图查询所述目标多音字词汇库,包括:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
在创建多个多音字词汇库之后,可利用对话意图从该多个多音字词汇库中查询出相匹配的词汇库作为目标多音字词汇库,从而提高词汇库的筛选准确率,进而利用目标多音字词汇库提高对该对话语音的标注准确率和效率。
在一个实施例中,所述根据所述目标多音字词汇库对所述对话语音进行拼音标注,包括:
从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
利用所述多音字词汇,对所述对话语音进行拼音标注。
在确定目标多音字词汇库之后,可查询与该对话语音相关的多音字词汇,然后利用该多音字词汇对该对话语音自动地进行拼音标注,从而避免人为标注多音字词汇,进而有利于提高多音字词汇的语音标注准确率和效率。
下面将结合图2进一步详细说明本发明的技术方案:
把一个大的多音字词汇库,按照语音对话的意图建立多个小的多音字词汇库;
一次人机交互的对话中通过NLU(自然语言理解)技术识别出这次对话的意图,然后查询结果,把意图和结果发送给标音处理服务;
标音处理服务通过该次对话的意图找到相关的多音字词汇库;
在多音字词汇库中找对应的多音字词汇,用标音处理技术给多音字词汇标注拼音以及声调。
比如:根据“天气怎么样”的意图可以建立一个地区名称的多音字词汇库,
“朝阳”在词库中存储的是“朝阳(chá o y á ng)”,在标注的时候就会有目的的在地区名称的多音字词汇库中查找。最终的结果是:问:“今天天气怎么样?”答:“朝阳(ch á oy á ng)今天天气情况是晴”。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述多音字词汇的标注方法,本发明实施例还提供一种多音字词汇的标注装置,如图3所示,该装置包括:
接收模块301,用于接收对话语音;
查询模块302,用于根据所述对话语音查询目标多音字词汇库;
标注模块303,用于根据所述目标多音字词汇库对所述对话语音进行拼音标注。
在一个实施例中,所述查询模块包括:
第一查询子模块,用于根据所述对话语音查询对话意图;
第二查询子模块,用于根据所述对话意图查询所述目标多音字词汇库。
在一个实施例中,所述装置还包括:
创建模块,用于基于多个预设对话的意图,创建多个多音字词汇库;
所述第一查询子模块具体用于:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述第二查询子模块具体用于:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
在一个实施例中,所述标注模块包括:
第三查询子模块,用于从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
标注子模块,用于利用所述多音字词汇,对所述对话语音进行拼音标注。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (4)

1.一种多音字词汇的标注方法,其特征在于,包括:
接收对话语音;
根据所述对话语音查询目标多音字词汇库;
根据所述目标多音字词汇库对所述对话语音进行拼音标注;
所述根据所述对话语音查询目标多音字词汇库,包括:
根据所述对话语音查询对话意图;
根据所述对话意图查询所述目标多音字词汇库;
所述方法还包括:
基于多个预设对话的意图,创建多个多音字词汇库;
所述根据所述对话语音查询对话意图,包括:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述根据所述对话意图查询所述目标多音字词汇库,包括:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库;
所述方法还包括:目标多音字词汇库中预存储有大量的多音字词汇,目标多音字词汇库是地区多音字词汇库、姓名多音字词汇库或景点多音字词汇库;
把一个大的多音字词汇库,按照语音对话的意图建立多个小的多音字词汇库;
一次人机交互的对话中通过自然语言理解技术识别出这次对话的意图,然后查询结果,把意图和结果发送给标音处理服务;
标音处理服务通过该次对话的意图找到相关的多音字词汇库;
在多音字词汇库中找对应的多音字词汇,用标音处理技术给多音字词汇标注拼音以及声调。
2.根据权利要求1中所述的方法,其特征在于,
所述根据所述目标多音字词汇库对所述对话语音进行拼音标注,包括:
从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
利用所述多音字词汇,对所述对话语音进行拼音标注。
3.一种多音字词汇的标注装置,其特征在于,包括:
接收模块,用于接收对话语音;
查询模块,用于根据所述对话语音查询目标多音字词汇库;
标注模块,用于根据所述目标多音字词汇库对所述对话语音进行拼音标注;
所述查询模块包括:
第一查询子模块,用于根据所述对话语音查询对话意图;
第二查询子模块,用于根据所述对话意图查询所述目标多音字词汇库;
所述装置还包括:
创建模块,用于基于多个预设对话的意图,创建多个多音字词汇库;
所述第一查询子模块具体用于:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述第二查询子模块具体用于:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库;
所述装置还包括:目标多音字词汇库中预存储有大量的多音字词汇,目标多音字词汇库是地区多音字词汇库、姓名多音字词汇库或景点多音字词汇库;
把一个大的多音字词汇库,按照语音对话的意图建立多个小的多音字词汇库;
一次人机交互的对话中通过自然语言理解技术识别出这次对话的意图,然后查询结果,把意图和结果发送给标音处理服务;
标音处理服务通过该次对话的意图找到相关的多音字词汇库;
在多音字词汇库中找对应的多音字词汇,用标音处理技术给多音字词汇标注拼音以及声调。
4.根据权利要求3中所述的装置,其特征在于,
所述标注模块包括:
第三查询子模块,用于从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
标注子模块,用于利用所述多音字词汇,对所述对话语音进行拼音标注。
CN201911325565.6A 2019-12-20 2019-12-20 多音字词汇的标注方法及装置 Active CN111143528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911325565.6A CN111143528B (zh) 2019-12-20 2019-12-20 多音字词汇的标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911325565.6A CN111143528B (zh) 2019-12-20 2019-12-20 多音字词汇的标注方法及装置

Publications (2)

Publication Number Publication Date
CN111143528A CN111143528A (zh) 2020-05-12
CN111143528B true CN111143528B (zh) 2023-05-26

Family

ID=70519090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911325565.6A Active CN111143528B (zh) 2019-12-20 2019-12-20 多音字词汇的标注方法及装置

Country Status (1)

Country Link
CN (1) CN111143528B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
WO2017114172A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN110570847A (zh) * 2019-07-15 2019-12-13 云知声智能科技股份有限公司 一种多人场景的人机交互系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN109918619B (zh) * 2019-01-07 2024-04-26 平安科技(深圳)有限公司 一种基于基础字典标注的发音标注方法和装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
WO2017114172A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN110570847A (zh) * 2019-07-15 2019-12-13 云知声智能科技股份有限公司 一种多人场景的人机交互系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An approach on Chinese microblog entity linking combining baidu encyclopaedia and word2vec;Dongchuan Huang 等;《Procedia Computer Science》;第111卷;37-45 *
中文TTS系统中多音字的一种解决方案;张力等;计算机应用与软件(02);149-151 *
汉语TTS系统中多音字问题的一种有效解决方案;刘景勇,柴佩琪,姚秋明;微型电脑应用(04);58-61+6 *
面向教育机器人的语音交互系统的设计与实现;李振宇;《中国优秀硕士学位论文全文数据库》;I140-1819 *

Also Published As

Publication number Publication date
CN111143528A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
US7472061B1 (en) Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US8285546B2 (en) Method and system for identifying and correcting accent-induced speech recognition difficulties
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
WO2006106415A1 (en) Method, device, and computer program product for multi-lingual speech recognition
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US20030149566A1 (en) System and method for a spoken language interface to a large database of changing records
EP1172994A2 (en) Voice-operated services
US20080010058A1 (en) Method and apparatus for recognizing large list of proper names in spoken dialog systems
US20050004799A1 (en) System and method for a spoken language interface to a large database of changing records
CN1300050A (zh) 语音识别方法
CN111128186A (zh) 多音字标音方法及装置
CN114550718A (zh) 热词语音识别方法、装置、设备与计算机可读存储介质
CN111105787A (zh) 一种文本匹配方法、设备及计算机可读存储介质
CN111143528B (zh) 多音字词汇的标注方法及装置
US20010049602A1 (en) Method and system for converting text into speech as a function of the context of the text
CN111798841A (zh) 声学模型训练方法、系统、移动终端及存储介质
CN1198260C (zh) 识别多种语言的语音识别系统的方法
US7430503B1 (en) Method of combining corpora to achieve consistency in phonetic labeling
Cremelie et al. Improving the recognition of foreign names and non-native speech by combining multiple grapheme-to-phoneme converters
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones
CN112487804B (zh) 一种基于语义上下文场景的中文小说语音合成系统
CN111354339B (zh) 词汇音素表构建方法、装置、设备及存储介质
CN113744718A (zh) 语音文本的输出方法及装置、存储介质、电子装置
CN113158649B (zh) 一种用于地铁站点名识别的纠错方法、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant