CN106935239A - 一种发音词典的构建方法及装置 - Google Patents

一种发音词典的构建方法及装置 Download PDF

Info

Publication number
CN106935239A
CN106935239A CN201511016459.1A CN201511016459A CN106935239A CN 106935239 A CN106935239 A CN 106935239A CN 201511016459 A CN201511016459 A CN 201511016459A CN 106935239 A CN106935239 A CN 106935239A
Authority
CN
China
Prior art keywords
pronunciation
sequence
candidate
target vocabulary
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511016459.1A
Other languages
English (en)
Inventor
王志铭
李晓辉
李宏言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201511016459.1A priority Critical patent/CN106935239A/zh
Priority to PCT/CN2016/110125 priority patent/WO2017114172A1/zh
Publication of CN106935239A publication Critical patent/CN106935239A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开一种发音词典的构建方法,用以解决按照现有技术构建的发音词典的质量较差问题。方法包括:将目标词汇的语音声学特征,输入语音识别解码器;其中,所述语音识别解码器中的发音词典包括:目标词汇和目标词汇的候选发音音素序列;根据所述语音识别解码器输出的候选发音音素序列,确定所述目标词汇对应于输出的候选发音音素序列的概率分布;根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列;根据所述正确发音的发音音素序列,构建发音词典。本申请还公开了一种发音词典的构建装置。

Description

一种发音词典的构建方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种发音词典的构建方法及装置。
背景技术
语音交互技术早在二十世纪中期就已经开始出现,近几年随着智能手机的普及,大量的语音交互产品相继出现,语音交互产品走进了普通用户的日常生活之中。例如,语音输入法就是通过接收并识别用户发出的语音,然后将用户的语音转换成文字,省去了打字的繁琐输入;来电报号功能可以将文字以语音的形式输出,在用户不看屏幕的情况下,即可获知来电方身份。
在语音交互技术中,发音词典是语音交互系统中重要的组成部分,是联接声学模型和语言模型之间的桥梁,其覆盖面和发音质量对系统的整体性能具有重大的影响。
发音词典中包含词和发音音素序列之间的映射关系,通常可以采用词转换为音素(Grapheme-to-Phoneme,G2P)方法建立该映射关系。一般情况下,发音词典经过语言学相关方面的专家审核校正,规模大小相对固定,因此其不可能覆盖所有的词汇,从而在实际应用中,有可能会根据需要,利用G2P方法确定新增词汇所匹配的发音音素序列,即确定新增词汇的正确发音,进而根据新增词汇和与其匹配的发音音素序列,对现有的发音词典进行扩充。
目前,采用G2P方法,基本能够准确确定常规词汇的正确发音。但是,对于一些特别的词汇,比如包含多音字的词汇,采用该方法确定出的词汇的正确发音的准确度往往较低,从而影响发音词典的质量。
发明内容
本申请实施例提供一种发音词典的构建方法,用以解决按照现有技术构建的发音词典的质量较差的问题。
本申请实施例还提供一种发音词典的构建装置,用以解决按照现有技术构建的发音词典的质量较差的问题。
本申请实施例采用下述技术方案:
一种发音词典的构建方法,包括:
将目标词汇的语音声学特征,输入语音识别解码器;其中,所述语音识别解码器中的发音词典包括:目标词汇和目标词汇的候选发音音素序列;
根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列,确定所述目标词汇对应于输出的候选发音音素序列的概率分布;
根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列;
根据所述正确发音的发音音素序列,构建发音词典。
一种发音词典的构建装置,包括:
解码单元:用于将目标词汇的语音声学特征,输入语音识别解码器中;其中,所述语音识别解码器中的发音词典包括:目标词汇和目标词汇的的候选发音音素序列;
发音确定单元:用于根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列,确定所述目标词汇对应于输出的候选发音音素序列的概率分布;根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列;
词典构建单元:用于根据所述正确发音的发音音素序列,构建发音词典。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
由于引入了待预测发音的目标词的语音声学特征,作为预测词汇正确发音的依据之一,从而相对于仅依靠词汇和发音音素序列的映射关系来作为预测词汇正确发音依据的现有技术而言,可以更为准确地预测目标词汇正确发音,提升了基于确定出的正确发音构建的发音词典的质量。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种发音词典的构建方法的实现流程示意图;
图2为本实施例提供的一种发音词典的构建装置的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
现有的发音预测方法通常是基于G2P转换的方法,G2P方法通过建立词汇和发音音素之间的映射关系,将词汇转换为发音音素序列。采用G2P方法,基本能够准确得到与常规词汇匹配的发音音素序列,但是由于该方法只利用了词汇(字序列)和发音音素的映射关系,因此对于一些特别的词汇,比如包含多音字的词汇,采用该方法确定出的与词汇匹配的发音音素序列的准确度往往较低,从而影响发音词典的质量。
为解决由于现有技术不能准确预测词汇的正确发音从而影响发音词典的质量的问题,本申请实施例1提供了一种发音词典的构建方法。
本申请实施例提供的发音词典的构建方法的执行主体可以是服务器也可以是不同于服务器的其他设备,等等。所述的执行主体并不构成对本申请的限定,为了便于描述,本申请实施例均以执行主体是服务器为例进行说明。
为便于描述,在本实施例中,存在对应关系的词汇和语音声学特征可以用词汇-语音声学特征来表示。
类似的,存在对应关系的词汇(字序列)和音素序列,以及存在对应关系的语音声学特征和语音音素序列,也可用上述表示方式表示。例如,存在对应关系的词汇和音素序列,可以用词汇-语音音素序列来表示。
以下对本申请实施例提供该方法进行详细介绍。
该方法的实现流程示意图如图1所示,包括下述步骤:
步骤11:服务器将目标词汇的语音声学特征,输入到嵌入有发音词典、声学模型和语言模型的语音识别解码器;
本申请实施例中,所述的目标词汇,可以是任何词汇,比如中文词汇、英文词汇或者其他语言的词汇。若针对语音识别解码器中已有的发音词典而言,所述的目标词汇,可以是指该发音词典当前不包含的词汇,即相对于该发音词典的新增词汇。
本申请实施例中所述的目标词汇的语音声学特征,可以但不限于包括从说出该目标词汇所产生的语音信号中提取出的Filter Bank特征、MFCC(MelFrequency Cepstrum Coefficient)特征以及PLP(Perceptual Linear Predictive)特征等等中的至少一种。
本申请实施例中,所述的语音信号,比如可以是根据目标词汇对应的音频样本。
目标词汇对应的音频样本,可以但不限于是采用下述方式中的至少一种获得的:
一、委托专业的语音数据供应商进行人工录音,从而获得目标词汇对应的音频样本;
二、采用众包的形式,以用户的真实使用感受和切身体验为出发点,将录音任务以自由自愿的形式委托给非特定的(而且通常是大型的)网络大众,从而获得目标词汇对应的音频样本;
三、分析用户反馈的记录日志,从而获得目标词汇对应的音频样本。例如,在语音搜索任务中,用户先通过语音输入目标词汇,如果语音识别系统识别错误,用户继续通过键盘输入正确的目标词汇,这一系列的行为可以通过日志的形式记录下来。
本申请实施例中,可以从目标词汇对应的音频样本中分别获得语音声学特征,进而将获得的各语音声学特征作为所述目标词汇的语音声学特征,分别输入所述语音识别解码器。
以下进一步介绍步骤11中提及的语音识别解码器的工作原理。
一般地,语音识别解码器,是用于针对输入的语音信号(或语音声学特征),根据声学模型、语言模型及发音词典,寻找能够以最大概率发出该语音信号(或与该语音声学特征相匹配的语音信号)的词的虚拟或者实体设备。
在语音识别领域,对语音信号进行解码的目标,就是寻找字序列W*(相当于上文所述的“词”),使得对应的语音声学特征X似然概率最大化,实质上就是一个基于贝叶斯准则的机器学习问题,即利用贝叶斯公式来计算最佳字序列W*,如公式[1.1]所示:
其中P(X|Wi)为声学模型,P(Wi)为语言模型。
声学模型,是字序列Wi的语音声学特征为X的概率。一般可以利用大量的数据(包括语音声学特征以及对应的标签序列)训练得到声学模型。
语言模型,是词汇对应的字序列Wi的出现概率。该出现概率的含义一般为:构成词汇的各个字依照所述各个字在该词汇中的排列顺序依次出现的概率。
考虑到字序列一般会对应的不同的发音音素序列,比如用带不同地方口音发出某个词汇(可由字序列表示)的发音可能对应不同的发音音素,又或者包含多音字的词汇也有可能对应不同的发音音素,因此,若假设是字序列Wi对应的各发音音素序列,那么公式[1.1]可变为:
其中,Wi为字序列;为声学模型;P(Wi)为语言模型;为发音词典中的词汇(由字序列Wi表示)的发音音素序列为的概率。
对于发音学习的问题,进一步假定字序列Wi和对应的语音声学特征X是已知的,则公式[1.2]的计算目标,可以转换是为了寻找字序列Wi对应的最佳发音音素序列Q*。这样,公式[1.2]进一步可变为:
公式[1.3]中:
Q*为使得公式[1.3]中等号右侧的值最大的发音音素序列,也即字序列Wi对应的候选发音音素序列的概率分布的最大值;
Wi为字序列,i为词汇的编号;
X表示Wi对应的语音声学特征;
Q表示发音音素序列;
j为发音音素序列的编号;
表示编号为i的词汇对应的语音音素序列中的、编号为j的发音音素序列。
为声学模型,即发音音素序列对应的语音声学特征为X的概率。
目前,相关的语音识别技术中用到的声学模型一般是对隐马尔科夫-深度神经网络(Hidden Markov Model-Deep Neural Network,HMM-DNN)的混合模型训练得到的,或者也可以是对DNN模型训练得到的。本申请实施例中,可以预先通过海量语音声学特征,对HMM-DNN的混合模型或DNN模型进行训练得到声学模型,并设置在本申请实施例所述的该语音识别解码器中。
P(Wi)为语言模型——本实施例中的语言模型可以是N-Gram模型,该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积,各个词出现的概率可以通过直接从语料中统计N个词同时出现的次数得到。本实施例中的语言模型也可以是基于条件随机场或者基于深度神经网络策略的语言模型。该语言模型可以预先生成并设置在本申请实施例所述的该语音识别解码器中。
为基于给定的发音词典中的词汇(由字序列Wi表示)的发音音素序列为的概率。
这里所说的发音词典,比如可以为加入了目标词汇对应的各个候选发音音素序列的发音词典。
目标词汇的候选发音音素序列,是指可能作为目标词汇正确发音的发音音素序列。本申请实施例中,可以但不限于采用G2P方法,为目标词汇生成发音音素序列(本申请实施例中称“候选发音音素序列”),并将所述目标词汇和生成的各候选发音音素序列,加入到发音词典中。
其中,将所述目标词汇和生成的各候选发音音素序列,加入到发音词典中,可以是指,将包含目标词汇-候选发音音素序列的词条,添加到发音词典中。
需要说明的是,当当前不存在发音词典时,将所述词条添加到发音词典中,可以是指根据所述词条构建发音词典;当当前已存在发音词典时,将所述词条添加到发音词典中,可以是指根据所述词条对该已有的发音词典进行更新,得到更新后的发音词典。
为便于描述,本申请实施例中假设当前已存在发音词典。在这样的场景下,所述目标词汇为相对于当前已存在的发音词典而言的新增词汇。
本实施例中,为目标词汇生成的对应的候选发音音素序列的个数视实际情况而定。
如,采用G2P方法,可以为目标词汇“阿里巴巴”生成十个以上候选的发音音素序列。以该些发音音素序列中的某一个发音音素序列为例,其可以表示为“a1/li3/ba1/ba1/”。该发音音素序列中,符号“/”用于区分不同发音音素,即“/”前后的符号表示不同的音素。比如,a1和li3为不同音素。音素中的数字代表声调,即1代表声调一声,2代表声调二声,3代表声调三声,4代表声调四声。
基于嵌入有上述发音词典、公式[1.3]中所示的声学模型和语言模型P(Wi)的语音识别解码器,本申请实施例中,将目标词汇的语音声学特征输入到该语音识别解码器中,可以触发该语音识别解码器通过对语音样本声学特征的解码,输出该语音样本声学特征对应的发音音素序列。
以下进一步介绍本申请实施例提供的该方法包含的后续步骤。
步骤12:确定语音识别解码器以步骤11中所述的语音声学特征作为输入而输出的候选发音音素序列;并根据目标词汇对应于所述输出的候选发音音素序列的统计规律,确定目标词汇对应于输出的候选发音音素序列的概率分布;根据所述概率分布,从所述输出的候选发音音素序列中,选择作为目标词汇的正确发音的发音音素序列;
比如,若假定目标词汇T对应的候选发音音素序列有2个,分别为A1 A2和B1 B2,且它们被添加到语音识别解码器包含的发音词典中。进一步地,若假设采集到的T的音频样本有100个,从而可以获得这100个音频样本各自的语音声学特征(共100个语音声学特征),通过执行步骤11,将这100个语音声学特征分别输入到嵌入发音词典、声学模型和语言模型的语音识别解码器中。
那么,语音识别解码器对这100个语音声学特征进行识别解码,可以输出候选发音音素序列,如输出A1、A2、B1、B2的组合。
进一步地,假设根据设置于该语音识别解码器中的发音词典,确定目标词汇对应于所述输出的候选发音音素序列的统计规律为:
这100个语音声学特征中:有75个语音声学特征是通过发音词典的词条“T-A1 A2”映射到T,有25个语音声学特征是通过发音词典的词条“T-B1B2”映射到T。
那么,根据该统计规律,可以得到如下概率分布:
T对应于A1 A2的概率为75/100=0.75
T对应于B1 B2的概率为25/100=0.25
一般地,服务器可以将所述概率分布中的最大概率值对应的候选发音音素序列,确定为所述目标词汇正确的发音的发音音素序列。
沿用上例,则服务器可以将所述概率分布中的最大概率值0.75对应的候选发音音素序列A1 A2,确定为T正确发音的发音音素序列。
步骤13:根据作为目标词汇正确发音的发音音素序列,构建发音词典。
具体地,服务器比如可以从加入了目标词汇对应的各个候选发音音素序列的发音词典中,删除除作为目标词汇正确发音的发音音素序列外的、与该目标词汇对应的其他候选发音音素序列。或者,服务器也可以根据作为目标词汇正确发音的发音音素序列,重新构建新的发音词典。
采用本申请实施例1提供的上述方法,由于引入了待预测发音的目标词的语音声学特征,作为预测词汇正确发音的依据之一,从而相对于仅依靠词汇和发音音素序列的映射关系来做为预测词汇正确发音依据的现有技术而言,可以更为准确地预测目标词汇正确发音,从而提升了语音词典的质量。
实施例2
为解决采用现有技术会导致与词汇匹配的发音音素序列的准确性较低的问题,本申请实施例提供一种发音词典的构建装置。该词汇发音预测装置的结构示意图如图3所示,主要包括下述功能单元:
解码单元21,用于将目标词汇的语音声学特征,输入语音识别解码器中;其中,语音识别解码器中的发音词典包括:目标词汇和目标词汇的的候选发音音素序列;
发音确定单元22,用于根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列,确定所述目标词汇对应于输出的候选发音音素序列的概率分布;根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列;
词典构建单元23,用于根据所述正确发音的发音音素序列,构建发音词典。
在一种实施方式中,本申请实施例提供的该装置还可以包括音素序列处理单元。该单元用于在于将目标词汇的语音声学特征,输入语音识别解码器中前,获得目标词汇的候选发音音素序列;并将目标词汇和获得的候选发音音素序列,加入到所述语音识别解码器中的发音词典中。
在一种实施方式中,音素序列处理单元,具体可以用于利用G2P方法,获得目标词汇的候选发音音素序列。
在一种实施方式中,所述解码单元21,具体可以用于采集目标词汇对应的音频样本;根据所述音频样本,获得所述语音声学特征;将获得的所述语音声学特征,输入所述语音识别解码器中。
在一种实施方式中,所述发音确定单元22,具体可以用于确定所述概率分布中的最大概率值;从所述输出的候选发音音素序列中,选择所述最大概率值对应的候选发音音素序列,作为所述目标词汇的正确发音的发音音素序列。
在一种实施方式中,所述词典构建单元23,具体可以用于根据作为所述目标词汇正确发音的发音音素序列,从加入了目标词汇和获得的候选发音音素序列的发音词典中,删除目标词汇对应的、除所述正确发音的发音音素序列外的其他候选发音音素序列。
采用本申请实施例2提供的上述装置,由于引入了待预测发音的目标词的语音声学特征,作为预测词汇正确发音的依据之一,从而相对于仅依靠词汇和发音音素序列的映射关系来做为预测词汇正确发音依据的现有技术而言,可以更为准确地预测目标词汇正确发音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种发音词典的构建方法,其特征在于,所述方法包括:
将目标词汇的语音声学特征,输入语音识别解码器;其中,所述语音识别解码器中的发音词典包括:目标词汇和目标词汇的候选发音音素序列;
根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列,确定所述目标词汇对应于输出的候选发音音素序列的概率分布;
根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列;
根据所述正确发音的发音音素序列,构建发音词典。
2.如权利要求1所述的方法,其特征在于,将所述语音声学特征,输入所述语音识别解码器前,所述方法还包括:
获得目标词汇的候选发音音素序列;
将目标词汇和获得的候选发音音素序列,加入到所述语音识别解码器中的发音词典中。
3.如权利要求2所述的方法,其特征在于,获得目标词汇的候选发音音素序列,包括:
利用词转换为音素G2P方法,获得目标词汇的候选发音音素序列。
4.如权利要求1所述的方法,其特征在于,所述语音识别解码器中嵌入的声学模型,是对深度神经网络进行训练得到的。
5.如权利要求1所述的方法,其特征在于,将目标词汇的语音声学特征,输入所述语音识别解码器中,包括:
采集目标词汇对应的音频样本;
根据所述音频样本,获得所述语音声学特征;
将获得的所述语音声学特征,输入所述语音识别解码器中。
6.如权利要求1所述的方法,其特征在于,根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列,包括:
确定所述概率分布中的最大概率值;
从所述输出的候选发音音素序列中,选择所述最大概率值对应的候选发音音素序列,作为所述目标词汇的正确发音的发音音素序列。
7.如权利要求1~6任一权项所述的方法,其特征在于,根据所述正确发音的发音音素序列,构建发音词典,包括:
根据作为所述目标词汇正确发音的发音音素序列,从加入了目标词汇和获得的候选发音音素序列的发音词典中,删除目标词汇对应的、除所述正确发音的发音音素序列外的其他候选发音音素序列。
8.一种发音词典的构建装置,其特征在于,所述装置包括:
解码单元:用于将目标词汇的语音声学特征,输入语音识别解码器中;其中,所述语音识别解码器中的发音词典包括:目标词汇和目标词汇的的候选发音音素序列;
发音确定单元:用于根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列,确定所述目标词汇对应于输出的候选发音音素序列的概率分布;根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列;
词典构建单元:用于根据所述正确发音的发音音素序列,构建发音词典。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
音素序列处理单元,用于在于将目标词汇的语音声学特征,输入语音识别解码器中前,获得目标词汇的候选发音音素序列;并将目标词汇和获得的候选发音音素序列,加入到所述语音识别解码器中的发音词典中。
10.如权利要求9所述的装置,其特征在于,所述音素序列处理单元,具体可以用于:
利用词转换为音素G2P方法,获得目标词汇的候选发音音素序列。
11.如权利要求8所述的装置,其特征在于,所述语音识别解码器中嵌入的声学模型,是对深度神经网络进行训练得到的。
12.如权利要求8所述的装置,其特征在于:
所述解码单元,具体用于采集目标词汇对应的音频样本;根据所述音频样本,获得所述语音声学特征;将获得的所述语音声学特征,输入所述语音识别解码器中。
13.如权利要求8所述的装置,其特征在于,所述发音确定单元,具体用于:
确定所述概率分布中的最大概率值;
从所述输出的候选发音音素序列中,选择所述最大概率值对应的候选发音音素序列,作为所述目标词汇的正确发音的发音音素序列。
14.如权利要求8~13任一权项所述的装置,其特征在于:
所述词典构建单元,具体用于根据作为所述目标词汇正确发音的发音音素序列,从加入了目标词汇和获得的候选发音音素序列的发音词典中,删除目标词汇对应的、除所述正确发音的发音音素序列外的其他候选发音音素序列。
CN201511016459.1A 2015-12-29 2015-12-29 一种发音词典的构建方法及装置 Pending CN106935239A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201511016459.1A CN106935239A (zh) 2015-12-29 2015-12-29 一种发音词典的构建方法及装置
PCT/CN2016/110125 WO2017114172A1 (zh) 2015-12-29 2016-12-15 一种发音词典的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511016459.1A CN106935239A (zh) 2015-12-29 2015-12-29 一种发音词典的构建方法及装置

Publications (1)

Publication Number Publication Date
CN106935239A true CN106935239A (zh) 2017-07-07

Family

ID=59224572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511016459.1A Pending CN106935239A (zh) 2015-12-29 2015-12-29 一种发音词典的构建方法及装置

Country Status (2)

Country Link
CN (1) CN106935239A (zh)
WO (1) WO2017114172A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767858A (zh) * 2017-09-08 2018-03-06 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN108682420A (zh) * 2018-05-14 2018-10-19 平安科技(深圳)有限公司 一种音视频通话方言识别方法及终端设备
CN109192197A (zh) * 2018-09-18 2019-01-11 湖北函数科技有限公司 基于互联网的大数据语音识别系统
CN109616096A (zh) * 2018-12-29 2019-04-12 北京智能管家科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质
CN110675855A (zh) * 2019-10-09 2020-01-10 出门问问信息科技有限公司 一种语音识别方法、电子设备及计算机可读存储介质
CN110889987A (zh) * 2019-12-16 2020-03-17 安徽必果科技有限公司 一种用于英语口语矫正的智能点评方法
CN110889278A (zh) * 2019-11-27 2020-03-17 南京创维信息技术研究院有限公司 一种用于语音识别的词典生成方法
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
WO2020228175A1 (zh) * 2019-05-16 2020-11-19 平安科技(深圳)有限公司 多音字预测方法、装置、设备及计算机可读存储介质
CN112037770A (zh) * 2020-08-03 2020-12-04 北京捷通华声科技股份有限公司 发音词典的生成方法、单词语音识别的方法和装置
CN112562636A (zh) * 2020-12-03 2021-03-26 云知声智能科技股份有限公司 一种语音合成纠错的方法和装置
CN112669851A (zh) * 2021-03-17 2021-04-16 北京远鉴信息技术有限公司 一种语音识别方法、装置、电子设备及可读存储介质
CN113571045A (zh) * 2021-06-02 2021-10-29 北京它思智能科技有限公司 一种闽南语语音识别方法、系统、设备及介质
CN117116267A (zh) * 2023-10-24 2023-11-24 科大讯飞股份有限公司 语音识别方法及装置、电子设备和存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562675B (zh) * 2019-09-09 2024-05-24 北京小米移动软件有限公司 语音信息处理方法、装置及存储介质
CN110610700B (zh) * 2019-10-16 2022-01-14 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质
CN111143528B (zh) * 2019-12-20 2023-05-26 云知声智能科技股份有限公司 多音字词汇的标注方法及装置
CN111369974B (zh) * 2020-03-11 2024-01-19 北京声智科技有限公司 一种方言发音标注方法、语言识别方法及相关装置
CN113724710A (zh) * 2021-10-19 2021-11-30 广东优碧胜科技有限公司 语音识别方法及装置、电子设备、计算机可读存储介质

Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020082831A1 (en) * 2000-12-26 2002-06-27 Mei-Yuh Hwang Method for adding phonetic descriptions to a speech recognition lexicon
CN1462428A (zh) * 2001-03-30 2003-12-17 索尼公司 语音处理装置
CN1465042A (zh) * 2001-05-02 2003-12-31 索尼公司 机器人装置、字符识别方法和装置、控制程序和记录媒体
US20040006469A1 (en) * 2002-06-28 2004-01-08 Samsung Electronics Co., Ltd. Apparatus and method for updating lexicon
US20040172247A1 (en) * 2003-02-24 2004-09-02 Samsung Electronics Co., Ltd. Continuous speech recognition method and system using inter-word phonetic information
US20050021330A1 (en) * 2003-07-22 2005-01-27 Renesas Technology Corp. Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
CN1613107A (zh) * 2001-11-06 2005-05-04 D·S·P·C·技术有限公司 基于hmm的文字-音素分析器及其训练方法
CN1645477A (zh) * 2004-01-20 2005-07-27 微软公司 使用用户纠正的自动语音识别学习
CN1667700A (zh) * 2004-03-10 2005-09-14 微软公司 使用发音图表来改进新字的发音学习
CN1731511A (zh) * 2004-08-06 2006-02-08 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
CN1783213A (zh) * 2004-12-01 2006-06-07 国际商业机器公司 用于自动语音识别的方法和装置
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其系统
CN101558442A (zh) * 2006-12-05 2009-10-14 摩托罗拉公司 使用语音识别的内容选择
CN101650886A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 一种自动检测语言学习者朗读错误的方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
US20100312550A1 (en) * 2009-06-03 2010-12-09 Lee Gil Ho Apparatus and method of extending pronunciation dictionary used for speech recognition
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及系统
CN102201235A (zh) * 2010-03-26 2011-09-28 三菱电机株式会社 发音词典的构建方法和系统
CN102282608A (zh) * 2008-12-09 2011-12-14 诺基亚公司 自动语音识别声学模型的调整
CN103021402A (zh) * 2011-09-26 2013-04-03 株式会社东芝 合成字典制作装置及合成字典制作方法
JP5326546B2 (ja) * 2008-12-19 2013-10-30 カシオ計算機株式会社 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
CN103680498A (zh) * 2012-09-26 2014-03-26 华为技术有限公司 一种语音识别方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
CN101432801B (zh) * 2006-02-23 2012-04-18 日本电气株式会社 语音识别词典制作支持系统、语音识别词典制作支持方法
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
JP6410491B2 (ja) * 2014-06-27 2018-10-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム

Patent Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020082831A1 (en) * 2000-12-26 2002-06-27 Mei-Yuh Hwang Method for adding phonetic descriptions to a speech recognition lexicon
CN1462428A (zh) * 2001-03-30 2003-12-17 索尼公司 语音处理装置
CN1465042A (zh) * 2001-05-02 2003-12-31 索尼公司 机器人装置、字符识别方法和装置、控制程序和记录媒体
CN1613107A (zh) * 2001-11-06 2005-05-04 D·S·P·C·技术有限公司 基于hmm的文字-音素分析器及其训练方法
US20040006469A1 (en) * 2002-06-28 2004-01-08 Samsung Electronics Co., Ltd. Apparatus and method for updating lexicon
US20040172247A1 (en) * 2003-02-24 2004-09-02 Samsung Electronics Co., Ltd. Continuous speech recognition method and system using inter-word phonetic information
US20050021330A1 (en) * 2003-07-22 2005-01-27 Renesas Technology Corp. Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
CN1645477A (zh) * 2004-01-20 2005-07-27 微软公司 使用用户纠正的自动语音识别学习
CN1667700A (zh) * 2004-03-10 2005-09-14 微软公司 使用发音图表来改进新字的发音学习
CN1731511A (zh) * 2004-08-06 2006-02-08 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
CN1783213A (zh) * 2004-12-01 2006-06-07 国际商业机器公司 用于自动语音识别的方法和装置
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
CN101558442A (zh) * 2006-12-05 2009-10-14 摩托罗拉公司 使用语音识别的内容选择
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN102282608A (zh) * 2008-12-09 2011-12-14 诺基亚公司 自动语音识别声学模型的调整
JP5326546B2 (ja) * 2008-12-19 2013-10-30 カシオ計算機株式会社 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
CN101650886A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 一种自动检测语言学习者朗读错误的方法
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其系统
US20100312550A1 (en) * 2009-06-03 2010-12-09 Lee Gil Ho Apparatus and method of extending pronunciation dictionary used for speech recognition
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102201235A (zh) * 2010-03-26 2011-09-28 三菱电机株式会社 发音词典的构建方法和系统
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及系统
CN103021402A (zh) * 2011-09-26 2013-04-03 株式会社东芝 合成字典制作装置及合成字典制作方法
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
CN103680498A (zh) * 2012-09-26 2014-03-26 华为技术有限公司 一种语音识别方法和设备
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAMYA RASIPURAM ET AL: "Integrated pronunciation learning for automatic speech recognition using probabilistic lexical modeling", 《2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 *
李兵虎等: "新疆非母语汉语语音识别中的字典自适应技术", 《计算机工程与应用》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767858B (zh) * 2017-09-08 2021-05-04 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN107767858A (zh) * 2017-09-08 2018-03-06 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN108682420A (zh) * 2018-05-14 2018-10-19 平安科技(深圳)有限公司 一种音视频通话方言识别方法及终端设备
CN109192197A (zh) * 2018-09-18 2019-01-11 湖北函数科技有限公司 基于互联网的大数据语音识别系统
CN109616096A (zh) * 2018-12-29 2019-04-12 北京智能管家科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质
CN109616096B (zh) * 2018-12-29 2022-01-04 北京如布科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质
WO2020228175A1 (zh) * 2019-05-16 2020-11-19 平安科技(深圳)有限公司 多音字预测方法、装置、设备及计算机可读存储介质
CN110675855A (zh) * 2019-10-09 2020-01-10 出门问问信息科技有限公司 一种语音识别方法、电子设备及计算机可读存储介质
CN110675855B (zh) * 2019-10-09 2022-03-25 出门问问信息科技有限公司 一种语音识别方法、电子设备及计算机可读存储介质
CN110889278A (zh) * 2019-11-27 2020-03-17 南京创维信息技术研究院有限公司 一种用于语音识别的词典生成方法
CN110889278B (zh) * 2019-11-27 2023-09-05 南京创维信息技术研究院有限公司 一种用于语音识别的词典生成方法
CN110889987A (zh) * 2019-12-16 2020-03-17 安徽必果科技有限公司 一种用于英语口语矫正的智能点评方法
CN111402862B (zh) * 2020-02-28 2023-06-20 出门问问创新科技有限公司 语音识别方法、装置、存储介质及设备
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
CN112037770A (zh) * 2020-08-03 2020-12-04 北京捷通华声科技股份有限公司 发音词典的生成方法、单词语音识别的方法和装置
CN112037770B (zh) * 2020-08-03 2023-12-29 北京捷通华声科技股份有限公司 发音词典的生成方法、单词语音识别的方法和装置
CN112562636A (zh) * 2020-12-03 2021-03-26 云知声智能科技股份有限公司 一种语音合成纠错的方法和装置
CN112669851A (zh) * 2021-03-17 2021-04-16 北京远鉴信息技术有限公司 一种语音识别方法、装置、电子设备及可读存储介质
CN113571045A (zh) * 2021-06-02 2021-10-29 北京它思智能科技有限公司 一种闽南语语音识别方法、系统、设备及介质
CN113571045B (zh) * 2021-06-02 2024-03-12 北京它思智能科技有限公司 一种闽南语语音识别方法、系统、设备及介质
CN117116267A (zh) * 2023-10-24 2023-11-24 科大讯飞股份有限公司 语音识别方法及装置、电子设备和存储介质
CN117116267B (zh) * 2023-10-24 2024-02-13 科大讯飞股份有限公司 语音识别方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2017114172A1 (zh) 2017-07-06

Similar Documents

Publication Publication Date Title
CN106935239A (zh) 一种发音词典的构建方法及装置
JP7464621B2 (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN108989341B (zh) 语音自主注册方法、装置、计算机设备及存储介质
US11450313B2 (en) Determining phonetic relationships
CN103578471B (zh) 语音辨识方法及其电子装置
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
Lu et al. Combining a vector space representation of linguistic context with a deep neural network for text-to-speech synthesis
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
CN111402862A (zh) 语音识别方法、装置、存储介质及设备
JP2016062069A (ja) 音声認識方法、及び音声認識装置
CN112634866A (zh) 语音合成模型训练和语音合成方法、装置、设备及介质
CN113450757A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN110853669B (zh) 音频识别方法、装置及设备
CN112735371A (zh) 一种基于文本信息生成说话人视频的方法及装置
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN107910005A (zh) 交互文本的目标业务定位方法及装置
CN113297383B (zh) 基于知识蒸馏的语音情感分类方法
CN112686041B (zh) 一种拼音标注方法及装置
Choi et al. Learning to maximize speech quality directly using MOS prediction for neural text-to-speech
Biswas et al. Speech recognition using weighted finite-state transducers
CN113362801A (zh) 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质
CN117198267A (zh) 一种地方方言语音智能识别与问答方法、系统、设备及介质
CN116597809A (zh) 多音字消歧方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170707

WD01 Invention patent application deemed withdrawn after publication