CN112037770B - 发音词典的生成方法、单词语音识别的方法和装置 - Google Patents

发音词典的生成方法、单词语音识别的方法和装置 Download PDF

Info

Publication number
CN112037770B
CN112037770B CN202010769389.1A CN202010769389A CN112037770B CN 112037770 B CN112037770 B CN 112037770B CN 202010769389 A CN202010769389 A CN 202010769389A CN 112037770 B CN112037770 B CN 112037770B
Authority
CN
China
Prior art keywords
word
pronunciation
phoneme sequence
phonemes
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010769389.1A
Other languages
English (en)
Other versions
CN112037770A (zh
Inventor
刘羽辰
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010769389.1A priority Critical patent/CN112037770B/zh
Publication of CN112037770A publication Critical patent/CN112037770A/zh
Application granted granted Critical
Publication of CN112037770B publication Critical patent/CN112037770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

本发明实施例提供了一种发音词典的生成方法以及单词语音识别的方法、单词语音识别装置、电子设备和存储介质,所述发音词典的生成方法包括:获取训练语料,所述训练语料包括一个或多个实义单词对应的第一音素序列,以及与所述实义单词所属语种对应的发音规则;根据所述发音规则,构造一个或多个虚拟单词,所述虚拟单词具有对应的第二音素序列;采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成发音词典。保证了发音词典的数据量,在面对未知小语种时,使用比训练一般发音词典更少的训练语料即可生成单词量充足的发音词典,从而实现以多增少,准确地识别待识别单词的读音。

Description

发音词典的生成方法、单词语音识别的方法和装置
技术领域
本发明涉及语音识别领域,特别是涉及一种发音词典的生成方法和发音词典的生成装置、一种单词语音识别的方法和单词语音识别装置、电子设备、存储介质。
背景技术
发音词典是语音识别的重要环节之一,是其不可或缺的一部分,其表示了一个单词(一般以词为单位)对应到音素的发音,一般为标准国际音标,但实际上音标只是一个符号,是一种表示方法,实际上只需要保证同一个发音有同一个符号即可。对于未知的小语种,发音词典的构造一般分为两种方法:G2P(grapheme-to-phoneme,字素到音素)以及根据发音规则直接构造的方法,其中前者为业界的主流方法。。
G2P方法实际上是通过使用单词样本量大的发音词典去生成少量新单词的发音,即以多增少,而其实现依靠神经网络,其中较为常用的有循环神经网络、序列到序列模型、隐式马尔科夫模型等方法。一个通过充分学习的神经网络构造的G2P,具有很好的稳定性以及准确率。但是神经网络的训练需要大量的数据支持,在数据量较少的情况下效果则并不理想。另外,找到的大量发音词典的音标标注可能不统一,虽然发音词典的标注一般为国际音标,但是也可能存在其他的标音方法,从不同渠道获得的发音词典可能会存在不同的标注,也会对准确率产生影响。因此对于小语种而言,现有的发音词典的单词样本量较少,在这种情况下很难实现单词识别的以多增少,G2P技术的局限性就显现了出来。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种发音词典的生成方法和一种单词语音识别的方法,以及相应的发音词典的生成装置和单词语音识别装置。
为了解决上述问题,本发明实施例公开了一种发音词典的生成方法,所述方法包括:
获取训练语料,所述训练语料包括一个或多个实义单词对应的第一音素序列,以及与所述实义单词所属语种对应的发音规则;
根据所述发音规则,构造一个或多个虚拟单词,所述虚拟单词具有对应的第二音素序列;
采用所述实义单词、所述第一音素序列和所述虚拟单词、所述第二音素序列生成发音词典。
优选地,所述发音规则中包括字母,以及与字母对应的音素和发音组合规则,所述根据所述发音规则构造一个或多个虚拟单词的步骤包括:
选择所述字母中的一个或多个作为目标字母;
按照所述发音组合规则中与所述目标字母对应的发音组合规则,将与所述目标字母对应的音素进行排列,生成一个或多个所述第二音素序列;
根据所述第二音素序列和所述目标字母,生成一个或多个虚拟单词。
优选地,所述根据所述第二音素序列和所述目标字母,生成一个或多个虚拟单词的步骤包括:
确定所述第二音素序列中音素的排列顺序;
按照所述排列顺序,排列与所述音素对应的所述目标字母,生成一个或多个虚拟单词。
优选地,所述采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成发音词典的步骤包括:
采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成初始语音识别模型;
对所述初始语音识别模型进行训练,生成目标语音识别模型;
基于所述目标语音识别模型,生成发音词典。
优选地,所述采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成初始语音识别模型的步骤包括:
对所述实义单词和所述虚拟单词进行分词,生成目标实义单词和目标虚拟单词;所述目标实义单词中的字母和/或字母组,与所述第一音素序列中的音素相对应;所述目标虚拟单词中的字母和/或字母组,与所述第二音素序列中的音素相对应;
采用所述目标实义单词和所述目标虚拟单词生成初始语音识别模型。
本发明实施例还公开了一种单词语音识别的方法,所述方法包括:
获取待识别单词和发音词典;所述发音词典根据实义单词、与所述实义单词对应的第一音素序列、虚拟单词以及与所述虚拟单词对应的第二音素序列生成;
通过所述发音词典中对所述待识别单词进行识别,获取一个或多个与所述待识别单词对应的初始音素序列;
对所述初始音素序列进行概率修正,生成修正音素序列,并从所述修正音素序列中选取概率最高的音素序列;
将所述概率最高的音素序列,作为与所述待识别单词对应的目标音素序列。
本发明实施例还公开了一种发音词典的生成装置,所述装置包括:
训练语料获取模块,用于获取训练语料,所述训练语料包括一个或多个实义单词对应的第一音素序列,以及与所述实义单词所属语种对应的发音规则;
构造模块,用于根据所述发音规则,构造一个或多个虚拟单词,所述虚拟单词具有对应的第二音素序列;
生成模块,用于采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成发音词典。
本发明实施例还公开了一种单词语音识别装置,所述装置包括:
单词获取模块,用于获取待识别单词和发音词典;所述发音词典根据实义单词、与所述实义单词对应的第一音素序列、虚拟单词以及与所述虚拟单词对应的第二音素序列生成;
识别模块,用于通过所述发音词典中对所述待识别单词进行识别,获取一个或多个与所述待识别单词对应的初始音素序列;
修正模块,用于对所述初始音素序列进行概率修正,生成修正音素序列,并从所述修正音素序列中选取概率最高的音素序列;
目标音素确认模块,用于将所述概率最高的音素序列,作为与所述待识别单词对应的目标音素序列。
本发明实施例还公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上发音词典的生成方法、单词语音识别的方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上发音词典的生成方法、单词语音识别的方法的步骤。
本发明实施例包括以下优点:
本发明实施例中,获取训练语料,训练语料包括一个或多个实义单词对应的第一音素序列,以及与实义单词所属语种对应的发音规则,根据发音规则,构造一个或多个虚拟单词,虚拟单词具有对应的第二音素序列,采用实义单词、第一音素序列、虚拟单词和第二音素序列生成发音词典,获取待识别单词,采用发音词典对待识别单词进行识别,获取一个或多个与待识别单词对应的初始音素序列,对初始音素序列进行概率修正,生成修正音素序列,从修正音素序列中选取概率最高的音素序列作为与待识别单词对应的目标音素序列,从而保证了发音词典的数据量,在面对未知小语种时,使用比训练一般发音词典更少的训练语料即可生成单词量充足的发音词典,从而实现以多增少,准确地识别待识别单词的读音。
附图说明
图1是本发明的一种发音词典的生成方法实施例的步骤流程图;
图2是本发明的一种初始语音识别模型的示意图;
图3是本发明的一种目标语音识别模型的示意图;
图4是本发明的一种发音词典的生成过程示意图;
图5为本发明的一种单词语音识别的方法实施例的步骤流程图;
图6为本发明的一种单词语音识别的过程示意图;
图7是本发明的一种发音词典的生成装置实施例的结构框图;
图8是本发明的一种单词语音识别装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种发音词典的生成方法的实施例的步骤流程图,具体可以包括如下步骤:
步骤101,获取训练语料,所述训练语料包括一个或多个实义单词对应的第一音素序列,以及与所述实义单词所属语种对应的发音规则;
本发明实施例中,训练语料包括以语种为分类依据的,某个语种现有的单词、与单词对应的音素序列和发音规则。实义单词指的是现有的,具有实际含义的单词,音素序列与单词对应,用于表征单词的读音,发音规则与单词中的字母、音素对应,对字母的发音、以及不同字母之间的组合方式进行了规定。例如当训练语料为英语训练语料时,实义单词可以为“apple”(苹果),其对应的音素序列为而英语对应的发音规则中包括了对字母的发音和组合的规定,例如“a”在开音节中读/>在闭音节中一般读/>而在“f”,“n”,“ph”,“sk”,“sp”,“st”,“ss”,“th”之前则读/ɑ:/。在实际中,可以通过翻译软件或开源词库等方式获取训练语料,本发明对此不作限制。
步骤102,根据所述发音规则,构造一个或多个虚拟单词,所述虚拟单词具有对应的第二音素序列;
在获取的训练语料后,可以根据训练语料所属语种对应的发音规则,进行虚拟单词的构造,虚拟单词与实义单词不同,其符合发音规则,但并不一定具有实际意义,只是字母之间的合理组合。
在本发明一种优选实施例中,所述发音规则中包括字母,以及与字母对应的音素和发音组合规则,所述根据所述发音规则构造一个或多个虚拟单词的步骤包括如下子步骤:
选择所述字母中的一个或多个作为目标字母;
按照所述发音组合规则中与所述目标字母对应的发音组合规则,将与所述目标字母对应的音素进行排列,生成一个或多个所述第二音素序列;
根据所述第二音素序列和所述目标字母,生成一个或多个虚拟单词。
发音规则中包含了字母,以及字母对应的音素和发音组合规则,例如对于英语发音规则而言,字母“e”在开音节中读/i:/,在闭音节中读/e/,而字母“u”在辅音字母“j”、“l”、“r”或字母组合“ch”、“sh”、“tr”、“dr”后面时读/u:/。从字母中选择一个或多个作为进行组合的目标字母,根据发音组合规则中目标字母对应的音素的发音组合规则,对目标字母对应的音素进行排列,获得多个音素序列,根据音素序列中音素的排列顺序即可生成虚拟单词。
在一种优选实施例中,所述根据所述第二音素序列和所述目标字母,生成一个或多个虚拟单词的子步骤还包括:
确定所述第二音素序列中音素的排列顺序;
按照所述排列顺序,排列与所述音素对应的所述目标字母,生成一个或多个虚拟单词。
确定获得的音素序列中音素的排列顺序,将该排列顺序作为目标字母的排列顺序,采用与音素序列中每个音素对应的字母,按照排列顺序进行排列即可生成虚拟单词。
需要注意的是,有些字母在发音规则中具有多种发音,即除了一般发音音素以外还具有特殊发音音素,例如字母“a”具有特殊发音音素/α:/,当发音规则中只有字母的特殊发音音素,但却并未对特殊发音音素的发音组合规则作出明确规定时,为避免遗漏,采用特殊发音音素构造虚拟单词时需要将该特殊发音音素与能够进行组合的其他音素全部组合一遍,构造多个具有特殊发音音素的虚拟单词。
步骤103,采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成发音词典。
在构造了一个或多个虚拟单词后,则可以采用实义单词、与实义单词对应的第一音素序列、虚拟单词以及与虚拟单词对应的第二音素序列共同生成发音词典。
在本发明一种优选实施例中,所述步骤103还包括如下子步骤:
采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成初始语音识别模型;
对所述初始语音识别模型进行训练,生成目标语音识别模型;
基于所述目标语音识别模型,生成发音词典。
具体的,初始语音识别模型可以是隐马尔科夫模型(Hidden Markov Model,HMM),是马尔可夫链的一种,其中包括了观测序列和隐含序列,观测序列处于显状态,其包括多个可直接观察得到的可观测状态,而隐含序列处于隐藏状态,其包括多个无法被直接观察到的隐含状态,可观测状态与隐含状态之间存在关联,可通过对可观测状态的观察,从而间接观察隐含状态。
在本发明实施例中,由于用户往往遇到的是单词,而想要得到的是单词的读音,即音素序列,因此可以将实义单词和虚拟单词作为可直接观察得到的观测序列,而需要获取的音素序列则作为隐含序列,从而生成初始语音识别模型。在隐马尔科夫模型中,除了观测序列和隐含序列外,还包含了三项构成参数,分别是初始状态概率,用于表征隐含序列首个隐含状态出现的概率;隐含状态转移概率,用于表征从上一个隐含状态转移至下一个隐含状态的概率;发射概率,用于表征当处于某个隐含状态下,观察到某个可观测状态的概率。
在本发明一优选实施例中,所述采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成初始语音识别模型的子步骤还包括:
对所述实义单词和所述虚拟单词进行分词,生成目标实义单词和目标虚拟单词;所述目标实义单词中的字母和/或字母组,与所述第一音素序列中的音素相对应;所述目标虚拟单词中的字母和/或字母组,与所述第二音素序列中的音素相对应;
采用所述目标实义单词和所述目标虚拟单词生成初始语音识别模型。
实义单词和虚拟单词中包含了一个或多个字母和/或字母组,每个字母和/或字母组都具有对应的音素,因此对实义单词和虚拟单词进行分词,得到字母和/字母组与音素相对应的目标实义单词和目标虚拟单词。例如法语单词“bonjour”对应的音素序列为经过分词后应为“b-b”,/>“n-n”,/>“r-r”,再采用目标实义单词和目标虚拟单词生成初始语音识别模型,需要注意的是,在生成初始语音识别模型时,可以采用单音素作为隐含状态,比如“/b/”,/>“/n/”,也可以采用两音素或者更多的短序列作为隐含状态,比如/>这就是两音素的隐含状态,多音素可以更好地体现音素间的规律,但是会增加网络的大小以及训练解码时间
如图2所示,为以单词“appendix”生成的初始语音识别模型,其发音为如果我们用单音素作为隐含状态的话,字母和音素的对应关系即为/>“pp-p”,“e-e”,“n-n”,“d-d”,“i-i”,“x-ks”,音素所在的序列为隐含序列,每两个音素之间具有隐含状态转移概率,箭头用于表示其转移方向,每个音素与对应的字母之间具有发射概率,箭头表示音素与字母之间的对应关系,以图2为例,/>与“p”之间的隐含状态转移概率为1,则表示/>的下一个音素100%的概率为“p”,而/>与“a”之间的发射概率为1,则表示当音素为/>时,对应的字母100%为“a”。
在实际中,由于生成发音词典所需的单词数量较多,因此生成的初始语音识别模型亦非常庞大复杂,而语音识别模型中的初始状态概率、隐含状态转移概率、发射概率的确定也变得非常复杂。因此在生成初始语音识别模型后,还需要对初始语音识别模型进行训练,以获得上述的三个参数。
具体的,可以采用期望最大化算法(Expectation-Maximization algorithm,EM),期望最大化算法可以用于含有隐变量的统计模型的参数最大似然估计。其基本思想是,初始化时随机地给模型的参数赋值,该赋值遵循模型对参数的限制,然后根据赋值后的模型可以得到模型中隐变量的期望值,利用该期望值替代参数的值,这样可以得到模型参数的新估计值,由此得到新的模型,执行这个迭代过程,最终当参数的值收敛时,即可获得参数。
在本发明实施例中,在满足所有概率取值均大于零,且所有初始状态概率之和为1,同一隐含状态,即同一音素的所有转移概率之和为1,同一音素的所有发射概率之和为1的前提下,随机为初始状态概率、隐含状态转移概率、发射概率赋值,然后通过前向和后向算法,计算每个音素转移至另一个音素的期望次数,每个音素观测到对应的字母的期望次数,再采用期望次数替代隐含状态转移概率和发射概率的值,重复进行该迭代过程,直至获得的初始状态概率、隐含状态转移概率和发射概率的值收敛,即可认为期望最大化算法以达到极限,初始语音识别模型训练完成,得到目标语音识别模型,而此时的初始状态概率、隐含状态转移概率和发射概率的值即为语音识别模型所需的参数。如图3所示,为一种目标语音识别模型,由单词“appendix”和“african”组成,由于两个单词中均包含了字母“a”和“i”,且其发音不同,即同一个字母对应多个不同的音素,从图3中可以看出,字母“a”与音素“a”对应,发射概率分别为0.5,而由于音素/>对应字母“a”和“i”,因此音素/>接下来的音素可能为“p”、“n”、“k”,计算得到的隐含状态转移概率的值均为1/3。需要注意的是,一般来说,特殊发音音素在单词中出现的频率小于其他发音音素,但由于在构造虚拟单词的时候,为避免遗漏,将特殊发音音素对应的字母与可组合的其他字母均进行了组合,生成了多个虚拟单词,这种方法可能会导致特殊发音音素的权重过高,因此在为隐含状态转移概率赋值的时候,根据单词中包含特殊发音字母的数量,会降低所赋予的数值,包含的特殊发音字母越多,则所赋予的隐含状态转移概率数值应越小。
在生成目标语音识别模型后,即可根据目标语音识别模型,生成发音词典。
为了使本领域技术人员能够更好地理解本发明方案,以下通过举例对本申请加以示例性说明,但应当理解的是,本申请并不限于此。
如图4所示,为本发明实施例的一种发音词典的生成过程示意图,在获取训练语料后,根据训练语料所述语种对应的发音规则,构造虚拟单词,将虚拟单词和训练语料中的实义单词进行分词,得到字母和/字母组与音素一一对应的虚拟单词和实义单词,采用虚拟单词和实义单词生成初始语音识别模型后,采用最大期望值算法对初始语音识别模型进行训练,首先为初始语音识别模型构造随机初始化参数,即为初始状态概率、隐含状态转移概率和发射概率赋值,赋值完成后通过向前向后算法计算得到参数期望,利用参数期望更新所赋予的数值,重复该迭代过程,直至参数收敛,即判断参数已稳定,此时的初始语音识别模型即训练完成,得到目标语音识别模型。
在本发明实施例中,通过获取训练语料,训练语料包括一个或多个实义单词对应的第一音素序列,以及与实义单词所属语种对应的发音规则,根据发音规则,构造一个或多个虚拟单词,虚拟单词具有对应的第二音素序列,采用实义单词、第一音素序列、虚拟单词和第二音素序列生成发音词典,使得所生成的发音词典中单词数量充足,发音词典的准确率得到提高,使用比训练一般发音词典更少的训练语料即可生成单词量充足的发音词典,从而实现以多增少,在识别小语种单词的时候能够更加准确地得到结果。
参考图5,示出了本发明的一种单词语音识别的方法的实施例的步骤流程图,具体可以包括如下步骤:
步骤201,获取待识别单词和发音词典;所述发音词典根据实义单词、与所述实义单词对应的第一音素序列、虚拟单词以及与所述虚拟单词对应的第二音素序列生成;
单词具有对应的音素序列,在知道单词的音素序列后,用户才能准确地获知单词的发音,待识别单词即为用户只获取了单词的拼写,但不知道对应音素序列的单词。发音词典为根据实义单词、与实义单词对应的第一音素序列、虚拟单词以及与虚拟单词对应的第二音素序列生成的发音词典。
步骤202,通过所述发音词典中对所述待识别单词进行识别,获取一个或多个与所述待识别单词对应的初始音素序列;
在获得了待识别单词后,用户可以采用发音词典对待识别单词进行识别,通过发音词典中包含的语音识别模型,计算得到与待识别单词对应的多个初始音素序列,每个初始音素序列都具有对应的概率,代表初始音素序列为待识别单词的音素序列的概率。
步骤203,对所述初始音素序列进行概率修正,生成修正音素序列,并从所述修正音素序列中选取概率最高的音素序列;
由于得到的初始音素序列的概率为根据目标语音识别模型计算得到的概率,根据实际情况的不同,还需要对初始音素序列的概率进行修正,以获得概率符合实际情况的修正音素序列。具体的,在初始音素序列中,可能会包括特殊音素,特殊音素即为在发音词典生成的过程中,构造虚拟单词的时候,对于没有明确规则的特殊发音音素所组合获得的虚拟单词,这种情况可能会带来的问题是使得特殊发音的权重过高。一般来讲,一个特殊发音的音素在语言当中出现的频率应该远低于正常发音,所以在修正过程中我们需要降低这些音素的转移概率,从而使得对应的初始发音序列的概率降低,特殊发音音素越多,降低的数值也就越多。完成修正后选取概率最高的音素序列。
步骤204,将所述概率最高的音素序列,作为与所述待识别单词对应的目标音素序列。
概率越高,表示该音素序列是待识别单词对应的音素序列的可能性越大,因此选择概率最高的音素序列作为与待识别单词对应的目标音素序列,目标音素序列即为根据发音词典所得到的,最符合待识别单词的音素序列。
在本发明实施例中,通过获取待识别单词和发音词典,采用发音词典中的语音识别模型对待识别单词进行识别,获取一个或多个与待识别单词对应的初始音素序列,对初始音素序列进行概率修正,生成修正音素序列,从修正音素序列中选取概率最高的音素序列作为与待识别单词对应的目标音素序列,从而利用发音词典识别出待识别单词的发音,提高了发音词典的识别准确程度。
为了使本领域技术人员能够更好地理解本发明方案,以下通过举例对本申请加以示例性说明,但应当理解的是,本申请并不限于此。
如图6所示,为本申请一种单词语音识别的过程示意图,在获得待识别单词后,采用发音词典中的语音识别模型对待识别单词进行识别,计算得到多个初始音素序列,每个初始音素序列都具有对应的概率,在对概率进行修正后,得到修正音素序列,从修正音素序列中选取概率最大的音素序列作为目标音素序列,目标音素序列即为待识别单词对应的音素序列。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图7,示出了本发明的一种发音词典的生成装置实施例的结构框图,具体可以包括如下模块:
训练语料获取模块301,用于获取训练语料,所述训练语料包括一个或多个实义单词对应的第一音素序列,以及与所述实义单词所属语种对应的发音规则;
构造模块302,用于根据所述发音规则,构造一个或多个虚拟单词,所述虚拟单词具有对应的第二音素序列;
生成模块303,用于采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成发音词典。
在本发明一实施例中,所述发音规则中包括字母,以及与字母对应的音素和发音组合规则,所述构造模块302包括:
目标字母选择子模块,用于选择所述字母中的一个或多个作为目标字母;
排列子模块,用于按照所述发音组合规则中与所述目标字母对应的发音组合规则,将与所述目标字母对应的音素进行排列,生成一个或多个所述第二音素序列;
虚拟单词生成子模块,用于根据所述第二音素序列和所述目标字母,生成一个或多个虚拟单词。
在本发明一实施例中,所述虚拟单词生成子模块还包括:
排列顺序确定单元,用于确定所述第二音素序列中音素的排列顺序;
虚拟单词单元,用于按照所述排列顺序,排列与所述音素对应的所述目标字母,生成一个或多个虚拟单词。
在本发明一实施例中,所述生成模块303包括:
初始语音识别模型生成子模块,用于采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成初始语音识别模型;
训练子模块,用于对所述初始语音识别模型进行训练,生成目标语音识别模型;
发音词典生成子模块,用于基于所述目标语音识别模型,生成发音词典。
在本发明一实施例中,所述初始语音识别模型生成子模块,还包括:
分词单元,用于对所述实义单词和所述虚拟单词进行分词,生成目标实义单词和目标虚拟单词;所述目标实义单词中的字母和/或字母组,与所述第一音素序列中的音素相对应;所述目标虚拟单词中的字母和/或字母组,与所述第二音素序列中的音素相对应;
初始语音识别模型单元,用于采用所述目标实义单词和所述目标虚拟单词生成初始语音识别模型。
参照图8,示出了本发明的一种单词语音识别装置实施例的结构框图,具体可以包括如下模块:
单词及发音词典获取模块401,用于获取待识别单词和发音词典;所述发音词典根据实义单词、与所述实义单词对应的第一音素序列、虚拟单词以及与所述虚拟单词对应的第二音素序列生成;
识别模块402,用于通过所述发音词典中对所述待识别单词进行识别,获取一个或多个与所述待识别单词对应的初始音素序列;
修正模块403,用于对所述初始音素序列进行概率修正,生成修正音素序列,并从所述修正音素序列中选取概率最高的音素序列;
目标音素确认模块404,用于将所述概率最高的音素序列,作为与所述待识别单词对应的目标音素序列。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种发音词典的生成方法和一种发音词典生成装置、一种单词语音识别的方法和一种单词语音识别装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种发音词典的生成方法,其特征在于,所述方法包括:
获取训练语料,所述训练语料包括一个或多个实义单词对应的第一音素序列,以及与所述实义单词所属语种对应的发音规则;
根据所述发音规则,构造一个或多个虚拟单词,所述虚拟单词具有对应的第二音素序列;
采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成发音词典;
在所述发音规则中包括字母、与字母对应的音素以及发音组合规则的情况下,所述根据所述发音规则构造一个或多个虚拟单词的步骤包括:
选择所述字母中的一个或多个作为目标字母;
按照所述发音组合规则中与所述目标字母对应的发音组合规则,将与所述目标字母对应的音素进行排列,生成一个或多个所述第二音素序列;
根据所述第二音素序列和所述目标字母,生成一个或多个虚拟单词;
所述根据所述第二音素序列和所述目标字母,生成一个或多个虚拟单词的步骤包括:
确定所述第二音素序列中音素的排列顺序;
按照所述排列顺序,排列与所述音素对应的所述目标字母,生成一个或多个虚拟单词;
在所述发音规则只有所述字母的特殊发音音素的情况下,将所述特殊发音音素与可组合的其他音素全部组合一遍,构造多个具有特殊发音音素的虚拟单词;所述特殊发音音素是所述发音规则未规定音素对应的所述发音组合规则的音素。
2.根据权利要求1所述的方法,其特征在于,所述采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成发音词典的步骤包括:
采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成初始语音识别模型;
对所述初始语音识别模型进行训练,生成目标语音识别模型;
基于所述目标语音识别模型,生成发音词典。
3.根据权利要求2所述的方法,其特征在于,所述采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成初始语音识别模型的步骤包括:
对所述实义单词和所述虚拟单词进行分词,生成目标实义单词和目标虚拟单词;所述目标实义单词中的字母和/或字母组,与所述第一音素序列中的音素相对应;所述目标虚拟单词中的字母和/或字母组,与所述第二音素序列中的音素相对应;
采用所述目标实义单词和所述目标虚拟单词生成初始语音识别模型。
4.一种单词语音识别的方法,其特征在于,包括:
获取待识别单词和发音词典;所述发音词典采用如权利要求1至3任一项所述的发音词典的生成方法生成;
通过所述发音词典中对所述待识别单词进行识别,获取一个或多个与所述待识别单词对应的初始音素序列;
对所述初始音素序列进行概率修正,生成修正音素序列,并从所述修正音素序列中选取概率最高的音素序列;
将所述概率最高的音素序列,作为与所述待识别单词对应的目标音素序列。
5.一种发音词典的生成装置,其特征在于,包括:
训练语料获取模块,用于获取训练语料,所述训练语料包括一个或多个实义单词对应的第一音素序列,以及与所述实义单词所属语种对应的发音规则;
构造模块,用于在所述发音规则中包括字母,以及与字母对应的音素和发音组合规则的情况下,根据所述发音规则,构造一个或多个虚拟单词,所述虚拟单词具有对应的第二音素序列;
生成模块,用于采用所述实义单词、所述第一音素序列、所述虚拟单词和所述第二音素序列生成发音词典;
所述构造模块包括:
目标字母选择子模块,用于选择所述字母中的一个或多个作为目标字母;
排列子模块,用于按照所述发音组合规则中与所述目标字母对应的发音组合规则,将与所述目标字母对应的音素进行排列,生成一个或多个所述第二音素序列;
虚拟单词生成子模块,用于根据所述第二音素序列和所述目标字母,生成一个或多个虚拟单词;
所述虚拟单词生成子模块还包括:
排列顺序确定单元,用于确定所述第二音素序列中音素的排列顺序;
虚拟单词单元,用于按照所述排列顺序,排列与所述音素对应的所述目标字母,生成一个或多个虚拟单词;
所述装置,还用于在所述发音规则只有所述字母的特殊发音音素的情况下,将所述特殊发音音素与可组合的其他音素全部组合一遍,构造多个具有特殊发音音素的虚拟单词;所述特殊发音音素是所述发音规则未规定音素对应的所述发音组合规则的音素。
6.一种单词语音识别装置,其特征在于,包括:
单词及发音词典获取模块,用于获取待识别单词和发音词典;所述发音词典采用如权利要求5所述的发音词典的生成装置生成;
识别模块,用于通过所述发音词典中对所述待识别单词进行识别,获取一个或多个与所述待识别单词对应的初始音素序列;
修正模块,用于对所述初始音素序列进行概率修正,生成修正音素序列,并从所述修正音素序列中选取概率最高的音素序列;
目标音素确认模块,用于将所述概率最高的音素序列,作为与所述待识别单词对应的目标音素序列。
7.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的发音词典的生成方法、权利要求4中所述的单词语音识别的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的发音词典的生成方法、权利要求4中所述的单词语音识别的方法的步骤。
CN202010769389.1A 2020-08-03 2020-08-03 发音词典的生成方法、单词语音识别的方法和装置 Active CN112037770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010769389.1A CN112037770B (zh) 2020-08-03 2020-08-03 发音词典的生成方法、单词语音识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010769389.1A CN112037770B (zh) 2020-08-03 2020-08-03 发音词典的生成方法、单词语音识别的方法和装置

Publications (2)

Publication Number Publication Date
CN112037770A CN112037770A (zh) 2020-12-04
CN112037770B true CN112037770B (zh) 2023-12-29

Family

ID=73582198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010769389.1A Active CN112037770B (zh) 2020-08-03 2020-08-03 发音词典的生成方法、单词语音识别的方法和装置

Country Status (1)

Country Link
CN (1) CN112037770B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000031935A (ko) * 1998-11-11 2000-06-05 정선종 음성인식시스템에서의 발음사전 자동생성 방법
CN1613107A (zh) * 2001-11-06 2005-05-04 D·S·P·C·技术有限公司 基于hmm的文字-音素分析器及其训练方法
CN1670728A (zh) * 2003-10-23 2005-09-21 微软公司 具有标记数据的完全形式词典及其构建和使用方法
CN101432801A (zh) * 2006-02-23 2009-05-13 日本电气株式会社 语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序
JP2011154099A (ja) * 2010-01-26 2011-08-11 Univ Of Yamanashi 音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
JP2017097062A (ja) * 2015-11-19 2017-06-01 日本電信電話株式会社 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
KR20180025559A (ko) * 2016-09-01 2018-03-09 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
CN110287330A (zh) * 2018-03-19 2019-09-27 奥多比公司 词向量的在线字典扩展

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529678B2 (en) * 2005-03-30 2009-05-05 International Business Machines Corporation Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
US20070150279A1 (en) * 2005-12-27 2007-06-28 Oracle International Corporation Word matching with context sensitive character to sound correlating

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000031935A (ko) * 1998-11-11 2000-06-05 정선종 음성인식시스템에서의 발음사전 자동생성 방법
CN1613107A (zh) * 2001-11-06 2005-05-04 D·S·P·C·技术有限公司 基于hmm的文字-音素分析器及其训练方法
CN1670728A (zh) * 2003-10-23 2005-09-21 微软公司 具有标记数据的完全形式词典及其构建和使用方法
CN101432801A (zh) * 2006-02-23 2009-05-13 日本电气株式会社 语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序
JP2011154099A (ja) * 2010-01-26 2011-08-11 Univ Of Yamanashi 音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
JP2017097062A (ja) * 2015-11-19 2017-06-01 日本電信電話株式会社 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
KR20180025559A (ko) * 2016-09-01 2018-03-09 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
CN110287330A (zh) * 2018-03-19 2019-09-27 奥多比公司 词向量的在线字典扩展

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于TensorFlow的俄语词汇标音系统;冯伟;易绵竹;马延周;;计算机应用(第04期);全文 *

Also Published As

Publication number Publication date
CN112037770A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN106683677B (zh) 语音识别方法及装置
Schuster et al. Japanese and korean voice search
US9058811B2 (en) Speech synthesis with fuzzy heteronym prediction using decision trees
CN110033760B (zh) 语音识别的建模方法、装置及设备
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN106935239A (zh) 一种发音词典的构建方法及装置
CN112397056B (zh) 语音评测方法及计算机存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN115293138B (zh) 一种文本纠错方法及计算机设备
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
WO2011071560A1 (en) Compressing feature space transforms
CN113571045B (zh) 一种闽南语语音识别方法、系统、设备及介质
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
US20210158804A1 (en) System and method to improve performance of a speech recognition system by measuring amount of confusion between words
CN112037770B (zh) 发音词典的生成方法、单词语音识别的方法和装置
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
Lu et al. Using Bayesian Networks to find relevant context features for HMM-based speech synthesis.
JP5264649B2 (ja) 情報圧縮型モデルパラメータ推定装置、方法及びプログラム
CN114398876B (zh) 一种基于有限状态转换器的文本纠错方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant