CN1202686A - 根据词汇发音生成后词汇发音的方法、设备和产品 - Google Patents
根据词汇发音生成后词汇发音的方法、设备和产品 Download PDFInfo
- Publication number
- CN1202686A CN1202686A CN98114735A CN98114735A CN1202686A CN 1202686 A CN1202686 A CN 1202686A CN 98114735 A CN98114735 A CN 98114735A CN 98114735 A CN98114735 A CN 98114735A CN 1202686 A CN1202686 A CN 1202686A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- phoneme
- neural network
- feature
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 176
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004519 manufacturing process Methods 0.000 title abstract description 3
- 238000012549 training Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 16
- 238000012217 deletion Methods 0.000 claims description 11
- 230000037430 deletion Effects 0.000 claims description 11
- 238000006467 substitution reaction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 235000004240 Triticum spelta Nutrition 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000283153 Cetacea Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 240000008415 Lactuca sativa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 235000012045 salad Nutrition 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Abstract
根据词汇发音信息提供有效生成后词汇发音信息的方法(2000),设备(2200)和产品(2300)。提出的方法根据词汇发音,有效生成后词汇发音,它包含的步骤有:对预定的部分文本确定词汇音素,词汇特征,以及边界信息;和利用用词汇音素,后词汇音素,词汇特征和边界信息训练过的预训练神经网络,对预定部分文本的后词汇发音,生成神经网络的推测。
Description
本发明涉及语音合成领域具体应用中根据词汇发音生成后词汇发音。
如图1数字100所示,文本到语音的合成是书写或打印的文本(102)到语音(110)的转换。文本到语音的合成提供这种可能性,即以比记录语音及将其回放更低的成本提供声音输出。语音合成经常用于文本可能大量变更而且完全不可能事先录音的情况下。
如象英语语言中,从字的拼写看字的发音常常是不清楚的,重要的是在提交拼写到声音模块(108)以生成语音波形(110)之前,借助语言学模块(104)将拼写(102)转换成明确的语音表示(106)。为了从拼写产生语音表示,可采用基于规则的系统,发声词典,或以这种发音词典训练过的自动拼写-发音转换过程。
发音词汇,以及通过发音词汇训练的自动过程采用词汇发音,词汇发音是欠具体的(underspecified),一般化的发音,在自然语言中它可能或可能不产生修改的后词汇发音,例如,英文字foot在发声词典中也许以/fuht/列出,发音用TIMIT(德州仪器-麻省理工学院)标志给出,在Garofolo,JohnS.的“The Structure and Format of the DARPATIMIT CD-ROM Prototype”中作了说明。在自然语言中,最后的/t/或作为[t]出现,例如在以foot结束的句子中;或当foot在同一句子中以元音打头的另一字之前出现时,如在“my foot is……”中,作为轻拍音[dx]。
对词典增加后词汇发音以代替词汇发音并非解决此问题的可行办法,原因有二个,第一个原因是此发声词典规模将明显增大,第二个原因是发声词典用于确定孤立的字的发音,而后词汇现象则在句子中跨越字时才碰到。所以当查找词汇时,可能存在也可能不存在用以确定合适的后词汇发音可用的足够信息。
在神经网络和其它数据驱动形式的语音合成中,利用学习的过程,根据语音信息学习生成语音频谱信息。这就构成声学参数的神经网络训练,这样通过语音信息标记语音波形来实现然后训练。例如,神经网络或其它数据驱动系统来学习同特定词汇标记的时间片有关的频谱特性。
当这种神经网络系统实际使用时,神经网络必须为给定的语音信息产生合适的频谱信息。如上所说的,这种语音信息是借助拼写一语音学词汇或以这种词汇训练的自动过程从文本中得到的。
因为数据驱动语音合成方法的目的是产生类似于训练数据的测试数据,并且这也类似于自然语言,重要的是测试阶段得到的语音表示与用于训练阶段的那些要基本上相匹配,这将保障获得最可靠的性能。
不幸的是从词典中找出的词汇发音和用于标记语音的发音之间经常很可能有某些不匹配,这种不匹配可出自至少四种不同的来源,发声者的特性,词典的特性,标记的特性,以及词汇发音和后词汇发音之间的不同。
然而基于规则的方法从词汇发音产生后词汇发音对指定的语言也许会成功,基于规则的方法在同一时间不能自动地处理词典和标记符的特性。也就是新规则集需针对发声者,标记符和词典的每种可能组合开发,这导致使用不便。
因此,需要有一自动过程,以根据词汇发音生成后词汇发音,同时提高合成语音的自然度及降低开发高质量语音合成系统所需要的时间和成本。基于神经网络,根据词汇发音生成后词汇发音的一种方法,设备和产品可满足此要求。
图1是现有技术中熟知的文本到语音转换的原理表示。
图2是按照本发明用词汇-后词汇转换器训练的神经网络训练过程的实施例的原理说明。
图3是按照本发明采用神经网络词汇-后词汇转换器的文本到语音转换的实施例的原理说明。
图4是按照本发明的后词汇标记的语音数据库的原理表示。
图5是按照本发明神经网络词汇-后词汇转换器的操作的一实施例的原理说明。
图6是按照本发明的词汇发音和后词汇发音定位的原理说明,其中词汇发音中的音素数目与后词汇发音中的音素数目相同。
图7是按照本发明的词汇发音和后词汇发音定位的原理说明,其中词汇发音中的音素数大于后词汇发音中的音素数。
图8是按照本发明的词汇发音和后词汇发音定位的原理说明,其中后词汇发音采用压缩的音素。
图9是按照本发明用于测试的词汇-后词汇神经网络结构的一实施例的原理表示。
图10是按照本发明用于训练词汇-后词汇神经网络的图15流1和图15流2编码过程的说明。
图11是按照本发明用于训练和测试词汇-后词汇神经网络的图15流3编码过程的说明。
图12是按照本发明用于测试词汇-后词汇神经网络的图15流1解码过程的说明。
图13是按照本发明用于测试词汇-后词汇神经网络的图9流2编码过程的说明。
图14是按照本发明为词汇-后词汇神经网络训练的滑动窗口的原理说明。
图15是按照本发明用于训练的词汇后词汇神经网络的一实施例的原理说明。
图16是按照本发明描绘使用的PE’S数的词汇-后词汇神经网络的一实施例的说明。
图17是按照本发明使用的基于特征的误差量与欧氏距离误差量的比较说明。
图18表示本领域熟知的欧氏误差量度的计算。
图19是按照本发明的基于特征的误差量度计算表示。
图20是按照本发明根据文本确定词汇信息和产生后词汇发音步骤的一实施例的流程图。
图21是按照本发明用于通过神经网络转换词汇发音为后词汇发音步骤的一实施例的流程图。
图22是按照本发明从词汇发音生成后词汇发音的微处理器/专用集成电路/微处理器与专用集成电路的组合的原理表示。
图23是按照本发明从词汇发音生成后词汇发音的产品的原理说明。
本发明提供一种利用神经网络自动地将词汇发音转换为词汇后发音的方法、设备和产品,该神经网络是在自发音词典中查到的字的词汇发音配对的后词汇层次上所标记的语音数据库的基础上训练的。训练结果形成有权重的神经网络,这些权重代表从词汇发音中产生后词汇发音所需的传递函数。数字200的图2提供神经网络训练过程的高层次图,而数字300的图3显示优选实施例中训练的神经网络词汇-后词汇转换器312装入语音合成器的语言学模块中。用于基于神经网络从词汇发音中生成后词汇发音的方法、设备和产品使正文至语音系统能比其它可能的方法生成更为自然的语音。此外,基于神经网络,从词汇发音中生成后词汇发音的系统在财务上优于已有技术之处是该系统是自动地可训练的,因此可以容易地适用于任何语言。
表1显示用于词汇发音的TMIT音素以及用于阐述音素发音的拼写字。
表1
数字号 | TIMIT音素 | 字例 | 数字号 | TIMIT音素 | 字例 |
p | pop | 21 | aa | father | |
t | tot | 22 | uw | loop | |
k | kick | 23 | er | bird | |
m | mom | 24 | ay | high | |
n | non | 25 | ey | bay | |
ng | sing | 26 | aw | out | |
s | set | 27 | ax | sofa | |
z | zoo | 28 | b | barn | |
ch | chop | 29 | d | dog | |
th | thin | 30 | g | go | |
f | ford | 31 | sh | shoe | |
l | long | 32 | zh | garage |
r | red | 33 | dh | this | |
y | voung | 34 | v | vice | |
hh | heavy | 35 | w | walk | |
eh | bed | 36 | ih | gift | |
ao | saw | 37 | ae | fast | |
ah | rust | 38 | uh | book | |
oy | boy | 39 | iy | bee | |
ow | low | 40 | el | bottle | |
en | button | 41 | em | bottom |
拼写字中用于代表具体TIMIT音素的字母用黑体显示。词汇发音包含在斜杠∥内。表2显示用于后词汇发音的TIMIT音素。后词汇发音包含在方括弧[ ]中。
表2
数字号 | TIMIT音素 | 数字号 | TIMIT音素 |
1 | p | 29 | uw |
2 | pcl | 30 | dx |
3 | t | 31 | er |
4 | tcl | 32 | nx |
5 | k | 33 | ay |
6 | kcl | 34 | ey |
7 | m | 35 | aw |
8 | n | 36 | ax |
9 | ng | 37 | b |
10 | s | 38 | bcl |
11 | z | 39 | d |
12 | ch | 40 | dcl |
13 | th | 41 | g |
14 | f | 42 | gcl |
15 | l | 43 | sh |
16 | r | 44 | zh |
17 | y | 45 | dh |
18 | hh | 46 | v |
19 | eh | 47 | w |
20 | ao | 48 | ih |
21 | ah | 49 | ae |
22 | oy | 50 | uh |
23 | ow | 51 | iy |
24 | en | 52 | el |
25 | aa | 53 | axr |
26 | q | 54 | ix |
27 | ax-h | 55 | ux |
28 | hv |
应注意,一个符号被解释为词汇音素或后词汇音素时其意义是不同的。例如,在后词汇层次上,[t]代表t除阻音,而在词汇层次上/t/可代表闭塞音和除阻音。
为训练神经网络学习词汇-后词汇变换,在图2中提供一个后词汇标记的言语数据库。数字400的图4显示这个后词汇标记的语音数据库的选段。
为建立标记的语音数据库,通常要记录个人的数百句美式英语语音。此记录试图导致产生英语中经常出现的音素组合。该记录用语音分析软件数字化和显示出来。图4显示自语音数据库中摘选的短段经过数字化和分析后所得波形(402)。该言语用三层标记系统加以注解。在第一层即拼写层(406)上,语音分段成为字长度单元,其中在发声过程中每个字的尾部与一特定时间相关联,每个终结字(Word-end)与该字的拼写相关联。在第二层即音素层(408),语音分成音素长度的单元段,其每个音素的结尾在发音过程中与一特定时间相关联,每个终结音素(phone-end)与表2所示的所用TIMIT词汇后音素的音标相关联。在第三层,即边界层(410),在发音过程中,音节,字,短语,从句和句子的结尾都与特定的时间关联,每个这种边界用表3所示边界符号之一表示出来。
表3
边界 | 符号 |
音节 | ]- |
字 | ]w |
短语 | ]p |
从句 | ]c |
句子 | ]s |
为了确定与位于语音数据库第一标记层(406)的拼写字相关的词汇发音,使用了一拼写词汇发音词典,表4显示了拼写词汇发音词典的摘录。
表4
拼写 | 语音 |
the | dhiy |
whale | hhweyl |
cut | kaht |
away | ax-wey |
该词典存储与其关联的发音的拼写对。在词典中使用表1所示的词汇发音TIMIT音素来描绘发音。
为了建立标号语音数据库(图4)中的后词汇发音与词典数据库(表4)中的词汇发音之间的关联,利用用作连接字段的字的拼写表示,两个数据库之间的数据库连接得以实现,因为二个数据库都包含有拼写信息。连接操作的结果是得到包含所记录数据库中全部字的拼写、词汇和后词汇信息的一张表。此信息如表5所示被组织,在保持字在数据库中原表达次序的同时,表中添加了音素和边界信息。
表5
拼写 | 词汇发音 | 后词汇发音 |
the | dhiy | dhax |
whale | hhweyl | weyl |
cut | kaht | kahdx |
away | axwey | axwey |
来自标号语音数据库第三层的边界信息,与拼写,词汇发音和后词汇发音相同地横向列出,如表5所示。
神经网络如表5所示,结合拼写,词汇,后词汇数据库的形式,按数字编码进行训练。
为训练,输入编码包含下面几个部分:词汇和后词汇音素的定位,提取词汇音素特征,提取边界距离信息,提取边界邻近信息,转换输入音素成为数字以及装载此输入到滑动窗口。为训练输入编码要求产生5个输入流给神经网络模拟器、流1包含含有任何定位分隔符的后词汇音素,流2包含词汇音素,流3包含与词汇音素关联的特征,流4包含边界距离信息,而流5包含边界邻近信息。
音素定位是必要的,以向神经网络提供那些词汇音素对应那些后词汇音素这种合适的感知。音素定位意味着把一系列位置上特定词汇音素与特定后词汇音素明确地联系起来。
数字600的图6,图示说明按字的词汇和后词汇音素的定位,这里词汇和后词汇音素的数目是相同的。
数字700的图7,图示说明按字的词汇和后词汇音素的定位,这里词汇音素的数目超过后词汇音素的数目。在此情况下,若按这种字的表示和发音,最后一个/d/要丢掉。通过相对词汇层的/d/,给出一定位分隔符‘+’,标记后词汇层的删除。
由于后词汇音素是词汇-后词汇转换处理的最终输出,定位分隔符要在输出前被删除。定位分隔符不允许留在词汇音素层,原因是在词汇-后词汇转换操作期间,定位分隔符应当被插到输入词汇音素中,然而并没有原则方法作此工作。
通常,后词汇发音比词汇发音包含有更少的音素,这是因为整个语言中删除和归并是公共的后词汇音素,并且这样的现象能够通过从音标中去掉一些音素来描述。在此情况下,定位分隔符可被插进后词汇音标中那些词汇音素还应存在而没被删除的位置。
在某些情况下,后词汇音标比相应的词汇音标采用更多的音素,这是因为后词汇音标包含更多的细节,例如,后词汇音标包含用于停顿的闭塞和除阻信息,一个细节层次在词汇音标中是没有规定的。
数字800的图8是比其相关的词汇发音具有更多音素的后词汇发音定位示例。该问题通过压缩(collapsed)某些后词汇音素组合为单个符号来解决。在图8中,后词汇组合bcl+b用压缩(collapsed)的音素B来替代。
表6给出后词汇的组合以及压缩符号。为定位和输入编码,用这些压缩符号来替代后词汇的组合。
表6
后词汇音素组合 | 压缩的后词汇音素 |
q+aa | AA |
q+ae | AE |
q+ah | AH |
q+ao | AO |
q+aw | AW |
q+ax | AX |
q+axr | AXR |
q+ix | IX |
q+iy | IY |
q+ih | IH |
q+ax-h | AX-H |
q+ay | AY |
q+eh | EH |
q+el | EL |
q+em | EM |
q+er | ER |
q+ey | EY |
q+ow | OW |
q+oy | OY |
q+uh | UH |
q+uw | UW |
q+ux | UX |
bcl+b | B |
dcl+d | D |
gcl+g | G |
pcl+p | P |
tcl+t | T |
kcl+k | K |
dcl+ih | JH |
tcl+ch | CH |
压缩的音素造成此被压缩的后词汇音素只与一个词汇音素相关联,使神经网络对每个音素段(phone slot)做出更好的选择。
使用了为本领域熟知的动态编程算法的新变化以定位(align)词汇和后词汇发音。本领域熟知的动态编程方案已经根据使用同一字母表的字定位做了说明。代价用在字符的插入,删除和替代上,仅当每个序列中同一字符处在相同位置时才没有替代的代价。
为了从不同的字母表,例如后词汇音素和词汇音素,来定位序列,已设计出一种新方法用于计算替代的。
注意,示于表1和表2的词汇音素和后词汇音素符号集它们并没有很大的不同,只是除几个符号外,它们专用某一个符号集,这意味着某些符号在二个字母表之间实际上不同。例如词汇音素/b/能表示/b/带有或不带有闭塞音发音,而后词汇音素[b]表示b只能是闭塞音。
一定制的表已经设计出,它反映每个词汇音素与相对的每个后词汇音素的定位相似性。表7说明美国英语词汇-后词汇音素的代价表。
表7
词汇音素 | 后词汇音素 | 代价 | 词汇音素 | 后词汇音素 | 代价 | 词汇音素 | 后词汇音素 | 代价 |
aa | aa | 0 | ih | IX | 0 | er | ER | 0 |
aa | AA | 0 | ih | ax | .3 | ey | ey | 0 |
ae | ae | 0 | ih | AX | .3 | f | f | 0 |
ae | AE | 0 | iy | iy | 0 | g | g | 0 |
ah | ah | 0 | iy | IY | 0 | g | gcl | 0 |
ah | AH | 0 | jh | jh | 0 | g | G | 0 |
ao | ao | 0 | jh | JH | 0 | hh | hh | 0 |
ao | AO | 0 | k | k | 0 | y | y | 0 |
aw | aw | 0 | k | kcl | 0 | zh | zh | 0 |
aw | AW | 0 | k | K | 0 | z | z | 0 |
ax | ax | 0 | l | l | 0 | hh | hv | 0 |
ax | AX | 0 | l | el | .3 | ih | ih | 0 |
ax | ix | .3 | m | m | 0 | ih | IH | 0 |
ax | IX | .3 | ng | ng | 0 | |||
ax | ih | .3 | n | n | 0 | |||
ax | IH | .3 | n | nx | 0 | |||
ax | ax-h | 0 | ow | ow | 0 | |||
ay | av | 0 | ow | OW | 0 | |||
ay | AY | 0 | oy | oy | 0 | |||
b | b | 0 | p | p | 0 | |||
b | B | 0 | p | pcl | 0 | |||
b | bcl | 0 | p | P | 0 | |||
ch | ch | 0 | r | axr | .5 | |||
ch | CH | 0 | r | er | .5 | |||
dh | dh | 0 | sh | sh | 0 | |||
d | d | 0 | s | s | 0 | |||
d | dcl | 0 | th | th | 0 | |||
d | D | 0 | t | t | 0 | |||
eh | eh | 0 | t | q | 0 | |||
eh | EH | 0 | t | tcl | 0 | |||
el | el | 0 | t | T | 0 | |||
el | EL | 0 | uh | uh | 0 | |||
em | em | 0 | uh | UH | 0 | |||
em | EM | 0 | uw | uw | 0 | |||
en | en | 0 | uw | UW | 0 | |||
en | EN | 0 | uw | ux | 0 | |||
er | er | 0 | v | v | 0 | |||
er | axr | 0 | w | w | 0 |
这种代价中的一些反映整个语言中拥有的关系,而另一些反映专指美国英语的后词汇处理。为不是对表7复盖,而是替代,插入以及删除,用在语音识别计算领域中的代价,采用插入代价3,删除代价3,和替代代价4。
就表7而论,提供的特定的相应代价的代价应低于插入或删除的固定代价,在其它情况下应大于固定代价。在特定位置上给定音素和字母更可能对应,替代该音素和字符的代价更低。
数字1000的图10图示说明为训练神经网络的输入编码流1(1008)和流2(1010)的编码。输入词汇发音(1002),/aend/,和输入后词汇发音(1004),[aen],被提交给定位过程。
定位过程插入一定位分隔符‘+’到后词汇发音,产生(1006)[aen+]。‘+’的数字码是60。带有定位分隔符(1006)的后词汇发音通过查找表(consulting table)2转换成数字并装载到缓冲存储器作为流1(1008),词汇发音通过查找表1转换成数字,并装载到缓冲存储器作为流2(1010)。
数字1100的图11,图示说明训练神经网络的输入编码流3的编码。每个词汇发音音素与它的听觉特征和发音特征相结合。
为了在训练集之外向神经网络给出使其普遍化的更多信息,在输入编码中提供每个音素的听觉和发音特征。音系学(phonological)分段的听觉和发音特征是本领域的共同概念,也就是,每个音素能用几个语音学的特征来描述。表8显示有关与本实施例使用的各词汇音素的特征。对每个音素,特征可是活性(activated)‘+’,非活性‘-’,或者不指定‘0’。
表8
图11中,每个音素/aend/,也就是/ae/(1102),/n/(1104)和/d/(1106)在表8的特征表中查找。每个音素的活性特征列在(1108),(1112)和(1116)中。
每个词汇音素的特征通过查找表9的特征数字表转换成数字,而后此数字编码用做作为/ae/(1110),/n/(1114)和/d/(1118)的流3。
表9
音素 | 数字 | 音素 | 数字 |
Vocalic | 1 | Retroflex | 34 |
Vowel | 2 | Palatal | 35 |
Sonorant | 3 | Velar | 36 |
Obstruent | 4 | Uvular | 37 |
Flap | 5 | Pharyngeal | 38 |
Continuant | 6 | Glottal | 39 |
Affricate | 7 | Epiglottal | 40 |
Nasal | 8 | Aspirated | 41 |
Approximant | 9 | Hyper-aspirated | 42 |
Click | 10 | Closure | 43 |
Trill | 11 | Ejective | 44 |
Silence | 12 | Implosive | 45 |
Front 1 | 13 | Lablialized | 46 |
Front 2 | 14 | Lateral | 47 |
Mid front 1 | 15 | Nasalized | 48 |
Mid front 2 | 16 | Rhotacized | 49 |
Mid 1 | 17 | Voiced | 50 |
Mid 2 | 18 | Round 1 | 51 |
Back 1 | 19 | Round 2 | 52 |
Back 2 | 20 | Long | 53 |
High 1 | 21 | ||
High 2 | 22 | ||
Mid high 1 | 23 | ||
Mid high 2 | 24 | ||
Mid low 1 | 25 | ||
Mid low 2 | 26 | ||
Low 1 | 27 | ||
Low 2 | 28 | ||
Bilabial | 29 | ||
Labiodental | 30 | ||
Dental | 31 | ||
Alveolar | 32 | ||
Post-alveolar | 33 |
为了向神经网络提供附加信息,在此信息的基础上以输入的词汇音素和输入的词汇音素特征输出后词汇音素的推测,各种关键边界的距离组送到网络上。
全部语言中,后词汇现象对音节,字,短语,从句和句子边界已经显示出敏感。为了向神经网络提供这类信息,边界信息从最大到最小提供给下列语言学结构:句子,从句,短语,字和音节。对每种结构,以下的信息被提供:1/(到结构开始的音素数),1/(到结构结尾的音素数)和1/(以音素数计算的结构长度)。结构起自身和全部更小的结构边界的作用,也就是为了边界距离的量度句子边界用作从句,短语,字和音节的边界。表10显示对词汇输入/dhiy seyl kaht axwey/的流4的数字输入。
表10
dh | iy | s | ey | l | k | ah | t | ax | w | ey | |
1/(到音节开始的音素距离) | 1 | .5 | 1 | .5 | .33 | 1 | .5 | .33 | 1 | 1 | .5 |
1/(到音节结尾的音素距离) | .5 | 1 | .33 | .5 | 1 | .33 | .5 | 1 | 1 | .5 | 1 |
1/(音节的音素长度) | .5 | .5 | .33 | .33 | .33 | .33 | .33 | .33 | 1 | .5 | .5 |
1/(到字开始的音素距离) | 1 | .5 | 1 | .5 | .33 | 1 | .5 | .33 | 1 | .5 | .33 |
1/(到字结尾的音素距离) | .5 | 1 | .33 | .5 | 1 | .33 | .5 | 1 | .3 | .5 | 1 |
1/(字的音素长度) | .5 | .5 | .33 | .33 | .33 | .33 | .33 | .33 | .3 | .3 | .33 |
1/(到短语开始的音素距离) | 1 | .5 | .33 | .25 | .2 | 1 | .5 | .33 | .25 | .2 | .17 |
1/(到短语结尾的音素距离) | .2 | .25 | .33 | .5 | 1 | .17 | .2 | .25 | .33 | .5 | 1 |
1/(短语的音素长度) | .2 | .2 | .2 | .2 | .2 | .17 | .17 | .17 | .17 | .17 | .17 |
1/(到从句开始的音素距离) | 1 | .5 | .33 | .25 | .2 | 1 | .5 | .33 | .25 | .2 | .17 |
1/(到从句结尾的音素距离) | .2 | .25 | .33 | .5 | 1 | .17 | .2 | .25 | .33 | .5 | 1 |
1/(从句的音素长度) | .2 | .2 | .2 | .2 | .2 | .17 | .17 | .17 | .17 | .17 | .17 |
1/(到句子开始的音素距离) | 1 | .5 | .33 | .25 | .2 | .17 | .14 | .13 | .11 | .1 | .09 |
1/(到句子结尾的音素距离) | .09 | .1 | .1 | .13 | .14 | .17 | .2 | .25 | .33 | .5 | 1 |
1/(句子的音素长度) | .09 | .09 | .09 | .09 | .09 | .09 | .09 | .09 | .09 | .09 | .09 |
为了向神经网络提供有关对各种边界邻近的信息,一组布尔值出现在网络上,其中1=真而0=假。对每个音节,字,短语,从句和句子,下面的布尔值被提供给网络:无论音素左边邻近边界,无论音素右边邻近边界,如果音素左边邻近边界,对左边界全部较小结构的布尔值都设置为真;如果音素右边邻近边界,对右边界全部较小结构的布尔值都设置为真。表11显示对流5的词汇输入:/dhiy seyl kaht axwey/的数字输入。
表11
dh | iy | s | ey | l | k | ah | t | ax | w | ey | |
左邻句子 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
右邻句子 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
左邻从句 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
右邻从句 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
左邻短语 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
右邻短语 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
左邻字 | 1 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 |
右邻字 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 |
左邻音节 | 1 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 0 |
右邻音节 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 1 |
为了向神经网络提供充分的学习词汇-后词汇转换的上下文信息,采用了9个音素的滑动窗以向网络呈现流2和流3。流4和流5已编码上下文信息,所以它们不用窗口。10个在图中标记为PAD的填充块(padding blocks)插在句子之间,以防止不同句子的数据出现在同一窗口中。
数字1400的图14,图解说明了个窗口用每个后词汇音素,指示哪个词汇音素被观察到。数字1500的图15,显示了用于训练的神经网络结构。来自流2(1502),围绕流1(1504)中输出的后词汇音素的9个输入词汇音素,从输入块2(1506)到神经网络块6(1508)。例如,在图14中,当流1由后词汇音素[dh](1402)组成时,由PAD,PAD,PAD,PAD,/dh/,/iy/,JW,/hh/和/w/组成的9音素窗口从输入块2(1506)传到输入块6(1508)。
除提供上下文细节之外,此滑动窗口还防止网络在特定的字位置过多地去观查特定的音素。
神经网络根据它的输入向量产生输出向量,流2,3,4和5以及供处理元素(PE’s)使用的内部转换函数,用在转换函数中的系数在训练过程中会被改变以改变输出向量,转换函数和系数统称为神经网络的权重。并且在训练过程中权重会被改变,以改变由给定的输入向量产生的输出向量。最初设置权重为一小的随机值。在训练过程的开始,由于神经网络的权重是任意值,关联的后词汇表示是没有意义的。一误差信号向量生成正比于关联语音表示和指定目标语音表示(流1)之间的距离。
与以前的处理不同,误差信号不是简单计算出的关联语音表示和目标语音表示之间的原始距离,如用等式1所示的欧氏距离量度,而是,该距离是一函数即在特征空间中,关联的语音表示多大程度接近目标语音表示,如果语音表示被使用,特征空间的接近被假定与感觉空间的接近有关。
数字1700的图17,对比欧氏距离误差量度与基于特征的误差量度,对拼写salad的目标后词汇发音(1702)是[saelihd]。给出的两个可能的关联发音是:[saelaxd](1704)和[saelbdl(1706)。[saelaxd](1704)感觉上非常类似目标发音,而[saelbd](1706)则相差甚远,并且实际上不能发音。欧氏距离量度仅仅计算目标和关联向量中不同项的数目。靠这种量度,[saelaxd](1704)和[saelbd](1706)相对于目标发音,二者得到误差评分为2。这两个相同的评分遮蔽了二个发音间感觉上的差异。
相反,基于特征的误差量度考虑到[ih]和[ax]感觉上非常相近,因此当[ax]被假定为[ih]时,加权此局部误差。规定0标度表示相同而1标度表示最大差异,并且各种音素对沿此尺度给与一个评分。表12给出一基于特征的误差乘数或权重实例,被用于美国英语。在此表中,不管此特定音素是目标部分还是推测部分,乘数都是相同的,但并非一定要按这种情况。不在表12中的任何目标和推测音素的组合被认为乘数为1。
表12
目标音素 | 神经网络音素推测 | 误差乘数 |
ax | ih | .1 |
ih | ax | .1 |
aa | ao | .3 |
ao | aa | .3 |
ow | ao | .5 |
ao | ow | .5 |
ae | aa | .5 |
aa | ae | .5 |
uw | ow | .7 |
ow | uw | .7 |
iy | ey | .7 |
ey | iy | .7 |
数字1800的图18,显示对[saelihd]中的[ih],无权重的局部误差是如何计算。数字1900的图19的,显示如何利用表12的乘数计算权重误差。图19显示对[ax]的误差,这里期望的是[ih],如何通过乘数而被减小,这种误差引起的直观感受比之对[ih]假定为[b]少令人难以置信,将[ih]假定为[b]的误差未被降低。
计算误差信号以后,权重值向降低误差信号的方向调整。这样的处理针对关联的上下文描述对重复多次以规定目标语音表示。这种调整权重使关联语音表示更接近规定的目标语音表示的处理,就是训练神经网络。这种训练采用了标准的误差向后传递方法。一旦神经网络被训练,权重值控制了将上下文描述转换为与规定目标语音表示数值上相似的输出向量所必须的信息。优选神经网络执行,在神经网络被完整训练之前,要求高达千万次地呈现上下文描述到输入及进行下述加权调整。
神经网络包含具有两种本领域熟知的活性功能块:Sigmoid和Softmax。Softmax活性功能由等式2给出。
图15描述了为训练词汇发音的神经网络结构和与后词汇发音相关的信息。神经网络由相连接的一系列块构成,这些块与不同的功能关联,包括不管是输入/输出块或者是具有Sigmoid或Softmax活性功能的块。
流2(1502),这数字编码的9个词汇音素窗口,被馈入输入块2(1506)。然后输入块2(1506)将此数据送进Sigmoid神经网络块6(1508),Sigmoid神经网络块6(1508)接着把数据送到Sigmoid神经网络块10(1510)。
流3(1512),数字编码的9个词汇音素的词汇音素特征窗口,被馈入输入块3(1514)。然后输入块3(1514)将此数据送入Sigmoid神经网络块7(1516),而后Sigmoid神经网络块7(1516)将数据送入Sigmoid神经网络块10(1510)。
流4(1518),数字编码的边界距离信息,被馈送到输入块4(1520),然后输入块4(1520)传送这些数据到Sigmoid神经网络块8(1522),而后,Sigmoid神经网络块8(1522)将此数据送到Sigmoid神经网络块10(1510)。
流5(1524),数字编码的边界距离信息,被馈送到输入块5(1526),然后输入块5(1526)将此数据送到Sigmoid神经网络块9(1528)。Sigmoid神经网络块9(1528)接着把此数据送入Sigmoid神经网络块10(1510)。
Sigmoid神经网络块10(1510)传送数据到Softmax神经网络块11(1530)。
流1(1504),数字编码的目标音素,被馈送到输出块1(1532)。
Softmax神经网络块11(1530)输出最相象的音素,给出此输入信号到输出块1(1532)。而后输出块1(1532)输出此数据作为神经网络的推测(1534)。借助上面所描述的基于特征的误差函数,神经网络的推测(1534)与流1(1504),即目标后词汇音素相比较。
由误差函数确定的误差则向后传递到Softmax神经网络块11(1530),它依次回传此误差到Sigmoid神经网络块10(1510),又依次向后传递此误差到Sigmoid神经网络块6(1508),7(1516),8(1522)和9(1528)。
图15神经网络块之间的双向箭头表示通过网络向前和向后两方向的传输。
数字500的图5,祥细显示数字300的图3中网络词汇-后词汇转换器。对一个完整句子是一次一个字的聚集词汇发音,以便对每个词汇音素计算边界距离信息和边界邻近信息。每个字长度的词汇发音被编码成神经网络的输入格式(504),而后编码的词汇发音提交到训练好的神经网络(506),这叫做测试神经网络。训练好的神经网络输出一编码的后词汇发音,它需要由神经网络输出解码器(508)解码成为后词汇发音(510)。
当网络被测试时只有流2,3,4和5需要编码。为测试,流2的编码示于数字1300的图13中。每个词汇音素(1302)通过查找表1的词汇音素表转换成数字码,然后每个词汇音素的数字码装载到流2(1304)的缓冲存储器。流3按图11所示被编码,流4如表10所示被编码,流5如表11所示被编码。字通过对该字的流2,3,4和5的编码而被测试,并测试了神经网络。
神经网络返回一输出后词汇发音推测,而后,通过查找表2的音素号码表,将数字(1202)转换为音素(1204),如数字1200的图12所示,神经网络的推测被编码,并且去掉任何定位分隔符(这里是数字60),以及通过查找表13打断任何受损的后词汇音素为其组成部分。
表13
后词汇音素组合 | 受损的后词汇音素 |
q+aa | AA |
q+ae | AE |
q+ah | AH |
q+ao | AO |
q+aw | AW |
q+ax | AX |
q+axr | AXR |
q+ix | IX |
q+iy | IY |
q+ih | IH |
q+ax-h | AX-H |
q+ay | AY |
q+eh | EH |
q+el | EL |
q+em | EM |
q+er | ER |
q+ey | EY |
q+ow | OW |
q+oy | OY |
q+uh | UH |
q+uw | UW |
q+ux | UX |
bcl+b | B |
dcl+d | D |
gcl+g | G |
pcl+p | P |
tcl+t | T |
kcl+k | K |
dcl+ih | JH |
tcl+ch | CH |
数字900的图9,显示为测试,各编码流如何适应神经网络结构。流2(902),9个词汇音素窗口的数字编码,被送到输入块2(904),然后输入块2(904)送此数据到Sigmoid神经网络块6(906),Sigmoid神经网络块6(906)再传递此对每个字母的数据到Sigmoid神经网络块10(908)。
流3(910),输入词汇发音的9个词汇音素词汇音素特征窗口的数字编码,被馈送到输入块3(912),然后输入块3送此数据到Sigmoid神经网络块7(914),Sigmoid神经网络块7(914)随后传送每个词汇音素的特征的数据到神经网络块10(908)。
流4(916),如表10所示被编码的输入词汇发音的数字编码的边界距离信息,馈送到输入块4(918),然后输入块4传送此数据到Sigmoid神经网络块8(920)。Sigmoid神经网络块8(920)接着传送每个词汇音素的边界距离信息的数据给Sigmoid神经网络块10(908)。
流5(922),如表11所示编码的输入词汇发音的数字编码边界邻近信息,被馈送到输入块5(924)。而后输入块5(924)将此数据送到Sigmoid神经网络块9(926)。Sigmoid神经网络块9(926)再将每个词汇音素的边界邻近信息数据送到Sigmoid神经网络块10(908)。
Sigmoid神经网络块10(908)传送其数据到Softmax神经网络块11(928)。
Softmax神经网络块11(928)输出最相象的音素给出此输入信号到输出块1(930),而后输出块1(930)输出数据作为后词汇音素的神精网络的猜测(932)。
图16中,数字1600给出对神经网络的说明,显示了其中连接各个块的PE’s的数目。输入流2(1602),包含数字编码的词汇音素,装载其数据到输入块2(1604)。输入块2(1604)包含要求其大小为9个音素窗口的918PE’s,这里每个音素可以是102个性质不同的字符之一,输入块2(1604)传送此918PE’s到Sigmoid神经网络块6(1606)。
Sigmoid神经网络块6(1606)传送10PE’s到Sigmoid神经网络块10(1608)。
输入流3(1628),包含如图11所示编码的数字编码词汇音素特征,装载其数据到输入块3(1630)。输入块3(1630)包含要求其大小为9个词汇音素窗口的477PE’s,这里词汇音素由高达53个活性特征来表示。输入块3(1630)传送此477PE’s到Sigmoid神经网络块7(1632)。
Sigmoid神经网络块7(1632)传送10PE’s到Sigmoid神经网络块10(1608)。
输入流4(1622),包含如表10所示编码的数字编码边界距离信息,装载其数据到输入块4(1624),输入块4(1624)包含要求其大小为各个边界距离的15PE’s。输入块4(1624)传送此15PE’s到Sigmoid神经网络块8(1626)。
Sigmoid神经网络块8(1626)传递10PE’s到Sigmoid神经网络块10(1608)。
输入流5(1616),包含如表11所示编码的数字编码边界邻近信息,装载其数据到输入块5(1618)。输入块5(1618)包含要求其大小为各个边界邻近值的10PE’s。输入块5(1618)传送此15PE’s到Sigmoid神经网络块9(1620)。
Sigmoid神经网络块9(1620)传送10PE’s到Sigmoid神经网络块10(1608)。
Sigmoid神经网络块10(1608)传送20PE’s到softmax神经网络块11(1610)。Softmax神经网络块11(1610)传送代表可能的后词汇音素的102PE’s到输出块1(1612)。
这里叙述的词汇-后词汇转换方法具有优于基于规则的系统的优点在于它容易与任何语言适配、对每种语言,仅仅需要与该语言相应的语音拼写词汇,该语言中的后词汇音素代价表,和后词汇标记的语音数据库。也许还需要使用国际语音字母表的字符,所以在世界语言中整个语音变化范围是可能做出模型的。
根据词汇发音信息一种方法,设备和产品制造,有效生成后词汇发音信息。一神经网络对关联词汇-后词汇发音数据进行过训练,使用带有特征距离量度增强的动态编程定位,词汇音素的特征值作为输入供给该神经网络。每个词汇音素的边界距离和边界邻近信息被提供给神经网络。包含大量词汇音素和词汇音素特征的窗口也提供给了神经网络,为的是给网络有用的上下文信息。
如数字2000的图20所示,本发明实现了根据词汇发音,提供有效生成后词汇发音的方法,包括步骤:(2002)按预定的部分文本确定词汇音素,词汇特征以及边界信息;以及利用(2004)以词汇音素,后词汇音素,词汇特征和边界信息预先训练过的神经网络,对预先决定的部分文本的后词汇发音,生成一神经网络推测。
在优选实施例中,边界信息至少包含边界距离信息和边界邻近信息其中之一:
如数字2100的图21所示,预先训练过的神经网络(2004)用下列步骤训练:(2102)为预定的部分文本提供由词汇音素组成的关联词汇发音和为目标发音提供由后词汇音素组成的后词汇发音;(2104)使用用基于特征的替代代价函数增强的动态编程定位,定位关联的词汇和后词汇表示;(2106)为词汇音素提供声学和发音信息;(2108)根据每个词汇音素和每个音节、字、短语,从句和句子边界之间距提供信息;(2110)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间相邻性提供信息;提供(2112)预定长度的词汇音素上下文窗口;提供(2114)预定长度的词汇音素特征上下文窗口;以及(2116)训练神经网络以建立输入词汇音素与后词汇音素的关联。
在优选实施例中,后词汇神经网络(2004)采用基于特征的误差函数以表示目标和推测的后词汇发音之间的距离。
后词汇神经网络(2004)可以是前馈的(feed-forward)神经网络。
后词汇神经网络(2004)可使用误差向后传递。
后词汇神经网络(2004)可具有重复的输入结构。
词汇特征(2002)可包括发声特征。
词汇特征(2002)可包括声学特征。
词汇特征(2002)可包括发声特征的几何特征。
词汇特征(2002)可包括声学特征的几何特征。
定位(2104)可以拼写和关联语音表示中辅音字母和元音字母的位置为根据。
词汇音素和后词汇音素(2004)可利用特征向量来描述。
基于特征的替代代价函数(2104)使用预定的替代,插入和删除代价和一预定的替代表。
神经网络(2004)可以使用音调信息训练。
神经网络(2004)可使用韵律信息训练。
如数字2200的图22所示,本发明实现的设备至少包含微处理器,专用集成电路及微处理器与专用集成电路的组合中的一个,以根据词汇发音提供有效生成的后词汇发音,它包括:编码器(2224),受为预定部分文本连接接收词汇音素(2202),词汇特征(2204),边界距离信息(2206)和边界邻近信息(2208),为训练过的后词汇神经网络(2226)提供数字输入,其中预训练的后词汇神经网络(2226)已用词汇音素(2210),后词汇音素(2212),词汇特征(2214),边界距离信息(2216)和边界邻近信息(2218)训练过,并且这里的词汇和后词汇音素利用基于特征的自动动态编程定位(2202)而被定位;而连结到编码器(2224)的预先训练的后词汇神经网络(2226),用以对预定的部分文本的后词汇发音(2229)生成神经网络的推测。
如图21所示,经训练的后词汇神经网络(2226)已按照下述方案经过训练:(2102)为预定的部分文本,提供由词汇音素组成的关联词汇发音和为目标发音的提供由后词汇音素组成的后词汇发音;(2104)使用以基于特征的替代代价函数增强的动态编程定位,定位关联的词汇和后词汇表示;(2106)为词汇音素提供声学和发声信息;提供(2108)与每个词汇音素和每个音节,字,短语,从句和句子边界之间距离有关的信息;(2110)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间邻近性提供信息;提供(2112)预定长度的词汇音素上下文窗口;提供(2114)预定长度的词汇音素特征上下文窗口;以及训练(2116)神经网络以建立输入词汇音素与后词汇音素的关联。
在优选实施例中,后词汇神经网络(2226)采用基于特征的误差函数来表示目标和推测的后词汇发音之间的距离。
后词汇神经网络(2226)可以是前馈神经网络。
后词汇神经网络(2226)可使用误差向后传递。
后词汇神经网络(2226)可具有重复输入结构。
词汇特征(2204)和(2214)可包括发声特征。
词汇特征(2204)和(2214)可包括声学特征。
词汇特征(2204)和(2214)可包括发声特征的几何特征。
词汇特征(2204)和(2214)可包括声学特征的几何特征。
定位(2220)可以拼写和关联语音表示中辅音字母和元音字母的位置为根据。
词汇音素(2202)及(2210)和后词汇音素(2212)可用特征向量来描述。
基于特征的替代代价函数(2104)使用预定的替代,插入和删除代价和预定的替代表。
后词汇神经网络(2226)可以使用音调信息训练。
后词汇神经网络(2226)可使用韵律信息训练。
如数字2300的图23所示,本发明实现的产品例如软件,用于根据词汇发音生成后词汇发音,包括有具有计算机可读程序码方法的计算机可用介质,其中包含:用于确定词汇音素(2302)的词汇信息确定单元(2324),预定部分文本的词汇特征(2304),边界距离信息(2306)和边界邻近信息(2308);以及后词汇神经网络利用单元(2326)以便利用一经过训练的神经网络。此神经网络曾用词汇音素(2310),后词汇音素(2312),词汇特征(2314),边界距离信息(2316)和边界邻近信息(2318)进行过训练,针对预定的部分文本的后词汇发音产生神经网络的推测。
如图21中所示,后词汇神经网络利用单元(2326)已按照下述方案经过训练:(2102)对预定的部分文本提供由词汇音素组成的关联词汇发音和对目标发音提供由后词汇音素组成后词汇发音;(2104)使用以基于特征的替代代价函数增强的动态编程定位,定位关联的词后词汇表示;(2106)对词汇音素提供声学和发声信息;(2108)根据与每个词汇音素和每个音节,字,短语,从句和句子边界之间距离提供信息;(2110)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间邻近性,提供的信息;提供(2112)预定长度的词汇音素上下文窗口;提供(2114)预定长度的词汇音素特征的上下文窗口;以及训练(2116)神经网络以建立输入词汇音素与后词汇音素的关联。
在优选实施例中,神经网络利用单元(2326)采用基于特征的误差函数来表示目标和推测的后词汇发音之间的距离。
后词汇神经网络利用单元(2326)可以是前馈神经网络。
后词汇神经网络利用单元(2326)可使用误差后传递。
后词汇神经网络利用单元(2326)可具有重复输入结构。
词汇特征(2304)和(2314)可包括发声特征。
词汇特征(2304)和(2314)可包括声学特征。
词汇特征(2304)和(2314)可包括发声特征的几何特征。
词汇特征(2304)和(2314)可包括声学特征的几何特征。
定位(2320)可以拼写和关联语音表示中辅音字母和元音字母的位置为根据。
词汇音素(2302)和(2310)可使用特征向量予以描述。
权利要求35的产品其中的后词汇音素使用特征向量来描述。
基于特征的替代代价函数(2104)使用预定的替代,插入和删除代价和预定的替代表。
后词汇神经网络利用单元(2326)可以使用音调信息训练。
后词汇神经网络利用单元(2326)可使用韵律信息训练。
本发明可以其它特定形式实施而没有脱离其精神或基本特征。所说明的实施例都仅是一种说明性的而非限制性的。因而,本发明的范围由所附的权利要求书来表示而非以上的说明来表示。源于本权利要求等价的意义和范围的所有改变将被认为包含在本要求书的范围。
Claims (10)
1.根据词汇发音提供有效生成后词汇发音的方法,包括以下步骤:
1A)对预定的部分文本确定词汇音素,词汇特征和边界信息;及
1B)利用使用词汇音素,后词汇音素,词汇特征和边界信息预训练过的预训练神经网络,为预定的部分文本的后词汇发音生成神经网络推测。
2.按照权利要求1的方法,其中具有特征2A-2F中的至少一个:
2A)边界信息包括至少边界距离信息和边界邻近信息其中之一;
2B)其中,在步骤(1B)中,神经网络是前向馈送神经网络;
2C)其中,在步骤(1B)中,神经网络使用误差向后传递;
2D)其中,在步骤(1B)中,神经网络具有重复输入结构;
2E)词汇特征包括发声特征;和
2F)在预先训练的神经网络中已用下列步骤进行过训练:
2F1)对预定的部分文本提供由词汇音素组成的关联词汇发音和对目标发音提供由后词汇音素组成的后词汇发音;
2F2)使用以基于特征的替代代价函数增强的动态编程定位,定位关联的词汇和后词汇表示;
2F3)为词汇音素提供声学和发声信息;
2F4)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间距离,提供信息;
2F5)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间邻近性提供信息;
2F6)提供预定长度的词汇音素上下文窗口;
2F7)提供预定长度的词汇音素特征上下文窗口;以及
2F8)训练神经网络以建立输入词汇音素与后词汇音素的关联,并且这里选择的至少是2F8a-2F8c其中之一:
2F8a)还包括采用基于特征的误差函数以表示目标和推测的后词汇发音之间的距离;
2F8b)其中,在步骤(2F2)中,定位是以拼写和关联的语音表示中辅音字母和元音字母的位置为根据;和
2F8c)其中,在步骤(2F2)中,基于特征的替代代价函数使用预定的替代,插入和删除代价和预定的替代表。
3.按照权利要求1的方法,其中,具有特征3A-3G中的至少一个:
3A)词汇特征包括声学特征;
3B)词汇特征包括发声特征的几何特征;
3C)词汇特征包括声学特征的几何特征;
3D)词汇音素使用特征向量来描述;
3E)后词汇音素使用特征向量来描述;
3F)其中,在步骤(1B)中,神经网络使用音调信息来训练;
3G)其中,在步骤(1B)中,神经网络使用韵律信息训练;
4.根据词汇发音提供有效生成后词汇发音的设备,包括:
4A)编码器,为预定的部分文本连接接收词汇音素,词汇特征,边界距离信息和边界邻近信息,以为训练过的后词汇神经网络提供数字输入,其中的预训练过的后词汇神经网络已用词汇音素,后词汇音素,词汇特征,边界距离信息和边界邻近信息训练过,并且这里的词汇和后词汇音素利用基于特征的自动动态编程定位被定位;以及
4B)连接到编码器的预先训练过的后词汇神经网络,用以对预定的部分文本的后词汇发音生成神经网络的推测。
5.按照权利要求4的设备,其中具有特征5A-5D中的至少一个:
5A)训练期间还包括采用基于特征的误差函数以表示目标和推测的后词汇发音之间的距离;
5B)此设备包括5B1-5B3之一:
5B1)微处理器;
5B2)专用集成电路;和
5B3)(5B1)和(5B2)的组合;
5C)此神经网络是前向馈送神经网络;
5D)其中的预先训练的神经网络已按照下述方案进行过训练:
5D1)对预定的部分文本提供由词汇音素组成的相关词汇发音和对目标发音提供由后词汇音素组成的后词汇发音;
5D2)使用以基于特征的替代代价函数增强的动态编程定位,定位关联的词汇和后词汇表示;
5D3)为词汇音素提供声音和发声信息;
5D4)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间距离提供信息;
5D5)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间邻近性提供的信息;
5D6)提供预定长度的词汇音素上下文窗口;
5D7)提供预定长度的词汇音素特征上下文窗口;
5D8)训练神经网络以建立输入词汇音素与后词汇音素的关联;
5D9)当被选择时,在5D8中,定位是以拼写和关联的语音表示中辅音字母和元音字母的位置为根据;以及
5D10)当被选择时,在5D8中,基于特征的替代代价函数使用预定的替代,插入和删除代价和预定的替代表。
6.按照权利要求4的设备,其中具有特征6A-6E中的至少一个:
6A)此神经网络使用误差向后传递;
6B)此神经网络具有重复的输入结构;
6C)词汇特征包括发声特征;
6D)词汇特征包括声学特征;
6E)词汇特征包括发声特征的几何特征。
7.按照权利要求4的设备,其中具有特征7A-7E中的至少一个:
7A)词汇特征包括声学特征的几何特征;
7B)词汇音素使用特征向量来描述;
7C)后词汇音素使用特征向量来描述;
7D)此神经网络使用音调信息来训练;和
7E)此神经网络使用韵律信息来训练。
8.根据词汇发音产生后词汇发音的产品,包括具有计算机可读程序代码装置的计算机可用介质,该程序代码装置包括:
8A)词汇信息确定装置,用以对预定的部分文本确定词汇音素,词汇特征,边界距离信息和边界邻近信息;以及
8B)后词汇神经网络利用装置,利用预先用词汇音素,后词汇音素,词汇特征,边界距离信息和边界邻近信息训练过的神经网络,生成预定部分文本的后词汇发音的神经网络推测。
9.按照权利要求8的产品,其中具有特征9A-9F中的至少一个:
9A)此神经网络是前向馈送神经网络;
9B)此神经网络使用误差向后传递;
9C)此神经网络具有重复的输入结构;
9D)词汇特征包括发声特征;
9E)词汇特征包括声学特征;以及
9F)此预先训练过的神经网络已根据下述方案进行过训练:
9F1)对预定的部分文本提供由词汇音素组成的关联词汇发音和对目标发音提供由后词汇音素组成的后词汇发音;
9F2)使用以基于特征的替代代价函数增强的动态编程定位,定位关联的词汇和后词汇表示;
9F3)为词汇音素提供声学和发声信息;
9F4)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间距离提供信息;
9F5)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间邻近性提供信息;
9F6)提供预定长度的词汇音素上下文窗口;
9F7)提供预定长度的词汇音素特征上下文窗口;以及
9F8)训练神经网络以建立输入词汇音素与后词汇音素的关联。
9F9)当被选择时,在9F8还包括采用基于特征的误差函数,用以表示目标和推测的后词汇发音之间的距离;
9F10)当被选择时,在9F2中,定位是以拼写和关联的音素表示中辅音字母和元音字母的位置为根据;和
9F11)当被选择时,在9F2中,基于特征的替代代价函数使用预定的替代,插入和删除代价和预定的替代表。
10.按照权利要求8的产品,其中具有特征10A-10F中的至少一个:
10A)词汇特征包括发声特征的几何特征;
10B)词汇特征包括声学特征的几何特征;
10C)词汇音素使用特征向量来描述;
10D)后词汇音素使用特征向量来描述;
10E)神经网络使用音调信息来训练;以及
10F)神经网络使用韵律信息来训练。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US874,834 | 1997-06-13 | ||
US08/874,834 US6134528A (en) | 1997-06-13 | 1997-06-13 | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
US874834 | 2004-06-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1202686A true CN1202686A (zh) | 1998-12-23 |
CN1135526C CN1135526C (zh) | 2004-01-21 |
Family
ID=25364670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB981147356A Expired - Fee Related CN1135526C (zh) | 1997-06-13 | 1998-06-12 | 根据词汇发音生成后词汇发音的方法、设备和产品 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6134528A (zh) |
CN (1) | CN1135526C (zh) |
BE (1) | BE1011945A3 (zh) |
DE (1) | DE19825205C2 (zh) |
FR (1) | FR2764725A1 (zh) |
GB (1) | GB2326321B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1532806B (zh) * | 2003-03-24 | 2010-11-03 | 索尼电子有限公司 | 使用优化的音素集进行广东话语音识别的系统和方法 |
CN105340004A (zh) * | 2013-06-28 | 2016-02-17 | 谷歌公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
DE10018134A1 (de) * | 2000-04-12 | 2001-10-18 | Siemens Ag | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
DE10022586A1 (de) * | 2000-05-09 | 2001-11-22 | Siemens Ag | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems |
DE10034236C1 (de) * | 2000-07-14 | 2001-12-20 | Siemens Ag | Sprachkorrekturverfahren |
US6367939B1 (en) * | 2001-01-25 | 2002-04-09 | Gentex Corporation | Rearview mirror adapted for communication devices |
AT6920U1 (de) | 2002-02-14 | 2004-05-25 | Sail Labs Technology Ag | Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen |
CA2523010C (en) * | 2003-04-30 | 2015-03-17 | Loquendo S.P.A. | Grapheme to phoneme alignment method and relative rule-set generating system |
CN1260704C (zh) * | 2003-09-29 | 2006-06-21 | 摩托罗拉公司 | 语音合成方法 |
US7783474B2 (en) * | 2004-02-27 | 2010-08-24 | Nuance Communications, Inc. | System and method for generating a phrase pronunciation |
JP4661074B2 (ja) * | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
US20070005364A1 (en) * | 2005-06-29 | 2007-01-04 | Debow Hesley H | Pure phonetic orthographic system |
US20070239455A1 (en) * | 2006-04-07 | 2007-10-11 | Motorola, Inc. | Method and system for managing pronunciation dictionaries in a speech application |
US8028230B2 (en) * | 2007-02-12 | 2011-09-27 | Google Inc. | Contextual input method |
US20090240501A1 (en) * | 2008-03-19 | 2009-09-24 | Microsoft Corporation | Automatically generating new words for letter-to-sound conversion |
US9460708B2 (en) * | 2008-09-19 | 2016-10-04 | Microsoft Technology Licensing, Llc | Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition |
US9460704B2 (en) * | 2013-09-06 | 2016-10-04 | Google Inc. | Deep networks for unit selection speech synthesis |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
US20160062979A1 (en) * | 2014-08-27 | 2016-03-03 | Google Inc. | Word classification based on phonetic features |
US10186251B1 (en) * | 2015-08-06 | 2019-01-22 | Oben, Inc. | Voice conversion using deep neural network with intermediate voice training |
RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
CN106920547B (zh) * | 2017-02-21 | 2021-11-02 | 腾讯科技(上海)有限公司 | 语音转换方法和装置 |
WO2018236332A1 (en) * | 2017-06-18 | 2018-12-27 | Google Llc | NATURAL LANGUAGE PROCESSING USING AUTOMATIC LEARNING TO DETERMINE WAFER VALUES BASED ON WAFER DESCRIPTORS |
CN108492818B (zh) * | 2018-03-22 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 文本到语音的转换方法、装置和计算机设备 |
CN114787913A (zh) * | 2019-12-13 | 2022-07-22 | 谷歌有限责任公司 | 训练语音合成以生成不同的语音声音 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4712243A (en) * | 1983-05-09 | 1987-12-08 | Casio Computer Co., Ltd. | Speech recognition apparatus |
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
US4975961A (en) * | 1987-10-28 | 1990-12-04 | Nec Corporation | Multi-layer neural network to which dynamic programming techniques are applicable |
DE68913669T2 (de) * | 1988-11-23 | 1994-07-21 | Digital Equipment Corp | Namenaussprache durch einen Synthetisator. |
US4979216A (en) * | 1989-02-17 | 1990-12-18 | Malsheen Bathsheba J | Text to speech synthesis system and method using context dependent vowel allophones |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
JPH0782348B2 (ja) * | 1992-03-21 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識用サブワードモデル生成方法 |
US5987412A (en) * | 1993-08-04 | 1999-11-16 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
US5689616A (en) * | 1993-11-19 | 1997-11-18 | Itt Corporation | Automatic language identification/verification system |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
AU675389B2 (en) * | 1994-04-28 | 1997-01-30 | Motorola, Inc. | A method and apparatus for converting text into audible signals using a neural network |
US5745649A (en) * | 1994-07-07 | 1998-04-28 | Nynex Science & Technology Corporation | Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories |
CA2170669A1 (en) * | 1995-03-24 | 1996-09-25 | Fernando Carlos Neves Pereira | Grapheme-to phoneme conversion with weighted finite-state transducers |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
US5930754A (en) * | 1997-06-13 | 1999-07-27 | Motorola, Inc. | Method, device and article of manufacture for neural-network based orthography-phonetics transformation |
-
1997
- 1997-06-13 US US08/874,834 patent/US6134528A/en not_active Expired - Fee Related
-
1998
- 1998-05-28 FR FR9806759A patent/FR2764725A1/fr not_active Withdrawn
- 1998-06-05 DE DE19825205A patent/DE19825205C2/de not_active Expired - Fee Related
- 1998-06-11 GB GB9812479A patent/GB2326321B/en not_active Expired - Fee Related
- 1998-06-12 CN CNB981147356A patent/CN1135526C/zh not_active Expired - Fee Related
- 1998-06-12 BE BE9800459A patent/BE1011945A3/fr not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1532806B (zh) * | 2003-03-24 | 2010-11-03 | 索尼电子有限公司 | 使用优化的音素集进行广东话语音识别的系统和方法 |
CN105340004A (zh) * | 2013-06-28 | 2016-02-17 | 谷歌公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
CN105340004B (zh) * | 2013-06-28 | 2019-09-10 | 谷歌有限责任公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
Also Published As
Publication number | Publication date |
---|---|
GB2326321B (en) | 1999-08-11 |
US6134528A (en) | 2000-10-17 |
CN1135526C (zh) | 2004-01-21 |
GB9812479D0 (en) | 1998-08-05 |
DE19825205A1 (de) | 1999-01-14 |
BE1011945A3 (fr) | 2000-03-07 |
FR2764725A1 (fr) | 1998-12-18 |
DE19825205C2 (de) | 2001-02-01 |
GB2326321A (en) | 1998-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1135526C (zh) | 根据词汇发音生成后词汇发音的方法、设备和产品 | |
CN1057625C (zh) | 使用神经网络变换文本为声频信号的方法 | |
He et al. | Open-source multi-speaker speech corpora for building Gujarati, Kannada, Malayalam, Marathi, Tamil and Telugu speech synthesis systems | |
US6347300B1 (en) | Speech correction apparatus and method | |
CN1260704C (zh) | 语音合成方法 | |
CN100347741C (zh) | 移动语音合成方法 | |
US20050144003A1 (en) | Multi-lingual speech synthesis | |
EP1221693A2 (en) | Prosody template matching for text-to-speech systems | |
CN101051459A (zh) | 基频和停顿预测及语音合成的方法和装置 | |
CN1622195A (zh) | 语音合成方法和语音合成系统 | |
GB2326320A (en) | Text to speech synthesis using neural network | |
CN1142647A (zh) | 语音识别对话装置 | |
CN1826633A (zh) | 声音合成装置 | |
CN1731510A (zh) | 混合语言文语转换 | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
KR102352986B1 (ko) | 언어 특성 벡터를 이용한 콜미 서비스의 음성 합성 장치 및 방법 | |
CN1956057A (zh) | 一种基于决策树的语音时长预测装置及方法 | |
Oyucu | A Novel End-to-End Turkish Text-to-Speech (TTS) System via Deep Learning | |
Yoder | Phonological and phonetic aspects of Enggano vowels | |
Díez et al. | Non-native speech corpora for the development of computer assisted pronunciation training systems | |
Luthra et al. | Punjabi speech generation system based on phonemes | |
Moreno-Torres et al. | Unmasking Nasality to Assess Hypernasality | |
CN1489122A (zh) | 拼音英语及学习机 | |
EP3718107A1 (en) | Speech signal processing and evaluation | |
CN1102768C (zh) | 一种用于电子计算机的汉字音形编码输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |