CN102203852A - 建立语音模型的方法 - Google Patents
建立语音模型的方法 Download PDFInfo
- Publication number
- CN102203852A CN102203852A CN2009801440627A CN200980144062A CN102203852A CN 102203852 A CN102203852 A CN 102203852A CN 2009801440627 A CN2009801440627 A CN 2009801440627A CN 200980144062 A CN200980144062 A CN 200980144062A CN 102203852 A CN102203852 A CN 102203852A
- Authority
- CN
- China
- Prior art keywords
- voice
- crowd
- class
- model
- speech model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000012986 modification Methods 0.000 claims abstract description 6
- 230000004048 modification Effects 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 abstract 4
- 230000007704 transition Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000005648 markovian process Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种能够推导出转换式的方法,该转换式是利用处理过程将男性语音模型转换为女性语音模型时所需的。首先,该转换式经过预定修改,然后将修改后的转换式施加到女性语音模型上,以生成合成的儿童语音模型。其中,男性语音模型和女性语音模型可以用向量表示,该向量代表定义每个语音模型的关键数据,并且得出的转换式可以是能够将男性语音模型向量转换成女性语音模型向量的矩阵形式。对所得出的矩阵的修改包括对该矩阵进行p次幂运算,其中0<p<1。
Description
技术领域
本发明一般涉及语音识别,更具体地,涉及利用已知的成人语音模型建立儿童计算机语音模型的方法。
背景技术
计算机语音识别已经在各领域中得到广泛应用,语音识别的一项有益应用是在语言学习方面。具体地,如果学习者在实际中以某种语言发音,并且他的语音受到监测和评价,那么他就能以更加自然的方式学习这门语言。对实现上述应用来说,仅需少量训练或者不需要训练的用计算机方法实现的通用的语音识别是理想的选择。例如,学习者可以先听预先制作好的母语人士的录音,并且可以尝试模仿该录音。语音识别程序监测学习者的语音,认可其正确的表述,而每当出现错误时则指出来。然后,学习者可以重试,直至其发音正确为止。
目前,已存在很多语种的计算机语音模型,并且可以按上述方式使用。这使得学习者可以在个人电脑上按自己的进度来学习语言。然而,语音模型往往是成人语音模型。另一方面,对于儿童来说学习语言特别容易,儿童时期学习语言是最有效的。不过由于儿童语音具有特殊性(女性的声音比男性的声音更加多变,然而儿童说话的音调甚至比女性的音调更高,并且比女性的声音更加多变),所以不容易得到儿童语音模型,并且成人语音模型对于儿童而言效果也不佳。
因此,期望能够利用已知的男性和/或女性的成人语音模型来建立相同语种的儿童语音识别模型。
发明内容
本发明涉及利用一种转换式将成人语音模型进行转换,从而获得儿童语音模型。已经得到从成年男性语音到成年女性语音的转换式,所述转换式是在将成年男性语音转换为成年女性语音时所需要的。根据本发明,所述转换式可以经过预定修改,然后可把修改后的转换式施加到女性语音模型,以得到有效的儿童语音模型。因此,优选的具体实施方案包括三个步骤:1)利用两种成人语音模型推导出能表示两者关系的转换式,其中,将该转换式施加到第一种成人语音模型上,可以大体得到第二种成人语音模型;2)修改该转换式;3)将修改后的转换式施加到第二种成人语音模型,以生成第三种语音模型。
下面介绍男性语音向量和女性语音向量。男性语音模型和女性语音模型可以包括多组向量(每个音位状态的高斯分布的均值向量)。每个模型可能包括数千个向量。当估算的转换式施加到一个模型的所有均值向量时,使两模型之间总的均方差最小化。当然,也可以采用其它误差度量方法,例如最大似然法。在每个模型中多次施加所述转换式,并且对每个向量施加一次所述转换式。这也可以从数学角度来理解:一个均值向量有39维,转换矩阵即为39维。基于HMM的采用高斯分布的声学模型可以参见下列文献:“a tutorial on hidden Markov models and selected applications in speech recognition,Rabiner,L.R.,Proceedings of the IEEE,Volume 77,Issue 2,Feb 1989,Pages:257-286”。
优选地,男性语音模型和女性语音模型可以用向量表示,该向量代表定义每个语音模型的关键数据。然后,转换式(优选为矩阵形式)可以将男性语音模型的向量转变为女性语音模型的向量。简单地说,该转换过程仅仅是将男性语音向量乘以转换矩阵。然后,修改该转换矩阵,接着用修改后的矩阵将女性语音向量转变为合成的儿童语音向量。对矩阵的修改包括对该矩阵进行p次幂运算(0<p<1)。p的取值,优选地,约为0.25到0.7;更优选地,约为0.4到0.5;最优选地,约为0.5。
附图说明
下面结合附图对本发明目前优选但仅为示例性的具体实施方案进行详细说明,从而可以更全面地理解本发明的上述简要说明和下述目的、特点及有益效果。其中:
图1表示系统的隐马尔可夫模型的示例性状态图;
图2表示假负率随用于生成转换矩阵的幂值变化的曲线,该转换矩阵用于将英语的女性语音模型转化为儿童语音模型;
图3表示假负率随用于生成转换矩阵的幂值变化的曲线,该转换矩阵用于将西班牙语的女性语音模型转化为儿童语音模型;
图4表示本发明所要保护的方法的实施方案的简要流程图。
具体实施方式
“隐马尔可夫模型”(HMM,hidden Markov model)是一种统计模型,其中假定建模系统是含有未知参数的马尔可夫过程。在使用该模型时,隐含的参数是由可观察的参数确定的。然后,推导出的模型参数可以用来做进一步分析。
在正常的马尔可夫模型中,系统的状态对观察者是直接可见的,因此状态转移概率是仅有的参数。在隐马尔可夫模型中,系统的状态对观察者不是直接可见的,但是受状态影响的变量是可见的。每个状态在可能输出的信号上具有一定的概率分布。因此,HMM产生的输出信号序列提供了一些关于状态序列的信息。
例如,图1表示系统的隐马尔可夫模型的状态图。该系统具有三个状态X1、X2和X3。状态转移概率是用字母“a”加上表示转移的数字表示的。例如,“a12”表示从状态X1到状态X2的转移概率。在每个状态还有多种可能的输出(这取决于状态序列),这些输出用字母“b”加上两个数字表示。方框Y1、Y2、Y3和Y4表示可能输出的观察数据,根据这些观察数据,可以确定系统的状态。
当前模型中,目标参数是HMM状态的平均值。多个平均值可以组成“向量”。例如,与男性语音模型相对应的状态平均值序列可以组成男性语音模型源向量m,所述男性语音模型源向量m包括与每个状态平均值相对应的分量。也可以为女性语音模型建立类似的向量f,使男性语音向量中的每个分量映射到女性语音向量中的相应分量。于是,可以定义矩阵形式的转换式T,使f=T*m,其中,f表示女性语音向量,m表示男性语音向量,而T*m表示矩阵与向量相乘,其为向量的转换。
对矩阵T的良好估计值将会使T*m与f之间的方差最小化。这可以用数学式(1)来表示:T=arg minA(Am-f)2 (1)
利用数学式(1)可以递归得到矩阵T。矩阵A可以初始化为单位矩阵。然后,如数学式(2)所示,可以用梯度下降法更新每个矩阵项aij: 其中,Ai表示矩阵A的第i行。对所有的向量对(m,f)多次实施梯度下降法,以使矩阵收敛到可接受的转换矩阵T的近似值。
根据本发明,通过将修改形式的矩阵T施加到女性语音向量上,使女性语音模型转换为儿童语音模型,从而可以生成合成的儿童语音模型。修改后的转换矩阵是通过对矩阵T进行p次幂运算而得到,即矩阵T’=Tp,其中p为分数,0<p<1。p的取值,优选地,约为0.25到0.7;更优选地,约为0.4到0.5;最优选地,约为0.5。而且,p不随语言变化。即,无论是哪种语言,所有的语音模型基本都取相同的最佳p值进行幂运算。
图4的流程图概括了本发明所公开的建立儿童语音模型的过程。该过程从方框100开始。在方框102,在现有的男性语音模型与现有的女性语音模型之间作相关处理,以推导出由男性语音模型生成女性语音模型的转换式。在优选的具体实施方案中,这是通过如下迭代过程来完成的:已知表示男性语音模型的向量和表示女性语音模型的向量,推导出转换矩阵。
在方框104,对转换矩阵进行调整。在优选实施例中,这相当于对转换矩阵进行幂运算(幂值取值范围为0到1)。
在方框106,将调整后的矩阵施加到女性语音模型上,以形成合成的儿童语音模型。处理过程在方框108处结束。实验
利用数学式(1)和数学式(2)所述的方法,可以生成与英语或西班牙语的现有男性语音模型以及现有女性语音模型有关的矩阵T。也可以获得各语种的有效的儿童语音模型。可以为各语种模型生成转换矩阵,并且利用多个0到1的p值可以生成各语种的一系列的不同转换矩阵。然后,用实际的儿童语音对采用不同p值的转换矩阵进行测试,从而测定不同p值下的语音模型的质量。图2表示英语的合成儿童语音模型下,假负率的相对减小量(百分比)与加到转换矩阵上的幂值p之间的函数关系。假负(FN)在实际正确的发音被检测为错误时出现。
表1总结了当语种为英语时,从男性语音模型、女性语音模型、合成的儿童语音模型以及基准的儿童语音模型所得出的结果。该表1不仅指示出假负率,还指示出假接受率。假接受即实际错误的发音被误认为正确。表1 英语语音模型的性能
与基线相比,假负率的相对减小量 | 假接受率 | |
男性语音模型 | 基线 | <1.0% |
女性语音模型 | 28.1% | <1.0% |
合成的儿童语音模型 | 50.3% | <1.0% |
实际儿童语音模型 | 63.8% | <1.0% |
与图2类似,图3表示当语种为西班牙语时,p值对合成的儿童语音模型的假负率相对减小量(百分比)的影响。表2总结了当语言是西班牙语时,男性语音模型、女性语音模型、合成的儿童语音模型以及基准的儿童语音模型的性能。表2 西班牙语语音模型的性能
与基线相比,假负率的相对减小量 | 假接受率 | |
男性语音模型 | 基线 | <1.0% |
女性语音模型 | 45.1% | <1.0% |
合成的儿童语音模型 | 52.1% | <1.0% |
实际儿童语音模型 | 59.6% | <1.0% |
儿童语音比成人语音更加多变。对此,将语音的变化量编码,形成与每个HMM状态有关的声学模型协方差矩阵。这些协方差特征值是在声学模型的训练过程中确定的,它们反映了原始训练集合中的变化量。为了体现儿童语音的变化量,协方差数据可按比例增大或缩小。
对于常用的多变量高斯分布(如在基于HMM的声学模型中)而言,只使用对角的协方差矩阵。可以对这些对角的矩阵项进行缩放以反映儿童语音中额外的变化量。前6个MFCC协方差特征值用下表所示的因子来缩放:
而能量、Δ-能量、Δ-Δ-能量(delta-delta-energy)可用下表所示的因子进行缩放:
1.40 | 1.33 | 1.27 | 1.21 | 1.15 | 1.09 |
1.45 | 1.35 | 1.15 |
其它所有的特征值保持不变。上述缩放可改进上述示例中的合成的儿童语音模型。对于英语的合成儿童语音模型,假负率降低至8.1%,并且假接受率为0.7%。对于西班牙语的合成儿童语音模型,假负率降低至7.7%,假接受率为0.1%。由于当假负率下降时假接受率上升,因此上述缩放必须谨慎地进行。
尽管出于解释目的已公开了本发明的优选实施方案,本领域技术人员应当理解,对上述实施方案还可以进行各种增加、修改和替换,而不会脱离如所附权利要求所限定的本发明的范围和精神。
Claims (28)
1.一种利用计算机实现的为第三类语音人群建立语音模型的方法,包括下列步骤:
推导出转换式,当所述转换式与现有的第一类语音人群的语音模型运算时会生成现有的第二类语音人群的语音模型;
将所述转换式施加到所述第二类语音人群的语音模型。
2.如权利要求1所述的方法,其中所述第一类语音人群是成年男性,所述第二类语音人群是成年女性,所述第三类语音人群是儿童。
3.如权利要求2所述的方法,其中在将所述转换式施加到所述第二类语音人群的语音模型之前,修改所述转换式。
4.如权利要求3所述的方法,其中所述修改包括对所述转换式进行幂运算。
5.如权利要求4所述的方法,其中所述幂运算是用0至1之间的幂值完成的。
6.如权利要求5所述的方法,其中所述幂运算是用约0.25至0.7之间的幂值完成的。
7.如权利要求5所述的方法,其中所述幂运算是用约0.4至0.5之间的幂值完成的。
8.如权利要求5所述的方法,其中所述幂运算是用约为0.5的幂值完成的。
9.如权利要求2所述的方法,其中儿童语音模型包含与其状态有关的协方差数据,并且对所述协方差数据进行缩放,以反映儿童语音的变化量。
10.如权利要求9所述的方法,其中所述协方差数据是对角矩阵的形式,并且前六个协方差数据按下列因子缩放:
而能量、Δ-能量、Δ-Δ-能量按下列因子缩放:
11.如权利要求2所述的方法,其中将男性语音模型和女性语音模型表示成统计建模系统中代表状态的向量,所述转换式是把男性语音向量转换为女性语音向量的矩阵。
12.如权利要求11所述的方法,其中对所述矩阵进行幂运算。
13.如权利要求12所述的方法,其中所述幂运算是用0至1之间的幂值完成的。
14.如权利要求12所述的方法,其中所述幂运算是用约0.25至0.7之间的幂值完成的。
15.如权利要求12所述的方法,其中所述幂运算是用约0.4至0.5之间的幂值完成的。
16.如权利要求12所述的方法,其中所述幂运算是用约为0.5的幂值完成的。
17.如权利要求11所述的方法,其中所述儿童语音模型包含与其状态有关的协方差数据,并且对所述协方差数据进行缩放,以反映儿童语音的变化量。
18.如权利要求17所述的方法,其中所述协方差数据是对角矩阵的形式,并且前六个协方差数据按下列因子缩放:
而能量、Δ-能量、Δ-Δ-能量按下列因子缩放:
19.如权利要求1所述的方法,其中在将所述转换式施加到所述第二类语音人群的语音模型之前,调整所述转换式。
20.如权利要求19所述的方法,其中所述调整包括对所述转换式进行幂运算。
21.如权利要求20所述的方法,其中所述幂运算是用0至1之间的幂值完成的。
22.如权利要求20所述的方法,其中所述幂运算是用约0.25至0.7之间的幂值完成的。
23.如权利要求20所述的方法,其中所述幂运算是用约0.4至0.5之间的幂值完成的。
24.如权利要求20所述的方法,其中所述幂运算是用约为0.5的幂值完成的。
25.如权利要求1所述的方法,其中所述第三类语音人群的语音模型包括与其状态有关的协方差数据,并且对该协方差数据进行缩放,以反映建模的语音的变化量。
26.一种语音转换方法,包括由一组来自两类人群的语音模型推导出转换函数,并且利用推导出的所述转换函数把所述两类人群中的一类人群的语音转换成第三类人群的语音。
27.如权利要求26所述的方法,其中第一类人群和第二类人群是成年男性和成年女性,第三类人群是儿童。
28.如权利要求26所述的方法,其中,转换为所述第三类人群的语音之后,将该语音用于训练所述第三类人群学习新的语言。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/209,569 US8645135B2 (en) | 2008-09-12 | 2008-09-12 | Method for creating a speech model |
US12/209,569 | 2008-09-12 | ||
PCT/US2009/056460 WO2010030742A1 (en) | 2008-09-12 | 2009-09-10 | Method for creating a speech model |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102203852A true CN102203852A (zh) | 2011-09-28 |
CN102203852B CN102203852B (zh) | 2015-05-13 |
Family
ID=42005463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980144062.7A Active CN102203852B (zh) | 2008-09-12 | 2009-09-10 | 语音转换方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8645135B2 (zh) |
EP (1) | EP2332139B1 (zh) |
JP (1) | JP5442016B2 (zh) |
KR (1) | KR101664815B1 (zh) |
CN (1) | CN102203852B (zh) |
CA (1) | CA2737142C (zh) |
WO (1) | WO2010030742A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530523A (zh) * | 2013-10-23 | 2014-01-22 | 北京师范大学 | 儿童语言能力发展评估建模方法 |
CN110164427A (zh) * | 2018-02-13 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置、设备以及存储介质 |
CN110246489A (zh) * | 2019-06-14 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于儿童的语音识别方法及系统 |
CN115798455A (zh) * | 2023-02-07 | 2023-03-14 | 深圳元象信息科技有限公司 | 语音合成方法、系统、电子设备及存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8880399B2 (en) * | 2010-09-27 | 2014-11-04 | Rosetta Stone, Ltd. | Utterance verification and pronunciation scoring by lattice transduction |
US8756062B2 (en) | 2010-12-10 | 2014-06-17 | General Motors Llc | Male acoustic model adaptation based on language-independent female speech data |
US9904844B1 (en) * | 2016-08-04 | 2018-02-27 | International Business Machines Corporation | Clustering large database of images using multilevel clustering approach for optimized face recognition process |
US10726828B2 (en) | 2017-05-31 | 2020-07-28 | International Business Machines Corporation | Generation of voice data as data augmentation for acoustic model training |
KR20210001529A (ko) * | 2019-06-28 | 2021-01-06 | 엘지전자 주식회사 | 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864810A (en) | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
GB9706174D0 (en) * | 1997-03-25 | 1997-11-19 | Secr Defence | Recognition system |
JP2986792B2 (ja) * | 1998-03-16 | 1999-12-06 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者正規化処理装置及び音声認識装置 |
US6253181B1 (en) * | 1999-01-22 | 2001-06-26 | Matsushita Electric Industrial Co., Ltd. | Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers |
US6912499B1 (en) * | 1999-08-31 | 2005-06-28 | Nortel Networks Limited | Method and apparatus for training a multilingual speech model set |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
JP3888543B2 (ja) * | 2000-07-13 | 2007-03-07 | 旭化成株式会社 | 音声認識装置及び音声認識方法 |
US6671686B2 (en) * | 2000-11-02 | 2003-12-30 | Guy Pardon | Decentralized, distributed internet data management |
JP2002366187A (ja) | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP2003122388A (ja) | 2001-10-10 | 2003-04-25 | Canon Inc | 音響モデル作成装置および方法、音声認識装置 |
JP2003255980A (ja) | 2002-03-04 | 2003-09-10 | Sharp Corp | 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 |
US7328154B2 (en) * | 2003-08-13 | 2008-02-05 | Matsushita Electrical Industrial Co., Ltd. | Bubble splitting for compact acoustic modeling |
US20060058999A1 (en) * | 2004-09-10 | 2006-03-16 | Simon Barker | Voice model adaptation |
US7797158B2 (en) * | 2007-06-20 | 2010-09-14 | At&T Intellectual Property Ii, L.P. | System and method for improving robustness of speech recognition using vocal tract length normalization codebooks |
US8751239B2 (en) * | 2007-10-04 | 2014-06-10 | Core Wireless Licensing, S.a.r.l. | Method, apparatus and computer program product for providing text independent voice conversion |
-
2008
- 2008-09-12 US US12/209,569 patent/US8645135B2/en active Active
-
2009
- 2009-09-10 JP JP2011526956A patent/JP5442016B2/ja not_active Expired - Fee Related
- 2009-09-10 KR KR1020117008269A patent/KR101664815B1/ko active IP Right Grant
- 2009-09-10 CA CA2737142A patent/CA2737142C/en active Active
- 2009-09-10 EP EP09813580.9A patent/EP2332139B1/en active Active
- 2009-09-10 CN CN200980144062.7A patent/CN102203852B/zh active Active
- 2009-09-10 WO PCT/US2009/056460 patent/WO2010030742A1/en active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530523A (zh) * | 2013-10-23 | 2014-01-22 | 北京师范大学 | 儿童语言能力发展评估建模方法 |
CN103530523B (zh) * | 2013-10-23 | 2017-01-04 | 北京师范大学 | 儿童语言能力发展评估建模方法 |
CN110164427A (zh) * | 2018-02-13 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置、设备以及存储介质 |
CN110246489A (zh) * | 2019-06-14 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于儿童的语音识别方法及系统 |
CN115798455A (zh) * | 2023-02-07 | 2023-03-14 | 深圳元象信息科技有限公司 | 语音合成方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP2332139A1 (en) | 2011-06-15 |
WO2010030742A1 (en) | 2010-03-18 |
JP2012502327A (ja) | 2012-01-26 |
KR101664815B1 (ko) | 2016-10-11 |
JP5442016B2 (ja) | 2014-03-12 |
CA2737142A1 (en) | 2010-03-18 |
CN102203852B (zh) | 2015-05-13 |
US20100070278A1 (en) | 2010-03-18 |
US8645135B2 (en) | 2014-02-04 |
KR20110084402A (ko) | 2011-07-22 |
CA2737142C (en) | 2015-01-06 |
EP2332139A4 (en) | 2012-10-24 |
EP2332139B1 (en) | 2015-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102203852A (zh) | 建立语音模型的方法 | |
US20200395028A1 (en) | Audio conversion learning device, audio conversion device, method, and program | |
CN108536670B (zh) | 输出语句生成装置、方法和程序 | |
Wang et al. | Towards automatic assessment of spontaneous spoken English | |
CN110415725B (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
CN110021293A (zh) | 语音识别方法及装置、可读存储介质 | |
CN113299282B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN111177351A (zh) | 基于规则的自然语言表达意图获取方法、装置和系统 | |
US8386249B2 (en) | Compressing feature space transforms | |
Bannò et al. | Proficiency assessment of L2 spoken English using wav2vec 2.0 | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN112786028B (zh) | 声学模型处理方法、装置、设备和可读存储介质 | |
Shufang | Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices | |
Martínez-Hinarejos et al. | Unsegmented dialogue act annotation and decoding with n-gram transducers | |
CN109147775A (zh) | 一种基于神经网络的语音识别方法及装置 | |
Mann et al. | Tamil talk: What you speak is what you get! | |
CN109859741A (zh) | 语音测评方法、装置、电子设备及存储介质 | |
CN117275458B (zh) | 智能客服的语音生成方法、装置、设备及存储介质 | |
Kristensen et al. | Grapheme to phoneme conversion of norwegian using hidden markov models | |
WO2023281717A1 (ja) | 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム | |
JP7064413B2 (ja) | 言語識別モデルを用いた発音評価プログラム、装置及び方法 | |
CN102034474B (zh) | 语音辨认所有语言及用语音输入单字的方法 | |
Dahan et al. | Arabic speech pronunciation recognition and correction using Automatic Speech Recognizer (ASR) | |
Jung et al. | An integrated dialog simulation technique for evaluating spoken dialog systems | |
Sun et al. | WEakly supervised hmm learning for spokenword acquisition in human computer interaction with little manual effort |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210608 Address after: Virginia Patentee after: Rosetta stele Co.,Ltd. Address before: Virginia Patentee before: Rushitong Co.,Ltd. |
|
TR01 | Transfer of patent right |