CN102203852B - 语音转换方法 - Google Patents

语音转换方法 Download PDF

Info

Publication number
CN102203852B
CN102203852B CN200980144062.7A CN200980144062A CN102203852B CN 102203852 B CN102203852 B CN 102203852B CN 200980144062 A CN200980144062 A CN 200980144062A CN 102203852 B CN102203852 B CN 102203852B
Authority
CN
China
Prior art keywords
speech model
children
model
transition matrix
power operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980144062.7A
Other languages
English (en)
Other versions
CN102203852A (zh
Inventor
安德里亚斯·哈根
布莱恩·培伦
卡德里·哈吉奥卢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rosetta stele Co.,Ltd.
Original Assignee
Rosetta Stone LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rosetta Stone LLC filed Critical Rosetta Stone LLC
Publication of CN102203852A publication Critical patent/CN102203852A/zh
Application granted granted Critical
Publication of CN102203852B publication Critical patent/CN102203852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种利用转换式进行语音转换的方法,该转换式是利用处理过程将男性语音模型转换为女性语音模型时所需的。首先,该转换式经过预定修改,然后将修改后的转换式施加到女性语音模型上,以生成合成的儿童语音模型。其中,男性语音模型和女性语音模型可以用向量表示,该向量代表定义每个语音模型的关键数据,并且得出的转换式可以是能够将男性语音模型向量转换成女性语音模型向量的矩阵形式。对所得出的矩阵的修改包括对该矩阵进行p次幂运算,其中0<p<1。

Description

语音转换方法
技术领域
本发明一般涉及语音识别,更具体地,涉及利用已知的成人语音模型建立儿童计算机语音模型的方法。
背景技术
计算机语音识别已经在各领域中得到广泛应用,语音识别的一项有益应用是在语言学习方面。具体地,如果学习者在实际中以某种语言发音,并且他的语音受到监测和评价,那么他就能以更加自然的方式学习这门语言。对实现上述应用来说,仅需少量训练或者不需要训练的用计算机方法实现的通用的语音识别是理想的选择。例如,学习者可以先听预先制作好的母语人士的录音,并且可以尝试模仿该录音。语音识别程序监测学习者的语音,认可其正确的表述,而每当出现错误时则指出来。然后,学习者可以重试,直至其发音正确为止。
目前,已存在很多语种的计算机语音模型,并且可以按上述方式使用。这使得学习者可以在个人电脑上按自己的进度来学习语言。然而,语音模型往往是成人语音模型。另一方面,对于儿童来说学习语言特别容易,儿童时期学习语言是最有效的。不过由于儿童语音具有特殊性(女性的声音比男性的声音更加多变,然而儿童说话的音调甚至比女性的音调更高,并且比女性的声音更加多变),所以不容易得到儿童语音模型,并且成人语音模型对于儿童而言效果也不佳。
因此,期望能够利用已知的男性和/或女性的成人语音模型来建立相同语种的儿童语音识别模型。
此外,成人语音模型到儿童语音模型的转换不仅可以用于语言学习,其在社会生活的诸多方面存在需求。
例如,婴儿或儿童在医院就医时由于对检查、打针等的恐惧,往往在整个就医过程中哭闹不止,使儿童家长束手无策。而如果播放儿童语 音的广播或节目,则能很大程度上吸引儿童的注意力。此外,在需要儿童配合的场合(例如,儿童需要在公园门口排队进入公园;在幼儿园,儿童需要按照规定摆放物品等),也已发现儿童语音的广播比成人语音更容易让儿童接受。然而,在上述场合目前基本上均采用成人广播。由于儿童参与广播制作远不如成人便利,因此尽管社会生活中存在着对儿童广播的大量需求,但目前的儿童广播节目、儿童广播产品非常匮乏。因此,期望利用已知的成人语音通过模型转换得到儿童语音,以在幼儿园、医院、商场、剧院、火车站、机场等场所应用。
发明内容
本发明涉及利用一种转换式将成人语音模型进行转换,从而获得儿童语音模型。已经得到从成年男性语音到成年女性语音的转换式,所述转换式是在将成年男性语音转换为成年女性语音时所需要的。根据本发明,所述转换式可以经过预定修改,然后可把修改后的转换式施加到女性语音模型,以得到有效的儿童语音模型。因此,优选的具体实施方案包括三个步骤:1)利用两种成人语音模型推导出能表示两者关系的转换式,其中,将该转换式施加到第一种成人语音模型上,可以大体得到第二种成人语音模型;2)修改该转换式;3)将修改后的转换式施加到第二种成人语音模型,以生成第三种语音模型。
下面介绍男性语音向量和女性语音向量。男性语音模型和女性语音模型可以包括多组向量(每个音位状态的高斯分布的均值向量)。每个模型可能包括数千个向量。当估算的转换式施加到一个模型的所有均值向量时,使两模型之间总的均方差最小化。当然,也可以采用其它误差度量方法,例如最大似然法。在每个模型中多次施加所述转换式,并且对每个向量施加一次所述转换式。这也可以从数学角度来理解:一个均值向量有39维,转换矩阵即为39维。基于HMM的采用高斯分布的声学模型可以参见下列文献:“a tutorial on hidden Markov models and selected applications in speech recognition,Rabiner,L.R.,Proceedings of the IEEE,Volume 77,Issue 2,Feb 1989,Pages:257-286”。
优选地,男性语音模型和女性语音模型可以用向量表示,该向量代表定义每个语音模型的关键数据。然后,转换式(优选为矩阵形式)可以将男性语音模型的向量转变为女性语音模型的向量。简单地说,该转换过程仅仅是将男性语音向量乘以转换矩阵。然后,修改该转换矩阵,接着用修改后的矩阵将女性语音向量转变为合成的儿童语音向量。对矩阵的修改包括对该矩阵进行p次幂运算(0<p<1)。p的取值,优选地,约为0.25到0.7;更优选地,约为0.4到0.5;最优选地,约为0.5。
附图说明
下面结合附图对本发明目前优选但仅为示例性的具体实施方案进行详细说明,从而可以更全面地理解本发明的上述简要说明和下述目的、特点及有益效果。其中:
图1表示系统的隐马尔可夫模型的示例性状态图;
图2表示假负率随用于生成转换矩阵的幂值变化的曲线,该转换矩阵用于将英语的女性语音模型转化为儿童语音模型;
图3表示假负率随用于生成转换矩阵的幂值变化的曲线,该转换矩阵用于将西班牙语的女性语音模型转化为儿童语音模型;
图4表示本发明所要保护的方法的实施方案的简要流程图。
具体实施方式
“隐马尔可夫模型”(HMM,hidden Markov model)是一种统计模型,其中假定建模系统是含有未知参数的马尔可夫过程。在使用该模型时,隐含的参数是由可观察的参数确定的。然后,推导出的模型参数可以用来做进一步分析。
在正常的马尔可夫模型中,系统的状态对观察者是直接可见的,因此状态转移概率是仅有的参数。在隐马尔可夫模型中,系统的状态对观察者不是直接可见的,但是受状态影响的变量是可见的。每个状态在可能输出的信号上具有一定的概率分布。因此,HMM产生的输出信号序列提供了一些关于状态序列的信息。
例如,图1表示系统的隐马尔可夫模型的状态图。该系统具有三个状态X1、X2和X3。状态转移概率是用字母“a”加上表示转移的数字表示的。例如,“a12”表示从状态X1到状态X2的转移概率。在每个状态还有多种可能的输出(这取决于状态序列),这些输出用字母“b”加上两个数字表示。方框Y1、Y2、Y3和Y4表示可能输出的观察数据,根据这些观察数据,可以确定系统的状态。
当前模型中,目标参数是HMM状态的平均值。多个平均值可以组成“向量”。例如,与男性语音模型相对应的状态平均值序列可以组成男性语音模型源向量m,所述男性语音模型源向量m包括与每个状态平均值相对应的分量。也可以为女性语音模型建立类似的向量f,使男性语音向量中的每个分量映射到女性语音向量中的相应分量。于是,可以定义矩阵形式的转换式T,使f=T*m,其中,f表示女性语音向量,m表示男性语音向量,而T*m表示矩阵与向量相乘,其为向量的转换。
对矩阵T的良好估计值将会使T*m与f之间的方差最小化。这可以用数学式(1)来表示:
T=arg minA(Am-f)2                (1)
[0018]利用数学式(1)可以递归得到矩阵T。矩阵A可以初始化为单位矩阵。然后,如数学式(2)所示,可以用梯度下降法更新每个矩阵项aij
∂ ∂ a ij [ 2 ( A i m - f ) m j ] - - - ( 2 )
其中,Ai表示矩阵A的第i行。
对所有的向量对(m,f)多次实施梯度下降法,以使矩阵收敛到可接受的转换矩阵T的近似值。
根据本发明,通过将修改形式的矩阵T施加到女性语音向量上,使女性语音模型转换为儿童语音模型,从而可以生成合成的儿童语音模型。修改后的转换矩阵是通过对矩阵T进行p次幂运算而得到,即矩阵T’=Tp,其中p为分数,0<p<1。p的取值,优选地,约为0.25到0.7;更优选地,约为0.4到0.5;最优选地,约为0.5。而且,p不随语言变化。即,无论是哪种语言,所有的语音模型基本都取相同的最佳p值进行幂运算。
图4的流程图概括了本发明所公开的建立儿童语音模型的过程。该过程从方框100开始。在方框102,在现有的男性语音模型与现有的女性语音模型之间作相关处理,以推导出由男性语音模型生成女性语音模型的转换式。在优选的具体实施方案中,这是通过如下迭代过程来完成的:已知表示男性语音模型的向量和表示女性语音模型的向量,推导出转换矩阵。
在方框104,对转换矩阵进行调整。在优选实施例中,这相当于对转换矩阵进行幂运算(幂值取值范围为0到1)。
在方框106,将调整后的矩阵施加到女性语音模型上,以形成合成的儿童语音模型。处理过程在方框108处结束。
实验
利用数学式(1)和数学式(2)所述的方法,可以生成与英语或西班牙语的现有男性语音模型以及现有女性语音模型有关的矩阵T。也可以获得各语种的有效的儿童语音模型。可以为各语种模型生成转换矩阵,并且利用多个0到1的p值可以生成各语种的一系列的不同转换矩阵。然后,用实际的儿童语音对采用不同p值的转换矩阵进行测试,从而测定不同p值下的语音模型的质量。图2表示英语的合成儿童语音模型下,假负率的相对减小量(百分比)与加到转换矩阵上的幂值p之间的函数关系。假负(FN)在实际正确的发音被检测为错误时出现。
表1总结了当语种为英语时,从男性语音模型、女性语音模型、合成的儿童语音模型以及基准的儿童语音模型所得出的结果。该表1不仅指示出假负率,还指示出假接受率。假接受即实际错误的发音被误认为正确。
表1英语语音模型的性能
    与基线相比,假负率的相对减小量   假接受率
  男性语音模型   基线   <1.0%
  女性语音模型   28.1%   <1.0%
  合成的儿童语音模型   50.3%   <1.0%
  实际儿童语音模型   63.8%   <1.0%
与图2类似,图3表示当语种为西班牙语时,p值对合成的儿童语音模型的假负率相对减小量(百分比)的影响。表2总结了当语言是西班牙语时,男性语音模型、女性语音模型、合成的儿童语音模型以及基准的儿童语音模型的性能。 
表2西班牙语语音模型的性能
    与基线相比,假负率的相对减小量   假接受率
  男性语音模型   基线   <1.0%
  女性语音模型   45.1%   <1.0%
  合成的儿童语音模型   52.1%   <1.0%
  实际儿童语音模型   59.6%   <1.0%
儿童语音比成人语音更加多变。对此,将语音的变化量编码,形成与每个HMM状态有关的声学模型协方差矩阵。这些协方差特征值是在声学模型的训练过程中确定的,它们反映了原始训练集合中的变化量。为了体现儿童语音的变化量,协方差数据可按比例增大或缩小。 
对于常用的多变量高斯分布(如在基于HMM的声学模型中)而言,只使用对角的协方差矩阵。可以对这些对角的矩阵项进行缩放以反映儿童语音中额外的变化量。前6个MFCC协方差特征值用下表所示的因子来缩放:
  1.40   1.33   1.27   1.21   1.15   1.09
而能量、Δ-能量、Δ-Δ-能量(delta-delta-energy)可用下表所示的因子进行缩放: 
  1.45   1.35   1.15
其它所有的特征值保持不变。上述缩放可改进上述示例中的合成的儿童语音模型。对于英语的合成儿童语音模型,假负率降低至8.1%,并且假接受率为0.7%。对于西班牙语的合成儿童语音模型,假负率降低至7.7%,假接受率为0.1%。由于当假负率下降时假接受率上升,因此上述缩放必须谨慎地进行。 
尽管出于解释目的已公开了本发明的优选实施方案,本领域技术人员应当理解,对上述实施方案还可以进行各种增加、修改和替换,而不会脱离如所附权利要求所限定的本发明的范围和精神。

Claims (16)

1.一种利用计算机实现的基于现有的用于由成年男性组成的语音人群的男性成人语音模型和现有的用于由成年女性组成的语音人群的女性成人语音模型来生成儿童语音模型的方法,所述儿童语音模型用于由正在学习语言的儿童组成的语音人群,所述方法包括下列步骤:
得到转换矩阵,所述转换矩阵用于在所述转换矩阵被施加到所述男性成人语音模型时从所述男性成人语音模型产生所述女性成人语音模型;
修改所述转换矩阵,以生成经修改的转换矩阵;以及
将所述经修改的转换矩阵施加到所述女性成人语音模型,以生成所述儿童语音模型,所述儿童语音模型用于根据正在学习语言的儿童组成的所述语音人群中的成员来识别语音。
2.如权利要求1所述的方法,其中所述修改包括对所述转换矩阵进行幂运算,以生成所述经修改的转换矩阵。
3.如权利要求2所述的方法,其中所述幂运算使用0至1之间的幂值。
4.如权利要求2所述的方法,其中所述幂运算使用0.25至0.7之间的幂值。
5.如权利要求2所述的方法,其中所述幂运算使用0.4至0.5之间的幂值。
6.如权利要求2所述的方法,其中所述幂运算使用0.5的幂值。
7.如权利要求1所述的方法,其中儿童语音模型包含与所述儿童语音模型的状态有关的协方差数据,并且对所述协方差数据进行缩放,以反映儿童语音的变化量。
8.如权利要求7所述的方法,其中所述协方差数据是对角矩阵的形式,并且前六个协方差值按下列因子缩放:
1.40 1.33 1.27 1.21 1.15 1.09
而能量、Δ-能量、Δ-Δ-能量按下列因子缩放:
1.45 1.35 1.15
9.如权利要求1所述的方法,其中所述男性成人语音模型由统计建模系统中表示状态的值的男性向量表示,所述女性成人语音模型由所述统计建模系统中表示状态的值的女性向量表示,所述转换矩阵把所述男性向量转换为所述女性向量。
10.如权利要求9所述的方法,其中所述修改包括对所述转换矩阵进行幂运算,以生成经修改的转换矩阵。
11.如权利要求10所述的方法,其中所述幂运算使用0至1之间的幂值。
12.如权利要求10所述的方法,其中所述幂运算使用0.25至0.7之间的幂值。
13.如权利要求10所述的方法,其中所述幂运算使用0.4至0.5之间的幂值。
14.如权利要求10所述的方法,其中所述幂运算使用0.5的幂值。
15.如权利要求9所述的方法,其中所述儿童语音模型包含与所述儿童语音模型的状态有关的协方差数据,并且对所述协方差数据进行缩放,以反映儿童语音的变化量。
16.如权利要求15所述的方法,其中所述协方差数据是对角矩阵的形式,并且前六个协方差值按下列因子缩放:
1.40 1.33 1.27 1.21 1.15 1.09
而能量、Δ-能量、Δ-Δ-能量按下列因子缩放:
1.45 1.35 1.15
CN200980144062.7A 2008-09-12 2009-09-10 语音转换方法 Active CN102203852B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/209,569 US8645135B2 (en) 2008-09-12 2008-09-12 Method for creating a speech model
US12/209,569 2008-09-12
PCT/US2009/056460 WO2010030742A1 (en) 2008-09-12 2009-09-10 Method for creating a speech model

Publications (2)

Publication Number Publication Date
CN102203852A CN102203852A (zh) 2011-09-28
CN102203852B true CN102203852B (zh) 2015-05-13

Family

ID=42005463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980144062.7A Active CN102203852B (zh) 2008-09-12 2009-09-10 语音转换方法

Country Status (7)

Country Link
US (1) US8645135B2 (zh)
EP (1) EP2332139B1 (zh)
JP (1) JP5442016B2 (zh)
KR (1) KR101664815B1 (zh)
CN (1) CN102203852B (zh)
CA (1) CA2737142C (zh)
WO (1) WO2010030742A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
CN103530523B (zh) * 2013-10-23 2017-01-04 北京师范大学 儿童语言能力发展评估建模方法
US9904844B1 (en) 2016-08-04 2018-02-27 International Business Machines Corporation Clustering large database of images using multilevel clustering approach for optimized face recognition process
US10726828B2 (en) 2017-05-31 2020-07-28 International Business Machines Corporation Generation of voice data as data augmentation for acoustic model training
CN110164427A (zh) * 2018-02-13 2019-08-23 阿里巴巴集团控股有限公司 语音交互方法、装置、设备以及存储介质
CN110246489B (zh) * 2019-06-14 2021-07-13 思必驰科技股份有限公司 用于儿童的语音识别方法及系统
KR20210001529A (ko) * 2019-06-28 2021-01-06 엘지전자 주식회사 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법
CN115798455B (zh) * 2023-02-07 2023-06-02 深圳元象信息科技有限公司 语音合成方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1441948A (zh) * 2000-07-13 2003-09-10 旭化成株式会社 语音识别装置与语音识别方法
US6671686B2 (en) * 2000-11-02 2003-12-30 Guy Pardon Decentralized, distributed internet data management
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US6151575A (en) 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
GB9706174D0 (en) 1997-03-25 1997-11-19 Secr Defence Recognition system
JP2986792B2 (ja) * 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
JP2002366187A (ja) 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2003122388A (ja) 2001-10-10 2003-04-25 Canon Inc 音響モデル作成装置および方法、音声認識装置
JP2003255980A (ja) 2002-03-04 2003-09-10 Sharp Corp 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US20060058999A1 (en) * 2004-09-10 2006-03-16 Simon Barker Voice model adaptation
US7797158B2 (en) * 2007-06-20 2010-09-14 At&T Intellectual Property Ii, L.P. System and method for improving robustness of speech recognition using vocal tract length normalization codebooks
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
CN1441948A (zh) * 2000-07-13 2003-09-10 旭化成株式会社 语音识别装置与语音识别方法
US6671686B2 (en) * 2000-11-02 2003-12-30 Guy Pardon Decentralized, distributed internet data management

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Robust Recognition of Children’s Speech;Alexandros Potamianos, et al.;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;20031130;第11卷(第6期);603-616 *

Also Published As

Publication number Publication date
KR20110084402A (ko) 2011-07-22
WO2010030742A1 (en) 2010-03-18
CA2737142A1 (en) 2010-03-18
JP5442016B2 (ja) 2014-03-12
CA2737142C (en) 2015-01-06
EP2332139A1 (en) 2011-06-15
KR101664815B1 (ko) 2016-10-11
US8645135B2 (en) 2014-02-04
EP2332139B1 (en) 2015-10-21
EP2332139A4 (en) 2012-10-24
US20100070278A1 (en) 2010-03-18
JP2012502327A (ja) 2012-01-26
CN102203852A (zh) 2011-09-28

Similar Documents

Publication Publication Date Title
CN102203852B (zh) 语音转换方法
CN105741832B (zh) 一种基于深度学习的口语评测方法和系统
WO2020140487A1 (zh) 用于智能设备的人机交互语音识别方法及系统
CN101739869B (zh) 一种基于先验知识的发音评估与诊断系统
Bogach et al. Speech processing for language learning: A practical approach to computer-assisted pronunciation teaching
KR20170034227A (ko) 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
WO2023087767A1 (zh) 适用于语音识别模型的训练数据生成方法及设备
Rasilo et al. Feedback and imitation by a caregiver guides a virtual infant to learn native phonemes and the skill of speech inversion
Zuluaga-Gomez et al. A virtual simulation-pilot agent for training of air traffic controllers
Ng et al. Teacher-student training for text-independent speaker recognition
Alqadasi et al. Rule-based embedded HMMs phoneme classification to improve Qur’anic recitation recognition
Dai [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model
CN117636704A (zh) 一种用于养老护理的语音模拟训练智能系统及训练方法
Huzaifah et al. An analysis of semantically-aligned speech-text embeddings
Shufang Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices
Martínez-Hinarejos et al. Unsegmented dialogue act annotation and decoding with n-gram transducers
Liu et al. Deep learning scoring model in the evaluation of oral English teaching
Zhang [Retracted] English Speech Recognition System Model Based on Computer‐Aided Function and Neural Network Algorithm
Jing Speech recognition sensors and artificial intelligence automatic evaluation application in English oral correction system
Mann et al. Tamil talk: What you speak is what you get!
Park et al. Perturbation AUTOVC: Voice Conversion From Perturbation and Autoencoder Loss
Li Modular design of English pronunciation proficiency evaluation system based on Speech Recognition Technology
Zhang et al. Design of English pronunciation quality evaluation system based on the deep learning model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210608

Address after: Virginia

Patentee after: Rosetta stele Co.,Ltd.

Address before: Virginia

Patentee before: Rushitong Co.,Ltd.

TR01 Transfer of patent right