CN102376182B - 语言学习系统、语言学习方法及其程序产品 - Google Patents
语言学习系统、语言学习方法及其程序产品 Download PDFInfo
- Publication number
- CN102376182B CN102376182B CN201010264464.5A CN201010264464A CN102376182B CN 102376182 B CN102376182 B CN 102376182B CN 201010264464 A CN201010264464 A CN 201010264464A CN 102376182 B CN102376182 B CN 102376182B
- Authority
- CN
- China
- Prior art keywords
- corpus
- many
- voice
- sound
- curve
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了语言学习系统、语言学习方法及其程序产品。一种语言学习系统,其包括存储模块、特征提取模块以及评量与诊断模块。存储模块用以存储训练语料以及依据训练语料所建立的评量决策树。特征提取模块用以提取语言学习者所发出的语音的语音特征。评量与诊断模块用以识别语言学习者所发出的语音在此评量决策树中对应的诊断路径并且输出对应的反馈信息。因此,本语言学习系统能够针对语言学习者所发出的字、词或语句进行评量与反馈。
Description
技术领域
本发明涉及一种语言学习系统、语言学习方法及其计算机程序产品。
背景技术
以信息科技为主轴而发展出来的数字语文学习教材和系统,正吸引越来越多人加入,亦在世界各地热络地发展当中。在真人师资有限及地域限制的情况下,学习者极需不受时间地域限制的自学模式。因此研究语文发音障碍的问题,建立发音评量、诊断及矫正技术,可帮助创造不受时间地域限制的语文自学学习模式,降低学习障碍。
为了克服上述问题,目前已发展出语言学习系统来提供语言学习者自我学习的管道。这些语言学习系统主要是通过请专业人士针对特定语言教材录制语音文件。然后,当语言学习者在语言学习系统中依据预先安排的教材来发出语音时,语言学习系统会比对专业人士所录制的语音文件及语言学习者的语音以分析出之间的差异来进行评分。另外有些语言学习系统则是侦测学习者发音的某些物理特性,再根据语言学习理论给予反馈。再有些语言学习系统会根据发音的某些物理特性以高斯模型、高斯混合模型来检验学习者发音的好坏,或是以语音验证技术来检验发音的正确性。这些发音评量上通常只提供权重式的整体评量与单一分数或是简单的比对结果,学习者并无法从此获得足够的错误相关信息以及相对应的矫正方式。因此,降低了语言学习者使用这些语言学习系统的意愿,增加了相关产业发展的困难性。
发明内容
本发明提供一种语言学习系统,其能够诊断语言学习者所发出的字、词或语句的发音并提供对应的反馈信息。
本发明提供一种整合式语言学习方法,其能够诊断语言学习者所发出的字、词或语句的发音并提供对应的反馈信息。
本发明提供一种计算机程序产品,其能够诊断语言学习者所发出的字、词或语句的发音并提供对应的反馈信息。
本发明的范例实施例提出一种语言学习系统,用于评量一种学习语句之中的语音。本语言学习系统包括存储模块、特征提取模块以及评量与诊断模块。存储模块用以存储一个或多个评量决策树,其中评量决策树具有多条决策路径,每一决策路径包含多个决策节点并且每一决策路径对应至少一个反馈信息。特征提取模块用以提取此语音的至少一个语音特征。评量与诊断模块用以依据上述语音的语音特征决定在评量决策树的决策路径之中对应此语音的诊断路径并且输出对应此诊断路径的至少一个反馈信息。
本发明的范例实施例提出一种整合式语言学习方法,其用于评量一种学习语句之中的语音。本整合式语言学习方法包括存储至少一个评量决策树,其中评量决策树具有多条决策路径,每一决策路径包含多个决策节点并且每一决策路径对应至少一个反馈信息。本整合式语言学习方法还包括提取上述语音的一个或多个语音特征,依据此语音的语音特征决定在上述评量决策树的决策路径之中对应此语音的诊断路径,并且输出对应此诊断路径的至少一个反馈信息。
基于上述,本发明范例实施例的整合式语言学习方法及语言学习系统能够精确地诊断语言学习者所发出的字、词与语句,并且针对其中的每一发音提出对应的反馈信息。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
附图说明
图1A是根据本发明的范例实施例所示的语言学习系统的使用示意图。
图1B是根据本发明的范例实施例所示的语言学习系统的概要方块图。
图2~图5是根据本发明的范例实施例所示声调变化及其对应的语音特征。
图6是根据本发明的范例实施例所示用以产生评量决策树的训练语料的范例。
图7是根据本发明的范例实施例所示的部分的评量决策树。
图8是根据本发明的范例实施例所示的诊断路径的示意图。
图9是根据本发明的范例实施例所示的整合式语言学习方法的流程图。
【主要元件符号说明】
100:语言学习系统
102:存储模块
104:特征提取模块
106:决策树产生模块
108:反馈信息产生模块
110:评量与诊断模块
202a、302a、402a、502a:第一基频子曲线
202b、302b、402b、502b:第二基频子曲线
202c、302c、402c、502c:第三基频子曲线
204a、304a、404a、504a:基频曲线的第一平均值
204b、304b、404b、504b:基频曲线的第二平均值
204c、304c、404c、504c:基频曲线的第三平均值
206a、306a、406a、506a:基频曲线的第一差值
206b、306b、406b、506b:基频曲线的第二差值
206c、306c、406c、506c:基频曲线的第三差值
700:评量决策树
702、704、706、708:决策节点
900:语音评量程序
S901、S903、S905、S907、S909、S911、S913、S915、S917、
S919、S921:语音评量的步骤
具体实施方式
图1A是根据本发明的范例实施例所示的语言学习系统的使用示意图。
为了能够精确地诊断语言学习者所发出的字、词与语句,并且针对其中的每一发音提出对应的反馈信息,本发明所提出的语言学习系统100包括存储模块102、特征提取模块104以及评量与诊断模块110。存储模块102用以存储评量决策树,其中评量决策树具有多条决策路径,每一决策路径包含多个决策节点并且每一决策路径对应至少一个反馈信息。特征提取模块104用以提取语音至少一个的语音特征。并且,评量与诊断模块110用以依据上述语音的语音特征决定在评量决策树的决策路径之中对应此语音的诊断路径并且输出对应此诊断路径的反馈信息。因此,语言学习者1可在特征提取模块104中输入语音并且评量与诊断模块110会依据存储模块102中的评量决策树产生适当的反馈信息。
具体来说,本发明的范例实施例所提出的语言学习系统是通过搜集学习者的多笔语音作为训练语句并且解析其中的声调(例如,汉语中的一声、二声、三声与四声)、语调(例如,英语中的重音、非重音、无声音素与静音)等语音特征来分别地建立对应的评量决策树。此外,当学习者进行语言学习时,在本发明所提出的语言学习系统与整合式语言学习方法中所建立的评量决策树上的信息会被用来评量学习者的发音,并提供相关的反馈以矫正学习者的错误发音。
在汉语语文学习中,声调学习对是最为关键的,尤其是对母语为非声调语言的学习者而言。为了能够更清楚地了解语言学习系统100的运作,以下将以声调学习为例来对语言学习系统100作更进一步的说明。然而,必须了解的是,本发明不限于此。在本发明另一范例实施例中,语言学习系统100亦可应用于英语、法语、日语等语言的语调、发音学习上。
图1B是根据本发明的范例实施例所示的语言学习系统的概要方块图。
请参照图1,语言学习系统100包括存储模块102、特征提取模块104、决策树产生模块106、反馈信息产生模块108、评量与诊断模块110。
存储模块102用以存储多笔训练语句。具体来说,在本范例实施例中,由16个非以汉语为母语的学习者针对符合课程学习的文本使用录音模块(未绘示)进行录音以搜集多笔训练语句,并且所搜集的训练语句会被存储在存储模块102中。例如,存储模块102为非易失性存储器、磁盘或可写光盘。
特征提取模块104用以对存储在存储模块102中的训练语句进行切音运算来获取训练语句中的每一个单位音的时间范围(例如,每一个字的发音时间范围)并且依据四种声调(即,汉语中的一声、二声、三声与四声)将所获取的单位音进行分类。例如,特征提取模块104会依据每一单位音的声调及其对应训练语句中右相关的单位音的组合来进行分类。具体来说,以一声的单位音为例,依据在训练语句中接续此一声的单位音的下一个单位音的声调可将属于一声的单位音细分为5种:(1)属于一声的单位音加上属于一声的单位音的组合;(2)属于一声的单位音加上属于二声的单位音的组合;(3)属于一声的单位音加上属于三声的单位音的组合;(4)属于一声的单位音加上属于四声的单位音的组合;以及(5)属于一声的单位音加上属于静音的单位音的组合。也就是说,同样是发出属于一声的单位音,但其会因为语句中的下一个单位音的声调而有所差异。基于上述,在汉语中每一个单位音可被分类为20种类型(即,每一个字的发音包含4种声调且每一声调又细分为5种)。然而,必须了解的是,在本发明中分类方式不限于上述方式。在本发明的另一范例实施例中,所获取的单位音亦可依据其声调及其对应训练语句中左相关的单位音(即,前一个单位音)的组合来进行分类。或者,所获取的单位音亦可依据其声调及其对应训练语句中左右相关的单位音(即,前一个单位音与下一个单位音)的组合来进行分类。或者,所获取的单位音亦可仅依据其声调来分类。在此,这些从训练语句中所提取的单位音称为训练语料,而每一分类组合称为训练语料群。也就是说,所提取的训练语料经过分类后会属于其中一个训练语料群。
值得一提的是,这些从学习者中搜集到的训练语料分别地具有一个评分标记。也就是说,这些训练语料会依据其发音的正确性被标记一个评分。在本范例实施例中,每一训练语料会以“好(good)”或“不好(bad)”来被标记。然而,本发明不限于此。在本发明的另一范例实施例中,亦可以分数作为评分标记。例如,每一训练语料的评分标记是依据其正确性以“0”~“10”分来注记。在本发明的另一范例实施例中,这些评分标记可由专家系统或专业老师来进行评量。
在本范例实施例中,特征提取模块104会针对每一训练语料提取对应的多个语音特征。具体来说,特征提取模块104会针对每一训练语料的音节的韵母段取出基频曲线,并且针对所取出的基频曲线进行正规化。例如,特征提取模块104会针对一整句训练语料的基频范围中取出最大值与最小值,并且据此将训练语料的基频正规化到一至五之间。然而,必须了解的是,在本发明中正规化方法不限于此。在本发明的另一范例实施例中,亦可以用一个人的全部训练语料作为取得最大与最小值的基频范围来进行基频曲线的正规化。特别是,特征提取模块104还用已正规化的基频曲线中提取对应的语音特征。例如,特征提取模块104会将基频曲线等分为三段基频子曲线并且计算每一段基频子曲线的平均值以及在此训练语料中基频子曲线之间的差值。
图2~图5是根据本发明的范例实施例所示声调变化及其对应的语音特征。
请参照图2,以1个属于一声调的训练语料为例,图中的粗线为1个一声调的训练语料的基频曲线。特征提取模块104会将此基频曲线三等分为第一基频子曲线202a、第二基频子曲线202b与第三基频子曲线202c,并且计算第一基频子曲线202a的第一平均值(mean1)204a、第二基频子曲线202b的第二平均值(mean2)204b以及第三基频子曲线202c的第三平均值(mean3)204c。此外,特征提取模块104会计算第一平均值204a与第二平均值204b之间的第一差值(diff1)206a、第二平均值204b与第三平均值204c之间的第二差值(diff2)206b以及第一平均值204a与第三平均值204c之间的第三差值(diff3)206c。在本范例实施例中,图2所示的训练语料的基频曲线的第一平均值204a、第二平均值204b、第三平均值204c、第一差值206a、第二差值206b与第三差值206c会被用作为图2所示的训练语料的语音特征。
请参照图3,以1个属于二声调的训练语料为例,图中的粗线为1个二声调的训练语料的基频曲线。类似地,特征提取模块104会将此基频曲线三等分为第一基频子曲线302a、第二基频子曲线302b与第三基频子曲线302c,并且计算此基频曲线的第一平均值304a、第二平均值304b、第三平均值304c、第一差值306a、第一差值306b与第三差值306c以作为图3所示的训练语料的语音特征。
请参照图4,以1个属于三声调的训练语料为例,图中的粗线为1个三声调的训练语料的基频曲线。类似地,特征提取模块104会将此基频曲线三等分为第一基频子曲线402a、第二基频子曲线402b与第三基频子曲线402c,并且计算此基频曲线的第一平均值404a、第二平均值404b、第三平均值404c、第一差值406a、第二差值406b与第三差值406c以作为图4所示的训练语料的语音特征。
请参照图5,以1个属于四声调的训练语料为例,图中的粗线为1个四声调的训练语料的基频曲线。类似地,特征提取模块104会将此基频曲线三等分为第一基频子曲线502a、第二基频子曲线502b与第三基频子曲线502c,并且计算此基频曲线的第一平均值504a、第二平均值504b、第三平均值504c、第一差值506a、第二差值506b与第三差值506c以作为图5所示的训练语料的语音特征。
如图2~图5所示的提取范例,特征提取模块104会为所获取的每一训练语料提取对应的语音特征。也就是说,每一训练语料皆具有6个语音特征。然而,必须了解的是,本发明不限于此,基频曲线的第一平均值、第二平均值、第三平均值、第一差值、第二差值与第三差值的各种组合皆可作为语音特征。此外,在本发明的另一范例实施例中,特征提取模块104亦可计算每一基频子曲线的斜率,并且上述基频曲线的第一平均值、第二平均值、第三平均值、第一差值、第二差值与第三差值和所计算的斜率的各种组合皆可作为语音特征。
值得一提的是,在本范例实施例中特征提取模块104是从训练语料的基频曲线中来提取语音特征。然而,本发明不限于此,特征提取模块104亦可从训练语料的能量曲线、梅尔倒频谱参数(Mel-scaleFrequency Cepstral Coefficients,MFCC)和音长(Duration)中来提取对应的语音特征。在本发明的另一范例实施例中,特征提取模块104可类似于图2~图5所示的方式撷取训练语料的能量曲线的第一平均值、第二平均值、第三平均值、第一差值、第二差值与第三差值。在本发明又一范例实施例中,特征提取模块104可撷取训练语料的多个音素,以及对应这些音素的梅尔倒频谱参数,计算每一音素的梅尔倒频谱参数平均值以及这些梅尔倒频谱参数平均值之间的梅尔倒频谱参数差值,并且将训练语料的梅尔倒频谱参数平均值与梅尔倒频谱参数差值的至少其中之一作为此训练语料的语音特征。在本发明的再一范例实施例中,特征提取模块104可撷取训练语料的多个音素,以及对应这些音素的音长,计算每一音素的音长平均值以及这些音长平均值之间的音长差值,并且将训练语料的音长平均值与音长差值的至少其中之一作为此训练语料的语音特征。再者,在本发明的另一范例实施例中,特征提取模块104亦可以基频曲线、能量曲线、梅尔倒频谱参数和音长的至少其中之一及其组合作为此训练语料的语音特征。
在本发明的一个范例实施例中,特征提取模块104会将所获取与分类的训练语料及所提取的每一训练语料的语音特征存储在存储模块102中。
决策树产生模块106用以产生评量决策树。具体来说,决策树产生模块106会依据特征提取模块104所分类的训练语料群以及这些训练语料群的训练语料的语音特征与评分标记来产生对应的评量决策树。例如,如上所述,特征提取模块104将所获取的训练语料依据其声调以及其右相关的声调来区分为20种训练语料群,并且决策树产生模块106会为每一种训练语料群单独地建立一个评量决策树。在本范例实施例中,决策树产生模块106是使用决策树演算法中的C4.5演算法来产生评量决策树。然而,必须了解的是,本发明不限于此。在本发明的另一范例实施例中,亦可使用ID3演算法、C5演算法或其他适合的演算法来产生评量决策树。
图6是根据本发明的范例实施例所示用以产生评量决策树的训练语料的范例,并且图7是根据本发明的范例实施例所示的部分的评量决策树。在图6与图7所示的范例中,是以建立语音是属于四声且在对应的语句中下一个单位音是属于静音的训练语料为例来进行说明。
请参照图6,决策树产生模块106会从存储模块102中读取对应的训练语料群的训练语料(即,属于四声单位音且在对应的语句中下一个单位音是属于静音的训练语料,如训练语料a、b、c、d等)以及这些训练语料的语音特征与评分标记。之后,决策树产生模块106会依据所读取的训练语料的语音特征与评分标记来产生评量决策树(如图7所示)。
请参照图7,评量决策树700是由多个决策节点与多条决策路径所组成。决策树训练是数据探勘的一种方法。决策树表述一种树型结构,其是由其中的分支来对不同类型的对象依靠其属性来进行分类。也就是说,决策树依据数据的属性来进行数据分割的测试,并且当数据无法再被分割时则这些数据即属于某一种类。决策树的产生与运算机制已为公开的知识,相关技术内容可由相关的教科书所获知,在此不详细描述。
请再参照图1,反馈信息产生模块108用以分析决策树产生模块106所产生的评量决策树并且依据决策节点上的语音特征来设定对应每一条决策路径上的决策节点的反馈信息。
具体来说,特征提取模块104是根据发音的物理特征来提取语音特征(即,上述基频曲线的第一平均值、第二平均值、第三平均值、第一差值、第二差值与第三差值)。因此,当决策树产生模块106依据语音特征来产生评量决策树时,所产生的评量决策树上的决策路径与决策节点会代表某一特定类型发音。由此,反馈信息产生模块108依据这些语音特征来分析每一决策路径所对应的决策节点,以识别决策节点所代表的错误发音类型。
以评量决策树700为例。例如,从根节点至决策节点702的决策路径可知归类为决策节点702的发音是属于“第一差值大于-0.238911”的分类,其表示“下降不够”的错误发音类型。例如,从根节点至决策节点704的决策路径可知归类为决策节点704的发音是属于“第一平均值大于2.853324且小于或等于2.882541,第三平均值大于2.934026,以及第一差值大于-1.089865且小于或等于-0.238911”的分类,其表示“类似一声,尾音过高”的错误发音类型。例如,从根节点至决策节点706的决策路径可知归类为决策节点706的发音是属于“第一平均值小于或等于2.882514,第一差值小或等于-0.238911且大于-1.089865,第三平均值小于或等于2.934026且大于-0.240735,以及第二差值小于或等于0.668695”的分类,其代表“类似三声,先下降,再上升”的错误发音类型。例如,从根节点至决策节点708的决策路径可知归类为决策节点708的发音是属于“第一平均值小于或等于2.882514,第一差值小或等于-0.238911且大于-1.089865,第三平均值小于或等于2.168092且大于-0.240735,以及第二差值大于0.668695”的分类,其代表“起音过低,声调下降不够”的错误发音类型。
基于上述,反馈信息产生模块108会根据决策路径上的决策节点的语音特征来设定每一决策路径所对应的反馈信息。例如,在本发明的范例实施例中是以对应错误发音类型的文字描述来作为对应的决策路径的反馈信息。然而,本发明不限于此。在本发明的另一范例实施例中,反馈信息产生模块108亦可以手势反馈(例如,以手势来指示声调需上扬或下降)、图式反馈(例如,以图式来指示声调需上扬或下降)或示范音反馈(例如,以语音来示范正确的声调)。
在本发明的一个范例实施例中,决策树产生模块106与反馈信息产生模块108会针对每一声调类型(即,上述20种训练语料群)产生评量决策树并在评量决策树中设定反馈信息,并且将这些评量决策树存储在存储模块102中。
评量与诊断模块110是用以依据学习者的输入语音的语音特征来决定在对应评量决策树的决策路径之中对应此输入语音的诊断路径并且输出此诊断路径上的决策节点所对应的反馈信息与评分标记。也就是说,在决策树产生模块106与反馈信息产生模块108已完成评量决策树的建立以及对应的反馈信息的设定后,学习者可使用语言学习系统100来学习语言。
例如,当语言学习者通过语言学习系统100的录音模块(未绘示)说出一个汉语字、一个汉语词或一句汉语句子时,特征提取模块104会将所接收的学习语句的语音进行切音运算来获取此学习语句中的每一个单位音(例如,每一个字的语音)并且依据其声调以及其右相关声调将所获取的语音进行分类。此外,特征提取模块104会提取学习语句中每一语音的语音特征(即,上述基频曲线的第一平均值、第二平均值、第三平均值、第一差值、第二差值与第三差值)。然后,评量与诊断模块110会根据每一语音的语音特征在对应的评量决策树中辨识出此语音对应的决策路径(即,诊断路径),并且输出对应此决策路径的反馈信息与评分标记。
例如,当语言学习者所输入的学习语句之中的一个语音是属于四声单位音且在此学习语句中此语音的下一个单位音是属于静音时,针对此语音的诊断。评量与诊断模块110会从存储模块102中载入对应的评量决策树700并且依据此语音的语音特征计算出此语音所对应的决策路径并且输出反馈信息给语言学习者。例如,当诊断路径(如图8中粗线的诊断路径所示)为从根节点至决策节点708的决策路径时,评量与诊断模块110会输出“起音过低,声调下降不够”的反馈信息以及评分标记为“不好”的信息给语言学习者。
也就是说,在决策树产生模块106与反馈信息产生模块108已完成评量决策树的建立以及对应的反馈信息的设定后,根据本发明的范例实施例的语言学习系统100可以针对语言学习者所发出的字、词或句子依据评量决策树来诊断并提出反馈信息。
值得一提的是,当语言学习者得到评量与诊断模块110所输出的反馈信息而修正地再次发音时,评量与诊断模块110会将再次发音所对应的决策路径与前一次发音所对应的决策路径进行比对以提供更进一步的反馈信息。例如,当语言学习者在第二次发音时以提高起音声调来回应“起音过低,声调下降不够”的反馈信息后,评量与诊断模块110可在比对前后的诊断路径后输出“声调下降仍不够”的反馈信息,亦即可反馈未纠正的错误给使用者。
图9是根据本发明的范例实施例所示的整合式语言学习方法的流程图。
请参照图9,首先,在语音评量程序900中会搜集多笔训练语料(S901)。如上所述,通过录音模块搜集语言学习者所发出的训练语句的语音并且通过切音运算来获取每一训练语句的语音上的单位语音范围并将此进行分类以作为训练语料。特别是,在一个范例实施例中,训练语料会依据不同的类型来分组至不同的训练语料群。
然后,在步骤S903中特征提取模块104会提取每一训练语料的语音特征,并且设定每一训练语料的评分标记。例如,如上所述,特征提取模块104会取出每一训练语料的基频曲线并且以此基频曲线的第一平均值、第二平均值、第三平均值、第一差值、第二差值与第三差值作为对应的语音特征。
然后,在步骤S905中决策树产生模块106会依据训练语料的语音特征与评分标记产生对应的评量决策树。具体来说,决策树产生模块106会为每一训练语料群产生对应的评量决策树。接着,在步骤S907中反馈信息产生模块108会分析所产生的评量决策树并且根据每一决策路径上决策节点所对应的语音特征来设定对应的反馈信息。在此,产生评量决策树与设定反馈信息的方式已描述如上,在此不重复说明。
之后,在步骤S909中存储所产生的评量决策树。
在完成评量决策树的建立之后,在步骤S911中接收语言学习者在语言学习系统100中通过录音模块(未绘示)所输入的学习语句。然后,在步骤S913中特征提取模块104会对此学习语句的语音进行切音运算以获取此学习语句中的每一单位语音范围。并且,在步骤S915中特征提取模块104会提取每一语音的语音特征。
然后,在步骤S917中评量与诊断模块110会依据这些语音所对应的训练语料群从存储模块102中载入对应的评量决策树。并且,在步骤S919中评量与诊断模块110会决定在对应的评量决策树的决策路径之中对应这些语音的诊断路径。最后,在步骤S921中评量与诊断模块110会输出诊断路径上的决策节点所对应的反馈信息与对应的评分标记。
本发明的一个范例实施例亦提供一种计算机程序产品,其中此计算机程序产品是由多个程序指令所组成。特别是,在将这些程序指令载入计算机系统并执行之后,即可完成上述整合式语言学习方法的步骤,并使得计算机系统具备整合式语言学习方法的功能。
此外,上述计算机程序产品可存储在计算机可读记录媒体上,其中计算机可读记录媒体可以是任何数据存储装置,之后可通过计算机系统读取。例如,计算机可读记录媒体为只读存储器(read-only memory,ROM)、随机存取存储器(random-access memory,RAM)、CD-ROM、磁带、软盘、光学数据存储装置以及载波(例如,通过网际网络的数据传输)。
综上所述,本发明范例实施例的整合式语言学习方法与语言学习系统是利用预先搜集各种语言学习者的语料来建立对应的评量决策树并且依据评量决策树上的信息来诊断语言学习者的发音。因此,根据本发明范例实施例的整合式语言学习方法与语言学习系统,无需建置大量的样本教材数据库来进行语音的比对。此外,本发明范例实施例的整合式语言学习方法与语言学习系统可针对语言学习者所发出的字、词与语句的发音来评量。由此,可有效地提升语言学习者使用语言学习系统的兴趣。
虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域的技术人员在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视权利要求范围所界定者为准。
Claims (21)
1.一种语言学习系统,用于评量学习语句之中的语音,该语言学习系统包括:存储模块,用以存储多笔训练语料与依据该多笔训练语料所建立的至少一个评量决策树,其中该至少一个评量决策树具有多条决策路径,该多条决策路径中的每一条包含多个决策节点并且该多条决策路径的每一条对应至少一个反馈信息;
其特征在于,该语言学习系统还包括:
特征提取模块,用以提取该语音的至少一个语音特征,其中该特征提取模块还用以提取该多笔训练语料中的每一笔的至少一个语音特征,其中该多笔训练语料中的每一笔具有至少一个评分标记;
决策树产生模块,用以依据该多笔训练语料的该语音特征与该评分标记产生该至少一个评量决策树;
反馈信息产生模块,用以分析该至少一个评量决策树的该多条决策路径的每一条并且依据该多条决策路径的每一条上的该决策节点所对应的该语音特征来设定对应该多条决策路径的每一条的该至少一个反馈信息;以及
评量与诊断模块,用以依据该语音的语音特征决定在该至少一个评量决策树的该多条决策路径之中对应该语音的诊断路径并且输出对应该诊断路径的该至少一个反馈信息。
2.根据权利要求1所述的语言学习系统,其特征在于,其中该特征提取模块对多笔训练语句进行切音运算以获取该多笔训练语句的多个单位音,并且从该多笔训练语句的该多个单位音之中获取该多笔训练语料,
其中该特征提取模块对该学习语句进行该切音运算以获得该学习语句的一个或多个单位音,并且该语音为该学习语句的该多个单位音的其中之一。
3.根据权利要求2所述的语言学习系统,其特征在于,其中该特征提取模块撷取该语音的基频曲线,将该语音的基频曲线分割为该语音的多个基频子曲线,计算该语音的该多个基频子曲线的每一个的平均值,计算该语音的该多个基频子曲线的每一个的斜率,计算该语音的该多个基频子曲线之间的多个差值,并且将该语音的该多个基频子曲线的平均值、斜率与该多个差值的至少其中之一作为该语音的该多个语音特征,
其中该特征提取模块撷取该多笔训练语料的每一笔的基频曲线,将该多笔训练语料的每一笔的基频曲线分割为多个基频子曲线,计算该多笔训练语料的每一笔的该多个基频子曲线的每一个的平均值,计算该多笔训练语料每一笔的该多个基频子曲线的每一个的斜率,计算在该多笔训练语料的每一笔中该多个基频子曲线之间的多个差值,并且将该多笔训练语料的每一笔的该多个基频子曲线的每一个的平均值、斜率与差值的至少其中之一作为该多笔训练语料的每一笔的该多个语音特征。
4.根据权利要求2所述的语言学习系统,其特征在于,其中该特征提取模块撷取该语音的能量曲线,将该语音的能量曲线分割为该语音的至少一个能量子曲线,计算该语音的该多个能量子曲线的每一个的平均值,计算该语音的该多个能量子曲线的每一个的斜率,计算该语音的该多个能量子曲线之间的多个差值,并且将该语音的该多个能量子曲线的平均值、斜率与差值的至少其中之一作为该语音的该多个语音特征,
其中该特征提取模块撷取该多笔训练语料的每一笔的能量曲线,将该多笔训练语料的每一笔的能量曲线分割为多个能量子曲线,计算该多笔训练语料的每一笔的该多个能量子曲线的每一个的平均值,计算该多笔训练语料的每一笔的该多个能量子曲线的每一个的斜率,计算在该多笔训练语料的每一笔中该多个能量子曲线之间的多个差值,并且将该多笔训练语料的每一笔的该多个能量子曲线的每一个的平均值、斜率与差值的至少其中之一作为该多笔训练语料的每一笔的该多个语音特征。
5.根据权利要求2所述的语言学习系统,其特征在于,其中该特征提取模块撷取该语音中的多个音素以及对应该语音的该多个音素的一个或多个梅尔倒频谱参数,计算该多个音素的每一个的梅尔倒频谱参数平均值,计算该语音的该多个梅尔倒频谱参数平均值之间的多个梅尔倒频谱参数差值,并且将该语音的该多个梅尔倒频谱参数平均值与该多个梅尔倒频谱参数差值的至少其中之一作为该语音的语音特征,
其中该特征提取模块撷取该多笔训练语料的每一笔的多个音素及对应该多个音素的多个梅尔倒频谱参数,计算该多笔训练语料的每一笔的该多个音素的每一个的梅尔倒频谱参数平均值,计算在该多笔训练语料的每一笔中该多个梅尔倒频谱参数平均值之间的多个梅尔倒频谱参数差值,并且将该多笔训练语料的每一笔的该多个梅尔倒频谱参数平均值与该多个梅尔倒频谱参数差值的至少其中之一作为该多笔训练语料的每一笔的语音特征。
6.根据权利要求2所述的语言学习系统,其特征在于,其中该特征提取模块撷取该语音中的多个音素以及对应该语音的该多个音素的多个音长,计算该多个音素的每一个的音长平均值,计算该语音的该多个音长平均值之间的多个音长差值,并且将该语音的该多个音长平均值与该多个音长差值的至少其中之一作为该语音的该多个语音特征,
其中该特征提取模块撷取该多笔训练语料的每一笔的多个音素及对应该多个音素的多个音长,计算该多笔训练语料的每一笔的该多个音素的每一个的音长平均值,计算在该多笔训练语料的每一笔中该多个音长平均值之间的多个音长差值,并且将该多笔训练语料的每一笔的该多个音长平均值与该多个音长差值的至少其中之一作为该多笔训练语料的每一笔的该多个语音特征。
7.根据权利要求2所述的语言学习系统,其特征在于,其中该特征提取模块撷取对应该语音的至少一个基频曲线、至少一个能量曲线、至少一个梅尔倒频谱参数与至少一个音长,并且将该至少一个基频曲线、该至少一个能量曲线、该至少一个梅尔倒频谱参数以及该至少一个音长的至少其中之一作为该语音的该多个语音特征,
其中该特征提取模块撷取对应该多笔训练语料的每一笔的至少一个基频曲线、至少一个能量曲线、至少一个梅尔倒频谱参数与至少一个音长,并且将该至少一个基频曲线、该至少一个能量曲线、该至少一个梅尔倒频谱参数以及该至少一个音长的至少其中之一作为该多笔训练语料的每一笔的该多个语音特征。
8.根据权利要求2所述的语言学习系统,其特征在于,其中该特征提取模块依据在该多笔训练语句中该多笔训练语料与该多笔训练语料的下一个单位音的组合将该多笔训练语料分组成多个训练语料群,
其中该决策树产生模块依据该多个训练语料群来产生该多个评量决策树,其中该多个评量决策树的每一个对应该多笔训练语料群的其中之一。
9.根据权利要求2所述的语言学习系统,其特征在于,其中该特征提取模块依据在该多笔训练语句中该多笔训练语料与该多笔训练语料的前一个单位音的组合将该多笔训练语料分组成多个训练语料群,
其中该决策树产生模块依据该多个训练语料群来产生该多个评量决策树,其中该多个评量决策树的每一个对应该多个训练语料群的其中之一。
10.根据权利要求2所述的语言学习系统,其特征在于,其中该特征提取模块依据在该多笔训练语句中该多笔训练语料与该多笔训练语料的前一个单位音与下一个单位音的组合将该多笔训练语料分组成多个训练语料群,
其中该决策树产生模块依据该多个训练语料群来产生该多个评量决策树,其中该多个评量决策树的每一个对应该多个训练语料群的其中之一。
11.一种语言学习方法,用于评量学习语句之中的语音,该语言学习方法包括:搜集多笔训练语料;
其特征在于,该语言学习方法还包括:
提取该多笔训练语料的每一笔的至少一个语音特征,其中该多笔训练语料的每一笔具有至少一个评分标记;
依据该多笔训练语料的该多个语音特征与该多个评分标记产生至少一个评量决策树,其中该至少一个评量决策树具有多条决策路径;
分析该至少一个评量决策树的该多条决策路径的每一条并且依据该多条决策路径的每一条上的多个决策节点所对应的该多个语音特征来设定对应该多条决策路径的每一条的至少一个反馈信息
存储该至少一个评量决策树;
提取该语音的至少一个语音特征;
依据该语音的语音特征决定在该至少一个评量决策树的该多条决策路径之中对应该语音的诊断路径;以及
输出对应该诊断路径的该至少一个反馈信息。
12.根据权利要求11所述的语言学习方法,其特征在于,其中提取该多笔训练语料的每一笔的语音特征的步骤包括:
搜集多笔训练语句;
对该多笔训练语句进行切音运算以获取该多笔训练语句的多个单位音;以及
从该多个单位音之中获取该多笔训练语料。
13.根据权利要求12所述的语言学习方法,其特征在于,还包括:
接收该学习语句;以及
对该学习语句进行该切音运算以获得该学习语句的一个或多个单位音,
其中该语音为该学习语句的该多个单位音的其中之一。
14.根据权利要求12所述的语言学习方法,其特征在于,
其中提取该语音的该多个语音特征的步骤包括:
撷取该语音的基频曲线;
将该语音的基频曲线分割为多个基频子曲线;
计算该语音的该多个基频子曲线的每一个的平均值;
计算该语音的该多个基频子曲线的每一个的斜率;
计算该语音的该多个基频子曲线之间的多个差值;
将该语音的该多个基频子曲线的平均值、斜率与差值的至少其中之一作为该语音的该多个语音特征,
其中提取该多笔训练语料的每一笔的该多个语音特征的步骤包括:
撷取该多笔训练语料的每一笔的基频曲线;
将该多笔训练语料的每一笔的基频曲线分割为多个基频子曲线;
计算该多笔训练语料的每一笔的该多个基频子曲线的每一个的平均值;
计算该多笔训练语料的每一笔的该多个基频子曲线的每一个的斜率;
计算在该多笔训练语料的每一笔中该多个基频子曲线之间的多个差值;以及
将该多笔训练语料的每一笔的该多个基频子曲线的每一个的平均值、斜率与差值的至少其中之一作为该多笔训练语料的每一笔的该多个语音特征。
15.根据权利要求12所述的语言学习方法,其特征在于,
其中提取该语音的该多个语音特征的步骤包括:
撷取该语音的能量曲线;
将该语音的能量曲线分割为多个能量子曲线;
计算该语音的该多个能量子曲线的每一个的平均值;
计算该语音的该多个能量子曲线的每一个的斜率;
计算该语音的该多个能量子曲线之间的多个差值;
将该语音的该多个能量子曲线的平均值、斜率与差值的至少其中之一作为该语音的该多个语音特征,
其中提取该多笔训练语料的每一笔的该多个语音特征的步骤包括:
撷取该多笔训练语料的每一笔的能量曲线;
将该多笔训练语料的每一笔的能量曲线分割为多个能量子曲线;
计算该多笔训练语料的每一笔的该多个能量子曲线的每一个的平均值;
计算该多笔训练语料的每一笔的该多个能量子曲线的每一个的斜率;
计算在该多笔训练语料的每一笔中该多个能量子曲线之间的多个差值;以及
将该多笔训练语料的每一笔的该多个能量子曲线的每一个的平均值、斜率与差值的至少其中之一作为该多笔训练语料的每一笔的该多个语音特征。
16.根据权利要求12所述的语言学习方法,其特征在于,
其中提取该语音的该多个语音特征的步骤包括:
撷取该语音中的多个音素以及对应该语音的该多个音素的多个梅尔倒频谱参数;
计算该多个音素的每一个的梅尔倒频谱参数平均值;
计算该语音的该多个梅尔倒频谱参数平均值之间的多个梅尔倒频谱参数差值;以及
将该语音的该多个梅尔倒频谱参数平均值与该多个梅尔倒频谱参数差值的至少其中之一作为该语音的语音特征,
其中提取该多笔训练语料的每一笔的该多个语音特征的步骤包括:
撷取该多笔训练语料的每一笔的多个音素及对应该多个音素的多个梅尔倒频谱参数;
计算该多笔训练语料的每一笔的该多个音素的每一个的梅尔倒频谱参数平均值;
计算在该多笔训练语料的每一笔中该多个梅尔倒频谱参数平均值之间的多个梅尔倒频谱参数差值;以及
将该多笔训练语料的每一笔的该多个梅尔倒频谱参数平均值与该多个梅尔倒频谱参数差值的至少其中之一作为该多笔训练语料的每一笔的语音特征。
17.根据权利要求12所述的语言学习方法,其特征在于,
其中提取该语音的该多个语音特征的步骤包括:
撷取该语音中的多个音素以及对应该语音的该多个音素的多个音长;
计算该多个音素的每一个的音长平均值;
计算该语音的该多个音长平均值之间的多个音长差值;以及
将该语音的该多个音长平均值与该多个音长差值的至少其中之一作为该语音的语音特征,
其中提取该多笔训练语料的每一笔的该多个语音特征的步骤包括:
撷取该多笔训练语料的每一笔的多个音素及对应该多个音素的多个音长;
计算该多笔训练语料的每一笔的该多个音素的每一个的音长平均值;
计算在该多笔训练语料的每一笔中该多个音长平均值之间的多个音长差值;以及
将该多笔训练语料的每一笔的该多个音长平均值与该多个音长差值的至少其中之一作为该多笔训练语料的每一笔的语音特征。
18.根据权利要求12所述的语言学习方法,其特征在于,
其中提取该语音的该多个语音特征的步骤包括:
撷取对应该语音的至少一个基频曲线、至少一个能量曲线、至少一个梅尔倒频谱参数与至少一个音长;以及
将该至少一个基频曲线、该至少一个能量曲线、该至少一个梅尔倒频谱参数以及该至少一个音长的至少其中之一作为该语音的语音特征,
其中提取该多笔训练语料的每一笔的该多个语音特征的步骤包括:
撷取对应该多笔训练语料的每一笔的至少一个基频曲线、至少一个能量曲线、至少一个梅尔倒频谱参数与至少一个音长;以及
将该至少一个基频曲线、该至少一个能量曲线、该至少一个梅尔倒频谱参数以及该至少一个音长的至少其中之一作为该多笔训练语料的每一笔的语音特征。
19.根据权利要求12所述的语言学习方法,其特征在于,还包括:
依据在该多笔训练语句中该多笔训练语料与该多笔训练语料的下一个单位音的组合将该多笔训练语料分组成多个训练语料群;以及
依据该多个训练语料群来产生该多个评量决策树,其中该多个评量决策树的每一个对应该多个训练语料群的其中之一。
20.根据权利要求12所述的语言学习方法,其特征在于,还包括:
依据在该多笔训练语句中该多笔训练语料与该多笔训练语料的前一个单位音的组合将该多笔训练语料分组成多个训练语料群;以及
依据该多个训练语料群来产生该多个评量决策树,其中该多个评量决策树的每一个对应该多个训练语料群的其中之一。
21.根据权利要求12所述的语言学习方法,其特征在于,还包括:
依据在该多笔训练语句中该多笔训练语料与该多笔训练语料的前一个单位音与下一个单位音的组合将该多笔训练语料分组成多个训练语料群;以及
依据该多个训练语料群来产生该多个评量决策树,其中该多个评量决策树的每一个对应该多笔训练语料群的其中之一。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010264464.5A CN102376182B (zh) | 2010-08-26 | 2010-08-26 | 语言学习系统、语言学习方法及其程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010264464.5A CN102376182B (zh) | 2010-08-26 | 2010-08-26 | 语言学习系统、语言学习方法及其程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102376182A CN102376182A (zh) | 2012-03-14 |
CN102376182B true CN102376182B (zh) | 2014-08-27 |
Family
ID=45794721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010264464.5A Active CN102376182B (zh) | 2010-08-26 | 2010-08-26 | 语言学习系统、语言学习方法及其程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102376182B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366736A (zh) * | 2012-03-29 | 2013-10-23 | 北京中传天籁数字技术有限公司 | 语音声调的识别方法和装置 |
TWI508033B (zh) * | 2013-04-26 | 2015-11-11 | Wistron Corp | 語言學習方法與裝置以及電腦可讀記錄媒體 |
CN103605492B (zh) * | 2013-11-28 | 2016-08-17 | 中国科学院深圳先进技术研究院 | 一种自适应语言训练方法和平台 |
CN104464757B (zh) * | 2014-10-28 | 2019-01-18 | 科大讯飞股份有限公司 | 语音评测方法和语音评测装置 |
CN105118354A (zh) * | 2015-09-14 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 用于语言学习的数据处理方法和装置 |
CN105303909B (zh) * | 2015-10-23 | 2018-08-14 | 广东小天才科技有限公司 | 一种基于振动学习英文的方法、装置和系统 |
CN105529030B (zh) * | 2015-12-29 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
WO2019023908A1 (en) * | 2017-07-31 | 2019-02-07 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR LANGUAGE SERVICE CALL |
CN109410673B (zh) * | 2018-11-01 | 2021-06-11 | 温志杰 | 语言学习方法及系统 |
CN109949829B (zh) * | 2019-02-02 | 2021-03-12 | 北京奇艺世纪科技有限公司 | 音频数据的处理方法、装置及计算机程序产品和存储介质 |
CN109817201B (zh) * | 2019-03-29 | 2021-03-26 | 北京金山安全软件有限公司 | 一种语言学习方法、装置、电子设备及可读存储介质 |
CN110428811B (zh) * | 2019-09-17 | 2021-09-07 | 北京声智科技有限公司 | 一种数据处理方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1956057A (zh) * | 2005-10-28 | 2007-05-02 | 富士通株式会社 | 一种基于决策树的语音时长预测装置及方法 |
CN101010934A (zh) * | 2004-09-10 | 2007-08-01 | 微软公司 | 机器学习 |
CN101751919A (zh) * | 2008-12-03 | 2010-06-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
-
2010
- 2010-08-26 CN CN201010264464.5A patent/CN102376182B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101010934A (zh) * | 2004-09-10 | 2007-08-01 | 微软公司 | 机器学习 |
CN1956057A (zh) * | 2005-10-28 | 2007-05-02 | 富士通株式会社 | 一种基于决策树的语音时长预测装置及方法 |
CN101751919A (zh) * | 2008-12-03 | 2010-06-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102376182A (zh) | 2012-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102376182B (zh) | 语言学习系统、语言学习方法及其程序产品 | |
CN101740024B (zh) | 基于广义流利的口语流利度自动评估方法 | |
CN102360543B (zh) | 基于hmm的双语(普通话-英语)tts技术 | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
CN102568475B (zh) | 用于普通话水平测评的系统和方法 | |
Weinberger et al. | The Speech Accent Archive: towards a typology of English accents | |
JP4391109B2 (ja) | 発音矯正用の自動発音記号ラベリング方法と自動発音記号ラベリングシステム | |
CN101551947A (zh) | 辅助口语语言学习的计算机系统 | |
Peabody | Methods for pronunciation assessment in computer aided language learning | |
CN109785698A (zh) | 用于口语水平评测的方法、装置、电子设备以及介质 | |
Jamaliah Ibrahim et al. | Automated tajweed checking rules engine for Quranic learning | |
Gao et al. | A study on robust detection of pronunciation erroneous tendency based on deep neural network. | |
CN109979257B (zh) | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 | |
TWI431563B (zh) | 語言學習系統、語言學習方法及其程式產品 | |
Bolaños et al. | Human and automated assessment of oral reading fluency. | |
CN110415725B (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
Sefara et al. | HMM-based speech synthesis system incorporated with language identification for low-resourced languages | |
Sabu et al. | Automatic assessment of children’s oral reading using speech recognition and prosody modeling | |
Jiao et al. | A spoken English teaching system based on speech recognition and machine learning | |
Amrouche et al. | Balanced Arabic corpus design for speech synthesis | |
CN110598041A (zh) | 一种FlACS实时分析方法与装置 | |
Iriondo et al. | Automatic refinement of an expressive speech corpus assembling subjective perception and automatic classification | |
CN101458927A (zh) | 产生及侦测混淆音的方法及系统 | |
CN111508522A (zh) | 一种语句分析处理方法及系统 | |
CN115440193A (zh) | 一种基于深度学习的发音评测打分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |