CN101292281A - 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序 - Google Patents

发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序 Download PDF

Info

Publication number
CN101292281A
CN101292281A CNA2006800362896A CN200680036289A CN101292281A CN 101292281 A CN101292281 A CN 101292281A CN A2006800362896 A CNA2006800362896 A CN A2006800362896A CN 200680036289 A CN200680036289 A CN 200680036289A CN 101292281 A CN101292281 A CN 101292281A
Authority
CN
China
Prior art keywords
tuning
pronunciation
state
attribute
tongue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800362896A
Other languages
English (en)
Inventor
奥村真知
儿岛宏明
大村浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Publication of CN101292281A publication Critical patent/CN101292281A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明的发音诊断装置是以,含有各声音语言体系的各个构成音素发音时的关于等调音属性的期望发音调音属性值的调音属性数据、由发音者发出的语音信号抽出音响特征,基于抽出的音响特征推定调音属性的属性值,通过比较推定的属性值与期望的调音属性数据对发音者的发音进行判定为特征的。这里的调音属性是指,口腔内舌、嘴唇、声门、小舌、鼻腔、牙齿、腭的状态的任意一个或者至少含有一个这些调音器官状态的组合、调音器官状态的用力方式、以及呼气状况的组合。这里的音响特征是指,频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。

Description

发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序
技术领域
本发明是关于发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序的技术。已有技术水平
背景技术
已知的作为诊断发音者发音的发音诊断装置是,提取发音者对单词发音的语音信号,从数据库里将与此语音信号最为接近的单词拼写抽出,再将抽出的单词向发音者提示的装置(参考:专利文献1)。
【专利文献1】特开平11-202889号公报
发明内容
然而,上述发音诊断装置是通过将发音者对单词的发音与已登录的单词拼写对应来进行发音诊断的。对于构成单词的各个音素,发音时发音器官是否处于正确的状态、是否使用了正确的调音方式则不能诊断出来。
因此,作为本发明的目的,就是提供能够诊断发音时发音器官是否处于正确状态、是否使用了正确的发音方式的发音诊断装置、发音诊断方法、以及发音诊断程序和存储有所使用的发音属性数据的媒介。
本发明的一个构成的发音诊断装置,提供了有各声音语言体系的各个构成音素发音时的关于调音属性的期望发音的调音属性值的调音属性数据、由发音者发出的语音信号而得到音响特征的抽出方式、基于上述抽出的音响特征推定上述调音属性的属性值的属性值推定方法、通过比较上述推定属性值与期望发音的调音属性数据,对发音者的发音进行判定的方法。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。
对于上述发音诊断装置,能够更加完善发音者的发音诊断结果输出方式则更好。
本发明的另一构成的发音诊断装置,提供了抽出发音因素的音响特征的音响特征抽出方式、按照抽出的音素音响特征,根据各声音语言体系的各个构成音素的发音调音属性而形成分布的调音属性分布形成方式、以阈值来判定的,以调音属性分布形成方式区分的调音属性的调音属性判定方法。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
本发明的又一构成的发音诊断装置,提供了抽出类似发音的音响特征的音响特征抽出方式、按照抽出的类似音素的一方的音响特征,根据各声音语言体系的各个构成音素的发音调音属性而形成分布的第1调音属性分布形成方式、按照抽出的类似音素的另一方的音响特征,根据发音者的发音调音属性而形成分布的第2调音属性分布形成方式、以第1阈值来判定由第1调音属性分布形成方式区分的调音属性的第1调音属性判定方法、以第2阈值来判定由第2调音属性分布形成方式区分的调音属性的第2调音属性判定方法。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
对于上述发音诊断装置,能够预备使调音属性判定方法中使用的阈值可变的阈值可变方法则更好。
上述发音诊断装置诊断的音素如果能适用于子音则更好。
本发明的又一构成的发音诊断方法,提供了由发音者发出的语音信号而得到音响特征的抽出工程、基于上述抽出的音响特征推定上述关于调音属性的属性值的属性推定工程、比较上述的推定属性值与具有各声音语言体系的各个构成音素发音时的关于调音属性的期望发音调音属性值的调音属性数据而进行判定的工程。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
本发明的又一构成的发音诊断方法,提供了抽出发音因素的音响特征的音响特征抽出工程、按照上述抽出的音素音响特征,根据各声音语言体系的各个构成音素的发音调音属性而形成分布的调音属性分布形成工程、以阈值来判定的,以上述调音属性分布形成方式区分的调音属性的调音属性判定工程。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
本发明的又一构成的发音诊断方法,提供了抽出类似发音的音响特征的音响特征抽出工程、按照上述抽出的类似音素的一方的音响特征,根据各声音语言体系的各个构成音素的发音调音属性而形成分布的第1调音属性分布形成工程、按照上述抽出的类似音素的另一方的音响特征,根据发音者的发音调音属性而形成分布的第2调音属性分布形成工程、以第1阈值来判定由上述第1调音属性分布形成方式区分的调音属性的第1调音属性判定工程、以第2阈值来判定由上述第2调音属性分布形成方式区分的调音属性的第2调音属性判定工程。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
对于上述发音诊断方法,能够提供使调音属性判定工程中使用的阈值可变的阈值可变工程则更好。
本发明的又一构成的存储媒介,最少存储了有各声音语言体系的各个构成音素的发音属性的调音属性数据库、有推定调音属性值中使用的阈值的阈值数据库、单词区分组成数据库、特征轴数据库和矫正内容数据库的其中的一个。
根据本发明,可以推定调音器官状态及调音方式的状态,即调音属性状态。所以,由本发明可以诊断在发音过程中调音器官是否处于正确的状态,是否使用了正确的调音方式。
根据本发明所涉及的构成,向发音者提示如何使用正确的调音器官状态和调音方式进行发音的方法成为可能。
使用本发明中的装置、方法、存储媒介以及程序,可以将发音者对单词的发音与登录有拼写的单词进行对应而对发音进行诊断,因此,对于构成单词的每个因素,均可以诊断在发音过程中是否使用了正确的发音器官状态和正确的调音方式。据此,利用本发明中的装置、方法、存储媒介以及程序,可以指导发音者使用正确的发音器官状态和方式进行发音。
附图说明
图1,是本发明的实施方案中作为发音诊断装置的计算机的构成示意图。
图2,是发音诊断系统的构成示意图。
图3,是发音诊断程序的处理流程示意图。
图4,是发音诊断系统的数据库生成过程示意图。
图5,是发音诊断系统的数据库生成系统的构成示意图。
图6,是分类的示例图。
图7,是单词区分组成数据库的一个记录的示例图。
图8,是调音属性数据库的一个记录的示例图。
图9,是特征轴数据库的一个记录的示例图。
图10,是矫正内容数据库的一个记录的示例图。
图11,是调音属性分布的一个示例图。
图12,是辨别音素「s」或音素「sh」和音素「th」的差异的调音属性分布的一个示例图。
图13,是音素「s」和音素「th」的发音时的调音器官状态示意图。
图14,是辨别音素「s」和音素「sh」的差异的调音属性分布的一个示例图。
图15,是音素「s」和音素「sh」的发音时的调音器官状态示意图。
图16,是语音信号分析部的构成示意图。
图17,是信号处理部的构成示意图。
图18,是语音区分化处理部的构成示意图。
图19,是音响特征值抽出部的构成示意图。
图20,是调音属性推定部的处理流程示意图。
图21,是各个评价分类的处理流程示意图。
图22,是表示判定结果的例图。
图23,是表示判定结果的例图。
图24,是表示矫正方法的例图。
【标记说明】
10发音诊断装置,
20发音诊断系统,
22接口控制部,
24语音信号分析部,
26调音属性推定部,
28调音属性数据库,
30单词区分组成数据库,
32阈值数据库,
34特征轴数据库,
36矫正内容生成部,
38发音判定部,
40矫正内容数据库。
具体实施方式
以下,参照示意图来对最佳实施方案进行说明。图1是本发明的实施方案中作为发音诊断装置的计算机的构成示意图。发音诊断装置10是基于后述的发音诊断程序来动作的通用计算机。
作为发音诊断装置10的计算机,如图1所示,包括中央处理单元(CPU)12a、存储器12b、硬盘驱动器(HDD)12c、监视器12d、键盘12e、鼠标12f、打印机12g、声音输入输出接口12h、麦克风12i以及扬声器12j。
CPU12a、存储器12b、硬盘驱动器12c、监视器12d、键盘12e、鼠标12f、打印机12g、声音输入输出接口12h通过系统总线12k相互连接,麦克风12i以及扬声器12j通过声音输入输出接口12h与系统总线12k连接。
以下,对使计算机作为发音诊断装置10进行动作的发音诊断系统进行说明。图2是发音诊断系统的构成示意图。图2所示发音诊断系统20包括,接口控制部22、语音信号分析部24、调音属性推定部26、调音属性数据库(DB)28、单词区分组成数据库(DB)30、阈值数据库(DB)32、特征轴数据库(DB)34、矫正内容生成部36、发音判定部38、矫正内容数据库(DB)40。
以下,参照图3,对基于发音诊断装置10的发音诊断处理流程进行概略说明。在这个发音诊断中,要先确定应该进行发音诊断的单词。在确定单词时,首先在监视器12d上显示单词列表(Step S11)。然后用户从显示的单词列表中选择要进行发音诊断的单词(StepS12),或者用户可以通过直接输入单词来选择要进行发音诊断的单词,也可以从自动的以随机或者一定顺序提示的单词中选择要进行发音诊断的单词。
下一步,在监视器12d上显示出被确定的单词(Step S13),用户则对着麦克风12i发这个单词的发音(Step S14)。此时的声音,通过麦克风12i被收集为模拟语音信号,再经由声音输入输出接口12h被转换为数字数据。以下,称此数字数据为「语音波形数据」,意为数字化的「语音信号」或者数字化的模拟信号波形。
下一步,将这个语音信号送到语音信号分析部24。语音信号分析部24利用调音属性DB28、单词区分组成DB30和特征轴DB34,将发音单词中含有的各个音素的音响特征从语音信号中抽出,并同评价分类信息一起送到调音属性推定部26(Step S15)。这里的音响特征,是指由含有人的声音的音响数据可以测定到的强度、大小、频率和基本频率、共振峰、以及它们的变化率等,更详细就是指音响数据频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。
另外,监视器12d上显示的上述单词被用于调音属性DB28和单词区分组成DB30以及特征轴DB34的检索。此外,后述中将会提到,关于本明细书中所记「单词信息」是指包含有单词词类和区域(美语/英语的不同等等)的「单词信息」,而只是指单词(其拼写)本身的时候记为「单词」。
下一步,在调音属性推定部26,利用由语音信号分析部24抽出的音响特征以及评价分类信息,推定每个音素的调音属性并输出其结果「调音属性值」(Step S16)。这里的「调音属性」是声学上被认识到的发音时的调音器官状态和调音方式。具体是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。而「调音属性值」是将调音属性状态数值化之后的值。例如,将舌尖与上腭接触的状态设为1,未接触的状态设为0。或者,将舌尖与从上腭到上牙前端部分的狭窄部分的位置用0-1的数值来表示(上腭部分时为0,上牙前端部分时为1,中间部分为类似0.25、0.5、0.75的5段值)。
下一步,按调音属性值进行发音判定,输出判定结果(Step S17),并通过接口控制部22在监视器12d上显示(Step S18)。然后,参照矫正内容DB40矫正内容生成部36输出相应判定结果的矫正内容(文字、图画、动画等等)(Step S19),并通过接口控制部22在监视器12d上显示(Step S20)。
以下对发音诊断系统20的各构成要素进行详细说明。首先说明发音诊断系统20相关的数据库生成过程。图4为发音诊断系统20的数据库生成过程示意图。
如图4所示,在此生成过程中,首先选择要诊断的音素,并为收集声音样本选择含有这个音素的词句(Step S01)。再者,已经知道即使是同一个音素,词典中通常使用的所谓发音记号也会随着在单词中的位置而发音严格地不同。例如作为英语的子音的一个的音素「1」,分别在词头、词中、词尾、或者有连续两个以上的子音(被称作簇)的时候,作为声音的性质会有所改变。即,对不同的音素,根据那个音素的位置和紧接之前的音素种类而发音所有变化。因此,即使是同样的发音记号的音素,根据音素的位置和紧接之前的音素的种类而需要作为固有音素对待。根据这样的观点,制作特定音素和包含它的词句的集合体,并把这个集合体作为单词数据库(DB)。同时,基于它来做成后述的单词区分组成DB30。
接着,收集记录有指定词句的发音的语音样本(文中,也简称为样本)(Step S02)。语音样本是在同一规格下进行录音,例如按照作为语音文件的数据形式那样,不能超过强度的上限·下限,在发音开始前和结束后设置一定的无音区间等,对同一个词句让多数的发音者发音而得到。把这样收集到的,根据发音者和词句建成体系而整备的样本群作为声音样本数据库(DB)。
接着,制定把调音属性的各种种类登录其中的分类(Step S03)。在Step S03,语音学者听取样本DB中收录的各个的样本,并调查声学观点上正确的发音以外还有什么样的发音。这时检测并记录调音器官状态和调音方式。即对任意的音素,定义成为那个音素的条件的调音器官状态和调音方式,也就是把调音属性的各种种类登录其中的分类。例如,对于「嘴唇的形状」分类,记录着「呈圆形」「没有呈圆形」等状态。
图6表示分类的例子。
例如,对日本人来说「lay」和「ray」多被一同发作「lei」音。按声学上的捕捉方法,例如音素「l」的音,正如被称为侧音一样,是舌尖抵住牙齿根儿更内侧的部分,一旦从舌头两侧流过有声音的空气之后,舌尖离开上腭所发出的音。
日本人对音素「l」发音的话,比声学上定义的舌头的接触位置靠后2~3毫米,而且不是侧音,成为被叫做弹音的音。那是由于在英语发音的时候,也错用了日语的「ra行」音发音时所用到的位置和发音方法。
这样,对一个音素可以制定一个以上的调音器官状态和调音方式,即调音属性(分类)。对于音素「l」就是指属于侧音、位置在紧接牙齿根儿之后、有声音等音素「l」的正确调音属性。
同时,根据调查多数的发音者的发音,也可以制定有关各音素不属于正确的调音器官状态和调音方式的调音属性,或者完全是其他音素的调音属性分类的不正确调音属性。例如,对于音素「l」可以制定「非侧音」、「非侧音弹音」、「舌头的位置过于靠后」、「子音太短·太长」等各调音属性。
在Step S03,将定义的分类集合体做成分类数据库(DB)。由其结果,做成调音属性DB28。同时,如图7所示,在单词和构成单词的区分中将特指音素的信息(图中,「M52」等)对应起来成为单词区分组成DB30一个记录的一部分。并且,如图8所示,将特指音素的信息与和此音素相关的每个评价分类的属性对应起来成为调音属性DB28一个记录的一部分。同时,如图10所示,对应于特指音素的信息和评价分类,将被判定为脱离了期望的属性值时的发音矫正方法的内容作为矫正内容DB36一个记录。
接着,基于Step S03定义的分类,对收集的声音样本进行评价,在声学上归类、登记(Step S04)。在Step S04中,把记录有对声音样本DB的各个声音样本的分类的集合体做成发音评价数据库(DB)。
接着,以通过了Step S04声音评价的样本群为对象,调查对于音响数据的特征,属于相同调音属性的声音样本具有什么样的共同点(Step S05)。
具体地说,在这个Step S05,将各个声音样本中包含的语音波形数据转换成音响特征的时系列,并将该音响特征的时系列以每个音素的区间进行分割。例如,单词「berry」的情况下,对音素「r」在语音波形数据的时间轴上的哪个区间被发音进行指定。
然后,在Step S05,将指定区间的音响特征(共振峰和强度)与各特征值、值的变化率以及区间平均值等可以由数值计算出的数据(音响特征值)的其中的最少一项进行组合,在持有作为对象区间的音素是正确的调音属性组合的声音样本群,以及不满足作为识别该音素的一项以上的调音属性条件的声音样本群之间,调查哪个音响特征和音响特征值具有各个样本群中的共通性,并且是否具有可以区分双方样本群的倾向。然后从音响特征中选择与调音属性相关的特征轴。基于此结果,生成特征轴DB34。
接着,详查由Step S05得到的音响特征,验证跟调音属性的关联性(Step S06)。即,在这个验证中,比较基于音响特征之音响特征值的调音属性的判断和语音学者的判断。在比较结果两者不相符的情况下,实施Step S05,制作另外的音响特征。基于以上结果,对每个音素评价分类生成音响特征的特征轴DB34。图9表示特征轴DB的记录的一个例子。另外,虽然在上述的Step S06中是根据语音学者的判断进行的比较,但是也能预先制作简单的语音评价模型自动地进行判断。
接着,对在Step S06过程中确认的对判定特定音素有效的音响特征的阈值进行确定(Step S07)。这里这个阈值不是一直固定的,也可能是可变的。此时,可以通过变更阈值DB32的登录、通过外部输入改变阈值来变更判定器的判定基准。亦即,在Step S07,确定作为是否归属于各个音素的调音属性的边界的特征值的阈值。把这样确定的阈值集合体作为阈值DB32。即在阈值DB32中,登录了作为判定是否归属于多个音素各自的调音属性的边界的特征值的阈值。
关于上述图4的特征轴选择(Step S05)的处理,进行更详细地说明。图11例示了为判定是否归属于声音样本的调音属性而形成基于音素音响特征的调音属性分布。即由相关持续时间的特征值F1与相关声音强度的特征值F2的分布,可以对单词「belly」的音素「l」因伴有舌尖的弹音(日语发音)而不合格的情况进行调音属性判定。
同时,作为图4中阈值确定(Step S07)的例子,图11表示了利用一次项式分割特征值分布而确定阈值的例子。更进一步,也能采用使用了统计模型的一般判定器的一般判定参数作为阈值。再者,根据调音属性的种类,对于是否归属于那个调音属性,根据阈值可以明确的用2分割进行分属,也可能不能明确分属而进行中间判定。
再有,图12表示了利用由相关持续时间的特征值F3与相关声音强度的特征值F4的分布,对舌尖与从上腭到上牙前端部分的狭窄部分的位置的不同进行调音属性判定的例子。由此结果,可以辨别音素「th」和音素「s」以及音素「sh」的差异。图13表示了音素「s」和音素「th」发音时的调音器官状态,图13(a)表示音素「s」的情况,图13(b)表示音素「th」的情况。另外,图14表示了利用由相关频率的特征值F5与相关频率的特征值F6的分布,对由舌尖与上腭形成的狭窄位置地点的不同进行调音属性判定的例子。由此结果,可以辨别音素「s」和音素「sh」的差异。图15表示了音素「s」和音素「sh」发音时的调音器官状态,图15(a)表示音素「s」的情况,图15(b)表示音素「sh」的情况。
这样,为了辨别相互类似的音素「s」「sh」「th」之间的调音属性,根据输入的音素的一方的音响特征形成第1调音的属性分布,同时,根据与之类似的另外的音素的音响特征形成第2调音的属性分布,然后根据各个作成的调音属性分布,利用与之对应的阈值就可以判定是否属于所希望的调音属性。这样,根据以上方法可以对子音的发音进行判定。
图5为关于发音诊断系统20的阈值DB32和特征轴DB34的系统(数据库生成系统50)的块构成图。根据上述图4表示的数据库生成过程,制作声音样本DB54及发音评价DB56。并且,对于包含特征轴选择部521的调音属性分布形成部52的处理过程,也根据上述图4中叙述的过程进行处理,其结果为作成阈值DB32和特征轴DB34。此数据库生成系统50,可以与发音诊断系统20分离进行生成数据库(离线处理),也可以与发音诊断系统20组合,常时更新阈值DB32和特征轴DB34(在线处理)。
将上述的,含有构成每个声音语言体系的每个音素的调音属性的调音属性DB28、含有为了推定调音属性值而使用的阈值的阈值DB32、单词区分组成DB30、特征轴DB34和矫正内容DB40之中的最少一项预先记录在硬盘,CD-ROM等记录媒介上之后,它们对于其他机器也具有利用价值。
以下,说明使用这样生成的数据库的发音诊断系统20的各要素。
接口控制部22受理来自用户的操作并启动·控制后续的程序部分。
语音信号分析部24,读入语音波形数据,将其以音素区间分割,输出每个分割的区分(分节)的特征(音响的特征)。即语音信号分析部24使计算机具有了作为区分手段及特征值抽出手段的机能。
图16为语音信号分析部的构成示意图。在语音信号分析部24中,经由信号处理部241,以一定的时间间隔分析语音信号(语音波形数据)并将其转换成与共振峰轨迹相关的时系列数据(共振峰频率,共振峰强度等级,基频,声音强度等时系列数据)。这里也可以使用频谱等频率特征来代替共振峰轨迹。
以下,对信号处理部241进行更详细地说明。图17为信号处理部241的构成示意图。如图17所示,在信号处理部241,线性预测分析部241a以一定的时间间隔根据全极型声音滤波器模型对语音波形数据进行参量分析,输出偏相关系数的时系列向量。
同时,波形初期分析部241b根据快速Fourier变换等非参量分析,输出初期语音参数(基频(pitch)、声音强度、零交叉参数等)的时系列。主要语音区间抽出部241c则从波形初期分析部241b的输出抽出单词母体的主要语音区间,并将其与基频信息一起输出。
另外,声道过滤器模型次数决定部241d从线性预测分析部241a和主要语音区间抽出部241c的输出,按照一定的基准决定声道过滤器的次数。
然后,在共振峰轨迹抽出部241e,利用决定好次数的声道过滤器计算出共振峰频率、共振峰强度等级等,并将其与基频、声音强度等一起作为共振峰轨迹关联数据的时系列输出。
回到图16,单词区分组成检索部242根据单词(拼写)检索预先准备的单词区分组成DB30,输出与之相对应的区分组成信息(区分要素列,例,单词「berry」的时候为Vb/Vo/Vc/Vo)。
这里将对单词区分组成DB30进行说明。对于单词的发音,从音响性上看有有声音和气息音。同时,单词的发音可以分割为在音响性上有单一特性的区间(将分割的区间称为分节)。分节的音响特性可以有如下分类。
(1)有声音的分类例
伴随强狭窄的子音(Vc)
未伴随强狭窄的子音和母音(Vo)
有声爆破音(Vb)
(2)气息音的分类例
无声爆破音(Bu)
其他的气息声(Vl)
(3)无音的音间隔(Sl)
单词发音被分割为分节,并按照上述分类例进行归类之后,被称为单词区分组成。例如,按照上述的分类,单词「berry」会成为Vb/Vo/Vc/Vo这样的区分组成。
单词区分组成DB30是对每个单词做这样的区分组成后列表而成的数据库。以下称从这个数据库得到的单词区分组成数据为「单词区分组成信息」。
单词区分组成检索部242,在单词区分组成DB30中对选择的单词检索其单词区分组成信息,并输出到语音区分化处理部243。
语音区分化处理部243,基于单词区分组成检索部242的输出(单词区分组成信息),对信号处理部241的输出(共振峰轨迹相关数据)做分节分割处理。图18为语音区分化处理部243的构成示意图。
在语音区分化处理部243,语音区间抽出部243a基于来自单词区分组成检索部242的单词区分组成信息,抽出共振峰轨迹相关时系列数据中的语音区间。这个语音区间包括可能存在于信号处理部241的输出区间的两侧的气息音或破裂音等没有基频周期的语音区间。
语音区间内分节细化处理部243b基于语音区间抽出部243a的输出(语音区间)和单词区分组成信息,循环进行必要回数的分节细分化处理,并将其结果作为时域区分共振峰轨迹相关数据输出。
图16中,调音属性·特征轴检索部244,根据输入的单词(拼写)向音响特征量抽出部245输出与此单词的判断项目对应的评价分类信息和特征轴信息(如果含有多个音响特征轴信息)。同时,这个评价分类信息也被输出到后面的调音属性推定部26。
音响特征值抽出部245,根据语音区分化处理部243的输出(时域区分共振峰轨迹相关数据)和调音属性·特征轴检索部244的输出(评价分类信息和特征轴信息),输出对判定输入语音信号必要的音响特征,并将其输出到后面的调音属性推定部26。
图19为音响特征值抽出部245的构成示意图。如图19所示,音响特征值抽出部245通过一般音响特征值抽出部245a抽出各个分节的共振峰频率,共振峰强度等级等对每个分节共通的音响特征的数值数据(一般音响特征值)。
同时,通过各评价分类的音响特征值抽出部245b,按照作为评价分类信息的调音属性·特征轴检索部244输出,抽出必要分类数的依存于单词的各评价分类的音响特征值。
音响特征值抽出部245的输出,也就是对调音属性的这两种音响特征值的数据集,被送到后面的调音属性推定部26。
图20为调音属性推定部26的处理流程示意图。如图16所示,调音属性推定部26对每个单词从单词组成区分DB30中取得分节信息(图7所示指定音素的信息系列)(StepS11),再从语音信号分析部24取得分配给各分节的音素的评价分类信息(参照图8)(StepS12)。例如,在单词「belly」的例子中,得到作为分节信息的指定音素的信息系列I33,M03,M52,F02,再譬如分节信息M52的例子,将得到作为评价分类信息的「舌尖与上腭的接触」、「口的开合」、「舌尖接触上腭的位置」。
接着,调音属性推定部26从语音信号分析部24取得每个单词的音响特征(Step S12)。例如,单词是「belly」时,可以得到分别对应于I33、M03、M52、F02的一般特征值和评价分类特征值。
接着,调音属性推定部26对每个评价分类进行调音属性推定处理(Step S13)。图21为各评价分类的处理流程图。
Step S13的处理是,从阈值DB32读出与评价分类对应的阈值数据(Step S131),取得与评价分类对应的音响特征(Step S132)。然后,比较取得的音响特征与上述的阈值数据(Step S133)并决定调音属性值(推定值)(Step S134)。
调音属性推定部26在全部评价分类的处理(Step S14)完了之后,进行其后的分节处理,全部的分节处理(Step S15)完了之后,输出对应于全部评价分类的调音属性值(推定值)(Step S16),然后结束。这样,调音属性推定部26使计算机具有了作为属性值推定手段的机能。
再者,作为Step S133的比较处理的方法,有诸如以下的方法。与图11所示基于音响特征的音素的调音属性分布同样,基于对应于某个评价分类的特征轴信息(例,F1、F2),在2维坐标上绘出取得的音响特征值。把被由阈值数据得到的阈值轴(例,图11所示的一次项式)所分割的区域的一方作为「正确答案区域」,另一方作为「不正确答案区域」。然后根据上述绘出的点存在于哪一方来决定调音属性值(推定值)(例,在正确答案区域的时候为1,在不正确答案区域的时候为0)。另外,也可以采用使用了统计模型的一般判定器的来决定属性值。同时,由于调音属性种类的不同,也有根据阈值不能明确分割是否属于其音素属性而采用中间的值(例,0,0.25,0.5,0.75,1的5个等级的值)的情况。
图2中,从调音属性推定部26输出的调音属性值(推定值)是对各个评价分类而进行输出的。例如,单词「belly」中的音素「l」的评价分类的「舌尖与上腭的接触」的调音属性值(推定值)为1的时候,得到如图8所示的「舌尖碰到了上腭」的判定结果。这样,发音判定部38就可以由调音属性值(推定值)来判断调音属性的状态。接着,自调音属性DB28取得期望的发音的调音属性值,将其与调音属性推定部26输出的调音属性值(推定值)进行比较,输出是否属于期望的发音的判定结果。例如,音素「r」的发音判定中,评价分类「舌尖与上腭的接触」的调音属性值(推定值)为1,而期望的发音的调音属性值为0的时候,因「舌尖碰到了上腭」故输出「不合格」的判定结果。这样,发音判定部38使计算机具有了作为发音判定手段的机能。
另外,图8所示的信息通过接口控制部22被显示在监视器12d上。同时,图10所示的矫正内容生成部36参照矫正内容DB36得到关于不正确音素的信息,并通过接口控制部22将其显示在监视器12d上。例如,对音素「r」的评价分类「舌尖与上腭的接触」的判定结果因「舌尖碰到了上腭」而「不合格」的时候,可以得到「舌头不碰口的顶棚一样地」的信息,并将其显示在监视器12d上。如此,就可以促成发音的矫正。这样,接口控制部22使计算机具有了作为状态提示手段以及矫正方法提示手段的机能。
如图22所示,作为判定结果的详细表示的例子,有诸如,关于不正确音素,将全部的没有被正确发音的调音属性显示的方法,以及如图23所示的关于整个单词的发音显示出各个音素合格·不合格情况,并显示对于不合格音素没有被正确发音的调音属性的方法等。
同时,作为其他的方法,也可以考虑用草图、照片等静止画以及动画、录像等活动图像表示调音器官状态,再用声音(合成声音和录制声音等)进行指示等的种种手段。
同样,如图24所示,也有表示出没有被正确发音的调音属性并显示其矫正方法,将判定结果和矫正内容组合起来显示的方法。并且,跟显示判定结果同样,有用草图、照片等静止画以及动画、录像等活动图像表示正确的调音器官状态,再用声音(合成声音和录制声音等)进行指示等手段。
以上,图2所示的调音属性DB28、单词区分组成DB30、阈值DB32、特征轴DB34、矫正内容DB36可以以诸如英语、美式英语等各个声音体系分别记录在CD-ROM等媒体上供发音诊断装置10使用。亦即,将各种语言体系分别记录在CD-ROM上,可以分别供各种语言体系的学习。
同时,也可以将图3中的发音诊断程序整体记录在CD-ROM等媒体上供发音诊断装置10使用,这样,就可以追加新的语言体系和调音属性数据。
【产业上的利用可行性】
根据以上说明的发音诊断装置10可以产生以下的效果。即,由于本发音诊断装置10能够不限场所进行均一的发音矫正,学习者可以结合自己的情况私下学习。同时,因为是面向自学的软件,在学校教育等中为了提高现场效果,也可采用此软件在家进行自学。
同时,根据发音诊断装置10,可以指定调音器官状态和调音方式,具体地改善其主要因素。例如,在发音素「r」的音时,可以指定诸如嘴唇是否呈圆形,是否如日语的「ra」一样弹到了上腭等等的调音的位置以及方式。这样,尤其是在子音的发音学习中将发挥出效果。
同时,根据发音诊断装置10,不是用从英语词典里存在的单词中选出最近似的词的方法,而是以调音器官状态和调音方式(声带、舌的位置和形状、嘴唇的形状和开合、声音的发声方法等)为单位来判定差异,例如,用日语的发音方法单词「ray」的发音会被发做「lay」。并且可以给出为了接近正确的发音学习者应该采取什么样的动作的具体提示。
同时,根据发音诊断装置10,对各种语言的发音,可以基于对发音者的母语与所学语言的传统辨别特征的比较,推测发音时可能产生的不正确发音及其调音状态,也根据预先对其调音特征的语音分析和音响分析,推测具有这种调音特征的口腔内的状况,然后制定出指出差异的得点。因此,能够对应全部的语言体系的发音训练。
同时,根据发音诊断装置10,由于能具体地再现发音时口腔内的状态,对于多语言学习或者语言疗法的训练和自学,使不需专业训练师在场而进行实施成为可能。
同时,根据发音诊断装置10,由于能对发音者具体地指出口腔内的状况并进行矫正,使学习者在不感到改善不了自我状况而产生的挫败和压力的情况下而推进学习成为可能。
同时,根据发音诊断装置10,诸如英语等的外语学习者可以知道自己的发音特征,在不正确的时候因为提示有矫正方法而可以实现反复的正确练习。因此,相较于使用传统的语音识别技术的发音学习,不仅仅可以进行短期并且有效地发音学习,而且因立即提示出矫正方法而使压力很少的学习成为可能。
同时,根据发音诊断装置10,由于能够阐明构成音素的调音器官状态和调音方式等具体的口腔内的主要因素与音素的因果关系,所以根据音素的数据库可以再现其口腔内的状态。据此,能够在画面上放映发音者口腔内的三维图像。
同时,根据发音诊断装置10,不仅仅单词,句子以及文章也可以看作是一个连续的语音时系列数据,这样,对整个文章的发音诊断成为可能。

Claims (13)

1.提供了有各声音语言体系的各个构成音素发音时的关于调音属性的期望发音的调音属性值的调音属性数据、由发音者发出的语音信号而得到音响特征的抽出方式、基于上述抽出的音响特征推定上述调音属性的属性值的属性值推定方法、通过比较上述推定属性值与期望发音的调音属性数据,对发音者的发音进行判定的方法的发音诊断装置。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。
2.把提供输出发音者发音诊断结果的方法作为特征的申请项1中记载的发音诊断装置。
3.提供了抽出发音因素的音响特征的音响特征抽出方式、按照上述抽出的音素音响特征,根据各声音语言体系的各个构成音素的发音调音属性而形成分布的调音属性分布形成方式、以阈值来判定的,以上述调音属性分布形成方式区分的调音属性的调音属性判定方法的发音诊断装置。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
4.提供了抽出类似发音的音响特征的音响特征抽出方式、按照上述抽出的类似音素的一方的音响特征,根据各声音语言体系的各个构成音素的发音调音属性而形成分布的第1调音属性分布形成方式、按照上述抽出的类似音素的另一方的音响特征,根据发音者的发音调音属性而形成分布的第2调音属性分布形成方式、以第1阈值来判定由上述第1调音属性分布形成方式区分的调音属性的第1调音属性判定方法、以第2阈值来判定由上述第2调音属性分布形成方式区分的调音属性的第2调音属性判定方法的发音诊断装置。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
5.以提供了使上述阈值可变的阈值可变方法为特征的申请项3或4所记载的发音诊断装置。
6.以上述音素为子音作为特征的申请项1,3或4的任意一项所记载的发音诊断装置。
7.提供了由发音者发出的语音信号而得到音响特征的抽出工程、基于上述抽出的音响特征推定上述关于调音属性的属性值的属性推定工程、比较上述的推定属性值与具有各声音语言体系的各个构成音素发音时的关于调音属性的期望发音调音属性值的调音属性数据而进行判定的工程的发音诊断方法。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
8.提供了抽出发音因素的音响特征的音响特征抽出工程、按照上述抽出的音素音响特征,根据各声音语言体系的各个构成音素的发音调音属性而形成分布的调音属性分布形成工程、以阈值来判定的,以上述调音属性分布形成方式区分的调音属性的调音属性判定工程的发音诊断方法。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
9.提供了抽出类似发音的音响特征的音响特征抽出工程、按照上述抽出的类似音素的一方的音响特征,根据各声音语言体系的各个构成音素的发音调音属性而形成分布的第1调音属性分布形成工程、按照上述抽出的类似音素的另一方的音响特征,根据发音者的发音调音属性而形成分布的第2调音属性分布形成工程、以第1阈值来判定由上述第1调音属性分布形成方式区分的调音属性的第1调音属性判定工程、以第2阈值来判定由上述第2调音属性分布形成方式区分的调音属性的第2调音属性判定工程的发音诊断方法。这里的音响特征是指,由发音者发出的语音信号而得到的频率特征值、音量、持续时间、它们的变化量或者它们的变化模式以及最少含有一个这些参数的组合。这里的调音属性是指,舌的高低、舌的位置、舌的形状、舌的动作、嘴唇的形状、嘴唇的张开方式、嘴唇的动作、声门的状态、声带的状态、小舌的状态、鼻腔的状态、上下牙齿的位置、腭的状态、鄂的动作等的其中之一或者最少含有一个这些调音器官状态的组合,上述的调音器官状态的用力方式以及呼气状况的组合。
10.以提供了使上述阈值可变的阈值可变工程为特征的申请项8或9所记载的发音诊断方法。
11.最少存储了有各声音语言体系的各个构成音素的发音属性的调音属性数据库、有推定调音属性值中使用的阈值的阈值数据库、单词区分组成数据库、特征轴数据库和矫正内容数据库的其中的一个的存储媒介。
12.存储了在计算机上使申请项7,8,9或10中的任意一个所记载的方法得以执行的程序的存储媒介。
13.在计算机上使申请项7,8,9或10中的任意一个所记载的方法得以执行的计算机程序。
CNA2006800362896A 2005-09-29 2006-09-29 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序 Pending CN101292281A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005285217 2005-09-29
JP285217/2005 2005-09-29
JP147171/2006 2006-05-26

Publications (1)

Publication Number Publication Date
CN101292281A true CN101292281A (zh) 2008-10-22

Family

ID=40035656

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800362896A Pending CN101292281A (zh) 2005-09-29 2006-09-29 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序

Country Status (1)

Country Link
CN (1) CN101292281A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582210B (zh) * 2009-07-05 2011-04-20 袁亚杰 构音器官言语运动定位基托
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CN101727903B (zh) * 2008-10-29 2011-10-19 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
CN101739870B (zh) * 2009-12-03 2012-07-04 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102920435A (zh) * 2012-10-23 2013-02-13 泰亿格电子(上海)有限公司 基于言语发声实时视听反馈和促进技术的康复系统及方法
CN107578772A (zh) * 2017-08-17 2018-01-12 天津快商通信息技术有限责任公司 融合声学特征和发音运动特征的发音评估方法和系统
CN107591163A (zh) * 2017-08-17 2018-01-16 天津快商通信息技术有限责任公司 一种发音探测方法及装置、语音范畴学习方法及系统
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正系统、方法、介质和计算设备
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727903B (zh) * 2008-10-29 2011-10-19 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
CN101582210B (zh) * 2009-07-05 2011-04-20 袁亚杰 构音器官言语运动定位基托
CN101739870B (zh) * 2009-12-03 2012-07-04 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CN102063903B (zh) * 2010-09-25 2012-07-04 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CN102920435B (zh) * 2012-10-23 2014-12-17 泰亿格电子(上海)有限公司 基于言语发声实时视听反馈和促进技术的康复系统及方法
CN102920435A (zh) * 2012-10-23 2013-02-13 泰亿格电子(上海)有限公司 基于言语发声实时视听反馈和促进技术的康复系统及方法
CN107578772A (zh) * 2017-08-17 2018-01-12 天津快商通信息技术有限责任公司 融合声学特征和发音运动特征的发音评估方法和系统
CN107591163A (zh) * 2017-08-17 2018-01-16 天津快商通信息技术有限责任公司 一种发音探测方法及装置、语音范畴学习方法及系统
WO2019034184A1 (zh) * 2017-08-17 2019-02-21 厦门快商通科技股份有限公司 融合声学特征和发音运动特征的发音评估方法和系统
CN107591163B (zh) * 2017-08-17 2022-02-01 厦门快商通科技股份有限公司 一种发音探测方法及装置、语音范畴学习方法及系统
US11786171B2 (en) 2017-08-17 2023-10-17 Xiamen Kuaishangtong Tech. Corp., Ltd. Method and system for articulation evaluation by fusing acoustic features and articulatory movement features
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正系统、方法、介质和计算设备
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Johns-Lewis Intonation in discourse
JP5120826B2 (ja) 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
CN101292281A (zh) 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序
KR102222451B1 (ko) 텍스트 기반 사용자심리상태예측 및 콘텐츠추천 장치 및 그 방법
Narayanan et al. Behavioral signal processing: Deriving human behavioral informatics from speech and language
Busso et al. Iterative feature normalization scheme for automatic emotion detection from speech
Pfister et al. Real-time recognition of affective states from nonverbal features of speech and its application for public speaking skill analysis
CN107305541A (zh) 语音识别文本分段方法及装置
CN102376182B (zh) 语言学习系统、语言学习方法及其程序产品
Baur et al. eXplainable cooperative machine learning with NOVA
JP4495907B2 (ja) 音声の分析の方法及び装置
Arora et al. Phonological feature-based speech recognition system for pronunciation training in non-native language learning
Moro-Velázquez et al. Modulation spectra morphological parameters: A new method to assess voice pathologies according to the grbas scale
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
An et al. Automatically Classifying Self-Rated Personality Scores from Speech.
Busso et al. Recording audio-visual emotional databases from actors: a closer look
CN110119443A (zh) 一种面向推荐服务的情感分析方法
Laaridh et al. Automatic detection of phone-based anomalies in dysarthric speech
Pravena et al. Development of simulated emotion speech database for excitation source analysis
Xiao et al. MES-P: An emotional tonal speech dataset in Mandarin with distal and proximal labels
Iriondo et al. Automatic refinement of an expressive speech corpus assembling subjective perception and automatic classification
Alhinti et al. Recognising emotions in dysarthric speech using typical speech data
CN111159463A (zh) 一种音乐情感识别方法及系统
Truong et al. Automatic recognition of spontaneous emotions in speech using acoustic and lexical features
Gosztolya et al. Ensemble Bag-of-Audio-Words representation improves paralinguistic classification accuracy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081022