具体实施例
首先,对于成为本发明的基础的、声音中的特征性音色和讲话者的感情的关系,说明在声音中实际上出现的现象。
在带有感情或表情的声音中,已知有各种各样音质的声音混入,因此,对声音的感情或表情赋予了特征,形成了声音的印象(例如,参照:粕谷英樹、楊長盛,“音源から見た声質”,日本音
学会誌51卷11号(1995),pp869-875;日本国特开2004-279436号公报)。在本发明申请之前,对基于相同文本讲话的50句进行了无表情的声音与带有表情的声音的调查。
图1A是,针对讲话者1按每个音拍内的子音示出以带有“强烈的愤怒”的感情表现的声音中的“紧张的”音或“刺耳的声音(harsh voice)”发声的音拍的频度的图表。图1B是,针对讲话者2按每个音拍内的子音示出以带有“强烈的愤怒”的感情表现的声音中的“紧张的”音或“刺耳的声音(harsh voice)”发声的音拍的频度的图表。图1C以及图 1D是,分别针对与图1A及图1B相同的讲话者,按每个音拍内的子音示出带有“中等程度的愤怒”的感情表现的声音中的“紧张的”音或“刺耳的声音(harsh voice)”的音拍的频度的图表。
特征性音色的发生频率根据子音的种类而有偏差,对于图1A以及图1B的图表中所示的各个讲话者,可以发现两名讲话者共通的下列特征:在“t”(由硬腭构音的无声爆破子音)、“k”(由软腭构音的无声爆破子音)、“d”(由硬腭构音的有声爆破子音)、“m”(由嘴唇构音的鼻音)、“n”(由硬腭构音的鼻音)、或无子音的情况下发生频度高,在“p”(由嘴唇构音的无声爆破音)、“ch”(由牙齿构音的无声破擦音)、“ts”(无声破擦音)、“f”(由嘴唇和牙齿构音的无声摩擦音)等发生频度低。即,图1A以及图1B的图表示出,“愤怒”的感情的声音中出现的“紧张”的发生条件是讲话者间共通的。图1A以及图1B所示的两名讲话者的“紧张”的发生的偏差倾向,是根据该音拍的子音的种类相同的。而且,即使带着相同程度的“愤怒”的感情而讲话的声音,也根据音韵的种类以“紧张的”音发声的概率不同,若以“紧张的”音发声的概率更低的种类的音韵中检测出以“紧张的”音的发声,则可以推测为“愤怒”的感情的程度大。
而且,对示出作为同一人物的讲话者1的特征性音色“紧张”的出现频度的图1A和图1C进行比较。有像“sh”或“f”那样的种类,在图1C所示的中等程度的愤怒的表现中不发生“紧张的”音,但是,在图1A所示的强烈的愤怒的表现中发生“紧张的”音。而且,也有像无子音的音拍那样的种类,在图1C所示的中等程度的愤怒的表现中 “紧张的”音的发生频度低,但是,在图1A所示的强烈的愤怒的表现中“紧张的”音的发生频度增大。如此,可以了解的是,若愤怒的强度变强,在本来不易紧张的音韵中也会发生“紧张的”音。再者,如对讲话者1和讲话者2已确认,以“紧张的”音发声的每个音韵的偏差是讲话者间共通的。
图2A以及图2B是,按每个音拍内的子音示出以带有“快活”的感情表现的声音中的“气息性”发声的、即以“嘶哑”或“温和的声音(soft voice)”发声的音拍的频度的图表。图2A以及图2B是,分别针对讲话者1和讲话者2,按每个音拍内的子音示出以带有“快活”的感情表现的声音中的“气息性”发声的、即以“嘶哑”或“温和的声音(soft voice)”发声的音拍的频度的图表。特征性音色的发生频率根据子音的种类而有偏差,对于图2A以及图2B的图表中所示的各个讲话者,可以发现两名讲话者共通的下列特征:在“h”(由声门构音的无声摩擦子音)、“k”(由软腭构音的无声爆破子音)的情况下发生频度高,“d”(由硬腭构音的有声爆破子音)、“m”(由嘴唇构音的鼻音)、“g”(由硬腭构音的有声爆破子音)等发生频度低。而且,对于图2A以及图2B的“b”、“g”、“m”的音韵中的特征性音色的发生频度,讲话者1的发生频度是0,讲话者2的发生频度虽然低也存在。一个讲话者的发生频度是0、另一个讲话者的发生频度虽然低也存在,这些倾向与图1A~图1D中的“f”的音韵的倾向(图1A的讲话者1的发生频度低、图1B的讲话者2的发生频度是0)相同。因此,可以认为的是,图1A~图1D的“f”是本来不易紧张的音韵,也是愤怒的强度变强时发生的音韵, 与此相同,图2A以及图2B的“b”、“g”、“m”的“嘶哑”音是本来不易嘶哑的音韵,也是“快活”的强度变强时发生的音韵。
如上所述的、依据音韵的发生概率的偏差和讲话者间共通的偏差是,在“紧张的”音或“嘶哑”音中以外,还在“假声”或“翻转”的音中也出现的。像“紧张的”音、“嘶哑”音、“假声”、“翻转”那样的、以脱离平均的讲话状态(以平常发声的讲话)的讲话状态发声的声音示出,针对特定的音响特性的、远离以平均的讲话状态发声的声音的值。在有充分地含有大量且各种各样的讲话状态的声音数据的情况下,像在日本国特开2004-279436号公报所示的“气息性”(嘶哑)的第一共振峰周边的能量和第三共振峰周边的能量的时间性相关的例子那样,存在特定的音响特性值分布在统计上远离多数声音的分布位置的位置的情况。在特定的讲话风格或感情表现中可以观测这些分布。例如,在“气息性”的音响特性的情况下,可以确认属于表现出亲密感的声音的倾向。反而,也存在下列可能性:通过提取输入声音中的“紧张的”音、日本国特开2004-279436号公报所述的“气息性”(嘶哑)的音或“假声”,从而可以判断讲话者的感情、讲话态度的种类或状态。再者,也存在下列可能性:通过确定此特征性音色被检测出的部位的音韵,从而可以判断讲话者的感情或讲话态度的程度。
图3A以及图3B示出下列推定结果:针对图3A所示的输入“じゆつぷんほどかかります”和图3B所示的输入“あたたまりました”,根据推定公式来推定以“紧张的”音发声各个音拍时的“紧张容易度”的结果,所述推定公式是依据与图1A~图1D相同的数据、并利用统 计学习法的一种即数量化II类来制作的。例如,在图3A的“かかります”中示出,只在概率高的音拍发生“紧张的”音,因此“愤怒”的程度小。同样,图3B中也示出,在“あたたま”中“紧张”的发生概率高或中等程度,因此“愤怒”的程度是小至中等程度,在“り”中“紧张”的发生概率低,因此“愤怒”的程度大。该例子中,对于学习用数据的各个音拍,将示出音拍中包含的子音以及母音的种类或像音韵的范畴那样示出音韵的类型的信息和声调句内的音拍位置作为独立变量,还将前后的音韵的信息作为独立变量。而且,将是否发生了“紧张的”音或“刺耳的声音(harsh voice)”的二值作为从属变量。该例子是下列结果:根据这些独立变量以及从属变量,依据数量化II类来制作推定公式,并且将发生概率分隔为低、中、高的三个阶段的情况下的结果。该例子示出,通过利用声音识别结果按每个音拍求出输入声音的特征性音色的发生概率,从而可以判断讲话者的感情或讲话态度的程度。
通过将使用依据发声时的生理性特征的特征性音色的发生概率来求出的、感情或讲话态度的种类和程度,作为感情的种类和强度的指标利用,从而可以进行因语言或地方(方言)差别或个人差别而引起的影响小的、准确的感情的判断。
下面,参照附图说明本发明的实施例。
(实施例1)
图4是本发明的实施例1中的依据声音的感情识别装置的功能框图。图5是实施例1中的感情识别装置的工作流程图。图6是在特征 性音色发生指标计算规则记忆部110记忆有的计算规则的一个例子,图7是在感情种类判断基准记忆部112记忆有的判断基准的一个例子,图8是在感情强度计算规则记忆部114记忆有的感情强度计算规则的一个例子。
在图4中,感情识别装置是依据声音识别感情的装置,包括:麦克风1、声音识别用特征量提取部101、逆滤波器102、周期性分析部103、特征性音色检测部104、特征量数据库105、声音识别部106、开关107、特征性音色发生音韵确定部108、韵律信息提取部109、特征性音色发生指标计算规则记忆部110、特征性音色发生指标计算部111、感情种类判断基准记忆部112、感情种类判断部113、感情强度计算规则记忆部114、感情强度计算部115、以及显示部116。
麦克风1是将输入声音转换为电信号的处理部。
声音识别用特征量提取部101是一种处理部,分析输入声音来提取表示谱包络的参数,例如提取Mel倒谱(MelCepstrum)系数。
逆滤波器102是声音识别用特征量提取部101输出的谱包络信息的逆滤波器,并且,逆滤波器102是输出麦克风1所输入的声音的音源波形的处理部。
周期性分析部103是一种处理部,分析逆滤波器102所输出的音源波形的周期性,从而提取音源信息。
特征性音色检测部104是一种处理部,利用物理特性(例如,音源波形的振幅微扰或音源波形的周期微扰等),周期性分析部103所输出的音源信息中检测依据讲话者的感情或讲话态度在讲话声音中出现 的、“紧张的”声音、“假声”或“气息性”(嘶哑)的声音等特征性音色。
特征量数据库105是一种记忆装置,保持用于声音识别的每个音韵种类的特征量,例如,保持将每个音韵的特征量的分布作为概率模型表示的数据。特征量数据库105,由依据声音中没有特征性音色的声音数据来制作的特征量数据库、和依据声音中存在特征性音色的声音数据来制作的特征量数据库构成。例如,如下构成:依据没有特征性音色的声音数据来制作的特征量数据库叫做无特征性音色的特征量数据库105a;依据存在“紧张的”声音的特征性音色的声音数据来制作的特征量数据库叫做具有“紧张”的特征量数据库105b;依据存在“气息性”(嘶哑)声音的特征性音色的声音数据来制作的特征量数据库叫做具有“嘶哑”的特征量数据库105c;依据存在“紧张的”声音的特征性音色和“气息性”(嘶哑)声音的特征性音色的两者的声音数据来制作的特征量数据库叫做具有“紧张”、“嘶哑”的特征量数据库105d。
声音识别部106是一种处理部,参照特征量数据库105,对比声音识别用特征量提取部101所输出的特征量和特征量数据库105所存储的特征量,来进行声音识别。
开关107,按照由特征性音色检测部104检测出的音源波形的微扰的有无以及微扰的种类,来切换到声音识别部106所参照的、构成特征量数据库105的数据库。
特征性音色发生音韵确定部108是一种处理部,依据声音识别部106输出的音韵列信息、和特征性音色检测部104输出的输入声音中的特征性音色的时间位置信息,来确定在输入声音中的哪个音韵中发生 了特征性音色。
韵律信息提取部109是一种处理部,从逆滤波器102所输出的音源波形中提取声音的基频和功率。
特征性音色发生指标计算规则记忆部110是记忆规则的记忆部,该规则用于,将每个音韵的特征性音色的发生容易度的指标,依据该音韵的属性(例如,子音的种类、母音的种类、声调句或重读句内的位置、与声调或重读位置的关系、基频的绝对值或倾斜等)来求出。
特征性音色发生指标计算部111是一种处理部,依据声音识别部106所生成的音韵列信息、和韵律信息提取部109所输出的韵律信息即基频和功率,参照特征性音色发生指标计算规则记忆部110,来计算每个输入声音的音韵的特征性音色发生指标。
感情种类判断基准记忆部112是记忆基准的记忆部,该基准是依据该音拍以及相邻的音拍的特征性音色的种类、和特征性音色发生指标的组合来判断感情的种类时的基准。
感情种类判断部113是一种处理部,根据特征性音色发生音韵确定部108所生成的特征性音色发生位置信息,参照感情种类判断基准记忆部112的基准,来判断每个音拍的感情的种类。
感情强度计算规则记忆部114是记忆规则的记忆部,该规则用于依据特征性音色的发生指标、和输入声音的特征性音色发生位置信息,来计算感情或讲话态度的程度。
感情强度计算部115是一种处理部,依据特征性音色发生音韵确定部108所生成的、输入声音中发生了特征性音色的音韵的信息、和 特征性音色发生指标计算部111所计算的每个音韵的特征性音色发生指标,参照感情强度计算规则记忆部114,来输出感情或讲话态度的程度和感情种类、以及音韵列。
显示部116是一种显示装置,显示感情强度计算部115的输出。
按照图5说明如上述构成的依据声音的感情识别装置的工作。
首先,由麦克风1输入声音(步骤S1001)。声音识别用特征量提取部101,分析输入声音,来作为声音识别用的音响特征量提取Mel倒谱系数(步骤S1002)。其次,逆滤波器102,设定参数,以便作为在步骤S1002所生成的Mel倒谱系数的逆滤波器,并且,使在步骤S1001麦克风所输入的声音信号通过,来提取音源波形(步骤S1003)。
周期性分析部103,依据在步骤S1003所提取的音源波形的周期性,像例如日本国特开平10-197575号公报所记载的技术那样,依据具有低频率侧缓且低频率侧急的遮断特性的断路特性的过滤器输出的振幅调制的大小和频率调制的大小来计算基波分量,将输入声音中具有周期性的信号的时间区域作为周期性信号区间输出(步骤S1004)。
特征性音色检测部104,对于在步骤S1004由周期性分析部103所提取的周期性信号区间,在本实施例中检测音源波形的微扰中的音源波形的基频微扰(jitter)以及音源波形的高频域成分的微扰(步骤S1005)。并且,例如,利用以日本国特开平10-197575号公报的方式求出的瞬时频率来检测基频微扰。而且,例如,像日本国特开2004-279436号公报所记载的技术那样,依据利用正规化振幅指数的方法来检测音源波形的高频域成分的微扰,该正规化振幅指数是以基频将下列值频 正规化的指数,该值是音源波形的峰间的振幅除以音源波形的微分的振幅的最小值(最大负峰值)的值。
依据在输入声音的周期性信号区间是否检测出音源波形的频率微扰或音源波形的高频域成分的微扰,切换开关107来连接特征量数据库105内的适当的特征量数据库和声音识别部106(步骤S1006)。即,在步骤S1005检测出音源波形的频率微扰的情况下,通过开关107连接特征量数据库105中的具有“紧张”的特征量数据库105b和声音识别部106。在步骤S1005检测出音源波形的高频域成分的微扰即气息性(嘶哑)的成分的情况下,通过开关107连接特征量数据库105中的具有“嘶哑”的特征量数据库105c和声音识别部106。在步骤S1005检测出音源波形的频率微扰和音源波形的高频域成分的微扰的两者的情况下,通过开关107连接特征量数据库105中的具有“紧张”、“嘶哑”的特征量数据库105d和声音识别部106。而且,在步骤S1005未检测音源波形的频率微扰和音源波形的高频域成分的微扰的两者的情况下,通过开关107连接特征量数据库105中的无特征性音色的特征量数据库105a和声音识别部106。
声音识别部106,参照特征量数据库105中的通过开关107连接的特征量数据库,利用在步骤S1002提取的Mel倒谱系数来进行声音识别,作为识别结果一并输出音韵列和输入声音中的时间位置信息(步骤S1007)。
特征性音色发生音韵确定部108依据声音识别部106所输出的带有时间位置信息的音韵列信息、和特征性音色检测部104所输出的输 入声音中的特征性音色的时间位置信息,来确定在输入声音中的哪个音韵中发生了特征性音色(步骤S1008)。
另外,韵律信息提取部109,分析逆滤波器102所输出的音源波形来提取基频和音源功率(步骤S1009)。
特征性音色发生指标计算部111,依据声音识别部106所生成的带有时间位置信息的音韵列信息、和韵律信息提取部109所提取的基频和音源功率,将基频模式和音源功率模式的起伏、与音韵列对照,来生成对应于音韵列的声调句分隔以及声调信息(步骤S1010)。
再者,特征性音色发生指标计算部111,利用在特征性音色发生指标计算规则记忆部110记忆有的规则,按每个音韵列的音拍计算特征性音色发生指标,该规则用于依据子音、母音、声调句中的音拍位置、从声调核的相对位置等音拍属性来求出特征性音色的发生容易度(步骤S1011)。例如,特征性音色发生指标的计算规则是通过下列处理来制作的:依据含有带有特征性音色的声音的声音数据,将音拍属性作为解释变量、将是否发生了特征性音色的二值作为从属变量,利用处理质性数据的一种统计学习法、即利用数量化II类来进行统计学习,从而生成模式,该模式可以以数值表示依据音拍属性的特征性音色的发生容易度。
例如,特征性音色发生指标计算规则记忆部110,如图6按每个特征性音色的种类记忆统计学习结果。特征性音色发生指标计算部111,根据各个音拍的属性,适用在特征性音色发生指标计算规则记忆部110记忆有的统计模型,来计算特征性音色发生指标。在输入声音是如图 3B所示的“あたたまりました”的情况下,特征性音色发生指标计算部111,如下求出开头的音拍“あ”的属性的得分:由于“无子音”因此子音的得分为-0.17;由于母音是“ア”因此母音的得分为0.754;由于在“あたたまりました”的声调句中的正顺序位置的第一个音拍,因此正顺序位置的得分为0.267;由于在声调句中的反顺序位置的第八个音拍,因此反顺序位置的得分为0.659。而且,特征性音色发生指标计算部111,通过将这些得分相加,从而计算开头的音拍“あ”的特征性音色发生指标。特征性音色发生指标计算部111,通过对各个音拍进行相同处理,从而计算各个音拍的特征性音色发生指标。据此,依据各个音拍的属性可以计算下列特征性音色发生指标:开头的“あ”为1.51(=-0.17+0.754+0.267+0.659);下一个“た”为0.79;第三个音拍的“た”为0.908。
感情种类判断部113,依据特征性音色发生音韵确定部108所生成的以音韵为单位描述的特征性音色发生位置信息来确定输入声音中的特征性音色发生种类,参照如图7描述的感情种类判断基准记忆部112的信息,来确定输入声音中包含的发生了特征性音色的音拍中的感情种类(步骤S1012)。在输入声音的“あたたまりました”中“あたたまりま”是“紧张的”声音、且在其它音拍没有以特征性音色的发声的情况下,只针对以特征性音色发声的音拍、根据图7的表来判断感情,从而以音拍为单位识别感情的变化。对于图3B,在根据图7对“あ”进行计算的情况下,由于没有该音拍“あ”前一个音拍,因此向该音拍的“紧张”的发生指标1.51加上后一个音拍的“紧张”的发生指标 0.79的一半即0.395,从而成为1.905。而且,在相邻的音拍不存在“紧张”的发生。据此,由于对“紧张”的计算值为正、对“紧张”的计算值为0,因此该音拍中包含的感情被判断为“愤怒”。同样,对于第二个音拍的“た”,向该音拍的0.79加上前一个音拍的1.51一半的0.755和后一个音拍的0.91一半的0.455,从而成为2.0,因此与第一个音拍相同,感情被判断为“愤怒”。
然而,对于图3A所示的“じゆつぷんほどかかります”的输入声音,在“ほ”以“嘶哑”发声,在前一个音拍没有以特征性音色的发声,但是,在后一个“ど”以“紧张”发声。因此,对于“ほ”,该音拍的“嘶哑”的发生指标2.26和后一个音拍的“紧张”的发生指标0.73的一半的0.365一起判断,根据图7的表,对于“ほ”的部位、以及同样对于“ど”的部位,输入声音被判断为包含“欢闹、愉快而兴奋”的感情。但是,“ほど”后面的“かか”的部位,特征性音色只检测出“紧张”,根据图7的表被判断为包含“愤怒”的感情,可以以音拍为单位跟随用户对系统讲话中而变化的感情。
在输入声音是“あたたまりました”的情况下,针对在步骤S1011所计算的每个音拍的特征性音色发生指标的值(例如,开头的“あ”为1.51、其次的“た”为0.79、第三个音拍的“た”为0.908),参照如图8所述的感情强度计算规则记忆部114的感情强度计算规则时,开头的“あ”的“紧张”的发生指标为1.51即0.9以上,因此判断为“紧张”容易度“高”。如图3B输入声音的“あたたまりました”中以“紧张的”声音发声“あたたまりま”的情况下,由于在“紧张”容易度大的“あ”“紧张”了,因此“愤怒”的感情强度低。对于其次的“た”,“紧张”的发生指标为0.79,因此中等程度的“紧张”容易度、中等程度的“愤怒”;对于第三个音拍的“た”,发生指标为0.908,因此“紧张”容易度高、“愤怒”的感情强度低。如此,按每个音拍计算感情强度(步骤S1013),与在步骤S1012进行感情判断时相比,可以求出更详细的感情强度的变化。显示部116显示在步骤S1013所计算的作为感情强度计算部115的输出的每个音拍的感情强度(步骤S1014)。
对于如图3A的输入,在步骤S1012中,“じゆつぷんほどかかります”的“ほ”依据“嘶哑”的发生指标2.26和“紧张”的发生指标0.365被判断为“欢闹、愉快而兴奋”,参照如图8所述的感情强度计算规则记忆部114的规则时,将“ほ”的“紧张”的发生指标和“嘶哑”的发生指标相乘的值为0.8249,“欢闹、愉快而兴奋”的强度弱。而且,对于“ど”,“紧张”的指标是该音拍的0.73和后一个音拍的1.57的一半相加而得的1.515,“嘶哑”的指标是前一个音拍“ほ”的指标2.26的一半1.13,将这些值相乘的值为1.171195,因此“欢闹、愉快而兴奋”的强度弱。对于后面的“か”,紧张的指标是将前一个音拍的指标的一半、后一个音拍的指标的一半和该音拍的指标相加而得的2.55,因此“愤怒”的强度被判断为“弱”。
在此,说明图8所示的在感情强度计算规则记忆部114记忆有的感情强度计算规则的制作方法中、指标范围和“紧张”容易度和感情强度的关系的制作方法。图9是有“紧张”的音拍的发生频度和没有“紧张”的音拍的发生频度和“紧张”容易度的指标的值的关系、以 及感情的强度(弱度)和指标的值的关系的模式图。在图9中设定,在横轴按每个音拍求出的“紧张”容易度的指标,越靠右边越容易“紧张”。而且,在纵轴示出声音中的具有“紧张”或没有“紧张”的音拍的发生频度以及每个音拍的“紧张”概率。而且,在图表中左轴示出具有“紧张”或没有“紧张”的音拍的发生频度,在图表中右轴示出每个音拍的“紧张”概率。在图表的曲线中,实线是示出依据实际声音数据制作的、指标的值和具有“紧张”的音拍的发生频度的关系的函数,细虚线是示出依据实际声音数据制作的、指标的值和没有“紧张”的音拍的发生频度的关系的函数。依据两者函数来求出具有某指标的值的音拍内以“紧张”发声的频度,并将其作为“紧张”发生概率,用粗虚线以百分率示出的“感情的弱度”。发生概率即“感情的弱度”的特性是,发生指标越小感情越强,发生指标越大感情越弱。对如图9所示的依据发生指标而变化的“感情的弱度”的函数,依据实际声音数据来设定感情强度的范围,依据函数来求出对应于设定了的感情强度范围的边界的发生指数,从而制作如图8所示的表。
并且,在图8所示的感情强度计算规则记忆部114中利用依据“感情的弱度”的函数制作的表来计算感情强度,但也可以记忆图9所示的函数、且依据函数来直接计算“感情的弱度”即函数强度。
根据所述结构,从所输入的声音中作为反映了感情的特征性音色提取音源微扰,保持含有特征性音色的特征量数据库和不含有特征性音色的特征量数据库,依据音源微扰的有无来切换特征量数据库,从而提高声音识别精度。另一方面,根据依据声音识别结果来求出的特 征性音色的发生容易度和实际上的输入声音的音源微扰的有无的比较结果,在容易发生特征性音色的部位实际上发生了特征性音色的情况下判断为感情的强度低,在不易发生特征性音色的部位发生了特征性音色的情况下判断为感情的强度高。据此,在不受语言差别、个人差别以及地方差别的影响的情况下,可以从输入声音中准确地识别声音的讲话者的感情的种类和强度。
而且,在利用依据无表情的声音数据作出的特征量数据库的情况下,对有感情表现的声音中出现的特征性音色的声音识别精度低,但是,通过切换到依据含有特征性音色的声音作出的特征量数据库,从而声音识别精度会提高。而且,通过识别精度的提高,利用音韵列来计算的特征性音色的发生容易度的计算精度也会提高。因此,感情强度的计算精度也会提高。再者,通过以音拍为单位检测特征性音色、以音拍为单位进行感情识别,可以以音拍为单位跟随输入声音中的感情的变化。因此,在将系统用于对话控制等的情况下,确定用户即讲话者在对话动作过程中对哪个事件怎样反应了时有效的。如此依据输入声音可以仔细地把握用户的感情的变化,因此,例如,按照用户的愤怒的强度,将系统侧的输出声音变为像“大变申し訳ございませんが…(实在对不起…)”那样的更礼貌的道歉、或像“お手数ではございますが…(给您添麻烦…)”那样的更礼貌的请求的表现,从而可以使用户的感情处于平常状态,并且可以作为对话接口进行顺利的工作。
(实施例1的变形例)
示出本发明的实施例1的变形例。图10是本发明的实施例1中的依据声音的感情识别装置的变形例的功能框图。图11是实施例1中的变形例的依据声音的感情识别装置的工作流程图。图12是所输入的声音的音韵列和以特征性声音发声的音拍以及其“紧张”的发生指标和“嘶哑”的发生指标的值的模式图。图13示出在感情强度计算规则记忆部132记忆有的判断感情的种类时的基准的信息的一个例子。
图10所示的感情识别装置具有与图4所示的实施例1涉及的感情识别装置相同的结构,但是一部分的结构不同。即,图4中的感情种类判断基准记忆部112被替换为感情种类判断规则记忆部132。而且,感情种类判断部113和感情强度计算部115被替换为感情种类强度计算部133。再者,结构上没有感情强度计算规则记忆部114,而感情种类强度计算部133参照感情种类判断规则记忆部132。
如上构成的依据声音的感情识别装置,在实施例1中的步骤S1011按每个音拍进行特征性音色发生指标的计算。
对于如图12的例子,在提取特征性音色的“紧张”和“嘶哑”、只根据其频度来判断感情的情况下,音拍数多的“紧张”大大影响到判断,因此判断为典型地出现“紧张”的“愤怒”的感情的声音,而系统进行道歉的对应。但是,实际上所输入的声音带有中等程度的“欢闹、愉快而兴奋”的感情,因此,对话系统应该提供用于用户与系统更享受会话的信息。
例如,如图12,在24个音拍中以“紧张”发声的音拍存在5个音拍、以“嘶哑”发声的音拍存在3个音拍的情况下,通过与步骤S1011 相同的方法按每个音拍算出“紧张”和“嘶哑”的特征性音色发生指数。“紧张”的特征性音色发生指数的倒数的和为4.36。另外,“嘶哑”的特征性音色发生指数的倒数的和为4.46。此意味着,虽然对于检测出的特征性音色的音拍数“紧张”的声音多,但是,在更不易嘶哑的声音中也发生了“嘶哑”的声音,即引起“嘶哑”的感情更强。进一步,感情种类强度计算部133,根据图13所示的感情种类判断规则来判断感情的种类和强度(步骤S1313)。
而且,也可以将一个种类的特征性音色的指标平均化。例如,如图3B,8个音拍中以“紧张”发声的音拍存在6个音拍,而未发生其它特征性音色。若在发生了“紧张”和“嘶哑”的特征性音色时相同计算,则“紧张”的特征性音色发生指标的倒数(第一个音拍的“あ”0.52、第二个音拍的“た”0.50、第三个音拍的“た”0.56、第四个音拍的“ま”1.04、第五个音拍的“り”6.45、第六个音拍的“ま”1.53)的和为10.6。依据图13所示的感情强度计算规则来得知,感情为“愤怒”、强度为“弱”。对于实施例1,在图3B中,第五个音拍的“り”的特征性音色发生指标为-0.85,依据图8可以判断,感情为“愤怒”、强度为“强”。所述感情的强度的判断结果,与像实施例1那样按每个音拍进行判断时不同。变形例中由对话系统判断输入声音整体的感情的种类和强度,该方法在人和对话系统间的对话短且单纯的情况下有效。像实施例1那样,按每个音拍判断感情的种类和强度、而得到感情的种类或强度的变化,该方法在会话的内容复杂或会话长的情况下非常重要。但是,在对非常单纯的会话利用对话系统的情况下,判断 输入声音整体的感情的种类和强度的方法是有效的。例如,设想进行售票的对话系统。在此,目的为如下进行对话:对话系统打听“何枚ですか?(要几张?)”,对此用户答应“二枚お願いします。(要两张。)”。在此情况下,判断“二枚お願いします。”的输入声音整体的感情的种类和强度,在系统没有识别声音的情况下,进行如下对应:对话系统进行按照感情的种类和强度的道歉,而使用户再次答应,从而对话系统可以有效地工作。因此,本实施例的只利用一个种类的特征性音色的指标来判断输入声音整体的感情的种类和强度的声音识别系统,对短的会话或单纯的会话的对话系统等有效的。
再者,依据每个音拍的特征性音色的种类的、各个音拍的指标的倒数的和,来可以求出用于感情的判断的数值。或者,将在输入声音的特征性音色发生位置的特征性音色发生指标的值按每个特征性音色种类平均化,将输入声音的总音拍数中占有的、发生了特征性音色的音拍数作为特征性音色频度求出,将此倒数与预先求出了的特征性音色发生指标的平均值相乘,从而可以求出用于感情的判断的数值。或者,也可以是,将在输入声音的特征性音色发生位置中的特征性音色发生指标的值按每个特征性音色种类平均化,通过平均值的倒数乘以特征性音色发生频度等,从而求出用于感情的判断的数值。对于用于感情的判断的数值的求出方法,若特征性音色的发生容易度作为权重对感情的判断有效、且感情种类判断规则记忆部132记忆有符合计算方法的判断基准,则可以采用其它方法。
并且,在此,在步骤S1313求出特征性音色发生指标的强度,感 情种类判断规则记忆部132记忆依据每个特征性音色的强度差的判断规则,但也可以判断规则基准由特征性音色发生指标的强度比构成。
根据该结构,从所输入的声音中作为反映了感情的特征性音色提取音源微扰。另一方面,通过依据音源微扰的有无来切换特征量数据库,从而可以进行声音识别精度提高了的声音识别。利用声音识别结果可以计算特征性音色的发生容易度。在容易发生特征性音色的部位实际上发生了特征性音色的情况下判断为感情的强度低,在不易发生特征性音色的部位发生了特征性音色的情况下判断为感情的强度高,依据输入声音的一个讲话中检测出的特征性音色的发生指标,在不受个人差别或地方差别的影响的情况下,可以准确地识别以其讲话整体表示的讲话者的感情的种类和强度。
(实施例2)
对于本发明的利用声音中的特征性音色的感情识别,通过利用声音识别结果的音韵列来求出特征性音色发生指标,从而可以进行精度高的感情识别。然而,声音识别中存在的问题是:在很多情况下,感情带有的特征性音色远离一般的音响模型,因此声音识别精度会降低。在实施例1中,通过具备并切换含有特征性音色的音响模型来解决了所述问题,但是,还存在的问题是:由于需要具备多种音响模型,因此数据量变大,而且,用于生成音响模型的脱机工作会增大。为了解决所述实施例1的问题,本实施例示出用于如下构成的结构:利用语言模型校正依据音响模型的识别结果,来提高识别精度,根据准确的声音识别结果的音韵列,来求出特征性音色发生指标,从而进行精度 高的感情识别。
图14是本发明的实施例2的依据声音的感情识别装置的功能框图。图15是本发明的实施例2的依据声音的感情识别装置的工作流程图。图16A至图16C是实施例2的工作的具体例子。
在图14中,对于与图4相同的部分省略说明,只对与图4不同的部分进行说明。在图15中也是,对于与图5相同的部分省略说明,只对与图5不同的部分进行说明。
在图14中,感情识别装置在结构上,与图4的功能框图中相比:没有韵律信息提取部109以及开关107;特征量数据库105被替换为音响特征量数据库205;追加了语言特征量数据库206;声音识别部106被替换为连续单词声音识别部207,该连续单词声音识别部207依据音响特征量和语言模型的语言特征量来,不仅对音韵进行识别、而对语言信息也进行识别,上述以外与图4相同。
根据图15说明如此构成的依据声音的感情识别装置的工作。对于与图5相同的工作省略说明,只对不同的部分进行说明。
由麦克风1输入声音(步骤S1001),声音识别用特征量提取部101提取Mel倒谱系数(步骤S1002)。逆滤波器102提取音源波形(步骤S1003),周期性分析部103将输入声音中具有周期性的信号的时间区域作为周期性信号区间输出(步骤S1004)。特征性音色检测部104,对周期性信号区间检测音源波形的微扰,例如检测音源波形的基频微扰(jitter)以及音源波形的高频域成分的微扰(步骤S1005)。连续单词声音识别部207,参照记忆音响模型的音响特征量数据库205和记忆语言模 型的语言特征量数据库206,利用在步骤S1002提取的Mel倒谱系数,从而进行声音识别。例如,连续单词声音识别部207,依据利用音响模型和语言模型的、利用概率模型的声音识别方法,从而进行声音识别。
一般而言,
(公式1)
W:所指定的单词系列
Y:音响上的观测值系列
P(Y/W):依据单词系列被附加条件的、音响上的观测值系列的概率(音响模型)
P(W):对所假设的单词系列的概率(语言模型)如此,选择音响模型和语言模型的乘积最高的单词系列来进行识别。若取对数,
(公式2)
则可以将(公式1)表示为(公式2)。
音响模型和语言模型的平衡不一定相等,因此需要附加对两者模型的权重。一般而言,作为两者权重的比率设定语言模型的权重,
(公式3)
α:音响模型和语言模型的的两者模型中的语言模型的权重 如此表示。在一般的识别处理中,语言模型的权重α在时间上具有一定的值。然而,连续单词声音识别部207获得在步骤S1005检测出的特征性音色的发生位置的信息,根据像(公式4)那样所示的、按每个单词变更语言模型权重α,
(公式4)
第wi:第i个单词
第αi:适用于第i个单词的语言模型的权重
根据如此模型来进行连续单词声音识别。在参照音响特征量数据库和语言特征量数据库来进行声音识别时,在进行声音识别的帧包含特征性音色的情况下,将语言模型的权重α变大、将音响模型的权重相对地变小(步骤S2006),从而进行声音识别(步骤S2007)。通过将语言模型的权重变大、将音响模型的权重变小,从而可以减少如下影响:因在特征性音色的发生位置不符合音响模型而引起的识别精度降低。连续单词声音识别部207,对于对输入声音进行了声音识别的结果即单词列以及音韵列,根据单词的读法信息、声调信息以及词类信息来推测声调句边界和声调位置(步骤S2010)。
例如,如图16A所示,输入声音的音韵列是“なまえをかくえんぴつがほしいんです”,在输入其中“えんぴつが”的部位以特征性音色的“紧张”被发声的声音的情况下,连续单词声音识别部207获得在步骤S1005检测出的特征性音色的发生位置的信息,对于不包含特征性音色的“なまえをかく”和“ほしいんです”的部位,适用依据 不包含特征性音色的学习用数据来决定的语言模型的权重α=0.9。此时,如图16B所示,依据以往的连续声音识别的方法,将语言模型的权重α为一定,对以特征性音色发声的部位也适用语言模型的权重α=0.9,该权重α=0.9是在不以特征性音色发声的情况下适用的。在以“紧张”发声的“えんぴつが”的部位作为没有“紧张”的音响模型与“えんとつ”和配合较佳的情况下,
(公式5)
P(えんとつ|…書く)<P(えんぴつ|…書く)
如此,作为语言模型,从句子的开头到“書く”为止的单词列后接着“えんとつ”的概率比接着“えんぴつ”的概率大。
因此,虽然为
(公式6)
P(W1)<P(W2)
W1=名前 を 書く えん とつ が 欲しい ん です
W2=名前 を 書く えん ぴつ が 欲しい ん です
但是,语言模型的权重小,与此相对音响模型的值大,公式3的值为
(公式7)
logP(Y/W1)+0.9×logP(W1)>logP(Y/W2)+0.9×logP(W2)
而作为识别结果“名前を書く煙突が欲しいんです”被采用。
然而,本实施例中,在利用依据不包含特征性音色的学习数据来制作的音响模型对包含特征性音色的输入声音进行识别的情况下,识别精度会降低,对此,在步骤S2006由连续单词声音识别部207,通过将以“紧张”发声“えんぴつが”的部位的语言模型的权重变大,从 而进行对应。即,如图16C所示,通过适用依据包含“紧张”的发声的数据来制作的语言模型的权重α=2.3,为
(公式8)
而作为识别结果“名前を書く鉛筆が欲しいんです”被采用,从而可以获得准确的识别结果。
特征性音色发生指标计算部111获得连续单词声音识别部207所输出的音韵列、以音韵为单位描述的特征性音色发生位置、以及音韵列的声调句边界和声调位置的信息。特征性音色发生指标计算部111,利用所获得的信息和在特征性音色发生指标计算规则记忆部110记忆有的规则,按每个音韵列的音拍计算特征性音色发生指标,所述规则用于依据子音、母音、声调句中的音拍位置、从声调核的相对位置等音拍属性来求出特征性音色的发生容易度(步骤S1011)。感情种类判断部113,依据特征性音色发生音韵确定部108所生成的以音韵为单位描述的特征性音色发生位置,来确定输入声音中的特征性音色发生种类,参照感情种类判断基准记忆部112的信息,来确定与输入声音中包含的特征性音色的种类相对应的感情种类(步骤S1012)。感情强度计算部115,比较以音韵为单位描述的输入声音的特征性音色发生位置和在步骤S1011由特征性音色发生指标计算部111计算的每个音拍的特征性音色发生指标,依据各个音拍的指标的大小和输入声音对应的音拍的状态的关系,根据在感情强度计算规则记忆部114记忆有的规则来计算每个音拍的的感情强度(步骤S1013)。显示部116显示在步骤S1013 计算的、由感情强度计算部115输出的每个音拍的的感情强度(步骤S1014)。
并且,在本实施例2中适用于不包含特征性音色的帧的语言模型的权重是0.9、适用于以“紧张”发声的帧的语言模型的权重是2.3,但是,若在包含特征性音色的帧中语言模型的权重相对地变大,则可以是其它的值。而且,可以对“紧张”以外的“嘶哑”“假声”等特征性音色分别设定所适用的语言模型的权重,也可以设定适用于包含特征性音色的帧的语言模型的权重、和适用于不包含特征性音色的帧的语言模型的权重的两种权重。
并且,对于实施例2,也可以实施如实施例1所述的变形例。
根据这些结构,从所输入的声音中作为反映了感情的特征性音色提取音源微扰,另一方面,在存在音源微扰的情况下,考虑到不易符合音响特征量数据库内的音响模型,来将语言模型的权重系数α变大、而将音响模型的权重相对地变轻。据此,可以防止因音响模型不符合而引起的音韵级的识别错误,也可以提高句子程度的声音识别精度。另外,依据音源微扰的有无来判断输入声音的感情的种类,还利用声音识别结果来计算特征性音色的发声的容易度,在容易发生特征性音色的部位实际上发生了特征性音色的情况下,判断为感情的强度低,在不易发生特征性音色的部位发生了特征性音色的情况下,判断为感情的强度高。据此,在不受个人差别或地方差别的影响的情况下,可以从输入声音中准确地识别声音的讲话者的感情的种类和强度。
进一步,决定现有的语言模型和音响模型的平衡取决于语言模型 的权重。据此,与生成含有特征性音色的音响模型的情况相比,可以以少量的数据来生成特征量数据库。而且,在利用依据无表情的声音数据作出的特征量数据库的情况下,对有感情表现的声音中出现的特征性音色的声音识别精度低,但是,对于发生了特征性音色的部位,有可能音响模型不适当,因此将音响模型的权重变轻、而语言模型的权重变大。据此,将因适用不适当的音响模型而引起的影响变小,从而声音识别精度会提高。通过识别精度提高,利用音韵列来计算的特征性音色的发生容易度的计算精度也会提高。因此,感情强度的计算精度也会提高。再者,通过以音拍为单位检测特征性音色、以音韵为单位进行感情识别,从而可以以音韵为单位跟随输入声音中的感情的变化。因此,在用于对话控制等的情况下,确定用户即讲话者在对话动作过程中对哪个事件怎样反应了时有效的。
(实施方式3)
图17是本发明的实施例3的依据声音的感情识别装置的功能框图。图18是本发明的实施例3的依据声音的感情识别装置的工作流程图。图19是示出本发明的实施例3的音韵输入方法的一个例子的图。
在图17中,对于与图4相同的部分省略说明,只对与图4不同的部分进行说明。在图18中也是,对于与图5相同的部分省略说明,只对与图5不同的部分进行说明。
在图17所示的感情识别装置中,图4中的声音识别用特征量提取部101被替换为特征量分析部301。而且,没有特征量数据库105和开关107,声音识别部106被替换为音韵输入部306,其它结构与图4相 同。
在图17中的感情识别装置是依据声音来识别感情的装置,包括:麦克风1、特征量提取部301、逆滤波器102、周期性分析部103、特征性音色检测部104、音韵输入部306、特征性音色发生音韵确定部108、韵律信息提取部109、特征性音色发生指标计算规则记忆部110、特征性音色发生指标计算部111、感情种类判断基准记忆部112、感情种类判断部113、感情强度计算规则记忆部114、感情强度计算部115、表示部116。
特征量分析部301是一种处理部,分析输入声音来提取表示谱包络的参数,例如提取Mel倒谱系数。
音韵输入部306是一种输入单元,用户针对输入波形的特定的区间输入对应的音韵种类,例如是鼠标或笔输入板等指点器。用户,例如,以下列方法来输入音韵种类:对在画面上出示的输入声音的波形或光谱图,利用指点器进行区间指定,由键盘输入与此区间相对应的音韵种类;或利用指向器从所显示的音韵种类的列表中选择。
根据图5说明如上构成的依据声音的感情识别装置的工作。
首先,由麦克风1输入声音(步骤S1001)。特征量分析部301,分析输入声音,来提取作为表示谱信息的音响特征量的Mel倒谱系数(步骤S3001)。其次,逆滤波器102,设定参数,以便作为在步骤S1002所生成的Mel倒谱系数的逆滤波器,并且,使在步骤S1001中麦克风所输入的声音信号通过,来提取音源波形(步骤S1003)。
周期性分析部103,计算在步骤S1003所提取的音源波形的基波分 量,依据基波分量将输入声音中具有周期性的信号的时间区域作为周期性信号区间输出(步骤S1004)。
特征性音色检测部104,对于在步骤S1004周期性分析部103所提取的周期性信号区间,检测音源波形的微扰(步骤S1005)。
另外,通过音韵输入部306,用户输入与输入声音的特定区间相对应的音韵种类(步骤S3002)。音韵输入部306,将与所输入的输入声音的区间相对应的音韵种类,作为输入声音的时间位置、和与此时间位置相对应的音韵信息,输出到特征性音色发生音韵确定部108。
特征性音色发生音韵确定部108依据音韵输入部306所输出的带有时间位置信息的音韵列信息、和特征性音色检测部104所输出的输入声音中的特征性音色的时间位置信息,来确定在输入声音中的哪个音韵中发生特征性音色(步骤S1008)。
另外,韵律信息提取部109,分析逆滤波器102所输出的音源波形来提取基频和音源功率(步骤S1009)。
特征性音色发生指标计算部111,依据在步骤S3002所输入的带有时间位置信息的音韵列信息、和韵律信息提取部109所提取的基频和音源功率,将基频模式和音源功率模式的起伏、与音韵列对照,来生成对应于音韵列的声调句分隔以及声调信息(步骤S1010)。
再者,特征性音色发生指标计算部111,利用在特征性音色发生指标计算规则记忆部110记忆有的规则,按照每个音韵列的音拍来计算特征性音色发生指标,该规则用于依据子音、母音、声调句中的音拍位置、从声调核的相对位置等音拍属性来求出特征性音色的发生容易 度(步骤S1011)。
感情种类判断部113,依据特征性音色发生音韵确定部108所生成的以音韵为单位描述的特征性音色发生位置信息来确定输入声音中的特征性音色发生种类,参照感情种类判断基准记忆部112的信息,来确定输入声音中包含的发生了特征性音色的音拍中的感情种类(步骤S1012)。
感情强度计算部115,参照感情强度计算规则记忆部114所存储的规则来计算每个音拍的的感情强度(步骤S1013)。与在步骤S1012进行感情判断时相比,可以求出更详细的感情强度的变化。显示部116显示在步骤S1013计算的、由感情强度计算部115输出的每个音拍的的感情强度(步骤S1014)。
并且,在本实施例3中,在步骤S1012根据在感情种类判断基准记忆部112记忆有的感情种类判断基准来确定各个音韵中的感情种类,然后,在步骤S1013根据感情强度计算规则记忆部114所存储的规则来计算每个音韵的感情强度,但也可以如实施例1的变形例那样,计算每个音韵的特征性音色发生指标,根据其结果来计算讲话整体的感情种类和强度。
根据这些结构,从所输入的声音中作为反映了感情的特征性音色提取音源微扰,另一方面,与输入声音的特定的区间相对应的音韵种类被输入。根据由音韵列和音律信息求出的特征性音色的发的生容易度、和实际上的输入声音的音源微扰的有无,在容易发生特征性音色的部位实际上发生了特征性音色的情况下,判断为感情的强度低,在 特征性音色不易发生的部位发生了特征性音色的情况下,判断为感情的强度高。据此,在不受语言差别、个人差别或地方差别的影响的情况下,可以从输入声音中准确地识别声音的讲话者的感情的种类和强度。
并且,可以确认下列内容:韵律信息完全相同时,在将以由特征性音色的发生指标变大的趋向较大的音韵形成的特征性音色发声的声音(例如,由タ行、カ行、ダ行的ア段、エ段、オ段的音韵形成的、容易“紧张”的声音)、和以由特征性音色的发生指标变小的趋向较大的音韵形成的特征性音色发声的声音(例如,由ハ行和サ行的イ段和ウ段的音韵形成的声音)输入到本发明的感情识别装置的情况下,通过比较各个感情种类和强度的判断结果,从而算出音韵种类和韵律信息作为参数利用的特征性音色发生指标,根据特征性音色发生指标推测感情种类和强度。并且,可以确认下列内容:将使以特征性音色发声的声音连续的声音的声调位置按每一个音韵移动了的声音输入到本发明的感情识别装置的情况下,通过确认依据声调位置的移动的感情强度的变化,从而算出将音韵种类和韵律信息作为参数利用的特征性音色发生指标,根据特征性音色发生指标推测感情种类和强度。
并且,在实施例1以及其变形例、实施例2、实施例3中,依据声音的感情识别装置,获得输入声音整体后进行处理,但也可以对麦克风1所输入的声音逐次进行处理。此时,在实施例1以及其变形例中,以作为声音识别的处理单位的音韵为逐次处理的单位,在实施例2中,以可语言处理的句节或句子等的单位为逐次处理的单位。
并且,在实施例1以及其变形例、实施例2、实施例3中,依据Mel倒谱的逆滤波器来求出音源波形,但是,对于音源波形的求出方法,也可以利用依据Mel倒谱的逆滤波器的方法,即,根据声音道传达特性来求出声音道模型、并依据其逆滤波器来求出音源波形的方法,或根据音源波形的模型来求出的方法等。
并且,在实施例1以及其变形例、实施例2、实施例3中,对于声音识别的音响特性模型利用Mel倒谱的参数,但也可以与此以外的声音识别方式。此时,既然可以利用Mel倒谱的逆滤波器来求出音源波形,也可以以其它方法来求出音源波形。
并且,在实施例1以及其变形例、实施例2、实施例3中,将音源的频率微扰和音源的高频域微扰作为“紧张”和“嘶哑”来检测特征性音色,但也可以检测在“粕谷英樹、楊長盛,“音源から見た声質”,日本音
学会誌51卷11号(1995),pp869-875”中列举的假声或紧张的声音等音源的振幅等“紧张”和“嘶哑”以外的特征性音色。
并且,在实施例1以及其变形例、实施例2、实施例3中,在步骤S1009即特征性音色发生指标计算部111决定声调句边界和声调位置紧前进行基频和音源功率的提取,但是,若在步骤S1003中逆滤波器102生成音源波形后、且在步骤S1010中特征性音色发生指标计算部111决定声调句边界和声调位置之前,则可以在任何时机提取基频和音源功率。
并且,在实施例1以及其变形例、实施例2、实施例3中,特征性音色发生指标计算部111作为统计学习法利用数量化II类,对于解释 变量,利用子音、母音、声调句中的位置、从声调核的相对位置,但是,统计学习法可以是与此以外的方法,对于解释变量,除了所述属性以外,还利用基频或功率和其模式音韵的时间长度等的连续量来计算特征性音色发生指标。
并且,在实施例1以及其变形例、实施例2、实施例3中,对于输入声音,由麦克风1输入,但也可以是预先被录音、记录的声音、或从装置外部输入的声音信号。
并且,在实施例1以及其变形例、实施例2、实施例3中,将识别了的感情的种类和强度在显示部116显示,但也可以将识别了的感情的种类和强度记录到记录装置、或输出到装置的外部。
本发明的依据声音的感情识别装置,通过检测依据发声器官紧张和松驰、感情、表情或讲话风格来声音的每一个细节中出现的特征性音色,从而识别输入声音的讲话者的感情或态度,所述感情识别装置有用于机器人等声音、对话接口等。而且,可以应用于呼叫中心、电话交换的自动电话对应系统等用途。再者,在声音通信时随着声音的音调而角色图像的动作变化的移动终端的应用程序中,可以应用于装载随着在声音中出现的感情的变化使角色图像的动作或表情变化的应用程序的移动终端等。