CN101506874B

CN101506874B - 情感检测方法、情感检测装置

Info

Publication number: CN101506874B
Application number: CN200780031814XA
Authority: CN
Inventors: 入江豪; 日高浩太; 佐藤隆; 谷口行信; 中嶌信弥
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-09-13
Filing date: 2007-09-13
Publication date: 2011-12-07
Anticipated expiration: 2027-09-13
Also published as: US8386257B2; EP2063416B1; WO2008032787A1; KR101029786B1; KR20090038475A; CN101506874A; JP5039045B2; US20090265170A1; JPWO2008032787A1; EP2063416A1; EP2063416A4

Abstract

从声音信号数据对每个分析帧提取声音特征量，并将该声音特征量存储到存储单元(S120)。接着，从存储单元读取所述声音特征量，使用基于预先输入的学习用声音信号数据所构成的一个以上的统计模型，计算与所述情感状态对应的所述声音特征量的情感状态概率(S130、S140、S150)。然后，基于计算的所述情感状态概率，判定包含所述分析帧的区间的情感状态(S160)。

Description

情感检测方法、情感检测装置

技术领域

本发明涉及基于声音信号数据的情感检测技术。

背景技术

现在，伴随着多媒体内容的增加，从市场上需求可进行短时间内的视听的内容概要技术。此外，内容的种类也被多样化，例如电影、连续剧、家庭录像、新闻、记录片、音乐内容等，对应于此，视听者的视听要求也越来越多样化。

伴随着这种视听要求的多样化，需要用于对视听者的视听要求立即检索、提示想要观看的视频、场面的技术。关于这个技术，例如已知如下的内容概要技术(例如，参照专利文献1、专利文献2)，即基于包含在视听内容的声音信号数据而概要内容。

在所述专利文献1的内容概要技术中，对声音数据进行分析，提取基本频率、功率、动态特征量的时间变动特性的至少一和/或它们的帧间差分的至少一个的声音特征量的组作为声音特征量矢量。使用将其提取的声音特征量矢量量子化所得的代表矢量和说话人的情感、情感流露概率相关联的码簿，求出笑、生气、悲伤的情感状态的流露概率。

公开了一种情感检测方法，将包含基于该情感状态的流露概率而被判定为情感状态的区间的部分判定为内容中的重要部分，并将其提取。

此外，同样地，在所述专利文献2的内容概要技术是，对声音数据进行分析，提取基本频率、功率、动态特征量的时间变动特性的至少一个和/或它们的帧间差分的至少一个的声音特征量的组作为声音特征量矢量。使用将其提取的声音特征量矢量量子化所得的代表矢量和说话的强调状态概率以及平静状态概率分别相关联的码簿，求出强调状态、平静状态的流露概率。

在所述情感检测方法中，保存多个学习用声音信号数据，并将它们与新输入的声音信号数据进行比较，从而将其作为情感状态的判定基准，所以为了提高判定精度，必需保存多个学习用声音信号数据，已知存储器以及计算时间的成本变得庞大的问题。

另外，作为相关技术，已知基本频率以及功率的提取方法(例如，参照非专利文献1)，说话速度的时间变动特性的提取方法(例如，参照非专利文献2)，概率模型的参数估计方法(例如，参照非专利文献3、非专利文献4)，求出广义状态空间模型的方法(例如，参照非专利文献5)。

专利文献1：特开2005-345496号公报(段落0011～0014等)。

专利文献2：特许第3803311号。

非专利文献1：古井貞熙、「デイジタル音声処理第4章 4.9ピツチ抽出」東海大学出版会、1985年9月，pp.57-59。

非专利文献2：嵯峨山茂樹、板倉文忠、「音声の動的尺度に含まれる個人性情報」、日本音

学会昭和54年度春季研究発表会講演論文集、3-2-7，1979年、pp.589-590。

非专利文献3：石井健一郎、上田修功、前田栄作、村瀬洋、「わかりやすいパ一タン認識」、オ一ム社、第1版、1998年8月、pp.52-54。

非专利文献4：汪金芳、手

集、上田修功、、田栗正章、「計算統計I 確率計算の新しい手法統計科学のフロンテイア11 第III章 3EM法 4変分ベイズ法」、岩波書店、2003年6月、pp.157-186。

非专利文献5：kitagawa，G.，”Non-Gaussian state-space modeling ofnonstationary time series，”Journal of the American Statistical Association，1987年12月，pp.1032-1063。

发明内容

发明要解决的课题

在上述的情感检测方法中，由于没有考虑在情感讲话中频繁地出现的、声音的尖叫或叫声、颤抖等发生状况，所以可判定的情感状态只能应对典型的笑、生气、悲伤等限定的种类。

此外，由于仅基于从声音特征量所得到的信息，进行强调状态或情感状态的判定，所以在将噪声分量强的声音作为对象的情况下，仅根据从声音特征量所得到的信息，无法得到充分的判定的根据。因此，例如即使是原本应该是判定为生气的情感状态的声音，但在受到噪声的影响的语音特征量偶尔与悲伤的情感状态相似的情况下，经常看到被判定为悲伤的错误检测。

同样地，存在如下问题，即在包含原来应该是判定为笑的情感状态的一个以上的帧的区间，存在具有作为悲伤的情感状态的概率非常高的值的帧的情况下，错误地判定为是悲伤。

此外，按帧对声音特征量矢量进行量子化，使若干个代表矢量代表作为连续量的声音特征量矢量，所以不能检测在情感状态的出声中特征性地显现的声音特征量矢量的重要变化，其结果，存在情感状态的判定精度降低的问题。

本发明是基于上述课题而完成的，提供一种情感检测方法、情感检测装置以及安装了该方法的情感检测程序以及记录了该程序的记录介质，其检测在情感状态的出声中特征性地显现的声音特征量矢量的重要变化，进而不仅考虑声音特征量矢量的变化，还考虑情感状态本身的性质，从而即使在将噪声强的声音作为对象的情况下也能够提高情感状态的判定精度，能够在更宽的区域中实施。

在这里，情感状态本身的性质是指，与情感状态的举动有关的性质。例如，在情感状态中存在变化的简单、难，难以发生在之前是高兴的情感状态却突然变化为悲伤的情感状态。

因此，例如在判定某一区间的情感状态时，即使该区间的声音特征量类似于悲伤的情况，也将该区间前后的区间的情感状态作为判断材料来推理，从而在其是高兴的可能性高的情况下，能够基于这个来避免单纯地判断为悲伤的情况。

提供一种情感检测方法、情感检测装置以及安装了该方法的情感检测程序以及记录了该程序的记录介质，其通过考虑这样的情感状态的举动本身来进行判定，从而即使在仅通过声音特征量的判定中容易错误的情况下，也能够高精度地进行判定。

用于解决课题的手段

根据本发明的第1观点，基于所输入的声音信号数据的声音特征量来进行情感检测处理的情感检测方法或者装置是，

从所述声音信号数据对每个分析帧提取基本频率、基本频率的时间变动特性序列、功率、功率的时间变动特性序列、说话速度的时间变动特性中的一个以上作为声音特征量矢量，并将该声音特征量矢量存储到存储单元；

从存储单元读取各个分析帧的所述声音特征量矢量，使用基于预先输入的学习用声音数据所构成的第1统计模型，将一个以上的情感状态序列作为条件，计算成为所述声音特征量矢量的声音特征量出现概率；

使用第2统计模型，计算一个以上的情感状态序列向时间方向的变化概率作为情感状态变化概率；

基于所述声音特征量出现概率和所述情感状态变化概率，计算情感状态概率；以及

基于计算出的所述情感状态概率，输出与包含一个以上分析帧的各个区间的情感状态有关的信息。

根据本发明的第2观点，基于所输入的声音信号数据的声音特征量来进行情感检测处理的情感检测方法或者装置是，

从存储单元读取各个分析帧的所述声音特征量矢量，使用基于预先输入的学习用声音信号数据所构成的一个以上的统计模型，计算情感状态概率，所述情感状态概率将对于一个以上的情感状态序列的所述声音特征量矢量作为条件；

基于所述情感状态概率，判定包含所述分析帧的区间的情感状态；以及

输出与判定出的所述情感状态有关的信息。

此外，提供安装了本发明的所述第1或者第2观点的情感检测方法的计算机程序以及记录了该程序的记录媒体。此外，本发明包括安装了所述第1或者第2观点的情感检测方法的可通过计算机实施的程序以及记录了该程序的记录媒体。

发明效果

根据如以上所述的本发明的第1观点的方法或者装置，不仅利用与声音特征量有关的统计模型，还一并利用与情感状态序列的变化概率有关的统计模型，基于这些所处理的信息不同的两个统计模型来计算情感状态概率，所以能够更正确地捕捉与情感状态有关的信息以及其自然的变化。而且，由于考虑到情感状态作为基本的性质所具有的情感的时间变化特性而得到与情感状态有关的信息，所以即使在声音特征量中重叠了强噪声，也能够改善以往那样仅基于声音特征量计算的情况下帧的声音特征量出现概率与原来的值不同的与情感状态有关的信息的不正确。

根据本发明的第2观点的方法或者装置，基于与声音特征量有关的统计模型来捕捉在情感状态中的说话中频繁出现的声音特征量的变化，所以可进行考虑了在情感说话中的特征性的出声状况的情感状态的判定，能够更加高精度地判定更多的情感状态。

在所述第1或者第2观点的方法或者装置中，按照所得到的情感状态概率的降序来选择情感状态，从而能够检测混合的多个情感状态以及其变化的更详细的信息。

在所述第1或者第2观点的方法或者装置中，通过基于作为一个情感状态的概率和作为除此之外的情感状态的概率的凸组合(convex combination)之差来判定情感状态，从而能够进行考虑了不同的情感状态的引起关系的情感状态的判定。

在所述第1或者第2观点的方法或者装置中，将输入声音信号数据集中到每个连续的说话区间的声音小段落，基于各个声音小段落的情感度来提取内容概要，从而能够更加灵活地应对视听者的概要请求条件。

在所述第1或者第2观点的方法或者装置中，将输入声音信号数据基于周期性而集中到一个以上的连续的分析帧的区间，并基于各个声音小段落的情感度来提取内容概要，从而能够更加灵活地应对视听者的概要请求条件。

根据这些，可对情感检测技术领域进行贡献。

附图说明

图1是说明本实施方式中的情感检测方法的流程图。

图2是表示构成本实施方式中的统计模型的步骤的处理细节的流程图。

图3是求基本频率的时间变动特性的方法的概念图。

图4是用于说明声音特征量矢量的时间变化的图。

图5是广义状态空间模型的概念图。

图6是表示在处理高兴、悲伤、平静的情感状态时的情感状态概率的一例的图。

图7是表示声音小段落和情感度的关系的概念图。

图8是表示声音段落的生成方法的一例的图。

图9是表示声音段落和情感度的关系的概念图。

图10是判定内容的情感状态，生成概要内容的处理流程图。

图11是在本实施方式中的情感检测装置的逻辑结构图。

图12是本实施方式中的情感检测装置的物理结构图。

具体实施方式

基于图1说明本实施方式中的情感检测方法。图1是说明本实施方式中的情感检测方法的流程图。另外，假设在本实施方式的说明中的数据是存储在通用的存储单元(例如，存储器或硬盘装置)或者存储部件并被访问的数据。

首先，步骤S110(统计模型构筑处理步骤)是在通过本实施方式的情感检测方法而实际进行情感状态的判定之前预先进行的步骤，是构筑用于计算情感状态概率的两个统计模型(称为第1统计模型以及第2统计模型)的步骤。另外，所述统计模型的实体是将计算其统计的函数以及统计量等的参数作为程序所记载的实体。表示所述统计模型的参数以及函数类型的符号被存储在存储单元中，但用于它们的存储容量比将实际的数据全部存储的容量小。

接着，在步骤S120(声音特征量提取处理步骤)中，从取得的内容的声音信号数据对一个以上的每个分析帧(以下，也简单地称为帧)计算并提取期望的声音特征量作为矢量。具体地说，例如各个分析帧由多个子帧构成，输入声音信号数据按每个子帧被分析，计算作为声音特征量的基本频率以及功率，基于包含在包括该帧的一个以上的规定数的分析帧中的子帧的声音特征量，对每个分析帧构成声音特征量矢量。另外，该声音特征量矢量是由基本频率、基本频率的时间变动特性的序列、功率、功率的时间变动特性的序列、说话速度的时间变动特性中的一个以上的要素构成的矢量。此外，设声音信号数据是通过声音信号数据输入部件(例如，后述的图12的输入单元210)所输入的数据。被提取的声音特征量被存储在存储单元中。步骤S120～S150是计算情感状态概率的处理。

接着，在步骤S130(声音特征量出现概率计算处理步骤)中，基于在步骤S120中计算并存储在存储单元中的声音特征量矢量，通过在步骤S110中预先构成的第1统计模型，对每个帧计算出现与情感状态对应的声音特征量矢量的概率，并将其计算结果看作声音特征量出现概率。

接着，在步骤S140(情感状态变化概率计算处理步骤)中，使用在步骤S110中预先构成的第2统计模型，对每个帧计算与情感状态对应的一个以上的状态变量向时间方向的变化概率，并将其计算结果看作情感状态变化概率。

接着，在步骤S150(情感状态概率计算处理步骤)中，基于在步骤S130中计算的声音特征量出现概率和在步骤S140中计算的情感状态变化概率，对每个帧计算情感状态概率，并与帧号码、时间信息的任一个相关联地存储在存储单元中。

然后，在步骤S160(情感状态判定处理步骤)中，基于在步骤S150中计算的情感状态概率，对每个帧判定该帧的情感状态，并与对应的帧号码一起输出。判定是，例如可以判定每个帧的提供最大情感状态概率的情感状态，也可以从最大的情感状态概率按降序判定规定数的情感状态，也可以简单地判定全部情感状态的情感状态概率的大的顺序。这些判定可以对后述的声音小段落、或者声音段落的由一个以上的帧构成的每个区间进行。

将这样判定的结果作为与声音信号数据的情感状态有关的信息输出。例如，在输入声音信号数据为视听用内容的情况下，若与内容一同对视听者提供与该帧号码或者时间信息相关联的判定结果，则视听者能够使用判定结果来检索将内容中的期望的情感状态作为条件的帧或者区间。

若有必要，则在步骤S170(概要内容生成输出处理步骤)中，生成并输出在步骤S160中判定的情感状态以连续的一个以上的帧所构成的区间作为单位的内容的概要。在步骤S150中得到的情感状态概率是表示输入声音信号数据的每个帧的情感状态的信息，因此，也可以不进行上述的步骤S160的判定而输出与帧号码或者时间信息相关联的情感状态概率。例如，与内容一同对视听者提供与该帧号码相关联的情感状态概率，视听者对情感状态概率设定期望的基准，从而能够用于从内容提取概要的情况。

以下，详细说明情感检测方法的各个步骤。

首先，基于图2说明构成两个统计模型的步骤S110的处理细节。另外，假设统计模型是从学习用声音信号数据进行学习而获得的模型。

首先，在步骤S111，输入学习用声音信号数据。另外，学习用声音信号数据可以是从与内容声音信号数据的输入部件相同的输入部件输入，也可以从学习用声音信号数据专用的输入部件(例如，记录了学习用声音信号数据的记录介质)输入。

接着，在步骤S112中，对于该学习用声音信号数据涉及学习用声音信号数据的全部数据，对每个帧设定人实际视听而判断的该帧中的情感状态e的值。这里，对于各个帧，将决定通过人所判定的情感状态e的值的信息称为标记，将判定的情感状态的值与该帧相关联地输入的行为称为附加标记。作为标记，只要能够分别区分着眼的情感的种类，则可以是数值，也可以是符号。

此外，即使在没有严格地对每个帧附加情感状态e的标记的情况下，只要是能够变换为按帧单位附加标记，就能够变换为这样来利用。作为附加标记的例子，还存在在涉及某一多个连续的帧的区间中附加情感状态e的标记的情况。此时，通过对包含在该区间的各个帧，赋予与对区间赋予的标记相同的标记，从而能够对每个帧附加标记。更具体地说，在声音的某一时刻t1到t2的区间附加了情感状态e的标记的情况下，该区间的所有帧全部附加了e的标记。

接着，在步骤S113中，与上述步骤S120相同地，对每个帧提取声音特征量矢量x。如后所述，各个帧中的声音特征量矢量x被决定为不仅包含该帧的声音特征量，还可以包含比其过去的规定数的帧的声音特征量。以下，将在帧号码t的帧F_t中的声音特征量矢量表示为x_t，将情感状态表示为e_t。

接着，在步骤S114中，分别通过学习而构成用于计算声音特征量出现概率的第1统计模型和用于计算情感状态变化概率的第2统计模型。

首先，说明用于计算声音特征量出现概率的第1统计模型的学习方法的一例。

用于计算声音特征量出现概率的第1统计模型是对每个帧赋予的声音特征量矢量x在空间上的概率分布，例如在帧F_t中，作为表示x_t依赖于从该帧到比其以前的规定数n为止的连续的帧区间中的情感状态的序列E_t＝{e_t，e_t-1，......，e_t-n+1}出现的概率的附条件概率分布p^A(x_t|E_t)而作成。n是1以上的整数，但例如优选设为2～3左右的数。

该附条件概率分布p^A(x_t|E_t)是，例如可以对E_t的每个可取值使用x_t的出现概率的正态分布、混合正态分布、隐马尔可夫模型(Hidden Markov Model：HMM)等的概率模型而构成。此外，还可以是对声音特征量的每个种类使用正态分布、多项分布、它们的混合分布等的概率模型而构成。通过以往的学习方法而从学习用声音信号数据估计这些概率模型的参数，并设为第1统计模型。

另外，作为以往的参数的估计方法，例如可使用极大似然估计法或EM算法、微分贝叶斯(Bayes)法等公知的方法(例如，参照非专利文献3、非专利文献4等)。

接着，说明用于计算情感状态变化概率的第2统计模型。

用于计算情感状态变化概率的第2统计模型是与用于计算声音特征量出现概率的第1统计模型相同地，从学习用声音信号数据通过进行学习而获得。

在所述步骤S111～S113中，所述学习用声音信号数据是，涉及学习用声音信号数据的全部数据赋予对每个帧提取的声音特征量矢量x以及人实际听取而判断的该帧中的情感状态e的标记的前提之下，以下说明进行步骤S114的学习的步骤的一例。另外，将帧号码t中的情感状态表示为e_t。

用于计算情感状态变化概率的第2统计模型是从第t-n+1号到第t号帧中的情感状态的序列E_t在空间上的概率分布，作为表示依赖于F_t以前的(n-1)帧中的情感状态的序列E_t-1＝{e_t-1，e_t-2，......，e_t-n}，出现E_t＝{e_t，e_t-1，......，e_t-n+1}的概率的附条件概率分布p^B(E_t|E_t-1)而作成。

另外，e_t是“高兴”、“悲伤”、“可怕”、“激动”、“帅气”、“可爱”、“兴奋”、“热情”、“浪漫”、“暴力”、“平稳”、“治好”、“暖和”、“寒冷”、“令人害怕”等情感或“笑”、“哭”、“呼喊”、“叫苦”、“窃窃私语”等的情感流露的情感状态的表述的变量，由于是离散变量，所以所述附条件概率分布p^B(E_t|E_t-1)例如可通过生成bi-gram型的概率分布而构成。此时，在提供E_t-1时，可基于学习用声音信号数据，通过计数各个情感状态的序列E_t出现几次来构成。这就是极大似然估计法，但也可以是除此之外，决定适当的事先分布而通过贝叶斯法学习。

以上是步骤S110的详细处理。

接着，在步骤S120中，从取得的内容的声音信号数据对每个帧提取期望的声音特征量矢量。另外，假设在本发明中的声音不只是人的对话声音，还包含歌唱声音或者音乐等。

以下，说明声音特征量矢量提取方法的一例。

首先，说明声音特征量。作为在本实施方式中的声音特征量，优选是与高次的声音频谱峰值等相比，在噪声环境下也能够稳定地得到，并且在判定情感状态时难以依赖说话人的外形(profile)的特征量。

作为满足上述的条件的声音特征量，提取基本频率f0、基本频率的时间变动特性的序列{rf0ⁱ}、功率p、功率的时间变动特性的序列{rpⁱ}、说话速度的时间变动特性等的一个以上。另外，i是时间变动特性的索引。

此外，在本实施方式中，将序列定义为包括一个以上的要素的集合。作为时间变动特性的例子，例如考虑回归系数、帧内变化量的平均值、最大值、最小值或帧内变化量的绝对值的累积和以及范围(range)等，根据需要选择即可。特别在回归系数的情况下，索引可与次数相关联。回归系数可使用任意次为止，例如可以取1～3次左右。在以下的例子中，说明作为时间变动特性而仅采用回归系数的情况，但也可以与其他的时间变动特性组合使用。功率p可以使用声音信号波形的振幅值，也可以使用绝对值或平滑值、rms值。此外，也可以使用某一频带、例如人容易听取的500Hz～4KHz等区域中的功率的平均值等。此外，可以将对各种提取的声音特征量进行包括适当的坐标变换(例如，主成分分析等)的线性变换、非线性变换、积分变换(例如，傅立叶变换、余弦变换等)的一个以上的结果所得到的值，重新作为声音特征量来采用。

所述应提取的基本频率f0以及功率p的提取方法是各种各样的。那些提取方法是公知的，对于其细节，请参照例如在上述的非专利文献1中记载的方法等。

所述应提取的说话速度的时间变动特性是，通过已知的方法(例如，参照非专利文献2、专利文献1)，作为动态尺度m的时间变动特性rm来提取。例如，可以取检测动态尺度的峰值并对其数进行计数从而检测说话速度的方法，此外，也可以取计算相当于说话节奏的峰值间隔的平均值、分散值从而检测说话速度的时间变动特性的方法。

在以下的说明中，设为将使用了动态尺度的峰值间隔平均值的动态尺度的时间变动特性作为rm来使用并进行说明。说明作为所述应提取的基本频率的时间变动特性的序列{rf0ⁱ}、以及功率的时间变动特性的序列{rpⁱ}而提取回归系数的方法的一例。

在将要分析的帧的时刻设为t时，在时刻t所提取的基本频率f0_t或者P_t与{rf0_t ⁱ}或者{rp_t ⁱ}的关系由以下的近似式表示。

【数学式1】

{f 0}_{t} \approx Σ_{i = 0}^{i = I} {rf 0}_{t}^{i} \times t^{i} . . . (1)

p_{t} \approx Σ_{i = 0}^{i = I} {rp}_{t}^{i} \times t^{i} . . . (2)

其中，I表示回归系数的最大次数。例如在I＝1时表示直线近似，在I＝2时表示二次曲线近似。决定{rf0ⁱ}以及{rpⁱ}使该近似误差在t的附近变小即可，作为实现这个的方法，例如可使用最小平方法。

I可以是任意值，但这里作为例子说明在求出I＝1时的rf0_t ¹的情况。将要分析的帧的时刻设为t，则在t的基本频率的时间变动特性rf0_t ¹可通过如下式求出。

【数学式2】

{rf 0}_{t}^{I = 1} = \frac{Σ_{j = t - d}^{j = t + d} ({f 0}_{j} - {rf 0}_{t}^{I = 0}) j}{Σ_{j = t - d}^{j = t + d} j^{2}} . . . (3)

{rf 0}_{t}^{I = 0} = \frac{1}{2 d - 1} Σ_{j = t - d}^{j = t + d} {f 0}_{j} . . . (4)

图3表示从声音信号数据对每个帧求出的基本频率f0的序列。作为I＝0的时间变动特性rf0_t ^I＝0的式(4)表示在区间(t-d)～(t+d)中的基本频率f0的平均，作为I＝1的时间变动特性rf0_t ^I＝1的式(3)表示根据在图3中示意性地表示的区间(t-d)～(t+d)中的f0通过最小平方法所求出的近似直线3A的斜率。这里，d是用于计算时间变动特性的时刻t前后的子帧的数，对应于t的附近。例如设为d＝2。在求出某一帧的回归系数时，也可以利用未必收敛到该帧内的范围的子帧进行计算。对于rp_t ¹也可以同样计算。

以下，说明例如仅将在I＝1的情况下求出的rf0_t ¹、rp_t ¹分别作为基本频率的时间变动特性rf0、功率的时间变动特性rp来处理的情况。

说明对每个分析帧计算声音特征量的方法的一例。将一个分析帧的长度(以下，称为帧长度)设为100msec，并设为下一个帧相对于当前帧通过50msec的时间偏移而形成。实际上，从声音信号数据对如图3所示那样相比分析帧长度非常短的例如10msec间隔的每个子帧提取作为声音特征量的基本频率以及功率，并计算在各个分析帧中的这些子帧的声音特征量的平均值即平均基本频率f0′、基本频率的平均时间变动特性rf0′、平均功率p′、功率的平均时间变动特性rp′、动态尺度的平均峰值间隔平均值rm′。或者，不仅是这些平均值，可以计算帧内的各个声音特征量的最大值、最小值或者变动幅度等来使用。以下，说明仅使用了平均值的情况。

优选预先对各个声音特征量进行归一化。归一化是，例如可以通过对各个帧的f0′例如减去涉及成为处理对象的声音信号数据整体的平均基本频率，或者用平均基本频率相除来进行，也可以是进行标准归一化从而设为平均0分散1。对于其他的声音特征量，考虑到同样地进行。此外，必要时进行平滑化处理。

在情感状态的判定时，需要捕捉声音特征量的时间变化。在本实施方式中，对每个帧使用包括该帧的一个以上的规定数的帧的声音特征量来构成声音特征量矢量，从而实现声音特征量的时间变化的捕捉。另外，将提取该声音特征量矢量的区间称为声音特征量矢量提取区间(例如，在图4中的用符号W所表示的区间)。

以下，基于图4说明该声音特征量的时间变化的捕捉方法的一例。

对当前帧F，将该帧号码设为j，并表示为F_j。将在F_j中包含的声音特征量分别设为平均基本频率f0′_j、基本频率的平均时间变动特性rf0′_j、平均功率p′_j、功率的平均时间变动特性rp′_j、动态尺度的平均峰值间隔平均值rm′_j。

基于以上求出的声音特征量的声音特征量矢量的构成方法，考虑到例如通过将在声音特征量矢量提取区间中包含的每个帧的声音特征量埋入延迟坐标空间来构成的方法。即，通过将在从当前帧F_t到S帧量过去的帧F_t-s为止所包含的期望的声音特征量表述为矢量来构成。

例如在平均基本频率的情况下，在图4所示的例子中，通过从帧F_t、F_t-1、......F_t-s的各个声音特征量所取得的平均基本频率f0′_t、f0′_t-1、......、f0′_t-s，求出由f0^v＝{f0′_t，f0′_t-1，......，f0′_t-s}^T所表示的平均基本频率的声音特征量矢量f0^v。

或者，还考虑对每个声音特征量计算当前帧F_t与从其过去S帧量的帧F_t-s为止的帧之间的差分量，并将其表述为矢量来构成的方法。作为帧之间的差分，例如求出当前帧F_t与从其之前过去S帧的帧F_t-s为止的各个帧F_t-1、......、F_t-s之间的声音特征量的差分。

这里，若将上述S的值例如设为S＝5，则在上述的分析帧长度为100msec，且相邻帧偏移50msec的情况下，声音特征量矢量提取区间W的长度例如成为350msec。同样地，构成基本频率的平均时间变动特性的声音特征量矢量rf0^v、平均功率的声音特征量矢量p^v、功率的平均时间变动特性的声音特征量矢量rp^v、动态尺度的平均时间变动特性的声音特征量矢量rm^v。

预先，设为将排列了决定用于判定情感状态的全部声音特征量矢量的矢量表述为x。例如在使用所提取的全部声音特征量的情况下，成为x＝{f0^vT，rf0^vT，p^vT，rp^vT，rm^vT}^T。或者，在使用基本频率的时间变动特性rf0、功率的时间变动特性rp、动态尺度的峰值间隔平均值rm的情况下，成为x＝{rf0^vT，rp^vT，rm^vT}^T。另外，在上述中例如矢量f0^v被规定为是列矢量，所以表示其转置的矢量f0^vT规定行矢量。

在本实施方式中，若使用所述声音特征量中的一个以上，则能够判定情感状态。其中，在情感状态中特征性地显现的说话中，难以提取基本频率f0其本身的情况较多，经常存在缺损的情况。因此，优选包括能够容易地得到补充那样的缺损的效果的、基本频率的时间变动特性rf0。进而，为了将说话人依赖性较低地抑制的同时提高判定精度，优选还包括功率的时间变动特性rp。

如上所述，将涉及全部内容对每个帧进行声音特征量、声音特征量矢量的计算处理，从而能够对所有帧得到声音特征量矢量。

以上是步骤S120的详细处理。

接着，步骤S130是使用在步骤S120中提取的各个帧的声音特征量矢量和在步骤S110中预先构成的第1统计模型来计算在各个情感状态中的声音特征量矢量的出现概率(声音特征量出现概率)。

以下，说明在步骤S130中执行的处理的一例。

说明基于在步骤S110中生成的第1统计模型来计算声音特征量矢量的出现概率的方法的一例。

由于第1统计模型是，对每个帧赋予的声音特征量矢量x_t在空间上的附条件概率分布p^A(x_t|E_t)，所以对输入的声音特征量矢量x_t基于通过步骤S110而预先生成的第1统计模型p^A(x_t|E_t)，对每个帧全部计算对于E_t的可取的各个值的x_t的似然度。并将该计算的似然度看作在各个情感状态序列E_t中x_t出现的声音特征量出现概率。

通过将以上的处理涉及内容(输入声音信号数据)的全部帧进行，从而能够对全部的帧计算声音特征量出现概率。

以上是步骤S130的详细处理。

接着，在步骤S140中，使用第2统计模型，依赖于追溯了判定情感状态的帧(当前帧)之前的一个以上的帧的情感状态，计算在当前帧中变化为各个情感状态的变化概率(即，情感状态变化概率)。

以下，说明用于执行步骤S140的处理的一例。

首先，说明基于在步骤S110中生成的第2统计模型，计算情感状态变化概率的方法的一例。

由于第2统计模型是在情感状态E_t在空间上的附条件概率分布p^B(E_t|E_t-1)，所以对E_t-1的所有可取值全部计算p^B(E_t|E_t-1)的值。将该计算的值设为情感状态变化概率。

通过涉及所有的帧进行以上的处理，从而能够对所有的帧计算情感状态变化概率。

以上是步骤S140的详细处理。

接着，在步骤S150中，基于在步骤S130以及步骤S140中计算的声音特征量出现概率以及情感状态变化概率，计算情感状态概率。

以下，说明在步骤S150中进行的计算情感状态概率的处理的一例。

所述两个统计模型p^A(x_t|E_t)和p^B(E_t|E_t-1)的组具有合起来被称为广义状态空间模型的结构，与常用于声音识别等的Left-to-Right型的HMM(HiddenMarkov Models)等具有相同的因果结构(例如，在图5中的符号S_t1所表示的情感状态E_t-1、E_t以及S_t2所表示的声音特征量x_t-1、x_t)。

在广义状态空间模型中，得到了时刻t为止的声音特征量矢量的序列{x_t}的情况下，在时刻t的情感状态序列E_t的概率p(E_t|{x_t})可基于p^A(x_t|E_t)和p^B(E_t|E_t-1)，递归性地计算以下式来求出(例如，参照非专利文献5)。

【数学式3】

p (E_{t} | {x_{t - 1}}) = \underset{E_{t - 1} &Element; SE}{Σ} p^{B} (E_{t} | E_{t - 1}) p (E_{t - 1} | {x_{t - 1}}) . . . (5)

p (E_{t} | {x_{t}}) = \frac{p^{A} (x_{t} | E_{t}) p (E_{t} | {x_{t - 1}})}{\underset{E_{t} &Element; SE}{Σ} p^{A} (x_{t} | E_{t}) p (E_{t} | {x_{t - 1}})} . . . (6)

其中，SE表示E_t可取的所有值的集合。

一般在广义状态空间模型中，SE的值取非常大的值，所以难以直接计算所述式(5)、(6)而求出p(E_t|{x_t})的值。

在本实施方式中，E_t可取的所有值被限定为要处理的情感状态，例如“高兴”、“悲伤”、“可怕”、“激动”、“帅气”、“可爱”、“兴奋”、“热情”、“浪漫”、“暴力”、“平稳”、“治好”、“暖和”、“寒冷”、“令人害怕”等情感，或者“笑”、“哭”、“呼喊”、“叫苦”、“窃窃私语”等的情感流露等，若将该数设为|E|，则在考虑了E_t＝{e_t，e_t-1，......，e_t-n+1}中的可能的全部组合时，SE的大小为|E|ⁿ。

例如，在本实施方式中，估计的要处理的情感状态的数|E|是在上述的例子的情况下，大概为10的几倍左右。此时，例如设为n＝3，则SE的大小阶次(order)地成为10³左右，是即使在当前所普及的通用的计算机，也能够充分地直接计算所述式(5)、(6)的规模。

因此，在本实施方式中，设为使用式(5)、(6)通过计算机直接计算概率p(E_t|{x_t})的值作为情感状态概率。在计算存在困难的情况下，例如采用在非专利文献5中记载的近似方法等即可。

此外，将从E_t的要素中除去e_t之后的数设为E′_t＝{e_t-1，......，e_t-n+1}，并且将E′_t可取的所有值的集合表示为SE′，则根据由式(6)所求出的p(E_t|{x_t})，可通过计算以下的式来求出每个帧的情感状态e_t的情感状态概率。

【数学式4】

p (e_{t} | {x_{t}}) = \underset{E_{t}^{'} &Element; {SE}^{'}}{Σ} p (e_{t}, E_{t}^{'} | {x_{t}}) . . . (7)

图6表示处理了高兴、悲伤、平静的情感状态的情况下的情感状态概率的例子。即，图6的符号L1所表示的曲线是高兴的情感状态概率，符号L2所表示的曲线是平静的情感状态概率，符号L3所表示的曲线是悲伤的情感状态概率。

为了求出情感状态E_t的概率而基于到时刻t为止的声音特征量矢量序列{x_t}来执行计算，所以上述的方法是可实时地执行处理的方法。另一方面，在不需要进行实时处理的情况下，为了实现更加强劲的检测，计算在得到了到时刻T＞t为止的声音特征量矢量序列{x_T}时的情感状态序列E_t的概率p(E_t|{x_T})，并将其设为情感状态概率即可。p(E_t|{x_T})是除了通过式(5)、(6)计算之外，还可以使用以下的式求出(例如，参照非专利文献5)。

【数学式5】

p (E_{t} | {x_{T}}) = p (E_{t} | {x_{t}}) \underset{E_{t + 1} &Element; {SE}^{'}}{Σ} \frac{p (E_{t + 1} | {x_{t}}) p^{B} (E_{t + 1} | E_{t})}{p (E_{t + 1} | {x_{t}})} . . . (8)

其中，SE是E_t+1可取的所有值的集合。此时的每个帧的情感状态e_t的情感状态概率可通过计算以下式求出。

【数学式6】

p (e_{t} | {x_{T}}) = \underset{E_{t}^{'} &Element; {SE}^{'}}{Σ} p (e_{t}, E_{t}^{'} | {x_{T}}) . . . (9)

通过涉及所有的帧进行以上的处理，从而能够对所有的帧计算情感状态概率。

以上是步骤S150的详细处理。

在步骤S160中，在步骤S150中计算的情感状态概率被情感判定部件所取得，基于情感状态概率判定情感状态。

以下，说明判定情感状态的步骤S160的处理的一例。另外，在以下的说明中，将要处理的情感状态的类型按照顺序附加e¹、e²、......、e^K的索引。例如，在处理高兴、生气、悲伤、害怕、惊吓、紧张、平静的情感状态的情况下，设为e¹：高兴、e²：生气、e³：悲伤、e⁴：害怕、e⁵：惊吓、e⁶：紧张、e⁷：平静等即可，此时，K＝7。

在步骤S150，由于对k＝1，......，K分别计算在帧号码t的帧F_t中的情感状态为e^k的情感状态概率

p_{t}^{k} = p (e_{t} = e^{k} | {x_{t}}),

所以能够使用它最单纯地将与该概率p_t ^k最高的e^k对应的情感状态判定为在F_t中的情感状态。或者，也可以将取p_t ^k高值的e^k按降序选择一个以上，具有这些情感状态作为判定结果。

此外，根据情感状态，有在同一时刻容易相互想起的状态和难以相互想起的状态。例如，可容易想象高兴和悲伤难以同时想起。考虑到这样的现象，可以从与某一情感状态e^k对应的情感状态概率p_t ^k减去作为与其他的情感状态{e¹，e²，......，e^k-1，e^k+1，......，e^K}对应的情感状态概率{p_t ¹，p_t ²，......，p_t ^k-1，p_t ^k+1，......，p_t ^K}的凸组合的以下式，即

【数学式7】

λ^{1} p_{t}^{1} + λ^{2} p_{t}^{2} + . . . . . . + λ^{k - 1} p_{t}^{k - 1} + λ^{k + 1} p_{t}^{k + 1} + . . . . . . + λ^{K} p_{t}^{K} . . . (10)

λ^l≥0，

\underset{l = 1,2, . . ., k - 1, k + 1, . . ., K}{Σ} λ^{l} = 1

并将归一化的概率设为新的p_t ^k之后，将它与各个情感状态之间进行比较。

此外，也可以简单地预先决定某一阈值，将与比它值大的p_t ^k对应的情感状态e^k判定为其帧F_t的情感状态。

通过涉及全部的帧进行以上的处理，从而能够对每个帧判定情感状态。

以上是步骤S160的详细处理。

通过以上的步骤S110～S160，能够对包括任意的声音信号数据的内容，对每个帧判定情感状态。

然后，在步骤S170中，基于在步骤S150中计算的情感状态概率和在步骤S160中判定的情感状态，生成并输出概要内容。

以下，说明生成概要内容的处理的一例。

根据本发明的原理，由于对每个帧提供情感状态概率和情感状态，所以作为最小单位可进行帧单位的概要提示，但被概括的内容优选是对视听者而言能够理解含义的内容。因此，在本实施方式中，将连续的一个以上的帧集中作为一个区间来进行处理。以下，将该区间称为声音小段落。

这里，说明生成声音小段落的方法的一例。

首先，从内容声音信号数据中提取认为是说话区间的区间。作为提取这样的区间的方法的一例，有以下方法，即利用在声音波形中的说话区间的周期性，将声音信号数据的自相关函数高的区间看作说话区间，并将该区间提取的方法。

具体地说，例如对每个帧将自相关函数值与某一规定阈值进行比较，若比阈值大，则判定为说话帧，若比阈值小，则判定为非说话帧。将表示比阈值还高的自相关函数值的一系列的说话帧的区间判定为说话区间，将不是那样的区间判定为非说话区间。该阈值的提供方法可以是预先作为常数例如0.7来提供，也可以是如下决定阈值，即在计算出要概括的全部内容的自相关函数值之后，将一般情况下的说话时间(或者有声时间)和非说话时间(或者无声时间)的比例作为基准，从而成为接近该基准的说话时间比例。

在本实施方式中，作为提取说话区间的其他方法，也可以将包含在声音特征量矢量的基本频率收敛在规定频率范围(例如50～350Hz)内的一系列的帧判定为说话区间。

通过以上的处理，能够从内容中以帧单位分离说话区间和非说话区间。

接着，将在提取的说话区间中认为是连续的说话的一系列的说话区间的集合集中作为一个声音小段落。说明生成这样的声音小段落的方法的一例。

将内容中的说话区间F′的集合从时间早的顺序设为{F′₁，F′₂，......，F′_N}。其中，N是说话区间的总数。

接着，对于在时间轴上相邻的说话区间F′_i、F′_i+1的时间间隔，即说话区间F′_i的结束时刻t_iend和下一个说话区间F′_i+1的开始时刻t_i+1start，计算其时刻的差t_i+1start-t_iend。

接着，若将该计算结果与预先决定的某一阈值相比较的结果为小，则考虑F′_i、F′_i+1为连续的说话区间，设为属于相同的声音小段落。然后，通过将其对所有的说话区间重复，从而能够将考虑为连续说话的一系列的说话区间集中到声音小段落中。

此外，作为生成声音小段落的方法的其他例子，考虑如下的方法。

首先，涉及要概括的全部内容对每个说话区间求出开始时刻、结束时刻，并将这些统一看作二维的矢量。

然后，对该矢量适用从下向上分组(bottom up clustering)法，使得要概括的全部内容的说话时间和非说话时间的比成为与一般情况的说话时间和非说话时间的比例相同程度，从而生成声音小段落。例如，设为一般情况的说话时间和非说话时间的比例为6∶4。此时，可如下所示那样构成声音小段落。

首先，将排列了说话区间F′_i的开始时刻t_istart和结束时刻t_iend的矢量设为t_i。此时，内容中的全部说话时间可由t_istart-t_iend的总和定义，非说话时间可作为从全部内容的长度减去全部说话时间的时间来定义。对各个矢量t_t计算与矢量t_i+1或者t_i-1之间的范数(norm)。例如为二次的范数|t_i-t_i-1|²，则通过(t_istart-t_i-1start)²+(t_iend-t_i-1end)²计算该范数。通过对该范数设置阈值，将阈值以下的说话区间之间连接，从而定义新的说话区间F′_i，重新计算其开始时刻t_istart和结束时刻t_iend。这样，在时间上接近的说话区间依次被集中到一系列的说话区间、即声音小段落中，说话时间增加。以下，将其对于范数的阈值阶段性地提高，重复到说话区间和非说话区间的时间比例成为最接近6∶4的比例为止即可。

该方法与预先决定阈值的方法不同，可吸收内容之间的说话速度之差，自适应地构成声音小段落。

作为其他方法的一例，有不基于声音的连续说话、不说话，而基于声音的周期性来构成声音小段落的方法。该周期性可以是与上述的例子相同地，使用自相关函数的值来判断，也可以通过频谱来判断。

在使用自相关数值的情况下，可以设置分类基准，基于此来构成声音小段落。例如如下设置分类基准，即若自相关函数值为0.3以下，则周期性低，若比0.3大且0.7以下，则周期性稍高，若比0.7大，则周期性高等，从而基于此来构成声音小段落。例如，在相邻区间的自相关函数值从这三个区域中的一个变化为另一个的情况下，将其相邻区间之间判定为声音小段落的边界。或者，也可以不设置明确的分类基准，而将自相关函数值比某一定值大地变化的相邻区间之间作为声音小段落的边界来构成声音小段落。

在使用频谱的情况下，也与使用自相关函数值的情况相同地，设置分类基准或者对变化的大小设置基准，从而构成声音小段落。在设置分类基准的情况下，例如根据0～500Hz的频谱的平均功率为一定值以上/以下，500Hz～1kHz的频谱的平均功率为一定值以上/以下等，设置多样的分类基准，在某一区间的对应的分类基准从其之前区间的对应的分类基准变化的情况下，将这两个区间之间判定为声音小段落的边界。此外，在预先决定着眼的频带(例如，0～500Hz)，在相邻区间其频带的频谱的平均功率比某一定值大地变化的情况下(例如，在平均功率差分或者平均功率比成为规定值以上的情况下)，也可以将相邻区间之间作为声音小段落的边界来构成声音小段落。

通过以上的处理，能够从内容以帧单位提取声音小段落。

通过以上的处理，能够将全部帧集中到若干个声音小段落中。

接着，计算在构成的声音小段落单位中的情感状态的情感度。以下，基于图7说明计算该情感度的方法的一例。

将内容中的声音小段落S的集合从时间早的顺序设为{S₁，S₂，......，S_NS}。例如在图7中，表示声音小段落S_i-1、S_i、S_i+1。NS是声音小段落的总数。此外，将在某一声音小段落S_i中包含的一系列的帧表示为{f₁，f₂，......，f_NFi}。NFi是在声音小段落S_i中包含的帧数。

各个帧f_t是通过情感状态概率计算部件，情感状态概率p(e_t|{x_t})通过式(7)或者(9)所提供。声音小段落S_i的情感状态e为e^k的情感度p_Si(e＝e^k)是，例如考虑通过表示平均值的如下式来计算。

【数学式8】

p_{Si} (e = e^{k}) = \frac{1}{NFi} Σ_{t = 1}^{NFi} p (e_{t} = e^{k} | {x_{t}}) . . . (11)

或者，例如可通过表示最大值的下式来计算。

【数学式9】

p_{Si} (e = e^{k}) = \max_{t = 1,2, . . ., NFi} p (e_{t} = e^{k} | {x_{t}}) . . . (12)

除了这些之外，例如在声音小段落内进行遮蔽(窓掛け)之后计算情感度等，考虑各种方法，但由于存在在声音小段落之间比较情感度的情况，所以优选情感度在某一定值的范围内例如在0～1之间收敛。

另外，在图7中表示了对于各个声音小段落S_i内的一系列的帧，对于各个情感状态e¹，e²，......，e^K所决定的情感度p_Si(e＝e¹)、p_Si(e＝e²)、......、p_Si(e＝e^K)。

可对所有的声音小段落进行以上的计算，对所有的声音小段落计算全部情感状态的情感度。

接着，说明在图1中的步骤S170的概要内容生成。

概要内容是通过从内容中依次提取声音段落而生成，所述声音段落是由包括情感度高的声音小段落的一系列的声音小段落而构成的目标时间长以内的段落。声音段落的目标时间例如设定为5sec(秒)或者10sec左右，集中声音小段落以使接近它。

使用图8说明这个处理方法。在从内容中提取的全部声音小段落中，在从最后追溯的方向的目标时间内或者从最初前进的方向的目标时间内，将赋予最高的情感度(可以是任何情感状态)的声音小段落设为S_i。将该声音小段落S_i为起点，达到目标时间为止，集中为将时刻以i-1、i-2、......追溯的方向，或者集中为从起点将时刻以i+1、i+2、......前进的方向。或者，也可以在两个方向上交互地集中。这样决定一个声音段落，则将在下一个目标时间内的最高情感度的声音小段落作为基点通过相同的处理来决定声音段落。通过涉及全部内容执行这样的处理，从而能够生成一系列的声音段落。

例如，在集中为追溯时刻的方向的情况下，如图8所示那样，在概要内容中，情感状态较强地表示的声音小段落S_i配置在声音段落VC的最后。若视听这个声音段落VC，则在比最后的声音小段落S_i在先的声音小段落S_i-1、S_i-2、......中，成为情感状态变强的原因的情况所表示的可能性高。因此，具有可设为反映了表示情感状态的原因和结果的概要内容的优点。

另一方面，在集中为将时刻前进的情况下，在概要内容中，情感状态较强地表示的声音小段落S_i配置在声音段落的最初。若视听这个声音段落，则成为可最初视听表示印象深刻的情感状态的区间的概要内容，具有成为更加印象深刻的概要内容的优点。

或者，在相邻声音小段落之间的时间长度为某一定的阈值以下的情况下，也可以通过集中这些来构成声音段落。

图9表示如上那样决定的一系列的声音段落VC1、VC2、VC3，表示VC1由三个声音小段落S₁₁、S₁₂、S₁₃构成，VC2由四个声音小段落S₁₄、S₁₅、S₁₆、S₁₇构成，VC3由三个声音小段落S₁₈、S₁₉、S₂₀构成的例子。

由于情感度是以声音小段落为单位提供，所以各个声音段落仅具有(声音小段落的数)×(情感状态数)的情感度。在图9中用×标记表示对各个声音段落内的各个声音小段落S_i所求出的情感度p_Si(e＝e¹)、p_Si(e＝e²)、......、p_Si(e＝e^K)，并且用直线连接表示对于相同种类的情感状态e^k的情感度。

实际上，基于对于各个情感状态e^k的情感度，计算各个声音段落内的累积情感度。作为这个计算方法，例如涉及声音段落将各个声音小段落的情感度的平均或者加权平均或者最大值进行累积加算，从而求出声音段落的累积情感度。或者，也可以将累积加算结果用其声音段落的声音小段落除算所得的平均值作为累积情感度。

概要内容也可以通过如下生成，即累积情感度(在各个声音段落中得到与情感状态数K个相同数的累积情感度)从最大的声音段落按降序地排列，并从上层开始依次提取声音段落使得将作为与全部内容的比的压缩率接近某一定的目标值。

另外，该目标值也可以是视听者输入所期望的值。此外，也可以是视听者输入对于期望的情感状态的累积情感度的期望的基准值，优先地提取与其基准值匹配的声音段落来生成概要。

此外，基于图10说明判定内容是否包含处于视听者所期望的情感状态的部分的方法的一例。

首先，在步骤S181中，对于对每个声音段落所赋予的各个情感状态e^k(k＝1，......，K)的累积情感度，例如计算贯通全部内容的平均、加权平均、最大值等，并基于其计算结果分别计算对于各个情感状态e^k的全部内容的情感度(之后，称为内容情感度，并由PC^k表示)。可根据该K个内容情感度PC^k(k＝1，......，K)，提供其内容将什么样的情感状态包含多少程度的指标。

接着，在步骤S182中，视听者作为条件输入期望的情感状态e^k和其情感状态中的期望的内容情感度RPC^k。

接着，在步骤S183中，将对内容赋予的内容情感度PC^k和输入条件RPC^k进行比较参照，进行内容是否为包含视听者期望的情感状态e^k的内容的判定。

该判定方法是，例如考虑到若作为条件所指定的情感状态e^k的内容情感度RPC^k、以及对内容赋予的对应的情感状态e^k的内容情感度PC^k之间的差的绝对值|RPC^k-PC^k|比预先决定的阈值小，则该内容被判定为满足条件的内容。或者，也可以是若PC^k＞RPC^k，则判定为满足条件的内容。

然后，在步骤S184中，若是视听者所期望的内容，则生成概要内容，并与判定结果一同提示。

通过以上的处理，可判定内容是否包含处于视听者所期望的情感状态的部分。

以上是对于在步骤S170中的概要内容生成处理的细节。

以上，详细地说明了在本实施方式中的情感检测方法。

另外，当然可以由计算机的程序构成在本实施方式的情感检测方法中的各个部件的一部分或者全部功能，使用计算机执行该程序来实现本发明，也可以由计算机的程序构成在本实施方式的情感检测方法中的步骤，使计算机执行该程序。

图11是表示本发明的情感检测装置的功能结构的方框图。在图11中，情感检测装置800包括：声音特征量提取单元820、声音特征量出现概率计算单元830、情感状态变化概率计算单元840、情感状态概率计算单元850、情感状态判定单元860、以及内容概要单元870。

此外，声音特征量出现概率计算单元830包括第1统计模型810A，情感状态变化概率计算单元840包括第2统计模型810B。

第1以及第2统计模型810A、810B是将声音特征量出现概率分布p^A(x_t|E_t)和情感状态变化概率分布p^B(E_t|E_t-1)分别进行模型化的模型，所述声音特征量出现概率分布p^A(x_t|E_t)和情感状态变化概率分布p^B(E_t|E_t-1)是基于在学习用声音信号数据中包含的声音特征量以及根据该声音所估计的情感状态，通过以往的方法进行学习而构筑。

声音特征量提取单元820对每个帧提取在输入的内容声音信号数据中包含的声音特征量矢量。

声音特征量出现概率计算单元830基于第1统计模型810A计算所提取的声音特征量矢量在情感状态中出现的概率p(x_t|E_t)。

情感状态变化概率计算单元840基于第2统计模型810B计算情感状态的时间变化概率p(E_t|E_t-1)。

情感状态概率计算单元850基于声音特征量出现概率计算单元830所计算的出现概率p(x_t|E_t)和情感状态变化概率计算单元840所计算的变化概率p(E_t|E_t-1)，使用式(5)、(6)计算情感状态概率p(E_t|{x_t})。

情感状态判定单元860基于情感状态概率计算单元850所计算的情感状态概率p(E_t|{x_t})，判定输入声音信号数据的各个帧的情感状态e^k(k＝1，......，K)。

内容概要单元870是根据需要而设置在情感检测装置800的单元，其基于所判定的情感状态、情感状态概率、连续说话时间以及连续非说话时间中的一个以上，检测处于情感状态的区间，并基于此来生成内容的概要。

基于图12说明实施在图11所示的情感检测装置800的功能结构的计算机的具体装置结构例子。

包含从外部对图12中的输入单元210作为数字信号所输入的声音信号数据的内容，通过作为控制单元的CPU(Central Processing Unit)221的控制，被暂时存储在硬盘装置222中。

在输入单元210中，例如连接了鼠标等的指示设备212和键盘211等。

另外，内容可以是通过通信网络接收的内容，也可以是从CD(CompactDisk)、DVD(Digital Versatile Disk)等使用光盘驱动装置213读出的内容。

显示单元230例如具有液晶画面等的监视画面，可根据键盘211或者指示设备212的操作而显示从CPU 221输出的信息。在显示单元230的监视画面中，根据需要显示输入数据、处理经过、处理结果、概要、内容以及其他信息。此外，设为声音也可以再现。

通过图12中的CPU 22执行并实现记述了在图11所示的情感检测装置800中的声音特征量提取单元820、声音特征量出现概率计算单元830、情感状态变化概率计算单元840、情感状态概率计算单元850、情感状态判定单元860以及内容概要单元870的处理功能的程序。另外，该程序例如是存储在硬盘装置222的程序，在执行时必要的程序以及数据被读入到RAM(RandomAccess Memory)224中。该被读入的程序通过CPU 221执行。

在硬盘装置222中，除此之外还存储有第1统计模型810A和第2统计模型810B，此外，存储所输入的内容。ROM(Read Only Memory)223存储用于起动计算机的基本程序、其他程序以及用于控制的参数等。

输出单元240作为附加功能具有如下的功能，即提取通过CPU 221的程序执行所输入的内容中的声音信号数据中的情感状态的部分，并输出基于此所生成的概要内容。此外，输出单元240也可以包括将所述生成的概要内容记录在CD、DVD等的功能。输出单元240也可以是具有通信功能，可对外部发送数据的单元。输出单元240也可以提取对应于声音信号数据的区间的视频信号数据，并根据需要作为概要内容与声音一同输出。

如上所述，在本实施方式中，作为声音特征量而包括基本频率的时间变动特性的序列，从而即使在存在基本频率的缺损的情况下，也能够得到补充其缺损的效果，可进行更加稳定的判定。这是应对在情感状态的说话中经常不能提取基本频率的以往技术问题。此外，要保存的仅是表示第1以及第2统计模型的函数方式的符号以及其参数的符号即可，可减少使用的存储器以及计算时间成本。

以下，表示通过本实施方式判定期望的情感状态以及进行概要内容生成的实施例。

【第1实施例】

第1实施例是处理“赋有情感”还是“没有情感”的两种情感状态，并分别进行判定的实施例。以下说明第1实施例。

在第1实施例中，对学习用声音信号数据中的被判定为“赋有情感”的区间附加“情感”的标记，在除此之外的区间，对被判定为“没有情感”的区间附加“非情感”的标记。

在该学习用声音信号数据中，将在进行了附加标记的区间中所包含的帧全部提取，并分别对帧赋予对所提取的区间进行的标记相同的标记。这样，能够得到以帧单位附加了标记的学习用声音信号数据。

基于该学习用声音信号数据，构筑用于计算声音特征量出现概率的第1统计模型p^A(x_t|E_t)(例如，图11中的具体的第1统计模型810A)以及用于计算情感状态变化概率的第2统计模型p^B(E_t|E_t-1)(例如，图11中的具体的第2 统计模型810B)并将其存储。

在第1实施例中的情感状态判定的步骤如下所述。

首先，从输入的内容取得声音信号数据，并按帧单位分割(步骤1)。接着，对每个帧提取声音特征量矢量(步骤2)。然后，使用预先构筑的第1统计模型，对每个帧计算“赋有情感”的概率和“没有情感”的概率后，与“没有情感”的概率相比较，从而将“赋有情感”的概率高的帧判定为“赋有情感”的帧(步骤3)。

【第2实施例】

第2实施例是，使用在所述第1实施例中计算的每个帧的“赋有情感”的情感状态概率以及“没有情感”的情感状态概率来生成声音段落，并生成内容的概要的实施例。

在第2实施例中也进行与第1实施例的步骤1～步骤3相同的处理步骤。接着第3步骤，利用自相关函数值来提取说话帧之后，对全部帧适用从下向上分组(bottom up clustering)法使得声音段落区间和除此之外的区间的比接近某一定的目标值，从而生成声音段落(步骤4)。

接着，对步骤4所生成的各个声音段落，计算“赋有情感”的累积情感度和“没有情感”的累积情感度(步骤5)。然后，选择以下的任一提示方法，生成概要内容，并进行提示(步骤6)。

作为第1提示方法，视听者输入概要时间，对声音段落从“赋有情感”的累积情感度高开始按降序提取最接近所输入的概要时间的时间量，并将其结合而生成概要内容后进行提示。

作为第2提示方法，对声音段落从“赋有情感”的累积情感度高者开始按降序提取最接近预先决定的概要时间的时间量，并将其结合而生成概要内容后进行提示。

作为第3提示方法，视听者输入阈值或者预先决定阈值，提取具有比该阈值高的“赋有情感”的累积情感度，并将其结合而生成概要内容后进行提示。

[第3实施例]

第3实施例是，作为情感状态而处理若干个具体状态(即，高兴、生气、悲伤、害怕、惊吓、紧张、平静等的多个情感状态)，并分别进行判定的实施例。

与第1实施例相同地，对学习用声音信号数据中的、认为是处于各个情感状态的区间赋予对应的标记。

从该学习用声音信号数据提取在进行了附加标记的区间中包含的全部帧，并分别对帧赋予对所提取的区间进行的标记相同的标记。这样，能够得到以帧单位附加了标记的学习用声音信号数据。基于该学习用声音信号数据，构筑用于计算声音特征量出现概率的第1统计模型和用于计算情感状态变化概率的第2统计模型并将其存储。

在第3实施例中的情感状态判定的步骤如下所述。

首先，从输入的内容中取得声音信号数据，并按帧单位分割(步骤1)。接着，对每个帧提取声音特征量矢量(步骤2)。然后，使用预先构筑的第1以及第2统计模型，对每个帧计算各个情感状态概率，并将情感状态概率最高的情感状态判定为在其帧中的情感状态(步骤3)。

【第4实施例】

第4实施例是，使用在所述第3实施例中计算的每个帧的各个情感状态概率来生成声音段落，并生成内容的概要的实施例。

在第4实施例中的步骤1～步骤3是与第3实施例的情况相同的步骤。其之后成为如下的步骤。

接着步骤3，利用自相关函数值来提取说话帧之后，对全部帧适用从下向上分组(bottom up clustering)法使得声音段落区间和除此之外的区间的比接近某一定的目标值，从而生成声音段落(步骤4)。

接着，对步骤4所生成的各个声音段落，计算各个情感状态的累积情感度(步骤5)。然后，选择以下的任一方法，生成概要内容，并进行提示(步骤6)。

作为第1提示方法，视听者输入期望的情感状态以及概要时间，对声音段落从输入的情感状态的累积情感度高者开始按降序提取最接近所输入的概要时间的时间量，并将其结合而生成概要内容后进行提示。

作为第2提示方法，视听者输入期望的情感状态，对声音段落从输入的情感状态的累积情感度高者开始按降序提取最接近预先决定的概要时间的时间量，并将其结合而生成概要内容后进行提示。

作为第3提示方法，基于视听者输入的情感状态以及视听者输入或者预先决定的阈值，对输入的情感状态提取具有比该阈值高的累积情感度的声音段落，并将其结合而生成概要内容后进行提示。

【第5实施例】

第5实施例是，使用在所述第3实施例中计算的每个帧的各个情感状态概率以及所判定的情感状态，进行内容是否包含视听者所指定的情感状态的判定的实施例。

在第5实施例中的步骤1～步骤5是与第4实施例的情况相同的步骤。其之后成为如下的步骤。

接着步骤5，选择以下的任一判定方法，进行内容的判定。

作为第1判定方法，视听者输入期望的情感状态以及内容情感度的阈值，在输入的情感状态的内容情感度比输入的阈值还高的情况下，判定为包括其情感状态，并输出结果。

作为第2判定方法，视听者输入期望的情感状态，在输入的情感状态的内容情感度比预先决定的阈值还高的情况下，判定为包括其情感状态，并输出结果。

此外，在第5实施例中，也可以与所述第4实施例的步骤6相同地，对所判定的内容生成概要，进行提示。

以上，说明了本发明的实施方式，但本发明并不限定于说明的实施方式，在各个权利要求所记载的范围内可进行各种变形。

例如，也可以生成包含所生成的概要内容的XML(eXtensible MarkupLanguage)数据。若是通用的XML数据，就能够提高概要内容的利用性。

Claims

1.一种情感检测方法，基于所输入的声音信号数据的声音特征量，进行情感检测处理，所述情感检测方法包括：

声音特征量提取步骤，从所述声音信号数据对每个分析帧提取基本频率、基本频率的时间变动特性序列、功率、功率的时间变动特性序列、说话速度的时间变动特性中的一个以上作为声音特征量矢量，并将该声音特征量矢量存储到存储单元；

声音特征量出现概率计算处理步骤，从存储单元读取各个分析帧的所述声音特征量矢量，使用基于预先输入的学习用声音信号数据所构成的第1统计模型，将一个以上的情感状态序列作为条件，计算成为所述声音特征量矢量的声音特征量出现概率；

情感状态变化概率计算处理步骤，使用第2统计模型，计算一个以上的情感状态序列向时间方向的变化概率作为情感状态变化概率；

情感状态概率计算处理步骤，基于所述声音特征量出现概率和所述情感状态变化概率，计算情感状态概率；以及

信息输出步骤，基于计算出的所述情感状态概率，输出有关包含一个以上分析帧的各个区间的情感状态的信息。

2.一种情感检测方法，基于所输入的声音信号数据的声音特征量，进行情感检测处理，所述情感检测方法包括：

声音特征量提取处理步骤，从所述声音信号数据对每个分析帧提取基本频率、基本频率的时间变动特性序列、功率、功率的时间变动特性序列、说话速度的时间变动特性中的一个以上作为声音特征量矢量，并将该声音特征量矢量存储到存储单元；

情感状态概率处理步骤，从存储单元读取各个分析帧的所述声音特征量矢量，使用由基于预先输入的学习用声音信号数据所构成的一个以上的统计模型，计算情感状态概率，所述情感状态概率将对于一个以上的情感状态序列的所述声音特征量矢量作为条件；

情感状态判定步骤，基于所述情感状态概率，判定包含所述分析帧的区间的情感状态；以及

输出与判定出的所述情感状态有关的信息的步骤。

3.如权利要求2所述的情感检测方法，其中，

所述情感状态概率处理步骤包括：

声音特征量出现概率计算处理步骤，使用所述一个以上的统计模型中的第1统计模型，将一个以上的情感状态序列作为条件，计算成为所述声音特征量矢量的声音特征量出现概率；

情感状态变化概率计算处理步骤，使用所述一个以上的统计模型中的第2统计模型，计算一个以上的情感状态序列向时间方向的变化概率作为情感状态变化概率；以及

基于所述声音特征量出现概率和所述情感状态变化概率，计算所述情感状态概率。

4.如权利要求1或3所述的情感检测方法，其中，

所述声音特征量出现概率计算处理步骤是，在包含一个以上的分析帧的区间中，基于所述第1统计模型计算所述声音特征量出现概率的步骤，所述第1统计模型作为附条件概率分布而构成，所述附条件概率分布表示在提供了所述情感状态序列时某个声音特征量矢量出现的概率。

5.如权利要求1或3所述的情感检测方法，其中，

所述情感状态变化概率计算处理步骤是，在包含一个以上的分析帧的区间中，基于所述第2统计模型计算所述情感状态变化概率的步骤，所述第2统计模型作为附条件概率分布而构成，所述附条件概率分布表示在提供了比该区间至少在一个分析帧以上之前区间的情感状态序列时当前分析帧中某个情感状态序列出现的概率。

6.如权利要求2或3所述的情感检测方法，其中，

所述情感状态判定步骤包括：对各个所述情感状态计算一个所述情感状态的概率和所述一个之外的所述情感状态的概率的凸组合之差，并从该差最大者开始按降序选出一个以上的情感状态，将其选出的情感状态判定为包含所述分析帧的区间的情感状态的步骤。

7.如权利要求1或2所述的情感检测方法，还包括：

输入对每个分析帧提取了声音特征量矢量和附加了情感状态的标记的学习用声音信号数据的步骤。

8.一种情感检测装置，基于所输入的声音信号数据的声音特征量，进行情感检测处理，所述情感检测装置包括：

声音特征量提取部件，从所述声音信号数据对每个分析帧提取基本频率、基本频率的时间变动特性序列、功率、功率的时间变动特性序列、说话速度的时间变动特性中的一个以上作为声音特征量矢量，并将该声音特征量矢量存储到存储单元；

声音特征量出现概率计算处理部件，从存储单元读取各个分析帧的所述声音特征量矢量，使用基于预先输入的学习用声音数据所构成的第1统计模型，将一个以上的情感状态序列作为条件，计算成为所述声音特征量矢量的声音特征量出现概率；

情感状态变化概率计算处理部件，使用第2统计模型，计算一个以上的情感状态序列向时间方向的变化概率作为情感状态变化概率；

情感状态概率计算处理部件，基于所述声音特征量出现概率和所述情感状态变化概率，计算情感状态概率；以及

信息输出部件，基于计算出的所述情感状态概率，输出有关包含一个以上分析帧的各个区间的情感状态的信息。

9.一种情感检测装置，基于所输入的声音信号数据的声音特征量，进行情感检测处理，所述情感检测装置包括：

声音特征量提取处理部件，从所述声音信号数据对每个分析帧提取基本频率、基本频率的时间变动特性序列、功率、功率的时间变动特性序列、说话速度的时间变动特性中的一个以上作为声音特征量矢量，并将该声音特征量矢量存储到存储单元；

情感状态概率处理部件，从存储单元读取各个分析帧的所述声音特征量矢量，使用基于预先输入的学习用声音信号数据所构成的一个以上的统计模型，计算情感状态概率，所述情感状态概率将对于一个以上的情感状态序列的所述声音特征量矢量作为条件；

情感状态判定部件，基于所述情感状态概率，判定包含所述分析帧的区间的情感状态；以及

信息输出部件，输出与判定出的所述情感状态有关的信息。

10.如权利要求9所述的情感检测装置，其中，

所述情感状态概率处理部件包括：

声音特征量出现概率计算处理部件，作为所述一个以上的统计模型之一使用第1统计模型，将一个以上的情感状态序列作为条件，计算成为所述声音特征量矢量的声音特征量出现概率；

情感状态变化概率计算处理部件，作为所述一个以上的统计模型之一使用第2统计模型，计算一个以上的情感状态序列向时间方向的变化概率作为情感状态变化概率；以及

基于所述声音特征量出现概率和所述情感状态变化概率，计算所述情感状态概率的部件。

11.如权利要求8或10所述的情感检测装置，其中，

所述声音特征量出现概率计算处理部件是，在包含一个以上的分析帧的区间中，基于所述第1统计模型计算所述声音特征量出现概率的部件，所述第1统计模型作为附条件概率分布而构成，所述附条件概率分布表示在提供了所述情感状态序列时某个声音特征量矢量出现的概率。

12.如权利要求8或10所述的情感检测装置，其中，

所述情感状态变化概率计算处理部件是，在包含一个以上的分析帧的区间中，基于所述第2统计模型计算所述情感状态变化概率的部件，所述第2统计模型作为附条件概率分布而构成，所述附条件概率分布表示在提供了比该区间至少在一个分析帧以上之前区间的情感状态序列时当前分析帧中某个情感状态序列出现的概率。

13.如权利要求9或10所述的情感检测装置，其中，

所述情感状态判定部件包括：对各个所述情感状态计算一个所述情感状态的概率和所述一个之外的所述情感状态的概率的凸组合之差，并从该差最大者开始按降序选出一个以上的情感状态，将其选出的情感状态判定为包含所述分析帧的区间的情感状态的部件。

14.如权利要求8或9所述的情感检测装置，还包括：

输入对每个分析帧提取了声音特征量矢量和附加了情感状态的标记的学习用声音信号数据的部件。