CN106486134A

CN106486134A - 话语状态确定装置及方法

Info

Publication number: CN106486134A
Application number: CN201610709387.7A
Authority: CN
Inventors: 香村纱友梨; 外川太郎; 大谷猛
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-08-31
Filing date: 2016-08-23
Publication date: 2017-03-08
Anticipated expiration: 2036-08-23
Also published as: EP3136388A1; EP3136388B1; CN106486134B; JP2017049364A; US10096330B2; JP6565500B2; US20170061991A1

Abstract

本发明提供了一种话语状态确定装置及方法。该话语状态确定装置包括平均反馈语频率估计单元、反馈语频率计算单元以及确定单元。平均反馈语频率估计单元基于第一讲话者的语音信号和第二讲话者的语音信号来估计平均反馈语频率，该平均反馈语频率表示在从第二讲话者的语音信号的语音开始时间至预定时间的时间段中第二讲话者的反馈语频率。反馈语频率计算单元基于第一讲话者的语音信号和第二讲话者的语音信号来计算每单位时间中第二讲话者的反馈语频率。确定单元基于在平均反馈语频率估计单元中估计的平均反馈语频率和在反馈语频率计算单元中计算的反馈语频率来确定第二讲话者的满意度。

Description

话语状态确定装置及方法

技术领域

本文中论述的实施方式涉及一种话语状态确定装置。

背景技术

作为一种用于估计在语音呼叫中每个讲话者的情绪状态的技术，已知下述一种技术：通过使用讲话者的反馈语反馈的数量来确定讲话者(对方讲话者)是否处于生气状态(作为示例，参见专利文献1)。

作为一种用于检测在语音呼叫期间讲话者(对方讲话者)的情绪状态的技术，已知下述一种技术：通过使用反馈语话语的间隔等来检测讲话者是否处于兴奋状态(作为示例，参见专利文献2)。

此外，作为一种用于根据语音信号检测反馈语反馈的技术，已知下述一种技术：将语音信号的话语区间与反馈语反馈字典中登记的反馈语数据进行比较，并且将话语区间中的与反馈语数据匹配的区间检测作为反馈语区间(作为示例，参见专利文献3)。

此外，作为一种用于记录通过语音呼叫等在两个人之间进行的对话并且在对话结束之后再现所记录的对话(语音呼叫)的数据的技术，已知下述一种技术：根据讲话者的语速来改变再现速度(作为示例，参见专利文献4)。

此外，已知元音可以用作讲话者的语音的特征量(作为示例，参见非专利文献1)。

专利文献1：日本公开特许公报No.2010-175684

专利文献2：日本公开特许公报No.2007-286097

专利文献3：日本公开特许公报No.2013-225003

专利文献4：日本公开特许公报No.2013-200423

非专利文献1：“Onsei(voice)1”，[在线]，[于2015年8月29日搜索]，互联网<URL：http://media.sys.wakayama-u.ac.jp/kawahara-lab/LOCAL/diss/diss7/S3_6.htm>

发明内容

一方面，本发明的目的在于提高基于给出反馈语反馈的方式确定讲话者的情绪状态的准确度。

根据实施方式的一方面，话语状态确定装置包括平均反馈语频率估计单元、反馈语频率计算单元以及确定单元。

平均反馈语频率估计单元基于第一讲话者的语音信号和第二讲话者的语音信号来估计平均反馈语频率，该平均反馈语频率表示在从第二讲话者的语音信号的语音开始时间至预定时间的时间段中第二讲话者的反馈语频率。反馈语频率计算单元基于第一讲话者的语音信号和第二讲话者的语音信号来计算每单位时间中第二讲话者的反馈语频率。确定单元基于在平均反馈语频率估计单元中估计的平均反馈语频率和在反馈语频率计算单元中计算的反馈语频率来确定第二讲话者的满意度。

附图说明

图1是示出了根据实施方式1的语音呼叫系统的配置的图；

图2是示出了根据实施方式1的话语状态确定装置的功能配置的图；

图3是对话语状态确定装置中的语音信号的处理单位进行说明的图；

图4是提供了由根据实施方式1的话语状态确定装置执行的处理的细节的流程图；

图5是提供了根据实施方式1的平均反馈语频率估计处理的细节的流程图；

图6是示出了根据实施方式2的语音呼叫系统的配置的图；

图7是示出了根据实施方式2的话语状态确定装置的功能配置的图；

图8是提供了存储在存储单元中的语句的示例的图；

图9是提供了由根据实施方式2的话语状态确定装置执行的处理的细节的流程图；

图10是提供了根据实施方式2的平均反馈语频率估计处理的细节的流程图；

图11是示出了根据实施方式3的语音呼叫系统的配置的图；

图12是示出了根据实施方式3的服务器的功能配置的图；

图13是对话语状态确定装置中的语音信号的处理单位进行说明的图；

图14是提供了存储在存储单元中的语句的示例的图；

图15是示出了根据实施方式3的再现装置的功能配置的图；

图16是提供了由根据实施方式3的话语状态确定装置执行的处理的细节的流程图；

图17是提供了根据实施方式3的平均反馈语频率估计处理的细节的流程图；

图18是示出了根据实施方式4的记录装置的配置的图；

图19是示出了根据实施方式4的话语状态确定装置的功能配置的图；

图20是提供了反馈语强度确定信息的示例的图；

图21是提供了语速和平均反馈语频率的对应表的示例的图；

图22是提供了由根据实施方式4的话语状态确定装置执行的处理的细节的流程图；

图23是示出了根据实施方式5的记录系统的功能配置的图；

图24是示出了根据实施方式5的话语状态确定装置的功能配置的图；

图25是提供了平均反馈语频率的对应表的示例的图；

图26是提供了由根据实施方式5的话语状态确定装置执行的处理的细节的流程图；以及

图27是示出了计算机的硬件结构的图。

具体实施方式

将参照附图来对本发明的优选实施方式进行说明。

对讲话者是否处于生气状态或处于不满意状态的估计(确定)使用了讲话者的情绪状态与给出反馈语反馈的方式之间的关系。更具体地，与讲话者处于正常状态时相比，当讲话者生气或不满意时，反馈语反馈的次数较少。因此，可以作为示例基于反馈语反馈的次数和预先准备的特定阈值来确定对方讲话者的情绪状态。

然而，由于反馈语反馈的数量和间隔的个体变化，所以难以基于特定阈值确定讲话者的情绪状态。例如，在天生不太频繁地给出反馈语反馈的确定目标讲话者的情况下，虽然讲话者比处于其正常状态更频繁地给出反馈语反馈，但是反馈语反馈的次数仍可能少于阈值，在这种情况下，可能确定讲话者处于生气状态。在另一示例中，在天生频繁地给出反馈语反馈的讲话者的情况下，虽然讲话者处于生气状态并且反馈语反馈的次数少于其正常状态，却可能确定讲话者处于正常状态。在以下描述中，可以将反馈语反馈简称为“反馈语”。

<实施方式1>

图1是示出了根据实施方式1的语音呼叫系统的配置的图。如图1中所示，根据本实施方式的语音呼叫系统100包括第一话机2、第二话机3、互联网协议(IP)网络4以及显示装置6。

第一话机2包括麦克风201、语音呼叫处理器202、接收器(扬声器)203、显示单元204以及话语状态确定装置5。第一话机2的话语状态确定装置5与显示装置6连接。注意，第一话机2的数量并不限于仅一个，而是可以包括多个话机。

第二话机3是可以经由IP网络4与第一话机2连接的话机。第二话机3包括麦克风301、语音呼叫处理器302以及接收器(扬声器)303。

在该语音呼叫系统100中，使用第一话机2和第二话机3的语音呼叫通过经由IP网络4根据会话发起协议(SIP)在第一话机2与第二话机3之间进行呼叫连接来实现。

第一话机2在语音呼叫处理器202中将由麦克风201收集的第一讲话者的语音信号转换成用于传输的信号并且将经转换的信号传送至第二话机3。第一话机2还在语音呼叫处理器202中将从第二话机3接收到的信号转换成可以从接收器203输出的语音信号，并且将经转换的信号输出至接收器203。

第二话机3在语音呼叫处理器302中将由麦克风301收集的第二讲话者(第一讲话者的对方讲话者)的语音信号转换成用于传输的信号，并且将经转换的信号传送至第一话机2。第二话机3还在语音呼叫处理器302中将从第一话机2接收到的信号转换成可以从接收器303输出的语音信号，并且将经转换的信号输出至接收器303。

第一话机2中的语音呼叫处理器202和第二话机3中的语音呼叫处理器302分别包括编码器、解码器和收发器单元，但是图1中省略了这些单元。编码器将麦克风201或麦克风301收集的语音信号(模拟信号)转换成数字信号。解码器将从对方话机接收到的数字信号转换成语音信号(模拟信号)。收发器单元根据实时传输协议(RTP)将数字信号打包进行传输，同时从所接收到的包解码数字信号。

如上所述，根据本实施方式的语音呼叫系统100中的第一话机2包括话语状态确定装置5和显示单元204。此外，第一话机2中的话语状态确定装置5与显示装置6连接。显示装置6由与使用第一话机2的第一讲话者不同的另一人使用，另一人可以是例如监视第一讲话者的应答的监视者。

话语状态确定装置5基于第一讲话者的语音信号和第二讲话者的语音信号来确定第二讲话者的话语状态是否满足满意状态(即，第二讲话者的满意度)。在第二讲话者的话语状态不满足满意状态时，话语状态确定装置5还通过显示单元204或显示装置6来警告第一讲话者。显示单元204显示话语状态确定装置5的确定结果(第二讲话者的满意度)和警告等。此外，与第一话机2(话语状态确定装置5)连接的显示装置6向第一讲话者显示话语状态确定装置5发出的警告。

图2是示出了根据实施方式1的话语状态确定装置的功能配置的图。如图2中所示，根据本实施方式的话语状态确定装置5包括：语音区间检测单元501、反馈语区间检测单元502、反馈语频率计算单元503、平均反馈语频率估计单元504、确定单元505以及警告输出单元506。

语音区间检测单元501检测在第一讲话者的语音信号中的语音区间。语音区间检测单元501从第一讲话者的语音信号中检测下述区间作为语音区间：在所述区间中，根据语音信号获得的功率为特定阈值TH或高于特定阈值TH。

反馈语区间检测单元502检测在第二讲话者的语音信号中的反馈语区间。反馈语区间检测单元502对第二讲话者的语音信号进行形态分析，并且检测与在反馈语字典中登记的任意反馈语数据匹配的区间作为反馈语区间，图2中未示出反馈语字典。反馈语字典以文本数据的形式登记频繁地用作反馈语反馈的感叹词，如“哦”、“我明白了”、“嗯”和“哇”。

反馈语频率计算单元503计算第一讲话者的每说话时长内第二讲话者的反馈语反馈的次数作为第二讲话者的反馈语频率。反馈语频率计算单元503将特定时间单位设定为一帧，并且基于根据一帧内的第一讲话者的语音区间计算的说话时长和根据第二讲话者的反馈语区间计算的反馈语反馈的次数来计算反馈语频率。

平均反馈语频率估计单元504基于第一讲话者和第二讲话者的语音信号来估计第二讲话者的平均反馈语频率。根据本实施方式的平均反馈语频率估计单元504计算在下述时间段中反馈语频率的平均值作为第二讲话者的平均反馈语频率的估计值：在所述时间段中，从第二讲话者的语音信号的语音开始时间起过去了指定数量的帧。

确定单元505基于在反馈语频率计算单元503中计算的反馈语频率和在平均反馈语频率估计单元504中计算(估计)的平均反馈语频率来确定第二讲话者的满意度，换言之，第二讲话者是否满意。

当在确定单元505中连续地确定第二讲话者不满意(即，处于不满意状态)指定次数或更多次时，警告输出单元506使第一话机2的显示单元204和与话语状态确定装置5连接的显示装置6显示警告。

图3是对话语状态确定装置中的语音信号的处理单位进行说明的图。

在话语状态确定装置5中检测语音区间和检测反馈语区间时，例如如图3中所示，执行对语音信号中的每个样本n的处理、每段时间t1内的区间处理以及每段时间t2内的帧处理。在图3中，s₁(n)是第一讲话者的语音信号中的第n个样本的幅值。图3中的L-1和L表示区间号，以及作为示例，与一个区间对应的时间t1是20毫秒。此外，图3中的m-1和m是帧号，以及作为示例，与一帧对应的时间t2为30秒。

语音区间检测单元501使用第一讲话者的语音信号中的每个样本的幅值s₁(n)并且通过使用以下公式(1)来计算区间L内的语音信号的功率p₁(L)。

在公式(1)中，N是区间L内的样本的数量。

接下来，语音区间检测单元501将功率p₁(L)与预定阈值TH进行比较并且将功率p₁(L)≥TH的区间L检测作为语音区间。语音区间检测单元501输出由以下公式(2)提供的u₁(L)作为检测结果。

反馈语区间检测单元502通过使用第二讲话者的语音信号中的每个样本的幅值s₂(n)进行形态分析来提取话语区间。接下来，反馈语区间检测单元502将所提取出的话语区间与在反馈语字典中登记的反馈语数据进行比较并且将该话语区间中的与反馈语数据匹配的区间检测作为话语区间。反馈语区间检测单元502输出由以下公式(3)提供的u₂(L)作为检测结果。

基于第m帧内的语音区间的检测结果和反馈语区间的检测结果，反馈语频率计算单元503计算由以下公式(4)提供的反馈语频率IA(m)。

在公式(4)中，start_j和end_j分别是语音区间中的检测结果u₁(L)是1的区间的开始时间和结束时间。换言之，start_j是针对每个样本的检测结果u₁(n)从0升到1的时间点，以及end_j是针对每个样本的检测结果u₁(n)从1降到0的时间点。在公式(4)中，cntA(m)是反馈语区间中的检测结果u₂(L)是1的区间的数量。换言之，cntA(m)是针对每个样本的检测结果u₂(n)从0升到1的次数。

平均反馈语频率估计单元504通过使用在从第二讲话者的语音开始时间起指定帧数F₁中的反馈语频率IA(m)来计算由以下公式(5)提供的每时间单位(一帧)的反馈语频率的平均值JA作为平均反馈语频率。

确定单元505基于以下公式(6)中提供的判别式来输出确定结果v(m)。

在公式(6)中，v(m)＝1指示线路另一端的人满意，以及v(m)＝0指示线路另一端的人不满意。此外，公式(6)中的β表示修正系数(例如，β＝0.7)。

警告输出单元506获得确定单元505的确定结果v(m)并且在两个或更多个连续的帧中获得结果v(m)＝0时输出警告信号。警告输出单元506输出由以下公式(7)提供的第二确定结果e(m)作为警告信号的示例。

图4是提供了由根据实施方式1的话语状态确定装置执行的处理的细节的流程图。

在第一话机2与第二话机3之间的呼叫连接被连接从而语音呼叫变得可用时，根据本实施方式的话语状态确定装置5执行图4中所示的处理。

话语状态确定装置5开始监测第一讲话者与第二讲话者之间的语音信号(步骤S100)。步骤S100由设置在话语状态确定装置5中的监测单元(未示出)来执行。监测单元监测从麦克风201传送至语音呼叫处理器202的第一讲话者的语音信号以及从语音呼叫处理器202传送至接收器203的第二讲话者的语音信号。监测单元将第一讲话者的语音信号输出至语音区间检测单元501和平均反馈语频率估计单元504，并且还将第二讲话者的语音信号输出至反馈语区间检测单元502和平均反馈语频率估计单元504。

接下来，话语状态确定装置5执行平均反馈语频率估计处理(步骤S101)。步骤S101由平均反馈语频率估计单元504来执行。作为示例，平均反馈语频率估计单元504通过使用公式(1)至公式(4)来计算从第二讲话者的语音信号的语音开始时间起两帧(60秒)中的反馈语频率IA(m)。此后，平均反馈语频率估计单元504将通过使用公式(5)计算的每一帧的反馈语频率的平均值JA作为平均反馈语频率输出至确定单元505。

在计算出平均反馈语频率JA之后，话语状态确定装置5执行用于从第一讲话者的语音信号检测语音区间的处理(步骤S102)和用于从第二讲话者的语音信号检测反馈语区间的处理(步骤S103)。步骤S102由语音区间检测单元501来执行。语音区间检测单元501通过使用公式(1)和公式(2)来计算第一讲话者的语音信号中的语音区间的检测结果u₁(L)。语音区间检测单元501将语音区间的检测结果u₁(L)输出至反馈语频率计算单元503。另一方面，步骤S103由反馈语区间检测单元502来执行。反馈语区间检测单元502在通过上述形态分析等检测到反馈语区间之后，通过使用公式(3)来计算反馈语区间的检测结果u₂(L)。反馈语区间检测单元502将反馈语区间的检测结果u₂(L)输出至反馈语频率计算单元503。

注意，在图4的流程图中，在步骤S102之后执行步骤S103，但是该顺序并不受限制。因此，可以在步骤S102之前执行步骤S103。此外，可以并行地执行步骤S102和步骤S103。

接下来，话语状态确定装置5基于第一讲话者的语音区间和第二讲话者的反馈语区间来计算第二讲话者的反馈语频率(步骤S104)。步骤S104由反馈语频率计算单元503来执行。反馈语频率计算单元503通过使用公式(4)来计算第m帧中第二讲话者的反馈语频率IA(m)。反馈语频率计算单元503将所计算的反馈语频率IA(m)输出至确定单元505。

话语状态确定装置5基于第二讲话者的平均反馈语频率JA和反馈语频率IA(m)来确定第二讲话者的满意度，并且将确定结果输出至显示单元和警告输出单元(步骤S105)。步骤S105由确定单元505来执行。确定单元505通过使用公式(6)来计算确定结果v(m)并且将确定结果v(m)输出至显示单元204和警告输出单元506。

话语状态确定装置5判定在确定单元505中是否连续地确定第二讲话者不满意(确定不满意)(步骤S106)。步骤S106由警告输出单元506来执行。警告输出单元506存储第m-1帧中的确定结果v(m-1)的值并且基于v(m)和v(m-1)来计算由公式(7)提供的第二确定结果e(m)。当e(m)＝1时，警告输出单元506判定在确定单元505中连续地确定不满意。

当在确定单元505中连续地确定不满意时(步骤S106：是)，警告输出单元506向显示单元204和显示装置6输出警告信号(步骤S107)。另一方面，当在确定单元505中并非连续地确定不满意时(步骤S106：否)，警告输出单元506跳过步骤S107中的处理。

此后，话语状态确定装置5决定是否继续处理(步骤S108)。当继续处理时(步骤S108：是)，话语状态确定装置5重复步骤S102和后续步骤中的处理。当不继续处理时(步骤S108：否)，话语状态确定装置5结束对第一讲话者和第二讲话者的语音信号的监测并且结束处理。

注意，在话语状态确定装置5执行上述处理时，第一话机2的显示单元204和显示装置6显示第二讲话者的满意度和其他事情。在开始语音呼叫时，第一话机2的显示单元204和显示装置6显示第二讲话者没有感觉到不满意，并且此后提供了根据确定单元505的确定结果v(m)的显示。当从警告输出单元506输出警告信号时，第一话机2的显示单元204和显示装置6将与第二讲话者的满意度相关的显示切换成根据警告信号的显示。

图5是提供了根据实施方式1的平均反馈语频率估计处理的细节的流程图。

根据本实施方式的话语状态确定装置5的平均反馈语频率估计单元504在上述平均反馈语频率估计处理(步骤S101)中执行图5中所示的处理。

平均反馈语频率估计单元504执行用于从第一讲话者的语音信号检测语音区间的处理(步骤S101a)和用于从第二讲话者的语音信号检测反馈语区间的处理(步骤S101b)。在步骤S101a中的处理中，平均反馈语频率估计单元504通过使用公式(1)和公式(2)来计算在第一讲话者的语音信号中的语音区间的检测结果u₁(L)。在步骤S101b的处理中，平均反馈语频率估计单元504在通过上述形态分析等检测到反馈语区间之后，通过使用公式(3)来计算反馈语区间的检测结果u₂(L)。

注意，在图5的流程图中，在步骤S101a之后执行步骤S101b，但是该顺序并不受限制。因此，可以首先执行步骤S101b或者可以并行地执行步骤S101a和步骤S101b。

接下来，平均反馈语频率估计单元504基于第一讲话者的语音区间和第二讲话者的反馈语区间来计算第二讲话者的反馈语频率IA(m)(步骤S101c)。在步骤S101c的处理中，平均反馈语频率估计单元504通过使用公式(4)来计算第m帧中第二讲话者的反馈语频率IA(m)。

此后，平均反馈语频率估计单元504检查是否计算了从第二讲话者的语音开始时间起指定帧数F₁中的反馈语频率(步骤S101d)。当未计算指定帧数(例如，F₁＝2)中的反馈语频率时(步骤S101d：否)，平均反馈语频率估计单元504重复步骤S101a至S101c中的处理。当计算了指定帧数中的反馈语频率时(步骤S101d：是)，平均反馈语频率估计单元504根据指定帧数中的反馈语频率来计算第二讲话者的反馈语频率的平均值JA(步骤S101e)。在步骤S101e的处理中，平均反馈语频率估计单元504通过使用公式(5)来计算每一帧的反馈语频率的平均值JA。在计算出反馈语频率的平均值JA之后，平均反馈语频率估计单元504将反馈语频率的平均值JA作为平均反馈语频率输出至确定单元505，并且结束平均反馈语频率估计处理。

如上所述，实施方式1计算在从第二讲话者的语音开始时间起指定帧数(例如，60秒)中的语音信号中的反馈语频率的平均值JA作为平均反馈语频率，并且基于该平均反馈语频率来确定第二讲话者是否满意。在从语音开始时间起(即在紧接语音呼叫开始之后)的指定帧数期间，第二讲话者被估计处于正常状态。因此，在从语音开始时间起的指定帧数期间的第二讲话者的反馈语频率可以被认为是正常状态下的第二讲话者的反馈语频率。因此，根据实施方式1，能够在考虑对于第二讲话者而言唯一的平均反馈语频率的情况下确定第二讲话者是否满意，因此还能够提高基于给出反馈语反馈的方式确定讲话者的情绪状态的准确度。

注意，根据本实施方式的话语状态确定装置5不仅可以应用于如图1中所示的使用IP网络4的语音呼叫系统100，还可以应用于使用其他电话网络的其他语音呼叫系统。

此外，图2中所示的话语状态确定装置5中的平均反馈语频率估计单元504通过监测第一讲话者和第二讲话者的语音信号来计算平均反馈语频率。然而，该计算并不受限制，而是作为示例，平均反馈语频率估计单元504可以根据语音区间检测单元501的检测结果u₁(L)和反馈语检测单元502的检测结果u₂(L)的输入来计算反馈语频率的平均值JA。此外，作为示例，平均反馈语频率估计单元504可以通过获得反馈语频率计算单元503针对从第二讲话者的语音开始时间起指定帧数的计算结果IA(m)来计算反馈语频率的平均值JA。

<实施方式2>

图6是示出了根据实施方式2的语音呼叫系统的配置的图。如图6中所示，根据本实施方式的语音呼叫系统110包括第一话机2、第二话机3、IP网络4、分路器8以及应答评估装置9。

第一话机2包括麦克风201、语音呼叫处理器202以及接收器203。注意，第一话机2的数量并不限于仅一个，而是可以具有多个话机。第二话机3是可以经由IP网络4与第一话机2连接的话机。第二话机3包括麦克风301、语音呼叫处理器302以及接收器303。

分路器8对从第一话机2的语音呼叫处理器202传送至第二话机3的第一讲话者的语音信号和从第二话机3传送至第一话机2的语音呼叫处理器202的第二讲话者的语音信号进行分路，并且将经分路的信号输入至应答评估装置9。分路器8被设置在第一话机2与IP网络4之间的传输路径上。

应答评估装置9是通过使用话语状态确定装置5来确定第二讲话者(第一讲话者的对方讲话者)的满意度的装置。应答评估装置9包括接收器单元901、解码器902、显示单元903以及话语状态确定装置5。

接收器单元901接收由分路器8分路的第一讲话者和第二讲话者的语音信号。解码器902将所接收到的第一讲话者和第二讲话者的语音信号解码成模拟信号。话语状态确定装置5基于经解码的第一讲话者和第二讲话者的语音信号来确定第二讲话者的话语状态，即，第二讲话者是否满意。显示单元903显示话语状态确定装置5的确定结果等。

在该语音呼叫系统110中，与根据实施方式1的语音呼叫系统100类似，通过根据SIP在第一话机2与第二话机3之间进行呼叫连接来实现使用话机2和话机3的语音呼叫。

图7是示出了根据实施方式2的话语状态确定装置的功能配置的图。如图7中所示，根据本实施方式的话语状态确定装置5包括：语音区间检测单元511、反馈语区间检测单元512、反馈语频率计算单元513、平均反馈语频率估计单元514、确定单元515、语句输出单元516以及存储单元517。

语音区间检测单元511检测在第一讲话者的语音信号中的语音区间。与根据实施方式1的话语状态确定装置5的语音区间检测单元501类似，语音区间检测单元511从第一讲话者的语音信号中检测下述区间作为语音区间：在所述区间中，根据语音信号获得的功率为特定阈值TH或高于特定阈值TH。

反馈语区间检测单元512检测在第二讲话者的语音信号中的反馈语区间。与根据实施方式1的话语状态确定装置5的反馈语区间检测单元502类似，反馈语区间检测单元512对第二讲话者的语音信号进行形态分析，并且检测与登记在反馈语字典中的任意反馈语数据匹配的区间作为反馈语区间。

反馈语频率计算单元513计算第一讲话者的每说话时长内的第二讲话者的反馈语反馈的次数，作为第二讲话者的反馈语频率。反馈语频率计算单元513将特定时间单位设定为一帧，并且基于根据一帧内的第一讲话者的语音区间计算的说话时长和根据第二讲话者的反馈语区间计算的反馈语反馈的次数来计算反馈语频率。注意，根据本实施方式的话语状态确定装置5中的反馈语频率计算单元513通过使用第m帧内的语音区间的检测结果和反馈语区间的检测结果来计算由以下公式(8)提供的反馈语频率IB(m)。

在公式(8)中，与公式(4)类似，start_j和end_j分别是语音区间中的检测结果u₁(L)为1的区间的开始时间和结束时间。换言之，开始时间start_j是针对每个样本的检测结果u₁(n)从0升到1的时间点，以及结束时间end_j是针对每个样本的检测结果u₁(n)从1降到0的时间点。在公式(8)中，cntB(m)是根据在第m帧内的第一讲话者的语音区间中、在开始时间start_j和结束时间end_j之间检测到的第二讲话者的反馈语区间的数量而计算的反馈语反馈的次数。

平均反馈语频率估计单元514估计第二讲话者的平均反馈语频率。注意，根据本实施方式的平均反馈语频率估计单元514计算由以下公式(9)的更新等式提供的反馈语频率的平均值JB，作为第二讲话者的平均反馈语频率的估计值。

JB(m)＝ε·JB(m-1)+(1-ε)·IB(m) (9)

在公式(9)中，ε表示更新系数并且可以是0<ε<1的任意值(例如，ε＝0.9)。此外，给定JB(0)＝0.1。

确定单元515基于在反馈语频率计算单元513中计算的反馈语频率IB(m)和在平均反馈语频率估计单元514中计算(估计)的平均反馈语频率JB(m)来确定第二讲话者的满意度，即第二讲话者是否满意。确定单元515基于在以下公式(10)中提供的判别式来输出确定结果v(m)。

语句输出单元516从存储单元517读出与确定单元515中的满意度的确定结果v(m)对应的语句，并且使显示单元903显示该语句。

图8是提供了存储在存储单元中的语句的示例的图。

如公式(10)中所提供的那样，根据本实施方式的满意度的确定结果v(m)是两个值0和1中的任一个。因此，如图8所示，存储单元517存储两类语句w(m)，包括当v(m)＝0时显示的语句和当v(m)＝1时显示的语句。此外，在公式(10)中的判别式中，当第二讲话者满意时，确定结果为1，即v(m)＝1。因此，如图8中所示，当v(m)＝0时，报告第二讲话者感觉不满意的语句被显示，而当v(m)＝1时，报告第二讲话者满意的语句被显示。

图9是提供了由根据实施方式2的话语状态确定装置执行的处理的细节的流程图。

在第一话机2与第二话机3之间的呼叫连接被连接并且语音呼叫变得可用时，根据本实施方式的话语状态确定装置5执行图9中所示的处理。

话语状态确定装置5开始获取第一讲话者和第二讲话者的语音信号(步骤S200)。步骤S200由设置在话语状态确定装置5中的获取单元(未示出)来执行。获取单元获取从分路器8输入至话语状态确定装置5的第一讲话者的语音信号和第二讲话者的语音信号。获取单元将第一讲话者的语音信号输出至语音区间检测单元511和平均反馈语频率估计单元514，并且还将第二讲话者的语音信号输出至反馈语区间检测单元512和平均反馈语频率估计单元514。

接下来，话语状态确定装置5执行平均反馈语频率估计处理(步骤S201)。步骤S201由平均反馈语频率估计单元514来执行。作为示例，平均反馈语频率估计单元514通过使用公式(1)至公式(3)和公式(8)来计算第二讲话者的语音信号的反馈语频率IB(m)。此后，平均反馈语频率估计单元514通过使用公式(9)来计算反馈语频率的平均值JB(m)，并且将所计算的反馈语频率的平均值JB(m)作为平均反馈语频率输出至确定单元515。

在计算出平均反馈语频率JB(m)之后，话语状态确定装置5执行用于从第一讲话者的语音信号检测语音区间的处理(步骤S202)以及用于从第二讲话者的语音信号检测反馈语区间的处理(步骤S203)。步骤S202由语音区间检测单元511来执行。语音区间检测单元511通过使用公式(1)和公式(2)来计算第一讲话者的语音信号中的语音区间的检测结果u₁(L)。语音区间检测单元511将语音区间的检测结果u₁(L)输出至反馈语频率计算单元513。另一方面，步骤S203由反馈语区间检测单元512来执行。反馈语区间检测单元512在通过上述形态分析等检测到反馈语区间之后，通过使用公式(3)来计算反馈语区间的检测结果u₂(L)。反馈语区间检测单元512将反馈语区间的检测结果u₂(L)输出至反馈语频率计算单元513。

当步骤S202和步骤S203中的处理结束时，话语状态确定装置5接下来基于第一讲话者的语音区间和第二讲话者的反馈语区间来计算第二讲话者的反馈语频率(步骤S204)。步骤S204由反馈语频率计算单元513来执行。反馈语频率计算单元513通过使用公式(8)来计算第m帧中第二讲话者的反馈语频率IB(m)。

注意，在图9中的流程图中，步骤S201中计算平均反馈语频率之后是步骤S202至S204中计算反馈语频率，但是该顺序并不受限制。可以在步骤S201之前执行步骤S202至步骤S204。替选地，可以并行地执行步骤S201中的处理和步骤S202至S204中的处理。此外，对于步骤S202和S203中的处理，可以首先执行步骤S203中的处理，或者可以并行地执行步骤S202和S203中的处理。

当步骤S201至S204中的处理结束时，话语状态确定装置5基于第二讲话者的平均反馈语频率JB(m)和反馈语频率IB(m)来确定第二讲话者的满意度，并且将确定结果输出至显示单元和语句输出单元(步骤S205)。步骤S205由确定单元515来执行。确定单元515通过使用公式(10)来计算确定结果v(m)，并且将确定结果v(m)输出至显示单元903和语句输出单元516。

话语状态确定装置5提取与确定结果v(m)对应的语句并且使显示单元903显示该语句(步骤S206)。步骤S206由语句输出单元516来执行。语句输出单元516通过参考存储在存储单元517中的语句表(参见图8)来提取与确定结果v(m)对应的语句w(m)，将所提取的语句w(m)输出至显示单元903，并且使显示单元903显示该语句。

此后，话语状态确定装置5决定是否继续处理(步骤S207)。当继续处理时(步骤S207：是)，话语状态确定装置5重复步骤S201和后续步骤中的处理。当不继续处理时(步骤S207：否)，话语状态确定装置5结束对第一讲话者和第二讲话者的语音信号的获取并且结束处理。

图10是提供了根据实施方式2的平均反馈语频率估计处理的细节的流程图。

根据本实施方式的话语状态确定装置5的平均反馈语频率估计单元514在上述平均反馈语频率估计处理(步骤S201)中执行图10中所示的处理。

平均反馈语频率估计单元514执行用于从第一讲话者的语音信号检测语音区间的处理(步骤S201a)和用于从第二讲话者的语音信号检测反馈语区间的处理(步骤S201b)。在步骤S201a的处理中，平均反馈语频率估计单元514通过使用公式(1)和公式(2)来计算第一讲话者的语音信号中的语音区间的检测结果u₁(L)。在步骤S201b的处理中，平均反馈语频率估计单元514在通过上述形态分析等检测到反馈语区间之后，通过使用公式(3)来计算反馈语区间的检测结果u₂(L)。

注意，在图10的流程图中，在步骤S201a之后执行步骤S201b，但是该顺序并不受限制。因此，可以在步骤S201a之前执行步骤S201b。此外，可以并行地执行步骤S201a和步骤S201b。

在步骤S201a和S201b中的处理结束之后，接下来，平均反馈语频率估计单元514基于第一讲话者的语音区间和第二讲话者的反馈语区间来计算第二讲话者的反馈语频率IB(m)(步骤S201c)。在步骤S201c的处理中，平均反馈语频率估计单元514通过使用公式(8)来计算第m帧中第二讲话者的反馈语频率IB(m)。

接下来，平均反馈语频率估计单元514通过使用当前帧的反馈语频率IB(m)和当前帧之前的帧中的第二讲话者的反馈语频率的平均值JB(m-1)来计算当前帧中的第二讲话者的反馈语频率的平均值JB(m)(步骤S201d)。在步骤S201d的处理中，平均反馈语频率估计单元514通过使用公式(9)来计算当前帧(第m帧)中的平均反馈语频率JB(m)。

此后，平均反馈语频率估计单元514将在步骤S201d中计算的反馈语频率的平均值JB(m)作为平均反馈语频率输出至确定单元515并且存储反馈语频率的平均值JB(m)(步骤S201e)，以及平均反馈语频率估计单元514结束平均反馈语频率估计处理。

如上所述，同样在实施方式2中，基于根据第二讲话者的语音信号计算的平均反馈语频率JB(m)和反馈语频率IB(m)来确定第二讲话者的满意度。因此，与实施方式1类似，能够在考虑对于第二讲话者而言唯一的平均反馈语频率的情况下确定第二讲话者是否满意，因此还能够提高基于给出反馈语反馈的方式确定讲话者的情绪状态的准确度。

注意，根据本实施方式的话语状态确定装置5不仅可以应用于如图6中所示的使用IP网络4的语音呼叫系统110，还可以应用于使用其他电话网络的其他语音呼叫系统。此外，语音呼叫系统110可以使用分配器代替分路器8。

此外，图7中所示的话语状态确定装置5中的平均反馈语频率估计单元514通过获取由解码器902解码的第一讲话者和第二讲话者的语音信号来计算平均反馈语频率JB(m)。然而，该计算并不受限制，而是作为示例，平均反馈语频率估计单元514可以根据语音区间检测单元511的检测结果u₁(L)和反馈语区间检测单元512的检测结果u₂(L)的输入来计算反馈语频率的平均值JB(m)。此外，作为示例，平均反馈语频率估计单元514可以通过获得在反馈语频率计算单元513中计算的反馈语频率IB(m)来计算反馈语频率的平均值JB(m)。

此外，根据本实施方式的话语状态确定装置5基于通过使用公式(1)至公式(3)和公式(8)计算的反馈语频率IB(m)和通过使用反馈语频率IB(m)计算的平均反馈语频率JB(m)来确定第二讲话者的满意度。然而，图6中所示的应答评估装置9中的话语状态确定装置5的配置可以与例如实施方式1中说明的话语状态确定装置5的配置(参见图2)相同。

<实施方式3>

图11是示出了根据实施方式3的语音呼叫系统的配置的图。如图11中所示，根据本实施方式的语音呼叫系统120包括第一话机2、第二话机3、IP网络4、分路器8、服务器10以及再现装置11。

第一话机2包括麦克风201、语音呼叫处理器202以及接收器203。第二话机3是可以经由IP网络4与第一话机2连接的话机。第二话机3包括麦克风301、语音呼叫处理器302以及接收器303。

分路器8对从第一话机2的语音呼叫处理器202传送至第二话机3的第一讲话者的语音信号和从第二话机3传送至第一话机2的语音呼叫处理器202的第二讲话者的语音信号进行分路，并且将经分路的信号输入至服务器10。分路器8被设置在第一话机2与IP网络4之间的传输路径上。

服务器10是下述装置：所述装置将经由分路器8输入的第一讲话者和第二讲话者的语音信号做成语音文件，存储该文件，以及在必要时确定第二讲话者(第一讲话者的对方讲话者)的满意度。服务器10包括语音处理器单元1001、存储单元1002以及话语状态确定装置5。语音处理器单元1001执行根据第一讲话者和第二讲话者的语音信号生成语音文件的处理。存储单元1002存储所生成的第一讲话者和第二讲话者的语音文件。话语状态确定装置5通过读出第一讲话者和第二讲话者的语音文件来确定第二讲话者的满意度。

再现装置11是下述装置：所述装置用于读出并再现服务器10的存储单元1002中存储的第一讲话者和第二讲话者的语音文件，以及用于显示话语状态确定装置5的确定结果。

图12是示出了根据实施方式3的服务器的功能配置的图。

如图12中所示，根据本实施方式的服务器10的语音处理器单元1001包括接收器单元1001a、解码器1001b以及语音文件化处理器单元1001c。

接收器单元1001a接收由分路器8分路的第一讲话者和第二讲话者的语音信号。解码器1001b将所接收到的第一讲话者和第二讲话者的语音信号解码成模拟信号。语音文件化处理器单元1001c分别生成在解码器1001b中解码的第一讲话者和第二讲话者的语音信号的电子文件(语音文件)，将每个语音文件相关联，以及将文件存储在存储单元1002中。

存储单元1002针对每个语音呼叫存储彼此相关联的第一讲话者和第二讲话者的语音文件。响应于来自再现装置11的读取请求，存储在存储单元1002中的语音文件被传送至再现装置11。在以下描述中，可以将第一讲话者和第二讲话者的语音文件称为语音信号。

话语状态确定装置5读出存储在存储单元1002中的第一讲话者和第二讲话者的语音文件，确定第二讲话者的话语状态即第二讲话者是否满意，以及将确定结果输出至再现装置11。如图12B中所示，根据本实施方式的话语状态确定装置5包括语音区间检测单元521、反馈语区间检测单元522、反馈语频率计算单元523、平均反馈语频率估计单元524以及确定单元525。话语状态确定装置5还包括整体满意度计算单元526、语句输出单元527以及存储单元528。

语音区间检测单元521检测第一讲话者的语音信号中的语音区间。与根据实施方式1的话语状态确定装置5的语音区间检测单元501类似，语音区间检测单元521从第一讲话者的语音信号中检测下述区间作为语音区间：在所述区间中，根据语音信号获得的功率为特定阈值TH或高于特定阈值TH。

反馈语区间检测单元522检测第二讲话者的语音信号中的反馈语区间。与根据实施方式1的话语状态确定装置5的反馈语区间检测单元502类似，反馈语区间检测单元522对第二讲话者的语音信号进行形态分析，并且检测与登记在反馈语字典中的任意反馈语数据匹配的区间作为反馈语区间。

反馈语频率计算单元523计算第一讲话者的每说话时长内的第二讲话者的反馈语反馈的次数作为第二讲话者的反馈语频率。反馈语频率计算单元523将特定时间单位设定成一帧，并且基于根据一帧内第一讲话者的语音区间计算的说话时长和根据第二讲话者的反馈语区间计算的反馈语反馈的次数来计算反馈语频率。注意，根据本实施方式的话语状态确定装置5中的反馈语频率计算单元523通过使用第m帧内的语音区间的检测结果和反馈语区间的检测结果来计算由以下公式(11)提供的反馈语频率IC(m)。

在公式(11)中，与公式(4)类似，start_j和end_j分别是语音区间中的检测结果u₁(L)是1的区间的开始时间和结束时间。换言之，开始时间start_j是针对每个样本的检测结果u₁(n)从0升到1的时间点，以及结束时间end_j是针对每个样本的检测结果u₁(n)从1降到0的时间点。此外，cntC(m)是在第m帧中在第一讲话者的语音区间的开始时间start_j与结束时间end_j之间的时间段中以及紧接在结束时间end_j之后的特定时间段t内的时间段中的第二讲话者的反馈语反馈的次数。反馈语反馈的次数cntC(m)是根据在以上时间段中反馈语区间的检测结果u2(n)从0升到1的次数来计算的。

平均反馈语频率估计单元524估计第二讲话者的平均反馈语频率。根据本实施方式的平均反馈语频率估计单元524计算由以下公式(12)提供的反馈语频率的平均值JC作为第二讲话者的平均反馈语频率的估计值。

在公式(12)中，M是第二讲话者的语音信号中的最后一帧(结束时间)的帧号。换言之，平均反馈语频率JC是以帧为单位的从第二讲话者的语音开始时间至结束时间的反馈语频率的平均值。

确定单元525基于在反馈语频率计算单元523中计算的反馈语频率IC(m)和在平均反馈语频率估计单元524中计算(估计)的平均反馈语频率JC来确定第二讲话者的满意度，即第二讲话者是否满意。确定单元525基于由以下公式(13)提供的判别式来输出确定结果v(m)。

在公式(13)中，β₁和β₂中的每一个是修正系数，以及给定β₁＝0.2以及β₂＝1.5。

整体满意度计算单元526计算在第一讲话者与第二讲话者之间的语音呼叫中第二讲话者的整体满意度V。整体满意度计算单元526通过使用以下公式(14)来计算整体满意度V。

在公式(14)中，c₀、c₁和c₂分别是v(m)＝0的帧数、v(m)＝1的帧数以及v(m)＝2的帧数。

语句存储单元527从存储单元528中读出与整体满意度计算单元526中计算的整体满意度V对应的语句，并且将该语句输出至再现装置11。

图13是对根据本实施方式的话语状态确定装置5中的语音信号的处理单位进行说明的图。

当在根据本实施方式的话语状态确定装置5中执行对语音区间的检测和对反馈语区间的检测时，例如，如图13中所示，执行针对语音信号的每个样本n的处理、每段时间t1内的区间处理以及每段时间t2内的帧处理。注意，每段时间t2内的帧处理是交叠的处理，以及每个帧的开始时间被延迟时间t3(例如，10秒)。在图13中，s₁(n)表示在第一讲话者的语音信号中的第n个样本的幅值。此外，在图13中，L-1和L均表示区间号，作为示例，与一个区间对应的时间t1为20毫秒。此外，在图13中，m-1和m均表示帧号，作为示例，与一帧对应的时间t2为30秒。

图14是提供了存储在存储单元中的语句的示例的图。

如上所述，根据本实施方式的话语状态确定装置5中的语句输出单元527从存储单元528读出与整体满意度V对应的语句，并且将该语句输出至再现装置11。整体满意度V是通过使用公式(14)计算的值，并且是从0至100的任意值。通过使用公式(14)计算的整体满意度V还是随着c₂的值(即v(m)＝2的帧数)变大而变大的值。因此，随着第二讲话者的满意度越高，整体满意度V取越接近100的较大值。因此，在整体满意度V较低时，从存储在存储单元528中的语句中读出指示第二讲话者感觉不满意的语句，而在整体满意度V较高时，从存储在存储单元528中的语句中读出指示第二讲话者满意的语句。在存储单元528中，作为示例，如图14中所示，存储了与整体满意度V的级别对应的五类语句w(m)。

图15是示出了根据实施方式3的再现装置的功能配置的图。如图15中所示，根据本实施方式的再现装置11包括操作单元1101、数据获取单元1102、语音再现单元1103、扬声器1104以及显示单元1105。

操作单元1101是再现装置11的操作者操作的输入装置如键盘装置和鼠标装置，并且用于选择要再现的语音呼叫记录的操作和其他操作。

数据获取单元1102获取与通过操作单元1101的操作选择的语音呼叫记录对应的第一讲话者和第二讲话者的语音文件，以及还获取与所获取到的语音文件有关的、与话语状态确定装置5中的满意度或整体满意度的确定结果对应的语句等。数据获取单元1102从服务器10的存储单元1002获取第一讲话者和第二讲话者的语音文件。数据获取单元1102还从话语状态确定装置5的确定单元525、整体满意度计算单元526以及语句输出单元527获取确定结果等。

语音再现单元1103执行用于将在数据获取单元1102中获取的第一讲话者和第二讲话者的语音文件(电子文件)转换成可以从扬声器1104输出的模拟信号的处理。

显示单元1105显示与在数据获取单元1102中获取的满意度或整体满意度V的确定结果对应的语句。

图16是提供由根据实施方式3的话语状态确定装置执行的处理的细节的流程图。

作为示例，在服务器10从再现装置11的数据获取单元1102接收到对语音文件的传输请求时，根据本实施方式的话语状态确定装置5执行图16中提供的处理。

话语状态确定装置5从服务器10的存储单元1002读出第一讲话者和第二讲话者的语音文件(步骤S300)。步骤S300由设置在话语状态确定装置5中的获取单元(未示出)来执行。获取单元获取与再现装置11请求的语音呼叫记录对应的第一讲话者和第二讲话者的语音文件。获取单元将第一讲话者的语音文件输出至语音区间检测单元521和平均反馈语频率估计单元524，并且将第二讲话者的语音文件输出至反馈语区间检测单元522和平均反馈语频率估计单元524。

接下来，话语状态确定装置5执行平均反馈语频率估计处理(步骤S301)。步骤S301由平均反馈语频率估计单元524来执行。作为示例，平均反馈语频率估计单元524通过使用公式(1)至公式(3)和公式(11)来计算第二讲话者的反馈语频率IC(m)。此后，平均反馈语频率估计单元524通过使用公式(12)计算反馈语频率的平均值JC，并且将所计算的反馈语频率的平均值JC作为平均反馈语频率输出至确定单元525。

在计算出平均反馈语频率JC之后，话语状态确定装置5执行用于从第一讲话者的语音信号检测语音区间的处理(步骤S302)以及用于从第二讲话者的语音信号检测反馈语区间的处理(步骤S303)。步骤S302由语音区间检测单元521来执行。语音区间检测单元521通过使用公式(1)和公式(2)来计算在第一讲话者的语音信号中的语音区间的检测结果u₁(L)。语音区间检测单元521将语音区间的检测结果u₁(L)输出至反馈语频率计算单元523。另一方面，步骤S303由反馈语区间检测单元522来执行。反馈语区间检测单元522在通过上述形态分析等检测到反馈语区间之后，通过使用公式(3)来计算反馈语区间的检测结果u₂(L)。反馈语区间检测单元522将反馈语区间的检测结果u₂(L)输出至反馈语频率计算单元523。

注意，在图16的流程图中，在步骤S302之后执行步骤S303，但是该顺序并不受限制。因此，可以在步骤S302之前执行步骤S303。此外，可以并行地执行步骤S302和步骤S303。

当步骤S302和S303中的处理结束时，接下来，话语状态确定装置5基于第一讲话者的语音区间和第二讲话者的反馈语区间来计算第二讲话者的反馈语频率(步骤S304)。步骤S304由反馈语频率计算单元523来执行。反馈语频率计算单元523通过使用公式(11)来计算第m帧中第二讲话者的反馈语频率IC(m)。

接下来，话语状态确定装置5基于第二讲话者的平均反馈语频率JC和反馈语频率IC(m)来确定帧m中第二讲话者的满意度并且将确定结果输出至再现装置11(步骤S305)。步骤S305由确定单元525来执行。确定单元525通过使用公式(13)来计算确定结果v(m)，并且将确定结果v(m)输出至再现装置11和整体满意度计算单元526。

话语状态确定装置5通过使用每个帧中的满意度的确定结果v(m)的值来计算整体满意度V，并且将整体满意度V输出至再现装置11和语句输出单元527(步骤S306)。步骤S306由整体满意度计算单元526来执行。整体满意度计算单元526通过使用公式(14)来计算第二讲话者的整体满意度V。

话语状态确定装置5从存储单元528读出与整体满意度V对应的语句w(m)并且将该语句输出至再现装置11(步骤S307)。步骤S307由语句输出单元527来执行。语句输出单元527通过参考存储在存储单元528中的语句表(参见图13)来提取与整体满意度V对应的语句w(m)，并且将所提取出的语句w(m)输出至再现装置11。

此后，话语状态确定装置5决定是否继续处理(步骤S308)。在继续处理时(步骤S308：是)，话语状态确定装置5重复步骤S302和后续步骤中的处理。当不继续处理时(步骤S308：否)，话语状态确定装置5结束处理。

图17是提供了根据实施方式3的平均反馈语频率估计处理的细节的流程图。

根据本实施方式的话语状态确定装置5的平均反馈语频率估计单元524在上述平均反馈语频率估计处理(步骤S301)中执行图17中所示的处理。

平均反馈语频率估计单元524执行用于从第一讲话者的语音信号检测语音区间的处理(步骤S301a)以及用于从第二讲话者的语音信号检测反馈语区间的处理(步骤S301b)。在步骤S301a中的处理中，平均反馈语频率估计单元524通过使用公式(1)和公式(2)来计算第一讲话者的语音信号中的语音区间的检测结果u₁(L)。在步骤S301b中的处理中，平均反馈语频率估计单元524在通过上述形态分析等检测到反馈语区间之后，通过使用公式(3)计算反馈语区间的检测结果u₂(L)。

注意，在图17的流程图中，在步骤S301a之后执行步骤S301b，但是该顺序并不受限制。因此，可以在步骤S301a之前执行步骤S301b。此外，可以并行地执行步骤S301a和步骤S301b。

接下来，平均反馈语频率估计单元524基于第一讲话者的语音区间和第二讲话者的反馈语区间来计算第二讲话者的反馈语频率IC(m)(步骤S301c)。在步骤S301c的处理中，平均反馈语频率估计单元524通过使用公式(11)来计算第m帧中第二讲话者的反馈语频率IC(m)。

接下来，平均反馈语频率估计单元524检查是否计算出从第二讲话者的语音开始时间至结束时间的反馈语频率(步骤S301d)。当未计算出从语音开始时间至结束时间的反馈语频率时(步骤S301d：否)，平均反馈语频率估计单元524重复步骤S301a至S301c中的处理。当计算出从语音开始时间至结束时间的反馈语频率时(步骤S301d：是)，接下来，平均反馈语频率估计单元524根据从语音开始时间至结束时间的反馈语频率来计算第二讲话者的反馈语频率的平均值JC(步骤S301e)。在步骤S301e的处理中，平均反馈语频率估计单元524通过使用公式(12)来计算反馈语频率的平均值JC。在计算出反馈语频率的平均值JC之后，平均反馈语频率估计单元524将所计算出的反馈语频率的平均值JC作为平均反馈语频率输出至确定单元525，并且结束平均反馈语频率估计处理。

如上所述，同样在实施方式3中，基于根据第二讲话者的语音信号计算的平均反馈语频率JC和反馈语频率IC(m)来确定第二讲话者的满意度。因此，与实施方式1类似，能够在考虑对于第二讲话者而言唯一的平均反馈语频率的情况下确定第二讲话者是否满意，因此还能够提高基于给出反馈语反馈的方式确定讲话者的情绪状态的准确度。

另外，在实施方式3中，因为通过使用第一话机2和第二话机3进行的第一讲话者和第二讲话者的语音呼叫被作为语音文件(电子文件)存储在服务器10的存储单元1002中，所以可以在语音呼叫结束之后再现和收听该语音文件。在实施方式3中，在语音文件再现期间计算第二讲话者的整体满意度V，并且将与整体满意度V对应的语句输出至再现装置11。因此，在语音呼叫结束之后观看语音文件时，除了每帧(区间)中第二讲话者的满意度以外，还能够在再现装置11的显示单元1105中检查语音呼叫的整体满意度和与整体满意度对应的语句。

注意，在本实施方式中作为示例提供的语音呼叫系统中的服务器10可以安装在任意地方，并不限于安装了第一话机2的设施，并且服务器10可以经由通信网络如因特网连接至第一话机2或再现装置11。

<实施方式4>

图18是示出了根据实施方式4的记录装置的配置的图。如图18中所示，根据本实施方式的记录装置12包括第一模拟-数字(AD)转换器单元1201、第二AD转换器单元1202、语音文件化处理器单元1203、操作单元1204、显示单元1205、存储装置1206以及话语状态确定装置5。

第一AD转换器单元1201将由第一麦克风13A收集的语音信号从模拟信号转换成数字信号。第二AD转换器单元1202将由第二麦克风13B收集的语音信号从模拟信号转换成数字信号。在以下描述中，第一麦克风13A收集的语音信号是第一讲话者的语音信号，以及第二麦克风13B收集的语音信号是第二讲话者的语音信号。

语音文件化处理器单元1203生成由第一AD转换器单元1201转换的第一讲话者的语音信号和由第二AD转换器单元1202转换的第二讲话者的语音信号的电子文件(语音文件)，将这些语音文件彼此相关联，以及将文件存储在存储单元1206中。

话语状态确定装置5通过使用例如由第一AD转换器1201转换的第一讲话者的语音信号和由第二AD转换器1202转换的第二讲话者的语音信号来确定第二讲话者的话语状态(满意度)。话语状态确定装置5还将确定结果与由语音文件化处理器单元1203生成的语音文件相关联并且将确定结果存储在存储装置1206中。

操作单元1204是用于操作记录装置12的按钮式开关等。例如，当记录装置12的操作者通过操作操作单元1204开始记录时，指定处理的开始命令从操作单元1204被输入至语音文件化处理器单元1203和话语状态确定装置5中的每一个。

显示单元1205显示话语状态确定装置5的确定结果(第二讲话者的满意度)等。

存储装置1206是用于存储第一讲话者和第二讲话者的语音文件、第二讲话者的满意度等的装置。注意，存储装置1206可以由诸如存储卡的便携式记录介质和记录介质驱动单元构成，记录介质驱动单元可以从记录介质读取数据以及可以在记录介质中写入数据。

图19是示出了根据实施方式4的话语状态确定装置的功能配置的图。如图19中所示，根据本实施方式的话语状态确定装置5包括：语音区间检测单元531、反馈语区间检测单元532、特征量计算单元533、反馈语频率计算单元534、第一存储单元535、平均反馈语频率估计单元536以及第二存储单元537。话语状态确定装置5还包括确定单元538和应答分数输出单元539。

语音区间检测单元531检测第一讲话者的语音信号(由第一麦克风13A收集的讲话者的语音信号)中的语音区间。与根据实施方式1的话语状态确定装置5的语音区间检测单元501类似，语音区间检测单元531从第一讲话者的语音信号中检测下述区间作为语音区间：在所述区间中，根据语音信号获得的功率为特定阈值TH或高于特定阈值TH。

反馈语区间检测单元532检测第二讲话者的语音信号(由第二麦克风13B收集的讲话者的语音信号)中的反馈语区间。与根据实施方式1的话语状态确定装置5的反馈语区间检测单元502类似，反馈语区间检测单元532对第二讲话者的语音信号进行形态分析，并且检测与反馈语字典中登记的任意反馈语数据匹配的区间作为反馈语区间。

特征量计算单元533基于第二讲话者的语音信号和由反馈语区间检测单元532检测到的反馈语区间来计算元音类型h(L)和音调偏移量df(L)。例如通过在非专利文献1中描述的方法来计算元音类型h(L)。例如通过以下公式(15)来计算音调偏移量df(L)。

df(L)＝f(L)-f(L-1) (15)

在公式(15)中，f(L)是区间L内的音调，并且可以通过已知的方法(如通过区间的自相关或倒谱分析进行的音调检测)来计算。

反馈语频率计算单元534基于元音类型h(L)和音调偏移量df(L)将反馈语反馈分成两种情况，即，肯定和否定，并且计算由以下公式(16)提供的反馈语频率ID(m)。

在公式(16)中，start_j和end_j分别是实施方式1中说明的第一讲话者的语音区间的开始时间和结束时间。在公式(16)中，cnt₀(m)和cnt₁(m)分别是通过使用处于肯定状态的反馈语区间计算的反馈语反馈的次数和通过使用处于否定状态的反馈语区间计算的反馈语反馈的次数。此外，在公式(16)中，μ₀和μ₁是加权系数，并且给定μ₀＝0.8以及μ₁＝1.2。注意，通过参考存储在第一存储单元535中的反馈语强度确定信息来将反馈语反馈分类成肯定或否定。

平均反馈语频率估计单元536估计第二讲话者的平均反馈语频率。根据本实施方式的平均反馈语频率估计单元536计算与在从第二讲话者的语音开始时间起过去指定帧数的时间段中的语速r对应的值JD作为第二讲话者的平均反馈语频率的估计值。语速r是通过已知的方法(例如，专利文献4中描述的方法)计算的。在计算出语速r之后，平均反馈语频率估计单元536通过参考存储在第二存储单元537中的语速r和平均反馈语频率JD的对应表来计算第二讲话者的平均反馈语频率JD。平均反馈语频率估计单元536在第二讲话者的讲话者信息info₂(n)每次改变时计算平均反馈语频率JD。作为示例，讲话者信息info₂(n)从操作单元1204输入。

确定单元538基于在反馈语频率计算单元534中计算的反馈语频率ID(m)和在平均反馈语频率估计单元536中计算(估计)的平均反馈语频率JD来确定第二讲话者的满意度，即第二讲话者是否满意。确定单元538基于以下公式(17)中提供的判别式来输出确定结果v(m)。

在公式(17)中，β₁和β₂是修正系数，并且作为示例，提供了β₁＝0.2以及β₂＝1.5。

应答分数输出单元539通过使用以下公式(18)来计算每帧中的应答分数v'(m)。

应答分数输出单元539将所计算的应答分数v'(m)输出至显示单元1205，并且使存储装置1206与在语音文件化处理器单元1203中生成的语音文件相关联地存储应答分数。

图20是提供了反馈语强度确定信息的示例的图。反馈语频率计算单元534参考的反馈语强度确定信息是以下信息：在所述信息中，基于元音类型和音调偏移量的组合将反馈语反馈分类成肯定或否定。例如，在区间L中元音类型h(L)为“/a/”的情况下，当音调偏移量df(L)为0或更大(升高的音调)时，将反馈语反馈确定为肯定，而当音调偏移量df(L)小于0(降低的音调)时，将反馈语反馈确定为否定。

图21是提供了语速与平均反馈语频率的对应表的示例的图。

尽管实施方式1至实施方式3基于反馈语频率来计算平均反馈语频率，但是本实施方式如上所述基于语速r来计算平均反馈语频率JD。

与低语速的讲话者相比，高语速的讲话者(即，讲话快的人)往往具有较短的反馈语反馈的间隔，因此更频繁地作出反馈语反馈。出于该原因，如在图21中提供的对应表中那样，平均反馈语频率JD与语速r成比例地变大，例如，可以计算(估计)出趋势与实施方式1至3类似的平均反馈语频率JD。

图22是提供了由根据实施方式4的话语状态确定装置执行的处理的细节的流程图。

在操作者操作记录装置12的操作单元1204以使得记录装置12开始记录处理时，根据本实施方式的话语状态确定装置5执行图22中提供的处理。

话语状态确定装置5开始监测第一讲话者和第二讲话者的语音信号(步骤S400)。步骤S400由设置在话语状态确定装置5中的监测单元(未示出)来执行。监测单元监测分别从第一AD转换器1201和第二AD转换器1202传送至语音文件化处理器单元1203的第一讲话者的语音信号和第二讲话者的语音信号。监测单元将第一讲话者的语音信号输出至语音区间检测单元531和平均反馈语频率估计单元536。监测单元还将第二讲话者的语音信号输出至反馈语区间检测单元532、特征量计算单元533以及平均反馈语频率估计单元536。

话语状态确定装置5接下来执行平均反馈语频率估计处理(步骤S401)。步骤S401由平均反馈语频率估计单元536来执行。作为示例，平均反馈语频率估计单元536基于从第二讲话者的语音开始时间起两帧(60秒)内的语音信号来计算第二讲话者的语速r。语速r通过任意已知的计算方法(例如，专利文献4中描述的方法)来计算。此后，平均反馈语频率估计单元536参考存储在第二存储单元537中的对应表，并且将与语速r对应的平均反馈语频率JD作为第二讲话者的平均反馈语频率输出至确定单元538。

在计算出平均反馈语频率JD之后，话语状态确定装置5接下来执行用于从第一讲话者的语音文件检测语音区间的处理(步骤S402)和用于从第二讲话者的语音文件检测反馈语区间的处理(步骤S403)。步骤S402由语音区间检测单元531来执行。语音区间检测单元531通过使用公式(1)和公式(2)来计算第一讲话者的语音信号中的语音区间的检测结果u₁(L)，并且将语音区间的检测结果u₁(L)输出至反馈语频率计算单元534。步骤S403由反馈语区间检测单元532来执行。反馈语区间检测单元532在通过上述形态分析等检测到反馈语区间之后，通过使用公式(3)来计算反馈语区间的检测结果u₂(L)，并且将反馈语区间的检测结果u₂(L)输出至反馈语频率计算单元534。

在检测到反馈语区间之后，话语状态确定装置5接下来计算第二讲话者的语音文件中的反馈语区间的特征量(步骤S404)。步骤S404由特征量计算单元533来执行。特征量计算单元533计算元音类型h(L)和音调偏移量df(L)作为反馈语区间的特征量。元音类型h(L)通过任意已知的计算方法(例如，在非专利文献1中描述的方法)、通过使用反馈语区间检测单元532的反馈语区间的检测结果u₂(L)来计算。音调偏移量df(L)通过使用公式(15)来计算。特征量计算单元533将所计算的特征量即元音类型h(L)和音调偏移量df(L)输出至反馈语频率计算单元534。

注意，在图22的流程图中，在步骤S402之后执行步骤S403和步骤S404，但是该顺序并不受限制。因此，可以首先执行步骤S403和步骤S404中的处理。替选地，可以并行地执行步骤S402中的处理以及步骤S403和步骤S404中的处理。

在步骤S402至S404中的处理之后，接下来，话语状态确定装置5基于第一讲话者的语音区间以及第二讲话者的反馈语区间和特征量来计算第二讲话者的反馈语频率(步骤S405)。步骤S405由反馈语频率计算单元534来执行。在步骤S405中，反馈语频率计算单元534基于第一存储单元535中的反馈语强度确定信息和在步骤S404中计算的特征量，获得肯定反馈语反馈的次数cnt₀(m)和否定反馈语反馈的次数cnt₁(m)。此后，反馈语频率计算单元534通过使用公式(16)来计算第m帧中第二讲话者的反馈语频率ID(m)，并且将反馈语频率ID(m)输出至确定单元538。

接下来，话语状态确定装置5基于第二讲话者的平均反馈语频率JD和反馈语频率ID(m)来确定第二讲话者的满意度(步骤S406)。步骤S406由确定单元538来执行。确定单元538通过使用公式(17)来计算确定结果v(m)。确定单元538将确定结果v(m)作为第二讲话者的满意度输出至应答分数输出单元539。

接下来，话语状态确定装置5基于第二讲话者的满意度的确定结果来计算第一讲话者的应答分数并且输出所计算的应答分数(步骤S407)。步骤S407由应答分数输出单元539来执行。应答分数输出单元539通过使用确定单元538的确定结果v(m)和公式(18)来计算应答分数v'(m)。应答分数输出单元539使显示单元1205显示所计算的应答分数v'(m)，并且还使存储装置1206存储应答分数。

在输出应答分数v'(m)之后，话语状态确定装置5确定是否继续处理(步骤S408)。当不继续处理时(步骤S408：否)，话语状态确定装置5结束对第一讲话者和第二讲话者的语音信号的监测并且结束处理。

另一方面，当继续处理时(步骤S408：是)，话语状态确定装置5接下来检查第二讲话者的讲话者信息是否发生改变(步骤S409)。当讲话者信息info₂(n)未发生改变时(步骤S409：否)，话语状态确定装置5重复步骤S402和后续步骤中的处理。当讲话者信息info₂(n)发生改变时(步骤S409：是)，话语状态确定装置5将处理返回至步骤S401，针对改变后的第二讲话者计算平均反馈语频率JD，以及执行步骤S402和后续步骤中的处理。

如上所述，在实施方式4中，可以通过基于根据第二讲话者的语音信号计算的平均反馈语频率JD和反馈语频率ID(m)计算第一讲话者的应答分数v'(m)来间接地获得第二讲话者的满意度。

此外，因为在实施方式4中，根据第二讲话者的语速r来计算平均反馈语频率JD，所以即使在第二讲话者例如是天生不频繁地给出反馈语反馈的讲话者的情况下，也可以适当地计算出平均反馈语频率。

此外，在实施方式4中，根据在特征量计算单元533中计算的元音类型h(L)和音调偏移量df(L)将反馈语反馈分类成肯定反馈语反馈和否定反馈语反馈，并且基于分类来计算反馈语频率ID(m)。出于该原因，即使一帧中的反馈语反馈的次数相同，实施方式4中的反馈语频率ID(m)也响应于肯定反馈语反馈的次数而改变其值。因此，即使在第二讲话者是天生不频繁地给出反馈语反馈的讲话者的情况下，也能够基于反馈语反馈为肯定还是否定来确定第二讲话者是否满意。

注意，根据本实施方式的话语状态确定装置5不仅可以用于图18中所示的记录装置12，还可以用于在实施方式1至3中作为示例提供的语音呼叫系统。此外，记录装置12中的存储装置1206可以由诸如存储卡的便携式记录介质以及记录介质驱动单元构成，记录介质驱动单元可以从便携式记录介质读取数据并且可以在便携式记录介质中写入数据。

<实施方式5>

图23是示出了根据实施方式5的记录系统的功能配置的图。如图23中所示，根据本实施方式的记录系统14包括：第一麦克风13A、第二麦克风13B、记录装置15以及服务器16。作为示例，记录装置15和服务器16经由诸如因特网的通信网络连接。

记录装置15包括：第一AD转换器单元1501、第二AD转换器单元1502、语音文件化处理器单元1503、操作单元1504以及显示单元1505。

第一AD转换器单元1501将第一麦克风13A收集的语音信号从模拟信号转换成数字信号。第二AD转换器单元1502将第二麦克风13B收集的语音信号从模拟信号转换成数字信号。在以下描述中，由第一麦克风13A收集的语音信号是第一讲话者的语音信号，以及由第二麦克风13B收集的语音信号是第二讲话者的语音信号。

语音文件化处理器单元1503生成由第一AD转换器单元1501转换的第一讲话者的语音信号和由第二AD转换器单元1502转换的第二讲话者的语音信号的电子文件(语音文件)。语音文件化处理器单元1503将所生成的语音文件存储在服务器16的存储装置1601中。

操作单元1504是用于操作记录装置15的按钮式开关等。例如，当记录装置15的操作者通过操作操作单元1504而开始记录时，指定处理的开始命令从操作单元1504被输入至语音文件化处理器单元1503。当记录装置15的操作者执行用于再现所记录的语音(存储在存储装置1601中的语音文件)的操作时，记录装置15使用扬声器来再现从存储装置1601读出的语音文件，其中，在附图中未示出该扬声器。记录装置15在再现语音文件时还使话语状态确定装置5确定第二讲话者的话语状态。

显示单元1505显示话语状态确定装置5的确定结果(第二讲话者的满意度)等。

同时，服务器16包括存储装置1601和话语状态确定装置5。存储装置1601存储各种数据文件，包括在记录装置15的语音文件化处理器单元1503中生成的语音文件。话语状态确定装置5在再现存储在存储装置1601中的语音文件(第一讲话者与第二讲话者之间的对话的记录)时确定第二讲话者的话语状态(满意度)。

图24是示出了根据实施方式5的话语状态确定装置的功能配置的图。如图24中所示，根据本实施方式的话语状态确定装置5包括：语音区间检测单元541、反馈语区间检测单元542、反馈语频率计算单元543、平均反馈语频率估计单元544以及存储单元545。话语状态确定装置5还包括确定单元546和应答分数输出单元547。

语音区间检测单元541检测第一讲话者的语音信号(由第一麦克风13A收集的语音信号)中的语音区间。与根据实施方式1的话语状态确定装置5的语音区间检测单元501类似，语音区间检测单元541从第一讲话者的语音信号中检测下述区间作为语音区间：在所述区间中，根据语音信号获得的功率为特定阈值TH或高于特定阈值TH。

反馈语区间检测单元542检测第二讲话者的语音信号(由第二麦克风13B收集的语音信号)中的反馈语区间。与根据实施方式1的话语状态确定装置5的反馈语区间检测单元502类似，反馈语区间检测单元542对第二讲话者的语音信号进行形态分析，并且检测与登记在反馈语字典中的任意反馈语数据匹配的区间作为反馈语区间。

反馈语频率计算单元543计算第一讲话者的每说话时长内的第二讲话者的反馈语反馈的次数作为第二讲话者的反馈语频率。反馈语频率计算单元543将特定时间单位设定为一帧，并且基于根据一帧内的第一讲话者的语音区间计算的说话时长和根据第二讲话者的反馈语区间计算的反馈语反馈的次数来计算反馈语频率。与实施方式1类似，根据本实施方式的话语状态确定装置5中的反馈语频率计算单元543计算由公式(4)提供的反馈语频率IA(m)。

平均反馈语频率估计单元544估计第二讲话者的平均反馈语频率。平均反馈语频率估计单元544基于从第二讲话者的语音开始时间起过去指定帧数的时间段内的第二讲话者的语音区间来计算(估计)第二讲话者的反馈语频率的平均值。平均反馈语频率估计单元544执行与语音区间检测单元541类似的处理，并且检测从第二讲话者的语音开始时间起指定帧数(例如，两帧)的语音信号中的语音区间。平均反馈语频率估计单元544计算从所检测到的语音区间的开始时间start_j'至结束时间end_j'的第二讲话者的连续说话时长T_j和累积说话时长T_all。连续说话时长T_j和累积说话时长T_all分别根据以下公式(19)和(20)来计算。

T_j＝end_j′-start_j′ (19)

此外，平均反馈语频率估计单元544通过使用连续说话时长T_j和累积说话时长T_all来计算由以下公式(21)提供的时间T_sum。

T_sum＝ξ₁·T_j+ξ₂·T_all (21)

在公式(21)中，ξ₁和ξ₂是加权系数，并且作为示例，给定ξ₁＝ξ₂＝0.5。

此后，平均反馈语频率估计单元544通过参考存储在存储单元545中的平均反馈语频率的对应表545a来计算与所计算的时间T_sum对应的平均反馈语频率JE。此外，当第二讲话者的讲话者信息info₂(n)发生改变时，平均反馈语频率估计单元544将info₂(n-1)和平均反馈语频率JE存储在存储单元545的讲话者信息列表545b中。当第二讲话者的讲话者信息info₂(n)发生改变时，平均反馈语频率估计单元544参考存储单元545的讲话者信息列表545b。当改变后的讲话者信息info₂(n)在讲话者信息列表545b上时，平均反馈语频率估计单元544从讲话者信息列表545b读出与改变后的讲话者信息info₂(n)对应的平均反馈语频率JE，并且将平均反馈语频率JE输出至确定单元546。另一方面，当改变后的讲话者信息info₂(n)不在讲话者信息列表545b上时，平均反馈语频率估计单元544使用指定的初始值JE₀作为平均反馈语频率JE直至指定帧数过去为止，并且在指定帧数过去时以上述方式计算平均反馈语频率JE。

确定单元546基于在反馈语频率计算单元543中计算的反馈语频率IA(m)和在平均反馈语频率估计单元544中计算(估计)的平均反馈语频率JE来确定第二讲话者的满意度，即第二讲话者是否满意。确定单元546基于以下公式(22)中提供的判别式来输出确定结果v(m)。

在公式(22)中，β₁和β₂是修正系数，并且作为示例，给定β₁＝0.2以及β₂＝1.5。

确定单元546将所计算的确定结果v(m)传送至记录装置15，使记录装置15的显示单元1505显示确定结果，并且将确定结果输出至应答分数计算单元547。

应答分数计算单元547计算在第一讲话者与第二讲话者之间的对话期间第二讲话者的满意度V。作为示例，通过使用实施方式3中提供的公式(14)来计算该满意度V。应答分数计算单元547将该整体满意度V传送至记录装置15，并且使记录装置15的显示单元1505显示整体满意度V。

图25是提供了平均反馈语频率的对应表的示例的图。

尽管实施方式1至3基于第二讲话者的反馈语频率来计算平均反馈语频率，但本实施方式如上所述基于第二讲话者的说话时长(语音区间)来计算(估计)平均反馈语频率。具有较长说话时长的讲话者往往比具有较短说话时长的讲话者更频繁地作出反馈语反馈。出于该原因，如在图25中所示的对应表545a中那样，例如，随着与通过使用公式(19)至公式(21)计算的说话时长相关的时间T_sum变得越长，平均反馈语频率JE越大。因此，可以计算出趋势与实施方式1至3类似的平均反馈语频率JE。

图26是提供了由根据实施方式5的话语状态确定装置执行的处理的细节的流程图。

当操作者操作记录装置15的操作单元1504以使得对存储在存储装置1601中的对话记录的再现开始时，根据本实施方式的话语状态确定装置5执行图26中提供的处理。

话语状态确定装置5读出第一讲话者和第二讲话者的语音文件(步骤S500)。步骤S500由设置在话语状态确定装置5中的读取单元(未示出)来执行。话语状态确定装置5中的读取单元从存储装置1601中读出与通过记录装置15的操作单元1504指定的对话记录对应的第一讲话者和第二讲话者的语音文件。读取单元将第一讲话者的语音文件输出至语音区间检测单元541和平均反馈语频率估计单元544。读取单元还将第二讲话者的语音文件输出至反馈语区间检测单元542和平均反馈语频率估计单元544。

接下来，话语状态确定装置5执行平均反馈语频率估计处理(步骤S501)。步骤S501由平均反馈语频率估计单元544来执行。在检测到从第二讲话者的语音开始时间起两帧(60秒)的语音信号中的语音区间之后，平均反馈语频率估计单元544通过使用公式(19)至公式(21)来计算时间T_sum。此后，平均反馈语频率估计单元544参考存储在存储单元545中的平均反馈语频率的对应表545a，并且将与所计算的时间T_sum对应的平均反馈语频率JE作为第二讲话者的平均反馈语频率输出至确定单元546。

接下来，话语状态确定装置5执行用于从第一讲话者的语音文件检测语音区间的处理(步骤S502)和用于从第二讲话者的语音文件检测反馈语区间的处理(步骤S503)。步骤S502由语音区间检测单元541来执行。语音区间检测单元541通过使用公式(1)和公式(2)来计算第一讲话者的语音文件中的语音区间的检测结果u₁(L)。语音区间检测单元541将语音区间检测结果u₁(L)输出至反馈语频率计算单元543。步骤S503由反馈语区间检测单元542来执行。反馈语区间检测单元542在通过上述形态分析等检测到反馈语区间之后，通过使用公式(3)来计算反馈语区间的检测结果u₂(L)。反馈语区间检测单元542将反馈语区间的检测结果u₂(L)输出至反馈语频率计算单元543。

注意，在图26的流程图中，在步骤S502之后执行步骤S503，但是该顺序并未受限。因此，可以在步骤S502之前执行步骤S503。此外，可以并行地执行步骤S502和步骤S503。

当步骤S502和步骤S503中的处理结束时，话语状态确定装置5接下来基于第一讲话者的语音区间和第二讲话者的反馈语区间来计算第二讲话者的反馈语频率(步骤S504)。步骤S504由反馈语频率计算单元543来执行。反馈语频率计算单元543如实施方式1中说明的那样通过使用第m帧中的语音区间的检测结果和反馈语区间的检测结果来计算由公式(4)提供的反馈语频率IA(m)。

话语状态确定装置5接下来基于第二讲话者的平均反馈语频率JE和反馈语频率IA(m)来确定第二讲话者的满意度并且输出确定结果(步骤S505)。步骤S505由确定单元546来执行。确定单元546通过使用公式(22)来计算确定结果v(m)。

接下来，话语状态确定装置5将与所计算的确定结果v(m)的值对应的满意度的帧数加1(步骤S506)。步骤S506由应答分数输出单元547来执行。此处，满意度的帧数为公式(14)中使用的c₀、c₁和c₂。作为示例，当确定结果v(m)是0时，在步骤S506中将c₀的值加1。当确定结果v(m)是1或2时，在步骤S506中分别将c₁的值或c₂的值加1。

话语状态确定装置5接下来基于满意度的帧数来计算第一讲话者的应答分数并且输出所计算的应答分数(步骤S507)。步骤S507由应答分数输出单元547来执行。在步骤S507中，应答分数输出单元547通过使用公式(14)来计算第二讲话者的满意度V，并且该满意度V变成第一讲话者的应答分数。应答分数输出单元547还将所计算的满意度V(应答分数)输出至记录装置15的扬声器(未示出)。

在计算出应答分数之后，话语状态确定装置5决定是否继续处理(步骤S508)。当不继续处理时(步骤S508：否)，话语状态确定装置5结束对第一讲话者和第二讲话者的语音文件的读取并且结束处理。

另一方面，当继续处理时(步骤S508：是)，话语状态确定装置5接下来检查第二讲话者的讲话者信息是否发生改变(步骤S509)。当第二讲话者的讲话者信息info₂(n)未发生改变时(步骤S509：否)，话语状态确定装置5重复步骤S502和后续步骤中的处理。当第二讲话者的讲话者信息info₂(n)发生改变时(步骤S509：是)，话语状态确定装置5将处理返回至步骤S501，针对改变后的第二讲话者计算平均反馈语频率JE，以及执行步骤S502和后续步骤中的处理。

如上所述，实施方式5使用基于第二讲话者的连续说话时长T_j和累积说话时长T_all所计算的反馈语频率的平均值JE作为平均反馈语频率。出于该原因，即使第二讲话者例如是天生不频繁地给出反馈语反馈的讲话者，也可以适当地计算出平均反馈语频率，因此可以确定第二讲话者是否满意。

注意，根据本实施方式的话语状态确定装置5不仅可以用于图23中所示的记录系统14，还可以用于在实施方式1至3中作为示例提供的语音呼叫系统。

此外，话语状态确定装置5的配置和由话语状态确定装置5执行的处理并不限于在实施方式1至5中作为示例提供的配置或处理。

在实施方式1至5中作为示例提供的话语状态确定装置5例如可以通过计算机和由计算机执行的程序来实现。

图27是示出了计算机的硬件结构的图。如图27中所示，计算机17包括：处理器1701、主存储装置1702、辅助存储装置1703、输入装置1704以及显示装置1705。计算机17还包括接口装置1706、记录介质驱动单元1707以及通信装置1708。计算机17中的这些元件1701至1708经由总线1710彼此连接，并且这些元件之间可以交换数据。

处理器1701是诸如中央处理单元(CPU)的处理单元，并且通过执行包括操作系统的各种程序来控制计算机17的整体操作。

主存储装置1702包括只读存储器(ROM)和随机存取存储器(RAM)。主存储装置1702中的ROM预先记录指定的基本控制程序等，这些基本控制程序等例如在计算机17启动时被处理器1701读出。当处理器1701执行各种程序时，主存储装置1702中的RAM在必要时用作工作存储区。主存储装置1702中的RAM例如可以用于临时存储(保留)平均反馈语频率、第一讲话者的语音区间以及第二讲话者的反馈语区间，其中，平均反馈语频率是反馈语频率等的平均值。

辅助存储装置1703是诸如硬盘驱动器(HDD)和固态驱动器(SSD)的大容量存储装置，其容量与主存储装置1702相比更大。辅助存储装置1703存储由处理器1701执行的各种程序、各种数据等。作为示例，存储在辅助存储装置1703中的程序包括使计算机执行图4和图5中所示的处理的程序以及使计算机执行图9和图10中所示的处理的程序。此外，辅助存储装置1703可以存储作为示例用于实现计算机17与另一话机(或另一计算机)之间的语音呼叫的程序以及用于根据语音信号生成语音文件的程序。存储在辅助存储装置1703中的数据包括语音呼叫的电子文件、第二讲话者的满意度的确定结果等。

输入装置1704例如是键盘装置或鼠标装置，以及当计算机17的操作者操作输入装置1704时，与操作的内容相关联的输入信息被传送至处理器1701。

作为示例，显示装置1705是液晶显示器。液晶显示器根据从处理器1701传送的显示数据等显示各种文本、图像等。

接口装置1706例如是用于将诸如麦克风201和接收器(扬声器)203的电子装置连接至计算机17的输入/输出装置。

记录介质驱动单元1707是用于读出记录在便携式记录介质中的程序和数据以及将存储在辅助存储装置1703中的数据等写入便携式记录介质的装置，在附图中未示出便携式记录介质。例如，具有通用串行总线(USB)连接器的闪存可以用作便携式记录介质。此外，诸如致密盘(CD)、数字多功能光盘(DVD)和蓝光盘(蓝光是商标)的光盘可以用作便携式记录介质。

通信装置1708是可以与计算机17和其他计算机等通信的装置或者是可以连接计算机17和其他计算机等以使得能够通过诸如因特网的通信网络彼此通信的装置。

计算机17可以用作例如图1中所示的第一话机3中的语音呼叫处理器单元202和显示单元204以及话语状态确定装置5。在这种情况下，例如，计算机17从辅助存储装置1703读出用于使用IP网络4进行语音呼叫的程序并且预先执行程序，以及准备与第二话机3进行呼叫连接。当通过来自第二话机3的控制信号建立了计算机17与第二话机3之间的呼叫连接时，处理器1701执行用于执行图4和图5中所示的处理的程序并且执行与语音呼叫相关的处理以及用于确定第二讲话者的满意度的处理。

此外，作为示例，能够使计算机17执行用于针对每个语音呼叫根据第一讲话者和第二讲话者的语音信号生成语音文件的处理。所生成的语音文件可以被存储在辅助存储装置1703中或者可以通过记录介质驱动单元1707而被存储在便携式记录介质中。此外，可以将所生成的语音文件传送至通过通信装置1708和通信网络连接的其他计算机。

注意，用作话语状态确定装置5的计算机17不需要包括图27中所示的所有元件，而是可以取决于预期使用或情形省略一些元件(例如，记录介质驱动单元1707)。此外，计算机17并不限于可以通过执行各种程序来实现多种功能的多用途类型，而是还可以使用专用于确定语音呼叫或对话中特定讲话者(第二讲话者)的满意度的装置。

Claims

1.一种话语状态确定装置，包括：

平均反馈语频率估计单元，所述平均反馈语频率估计单元被配置成基于第一讲话者的语音信号和第二讲话者的语音信号来估计平均反馈语频率，所述平均反馈语频率表示在从所述第二讲话者的所述语音信号的语音开始时间至预定时间的时间段中所述第二讲话者的反馈语频率；

反馈语频率计算单元，所述反馈语频率计算单元被配置成基于所述第一讲话者的所述语音信号和所述第二讲话者的所述语音信号来计算每单位时间中所述第二讲话者的反馈语频率；以及

确定单元，所述确定单元被配置成基于所估计的平均反馈语频率和所计算的反馈语频率来确定所述第二讲话者的满意度。

2.根据权利要求1所述的话语状态确定装置，其中，

所述平均反馈语频率估计单元基于在从所述第二讲话者的所述语音信号的语音开始时间至所述预定时间的时间段中所述第二讲话者的反馈语反馈的次数来估计所述平均反馈语频率。

3.根据权利要求1所述的话语状态确定装置，其中，

所述平均反馈语频率估计单元基于从所述第二讲话者的所述语音信号的语音开始时间至结束时间的反馈语频率来估计所述平均反馈语频率。

4.根据权利要求1所述的话语状态确定装置，其中，

所述平均反馈语频率估计单元基于根据所述第二讲话者的所述语音信号计算的语速来估计所述平均反馈语频率。

5.根据权利要求1所述的话语状态确定装置，其中，

所述平均反馈语频率估计单元通过使用根据所述第二讲话者的所述语音信号中的语音区间的开始时间和结束时间获得的说话时长来计算所述第二讲话者的说话时长，并且基于所计算的说话时长来估计所述平均反馈语频率。

6.根据权利要求1所述的话语状态确定装置，其中，

所述平均反馈语频率估计单元计算所述第二讲话者的所述语音信号中的累积说话时长，并且根据所述第二讲话者的所述累积说话时长来估计所述平均反馈语频率。

7.根据权利要求1所述的话语状态确定装置，其中，

所述平均反馈语频率估计单元在所述第二讲话者的讲话者信息发生改变时将所述平均反馈语频率恢复成预定值，并且估计所述改变之后的所述第二讲话者的所述平均反馈语频率。

8.根据权利要求7所述的话语状态确定装置，还包括：

存储单元，所述存储单元被配置成将所述第二讲话者的讲话者信息和所述第二讲话者的所述平均反馈语频率彼此相关联地存储，其中，

所述平均反馈语频率估计单元在所述第二讲话者的讲话者信息发生改变时参考所述存储单元，并且在改变之后的讲话者信息存储在所述存储单元中时从所述存储单元读出所述第二讲话者的讲话者信息。

9.根据权利要求1所述的话语状态确定装置，还包括：

语音区间检测单元，所述语音区间检测单元被配置成检测所述第一讲话者的所述语音信号中包括的语音区间；以及

反馈语区间检测单元，所述反馈语区间检测单元被配置成检测所述第二讲话者的所述语音信号中包括的反馈语区间，其中，

所述反馈语频率计算单元基于所检测到的语音区间和所检测到的反馈语区间来计算所述第一讲话者的说话时长中所述第二讲话者的反馈语反馈的次数。

10.根据权利要求1所述的话语状态确定装置，还包括：

特征量计算单元，所述特征量计算单元被配置成计算所述第二讲话者的反馈语区间的声学特征量；以及

存储单元，所述存储单元被配置成存储根据所述第二讲话者的所述反馈语区间中的声学特征量的反馈语反馈分类，其中，

所述反馈语频率计算单元基于所计算的特征量和所述反馈语反馈分类来计算所述第二讲话者的反馈语频率。

11.根据权利要求1所述的话语状态确定装置，其中，

所述反馈语频率计算单元根据所述第一讲话者的所述语音信号中的语音区间的开始时间和结束时间来计算说话时长，根据所述第二讲话者的所述语音信号中的反馈语区间来计算反馈语反馈的次数，以及还计算每所述说话时长内的反馈语反馈的次数作为所述反馈语频率。

12.根据权利要求1所述的话语状态确定装置，其中，

所述反馈语频率计算单元根据所述第一讲话者的所述语音信号中的语音区间的开始时间和结束时间来计算说话时长，根据在所述第一讲话者的所述语音信号的所述语音区间的开始时间与结束时间之间检测到的所述第二讲话者的所述语音信号的反馈语区间来计算反馈语反馈的次数，以及还计算每所述说话时长内的反馈语反馈的次数作为所述反馈语频率。

13.根据权利要求1所述的话语状态确定装置，其中，

所述反馈语频率计算单元根据所述第一讲话者的所述语音信号中的语音区间的开始时间和结束时间来计算说话时长，根据在所述第一讲话者的所述语音信号的所述语音区间的开始时间与结束时间之间以及在紧接在所述语音区间之后的预先设定的预定时间段内检测到的、所述第二讲话者的所述语音信号的反馈语区间来计算反馈语反馈的次数，以及还计算每所述说话时长内的反馈语反馈的次数作为所述反馈语频率。

14.一种话语状态确定方法，包括：

由计算机基于第一讲话者的语音信号和第二讲话者的语音信号来估计平均反馈语频率，所述平均反馈语频率表示在从所述第二讲话者的所述语音信号的语音开始时间至预定时间的时间段中所述第二讲话者的反馈语频率；

由所述计算机基于所述第一讲话者的所述语音信号和所述第二讲话者的所述语音信号来计算每单位时间中所述第二讲话者的反馈语频率；以及

由所述计算机基于所述平均反馈语频率和每单位时间中所述第二讲话者的反馈语频率来确定所述第二讲话者的满意度。