CN101542592A

CN101542592A - 关键词提取装置

Info

Publication number: CN101542592A
Application number: CN200880000290.2A
Authority: CN
Inventors: 远藤充; 山田麻纪; 森井景子; 小沼知浩; 野村和也
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2007-03-29
Filing date: 2008-03-14
Publication date: 2009-09-23
Also published as: JP4838351B2; JPWO2008126355A1; EP2045798A1; EP2045798B1; US20090150155A1; EP2045798A4; WO2008126355A1; US8370145B2

Abstract

提取会话的关键词而不是提前预测并准备会话的关键词。关键词提取装置，包括：音频输入部分(101)，用于输入说话者的讲话；讲话片段确定部分(102)，用于确定每个说话者的输入讲话的讲话片段；讲话识别部分(103)，用于识别在所确定的讲话片段的讲话；中断检测部分(104)，基于另一个说话者对说话者的讲话的响应检测暗示关键词存在的另一个说话者的讲话响应特征，即，在前讲话和后续讲话相互重叠的中断；关键词提取部分(105)，用于从根据中断所指定的讲话部分中的讲话中提取关键词；关键词搜索部分(106)，用于通过关键词执行关键词搜索；以及显示部分(107)，用于显示关键词搜索的结果。

Description

关键词提取装置

技术领域

本发明涉及关键词提取装置，并且更具体地，涉及提取会话(conversation)关键词的关键词提取装置。

背景技术

相关技术的关键词提取装置预先保留(retain)相应数据，该相应数据示出例如微波炉的关键词和例如访问URL的动作信息之间的相关性(correlation)。关键词提取装置根据相应数据从特定的会话中检测关键词，并基于相应于关键词的动作信息执行处理。从而，通过讲话识别的手段提交了信息(例如，专利文件1)。

专利文件1：JP-A-2005-215726(见段落0021到0036以及图2和图3)

发明内容

发明要解决的问题

但是，在关于专利文件1描述的提取器中，必须为各个希望的场景准备相应数据；因此，存在利用提取器时遭遇困难的问题。

本发明已经考虑到处理该情形，并且目的在于提供能够提取会话关键词而不需要提前预测和准备会话关键词的关键词提取装置。

用于解决问题的方法

为了解决相关领域的问题，本发明包括：音频输入部分，通过该音频输入部分输入由说话者进行的讲话声音；讲话片段确定部分，关于输入讲话声音对于每个说话者确定讲话片段；讲话识别部分，识别为每个说话者所确定的讲话片段的讲话声音；讲话响应特征提取部分，基于另一个说话者对说话者的讲话声音的响应，提取暗示关键词存在的响应特征；以及关键词提取部分，从基于所提取的讲话响应的特征所指定的讲话片段的讲话声音，提取关键词。

本发明的优点

根据本发明，可提取会话的关键词，而不需要为会话提前、预期地准备关键词。

附图说明

[图1]示出了包括本发明的第一实施例的关键词提取装置的整体系统的示例配置的框图。

[图2]示出了本发明的第一实施例的讲话片段的示例的视图。

[图3]示出了图1中所示的关键词提取装置的操作的流程图。

[图4]示出了本发明的第二实施例的关键词提取装置的示例配置的框图。

[图5]示出了本发明的第二实施例的示例斜度图样(pattern)的视图。

[图6]示出了图4中所示的关键词提取装置的操作的流程图。

[图7]示出了本发明的第三实施例的关键词提取装置的示例配置的框图。

[图8]示出了图7中所示的关键词提取装置的操作的流程图。

[图9]示出了本发明的第四实施例的关键词提取装置的示例配置的框图。

[图10]示出了本发明的第四实施例的示例讲话片段、示例讲话内容和面部表情识别的示例结果的视图。

[图11]示出了图9中所示的关键词提取装置的操作的流程图。

[图12]示出了本发明的第五实施例的关键词提取装置的示例配置的框图。

[图13]示出了图12中所示的关键词提取装置的操作的流程图。

附图标记描述

100、100A、100B、100C、100D 关键词提取装置

101 音频输入部分

102 讲话片段确定部分

103 讲话识别部分

104 中断检测部分

105、105A、105B、105C、105D 关键词提取部分

106 关键词搜索部分

107 显示部分

201 斜度确定部分

202 斜度图样确定部分

301 功能短语提取部分

302 功能短语存储部分

401 视频输入部分

402 面部表情识别部分

501 激动反应检测部分

具体实施方式

以下将参考附图描述本发明的第一到第五实施例。将基于假定的场景来描述第一到第五实施例；例如，两个说话者A和B，通过使用例如便携式蜂窝电话的信息终端进行会话。

(第一实施例)

图1是示出了包括本发明的第一实施例的关键词提取装置的整体系统的示例配置的框图。

在图1中，关键词提取装置100是特定说话者A的信息终端，并配置以便使得能够与例如因特网的网络400建立连接。网络400以如下方式配置：另一说话者B的信息终端200和搜索服务器300连接到该网络。关键词提取装置100和信息终端200是例如便携式蜂窝电话、笔记本电脑和便携式信息终端的信息终端。搜索服务器300是配备有已知搜索引擎的服务器。

关键词提取装置100具有音频输入部分101、讲话片段确定部分102，讲话识别部分103、中断检测部分104、关键词提取部分105、关键词搜索部分106和显示部分107。

音频输入部分101用于输入说话者的语音(以下称为“讲话声音”)。音频输入部分101相应于与例如麦克风、网络400等的通信接口。

讲话片段确定部分102关于输入讲话声音来确定每个说话者的讲话片段。讲话片段指从说话者开始讲话时直到说话者结束讲话时的片段。

例如，在说话者A和说话者B之间进行的会话如图2A或图2B中所示，讲话片段确定部分102确定从说话者A的讲话的开始时间ts1到结束时间te1的片段；即，ts1-te1，作为说话者A的讲话片段1。此外，讲话片段确定部分102确定从说话者B的讲话的开始时间ts2到结束时间te2的片段；即，ts2-te2，作为说话者B的讲话片段2。

回到图1，讲话识别部分103对于每个说话者识别在这样确定的讲话片段中的讲话声音。具体地，讲话识别部分103通过已知的讲话识别技术将所有说话者的会话讲话转换为文本。此外，讲话识别部分103使得开始时间(开始点)和结束时间(结束点)与单个说话者的讲话相对应。

中断检测部分104(讲话响应特征提取部分)基于关于所确定的讲话片段的各个说话者的讲话声音检测讲话的特征；即，在前的讲话和后续讲话相互重叠的中断。例如，当在说话者A和说话者B之间进行的会话是图2B所示的会话时，中断检测部分104检测由于说话者B的后续讲话于说话者A的在前讲话的中间(即，在ts1)开始的中断，检测方法如下。

具体地，中断检测部分104首先测量从后续讲话的开始时间到紧挨在后续讲话之前的讲话的结束时间的片段(以下称为“讲话间隔”)。例如，在图2A、2B的情况下，中断检测部分104通过使用图2A、2B中的ts2-te1＝讲话间隔的计算等式来计算讲话间隔。然后，中断检测部分104确定讲话间隔是否呈现负值(见图2B)作为计算结果。当讲话间隔呈现负值(见图2B)时，中断检测部分104通过考虑存在中断来执行检测。

关键词提取部分105基于所提取的讲话特征，即，在前讲话和后续讲话相互重叠处的中断，从讲话识别部分102所识别的讲话声音中提取作为讲话声音的会话主题的词(以下称为“关键词”)。具体地，关键词提取部分105从讲话识别部分102获得由讲话识别部分102识别的讲话。使得讲话与每个说话者的开始时间和结束时间对应。此外，关键词提取部分105从中断检测部分104获得其中中断检测部分104已经检测到中断的讲话片段(例如，图2B中所示的说话者B的讲话片段2)和被中断的讲话片段(例如，图2B中所示的说话者A的讲话片段1)。依靠开始时间和结束时间，使得讲话片段彼此对应。

当提取关键词时，关键词提取部分105提取；例如，在被中断的在前讲话的结尾(最后)的组成元素(例如，名词)作为关键词。在前讲话的结束意味着在中断前(例如，图2B中的时间ts2)的讲话片段的内部(例如，图2B中ts1-ts2)。

具体地，关键词提取部分105首先从所获取的各个说话者的讲话片段(例如，图2B中所示的讲话片段1、2)选择开始较早的讲话片段(例如，图2B中的讲话片段1)。接下来，关键词提取部分105检测位于紧挨在所获取的另一讲话片段的开始时间(即，中断时间；例如，图2B中的ts2)之前所选择的讲话片段(例如，图2B中的讲话片段1)的组成元素(例如，名词)。关键词提取部分105提取这样所检测的组成元素(例如，名词)作为关键词。

关键词搜索部分106通过使用所提取的关键词来进行关键词的搜索。具体地，关键词搜索部分106首先通过网络400连接到搜索服务器300。当从关键词搜索部分106接收到搜索关键词的请求时，搜索服务器300通过网络400将关键词的搜索结果返回到关键词提取装置100的关键词搜索部分106。通过返回，关键词搜索部分106从搜索服务器300接收关键词的搜索结果。

显示部分107显示由关键词搜索部分106执行的搜索的结果；即，由搜索服务器300执行的搜索的结果。显示部分107是显示装置，例如显示器和显示面板。

在本实施例中，讲话片段确定部分102、讲话识别部分103、中断检测部分104、关键词提取部分105和关键词搜索部分106相应于例如CPU的处理器。在其他方面，关键词提取装置100假设具有包括例如存储器的存储装置(未示出)的已知结构。

现在将参考图3来描述关键词提取装置100的操作。在图3中，基于以下假设来提供解释，即，通过使用关键词提取装置100和信息终端200，2个说话者A、B正在进行会话。

首先，关键词提取装置100(讲话片段确定部分102)通过从音频输入部分100和信息终端200输入的讲话声音，来确定每个说话者的讲话片段(步骤S101)。在确定时，讲话片段确定部分102确定每个说话者的讲话声音的音量等级是否大于阈值，并评估其中声音等级大于阈值的片段为讲话片段。

例如，当在说话者A和说话者B之间的会话例如是图2A或图2B中所示的会话时，讲话片段确定部分102确定说话者A的讲话的从开始时间ts1到结束时间te1的片段；即，ts1-te2作为说话者A的讲话片段1。此外，讲话片段确定部分103确定从开始时间ts2到结束时间te2的说话者B的讲话的片段；即，ts2-te2作为说话者B的讲话片段2。

接下来，关键词提取装置100(讲话识别部分103)识别为每个说话者确定的讲话片段的讲话声音(步骤S102)。假设通过分析例如基于频带的特征来实现识别。此外，当执行识别时，讲话识别部分103通过已知的讲话识别技术将所有说话者的讲话声音转换为文本。

关键词提取装置100(中断检测部分104)从所确定的讲话片段中检测中断(步骤S103)。具体地，中断检测部分104计算通过从后续讲话的开始时间减去紧挨着的在前讲话的结束时间所确定的间隔；即，讲话间隔(例如图2A和2B中的te1-ts2)。当计算的结果示出讲话间隔的值(例如，在图2B中讲话间隔＝te1-ts2)为负时，中断检测部分104确定在后续会话中发生了中断。

接下来，关键词提取装置100(关键词提取部分105)提取并确定在所检测的、其中发生了中断的会话讲话(在步骤S102中识别的会话讲话)中的关键词(步骤S104)。具体地，关键词提取部分105在后续讲话之前紧挨着的讲话中提取名词，并确定该名词为讲话中的关键词。

例如，当说话者A在图2B中的时间ts1开始讲话“东京天空树将......”时和当说话者B在图2B中的时间ts2开始响应的讲话“将在哪里建它？”时，关键词提取部分105确定说话者A在紧挨在ts2之前发出的名词“东京天空树”是作为会话的主题的词。关键词提取部分105可确定词“东京天空树”为会话的主题，而不从事先预期的关键词注册的数据库提取关键词“东京天空树”。

当讲话间隔显示正值时(见图2A)，关键词提取部分105确定讲话中不包含关键词并且不提取任何关键词。

关键词提取装置100(关键词搜索部分106)执行对于这样确定的关键词的搜索(步骤S105)。具体地，关键词搜索部分106请求搜索服务器300通过网络400搜索关键词。搜索服务器300执行所请求的对于关键词的搜索，并将搜索结果发送到关键词搜索部分106。关键词搜索部分106接收从搜索服务器300所发送的搜索结果。

关键词搜索部分106将所接收搜索结果显示在显示部分107上(步骤S106)。结果，对于说话者，掌握关于讲话中的关键词(例如，东京天空树)的信息(搜索结果)成为可能。

替代中断检测部分104，激活沉默检测部分，该沉默检测部分检测由讲话间隔预先设定的阈值(例如，3秒)或更大值的沉默，并且其对于提取暗示关键词的存在的讲话响应的特征也是有用的。

如上所述，根据本发明的实施例，关键词提取装置100检测中断，该中断为暗示关键词的存在的讲话响应的特征，并提取会话的关键词。因此，关键词提取装置100可基于发生或未发生说话者的中断提取会话的关键词，而不是事先预期会话的关键词并在数据库中注册预期的关键词等。

第一实施例已经描述了其中关键词提取装置100顺序执行关于图3中的步骤S101到S106的处理的情况，但是处理不限于该顺序。例如，关键词提取装置100可通过改变图3中所示的顺序执行关于图3中所示的步骤的处理，或并行执行关于相应步骤的处理。

(第二实施例)

第二实施例的关键词提取装置基于作为讲话响应的特征的斜度的图样(音调的高度)来提取会话的关键词。

图4是示出了本发明的第二实施例的关键词提取装置的示例结构的框图。在第二实施例中，与第一实施例的元件相同的元件被分配了相同的附图标记和与在第一实施例中所使用的术语相同的术语，并且省略了它们重复的解释。

在图4中，关键词提取装置100A具有替代图1中所示的第一实施例的中断检测部分104的斜度确定部分201和斜度图样确定部分202。此外，关键词提取装置1004A与第一实施例的其对应部分的不同在于使用关键词提取部分105A替代图1中所示的第一实施例的关键词提取部分105。斜度确定部分201、斜度图样确定部分202以及关键词提取部分105A相应于例如CPU的处理器。在其他方面，包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。

关于由讲话片段确定部分102确定的讲话片段，斜度确定部分201和斜度图样确定部分202(二者也称为“讲话响应特征提取部分”)基于相应说话者的讲话声音，提取作为讲话特征的斜度图样。具体地，斜度确定部分201确定讲话声音的斜度。本实施例的斜度确定部分201例如每10ms划分讲话声音，从而确定斜度。

基于这样确定的斜度，斜度图样确定部分202确定斜度图样(讲话响应的特征)，该斜度图样包括在前讲话的结束处的下降斜度(见图5中的片段tc1-te1)和紧跟随在前讲话的讲话的上升斜度(见图5中的片段tc2-te2)。图5示出了示例确定。在图5中，水平轴代表时间，而垂直轴代表频率。

在前讲话“东京天空树将”呈现在图5的讲话片段ts1-te1中，并且后续讲话“它将是......？”呈现在讲话片段ts2-te2中。确定在在前讲话“东京天空树将”的结尾呈现下降斜度，并且确定在后续讲话“它将是......？”中呈现上升斜度。进行这样确定的原因在于斜度图样确定部分202已经进行了如下确定。

具体地，因为在图5中的“东京天空树将”的讲话片段ts1-te1中，讲话片段最后(结束时间)的频率“f”高于中点tc1的频率“f”，所以斜度图样确定部分202确定上升斜度。因为在图5的“它将是......？”的讲话片段ts2-te2中，讲话片段最后(结束时间)的频率“f”低于中点tc2的频率“f”，所以斜度图样确定部分202确定下降斜度。

对于以下情况给出解释，即，本实施例的斜度图样确定部分202参考讲话片段中点的频率来确定上升斜度或下降斜度，但是斜度图样确定部分不限于该情况。例如，斜度确定部分201还可参考从讲话片段的结束时间(例如，图5中的te1或te2)返回预定片段(例如，时间T)的时间点来进行确定。

关键词提取部分105A从所确定的斜度图样指示的在前讲话提取关键词。在提取操作时，关键词提取部分105A提取在由斜度图样所指示的在前讲话的结尾的组成元素(例如名词)作为关键词。

现在将参考图6来描述关键词提取装置100A的操作。在图6中，例如假设在说话者A通过使用关键词提取装置100A说了“将来东京天空树将......”之后说话者B将通过使用信息终端200说“它将......吗？”而提供解释。关于图7中的步骤S101到S102和S105到S106的处理与关于图3中的步骤S101到S102和S105到S106的处理类似，因此直接省略了它们的描述。

首先，关键词提取装置100A(讲话片段确定部分102)通过从讲话输入部分100和信息终端200输入的讲话声音，来确定每个说话者的讲话片段(见图2A中的讲话片段1和图2B中的讲话片段2)(步骤S101)。接下来，关键词提取装置100A(讲话识别部分103)识别为每个说话者确定的讲话片段的讲话声音(步骤S102)。

关键词提取装置100A(斜度确定部分201)基于例如说话者A的在前讲话的讲话片段1的讲话声音(见图2A)和说话者B的后续讲话的讲话片段2的讲话声音(见图2B)来确定讲话声音的斜度(步骤S103A)。

当从在前讲话到后续讲话发生移动时，关键词提取装置100A(斜度图样确定部分202)基于这样确定的斜度图样来确定是否存在从下降斜度改变到上升斜度的斜度图样(步骤S103B)。具体地，斜度图样确定部分202确定斜度图样，其包括在在前讲话的结尾的下降斜度(见图5中的片段tc1-te1)和在在前讲话之后紧挨着的讲话中的上升斜度(见图5中的片段tc2-te2)。

关键词提取装置100A(关键词提取部分105A)从这样确定的斜度图样所指示的讲话声音(步骤S102中所识别的)的在前讲话(例如，图5中的“东京天空树将”)提取关键词(步骤S104A)。在提取操作时，关键词提取部分105A提取例如由斜度图样所指示的在前讲话结尾的名词“东京天空树”作为关键词。

关键词提取装置100A(关键词搜索部分106)使得搜索服务器300通过网络400搜索这样确定的关键词(步骤S105)。关键词搜索部分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果，说话者能掌握关于作为主题的词(例如，“东京天空树”)的信息(搜索结果)。

如上所述，在本实施例中，关键词提取装置100A确定斜度图样，该斜度图样为暗示关键词的存在的讲话响应的特征，从而提取会话的关键词。因此，关键词提取装置100A可基于存在或不存在斜度图样提取会话的关键词，而不是准备，即事先预期会话中将使用的关键词并在数据库中注册预期的关键词等。

第二实施例已经描述了关键词提取装置100A顺序执行关于图7中的步骤S101到S102、S103A到S103B、S104A以及S105到S106的处理的情况；但是，处理不限于该顺序。例如，关键词提取装置100A还可以通过改变关于图7中所示的相应步骤的处理顺序来执行处理，或并行执行关于相应步骤的处理。

(第三实施例)

第三实施例的关键词提取装置基于作为讲话响应的特征的功能短语来提取会话的关键词。

图7示出了本发明的第三实施例的关键词提取装置的示例结构的框图。在第三实施例中，与第一实施例的元件相同的元件被分配了相同的附图标记和与在第一实施例中所使用的术语相同的术语，并且省略了它们重复的解释。

在图7中，关键词提取装置100B使用功能短语提取部分301(讲话响应特征提取部分)替代图1中所示的第一实施例的中断检测部分104。关键词提取装置100B还具有功能短语存储部分302。关键词提取装置100B与第一实施例的其对应部分的不同在于使用关键词提取部分105B替代图1中所示的第一实施例的关键词提取部分105。功能短语提取部分301为例如CPU的处理器，并且功能短语存储部分302为例如存储器的存储装置。在其他方面，包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。

功能短语存储部分302存储预先定义的功能短语。功能短语是示出响应的类型以及不考虑各种不同会话的内容而在会话中共同使用的词。例如，功能短语相应于疑问(interrogative)句，例如“它是......吗？”；同意的句子，例如“好”、“我知道了”和“就是这样”；否定句，例如“不是”；请求句，例如“请”；感叹句，例如“很好”；以及疑问(feeding)句，例如“为什么？”；等等。

功能短语提取部分301从讲话声音提取作为讲话声音的特征的功能短语。具体地，功能短语提取部分301比较包括在讲话声音中的将成为提取的目标的词行与功能短语存储部分302中的功能短语，从而提取包括在讲话声音中的功能短语。

接下来，将参考图8来描述关键词提取装置100B的操作。在图8中，例如假设在说话者A通过使用关键词提取装置100B说了“将来将建造东京天空树”之后说话者B将通过使用信息终端200说“它将建造在哪里呢？”而提供解释。关于图8中的步骤S101到S102和S105到S106的处理与关于图3中的步骤S101到S102和S105到S106的处理类似，因此直接省略了它们的描述。

首先，关键词提取装置100B(讲话片段确定部分102)通过从讲话输入部分100和信息终端200输入的讲话声音，来确定每个说话者的讲话片段(见图2A中的讲话片段1和图2B中的讲话片段2)(步骤S101)。接下来，关键词提取装置100B(讲话识别部分103)识别为每个说话者确定的讲话片段的讲话声音(步骤S102)。

关键词提取装置100B(功能短语提取部分301)从例如说话者A的在先讲话的讲话片段1的讲话声音(见图2A)和说话者B的后续讲话的讲话片段2的讲话声音(见图2B)中，来提取表达疑问句等的功能短语。具体地，功能短语提取部分301比较作为提取目标的、包括在讲话声音中的词行和功能短语存储部分302中的功能短语，从而提取包括在讲话声音中的功能短语。在本实施例中，功能短语提取部分301从讲话声音“噢，它将建造在哪里呢？”提取疑问句的功能短语“哪里”。声音识别的结果也可用作包括在讲话声音中的词行。

接下来，关键词提取装置100B(关键词提取部分105B)从包括所提取的功能词的讲话之前紧挨着的讲话声音(步骤S102中所识别的)中提取关键词(步骤S104B)。在提取关键词时，关键词提取部分105B从紧挨着的在前讲话“我听说将来将建造东京天空树”中，提取该紧挨着的在前讲话结尾的名词(紧挨着中断发生前获得的)“东京天空树”作为关键词。

接下来，关键词提取装置100B(关键词搜索部分106)使得搜索服务器300通过网络400搜索这样提取的关键词(步骤S105)。随后，关键词搜索部分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果，对说话者来说，掌握关于会话主题的关键词(例如，东京天空树)的信息(搜索结果)成为可能。

此外，在本实施例中，如其中说话者A提出问题“那是什么？”而说话者B进行回答“你是说东京天空树吗？”的情况下，当从在前讲话提取疑问句的功能短语(“那是什么？”)时，也可激活关键词提取部分105B，使得从紧接着的后续讲话中提取关键词(“东京天空树”)。那时，在从紧挨着的在前讲话声音中的关键词提取和从紧挨着的后续讲话声音中的关键词提取之间可进行如下切换。具体地，可进行切换，使得当包括指示代词“它”时，从紧挨着的在前讲话提取关键词；并且当包括指示代词“那”时，从紧挨着的后续讲话提取关键词；以及在其他情况下，从紧挨着的后续讲话提取关键词。那时，也可在类似于关于第二实施例描述的方法下，通过利用(结合使用)包括在前讲话中的上升斜度和后续讲话中的下降斜度的斜度图样，来掌握讲话响应的特征。

如上所述，根据本实施例，关键词提取装置100B提取不考虑会话内容(类型)而共同使用的功能短语(疑问词等)，从而提取会话的关键词。因此，关键词提取装置100B可从会话提取共同使用的功能短语，从而提取关键词。因此，关键词提取装置100B可提取关键词，而不是准备，即事先预期相应于各类会话的关键词并在数据库中注册预期的关键词等；因此，提取器是有用的。

第三实施例已经描述了其中关键词提取装置100B顺序执行关于图8中的步骤S101到S102、S103C、S104B、和S105到S106的处理的情况；但是，处理不限于该顺序。例如，关键词提取装置100B还可以通过改变关于图9中所示的相应步骤的处理顺序来执行处理，或并行执行关于相应步骤的处理。

(第四实施例)

第四实施例的关键词提取装置基于听到讲话声音的人的面部表情改变来提取会话的关键词。

图9是示出了本发明的第四实施例的关键词提取装置的示例结构的框图。在第四实施例中，与第一实施例的元件相同的元件被分配了相同的附图标记和与在第一实施例中所使用的术语相同的术语，并且省略了它们重复的解释。

在图9中，关键词提取装置100C使用视频输入部分401和面部表情识别部分402(两者也均合并称为“讲话响应特征提取部分”)替代图1中所示的第一实施例的中断检测部分104。此外，关键词提取装置100C与第一实施例的其对应部分的不同在于使用关键词提取部分105C替代图1中所示的第一实施例的关键词提取部分105。视频输入部分401为相机，而面部表情识别部分为例如CPU的处理器。在其他方面，包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。

视频输入部分401用于输入包括用户脸部的图像数据。为了估计用户的面部表情，面部表情识别部分402将图像数据转化为能够执行处理的数字数据的原始图像数据；提取包括在原始图像数据中的用户脸部的区域；并且从所提取的脸部区域提取至少一个或更多组成用户脸部的例如眼睛和嘴的脸部器官的轮廓的位置。面部表情识别部分402通过多个视频帧提取所获得的脸部器官的较高或较低端的轮廓；并从脸部器官的轮廓的打开度或曲线度来识别用户的面部表情(例如自然、惊讶、喜悦、生气等)。

那时，面部表情识别部分402将从讲话片段确定部分102获得的每个说话者的讲话片段中的时间与说话者以外的人的面部表情识别结果相关联。此外，面部表情识别部分402从面部表情识别的结果提取面部表情的改变点。

在图10中，t10是讲话片段1中说话者A的讲话开始时间；t11和t12是t10之后间隔相等的时间；t20是在讲话片段2中的说话者B的讲话开始时间；以及t21和t22是t20之后的间隔相等的时间。面部表情识别部分402以链接方式识别在时间t10、t11和t12所获得的说话者B的面部表情以及在时间t20、t121和t22所获得的说话者A的面部表情。在本实施例中，不考虑说话者，在时间t11获得的说话者B的面部表情是惊讶的面部表情，而在其他时间所获得的是自然的面部表情。具体地，面部表情识别部分402将时间t11提取为面部表情的改变点。

当面部表情识别部分402识别到在讲话开始时所识别的面部表情为自然的面部表情，而在讲话中间面部表情改变到另一面部表情时，关键词提取部分105C提取相应于在面部表情改变点的时间处发出的词作为关键词。那时，关键词提取部分105C也可为在讲话识别结果中的每个词从片段信息中寻找在相应于面部表情的时间所获得的词，或可从包括在讲话声音中的音节的数量估计词。考虑到从词被感知到时直到面部表情反应出现时的时间延迟(例如，0.1秒)，在此所谓的相应时间是指当说出一个词的动作结束和面部表情相互关联的时间。

现在将参考图11来描述关键词提取装置100C的操作。在图11中，基于以下假设提供解释，即，在说话者A通过使用关键词提取装置100C说了“将来将建造东京天空树”之后，说话者B将通过使用信息终端200说“那是什么？”。关于图11中的步骤S101到S102和S105到S106的处理与关于图3中的步骤S101到S102和S105到S106类似，因此直接省略了它们的描述。虽然通过使用信息终端200输入说话者B的语音和图像，但是以对说话者A同样从音频输入部分101和视频输入部分401输入语音和图像为前提来提供解释。

关键词提取装置100C(讲话片段确定部分102)关于从音频输入部分101输入的讲话音频，来确定每个说话者的讲话片段(见图10中的讲话片段1和讲话片段2)(步骤S101)。关键词提取装置100C(讲话识别部分103)识别为每个说话者这样确定的讲话片段的讲话声音(步骤S102)。

同时，关键词提取装置100C(视频输入部分401和面部表情识别部分402)识别例如在相应于作为说话者A所说的在前讲话的讲话片段1的讲话声音(见图10)的时间所获取的说话者B的面部表情以及在相应于作为说话者B所说的后续讲话的讲话片段2的讲话声音(见图10)的时间所获取的说话者A的面部表情。简而言之，识别在听讲话声音的人的面部表情；即，响应于讲话人的讲话声音的另一人的面部表情，而不是讲话人的面部表情(步骤S103D)。

接下来，当感知到所识别的面部表情是在讲话的开始所获取的自然面部表情并且在讲话中间面部表情改变到另一面部表情时，关键词提取装置100A(关键词提取部分105C)提取在相应于面部表情的改变点时所发出的词作为关键词(步骤S104C)。在先前描述的实施例中，将词“东京天空树”提取为相应于面部表情从自然面部表情改变到惊讶面部表情时的词。

关键词提取装置100C(关键词搜索部分106)使得搜索服务器300通过网络400搜索这样确定的关键词(步骤S105)。随后，关键词搜索部分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果，对说话者来说，掌握关于作为会话主题的词(例如，东京天空树)的信息(搜索结果)成为可能。

如上所述，根据本实施例，关键词提取装置100C基于在听讲话声音的另一人的面部表情的识别结果来提取会话的关键词。因此，关键词提取装置100C可基于作为面部表情的改变所掌握的讲话响应的特征来提取会话的关键词，而不需要准备，即事先预期会话中采用的关键词并在数据库中注册预期的关键词等。

即使当眼睛的打开度、嘴的打开度等转变为数字并且仅通过数字改变的大小来检测面部表情的改变，而不是通过面部表情识别部分402执行的面部表情识别操作时，可得到类似的优点。

第四实施例已经描述了其中关键词提取装置100C顺序执行关于图11中的步骤S101到S102、S103D、S104C以及S105到S106的处理的情况；但是，处理不限于该顺序。例如，关键词提取装置100C还可以通过改变关于图11中所示的相应步骤的处理顺序来执行处理，或并行执行关于相应步骤的处理。

(第五实施例)

第五实施例的关键词提取装置基于听到讲话声音的人的激动反应来提取会话的关键词。

图12是示出了本发明的第五实施例的关键词提取装置的示例结构的框图。在第五实施例中，与第一实施例的元件相同的元件被分配了相同的附图标记和与在第一实施例中所使用的术语相同的术语，并且省略了它们重复的解释。

在图12中，关键词提取装置100D使用激动反应确定部分501(其也称为“讲话响应特征提取部分”)替代图1中所示的第一实施例的中断检测部分104。此外，关键词提取装置100D与第一实施例的其对应部分的不同在于使用关键词提取部分105D替代图1中所示的第一实施例的关键词提取部分105。激动反应检测部分为例如CPU的处理器。在其他方面，包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。

激动反应检测部分501从语音或声音检测激动反应。具体地，通过检测笑声、具有高度激动的声音、由鼓掌或拍膝盖等引起的声音等来检测激动反应。激动反应检测部分501预先准备与笑声、鼓掌和拍膝盖有关的训练样本，从而准备GMM(Gamma混合模型)，并通过确定输入的可能性执行阈值处理，从而执行检测。此外，激动反应检测部分501通过线性连接值从而将值转换为数字并使该数字经过阈值处理来检测具有高度激动的声音；其中所述值被确定为通过说话者的平均的音量水平、斜度水平和讲话速度的标准化的结果。

那时，激动反应检测部分501将在由讲话片段确定部分102确定的讲话片段结尾的附近所检测的激动反应认做响应于讲话的激动反应。

关键词检测部分105D从相应于激动反应的讲话提取关键词。

现在将参考图13来描述关键词提取装置100D的操作。在图13中，基于以下假设提供解释，即，在说话者A通过使用关键词提取装置100C说了“将来东京天空树将......”之后，说话者B将通过使用信息终端200发出“哈哈哈”的笑声。关于图13中的步骤S101到S102和S105到S106的处理与关于图3中的步骤S101到S102和S105到S106类似，因此直接省略了它们的解释。

关键词提取装置100D(讲话片段确定部分102)关于从音频输入部分101和信息终端200输入的讲话音频，首先确定每个说话者的讲话片段(步骤S101)。关键词提取装置100D(讲话识别部分103)识别为每个说话者这样确定的讲话片段的讲话声音(步骤S102)。

关键词提取装置100D(激动反应确定部分501)检测例如在说话者A发出的讲话片段的附近出现的激动反应(步骤S103E)。结果，在前述的讲话例子中，在紧挨在说话者A作出的讲话片段后以很高的可能性检验到笑声的GMM，从而语音被检测为激动反应。

关键词提取装置100A(关键词提取部分105D)接下来提取相应于激动反应的讲话片段中发出的词(例如，“东京天空树”)作为关键词。

然后关键词提取装置100D(关键词搜索部分106)使得搜索服务器300通过网络400搜索这样确定的关键词(步骤S105)。随后，关键词搜索部分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果，对说话者来说，掌握关于作为会话的主题的词(例如，东京天空树)的信息(搜索结果)成为可能。

如上所述，根据本实施例，关键词提取装置100D通过检测收听讲话声音的人的激动反应来提取会话的关键词。关键词提取装置100D可通过例如笑声或拍手等并获取为激动的讲话反应的特征来提取会话的关键词，而不需准备，即事先预期会话中使用的关键词并在数据库中注册预期的关键词等。

第五实施例已经描述了其中关键词提取装置100D顺序执行关于图13中的步骤S101到S102、S103E、S104D以及S105到S106的处理的情况；但是，处理不限于该顺序。例如，关键词提取装置100D还可以通过改变关于图13中所示的相应步骤的处理顺序来执行处理，或并行执行关于相应步骤的处理。

第一到第三实施例和第五实施例已经描述了以下情况，即，其中关键词提取装置(关键词提取部分)提取在讲话片段结尾(在紧挨着中断之前的点)的名词作为关键词，但是关键词不限于名词。例如关键词提取部分还可执行搜索，同时采用在作为搜索目标的在前讲话中包括的多个名词中概念最低等级的名词作为关键词。在此情况下，关键词提取装置附加地配备有字典信息存储部分(未示出)，例如存储器，并且字典信息存储部分存储包括在系统中分类和结构的概念较高等级的名词(例如，意大利菜)和概念较低等级的名词(例如，通心粉)的字典信息。关键词提取部分从包括在作为提取目标的讲话中的名词中，提取包括在字典信息存储部分(未示出)的字典信息中的概念最低等级的名词作为关键词。因此，概念较低等级的名词作为关键词。

在第一到第三实施例和第五实施例中，关键词提取部分还可提取在包括在作为提取目标的讲话中的名词中的最高斜度名词作为关键词，或提取最频繁使用的名词作为关键词。作为选择，关键词提取部分还可从包括在作为提取目标的讲话中的名词中，提取采用名词的斜度与显示名词使用次数的参数(预先确定的参数模式)的最优结合所得到的名词作为关键词。

虽然已经通过参考具体的实施例详细描述了本发明，但是对于本领域的技术人员明显的是，在不违背本发明的精神和范围的情况，本发明可受到各种改变和修改。

本专利申请基于于2007年3月29日在日本提出的日本申请(JP-A-2007-088321)，其内容在此合并作为参考。

工业适用性

本发明的关键词提取装置对于提取包括在会话中的重要关键词是有用的。关键词提取装置可应用于应用领域，例如电话、车载终端、电视机、会议系统、呼叫中心系统和个人计算机。

Claims

1.关键词提取装置，包括：

音频输入部分，输入说话者的讲话声音；

讲话片段确定部分，关于输入的讲话声音对于每个说话者确定讲话片段；

讲话识别部分，识别为每个说话者所确定的讲话片段的讲话声音；

讲话响应特征提取部分，基于来自另一个说话者对于每个说话者的讲话声音的响应，提取暗示关键词存在的讲话响应特征；以及

关键词提取部分，从基于所提取的讲话响应的特征所指定的讲话片段的讲话声音提取关键词。

2.如权利要求1所述的关键词提取装置，其中说话者的讲话声音包括在前讲话的讲话声音和后续讲话的讲话声音；

其中所述讲话响应特征提取部分包括中断检测部分，所述中断检测部分基于在前讲话的讲话声音和后续讲话的讲话声音检测当在在前讲话的中间发生后续讲话时在前讲话和后续讲话相互重叠的中断；以及

其中所述关键词提取部分从基于所检测的中断所指定的、以及与后续讲话重叠的在前讲话的讲话声音中提取关键词。

3.如权利要求1所述的关键词提取装置，其中说话者的讲话声音包括在前讲话的讲话声音和后续讲话的讲话声音；

其中所述讲话响应特征提取部分包括：

斜度确定部分，基于在前讲话的讲话声音和后续讲话的讲话声音来确定讲话声音的斜度；以及

图样确定部分，根据所确定的斜度，确定包括在在前讲话的结尾的下降斜度和紧挨在在前讲话之后的讲话的上升斜度的斜度图样；以及

其中所述关键词提取部分从基于所确定的斜度图样所指定的和由斜度图样所指示的在前讲话的讲话声音，提取关键词。

4.如权利要求1所述的关键词提取装置，其中说话者的讲话声音包括在前讲话的讲话声音和后续讲话的讲话声音；

其中所述讲话响应特征提取部分基于在前讲话的讲话声音和后续讲话的讲话声音来从后续讲话的讲话声音提取预定类型的功能短语；以及

其中所述关键词提取部分从包括所提取的功能短语的紧挨在后续讲话之前的在前讲话的讲话声音中提取关键词。

5.如权利要求1所述的关键词提取装置，其中所述讲话响应特征提取部分检测除了位于相应说话者的讲话片段附近的说话者以外的人的激动反应；以及

其中关键词提取部分从相应于激动反应的讲话声音提取关键词。

6.如权利要求2到5中任意一项所述的关键词提取装置，其中当提取关键词时，所述关键词提取部分提取在前讲话的结尾的组成元素作为关键词。

7.如权利要求1所述的关键词提取装置，其中说话者的讲话声音包括在前讲话的讲话声音和后续讲话的讲话声音；

其中所述讲话响应特征提取部分基于在前讲话的讲话声音和后续讲话的讲话声音，从所述在前讲话的讲话声音中提取预定类型的功能短语；以及

其中所述关键词提取部分从包括所提取的功能短语的紧挨在在前讲话之后的后续讲话的讲话声音中提取关键词。

8.如权利要求1所述的关键词提取装置，其中所述讲话响应特征提取部分识别响应于相应说话者的讲话声音的另一说话者的面部表情，并提取所识别的面部表情的改变点；以及

其中所述关键词提取部分提取相应于所提取的面部表情的改变点的讲话片段中的组成元素作为关键词。