CN101542592A - 关键词提取装置 - Google Patents

关键词提取装置 Download PDF

Info

Publication number
CN101542592A
CN101542592A CN200880000290.2A CN200880000290A CN101542592A CN 101542592 A CN101542592 A CN 101542592A CN 200880000290 A CN200880000290 A CN 200880000290A CN 101542592 A CN101542592 A CN 101542592A
Authority
CN
China
Prior art keywords
speech
keyword
spoken sounds
speaker
extracting device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880000290.2A
Other languages
English (en)
Inventor
远藤充
山田麻纪
森井景子
小沼知浩
野村和也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101542592A publication Critical patent/CN101542592A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

提取会话的关键词而不是提前预测并准备会话的关键词。关键词提取装置,包括:音频输入部分(101),用于输入说话者的讲话;讲话片段确定部分(102),用于确定每个说话者的输入讲话的讲话片段;讲话识别部分(103),用于识别在所确定的讲话片段的讲话;中断检测部分(104),基于另一个说话者对说话者的讲话的响应检测暗示关键词存在的另一个说话者的讲话响应特征,即,在前讲话和后续讲话相互重叠的中断;关键词提取部分(105),用于从根据中断所指定的讲话部分中的讲话中提取关键词;关键词搜索部分(106),用于通过关键词执行关键词搜索;以及显示部分(107),用于显示关键词搜索的结果。

Description

关键词提取装置
技术领域
本发明涉及关键词提取装置,并且更具体地,涉及提取会话(conversation)关键词的关键词提取装置。
背景技术
相关技术的关键词提取装置预先保留(retain)相应数据,该相应数据示出例如微波炉的关键词和例如访问URL的动作信息之间的相关性(correlation)。关键词提取装置根据相应数据从特定的会话中检测关键词,并基于相应于关键词的动作信息执行处理。从而,通过讲话识别的手段提交了信息(例如,专利文件1)。
专利文件1:JP-A-2005-215726(见段落0021到0036以及图2和图3)
发明内容
发明要解决的问题
但是,在关于专利文件1描述的提取器中,必须为各个希望的场景准备相应数据;因此,存在利用提取器时遭遇困难的问题。
本发明已经考虑到处理该情形,并且目的在于提供能够提取会话关键词而不需要提前预测和准备会话关键词的关键词提取装置。
用于解决问题的方法
为了解决相关领域的问题,本发明包括:音频输入部分,通过该音频输入部分输入由说话者进行的讲话声音;讲话片段确定部分,关于输入讲话声音对于每个说话者确定讲话片段;讲话识别部分,识别为每个说话者所确定的讲话片段的讲话声音;讲话响应特征提取部分,基于另一个说话者对说话者的讲话声音的响应,提取暗示关键词存在的响应特征;以及关键词提取部分,从基于所提取的讲话响应的特征所指定的讲话片段的讲话声音,提取关键词。
本发明的优点
根据本发明,可提取会话的关键词,而不需要为会话提前、预期地准备关键词。
附图说明
[图1]示出了包括本发明的第一实施例的关键词提取装置的整体系统的示例配置的框图。
[图2]示出了本发明的第一实施例的讲话片段的示例的视图。
[图3]示出了图1中所示的关键词提取装置的操作的流程图。
[图4]示出了本发明的第二实施例的关键词提取装置的示例配置的框图。
[图5]示出了本发明的第二实施例的示例斜度图样(pattern)的视图。
[图6]示出了图4中所示的关键词提取装置的操作的流程图。
[图7]示出了本发明的第三实施例的关键词提取装置的示例配置的框图。
[图8]示出了图7中所示的关键词提取装置的操作的流程图。
[图9]示出了本发明的第四实施例的关键词提取装置的示例配置的框图。
[图10]示出了本发明的第四实施例的示例讲话片段、示例讲话内容和面部表情识别的示例结果的视图。
[图11]示出了图9中所示的关键词提取装置的操作的流程图。
[图12]示出了本发明的第五实施例的关键词提取装置的示例配置的框图。
[图13]示出了图12中所示的关键词提取装置的操作的流程图。
附图标记描述
100、100A、100B、100C、100D  关键词提取装置
101  音频输入部分
102  讲话片段确定部分
103  讲话识别部分
104  中断检测部分
105、105A、105B、105C、105D  关键词提取部分
106  关键词搜索部分
107  显示部分
201  斜度确定部分
202  斜度图样确定部分
301  功能短语提取部分
302  功能短语存储部分
401  视频输入部分
402  面部表情识别部分
501  激动反应检测部分
具体实施方式
以下将参考附图描述本发明的第一到第五实施例。将基于假定的场景来描述第一到第五实施例;例如,两个说话者A和B,通过使用例如便携式蜂窝电话的信息终端进行会话。
(第一实施例)
图1是示出了包括本发明的第一实施例的关键词提取装置的整体系统的示例配置的框图。
在图1中,关键词提取装置100是特定说话者A的信息终端,并配置以便使得能够与例如因特网的网络400建立连接。网络400以如下方式配置:另一说话者B的信息终端200和搜索服务器300连接到该网络。关键词提取装置100和信息终端200是例如便携式蜂窝电话、笔记本电脑和便携式信息终端的信息终端。搜索服务器300是配备有已知搜索引擎的服务器。
关键词提取装置100具有音频输入部分101、讲话片段确定部分102,讲话识别部分103、中断检测部分104、关键词提取部分105、关键词搜索部分106和显示部分107。
音频输入部分101用于输入说话者的语音(以下称为“讲话声音”)。音频输入部分101相应于与例如麦克风、网络400等的通信接口。
讲话片段确定部分102关于输入讲话声音来确定每个说话者的讲话片段。讲话片段指从说话者开始讲话时直到说话者结束讲话时的片段。
例如,在说话者A和说话者B之间进行的会话如图2A或图2B中所示,讲话片段确定部分102确定从说话者A的讲话的开始时间ts1到结束时间te1的片段;即,ts1-te1,作为说话者A的讲话片段1。此外,讲话片段确定部分102确定从说话者B的讲话的开始时间ts2到结束时间te2的片段;即,ts2-te2,作为说话者B的讲话片段2。
回到图1,讲话识别部分103对于每个说话者识别在这样确定的讲话片段中的讲话声音。具体地,讲话识别部分103通过已知的讲话识别技术将所有说话者的会话讲话转换为文本。此外,讲话识别部分103使得开始时间(开始点)和结束时间(结束点)与单个说话者的讲话相对应。
中断检测部分104(讲话响应特征提取部分)基于关于所确定的讲话片段的各个说话者的讲话声音检测讲话的特征;即,在前的讲话和后续讲话相互重叠的中断。例如,当在说话者A和说话者B之间进行的会话是图2B所示的会话时,中断检测部分104检测由于说话者B的后续讲话于说话者A的在前讲话的中间(即,在ts1)开始的中断,检测方法如下。
具体地,中断检测部分104首先测量从后续讲话的开始时间到紧挨在后续讲话之前的讲话的结束时间的片段(以下称为“讲话间隔”)。例如,在图2A、2B的情况下,中断检测部分104通过使用图2A、2B中的ts2-te1=讲话间隔的计算等式来计算讲话间隔。然后,中断检测部分104确定讲话间隔是否呈现负值(见图2B)作为计算结果。当讲话间隔呈现负值(见图2B)时,中断检测部分104通过考虑存在中断来执行检测。
关键词提取部分105基于所提取的讲话特征,即,在前讲话和后续讲话相互重叠处的中断,从讲话识别部分102所识别的讲话声音中提取作为讲话声音的会话主题的词(以下称为“关键词”)。具体地,关键词提取部分105从讲话识别部分102获得由讲话识别部分102识别的讲话。使得讲话与每个说话者的开始时间和结束时间对应。此外,关键词提取部分105从中断检测部分104获得其中中断检测部分104已经检测到中断的讲话片段(例如,图2B中所示的说话者B的讲话片段2)和被中断的讲话片段(例如,图2B中所示的说话者A的讲话片段1)。依靠开始时间和结束时间,使得讲话片段彼此对应。
当提取关键词时,关键词提取部分105提取;例如,在被中断的在前讲话的结尾(最后)的组成元素(例如,名词)作为关键词。在前讲话的结束意味着在中断前(例如,图2B中的时间ts2)的讲话片段的内部(例如,图2B中ts1-ts2)。
具体地,关键词提取部分105首先从所获取的各个说话者的讲话片段(例如,图2B中所示的讲话片段1、2)选择开始较早的讲话片段(例如,图2B中的讲话片段1)。接下来,关键词提取部分105检测位于紧挨在所获取的另一讲话片段的开始时间(即,中断时间;例如,图2B中的ts2)之前所选择的讲话片段(例如,图2B中的讲话片段1)的组成元素(例如,名词)。关键词提取部分105提取这样所检测的组成元素(例如,名词)作为关键词。
关键词搜索部分106通过使用所提取的关键词来进行关键词的搜索。具体地,关键词搜索部分106首先通过网络400连接到搜索服务器300。当从关键词搜索部分106接收到搜索关键词的请求时,搜索服务器300通过网络400将关键词的搜索结果返回到关键词提取装置100的关键词搜索部分106。通过返回,关键词搜索部分106从搜索服务器300接收关键词的搜索结果。
显示部分107显示由关键词搜索部分106执行的搜索的结果;即,由搜索服务器300执行的搜索的结果。显示部分107是显示装置,例如显示器和显示面板。
在本实施例中,讲话片段确定部分102、讲话识别部分103、中断检测部分104、关键词提取部分105和关键词搜索部分106相应于例如CPU的处理器。在其他方面,关键词提取装置100假设具有包括例如存储器的存储装置(未示出)的已知结构。
现在将参考图3来描述关键词提取装置100的操作。在图3中,基于以下假设来提供解释,即,通过使用关键词提取装置100和信息终端200,2个说话者A、B正在进行会话。
首先,关键词提取装置100(讲话片段确定部分102)通过从音频输入部分100和信息终端200输入的讲话声音,来确定每个说话者的讲话片段(步骤S101)。在确定时,讲话片段确定部分102确定每个说话者的讲话声音的音量等级是否大于阈值,并评估其中声音等级大于阈值的片段为讲话片段。
例如,当在说话者A和说话者B之间的会话例如是图2A或图2B中所示的会话时,讲话片段确定部分102确定说话者A的讲话的从开始时间ts1到结束时间te1的片段;即,ts1-te2作为说话者A的讲话片段1。此外,讲话片段确定部分103确定从开始时间ts2到结束时间te2的说话者B的讲话的片段;即,ts2-te2作为说话者B的讲话片段2。
接下来,关键词提取装置100(讲话识别部分103)识别为每个说话者确定的讲话片段的讲话声音(步骤S102)。假设通过分析例如基于频带的特征来实现识别。此外,当执行识别时,讲话识别部分103通过已知的讲话识别技术将所有说话者的讲话声音转换为文本。
关键词提取装置100(中断检测部分104)从所确定的讲话片段中检测中断(步骤S103)。具体地,中断检测部分104计算通过从后续讲话的开始时间减去紧挨着的在前讲话的结束时间所确定的间隔;即,讲话间隔(例如图2A和2B中的te1-ts2)。当计算的结果示出讲话间隔的值(例如,在图2B中讲话间隔=te1-ts2)为负时,中断检测部分104确定在后续会话中发生了中断。
接下来,关键词提取装置100(关键词提取部分105)提取并确定在所检测的、其中发生了中断的会话讲话(在步骤S102中识别的会话讲话)中的关键词(步骤S104)。具体地,关键词提取部分105在后续讲话之前紧挨着的讲话中提取名词,并确定该名词为讲话中的关键词。
例如,当说话者A在图2B中的时间ts1开始讲话“东京天空树将......”时和当说话者B在图2B中的时间ts2开始响应的讲话“将在哪里建它?”时,关键词提取部分105确定说话者A在紧挨在ts2之前发出的名词“东京天空树”是作为会话的主题的词。关键词提取部分105可确定词“东京天空树”为会话的主题,而不从事先预期的关键词注册的数据库提取关键词“东京天空树”。
当讲话间隔显示正值时(见图2A),关键词提取部分105确定讲话中不包含关键词并且不提取任何关键词。
关键词提取装置100(关键词搜索部分106)执行对于这样确定的关键词的搜索(步骤S105)。具体地,关键词搜索部分106请求搜索服务器300通过网络400搜索关键词。搜索服务器300执行所请求的对于关键词的搜索,并将搜索结果发送到关键词搜索部分106。关键词搜索部分106接收从搜索服务器300所发送的搜索结果。
关键词搜索部分106将所接收搜索结果显示在显示部分107上(步骤S106)。结果,对于说话者,掌握关于讲话中的关键词(例如,东京天空树)的信息(搜索结果)成为可能。
替代中断检测部分104,激活沉默检测部分,该沉默检测部分检测由讲话间隔预先设定的阈值(例如,3秒)或更大值的沉默,并且其对于提取暗示关键词的存在的讲话响应的特征也是有用的。
如上所述,根据本发明的实施例,关键词提取装置100检测中断,该中断为暗示关键词的存在的讲话响应的特征,并提取会话的关键词。因此,关键词提取装置100可基于发生或未发生说话者的中断提取会话的关键词,而不是事先预期会话的关键词并在数据库中注册预期的关键词等。
第一实施例已经描述了其中关键词提取装置100顺序执行关于图3中的步骤S101到S106的处理的情况,但是处理不限于该顺序。例如,关键词提取装置100可通过改变图3中所示的顺序执行关于图3中所示的步骤的处理,或并行执行关于相应步骤的处理。
(第二实施例)
第二实施例的关键词提取装置基于作为讲话响应的特征的斜度的图样(音调的高度)来提取会话的关键词。
图4是示出了本发明的第二实施例的关键词提取装置的示例结构的框图。在第二实施例中,与第一实施例的元件相同的元件被分配了相同的附图标记和与在第一实施例中所使用的术语相同的术语,并且省略了它们重复的解释。
在图4中,关键词提取装置100A具有替代图1中所示的第一实施例的中断检测部分104的斜度确定部分201和斜度图样确定部分202。此外,关键词提取装置1004A与第一实施例的其对应部分的不同在于使用关键词提取部分105A替代图1中所示的第一实施例的关键词提取部分105。斜度确定部分201、斜度图样确定部分202以及关键词提取部分105A相应于例如CPU的处理器。在其他方面,包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。
关于由讲话片段确定部分102确定的讲话片段,斜度确定部分201和斜度图样确定部分202(二者也称为“讲话响应特征提取部分”)基于相应说话者的讲话声音,提取作为讲话特征的斜度图样。具体地,斜度确定部分201确定讲话声音的斜度。本实施例的斜度确定部分201例如每10ms划分讲话声音,从而确定斜度。
基于这样确定的斜度,斜度图样确定部分202确定斜度图样(讲话响应的特征),该斜度图样包括在前讲话的结束处的下降斜度(见图5中的片段tc1-te1)和紧跟随在前讲话的讲话的上升斜度(见图5中的片段tc2-te2)。图5示出了示例确定。在图5中,水平轴代表时间,而垂直轴代表频率。
在前讲话“东京天空树将”呈现在图5的讲话片段ts1-te1中,并且后续讲话“它将是......?”呈现在讲话片段ts2-te2中。确定在在前讲话“东京天空树将”的结尾呈现下降斜度,并且确定在后续讲话“它将是......?”中呈现上升斜度。进行这样确定的原因在于斜度图样确定部分202已经进行了如下确定。
具体地,因为在图5中的“东京天空树将”的讲话片段ts1-te1中,讲话片段最后(结束时间)的频率“f”高于中点tc1的频率“f”,所以斜度图样确定部分202确定上升斜度。因为在图5的“它将是......?”的讲话片段ts2-te2中,讲话片段最后(结束时间)的频率“f”低于中点tc2的频率“f”,所以斜度图样确定部分202确定下降斜度。
对于以下情况给出解释,即,本实施例的斜度图样确定部分202参考讲话片段中点的频率来确定上升斜度或下降斜度,但是斜度图样确定部分不限于该情况。例如,斜度确定部分201还可参考从讲话片段的结束时间(例如,图5中的te1或te2)返回预定片段(例如,时间T)的时间点来进行确定。
关键词提取部分105A从所确定的斜度图样指示的在前讲话提取关键词。在提取操作时,关键词提取部分105A提取在由斜度图样所指示的在前讲话的结尾的组成元素(例如名词)作为关键词。
现在将参考图6来描述关键词提取装置100A的操作。在图6中,例如假设在说话者A通过使用关键词提取装置100A说了“将来东京天空树将......”之后说话者B将通过使用信息终端200说“它将......吗?”而提供解释。关于图7中的步骤S101到S102和S105到S106的处理与关于图3中的步骤S101到S102和S105到S106的处理类似,因此直接省略了它们的描述。
首先,关键词提取装置100A(讲话片段确定部分102)通过从讲话输入部分100和信息终端200输入的讲话声音,来确定每个说话者的讲话片段(见图2A中的讲话片段1和图2B中的讲话片段2)(步骤S101)。接下来,关键词提取装置100A(讲话识别部分103)识别为每个说话者确定的讲话片段的讲话声音(步骤S102)。
关键词提取装置100A(斜度确定部分201)基于例如说话者A的在前讲话的讲话片段1的讲话声音(见图2A)和说话者B的后续讲话的讲话片段2的讲话声音(见图2B)来确定讲话声音的斜度(步骤S103A)。
当从在前讲话到后续讲话发生移动时,关键词提取装置100A(斜度图样确定部分202)基于这样确定的斜度图样来确定是否存在从下降斜度改变到上升斜度的斜度图样(步骤S103B)。具体地,斜度图样确定部分202确定斜度图样,其包括在在前讲话的结尾的下降斜度(见图5中的片段tc1-te1)和在在前讲话之后紧挨着的讲话中的上升斜度(见图5中的片段tc2-te2)。
关键词提取装置100A(关键词提取部分105A)从这样确定的斜度图样所指示的讲话声音(步骤S102中所识别的)的在前讲话(例如,图5中的“东京天空树将”)提取关键词(步骤S104A)。在提取操作时,关键词提取部分105A提取例如由斜度图样所指示的在前讲话结尾的名词“东京天空树”作为关键词。
关键词提取装置100A(关键词搜索部分106)使得搜索服务器300通过网络400搜索这样确定的关键词(步骤S105)。关键词搜索部分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果,说话者能掌握关于作为主题的词(例如,“东京天空树”)的信息(搜索结果)。
如上所述,在本实施例中,关键词提取装置100A确定斜度图样,该斜度图样为暗示关键词的存在的讲话响应的特征,从而提取会话的关键词。因此,关键词提取装置100A可基于存在或不存在斜度图样提取会话的关键词,而不是准备,即事先预期会话中将使用的关键词并在数据库中注册预期的关键词等。
第二实施例已经描述了关键词提取装置100A顺序执行关于图7中的步骤S101到S102、S103A到S103B、S104A以及S105到S106的处理的情况;但是,处理不限于该顺序。例如,关键词提取装置100A还可以通过改变关于图7中所示的相应步骤的处理顺序来执行处理,或并行执行关于相应步骤的处理。
(第三实施例)
第三实施例的关键词提取装置基于作为讲话响应的特征的功能短语来提取会话的关键词。
图7示出了本发明的第三实施例的关键词提取装置的示例结构的框图。在第三实施例中,与第一实施例的元件相同的元件被分配了相同的附图标记和与在第一实施例中所使用的术语相同的术语,并且省略了它们重复的解释。
在图7中,关键词提取装置100B使用功能短语提取部分301(讲话响应特征提取部分)替代图1中所示的第一实施例的中断检测部分104。关键词提取装置100B还具有功能短语存储部分302。关键词提取装置100B与第一实施例的其对应部分的不同在于使用关键词提取部分105B替代图1中所示的第一实施例的关键词提取部分105。功能短语提取部分301为例如CPU的处理器,并且功能短语存储部分302为例如存储器的存储装置。在其他方面,包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。
功能短语存储部分302存储预先定义的功能短语。功能短语是示出响应的类型以及不考虑各种不同会话的内容而在会话中共同使用的词。例如,功能短语相应于疑问(interrogative)句,例如“它是......吗?”;同意的句子,例如“好”、“我知道了”和“就是这样”;否定句,例如“不是”;请求句,例如“请”;感叹句,例如“很好”;以及疑问(feeding)句,例如“为什么?”;等等。
功能短语提取部分301从讲话声音提取作为讲话声音的特征的功能短语。具体地,功能短语提取部分301比较包括在讲话声音中的将成为提取的目标的词行与功能短语存储部分302中的功能短语,从而提取包括在讲话声音中的功能短语。
接下来,将参考图8来描述关键词提取装置100B的操作。在图8中,例如假设在说话者A通过使用关键词提取装置100B说了“将来将建造东京天空树”之后说话者B将通过使用信息终端200说“它将建造在哪里呢?”而提供解释。关于图8中的步骤S101到S102和S105到S106的处理与关于图3中的步骤S101到S102和S105到S106的处理类似,因此直接省略了它们的描述。
首先,关键词提取装置100B(讲话片段确定部分102)通过从讲话输入部分100和信息终端200输入的讲话声音,来确定每个说话者的讲话片段(见图2A中的讲话片段1和图2B中的讲话片段2)(步骤S101)。接下来,关键词提取装置100B(讲话识别部分103)识别为每个说话者确定的讲话片段的讲话声音(步骤S102)。
关键词提取装置100B(功能短语提取部分301)从例如说话者A的在先讲话的讲话片段1的讲话声音(见图2A)和说话者B的后续讲话的讲话片段2的讲话声音(见图2B)中,来提取表达疑问句等的功能短语。具体地,功能短语提取部分301比较作为提取目标的、包括在讲话声音中的词行和功能短语存储部分302中的功能短语,从而提取包括在讲话声音中的功能短语。在本实施例中,功能短语提取部分301从讲话声音“噢,它将建造在哪里呢?”提取疑问句的功能短语“哪里”。声音识别的结果也可用作包括在讲话声音中的词行。
接下来,关键词提取装置100B(关键词提取部分105B)从包括所提取的功能词的讲话之前紧挨着的讲话声音(步骤S102中所识别的)中提取关键词(步骤S104B)。在提取关键词时,关键词提取部分105B从紧挨着的在前讲话“我听说将来将建造东京天空树”中,提取该紧挨着的在前讲话结尾的名词(紧挨着中断发生前获得的)“东京天空树”作为关键词。
接下来,关键词提取装置100B(关键词搜索部分106)使得搜索服务器300通过网络400搜索这样提取的关键词(步骤S105)。随后,关键词搜索部分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果,对说话者来说,掌握关于会话主题的关键词(例如,东京天空树)的信息(搜索结果)成为可能。
此外,在本实施例中,如其中说话者A提出问题“那是什么?”而说话者B进行回答“你是说东京天空树吗?”的情况下,当从在前讲话提取疑问句的功能短语(“那是什么?”)时,也可激活关键词提取部分105B,使得从紧接着的后续讲话中提取关键词(“东京天空树”)。那时,在从紧挨着的在前讲话声音中的关键词提取和从紧挨着的后续讲话声音中的关键词提取之间可进行如下切换。具体地,可进行切换,使得当包括指示代词“它”时,从紧挨着的在前讲话提取关键词;并且当包括指示代词“那”时,从紧挨着的后续讲话提取关键词;以及在其他情况下,从紧挨着的后续讲话提取关键词。那时,也可在类似于关于第二实施例描述的方法下,通过利用(结合使用)包括在前讲话中的上升斜度和后续讲话中的下降斜度的斜度图样,来掌握讲话响应的特征。
如上所述,根据本实施例,关键词提取装置100B提取不考虑会话内容(类型)而共同使用的功能短语(疑问词等),从而提取会话的关键词。因此,关键词提取装置100B可从会话提取共同使用的功能短语,从而提取关键词。因此,关键词提取装置100B可提取关键词,而不是准备,即事先预期相应于各类会话的关键词并在数据库中注册预期的关键词等;因此,提取器是有用的。
第三实施例已经描述了其中关键词提取装置100B顺序执行关于图8中的步骤S101到S102、S103C、S104B、和S105到S106的处理的情况;但是,处理不限于该顺序。例如,关键词提取装置100B还可以通过改变关于图9中所示的相应步骤的处理顺序来执行处理,或并行执行关于相应步骤的处理。
(第四实施例)
第四实施例的关键词提取装置基于听到讲话声音的人的面部表情改变来提取会话的关键词。
图9是示出了本发明的第四实施例的关键词提取装置的示例结构的框图。在第四实施例中,与第一实施例的元件相同的元件被分配了相同的附图标记和与在第一实施例中所使用的术语相同的术语,并且省略了它们重复的解释。
在图9中,关键词提取装置100C使用视频输入部分401和面部表情识别部分402(两者也均合并称为“讲话响应特征提取部分”)替代图1中所示的第一实施例的中断检测部分104。此外,关键词提取装置100C与第一实施例的其对应部分的不同在于使用关键词提取部分105C替代图1中所示的第一实施例的关键词提取部分105。视频输入部分401为相机,而面部表情识别部分为例如CPU的处理器。在其他方面,包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。
视频输入部分401用于输入包括用户脸部的图像数据。为了估计用户的面部表情,面部表情识别部分402将图像数据转化为能够执行处理的数字数据的原始图像数据;提取包括在原始图像数据中的用户脸部的区域;并且从所提取的脸部区域提取至少一个或更多组成用户脸部的例如眼睛和嘴的脸部器官的轮廓的位置。面部表情识别部分402通过多个视频帧提取所获得的脸部器官的较高或较低端的轮廓;并从脸部器官的轮廓的打开度或曲线度来识别用户的面部表情(例如自然、惊讶、喜悦、生气等)。
那时,面部表情识别部分402将从讲话片段确定部分102获得的每个说话者的讲话片段中的时间与说话者以外的人的面部表情识别结果相关联。此外,面部表情识别部分402从面部表情识别的结果提取面部表情的改变点。
在图10中,t10是讲话片段1中说话者A的讲话开始时间;t11和t12是t10之后间隔相等的时间;t20是在讲话片段2中的说话者B的讲话开始时间;以及t21和t22是t20之后的间隔相等的时间。面部表情识别部分402以链接方式识别在时间t10、t11和t12所获得的说话者B的面部表情以及在时间t20、t121和t22所获得的说话者A的面部表情。在本实施例中,不考虑说话者,在时间t11获得的说话者B的面部表情是惊讶的面部表情,而在其他时间所获得的是自然的面部表情。具体地,面部表情识别部分402将时间t11提取为面部表情的改变点。
当面部表情识别部分402识别到在讲话开始时所识别的面部表情为自然的面部表情,而在讲话中间面部表情改变到另一面部表情时,关键词提取部分105C提取相应于在面部表情改变点的时间处发出的词作为关键词。那时,关键词提取部分105C也可为在讲话识别结果中的每个词从片段信息中寻找在相应于面部表情的时间所获得的词,或可从包括在讲话声音中的音节的数量估计词。考虑到从词被感知到时直到面部表情反应出现时的时间延迟(例如,0.1秒),在此所谓的相应时间是指当说出一个词的动作结束和面部表情相互关联的时间。
现在将参考图11来描述关键词提取装置100C的操作。在图11中,基于以下假设提供解释,即,在说话者A通过使用关键词提取装置100C说了“将来将建造东京天空树”之后,说话者B将通过使用信息终端200说“那是什么?”。关于图11中的步骤S101到S102和S105到S106的处理与关于图3中的步骤S101到S102和S105到S106类似,因此直接省略了它们的描述。虽然通过使用信息终端200输入说话者B的语音和图像,但是以对说话者A同样从音频输入部分101和视频输入部分401输入语音和图像为前提来提供解释。
关键词提取装置100C(讲话片段确定部分102)关于从音频输入部分101输入的讲话音频,来确定每个说话者的讲话片段(见图10中的讲话片段1和讲话片段2)(步骤S101)。关键词提取装置100C(讲话识别部分103)识别为每个说话者这样确定的讲话片段的讲话声音(步骤S102)。
同时,关键词提取装置100C(视频输入部分401和面部表情识别部分402)识别例如在相应于作为说话者A所说的在前讲话的讲话片段1的讲话声音(见图10)的时间所获取的说话者B的面部表情以及在相应于作为说话者B所说的后续讲话的讲话片段2的讲话声音(见图10)的时间所获取的说话者A的面部表情。简而言之,识别在听讲话声音的人的面部表情;即,响应于讲话人的讲话声音的另一人的面部表情,而不是讲话人的面部表情(步骤S103D)。
接下来,当感知到所识别的面部表情是在讲话的开始所获取的自然面部表情并且在讲话中间面部表情改变到另一面部表情时,关键词提取装置100A(关键词提取部分105C)提取在相应于面部表情的改变点时所发出的词作为关键词(步骤S104C)。在先前描述的实施例中,将词“东京天空树”提取为相应于面部表情从自然面部表情改变到惊讶面部表情时的词。
关键词提取装置100C(关键词搜索部分106)使得搜索服务器300通过网络400搜索这样确定的关键词(步骤S105)。随后,关键词搜索部分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果,对说话者来说,掌握关于作为会话主题的词(例如,东京天空树)的信息(搜索结果)成为可能。
如上所述,根据本实施例,关键词提取装置100C基于在听讲话声音的另一人的面部表情的识别结果来提取会话的关键词。因此,关键词提取装置100C可基于作为面部表情的改变所掌握的讲话响应的特征来提取会话的关键词,而不需要准备,即事先预期会话中采用的关键词并在数据库中注册预期的关键词等。
即使当眼睛的打开度、嘴的打开度等转变为数字并且仅通过数字改变的大小来检测面部表情的改变,而不是通过面部表情识别部分402执行的面部表情识别操作时,可得到类似的优点。
第四实施例已经描述了其中关键词提取装置100C顺序执行关于图11中的步骤S101到S102、S103D、S104C以及S105到S106的处理的情况;但是,处理不限于该顺序。例如,关键词提取装置100C还可以通过改变关于图11中所示的相应步骤的处理顺序来执行处理,或并行执行关于相应步骤的处理。
(第五实施例)
第五实施例的关键词提取装置基于听到讲话声音的人的激动反应来提取会话的关键词。
图12是示出了本发明的第五实施例的关键词提取装置的示例结构的框图。在第五实施例中,与第一实施例的元件相同的元件被分配了相同的附图标记和与在第一实施例中所使用的术语相同的术语,并且省略了它们重复的解释。
在图12中,关键词提取装置100D使用激动反应确定部分501(其也称为“讲话响应特征提取部分”)替代图1中所示的第一实施例的中断检测部分104。此外,关键词提取装置100D与第一实施例的其对应部分的不同在于使用关键词提取部分105D替代图1中所示的第一实施例的关键词提取部分105。激动反应检测部分为例如CPU的处理器。在其他方面,包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。
激动反应检测部分501从语音或声音检测激动反应。具体地,通过检测笑声、具有高度激动的声音、由鼓掌或拍膝盖等引起的声音等来检测激动反应。激动反应检测部分501预先准备与笑声、鼓掌和拍膝盖有关的训练样本,从而准备GMM(Gamma混合模型),并通过确定输入的可能性执行阈值处理,从而执行检测。此外,激动反应检测部分501通过线性连接值从而将值转换为数字并使该数字经过阈值处理来检测具有高度激动的声音;其中所述值被确定为通过说话者的平均的音量水平、斜度水平和讲话速度的标准化的结果。
那时,激动反应检测部分501将在由讲话片段确定部分102确定的讲话片段结尾的附近所检测的激动反应认做响应于讲话的激动反应。
关键词检测部分105D从相应于激动反应的讲话提取关键词。
现在将参考图13来描述关键词提取装置100D的操作。在图13中,基于以下假设提供解释,即,在说话者A通过使用关键词提取装置100C说了“将来东京天空树将......”之后,说话者B将通过使用信息终端200发出“哈哈哈”的笑声。关于图13中的步骤S101到S102和S105到S106的处理与关于图3中的步骤S101到S102和S105到S106类似,因此直接省略了它们的解释。
关键词提取装置100D(讲话片段确定部分102)关于从音频输入部分101和信息终端200输入的讲话音频,首先确定每个说话者的讲话片段(步骤S101)。关键词提取装置100D(讲话识别部分103)识别为每个说话者这样确定的讲话片段的讲话声音(步骤S102)。
关键词提取装置100D(激动反应确定部分501)检测例如在说话者A发出的讲话片段的附近出现的激动反应(步骤S103E)。结果,在前述的讲话例子中,在紧挨在说话者A作出的讲话片段后以很高的可能性检验到笑声的GMM,从而语音被检测为激动反应。
关键词提取装置100A(关键词提取部分105D)接下来提取相应于激动反应的讲话片段中发出的词(例如,“东京天空树”)作为关键词。
然后关键词提取装置100D(关键词搜索部分106)使得搜索服务器300通过网络400搜索这样确定的关键词(步骤S105)。随后,关键词搜索部分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果,对说话者来说,掌握关于作为会话的主题的词(例如,东京天空树)的信息(搜索结果)成为可能。
如上所述,根据本实施例,关键词提取装置100D通过检测收听讲话声音的人的激动反应来提取会话的关键词。关键词提取装置100D可通过例如笑声或拍手等并获取为激动的讲话反应的特征来提取会话的关键词,而不需准备,即事先预期会话中使用的关键词并在数据库中注册预期的关键词等。
第五实施例已经描述了其中关键词提取装置100D顺序执行关于图13中的步骤S101到S102、S103E、S104D以及S105到S106的处理的情况;但是,处理不限于该顺序。例如,关键词提取装置100D还可以通过改变关于图13中所示的相应步骤的处理顺序来执行处理,或并行执行关于相应步骤的处理。
第一到第三实施例和第五实施例已经描述了以下情况,即,其中关键词提取装置(关键词提取部分)提取在讲话片段结尾(在紧挨着中断之前的点)的名词作为关键词,但是关键词不限于名词。例如关键词提取部分还可执行搜索,同时采用在作为搜索目标的在前讲话中包括的多个名词中概念最低等级的名词作为关键词。在此情况下,关键词提取装置附加地配备有字典信息存储部分(未示出),例如存储器,并且字典信息存储部分存储包括在系统中分类和结构的概念较高等级的名词(例如,意大利菜)和概念较低等级的名词(例如,通心粉)的字典信息。关键词提取部分从包括在作为提取目标的讲话中的名词中,提取包括在字典信息存储部分(未示出)的字典信息中的概念最低等级的名词作为关键词。因此,概念较低等级的名词作为关键词。
在第一到第三实施例和第五实施例中,关键词提取部分还可提取在包括在作为提取目标的讲话中的名词中的最高斜度名词作为关键词,或提取最频繁使用的名词作为关键词。作为选择,关键词提取部分还可从包括在作为提取目标的讲话中的名词中,提取采用名词的斜度与显示名词使用次数的参数(预先确定的参数模式)的最优结合所得到的名词作为关键词。
虽然已经通过参考具体的实施例详细描述了本发明,但是对于本领域的技术人员明显的是,在不违背本发明的精神和范围的情况,本发明可受到各种改变和修改。
本专利申请基于于2007年3月29日在日本提出的日本申请(JP-A-2007-088321),其内容在此合并作为参考。
工业适用性
本发明的关键词提取装置对于提取包括在会话中的重要关键词是有用的。关键词提取装置可应用于应用领域,例如电话、车载终端、电视机、会议系统、呼叫中心系统和个人计算机。

Claims (8)

1.关键词提取装置,包括:
音频输入部分,输入说话者的讲话声音;
讲话片段确定部分,关于输入的讲话声音对于每个说话者确定讲话片段;
讲话识别部分,识别为每个说话者所确定的讲话片段的讲话声音;
讲话响应特征提取部分,基于来自另一个说话者对于每个说话者的讲话声音的响应,提取暗示关键词存在的讲话响应特征;以及
关键词提取部分,从基于所提取的讲话响应的特征所指定的讲话片段的讲话声音提取关键词。
2.如权利要求1所述的关键词提取装置,其中说话者的讲话声音包括在前讲话的讲话声音和后续讲话的讲话声音;
其中所述讲话响应特征提取部分包括中断检测部分,所述中断检测部分基于在前讲话的讲话声音和后续讲话的讲话声音检测当在在前讲话的中间发生后续讲话时在前讲话和后续讲话相互重叠的中断;以及
其中所述关键词提取部分从基于所检测的中断所指定的、以及与后续讲话重叠的在前讲话的讲话声音中提取关键词。
3.如权利要求1所述的关键词提取装置,其中说话者的讲话声音包括在前讲话的讲话声音和后续讲话的讲话声音;
其中所述讲话响应特征提取部分包括:
斜度确定部分,基于在前讲话的讲话声音和后续讲话的讲话声音来确定讲话声音的斜度;以及
图样确定部分,根据所确定的斜度,确定包括在在前讲话的结尾的下降斜度和紧挨在在前讲话之后的讲话的上升斜度的斜度图样;以及
其中所述关键词提取部分从基于所确定的斜度图样所指定的和由斜度图样所指示的在前讲话的讲话声音,提取关键词。
4.如权利要求1所述的关键词提取装置,其中说话者的讲话声音包括在前讲话的讲话声音和后续讲话的讲话声音;
其中所述讲话响应特征提取部分基于在前讲话的讲话声音和后续讲话的讲话声音来从后续讲话的讲话声音提取预定类型的功能短语;以及
其中所述关键词提取部分从包括所提取的功能短语的紧挨在后续讲话之前的在前讲话的讲话声音中提取关键词。
5.如权利要求1所述的关键词提取装置,其中所述讲话响应特征提取部分检测除了位于相应说话者的讲话片段附近的说话者以外的人的激动反应;以及
其中关键词提取部分从相应于激动反应的讲话声音提取关键词。
6.如权利要求2到5中任意一项所述的关键词提取装置,其中当提取关键词时,所述关键词提取部分提取在前讲话的结尾的组成元素作为关键词。
7.如权利要求1所述的关键词提取装置,其中说话者的讲话声音包括在前讲话的讲话声音和后续讲话的讲话声音;
其中所述讲话响应特征提取部分基于在前讲话的讲话声音和后续讲话的讲话声音,从所述在前讲话的讲话声音中提取预定类型的功能短语;以及
其中所述关键词提取部分从包括所提取的功能短语的紧挨在在前讲话之后的后续讲话的讲话声音中提取关键词。
8.如权利要求1所述的关键词提取装置,其中所述讲话响应特征提取部分识别响应于相应说话者的讲话声音的另一说话者的面部表情,并提取所识别的面部表情的改变点;以及
其中所述关键词提取部分提取相应于所提取的面部表情的改变点的讲话片段中的组成元素作为关键词。
CN200880000290.2A 2007-03-29 2008-03-14 关键词提取装置 Pending CN101542592A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP088321/2007 2007-03-29
JP2007088321 2007-03-29

Publications (1)

Publication Number Publication Date
CN101542592A true CN101542592A (zh) 2009-09-23

Family

ID=39863515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880000290.2A Pending CN101542592A (zh) 2007-03-29 2008-03-14 关键词提取装置

Country Status (5)

Country Link
US (1) US8370145B2 (zh)
EP (1) EP2045798B1 (zh)
JP (1) JP4838351B2 (zh)
CN (1) CN101542592A (zh)
WO (1) WO2008126355A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105516472A (zh) * 2015-11-30 2016-04-20 联想(北京)有限公司 一种信息处理方法及电子设备
CN112562687A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质

Families Citing this family (154)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8909683B1 (en) 2009-07-17 2014-12-09 Open Invention Network, Llc Method and system for communicating with internet resources to identify and supply content for webpage construction
JP5471274B2 (ja) * 2009-10-14 2014-04-16 日本電気株式会社 携帯端末装置及び情報記録方法
JP5715390B2 (ja) 2009-12-03 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 視聴端末装置、視聴統計装置、視聴統計処理システムおよび視聴統計処理方法
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9645996B1 (en) * 2010-03-25 2017-05-09 Open Invention Network Llc Method and device for automatically generating a tag from a conversation in a social networking website
US8543403B1 (en) * 2010-04-26 2013-09-24 Sprint Communication Company L.P. Intelligent information supplements to calls
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9443518B1 (en) 2011-08-31 2016-09-13 Google Inc. Text transcript generation from a communication session
US8798995B1 (en) 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data
JP2013109635A (ja) * 2011-11-22 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 単語重要度算出装置とその方法とプログラム
KR20140106656A (ko) * 2011-12-07 2014-09-03 퀄컴 인코포레이티드 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
EP2862163A4 (en) * 2012-06-18 2015-07-29 Ericsson Telefon Ab L M METHOD AND NODE FOR ACTIVATING AND MANUFACTURING INPUTS FOR APPLICATION
US8612211B1 (en) 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
KR101370539B1 (ko) * 2013-03-15 2014-03-06 포항공과대학교 산학협력단 지시 표현 처리에 기반한 대화 처리 방법 및 장치
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
JP6064718B2 (ja) * 2013-03-21 2017-01-25 富士ゼロックス株式会社 情報処理装置及びプログラム
US9064495B1 (en) * 2013-05-07 2015-06-23 Amazon Technologies, Inc. Measurement of user perceived latency in a cloud based speech application
KR20140143034A (ko) * 2013-06-05 2014-12-15 삼성전자주식회사 다양한 입력 기반의 서비스 제공 방법 및 그 전자 장치
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
WO2016000219A1 (zh) * 2014-07-02 2016-01-07 华为技术有限公司 信息传输方法及传输装置
JP6081966B2 (ja) * 2014-07-18 2017-02-15 キャンバスマップル株式会社 情報検索装置、情報検索プログラム、および情報検索システム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP6387287B2 (ja) * 2014-11-14 2018-09-05 株式会社デンソーテン 不明事項解消処理システム
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9576190B2 (en) * 2015-03-18 2017-02-21 Snap Inc. Emotion recognition in video conferencing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10504509B2 (en) 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) * 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11490232B2 (en) 2016-08-01 2022-11-01 Microsoft Technology Licensing, Llc Location-based conversation identifier
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP6612707B2 (ja) * 2016-09-30 2019-11-27 本田技研工業株式会社 情報提供装置
US10531227B2 (en) 2016-10-19 2020-01-07 Google Llc Time-delimited action suggestion system
WO2018100391A1 (en) * 2016-12-02 2018-06-07 Cirrus Logic International Semiconductor Limited Speaker identification
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6737398B2 (ja) * 2017-03-24 2020-08-05 ヤマハ株式会社 重要単語抽出装置、関連会議抽出システム、及び重要単語抽出方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP7035476B2 (ja) * 2017-11-20 2022-03-15 富士通株式会社 音声処理プログラム、音声処理装置、及び音声処理方法
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
JP2019101385A (ja) * 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220300560A1 (en) * 2021-03-18 2022-09-22 Amazon Technologies, Inc. Voice search refinement resolution
US11854544B1 (en) 2021-06-11 2023-12-26 Amazon Technologies, Inc. Entity resolution of product search filters

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3398401B2 (ja) * 1992-03-16 2003-04-21 株式会社東芝 音声認識方法及び音声対話装置
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
US6850609B1 (en) * 1997-10-28 2005-02-01 Verizon Services Corp. Methods and apparatus for providing speech recording and speech transcription services
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
JP3597398B2 (ja) 1998-10-15 2004-12-08 株式会社リコー 音声認識装置
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
JP3533371B2 (ja) * 2000-12-01 2004-05-31 株式会社ナムコ 模擬会話システム、模擬会話方法、および情報記憶媒体
GB0108603D0 (en) * 2001-04-05 2001-05-23 Moores Toby Voice recording methods and systems
JP3892302B2 (ja) 2002-01-11 2007-03-14 松下電器産業株式会社 音声対話方法および装置
JP3788793B2 (ja) 2003-04-25 2006-06-21 日本電信電話株式会社 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
JP2005215726A (ja) 2004-01-27 2005-08-11 Advanced Media Inc 話者に対する情報提示システム及びプログラム
JP2005293539A (ja) 2004-03-08 2005-10-20 Matsushita Electric Works Ltd 表情認識装置
JP5025932B2 (ja) 2005-09-26 2012-09-12 昭和電工株式会社 窒化物半導体発光素子の製造方法
US7991128B2 (en) * 2006-11-01 2011-08-02 International Business Machines Corporation Mirroring of conversation stubs
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105516472A (zh) * 2015-11-30 2016-04-20 联想(北京)有限公司 一种信息处理方法及电子设备
CN112562687A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质

Also Published As

Publication number Publication date
JP4838351B2 (ja) 2011-12-14
JPWO2008126355A1 (ja) 2010-07-22
EP2045798A1 (en) 2009-04-08
EP2045798B1 (en) 2014-12-03
US20090150155A1 (en) 2009-06-11
EP2045798A4 (en) 2012-12-26
WO2008126355A1 (ja) 2008-10-23
US8370145B2 (en) 2013-02-05

Similar Documents

Publication Publication Date Title
CN101542592A (zh) 关键词提取装置
US20210210071A1 (en) Methods and devices for selectively ignoring captured audio data
US11133027B1 (en) Context driven device arbitration
US10326869B2 (en) Enabling voice control of telephone device
US9443527B1 (en) Speech recognition capability generation and control
EP3179475A1 (en) Voice wakeup method, apparatus and system
CN108958810A (zh) 一种基于声纹的用户识别方法、装置及设备
CN110689877A (zh) 一种语音结束端点检测方法及装置
CN107680585B (zh) 一种中文分词方法、中文分词装置和终端
US11776541B2 (en) Communicating announcements
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN109933198B (zh) 一种语义识别方法及装置
CN109215638B (zh) 一种语音学习方法、装置、语音设备及存储介质
US10699706B1 (en) Systems and methods for device communications
CN113362813B (zh) 一种语音识别方法、装置和电子设备
KR20130108173A (ko) 유무선 통신 네트워크를 이용한 음성인식 질의응답 시스템 및 그 운용방법
US20240029743A1 (en) Intermediate data for inter-device speech processing
CN110853669B (zh) 音频识别方法、装置及设备
CN116417003A (zh) 语音交互系统、方法、电子设备和存储介质
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
KR101775532B1 (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
CN109064720B (zh) 位置提示方法、装置、存储介质及电子设备
CN113724693B (zh) 语音判别方法、装置、电子设备及存储介质
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
CN114372476A (zh) 语义截断检测方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090923