CN101309327B - 语音聊天系统、信息处理装置、话语识别和关键字检测 - Google Patents

语音聊天系统、信息处理装置、话语识别和关键字检测 Download PDF

Info

Publication number
CN101309327B
CN101309327B CN2008100904833A CN200810090483A CN101309327B CN 101309327 B CN101309327 B CN 101309327B CN 2008100904833 A CN2008100904833 A CN 2008100904833A CN 200810090483 A CN200810090483 A CN 200810090483A CN 101309327 B CN101309327 B CN 101309327B
Authority
CN
China
Prior art keywords
word
search
unit
signal conditioning
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008100904833A
Other languages
English (en)
Other versions
CN101309327A (zh
Inventor
中出元树
小川浩明
本田等
仓田宜典
石塚大介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Network Communications Inc
Original Assignee
Sony Corp
So Net Entertainment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2007325274A external-priority patent/JP4987682B2/ja
Application filed by Sony Corp, So Net Entertainment Corp filed Critical Sony Corp
Publication of CN101309327A publication Critical patent/CN101309327A/zh
Application granted granted Critical
Publication of CN101309327B publication Critical patent/CN101309327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了语音聊天系统、信息处理装置、话语识别方法。语音聊天系统包括:执行语音聊天同时执行话语识别的多个信息处理装置;和经由通信网络而与所述多个信息处理装置相连接的搜索服务器。搜索服务器向至少一个信息处理装置公开搜索关键字列表,该搜索关键字列表包含由搜索服务器搜索的搜索关键字。至少一个信息处理装置包括:识别字字典生成单元,该识别字字典生成单元从搜索服务器获取搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;以及话语识别单元,该话语识别单元通过参考包含该识别字字典的识别数据库来对从语音聊天期间的谈话对话中获得的语音数据执行语音识别。

Description

语音聊天系统、信息处理装置、话语识别和关键字检测
技术领域
本发明涉及语音(voice)聊天系统、信息处理装置、话语(speech)识别方法、关键字检测方法和程序。
背景技术
话语识别已经得到很长时间的研究,并且已经变得能够提供关于被读出的话语的非常高的精确识别率。但是,仍然难以提供在识别人类之间的自然谈话方面的高性能。
近年来,已经对用于从话语中提取谈话主题的技术执行认真的研究,该技术还称为话题检测技术。当采用话题检测技术时,从话语中提取文本信息的话语识别单元起到了重要作用。
作为从话语中提取关键字的方法,已知存在一种仅关注关键字的从话语中提取关键字的方法和一种使用大词汇量话语识别来识别全部话语然后从识别结果中提取关键字的方法。具体而言,前一种方法使用例如从音素网格(phoneme lattice)中提取其音素网格可识别的字序列的方法。同时,后一种方法使用了LVCSR(大词汇量连续话语识别)。如果关键字的数目巨大,则后一种方法由于其计算效率而较有利。在这些方法的任何一种中,都需要对将被识别的词汇具有语言上的理解,这可以通过使用关于将被检测的词汇的出现频率的信息来解决。
话语识别可以分成对孤立字进行识别的孤立字识别和对包括多个字的字序列进行识别的连续字识别。连续字识别使用了语言模型——“存储了字之间的联接相似性的数据库”,从而防止“具有相似的声音但是意义完全不同的字序列”作为识别结果被输出。
但是,语言模型仅仅描述了原先可识别的那些字的信息(以下称为已知字),因此,很难正确地识别后来登记的字(以下称为登记字)。另一方面,在孤立字识别的情况下,一旦字被登记在识别字字典(worddictionary)中,在登记之后这些字立即被识别。但是,在连续字识别的情况下,仅仅对字进行登记是不够的,而需要反映到语言模型上,但不幸的是反映到语言模型上通常很难。
基于此,相关技术的一个示例,JP-A NO.2004-252121公开了一种方法,该方法将登记字分成诸如“人名”和“地名”之类的类别,提供与这些类别相对应的语言模型,并且使用语言模型来关联登记字与类别,由此新的词汇可通过连续话语识别来识别。
同时,登记字的选择存在很大的问题。特别地,专有名词通常是重要关键字,原因在于专有名词的识别允许向用户提供有用信息。
基于此,作为相关技术的一个示例,JP-A NO.2002-216026公开了一种方法,该方法从因特网上的信息中获取关键字,并从所获得的关键字中提取关键字。
但是,存在大量专有名词,因此,实践中可能很难预先登记用户将说到的用于话语识别的所有字。
发明内容
出于这些原因,即使是JP-A NO.2002-216026所公开的方法也可能很难以高精确度来从语音聊天期间的谈话对话中识别与最近的话题相关的关键字。
本发明是鉴于上述情形而设计出来的。存在对提供下述新的且改进了的语言聊天系统、信息处理装置和程序的需要,这些系统、装置和程序能够以高精确度来识别存在于语音聊天期间的谈话对话中的关键字。
还存在对提供下述新的且改进了的信息处理装置、关键字检测方法和程序的需要,这些系统、装置和程序能够以高精确度来检测存在于广播信息(节目信息)中的关键字。
根据本发明的一个观点,提供了一种语音聊天系统,该语音聊天系统包括:执行语音聊天同时执行话语识别的多个信息处理装置;和经由通信网络而与所述多个信息处理装置相连接的搜索服务器,其中,搜索服务器向至少一个信息处理装置公开搜索关键字列表,该搜索关键字列表包含由搜索服务器搜索的搜索关键字,所述至少一个信息处理装置包括:识别字字典生成单元,该识别字字典生成单元从搜索服务器获取所述搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;话语识别单元,该话语识别单元通过参考包含识别字字典的识别数据库来对从语音聊天期间的谈话对话中获得的语音数据执行语音识别;语音谈话控制单元,该语音谈话控制单元执行与至少一个信息处理装置之间的语音数据的通信控制;以及关键字检测单元,该关键字检测单元从所述话语识别的结果中检测与语音聊天期间的谈话内容相关的关键字。
根据本发明的另一个观点,提供了一种信息处理装置,该装置从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表并执行与其它信息处理装置的语音聊天,所述装置包括:识别字字典生成单元,该识别字字典生成单元从搜索服务器获取搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;话语识别单元,该话语识别单元通过参考包含识别字字典的识别数据库来对从语音聊天期间的谈话对话中获得的语音数据执行话语识别;语音谈话控制单元,该语音谈话控制单元执行与所述其它信息处理装置之间的语音数据的通信控制;以及关键字检测单元,该关键字检测单元从话语识别的结果中检测与语音聊天期间的谈话内容相关的关键字。
所述识别字字典可以包括:预先登记了预定的字的固定字字典;和按需来更新所登记的字的可变字字典,并且识别字字典生成单元可以从包含搜索服务器的较高等级的搜索关键字的所述搜索关键字列表中选择将被登记在可变字字典中的字,以生成可变字字典。
识别字字典生成单元可以基于由关键字检测单元检测得到的关键字的历史信息来确定所述信息处理装置的用户的偏好,并基于该偏好来从搜索关键字列表中选择字。
识别字字典生成单元可以使用搜索服务器来搜索所述从搜索关键字列表中选择出来的字,并从通过所述搜索而获得的搜索结果中获取与所述字相关的次关键字,从而以与所述字相关联的方式来将次关键字登记在可变字字典中。
识别字字典生成单元可以基于搜索等级信息来对从搜索关键字列表中选择的各个字进行加权,其中,搜索等级信息是利用所述字被搜索服务器搜索的频率来确定的。
识别字字典生成单元可以基于由关键字检测单元检测到的关键字的历史信息来计算这些关键字的频率,并改变登记在可变字字典中且与这些关键字相对应的字的权重。
根据本发明的又一个观点,提供了一种信息处理装置,该装置从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表,从该搜索关键字列表中选择字,从对所选择的字施加在话语识别时使用的权重信息的识别字字典生成设备获取被施加了权重信息的字,并与其它信息处理装置执行语音聊天,所述信息处理装置包括:话语识别单元,该话语识别单元通过参考包含从识别字字典生成设备获得的字的识别数据库来对从语音聊天期间的谈话对话中获得的语音数据执行话语识别;语音谈话控制单元,该语音谈话控制单元执行与其它信息处理装置之间的语音数据的通信控制;以及关键字检测单元,该关键字检测单元从话语识别的结果中检测与语音聊天期间的谈话内容相关的关键字。
根据本发明的又一个观点,提供了一种在信息处理装置中使用的话语识别方法,所述装置从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表并与其它信息处理装置执行语音聊天,所述方法包括以下步骤:从搜索服务器获取搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;从语音聊天期间的谈话内容中获得语音数据;基于所述语音数据的声学特征来分析该语音数据,并生成与所述谈话内容相对应的字序列候选;以及通过参考在话语识别时使用的包含识别字字典的识别数据库、基于在构成所述字序列的字之间的语言学串联特征来分析所生成的字序列候选,从而选择最合适的字序列。
根据本发明的又一个观点,提供了一种在信息处理装置中使用的话语识别方法,所述装置从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表、从所述搜索关键字列表中选择字、从对所选择的字施加在话语识别时使用的权重信息的识别字字典生成设备获取被施加了权重信息的字、并与其它信息处理装置执行语音聊天,所述方法包括以下步骤:从识别字字典生成设备获取被施加了权重信息的字,并将所述字存储在识别数据库中以在话语识别时使用;从语音聊天期间的谈话内容中获得语音数据;基于所述语音数据的声学特征来分析该语音数据,并生成与所述谈话内容相对应的字序列候选;以及通过参考识别数据库、基于在构成所述字序列的字之间的语言学串联特征来分析所生成的字序列候选,从而选择最合适的字序列。
根据本发明的又一个观点,提供了一种用于对信息处理装置进行控制的计算机的程序,所述装置从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表并与其它信息处理装置执行语音聊天,所述程序允许计算机执行以下功能:识别字字典生成功能,从搜索服务器获取搜索关键字列表以生成包含在话语识别时使用的字的识别字字典;话语识别功能,通过参考包含识别字字典的识别数据库来对从语音聊天期间的谈话对话中获得的语音数据执行话语识别;语音谈话控制功能,执行与其它信息处理装置之间的语音数据的通信控制;以及关键字检测功能,从话语识别的结果中检测与语音聊天期间的谈话内容相关的关键字。
根据上述实施例,计算机程序被存储在计算机的存储单元中,并且在计算机的CPU读取该程序时被执行,从而致使计算机作为信息处理装置来进行工作。也可以提供在其中记录计算机程序的计算机可读记录介质。该记录介质例如可以是磁盘、光盘、磁性光盘、和闪存。计算机程序可以例如经由网络而不是使用记录介质来分发。
根据本发明的又一个观点,提供了一种用于对信息处理装置进行控制的计算机的程序,所述装置从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表、从搜索关键字列表中选择字、从对所选择的字施加在话语识别时使用的权重信息的识别字字典生成设备获取被施加了权重信息的字、并与其它信息处理装置执行语音聊天,所述程序允许计算机执行以下功能:话语识别功能,通过参考包含从识别字字典生成设备获取的字的识别数据库来对从语音聊天期间的谈话对话中获得的语音数据执行话语识别;语音谈话控制功能,执行与其它信息处理装置之间的语音数据的通信控制;以及关键字检测功能,从话语识别的结果中检测与语音聊天期间的谈话内容相关的关键字。
根据本发明的又一个观点,提供了一种信息处理装置,包括:识别字字典生成单元,该识别字字典生成单元从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在语言识别时使用的字的识别字字典;广播文本信息接收单元,该广播文本信息接收单元接收从广播站发送而来的广播文本信息;关键字检测单元,该关键字检测单元通过参考识别字字典来从广播文本信息中检测预定关键字;以及外部显示设备连接控制单元,该外部显示设备连接控制单元执行与外部显示设备的连接控制并将从广播文本信息中检测到的关键字输出到该外部显示设备。
广播文本信息接收单元可以从与信息处理装置相连接的外部显示设备获取关于该外部显示设备正通过其接收的广播频道的接收频道信息以及与该广播频道相对应的广播文本信息。或者,广播文本信息接收单元可以从与信息处理装置相连接的外部显示设备获取关于该外部显示设备正通过其接收的广播频道的接收频道信息,并从广播站获取与所述广播频道相对应的广播文本信息。
信息处理装置可以将所述关键字的参考历史存储在外部显示设备中,并且外部显示设备连接控制单元可以将外部显示设备所选择的关键字通知给搜索引擎。
根据本发明的又一个观点,提供了一种信息处理装置,包括:识别字字典生成单元,该识别字字典生成单元从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;广播音频信息接收单元,该广播音频信息接收单元接收从广播站发送而来的广播音频信息;话语识别单元,该话语识别单元通过参考包含识别字字典的识别数据库来对广播音频信息执行话语识别;关键字检测单元,该关键字检测单元从对广播音频信息的话语识别的结果中检测预定关键字;以及外部显示设备连接控制单元,该外部显示设备连接控制单元执行与外部显示设备的连接控制并将从广播音频信息中检测到的关键字输出到外部显示设备。
广播音频信息接收单元可以从与信息处理装置相连接的外部显示设备获取关于该外部显示设备正通过其接收的广播频道的接收频道信息以及与该广播频道相对应的广播音频信息。或者,广播音频信息接收单元可以从与信息处理装置相连接的外部显示设备获取关于该外部显示设备正通过其接收的广播频道的接收频道信息,并从广播站获取与所述广播频道相对应的广播音频信息。
信息处理装置可以将所述关键字的参考历史存储在外部显示设备中,并且外部显示设备连接控制单元可以将外部显示设备所选择的关键字通知给搜索引擎。
根据本发明的又一个观点,提供了一种关键字检测方法,包括以下步骤:从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在语言识别时使用的字的识别字字典;接收从广播站发送而来的广播文本信息;通过参考识别字字典来从广播文本信息中检测预定关键字;以及执行与外部显示设备的连接控制,并将从广播文本信息中检测到的关键字输出到外部显示设备。
根据本发明的又一个观点,提供了一种关键字检测方法,包括以下步骤:从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;接收从广播站发送而来的广播音频信息;通过参考包含识别字字典的识别数据库来对广播音频信息执行话语识别;从对广播音频信息的话语识别的结果中检测预定关键字;以及执行与外部显示设备的连接控制并将从广播音频信息中检测到的关键字输出到外部显示设备。
根据本发明的又一个观点,提供了一种程序,允许计算机实现以下功能:识别字字典生成功能,从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在语言识别时使用的字的识别字字典;广播文本信息接收功能,接收从广播站发送而来的广播文本信息;关键字检测功能,通过参考识别字字典从广播文本信息中检测预定关键字;以及外部显示设备连接控制功能,执行与外部显示设备的连接控制,并将从广播文本信息中检测到的关键字输出到外部显示设备。
根据上述实施例,计算机程序被存储在计算机的存储单元中,并且在计算机的CPU读取该程序时被执行,从而致使计算机作为信息处理装置来进行工作。可以提供在其中记录计算机程序的计算机可读记录介质。该记录介质例如可以是磁盘、光盘、磁性光盘、和闪存。计算机程序可以例如经由网络而不是使用记录介质来分发。
根据本发明的又一个观点,提供了一种程序,该程序允许计算机实现以下功能:识别字字典生成功能,从搜索服务器获取包含由搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;广播音频信息接收功能,接收从广播站发送而来的广播音频信息;话语识别功能,通过参考包含识别字字典的识别数据库来对广播音频信息执行话语识别;关键字检测功能,从对广播音频信息的话语识别的结果中检测预定关键字;以及外部显示设备连接控制功能,执行与外部显示设备的连接控制并将从广播音频信息中检测到的关键字输出到外部显示设备。
根据上述实施例,计算机程序被存储在计算机的存储单元中,并且在计算机的CPU读取该程序时被执行,从而致使计算机作为信息处理装置来进行工作。也可以提供在其中记录计算机程序的计算机可读记录介质。该记录介质例如可以是磁盘、光盘、磁性光盘、和闪存。计算机程序可以例如经由网络而不是使用记录介质来分发。
根据上述本发明的实施例,用于话语识别的识别字字典被使用从搜索服务器获得的数据库来创建,并且话语识别被使用识别字字典来执行。因此,可以以高精确度来识别存在于语音聊天期间的谈话对话中的关键字。此外,用于语言识别的识别字字典被使用从搜索服务器获得的数据库来创建,并且关键字检测被使用识别字字典来执行。因此,可以以高精确度来检测存在于广播信息(节目信息)中的关键字。
附图说明
图1是示出根据本发明第一实施例的语音聊天系统的示意图;
图2是用于说明根据第一实施例的信息处理装置的硬件配置的框图;
图3是用于说明根据第一实施例的信息处理装置的配置的框图;
图4是用于说明根据第一实施例的话语识别单元的配置的框图;
图5是示出根据第一实施例的识别数据库的示意图;
图6是示出根据第一实施例的固定字字典的一个示例的示意图;
图7是示出根据第一实施例的固定字字典的另一个示例的示意图;
图8是示出根据第一实施例的可变字字典的一个示例的示意图;
图9是示出根据第一实施例的类别表格的一个示例的示意图;
图10是示出根据第一实施例的类别表格的另一个示例的示意图;
图11是示出根据第一实施例的语言模型的一个示例的示意图;
图12是示出根据第一实施例的音素列表的一个示例的示意图;
图13是示出根据第一实施例的假名-音素转换规则的示意图;
图14是用于说明根据第一实施例的话语识别处理的一个示例的流程图;
图15是示出根据第一实施例的语言分数的计算公式的一个示例的示意图;
图16是示出根据第一实施例的常用字典的一个修改示例的示意图;
图17是示出根据第一实施例的固定字字典的一个修改示例的示意图;
图18是示出根据第一实施例的类别表格的一个修改示例的示意图;
图19是用于说明根据第一实施例的识别字字典生成单元的框图;
图20是示出根据第一实施例的识别字字典生成/更新处理的示意图;
图21A是示出根据第一实施例的语音聊天系统的配置的示意图;
图21B是示出根据第一实施例的语音聊天系统的一个修改示例的示意图;
图22是示出根据本发明第二实施例的关键字检测系统的配置的示意图;
图23是用于说明根据第二实施例的信息处理装置的配置的框图;
图24是用于说明根据第二实施例的外部显示设备的配置的框图;
图25是示出根据第二实施例的外部显示设备的信息显示屏幕的示意图;
图26是用于说明根据第二实施例的关键字检测方法的流程图;
图27是用于说明根据第二实施例的信息处理装置的第一修改示例的配置的框图;
图28是用于说明根据本修改示例的关键字检测方法的流程图;
图29是示出根据本发明第三实施例的语音聊天系统的示意图;
图30是用于说明根据第三实施例的信息处理装置的硬件配置的框图;
图31是用于说明根据第三实施例的信息处理装置的配置的框图;
图32是用于说明根据第三实施例的信息处理装置所使用的话语识别方法和关键字提取方法的一个示例的流程图;
图33是用于说明在根据第三实施例的语音聊天系统中的关键字同步方法的流程图;
图34是示出由根据第三实施例的信息处理装置显示的搜索信息显示的示例的示意图;
图35是示出根据第三实施例的搜索信息的参考历史数据的示意图;
图36A是用于说明根据第三实施例的信息处理装置的话语识别方法的简化框图;
图36B是用于说明根据第三实施例的信息处理装置的话语识别方法的第一修改示例的简化框图;
图36C是用于说明根据第三实施例的信息处理装置的话语识别方法的第二修改示例的简化框图;
图36D是用于说明根据第三实施例的信息处理装置的话语识别方法的第三修改示例的简化框图;
图37是示出根据本发明第四实施例的关键字提取系统的示意图;
图38是用于说明根据第四实施例的信息处理装置的配置的框图;
图39是用于说明根据第四实施例的外部显示设备的配置的框图;
图40是示出根据第四实施例的外部显示设备的信息显示屏幕的示意图;
图41是用于说明根据第四实施例的关键字提取方法的流程图;
图42是用于说明根据第四实施例的信息处理装置的第一修改示例的配置的框图;以及
图43是用于说明根据本第一修改示例的关键字提取方法的流程图。
具体实施方式
以下将参考附图来详细描述本发明的优选实施例。注意,在本说明书和附图中,实质上具有相同功能和结构的结构元素被用相同的标号来表示,并且对这些结构元素的重复说明被省略。
(第一实施例)
以下将详细描述根据本发明第一实施例的语音聊天系统。
图1是示出根据第一实施例的语音聊天系统的示意图。语音聊天系统10包括通信网络12、搜索服务器14、以及信息处理装置20A和20B(下文中有时候统称为信息处理装置20)。
通信网络12是连接信息处理装置20和搜索服务器14以使能它们之间的双向或单向通信的通信网络。通信网络12例如可以由公共网络(例如,因特网、电话网络、卫星通信网络、或者广播通信频道)或私有网络(例如,WAN(广域网)、LAN(局域网)、IP-VPN(因特网协议-虚拟私有网络)、以太网(注册商标)、或者无线LAN)构成。通信网络12可以是有线的或无线的。
搜索服务器14是用户可以使用关键字等通过因特网来搜索可用信息的网站。在本实施例中,搜索服务器14可以提供全文搜索服务,全文搜索服务允许使用关键字来搜索所存储的信息的全文;或者可以是目录服务,目录服务允许搜索经类别分类的信息。
信息处理装置20以语音方式来与经由通信网络12而与其相连接的另一个信息处理装置20进行聊天(语音聊天)。信息处理装置20可以经由通信网络12来请求经由通信网络12而与其相连接的搜索服务器14执行信息搜索。执行语言聊天的另一个信息处理装置20可以经由通信网络12而与其相连接,如图所示。或者,另一个信息处理装置20可以不经由通信网络12而直接连接到USB(通用串行总线)端口、诸如i.Link之类的IEEE 1394端口、SCSI(小型计算机系统接口)端口、RS-232C端口等。
在如图所示的示例中,信息处理装置20是台式PC;但是,在本实施例中,信息处理装置20可以是笔记本式PC。在本实施例中,信息处理装置20并不限于如上所述的示例,而可以例如由电视机机顶盒(televisionset-top checkbox)、诸如家用游戏机之类的信息设备、移动电话、PDA(个人数字助理)等来构成,只要是具有经由网络来通信的功能的设备就可以。另外或者可替代地,信息处理装置20可以是由拥有者携带的便携式设备,例如,便携式游戏机、PHS、或者便携式视频/音频播放机。
在图1中,仅有两个信息处理装置20与通信网络12相连接。但是,本实施例并不限于该示例,而可以有多个信息处理装置20与通信网络12相连接。
(信息处理装置20的硬件配置)
接下来,将参考图2来简要描述根据本实施例的信息处理装置20的硬件配置。
图2是用于说明根据第一实施例的信息处理装置20的硬件配置的框图。信息处理装置20包括中央处理单元(CPU)201、只读存储器(ROM)203、随机存取存储器(RAM)205、主机总线207、桥209、外部总线211、接口213、输入设备215、输出设备217、存储设备219、驱动器221、以及通信设备223。
CPU 201用作算术处理单元和控制单元。CPU 201根据记录在ROM203、RAM 205、存储设备219或可移动记录介质16中的各种程序来控制信息处理装置20中的内部操作的全部或一部分。ROM 203存储由CPU201使用的程序、算术参数等。RAM 205暂时存储CPU 201执行时所使用的程序和在CPU 201执行时适当地变化的参数。CPU 201、ROM 203和RAM 205经由包括内部总线(例如,CPU总线)在内的主机总线207而相互连接。
主机总线207经由桥209而与外部总线211(例如,外围组件互连(PCI)总线)相连接。
输入设备215包括诸如鼠标、键盘、触摸屏、按钮、开关、和控制杆之类的由用户操作的操作单元和诸如麦克风和头戴式耳机之类的语音输入单元。输入设备215可以是使用红外光或者其它电波的遥控单元(所谓的遥控器),或者可以是与信息处理装置20的操作相对应的诸如移动电话或PDA之类的外部连接设备。输入设备215可以是一种输入控制电路,该输入控制电路基于用户使用操作单元或语言输入单元输入的信息来生成输入信号并将所生成的输入信号输出到CPU 201。信息处理装置20的用户可以操作输入设备215来向信息处理装置20输入各种数据或者指示信息处理装置20执行处理操作。
输出设备217例如可以由可以以可视或可听的方式来通知用户所获得的信息的显示单元(例如,阴极射线管(CRT)显示单元、液晶显示(LCD)单元、等离子显示面板(PDP)单元、电致发光(EL)显示单元、或灯)、音频输出单元(包括扬声器和头戴式耳机)、以及诸如打印机、移动电话或传真机之类的设备来构成。输出设备217例如输出搜索服务器搜索的各种信息。具体而言,显示单元将搜索服务器对各种信息的搜索结果作为文本或图像来显示。同时,音频输出单元将被播放的语音数据转换成语音并输出该语音。
存储设备219是作为根据本实施例的信息处理装置20的存储单元的一个示例的数据存储设备。存储设备219例如由诸如硬盘驱动器(HDD)之类的磁存储单元、半导体存储设备、光存储设备、磁光存储设备等来构成。存储设备219存储由CPU 201执行的程序或各种数据以及从外部获得的各种数据。
驱动器221是存储介质的读写器。驱动器221设置在信息处理装置20中,或者从外部附接于信息处理装置20。驱动器221读出记录在诸如磁盘、光盘、磁光盘、或半导体存储器之类的可移动存储介质16中的信息(该信息被载入到驱动器221),并将所读出的信息输出到RAM 205。驱动器221可以将载入到驱动器221中的信息记录在诸如磁盘、光盘、磁光盘或半导体存储器之类的可移动存储介质16中。可移动存储介质16例如可以是DVD介质、HD-DVD介质、蓝光介质、紧凑式闪存(CF)、记忆棒、或安全数字(SD)存储卡。可移动存储介质16例如可以是其上安装有非接触式IC芯片的电子设备或集成电路(IC)卡。
通信设备223是由用于连接到通信网络12的通信设备构成的通信接口。通信设备223例如可以是用于有线或无线局域网(LAN)的通信卡、蓝牙或无线USB(WUSB)、用于光通信的路由器、用于非对称数字用户线路(ADSL)的路由器、或者用于各种通信协议的调制解调器。通信设备223在收发关于与另一个信息处理装置20聊天的语音的信息时向因特网或其它通信设备发送各种信息以及从其接收各种信息。连接到通信设备223的通信网络12可以由以有线或无线方式来连接的诸如因特网、家庭LAN、红外光通信、或者卫星通信之类的网络构成。
利用上述配置,信息处理装置20可以与直接连接到信息处理装置20的另一个信息处理装置或者与经由通信网络12来连接到其的另一个信息处理装置进行语音聊天,同时从经由通信网络12来连接到其的搜索服务器14等获得各种信息。此外,信息处理装置20可以使用可移动存储介质16来取出存储在信息处理装置20中的信息。
在上文中,已经描述了可以实现根据本实施例的信息处理装置20的功能的硬件配置的示例。上述组件可以使用通用元件来构成,或者利用专用于各种组件的功能的专用硬件来构成。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。上述硬件配置仅仅用于说明性目的,并且本发明决不局限于此。可以依据使用的形式来省略诸如主机总线207、外部总线211或接口213之类的一些组件。
(信息处理装置20的配置)
接下来,将详细描述根据本实施例的信息处理装置20的配置。在以下描述中,执行语音聊天的两个信息处理装置20将被称为第一信息处理装置20A和第二信息处理装置20B。第一和第二信息处理装置20A和20B根据信息处理装置的各个用户的声音来生成语音数据,并将该语音数据发送到作为语音聊天的对应方的另一个信息处理装置。图3是用于说明根据第一实施例的第一信息处理装置20A的配置的框图。
在以下描述中,术语“字”指的是在话语识别处理中便于作为单个字来处理的单元。其并不一定与语言学上的字相同。例如,“タロウ君(发音为tarou kun)”可以视为一个字,或者可以视为“tarou”和“kun”形式的两个字。此外,更大的单元“こんにちはタロウ君(发音为konnichiwa taroukun)”可以被视为一个字。
另外,术语“音素”指的是从声学的角度便于视为单个单元的单元。其并不一定与语音音节或音素相同。例如,在字“東京(发音为toukyou)”中,“tou”部分可以用三个音素符号“t/o/u”来表示,或者用“to:”(“o”的长音)来表示。此外,“tou”部分可以用“t/o/o”来表示。另外,可以采用表示静音的符号。此外,可以采用将静音分成“发音之前的静音”、“插入在发音之间的短静音”、“发音中的静音”、以及“与‘つ(发音为tsu)’相对应的静音”的符号。
如图3所示,根据本实施例的第一信息处理装置20A包括语音输入单元251、话语识别单元253、关键字检测单元255、关键字管理单元257、语音谈话控制单元259、显示单元261、语音输出单元263、通信单元265、存储单元267、以及识别字字典生成单元269。
语音输入单元251是在语音聊天期间向第一信息处理装置20A输入作为由第一信息处理装置20A的用户发出的话语的谈话对话的接口。语音输入单元251例如由与第一信息处理装置20A相连接的诸如麦克风或头戴式耳机之类的输入设备来构成。用户向麦克风或头戴式耳机发出的话语被实时自动地输入到第一信息处理装置20A,被转换成作为电信号的语音信号,并被经由语音输入单元251来发送到话语识别单元253。
话语识别单元253例如由CPU、ROM或RAM来构成。话语识别单元253根据由语音输入单元251自发输入并被实时发送的用户的话语来生成语音数据,并将该语音数据发送到稍后将描述的语音谈话控制单元259,从而基于所生成的语音数据来执行话语识别。作为话语识别的结果,话语识别单元253生成了与所生成的语音数据相对应的字序列,并将所生成的字序列发送到稍后将描述的关键字检测单元255。话语识别单元253可以被配置成将所生成的字序列发送到稍后将描述的显示单元261。稍后将描述话语识别单元253的细节。
关键字检测单元255判断在从话语识别单元253发送而来的字序列中是否存在由关键字管理单元257管理的关键字,并且如果关键字存在,则将与该关键字相对应的字作为关键字来输出。如果在一个字序列中存在多个关键字,则关键字检测单元255可以被配置成检测出所有对应关键字。关键字检测单元255可以被配置成将从字序列中检测得到的关键字发送到稍后将描述的显示单元261。
例如,当从话语识别单元253发送来识别结果“近年来结构改革已凸现”时,并且当在关键字管理单元257所管理的关键字中存在关键字“结构改革”时,关键字检测单元255输出“结构改革”作为关键字。
关键字管理单元257对将从话语识别单元253所生成的字序列提取的关键字进行管理。关键字管理单元257将搜索历史信息或聊天历史信息存储在存储单元267中,其中,搜索历史信息是第一信息处理装置20A的用户使用搜索服务器14来执行搜索的历史,而聊天历史信息是用户使用本实施例的语音聊天系统的历史。基于包含在历史信息中的搜索关键字或者所检测到的关键字来选择被管理的关键字。关键字管理单元257所管理的关键字由关键字检测单元255自由地参考。关键字管理单元257还可以向话语识别单元253提供所管理的关键字,并且话语识别单元253可以基于关键字管理单元257所提供的关键字来更新稍后将描述的谐振循环数据库(resonant cycle database)。
语音谈话控制单元259例如由CPU、ROM和RAM来构成,并且对与经由通信网络12来连接的第二信息处理装置20B的语音聊天进行控制。语音谈话控制单元259接收话语识别单元253所生成的语音数据,并经由通信单元265将该语音数据发送到第二信息处理装置20B。语音谈话控制单元259接收经由通信单元265从第二信息处理装置20B发送而来的语音数据,并将该语音数据发送到语音输出单元263。语音谈话控制单元259可以被配置成每次语音聊天被执行时就以关联方式来将执行语音聊天的日期、用于标识语音聊天的标识符、以及用于标识语音聊天的对应方的标识符存储在存储单元267中,作为聊天历史信息。
语音谈话控制单元259可以由专用于语音谈话控制的专用硬件构成,或者可以被作为诸如语音聊天程序之类的应用程序来提供。
显示单元261通过诸如第一信息处理装置20A的显示器之类的显示设备来向第一信息处理装置20A的用户显示从关键字检测单元255发送而来的关键字。显示单元261可以被配置成显示作为从话语识别单元253发送而来的话语识别的结果的字序列自身。
语音输出单元263是接收第二信息处理装置20B的用户所发出的话语的语音数据并将所接收的语音数据输入到第一信息处理装置20A的接口。语音输出单元263例如由作为与第一信息处理装置20A相连接的输出设备的扬声器或耳机构成。
经由通信单元265从第二信息处理装置20B接收的语音数据被经由语音输出单元263来输出给第一信息处理装置20A的用户。
通信单元265例如是安装在第一信息处理装置20A中的通信设备。通信单元265中继在第一信息处理装置20A(具体而言是话语识别单元253、关键字管理单元257、语音谈话控制单元259和识别字字典生成单元269)和第一信息处理装置20A的外部设备(具体而言是搜索服务器14)或第二信息处理装置20B之间的经由通信网络12来进行的信息通信。此外,通信单元265可以与直接而非经由通信网络12来连接到第一信息处理装置20A的其它信息处理装置进行信息通信。
存储单元267例如是安装在第一信息处理装置20A中的存储设备,并在其中存储诸如由关键字检测单元255检测到的关键字或由关键字管理单元257管理的关键字信息之类的数据。除了这些数据之外,存储单元267还可以在其中存储诸如由话语识别单元253生成的字序列或语音数据之类的识别结果或者各种数据库。存储单元267可以适当地在其中存储在第一信息处理装置20A执行处理时需要存储的各种参数以及该处理的进程信息。在话语识别单元253、关键字检测单元255、关键字管理单元257、语音谈话控制单元259、识别字字典生成单元269等执行对存储单元267的读写时,存储单元267可以自由地被访问。
识别字字典生成单元269从搜索服务器14获取搜索关键字列表等,并从所获得的搜索关键字列表中仅选择合适的关键字,从而生成在话语识别时使用的识别字字典。识别字字典生成单元269不仅可以从所获得的搜索关键字列表中选择关键字,而且还可以向所选择的关键字添加这些关键字的属性信息或者相关的次关键字或者添加在话语识别时使用的识别权重。稍后将描述识别字字典生成单元269的细节。
(话语识别单元253)
接下来,将参考图4来详细描述根据本实施例的话语识别单元253。图4是用于说明根据第一实施例的话语识别单元253的配置的框图。
如图4所示,根据本实施例的话语识别单元253包括AD转换单元301、特征参数提取单元303、匹配单元305、常用字典存储单元307、和识别数据库309。
AD转换单元301对语音信号(从语音输入单元251发送而来的模拟信号)进行采样和量化,并将该模拟语音信号转换成作为数字信号的语音数据。在完成向语音数据的转换之后,AD转换单元301将所生成的语音数据发送到语音谈话控制单元259和特征参数提取单元303。AD转换单元301可以将所生成的语音数据存储在存储单元267中。
特征参数提取单元303从AD转换单元301所生成的适当语音数据的每一帧中提取诸如Mel频率倒谱系数(MFCC)及其时差参数、频谱、功率线性预测系数、倒谱系数、和线谱对之类的特征参数。在完成特征参数的提取之后,特征参数提取单元303将所提取的特征参数发送到稍后将描述的匹配单元305。特征参数提取单元303可以将从语音数据中提取的各种特征参数存储在存储单元267中。
匹配单元305基于从特征参数提取单元303发送而来的各种特征参数、通过适当地参考识别数据库309和常用字典存储单元307来生成与输入到语音输入单元251的话语(即,语音聊天期间的谈话内容)最接近的字序列,作为话语识别的结果。字序列的生成方法将在稍后描述。在完成字序列的生成之后,匹配单元305将所生成的字序列发送到关键字检测单元255。匹配单元305可以将所生成的字序列存储在存储单元267中。
匹配单元305可以使用基于集束搜索(beam search)的维特比(Viterbi)解码器或者基于A*搜索的堆栈解码器来执行匹配。另外或者可替代地,在匹配时可以使用所谓的关键字辨认(keyword spotting)方法。如果向匹配单元305所参考的各种字字典添加了稍后将描述的“识别权重”信息,则可以对稍后将描述的语言分数进行加权,并且识别结果可以按加权后的分数来分等级。
常用字典存储单元307存储常用字典,该常用字典是在话语识别中通常使用的字的字典。在存储在常用字典存储单元307中的常用字典中,登记在其中的所有字都与发音信息和类别信息一起以关联方式来记载。例如,当专有名词“イチロ一(人名)”被登记在常用字典中时,专有名词“イチロ一”与发音信息(音素信息)“ichiro”和类别“_人名_”一起以关联方式来被登记。稍后将描述常用字典的细节。
识别数据库309是存储由匹配单元305用于生成字序列的各种模型或规则的数据库。以下将描述识别数据库309的细节。
<识别数据库309>
接下来,将参考图5来详细描述根据本实施例的识别数据库309。图5是示出根据第一实施例的识别数据库309的示意图。
如图5所示,根据本实施例的识别数据库309包括识别字字典存储单元401、声学模型存储单元403、语言模型存储单元405、音素列表407、和假名-音素转换规则409。
识别字字典存储单元401在其中存储由匹配单元305在生成字序列时使用的识别字字典。识别字字典例如包括固定字字典,可变字字典和类别表格。
在固定字字典中,记载了诸如不会经历登记和删除的字(即,预先在系统中建立的字(以下称为固定字))的发音(音素序列)和描述了音素的串联关系的模型之类的各种信息。
在可变字字典中,记载了诸如作为关键字的字(keyword word)的发音和描述音素的串联关系的模型之类的各种信息。诸如作为关键字的字的登记和删除以及发音的改变之类的处理主要是针对登记在固定字字典中的字来执行的。可变字字典可以不在其中存储任何信息。
例如,在检测与棒球相关的关键字的情况下,常用字典存储单元307可以在其中登记日常谈话中通常会使用的字(例如,在诸如日语语言字典之类的普通字典中记载的字);在识别字字典存储单元401中的固定字字典可以在其中登记在棒球领域中通常会使用的字,例如,“击打”、“双杀”、“击球手”、或者“捕手”。在识别字字典存储单元401中的可变字字典可以在其中登记随时间变化的专有名词,例如“ichiro”。由于可变字字典是按需来更新的,所以可以很容易地执行包括与最近的关于棒球的话题相关的关键字的识别。
接下来,将参考图6和7来描述根据本实施例的固定字字典。图6和7是示出根据第一实施例的固定字字典的示例的示意图。
在图6中,“符号”是用于标识字的字符串,并且可以例如用日语假名记号来表示。相同符号的条目被视为相同字的条目。本实施例的语言模型用这种符号来表示。“副本(transcription)”表示字的记号,并且作为识别结果来输出的字符串是副本。“音素序列”是用音素序列来表达的字的发音。本实施例的固定字字典不仅记载如图6所示的假名记号的符号,而且还记载如图7所示的混合有汉语字符和日语平假名的字符串。
在图6和7中记载的“<开始>”和“<结束>”是分别表示“发音之前的静音”和“发音之后的静音”的特殊符号。因此,这些特殊符号在副本栏中没有相应的记号,并且被表示为“[]”(空白)。
除了图6和7所记载的项目之外,本实施例的固定字字典还可以包括对字的话语的各个部分进行描述的“属性”栏(例如,名词或动词,或者字的类型)以及对在计算稍后将描述的语言分数时使用的字的权重信息进行描述的“识别权重”栏。
接下来,将参考图8来描述根据本实施例的可变字字典。图8是示出根据第一实施例的可变字字典的一个示例的示意图。
如图8所示,本实施例的可变字字典包括“符号”栏和“假名发音”。在图8所示的示例中,两个类别“_人名_”和“_地名_”被描述成“符号”。在“_人名_”类别中,两个字“イチロ一(发音为ichiro)”和“サニ一タロウ(发音为sanitarou)”的发音被记载在假名发音中。在“_地名_”类别中,字“キタシナガワ(发音为kitashinagawa)”的发音被记载在假名发音中。本实施例的可变字字典可以记载特定字以及类别,如图8所示。在将如图所示的除了类别之外的特定字记载在可变字字典中时,各个字被记载在“符号”栏中,并且将在可变字字典中提供与这些字相对应的“副本”或“音素序列”。
类似于固定字字典的情况,本实施例的可变字字典可以包括对字的话语的各个部分进行描述的“属性”栏(例如,名词或动词,或者字的类型)以及对在计算稍后将描述的语言分数时使用的字的权重信息进行描述的“识别权重”栏。由于记载在可变字字典中的字主要是随时间变化的字,所以记载在“识别权重”栏中的值优选地被设置成大于记载在固定字字典中的“识别权重”。这样,对记载在可变字字典中的字设置了较大的“识别权重”。因此,在用户通常交谈关于当前的话题的语音聊天中,可以基于偏好来选择特定关键字或者与特定关键字相关的字。因此,可以执行高识别率的话语识别。
稍后将描述根据本实施例的可变字字典的生成和更新处理的细节。
在类别表格中,包含在语言模型存储单元405中的语言模型所包含的类别和关于包含在这些类别中的字的信息是以关联方式来描述的。类别表格可以以列表形式或者表格形式来描述。如果语言模型不包括任何类别,则类别表格可以不在其中存储任何信息或数据。
这些类别可以基于语义属性来分成各个类(例如,“_人名_”、“_用户名_”、“_地名_”、“_店名_”等),或者基于话语的各个部分来分成各个类(例如,“_名词_”、“_动词_”、“_小品词_”等)。以下,记号“_..._”指的是类别名称。
图9示出了类别表格的一个示例。在该类别表格中,记载了在稍后将描述的语言模型中使用的类别种类和有关属于该类别的字的信息。例如,当在语言模型中使用两个类别“_人名_”和“_地名_”时,这两个类别“_人名_”和“_地名_”被输入到类别表格中,如图9所示。当向类别表格添加新类别时,属于该新添加的类别的字可以用空白来表示,并且可以随着语言模型的学习或调整的进程而向其添加所属字(belonging word)。在图9中,属于类别“_人名_”和“_地名_”的字被表示为“[]”,这种记号表示不存在所属字。
图10示出了识别字字典存储单元401的类别表格的另一个示例,其中,输入了关于字的信息。在图10中,第一行上的条目表示字“イチロ一(发音为ichiro)”和“サニ一タロウ(发音为sanitarou)”属于类别“_人名_”。
声学模型存储单元403在其中存储声学模型,声学模型表示将被识别的话语的各个音素的声学特征。这里,声学模型是表示各个发音符号(例如元音或辅音)的话语的声学特征的模型。在对输入话语的语音数据与识别候选字进行比较同时关注与声音的相似度时会使用声学模型。作为声学模型,例如可以使用隐马尔可夫模型(HMM,Hidden Markov Model),但是,根据本实施例的声学模型并不限于HMM。
作为存储在声学模型存储单元403中的声学模型,可以提供两种模型,一种模型用于安静的环境(在安静环境下能够提供高识别率的声学模型),而另一种模型用于嘈杂的环境(在嘈杂环境下能够提供良好的识别率的声学模型),以使得可以依据环境来参考这两种模型中的任一种。
语言模型存储单元405在其中存储语言模型,语言模型描述了表示登记在常用字典存储单元307和识别字字典存储单元401的各个字典中的字如何串联(连接)的信息(以下称为串联信息)。作为描述方法,可以使用统计字串联概率(n-gram或者基于类的n-gram(class n-gram))、生成语法、有限状态自动机(FSA)等。
包含在语言模型存储单元405中的语言模型包含从特定视角来分类的字的类别的串联信息以及这些字的串联信息。例如,当“表示人名的字所属于的类别”被表示为符号“_人名_”并且“表示食物的字所属于的类别”被表示为符号“_食物_”时,语言模型还描述了“_人名_”和“_食物_”的串联信息,即,还描述了预先存储在字典中的各种类别之间的串联以及类别和字之间的串联。
因此,可以获得语言模型中没有包含的字的串联信息。例如,当获得“イチロ一(发音为ichiro)”和“は(小品词,发音为wa)”之间的串联信息时,即使语言模型中没有描述“イチロ一(发音为ichiro)”的串联信息,如果可以获悉“イチロ一(发音为ichiro)”属于表示为符号“_人名_”的类别,也可以通过获得“_人名_”和“は(小品词,发音为wa)”之间的串联信息来获得“イチロ一(发音为ichiro)”和“は(小品词,发音为wa)”之间的串联信息。
<语言模型>
接下来,将参考图11来描述根据本实施例的语言模型的特定示例。图11是示出根据第一实施例的语言模型的一个示例的示意图。
在图11中,使用统计语言模型作为语言模型。统计语言模型是使用条件概率来描述字的串联信息的模型。在图11所示的语言模型中,使用了三元组(tri-gram)作为统计语言模型,其中,三元组表示三个字1、2和3的连续概率,即,字的三串联概率。
在图11中,“P(字3|字1字2)”表示在字序列中在连续的“字1”和“字2”之后出现“字3”的概率。在图中示出的示例中,在连续的“<开始>”和“_人名_”之后出现“は(发音为wa)”的概率是“0.012”。这样的概率可以通过分析描述了大量聊天谈话的文本来获得。作为语言模型,除了三元组之外,还可以根据需要而使用二元组(二串联概率)或者一元组(出现一个字的概率)。
在图11的语言模型中,语法是使用类别和字来描述的。即,在图11中,“_人名_”和“_地名_”指的是类别“_人名_”和“_地名_”,因此,通过使用这样的类别来描述三元组,如果表示人名或地名的字被登记在可变字字典中,则这些字可以被话语识别单元253识别出来。
音素列表407是在识别数据库309中使用的音素符号的列表。音素列表407将一个音素(或者对应的一个)表示为一个符号,如图12所示。例如,在图12的音素列表中,元音+冒号(例如,“a:”)表示延长音,并且“N”表示“ん(日语平假名,发音为ng)”。另外,“sp”、“si1B”、“si1E”和“q”全都表示静音,它们分别表示“发音中的静音”、“发音之前的静音”、“发音之后的静音”以及“与‘つ’(发音为tsu)相对应的静音”。
假名-音素转换规则409是用于将假名字符串转换成音素序列的规则。这样,通过存储假名-音素转换规则409,常用字典存储单元307或者识别字字典存储单元401可以在其中存储和维护与音素序列相独立的假名字符串,作为发音信息。假名-音素转换规则409描述了从假名记号向音素(例如,与记号或者所有可能的假名记号相关的音素的符号)转换的规则。根据图13所示的假名-音素转换规则409,例如,假名字符串“イチロ一”被转换为音素序列“i/ch/i/r/o:”。
在上文中,已经描述了根据本发明的第一信息处理装置20A的功能的示例。上述组件可以使用通用元件或电路来构成,或者可以用专用于各个组件的功能的专用硬件来构成。这些组件的全部功能可以利用CPU等来执行。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。
第二信息处理装置20B的配置基本上与第一信息处理装置20A的相同,并且将省略它的描述。
(话语识别单元253的话语识别处理)
接下来,将参考图14来描述根据本实施例的话语识别单元253的话语识别处理。图14是用于说明根据第一实施例的话语识别处理的一个示例的流程图。
当话语从第一信息处理装置20A的用户输入到诸如麦克风之类的语音输入单元251时,开始稍后将描述的话语识别处理。
由语音输入单元251生成的语音信号首先被AD转换单元301转换成作为数字信号的语音数据,并被发送到特征参数提取单元303(步骤S101)。此时,AD转换单元301可以将所生成的语音数据存储在存储单元267中。接下来,语音数据被发送到其的特征参数提取单元303从发送而来的语音数据中提取诸如Mel倒谱之类的特征量(步骤S103)。在提取特征参数时,可以使用各种分析方法,例如,倒谱分析、线性预测分析、基于使用MFCC系数的声学滤波器的分析。特征参数提取单元303可以在存储单元267中存储从语音数据中提取得到的各种特征参数。
一旦特征量被特征参数提取单元303提取出来,匹配单元305就参考存储在常用字典存储单元307中的常用字典或者存储在识别数据库309的识别字字典存储单元401中的固定字字典和可变字字典,从而通过连接被表示为这些字典中的符号的一些字来生成字序列(步骤S105)。随后,匹配单元305基于存储在识别数据库309的声学模型存储单元403中的声学模型来计算所生成的字序列的声学分数(步骤S105)。这里,声学分数是表示作为话语识别的结果的候选的字序列在声音方面(从声学的角度)与输入语音的相似程度的分数。较高的声学分数意味着所生成的字序列在声学上接近于输入语音。
一旦基于特征参数来计算得到声学分数,匹配单元305就基于计算得到的声学分数来选择预定数目的具有较高声学分数的字序列(步骤S107)。顺便提及,匹配单元305可以在存储单元267中存储计算得到的声学分数或者所选择的字序列。
在完成声学分数计算之后,匹配单元305基于包含在识别数据库309的语言模型存储单元405中的语言模型来计算在步骤S107中选择的各个字序列的语言分数(步骤S109)。例如,如果使用存储在语言模型存储单元405中的各种语言模型中的语法或者有限状态自动机,则当字序列对于该语言模型可接受时,该字序列的语言分数为“1”;当字序列对于该语言模型不可接受时,该字序列的语言分数为“0”。
当所生成的字序列对于语言模型可接受时,匹配单元305可以留下在步骤S107中选择的字序列。或者,当所生成的字序列作为语言可接受,但是对于语言模型不可接受时,匹配单元305可以删除在步骤S107中选择的字序列。
当使用诸如n-gram或者基于类的n-gram之类的统计语言模型作为语言模型时,使用字序列的生成概率作为语言分数。在本申请人所提出的日本专利申请No.2001-382579(对应于JP-A NO.2003-186494)中描述了计算语言分数的详细的方法。顺便提及,匹配单元305可以将计算所得的语言分数存储在存储单元267中。
根据本实施例的语言模型使用存储在常用字典存储单元307中的常用字典或者存储在识别数据库309的识别字字典存储单元401中的固定字字典和可变字字典来计算语言分数。由于在可变字字典中以按需更新方式来描述随时间变化的专有名词,所以可以对语音聊天期间频繁用作话题的字进行语言分数计算。
在完成声学分数和语言分数的计算之后,匹配单元305对在步骤S105中计算得到的声学分数和在步骤S109中计算得到的语言分数进行合成并对字序列进行排序,从而将具有最大合成分数的字序列确定为识别结果(步骤S111)。具体而言,匹配单元305将根据声学模型来获得的声学分数和根据语言模型来获得的语言分数的乘积或对数和为最大的字序列确定为识别结果。当诸如字的识别权重之类的信息被添加到在语言模型中使用的字典时,可以使用在其中并入了识别权重的语言分数。
在这种情况下,从声学和语言学角度来看最为合适的字序列被确定为识别结果。一旦最合适的字序列被确定为识别结果,匹配单元305就将所确定的识别结果发送到关键字检测单元255(步骤S113)。顺便提及,匹配单元305可以将作为所确定的识别结果的字序列存储在存储单元267中。
这样,在根据本实施例的话语识别处理中,在计算语言分数时,通过参考可变字字典(该可变字字典记载了与用户在语音聊天期间可能交谈的最近的话题(特定话题)相关的词汇),可以基于偏好来识别与最近的话题相关的词汇。因此,可以提高在通常的话语识别处理中很难识别的最近的关键字或者与关键字相关的词汇的识别率。作为识别结果来显示的信息很可能是关于最近的话题的信息,即,用户感兴趣的信息。因此,即使被显示的信息不知何故而与用户语音聊天时的谈话不同(即,即使话语识别的结果存在错误),语音聊天的用户也可能能够展宽谈话。在这种情况下,执行语音聊天的用户可以设法允许话语识别处理中的错误。
<语言分数的计算方法>
接下来,将参考图15来描述根据本实施例的语言分数的计算方法。图15是示出根据第一实施例的语言分数的计算公式的示例的示意图。图15示出了当匹配单元305在图14的步骤S109中选择字序列“<开始>イチロ一(发音为ichiro)は(发音为wa)何時(发音为nanji)に(发音为ni)起きた(发音为okita)の(发音为no)<结束>”时的语言分数的计算公式。
语言分数“Score(<开始>イチロ一(发音为ichiro)は(发音为wa)何時(发音为nanji)に(发音为ni)起きた(发音为okita)の(发音为no)<结束>)”是字序列“<开始>イチロ一(发音为ichiro)は(发音为wa)何時(发音为nanji)に(发音为ni)起きた(发音为okita)の(发音为no)<结束>”的生成概率,如公式(1)所示。
语言分数“Score(<开始>ichiro wa nanji ni okita no<结束>”的准确值是利用“P(<开始>)P(ichiro|<开始>)P(wa|<开始>ichiro)P(nanji|<开始>ichiro)P(ni|<开始>ichiro wa nanji)P(okita|<开始>ichiro wa nanji ni)P(no|<开始>ichiro wa nanji ni okita)P(<结束>|<开始>ichiro wa nanji ni okitano)”来计算的,如公式(2)所示。如图16所示,由于语言模型112使用了三元组,所以条件式“<开始>ichiro wa”、“<开始>ichiro wananji”、“<开始>ichiro wa nanji ni”、“<开始>ichiro wa nanji ni okita”和“<开始>ichiro wa nanji ni okita no”是利用字序列局限于紧跟在前的两个字(即,分别为“ichiro wa”、“wa nanji”、“nanji ni”、“ni okita”和“okita no”)的条件概率来近似得到的(公式(3))。
条件概率是通过参考如图11所示的语言模型来获得的。但是,由于语言模型并不包含符号“ichiro”,所以匹配单元305通过参考存储在识别数据库309的识别字字典存储单元401中的类别表格而识别出用符号“ichiro”表示的字属于“_人名_”类别,从而将“ichiro”转换成“_人名_”。
具体而言,如公式(4)所示,“P(ichiro|<开始>)”被转换成“P(_personal name_|<开始>)P(ichiro|_personal name_)”,然后近似得到“P(_personal name_|<开始>)/N”。这里,N是属于类别表格中的“_人名_”类别的字的数目。
具体而言,当以P(X|Y)的形式来描述概率时,如果字X属于类别C,则首先根据语言模型来得到P(C|Y)的值,并且将所获得的值乘以P(X|C)的值,其中,P(X|C)是从类别C中生成字X的概率。假设属于类别C的字的生成概率相同,那么如果属于类别C的字的数目为N,则P(X|C)的值可以近似等于1/N。
例如,在“_人名_”类别中仅存在用符号“ichiro”表示的一个字,则N的值为“1”。因此,如公式(5)所示,“P(wa|<开始>ichiro)”等于“P(wa|<开始>_personal name_)”。另外,“P(nanji|ichiro wa)”等于“P(nanji|_personal name_wa)”,如公式(6)所示。
通过使用语言分数的计算方法,可以计算包含可变字的字序列的语言分数。其结果是,可变字可以被作为识别结果来输出。
在上述示例中,在系统启动时,常用字典存储单元307的常用字典并不包含任何信息或数据。但是,可以预先在常用字典中存储若干字。
图16示出了常用字典的一个示例,其中,在系统启动时在“_人名_”类别中输入了关键字“ichiro”。在图16的示例中,由于在系统启动时在“_人名_”类别中输入了假名发音“イチロ一”,所以无需登记该关键字就可以检测到该关键字。
在上述示例中,在语言模型中描述了存储在固定字字典中的字,并且存储在可变字字典中的字属于至少一个类别。属于该类别的一些字可以存储在固定字字典中。
图17示出了固定字字典的一个示例,并且图18示出了启动时的类别表格的示例。具体而言,在图16的类别表格中,预先登记了类别“_人名_”和属于类别“_人名_”的字的符号“イチロ一”。在图17的固定字字典131中,预先登记了符号“イチロ一”、用符号“イチロ一”表示的字的副本“イチロ一”以及音素序列“i/ch/i/r/o:”。
在以上情况下,话语识别处理被执行以使得字“ichiro”属于“_人名_”类别。即,从一开始字“ichiro”就被视为人名。但是,由于字“ichiro”存储在固定字字典中,所以很难删除或修改。
这样,通过预先将可能的字存储在固定字字典中,可以识别关键字而无需将它们登记在字典中。
(识别字字典生成单元269)
接下来,将参考图19来详细描述根据本实施例的识别字字典生成单元269。图19是用于说明根据第一实施例的识别字字典生成单元的框图。
如图19所示,根据本实施例的识别字字典生成单元269包括搜索关键字列表获取单元501、关键字选择单元503、次关键字获取单元505和关键字信息添加单元507。
搜索关键字列表获取单元501从经由通信网络12连接到其的搜索服务器14获取包含搜索服务器所搜索得到的较高等级的搜索关键字的较高等级搜索关键字列表。所获得的较高等级搜索关键字可以是搜索服务器14的整体上的较高等级搜索关键字,或者可以是特定领域的较高等级搜索关键字。所获得的较高等级搜索关键字的数目是任意的。
当从特定领域获得较高等级搜索关键字时,搜索关键字列表获取单元501可以通过参考存储在存储单元267中的语音聊天历史信息或者所识别关键字的历史信息来确定第一信息处理装置20A的用户的偏好,从而仅获取符合用户偏好的较高等级搜索关键字。例如,搜索关键字列表获取单元501可以使用概率潜在语义分析(PLSA)等来将语音聊天的历史信息和所识别关键字的历史信息转换成具有预定维度的话题矢量的形式。类似地,搜索服务器的较高等级搜索关键字可以被使用PLSA等来转换成话题矢量的形式。可以对基于历史信息的话题矢量和基于较高等级搜索关键字的话题矢量进行比较,从而获得具有与基于历史信息来生成的话题矢量相似的矢量的较高等级搜索关键字。
搜索关键字列表获取单元501将从搜索服务器14获得的搜索关键字列表发送到关键字选择单元503。搜索关键字列表获取单元501可以将所获得的搜索关键字列表存储在存储单元267中。
关键字选择单元503基于第一信息处理装置20A的偏好来从搜索关键字列表获取单元501已经从搜索服务器14获得的搜索关键字列表中选择关键字。可以如下地执行关键字的选择。关键字检测单元255所检测到的关键字的历史信息被使用PLSA等来转换成具有预定维度的话题矢量的形式。类似地,所获得的关键字可以被使用PLSA等来转换成话题矢量的形式。可以对基于历史信息的话题矢量和基于所获得的关键字列表的话题矢量进行比较,从而选择具有与基于历史信息来生成的话题矢量相似的矢量的搜索关键字。
当可以从第二信息处理装置20B(语音聊天的对应方)获得语音聊天的历史信息或者所识别关键字的历史信息时,可以在执行对从第二信息处理装置20B获得的历史信息和存储在第一信息处理装置20A中的历史信息的匹配处理的同时执行关键字的选择。在这种情况下,两种历史信息的匹配可以取两种历史信息的并集(union)、合成(integration)或者XOR。可替代地,可以针对第一或第二信息处理装置20A或20B的用户的偏好来统一匹配。当向所获得的关键字添加稍后将描述的识别权重信息时,可以使用识别权重的最大值、最小值或平均值来作为新的识别权重信息。
关键字选择单元503可以从搜索关键字列表获取单元501已经从搜索服务器14获得的搜索关键字列表中删除不适合登记在可变字字典中的字。这里,不适合登记在可变字字典中的字可以包括:(1)通用字(general word);(2)从常识的角度来看不适合的字;以及(3)话语识别难以识别的字,例如,仅具有一个或两个音素的字。
在从搜索服务器14获得的搜索关键字列表中选择关键字之后,关键字选择单元503将所选择的关键字发送给次关键字获取单元505和关键字信息添加单元507,并将所选择的关键字存储在可变字字典中,该可变字字典被存储在识别字字典存储单元401中。关键字选择单元503可以将所选择的关键字存储在存储单元267中。
次关键字获取单元505使用搜索服务器14来搜索关键字选择单元503所选择的关键字,以获得与关键字选择单元503所选择的关键字相关的次关键字。当搜索服务器14搜索得到一个关键字时,作为搜索结果将获得多个文档。次关键字获取单元505使用诸如术语频率-逆文档频率(TFIDF,term frequency-inverted document frequency)之类的加权方法来从所获得的多个文档中获取次关键字。通过搜索服务器14从搜索结果中获取次字的方法并不限于上述方法,而可以使用所有已知方法。例如,如果字“サツカ一日本代表(日本足球队队员)”被作为关键字从关键字选择单元503发送,则次关键字获取单元505使用搜索服务器14利用关键字“日本足球队队员”来执行搜索,以从通过搜索所获得的文档中获得诸如“オシム(Osim)”或者“中田(Nakata)”之类的关键字。
在从搜索服务器14获取次关键字完成之后,次关键字获取单元505将所获得的次关键字以与在搜索时使用的关键字相关联的方式来存储在识别字字典存储单元401中的可变字字典中。次关键字获取单元505将所获得的次关键字发送到稍后将描述的关键字信息添加单元507。顺便提及,次关键字获取单元505可以将所获得的次关键字存储在存储单元267中。
关键字信息添加单元507向关键字选择单元503所选择的关键字添加关键字信息并将所选择的关键字和关键字信息以关联方式存储在可变字字典中,其中,关键字信息包括在计算语言分数时使用的识别权重信息以及话语的一部分或者关键字的类型。
可以向与关键字相关联的次关键字添加关键字信息。
识别权重信息是描述了识别权重(在计算语言分数时使用的校正系数(权重因子))的信息,语言分数的校正值随着识别权重的值的增大而增大,因而具有较大识别权重的关键字很可能会被用作识别结果。例如,识别权重为10的关键字被话语识别的概率将是识别权重为1的关键字(即,未经加权的关键字)的十倍。
关于识别权重的确定,可以使用从搜索服务器14获得的搜索关键字列表的等级信息或者关键字在话语识别的结果的输出中的出现频率。由于搜索关键字列表是在搜索服务器14中被置于较高等级上的搜索关键字的列表,所以可以按在搜索时关键字的出现频率的递减顺序来向它们分配等级;按等级顺序来确定预定的识别权重。具体而言,按在搜索时关键字的出现频率的递减顺序来向它们分配预定系数,并且将归一化后的关键字频率乘以所分配的系数,从而得到识别权重。
关于识别权重的确定,可以使用关于第一信息处理装置20A的用户是否已经使用搜索服务器14来对作为话语识别的结果而获得的关键字执行搜索的信息或者第一信息处理装置20A的用户的偏好。
可以使用在设在因特网上的公告牌或网站中的描述内容或者使用形态分析工具来添加属性信息,该属性信息是关于话语的各个部分或者关键字的类型的信息。可替代地,可以适当地使用因特网上可以得到的百科全书、维基百科或者日语字典。
关于搜索关键字列表和次关键字的获取以及关键字信息的添加,取代搜索服务器14可以使用存储在经由通信网络12来连接的服务器上的辞典、本体(ontology)数据库、百科全书、日语字典、或者形态分析工具。除了辞典、本体数据库、百科全书、日语字典和形态分析工具之外,还可以使用搜索服务器14。
<识别字字典生成/更新处理>
接下来,将参考图20来详细描述根据本实施例的识别字字典生成单元的操作。图20是示出根据第一实施例的识别字字典生成/更新处理的示意图。
首先,识别字字典生成单元269的搜索关键字列表获取单元501基于用户的偏好来从搜索服务器14获得记载了较高等级的搜索关键字的搜索关键字列表。如图20所示,在搜索关键字列表中,记载了“サツカ一日本代表(日本足球队队员)”、“ワ一ルドベ一スボ一ルクラシツク(世界棒球经典赛事)”、“王監督(王教练)”、“ジ一コ(济科)”、“歌詞(歌词)”、“27”、“テイラミス(提拉米苏)”、“万座ビ一チ(曼扎海滩)”、“飲み会(下班后的聚会)”、“シユ一ト(射击)”以及“卑猥(猥琐)”。搜索关键字列表获取单元501将所获得的关键字存储在存储单元267中,并将它们发送到识别字字典生成单元269的关键字选择单元503。
关键字选择单元503通过参考发送而来的搜索关键字列表来删除不适于登记的字。在上述示例中,诸如“飲み会(下班后的聚会)”、“シユ一ト(射击)”、“歌詞(歌词)”和“27”之类的通用字以及诸如“卑猥(猥琐)”之类的从常识角度来看并不合适的字被从搜索关键字列表中删除。关键字选择单元503额外地在可变字字典中描述了这样的字被删除了的搜索关键字列表。关于在可变字字典中的额外描述,关键字选择单元503还可以添加关于诸如音素序列或者副本之类的项目以及图20所示的项目的描述。
随后,次关键字获取单元505获得这样的在可变字字典中得到额外描述的关键字,并使用搜索服务器14等来获得与所获得的关键字相关的次关键字。例如,如图20所示,作为搜索服务器14基于关键字“サツカ一日本代表(日本足球队队员)”来进行搜索的结果,获得了次关键字“オシム(Osim)”、“中田(Nakata)”、“卷(Maki)”和“ジ一コ(Zico)”。这些次关键字被以与关键字“サツカ一日本代表(日本足球队队员)”相关联的方式来额外地记载在可变字字典中。类似地,其它关键字的次关键字可以被获得,并且按与它们相关联的方式来记载在可变字字典中。
接下来,关键字信息添加单元507按在搜索服务器14中的搜索关键字的搜索等级的递减顺序来向删除了不必要的字的搜索关键字分配预定系数。例如,关键字信息添加单元507按在搜索关键字列表中的关键字的等级的递减顺序来向关键字分配系数10、9、8、等,并将所分配的系数乘以一个值(该值是将各个关键字的频率除以正态期望值而得到的),从而计算得到识别权重。这样获得的识别权重例如可以被乘以S型函数(sigmoidfunction)。关键字信息添加单元507将按上述方式来获得的识别权重信息添加到各个关键字,并额外地将它们记载在可变字字典中。
识别权重信息的计算方法仅仅是用于说明目的的。根据本实施例的识别权重信息的计算方法并不限于上述方法,并且在计算识别权重信息时可以使用除了上述方法之外的其它方法。
如图20所示,在固定字字典中,预先登记了诸如“食べる(吃)”、“飲む(喝)”、“ヒツト(击打)”、“シユ一ト(射击)”、“選手(选手)”和“飲み会(下班后的聚会)”之类的日常谈话中通常使用的字。预先登记在固定字字典中的这些字是如上所述的通用字,并且基于偏好极有可能不被话语识别,因此,针对这些字,“1”被登记为识别权重信息。
关键字信息添加单元507从使用形态分析工具来获得的或者可以从搜索服务器14上的公告牌得到的信息中获取属性信息(例如,话语的一部分或者各个字的类型),从而将它们额外地记载在可变字字典中。例如,将“名词:运动”作为属性信息添加到关键字“サツカ一日本代表(日本足球队队员)”,如图20所示。
通过执行上述处理,识别字字典生成单元269可以按需来执行可变字字典的生成和更新处理。当本实施例的第一信息处理装置20A第一次被启动时,可能存在没有信息或数据被记载在可变字字典中的情况。出于这个原因,识别字字典生成单元269根据上述方法来执行可变字字典的生成。可变字字典的更新可以按任意方式来执行。例如,可变字字典的更新可以周期性地每隔预定时间段地执行,或者可以根据来自第一信息处理装置20A的用户的更新命令来执行。
关于可变字字典的更新,当作为次关键字来记录的一些字被高频度地话语识别时,被高频度地话语识别出的这些次关键字可以被作为关键字重新存储在可变字字典中。
当执行话语识别处理时,匹配单元305基于存储在识别数据库309的语言模型存储单元405中的统计语言模型或者语法模型、使用记载在各种字字典中的内容来执行语言模型的计算。当计算存储在可变字字典中的字的语言分数时,匹配单元305使用常用方法基于语言模型来计算语言分数,并将计算得到的语言分数乘以添加给关键字的识别权重,从而获得在话语识别时实际使用的语言分数。由于向存储在可变字字典中的字添加了大于或等于1的识别权重,如图20所示,所以为这些字计算得到的语言分数相对地要大于存储在常用字典或固定字字典中的字的语言分数。出于这个原因,在存储在可变字字典中的字中,经常出现在最近的话题中的特定字被以高概率识别出。
在上述方法中,使用常用方法来计算得到的语言分数被乘以识别权重,因此,作为计算结果而得到的语言分数在某种情况下可能等于或大于1。但是,在话语识别处理中,各个关键字就语言分数而言的相对等级比语言分数的绝对值更重要,因此,语言分数可以具有等于或大于1的值。
如图21A所示,可以向执行语音聊天的第一和第二信息处理装置20A和20B两者都提供识别字字典生成单元269。如图21B所示,可以不向执行语音聊天的第一和第二信息处理装置20A和20B提供识别字字典生成单元269,而在服务器18中提供识别字字典生成单元269,服务器18对第一和第二信息处理装置20A和20B之间的通信进行中继。作为图21B所示的服务器,当在服务器18中提供识别字字典生成单元269时,图21B所示的服务器18充当从搜索服务器14获取搜索关键字列表、使用上述方法从所获得的搜索关键字列表中选择关键字、并向所选择的关键字添加上述权重信息的识别字字典生成设备。
服务器18中的识别字字典生成单元183基于从语音谈话控制单元181获得的语音谈话的内容来从搜索服务器14获取搜索关键字列表,并根据上述处理方法、使用所获得的搜索关键字列表来执行字的选择和识别权重信息的添加,从而创建可变字字典。之后,服务器18中的识别字字典生成单元183将所创建的可变字字典发送到第一和第二信息处理装置20A和20B。这些信息处理装置将发送而来的可变字字典存储在各个识别数据库309中,因此,在话语识别处理中可以使用可变字字典。顺便提及,第一和第二信息处理装置20A和20B可以从服务器18获取添加了识别权重信息的字的列表,并基于所获得的字列表来创建可变字字典。
在图21A和21B所示的第一和第二信息处理装置20A和20B中,仅示出了各个信息处理装置的一些处理单元。不言而喻,除了所示出的处理单元之外,这些信息处理装置还包括图3到5所示的处理单元。
根据上述本实施例的语音聊天系统,在生成字典时搜索服务器14的数据库被用于话语识别。因此,可以使用在最近的话题中经常出现的关键字作为话语识别的语言知识。另外,与话题的关键字相关的字被使用铭记(treasure)等来设置成具有高出现概率,因此,可以使用关联关键字来执行话语识别。在这种情况下,在根据本实施例的语音聊天系统中,优先识别与用户可能交谈的最近的话题相关的词汇,从而提高了识别率。作为识别结果来显示的信息很可能是关于最近的话题的信息,即,用户感兴趣的信息。因此,即使被显示的信息不知何故而与用户的谈话不同,也可以提供语音聊天的用户可以扩宽谈话的优点。
(第二实施例)
以下将详细描述根据本发明第二实施例的关键字检测系统。
图22是示出根据本发明第二实施例的关键字检测系统的配置的示意图。如图22所示,根据本实施例的关键字检测系统11包括通信网络12、搜索服务器14、和信息处理装置20A和20B(下文中,有时候统称为信息处理装置20)。信息处理装置20A与家庭网络19内的外部显示设备70相连接。信息处理装置20A和20B以及外部显示设备70可以接收从广播站80发送而来的广播信息。
通信网络12和搜索服务器14具有与根据第一实施例的通信网络12和搜索服务器14相同的配置,并提供基本上相同的效果,并且将省略对它们的详细描述。
信息处理装置20A以语音方式与经由通信网络12连接到其的另一个信息处理装置20B执行聊天(语音聊天)。信息处理装置20A和20B可以经由通信网络12来请求经由通信网络12连接到其的搜索服务器14执行数据库的参考或信息的搜索。执行语言聊天的另一个信息处理装置20B可以不经由通信网络12(如图所示)来与信息处理装置20B相连接。可替代地,另一个信息处理装置20B可以直接而不是经由通信网络12来连接到信息处理装置20A,即,连接到USB端口、诸如i.Link之类的IEEE 1394端口、SCSI端口、RS-232C端口等。
信息处理装置20A与家庭网络19内的稍后将描述的外部显示设备70相连接,因此,可以在信息处理装置20A和外部显示设备70之间进行各种数据的通信。信息处理装置20A和外部显示设备70之间的连接可以经由诸如HDMI-CEC(高清晰多媒体接口-消费电子控件)之类的连接端口来执行。信息处理装置20A可以使用在其中设置的接收功能来接收包含从稍后将描述的广播站80发送而来的广播信息的广播电波。
在如图所示的示例中,信息处理装置20是台式PC,但是,在本实施例中,信息处理装置20可以是笔记本式PC。在本实施例中,信息处理装置20并不限于上述示例,而例如可以由电视机机顶盒、诸如家用游戏机之类的信息设备、移动电话、PDA等来构成,只要是能够具有经由网络来通信的功能的设备即可。另外或者是可替代地,信息处理装置20可以是由拥有者携带的便携式设备,例如,便携式游戏机、PHS、或者便携式视频/音频播放机。
外部显示设备70是显示单元,例如,CRT显示单元、液晶显示单元、等离子显示面板单元、或者电致发光(EL)显示单元。外部显示设备70接收包含从稍后将描述的广播站80发送而来的广播信息的广播电波,并在显示单元的显示区域上显示广播信息的内容。这里,从广播站发送而来的广播信息指的是通过诸如单波段数字广播或者12波段数字广播(以下称为全波段数字广播)之类的地面数字广播、有线广播、或者经由网络的因特网广播来提供的诸如广播文本信息、广播音频信息、或者视频信息之类的数据。包含广播信息的广播电波指的是诸如单波段数字广播或者全波段数字广播之类的地面数字广播的电波。外部显示设备70可以经由诸如HDMI-CEC之类的连接端口将所接收的广播信息发送到信息处理装置20。外部显示设备70可以接收从信息处理装置20发送而来的各种数据,并显示与该数据相对应的信息。
以下,将通过地面数字广播的示例来描述第二实施例。
广播站80发送包含广播信息的广播电波,其中,广播信息包括以下数据:广播文本信息、广播音频信息、和视频信息。外部显示设备70接收从广播站80发送而来的广播电波,并显示字幕信息或者输出基于包含在广播电波中的广播文本信息的声音。信息处理装置20可以接收从广播站80发送而来的广播电波,以在各种处理中使用该广播电波的内容。
(信息处理装置20的配置)
接下来,将详细描述根据本实施例的信息处理装置20的配置。根据本实施例的信息处理装置20的硬件配置基本上与根据第一实施例的硬件配置相同,并且将省略对它的详细描述。
图23是用于说明根据第二实施例的信息处理装置20的配置的框图。如图23所示,根据本实施例的信息处理装置20包括关键字管理单元257、显示单元261、通信单元265、存储单元267、识别字字典生成单元269、广播文本信息接收单元271、关键字检测单元273、以及外部显示设备连接控制单元275。
关键字管理单元257管理将从与稍后将描述的广播文本信息接收单元271所接收的广播文本信息相对应的字序列中提取出来的关键字。关键字管理单元257将搜索历史信息存储在存储单元267中,并基于包含在该历史信息中的搜索关键字或者所检测到的关键字来选择被管理的关键字,其中,历史信息是信息处理装置20的用户使用搜索服务器14来执行搜索的历史。关键字管理单元257所管理的关键字由稍后将描述的关键字检测单元273自由参考。关键字管理单元257可以将所管理的关键字提供给稍后将描述的识别字字典生成单元269,并且识别字字典生成单元269可以使用关键字管理单元257所提供的关键字和从搜索服务器14获得的搜索关键字来执行识别字字典的生成或更新。
显示单元261通过诸如信息处理装置20的显示器之类的显示设备向信息处理装置20的用户显示从关键字检测单元273发送而来的关键字。显示单元261可以被配置成显示与广播文本信息接收单元271所接收的广播文本信息相对应的字序列自身。
通信单元265是安装在信息处理装置20中的通信设备。通信单元265经由通信网络12对在信息处理装置20(具体而言是关键字管理单元257和识别字字典生成单元269)与信息处理装置20的外部设备(具体而言是搜索服务器14)或者另一个信息处理装置20之间的信息通信进行中继。此外,通信单元265可以与直接而非经由通信网络12来连接到信息处理装置20的另一个信息处理装置进行信息通信。
存储单元267例如是安装在信息处理装置20中的存储设备,并且在其中存储诸如由关键字检测单元273检测到的关键字或者由关键字管理单元257管理的关键字信息之类的数据。除了这些数据之外,存储单元267可以在其中存储各种数据库或者由广播文本信息接收单元271接收的广播文本信息。存储单元267可以适当地在其中存储在信息处理装置20执行处理时需要存储的各种参数以及该处理的进程信息。当关键字管理单元257、显示单元261、通信单元265、识别字字典生成单元269、广播文本信息接收单元271、关键字检测单元273、外部显示设备连接控制单元275等执行对存储单元267的读写时,可以自由地访问存储单元267。
识别字字典生成单元269从搜索服务器14获得搜索关键字列表,并从所获得的搜索关键字列表中仅选择适当的关键字,从而生成在话语识别中使用的识别字字典。识别字字典生成单元269从所获得的搜索关键字列表中选择关键字,并且可以向所选择的关键字添加关键字的属性信息或者相关的次关键字或者添加在话语识别中使用的识别权重。另外,识别字字典生成单元269可以使用从关键字管理单元257发送而来的关键字或者关键字检测单元273已经从稍后将描述的广播文本信息接收单元271所接收的广播文本信息中检测到的关键字来执行识别字字典的生成或更新。根据本实施例的识别字字典生成单元269的详细配置或者识别字字典的生成方法基本上与根据第一实施例的识别字字典生成单元269的配置或者生成方法相同,并且将省略对它们的详细描述。
广播文本信息接收单元271从外部显示设备70获得关于外部显示设备70当前通过其来进行接收的广播频道的接收频道信息。这里,接收频道信息指的是表示下述广播频道的信息,其中,外部显示设备1070当前正通过该广播频道来进行接收。广播文本信息接收单元271可以通过从外部显示设备70获取接收频道信息来同步广播文本信息接收单元271的接收广播频道和外部显示设备70的接收广播频道。
广播文本信息接收单元271基于所获得的接收频道信息来直接从广播站80接收与外部显示设备70的接收广播频道相对应的广播电波。此时,广播文本信息接收单元271可以被配置成直接接收从广播站80发送而来的广播电波中的单波段广播电波,并从所接收的电波中获取文本信息。广播文本信息接收单元271可以被配置成直接接收从广播站80发送而来的全波段广播电波。
广播文本信息接收单元271可以被配置成基于所获得的接收频道信息来接收由外部显示设备70接收的并从外部显示设备70发送到信息处理装置20的广播文本信息。
广播文本信息接收单元271将所接收的广播文本信息输出到稍后将描述的关键字检测单元273。广播文本信息接收单元271可以将所接收的广播文本信息记录在存储单元267中。
关键字检测单元273判断在与从广播文本信息接收单元271发送而来的广播文本信息相对应的字序列中是否存在由关键字管理单元257管理的关键字,并且如果存在该关键字就将与关键字相对应的字作为关键字来输出。如果在一个字序列中存在多个关键字,则关键字检测单元273可以被配置成检测所有的相应关键字。关键字检测单元273可以被配置成将从字序列中检测得到的关键字发送到显示单元261。
例如,当识别结果“最近的结构改革已凸现”被从广播文本信息接收单元271发送,并且关键字“结构改革”存在于由关键字管理单元257管理的关键字中时,关键字检测单元273输出“结构改革”作为关键字。
外部显示设备连接控制单元275执行信息处理装置20和连接到信息处理装置20的外部显示设备70之间的连接控制。外部显示设备连接控制单元275将关键字检测单元273所检测到的关键字等发送到外部显示设备70。在从外部显示设备70得到关于外部显示设备70的用户已经参考或者选择特定关键字或者与关键字相关的文章的通知时,外部显示设备连接控制单元275可以将参考历史或者选择历史记录在存储单元267中,并经由通信单元265来通知搜索服务器14。搜索服务器14可以在在搜索服务器14内执行的各种处理中使用该参考历史或者选择历史。顺便提及,当向外部显示设备70发送与各种信息相对应的数据时,外部显示设备连接控制单元275可以将有待发送的数据的格式转换成可以由外部显示设备70显示的格式。
在上文中,已经描述了根据本实施例的信息处理装置20的功能的示例。上述组件可以使用通用元件或电路来构成,或者可以由专用于各个组件的功能的专用组件来构成。这些组件的全部功能可以用CPU等来执行。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。
根据本实施例的信息处理装置20还可以包括根据第一实施例的信息处理装置20的话语识别单元或者语音谈话控制单元。信息处理装置20还可以包括用于存储记录在搜索服务器14中的搜索关键字列表的内容的数据库存储单元。在这种情况下,搜索关键字列表的内容可以存储在设在信息处理装置20中的数据库存储单元中。因此,可以缩短信息处理装置20访问搜索服务器14所需的时间。另外,通过周期性地更新数据库存储单元的内容,信息处理装置20可以获取记录在搜索服务器14中的最近的搜索关键字列表的内容。
(外部显示设备70的配置)
接下来,将参考图24和25来详细描述根据本实施例的外部显示设备70的配置。图24是用于说明根据第二实施例的外部显示设备的配置的框图。图25是示出根据第二实施例的外部显示设备的信息显示屏幕的示意图。
根据本实施例的外部显示设备70的硬件包括诸如CRT、液晶显示面板、等离子显示面板、或者EL面板之类的显示元件,以及由CPU、ROM和RAM构成且在控制显示元件的驱动时使用的驱动控制电路。
如图24所示,本实施例的外部显示设备70包括广播接收单元701、连接端口控制单元703、广播信息显示控制单元705、关键字信息显示控制单元707以及显示单元709。
广播接收单元701接收从广播站80发送而来的广播电波并将广播电波中包含的诸如广播文本信息、广播音频信息、或者视频信息之类的数据输出到连接端口控制单元703和广播信息显示控制单元705(稍后将描述)。广播接收单元701可以被配置成将所接收的信息记录在设在外部显示设备70中的存储单元(未示出)中,或者记录在与外部显示设备70相连接的外部附接的存储单元(未示出)中。
连接端口控制单元703控制能够与信息处理装置20进行数字通信的诸如HDMI-CEC之类的连接端口。连接端口控制单元703将关于广播接收单元701正通过其来接收的广播频道的接收频道信息经由诸如MDMI-CEC之类的连接端口来发送到信息处理装置20。广播接收单元701所接收的诸如广播文本信息、广播音频信息、以及视频信息之类的数据可以经由连接端口控制单元703来输出到信息处理装置20。从信息处理装置20发送而来的各种数据被经由连接端口控制单元703来输入到外部显示设备70。从信息处理装置20发送而来的各种数据被发送到稍后将描述的关键字信息显示控制单元707。
当在稍后将描述的显示单元709上显示从广播接收单元701发送而来的广播文本信息、广播音频信息和视频信息时,广播信息显示控制单元705执行显示控制。
当在稍后将描述的显示单元709上显示从信息处理装置20发送而来的关键字信息时,关键字信息显示控制单元707执行显示控制。这里,从信息处理装置20发送而来的关键字信息指的是这样的信息,该信息包括由信息处理装置20提取的关键字、对所提取的关键字的搜索结果、以及与这些关键字相关的文章。在从显示单元709接收到对关于外部显示设备70的用户通过诸如鼠标、键盘、或遥控器之类的输入设备来选择的在显示单元709上显示的信息的详细信息的获取请求之后,关键字信息显示控制单元707将该详细信息获取请求经由连接端口控制单元703来发送到信息处理装置20。
显示单元709在外部显示设备70的信息显示屏幕上显示由广播信息显示控制单元705来进行显示控制的广播文本信息、广播音频信息和视频信息,以及由关键字信息显示控制单元707来进行显示控制的关键字信息。
外部显示设备70的信息显示屏幕751通常包括图像显示区域753,广播文本信息、广播音频信息和视频信息被显示在图像显示区域753上。这里,当从信息处理装置20发送而来关键字信息时,信息显示屏幕751的显示区域被分割以生成关键字信息显示区域755,关键字信息被显示在该关键字信息显示区域755上。图像显示区域753例如由广播信息显示控制单元705来控制,并且关键字信息显示区域755例如由关键字信息显示控制单元707来控制。
关键字信息显示区域755的细节基本上与根据本发明第一实施例的信息处理装置的搜索结果显示屏幕50相同,并且将省略对它的详细描述。
在上文中,已经描述了根据本发明的外部显示设备70的功能的示例。上述组件可以使用通用元件或电路来构成,或者可以利用专用于各个组件的功能的专用硬件来构成。这些组件的全部功能可以利用CPU等来执行。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。
(关键字检测方法)
接下来,将参考图26来详细描述由根据本实施例的信息处理装置20执行的关键字检测方法的示例。图26是用于说明根据第二实施例的关键字检测方法的流程图。
首先,信息处理装置20的广播文本信息接收单元271基于从外部显示设备70获得的接收频道信息来接收来自外部显示设备70或者广播站80的广播文本信息,从而获得广播字幕的字符串作为文本信息数据(步骤S201)。广播文本信息接收单元271将所获得的文本信息数据输出到关键字检测单元273。
接下来,关键字检测单元273对发送而来的文本信息数据应用形态分析,以从字符串中提取字,并将所提取的字记录在信息处理装置20的存储器上(步骤S203)。
接下来,关键字检测单元273使用关键字管理单元257的内容来对所提取的字进行搜索(步骤S205)。
随后,关键字检测单元273判断所提取的字是否存在于关键字管理单元257中(步骤S207)。当所提取的字存在于关键字管理单元257中时,关键字检测单元273将存在的所提取字记录在存储器上,作为广播关键字数据(步骤S209)。当所提取的字并不存在于关键字管理单元257中时,关键字检测单元273执行稍后将描述的步骤S211的处理。
接下来,关键字检测单元273判断所提取的、没有在关键字管理单元257中找到的字是否存在于存储器上(步骤S211)。当未找到的字存在于存储器上时,执行步骤S205的处理。当未找到的字并不存在于存储器中时,关键字检测单元273输出存在于存储器上的广播关键字数据,作为所提取的关键字(步骤S213)。
通过使用上述方法,根据本实施例的信息处理装置20可以从所接收的广播文本信息中提取关键字。
在根据本实施例的信息处理装置20中,存在于关键字管理单元257中的字(关键字)是被自动地从发送自广播站的广播文本信息中提取出来。因此,可以向外部显示设备70显示所提取的关键字。通过使用这样的功能,使用信息处理装置20或者外部显示设备70来执行诸如聊天之类的双向通信的用户可以使用所提取的关键字作为聊天的话题等。
(根据第二实施例的信息处理装置的第一修改示例)
接下来,将参考图27和28来详细描述根据本实施例的信息处理装置20的第一修改示例。图27是用于说明信息处理装置20的第一修改示例的配置的框图。图28是用于说明根据本修改示例的关键字检测方法的流程图。根据本修改示例的信息处理装置20的硬件配置基本上与本发明第二实施例的硬件配置相同,并且将省略对它的详细描述。
如图27所示,根据本修改示例的信息处理装置20包括话语识别单元253、关键字检测单元255、关键字管理单元257、显示单元261、通信单元265、存储单元267、识别字字典生成单元269、广播音频信息接收单元277、外部显示设备连接控制单元275。
根据本修改示例的关键字管理单元257、显示单元261、通信单元265、存储单元267和外部显示设备连接控制单元275具有与根据第一实施例的关键字管理单元257、显示单元261、通信单元265、存储单元267、和外部显示设备连接控制单元275基本相同的配置,并提供基本相同的效果,并且将省略对它们的详细描述。
话语识别单元253基于由稍后将描述的广播音频信息接收单元277接收的广播音频信息来执行话语识别。话语识别单元253生成与广播音频信息相对应的字序列作为话语识别的结果,并将所生成的字序列发送到稍后将描述的关键字检测单元255。话语识别单元253可以被配置成将所生成的字序列发送给显示单元261。话语识别单元253的详细配置和话语识别方法与根据本发明第一实施例的话语识别单元253的配置和话语识别方法基本相同,并且将省略对它们的详细描述。
关键字检测单元255判断在与从话语识别单元253发送而来的广播音频信息相对应的字序列中是否存在由关键字管理单元257管理的关键字,并且如果存在该关键字,就将与该关键字相对应的字作为关键字来输出。如果在一个字序列中存在多个关键字,则关键字检测单元255可以被配置成检测所有的相应关键字。关键字检测单元255可以被配置成将从字序列中检测到的关键字发送到稍后将描述的显示单元261。
例如,当识别结果“最近的结构改革已凸现”被从话语识别单元253发送时并且当关键字“结构改革”存在于关键字管理单元257所管理的关键字中时,关键字检测单元255输出“结构改革”作为关键字。
识别字字典生成单元269从搜索服务器14获取搜索关键字列表等,并从所获得的搜索关键字列表中仅选择合适的关键字,从而生成在话语识别中使用的识别字字典。识别字字典生成单元269从所获得的搜索关键字列表中选择关键字,并可以向所选择的关键字添加关键字的属性信息或者相关的次关键字,或者添加在话语识别中使用的识别权重。另外,识别字字典生成单元269可以使用从关键字管理单元257发送而来的关键字或者关键字检测单元255已经从稍后将描述的广播音频信息接收单元277所接收的广播音频信息中检测得到的关键字来执行识别字字典的生成或更新。根据本实施例的识别字字典生成单元269的详细配置或者识别字字典的生成方法与根据第一实施例的识别字字典生成单元269的配置或者生成方法基本相同,并且将省略对它们的详细描述。
广播音频信息接收单元277从外部显示设备70获取关于外部显示设备当前正通过其来接收的广播频道的接收频道信息。广播音频信息接收单元277可以通过从外部显示设备70获取接收频道信息来同步广播音频信息接收单元277的接收广播频道和外部显示设备70的接收广播频道。
广播音频信息接收单元277基于所获得的接收频道信息来直接从广播站80接收与外部显示设备70的接收广播频道相对应的广播电波。此时,广播音频信息接收单元277可以被配置成直接接收从广播站80发送而来的广播电波中的单波段广播电波,并从所接收的电波中获取音频信息。广播音频信息接收单元277可以被配置成直接接收从广播站80发送而来的全波段广播电波。
广播音频信息接收单元277可以被配置成基于所获得的接收频道信息来接收由外部显示设备70接收的并且被从外部显示设备70发送到信息处理装置20的广播音频信息。
广播音频信息接收单元277将所接收的广播音频信息输出到话语识别单元253。广播音频信息接收单元277可以将所接收的广播音频信息记录在存储单元267中。
在上文中,已经描述了根据本修改示例的信息处理装置20的功能的示例。上述组件可以使用通用元件或电路来构成,或者可以利用专用于各个组件的功能的专用硬件来构成。这些组件的全部功能可以利用CPU等来执行。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。
根据本修改示例的信息处理装置20还可以包括根据第一实施例的信息处理装置20的话语识别单元或者语音谈话控制单元。信息处理装置20还可以包括用于存储记录在搜索服务器14中的搜索关键字列表的内容的数据库存储单元。在这种情况下,搜索关键字列表的内容可以存储在设在信息处理装置20中的数据库存储单元中。因此,可以缩短信息处理装置20访问搜索服务器14所需的时间。另外,通过周期性地更新数据库存储单元的内容,信息处理装置20可以获取记录在搜索服务器14中的最近的搜索关键字列表的内容。
(关键字检测方法)
接下来,将参考图28来详细描述由根据本修改示例的信息处理装置20执行的关键字检测方法的示例。
首先,信息处理装置20的广播音频信息接收单元277基于从外部显示设备70获得的接收频道信息来从外部显示设备70或广播站80接收广播音频信息,并且话语识别单元253对该广播音频信息执行话语识别,以确定话语识别的结果(步骤S301)。话语识别单元253将所确定的话语识别的结果输出到关键字检测单元255。
接下来,关键字检测单元255对话语识别的结果应用形态分析以从话语识别的结果中提取字,并将所提取的字记录在信息处理装置20的存储器上(步骤S303)。
接下来,关键字检测单元255使用关键字管理单元257的内容来对所提取的字进行搜索(步骤S305)。
随后,关键字检测单元255判断所提取的字是否存在于关键字管理单元257中(步骤S307)。当所提取的字存在于关键字管理单元257中时,关键字检测单元255将存在的所提取字记录在存储器上,作为广播关键字数据(步骤S309)。当所提取的字并不存在于关键字管理单元257中时,关键字检测单元255执行稍后将描述的步骤S311的处理。
接下来,关键字检测单元255判断所提取的没有在关键字管理单元257中找到的字是否存在于存储器上(步骤S311)。当未找到的字存在于存储器上时,执行步骤S305的处理。当未找到的字并不存在于存储器中时,关键字检测单元255将存在于存储器上的广播关键字数据作为所提取关键字来输出(步骤S313)。
通过使用上述方法,根据本修改示例的信息处理装置20可以从所接收的广播音频信息中提取关键字。
在根据本修改示例的信息处理装置20中,存在于关键字管理单元257中的字(关键字)被自动地从发送自广播站80的广播音频信息中提取。因此,可以向外部显示设备70显示所提取的关键字。通过使用这样的功能,使用信息处理装置20或者外部显示设备70来执行诸如聊天之类的双向通信的用户可以使用所提取的关键字作为聊天的话题等。
本领域技术人员应当了解,在所附权利要求或其等同物的范围内,可以依据设计要求和其它因素来进行各种修改、组合、子组合和变更。
例如,在上述实施例中,广播站80发送地面数字广播。但是,广播站80可以提供有线广播或者因特网广播。
在上述实施例中,图27示出了广播站80通过地面数字广播来提供电视节目的情况。但是,利用可携式摄像机来提供的AV内容也可以,其中,用户利用该可携式摄像机来亲自捕捉和再现图像。
在上述实施例中,在话语识别中使用的各种字字典被存储在常用字典存储单元307和识别数据库309的识别字字典存储单元401中。但是,在话语识别中使用的各种字字典可以存储在这些存储单元的任意一个中。
在上述实施例中,在识别字字典存储单元401中存储了仅仅一个固定字字典、仅仅一个可变字字典、以及仅仅一个类别表格。但是,在识别字字典存储单元401中可以存储多个固定字字典、多个可变字字典、和/或多个类别表格。通过在识别字字典存储单元401中存储多个固定字字典、多个可变字字典、和/或多个类别表格,可以生成专用于特定领域的多个识别字典。关于与特定关键字高度相关的字,出现频率或者N-gram或基于类的N-gram概率可以被设置成较高,以增加该特定关键字的识别率。
顺便提及,在本说明书中的步骤并不必须以这里所描述的顺序、按时间顺序来处理,并且可以并行或单独地处理。
同时,随着因特网相关技术的发展,已经变得可以在个人计算机(PC)之间通过语音来进行聊天(这种聊天在下文中被称为语音聊天)。
如果可以使用安装在PC中的语音聊天应用来在PC的显示设备上显示与谈话内容相关的信息,则可以提高用户在聊天时的便利性。基于此,作为相关技术的一个示例,JP-B-3526101公开了一种系统,该系统对语音聊天的谈话内容执行话语识别,从谈话内容中提取关键字,从数据库中搜索相关信息,并将搜索结果显示在屏幕上。
作为相关技术的另一个示例,公开了一种同步系统,用于对两台PC进行同步,以使得可以利用两台PC的浏览器来显示相同的屏幕显示。但是,该同步系统并不涉及语音聊天技术。
但是,在JP-B-3526101所公开的系统中,用户必须手动地向语音聊天的对应方发送在屏幕上显示的信息,以共享在屏幕上显示的信息,因而该系统并不适合通信。
在利用PC浏览器来允许用户看见相同的显示的同步系统中,由于该系统并没有被配置成与谈话相关,所以每次谈话话题变化时,用户可能就必须手动地输入信息以搜索与该谈话相关的网站。因此,在实践上可能很难自动且有效地同步谈话内容和所有讲话者的终端。
本发明是鉴于上述情形而设计出来的。存在对提供下述新的且改进了的语言聊天系统、信息处理装置和程序的需要,这些系统、装置和程序能够在语言聊天期间自动且高效地同步与谈话内容相关的关键字。
还存在对提供下述新的且改进了的信息处理装置和程序的需要,该信息处理装置和程序能够自动且高效地同步在从广播站发送而来的广播信息中包含的关键字。
根据本发明的观点,提供了一种语音聊天系统,该语音聊天系统包括:执行语音聊天的多个信息处理装置;在语音聊天期间从谈话对话中提取关键字时由信息处理装置参考的关键字提取数据库;以及在使用所提取的关键字来搜索关键字和与这些关键字相关的文章时由信息处理装置使用的搜索引擎,其中,至少一个信息处理装置包括:参数提取单元,其从根据谈话来生成的语音数据中提取参数,该参数表现了语音数据的特征;关键字提取单元,其识别所生成的语音数据并基于参数和关键字提取数据库来从语音数据中提取关键字;信息搜索单元,其使用搜索引擎来搜索所提取的关键字,并获得针对这些关键字的搜索结果和与这些关键字相关的文章;显示单元,其显示与针对所述关键字的搜索结果的地址信息相关联的关键字以及与和关键字相关的文章的地址信息相关联的文章;以及关键字同步单元,其将所提取的关键字发送给作为聊天的对应方的信息处理装置,并执行与对应方信息处理装置的关键字同步。
根据上述实施例,在执行语音聊天的信息处理装置中,参数提取单元从根据语音聊天期间的谈话对话来生成的语音数据中提取参数,该参数表现了语音数据的特征;关键字提取单元识别所生成的语音数据,并基于所述参数和关键字提取数据库来从语音数据中提取关键字;信息搜索单元使用搜索引擎来搜索所提取的关键字,并获得针对这些关键字的搜索结果和与这些关键字相关的文章;显示单元以与针对所述关键字的搜索结果的地址信息以及所述文章的地址信息相关联的方式来显示这些关键字和与这些关键字相关的文章;并且关键字同步单元将所提取的关键字发送给作为聊天的对应方的信息处理装置,并执行与对应方信息处理装置的关键字同步。在本发明实施例的语音聊天系统中,对语音聊天期间的谈话内容自动地执行话语识别以提取关键字,并且这些关键字被自动地发送到语音聊天的对应方。因此,可以提高用户在语音聊天时的便利性。
根据本发明的另一个观点,提供了与另一个信息处理装置执行语音聊天的信息处理装置,该装置包括:参数提取单元,其从根据语音聊天期间的谈话对话来生成的语音数据中提取参数,该参数表现了语音数据的特征;关键字提取单元,其识别所生成的语音数据,并基于所述参数和关键字提取数据库来从语音数据中提取关键字;信息搜索单元,其使用搜索引擎来搜索所提取的关键字,并获取针对这些关键字的搜索结果和与这些关键字相关的文章;以及搜索信息聚积单元,其以分别与针对所述关键字的搜索结果的地址信息以及所述文章的地址信息相关联的方式来聚积关键字和文章。
根据上述实施例,参数提取单元从根据语音聊天期间的谈话对话来生成的语音数据中提取参数,该参数表现了语音数据的特征;关键字提取单元识别所生成的语音数据,并基于关键字提取数据库来从语音数据中提取关键字;信息搜索单元使用搜索引擎来搜索所提取的关键字,并获得针对这些关键字的搜索结果和与这些关键字相关的文章;并且搜索信息聚积单元以分别与针对所述关键字的搜索结果的地址信息以及所述文章的地址信息相关联的方式来聚积关键字和文章。从语音数据的生成到搜索信息的获取的处理是自动地被执行的。因此,信息处理装置的用户不必执行任何额外的操作,并且可以自动地获取可以用作语音聊天的话题的信息。
信息处理装置还可以包括关键字同步单元,该关键字同步单元将所提取的关键字发送给作为聊天的对应方的信息处理装置,并执行与对应方信息处理装置的关键字同步。根据上述实施例,关键字同步单元将所提取的关键字发送给作为聊天的对应方的信息处理装置,并执行关键字同步。所提取的关键字被自动地发送给聊天的对应方信息处理装置,因此,语音聊天的对应方可以共享所提取的关键字,而无需执行额外的操作。
信息处理装置还可以包括存储关键字提取数据库的数据库存储单元。根据上述实施例,关键字提取数据库被存储在信息处理装置的数据库存储单元中,并因而可以缩短信息处理装置访问关键字提取数据库所需的时间。其结果是,可以缩短信息处理装置执行关键字检测所需的时间。
搜索引擎可以设置在信息处理装置内。根据上述实施例,搜索引擎被设置在信息处理装置中。其结果是,可以缩短信息处理装置访问搜索引擎所需的时间。结果,可以缩短搜索与关键字相关的信息所需的时间。
信息处理装置还可以包括显示单元,该显示单元显示与针对关键字的搜索结果的地址信息相关联的关键字以及与和关键字相关的文章的地址信息相关联的文章。根据上述实施例,关键字和与关键字相关的文章分别被以与针对关键字的搜索结果的地址信息以及文章的地址信息相关联的方式来显示在显示单元上。由于关键字和与关键字相关的文章都被显示,所以当所显示的文章包含用户感兴趣的信息时,用户可以容易地访问该信息。
信息处理装置还可以包括参考历史存储单元,该参考历史存储单元存储关键字的参考历史。根据上述实施例,关键字的参考历史被存储在信息处理装置的参考历史存储单元中。信息处理装置在从语音数据中提取关键字时对参考历史存储单元进行参考,从而使能高效的关键字检测。
参考历史存储单元可以按与指派给各个聊天和聊天的对应方的标识符相关联的方式来存储被参考的关键字。根据上述实施例,与被参考的关键字相关的信息被以与指派给各个聊天和聊天的对应方的标识符相关联的方式来存储在参考历史存储单元中。因此,通过使用参考历史存储单元的内容,可以使能更高效的关键字检测。
关键字提取单元可以基于偏好来提取位于参考历史的更高等级的关键字。可替代地,关键字提取单元可以基于偏好来提取搜索引擎的更高等级搜索关键字。根据上述实施例,位于参考历史的更高等级的关键字或者搜索引擎的更高等级搜索关键字是由关键字检测单元基于偏好来提取的。由于这样的关键字高度可用作语音聊天的话题,所以可以提高话语识别的精确度。
根据本发明的又一个实施例,提供了一种与另一个信息处理装置执行语音聊天的信息处理装置,至少一个信息处理装置包括:参数提取单元,其从根据语音聊天期间的谈话对话来生成的语音数据中提取参数,该参数表现了语音数据的特征;关键字提取单元,其识别所生成的语音数据并基于所述参数和关键字提取数据库来从语音数据中提取关键字;信息搜索单元,其使用搜索引擎来搜索所提取的关键字,并获得针对这些关键字的搜索结果和与这些关键字相关的文章;以及搜索信息聚积单元,其以分别与针对所述关键字的搜索结果的地址信息和所述文章的地址信息相关联的方式来聚积关键字和文章,其中,信息处理装置包括关键字同步单元,该关键字同步单元接收从所述至少一个信息处理装置发送而来的关键字,并执行与相应的信息处理装置的关键字同步。
根据上述实施例,关键字同步单元接收从作为语音聊天的对应方的至少一个信息处理装置(具有参数提取单元、关键字提取单元、信息搜索单元和搜索信息聚积单元)发送而来的关键字,并执行与该信息处理装置的关键字同步。由于施加巨大处理负荷的话语识别或关键字检测是由作为语音聊天的对应方的至少一个信息处理装置执行的,所以可以在没有向用户自己的信息处理装置施加额外负荷的情况下执行语音聊天。
根据本发明的又一个观点,提供了一种用于允许计算机实现以下功能的程序:从根据语音聊天期间的谈话对话来生成的语音数据中提取参数的参数提取功能,所述参数表现了语音数据的特征;识别所生成的语音数据并基于所述参数和关键字提取数据库来从语音数据中提取关键字的关键字提取功能;使用搜索引擎来搜索所提取的关键字并获得针对所述关键字的搜索结果和与这些关键字相关的文章的信息搜索功能;以及以分别与针对所述关键字的搜索结果的地址信息和所述文章的地址信息相关联的方式来存储关键字和文章的搜索信息存储功能。
根据上述实施例,计算机程序被存储在计算机的存储单元中,并且在计算机的CPU读取程序时该计算机程序被执行,从而致使计算机作为信息处理装置来进行工作。可以提供在其中记录计算机程序的计算机可读记录介质。该记录介质例如可以是磁盘、光盘、磁性光盘、以及闪存。计算机程序可以例如经由网络来分发,而无需使用记录介质。
根据本发明的又一个观点,提供了一种允许计算机实现以下功能的程序:接收从至少一个信息处理装置发送而来的关键字,并执行与相应的信息处理装置的关键字同步的关键字同步功能。
根据上述实施例,计算机程序被存储在计算机的存储单元中,并且当计算机的CPU读取程序时该计算机程序被执行,从而致使计算机作为信息处理装置来进行工作。可以提供在其中记录计算机程序的计算机可读记录介质。该记录介质例如可以是磁盘、光盘、磁性光盘、和闪存。计算机程序可以例如经由网络来分发,而无需使用记录介质。
根据本发明的又一个观点,提供了一种信息处理装置,该装置包括:广播文本信息接收单元,其接收从广播站发送而来的广播文本信息;关键字提取单元,其基于关键字提取数据库来从广播文本信息中提取关键字;信息搜索单元,其使用搜索引擎来搜索所提取的关键字,并获得针对这些关键字的搜索结果和与这些关键字相关的文章;以及外部显示设备连接控制单元,其执行与外部显示设备的连接控制,并将所述关键字、针对这些关键字的搜索结果、以及与这些关键字相关的文章输出到外部显示设备。
根据上述实施例,广播文本信息接收单元接收从广播站发送而来的广播文本信息;关键字提取单元基于关键字提取数据库来从广播文本信息中提取关键字;信息搜索单元使用搜索引擎来搜索所提取的关键字,并获得针对这些关键字的搜索结果和与这些关键字相关的文章;并且外部显示设备连接控制单元执行与外部显示设备的连接控制,并将所述关键字、针对这些关键字的搜索结果、以及与这些关键字相关的文章输出到外部显示设备。从广播文本信息的接收到搜索信息的获取的处理被自动地执行。因此,信息处理装置的用户不必执行任何额外的操作,并且所获得的搜索信息可以自动地被显示到外部显示设备。
广播文本信息接收单元可以从与信息处理装置相连接的外部显示设备获取有关外部显示设备正通过其来进行接收的广播频道的接收频道信息以及与该广播频道相对应的广播文本信息。可替代地,广播文本信息接收单元可以从与信息处理装置相连接的外部显示设备获取有关外部显示设备正通过其来进行接收的广播频道的接收频道信息,并从广播站获取与该广播频道相对应的广播文本信息。
信息处理装置还可以包括参考历史存储单元,该单元存储在外部显示设备中的关键字的参考历史,并且外部显示设备连接控制单元可以将外部显示设备所选择的关键字通知给搜索引擎。
信息处理装置还可以包括关键字同步单元,该单元将所提取的关键字发送给至少一个信息处理装置,并执行与该至少一个信息处理装置的关键字同步。
根据本发明的又一个观点,提供了一种信息处理装置,该装置包括:广播音频信息接收单元,其接收从广播站发送而来的广播音频信息;参数提取单元,其从包含在广播音频信息中的语音数据中提取参数,该参数表现了语音数据的特征;关键字提取单元,其识别所述语音数据,并基于所述参数和关键字提取数据库来从语音数据中提取关键字;信息搜索单元,其使用搜索引擎来搜索所提取的关键字,并获取针对这些关键字的搜索结果和与这些关键字相关的文章;以及外部显示设备连接控制单元,其执行与外部显示设备的连接控制,并将所述关键字、针对这些关键字的搜索结果、以及与这些关键字相关的文章输出到外部显示设备。
根据上述实施例,广播音频信息接收单元接收从广播站发送而来的广播音频信息;参数提取单元从包含在广播音频信息中的语音数据中提取参数,该参数表现了语音数据的特征;关键字提取单元识别所述语音数据,并基于所述参数和关键字提取数据库来从语音数据中提取关键字;信息搜索单元使用搜索引擎来搜索所提取的关键字,并获取针对这些关键字的搜索结果和与这些关键字相关的文章;并且外部显示设备连接控制单元执行与外部显示设备的连接控制,并将所述关键字、针对这些关键字的搜索结果、以及与这些关键字相关的文章输出到外部显示设备。从包含在广播音频信息中的语音数据的接收到搜索信息的获取的处理被自动地执行。因此,信息处理装置的用户不必执行任何额外的操作,并且所获得的搜索信息可以自动地被显示到外部显示设备。
广播音频信息接收单元可以从与信息处理装置相连接的外部显示设备获取有关外部显示设备正通过其来进行接收的广播频道的接收频道信息以及与该广播频道相对应的广播音频信息。可替代地,广播音频信息接收单元可以从与信息处理装置相连接的外部显示设备获取有关外部显示设备正通过其来进行接收的广播频道的接收频道信息,并从广播站获取与该广播频道相对应的广播音频信息。
信息处理装置还可以包括参考历史存储单元,该单元存储在外部显示设备中的关键字的参考历史,并且外部显示设备连接控制单元可以将外部显示设备所选择的关键字通知给搜索引擎。
信息处理装置还可以包括关键字同步单元,该单元将所提取的关键字发送给至少一个信息处理装置,并执行与该至少一个信息处理装置的关键字同步。
根据本发明的又一个观点,提供了一种用于允许计算机实现以下功能的程序:接收从广播站广播的广播文本信息的广播文本信息接收功能;基于关键字提取数据库从广播文本信息中提取关键字的关键字提取功能;使用搜索引擎来搜索所提取的关键字并获取针对这些关键字的搜索结果和与这些关键字相关的文章的信息搜索功能;以及执行与外部显示设备的连接控制并将所述关键字、针对这些关键字的搜索结果、以及与这些关键字相关的文章输出到外部显示设备的外部显示设备连接控制功能。
根据上述实施例,计算机程序被存储在计算机的存储单元中,并且在计算机的CPU读取程序时该计算机程序被执行,从而致使计算机作为信息处理装置来进行工作。可以提供在其中记录计算机程序的计算机可读记录介质。该记录介质例如可以是磁盘、光盘、磁性光盘、和闪存。计算机程序可以例如经由网络而不是使用记录介质来分发。
根据本发明的又一个观点,提供了一种用于允许计算机实现以下功能的程序:接收从广播站发送而来的广播音频信息的广播音频信息接收功能;从包含在广播音频信息中的语音数据中提取参数的参数提取功能,其中,所述参数表现了语音数据的特征;识别所述语音数据并基于所述参数和关键字提取数据库从语音数据中提取关键字的关键字提取功能;使用搜索引擎来搜索所提取的关键字并获取针对这些关键字的搜索结果和与这些关键字相关的文章的信息搜索功能;以及执行与外部显示设备的连接控制并将所述关键字、针对这些关键字的搜索结果、以及与这些关键字相关的文章输出到外部显示设备的外部显示设备连接控制功能。
根据上述实施例,计算机程序被存储在计算机的存储单元中,并且在计算机的CPU读取程序时该计算机程序被执行,从而致使计算机作为信息处理装置来工作。可以提供在其中记录计算机程序的计算机可读记录介质。该记录介质例如可以是磁盘、光盘、磁性光盘、和闪存。计算机程序可以例如经由网络而不是使用记录介质来分发。
以下将参考附图来详细描述本发明的优选实施例。注意,在本说明书和附图中,具有基本相同的功能和结构的结构元件被用相同的标号来表示,并且将省略对这些结构元件的重复说明。
(第三实施例)
以下,将详细描述根据本发明第三实施例的语音聊天系统。
图29是示出根据第三实施例的语音聊天系统的示意图。语音聊天系统1010包括通信网络1012、关键字提取数据库1030、搜索引擎1040、以及信息处理装置1020A和1020B(下文中,有时候统称为信息处理装置1020)。
通信网络1012是连接信息处理装置1020、关键字提取数据库1030和搜索引擎1040以使能在它们之间的双向或单向通信的通信网络。通信网络1012例如可以由诸如因特网、电话网络、卫星通信网络或广播通信频道之类的公共网络或者诸如WAN(广域网)、LAN(局域网)、IP-VPN(因特网协议-虚拟私有网络)、以太网(注册商标)、或者无线LAN之类的私有网络来构成。通信网络1012可以是有线的或者是无线的。
信息处理装置1020以语音的方式与经由通信网络1012连接到其的另一个信息处理装置1020执行聊天(语音聊天)。信息处理装置1020可以经由通信网络1012来请求经由通信网络1012连接到其的关键字提取数据库1030和搜索引擎1040执行数据库的参考或信息的搜索。
执行语音聊天的另一个信息处理装置1020可以经由通信网络1012来与其相连接,如图所示。可替代地,另一个信息处理装置1020可以直接而非经由通信网络1012来连接到USB(通用串行总线)端口、诸如i.Link之类的IEEE 1394端口、SCSI(小型计算机系统接口)端口、RS-232C端口等。
在图示的示例中,信息处理装置1020是台式PC,但是,在本实施例中,信息处理装置1020可以是笔记本式PC。在本实施例中,信息处理装置1020并不限于上述示例,而可以例如由电视机机顶盒、诸如家用游戏机之类的信息设备、移动电话、PDA(个人数字助手)等来构成,只要是能够具有经由网络来通信的功能的设备即可。另外或者可替代地,信息处理装置1020可以是由拥有者携带的便携式设备,例如,便携式游戏机、PHS、或便携式视频/音频播放机。
在图29中,仅仅两个信息处理装置1020与通信网络1012相连接。但是,本实施例并不限于此示例,并且多个信息处理装置1020可以与通信网络1012相连接。
关键字提取数据库1030是在信息处理装置1020从根据语音聊天期间的谈话内容来获得的语音数据中提取关键字时信息处理装置1020所参考的数据库。在关键字提取数据库1030中,描述了诸如充当关键字的字的发音、音素和音节的串联关系以及关键字的类别之类的各种信息。例如,在关键字提取数据库1030中,搜索引擎的较高等级搜索关键字或者频繁地被用作博客中的话题的术语被描述成关键字。关键字提取数据库1030可以是根据搜索引擎(搜索服务器)的较高等级搜索关键字或者频繁地被用作博客中的话题的术语的变化而按需来更新的动态数据库;或者,关键字提取数据库1030可以是静态数据库。在关键字提取数据库1030中描述的关键字可以利用概率潜在语义分析(PLSA)模型等来处理,并且被转换成合适的话题矢量的形式。这里,话题矢量指的是话题的矢量空间表示,并且被用于确定话题的共性。另外,可以向在关键字提取数据库1030中描述的关键字添加稍后将描述的识别权重信息。
充当关键字的字的发音、音素和音节的串联关系指的是这样的关系,该关系表示出被描述成关键字提取数据库1030中的关键字的字是如何在它们的发音、音素和音节方面相互串联(连接)的。作为描述该串联关系的一种方法,可以使用统计字串联概率(n-gram或者基于类的n-gram)、生成语法、有限状态自动机(FSA)等。
搜索引擎1040是用户可以使用关键字等通过因特网来搜索可用信息的网站的数据库。这里,所述信息可以是向公众开放的或者是不公开的。在本实施例中,搜索引擎1040可以提供允许使用关键字来搜索所存储的信息的全文的全文搜索服务;或者可以是允许搜索按类别来分类的信息的目录服务。
(信息处理装置1020的配置)
接下来,将参考图30来简要描述根据本实施例的信息处理装置1020的配置。
在以下描述中,术语“字”指的是在话语识别处理中便于作为单个字来处理的单元。其并不一定与语言学上的字相同。例如,“タロウ君(发音为taroukun)”可以处理为一个字,或者可以处理为“tarou”和“kun”形式的两个字。此外,更大的单元“こんにちはタロウ君(发音为konnichiwa taroukun)”可以被作为一个字来处理。
另外,术语“音素”指的是从声学的角度便于作为单个单元来处理的单元。其并不一定与语音音节或音素相同。例如,在字“東京(发音为tou kyou)”中,“tou”部分可以用三个音素符号“t/o/u”来表示,或者用“to:”(“o”的长音)来表示。此外,“tou”部分可以用“t/o/o”来表示。另外,可以采用表示静音的符号。此外,可以采用将静音分成“发音之前的静音”、“插入在发音之间的短静音”、“发音中的静音”、以及“与‘つ(发音为tsu)’相对应的静音”的符号。
图30是示出根据本实施例的信息处理装置1020的硬件配置的示意图。信息处理装置1020包括中央处理单元(CPU)1201、只读存储器(ROM)1203、随机存取存储器(RAM)1205、主机总线1207、桥1209、外部总线1211、接口1213、输入设备1215、输出设备1217、存储设备1219、驱动器1221、以及通信设备1233。
CPU 1201用作算术处理单元和控制单元。CPU 1201根据记录在ROM1203、RAM 1205、存储设备1219或可移动记录介质1014中的各种程序来控制信息处理装置1020中的内部操作的全部或一部分。ROM 1203存储由CPU 1201使用的程序、算术参数等。RAM 1205暂时存储CPU 1201执行时所使用的程序和在CPU 1201执行时适当地变化的参数。CPU 1201、ROM 1203和RAM 1205经由主机总线1207(例如,CPU总线)而相互连接。
主机总线1207经由桥1209而与外部总线1211(例如,外围组件互连(PCI)总线)相连接。
输入设备1215包括诸如鼠标、键盘、触摸屏、按钮、开关、和控制杆之类的由用户操作的操作单元和诸如麦克风和头戴式耳机之类的语音输入单元。输入设备1215可以是使用红外光或者其它电波的遥控单元(所谓的遥控器),或者可以是与信息处理装置1020的操作相对应的诸如移动电话或PDA之类的外部连接设备。输入设备1215可以是一种输入控制电路,该输入控制电路基于用户使用操作单元或语音输入单元输入的信息来生成输入信号并将所生成的输入信号输出到CPU 1201。信息处理装置1020的用户操作输入设备1215来向信息处理装置1020输入各种数据或者指示信息处理装置1020执行处理操作。
输出设备1217例如可以由可以以可视或可听的方式来将所获得的信息通知给用户的显示单元(例如,阴极射线管(CRT)显示单元、液晶显示(液晶显示)单元、等离子显示面板(PDP)单元、电致发光(EL)显示单元、或灯)、音频输出单元(包括扬声器和头戴式耳机)、以及诸如打印机、移动电话或传真机之类的设备来构成。输出设备1217例如输出搜索服务器搜索的各种信息。具体而言,显示单元将搜索服务器对各种信息的搜索结果作为文本或图像来显示。同时,音频输出单元将被播放的语音数据转换成语音并输出该语音。
存储设备1219是作为根据本实施例的信息处理装置1020的存储单元的一个示例的数据存储设备。存储设备1219例如由诸如硬盘驱动器(HDD)之类的磁存储单元、半导体存储设备、光存储设备、磁光存储设备等来构成。存储设备1219存储由CPU 1201执行的程序或各种数据以及从外部获得的各种数据。
驱动器1221是存储介质的读写器。驱动器1221被设置在信息处理装置1020中,或者从外部附接于信息处理装置1020。驱动器1221读出记录在诸如磁盘、光盘、磁光盘、或半导体存储器之类的可移动存储介质1014中的信息(该信息被载入到驱动器1221),并将所读出的信息输出到RAM 1205。驱动器1221可以将载入到驱动器1221中的信息记录在诸如磁盘、光盘、磁光盘或半导体存储器之类的可移动存储介质1014中。可移动存储介质1014例如可以是DVD介质、HD-DVD介质、蓝光介质、紧凑式闪存(CF)、记忆棒、或安全数字(SD)存储卡。可移动存储介质1014例如可以是其上安装有非接触式IC芯片的电子设备或集成电路(IC)卡。
通信设备1223是由用于连接到通信网络1012的通信设备构成的通信接口。通信设备1223例如可以是用于有线或无线局域网(LAN)的通信卡、蓝牙或无线USB(WUSB)、用于光通信的路由器、用于非对称数字用户线路(ADSL)的路由器、或者用于各种通信协议的调制解调器。通信设备1223在收发有关与另一个信息处理装置1020语音聊天的信息时向因特网或其它通信设备发送各种信息以及从其接收各种信息。连接到通信设备1223的通信网络1012可以由以有线或无线方式来连接的诸如因特网、家庭LAN、红外光通信、或者卫星通信之类的网络构成。
利用上述配置,信息处理装置1020可以与直接连接到信息处理装置1020的另一个信息处理装置或者与经由通信网络1012来连接到其的另一个信息处理装置进行语音聊天,同时从经由通信网络1012来连接到其的关键字提取数据库1030、搜索引擎1040等获取各种信息。此外,信息处理装置1020可以使用可移动存储介质1014来取出存储在信息处理装置1020中的信息。
在上文中,已经描述了可以实现根据本实施例的信息处理装置1020的功能的硬件配置的示例。上述组件可以使用通用元件来构成,或者可以利用专用于各种组件的功能的专用硬件来构成。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。上述硬件配置仅仅用于说明性目的,并且本发明决不局限于此。可以依据使用的形式来省略诸如主机总线1207、外部总线1211或接口1213之类的一些组件。
接下来,将详细描述根据本实施例的信息处理装置1020的配置。在以下描述中,执行语音聊天的两个信息处理装置1020将被称为第一信息处理装置1020A和第二信息处理装置1020B。第一和第二信息处理装置1020A和1020B根据信息处理装置的各个用户的声音来生成语音数据,并将该语音数据发送到作为语音聊天的对应方的另一个信息处理装置。图31是用于说明根据第三实施例的第一信息处理装置1020A的配置的框图。
根据本实施例的第一信息处理装置1020A包括语音输入单元1231、话语识别单元1233、语音谈话控制单元1239、语音输出单元1241、信息搜索单元1243、关键字同步单元1245、显示单元1247、通信单元1249和存储单元1251。
语音输入单元1231是向第一信息处理装置1020A输入语音聊天期间的谈话对话(第一信息处理装置1020A的用户所发出的话语)的接口。语音输入单元1231例如由与第一信息处理装置1020A相连接的诸如麦克风或头戴式耳机之类的输入设备来构成。用户向麦克风或头戴式耳机发出的话语被自动实时地输入到第一信息处理装置1020A。所输入的模拟信号被通过AD转换来采样量化,并被作为语音数据(数字信号)经由语音输入单元1231来发送到话语识别单元1233。
话语识别单元1233例如由CPU、ROM或RAM来构成。话语识别单元1233基于从语音输入单元1231发送而来的语音数据实时地执行话语识别。话语识别单元1233还包括参数提取单元1235和关键字提取单元1237。
参数提取单元1235从所生成的语音数据的每一帧(按适当的时间间隔)中提取诸如Mel频率倒谱系数(MFCC)及其时差参数、语音数据的频谱、功率线性预测系数、倒谱系数、和线谱对之类的特征参数。
参数提取单元1235将所提取的特征参数发送到关键字提取单元1237。关键字提取单元1237可以将所提取的特征参数存储在稍后将描述的存储单元1251中。
关键字提取单元1237基于关键字提取数据库1030和由参数提取单元1235提取并生成的特征参数来从语音数据(第一信息处理装置1020A的用户所发出的话语的数字信号)中提取关键字。当关键字提取单元1237提取关键字时,关键字提取单元1237可以经由通信单元1249来参考与通信网络1012相连接的关键字提取数据库1030。
在语音聊天期间用户所发出的话语的语句中包含多个关键字。关键字提取单元1237自动地提取存在于话语语句中的所有关键字。关键字提取单元1237将所提取的关键字发送到稍后将描述的信息搜索单元1243。关键字提取单元1237可以将所提取的关键字存储在存储单元1251中。
稍后将描述话语识别单元1233识别从语音输入单元1231发送而来的语音并从所识别的语音中提取关键字的方法。
语音谈话控制单元1239例如由CPU、ROM和RAM来构成,并控制与经由通信网络1012来连接的第二信息处理装置1020B的语音聊天。语音谈话控制单元1239接收语音输入单元1231所生成的语音数据,并经由通信单元1249将该语音数据发送到第二信息处理装置1020B。语音谈话控制单元1239经由通信单元1249来接收从第二信息处理装置1020B发送而来的语音数据,并将该语音数据发送到语音输出单元1241。语音谈话控制单元1239可以被配置成,每次语音聊天被执行时就将执行语音聊天的日期、用于标识语音聊天的标识符、和用于标识语音聊天的对应方的标识符以关联方式来存储在存储单元1251中。
语音谈话控制单元1239可以用专用于语音谈话控制的专用硬件来构成,并且可以被设置为诸如语音聊天程序之类的应用程序。
语音输出单元1241是这样的接口,该接口接收由第二信息处理装置1020B的用户发出的话语的语音数据,并将所接收的语音数据输入到第一信息处理装置1020A。语音输出单元1241例如由作为与第一信息处理装置1020A相连接的输出设备的扬声器或耳机来构成。
经由通信单元1249从第二信息处理装置1020B接收的语音数据被经由语音输出单元1241来输入给第一信息处理装置1020A的用户。
信息搜索单元1243以关联方式将从关键字提取单元1237发送而来的关键字和这些关键字被从关键字提取单元1237发送的时间存储在存储单元1251中。信息搜索单元1243判断是否将对从关键字提取单元1237发送而来的关键字执行关键字同步处理。当判定关键字同步处理应当被执行时,信息搜索单元1243将这些关键字发送到关键字同步单元1245,从而请求执行关键字同步处理。信息搜索单元1243经由通信单元1249来访问搜索引擎1040,并执行从关键字提取单元1237发送而来的关键字的信息搜索,从而获取针对所述关键字的搜索结果和与这些关键字相关的文章。信息搜索单元1243将所获得的搜索结果存储在存储单元1251的搜索结果存储单元1253中,并将该搜索结果发送到显示单元1247。这里,信息搜索单元1243从搜索引擎1040获得的搜索结果包括关于搜索关键字的信息在搜索引擎1040中的标题或URL以及信息的元数据,例如信息的类型。
当显示单元1247请求获取关于特定关键字或与该关键字相关的文章的更详细的信息时,信息搜索单元1243经由通信单元1249来访问搜索引擎1040以获取更详细的信息,并将从显示单元1247通知的特定关键字存储在存储单元1251的参考历史存储单元1255中。
关键字同步单元1245将关键字提取单元1237从语音数据中提取的关键字经由通信单元1249来发送到第二信息处理装置1020B,从而同步第一和第二信息处理装置1020A和1020B。关键字同步处理不仅可以在从第一信息处理装置1020A到第二信息处理装置1020B的方向上执行,而且可以按以下方式在从第二信息处理装置1020B到第一信息处理装置1020A的方向上执行。即,第一信息处理装置1020A可以响应于由第二信息处理装置1020B启动的关键字同步处理,以使得从第二信息处理装置1020B发送的关键字被第一信息处理装置1020A所接收。
显示单元1247将从信息搜索单元1243发送而来的信息搜索结果例如经由浏览器应用来显示给对第一信息处理装置1020A提供的诸如显示器等的输出设备。信息搜索单元1243从搜索引擎1040获得的信息包含信息或文章在搜索引擎1040中的URL等。因此,当第一信息处理装置1020A的用户通过与第一信息处理装置1020A相连接的诸如鼠标或键盘之类的输入设备来选择被显示的信息时,显示单元1247请求信息搜索单元1243获取被选择的信息的细节。
通信单元1249例如是安装在第一信息处理装置1020A中的通信设备。通信单元1249对经由通信网络1012的在第一信息处理装置1020A(具体而言,是关键字提取单元1237、语音谈话控制单元1239、信息搜索单元1243和关键字同步单元1245)与第一信息处理装置1020A的外部设备(具体而言,关键字提取数据库1030、搜索引擎1040)或者第二信息处理装置1020B之间信息通信进行中继。此外,通信单元1249可以与直接而非经由通信网络1012来与第一信息处理装置1020A相连接的其它信息处理装置进行信息通信。
存储单元1251例如是安装在第一信息处理装置1020A中的存储设备,并且在其中存储诸如关键字提取单元1237所提取的关键字或者信息搜索单元1243所获得的搜索信息之类的数据。除了这些数据之外,存储单元1251还可以在其中存储各种数据库或者由语音输入单元1231生成的语音数据。此外,存储单元1251还可以在其中存储在第一信息处理装置1020A执行处理时需要存储的各种参数以及该处理的进程信息。在话语识别单元1233、语音谈话控制单元1239、信息搜索单元1243、关键字同步单元1245等对存储单元1251自由地执行读取时,存储单元1251可以自由地被访问。存储单元1251还可以包括搜索信息聚积单元1253和参考历史存储单元1255。
搜索信息聚积单元1253以关联方式来聚积信息获取数据和信息搜索单元1243所获得的搜索信息。当需要显示已经获得的搜索信息时,可以参考存储在搜索信息聚积单元1253中的信息以显示该已经获得的信息。
参考历史存储单元1255将在显示单元1247上显示的关键字或文章中的、第一信息处理装置1020A的用户为了更详细的信息而参考的关键字存储作为参考历史。参考历史是这样的数据,该数据包括所参考的关键字、所参考关键字的权重信息、已经参考关键字的语音聊天自身的标识符、以及语音聊天的对应方。当关键字提取单元1237提取关键字时可以使用存储在参考历史存储单元1255中的参考历史。
信息搜索单元1243、关键字同步单元1245、和显示单元1247可以用专用于各种功能的专用硬件来构成,并且可以被设置为诸如话语识别程序之类的应用程序。
第二信息处理装置1020B的配置与第一信息处理装置1020A基本相同,并且将省略对它的描述。
在上文中,已经描述了根据本发明的信息处理装置1020的功能的示例。上述组件可以使用通用元件或电路来构成,或者可以用专用于各个组件的功能的专用硬件来构成。这些组件的全部功能可以利用CPU等来执行。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。
(话语识别方法和关键字提取方法)
以下,将参考图32来简要描述话语识别单元1233执行话语识别以从话语识别的结果中提取关键字的方法。根据本实施例的话语识别单元1233所使用的话语识别方法和关键字提取方法并不限于以下所描述的示例。图32是用于说明根据本实施例的话语识别单元1233所使用的话语识别方法和关键字提取方法的示例的流程图。
语音输入单元1231根据输入到其的第一信息处理装置1020A的用户的话语来生成语音数据。在语音输入单元1231中,所输入的用户话语被AD转换以对该作为模拟信号的话语进行采样量化,并且该模拟话语信号被转换成作为数字信号的语音数据(步骤S1101)。在完成向语音数据的转换之后,语音输入单元1231将所生成的语音数据发送到话语识别单元1233和语音谈话控制单元1239。
随后,参数提取单元1235从所生成的语音数据的每一帧(以适当的时间间隔)中提取诸如Mel频率倒谱系数(MFCC)及其时差参数、语音数据的频谱、功率线性预测系数、倒谱系数、和线谱对之类的特征参数(步骤S1103)。
关键字提取单元1237计算与输入到语音输入单元1231的话语(输入语音)最接近的字序列作为识别结果,并例如通过参考关键字提取数据库1030、声学模型、语音模型、以及在声学模型或语音模型中使用的字典基于从参数提取单元1235获得的特征参数来从识别结果中提取关键字。
这里,声学模型在其中存储这样的模型,该模型表示将被识别的话语的各个音素、音节等的声学特征。作为声学模型,例如可以使用隐马尔可夫模型(HMM)。作为声学模型,可以提供两种模型,一种模型用于安静的环境(能够在安静环境下提供高识别率的声学模型),而另一种模型用于嘈杂环境(能够在嘈杂环境下提供良好的识别率的声学模型),从而可以依据环境来参考任一种模型。
语言模型在其中存储这样的模型,该模型描述了表示登记在各个字典中的字是如何串联(连接)的信息(串联信息)。作为语言模型,可以使用统计字串联概率(n-gram或者基于类的n-gram)、生成语法、有限状态自动机(FSA)等。
语言模型可以在其中存储字的类别的串联信息以及字的串联信息。例如,当“表示人名的字所属于的类别”被表示为符号“_人名_”并且“表示食物的字所属于的类别”被表示为符号“_食物_”时,语言模型还描述了“_人名_”和“_食物_”的串联信息,即,还描述了预先存储在字典中的各种类别之间的串联以及类别和字之间的串联。
因此,可以获得语言模型中没有包含的字的串联信息。例如,当获得“イチロ一(发音为ichiro)”和“は(小品词,发音为wa)”之间的串联信息时,即使语言模型中没有描述“イチロ一(发音为ichiro)”的串联信息,如果可以获悉“イチロ一(发音为ichiro)”属于表示为符号“_人名_”的类别,也可以通过获得“_人名_”和“は(小品词,发音为wa)”之间的串联信息来获得“イチロ一(发音为ichiro)”和“は(小品词,发音为wa)”之间的串联信息。
在从语音输入单元1231接收到语音数据之后,关键字提取单元1237通过基于声学模型按照字的发音或音素来连接这些字中的一些从而生成字序列。关键字提取单元1237基于声学模型来计算所生成的字序列的声学分数(步骤S1105)。这里,声学分数是表示作为话语识别的结果的字序列与输入语音在声音方面(从声学角度)的相似程度的数值。关键字提取单元1237基于计算得到的声学分数来选择具有较高声学分数的预定数目的字序列。
关键字提取单元1237可以使用基于集束搜索的维特比解码器或者基于A*搜索的堆栈解码器来执行匹配。另外或者可替代地,在匹配时可以使用所谓的关键字辨认方法。如果向关键字提取单元1237所参考的各种字字典添加“识别权重”信息,则可以对稍后将描述的语言分数进行加权,并且识别结果可以按加权后的分数来分等级。识别权重信息是描述了识别权重的信息,其中,识别权重是在计算语音分数时使用的校正系数(权重系数);当识别权重具有较大值时,语言分数的校正值随之增加,因而具有较大识别权重的关键字极有可能被用作识别结果。例如,识别权重为10的关键字将被话语识别的概率是识别权重为1的关键字(即,未经加权的关键字)将被话语识别的概率的10倍。
关于识别权重的确定,可以使用从搜索引擎1040获得的搜索关键字列表的等级信息或者关键字在话语识别的结果的输出中的出现频率。由于搜索关键字列表是在搜索引擎1040中被置于较高等级上的搜索关键字的列表,所以可以按关键字在搜索时的出现频率的递减顺序来向这些关键字赋予等级;预定的识别权重是按等级的顺序来确定的。
具体而言,按关键字在搜索时的出现频率的递减顺序来向这些关键字赋予预定系数,并且归一化的关键字频率被乘以所赋予的系数,从而获得识别权重。关于搜索关键字列表和次关键字的获取以及关键字信息的添加,取代搜索引擎1040可以使用存储在经由通信网络1012来连接的服务器中的辞典、本体数据库、百科全书、日语字典、或者形态分析工具。除了辞典、本体数据库、百科全书、日语字典和形态分析工具之外,还可以使用搜索引擎1040。
关于识别权重的确定,可以使用关于第一信息处理装置1020A的用户是否已经使用搜索引擎1040来对作为话语识别的结果而获得的关键字执行搜索的信息,或者第一信息处理装置1020A的用户的偏好。
随后,关键字提取单元1237基于语言模型来计算各个所选择的字序列的语言分数(步骤S1109)。这里,语言分数是用于判断所选择的字序列是否适合语言模型的数值。如果使用语法或者有限状态自动机来作为语言模型,则语言分数是指示出字序列对于该语言模型是否可接受的数值。如果使用静态语言模型作为语言模型,则语言分数是字序列的生成概率。具体而言,如果使用语法或有限状态自动机作为语言模型,则当字序列对于该语言模型可接受时,字序列的语言分数为“1”;当字序列对于该语言模型不可接受时,字序列的语言分数为“0”。当使用诸如n-gram或基于类的n-gram之类的静态语言模型来作为语言模型时,使用字序列的生成概率作为语言分数。在由本申请人提出的日本专利申请No.2001-382579(对应于JP-A NO.2003-186494)中描述了计算语言分数的详细方法。
随后,关键字提取单元1237对在之前的步骤中计算得到的声学分数和语言分数进行合成和排序,并利用该分数来选择字序列(步骤S1111),从而确定具有最大合成分数的字序列作为识别结果(步骤S1113)。具体而言,关键字提取单元1237将根据声学模型来获得的声学分数和根据语言模型来获得的语言分数的乘积或算术和为最大的字序列确定为识别结果。当向在语言模型中使用的字典添加了诸如字的识别权重之类的信息时,可以使用其中并入了识别权重信息的语言分数。
在这种情况下,从声学和语言学角度来看最适合的字序列别确定为识别结果。
随后,关键字提取单元1237经由通信单元1249来访问关键字提取数据库1030,以对话语识别的结果和登记在关键字提取数据库1030中的关键字进行比较(步骤S1115)。如果在话语识别的结果中包含登记在关键字提取数据库1030中的字,则关键字提取单元1237确定将提取该包含在话语识别的结果中的字(步骤S1117)。
关键字提取单元1237可以被配置成在访问关键字提取数据库1030之前访问作为语音聊天的对应方的第二信息处理装置1020B,从而交换语音聊天的识别结果。例如,通过交换语音信息或者讲话者的说话方式,可以提高话语识别的精确度。为了使信息处理装置的话语识别的结果生效,可以交换话语识别的结果的话题矢量。
通过使用上述话语识别方法和关键字提取方法,不仅可以适当地识别语音聊天期间的谈话内容,而且可以适当地从话语识别的结果中提取关键字。
(关键字同步方法)
接下来,将参考图33来详细描述在根据本实施例的语音聊天系统中的关键字同步方法。图33是用于说明在根据第三实施例的语言聊天系统中的关键字同步的流程图。图33示出了第一信息处理装置1020A的用户对第二信息处理装置1020B说话的情况。
当第一信息处理装置1020A的用户向与第一信息处理装置1020A相连接的诸如麦克风或头戴式耳机之类的语音输入单元1231发出声音时,语音输入单元1231根据用户所发出的声音来生成语音数据(步骤S1201)。所生成的语音数据被发送到参数提取单元1235和语音谈话控制单元1239。语音谈话控制单元1239经由通信单元1249将所生成的语音数据发送到第二信息处理装置1020B,从而在第一和第二信息处理装置1020A和1020B之间进行语音谈话(步骤S1203)。
参数提取单元1235将语音数据和所提取的各种参数发送到关键字提取单元1237,并且关键字提取单元1237对语音数据执行话语识别,以从话语识别的结果中提取关键字。随后,关键字提取单元1237经由通信单元1249来与第二信息处理装置1020B交换话语识别的结果(步骤S1205),以提高话语识别的结果的精确度。之后,关键字提取单元1237经由通信单元1249来访问与通信网络1012相连接的关键字提取数据库1030(步骤S1207)。关键字提取数据库1030向第一信息处理装置1020A发出参考许可,从而允许参考登记在其中的数据库(步骤S1209)。第一信息处理装置1020A的关键字提取单元1237通过参考关键字提取数据库1030来提取关键字(步骤S1211)。
当提取关键字时,关键字提取单元1237可以被配置成访问搜索引擎1040等,并基于偏好来提取搜索引擎1040的较高等级的搜索关键字或者频繁地被用作博客中的话题的术语。语音聊天的话题通常是在语音聊天时流行的话题。因此,与这样的话题相关的关键字极有可能是搜索引擎1040的较高等级的搜索关键字或者频繁地被用作博客中的话题的术语。因此,通过基于偏好来提取这样的关键字,可以更高效地执行关键字提取。
随后,关键字提取单元1237将所提取的关键字发送到信息搜索单元1243,并且信息搜索单元1243将发送而来的关键字以与发送时间相关联的方式来存储在存储单元1251中(步骤S1213)。随后,信息搜索单元1243判断所发送而来的关键字是否为在当前的语音聊天期间之前提取的旧关键字(步骤S1215)。如果所发送而来的关键字是之前没有提取的新关键字,则关键字提取单元1237新登记这些关键字(步骤S1219)。
如果所发送而来的关键字是旧关键字,则信息搜索单元1243搜索这些旧关键字的发送时间,并判断在发送时间之后是否已经过了预定时间段(例如,5分钟)(步骤S1217)。在以上判断步骤中使用的预定时间段并不限于此,而可以设置成任意时间段。如果在这些旧关键字的发送时间之后还没有过预定时间段,则信息搜索单元1243丢弃所发送而来的关键字,并且关键字提取处理结束。如果在这些旧关键字的发送时间之后已经过了预定时间段,则信息搜索单元1243更新新关键字的发送时间并重新登记这些关键字(步骤S1219)。
当关键字被新登记时,信息搜索单元1243将新登记的关键字发送到关键字同步单元1245。在接收到这些关键字之后,关键字同步单元1245经由通信单元1249将发送而来的关键字发送给第二信息处理装置1020B(步骤S1221)。利用这样的发送处理来进行对第一信息处理装置1020A所提取的关键字与作为语音聊天的对应方的第二信息处理装置1020B进行同步的同步处理。这里,同步处理仅涉及关键字的交换。因此,无需在信息处理装置的存储器上准备同步区域。
在登记了新关键字的第一信息处理装置1020A中,信息搜索单元1243经由通信单元1249来访问与通信网络1012相连接的搜索引擎1040(步骤S1223),并获取针对这些新关键字的搜索结果以及描述了与这些关键字相关的文章的URL等的元数据(步骤S1225)。之后,信息搜索单元1243将所获得的信息存储在搜索信息聚积单元1253中,并将所获得的信息发送到显示单元1247。随后,显示单元1247通过浏览器等来在显示设备上显示发送而来的信息(步骤S1227)。
在关键字被发往的第二信息处理装置1020B中,与第一信息处理装置1020A相独立地执行对关键字是否是旧的的判断,并且如果是旧的则判断是否已经过了预定时间段。如果关键字不是旧的,或者虽然是旧的但已经过了预定时间段,则第二信息处理装置1020B新登记所发送而来的关键字。
之后,第二信息处理装置1020B访问搜索引擎1040(步骤S1229),并获取描述了发送而来的关键字的URL等的元数据(步骤S1231)。与第一信息处理装置1020A相同,第二信息处理装置1020B将所获得的信息存储在搜索信息聚积单元1253中,并将所获得的信息发送到显示单元1247。随后,显示单元1247通过浏览器等来在显示设备上显示所发送来的信息(步骤S1233)。
从将语音聊天期间的谈话内容输入到第一信息处理装置1020A的步骤开始到对关键字进行同步以显示针对与关键字相关的信息的搜索结果的步骤为止的处理被第一信息处理装置1020A自动地执行。因此,第一信息处理装置1020A的用户无需做任何针对话语识别、关键字检测、和关键字同步处理的专门操作。因此,第一信息处理装置1020A的用户可以全神贯注于语音聊天。同时,在第二信息处理装置1020B中,关键字同步处理和信息搜索结果显示处理也被自动地执行。第二信息处理装置1020B的用户无需做任何针对这些处理的专门操作,并且可以全神贯注于语音聊天。
如上所述,第一信息处理装置1020A基于第一信息处理装置1020A的用户所发出的声音来执行关键字提取,随后针对第二信息处理装置1020B来执行关键字同步。其结果是,已经执行关键字提取的第一信息处理装置1020A和已经进行关键字同步的第二信息处理装置1020B使用搜索引擎1040来执行搜索并以相互独立的方式来显示搜索结果。利用这样的处理,在第一和第二信息处理装置1020A和1020B的显示设备上,在具有与固有通信延时相对应的很小的时间延迟的情况下基本同时显示相同的关键字和相同的与关键字相关的文章。由于与关键字相关的信息也被显示,所以可以自动地提供可以用作语音聊天的话题的信息,并因而扩展了语音聊天的谈话。
已经描述了第一信息处理装置1020A的用户向第二信息处理装置1020B发出声音的情况。但是,针对第二信息处理装置1020B的用户向第一信息处理装置1020A发出声音的情况可以类似地执行上述处理。在这种情况下,第二信息处理装置1020B执行语音数据的生成和关键字的提取,获得新登记的关键字,并执行针对第一信息处理装置1020A的关键字同步处理。其结果是,由第一和第二信息处理装置1020A和1020B以类似于上述方式的独立且并行的方式来执行关键字相关信息的搜索和搜索结果的显示。这样,语音聊天期间的谈话的输入(语音数据的生成)和关键字的提取被各个信息处理装置以独立且并行的方式来处理。
当第一和第二信息处理装置1020A和1020B之间的语音聊天结束时,登记在信息处理装置1020A和1020B中的关键字和与关键字相关的临时信息被删除,并且新的关键字被登记以待稍后使用。
在以上描述中,关键字提取数据库1030被独立地与连接到第一信息处理装置1020A的通信网络1012相连接。关键字提取数据库1030可以设置在第一信息处理装置1020A中。在这种情况下,关键字提取数据库1030例如被存储在第一信息处理装置1020A的数据库存储单元中。当关键字提取数据库1030被设置在第一信息处理装置1020A中时,可以消除关键字提取期间的通信时间延迟。因此,可以以缩短的时间段来执行关键字提取。数据库存储单元可以独立地设置在第一信息处理装置1020A中,或者可以设置在第一信息处理装置1020A的存储单元1251中。
在以上描述中,搜索引擎1040被独立地与连接到第一信息处理装置1020A的通信网络1012相连接。但是,第一信息处理装置1020A可以包括搜索引擎1040。当搜索引擎1040设置在第一信息处理装置1020A中时,可以消除信息搜索期间的通信时间延迟。因此,可以以缩短的时间段来执行信息搜索。
(搜索结果显示屏幕)
接下来,将参考图34来详细描述根据本实施例的信息搜索结果显示屏幕的示例。图34是示出由根据第三实施例的信息处理装置显示的搜索信息显示的示例的示意图。
搜索结果显示屏幕1050以更新方式显示了在显示屏幕上的、语音聊天期间检测到的关键字。在该显示屏幕上,较新的关键字被置于上面部分,而较旧的关键字被置于下面部分。可以适当地设置可以在一个屏幕上显示的关键字的最大数目。当关键字的数目超过该最大值时,首先删除屏幕上最下方的关键字。
在图34的示例中,关键字被显示在栏1503中,其中,具有在栏1501中的按它们的登记时间来指派的索引号。较新的关键字,即,在栏1503中的、栏1501中的索引号较大的关键字被显示在上面部分。除了索引号栏1501和关键字栏1503之外,显示屏幕还包括锁定(pin lock)复选框栏1505和删除复选框栏1507。对各个关键字提供锁定复选框和删除复选框。锁定复选框用于锁定关键字,以使得被锁定的关键字保留在屏幕上。删除复选框用于选择在更新所显示的内容时将被删除的关键字。
栏1503中的关键字与它们的搜索结果显示屏幕相链接,搜索结果显示屏幕示出了栏1503中的关键字被使用搜索引擎1040来搜索时的搜索结果。当例如使用鼠标来点击栏1503中的关键字时,用户可以看到针对该关键字的由搜索引擎1040搜索得到的搜索结果。
如果栏1505中的锁定复选框被打钩,则锁定复选框选中的关键字被移动到最上面的部分并且被锁定。因此,即使当在屏幕上显示新的关键字时,锁定的关键字也不会被往下移动。如果存在多个锁定关键字,则可以按它们的登记时间来显示它们。
在所登记的从语音聊天期间的谈话对话中提取出来的关键字中,可能存在对信息处理装置的用户在语音聊天时没有用的关键字。在这样的情况下,通过对相应的关键字旁边的栏1507中的删除复选框打钩,可以在更新所显示的内容时删除该关键字。
关于栏1503中的一个关键字,不仅显示该关键字的表示,而且还例如在栏1503中的相应关键字下方的栏1509中的缩略图中显示记载在搜索引擎1040中的与栏1503中的关键字相关的文章。当用户例如使用鼠标指针来点击栏1509中的与关键字相关的文章时,栏1509中的文章被链接到记载在搜索引擎1040中的文章的全文。也对栏1509中的各篇文章提供栏1505中的锁定复选框和栏1507中的删除复选框。可以显示在栏1509中的与栏1503中的关键字相关的文章的数目并不限于图中所示的情况,而可以被任意地设置。显示在搜索结果显示屏幕1050的栏1509中的文章可以是在搜索引擎1040中频繁参考的文章。
在图34所示的搜索结果显示屏幕1050的示例中,在语音聊天期间,关键字“カシム(人名,发音为Cassim)”、“代表(代表,发音为daihyou)”、“イエメン(国名,Yemen)”、“千葉(地名,Chiba)”、“牧(发音为boku)”被顺序地提取。由于关键字“カシム(人名,发音为Cassim)”的锁定复选框被打钩,因此虽然它是所登记的关键字中的最旧的关键字,但是它被显示在显示屏幕1050的最上面部分。关键字“代表(代表,发音为daihyou)”和与关键字“牧(发音为boku)”相关的信息“新潟市牧支所ホ一ムペ一ジ(新滹市社会福利协会的主页)”的删除复选框被打钩。因此,该关键字和关键字相关信息在所显示的内容被更新时被删除。
关于在显示屏幕1050的栏1503中显示的关键字,相同的关键字基本同时被安装在语音聊天的各个讲话者的信息处理装置1020中的关键字同步单元1245显示在各个信息处理装置1020的屏幕上。但是,由于锁定复选框和删除复选框的打钩是由各个讲话者独立操作的,所以随着语音聊天的进展,不同的内容可以被显示在信息处理装置1020的各个显示屏幕1050上。
(搜索信息的参考历史数据)
接下来,将参考图35来描述根据本实施例的、在关键字提取期间使用搜索信息的参考历史的方法。图35是示出根据第三实施例的搜索信息的参考历史数据的示意图。
在根据本实施例的信息处理装置1020中,信息处理装置1020的用户在搜索结果显示屏幕1050上选择的栏1503中的关键字被以与信息相关联的方式、作为参考历史数据来存储在参考历史存储单元1255中,例如如图35所示。
如图35所示,参考历史数据包括栏1601中的用户所选择的关键字、栏1603中的表示栏1601中的关键字的选择次数的权重信息、栏1605中的会话(session)ID、以及栏1607中的表示被赋予了会话ID的各个语音聊天的对应方的谈话对应方信息,其中,栏1605中的会话ID是用于标识栏1601中的关键字被选择的语音聊天的标识符。
栏1603中的权重信息是表示在本实施例的语音聊天系统1010中选择栏1601中的关键字的次数的信息。在图35所示的参考历史信息中,关键字“ジヤパンカツプ(Japan Cup)”总共被选择两次;而关键字“ザンブロツク(Zanblock)”和“牧(Maki)”分别被选择一次。
在根据本实施例的语音聊天系统中,无论何时执行语音聊天,都对各个语音聊天会话赋予栏1605中的包括语音聊天的日期和在该日期中的语音聊天的会话次数在内的会话ID。在图35所示的参考历史数据中,关键字“ジヤパンカツプ(Japan Cup)”被选择两次:一次在会话ID“200609150001”的语音聊天中;一次在会话ID“200609150002”的语音聊天中。
栏1607中的谈话对应方信息是表示栏1601中的关键字被选择的语音聊天的对应方的数据。在图35所示的参考历史数据中,关键字“ジヤパンカツプ(Japan Cup)”被两个参与者选择了两次:一次在会话ID“200609150001”的语音聊天中被参与者“A”选择;一次在会话ID“200609150002”的语音聊天中被参与者“B”选择。
在根据本实施例的信息处理装置1020中,可以在从语音数据中提取关键字时使用这样的参考历史数据。通过使用参考历史数据,可以获取诸如谈话对应方谈话题的定向性或者字之间的相关性之类的信息。利用这样的信息,可以更高效地执行话语识别或者关键字提取。以下,将简要描述使用参考历史信息的方式。
根据本实施例的关键字提取单元1237可以参考存储了上述参考历史数据的参考历史存储单元1255,以在执行话语识别时使用在参考历史数据中包含的各种信息来作为在话语识别中使用的参考信息中的一个。例如,当执行话语识别时,关键字提取单元1237可以通过参考参考历史存储单元1255来提高参考历史数据的权重信息栏1603中的数目较大的关键字的话语识别优先级。因此,可以高效地执行话语识别。
当关键字提取单元1237所识别的关键字被登记在参考历史数据中时,可以提高在会话ID与所登记的关键字相同的聊天会话中选择的另一个关键字的话语识别优先级。这是因为可以预测到具有相同会话ID的关键字彼此强相关。
当关键字提取单元1237所识别的关键字被登记在参考历史数据中时,可以提高由与所登记的关键字相同的谈话对应方选择的另一个关键字的话语识别优先级。这是因为可以预测到在语音聊天期间由同一谈话对应方选择的关键字在谈话对应方谈话题的定向性方面相互一致。
如上所述,根据本实施例的信息处理装置1020,通过有效地反馈参考历史数据,变得可以更高效地执行话语识别和关键字提取。
(信息处理装置的修改示例)
接下来,将参考图36A到36D来简要描述根据本实施例的信息处理装置1020的修改示例。图36A是用于说明根据第三实施例的信息处理装置的话语识别方法的简要框图。图36B到36D是用于说明根据第三实施例的信息处理装置的话语识别方法的修改示例的简要框图。
在图36A到36D所示的信息处理装置1020A和1020B中,仅示出了各个信息处理装置的一些处理单元。不言而言,除了所示出的处理单元之外,图31所示的处理单元也包括在这些信息处理装置中。
在根据本实施例的信息处理装置1020中,如图36A所示,已经描述了这样的情况,其中,执行语音聊天的第一和第二信息处理装置1020A和1020B接收由相应用户发出的声音,从而致使话语识别单元1233执行话语识别并致使关键字同步单元1245执行关键字同步处理。但是,本实施例的信息处理装置可以按以下方式来修改。
(第一修改示例)
图36B的第一修改示例示出了执行这样的情况,其中,语音聊天的信息处理装置1020A和1020B将相应用户所发出的声音如其原样地发送给它们的对应方信息处理装置,并对所接收的由对应方信息处理装置的用户发出的声音执行话语识别。
具体而言,第一信息处理装置1020A的用户所发出的声音经由语音谈话控制单元1239和通信单元1249而被如其原样地发送到第二信息处理装置1020B,并被第二信息处理装置1020B话语识别。类似地,第二信息处理装置1020B的用户所发出的声音经由语音谈话控制单元1239和通信单元1249而被如其原样地发送到第一信息处理装置1020A,并被第一信息处理装置1020A话语识别。在本修改示例中,在第一和第二信息处理装置1020A和1020B中都执行话语识别、关键字提取、和关键字相关信息搜索。
(第二修改示例)
图36C的第二修改示例示出了这样的情况,其中,仅在一个信息处理装置中执行话语识别,并在另一个信息处理装置中执行关键字同步和信息搜索。具体而言,在第一信息处理装置1020A中执行话语识别,并在第二信息处理装置1020B中执行关键字同步处理。第一信息处理装置1020A的用户所发出的声音被话语识别单元1233话语识别并被关键字提取,然后被发送到第二信息处理装置1020B。然后,第二信息处理装置1020B执行关键字同步处理和关键字相关信息的搜索。第二信息处理装置1020B的用户所发出的声音被如其原样地发送到第一信息处理装置1020A,随后被话语识别单元1257话语识别并被关键字提取。
在图36C的示例中,话语识别在第一信息处理装置1020A中被独立地执行。但是,话语识别可以在第二信息处理装置1020B中被独立地执行。在图36C的示例中,在第一信息处理装置1020A中提供了两个独立话语识别单元。但是,上述话语识别可以仅通过一个话语识别单元来执行。当一个信息处理装置的处理能力远高于另一个信息处理装置时,本修改示例会很有用,反之亦然。
(第三修改示例)
图36D的第三修改示例示出了这样的情况,其中,几乎不在信息处理装置中而是在中继信息处理装置之间的连接的服务器1016中执行话语识别,并且信息处理装置仅执行关键字同步和信息搜索。具体而言,第一信息处理装置1020A的用户所发出的声音被如其原样地发送到服务器1016,并被服务器1016的话语识别单元1161话语识别,从而被发送到第二信息处理装置1020B。同时,第二信息处理装置1020B的用户所发出的声音被如其原样地发送到服务器1016,并被服务器1016的话语识别单元1163话语识别,从而被发送到第一信息处理装置1020A。在图36D的示例中,在服务器1016中提供了两个独立的话语识别单元。但是,上述话语识别可以仅由一个话语识别单元来执行。
(第四实施例)
以下,将详细描述根据本发明第四实施例的关键字提取系统。
图37是示出根据本发明第四实施例的关键字提取系统的配置的示意图。如图37所示,根据本实施例的关键字提取系统1011包括通信网络1012、关键字提取数据库1030、搜索引擎1040、以及信息处理装置1020A和1020B(在下文中,有时候统称为信息处理装置1020)。信息处理装置1020A与家庭网络1018内的外部显示设备1070相连接。信息处理装置1020A和1020B以及外部显示设备1070可以接收从广播站1080发送而来的广播信息。
通信网络1012、关键字提取数据库1030和搜索引擎1040具有与根据第三实施例的通信网络1012、关键字提取数据库1030和搜索引擎1040相同的配置并提供基本相同的效果,并且将省略对它们的详细描述。
信息处理装置1020以语音方式与经由通信网络1012而连接到其的另一个信息处理装置1020执行聊天(语音聊天)。信息处理装置1020可以经由通信网络1012来请求经由通信网络1012而与其相连接的搜索引擎1040执行数据库的参考或者信息的搜索。
执行语音聊天的另一个信息处理装置1020可以经由通信网络1012来连接到信息处理装置1020,如图所示。可替代地,另一个信息处理装置1020可以直接而非经由通信网络1012来连接到USB端口、诸如i.Link之类的IEEE 1394端口、SCSI端口、RS-232C端口等。
信息处理装置1020与家庭网络1018内的稍后将描述的外部显示设备1070相连接,因此,可以在信息处理装置1020和外部显示设备1070之间进行各种数据的通信。信息处理装置1020和外部显示设备1070之间的连接可以经由诸如HDMI-CEC(高清晰多媒体接口-消费电子控件)之类的连接端口来执行。信息处理装置1020可以使用设置在其中的接收功能来接收包含从稍后将描述的广播站1080发送而来的广播信息的广播电波。
在图示的示例中,信息处理装置1020是台式PC,但是,在本实施例中,信息处理装置1020可以是笔记本式PC。
在本实施例中,信息处理装置1020并不限于上述示例,而可以例如由电视机机顶盒、诸如家用游戏机之类的信息设备、移动电话、PDA等来构成,只要是能够具有经由网络来通信的功能的设备即可。另外或者可替代地,信息处理装置1020可以是由拥有者携带的便携式设备,例如,便携式游戏机、PHS、或者便携式视频/音频播放机。
外部显示设备1070是显示单元,例如,CRT显示单元、液晶显示单元、等离子显示面板单元、或者电致发光(EL)显示单元。外部显示设备1070接收包含从稍后将描述的广播站1080发送而来的广播信息的广播电波,并在显示单元的显示区域上显示广播信息的内容。这里,从广播站发送而来的广播信息指的是通过诸如单波段数字广播或者12波段数字广播(下文中称为全波段数字广播)之类的地面数字广播、有线广播、或者经由网络的因特网广播来提供的诸如广播文本信息、广播音频信息、或者视频信息之类的数据。包含广播信息的广播电波指的是诸如单波段数字广播或者全波段数字广播之类的地面数字广播的电波。外部显示设备1070可以经由诸如HDMI-CEC之类的连接端口将所接收的广播信息发送到信息处理装置1020。外部显示设备1070可以接收从信息处理装置1020发送而来的各种数据,并显示与该数据相对应的信息。
以下,将通过地面数字广播的示例来描述第四实施例。
广播站1080发送包含广播信息的广播电波,其中,该广播信息包含以下数据:广播文本信息、广播音频信息和视频信息。外部显示设备1070接收从广播站1080发送而来的广播电波,并显示字幕信息或者输出基于在广播电波中包含的广播文本信息的声音。信息处理装置1020可以接收从广播站1080发送而来的广播电波,以在各种处理中使用广播电波的内容。
(信息处理装置1020的配置)
接下来,将详细描述根据本实施例的信息处理装置1020的配置。根据本实施例的信息处理装置1020的硬件配置与根据第三实施例的硬件配置基本相同,并且将省略对它的详细描述。
图38是用于说明根据第四实施例的信息处理装置1020的配置的框图。如图38所示,根据本实施例的信息处理装置1020包括关键字同步单元1245、显示单元1247、通信单元1249、存储单元1251、广播文本信息接收单元1261、关键字提取单元1263、信息搜索单元1265、以及外部显示设备连接控制单元1267。
关键字同步单元1245经由通信单元1249将关键字提取单元1237从语音数据中提取的关键字发送到其它信息处理装置1020,从而同步第一和第二信息处理装置1020A和1020B。关键字同步处理不仅可以在从信息处理装置1020到另一个信息处理装置1020的方向上执行,而且可以按以下方式在从另一个信息处理装置1020到信息处理装置1020的方向上执行。即,信息处理装置1020可以响应于由另一个信息处理装置1020启动的关键字同步处理,从而使得从另一个信息处理装置1020发送的关键字被信息处理装置1020接收。
显示单元1247例如经由浏览器应用将从信息搜索单元1265发送而来的信息搜索结果显示给为信息处理装置1020设置的诸如显示器等的输出设备。信息搜索单元1265从搜索引擎1040获得的信息包含信息或文章在搜索引擎1040中的URL等。因此,当信息处理装置1020的用户通过与信息处理装置1020相连接的诸如鼠标或键盘之类的输入设备来选择被显示的信息时,显示单元1247请求信息搜索单元1265获取被选择的信息的细节。
通信单元1249例如是安装在信息处理装置1020中的通信设备。通信单元1249对在信息处理装置1020(具体而言,是信息处理装置1020的信息搜索单元1265、关键字提取单元1263、和关键字同步单元1245)与信息处理装置1020的外部设备(具体而言,是关键字提取数据库1030、搜索引擎1040)或者另一个信息处理装置1020之间的经由通信网络1012的信息通信进行中继。
此外,通信单元1249可以与直接而非经由通信网络1012来连接到信息处理装置1020的另一个信息处理装置进行信息通信。
存储单元1251例如是安装在信息处理装置1020中的存储设备,并且在其中存储诸如关键字提取单元1263所提取的关键字或信息搜索单元1265所获得的搜索信息之类的数据。除了这些数据之外,存储单元1251还可以在其中存储各种数据库。此外,存储单元1251还可以适当地在其中存储在信息处理装置1020执行处理时需要存储的各种参数以及该处理的进程信息。在广播文本信息接收单元1261、关键字同步单元1245等自由地执行对存储单元1251的读写时,存储单元1251可被访问。存储单元1251还包括搜索信息聚积单元1253和参考历史存储单元1255。
搜索信息聚积单元1253以关联方式来聚积信息获取数据和信息搜索单元1265所获得的搜索信息。当需要显示已经获得的搜索信息时,可以参考存储在搜索信息聚积单元1253中的信息以显示该已经获得的搜索信息。
参考历史存储单元1255将在显示单元1247上显示的关键字或文章中的、信息处理装置1020的用户为了更详细的信息而参考的关键字存储作为参考历史。参考历史是这样的数据,该数据包括所参考的关键字、所参考关键字的权重信息、已经参考关键字的语音聊天自身的标识符、以及语音聊天的对应方。当关键字提取单元1263提取关键字时可以使用存储在参考历史存储单元1255中的参考历史。
信息搜索单元1265、关键字同步单元1245、和显示单元1247可以用专用于各种功能的专用硬件来构成,并且可以被设置为诸如话语识别程序之类的应用程序。
广播文本信息接收单元1261从外部显示设备1070获取关于外部显示设备1070当前正通过其来接收的广播频道的接收频道信息。这里,接收频道信息指的是表示下述广播频道的信息,其中,外部显示设备1070当前正通过该广播频道来进行接收。广播文本信息接收单元1261可以通过从外部显示设备1070获取接收频道信息来同步广播文本信息接收单元1261的接收广播频道与外部显示设备1070的接收广播频道。
广播文本信息接收单元1261基于所获得的接收频道信息直接从广播站1080接收与外部显示设备1070的接收广播频道相对应的广播电波。此时,广播文本信息接收单元1261可以被配置成直接接收从广播站1080发送而来的广播电波中的单波段广播电波,并从所接收的电波中获取文本信息。广播文本信息接收单元1261可以被配置成直接接收从广播站1080发送而来的全波段广播电波。
广播文本信息接收单元1261可以被配置成基于所获得的接收频道信息来接收外部显示设备1070所接收的并被从外部显示设备1070发送到信息处理装置1020的广播文本信息。
广播文本信息接收单元1261将所接收的广播文本信息输出到稍后将描述的关键字提取单元1263。广播文本信息接收单元1261可以将所接收的广播文本信息记录在存储单元1251中。
关键字提取单元1263基于关键字提取数据库1030从在广播文本信息接收单元1261所接收的广播文本信息中包含的字符串中提取关键字。
当关键字提取单元1263提取关键字时,关键字提取单元1263可以经由通信单元1249来参考与通信网络1012相连接的关键字提取数据库1030。
在表示广播文本信息的字符串中包含多个关键字。关键字提取单元1263自动地提取存在于该字符串中的所有关键字。关键字提取单元1263将所提取的关键字发送给信息搜索单元1265和外部显示设备连接控制单元1267(稍后将描述)。关键字提取单元1263可以将所提取的关键字存储在存储单元1251中。
信息搜索单元1265以关联方式将从关键字提取单元1263发送而来的关键字和这些关键字被从关键字提取单元1263发送的时间存储在存储单元1251中。信息搜索单元1265判断是否要对从关键字提取单元1263发送而来的关键字执行关键字同步处理。当判定关键字同步处理应当被执行时,信息搜索单元1265将这些关键字发送到关键字同步单元1245,从而请求执行关键字同步处理。信息搜索单元1265经由通信单元1249来访问搜索引擎1040,并执行对从关键字提取单元1263发送而来的关键字的信息搜索,从而获取针对这些关键字的搜索结果和与这些关键字相关的文章。信息搜索单元1265将所获得的搜索结果存储在存储单元1251的搜索搜索结果存储单元1253中,并将搜索结果发送到显示单元1247和外部显示设备连接控制单元1267(稍后将描述)。这里,信息搜索单元1265从搜索引擎1040获得的搜索结果包括关于搜索关键字的信息在搜索引擎1040中的标题或URL以及信息的元数据,例如信息的类型。
当显示单元1247或外部显示设备连接控制单1267请求获取关于特定关键字或与该关键字相关的文章的更详细的信息时,信息搜索单元1265经由通信单元1249来访问搜索引擎1040以获取更详细的信息,并将从显示单元1247或外部显示设备连接控制单元1267通知的特定关键字存储在存储单元1251的参考历史存储单元1255中。
外部显示设备连接控制单元1267执行信息处理装置1020和与信息处理装置1020相连接的外部显示设备1070之间的连接控制。外部显示设备连接控制单元1267将关键字提取单元1263所提取的关键字和信息搜索单元1265所获得的针对关键字的搜索结果发送到外部显示设备1070。当外部显示设备1070请求获取关于特定关键字和与该关键字相关的文章的更详细的信息时,外部显示设备连接控制单元1267可以将该请求发送到信息搜索单元1265。当信息搜索单元1265响应于该请求而从搜索引擎1040等获得更详细的信息时,外部显示设备连接控制单元1267将信息搜索单元1265所获得的更详细信息输出到外部显示设备1070。顺便提及,当将与各种信息相对应的数据发送到外部显示设备1070时,外部显示设备连接控制单元1267可以将有待发送的数据的格式转换成可以被外部显示设备1070显示的格式。
外部显示设备连接控制单元1267可以基于记录在参考历史存储单元1255中的内容向搜索引擎1040发送关于被选择的关键字的信息。搜索引擎1040可以在在搜索引擎1040内执行的各种处理中使用从外部显示设备连接控制单元1267发送而来的信息。
在上文中,已经描述了根据本实施例的信息处理装置1020的功能的示例。上述组件可以使用通用元件或电路来构成,或者可以用专用于各个组件的功能的专用硬件来构成。这些组件的全部功能可以利用CPU等来执行。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。
根据本实施例的信息处理装置1020还可以包括根据第三实施例的信息处理装置1020的话语识别单元或语音谈话控制单元。信息处理装置1020还可以包括存储关键字提取数据库1030的内容的数据库存储单元。在这种情况下,关键字提取数据库1030的内容可以被存储在设置在信息处理装置1020中的数据库存储单元中。因此,可以缩短信息处理装置1020访问关键字提取数据库1030所需的时间。其结果是,可以缩短信息处理装置1020执行关键字提取所需的时间。另外,通过周期性地更新数据库存储单元的内容,信息处理装置1020可以获取记录在关键字提取数据库1030中的更新后的数据库的内容。
(外部显示设备1070的配置)
接下来,将参考图39和40来详细描述根据本实施例的外部显示设备1070的配置。图39是用于说明根据第四实施例的外部显示设备的配置的框图。图40是示出根据第四实施例的外部显示设备的信息显示屏幕的示意图。
根据本实施例的外部显示设备1070的硬件包括诸如CRT、液晶显示面板、等离子显示面板或者EL面板之类的显示元件以及由CPU、ROM和RAM构成的并且在控制显示元件的驱动时使用的驱动控制电路。
如图39所示,本实施例的外部显示设备1070包括广播接收单元1701、连接端口控制单元1703、广播信息显示控制单元1705、关键字信息显示控制单元1707和显示单元1709。
广播接收单元1701接收从广播站1080发送而来的广播电波并将广播电波中包含的诸如广播文本信息、广播音频信息或视频信息之类的数据输出到连接端口控制单元1703和广播信息显示控制单元1705(稍后将描述)。广播接收单元1701可以被配置成将所接收的信息记录在设置在外部显示设备1070中的存储单元(未示出)中,或者存储在与外部显示设备1070相连接的外部附接存储单元(未示出)中。
连接端口控制单元1703控制能够与信息处理装置1020进行数字通信的诸如HDMI-CEC之类的连接端口。连接端口控制单元1703经由诸如HMDMI-CEC之类的连接端口将关于广播接收单元1701正通过其接收的广播频道的接收频道信息发送到信息处理装置1020。诸如广播文本信息、广播音频信息和视频信息之类的由广播接收单元1701接收的数据可以经由连接端口控制单元1703而被输出到信息处理装置1020。从信息处理装置1020发送而来的各种数据经由连接端口控制单元1703而被输入到外部显示设备1070。从信息处理装置1020发送而来的各种数据被发送到稍后将描述的关键字信息显示控制单元1707。
当在稍后将描述的显示单元1709上显示从广播接收单元1701发送而来的广播文本信息、广播音频信息和视频信息时,广播信息显示控制单元1705执行显示控制。
当在稍后将描述的显示单元1709上显示从信息处理装置1020发送而来的关键字信息时,关键字信息显示控制单元1707执行显示控制。这里,从信息处理装置1020发送而来的关键字信息指的是这样的信息,该信息包括信息处理装置1020所提取的关键字、针对所提取的关键字的搜索结果、以及与这些关键字相关的文章。在从显示单元1709接收到对关于外部显示设备1070的用户通过诸如鼠标、键盘或遥控器之类的输入设备而在显示单元1709上显示的信息中所选择的信息的更详细信息的获取请求之后,关键字信息显示控制单元1707经由连接端口控制单元1703将该更详细信息的获取请求发送到信息处理装置1020。
显示单元1709在外部显示设备1070的信息显示屏幕上显示由广播信息显示控制单元1705进行显示控制的广播文本信息、广播音频信息和视信息以及由关键字信息显示控制单元1707进行显示控制的关键字信息。
外部显示设备1070的信息显示屏幕1751通常包括图像显示区域1753,广播文本信息、广播音频信息和视频信息被显示在图像显示区域1753上。这里,当从信息处理装置1020发送而来关键字信息时,信息显示屏幕1751的显示区域被分割以生成关键字信息显示区域1755,关键字信息被显示在该关键字信息显示区域1755上。图像显示区域1753例如由广播信息显示控制单元1705来控制,并且关键字信息显示区域1755例如由关键字信息显示控制单元1707来控制。
关键字信息显示区域1755的细节基本上与根据本发明第三实施例的信息处理装置的搜索结果显示屏幕1050相同,并且将省略对它的详细描述。
在上文中,已经描述了根据本发明的外部显示设备1070的功能的示例。上述组件可以使用通用元件或电路来构成,或者可以利用专用于各个组件的功能的专用硬件来构成。这些组件的全部功能可以利用CPU等来执行。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。
(关键字提取方法)
接下来,将参考图41来详细描述由根据本实施例的信息处理装置1020执行的关键字提取方法的示例。图41是用于说明根据第四实施例的关键字提取方法的流程图。
首先,信息处理装置1020的广播文本信息接收单元1261基于从外部显示设备1070获得的接收频道信息而从外部显示设备1070或者广播站1080接收广播文本信息,从而获取广播字幕的字符串作为文本信息数据(步骤S1301)。广播文本信息接收单元1261将所获得的文本信息数据输出到关键字提取单元1263。
接下来,关键字提取单元1263对发送而来的文本信息数据应用形态分析以从字符串中提取字,并将所提取的字记录在信息处理装置1020的存储器上(步骤S1303)。
接下来,关键字提取单元1263使用与通信网络1012相连接的关键字提取数据库1030的信息或者关键字提取数据库1030的内容来搜索所提取的字(步骤S1305)。
随后,关键字提取单元1263判断所提取的字是否存在于关键字提取数据库1030中(步骤S1307)。当所提取的字存在于关键字提取数据库1030中时,关键字提取单元1263将存在的所提取字记录在存储器上作为广播关键字数据(步骤S1309)。当所提取字并不存在于关键字提取数据库1030中时,关键字提取单元1263执行稍后将描述的步骤S1311的处理。
接下来,关键字提取单元1263判断没有在关键字提取数据库1030中找到的所提取字是否存在于存储器上(步骤S1311)。当未找到的字存在于存储器上时,执行步骤S1305的处理。当未找到的字不存在于存储器中时,关键字提取单元1263将存在于存储器上的广播关键字数据输出作为所提取关键字(步骤S1313)。
通过使用上述方法,根据本实施例的信息处理装置1020可以从所接收的广播文本信息中提取关键字。
由根据本实施例的信息处理装置1020执行的关键字同步方法与由根据本发明第三实施例的信息处理装置1020执行的关键字同步方法基本相同,并且将省略对它的详细描述。
在根据本实施例的信息处理装置1020中,存在于关键字提取数据库1030中的字(关键字)被自动地从发送自广播站1080的广播文本信息中提取。因此,可以向外部显示设备1070显示所提取的关键字。通过使用这样的功能,使用信息处理装置1020或外部显示设备1070来执行诸如聊天之类的双向通信的用户可以使用所提取的关键字作为聊天的话题等。
(根据第四实施例的信息处理装置的第一修改示例)
接下来,将参考图42和43来详细描述根据本实施例的信息处理装置1020的第一修改示例。图42是用于说明根据本修改示例的信息处理装置1020的配置的框图。图43是用于说明根据本修改示例的关键字提取方法的流程图。根据本修改示例的信息处理装置1020的硬件配置与本发明第四实施例的硬件配置基本相同,并且将省略对它的详细描述。
如图42所示,根据本修改示例的信息处理装置1020包括关键字同步单元1245、显示单元1247、通信单元1249、存储单元1251、广播音频信息接收单元1269、信息搜索单元1265、外部显示设备连接控制单元1267、参数提取单元1271、和关键字提取单元1273。
根据本修改示例的关键字同步单元1245、显示单元1247、通信单元1249、存储单元1251、信息搜索单元1265和外部显示设备连接控制单元1267具有与根据第四实施例的关键字同步单元1245、显示单元1247、通信单元1249、存储单元1251、信息搜索单元1265和外部显示设备连接控制单元1267基本相同的配置,并提供基本相同的效果,并且将省略对它们的详细描述。
广播音频信息接收单元1269从外部显示设备1070获取关于外部显示设备1070当前正通过其接收的广播频道的接收频道信息。广播音频信息接收单元1269通过从外部显示设备1070获取接收频道信息可以同步广播音频信息接收单元1269的接收广播频道和外部显示设备1070的接收广播频道。
广播音频信息接收单元1269基于所获得的接收频道信息直接从广播站1080接收与外部显示设备1070的接收广播频道相对应的广播电波。此时,广播音频信息接收单元1269可以直接接收从广播站1080发送的广播电波中的单波段广播电波,并从所接收的电波中获取音频信息。广播音频信息接收单元1269可以被配置成直接接收从广播站1080发送的全波段广播电波。
广播音频信息接收单元1269可以被配置成基于所获得的接收频道信息来接收外部显示设备1070所接收的并且被从外部显示设备1070发送到信息处理装置1020的广播音频信息。
广播音频信息接收单元1269将所接收的广播音频信息输出到参数提取单元1271。广播音频信息接收单元1269可以将所接收的广播音频信息记录在存储单元1251中。
参数提取单元1271和关键字提取单元1273是根据本修改示例的信息处理装置1020的话语识别单元1233的处理单元。参数提取单元1271从所生成的语音数据的每一帧(以适当的时间间隔)中提取诸如Mel频率倒谱系数(MFCC)及其时差参数、语音数据的频谱、功率线性预测系数、倒谱系数、和线谱对之类的特征参数。
参数提取单元1271将所提取的特征参数发送给关键字提取单元1273。关键字提取单元1273可以将所提取的特征参数存储在稍后将描述的存储单元1251中。
关键字提取单元1273基于关键字提取数据库1030和由参数提取单元1271生成并提取的特征参数来从在广播音频信息中包含的语音数据中提取关键字。当关键字提取单元1273提取关键字时,关键字提取单元1273可以经由通信单元1249来参考与通信网络1012相连接的关键字提取数据库1030。
在包含在广播音频信息中的语音数据中一般包含多个关键字。关键字提取单元1273自动地提取存在于该语音数据中的所有关键字。关键字提取单元1273将所提取的关键字发送到信息搜索单元1265。关键字提取单元1273可以将所提取的关键字存储在存储单元1251中。
在上文中,已经描述了根据本修改示例的信息处理装置1020的功能的示例。上述组件可以使用通用元件或电路来构成,或者可以利用专用于各个组件的功能的专用硬件来构成。这些组件的全部功能可以利用CPU等来执行。因此,可以根据实施本实施例时的技术水平来适当地修改硬件配置。
根据本修改示例的信息处理装置1020还可以包括根据本发明第三实施例的信息处理装置1020的语音谈话控制单元。信息处理装置1020还可以包括存储关键字提取数据库1030的内容的数据库存储单元。在这种情况下,关键字提取数据库1030的内容可以被存储在设置在信息处理装置1020中的数据库存储单元中。因此可以缩短信息处理装置1020访问关键字提取数据库1030所需的时间。其结果是,可以缩短信息处理装置1020执行关键字提取所需的时间。
(关键字提取方法)
接下来,将参考图43来详细描述根据本修改示例的信息处理装置1020所执行的关键字提取方法的示例。
首先,信息处理装置1020的广播音频信息接收单元1269基于从外部显示设备1070获得的接收频道信息来从外部显示设备1070或广播站1080接收广播音频信息。参数提取单元1271和关键字提取单元1273对语音数据执行话语识别并确定话语识别的结果(步骤S1401)。
接下来,关键字提取单元1273对话语识别的结果应用形态分析,以从话语识别的结果中提取字,并将所提取的字存储在信息处理装置1020的存储器上(步骤S1403)。
接下来,关键字提取单元1273使用与通信网络1012相连接的关键字提取数据库1030的信息或者关键字提取数据库1030的内容来搜索所提取的字(步骤S1405)。
随后,关键字提取单元1273判断所提取字是否存在于关键字提取数据库1030中(步骤S1407)。当所提取字存在于关键字提取数据库1030中时,关键字提取单元1273将存在的所提取字记录在存储器上作为广播关键字数据(步骤S1409)。当所提取字并不存在于关键字提取数据库1030中时,关键字提取单元1273执行稍后将描述的步骤S1411的处理。
接下来,关键字提取单元1273判断没有在关键字提取数据库1030中找到的所提取字是否存在于存储器上(步骤S1411)。当未找到的字存在于存储器上时,执行步骤S1405的处理。当未找到的字不存在于存储器中时,关键字提取单元1273将存在于存储器上的广播关键字数据输出作为所提取关键字(步骤S1413)。
通过使用上述方法,根据本修改示例的信息处理装置1020可以从所接收的广播音频信息中提取关键字。
由根据本修改示例的信息处理装置1020执行的关键字同步方法与由根据本发明第三实施例的信息处理装置1020执行的关键字同步方法基本相同,并且将省略对它的详细描述。
在根据本修改示例的信息处理装置1020中,存在于关键字提取数据库1030中的字(关键字)被自动地从发送自广播站1080的广播音频信息中提取。因此,可以向外部显示设备1070显示所提取的关键字。通过使用这样的功能,使用信息处理装置1020或外部显示设备1070来执行诸如聊天之类的双向通信的用户可以使用所提取的关键字作为聊天的话题等。
本领域技术人员应当了解,在所附权利要求或其等同物的范围内,根据设计要求和其它因素可以进行各种修改、组合、子组合和变更。
例如,在上述实施例中,广播站1080发送地面数字广播。但是,广播站1080可以提供有线广播或者因特网广播。
在上述实施例中,图38示出了广播站1080通过地面数字广播来提供电视节目的情况。但是,利用可携式摄像机来提供的AV内容也可以,用户可以亲自使用该可携式摄像机来捕捉和再现图像。
在上述实施例中,两个信息处理装置执行语音聊天。但是,在根据本实施例的语音聊天系统中,可以在多个信息处理装置中执行语音聊天,并且可以在各个信息处理装置之间执行关键字同步。
如上所述,根据本发明的实施例,与语音聊天期间的会话内容相关的关键字被自动高效地同步。另外,在广播信息中包含的关键字被自动高效地同步。
本发明包含与2007年4月16日向日本专利局提交的日本专利申请JP2007-107319、2007年4月16日向日本专利局提交的日本专利申请JP2007-107324、2007年12月17日向日本专利局提交的日本专利申请JP2007-325274、以及2007年12月17日向日本专利局提交的日本专利申请JP 2007-325275相关的主题,这些申请的全部内容通过引用而结合于此。

Claims (41)

1.一种语音聊天系统,包括: 
执行语音聊天同时执行话语识别的多个信息处理装置;以及 
经由通信网络而与所述多个信息处理装置相连接的搜索服务器, 
其中,所述搜索服务器向至少一个所述信息处理装置公开搜索关键字列表,所述搜索关键字列表包含由所述搜索服务器搜索的搜索关键字,所述至少一个信息处理装置包括: 
识别字字典生成单元,该识别字字典生成单元从所述搜索服务器获取所述搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典; 
话语识别单元,该话语识别单元通过参考包含所述识别字字典的识别数据库来对从所述语音聊天期间的谈话对话中获得的语音数据执行话语识别; 
语音谈话控制单元,该语音谈话控制单元执行与至少一个信息处理装置之间的所述语音数据的通信控制;以及 
关键字检测单元,该关键字检测单元从所述话语识别的结果中检测与所述语音聊天期间的谈话内容相关的关键字。 
2.一种信息处理装置,该装置从搜索服务器获取搜索关键字列表并执行与其它信息处理装置的语音聊天,所述搜索关键字列表包含由所述搜索服务器搜索的搜索关键字,所述装置包括: 
识别字字典生成单元,该识别字字典生成单元从所述搜索服务器获取所述搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典; 
话语识别单元,该话语识别单元通过参考包含所述识别字字典的识别数据库来对从所述语音聊天期间的谈话对话中获得的语音数据执行话语识别; 
语音谈话控制单元,该语音谈话控制单元执行与所述其它信息处理装置之间的所述语音数据的通信控制;以及 
关键字检测单元,该关键字检测单元从所述话语识别的结果中检测与所述语音聊天期间的谈话内容相关的关键字。 
3.如权利要求2所述的信息处理装置,其中,所述识别字字典包括: 
固定字字典,在该固定字字典中预先登记了预定的字;和 
可变字字典,在该可变字字典中按需来更新所登记的字,并且 
其中,所述识别字字典生成单元从所述搜索服务器的包含较高等级的搜索关键字的所述搜索关键字列表中选择将被登记在所述可变字字典中的字,以生成所述可变字字典。 
4.如权利要求3所述的信息处理装置,其中,所述识别字字典生成单元基于由所述关键字检测单元检测得到的所述关键字的历史信息来确定所述信息处理装置的用户的偏好,并基于所述偏好来从所述搜索关键字列表中选择所述字。 
5.如权利要求3所述的信息处理装置,其中,所述识别字字典生成单元使用所述搜索服务器来搜索从所述搜索关键字列表中选择出来的所述字,并从通过所述搜索而获得的搜索结果中获取与所述字相关的次关键字,从而以与所述字相关联的方式来将所述次关键字登记在所述可变字字典中。 
6.如权利要求3所述的信息处理装置,其中,所述识别字字典生成单元基于搜索等级信息来对从所述搜索关键字列表中选择的各个字进行加权,其中,所述搜索等级信息是利用所属字被所述搜索服务器搜索的频率来确定的。 
7.如权利要求6所述的信息处理装置,其中,所述识别字字典生成单元基于由所述关键字检测单元检测到的所述关键字的历史信息来计算所述关键字的频率,并改变登记在所述可变字字典中且与所述关键字相对应的字的权重。 
8.一种信息处理装置,该装置从搜索服务器获取包含由所述搜索服务器搜索的搜索关键字的搜索关键字列表,从所述搜索关键字列表中选择字,从对所选择的字施加在话语识别时使用的权重信息的识别字字典生成设备获取被施加了权重信息的字,并与其它信息处理装置执行语音聊天,所述信息处理装置包括: 
话语识别单元,该话语识别单元通过参考包含从所述识别字字典生成设备获得的所述字的识别数据库来对从语音聊天期间的谈话对话中获得的语音数据执行话语识别; 
语音谈话控制单元,该语音谈话控制单元执行与所述其它信息处理装置之间的所述语音数据的通信控制;以及 
关键字检测单元,该关键字检测单元从所述话语识别的结果中检测与所述语音聊天期间的谈话内容相关的关键字。 
9.一种在信息处理装置中使用的话语识别方法,所述装置从搜索服务器获取包含由所述搜索服务器搜索的搜索关键字的搜索关键字列表并与其它信息处理装置执行语音聊天,所述方法包括以下步骤: 
从所述搜索服务器获取所述搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典; 
从所述语音聊天期间的谈话内容中获得语音数据; 
基于所述语音数据的声学特征来分析所述语音数据,并生成与所述谈话内容相对应的字序列候选;以及 
通过参考在所述话语识别时使用的包含所述识别字字典的识别数据库、基于在构成所述字序列的字之间的语言学串联特征来分析所生成的字序列候选,从而选择最合适的字序列。 
10.一种在信息处理装置中使用的话语识别方法,所述装置从搜索服务器获取包含由所述搜索服务器搜索的搜索关键字的搜索关键字列表、从所述搜索关键字列表中选择字、从对所选择的字施加在话语识别时使用的权重信息的识别字字典生成设备获取被施加了权重信息的字、并与其它信息处理装置执行语音聊天,所述方法包括以下步骤: 
从所述识别字字典生成设备获取被施加了所述权重信息的字,并将所述字存储在识别数据库中以在话语识别时使用; 
从所述语音聊天期间的谈话内容中获得语音数据; 
基于所述语音数据的声学特征来分析所述语音数据,并生成与所述谈话内容相对应的字序列候选;以及 
通过参考所述识别数据库、基于在构成所述字序列的字之间的语言学 串联特征来分析所生成的字序列候选,从而选择最合适的字序列。 
11.一种信息处理装置,包括:
识别字字典生成单元,该识别字字典生成单元从搜索服务器获取包含由所述搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在语言识别时使用的字的识别字字典;
广播文本信息接收单元,该广播文本信息接收单元接收从广播站发送而来的广播文本信息;
关键字检测单元,该关键字检测单元通过参考所述识别字字典来从所述广播文本信息中检测预定关键字;以及
外部显示设备连接控制单元,该外部显示设备连接控制单元执行与外部显示设备的连接控制并将从所述广播文本信息中检测到的所述关键字输出到所述外部显示设备。
12.如权利要求11所述的信息处理装置,其中,所述广播文本信息接收单元从与所述信息处理装置相连接的所述外部显示设备获取关于所述外部显示设备正通过其接收的广播频道的接收频道信息以及与所述广播频道相对应的广播文本信息。
13.如权利要求11所述的信息处理装置,其中,所述广播文本信息接收单元从与所述信息处理装置相连接的所述外部显示设备获取关于所述外部显示设备正通过其接收的广播频道的接收频道信息,并从所述广播站获取与所述广播频道相对应的广播文本信息。
14.如权利要求11所述的信息处理装置,其中,所述信息处理装置将所述关键字的参考历史存储在所述外部显示设备中,并且
其中,所述外部显示设备连接控制单元将所述外部显示设备所选择的关键字通知给所述搜索服务器。
15.一种信息处理装置,包括:
识别字字典生成单元,该识别字字典生成单元从搜索服务器获取包含由所述搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;
广播音频信息接收单元,该广播音频信息接收单元接收从广播站发送 而来的广播音频信息;
话语识别单元,该话语识别单元通过参考包含所述识别字字典的识别数据库来对所述广播音频信息执行话语识别;
关键字检测单元,该关键字检测单元从对所述广播音频信息的所述话语识别的结果中检测预定关键字;以及
外部显示设备连接控制单元,该外部显示设备连接控制单元执行与外部显示设备的连接控制并将从所述广播音频信息中检测到的所述关键字输出到所述外部显示设备。
16.如权利要求15所述的信息处理装置,其中,所述广播音频信息接收单元从与所述信息处理装置相连接的所述外部显示设备获取关于所述外部显示设备正通过其接收的广播频道的接收频道信息以及与所述广播频道相对应的广播音频信息。
17.如权利要求15所述的信息处理装置,其中,所述广播音频信息接收单元从与所述信息处理装置相连接的所述外部显示设备获取关于所述外部显示设备正通过其接收的广播频道的接收频道信息,并从所述广播站获取与所述广播频道相对应的广播音频信息。
18.如权利要求15所述的信息处理装置,其中,所述信息处理装置将所述关键字的参考历史存储在所述外部显示设备中,并且
其中,所述外部显示设备连接控制单元将所述外部显示设备所选择的关键字通知给所述搜索服务器。
19.一种关键字检测方法,包括以下步骤:
从搜索服务器获取包含由所述搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在语言识别时使用的字的识别字字典;
接收从广播站发送而来的广播文本信息;
通过参考所述识别字字典来从所述广播文本信息中检测预定关键字;以及
执行与外部显示设备的连接控制,并将从所述广播文本信息中检测到的所述关键字输出到所述外部显示设备。
20.一种关键字检测方法,包括以下步骤: 
从搜索服务器获取包含由所述搜索服务器搜索的搜索关键字的搜索关键字列表,以生成包含在话语识别时使用的字的识别字字典;
接收从广播站发送而来的广播音频信息;
通过参考包含所述识别字字典的识别数据库来对所述广播音频信息执行话语识别;
从对所述广播音频信息的所述话语识别的结果中检测预定关键字;以及
执行与外部显示设备的连接控制并将从所述广播音频信息中检测到的所述关键字输出到所述外部显示设备。
21.一种语音聊天系统,包括:
执行语音聊天的多个信息处理装置;
在从所述语音聊天期间的谈话对话中提取关键字时由所述信息处理装置参考的关键字提取数据库;以及
在使用所提取的关键字来搜索所述关键字以及与所述关键字相关的文章时由所述信息处理装置使用的搜索引擎,
其中,至少一个信息处理装置包括:
参数提取单元,该参数提取单元从根据所述对话来生成的语音数据中提取参数,所述参数表现了所述语音数据的特征;
关键字提取单元,该关键字提取单元识别所生成的语音数据,并基于所述参数和所述关键字提取数据库来从所述语音数据中提取所述关键字;
信息搜索单元,该信息搜索单元使用所述搜索引擎来搜索所提取的关键字,并获取关于所述关键字的信息和与所述关键字相关的文章;
显示单元,该显示单元显示所述关键字的表示以及与所述关键字相关的文章;以及
关键字同步单元,该关键字同步单元将所提取的关键字发送到作为所述聊天的对应方的信息处理装置,并执行与该对应方信息处理装置的关键字同步。
22.一种与其它信息处理装置执行语音聊天的信息处理装置,该装置包括: 
参数提取单元,该参数提取单元从根据所述语音聊天期间的谈话对话来生成的语音数据中提取参数,所述参数表现了所述语音数据的特征;
关键字提取单元,该关键字提取单元识别所生成的语音数据,并基于所述参数和关键字提取数据库来从所述语音数据中提取关键字;
信息搜索单元,该信息搜索单元使用搜索引擎来搜索所提取的关键字,并获取关于所述关键字的信息和与所述关键字相关的文章;以及
搜索信息聚积单元,该搜索信息聚积单元分别以与关于所述关键字的信息的地址信息和所述文章的地址信息相关联的方式来聚积所述关键字和所述文章。
23.如权利要求22所述的信息处理装置,还包括关键字同步单元,该关键字同步单元将所提取的关键字发送到作为所述聊天的对应方的信息处理装置,并执行与所述对应方信息处理装置的关键字同步。
24.如权利要求22所述的信息处理装置,还包括存储关键字提取数据库的数据库存储单元。
25.如权利要求22所述的信息处理装置,其中,所述搜索引擎被设置在所述信息处理装置中。
26.如权利要求22所述的信息处理装置,还包括显示单元,该显示单元显示所述关键字的表示以及与所述关键字相关的文章。
27.如权利要求22所述的信息处理装置,还包括参考历史存储单元,该参考历史存储单元存储所述关键字的参考历史。
28.如权利要求27所述的信息处理装置,其中,所述参考历史存储单元以与被赋予相应聊天和该聊天的对应方的标识符相关联的方式来存储所述被参考的关键字。
29.如权利要求27所述的信息处理装置,其中,所述关键字提取单元基于偏好来提取位于所述参考历史的较高等级的关键字。
30.如权利要求22所述的信息处理装置,其中,所述关键字提取单元基于偏好来提取所述搜索引擎的较高等级处搜索关键字。
31.一种与其它信息处理装置执行语音聊天的信息处理装置,至少一个所述信息处理装置包括:参数提取单元,该参数提取单元从根据所述语 音聊天期间的谈话对话来生成的语音数据中提取参数,所述参数表现了所述语音数据的特征;关键字提取单元,该关键字提取单元识别所生成的语音数据,并基于所述参数和关键字提取数据库来从所述语音数据中提取关键字;信息搜索单元,该信息搜索单元使用搜索引擎来搜索所提取的关键字,并获取关于所述关键字的信息和与所述关键字相关的文章;以及搜索信息聚积单元,该搜索信息聚积单元分别以与关于所述关键字的信息的地址信息和所述文章的地址信息相关联的方式来聚积所述关键字和所述文章,
其中,所述信息处理装置包括关键字同步单元,该关键字同步单元接收从所述至少一个信息处理装置发送而来的所述关键字,并执行与相应的信息处理装置的关键字同步。
32.一种信息处理装置,包括:
广播文本信息接收单元,该广播文本信息接收单元接收从广播站发送而来的广播文本信息;
关键字提取单元,该关键字提取单元基于关键字提取数据库来从所述广播文本信息中提取关键字;
信息搜索单元,该信息搜索单元使用搜索引擎来搜索所提取的关键字,并获取与所述关键字相关的文章;以及
外部显示设备连接控制单元,该外部显示设备连接控制单元执行与外部显示设备的连接控制,并将所述关键字、针对所述关键字的搜索结果、以及与所述关键字相关的文章输出到所述外部显示设备。
33.如权利要求32所述的信息处理装置,其中,所述广播文本信息接收单元从与所述信息处理装置相连接的所述外部显示设备获取关于所述外部显示设备正通过其接收的广播频道的接收频道信息以及与所述广播频道相对应的广播文本信息。
34.如权利要求32所述的信息处理装置,其中所述广播文本信息接收单元从与所述信息处理装置相连接的所述外部显示设备获取关于所述外部显示设备正通过其接收的广播频道的接收频道信息,并从所述广播站获取与所述广播频道相对应的广播文本信息。 
35.如权利要求32所述的信息处理装置,还包括参考历史存储单元,该参考历史存储单元将所述关键字的参考历史存储在所述外部显示设备中,
其中,所述外部显示设备连接控制单元将所述外部显示设备所选择的关键字通知给所述搜索引擎。
36.如权利要求32所述的信息处理装置,还包括关键字同步单元,该关键字同步单元将所提取的关键字发送到至少一个信息处理装置,并执行与所述至少一个信息处理装置的关键字同步。
37.一种信息处理装置,包括:
广播音频信息接收单元,该广播音频信息接收单元接收从广播站发送而来的广播音频信息;
参数提取单元,该参数提取单元从包含在所述广播音频信息中的语音数据中提取参数,所述参数表现了所述语音数据的特征;
关键字提取单元,该关键字提取单元识别所述语音数据并基于所述参数和关键字提取数据库来从所述语音数据中提取关键字;
信息搜索单元,该信息搜索单元使用搜索引擎来搜索所提取的关键字,并获取关于所述关键字的信息和与所述关键字相关的文章;以及
外部显示设备连接控制单元,该外部显示设备连接控制单元执行与外部显示设备的连接控制,并将所述关键字、关于所述关键字的信息、以及与所述关键字相关的文章输出到所述外部显示设备。
38.如权利要求37所述的信息处理装置,其中,所述广播音频信息接收单元从与所述信息处理装置相连接的所述外部显示设备获取关于所述外部显示设备正通过其接收的广播频道的接收频道信息以及与所述广播频道相对应的广播音频信息。
39.如权利要求37所述的信息处理装置,其中所述广播音频信息接收单元从与所述信息处理装置相连接的所述外部显示设备获取关于所述外部显示设备正通过其接收的广播频道的接收频道信息,并从所述广播站获取与所述广播频道相对应的广播音频信息。
40.如权利要求37所述的信息处理装置,还包括参考历史存储单 元,该参考历史存储单元将所述关键字的参考历史存储在所述外部显示设备中,
其中,所述外部显示设备连接控制单元将所述外部显示设备所选择的关键字通知给所述搜索引擎。
41.如权利要求37所述的信息处理装置,还包括关键字同步单元,该关键字同步单元将所提取的关键字发送到至少一个信息处理装置,并执行与所述至少一个信息处理装置的关键字同步。 
CN2008100904833A 2007-04-16 2008-04-16 语音聊天系统、信息处理装置、话语识别和关键字检测 Active CN101309327B (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2007107324 2007-04-16
JP2007-107319 2007-04-16
JP2007-107324 2007-04-16
JP2007107319 2007-04-16
JP2007325274A JP4987682B2 (ja) 2007-04-16 2007-12-17 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP2007-325275 2007-12-17
JP2007-325274 2007-12-17
JP2007325275A JP5042799B2 (ja) 2007-04-16 2007-12-17 音声チャットシステム、情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
CN101309327A CN101309327A (zh) 2008-11-19
CN101309327B true CN101309327B (zh) 2012-09-19

Family

ID=40125536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100904833A Active CN101309327B (zh) 2007-04-16 2008-04-16 语音聊天系统、信息处理装置、话语识别和关键字检测

Country Status (2)

Country Link
JP (1) JP5042799B2 (zh)
CN (1) CN101309327B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022595A (zh) * 2015-07-01 2015-11-04 苏州奥莱维信息技术有限公司 一种语音打印方法

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2012153982A2 (en) * 2011-05-09 2012-11-15 Samsung Electronics Co., Ltd. Method and system for managing telephony services in a universal plug and play home network environment
KR101872033B1 (ko) * 2011-12-29 2018-06-29 주식회사 알티캐스트 단말장치 및 단말장치의 제어 방법과 이에 관한 기록매체
JP5965175B2 (ja) * 2012-03-27 2016-08-03 ヤフー株式会社 応答生成装置、応答生成方法および応答生成プログラム
CN102722539A (zh) * 2012-05-23 2012-10-10 华为技术有限公司 一种基于语音识别的查询方法及装置
CN103076893B (zh) 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
KR102013612B1 (ko) * 2013-01-03 2019-08-23 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
CN103474063B (zh) * 2013-08-06 2015-12-23 福建华映显示科技有限公司 语音辨识系统以及方法
JP5940038B2 (ja) * 2013-10-18 2016-06-29 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、及びプログラム
US20150309984A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc. Learning language models from scratch based on crowd-sourced user text input
KR101870849B1 (ko) * 2014-07-02 2018-06-25 후아웨이 테크놀러지 컴퍼니 리미티드 정보 전송 방법 및 전송 장치
JP6305538B2 (ja) * 2014-07-10 2018-04-04 株式会社東芝 電子機器及び方法及びプログラム
WO2016013503A1 (ja) * 2014-07-23 2016-01-28 三菱電機株式会社 音声認識装置及び音声認識方法
KR20160059162A (ko) * 2014-11-18 2016-05-26 삼성전자주식회사 방송 수신 장치 및 그 제어 방법
US20160164815A1 (en) * 2014-12-08 2016-06-09 Samsung Electronics Co., Ltd. Terminal device and data processing method thereof
CN107346318B (zh) * 2016-05-06 2021-01-12 腾讯科技(深圳)有限公司 提取语音内容的方法及装置
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
EP3883265A1 (en) * 2016-12-27 2021-09-22 GN Hearing A/S Sound signal modelling based on recorded object sound
WO2018163321A1 (ja) * 2017-03-08 2018-09-13 マクセル株式会社 情報処理装置および情報提供方法
CN108733739B (zh) * 2017-04-25 2021-09-07 上海寒武纪信息科技有限公司 支持集束搜索的运算装置和方法
JP6611091B2 (ja) * 2017-05-11 2019-11-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CA3075249A1 (en) * 2017-09-15 2019-03-21 Sony Corporation Information processing apparatus and information processing method
US10304454B2 (en) * 2017-09-18 2019-05-28 GM Global Technology Operations LLC Persistent training and pronunciation improvements through radio broadcast
CN107566980B (zh) * 2017-10-27 2020-10-23 深圳市鹏京科技有限公司 一种移动终端的定位方法和移动终端
JP2019128374A (ja) * 2018-01-22 2019-08-01 トヨタ自動車株式会社 情報処理装置、及び情報処理方法
US11145303B2 (en) 2018-03-29 2021-10-12 Samsung Electronics Co., Ltd. Electronic device for speech recognition and control method thereof
CN110717012A (zh) * 2018-07-11 2020-01-21 上海谦问万答吧云计算科技有限公司 语术推荐方法、装置、设备和存储介质
KR20200030789A (ko) * 2018-09-13 2020-03-23 삼성전자주식회사 음성 인식 방법 및 장치
CN110970021B (zh) * 2018-09-30 2022-03-08 航天信息股份有限公司 一种问答控制方法、装置及系统
US20220093104A1 (en) * 2019-02-06 2022-03-24 Google Llc Voice Query QoS Based On Client-Computed Content Metadata
CN109976702A (zh) * 2019-03-20 2019-07-05 青岛海信电器股份有限公司 一种语音识别方法、装置及终端
CN110110044B (zh) * 2019-04-11 2020-05-05 广州探迹科技有限公司 一种企业信息组合筛选的方法
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
CN111176618B (zh) * 2019-12-10 2023-09-01 武汉学子明灯科技有限责任公司 一种语音唤醒开发程序的方法及系统
CN111161730B (zh) * 2019-12-27 2022-10-04 中国联合网络通信集团有限公司 语音指令匹配方法、装置、设备及存储介质
JP7532920B2 (ja) 2020-06-09 2024-08-14 大日本印刷株式会社 関連情報配信装置、プログラム、コンテンツ配信システム及びコンテンツ出力端末
CN112417095B (zh) * 2020-11-17 2024-09-17 维沃软件技术有限公司 语音消息处理方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731804A (zh) * 2005-08-23 2006-02-08 黄保国 一种电话语音搜索的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3526101B2 (ja) * 1995-03-14 2004-05-10 株式会社リコー 音声認識装置
JP2001184289A (ja) * 1999-12-27 2001-07-06 Js Corporation:Kk チャットシステム、及びそれを含むインターネット上の情報提供システム
JP2002297645A (ja) * 2001-03-30 2002-10-11 Minolta Co Ltd インターネット情報検索端末
JP2003186494A (ja) * 2001-12-17 2003-07-04 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
JP2006319456A (ja) * 2005-05-10 2006-11-24 Ntt Communications Kk キーワード提供システム及びプログラム
JP2007079745A (ja) * 2005-09-12 2007-03-29 Sharp Corp ネットワーク接続装置、サーバ装置、端末装置、システム、受信方法、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731804A (zh) * 2005-08-23 2006-02-08 黄保国 一种电话语音搜索的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022595A (zh) * 2015-07-01 2015-11-04 苏州奥莱维信息技术有限公司 一种语音打印方法
CN105022595B (zh) * 2015-07-01 2018-03-23 苏州奥莱维信息技术有限公司 一种语音打印方法

Also Published As

Publication number Publication date
JP2008287697A (ja) 2008-11-27
JP5042799B2 (ja) 2012-10-03
CN101309327A (zh) 2008-11-19

Similar Documents

Publication Publication Date Title
CN101309327B (zh) 语音聊天系统、信息处理装置、话语识别和关键字检测
US8620658B2 (en) Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US10410627B2 (en) Automatic language model update
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
Makhoul et al. Speech and language technologies for audio indexing and retrieval
JP4987203B2 (ja) 分散型リアルタイム音声認識装置
KR102241972B1 (ko) 환경 콘텍스트를 이용한 질문 답변
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
US11016968B1 (en) Mutation architecture for contextual data aggregator
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
US20130166303A1 (en) Accessing media data using metadata repository
EP1709625A1 (en) Method and system for determining the topic of a conversation and obtaining and presenting related content
Poignant et al. Unsupervised speaker identification in TV broadcast based on written names
WO2019049089A1 (en) METHOD, SYSTEM AND APPARATUS FOR SEARCHING MULTILINGUAL AND MULTIMODAL KEYWORDS IN A MULTILINGUAL ORAL CORPUS
JP2003036093A (ja) 音声入力検索システム
US20120041947A1 (en) Search apparatus, search method, and program
CN110136721A (zh) 一种评分生成方法、装置、存储介质及电子设备
KR101410601B1 (ko) 유머 발화를 이용하는 음성 대화 시스템 및 그 방법
Sanabria et al. Talk, don't write: A study of direct speech-based image retrieval
Dinarelli et al. Discriminative reranking for spoken language understanding
US10417345B1 (en) Providing customer service agents with customer-personalized result of spoken language intent
CN102970618A (zh) 基于音节识别的视频点播方法
Mestre et al. Augmenting pre-trained language models with audio feature embedding for argumentation mining in political debates
CN103548015B (zh) 索引用于文件检索的文件的方法及装置
Milde et al. Ambient search: A document retrieval system for speech streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant