CN101889281B - 内容检索装置及内容检索方法 - Google Patents

内容检索装置及内容检索方法 Download PDF

Info

Publication number
CN101889281B
CN101889281B CN2009801012516A CN200980101251A CN101889281B CN 101889281 B CN101889281 B CN 101889281B CN 2009801012516 A CN2009801012516 A CN 2009801012516A CN 200980101251 A CN200980101251 A CN 200980101251A CN 101889281 B CN101889281 B CN 101889281B
Authority
CN
China
Prior art keywords
content
key word
mentioned
association area
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009801012516A
Other languages
English (en)
Other versions
CN101889281A (zh
Inventor
高田和豊
续木贵史
松浦聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101889281A publication Critical patent/CN101889281A/zh
Application granted granted Critical
Publication of CN101889281B publication Critical patent/CN101889281B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • Y10S707/914Video

Abstract

提供一种能够将适合于时事性的关联关键字高效率地提示给用户的内容检索装置。内容检索装置(100)利用关联关键字从内容数据库中检索规定内容,具备:关联区间计算部(106),根据由表示内容数据库(101)所存储的第1内容的数据的多个第1关键字和表示内容数据库(101)所存储的第2内容的数据的多个第2关键字计算出的各内容属性的差异度是否满足规定基准值,按内容属性计算设定为使第1内容和第2内容包含在同一时间区间中的关联区间;以及词典更新部(107),使用按内容属性计算出的关键字间的关联度和上述关联区间,更新存储在词典数据库(102)中的关联度。

Description

内容检索装置及内容检索方法
技术领域
本发明涉及用来从大量存储的内容之中检索用户想要使用的内容的内容检索装置。 
背景技术
作为从存储在服务器等中的大量内容之中检索想要的内容的方法,提出了多种从检索装置侧提示多个关联关键字的方法。这里,所谓关联关键字,是指与用户确定的单词(关键字)有关联的单词(关键字)。此外,一般根据关键字间的同现数、出现频度等计算表示相互关联的关键字间的关联程度的关联度。 
这样的检索装置与存储了内容的内容数据库的数据更新同时更新用来提示关联关键字的关键字间的关联(例如参照专利文献1)。因而,该检索装置对用户提示基于存储在内容数据库中的最新内容的关联关键字。 
但是,用户由指定的关键字想起的关联关键字根据用户不同而分别不同。例如,仅视听了“男演员A”出演的最近播放的电视剧的用户作为关联关键字而想起在该电视剧中出演的“女演员B”。另一方面,仅视听了“男演员A”出演的于1年前播放的电视剧的用户作为关联关键字而想起在该电视剧中出演的“女演员C”。这样,在用户个人的知识不同的情况下,用户对于“男演员A”想起的关联关键字有可能为不同的关键字。即,在检索装置仅提示了根据最新的内容生成的关联关键字的情况下,根据用户不同,被提示了不能想起的关联关键字。结果,有用户不能进行关键字的选择、不能缩减内容的问题。 
所以,以往为了解决这样的问题,提出了将存储在内容数据库中的所有的内容通过固定时间的时间区间分类的方法(例如参照专利文献2)。由此,利用专利文献2的方法的检索装置可以按时间区间构建关键字间的关联。结果,该检索装置能够对用户按多个时间区间提示根据不同的时间区 间的关联生成的关联关键字。例如,该检索装置作为与“男演员A”关联的关键字,可以将在对应于今年1年间的内容中关联强的“女演员B”和在对应于去年1年间的内容中关联强的“女演员C”同时提示给用户。这样,通过检索装置提示多个时间区间中的关联关键字,用户能够选择适合于自己的知识的关联关键字。即,用户能够有效地进行通过重复关联关键字的选择进行的内容的缩减。 
[专利文献1]日本特开2007-188225号公报 
[专利文献2]日本特开2002-183175号公报 
但是,在利用专利文献2的方法的以往的检索装置中,由于利用固定时间的时间区间将存储在内容数据库中的所有的内容分类,所以有不能提示与各内容的关键字结构的变化对应的关联关键字的问题。 
一般,在内容数据库中存储有属性(类型)不同的多个内容的情况下,内容的关键字结构较大地变化的频度根据属性不同而大为不同。例如,在电视节目的情况下,新闻节目在较短的时间间隔中关键字结构较大地变化,而电视剧节目仅一季度一次关键字结构较大地变化。 
这样,在内容数据库之中包含有关键字结构较大变化的频度不同的属性的内容的情况下,如果以往的检索装置决定固定时间以使其适合于关键字结构较大变化的频度较低的内容,则检索装置不能提示适合于各属性的关键字结构较大变化的频度的具有时事性的关联关键字。例如,假设在关键字结构较大变化的频度较高的“新闻类型”的内容中,对于关键字“话题”,关联度较高的关键字在特定的期间中以“国会”→“足球”→“台风”的顺序变化。在此情况下,以往的检索装置匹配于关键字结构较大变化的频度较低的“电视剧类型”的内容而决定上述确定的期间包含在1个时间区间中的固定时间。结果,从“国会”、“足球”及“台风”之中,将对于“话题”关联度最高的关键字作为关联关键字提示。即,有可能有对于“话题”不是提示作为最适合于时事性的关联关键字的“台风”而是提示“国会”或“足球”的情况。 
另一方面,如果以往的检索装置决定固定时间以使其适合于关键字结构较大变化的频度较高的内容,则检索装置在多个时间区间中提示相同的关联关键字。例如,在以往的检索装置匹配于关键字结构较大变化的频度 较高的“新闻类型”的内容决定了固定时间的情况下,检索装置在关键字结构较大变化的频度较低的“电视剧类型”的内容中,在多个时间区间中提示相同的关联关键字。由于检索装置能够对用户一次提示的关键字的数量存在限制,所以提示多个相同的关键字会造成使用户的选择分支的范围变窄。结果,在用户选择关键字时,产生多余的检索步骤的可能性变高。即,在以往的检索装置中,用户不能有效地检索内容。 
发明内容
所以,本发明的目的是解决上述问题,提供一种能够将适合于时事性的关联关键字高效率地提示给用户的内容检索装置。 
为了达到上述目的,有关本发明的内容检索装置,利用与表示内容的数据的关键字关联的关联关键字,从按表示内容的分类的内容属性存储内容的内容数据库中检索规定的内容,其特征在于,具备:词典数据库,按表示规定的时间区间的关联区间,存储表示是包含在上述关联区间中的内容且属于由上述内容属性表示的分类的内容的数据的多个关键字间的关联度;关联区间计算机构,根据通过表示存储在上述内容数据库中的第1内容的数据的多个第1关键字和表示存储在上述内容数据库中的第2内容的数据的多个第2关键字计算出的每个上述内容属性的差异度是否满足规定基准值,按上述内容属性计算设定为使上述第1内容和上述第2内容包含在同一时间区间中的关联区间;词典更新机构,在包含于由上述关联区间计算机构计算出的关联区间中的内容中,使用按上述内容属性计算出的关键字间的关联度、以及上述关联区间,更新存储在上述词典数据库中的关联度;以及输出生成机构,根据存储在上述词典数据库中的关联度,生成用来将与用户输入的关键字关联的关联关键字按上述关联区间输出的输出信息。 
由此,在从混合存储有关键字结构变化的频度不同的属性的内容的内容数据库中检索内容的情况下,内容检索装置通过根据按内容属性计算出的关联区间更新词典数据库,由此能够将适合于时事性的关联关键字高效率地提示给用户。 
具体而言,在关键字结构较大变化的频度较高的属性的内容的情况下, 内容检索装置更新词典数据库以成为比其他属性短的时间的关联区间,所以能够将适合于时事性的关键字提示给用户。另一方面,在关键字结构较大变化的频度较低的属性的内容的情况下,内容检索装置更新词典数据库以成为比其他属性长的时间的关联区间,所以不会在多个关联区间中提示同一个关键字,即能够高效率地提示关键字。 
进而,在从存储有关键字结构非周期性变化的属性的内容的内容数据库中检索内容的情况下,内容检索装置通过根据按照内容关键字结构的变化计算出的关联区间来更新词典数据库,能够将适合于时事性的关联关键字高效率地提示给用户。 
具体而言,在关键字结构以较短的周期变化时,内容检索装置更新词典数据库以成为比其他短的时间的关联区间,所以能够将适合于时事性的关键字提示给用户。另一方面,在关键字结构以较长的周期变化时,内容检索装置更新词典数据库以成为比其他长的时间的关联区间,所以不会在多个关联区间中提示同一个关键字,即能够高效率地提示关键字。 
此外,也可以其特征在于,上述关联区间计算机构在将包含在存储于上述词典数据库中的最新的关联区间中的内容作为上述第2内容,计算关联区间。 
由此,在将新的时间区间的内容追加到内容数据库中的情况下,根据新的时间区间与在上次更新时计算出的关联区间的关键字结构的差异度决定新的关联区间,所以能够将适合于时事性的关联关键字高效率地提示给用户。 
此外,也可以其特征在于,上述关联区间计算机构根据上述第1关键字中的出现频度较高的规定的数量的关键字与上述第2关键字中的出现频度较高的规定的数量的关键字的差异度是否满足规定基准值,计算关联区间。 
由此,在将新的时间区间的内容追加到内容数据库中的情况下,不论包含在新的时间区间与上次更新内容时计算出的关联区间中的关键字数量的差异如何,都能够计算差异度。 
此外,也可以其特征在于,上述关联区间计算机构将对应于上次新添加在上述内容数据库中的内容的时间区间中的、预先设定的长度的时间的 时间区间中包含的内容作为上述第2内容,计算关联区间。 
由此,在将新的时间区间的内容追加到内容数据库中的情况下,与在上次更新内容时计算出的关联区间无关,内容检索装置能够计算存储在内容数据库中的最新的内容与新追加的内容的关键字结构的差异性。因而,内容检索装置能够提示更适合于时事性的关键字。 
此外,也可以其特征在于,上述内容检索装置还具备:属性取得机构,取得与用户输入的关键字关联的内容属性;以及关联关键字取得机构,通过参照上述词典数据库,按关联区间取得对应于上述用户输入的关键字和通过上述属性取得机构取得的内容属性的关联关键字;上述输出生成机构生成用来输出由上述关联关键字取得机构取得的关联关键字的上述输出信息。 
由此,能够从用户输入的关键字中取得内容属性,所以内容检索装置能够提示适合于用户的输入的关联关键字。 
此外,也可以其特征在于,上述关联关键字取得机构在由上述属性取得机构取得了多个内容属性的情况下,对于上述多个内容属性分别生成关联关键字;上述输出生成机构生成用来将对上述多个内容属性分别生成的关联关键字按内容属性、按关联区间输出的输出信息。 
由此,能够将多个内容属性的关联关键字同时提示给用户,所以内容检索装置能够提高能够提示用户要求的关联关键字的可能性。 
发明效果 
根据本发明,在从存储有关键字结构较大变化的频度不同的内容属性的内容的内容数据库中检索想要的内容时,能够高效率地提示适合于时事性的关联关键字。 
附图说明
图1是表示有关本发明的实施方式的内容检索装置的功能结构的模块图。 
图2是表示内容数据库的一例的图。 
图3是关联语词典的概念图。 
图4是表示关联语词典的一例的图。 
图5是表示内容检索装置的处理的流程的流程图。 
图6是表示关联区间计算部进行的关于关联区间计算的处理(图5所示的步骤S106)的流程的流程图。 
图7是表示关联区间计算部进行的关于变化率的计算的处理(图6所示的步骤S204)的流程的流程图。 
图8是表示初始检索画面的一例的图。 
图9是表示检索画面的一例的图。 
图10是表示检索画面的一例的图。 
图11(a)、图11(b)及图11(c)是用来说明关联区间计算方法的图。 
图12(a)及图12(b)是用来说明关联区间计算方法的图。 
图13是多个属性的关联关键字的提示画面的一例。 
图14(a)是由有关现有技术的内容检索装置输出的关联关键字的提示画面的一例。图14(b)是由有关本发明的实施方式的内容检索装置输出的关联关键字的提示画面的一例。 
图15是有关本发明的变形例1的内容数据库更新部进行的生成内容属性的处理的概念图。 
图16是用来说有关本发明的变形例1的内容数据库更新部进行的生成内容属性的处理的图。 
图17是表示有关本发明的变形例2的关联区间计算部进行的关于关联区间计算的处理(图5所示的步骤S106)的流程的流程图。 
图18是表示本发明的变形例2的文件矩阵的一例的图。 
图19是用来说明本发明的变形例2的取得文件矩阵的处理的图。 
符号说明 
20  内容ID 
21  内容属性 
22  标题 
23  播放日 
24  关键字 
25  概要 
31、32  区间词典 
41   内容属性 
42   关联区间 
43   关键字 
44   关联关键字 
45   关联度 
70   内容列表 
71   关联关键字列表 
100  内容检索装置 
101  内容数据库 
102  词典数据库 
102a 关联语词典 
103  输入部 
104  输入选别部 
105  内容数据库更新部 
106  关联区间计算部 
107  词典更新部 
108  属性取得部 
109  关联关键字取得部 
110  输出生成部 
111  输出部 
121、122、123、124、125、126  时间区间 
1001  上次更新区间 
1002、1102  追加区间 
1003、1004  新关联区间 
1101  上次内容更新区间 
1103  关键字比较区间 
具体实施方式
以下,利用附图对本发明的实施方式的内容检索装置详细地说明。 
(实施方式) 
图1是表示有关本发明的实施方式的内容检索装置100的结构图。如图1所示,内容检索装置100具备内容数据库101、词典数据库102、输入部103、输入选别部104、内容数据库更新部105、关联区间计算部106、词典更新部107、属性取得部108、关联关键字取得部109、输出生成部110、以及输出部111。 
以下,对于图1所示的内容检索装置100的各结构的详细情况依次说明。 
内容数据库101是存储作为检索对象的活动图像、图像、音乐、文本等内容、以及表示该内容的数据的内容附属信息的数据库。这里,所谓内容附属信息,是指关键字、内容属性等表示内容的数据的信息。另外,所谓内容属性,是指用来将内容分类的目录信息。例如,在有关电视节目的内容的情况下,记载在EPG(电子节目指南:Electronic Program Guide)中的“类别”为内容属性。 
在图2中表示存储在内容数据库中的内容附属信息的一例。内容数据库101除了活动图像等内容以外,还存储包括图2所示那样的内容ID20、内容属性21、标题22、播放日23、关键字24、概要25的内容附属信息。播放日23是表示关于内容的时间的信息的时间信息的一例。这里,所谓时间信息,是表示关于内容的时间的信息。另外,时间信息并不必须是播放日,也可以是内容被登录到内容数据库101中的日期时间等。关键字24是表示内容的数据的单词(关键字)。例如,在关键字24中,存储有预先附属于EPG的关键字。此外,在关键字24中,也可以存储通过对标题22或概要25执行形态要素解析等而提取的关键字。 
词典数据库102是存储了内容数据库101所存储的关键字间的关联度等的数据库。具体而言,词典数据库102存储关联语词典102a,该关联语词典102a按用来将内容分类的内容属性、以及按表示规定的时间区间的关联区间,记述了作为由时间信息表示的时间包含在该关联区间中的内容且属于由内容属性表示的分类的内容所对应的多个关键字间的关联度。该关联语词典102a能够在内容属性内及内容属性间,使用时间的长度不同的关联区间存储关键字间的关联度。另外,所谓关联区间,是指用来计算关键字间的关联度的时间区间。 
在图3中表示在内容数据库101中存在“新闻”、“体育”、“综艺”以及“趣味·教养”这4个内容属性的内容的情况下的关联语词典102a的概念图。如图3所示,关联语词典102a被分类为4个内容属性。并且,在各内容属性内,如区间词典31(N1)、区间词典32(N2)等那样,存储有关联区间的时间的长度不同的区间词典。此外,各关联区间按各内容属性(“新闻”、“体育”、“综艺”以及“趣味·教养”)而时间的长度不同。 
在图4中,表示存储在词典数据库102中的关联语词典102a的一例。如图4所示,在关联语词典102a中,包括内容属性41、内容区间42、关键字43、关联关键字44、关联度45。例如,在内容属性41是“新闻”的情况下,与关联区间42为“2007/9/10~2007/9/12”的关键字43“新闻”有关联的关联关键字44“秋”的关联度45是“0.94”。通过参照图4所示那样的关联语词典102a,关联关键字取得部109能够取得对应于用户选择的关键字的关联关键字。 
图1所示的输入部103接受关于用户的操作输入及内容数据库的更新的信息,将接受到的信息通知给输入选别部104。 
输入选别部104对从输入部103接受到的信息是表示“关键字选择”、“内容选择”、以及“内容数据库更新”的哪种处理的信息进行选别。关于选别方法在后面叙述。 
内容数据库更新部105在输入选别部104将从输入部103接受到的信息选别为“内容数据库更新”的情况下,更新存储在内容数据库101中的内容及内容附属信息。 
另外,内容数据库更新部105将内容服务器分发的所有取得对象数据复制到内容数据库101中。即,将更新以前保持的数据先全部删除,新进行覆盖。 
例如,在将本发明用于电视广播的试听预约用途的情况下,根据电视广播的数据库特性(没有播放日以前的数据),仅将更新日期时间以后的数据储存到设备侧的内容数据库101中。另一方面,在VOD(视频点播:Videoon Demand)那样的蓄积型内容的情况下,在将内容从作为取得对象的内容服务器删除时,从设备侧的内容数据库101中也将内容删除。 
关联区间计算部106在内容数据库更新部105更新了内容数据库101 的情况下,通过参照内容数据库101及词典数据库102,按内容属性计算新的关联区间。具体而言,关联区间计算部106按内容属性,计算表示新存储到内容数据库101中的内容(第1内容)的数据的多个关键字(第1关键字)、与表示已经存储在内容数据库101中的内容(第2内容)的数据的多个关键字(第2关键字)之间的差异度。并且,关联区间计算部106根据计算出的第1关键字与第2关键字的差异度是否满足规定基准值,计算新的关联区间。即,关联区间计算部106计算新的关联区间,以使得第1关键字与第2关键字的差异度越小则第1内容与第2内容越包含在相同的时间区间中。另外,关联区间的详细的计算方法在后面叙述。 
词典更新部107在包含在关联区间计算部106计算出的新的关联区间中的内容中,计算关键字间的关联度。并且,词典更新部107将计算出的新的关联区间的关联度与关键字及关联关键字一起登录到关联语词典102a中。另外,关键字间的关联度根据单词的同现度(两个单词相互出现在同一内容中的程度)计算。因而,在同一内容之中,越是同时出现的次数多的关键字的组合,关联度的值越大。例如,词典更新部107利用记载在非专利文献《用于根据在文件中出现的单词间的关联性的联想检索的元数据空间生成方式》(本间秀典等,第16次数据工学研究会(DEWS2005),6A-o2,电子信息通信学会,2005)中的方法等计算关键字间的关联度。 
属性取得部108在输入选别部104将从输入部103接受到的信息选别为“关键字选择”的情况下,取得用户在输入部103中选择的关键字的内容属性。内容属性的判断方法在后面叙述。 
关联关键字取得部109通过参照关联语词典102a,取得属性取得部108所取得的内容属性、以及对应于用户在输入部103中选择的关键字的关联关键字及关联度。 
输出生成部110在输入选别部104将从输入部103接受到的信息选别为“关键字选择”的情况下,生成用来将由关联关键字取得部109取得的关联关键字按关联区间对应于关联度显示的输出信息。例如,输出生成部110生成用来从关联度高的关联关键字开始依次显示的输出信息。此外,例如输出生成部110也可以生成关联度越高的关联关键字用越大的字符显示的输出信息。此外,输出生成部110在输入选别部104将从输入部103接 受到的信息选别为“内容选择”的情况下,生成用来表示对应于用户在输入部103中输入的信息的节目等内容的输出信息。 
输出部111将输出生成部110生成的输出信息向输出媒体输出。作为输出媒体,例如使用电视机等监视器。 
接着,对以上那样构成的内容检索装置100的动作进行说明。 
图5是表示图1的内容检索装置100执行的整体处理的流程的流程图。 
首先,输入部103接受来自用户的操作输入,将接受到的信息通知给输入选别部104(步骤S101)。接着,输入选别部104对从输入部103通知的信息是表示“关键字选择”、“内容选择”及“内容数据库更新”的哪种处理的信息(步骤S102)进行选别。 
这里,在输入选别部104将从输入部103接受到的信息选别为“关键字选择”的情况下(步骤S103的是),属性取得部108取得用户在输入部103中选择的关键字及关键字的内容属性(步骤S108)。接着,关联关键字取得部109根据所取得的内容属性和关联语词典102a,取得关联关键字(步骤S109)。接着,输出生成部110生成用来将所取得的关联关键字输出的输出信息(步骤S110)。最后,输出部111将输出生成部110生成的输出信息输出给输出媒体(步骤S111),结束处理。 
另一方面,在输入选别部104没有将从输入部103接受到的信息选别为“关键字选择”的情况下(步骤S103的否),输入选别部104判断是否将从输入部103接受到的信息选别为“数据库更新”(步骤S104)。 
这里,在输入选别部104将从输入部103接受到的信息选别为“数据库更新”的情况下(步骤S104的是),内容数据库更新部105将内容数据库101更新(步骤S105)。接着,关联区间计算部106计算设定在关联语词典102a中的关联区间(步骤S106)。另外,步骤S106的详细的处理流程在后面叙述。并且,根据计算出的关联区间,词典更新部107将关联语词典102a更新(步骤S107),结束处理。 
另一方面,在输入选别部104没有将从输入部103接受到的信息选别为“数据库更新”的情况下(步骤S104的否),即在选别为“内容选择”的情况下,输出生成部110生成用来显示对应于用户在输入部103中输入的信息的节目的输出信息(步骤S110)。接着,输出部111将输出生成部 110生成的输出信息输出给输出媒体(步骤S111),结束处理。 
图6是表示关联区间计算部106进行的关于关联区间计算的处理(图5所示的步骤S106)的流程的流程图。 
首先,关联区间计算部106按内容属性取得在关联语词典102a中上次更新的关联区间(以下称作上次更新区间)(步骤S201)。接着,关联区间计算部106按内容属性制作作为取得的上次更新区间的关键字的一览的关键字列表(步骤S202)。另外,上次更新区间的关键字对应于表示存储在内容数据库101中的第2内容的数据的多个第2关键字。接着,关联区间计算部106按内容属性取得作为新追加到内容数据库101中的内容的关键字的一览的关键字列表(步骤S203)。另外,新追加的内容的关键字对应于表示存储在内容数据库101中的第1内容的数据的多个第1关键字。 
接着,关联区间计算部106将在步骤S202中制作的关键字列表与在步骤S203中制作的关键字列表比较,计算关键字结构的变化率(步骤S204)。另外,关键字结构的变化率是差异度的一例。 
这里,在计算出的变化率超过规定的阈值的情况下(步骤S205的是),关联区间计算部106计算对应于新追加到内容数据库101中的内容的时间区间作为新的关联区间(步骤S206)。即,关联区间计算部106计算对应于第1内容的时间区间作为新的关联区间。另外,所谓对应于内容的时间区间,表示包含该内容的时间信息表示的时间的时间区间。例如,在将2007年9月10日及11日播放的内容新追加到内容数据库101中的情况下,对应于内容的时间区间是2007年9月10日~11日。 
另一方面,在计算出的变化率是规定的阈值以下的情况下(步骤S205的否),关联区间计算部106计算将上次更新区间与对应于新追加到内容数据库101中的内容的时间区间相加后的时间区间作为新的关联区间(步骤S207)。即,关联区间计算部106计算包含对应于第1内容的时间区间和包含对应于第2内容的时间区间的时间区间作为新的关联区间。在这样通过关联区间计算部106计算关联区间之后,执行图5所示的步骤S107的处理。 
图7是表示关联区间计算部106进行的关于变化率的计算的处理(图6所示的步骤S204)的流程的流程图。 
首先,关联区间计算部106从在步骤S203中制作的追加内容的关键字 列表中,取得还没有执行以下的处理(步骤S302~S308)的关键字(新关键字候选)(步骤S301)。进而,关联区间计算部106从在步骤S202中制作的上次更新区间的关键字列表中取得还没有执行以下的处理(步骤S303~S305)的关键字(比较关键字)(步骤S302)。 
接着,关联区间计算部106判断在步骤S301及步骤S302中取得的新关键字候选与比较关键字是否部分一致(步骤S303)。另外,所谓部分一致,是指在4字符以上的关键字中、8成(80%)以上的字符数的字符一致。 
这里,在新关键字候选与比较关键字部分一致的情况下(步骤S303的是),关联区间计算部106将新关键字候选判断为不是新关键字(步骤S308)。另一方面,在新关键字候选与比较关键字没有部分一致的情况下(步骤S303的否),关联区间计算部106判断新关键字候选与比较关键字是否是近义词一致(步骤S304)。另外,所谓近义词一致,是指新关键字候选的近义词与比较关键字一致。 
这里,在新关键字候选与比较关键字为近义词一致的情况下(步骤S304的是),关联区间计算部106将新关键字候选判断为不是新关键字(步骤S308)。另一方面,在新关键字候选不与比较关键字为近义词一致的情况下(步骤S304的否),关联区间计算部106判断新关键字候选与比较关键字是否为记述变动一致(步骤S305)。另外,所谓记述变动一致,是指将新关键字候选使用平假名、片假名、汉字或罗马字替换后的关键字与比较关键字一致。 
这里,在新关键字候选与比较关键字候选为表述差异一致的情况下(步骤S305的是),关联区间计算部106将新关键字候选判断为不是新关键字(步骤S308)。另一方面,在新关键字候选与比较关键字不为记述变动一致的情况下(步骤S305的否),关联区间计算部106判断是否已取得了包含在上次更新区间的关键字列表中的所有的关键字(步骤S306)。 
这里,在没有取得包含在上次更新区间的关键字列表中的所有关键字的情况下(步骤S306的否),再次从步骤S302的关键字的取得开始重复处理。另一方面,在取得了包含在上次更新区间的关键字列表中的所有关键字的情况下(步骤S306的是),关联区间计算部106将新关键字候选判断为是新关键字(步骤S307)。 
接着,关联区间计算部106判断是否已取得了包含在追加内容的关键字列表中的所有的关键字(步骤S309)。这里,在没有取得包含在追加内容的关键字列表中的所有关键字的情况下(步骤S309的否),再次从步骤S301的关键字的取得开始重复处理。另一方面,在取得了包含在追加内容的关键字列表中的所有的关键字的情况下(步骤S309的是),关联区间计算部106通过将在步骤S307中判断为是新关键字的关键字的数量用包含在上次更新区间的关键字列表中的关键字的数量除,由此计算变化率(步骤S310)。 
在这样通过关联区间计算部106计算出关联区间之后,执行图5所示的步骤S107的处理。 
接着,利用图8~图10对内容检索装置100输出的画面进行说明。图8~图10是表示用户想要从可视听的电视节目之中视听与新闻节目关联的节目的情况下的、内容检索所输出的画面的转变的图。 
在检索开始时,内容检索装置100对用户提示图8所示的初始检索画面。在该初始检索画面之中提示的初始检索关键字例如是“体育”、“记录片”等表示类别的关键字。用户在想要从提示的关键字之中观看新闻节目的情况下,从初始检索关键字之中选择“新闻”。 
图9是在用户选择了初始检索关键字之后、内容检索装置100提示的检索画面。在该检索画面中,分别提示关于所选择的关键字(新闻)的内容列表70及关联关键字列表71。另外,在关联关键字列表71中,按关联区间,以关联度从高到低的顺序提示关联关键字。 
用户在该检索画面中有想要观看的内容的情况下,从内容列表70之中选择内容。另一方面,用户在该检索画面中没有想要观看的内容的情况下,从关联关键字列表71之中选择与想要观看的内容关联的关键字。 
在图9所示的检索画面中,在用户从内容列表70之中选择了内容的情况下,内容检索装置100显示所选择的内容,结束检索处理。另一方面,在用户从关联关键字列表71之中选择了任意的关联关键字的情况下,内容检索装置100根据所选择的关键字,再次提示显示有内容列表和关联关键字的画面。例如,在图9所示的检索画面中,在用户从关联关键字列表71之中选择了国会72的情况下,如图10所示,内容检索装置100按关联区 间提示关于“国会”的内容和与“国会”关联的关键字。 
以上,用户一边反复进行系统提示的关联关键字的选择,一边检索自己想要观看的内容。 
接着,利用图8~图10所示的画面,对图5及图6所示的内容检索装置100的处理更具体地说明。 
在图5的步骤S101中,输入部103接受用户向系统的输入信息。具体而言,用户在图8的初始检索画面中选择的“新闻”、在图9的检索画面中选择的“国会”等关键字成为输入信息。此外,用户从图9所示的内容列表70选择的内容也成为输入信息。进而,虽然没有图示,但在用户选择了内容数据库更新的情况下,该选择也成为输入信息。 
另外,在本实施方式中,在有用户的输入的情况下,内容检索装置100将内容数据库101更新,但也可以是内容检索装置100在任意的时间更新内容数据库101。此外,也可以是,如果与内容检索装置100不同的其他装置对内容检索装置请求内容数据库101的更新,则内容检索装置100将内容数据库101更新。在这样的情况下,向内容数据库101的新内容的输入成为输入信息。 
在图5的步骤S102中,输入选别部104将从步骤S101接受到的输入信息选别为“关键字选择”、“内容选择”及“内容数据库更新”的某个。具体而言,例如在图9的检索画面中、用户从关联关键字列表71之中选择了某个关键字的情况下选别为“关键字选择”。此外,例如在图9的检索画面中、用户从内容列表70之中选择了某个内容的情况下选别为“内容选择”。此外,例如虽然没有图示、但在用户选择了内容数据库的更新的情况下选别为“内容数据库更新”。 
在图5的步骤S103中,输入选别部104判断步骤S 102中的选别是否是“关键字选择”。这里,在输入选别部104判断从输入部103接受到的信息是“关键字选择”的情况下,输入选别部104将对应的选择关键字向属性取得部108传递。并且,处理向步骤S108前进。另一方面,在输入选别部104没有将从输入部103接受到的信息判断为“关键字选择”的情况下,处理向步骤S104前进。具体而言,例如在用户在图8的初始检索画面中选择了关键字“新闻”的情况下,或者用户在图9的检索画面中选择了关键 字“国会”的情况下,输入选别部104都选别为“关键字选择”。并且,输入选别部104将关键字“新闻”或“国会”向属性取得部108传递。并且,处理前进到步骤S108。 
在图5的步骤S104中,输入选别部104判断步骤S102中的选别是否是“内容数据库更新”。这里,在输入选别部104将从输入部103接受到的信息判断为“内容数据库更新”的情况下,处理向步骤S105前进。另一方面,在输入选别部104将从输入部103接受到的信息判断为不是“内容数据库更新”的情况下,即在输入选别部104在步骤S102中将从输入部103接受到的信息选别为“内容选择”的情况下,输入选别部104从内容数据库101中取得对应于用户选择的内容的内容ID。接着,输入选别部104将取得的内容ID向输出生成部110传递。然后,处理向步骤S 109前进。例如,在图10的检索画面中用户选择了“周日记录片”的节目的情况下,输入选别部104从内容数据库101取得对应于所选择的节目的内容ID,将所取得的内容ID向输出生成部110传递。然后,处理向步骤S110前进。另一方面,在用户没有选择节目的情况下,即在选择了内容数据库更新的情况下,输入选别部104将更新数据向内容数据库更新部105传递。接着,处理向步骤S105前进。 
在图5的步骤S105中,内容数据库更新部105将通过步骤S104的处理取得的更新数据追加到内容数据库101中。 
在图5的步骤S106中,关联区间计算部106根据在步骤S 105中内容数据库更新部105新追加到内容数据库101中的更新数据计算关联区间。 
这里,以下详细叙述步骤S106中的处理。 
在图6的步骤S201中,关联区间计算部106按“新闻”及“体育”等内容属性取得包含在关联语词典102a中的上次更新的关联区间。具体而言,关联区间计算部106从存储在图4所示的关联语词典102a中的数据之中,按内容属性取得最新的关联区间42。另外,如图11(a)所示,将这里取得的关联区间设为上次更新区间1001(tn-2~tn-1)。 
接着,在图6的步骤S202中,关联区间计算部106按内容属性制作包含于在步骤S201中取得的关联区间中的内容的关键字列表。具体而言,例如关联区间计算部106参照图4所示的关联语词典102a并按内容属性取得 对应于上次更新区间1001的关键字43即可。 
接着,在图6的步骤S203中,关联区间计算部106按内容属性制作对应于在图5的步骤S104中取得的更新数据的关键字列表。 
如上所述,通过图6的步骤S201~S203的处理,按内容属性,制作上次更新区间中的关键字列表和对应于此次新更新的内容的关键字列表。 
接着,在图6的步骤S204中,关联区间计算部106将在步骤S202中制作的关键字列表与在步骤S203中制作的关键字列表比较,计算关键字结构的变化率。这里,所谓关键字结构的变化率,是差异度的一例。具体而言,是以此次新更新的内容的关键字中的、没有包含在有关上次更新区间1001中的关键字列表中的的关键字的数量为分子、以包含在有关上次更新区间1001中的关键字列表中的关键字的数量为分母来计算的值。例如,在从在步骤S203中制作的此次新更新的内容得到的关键字列表中的、没有包含在上次更新区间1001的关键字列表中的新的关键字的数量是40个、包含在上次更新区间1001的关键字列表中的关键字的数量是200个的情况下,关键字结构的变化率为0.2。另外,新的关键字的数量根据图7所示的处理计算。 
接着,在图6的步骤S205中,关联区间计算部106判断在步骤S204中取得的关键字结构的变化率是否超过规定的阈值。在图6的步骤S205中判断为变化率是规定的阈值以上的情况下,在图6的步骤S206中,关联区间计算部106仅计算对应于新追加的内容的时间区间作为新的关联区间。 
另一方面,在图6的步骤S205中判断变化率低于规定的阈值的情况下,在图6的步骤S206中,关联区间计算部106计算将上次更新的区间与对应于此次新更新的内容的时间区间相加后的时间区间作为新的关联区间。 
具体而言,在将对应于此次新更新的内容的时间区间设为追加区间1002(tn-1~tn)的情况下,关联区间计算部106在关键字结构的变化率是阈值以上时,如图11(b)所示,计算与追加区间1002相同的新关联区间1003(tn-1~tn)作为新的关联区间,当变化率低于阈值时,如图11(c)所示,计算将上次更新区间1001与追加区间1002相加后的新关联区间1004(tn-2~tn)作为新的关联区间。 
另外,一般关键字结构的变化率变大的频度根据内容属性不同而大为 不同。例如,由于“新闻”等时事性较高的内容每天提供新的话题,所以关键字结构的变化率变大的时间间隔变短。另一方面,“综艺”及“体育”等内容与“新闻”相比,关键字结构的变化率变大的时间间隔变长。这是因为体育内容按季节较大地变化这一点、综艺内容每3个月一次进行节目改编这一点等。如果关键字结构变化,则关键字间的关联度也变化。因而,为了提示具有时事性的关键字,内容检索装置100优选地使用根据关键字结构的变化来变更关联区间的关联语词典102a,从而生成关联关键字。如上所述,由于关联区间计算部106能够根据各属性的关键字结构的变化率计算关联区间,所以内容检索装置100能够提示具有时事性的关键字。 
通过进行以上的图6所示的步骤S201~S207的处理,在图5的步骤S106中,关联区间计算部106能够计算对应于新追加到内容数据库101中的内容的关联语词典102a的关联区间。 
另外,在上述图6的步骤S204的说明中,关于包含在两个比较的关键字列表中的关键字的数量并没有特别规定,但也可以仅将出现频度高的规定数量的关键字作为对象来计算变化率。具体而言,关联区间计算部106将在步骤S202中制作的关键字列表中出现频度从高开始的n个关键字、与在步骤S203中制作的关键字列表中出现频度从高开始的n个关键字比较,计算关键字结构的变化率。例如,在步骤S203中制作的关键字列表之中出现频度从高开始的100个关键字中的、没有包含在上次更新区间的关键字列表中出现频度从高开始的100个关键字中的新的关键字的数量是40个的情况下,关键字结构的变化率为0.4。 
此外,在上述图6的步骤S201中,关联区间计算部106取得了关联语词典102a的最新的关联区间作为上次更新区间,但也可以将对应于在内容数据库101中上次更新的内容的时间区间中包含的、规定长度的时间区间设为上次更新区间。具体而言,在图12(a)所示那样的情况下,关联区间计算部106取得图12(b)所示的关键字比较区间1103(tn-2~tn-1)。即,在对应于在内容数据库101中上次更新的内容的时间区间即上次内容更新区间1101(tn-3~tn-1)是最小时间单位的2倍的长度的时间区间的情况下,关联区间计算部106从上次内容更新区间中的接近于追加区间1102一方取得最小时间单位量的时间区间。 
最小时间单位中的变化率的比较可以设定对应于关键字关联度的细微变化的关联区间。由此,例如在内容的数据变化的频度整体上较高的博客(blog)等的内容的检索中,内容检索装置能够总是将新的关联关键字提示给用户。 
接着,在图5的步骤S107中,词典更新部107根据在步骤S105中计算出的关联区间,更新关联语词典。词典制作方法如图1中说明那样的。 
在图5的步骤S108中,属性取得部108判断在步骤S103中取得的关键字的内容属性。并且,属性取得部108将关键字和判断的内容属性向关联关键字取得部109传递。然后,处理向步骤S109前进。作为内容属性的判断的具体例,在图8的初始检索画面中提示的关键字是与内容属性共通的关键字的情况下,属性取得部108只要将用户在初始检索画面中选择的关键字判断为内容属性就可以。此外,在图8所示的初始检索画面中选择了“新闻”的情况下,在图9所示的检索画面中,将用户选择的关联关键字的内容属性判断为“新闻”。这成为将最先选择的“体育”的内容属性的内容缩减的检索,在缩减检索的情况下是有效的。 
在图5的步骤S109中,关联关键字取得部109通过参照词典数据库102,取得对应于在步骤S103中取得的关键字和在步骤S108中取得的关键字属性的关联关键字。并且,关联关键字取得部109将所取得的关联关键字向输出生成部110传递。然后,处理向步骤S110前进。具体而言,例如在用户在图8的初始检索画面中选择“新闻”、接着在图9的检索画面中选择了“国会”的情况下,属性取得部108将关键字属性判断为“新闻”。并且,关联关键字取得部109通过参照图4所示的关联语词典102a,从对应于内容属性“新闻”和关键字“国会”的关联关键字之中,取得关联度45的值高的关键字。例如,关联关键字取得部109在2007年9月10日至12日的关联区间中,取得关键字“首相演说”、“政治”及“年金”。 
在图5的步骤S110中,输出生成部110在步骤S109中取得了关联关键字的情况下,使用所取得的关联关键字和内容数据库101,生成例如用来输出图9所示那样的检索画面的输出信息。另一方面,在步骤S104中取得了内容ID的情况下,输出生成部110使用所取得的内容ID和内容数据库101生成用来显示内容的输出信息。 
在图5的步骤S111中,输出部111将在步骤S110中生成的输出信息输出给监视器等。 
通过执行以上的步骤S101~步骤S111的处理,内容检索装置100能够参照关联区间按内容属性不同而不同的关联语词典102a,所以能够将按内容属性不同而不同的适合于时事性的关联关键字提示给用户。 
另外,在图5的步骤S108中,属性取得部108也可以使用与在上述中说明的方法不同的方法取得内容属性。例如,属性取得部108也可以取得存在所取得的关键字的内容属性中的、关键字的出现频度高的多个内容属性。例如,在关键字“国会”存在于“新闻”及“综艺”的两个内容属性中的情况下,在各内容属性之中,在关键字“国会”的出现频度的位次是规定阈值以上的时候,也可以取得两个内容属性作为关键字属性。在图13中表示此情况下输出的画面的一例。如图13所示,输出部111将对于关键字“国会”的关联关键字,对“新闻”及“综艺”的各内容属性分别输出。因而,用户能够按内容属性选择关联关键字。因此,内容检索装置100能够避免用户不想要的关联关键字的提示(例如用户想要综艺的关联关键字,但提示了新闻的关联关键字等)的情况发生。结果,内容检索装置100能够削减用户的检索的返回操作数。 
在图14中表示将由本实施方式的内容检索装置输出的关联关键字、以及使用专利文献2所述的现有技术的固定区间输出的关联关键字并列输出的情况下的输出例。 
图14(a)是由有关现有技术的内容检索装置输出的关联关键字的提示画面的一例。如图所示,各关联关键字按将2007年8月13日~9月12日的数据以10天划分的时间区间121、122、123生成。 
图14(b)是由有关本实施方式的内容检索装置100输出的关联关键字的提示画面的一例。如图所示,各关联关键字在根据各属性的关键字结构的变化率计算的时间区间124、125、126中生成。 
在制作关联关键字的时间区间相对于数据的内容变化的频度较短的情况下(例如关键字结构在20天中没有变化的情况下),如图14(a)的时间区间121及时间区间122所示的“选举”等那样,内容检索装置在多个时间区间中输出相同的关键字。这样的将多个相同的关键字输出到相同的画 面中造成用户的选择分支的范围变窄。结果,在用户想要选择其他关键字的情况下,产生多余的检索步骤的可能性变高。 
另一方面,有关本实施方式的内容检索装置100决定以下时间区间,该时间区间生成对应于各内容属性的关键字结构的变化的关联关键字。因而,内容检索装置100能够使对不同的时间区间输出多个相同的关键字的可能性变低。即,如图14(b)的时间区间124所示,关键字结构的变化较小的时间区间为1个时间区间124。结果,在时间区间124中提示的关键字和在与时间区间124相邻的时间区间125中提示的关键字为不同的关键字。 
此外,在制作关联关键字的时间区间相对于数据的内容变化的频度较长的情况下(例如在关键字结构的变化每5天发生的情况下),跨关键字结构变化的期间的前后关联度高的关键字被优先地提示。因而,内容检索装置不能提示适合于时事性的关键字。即,如图14(a)的时间区间123所示,与关键字结构变化后的适合于时事性的关键字“首相演说”相比,在关键字结构变化前关联度较高的关键字“美国”被在高位提示。在此情况下也与上述同样,在用户想要选择其他关键字的情况下,检索步骤数增加的可能性变高。 
相对于此,有关本实施方式的内容检索装置100根据关联关键字结构的变化率,按内容属性变更生成关联关键字的时间区间。因此,内容检索装置100能够提示适合于时事性的关联关键字。即,如图14(b)的时间区间125以及时间区间126所示,内容检索装置100能够以关键字结构较大变化的2007年9月10日为边界变更时间区间,所以在最新的时间区间126中,能够提示适合于时事性的关键字“首相演说”。 
如上所述,本实施方式的内容检索装置根据对应于新追加的内容与已经存储的内容之间的关键字结构的差异度的关联区间,更新用来生成关联关键字的关联语词典,所以能够将适合于时事性的关联关键字高效率地提示给用户。由此,用户在从包含了时事性不同的多个内容属性的内容的内容数据库中检索内容的情况下,通过反复进行关联关键字的选择,能够以对话的方式缩减内容。 
(变形例1) 
接着,利用附图对上述实施方式的变形例1进行说明。 
有关本变形例的内容检索装置在内容数据库更新部105生成内容属性21这一点上与图1所示的有关实施方式的内容检索装置100不同。 
以下,对有关本变形例的内容数据库更新部105进行的关于内容属性21的生成的处理进行说明。 
有关本变形例的内容数据库更新部105通过将存储在内容数据库101中的内容聚类,生成“群集标签”作为内容属性21。并且,内容数据库更新部105将生成的内容属性21登录到内容数据库101中。通过这样内容数据库更新部105进行聚类,内容检索装置例如可以如体育类的节目集合的群集(内容集合)或电影类的节目集合的群集等那样将节目内容接近的内容彼此分类到相同的组中。即,“群集标签”是与EPG的“类型”同样的信息,为内容属性21的一例。另外,关于内容数据库更新部105执行的聚类的具体方法,使用例如在非专利文献2《信息检索和语言处理》(德永健伸,东京大学出版会,pp.60~65,1999))中记载的再配置法即可。 
图15表示内容数据库更新部105生成群集标签作为内容属性21的处理的概念图。如图15所示,内容数据库更新部105通过使用包含在存储于内容数据库101中的内容附属信息中的关键字等进行聚类,生成多个群集。并且,内容数据库更新部105生成对应于所生成的群集的群集标签。例如,内容数据库更新部105对群集赋予随机生成的群集标签(CL1、CL2、CL3及CL4)。由此,成为对存储在内容数据库101中的所有的内容ID生成某个群集标签。并且,内容数据库更新部105将生成的群集标签作为内容属性21登录到内容数据库101中。 
通过以上的处理,内容数据库更新部105能够自动地登录相当于EPG的“类型”的内容属性21。因此,有关本变形例的内容检索装置即使是没有预先登录内容属性的内容数据库101也能够输出关联关键字。 
另外,内容数据库更新部105每当数据库更新时对新存储到内容数据库101中的更新数据生成群集标签。此时,如图16所示,有可能通过对应于更新数据的群集标签(CL21、CL22及CL23)和对于已经存储在内容数据库101中的更新前的数据的群集标签(CL11、CL12及CL13)中对相同的群集赋予了不同的群集标签。例如,对于更新前的体育类的群集赋予了群集标签“CL11”,而对于更新数据的体育类的群集赋予了群集标签 “CL22”。即,对于相同内容的群集没有赋予相同的标签。在这样的情况下,内容数据库更新部105首先计算更新数据的各群集与更新前的数据的各群集的类似度。接着,内容数据库更新部105制作类似度高的群集之间的对。然后,内容数据库更新部105在制作成的对中,将更新前的群集标签作为更新数据的群集标签赋予。另外,关于类似度,通过例如使用各群集间的余弦尺度或内积的方法(非专利文献3《信息检索算法》,北研二等,共立出版,pp.60~63,2002)中记载的方法计算即可。由此,例如如能够将上述例子的群集标签“CL22”向“CL11”变换那样,内容数据库更新部105能够在更新前后对内容接近的群集赋予相同的群集标签。 
(变形例2) 
接着,利用附图对上述实施方式的变形例2进行说明。 
有关本变形例的内容检索装置中,由关联区间计算部106执行的处理的内容与有关实施方式的内容检索装置100不同。在内容间关键字的数量大为不同的内容数据库101中计算关联区间的情况下,计算出的关联区间被关键字数较大的内容较大地影响。所以,有关本变形例的关联区间计算部106在图5所示的步骤S106中,利用已经存储在内容数据库101中的更新前的内容与新追加到内容数据库101中的追加内容的文件空间的类似度计算关联区间。 
以下,对有关本变形例的关联区间计算部106进行的关于关联区间的计算的处理进行说明。 
图17是表示关联区间计算部106进行的关于关联区间计算的处理(图5所示的步骤S106)的流程的流程图。在图17中,对于与图6相同的步骤赋予相同的标号,省略详细的说明。 
首先,关联区间计算部106按内容属性取得上次更新区间(步骤S201)。 
接着,关联区间计算部106对于各内容属性制作所取得的上次更新区间的内容的文件矩阵(步骤S1701)。即,关联区间计算部106利用表示已经存储在内容数据库中的第2内容的数据的多个第2关键字,按内容属性制作文件矩阵。以下,将制作出的文件矩阵称作文件矩阵组A。这里,所谓的文件矩阵,如图18所示,是表示各内容的关键字的频度信息(出现频度,tf-idf等)的矩阵。 
接着,关联区间计算部106对于各内容属性制作新追加到内容数据库101中的内容的文件矩阵(步骤S1702)。即关联区间计算部106利用表示新存储到内容数据库中的第1内容的数据的多个第1关键字,按内容属性制作文件矩阵。以下,将制作出的文件矩阵称作文件矩阵组B。 
接着,关联区间计算部106从文件矩阵组A及B之中分别取得相同的内容属性的文件矩阵(步骤S1703)。以下,将从文件矩阵组A及B中分别取得的各文件矩阵称作文件矩阵A1及B1。在图19中表示在步骤S1703中取得的文件矩阵A1、B1的一例。如图所示,在文件矩阵组A及B中,分别包含有“体育”及“电影”的内容属性的文件矩阵。所以,在步骤S1703中,通过从文件矩阵组A及B中分别选择内容属性是“体育”的文件矩阵,取得对应于内容属性“体育”的文件矩阵A1及B1。 
接着,关联区间计算部106利用文件矩阵A1及B1计算各文件矩阵的类似度(步骤S1704)。关联区间计算部106例如计算矩阵B1的各文件矢量相对于文件矩阵A1的余弦距离,对于文件矩阵B1的所有的文件数,计算包含余弦距离是阈值以上的文件的比例作为类似度。 
这里,在计算出的类似度比规定的阈值小的情况下(步骤S1705的是),关联区间计算部106计算对应于新追加到内容数据库101中的内容(第1内容)的时间区间作为新的关联区间(步骤S206)。另一方面,在计算出的类似度是规定的阈值以上的情况下(步骤S1705的否),关联区间计算部106计算将对应于新追加到内容数据库101中的内容的时间区间与上次更新区间相加后的时间区间作为新的关联区间(步骤S207)。即,关联区间计算部106计算将对应于第1内容的时间区间与对应于第2内容的时间区间相加后的时间区间作为新的关联区间。 
接着,关联区间计算部106判断在步骤S1703中是否已选择了存储在内容数据库101中的所有的内容属性(步骤S1706)。这里,在没有选择所有的内容属性的情况下(步骤S1706的否),回到步骤S1703的处理。另一方面,在选择了所有的内容属性的情况下(步骤S 1706的是),执行图5所示的步骤S107的处理。 
通过进行以上的步骤S201、步骤S206、步骤S207及步骤S1701~S1706的处理,关联区间计算部106能够计算对应于以内容为单位的类似度的关 联区间。由此,即使在内容间关键字的数量大为不同的内容数据库101中计算关联区间的情况下,在关联区间的计算中也能够降低关键字数量较大的内容的影响,所以能够防止关联区间的误计算。 
另外,关联区间计算部106也可以在步骤S106中根据更新前的内容与追加内容的内容标题的差异度是否满足规定的基准值来计算关联区间。具体而言,关联区间计算部106计算上次更新区间的内容的标题与新追加的内容的标题的一致率。并且,在一致率是阈值以上的情况下,关联区间计算部106计算将上次更新区间与对应于新追加到内容数据库101中的内容的时间区间相加后的时间区间作为新的关联区间。另一方面,在一致率比阈值小的情况下,关联区间计算部106计算对应于新追加到内容数据库101中的内容的时间区间作为新的关联区间。由此,在相同标题的情况下,在存储有内容的数据类似的内容的内容数据库101中,关联区间计算部106能够大幅减少用来计算关联区间的处理时间。 
以上,根据实施方式及其变形例对有关本发明的内容检索装置进行了说明,但本发明并不限定于上述实施方式及其变形例。只要不脱离本发明的主旨,本领域技术人员对上述实施方式及其变形例实施了想到的各种变形后的形态、以及将不同的实施方式及其变形例的结构要素组合构建的形态也包含在本发明的范围内。 
例如,在上述实施方式中,在内容检索装置中具备内容数据库,但也可以在与内容检索装置不同的其他装置中具备内容数据库。在此情况下,内容检索装置与其他装置经由网络等连接。 
此外,上述实施方式的内容检索装置从存储有电视节目的内容数据库中检索想要的电视节目,但也可以从存储有电影、音乐等视听内容、书、论文等文本内容等的内容数据库中检索内容。即,有关本发明的内容检索装置检索的内容只要是具有字符信息的内容就可以。 
另外,本发明不仅能够作为上述那样的内容检索装置实现,也可以作为以包含在内容检索装置中的特征性结构部分的动作为步骤的内容检索方法实现、或作为使计算机执行包含在内容检索方法中的特征性步骤的程序实现。并且,这样的程序可以经由CD-ROM(Compact Disc-Read OnlyMemory)等记录媒体或互联网等通信网络流通。 
工业实用性 
本发明能够作为用来从大量的内容之中检索用户想要利用的内容的内容检索装置等、例如作为从大量存储有电视节目的数据库中检索用户想要观看的节目的装置使用。 

Claims (8)

1.一种内容检索装置,利用与表示内容的数据的关键字相关联的关联关键字,从内容数据库中检索规定内容,该内容数据库按表示内容的分类的内容属性存储有内容,上述内容检索装置的特征在于,具备:
词典数据库,按表示规定的时间区间的关联区间,存储对作为上述关联区间所包含的内容且属于由上述内容属性表示的分类的内容的数据进行表示的多个关键字间的关联度;
关联区间计算机构,根据通过表示上述内容数据库所存储的第1内容的数据的多个第1关键字以及表示上述内容数据库所存储的第2内容的数据的多个第2关键字来计算的各上述内容属性的差异度是否满足规定基准值,按上述内容属性计算被设定为上述第1内容和上述第2内容包含在同一时间区间中的关联区间;
词典更新机构,在由上述关联区间计算机构计算的关联区间所包含的内容中,使用按上述内容属性计算的关键字间的关联度、以及上述关联区间,更新上述词典数据库所存储的关联度;以及
输出生成机构,根据上述词典数据库所存储的关联度,生成用于按上述关联区间输出与用户输入的关键字相关联的关联关键字的输出信息;
上述关联区间计算机构在上述差异度超过规定基准值的情况下,计算通过对应于上述第1内容的时间区间来决定的关联区间,在上述差异度是规定基准值以下的情况下,计算通过将上述词典数据库所存储的最新的关联区间与对应于上述第1内容的时间区间相加得到的时间区间来决定的关联区间。
2.如权利要求1所述的内容检索装置,其特征在于,
上述关联区间计算机构将存储在上述词典数据库中的最新的关联区间所包含的内容作为上述第2内容,来计算关联区间。
3.如权利要求2所述的内容检索装置,其特征在于,
上述关联区间计算机构根据上述第1关键字中的出现频度高的规定数量的关键字与上述第2关键字中的出现频度高的规定数量的关键字之间的差异度是否满足规定基准值,来计算关联区间。
4.如权利要求1所述的内容检索装置,其特征在于,
上述关联区间计算机构将与上次新添加在上述内容数据库中的内容对应的时间区间中的、预定长度时间的时间区间所包含的内容作为上述第2内容,来计算关联区间。
5.如权利要求1所述的内容检索装置,其特征在于,
上述内容检索装置还具备:
属性取得机构,取得与用户输入的关键字相关联的内容属性;以及
关联关键字取得机构,通过参照上述词典数据库,按关联区间取得与上述用户输入的关键字和由上述属性取得机构取得的内容属性对应的关联关键字;
上述输出生成机构生成用于输出由上述关联关键字取得机构取得的关联关键字的上述输出信息。
6.如权利要求5所述的内容检索装置,其特征在于,
上述关联关键字取得机构在由上述属性取得机构取得了多个内容属性的情况下,对上述多个内容属性的各个内容属性生成关联关键字;
上述输出生成机构生成用于按内容属性、按关联区间输出对上述多个内容属性的各个内容属性生成的关联关键字的输出信息。
7.如权利要求1所述的内容检索装置,其特征在于,
关联区间计算机构根据下述差异度是否满足规定基准值,来计算关联区间,该差异度是上述第1关键字中的与上述第2关键字不重复的关键字的数量除以第2关键字的数量所得的值。
8.一种内容检索方法,由计算机利用与表示内容的数据的关键字相关联的关联关键字,从内容数据库中检索规定内容,该内容数据库按表示内容的分类的内容属性存储有内容,上述内容检索方法的特征在于,
上述计算机具备词典数据库,该词典数据库按表示规定的时间区间的关联区间,存储对作为上述关联区间所包含的内容且属于由上述内容属性表示的分类的内容的数据进行表示的多个关键字间的关联度;
上述内容检索方法包括:
关联区间计算步骤,上述计算机根据通过表示上述内容数据库所存储的第1内容的数据的多个第1关键字以及表示上述内容数据库所存储的第2内容的数据的多个第2关键字来计算的各上述内容属性的差异度是否满足规定基准值,按上述内容属性计算被设定为上述第1内容和上述第2内容包含在同一时间区间中的关联区间;
词典更新步骤,上述计算机在由上述关联区间计算步骤计算的关联区间所包含的内容中,使用按上述内容属性计算的关键字间的关联度、以及上述关联区间,更新上述词典数据库所存储的关联度;以及
输出生成步骤,上述计算机根据上述词典数据库所存储的关联度,生成用于按上述关联区间输出与用户输入的关键字相关联的关联关键字的输出信息;
上述关联区间计算步骤在上述差异度超过规定基准值的情况下,计算通过对应于上述第1内容的时间区间来决定的关联区间,在上述差异度是规定基准值以下的情况下,计算通过将上述词典数据库所存储的最新的关联区间与对应于上述第1内容的时间区间相加得到的时间区间来决定的关联区间。
CN2009801012516A 2008-03-10 2009-03-02 内容检索装置及内容检索方法 Expired - Fee Related CN101889281B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008059914 2008-03-10
JP2008-059914 2008-03-10
PCT/JP2009/000926 WO2009113266A1 (ja) 2008-03-10 2009-03-02 コンテンツ検索装置及びコンテンツ検索方法

Publications (2)

Publication Number Publication Date
CN101889281A CN101889281A (zh) 2010-11-17
CN101889281B true CN101889281B (zh) 2012-10-17

Family

ID=41064940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801012516A Expired - Fee Related CN101889281B (zh) 2008-03-10 2009-03-02 内容检索装置及内容检索方法

Country Status (4)

Country Link
US (1) US8073851B2 (zh)
JP (1) JP4388137B2 (zh)
CN (1) CN101889281B (zh)
WO (1) WO2009113266A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768930B2 (en) * 2009-10-10 2014-07-01 Oracle International Corporation Product classification in procurement systems
JP5005835B2 (ja) * 2009-10-22 2012-08-22 パナソニック株式会社 再生装置、再生方法、プログラムおよび記録媒体
US8385723B2 (en) * 2010-06-18 2013-02-26 Microsoft Corporation Recording of sports related television programming
KR101196935B1 (ko) 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
KR101196989B1 (ko) * 2010-07-06 2012-11-02 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8719207B2 (en) 2010-07-27 2014-05-06 Oracle International Corporation Method and system for providing decision making based on sense and respond
CN101916268B (zh) * 2010-08-04 2012-07-25 哈尔滨工业大学深圳研究生院 汉语词组库的建立及更新方法
US9348941B2 (en) * 2011-06-16 2016-05-24 Microsoft Technology Licensing, Llc Specification of database table relationships for calculation
US20130066632A1 (en) * 2011-09-14 2013-03-14 At&T Intellectual Property I, L.P. System and method for enriching text-to-speech synthesis with automatic dialog act tags
CN103744897A (zh) * 2013-12-24 2014-04-23 华为技术有限公司 故障信息的关联搜索方法、系统和网络管理系统
CN104331434A (zh) * 2014-10-22 2015-02-04 乐视网信息技术(北京)股份有限公司 一种生成搜索提示词服务的方法及其装置
CN105912645B (zh) * 2016-04-08 2019-03-05 上海智臻智能网络科技股份有限公司 一种智能问答方法及装置
WO2018207485A1 (ja) * 2017-05-11 2018-11-15 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
AU2019402169A1 (en) * 2018-12-20 2021-07-22 Dennis Mark GERMISHUYS Association determination
JP7085499B2 (ja) * 2019-01-23 2022-06-16 株式会社日立製作所 テキストデータ収集装置及び方法
CN109933691B (zh) * 2019-02-11 2023-06-09 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1757031A (zh) * 2003-03-27 2006-04-05 英国电讯有限公司 数据检索系统
CN1918571A (zh) * 2004-10-29 2007-02-21 松下电器产业株式会社 信息检索装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3157257B2 (ja) * 1992-03-23 2001-04-16 日本電信電話株式会社 情報重要度決定方法
JP3168479B2 (ja) 1992-05-01 2001-05-21 日本電信電話株式会社 時間変動する情報に対応する情報の蓄積及び検索方法
JP4034374B2 (ja) 1997-02-18 2008-01-16 株式会社ニューズウオッチ 情報検索システムおよび情報検索方法
JPH11175530A (ja) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法および装置ならび情報潮流提示プログラムを記録した記録媒体
JP2000242652A (ja) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体
JP2001216311A (ja) 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2002183175A (ja) 2000-12-08 2002-06-28 Hitachi Ltd テキストマイニング方法
JP2004318723A (ja) 2003-04-18 2004-11-11 Nippon Telegr & Teleph Corp <Ntt> 関連情報提供スケジュール作成方法および装置
US20050120391A1 (en) * 2003-12-02 2005-06-02 Quadrock Communications, Inc. System and method for generation of interactive TV content
JP3978221B2 (ja) * 2003-12-26 2007-09-19 松下電器産業株式会社 辞書作成装置および辞書作成方法
JP4366249B2 (ja) * 2004-06-02 2009-11-18 パイオニア株式会社 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置
JP2007188225A (ja) 2006-01-12 2007-07-26 Yafoo Japan Corp 要約文抽出システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1757031A (zh) * 2003-03-27 2006-04-05 英国电讯有限公司 数据检索系统
CN1918571A (zh) * 2004-10-29 2007-02-21 松下电器产业株式会社 信息检索装置

Also Published As

Publication number Publication date
CN101889281A (zh) 2010-11-17
US20100293169A1 (en) 2010-11-18
JP4388137B2 (ja) 2009-12-24
WO2009113266A1 (ja) 2009-09-17
JPWO2009113266A1 (ja) 2011-07-21
US8073851B2 (en) 2011-12-06

Similar Documents

Publication Publication Date Title
CN101889281B (zh) 内容检索装置及内容检索方法
US8869208B2 (en) Computing similarity between media programs
US8176043B2 (en) Ranking search results
US20060167859A1 (en) System and method for personalized searching of television content using a reduced keypad
US8478759B2 (en) Information presentation apparatus and mobile terminal
KR102111082B1 (ko) 지식 패널들을 컨텍스트화
US8108341B2 (en) Method and system enabling identification of information content having enhanced desirability to a user
CN102999498A (zh) 多媒体节目的检索方法及装置
US20100070507A1 (en) Hybrid content recommending server, system, and method
US20080082499A1 (en) Summarizing reviews
CN103069825B (zh) 用于电视搜索助手的系统和方法
CN103052954A (zh) 推荐系统的基于简档内容检索
CN103984740A (zh) 基于组合标签的检索页显示的方法和系统
US9015172B2 (en) Method and subsystem for searching media content within a content-search service system
CN103384883A (zh) 利用Top-K处理使语义丰富
CN101304503A (zh) 数字电视节目检索方法
KR20120070850A (ko) 웹 마이닝을 이용한 콘텐츠 태그 생성 시스템 및 방법
CN105681910A (zh) 一种基于多用户的视频推荐方法及装置
JP5553715B2 (ja) 電子番組表生成システム、放送局、テレビ受信機、サーバ及び電子番組表生成方法
CN104854588A (zh) 用于搜索标记的主要为非文本的项目的系统和方法
US8904437B2 (en) Similar content search device and computer-readable storage medium
AU769098B2 (en) Method and system utilizing text selected on a web page for searching in a database of television programs
CN110442593B (zh) 基于用户搜索信息跨应用共享的方法
US8666915B2 (en) Method and device for information retrieval
CN114564554A (zh) 一种数据检索方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140930

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140930

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121017

Termination date: 20150302

EXPY Termination of patent right or utility model