CN101606155A - 内容检索装置 - Google Patents

内容检索装置 Download PDF

Info

Publication number
CN101606155A
CN101606155A CNA2008800041818A CN200880004181A CN101606155A CN 101606155 A CN101606155 A CN 101606155A CN A2008800041818 A CNA2008800041818 A CN A2008800041818A CN 200880004181 A CN200880004181 A CN 200880004181A CN 101606155 A CN101606155 A CN 101606155A
Authority
CN
China
Prior art keywords
content
key word
key
word
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008800041818A
Other languages
English (en)
Other versions
CN101606155B (zh
Inventor
高田和丰
续木贵史
松浦聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101606155A publication Critical patent/CN101606155A/zh
Application granted granted Critical
Publication of CN101606155B publication Critical patent/CN101606155B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

内容检索装置(100),在用户的检索对象流动变化的情况下,也能够向该用户出示适当的关联关键字,内容检索装置(100)包括:内容推测部(107),检索按照检索关键字的内容;文档空间数据库(103),存储按照关键字的出现频度的多个文档空间;文档空间选择部(104),按照文档空间的出现频度,从文档空间数据库(103)中选择筛选文档空间以及扩展文档空间,所述文档空间示出检索关键字和对应于该检索关键字的内容的关联度;关联关键字推测部(108),将与筛选文档空间以及扩展文档空间分别相对应的关键字作为筛选关键字以及扩展关键字选择;以及输出部(111),限制所选择的筛选关键字以及扩展关键字。

Description

内容检索装置
技术领域
本发明涉及用于从多个内容中检索用户想要视听的内容的内容检索装置。
背景技术
在以往的检索方法中所报告的较多的方法是,在从服务器等所存储的大量的内容中检索用户想要视听的内容时,生成并出示与用户输入的检索关键字一致的内容的一览。这些方法是,对能够明确估计作为检索对象的内容、且能够想起表示检索对象的关键字的用户有效的方法。
但是,不能想起表示检索对象的关键字的用户,由于不能输入检索关键字,因此不能利用该方法来检索内容。这些状况是,例如在检索电视节目、音乐或电影等娱乐内容时常见的现象。
对于这些问题,所报告的另一种内容检索技术是,系统方出示多个关键字,用户反复进行从所出示的关键字中选择感兴趣的关键字的操作,并进行内容的筛选,从而以对话方式获得所希望的内容的方法(例如,参照专利文献1)。
所述专利文献1的内容检索装置(文档处理装置),在检索开始时,同时取得检索关键字和检索条件,限定检索领域,并出示与该检索关键字有关的关联关键字。在该装置中,通过在检索开始时筛选检索领域,从而能够出示易于筛选内容的关联关键字。因此,用户只要反复选择该内容检索装置出示的关联关键字,就能够获得所希望的内容。该方法,有效于表示检索对象的关键字不明确的用户。
专利文献1:日本国特开平10-134075号公报
然而,在所述专利文献1的内容检索装置中存在的问题是,在检索开始时还未明确决定用户的检索对象、且正在检索中想要看的内容流动变化的情况下,不能出示用于检索所希望的内容的关联关键字。
也就是,在所述专利文献1的内容检索装置中,针对一系列的检索,由于只能进行根据某个观点的筛选检索,因此,在作为用户的检索对象的内容流动变化、且用户要看各种内容时,为了重新进行根据其它的观点的检索,而需要每次返回到检索开始画面,从而导致用户的检索负荷增大。
例如,在所述专利文献1的内容检索装置中,针对检索对象不明确且想要看的内容流动变化的用户,不能选择通过对话来检索不同观点的各种内容的检索模式(扩展检索模式)、和进一步对显示为检索结果的内容进行筛选的检索模式(筛选检索模式)。
发明内容
于是,鉴于所述问题,本发明的目的在于提供一种内容检索装置,在作为用户的检索对象的内容流动变化的情况下,也能够向用户出示用于检索所希望的内容的关联关键字。
为了实现所述目的,本发明的内容检索装置,根据内容数据库,显示与用于检索内容的检索关键字有关的关联关键字,在所述内容数据库中多个内容的每一个与多个关键字一起被存储,所述内容检索装置包括:关键字取得单元,取得检索关键字;内容检索单元,从所述内容数据库中检索对应于所述检索关键字的内容;文档空间存储单元,存储文档空间信息,该文档空间信息,所述内容数据库中包含的各个关键字按照针对所述内容数据库的各个内容出现的出现频度而被分类的每个分区,示出各个内容和各个关键字之间的关联度;文章空间选择单元,按照第一文档空间信息的出现频度,从所述文档空间存储单元中选择第二文章空间信息,所述第一文档空间信息示出所述检索关键字和所述检索关键字所对应的内容之间的关联度;以及显示单元,显示所述文章空间选择单元所选择的第二文章空间信息中满足规定的基准的关键字,以作为关联关键字。
据此,在作为用户的检索对象的内容流动变化的情况下,也能够向用户出示用于检索所希望的内容的关联关键字。
例如,所述文章空间选择单元,具有:第一文档空间选择单元,从所述文档空间存储单元中选择与比所述第一文档空间信息的出现频度少的出现频度相对应的第二文档空间信息,以作为筛选文档空间信息;所述显示单元,显示所述筛选空间信息中满足规定的基准的关键字,以作为所述关联关键字。并且,所述文章空间选择信息,具有:第二文档空间选择单元,从所述文档空间存储单元中选择与所述第一文章空间信息的出现频度以上的出现频度相对应的第二文档空间信息,以作为扩展文档空间信息;所述显示单元,显示作为所述筛选空间信息中满足规定的基准的关键字的筛选关键字、和作为所述扩展空间信息中满足规定的基准的关键字的扩展关键字,以作为所述关联关键字。并且,所述内容检索装置,还包括:关联关键字选择单元,从所述内容数据库中选择与所述筛选文档空间信息以及所述扩展文档空间信息分别相对应的筛选关键字以及扩展关键字,以便针对所述内容检索单元所检索的内容示出的关联度越大的关键字就越被选择;所述显示单元,显示所述关联关键字选择单元所选择的筛选关键字以及扩展关键字,以作为所述关联关键字,并且,显示所述内容检索单元所检索的内容的属性。
具体而言,文档空间存储单元存储有,出现频度多的关键字所属的文档空间信息、出现频度中等程度的关键字所属的文档空间信息、以及出现频度少的关键字所属的文档空间信息。
据此,选择比检索关键字所对应的文档空间频度信息的出现频度小的出现频度所对应的文档空间信息,以作为筛选文档空间信息。例如,若检索关键字的出现频度为中等程度,则选择出现频度少的关键字所属的文档空间信息,以作为筛选文档空间信息。而且,针对内容检索单元所检索的内容,显示依据该筛选文档空间信息示出大的关联度的关键字,以作为筛选关键字。
其结果为,由于比检索关键字的出现频度少的出现频度的关键字被显示为筛选关键字,因此,若用户选择该筛选关键字,以作为新的下个检索关键字,则能够通过内容检索单元,从预先检索并显示了的多个内容中适当地筛选用户所希望的内容。
据此,选择检索关键字所对应的文档空间频度信息的出现频度以上的出现频度所对应的文档空间信息,以作为扩展文档空间信息。例如,若检索关键字的出现频度为中等程度,则选择出现频度为中等程度的关键字所属的文档空间信息、和出现频度多的关键字所属的文档空间信息,以作为扩展文档空间信息。而且,针对内容检索单元所检索的内容,显示依据该扩展文档空间信息示出大的关联度的关键字,以作为筛选关键字。
其结果为,由于检索关键字的出现频度以上的出现频度的关键字被显示为扩展关键字,因此,若用户选择该扩展关键字,以作为新的下个检索关键字,则能够通过内容检索单元,适当地检索预先检索并显示了的内容的数量以上的、与检索关键字有关的内容。
据此,由于同时显示这些筛选关键字以及扩展关键字,以作为关联关键字,因此,在作为用户的检索对象的内容流动变化的情况下,也不像以往的例子那样返回到检索开始画面,而通过筛选关键字以及扩展关键字之中的任何一方,从而用户能够检索所希望的内容。
也就是,在以往的技术中,为了筛选预先检索了的多个内容而适合的关联关键字(筛选关键字)、和为了以与检索关键字不同的观点进行再检索而适合的关联关键字(扩展关键字)不被区别,按照从关联度大到小的顺序,依次单纯地显示与检索关键字有关的关联关键字。其结果为,有筛选关键字不被显示的情况,或者,有扩展关键字不被显示的情况。因此,虽不是筛选关键字,也依据该关键字筛选并检索多个内容。
于是,在本发明中,如上所述,由于按照出现频度适当地区别筛选关键字以及扩展关键字,并将它们同时显示,因此用户能够容易且适当地检索所希望的内容。
并且,也可以是,所述内容检索装置,其中还包括:检索条件判定单元,在用户选择所述显示单元所显示的筛选关键字,从而所述关键字取得单元取得所述筛选关键字,以作为所述检索关键字的情况下,判定为由所述内容检索单元进行筛选检索,在用户选择所述显示单元所显示的扩展关键字,从而所述关键字取得单元取得所述扩展关键字,以作为所述检索关键字的情况下,判定为由所述内容检索单元进行扩展检索;以及比率决定单元,按照所述检索条件判定单元所判定的结果,决定所述显示单元所显示的所述筛选关键字的数量和扩展关键字的数量的比率;所述关联关键字选择单元,选择与所述比率决定单元所决定的比率相对应的数量的筛选关键字以及扩展关键字。例如,所述比率决定单元,在所述检索条件判定单元判定为进行筛选检索的情况下,决定比率,以便所述筛选关键字的数量多于所述扩展关键字的数量。并且,所述比率决定单元,在所述检索条件判定单元判定为进行扩展检索的情况下,决定比率,以便所述扩展关键字的数量多于所述筛选关键字的数量。
据此,若用户选择显示单元所显示的筛选关键字,以作为新的下个检索关键字,则显示与该新的检索关键字相对应的内容,并且显示比扩展关键字多的、与该新的检索关键字有关的新的筛选关键字。据此,由于向将执行筛选检索的用户显示多个筛选关键字,因此能够提高针对用户的使用上的方便性。与此相同,若用户选择显示单元所显示的扩展关键字,以作为新的下个检索关键字,则显示与该新的检索关键字相对应的内容,并且显示比筛选关键字多的、与该新的检索关键字有关的新的扩展关键字。据此,由于向将执行扩展检索的用户显示多个扩展关键字,因此能够提高针对用户的使用上的方便性。
而且,本发明,除了能够以这些内容检索装置来实现以外,还能够以通过该装置检索内容的方法、用于使该装置检索内容的程序、或者存储该程序的计算机可读的存储介质、集成电路来实现。
本发明的内容检索装置具有以下的功能效果,即,在作为用户的检索对象的内容流动变化的情况下,也能够向用户出示用于检索所希望的内容的关联关键字。
附图说明
图1是示出本发明的实施例中的内容检索装置的结构的方框图。
图2是示出本发明的实施例中的内容检索装置在检索开始时显示的画面的一个例子的图。
图3是示出本发明的实施例中的内容检索装置在初始检索画面后显示的画面的一个例子的图。
图4是示出本发明的实施例中的内容检索装置在检索结果画面后显示的其它的检索结果画面的一个例子的图。
图5是示出本发明的实施例中的内容数据库所蓄积的多个内容属性信息的一个例子的图。
图6是示出本发明的实施例中的文档空间数据库所存储的多个文档空间的图。
图7是示出本发明的实施例中的关键字记忆部所存储的信息的图。
图8是示出本发明的实施例中的内容推测部的工作的流程图。
图9是用于说明本发明的实施例中的关联关键字推测部确定关联关键字的候补的工作的说明图。
图10是用于具体说明本发明的实施例中的关联关键字推测部推测关联关键字的工作的说明图。
图11是示出本发明的实施例中的关联关键字推测部的工作的流程图。
图12是示出本发明的实施例中的输出部所显示的检索结果画面的一个例子的图。
图13是示出本发明的实施例中的内容检索装置整体的工作的流程图。
图14是示出本发明的实施例中的联想词典的一个例子的图。
图15是示出本发明的实施例中的内容检索装置的概观的一个例子的图。
符号说明
100  内容检索装置
101  输入判别部
102  关键字记忆部
103  文档空间数据库
104  文档空间选择部
105  检索条件判定部
106  关联关键字生成比率决定部
107  内容推测部
108  关联关键字推测部
109  内容数据库
110  输出生成部
111  输出部
具体实施方式
以下,参照附图说明本发明的实施例中的内容检索装置。而且,在本实施例中说明一种内容检索装置,从蓄积有多个内容的服务器等中检索用户想要视听的内容,该多个内容是从过去到现在为止的电视节目。
图1是示出本实施例中的内容检索装置的结构的方框图。
本实施例中的内容检索装置100是一种装置,在作为用户的检索对象的内容流动变化的情况下,也能够向用户出示用于检索所希望的内容的关联关键字,内容检索装置100包括输入判别部101、关键字记忆部102、文档空间数据库103、文档空间选择部104、检索条件判定部105、关联关键字生成比率决定部106、内容推测部107、关联关键字推测部108、内容数据库109、输出生成部110、以及输出部111。
输入判别部101,接受输出部111所显示的多个选择项中的、通过用户的操作所选择的选择项(以下,称为输入选择项),判别该输入选择项示出关键字、还是示出内容。输入判别部101,若判别为示出关键字,则将该输入选择项输出到关键字记忆部102,若判别为示出内容,则将该输入选择项输出到输出生成部110。在此,在输入判别部101最近接受了的输入选择项示出关键字的情况下,以下,将该关键字称为检索关键字。
关键字记忆部102,具有用于记忆从输入判别部101输出的输入选择项示出的关键字的区域。
检索条件判定部105,判定由关键字记忆部102所存储的检索关键字的检索的模式(检索模式)是筛选模式还是扩展模式。在此,筛选模式是指,组合检索关键字、和从检索开始时到现在为止所输入的过去的关键字,来对内容进行筛选来检索(筛选检索)的模式。另一方面,扩展模式是指,与过去的关键字无关,而进行只符合检索关键字的内容的检索(扩展检索)的模式。
关联关键字生成比率决定部106,按照检索条件判定部105所判定的结果,决定应该显示的筛选关键字的数量和扩展关键字的数量的比率(显示比率)。筛选关键字是,能够成为用于执行筛选检索的下一个检索关键字的关键字,也是用于在由过去所输入的关键字所检索的内容内进一步进行细分化来筛选的关键字。另一方面,扩展关键字是,能够成为用于执行扩展检索的下一个检索关键字的关键字,也是用于由关联度与过去所输入的关键字相近的新的关键字重新检索内容的关键字。并且,将这些筛选关键字以及扩展关键字总称为关联关键字。
内容数据库109,依次存储正在广播中的电视节目等的多个内容。在此,内容包含示出电视节目的运动图像或声音的内容数据、和如电视节目的EPG信息那样示出该电视节目的属性的内容属性信息。
文档空间数据库103存储示出内容数据库109所示的各个内容、和各个关键字之间的关系的多个文档空间。而且,依据空间ID来识别文档空间数据库103所存储的多个文档空间的每一个。
文档空间选择部104,利用检索关键字从文档空间数据库103中选择为了推测筛选关键字而应该使用的文档空间(以下,称为筛选文档空间)、和为了推测扩展关键字而应该使用的文档空间(以下,称为扩展文档空间)。而且,文档空间选择部104,将所选择的筛选文档空间的空间ID、和所选择的扩展文档空间的空间ID输出到关联关键字推测部108。
内容推测部107,利用关键字记忆部102所记忆的关键字、和文档空间数据库103所存储的多个文档空间,推测与检索关键字有关的内容。而且,内容推测部107,将用于识别所推测的内容的内容ID输出到关联关键字推测部108以及输出生成部110。
关联关键字推测部108,取得从内容推测部107输出的内容ID、关联关键字生成比率决定部106所决定的比率、和从文档空间选择部104输出的空间ID,并且,利用它们和文档空间数据库103推测筛选关键字以及扩展关键字,以作为关联关键字。关联关键字推测部108,将用于识别所推测的关联关键字的关键字ID输出到输出生成部110。
输出生成部110,若从输入判别部101取得示出内容的输入选择项,则从内容数据库109中抽出对应于该输入选择项的内容数据,并输出到输出部111。
并且,输出生成部110,若从内容推测部107取得内容ID,并且从关联关键字推测部108取得关键字ID,则从内容数据库109中抽出对应于该内容ID的内容属性信息、和对应于该关键字ID的关联关键字。而且,输出生成部110,将包含该内容属性信息和关联关键字的检索结果信息输出到输出部111。
输出部111,具备例如液晶显示器等,若从输出生成部110取得内容数据,则再生该内容数据。另一方面,输出部111,若从输出生成部110取得检索结果信息,则显示该检索结果信息的细节。
而且,在本实施例中:输入判别部101被构成为取得单元,取得检索关键字;内容推测部107被构成为内容检索单元,从内容数据库109中检索对应于检索关键字的内容;输出部111被构成为显示单元,用于显示关联关键字推测部108所推测的筛选关键字以及扩展关键字,以作为关联关键字,并且显示内容推测部107所推测的内容的属性。
在此,对于这些内容检索装置100整体的工作,利用该内容检索装置100所显示的画面进行说明。
图2是示出内容检索装置100在检索开始时显示的画面的一个例子的图。
例如,内容检索装置100,在检索开始时,在输出部111显示初始检索画面。在该初始检索画面显示,作为选择项的“松下花子”、“日本”或“篮球”等,以作为初始检索关键字。在此情况下,输出生成部110,使输出部111显示例如预先设定的“松下花子”或“日本”等的单词,以作为初始检索关键字。而且,输出生成部110也可以,使输出部111显示“体育”或“实录”等的示出一般类型的单词,以作为初始检索关键字。并且,输出生成部110也可以,利用输出到输出部111的内容数据的履历,即,利用用户的视听履历,使输出部111显示用户的视听频度多的内容的内容属性信息中包含的单词,以作为初始检索关键字。
在此,用户,从输出部111的初始检索画面所显示的作为选择项的初始检索关键字中,选择例如初始检索关键字“松下花子”。因此,内容检索装置100,显示包含与初始检索关键字“松下花子”有关的内容属性信息、和与初始检索关键字“松下花子”有关的关键字(关联关键字)的检索结果信息的细节。
图3是示出内容检索装置100在初始检索画面后显示的画面的一个例子的图。
内容检索装置100,如上所述,若初始检索画面中的任一个初始检索关键字被选择为输入选择项,则检索与该初始检索关键字有关的内容或关联关键字,在输出部111显示对应于该初始检索关键字的检索结果画面。在该检索结果画面显示:示出与所选择的初始检索关键字有关的内容属性信息(内容的名称或概要)的一览的内容列表L1;示出与所选择的初始检索关键字有关的筛选关键字的一览的筛选列表L2;示出与所选择的初始检索关键字有关的扩展关键字的一览的扩展列表L3。而且,这些内容属性信息、筛选关键字以及扩展关键字,分别被显示为新的选择项。
例如,如上所述,若在初始检索画面选择初始检索关键字“松下花子”,则在内容列表L1显示与“松下花子”有关的多个内容的名称以及其概要,在筛选列表L2显示与“松下花子”有关的多个筛选关键字,在扩展列表L3显示与“松下花子”有关的多个扩展关键字。
在此,用户,若在输出部111的检索结果画面的内容列表L1中有想要视听的内容的名称等,则选择该内容的名称等。因此,内容检索装置100,从内容数据库109中抽出与所选择的内容的名称(示出内容的输入选择项)相对应的内容数据,并进行再生,从而使输出部111进行显示。据此,内容的检索结束。
另一方面,用户,若在输出部111的检索结果画面的内容列表L1中没有想要视听的内容的名称等,则从筛选列表L2或扩展列表L3中选择有可能与想要视听的内容有关的关联关键字。因此,内容检索装置100,将所选择的关联关键字作为下个检索关键字(输入选择项),检索与该检索关键字有关的内容或关联关键字,从而在输出部111显示与该检索关键字有关的检索结果画面。
图4是示出内容检索装置100在检索结果画面后显示的其它的检索结果画面的一个例子的图。
例如,若从图3示出的检索结果画面的筛选列表L2中选择筛选关键字“京都”,则在内容列表L1显示与“京都”有关的多个内容的名称以及其概要,在筛选列表L2显示与“京都”有关的多个筛选关键字,在扩展列表L3显示与“京都”有关的多个扩展关键字。
如此,内容检索装置100,在每次由用户选择关联关键字(筛选关键字或扩展关键字)时,将该关联关键字作为新的检索关键字,反复检索并显示与该检索关键字有关的新的内容以及关联关键字。
在此,对于内容检索装置100的各个构成要素,进行详细说明。
图5是示出内容数据库109所蓄积的多个内容属性信息的一个例子的图。
内容属性信息CA中包含例如用于识别内容的内容ID、作为内容的名称的内容名、内容的视听开始时刻、对应于内容的关键字、以及内容的概要。
而且,依据像EPG那样的、被记载为内容数据的属性的描述或标题等,进行形态分析等,从而抽出内容属性信息CA中包含的关键字。并且,内容属性信息CA中包含的各个关键字,被附上用于识别这些关键字的关键字ID。
图6是示出文档空间数据库103所存储的多个文档空间的图。
例如,文档空间数据库103,存储以空间ID“1、2、3”所示的三个文档空间。
各个文档空间,以矩阵来示出所述内容属性信息CA中包含的多个关键字(关键字ID)的每一个、和内容数据库109所示的所有的内容(内容ID)的每一个之间的关联度。例如,将TF(Term Frequency)-IDF(InverseDocument Frequency)值等用于关联度。
TF-IDF值是指,组合了针对文档(内容)的关键字的网罗性或特定性的关键字的加权的指标,例如,在“情报检索と言语处理(信息检索和语言处理)”(pp.32~33,东京大学出版会,1999)(非专利文献1)记载有具体算出方法。
例如,也可以以隐性语义索引(Latent Semantic Indexing;:以下称为LSI)来将TF-IDF值等的值抽象化。在利用LSI的情况下,在高维空间分别处理的关键字,在低维空间有可能相关联,因此,能够进行基于关键字具有的语义或概念的检索。例如,棒球和Baseball是不同的关键字,依据一方的关键字的询问不能检索包含另一方的关键字的文档。但是,在低维空间,由于可以期待在语义上相关联的这些关键字被简并为一个维,因此通过输入称为棒球的关键字,从而也能够检索包含Baseball的节目。在“情报检索アルゴリズム(信息检索算法)”(pp.65~77,共立出版,2002)(非专利文献2)记载有利用LSI的文档检索方法。
而且,在图6示出的例子中,针对内容(内容属性信息CA)中出现的关键字示出关联度“1”,针对内容中不出现的关键字示出关联度“0”。例如,空间ID“1”的文档空间,将关键字ID“KW1a”的关键字针对内容ID“C1、C2、…Ck”的关联度示出为“1、1、…0”。
并且,三个文档空间,依据关键字的频度信息被区分。关键字的频度信息是指,在内容数据库109的各个内容中出现该关键字的出现频度。例如,利用作为与针对关键字的内容数量关联起来的指标的DF值(DocumentFrequency:文档频度(关键字出现的文档数))等,以作为频度信息。因此,较多的内容(内容属性信息CA)中出现的关键字的频度信息示出的值大,较少的内容(内容属性信息CA)中出现的关键字的频度信息示出的值小。
例如,空间ID“1”的文档空间示出频度信息示出的值大的各个关键字和各个内容之间的关联度;空间ID“2”的文档空间示出频度信息示出的值为中等程度的各个关键字和各个内容之间的关联度;空间ID“3”的文档空间示出频度信息示出的值小的各个关键字和各个内容之间的关联度。
也就是,关键字ID“KW1a、KW2a、…KWna”的各个关键字,由于出现在较多的内容(内容属性信息CA)中,因此被分类为空间ID“1”的文档空间;关键字ID“KW1b、KW2b、…KWmb”的各个关键字,由于出现在中等程度的数量的内容(内容属性信息CA)中,因此被分类为空间ID“2”的文档空间;关键字ID“KW1c、KW2c、…KWlc”的各个关键字,由于出现在较少的内容(内容属性信息CA)中,因此被分类为空间ID“3”的文档空间。
而且,按照内容数据库的更新进行文档空间的更新。因此,因内容数据库的更新而发生空间ID和关键字(关键字ID)之间的对应关系的变化。例如,称为“滑雪”的关键字,在冬天出现的情况多,因此,在冬天,该关键字(关键字ID)与高位的空间ID相对应,即,与频度信息示出的值大的文档空间的空间ID相对应。反而,在夏天,称为“滑雪”的关键字的出现频度变少,因此,该关键字(关键字ID)与低位的空间ID相对应,即,与频度信息示出的值小的文档空间的空间ID相对应。
据此,按照时期的变化,能够准确地使关键字和用户想起的节目数对应起来,也能够出示没有不协调感的筛选关键字以及扩展关键字。
本实施例的特点是,如上所述,按照关键字的出现频度,将示出内容数据库109中包含的各个内容和各个关键字之间的关系的文档空间分割为多个。
输入判别部101,若接受如图3示出的检索结果画面的内容列表L1所显示的输入选择项,则判别为该输入选择项示出内容,并将作为该输入选择项的内容ID输出到输出生成部110。
另一方面,输入判别部101,若接受如图3示出的检索结果画面的筛选列表L2或扩展列表L3所显示的输入选择项,则判别为该输入选择项示出关键字,并将作为该输入选择项的关键字ID、和示出该关键字ID的关键字存储到关键字记忆部102。此时,输入判别部101,将检索模式标志和检索步骤,与关键字ID以及关键字一起存储到关键字记忆部102,所述检索模式标志示出如图3示出的筛选列表L2以及扩展列表L3中的哪一方中选择了输入选择项,所述检索步骤示出该选择是从检索开始时第几次的选择。
图7是示出关键字记忆部102所存储的信息的图。
例如,输入判别部101,若接受示出如图2示出的初始检索画面上的多个选择项中所选择的初始检索关键字“松下花子”的输入选择项,则将其关键字“松下花子”、其关键字ID“10”以及示出第一次的选择的检索步骤“1”关联起来,存储到关键字记忆部102。而且,由于此时的输入选择项,不包含在筛选列表L2以及扩展列表L3的两者中,因此,输入判别部101将检索模式标志“初始”与所述关键字关联起来存储。
其次,例如,输入判别部101,若接受示出如图3示出的检索结果画面上的多个选择项中所选择的关键字“京都”的输入选择项,则将其关键字“京都”、其关键字ID“23”、示出第二次的选择的检索步骤“2”、以及示出从筛选列表L2中所选择的事宜的检索模式标志“筛选”关联起来,存储到关键字记忆部102。
而且,输入判别部101,也可以将输入选择项示出的关键字所属的文档空间的空间ID,与该关键字关联起来,存储到关键字记忆部102。
以下,将由如此在关键字记忆部102相关链并存储的检索步骤、关键字、关键字ID以及检索模式标志构成的信息,称为关键字信息。
内容推测部107,利用如图7示出关键字记忆部102所记忆的关键字信息、和如图6示出文档空间数据库103所存储的多个文档空间,推测与检索关键字有关的内容。
在此,内容推测部107,按照检索关键字的检索模式标志,进行依据筛选模式的内容的推测、和依据扩展模式的内容的推测。
图8是示出内容推测部107的工作的流程图。
首先,内容推测部107,若检索关键字的关键字信息被存储到关键字记忆部102,则从关键字记忆部102取得该关键字信息(步骤S201)。
例如,若关键字记忆部102存储作为第三次所选择的关键字“美食”等的检索关键字,内容推测部107,则从关键字记忆部102取得示出关键字“美食”、关键字ID“54”以及检索模式标志“扩展”的关键字信息。
其次,内容推测部107,根据在步骤S201取得的关键字信息中包含的检索模式标志,判别该关键字信息中包含的检索关键字是否为筛选关键字(步骤S202)。也就是,内容推测部107,在检索模式标志示出“筛选”时,判别检索关键字为筛选关键字,在检索模式标志示出“扩展”时,判别检索关键字为扩展关键字。
在此,内容推测部107,若判别检索关键字为筛选关键字(步骤S202的“是”),进一步,则将直到检索模式标志示出“扩展”或“初始”的最近的关键字被存储为止被存储到关键字记忆部102的过去的关键字,从该关键字记忆部102中抽出(步骤S203)。也就是,内容推测部107,在步骤S201以及步骤S203,取得最近的一个筛选关键字或连续的多个筛选关键字、和一个初始检索关键字或最近的一个扩展关键字。
内容推测部107,在判别检索关键字为扩展关键字时(步骤S202的“否”),或者,在步骤S203后,从文档空间数据库103中选择示出检索关键字或所述过去的关键字的关联度的文档空间(步骤S205)。
例如,内容推测部107,若在步骤S201将关键字ID“KW2c”的关键字作为检索关键字取得,则选择与该关键字ID“KW2c”的关键字相对应的空间ID“3”的文档空间。并且,内容推测部107,若在步骤S203取得关键字ID“KW2b”的过去的关键字,则选择与关键字ID“KW2b”的关键字相对应的空间ID“2”的文档空间。
其次,内容推测部107,在检索关键字为筛选关键字时,生成对应于筛选关键字的输入关键字矢量;在检索关键字为扩展关键字时,生成对应于扩展关键字的输入关键字矢量(步骤S206)。
也就是,在检索关键字为筛选关键字时,内容推测部107,按照被分类为在步骤S205选择的各个文档空间的各个关键字,是否在步骤S201以及步骤S203已被取得,生成输入关键字矢量。
例如,在步骤S201取得的检索关键字(筛选关键字)的关键字ID为“KW2c”、且在步骤S203取得的过去的关键字的关键字ID为“KW2b”的情况下,在步骤S205,与检索关键字相对应的空间ID“3”的文档空间、和与过去的关键字相对应的空间ID“2”的文档空间被选择。
在此情况下,被分类为空间ID“2、3”的文档空间的关键字(关键字ID=KW1b、KW2b、…、KWmb、KW1c、KW2c、…、KWlc)中的关键字ID“KW2c、KW2b”的关键字被取得。因此,内容推测部107,生成输入关键字矢量(KW1b,、KW2b、…、KWmb、KW1c、KW2c、…、KWlc)=(0、1、…、0、0、1、…、0),以便针对所取得的关键字示出“1”,针对未被取得的关键字示出“0”。
另一方面,在检索关键字为扩展关键字时,内容推测部107,按照被分类为在步骤S205选择的各个文档空间的各个关键字是否在步骤S201已被取得,生成输入关键字矢量。
例如,在步骤S201取得的检索关键字(扩展关键字)的关键字ID为“KW2b”的情况下,在步骤S205,与检索关键字相对应的空间ID“2”的文档空间被选择。
在此情况下,被分类为空间ID“2”的文档空间的关键字(关键字ID=KW1b、KW2b、…、KWmb)中的关键字ID“KW2b”的关键字被取得。因此,内容推测部107,生成输入关键字矢量(KW1b、KW2b、…、KWmb)=(0、1、…、0),以便针对所取得的关键字示出“1”,针对未被取得的关键字示出“0”。
其次,内容推测部107,通过算出在步骤S206生成的输入关键字矢量、和在步骤S205所选择的文档空间所示的各个内容的列矢量之间的余弦距离,从而算出各个内容对检索关键字的关联度(步骤S207)。
而且,例如,内容推测部107,将算出了阈值以上的关联度的内容,推测为用户想要视听的内容ID,并输出该内容的内容ID(步骤S208)。
而且,在步骤S206,也可以通过其它的方法生成输入关键字矢量。例如,内容推测部107,检索与检索关键字有关的内容、和关键字记忆部102所记忆的关键字中的、除了检索关键字以外的与过去的关键字有关的内容。其次,内容推测部107,在如此所检索的内容中的、重复的内容的数量的比率在阈值以上的情况下,利用包含检索关键字和过去的关键字的所有的关键字,制作输入关键字矢量。另一方面,在重复的内容的数量的比率不足阈值的情况下,内容推测部107也可以,不利用过去的关键字,而只利用检索关键字,生成输入关键字矢量。据此,能够从关键字记忆部102所记忆的过去的关键字中,制作符合想要寻找的内容的输入关键字矢量,也能够适当地推测用户想要寻找的内容。
文档空间选择部104,读出关键字记忆部102所存储的、包含检索关键字的关键字信息,从文档空间数据库103中找出与该检索关键字相对应的文档空间,即,找出示出检索关键字的关联度的文档空间。
在此,文档空间选择部104,在检索关键字的检索模式标志示出“筛选”的情况下,即,在检索关键字被显示为筛选关键字的情况下,选择比该检索关键字所对应的文档空间的空间ID大的空间ID所示的文档空间,以作为所述的筛选文档空间。
例如,在被显示为筛选关键字的检索关键字的关键字ID为“KW2b”的情况下,文档空间选择部104,从图6示出的文档空间数据库103中找出与关键字ID“KW2b”的检索关键字相对应的空间ID“2”的文档空间。而且,文档空间选择部104,选择比空间ID“2”大的空间ID“3”的文档空间,以作为筛选文档空间。
也就是,文档空间选择部104,从文档空间数据库103中选择与比示出检索关键字的关联度的文档空间的出现频度少的出现频度相对应的文档空间,以作为筛选文档空间信息。
另一方面,文档空间选择部104,在检索关键字的检索模式标志示出“扩展”的情况下,即,在检索关键字被显示为扩展关键字的情况下,选择该检索关键字所对应的文档空间的空间ID以下的空间ID所示的文档空间,以作为所述的扩展文档空间。
例如,在被显示为扩展关键字的检索关键字的关键字ID为“KW2b”的情况下,文档空间选择部104,从图6示出的文档空间数据库103中找出与关键字ID“KW2b”的检索关键字相对应的空间ID“2”的文档空间。而且,文档空间选择部104,选择该空间ID“2”以下的空间ID“1、2”的文档空间,以作为扩展文档空间。
也就是,文档空间选择部104,从文档空间数据库103中选择与示出检索关键字的关联度的文档空间信息的出现频度以上的出现频度相对应的文档空间信息,以作为扩展文档空间信息。
如此,本发明中的文档空间选择部104包括:第一文档空间选择单元,从文档空间数据库103中选择与示出检索关键字的关联度的出现频度少的出现频度相对应的文档空间,以作为筛选文档空间;以及第二文档空间选择单元,从文档空间数据库103中选择与示出检索关键字的关联度的出现频度以上的出现频度相对应的文档空间,以作为扩展文档空间信息。
检索条件判定部105,读出关键字记忆部102所存储的、包含检索关键字的关键字信息,确定该检索关键字的检索模式标志。因此,在检索模式标志示出“筛选”的情况下,检索条件判定部105,判定针对该检索关键字的检索模式为筛选模式。另一方面,在检索模式标志示出“扩展”的情况下,检索条件判定部105,判定针对该检索关键字的检索模式为扩展模式。
也就是,在本实施例中的检索条件判定部105,在用户选择输出部111所显示的筛选关键字,从而输入判别部101将筛选关键字作为检索关键字取得的情况下,判定为由内容推测部107进行筛选检索,另一方面,在用户选择输出部111所显示的扩展关键字,从而输入判别部101将扩展关键字作为检索关键字取得的情况下,判定为由内容推测部107进行扩展检索。
关联关键字生成比率决定部106,在检索条件判定部105所判定的检索模式为筛选模式的情况下,决定显示比率,以便应该显示的筛选关键字的数量多于扩展关键字的数量;在检索条件判定部105所判定的检索模式为扩展模式的情况下,决定显示比率,以便应该显示的扩展关键字的数量多于筛选关键字的数量。
例如,关联关键字生成比率决定部106保持的阈值为70%,在检索模式为筛选模式时,决定显示比率为筛选关键字数∶扩展关键字数=7∶3,在检索模式为扩展模式时,决定显示比率为筛选关键字数∶扩展关键字数=3∶7。
因此,在检索结果画面显示与该显示比率相对应的数量的筛选关键字和扩展关键字。例如,若在检索结果画面所显示的关联关键字的最大数量为10个,则在筛选关键字数∶扩展关键字数=7∶3时,在筛选列表L2显示7个筛选关键字,在筛选列表L3显示3个扩展关键字。另一方面,在筛选关键字数∶扩展关键字数=3∶7时,在筛选列表L2显示3个筛选关键字,在筛选列表L3显示7个扩展关键字。
关联关键字推测部108,取得文档空间选择部104所选择的筛选文档空间以及扩展文档空间的空间ID,并取得内容推测部107所推测的内容的内容ID。因此,关联关键字推测部108,在取得的空间ID所示的文档空间数据库103的筛选文档空间中,确定以阈值以上的关联度来与取得的内容ID的内容关联起来的关键字,以作为筛选关键字的候补。进而,关联关键字推测部108,在取得的空间ID所示的文档空间数据库103的扩展文档空间中,确定以阈值以上的关联度来与取得的内容ID的内容关联起来的关键字,以作为扩展关键字的候补。而且,关联关键字推测部108,确定除了与检索关键字相同的关键字以外的关键字,以作为筛选关键字或扩展关键字的候补。
进而,关联关键字推测部108,从关联关键字生成比率决定部106取得显示比率,根据该显示比率,决定应该显示的筛选关键字以及扩展关键字的各个数量(筛选显示数以及扩展显示数)。因此,关联关键字推测部108,按从关联度大到小的顺序,从如上述所确定的筛选关键字的候补中选择筛选显示数的候补,以作为应该显示的筛选关键字。进而,关联关键字推测部108,按从关联度大到小的顺序,从如上述所确定的扩展关键字的候补中选择扩展显示数的候补,以作为应该显示的扩展关键字。
图9是用于说明关联关键字推测部108确定关联关键字的候补的工作的说明图。
关联关键字推测部108,例如,从文档空间选择部104取得筛选文档空间的空间ID“2”,并且,从内容推测部107取得内容ID“C4”。在此情况下,关联关键字推测部108,在取得的空间ID“2”所示的文档空间数据库103的筛选文档空间中,确定以阈值“0.5”以上的关联度来与取得的内容ID“C4”的内容关联起来的关键字,以作为筛选关键字的候补。
也就是,关联关键字推测部108,从作为空间ID“2”的筛选文档空间的矩阵中,参考与内容ID“C4”相对应的列矢量(0.8、0.2、0.1、0.4、0.7)。而且,关联关键字推测部108,确定在该列矢量中的、与阈值为“0.5”以上的关联度“0.8、0.7”相对应的关键字ID“KW1b、KW5b”的关键字,以作为筛选关键字的候补。
图10是用于具体说明关联关键字推测部108推测关联关键字的工作的说明图。
文档空间数据库103,例如存储示出内容1、内容2以及内容3和各个关键字的关系的三个文档空间(空间ID=1、2、3)。
空间ID“1”的文档空间示出,作为频度信息的DF值为100以上的关键字“体育、报道、电视剧”和内容1、2、3的关系;空间ID“2”的文档空间示出,DF值为大于20且99以下的关键字“足球、友情、日本”和内容1、2、3的关系;空间ID“3”的文档空间示出,作为频度信息的DF值为1以上且不足20的关键字“天气、巴西、学校”和内容1、2、3的关系。并且,关键字和内容的关系,以作为它们之间的关联度的TF-IDF值来被示出。
在这些情况下,关联关键字推测部108,若从内容推测部107取得示出作为关于体育电视剧的节目的内容3的内容ID,并从文档空间选择部104取得示出筛选文档空间的空间ID“2”,则参考如上所述的文档空间数据库103中的、与内容3以及筛选文档空间(空间ID=2)相对应的列矢量(0.7、0.9、0.1)。而且,关联关键字推测部108,确定在该列矢量中的具有阈值“0.5”以上的TF-IDF值“0.7、0.9”的关键字“足球、友情”,以作为筛选关键字的候补。
进而,关联关键字推测部108,从关联关键字生成比率决定部106取得显示比率,例如,利用在检索结果画面能够显示的关联关键字的最大数量和其显示比率,决定筛选显示数。关联关键字推测部108,例如,在该筛选显示数为1时,在如上述所确定的筛选关键字的候补“足球、友情”中,只选择TF-IDF值最大的筛选关键字“友情”,以作为应该显示在检索结果画面的筛选关键字。
关联关键字推测部108,通过这些选择来推测筛选关键字,将该筛选关键字的关键字ID输出到输出生成部110。
另一方面,关联关键字推测部108,若从内容推测部107取得示出内容3的内容ID,并从文档空间选择部104取得示出扩展文档空间的空间ID“1”,则参考如上所述的文档空间数据库103中的、与内容3以及扩展文档空间(空间ID=1)相对应的列矢量(0.8、0、0.7)。而且,关联关键字推测部108,确定在该列矢量中的具有阈值“0.5”以上的TF-IDF值“0.7”的关键字“电视剧”,以作为扩展关键字的候补。
而且,关联关键字推测部108,由于检索关键字为“体育”,因此,若在扩展文档空间有关键字“体育”,则从除了该关键字“体育”以外的其它的关键字中,确定具有阈值以上的TF-IDF值的扩展关键字的候补。因此,在所述的例子中,在列矢量中阈值“0.5”以上的TF-IDF值有“0.8”和“0.7”,但是,只确定具有TF-IDF值“0.7”的关键字“电视剧”,以作为扩展关键字的候补。
进而,关联关键字推测部108,与所述相同,从关联关键字生成比率决定部106取得显示比率,例如,利用在检索结果画面能够显示的关联关键字的最大数量和其显示比率,决定扩展显示数。例如,在如上述所确定的扩展关键字的候补有多个时,关联关键字推测部108,按从TF-IDF值大到小的顺序,从所确定的多个扩展关键字的候补中选择该扩展显示数的候补,以作为应该显示在检索结果画面的扩展关键字。
关联关键字推测部108,通过这些选择来推测扩展关键字,将该扩展关键字的关键字ID输出到输出生成部110。
图11是示出关联关键字推测部108的工作的流程图。
首先,关联关键字推测部108,取得内容推测部107所推测的内容的内容ID(步骤S301),并且,取得文档空间选择部104所选择的筛选文档空间的空间ID(步骤S302)。
其次,关联关键字推测部108,参考在步骤S302取得的空间ID示出的筛选文档空间中的、与在步骤S301取得的内容ID相对应的列矢量,确定具有阈值以上的关联度的关键字,以作为筛选关键字的候补(步骤S303)。进而,关联关键字推测部108,根据从关联关键字生成比率决定部106输出的显示比率,决定筛选显示数,并且,按从关联度大到小的顺序,选择在步骤S303所确定的筛选关键字的候补中的、其筛选显示数的候补,以作为应该显示在检索结果画面的筛选关键字(步骤S304)。
并且,关联关键字推测部108,取得文档空间选择部104所选择的扩展文档空间的空间ID(步骤S305)。
而且,关联关键字推测部108,参考在步骤S305取得的空间ID示出的扩展文档空间中的、与在步骤S301取得的内容ID相对应的列矢量,确定具有阈值以上的关联度的关键字,以作为扩展关键字的候补(步骤S306)。而且,关联关键字推测部108,若在该扩展文档空间中有与检索关键字相同的关键字,则从该关键字以外的关键字中,确定具有阈值以上的关联度的扩展关键字的候补。
进而,关联关键字推测部108,根据从关联关键字生成比率决定部106输出的显示比率,决定扩展显示数,并且,按从关联度大到小的顺序,选择在步骤S306所确定的扩展关键字的候补中的、其扩展显示数的候补,以作为应该显示在检索结果画面的扩展关键字(步骤S307)。
关联关键字推测部108,通过执行这些步骤S301~步骤S307的处理,从而将筛选关键字以及扩展关键字推测为关联关键字。
而且,本实施例中的关联关键字推测部108被构成为关联关键字选择单元,从内容数据库109中选择与筛选文档空间以及扩展文档空间分别相对应的筛选关键字以及扩展关键字,以便针对内容推测部107所检索的内容示出的关联度越大的关键字就越被选择。
输出生成部110,例如,若从内容推测部107取得示出内容3的内容ID,则从内容数据库109中抽出与该内容3相对应的内容属性信息,并输出到输出部111。进而,输出生成部110,若从关联关键字推测部108取得筛选关键字以及扩展关键字的各个关键字ID,则从内容数据库109中抽出这些关键字ID示出的筛选关键字以及扩展关键字,并输出到输出部111。
图12是示出输出部111所显示的检索结果画面的一个例子的图。
输出部111,针对检索关键字“体育”,若取得从输出生成部110如上述所输出的、内容3所对应的内容属性信息、和筛选关键字以及扩展关键字,则将它们配置并显示在检索结果画面的规定的地方。
因此,在内容列表L1,显示内容的名称“内容3”以及概要,以作为针对内容3的内容属性信息。并且,在筛选列表L2,显示用于筛选在内容列表L1所示的内容的筛选关键字“友情、足球”;在扩展列表L3,显示用于以与检索关键字“体育”不同的观点来重新进行检索的扩展关键字“电视剧”。
图13是示出内容检索装置100整体的工作的流程图。
首先,内容检索装置100的输入判别部101,接受通过用户的操作所选择的输入选择项(步骤S101),判别该输入选择项示出关键字还是内容(步骤S102)。
在此,若由输入判别部101判别为示出内容(步骤S102的“否”),输出生成部110,则从内容数据库109中抽出该内容的内容数据,从而生成向输出部111输出的信息(步骤S109)。而且,输出部111,若从输出生成部110取得该内容数据,则再生并显示该内容数据(步骤S110)。
另一方面,输入判别部101,若判别为输入选择项示出关键字(步骤S102的“是”),则将包含该关键字(检索关键字)以及关键字ID等的关键字信息存储到关键字记忆部102(步骤S103)。
内容推测部107,若在步骤S103包含检索关键字的关键字信息被存储到关键字记忆部102,如图8示出,则利用关键字记忆部102以及文档空间数据库103,检索并推测与检索关键字有关的内容(步骤S104)。
进而,文档空间选择部104,利用检索关键字,从文档空间数据库103中选择筛选文档空间和扩展文档空间(步骤S105)。
并且,检索条件判定部105,按照关键字记忆部102所存储的检索关键字,判定检索模式是筛选模式还是扩展模式(步骤S106)。而且,关联关键字生成比率决定部106,按照在步骤S106所判定的结果,决定应该显示的筛选关键字的数量和扩展关键字的数量的显示比率(步骤S107)。
若在步骤S107决定显示比率,关联关键字推测部108,则利用该显示比率、在步骤S104所推测的内容、在步骤S105所选择的筛选文档空间以及扩展文档空间,推测筛选关键字以及扩展关键字(步骤S108)。
若如此推测筛选关键字以及扩展关键字,输出生成部110,从内容数据库109中抽出这些筛选关键字以及扩展关键字,从而生成向输出部111输出的检索结果信息(步骤S109)。而且,输出部111,若从输出生成部110取得该检索结果信息,则显示该检索结果信息中包含的关联关键字(步骤S110)。
并且,若用户选择输出部111所显示的关联关键字中的任一个,内容检索装置100,则接受所选择的关联关键字,以作为新的下个检索关键字。也就是,内容检索装置100,反复执行从步骤S101开始的处理。因此,用户能够从内容数据库109中找出所希望的内容。
如此,在本实施例中,利用按照关键字的频度信息被分类的多个文档空间,选择比检索关键字所对应的文档空间频度信息小的频度信息的文档空间,以作为筛选文档空间,并显示依据该筛选文档空间示出大的关联度的关键字,以作为筛选关键字,并且,选择检索关键字所对应的文档空间的频度信息以上的频度信息的文档空间,以作为扩展文档空间,并显示依据该扩展文档空间示出大的关联度的关键字,以作为扩展关键字。
以下是以频度信息来将文档空间分类的理由。在关键字的频度信息的值、和与关键字有关的内容数量之间存在正相关关系。因此,为了向用户出示用于筛选内容的关键字(筛选关键字),而需要出示具有比检索关键字的频度信息的值小的频度信息的关键字,以作为筛选关键字。另一方面,为了向用户出示用于检索与向用户所出示的内容不同的其它的内容的关键字(扩展关键字),而需要出示具有正在出示中的内容数量以上的频度信息的值的关键字,以作为扩展关键字。
于是,如上所述,预先以频度信息来将文档空间分类,以便汇集与内容数量的关系为相同程度的关键字,来在它们之间能够建立关系,并分别使用用于选择筛选关键字或扩展关键字的文档空间,从而能够同时出示适当的筛选关键字以及扩展关键字。
也就是,在作为用户的检索对象的内容流动变化的情况下,也能够向用户出示用于检索所希望的内容的关联关键字,因此用户能够从大量的内容中容易找出所希望的内容。
而且,在本实施例中,如图10示出,将文档空间分类为三个,将用于分类的阈值(DF值)为100或20,但也可以,例如,在预先对多名用户进行试验后决定该文档空间的数量或阈值。具体而言,首先,算出文档空间整体中包含的关键字的DF值,向用户出示DF值不同的多个关键字。而且,将各个关键字分类为,在以所出示的关键字来检索时有可能获得与相同程度的检索结果数的组。据此,能够设定文档空间的数量或阈值。
以上,对于本发明涉及的内容检索装置,利用所述实施例进行了说明,但是,本发明不仅限于此。
例如,关联关键字推测部108,在从多个筛选关键字的候补中选择几个筛选关键字时,按从关联度大到小的顺序进行了选择,但也可以,利用联想词典进行选择。
一般而言,在用户选择筛选关键字或扩展关键字等的关联关键字的情况下,选择与检索关键字的关联性强的关联关键字。然而,在利用所述的LSI制作文档空间数据库103的各个文档空间的情况下,有时,在关联关键字推测部108所确定的筛选关键字的候补中包含与检索关键字的关联性弱的候补。因此,即使出示与检索关键字的关联性弱的筛选关键字,也该筛选关键字被选择的可能性低。
于是,为了避免这些关联性弱的筛选关键字被出示,关联关键字推测部108,而预先制作示出构成文档空间的关键字之间的关联性的联想词典,并利用它来从筛选关键字的候补中选择应该显示的筛选关键字。
联想词典是,例如以“自然言语处理(自然语言处理)”(pp,387~392,岩波书店,1996)(非专利文献3)所示的方法来自动制作出的。并且,也可以利用设计者预先制作的联想词典。
图14是示出联想词典的一个例子的图。
如图14示出,联想词典被构成为矩阵,以联想值来示出关键字之间的关联强度。
关联关键字推测部108,利用这些联想词典,从所确定的多个筛选关键字的候补中选择应该显示的几个筛选关键字。
例如,关键字ID“KW2”的关键字作为检索关键字被接受到输入判别部101,并确定关键字ID“KW3、KW4、KW5”的关键字,以分别作为筛选关键字的候补。并且,关联关键字推测部108,根据从关联关键字生成比率决定部106输出的显示比率,决定筛选显示数“2”。
在这些情况下,关联关键字推测部108,在图14示出的联想词典中,参考针对检索关键字(关键字ID=KW2)的、筛选关键字的候补(关键字ID=KW3、KW4、KW5)的联想值(0.4、0.7、0.8)。而且,关联关键字推测部108,从该三个筛选关键字的候补中,按从联想值大到小的顺序,选择二个候补,以作为应该显示的筛选关键字。也就是,关键字ID“KW4、KW5”的关键字被选择,以作为筛选关键字。
据此,能够防止从筛选关键字的候补中的、与检索关键字的关联性弱的候补被显示为筛选关键字。因此,能够减少因用户不能找出所希望的筛选关键字而重新进行检索来增加的检索步骤数。
并且,关联关键字推测部108,在从扩展关键字的候补中选择应该显示的扩展关键字时,也可以与所述相同利用联想词典来进行选择。据此,能够更减少因用户不能找出所希望的扩展关键字而重新进行检索来增加的检索步骤数。
并且,在本实施例中,关联关键字推测部108,将所选择的多个关联关键字的关键字ID输出到输出生成部110,但也可以,不是将这些关键字ID输出,而是根据所选择的多个关联关键字生成新的结合关联关键字,并将该结合关联关键字通过输出生成部110显示在输出部111。
而且,关联关键字推测部108,在选择了二个筛选关键字时,判别在与二个筛选关键字的每一个相对应的内容群中重复的内容的数量是否在阈值以上。因此,若判别为在阈值以上,关联关键字推测部108,则结合这些二个筛选关键字来生成结合关联关键字,并将该结合关联关键字显示在筛选列表L2。并且,与所述相同,关联关键字推测部108,在选择了二个扩展关键字时,判别在与二个扩展关键字的每一个相对应的内容群中重复的内容的数量是否在阈值以上。因此,若判别为在阈值以上,关联关键字推测部108,则结合这些二个扩展关键字来生成结合关联关键字,并将该结合关联关键字显示在扩展列表L3。
据此,由于将被预测为检索结果都相同的二个关联关键字结合来显示为一个关联关键字,因此,用户能够不迷惑应该选择哪个关联关键字,而容易选择所希望的关联关键字。
本发明的内容检索装置可以适应于,从服务器等所存储的大量的内容中检索用户想要视听的内容的检索装置。例如,能够适用于如图15示出的、内置有硬盘的DVD(Digital Versatile Disk:数字多用光盘)刻录器或播放器等的、再生节目的设备。内容是,例如电视节目、电影和音乐等的视听内容、或书籍和论文等的文本内容等,与种类无关,而只要具有作为内容的属性的字符信息,就可以是任何数据。

Claims (17)

1、一种内容检索装置,根据内容数据库,显示与用于检索内容的检索关键字有关的关联关键字,在所述内容数据库中多个内容的每一个与多个关键字一起被存储,所述内容检索装置包括:
关键字取得单元,取得检索关键字;
内容检索单元,从所述内容数据库中检索对应于所述检索关键字的内容;
文档空间存储单元,存储文档空间信息,该文档空间信息,所述内容数据库中包含的各个关键字按照针对所述内容数据库的各个内容出现的出现频度而被分类的每个分区,示出各个内容和各个关键字之间的关联度;
文章空间选择单元,按照第一文档空间信息的出现频度,从所述文档空间存储单元中选择第二文章空间信息,所述第一文档空间信息示出所述检索关键字和所述检索关键字所对应的内容之间的关联度;以及
显示单元,显示所述文章空间选择单元所选择的第二文章空间信息中满足规定的基准的关键字,以作为关联关键字。
2、如权利要求1所述的内容检索装置,
所述第二文章空间信息的出现频度,至少在所述第一文章空间信息的出现频度以上、或比所述第一文章空间信息的出现频度少。
3、如权利要求1所述的内容检索装置,
所述文章空间选择单元,具有:
第一文档空间选择单元,从所述文档空间存储单元中选择与比所述第一文档空间信息的出现频度少的出现频度相对应的第二文档空间信息,以作为筛选文档空间信息;
所述显示单元,显示所述筛选空间信息中满足规定的基准的关键字,以作为所述关联关键字。
4、如权利要求3所述的内容检索装置,
所述文章空间选择信息,具有:
第二文档空间选择单元,从所述文档空间存储单元中选择与所述第一文章空间信息的出现频度以上的出现频度相对应的第二文档空间信息,以作为扩展文档空间信息;
所述显示单元,显示作为所述筛选空间信息中满足规定的基准的关键字的筛选关键字、和作为所述扩展空间信息中满足规定的基准的关键字的扩展关键字,以作为所述关联关键字。
5、如权利要求4所述的内容检索装置,
所述内容检索装置还包括:
关联关键字选择单元,从所述内容数据库中选择与所述筛选文档空间信息以及所述扩展文档空间信息分别相对应的筛选关键字以及扩展关键字,以便针对所述内容检索单元所检索的内容示出的关联度越大的关键字就越被选择;
所述显示单元,显示所述关联关键字选择单元所选择的筛选关键字以及扩展关键字,以作为所述关联关键字,并且,显示所述内容检索单元所检索的内容的属性。
6、如权利要求5所述的内容检索装置,
所述文档空间存储单元,在将文档频度值作为所述出现频度利用来分类的各个关键字的每个分区,存储所述文档空间信息。
7、如权利要求5所述的内容检索装置,
所述内容检索单元,
在用户选择所述显示单元所显示的筛选关键字,从而所述关键字取得单元取得所述筛选关键字,以作为所述检索关键字的情况下,判断为应该进行筛选检索,并检索与在所述检索关键字之前所述关键字取得单元所取得的其它的关键字以及所述检索关键字相对应的内容。
8、如权利要求7所述的内容检索装置,
所述内容检索单元,
在用户选择所述显示单元所显示的扩展关键字,从而所述关键字取得单元取得所述扩展关键字,以作为所述检索关键字的情况下,判断为应该进行扩展检索,并检索只与所述检索关键字相对应的内容。
9、如权利要求8所述的内容检索装置,
所述内容检索装置还包括:
检索条件判定单元,在用户选择所述显示单元所显示的筛选关键字,从而所述关键字取得单元取得所述筛选关键字,以作为所述检索关键字的情况下,判定为由所述内容检索单元进行筛选检索,在用户选择所述显示单元所显示的扩展关键字,从而所述关键字取得单元取得所述扩展关键字,以作为所述检索关键字的情况下,判定为由所述内容检索单元进行扩展检索;以及
比率决定单元,按照所述检索条件判定单元所判定的结果,决定所述显示单元所显示的所述筛选关键字的数量和扩展关键字的数量的比率;
所述关联关键字选择单元,选择与所述比率决定单元所决定的比率相对应的数量的筛选关键字以及扩展关键字。
10、如权利要求9所述的内容检索装置,
所述比率决定单元,在所述检索条件判定单元判定为进行筛选检索的情况下,决定比率,以便所述筛选关键字的数量多于所述扩展关键字的数量。
11、如权利要求9所述的内容检索装置,
所述比率决定单元,在所述检索条件判定单元判定为进行扩展检索的情况下,决定比率,以便所述扩展关键字的数量多于所述筛选关键字的数量。
12、如权利要求5所述的内容检索装置,
内容检索单元,判别与所述检索关键字相对应的内容群、和与在所述检索关键字之前所述关键字取得单元所取得的其它的关键字相对应的内容群之间重复的内容的数量是否在阈值以上,
在判别为阈值以上的情况下,检索与所述检索关键字以及所述其它的关键字相对应的内容,
在判别为不足阈值的情况下,检索只与所述检索关键字相对应的内容。
13、如权利要求5所述的内容检索装置,
所述关联关键字选择单元,选择示出阈值以上的关联度的关键字,以作为所述筛选关键字或扩展关键字。
14、如权利要求5所述的内容检索装置,
所述关联关键字选择单元,在选择多个筛选关键字或扩展关键字的情况下,且在与所述多个筛选关键字或扩展关键字的每一个相对应的内容群中重复的内容的数量在阈值以上的情况下,通过结合所述多个筛选关键字或扩展关键字,从而生成结合关联关键字,
所述显示单元,不显示所述多个筛选关键字或扩展关键字,而显示所述结合关联关键字。
15、如权利要求5所述的内容检索装置,
所述关联关键字选择单元,
从所述内容数据库中选择所述筛选关键字以及扩展关键字,以便在对所述内容检索单元所检索的内容示出的关联度越大、且在联想词典中示出的与所述检索关键字之间的关联性越强的关键字就越被选择,所述联想词典示出各个关键字之间的关联性。
16、一种内容检索方法,根据内容数据库,显示与用于检索内容的检索关键字有关的关联关键字,在所述内容数据库中多个内容的每一个与多个关键字一起被存储,所述内容检索方法包括:
关键字取得步骤,取得检索关键字;
内容检索步骤,从所述内容数据库中检索对应于所述检索关键字的内容;
文章空间选择步骤,利用文档空间存储单元,按照第一文档空间信息的出现频度,从所述文档空间存储单元中选择第二文章空间信息,所述第一文档空间信息示出所述检索关键字和所述检索关键字所对应的内容之间的关联度,所述文档空间存储单元存储文档空间信息,该文档空间信息,按照针对所述内容数据库的各个内容出现的出现频度来所述内容数据库中包含的各个关键字被分类的每个区分,示出各个内容和各个关键字之间的关联度;以及
显示步骤,显示在所述文章空间选择步骤所选择的第二文章空间信息中满足规定的基准的关键字,以作为关联关键字。
17、一种程序,用于根据内容数据库,显示与用于检索内容的检索关键字有关的关联关键字,在所述内容数据库中多个内容的每一个与多个关键字一起被存储,所述程序使计算机执行以下的步骤:
关键字取得步骤,取得检索关键字;
内容检索步骤,从所述内容数据库中检索对应于所述检索关键字的内容;
文章空间选择步骤,利用文档空间存储单元,按照第一文档空间信息的出现频度,从所述文档空间存储单元中选择第二文章空间信息,所述第一文档空间信息示出所述检索关键字和所述检索关键字所对应的内容之间的关联度,所述文档空间存储单元存储文档空间信息,该文档空间信息,按照针对所述内容数据库的各个内容出现的出现频度来所述内容数据库中包含的各个关键字被分类的每个区分,示出各个内容和各个关键字之间的关联度;以及显示步骤,显示在所述文章空间选择步骤所选择的第二文章空间信息中满足规定的基准的关键字,以作为关联关键字。
CN2008800041818A 2007-08-09 2008-08-05 内容检索装置 Expired - Fee Related CN101606155B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP208274/2007 2007-08-09
JP2007208274 2007-08-09
PCT/JP2008/002111 WO2009019860A1 (ja) 2007-08-09 2008-08-05 コンテンツ検索装置

Publications (2)

Publication Number Publication Date
CN101606155A true CN101606155A (zh) 2009-12-16
CN101606155B CN101606155B (zh) 2013-03-13

Family

ID=40341101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800041818A Expired - Fee Related CN101606155B (zh) 2007-08-09 2008-08-05 内容检索装置

Country Status (4)

Country Link
US (1) US7831610B2 (zh)
JP (1) JP4436894B2 (zh)
CN (1) CN101606155B (zh)
WO (1) WO2009019860A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750280A (zh) * 2011-04-19 2012-10-24 国际商业机器公司 用于搜索的计算机处理方法及系统
CN102999366A (zh) * 2011-12-09 2013-03-27 微软公司 基于推断的扩展激活
CN104683716A (zh) * 2013-11-27 2015-06-03 纬创资通股份有限公司 电子节目指南的产生装置及电子节目指南的产生方法
US9449112B2 (en) 2012-01-30 2016-09-20 Microsoft Technology Licensing, Llc Extension activation for related documents
US9679163B2 (en) 2012-01-17 2017-06-13 Microsoft Technology Licensing, Llc Installation and management of client extensions
CN109891499A (zh) * 2016-10-19 2019-06-14 三菱电机株式会社 语音识别装置及语音识别方法
US10503370B2 (en) 2012-01-30 2019-12-10 Microsoft Technology Licensing, Llc Dynamic extension view with multiple levels of expansion

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4854491B2 (ja) * 2006-12-13 2012-01-18 キヤノン株式会社 画像処理装置及びその制御方法
JP5110201B2 (ja) * 2009-03-17 2012-12-26 富士通株式会社 検索処理方法及び装置
US8694505B2 (en) 2009-09-04 2014-04-08 Microsoft Corporation Table of contents for search query refinement
JP5379627B2 (ja) * 2009-09-29 2013-12-25 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索制御装置、検索制御方法、及びプログラム
JP5284990B2 (ja) 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US20120078979A1 (en) * 2010-07-26 2012-03-29 Shankar Raj Ghimire Method for advanced patent search and analysis
TW201544980A (zh) * 2014-05-30 2015-12-01 shu-zhen Lin 文章自動篩選系統
US20160048781A1 (en) * 2014-08-13 2016-02-18 Bank Of America Corporation Cross Dataset Keyword Rating System
RU2626663C2 (ru) 2015-06-30 2017-07-31 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для создания предложений по завершению поисковых запросов
JP5919450B1 (ja) * 2015-07-22 2016-05-18 楽天株式会社 検索装置、検索方法、記録媒体、および、プログラム
CN105808685B (zh) * 2016-03-02 2021-09-28 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
US20170365022A1 (en) * 2016-06-17 2017-12-21 Accenture Global Solutions Limited Liquid workforce platform
CN109213921A (zh) * 2017-06-29 2019-01-15 广州涌智信息科技有限公司 一种商品信息的搜索方法及装置
CN112868001B (zh) * 2018-10-04 2024-04-26 株式会社力森诺科 文档检索装置、文档检索程序、文档检索方法
CN113204691B (zh) * 2021-05-31 2023-08-04 抖音视界有限公司 一种信息展示方法、装置、设备及介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3916007B2 (ja) * 1996-08-01 2007-05-16 高嗣 北川 意味情報処理方法及びその装置
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
CA2406203A1 (en) * 2000-04-18 2001-10-25 Korea Telecom Method and system for retrieving information based on meaningful core word
JP3812719B2 (ja) * 2001-04-16 2006-08-23 三菱電機株式会社 文書検索装置
JP2002324077A (ja) * 2001-04-24 2002-11-08 Mitsubishi Electric Corp 文書検索装置および文書検索方法
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
TW200512599A (en) * 2003-09-26 2005-04-01 Avectec Com Inc Method for keyword correlation analysis
US20050154713A1 (en) * 2004-01-14 2005-07-14 Nec Laboratories America, Inc. Systems and methods for determining document relationship and automatic query expansion
JP2006011851A (ja) * 2004-06-25 2006-01-12 Oki Electric Ind Co Ltd 文書合致度演算システム、文書合致度演算方法及び文書合致度演算プログラム
US20060248060A1 (en) * 2005-04-13 2006-11-02 Silverberg Marc E Search results web page with provisions for e-mailing individual search results
US7552398B2 (en) * 2005-05-24 2009-06-23 Palo Alto Research Center Incorporated Systems and methods for semantically zooming information

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750280A (zh) * 2011-04-19 2012-10-24 国际商业机器公司 用于搜索的计算机处理方法及系统
CN102999366A (zh) * 2011-12-09 2013-03-27 微软公司 基于推断的扩展激活
US9679163B2 (en) 2012-01-17 2017-06-13 Microsoft Technology Licensing, Llc Installation and management of client extensions
US10922437B2 (en) 2012-01-17 2021-02-16 Microsoft Technology Licensing, Llc Installation and management of client extensions
US9449112B2 (en) 2012-01-30 2016-09-20 Microsoft Technology Licensing, Llc Extension activation for related documents
US10459603B2 (en) 2012-01-30 2019-10-29 Microsoft Technology Licensing, Llc Extension activation for related documents
US10503370B2 (en) 2012-01-30 2019-12-10 Microsoft Technology Licensing, Llc Dynamic extension view with multiple levels of expansion
CN104683716A (zh) * 2013-11-27 2015-06-03 纬创资通股份有限公司 电子节目指南的产生装置及电子节目指南的产生方法
CN104683716B (zh) * 2013-11-27 2018-03-13 纬创资通股份有限公司 电子节目指南的产生装置及电子节目指南的产生方法
CN109891499A (zh) * 2016-10-19 2019-06-14 三菱电机株式会社 语音识别装置及语音识别方法
CN109891499B (zh) * 2016-10-19 2022-12-09 三菱电机株式会社 语音识别装置及语音识别方法

Also Published As

Publication number Publication date
US20090300011A1 (en) 2009-12-03
US7831610B2 (en) 2010-11-09
CN101606155B (zh) 2013-03-13
WO2009019860A1 (ja) 2009-02-12
JPWO2009019860A1 (ja) 2010-10-28
JP4436894B2 (ja) 2010-03-24

Similar Documents

Publication Publication Date Title
CN101606155B (zh) 内容检索装置
US6751776B1 (en) Method and apparatus for personalized multimedia summarization based upon user specified theme
US10324899B2 (en) Methods for characterizing content item groups
US8321456B2 (en) Generating metadata for association with a collection of content items
KR101194705B1 (ko) 연관된 컨텐츠의 검색에 의한 위치 유사성 문턱값의 적응화
US20160055164A1 (en) News alert system and method
CN101398843B (zh) 用于浏览视频概要描述数据的设备及方法
US20100217755A1 (en) Classifying a set of content items
KR101252670B1 (ko) 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
CN106528716A (zh) 一种多媒体搜索内容的推荐方法和装置
US8838580B2 (en) Method and system for providing keyword ranking using common affix
CN103268345A (zh) 影视数据的检索方法及装置
KR101122737B1 (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
JPWO2010061535A1 (ja) 情報検索装置、情報検索方法、及びプログラム
Nitta et al. Automatic personalized video abstraction for sports videos using metadata
JP2006228059A (ja) ポインタの位置情報を利用するプレゼンテーションコンテンツ検索システムおよびその方法、ならびにコンピュータ読み取り可能な記録媒体
Barbieri et al. Video summarization: methods and landscape
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
Ashok Kumar et al. An efficient scene content-based indexing and retrieval on video lectures
Tsai et al. Dynamic social network for narrative video analysis
Li et al. iTopic: Influential topic discovery from information networks via keyword query
TWI780333B (zh) 動態處理並播放多媒體內容的方法及多媒體播放裝置
Jacob et al. An innovative Method of Accessing Digital Video Archives through Video Indexing
WO2008143407A1 (en) Method and system for providing keyword ranking using common affix
Li et al. A Cross-Media Retrieval System for Web-SNS-Map Using Suggested Keywords Generating and Ranking Method Based on Search Characteristics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20141010

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20141010

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130313

Termination date: 20170805