具体实施方式
以下,参照附图说明本发明的实施例中的内容检索装置。而且,在本实施例中说明一种内容检索装置,从蓄积有多个内容的服务器等中检索用户想要视听的内容,该多个内容是从过去到现在为止的电视节目。
图1是示出本实施例中的内容检索装置的结构的方框图。
本实施例中的内容检索装置100是一种装置,在作为用户的检索对象的内容流动变化的情况下,也能够向用户出示用于检索所希望的内容的关联关键字,内容检索装置100包括输入判别部101、关键字记忆部102、文档空间数据库103、文档空间选择部104、检索条件判定部105、关联关键字生成比率决定部106、内容推测部107、关联关键字推测部108、内容数据库109、输出生成部110、以及输出部111。
输入判别部101,接受输出部111所显示的多个选择项中的、通过用户的操作所选择的选择项(以下,称为输入选择项),判别该输入选择项示出关键字、还是示出内容。输入判别部101,若判别为示出关键字,则将该输入选择项输出到关键字记忆部102,若判别为示出内容,则将该输入选择项输出到输出生成部110。在此,在输入判别部101最近接受了的输入选择项示出关键字的情况下,以下,将该关键字称为检索关键字。
关键字记忆部102,具有用于记忆从输入判别部101输出的输入选择项示出的关键字的区域。
检索条件判定部105,判定由关键字记忆部102所存储的检索关键字的检索的模式(检索模式)是筛选模式还是扩展模式。在此,筛选模式是指,组合检索关键字、和从检索开始时到现在为止所输入的过去的关键字,来对内容进行筛选来检索(筛选检索)的模式。另一方面,扩展模式是指,与过去的关键字无关,而进行只符合检索关键字的内容的检索(扩展检索)的模式。
关联关键字生成比率决定部106,按照检索条件判定部105所判定的结果,决定应该显示的筛选关键字的数量和扩展关键字的数量的比率(显示比率)。筛选关键字是,能够成为用于执行筛选检索的下一个检索关键字的关键字,也是用于在由过去所输入的关键字所检索的内容内进一步进行细分化来筛选的关键字。另一方面,扩展关键字是,能够成为用于执行扩展检索的下一个检索关键字的关键字,也是用于由关联度与过去所输入的关键字相近的新的关键字重新检索内容的关键字。并且,将这些筛选关键字以及扩展关键字总称为关联关键字。
内容数据库109,依次存储正在广播中的电视节目等的多个内容。在此,内容包含示出电视节目的运动图像或声音的内容数据、和如电视节目的EPG信息那样示出该电视节目的属性的内容属性信息。
文档空间数据库103存储示出内容数据库109所示的各个内容、和各个关键字之间的关系的多个文档空间。而且,依据空间ID来识别文档空间数据库103所存储的多个文档空间的每一个。
文档空间选择部104,利用检索关键字从文档空间数据库103中选择为了推测筛选关键字而应该使用的文档空间(以下,称为筛选文档空间)、和为了推测扩展关键字而应该使用的文档空间(以下,称为扩展文档空间)。而且,文档空间选择部104,将所选择的筛选文档空间的空间ID、和所选择的扩展文档空间的空间ID输出到关联关键字推测部108。
内容推测部107,利用关键字记忆部102所记忆的关键字、和文档空间数据库103所存储的多个文档空间,推测与检索关键字有关的内容。而且,内容推测部107,将用于识别所推测的内容的内容ID输出到关联关键字推测部108以及输出生成部110。
关联关键字推测部108,取得从内容推测部107输出的内容ID、关联关键字生成比率决定部106所决定的比率、和从文档空间选择部104输出的空间ID,并且,利用它们和文档空间数据库103推测筛选关键字以及扩展关键字,以作为关联关键字。关联关键字推测部108,将用于识别所推测的关联关键字的关键字ID输出到输出生成部110。
输出生成部110,若从输入判别部101取得示出内容的输入选择项,则从内容数据库109中抽出对应于该输入选择项的内容数据,并输出到输出部111。
并且,输出生成部110,若从内容推测部107取得内容ID,并且从关联关键字推测部108取得关键字ID,则从内容数据库109中抽出对应于该内容ID的内容属性信息、和对应于该关键字ID的关联关键字。而且,输出生成部110,将包含该内容属性信息和关联关键字的检索结果信息输出到输出部111。
输出部111,具备例如液晶显示器等,若从输出生成部110取得内容数据,则再生该内容数据。另一方面,输出部111,若从输出生成部110取得检索结果信息,则显示该检索结果信息的细节。
而且,在本实施例中:输入判别部101被构成为取得单元,取得检索关键字;内容推测部107被构成为内容检索单元,从内容数据库109中检索对应于检索关键字的内容;输出部111被构成为显示单元,用于显示关联关键字推测部108所推测的筛选关键字以及扩展关键字,以作为关联关键字,并且显示内容推测部107所推测的内容的属性。
在此,对于这些内容检索装置100整体的工作,利用该内容检索装置100所显示的画面进行说明。
图2是示出内容检索装置100在检索开始时显示的画面的一个例子的图。
例如,内容检索装置100,在检索开始时,在输出部111显示初始检索画面。在该初始检索画面显示,作为选择项的“松下花子”、“日本”或“篮球”等,以作为初始检索关键字。在此情况下,输出生成部110,使输出部111显示例如预先设定的“松下花子”或“日本”等的单词,以作为初始检索关键字。而且,输出生成部110也可以,使输出部111显示“体育”或“实录”等的示出一般类型的单词,以作为初始检索关键字。并且,输出生成部110也可以,利用输出到输出部111的内容数据的履历,即,利用用户的视听履历,使输出部111显示用户的视听频度多的内容的内容属性信息中包含的单词,以作为初始检索关键字。
在此,用户,从输出部111的初始检索画面所显示的作为选择项的初始检索关键字中,选择例如初始检索关键字“松下花子”。因此,内容检索装置100,显示包含与初始检索关键字“松下花子”有关的内容属性信息、和与初始检索关键字“松下花子”有关的关键字(关联关键字)的检索结果信息的细节。
图3是示出内容检索装置100在初始检索画面后显示的画面的一个例子的图。
内容检索装置100,如上所述,若初始检索画面中的任一个初始检索关键字被选择为输入选择项,则检索与该初始检索关键字有关的内容或关联关键字,在输出部111显示对应于该初始检索关键字的检索结果画面。在该检索结果画面显示:示出与所选择的初始检索关键字有关的内容属性信息(内容的名称或概要)的一览的内容列表L1;示出与所选择的初始检索关键字有关的筛选关键字的一览的筛选列表L2;示出与所选择的初始检索关键字有关的扩展关键字的一览的扩展列表L3。而且,这些内容属性信息、筛选关键字以及扩展关键字,分别被显示为新的选择项。
例如,如上所述,若在初始检索画面选择初始检索关键字“松下花子”,则在内容列表L1显示与“松下花子”有关的多个内容的名称以及其概要,在筛选列表L2显示与“松下花子”有关的多个筛选关键字,在扩展列表L3显示与“松下花子”有关的多个扩展关键字。
在此,用户,若在输出部111的检索结果画面的内容列表L1中有想要视听的内容的名称等,则选择该内容的名称等。因此,内容检索装置100,从内容数据库109中抽出与所选择的内容的名称(示出内容的输入选择项)相对应的内容数据,并进行再生,从而使输出部111进行显示。据此,内容的检索结束。
另一方面,用户,若在输出部111的检索结果画面的内容列表L1中没有想要视听的内容的名称等,则从筛选列表L2或扩展列表L3中选择有可能与想要视听的内容有关的关联关键字。因此,内容检索装置100,将所选择的关联关键字作为下个检索关键字(输入选择项),检索与该检索关键字有关的内容或关联关键字,从而在输出部111显示与该检索关键字有关的检索结果画面。
图4是示出内容检索装置100在检索结果画面后显示的其它的检索结果画面的一个例子的图。
例如,若从图3示出的检索结果画面的筛选列表L2中选择筛选关键字“京都”,则在内容列表L1显示与“京都”有关的多个内容的名称以及其概要,在筛选列表L2显示与“京都”有关的多个筛选关键字,在扩展列表L3显示与“京都”有关的多个扩展关键字。
如此,内容检索装置100,在每次由用户选择关联关键字(筛选关键字或扩展关键字)时,将该关联关键字作为新的检索关键字,反复检索并显示与该检索关键字有关的新的内容以及关联关键字。
在此,对于内容检索装置100的各个构成要素,进行详细说明。
图5是示出内容数据库109所蓄积的多个内容属性信息的一个例子的图。
内容属性信息CA中包含例如用于识别内容的内容ID、作为内容的名称的内容名、内容的视听开始时刻、对应于内容的关键字、以及内容的概要。
而且,依据像EPG那样的、被记载为内容数据的属性的描述或标题等,进行形态分析等,从而抽出内容属性信息CA中包含的关键字。并且,内容属性信息CA中包含的各个关键字,被附上用于识别这些关键字的关键字ID。
图6是示出文档空间数据库103所存储的多个文档空间的图。
例如,文档空间数据库103,存储以空间ID“1、2、3”所示的三个文档空间。
各个文档空间,以矩阵来示出所述内容属性信息CA中包含的多个关键字(关键字ID)的每一个、和内容数据库109所示的所有的内容(内容ID)的每一个之间的关联度。例如,将TF(Term Frequency)-IDF(InverseDocument Frequency)值等用于关联度。
TF-IDF值是指,组合了针对文档(内容)的关键字的网罗性或特定性的关键字的加权的指标,例如,在“情报检索と言语处理(信息检索和语言处理)”(pp.32~33,东京大学出版会,1999)(非专利文献1)记载有具体算出方法。
例如,也可以以隐性语义索引(Latent Semantic Indexing;:以下称为LSI)来将TF-IDF值等的值抽象化。在利用LSI的情况下,在高维空间分别处理的关键字,在低维空间有可能相关联,因此,能够进行基于关键字具有的语义或概念的检索。例如,棒球和Baseball是不同的关键字,依据一方的关键字的询问不能检索包含另一方的关键字的文档。但是,在低维空间,由于可以期待在语义上相关联的这些关键字被简并为一个维,因此通过输入称为棒球的关键字,从而也能够检索包含Baseball的节目。在“情报检索アルゴリズム(信息检索算法)”(pp.65~77,共立出版,2002)(非专利文献2)记载有利用LSI的文档检索方法。
而且,在图6示出的例子中,针对内容(内容属性信息CA)中出现的关键字示出关联度“1”,针对内容中不出现的关键字示出关联度“0”。例如,空间ID“1”的文档空间,将关键字ID“KW1a”的关键字针对内容ID“C1、C2、…Ck”的关联度示出为“1、1、…0”。
并且,三个文档空间,依据关键字的频度信息被区分。关键字的频度信息是指,在内容数据库109的各个内容中出现该关键字的出现频度。例如,利用作为与针对关键字的内容数量关联起来的指标的DF值(DocumentFrequency:文档频度(关键字出现的文档数))等,以作为频度信息。因此,较多的内容(内容属性信息CA)中出现的关键字的频度信息示出的值大,较少的内容(内容属性信息CA)中出现的关键字的频度信息示出的值小。
例如,空间ID“1”的文档空间示出频度信息示出的值大的各个关键字和各个内容之间的关联度;空间ID“2”的文档空间示出频度信息示出的值为中等程度的各个关键字和各个内容之间的关联度;空间ID“3”的文档空间示出频度信息示出的值小的各个关键字和各个内容之间的关联度。
也就是,关键字ID“KW1a、KW2a、…KWna”的各个关键字,由于出现在较多的内容(内容属性信息CA)中,因此被分类为空间ID“1”的文档空间;关键字ID“KW1b、KW2b、…KWmb”的各个关键字,由于出现在中等程度的数量的内容(内容属性信息CA)中,因此被分类为空间ID“2”的文档空间;关键字ID“KW1c、KW2c、…KWlc”的各个关键字,由于出现在较少的内容(内容属性信息CA)中,因此被分类为空间ID“3”的文档空间。
而且,按照内容数据库的更新进行文档空间的更新。因此,因内容数据库的更新而发生空间ID和关键字(关键字ID)之间的对应关系的变化。例如,称为“滑雪”的关键字,在冬天出现的情况多,因此,在冬天,该关键字(关键字ID)与高位的空间ID相对应,即,与频度信息示出的值大的文档空间的空间ID相对应。反而,在夏天,称为“滑雪”的关键字的出现频度变少,因此,该关键字(关键字ID)与低位的空间ID相对应,即,与频度信息示出的值小的文档空间的空间ID相对应。
据此,按照时期的变化,能够准确地使关键字和用户想起的节目数对应起来,也能够出示没有不协调感的筛选关键字以及扩展关键字。
本实施例的特点是,如上所述,按照关键字的出现频度,将示出内容数据库109中包含的各个内容和各个关键字之间的关系的文档空间分割为多个。
输入判别部101,若接受如图3示出的检索结果画面的内容列表L1所显示的输入选择项,则判别为该输入选择项示出内容,并将作为该输入选择项的内容ID输出到输出生成部110。
另一方面,输入判别部101,若接受如图3示出的检索结果画面的筛选列表L2或扩展列表L3所显示的输入选择项,则判别为该输入选择项示出关键字,并将作为该输入选择项的关键字ID、和示出该关键字ID的关键字存储到关键字记忆部102。此时,输入判别部101,将检索模式标志和检索步骤,与关键字ID以及关键字一起存储到关键字记忆部102,所述检索模式标志示出如图3示出的筛选列表L2以及扩展列表L3中的哪一方中选择了输入选择项,所述检索步骤示出该选择是从检索开始时第几次的选择。
图7是示出关键字记忆部102所存储的信息的图。
例如,输入判别部101,若接受示出如图2示出的初始检索画面上的多个选择项中所选择的初始检索关键字“松下花子”的输入选择项,则将其关键字“松下花子”、其关键字ID“10”以及示出第一次的选择的检索步骤“1”关联起来,存储到关键字记忆部102。而且,由于此时的输入选择项,不包含在筛选列表L2以及扩展列表L3的两者中,因此,输入判别部101将检索模式标志“初始”与所述关键字关联起来存储。
其次,例如,输入判别部101,若接受示出如图3示出的检索结果画面上的多个选择项中所选择的关键字“京都”的输入选择项,则将其关键字“京都”、其关键字ID“23”、示出第二次的选择的检索步骤“2”、以及示出从筛选列表L2中所选择的事宜的检索模式标志“筛选”关联起来,存储到关键字记忆部102。
而且,输入判别部101,也可以将输入选择项示出的关键字所属的文档空间的空间ID,与该关键字关联起来,存储到关键字记忆部102。
以下,将由如此在关键字记忆部102相关链并存储的检索步骤、关键字、关键字ID以及检索模式标志构成的信息,称为关键字信息。
内容推测部107,利用如图7示出关键字记忆部102所记忆的关键字信息、和如图6示出文档空间数据库103所存储的多个文档空间,推测与检索关键字有关的内容。
在此,内容推测部107,按照检索关键字的检索模式标志,进行依据筛选模式的内容的推测、和依据扩展模式的内容的推测。
图8是示出内容推测部107的工作的流程图。
首先,内容推测部107,若检索关键字的关键字信息被存储到关键字记忆部102,则从关键字记忆部102取得该关键字信息(步骤S201)。
例如,若关键字记忆部102存储作为第三次所选择的关键字“美食”等的检索关键字,内容推测部107,则从关键字记忆部102取得示出关键字“美食”、关键字ID“54”以及检索模式标志“扩展”的关键字信息。
其次,内容推测部107,根据在步骤S201取得的关键字信息中包含的检索模式标志,判别该关键字信息中包含的检索关键字是否为筛选关键字(步骤S202)。也就是,内容推测部107,在检索模式标志示出“筛选”时,判别检索关键字为筛选关键字,在检索模式标志示出“扩展”时,判别检索关键字为扩展关键字。
在此,内容推测部107,若判别检索关键字为筛选关键字(步骤S202的“是”),进一步,则将直到检索模式标志示出“扩展”或“初始”的最近的关键字被存储为止被存储到关键字记忆部102的过去的关键字,从该关键字记忆部102中抽出(步骤S203)。也就是,内容推测部107,在步骤S201以及步骤S203,取得最近的一个筛选关键字或连续的多个筛选关键字、和一个初始检索关键字或最近的一个扩展关键字。
内容推测部107,在判别检索关键字为扩展关键字时(步骤S202的“否”),或者,在步骤S203后,从文档空间数据库103中选择示出检索关键字或所述过去的关键字的关联度的文档空间(步骤S205)。
例如,内容推测部107,若在步骤S201将关键字ID“KW2c”的关键字作为检索关键字取得,则选择与该关键字ID“KW2c”的关键字相对应的空间ID“3”的文档空间。并且,内容推测部107,若在步骤S203取得关键字ID“KW2b”的过去的关键字,则选择与关键字ID“KW2b”的关键字相对应的空间ID“2”的文档空间。
其次,内容推测部107,在检索关键字为筛选关键字时,生成对应于筛选关键字的输入关键字矢量;在检索关键字为扩展关键字时,生成对应于扩展关键字的输入关键字矢量(步骤S206)。
也就是,在检索关键字为筛选关键字时,内容推测部107,按照被分类为在步骤S205选择的各个文档空间的各个关键字,是否在步骤S201以及步骤S203已被取得,生成输入关键字矢量。
例如,在步骤S201取得的检索关键字(筛选关键字)的关键字ID为“KW2c”、且在步骤S203取得的过去的关键字的关键字ID为“KW2b”的情况下,在步骤S205,与检索关键字相对应的空间ID“3”的文档空间、和与过去的关键字相对应的空间ID“2”的文档空间被选择。
在此情况下,被分类为空间ID“2、3”的文档空间的关键字(关键字ID=KW1b、KW2b、…、KWmb、KW1c、KW2c、…、KWlc)中的关键字ID“KW2c、KW2b”的关键字被取得。因此,内容推测部107,生成输入关键字矢量(KW1b,、KW2b、…、KWmb、KW1c、KW2c、…、KWlc)=(0、1、…、0、0、1、…、0),以便针对所取得的关键字示出“1”,针对未被取得的关键字示出“0”。
另一方面,在检索关键字为扩展关键字时,内容推测部107,按照被分类为在步骤S205选择的各个文档空间的各个关键字是否在步骤S201已被取得,生成输入关键字矢量。
例如,在步骤S201取得的检索关键字(扩展关键字)的关键字ID为“KW2b”的情况下,在步骤S205,与检索关键字相对应的空间ID“2”的文档空间被选择。
在此情况下,被分类为空间ID“2”的文档空间的关键字(关键字ID=KW1b、KW2b、…、KWmb)中的关键字ID“KW2b”的关键字被取得。因此,内容推测部107,生成输入关键字矢量(KW1b、KW2b、…、KWmb)=(0、1、…、0),以便针对所取得的关键字示出“1”,针对未被取得的关键字示出“0”。
其次,内容推测部107,通过算出在步骤S206生成的输入关键字矢量、和在步骤S205所选择的文档空间所示的各个内容的列矢量之间的余弦距离,从而算出各个内容对检索关键字的关联度(步骤S207)。
而且,例如,内容推测部107,将算出了阈值以上的关联度的内容,推测为用户想要视听的内容ID,并输出该内容的内容ID(步骤S208)。
而且,在步骤S206,也可以通过其它的方法生成输入关键字矢量。例如,内容推测部107,检索与检索关键字有关的内容、和关键字记忆部102所记忆的关键字中的、除了检索关键字以外的与过去的关键字有关的内容。其次,内容推测部107,在如此所检索的内容中的、重复的内容的数量的比率在阈值以上的情况下,利用包含检索关键字和过去的关键字的所有的关键字,制作输入关键字矢量。另一方面,在重复的内容的数量的比率不足阈值的情况下,内容推测部107也可以,不利用过去的关键字,而只利用检索关键字,生成输入关键字矢量。据此,能够从关键字记忆部102所记忆的过去的关键字中,制作符合想要寻找的内容的输入关键字矢量,也能够适当地推测用户想要寻找的内容。
文档空间选择部104,读出关键字记忆部102所存储的、包含检索关键字的关键字信息,从文档空间数据库103中找出与该检索关键字相对应的文档空间,即,找出示出检索关键字的关联度的文档空间。
在此,文档空间选择部104,在检索关键字的检索模式标志示出“筛选”的情况下,即,在检索关键字被显示为筛选关键字的情况下,选择比该检索关键字所对应的文档空间的空间ID大的空间ID所示的文档空间,以作为所述的筛选文档空间。
例如,在被显示为筛选关键字的检索关键字的关键字ID为“KW2b”的情况下,文档空间选择部104,从图6示出的文档空间数据库103中找出与关键字ID“KW2b”的检索关键字相对应的空间ID“2”的文档空间。而且,文档空间选择部104,选择比空间ID“2”大的空间ID“3”的文档空间,以作为筛选文档空间。
也就是,文档空间选择部104,从文档空间数据库103中选择与比示出检索关键字的关联度的文档空间的出现频度少的出现频度相对应的文档空间,以作为筛选文档空间信息。
另一方面,文档空间选择部104,在检索关键字的检索模式标志示出“扩展”的情况下,即,在检索关键字被显示为扩展关键字的情况下,选择该检索关键字所对应的文档空间的空间ID以下的空间ID所示的文档空间,以作为所述的扩展文档空间。
例如,在被显示为扩展关键字的检索关键字的关键字ID为“KW2b”的情况下,文档空间选择部104,从图6示出的文档空间数据库103中找出与关键字ID“KW2b”的检索关键字相对应的空间ID“2”的文档空间。而且,文档空间选择部104,选择该空间ID“2”以下的空间ID“1、2”的文档空间,以作为扩展文档空间。
也就是,文档空间选择部104,从文档空间数据库103中选择与示出检索关键字的关联度的文档空间信息的出现频度以上的出现频度相对应的文档空间信息,以作为扩展文档空间信息。
如此,本发明中的文档空间选择部104包括:第一文档空间选择单元,从文档空间数据库103中选择与示出检索关键字的关联度的出现频度少的出现频度相对应的文档空间,以作为筛选文档空间;以及第二文档空间选择单元,从文档空间数据库103中选择与示出检索关键字的关联度的出现频度以上的出现频度相对应的文档空间,以作为扩展文档空间信息。
检索条件判定部105,读出关键字记忆部102所存储的、包含检索关键字的关键字信息,确定该检索关键字的检索模式标志。因此,在检索模式标志示出“筛选”的情况下,检索条件判定部105,判定针对该检索关键字的检索模式为筛选模式。另一方面,在检索模式标志示出“扩展”的情况下,检索条件判定部105,判定针对该检索关键字的检索模式为扩展模式。
也就是,在本实施例中的检索条件判定部105,在用户选择输出部111所显示的筛选关键字,从而输入判别部101将筛选关键字作为检索关键字取得的情况下,判定为由内容推测部107进行筛选检索,另一方面,在用户选择输出部111所显示的扩展关键字,从而输入判别部101将扩展关键字作为检索关键字取得的情况下,判定为由内容推测部107进行扩展检索。
关联关键字生成比率决定部106,在检索条件判定部105所判定的检索模式为筛选模式的情况下,决定显示比率,以便应该显示的筛选关键字的数量多于扩展关键字的数量;在检索条件判定部105所判定的检索模式为扩展模式的情况下,决定显示比率,以便应该显示的扩展关键字的数量多于筛选关键字的数量。
例如,关联关键字生成比率决定部106保持的阈值为70%,在检索模式为筛选模式时,决定显示比率为筛选关键字数∶扩展关键字数=7∶3,在检索模式为扩展模式时,决定显示比率为筛选关键字数∶扩展关键字数=3∶7。
因此,在检索结果画面显示与该显示比率相对应的数量的筛选关键字和扩展关键字。例如,若在检索结果画面所显示的关联关键字的最大数量为10个,则在筛选关键字数∶扩展关键字数=7∶3时,在筛选列表L2显示7个筛选关键字,在筛选列表L3显示3个扩展关键字。另一方面,在筛选关键字数∶扩展关键字数=3∶7时,在筛选列表L2显示3个筛选关键字,在筛选列表L3显示7个扩展关键字。
关联关键字推测部108,取得文档空间选择部104所选择的筛选文档空间以及扩展文档空间的空间ID,并取得内容推测部107所推测的内容的内容ID。因此,关联关键字推测部108,在取得的空间ID所示的文档空间数据库103的筛选文档空间中,确定以阈值以上的关联度来与取得的内容ID的内容关联起来的关键字,以作为筛选关键字的候补。进而,关联关键字推测部108,在取得的空间ID所示的文档空间数据库103的扩展文档空间中,确定以阈值以上的关联度来与取得的内容ID的内容关联起来的关键字,以作为扩展关键字的候补。而且,关联关键字推测部108,确定除了与检索关键字相同的关键字以外的关键字,以作为筛选关键字或扩展关键字的候补。
进而,关联关键字推测部108,从关联关键字生成比率决定部106取得显示比率,根据该显示比率,决定应该显示的筛选关键字以及扩展关键字的各个数量(筛选显示数以及扩展显示数)。因此,关联关键字推测部108,按从关联度大到小的顺序,从如上述所确定的筛选关键字的候补中选择筛选显示数的候补,以作为应该显示的筛选关键字。进而,关联关键字推测部108,按从关联度大到小的顺序,从如上述所确定的扩展关键字的候补中选择扩展显示数的候补,以作为应该显示的扩展关键字。
图9是用于说明关联关键字推测部108确定关联关键字的候补的工作的说明图。
关联关键字推测部108,例如,从文档空间选择部104取得筛选文档空间的空间ID“2”,并且,从内容推测部107取得内容ID“C4”。在此情况下,关联关键字推测部108,在取得的空间ID“2”所示的文档空间数据库103的筛选文档空间中,确定以阈值“0.5”以上的关联度来与取得的内容ID“C4”的内容关联起来的关键字,以作为筛选关键字的候补。
也就是,关联关键字推测部108,从作为空间ID“2”的筛选文档空间的矩阵中,参考与内容ID“C4”相对应的列矢量(0.8、0.2、0.1、0.4、0.7)。而且,关联关键字推测部108,确定在该列矢量中的、与阈值为“0.5”以上的关联度“0.8、0.7”相对应的关键字ID“KW1b、KW5b”的关键字,以作为筛选关键字的候补。
图10是用于具体说明关联关键字推测部108推测关联关键字的工作的说明图。
文档空间数据库103,例如存储示出内容1、内容2以及内容3和各个关键字的关系的三个文档空间(空间ID=1、2、3)。
空间ID“1”的文档空间示出,作为频度信息的DF值为100以上的关键字“体育、报道、电视剧”和内容1、2、3的关系;空间ID“2”的文档空间示出,DF值为大于20且99以下的关键字“足球、友情、日本”和内容1、2、3的关系;空间ID“3”的文档空间示出,作为频度信息的DF值为1以上且不足20的关键字“天气、巴西、学校”和内容1、2、3的关系。并且,关键字和内容的关系,以作为它们之间的关联度的TF-IDF值来被示出。
在这些情况下,关联关键字推测部108,若从内容推测部107取得示出作为关于体育电视剧的节目的内容3的内容ID,并从文档空间选择部104取得示出筛选文档空间的空间ID“2”,则参考如上所述的文档空间数据库103中的、与内容3以及筛选文档空间(空间ID=2)相对应的列矢量(0.7、0.9、0.1)。而且,关联关键字推测部108,确定在该列矢量中的具有阈值“0.5”以上的TF-IDF值“0.7、0.9”的关键字“足球、友情”,以作为筛选关键字的候补。
进而,关联关键字推测部108,从关联关键字生成比率决定部106取得显示比率,例如,利用在检索结果画面能够显示的关联关键字的最大数量和其显示比率,决定筛选显示数。关联关键字推测部108,例如,在该筛选显示数为1时,在如上述所确定的筛选关键字的候补“足球、友情”中,只选择TF-IDF值最大的筛选关键字“友情”,以作为应该显示在检索结果画面的筛选关键字。
关联关键字推测部108,通过这些选择来推测筛选关键字,将该筛选关键字的关键字ID输出到输出生成部110。
另一方面,关联关键字推测部108,若从内容推测部107取得示出内容3的内容ID,并从文档空间选择部104取得示出扩展文档空间的空间ID“1”,则参考如上所述的文档空间数据库103中的、与内容3以及扩展文档空间(空间ID=1)相对应的列矢量(0.8、0、0.7)。而且,关联关键字推测部108,确定在该列矢量中的具有阈值“0.5”以上的TF-IDF值“0.7”的关键字“电视剧”,以作为扩展关键字的候补。
而且,关联关键字推测部108,由于检索关键字为“体育”,因此,若在扩展文档空间有关键字“体育”,则从除了该关键字“体育”以外的其它的关键字中,确定具有阈值以上的TF-IDF值的扩展关键字的候补。因此,在所述的例子中,在列矢量中阈值“0.5”以上的TF-IDF值有“0.8”和“0.7”,但是,只确定具有TF-IDF值“0.7”的关键字“电视剧”,以作为扩展关键字的候补。
进而,关联关键字推测部108,与所述相同,从关联关键字生成比率决定部106取得显示比率,例如,利用在检索结果画面能够显示的关联关键字的最大数量和其显示比率,决定扩展显示数。例如,在如上述所确定的扩展关键字的候补有多个时,关联关键字推测部108,按从TF-IDF值大到小的顺序,从所确定的多个扩展关键字的候补中选择该扩展显示数的候补,以作为应该显示在检索结果画面的扩展关键字。
关联关键字推测部108,通过这些选择来推测扩展关键字,将该扩展关键字的关键字ID输出到输出生成部110。
图11是示出关联关键字推测部108的工作的流程图。
首先,关联关键字推测部108,取得内容推测部107所推测的内容的内容ID(步骤S301),并且,取得文档空间选择部104所选择的筛选文档空间的空间ID(步骤S302)。
其次,关联关键字推测部108,参考在步骤S302取得的空间ID示出的筛选文档空间中的、与在步骤S301取得的内容ID相对应的列矢量,确定具有阈值以上的关联度的关键字,以作为筛选关键字的候补(步骤S303)。进而,关联关键字推测部108,根据从关联关键字生成比率决定部106输出的显示比率,决定筛选显示数,并且,按从关联度大到小的顺序,选择在步骤S303所确定的筛选关键字的候补中的、其筛选显示数的候补,以作为应该显示在检索结果画面的筛选关键字(步骤S304)。
并且,关联关键字推测部108,取得文档空间选择部104所选择的扩展文档空间的空间ID(步骤S305)。
而且,关联关键字推测部108,参考在步骤S305取得的空间ID示出的扩展文档空间中的、与在步骤S301取得的内容ID相对应的列矢量,确定具有阈值以上的关联度的关键字,以作为扩展关键字的候补(步骤S306)。而且,关联关键字推测部108,若在该扩展文档空间中有与检索关键字相同的关键字,则从该关键字以外的关键字中,确定具有阈值以上的关联度的扩展关键字的候补。
进而,关联关键字推测部108,根据从关联关键字生成比率决定部106输出的显示比率,决定扩展显示数,并且,按从关联度大到小的顺序,选择在步骤S306所确定的扩展关键字的候补中的、其扩展显示数的候补,以作为应该显示在检索结果画面的扩展关键字(步骤S307)。
关联关键字推测部108,通过执行这些步骤S301~步骤S307的处理,从而将筛选关键字以及扩展关键字推测为关联关键字。
而且,本实施例中的关联关键字推测部108被构成为关联关键字选择单元,从内容数据库109中选择与筛选文档空间以及扩展文档空间分别相对应的筛选关键字以及扩展关键字,以便针对内容推测部107所检索的内容示出的关联度越大的关键字就越被选择。
输出生成部110,例如,若从内容推测部107取得示出内容3的内容ID,则从内容数据库109中抽出与该内容3相对应的内容属性信息,并输出到输出部111。进而,输出生成部110,若从关联关键字推测部108取得筛选关键字以及扩展关键字的各个关键字ID,则从内容数据库109中抽出这些关键字ID示出的筛选关键字以及扩展关键字,并输出到输出部111。
图12是示出输出部111所显示的检索结果画面的一个例子的图。
输出部111,针对检索关键字“体育”,若取得从输出生成部110如上述所输出的、内容3所对应的内容属性信息、和筛选关键字以及扩展关键字,则将它们配置并显示在检索结果画面的规定的地方。
因此,在内容列表L1,显示内容的名称“内容3”以及概要,以作为针对内容3的内容属性信息。并且,在筛选列表L2,显示用于筛选在内容列表L1所示的内容的筛选关键字“友情、足球”;在扩展列表L3,显示用于以与检索关键字“体育”不同的观点来重新进行检索的扩展关键字“电视剧”。
图13是示出内容检索装置100整体的工作的流程图。
首先,内容检索装置100的输入判别部101,接受通过用户的操作所选择的输入选择项(步骤S101),判别该输入选择项示出关键字还是内容(步骤S102)。
在此,若由输入判别部101判别为示出内容(步骤S102的“否”),输出生成部110,则从内容数据库109中抽出该内容的内容数据,从而生成向输出部111输出的信息(步骤S109)。而且,输出部111,若从输出生成部110取得该内容数据,则再生并显示该内容数据(步骤S110)。
另一方面,输入判别部101,若判别为输入选择项示出关键字(步骤S102的“是”),则将包含该关键字(检索关键字)以及关键字ID等的关键字信息存储到关键字记忆部102(步骤S103)。
内容推测部107,若在步骤S103包含检索关键字的关键字信息被存储到关键字记忆部102,如图8示出,则利用关键字记忆部102以及文档空间数据库103,检索并推测与检索关键字有关的内容(步骤S104)。
进而,文档空间选择部104,利用检索关键字,从文档空间数据库103中选择筛选文档空间和扩展文档空间(步骤S105)。
并且,检索条件判定部105,按照关键字记忆部102所存储的检索关键字,判定检索模式是筛选模式还是扩展模式(步骤S106)。而且,关联关键字生成比率决定部106,按照在步骤S106所判定的结果,决定应该显示的筛选关键字的数量和扩展关键字的数量的显示比率(步骤S107)。
若在步骤S107决定显示比率,关联关键字推测部108,则利用该显示比率、在步骤S104所推测的内容、在步骤S105所选择的筛选文档空间以及扩展文档空间,推测筛选关键字以及扩展关键字(步骤S108)。
若如此推测筛选关键字以及扩展关键字,输出生成部110,从内容数据库109中抽出这些筛选关键字以及扩展关键字,从而生成向输出部111输出的检索结果信息(步骤S109)。而且,输出部111,若从输出生成部110取得该检索结果信息,则显示该检索结果信息中包含的关联关键字(步骤S110)。
并且,若用户选择输出部111所显示的关联关键字中的任一个,内容检索装置100,则接受所选择的关联关键字,以作为新的下个检索关键字。也就是,内容检索装置100,反复执行从步骤S101开始的处理。因此,用户能够从内容数据库109中找出所希望的内容。
如此,在本实施例中,利用按照关键字的频度信息被分类的多个文档空间,选择比检索关键字所对应的文档空间频度信息小的频度信息的文档空间,以作为筛选文档空间,并显示依据该筛选文档空间示出大的关联度的关键字,以作为筛选关键字,并且,选择检索关键字所对应的文档空间的频度信息以上的频度信息的文档空间,以作为扩展文档空间,并显示依据该扩展文档空间示出大的关联度的关键字,以作为扩展关键字。
以下是以频度信息来将文档空间分类的理由。在关键字的频度信息的值、和与关键字有关的内容数量之间存在正相关关系。因此,为了向用户出示用于筛选内容的关键字(筛选关键字),而需要出示具有比检索关键字的频度信息的值小的频度信息的关键字,以作为筛选关键字。另一方面,为了向用户出示用于检索与向用户所出示的内容不同的其它的内容的关键字(扩展关键字),而需要出示具有正在出示中的内容数量以上的频度信息的值的关键字,以作为扩展关键字。
于是,如上所述,预先以频度信息来将文档空间分类,以便汇集与内容数量的关系为相同程度的关键字,来在它们之间能够建立关系,并分别使用用于选择筛选关键字或扩展关键字的文档空间,从而能够同时出示适当的筛选关键字以及扩展关键字。
也就是,在作为用户的检索对象的内容流动变化的情况下,也能够向用户出示用于检索所希望的内容的关联关键字,因此用户能够从大量的内容中容易找出所希望的内容。
而且,在本实施例中,如图10示出,将文档空间分类为三个,将用于分类的阈值(DF值)为100或20,但也可以,例如,在预先对多名用户进行试验后决定该文档空间的数量或阈值。具体而言,首先,算出文档空间整体中包含的关键字的DF值,向用户出示DF值不同的多个关键字。而且,将各个关键字分类为,在以所出示的关键字来检索时有可能获得与相同程度的检索结果数的组。据此,能够设定文档空间的数量或阈值。
以上,对于本发明涉及的内容检索装置,利用所述实施例进行了说明,但是,本发明不仅限于此。
例如,关联关键字推测部108,在从多个筛选关键字的候补中选择几个筛选关键字时,按从关联度大到小的顺序进行了选择,但也可以,利用联想词典进行选择。
一般而言,在用户选择筛选关键字或扩展关键字等的关联关键字的情况下,选择与检索关键字的关联性强的关联关键字。然而,在利用所述的LSI制作文档空间数据库103的各个文档空间的情况下,有时,在关联关键字推测部108所确定的筛选关键字的候补中包含与检索关键字的关联性弱的候补。因此,即使出示与检索关键字的关联性弱的筛选关键字,也该筛选关键字被选择的可能性低。
于是,为了避免这些关联性弱的筛选关键字被出示,关联关键字推测部108,而预先制作示出构成文档空间的关键字之间的关联性的联想词典,并利用它来从筛选关键字的候补中选择应该显示的筛选关键字。
联想词典是,例如以“自然言语处理(自然语言处理)”(pp,387~392,岩波书店,1996)(非专利文献3)所示的方法来自动制作出的。并且,也可以利用设计者预先制作的联想词典。
图14是示出联想词典的一个例子的图。
如图14示出,联想词典被构成为矩阵,以联想值来示出关键字之间的关联强度。
关联关键字推测部108,利用这些联想词典,从所确定的多个筛选关键字的候补中选择应该显示的几个筛选关键字。
例如,关键字ID“KW2”的关键字作为检索关键字被接受到输入判别部101,并确定关键字ID“KW3、KW4、KW5”的关键字,以分别作为筛选关键字的候补。并且,关联关键字推测部108,根据从关联关键字生成比率决定部106输出的显示比率,决定筛选显示数“2”。
在这些情况下,关联关键字推测部108,在图14示出的联想词典中,参考针对检索关键字(关键字ID=KW2)的、筛选关键字的候补(关键字ID=KW3、KW4、KW5)的联想值(0.4、0.7、0.8)。而且,关联关键字推测部108,从该三个筛选关键字的候补中,按从联想值大到小的顺序,选择二个候补,以作为应该显示的筛选关键字。也就是,关键字ID“KW4、KW5”的关键字被选择,以作为筛选关键字。
据此,能够防止从筛选关键字的候补中的、与检索关键字的关联性弱的候补被显示为筛选关键字。因此,能够减少因用户不能找出所希望的筛选关键字而重新进行检索来增加的检索步骤数。
并且,关联关键字推测部108,在从扩展关键字的候补中选择应该显示的扩展关键字时,也可以与所述相同利用联想词典来进行选择。据此,能够更减少因用户不能找出所希望的扩展关键字而重新进行检索来增加的检索步骤数。
并且,在本实施例中,关联关键字推测部108,将所选择的多个关联关键字的关键字ID输出到输出生成部110,但也可以,不是将这些关键字ID输出,而是根据所选择的多个关联关键字生成新的结合关联关键字,并将该结合关联关键字通过输出生成部110显示在输出部111。
而且,关联关键字推测部108,在选择了二个筛选关键字时,判别在与二个筛选关键字的每一个相对应的内容群中重复的内容的数量是否在阈值以上。因此,若判别为在阈值以上,关联关键字推测部108,则结合这些二个筛选关键字来生成结合关联关键字,并将该结合关联关键字显示在筛选列表L2。并且,与所述相同,关联关键字推测部108,在选择了二个扩展关键字时,判别在与二个扩展关键字的每一个相对应的内容群中重复的内容的数量是否在阈值以上。因此,若判别为在阈值以上,关联关键字推测部108,则结合这些二个扩展关键字来生成结合关联关键字,并将该结合关联关键字显示在扩展列表L3。
据此,由于将被预测为检索结果都相同的二个关联关键字结合来显示为一个关联关键字,因此,用户能够不迷惑应该选择哪个关联关键字,而容易选择所希望的关联关键字。
本发明的内容检索装置可以适应于,从服务器等所存储的大量的内容中检索用户想要视听的内容的检索装置。例如,能够适用于如图15示出的、内置有硬盘的DVD(Digital Versatile Disk:数字多用光盘)刻录器或播放器等的、再生节目的设备。内容是,例如电视节目、电影和音乐等的视听内容、或书籍和论文等的文本内容等,与种类无关,而只要具有作为内容的属性的字符信息,就可以是任何数据。