具体实施方式
以下,利用附图对本发明的实施方式的内容检索装置详细地说明。
(实施方式)
图1是表示有关本发明的实施方式的内容检索装置100的结构图。如图1所示,内容检索装置100具备内容数据库101、词典数据库102、输入部103、输入选别部104、内容数据库更新部105、关联区间计算部106、词典更新部107、属性取得部108、关联关键字取得部109、输出生成部110、以及输出部111。
以下,对于图1所示的内容检索装置100的各结构的详细情况依次说明。
内容数据库101是存储作为检索对象的活动图像、图像、音乐、文本等内容、以及表示该内容的数据的内容附属信息的数据库。这里,所谓内容附属信息,是指关键字、内容属性等表示内容的数据的信息。另外,所谓内容属性,是指用来将内容分类的目录信息。例如,在有关电视节目的内容的情况下,记载在EPG(电子节目指南:Electronic Program Guide)中的“类别”为内容属性。
在图2中表示存储在内容数据库中的内容附属信息的一例。内容数据库101除了活动图像等内容以外,还存储包括图2所示那样的内容ID20、内容属性21、标题22、播放日23、关键字24、概要25的内容附属信息。播放日23是表示关于内容的时间的信息的时间信息的一例。这里,所谓时间信息,是表示关于内容的时间的信息。另外,时间信息并不必须是播放日,也可以是内容被登录到内容数据库101中的日期时间等。关键字24是表示内容的数据的单词(关键字)。例如,在关键字24中,存储有预先附属于EPG的关键字。此外,在关键字24中,也可以存储通过对标题22或概要25执行形态要素解析等而提取的关键字。
词典数据库102是存储了内容数据库101所存储的关键字间的关联度等的数据库。具体而言,词典数据库102存储关联语词典102a,该关联语词典102a按用来将内容分类的内容属性、以及按表示规定的时间区间的关联区间,记述了作为由时间信息表示的时间包含在该关联区间中的内容且属于由内容属性表示的分类的内容所对应的多个关键字间的关联度。该关联语词典102a能够在内容属性内及内容属性间,使用时间的长度不同的关联区间存储关键字间的关联度。另外,所谓关联区间,是指用来计算关键字间的关联度的时间区间。
在图3中表示在内容数据库101中存在“新闻”、“体育”、“综艺”以及“趣味·教养”这4个内容属性的内容的情况下的关联语词典102a的概念图。如图3所示,关联语词典102a被分类为4个内容属性。并且,在各内容属性内,如区间词典31(N1)、区间词典32(N2)等那样,存储有关联区间的时间的长度不同的区间词典。此外,各关联区间按各内容属性(“新闻”、“体育”、“综艺”以及“趣味·教养”)而时间的长度不同。
在图4中,表示存储在词典数据库102中的关联语词典102a的一例。如图4所示,在关联语词典102a中,包括内容属性41、内容区间42、关键字43、关联关键字44、关联度45。例如,在内容属性41是“新闻”的情况下,与关联区间42为“2007/9/10~2007/9/12”的关键字43“新闻”有关联的关联关键字44“秋”的关联度45是“0.94”。通过参照图4所示那样的关联语词典102a,关联关键字取得部109能够取得对应于用户选择的关键字的关联关键字。
图1所示的输入部103接受关于用户的操作输入及内容数据库的更新的信息,将接受到的信息通知给输入选别部104。
输入选别部104对从输入部103接受到的信息是表示“关键字选择”、“内容选择”、以及“内容数据库更新”的哪种处理的信息进行选别。关于选别方法在后面叙述。
内容数据库更新部105在输入选别部104将从输入部103接受到的信息选别为“内容数据库更新”的情况下,更新存储在内容数据库101中的内容及内容附属信息。
另外,内容数据库更新部105将内容服务器分发的所有取得对象数据复制到内容数据库101中。即,将更新以前保持的数据先全部删除,新进行覆盖。
例如,在将本发明用于电视广播的试听预约用途的情况下,根据电视广播的数据库特性(没有播放日以前的数据),仅将更新日期时间以后的数据储存到设备侧的内容数据库101中。另一方面,在VOD(视频点播:Videoon Demand)那样的蓄积型内容的情况下,在将内容从作为取得对象的内容服务器删除时,从设备侧的内容数据库101中也将内容删除。
关联区间计算部106在内容数据库更新部105更新了内容数据库101 的情况下,通过参照内容数据库101及词典数据库102,按内容属性计算新的关联区间。具体而言,关联区间计算部106按内容属性,计算表示新存储到内容数据库101中的内容(第1内容)的数据的多个关键字(第1关键字)、与表示已经存储在内容数据库101中的内容(第2内容)的数据的多个关键字(第2关键字)之间的差异度。并且,关联区间计算部106根据计算出的第1关键字与第2关键字的差异度是否满足规定基准值,计算新的关联区间。即,关联区间计算部106计算新的关联区间,以使得第1关键字与第2关键字的差异度越小则第1内容与第2内容越包含在相同的时间区间中。另外,关联区间的详细的计算方法在后面叙述。
词典更新部107在包含在关联区间计算部106计算出的新的关联区间中的内容中,计算关键字间的关联度。并且,词典更新部107将计算出的新的关联区间的关联度与关键字及关联关键字一起登录到关联语词典102a中。另外,关键字间的关联度根据单词的同现度(两个单词相互出现在同一内容中的程度)计算。因而,在同一内容之中,越是同时出现的次数多的关键字的组合,关联度的值越大。例如,词典更新部107利用记载在非专利文献《用于根据在文件中出现的单词间的关联性的联想检索的元数据空间生成方式》(本间秀典等,第16次数据工学研究会(DEWS2005),6A-o2,电子信息通信学会,2005)中的方法等计算关键字间的关联度。
属性取得部108在输入选别部104将从输入部103接受到的信息选别为“关键字选择”的情况下,取得用户在输入部103中选择的关键字的内容属性。内容属性的判断方法在后面叙述。
关联关键字取得部109通过参照关联语词典102a,取得属性取得部108所取得的内容属性、以及对应于用户在输入部103中选择的关键字的关联关键字及关联度。
输出生成部110在输入选别部104将从输入部103接受到的信息选别为“关键字选择”的情况下,生成用来将由关联关键字取得部109取得的关联关键字按关联区间对应于关联度显示的输出信息。例如,输出生成部110生成用来从关联度高的关联关键字开始依次显示的输出信息。此外,例如输出生成部110也可以生成关联度越高的关联关键字用越大的字符显示的输出信息。此外,输出生成部110在输入选别部104将从输入部103接 受到的信息选别为“内容选择”的情况下,生成用来表示对应于用户在输入部103中输入的信息的节目等内容的输出信息。
输出部111将输出生成部110生成的输出信息向输出媒体输出。作为输出媒体,例如使用电视机等监视器。
接着,对以上那样构成的内容检索装置100的动作进行说明。
图5是表示图1的内容检索装置100执行的整体处理的流程的流程图。
首先,输入部103接受来自用户的操作输入,将接受到的信息通知给输入选别部104(步骤S101)。接着,输入选别部104对从输入部103通知的信息是表示“关键字选择”、“内容选择”及“内容数据库更新”的哪种处理的信息(步骤S102)进行选别。
这里,在输入选别部104将从输入部103接受到的信息选别为“关键字选择”的情况下(步骤S103的是),属性取得部108取得用户在输入部103中选择的关键字及关键字的内容属性(步骤S108)。接着,关联关键字取得部109根据所取得的内容属性和关联语词典102a,取得关联关键字(步骤S109)。接着,输出生成部110生成用来将所取得的关联关键字输出的输出信息(步骤S110)。最后,输出部111将输出生成部110生成的输出信息输出给输出媒体(步骤S111),结束处理。
另一方面,在输入选别部104没有将从输入部103接受到的信息选别为“关键字选择”的情况下(步骤S103的否),输入选别部104判断是否将从输入部103接受到的信息选别为“数据库更新”(步骤S104)。
这里,在输入选别部104将从输入部103接受到的信息选别为“数据库更新”的情况下(步骤S104的是),内容数据库更新部105将内容数据库101更新(步骤S105)。接着,关联区间计算部106计算设定在关联语词典102a中的关联区间(步骤S106)。另外,步骤S106的详细的处理流程在后面叙述。并且,根据计算出的关联区间,词典更新部107将关联语词典102a更新(步骤S107),结束处理。
另一方面,在输入选别部104没有将从输入部103接受到的信息选别为“数据库更新”的情况下(步骤S104的否),即在选别为“内容选择”的情况下,输出生成部110生成用来显示对应于用户在输入部103中输入的信息的节目的输出信息(步骤S110)。接着,输出部111将输出生成部 110生成的输出信息输出给输出媒体(步骤S111),结束处理。
图6是表示关联区间计算部106进行的关于关联区间计算的处理(图5所示的步骤S106)的流程的流程图。
首先,关联区间计算部106按内容属性取得在关联语词典102a中上次更新的关联区间(以下称作上次更新区间)(步骤S201)。接着,关联区间计算部106按内容属性制作作为取得的上次更新区间的关键字的一览的关键字列表(步骤S202)。另外,上次更新区间的关键字对应于表示存储在内容数据库101中的第2内容的数据的多个第2关键字。接着,关联区间计算部106按内容属性取得作为新追加到内容数据库101中的内容的关键字的一览的关键字列表(步骤S203)。另外,新追加的内容的关键字对应于表示存储在内容数据库101中的第1内容的数据的多个第1关键字。
接着,关联区间计算部106将在步骤S202中制作的关键字列表与在步骤S203中制作的关键字列表比较,计算关键字结构的变化率(步骤S204)。另外,关键字结构的变化率是差异度的一例。
这里,在计算出的变化率超过规定的阈值的情况下(步骤S205的是),关联区间计算部106计算对应于新追加到内容数据库101中的内容的时间区间作为新的关联区间(步骤S206)。即,关联区间计算部106计算对应于第1内容的时间区间作为新的关联区间。另外,所谓对应于内容的时间区间,表示包含该内容的时间信息表示的时间的时间区间。例如,在将2007年9月10日及11日播放的内容新追加到内容数据库101中的情况下,对应于内容的时间区间是2007年9月10日~11日。
另一方面,在计算出的变化率是规定的阈值以下的情况下(步骤S205的否),关联区间计算部106计算将上次更新区间与对应于新追加到内容数据库101中的内容的时间区间相加后的时间区间作为新的关联区间(步骤S207)。即,关联区间计算部106计算包含对应于第1内容的时间区间和包含对应于第2内容的时间区间的时间区间作为新的关联区间。在这样通过关联区间计算部106计算关联区间之后,执行图5所示的步骤S107的处理。
图7是表示关联区间计算部106进行的关于变化率的计算的处理(图6所示的步骤S204)的流程的流程图。
首先,关联区间计算部106从在步骤S203中制作的追加内容的关键字 列表中,取得还没有执行以下的处理(步骤S302~S308)的关键字(新关键字候选)(步骤S301)。进而,关联区间计算部106从在步骤S202中制作的上次更新区间的关键字列表中取得还没有执行以下的处理(步骤S303~S305)的关键字(比较关键字)(步骤S302)。
接着,关联区间计算部106判断在步骤S301及步骤S302中取得的新关键字候选与比较关键字是否部分一致(步骤S303)。另外,所谓部分一致,是指在4字符以上的关键字中、8成(80%)以上的字符数的字符一致。
这里,在新关键字候选与比较关键字部分一致的情况下(步骤S303的是),关联区间计算部106将新关键字候选判断为不是新关键字(步骤S308)。另一方面,在新关键字候选与比较关键字没有部分一致的情况下(步骤S303的否),关联区间计算部106判断新关键字候选与比较关键字是否是近义词一致(步骤S304)。另外,所谓近义词一致,是指新关键字候选的近义词与比较关键字一致。
这里,在新关键字候选与比较关键字为近义词一致的情况下(步骤S304的是),关联区间计算部106将新关键字候选判断为不是新关键字(步骤S308)。另一方面,在新关键字候选不与比较关键字为近义词一致的情况下(步骤S304的否),关联区间计算部106判断新关键字候选与比较关键字是否为记述变动一致(步骤S305)。另外,所谓记述变动一致,是指将新关键字候选使用平假名、片假名、汉字或罗马字替换后的关键字与比较关键字一致。
这里,在新关键字候选与比较关键字候选为表述差异一致的情况下(步骤S305的是),关联区间计算部106将新关键字候选判断为不是新关键字(步骤S308)。另一方面,在新关键字候选与比较关键字不为记述变动一致的情况下(步骤S305的否),关联区间计算部106判断是否已取得了包含在上次更新区间的关键字列表中的所有的关键字(步骤S306)。
这里,在没有取得包含在上次更新区间的关键字列表中的所有关键字的情况下(步骤S306的否),再次从步骤S302的关键字的取得开始重复处理。另一方面,在取得了包含在上次更新区间的关键字列表中的所有关键字的情况下(步骤S306的是),关联区间计算部106将新关键字候选判断为是新关键字(步骤S307)。
接着,关联区间计算部106判断是否已取得了包含在追加内容的关键字列表中的所有的关键字(步骤S309)。这里,在没有取得包含在追加内容的关键字列表中的所有关键字的情况下(步骤S309的否),再次从步骤S301的关键字的取得开始重复处理。另一方面,在取得了包含在追加内容的关键字列表中的所有的关键字的情况下(步骤S309的是),关联区间计算部106通过将在步骤S307中判断为是新关键字的关键字的数量用包含在上次更新区间的关键字列表中的关键字的数量除,由此计算变化率(步骤S310)。
在这样通过关联区间计算部106计算出关联区间之后,执行图5所示的步骤S107的处理。
接着,利用图8~图10对内容检索装置100输出的画面进行说明。图8~图10是表示用户想要从可视听的电视节目之中视听与新闻节目关联的节目的情况下的、内容检索所输出的画面的转变的图。
在检索开始时,内容检索装置100对用户提示图8所示的初始检索画面。在该初始检索画面之中提示的初始检索关键字例如是“体育”、“记录片”等表示类别的关键字。用户在想要从提示的关键字之中观看新闻节目的情况下,从初始检索关键字之中选择“新闻”。
图9是在用户选择了初始检索关键字之后、内容检索装置100提示的检索画面。在该检索画面中,分别提示关于所选择的关键字(新闻)的内容列表70及关联关键字列表71。另外,在关联关键字列表71中,按关联区间,以关联度从高到低的顺序提示关联关键字。
用户在该检索画面中有想要观看的内容的情况下,从内容列表70之中选择内容。另一方面,用户在该检索画面中没有想要观看的内容的情况下,从关联关键字列表71之中选择与想要观看的内容关联的关键字。
在图9所示的检索画面中,在用户从内容列表70之中选择了内容的情况下,内容检索装置100显示所选择的内容,结束检索处理。另一方面,在用户从关联关键字列表71之中选择了任意的关联关键字的情况下,内容检索装置100根据所选择的关键字,再次提示显示有内容列表和关联关键字的画面。例如,在图9所示的检索画面中,在用户从关联关键字列表71之中选择了国会72的情况下,如图10所示,内容检索装置100按关联区 间提示关于“国会”的内容和与“国会”关联的关键字。
以上,用户一边反复进行系统提示的关联关键字的选择,一边检索自己想要观看的内容。
接着,利用图8~图10所示的画面,对图5及图6所示的内容检索装置100的处理更具体地说明。
在图5的步骤S101中,输入部103接受用户向系统的输入信息。具体而言,用户在图8的初始检索画面中选择的“新闻”、在图9的检索画面中选择的“国会”等关键字成为输入信息。此外,用户从图9所示的内容列表70选择的内容也成为输入信息。进而,虽然没有图示,但在用户选择了内容数据库更新的情况下,该选择也成为输入信息。
另外,在本实施方式中,在有用户的输入的情况下,内容检索装置100将内容数据库101更新,但也可以是内容检索装置100在任意的时间更新内容数据库101。此外,也可以是,如果与内容检索装置100不同的其他装置对内容检索装置请求内容数据库101的更新,则内容检索装置100将内容数据库101更新。在这样的情况下,向内容数据库101的新内容的输入成为输入信息。
在图5的步骤S102中,输入选别部104将从步骤S101接受到的输入信息选别为“关键字选择”、“内容选择”及“内容数据库更新”的某个。具体而言,例如在图9的检索画面中、用户从关联关键字列表71之中选择了某个关键字的情况下选别为“关键字选择”。此外,例如在图9的检索画面中、用户从内容列表70之中选择了某个内容的情况下选别为“内容选择”。此外,例如虽然没有图示、但在用户选择了内容数据库的更新的情况下选别为“内容数据库更新”。
在图5的步骤S103中,输入选别部104判断步骤S 102中的选别是否是“关键字选择”。这里,在输入选别部104判断从输入部103接受到的信息是“关键字选择”的情况下,输入选别部104将对应的选择关键字向属性取得部108传递。并且,处理向步骤S108前进。另一方面,在输入选别部104没有将从输入部103接受到的信息判断为“关键字选择”的情况下,处理向步骤S104前进。具体而言,例如在用户在图8的初始检索画面中选择了关键字“新闻”的情况下,或者用户在图9的检索画面中选择了关键 字“国会”的情况下,输入选别部104都选别为“关键字选择”。并且,输入选别部104将关键字“新闻”或“国会”向属性取得部108传递。并且,处理前进到步骤S108。
在图5的步骤S104中,输入选别部104判断步骤S102中的选别是否是“内容数据库更新”。这里,在输入选别部104将从输入部103接受到的信息判断为“内容数据库更新”的情况下,处理向步骤S105前进。另一方面,在输入选别部104将从输入部103接受到的信息判断为不是“内容数据库更新”的情况下,即在输入选别部104在步骤S102中将从输入部103接受到的信息选别为“内容选择”的情况下,输入选别部104从内容数据库101中取得对应于用户选择的内容的内容ID。接着,输入选别部104将取得的内容ID向输出生成部110传递。然后,处理向步骤S 109前进。例如,在图10的检索画面中用户选择了“周日记录片”的节目的情况下,输入选别部104从内容数据库101取得对应于所选择的节目的内容ID,将所取得的内容ID向输出生成部110传递。然后,处理向步骤S110前进。另一方面,在用户没有选择节目的情况下,即在选择了内容数据库更新的情况下,输入选别部104将更新数据向内容数据库更新部105传递。接着,处理向步骤S105前进。
在图5的步骤S105中,内容数据库更新部105将通过步骤S104的处理取得的更新数据追加到内容数据库101中。
在图5的步骤S106中,关联区间计算部106根据在步骤S 105中内容数据库更新部105新追加到内容数据库101中的更新数据计算关联区间。
这里,以下详细叙述步骤S106中的处理。
在图6的步骤S201中,关联区间计算部106按“新闻”及“体育”等内容属性取得包含在关联语词典102a中的上次更新的关联区间。具体而言,关联区间计算部106从存储在图4所示的关联语词典102a中的数据之中,按内容属性取得最新的关联区间42。另外,如图11(a)所示,将这里取得的关联区间设为上次更新区间1001(tn-2~tn-1)。
接着,在图6的步骤S202中,关联区间计算部106按内容属性制作包含于在步骤S201中取得的关联区间中的内容的关键字列表。具体而言,例如关联区间计算部106参照图4所示的关联语词典102a并按内容属性取得 对应于上次更新区间1001的关键字43即可。
接着,在图6的步骤S203中,关联区间计算部106按内容属性制作对应于在图5的步骤S104中取得的更新数据的关键字列表。
如上所述,通过图6的步骤S201~S203的处理,按内容属性,制作上次更新区间中的关键字列表和对应于此次新更新的内容的关键字列表。
接着,在图6的步骤S204中,关联区间计算部106将在步骤S202中制作的关键字列表与在步骤S203中制作的关键字列表比较,计算关键字结构的变化率。这里,所谓关键字结构的变化率,是差异度的一例。具体而言,是以此次新更新的内容的关键字中的、没有包含在有关上次更新区间1001中的关键字列表中的的关键字的数量为分子、以包含在有关上次更新区间1001中的关键字列表中的关键字的数量为分母来计算的值。例如,在从在步骤S203中制作的此次新更新的内容得到的关键字列表中的、没有包含在上次更新区间1001的关键字列表中的新的关键字的数量是40个、包含在上次更新区间1001的关键字列表中的关键字的数量是200个的情况下,关键字结构的变化率为0.2。另外,新的关键字的数量根据图7所示的处理计算。
接着,在图6的步骤S205中,关联区间计算部106判断在步骤S204中取得的关键字结构的变化率是否超过规定的阈值。在图6的步骤S205中判断为变化率是规定的阈值以上的情况下,在图6的步骤S206中,关联区间计算部106仅计算对应于新追加的内容的时间区间作为新的关联区间。
另一方面,在图6的步骤S205中判断变化率低于规定的阈值的情况下,在图6的步骤S206中,关联区间计算部106计算将上次更新的区间与对应于此次新更新的内容的时间区间相加后的时间区间作为新的关联区间。
具体而言,在将对应于此次新更新的内容的时间区间设为追加区间1002(tn-1~tn)的情况下,关联区间计算部106在关键字结构的变化率是阈值以上时,如图11(b)所示,计算与追加区间1002相同的新关联区间1003(tn-1~tn)作为新的关联区间,当变化率低于阈值时,如图11(c)所示,计算将上次更新区间1001与追加区间1002相加后的新关联区间1004(tn-2~tn)作为新的关联区间。
另外,一般关键字结构的变化率变大的频度根据内容属性不同而大为 不同。例如,由于“新闻”等时事性较高的内容每天提供新的话题,所以关键字结构的变化率变大的时间间隔变短。另一方面,“综艺”及“体育”等内容与“新闻”相比,关键字结构的变化率变大的时间间隔变长。这是因为体育内容按季节较大地变化这一点、综艺内容每3个月一次进行节目改编这一点等。如果关键字结构变化,则关键字间的关联度也变化。因而,为了提示具有时事性的关键字,内容检索装置100优选地使用根据关键字结构的变化来变更关联区间的关联语词典102a,从而生成关联关键字。如上所述,由于关联区间计算部106能够根据各属性的关键字结构的变化率计算关联区间,所以内容检索装置100能够提示具有时事性的关键字。
通过进行以上的图6所示的步骤S201~S207的处理,在图5的步骤S106中,关联区间计算部106能够计算对应于新追加到内容数据库101中的内容的关联语词典102a的关联区间。
另外,在上述图6的步骤S204的说明中,关于包含在两个比较的关键字列表中的关键字的数量并没有特别规定,但也可以仅将出现频度高的规定数量的关键字作为对象来计算变化率。具体而言,关联区间计算部106将在步骤S202中制作的关键字列表中出现频度从高开始的n个关键字、与在步骤S203中制作的关键字列表中出现频度从高开始的n个关键字比较,计算关键字结构的变化率。例如,在步骤S203中制作的关键字列表之中出现频度从高开始的100个关键字中的、没有包含在上次更新区间的关键字列表中出现频度从高开始的100个关键字中的新的关键字的数量是40个的情况下,关键字结构的变化率为0.4。
此外,在上述图6的步骤S201中,关联区间计算部106取得了关联语词典102a的最新的关联区间作为上次更新区间,但也可以将对应于在内容数据库101中上次更新的内容的时间区间中包含的、规定长度的时间区间设为上次更新区间。具体而言,在图12(a)所示那样的情况下,关联区间计算部106取得图12(b)所示的关键字比较区间1103(tn-2~tn-1)。即,在对应于在内容数据库101中上次更新的内容的时间区间即上次内容更新区间1101(tn-3~tn-1)是最小时间单位的2倍的长度的时间区间的情况下,关联区间计算部106从上次内容更新区间中的接近于追加区间1102一方取得最小时间单位量的时间区间。
最小时间单位中的变化率的比较可以设定对应于关键字关联度的细微变化的关联区间。由此,例如在内容的数据变化的频度整体上较高的博客(blog)等的内容的检索中,内容检索装置能够总是将新的关联关键字提示给用户。
接着,在图5的步骤S107中,词典更新部107根据在步骤S105中计算出的关联区间,更新关联语词典。词典制作方法如图1中说明那样的。
在图5的步骤S108中,属性取得部108判断在步骤S103中取得的关键字的内容属性。并且,属性取得部108将关键字和判断的内容属性向关联关键字取得部109传递。然后,处理向步骤S109前进。作为内容属性的判断的具体例,在图8的初始检索画面中提示的关键字是与内容属性共通的关键字的情况下,属性取得部108只要将用户在初始检索画面中选择的关键字判断为内容属性就可以。此外,在图8所示的初始检索画面中选择了“新闻”的情况下,在图9所示的检索画面中,将用户选择的关联关键字的内容属性判断为“新闻”。这成为将最先选择的“体育”的内容属性的内容缩减的检索,在缩减检索的情况下是有效的。
在图5的步骤S109中,关联关键字取得部109通过参照词典数据库102,取得对应于在步骤S103中取得的关键字和在步骤S108中取得的关键字属性的关联关键字。并且,关联关键字取得部109将所取得的关联关键字向输出生成部110传递。然后,处理向步骤S110前进。具体而言,例如在用户在图8的初始检索画面中选择“新闻”、接着在图9的检索画面中选择了“国会”的情况下,属性取得部108将关键字属性判断为“新闻”。并且,关联关键字取得部109通过参照图4所示的关联语词典102a,从对应于内容属性“新闻”和关键字“国会”的关联关键字之中,取得关联度45的值高的关键字。例如,关联关键字取得部109在2007年9月10日至12日的关联区间中,取得关键字“首相演说”、“政治”及“年金”。
在图5的步骤S110中,输出生成部110在步骤S109中取得了关联关键字的情况下,使用所取得的关联关键字和内容数据库101,生成例如用来输出图9所示那样的检索画面的输出信息。另一方面,在步骤S104中取得了内容ID的情况下,输出生成部110使用所取得的内容ID和内容数据库101生成用来显示内容的输出信息。
在图5的步骤S111中,输出部111将在步骤S110中生成的输出信息输出给监视器等。
通过执行以上的步骤S101~步骤S111的处理,内容检索装置100能够参照关联区间按内容属性不同而不同的关联语词典102a,所以能够将按内容属性不同而不同的适合于时事性的关联关键字提示给用户。
另外,在图5的步骤S108中,属性取得部108也可以使用与在上述中说明的方法不同的方法取得内容属性。例如,属性取得部108也可以取得存在所取得的关键字的内容属性中的、关键字的出现频度高的多个内容属性。例如,在关键字“国会”存在于“新闻”及“综艺”的两个内容属性中的情况下,在各内容属性之中,在关键字“国会”的出现频度的位次是规定阈值以上的时候,也可以取得两个内容属性作为关键字属性。在图13中表示此情况下输出的画面的一例。如图13所示,输出部111将对于关键字“国会”的关联关键字,对“新闻”及“综艺”的各内容属性分别输出。因而,用户能够按内容属性选择关联关键字。因此,内容检索装置100能够避免用户不想要的关联关键字的提示(例如用户想要综艺的关联关键字,但提示了新闻的关联关键字等)的情况发生。结果,内容检索装置100能够削减用户的检索的返回操作数。
在图14中表示将由本实施方式的内容检索装置输出的关联关键字、以及使用专利文献2所述的现有技术的固定区间输出的关联关键字并列输出的情况下的输出例。
图14(a)是由有关现有技术的内容检索装置输出的关联关键字的提示画面的一例。如图所示,各关联关键字按将2007年8月13日~9月12日的数据以10天划分的时间区间121、122、123生成。
图14(b)是由有关本实施方式的内容检索装置100输出的关联关键字的提示画面的一例。如图所示,各关联关键字在根据各属性的关键字结构的变化率计算的时间区间124、125、126中生成。
在制作关联关键字的时间区间相对于数据的内容变化的频度较短的情况下(例如关键字结构在20天中没有变化的情况下),如图14(a)的时间区间121及时间区间122所示的“选举”等那样,内容检索装置在多个时间区间中输出相同的关键字。这样的将多个相同的关键字输出到相同的画 面中造成用户的选择分支的范围变窄。结果,在用户想要选择其他关键字的情况下,产生多余的检索步骤的可能性变高。
另一方面,有关本实施方式的内容检索装置100决定以下时间区间,该时间区间生成对应于各内容属性的关键字结构的变化的关联关键字。因而,内容检索装置100能够使对不同的时间区间输出多个相同的关键字的可能性变低。即,如图14(b)的时间区间124所示,关键字结构的变化较小的时间区间为1个时间区间124。结果,在时间区间124中提示的关键字和在与时间区间124相邻的时间区间125中提示的关键字为不同的关键字。
此外,在制作关联关键字的时间区间相对于数据的内容变化的频度较长的情况下(例如在关键字结构的变化每5天发生的情况下),跨关键字结构变化的期间的前后关联度高的关键字被优先地提示。因而,内容检索装置不能提示适合于时事性的关键字。即,如图14(a)的时间区间123所示,与关键字结构变化后的适合于时事性的关键字“首相演说”相比,在关键字结构变化前关联度较高的关键字“美国”被在高位提示。在此情况下也与上述同样,在用户想要选择其他关键字的情况下,检索步骤数增加的可能性变高。
相对于此,有关本实施方式的内容检索装置100根据关联关键字结构的变化率,按内容属性变更生成关联关键字的时间区间。因此,内容检索装置100能够提示适合于时事性的关联关键字。即,如图14(b)的时间区间125以及时间区间126所示,内容检索装置100能够以关键字结构较大变化的2007年9月10日为边界变更时间区间,所以在最新的时间区间126中,能够提示适合于时事性的关键字“首相演说”。
如上所述,本实施方式的内容检索装置根据对应于新追加的内容与已经存储的内容之间的关键字结构的差异度的关联区间,更新用来生成关联关键字的关联语词典,所以能够将适合于时事性的关联关键字高效率地提示给用户。由此,用户在从包含了时事性不同的多个内容属性的内容的内容数据库中检索内容的情况下,通过反复进行关联关键字的选择,能够以对话的方式缩减内容。
(变形例1)
接着,利用附图对上述实施方式的变形例1进行说明。
有关本变形例的内容检索装置在内容数据库更新部105生成内容属性21这一点上与图1所示的有关实施方式的内容检索装置100不同。
以下,对有关本变形例的内容数据库更新部105进行的关于内容属性21的生成的处理进行说明。
有关本变形例的内容数据库更新部105通过将存储在内容数据库101中的内容聚类,生成“群集标签”作为内容属性21。并且,内容数据库更新部105将生成的内容属性21登录到内容数据库101中。通过这样内容数据库更新部105进行聚类,内容检索装置例如可以如体育类的节目集合的群集(内容集合)或电影类的节目集合的群集等那样将节目内容接近的内容彼此分类到相同的组中。即,“群集标签”是与EPG的“类型”同样的信息,为内容属性21的一例。另外,关于内容数据库更新部105执行的聚类的具体方法,使用例如在非专利文献2《信息检索和语言处理》(德永健伸,东京大学出版会,pp.60~65,1999))中记载的再配置法即可。
图15表示内容数据库更新部105生成群集标签作为内容属性21的处理的概念图。如图15所示,内容数据库更新部105通过使用包含在存储于内容数据库101中的内容附属信息中的关键字等进行聚类,生成多个群集。并且,内容数据库更新部105生成对应于所生成的群集的群集标签。例如,内容数据库更新部105对群集赋予随机生成的群集标签(CL1、CL2、CL3及CL4)。由此,成为对存储在内容数据库101中的所有的内容ID生成某个群集标签。并且,内容数据库更新部105将生成的群集标签作为内容属性21登录到内容数据库101中。
通过以上的处理,内容数据库更新部105能够自动地登录相当于EPG的“类型”的内容属性21。因此,有关本变形例的内容检索装置即使是没有预先登录内容属性的内容数据库101也能够输出关联关键字。
另外,内容数据库更新部105每当数据库更新时对新存储到内容数据库101中的更新数据生成群集标签。此时,如图16所示,有可能通过对应于更新数据的群集标签(CL21、CL22及CL23)和对于已经存储在内容数据库101中的更新前的数据的群集标签(CL11、CL12及CL13)中对相同的群集赋予了不同的群集标签。例如,对于更新前的体育类的群集赋予了群集标签“CL11”,而对于更新数据的体育类的群集赋予了群集标签 “CL22”。即,对于相同内容的群集没有赋予相同的标签。在这样的情况下,内容数据库更新部105首先计算更新数据的各群集与更新前的数据的各群集的类似度。接着,内容数据库更新部105制作类似度高的群集之间的对。然后,内容数据库更新部105在制作成的对中,将更新前的群集标签作为更新数据的群集标签赋予。另外,关于类似度,通过例如使用各群集间的余弦尺度或内积的方法(非专利文献3《信息检索算法》,北研二等,共立出版,pp.60~63,2002)中记载的方法计算即可。由此,例如如能够将上述例子的群集标签“CL22”向“CL11”变换那样,内容数据库更新部105能够在更新前后对内容接近的群集赋予相同的群集标签。
(变形例2)
接着,利用附图对上述实施方式的变形例2进行说明。
有关本变形例的内容检索装置中,由关联区间计算部106执行的处理的内容与有关实施方式的内容检索装置100不同。在内容间关键字的数量大为不同的内容数据库101中计算关联区间的情况下,计算出的关联区间被关键字数较大的内容较大地影响。所以,有关本变形例的关联区间计算部106在图5所示的步骤S106中,利用已经存储在内容数据库101中的更新前的内容与新追加到内容数据库101中的追加内容的文件空间的类似度计算关联区间。
以下,对有关本变形例的关联区间计算部106进行的关于关联区间的计算的处理进行说明。
图17是表示关联区间计算部106进行的关于关联区间计算的处理(图5所示的步骤S106)的流程的流程图。在图17中,对于与图6相同的步骤赋予相同的标号,省略详细的说明。
首先,关联区间计算部106按内容属性取得上次更新区间(步骤S201)。
接着,关联区间计算部106对于各内容属性制作所取得的上次更新区间的内容的文件矩阵(步骤S1701)。即,关联区间计算部106利用表示已经存储在内容数据库中的第2内容的数据的多个第2关键字,按内容属性制作文件矩阵。以下,将制作出的文件矩阵称作文件矩阵组A。这里,所谓的文件矩阵,如图18所示,是表示各内容的关键字的频度信息(出现频度,tf-idf等)的矩阵。
接着,关联区间计算部106对于各内容属性制作新追加到内容数据库101中的内容的文件矩阵(步骤S1702)。即关联区间计算部106利用表示新存储到内容数据库中的第1内容的数据的多个第1关键字,按内容属性制作文件矩阵。以下,将制作出的文件矩阵称作文件矩阵组B。
接着,关联区间计算部106从文件矩阵组A及B之中分别取得相同的内容属性的文件矩阵(步骤S1703)。以下,将从文件矩阵组A及B中分别取得的各文件矩阵称作文件矩阵A1及B1。在图19中表示在步骤S1703中取得的文件矩阵A1、B1的一例。如图所示,在文件矩阵组A及B中,分别包含有“体育”及“电影”的内容属性的文件矩阵。所以,在步骤S1703中,通过从文件矩阵组A及B中分别选择内容属性是“体育”的文件矩阵,取得对应于内容属性“体育”的文件矩阵A1及B1。
接着,关联区间计算部106利用文件矩阵A1及B1计算各文件矩阵的类似度(步骤S1704)。关联区间计算部106例如计算矩阵B1的各文件矢量相对于文件矩阵A1的余弦距离,对于文件矩阵B1的所有的文件数,计算包含余弦距离是阈值以上的文件的比例作为类似度。
这里,在计算出的类似度比规定的阈值小的情况下(步骤S1705的是),关联区间计算部106计算对应于新追加到内容数据库101中的内容(第1内容)的时间区间作为新的关联区间(步骤S206)。另一方面,在计算出的类似度是规定的阈值以上的情况下(步骤S1705的否),关联区间计算部106计算将对应于新追加到内容数据库101中的内容的时间区间与上次更新区间相加后的时间区间作为新的关联区间(步骤S207)。即,关联区间计算部106计算将对应于第1内容的时间区间与对应于第2内容的时间区间相加后的时间区间作为新的关联区间。
接着,关联区间计算部106判断在步骤S1703中是否已选择了存储在内容数据库101中的所有的内容属性(步骤S1706)。这里,在没有选择所有的内容属性的情况下(步骤S1706的否),回到步骤S1703的处理。另一方面,在选择了所有的内容属性的情况下(步骤S 1706的是),执行图5所示的步骤S107的处理。
通过进行以上的步骤S201、步骤S206、步骤S207及步骤S1701~S1706的处理,关联区间计算部106能够计算对应于以内容为单位的类似度的关 联区间。由此,即使在内容间关键字的数量大为不同的内容数据库101中计算关联区间的情况下,在关联区间的计算中也能够降低关键字数量较大的内容的影响,所以能够防止关联区间的误计算。
另外,关联区间计算部106也可以在步骤S106中根据更新前的内容与追加内容的内容标题的差异度是否满足规定的基准值来计算关联区间。具体而言,关联区间计算部106计算上次更新区间的内容的标题与新追加的内容的标题的一致率。并且,在一致率是阈值以上的情况下,关联区间计算部106计算将上次更新区间与对应于新追加到内容数据库101中的内容的时间区间相加后的时间区间作为新的关联区间。另一方面,在一致率比阈值小的情况下,关联区间计算部106计算对应于新追加到内容数据库101中的内容的时间区间作为新的关联区间。由此,在相同标题的情况下,在存储有内容的数据类似的内容的内容数据库101中,关联区间计算部106能够大幅减少用来计算关联区间的处理时间。
以上,根据实施方式及其变形例对有关本发明的内容检索装置进行了说明,但本发明并不限定于上述实施方式及其变形例。只要不脱离本发明的主旨,本领域技术人员对上述实施方式及其变形例实施了想到的各种变形后的形态、以及将不同的实施方式及其变形例的结构要素组合构建的形态也包含在本发明的范围内。
例如,在上述实施方式中,在内容检索装置中具备内容数据库,但也可以在与内容检索装置不同的其他装置中具备内容数据库。在此情况下,内容检索装置与其他装置经由网络等连接。
此外,上述实施方式的内容检索装置从存储有电视节目的内容数据库中检索想要的电视节目,但也可以从存储有电影、音乐等视听内容、书、论文等文本内容等的内容数据库中检索内容。即,有关本发明的内容检索装置检索的内容只要是具有字符信息的内容就可以。
另外,本发明不仅能够作为上述那样的内容检索装置实现,也可以作为以包含在内容检索装置中的特征性结构部分的动作为步骤的内容检索方法实现、或作为使计算机执行包含在内容检索方法中的特征性步骤的程序实现。并且,这样的程序可以经由CD-ROM(Compact Disc-Read OnlyMemory)等记录媒体或互联网等通信网络流通。
工业实用性
本发明能够作为用来从大量的内容之中检索用户想要利用的内容的内容检索装置等、例如作为从大量存储有电视节目的数据库中检索用户想要观看的节目的装置使用。