CN1930567A - 联想辞典制作装置 - Google Patents

联想辞典制作装置 Download PDF

Info

Publication number
CN1930567A
CN1930567A CNA2005800081455A CN200580008145A CN1930567A CN 1930567 A CN1930567 A CN 1930567A CN A2005800081455 A CNA2005800081455 A CN A2005800081455A CN 200580008145 A CN200580008145 A CN 200580008145A CN 1930567 A CN1930567 A CN 1930567A
Authority
CN
China
Prior art keywords
word
mentioned
association
information
conjunctive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800081455A
Other languages
English (en)
Other versions
CN100454303C (zh
Inventor
续木贵史
九津见洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Godo Kaisha IP Bridge 1
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1930567A publication Critical patent/CN1930567A/zh
Application granted granted Critical
Publication of CN100454303C publication Critical patent/CN100454303C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

提供一种能够简单且有效地制作与用户嗜好相匹配的联想辞典的联想辞典制作装置。联想辞典制作部(103)具备:简档存储部(104),保存有与用户嗜好有关的信息即简档;单词选择部(105),每隔规定的时间从保存在简档存储部(104)中的简档中选择单词,作为关联词探索单词,再选择包含在简档中的除关联词探索单词以外的单词,作为关联词候补;关联度计算部(106),参照保存在内容存储部(101)中的内容,计算由单词选择部(105)选择的关联词探索单词和关联词候补的单词之间的关联度,在关联度比规定的阈值大的情况下,将关联词探索单词和关联词候补的单词作为关联词对,将关联词对和关联度建立对应并保存到联想辞典存储部(102)中。

Description

联想辞典制作装置
技术领域
本发明涉及制作联想辞典的联想辞典制作装置,该联想辞典保存有存储在数据库中的信息中的单词相互间的关联。
背景技术
以往,作为制作用于检索数据库的联想辞典的方法,已知有通过人手工检查数据库的信息的单词相互间的关系而制作辞典的方法、以及对电子化文本中的所有单词利用出现频率信息等自动地制作联想辞典的方法等。此外,还公开了下述文本处理装置,该文本处理装置为了制作各领域的联想辞典而由用户输入检索条件,以符合所输入的检索条件的文本为对象来制作联想辞典,从而能够制作符合检索条件所表示的领域的联想辞典(例如参照专利文献1)。此外,公开了下述联想辞典制作装置,该联想辞典制作装置为了与个人的需求对应,通过增加从用户所输入的检索关键字和用户从与其对应的多个关联词候补中选择的关联词之间的关联度,能够制作适应于用户的联想辞典(例如参照专利文献2)。
专利文献1:日本特开平10-134075号公报
专利文献2:日本特开2000-348042号公报
但是,在以往的制作并利用各领域的联想辞典的文本处理装置中,为了制作各领域的联想辞典而需要用户输入检索条件。因此,在制作符合用户嗜好的领域的联想辞典的情况下,用户为了取得精度较高的联想辞典而必须输入表示领域的最合适的检索条件。这样考虑最合适的检索条件对于用户来说是非常困难的。例如,频繁地视听新闻或文娱信息、经济市场状况等信息节目的用户,为了获得符合嗜好的高精度的联想辞典,作为检索条件,不知道输入“新闻”、“文娱”、“经济”、“信息”的哪一个为好。
此外,在通过用户选择对检索关键字的关联词而自动地变更关联度来制作适合于用户的联想辞典的以往的联想辞典制作装置中,用户在取得适合的辞典之前必须输入与嗜好匹配的全检索关键字并选择与该检索关键字对应的关联词,直到精度提高,从而用户的负担较大。例如,在对一个演出者姓名建立关联并保存了多个演出者姓名的联想辞典的情况下,为了提高联想辞典的精度,用户必须对多个演出者选择保存在联想辞典中的演出者姓名和从该演出者姓名联想到的演出者,用户的负担较大。
发明内容
所以,本发明是鉴于上述情况而做出的,目的是提供一种能够简单且有效地制作与用户嗜好相匹配的联想辞典的联想辞典制作装置。
为了达到上述目的,有关本发明的联想辞典制作装置是制作联想辞典,该联想辞典存储多个单词间的关系的联想辞典制作装置,其特征在于,具备:单词选择机构,从表示用户嗜好的信息中选择任意的单词作为关联词探索单词,选择包含在上述表示用户嗜好的信息中的除上述关联词探索单词以外的单词,作为关联词候补;关联词保存机构,根据保存有作为检索对象的信息的数据库,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词与上述关联词建立关联,保存到联想辞典中。由此,能够简单且有效地制作与用户嗜好相匹配的联想辞典。
发明效果
由以上的说明可知,根据有关本发明的联想辞典制作装置,能够简单且有效地制作联想辞典,该联想辞典保存有与用户嗜好相匹配的单词。
附图说明
图1是表示包括有关本发明的实施方式1的联想辞典制作装置的信息检索装置的结构的框图。
图2是表示保存在联想辞典存储部中的联想辞典的一例的图。
图3是表示保存在简档(profile)存储部中的简档的一例的图。
图4是表示在实施方式1的信息检索装置中制作联想辞典时的动作的流程的流程图。
图5是表示在实施方式1的信息检索装置中检索信息时的动作的流程的流程图。
图6是表示保存在联想辞典存储部中的联想辞典的一例的图。
图7是表示包括有关本发明的实施方式2的联想辞典制作装置的信息检索装置的结构的框图。
图8是表示在实施方式2的信息检索装置中制作联想辞典时的动作的流程的流程图。
图9是表示保存在联想辞典存储部中的联想辞典的一例的图。
图10是表示由实施方式2、4的信息检索装置检索的内容的一例的图。
图11是表示实施方式2、4的信息检索装置的(a)在显示部中显示的内容的一例、(b)保存在显示内容存储部中的内容的一例的图。
图12是表示实施方式2、4的信息检索装置的(a)在显示部中显示的内容的一例、(b)保存在显示内容存储部中的内容的一例的图。
图13是表示包括有关本发明的实施方式3的联想辞典制作装置的信息检索装置的结构的框图。
图14是表示在实施方式3的信息检索装置中制作联想辞典时的动作的流程的流程图。
图15是表示保存在联想辞典存储部中的联想辞典的一例的图。
图16是表示包括有关本发明的实施方式3的联想辞典制作装置的信息检索装置的其他结构的框图。
图17是表示包括有关本发明的实施方式4的联想辞典制作装置的信息检索装置的结构的框图。
图18是表示在实施方式4的信息检索装置中制作联想辞典时的动作的流程的流程图。
符号说明
101            内容存储部
102            联想辞典存储部
103、201、301、401        联想辞典制作部
104            简档存储部
105、203、304  单词选择部
106、305       关联度计算部
107            输入部
108            联想检索部
109            检索条件生成部
110            检索部
202            显示内容存储部
204            显示部
205            画面制作部
206            广播波接收部
302            嗜好内容提取部
303            嗜好符合信息存储部
具体实施方式
有关本发明的联想辞典制作装置是制作联想辞典,该联想辞典存储多个单词间的关系的联想辞典制作装置,其特征在于,具备:单词选择机构,从表示用户嗜好的信息中选择任意的单词作为关联词探索单词,选择包含在上述表示用户嗜好的信息中的除上述关联词探索单词以外的单词,作为关联词候补;关联词保存机构,根据保存有作为检索对象的信息的数据库,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词与上述关联词建立关联,保存到联想辞典中。由此,能够简单且有效地制作与用户嗜好相匹配的联想辞典。
这里,上述单词选择机构也可以从保存有表示用户嗜好的信息的简档中取得上述表示用户嗜好的信息。由此,能够简单地取得表示用户嗜好的信息。
此外,上述关联词保存机构也可以根据在上述数据库中的出现频率,分别计算上述关联词探索单词和上述关联词候补之间的关联度,选择计算出的关联度为阈值以上的上述关联词候补,作为与上述关联词探索单词相关联的关联词。由此,能够选择关联度较高的关联词,能够制作存储有关联度较高的关联词的联想辞典。
此外,上述联想辞典制作装置也可以还具备显示信息提取机构,该显示信息提取机构提取与用户所阅览的显示有关的信息;上述单词选择机构将由上述显示信息提取机构提取的与上述显示有关的信息作为上述表示用户嗜好的信息,从与上述显示有关的信息中选择任意的单词作为关联词探索单词,选择包含在与上述显示有关的信息中的除上述关联词探索单词以外的单词,作为关联词候补。由此,能够从与用户所阅览的显示有关的信息中提取表示用户嗜好的信息。
此外,上述联想辞典制作装置也可以还具备检索机构,该检索机构从上述数据库中检索符合检索条件的信息;上述用户所阅览的显示是信息检索的结果;上述显示信息提取机构提取与上述信息检索的结果有关的信息,作为与上述显示有关的信息。由此,能够从与由用户进行的信息检索的结果有关的信息中取得表示用户嗜好的信息。
此外,上述显示信息提取机构也可以从上述信息检索的结果中提取在显示画面上显示规定时间以上的信息,作为与上述显示有关的信息。由此,能够将例如仅以较少的时间显示的信息等不判断为由用户阅览的信息而将其排除。
此外,上述用户所阅览的显示也可以是播放节目;上述显示信息提取机构提取与上述播放节目有关的信息,作为与上述显示有关的信息。由此,能够制作适应于用户的视听行为的联想辞典。
此外,上述显示信息提取机构也可以从上述播放节目中提取与在显示画面上显示规定时间以上的播放节目有关的信息,作为与上述显示有关的信息。由此,能够将例如仅以较少的时间显示的播放节目等不判断为由用户视听的信息而将其排除。
此外,上述联想辞典制作装置也可以还具备嗜好符合信息提取机构,该嗜好符合信息提取机构利用保存有表示用户嗜好的信息的简档,从上述数据库中提取符合用户嗜好的信息,作为嗜好符合信息;上述关联词保存机构参照从上述数据库中提取的上述嗜好符合信息,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词和上述关联词建立关联并保存到联想辞典中。由此,能够制作使单词的关联程度适合于用户的联想辞典。
此外,上述单词选择机构也可以将由上述嗜好符合信息提取机构提取的上述嗜好符合信息作为上述表示用户嗜好的信息,从上述嗜好符合信息中选择任意的单词作为关联词探索单词,选择包含在上述嗜好符合信息中的除上述关联词探索单词以外的单词作为关联词候补。由此,能够制作仅存储有符合用户喜好的单词的联想辞典。
此外,上述单词选择机构也可以从保存有表示用户嗜好的信息的简档中取得上述表示用户嗜好的信息,从上述表示用户嗜好的信息中选择任意的单词作为关联词探索单词,选择包含在上述表示用户嗜好的信息中的除上述关联词探索单词以外的单词作为关联词候补。由此,能够制作仅存储有符合用户喜好的单词的联想辞典。
此外,上述联想辞典制作装置也可以还具备:显示信息提取机构,提取与用户所阅览的显示有关的信息;嗜好符合信息提取机构,利用保存有表示用户嗜好的信息的简档,从上述数据库中提取符合用户嗜好的信息作为嗜好符合信息;上述单词选择机构将由上述显示信息提取机构提取的与上述显示有关的信息作为上述表示用户嗜好的信息,从与上述显示有关的信息中选择任意的单词作为关联词探索单词,选择包含在与上述显示有关的信息中的除上述关联词探索单词以外的单词作为关联词候补;上述关联词保存机构参照从上述数据库中提取的上述嗜好符合信息,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词和上述关联词建立对应并保存到联想辞典中。由此,能够制作联想辞典,该联想辞典仅存储与用户的视听行为适应的单词,并且单词的关联程度适应于用户嗜好。
另外,本发明不仅可以作为这种联想辞典制作装置来实现,也可以作为以这种联想辞典制作装置所具备的特征性机构为步骤的联想辞典制作方法来实现,或者作为使计算机执行这些步骤的程序来实现。并且,不言而喻,这种程序能够经由CD-ROM等记录介质或因特网等传送媒体发送。
下面对本发明的各实施方式分别参照附图进行说明。
(实施方式1)
图1是表示包括有关本发明的实施方式1的联想辞典制作装置的信息检索装置的结构的框图。
该信息检索装置是用来制作保存有单词相互间的关联的联想辞典、并且利用联想辞典进行信息检索的装置,如图1所示,包括内容存储部101、联想辞典存储部102、联想辞典制作部103、输入部107、联想检索部108。
内容存储部101保存有与电视播放节目有关的信息及与储存在硬盘录制机等中的内容有关的信息等。
联想辞典存储部102对保存在内容存储部101中的内容内的多个单词保存有表示反映了用户嗜好的单词间的关系的联想辞典。图2是表示保存在联想辞典存储部102中的联想辞典的一例的图。在联想辞典存储部102中,例如如图2所示,将有关联的单词设为组的关联词对(关联词1、关联词2)和表示关联词对的关联程度的关联度建立对应并保存,作为(关联词对、关联度),保存有((松下太郎、松下次郎)、80)、(松下太郎、松下花子)、70)、(松下次郎、松下花子)、90)、(松下次郎、松下三郎)、80)、……。
联想辞典制作部103是联想辞典制作装置,该联想辞典制作装置对于保存在内容存储部101中的内容,计算从与用户嗜好有关的信息即简档(profile)提取的单词对的关联度,将作为计算对象的单词对和计算出的关联度建立对应并保存在联想辞典存储部102中,具备简档存储部104、单词选择部105、以及关联度计算部106。
简档存储部104保存有与用户嗜好有关的信息即简档。作为一例,在简档中包含有用户喜好的内容所属的类型、喜好的标题及演出者、视听时间等,保存有与各个数据(类型、标题、演出者、视听时间等)建立了对应的表示喜好程度的权重值等。图3是表示保存在简档存储部104中的简档的一例的图。在简档中,例如如图3所示,将表示数据的种类的标记、数据、和表示用户对数据的喜好程度的权重值建立对应并存储,作为(标记、数据、权重值),保存有((<演出者姓名>、松下太郎、90)、(<演出者姓名>、松下次郎、85)、(<演出者姓名>、松下三郎、80)、(<演出者姓名>、松下花子、80)、(<类型>、电视剧、90)、(<播放时间>、12:00~13:00、90)、……)。
单词选择部105每到规定的时间就从保存在简档存储部104中的简档中选择单词,作为关联词探索单词,再选择包含在简档中的除关联词探索单词以外的单词,作为关联词候补。作为一例,单词选择部105从保存在简档存储部104中的图3的简档中选择数据作为关联词探索单词,再选择包含在简档中的除关联词探索单词以外的单词,作为关联词候补。此外,也可以仅将权重值为规定的阈值以上的数据作为对象,设置关联词探索单词和关联词候补。
关联度计算部106参照保存在内容存储部101中的内容,计算由单词选择部105选择的关联词探索单词和关联词候补的单词之间的关联度,在关联度比规定的阈值大的情况下,将关联词探索单词和关联词候补的单词设为关联词对,将关联词对和关联度建立对应并保存在联想辞典存储部102中。这里,作为关联度的计算方法,例如有利用相互信息量(MI)的方法。具体而言,如果设包含有单词W1和单词W2的内容数为a、不包含单词W1而包含单词W2的内容数为b、包含单词W1而不包含单词W2的内容数为c、不包含单词W1和单词W2两者的内容数为d、总内容数为N(=a+b+c+d),则可以通过MI=log2(aN/((a+b)(a+c))求出。此外,作为一般的关联度的计算方法,也有利用Dice-coefficient、加权Dice-coefficient、t-score、χ平方值、对数似然比等的方法。此外,关联度计算部106也可以参照保存在内容存储部101中的内容,分别对由单词选择部105选择的关联词探索单词和关联词候补的单词,将单词的前后文本分解为词素或单词,生成以词素或单词的有无、出现次数、和将出现频率(tf值)与idf(inverse document frequency:逆文本频率)值相乘后的tfi·idf值等为成分的矢量,计算关联词探索单词的矢量与关联词候补的各单词的矢量间的余弦距离或欧几里得距离的倒数等,作为关联度。
输入部107包括键盘及鼠标、遥控器等输入装置,用户输入包括检索关键字的检索条件及输入数据。
联想检索部108是下述处理部:从联想辞典存储部102取得从输入部107输入的检索条件和与包含在检索条件中的检索关键字相关联的关联词,生成检索扩展条件,从内容存储部101取得与检索扩展条件匹配的内容,作为检索结果进行输出,该联想检索部108具备检索条件生成部109及检索部110。
检索条件生成部109从联想辞典存储部102取得以规定的阈值以上的关联度与包含在从输入部107输入的检索条件中的检索关键字建立了对应的关联词,根据所取得的关联词和检索关键字生成检索扩展条件。
检索部110从内容存储部101取得与由检索条件生成部109生成的检索条件匹配的内容,作为检索结果。
在这样构成的本实施方式的信息检索装置中,对于制作联想辞典时的动作例进行说明。图4是表示制作联想辞典时的动作的流程的流程图。
单词选择部105每到规定的时间就从保存在简档存储部104中的简档中选择单词,作为关联词探索单词,再选择包含在简档中的除关联词探索单词以外的单词,作为关联词候补(步骤S101)。作为具体的一例,单词选择部105每隔作为规定的时间的1周,从保存在简档存储部104中的图3的简档中,将单词“松下太郎、松下次郎、……”作为关联词探索单词,再对于关联词探索单词“松下太郎”,将包含在图3的简档中的除关联词探索单词“松下太郎”以外的单词“松下次郎、松下三郎、松下花子、电视剧、12:00~13:00、……”作为关联词候补,同样,对于其他关联词探索单词“松下次郎、松下三郎、……”也选择关联词候补。
关联度计算部106参照保存在内容存储部101中的内容,计算由单词选择部105选择的关联词探索单词和关联词候补的单词之间的关联度(步骤S102),判断关联度是否比规定的阈值大(步骤S103)。结果,在关联度比规定的阈值大的情况下(步骤S103中的“是”),将关联词探索单词和关联词候补的单词作为关联词对,将该关联词对和关联度建立对应并保存到联想辞典存储部102中(步骤S104)。另一方面,在关联度为规定的阈值以下的情况下(步骤S103中的“否”),什么处理都不进行。对包含在关联词候补中的所有单词进行这些处理(步骤S102~步骤S104)(步骤S105),再对所有的关联词探索单词进行这些处理(步骤S102~步骤S105)(步骤S106)。在上述的例子中,关联度计算部106参照保存在内容存储部101中的内容,对于由单词选择部105选择的各个关联词探索单词“松下太郎、松下次郎、……”,计算与各个关联词候补“松下次郎、松下三郎、松下花子、电视剧、12:00~13:00、……”、“松下太郎、松下三郎、松下花子、电视剧、12:00~13:00、……”、……的各单词之间的关联度。作为一例,计算出(关联词探索单词、关联词候补的单词、关联度)为(松下太郎、松下次郎、80)、(松下太郎、松下三郎、40)、(松下太郎、松下花子、70)、(松下太郎、电视剧、20)、(松下太郎、12:00~13:00、30)、(松下次郎、松下太郎、80)、(松下次郎、松下三郎、80)、(松下次郎、松下花子、90)、(松下次郎、电视剧、10)、(松下次郎、12:00~13:00、40)、……,将关联度比规定的阈值(作为一例而设为50)大的(关联词探索单词、关联词候补的单词、关联度)保存到联想辞典存储部102中。此时的联想辞典存储部102的内容如图2所示。
接着,说明在本实施方式的信息检索装置中检索信息时的动作例。图5是表示检索信息时的动作的流程的流程图。
检索条件生成部109受理由用户从输入部107输入的检索条件(步骤S201)。在上述的例子中,作为一例,假设由用户从输入部107输入了检索条件“松下太郎的节目”。
接着,检索条件生成部109从联想辞典存储部102取得以规定的阈值以上的关联度与包含在从输入部107输入的检索条件中的检索关键字建立了对应的关联词(步骤S202)。接着,检索条件生成部109根据所取得的关联词和检索关键字,生成检索扩展条件(步骤S203)。在上述的例子中,检索条件生成部109从联想辞典存储部102取得以规定的阈值(作为一例设规定的阈值为75)以上的关联度与包含在从输入部107输入的检索条件“松下太郎的节目”中的检索关键字“松下太郎”建立了对应的关联词“松下次郎”,生成检索扩展条件“松下太郎+松下次郎”,该检索扩展条件“松下太郎+松下次郎”表示包含有所取得的关联词“松下次郎”或检索关键字“松下太郎”的任一个。
检索部110从内容存储部101取得与由检索条件生成部109生成的检索条件匹配的内容,作为检索结果(步骤S204)。在上述的例子中,检索部110根据由检索条件生成部109生成的检索条件“松下太郎+松下次郎”,从内容存储部101中取得包含有“松下太郎”或“松下次郎”的任一个关键字的内容,作为检索结果。
另外,在本实施方式中,单词选择部105每隔规定的时间从保存在简档存储部104中的简档中选择关联词探索单词和关联词候补,但也可以不是每隔规定的时间,而是每当更新简档时选择关联词探索单词和关联词候补。通过这样,能够在用户嗜好变化时不产生时间差地取得关联词对。
此外,在本实施方式中,关联度计算部106对由单词选择部105选择的关联词探索单词和关联词候补的所有单词,计算关联度,在关联度比规定的阈值大的情况下,将关联词探索单词和关联词候补的单词作为关联词对,将关联词对和关联度建立对应并保存到联想辞典存储部102中,但并不限于此。例如,关联度计算部106也可以在计算由单词选择部105新选择的关联词对和其关联度时,在使存储在联想辞典存储部102中的所有关联度都衰减后,在联想辞典存储部102中已经存在与新计算了关联度的关联词对相同的关联词对的情况下,通过将已经存储在联想辞典存储部102中的关联度和由关联度计算部106新求出的关联度相加来更新。在此情况下,在关联度计算部106中,在作为(关联词探索单词、关联词候补的单词、关联度)而新计算出(松下太郎、松下次郎、60)的情况下,将存储在图2所示的联想辞典存储部102中的关联度乘以衰减参数(作为一例为0.8)而使其衰减,将已经存在的关联词对(松下太郎、松下次郎)的衰减后的关联度64与新求出的关联度60相加后的值124作为关联词对(松下太郎、松下次郎)的关联度,保存到联想辞典存储部102中。结果,联想辞典存储部102的内容如图6所示那样被更新。通过这样,能够得到考虑到对过去的内容的关联度的关联度,能够提高关联度的精度。
此外,例如也可以对由单词选择部105选择的关联词探索单词和关联词候补的所有单词,计算关联度,不论关联度是否比规定的阈值大,都将关联词探索单词和关联词候补的单词作为关联词对,将关联词对和关联度建立对应并保存到联想辞典存储部102中。另外,如本实施方式那样,如果在关联度比规定的阈值大的情况下将关联词对和关联度建立对应并存储到联想辞典存储部102中,则能够减小存储容量。
如上所述,根据本实施方式,通过从表示用户嗜好的信息即简档中选择保存在联想辞典中的单词,能够制作仅保存符合用户喜好的单词的联想辞典。进而,在用户检索内容时,通过利用该制作的联想辞典,能够利用符合用户嗜好的单词进行检索条件的扩展。由此,能够使扩展后的检索结果符合用户嗜好。
(实施方式2)
图7是表示包括有关本发明的实施方式2的联想辞典制作装置的信息检索装置的结构的框图。这里,与实施方式1相同标号的结构要素进行相同的动作,省略对它们的详细的说明。
本实施方式的信息检索装置是用来制作保存有单词相互间的关联的联想辞典、并且利用联想辞典进行信息检索的装置,如图7所示,包括内容存储部101、联想辞典存储部102、输入部107、联想检索部108、联想辞典制作部201、显示部204、画面制作部205、以及广播波接收部206。
显示部204具有CRT显示器、液晶显示器(LCD)、等离子显示器(PDP)等,是显示所输入的显示画面信息的设备。广播波接收部206经由天线207接收电视播放节目等内容。
画面制作部205将由检索部110检索到的检索结果变换为显示画面信息,将显示画面信息输出给显示部204,并且将由广播波接收部206接收到的电视播放节目等内容输出给显示部204。进而,画面制作部205提取与由检索部110检索到的检索结果有关的文本信息及与显示在显示部204上的电视播放节目等内容有关的信息,作为与显示有关的信息,保存到显示内容存储部202中。
联想辞典制作部201是下述联想辞典制作装置:对于保存在内容存储部101中的内容,计算从所显示的检索结果提取的单词对的关联度,将作为计算对象的单词对和计算出的关联度建立对应并保存到联想辞典存储部102中,该联想辞典制作部201具备显示内容存储部202、单词选择部203、以及关联度计算部106。
显示内容存储部202存储与显示的检索结果有关的文本信息及与显示的内容有关的信息、即与显示有关的信息。单词选择部203每当在显示内容存储部202中保存新的文本信息时,通过对该文本信息进行词素解析等来提取单词,从该提取的单词选择单词,作为关联词探索单词,再在提取的单词中生成以除关联词探索单词以外的单词作为关联词候补的多个组。
关联度计算部106参照保存在内容存储部101中的内容,计算由单词选择部203选择的关联词探索单词和关联词候补的单词之间的关联度,在关联度比规定的阈值大的情况下,将关联词探索单词和关联词候补的单词做成关联词对,将关联词对和关联度建立对应并保存到联想辞典存储部102中。这里,作为关联度的计算方法,采用与实施方式1同样的方法。
说明在这样构成的本实施方式的信息检索装置中制作联想辞典时的动作例。图8是表示制作联想辞典时的动作的流程的流程图。
这里,画面制作部205设为:将由检索部110检索到的检索结果变换为显示画面信息,将显示画面信息输出给显示部204,或者将由广播波接收部206接收到的电视播放节目的内容输出给显示部204。作为一例,在显示检索结果的情况下,假设由用户输入检索条件“松下太郎的节目”,检索结果为“松下太郎”演出的动画内容和动画内容的说明即文本“演出:松下太郎、松下花子、松下三郎”。另一方面,在显示电视播放节目等内容的情况下,假设作为有关内容的文本信息而显示具有“演出:松下次郎、松下花代”的内容。
首先,画面制作部205在显示由检索部110检索的检索结果的情况下,将有关检索结果的文本信息作为与显示有关的信息保存到显示内容存储部202中,在显示由广播波接收部206接收到的内容的情况下,将有关内容的文本信息作为与显示有关的信息保存到显示内容存储部202中(步骤S301)。另外,在显示由广播波接收部206接收到的内容的情况下,也可以是如果显示了规定时间(例如10分钟等)以上,则将有关内容的文本信息保存到显示内容存储部202中。在显示上述例子的检索结果的情况下,画面制作部205将由检索部110检索到的“松下太郎”演出的动画内容的说明即文本“演出:松下太郎、松下花子、松下三郎”保存到显示内容存储部202中。此外,在显示上述例子的由广播波接收部206接收到的内容的情况下,将“演出:松下次郎、松下花代”保存到显示内容存储部202中。
从画面制作部205将文本信息保存到显示内容存储部202中后,单词选择部203通过对该文本信息进行词素解析等而提取单词,从该提取的单词中选择单词作为关联词探索单词,再在所提取的单词中生成以除关联词探索单词以外的单词作为关联词候补的多个组(步骤S302)。例如,在将文本“演出:松下太郎、松下花子、松下三郎”保存到显示内容存储部202中的情况下,单词选择部203通过对“演出:松下太郎、松下花子、松下三郎”进行词素解析,提取例如表示姓名的单词“松下太郎、松下花子、松下三郎”,生成(松下太郎、(松下花子、松下三郎))、(松下花子、(松下太郎、松下三郎))、(松下三郎、(松下太郎、松下花子)),作为(关联词探索单词、(关联词候补))。
关联度计算部106参照保存在内容存储部101中的内容,计算由单词选择部105选择的关联词探索单词和关联词候补的单词之间的关联度(步骤S303),判断关联度是否比规定的阈值大(步骤S304)。在其结果为关联度比规定的阈值大的情况下(步骤S304中的“是”),将关联词探索单词和关联词候补的单词作为关联词对,将该关联词对和关联度建立对应并保存到联想辞典存储部102中(步骤S305)。这里,新计算了关联度的关联词对由于有1个单词作为关联词探索单词的情况和作为关联词候补的单词的情况,所以会发生重复,在省略了该重复后保存到联想辞典存储部102中。另一方面,在关联度为规定的阈值以下的情况下(步骤S304中的“否”),不进行任何处理。对包含在关联词候补中的所有单词进行这些处理(步骤S303~步骤S305)(步骤S306)。再对所有关联词探索单词进行这些处理(步骤S303~步骤S306)(步骤S307)。在上述的例子中,关联度计算部106参照保存在内容存储部101中的内容,对于由单词选择部105选择的(关联词探索单词、(关联词候补))的组即(松下太郎、(松下花子、松下三郎))、(松下花子、(松下太郎、松下三郎))、(松下三郎、(松下太郎、松下花子)),计算各个关联词探索单词和关联词候补的各单词之间的关联度。作为一例,计算(关联词探索单词、关联词候补的单词、关联度)为(松下太郎、松下花子、60)、(松下太郎、松下三郎、40)、(松下花子、松下太郎、60)、(松下花子、松下三郎、70)、(松下三郎、松下太郎、40)、(松下三郎、松下花子、70),将关联度比规定的阈值(作为一例而设为50)大的(关联词探索单词、关联词候补的单词、关联度)加到将保存在图2所示的联想辞典存储部102中的关联度乘以衰减参数(作为一例为0.8)而衰减后的联想辞典存储部102中。此情况的联想辞典存储部102的内容成为图9所示那样。
另外,在本实施方式中,关联度计算部106在更新联想辞典存储部102时,在将存储在联想辞典存储部102中的所有关联度衰减后,在联想辞典存储部102中已经存在与新计算了关联度的关联词对相同的关联词对的情况下,将已经保存在联想辞典存储部102中的关联度与由关联度计算部106新求出的关联度相加而进行更新,但并不限于此。例如,关联度计算部106也可以将新计算了关联度的关联词对原样与关联度建立对应并保存到联想辞典存储部102中。
此外,在本实施方式中检索了动画内容,但并不限于此,也可以是超文本或因特网上的WEB页。在此情况下,画面制作部205将由检索部110检索到的超文本或WEB页的显示文本保存到显示内容存储部202中,再将检索到的超文本或WEB页的文本变换为显示画面信息,将显示画面信息输出给显示部204。作为具体的一例,在由检索部110检测到由图10所示的HTML语言记述的文件“name.html”的情况下,画面制作部205从文件“name.html”将图11(b)所示的显示文本“松下太郎、松下花子、松下三郎、松下次郎”保存到显示内容存储部202中,再将文件“name.html”变换为显示画面信息,在显示部204上如图11(a)所示那样输出显示画面信息。进而,在显示部204上没有显示全部文本的情况下,画面制作部205也可以仅将显示的文本保存到显示内容存储部202中。在上述的实施例中,在作为一例而如图12(a)所示那样显示由图10的HTML语言记述的文件“name.html”的情况下,画面制作部205如图12(b)所示那样仅将显示文本“松下太郎、松下花子、松下三郎”保存到显示内容存储部202中。通过这样,能够仅根据从用户视听到的内容的文本提取的单词来制作联想辞典,能够制作适应于用户的视听行为的联想辞典。此外,画面制作部205也可以将在显示部204上显示了规定时间以上的文本作为显示的文本来处理。由此,能够去除仅在滚动时显示而没有被用户阅览的文本。
此外,画面制作部205将与由检索部110检索的内容有关的文本信息保存在显示内容存储部202中,但在内容为动画内容且存在与动画内容的各场景或每个帧对应的文本的情况下,画面制作部205也可以仅将与用户视听的动画内容的场景或帧对应的文本保存到显示内容存储部202中。通过这样,能够仅根据与用户视听的动画内容的场景或帧对应的文本制作联想辞典,能够对于动画内容制作适应于用户的视听行为的高精度的联想辞典。
如上所述,根据本实施方式,通过从与用户视听的内容有关的文本中选择保存到联想辞典中的单词,能够制作适应于用户的视听行为的联想辞典。进而,用户在检索内容时通过利用该制作的联想辞典,能够利用与用户的视听行为相匹配的单词进行检索条件的扩展。由此,能够使扩展后的检索结果适应于用户的视听行为。
(实施方式3)
图13是表示包括有关本发明的实施方式3的联想辞典制作装置的信息检索装置的结构的框图。这里,与实施方式1相同标号的结构要素进行相同的动作,省略对它们的详细的说明。
本实施方式的信息检索装置是用来制作保存有单词相互间的关联的联想辞典、并且利用联想辞典进行信息检索的装置,如图13所示,包括内容存储部101、联想辞典存储部102、输入部107、联想检索部108、以及联想辞典制作部301。
联想辞典制作部301是下述联想辞典制作装置:从保存在内容存储部101中的内容中提取嗜好符合信息作为有关与用户嗜好匹配的内容的文本,再对嗜好符合信息计算从嗜好符合信息提取的单词对的相关度,将作为计算对象的单词对和计算出的关联度建立对应并保存到联想辞典存储部102中,该联想辞典制作部301具备简档存储部104、嗜好内容提取部302、嗜好符合信息存储部303、单词选择部304、以及关联度计算部305。
嗜好符合信息存储部303保存有关与用户嗜好匹配的内容的文本即嗜好符合信息。嗜好内容提取部302从保存在内容存储部101中的内容中,利用保存在简档存储部104中的与用户嗜好有关的信息即简档,提取有关与用户嗜好匹配的内容的文本即嗜好符合信息,保存到嗜好符合信息存储部303中。
单词选择部304对于保存在嗜好符合信息存储部303中的嗜好符合信息,通过进行词素解析等提取单词,从该提取的单词中选择单词作为关联词探索单词,再在所提取的单词中生成以除关联词探索单词以外的单词作为关联词候补的多个组。
关联度计算部305参照保存在嗜好符合信息存储部303中的嗜好符合信息,计算由单词选择部304选择的关联词探索单词和关联词候补的单词之间的关联度,在关联度比规定的阈值大的情况下,将关联词探索单词和关联词候补的单词作为关联词对,将关联词对和关联度建立对应并保存到联想辞典存储部102中。这里,作为关联度的计算方法,采用与实施方式1同样的方法。
说明在这样构成的本实施方式的信息检索装置中制作联想辞典时的动作例。图14是表示制作联想辞典时的动作的流程的流程图。
嗜好内容提取部302从保存在内容存储部101中的内容中,利用保存在简档存储部104中的例如图3所示那样的简档,提取有关与用户嗜好匹配的内容的文本即嗜好符合信息,保存到嗜好符合信息存储部303中(步骤S401)。作为具体的一例,嗜好内容提取部302从简档存储部104取得(标记、数据、权重值),在文本中包含有数据的关键字的情况下,分别对有关保存在内容存储部101中的各内容的各文本,加上对该关键字的权重,在该加法的结果超过了规定的阈值的情况下,将超过了该阈值的文本保存到嗜好符合信息存储部303中。作为一例,嗜好内容提取部302从内容存储部101中提取文本“类型:电视剧,演出:松下太郎、松下花子、松下三郎”,作为嗜好符合信息保存到嗜好符合信息存储部303中。
单词选择部304通过对保存在嗜好符合信息存储部303中的嗜好符合信息进行词素解析等而提取单词,从该提取的单词中选择单词作为关联词探索单词,再在提取的单词中生成以除关联词探索单词以外的单词作为关联词候补的多个组(步骤S402)。在上述的例子中,单词选择部304通过对保存在嗜好符合信息存储部303中的文本“类型:电视剧,演出:松下太郎、松下花子、松下三郎”进行词素解析,提取例如表示姓名的“松下太郎、松下花子、松下三郎”,生成(松下太郎、(松下花子、松下三郎))、(松下花子、(松下太郎、松下三郎))、(松下三郎、(松下太郎、松下花子)),作为(关联词探索单词、(关联词候补))。
关联度计算部305参照保存在嗜好符合信息存储部303中的嗜好符合信息,计算由单词选择部304选择的关联词探索单词和关联词候补的单词之间的关联度(步骤S403),判断关联度是否比规定的阈值大(步骤S404)。在其结果为关联度比规定的阈值大的情况下(步骤S404中的“是”),将关联词探索单词和关联词候补的单词作为关联词对,将该关联词对和关联度建立对应并保存到联想辞典存储部102中(步骤S405)。这里,新计算了关联度的关联词对由于有1个单词作为关联词探索单词的情况和作为关联词候补的单词的情况,所以会发生重复,在省略了该重复后保存到联想辞典存储部102中。另一方面,在关联度为规定的阈值以下的情况下(步骤S404中的“否”),不进行任何处理。对包含在关联词候补中的所有单词进行这些处理(步骤S403~步骤S405)(步骤S406)。再对所有关联词探索单词进行这些处理(步骤S403~步骤S406)(步骤S407)。在上述的例子中,关联度计算部305参照保存在嗜好符合信息存储部303中的嗜好符合信息,对于由单词选择部304选择的(关联词探索单词、(关联词候补))的组即(松下太郎、(松下花子、松下三郎))、(松下花子、(松下太郎、松下三郎))、(松下三郎、(松下太郎、松下花子)),计算各个关联词探索单词和关联词候补的各单词之间的关联度。作为一例,计算(关联词探索单词、关联词候补的单词、关联度)为(松下太郎、松下花子、60)、(松下太郎、松下三郎、40)、(松下花子、松下太郎、60)、(松下花子、松下三郎、70)、(松下三郎、松下太郎、40)、(松下三郎、松下花子、70),将关联度比规定的阈值(作为一例而设为50)大的(关联词探索单词、关联词候补的单词、关联度)保存在联想辞典存储部102中。此情况的联想辞典存储部102的内容成为图15所示那样。
此外,对于检索信息时的动作,由于与实施方式1相同,所以省略它们的详细的说明。
另外,在本实施方式中,关联度计算部305对由单词选择部304选择的关联词探索单词和关联词候补的所有单词计算关联度,在关联度比规定的阈值大的情况下,将关联词探索单词和关联词候补的单词作为关联词对,将关联词对和关联度建立对应并保存到联想辞典存储部102中,但并不限于此。例如,关联度计算部305也可以在新计算出由单词选择部304选择的关联词对和其关联度时,在使保存在联想辞典存储部102中的所有关联度衰减后,在联想辞典存储部102中已经存在与新计算了关联度的关联词对相同的关联词对的情况下,通过将已经存储在联想辞典存储部102中的关联度和由关联度计算部106新求出的关联度相加来更新。在此情况下,关联度计算部305参照保存在嗜好符合信息存储部303中的嗜好符合信息,对于由单词选择部304选择的(关联词探索单词、(关联词候补))的组即(松下太郎、(松下花子、松下三郎))、(松下花子、(松下太郎、松下三郎))、(松下三郎、(松下太郎、松下花子)),计算各个关联词探索单词和关联词候补的各单词之间的关联度。作为一例,计算(关联词探索单词、关联词候补的单词、关联度)为(松下太郎、松下花子、60)、(松下太郎、松下三郎、40)、(松下花子、松下太郎、60)、(松下花子、松下三郎、70)、(松下三郎、松下太郎、40)、(松下三郎、松下花子、70),将关联度比规定的阈值(作为一例而设为50)大的(关联词探索单词、关联词候补的单词、关联度)加到将保存在图2所示的联想辞典存储部102中的关联度乘以衰减参数(作为一例为0.8)而衰减后的联想辞典存储部102中。此情况下的联想辞典存储部102的内容成为图9所示那样。通过这样,能够得到考虑到对过去的内容的关联度的关联度,能够提高关联度的精度。
此外,在本实施方式中,单词选择部304从嗜好符合信息存储部303中选择关联词探索单词和关联词候补,但也可以例如像图16所示那样,与实施方式1同样地从简档存储部104选择关联词探索单词和关联词候补。进而,也可以仅以权重值为特定的阈值以上的数据为对象,作为关联词探索单词和关联词候补。通过这样,由于仅将强烈地反映了用户嗜好的数据保存到联想辞典存储部102中,所以能够使用户嗜好更强烈地反映在保存于联想辞典存储部102中的单词中。
如上所述,根据本实施方式,能够制作联想辞典,该联想辞典从与用户嗜好匹配的内容中选择保存到联想辞典中的单词,并且通过也计算关联程度,仅保存与用户喜好相匹配的单词,并且单词的关联程度也适应于用户。进而,用户在检索内容时,通过利用该制作的联想辞典,能够进行与用户嗜好相匹配的联想,利用与用户嗜好相匹配的单词进行检索条件的扩展。
(实施方式4)
图17是表示包括有关本发明的实施方式4的联想辞典制作装置的信息检索装置的结构的框图。这里,与实施方式1~3相同标号的结构要素进行相同的动作,省略对它们的详细的说明。
本实施方式的信息检索装置是用来制作保存有单词相互间的关联的联想辞典、并且利用联想辞典进行信息检索的装置,如图17所示,包括内容存储部101、联想辞典存储部102、输入部107、联想检索部108、显示部204、画面制作部205、广播波接收部206、以及联想辞典制作部401。
联想辞典制作部401是下述联想辞典制作装置:从保存在内容存储部101中的内容中提取嗜好符合信息作为有关与用户嗜好匹配的内容的文本,再对嗜好符合信息计算从所显示的检索结果中提取的单词对的相关度,将作为计算对象的单词对和计算出的关联度建立对应并保存到联想辞典存储部102中,该联想辞典制作部401具备简档存储部104、嗜好内容提取部302、嗜好符合信息存储部303、显示内容存储部202、单词选择部203、以及关联度计算部305。
嗜好符合信息存储部303保存有关与用户嗜好匹配的内容的文本即嗜好符合信息。嗜好内容提取部302从保存在内容存储部101中的内容中,利用保存在简档存储部104中的与用户嗜好有关的信息即简档,提取有关与用户嗜好匹配的内容的文本即嗜好符合信息,保存到嗜好符合信息存储部303中。
显示内容存储部202存储与所显示的检索结果有关的文本信息及与所显示的内容有关的信息、即与显示有关的信息。单词选择部203每当在显示内容存储部202中新保存文本信息时,通过对该文本信息进行词素解析等来提取单词,从该提取的单词选择单词作为关联词探索单词,再在提取的单词中生成以除关联词探索单词以外的单词为关联词候补的多个组。
关联度计算部305参照保存在嗜好符合信息存储部303中的嗜好符合信息,计算由单词选择部304选择的关联词探索单词和关联词候补的单词之间的关联度,在关联度比规定的阈值大的情况下,将关联词探索单词和关联词候补的单词作为关联词对,将关联词对和关联度建立对应并保存到联想辞典存储部102中。这里,作为关联度的计算方法,采用与实施方式1同样的方法。
说明在这样构成的本实施方式的信息检索装置中制作联想辞典时的动作例进行。图18是表示制作联想辞典时的动作的流程的流程图。
这里,画面制作部205与实施方式2同样,将由检索部110检索到的检索结果变换为显示画面信息,将显示画面信息输出给显示部204,并且将由广播波接收部206接收到的电视播放节目等内容输出给显示部204。作为一例,在显示检索结果的情况下,假设由用户输入检索条件“松下太郎的节目”,检索结果为“松下太郎”演出的动画内容和动画内容的说明即文本“演出:松下太郎、松下花子、松下三郎”。另一方面,在显示电视播放节目等内容的情况下,假设显示具有“演出:松下次郎、松下花代”的内容,作为有关内容的文本信息。
首先,画面制作部205与实施方式2同样,在显示由检索部110检索的检索结果的情况下,将有关检索结果的文本信息作为有关显示的信息保存到显示内容存储部202中,在显示由广播波接收部206接收到的内容的情况下,将有关内容的文本信息作为有关显示的信息保存到显示内容存储部202中(步骤S501)。另外,在显示由广播波接收部206接收到的内容的情况下,也可以是如果显示了规定时间(例如10分钟等)以上,则将有关内容的文本信息保存到显示内容存储部202中。在显示上述例子的检索结果的情况下,画面制作部205将由检索部110检索到的“松下太郎”演出的动画内容的说明即文本“演出:松下太郎、松下花子、松下三郎”保存到显示内容存储部202中。此外,在显示上述例子的由广播波接收部206接收到的内容的情况下,将“演出:松下次郎、松下花代”保存到显示内容存储部202中。
接着,嗜好内容提取部302与实施方式3同样,从保存在内容存储部101中的内容中,利用保存在简档存储部104中的例如图3所示那样的简档,提取有关与用户嗜好匹配的内容的文本即嗜好符合信息,保存到嗜好符合信息存储部303中(步骤S502)。作为具体的一例,嗜好内容提取部302从简档存储部104取得(标记、数据、权重值),在文本中包含有数据的关键字的情况下,分别对与保存在内容存储部101中的各内容有关的各文本加上对该关键字的权重,在该加法的结果超过了规定的阈值的情况下,将超过了该阈值的文本保存到嗜好符合信息存储部303中。作为一例,嗜好内容提取部302从内容存储部101中提取文本“类型:电视剧,演出:松下太郎、松下花子、松下三郎”,作为嗜好符合信息保存到嗜好符合信息存储部303中。
从画面制作部205将文本信息保存到显示内容存储部202中后,单词选择部203通过对该文本信息进行词素解析等而提取单词,从该提取的单词中选择单词作为关联词探索单词,再在提取的单词中生成以除关联词探索单词以外的单词作为关联词候补的多个组(步骤S503)。例如,在将文本“演出:松下太郎、松下花子、松下三郎”保存到显示内容存储部202中的情况下,单词选择部203通过对“演出:松下太郎、松下花子、松下三郎”进行词素解析,提取例如表示姓名的单词“松下太郎、松下花子、松下三郎”,生成(松下太郎、(松下花子、松下三郎))、(松下花子、(松下太郎、松下三郎))、(松下三郎、(松下太郎、松下花子)),作为(关联词探索单词、(关联词候补))。
关联度计算部305参照保存在嗜好符合信息存储部303中的嗜好符合信息,计算由单词选择部203选择的关联词探索单词和关联词候补的单词之间的关联度(步骤S504),判断关联度是否比规定的阈值大(步骤S505)。在其结果为关联度比规定的阈值大的情况下(步骤S505中的“是”),将关联词探索单词和关联词候补的单词作为关联词对,将该关联词对和关联度建立对应并保存到联想辞典存储部102中(步骤S506)。这里,新计算了关联度的关联词对由于有1个单词作为关联词探索单词的情况和作为关联词候补的单词的情况,所以会发生重复,在省略了该重复后保存到联想辞典存储部102中。另一方面,在关联度为规定的阈值以下的情况下(步骤S505中的“否”),不进行任何处理。对包含在关联词候补中的所有单词进行这些处理(步骤S504~步骤S506)(步骤S507)。再对所有关联词探索单词进行这些处理(步骤S504~步骤S507)(步骤S508)。
在上述的例子中,关联度计算部305参照保存在嗜好符合信息存储部303中的嗜好符合信息,对于由单词选择部203选择的(关联词探索单词、(关联词候补))的组即(松下太郎、(松下花子、松下三郎))、(松下花子、(松下太郎、松下三郎))、(松下三郎、(松下太郎、松下花子)),计算各个关联词探索单词和关联词候补的各单词之间的关联度。作为一例,计算(关联词探索单词、关联词候补的单词、关联度)为(松下太郎、松下花子、60)、(松下太郎、松下三郎、40)、(松下花子、松下太郎、60)、(松下花子、松下三郎、70)、(松下三郎、松下太郎、40)、(松下三郎、松下花子、70),将关联度比规定的阈值(作为一例而设为50)大的(关联词探索单词、关联词候补的单词、关联度)加到将保存在图2所示的联想辞典存储部102中的关联度乘以衰减参数(作为一例为0.8)而衰减后的联想辞典存储部102中。此情况的联想辞典存储部102的内容成为图9所示那样。
另外,在本实施方式中,关联度计算部305在更新联想辞典存储部102时,在将存储在联想辞典存储部102中的所有关联度衰减后,在联想辞典存储部102中已经存在与新计算了关联度的关联词对相同的关联词对的情况下,将已经保存在联想辞典存储部102中的关联度与由关联度计算部305新求出的关联度相加而进行更新,但并不限于此。例如,关联度计算部305也可以将新计算了关联度的关联词对原样与关联度建立对应并保存到联想辞典存储部102中。
此外,在本实施方式中检索了动画内容,但并不限于此,也可以是超文本或因特网上的WEB页。在此情况下,画面制作部205将由检索部110检索到的超文本或WEB页的显示文本保存到显示内容存储部202中,再将检索到的超文本或WEB页的文本变换为显示画面信息,将显示画面信息输出给显示部204。作为具体的一例,在由检索部110检测到由图10所示的HTML语言记述的文件“name.html”的情况下,画面制作部205从文件“name.html”将图11(b)所示的显示文本“松下太郎、松下花子、松下三郎、松下次郎”保存到显示内容存储部202中,再将文件“name.html”变换为显示画面信息,在显示部204上如图11(a)所示那样输出显示画面信息。进而,在显示部204上没有显示全部文本的情况下,画面制作部205也可以仅将显示的文本保存到显示内容存储部202中。在上述的实施例中,在作为一例而如图12(a)所示那样显示由图10的HTML语言记述的文件“name.html”的情况下,画面制作部205如图12(b)所示那样仅将显示文本“松下太郎、松下花子、松下三郎”保存到显示内容存储部202中。通过这样,能够仅根据从用户视听到的内容的文本提取的单词来制作联想辞典,能够制作适应于用户的视听行为的联想辞典。此外,画面制作部205也可以将在显示部204上显示了推定时间以上的文本作为显示的文本来处理。由此,能够去除仅在滚动时显示而没有被用户阅览的文本。
此外,画面制作部205将与由检索部110检索的内容有关的文本信息保存在显示内容存储部202中,但在内容为动画内容且存在与动画内容的各场景或每个帧对应的文本的情况下,画面制作部205也可以仅将与用户视听的动画内容的场景或帧对应的文本保存到显示内容存储部202中。通过这样,能够仅根据与用户视听的动画内容的场景或帧对应的文本制作联想辞典,能够对于动画内容制作适应于用户的视听行为的高精度的联想辞典。
如上所述,根据本实施方式,通过从与用户视听的内容有关的文本中选择保存到联想辞典中的单词,再对与用户嗜好匹配的内容计算关联程度,由此,能够仅存储适应于用户的视听行为的单词,并且制作单词的关联程度适应于用户的视听行为的联想辞典。进而,用户在检索内容时,通过利用该制作的联想辞典,能够进行与用户嗜好相匹配的联想,利用适应于用户的视听行为的单词,进行检索条件的扩展。由此,能够使扩展后的检索结果适应于用户的视听行为,而且使联想适应于用户嗜好。
另外,在上述实施方式1中,内容存储部101相当于保存有作为检索对象的信息的数据库,单词选择部105相当于单词选择机构,关联度计算部106相当于关联词保存机构。
此外,在上述实施方式2中,单词选择部203相当于单词选择机构,画面制作部205相当于显示信息提取机构,关联度计算部106相当于关联词保存机构,检索部110相当于检索机构。
此外,在上述实施方式3中,嗜好内容提取部302相当于嗜好符合信息提取机构,单词选择部304相当于单词选择机构,关联度计算部305相当于关联词保存机构。
此外,在上述实施方式4中,嗜好内容提取部302相当于嗜好符合信息提取机构,单词选择部203相当于单词选择机构,关联度计算部305相当于关联词保存机构,画面制作部205相当于显示信息提取机构,检索部110相当于检索机构。
工业实用性
有关本发明的联想辞典制作装置能够制作联想辞典,该联想辞典能够在利用联想辞典进行检索条件的扩展时,使为了扩展而附加的检索条件适应于用户嗜好或视听行为,例如作为能够访问硬盘录制机或DVD录制机、TV、组合音响、因特网来进行信息检索的终端等,是具有实用性的。

Claims (14)

1、一种联想辞典制作装置,制作联想辞典,该联想辞典存储多个单词间的关系,其特征在于,具备:
单词选择机构,从表示用户嗜好的信息中选择任意的单词作为关联词探索单词,选择包含在上述表示用户嗜好的信息中的除上述关联词探索单词以外的单词,作为关联词候补;
关联词保存机构,根据保存有作为检索对象的信息的数据库,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词与上述关联词建立关联,保存到联想辞典中。
2、如权利要求1所述的联想辞典制作装置,其特征在于,
上述单词选择机构从保存有表示用户嗜好的信息的简档中取得上述表示用户嗜好的信息。
3、如权利要求1所述的联想辞典制作装置,其特征在于,
上述关联词保存机构根据在上述数据库中的出现频率,分别计算上述关联词探索单词和上述关联词候补之间的关联度,选择计算出的关联度为阈值以上的上述关联词候补,作为与上述关联词探索单词相关联的关联词。
4、如权利要求1所述的联想辞典制作装置,其特征在于,
上述联想辞典制作装置还具备显示信息提取机构,该显示信息提取机构提取与用户所阅览的显示有关的信息;
上述单词选择机构将由上述显示信息提取机构提取的与上述显示有关的信息作为上述表示用户嗜好的信息,从与上述显示有关的信息中选择任意的单词作为关联词探索单词,选择包含在与上述显示有关的信息中的除上述关联词探索单词以外的单词,作为关联词候补。
5、如权利要求4所述的联想辞典制作装置,其特征在于,
上述联想辞典制作装置还具备检索机构,该检索机构从上述数据库中检索符合检索条件的信息;
上述用户所阅览的显示是信息检索的结果;
上述显示信息提取机构提取与上述信息检索的结果有关的信息,作为与上述显示有关的信息。
6、如权利要求5所述的联想辞典制作装置,其特征在于,
上述显示信息提取机构从上述信息检索的结果中提取在显示画面上显示规定时间以上的信息,作为与上述显示有关的信息。
7、如权利要求4所述的联想辞典制作装置,其特征在于,
上述用户所阅览的显示是播放节目;
上述显示信息提取机构提取与上述播放节目有关的信息,作为与上述显示有关的信息。
8、如权利要求7所述的联想辞典制作装置,其特征在于,
上述显示信息提取机构从上述播放节目中提取与在显示画面上显示规定时间以上的播放节目有关的信息,作为与上述显示有关的信息。
9、如权利要求1所述的联想辞典制作装置,其特征在于,
上述联想辞典制作装置还具备嗜好符合信息提取机构,该嗜好符合信息提取机构利用保存有表示用户嗜好的信息的简档,从上述数据库中提取符合用户嗜好的信息,作为嗜好符合信息;
上述关联词保存机构参照从上述数据库中提取的上述嗜好符合信息,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词和上述关联词建立关联并保存到联想辞典中。
10、如权利要求9所述的联想辞典制作装置,其特征在于,
上述单词选择机构将由上述嗜好符合信息提取机构提取的上述嗜好符合信息作为上述表示用户嗜好的信息,从上述嗜好符合信息中选择任意的单词作为关联词探索单词,选择包含在上述嗜好符合信息中的除上述关联词探索单词以外的单词作为关联词候补。
11、如权利要求9所述的联想辞典制作装置,其特征在于,
上述单词选择机构从保存有表示用户嗜好的信息的简档中取得上述表示用户嗜好的信息,从上述表示用户嗜好的信息中选择任意的单词作为关联词探索单词,选择包含在上述表示用户嗜好的信息中的除上述关联词探索单词以外的单词作为关联词候补。
12、如权利要求1所述的联想辞典制作装置,其特征在于,
上述联想辞典制作装置还具备:
显示信息提取机构,提取与用户所阅览的显示有关的信息;
嗜好符合信息提取机构,利用保存有表示用户嗜好的信息的简档,从上述数据库中提取符合用户嗜好的信息,作为嗜好符合信息;
上述单词选择机构将由上述显示信息提取机构提取的与上述显示有关的信息作为上述表示用户嗜好的信息,从与上述显示有关的信息中选择任意的单词作为关联词探索单词,选择包含在与上述显示有关的信息中的除上述关联词探索单词以外的单词,作为关联词候补;
上述关联词保存机构参照从上述数据库中提取的上述嗜好符合信息,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词和上述关联词建立对应并保存到联想辞典中。
13、一种联想辞典制作方法,制作联想辞典,该联想辞典存储多个单词间的关系,其特征在于,包括:
单词选择步骤,从表示用户嗜好的信息中选择任意的单词作为关联词探索单词,选择包含在上述表示用户嗜好的信息中的除上述关联词探索单词以外的单词,作为关联词候补;
关联词保存步骤,根据保存有作为检索对象的信息的数据库,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词与上述关联词建立关联,保存到联想辞典中。
14、一种程序,用来制作联想辞典,该联想辞典存储多个单词间的关系,其特征在于,使计算机执行:
单词选择步骤,从表示用户嗜好的信息中选择任意的单词作为关联词探索单词,选择包含在上述表示用户嗜好的信息中的除上述关联词探索单词以外的单词作为关联词候补;
关联词保存步骤,根据保存有作为检索对象的信息的数据库,从上述关联词候补中选择与上述关联词探索单词相关联的关联词,将上述关联词探索单词与上述关联词建立关联,保存到联想辞典中。
CNB2005800081455A 2005-01-07 2005-12-27 联想辞典制作装置 Active CN100454303C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP003171/2005 2005-01-07
JP2005003171 2005-01-07

Publications (2)

Publication Number Publication Date
CN1930567A true CN1930567A (zh) 2007-03-14
CN100454303C CN100454303C (zh) 2009-01-21

Family

ID=36647577

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005800081455A Active CN100454303C (zh) 2005-01-07 2005-12-27 联想辞典制作装置

Country Status (4)

Country Link
US (1) US8280720B2 (zh)
JP (1) JP3917648B2 (zh)
CN (1) CN100454303C (zh)
WO (1) WO2006073095A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479236A (zh) * 2010-11-30 2012-05-30 成都致远诺亚舟教育科技有限公司 一种单词关联库系统及其实现方法和电子学习设备
CN101350029B (zh) * 2007-07-18 2012-07-04 富士胶片株式会社 用于产生关联词字典的装置、方法和程序以及内容搜索装置
CN102567424A (zh) * 2010-12-31 2012-07-11 成都致远诺亚舟教育科技有限公司 一种诗词关联库系统及其实现方法和电子学习设备
CN102567423A (zh) * 2010-12-31 2012-07-11 成都致远诺亚舟教育科技有限公司 一种诗词关联搜索方法和系统
CN102622371A (zh) * 2011-01-28 2012-08-01 成都致远诺亚舟教育科技有限公司 一种历史关联库系统及其实现方法和电子学习设备
CN103106232A (zh) * 2011-10-11 2013-05-15 铭传大学 制作知识地图的方法
CN104899241A (zh) * 2014-03-07 2015-09-09 歌乐株式会社 关联数据生成装置和关联数据生成方法
CN105653533A (zh) * 2014-11-13 2016-06-08 腾讯数码(深圳)有限公司 一种更新分类关联词集合的方法和装置
CN110032675A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 基于共现词的检索方法、装置、设备及可读存储介质
CN110059156A (zh) * 2019-03-13 2019-07-26 平安城市建设科技(深圳)有限公司 基于关联词的协同检索方法、装置、设备及可读存储介质
CN110069599A (zh) * 2019-03-13 2019-07-30 平安城市建设科技(深圳)有限公司 基于近似词的检索方法、装置、设备及可读存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793569B2 (en) * 2005-04-01 2014-07-29 Sony Corporation Presenting a recommendation based on user preference
JP2007206975A (ja) * 2006-02-01 2007-08-16 Toshiba Corp 言語情報変換装置及びその方法
JP2007241888A (ja) * 2006-03-10 2007-09-20 Sony Corp 情報処理装置および方法、並びにプログラム
WO2008056570A1 (fr) * 2006-11-09 2008-05-15 Panasonic Corporation Dispositif de recherche de contenu
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
CN101601038A (zh) 2007-08-03 2009-12-09 松下电器产业株式会社 关联词语提示装置
JP2009069874A (ja) * 2007-09-10 2009-04-02 Sharp Corp コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体
JP2009302884A (ja) * 2008-06-13 2009-12-24 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2012008900A (ja) * 2010-06-28 2012-01-12 Nippon Telegr & Teleph Corp <Ntt> 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US9785628B2 (en) * 2011-09-29 2017-10-10 Microsoft Technology Licensing, Llc System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication
US9734141B2 (en) 2015-09-22 2017-08-15 Yang Chang Word mapping
WO2017189768A1 (en) 2016-04-26 2017-11-02 Ponddy Education Inc. Affinity knowledge based computational learning system

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877203A (ja) 1994-09-07 1996-03-22 Fuji Xerox Co Ltd 文書検索装置
JP3625344B2 (ja) * 1996-11-05 2005-03-02 株式会社ビデオリサーチ 視聴チャンネル検出装置
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
JP3596210B2 (ja) 1997-01-16 2004-12-02 富士ゼロックス株式会社 関連語辞書作成装置
US6029165A (en) * 1997-11-12 2000-02-22 Arthur Andersen Llp Search and retrieval information system and method
US6553566B1 (en) * 1998-08-27 2003-04-22 X Out Corporation Viewer controlled multi-function system for processing television signals
US7209942B1 (en) * 1998-12-28 2007-04-24 Kabushiki Kaisha Toshiba Information providing method and apparatus, and information reception apparatus
JP2000348042A (ja) * 1999-06-03 2000-12-15 Fujitsu Ltd 統合シソーラス作成装置、修正シソーラス作成装置、情報収集型シソーラス作成装置、統合シソーラス作成プログラム記憶媒体、修正シソーラス作成プログラム記憶媒体、および情報収集型シソーラス作成プログラム記憶媒体
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
JP2001117935A (ja) 1999-10-19 2001-04-27 Fujitsu Ltd テキスト情報アクセス装置、その方法、及び記録媒体
JP3994368B2 (ja) * 2000-01-25 2007-10-17 ソニー株式会社 情報処理装置および情報処理方法、並びに記録媒体
US20020059204A1 (en) * 2000-07-28 2002-05-16 Harris Larry R. Distributed search system and method
JP2002077755A (ja) * 2000-08-29 2002-03-15 Sharp Corp エージェントインタフェース装置
JP2002082987A (ja) * 2000-09-06 2002-03-22 Seiko Epson Corp 文書情報閲読支援装置、ディジタルコンテンツ作成システム、ディジタルコンテンツ配信システム及び記憶媒体
US7065550B2 (en) * 2001-02-14 2006-06-20 International Business Machines Corporation Information provision over a network based on a user's profile
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US20030126227A1 (en) * 2001-12-31 2003-07-03 Koninklijke Philips Electronics N.V Method of populating an explicit profile
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
US7657907B2 (en) * 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
US7340460B1 (en) * 2003-04-04 2008-03-04 Yahoo! Inc. Vector analysis of histograms for units of a concept network in search query processing
JP2004348607A (ja) 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索方法、コンテンツ検索システム、コンテンツ検索用プログラムおよびコンテンツ検索用プログラムが記録された記録媒体
NZ545093A (en) * 2003-07-14 2007-07-27 Orative Corp System and method for active mobile collaboration
WO2006046390A1 (ja) * 2004-10-29 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報検索装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350029B (zh) * 2007-07-18 2012-07-04 富士胶片株式会社 用于产生关联词字典的装置、方法和程序以及内容搜索装置
CN102479236B (zh) * 2010-11-30 2015-09-23 成都致远诺亚舟教育科技有限公司 一种单词关联库系统及其实现方法和电子学习设备
CN102479236A (zh) * 2010-11-30 2012-05-30 成都致远诺亚舟教育科技有限公司 一种单词关联库系统及其实现方法和电子学习设备
CN102567423B (zh) * 2010-12-31 2014-12-03 成都致远诺亚舟教育科技有限公司 一种诗词关联搜索方法和系统
CN102567424A (zh) * 2010-12-31 2012-07-11 成都致远诺亚舟教育科技有限公司 一种诗词关联库系统及其实现方法和电子学习设备
CN102567423A (zh) * 2010-12-31 2012-07-11 成都致远诺亚舟教育科技有限公司 一种诗词关联搜索方法和系统
CN102567424B (zh) * 2010-12-31 2014-12-03 成都致远诺亚舟教育科技有限公司 一种诗词关联库系统及其实现方法和电子学习设备
CN102622371B (zh) * 2011-01-28 2015-06-03 成都致远诺亚舟教育科技有限公司 一种历史关联库系统及其实现方法和电子学习设备
CN102622371A (zh) * 2011-01-28 2012-08-01 成都致远诺亚舟教育科技有限公司 一种历史关联库系统及其实现方法和电子学习设备
CN103106232A (zh) * 2011-10-11 2013-05-15 铭传大学 制作知识地图的方法
CN104899241A (zh) * 2014-03-07 2015-09-09 歌乐株式会社 关联数据生成装置和关联数据生成方法
CN105653533A (zh) * 2014-11-13 2016-06-08 腾讯数码(深圳)有限公司 一种更新分类关联词集合的方法和装置
CN105653533B (zh) * 2014-11-13 2019-10-25 腾讯数码(深圳)有限公司 一种更新分类关联词集合的方法和装置
CN110032675A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 基于共现词的检索方法、装置、设备及可读存储介质
CN110059156A (zh) * 2019-03-13 2019-07-26 平安城市建设科技(深圳)有限公司 基于关联词的协同检索方法、装置、设备及可读存储介质
CN110069599A (zh) * 2019-03-13 2019-07-30 平安城市建设科技(深圳)有限公司 基于近似词的检索方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
US20060282258A1 (en) 2006-12-14
JPWO2006073095A1 (ja) 2008-06-12
JP3917648B2 (ja) 2007-05-23
US8280720B2 (en) 2012-10-02
CN100454303C (zh) 2009-01-21
WO2006073095A1 (ja) 2006-07-13

Similar Documents

Publication Publication Date Title
CN1930567A (zh) 联想辞典制作装置
CN1918571A (zh) 信息检索装置
US9654834B2 (en) Computing similarity between media programs
CN1975733A (zh) 视频内容观看支持系统和方法
CN1533163A (zh) 电子节目指南数据的自由文本和属性搜索
CN1975732A (zh) 视频观看支持系统及方法
CN1877582A (zh) 广告信息检索系统及广告信息检索方法
CN100348021C (zh) 信息处理装置
CN1586080A (zh) 创建用于推荐媒体内容的代理
CN1910581A (zh) 用于按类别提供关键字输入频率信息的搜索系统及其方法
CN1530926A (zh) 语音识别词典制作装置及信息检索装置
CN1757020A (zh) 信息处理装置、信息处理方法以及计算机程序
JP2007213497A (ja) 情報処理装置および方法、並びにプログラム
CN101055580A (zh) 用于检索文档的系统、方法及用户接口
CN1534471A (zh) 应用程序中心用户界面技术
US20110119248A1 (en) Topic identification system, topic identification device, client terminal, program, topic identification method, and information processing method
CN1620122A (zh) 内容提取方法和内容提取装置、内容信息显示方法和显示装置
CN1874442A (zh) 信息处理装置、信息处理方法以及程序
CN1689002A (zh) 基于内容供应广告
CN101034414A (zh) 信息处理设备和方法以及程序
CN1926532A (zh) 能用给定的访问方法进行数据发送的数据处理装置
CN1877583A (zh) 访问标识索引系统及访问标识索引库生成方法
CN101055588A (zh) 获取限制词信息的方法、优化输出的方法和输入法系统
JP2009303120A (ja) 視聴したコンテンツに関連する広告情報を提供するサーバ、方法及びプログラム
CN1313561A (zh) 信息结构化及应用产生的方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140929

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140929

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170425

Address after: Tokyo, Japan

Patentee after: Godo Kaisha IP Bridge 1

Address before: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

TR01 Transfer of patent right