CN101034414A - 信息处理设备和方法以及程序 - Google Patents

信息处理设备和方法以及程序 Download PDF

Info

Publication number
CN101034414A
CN101034414A CNA200710087709XA CN200710087709A CN101034414A CN 101034414 A CN101034414 A CN 101034414A CN A200710087709X A CNA200710087709X A CN A200710087709XA CN 200710087709 A CN200710087709 A CN 200710087709A CN 101034414 A CN101034414 A CN 101034414A
Authority
CN
China
Prior art keywords
content
correlation
information
information extraction
associated objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200710087709XA
Other languages
English (en)
Other versions
CN100517333C (zh
Inventor
馆野启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101034414A publication Critical patent/CN101034414A/zh
Application granted granted Critical
Publication of CN100517333C publication Critical patent/CN100517333C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种包括生成部分、计算部分、关联检测部分和呈现部分的信息处理设备。

Description

信息处理设备和方法以及程序
技术领域
本发明涉及一种用于信息处理的设备和方法以及程序,更具体地涉及一种用于信息处理的设备和方法以及程序,其能够向用户呈现允许高效地选择内容的信息。
背景技术
为了使用户能够高效地选择各种内容(静止图像、运动图像、音乐、网络文档等),通过利用基于空间方法的TF/IDF方法进行匹配或者使用词库(thesaurus)来检索与用户指定的特定内容相似的一组内容的方法已经被投入实际使用(参见日本专利特许公开第Hei 3-172966号。在下文中将其称为专利文档1)。例如,在因特网上可以得到呈现类似于输入文本的文档信息的服务(Webcat Plus(http://webcatplus.nii.ac.jp/))。
另外,存在一种分组并描述多个内容的标签加注(labeling)(特征关键字的提取)的方法(参见日本专利特许公开第2003-248686号。在下文中将其称为专利文档2)。
此外,在因特网上还可以得到响应于询问(对于数据库管理系统的处理请求(查询)作为字符串的表示)而将搜索结果聚类(分类),并且随后呈现该结果的服务(Clusty(http://clusty.jp/))。
发明内容
然而,使用专利文档1中的方法,用户不能认识到根据什么视点将所检索的相似内容判断为与所述特定内容“相似”。
使用专利文档2中的方法,同等地处理多个内容,因此不考虑指示作为源的内容和与该内容相关联的内容的相关性。
基于询问的信息搜索仅仅是搜索与词相关的相关内容的功能,并且由于该词是由用户指定的,基于询问的信息搜索不能根据任意视点来为用户选择内容。
考虑到这种情况而作出了本发明,并且理想的是能够根据任意视点来为用户检索与特定内容相关联的内容,并且还检测和呈现指示所检索的内容与所述特定内容的相关性的信息。
根据本发明的实施例,提供一种信息处理设备,包括:生成部分,用于基于多个内容、从所述多个内容的内容信息提取的提取信息、以及由每个内容的提取信息指示的值,生成在同一二维或更多维空间中的内容的数值模型和提取信息的数值模型;计算部分,用于使用所述同一空间中的内容的数值模型和提取信息的数值模型,来计算在所述多个内容中除了预定的关联源内容之外的关联目标候选内容和提取信息的组与关联源内容的相关度;关联检测部分,用于基于计算部分计算的相关度,检测与关联源内容相关联的关联目标内容以及指示关联目标内容和关联源内容之间的相关性的相关性信息;以及呈现部分,用于呈现关联检测部分检测到的关联目标内容和相关性信息。
关联检测装置可以将具有高于阈值的相关度的组的关联目标内容设置为关联目标内容,并将该组的提取信息设置为相关性信息。
呈现部分可以显示关联检测部分检测的关联目标内容和相关性信息。
呈现部分可以对应于关联目标内容的显示来显示关联目标内容的所有或部分内容信息。
呈现部分可以突出与对应于关联目标内容的显示而显示的内容信息中的相关性信息相对应的部分。
呈现部分可以基于相关度来确定关联目标内容和相关性信息之一的显示形式。
信息处理设备还可以包括聚类生成部分,用于通过对提取信息进行分组来生成提取信息的聚类,其中,计算部分可以将所计算的关联目标候选内容和提取信息的组与关联源内容的相关度转换成对应于提取信息的聚类的相关度,并且关联检测部分可以将具有高于阈值的相关度的组的关联目标候选内容设置为关联目标内容,所述相关度对应于所述提取信息的聚类,并将代表该组的提取信息的聚类的代表性提取信息设置为相关性信息。
信息处理设备还可以包括聚类生成部分,用于通过对关联目标候选内容进行分组来生成关联目标候选内容的关联目标候选聚类,其中,所述计算部分可以计算关联目标候选聚类和提取信息的组与关联源内容的相关度,以及所述关联检测部分可以将属于具有高于阈值的相关度的组的关联目标候选聚类的关联目标候选内容设置为关联目标内容,并将该组的提取信息设置为相关性信息。
信息处理设备还可以包括用于输入内容信息的输入部分,其中,生成部件可以通过生成与利用输入部件输入的内容信息的提取信息相对应的向量、并将该向量添加到已经生成的内容的数值模型来重新构造内容模型。
根据本发明的实施例,提供一种信息处理方法,包括如下步骤:基于多个内容、从所述多个内容的内容信息提取的提取信息、以及由每个内容的提取信息指示的值,生成在同一二维或更多维空间中的内容的数值模型和提取信息的数值模型;使用所述同一空间中的内容的数值模型和提取信息的数值模型,来计算在所述多个内容中除了预定的关联源内容之外的关联目标候选内容和提取信息的组与关联源内容的相关度;基于在所述计算步骤的处理中计算的相关度,检测与关联源内容相关联的关联目标内容、以及指示关联目标内容和关联源内容之间的相关性的相关性信息;以及呈现在关联检测步骤的处理中检测的关联目标内容和相关性信息。
根据本发明的实施例,提供一种用于使计算机执行呈现处理的程序,所述呈现处理用于呈现指示与特定内容相关联的内容的信息,包括:生成步骤,基于多个内容、从所述多个内容的内容信息提取的提取信息、以及由每个内容的提取信息指示的值,生成在同一二维或更多维空间中的内容的数值模型和提取信息的数值模型;计算步骤,使用所述同一空间中的内容的数值模型和提取信息的数值模型,来计算在所述多个内容中除了预定的关联源内容之外的关联目标候选内容和提取信息的组与关联源内容的相关度;关联检测步骤,基于在计算步骤的处理中计算的相关度,检测与关联源内容相关联的关联目标内容、以及指示关联目标内容和关联源内容之间的相关性的相关性信息;以及呈现步骤,呈现在关联检测步骤的处理中检测的关联目标内容和相关性信息。
根据本发明实施例的信息处理设备、信息处理方法或程序基于多个内容、从所述多个内容的内容信息提取的提取信息、以及由所述内容的每一个的提取信息指示的值,生成在同一二维或更多维空间中的内容的数值模型和提取信息的数值模型;使用所述同一空间中的内容的数值模型和提取信息的数值模型,来计算在所述多个内容中除了预定的关联源内容之外的关联目标候选内容和提取信息的组与所述关联源内容的相关度;基于所计算的所述相关度,检测与关联源内容相关联的关联目标内容、以及指示关联目标内容和关联源内容之间的相关性的相关性信息;以及呈现在所检测的关联目标内容和所检测的相关性信息。
根据本发明,可以基于关联目标候选内容和提取信息的组与关联源内容的相关度,检测与关联源内容相关联的关联目标内容以及指示关联目标内容和关联源内容之间的相关性的相关性信息,并且呈现该关联目标内容和相关性信息。
附图说明
图1是示出应用本发明实施例的信息处理设备的结构示例的方框图;
图2是帮助解释图1的信息处理设备1的呈现处理的流程图;
图3是示出内容-提取信息频率矩阵的示例的图;
图4是示意性地示出内容-提取信息频率矩阵的奇异值分解的图;
图5是示意性地示出作为内容模型的矩阵的图;
图6是示例性地示出作为提取信息模型的矩阵的图;
图7是示出内容模型示例的图;
图8是示出提取信息模型示例的图;
图9是示出关联目标候选内容和提取信息的组与关联源内容的相关度的示例的图;
图10是示出关联目标内容和相关性信息的显示示例的图;
图11是示出关联目标内容和相关性信息的另一显示示例的图;
图12是示出应用本发明实施例的另一信息处理设备的结构示例的方框图;
图13是帮助解释提取信息的聚类的图;
图14是示出关联目标候选内容和提取信息聚类(cluster)的组与关联源内容的相关度的示例的图;
图15是示出其它关联目标内容和相关性信息的显示示例的图;
图16是示出提取信息聚类与关联源内容的相关度的示例的图;
图17是示出应用本发明实施例的另一信息处理设备的结构示例的方框图;
图18是帮助解释图17的信息处理设备的呈现处理的流程图;
图19是示出关联目标候选聚类和提取信息的组与关联源内容的相关度的示例的图;
图20是示出关联目标内容和相关性信息的另一显示示例的图;
图21是示出关联目标候选聚类和提取信息聚类的组与关联源内容的相关度的示例的图;
图22是示出应用本发明实施例的另一信息处理设备1的结构示例的方框图;
图23是示出关联目标候选内容和提取信息的组与另一关联源内容的相关度的示例的图;
图24是示出关联目标候选内容和提取信息聚类的组与其它关联源内容的相关度的示例的图;以及
图25是示出个人计算机的结构示例的图。
具体实施方式
在下文中将介绍本发明的优选实施例。本发明的构成要件与说明书或附图中的实施例之间的对应关系说明如下。此描述是要确认在说明书或附图中描述了支持本发明的实施例。因此,即使有在说明书或附图中描述但在此没有作为对应于本发明的构成要件的实施例描述的实施例时,也不表示该实施例不符合所述构成要件。反之,即使在这里将实施例描述为与构成要件相对应时,也不表示该实施例不符合除了那个构成要件之外的构成要件。
根据本发明实施例的信息处理设备包括:生成部件(例如,图1中的模型生成单元12),用于基于多个内容、从所述多个内容的内容信息提取的提取信息以及由每个内容的提取信息指示的值来生成在同一二维或更多维空间中的内容的数值模型和提取信息的数值模型;计算部件(例如,图1中的相关度计算单元14),用于使用所述同一空间中的内容的数值模型和提取信息的数值模型,计算在所述多个内容中除了预定关联源内容之外的关联目标候选内容和提取信息的组与关联源内容的相关度;关联检测部件(例如,图1中的关联检测单元15),用于基于由计算部件计算的相关度,检测与关联源内容相关联的关联目标内容以及指示关联目标内容和关联源内容之间的相关性的相关性信息;以及呈现部件(例如,图1中的呈现单元16),用于呈现由关联检测部件检测的关联目标内容和相关性信息。
关联检测部件可以将具有高于阈值的相关度的组的关联目标候选内容设置为关联目标内容,并且将该组的提取信息设置为相关性信息(例如,图2中的步骤S3)。
呈现部件可以显示由关联检测部件检测的关联目标内容和相关性信息(例如,图2中的步骤S4)(例如,图10)。
呈现部件可以对应于关联目标内容的显示来显示关联目标内容的内容信息的全部或一部分(例如,图11)。
呈现部件可以突出与对应于关联目标内容的显示而显示的内容信息中与相关性信息相对应的部分(例如,图11)。
呈现部件可以基于相关度来确定关联目标内容和相关性信息之一的显示形式(例如,图11)。
信息处理设备还可以包括聚类生成部件(例如,图12中的提取信息聚类生成单元21),用于通过对提取信息进行分组来生成提取信息的聚类,其中,计算部件可以将所计算的关联目标候选内容和提取信息的组与关联源内容的相关度转换成对应于提取信息的聚类的相关度(例如,图14),并且关联检测部件可以将具有高于阈值的相关度、即对应于提取信息的聚类的相关度的组的关联目标候选内容设置为关联目标内容,并将代表该组的提取信息的聚类的代表性提取信息设置为相关性信息(例如,图15)。
信息处理设备还可以包括聚类生成部件(例如,图17中的内容聚类生成单元31),用于通过对关联目标候选内容进行分组来生成关联目标候选内容的关联目标候选聚类,其中,计算部件可以计算关联目标候选聚类和提取信息的组与关联源内容的相关度(例如,图19),并且关联检测部件可以将属于具有高于阈值的相关度的组的关联目标聚类的关联目标候选内容设置为关联目标内容,并将该组的提取信息设置为相关性信息(例如,图20)。
信息处理设备还可以包括用于输入内容信息的输入部件(例如,内容信息输入单元41),其中,生成部件可以通过生成与利用输入部件输入的内容信息的提取信息相对应的向量并且将该向量添加到已经生成的内容的数值模型来重新构造内容模型。
根据本发明实施例的信息处理方法或程序包括如下步骤:(例如,图2中的步骤S1)基于多个内容、从所述多个内容的内容信息提取的提取信息以及由每个内容的提取信息指示的值,生成在同一二维或更多维空间中的内容的数值模型和提取信息的数值模型;(例如,图2中的步骤S2)使用所述同一空间中的内容的数值模型和提取信息的数值模型,计算在所述多个内容中除了预定关联源内容之外的关联目标候选内容和提取信息的组与关联源内容的相关度;(例如,图2中的步骤S3)基于在计算步骤的处理中计算的相关度,检测与关联源内容相关联的关联目标内容以及指示关联目标内容和关联源内容之间的相关性的相关性信息;以及(例如,图2中的步骤S4)呈现在关联检测步骤的处理中检测的关联目标内容和相关性信息。
图1示出应用本发明实施例的信息处理设备1的结构示例。信息处理设备1生成用于由用户高效地选择内容的信息,并提供该信息。
内容信息存储单元11存储例如用于每个内容的关于可由用户使用的内容的信息(以下称为内容信息)。
在这种情况下,所述内容可以是公共内容或私有内容,并且包括静止画面、电视广播节目的运动图像、电影等、音乐、网页、文档(采用自然语言的文本)等。
例如,当内容例如是电视广播节目时,内容信息是EPG(电子节目指南)信息;当内容是电影、图像、或音乐时,内容信息是对作品或艺术家的评论(review)的文本、或表示内容的特征量(例如,诸如节奏、节拍等的音乐特征量,或者诸如颜色、纹理等的图像信息);当内容是静止画面时,内容信息是附加到静止画面的注释文本;以及当内容是网页时,内容信息是网页上的内容的文本部分。
当内容是文本时,可以将文本本身设置为内容信息。也就是说,内容本身可以是内容信息。此外,可以将附加到内容上的诸如作者姓名、关键字等的适当元数据设置为内容信息。
附带地说,在这种情况下,可以作为一个内容来处理根据某一标准而彼此关联的多个内容,例如与同一个体或组相关联的多个内容。
模型生成单元12基于从存储在内容信息存储单元11中的所有或部分内容信息提取的提取信息的内容信息的提取频率,来对内容和提取信息建模(用数值表示内容和提取信息)。模型生成单元12将作为建模结果而获得的内容模型和提取信息模型存储在模型存储单元13中。
当内容信息是文本时,提取信息是在该文本或元数据(流派、艺术家的出生地等)中出现的词或短语。另外,提取信息可以是预定符号或图像。也就是说,提取信息是任意的,只要该提取信息可与其它信息离散地(discretely)区分开即可。此外,取代实际出现的词句(expression)等,可以将替换实际出现的词句等的其它词句设置为提取信息,或者可以基于某一标准来对词句进行分级,使得只将等级高的词句设置为提取信息。
相关度计算单元14基于存储在模型存储单元13中的内容模型和提取信息模型,计算当从提取信息来看时指示预定内容(在下文中称为关联源内容)(例如,在可由用户使用的内容中由用户指定的特定内容)和除了关联源内容之外的内容(在下文中将该内容称为关联目标候选内容)(例如,在可由用户使用的内容中除了关联源内容之外的内容)彼此相关联的程度的相关度(换句话说,相关度计算单元14计算当从关联目标候选内容来看时指示关联源内容和提取信息彼此相关联的程度的相关度)。
也就是说,对于关联源内容、关联目标候选内容和提取信息的每个组检测相关度。在下文中,将在适当时把该相关度称为关联目标候选内容和提取信息与关联源内容的相关度。
例如,关联检测单元15将具有作为由相关度计算单元14计算的相关度中的相关度的高值的组的关联目标候选内容检测为与关联源内容具有高相关性的内容(在下文中,将把与关联源内容具有高相关性的内容称为关联目标内容),并且将该组的提取信息检测为指示关联目标内容和关联源内容之间的相关性的信息(在下文中,将把该信息称为相关性信息)。附带地说,可以将指示关联目标内容和关联源内容之间的相关性的提取信息本身设置为相关性信息,或者可以将替换提取信息的另一词句设置为相关性信息。
例如,呈现单元16生成显示由关联检测单元15检测到的关联目标内容的名称等和相关性信息的显示屏幕,并且随后将该显示屏幕显示在图中未示出的显示单元上,从而向用户呈现关联目标内容和相关性信息。
也就是说,在本发明中,检测并呈现例如与用户指定的内容(关联源内容)具有相关性的关联目标内容以及指示关联目标内容和关联源内容之间的相关性的相关性信息。因此,用户可以根据相关性信息掌握所呈现的关联目标内容和关联源内容之间的相关性。
另外,相关性信息对应于内容信息的提取信息,并且不是由用户设定的。因此,关联目标内容是为用户从任意视点检测的。
附带地说,内容数据本身可由信息处理设备1拥有,或者可由另一设备拥有。
接下来,将参考图2的流程图来描述信息处理设备1中的呈现处理。
步骤S1中,模型生成单元12基于从存储在内容信息存储单元11中的所有或部分内容信息提取的提取信息的内容信息的提取频率,来对内容和提取信息建模(用数值表示内容和提取信息)。模型生成单元12将作为建模结果获得的内容模型和提取信息模型存储在模型存储单元13中。
在本发明中,在同一空间中生成所述内容模型和提取信息模型。
例如,可以使用LSA(潜在语义分析)在同一空间中生成所述内容模型和提取信息模型。在以下文献中对LSA进行了详细描述。
S.C.Deerwester,S.T.Dumais,T.K.Landauer,G.W.Furnas,and R.A.Harshman,“Indexing by Latent Semantic Analysis”,Journal of the AmericanSociety of Information Science,41(6):39-407,1990.
以LSA作为示例来描述这种情况下的建模处理,首先,将内容设置为行项目并且将提取信息设置为列项目。然后,获得将来自每个内容(每个内容的内容信息)的提取信息的提取频率作为矩阵元素的矩阵(在下文中被称为内容-提取信息频率矩阵)X。也就是说,当具有Nc个内容和Nw个(种)提取信息时,内容-提取信息频率矩阵X是(Nc×Nw)矩阵。
例如,当所述内容是音乐片段、同一艺术家的一组音乐片段被作为一个内容处理、内容信息是艺术家的评论的文本、该评论与所述内容(正确的一组内容)相伴随、并且提取信息是出现在评论文本中的词时,获得如图3所示的内容-提取信息频率矩阵X。
在如图3所示的内容-提取频率矩阵X中,行项目是艺术家A到E的五个(=Nc)项目,列项目是出现在艺术家的伴随所述内容的评论文本(内容信息)中的六个词(提取信息)的项目,并且矩阵元素是从每个评论文本提取词的频率。
接下来,对如此获得的内容-提取信息频率矩阵X进行如等式(1)所示的奇异值分解。
[等式1]
X=USVT...(1)
在等式(1)中,U是Nc×r(=矩阵X的秩)矩阵,S是r×r矩阵,其中以奇异值的降序来排列对角线元素,并且VT是r×Nw矩阵。附带地说,在图4中示意性地示出等式(1)的矩阵。
接下来,使用作为对内容-提取信息频率矩阵X进行奇异值分解的结果获得的矩阵U、矩阵S、和矩阵V,计算等式(2)和等式(3)。获得减小到m维的矩阵D(行项目是内容的项目的矩阵)作为内容模型,获得减小到m维的矩阵W(行项目是提取信息的项目的矩阵)作为提取信息模型。
[等式2]
D=UmSm1/2...(2)
[等式3]
W=VmSm1/2...(3)
在等式(2)和等式(3)中,Um是矩阵U的从第1列到第m列的子矩阵,Vm是矩阵V的从第1列到第m列的子矩阵,Sm1/2是对角线矩阵S的从第1列到第m列的子矩阵并且取S的每个元素的平方根。附带地说,在图5和图6中示意性地示出了等式(2)和等式(3)。
例如,当对在图3中示出的内容-提取信息频率矩阵X进行奇异值分解并且m=3,并且使用作为对内容-提取信息频率矩阵X进行奇异值分解的结果而获得的矩阵U、矩阵S、和矩阵V来计算等式(2)和等式(3)时,获得在图7中示出的三维矩阵D作为内容模型,获得在图8中示出的三维矩阵W作为提取信息模型。
这样,生成了被压缩到m维的同一空间中的内容模型和提取信息模型(也就是说,由多个相同属性限定的内容模型和提取信息模型)。将所生成的模型存储在模型存储单元13中。
附带地说,尽管以上描述是对使用LSA来生成同一空间中的内容模型和提取信息模型的情况进行的,但是可以使用对应分析或PLSA(概率潜在语义分析)来生成同一空间中的内容模型和提取信息模型。
在对应分析的情况下,如同在LSA中那样,将内容和提取信息向量化到欧几里德空间中。在PLSA的情况下,利用条件概率P(z|d)来表示内容,其中z是潜在(latent)随机变量,且z=z1,z2....,由此,可以将条件概率当作作为表达(expression)的向量。
例如,在以下文献中描述了PLSA的详细情况。
Hofrmann,T.,“Probabilistic Latent Semantic Analysis”,Proc.of Uncertaintyin Artificial Intelligence,1999.
返回图2,在下一步骤S2中,相关度计算单元14基于存储在模型存储单元13中的内容模型(图7)和提取信息模型(图8),来计算关联目标候选内容和提取信息的组与关联源内容的相关度(从提取信息看时,指示关联源内容和关联目标候选内容彼此相关联的程度的相关度,或者从关联目标候选内容看时,指示关联源内容和提取信息彼此相关联的程度的相关度)。
当利用LSA对内容和提取信息建模时,假设关联源内容是当从内容-提取信息频率矩阵X的第一行项目看时的第i内容(在下文中称为关联源内容Ci),如等式(4)所示来获得当从矩阵X的第一行项目看时的第k(k≠i)关联目标候选内容(在下文中称为关联目标候选内容Ck)和当从矩阵X的第一列项目看时的第j提取信息(在下文中称为提取信息Hj)的组与关联源内容Ci的相关度fi(hj,ck)。
[等式4]
f i ( h j , c k ) = w j · d k · w j · d k | w j | | d k | | w j | | d i | - - - ( 4 )
在等式(4)中,向量di或dk是矩阵D(等式(2))(图7)的第i或第k行向量(与对于第i或第k行项目的每个列项目相对应的一组元素),向量wj是矩阵W(等式(3))(图8)的第j行向量。
也就是说,将提取信息向量和关联目标候选内容向量之间的余弦相似度与提取信息向量和关联源内容向量之间的余弦相似度乘到一起的结果是相关度fi(hj,ck)。
图9示出了当矩阵D和矩阵W是图7和图8所示的矩阵且关联源内容是艺术家A的内容时,关联目标候选内容和提取信息的组与关联源内容的相关度。由于高相关度表示高相关性,所以通过该步骤中的计算来对关联目标候选内容和提取信息的组与关联源内容的相关性分级。
附带地说,当使用PLSA等对内容和提取信息建模时(也就是说,当作出概率表达时),可以将联合概率(等式(5))、条件概率(等式(6))等设置为相关度。
[等式5]
f i ( w j , d k ) = P ( d i , w j , d k )
= Σ Z P ( d i | z ) P ( w j | z ) P ( d k | z ) P ( z ) - - - ( 5 )
[等式6]
f i ( w j , d k ) = P ( d i | w j , d k )
= p ( d i , w j , d k ) P ( w j , d k )
= Σ Z P ( d i | z ) P ( w j | z ) P ( d k | z ) P ( z ) Σ Z P ( w j | z ) P ( d k | z ) P ( z ) - - - ( 6 )
在下一步骤S3中,参考在步骤S2中获得的相关度,关联检测单元15将具有高相关度的关联目标候选内容和提取信息的组的关联目标候选内容检测为关联目标内容(与关联源内容具有高相关性的内容),并且将该组的提取信息检测为相关性信息(描述关联源内容和关联目标内容之间的相关性的信息)。
具体地,将具有等于或高于预定阈值的相关度的组的关联目标候选内容检测为关联目标内容,并且将所述组的提取信息检测为相关性信息。
例如,当获得图9所示的相关度时,假设相关度的阈值为0.5,则具有等于或高于该阈值的组如下。
(悲哀的(sad),艺术家B)、(悲哀的,艺术家C)、
(令人伤心的(heartrending),艺术家B)、(令人伤心的,艺术家C)
(感伤的(sentimental),艺术家B)、(感伤的,艺术家C)
(流行的(groovy),艺术家D)、(流行的,艺术家E)
(有活力的(vibrant),艺术家D)和(有活力的,艺术家E)
因此,将“艺术家B”、“艺术家C”、“艺术家D”、和“艺术家E”检测作为关联目标内容,而将“悲哀的”、“令人伤心的”、和“感伤的”检测为对应于“艺术家B”和“艺术家C”的相关性信息,并将“流行的”、“有活力的”检测为对应于“艺术家D”和“艺术家E”的相关性信息。
在下一步骤S4中,呈现单元16向用户呈现在步骤S3中检测到的关联目标内容和相关性信息。
具体地,例如,呈现单元16生成用于显示关联目标内容和相关性信息的显示屏幕,并且随后将该显示屏幕显示在图中未示出的显示单元上。
图10示出当将阈值设置为0.5时,基于图9中示出的相关度而检测到的关联目标内容和相关性信息的显示示例。
在该示例中,作为与“艺术家A”的音乐片段(关联源内容)相关联的内容,显示“艺术家B”和“艺术家C”的姓名等,以便对应“悲哀的”、“令人伤心的”、和“感伤的”的每一个,并且显示“艺术家D”和“艺术家E”的姓名等,以便对应“流行的”和“有活力的”的每一个。
因此,用户可以了解:“艺术家B”和“艺术家C”的音乐片段在词“悲哀的”、“令人伤心的”、和“感伤的”的含义上与“艺术家A”的音乐片段相关联,并且“艺术家D”和“艺术家E”的音乐片段在词“流行的”和“有活力的”的含义上与“艺术家A”的音乐片段相关联。
因此,例如,在用户现在正在听的“艺术家A”的音乐片段是关联源内容的情况下,当接下来用户期望听“悲哀的”音乐(例如,节奏慢的音乐)时,用户可以选择“艺术家B”或“艺术家C”的音乐片段。当用户接下来希望听“流行的”音乐(例如,节奏快的音乐)时,用户可以选择“艺术家D”或“艺术家E”的音乐片段。
附带地说,当一个相关性信息与多个内容相关联时,可以根据相关度来确定呈现所述内容的方法。在图10的示例中,“艺术家B”和“艺术家C”与“悲哀的”、“令人伤心的”、和“感伤的”相关联,并且“艺术家D”和“艺术家E”与“流行的”和“有活力的”相关联。首先(在上侧)显示与每个相关性信息具有更高相关度的内容。
例如,“悲哀的”与“艺术家B”的相关度(0.77)高于“悲哀的”与“艺术家C”的相关度(0.72)。因此,“艺术家B”显示在“艺术家C”上面,以便对应“悲哀的”。
在图10的示例中,仅仅与相关性信息相对应地显示关联目标内容。然而,当选择关联目标内容时(当注意力集中在关联目标内容上时),可以显示关联目标内容的内容信息。此外,可以突出与内容信息中的相关性信息相对应的信息。
例如,当在图10的示例中选择了对应于“令人伤心的”而显示的“艺术家C”时,如图11所示,将“艺术家C”的评论的文本(内容信息)显示在所选择的“艺术家C”下面,并且突出(加下划线)与作为评论文本中的相关性信息的“令人伤心的”相对应的词(“令人伤心的”)。
附带地说,不仅可以通过下划线,还还可以通过粗体字、不同字符颜色、动画等来突出该词。
另外,代替当关联目标内容被选择时显示内容信息,可以从每个关联目标内容的开始显示该内容信息。附带地说,在这种情况下,可以显示所有内容信息,或者可以只显示包括对应于相关性信息的信息的部分(例如,包括对应于相关性信息的词以及该词之前和之后的若干个词的部分)。
此外,代替如图10所示排列并显示相关性信息和关联目标内容使得相关性信息和关联目标内容彼此对应,可以生成并呈现例如“具有‘令人伤心的’悲痛的感觉的‘艺术家B’和‘艺术家C’怎么样”的消息。
如上所述地执行呈现处理。
由此,计算关联目标候选内容和提取信息的组与关联源内容的相关度。因此,有可能检测与关联源内容具有高相关性的关联目标内容,并且同时检测指示关联目标内容和关联源内容之间的相关性的相关性信息,并且呈现关联目标内容和相关性信息。从而,用户可以根据相关性信息掌握所呈现的关联目标内容和关联源内容之间的相关性。
另外,相关性信息对应于从内容信息提取的提取信息,并且不是由用户设置的。因此,从任意视点为用户检测关联目标内容。
附带地说,在图3、图7、图8和图9的示例中,内容信息是评论文本。然而,评论文本仅仅是示例,内容信息可以是除了评论文本之外的其它形式。
图12示出应用本发明的另一信息处理设备1的结构示例。通过进一步提供提取信息聚类生成单元21并且提供代替图1的信息处理设备1中的相关度计算单元14的相关度计算单元22,来形成该信息处理设备1。其它部分与图1的信息处理设备1中的其它部分相同,因此将在适当时省略对其的描述。
例如,在显示呈现信息时,存在由于显示区域的有限尺寸而期望减少呈现信息量的情况。另外,存在期望更有效地呈现信息的情况。
因此,信息处理设备1通过基于预定标准将提取信息分类来减少最终要呈现的呈现信息量。
提取信息聚类生成单元21基于提取信息的含义或模型对提取信息进行分组,并由此生成提取信息聚类。
例如,当提取信息是词时,将某个注释变化(notational variations)范围之内的词或在词汇上具有细微差异的词分组成一组。当提取信息是元数据时,将高度相关的元数据分组成一组。
提取信息聚类生成单元21还确定代表所生成的聚类的提取信息(在下文中称为代表性提取信息)。
例如,当提取信息是词时,如在k-均值(k-means)方法中那样在空间中定义聚类的中心,并且,最接近聚类中心的词代表该聚类,并被设置为代表性提取信息。在这种情况下,没有实际出现在内容信息中的词可以是代表性提取信息。
附带地说,有可能基于事先准备的一般的或有限领域的词库来生成聚类,并将例如位于较高概念层次上的词设置为代表性提取信息。另外,不限制这些方法,可以手动地将所述词替换为词句。
如同图1中的相关度计算单元14那样,相关度计算单元22计算关联目标候选内容和提取信息的组与关联源内容的相关度(图9)。
相关度计算单元22还以与由提取信息聚类生成单元21生成的聚类相对应这样的方式,转换所计算的关联目标候选内容和提取信息的组与关联源内容的相关度。
具体地,计算等式(7)。
[等式7]
Σ q T qp R qk i - - - ( 7 )
在等式(7)中,R是示出关联目标候选内容和提取信息的组与关联源内容的相关度的(Nc-1)×Nw矩阵(图9)。T是其中提取信息为行项目、聚类为列项目、以及通过等式(8)获得行元素的Nw×Nkw矩阵。Nkw是聚类(代表性提取信息)的总数。
[等式8]
在等式(8)中,t是非零正值,并且当在置换中分配权重时是对应于p和q的预定值,而在其它情况下是1。
例如,当对如图8所示建模的提取信息执行聚类,使得将“悲哀的”、“令人伤心的”、和“感伤的”包括在聚类1中,将“流行的”和“有活力的”包括在聚类2中,并将“纯洁的”包括在聚类3中时,获得如图13所示的其中元素是二进制值1或0的矩阵T。附带地说,当给提取信息和代表性提取信息之间的对应分配权重时,所述元素取预定值。
然后,当基于该矩阵T和图9中的矩阵R来计算等式(7)时,获得如图14所示的对应于提取信息聚类的相关度。附带地说,在图13和图14的示例中,聚类1、聚类2、和聚类3的代表性提取信息是“令人伤心的”、“流行的”和“纯洁的”。
因此,将关联目标候选内容和提取信息的组与关联源内容的相关度(图9)转换成对应于提取信息聚类的相关度(也就是说,关联目标候选内容和提取信息聚类的组与关联源内容的相关度)(图14)。
返回图12,关联检测单元15将具有在关联目标候选内容和提取信息聚类的组与关联源内容的相关度(图14)中的高相关度的组的关联目标候选内容检测为关联目标内容,并且将该组的聚类的代表性提取信息检测为相关性信息,其中所述相关度是由相关度计算单元22计算的。
具体地,当获得图14所示的相关度时,假设相关度的阈值为0.5,具有等于或高于该阈值的相关度的组如下。
(令人伤心的,艺术家B)、(令人伤心的,艺术家C)
(流行的,艺术家D)、和(流行的,艺术家E)
因此,将“艺术家B”、“艺术家C”、“艺术家D”、和“艺术家E”检测为关联目标内容,而将“令人伤心的”检测为对应于“艺术家B”和“艺术家C”的相关性信息,并将“流行的”检测为对应于“艺术家D”和“艺术家E”的相关性信息。
如在图1中那样,例如,呈现单元16生成用于显示由关联检测单元15检测到的关联目标内容的姓名等和相关联信息的显示屏幕,然后将该显示屏幕显示在图中未示出的显示单元上,由此向用户呈现关联目标内容和相关性信息。
图15示出基于图14中的相关度检测到的关联目标内容和相关性信息的显示示例。图15中的信息量小于图10中呈现的信息量。
附带地说,在上面,基于图14中的相关度来检测关联目标内容和相关性信息。然而,有可能通过计算等式(9)首先计算如图16所示的提取信息聚类与关联源内容的相关度,然后检测相关性信息(“令人伤心的”和“流行的”,阈值为0.5),并将具有高于阈值的相关度的关联目标候选内容(“艺术家B”、“艺术家C”、“艺术家D”、和“艺术家E”)检测为关联目标内容,在关联目标候选内容和提取信息聚类的组的相关度(图14)中,将与具有在这种情况下检测到的相关性信息的聚类相对应的相关度称为其代表性提取信息。
[等式9]
1 N c - 1 Σ k Σ q T pq R qk i - - - ( 9 )
当计算出如图16所示的提取信息(或提取信息的聚类)与关联源内容的相关度时,可以根据该相关度确定呈现相关性信息的方法。在图15的示例中,在“流行的”之前(在“流行的”之上)显示“令人伤心的”。
根据图16的示例,“令人伤心的”与关联源内容的相关度(1.17)高于“流行的”与关联源内容的相关度(0.72)。因此,在图15中,“令人伤心的”显示在“流行的”之上。
如上所述,由于提取信息被聚类,并且获得了对应于提取信息聚类的相关度,因此可以适当地减少呈现信息量。
另外,在本发明中,在同一空间中生成内容模型和提取信息模型,并且对于每个关联目标候选内容和提取信息的组,计算与关联源内容的相关度(图9)。因此,即使当提取信息被聚类时,也可以容易地从关联目标候选内容和提取信息的组与关联源内容的相关度计算出对应于提取信息聚类的相关度(例如,等式(7))。
图17示出了应用本发明的另一信息处理设备1的结构的示例。通过提供内容聚类生成单元31、替代相关度计算单元14的相关度计算单元32、以及替代图1的信息处理设备1中的关联检测单元15的关联检测单元33来形成该信息处理设备1。
内容聚类生成单元31通过适当方法使关联目标候选内容聚类。
相关度计算单元32计算由内容聚类生成单元31生成的关联目标候选内容的聚类(在下文中称为关联目标候选聚类)和提取信息的组与关联源内容的相关度。
关联检测单元33根据关联目标候选聚类和提取信息的组与关联源内容的相关度来检测关联目标内容和相关性信息,其中所述相关度是由相关度计算单元32计算的。
将参考图18的流程图描述信息处理设备1的操作。
在步骤S11中,如同图2中的步骤S1那样,模型生成单元12生成内容模型(图7)和提取信息模型(图8),并将内容模型和提取信息模型存储在模型存储单元13中。
在步骤S12中,内容聚类生成单元31将关联目标候选内容聚类。
该聚类方法是任意的;可以使用诸如k-均值方法的区域划分型聚类、诸如最远相邻方法的分级聚类等。可替换地,可以将通过对于建模后的提取信息生成的Voronoi图划分的空间中的部分区域中的一组内容当作内容聚类。
当像在上述示例中那样所述内容是“艺术家A”、“艺术家B”、“艺术家C”、“艺术家D”、和“艺术家E”,以及关联源内容是“艺术家A”时,例如,生成作为关联目标候选内容的“艺术家B”和“艺术家C”的第一关联目标候选聚类1、以及“艺术家D”和“艺术家E”的第二关联目标候选聚类2。
在步骤S13中,相关度计算单元32计算关联目标候选聚类和提取信息的组与关联源内容的相关度。
当利用LSA来对所述内容和提取信息建模时,利用等式(10)计算第j提取信息Hj和第k关联目标候选聚类CCk的组与第i关联源内容Ci的相关度。
[等式10]
f i ( h j , cc k ) = w j · Σ d ∈ Dk d · w j · d i | w j | | Σ d ∈ Dk d | | w j | | d i | - - - ( 10 )
当内容模型和提取信息模型是如图7和图8所示的模型、并且生成作为关联目标候选内容的“艺术家B”和“艺术家C”的第一关联目标候选聚类1以及“艺术家D”和“艺术家E”的第二关联目标候选聚类2时,计算如图19所示的关联目标候选聚类和提取信息的组与关联源内容的相关度。
在步骤S14中,关联检测单元33基于关联目标候选聚类和提取信息的组与关联源内容的相关度,检测关联目标内容和相关性信息,其中所述相关度是由相关度计算单元32计算的。
当获得图19所示的相关度时,假设相关度的阈值为0.5,具有等于或高于该阈值的相关度的组如下。
(悲哀的,关联目标候选聚类1)、
(令人伤心的,关联目标候选聚类1)、
(感伤的,关联目标候选聚类1)、
(流行的,关联目标候选聚类2)、以及
(有活力的,关联目标候选聚类2)
因此,将被分类到关联目标候选聚类1的“艺术家B”和“艺术家C”以及被分类到关联目标候选聚类2的“艺术家D”和“艺术家E”检测为关联目标内容,而将“悲哀的”、“令人伤心的”、和“感伤的”检测为对应于“艺术家B”和“艺术家C”的相关性信息,并将“流行的”和“有活力的”检测为对应于“艺术家D”和“艺术家E”的相关性信息。
在下一步骤S15中,呈现单元16向用户呈现在步骤S14中检测的关联目标内容和相关性信息。
图20示出当将阈值设置为0.5时基于图19所示的相关度而检测到的关联目标内容和相关性信息的显示示例。
在该示例中,如在图10的示例中那样,作为与“艺术家A”(关联源内容)的音乐片段相关联的内容,显示“艺术家B”和“艺术家C”的姓名等,以便对应“悲哀的”、“令人伤心的”、和“感伤的”的每一个,并且显示“艺术家D”和“艺术家E”的姓名等,以便对应“流行的”和“有活力的”的每一个。将针对不同聚类而不同的背景添加到艺术家的显示上(将相同背景添加到“艺术家B”和“艺术家C”的显示上,并且将相同背景添加到“艺术家D”和“艺术家E”的显示上)。
附带地说,仍然在该示例中,可以如同在图12的信息处理设备1的情况中那样提供提取信息聚类生成单元21,从而计算如图21所示的关联目标候选聚类和提取信息聚类的组与关联源内容的相关度,并且基于该相关度检测关联目标内容和相关性信息。另外,有可能计算如图16所示的提取信息聚类与关联源内容的相关度,并使用该相关度检测关联目标内容和提取信息。
图22示出应用本发明的另一信息处理设备1的结构的示例。通过进一步提供内容信息输入单元41、提供替代模型生成单元12的模型生成单元42、并且提供替代图1的信息处理设备1中的相关度计算单元14的相关度计算单元43来形成该信息处理设备1。
每次增加新内容时,使用包括新内容的内容信息的内容信息来如上所述(图2中的步骤S1)重新生成内容模型和提取信息模型花费时间和成本。
因此,当增加新内容时,信息处理设备1通过将新内容的内容信息的向量添加到已经生成的内容模型来简单地重新构造内容模型。
内容信息输入单元41接收新内容的内容信息,然后将新内容的内容信息提供给模型生成单元42。
在从内容信息输入单元41将内容信息提供到模型生成单元42之前,如同图12中的模型生成单元12那样,模型生成单元42已经根据存储在内容信息存储单元11中的内容信息生成了内容模型和提取信息模型,并且已经将该内容模型和提取信息模型存储在模型存储单元13中。
当从内容信息输入单元41提供内容信息时,模型生成单元42将内容信息的向量添加到存储在模型存储单元13中的内容模型,并因此重新构造内容模型。
具体地,当利用LSA对内容和提取信息建模时,例如,通过已经生成的提取信息模型(矩阵W),将新内容的向量dnew(新内容的内容信息)转换成对应于已经生成的内容模型的向量d’new,如等式(11)所示。
[等式11]
d′new=Wdnew…(11)
然后,将如此计算的向量d’new添加到已经生成的内容模型(矩阵D),并且因此重新构造内容模型。
例如,当已经从图3所示的内容-提取信息频率矩阵X生成了图7所示的内容模型和图8中所示的提取信息模型时,增加个人日记作为新内容,并且从内容信息输入单元41提供句子“今天发生了悲哀的事件。我不能承受令人伤心的悲痛。”作为内容信息,模型生成单元42将与“悲哀的”、“令人伤心的”、“感伤的”、“流行的”、“有活力的”和“纯洁的”相对应的这一内容信息的向量dnew确定为提取信息,如等式(12)所示(向量dnew是从新内容的内容信息提取这些提取信息的一组频率)。
[等式12]
dnew=(1.1.0.0.0.0)...(12)
然后,模型生成单元42使用等式(12)所示的向量dnew来计算等式(11),获得如等式(13)所示的对应于已经生成的内容模型(图7)(三维矩阵D)的向量d’new,然后将向量d’new添加到所述内容模型(图7),因此重新构造了内容模型。
[等式13]
d’new=(3.92,0.04,0.53)...(13)
这样,重新构造了内容模型。
返回图22,相关度计算单元43使用由模型生成单元42重新构造的内容模型和已经生成的提取信息模型(例如,通过计算等式(4)),来计算关联目标候选内容和提取信息的组与关联源内容的相关度。
例如,当使用通过将等式(13)所示的向量d’new添加到图7所示的内容模型而重新构造的内容模型时,假设新内容是关联源内容,获得图23所示的关联目标候选内容(在这种情况下,艺术家A是关联目标候选内容)和提取信息的组的相关度。
返回图22,例如,关联检测单元15将具有在由相关度计算单元43计算的相关度中的高相关度的组的关联目标候选内容检测为关联目标内容,并且将该组的提取信息检测为相关性信息。
具体地,当获得图23所示的相关度时,假设相关度的阈值为0.5,具有等于或高于该阈值的相关度的组如下。
(悲哀的,艺术家A)、(悲哀的,艺术家B)、(悲哀的,艺术家C)、
(令人伤心的,艺术家A)、(令人伤心的,艺术家B)、(令人伤心的,艺术家C)
(感伤的,艺术家A)、(感伤的,艺术家B)、和(感伤的,艺术家C)
因此,将“艺术家A”、“艺术家B”和“艺术家C”检测为关联目标内容,而将“悲哀的”、“令人伤心的”、和“感伤的”检测为对应于“艺术家A”、“艺术家B”和“艺术家C”的相关性信息。
如在图1中那样,例如,呈现单元16生成用于显示由关联检测单元15检测的关联目标内容的姓名等和相关性信息的显示屏幕,然后将该显示屏幕显示在图中未示出的显示单元上,由此向用户呈现所述关联目标内容和相关性信息。
如上所述,当增加新内容时,可以简单地重新构造内容模型。因此,即使增加新内容时,也可以容易地检测到关联目标内容和相关性信息。
另外,由于当增加新内容时这样容易地检测关联目标内容和相关性信息,因此有可能将新内容设置为关联源内容,基于其与新内容的关系检测关联目标内容和相关性信息,并且呈现该关联目标内容和相关性信息。也就是说,例如,每次更新日记时,可以向用户呈现对应于所述更新的内容的关联目标内容和相关性信息。
附带地说,仍然在该示例中,可以像在图12的信息处理设备1的情况中那样提供提取信息聚类生成单元21,从而计算出关联目标候选内容和提取信息聚类的组与关联源内容(例如,增加的日记)的相关度,如图24所示,并且基于该相关度检测关联目标内容和相关性信息。
虽然在图1、图12、图17和图22中的一个信息处理设备1内提供每个部分,但是并不一定需要在一个信息处理设备1中提供每个部分,并且例如可以将用于实现每个部分的模块分布在网络上。
不仅可以通过硬件还可以通过软件来进行上述的一系列处理。当要通过软件来进行这一系列处理时,将构成该软件的程序安装在通用个人计算机等上。
图25示出其上安装了用于执行上述的一系列处理的程序的计算机的实施例的结构示例。
可以将所述程序预先记录在作为被包含在计算机中的记录介质的硬盘2005上或ROM 2003中。
可替换地,可以临时或永久地将所述程序存储(记录)在诸如软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字多用途盘)、磁盘、半导体存储器等的可移动记录介质2011上。可以作为所谓的成套软件(packaged software)提供这种可移动记录介质201。
附带地说,除了从上述可移动记录介质2011安装到计算机上之外,可以通过无线电经由用于数字卫星广播的人造卫星从下载站点将程序传送到计算机,或者通过线路经由诸如LAN(局域网)、因特网等的网络将程序传送到计算机,并且计算机可以通过通信单元2008接收如此传送的程序,并将该程序安装到内置硬盘2005上。
计算机包括CPU(中央处理单元)2002。CPU 2002经由总线2001与输入-输出接口2010连接。当用户通过例如操作由键盘、鼠标、麦克风等形成的输入单元2007而经由输入-输出接口2010输入命令时,CPU 2002根据该命令执行存储在ROM(只读存储器)2003中的程序。可替换地,CPU 2002将存储在硬盘2005上的程序、从卫星或网络传送的通过通信单元2008接收的然后被安装到硬盘2005上的程序、或者从被加载到驱动器2009中的可移动记录介质2011读取然后被安装到硬盘2005上的程序加载到RAM(随机存取存储器)2004中,然后执行该程序。由此,CPU 2002执行由上述方框图的结构执行的处理。然后,在需要时,例如,CPU 2002经由输入-输出接口2010将处理结果输出到由LCD(液晶显示器)、扬声器等形成的输出单元2006,经由输入-输出接口2010从通信单元2008发送该结果、或将该结果记录到硬盘2005上。
可以由一台计算机处理所述程序,或者可以由多台计算机对其进行分布式处理。此外,可以将所述程序传送到远程计算机然后执行该程序。
应该注意,本发明的实施例不限于上述实施例,并且能够进行各种改变,而不偏离本发明的精神。
本领域技术人员应该懂得:根据设计要求和其他因素,可以进行各种修改、组合、子组合和替换,只要它们处于所附权利要求或其等效物的范围之内即可。
相关申请交叉引用
本发明包含涉及2006年3月10日在日本专利局提交的日本专利申请JP2006-066469的主题,其全部内容通过引用而被合并于此。

Claims (12)

1.一种信息处理设备,包括:
生成部件,用于基于多个内容、从所述多个内容的内容信息提取的提取信息、以及由所述内容的每一个的所述提取信息指示的值,生成在同一二维或更多维空间中的所述内容的数值模型和所述提取信息的数值模型;
计算部件,用于使用所述同一空间中的所述内容的数值模型和所述提取信息的数值模型,来计算在所述多个内容中除了预定的关联源内容之外的关联目标候选内容和所述提取信息的组与所述关联源内容的相关度;
关联检测部件,用于基于所述计算部件计算的所述相关度,检测与所述关联源内容相关联的关联目标内容以及指示所述关联目标内容和所述关联源内容之间的相关性的相关性信息;以及
呈现部件,用于呈现所述关联检测部分检测到的所述关联目标内容和所述相关性信息。
2.如权利要求1所述的信息处理设备,
其中,所述关联检测部件将具有高于阈值的所述相关度的所述组的所述关联目标候选内容设置为所述关联目标内容,并且将所述组的提取信息设置为所述相关性信息。
3.如权利要求1所述的信息处理设备,
其中,所述呈现部件显示由所述关联检测部件检测到的所述关联目标内容和所述相关性信息。
4.如权利要求3所述的信息处理设备,
其中,所述呈现部件对应于所述关联目标内容的显示而显示所述关联目标内容的内容信息的全部或一部分。
5.如权利要求4所述的信息处理设备,
其中,所述呈现部件突出与对应于所述关联目标内容的显示而显示的所述内容信息中的所述相关性信息相对应的部分。
6.如权利要求3所述的信息处理设备,
其中,所述呈现部件在所述相关度的基础上确定关联目标内容和相关性信息之一的显示形式。
7.如权利要求1所述的信息处理设备,还包括用于通过对所述提取信息进行分组而生成所述提取信息的聚类的聚类生成部件,
其中,所述计算部件将所计算的所述关联目标候选内容和所述提取信息的组与所述关联源内容的相关度转换成对应于所述提取信息的聚类的相关度,以及
所述关联检测部件将具有高于阈值的相关度的所述组的所述关联目标候选内容设置为所述关联目标内容,所述相关度对应于所述提取信息的聚类,并且所述关联检测部件将代表所述组的所述提取信息的聚类的代表性提取信息设置为所述相关性信息。
8.如权利要求1所述的信息处理设备,还包括聚类生成部件,其用于通过对所述关联目标候选内容进行分组来生成所述关联目标候选内容的关联目标候选聚类,
其中,所述计算部件计算所述关联目标候选聚类和所述提取信息的组与所述关联源内容的相关度,以及
所述关联检测部件将属于具有高于阈值的所述相关度的所述组的所述关联目标候选聚类的关联目标候选内容设置为所述关联目标内容,并将所述组的所述提取信息设置为所述相关性信息。
9.如权利要求1所述的信息处理设备,还包括用于输入内容信息的输入部件,
其中,所述生成部件通过生成与利用所述输入部件输入的所述内容信息的所述提取信息相对应的向量、并将该向量添加到已经生成的所述内容的数值模型来重新构造所述内容的模型。
10.一种信息处理方法,包括以下步骤:
基于多个内容、从所述多个内容的内容信息提取的提取信息、以及由所述内容的每一个的所述提取信息指示的值,生成在同一二维或更多维空间中的所述内容的数值模型和所述提取信息的数值模型;
使用所述同一空间中的所述内容的数值模型和所述提取信息的数值模型,来计算在所述多个内容中除了预定的关联源内容之外的关联目标候选内容和所述提取信息的组与所述关联源内容的相关度;
基于在所述计算步骤的处理中计算的所述相关度,检测与所述关联源内容相关联的关联目标内容、以及指示所述关联目标内容和所述关联源内容之间的相关性的相关性信息;以及
呈现在所述关联检测步骤的处理中检测的所述关联目标内容和所述相关性信息。
11.一种用于使计算机执行呈现处理的程序,所述呈现处理用于呈现指示与特定内容相关联的内容的信息,所述呈现处理包括以下步骤:
基于多个内容、从所述多个内容的内容信息提取的提取信息、以及由所述内容的每一个的所述提取信息指示的值,生成在同一二维或更多维空间中的所述内容的数值模型和所述提取信息的数值模型;
使用所述同一空间中的所述内容的数值模型和所述提取信息的数值模型,来计算在所述多个内容中除了预定的关联源内容之外的关联目标候选内容和所述提取信息的组与所述关联源内容的相关度;
基于在所述计算步骤的处理中计算的所述相关度,检测与所述关联源内容相关联的关联目标内容、以及指示所述关联目标内容和所述关联源内容之间的相关性的相关性信息;以及
呈现在所述关联检测步骤的处理中检测的所述关联目标内容和所述相关性信息。
12.一种信息处理设备,包括:
生成部分,用于基于多个内容、从所述多个内容的内容信息提取的提取信息、以及由所述内容的每一个的所述提取信息指示的值,生成在同一二维或更多维空间中的所述内容的数值模型和所述提取信息的数值模型;
计算部分,用于使用所述同一空间中的所述内容的数值模型和所述提取信息的数值模型,来计算在所述多个内容中除了预定的关联源内容之外的关联目标候选内容和所述提取信息的组与所述关联源内容的相关度;
关联检测部分,用于基于所述计算部分计算的所述相关度,检测与所述关联源内容相关联的关联目标内容、以及指示所述关联目标内容和所述关联源内容之间的相关性的相关性信息;以及
呈现部分,用于呈现由所述关联检测部分检测的所述关联目标内容和所述相关性信息。
CNB200710087709XA 2006-03-10 2007-03-12 信息处理设备和方法以及程序 Expired - Fee Related CN100517333C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006066469A JP2007241888A (ja) 2006-03-10 2006-03-10 情報処理装置および方法、並びにプログラム
JP066469/06 2006-03-10

Publications (2)

Publication Number Publication Date
CN101034414A true CN101034414A (zh) 2007-09-12
CN100517333C CN100517333C (zh) 2009-07-22

Family

ID=38325211

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200710087709XA Expired - Fee Related CN100517333C (zh) 2006-03-10 2007-03-12 信息处理设备和方法以及程序

Country Status (4)

Country Link
US (1) US7778988B2 (zh)
EP (1) EP1835422A1 (zh)
JP (1) JP2007241888A (zh)
CN (1) CN100517333C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043824A (zh) * 2009-10-14 2011-05-04 索尼公司 内容关系可视化设备、内容关系可视化方法及其程序
CN107402984A (zh) * 2017-07-11 2017-11-28 北京金堤科技有限公司 一种基于主题的分类方法及装置
CN107660285A (zh) * 2015-03-31 2018-02-02 乐威指南公司 用于生成基于聚类的搜索结果的方法和系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165303A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム
JP4329839B2 (ja) * 2007-04-20 2009-09-09 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置及びプログラム
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
KR101392273B1 (ko) * 2008-01-07 2014-05-08 삼성전자주식회사 키워드 제공 방법 및 이를 적용한 영상기기
JP4569671B2 (ja) * 2008-06-20 2010-10-27 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法、およびコンピュータプログラム
JP5359534B2 (ja) 2009-05-01 2013-12-04 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8352884B2 (en) * 2009-05-21 2013-01-08 Sony Computer Entertainment Inc. Dynamic reconfiguration of GUI display decomposition based on predictive model
JP5742506B2 (ja) * 2011-06-27 2015-07-01 日本電気株式会社 文書類似度算出装置
JP6103813B2 (ja) 2012-04-06 2017-03-29 サターン ライセンシング エルエルシーSaturn Licensing LLC 情報処理装置、情報処理方法およびプログラム
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN109040774B (zh) * 2018-07-24 2021-10-26 成都优地技术有限公司 一种节目信息提取方法、终端设备、服务器及存储介质
WO2021178440A1 (en) * 2020-03-03 2021-09-10 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for dynamic cluster-based search and retrieval

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2742115B2 (ja) 1989-12-01 1998-04-22 日本電信電話株式会社 類似文書検索装置
JPH03282676A (ja) * 1990-03-30 1991-12-12 Hitachi Ltd 情報検索方法
US7302638B1 (en) * 1995-06-07 2007-11-27 Wolfe Mark A Efficiently displaying and researching information about the interrelationships between documents
JP3172966B2 (ja) 1997-01-08 2001-06-04 大光炉材株式会社 流しこみ耐火組成物の湿式吹付け施工方法
CA2242158C (en) * 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
JP3978962B2 (ja) * 2000-01-13 2007-09-19 オムロン株式会社 情報検索方法および情報検索装置
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
JP2003248686A (ja) 2002-02-22 2003-09-05 Ricoh Co Ltd 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体
US8589373B2 (en) * 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
JP4428036B2 (ja) * 2003-12-02 2010-03-10 ソニー株式会社 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法
JP2006048286A (ja) * 2004-08-03 2006-02-16 Sony Corp 情報処理装置および方法、並びにプログラム
JP3917648B2 (ja) * 2005-01-07 2007-05-23 松下電器産業株式会社 連想辞書作成装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043824A (zh) * 2009-10-14 2011-05-04 索尼公司 内容关系可视化设备、内容关系可视化方法及其程序
CN107660285A (zh) * 2015-03-31 2018-02-02 乐威指南公司 用于生成基于聚类的搜索结果的方法和系统
CN107402984A (zh) * 2017-07-11 2017-11-28 北京金堤科技有限公司 一种基于主题的分类方法及装置
CN107402984B (zh) * 2017-07-11 2018-11-20 北京金堤科技有限公司 一种基于主题的分类方法及装置

Also Published As

Publication number Publication date
US20070214124A1 (en) 2007-09-13
US7778988B2 (en) 2010-08-17
JP2007241888A (ja) 2007-09-20
EP1835422A1 (en) 2007-09-19
CN100517333C (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
CN101034414A (zh) 信息处理设备和方法以及程序
CN1894688A (zh) 对译判断装置、方法及程序
CN1285051C (zh) 图像处理装置及其方法
CN1109994C (zh) 文件处理装置与记录媒体
CN1257470C (zh) 评价网页的装置和方法
CN1209725C (zh) 文件编辑处理方法和文件编辑处理设备
CN1439979A (zh) 解决方案数据编辑处理及自动概括处理装置和方法
CN1839401A (zh) 信息处理装置及信息处理方法
CN1319836A (zh) 转换表达方式的方法和装置
CN1268710A (zh) 数据库检索装置及方法
CN1669029A (zh) 自文件集合中自动搜寻概念层次结构的方法及系统
CN1858786A (zh) 一种电子文档格式化批注系统与方法
CN1975858A (zh) 会话控制装置
CN101042868A (zh) 群集系统、方法、程序和使用群集系统的属性估计系统
CN1942877A (zh) 信息提取系统
CN101069184A (zh) 信息处理装置和方法、及程序
CN1855103A (zh) 特定元素、字符串向量生成及相似性计算的装置、方法
CN1783075A (zh) 用于显示网络数据的方法、设备、处理器配置
CN1841366A (zh) 用于通过执行翻译来支持交流的交流支持设备和方法
CN101069181A (zh) 存储设备和记录介质
CN1841367A (zh) 用于通过在语言之间执行翻译来支持交流的交流支持设备和方法
CN101048773A (zh) 文件分析系统、以及文件适应系统
CN1495639A (zh) 文本语句比较装置
CN1900959A (zh) 设计制造的支援装置、支援程序和支援方法
CN1737802A (zh) 信息处理设备与方法、记录介质,以及程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090722

Termination date: 20150312

EXPY Termination of patent right or utility model