CN1750003A - 信息处理装置,信息处理方法,和程序 - Google Patents

信息处理装置,信息处理方法,和程序 Download PDF

Info

Publication number
CN1750003A
CN1750003A CNA2005101160013A CN200510116001A CN1750003A CN 1750003 A CN1750003 A CN 1750003A CN A2005101160013 A CNA2005101160013 A CN A2005101160013A CN 200510116001 A CN200510116001 A CN 200510116001A CN 1750003 A CN1750003 A CN 1750003A
Authority
CN
China
Prior art keywords
metadata
matrix
content
value
approximate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005101160013A
Other languages
English (en)
Inventor
馆野启
山本则行
齐藤真里
宫嵜充弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1750003A publication Critical patent/CN1750003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明使得鉴于元数据的同现关系来利用诸如内容推荐的元数据进行处理能够执行。矩阵生成部分生成分别对应于N个元数据(N:1或更大的整数值)的N行、对应于M(M:1或更大的整数值)个元数据的M列的元数据矩阵。通过将元数据矩阵进行奇异值分解,LSA计算部分生成元数据矩阵的近似矩阵。元数据提取部分为N个元数据中的每一个元数据,计算表明对应于上述元数据的元数据重要性、诸如特征差异的索引值,并从N个元数据中提取重要元数据或不必要的元数据。本发明可以应用于信息处理装置或内容推荐。

Description

信息处理装置,信息处理方法,和程序
发明背景
本发明涉及信息处理装置,信息处理方法,和用于相同用途的程序。更具体地说,涉及能够鉴于元数据的同现关系、利用诸如推荐内容的元数据来执行处理的信息处理装置,信息处理方法,和程序。
最近,越来越流行作为一个信息处理装置将内容推荐给用户的系统(下文中描述为内容推荐系统)。
以下提供了由用于内容推荐的基于现有技术的内容推荐系统执行的序列处理(下文中描述为内容推荐处理)概要描述。
为了简化描述,在以下描述中假定,由一个信息处理装置来执行内容推荐处理的所有步骤。
首先,信息处理装置通过参照作为基向量分派给内容的元数据来执行内容的向量化。下文中将这种类型的向量称作内容向量。
然后信息处理装置生成多个上述的内容向量,并且还生成矩阵,在该矩阵中多个内容向量分别以预先指定的方向排列,即生成包括多个内容向量作为行分量和列分量的矩阵。下文中将该上述矩阵称为元数据矩阵。此外,将元数据作为基向量并且由多个元数据形成的空间称作元数据空间。
信息处理装置通过预先指定的加权技术,执行对元数据矩阵中每个分量的加权(给定值)。作为加权的技术所广泛使用的一种加权技术是,通过利用内容中元数据出现频率、内容中元数据的详尽性或特异性的TF/IDF方法。TF/IDF方法使用包括在内容中的元数据频率(TF)乘以包括元数据的内容数目的倒数的结果(IDF)。
如上所述,在元数据矩阵中的每个列分量或者每个行分量,即内容分量被转变为根据元数据被适当地加权的内容分量。
此外,信息处理装置利用一个或多个加权的内容向量来生成表明用户优选的向量。下文中将表明用户优选的向量称作用户优选向量(UPV)。
信息处理装置分别计算UPV和对应用户未体验的多个内容的特征向量之间的、由余弦函数表示的相似性(执行匹配处理),并以相似性降序排列来推荐内容。
以上描述了根据现有技术的内容推荐系统中的内容推荐处理的概要。
近年来,已经建立了这样的技术:以通过利用称作LSA(潜在语义分析)的技术来执行在多维压缩空间中的匹配(参照非专利文档1至3,和专利文档1)。作为用于通过词之间的语言关连来分类或搜索文档的技术,利用LSA的技术基本上已经达到了满意结果。
也可以将利用LSA的技术应用于内容推荐处理。
换句话说,当信息处理装置对上述元数据执行奇异值分解时,作为结果,从元数据空间生成概念空间,在所述概念空间中互相高度关联的多个元数据都分组到一个维度上。在概念空间中,奇异值分别(每个表明每个基的重要性)与基相关联。当信息处理装置仅仅使用分别具有大奇异值(维数压缩)的上基,来对元数据空间执行反向映射时,其结果是生成了清楚地反映元数据之间关系的矩阵。上述矩阵在下文中称作近似矩阵。
上述处理序列通称为LSA,并且信息处理装置也能够利用通过LSA生成的近似矩阵来代替元数据矩阵,来执行内容的匹配处理。
非专利文档1:US专利No.4839853
非专利文档2:US专利No.5301109
非专利文档3:S.C.Deerwester S.T.Dumais,T.K.Landauer,G.W.Furnas,和R.A.Harshman,“潜在语言分析的索引(Indexing by latent semantic analysis)”。信息科学的美国社会的期刊(Journal of the American Society of InformationScience),41(6):391-407,1990
专利文档1:日本专利公开NO.特平开11-296552。
发明概述
在基于现有技术、利用上述元数据的内容推荐系统中,当把基于自然语言的文档(诸如邮件或网站)当作内容时,即当推荐文本数据时,出现在文本中的词被当作元数据。因此词的数目随着要处理的文档量而增加,即元数据空间的维度增加了,这有时使得计算失败。为了解决上述问题,已经试图根据每个词的权值来减小词的数目。然而,当采用TF/IDF技术时,例如,就不考虑元数据(词)之间的同现关系(或同义词),并且有时不应被删除掉的词常常不利地删掉了。
此外在数据挖掘和文档分类的领域中,当根据属性(元数据)执行分类时,所述属性有时称作特征选择,无论每个数据是否将被采用,一般根据静态或信息逻辑数字值(诸如算术可能性比率或者X2值,和带有每个分类类别的相互信息量)来决定,并且在这种情况下,不考虑元数据的(属性)的同现关系。
此外在内容推荐中,也不考虑测量数据的同现,并且仅仅使用通过TF/IDF所获得的权值,或者作为通过LSA对元数据矩阵进行维数压缩结果获得的近似矩阵中的权值,并且在另一种方法中,仅仅能够推荐类似于公知内容(用户体验过的或者高度评价)的内容,这是不利的。
如上所述,想要能够利用元数据执行处理,诸如鉴于元数据同现来推荐内容。本发明是根据环境来进行的。
根据本发明的信息处理装置包括:矩阵生成单元;近似矩阵生成单元;索引值计算单元;和提取单元。矩阵生成单元参照与多个内容中的至少一个内容相关的N个(1或更大的整数值)元数据来向量化在多个内容中的M个(1或更大的整数值)内容中的每一个,并生成包括作为向量化的结果获得的M个向量的矩阵作为元数据矩阵的行分量和列分量。近似矩阵生成单元通过将矩阵生成单元生成的元数据矩阵进行奇异值分解来生成元数据矩阵的近似矩阵。索引值计算单元,根据矩阵生成部分生成的元数据矩阵和近似矩阵生成部分所生成的近似矩阵之间的差异,为N个元数据中的每一个计算表明对应元数据的重要性的索引值。提取单元,根据由索引值计算单元计算的N个索引值,从N个元数据中提取至少一个元数据作为具有高重要性的重要元数据或具有低重要性的不必要元数据。
索引值计算单元能够连续地分别设置N个元数据作为经标记的元数据,计算表明在近似矩阵中的经标记的元数据的、M个行或列分量值与元数据矩阵中对应分量值之间的差异值,同时也计算经计算的M个差异值之间的平均值或最大值作为表明经标记的元数据的重要性的索引值。
索引值计算单元能够连续地分别设置N个元数据作为经标记的元数据,计算由用元数据矩阵中对应分量值除以在近似矩阵中表明的经标记的元数据的、M个行或列分量值所获得的商,并计算经计算的M个商之间的平均值或最大值作为表明经标记的元数据的重要性的索引值。
根据本发明的信息处理装置可以进一步包括:推荐单元,用于利用由所述提取单元所提取的所述重要元数据,或者在所述N个元数据中,排除由所述提取单元提取的所述不必要的元数据之外的元数据,从多个内容中确定一个或多个要推荐给用户的内容;以及展示单元,用于展示由所述推荐单元决定的所述内容作为那些要推荐给用户的内容。
根据本发明的信息处理装置可以进一步包括展示单元,用于展示由所述提取单元提取的所述重要的元数据或者所述不必要的元数据给用户。
根据本发明的信息处理装置还可以进一步包括存储单元,用于在其中存储由所述提取单元提取的所述重要元数据或所述不必要的元数据。
根据本发明的信息处理方法包括:矩阵生成步骤;近似矩阵生成步骤;索引值计算步骤;和提取步骤。矩阵生成步骤向量化在多个内容中的M个(1或更大的整数值)内容中的每一个,所述多个内容基于与多个内容中的至少一个内容相关的N个(1或更大的整数值)元数据,并生成包括作为向量化的结果获得的M个向量的矩阵作为元数据矩阵的行分量和列分量。近似矩阵生成步骤通过将矩阵生成步骤生成的元数据矩阵进行奇异值分解来生成元数据矩阵的近似矩阵。索引值计算步骤,根据矩阵生成步骤生成的元数据矩阵和近似矩阵生成步骤所生成的近似矩阵之间的差异,为N个元数据中的每一个计算表明对应元数据重要性的索引值。提取步骤,根据由索引值计算步骤计算的N个索引值,从N个元数据中提取至少一个元数据作为具有高重要性的重要元数据或具有低重要性不必要的元数据。
根据本发明由计算机执行的程序包括:矩阵生成步骤,近似矩阵生成步骤,索引值计算步骤;和提取步骤。矩阵生成步骤,向量化在多个内容中的M个(1或更大的整数值)内容中的每一个,所述多个内容基于与多个内容中的至少一个内容相关的N个(1或更大的整数值)元数据,并生成包括作为向量化的结果获得的M个向量的矩阵作为元数据矩阵的行分量和列分量。近似矩阵生成步骤,通过将矩阵生成步骤生成的元数据矩阵进行奇异值分解来生成元数据矩阵的近似矩阵。索引值计算步骤,根据矩阵生成步骤生成的元数据矩阵和近似矩阵生成步骤所生成的近似矩阵之间的差异,为N个元数据中的每一个来计算表明对应元数据重要性的索引值。提取步骤,根据由索引值计算步骤计算的N个索引值,从N个元数据中提取至少一个元数据作为具有高重要性的重要元数据或具有低重要性的不必要元数据。
利用根据本发明的信息处理装置、信息处理方法和程序,根据与多个内容中的一个相连的N个(1或更大的整数值)元数据,在多个内容中的M个(1或更大的整数值)内容被向量化,以生成包括M个所获得的向量的矩阵,作为元数据矩阵的列分量或行分量的向量化结果。此外,对该元数据矩阵进行奇异值分解以生成元数据矩阵的近似矩阵。此外,根据元数据矩阵和近似矩阵之间的差异,然后计算表明对应于N个元数据中每个的元数据重要性的索引值,并且根据N个计算的索引值,从N个元数据中提取至少一个元数据作为具有高重要性的重要元数据或者具有低重要性的不必要元数据。
如上所述,本发明涉及处理内容的元数据。尤其是,本发明涉及鉴于元数据的同现关系,来计算表明元数据重要性的索引值,以便根据索引值来提取不必要的元数据或者重要的元数据。这使得能够鉴于元数据的同现关系来利用诸如内容推荐的元数据进行处理。
附图简述
图1是功能框图,根据本发明示出信息处理系统的功能配置的示例;
图2是功能框图,从执行“鉴于同现关系的不必要的元数据提取处理”时的信息流的角度示出图1所示信息处理系统;
图3是流程图,举例说明由图2所示信息处理系统所执行的“鉴于同现关系的不必要的元数据提取处理”;
图4是示例,示出图3所示“鉴于同现关系的不必要的元数据提取处理”的处理结果;
图5是另一个示例,示出图3所示“鉴于同现关系的不必要的元数据提取处理”的处理结果;
图6是更另一个示例,示出图3所示“鉴于同现关系的不需要的元数据提取处理”的处理结果;
图7是功能框图,从执行“鉴于同现关系的不必要的元数据提取处理”时的信息流的角度示出图1所示信息处理系统;
图8是流程图,示出由图7所示信息处理系统所执行的“鉴于同现关系的推荐处理”;
图9是功能框图,从执行“基于群集的UPV组的区别的推荐处理”时的信息流的角度示出图1所示信息处理系统;
图10是流程图,示出由图9中的信息处理系统所执行的“基于群集的UPV组的区别的推荐处理”;
图11是功能框图,从执行“LSA的内容再评估处理”时的信息流的角度示出图1所示信息处理系统;
图12是流程图,示出由图11中的信息处理系统执行的“LSA的内容再评估处理”;
图13示出了实例,举例说明图11中“LSA的内容再评估处理”的处理结果;
图14示出了另一个实例,举例说明图11中“LSA的内容再评估处理”的处理结果;
图15示出了另一个实例,举例说明图11中“LSA的内容再评估处理”的处理结果;
图16示出了更另一个实例,举例说明图11中“LSA的内容再评估处理”的处理结果;
图17是功能框图,从执行“LSA和另一种技术混合进行的推荐处理”时的信息流的角度示出图1所示信息处理系统;
图18是流程图,举例说明由图17中的信息处理系统所执行的“LSA和另一种技术混合进行的推荐处理”;以及
图19是框图,根据本发明示出信息处理装置(至少图1中信息处理系统的一部分)的硬件组成的示例。
优选实施例详述
以下将描述本发明实施例,其中如下文所述,在本发明权利要求和优选实施例的实例中描述的组件是相关联的。该说明书认可,支持权利要求中所述的本发明的实例都在本发明的实施例中得到了描述。因此,如果存在这样的实例,在本发明的实施例中进行了描述但是没有对应于组件在此进行描述,那么并不意味着该实例就不对应于该组件。相反地,如果在此描述的实例对应于组件,那么也不意味着该实例就不对应于除所描述的组件之外的其它组件。
此外,该说明书并不意味着与本发明实施例中描述的实例相关联的所有发明都在权利要求中完全进行描述。换句话说,该说明书描述了与本发明实施例中所描述的实例相关联的发明,但是并不否认于此相连的权利要求中所描述的其它发明,或者分案申请所应用、或者将来由修正增加的发明。
本发明提供信息处理装置。信息处理装置(在图1中举例说明的、以及在第一和第二实施例中描述的信息处理装置)包括矩阵生成单元,近似矩阵生成单元,索引值计算单元,和提取单元。在此,举个例子,矩阵生成单元是图1(图2或图7)中的矩阵生成部分18,用于向量化在多个内容中的M个(1或更大的整数值)内容(例如,在图4中注解d1至d5)中的每一个,所述多个内容指的是与多个内容中的至少一个内容相关的N个(1或更大的整数值)元数据(举个例子,图4中的每个词,更确切地说,举个例子,与多个内容的至少一个相关联的“Kyoto”、“tofu”、“spa”、“autumnal leaves”、“USB”、“software”),并生成包括作为向量化的结果获得的M个向量的矩阵(举个例子,图4中的矩阵D)作为元数据矩阵的行分量和列分量。举个例子,近似矩阵生成单元是图1(图2或图7)中的LSA计算部分20,用于通过支配由矩阵生成单元所生成的元数据矩阵来进行奇异值分解,以生成元数据矩阵的近似矩阵(举个例子,图5中的近假矩阵Dk)。举个例子,索引值计算单元是用于在图1(图2,或图7)的元数据提取部分21中执行图3中步骤S4或图8中步骤S25的部分,用于根据矩阵生成单元所生成的元数据矩阵和由近似矩阵生成单元所生成的近似矩阵之间的差别,计算表明对应于N个元数据的每一个的元数据重要性的索引值。举个例子,提取单元是用于在图1的(图2,或图7)元数据提取部分21中图3中提取步骤S5和S6或者图8中步骤S26的部分,用于根据索引值计算单元所计算的N个索引值,从N个元数据中提取至少一个作为具有高的重要性的重要元数据或者具有低重要性的不必要的元数据。
根据本发明的信息处理装置还可以包括推荐单元和展示单元。在此,举个例子,推荐单元是图1(图2,或图7)中的内容推荐部分23,用于利用由提取单元从N个元数据中提取的重要元数据或者排除了由提取单元提取的不必要的数据的元数据,从多个内容中决定要推荐给用户的一个或多个内容。举个例子,图1(图2,或图7)中根据图8中步骤S30的展示单元用户接口部分11,用于展示由推荐单元决定的要推荐给用户的内容。
根据本发明的信息处理装置还包括展示单元(举个例子,根据图8中步骤S28的图1(图2,或图7)的用户接口部分11),用于展示由提取单元提取的重要的元数据或者不必要的元数据给用户。
根据本发明的信息处理装置还可以包括存储单元(举个例子,图1(图2)中的用户词典存储部分13或通用词典存储部分14),以便存储由提取单元提取的重要元数据或者不必要的元数据。
本发明提供信息处理方法。根据本发明的信息处理方法(举个例子,对应于图3中“鉴于同现关系的不必要的元数据提取处理”的方法或者图8中“鉴于同现的推荐处理”的方法)包括矩阵生成步骤,近似矩阵生成步骤,索引值计算步骤,提取步骤。在此,举个例子,矩阵生成步骤是图3中的步骤S1(可以包括S2)或者图8中的步骤S21(可以包括S22),用于根据关联于多个内容的至少一个的N(1或更大的整数值)个元数据,将多个内容中的M个(1或更大的整数值)内容中的每一个向量化,并生成矩阵,所述矩阵包括作为元数据矩阵的列分量和行分量的向量化的结果而获得的M个向量。举个例子,近似矩阵生成步骤是图3中步骤S3或图8中步骤S23,用于通过支配在矩阵生成步骤所生成的元数据矩阵来进行奇异值分解,以生成元数据矩阵的近似矩阵。举个例子,索引值计算步骤是图3中步骤S4或图8中步骤S25,用于根据矩阵生成步骤所生成的元数据矩阵和在近似矩阵生成步骤所生成的近似矩阵之间的差别,计算表明对应于N个元数据的每一个的元数据重要性的索引值。举个例子,提取步骤是图3中步骤S5和S6或图8中步骤S26,用于根据在索引值计算步骤中计算的N个索引值,从N个元数据中提取至少一个作为具有高重要性的重要元数据或者具有低重要性的不必要的元数据。
本发明提供程序。程序与上述根据本发明信息处理方法相关联,并且由例如图19所举例说明的计算机来执行。
如上所述,根据本发明来处理内容和其元数据。
在此应当注意的是,根据本发明的内容和元数据,即能够由本发明处理的内容和元数据,落入比通常所称的内容和元数据更广泛的概念。
即,根据本发明的内容具有广泛的概念,不仅包括电视广播节目、电影、相片、音乐等等通称为内容(激励图像、静态图像、或声音、或其组合),而且包括可用于用户的所有软件和硬件,诸如文档、商品(包括货物)、转换、等等。然而,举个例子,在内容是货物(硬件)的情况下,通过将货物投影成为激励图像或静态图像而产生的数据被用作内容数据。
当无需区分内容和内容数据时,内容和内容数据在这里通称为内容。
根据本发明的元数据表明以下信息。即,如上所述,根据本发明的内容不仅包括通常内容而且包括用户专有文档(举个例子,电子邮件)等等。因此,根据本发明的元数据具有广泛概念不仅包括通常元数据诸如广播节目元数据而且包括根据本发明全部或部分内容(广泛概念的内容),或者以由属性和内容(数字值也被认为时单词所表示的信息单元)等等组成单词表示的信息。换句话说,根据本发明表明内容的一个或多个特点的所有任何信息都可以是元数据。
更确切地说,举个例子,内容可以包括除上述电视广播节目、电影、和音乐之外的网页、电子邮件、因特网布告版、书籍等等。
举个例子,在这种情况下,广播时间、表演者、工作人员、流派等等可以作为电视广播节目元数据的类型来列举。可以列举电影元数据的类型,例如屏幕时间、表演者、工作人员、流派,胶片经销商等等。可以列举音乐元数据的类型,例如艺术家名、流派、乐器、韵律、氛围等等。可以列举作为网页元数据,例如网站设计者、出站链路、入站链路、URL(区域等等)、写的字等等。可以列举电子邮件元数据的类型,发送者/接收者,传送的日期和时间、写的字等等。可以列举因特网公告版元数据的类型,作者,写作日期和时间,写的字等等。可以列举书籍元数据、作者、出版者、出版日期和时间、写的字等等。
接下来,参照附图,描述了合并本发明的信息处理系统的实施例,能够处理如上所述广泛概念的内容和元数据。
图1示出了合并本发明的信息处理系统的功能配置示例。
如图1所示,信息处理系统装备有至信息传达部分24的用户接口部分11。
用户接口部分11配置有输出设备,能够使用户体验内容,从而输入设备能够使用户操作该内容。更确切的说,举个例子,输出设备可以是显示器、扬声器、等等。输入设备可以是键盘、鼠际、遥控器、触摸板、等等。
用户简档存储部分12存储信息,诸如用户在过去所体验的内容的指针(ID号等等),相同内容的评估,等等。所述评估是用户使用用户接口部分11已经输入的内容。
因此,通过参照存储在用户简档存储部分12中的各种信息,其它块能够从内容存储部分15读取想要的内容并且从元数据存储部分16将与此相关的元数据读取出来。
用户词典存储部分13频繁地存储在用户体验的内容元数据中使用的元数据,重要元数据,不必要的元数据等等。以后将详细描述重要元数据和不必要的元数据。用户词典存储部分13也可以存储该元数据特定于该用户的权值。在用户词典存储部分13,可以将数据传送至用户接口部分11、内容推荐部分23、元数据提取部分21等等或者将数据从这里传送出去,并且可以自由地执行任何数据的任何次数的增加、删除、和参照的任何行为。
通用词典存储部分14存储用户共有的元数据。举个例子,所有出现的元数据都可以存储在通用词典存储部分14中,并且用户通用的重要元数据和不必要元数据也可以存储在通用词典存储部分14中。通用词典存储部分14也可以存储用户通用元数据的权值。在通用词典存储部分14中,也可以将数据传达至用户接口部分11、内容推荐部分23、元数据提取部分21等等或者将数据从这里传达出去,并且可以自由地执行任何数据的任何次数的增加、删除、和参照的任何行为。
内容存储部分15存储可向用户提供的内容,即例如,图像、音乐、写作(writing)、全球网、等等。内容存储部分15的主要功能是为内容推荐部分23提供数据以响应来自内容推荐部分23的请求的功能。存储在内容存储部分15中的每个内容都具有标识符,诸如分派给它的ID号。同样,在内容存储部分15中,能够自由地执行任何数据的任何次数的增加、删除、和参照的任何行为。
元数据存储部分16存储与存储在内容存储部分15中的内容关连的元数据。存储元数据并不简单地意味着在其中存储元数据,而且具有更广泛地概念是,分别存储内容中每个元数据的频率和启发式地确定的权值,任何数目的元数据与可由诸如上述ID号之类的标识符可标识的频率和权值中的每个都相关连。。
上面描述的每个部分,用户简档存储部分12至元数据存储部分16,都被配置为诸如硬盘的存储器中的区域。
相反地,每个部分,以下描述的元数据取出部分17至内容推荐部分23,都被配置为软件,硬件,或其合并,如果用这种方法可配置的话。
元数据取出部分17取出将要存储在上述元数据存储部分16中的元数据,并将该元数据存储在元数据存储部分16中。举个例子,在内容是写作的情况下,元数据取出部分17例如,提取在写作中使用的词,分析该词出现的频率等等,并将每个词与其出现频率相关联,以便将该信息存储在元数据存储部分16中。
矩阵生成部分18聚集分别表明多个内容的上述内容向量,并生成元数据矩阵,所述矩阵的每个内容向量作为例如列分量。在矩阵生成部分18中,不执行加权的这种处理。
加权处理部分19通过诸如TF/IDF的各种算法加权矩阵生成部分18生成的元数据矩阵。加权处理部分19的加权处理的时机并不受到限制,可以在下述LSA计算部分20的LSA计算处理之前或之后。
LSA计算部分20对矩阵生成部分18生成的元数据矩阵,或者由加权处理部分19对其每个分量进行加权的元数据矩阵执行LSA计算。在此使用的LSA计算指的是下文中描述的第一至第三处理。
在第一处理中,执行奇异值分解。
在第二处理中,通过使用第一处理的结果来生成投影矩阵,并且元数据矩阵中的每个列分量,即每个内容向量(组)经由投影矩阵投影到概念空间中。
在第三处理中,使用第二处理的结果来生成元数据矩阵的近似矩阵。即,处理第三处理以便生成近似矩阵,所述近似矩阵的维数是对元数据矩阵的适当压缩。
下文将详细描述LSA计算。
举个例子,假设将N行M列的元数据矩阵D从矩阵生成部分18或者从加权处理部分19提供到LSA计算部分20。
在这种情况下,在第一处理,LSA计算部分20执行对N行M列的元数据矩阵D奇异值分解,以将元数据矩阵D分解成为各个分量矩阵U,∑和V,其满足以下公式(1)。在公式(1)中,分量矩阵U表示N行N列的左奇异向量,分量矩阵V表示M行M列的右奇异向量,而∑表示N行M列的奇异矩阵。VT表示分量矩阵V的转置矩阵。
D=U∑VT             …(1)
假设元数据矩阵D的阶是r(N,M或更多的整数值),分量矩阵∑具有在对角线上排列的奇异值的r个元素,而该矩阵中其它元素都是零。此外,由于在分量矩阵U中首先排列的r列的列分量是标准正交的基础,并且更重要的列分量是从左边连续排列的,因此可以使用k个左奇异向量(k是比r小的整数值)来表达(投影)每个内容向量来形成最好的近似。
然后,在第二处理的步骤,LSA计算部分20生成投影矩阵(下文称作UK),其从分量矩阵U(左奇异向量)的顶部由k个列的列分量组成,即具有N行k列的投影矩阵UK
接下来,在另一个第二处理,LSA计算部分20用该投影矩阵UK的转置矩阵,从左边乘以元数据矩阵D中的各个列分量,即各个内容向量(N维),以生成维数减小到k维(各个对应内容向量的各个近似向量)的各个内容向量。即,LSA计算部分20将每个内容向量投影到k维的概念空间中。换句话说,LSA计算部分20通过在第一处理中生成投影矩阵UK来生成概念空间。
同样,在第三处理的另一个步骤,通过使用分量矩阵V的右奇异向量,LSA计算部分20生成从分量矩阵V(右奇异向量)顶部的由k个列的列分量组成的矩阵(下文称作VK),即具有M行k列的矩阵VK
另外在第三处理的更另一个步骤中,LSA计算部分20生成由分量矩阵∑顶部起的k个列中的第一至第k个行元素(由分量矩阵∑中k×k个元素组成的上分层)组成的矩阵(下文称作∑K),即k行k列的矩阵∑K
然后作为第三处理的更另一个步骤,LSA计算部分20计算下列公式(2)的右边以生成其阶减小到k的近似矩阵DK。在公式(2)中,VK T表示分量矩阵VK的转置矩阵。
Dk=UKKVK T            …(2)
如上所述由LSA计算部分20执行LSA计算。
元数据提取部分21利用加权处理部分19所加权的各个分量为元数据矩阵D的各个分量值执行预先指定的计算,或者为经由LSA计算部分20进行的LSA计算生成的近似矩阵DK的各个分量值执行上述预先指定的计算,并根据计算结果提取特征元数据。此外,根据需要元数据提取部分21通知诸如所提取的元数据的标识号至所需要的其它块。
向量计算部分22执行处理,以便通过使用加权处理部分19或LSA计算部分20适当地处理的内容向量组,即使用元数据矩阵D或近似矩阵DK中的一个或多个列分量的聚合,来计算余弦函数(匹配处理)所表达的向量之间的相似性,和/或群集处理以便分类成多个组。由内容推荐部分23来执行这些处理的控制。
通过使用由加权处理部分19对其各个分量进行加权的元数据矩阵D,或者使用经由LSA计算部分20进行LSA计算所生成的相似矩阵DK,内容推荐部分23执行处理,以便请求向量计算部分22的适当的处理(上述匹配处理和/或群集处理),从内容存储部分15读取预先指定的内容的处理,经由用户接口部分11展示内容给用户的处理。
信息传递部分24将从用户接口部分11至内容推荐部分23的部分间的预先指导块传递到,从用户接口部分11至内容推荐部分23的部分间的适合的块。
以上参考图1描述了根据本发明的信息处理系统。
举个例子,在根据本发明的信息处理系统由客户机和服务器组成的情况下,将图1中用户接口部分11安排到每个客户机上,而从用户简档存储部分12至内容推荐部分23可以安排在服务器方或者客户机方。
具体地说,举个例子,可以将涉及用户隐私的用户接口部分11、用户简档存储部分12,以及用户词典存储部分13存储到客户机方上,而将从通用词典存储部分14至内容推荐部分23的其它部分安排到服务器方上。
可替换的是,举个例子,可以将内容存储部分15和元数据存储部分16安排到服务器方,这两者都需要大量存储容量,而将其它块,即从用户接口部分11至用户词典存储部分14的部分以及从元数据取出部分17至内容推荐部分23的部分安排到客户机方上。
可替换的是,举个例子,可以将从用户接口部分11至内容推荐部分23的部分分别适当地分配安排到服务器方上和客户机方上,以便分离计算负荷。
在这种情况下,即,在根据本发明的信息处理系统由客户机和服务器组成的情况下,例如,信息传递部分24包括通信设备,以便经由网络传达给其它信息处理设备,并且这些通信设备分别在服务器中和客户机中提供。即,通过分别使用集成的通信设备,服务器和客户机经由网络互相通信。
此外在这种情况下,信息传递部分24可以包括服务器和客户机内分别提供的各种总线。即,当在从用户接口部分11至内容推荐部分23的部分间的至少两块被安排在客户机中时,经由客户机中的各种总线来执行这些块之间的信息交换。类似地,当从用户简档存储部分12至内容推荐部分23的部分中的至少两个块被安排在服务器中时,经由服务器中的各种总线来执行这些块之间的信息交换。
对于另一个例子,从用户接口部分11至内容推荐部分23所有部分都能够被安排在客户机方。即,从用户接口部分11至内容推荐部分23所有部分都可以被安排在一个单元中以便信息处理。在这种情况下,信息传递部分24是由,举个例子,信息处理装置内提供的各种总线组成的。
图1中具有如上所述的这种配置的信息处理系统,能够将参照N(1或更大的整数值)个元数据的多个内容中的M(1或更大的整数值)个内容中的每一个都向量化,所述N个元数据与多个内容中的至少一个相关联,并生成包括作为元数据矩阵D的列分量或行分量的向量化的结果所获得的M个向量的矩阵。此外,图1中的信息处理系统能够执行对元数据的加权和LSA计算。以这种方式,适当地加权元数据矩阵D并且能够获得其近似矩阵DK
因此,图1中的信息处理系统能够使用适当加权的元数据矩阵D和其近似矩阵DK来执行各种处理。举个例子,图1中的信息处理系统能够照例执行上述常规内容推荐处理,并且它能够执行本申请人所发明的处理,诸如下列第一至第五处理。
换句话说,申请人已经最新发明了一种信息处理系统或信息处理装置,能够执行下列第一至第五处理中的每个处理。本申请已经公开了图1中配置的信息处理系统作为本发明的实施例。因此,不必说其形式不局限于图1的实例,只要能够执行下列第一至第五处理中的每个的信息处理系统或信息处理装置。
第一处理意味着“鉴于考虑同现关系的不必要的元数据提取处理”。第二处理意味着“鉴于同现关系的推荐处理”。第三处理意味着“使用群集的UPV(用户优选向量)组间的差别的推荐处理”。第四处理意味着“LSA对内容的再评估处理”。第五处理意味着“LSA和其它技术的混合的推荐处理”。
在下文中,以这个顺序逐个描述第一至第五处理的细节。即,在下文中,以这个顺序逐个描述用于执行第一至第五处理的每一个处理的信息处理系统或信息处理装置的实施例。应当注意的是,以下为了简单描述起见,用于执行第一至第五处理的每一个处理的信息处理系统或信息处理装置的各个实施例在此分别称作第一实施例至第五实施例。
(第一实施例)
首先,下面描述第一实施例。
举个例子,当内容是文本时,词出现在该文本中的频率(或者对应于该频率的适当权值)可以被使用作为该单词的元数据。
在这种情况下,当增加新文档作为新对象,以便处理在该新文本中出现的词间的、还没有在现有文档中出现的新词被作为新元数据的基向量增加到元数据空间。
即,使得元数据中的维数与出现在关于对象的所有文本中词的类型数目相等以便处理。因此,随着被看作要处理的对象的文本数目增加,即随着以便用户查阅而准备的或者访问的文本数目增加,元数据空间中的维数也增加。更确切地说,元数据空间中的维数一般地增长到几千或者几万。
结果,计算随后步骤中的诸如匹配处理或群集处理有时会变得非常困难。同时在常规技术中,已经试图根据每个词的权值来减小词的数目,以克服上述问题,但是当使用像TF/IDF这样的上述技术时,是不考虑元数据(或词)的同现(或同义(synonymity))的,并且有时将不被删除的词常常会被删除,这是不利的。
为了解决上述问题,本发明人发明了上述第一处理,即“鉴于考虑同现关系的不必要的元数据提取处理”。
在第一处理中,使用由LSA生成的近似矩阵DK。近似矩阵DK是通过考虑同现关系而生成的矩阵。然而,下文中将描述近似矩阵DK和同现关系之间的相对性。
以下将提供对根据本发明第一实施例的信息处理系统或信息处理装置的描述,即下面将参照图2至图6来描述用于执行“鉴于考虑同现关系的不必要的元数据提取处理”的信息处理系统或信息处理装置。
图2根据本发明第一实施例示出信息处理系统或信息处理装置的功能配置的实例。
换句话说,通过图1所示内容推荐部分23,从在用户接口部分11中所有的块中提取用于执行“鉴于考虑同现关系的不必要的元数据提取处理”所需的块,并且图2是示出当执行“鉴于考虑同现关系的不必要的元数据提取处理”时,所述块都根据信息流来排列的情形的视图。以上参照图1描述了所述块,并且由此省略了其说明。
尽管在图2中未示出,事实上在连接两个块的每个箭头标记内,即在两个块内,提供了图1中所示的信息传递部分24。
图3是流程图,用于举例说明“用于鉴于同现关系提取不必要的元数据的处理”的实例。以下参照图3所示流程图来描述“用于鉴于同现关系提取不必要的元数据的处理”的实例。
为了更容易地理解“用于鉴于同现关系提取不必要的元数据的处理”,以下根据需要参照图4至图6提供描述。即图4至图6表示“用于鉴于同现关系提取不必要的元数据的处理”的处理结果的特定实施例。
在图3中所示的步骤S1中,矩阵生成部分18生成元数据矩阵D。
更确切地说,在步骤S1中,矩阵生成部分18从用户简档存储部分12中取出用于用户已经体验的一个或多个内容的指针(ID号或等等)。然后矩阵生成部分18从元数据存储部分16中取出元数据,其中所述每个元数据都被分派了指针,即对应于内容的用户已经体验的元数据,并且根据所取出的元数据将用户已经体验的每个内容向量化作为基向量。利用该操作,生成了对应于用户已经体验的内容的内容向量。然后矩阵生成部分18生成包括内容向量的元数据矩阵D作为列分量。
作为在步骤S1中处理的结果所积累的元数据可以是,除对应于用户已经体验的内容的元数据之外的,对应于所有内容的那些元数据,或者是对应于多个用户已经体验的内容的元数据。下文中描述的在步骤S6中的不必要的元数据的寄存目的地根据作为元数据取出处理的对象的内容而变化。
在步骤S2中,加权处理部分19利用预先指定的加权技术,执行对在步骤S1中由矩阵生成部分18生成的元数据矩阵D的加权。
这并不是对在步骤S2中的处理所采用的加权技术进行特定限制,并且可以采用各种技术,包括使用TF/IDF的技术、使用标准化TF的技术、或者其中为每个内容或元数据而执行反射例如,时间经过的启发式加权的技术。
以下描述假设的这种情况,其中作为内容的五个文本d1至d5是用于处理的对象,采用出现在文本d1至d5中的词作为元数据,并且采用使用了将文本中每个词的出现频率作为加权值的技术作为加权技术。
更确切地说,假设,举个例子,在文本d1中的词“Kyoto”,“toufu”,“spa”,“autumn leaves”,“USB”,“software”,和“price”的出现频率分别是3,4,1,0,0,0,和1,并且在文本d2中的词“Kyoto”,“toufu”,“spa”,“autumn leaves”,“USB”,“software”,和“price”的出现频率分别是1,0,3,3,0,0,1。还假设,在文本d3中的词“Kyoto”,“toufu”,“spa”,“autumn leaves”,“USB”,“software”,和“price”的出现频率分别是4,1,0,0,0,0和2。进一步假设,在文本d4中的词“Kyoto”,“toufu”,“spa”,“autumn leaves”,“USB”,“software”,和“price”的出现频率分别是0,1,0,4,0,0和0。另外假设,在文本d5中的词“Kyoto”,“toufu”,“spa”,“autumn leaves”,“USB”,“software”,和“price”的出现频率分别是0,0,0,0,2,1和1。
在这种情况下,作为在步骤S2中处理的结果,生成图4所示的加权元数据矩阵D。即,作为在步骤S2中处理的结果,生成七行五列的元数据矩阵D,其包括在文本d1至d5的内容向量(根据频率加权的内容向量,称作特征向量)。
在文本d1中的内容向量(“Kyoto”,“toufu”,“spa”,“autumn leaves”,“USB”,“software”,和“price”)是(3,4,1,0,0,0,1)。在文本d2中的内容向量是(1,0,3,3,0,0,1)。在文本d3中的内容向量是(4,1,0,0,0,0,2)。在文本d4中的内容向量是(0,1,0,4,0,0,0)。在文本d5中的内容向量是(0,0,0,0,2,1,1)。
再次在图3中步骤S3中,LSA计算部分20执行对元数据矩阵D的LSA计算,所述元数据矩阵D由加权处理部分19在步骤S2的处理中适当加权。
在步骤S3中,执行LSA计算中的第一处理和第三处理,并且作为其结果,生成已经被压缩为适当维数的近似矩阵DK
更确切地说在这种情况下,当对图4中所示的矩阵D执行在步骤S3中处理,例如生成被压缩到图5中所示的两维近似矩阵DK
即,作为在步骤S3中处理的结果,生成七排五列近似矩阵DK,其包括如下更新的文本d1至d5的各个内容向量作为第一至第五列中的列分量。
即文本d1的更新内容向量是(3.6999,2.6836,0.7968,0.1194,0.0846,0.0423,1.6540)。文本d2的更新内容向量是(0.8301,0.8297,1.6489,3.5394,0.0168,0.0084,0.6448)。文本d3的更新内容向量是(3.2099,2.3044,0.5377,-0.2633,0.0736,0.0368,1.4063)。文本d4的更新内容向量是(0.0886,0.2855,1.4478,3.4166,-0.0001,-0.0001,0.3057)。文本d5的更新内容向量是(0.2824,0.2058,0.0674,0.0249,0.0064,0.0032,0.1275)。
再次参照图3,在步骤S4中,元数据提取部分21使用由LSA计算部分20在步骤S3中的处理计算的近似矩阵Dk来计算元数据的特征差异。
特征差异表明利用在元数据矩阵D和近似矩阵DK之间的差异(改变)所生成的元数据重要性的索引值。
以下提供该特征差异的更详细的描述。
举个例子,在图5中所示的近似矩阵DK中,就像(↑↑)的两个向上箭头表明与图4中所示的元数据矩阵D相比,带有加权值的分量(分量值)逐1或更大地递增。类似地,就像(↑)的一个箭头表明与图4中所示的元数据矩阵D相比,带有加权值的分量(分量值)逐0.5或更多地递增。
以下描述与元数据矩阵D相比,在近似矩阵DK中的分量增加的意思。
即,存在这种情况,其中尽管在预先指定的内容中的预先指定元数据的重要性最初是高的,但是该重要性在没有考虑在多个内容上扩展的元数据的同现关系而生成的元数据矩阵D中被视为低,其结果,在元数据矩阵D中的对应分量值被设置为低值。
在这种情况下,当生成近似矩阵DK时,清楚地显示出在元数据中的最初高重要性,并且在近似矩阵DK中的对应分量值被改变到高的值。
这是因为近似矩阵DK是通过删除被认为是不重要的基线分量作为在概念空间中的主要分量(那些具有低奇异值)并再次计算减小的内容,所获得的矩阵。换句话说,近似矩阵DK是其中根据扩展在多个内容上的元数据的同现关系来更新分量的矩阵。
以下来描述与元数据矩阵D中的分量相比,在近似矩阵DK中的分量增加的意思。
举个例子,在图5中所示的近似矩阵DK的实例中,就像(↓↓)的两个箭头表明与图4中所示的元数据矩阵D相比,带有加权值的分量(分量值)逐1或更大地递减。类似地,就像(↓)的一个箭头表明与图4中所示的元数据矩阵D相比,带有加权值的分量(分量值)逐0.5或更多地递减。
以下描述与元数据矩阵D相比,在近似矩阵DK中的分量减小的意思。
即,存在这种情况,其中尽管在预先指定的内容中的预先指定元数据的重要性最初是低的,但是该重要性在没有考虑在多个内容上扩展的元数据的同现关系而生成的元数据矩阵D中被视为高,其结果,在元数据矩阵D中的对应分量值被设置为高值。
在这种情况下,当生成近似矩阵DK时,清楚地显示出在元数据中的最初低重要性,并且在近似矩阵DK中的对应分量值被改变到低的值。
以上描述了与元数据矩阵D相比,在近似矩阵DK中的分量值增加的意思。
如上所述,可以说元数据矩阵D和近似矩阵DK之间的差异(改变)表示在考虑了扩展到多个元数据的元数据同现之前和在这之后,在解释元数据的重要性时的差异。
因此,通过使用元数据矩阵D和近似矩阵DK之间的差异(改变),能够计算用于元数据的重要性,即元数据的特征差异,的索引值。
换句话说,只要考虑了在元数据矩阵D和近似矩阵DK之间的差异(改变),则在计算元数据特征差异的技术上没有特定限制,并且可以采用用于该目的的各种技术。
举个例子,可以通过上述第一至第三特征差异计算技术中的任一个来计算元数据的特征差异。
在第一特征差异计算技术中,通过利用在近似矩阵DK中的分量值自身来计算特征差异。使用在近似矩阵DK中的分量值自身也可以被认为是使用元数据矩阵D和近似矩阵DK之间的差异(改变)。
更确切地说,一个片段的片段元数据对应于在元数据矩阵D和近似矩阵DK中每一个矩阵中的一行。举个例子,在图4中所示的元数据矩阵D和图5中所示的近似矩阵DK的实例中,元数据(词)“Kyoto”对应于第一行。即,在一行中的每个分量值表明每个内容(文本)的行中的对应元数据的权值。举个例子,在图4中所示的元数据矩阵D和图5中所示的近似矩阵DK的实例中,在第一行中的每个分量值表明在文本d1至d5中的元数据(词)“Kyoto”的每个权值。
因此,举个例子,当由N个元数据和M个内容数据生成元数据矩阵D时,即当元数据矩阵D包括N行M列时,N个元数据被连续地设置为将要作为逐个处理的对象被标记的元数据(下文中将其描述为标记的元数据),计算在表示经标记的元数据的行中M个分量值的平均值或其最大值,即计算涉及标记的元数据的M个内容的加权值的平均值或最大值,并且上述计算结果被当作是标记数据的特征差异。该技术是第一特征差异计算技术的一个例子。
在第二特征差异计算技术中,通过利用在近似矩阵DK中的分量值和元数据矩阵D中的每个对应分量值之间的差异值来计算特征差异。
更确切地说,举个例子,当元数据矩阵D具有N行和M列时,N个元数据被连续地设置为标记的元数据,计算在近似矩阵DK中表明标记的元数据的行中的M个分量值中的每个分量值和在元数据矩阵D中每个对应的分量之间的差异值,计算在所计算的M个差异值间的平均值其最大值,并且计算的结果被看作是标记元数据的特征差异。这是第二特征差异计算技术的实例。
当分量值增加为LSA计算的结果时,即当元数据矩阵D中的分量值比近似矩阵DK中的对应值大时,在近似矩阵DK和元数据矩阵D之间的分量差异值自然是正值。
当考虑到上述情况和增加分量值为LSA计算的结果的意义时,由第二特征差异计算技术所计算的经标记的元数据的特征差异的正值就等于考虑了扩展到多个内容的元数据同现关系而确定的结果,所述内容中标记的元数据是重要的。为了描述得更精确,特征差异的正值等于这样的事实,即清楚地示出了标记的元数据的最初高重要性。
由第二特征差异计算技术所计算的经标记的元数据的特征差异的负值等于考虑了扩展到多个其重要性为低的内容的元数据同现关系而确定的结果,由于同样的原因可适用于从另一方面看的特征差异的正值的情况。更精确地说,特征差异的负值等于这样的事实,即经标记的元数据的最初低重要性被清楚地示出。
更确切地说,举个例子,图6示出了使用图5中所示的近似矩阵DK,对由第二特征差异计算技术计算的特征差异的计算结果。更精确地说,词“Kyoto”,“toufu”,“spa”,“autumn leaves”,“USB”,“software”,和“price”是被连续地设置为标记元数据的,并且表明经标记的元数据的行中的五个分量值之间的差异值,所述标记的元数据在图5中所示的近似矩阵DK中,即计算在文本d1至d5的的标记元数据的加权值之间和在图4所示的元数据矩阵D中的对应分量值,并计算这五个特征差异值平均值作为特征差异。计算的结果如图6中所示。
为了更详细地描述,“Kyoto”的特征差异是0.0222。“toufu”,“spa”,“autumn leaves”,“USB”,“software”,和“price”的特征差异分别是0.0618,0.0997,-0.326,-0.3638,-0.1819,和-0.1723。
因此,可以说,已经确定词“Kyoto”,“toufu”和“spa”具有与考虑了扩展到文本d1至d5的词同现关系的确定结果一样的重要性,或者更精确地说,清楚地示出了每个词最初具有的重要性。
此外可以说,已经确定词“autumn leaves”,“USB”,“software”,和“price”不如考虑了扩展到文本d1至d5的词同现关系的确定结果更有重要性,或者更精确地说,清楚地示出了每个词最初具有的低重要性。
更具体地说,从图6中所示的元数据的特征差异中可以理解以下事实。即,认为词“USB”和“software”具有级低的重要性,所述词仅仅在具有与其它文档低相关性的文本d5中出现,并且将所述词彼此紧密地相关联但是与其它词没有如此相关。此外还认为,诸如词“price”,其会常常出现在任何文本中,被认为具有低重要性(其权值被降低)。相反地,诸如“spa”,和“toufu”之类的词,其强烈地表征该文档并暗示存在多个类似地文档,被认为具有高的重要性(其权值被升高)。
以上描述了第二特征差异计算技术。现在提供第三特征差异计算技术的描述。
在第三特征差异计算技术中,通过在近似矩阵DK中的分量值被元数据矩阵D中对应分量值相除来获得的商被用于计算特征差异。
更具体地说,当元数据矩阵D具有N行和M列时,N个元数据被连续地设置为联系的标记的元数据,并且通过在近似矩阵DK中表明标记元数据的行中的M个分量值被元数据矩阵D中对应分量值相除来计算商,计算在计算得到的M个商的平均值或最大值,并且技术的结果被认为是标记的元数据的特征差异。这是第三特征差异计算技术的实例。
当一个分量值增加为LSA计算的结果时,即当在元数据矩阵D中的一个分量值大于近似矩阵DK中对应的分量值时,分量的商大于1,所述分量的商是通过元数据矩阵D中的值被在近似矩阵DK中对应值相除来获得的。
考虑了上述事实和分量值作为LSA计算结果的意思,通过第三特征差异计算技术所获得的经标记的元数据的大于1的特征差异值就等于考虑了扩展到多个内容的元数据同现关系而确定的结果,所述内容中标记的元数据是重要的。更精确地,特征差异值大于1等于这样的事实,即清楚地示出了经标记地元数据的最初高重要性。
由第二特征差异计算技术所计算的小于1的经标记数据的特征差异的值等于考虑了扩展到多个其重要性为低的内容的元数据同现关系而确定的结果,由于同样的原因可适用于从另一方面看的特征差异值大于1的情况。更精确地说,特征差异小于1的值等于这样的事实,即标记的元数据的最初低重要性被清楚地示出。
在图3中显示了步骤S4中用于计算元数据的特征差异的技术实例,以上已经描述了第一至第三特征差异计算技术。
当在步骤S4中的处理已经计算出的元数据的特征差异值时,处理流至步骤S5。
在步骤S5中,元数据提取部分21确定元数据的特征差异是不是多于阈值。
当元数据的所有特征差异值高于阈值时,在步骤S5中提供NO的响应,并且该处理终止。
相反地,如果存在比阈值少的元数据的一个特征差异,那么在步骤S5中提供YES的响应,并且处理流向步骤S6。
在步骤S6中,元数据提取部分21寄存或展示不必要的元数据。更精确地说,在步骤S6中,元数据提取部分21标识具有特征差异的元数据,所述特征差异每个都不大于阈值作为不必要的元数据,并从元数据存储部分16提取不必要的元数据。于是元数据提取部分21寄存(存储)所提取的不必要的元数据到用户词典存储部分13或通用词典存储部分14中,或者经由用户接口部分11展示不必要的元数据给用户。进行该操作,终止“鉴于同现关系用于提取不需要的元数据的处理”。
如上所述,在步骤S5中的处理所使用的阈值是与元数据特征差异比较的值,以确定每个元数据是否应当被归类于不必要的元数据。即,具有高于阈值的特征差异的元数据是那些不被归为不必要的元数据的、具有高重要性的元数据。相反地,具有低于阈值的特征差异元数据是那些被归为不必要元数据、具有低重要性的元数据。
因此,阈值常常根据在步骤S4的处理中所采用的特征差异计算技术而变化。
举个例子,当采用使用上述差异值的第二特征差异计算技术时,有利的是,举个例子,使用小于0的值作为阈值。更确切地说,当在如图6中所示情况将-0.1设置为阈值时,词“USB”、“software”和“price”被提取作不必要的元数据。
相反地,举个例子,当采用如上所述使用商的第三特征差异计算技术时,有利的是,举个例子,使用小于1的值作为阈值。
已经参照图2至图6描述了根据本发明第一实施例的信息处理系统或信息处理装置,即用于执行“鉴于同现关系的不必要元数据提取处理”的信息处理系统或信息处理装置。
在第一实施例中,通过使用了例如,近似矩阵DK或近似矩阵DK和原始元数据矩阵D之间的差异来执行鉴于在潜在和语义级之间的相对性(同现)的加权。其结果,能够获得鉴于同现的重要性索引值,诸如特征差异。
因此,通过使用鉴于同现的重要性索引值,可能查找明显地像不相关于一个或者那些明显地看起来相关但是实际上具有低相对性的元数据,并根据如上所述元数据的辨别来分类元数据。
换句话说,可能防止表面看起来像那些不相关的然而实际上具有高重要性的元数据,错误地被归类为不必要的数据。此外可以无误地将分类看起来相关实际上具有低相关性的元数据,即看起来重要实际上具有低的重要性的元数据作为不必要的元数据。
(第二实施例)
接下来,描述本发明的第二实施例。
在基于现有技术的内容推荐中,不考虑元数据的同现,并简化在TF/IDF获得的元数据矩阵D中的权值,或者在通过使用LSA对元数据矩阵D维数压缩获得的近似矩阵Dk中的权值,并且因此仅仅相似于公知(那些已经体验过或者以前由用户高度评估)的内容,这是不利的。
为了解决上述问题,本发明人发明了上述第二处理,即“鉴于同现关系的处理”。
在该第二处理中,通过LSA生成近似矩阵DK,或者使用在第一实施例中描述的元数据特征差异。如上所述,近似矩阵DK是鉴于元数据同现生成的矩阵,并且元数据的特征差异是鉴于元数据同现的重要性的索引值。
下面描述第二处理的概要。
根据第二实施例的信息处理系统或信息处理装置(在第二处理的概要描述中仅仅作为设备来描述)当标记一些内容时,提取一片段或多片段元数据以便用于根据特征差异或者在近似矩阵DK中的分量值来推荐内容。
更精确地说,如上所述,具有大的特征差异的元数据是具有在原始元数据矩阵D中不是很大的权值、但是当考虑其它元数据的同现时被确定为重要的元数据(下文中被描述为重要元数据)。因此可以认为,在此使用的重要元数据是具有用户以前还没有意识到的、高的性质出现。
因此设备可以提取几个元数据,举个例子,具有分别排列在较上位置、大的特征差异的元数据作为重要元数据。
此外对应于近似矩阵DK中的大成分值的元数据也可以被认为是重要的元数据。
因此该设备提取,举个例子,对应于近似矩阵DK中分量、排列在较上位置的元数据作为重要元数据。
此外,该设备能够根据特征差异来提取重要元数据,并且也能够根据近似矩阵DK中分量值提取重要元数据。仅仅根据特征差异来提取的重要元数据可以被用作用于内容推荐的一个或多个重要元数据,或者仅仅可以使用根据近似矩阵DK中分量值提取的重要元数据。可选择的是,可以结合使用根据特征差异来提取的重要元数据和根据近似矩阵DK中分量值提取的重要元数据。
然后当用户选择内容时,设备推荐如上述提取的一个或多个重要元数据作为可获得信息。可选择的是,设备把由如上所述提取的一片段或多片段重要元数据组成的元数据组当作一个内容(列向量),执行元数据组(列向量)和其它内容(列向量)的匹配处理,并根据匹配处理的结果推荐其它内容。
以上已经描述了第二处理,即“鉴于同现关系的推荐处理”,的概要。
接下来参照图7和图8描述根据本发明第二实施例的信息处理系统和信息处理装置,即用于执行“鉴于同现关系的推荐处理”的信息处理系统和信息处理装置。
图7是视图,表示根据第二实施例的信息处理系统和信息处理装置的功能配置的实例。
换句话说,从图1所示的从用户接口部分11至内容推荐部分23的所有块中提取用于执行“鉴于同现关系的推荐处理”所需的块。并且图7表示这样的情形,其中当执行“鉴于同现关系的推荐处理”时根据信息流所排列的块。已经参照图1描述了图7所示的每个块,并且在此省略其描述。
尽管在图7中未示出,但是在连接两个块的每个箭头中,即在两个块之间,提供了图1所示的信息传递部分24。
图8是流程图,用于举例说明“鉴于同现关系的推荐处理”的实例。现在参照图8所示流程图描述“鉴于同现关系的推荐处理”的实例。
图8中步骤S21至S23与上述图3所示的步骤S1至S3基本相同。因此在此省略了在步骤S21至S23中执行的处理的描述。
更多与用户体验不相关的内容(内容向量)被包括在元数据矩阵D中,所述元数据矩阵D被生成作为在步骤S21中的处理结果,作为在步骤S23中处理的结果而生成的近似矩阵DK具有与特定该用户的元数据同现相对较低的相关性,并且因此提供基于鉴于一般意义的同现的矩阵。因此,作为重要元数据被提取的元数据具有用户的较低的性质出现,因此用户可以在使用该元数据时谨慎小心,所述重要元数据是基于下文所描述的在上述近似矩阵DK中的分量值,或者基于从近似矩阵DK所获得的特征差异,在步骤S26中处理的结果。换句话说,当需要给用户提取具有较高性质出现的元数据时,用户已经体验的内容就应当尽可能多地被包括在作为在步骤S21中的处理结果而生成的元数据矩阵D中。
当由LSA计算部分20作为在步骤S23中处理结果而生成近似矩阵DK时,处理流向步骤S24。
在步骤S24中,LSA处理部分20确定在下文描述的步骤S26中是否应当使用特征差异,并由元数据提取部分21来执行该特征差异。
当在步骤S24中确定,应当使用特征差异时,在步骤S25中LSA处理部分20就计算元数据的特征差异。在步骤S25中的处理与图3所示的在步骤S4中的处理基本相同。因此在此省略了在步骤S25中的处理的详细描述。
于是,当近似矩阵DK和元数据的特征差异从LSA计算部分20提供至元数据提取部分21时,处理流向步骤S26。
相反地,当在步骤S24中确定,不使用特征差异时,仅仅有近似矩阵DK被从LSA计算部分20提供至元数据提取部分21,并且处理流向步骤S26。
在步骤S26中,元数据提取部分21通过使用近似矩阵DK中的至少一个分量值和元数据的特征差异,来标识一片段或多片段要推荐的元数据,即重要元数据,并从元数据存储部分16中提取一个或多个经标识的重要元数据。
在步骤S26中不存在对提取重要元数据的技术的任何特定限制,并且举个例子,可以采用以下技术。
举个例子,可以采用这样的提取技术,其中可以提取,在近似矩阵DK中所有分量的平均值或在由用户指定的特定内容向量对应最高分量值的元数据(或者从最高的分量值中提取任何数目的元数据)。概括地说,可以采用使用了在近似矩阵DK中的分量值的提取技术。
此外也可以采用这种提取技术,其中具有最高特征差异的元数据(或者来自具有最高特征差异的一个中的任意数目的元数据)被提取作为重要元数据,或者其中可以提取被提升作为重要元数据的、具有权值的元数据。概括地说,可以采用使用了特征差异的提取技术。
更具体地说,假设下列描述,即生成在参照图4的第一实施例中描述的元数据矩阵D作为在从步骤S21至步骤S23中处理的结果,并且也生成在图5中所示的近似矩阵DK。还假设,在步骤S25中,通过利用了图5中所示的近似矩阵DK和图4中所示的元数据矩阵D之间的差异值的第二特征差异计算技术,来计算在图6中所示的元数据的特征差异。
在这种情况下,在步骤S26的处理中,如果提取了分别具有0.05或更多特征差异的元数据,那么提取“toufu”和“spa”。
当由元数据提取部分21提取的一个或多个重要元数据被提供给内容推荐部分23时,处理流向步骤S27。
在步骤S27中,内容推荐部分23确定该内容是否应当被推荐。
当在步骤S27中确定该内容不应当被推荐时,处理流向步骤S28。
在步骤S28中,内容推荐部分23将在步骤S26的处理中由元数据提取部分21所提取的一个或多个重要元数据,经由用户接口部分11展示给用户。
通过以上操作,终止“鉴于同现关系的推荐处理”。
当在步骤S27中确定,该内容应当被推荐时,处理流向步骤S29。更准确地说,当在步骤S27中确定,该内容应当被推荐时,内容推荐部分23将由元数据提取部分21所提取的一个或多个重要元数据提供给向量计算部分22,并且也执行匹配处理。然后处理流向步骤S29。
在步骤S29中,向量计算部分22使用元数据组来执行向量匹配处理,所述元数据组由在步骤S26的处理中,元数据提取部分21提取的一个或多个重要元数据组成。在步骤S29中,向量计算部分22将元数据组看作是一个内容(内容向量),计算该内容和存储在内容存储部分15中的其它内容(内容向量)之间的相似性,选择具有最高相似性的内容(或者从具有最高相似性的内容中选择任何数目),并发送所选择的内容至内容推荐部分23。
在步骤S28中,内容推荐部分23推荐在步骤S29的处理中由向量计算部分22所选择的该一个或多个内容。在步骤S28中,内容推荐部分23将该一个或多个重要内容的元数据(或者元数据或者其它相关信息),经由用户接口部分11展示给用户。
通过以上操作,终止“鉴于同现关系的推荐处理”。
以上参照图7和图8描述了信息处理系统或信息处理装置,即用于执行“鉴于同现关系的推荐处理”的信息处理系统或信息处理装置。
在第二实施例中,获得了近似矩阵DK,并且通过使用近似矩阵DK或近似矩阵DK和原始元数据矩阵D之间的差异,鉴于在潜在语义层的元数据之间同现关系来执行权值。能够获得表明鉴于元数据的同现关系的重要性的索引值的特征差异。
因此,通过使用鉴于同现关系的在近似矩阵DK中的分量值,或者鉴于同现关系的重要性索引值(权值),可能查找到看起来不相关的元数据,或者那些看起来相关事实上具有低的相关性的元数据,以便基于该元数据进行内容分类。
换句话说,看起来不相关事实上重要的元数据可以被认为是具有高性质出现、未被用户注意到的元数据,即重要数据。同样,上述基于重要数据的、所推荐的内容也可以被看作是具有高的性质出现的内容。
上述信息处理系统或信息处理装置也可以被应用于将属性(元数据)分类,在数据挖掘或文档分类领域中通常称作在特征选择。换句话说,能够轻易地实现鉴于同现关系的属性(元数据)分类处理。
(第三实施例)
接下来,以下描述第三实施例。
作为根据向量空间方法、用于内容推荐系统的用户优选向量(UPV)的生成技术,通常采用生成技术,通过平均在用户给予高度评价的内容组中的内容向量来生成UPV。利用这种生成技术生成的UPV是使得用户各种优选变得迟钝的向量,并且当使用上述UPV来推荐内容时,  存在难于在内容推荐宽泛范围中选择的问题。此外,即使给予高度评价的内容组被群集到多个组中以便增加种类,但是仍然存在这样的问题,即难于推荐用户从未体验过得内容。
为了解决这些问题,本发明人发明了上述第三处理,即,“利用被群集的不同组UPV的推荐处理”。
以下描述第三处理的概要。
根据第三实施例的信息处理系统或信息处理装置(简称为第三处理概要描述中的设备)在元数据空间或概念空间中包括由用户给出高度评价的内容向量,以便使用预先指定的算法群集成多个串(组)。
该设备通过平均属于对应串的一个或多个内容向量来计算各个串的代表向量(以后称作代表向量),并且还生成各个串的代表向量之间的差异向量(以后称作代表UPV)。
在第三实施例中包括各个组的代表向量的一组向量是一组已经被群集的常规UPV。在各个串的各个代表向量之间的差异向量表示由不同已经被群集的常规UPV生成的向量。因此在各个串的各个代表向量之间的差异向量被称作不同UPV。
该设备利用不同UPV指导内容的匹配处理,并根据匹配处理的结果推荐合适的内容。
在此值得注意的一点是,差异UPV是使用内容向量的平均(常规UPV),表示不代表的优选的向量(无法被计算)。因此差异UPV的使用使得能够推荐用户目前为止还未意识到的这种内容。
以上已经描述了第三实施例的概要,即“利用被群集的一组UPV差异的推荐处理”。
接下来,以下提供了根据本发明第三实施例的信息处理系统或信息处理装置的描述,即以下参照图9和图10描述了用于执行“利用被群集的一组UPV差异的推荐处理”的信息处理系统或信息处理装置。
图9是视图,根据本发明第三实施例表示信息处理系统或信息处理装置的功能配置实例。
换句话说,从图1所示的从用户接口部分11至内容推荐部分23的所有块中提取用于执行“利用被群集的一组UPV差异的推荐处理”所需的块,并且图9是表示这样的情形的视图,其中当执行“利用被群集的一组UPV差异的推荐处理”时根据信息流所排列的块。已经参照图1描述了图9所示的每个块,并且在此省略其描述。
尽管在图9中未示出,但是实际上在连接两个块的每个箭头中,即在两个块之间,提供了图1所示的信息传递部分24。
图10是流程图,用于举例说明“利用被群集的一组UPV差异的推荐处理”的实例。现在参照图10所示流程图描述“利用被群集的一组UPV差异的推荐处理”的实例。
图10中每个步骤S41和S42与上述图3所示的步骤S1至S3基本相同。因此在此省略了在步骤S41和S42中执行的处理的描述。
举个例子,假设,当在步骤S41和S42中加权了N行M列元数据矩阵D时,生成包括用户给出高度评价的内容向量的矩阵A。矩阵A的每个列分量,即,每个内容分量在此以后被描述为ai(i=0,1,…,m-1)。矩阵A由以下公式(3)来表示:
A=(a0,a1,…,am-1)            …(3)
在这种情况中,在步骤S43中,LSA计算部分20通过该公式(3)对元数据矩阵A执行LSA计算。
应当注意的是,根据第三实施例在步骤S43中的处理,在LSA计算间执行第一处理和第二处理。
更具体地说,正如上述公式(1)所指出的,矩阵A通过奇异值分解被分解成三个分量列U,∑和V。
接下来分量列U被压缩至k维,并因此获得投影矩阵UK。投影矩阵UK指的是从具有较大奇异值开始数只有k个片段列分量(列向量)的矩阵,并且其它分量具有0值。
因此矩阵A通过投影矩阵UK被投影到概念空间。合成矩阵在下文中称作,举个例子,矩阵B。在这种情况下,术语“矩阵A由投影矩阵UK被投影到概念空间”指的是根据下列公式(4)执行计算。在公式(4)中,矩阵UK T表示投影矩阵UK的转置矩阵。
B=UK TA                …(4)
矩阵B的每个列分量(内容向量)在下文中被描述为bi(i=0,1,…,m-1)。矩阵B被表示为下列公式(5):
B=(b0,b1,…,bm-1)             …(5)
该列向量bi是压缩至k维的内容向量,即,投影到概念空间的内容向量。
在步骤S43的处理中,获得被投影到概念空间的每个内容向量bi。应当注意的是,投影到概念空间的一组每个内容向量bi,即矩阵B,被称作投影到概念空间的一组内容向量。
然后,在步骤S44,向量计算部分22利用在步骤S43中LSA计算部分20的处理,对投影到概念空间的一组内容向量执行群集。在步骤S44,向量计算部分22利用预先指定的算法,将投影到概念空间的每个内容向量bi分类到给定数目和给定种类的串。
如上所述,用于执行在步骤S44中的处理的向量计算部分22,等于群集部分22。因此在图9中在LSA计算部分20以下示出的向量计算部分22也同样被指示为括号中的群集部分22。
更确切地说,举个例子,在步骤S44中,假定,投影到概念空间的每个内容向量bi都被分类为任意数目的串。
接下来,在步骤S45中,向量计算部分22分别生成各个向量(UPV)。在这种情况下,在步骤S45中,向量计算部分22生成属于对应S个串的串的一个或多个内容向量bi的平均向量,并且平均向量被称作为代表向量(UPV)。
应当注意的是,代表向量在下文中被称作cj’(j=0,1,…,s-1)。
在步骤S46中,向量计算部分22生成不同UPV,其在代表向量之间不同。在步骤S46中,通过计算s个串中的代表向量cj’之间预先指定对代表向量之间的差异,向量计算部分22生成差异UPV。
上述一对串合并的数目根据s个串的数目而变化,并且,当串的数目s是三或者更多时,合并的数目自然是复数。因此,在这种情况中,如果为每对合并生成差异UPV,将生成多个差异UPV。
更确切地说,在这种情况下例如,在步骤S46的处理中,计算下列公式(6)的右边以生成每个向量d’p,q作为每个差异UPV。应当注意的是,在公式(6)中;p,q=0,1,…,s-1。注意,p≠q。
d’p,q=c’p-c’q         …(6)
用于生成差异向量的一对代表向量并不是使用每个合并所需要的,并且可以使用给定数目的给定合并。在任何情况下,在步骤S46中的处理生成一个或多个差异UPV。因此一个或多个差异UPV称作一组差异UPV。在步骤S46中的处理生成一组差异UPV。
此外,在步骤S46的处理中,根据预先指定的规则,向量计算部分22可以对属于一组差异UPV的每个差异UPV进行排序,诸如以概念空间中第一主分量值(与奇异值分解的最高奇异值成对的向量基值)的降序排列。
当生成一组差异UPV时,向量计算部分22报告生成至内容推荐部分23。然后内容推荐部分23需求匹配处理至向量计算部分22,并且处理流向步骤S47。
在步骤S47中,向量计算部分22利用在步骤S46的处理所生成的一组差异UPV,执行内容的匹配处理。
在步骤S47中,向量计算部分22计算属于一组差异UPV和存储在内容存储部分15中的其它内容(内容向量)的各个差异UPV的相似性,选择具有最高相似性的内容(或者具有最高相似性的任何想要数目的内容),并发送所选择的内容至内容推荐部分23。
更确切地说,在这种情况下例如,每个向量d’p,q(p,q=0,1,…,s-1。注意,p≠q)属于一组差异UPV,以便在步骤S47的处理中,关于在对应向量d’p,q和最新发现的内容向量之间的每个p,q(或者从顶部计算的预先指定的数目)的相似性。
不同于向量计算部分22在步骤S44中执行的处理,用于在步骤S47中执行处理的向量计算部分22可以等于匹配部分22。因此向量计算部分22,其在图9所示中内容推荐部分23的右边下一个块,也表示为括号中匹配部分22。
在步骤S48中,内容推荐部分23推荐由向量计算部分22在步骤S47中所选择的一个或多个内容。在步骤S48中,内容推荐部分23经由用户接口部分11展示一个或多个上述内容(或者其元数据或相关信息)给用户。
通过该操作,“利用被群集的不同组的UPV的推荐处理”终止。
以上已经提供了根据本发明第三实施例用于信息处理系统或信息处理装置的描述,即已经参照图9和图10描述了用于执行“利用被群集的一组UPV差异的推荐处理”的信息处理系统或信息处理装置。
在第三实施例中,能够提供下文所述优点。当基于相关技术的技术时,如上所述,UPV是从由用户等等给定评价的内容向量平均生成的。因此具有与UPV高相似性内容与那些已经由用户体验的内容是非常相似的,并且存在这样的问题,用于推荐内容的种类范围狭窄。通过对比,在第三实施例中,根据利用不同UPV的匹配处理结果来推荐内容,以便可以提供这样的优点,在一些程度上允许用于未体验的、以及反射用户优选的内容的推荐。
在第三实施例中这些优点更加明显,不是在使用在元数据空间中的差异UPV时,而是在使用在概念空间中的差异UPV时。以下描述其理由。为了便于理解,根据所需参照图10中流程图所示每个步骤来提供其描述。
在元数据空间投影前,即在步骤S43处理之前,当利用例如,文本中词的出现频率,来生成元数据矩阵D时,矩阵的列分量,即,内容向量的负向量元素(负分量值,下文中描述为负元素)没有任何意义。
因此,在元数据空间中,一组内容向量被群集,并且生成每个群集的代表向量(UPV)。即使当计算代表向量之间差异时,负要素也不能被用作结果差异UPV和内容(内容向量)的匹配处理中的适当信息。
另一方面,在步骤S43处理之后,即,在通过奇异值分解的元数据空间投影结果获得的概念空间中,如上所述,每个内容向量具有负元素。
因此,在概念空间中,当从上述步骤S44至步骤S46处理结果而获得的差异UPV用于步骤S47的匹配处理中时,包括负元素的所有元素都有效。
更确切地说,举个例子,在步骤S44处理中,假定,根据用户优选在概念空间中执行群集,并且表明第一优选的代表向量c1被概念基e1,e2,e3高度加权,而表示第二优选的代表向量c2,其不同于第一优选,被概念基e2,e3,e4高度加权。应当注意的是,为了简化描述,e1至e4的所有的加权值(分量值)都是正的。
概念基的术语参照用于形成概念空间的基,更确切地说,举个例子,参照当元数据矩阵D被根据上述公式(1)奇异值分解时获得的分量矩阵U的每个列分量(列向量)。
在这种情况下,用于概念基e1的高加权的正值和用于概念基e4的高加权的负值保留在向量(c1-c2)中,这是代表向量c1和代表向量c2之间的差异UPV。在概念基e2和概念基e3中,作为高加权值和另一个高加权值之间差异结果,两个加权值是彼此的偏移量,以便加权值的绝对值相比较概念基e1,e4的加权值的每个绝对值而言其值要低得多。
因此,在步骤S47中,可以说,在该概念空间中与差异UPV相匹配的内容具有在投影到概念基e1的元数据中高的权值,并且在负投影到概念基e4元数据中的具有高权值。即使当负投影、与概念基e4相关联的元数据与正投影到概念基e1至e4的元数据有一些联系时,负投影的元数据有可能不与用户已经体验过的内容相联系。因此负投影到概念基e4的元数据也包括在匹配处理的目标中,从而使得推荐作为能够吸引用户的兴趣的这些内容成为可能。
以上所描述的就是与在元数据空间中具有差异UPV的那些相比,为什么根据上述第三实施例的优点在不同概念空间中的差异UPV会变得更加明显的理由。
(第四实施例)
以下描述了本发明的第四实施例。
同样在相关技术中,已经实践了基于用户评价的内容推荐。已经公开了用于利用协同过滤器进行内容推荐、以及用户评价值的技术,举个例子,在P.Resnick,N.Iacovou,M.Suchak,P.Bergstrom,和J.Riedl.的“GroupLens OpenArchitecture for Collaborative Filtering of Newnews。”Conference on ComputerSupported Cooperativ Work,pp.175-186,1994。此外在日本专利公开No.2002-269143中公开了使用LSA和用户评价值的技术。
然而,随着上述技术,仅仅使用了在不同用户评价之间的相似性,并且不考虑由单个用户利用具有相似趋向的内容和评价的内容的时间作出评价的改变。因此,由上述技术推荐的内容并不总是不满足用户的优选。
为了解决上述问题,本发明人发明了第四处理,即上述“LSA的内容评估处理”。
以下描述第四处理。
举个例子,假定,用户体验的若干内容(新内容)增加,并且根据第四实施例的信息处理系统或信息处理装置(在第四实施例的以下描述中简称为设备)随着该增加,通过增加新内容的内容向量至原始元数据矩阵D来更新元数据矩阵D,并且还生成经更新的元数据矩阵D的近似矩阵DK。即假定,近似矩阵DK是经过更新的。
在这种情况下,包括在原始近似矩阵DK中的内容向量的分量改变到在更新的近似矩阵DK中的分量。
为了解决该问题,在第四实施例中,内容向量也具有除元数据之外的用户作为使用基础的评价值,并且从内容向量生成元数据矩阵D。
然后当用户体验的若干内容(新内容)增加,并且同样用户对新内容的评价值被输入时,通过参照用户评价值各个地作为基础来向量化新内容。通过该操作,生成新内容的内容向量。然后,该设备通过增加新内容的内容向量至原元数据矩阵D来更新元数据矩阵D,并生成经更新的元数据矩阵D的近似矩阵DK。即近似矩阵DK被更新。
在这种情况下,如上所述,同样的,用于类似于新内容的现有内容的评价值(对应于经更新的近似矩阵DK的评价值)也根据用于新内容的内容向量的评价值(对应于经更新的元数据矩阵D分量值)来改变。
换句话说,可以说,通过更新近似矩阵DK,设备再评价现有内容(更新现有内容的评价值),以便在其中包括新内容的内容向量。
利用现有内容的再评价,出现这样一种情况,其中不满足推荐给用户参考值的内容评价值在执行LSA之后满足了参考值。在上述情况下,设备能够推荐具有在执行LSA之后不少于参考值评价值的内容,或者类似于该内容的内容给用户。即该设备能够从不针对推荐并且过去被忽略的内容中推荐满足用户当前优选的内容。换句话说,该设备能够实时地响应用于用户优选。
以上描述了第四处理的概况,即“利用LSA的内容再评价处理”。
然后,以下描述根据第四实施例的信息处理系统或信息处理装置,即用于执行“利用LSA进行内容再评价处理”的信息处理系统或信息处理装置。
图11根据第四实施例示出了信息处理系统或信息处理装置的功能配置实例。
换句话说,图1所示的从用户接口部分11至内容推荐部分23的所有块中提取用于执行“利用LSA进行内容再评价处理”所需的块,并且当执行“利用LSA进行内容再评价处理”时,这些块根据信息流来排列。图11表示了这样的情形。已经参照图1描述了图11所示的每个块,并且在此省略其描述。
尽管在图11中未示出,但是在连接两个块的每个箭头中,即在两个块之间,提供了图1所示的信息传递部分24。
图12是流程图,用于举例说明“利用LSA进行内容再评价处理”的实例。现在参照图12所示流程图描述“利用LSA进行内容再评价处理”的实例。
为了便于理解“利用LSA进行内容再评价处理”,根据需要参照图13至图16提供了以下描述。即图13至图16示出了“利用LSA进行内容再评价处理”结果的特定实例。
在此,举个例子,假定,音乐片段被认为是将要处理的内容对象,并且音乐片段的特征被用作图13至图16中的元数据。更确切地说,假定,采用了五个特征“拍子”、“快活”、“节奏”、“音量”、“声音密度”。此外假定,除这五个特征之外,增加音乐片段的用户评价值作为内容向量的基。换句话说,在这种情况下的内容向量具有形式(“拍子”、“快活”、“节奏”、“音量”、“声音密度”和“评价”)。
此外假定,在下列描述中,在过去执行了对于四个音乐片段t1至t4作为处理对象的“利用LSA进行内容再评价处理”,在该处理中生成了图13所示元数据矩阵D0,并且生成在图14所示的近似矩阵D0K,作为利用LSA计算进行对元数据矩阵D0的二维压缩的结果。
如图13所示,元数据矩阵D0是六行四列的矩阵,并包括用于音乐片段t1至t4内容向量作为第一至第四列分量。音乐片段t1的内容向量是(3,4,1,1,1,2)。音乐片段t2的内容向量是(1,1,3,3,1,3)。音乐片段t3的内容向量是(1,1,1,4,3,4)。音乐片段t4的内容向量是(1,1,3,1,2,1)。
此外,如图14所示,近似矩阵D0K是具有六行四列矩阵,并包括如下所述为音乐片段t1至t4所更新的内容向量作为第一至第四列分量。所更新的音乐片段t1的内容向量是(2.9829,3.9135,1.1460,0.9474,1.3666,和1.8780)。所更新的音乐片段t2的内容向量是(1.0413,1.0535,1.8432,3.2809,1.1293,3.2931)。所更新的音乐片段t3的内容向量是(0.9531,0.8869,2.0439,3.7325,1.1950,3.6664)。所更新的音乐片段t4的内容向量是(1.0503,1.2953,0.7850,1.1136,0.6536,1.3586)。
进一步假定,然后用户听取新的音乐片段t5,并通过使用图11所示的用户接口部分11来评价该新的音乐片段t5。在这种情况下,新音乐片段t5的I和评价值被存储在用户简档存储部分12中,并且新音乐片段t5的“拍子”、“快活”、“节奏”、“音量”、“声音密度”被存储在元数据存储部分16中。
此外假定,开始图12所示“利用LSA的内容再评价处理”。
在这种情况下,在步骤S61和S62中执行类似于图3所示步骤S1和S2的处理步骤的处理步骤,并且举个例子,通过矩阵生成部分18生成图15所示元数据D。
更精确地说,生成(4,2,1,1,1,5)作为音乐片段t5的内容向量,并且将音乐片段t5的内容向量增加到图13所示元数据矩阵D0中,以便生成图15所示元数据矩阵D。
如上所述,通过步骤S61和S62的处理,生成六行五列矩阵作为元数据矩阵D,并且所述矩阵包括音乐片段t1至t5的内容向量作为第一至第五列分量。当元数据矩阵D从加权处理部分19提供给LSA计算部分20时,处理流向步骤S63。
再次在图12中,在步骤S63中LSA计算部分20对图15所示元数据矩阵执行LSA计算。
在这种情况下,随着在步骤S63的处理,执行LSA计算中的第一处理和第三处理,并且其结果,举个例子,生成压缩至图16所示二维的近似矩阵DK
换句话说,在上述情况下,作为在步骤S63中处理结果,生成具有六行五列、并且包括如下更新的音乐片段t1至t5内容向量作为第一至第五列的列分量的近似矩阵DK
即,用于更新的音乐片段t1的内容向量是(3.3622,2.9437,0.7306,0.4177,0.9981,2.8258)。用于更新的音乐片段t2的内容向量是(1.0252,0.7929,1.8142,3.2245,1.0748,3.4327)。用于更新的音乐片段t3的内容向量是(1.0908,0.8379,2.0166,3.5988,1.1854,3.7918)。用于更新的音乐片段t4的内容向量是(1.0652,0.9030,0.68 16,1.0083,0.5341,1.6224)。用于更新的音乐片段t5的内容向量是(3.6087,3.1206,1.3746,1.5976,1.3572,3.9869)。
当近似数据矩阵DK从LSA计算部分20提供给内容推荐部分23时,处理流向步骤S64。
在步骤S64中,内容推荐部分23确定内容的评价值。在步骤S65中,内容推荐部分23根据确定结果来推荐内容。通过该操作,终止“利用LSA的内容再评价处理”。
在步骤S64中,对用于确定内容的评价值的技术没有特定限制,并且可以采用各种用于评价的技术。举个例子,当近似矩阵DK中的“评价”分量满足用于每个内容向量的第一至第三条件时,可以确定,可以将对应的内容推荐给用户。此外根据上述确定方法,可以采用这样的技术,其中用户体验的内容恰巧最近没有被推荐,并且鉴于有关时间的用户优选改变度,将高权值给予存储之后具有预先指定时间段的内容。
上述第一条件是,与原元数据矩阵D中对应分量值相比,近似矩阵DK中的“评价”分量值已经变得较大。
第二条件是,与预先指定的阈值相比,近似矩阵DK中的“评价”分量值已经变得较大。
第三条件是,由近似矩阵DK中“评价”分量值计算而来的特征差异,或者近似矩阵DK中评价分量值与原元数据矩阵D中对应分量值之间差异,或者由商计算而来上述差异值,大于预先指定的阈值。
更确切地说,假定,在上述情况中,采用第二条件并且设置值2.5作为阈值。在这种情况中,近似矩阵DK中每个都具有“评价”内容值的内容是音乐片段t1,音乐片段t2,音乐片段t3,和音乐片段t5。因此,在步骤S64中,确定,音乐片段t1,音乐片段t2,音乐片段t3,和音乐片段t5是要推荐的内容,并且在步骤S65中,推荐音乐片段t1,音乐片段t2,音乐片段t3,和音乐片段t5。
在此重要的是下列要点。
当注意力集中到音乐片段t1时,如图13所示,音乐片段t1的原评价值,即“评价”分量值是低于2的值。此外,由于音乐片段t1不类似于音乐片段t2至t4,因此通过LSA计算而更新的、用于音乐片段t1的“评价”分量值是图14所示的1.8780,也低于阈值2.5。因此,在用户听取新的音乐片段t5时,音乐片段t1不被推荐。
然而,在经过该时间点后,用户听取新的音乐片段t5,并给高的评价给新的音乐片段t5。即音乐片段t5的“评价”分量值是一个高值5,并且此外该音乐片段t5并不类似于音乐片段t1至t4中的音乐片段t1。因此,当对图15所示包括该音乐片段t5的元数据矩阵D执行LSA计算时,由于音乐片段t5的高评价值,并且同样基于元数据的相对性(音乐特征),也类似于音乐片段t5的音乐片段t1的“评价”分量值也更新到高值2.8258。因此,由于低评价值而未被推荐(可能由于低值而未推荐)的音乐片段t1能够根据用户最近优选,即由用户对音乐片段t5给出的高评价值,而给推荐给用户。
如上所述,在第四实施例中,更新近似矩阵DK以便包括信内容的内容向量,因而执行现有内容的再评价(评价值的更新)。通过上述操作,在过去未作为要推荐的内容中,即在过去未推荐和忽略的内容中,能够推荐满足当前用户优选的内容。换句话说,能够考虑改变用户优选。
(第五实施例)
接下来,以下描述第五实施例。
如上所述,内容的内容向量是用元数据作为基的向量。当大量元数据用作内容向量的基时,自然地,各种类型、每个属性都不同的元数据常常被混合在一起。举个例子,存在这样一种元数据,其特性未被其它类型元数据影响,并且有许多中情况,其中混合了不同程度地影响其它数据、或被其它数据影响的各种类型的元数据。
然而,在根据常规技术的内容推荐中,元数据属性差异,举个例子,影响其它数据或被其它数据影响的程度,还没有考虑,以至存在这样的问题,适于用户的内容无需被推荐。
举个例子,用于加权元数据的各种类型的算法(加权技术)不适于具有任何给定属性的元数据,并且在绝大多数情况中,适用于具有特定属性的元数据,而不适用于具有另一个属性的元数据。无论如何,已经采用相同的算法以便除属性的这种差异之外,加权到任何类型元数据。当利用如上述加权的元数据来执行内容推荐时,存在这样的问题,该内容对用户不是必须适合。
因此,为了解决这些问题,本发明人发明了上述第五处理,即,“利用LSA和其它技术混合进行推荐处理”。
下面描述第五处理的概要。
如上所述,有这样的情况,其中元数据能够根据其属性被归类为一些类型,并且根据每个类型的元数据的适合的加权算法不同。
在这种情况下,根据第五实施例的信息处理系统或信息处理装置(在第五处理概要描述中简单地描述为设备)对关于每个类型的元数据的匹配中采用的矩阵执行加权处理。
该设备利用上述加权的矩阵来执行内容的匹配处理。通过该操作,可以得到与常规处理相比更加适合的匹配处理。
此外通过将对于算法计算的分量值用2个或更多算法乘以预先指定的商,该设备能够改变权值。
举个例子,在此假定,该内容是电子邮件,和词,发送/接收的时区,发送者/接收者和电子邮件被采用作元数据的地点。在这种情况下,该设备,举个例子,将电子邮件中的词归类为第一类型,而其它三个元素,即,发送/接收的时区,发送者/接收者和地点作为第二类型。
接下来,该设备生成元数据矩阵,并且将元数据矩阵划分成第一子矩阵和第二子矩阵,所述第一子矩阵包括对应第一类型元数据的分量,所述第二子矩阵包括对应第二类型元数据的分量
接下来,该设备通过利用诸如TF/IDF的通用加权算法进行加权来执行,举个例子,对第一子矩阵的加权处理,并通过利用诸如LSA的加权算法进行加权来执行对第二子矩阵的加权处理。应当注意的是,算法的合并并不局限于该实例,任何合并都是自然地可应用的。
然后,该设备合成利用上述不同算法进行加权的第一子矩阵和第二子矩阵,并利用从合成结果(下文中称作近似合成矩阵)获得的矩阵执行匹配处理。
以上已经描述了第五处理的概要,即,“利用LSA和其它技术的混合进行推荐处理”。
包括上述发送/接收时区、发送者/接收者和地点的元数据称作内容。即,内容在此指的是用户的所有内部状态和外部状态。用户的内部状态指的是用户的物理条件,或者情绪(心情或心态)。用户外部状态指的是用户的空间的或暂时的位置(暂时位置指的是,举个例子,当前时间)和分布在空间方向或围绕用户的暂时方向上的预先指定的状态。
接下来,以下根据本发明第五实施例提供了信息处理系统或信息处理装置的描述,即以下参照图17和图18描述了用于执行“利用LSA和其它技术混合的推荐处理”的信息处理系统或信息处理装置。
图17是视图,示出根据第五实施例的信息处理系统或信息处理装置的功能配置实例。
换句话说,从图1所示用户接口部分11至内容推荐部分23的所有块中提取用于执行“利用LSA和其它技术混合的推荐处理”所需的块,并且图17是视图,表示这样的情形,其中当执行“利用LSA和其它技术混合的推荐处理”时根据信息流来安排块。以上参照图1描述了图17中所示的块,并且在此省略了其描述。
尽管在图17中未示出,但事实上在连接两个块的每个箭头中,即在两个块之间,提供了图1所示的信息传递部分24。
图18是流程图,用于举例说明“利用LSA和其它技术混合的推荐处理”的实例。现在参照图18所示流程图描述“利用LSA和其它技术混合的推荐处理”的实例。
在此,举个例子,假定,采用了第一类型的一组元数据M1和第二类型的一组元数据M2,其不同于第一类型,并且一个元数据组M1和元数据组M2能够互相影响,但不可反之。举个例子,给出影响的方向是从元数据组M2朝向元数据组M1的方向。
更确切地说,举个例子,当音乐乐曲是处理内容的目标时,音乐乐曲的特征数量能够被采取作为一组元数据M2,并且分别为用户提供体验内容的语境,包括地点、时间、情形、情绪、等等,能够被采用作为一组元数据M1。这是由于特征数量和语境是不同的特性,显而意见地,同时,该语境能够影响音乐的印象(特征数量),而音乐(特征数量)将不直接影响该语境。
此外还假定,类型的数目s作为归类于一组元数据M1的类型而存在,而类型数目t作为归类于一组元数据M2的类型而存在。数目n个内容作为处理目标而存在。即,元数据数目s+t与n个数目的内容相联系。
在这种情况中,作为在图18所示步骤S81中矩阵生成部分18所处理的结果,生成由下列公式(7)所表达的矩阵A作为元数据矩阵D:
A = m 1 0,0 m 2 0,1 · · · m 1 0 , n - 1 · · m 1 s - 1,0 m 1 s - 1,1 · · · m 1 s - 1 , n - 1 - - - - - - - - - - - - - - - - m 2 0,0 m 2 0,1 · · · m 2 0 , n - 1 · · m 2 t - 1,0 m 2 t - 1,1 · · · m 2 t - 1 , n - 1 = ( Mt 1 Mt 2 ) - - - ( 7 )
在公式(7)中,m1u,v(u=0至s-1,v=0至n-1)是与第v个内容相关的元数据,并且代表在被归类与元数据组M1中、在s种类型的元数据中对应第u个元数据的分量值。此外,m2w,x(w=0至t-1,x=0至n-1)是与第x个内容相关的元数据,并且代表在被归类与元数据组M2中、在t种类型的元数据中对应第w个元数据的分量值。
在步骤S82中,矩阵生成部分18将元数据矩阵划分为两个子矩阵。即,在这种情况下,在步骤S82中,如公式(7)的最右边所表示的,矩阵生成部分18将元数据矩阵划分为子矩阵Mt1和Mt2。
子矩阵Mt1表示包括从矩阵A的顶部算起s行矩阵分量的矩阵,即具有m1u,v(u=0至s-1,v=0至n-1)作为分量值的矩阵。因此子矩阵Mt1是s行n列的矩阵。
与此相反,子矩阵Mt2表示包括从矩阵A的底部算起t行矩阵分量的矩阵,即具有m2w,x(w=0至t-1,x=0至n-1)作为分量值的矩阵。因此子矩阵Mt2是t行n列的矩阵。
在步骤S83中,加权处理部分19执行对两个子矩阵中的每一个的加权。
在步骤S84中,LSA计算部分20对两个空间矩阵中的至少一个执行LSA计算。
在此使用的对空间矩阵进行LSA计算的执行表达式表明,除使得单个对应LSA计算,单个空间矩阵的近似矩阵的生成之外,对元数据矩阵进行LSA计算的执行作为一个整体,以及作为LSA计算结果,在元数据矩阵的近似矩阵中对应于目标空间矩阵的分量的使用。
以下详细描述后面的一种情况。举个例子,在以上所描述的情形中,当对公式(7)所表示的整个元数据矩阵A执行LSA计算时,生成由以下公式(8)所表达的矩阵A’作为元数据矩阵A的近似矩阵。
A , = [ Mt 1 ′ Mt 2 ′ ] = U K Σ K V K T - - - ( 8 )
在这种情况下,当矩阵生成部分18以与步骤S82中的处理完全相同的方式来分类近似矩阵A’时,即当矩阵生成部分18如同在步骤S82中一样分类近似矩阵A’时,在所述步骤S82中,元数据矩阵A被分类为两个空间矩阵Mt1、Mt2,通过公式(8)的表达式来获得这两个空间矩阵Mt1’、Mt2’。
空间矩阵Mt1’是配置为从近似矩阵A’的顶部有s行的矩阵,即具有m1u,v的矩阵,通过LSA计算(u=0至s-1,v=0至n-1)作为分量值来更新其值。因此,空间矩阵Mt1’同样是具有s行n列的矩阵。
相反地,空间矩阵Mt2’是配置为从近似矩阵A’的底部有t行的矩阵,即具有m2w,x的矩阵,通过LSA计算(w=0至t-1,x=0至n-1)作为分量值来更新其值。因此,空间矩阵Mt2’同样是具有t行n列的矩阵。
在这种情况下,举个例子,当空间矩阵Mt1作为步骤S84中处理的对象时,公式(8)所表示的空间矩阵Mt1’是在步骤S84处理中所获得的结果。
换句话说,在步骤S83和S84的处理中,无论是执行奇异值分解的第一加权技术还是不同于第一加权技术的第二加权技术都被分离地选择用于在步骤S82的处理中分类出的第一空间矩阵和第二空间矩阵,所述分类处理是根据元数据组M1和元数据组M2之间相互的影响进行的,并且利用分离选择的加权技术来分离地对第一空间矩阵和第二空间矩阵进行加权。
通过步骤S83和S84中的处理来获得经分离地加权的第一空间矩阵和第二空间矩阵,并将其提供给矩阵生成部分18。然后处理流向步骤S85。
在步骤S85中,通过合成两个空间矩阵,矩阵生成部分18生成近似矩阵。
举个例子,在以上刚刚所描述的情况下,生成由以下公式(9)所表达的矩阵B作为近似合成矩阵。
B = [ Mt 1 ′ Mt 2 ] - - - ( 9 )
在公式(9)中,空间矩阵Mt1’是与以上公式(8)所表示的矩阵相同矩阵。空间Mt2是利用步骤S83中的处理通过加权公式(7)所表达的矩阵而获得的矩阵。
当近似合成矩阵B被提供给内容推荐部分23时,并且从内容推荐部分23发布了用于匹配的请求至向量计算部分22,那么处理流向步骤S86。
在步骤S86中,向量计算部分22通过利用近似合成矩阵B来执行内容匹配处理。更具体地说,举个例子,在步骤S86中,向量计算部分22从近似合成矩阵的列分量,即从内容向量中的、用户高度评价的内容向量,生成UPV。向量计算部分22根据UPV并根据现有内容向量来计算相似性,选择具有最高相似性的内容(或来自具有最高相似性的任何想要数目的内容),并通知内容推荐部分23选择的结果。
然后在步骤S87中,内容推荐部分23推荐来自向量计算部分22所通知的内容。即内容推荐部分23从内容记录部分15获取将要推荐的内容,并将该内容将由用户接口部分11展示。
通过该操作,终止“通过LSA和另一种技术的混合所进行的推荐处理”。
下面进一步描述“通过LSA和另一种技术的混合所进行的推荐处理”。
如上所述,由公式(7)所表示的元数据矩阵A的近似矩阵是由公式(8)来表示的矩阵A’。由于维数压缩到公式(7)所表示的元数据矩阵A,从近似矩阵A’所分类出的两个空间矩阵Mt1’和Mt2’彼此影响。
在此假定,举个例子,在元数据矩阵A的对应行c的内容中,元数据组M1中第i个元数据权值(分量值)m1i,c以及元数据组M2中第j个元数据权值(分量值)m2j,c两者都是大的。即,假定两个元数据具有同现关系。在这种情况下,如果元数据组M1中第i个元数据权值(分量值)以及元数据组M2中第j个元数据权值(分量值)是小的,那么由于基于LSA计算进行奇异值分解的维数压缩的特性,第j个元数据的权值(分量值)被增加。相同的情况是,元数据组M1和元数据组M2之间的关系是与上述情况相反的关系。
当鉴于第一和第二实施例中所描述的词之间的同现关系而进行加权时,元数据组M1和元数据组M2之间的互相影响是有效的,举个例子,当该文档被假定为内容并且词假定为元数据时。
然而,在上述第五实施例所描述的情况下,假定,表现出了元数据组M2对元数据组M1的影响,而没有表现相反方向的影响。在基于上述前提的情况下,仅仅需要利用元数据组M2对元数据组M1的影响。
为了满足上述需要,在第五实施例中,以上公式(9)所表达的近似合成矩阵B被用作加权元数据矩阵。
在公式(9)所表达的近似合成矩阵B中,下部分的空间矩阵Mt2是上述维数压缩之前的元数据矩阵A,即在步骤S83的处理中,通过加权公式(7)所表示的元数据矩阵A获得的矩阵上部分中的空间矩阵。此外由公式(9)所表示的近似合成矩阵B,上部分中的空间矩阵Mt1’是由公式(8)所表达的近似矩阵B的上部分中的空间矩阵。
在公式(9)所表达的近似合成矩阵B中,上部分中的空间矩阵Mt1’是鉴于元数据组M1对元数据组M2的影响而加权的矩阵,而下部分中的空间矩阵Mt2是未经元数据组M1的影响而加权的矩阵。
因此,可以说,近似合成矩阵B是仅仅基于从元数据组M2至元数据组M1的单向影响的考虑的加权元数据近似矩阵。
此外,矩阵生成部分18至计算部分20的每个部分都能够利用TF/IDF等等执行对近似合成矩阵B的下部分空间矩阵Mt2的加权,或者通过进一步划分空间矩阵Mt2来生成子空间矩阵,并执行对每个子空间矩阵的加权。在这种情况下的加权包括奇异值分解的回归应用,以便仅仅实现上述单向影响。
换句话说,在通过加权处理部分19或LSA计算部分20分别地加权第一空间矩阵和第二空间矩阵之前和在生成近似合成矩阵之后,矩阵生成部分18能够进一步分解至少一个第一空间矩阵和第二空间矩阵为2个或多个子空间矩阵。在这种情况中,加权处理部分19或LSA计算部分20能够选择执行奇异值分解的第一加权技术和不同与第一加权技术的第二加权技术中的任何一个来分离两个或多个子空间矩阵中的至少一个,并通过使用所选择的加权技术来执行加权。
以上描述的情况是基于这样的前提,其中仅仅存在从元数据组M1至元数据组M2的单向影响或者相反,但是常常出现的情况是,元数据组M1和元数据组M2彼此是完全独立的,然而在每个元数据组中应当分别考虑同现关系。
在上述情况中,在步骤S84的处理中,LSA计算部分20能够对在步骤S83处理中加权在公式(7)中空间矩阵Mt1和空间矩阵Mt2中的每一个执行奇异值分解。
即,在步骤S84的处理中,LSA计算部分20执行由下列公式(10)和(11)分别表示的奇异值分解。
Mt1=U11V1 T              …(10)
Mt2=U22V2 T              …(11)
此外,通过,如下列公式(12)和(13)所示,分别将空间矩阵Mt1和空间矩阵M2的维数压缩至维数K1和K2,LSA计算部分20能够生成近似空间矩阵Mt1k1和近似空间矩阵Mt2k2
Mt1”k1=U1,k11,k1V1,k1 T          …(12)
Mt2”k2=U2,k22,k2V2,k2 T          …(13)
因此,在步骤S85的处理中,矩阵生成部分18能够生成由下列公式(14)所表示的近似合成矩阵A”。
A ′ ′ = [ Mt 1 ′ ′ k 1 Mt 2 ′ ′ k 2 ] - - - ( 14 )
通过上述操作,提供近似合成矩阵A”作为加权元数据近似矩阵,其中元数据组M1和元数据组M2相互不影响并且在每个组中分别地考虑了同现关系。
以上参照图17和图18描述了根据本发明第五实施例的信息处理系统或信息处理装置,即用于执行“利用LSA和其它技术的混合进行推荐处理”的信息处理系统或信息处理装置。
在第五实施例中,通过分别考虑每个组中的相互关系,能够在每个元数据组M1和元数据组M2中执行加权。此外在第五实施例中,通过仅仅考虑元数据组M2对M1的影响或者元数据组M1对M2的影响,能够执行加权。通过使用上述分别加权的元数据组M1和元数据组M2,能够执行与现有技术的处理相比更适合的匹配处理,并且能够执行与现有技术相比更加适当的内容推荐。
以上描述了本发明的第一至第五实施例。
以上第一至第五实施例中每个实施例中描述的处理序列能够由硬件来执行,但是也可以由软件来执行。
在这种情况下,能够由例如图19中所示的个人计算机来实现图1所示信息处理装置。
在图19中,中央处理单元(CPU)101根据存储在只读存储器(ROM)102中的程序,或者从存储部分108载入到随机访问存储器(RAM)103的程序来执行各种类型的处理。RAM 103也在其中存储CPU 101执行各种类型的处理所需的数据等等。
CPU 101,ROM 102,和RAM 103经由总线104互连。该总线也连接到输入/输出接口105。
连接到该输入/输出接口105的是包括键盘、鼠标、等等的输入部分106,和基于显示单的输出部分,基于硬盘等等的存储部分108,以及基于调制解调器、终端适配器等等的通信部分109。通信部分109经由包括因特网的网络执行与其它信息处理装置的通信。
驱动器110根据需要连接到输入/输出接口105,并且基于磁盘、光盘、磁光盘、或半导体存储器的可移动记录介质111被任意地安装在其中,并且从记录介质111中读出的计算机程序根据需要被安装在存储部分108中。
当由软件来执行系列处理步骤时,构成软件的程序可以合并到计算机的专用硬件中。可替换的是,可以从网络或记录介质上下载用于执行各种功能所需的程序,举个例子,在通用目的个人计算机中。
包括上述程序的记录介质不仅仅是基于磁盘(包括软盘)、光盘(包括CD-ROM(只读光盘存储器))、DVD(数字通用盘)、磁光盘(包括MD(小磁盘))、或半导体存储器的可移动记录介质(分组介质)111,也可以是ROM 102或者包括在存储部分108中的硬盘,其中的每一个都在预先装配在该设备的主体的状态中带有存储其中并提供给用户的程序。
在该说明书中,描述记录在记录介质中的程序的处理步骤可以不总是以按年代先后顺序来执行,并且可以年月日次序分离地执行。
在此使用的词“系统”表明由多个设备或处理部分所形成的整个系统。
尽管已经使用特定术语描述了本发明优选实施例,但是这种描述仅仅由于举例说明,应当理解的是,可以在不脱离以下权利要求的范围和精神的前提下,作出改变和变化。

Claims (8)

1.一种信息处理装置包括:
矩阵生成单元,用于参照与多个内容中的至少一个内容相关的N个(1或更大的整数值)元数据来向量化在多个内容中的M个(1或更大的整数值)内容中的每一个,并生成包括作为向量化的结果获得的M个向量的矩阵作为元数据矩阵的行分量和列分量;
近似矩阵生成单元,用于通过将矩阵生成单元生成的元数据矩阵进行奇异值分解来生成元数据矩阵的近似矩阵;
索引值计算单元,用于根据矩阵生成单元生成的元数据矩阵和近似矩阵生成单元所生成的近似矩阵之间的差异,为N个元数据中的每一个来计算表明对应元数据重要性的索引值;以及
提取单元,用于根据由索引值计算单元计算的N个索引值,从N个元数据中提取至少一个元数据作为具有高重要性或不必要的低重要性的重要元数据。
2.根据权利要求1所述的信息处理装置,
其中所述索引值计算单元连续地分别设置N个元数据作为经标记的元数据,计算表明在近似矩阵中的经标记的元数据的M行或列分量值中的每一个与元数据矩阵中对应分量值之间的差异值,同时也计算经计算的M个差异值之间的平均值或最大值作为表明经标记的元数据的重要性的索引值。
3.根据权利要求1所述的信息处理装置,
其中所述索引值计算单元连续地分别设置N个元数据作为经标记的元数据,计算由用元数据矩阵中对应分量值除以在近似矩阵中表明的经标记的元数据的、M个行或列分量值所获得的商,并计算经计算的M个商之间的平均值或最大值作为表明经标记的元数据的重要性的索引值。
4.根据权利要求1所述的信息处理装置,
推荐单元,用于利用由所述提取单元所提取的所述重要元数据或者在所述N个元数据中排除由所述提取单元提取的所述不必要的元数据之外的元数据,从多个内容中确定一个或多个要推荐给用户的内容;以及
展示单元,用于展示由所述推荐单元决定的所述内容作为那些要推荐给用户的内容。
5.根据权利要求1所述的信息处理装置还包括:
展示单元,用于展示由所述提取单元提取的所述重要的元数据或者所述不必要的元数据给用户。
6.根据权利要求1所述的信息处理装置还包括:
存储单元,用于在其中存储由所述提取单元提取的所述重要元数据或所述不必要元数据。
7.一种信息处理方法包括以下步骤:
参照与多个内容中的至少一个内容相关的N个(1或更大的整数值)元数据来向量化在多个内容中的M个(1或更大的整数值)内容中的每一个,,并生成包括作为向量化的结果获得的M个向量的矩阵作为元数据矩阵的行分量和列分量;
通过将所述矩阵生成步骤生成的元数据矩阵进行奇异值分解来生成元数据矩阵的近似矩阵;
根据矩阵生成步骤生成的元数据矩阵和所述近似矩阵生成步骤所生成的所述近似矩阵之间的差异,为N个元数据中的每一个来计算表明对应元数据重要性的索引值;以及
提取,根据由所述索引值计算步骤计算的N个索引值,从N个元数据中提取至少一个元数据作为具有高重要性或不必要的低重要性的重要元数据。
8.一种由计算机执行的程序,包括以下步骤:
参照与多个内容中的至少一个内容相关的N个(1或更大的整数值)元数据来向量化在多个内容中的M个(1或更大的整数值)内容中的每一个,,并生成包括作为向量化的结果获得的M个向量的矩阵作为元数据矩阵的行分量和列分量;
通过将所述矩阵生成步骤生成的元数据矩阵进行奇异值分解来生成元数据矩阵的近似矩阵;
根据矩阵生成步骤生成的元数据矩阵和所述近似矩阵生成步骤所生成的近似矩阵之间的差异,为N个元数据中的每一个来计算表明对应元数据重要性的索引值;以及
根据由索引值计算单元计算的N个索引值,从N个元数据中提取至少一个元数据作为具有高重要性或不必要的低重要性的重要元数据。
CNA2005101160013A 2004-08-03 2005-08-03 信息处理装置,信息处理方法,和程序 Pending CN1750003A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004226788 2004-08-03
JP2004226788A JP2006048286A (ja) 2004-08-03 2004-08-03 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN1750003A true CN1750003A (zh) 2006-03-22

Family

ID=35801226

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005101160013A Pending CN1750003A (zh) 2004-08-03 2005-08-03 信息处理装置,信息处理方法,和程序

Country Status (3)

Country Link
US (1) US20060036640A1 (zh)
JP (1) JP2006048286A (zh)
CN (1) CN1750003A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101568013B (zh) * 2008-04-22 2011-12-14 索尼株式会社 信息处理设备及方法
CN108919265A (zh) * 2018-07-16 2018-11-30 北京航空航天大学 一种基于互信息量最大的星载TomoSAR空间基线序列设计方法
CN110019957A (zh) * 2017-12-27 2019-07-16 飞狐信息技术(天津)有限公司 一种视频推荐方法及装置
CN110210691A (zh) * 2018-04-27 2019-09-06 腾讯科技(深圳)有限公司 资源推荐方法、装置、存储介质及设备

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060101504A1 (en) * 2004-11-09 2006-05-11 Veveo.Tv, Inc. Method and system for performing searches for television content and channels using a non-intrusive television interface and with reduced text input
US20070266406A1 (en) * 2004-11-09 2007-11-15 Murali Aravamudan Method and system for performing actions using a non-intrusive television with reduced text input
US7895218B2 (en) * 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
US7646886B2 (en) * 2005-05-11 2010-01-12 Lockheed Martin Corporation Closely-spaced multiple targets detection using a regional window as a discriminant function
JP4752623B2 (ja) * 2005-06-16 2011-08-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US7788266B2 (en) 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US8478781B2 (en) 2005-12-05 2013-07-02 Sony Corporation Information processing apparatus, information processing method and program
US7739280B2 (en) 2006-03-06 2010-06-15 Veveo, Inc. Methods and systems for selecting and presenting content based on user preference information extracted from an aggregate preference signature
JP2007241888A (ja) 2006-03-10 2007-09-20 Sony Corp 情報処理装置および方法、並びにプログラム
US20070226207A1 (en) * 2006-03-27 2007-09-27 Yahoo! Inc. System and method for clustering content items from content feeds
US8073860B2 (en) * 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
EP4209927A1 (en) 2006-04-20 2023-07-12 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US8762418B1 (en) * 2006-05-31 2014-06-24 Oracle America, Inc. Metadata that allows refiltering and data reclassification without accessing the data
CA2989780C (en) 2006-09-14 2022-08-09 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7925986B2 (en) 2006-10-06 2011-04-12 Veveo, Inc. Methods and systems for a linear character selection display interface for ambiguous text input
FR2906910B1 (fr) * 2006-10-10 2008-12-26 Criteo Sa Dispositif informatique de correlation propagative
US8078884B2 (en) 2006-11-13 2011-12-13 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
US20080120319A1 (en) 2006-11-21 2008-05-22 International Business Machines Corporation System and method for identifying computer users having files with common attributes
WO2008148012A1 (en) 2007-05-25 2008-12-04 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
JP4360428B2 (ja) * 2007-07-19 2009-11-11 ソニー株式会社 記録装置、記録方法、コンピュータプログラムおよび記録媒体
US20090132264A1 (en) * 2007-11-16 2009-05-21 Wood Mark D Media asset evaluation based on social relationships
US8943539B2 (en) 2007-11-21 2015-01-27 Rovi Guides, Inc. Enabling a friend to remotely modify user data
US8560576B2 (en) * 2007-12-27 2013-10-15 Sap Ag Mass change of master data via templates
JP5166949B2 (ja) * 2008-04-10 2013-03-21 株式会社エヌ・ティ・ティ・ドコモ レコメンド情報生成装置およびレコメンド情報生成方法
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
EP2507758A4 (en) * 2009-12-04 2013-11-27 Ericsson Telefon Ab L M SYSTEM AND METHOD FOR DATA PROTECTION OF USER INFORMATION IN A RECOMMENDATION SYSTEM
JP5564919B2 (ja) * 2009-12-07 2014-08-06 ソニー株式会社 情報処理装置、予測変換方法およびプログラム
US20110191332A1 (en) * 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Updating Locally Cached Content Descriptor Information
JP5234836B2 (ja) * 2010-04-19 2013-07-10 日本電信電話株式会社 コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム
EP2423831A1 (en) * 2010-08-27 2012-02-29 Axel Springer Digital TV Guide GmbH Recommender system with consistent profile application
US20130117147A1 (en) * 2011-11-07 2013-05-09 Nathan J. Ackerman Similarity and Relatedness of Content
JP2013105309A (ja) * 2011-11-14 2013-05-30 Sony Corp 情報処理装置、情報処理方法、及びプログラム
CN104035934B (zh) * 2013-03-06 2019-01-15 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法及装置
US10176260B2 (en) * 2014-02-12 2019-01-08 Regents Of The University Of Minnesota Measuring semantic incongruity within text data
US10521439B2 (en) * 2014-04-04 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, apparatus, and computer program for data mining
JP6690181B2 (ja) * 2015-10-22 2020-04-28 ヤマハ株式会社 楽音評価装置及び評価基準生成装置
JP7006402B2 (ja) * 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
CN112528610B (zh) * 2020-12-09 2023-11-14 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US7464075B2 (en) * 2004-01-05 2008-12-09 Microsoft Corporation Personalization of web page search rankings

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101568013B (zh) * 2008-04-22 2011-12-14 索尼株式会社 信息处理设备及方法
CN110019957A (zh) * 2017-12-27 2019-07-16 飞狐信息技术(天津)有限公司 一种视频推荐方法及装置
CN110210691A (zh) * 2018-04-27 2019-09-06 腾讯科技(深圳)有限公司 资源推荐方法、装置、存储介质及设备
CN110210691B (zh) * 2018-04-27 2024-02-06 腾讯科技(深圳)有限公司 资源推荐方法、装置、存储介质及设备
CN108919265A (zh) * 2018-07-16 2018-11-30 北京航空航天大学 一种基于互信息量最大的星载TomoSAR空间基线序列设计方法
CN108919265B (zh) * 2018-07-16 2022-05-06 北京航空航天大学 一种基于互信息量最大的星载TomoSAR空间基线序列设计方法

Also Published As

Publication number Publication date
JP2006048286A (ja) 2006-02-16
US20060036640A1 (en) 2006-02-16

Similar Documents

Publication Publication Date Title
CN1750003A (zh) 信息处理装置,信息处理方法,和程序
CN1624696A (zh) 信息处理设备、方法及其程序、信息处理系统及其方法
CN1126025C (zh) 窗口显示装置
CN1279477C (zh) 检索关键字分析系统和方法
CN1155906C (zh) 数据处理方法、系统、处理程序及记录媒体
CN1299177C (zh) 数据管理装置、计算机系统及数据处理方法
CN1856788A (zh) 类似率算出装置和类似率算出程序
CN1447261A (zh) 特定要素、字符串向量生成及相似性计算的装置、方法
CN101069177A (zh) 关键字抽取装置
CN101079026A (zh) 文本相似度、词义相似度计算方法和系统及应用系统
CN1947084A (zh) 用于数据输入接口的装置、方法和系统
CN1324045A (zh) 信息推荐装置和信息推荐系统
CN1875345A (zh) 在编译过程中表示和检查程序组件的一致性的可扩展类型系统
CN1126053C (zh) 文件检索方法、文件检索发送方法及装置
CN1707506A (zh) 利用网络提供招募/求职信息及其关联信息的匹配系统
CN1763743A (zh) 图表上的自动标签放置系统和方法
CN1744036A (zh) 报告软件中支持定制图形表示的系统和方法
CN1752963A (zh) 文档信息处理设备、文档信息处理方法及处理程序
CN1912825A (zh) 信息处理装置及其控制方法
CN1400539A (zh) 学习支持系统
CN1897556A (zh) 信息处理设备、信息处理方法和信息处理程序
CN101044484A (zh) 信息处理装置、方法以及程序
CN1834889A (zh) 软件认证系统和软件认证程序及软件认证方法
CN1530855A (zh) 布局系统和布局程序以及布局方法
CN1530856A (zh) 布局系统和布局程序以及布局方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication