CN103412880A - 一种用于确定多媒体资源间隐式关联信息的方法与设备 - Google Patents

一种用于确定多媒体资源间隐式关联信息的方法与设备 Download PDF

Info

Publication number
CN103412880A
CN103412880A CN201310300915XA CN201310300915A CN103412880A CN 103412880 A CN103412880 A CN 103412880A CN 201310300915X A CN201310300915X A CN 201310300915XA CN 201310300915 A CN201310300915 A CN 201310300915A CN 103412880 A CN103412880 A CN 103412880A
Authority
CN
China
Prior art keywords
resource
unit
information
multimedia
implicit expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310300915XA
Other languages
English (en)
Other versions
CN103412880B (zh
Inventor
樊开元
代大攀
姚旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310300915.XA priority Critical patent/CN103412880B/zh
Publication of CN103412880A publication Critical patent/CN103412880A/zh
Application granted granted Critical
Publication of CN103412880B publication Critical patent/CN103412880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于确定多媒体资源之间的隐式关联信息的方法与设备。关联设备根据与多媒体资源相关的一个或多个资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息,并根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息;与现有技术相比,本发明通过解决了基于显式关联信息的推荐对于部分隐含关联关系无法挖掘的问题,提高了所确定的关联信息的准确率,改善了访问用户的使用体验,提高了用户获取信息的效率。

Description

一种用于确定多媒体资源间隐式关联信息的方法与设备
技术领域
本发明涉及互联网领域,尤其涉及一种用于确定多媒体资源之间的隐式关联信息的技术。
背景技术
当前,通常根据两个或多个多媒体资源之间的内容特征或属性特征,确定所述两个或多个多媒体资源之间的关联关系,例如根据两个电影的导演、演员、国别等信息,可以计算两个电影之间的关联关系,进而可以根据这种关联关系,为用户做出相应的推荐。这种关联关系可以称作“显式关联关系”。
然而,仍然存在着部分相关性很强,但是从内容特征或属性特征上基本没有相似点或相似点很难获取的多媒体资源,例如对于动漫,《葫芦娃》与《六神合体》这两部多媒体资源不论从风格、产地、创作者等各个角度都不相似,如果基于内容特征或属性特征,很难建立两者的关联关系,但实际上,二者的受众是同一批90年代出生的人,这两者的相互推荐对于用户来说是可以接受、甚至是优选的。
发明内容
本发明的目的是提供一种用于确定多媒体资源之间的隐式关联信息的方法与设备。
根据本发明的一个方面,提供了一种用于确定多媒体资源之间的隐式关联信息的方法,其中,该方法包括以下步骤:
a获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源;
b根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息;
c根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
根据本发明的另一方面,还提供了一种用于确定多媒体资源之间的隐式关联信息的关联设备,其中,该设备包括:
获取装置,用于获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源;
初始确定装置,用于根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息;
关联确定装置,用于根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
与现有技术相比,本发明通过根据与多媒体资源相关的一个或多个资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息,并根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息;从而解决了基于显式关联信息的推荐对于部分隐含关联关系无法挖掘的问题,提高了所确定的关联信息的准确率,改善了访问用户的使用体验,提高了用户获取信息的效率。
而且,本发明还可以根据所述资源信息单元,并结合该资源信息单元所对应的多个多媒体资源中任两个多媒体资源的隐式相关信息,确定所述任两个多媒体资源之间的单元隐式关联信息;从而提高了所确定的关联信息的准确率,进而改善了访问用户的使用体验,提高了用户获取信息的效率。
而且,本发明还可以获取与多媒体资源相关的一个或多个候选资源信息单元,根据所述候选资源信息单元,结合所述候选资源信息单元所对应的候选单元属性信息,对所述候选资源信息单元进行聚类处理,并根据所述聚类处理的聚类结果,获取与所述聚类结果相对应的一个或多个资源信息单元;进一步地,本发明还可以根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,结合所述资源信息单元所对应的单元属性信息,确定多媒体资源之间的隐式关联信息;从而对所述资源信息单元进行聚类筛选,使得根据所述聚类后的资源信息单元所获得的隐式关联信息的关联度更高,准确率更高,进而改善了访问用户的使用体验,提高了用户获取信息的效率。
而且,本发明还可以根据所述一个或多个资源信息单元,结合所述资源信息单元所对应的单元属性信息,对所述资源信息单元进行聚类处理,并根据所述聚类处理的聚类结果,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息;从而对对所述资源信息单元进行聚类筛选,使得根据所述聚类后的资源信息单元所获得的隐式关联信息的关联度更高,准确率更高,进而改善了访问用户的使用体验,提高了用户获取信息的效率。
而且,本发明还可以获取访问用户的访问请求,根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息;进一步地,所述访问请求还可以对应一个或多个访问页面信息,并根据所述访问页面信息,确定与所述访问页面信息相对应的至少一个多媒体资源,以作为与所述访问请求相对应的至少一个多媒体资源;进一步地,还可以根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个候选推荐资源信息,根据所述候选推荐资源信息,确定与所述访问请求相对应的优选推荐资源信息;更进一步地,还可以根据所述候选推荐资源信息,结合所述访问用户所对应的用户属性信息,确定与所述访问请求相对应的优选推荐资源信息;从而实现了根据所述隐式关联信息,为所述访问用户进行适当的推荐,改善了访问用户的使用体验,提高了用户获取信息的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于确定多媒体资源之间的隐式关联信息的关联设备示意图;
图2示出根据本发明一个优选实施例的一种用于确定多媒体资源之间的隐式关联信息的关联设备示意图;
图3示出根据本发明另一个方面的一种用于确定多媒体资源之间的隐式关联信息的方法流程图;
图4示出根据本发明一个优选实施例的一种用于确定多媒体资源之间的隐式关联信息的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种用于确定多媒体资源之间的隐式关联信息的关联设备示意图;其中,所述关联设备包括获取装置1、初始确定装置2、关联确定装置3。具体地,所述获取装置1获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源;初始确定装置2根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息;关联确定装置3根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
在此,所述关联设备包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA、游戏机、或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解,其他的关联设备同样适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求,进行资源信息单元的获取、单元隐式关联信息的确定、隐式关联信息的确定等,直至所述关联设备停止获取与多媒体资源相关的一个或多个资源信息单元。
其中,所述隐式关联信息是相对于所述“显式关联关系”而言的,与“通过根据两个或多个多媒体资源之间的内容特征或属性特征,确定所述两个或多个多媒体资源之间的关联关系”的“显式关联关系”相比,所述隐式关联关系通过对与多媒体资源相关的一个或多个资源信息单元进行挖掘,从而确定的两部或多部多媒体资源之间的关联关系。例如,对于动漫《葫芦娃》与《六神合体》这两部作品,不论从风格、产地、创作者等各个角度都不相似,基于内容特征或属性特征的显示关联关系很难建立二者的相关性,但实际上,二者的受众是同一批90年代出生的人,这些受众的日志与评论文本中这两部作品同时出现的概率很高,因此,所述《葫芦娃》与《六神合体》这两部作品间存在着隐式关联关系。
所述获取装置1获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源。
具体地,所述获取装置1根据各种通信协议(CommunicationsProtocol),通过各类数据传输接口,与存储或提供所述资源信息单元的一个或多个数据库或其他第三方设备相交互,以提取存储着所述资源信息单元的数据库中所存储的一个或多个资源信息单元,或者直接获取整个存储所述资源信息单元的数据库,从而获取所述数据库中所包含的全部资源信息单元;或者所述获取装置1还可以通过网络爬取的方式,在例如指定的垂直网站(如日志网站、影评网站等)进行爬取后,获取所述一个或多个资源信息单元,或者通过爬取后获得一个或多个存储所述资源信息单元的数据库,进而从所述数据库中获取一个或多个资源信息单元。其中,所述资源信息单元与多媒体资源相关,每个资源信息单元对应于多个多媒体资源。
其中,所述资源信息单元包括但不限于文本信息单元(如一段文字信息、出现在同一页面上的多段文字信息、隔页的同一篇文章信息、)、图片信息单元(如在同一页面出现的若干张图片,所述图片的信息中包括但不限于图片名称、图片简介、图片标签信息等)、文本与图片的混合信息单元、其他信息单元(如BBS或论坛中的某主题帖及与所述主题帖相关联的各个回复,或者如同一页面上出现的两个或多个视频信息,或视频、文本、图片等的混合信息)等。
其中,所述多媒体资源包括但不限于视频、音频、图片、文本、其他多媒体资源等,例如电影、电视剧、小说、画集、动画、漫画、各种图书等。
其中,所述多媒体资源包括但不限于根据多媒体资源的名称所确定的多媒体资源,或者根据与所述多媒体资源相对应的属性信息所确定的多媒体资源,例如通过对所述多媒体资源相关联的演员和/或导演等信息,确定与所述演员和/或导演所对应的多媒体资源。
其中,所述“每个资源信息单元对应于多个多媒体资源”例如文本信息单元中包含多个多媒体资源的名称、或者图片信息单元中包含对应于多个多媒体资源的图片等。
在此,在所述资源信息单元中识别所述多媒体资源的方式包括但不限于基于预定的关键词挖掘资源信息单元中的关键字(如基于预定的关键词表对文本信息中的文本进行匹配);或者根据所述关键字进行分析,从而将与所述多媒体相对应的属性信息映射成所述多媒体资源,或与所述多媒体资源相匹配;或者使用训练好的分类器进行识别,例如,对于文本信息单元类型的资源信息单元,将所述文本信息进行切词,生成一个或多个分词级别的特征向量,将所述一个或多个特征向量映射至训练好的分类器中(所述分类器中包含训练文本以及与所述训练文本相对应的训练多媒体资源,所述训练多媒体资源与所述训练文本相对应),所述特征向量与所述分类器中的训练多媒体资源相对应,从而对所述特征向量以及所述特征向量所映射的训练多媒体资源进行相似度计算,选择所述相似度大于或等于一定阈值范围的N个特征向量,将所述特征向量所对应的训练多媒体资源在所述文本信息单元中进行匹配,若能够匹配,则所述资源信息单元中包含与所述训练多媒体资源对应的多媒体资源。
初始确定装置2根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息。
具体地,所述初始确定装置2根据所述获取装置1所获取的所述资源信息单元,以及根据所述资源信息单元中所对应的多个多媒体资源,为所述多个多媒体资源中任两个多媒体资源之间确定单元隐式关联信息。
例如,所述获取装置1获取的资源信息单元中,对应3个多媒体资源A/B/C,则所述初始确定装置2为AB、AC、BC分别建立关联关系,并作为所述资源信息单元所对应的单元隐式关联信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息的方式,均应包含在本发明的范围内。
关联确定装置3根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
具体地,所述关联确定装置3根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,通过通过利用矩阵的方式,将多个资源信息单元所对应的单元隐式关联信息进行合并,进一步地,还可以根据不同的资源信息单元所对应的权重进行加权合并,从而确定所述隐式关联信息。其中,所述资源信息单元所对应的权重可以根据所述资源信息单元的属性,如文本长度、资源信息单元的类型(如文本类型、图片类型、混合类型等)、资源信息单元的来源等进行确定。
例如,第一资源信息单元对应3个多媒体资源A/B/C(在此,所述对应例如在所述第一资源信息单元中出现了多媒体资源A、B、C的名字),则所述第一资源信息单元的单元隐式关联关系为AB、AC、BC;第二资源信息单元对应3个多媒体资源B/C/D,则所述第二资源信息单元的单元隐式关联关系为BC、BD、CD;第三资源信息单元对应2个多媒体资源A/B,则所述第三资源信息单元的单元隐式关联关系为AB;第一/第二/第三资源信息单元所对应的权重均为1,则所述关联确定装置3所确定的多媒体资源之间的隐式关联信息为AB(权重为2)、AC(权重为1)、BC(权重为2)、BD(权重为1)、CD(权重为1)。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息的方式,均应包含在本发明的范围内。
优选地,所述初始确定装置2可以根据所述资源信息单元,并结合该资源信息单元所对应的多个多媒体资源中任两个多媒体资源的隐式相关信息,确定所述任两个多媒体资源之间的单元隐式关联信息。
具体地,所述初始确定装置2根据所述获取装置1所获取的所述资源信息单元,以及根据所述资源信息单元中所对应的多个多媒体资源,以及所述多个多媒体资源中,任两个多媒体资源的隐式相关信息,为所述多个多媒体资源中任两个多媒体资源之间确定单元隐式关联信息。
在此,可以根据所述隐式相关信息,确定所述单元隐式关联信息的权重信息;也可以根据所述隐式相关信息,通过例如结合预定的判断阈值,确定是否将所述资源信息单元中的多媒体资源计算为所述单元隐式关联信息。
更优选地,所述隐式相关信息包括以下至少任一项:
-所述任两个多媒体资源的最短距离信息;例如,在所述资源信息单元中,如文本信息单元中,两个多媒体资源之间超过N个行间距和/或M个字间距则认为没有两者之间不存在单元隐式关联信息;或者,当两个多媒体资源之间距离相近(如小于N个行间距和/或M个字间距,在主题帖及回复中的距离小于K个回复)时,则两者的单元隐式关联信息所对应的权重信息值较高等;
-所述任两个多媒体资源的交互呈现频次信息;例如,在所述资源信息单元中,当多媒体资源A与B呈现ABABAB等形式的交互共现时,认为所述多媒体资源AB具有单元隐式关联关系,进一步地,还可以根据AB的交互共现频率确定AB的单元隐式关联信息所对应的权重信息值;而若呈现AAAAACCCCBBBB等形式的交互共现时,则认为AB之间不存在关联关系,或关联关系较弱等;
-所述任两个多媒体资源的最少共现频次信息;例如,在某一资源信息单元中,多媒体资源A在所述资源信息单元中出现5次,多媒体资源B在同一个资源信息单元中出现10次,则AB两者的最少共现频次为5,根据频次5计算两者的单元隐式关联信息;在另一资源信息单元中,多媒体资源C在所述另一资源信息单元中出现7次,多媒体资源D在所述另一资源信息单元中出现7次,则CD两者的最少共现频次为7,根据频次7计算两者的单元隐式关联信息;由于多媒体资源CD的最少共现频次大于所述多媒体资源AB的最少共现频次,所以,所述多媒体资源CD之间的关联关系要强于所述多媒体资源AB之间的关联关系。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何可以用于确定所述任两个多媒体资源之间的单元隐式关联信息的隐式相关信息,均应包含在本发明的范围内。
优选地,所述获取装置1可以获取与多媒体资源相关的一个或多个候选资源信息单元,其中,每个候选资源信息单元对应于多个多媒体资源;根据所述候选资源信息单元,结合所述候选资源信息单元所对应的候选单元属性信息,对所述候选资源信息单元进行聚类处理;根据所述聚类处理的聚类结果,获取与所述聚类结果相对应的一个或多个资源信息单元。
具体地,所述获取装置1根据各种通信协议(CommunicationsProtocol),通过各类数据传输接口,与存储或提供所述候选资源信息单元的一个或多个数据库或其他第三方设备相交互,以获取与多媒体资源相关的一个或多个候选资源信息单元;或者所述获取装置1通过网络爬取的方式,获取与多媒体资源相关的一个或多个候选资源信息单元。
在此,所述获取装置1获取所述候选资源信息单元的方式与图1中所述获取装置1获取资源信息单元的方式的方式相同或相似,故在此不再赘述,并通过引用的方式包含于此。
在此,每个候选资源信息单元对应于多个多媒体资源,所述候选资源信息单元与所述图1中所述获取装置1所获取的资源信息单元相同或相似,故在此不再赘述,并通过引用的方式包含于此。
所述获取装置1根据所述候选资源信息单元,通过基于所述候选资源信息单元所对应的候选单元属性信息,对所述候选资源信息单元进行聚类处理。
其中,所述候选单元属性信息可以通过与存储所述候选资源信息单元的数据库相交互所获取,或者通过对所述候选资源信息单元进行分析后获取等。
其中,所述候选单元属性信息包括但不限于如候选资源信息单元的来源(如来自特定的垂直网站(如各类博客、论坛、BBS等)、特定的数据库等)、所述候选资源信息单元的类别(如文本、图片、图文混排等)、所述候选资源信息单元的大小(如文本中所包含的字节的多少)、所述候选资源信息单元的标签信息(如日志的tag信息,例如tag信息为“80后”)等。
所述获取装置1对所述候选资源信息单元进行聚类后(例如,根据所述候选资源信息单元的来源,将来自同一来源,或者同一类来源的候选资源信息单元进行聚类),所述获取装置1根据所述聚类处理的聚类结果,将同一聚类下的候选资源信息单元作为与所述聚类结果相对应的一个或多个资源信息单元;或者,所述获取装置1还可以根据所述聚类结果,例如仅当某一聚类结果中的候选资源信息单元大于预定的阈值M,则将所述聚类结果中的多个候选资源信息单元作为所述资源信息单元。从而,在初始确定装置2与关联确定装置3中,对不同聚类结果下的资源信息单元进行分别处理,从而所获取的隐式关联信息也与所述聚类结果相对应。
更优选地,所述关联确定装置3可以根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,结合所述资源信息单元所对应的单元属性信息,确定多媒体资源之间的隐式关联信息。
具体地,所述关联确定装置3可以根据所述一个或多个资源信息单元,以及所述初始确定装置2中所确定的每个资源信息单元所对应的所述单元隐式关联信息,通过结合所述资源信息单元所对应的单元属性信息,例如通过根据所述单元属性信息,确定所述资源信息单元所对应的单元隐式关联信息的权重信息等方式,以确定多媒体资源之间的隐式关联信息。
在此,所述资源信息单元所对应的单元属性信息,与所述资源信息单元所对应的候选资源信息单元所对应的候选单元属性信息相同或相似。例如,某候选资源信息单元所对应的候选单元属性信息为“来源于tieba.baidu.com”,通过所述获取装置1进行聚类后,该候选资源信息单元与其他的具有“来源于tieba.baidu.com”的候选资源信息单元聚类为一类,则所述获取装置1将该候选资源信息单元确定为资源信息单元,所述资源信息单元的单元属性信息为“来源于tieba.baidu.com”。在所述关联确定装置3中,所述关联确定装置3根据所述单元属性信息“来源于tieba.baidu.com”,以及所述资源信息单元所对应的单元隐式关联信息,确定多媒体资源之间的隐式关联信息;进一步地,所述资源信息单元的单元属性信息还可以进一步细化为“来源于http://tieba.baidu.com/f/fdir?fd=%C9%FA%BB%EE&sd=%B3%E8%CE%EF”即贴吧中的“宠物”分类,从而通过例如根据不同的更细粒度的单元属性信息,确定所述资源信息单元所对应的单元隐式关联信息的权重信息等方式,以确定多媒体资源之间的隐式关联信息。
其中,所述单元属性信息包括但不限于所述资源信息单元的来源(如来自特定的垂直网站(如各类博客、论坛、BBS等)、特定的数据库等)、所述资源信息单元的类别(如文本、图片、图文混排等)、所述资源信息单元的大小(如文本中所包含的字节的多少)、所述资源信息单元的标签信息(如日志的tag信息,例如tag信息为“80后”)等。
在此,本领域技术人员应能理解,所述关联确定装置3中所处理的用于确定多媒体资源之间的隐式关联信息的一个或多个资源信息单元,在获取装置1的聚类中,可以属于同一聚类,也可以属于不同的聚类。例如,如所述初始确定装置2和/或所述关联确定装置3仅对所述获取装置1聚类后的单一聚类类别所对应的资源信息单元进行处理时,则所述关联确定装置3中所处理的资源信息单元属于同一聚类;若所述初始确定装置2和/或所述关联确定装置3仅对所述获取装置1聚类后的多个聚类类别分别处理时,则所述关联确定装置3中所处理的资源信息单元可以属于不同聚类。
优选地,所述关联确定装置3可以根据所述一个或多个资源信息单元,结合所述资源信息单元所对应的单元属性信息,对所述资源信息单元进行聚类处理;根据所述聚类处理的聚类结果,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
具体地,所述关联确定装置3可以通过与存储所述资源信息单元的数据库相交互获取,或者通过对所述资源信息单元进行分析后获取所述资源信息单元所对应的单元属性信息;所述关联确定装置3根据所述单元属性信息,对所述资源信息单元进行聚类处理,从而获取与所述单元属性信息相对应的一个或多个聚类结果,从而也可以在所述关联确定装置3中进行聚类的处理。
其中,所述单元属性信息包括但不限于所述资源信息单元的来源(如来自特定的垂直网站(如各类博客、论坛、BBS等)、特定的数据库等)、所述资源信息单元的类别(如文本、图片、图文混排等)、所述资源信息单元的大小(如文本中所包含的字节的多少)、所述资源信息单元的标签信息(如日志的tag信息,例如tag信息为“80后”)等。
所述关联确定装置3根据所述聚类处理的聚类结果,例如,对不同的聚类所对应的资源信息单元设置不同的权值等方式,以及根据每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
图2示出根据本发明一个优选实施例的一种用于确定多媒体资源之间的隐式关联信息的关联设备示意图;其中,所述关联设备包括获取装置1’、初始确定装置2’、关联确定装置3’、请求获取装置4’、推荐确定装置5’。具体地,所述获取装置1’获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源;初始确定装置2’根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息;关联确定装置3’根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息;请求获取装置4’获取访问用户的访问请求,其中,所述访问请求对应至少一个多媒体资源;推荐确定装置5’根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息。其中,所述获取装置1’、初始确定装置2’、关联确定装置3’与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求,进行资源信息单元的获取、单元隐式关联信息的确定、隐式关联信息的确定、访问请求的获取、推荐资源信息的确定等,直至所述关联设备停止获取与多媒体资源相关的一个或多个资源信息单元。
请求获取装置4’获取访问用户的访问请求,其中,所述访问请求对应至少一个多媒体资源。
具体地,所述请求获取装置4’通过直接与访问用户交互,获取用户通过点击、输入、语音输入、触摸操作等方式所输入的访问请求,或者根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述访问请求的数据库或其他第三方设备相交互,获取所述访问用户的访问请求。其中,所述访问请求包括但不限于搜索请求、浏览请求等。
其中,所述访问请求对应至少一个多媒体资源,即所述访问请求所包含的字符串中包含一个或多个多媒体资源,或者所述访问请求所对应的页面信息中包含一个或多个多媒体资源。
推荐确定装置5’根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息。
具体地,所述推荐确定装置5’根据所述访问请求,以及所述访问请求中所对应的至少一个多媒体资源,通过结合所述关联确定装置3’中所确定的隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息。
例如,下述A、B、C、D均为多媒体资源,所述访问请求中包含多媒体资源A,所述隐式关联信息中,包含AB、AC、AD的关联关系,则所述推荐确定装置5’将多媒体资源B、C、D确定为与所述访问请求相对应的一个或多个推荐资源信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息的方式,均应包含在本发明的范围内。
优选地,所述请求获取装置4’可以获取访问用户的访问请求,其中,所述访问请求对应一个或多个访问页面信息;根据所述访问页面信息,确定与所述访问页面信息相对应的至少一个多媒体资源,以作为与所述访问请求相对应的至少一个多媒体资源。
具体地,所述请求获取装置4’通过直接与访问用户交互,获取用户通过点击、输入、语音输入、触摸操作等方式所输入的访问请求,或者根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述访问请求的数据库或其他第三方设备相交互,获取所述访问用户的访问请求。其中,所述访问请求对应一个或多个访问页面信息。
所述请求获取装置4’通过获取与所述访问请求相对应的访问页面信息,通过基于预定的关键词挖掘所述访问页面信息中的关键字(如基于预定的关键词表对文本信息中的文本进行匹配);或者根据所述关键字进行分析,从而将与所述多媒体相对应的属性信息映射成所述多媒体资源,或与所述多媒体资源相匹配;或者使用训练好的分类器进行识别,从而确定与所述访问页面信息相对应的至少一个多媒体资源,以作为与所述访问请求相对应的至少一个多媒体资源。
优选地,所述推荐确定装置5’包括候选确定单元(未示出)和优选确定单元(未示出),其中,所述候选确定单元根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个候选推荐资源信息;优选确定单元根据所述候选推荐资源信息,确定与所述访问请求相对应的优选推荐资源信息。
具体地,所述候选确定单元根据所述访问请求,以及所述访问请求中所对应的至少一个多媒体资源,通过结合所述关联确定装置3’中所确定的隐式关联信息,确定与所述访问请求相对应的一个或多个候选推荐资源信息。其中,确定所述候选推荐资源信息的方法与图2中所述推荐确定装置5’中确定所述推荐资源信息的方法相同或相似,故在此不再赘述,并通过引用的方式包含于此。
所述优选确定单元根据所述候选推荐资源信息,通过例如根据所述候选推荐资源信息所对应的权重信息,对所述候选推荐资源信息进行排序,从而将排序后的候选推荐资源信息作为与所述访问请求相对应的优选推荐资源信息;或者例如根据所述候选推荐资源信息所对应的权重信息,筛选出预定数目的候选推荐资源信息(例如选择最高的3个),作为与所述访问请求相对应的优选推荐资源信息;或者例如将所述一个或多个候选推荐资源信息进行剪辑拼接,如将多个候选推荐资源信息所对应的内容摘要信息作为一个推荐专题提供给所述访问用户,则所述推荐专题即为与所述访问请求相对应的优选推荐资源信息;或者根据所述候选推荐资源信息,将与所述候选推荐资源信息相关联的内容进行拼接,从而将拼接后的完整的候选推荐资源信息作为与所述访问请求相对应的优选推荐资源信息,例如,所述候选推荐资源信息仅包含资源的名称,则所述优选确定单元将该资源的图片、内容摘要、其他描述信息等,与所述资源的名称进行拼接后,作为与所述访问请求相对应的优选推荐资源信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述候选推荐资源信息,确定与所述访问请求相对应的优选推荐资源信息的方式,均应包含在本发明的范围内。
更优选地,所述优选确定单元可以根据所述候选推荐资源信息,结合所述访问用户所对应的用户属性信息,确定与所述访问请求相对应的优选推荐资源信息。
具体地,所述优选确定单元可以根据所述候选推荐资源信息,结合所述访问用户所对应的用户属性信息,例如,当所述用户属性信息中显示生日为1985时,则认为所述访问用户属于“80后”,因此将带有“80后”标签或者相应属性的候选推荐资源信息作为与所述访问请求相对应的优选推荐资源信息。
其中,所述用户属性信息包括但不限于所述访问用户的用户个人信息(如性别、年龄、学历等),用户兴趣爱好信息、用户的访问来源(如用户从特定的垂直网站访问等)、用户的位置信息(如根据IP或注册地所获取的位置信息)等中的一种或多种。
图3示出根据本发明另一个方面的一种用于确定多媒体资源之间的隐式关联信息的方法流程图。具体地,在步骤s1中,所述关联设备获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源;在步骤s2中,所述关联设备根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息;在步骤s3中,所述关联设备根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求,进行资源信息单元的获取、单元隐式关联信息的确定、隐式关联信息的确定等,直至所述关联设备停止获取与多媒体资源相关的一个或多个资源信息单元。
其中,所述隐式关联信息是相对于所述“显式关联关系”而言的,与“通过根据两个或多个多媒体资源之间的内容特征或属性特征,确定所述两个或多个多媒体资源之间的关联关系”的“显式关联关系”相比,所述隐式关联关系通过对与多媒体资源相关的一个或多个资源信息单元进行挖掘,从而确定的两部或多部多媒体资源之间的关联关系。例如,对于动漫《葫芦娃》与《六神合体》这两部作品,不论从风格、产地、创作者等各个角度都不相似,基于内容特征或属性特征的显示关联关系很难建立二者的相关性,但实际上,二者的受众是同一批90年代出生的人,这些受众的日志与评论文本中这两部作品同时出现的概率很高,因此,所述《葫芦娃》与《六神合体》这两部作品间存在着隐式关联关系。
在步骤s1中,所述关联设备获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源。
具体地,在步骤s1中,所述关联设备根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述资源信息单元的一个或多个数据库或其他第三方设备相交互,以提取存储着所述资源信息单元的数据库中所存储的一个或多个资源信息单元,或者直接获取整个存储所述资源信息单元的数据库,从而获取所述数据库中所包含的全部资源信息单元;或者在步骤s1中,所述关联设备还可以通过网络爬取的方式,在例如指定的垂直网站(如日志网站、影评网站等)进行爬取后,获取所述一个或多个资源信息单元,或者通过爬取后获得一个或多个存储所述资源信息单元的数据库,进而从所述数据库中获取一个或多个资源信息单元。其中,所述资源信息单元与多媒体资源相关,每个资源信息单元对应于多个多媒体资源。
其中,所述资源信息单元包括但不限于文本信息单元(如一段文字信息、出现在同一页面上的多段文字信息、隔页的同一篇文章信息、)、图片信息单元(如在同一页面出现的若干张图片,所述图片的信息中包括但不限于图片名称、图片简介、图片标签信息等)、文本与图片的混合信息单元、其他信息单元(如BBS或论坛中的某主题帖及与所述主题帖相关联的各个回复,或者如同一页面上出现的两个或多个视频信息,或视频、文本、图片等的混合信息)等。
其中,所述多媒体资源包括但不限于视频、音频、图片、文本、其他多媒体资源等,例如电影、电视剧、小说、画集、动画、漫画、各种图书等。
其中,所述多媒体资源包括但不限于根据多媒体资源的名称所确定的多媒体资源,或者根据与所述多媒体资源相对应的属性信息所确定的多媒体资源,例如通过对所述多媒体资源相关联的演员和/或导演等信息,确定与所述演员和/或导演所对应的多媒体资源。
其中,所述“每个资源信息单元对应于多个多媒体资源”例如文本信息单元中包含多个多媒体资源的名称、或者图片信息单元中包含对应于多个多媒体资源的图片等。
在此,在所述资源信息单元中识别所述多媒体资源的方式包括但不限于基于预定的关键词挖掘资源信息单元中的关键字(如基于预定的关键词表对文本信息中的文本进行匹配);或者根据所述关键字进行分析,从而将与所述多媒体相对应的属性信息映射成所述多媒体资源,或与所述多媒体资源相匹配;或者使用训练好的分类器进行识别,例如,对于文本信息单元类型的资源信息单元,将所述文本信息进行切词,生成一个或多个分词级别的特征向量,将所述一个或多个特征向量映射至训练好的分类器中(所述分类器中包含训练文本以及与所述训练文本相对应的训练多媒体资源,所述训练多媒体资源与所述训练文本相对应),所述特征向量与所述分类器中的训练多媒体资源相对应,从而对所述特征向量以及所述特征向量所映射的训练多媒体资源进行相似度计算,选择所述相似度大于或等于一定阈值范围的N个特征向量,将所述特征向量所对应的训练多媒体资源在所述文本信息单元中进行匹配,若能够匹配,则所述资源信息单元中包含与所述训练多媒体资源对应的多媒体资源。
在步骤s2中,所述关联设备根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息。
具体地,在步骤s2中,所述关联设备根据所述步骤s1中所获取的所述资源信息单元,以及根据所述资源信息单元中所对应的多个多媒体资源,为所述多个多媒体资源中任两个多媒体资源之间确定单元隐式关联信息。
例如,在步骤s1中,所述关联设备获取的资源信息单元对应3个多媒体资源A/B/C,则在步骤s2中,所述关联设备为AB、AC、BC分别建立关联关系,并作为所述资源信息单元所对应的单元隐式关联信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息的方式,均应包含在本发明的范围内。
在步骤s3中,所述关联设备根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
具体地,在步骤s3中,所述关联设备根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,通过通过利用矩阵的方式,将多个资源信息单元所对应的单元隐式关联信息进行合并,进一步地,还可以根据不同的资源信息单元所对应的权重进行加权合并,从而确定所述隐式关联信息。其中,所述资源信息单元所对应的权重可以根据所述资源信息单元的属性,如文本长度、资源信息单元的类型(如文本类型、图片类型、混合类型等)、资源信息单元的来源等进行确定。
例如,第一资源信息单元对应3个多媒体资源A/B/C(在此,所述对应例如在所述第一资源信息单元中出现了多媒体资源A、B、C的名字),则所述第一资源信息单元的单元隐式关联关系为AB、AC、BC;第二资源信息单元对应3个多媒体资源B/C/D,则所述第二资源信息单元的单元隐式关联关系为BC、BD、CD;第三资源信息单元对应2个多媒体资源A/B,则所述第三资源信息单元的单元隐式关联关系为AB;第一/第二/第三资源信息单元所对应的权重均为1,则在步骤s3中,所述关联设备所确定的多媒体资源之间的隐式关联信息为AB(权重为2)、AC(权重为1)、BC(权重为2)、BD(权重为1)、CD(权重为1)。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息的方式,均应包含在本发明的范围内。
优选地,在步骤s2中,所述关联设备可以根据所述资源信息单元,并结合该资源信息单元所对应的多个多媒体资源中任两个多媒体资源的隐式相关信息,确定所述任两个多媒体资源之间的单元隐式关联信息。
具体地,在步骤s2中,所述关联设备根据所述步骤s1所获取的所述资源信息单元,以及根据所述资源信息单元中所对应的多个多媒体资源,以及所述多个多媒体资源中,任两个多媒体资源的隐式相关信息,为所述多个多媒体资源中任两个多媒体资源之间确定单元隐式关联信息。
在此,可以根据所述隐式相关信息,确定所述单元隐式关联信息的权重信息;也可以根据所述隐式相关信息,通过例如结合预定的判断阈值,确定是否将所述资源信息单元中的多媒体资源计算为所述单元隐式关联信息。
更优选地,所述隐式相关信息包括以下至少任一项:
-所述任两个多媒体资源的最短距离信息;例如,在所述资源信息单元中,如文本信息单元中,两个多媒体资源之间超过N个行间距和/或M个字间距则认为没有两者之间不存在单元隐式关联信息;或者,当两个多媒体资源之间距离相近(如小于N个行间距和/或M个字间距,在主题帖及回复中的距离小于K个回复)时,则两者的单元隐式关联信息所对应的权重信息值较高等;
-所述任两个多媒体资源的交互呈现频次信息;例如,在所述资源信息单元中,当多媒体资源A与B呈现ABABAB等形式的交互共现时,认为所述多媒体资源AB具有单元隐式关联关系,进一步地,还可以根据AB的交互共现频率确定AB的单元隐式关联信息所对应的权重信息值;而若呈现AAAAACCCCBBBB等形式的交互共现时,则认为AB之间不存在关联关系,或关联关系较弱等;
-所述任两个多媒体资源的最少共现频次信息;例如,在某一资源信息单元中,多媒体资源A在所述资源信息单元中出现5次,多媒体资源B在同一个资源信息单元中出现10次,则AB两者的最少共现频次为5,根据频次5计算两者的单元隐式关联信息;在另一资源信息单元中,多媒体资源C在所述另一资源信息单元中出现7次,多媒体资源D在所述另一资源信息单元中出现7次,则CD两者的最少共现频次为7,根据频次7计算两者的单元隐式关联信息;由于多媒体资源CD的最少共现频次大于所述多媒体资源AB的最少共现频次,所以,所述多媒体资源CD之间的关联关系要强于所述多媒体资源AB之间的关联关系。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何可以用于确定所述任两个多媒体资源之间的单元隐式关联信息的隐式相关信息,均应包含在本发明的范围内。
优选地,在步骤s1中,所述关联设备可以获取与多媒体资源相关的一个或多个候选资源信息单元,其中,每个候选资源信息单元对应于多个多媒体资源;根据所述候选资源信息单元,结合所述候选资源信息单元所对应的候选单元属性信息,对所述候选资源信息单元进行聚类处理;根据所述聚类处理的聚类结果,获取与所述聚类结果相对应的一个或多个资源信息单元。
具体地,在步骤s1中,所述关联设备根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述候选资源信息单元的一个或多个数据库或其他第三方设备相交互,以获取与多媒体资源相关的一个或多个候选资源信息单元;或者在步骤s1中,所述关联设备通过网络爬取的方式,获取与多媒体资源相关的一个或多个候选资源信息单元。
在此,在步骤s1中,所述关联设备获取所述候选资源信息单元的方式与图3中所述步骤s1获取资源信息单元的方式的方式相同或相似,故在此不再赘述,并通过引用的方式包含于此。
在此,每个候选资源信息单元对应于多个多媒体资源,所述候选资源信息单元与所述图3中所述步骤s1所获取的资源信息单元相同或相似,故在此不再赘述,并通过引用的方式包含于此。
在步骤s1中,所述关联设备根据所述候选资源信息单元,通过基于所述候选资源信息单元所对应的候选单元属性信息,对所述候选资源信息单元进行聚类处理。
其中,所述候选单元属性信息可以通过与存储所述候选资源信息单元的数据库相交互所获取,或者通过对所述候选资源信息单元进行分析后获取等。
其中,所述候选单元属性信息包括但不限于如候选资源信息单元的来源(如来自特定的垂直网站(如各类博客、论坛、BBS等)、特定的数据库等)、所述候选资源信息单元的类别(如文本、图片、图文混排等)、所述候选资源信息单元的大小(如文本中所包含的字节的多少)、所述候选资源信息单元的标签信息(如日志的tag信息,例如tag信息为“80后”)等。
在步骤s1中,所述关联设备对所述候选资源信息单元进行聚类后(例如,根据所述候选资源信息单元的来源,将来自同一来源,或者同一类来源的候选资源信息单元进行聚类),在步骤s1中,所述关联设备根据所述聚类处理的聚类结果,将同一聚类下的候选资源信息单元作为与所述聚类结果相对应的一个或多个资源信息单元;或者,在步骤s1中,所述关联设备还可以根据所述聚类结果,例如仅当某一聚类结果中的候选资源信息单元大于预定的阈值M,则将所述聚类结果中的多个候选资源信息单元作为所述资源信息单元。从而,在步骤s2与步骤s3中,对不同聚类结果下的资源信息单元进行分别处理,从而所获取的隐式关联信息也与所述聚类结果相对应。
更优选地,在步骤s3中,所述关联设备可以根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,结合所述资源信息单元所对应的单元属性信息,确定多媒体资源之间的隐式关联信息。
具体地,在步骤s3中,所述关联设备可以根据所述一个或多个资源信息单元,以及在步骤s2中所确定的每个资源信息单元所对应的所述单元隐式关联信息,通过结合所述资源信息单元所对应的单元属性信息,例如通过根据所述单元属性信息,确定所述资源信息单元所对应的单元隐式关联信息的权重信息等方式,以确定多媒体资源之间的隐式关联信息。
在此,所述资源信息单元所对应的单元属性信息,与所述资源信息单元所对应的候选资源信息单元所对应的候选单元属性信息相同或相似。例如,某候选资源信息单元所对应的候选单元属性信息为“来源于tieba.baidu.com”,通过在步骤s1进行聚类后,该候选资源信息单元与其他的具有“来源于tieba.baidu.com”的候选资源信息单元聚类为一类,则在步骤s1中,所述关联设备将该候选资源信息单元确定为资源信息单元,所述资源信息单元的单元属性信息为“来源于tieba.baidu.com”。在步骤s3中,所述关联设备根据所述单元属性信息“来源于tieba.baidu.com”,以及所述资源信息单元所对应的单元隐式关联信息,确定多媒体资源之间的隐式关联信息;进一步地,所述资源信息单元的单元属性信息还可以进一步细化为“来源于http://tieba.baidu.com/f/fdir?fd=%C9%FA%BB%EE&sd=%B3%E8%CE%EF”即贴吧中的“宠物”分类,从而通过例如根据不同的更细粒度的单元属性信息,确定所述资源信息单元所对应的单元隐式关联信息的权重信息等方式,以确定多媒体资源之间的隐式关联信息。
其中,所述单元属性信息包括但不限于所述资源信息单元的来源(如来自特定的垂直网站(如各类博客、论坛、BBS等)、特定的数据库等)、所述资源信息单元的类别(如文本、图片、图文混排等)、所述资源信息单元的大小(如文本中所包含的字节的多少)、所述资源信息单元的标签信息(如日志的tag信息,例如tag信息为“80后”)等。
在此,本领域技术人员应能理解,在步骤s3中,所述关联设备中所处理的用于确定多媒体资源之间的隐式关联信息的一个或多个资源信息单元,在步骤s1的聚类中,可以属于同一聚类,也可以属于不同的聚类。例如,如在步骤s2和/或在步骤s3仅对所述步骤s1聚类后的单一聚类类别所对应的资源信息单元进行处理时,则在步骤s3中,所述关联设备中所处理的资源信息单元属于同一聚类;若在步骤s2和/或在步骤s3仅对步骤s1聚类后的多个聚类类别分别处理时,则在步骤s3中,所述关联设备中所处理的资源信息单元可以属于不同聚类。
优选地,在步骤s3中,所述关联设备可以根据所述一个或多个资源信息单元,结合所述资源信息单元所对应的单元属性信息,对所述资源信息单元进行聚类处理;根据所述聚类处理的聚类结果,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
具体地,在步骤s3中,所述关联设备可以通过与存储所述资源信息单元的数据库相交互获取,或者通过对所述资源信息单元进行分析后获取所述资源信息单元所对应的单元属性信息;在步骤s3中,所述关联设备根据所述单元属性信息,对所述资源信息单元进行聚类处理,从而获取与所述单元属性信息相对应的一个或多个聚类结果,从而也可以在步骤s3中进行聚类的处理。
其中,所述单元属性信息包括但不限于所述资源信息单元的来源(如来自特定的垂直网站(如各类博客、论坛、BBS等)、特定的数据库等)、所述资源信息单元的类别(如文本、图片、图文混排等)、所述资源信息单元的大小(如文本中所包含的字节的多少)、所述资源信息单元的标签信息(如日志的tag信息,例如tag信息为“80后”)等。
在步骤s3中,所述关联设备根据所述聚类处理的聚类结果,例如,对不同的聚类所对应的资源信息单元设置不同的权值等方式,以及根据每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
图4示出根据本发明一个优选实施例的一种用于确定多媒体资源之间的隐式关联信息的方法流程图。具体地,在步骤s1’中,所述关联设备获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源;在步骤s2’中,所述关联设备根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息;在步骤s3’中,所述关联设备根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息;在步骤s4’中,所述关联设备获取访问用户的访问请求,其中,所述访问请求对应至少一个多媒体资源;在步骤s5’中,所述关联设备根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息。其中,所述步骤s1’、步骤s2’、步骤s3’与图3所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求,进行资源信息单元的获取、单元隐式关联信息的确定、隐式关联信息的确定、访问请求的获取、推荐资源信息的确定等,直至所述关联设备停止获取与多媒体资源相关的一个或多个资源信息单元。
在步骤s4’中,所述关联设备获取访问用户的访问请求,其中,所述访问请求对应至少一个多媒体资源。
具体地,在步骤s4’中,所述关联设备通过直接与访问用户交互,获取用户通过点击、输入、语音输入、触摸操作等方式所输入的访问请求,或者根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述访问请求的数据库或其他第三方设备相交互,获取所述访问用户的访问请求。其中,所述访问请求包括但不限于搜索请求、浏览请求等。
其中,所述访问请求对应至少一个多媒体资源,即所述访问请求所包含的字符串中包含一个或多个多媒体资源,或者所述访问请求所对应的页面信息中包含一个或多个多媒体资源。
在步骤s5’中,所述关联设备根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息。
具体地,在步骤s5’中,所述关联设备根据所述访问请求,以及所述访问请求中所对应的至少一个多媒体资源,通过结合所述步骤s3’中所确定的隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息。
例如,下述A、B、C、D均为多媒体资源,所述访问请求中包含多媒体资源A,所述隐式关联信息中,包含AB、AC、AD的关联关系,则在步骤s5’中,所述关联设备将多媒体资源B、C、D确定为与所述访问请求相对应的一个或多个推荐资源信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息的方式,均应包含在本发明的范围内。
优选地,在步骤s4’中,所述关联设备可以获取访问用户的访问请求,其中,所述访问请求对应一个或多个访问页面信息;根据所述访问页面信息,确定与所述访问页面信息相对应的至少一个多媒体资源,以作为与所述访问请求相对应的至少一个多媒体资源。
具体地,在步骤s4’中,所述关联设备通过直接与访问用户交互,获取用户通过点击、输入、语音输入、触摸操作等方式所输入的访问请求,或者根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述访问请求的数据库或其他第三方设备相交互,获取所述访问用户的访问请求。其中,所述访问请求对应一个或多个访问页面信息。
在步骤s4’中,所述关联设备通过获取与所述访问请求相对应的访问页面信息,通过基于预定的关键词挖掘所述访问页面信息中的关键字(如基于预定的关键词表对文本信息中的文本进行匹配);或者根据所述关键字进行分析,从而将与所述多媒体相对应的属性信息映射成所述多媒体资源,或与所述多媒体资源相匹配;或者使用训练好的分类器进行识别,从而确定与所述访问页面信息相对应的至少一个多媒体资源,以作为与所述访问请求相对应的至少一个多媒体资源。
优选地,所述步骤s5’中包括步骤s51’(未示出)和步骤s52’(未示出),其中,在步骤s51’中,所述关联设备根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个候选推荐资源信息;在步骤s52’中,所述关联设备根据所述候选推荐资源信息,确定与所述访问请求相对应的优选推荐资源信息。
具体地,在步骤s51’中,所述关联设备根据所述访问请求,以及所述访问请求中所对应的至少一个多媒体资源,通过结合所述步骤s3’中所确定的隐式关联信息,确定与所述访问请求相对应的一个或多个候选推荐资源信息。其中,确定所述候选推荐资源信息的方法与图4中所述步骤s5’中确定所述推荐资源信息的方法相同或相似,故在此不再赘述,并通过引用的方式包含于此。
在步骤s52’中,所述关联设备根据所述候选推荐资源信息,通过例如根据所述候选推荐资源信息所对应的权重信息,对所述候选推荐资源信息进行排序,从而将排序后的候选推荐资源信息作为与所述访问请求相对应的优选推荐资源信息;或者例如根据所述候选推荐资源信息所对应的权重信息,筛选出预定数目的候选推荐资源信息(例如选择最高的3个),作为与所述访问请求相对应的优选推荐资源信息;或者例如将所述一个或多个候选推荐资源信息进行剪辑拼接,如将多个候选推荐资源信息所对应的内容摘要信息作为一个推荐专题提供给所述访问用户,则所述推荐专题即为与所述访问请求相对应的优选推荐资源信息;或者根据所述候选推荐资源信息,将与所述候选推荐资源信息相关联的内容进行拼接,从而将拼接后的完整的候选推荐资源信息作为与所述访问请求相对应的优选推荐资源信息,例如,所述候选推荐资源信息仅包含资源的名称,则在步骤s52’中,所述关联设备将该资源的图片、内容摘要、其他描述信息等,与所述资源的名称进行拼接后,作为与所述访问请求相对应的优选推荐资源信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述候选推荐资源信息,确定与所述访问请求相对应的优选推荐资源信息的方式,均应包含在本发明的范围内。
更优选地,在步骤s52’中,所述关联设备可以根据所述候选推荐资源信息,结合所述访问用户所对应的用户属性信息,确定与所述访问请求相对应的优选推荐资源信息。
具体地,在步骤s52’中,所述关联设备可以根据所述候选推荐资源信息,结合所述访问用户所对应的用户属性信息,例如,当所述用户属性信息中显示生日为1985时,则认为所述访问用户属于“80后”,因此将带有“80后”标签或者相应属性的候选推荐资源信息作为与所述访问请求相对应的优选推荐资源信息。
其中,所述用户属性信息包括但不限于所述访问用户的用户个人信息(如性别、年龄、学历等),用户兴趣爱好信息、用户的访问来源(如用户从特定的垂直网站访问等)、用户的位置信息(如根据IP或注册地所获取的位置信息)等中的一种或多种。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种用于确定多媒体资源之间的隐式关联信息的方法,其中,该方法包括以下步骤:
a获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源;
b根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息;
c根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
2.根据权利要求1所述的方法,其中,所述步骤b包括:
-根据所述资源信息单元,并结合该资源信息单元所对应的多个多媒体资源中任两个多媒体资源的隐式相关信息,确定所述任两个多媒体资源之间的单元隐式关联信息。
3.根据权利要求2所述的方法,其中,所述隐式相关信息包括以下至少任一项:
-所述任两个多媒体资源的最短距离信息;
-所述任两个多媒体资源的交互呈现频次信息;
-所述任两个多媒体资源的最少共现频次信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤a包括:
-获取与多媒体资源相关的一个或多个候选资源信息单元,其中,每个候选资源信息单元对应于多个多媒体资源;
-根据所述候选资源信息单元,结合所述候选资源信息单元所对应的候选单元属性信息,对所述候选资源信息单元进行聚类处理;
-根据所述聚类处理的聚类结果,获取与所述聚类结果相对应的一个或多个资源信息单元。
5.根据权利要求4所述的方法,其中,所述步骤c包括:
-根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,结合所述资源信息单元所对应的单元属性信息,确定多媒体资源之间的隐式关联信息。
6.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括:
-根据所述一个或多个资源信息单元,结合所述资源信息单元所对应的单元属性信息,对所述资源信息单元进行聚类处理;
-根据所述聚类处理的聚类结果,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括:
x获取访问用户的访问请求,其中,所述访问请求对应至少一个多媒体资源;
y根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息。
8.根据权利要求7所述的方法,其中,所述步骤x包括:
-获取访问用户的访问请求,其中,所述访问请求对应一个或多个访问页面信息;
-根据所述访问页面信息,确定与所述访问页面信息相对应的至少一个多媒体资源,以作为与所述访问请求相对应的至少一个多媒体资源。
9.根据权利要求7或8所述的方法,其中,所述步骤y包括:
-根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个候选推荐资源信息;
y1根据所述候选推荐资源信息,确定与所述访问请求相对应的优选推荐资源信息。
10.根据权利要求9所述的方法,其中,所述步骤y1包括:
-根据所述候选推荐资源信息,结合所述访问用户所对应的用户属性信息,确定与所述访问请求相对应的优选推荐资源信息。
11.一种用于确定多媒体资源之间的隐式关联信息的关联设备,其中,该设备包括:
获取装置,用于获取与多媒体资源相关的一个或多个资源信息单元,其中,每个资源信息单元对应于多个多媒体资源;
初始确定装置,用于根据所述资源信息单元,确定该资源信息单元所对应的多个多媒体资源中任两个多媒体资源之间的单元隐式关联信息;
关联确定装置,用于根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
12.根据权利要求11所述的关联设备,其中,所述初始确定装置用于:
-根据所述资源信息单元,并结合该资源信息单元所对应的多个多媒体资源中任两个多媒体资源的隐式相关信息,确定所述任两个多媒体资源之间的单元隐式关联信息。
13.根据权利要求12所述的关联设备,其中,所述隐式相关信息包括以下至少任一项:
-所述任两个多媒体资源的最短距离信息;
-所述任两个多媒体资源的交互呈现频次信息;
-所述任两个多媒体资源的最少共现频次信息。
14.根据权利要求11至13中任一项所述的关联设备,其中,所述获取装置用于:
-获取与多媒体资源相关的一个或多个候选资源信息单元,其中,每个候选资源信息单元对应于多个多媒体资源;
-根据所述候选资源信息单元,结合所述候选资源信息单元所对应的候选单元属性信息,对所述候选资源信息单元进行聚类处理;
-根据所述聚类处理的聚类结果,获取与所述聚类结果相对应的一个或多个资源信息单元。
15.根据权利要求14所述的关联设备,其中,所述关联确定装置用于:
-根据所述一个或多个资源信息单元,以及每个资源信息单元所对应的所述单元隐式关联信息,结合所述资源信息单元所对应的单元属性信息,确定多媒体资源之间的隐式关联信息。
16.根据权利要求11至13中任一项所述的关联设备,其中,所述关联确定装置用于:
-根据所述一个或多个资源信息单元,结合所述资源信息单元所对应的单元属性信息,对所述资源信息单元进行聚类处理;
-根据所述聚类处理的聚类结果,以及每个资源信息单元所对应的所述单元隐式关联信息,确定多媒体资源之间的隐式关联信息。
17.根据权利要求11至16中任一项所述的关联设备,其中,该设备还包括:
请求获取装置,用于获取访问用户的访问请求,其中,所述访问请求对应至少一个多媒体资源;
推荐确定装置,用于根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个推荐资源信息。
18.根据权利要求17所述的关联设备,其中,所述请求获取装置用于:
-获取访问用户的访问请求,其中,所述访问请求对应一个或多个访问页面信息;
-根据所述访问页面信息,确定与所述访问页面信息相对应的至少一个多媒体资源,以作为与所述访问请求相对应的至少一个多媒体资源。
19.根据权利要求17或18所述的关联设备,其中,所述推荐确定装置包括:
候选确定单元,用于根据所述访问请求,结合所述隐式关联信息,确定与所述访问请求相对应的一个或多个候选推荐资源信息;
优选确定单元,用于根据所述候选推荐资源信息,确定与所述访问请求相对应的优选推荐资源信息。
20.根据权利要求19所述的关联设备,其中,所述优选确定单元用于:
-根据所述候选推荐资源信息,结合所述访问用户所对应的用户属性信息,确定与所述访问请求相对应的优选推荐资源信息。
CN201310300915.XA 2013-07-17 2013-07-17 一种用于确定多媒体资源间隐式关联信息的方法与设备 Active CN103412880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310300915.XA CN103412880B (zh) 2013-07-17 2013-07-17 一种用于确定多媒体资源间隐式关联信息的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310300915.XA CN103412880B (zh) 2013-07-17 2013-07-17 一种用于确定多媒体资源间隐式关联信息的方法与设备

Publications (2)

Publication Number Publication Date
CN103412880A true CN103412880A (zh) 2013-11-27
CN103412880B CN103412880B (zh) 2017-02-22

Family

ID=49605892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310300915.XA Active CN103412880B (zh) 2013-07-17 2013-07-17 一种用于确定多媒体资源间隐式关联信息的方法与设备

Country Status (1)

Country Link
CN (1) CN103412880B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294502A (zh) * 2015-06-09 2017-01-04 北京搜狗科技发展有限公司 一种电子书信息处理方法及装置
CN106899866A (zh) * 2015-12-17 2017-06-27 上海交通大学 一种关联多媒体内容个性化呈现信息的描述方法
CN107209769A (zh) * 2014-12-31 2017-09-26 开放电视公司 用于内容传递的元数据管理
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN108304425A (zh) * 2017-04-21 2018-07-20 腾讯科技(深圳)有限公司 一种图文信息推荐方法、装置及系统
CN110020439A (zh) * 2019-04-16 2019-07-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737059A (zh) * 2011-04-14 2012-10-17 北京百度网讯科技有限公司 用于确定资源描述信息的准确度信息的方法、装置和设备
CN102915335A (zh) * 2012-09-17 2013-02-06 北京大学 基于用户操作记录和资源内容的信息关联方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737059A (zh) * 2011-04-14 2012-10-17 北京百度网讯科技有限公司 用于确定资源描述信息的准确度信息的方法、装置和设备
CN102915335A (zh) * 2012-09-17 2013-02-06 北京大学 基于用户操作记录和资源内容的信息关联方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209769A (zh) * 2014-12-31 2017-09-26 开放电视公司 用于内容传递的元数据管理
CN107209769B (zh) * 2014-12-31 2021-08-31 开放电视公司 用于内容传递的间歇管理
CN106294502A (zh) * 2015-06-09 2017-01-04 北京搜狗科技发展有限公司 一种电子书信息处理方法及装置
CN106294502B (zh) * 2015-06-09 2020-06-23 北京搜狗科技发展有限公司 一种电子书信息处理方法及装置
CN106899866A (zh) * 2015-12-17 2017-06-27 上海交通大学 一种关联多媒体内容个性化呈现信息的描述方法
CN106899866B (zh) * 2015-12-17 2019-08-09 上海交通大学 一种关联多媒体内容个性化呈现信息的描述方法
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN108304425A (zh) * 2017-04-21 2018-07-20 腾讯科技(深圳)有限公司 一种图文信息推荐方法、装置及系统
CN108304425B (zh) * 2017-04-21 2021-01-08 腾讯科技(深圳)有限公司 一种图文信息推荐方法、装置及系统
CN110020439A (zh) * 2019-04-16 2019-07-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
CN111859898A (zh) * 2019-04-16 2020-10-30 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN111859898B (zh) * 2019-04-16 2024-01-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质

Also Published As

Publication number Publication date
CN103412880B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
US9449271B2 (en) Classifying resources using a deep network
CN104573054B (zh) 一种信息推送方法和设备
US9141906B2 (en) Scoring concept terms using a deep network
CN104239340B (zh) 搜索结果筛选方法与装置
US10825110B2 (en) Entity page recommendation based on post content
CN102346778B (zh) 一种用于提供搜索结果的方法与设备
CN102054003B (zh) 网络信息推荐、建立网络资源索引的方法及系统
CN108694223A (zh) 一种用户画像库的构建方法及装置
CN104424302B (zh) 一种同类数据对象的匹配方法和装置
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN104008139B (zh) 视频索引表的创建方法和装置,视频的推荐方法和装置
CN103577549A (zh) 一种基于微博标签的人群画像系统和方法
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN106033445A (zh) 获取文章关联度数据的方法和装置
US20160048575A1 (en) System and method for topics extraction and filtering
US20240143684A1 (en) Information presentation method and apparatus, and device and medium
CN105916032A (zh) 视频推荐的方法及视频推荐的终端设备
JP5740228B2 (ja) 代表的なコメント抽出方法およびプログラム
CN103955480B (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN106933878B (zh) 一种信息处理方法及装置
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN112836126A (zh) 基于知识图谱的推荐方法、装置、电子设备及存储介质
CN103425767B (zh) 一种提示数据的确定方法和系统
Cantador et al. Semantic contextualisation of social tag-based profiles and item recommendations
CN103389981A (zh) 网络标签自动识别方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant