CN103336784A - 一种用于确定资源的优选资源描述信息的方法与设备 - Google Patents

一种用于确定资源的优选资源描述信息的方法与设备 Download PDF

Info

Publication number
CN103336784A
CN103336784A CN2013102192961A CN201310219296A CN103336784A CN 103336784 A CN103336784 A CN 103336784A CN 2013102192961 A CN2013102192961 A CN 2013102192961A CN 201310219296 A CN201310219296 A CN 201310219296A CN 103336784 A CN103336784 A CN 103336784A
Authority
CN
China
Prior art keywords
resource
information
descriptor
name information
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102192961A
Other languages
English (en)
Other versions
CN103336784B (zh
Inventor
樊开元
代大攀
姚旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310219296.1A priority Critical patent/CN103336784B/zh
Publication of CN103336784A publication Critical patent/CN103336784A/zh
Application granted granted Critical
Publication of CN103336784B publication Critical patent/CN103336784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于确定资源的优选资源描述信息的方法与设备。处理设备通过对初始资源描述信息的资源名称信息进行预处理后,根据所获得的资源规范名称信息,获取与所述资源规范名称信息相匹配的参考资源描述信息,并根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。与现有技术相比,本发明实现了对初始资源描述信息的资源名称规范化,并能够自动生成完整、全面的资源描述信息,提高了信息处理的效率与信息的完整性,进而改善了用户体验,提高了用户获取信息的效率。

Description

一种用于确定资源的优选资源描述信息的方法与设备
技术领域
本发明涉及互联网领域,尤其涉及一种用于确定资源的优选资源描述信息的技术。
背景技术
当前,互联网上的各个网站一般分别建立各自的资源信息库,例如电影资源信息库、电视剧资源信息库、动漫资源信息库、综艺资源信息库等。通过这种方法所建立的资源信息库对于同一资源具有各种各样的描述信息,例如网站A对某视频的描述信息包括导演、演员,网站B对同一视频的描述信息包括发行年份、国别等,从而无法覆盖该资源的全部描述信息;同时,不同资源信息库中对于同一资源的资源名称等也不一定一致,从而使得信息存储的不一致导致了用户访问或查询资源时,无法准确、快速、便捷地获得对应于同一资源的完整的描述信息。
发明内容
本发明的目的是提供一种用于确定资源的优选资源描述信息的方法与设备。
根据本发明的一个方面,提供了一种用于确定资源的优选资源描述信息的方法,其中,该方法包括以下步骤:
a获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息;
b对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;
c根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配;
d根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。
根据本发明的另一方面,还提供了一种用于确定资源的优选资源描述信息的处理设备,其中,该设备包括:
获取装置,用于获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息;
预处理装置,用于对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;
参考确定装置,用于根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配;
优选确定装置,用于根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。
与现有技术相比,本发明通过对初始资源描述信息的资源名称信息进行预处理后,根据所获得的资源规范名称信息,获取与所述资源规范名称信息相匹配的参考资源描述信息,并根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息;从而实现了对初始资源描述信息的资源名称规范化,并能够自动生成完整、全面的资源描述信息,提高了信息处理的效率与信息的完整性,进而改善了用户体验,提高了用户获取信息的效率。
而且,本发明还可以结合所述初始资源描述信息中的资源名称辅助信息,对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;从而实现了对初始资源描述信息的资源名称规范化,以生成完整、全面的资源描述信息,提高了信息处理的效率与信息的完整性,进而改善了用户体验,提高了用户获取信息的效率。
而且,本发明还可以根据所述资源规范名称信息,并结合所述初始资源描述信息中的资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息;进一步地,本发明还可以先根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个候选参考资源描述信息,然后根据所述初始资源描述信息中的资源关键属性信息,在所述一个或多个候选参考资源描述信息中确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息;从而提高了参考资源描述信息的准确度,以生成更加准确、完整、全面的资源描述信息,提高了信息处理的效率与信息的完整性,进而改善了用户体验,提高了用户获取信息的效率。
而且,本发明还可以根据所述初始资源描述信息所对应资源的资源相关信息,在所述初始资源描述信息中的资源关键属性信息中确定优选资源关键属性信息,根据根据所述资源规范名称信息,并结合所述优选资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息;从而根据不同的资源相关信息,确定不同的优选资源关键属性信息,并结合所述优选资源关键属性信息对所述参考资源描述信息进行确定,提高了参考资源描述信息的准确度,以生成更加准确、完整、全面的资源描述信息,提高了信息处理的效率与信息的完整性,进而改善了用户体验,提高了用户获取信息的效率。
而且,本发明还可以根据所述资源规范名称信息,并结合所述资源规范名称信息所对应的名称映射信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息;从而扩大参考资源描述信息的选择范围,能够生成更加完整、全面的资源描述信息,提高了信息处理的效率与信息的完整性,进而改善了用户体验,提高了用户获取信息的效率。
而且,本发明还可以通过对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,以确定与所述初始资源描述信息相对应的信息聚类,并确定所述信息聚类所对应的表征信息,以作为所述初始资源描述信息所对应资源的优选资源描述信息;从而解决了当所述初始资源描述信息与多个参考资源描述信息所对应的表征信息不同时,优选资源描述信息的确定问题,提高了资源描述信息的准确度,提高了信息处理的效率与信息的完整性,进而改善了用户体验,提高了用户获取信息的效率。
而且,本发明还可以根据所述优选资源描述信息,建立或更新对应的资源信息库;进一步地,还可以根据查询请求在所述资源信息库中进行匹配查询,以获得与所述查询请求相匹配的一个或多个资源描述记录,并将所述一或多个资源描述记录所对应的信息提供给所述查询请求所对应的应用;更进一步地,还可以根据资源描述记录生成对应的搜索结果摘要信息,并将所述搜索结果摘要信息提供给所述查询请求所对应的应用;从而实现了建立完整、全面、准确的资源信息库,并能够为查询请求提供对应的完整、准确的资源描述记录,提高了信息处理的效率与信息的完整性,进而改善了用户体验,提高了用户获取信息的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于确定资源的优选资源描述信息的处理设备示意图;
图2示出根据本发明一个优选实施例的一种用于确定资源的优选资源描述信息的处理设备示意图;
图3示出根据本发明另一个方面的一种用于确定资源的优选资源描述信息的处理设备的方法流程图;
图4示出根据本发明一个优选实施例的一种用于确定资源的优选资源描述信息的处理设备的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种用于确定资源的优选资源描述信息的处理设备示意图;其中,所述处理设备包括获取装置1、预处理装置2、参考确定装置3、优选确定装置4。具体地,获取装置1获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息;预处理装置2对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;参考确定装置3根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配;优选确定装置4根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。
在此,所述处理设备括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA、游戏机、或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解,其他的处理设备同样适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求,进行初始资源描述信息的获取、资源规范名称信息的获取、参考资源描述信息的确定、优选资源描述信息的确定等,直至所述处理设备停止获取一个或多个初始资源描述信息。
获取装置1获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息。
具体地,所述获取装置1根据各种通信协议(CommunicationsProtocol),通过各类数据传输接口,与存储或提供所述初始资源描述信息的一个或多个数据库或其他第三方设备相交互,以抽取所述初始描述信息的数据库中所存储的一个或多个初始资源描述信息,或者直接获取整个所述初始描述信息的数据库,从而获取所述初始描述信息的数据库中所包含的全部初始资源描述信息;或者所述获取装置1还可以通过网络爬取的方式,在全网进行爬取后,获取所述一个或多个初始资源描述信息,或者通过爬取后获得一个或多个所述初始描述信息的数据库,进而从所述数据库中获取一个或多个初始资源描述信息。
其中,每个初始资源描述信息中包含对应资源的资源名称信息,此外,所述初始资源描述信息中还包括但不限于所述资源的作者信息、导演信息、演员信息、主要角色信息、内容摘要信息、分集信息、国别信息、上映时间/出版时间信息、海报信息、资源下载链接/播放链接信息等;所述资源包括但不限于视频、音频、图片、文本、其他多媒体资源等。
在此,本领域技术人员应能理解,上述所述初始资源描述信息中所包含的内容仅为举例,其他现有的或今后可能出现的用于描述资源的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
预处理装置2对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。
具体地,所述预处理装置2可以获取所述获取装置1中所获取的包含对应资源的资源名称信息的所述初始资源描述信息,通过对所述资源名称信息进行预处理,以对所述资源名称信息进行规范化,从而获得规范化的、与所述初始资源描述信息相对应的资源规范名称信息。这是由于当前不同的所述初始资源描述信息中,即使对于同一个资源,也可能由于各种原因而产生不同的资源名称信息,因此通过所述预处理装置2对所述资源名称信息进行规范化处理,以获得统一的、规范化的资源规范名称信息。
在此,所述资源规范名称信息可以根据预先设置的资源规范名称信息表获取;也可以例如通过对多个资源名称信息进行统计或聚类后,将对应于统计结果中最多的资源名称,作为所述资源规范名称信息。
在此,所述预处理包括但不限于以下一种或几种方式:
-通过利用如正则匹配的方法,将所述资源名称信息中的非规范字符进行筛除,以获得资源规范名称信息;例如,将“西游记&”转化为“西游记”等;
-通过利用预先设置的资源同义词表,将所述资源名称信息进行归一化处理,以获得资源规范名称信息,其中,所述资源同义词表可以根据人工设置预定义,也可以利用机器学习等方式对例如网络搜索记录、网民输入信息等进行学习后获取;例如,将“万年小学生”转化为“名侦探柯南”等;
-通过利用与不同语言对应的资源翻译词表,将对应于不同语言的资源名称信息进行翻译后(如将英文资源名称翻译为中文资源名称),实现归一化处理,以获得资源规范名称信息,其中,所述同义词表可以根据人工设置预定义,也可以利用机器翻译等方式生成,也可以利用机器学习等方式对例如网络搜索记录、网民输入信息等进行学习后获取;例如,将“Journey to the West”转化为“西游记”等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息的方式,均应包含在本发明的范围内。
本领域技术人员应能理解,所述预处理装置2还可以对所述初始资源描述信息的资源名称信息进行判断,若所述资源名称信息已经是所述资源规范名称信息,则无需进行预处理步骤;若所述资源名称信息不是所述资源规范名称信息,则所述预处理装置2对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。
优选地,所述预处理装置2可以结合所述初始资源描述信息中的资源名称辅助信息,对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。
具体地,所述预处理装置2还可以结合所述初始资源描述信息中的资源名称辅助信息,例如通过对所述资源名称辅助信息进行规范化处理,从而对所述包含资源名称辅助信息的资源名称信息进行预处理;或者结合所述资源名称信息与初始资源描述信息,对所述资源名称辅助信息进行预处理,以对所述资源名称信息进行规范化,从而获得规范化的、与所述初始资源描述信息相对应的资源规范名称信息。
其中,所述资源名称辅助信息包括但不限于如资源编号信息(如第一季、第一集、1等)、副标题信息等。
其中,对所述资源名称辅助信息的预处理方式包括但不限于利用如预先设置的辅助资源同义词表,对所述资源名称辅助信息进行归一化处理,从而对所述包含资源名称辅助信息的资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。其中,所述辅助资源同义词表可以根据人工设置预定义,也可以利用机器学习等方式对例如网络搜索记录、网民输入信息等进行学习后获取。
例如,当所述资源名称信息为“老友记”,资源名称辅助信息为“第一部”时,则将资源名称辅助信息“第一部”进行预处理,转变为“第一季”,从而获得所述资源规范名称信息“老友记第一季”;所述资源名称辅助信息为“1”时,还可以结合所述资源名称信息,确定所述“1”为“第一集”或者为“第一季”,从而对所述资源名称信息进行预处理,以确定所述初始资源描述信息所对应的资源规范名称信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何结合所述初始资源描述信息中的资源名称辅助信息,对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息的方式,均应包含在本发明的范围内。
参考确定装置3根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配。
具体地,所述参考确定装置3通过根据所述预处理装置2所获得所述资源规范名称信息,将与所述初始资源描述信息的资源名称信息所对应的资源规范名称信息,与其他初始资源描述信息所对应的资源规范名称信息相匹配,从而将具有相同或相似的资源规范名称信息的其他初始资源描述信息,确定为与所述初始资源描述信息相对应的一个或多个参考资源描述信息。
其中,所述参考资源描述信息中包括但不限于所述资源名称、所述资源规范名称信息、所述资源的作者信息、导演信息、演员信息、主要角色信息、内容摘要信息、分集信息、国别信息、上映时间/出版时间信息、海报信息、资源下载链接/播放链接信息等;所述资源包括但不限于视频、音频、图片、文本、其他多媒体资源等。
优选地,所述参考确定装置3可以根据所述资源规范名称信息,并结合所述初始资源描述信息中的资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
具体地,所述参考确定装置3可以根据具有相同或相似(例如具有相同的副标题等)的资源规范名称信息的一个或多个初始资源描述信息,通过利用所述初始资源描述信息中资源关键属性信息,计算两个或多个资源描述信息的重合度或相似度,根据所述重合度或相似度(例如,根据所述资源关键属性信息计算余弦相似度等),确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
其中,所述资源关键属性信息包括但不限于资源名称、所述资源规范名称信息、所述资源的作者信息、导演信息、演员信息、主要角色信息、内容摘要信息、分集信息、国别信息、上映时间/出版时间信息、海报信息、资源下载链接/播放链接信息等;所述资源包括但不限于视频、音频、图片、文本、其他多媒体资源等。
进一步地,还可以通过直接获取或者与第三方交互后获取所述资源的资源信息,例如,视频资源的视频,音频资源的音频等;从而通过直接获取或经过计算后获取所述资源的标识信息,例如,视频资源的MD5信息、图片资源的纹理信息等;并将所述标识信息也作为所述资源关键属性信息。例如,若某个资源描述信息的资源规范名称信息与所述初始资源描述信息并不相同而仅相似,而两者所对应的资源的标识信息完全一致,则根据所述标识信息,也可以将所述资源描述信息作为所述初始资源描述信息所对应的参考资源描述信息。
更优选地,所述参考确定装置3可以根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个候选参考资源描述信息,其中,所述候选参考资源描述信息与所述资源规范名称信息相匹配;根据所述初始资源描述信息中的资源关键属性信息,在所述一个或多个候选参考资源描述信息中确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源关键属性信息相匹配。
具体地,所述参考确定装置3通过根据所述预处理装置2所获得所述资源规范名称信息,将与所述初始资源描述信息的资源名称信息所对应的资源规范名称信息,与其他初始资源描述信息所对应的资源规范名称信息相匹配,从而将具有相同或相似的资源规范名称信息的其他初始资源描述信息,确定为与所述初始资源描述信息相对应的一个或多个候选参考资源描述信息,其中,所述候选参考资源描述信息与所述资源规范名称信息相匹配。
考虑到即使是所述资源规范名称信息相同时,所对应的资源也可能为不同的资源,因此所述参考确定装置3还可以根据所述初始资源描述信息中的资源关键属性信息,与所述一个或多个候选参考资源描述信息中的资源关键属性信息进行匹配,例如计算所述初始资源描述信息与所述候选参考资源描述信息的资源关键属性信息的重合度或相似度,若所述重合度或相似度超过预定的或机器学习所得到的阈值后,才确定所对应的候选参考资源描述信息为所述初始资源描述信息所对应的参考资源描述信息。
其中,计算重合度或相似度的方法包括但不限于利用余弦相似度进行计算,或者利用余弦相似度与预定的筛选规则一起进行判断等。例如,如果某个资源对应于多部系列,则可以利用计算余弦相似度确定对应于某一特定系列的多个参考资源描述信息;同时结合额外的判断规则,将对应于多个系列的资源描述信息进行整合,在区分同一个资源的多个系列的基础上,形成对该资源的多个系列的完整描述。
更优选地,所述参考确定装置3可以根据所述初始资源描述信息所对应资源的资源相关信息,在所述初始资源描述信息中的资源关键属性信息中确定优选资源关键属性信息;根据所述资源规范名称信息,并结合所述优选资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
具体地,由于不同的资源可能具有不同的资源关键属性信息,因此所述参考确定装置3还可以根据所述初始资源描述信息所对应资源的资源相关信息,在所述初始资源描述信息中的资源关键属性信息中确定与所述初始资源描述信息所对应的优选资源关键属性信息。
其中,所述资源相关信息包括但不限于资源类别信息、资源年份信息、资源国别信息等。其中,所述资源类别信息包括但不限于视频、音频、图片、文本、其他多媒体资源等;或者,还可以划分为电视剧、电影、动漫、小说等。
例如,当所述资源相关信息为资源类别信息,且所述资源类别为电影类别时,所述优选资源关键属性信息包括但不限于演员、导演、国别、年份等;当所述资源类别为电视剧类别时,所述优选资源关键属性信息包括但不限于演员、导演、集数、年份、国别等;当所述资源类别为动漫类别时,所述优选资源关键属性信息包括但不限于国别、作者、主要人物、监督等。
在此,本领域技术人员应能理解,上述所述资源相关信息以及所述对应于不同资源类别信息的优选资源关键属性信息仅为举例,其他现有的或今后可能出现的所述资源相关信息以及所述对应于不同资源类别信息的优选资源关键属性信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
所述参考确定装置3根据所述资源规范名称信息,并结合所述优选资源关键属性信息,通过例如计算所述初始资源描述信息与其他资源描述信息的所述优选资源关键属性信息的重合度或相似度,以确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息。优选地,所述优选资源关键属性信息可以对应不同的权值信息,从而还可以基于所述权值信息,在计算重合度或相似度时进行加权计算。
优选地,所述参考确定装置3可以根据所述资源规范名称信息,并结合所述资源规范名称信息所对应的名称映射信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配。
具体地,所述参考确定装置3可以获取与所述资源规范名称信息所对应的名称映射信息,在此,所述名称映射信息包括但不限于中文与外文之间的映射关系、缩写与全称之间的映射关系等。从而所述参考确定装置3利用所述名称映射信息,将多种语言版本或多种资源规范名称信息的参考资源描述信息与所述初始资源描述信息相对应,进而完善所述优选资源描述信息。
例如,当所述初始资源描述信息的资源规范名称信息为中文“西游记”时,所述参考确定装置3可以根据另一资源描述信息所对应的英文名称映射信息“Journey to the West”,将所述“Journey to the West”所对应的资源描述信息,作为所述初始资源描述信息的参考资源描述信息;从而在优选确定装置4中,可以将所述“Journey to the West”所对应的资源描述信息(例如,包括但不限于英文资源描述信息)添加至所述初始资源描述信息中,从而生成优选资源描述信息。
在此,本领域技术人员应能理解,当涉及到资源名称的名称映射信息转换时,可以根据需要或系统缺省设置,或者根据所设置的资源规范名称信息,或者根据相对应的资源描述信息进行选择,从而在所述预处理装置2中进行处理,或者在所述参考确定装置3中进行处理。例如,若设定“Journey to the West”为资源规范名称信息,则可以在所述参考确定装置3进行处理,若设定“Journey to the West”为非资源规范名称信息,则可以在预处理装置2中进行处理。或者,例如,当所述资源描述信息为全英文时,则在所述参考确定装置3中进行处理,若所述资源描述信息仅有资源名称为英文时,则在所述预处理装置2中进行处理等。
优选确定装置4根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。
具体地,所述优选确定装置4根据所述初始资源描述信息,结合所述参考确定装置3所确定的一个或多个参考资源描述信息,通过将所述初始资源描述信息及所述参考资源描述信息进行整合等方式,确定所述初始资源描述信息所对应资源的优选资源描述信息。其中,所述整合包括但不限于通过结合所述参考资源描述信息,在初始资源描述信息中添加所述初始资源描述信息中不存在的描述项、为所述初始资源描述信息中已有的描述项进行修正或补充等。
例如,所述资源为电影“建国大业”,所述初始资源描述信息中包含了上映时间信息、导演信息、演员信息,第一参考资源描述信息中包括视频观看链接信息,第二参考资源描述信息中包括电影简介信息,则所述优选确定装置4将所述视频观看链接信息与电影简介信息添加到所述初始资源描述信息中,所生成的优选资源描述信息则包括对“建国大业”的上映时间信息、导演信息、演员信息、视频观看链接信息、电影简介信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息的方式,均应包含在本发明的范围内。
优选地,所述优选确定装置4可以对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,以确定与所述初始资源描述信息相对应的信息聚类;确定所述信息聚类所对应的表征信息,以作为所述初始资源描述信息所对应资源的优选资源描述信息。
优选地,所述优选确定装置4可以根据所述初始资源描述信息,结合所述参考确定装置3所确定的一个或多个参考资源描述信息,例如通过根据所述初始资源描述信息及所述参考资源描述信息中的具体信息项的表征信息,对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,从而确定与所述初始资源描述信息相对应的信息聚类,根据所述信息聚类可以确定所述具体信息项的表征信息的分布情况。在此,所述聚类处理也可以利用如频次统计的方法进行。
其中,所述具体信息项例如资源名称、所述资源规范名称信息、所述资源的作者信息、导演信息、演员信息、主要角色信息、内容摘要信息、分集信息、国别信息、上映时间/出版时间信息、海报信息、资源下载链接/播放链接信息等,所述具体信息项的表征信息即例如所述演员信息中所包含的具体演员名称等。
所述优选确定装置4根据所述信息聚类,确定所述信息聚类所对应的表征信息,并将所述表征信息作为所述初始资源描述信息所对应资源的优选资源描述信息。其中,所述表征信息包括但不限于所述资源描述信息中具体信息项的内容信息。
例如,对于某一资源的“出版时间”的描述信息中,根据所述初始资源描述信息及其对应的5个参考资源描述信息可以划分为3个信息聚类,第一信息聚类对应3个表征信息为“1990年”的资源描述信息,第二信息聚类对应2个表征信息为“无”的资源描述信息,第三信息聚类对应1个表征信息为“1991年”的资源描述信息;则将第一信息聚类所对应的表征信息“1990年”作为所述初始资源描述信息相对应的优选资源描述信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,以确定与所述初始资源描述信息相对应的信息聚类,并确定所述信息聚类所对应的表征信息,以作为所述初始资源描述信息所对应资源的优选资源描述信息的方式,均应包含在本发明的范围内。
图2示出根据本发明一个优选实施例的一种用于确定资源的优选资源描述信息的处理设备示意图;其中,所述处理设备包括获取装置1’、预处理装置2’、参考确定装置3’、优选确定装置4’、更新装置5’。具体地,获取装置1’获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息;预处理装置2’对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;参考确定装置3’根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配;优选确定装置4’根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息;更新装置5’根据所述优选资源描述信息,建立或更新对应的资源信息库。其中,所述获取装置1’、预处理装置2’、参考确定装置3’、优选确定装置4’与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求,进行初始资源描述信息的获取、资源规范名称信息的获取、参考资源描述信息的确定、优选资源描述信息的确定、资源信息库的建立或更新等,直至所述处理设备停止获取一个或多个初始资源描述信息。
更新装置5’根据所述优选资源描述信息,建立或更新对应的资源信息库。
具体地,所述更新装置5’通过根据所述优选资源描述信息,将一个或多个所述优选资源描述信息建立所对应的资源信息库;若已经存在资源信息库,则根据所述优选资源描述信息,将所述资源信息库中的相应信息进行更新。
其中,所述资源信息库中包括一条或多条根据所述优选资源描述信息建立或更新的资源描述记录;所述资源描述记录中包括但不限于以下一种或多种信息:资源的名称信息、文本信息(如资源的文字介绍,包括如导演、演员、年份、简介等)或资源信息(如视频或音频、或视频音频的播放链接信息等)、其他多媒体信息(如图片、海报信息)等。
优选地,所述处理设备还包括查询装置6’与提供装置7’,其中,查询装置6’根据查询请求在所述资源信息库中进行匹配查询,以获得与所述查询请求相匹配的一个或多个资源描述记录;提供装置7’将所述一或多个资源描述记录所对应的信息提供给所述查询请求所对应的应用。
具体地,所述查询装置6’通过直接与用户交互,获取用户通过点击、输入、语音输入、触摸操作等方式所输入的查询请求,或者根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述查询请求的数据库或其他第三方设备相交互,获取用户的所述查询请求。其中,所述查询请求中包含与资源相关联的查询信息,例如,所述查询请求中包含资源名称关键字等。
所述查询装置6’根据所述查询请求在所述资源信息库中进行匹配查询,若所述查询请求与所述资源信息库中的信息相匹配,则将所述资源信息库中相匹配的资源描述记录作为与所述查询请求相匹配的一个或多个资源描述记录。
提供装置7’通过利用所述查询请求所对应的应用所提供的应用程序接口(API)或http、https等其他约定的通信方式的格式要求,与所述查询请求所对应的应用相交互,将所述一或多个资源描述记录所对应的信息提供给所述查询请求所对应的应用。
更优选地,所述处理设备还包括摘要生成装置(未示出),其中,所述摘要生成装置根据资源描述记录生成对应的搜索结果摘要信息;所述提供装置7’将所述搜索结果摘要信息提供给所述查询请求所对应的应用。
具体地,所述摘要生成装置通过与所述查询装置6’相交互,获取所述查询装置6’所获取的一个或多个资源描述记录,所述摘要生成装置根据所述资源描述记录,通过例如提取所述资源描述记录中的关键字、作品简介等,生成对应的搜索结果摘要信息;进一步地,还可以基于所述查询请求所对应的应用的相关信息,如显示屏幕大小等,生成适应于所述应用的搜索结果摘要信息。
所述提供装置7’通过利用所述查询请求所对应的应用所提供的应用程序接口(API)或http、https等其他约定的通信方式的格式要求,与所述查询请求所对应的应用相交互,将所述搜索结果摘要信息提供给所述查询请求所对应的应用。
图3示出根据本发明另一个方面的一种用于确定资源的优选资源描述信息的处理设备的方法流程图。具体地,在步骤s1中,所述处理设备获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息;在步骤s2中,所述处理设备对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;在步骤s3中,所述处理设备根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配;在步骤s4中,所述处理设备根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求,进行初始资源描述信息的获取、资源规范名称信息的获取、参考资源描述信息的确定、优选资源描述信息的确定等,直至所述处理设备停止获取一个或多个初始资源描述信息。
在步骤s1中,所述处理设备获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息。
具体地,在步骤s1中,所述处理设备根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述初始资源描述信息的一个或多个数据库或其他第三方设备相交互,以抽取所述初始描述信息的数据库中所存储的一个或多个初始资源描述信息,或者直接获取整个所述初始描述信息的数据库,从而获取所述初始描述信息的数据库中所包含的全部初始资源描述信息;或者在步骤s1中,所述处理设备还可以通过网络爬取的方式,在全网进行爬取后,获取所述一个或多个初始资源描述信息,或者通过爬取后获得一个或多个所述初始描述信息的数据库,进而从所述数据库中获取一个或多个初始资源描述信息。
其中,每个初始资源描述信息中包含对应资源的资源名称信息,此外,所述初始资源描述信息中还包括但不限于所述资源的作者信息、导演信息、演员信息、主要角色信息、内容摘要信息、分集信息、国别信息、上映时间/出版时间信息、海报信息、资源下载链接/播放链接信息等;所述资源包括但不限于视频、音频、图片、文本、其他多媒体资源等。
在此,本领域技术人员应能理解,上述所述初始资源描述信息中所包含的内容仅为举例,其他现有的或今后可能出现的用于描述资源的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤s2中,所述处理设备对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。
具体地,在步骤s2中,所述处理设备可以获取所述步骤s1中所获取的包含对应资源的资源名称信息的所述初始资源描述信息,通过对所述资源名称信息进行预处理,以对所述资源名称信息进行规范化,从而获得规范化的、与所述初始资源描述信息相对应的资源规范名称信息。这是由于当前不同的所述初始资源描述信息中,即使对于同一个资源,也可能由于各种原因而产生不同的资源名称信息,因此通过所述步骤s2对所述资源名称信息进行规范化处理,以获得统一的、规范化的资源规范名称信息。
在此,所述资源规范名称信息可以根据预先设置的资源规范名称信息表获取;也可以例如通过对多个资源名称信息进行统计或聚类后,将对应于统计结果中最多的资源名称,作为所述资源规范名称信息。
在此,所述预处理包括但不限于以下一种或几种方式:
-通过利用如正则匹配的方法,将所述资源名称信息中的非规范字符进行筛除,以获得资源规范名称信息;例如,将“西游记&”转化为“西游记”等;
-通过利用预先设置的资源同义词表,将所述资源名称信息进行归一化处理,以获得资源规范名称信息,其中,所述资源同义词表可以根据人工设置预定义,也可以利用机器学习等方式对例如网络搜索记录、网民输入信息等进行学习后获取;例如,将“万年小学生”转化为“名侦探柯南”等;
-通过利用与不同语言对应的资源翻译词表,将对应于不同语言的资源名称信息进行翻译后(如将英文资源名称翻译为中文资源名称),实现归一化处理,以获得资源规范名称信息,其中,所述同义词表可以根据人工设置预定义,也可以利用机器翻译等方式生成,也可以利用机器学习等方式对例如网络搜索记录、网民输入信息等进行学习后获取;例如,将“Journey to the West”转化为“西游记”等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息的方式,均应包含在本发明的范围内。
本领域技术人员应能理解,在步骤s2中,所述处理设备还可以对所述初始资源描述信息的资源名称信息进行判断,若所述资源名称信息已经是所述资源规范名称信息,则无需进行预处理步骤;若所述资源名称信息不是所述资源规范名称信息,则在步骤s2中,所述处理设备对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。
优选地,在步骤s2中,所述处理设备可以结合所述初始资源描述信息中的资源名称辅助信息,对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。
具体地,在步骤s2中,所述处理设备还可以结合所述初始资源描述信息中的资源名称辅助信息,例如通过对所述资源名称辅助信息进行规范化处理,从而对所述包含资源名称辅助信息的资源名称信息进行预处理;或者结合所述资源名称信息与初始资源描述信息,对所述资源名称辅助信息进行预处理,以对所述资源名称信息进行规范化,从而获得规范化的、与所述初始资源描述信息相对应的资源规范名称信息。
其中,所述资源名称辅助信息包括但不限于如资源编号信息(如第一季、第一集、1等)、副标题信息等。
其中,对所述资源名称辅助信息的预处理方式包括但不限于利用如预先设置的辅助资源同义词表,对所述资源名称辅助信息进行归一化处理,从而对所述包含资源名称辅助信息的资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。其中,所述辅助资源同义词表可以根据人工设置预定义,也可以利用机器学习等方式对例如网络搜索记录、网民输入信息等进行学习后获取。
例如,当所述资源名称信息为“老友记”,资源名称辅助信息为“第一部”时,则将资源名称辅助信息“第一部”进行预处理,转变为“第一季”,从而获得所述资源规范名称信息“老友记第一季”;所述资源名称辅助信息为“1”时,还可以结合所述资源名称信息,确定所述“1”为“第一集”或者为“第一季”,从而对所述资源名称信息进行预处理,以确定所述初始资源描述信息所对应的资源规范名称信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何结合所述初始资源描述信息中的资源名称辅助信息,对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息的方式,均应包含在本发明的范围内。
在步骤s3中,所述处理设备根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配。
具体地,在步骤s3中,所述处理设备通过根据所述步骤s2中所获得所述资源规范名称信息,将与所述初始资源描述信息的资源名称信息所对应的资源规范名称信息,与其他初始资源描述信息所对应的资源规范名称信息相匹配,从而将具有相同或相似的资源规范名称信息的其他初始资源描述信息,确定为与所述初始资源描述信息相对应的一个或多个参考资源描述信息。
其中,所述参考资源描述信息中包括但不限于所述资源名称、所述资源规范名称信息、所述资源的作者信息、导演信息、演员信息、主要角色信息、内容摘要信息、分集信息、国别信息、上映时间/出版时间信息、海报信息、资源下载链接/播放链接信息等;所述资源包括但不限于视频、音频、图片、文本、其他多媒体资源等。
优选地,在步骤s3中,所述处理设备可以根据所述资源规范名称信息,并结合所述初始资源描述信息中的资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
具体地,在步骤s3中,所述处理设备可以根据具有相同或相似(例如具有相同的副标题等)的资源规范名称信息的一个或多个初始资源描述信息,通过利用所述初始资源描述信息中资源关键属性信息,计算两个或多个资源描述信息的重合度或相似度,根据所述重合度或相似度(例如,根据所述资源关键属性信息计算余弦相似度等),确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
其中,所述资源关键属性信息包括但不限于资源名称、所述资源规范名称信息、所述资源的作者信息、导演信息、演员信息、主要角色信息、内容摘要信息、分集信息、国别信息、上映时间/出版时间信息、海报信息、资源下载链接/播放链接信息等;所述资源包括但不限于视频、音频、图片、文本、其他多媒体资源等。
进一步地,还可以通过直接获取或者与第三方交互后获取所述资源的资源信息,例如,视频资源的视频,音频资源的音频等;从而通过直接获取或经过计算后获取所述资源的标识信息,例如,视频资源的MD5信息、图片资源的纹理信息等;并将所述标识信息也作为所述资源关键属性信息。例如,若某个资源描述信息的资源规范名称信息与所述初始资源描述信息并不相同而仅相似,而两者所对应的资源的标识信息完全一致,则根据所述标识信息,也可以将所述资源描述信息作为所述初始资源描述信息所对应的参考资源描述信息。
更优选地,在步骤s3中,所述处理设备可以根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个候选参考资源描述信息,其中,所述候选参考资源描述信息与所述资源规范名称信息相匹配;根据所述初始资源描述信息中的资源关键属性信息,在所述一个或多个候选参考资源描述信息中确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源关键属性信息相匹配。
具体地,在步骤s3中,所述处理设备通过根据所述步骤s2中所获得所述资源规范名称信息,将与所述初始资源描述信息的资源名称信息所对应的资源规范名称信息,与其他初始资源描述信息所对应的资源规范名称信息相匹配,从而将具有相同或相似的资源规范名称信息的其他初始资源描述信息,确定为与所述初始资源描述信息相对应的一个或多个候选参考资源描述信息,其中,所述候选参考资源描述信息与所述资源规范名称信息相匹配。
考虑到即使是所述资源规范名称信息相同时,所对应的资源也可能为不同的资源,因此在步骤s3中,所述处理设备还可以根据所述初始资源描述信息中的资源关键属性信息,与所述一个或多个候选参考资源描述信息中的资源关键属性信息进行匹配,例如计算所述初始资源描述信息与所述候选参考资源描述信息的资源关键属性信息的重合度或相似度,若所述重合度或相似度超过预定的或机器学习所得到的阈值后,才确定所对应的候选参考资源描述信息为所述初始资源描述信息所对应的参考资源描述信息。
其中,计算重合度或相似度的方法包括但不限于利用余弦相似度进行计算,或者利用余弦相似度与预定的筛选规则一起进行判断等。例如,如果某个资源对应于多部系列,则可以利用计算余弦相似度确定对应于某一特定系列的多个参考资源描述信息;同时结合额外的判断规则,将对应于多个系列的资源描述信息进行整合,在区分同一个资源的多个系列的基础上,形成对该资源的多个系列的完整描述。
更优选地,在步骤s3中,所述处理设备可以根据所述初始资源描述信息所对应资源的资源相关信息,在所述初始资源描述信息中的资源关键属性信息中确定优选资源关键属性信息;根据所述资源规范名称信息,并结合所述优选资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
具体地,由于不同的资源可能具有不同的资源关键属性信息,因此在步骤s3中,所述处理设备还可以根据所述初始资源描述信息所对应资源的资源相关信息,在所述初始资源描述信息中的资源关键属性信息中确定与所述初始资源描述信息所对应的优选资源关键属性信息。
其中,所述资源相关信息包括但不限于资源类别信息、资源年份信息、资源国别信息等。其中,所述资源类别信息包括但不限于视频、音频、图片、文本、其他多媒体资源等;或者,还可以划分为电视剧、电影、动漫、小说等。
例如,当所述资源相关信息为资源类别信息,且所述资源类别为电影类别时,所述优选资源关键属性信息包括但不限于演员、导演、国别、年份等;当所述资源类别为电视剧类别时,所述优选资源关键属性信息包括但不限于演员、导演、集数、年份、国别等;当所述资源类别为动漫类别时,所述优选资源关键属性信息包括但不限于国别、作者、主要人物、监督等。
在此,本领域技术人员应能理解,上述所述资源相关信息以及所述对应于不同资源类别信息的优选资源关键属性信息仅为举例,其他现有的或今后可能出现的所述资源相关信息以及所述对应于不同资源类别信息的优选资源关键属性信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤s3中,所述处理设备根据所述资源规范名称信息,并结合所述优选资源关键属性信息,通过例如计算所述初始资源描述信息与其他资源描述信息的所述优选资源关键属性信息的重合度或相似度,以确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息。优选地,所述优选资源关键属性信息可以对应不同的权值信息,从而还可以基于所述权值信息,在计算重合度或相似度时进行加权计算。
优选地,在步骤s3中,所述处理设备可以根据所述资源规范名称信息,并结合所述资源规范名称信息所对应的名称映射信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配。
具体地,在步骤s3中,所述处理设备可以获取与所述资源规范名称信息所对应的名称映射信息,在此,所述名称映射信息包括但不限于中文与外文之间的映射关系、缩写与全称之间的映射关系等。从而在步骤s3中,所述处理设备利用所述名称映射信息,将多种语言版本或多种资源规范名称信息的参考资源描述信息与所述初始资源描述信息相对应,进而完善所述优选资源描述信息。
例如,当所述初始资源描述信息的资源规范名称信息为中文“西游记”时,在步骤s3中,所述处理设备可以根据另一资源描述信息所对应的英文名称映射信息“Journey to the West”,将所述“Journey to theWest”所对应的资源描述信息,作为所述初始资源描述信息的参考资源描述信息;从而在步骤s4中,所述处理设备,可以将所述“Journeyto the West”所对应的资源描述信息(例如,包括但不限于英文资源描述信息)添加至所述初始资源描述信息中,从而生成优选资源描述信息。
在此,本领域技术人员应能理解,当涉及到资源名称的名称映射信息转换时,可以根据需要或系统缺省设置,或者根据所设置的资源规范名称信息,或者根据相对应的资源描述信息进行选择,从而在所述步骤s2中进行处理,或者在所述步骤s3中进行处理。例如,若设定“Journeyto the West”为资源规范名称信息,则可以在所述步骤s3进行处理,若设定“Journey to the West”为非资源规范名称信息,则可以在步骤s2中进行处理。或者,例如,当所述资源描述信息为全英文时,则在所述步骤s3中进行处理,若所述资源描述信息仅有资源名称为英文时,则在所述步骤s2中进行处理等。
在步骤s4中,所述处理设备根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。
具体地,在步骤s4中,所述处理设备根据所述初始资源描述信息,结合所述步骤s3中所确定的一个或多个参考资源描述信息,通过将所述初始资源描述信息及所述参考资源描述信息进行整合等方式,确定所述初始资源描述信息所对应资源的优选资源描述信息。其中,所述整合包括但不限于通过结合所述参考资源描述信息,在初始资源描述信息中添加所述初始资源描述信息中不存在的描述项、为所述初始资源描述信息中已有的描述项进行修正或补充等。
例如,所述资源为电影“建国大业”,所述初始资源描述信息中包含了上映时间信息、导演信息、演员信息,第一参考资源描述信息中包括视频观看链接信息,第二参考资源描述信息中包括电影简介信息,则在步骤s4中,所述处理设备将所述视频观看链接信息与电影简介信息添加到所述初始资源描述信息中,所生成的优选资源描述信息则包括对“建国大业”的上映时间信息、导演信息、演员信息、视频观看链接信息、电影简介信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息的方式,均应包含在本发明的范围内。
优选地,在步骤s4中,所述处理设备可以对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,以确定与所述初始资源描述信息相对应的信息聚类;确定所述信息聚类所对应的表征信息,以作为所述初始资源描述信息所对应资源的优选资源描述信息。
优选地,在步骤s4中,所述处理设备可以根据所述初始资源描述信息,结合所述步骤s3中所确定的一个或多个参考资源描述信息,例如通过根据所述初始资源描述信息及所述参考资源描述信息中的具体信息项的表征信息,对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,从而确定与所述初始资源描述信息相对应的信息聚类,根据所述信息聚类可以确定所述具体信息项的表征信息的分布情况。在此,所述聚类处理也可以利用如频次统计的方法进行。
其中,所述具体信息项例如资源名称、所述资源规范名称信息、所述资源的作者信息、导演信息、演员信息、主要角色信息、内容摘要信息、分集信息、国别信息、上映时间/出版时间信息、海报信息、资源下载链接/播放链接信息等,所述具体信息项的表征信息即例如所述演员信息中所包含的具体演员名称等。
在步骤s4中,所述处理设备根据所述信息聚类,确定所述信息聚类所对应的表征信息,并将所述表征信息作为所述初始资源描述信息所对应资源的优选资源描述信息。其中,所述表征信息包括但不限于所述资源描述信息中具体信息项的内容信息。
例如,对于某一资源的“出版时间”的描述信息中,根据所述初始资源描述信息及其对应的5个参考资源描述信息可以划分为3个信息聚类,第一信息聚类对应3个表征信息为“1990年”的资源描述信息,第二信息聚类对应2个表征信息为“无”的资源描述信息,第三信息聚类对应1个表征信息为“1991年”的资源描述信息;则将第一信息聚类所对应的表征信息“1990年”作为所述初始资源描述信息相对应的优选资源描述信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,以确定与所述初始资源描述信息相对应的信息聚类,并确定所述信息聚类所对应的表征信息,以作为所述初始资源描述信息所对应资源的优选资源描述信息的方式,均应包含在本发明的范围内。
图4示出根据本发明一个优选实施例的一种用于确定资源的优选资源描述信息的处理设备的方法流程图。具体地,在步骤s1’中,所述处理设备获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息;在步骤s2’中,所述处理设备对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;在步骤s3’中,所述处理设备根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配;在步骤s4’中,所述处理设备根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息;在步骤s5’中,所述处理设备根据所述优选资源描述信息,建立或更新对应的资源信息库。其中,所述步骤s1’、步骤s2’、步骤s3’、步骤s4’与图3所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求,进行初始资源描述信息的获取、资源规范名称信息的获取、参考资源描述信息的确定、优选资源描述信息的确定、资源信息库的建立或更新等,直至所述处理设备停止获取一个或多个初始资源描述信息。
在步骤s5’中,所述处理设备根据所述优选资源描述信息,建立或更新对应的资源信息库。
具体地,在步骤s5’中,所述处理设备通过根据所述优选资源描述信息,将一个或多个所述优选资源描述信息建立所对应的资源信息库;若已经存在资源信息库,则根据所述优选资源描述信息,将所述资源信息库中的相应信息进行更新。
其中,所述资源信息库中包括一条或多条根据所述优选资源描述信息建立或更新的资源描述记录;所述资源描述记录中包括但不限于以下一种或多种信息:资源的名称信息、文本信息(如资源的文字介绍,包括如导演、演员、年份、简介等)或资源信息(如视频或音频、或视频音频的播放链接信息等)、其他多媒体信息(如图片、海报信息)等。
优选地,所述方法还包括步骤s6’与步骤s7’,其中,在步骤s6’中,所述处理设备根据查询请求在所述资源信息库中进行匹配查询,以获得与所述查询请求相匹配的一个或多个资源描述记录;在步骤s7’中,所述处理设备将所述一或多个资源描述记录所对应的信息提供给所述查询请求所对应的应用。
具体地,在步骤s6’中,所述处理设备通过直接与用户交互,获取用户通过点击、输入、语音输入、触摸操作等方式所输入的查询请求,或者根据各种通信协议(Communications Protocol),通过各类数据传输接口,与存储或提供所述查询请求的数据库或其他第三方设备相交互,获取用户的所述查询请求。其中,所述查询请求中包含与资源相关联的查询信息,例如,所述查询请求中包含资源名称关键字等。
在步骤s6’中,所述处理设备根据所述查询请求在所述资源信息库中进行匹配查询,若所述查询请求与所述资源信息库中的信息相匹配,则将所述资源信息库中相匹配的资源描述记录作为与所述查询请求相匹配的一个或多个资源描述记录。
在步骤s7’中,所述处理设备通过利用所述查询请求所对应的应用所提供的应用程序接口(API)或http、https等其他约定的通信方式的格式要求,与所述查询请求所对应的应用相交互,将所述一或多个资源描述记录所对应的信息提供给所述查询请求所对应的应用。
更优选地,所述方法还包括步骤s8’(未示出),其中,在步骤s8’中,所述处理设备根据资源描述记录生成对应的搜索结果摘要信息;在步骤s7’中,所述处理设备将所述搜索结果摘要信息提供给所述查询请求所对应的应用。
具体地,在步骤s8’中,所述处理设备通过与所述步骤s6’相交互,获取所述步骤s6’所获取的一个或多个资源描述记录,在步骤s8’中,所述处理设备根据所述资源描述记录,通过例如提取所述资源描述记录中的关键字、作品简介等,生成对应的搜索结果摘要信息;进一步地,还可以基于所述查询请求所对应的应用的相关信息,如显示屏幕大小等,生成适应于所述应用的搜索结果摘要信息。
在步骤s7’中,所述处理设备通过利用所述查询请求所对应的应用所提供的应用程序接口(API)或http、https等其他约定的通信方式的格式要求,与所述查询请求所对应的应用相交互,将所述搜索结果摘要信息提供给所述查询请求所对应的应用。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种用于确定资源的优选资源描述信息的方法,其中,该方法包括以下步骤:
a获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息;
b对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;
c根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配;
d根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。
2.根据权利要求1所述的方法,其中,所述步骤b包括:
-结合所述初始资源描述信息中的资源名称辅助信息,对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。
3.根据权利要求1所述的方法,其中,所述步骤c包括:
-根据所述资源规范名称信息,并结合所述初始资源描述信息中的资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
4.根据权利要求3所述的方法,其中,所述步骤c包括:
-根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个候选参考资源描述信息,其中,所述候选参考资源描述信息与所述资源规范名称信息相匹配;
-根据所述初始资源描述信息中的资源关键属性信息,在所述一个或多个候选参考资源描述信息中确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源关键属性信息相匹配。
5.根据权利要求3所述的方法,其中,所述步骤c包括:
-根据所述初始资源描述信息所对应资源的资源相关信息,在所述初始资源描述信息中的资源关键属性信息中确定优选资源关键属性信息;
-根据所述资源规范名称信息,并结合所述优选资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤c包括:
-根据所述资源规范名称信息,并结合所述资源规范名称信息所对应的名称映射信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配。
7.根据权利要求1至6中任一项所述的方法,其中,所述步骤d包括:
-对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,以确定与所述初始资源描述信息相对应的信息聚类;
-确定所述信息聚类所对应的表征信息,以作为所述初始资源描述信息所对应资源的优选资源描述信息。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括:
-根据所述优选资源描述信息,建立或更新对应的资源信息库。
9.根据权利要求8所述的方法,其中,该方法还包括:
-根据查询请求在所述资源信息库中进行匹配查询,以获得与所述查询请求相匹配的一个或多个资源描述记录;
x将所述一或多个资源描述记录所对应的信息提供给所述查询请求所对应的应用。
10.根据权利要求9所述的方法,其中,该方法还包括:
-根据资源描述记录生成对应的搜索结果摘要信息;
其中,所述步骤x包括:
-将所述搜索结果摘要信息提供给所述查询请求所对应的应用。
11.一种用于确定资源的优选资源描述信息的处理设备,其中,该设备包括:
获取装置,用于获取一个或多个初始资源描述信息,其中,每个初始资源描述信息包含对应资源的资源名称信息;
预处理装置,用于对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息;
参考确定装置,用于根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配;
优选确定装置,用于根据所述初始资源描述信息,结合所述一个或多个参考资源描述信息,确定所述初始资源描述信息所对应资源的优选资源描述信息。
12.根据权利要求11所述的处理设备,其中,所述预处理装置用于:
-结合所述初始资源描述信息中的资源名称辅助信息,对所述资源名称信息进行预处理,以获得所述初始资源描述信息所对应的资源规范名称信息。
13.根据权利要求11所述的处理设备,其中,所述参考确定装置用于:
-根据所述资源规范名称信息,并结合所述初始资源描述信息中的资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
14.根据权利要求13所述的处理设备,其中,所述参考确定装置用于:
-根据所述资源规范名称信息,确定与所述初始资源描述信息相对应的一个或多个候选参考资源描述信息,其中,所述候选参考资源描述信息与所述资源规范名称信息相匹配;
-根据所述初始资源描述信息中的资源关键属性信息,在所述一个或多个候选参考资源描述信息中确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源关键属性信息相匹配。
15.根据权利要求13所述的处理设备,其中,所述参考确定装置用于:
-根据所述初始资源描述信息所对应资源的资源相关信息,在所述初始资源描述信息中的资源关键属性信息中确定优选资源关键属性信息;
-根据所述资源规范名称信息,并结合所述优选资源关键属性信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息及所述资源关键属性信息相匹配。
16.根据权利要求11至15中任一项所述的处理设备,其中,所述参考确定装置用于:
-根据所述资源规范名称信息,并结合所述资源规范名称信息所对应的名称映射信息,确定与所述初始资源描述信息相对应的一个或多个参考资源描述信息,其中,所述参考资源描述信息与所述资源规范名称信息相匹配。
17.根据权利要求11至16中任一项所述的处理设备,其中,所述优选确定装置用于:
-对所述初始资源描述信息及所述一个或多个参考资源描述信息进行聚类处理,以确定与所述初始资源描述信息相对应的信息聚类;
-确定所述信息聚类所对应的表征信息,以作为所述初始资源描述信息所对应资源的优选资源描述信息。
18.根据权利要求11至17中任一项所述的处理设备,其中,该设备还包括:
更新装置,用于根据所述优选资源描述信息,建立或更新对应的资源信息库。
19.根据权利要求18所述的处理设备,其中,该设备还包括:
查询装置,用于根据查询请求在所述资源信息库中进行匹配查询,以获得与所述查询请求相匹配的一个或多个资源描述记录;
提供装置,用于将所述一或多个资源描述记录所对应的信息提供给所述查询请求所对应的应用。
20.根据权利要求19所述的处理设备,其中,该设备还包括:
摘要生成装置,用于根据资源描述记录生成对应的搜索结果摘要信息;
其中,所述提供装置用于:
-将所述搜索结果摘要信息提供给所述查询请求所对应的应用。
CN201310219296.1A 2013-06-04 2013-06-04 一种用于确定资源的优选资源描述信息的方法与设备 Active CN103336784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310219296.1A CN103336784B (zh) 2013-06-04 2013-06-04 一种用于确定资源的优选资源描述信息的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310219296.1A CN103336784B (zh) 2013-06-04 2013-06-04 一种用于确定资源的优选资源描述信息的方法与设备

Publications (2)

Publication Number Publication Date
CN103336784A true CN103336784A (zh) 2013-10-02
CN103336784B CN103336784B (zh) 2016-04-20

Family

ID=49244949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310219296.1A Active CN103336784B (zh) 2013-06-04 2013-06-04 一种用于确定资源的优选资源描述信息的方法与设备

Country Status (1)

Country Link
CN (1) CN103336784B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111263201A (zh) * 2020-02-21 2020-06-09 广州欢网科技有限责任公司 回看节目推荐方法、装置及控制器
CN114329116A (zh) * 2021-12-31 2022-04-12 广州市帮豆你智慧城市服务有限公司 基于人工智能的智慧园区资源匹配度分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000611A (zh) * 2006-08-29 2007-07-18 曾文均 利用互联网为公众提供和查询信息的方法
US20090248622A1 (en) * 2008-03-26 2009-10-01 International Business Machines Corporation Method and device for indexing resource content in computer networks
CN102739772A (zh) * 2012-07-30 2012-10-17 李宗诚 基于价值链网络技术平台的全局对接均衡控制系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000611A (zh) * 2006-08-29 2007-07-18 曾文均 利用互联网为公众提供和查询信息的方法
US20090248622A1 (en) * 2008-03-26 2009-10-01 International Business Machines Corporation Method and device for indexing resource content in computer networks
CN102739772A (zh) * 2012-07-30 2012-10-17 李宗诚 基于价值链网络技术平台的全局对接均衡控制系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111263201A (zh) * 2020-02-21 2020-06-09 广州欢网科技有限责任公司 回看节目推荐方法、装置及控制器
CN114329116A (zh) * 2021-12-31 2022-04-12 广州市帮豆你智慧城市服务有限公司 基于人工智能的智慧园区资源匹配度分析方法及系统

Also Published As

Publication number Publication date
CN103336784B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
US10311478B2 (en) Recommending content based on user profiles clustered by subscription data
WO2017107453A1 (zh) 一种视频内容推荐方法、设备和系统
US8661041B2 (en) Apparatus and method for semantic-based search and semantic metadata providing server and method of operating the same
CN102346778B (zh) 一种用于提供搜索结果的方法与设备
CN104008139B (zh) 视频索引表的创建方法和装置,视频的推荐方法和装置
US10349137B2 (en) Device and method for recommending content and sound source
CN108694223A (zh) 一种用户画像库的构建方法及装置
US9606975B2 (en) Apparatus and method for automatically generating visual annotation based on visual language
CN109327714A (zh) 一种用于补充实况广播的方法及系统
CN102130933A (zh) 一种基于移动互联网的推荐方法、系统和设备
CN101419614A (zh) 视频资源聚类方法和装置
CN102763105A (zh) 用于分段和概括媒体内容的方法和装置
CN107426620B (zh) 一种节目内容推荐方法
CN105721944A (zh) 智能电视的新闻资讯推荐方法
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN102184185A (zh) 一种用于多媒体资源搜索的方法与设备
KR101404596B1 (ko) 이미지에 기반하여 동영상 서비스를 제공하는 시스템 및 방법
CN104423621A (zh) 拼音字符串处理方法和装置
CN104156356B (zh) 个性化导航页面生成方法及装置
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN104424362B (zh) 额外丰富内容元数据生成器
CN102999489A (zh) 一种社区网站页面的图片检索方法和系统
CN112825089A (zh) 文章推荐方法、装置、设备及存储介质
CN110020150B (zh) 信息推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant