CN109558468B - 资源的处理方法、装置、设备和存储介质 - Google Patents

资源的处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109558468B
CN109558468B CN201811526472.5A CN201811526472A CN109558468B CN 109558468 B CN109558468 B CN 109558468B CN 201811526472 A CN201811526472 A CN 201811526472A CN 109558468 B CN109558468 B CN 109558468B
Authority
CN
China
Prior art keywords
entity
resource
level
label
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811526472.5A
Other languages
English (en)
Other versions
CN109558468A (zh
Inventor
林义明
戴祥鹰
郭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811526472.5A priority Critical patent/CN109558468B/zh
Publication of CN109558468A publication Critical patent/CN109558468A/zh
Application granted granted Critical
Publication of CN109558468B publication Critical patent/CN109558468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例公开了一种资源的处理方法、装置、设备和存储介质。该方法包括:确定从各平台获取的资源关联的实体标签;根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合。本发明实施例实现了对多模态的资源进行合理化组织,不仅使网络中大量相关的资源得到汇总,而且使多模态的资源以实体标签的形式得到划分,提高了信息的展示效率和用户对于信息的获取效率。

Description

资源的处理方法、装置、设备和存储介质
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种资源的处理方法、装置、设备和存储介质。
背景技术
随着互联网时代的快速发展,网络信息载体也是多种多样,至少可以包括图片、文本、语音以及视频等多种展示形式,且大众也可以发表评论,网络资源呈现多模态化。因此,如何组织多模态的资源对于信息的有效展示至关重要。
现有技术中,存在不少报道资源的站点,通常将本站点有权限播报的资源,以图片、文本和视频等多种形式来展示,且同一页面中可以同时展示各类资源的多模态信息及其相关链接。如图1所示,为现有技术中某站点对于体育赛事的处理及展示效果。
然而,现有技术虽然能够将不同类别的资源信息以图文并茂的形式展现出来,但是现有技术的信息展示形式复杂,同一类别的资源信息逻辑线路不清楚,且信息内容较为局限,难以对全网络中的相关信息充分展示,降低了用户对于资源信息的查看效率。
发明内容
本发明实施例提供了一种资源的处理方法、装置、设备和存储介质,能够将网络中多模态的资源进行合理化组织,提供信息的展示效率和用户对于信息的获取效率。
第一方面,本发明实施例提供了一种资源的处理方法,包括:
确定从各平台获取的资源关联的实体标签;
根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合。
第二方面,本发明实施例提供了一种资源的处理装置,包括:
实体标签确定模块,用于确定从各平台获取的资源关联的实体标签;
资源聚合模块,用于根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合。
第三方面,本发明实施例提供了一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的资源的处理方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的资源的处理方法。
本发明实施例通过从网络中的各个平台获取大量的多模态的资源,对多模态的资源关联的各个实体进行实体的识别和实体标签的确定,从而依据实体标签、各实体之间的从属关系以及各实体标签关联的资源,对各资源进行聚合。本发明实施例实现了对多模态的资源进行合理化组织,不仅使网络中大量相关的资源得到汇总,而且使多模态的资源以实体标签的形式得到划分,提高了信息的展示效率和用户对于信息的获取效率。
附图说明
图1为现有技术中某站点对于体育赛事的处理及展示效果;
图2为本发明实施例一提供的一种资源的处理方法的流程图;
图3为本发明实施例二提供的一种资源的处理方法的流程图;
图4为本发明实施例二提供的按照赛事维度进行信息展示的示例图;
图5为本发明实施例二提供的赛事标签检索结果的示例图;
图6为本发明实施例三提供的一种资源的处理装置的结构示意图;
图7为本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图2为本发明实施例一提供的一种资源的处理方法的流程图,本实施例可适用于展示网络资源信息的情况,该方法可由一种资源的处理装置来执行。该方法具体包括如下步骤:
S210、确定从各平台获取的资源关联的实体标签。
在本发明具体实施例中,资源是指网络中展现的多模态信息,其资源种类、资源主题、展现形式和发布者等呈现多模态化和多源化,例如其展现形式可以包括图片信息、文本信息、语音信息以及视频信息等,其发布者可以包括官方发布和用户评论发表等。实体是指资源信息中所描述的主体,且实体之间可以具有包含、关联、附属等层级关系。实体标签用于对实体进行的标记,便于实体的识别和信息的组织。
本实施例中,可以借助于相关工具,从网络中的部分平台中获取资源。示例性的,可以采用cspub数据抓取工具平台,配合pie数据解析工具平台,实现各种实时或非实时的数据抓取和调度解析功能,获取第三方播报的资源信息。也可以借助开放平台,以分钟级别的时效性引入合作站点的资源信息。还可以借助公众平台,例如UGC(User GeneratedContent,用户原创内容)平台,通过站点或关键词的配置,接收公众平台的推荐,引入广大用户编辑的资源信息。从而可以借助mario实时流媒体数据处理系统,通过与各平台的无缝对接,对资源信息进行加工处理。并可以借助rawbas存储系统,对处理后的单条或批量数据进行存储,后期还可以配合gi索引检索工具实现数据访问功能。
具体的,资源可以是体育赛事资源,体育赛事资源可以是任何与竞技体育相关的各种赛事信息,可以是赛事本身的信息,例如官网发布的体育赛事信息、当前直播的体育赛事信息以及历史存在的体育赛事信息等,也可以是与赛事相关的信息,例如赛事关联的队伍或运动员信息、专家对于体育赛事的分析以及广大用户对于体育赛事的评论等。体育赛事资源呈现多模态化和多源化,可以是赛事相关图片信息、文本信息、语音信息以及视频信息等,且赛事资源不局限于官方等权威机构的发布,还可以源自于广大用户的发表。
相应的,体育实体是指体育数据信息中所描述的主体,可以是赛事、队伍或运动员等。其中,赛事实体可以是赛事主体,例如世界杯、英格兰足球超级联赛或欧洲冠军联赛等;队伍实体可以是参与赛事的队伍主体,例如曼联、曼城或阿森纳等;运动员实体可以是队伍成员主体,例如詹姆斯、梅西或C罗等。此外,体育实体不局限于上述主体,还可以为赛事中各赛程的裁判员、评论员或赞助方等。体育实体标签用于对体育实体进行的标记,便于体育实体的识别和信息的组织。
本实施例中,在确定从各平台获取的资源关联的实体标签之前,首先需要据各实体的名称确定资源的各层级实体集合;其中所述实体集合中包括实体正名和实体别名,以及实体正名和实体别名之间的关联关系。正名是指官方公布的较为正式和书面化的名称,别名是指正名的简称或者公众口授过程中较为常用的称呼。因此为了提高实体的识别能力,可以依据与历史检索词的匹配结果对实体名称进行扩充,确定各实体正名的别名。从而构建实体集合,同时将实体的正名与别名之间的关联关系记录在集合中。进而为资源中的实体添加实体标签。
具体的,首先对资源信息中的第一层级实体进行识别。若第一层级实体集合中的任一第一层级实体名称与从各平台获取的资源信息匹配,即识别出资源信息中的第一层级实体,则依据预先对资源信息规定的优先级,将该第一层级实体名称作为该资源的第一层级实体标签。并将属于该第一层级实体的第二层级实体集合和第三层级实体集合与所述资源信息继续进行匹配,并根据匹配结果确定所述资源的第二层级实体标签和第三层级实体标签。然而,若第一层级实体均与从各平台获取的资源信息不匹配,则将属于各第一层级实体的第二层级实体集合和第三层级实体集合与所述资源信息继续进行匹配,通过确定的第二层级实体和第三层级实体反推第一层级实体,以此确定各实体标签。
示例性的,在确定从各平台获取的体育赛事资源关联的体育实体标签之前,首先需要依据各体育实体的名称确定实体集合,例如赛事集合、各赛事的队伍集合、以及各队伍的运动员集合中的至少一个。其中,体育实体的名称可以包括体育实体的正名和别名,以及实体正名和实体别名之间的关联关系。例如队伍集合中包括队伍正名、队伍别名以及队伍正名和队伍别名之间的关联关系,运动员集合中包括运动员正名、运动员别名以及运动员正名和运动员别名之间的关联关系。进而以赛事为第一层级实体,以队伍为第二层级实体,以运动员为第三层级实体,为体育赛事资源中的体育实体添加实体标签。
然而,若赛事集合中的各赛事名称均与从各平台获取的体育赛事资源信息不匹配,即未识别出体育赛事资源信息中的赛事,则将属于各赛事的队伍集合和运动员集合均与所述体育赛事资源信息进行匹配,并根据匹配结果确定所述体育赛事资源的候选队伍标签和/或候选运动员标签。若能够识别出体育赛事资源信息中的队伍和/或运动员,则依据预先对体育赛事资源信息规定的优先级,将队伍集合和/或运动员集合中的匹配成功的队伍名和/或运动员名进行选择,将选择的队伍名和/或运动员名作为该体育赛事资源的候选队伍标签和/或候选运动员标签。在候选队伍标签和/或候选运动员标签的基础上,依据先验知识对赛事进行反推。若候选队伍标签和/或候选运动员标签关联唯一赛事,则将该唯一赛事名称作为所述体育赛事资源的赛事标签,将所述候选队伍标签和/或候选运动员标签分别作为体育赛事资源的队伍标签和/或运动员标签,并依据确定的赛事关联的队伍或运动员,进一步的对尚未确定的队伍标签或运动员标签进行匹配确定。
其中,在将任一候选实体名称与资源信息进行匹配过程中,预先对资源信息规定的优先级可以为,来源于资源的关键词中第一实体标签的优先级,高于来源于资源的标题中第二实体标签的优先级,所述第二实体标签的优先级高于来源于资源的正文中第三实体标签的优先级。
示例性的,假设通过各个平台获取的体育赛事资源1表示在赛事A中,队伍甲中的运动员a取得冠军。且假设赛事集合中包括赛事A,赛事A的队伍集合中包括队伍甲,队伍甲的运动员集合中包括运动员a。进而通过实体集合与体育赛事资源信息的匹配,可以为赛事实体添加标签A,为队伍实体添加标签甲,为运动员实体添加标签a。
S220、根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合。
在本发明具体实施例中,鉴于各平台获取的资源信息的多模态性和多源性,首先对获取的资源信息进行数据格式的统一化处理。其次通过对统一格式的多模态资源信息进行实体挖掘,确定各层级实体标签,从而依据实体标签对格式统一的资源信息进行数据的融合。即以同一实体为融合依据,将来自不同数据源中同一实体的多个属性数据融合在一起,使得用于描述实体的数据更为完整。其中,若相同数据的内容存在冲突时,即源自不同数据源的同一实体的同一属性的数据内容不相同时,或者同一第一层级实体本身不相同时,则可以依据择优原则选择冲突数据的真实数据。例如优先选择合作站点的数据,或者优先选择权威站点的数据。从而将各单一数据源信息之间建立连接,构成多模态信息的立体图谱。
示例性的,在上述示例中,假设通过各个平台获取的体育赛事资源1为文本新闻,其表示在赛事A中,队伍甲中的运动员a取得冠军。假设体育赛事资源2为图片信息,表示在赛事A中,队伍甲中的运动员a在比赛中受伤。首先,通过实体集合与体育赛事资源信息的匹配,确定了体育赛事资源1和体育赛事资源2的实体标签。其次,对体育赛事资源1和体育赛事资源2中的数据信息进行格式统一。最终,依据实体标签将体育赛事资源1和体育赛事资源2中的数据信息进行融合。假设最终可以确定融合后的多模态信息为,在赛事A中,队伍甲中的运动员a在比赛中受伤,但取得冠军,并附有图片信息。
本实施例中,在多模态信息融合后,若用户选择任一实体标签,则可以依据实体标签检索确定该实体标签关联的资源。也可以通过其他实体标签,检索确定相关的信息。示例性的,在上述示例中,为用户展示的页面中可以对各类实体进行划分,通常可以由较大的实体单位进行划分,例如赛事划分。当用户数据赛事A进行检索时,则依据实体标签之前的从属关系,检索确定该赛事标签关联的赛程资源、新闻资源和视频资源中的至少一个,将属于该赛事A的相关信息展示给用户。
本实施例的技术方案,通过从网络中的各个平台获取大量的多模态的资源,对多模态的资源关联的各个实体进行实体的识别和实体标签的确定,从而依据实体标签、各实体之间的从属关系以及各实体标签关联的资源,对各资源进行聚合。本发明实施例实现了对多模态的资源进行合理化组织,不仅使网络中大量相关的资源得到汇总,而且使多模态的资源以实体标签的形式得到划分,提高了信息的展示效率和用户对于信息的获取效率。
实施例二
本实施例在上述实施例一的基础上,提供了资源的处理方法的一个优选实施方式,能够依据实体标签进行信息检索。图3为本发明实施例二提供的一种资源的处理方法的流程图,如图3所示,该方法包括以下具体步骤:
S310、确定资源的各层级实体集合。
在本发明具体实施例中,在通过各平台获取的资源之后,首先需要依据各实体的名称确定实体集合,并进行层级关系的划分,例如第一层级实体其涵盖范围较大,包含第二层级实体,其中第二层级实体还可以进一步细分包括第三层级实体,确定资源的各层级实体集合。其中,为了提高实体的识别能力,可以依据与历史检索词的匹配结果对实体名称进行扩充,确定各实体正名的别名,从而构建包括实体正名和实体别名实体集合,同时将实体正名与实体别名之间的关联关系记录在集合中,便于对多源信息中各种形式的表达进行识别。
示例性的,在体育赛事资源中,可以根据各实体的名称确定赛事集合即第一层级实体集合、各赛事的队伍集合即第二层级实体集合、以及各队伍的运动员集合即第三层级实体集合中的至少一个。其中,队伍别名和/或运动员别名是将队伍正名和/或运动员正名与历史检索词进行匹配确定的。队伍集合中包括队伍正名和队伍别名,以及队伍正名和队伍别名之间的关联关系;运动员集合中包括运动员正名和运动员别名,以及运动员正名和运动员别名之间的关联关系。例如,队伍正名为曼彻斯特联足球俱乐部,通过与历史检索词的匹配结果可以扩展其队伍别名,例如ManUtd、MUFC或曼联等。
S320、确定从各平台获取的资源关联的实体标签。
在本发明具体实施例中,可以通过实体集合与资源的匹配,将匹配成功的实体的名称作为该实体的标签。然而在信息的匹配过程中,对于同一资源信息,其中可以划分为不同的部分,例如关键词、标题和正文等部分,而其每个部分对于同一实体的表述可以并不统一。因此为了避免信息的确定冲突,可以预先对资源信息中各部分的优先级进行规定,从而依据信息中各部分的优先级进行信息的匹配和标签的确定。
可选的,在将任一候选实体名称与资源信息进行匹配过程中,来源于资源的关键词中第一实体标签的优先级,高于来源于资源的标题中第二实体标签的优先级;第二实体标签的优先级高于来源于资源的正文中第三实体标签的优先级。
本实施例中,鉴于信息中的关键词是标题中关键信息的提炼,而标题是正文中关键信息的提炼,信息数量越大的表述部分中可能包括越多于主题关联较低的额外实体。因此依据实体信息的来源,将关键词中的实体标签的优先级规定为最高,其次为标题中的实体标签,最次为正文中的实体标签。进而依据预先对资源信息规定的优先级,通过实体集合与资源的匹配,确定资源关联的实体标签。
可选的,若第一层级实体集合中的任一实体名称与从各平台获取的资源信息匹配,则将该实体名称作为该资源的第一层级实体标签;将属于该第一层级实体名称的第二层级实体集合和第三层级实体集合与所述资源信息进行匹配,并根据匹配结果确定所述资源的第二层级实体标签和第三层级实体标签。
本实施例中,通过第一层级实体集合与资源信息的匹配,若识别出资源信息中的第一层级实体,则依据预先对资源信息规定的优先级,将第一层级实体集合中的匹配成功的第一层级实体名作为该资源的第一层级实体标签。并将属于该第一层级实体的第二层级实体集合和第三层级实体员集合分别与该资源信息继续进行匹配,同样将第二层级实体集合和第三层级实体集合中的匹配成功的第二层级实体名称和第三层级实体名称作为该资源的第二层级实体标签和第三层级实体标签。
示例性的,在体育赛事资源中,以赛事为第一层级实体,以队伍为第二层级实体,以运动员为第三层级实体。假设赛事集合中包括赛事A和赛事B,赛事A的队伍集合中包括队伍甲,队伍甲的运动员集合中包括运动员a。同样假设体育赛事资源的关键词中包括赛事A,体育赛事资源的标题中包括赛事A和赛事B。因此,通过赛事集合与体育赛事资源信息的匹配,依据预先对体育赛事资源信息规定的优先级,可以将赛事A作为该体育赛事资源的赛事标签。通过属于赛事A的队伍集合和运动员集合分别与该体育赛事资源信息继续进行匹配,若匹配成功的为队伍甲和运动员a,则将队伍甲作为该体育赛事资源的队伍标签,将运动员a作为该体育赛事资源的运动员标签。
可选的,若第一层级实体集合中的各第一层级实体名称均与从各平台获取的资源信息不匹配,则将属于各第一层级实体的第二层级实体集合和第三层级实体集合均与该资源信息进行匹配,并根据匹配结果确定该资源的候选第二层级实体标签和/或候选第三层级实体标签;若候选第二层级实体标签和/或候选第三层级实体标签关联唯一第一层级实体,则将该唯一第一层级实体名称作为该资源的第一层级实体标签,将该候选第二层级实体标签和/或候选第三层级实体标签分别作为资源的第二层级实体标签和/或第三层级实体标签。
本实施例中,在体育赛事资源中,通过赛事集合与体育赛事资源信息的匹配,若未能识别出体育赛事资源信息中的赛事,则将所有赛事关联的队伍集合和运动员集合均与该体育赛事资源信息进行匹配。若能够识别出体育赛事资源信息中的队伍和/或运动员,则依据预先对体育赛事资源信息规定的优先级,将队伍集合和/或运动员集合中的匹配成功的队伍名和/或运动员名进行选择,将选择的队伍名和/或运动员名作为该体育赛事资源的候选队伍标签和/或候选运动员标签。在候选队伍标签和/或候选运动员标签的基础上,依据先验知识对赛事进行反推。若依据候选队伍标签和/或候选运动员标签反推的赛事只有一个结果,则该赛事反推结果的可信度较高,将该赛事反推结果作为该体育赛事资源的赛事标签。否则,不信任该赛事反推结果。若赛事标签确定,则候选队伍标签和/或候选运动员标签分别作为体育赛事资源的队伍标签和/或运动员标签。若队伍标签和运动员标签中存在尚未确定的一项,则依据上述同样的实体标签确定方式,将属于该赛事的队伍集合或运动员集合分别与该体育赛事资源信息继续进行匹配,同样将队伍集合或运动员集合中的匹配成功的队伍名或运动员名作为该体育赛事资源的队伍标签或运动员标签。
示例性的,在上述示例中,若体育赛事资源信息与赛事集合中的实体无一项匹配,则将所有赛事关联的队伍集合和运动员集合均与该体育赛事资源信息进行匹配。依据预先对体育赛事资源信息规定的优先级,假设匹配的候选队伍标签为队伍甲,候选运动员标签为运动员a。则在队伍甲和运动员a的基础上,依据先验知识反推出赛事A且结果唯一,则将赛事A作为该体育赛事资源的赛事标签,将队伍甲作为该体育赛事资源的队伍标签,将运动员a作为该体育赛事资源的运动员标签。
S330、根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合。
在本发明具体实施例中,以同一实体为融合依据,将来自不同数据源中同一实体的多个属性数据融合在一起,使得用于描述实体的数据更为完整。其中,若相同数据的内容存在冲突时,即源自不同数据源的同一实体的同一属性的数据内容不相同时,或者同一实体本身不相同时,则可以依据择优原则选择冲突数据的真实数据。例如优先选择合作站点的数据,或者优先选择权威站点的数据。从而将单源信息之间建立连接,构成多模态信息的立体图谱。
S340、若用户选择任一实体标签,则确定该实体标签关联的资源。
在本发明具体实施例中,在多模态信息融合后,若用户选择任一实体标签,则可以依据实体标签检索确定该实体标签关联的资源。也可以通过其他实体标签,检索确定相关信息。实现了通过实体标签对融合后的多模态资源信息进行检索,从而使用户获得同一实体标签下的多模态信息,便于用户对同一实体关联的信息的一次性获取。
示例性的,为用户展示的页面中可以对各类实体进行划分,通常可以由较大的实体单位进行划分,图4为按照赛事维度进行信息展示的示例图。每个赛事下,除了赛况本身以外,还可以真实赛事相关队伍或运动员的新闻或视频等多模态信息,图5为赛事标签检索结果的示例图。由图中可以看出,各类多模态的体育信息得到融合,通过层次的划分,用户可以一次性获得检索实体相关的融合后的多模态信息。且通过与现有技术的对比,本实施例为用户提供简单、高效、层次鲜明的信息展示,避免多模态信息的复杂堆砌。
本实施例的技术方案,通过对资源构建实体集合,依据实体集合对获取的各平台的多模态资源进行实体的识别和实体标签的确定,依据实体标签、各实体之间的从属关系以及各实体标签关联的资源,对各资源进行聚合,从而依据实体标签对融合后的多模态信息进行检索。本发明实施例实现了对多模态的资源进行合理化组织,不仅使网络中大量相关的资源得到汇总,而且使多模态的资源以实体标签的形式得到划分,提高了信息的展示效率和用户对于信息的获取效率。以使在后期检索实体对应的信息时,为用户提供简单、高效、层次鲜明的信息展示,避免多模态信息的复杂堆砌。
实施例三
图6为本发明实施例三提供的一种资源的处理装置的结构示意图,本实施例可适用于展示网络资源信息的情况,该装置可实现本发明任意实施例所述的资源的处理方法。该装置具体包括:
实体标签确定模块610,用于确定从各平台获取的资源关联的实体标签;
资源聚合模块620,用于根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合。
进一步的,所述装置还包括实体集合确定模块630;所述实体集合确定模块630具体用于:
在所述确定从各平台获取的资源关联的实体标签之前,确定资源的各层级实体集合;其中所述实体集合中包括实体正名和实体别名,以及实体正名和实体别名之间的关联关系。
可选的,所述实体别名是将所述实体正名与历史检索词进行匹配确定的。
可选的,所述实体标签确定模块610具体用于:
若第一层级实体集合中的任一实体名称与从各平台获取的资源信息匹配,则将该实体名称作为该资源的第一层级实体标签;
将属于该实体名称的第二层级实体集合和第三层级实体集合,均与所述资源信息进行匹配,并根据匹配结果确定所述资源的第二层级实体标签和第三层级实体标签。
可选的,所述实体标签确定模块610具体用于:
若第一层级实体集合中的各第一层级实体名称均与从各平台获取的资源信息不匹配,则将属于各第一层级实体的第二层级实体集合和第三层级实体集合均与所述资源信息进行匹配,并根据匹配结果确定所述资源的候选第二层级实体标签和/或候选第二层级实体标签;
若所述候选第二层级实体标签和候选第三层级实体标签关联唯一第一层级实体,则将该唯一第一层级实体名称作为所述资源的第一层级实体标签,将所述候选第二层级实体标签和候选第三层级实体标签分别作为资源的第二层级实体标签和第三层级实体标签。
可选的,在将任一候选实体名称与资源信息进行匹配过程中,来源于资源的关键词中第一实体标签的优先级,高于来源于资源的标题中第二实体标签的优先级;
所述第二实体标签的优先级高于来源于资源的正文中第三实体标签的优先级。
进一步的,所述装置还包括资源检索模块640;所述资源检索模块640具体用于:
在所述根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合之后,若用户选择任一实体标签,则确定该实体标签关联的资源。
本实施例的技术方案,通过各个功能模块之间的相互配合,实现了资源的获取、实体集合的构建、实体标签的添加、数据格式的统一、数据的融合以及数据检索等功能。本发明实施例实现了对多模态的资源进行合理化组织,不仅使网络中大量相关的资源得到汇总,而且使多模态的资源以实体标签的形式得到划分,提高了信息的展示效率和用户对于信息的获取效率。以使在后期检索实体对应的信息时,为用户提供简单、高效、层次鲜明的信息展示,避免多模态信息的复杂堆砌。
实施例四
图7为本发明实施例四提供的一种设备的结构示意图,图7示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图7显示的设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
图7显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器16,系统存储器28,连接不同系统组件(包括系统存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的资源的处理方法。
实施例五
本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行一种资源的处理方法,该方法包括:
确定从各平台获取的资源关联的实体标签;
根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种资源的处理方法,其特征在于,包括:
依据各实体的名称确定资源的各层级实体集合;其中,所述实体集合中包括实体正名和实体别名,以及实体正名和实体别名之间的关联关系,上一层级实体包括下一层级实体;
确定从各平台获取的资源关联的实体标签;
根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合;
若用户选择任一实体标签,则依据实体标签之间的从属关系,检索确定所述实体标签关联的资源信息;
所述根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合,包括:
对获取的资源信息进行数据格式的统一化处理;
以同一实体为融合依据,将来自不同数据源中同一实体的多个属性数据融合在一起;
若来自不同数据源的同一实体的同一属性的数据内容不相同,则依据择优原则确定融合数据。
2.根据权利要求1所述的方法,其特征在于,所述实体别名是将所述实体正名与历史检索词进行匹配确定的。
3.根据权利要求1所述的方法,其特征在于,所述确定从各平台获取的资源关联的实体标签,包括:
若第一层级实体集合中的任一实体名称,与从各平台获取的资源信息匹配,则将该实体名称作为该资源的第一层级实体标签;
将属于该实体名称的第二层级实体集合和第三层级实体集合,均与所述资源信息进行匹配,并根据匹配结果确定所述资源的第二层级实体标签和第三层级实体标签。
4.根据权利要求1所述的方法,其特征在于,所述确定从各平台获取的资源关联的实体标签,包括:
若第一层级实体集合中的第一层级实体名称均与从各平台获取的资源信息不匹配,则将属于各第一层级实体名称的第二层级实体集合和第三层级实体集合均与所述资源信息进行匹配,并根据匹配结果确定所述资源的候选第二层级实体标签和候选第三层级实体标签;
若所述候选第二层级实体标签和候选第三层级实体标签关联唯一第一层级实体,则将该唯一第一层级实体名称作为所述资源的第一层级实体标签,将所述候选第二层级实体标签和候选第三层级实体标签分别作为资源的第二层级实体标签和第三层级实体标签。
5.根据权利要求3或4所述的方法,其特征在于,包括:
在将任一候选实体名称与资源信息进行匹配过程中,来源于资源的关键词中第一实体标签的优先级,高于来源于资源的标题中第二实体标签的优先级;
所述第二实体标签的优先级高于来源于资源的正文中第三实体标签的优先级。
6.一种资源的处理装置,其特征在于,包括:
依据各实体的名称实体集合确定模块,用于确定资源的各层级实体集合;其中,所述实体集合中包括实体正名和实体别名,以及实体正名和实体别名之间的关联关系,上一层级实体包括下一层级实体;
实体标签确定模块,用于确定从各平台获取的资源关联的实体标签;
资源聚合模块,用于根据实体标签之间的从属关系,以及各实体标签关联的资源,对各资源进行聚合;
关联资源确定模块,用于若用户选择任一实体标签,则依据实体标签之间的从属关系,检索确定所述实体标签关联的资源信息;
所述资源聚合模块,具体用于:
对获取的资源信息进行数据格式的统一化处理;
以同一实体为融合依据,将来自不同数据源中同一实体的多个属性数据融合在一起;
若来自不同数据源的同一实体的同一属性的数据内容不相同,则依据择优原则确定融合数据。
7.根据权利要求6所述的装置,其特征在于,所述实体标签确定模块具体用于:
若第一层级实体集合中的任一实体名称与从各平台获取的资源信息匹配,则将该实体名称作为该资源的第一层级实体标签;
将属于该实体名称的第二层级实体集合和第三层级实体集合,均与所述资源信息进行匹配,并根据匹配结果确定所述资源的第二层级实体标签和第三层级实体标签。
8.根据权利要求6所述的装置,其特征在于,所述实体标签确定模块具体用于:
若第一层级实体集合中的第一层级实体名称均与从各平台获取的资源信息不匹配,则将属于各第一层级实体名称的第二层级实体集合和第三层级实体集合均与所述资源信息进行匹配,并根据匹配结果确定所述资源的候选第二层级实体标签和候选第三层级实体标签;
若所述候选第二层级实体标签和候选第三层级实体标签关联唯一第一层级实体,则将该唯一第一层级实体名称作为所述资源的第一层级实体标签,将所述候选第二层级实体标签和候选第三层级实体标签分别作为资源的第二层级实体标签和第三层级实体标签。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的资源的处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的资源的处理方法。
CN201811526472.5A 2018-12-13 2018-12-13 资源的处理方法、装置、设备和存储介质 Active CN109558468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811526472.5A CN109558468B (zh) 2018-12-13 2018-12-13 资源的处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811526472.5A CN109558468B (zh) 2018-12-13 2018-12-13 资源的处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN109558468A CN109558468A (zh) 2019-04-02
CN109558468B true CN109558468B (zh) 2022-04-01

Family

ID=65869886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811526472.5A Active CN109558468B (zh) 2018-12-13 2018-12-13 资源的处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN109558468B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351327B (zh) * 2019-05-22 2022-04-12 深圳壹账通智能科技有限公司 资源处理平台的确认方法、装置、电子设备和介质
CN110321446B (zh) * 2019-07-08 2021-09-14 深圳市华云中盛科技股份有限公司 相关数据推荐方法、装置、计算机设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
US7685158B2 (en) * 2004-06-15 2010-03-23 Honda Motor Co., Ltd. System and method for managing an on-board entertainment system
US9398067B2 (en) * 2007-02-20 2016-07-19 Avaya Inc. Web-based sharing of documents
US9330071B1 (en) * 2007-09-06 2016-05-03 Amazon Technologies, Inc. Tag merging
US9317613B2 (en) * 2010-04-21 2016-04-19 Yahoo! Inc. Large scale entity-specific resource classification
US9418121B2 (en) * 2013-03-12 2016-08-16 Google Inc. Search results for descriptive search queries
WO2014149555A1 (en) * 2013-03-15 2014-09-25 Thomson Reuters Global Resources Method and system for generating and using a master entity associative data network
CN107844565B (zh) * 2013-05-16 2021-07-16 阿里巴巴集团控股有限公司 商品搜索方法和装置
CN104424302B (zh) * 2013-09-04 2018-09-18 阿里巴巴集团控股有限公司 一种同类数据对象的匹配方法和装置
CN104573133A (zh) * 2015-02-13 2015-04-29 广州神马移动信息科技有限公司 存储数据的方法和设备
CN104615783A (zh) * 2015-03-02 2015-05-13 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN105069628A (zh) * 2015-07-29 2015-11-18 中国电子科技集团公司第十五研究所 一种用于物联网的资源追溯系统
CN105786980B (zh) * 2016-02-14 2019-12-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN105812256B (zh) * 2016-04-18 2019-04-12 华为技术有限公司 基于标签转发的业务处理方法和装置
US20170364599A1 (en) * 2016-06-17 2017-12-21 Infields, Llc. Application for enhancing metadata tag uses for social interaction
CN107341220B (zh) * 2017-06-28 2020-05-12 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
CN107491537A (zh) * 2017-08-23 2017-12-19 北京百度网讯科技有限公司 Poi数据挖掘、信息检索方法、装置、设备及介质
CN108021929B (zh) * 2017-11-16 2023-01-10 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及系统
CN107992554A (zh) * 2017-11-28 2018-05-04 北京百度网讯科技有限公司 提供问答信息的聚合结果的搜索方法和装置
CN108509479B (zh) * 2017-12-13 2022-02-11 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质

Also Published As

Publication number Publication date
CN109558468A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
West et al. Mining missing hyperlinks from human navigation traces: A case study of Wikipedia
US9659278B2 (en) Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content
JP6047550B2 (ja) 検索方法、クライアント及びサーバ
US8468145B2 (en) Indexing of URLs with fragments
US20100082653A1 (en) Event media search
US20120036153A1 (en) Mobile system, search system and search result providing method for mobile search
CN104462056B (zh) 用于呈现基于知识的信息的方法和信息操纵系统
US20100042615A1 (en) Systems and methods for aggregating content on a user-content driven website
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
CN109889891B (zh) 获取目标媒体文件的方法、装置及存储介质
US8639560B2 (en) Brand analysis using interactions with search result items
CN105302906A (zh) 信息标注方法及装置
CN104778271A (zh) 一种视频数据的缓存方法及装置
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
CN109558468B (zh) 资源的处理方法、装置、设备和存储介质
CN104853251A (zh) 一种多媒体数据的在线收藏方法和装置
CN109116718B (zh) 设置闹钟的方法及设备
CN116049490A (zh) 素材搜索方法、装置和电子设备
US11275803B2 (en) Contextually related sharing of commentary for different portions of an information base
CN109657129B (zh) 用于获取信息的方法及装置
CN107609094B (zh) 数据消歧方法、装置及计算机设备
US20150193683A1 (en) Assisting an expert to answer preexisting questions in a time efficient manner
CN104915408A (zh) 一种社交化搜索结果展示的方法及装置
CN111222918A (zh) 关键词挖掘方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant