CN108509479A - 实体推荐方法及装置、终端及可读存储介质 - Google Patents

实体推荐方法及装置、终端及可读存储介质 Download PDF

Info

Publication number
CN108509479A
CN108509479A CN201711326740.4A CN201711326740A CN108509479A CN 108509479 A CN108509479 A CN 108509479A CN 201711326740 A CN201711326740 A CN 201711326740A CN 108509479 A CN108509479 A CN 108509479A
Authority
CN
China
Prior art keywords
entity
candidate
sets
target
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711326740.4A
Other languages
English (en)
Other versions
CN108509479B (zh
Inventor
李潇
郑孙聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201711326740.4A priority Critical patent/CN108509479B/zh
Publication of CN108509479A publication Critical patent/CN108509479A/zh
Application granted granted Critical
Publication of CN108509479B publication Critical patent/CN108509479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明公开了一种实体推荐方法及装置、终端及可读存储介质,方法包括获取输入的实体标签,基于该实体标签确定目标实体,基于预置的知识图谱包含及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,该候选实体集合中包含候选实体,及候选实体的特征向量,该实体共现数据集合中包含具有共现关系的实体之间的共现次数,根据该候选实体集合中各候选实体的特性向量,得到目标实体的相关实体,推荐相关实体,使得能够有效的提高实体推荐的稳定性及准确性。

Description

实体推荐方法及装置、终端及可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种实体推荐方法及装置、终端及可读存储介质。
背景技术
实体推荐是指在给定一个实体之后,推荐与该实体相关的其他实体。例如,在给定实体“腾讯“之后,推荐与实体”腾讯“相关的其他实体,如“微信”“QQ”等等。
目前,常用的实体推荐方式是基于开放文本统计实体同现,以得到推荐的实体,然而由于开放文本中实体同现的稳定性较差,导致推荐结果的稳定性差及准确性较低。
发明内容
本发明的主要目的在于提供实体推荐方法及装置、终端及可读存储介质,旨在解决现有技术中实体推荐存在的推荐结果稳定性差及准确性低的技术问题。
为实现上述目的,本发明第一方面提供一种实体推荐方法,包括:
获取输入的实体标签,基于所述实体标签确定目标实体;
基于预置的知识图谱及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的特征向量,所述实体共现数据集合中包含具有共现关系的实体之间的共现次数;
根据所述候选实体集合中各候选实体的特征向量,得到所述目标实体的相关实体,推荐所述相关实体。
为实现上述目的,本发明第二方面提供一种实体推荐装置,包括:
获取确定模块,用于获取输入的实体标签,基于所述实体标签确定目标实体;
集合确定模块,用于基于预置的知识图谱及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的特征向量,所述实体共现数据集合中包含具有共现关系的实体之间的共现次数;
确定推荐模块,用于根据所述候选实体集合中各候选实体的特征向量,确定所述目标实体的相关实体,推荐所述相关实体,所述特征向量至少包含所述关系特征向量及所述相似度特征向量。
为实现上述目的,本发明第三方面提供一种终端,包括:存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本发明实施例第一方面提供的实体推荐方法中的各个步骤。
为实现上述目的,本发明第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如本发明第一方面提供的实体推荐方法中的各个步骤。
本发明提供一种实体推荐方法,包括:获取输入的实体标签,基于该实体标签确定目标实体,基于预置的知识图谱包含及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,该候选实体集合中包含候选实体,及候选实体的特征向量,该实体共现数据集合中包含具有共现关系的实体之间的共现次数,根据该候选实体集合中各候选实体的特性向量,得到目标实体的相关实体,推荐相关实体。相对于现有技术,由于知识图谱相对于开放文本稳定性高,且指定来源语料库的实体共现数据集合能够增加候选实体的特征向量的种类,提高推荐的准确性,因此,结合知识图谱与实体共现数据集合进行相关实体的推荐,能够有效提高实体推荐的稳定性及准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例中实体推荐方法的流程示意图;
图1b为图1a所示实施例中步骤102的细化步骤的流程示意图;
图2为本发明实施例中知识图谱的示意图;
图3为本发明实施例中实体推荐方法的另一流程示意图;
图4为图1b所示实施例的追加步骤的流程示意图;
图5为图1b所示实施例的追加步骤的流程示意图;
图6为图1b所示实施例的追加步骤的流程示意图;
图7为图1b所示实施例中追加步骤的流程示意图;
图8为图1b所示实施例的追加步骤的流程示意图;
图9为图1b所示实施例中步骤1022的细化步骤的流程示意图;
图10为图1a所示实施例中步骤103的细化步骤的流程示意图;
图11为本发明实施例中实体推荐装置的程序模块的结构示意图;
图12为本发明实施例中实体推荐装置的程序模块的另一结构示意图;
图13为本发明实施例中实体推荐装置的程序模块的另一结构示意图;
图14为本发明实施例中实体推荐装置的程序模块的另一结构示意图;
图15为本发明实施例中实体推荐装置的程序模块的另一结构示意图;
图16为本发明实施例中实体推荐装置的程序模块的另一结构示意图;
图17为本发明实施例中实体推荐装置的程序模块的另一结构示意图;
图18为本发明实施例中实体推荐装置的另一程序模块的结构示意图;
图19为一种终端的结构框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中实体推荐存在推荐结果稳定性差及准确率低的技术问题。
为了解决上述问题,本发明提出一种实体推荐方法,由于知识图谱相对于开放文本稳定性高,且指定来源语料库的实体共现数据集合能够增加候选实体的特征向量的种类,提高推荐的准确性,因此,结合知识图谱与实体共现数据集合进行相关实体的推荐,能够有效提高实体推荐的稳定性及准确性。
进一步地,本发明还将进行候选实体的召回,以便提高召回率,且进一步提高实体推荐的准确性。此外,还将基于白名单挖掘到与目标实体相关性强的实体,也能够改进实体推荐的准确性,同时使得推荐结果可控,此外,还将基于黑名单及领域过滤的方式删除实体,也将使得实体推荐的准确性高,且结果可控。
请参阅图1a,为本发明实施例中实体推荐方法的流程示意图,该方法包括:
步骤101、获取输入的实体标签,基于所述实体标签确定目标实体;
在本发明实施例中,上述实体推荐方法可以应用于搜索领域,且上述实体推荐方法具体可以由实体推荐装置(以下简称:推荐装置)实现,该推荐装置为程序模块,可以由处理器调用执行,且该推荐装置可以是位于服务器中的,例如,可以是搜索服务器。
用户在客户端输入实体标签,客户端将该实体标签发送给推荐装置,推荐装置获取该实体标签,并基于该实体标签确定目标实体。
通常,将现实世界中的客观事物称为实体,例如概念、事物、人物或事件等。例如,影视剧“花千骨”、百度公司以及宇宙大爆炸理论都是实体的实例。
其中,所述实体标签中至少包含标签名称,例如,输入的标签名称可以是“微信”、“视频”、“电视剧”等等。推荐装置将利用该标签名称查找知识图谱中的实体的名称,确定该知识图谱中名称与该标签名称相同,及属于该标签名称的别名的待选择实体。例如,若标签名称为“山药”,则将从知识图谱中查找到相同名称的实体“山药”,及属于“山药”的别名的其他实体,该其他实体为:土薯、山薯蓣、怀山药、淮山、白山药。进一步的,在确定待选择实体之后,将基于各待选择实体的流行度确定目标实体,其中,知识图谱中各实体的流行度是基于预置的算法计算得到的,或者是通过人工标注的,推荐装置将从待选择实体中选择流行度最高的实体作为目标实体。
此外,实体标签中除了包含标签名称之外,还可以包含实体所属的领域,其中,用户在客户端输入实体标签时,可以输入标签名称的同时输入或者选择实体所属的领域,例如,领域可以为名人、科技、体育等等。推荐装置在得到包含标签名称和实体所属的领域的实体标签之后,将在知识图谱中,该实体所属的领域包含的实体中查找名称与该标签名称相同的实体,及该标签名称的别名的实体,以作为待选择实体,并从待选择实体中选择流行度最高的实体作为目标实体。可以理解的是,若实体标签中不包含实体所属的领域,则将在全领域范围内确定目标实体,若实体标签中包含实体所属的领域,则将在实体所属的领域内确定目标实体。
此外,需要说明的是,在知识图谱中,每一个实体都有对应的唯一的编号,用户在客户端输入实体标签时,还可以直接输入实体的编号,以便基于该编号确定一个唯一的实体,并将该唯一的实体作为目标实体,在这种情况下,实体标签中包含实体编号。
可以理解的是,在实际应用中,用户可以基于实际的需要选择输入的实体标签所包含的内容,此处不做限定。
步骤102、基于预置的知识图谱及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的特征向量,所述实体共现数据集合中包含具有共现关系的实体之间的共现次数;
步骤103、根据所述候选实体集合中各候选实体的特征向量,得到所述目标实体的相关实体,推荐所述相关实体。
在本发明实施例中,知识图谱可以理解成是由多个实体互相关联形成的网络,是一种图结构的知识库,属于知识工程的范畴,知识图谱是基于信息系统建立的知识体系,通过数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域系统地显示出来,揭示知识领域的发展规律。
其中,共现是指共同出现,实体共现是指两个实体共同出现,上述指定来源语料库具体可以是新闻语料库,即基于新闻数据得到实体共现数据集合,具体的,可以基于新闻数据,利用前缀树匹配的方式识别新闻文本中的实体,统计出标题和正文中实体共现的次数。且对于每一个实体,都将有一个对应的与该实体的共现次数排在前N的N个实体组成的共现实体集合,例如,对于实体A,若实体B、C、D、E、F、H、G为其共现实体,且共现次数分别为10、15、20、8、13、18、40,若实体共现集合中最多为4个实体,则实体A的共现实体集合为{(G,40),(D,20),(H,18),(C,15)}。可以理解的是,通过上述方式,可以得到新闻语料库中各个实体的共现实体集合,且该多个实体的共现实体集合构成上述实体共现数据集合。因此,实体共现数据集合中包含具有共现关系的实体之间的共现次数。
可以理解的是,知识图谱能够代表知识领域的发展规律,通常该发展规律都是比较固定或者变化缓慢的,因此,知识图谱的稳定性好。上述实体共现数据集合可以基于指定来源语料库得到,由于该指定来源语料库通常是指新闻语料库,新闻的产生速度快,每天都有新的新闻,因此可以每间隔一段时间更新一次语料库(例如,一个星期更新一次,一个月更新一次等等),因此,可以基于该指定来源语料库更新实体共现数据集合,该实体共现数据集合能够有效的反映当前的新闻动态,实时性好,使用该实体共现数据集合可以在知识图谱的基础上,增加实体推荐参考的特征向量的种类,以提高准确性。因此,结合知识图谱及实体共现数据集合进行实体推荐,不仅能够确保针对相同目标实体进行推荐的稳定性,且能够有效提高准确性。
在本发明实施例中,获取输入的实体标签,基于该实体标签确定目标实体,基于预置的知识图谱包含及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,该候选实体集合中包含候选实体,及候选实体的特征向量,该实体共现数据集合中包含具有共现关系的实体之间的共现次数,根据该候选实体集合中各候选实体的特性向量,得到目标实体的相关实体,推荐相关实体。相对于现有技术,由于知识图谱相对于开放文本稳定性高,且指定来源语料库的实体共现数据集合能够增加候选实体的特征向量的种类,提高推荐的准确性,因此,结合知识图谱与实体共现数据集合进行相关实体的推荐,能够有效提高实体推荐的稳定性及准确性。
请参阅图1b,为图1a所示实施例中步骤102的细化结构的流程示意图,包括:
步骤1021、基于所述目标实体查找预置的知识图谱包含的实体关系,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的关系特征向量;
在本发明实施例中,知识图谱中包含实体关系,如,请参阅图2,图2为知识图谱的示意图,圆圈代表实体,圆圈之间的连线表示关系。例如,假设实体b2为“刘国梁”,实体d2为“乒乓球”,则实体b2和实体d2之间的关系为运动项目。即知识图谱中,b2-d2代表一组实体关系。
其中,推荐装置将基于目标实体查找预置的知识图谱包含的实体关系,得到目标实体的候选实体集合,该候选实体集合中包含候选实体,及该候选实体的关系特征向量。其中,关系特征有多种,例如上位词关系、一阶关系、二阶关系、三阶关系等等,该候选实体的关系特征向量至少包含上述的一种关系。
其中,上位词关系是指一个实体为另一个实体的上位概念,例如,实体“白芷”的上位词为“中药”,实体“铁”的上位词为“金属”等等。
其中,一阶关系是指知识图谱中与目标实体具有直接关系的实体,例如以图2为例,若实体A为目标实体,则实体b1至b6,及实体c1至c4均为该目标实体A的一阶实体,具有一阶关系。
其中,二阶关系是指知识图谱中与目标实体的一阶实体具有直接关系的实体,例如,以图2为例,若实体A为目标实体,则实体d1至d6为目标实体A的二阶实体。可以理解的是,三阶实体四阶实体以此类推。
需要说明的是,知识图谱中包含的每一个实体关系都有一个对应的一阶关系特征向量,例如,对于一个实体关系“刘国梁运动项目乒乓球”,其中,“刘国梁”及“乒乓球”为两个具有相关关系的实体,“运动项目”为关系,该实体关系的一阶关系特征向量为2.1。其中,每一个实体关系的一阶关系特征向量为基于大量数据统计得到的,或者是人工标注的。
其中,可以理解的是,二阶关系特征向量是基于两个一阶关系特征向量计算得到的,该计算方式可以为相乘。例如,目标实体若为“张国梁”,其一个一阶关系为“刘国梁运动项目乒乓球”,由于在另一个一阶关系“乒乓球相关明星张继科”中,实体“张继科”与“刘国梁”构成了二阶关系,因此,实体“张继科”作为“刘国梁”的二阶实体,其二阶关系特征向量为上述两个一阶关系的一阶关系特征向量的乘积。可以理解的是,三阶关系特征向量及更多阶关系特征向量也可以依次类推出具体的向量,此处不做限定。
步骤1022、基于指定来源语料库的实体共现数据集合,对所述候选实体集合中包含的候选实体进行相似度计算,得到所述候选实体的相似度特征向量。
在本发明实施例中,推荐装置将基于指定来源语料库的实体共现数据集合,对候选实体集合中包含的候选实体进行相似度计算,得到候选实体的相似度特征向量,其中,该相似度特征向量包括第一类相似度特征向量及第二类相似度特征向量,且第一类相似度特征向量具体可以为jaccard(杰卡德)相似度特征向量,第二类相似度特征向量具体可以为cosine(余弦)相似度特征向量。
在本发明实施例中,上述候选实体集合中的每一个实体的特征向量至少包括关系特征向量及相似度特征向量,且该特征向量还可以包含其他类型的特征向量,在后续的实施例中将详细描述。
在本发明实施例中,获取输入的实体标签,基于该实体标签确定目标实体,基于该目标实体查找预置的知识图谱包含的实体关系,得到该目标实体的候选实体集合,其中,该候选实体集合中包含候选实体,及候选实体的关系特征向量,基于指定来源语料库的实体共现数据集合,对候选实体集合中包含的候选实体进行相似度计算,得到互选实体的相似度特征向量,根据该候选实体集合中各候选实体的特征向量,确定目标实体的相关实体,推荐该相关实体,其中,上述特征向量至少包含所述关系特征向量及所述相似度特征向量。相对于现有技术,由于知识图谱相对于开放本实体同现稳定性高,通过使用知识图谱确定候选实体集合,使得能够有效的提高实体推荐的稳定性及准确性,且通过结合指定来源语料库的实体共现数据集合确定候选实体的相似度特征向量,能够有效增加实体推荐所使用的特征向量,进一步的提升实体推荐的准确性。
基于图1a及图1b所示实施例,下面将描述候选实体集合中的候选实体包含一阶实体,上位词实体,实体关系特征向量包含一阶关系特征向量及上位词特征向量的情况下的实体推荐方法,包括:
请参参阅图3,为本发明实施例中实体推荐方法的流程示意图,包括:
步骤301、获取输入的实体标签,基于所述实体标签确定目标实体;执行步骤302,及执行步骤303;
在本发明实施例中,步骤301与图1a所示实施例中的步骤101描述的内容相似,具体可参阅步骤101,此处不做赘述。
步骤302、在所述知识图谱包含的实体关系中,查找与所述目标实体具有一阶关系的一阶实体,得到所述目标实体的一阶实体及所述一阶实体的一阶关系特征向量;继续执行步骤305;
步骤303、在所述知识图谱包含的实体关系中,查找与所述目标实体具有上位词关系的上位实体,得到所述目标实体的上位实体集合;
步骤304、确定在所述知识图谱中,上位词集合与所述目标实体的上位词集合的上位词特征向量大于第一阈值的上位词实体;
在本发明实施例中,推荐装置将在知识图谱包含的实体关系中,查找与目标实体具有上位词关系的上位实体,以得到该目标实体的上位词集合;例如,对于目标实体A,将得到其上位词为B、C、D,则目标实体的上位词集合为{B、C、D}。同时,还将确定知识图谱中每一个词的上位词集合,可以理解的是,若实体标签中包含实体所属的领域,则只需要确定知识图谱中该领域内的所有实体的上位词集合。需要说明的是,知识图谱中每一实体的上位词集合可以是预先设置的。
推荐装置将确定在知识图谱中,上位词集合与目标实体的上位词集合的上位词特征向量大于第一阈值的实体,并作为上位词实体,并将上位词实体,及其上位词特征向量作为候选实体集合的一部分。
其中,上位词特征向量具体可以是上位词jaccard相似度特征向量,可以使用如下公式进行计算:
其中,A代表目标实体A的上为词集合,B代表实体B的上位词集合,J(A,B)代表目标实体A与实体B的上位词jaccard相似度特征向量。
需要说明的是,若目标实体本身就是一个上位词,则还可以将其下位词作为候选实体,例如,若目标实体为“导弹”,则可以将其下位词“大浦洞-2导弹”,“海红旗-9防空导弹”等作为候选实体,以丰富候选实体的数目。
步骤305、基于指定来源语料库的实体共现数据集合,对所述候选实体集合中包含的候选实体进行相似度计算,得到所述候选实体的相似度特征向量;
步骤306、根据所述候选实体集合中各候选实体的特征向量,确定所述目标实体的相关实体,推荐所述相关实体,所述特征向量至少包含所述关系特征向量及所述相似度特征向量。
在本发明实施例中,上述步骤305与图1b所示实施例中的步骤1022描述的内容相似,步骤306与图1a所示实施例中的步骤103描述的内容相似,此处不做赘述。
可以理解的是,候选实体集合中的每一个候选实体都有对应的一阶关系特征向量、上位词特征向量及相似度特征向量,推荐装置将基于候选实体中每一个实体的特征向量确定目标实体的相关实体,并进行推荐。
进一步地,为了特性向量的丰富性,在进行实体推荐时,还可以使用到二阶关系特征向量,即推荐装置在步骤301之后还可以执行以下步骤:
步骤307、在所述知识图谱包含的实体关系中,查找与所述一阶实体具有一阶关系的实体,将查找到的实体作为所述目标实体的二阶实体,并得到所述二阶实体的二阶关系特征向量,并继续执行步骤305;
其中,对于目标实体A,若实体B与其具有一阶关系,则与实体B具有一阶关系的实体C则为目标实体的二阶实体,且该二阶实体C的二阶关系特征向量则为A与B的一阶关系特征向量、B与C的一阶关系特征向量之间的乘积。
在本发明实施例中,通过基于知识图谱得到目标实体的候选实体,如一阶实体、二阶实体、上位词实体,及得到各候选实体的特征向量,如一阶关系特征向量、二阶关系特征向量及上位词特征向量,使得能够从多个维度确定候选实体,提高实体推荐的准确性及稳定性,并通过基于指定来源语料库的实体共现数据集合,得到候选实体的相似度特征向量,并基于上述所有的特征向量确定目标实体的相关实体,使得能够进一步丰富实体推荐所使用到的特征向量,进一步提高实体推荐的准确性。
在本发明实施例中,基于知识图谱及指定来源语料库的实体推荐能够有效确保实体推荐的稳定性及准确性。进一步地,还可以进一步的提高实体推荐的召回率,该召回率主要是考虑到基于知识图谱确定候选实体具有一定的局限性,可能会存在与目标实体相关性较高的实体未被作为候选实体使用,为了进一步提高实体推荐的准确性,对候选实体进行召回,且同时能够提升实体的召回率。
具体的,可以基于新闻数据进行实体召回,基于图1a及图1b所示的实施例,请参阅图4,为图1b所示实施例的追加步骤的流程示意图,该追加步骤在步骤1021之后执行,即在基于知识图谱得到候选实体集合之后执行以下追加步骤:
步骤401、基于预置的第一词向量模型,计算所述第一词向量模型中各实体与所述目标实体的第一召回相似度特征向量,所述第一词向量模型为利用word2vec对预置时间段内的新闻数据训练得到的;
步骤402、将所述第一词向量模型中,第一召回相似度特征向量大于第二阈值的实体作为第一召回实体,并基于所述知识图谱包含的实体关系,确定所述第一召回实体的关系特征向量;
步骤403、将所述第一召回实体、所述第一召回实体的第一召回相似度特征向量及所述关系特征向量添加至所述候选实体集合中。
其中,上述第一词向量模型是利用word2vec对预置时间段内的新闻数据训练得到的,其中,word2vec是用于训练得到词向量模型的,该词向量模型为浅而双层的神经网络。可以理解的是,该第一词向量模型中的每一个词都为一个实体。
其中,推荐装置将基于预置的第一词向量模型,计算第一词向量模型中各实体与目标实体的第一召回相似度特征向量,其中,该第一召回相似度特征向量为新闻实体cosine相似度特征向量,并将该向量大于第二阈值的实体作为第一召回实体,同时确定第一召回实体的关系特征向量,且第一召回实体、第一召回实体的第一召回相似度特征向量及关系特征向量添加至候选实体集合中,以丰富候选实体集合中候选实体的来源。
此外,还可以基于百科数据进行实体召回,基于图1b所示的实施例,请参阅图5,为图1b所示实施例的追加步骤的流程示意图,该追加步骤在步骤1021之后执行,即在基于知识图谱得到候选实体集合之后执行以下追加步骤:
步骤501、基于预置的第二词向量模型,计算所述第二词向量模型中各实体与所述目标向量的第二召回相似度特征向量;所述第二词向量模型为利用word2vec对百科数据训练得到的;
步骤502、将所述第二词向量模型中,第二召回相似度特征向量大于第三阈值的实体作为第二召回实体,并基于所述知识图谱包含的实体关系,确定所述第二召回实体的关系特征向量;
步骤503、将所述第二召回实体、所述第二召回实体的第二召回相似度特征向量及实体特征向量添加至所述候选实体集合中。
其中,上述第二词向量模型是利用word2vec对百科数据训练得到的,且该第二词向量模型中的每一个词都为一个实体。
可以理解的是,在实际应用中,在执行召回时,可以仅基于新闻数据进行实体召回,也可以仅基于百科数据进行实体召回,或者还可以基于新闻数据进行实体召回的同时,也基于百科数据进行实体召回,在实际应用中根据具体的需要设置,此处不做赘述。
在本发明实施例中,通过使用基于利用word2vec对新闻数据进行训练得到的第一词向量模型,和/或使用基于利用word2vec对百科数据训练得到的第二次向量模型进行实体召回,使得能够有效丰富候选实体集合中候选实体的来源及数目,且有效增强了候选实体的召回率,并进一步提升了实体推荐的准确性。
在本发明实施例中,考虑到知识图谱中的实体关系有限,可以设置白名单的方式对知识图谱进行补充,该白名单中也包含实体关系,且通常情况下,白名单中包含的实体关系是只通过一阶关系,上位词关系等很挖掘出来的。通过白名单可以进一步确定候选实体,以使得实体推荐的结果更准确且可控制。请参阅图6,为图1b所示实施例的追加步骤的流程示意图,该追加步骤在步骤1021之后执行,即在基于知识图谱得到候选实体集合之后执行以下追加步骤:
步骤601、查找预置的白名单包含的实体关系,将查找到的与所述目标实体对应的实体作为白名单实体,所述实体关系包含具有相关关系的两个实体及所述两个实体的白名单特征向量;
步骤602、基于所述知识图谱包含的实体关系,确定所述白名单实体的关系特征向量,将所述白名单实体、所述白名单实体的白名单特征向量及关系特征向量添加至所述候选实体集合中。
为了更好的理解白名单,请参阅下表,为白名单的表格:
领域 第一实体 第二实体 白名单特征向量
科技 微信 张小龙 5
科技 张小龙 微信 5
科技 马云 阿里巴巴 5
科技 阿里巴巴 马云 4
科技 QQ 腾讯 3.8
科技 腾讯 QQ 4.5
其中,第一实体用于与目标实体进行匹配,第二实体为第一实体的关系实体,且白名单特征向量为第二实体与第一实体的相关性参数值。
在本发明实施例中,推荐装置将查找预置的白名单包含的实体关系,将包含目标实体的实体关系中的另一个实体作为白名单实体,例如,若目标实体为“腾讯”,则查找上述白名单表格中的第一实体所在的列,并确定与目标实体“腾讯”相关的为“QQ”,则可将“QQ”作为白名单实体,其中,该白名单实体的白名单特征向量为4.5。
其中,在得到白名单实体之后,基于知识图谱包含的实体关系,确定该白名单实体的关系特征向量,例如为一阶关系特性向量及上位词关系特征向量,进一步地,还可以包括二阶关系特性向量,并将该白名单实体作为候选实体,将该白名单实体、白名单实体的白名单特征向量及关系特征向量添加至候选实体集合中。
可以理解的是,若输入的实体标签中包含实体所属的领域,则在白名单中查找白名单实体时,可以在上述领域下的实体关系中的进查找,若输入的实体标签中不包含实体所属的领域,则在全领域下进行查找。
在本发明实施例中,通过预置白名单的方式,使得能够得到更多的候选实体,使得实体推荐的结果可控,且准确性更高。
可以理解的,考虑到在候选实体集合中可能会存在一些无实际意义的实体,该无实际意义的实体的类型可以是泛词,例如:最新、相关、作者、发展、时间、来源等等。为了避免这类词对实体推荐的结果的影响,可通过设置黑名单的方式对该类实体进行过滤。请参阅图7,为图1b所示实施例的追加步骤的流程示意图,其中,该追加步骤在图1b所示实施例中步骤1022之前执行,且包括:
步骤701、将所述候选实体集合中的候选实体与预置的黑名单包含的实体进行匹配,确定匹配的实体;
步骤702、从所述候选实体集合中删除所述匹配的实体及所述匹配的实体的特征向量,以更新所述候选实体集合。
可以理解的是,黑名单中包含不能作为候选实体的实体的列表,推荐装置可将候选实体集合中的候选实体与预置的黑名单包含的实体进行匹配,确定匹配的实体,并从候选实体集合中删除该匹配的实体及匹配的实体的特征向量,以更新该候选实体集合。例如,若候选实体集合中实体A、B、C在黑名单中有匹配的实体,则从候选实体集合中删除实体A、B、C及实体A、B、C的所有特征向量。
在本发明实施例中,通过设置黑名单对候选实体集合中的候选实体进行过滤,删除掉无实际意义的实体,使得能够进一步的提高实体推荐的准确性,避免无实际意义的实体对推荐结果准确性的影响。
为了进一步优化候选实体集合中包含的候选实体,还可以对候选实体集合进行领域过滤,具体的,请参阅图8,为图1b所示实施例的追加步骤的流程示意图,该追加步骤在步骤1022之前执行,且包括:
步骤801、确定所述候选实体集合中,所属领域为预置过滤领域的候选实体,得到实体子集合;
步骤802、从所述候选实体集合中删除所述实体子集合;或者,从所述候选实体集合中删除所述实体子集合中包含的符合预设条件的候选实体,所述符合预设条件是指一阶关系特征向量、白名单特征向量及上位词关系特征向量均为零。
其中,推荐装置将确定候选实体集合中各个候选实体所属的领域,并与预置过滤领域进行匹配,确定所属领域为预置过滤领域的候选实体,得到实体子集合。其中,在候选实体所属的领域有多个的情况下,只要该候选实体所属的任意一个领域为预置过滤领域,则该候选实体属于上述实体子集合。
进一步的,将从候选实体集合中删除该实体子集合,此即为强过滤方式,使得候选实体集合中包含属于上述过滤领域的候选实体。或者还可以采用弱过滤的方式,即从候选实体集合中删除实体子集合中包含的符合预设条件的候选实体,该符合预设条件是指一阶关系特征向量、白名单特征向量及上位词关系特征向量均为零。可以理解的是,可以设置预置过滤领域包含的领域是对应强过滤还是弱过滤,例如,可设置领域“体育项目”为强过滤,设置邻域“体育组织”为弱过滤,在实际应用中可根据具体的需要设定,此处不做赘述。
在本发明实施例中,通过对候选实体集合进行领域过滤,优化候选实体集合中包含的候选实体的领域,使得基于该优化的候选实体集合推荐相关实体,准确性更高,且结果可控。
在本发明实施例中,在最后确定候选实体集合之后,还将得到该候选实体集合中各候选实体的相似度特征向量,请参阅图9,为图1b所示实施例中步骤1022的细化步骤的流程示意图,包括:
步骤901、查找所述指定语料库的实体共现数据集合,确定所述目标实体的共现实体集合,及所述候选实体集合中各候选实体的共现实体集合,所述共现实体集合中包含共现实体及对应的共现次数;
步骤902、利用所述目标实体的共现实体集合分别与各所述候选实体的共现实体集合进行第一类相似度计算,得到各所述候选实体的第一类相似度特征向量;
步骤903、将所述目标实体及各所述候选实体的共现实体集合包含的共现次数进行归一化,得到所述目标实体及各所述候选实体的归一化共现实体集合;
步骤904、利用所述目标实体的归一化共现实体集合分别与各所述候选实体的归一化共现实体集合进行第二类相似度计算,得到各所述候选实体的第二类相似度特征向量。
上述指定来源语料库具体可以是新闻语料库,即基于新闻数据得到实体共现数据集合,具体的,可以基于新闻数据,利用前缀树匹配的方式识别新闻文本中的实体,统计出标题和正文中实体共现的次数。且对于每一个实体,都将有一个对应的与该实体的共现次数排在前N的N个实体组成的共现实体集合,例如,对于实体A,若实体B、C、D、E、F、H、G为其共现实体,且共现次数分别为10、15、20、8、13、18、40,若实体共现集合中最多为4个实体,则实体A的共现实体集合为{(G,40),(D,20),(H,18),(C,15)}。可以理解的是,通过上述方式,可以得到新闻语料库中各个实体的共现实体集合,且该多个实体的共现实体集合构成上述实体共现数据集合。
其中,推荐装置将查找上述实体共现数据集合,确定目标实体的共现实体集合,及候选实体集合中各候选实体的共现实体集合,并利用目标实体的共现实体集合分别与各候选实体的共现实体集合进行第一类相似度计算,得到各候选实体的第一类相似度特征向量。
其中,第一类相似度特征向量为共现jaccard相似度特征向量,可以使用如下公式进行计算:
其中,C代表目标实体C的共现实体集合,D代表实体D的共现实体集合,J(C,D)代表实体D的共现jaccard相似度特征向量。例如,若目标实体的共现实体集合为实体E、F、G、H,实体D的共现实体为实体G、H、I、J、K,则实体C的共现实体集合与实体D的共现实体集合的交集为实体G、H,为2个实体,并集为E、F、G、H、I、J、K,为7个实体,则实体D的共现jaccard相似度特征向量为2/7。
进一步的,推荐装置将目标实体与各候选实体的共现实体集合包含的共现次数进行归一化,得到目标实体及各候选实体归一化共现实体集合,并利用目标实体的归一化共现实体集合与候选实体的归一化共现实体集合进行第二类相似度计算,得到候选实体的第二类相似度特征向量。
其中,该第二类相似度特征向量具体可以为共享cosine相似度特征向量,且可以通过如下公式进行计算:
其中,C表示实体C的归一化共现实体集合,Ci表示第i个共现实体归一化后的共现次数,D表示实体D的归一化共现实体集合,Di表示第i个共现实体归一化后的共现次数,n表示两个归一化实体集合的个数中的最大值,且可以理解的是,对于共现实体个数少的实体,可以通过补零的方式进行上述计算。
在本发明实施例中,通过基于指定语料库的实体共现数据集合得到候选实体的第一类相似度特征向量及第二类相似度特征向量,使得能够有效丰富进行实体推荐所使用到的参数,使得推荐的结果更准确。
可以理解的是,在本发明实施例中,需要基于候选实体的所有特征向量进行实体推荐,具体可以使用加权的方式,请参阅图10,为图1a所示实施例中步骤103的细化步骤的流程示意图,包括:
步骤1001、对所述候选实体集合中的各候选实体进行合并去重处理,得到目标候选实体集合;
步骤1002、对所述目标候选实体集合中各候选实体的特征向量进行加权计算,得到各所述候选实体的分值;
步骤1003、将分值排在前N的N个候选实体作为所述目标实体的相关实体,并推荐所述相关实体,所述N为正整数。
在本发明实施例中,推荐装置将对候选实体集合中的各候选实体进行合并去重处理,得到目标候选实体集合,例如,若存在一阶实体与上位词实体均为实体A,则将该一阶实体与上位词实体A的所有特性向量进行合并,避免候选实体集合中存在两个或多个相同的实体,及避免对推荐结果准确性的影响。
可以理解的是,对于上述的多种类型的特征向量,都预先设置了其对应的加权系数,例如,一阶关系特征向量的加权系数为Q1,上位词特征向量的加权系数为Q2,二阶关系特征向量的加权系数为Q3,第一召回相似度特征向量的加权系数为Q4,第二召回相似度特征向量的加权系数为Q5、白名单特征向量的加权系数为Q6、第一类相似度特征向量的加权系数为Q7、第二类相似度特征向量的加权系数为Q8。
其中,推荐装置将分别对目标候选实体集合中各候选实体的特性向量进行加权计算,具体可以为线性加权计算,得到各候选实体的分值。可以理解的是,若候选实体不存在某个特征向量,则将该特性向量的值设置为0进行加权计算,例如,若实体A具有一阶关系特征向量、二阶关系特征向量、第一类相似度特征向量及第二类相似度特征向量,则在对该实体A的特性向量进行加权计算时,将其上位词特征向量、第一召回相似度特征向量、第二召回相似度特征向量、白名单特征向量设置为0。
在得到各候选实体的分值之后,将分值排在前N的N个候选实体作为目标实体的相关实体,并推荐该相关实体,该N为正整数。
进一步的,可以不计算同时包含一阶关系特征向量、白名单特性向量及上位词特征向量的候选实体的分值,而直接将该候选实体作为目标实体的相关实体进行推荐。
在本发明实施例中,通过基于候选实体包含的多种不同的特征向量进行加权计算,使得能够更好的得到各候选实体与目标实体之间相关性的得分,以便将分值排在前N的候选实体作为相关实体进行推荐,具有准确性高的优点。
可以理解的是,在实际应用中,可以对上述中的两个或多个实体推荐方法的实施例进行组合,得到新的实施例,此处不做赘述。
请参阅图11,为本发明实施例中实体推荐装置的程序模块的结构示意图,该装置包括:
获取确定模块1101,用于获取输入的实体标签,基于所述实体标签确定目标实体;
集合确定模块1102,用于基于预置的知识图谱及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的特征向量,所述实体共现数据集合中包含具有共现关系的实体之间的共现次数;
确定推荐模块1103,用于根据所述候选实体集合中各候选实体的特征向量,确定所述目标实体的相关实体,推荐所述相关实体。
其中,集合确定模块1102包括:
集合得到模块1104,用于基于所述目标实体查找预置的知识图谱包含的实体关系,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的关系特征向量;
第一计算模块1105,用于基于指定来源语料库的实体共现数据集合,对所述候选实体集合中包含的候选实体进行相似度计算,得到所述候选实体的相似度特征向量;
图11所示实体推荐装置的相关内容可以参阅图1a及图1b所示实施例,此处不做赘述。
在本发明实施例中,获取输入的实体标签,基于该实体标签确定目标实体,基于该目标实体查找预置的知识图谱包含的实体关系,得到该目标实体的候选实体集合,其中,该候选实体集合中包含候选实体,及候选实体的关系特征向量,基于指定来源语料库的实体共现数据集合,对候选实体集合中包含的候选实体进行相似度计算,得到互选实体的相似度特征向量,根据该候选实体集合中各候选实体的特征向量,确定目标实体的相关实体,推荐该相关实体,其中,上述特征向量至少包含所述关系特征向量及所述相似度特征向量。相对于现有技术,由于知识图谱相对于开放本实体同现稳定性高,通过使用知识图谱确定候选实体集合,使得能够有效的提高实体推荐的稳定性及准确性,且通过结合指定来源语料库的实体共现数据集合确定候选实体的相似度特征向量,能够有效增加实体推荐所使用的特征向量,进一步的提升实体推荐的准确性。
请参阅图12,为本发明实施例中实体推荐装置的另一程序模块的结构示意图,包括如图11所示的获取模块1101、集合确定模块1102、及确定推荐模块1103,其中,集合确定模块1102包括:集合得到模块1104及第一计算模块1105,且与图11所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,候选实体包含一阶实体及上位词实体,所述实体关系特征向量包含一阶关系特征向量及上位词特征向量;
则所述集合得到模块1104包括:
第一查找模块1201,用于在所述知识图谱包含的实体关系中,查找与所述目标实体具有一阶关系的一阶实体,得到所述目标实体的一阶实体及所述一阶实体的一阶关系特征向量;
第二查找模块1202,用于在所述知识图谱包含的实体关系中,查找与所述目标实体具有上位词关系的上位实体,得到所述目标实体的上位实体集合;
实体确定模块1203,用于确定在所述知识图谱中,上位词集合与所述目标实体的上位词集合的上位词特征向量大于第一阈值的上位词实体。
进一步的,候选实体还包括二阶实体,所述实体关系特征向量还包括二阶关系特征向量;
则集合得到模块1104,还包括:
第三查找模块1204,用于在所述知识图谱包含的实体关系中,查找与所述一阶实体具有一阶关系的实体,将查找到的实体作为所述目标实体的二阶实体,并得到所述二阶实体的二阶关系特征向量。
图12所示实施例中实体推荐装置的描述可参阅图3所示实施例,此处不做赘述。
在本发明实施例中,通过基于知识图谱得到目标实体的候选实体,如一阶实体、二阶实体、上位词实体,及得到各候选实体的特征向量,如一阶关系特征向量、二阶关系特征向量及上位词特征向量,使得能够从多个维度确定候选实体,提高实体推荐的准确性及稳定性,并通过基于指定来源语料库的实体共现数据集合,得到候选实体的相似度特征向量,并基于上述所有的特征向量确定目标实体的相关实体,使得能够进一步丰富实体推荐所使用到的特征向量,进一步提高实体推荐的准确性。
请参阅图13,为本发明实施例中实体推荐装置的另一程序模块的结构示意图,包括如图11所示的获取模块1101、集合确定模块1102、及确定推荐模块1103,其中,集合确定模块1102包括:集合得到模块1104及第一计算模块1105,且与图11所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,装置还包括:
第二计算模块1301,用于在所述集合得到模块1104之后,基于预置的第一词向量模型,计算所述第一词向量模型中各实体与所述目标实体的第一召回相似度特征向量,所述第一词向量模型为利用word2vec对预置时间段内的新闻数据训练得到的;
第一确定模块1302,用于将所述第一词向量模型中,第一召回相似度特征向量大于第二阈值的实体作为第一召回实体,并基于所述知识图谱包含的实体关系,确定所述第一召回实体的关系特征向量;
第一添加模块1303,用于将所述第一召回实体、所述第一召回实体的第一召回相似度特征向量及所述关系特征向量添加至所述候选实体集合中。
此外,请参阅图14,为本发明实施例中实体推荐装置的另一程序模块的结构示意图,包括如图11所示的获取模块1101、集合得到模块1104、第一计算模块1105及确定推荐模块1103,且与图11所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,装置还包括:
第三计算模块1401,用于在所述集合得到模块1104之后,基于预置的第二词向量模型,计算所述第二词向量模型中各实体与所述目标向量的第二召回相似度特征向量;所述第二词向量模型为利用word2vec对百科数据训练得到的;
第二确定模块1402,用于将所述第二词向量模型中,第二召回相似度特征向量大于第三阈值的实体作为第二召回实体,并基于所述知识图谱包含的实体关系,确定所述第二召回实体的关系特征向量;
第二添加模块1403,用于将所述第二召回实体、所述第二召回实体的第二召回相似度特征向量及实体特征向量添加至所述候选实体集合中。
图13及图14所示实施例中的实体推荐装置的描述可分别参阅图4及图5,此处不做赘述。
在本发明实施例中,通过使用基于利用word2vec对新闻数据进行训练得到的第一词向量模型,和/或使用基于利用word2vec对百科数据训练得到的第二次向量模型进行实体召回,使得能够有效丰富候选实体集合中候选实体的来源及数目,且有效增强了候选实体的召回率,并进一步提升了实体推荐的准确性。
请参阅图15,为本发明实施例中实体推荐装置的另一程序模块的结构示意图,包括如图11所示的获取模块1101、集合确定模块1102、及确定推荐模块1103,其中,集合确定模块1102包括:集合得到模块1104及第一计算模块1105,且与图11所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,装置还包括:
第四查找模块1501,用于在所述集合得到模块1104之后,查找预置的白名单包含的实体关系,将查找到的与所述目标实体对应的实体作为白名单实体,所述实体关系包含具有相关关系的两个实体及所述两个实体的白名单特征向量;
确定添加模块1502,用于基于所述知识图谱包含的实体关系,确定所述白名单实体的关系特征向量,将所述白名单实体、所述白名单实体的白名单特征向量及关系特征向量添加至所述候选实体集合中。
图15所示实施例中实体推荐装置的描述可参阅图6所示实施例,此处不做赘述。
在本发明实施例中,通过预置白名单的方式,使得能够得到更多的候选实体,使得实体推荐的结果可控,且准确性更高。
请参阅图16,为本发明实施例中实体推荐装置的另一程序模块的结构示意图,包括如图11所示的获取模块1101、集合确定模块1102、及确定推荐模块1103,其中,集合确定模块1102包括:集合得到模块1104及第一计算模块1105,且与图11所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,装置还包括:
匹配模块1601,用于在所述第一计算模块1105之前,将所述候选实体集合中的候选实体与预置的黑名单包含的实体进行匹配,确定匹配的实体;
第一删除模块1602,用于从所述候选实体集合中删除所述匹配的实体及所述匹配的实体的特征向量,以更新所述候选实体集合。
图16所示实施例中实体推荐装置的描述可参阅图7所示实施例,此处不做赘述。
在本发明实施例中,通过设置黑名单对候选实体集合中的候选实体进行过滤,删除掉无实际意义的实体,使得能够进一步的提高实体推荐的准确性,避免无实际意义的实体对推荐结果准确性的影响。
请参阅图17,为本发明实施例中实体推荐装置的另一程序模块的结构示意图,包括如图11所示的获取模块1101、集合确定模块1102、及确定推荐模块1103,其中,集合确定模块1102包括:集合得到模块1104及第一计算模块1105,,且与图11所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,装置还包括:
第三确定模块1701,用于在所述第一计算模块1105之前,确定所述候选实体集合中,所属领域为预置过滤领域的候选实体,得到实体子集合;
第二删除模块1702,用于从所述候选实体集合中删除所述实体子集合;或者,从所述候选实体集合中删除所述实体子集合中包含的符合预设条件的候选实体,所述符合预设条件是指一阶关系特征向量、白名单特征向量及上位词关系特征向量均为零。
图17所示实施例中实体推荐装置的描述可参阅图8所示实施例,此处不做赘述。
在本发明实施例中,通过对候选实体集合进行领域过滤,优化候选实体集合中包含的候选实体的领域,使得基于该优化的候选实体集合推荐相关实体,准确性更高,且结果可控。
请参阅图18,为本发明实施例中实体推荐装置的另一程序模块的结构示意图,包括如图11所示的获取模块1101、集合确定模块1102、及确定推荐模块1103,其中,集合确定模块1102包括:集合得到模块1104及第一计算模块1105,且与图11所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,第一计算模块1105包括:
查找确定模块1801,用于查找所述指定语料库的实体共现数据集合,确定所述目标实体的共现实体集合,及所述候选实体集合中各候选实体的共现实体集合,所述共现实体集合中包含共现实体及对应的共现次数;
第四计算模块1802,用于利用所述目标实体的共现实体集合分别与各所述候选实体的共现实体集合进行第一类相似度计算,得到各所述候选实体的第一类相似度特征向量;
归一化模块1803,用于将所述目标实体及各所述候选实体的共现实体集合包含的共现次数进行归一化,得到所述目标实体及各所述候选实体的归一化共现实体集合;
第五计算模块1804,用于利用所述目标实体的归一化共现实体集合分别与各所述候选实体的归一化共现实体集合进行第二类相似度计算,得到各所述候选实体的第二类相似度特征向量。
其中,确定推荐模块1103包括:
去重模块1805,用于对所述候选实体集合中的各候选实体进行合并去重处理,得到目标候选实体集合;
加权计算模块1806,用于对所述目标候选实体集合中各候选实体的特征向量进行加权计算,得到各候选实体的分值;
推荐模块1807,用于将分值排在前N的N个候选实体作为所述目标实体的相关实体,并推荐所述相关实体,所述N为正整数。
图18所示实施例中实体推荐装置的描述可参阅图9及图10所示实施例,此处不做赘述。
在本发明实施例中,通过基于指定语料库的实体共现数据集合得到候选实体的第一类相似度特征向量及第二类相似度特征向量,使得能够有效丰富进行实体推荐所使用到的参数,使得推荐的结果更准确,且通过基于候选实体包含的多种不同的特征向量进行加权计算,使得能够更好的得到各候选实体与目标实体之间相关性的得分,以便将分值排在前N的候选实体作为相关实体进行推荐,具有准确性高的优点。
可以理解的是,在实际应用中,可以对上述中的两个或多个实体推荐装置的实施例进行组合,得到新的实施例,此处不做赘述。
本发明实施例中还提供一种终端,包括存储器、处理器及存储在存储器上且在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时,实现如图1a、图1b,图3至图10任意一个所示实施例中的实体推荐方法中的各个步骤。
本发明实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如图1a、图1b、图3至图10任意一个所示实施例中的实体推荐方法中的各个步骤。
可以理解的是,在本发明实施例中,上述的实体推荐装置是一种终端,该终端具体可以是服务器,为了更好的理解本发明实施例中的技术方案,请参阅图19,为本发明实施例中终端190的结构示意图。该终端190包括处理器1901、存储器1902和收发器1903,存储器1902可以包括只读存储器和随机存取存储器,并向处理器1901提供操作指令和数据。存储器1902的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器1902存储了如下的元素:可执行模块或者数据结构,或者他们的子集,或者他们的扩展集。
在本发明实施例中,通过调用存储器1902存储的操作指令(该操作指令可存储在操作系统中),执行以下过程:获取输入的实体标签,基于该实体标签确定目标实体,基于该目标实体查找预置的知识图谱包含的实体关系,得到该目标实体的候选实体集合,其中,该候选实体集合中包含候选实体,及候选实体的关系特征向量,基于指定来源语料库的实体共现数据集合,对候选实体集合中包含的候选实体进行相似度计算,得到互选实体的相似度特征向量,根据该候选实体集合中各候选实体的特征向量,确定目标实体的相关实体,推荐该相关实体,其中,上述特征向量至少包含所述关系特征向量及所述相似度特征向量。
与现有技术中用于通过开放文本实体同现进行实体推荐的方式相比,本发明实施例提供的终端,由于知识图谱相对于开放文本稳定性高,且指定来源语料库的实体共现数据集合能够增加候选实体的特征向量的种类,提高推荐的准确性,因此,结合知识图谱与实体共现数据集合进行相关实体的推荐,能够有效提高实体推荐的稳定性及准确性。
其中,处理器1901控制终端190的操作,处理器1901还可以称为CPU(CentralProcessing Unit,中央处理单元)。存储器1902可以包括只读存储器和随机存取存储器,并向处理器1901提供指令和数据。存储器1902的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中终端190的各个组件通过总线系统1904耦合在一起,其中总线系统1904除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统1904。
上述本发明实施例揭示的方法可以应用于处理器1901中,或者由处理器1901实现。处理器1901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器910可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1902,处理器1901读取存储器1902中的信息,结合其硬件完成上述方法的步骤。
以上的终端190可以参阅图1、图2至图9所示实施例的描述进行理解,本处不做过多赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种实体推荐方法及装置、终端及可读存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种实体推荐方法,其特征在于,所述方法包括:
获取输入的实体标签,基于所述实体标签确定目标实体;
基于预置的知识图谱及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的特征向量,所述实体共现数据集合中包含具有共现关系的实体之间的共现次数;
根据所述候选实体集合中各候选实体的特征向量,得到所述目标实体的相关实体,推荐所述相关实体。
2.根据权利要求1所述的方法,其特征在于,所述特征向量包括关系特征向量及相似度特征向量;
则所述基于预置的知识图谱及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合包括:
基于所述目标实体查找所述知识图谱包含的实体关系,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的关系特征向量;
基于所述实体共现数据集合,对所述候选实体集合中包含的候选实体进行相似度计算,得到所述候选实体的相似度特征向量。
3.根据权利要求2所述的方法,其特征在于,所述候选实体包含一阶实体及上位词实体,所述实体关系特征向量包含一阶关系特征向量及上位词特征向量;
则所述基于所述目标实体查找预置的知识图谱包含的实体关系,得到所述目标实体的候选实体集合,包括:
在所述知识图谱包含的实体关系中,查找与所述目标实体具有一阶关系的一阶实体,得到所述目标实体的一阶实体及所述一阶实体的一阶关系特征向量;
在所述知识图谱包含的实体关系中,查找与所述目标实体具有上位词关系的上位实体,得到所述目标实体的上位实体集合;
确定在所述知识图谱中,上位词集合与所述目标实体的上位词集合的上位词特征向量大于第一阈值的上位词实体。
4.根据权利要求3所述的方法,其特征在于,所述候选实体还包括二阶实体,所述实体关系特征向量还包括二阶关系特征向量;
则所述基于所述目标实体查找预置的知识图谱包含的实体关系,得到所述目标实体的候选实体集合,还包括:
在所述知识图谱包含的实体关系中,查找与所述一阶实体具有一阶关系的实体,将查找到的实体作为所述目标实体的二阶实体,并得到所述二阶实体的二阶关系特征向量。
5.根据权利要求2所述的方法,其特征在于,所述基于所述目标实体查找所述知识图谱包含的实体关系,得到所述目标实体的候选实体集合,之后还包括:
基于预置的第一词向量模型,计算所述第一词向量模型中各实体与所述目标实体的第一召回相似度特征向量,所述第一词向量模型为利用word2vec对预置时间段内的新闻数据训练得到的;
将所述第一词向量模型中,第一召回相似度特征向量大于第二阈值的实体作为第一召回实体,并基于所述知识图谱包含的实体关系,确定所述第一召回实体的关系特征向量;
将所述第一召回实体、所述第一召回实体的第一召回相似度特征向量及所述关系特征向量添加至所述候选实体集合中。
6.根据权利要求2所述的方法,其特征在于,所述基于所述目标实体查找所述知识图谱包含的实体关系,得到所述目标实体的候选实体集合,之后还包括:
基于预置的第二词向量模型,计算所述第二词向量模型中各实体与所述目标向量的第二召回相似度特征向量;所述第二词向量模型为利用word2vec对百科数据训练得到的;
将所述第二词向量模型中,第二召回相似度特征向量大于第三阈值的实体作为第二召回实体,并基于所述知识图谱包含的实体关系,确定所述第二召回实体的关系特征向量;
将所述第二召回实体、所述第二召回实体的第二召回相似度特征向量及实体特征向量添加至所述候选实体集合中。
7.根据权利要求2所述的方法,其特征在于,所述基于所述目标实体查找所述知识图谱包含的实体关系,得到所述目标实体的候选实体集合,之后还包括:
查找预置的白名单包含的实体关系,将查找到的与所述目标实体对应的实体作为白名单实体,所述实体关系包含具有相关关系的两个实体及所述两个实体的白名单特征向量;
基于所述知识图谱包含的实体关系,确定所述白名单实体的关系特征向量,将所述白名单实体、所述白名单实体的白名单特征向量及关系特征向量添加至所述候选实体集合中。
8.根据权利要求2至7任意一项所述的方法,其特征在于,所述基于所述实体共现数据集合,对所述候选实体集合中包含的候选实体进行相似度计算,得到所述候选实体的相似度特征向量,之前还包括:
将所述候选实体集合中的候选实体与预置的黑名单包含的实体进行匹配,确定匹配的实体;
从所述候选实体集合中删除所述匹配的实体及所述匹配的实体的特征向量,以更新所述候选实体集合。
9.根据权利要求2至7任意一项所述的方法,其特征在于,所述基于所述实体共现数据集合,对所述候选实体集合中包含的候选实体进行相似度计算,得到所述候选实体的相似度特征向量,之前还包括:
确定所述候选实体集合中,所属领域为预置过滤领域的候选实体,得到实体子集合;
从所述候选实体集合中删除所述实体子集合;或者,从所述候选实体集合中删除所述实体子集合中包含的符合预设条件的候选实体,所述符合预设条件是指一阶关系特征向量、白名单特征向量及上位词关系特征向量均为零。
10.根据权利要求2至7任意一项所述的方法,其特征在于,所述基于所述实体共现数据集合对所述候选实体集合中包含的候选实体进行相似度计算,得到所述候选实体的相似度特征向量,包括:
查找所述指定语料库的实体共现数据集合,确定所述目标实体的共现实体集合,及所述候选实体集合中各候选实体的共现实体集合,所述共现实体集合中包含共现实体及对应的共现次数;
利用所述目标实体的共现实体集合分别与各所述候选实体的共现实体集合进行第一类相似度计算,得到各所述候选实体的第一类相似度特征向量;
将所述目标实体及各所述候选实体的共现实体集合包含的共现次数进行归一化,得到所述目标实体及各所述候选实体的归一化共现实体集合;
利用所述目标实体的归一化共现实体集合分别与各所述候选实体的归一化共现实体集合进行第二类相似度计算,得到各所述候选实体的第二类相似度特征向量。
11.根据权利要求2所述的方法,其特征在于,所述根据所述候选实体集合中各候选实体的特征向量,确定所述目标实体的相关实体,推荐所述相关实体,包括:
对所述候选实体集合中的各候选实体进行合并去重处理,得到目标候选实体集合;
对所述目标候选实体集合中各候选实体的特征向量进行加权计算,得到各候选实体的分值;
将分值排在前N的N个候选实体作为所述目标实体的相关实体,并推荐所述相关实体,所述N为正整数。
12.一种实体推荐装置,其特征在于,所述装置包括:
获取确定模块,用于获取输入的实体标签,基于所述实体标签确定目标实体;
集合确定模块,用于基于预置的知识图谱及指定来源语料库的实体共现数据集合,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的特征向量,所述实体共现数据集合中包含具有共现关系的实体之间的共现次数;
确定推荐模块,用于根据所述候选实体集合中各候选实体的特征向量,确定所述目标实体的相关实体,推荐所述相关实体。
13.根据权利要求12所述的装置,所述集合得到模块包括:
候选确定模块,基于所述目标实体查找所述知识图谱包含的实体关系,得到所述目标实体的候选实体集合,所述候选实体集合中包含候选实体,及所述候选实体的关系特征向量;
第一计算模块,用于基于所述实体共现数据集合,对所述候选实体集合中包含的候选实体进行相似度计算,得到所述候选实体的相似度特征向量。
14.一种终端,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至11任意一项所述的实体推荐方法中的各个步骤。
15.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至11任意一项所述的实体推荐方法的各个步骤。
CN201711326740.4A 2017-12-13 2017-12-13 实体推荐方法及装置、终端及可读存储介质 Active CN108509479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711326740.4A CN108509479B (zh) 2017-12-13 2017-12-13 实体推荐方法及装置、终端及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711326740.4A CN108509479B (zh) 2017-12-13 2017-12-13 实体推荐方法及装置、终端及可读存储介质

Publications (2)

Publication Number Publication Date
CN108509479A true CN108509479A (zh) 2018-09-07
CN108509479B CN108509479B (zh) 2022-02-11

Family

ID=63374778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711326740.4A Active CN108509479B (zh) 2017-12-13 2017-12-13 实体推荐方法及装置、终端及可读存储介质

Country Status (1)

Country Link
CN (1) CN108509479B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN109558468A (zh) * 2018-12-13 2019-04-02 北京百度网讯科技有限公司 资源的处理方法、装置、设备和存储介质
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN110008352A (zh) * 2019-03-28 2019-07-12 腾讯科技(深圳)有限公司 实体发现方法及装置
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110489613A (zh) * 2019-07-29 2019-11-22 北京航空航天大学 协同可视数据推荐方法及装置
CN111523010A (zh) * 2019-02-03 2020-08-11 阿里巴巴集团控股有限公司 推荐方法、装置、终端设备及计算机存储介质
CN114580392A (zh) * 2022-04-29 2022-06-03 中科雨辰科技有限公司 一种识别实体的数据处理系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140046934A1 (en) * 2012-08-08 2014-02-13 Chen Zhou Search Result Ranking and Presentation
CN104077415A (zh) * 2014-07-16 2014-10-01 百度在线网络技术(北京)有限公司 搜索方法及装置
US20150278691A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation User interests facilitated by a knowledge base
CN105095433A (zh) * 2015-07-22 2015-11-25 百度在线网络技术(北京)有限公司 实体推荐方法及装置
CN105335519A (zh) * 2015-11-18 2016-02-17 百度在线网络技术(北京)有限公司 模型生成方法及装置、推荐方法及装置
CN105447005A (zh) * 2014-08-08 2016-03-30 百度在线网络技术(北京)有限公司 一种对象推送方法及装置
CN106202041A (zh) * 2016-07-01 2016-12-07 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
EP3223179A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A healthcare risk extraction system and method
CN107391906A (zh) * 2017-06-19 2017-11-24 华南理工大学 基于神经网络和图谱结构的健康饮食知识网络构建方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140046934A1 (en) * 2012-08-08 2014-02-13 Chen Zhou Search Result Ranking and Presentation
US20150278691A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation User interests facilitated by a knowledge base
CN104077415A (zh) * 2014-07-16 2014-10-01 百度在线网络技术(北京)有限公司 搜索方法及装置
CN105447005A (zh) * 2014-08-08 2016-03-30 百度在线网络技术(北京)有限公司 一种对象推送方法及装置
CN105095433A (zh) * 2015-07-22 2015-11-25 百度在线网络技术(北京)有限公司 实体推荐方法及装置
CN105335519A (zh) * 2015-11-18 2016-02-17 百度在线网络技术(北京)有限公司 模型生成方法及装置、推荐方法及装置
EP3223179A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A healthcare risk extraction system and method
CN106202041A (zh) * 2016-07-01 2016-12-07 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107391906A (zh) * 2017-06-19 2017-11-24 华南理工大学 基于神经网络和图谱结构的健康饮食知识网络构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PHILIPP LANGER 等: "Assigning global relevance scores to DBpedia facts", 《2014 IEEE 30TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING WORKSHOPS》 *
孙驰: "基于微博的知识图谱的构建与研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄丹凤: "中文跨文本指代消解研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN109558468A (zh) * 2018-12-13 2019-04-02 北京百度网讯科技有限公司 资源的处理方法、装置、设备和存储介质
CN111523010B (zh) * 2019-02-03 2023-04-28 阿里巴巴集团控股有限公司 推荐方法、装置、终端设备及计算机存储介质
CN111523010A (zh) * 2019-02-03 2020-08-11 阿里巴巴集团控股有限公司 推荐方法、装置、终端设备及计算机存储介质
JP7082147B2 (ja) 2019-02-21 2022-06-07 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
EP3699780A1 (en) * 2019-02-21 2020-08-26 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for recommending entity, electronic device and computer readable medium
KR20200102335A (ko) * 2019-02-21 2020-08-31 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티를 추천하는 방법과 장치, 전자기기 및 컴퓨터 판독가능 매체
JP2020135876A (ja) * 2019-02-21 2020-08-31 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体
KR102371437B1 (ko) * 2019-02-21 2022-03-04 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티를 추천하는 방법과 장치, 전자기기 및 컴퓨터 판독가능 매체
CN110008352A (zh) * 2019-03-28 2019-07-12 腾讯科技(深圳)有限公司 实体发现方法及装置
CN110008352B (zh) * 2019-03-28 2022-12-20 腾讯科技(深圳)有限公司 实体发现方法及装置
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110489613B (zh) * 2019-07-29 2022-04-26 北京航空航天大学 协同可视数据推荐方法及装置
CN110489613A (zh) * 2019-07-29 2019-11-22 北京航空航天大学 协同可视数据推荐方法及装置
CN114580392A (zh) * 2022-04-29 2022-06-03 中科雨辰科技有限公司 一种识别实体的数据处理系统
CN114580392B (zh) * 2022-04-29 2022-07-29 中科雨辰科技有限公司 一种识别实体的数据处理系统

Also Published As

Publication number Publication date
CN108509479B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN108509479A (zh) 实体推荐方法及装置、终端及可读存储介质
Yi et al. Sampling-bias-corrected neural modeling for large corpus item recommendations
JP5449628B2 (ja) マルチステージを使用したカテゴリ情報の決定
CN108268617B (zh) 用户意图确定方法及装置
CN108717407B (zh) 实体向量确定方法及装置,信息检索方法及装置
CN108304484A (zh) 关键词匹配方法及装置、电子设备和可读存储介质
CN108171267A (zh) 用户群划分方法及装置、消息推送方法及装置
JP6932360B2 (ja) オブジェクト検索方法、装置およびサーバ
CN108171528A (zh) 一种归因方法及归因系统
CN110198482A (zh) 一种视频重点桥段标注方法、终端及存储介质
CN110309410B (zh) 一种资讯推荐方法、平台及计算机可读存储介质
JP2017220204A (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
CN110083703A (zh) 一种基于引用网络和文本相似度网络的文献聚类方法
US20110179013A1 (en) Search Log Online Analytic Processing
CN110472016A (zh) 文章推荐方法、装置、电子设备及存储介质
CN116034401A (zh) 用于使用自然语言描述检索视频的系统和方法
CN109635072A (zh) 舆情数据分布式存储方法、装置、存储介质和终端设备
CN110968789B (zh) 电子书推送方法、电子设备及计算机存储介质
CN104933099A (zh) 一种为用户提供目标搜索结果的方法与装置
CN110008352A (zh) 实体发现方法及装置
CN113407702B (zh) 员工合作关系强度量化方法、系统、计算机和存储介质
CN108829790A (zh) 一种数据批处理方法、装置及系统
CN110309367B (zh) 信息分类的方法、信息处理的方法和装置
CN109582863B (zh) 一种推荐方法及服务器
CN106372089B (zh) 确定词语位置的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant