CN108287875B - 人物共现关系确定方法、专家推荐方法、装置及设备 - Google Patents
人物共现关系确定方法、专家推荐方法、装置及设备 Download PDFInfo
- Publication number
- CN108287875B CN108287875B CN201711477743.8A CN201711477743A CN108287875B CN 108287875 B CN108287875 B CN 108287875B CN 201711477743 A CN201711477743 A CN 201711477743A CN 108287875 B CN108287875 B CN 108287875B
- Authority
- CN
- China
- Prior art keywords
- expert
- text
- research direction
- recommended
- experts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种人物共现关系确定方法、专家推荐方法、装置及设备,提高了人物共现关系确定准确率以及实现了为用户推荐专家的目的。其中,人物共现关系确定方法包括:获取第一人物的第一文本集合和第二人物的第二文本集合;从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;从所述第一事件集合和所述第二事件集合中确定相同事件;基于所述相同事件构建所述第一人物和所述第二人物的共现关系。
Description
技术领域
本申请涉及大数据领域,尤其涉及一种人物共现关系确定方法、专家推荐方法、装置及设备。
背景技术
人物的共现关系是指两个或多个人物由于共同出现而建立的关系。人物的共现关系可以反映人物的社会合作或交往关系,是非常重要的信息。
现有技术中人物共现关系根据两个或多个人物在文本中同时出现的频次来进行确定,但是同时出现的频次高并不一定能反映出人物之间是具有关系的,比如说,有多家新闻媒体在同一天报道了两个事件,这两个事件分别和一个人物相关,且这两个事件毫无关系,那么虽然这两个人物同时出现在这些新闻媒体在该天的新闻报道中,在文本中同时出现的频次较高,但是二者之间没有任何关系。可见,基于在文本中同时出现的频次来确定人物共现关系的方法准确性较低。
发明内容
为了解决现有技术中存在的技术问题,本申请提供了一种人物共现关系确定方法、专家推荐方法、装置及设备,实现提高人物共现关系确定准确性以及为用户推荐专家的目的。
本申请实施例提供了一种人物共现关系确定方法,所述方法包括:
获取第一人物的第一文本集合和第二人物的第二文本集合;
从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;
从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;
从所述第一事件集合和所述第二事件集合中确定相同事件;
基于所述相同事件构建所述第一人物和所述第二人物的共现关系。
可选的,所述基于所述相同事件确定所述第一人物和所述第二人物的共现关系包括:
从所述第一文本集合中确定包含所述相同事件的文本,形成第三文本集合;
获取所述第三文本集合中各个文本的关键词,形成第一关键词集合;
从所述第二文本集合中确定包含所述相同事件的文本,形成第四文本集合;
获取所述第四文本集合中各个文本的关键词,形成第二关键词集合;
若所述第一关键词集合和第二关键词集合之间的相似性大于预设阈值,则构建所述第一人物和所述第二人物之间的共现关系。
可选的,所述第三文本集合和/或所述第四文本集合包括第一文本,根据如下方法得到所述第一文本的关键词:
对所述第一文本进行分词,得到第一特征词;
根据所述第一特征词在所述第一文本中出现的频次,以及其他特征词与所述第一特征词出现在同一个句子中的次数,得到所述第一特征词是否属于所述第一文本的关键词的判断结果。
可选的,所述从所述第一事件集合和所述第二事件集合中确定相同事件包括:
从所述第一事件集合和所述第二事件集合中确定事件内容相同,且事件发生时间和事件发生地点至少其中一个相同的事件。
本申请实施例还提供了一种专家推荐方法,所述方法包括:
获取待进行专家推荐的目标研究方向;
基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家;
根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值,其中,所述待推荐专家之间和/或与其他专家之间的共现关系根据权利要求1-5任意一项所述的人物共现关系确定方法进行确定;
根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
可选的,所述获取待进行专家推荐的目标研究方向包括:
获取检索语句,并对所述检索语句进行分词,得到分词结果;
基于所述分词结果生成目标词向量,并从词向量库中选取出与所述目标词向量之间的距离满足预设条件的词向量,作为扩展词向量;
将所述分词结果和与所述扩展词向量对应的词作为所述检索关键词;
根据所述检索关键词在研究方向词库中确定所述目标研究方向。
可选的,所述根据所述待推荐专家的影响力分值选取出目标专家进行推荐包括:
根据所述待推荐专家的影响力分值以及预设影响力要素选取出目标专家进行推荐,所述预设影响力要素至少包括以下其中一项:
所述待推荐专家在所述目标研究方向上发表的论文的数量、所述待推荐专家在所述目标研究方向上的新闻报道的数量、所述待推荐专家在所述目标研究方向上发表的文章的阅读量、所述待推荐专家在所述目标研究方向上参与的学术活动的次数、所述待推荐专家在所述目标研究方向上发行的著作数量以及发行量。
本申请实施例还提供了一种专家推荐方法,所述方法包括:
获取第一专家;
从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,所述专家共现关系库根据所述的人物共现关系确定方法进行构建;
基于所述第一专家推荐所述第二专家。
可选的,所述基于所述第一专家推荐所述第二专家包括:
获取所述第一专家和所述第二专家共现在相同事件的事件个数;
若所述事件个数满足第一预设条件,则基于所述第一专家推荐所述第二专家。
可选的,所述方法还包括:
根据研究方向与专家的映射关系,得到所述第一专家的第一研究方向集合,所述第一专家的研究方向集合包括所述第一专家的至少一个研究方向;
根据所述研究方向与专家的映射关系,确定与所述第一专家在至少一个研究方向上相同的专家,和/或,确定与所述第一专家具有共现关系的专家,作为第三专家;
根据所述研究方向与专家的映射关系,得到所述第三专家的第三研究方向集合,所述第三研究方向集合包括所述第三专家的至少一个研究方向;
获取所述第一专家的文本,并计算所述第一研究方向集合中的各个研究方向分别在所述第一专家的文本中出现的频次,并根据所述频次对所述第一专家的各个研究方向进行排序,得到第一研究方向向量;
获取所述第三专家的文本,并计算所述第三研究方向集合中的各个研究方向分别在所述第三专家的文本中出现的频次,并根据所述频次对所述第三专家的各个研究方向进行排序,得到第二研究方向向量;
根据所述第一研究方向向量和所述第二研究方向向量之间的距离,得到所述第三专家与所述第一专家的第一相似度;
若所述第一相似度满足第二预设条件,则基于所述第一专家推荐所述第三专家。
可选的,所述方法还包括:
根据领域与专家的映射关系,得到所述第一专家的第一领域集合,所述第一领域集合包括所述第一专家的至少一个所在领域;
根据所述领域与专家的映射关系,获取与所述第一专家的第一领域集合中至少一个所在领域相同的第四专家;
根据所述领域与专家的映射关系,获取所述第四专家的第四领域集合,所述第四领域集合包括所述第四专家的至少一个所在领域;
根据所述第一领域集合和所述第四领域集合之间的相似度,
得到所述第四专家与所述第一专家的第二相似度;
若所述第二相似度满足第三预设条件,则基于所述第一专家推荐所述第四专家。
本申请实施例还提供了一种人物共现关系确定装置,所述装置包括:
获取单元,用于获取第一人物的第一文本集合和第二人物的第二文本集合;
第一抽取单元,用于从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;
第二抽取单元,用于从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;
事件确定单元,用于从所述第一事件集合和所述第二事件集合中确定相同事件;
构建单元,用于基于所述相同事件构建所述第一人物和所述第二人物的共现关系。
可选的,所述构建单元,包括:
第一文本确定单元,用于从所述第一文本集合中确定包含所述相同事件的文本,形成第三文本集合;
第一关键词获取单元,用于获取所述第三文本集合中各个文本的关键词,形成第一关键词集合;
第二文本确定单元,用于从所述第二文本集合中确定包含所述相同事件的文本,形成第四文本集合;
第二关键词获取单元,用于获取所述第四文本集合中各个文本的关键词,形成第二关键词集合;
构建子单元,用于若所述第一关键词集合和第二关键词集合之间的相似性大于预设阈值,则构建所述第一人物和所述第二人物之间的共现关系。
可选的,所述第三文本集合和/或所述第四文本集合包括第一文本,所述第一关键词获取单元和/或第二关键词获取单元包括关键词获取子单元,用于:
对所述第一文本进行分词,得到第一特征词;
根据所述第一特征词在所述第一文本中出现的频次,以及其他特征词与所述第一特征词出现在同一个句子中的次数,得到所述第一特征词是否属于所述第一文本的关键词的判断结果。
可选的,所述事件确定单元,具体用于:
从所述第一事件集合和所述第二事件集合中确定事件内容相同,且事件发生时间和事件发生地点至少其中一个相同的事件。
本申请实施例还提供了一种专家推荐装置,所述装置包括:
目标研究方向获取单元,获取待进行专家推荐的目标研究方向;
待推荐专家确定单元,用于基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家;
分值计算单元,用于根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值,其中,所述待推荐专家之间和/或与其他专家之间的共现关系通过所述的人物共现关系确定装置进行确定;
第一推荐单元,用于根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
可选的,所述目标研究方向获取单元,包括:
关键词获取单元,用于获取检索语句,并对所述检索语句进行分词,得到分词结果,基于所述分词结果生成目标词向量,并从词向量库中选取出与所述目标词向量之间的距离满足预设条件的词向量,作为扩展词向量,将所述分词结果和与所述扩展词向量对应的词作为所述检索关键词;
目标研究方向获取子单元,用于根据所述检索关键词在研究方向词库中确定目标研究方向作为所述目标研究方向。
可选的,所述第一推荐单元,具体用于:
根据所述待推荐专家的影响力分值以及预设影响力要素选取出目标专家进行推荐,所述预设影响力要素至少包括以下其中一项:
所述待推荐专家在所述目标研究方向上发表的论文的数量、所述待推荐专家在所述目标研究方向上的新闻报道的数量、所述待推荐专家在所述目标研究方向上发表的文章的阅读量、所述待推荐专家在所述目标研究方向上参与的学术活动的次数、所述待推荐专家在所述目标研究方向上发行的著作数量以及发行量。
本申请实施例还提供了一种专家推荐装置,所述装置包括:
第一专家获取单元,用于获取第一专家;
第二专家获取单元,用于从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,所述专家共现关系库根据所述的人物共现关系确定装置进行构建。
第一推荐单元,用于基于所述第一专家推荐所述第二专家。
可选的,所述第一推荐单元包括:
事件个数获取单元,用于获取所述第一专家和所述第二专家共现在相同事件的事件个数;
第一推荐子单元,用于若所述事件个数满足第一预设条件,则基于所述第一专家推荐所述第二专家。
可选的,所述装置还包括:
第一研究方向获取单元,用于根据研究方向与专家的映射关系,得到所述第一专家的第一研究方向集合,所述第一专家的研究方向集合包括所述第一专家的至少一个研究方向;
第三专家确定单元,用于根据所述研究方向与专家的映射关系,确定与所述第一专家在至少一个研究方向上相同的专家,和/或,根据所述专家共现关系库确定与所述第一专家具有共现关系的专家,作为第三专家;
第二研究方向获取单元,用于根据所述研究方向与专家的映射关系,得到所述第三专家的第三研究方向集合,所述第三研究方向集合包括所述第三专家的至少一个研究方向;
第一研究方向向量确定单元,用于获取所述第一专家的文本,并计算所述第一研究方向集合中的各个研究方向分别在所述第一专家的文本中出现的频次,并根据所述频次对所述第一专家的各个研究方向进行排序,得到第一研究方向向量;
第二研究方向向量确定单元,用于获取所述第三专家的文本,并计算所述第三研究方向集合中的各个研究方向分别在所述第三专家的文本中出现的频次,并根据所述频次对所述第三专家的各个研究方向进行排序,得到第二研究方向向量;
第一相似度确定单元,用于根据所述第一研究方向向量和所述第二研究方向向量之间的距离,得到所述第三专家与所述第一专家的第一相似度;
第二推荐单元,用于若所述第一相似度满足第二预设条件,则基于所述第一专家推荐所述第三专家。
可选的,所述装置还包括:
第一领域获取单元,用于根据领域与专家的映射关系,得到所述第一专家的第一领域集合,所述第一领域集合包括所述第一专家的至少一个所在领域;
第四专家确定单元,用于根据所述领域与专家的映射关系,获取与所述第一专家的第一领域集合中至少一个所在领域相同的第四专家;
第二领域获取单元,用于根据所述领域与专家的映射关系,获取所述第四专家的第四领域集合,所述第四领域集合包括所述第四专家的至少一个所在领域;
第二相似度确定单元,用于根据所述第一领域集合和所述第四领域集合之间的相似度,得到所述第四专家与所述第一专家的第二相似度;
第三推荐单元,用于若所述第二相似度满足第三预设条件,则基于所述第一专家推荐所述第四专家。
本申请实施例还提供了一种人物共现关系确定设备,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一人物的第一文本集合和第二人物的第二文本集合;
从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;
从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;
从所述第一事件集合和所述第二事件集合中确定相同事件;
基于所述相同事件构建所述第一人物和所述第二人物的共现关系。
本申请实施例还提供了一种专家推荐设备,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待进行专家推荐的目标研究方向;
基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家;
根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值,其中,所述待推荐专家之间和/或与其他专家之间的共现关系根据所述的人物共现关系确定方法进行确定;
根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
本申请实施例还提供了一种专家推荐设备,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一专家;
从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,所述专家共现关系库根据所述的人物共现关系确定方法进行构建;
基于所述第一专家推荐所述第二专家。
相比较于现有技术根据两个人物出现在同一个文本中的频次来确定二者之间的共现关系,本实施例提供的人物共现关系确定方法通过两个人物参加的相同事件来确定二者之间的共现关系,即便一个文本中讲述的是多个不相关的事件,而第一人物和第二人物分别出现在不同的事件中,也不会被认为二者具有共现关系,所以本实施例提供的人物共现关系确定方法能够更准确的反映两个人物之间的共现关系。
此外,本实施例还公开了基于人物共现关系确定方法的专家推荐方法,实现了为用户推荐专家的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种人物共现关系确定方法的流程图;
图2为本申请实施例提供的基于相同事件确定第一人物和第二人物是否存在共现关系的方法;
图3为本申请实施例提供的人物网络图示意图;
图4为本申请实施例提供的一种专家推荐方法的流程图;
图5为本申请实施例提供的另外一种专家推荐方法的流程图;
图6为本申请实施例提供的另外一种专家推荐方法的另一个流程图;
图7为本申请实施例提供的另外一种专家推荐方法的再一个流程图;
图8为本申请实施例提供的一种人物共现关系确定装置的结构框图
图9为本申请实施例提供的一种人物共现关系确定装置的硬件架构图;
图10为本申请实施例提供的一种专家推荐装置的结构框图;
图11为本申请实施例提供的一种专家推荐装置的结构框图;
图12为本申请实施例提供的一种专家推荐装置的硬件架构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种人物共现关系确定方法的流程图。
本实施例提供的人物共现关系确定方法包括如下步骤:
S101:获取第一人物的第一文本集合和第二人物的第二文本集合。
在本实施例中,提及所述第一人物的文本形成的集合为第一文本集合,提及所述第二人物的文本形成的集合为第二文本集合。所述文本可以为新闻、著作、博客、论文、微博等,本申请不做具体限定。
S102:从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合。
在本实施例中,所述第一人物参与的事件例如包括所述第一人物参与的活动(例如学术活动)、会议(例如学术会议)、事情(例如成立公司)等等,本申请不对事件的类型进行限定。
从所述第一文本集合中抽取所述第一人物参与的事件,可以采用目前常用的事件抽取(也称信息抽取,英文为Information Extraction)方法,例如基于触发词的抽取方法。基于触发词的抽取方法基于事件由触发词(Trigger)和描述事件的元素(Argument)构成的假设,比如说,会议的触发词可以为“召开”,活动的触发词可以是“举办”等。首先从文本中确定触发词,然后根据该触发词获取事件的元素,例如事件内容、事件发生时间、事件发生地点等,从而实现对事件的抽取。当然,在实际应用中,除了采用基于触发词的事件抽取方法,还可以有其他抽取方法,例如基于统计或基于机器学习等等,本申请不做具体限定。
此外,由于重名可能会影响事件抽取的准确度,在实际应用中,在抽取第一人物参与的事件时,不仅依靠第一人物的名字,还可以考虑第一人物所在的单位或机构,例如中科院王五、北大赵四等等。
S103:从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合。
从第二文本集合中抽取所述第二人物参与的事件,与从第一文本集合中抽取所述第一人物参与的事件相类似,具体描述参见上文,此处不再赘述。
S104:从所述第一事件集合和所述第二事件集合中确定相同事件。
在本实施例中,当从第一人物的第一文本集合中抽取出第一事件集合,以及从第二人物的第二文本集合中抽取出第二事件集合之后,从第一事件集合和第二事件集合中确定出相同的事件。这意味着第一人物和第二人物参与了相同的事件,也就说明第一人物和第二人物之间存在一定的社交可能性。其中,相同的事件的含义是至少事件的内容相同,除了事件内容相同之外,还可以包括事件发生时间和事件发生地点至少其中一个相同。
S105:基于所述相同事件构建所述第一人物和所述第二人物的共现关系。
由于第一人物和第二人物共同参与了同一个事件,表示二者具有一定的社交可能性,也即代表二者具有一定的共现关系。
在其中一种可能实现的方式中,可以基于相同事件的个数确认第一人物和第二人物是否存在共现关系,比如说若相同事件的个数大于或等于阈值,则认为二者之间存在共现关系;若小于,则认为二者之间不存在共现关系。
当然,可以理解的是,除了上述可能的实现方式,还可以有其他基于相同事件确定第一人物和第二人物是否存在共现关系的方法,比如说参见图2,该方法包括如下步骤:
S201:从所述第一文本集合中确定包含所述相同事件的文本,形成第三文本集合。
S202:获取所述第三文本集合中各个文本的关键词,形成第一关键词集合。
S203:从所述第二文本集合中确定包含所述相同事件的文本,形成第四文本集合。
S204:获取所述第四文本集合中各个文本的关键词,形成第二关键词集合。
S205:若所述第一关键词集合和第二关键词集合之间的相似性大于预设阈值,则构建所述第一人物和所述第二人物之间的共现关系。
发明人发现,在一些场景中,虽然两个人物出现在相同的事件中,但是二者并没有社交关系,这时,其相同事件各自所在文本的关键词是不相似的。例如一个化学家和一个艺术家共同出席了某大会(相同事件),但是从文本的关键词可以看出,二者没有在该大会的同一个讨论组中,化学家参与的是化学方向的讨论组,艺术家参与的是艺术方向的讨论组,在这种情况下,这两个人不能建立起共现关系。
也就是说,第一人物和第二人物的共现关系不仅仅考虑两个人物出现在相同的事件中,还可以考虑这些相同的事件所在文本的关键词是否相似,以进一步提高第一人物和第二人物共现关系建立的准确性。
其中,从第三文本集合和第四文本集合中获取关键词,以第三文本集合和第四文本集合包括第一文本为例,可以包括但不限于如下方式:
方式一、依据预先设置的词库进行获取,即第一文本中找到词库中存在的词作为该文本的关键词。
所述预先设置的词库可以是由专有名词构成的词库,这些专有名词例如可以依据百度百科、搜狗百科等词库进行构建。
方式二:依据第一文本自身来获取。即对所述第一文本进行分词,得到第一特征词。其中,特征词是指具有含义且独立的词,例如名词、动词、形容词等。然后,根据所述第一特征词在所述第一文本中出现的频次,以及其他特征词与所述第一特征词出现在同一个句子中的次数,得到所述第一特征词是否属于所述第一文本的关键词的判断结果。
当如计算第一特征词的权值强度一样,计算得到第一文本中每个特征词的权值强度之后,获取权值强度由高到低的前N(N大于或等于1)个特征词作为第一文本的关键词,或者将权值强度大于或等于预设权值强度的特征词作为第一文本的关键词。
综上所述,相比较于现有技术根据两个人物出现在同一个文本中的频次来确定二者之间的共现关系,本实施例通过两个人物参加的相同事件来确定二者之间的共现关系,即便一个文本中讲述的是多个不相关的事件,而第一人物和第二人物分别出现在不同的事件中,也不会被认为二者具有共现关系,所以本实施例提供的人物共现关系确定方法能够更准确的反映两个人物之间的共现关系。
另外,可选的,在本实施例中,还可以根据研究方向词库确定所述第一文本集合和/或第二文本集合中各文本所属的研究方向,以便建立第一人物和/或第二人物与研究方向之间的映射关系,或者通过第一文本集合和/或第二文本集合建立第一人物和/或第二人物与研究方向之间的映射关系,或者,其目的在于便于后续进行专家推荐。
参见图3,该图为人物网络图,在该图中,人物为学者,与学者具有直接映射关系的包括四个类型的文本集合,这四个类型包括已报道的新闻、已发表的论文、已参加的活动和已发行的著作。与这四个文本集合具有直接映射关系是这些文本集合所属的研究方向,也就是说,学者通过这四个文本集合与研究方向建立起了映射关系。每个研究方向都对应一组这四个类型的文本集合。除了研究方向和文本集合,与学者具有映射关系的还有单位或机构,以及领域。
参见图4,该图为本申请实施例提供的一种专家推荐方法的流程图。
本实施例提供的专家推荐方法包括如下步骤:
S301:获取待进行专家推荐的目标研究方向。
在实际应用中,用户的需求往往是得到与目标研究方向对应的权威专家。所以用户可以通过输入目标研究方向来进行后续的专家推荐流程。
考虑到用户输入的目标研究方向可能并不准确,所以,可选的,可以先获取检索关键词,并根据检索关键词在研究方向词库中确定目标研究方向,作为目标研究方向。匹配的过程不仅仅包括文字相同,而且还应当包括在语义上相同或相近,例如“无人机”和“无人飞行器”虽然在字面上不同,但是其语义是相同的。
进一步的,当用户输入的是检索语句,而不是检索关键词时,还可以对检索语句进行分词,得到分词结果。考虑到分词结果中关键词的数量可能较少,检索的目标研究方向范围也较小,影响后续专家的推荐效果,可选的,还可以基于分词结果生成目标词向量,并从词向量库中选取出与所述目标词向量之间的距离满足预设条件的词向量,作为扩展词向量;将所述分词结果和与所述扩展词向量对应的词作为所述检索关键词。也就是说,检索关键词不仅仅包括根据用户输入的检索语句确定得到,而且还包括基于用户的输入扩展出来的词,通过该方法使得检索关键词的数量增加,检索目标研究方向时范围也较大,从而提高专家的推荐广度。其中,所述词向量库可以预先基于百度百科等词库进行训练,由于具体的训练方法为公知常识,所以此处不再赘述。
S302:基于目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家。
当获得到待进行专家推荐的目标研究方向之后,基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家。研究方向与专家的映射关系可以例如图3进行构建。
在所述目标研究方向为多个的情况下,得到的待推荐专家为与每个目标研究方向分别对应的待推荐专家。
S303:根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值。
其中,所述待推荐专家之间和/或与其他专家之间的共现关系根据上文所述的人物共现关系确定方法进行确定。
也就是说,分别基于每个待推荐专家和除该待推荐专家之外的其他专家之间的共现关系,得到该待推荐专家在所述目标研究方向上的影响力分值。
可选的,可以通过网页排名(Page Rank)算法来计算待推荐专家在目标研究方向上的影响力分值。网页排名算法的公式如下:
应用到本实施例中,PageRank(pi)为第i个专家pi在专家关系网中的影响力分值,为专家pi的所有共现专家集合,对每一个pi的共现专家pj都有PageRank(pj)影响力分值,L(pj)为与专家pj建立共现关系的专家个数,N为所述专家关系网中专家的个数,q为阻尼系数,取值范围0到1,通常取0.8~0.85。
S304:根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
在本实施例中,可选的,可以将影响力分值大于或等于预设分值的待推荐专家作为目标专家进行推荐,也可以将影响力分值排在前M(M大于或等于1)位的待推荐专家作为目标专家进行推荐。可选的,在为用户显示目标专家时,可以按照其影响力分值进行排序,以提高专家命中率和用户体验,其中专家命中率表达用户选定的专家的概率。
综上所述,本实施例不仅根据专家的研究方向进行专家推荐,而且还考虑到专家的影响力,优先推荐影响力分值较高的专家给用户,有效提高了专家的命中率以及用户体验。
当然,除了将专家的影响力作为推荐专家的一个重要要素以外,还可以综合其他要素进行推荐,即预设影响力要素。所述预设影响力要素至少包括以下其中一项:
所述待推荐专家在所述目标研究方向上发表的论文的数量、所述待推荐专家在所述目标研究方向上的新闻报道的数量、所述待推荐专家在所述目标研究方向上发表的文章的阅读量、所述待推荐专家在所述目标研究方向上参与的学术活动的次数、所述待推荐专家在所述目标研究方向上发行的著作数量以及发行量。
在一些场景下可以基于确定的专家进行推荐,例如用户根据目标专家列表选择了其中一个专家作为确定的专家,或者将用户输入的专家作为确定的专家等等,此时可以基于该确定的专家推荐与该专家相似的专家,以使推荐更有针对性,提高用户体验。
所以,本实施例还提供了一种专家推荐方法,参见图5,所述专家推荐方法可以包括如下步骤:
S401:获取第一专家。
所述第一专家可以是用户从上述目标专家中选出来的一个专家,也可以是用户输入的专家等。在本实施例中,第一专家作为确定的专家,基于第一专家来进行专家推荐。
S402:从专家共现关系库中获取与所述第一专家具有共现关系的第二专家。
所述专家共现关系库根据上述人物共现关系确定方法进行构建。也就是说,将根据上述人物共现关系确定方法确定任意两个专家的共现关系,从而形成专家共现关系库。
与第一专家具有共现关系的第二专家可以是一个,也可以是多个,本实例不做具体限定。
S403:基于所述第一专家推荐所述第二专家。
本实施例通过获取第一专家,并从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,基于所述第一专家推荐所述第二专家,实现基于对确定的第一专家推荐第二专家的目的。
可选的,基于所述第一专家推荐所述第二专家可以通过如下步骤实现:
获取所述第一专家和所述第二专家共现在相同事件的事件个数。
若所述事件个数满足第一预设条件,则基于所述第一专家推荐所述第二专家。
在本实施例中,所述第一专家是确定的专家,所述第二专家可以是与第一专家具有共现关系的专家中的其中一个专家。为了判断是否根据第一专家推荐第二专家,在本实施例中,获取所述第一专家和所述第二专家共现在相同事件的事件个数。获取所述第一专家和第二专家共现的相同事件可以根据前述方法进行确定,此处不再赘述。
所述第一专家和第二专家共现在相同事件的事件个数越多,说明第一专家和第二专家之间合作或有社交的可能性越高;所述第一专家和第二专家共现在相同事件的事件个数越少,说明第一专家和第二专家之间合作或有社交的可能性越低。若所述第一专家和所述第二专家共现在相同事件的事件个数满足第一预设条件,例如大于或等于某个预设个数,则基于所述第一专家推荐所述第二专家。
在本实施例中,通过首先获取第一专家和与所述第一专家具有共现关系的第二专家,然后获取所述第一专家和所述第二专家共现在相同事件的事件个数,当所述事件个数满足第一预设条件时,基于所述第一专家推荐所述第二专家,实现基于对确定的第一专家推荐第二专家的目的。
可选的,除了根据相同事件的个数推荐专家,还可以根据研究方向推荐专家。
参见图6,所述专家推荐方法还包括:
S501:根据研究方向与专家的映射关系,得到所述第一专家的第一研究方向集合。
在上文中提到,可以根据研究方向词库确定所述第一文本集合和/或第二文本集合中各文本所属的研究方向,以便建立第一人物和/或第二人物与研究方向之间的映射关系。当第一人物和第二人物为专家时,就可以构建研究方向与专家之间的映射关系。
在实际应用中,通常情况下,专家不只有一个研究方向,这些研究方向可以同属于一个领域,可以属于不同的领域。
在本实施例中,根据研究方向与专家的映射关系,得到所述第一专家的第一研究方向集合。所述第一专家的研究方向集合包括所述第一专家的至少一个研究方向。
S502:根据所述研究方向与专家的映射关系,确定与所述第一专家在至少一个研究方向上相同的专家,和/或,根据所述专家共现关系库确定与所述第一专家具有共现关系的专家,作为第三专家。
在本实施例中,根据第一专家的映射关系和/或研究方向找到第三专家。其中“和”的意思是第三专家既与第一专家具有映射关系,二者又至少有一个研究方向是相同的。
S503:根据所述研究方向与专家的映射关系,得到所述第三专家的第三研究方向集合。
在本实施例中,所述第三研究方向集合包括所述第三专家的至少一个研究方向。
S504:获取所述第一专家的文本,并计算所述第一研究方向集合中的各个研究方向分别在所述第一专家的文本中出现的频次,并根据所述频次对所述第一专家的各个研究方向进行排序,得到第一研究方向向量。
第一专家的文本是指提及所述第一专家的文本。第一专家的研究方向在第一专家的文本中出现的频次,反映第一专家在该研究方向上的专业程度。某个研究方向在第一专家的文本中出现频次越高,说明第一专家在该研究方向上的专业程度越高。
S505:获取所述第三专家的文本,并计算所述第三研究方向集合中的各个研究方向分别在所述第三专家的文本中出现的频次,并根据所述频次对所述第三专家的各个研究方向进行排序,得到第二研究方向向量。
第三专家的文本是指提及所述第三专家的文本。第三专家的研究方向在第三专家的文本中出现的频次,反映第三专家在该研究方向上的专业程度。某个研究方向在第三专家的文本中出现频次越高,说明第三专家在该研究方向上的专业程度越高。
S506:根据所述第一研究方向向量和所述第二研究方向向量之间的距离,得到所述第三专家与所述第一专家的第一相似度。
在本实施例中,按照第一专家的研究方向在第一专家的文本中出现的频次进行排序,得到第一研究方向向量;按照第三专家的研究方向在第三专家的文本中出现的频次进行排序,得到第二研究方向向量。计算第一研究方向向量和第二研究方向向量之间的距离,可以采用计算二者夹角的余弦,或者求欧式距离等方式来进行计算。所述第一研究方向向量和所述第二研究方向向量之间的距离越大,表示所述第三专家与所述第一专家的第一相似度越低;所述第一研究方向向量和所述第二研究方向向量之间的距离越小,表示所述第三专家与所述第一专家的第一相似度越高。
S507:若所述第一相似度满足第二预设条件,则基于所述第一专家推荐所述第三专家。
在本实施例中,当所述第一相似度满足第二预设条件时,例如第一相似度大于或等于预设相似度,基于所述第一专家推荐所述第三专家,实现基于第一专家进行专家推荐的目的。
可选的,除了根据相同事件的个数和研究方向推荐专家,还可以根据领域推荐专家。
可选的,参见图7,所述专家推荐方法还包括:
S601:根据领域与专家的映射关系,得到所述第一专家的第一领域集合。
由于研究方向可以是跨领域的,比如说人工智能这一研究方向,涉及的领域包括自动化、计算机、数学、电子等诸多领域,所以在本实施例中,除了可以根据研究方向来进行专家推荐之外,还可以根据领域来进行专家推荐。
在本实施例中,可以通过从专家的文本中提取关键词确定领域,来构建领域与专家的映射关系。根据领域与专家的映射关系,得到与所述第一专家匹配的领域,形成第一领域集合。所述第一领域集合包括所述第一专家的至少一个所在领域。
S602:根据所述领域与专家的映射关系,获取与所述第一专家的第一领域集合中至少一个所在领域相同的第四专家。
S603:根据所述领域与专家的映射关系,获取所述第四专家的第四领域集合。
所述第四领域集合包括所述第四专家的至少一个所在领域。
S604:根据所述第一领域集合和所述第四领域集合之间的相似度,得到所述第四专家与所述第一专家的第二相似度。
可选的,根据所述第一领域集合和所述第四领域集合之间的相似度,可以根据所述第一领域集合和所述第四领域集合之间的相同领域的个数来进行确定。若相同领域的个数越多,则第二相似度越高;相反,若相同领域的个数越少,则第二相似度越低。
S605:若所述第二相似度满足第三预设条件,则基于所述第一专家推荐所述第四专家。
在本实施例中,当所述第二相似度满足第三预设条件时,例如第二相似度大于或等于预设相似度,基于所述第一专家推荐所述第四专家,实现基于第一专家进行专家推荐的目的。
基于以上实施例提供的一种人物共现关系方法,本申请实施例还提供了一种人物共现关系确定装置,下面结合附图来详细说明其工作原理。
参见图8,该图为本申请实施例提供的一种人物共现关系确定装置的结构框图。
本实施例提供的人物共现关系确定装置包括:
获取单元101,用于获取第一人物的第一文本集合和第二人物的第二文本集合;
第一抽取单元102,用于从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;
第二抽取单元103,用于从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;
事件确定单元104,用于从所述第一事件集合和所述第二事件集合中确定相同事件;
构建单元105,用于基于所述相同事件构建所述第一人物和所述第二人物的共现关系。
相比较于现有技术根据两个人物出现在同一个文本中的频次来确定二者之间的共现关系,本实施例通过两个人物参加的相同事件来确定二者之间的共现关系,即便一个文本中讲述的是多个不相关的事件,而第一人物和第二人物分别出现在不同的事件中,也不会被认为二者具有共现关系,所以本实施例提供的人物共现关系确定方法能够更准确的反映两个人物之间的共现关系。
可选的,所述构建单元,包括:
第一文本确定单元,用于从所述第一文本集合中确定包含所述相同事件的文本,形成第三文本集合;
第一关键词获取单元,用于获取所述第三文本集合中各个文本的关键词,形成第一关键词集合;
第二文本确定单元,用于从所述第二文本集合中确定包含所述相同事件的文本,形成第四文本集合;
第二关键词获取单元,用于获取所述第四文本集合中各个文本的关键词,形成第二关键词集合;
构建子单元,用于若所述第一关键词集合和第二关键词集合之间的相似性大于预设阈值,则构建所述第一人物和所述第二人物之间的共现关系。
可选的,所述第三文本集合和/或所述第四文本集合包括第一文本,所述第一关键词获取单元和/或第二关键词获取单元包括关键词获取子单元,用于:
对所述第一文本进行分词,得到第一特征词;
根据所述第一特征词在所述第一文本中出现的频次,以及其他特征词与所述第一特征词出现在同一个句子中的次数,得到所述第一特征词是否属于所述第一文本的关键词的判断结果。
可选的,所述事件确定单元,具体用于:
从所述第一事件集合和所述第二事件集合中确定事件内容相同,且事件发生时间和事件发生地点至少其中一个相同的事件。
可选的,所述装置还包括:
研究方向确定单元,用于根据研究方向词库确定所述第一文本集合和/或第二文本集合中各文本所属的研究方向。
上述实施例提供的人物共现关系确定装置可以应用在投影系统的设备或者任何具有处理器的电子设备上,所述电子设备可以是现有的、正在研发的或将来研发的任何电子设备,包括但不限于:现有的、正在研发的或将来研发的台式计算机、膝上型计算机、移动终端(包括智能手机、非智能手机、各种平板电脑)等。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在投影系统的设备或带有处理器的电子设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图9所示,为本发明人物共现关系确定装置所在投影系统的设备或带有处理器的电子设备的一种硬件结构图,除了图9所示的处理器、内存、网络接口、以及存储器之外,实施例中装置所在的人物共现关系确定设备或带有处理器的电子设备通常根据该设备的实际功能,还可以包括其他硬件,例如显示器,对此不再赘述。
其中,存储器中可以存储有人物共现关系确定方法对应的逻辑指令,该存储器例如可以是非易失性存储器(non-volatile memory),处理器可以调用执行存储器中的保存的逻辑指令,以执行上述的人物共现关系确定方法。
人物共现关系确定方法对应的逻辑指令的功能,如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
基于以上实施例提供的一种专家推荐方法,本申请实施例还提供了一种专家推荐装置,下面结合附图来详细说明其工作原理。
参见图10,该图为本申请实施例提供的一种专家推荐装置的结构框图。
本实施例提供的专家推荐装置包括:
目标研究方向获取单元201,获取待进行专家推荐的目标研究方向;
待推荐专家确定单元202,用于基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家;
分值计算单元203,用于根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值,其中,所述待推荐专家之间和/或与其他专家之间的共现关系通过上述人物共现关系确定装置进行确定;
第一推荐单元204,用于根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
本实施例不仅根据专家的研究方向进行专家推荐,而且还考虑到专家的影响力,优先推荐影响力分值较高的专家给用户,有效提高了专家的命中率以及用户体验。
可选的,所述目标研究方向获取单元,包括:
关键词获取单元,用于获取检索语句,并对所述检索语句进行分词,得到分词结果,基于所述分词结果生成目标词向量,并从词向量库中选取出与所述目标词向量之间的距离满足预设条件的词向量,作为扩展词向量,将所述分词结果和与所述扩展词向量对应的词作为所述检索关键词;
目标研究方向获取子单元,用于根据所述检索关键词在研究方向词库中确定目标研究方向作为所述目标研究方向。
可选的,所述第一推荐单元,具体用于:
根据所述待推荐专家的影响力分值以及预设影响力要素选取出目标专家进行推荐,所述预设影响力要素至少包括以下其中一项:
所述待推荐专家在所述目标研究方向上发表的论文的数量、所述待推荐专家在所述目标研究方向上的新闻报道的数量、所述待推荐专家在所述目标研究方向上发表的文章的阅读量、所述待推荐专家在所述目标研究方向上参与的学术活动的次数、所述待推荐专家在所述目标研究方向上发行的著作数量以及发行量。
基于以上实施例提供的一种专家推荐方法,本申请实施例还提供了一种专家推荐装置,下面结合附图来详细说明其工作原理。
参见图11,该图为本申请实施例提供的一种专家推荐装置的结构框图。
本实施例提供的专家推荐装置包括:
第一专家获取单元301,用于获取第一专家;
第二专家获取单元302,用于从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,所述专家共现关系库根据所述人物共现关系确定装置进行构建。
第一推荐单元303,用于基于所述第一专家推荐所述第二专家。
本实施例通过获取第一专家,并从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,基于所述第一专家推荐所述第二专家,实现基于对确定的第一专家推荐第二专家的目的。
可选的,所述第一推荐单元包括:
事件个数获取单元,用于获取所述第一专家和所述第二专家共现在相同事件的事件个数;
第一推荐子单元,用于若所述事件个数满足第一预设条件,则基于所述第一专家推荐所述第二专家。
可选的,所述装置还包括:
第一研究方向获取单元,用于根据研究方向与专家的映射关系,得到所述第一专家的第一研究方向集合,所述第一专家的研究方向集合包括所述第一专家的至少一个研究方向;
第三专家确定单元,用于根据所述研究方向与专家的映射关系,确定与所述第一专家在至少一个研究方向上相同的专家,和/或,根据所述专家共现关系库确定与所述第一专家具有共现关系的专家,作为第三专家;
第二研究方向获取单元,用于根据所述研究方向与专家的映射关系,得到所述第三专家的第三研究方向集合,所述第三研究方向集合包括所述第三专家的至少一个研究方向;
第一研究方向向量确定单元,用于获取所述第一专家的文本,并计算所述第一研究方向集合中的各个研究方向分别在所述第一专家的文本中出现的频次,并根据所述频次对所述第一专家的各个研究方向进行排序,得到第一研究方向向量;
第二研究方向向量确定单元,用于获取所述第三专家的文本,并计算所述第三研究方向集合中的各个研究方向分别在所述第三专家的文本中出现的频次,并根据所述频次对所述第三专家的各个研究方向进行排序,得到第二研究方向向量;
第一相似度确定单元,用于根据所述第一研究方向向量和所述第二研究方向向量之间的距离,得到所述第三专家与所述第一专家的第一相似度;
第二推荐单元,用于若所述第一相似度满足第二预设条件,则基于所述第一专家推荐所述第三专家。
可选的,所述装置还包括:
第一领域获取单元,用于根据领域与专家的映射关系,得到所述第一专家的第一领域集合,所述第一领域集合包括所述第一专家的至少一个所在领域;
第四专家确定单元,用于根据所述领域与专家的映射关系,获取与所述第一专家的第一领域集合中至少一个所在领域相同的第四专家;
第二领域获取单元,用于根据所述领域与专家的映射关系,获取所述第四专家的第四领域集合,所述第四领域集合包括所述第四专家的至少一个所在领域;
第二相似度确定单元,用于根据所述第一领域集合和所述第四领域集合之间的相似度,得到所述第四专家与所述第一专家的第二相似度;
第三推荐单元,用于若所述第二相似度满足第三预设条件,则基于所述第一专家推荐所述第四专家。
上述实施例提供的专家推荐装置可以应用在投影系统的设备或者任何具有处理器的电子设备上,所述电子设备可以是现有的、正在研发的或将来研发的任何电子设备,包括但不限于:现有的、正在研发的或将来研发的台式计算机、膝上型计算机、移动终端(包括智能手机、非智能手机、各种平板电脑)等。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在投影系统的设备或带有处理器的电子设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图12所示,为本发明专家推荐装置所在投影系统的设备或带有处理器的电子设备的一种硬件结构图,除了图12所示的处理器、内存、网络接口、以及存储器之外,实施例中装置所在的专家推荐设备或带有处理器的电子设备通常根据该设备的实际功能,还可以包括其他硬件,例如显示器,对此不再赘述。
其中,存储器中可以存储有专家推荐方法对应的逻辑指令,该存储器例如可以是非易失性存储器(non-volatile memory),处理器可以调用执行存储器中的保存的逻辑指令,以执行上述的专家推荐方法。
专家推荐方法对应的逻辑指令的功能,如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供了一种人物共现关系确定设备,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一人物的第一文本集合和第二人物的第二文本集合;
从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;
从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;
从所述第一事件集合和所述第二事件集合中确定相同事件;
基于所述相同事件构建所述第一人物和所述第二人物的共现关系。
本申请实施例还提供了一种专家推荐设备,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待进行专家推荐的目标研究方向;
基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家;
根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值,其中,所述待推荐专家之间和/或与其他专家之间的共现关系根据权利要求1-5任意一项所述的人物共现关系确定方法进行确定;
根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
本申请实施例还提供了一种专家推荐设备,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一专家;
从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,所述专家共现关系库根据所述权利要求1至4任意一项所述的人物共现关系确定方法进行构建;
基于所述第一专家推荐所述第二专家。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (19)
1.一种人物共现关系确定方法,其特征在于,所述方法包括:
获取第一人物的第一文本集合和第二人物的第二文本集合;
从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;
从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;
从所述第一事件集合和所述第二事件集合中确定相同事件;
从所述第一文本集合中确定包含所述相同事件的文本,形成第三文本集合;
获取所述第三文本集合中各个文本的关键词,形成第一关键词集合;
从所述第二文本集合中确定包含所述相同事件的文本,形成第四文本集合;
获取所述第四文本集合中各个文本的关键词,形成第二关键词集合;
若所述第一关键词集合和第二关键词集合之间的相似性大于预设阈值,则构建所述第一人物和所述第二人物之间的共现关系。
2.根据权利要求1所述的方法,其特征在于,所述第三文本集合和/或所述第四文本集合包括第一文本,根据如下方法得到所述第一文本的关键词:
对所述第一文本进行分词,得到第一特征词;
根据所述第一特征词在所述第一文本中出现的频次,以及其他特征词与所述第一特征词出现在同一个句子中的次数,得到所述第一特征词是否属于所述第一文本的关键词的判断结果。
3.根据权利要求1所述的方法,其特征在于,所述从所述第一事件集合和所述第二事件集合中确定相同事件包括:
从所述第一事件集合和所述第二事件集合中确定事件内容相同,且事件发生时间和事件发生地点至少其中一个相同的事件。
4.一种专家推荐方法,其特征在于,所述方法包括:
获取待进行专家推荐的目标研究方向;
基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家;
根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值,其中,所述待推荐专家之间和/或与其他专家之间的共现关系根据权利要求1-3任意一项所述的人物共现关系确定方法进行确定;
根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
5.根据权利要求4所述的方法,其特征在于,所述获取待进行专家推荐的目标研究方向包括:
获取检索语句,并对所述检索语句进行分词,得到分词结果;
基于所述分词结果生成目标词向量,并从词向量库中选取出与所述目标词向量之间的距离满足预设条件的词向量,作为扩展词向量;
将所述分词结果和与所述扩展词向量对应的词作为检索关键词;
根据所述检索关键词在研究方向词库中确定所述目标研究方向。
6.根据权利要求4所述的方法,其特征在于,所述根据所述待推荐专家的影响力分值选取出目标专家进行推荐包括:
根据所述待推荐专家的影响力分值以及预设影响力要素选取出目标专家进行推荐,所述预设影响力要素至少包括以下其中一项:
所述待推荐专家在所述目标研究方向上发表的论文的数量、所述待推荐专家在所述目标研究方向上的新闻报道的数量、所述待推荐专家在所述目标研究方向上发表的文章的阅读量、所述待推荐专家在所述目标研究方向上参与的学术活动的次数、所述待推荐专家在所述目标研究方向上发行的著作数量以及发行量。
7.根据权利要求5所述的方法,其特征在于,所述根据所述待推荐专家的影响力分值选取出目标专家进行推荐包括:
根据所述待推荐专家的影响力分值以及预设影响力要素选取出目标专家进行推荐,所述预设影响力要素至少包括以下其中一项:
所述待推荐专家在所述目标研究方向上发表的论文的数量、所述待推荐专家在所述目标研究方向上的新闻报道的数量、所述待推荐专家在所述目标研究方向上发表的文章的阅读量、所述待推荐专家在所述目标研究方向上参与的学术活动的次数、所述待推荐专家在所述目标研究方向上发行的著作数量以及发行量。
8.一种专家推荐方法,其特征在于,所述方法包括:
获取第一专家;
从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,所述专家共现关系库根据所述权利要求1至3任意一项所述的人物共现关系确定方法进行构建;
基于所述第一专家推荐所述第二专家。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第一专家推荐所述第二专家包括:
获取所述第一专家和所述第二专家共现在相同事件的事件个数;
若所述事件个数满足第一预设条件,则基于所述第一专家推荐所述第二专家。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据研究方向与专家的映射关系,得到所述第一专家的第一研究方向集合,所述第一专家的研究方向集合包括所述第一专家的至少一个研究方向;
根据所述研究方向与专家的映射关系,确定与所述第一专家在至少一个研究方向上相同的专家,和/或,确定与所述第一专家具有共现关系的专家,作为第三专家;
根据所述研究方向与专家的映射关系,得到所述第三专家的第三研究方向集合,所述第三研究方向集合包括所述第三专家的至少一个研究方向;
获取所述第一专家的文本,并计算所述第一研究方向集合中的各个研究方向分别在所述第一专家的文本中出现的频次,并根据所述频次对所述第一专家的各个研究方向进行排序,得到第一研究方向向量;
获取所述第三专家的文本,并计算所述第三研究方向集合中的各个研究方向分别在所述第三专家的文本中出现的频次,并根据所述频次对所述第三专家的各个研究方向进行排序,得到第二研究方向向量;
根据所述第一研究方向向量和所述第二研究方向向量之间的距离,得到所述第三专家与所述第一专家的第一相似度;
若所述第一相似度满足第二预设条件,则基于所述第一专家推荐所述第三专家。
11.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据领域与专家的映射关系,得到所述第一专家的第一领域集合,所述第一领域集合包括所述第一专家的至少一个所在领域;
根据所述领域与专家的映射关系,获取与所述第一专家的第一领域集合中至少一个所在领域相同的第四专家;
根据所述领域与专家的映射关系,获取所述第四专家的第四领域集合,所述第四领域集合包括所述第四专家的至少一个所在领域;
根据所述第一领域集合和所述第四领域集合之间的相似度,
得到所述第四专家与所述第一专家的第二相似度;
若所述第二相似度满足第三预设条件,则基于所述第一专家推荐所述第四专家。
12.根据权利要求9所述的方法,其特征在于,所述方法还包括:
根据领域与专家的映射关系,得到所述第一专家的第一领域集合,所述第一领域集合包括所述第一专家的至少一个所在领域;
根据所述领域与专家的映射关系,获取与所述第一专家的第一领域集合中至少一个所在领域相同的第四专家;
根据所述领域与专家的映射关系,获取所述第四专家的第四领域集合,所述第四领域集合包括所述第四专家的至少一个所在领域;
根据所述第一领域集合和所述第四领域集合之间的相似度,
得到所述第四专家与所述第一专家的第二相似度;
若所述第二相似度满足第三预设条件,则基于所述第一专家推荐所述第四专家。
13.根据权利要求10所述的方法,其特征在于,所述方法还包括:
根据领域与专家的映射关系,得到所述第一专家的第一领域集合,所述第一领域集合包括所述第一专家的至少一个所在领域;
根据所述领域与专家的映射关系,获取与所述第一专家的第一领域集合中至少一个所在领域相同的第四专家;
根据所述领域与专家的映射关系,获取所述第四专家的第四领域集合,所述第四领域集合包括所述第四专家的至少一个所在领域;
根据所述第一领域集合和所述第四领域集合之间的相似度,
得到所述第四专家与所述第一专家的第二相似度;
若所述第二相似度满足第三预设条件,则基于所述第一专家推荐所述第四专家。
14.一种人物共现关系确定装置,其特征在于,所述装置包括:
获取单元,用于获取第一人物的第一文本集合和第二人物的第二文本集合;
第一抽取单元,用于从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;
第二抽取单元,用于从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;
事件确定单元,用于从所述第一事件集合和所述第二事件集合中确定相同事件;
构建单元,用于基于所述相同事件构建所述第一人物和所述第二人物的共现关系;
所述构建单元,包括:
第一文本确定单元,用于从所述第一文本集合中确定包含所述相同事件的文本,形成第三文本集合;
第一关键词获取单元,用于获取所述第三文本集合中各个文本的关键词,形成第一关键词集合;
第二文本确定单元,用于从所述第二文本集合中确定包含所述相同事件的文本,形成第四文本集合;
第二关键词获取单元,用于获取所述第四文本集合中各个文本的关键词,形成第二关键词集合;
构建子单元,用于若所述第一关键词集合和第二关键词集合之间的相似性大于预设阈值,则构建所述第一人物和所述第二人物之间的共现关系。
15.一种专家推荐装置,其特征在于,所述装置包括:
目标研究方向获取单元,获取待进行专家推荐的目标研究方向;
待推荐专家确定单元,用于基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家;
分值计算单元,用于根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值,其中,所述待推荐专家之间和/或与其他专家之间的共现关系通过权利要求14所述的人物共现关系确定装置进行确定;
第一推荐单元,用于根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
16.一种专家推荐装置,其特征在于,所述装置包括:
第一专家获取单元,用于获取第一专家;
第二专家获取单元,用于从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,所述专家共现关系库根据所述权利要求14所述的人物共现关系确定装置进行构建;
第一推荐单元,用于基于所述第一专家推荐所述第二专家。
17.一种人物共现关系确定设备,其特征在于,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一人物的第一文本集合和第二人物的第二文本集合;
从所述第一文本集合中抽取所述第一人物参与的事件,形成第一事件集合;
从所述第二文本集合中抽取所述第二人物参与的事件,形成第二事件集合;
从所述第一事件集合和所述第二事件集合中确定相同事件;
从所述第一文本集合中确定包含所述相同事件的文本,形成第三文本集合;
获取所述第三文本集合中各个文本的关键词,形成第一关键词集合;
从所述第二文本集合中确定包含所述相同事件的文本,形成第四文本集合;
获取所述第四文本集合中各个文本的关键词,形成第二关键词集合;
若所述第一关键词集合和第二关键词集合之间的相似性大于预设阈值,则构建所述第一人物和所述第二人物之间的共现关系。
18.一种专家推荐设备,其特征在于,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待进行专家推荐的目标研究方向;
基于所述目标研究方向以及预先获取的研究方向与专家的映射关系,得到待推荐专家;
根据所述待推荐专家之间和/或与其他专家之间的共现关系,得到所述待推荐专家在所述目标研究方向上的影响力分值,其中,所述待推荐专家之间和/或与其他专家之间的共现关系根据权利要求1-3任意一项所述的人物共现关系确定方法进行确定;
根据所述待推荐专家的影响力分值选取出目标专家进行推荐。
19.一种专家推荐设备,其特征在于,所述设备包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一专家;
从专家共现关系库中获取与所述第一专家具有共现关系的第二专家,所述专家共现关系库根据所述权利要求1至3任意一项所述的人物共现关系确定方法进行构建;
基于所述第一专家推荐所述第二专家。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711477743.8A CN108287875B (zh) | 2017-12-29 | 2017-12-29 | 人物共现关系确定方法、专家推荐方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711477743.8A CN108287875B (zh) | 2017-12-29 | 2017-12-29 | 人物共现关系确定方法、专家推荐方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108287875A CN108287875A (zh) | 2018-07-17 |
CN108287875B true CN108287875B (zh) | 2021-10-26 |
Family
ID=62819481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711477743.8A Active CN108287875B (zh) | 2017-12-29 | 2017-12-29 | 人物共现关系确定方法、专家推荐方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108287875B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888964B (zh) * | 2019-07-22 | 2023-09-01 | 天津大学 | 基于改进PageRank算法的专家二次推荐方法及装置 |
CN111061939B (zh) * | 2019-12-31 | 2023-03-24 | 西安理工大学 | 基于深度学习的科研学术新闻关键字匹配推荐方法 |
CN111460102B (zh) * | 2020-03-31 | 2022-09-09 | 成都数之联科技股份有限公司 | 一种基于自然语言处理的图表推荐系统及方法 |
CN112463835A (zh) * | 2020-12-11 | 2021-03-09 | 广东电网有限责任公司 | 一种使用关联关系分析的专家关系查找方法及装置 |
CN112883727B (zh) * | 2021-02-25 | 2022-02-11 | 重庆邮电大学 | 一种确定人物间关联关系的方法及装置 |
CN114625972B (zh) * | 2022-05-12 | 2022-07-15 | 中航信移动科技有限公司 | 一种信息推送方法、设备及介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495860B (zh) * | 2011-11-22 | 2013-10-02 | 北京大学 | 基于语言模型的专家推荐方法 |
US20150081696A1 (en) * | 2013-09-19 | 2015-03-19 | Marketwire L.P. | Systems and Methods for Actively Composing Content for Use in Continuous Social Communication |
CN103577549B (zh) * | 2013-10-16 | 2017-02-15 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN103605665B (zh) * | 2013-10-24 | 2017-01-11 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN106294473B (zh) * | 2015-06-03 | 2020-11-10 | 北京搜狗科技发展有限公司 | 一种实体词挖掘方法、信息推荐方法及装置 |
US10838782B2 (en) * | 2016-05-24 | 2020-11-17 | Accenture Global Solutions Limited | Event abstractor |
-
2017
- 2017-12-29 CN CN201711477743.8A patent/CN108287875B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108287875A (zh) | 2018-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287875B (zh) | 人物共现关系确定方法、专家推荐方法、装置及设备 | |
Xu et al. | Detecting fake news over online social media via domain reputations and content understanding | |
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
Montejo-Ráez et al. | Ranked wordnet graph for sentiment polarity classification in twitter | |
US9965459B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
US11481560B2 (en) | Information processing device, information processing method, and program | |
JP2017021796A (ja) | 学習素材のセグメントのランク付け | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN110888970B (zh) | 文本生成方法、装置、终端和存储介质 | |
Sukumar et al. | Semantic based sentence ordering approach for multi-document summarization | |
Golpar-Rabooki et al. | Feature extraction in opinion mining through Persian reviews | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
Kaur et al. | Semantic-based integrated plagiarism detection approach for english documents | |
JP2018124617A (ja) | 教師データ収集装置、教師データ収集方法、及びプログラム | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
KR101955920B1 (ko) | 속성 언어를 이용한 검색 방법 및 장치 | |
Hassan Khan et al. | Building normalized SentiMI to enhance semi-supervised sentiment analysis | |
Jorge-Botana et al. | The representation of polysemy through vectors: some building blocks for constructing models and applications with LSA | |
Wunnasri et al. | Solving unbalanced data for Thai sentiment analysis | |
Zanoli et al. | Exploiting background knowledge for clustering person names | |
Hung et al. | Aafndl-an accurate fake information recognition model using deep learning for the vietnamese language | |
Ardanuy et al. | You shall know people by the company they keep: person name disambiguation for social network construction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |