CN113495955A - 一种面向文档的专家推送方法、系统、设备及存储介质 - Google Patents

一种面向文档的专家推送方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113495955A
CN113495955A CN202110774293.9A CN202110774293A CN113495955A CN 113495955 A CN113495955 A CN 113495955A CN 202110774293 A CN202110774293 A CN 202110774293A CN 113495955 A CN113495955 A CN 113495955A
Authority
CN
China
Prior art keywords
document
target document
author
information
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110774293.9A
Other languages
English (en)
Inventor
孙孟奇
尤旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110774293.9A priority Critical patent/CN113495955A/zh
Publication of CN113495955A publication Critical patent/CN113495955A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向文档的专家推送方法、系统、设备及存储介质,上述方法包括:获取用户的目标文档以及目标文档作者的相关信息;基于知识图谱获取内容与目标文档的内容相似的结果文档的作者信息、与目标文档含有相同实体的结果文档的作者信息、与目标文档带有相同标签的结果文档的作者信息以及与目标文档作者具有一定相关性的作者信息;汇总得到的作者信息,并返回给用户。本发明提出的方法可以针对目标文档为用户推荐其可能需要了解的相关专家,方便用户与相关领域专家进行沟通。

Description

一种面向文档的专家推送方法、系统、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于知识图谱的面向文档的专家推送方法、系统、设备及存储介质。
背景技术
随着社会与科技的发展,我们已经进入到了信息时代,现在几乎所有的企业都有着大量的文档资料,文档已经成为企业记录历史数据的重要方式。随着网络的发展,尤其是最近几年远程协作办公的普及,在线文档以其方便共享、方便同步等独有的优势得以快速发展,目前已有逐渐取代传统文档的趋势。在线文档的一大特点就是便于管理,尤其是其作者以及协作者、查看者等用户标签清晰且明确。这种独有的优势,使得在线文档与员工之间很容易形成关联关系,这是传统文档很难做到的。特别是近些年知识图谱技术的广泛应用,使实体之间的关系能够为企业创造极大的价值。
在查看文档时,很多人都习惯于同时去寻找该文档的作者以及与其相关的专家的相关信息,这就涉及到基于一篇文档,向用户推荐相关领域的专家、学者的需求。现有的根据文档来进行专家的推荐的方法,需要进行大量的数据的整理归纳工作,将文档与作者信息录入到数据库中,在搜索过程中进行精准的搜索推荐。
上述方法对于少量文档以及作者的推荐过程是可以适用的,不过对于目前海量数据共存的情况来说,并不合适。首先,针对于文档的作者等信息的整理归纳工作需要大量的人力;其次,该项工作的结果并不能广泛地应用于其他的应用场景,通用型较低。不仅如此,上述方式只能提供近似于精准搜索的结果,并不能基于相似性或相关性来进行扩展性的推荐。
发明内容
本发明针对上述的文档整理耗时费力且通用性低,搜索结果不具有扩展性的技术问题,提出一种基于知识图谱的面向文档的专家推送方法、系统、设备及存储介质。
第一方面,本申请实施例提供了一种面向文档的专家推送方法,包括:
目标文档信息获取步骤:获取用户的目标文档以及目标文档作者的相关信息;
专家信息获取步骤:基于知识图谱获取内容与所述目标文档的内容相似的结果文档的作者信息、与所述目标文档含有相同实体的结果文档的作者信息、与所述目标文档带有相同标签的结果文档的作者信息以及与所述目标文档作者具有一定相关性的作者信息;
专家信息汇总步骤:汇总得到的作者信息,并返回给所述用户。
上述专家推送方法,其中,文档、文档作者以及文档与文档作者的关系均存储于所述知识图谱中。
上述专家推送方法,其中,所述专家信息获取步骤包括:
预处理步骤:将所述目标文档的内容去停用词;
向量计算步骤:根据所述目标文档的内容中的词向量计算目标文档内容向量;
相似度计算步骤:计算其他文档的内容向量与所述目标文档内容向量的余弦相似度,将所述余弦相似度大于相似度阈值的其他文档作为结果文档。
上述专家推送方法,其中,所述专家信息获取步骤还包括:
实体识别步骤:对所述目标文档的内容进行实体识别,得到所述目标文档所涉及的实体;
实体查询步骤:通过所述知识图谱根据涉及的所述实体进行查询,得到含有相同所述实体的结果文档。
上述专家推送方法,其中,所述专家信息获取步骤还包括:
标签获取步骤:获取所述目标文档的标签;
标签查询步骤:通过所述知识图谱根据所述标签进行查询,得到带有相同所述标签的结果文档。
上述专家推送方法,其中,所述专家信息获取步骤还包括:
节点扩展步骤:在所述知识图谱中以所述目标文档作者为基础节点进行扩展,获取在设定阈值之内的其他节点;
节点筛选步骤:对所述节点进行筛选,将筛选后的所述节点作为与所述目标文档作者具有一定相关性的作者。
第二方面,本申请实施例提供了一种面向文档的专家推送系统,包括:
目标文档信息获取单元:获取用户的目标文档以及目标文档作者的相关信息;
专家信息获取单元:基于知识图谱获取内容与所述目标文档的内容相似的结果文档的作者信息、与所述目标文档含有相同实体的结果文档的作者信息、与所述目标文档带有相同标签的结果文档的作者信息以及与所述目标文档作者具有一定相关性的作者信息;
专家信息汇总单元:汇总得到的作者信息,并返回给所述用户。
上述专家推送系统,其中,所述专家信息获取单元包括:
第一文档获取模块:通过计算所述目标文档的内容与其他文档的内容的相似度,根据相似度阈值获取结果文档;
第二文档获取模块:基于所述知识图谱通过实体查询获得与所述目标文档含有相同实体的结果文档;
第三文档获取模块:基于所述知识图谱通过标签查询获得与所述目标文档含有相同标签的结果文档;
相关作者获取模块:基于所述知识图谱进行节点扩展获得与所述目标文档的作者具有一定相关性的作者信息。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的面向文档的专家推送方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的面向文档的专家推送方法。
与现有技术相比,本发明的优点和积极效果在于:
1、本发明涉及深度学习技术,本发明提出的方法可以针对目标文档为用户推荐其可能需要了解的相关专家,方便用户与相关领域专家进行沟通。
2、本发明面向在线文档,很容易就可以得到明确的文档作者以及贡献者等信息,并且,本发明结合知识图谱技术,减少了对文档与文档作者、文档之间以及文档作者之间的关系的整理归纳的工作量,提高了文档检索效率,并且提高了专家推荐的准确性,并能基于相似性与相关性进行扩展性的推荐。
附图说明
图1为本发明提供的一种基于知识图谱的面向文档的专家推送方法的步骤示意图;
图2为本发明提供的面向文档的专家推送方法一实施例流程示意图;
图3为本发明提供的获取与目标文档的内容相似度较高的其他文档的作者的流程图;
图4为本发明提供的获取与目标文档含有相同实体的其他文档的作者的流程图;
图5为本发明提供的获取与目标文档带有相同标签的其他文档的作者的流程图;
图6为本发明提供的一种基于知识图谱的面向文档的专家推送系统的框架图;
图7为根据本申请实施例的计算机设备的框架图。
其中,附图标记为:
1、目标文档信息获取单元;2、专家信息获取单元;21、第一文档获取模块;22、第二文档获取模块;23、第三文档获取模块:24、相关作者获取模块;3、专家信息汇总单元;81、处理器;82、存储器;83、通信接口;80、总线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明通过知识图谱根据目标文档内容与目标文档作者为用户推荐其可能需要了解的相关专家,包括与目标文档内容相似、与目标文档有相同实体与标签的文档的作者,以及与目标文档作者具有一定相关性的作者,方便用户与相关领域专家进行沟通。
实施例一:
在查看文档时,很多人都习惯于同时去寻找该文档的作者以及与其相关的专家的相关信息,这就涉及到基于一篇文档,向用户推荐相关领域的专家、学者的需求。本发明结合在线文档的特性以及知识图谱的应用,为实现上述需求提供了条件。
本实施例中,存在一个目标文档,该文档定义为用户指定的待搜索文档,即我们需要根据该文档为用户推荐相关的专家。推荐的专家与目标文档之间需要至少满足下面两个条件中的一个:
1)专家与目标文档的作者有联系。
2)专家所著的文档与目标文档有联系。
根据上述限制条件,在本发明中,将从如下几个途径和方式为用户推荐其所需要的专家:
1)针对目标文档,推荐与目标文档的内容相似度较高的其他文档的作者。
2)针对目标文档,推荐与目标文档的作者具有较高相关性的其他作者。
3)针对目标文档,推荐与目标文档含有相同实体的其他文档的作者。
4)针对目标文档,推荐与目标文档带有相同标签的其他文档的作者。
其中,文档实体与文档作者实体以及其相关的关系均存储于知识图谱中。通过上述四种途径获取相关的专家后,将四种途径所得到的结果汇总在一起得到最终的推荐结果,返回给用户。
图1为本发明提供的一种基于知识图谱的面向文档的专家推送方法的步骤示意图。如图1所示,本实施例揭示了一种基于知识图谱的面向文档的专家推送方法(以下简称“方法”)的具体实施方式。
具体而言,本实施例所揭示的方法主要包括以下步骤:
步骤S1:获取用户的目标文档以及目标文档作者的相关信息;
步骤S2:基于知识图谱获取内容与所述目标文档的内容相似的结果文档的作者信息、与所述目标文档含有相同实体的结果文档的作者信息、与所述目标文档带有相同标签的结果文档的作者信息以及与所述目标文档作者具有一定相关性的作者信息;
其中,文档、文档作者以及文档与文档作者的关系均存储于所述知识图谱中。
具体而言,步骤S2具体包括以下内容:
将所述目标文档的内容去停用词,然后根据所述目标文档的内容中的词向量计算目标文档内容向量,最后计算其他文档的内容向量与所述目标文档内容向量的余弦相似度,将所述余弦相似度大于相似度阈值的其他文档作为结果文档。或者,通过提取文档的关键词,根据关键词匹配的方式寻找与目标文档内容相似的文档。
对所述目标文档的内容进行实体识别,得到所述目标文档所涉及的实体,通过所述知识图谱根据涉及的所述实体进行查询,得到含有相同所述实体的结果文档。
获取所述目标文档的标签,通过所述知识图谱根据所述标签进行查询,得到带有相同所述标签的结果文档。
在所述知识图谱中以所述目标文档作者为基础节点进行扩展,获取在设定阈值之内的其他节点,对所述节点进行筛选,将筛选后的所述节点作为与所述目标文档作者具有一定相关性的作者。
步骤S3:汇总得到的作者信息,并返回给所述用户。
具体而言,在获取文档的作者时,也可以包含文档的其他贡献者,从而扩展搜索结果。
以下,请参照图2至图5。图2为本发明提供的面向文档的专家推送方法一实施例流程示意图,结合图2,具体说明本方法的应用流程如下:
在用户撰写新的文档时,通常会查询相关的文档作为参考资料,在查询到参考的相关文档后,用户通常会需要了解参考资料相关的专家,与其沟通或者了解其更多的文档作为参考。为此,本发明提出一种针对目标文档,为用户推荐符合其要求的相关专家的方法。
Step1:传入目标文档,获取用户的目标文档以及其作者等相关信息。
Step2:获取目标文档相关的专家,该步骤分为四种途径:
1.获取与目标文档的内容相似度较高的其他文档的作者。
在本发明中,将文档内容转换为向量的形式,从而比较文档内容的相似性。相似性的得分以向量的余弦相似度为依据。余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度的定义如下:
给定两个向量,A和B,其余弦相似性θ由点积和向量长度给出,公式如下:
Figure BDA0003153922150000091
其中的Ai,Bi分别代表向量A和B的各分量。如图3所示,该途径的具体步骤如下:
首先将目标文档内容去停用词,根据词向量计算目标文档的文档内容向量,与其他文档内容向量进行比较,获得余弦相似度大于阈值的N篇文章,作为结果文章,最后获得结果文章的作者。
另外,也可以提取文档的关键词,根据关键词匹配的方式寻找与目标文档内容相似的文档。
2.获取与目标文档含有相同实体的其他文档的作者。
如图4所示,该途径的具体步骤为:首先对目标文档进行实体识别,得到目标文档内容中涉及到的实体,之后根据知识图谱进行查询,得到目标文档中实体相关的其他文档作为结果文档,并且推荐结果文档的作者。
3.获取与目标文档带有相同标签的其他文档的作者。
本发明中所涉及到的文档在知识图谱中均存有其相关的标签,例如:文档所属行业、文档所属产品、文档所属项目、文档归属部门等等。如图5所示,该途径的主要步骤如下:从知识图谱中获得目标文档的标签属性信息,利用标签在知识图谱中搜索,得到具有相同标签的其他文档,并且将结果文档的作者推荐给用户。
4.获取与目标文档的作者具有较高相关性的其他作者。
本发明中定义文档作者之间的相关性主要基于知识图谱,比如二者从属于同一部门、共同参与过同一项目等等。在本发明中,在对应的知识图谱中,以目标文档的作者实体为基础节点,进行扩展,在一定阈值之内能够到达的其他节点,即为在知识图谱中与基础节点相关性较高的其他节点。该阈值为人为预先设定的值,一般设定为2。获得相关性较高的其他节点后,筛选出类型为员工的节点,作为最终的结果节点,将这些节点推荐给用户。
Step3:汇总上述途径得到的专家信息,返回给用户。
另外,在获取文档的作者时,也可以包含文档的其他贡献者,从而扩展搜索结果。
使用本发明提出的方案,可以针对目标文档为用户推荐其可能需要了解的相关专家,方便用户与相关领域专家进行沟通。本发明面向在线文档,很容易就可以得到明确的文档作者以及贡献者等信息,不仅如此,本发明结合知识图谱技术,减少了对文档与文档作者、文档之间的关系以及文档作者之间的关系的整理归纳的工作量,并且提高了专家推荐的准确性。
实施例二:
结合实施例一所揭示的一种基于知识图谱的面向文档的专家推送方法,本实施例揭示了一种基于知识图谱的面向文档的专家推送系统(以下简称“系统”)的具体实施示例。
参照图6所示,所述系统包括:
目标文档信息获取单元1:获取用户的目标文档以及目标文档作者的相关信息;
专家信息获取单元2:基于知识图谱获取内容与所述目标文档的内容相似的结果文档的作者信息、与所述目标文档含有相同实体的结果文档的作者信息、与所述目标文档带有相同标签的结果文档的作者信息以及与所述目标文档作者具有一定相关性的作者信息;
专家信息汇总单元3:汇总得到的作者信息,并返回给所述用户。
具体而言,所述专家信息获取单元2包括:
第一文档获取模块21:通过计算所述目标文档的内容与其他文档的内容的相似度,根据相似度阈值获取结果文档;
第二文档获取模块22:基于所述知识图谱通过实体查询获得与所述目标文档含有相同实体的结果文档;
第三文档获取模块23:基于所述知识图谱通过标签查询获得与所述目标文档含有相同标签的结果文档;
相关作者获取模块24:基于所述知识图谱进行节点扩展获得与所述目标文档的作者具有一定相关性的作者信息。
本实施例所揭示的一种基于知识图谱的面向文档的专家推送系统与实施例一所揭示的一种基于知识图谱的面向文档的专家推送方法中其余相同部分的技术方案,请参实施例一所述,在此不再赘述。
实施例三:
结合图7所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种专家推送方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图7所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的专家推送方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种专家推送方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种面向文档的专家推送方法,其特征在于,包括:
目标文档信息获取步骤:获取用户的目标文档以及目标文档作者的相关信息;
专家信息获取步骤:基于知识图谱获取内容与所述目标文档的内容相似的结果文档的作者信息、与所述目标文档含有相同实体的结果文档的作者信息、与所述目标文档带有相同标签的结果文档的作者信息以及与所述目标文档作者具有一定相关性的作者信息;
专家信息汇总步骤:汇总得到的作者信息,并返回给所述用户。
2.根据权利要求1所述的专家推送方法,其特征在于,文档、文档作者以及文档与文档作者的关系均存储于所述知识图谱中。
3.根据权利要求2所述的专家推送方法,其特征在于,所述专家信息获取步骤包括:
预处理步骤:将所述目标文档的内容去停用词;
向量计算步骤:根据所述目标文档的内容中的词向量计算目标文档内容向量;
相似度计算步骤:计算其他文档的内容向量与所述目标文档内容向量的余弦相似度,将所述余弦相似度大于相似度阈值的其他文档作为结果文档。
4.根据权利要求2所述的专家推送方法,其特征在于,所述专家信息获取步骤还包括:
实体识别步骤:对所述目标文档的内容进行实体识别,得到所述目标文档所涉及的实体;
实体查询步骤:通过所述知识图谱根据涉及的所述实体进行查询,得到含有相同所述实体的结果文档。
5.根据权利要求2所述的专家推送方法,其特征在于,所述专家信息获取步骤还包括:
标签获取步骤:获取所述目标文档的标签;
标签查询步骤:通过所述知识图谱根据所述标签进行查询,得到带有相同所述标签的结果文档。
6.根据权利要求2所述的专家推送方法,其特征在于,所述专家信息获取步骤还包括:
节点扩展步骤:在所述知识图谱中以所述目标文档作者为基础节点进行扩展,获取在设定阈值之内的其他节点;
节点筛选步骤:对所述节点进行筛选,将筛选后的所述节点作为与所述目标文档作者具有一定相关性的作者。
7.一种面向文档的专家推送系统,其特征在于,包括:
目标文档信息获取单元:获取用户的目标文档以及目标文档作者的相关信息;
专家信息获取单元:基于知识图谱获取内容与所述目标文档的内容相似的结果文档的作者信息、与所述目标文档含有相同实体的结果文档的作者信息、与所述目标文档带有相同标签的结果文档的作者信息以及与所述目标文档作者具有一定相关性的作者信息;
专家信息汇总单元:汇总得到的作者信息,并返回给所述用户。
8.根据权利要求7所述的专家推送系统,其特征在于,所述专家信息获取单元包括:
第一文档获取模块:通过计算所述目标文档的内容与其他文档的内容的相似度,根据相似度阈值获取结果文档;
第二文档获取模块:基于所述知识图谱通过实体查询获得与所述目标文档含有相同实体的结果文档;
第三文档获取模块:基于所述知识图谱通过标签查询获得与所述目标文档含有相同标签的结果文档;
相关作者获取模块:基于所述知识图谱进行节点扩展获得与所述目标文档的作者具有一定相关性的作者信息。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的专家推送方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的专家推送方法。
CN202110774293.9A 2021-07-08 2021-07-08 一种面向文档的专家推送方法、系统、设备及存储介质 Pending CN113495955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110774293.9A CN113495955A (zh) 2021-07-08 2021-07-08 一种面向文档的专家推送方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110774293.9A CN113495955A (zh) 2021-07-08 2021-07-08 一种面向文档的专家推送方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113495955A true CN113495955A (zh) 2021-10-12

Family

ID=77996293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110774293.9A Pending CN113495955A (zh) 2021-07-08 2021-07-08 一种面向文档的专家推送方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113495955A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130066970A1 (en) * 2011-09-08 2013-03-14 Othar Hansson System and method for confirming authorship of documents
CN108846029A (zh) * 2018-05-28 2018-11-20 哈尔滨工程大学 基于知识图谱的情报关联分析方法
CN112100470A (zh) * 2020-09-03 2020-12-18 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112487827A (zh) * 2020-12-28 2021-03-12 科大讯飞华南人工智能研究院(广州)有限公司 问题回答方法及电子设备、存储装置
CN112966053A (zh) * 2020-09-18 2021-06-15 青岛海洋科学与技术国家实验室发展中心 一种基于知识图谱的海洋领域专家库构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130066970A1 (en) * 2011-09-08 2013-03-14 Othar Hansson System and method for confirming authorship of documents
CN108846029A (zh) * 2018-05-28 2018-11-20 哈尔滨工程大学 基于知识图谱的情报关联分析方法
CN112100470A (zh) * 2020-09-03 2020-12-18 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112966053A (zh) * 2020-09-18 2021-06-15 青岛海洋科学与技术国家实验室发展中心 一种基于知识图谱的海洋领域专家库构建方法及装置
CN112487827A (zh) * 2020-12-28 2021-03-12 科大讯飞华南人工智能研究院(广州)有限公司 问题回答方法及电子设备、存储装置

Similar Documents

Publication Publication Date Title
CN107256267B (zh) 查询方法和装置
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
US10452691B2 (en) Method and apparatus for generating search results using inverted index
US9589208B2 (en) Retrieval of similar images to a query image
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
Bian et al. Multimedia summarization for trending topics in microblogs
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
WO2022142027A1 (zh) 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
CN111475725B (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN109933708A (zh) 信息检索方法、装置、存储介质及计算机设备
Adamu et al. A survey on big data indexing strategies
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
Park et al. A vector space approach to tag cloud similarity ranking
Lai et al. Improved search in hamming space using deep multi-index hashing
CN113495955A (zh) 一种面向文档的专家推送方法、系统、设备及存储介质
US11803583B2 (en) Concept discovery from text via knowledge transfer
US8543574B2 (en) Partial-matching for web searches
Zhang et al. Hyperlink-aware object retrieval
CN113139383A (zh) 一种文档排序方法、系统、电子设备及存储介质
CN109815312B (zh) 一种文档查询的方法、装置、计算设备及计算机存储介质
CN114357086A (zh) 一种基于知识图谱的专利ipc分类号推荐方法及装置
Li et al. A service mode of expert finding in social network
CN115795023B (zh) 文档推荐方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination