CN110688405A - 基于人工智能的专家推荐方法、装置、终端、及介质 - Google Patents

基于人工智能的专家推荐方法、装置、终端、及介质 Download PDF

Info

Publication number
CN110688405A
CN110688405A CN201910786147.0A CN201910786147A CN110688405A CN 110688405 A CN110688405 A CN 110688405A CN 201910786147 A CN201910786147 A CN 201910786147A CN 110688405 A CN110688405 A CN 110688405A
Authority
CN
China
Prior art keywords
data
expert
work
influence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910786147.0A
Other languages
English (en)
Inventor
朱悦
田欣
普丽娜
翁泉飞
张嘉锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Development Co Ltd
Original Assignee
Shanghai Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Development Co Ltd filed Critical Shanghai Science And Technology Development Co Ltd
Priority to CN201910786147.0A priority Critical patent/CN110688405A/zh
Publication of CN110688405A publication Critical patent/CN110688405A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本申请提供基于人工智能的专家推荐方法、装置、终端、及介质,本发明提供了一种利用数据挖掘、自然语言处理技术精准推荐科研学者的推荐系统。其中包含两种更方面更为合理的评价方法:第一方面,充分考虑文献影响力时间衰减效应和引用提升效应两者结合,跳出以往的只看静态影响因子的文献影响力评价方法;第二方面,充分利用先进的自然语言处理技术,从文献摘要、标题、全文等内容进行分词处理,再结合关键词,统计研究领域词汇出现频次,该方法使词频统计范围更加全面。最终该科研学者推荐系统能根据检索者的搜索词精准推荐专家名单,并给出专家专注度排序。

Description

基于人工智能的专家推荐方法、装置、终端、及介质
技术领域
本申请涉及人工智能技术领域,特别是涉及基于人工智能的专家推荐方法、装置、终端、及介质。
背景技术
近几年来,随着人工智能和大数据的发展,通过多维度数据的融合为人物建立数据画像,尤其是在互联网平台上为用户建立用户画像,已成为把握一个人群特征的重要手段;另一方面,构建专家数据库、建立专家画像则是建立高层次人才库、引导产学研合作和科研机构研究成果转化的重要特征。
为更好地获得成果转化供需方匹配、专家推荐的效果,前述构建专家数据库、专家画像除了应当包括专家的研究方向、论文信息、合作对象等专家的基本信息外,还应当包括专家的社会兼职、获得奖项、荣誉称号等能代表专家在学术界地位的附加信息。
但是,由于前述附加信息具有非结构化、表述多样化的数据特点,须通过技术手段将其转换为标准化、结构化的数据之后才能录入专家数据库。随着数据挖掘算法效果的提升,从海量信息中挖掘人物的特征要素的技术也日趋完善,这些技术与专家信息的融合将有助于解决专家数据库维度不够、专家画像不全面等问题。但是,这些技术仍不能实现精准地有针对性地推荐专家。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供基于人工智能的专家推荐方法、装置、终端、及介质,用于解决现有技术中的不能精准地有针对性地推荐专家的问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种基于人工智能的专家推荐方法,其包括:利用网页排名算法计算关联于专家的每篇文本作品的影响力数据;利用分词算法对所述关联于专家的每篇文本作品进行分词处理,并计算分词结果信息在基于文章关键词所构建的研究领域词库中出现的频次数据;根据所述每篇文本作品的影响力数据以及每篇文本作品的分词结果信息在所述研究领域词库中出现的频次数据,计算各专家的关注度数据;其中,各专家的关注度数据的计算结果用于进行专家推荐。
于本申请的第一方面的一些实施例中,所述利用网页排名算法计算关联于专家的每篇文本作品的影响力数据,其包括:利用网页排名算法计算所述文本作品的网页排名数据;根据所述文本作品的发表时间数据对其网页排名数据做加权计算后生成所述影响力数据。
于本申请的第一方面的一些实施例中,所述利用网页排名算法计算所述文本作品的网页排名数据,其包括:获取所述文本作品的至少包括引文关系信息的作品基本信息,以根据所述文本作品的引文关系构建对应的引文网络;根据所述文本作品所在期刊的影响因子为所述文本作品设置初始网页排名数据;基于所述文本作品的初始网页排名数据并通过多轮引用计算,获取所述文本作品最终网页排名数据。
于本申请的第一方面的一些实施例中,所述根据所述文本作品的发表时间数据对其网页排名数据做加权计算后生成所述影响力数据,其包括:所述文本作品发表的时间越早,则文本作品的影响力越小。
于本申请的第一方面的一些实施例中,所述文本作品的基本信息还包括如下信息中的任意一种或多种的组合:文本作品的标题信息、关键词信息、发表时间信息、作者姓名信息、及发表期刊信息。
于本申请的第一方面的一些实施例中,所述专家与文本作品之间的关联关系包括:以所述文本作品的作者为所述专家。
于本申请的第一方面的一些实施例中,所述各专家的关注度数据的计算结果用于进行专家推荐,其包括:根据各专家的关注度数据的计算结果由高到低进行专家推荐;其中,各专家的关注度数据的计算结果包括关联于所述专家的所有文学作品的关注度数据的总和值或平均值。
为实现上述目的及其他相关目的,本申请的第二方面提供一种基于人工智能的专家推荐装置,其包括:影响力数据计算模块,用于利用网页排名算法计算关联于专家的每篇文本作品的影响力数据;频次数据计算模块,用于利用分词算法对所述关联于专家的每篇文本作品进行分词处理,并计算分词结果信息在基于文章关键词所构建的研究领域词库中出现的频次数据;专家推荐模块,用于根据所述每篇文本作品的影响力数据以及每篇文本作品的分词结果信息在所述研究领域词库中出现的频次数据,计算各专家的关注度数据;其中,各专家的关注度数据的计算结果用于进行专家推荐。
为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的专家推荐方法。
为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于人工智能的专家推荐方法。
如上所述,本申请的基于人工智能的专家推荐方法、装置、终端、及介质,具有以下有益效果:本发明提供了一种利用数据挖掘、自然语言处理技术精准推荐科研学者的推荐系统。其中包含两种更方面更为合理的评价方法:第一方面,充分考虑文献影响力时间衰减效应和引用提升效应两者结合,跳出以往的只看静态影响因子的文献影响力评价方法;第二方面,充分利用先进的自然语言处理技术,从文献摘要、标题、全文等内容进行分词处理,再结合关键词,统计研究领域词汇出现频次,该方法使词频统计范围更加全面。最终该科研学者推荐系统能根据检索者的搜索词精准推荐专家名单,并给出专家专注度排序。
附图说明
图1显示为本申请一实施例中基于人工智能的专家推荐方法的流程示意图。
图2显示为上文实施例中步骤S1的各个分步骤的流程示意图。
图3显示为上文实施例中步骤S11的各个分步骤的流程示意图。
图4显示为上文实施例中的基于人工智能的专家推荐装置的结构示意图。
图5显示为申请实施例提供的再一种电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
近几年来,随着人工智能和大数据的发展,通过多维度数据的融合为人物建立数据画像,尤其是在互联网平台上为用户建立用户画像,已成为把握一个人群特征的重要手段;另一方面,构建专家数据库、建立专家画像则是建立高层次人才库、引导产学研合作和科研机构研究成果转化的重要特征。
为更好地获得成果转化供需方匹配、专家推荐的效果,前述构建专家数据库、专家画像除了应当包括专家的研究方向、论文信息、合作对象等专家的基本信息外,还应当包括专家的社会兼职、获得奖项、荣誉称号等能代表专家在学术界地位的附加信息。
但是,由于前述附加信息具有非结构化、表述多样化的数据特点,须通过技术手段将其转换为标准化、结构化的数据之后才能录入专家数据库。随着数据挖掘算法效果的提升,从海量信息中挖掘人物的特征要素的技术也日趋完善,这些技术与专家信息的融合将有助于解决专家数据库维度不够、专家画像不全面等问题。但是,这些技术仍不能实现精准地有针对性地推荐专家。
有鉴于此,本发明提供基于人工智能的专家推荐方法、装置、终端、及介质,用于解决现有技术中的问题,实现精准地有针对性地推荐专家。
如图1所示,展示本发明一实施例中的基于人工智能的专家推荐方法的流程示意图。所述专家推荐方法包括步骤步骤S1、步骤S2、及步骤S3。
需说明的是,本申请中的基于人工智能的专家推荐方法可应用于多种类型的硬件设备。具体而言,所述硬件设备可以是控制器,例如ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等等;所述硬件设备也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机设备;所述计算机设备包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑;所述硬件设备还可以是服务器,所述服务器可根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本实施例不作限定。
在步骤S1中,利用网页排名算法计算关联于专家的每篇文本作品的影响力数据。
所述网页排名算法又名PageRank算法,它的思想精华在于:将一个网页级别/重要性的排序问题转化成了一个公共参与、以群体民主投票的方式求解的问题,网页之间的链接即被认为是投票行为。同时,各个站点投票的权重不同,重要的网站投票具有较大的分量,而该网站是否重要的标准还需要依照其PageRank值(PR值)。
所述文本作品包括社会科学、工程技术、文学、艺术、自然科学等领域的作品,主要包括文字作品,即使用语言文字符号记录的,用以表达作者创作意图的创作成功,其包括各种文献,例如:期刊类文献、图书类文献、教科书类文献、报纸类文献、索引类文献等等。
在一些可选的实现方式中,所述专家与文本作品之间的关联关系是指以所述文本作品的作者为所述专家。需说明的是,所述文本作品的作者可以是单指第一作者,也可指所有作者,即第一作者、第二作者,及第N作者等等。另外可选的,所述专家与文本作品之间的关联关系还可以是指文本作品中所提及的专家姓名、作者的指导老师姓名等等。
如图2所示,展示了上文实施例中步骤S1的各个分步骤的流程示意图,其包括步骤S11和步骤S12。
在步骤S11中,利用网页排名算法计算所述文本作品的网页排名数据。本步骤的具体实施方式如图3所示,包括步骤S111、步骤S112、及步骤S113。
在步骤S111中,获取所述文本作品的至少包括引文关系信息的作品基本信息,以根据所述文本作品的引文关系构建对应的引文网络。
具体的,引文网络的构建是基于AMSLER网络原理,同时考虑文献之间的共被引用情况和耦合情况,只要文献之间存在共被引或耦合情况,两篇文献之间的引用情况就+1,依照这一理论构建引文网络。除了文献内容的文本特征外,文献之间的引文关系也是判断它们之间相似度的重要依据。具体的,观察WOS下载数据中的CR字段可反映每篇文献的参考文献情况,WOS通过文献的DOI来标注参考文献。因此,要知道文献之间的引用情况需把每篇文献引用的DOI集提取出来即可。
在一些可选的实现方式中,所述文本作品的基本信息除了引文关系信息之外,还包括但不限于如下信息中的任意一种或多种的组合:文本作品的标题信息、关键词信息、发表时间信息、作者姓名信息、及发表期刊信息。具体的,可通过网络爬虫爬取学术网站的文献标题、关键词、发表时间、作者姓名、发表期刊、引文等信息,并对结果进行加工清洗存入数据库。
在步骤S112中,根据所述文本作品所在期刊的影响因子为所述文本作品设置初始网页排名数据,也即PR值,用于衡量文本作品的重要程度。
在步骤S113中,基于所述文本作品的初始网页排名数据并通过多轮引用计算,获取所述文本作品最终网页排名数据。所述最终网页排名数据即作为这篇文本作品的PR值。
在步骤S12中,根据所述文本作品的发表时间数据对其网页排名数据做加权计算后生成所述影响力数据。
其中,所述根据所述文本作品的发表时间数据对其网页排名数据做加权计算后生成所述影响力数据,其包括:所述文本作品发表的时间越早,则文本作品的影响力越小。也即,根据文本作品的影响力随时间减弱效应,发表时间越久远的文章影响力越小,每篇文本作品进行PR值的时间加权计算,以能够更加合理的评价文章影响力。
在步骤S2中,利用分词算法对所述关联于专家的每篇文本作品进行分词处理,并计算分词结果信息在基于文章关键词所构建的研究领域词库中出现的频次数据。
所述分词算法包括中文分词算法,中文分词算法包括但不限于基于字符串匹配的分词算法、基于统计及机器学习的分词算法、通过让计算机模拟人对句子的理解来达到识别词的效果的分词算法等等。
其中,基于字符串匹配的分词算法,即扫描字符串如果发现字符串的子串和词典中的词相同就算匹配,比如机械分词方法;这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。基于统计及机器学习的分词算法,是基于人工标注的词性和统计特征对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果;常见的序列标注模型有HMM和CRF;这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。
所述分词算法还包括英文分词算法,例如按空格/符号来分词,排除stop word(例如a/an/and/are/then等高频词,高频词会对基于词频的算分公式产生极大的干扰,故需过滤),再提取词干(如英文单词有单数复数的变形,-ing和-ed的变形等,但在计算相关性的时候,应该当做同一个单词,如apple和apples,doing和done是同一个词)等等。
所述基于文章关键词所构建的研究领域词库,是指采用多篇甚至是大规模文献的关键词所构建的研究领域词库。通常而言,每篇文献的关键词是对文献的定性,可表征文献的研究领域或研究方向。举例来说,研究领域词库为多层架构,母层包括多个研究领域如化学研究领域、物理研究领域、生物研究领域等等;母层中的各研究领域又包括一或多个子层的领域关键词,如化研究领域包括关键词高分子、有机、无机等等,物理研究领域又包括光学、电磁学、原子、相对论等等。当然,各子层的领域关键词又可包括一或多个更低层的关键词,此处不再追溯。
可选的,利用自然语言处理分词技术对文章的摘要和标题进行分词处理,加上文章关键词构建研究领域词库,统计每篇文章研究领域词汇出现频次。
在步骤S3中,根据所述每篇文本作品的影响力数据以及每篇文本作品的分词结果信息在所述研究领域词库中出现的频次数据,计算各专家的关注度数据;其中,各专家的关注度数据的计算结果用于进行专家推荐。
可选的,对所述影响力数据和频次数据做加权计算,例如分别为影响力数据和频次数据赋予相应的权值,加权计算所得的数据便作为关联于这篇文学作品的专家的关注度数据。
可选的,所述各专家的关注度数据的计算结果用于进行专家推荐,其包括根据各专家的关注度数据的计算结果由高到低进行专家推荐。其中,各专家的关注度数据的计算结果包括关联于所述专家的所有文学作品的关注度数据的总和值或平均值。
也即,在计算每篇文学作品的关注度数据之后,可根据一专家对应的所有文学作品的关注度数据的总和或者平均值来对所有的专家进行排序,排名越高的专家推荐价值越高。举例来说,当检索“高分子”这个检索词输入科研推荐系统,系统模糊查询算法会找到该词汇出现的所有文章,再根据文章加权PR值计算文献影响力分值,然后计算作者在“高分子”领域的关注度分值,最终根据从高到低的排序方式,给出推荐专家名单。
如图4所示,展示本申请一实施例中的基于人工智能的专家推荐装置的结构示意图。所述专家推荐装置包括影响力数据计算模块41、频次数据计算模块42、及专家推荐模块43。
其在,影响力数据计算模块41用于利用网页排名算法计算关联于专家的每篇文本作品的影响力数据;频次数据计算模块42用于利用分词算法对所述关联于专家的每篇文本作品进行分词处理,并计算分词结果信息在基于文章关键词所构建的研究领域词库中出现的频次数据;专家推荐模块43用于根据所述每篇文本作品的影响力数据以及每篇文本作品的分词结果信息在所述研究领域词库中出现的频次数据,计算各专家的关注度数据;其中,各专家的关注度数据的计算结果用于进行专家推荐。
需说明的是,本实施例中基于人工智能的专家推荐装置的实施方式,与上文实施例中基于人工智能的专家推荐方法的实施方式类似,故不再赘述。
应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,影响力数据计算模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上影响力数据计算模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图5所示,展示本申请实施例提供的再一种电子终端的结构示意图。本实例提供的电子终端,包括:处理器51和存储器52;存储器52通过系统总线与处理器51连接并完成相互间的通信,存储器52用于存储计算机程序,处理器51用于运行计算机程序,使电子终端执行如上基于人工智能的专家推荐方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在一实施例中,本申请还提供一种计算机读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上文中的基于人工智能的专家推荐方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供基于人工智能的专家推荐方法、装置、终端、及介质,本发明提供了一种利用数据挖掘、自然语言处理技术精准推荐科研学者的推荐系统。其中包含两种更方面更为合理的评价方法:第一方面,充分考虑文献影响力时间衰减效应和引用提升效应两者结合,跳出以往的只看静态影响因子的文献影响力评价方法;第二方面,充分利用先进的自然语言处理技术,从文献摘要、标题、全文等内容进行分词处理,再结合关键词,统计研究领域词汇出现频次,该方法使词频统计范围更加全面。最终该科研学者推荐系统能根据检索者的搜索词精准推荐专家名单,并给出专家专注度排序。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种基于人工智能的专家推荐方法,其特征在于,包括:
利用网页排名算法计算关联于专家的每篇文本作品的影响力数据;
利用分词算法对所述关联于专家的每篇文本作品进行分词处理,并计算分词结果信息在基于文章关键词所构建的研究领域词库中出现的频次数据;
根据所述每篇文本作品的影响力数据以及每篇文本作品的分词结果信息在所述研究领域词库中出现的频次数据,计算各专家的关注度数据;其中,各专家的关注度数据的计算结果用于进行专家推荐。
2.根据权利要求1所述的方法,其特征在于,所述利用网页排名算法计算关联于专家的每篇文本作品的影响力数据,其包括:
利用网页排名算法计算所述文本作品的网页排名数据;
根据所述文本作品的发表时间数据对其网页排名数据做加权计算后生成所述影响力数据。
3.根据权利要求2所述的方法,其特征在于,所述利用网页排名算法计算所述文本作品的网页排名数据,其包括:
获取所述文本作品的至少包括引文关系信息的作品基本信息,以根据所述文本作品的引文关系构建对应的引文网络;
根据所述文本作品所在期刊的影响因子为所述文本作品设置初始网页排名数据;
基于所述文本作品的初始网页排名数据并通过多轮引用计算,获取所述文本作品最终网页排名数据。
4.根据权利要求2所述的方法,其特征在于,所述根据所述文本作品的发表时间数据对其网页排名数据做加权计算后生成所述影响力数据,其包括:所述文本作品发表的时间越早,则文本作品的影响力越小。
5.根据权利要求2所述的方法,其特征在于,所述文本作品的基本信息还包括如下信息中的任意一种或多种的组合:文本作品的标题信息、关键词信息、发表时间信息、作者姓名信息、及发表期刊信息。
6.根据权利要求1所述的方法,其特征在于,所述专家与文本作品之间的关联关系包括:以所述文本作品的作者为所述专家。
7.根据权利要求1所述的方法,其特征在于,所述各专家的关注度数据的计算结果用于进行专家推荐,其包括:
根据各专家的关注度数据的计算结果由高到低进行专家推荐;其中,各专家的关注度数据的计算结果包括关联于所述专家的所有文学作品的关注度数据的总和值或平均值。
8.一种基于人工智能的专家推荐装置,其特征在于,包括:
影响力数据计算模块,用于利用网页排名算法计算关联于专家的每篇文本作品的影响力数据;
频次数据计算模块,用于利用分词算法对所述关联于专家的每篇文本作品进行分词处理,并计算分词结果信息在基于文章关键词所构建的研究领域词库中出现的频次数据;
专家推荐模块,用于根据所述每篇文本作品的影响力数据以及每篇文本作品的分词结果信息在所述研究领域词库中出现的频次数据,计算各专家的关注度数据;其中,各专家的关注度数据的计算结果用于进行专家推荐。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于人工智能的专家推荐方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述基于人工智能的专家推荐方法。
CN201910786147.0A 2019-08-23 2019-08-23 基于人工智能的专家推荐方法、装置、终端、及介质 Pending CN110688405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910786147.0A CN110688405A (zh) 2019-08-23 2019-08-23 基于人工智能的专家推荐方法、装置、终端、及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910786147.0A CN110688405A (zh) 2019-08-23 2019-08-23 基于人工智能的专家推荐方法、装置、终端、及介质

Publications (1)

Publication Number Publication Date
CN110688405A true CN110688405A (zh) 2020-01-14

Family

ID=69108671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910786147.0A Pending CN110688405A (zh) 2019-08-23 2019-08-23 基于人工智能的专家推荐方法、装置、终端、及介质

Country Status (1)

Country Link
CN (1) CN110688405A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100470A (zh) * 2020-09-03 2020-12-18 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112269909A (zh) * 2020-09-15 2021-01-26 淮阴工学院 一种基于多源信息融合技术的专家推荐方法
CN112883148A (zh) * 2021-01-15 2021-06-01 上海柏观数据科技有限公司 一种基于研究趋势匹配的学科人才评价控制方法和装置
CN113140271A (zh) * 2020-12-31 2021-07-20 上海明品医学数据科技有限公司 一种远程专家指导方法、系统、设备及其存储介质
CN113268683A (zh) * 2021-04-15 2021-08-17 南京邮电大学 一种基于多维度的学术文献推荐方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007044299A1 (en) * 2005-10-05 2007-04-19 Microsoft Corporation Expert system analysis and graphical display of privilege elevation pathways in a computing environment
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN104035967A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的领域专家发现方法和系统
CN105653661A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN106778011A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种基于学术异构网络的学者影响力评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007044299A1 (en) * 2005-10-05 2007-04-19 Microsoft Corporation Expert system analysis and graphical display of privilege elevation pathways in a computing environment
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN104035967A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的领域专家发现方法和系统
CN105653661A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN106778011A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种基于学术异构网络的学者影响力评估方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100470A (zh) * 2020-09-03 2020-12-18 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112100470B (zh) * 2020-09-03 2022-11-15 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112269909A (zh) * 2020-09-15 2021-01-26 淮阴工学院 一种基于多源信息融合技术的专家推荐方法
CN113140271A (zh) * 2020-12-31 2021-07-20 上海明品医学数据科技有限公司 一种远程专家指导方法、系统、设备及其存储介质
CN112883148A (zh) * 2021-01-15 2021-06-01 上海柏观数据科技有限公司 一种基于研究趋势匹配的学科人才评价控制方法和装置
CN113268683A (zh) * 2021-04-15 2021-08-17 南京邮电大学 一种基于多维度的学术文献推荐方法
CN113268683B (zh) * 2021-04-15 2023-05-16 南京邮电大学 一种基于多维度的学术文献推荐方法

Similar Documents

Publication Publication Date Title
Chen et al. Modeling public mood and emotion: Blog and news sentiment and socio-economic phenomena
CN110688405A (zh) 基于人工智能的专家推荐方法、装置、终端、及介质
US11410031B2 (en) Dynamic updating of a word embedding model
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
Ju et al. An efficient method for document categorization based on word2vec and latent semantic analysis
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111126067B (zh) 实体关系抽取方法及装置
CN103646099A (zh) 一种基于多层图的论文推荐方法
Phu et al. A valence-totaling model for Vietnamese sentiment classification
Mabrouk et al. Exploiting ontology information in fuzzy SVM social media profile classification
Bouarroudj et al. Named entity disambiguation in short texts over knowledge graphs
Qiu et al. A hybrid-based method for Chinese domain lightweight ontology construction
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
Tohidi et al. Optimizing Persian multi-objective question answering system
Eldin et al. An enhanced opinion retrieval approach via implicit feature identification
CN111581364A (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
Sanchez-Gomez et al. Sentiment-oriented query-focused text summarization addressed with a multi-objective optimization approach
Breja et al. Analyzing linguistic features for answer re-ranking of why-questions
Gan et al. Microblog sentiment analysis via user representative relationship under multi-interaction hybrid neural networks
Anuradha et al. Fuzzy based summarization of product reviews for better analysis
Sun et al. Entity disambiguation with decomposable neural networks
Liu et al. A new feature selection method for text categorization of customer reviews
Arif et al. Word sense disambiguation for Urdu text by machine learning
Alashti et al. Parsisanj: an automatic component-based approach toward search engine evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114

RJ01 Rejection of invention patent application after publication