CN114510918A - 专家匹配方法和装置 - Google Patents

专家匹配方法和装置 Download PDF

Info

Publication number
CN114510918A
CN114510918A CN202210139795.9A CN202210139795A CN114510918A CN 114510918 A CN114510918 A CN 114510918A CN 202210139795 A CN202210139795 A CN 202210139795A CN 114510918 A CN114510918 A CN 114510918A
Authority
CN
China
Prior art keywords
expert
project
similarity
target
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210139795.9A
Other languages
English (en)
Inventor
梁李冬
吴沈婷
李云帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Zhejiang Technology Operation Co ltd
Original Assignee
Digital Zhejiang Technology Operation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Zhejiang Technology Operation Co ltd filed Critical Digital Zhejiang Technology Operation Co ltd
Priority to CN202210139795.9A priority Critical patent/CN114510918A/zh
Publication of CN114510918A publication Critical patent/CN114510918A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种专家匹配方法和装置,该方法包括:基于预设的第一算法,提取目标项目的项目文本的第一关键词;基于预设的第二算法,提取项目文本的第二关键词;根据第一关键词和第二关键词,确定目标项目的项目标签;根据项目标签和预先采集的目标专家的专家标签,确定目标项目与目标专家之间的多个相似度;调整多个相似度的权重,确定目标项目与目标专家之间的匹配度。本发明有效解决了对于各项目的专家抽取问题,能够帮助项目评审负责人评估目标项目与专家的抽取合理性。本发明通过多种关键词的提取算法的结合、多种相似度的计算方式的结合以及多次的权重调整,增加了匹配过程的泛化性能、提高了匹配的精准度。

Description

专家匹配方法和装置
技术领域
本发明涉及信息管理技术领域,尤其是涉及一种专家匹配方法和装置。
背景技术
随着科学技术的进步,许多新兴项目不断涌出,选出合适的评审专家不仅能够将项目准确匹配到适合的专家,还能够节省专家以及送审项目的时间。目前的专家遴选(匹配)方法是将专家的研究方向关键词作为专家特征,根据论文与专家研究方向关键词的匹配度,实现的专家匹配。但是该方法仅根据论文的研究方向的关键字和专家研究的关键字之间的相似度,确定论文与专家的匹配度,匹配精度不高、适用范围不广。而且,目前使用的TFIDF(Term Frequency–Inverse Document Trequency,词频-逆文本频率指数)算法严重依赖语料库,需要选取质量较高且和所处理文本相符的语料库进行训练;且TFIDF算法不能反映关键词的位置;此外,现有的匹配方案过于依赖Word2vec模型训练结果,泛化能力不强。
发明内容
本发明的目的在于提供一种专家匹配方法和装置,以提高匹配的精确度,同时提高匹配过程的泛化能力。
第一方面,本发明提供一种专家匹配方法,该方法包括:基于预设的第一算法,提取目标项目的项目文本的第一关键词;基于预设的第二算法,提取项目文本的第二关键词;根据第一关键词和第二关键词,确定目标项目的项目标签;根据项目标签和预先采集的目标专家的专家标签,确定目标项目与目标专家之间的多个相似度;调整多个相似度的权重,确定目标项目与目标专家之间的匹配度。
在可选的实施方式中,第一算法包括TFIDF算法;第二算法包括TextRank算法;基于预设的第一算法,提取目标项目的项目文本的第一关键词的步骤,包括:根据TFIDF算法和预先采集的目标项目的项目文本中所包含的词语的权重,确定项目文本的第一关键词,其中,第一关键词的数量为预设的第一值,各个第一关键词具有对应的权重值;基于预设的第二算法,提取项目文本的第二关键词的步骤,包括:根据TextRank算法和项目文本中所包含的词语的权重,确定项目文本的第二关键词,其中,第二关键词的数量为预设的第二值,各个第二关键词具有对应的权重值。
在可选的实施方式中,根据第一关键词和第二关键词,确定项目标签的步骤,包括:根据多个第一关键词和多个第二关键词的权重值,确定项目标签,其中,项目标签的数量为预设的第三值,各个项目标签具有对应的权重值。
在可选的实施方式中,方法还包括:根据预设的专家库中的专家标签,提取与目标项目相关的目标专家的专家标签,其中,专家标签包括专家专长、专家领域和专家职称,专家库中预先存储有多个目标专家以及与目标专家对应的专家标签。
在可选的实施方式中,根据项目标签和预先采集的目标专家的专家标签,确定目标项目与目标专家之间的相似度的步骤,包括:根据预设的第一词语库,确定项目标签和专家标签之间的第一相似度;根据预设的同义词词语库,确定项目标签和专家标签之间的同义词相似度;根据预设的近义词词语库,确定项目标签和专家标签之间的近义词相似度;根据第一相似度、同义词相似度和近义词相似度,确定最终相似度,其中,最终相似度的数量为第三值,各个最终相似度具有对应的权重值。
在可选的实施方式中,该方法还包括:根据预设的技术标签库、第一词语库、同义词词语库、近义词词语库,确认项目标签和专家标签中的专家专长之间的相似度,作为最终专家技术标签相似度,其中,最终专家技术标签相似度的数量为第三值,各个最终专家技术标签相似度具有对应的权重值;根据预设的业务标签库、第一词语库、同义词词语库、近义词词语库,确认项目标签和专家标签中的专家领域之间的相似度,作为最终专家业务标签相似度,其中,最终专家业务标签相似度的数量为第三值,各个最终专家业务标签相似度具有对应的权重值。
在可选的实施方式中,调整多个相似度的权重,确定目标项目与目标专家之间的匹配度的步骤,包括:分别调整最终专家技术标签相似度的权重值和最终专家业务标签相似度的权重值;基于调整后的最终专家技术标签相似度的权重值和最终专家业务标签相似度的权重值,确定专家技术标签匹配度和专家业务标签匹配度;根据预设的匹配度权重,分别调整专家技术标签匹配度和专家业务标签匹配度的权重值,得到目标项目与目标专家之间的匹配度。
在可选的实施方式中,该方法还包括:根据预先采集的目标项目的项目信息,确定项目文本,其中,项目信息包括:项目申报书、项目内容、项目名称和项目绩效目标。
在可选的实施方式中,方法还包括:将匹配度发送至终端设备中,以使终端设备显示匹配度。
第二方面,本发明提供一种专家匹配装置,该装置包括:第一关键词确定模块,用于基于预设的第一算法,提取目标项目的项目文本的第一关键词;第二关键词确定模块,用于基于预设的第二算法,提取项目文本的第二关键词;项目标签确定模块,用于根据第一关键词和第二关键词,确定目标项目的项目标签;相似度确定模块,用于根据项目标签和预先采集的目标专家的专家标签,确定目标项目与目标专家之间的多个相似度;匹配度确定模块,用于调整多个相似度的权重,确定目标项目与目标专家之间的匹配度。
本发明实施例的有益效果如下:
本发明实施例提供了一种专家匹配方法和装置,该方法包括:基于预设的第一算法,提取目标项目的项目文本的第一关键词;基于预设的第二算法,提取项目文本的第二关键词;根据第一关键词和第二关键词,确定目标项目的项目标签;根据项目标签和预先采集的目标专家的专家标签,确定目标项目与目标专家之间的多个相似度;调整多个相似度的权重,确定目标项目与目标专家之间的匹配度。本发明有效解决了对于各项目的专家抽取问题,能够帮助项目评审负责人评估目标项目与专家的抽取合理性。本发明通过多种关键词的提取算法的结合、多种相似度的计算方式的结合以及多次的权重调整,增加了匹配过程的泛化性能、提高了匹配的精准度。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种专家匹配方法的流程图;
图2为本发明实施例提供的另一种专家匹配方法的流程图;
图3为本发明实施例提供的项目标签的确定过程的流程图;
图4为本发明实施例提供的项目标签与专家标签匹配图;
图5为本发明实施例提供的项目与专家匹配模型流程图;
图6为本发明实施例提供的专家匹配的总体业务流程图;
图7为本发明实施例提供的一种专家匹配装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着科学技术的进步,许多新兴项目不断涌出,选出合适的评审专家不仅能够将项目准确匹配到适合的专家,还能够节省专家以及送审项目的时间,所以,如何准确匹配出目标项目最适合的专家,成为亟待解决的技术问题。
目前有一种面向多领域跨学科的专家遴选方法,将专家的多领域跨学科研究方向关键词作为专家特征,根据论文与专家研究方向关键词的匹配度,解决了由于论文内容涉及多领域跨学科无法匹配到合适专家的难题。该算法首先基于word2vec将论文与专家的研究方向关键词词语向量化,利于定量度量关键词之间的关系;其次,根据论文与专家的研究方向关键词向量使用欧氏距离计算论文与专家之间的相似度;最后基于论文与专家的相似度计算专家匹配度,从而实现专家遴选。但是该方法主要针对论文和专家的匹配,仅对论文的研究方向进行关键字的提取并和专家研究的方向提取的关键字进行相似度计算,最终确定论文与专家的匹配度。
目前,上述的关键字提取技术只用到TF-IDF从论文摘要中提取出能够代表整篇论文的词语作为论文的研究方向关键词,但是,TFIDF算法提取关键词的缺点也很明显,TFIDF算法严重依赖语料库,需要选取质量较高且和所处理文本相符的语料库进行训练。另外,对于IDF来说,它本身是一种试图抑制噪声的加权,本身倾向于文本中频率小的词,这使得TFIDF算法的精度不高。TFIDF算法还有一个缺点就是不能反应词的位置信息,在对关键词进行提取的时候,词的位置信息,例如文本的标题、文本的首句和尾句等含有较重要的信息,应该赋予较高的权重。其次,相似度计算是采用Word2vec技术将论文及专家的研究方向关键词向量化,最后再使用欧氏距离计算其相似度。相似度的最后结果过于依赖Word2vec模型训练结果,泛化能力不强。
基于此,本发明提供一种专家匹配方法和装置,以提高匹配的精确度,同时提高匹配过程的泛化能力。该技术应用于匹配电子政务方面的专家的场景中。
实施例一
首先,本发明实施例提供一种专家匹配方法,如图1所示,该方法包括:
步骤S102,基于预设的第一算法,提取目标项目的项目文本的第一关键词。
具体地,上述第一算法包括但不限于TFIDF算法、TextRank算法、LDA主题模型、K-means算法。上述项目文本包含有各个词语的权重,词语权重占比可以人为设置(比如把题目中的词语的权重值设置为高权重)。上述第一关键词的数量为多个,且各个关键词都具有各自对应的权重。
步骤S104,基于预设的第二算法,提取项目文本的第二关键词。
具体地,上述第二算法包括但不限于TFIDF算法、TextRank算法、LDA主题模型、K-means算法。在具体实施时,保证第一算法和第二算法所使用的算法不同即可。由于是根据不同的算法提取得到的,所以第一关键词和第二关键词可能会有所差异,但也可能会有重叠的词语。
步骤S106,根据第一关键词和第二关键词,确定目标项目的项目标签。
具体地,对于两种算法的提取结果都存在的关键字,关键字的权重将累加,最后将第一关键词和第二关键词的结果去重,按照关键字权重排名取前5个,作为该项目的标签,即项目标签。
步骤S108,根据项目标签和预先采集的目标专家的专家标签,确定目标项目与目标专家之间的多个相似度。
具体地,根据知网、词林和Synonyms的词语相似度计算规则:对于任意两个词语W1(例如,项目标签)和W2(例如专家标签),根据它们在知网、词林、Synonyms中的分布情况,按照一定的策略综合利用知网、同义词词林和Synonyms分别计算出词语的相似度,记作S1、S2和S3,同时为这三个相似度分别赋予权重,得到最终相似度。由于项目标签有多个,专家标签也有多个,所以会得到多个相似度。
步骤S110,调整多个相似度的权重,确定目标项目与目标专家之间的匹配度。
具体地,在此,上述多个相似度又分为技术标签库对应的相似度和业务标签库对应的相似度,根据人工的选择(或人工建议),对这些相似度的权重值进行一定的调整,就能够得到目标项目与目标专家之间的匹配度。
本发明实施例提供的专家匹配方法,该方法包括:基于预设的第一算法,提取目标项目的项目文本的第一关键词;基于预设的第二算法,提取项目文本的第二关键词;根据第一关键词和第二关键词,确定目标项目的项目标签;根据项目标签和预先采集的目标专家的专家标签,确定目标项目与目标专家之间的多个相似度;调整多个相似度的权重,确定目标项目与目标专家之间的匹配度。本发明有效解决了对于各项目的专家抽取问题,能够帮助项目评审负责人评估目标项目与专家的抽取合理性。本发明通过多种关键词的提取算法的结合、多种相似度的计算方式的结合以及多次的权重调整,增加了匹配过程的泛化性能、提高了匹配的精准度。
实施例二
本发明实施例提供另一种专家匹配方法,如图2所示,该方法包括:
步骤S202,根据预先采集的目标项目的项目信息,确定项目文本,其中,项目信息包括:项目申报书、项目内容、项目名称和项目绩效目标。
具体地,上述为文本读取整合的步骤,项目文本中的词语的权重可以人为调整,以适应实际情况,比如,将名称所涉及的词语的权重调高,将模板中的词语的权重调低。
具体地,上述预先采集的目标项目包括电子政务方面的项目。
步骤S204,根据TFIDF算法和预先采集的目标项目的项目文本中所包含的词语的权重,确定项目文本的第一关键词,其中,第一关键词的数量为预设的第一值,各个第一关键词具有对应的权重值。
步骤S206,根据TextRank算法和项目文本中所包含的词语的权重,确定项目文本的第二关键词,其中,第二关键词的数量为预设的第二值,各个第二关键词具有对应的权重值。
具体地,上述第一值、第二值可以为任意值,一般来说,第一值与第二值相等,数值越大,匹配越精准,匹配速度也会降低,比如,将第一值和第二值均设置为10。则在此,能够得到10个按权重排列的第一关键词,和10个按权重排列的第二关键词。第一关键词和第二关键词会有重叠的词语,也会有不同的词语。
步骤S208,根据多个第一关键词和多个第二关键词的权重值,确定项目标签,其中,项目标签的数量为预设的第三值,各个项目标签具有对应的权重值。
具体地,根据第一关键词和第二关键词的权重,就能得到多个项目标签。第三值的数量可以任意设置,一般小于第一值,也小于第二值,比如,第三值的数量为5,则在此,能得到5个按权重排列的项目标签。
具体地,步骤S202-S208的实现过程如图3所示,图3为项目标签的确定过程。
如图3,分别采用TextRank算法和TF-IDF算法来对文本进行关键字提取,对于都出现两种算法排名前10的关键字将把他们的权重进行加和,然后再和其余的关键字权重进行排序,选中前5名作为该项目的项目标签。其中,TFIDF算法的IDF值依赖于语料环境,这给他带来了统计上的优势,即它能够预先知道一个词的重要程度。这是它优于TextRank算法的地方,而TextRank算法只依赖文章本身,它认为一开始每个词的重要程度是一样的。TFIDF是纯粹用词频的思想(无论是TF还是IDF都是)来计算一个词的得分,最终来提取关键词,完全没有用到词之间的关联性,而TextRank用到了词之间的关联性(将相邻的词链接起来),这是其优于TFIDF的地方。因此,项目申报书中的关键字提取将分别采用这两种算法提取关键字(按照权重排名取前10),对于两种算法都存在的关键字,关键字的权重将累加,最后将20个关键字的结果去重,按照关键字权重排名取前5个,作为该项目的项目标签。
步骤S210,根据预设的专家库中的专家标签,提取与目标项目相关的目标专家的专家标签,其中,专家标签包括专家专长、专家领域和专家职称,专家库中预先存储有多个目标专家以及与目标专家对应的专家标签。
具体地,在整体步骤之前,专家本人需要将自己的信息(比如专家专长、专家领域和专家职称)输入至数据库中,经审核后,得到专家库。在此,专家与项目之间是有匹配关系的,如图4所示,为项目标签与专家标签匹配图,其中项目标签是通过第一算法和第二算法对项目申报书中的项目内容和总体绩效目标中进行关键字提取,而专家标签是由专家在填写基本信息时分别对技术专长和行业领域现有的标签进行多选操作(若选择其它,将表示用户可以自己填写)。
具体地,根据目标项目的项目标签和专家标签,就可以初步得到一批合适的专家以及专家所对应的专家标签。下面,需要利用知网、词林和Synonyms(近义词包)来最终确定项目与专家之间的匹配程度。当然,只利用其中一种词包,也可以得到最终相似度。
步骤S212,根据预设的技术标签库、第一词语库、同义词词语库、近义词词语库,确认项目标签和专家标签中的专家专长之间的相似度,作为最终专家技术标签相似度。
在具体实施时,最终专家技术标签相似度的数量为第三值(比如5个,分别用A1-A5来表示),各个最终专家技术标签相似度具有对应的权重值。
具体地,技术标签库也就是专家专长组成的数据库。
具体地,确定最终专家技术标签相似度(A1-A5)的步骤为:
1)根据预设的第一词语库,确定项目标签和专家标签(其中的专家专长)之间的第一相似度。
具体地,第一词语库包括知网词语库;知网的词语相似度计算包括:将词语相似度的计算转换为对词语义项语义表达式(DEF)的相似度计算,而义项DEF相似度的计算又可转换为对其中的义原进行相似度计算,因此义原相似度是词语相似度计算的基础。对于两个汉语词语W1(即5个项目标签中的1个)和W2(即专家专长),如果W1有n个义项(概念):S11,S12,……,S1n,W2有m个义项(概念):S21,S22,……,S2m,我们规定,W1和W2的相似度(Sim(W1,W2))是各个概念的相似度之最大值,也就是说:
Figure BDA0003506234720000111
这样,我们就把两个词语之间的相似度问题归结到了两个概念之间的相似度问题。由于所有的义原根据上下位关系构成了一个树状的义原层次体系,我们这里采用简单的通过语义距离计算相似度的办法。假设两个义原在这个层次体系中的路径距离为d,根据公式(1),我们可以得到这两个义原之间的语义距离:
Figure BDA0003506234720000112
其中,p1和p2表示两个义原(primitive),d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。
在此,公式(1)的Sim(W1,W2)为第一相似度,在此能得到5个第一相似度,分别有各自的权重。
2)根据预设的同义词词语库,确定项目标签和专家标签(其中的专家专长)之间的同义词相似度。
具体地,同义词词林词语相似度计算:词林是一个分类严格的层次结构树,而不是网状结构。对于一个树型结构来说,节点之间的关系体现在:任何一个非叶子节点可以拥有一个或多个下位节点,但所有非根节点都只能拥有一个上位节点。对于词林这样一棵分类层次结构树来说,更能反映词语之间的差异性,而较少反映词语之间的共性。因此主要使用差异性计算公式来计算词林中概念的相似度。在词林中,完全相同的两个概念或同义词之间的差异性最小,记为MinDIFF。选取词林中任意两个同义词或完全相同的两个概念C1、C2,即C1等价于C2,由于它们的最近公共父节点就是它们自身,所以它们自身的信息内容含量与它们最近公共父节点的信息内容含量完全相同。信息内容含量计算公式使用公式(3);
Figure BDA0003506234720000121
其中:IC(C)表示概念C的信息内容含量;hypo(C)是所要计算的概念在本体中的下位个数,maxnodes为本体的节点总数。公式(3)反映出,如果一个概念在本体中层次越高,即越一般和普遍的概念,它所含的信息内容越少;相反,如果一个概念在本体中的下位个数越少,即它在本体中的层次越深,那么它所含的信息内容越多。这与信息论中的信息内容含量理论是相符的。差异性:如果两个概念之间的差异性越大,它们的相似度就会越小;差异性计算公式使用公式(4);
disJC(C1,C2)=IC(C1)+IC(C2)-2IC(LCS(C1,C2)) (4);
其中:LCS(C1,C2)表示C1和C2的最近公共父节点。
因此两个同义词或完全相同的两个概念之间的差异性为0,则MinDIFF值也为0。在词林中差异性最大的两个概念可定义为:处于本体边缘的两个叶子概念,且这两个概念的最近公共父节点为整个分类树的根节点,则这两个概念的差异性最大,记做MaxDIFF。因此,这两个概念的最近公共父节点是整个分类树的根节点。由于所有叶子节点的下位数为0,根节点的下位数为词林中的所有节点个数(maxnodes=90114),根据式(3)可得出词林中叶子节点的IC值(IC(叶子))与根节点的IC值(IC(根))。
Figure BDA0003506234720000122
Figure BDA0003506234720000123
将IC(叶子)及IC(根)代入式(4)进行计算,得出Max-DIFF=2;
因此:MaxDIFF=IC(叶子)+IC(叶子)-2×IC(根)=2
任何两个概念之间的差异性,都应该在差异性的最大值与最小值之间,且差异越大,离MaxDIFF越近;差异越小,离MinDIFF越近。综上所述,本文提出如下的基于信息内容词语相似度计算公式:
Figure BDA0003506234720000131
其中,C1(比如5个项目标签中的1个)和C2(比如专家专长)为词林中任意两个概念,dis(C1,C2)的计算公式为公式(4)。
具体地,在此,可以得到5个同义词相似度sim(C1,C2),且各自具有对应的权重。
3)根据预设的近义词词语库,确定项目标签和专家标签(其中的专家专长)之间的近义词相似度。
具体地,自然语言处理之近义词包Synonyms:word2vec训练一个高质量的近义词库将“非标准表述”映射到“标准表述”,这就是synonyms的起源。word2vec使用了大量数据,利用上下文信息进行训练,将词汇映射到高维空间,并将在高维空间中的距离作为词语语义相似度的计算依据。明确了“语义关系”的度量方法,我们就可以进一步利用词汇间的距离进行检索。所以,在算法层面上,检索更是基于“语义距离”而非“规则匹配”。word2vec所用的网络,是个很特殊的网络,输入层是一个超级大的用One-hot表示的词的向量,一个隐含层,然后就是输出层。输入层和隐含层之间使用矩阵Wv*n做了投射运算,而不是规范的神经网络的隐含层,因为隐含层没有使用激活函数,这些牺牲是为了减少计算量。word2vec的直接输出结果实际上是语言模型,但是Wv*n的每一行都可以对应到词汇表中的一个词,Wv*n是在训练过程中不断更新的,整个网络的执行就像是编码器,最终,带有语义上相近的词汇对应的Wv*n中的向量越来越接近,这也就是我们想要的词向量了。使用Word2vec模型将词语转化为词向量之后,将使用综合余弦距离和编辑距离的方法来计算词语的相似度;余弦距离(考虑向量之间的方向):通过向量夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。编辑距离指的是在两个单词w1,w2之间,由其中一个单词w1转换为另一个单词w2所需要的最少单字符编辑操作次数。
例如:词W1和W2的为两个词语的词向量,则他们的相似度为:
Sim(W1,W2)=(x*y)+z–u (8);
其中:x代表使用余弦距离计算的相似度的结果,而z代表使用编辑距离计算相似度的结果,y代表余弦距离相似度的权重,u代表常数项(控制y的大小)。
在此,可以得到5个近义词相似度,公式(8)的Sim(W1,W2)即为近义词相似度。
4)根据第一相似度、同义词相似度和近义词相似度,确定最终相似度(在此,指的是最终专家技术标签相似度),其中,最终相似度的数量为第三值,各个最终相似度具有对应的权重值。
具体地,基于知网、词林和Synonyms的词语相似度计算规则:对于任意两个词语W1(5个项目标签中的1个)和W2(专家专长),根据它们在知网、词林、Synonyms中的分布情况,按照一定的策略综合利用知网、同义词词林和Synonyms分别计算出词语的相似度,记作S1、S2和S3,同时为这三个相似度分别赋予权重λ1、λ2和λ3,且满足:λ1+λ2+λ3=1,然后按照公式S=λ1*S1+λ2*S2+λ3*S3,最后得到计算出词语的相似度,在此指的是最终专家技术标签相似度(A1-A5),且A1-A5都具有各自的权重。
步骤S214,根据预设的业务标签库、第一词语库、同义词词语库、近义词词语库,确认项目标签和专家标签中的专家领域之间的相似度,作为最终专家业务标签相似度。
在具体实施时,步骤S214与步骤S212是对应的,最终专家业务标签相似度的数量为第三值(比如5个,分别用B1-B5来表示),各个最终专家业务标签相似度具有对应的权重值。
具体地,业务标签库也就是专家领域组成的数据库。
具体地,确定最终专家业务标签相似度(B1-B5)的步骤为:
1)根据预设的第一词语库,确定项目标签和专家标签(其中的专家领域)之间的第一相似度。
2)根据预设的同义词词语库,确定项目标签和专家标签(其中的专家领域)之间的同义词相似度。
3)根据预设的近义词词语库,确定项目标签和专家标签(其中的专家领域)之间的近义词相似度。
4)根据第一相似度、同义词相似度和近义词相似度,确定最终相似度(在此,指的是最终专家业务标签相似度),其中,最终相似度的数量为第三值(比如,5个),各个最终相似度具有对应的权重值。
在具体实施时,根据预设的第一词语库,确定项目标签和专家标签之间的第一相似度;根据预设的同义词词语库,确定项目标签和专家标签之间的同义词相似度;根据预设的近义词词语库,确定项目标签和专家标签之间的近义词相似度;根据第一相似度、同义词相似度和近义词相似度,确定最终相似度,其中,最终相似度的数量为第三值,各个最终相似度具有对应的权重值。
具体地,项目标签将分别和专家的行业领域标签和技术专长标签匹配,匹配度将分别通过知网、词林和Synonyms(近义词包)三种方式计算项目标签与专家标签的匹配度,并且可以通过调整三者的权重,得到最终的相似度,从而得到与项目匹配的推荐专家标签。
步骤S216,分别调整最终专家技术标签相似度的权重值和最终专家业务标签相似度的权重值;基于调整后的最终专家技术标签相似度的权重值和最终专家业务标签相似度的权重值,确定专家技术标签匹配度和专家业务标签匹配度。
具体地,对于项目中的技术标签和业务标签将分别和专家中的技术标签和业务标签进行一一匹配。对于在词林和知网词库中的标签将采用基于知网、词林和Synonyms的词语相似度计算规则他们的匹配度,而对于不在他们词库中的标签将采用自然语言处理之近义词包Synonyms来计算他们的匹配度。
具体地,计算专家技术标签匹配度和专家业务标签匹配度的方法为:
专家技术标签匹配度=ω1×A1+ω2×A2+…+ω5×A5,其中,ω1-ω5为人为调整后的5个最终专家技术标签相似度的权重;
专家业务标签匹配度=μ1×B1+μ2×B2+…+μ5×B5,其中,μ1-μ5为人为调整后的5个最终专家业务标签相似度的权重。
步骤S218,根据预设的匹配度权重,分别调整专家技术标签匹配度和专家业务标签匹配度的权重值,得到目标项目与目标专家之间的匹配度。
具体地,W代表预设的匹配度权重,其中W1+W2=1,技术标签的匹配度(即专家技术标签匹配度)*W1+
行业标签的匹配度(即专家业务标签匹配度)*W2=匹配度。
步骤S220,将匹配度发送至终端设备中,以使终端设备显示匹配度。
具体地,将模型最终的到的匹配度通过终端设备展示给项目评审负责人,以给项目评审负责人以参考。
总体上,如图5所示,为项目与专家匹配模型流程图,该图详细介绍了模型运行流程以及前端页面的展示,具体步骤如下:
1、模型开始时,分别收集项目信息和专家标签信息;
2、进行数据清洗后,对用TF-IDF和TextRank算法对项目信息进行关键字提取,获得项目标签;
3、用基于知网、词林和Synonyms三个近义词包来计算项目标签于专家标签的相似度并进行权重排序,从而给予项目评审负责人推荐的专家标签;
4、当项目评审负责人为所选项目组选定专家标签后,将产生项目组和评审专家组的匹配度。
本发明有效的解决了对于各项目的专家抽取问题,可以对于每个项目或项目组推荐与其匹配度较高的专家技术标签和行业领域标签,帮助项目评审负责人抽选专家,待专家确认参加评审后,将会产生项目组与专家组的总体匹配度,从而可以帮助项目评审负责人评估所选项目与专家的抽取合理性。该模型主要应用了TextRank算法和TF-IDF算法对项目进行关键字提取,并根据其权重(可人为调节)的结果来确定项目标签,从而使其项目标签的结果更加科学性和合理性;对于项目标签与专家标签的相似度计算,本模型采用了词林、知网和Synonyms三种近义词包对其进行相似度计算,通过调整三种方法的权重(增加了模型的泛化性能)来寻找与项目匹配较高的专家标签从而实现专家匹配。
本发明中的匹配度原则指的是用基于知网、词林和Synonyms三个近义词包计算项目与专家对应标签的相似度,并对结果进行排序。本发明使用专家遴选(即匹配)列表中遴选成功的项目数以及遴选准确率来评价算法的正确性,通过改变关键字提取和相似度匹配计算的参数进行实验发现,参数设置不同会对算法的结果产生影响,本模型经过多次实验论证,选取了最优的参数值,经过实验结果表明,本发明面向多领域跨学科的专家遴选方法的准确率达到90%以上,能够有效实现面向电子政务项目的专家遴选。
实施例三
本发明实施例提供第三种专家匹配方法,如图6所示,该图为专家匹配的总体业务流程图,该方法包括:
1)专家抽取负责人根据项目信息和专家信息,初步选择适合的评审专家(简称第一专家)。
2)项目与专家匹配模型根据项目信息和专家信息,得到适合的评审专家(简称第二专家),此推荐结果中包含有专家的标签信息(专家专长、专家领域、专家职称),包含有项目与专家的匹配度。
3)专家抽取负责人根据第一专家和第二专家,得到最终的匹配的专家。
本发明主要是帮助专家抽取负责人解决各电子政务项目的专家抽取问题,可以对于每个项目或项目组推荐与其匹配度较高的专家标签,帮助专家抽取负责人抽选专家,待专家确认参加评审后,将会产生项目组与专家组的总体匹配度,从而可以帮助项目评审负责人评估所选项目与专家的抽取合理性。本发明还可以同时提取多个项目的合适的专家,可以在提高匹配精准度的同时,提高匹配速度。
本方案主要是帮助专家抽取负责人解决各电子政务项目的专家抽取问题,可以对于每个项目或项目组推荐与其匹配度较高的专家标签,帮助专家抽取负责人抽选专家,待专家确认参加评审后,将会产生项目组与专家组的总体匹配度,从而可以帮助项目评审负责人评估所选项目与专家的抽取合理性。
实施例四
本发明实施例提供一种专家匹配装置,如图7所示,该装置包括:
第一关键词确定模块71,用于基于预设的第一算法,提取目标项目的项目文本的第一关键词。
第二关键词确定模块72,用于基于预设的第二算法,提取项目文本的第二关键词。
项目标签确定模块73,用于根据第一关键词和第二关键词,确定目标项目的项目标签。
相似度确定模块74,用于根据项目标签和预先采集的目标专家的专家标签,确定目标项目与目标专家之间的多个相似度。
匹配度确定模块75,用于调整多个相似度的权重,确定目标项目与目标专家之间的匹配度。
本发明实施例所提供的专家匹配装置,其实现原理及产生的技术效果和前述的专家匹配方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种专家匹配方法,其特征在于,所述方法包括:
基于预设的第一算法,提取目标项目的项目文本的第一关键词;
基于预设的第二算法,提取所述项目文本的第二关键词;
根据所述第一关键词和所述第二关键词,确定所述目标项目的项目标签;
根据所述项目标签和预先采集的目标专家的专家标签,确定所述目标项目与所述目标专家之间的多个相似度;
调整多个所述相似度的权重,确定所述目标项目与所述目标专家之间的匹配度。
2.根据权利要求1所述的专家匹配方法,其特征在于,所述第一算法包括TFIDF算法;所述第二算法包括TextRank算法;
基于预设的第一算法,提取目标项目的项目文本的第一关键词的步骤,包括:
根据TFIDF算法和预先采集的目标项目的项目文本中所包含的词语的权重,确定所述项目文本的第一关键词,其中,所述第一关键词的数量为预设的第一值,各个所述第一关键词具有对应的权重值;
基于预设的第二算法,提取所述项目文本的第二关键词的步骤,包括:
根据TextRank算法和所述项目文本中所包含的词语的权重,确定所述项目文本的第二关键词,其中,所述第二关键词的数量为预设的第二值,各个所述第二关键词具有对应的权重值。
3.根据权利要求1所述的专家匹配方法,其特征在于,根据所述第一关键词和所述第二关键词,确定项目标签的步骤,包括:
根据多个所述第一关键词和多个所述第二关键词的权重值,确定项目标签,其中,所述项目标签的数量为预设的第三值,各个所述项目标签具有对应的权重值。
4.根据权利要求1所述的专家匹配方法,其特征在于,所述方法还包括:根据预设的专家库中的专家标签,提取与所述目标项目相关的目标专家的专家标签,其中,所述专家标签包括专家专长、专家领域和专家职称,所述专家库中预先存储有多个所述目标专家以及与所述目标专家对应的专家标签。
5.根据权利要求4所述的专家匹配方法,其特征在于,根据所述项目标签和预先采集的目标专家的专家标签,确定所述目标项目与所述目标专家之间的相似度的步骤,包括:
根据预设的第一词语库,确定所述项目标签和所述专家标签之间的第一相似度;
根据预设的同义词词语库,确定所述项目标签和所述专家标签之间的同义词相似度;
根据预设的近义词词语库,确定所述项目标签和所述专家标签之间的近义词相似度;
根据所述第一相似度、所述同义词相似度和所述近义词相似度,确定最终相似度,其中,所述最终相似度的数量为第三值,各个所述最终相似度具有对应的权重值。
6.根据权利要求5所述的专家匹配方法,其特征在于,所述方法还包括:根据预设的技术标签库、所述第一词语库、所述同义词词语库、所述近义词词语库,确认所述项目标签和所述专家标签中的专家专长之间的相似度,作为最终专家技术标签相似度,其中,所述最终专家技术标签相似度的数量为第三值,各个所述最终专家技术标签相似度具有对应的权重值;
根据预设的业务标签库、所述第一词语库、所述同义词词语库、所述近义词词语库,确认所述项目标签和所述专家标签中的专家领域之间的相似度,作为最终专家业务标签相似度,其中,所述最终专家业务标签相似度的数量为第三值,各个所述最终专家业务标签相似度具有对应的权重值。
7.根据权利要求6所述的专家匹配方法,其特征在于,调整多个所述相似度的权重,确定所述目标项目与所述目标专家之间的匹配度的步骤,包括:
分别调整所述最终专家技术标签相似度的权重值和所述最终专家业务标签相似度的权重值;
基于调整后的所述最终专家技术标签相似度的权重值和所述最终专家业务标签相似度的权重值,确定专家技术标签匹配度和专家业务标签匹配度;
根据预设的匹配度权重,分别调整所述专家技术标签匹配度和所述专家业务标签匹配度的权重值,得到所述目标项目与所述目标专家之间的匹配度。
8.根据权利要求1所述的专家匹配方法,其特征在于,所述方法还包括:根据预先采集的所述目标项目的项目信息,确定所述项目文本,其中,所述项目信息包括:项目申报书、项目内容、项目名称和项目绩效目标。
9.根据权利要求1所述的专家匹配方法,其特征在于,所述方法还包括:将所述匹配度发送至终端设备中,以使所述终端设备显示所述匹配度。
10.一种专家匹配装置,其特征在于,所述装置包括:
第一关键词确定模块,用于基于预设的第一算法,提取目标项目的项目文本的第一关键词;
第二关键词确定模块,用于基于预设的第二算法,提取所述项目文本的第二关键词;
项目标签确定模块,用于根据所述第一关键词和所述第二关键词,确定所述目标项目的项目标签;
相似度确定模块,用于根据所述项目标签和预先采集的目标专家的专家标签,确定所述目标项目与所述目标专家之间的多个相似度;
匹配度确定模块,用于调整多个所述相似度的权重,确定所述目标项目与所述目标专家之间的匹配度。
CN202210139795.9A 2022-02-16 2022-02-16 专家匹配方法和装置 Pending CN114510918A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210139795.9A CN114510918A (zh) 2022-02-16 2022-02-16 专家匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210139795.9A CN114510918A (zh) 2022-02-16 2022-02-16 专家匹配方法和装置

Publications (1)

Publication Number Publication Date
CN114510918A true CN114510918A (zh) 2022-05-17

Family

ID=81552479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210139795.9A Pending CN114510918A (zh) 2022-02-16 2022-02-16 专家匹配方法和装置

Country Status (1)

Country Link
CN (1) CN114510918A (zh)

Similar Documents

Publication Publication Date Title
CN110188168B (zh) 语义关系识别方法和装置
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
US7809185B2 (en) Extracting dominant colors from images using classification techniques
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
US7783629B2 (en) Training a ranking component
CN108763213A (zh) 主题特征文本关键词提取方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN104834686A (zh) 一种基于混合语义矩阵的视频推荐方法
CN105069122B (zh) 一种基于用户行为的个性化推荐方法及其推荐装置
CN108920488B (zh) 多系统相结合的自然语言处理方法及装置
CN112035658B (zh) 基于深度学习的企业舆情监测方法
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
WO2020060718A1 (en) Intelligent search platforms
CN110706028A (zh) 基于属性特征的商品评价情感分析系统
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN112417868A (zh) 一种基于情绪分数和主题模型的区块链新闻可视化方法
CN111259156A (zh) 一种面向时间序列的热点聚类方法
CN112487274B (zh) 一种基于文本点击率的搜索结果推荐方法及系统
CN117194743A (zh) 渐进式学习资源推荐方法、装置、存储介质及计算机设备
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法
CN114510918A (zh) 专家匹配方法和装置
CN113392319A (zh) 基于网络表示和辅助信息嵌入的学术论文推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination