CN113342949A

CN113342949A - 智库专家与待研究课题的匹配方法及系统

Info

Publication number: CN113342949A
Application number: CN202110625005.3A
Authority: CN
Inventors: 徐宁; 丁春余; 赵健
Original assignee: Huizhi Technology Nanjing Co ltd
Current assignee: Huizhi Technology Nanjing Co ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-03

Abstract

本发明公开了一种智库专家与待研究课题的匹配方法及系统，本发明的智库专家与待研究课题的匹配方法，包括如下步骤：S1：构建专家画像：利用自然语言处理中的关键词抽取算法从专家研究成果中抽取出表征专家研究方向、特长的关键词，并构建专家关键词词库，形成专家画像；S2：构建待研究课题的关键词词库：利用自然语言处理中的关键词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词，构建待研究课题的关键词词库；S3：将步骤S1获得的专家画像与步骤S2获得的待研究课题关键词进行词向量生成及相似度计算匹配。利用本发明的智库专家与待研究课题的匹配方法可以精准地在语意层面实现相似匹配，避免了人工进行匹配的低效及不确定性。

Description

智库专家与待研究课题的匹配方法及系统

技术领域

本发明涉及一种智库专家与待研究课题的匹配方法及系统。

背景技术

目前，能否从智库中找到合适的专家对于课题能否顺利研究结题至关重要。当前在智库人才与待研究课题的匹配领域，大多依赖于智库管理人员基于经验将智库专家与待研究课题进行直接匹配，但是由于智库管理人员的知识水平的参差不齐，因而这种配对方式普遍存在匹配效率低、匹配准确度差等问题。

发明内容

为了解决上述技术问题，本发明提供了一种智库专家与待研究课题的匹配方法，其包括如下步骤：

S1：构建专家画像：利用自然语言处理中的关键词抽取算法从专家研究成果中抽取出表征专家研究方向、特长的关键词，并构建专家关键词词库，形成专家画像；

S2：构建待研究课题的关键词词库：利用自然语言处理中的关键词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词，构建待研究课题的关键词词库；

S3：将步骤S1获得的专家画像与步骤S2获得的待研究课题关键词进行词向量生成及相似度计算、匹配。对专家研究成果利用自然语言处理中的关键词抽取算法，抽取出可以表征专家研究方向、特长的关键词，用于形成专家画像。

进一步的，利用WORD2VECTOR词向量模型，分别对步骤S1得到的专家画像的关键词和步骤S2得到的研究课题的关键词生成词向量，并分别记为E向量和T向量，所述步骤S3的对专家画像与待研究课题的关键词匹配步骤是通过对E向量和T向量的相似度进行计算及排序后完成的。

更进一步的，利用余弦相似度算法对E向量和T向量的余弦相似度值进行计算，分别计算出所有专家的E向量，和待研究课题的T向量，并分别计算出各个专家的E向量与T向量的余弦相似度值，并根据余弦相似度值高低进行排序，余弦相似度值高低代表匹配程度的高低。

更进一步的，所述关键词抽取算法为TFIDF算法。

更进一步的，所述步骤S1包括如下步骤：

S11：接收到专家的历史研究成果的信息后，初步得到M个候选词，并表示为E－Di＝[W₁，W₂，...，W_M]；

S12：计算Wi在D中出现的次数，计为E－n_wi；计算D的总词数，计为E－SUM_D；计算TF值，计为E－TF，E－TF＝E－n_wi/E－SUM_D；计算IDF值，计为E－IDF，E－IDF＝log(文档总数/包含步骤S11的Wi的文档数)；

S13：计算TFIDF值，计为E－TFIDF，E－TFIDF＝E－TF＊E－IDF；

S14：基于可配置的TFIDF阈值，选取大于等于此阈值所对应的候选词，作为专家研究成果的关键词，并表示为E＝[M₁，M₂，...，M_m]；

S15：根据S14中生成的专家研究成果的关键词组，定义为当前专家画像。

更进一步的，所述步骤S2包括如下步骤：

S21：接收到待研究课题相关的数据信息后，抽取出可以表征课题内容、领域的关键词，并表示为T－Di＝[W₁，W₂，...，W_N]；

S22：计算Wi在D中出现的次数，计为T－n_wi；计算D的总词数，计为T－SUM_D；计算TF值，计为T－TF，T－TF＝T－n_wi/T－SUM_D；计算IDF值，计为T－IDF，T－IDF＝log(与课题相关的文档总数/包含步骤S21的文档数)；

S23：计算TFIDF值，计为T－TFIDF，T－TFIDF＝T－TF＊T－IDF；

S24：基于可配置的TFIDF阈值，选取大于等于此阈值所对应的关键词，作为待研究课题的主题，并表示为T＝[N₁，N₂，...，N_n]。

更进一步的，所述关键词抽取算法还可为TEXTRANK算法或LDA模型算法。

本发明还提供了一种智库专家与待研究课题的匹配系统，其包括专家画像模块、待研究课题的关键词词库生成模块和匹配模块，所述专家画像模块用于接收专家成果信息，并利用关键词抽取算法从中提取出专家关键词词库，形成专家画像；所述待研究课题的关键词词库生成模块用于接收待研究课题信息，并利用自然语言处理中的主题词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词；所述匹配模块用于将接收到的所述专家画像模块所述待研究课题的关键词词库生成模块的信息进行匹配。

进一步的，所述专家画像模块和待研究课题的关键词词库生成模块分别利用TFIDF算法抽取得到专家画像关键词词库和待研究课题的关键词词库。

更进一步的，所述匹配模块分别利用词向量模型对所述专家画像模块和待研究课题的关键词词库生成模块的关键词生成词向量，并分别记为E向量和T向量，利用余弦相似度算法对E向量和T向量计算余弦相似度值后，根据余弦相似度值的高低进行匹配。

本发明具有如下有益效果：通过利用关键词抽取算法进行专家画像的生成，因而可以精准且全面地表示出专家的研究领域及擅长点；通过利用关键词抽取算法对待研究的课题的主题进行抽取，可以对待研究的课题的主题进行准确表达，并能有效过滤噪声数据。利用本发明的方法能有效提高智库人才与待研究课题的匹配效率且匹配准确度高。本发明通过利用关键词抽取及对应词向量生成以及词向量相似度计算、匹配的算法，可以精准地在语意层面实现相似匹配，避免了人工匹配的不确定性。

附图说明

图1为本发明实施例一的流程图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

实施例一：

本实施例提供了一种智库专家与待研究课题的匹配方法，其包括如下步骤：

步骤S1：构建专家画像：利用TFIDF关键词抽取算法从专家研究成果中抽取出表征专家研究方向、特长的关键词，并构建专家关键词词库，形成专家画像；

步骤S1具体包括如下步骤：

S11：接收到专家的历史研究成果的信息后，利用中文分词技术对其进行分词和去除停用词等预处理操作初步得到M个候选词，并表示为E－Di＝[W₁，W₂，……，W_M]；

S13：计算TFIDF值，计为E－TFIDF，E－TFIDF＝E－TF＊E－IDF；

步骤S2：构建待研究课题的关键词词库：利用TFIDF关键词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词，构建待研究课题的关键词词库。步骤S2具体包括如下步骤：

S23：计算TFIDF值，计为T－TFIDF，T－TFIDF＝T－TF＊T－IDF；

S3：将步骤S1获得的专家画像与步骤S2获得的待研究课题关键词进行匹配。利用WORD2VECTOR词向量模型，分别对步骤S1得到的专家画像的关键词和步骤S2得到的研究课题的关键词生成词向量，并分别记为E向量和T向量，步骤S3的对专家画像与待研究课题的关键词匹配步骤是通过对E向量和T向量的相似度进行计算及排序后完成的。

本实施例的E向量与T向量可表示为多维向量。利用余弦相似度算法分别对E向量和T向量的余弦相似度值进行计算，分别计算出所有专家的E向量，和待研究课题的T向量，并分别计算出各个专家的E向量与T向量的余弦相似度值，并根据余弦相似度值高低进行排序，余弦相似度值高低代表匹配程度的高低。余弦相似度值越接近1，则表示当前E向量与当前T向量相似度高。

本实施例例举的关键词抽取算法为TFIDF算法，其也可为TEXTRANK算法或LDA模型算法。

对于专家的历史研究成果中的非文本内容，可利用OCR(Optical CharacterRecognition)技术，将记载研究专家成果的图片进行识别转化，最终转为文本文件。专家的历史研究成果信息是通过对专家历史研究成果进行收集，并进行数据的识别、清洗和集成后得到的；待研究课题的相关数据信息包括标题，类别，描述等信息。

下面结合具体实施例进行说明：

以已知专家为两位(专家甲与专家乙)进行说明，具体包括如下步骤：

①系统接收到专家甲的信息后，对其进行处理生成专家甲画像，并构建专家甲画像的关键词词库为：[国民经济，区域经济，经济转型，长三角，企业战略，收入分配]。各个关键词对应的E－TFIDF值为[0.751，0.683，0.64，0.638，0.621，0.539]。

②系统接收到专家乙的信息后，处理生成专家乙画像的关键词词库为：[对外经济，对外贸易，国际贸易，贸易结构，金融危机，价值链]。各个关键词对应的E－TFIDF值为[0.811，0.793，0.662，0.658，0.63，0.619]。

③系统接收到待研究课题的相关数据信息后，对待研究课题进行关键词提取后，选取符合要求的课题主题，为[国际资本流入，经济增长，发展中国家，储蓄供给]，各个课题主题关键词的T－TFIDF值为[0.891，0.828，0.674，0.651]。

④计算专家甲的关键词组的词向量与待研究课题关键词组的词向量相似度为0.769311；计算专家乙的关键词组的词向量与待研究课题关键词组的词向量相似度为0.82109，由此可见，专家乙具有更高的课题相似度，因此确定专家乙与本课题更为匹配。

实施例二：

本实施例为一种智库专家与待研究课题的匹配系统，其包括专家画像模块、待研究课题的关键词词库生成模块和匹配模块，专家画像模块用于接收专家成果信息，并利用关键词抽取算法从中提取出专家关键词词库，形成专家画像；待研究课题的关键词词库生成模块用于接收待研究课题信息，并利用自然语言处理中的主题词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词；匹配模块用于将接收到的专家画像模块待研究课题的关键词词库生成模块的信息进行匹配。

可通过对专家信息和待研究课题的信息进行数据的识别、清洗、集成后，导入本实施例的系统进行匹配。

本实施例的专家画像模块和待研究课题的关键词词库生成模块分别利用TFIDF算法抽取得到专家画像关键词词库和待研究课题的关键词词库。也可利用TEXTRANK算法或LDA模型算法构建得到专家画像关键词词库和待研究课题的关键词词库。

匹配模块分别利用词向量模型对专家画像模块和待研究课题的关键词词库生成模块的关键词生成词向量，并分别记为E向量和T向量，利用余弦相似度算法对E向量和T向量的余弦相似度值进行计算。

分别计算出各个专家画像的E向量，和待研究课题的T向量，并分别计算出各个专家的E向量与T向量的余弦相似度值，并根据余弦相似度值高低进行排序，余弦相似度值高低代表匹配程度的高低。余弦相似度值越接近1，则表示当前E向量与当前T向量相似度高。

以上实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明精神实质所做的等效变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种智库专家与待研究课题的匹配方法，其特征在于，包括如下步骤：

S1：构建专家画像：

利用自然语言处理中的关键词抽取算法从专家研究成果中抽取出表征专家研究方向、特长的关键词，并构建专家关键词词库，形成专家画像；

S2：构建待研究课题的关键词词库：

利用自然语言处理中的关键词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词，构建待研究课题的关键词词库；

S3：将步骤S1获得的专家画像与步骤S2获得的待研究课题关键词进行匹配。

2.根据权利要求1所述的智库专家与待研究课题的匹配方法，其特征在于，利用WORD2VECTOR词向量模型，分别对步骤S1得到的专家画像的关键词和步骤S2得到的研究课题的关键词生成词向量，并分别记为E向量和T向量，所述步骤S3的对专家画像与待研究课题的关键词匹配步骤是通过对E向量和T向量的相似度进行计算及排序后完成的。

3.根据权利要求2所述的智库专家与待研究课题的匹配方法，其特征在于，利用余弦相似度算法计算出E向量和T向量的余弦相似度值，分别计算出所有专家的E向量，和待研究课题的T向量，并分别计算出各个专家的E向量与T向量的余弦相似度值，并根据余弦相似度值高低进行排序，余弦相似度值高低代表匹配程度的高低。

4.根据权利要求1－3中任一项所述的智库专家与待研究课题的匹配方法，其特征在于，所述关键词抽取算法为TFIDF算法。

5.根据权利要求4所述的智库专家与待研究课题的匹配方法，其特征在于，所述步骤S1包括如下步骤：

S13：计算TFIDF值，计为E－TFIDF，E－TFIDF＝E－TF＊E－IDF；

S15：根据步骤S14中生成的专家研究成果的关键词组，定义为当前专家画像。

6.根据权利要求4所述的智库专家与待研究课题的匹配方法，其特征在于，所述步骤S2包括如下步骤：

S23：计算TFIDF值，计为T－TFIDF，T－TFIDF＝T－TF＊T－IDF；

7.根据权利要求1－3中任一项所述的智库专家与待研究课题的匹配方法，其特征在于，所述关键词抽取算法还可为TEXTRANK算法或LDA模型算法。

8.一种智库专家与待研究课题的匹配系统，其特征在于，包括专家画像模块、待研究课题的关键词词库生成模块和匹配模块，

所述专家画像模块用于接收专家成果信息，并利用关键词抽取算法从中提取出专家关键词词库，形成专家画像；

所述待研究课题的关键词词库生成模块用于接收待研究课题信息，并利用自然语言处理中的主题词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词；

所述匹配模块用于将接收到的所述专家画像模块所述待研究课题的关键词词库生成模块的信息进行匹配。

9.根据权利要求8所述的智库专家与待研究课题的匹配系统，其特征在于，所述专家画像模块和待研究课题的关键词词库生成模块分别利用TFIDF算法抽取得到专家画像关键词词库和待研究课题的关键词词库。

10.根据权利要求9所述的智库专家与待研究课题的匹配系统，其特征在于，所述匹配模块分别利用词向量模型对所述专家画像模块和待研究课题的关键词词库生成模块的关键词生成词向量，并分别记为E向量和T向量，利用余弦相似度算法计算出E向量和T向量的余弦相似度值后，根据余弦相似度值的高低进行匹配。