CN113342949A - 智库专家与待研究课题的匹配方法及系统 - Google Patents
智库专家与待研究课题的匹配方法及系统 Download PDFInfo
- Publication number
- CN113342949A CN113342949A CN202110625005.3A CN202110625005A CN113342949A CN 113342949 A CN113342949 A CN 113342949A CN 202110625005 A CN202110625005 A CN 202110625005A CN 113342949 A CN113342949 A CN 113342949A
- Authority
- CN
- China
- Prior art keywords
- expert
- topic
- researched
- matching
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智库专家与待研究课题的匹配方法及系统,本发明的智库专家与待研究课题的匹配方法,包括如下步骤:S1:构建专家画像:利用自然语言处理中的关键词抽取算法从专家研究成果中抽取出表征专家研究方向、特长的关键词,并构建专家关键词词库,形成专家画像;S2:构建待研究课题的关键词词库:利用自然语言处理中的关键词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词,构建待研究课题的关键词词库;S3:将步骤S1获得的专家画像与步骤S2获得的待研究课题关键词进行词向量生成及相似度计算匹配。利用本发明的智库专家与待研究课题的匹配方法可以精准地在语意层面实现相似匹配,避免了人工进行匹配的低效及不确定性。
Description
技术领域
本发明涉及一种智库专家与待研究课题的匹配方法及系统。
背景技术
目前,能否从智库中找到合适的专家对于课题能否顺利研究结题至关重要。当前在智库人才与待研究课题的匹配领域,大多依赖于智库管理人员基于经验将智库专家与待研究课题进行直接匹配,但是由于智库管理人员的知识水平的参差不齐,因而这种配对方式普遍存在匹配效率低、匹配准确度差等问题。
发明内容
为了解决上述技术问题,本发明提供了一种智库专家与待研究课题的匹配方法,其包括如下步骤:
S1:构建专家画像:利用自然语言处理中的关键词抽取算法从专家研究成果中抽取出表征专家研究方向、特长的关键词,并构建专家关键词词库,形成专家画像;
S2:构建待研究课题的关键词词库:利用自然语言处理中的关键词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词,构建待研究课题的关键词词库;
S3:将步骤S1获得的专家画像与步骤S2获得的待研究课题关键词进行词向量生成及相似度计算、匹配。对专家研究成果利用自然语言处理中的关键词抽取算法,抽取出可以表征专家研究方向、特长的关键词,用于形成专家画像。
进一步的,利用WORD2VECTOR词向量模型,分别对步骤S1得到的专家画像的关键词和步骤S2得到的研究课题的关键词生成词向量,并分别记为E向量和T向量,所述步骤S3的对专家画像与待研究课题的关键词匹配步骤是通过对E向量和T向量的相似度进行计算及排序后完成的。
更进一步的,利用余弦相似度算法对E向量和T向量的余弦相似度值进行计算,分别计算出所有专家的E向量,和待研究课题的T向量,并分别计算出各个专家的E向量与T向量的余弦相似度值,并根据余弦相似度值高低进行排序,余弦相似度值高低代表匹配程度的高低。
更进一步的,所述关键词抽取算法为TFIDF算法。
更进一步的,所述步骤S1包括如下步骤:
S11:接收到专家的历史研究成果的信息后,初步得到M个候选词,并表示为E-Di=[W1,W2,...,WM];
S12:计算Wi在D中出现的次数,计为E-nwi;计算D的总词数,计为E-SUMD;计算TF值,计为E-TF,E-TF=E-nwi/E-SUMD;计算IDF值,计为E-IDF,E-IDF=log(文档总数/包含步骤S11的Wi的文档数);
S13:计算TFIDF值,计为E-TFIDF,E-TFIDF=E-TF*E-IDF;
S14:基于可配置的TFIDF阈值,选取大于等于此阈值所对应的候选词,作为专家研究成果的关键词,并表示为E=[M1,M2,...,Mm];
S15:根据S14中生成的专家研究成果的关键词组,定义为当前专家画像。
更进一步的,所述步骤S2包括如下步骤:
S21:接收到待研究课题相关的数据信息后,抽取出可以表征课题内容、领域的关键词,并表示为T-Di=[W1,W2,...,WN];
S22:计算Wi在D中出现的次数,计为T-nwi;计算D的总词数,计为T-SUMD;计算TF值,计为T-TF,T-TF=T-nwi/T-SUMD;计算IDF值,计为T-IDF,T-IDF=log(与课题相关的文档总数/包含步骤S21的文档数);
S23:计算TFIDF值,计为T-TFIDF,T-TFIDF=T-TF*T-IDF;
S24:基于可配置的TFIDF阈值,选取大于等于此阈值所对应的关键词,作为待研究课题的主题,并表示为T=[N1,N2,...,Nn]。
更进一步的,所述关键词抽取算法还可为TEXTRANK算法或LDA模型算法。
本发明还提供了一种智库专家与待研究课题的匹配系统,其包括专家画像模块、待研究课题的关键词词库生成模块和匹配模块,所述专家画像模块用于接收专家成果信息,并利用关键词抽取算法从中提取出专家关键词词库,形成专家画像;所述待研究课题的关键词词库生成模块用于接收待研究课题信息,并利用自然语言处理中的主题词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词;所述匹配模块用于将接收到的所述专家画像模块所述待研究课题的关键词词库生成模块的信息进行匹配。
进一步的,所述专家画像模块和待研究课题的关键词词库生成模块分别利用TFIDF算法抽取得到专家画像关键词词库和待研究课题的关键词词库。
更进一步的,所述匹配模块分别利用词向量模型对所述专家画像模块和待研究课题的关键词词库生成模块的关键词生成词向量,并分别记为E向量和T向量,利用余弦相似度算法对E向量和T向量计算余弦相似度值后,根据余弦相似度值的高低进行匹配。
本发明具有如下有益效果:通过利用关键词抽取算法进行专家画像的生成,因而可以精准且全面地表示出专家的研究领域及擅长点;通过利用关键词抽取算法对待研究的课题的主题进行抽取,可以对待研究的课题的主题进行准确表达,并能有效过滤噪声数据。利用本发明的方法能有效提高智库人才与待研究课题的匹配效率且匹配准确度高。本发明通过利用关键词抽取及对应词向量生成以及词向量相似度计算、匹配的算法,可以精准地在语意层面实现相似匹配,避免了人工匹配的不确定性。
附图说明
图1为本发明实施例一的流程图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
实施例一:
本实施例提供了一种智库专家与待研究课题的匹配方法,其包括如下步骤:
步骤S1:构建专家画像:利用TFIDF关键词抽取算法从专家研究成果中抽取出表征专家研究方向、特长的关键词,并构建专家关键词词库,形成专家画像;
步骤S1具体包括如下步骤:
S11:接收到专家的历史研究成果的信息后,利用中文分词技术对其进行分词和去除停用词等预处理操作初步得到M个候选词,并表示为E-Di=[W1,W2,……,WM];
S12:计算Wi在D中出现的次数,计为E-nwi;计算D的总词数,计为E-SUMD;计算TF值,计为E-TF,E-TF=E-nwi/E-SUMD;计算IDF值,计为E-IDF,E-IDF=log(文档总数/包含步骤S11的Wi的文档数);
S13:计算TFIDF值,计为E-TFIDF,E-TFIDF=E-TF*E-IDF;
S14:基于可配置的TFIDF阈值,选取大于等于此阈值所对应的候选词,作为专家研究成果的关键词,并表示为E=[M1,M2,...,Mm];
S15:根据S14中生成的专家研究成果的关键词组,定义为当前专家画像。
步骤S2:构建待研究课题的关键词词库:利用TFIDF关键词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词,构建待研究课题的关键词词库。步骤S2具体包括如下步骤:
S21:接收到待研究课题相关的数据信息后,抽取出可以表征课题内容、领域的关键词,并表示为T-Di=[W1,W2,...,WN];
S22:计算Wi在D中出现的次数,计为T-nwi;计算D的总词数,计为T-SUMD;计算TF值,计为T-TF,T-TF=T-nwi/T-SUMD;计算IDF值,计为T-IDF,T-IDF=log(与课题相关的文档总数/包含步骤S21的文档数);
S23:计算TFIDF值,计为T-TFIDF,T-TFIDF=T-TF*T-IDF;
S24:基于可配置的TFIDF阈值,选取大于等于此阈值所对应的关键词,作为待研究课题的主题,并表示为T=[N1,N2,...,Nn]。
S3:将步骤S1获得的专家画像与步骤S2获得的待研究课题关键词进行匹配。利用WORD2VECTOR词向量模型,分别对步骤S1得到的专家画像的关键词和步骤S2得到的研究课题的关键词生成词向量,并分别记为E向量和T向量,步骤S3的对专家画像与待研究课题的关键词匹配步骤是通过对E向量和T向量的相似度进行计算及排序后完成的。
本实施例的E向量与T向量可表示为多维向量。利用余弦相似度算法分别对E向量和T向量的余弦相似度值进行计算,分别计算出所有专家的E向量,和待研究课题的T向量,并分别计算出各个专家的E向量与T向量的余弦相似度值,并根据余弦相似度值高低进行排序,余弦相似度值高低代表匹配程度的高低。余弦相似度值越接近1,则表示当前E向量与当前T向量相似度高。
本实施例例举的关键词抽取算法为TFIDF算法,其也可为TEXTRANK算法或LDA模型算法。
对于专家的历史研究成果中的非文本内容,可利用OCR(Optical CharacterRecognition)技术,将记载研究专家成果的图片进行识别转化,最终转为文本文件。专家的历史研究成果信息是通过对专家历史研究成果进行收集,并进行数据的识别、清洗和集成后得到的;待研究课题的相关数据信息包括标题,类别,描述等信息。
下面结合具体实施例进行说明:
以已知专家为两位(专家甲与专家乙)进行说明,具体包括如下步骤:
①系统接收到专家甲的信息后,对其进行处理生成专家甲画像,并构建专家甲画像的关键词词库为:[国民经济,区域经济,经济转型,长三角,企业战略,收入分配]。各个关键词对应的E-TFIDF值为[0.751,0.683,0.64,0.638,0.621,0.539]。
②系统接收到专家乙的信息后,处理生成专家乙画像的关键词词库为:[对外经济,对外贸易,国际贸易,贸易结构,金融危机,价值链]。各个关键词对应的E-TFIDF值为[0.811,0.793,0.662,0.658,0.63,0.619]。
③系统接收到待研究课题的相关数据信息后,对待研究课题进行关键词提取后,选取符合要求的课题主题,为[国际资本流入,经济增长,发展中国家,储蓄供给],各个课题主题关键词的T-TFIDF值为[0.891,0.828,0.674,0.651]。
④计算专家甲的关键词组的词向量与待研究课题关键词组的词向量相似度为0.769311;计算专家乙的关键词组的词向量与待研究课题关键词组的词向量相似度为0.82109,由此可见,专家乙具有更高的课题相似度,因此确定专家乙与本课题更为匹配。
实施例二:
本实施例为一种智库专家与待研究课题的匹配系统,其包括专家画像模块、待研究课题的关键词词库生成模块和匹配模块,专家画像模块用于接收专家成果信息,并利用关键词抽取算法从中提取出专家关键词词库,形成专家画像;待研究课题的关键词词库生成模块用于接收待研究课题信息,并利用自然语言处理中的主题词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词;匹配模块用于将接收到的专家画像模块待研究课题的关键词词库生成模块的信息进行匹配。
可通过对专家信息和待研究课题的信息进行数据的识别、清洗、集成后,导入本实施例的系统进行匹配。
本实施例的专家画像模块和待研究课题的关键词词库生成模块分别利用TFIDF算法抽取得到专家画像关键词词库和待研究课题的关键词词库。也可利用TEXTRANK算法或LDA模型算法构建得到专家画像关键词词库和待研究课题的关键词词库。
匹配模块分别利用词向量模型对专家画像模块和待研究课题的关键词词库生成模块的关键词生成词向量,并分别记为E向量和T向量,利用余弦相似度算法对E向量和T向量的余弦相似度值进行计算。
分别计算出各个专家画像的E向量,和待研究课题的T向量,并分别计算出各个专家的E向量与T向量的余弦相似度值,并根据余弦相似度值高低进行排序,余弦相似度值高低代表匹配程度的高低。余弦相似度值越接近1,则表示当前E向量与当前T向量相似度高。
以上实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所做的等效变化或修饰,都应涵盖在本发明的保护范围内。
Claims (10)
1.一种智库专家与待研究课题的匹配方法,其特征在于,包括如下步骤:
S1:构建专家画像:
利用自然语言处理中的关键词抽取算法从专家研究成果中抽取出表征专家研究方向、特长的关键词,并构建专家关键词词库,形成专家画像;
S2:构建待研究课题的关键词词库:
利用自然语言处理中的关键词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词,构建待研究课题的关键词词库;
S3:将步骤S1获得的专家画像与步骤S2获得的待研究课题关键词进行匹配。
2.根据权利要求1所述的智库专家与待研究课题的匹配方法,其特征在于,利用WORD2VECTOR词向量模型,分别对步骤S1得到的专家画像的关键词和步骤S2得到的研究课题的关键词生成词向量,并分别记为E向量和T向量,所述步骤S3的对专家画像与待研究课题的关键词匹配步骤是通过对E向量和T向量的相似度进行计算及排序后完成的。
3.根据权利要求2所述的智库专家与待研究课题的匹配方法,其特征在于,利用余弦相似度算法计算出E向量和T向量的余弦相似度值,分别计算出所有专家的E向量,和待研究课题的T向量,并分别计算出各个专家的E向量与T向量的余弦相似度值,并根据余弦相似度值高低进行排序,余弦相似度值高低代表匹配程度的高低。
4.根据权利要求1-3中任一项所述的智库专家与待研究课题的匹配方法,其特征在于,所述关键词抽取算法为TFIDF算法。
5.根据权利要求4所述的智库专家与待研究课题的匹配方法,其特征在于,所述步骤S1包括如下步骤:
S11:接收到专家的历史研究成果的信息后,初步得到M个候选词,并表示为E-Di=[W1,W2,...,WM];
S12:计算Wi在D中出现的次数,计为E-nwi;计算D的总词数,计为E-SUMD;计算TF值,计为E-TF,E-TF=E-nwi/E-SUMD;计算IDF值,计为E-IDF,E-IDF=log(文档总数/包含步骤S11的Wi的文档数);
S13:计算TFIDF值,计为E-TFIDF,E-TFIDF=E-TF*E-IDF;
S14:基于可配置的TFIDF阈值,选取大于等于此阈值所对应的候选词,作为专家研究成果的关键词,并表示为E=[M1,M2,...,Mm];
S15:根据步骤S14中生成的专家研究成果的关键词组,定义为当前专家画像。
6.根据权利要求4所述的智库专家与待研究课题的匹配方法,其特征在于,所述步骤S2包括如下步骤:
S21:接收到待研究课题相关的数据信息后,抽取出可以表征课题内容、领域的关键词,并表示为T-Di=[W1,W2,...,WN];
S22:计算Wi在D中出现的次数,计为T-nwi;计算D的总词数,计为T-SUMD;计算TF值,计为T-TF,T-TF=T-nwi/T-SUMD;计算IDF值,计为T-IDF,T-IDF=log(与课题相关的文档总数/包含步骤S21的文档数);
S23:计算TFIDF值,计为T-TFIDF,T-TFIDF=T-TF*T-IDF;
S24:基于可配置的TFIDF阈值,选取大于等于此阈值所对应的关键词,作为待研究课题的主题,并表示为T=[N1,N2,...,Nn]。
7.根据权利要求1-3中任一项所述的智库专家与待研究课题的匹配方法,其特征在于,所述关键词抽取算法还可为TEXTRANK算法或LDA模型算法。
8.一种智库专家与待研究课题的匹配系统,其特征在于,包括专家画像模块、待研究课题的关键词词库生成模块和匹配模块,
所述专家画像模块用于接收专家成果信息,并利用关键词抽取算法从中提取出专家关键词词库,形成专家画像;
所述待研究课题的关键词词库生成模块用于接收待研究课题信息,并利用自然语言处理中的主题词抽取算法从待研究课题中抽取出可以表征课题内容、领域的关键词;
所述匹配模块用于将接收到的所述专家画像模块所述待研究课题的关键词词库生成模块的信息进行匹配。
9.根据权利要求8所述的智库专家与待研究课题的匹配系统,其特征在于,所述专家画像模块和待研究课题的关键词词库生成模块分别利用TFIDF算法抽取得到专家画像关键词词库和待研究课题的关键词词库。
10.根据权利要求9所述的智库专家与待研究课题的匹配系统,其特征在于,所述匹配模块分别利用词向量模型对所述专家画像模块和待研究课题的关键词词库生成模块的关键词生成词向量,并分别记为E向量和T向量,利用余弦相似度算法计算出E向量和T向量的余弦相似度值后,根据余弦相似度值的高低进行匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110625005.3A CN113342949A (zh) | 2021-06-04 | 2021-06-04 | 智库专家与待研究课题的匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110625005.3A CN113342949A (zh) | 2021-06-04 | 2021-06-04 | 智库专家与待研究课题的匹配方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113342949A true CN113342949A (zh) | 2021-09-03 |
Family
ID=77473991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110625005.3A Withdrawn CN113342949A (zh) | 2021-06-04 | 2021-06-04 | 智库专家与待研究课题的匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342949A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642031A (zh) * | 2021-10-15 | 2021-11-12 | 中国铁道科学研究院集团有限公司科学技术信息研究所 | 一种课题验收方法及系统 |
CN118153918A (zh) * | 2024-05-10 | 2024-06-07 | 浙江云茗科技股份有限公司 | 一种基于旅游管理平台的信息互动方法、系统及设备 |
-
2021
- 2021-06-04 CN CN202110625005.3A patent/CN113342949A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642031A (zh) * | 2021-10-15 | 2021-11-12 | 中国铁道科学研究院集团有限公司科学技术信息研究所 | 一种课题验收方法及系统 |
CN118153918A (zh) * | 2024-05-10 | 2024-06-07 | 浙江云茗科技股份有限公司 | 一种基于旅游管理平台的信息互动方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN109670014B (zh) | 一种基于规则匹配和机器学习的论文作者名消歧方法 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
CN107480200B (zh) | 基于词标签的词语标注方法、装置、服务器及存储介质 | |
CN110046250A (zh) | 三嵌入卷积神经网络模型及其文本多分类方法 | |
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN113342949A (zh) | 智库专家与待研究课题的匹配方法及系统 | |
CN110866102A (zh) | 检索处理方法 | |
CN109885675A (zh) | 基于改进lda的文本子话题发现方法 | |
Pandya | Automatic text summarization of legal cases: A hybrid approach | |
CN112668838A (zh) | 一种基于自然语言解析的评分标准词库建立方法及装置 | |
CN112860898A (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN111753067A (zh) | 一种技术交底文本创新性评估方法、装置和设备 | |
Chandra et al. | Optical character recognition-A review | |
Yafooz et al. | Enhancing multi-class web video categorization model using machine and deep learning approaches | |
CN117112811A (zh) | 一种基于相似度的专利检索方法、检索系统及存储介质 | |
CN116452353A (zh) | 一种财务数据管理方法及系统 | |
Srivastava et al. | Fuzzy association rule mining for economic development indicators | |
CN106202116B (zh) | 一种基于粗糙集与knn的文本分类方法及系统 | |
Taghva et al. | Address extraction using hidden markov models | |
CN115687960A (zh) | 一种面向开源安全情报的文本聚类方法 | |
Tian et al. | Research on image classification based on a combination of text and visual features | |
CN115496066A (zh) | 文本分析系统、方法、电子设备及存储介质 | |
CN114756617A (zh) | 一种工程档案结构化数据提取方法、系统、设备和存介质 | |
CN110210546B (zh) | 一种基于图像处理的书籍自动归类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210903 |