CN108549730A - 一种专家信息的检索方法及装置 - Google Patents
一种专家信息的检索方法及装置 Download PDFInfo
- Publication number
- CN108549730A CN108549730A CN201810554424.0A CN201810554424A CN108549730A CN 108549730 A CN108549730 A CN 108549730A CN 201810554424 A CN201810554424 A CN 201810554424A CN 108549730 A CN108549730 A CN 108549730A
- Authority
- CN
- China
- Prior art keywords
- expert
- keyword
- information
- weighted value
- point information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种专家信息的检索方法及装置,该方法包括:获取专家关键词集;根据每个所述专家关键词中的专家知识点信息和专家业务信息,对所述专家知识点信息和专家业务信息分别进行加权处理,分别得到专家知识点信息的权重值和专家业务信息的权重值;将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加,得到每个所述专家关键词的权重值;根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息,按照预设的筛选条件进行筛选排序,得到检索结果。该方法利无需人工处理,提高检索结果的准确度,并降低管理工作人员的工作量。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种专家信息的检索方法及装置。
背景技术
科技项目储备库入库评审、科技成果奖励专业组评审工作中评审专家的选拨和推荐工作,现行的管理工作中,主要根据科技管理工作者进行专家的推荐或旧的技术专家名单中选举,再将上述选举结果名单来进行项目评审。
基于上述情况现有管理机制评审专家的选拨推荐均通过上述现行的方法开展,不仅增加科技管理工作者的工作量,并且由人工主观进行判断,导致评审结果的不准确。
发明内容
本申请提供了一种专家信息的检索方法及装置,以解决现有技术不仅增加科技管理工作者的工作量,并且由人工主观进行判断,导致评审结果的不准确的问题。
第一方面,本申请提供了一种专家信息的检索方法,所述方法包括:
获取专家关键词集,所述专家关键词包括专家基本信息,以及所述专家基本信息对应的专家知识点信息和专家业务信息;
根据每个所述专家关键词中的专家知识点信息和专家业务信息,对所述专家知识点信息和专家业务信息分别进行加权处理,分别得到专家知识点信息的权重值和专家业务信息的权重值;
将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加,得到每个所述专家关键词的权重值;
根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息,按照预设的筛选条件进行筛选排序,得到检索结果。
第二方面,本申请还提供了、一种专家信息的检索装置,所述装置包括:
获取模块,用于获取专家关键词集,所述专家关键词包括专家基本信息,以及所述专家基本信息对应的专家知识点信息和专家业务信息;
第一加权模块,用于根据每个所述专家关键词中的专家知识点信息和专家业务信息,对所述专家知识点信息和专家业务信息分别进行加权处理,分别得到专家知识点信息的权重值和专家业务信息的权重值;
第二加权模块,用于将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加,得到每个所述专家关键词的权重值;
检索模块,用于根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息,按照预设的筛选条件进行筛选排序,得到检索结果。
由以上技术方案可知,本申请提供了一种专家信息的检索方法及装置,该方法利用对专家信息进行处理,得到专家关键词集,再对专家关键词集内的关键词进行加权处理,通过预设的筛选条件,利用权重值的大小进行排序,得到满足条件的检索结果,无需人工处理,提高检索结果的准确度,并降低管理工作人员的工作量。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种专家信息的检索方法的方法流程图;
图2为图1中步骤11的方法流程图;
图3为图2中步骤22的方法流程图;
图4为图3中步骤23的方法流程图;
图5为本申请提供的一种专家信息的检索装置的结构示意图。
具体实施方式
第一方面,参见图1,本申请实施例提供一种专家信息的检索方法,所述方法包括如下步骤:
步骤11:获取专家关键词集,所述专家关键词包括专家基本信息,以及所述专家基本信息对应的专家知识点信息和专家业务信息。
专家基本信息包括专家的姓名、年龄、性别等身份相关的词汇,,专家知识点信息专家研究做的内容等相关的词汇,专家业务信息为专家发表过的专利、论文及证明材料等相关的词汇,以及专家近期行程及工作安排相关的词汇。
步骤12:根据每个所述专家关键词中的专家知识点信息和专家业务信息,对所述专家知识点信息和专家业务信息分别进行加权处理,分别得到专家知识点信息的权重值和专家业务信息的权重值。
根据专家知识点信息和专家业务信息所表达的语义内容,按照预设的加权方式进行加权处理,例如,专利加权重值1,论文加权重值1,参与过的项目加权重值1.2等,具体权重值的大小由管理人员根据实际需求设置。
步骤13:将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加,得到每个所述专家关键词的权重值。
步骤14:根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息,按照预设的筛选条件进行筛选排序,得到检索结果。
预设的筛选条件可以是按照专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值的其中一个或多个之和进行大小排序,也可以按照专家基本信息的基础信息进行筛选,例如,专家的年龄、毕业学校等。
由以上技术方案可知,本申请提供了一种专家信息的检索方法及装置,该方法利用对专家信息进行处理,得到专家关键词集,再对专家关键词集内的关键词进行加权处理,通过预设的筛选条件,利用权重值的大小进行排序,得到满足条件的检索结果,无需人工处理,提高检索结果的准确度,并降低管理工作人员的工作量。
参见图2,在本申请另一实施例中,步骤11包括如下步骤:
步骤21:获取专家信息。
专家信息可为专家的简介或者简历等文本信息,也可为网上搜索到的百度百科等资料。
步骤22:对所述专家信息进行分词,得到初始词组集。
步骤23:在所述初始词组集内提取核心关键词,得到专家关键词集,所述科技成果项目关键词包括科技成果项目专业信息、科技成果项目知识点信息以及科技成果项目业务信息,所述专家关键词包括多个专家基本信息,以及每个专家基本信息对应的专家知识点信息和专家业务信息。
核心关键词是指与项目和专家相关的词汇,提取核心关键词,可去除,语气助词和标点符号等停用词,不仅提高后续数据处理的速度,还可提高数据处理的准确度。
参见图3,在本申请的又一实施例中,步骤22包括如下步骤:
步骤31:识别所述专家信息内的标点符号。
步骤32:根据所述标点符号的位置,对所述专家信息进行拆分处理,得到至少一个分句。
步骤33:利用网络词库对每个所述分句进行初始分词,得到初始词组集。
利用网络词库于每个分句进行匹配,如果与网络词库中的词汇相匹配,则在相匹配的词汇后添加间隔符,进行分词处理。
参见图4,在本申请的又一实施例中,步骤23包括如下步骤:
步骤41:获取初始词组集内的每个初始词组的词性、出现频率以及每个初始词组在所述专家信息中的位置,计算每个初始词组的分数。
词性包括名词、动词、形容词、介词等词性,由于名词、量词和动词作为一个专家关键词的可能性较大,并且一个词出现的次数也是该词是否是关键词的重要依据;同时,考虑在一个文本中,每个段落的段首和段尾的位置,通常记录较为重要的信息,因此,本实施例通过三种参数来对初始词组进行评价,最终得到每个初始词组的分数,分数超过预设分数,则表示该词组为核心关键词。
步骤42:将满足预设分数的初始词组确定为核心关键词。
步骤43:提取所述核心关键词。
由以上技术方案可知,本申请提供了一种专家信息的检索方法,该方法利用对专家信息进行处理,得到专家关键词集,再对专家关键词集内的关键词进行加权处理,通过预设的筛选条件,利用权重值的大小进行排序,得到满足条件的检索结果,无需人工处理,提高检索结果的准确度,并降低管理工作人员的工作量。
第二方面,参见图5,本申请实施例提供一种专家信息的检索装置,所述装置包括:
获取模块51,用于获取专家关键词集,所述专家关键词包括专家基本信息,以及所述专家基本信息对应的专家知识点信息和专家业务信息;
第一加权模块52,用于根据每个所述专家关键词中的专家知识点信息和专家业务信息,对所述专家知识点信息和专家业务信息分别进行加权处理,分别得到专家知识点信息的权重值和专家业务信息的权重值;
第二加权模块53,用于将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加,得到每个所述专家关键词的权重值;
检索模块54,用于根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息,按照预设的筛选条件进行筛选排序,得到检索结果。
进一步地,所述获取模块51包括:
获取单元,用于获取专家信息;
分词单元,用于对所述专家信息进行分词,得到初始词组集;
提取单元,用于在所述初始词组集内提取核心关键词,得到专家关键词集,所述科技成果项目关键词包括科技成果项目专业信息、科技成果项目知识点信息以及科技成果项目业务信息,所述专家关键词包括多个专家基本信息,以及每个专家基本信息对应的专家知识点信息和专家业务信息。
进一步地,所述分词单元包括:
识别子单元,用于识别所述专家信息内的标点符号;
拆分子单元,用于根据所述标点符号的位置,对所述专家信息进行拆分处理,得到至少一个分句;
分词子单元,用于利用网络词库对每个所述分句进行初始分词,得到初始词组集。
进一步地,所述提取单元包括:
获取子单元,用于获取初始词组集内的每个初始词组的词性、出现频率以及每个初始词组在所述专家信息中的位置,计算每个初始词组的分数;
确定子单元,用于将满足预设分数的初始词组确定为核心关键词;
提取子单元,用于提取所述核心关键词。
由以上技术方案可知,本申请提供了一种专家信息的检索方法及装置,该方法利用对专家信息进行处理,得到专家关键词集,再对专家关键词集内的关键词进行加权处理,通过预设的筛选条件,利用权重值的大小进行排序,得到满足条件的检索结果,无需人工处理,提高检索结果的准确度,并降低管理工作人员的工作量。
Claims (8)
1.一种专家信息的检索方法,其特征在于,所述方法包括:
获取专家关键词集,所述专家关键词包括专家基本信息,以及所述专家基本信息对应的专家知识点信息和专家业务信息;
根据每个所述专家关键词中的专家知识点信息和专家业务信息,对所述专家知识点信息和专家业务信息分别进行加权处理,分别得到专家知识点信息的权重值和专家业务信息的权重值;
将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加,得到每个所述专家关键词的权重值;
根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息,按照预设的筛选条件进行筛选排序,得到检索结果。
2.如权利要求1所述的方法,其特征在于,所述获取科专家关键词集包括:
获取专家信息;
对所述专家信息进行分词,得到初始词组集;
在所述初始词组集内提取核心关键词,得到专家关键词集,所述科技成果项目关键词包括科技成果项目专业信息、科技成果项目知识点信息以及科技成果项目业务信息,所述专家关键词包括多个专家基本信息,以及每个专家基本信息对应的专家知识点信息和专家业务信息。
3.如权利要求2所述的方法,其特征在于,所述对所述专家信息进行分词,得到初始词组集包括:
识别所述专家信息内的标点符号;
根据所述标点符号的位置,对所述专家信息进行拆分处理,得到至少一个分句;
利用网络词库对每个所述分句进行初始分词,得到初始词组集。
4.如权利要求2所述的方法,其特征在于,所述在所述初始词组集内提取核心关键词包括:
获取初始词组集内的每个初始词组的词性、出现频率以及每个初始词组在所述专家信息中的位置,计算每个初始词组的分数;
将满足预设分数的初始词组确定为核心关键词;
提取所述核心关键词。
5.一种专家信息的检索装置,其特征在于,所述装置包括:
获取模块,用于获取专家关键词集,所述专家关键词包括专家基本信息,以及所述专家基本信息对应的专家知识点信息和专家业务信息;
第一加权模块,用于根据每个所述专家关键词中的专家知识点信息和专家业务信息,对所述专家知识点信息和专家业务信息分别进行加权处理,分别得到专家知识点信息的权重值和专家业务信息的权重值;
第二加权模块,用于将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加,得到每个所述专家关键词的权重值;
检索模块,用于根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息,按照预设的筛选条件进行筛选排序,得到检索结果。
6.如权利要求5所述的装置,其特征在于,所述获取模块包括:
获取单元,用于获取专家信息;
分词单元,用于对所述专家信息进行分词,得到初始词组集;
提取单元,用于在所述初始词组集内提取核心关键词,得到专家关键词集,所述科技成果项目关键词包括科技成果项目专业信息、科技成果项目知识点信息以及科技成果项目业务信息,所述专家关键词包括多个专家基本信息,以及每个专家基本信息对应的专家知识点信息和专家业务信息。
7.如权利要求6所述的装置,其特征在于,所述分词单元包括:
识别子单元,用于识别所述专家信息内的标点符号;
拆分子单元,用于根据所述标点符号的位置,对所述专家信息进行拆分处理,得到至少一个分句;
分词子单元,用于利用网络词库对每个所述分句进行初始分词,得到初始词组集。
8.如权利要求6所述的装置,其特征在于,所述提取单元包括:
获取子单元,用于获取初始词组集内的每个初始词组的词性、出现频率以及每个初始词组在所述专家信息中的位置,计算每个初始词组的分数;
确定子单元,用于将满足预设分数的初始词组确定为核心关键词;
提取子单元,用于提取所述核心关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554424.0A CN108549730A (zh) | 2018-06-01 | 2018-06-01 | 一种专家信息的检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554424.0A CN108549730A (zh) | 2018-06-01 | 2018-06-01 | 一种专家信息的检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108549730A true CN108549730A (zh) | 2018-09-18 |
Family
ID=63511660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810554424.0A Pending CN108549730A (zh) | 2018-06-01 | 2018-06-01 | 一种专家信息的检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108549730A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581566A (zh) * | 2020-05-09 | 2020-08-25 | 北京章鱼帝传媒科技有限公司 | 一种专家、方案筛选与排序自动更新系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880657A (zh) * | 2012-08-31 | 2013-01-16 | 电子科技大学 | 基于搜索者的专家推荐方法 |
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN104361102A (zh) * | 2014-11-24 | 2015-02-18 | 清华大学 | 一种基于群组匹配的专家推荐方法及系统 |
-
2018
- 2018-06-01 CN CN201810554424.0A patent/CN108549730A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880657A (zh) * | 2012-08-31 | 2013-01-16 | 电子科技大学 | 基于搜索者的专家推荐方法 |
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN104361102A (zh) * | 2014-11-24 | 2015-02-18 | 清华大学 | 一种基于群组匹配的专家推荐方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581566A (zh) * | 2020-05-09 | 2020-08-25 | 北京章鱼帝传媒科技有限公司 | 一种专家、方案筛选与排序自动更新系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309912B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN104063387B (zh) | 在文本中抽取关键词的装置和方法 | |
CN108846056B (zh) | 一种科技成果评审专家推荐方法及装置 | |
US8868469B2 (en) | System and method for phrase identification | |
CN107145584B (zh) | 一种基于n-gram模型的简历解析方法 | |
CN106934069B (zh) | 数据检索方法及系统 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
US20130036076A1 (en) | Method for keyword extraction | |
WO2001093102A1 (en) | Method and apparatus for making predictions about entities represented in documents | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
CN108628822B (zh) | 无语义文本的识别方法及装置 | |
EP3232336A1 (en) | Method and device for recognizing stop word | |
KR102368188B1 (ko) | 인공지능 기반 직업 매칭 시스템 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
Mohanty et al. | Resumate: A prototype to enhance recruitment process with NLP based resume parsing | |
CN113157903A (zh) | 一种面向多领域的电力词库构建方法 | |
US20130052619A1 (en) | Method for building information on emotion lexicon and apparatus for the same | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
JP2021086409A (ja) | プログラムコード自動生成装置及びプログラム | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN111325019A (zh) | 词库的更新方法及装置、电子设备 | |
CN108549730A (zh) | 一种专家信息的检索方法及装置 | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
Oo | Comparing accuracy between svm, random forest, k-nn text classifier algorithms for detecting syntactic ambiguity in software requirements | |
CN108475265A (zh) | 获取未登录词的方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180918 |
|
WD01 | Invention patent application deemed withdrawn after publication |