CN108549730A

CN108549730A - 一种专家信息的检索方法及装置

Info

Publication number: CN108549730A
Application number: CN201810554424.0A
Authority: CN
Inventors: 李月梅; 陈焕; 毛天; 张林山; 宁旭然; 赵思; 严春; 缪蕊
Original assignee: Electric Power Research Institute of Yunnan Power System Ltd
Current assignee: Electric Power Research Institute of Yunnan Power System Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-09-18

Abstract

本申请公开了一种专家信息的检索方法及装置，该方法包括：获取专家关键词集；根据每个所述专家关键词中的专家知识点信息和专家业务信息，对所述专家知识点信息和专家业务信息分别进行加权处理，分别得到专家知识点信息的权重值和专家业务信息的权重值；将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加，得到每个所述专家关键词的权重值；根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息，按照预设的筛选条件进行筛选排序，得到检索结果。该方法利无需人工处理，提高检索结果的准确度，并降低管理工作人员的工作量。

Description

一种专家信息的检索方法及装置

技术领域

本申请涉及数据处理领域，尤其涉及一种专家信息的检索方法及装置。

背景技术

科技项目储备库入库评审、科技成果奖励专业组评审工作中评审专家的选拨和推荐工作，现行的管理工作中，主要根据科技管理工作者进行专家的推荐或旧的技术专家名单中选举，再将上述选举结果名单来进行项目评审。

基于上述情况现有管理机制评审专家的选拨推荐均通过上述现行的方法开展，不仅增加科技管理工作者的工作量，并且由人工主观进行判断，导致评审结果的不准确。

发明内容

本申请提供了一种专家信息的检索方法及装置，以解决现有技术不仅增加科技管理工作者的工作量，并且由人工主观进行判断，导致评审结果的不准确的问题。

第一方面，本申请提供了一种专家信息的检索方法，所述方法包括：

获取专家关键词集，所述专家关键词包括专家基本信息，以及所述专家基本信息对应的专家知识点信息和专家业务信息；

根据每个所述专家关键词中的专家知识点信息和专家业务信息，对所述专家知识点信息和专家业务信息分别进行加权处理，分别得到专家知识点信息的权重值和专家业务信息的权重值；

将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加，得到每个所述专家关键词的权重值；

根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息，按照预设的筛选条件进行筛选排序，得到检索结果。

第二方面，本申请还提供了、一种专家信息的检索装置，所述装置包括：

获取模块，用于获取专家关键词集，所述专家关键词包括专家基本信息，以及所述专家基本信息对应的专家知识点信息和专家业务信息；

第一加权模块，用于根据每个所述专家关键词中的专家知识点信息和专家业务信息，对所述专家知识点信息和专家业务信息分别进行加权处理，分别得到专家知识点信息的权重值和专家业务信息的权重值；

第二加权模块，用于将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加，得到每个所述专家关键词的权重值；

检索模块，用于根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息，按照预设的筛选条件进行筛选排序，得到检索结果。

由以上技术方案可知，本申请提供了一种专家信息的检索方法及装置，该方法利用对专家信息进行处理，得到专家关键词集，再对专家关键词集内的关键词进行加权处理，通过预设的筛选条件，利用权重值的大小进行排序，得到满足条件的检索结果，无需人工处理，提高检索结果的准确度，并降低管理工作人员的工作量。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种专家信息的检索方法的方法流程图；

图2为图1中步骤11的方法流程图；

图3为图2中步骤22的方法流程图；

图4为图3中步骤23的方法流程图；

图5为本申请提供的一种专家信息的检索装置的结构示意图。

具体实施方式

第一方面，参见图1，本申请实施例提供一种专家信息的检索方法，所述方法包括如下步骤：

步骤11：获取专家关键词集，所述专家关键词包括专家基本信息，以及所述专家基本信息对应的专家知识点信息和专家业务信息。

专家基本信息包括专家的姓名、年龄、性别等身份相关的词汇，，专家知识点信息专家研究做的内容等相关的词汇，专家业务信息为专家发表过的专利、论文及证明材料等相关的词汇，以及专家近期行程及工作安排相关的词汇。

步骤12：根据每个所述专家关键词中的专家知识点信息和专家业务信息，对所述专家知识点信息和专家业务信息分别进行加权处理，分别得到专家知识点信息的权重值和专家业务信息的权重值。

根据专家知识点信息和专家业务信息所表达的语义内容，按照预设的加权方式进行加权处理，例如，专利加权重值1，论文加权重值1，参与过的项目加权重值1.2等，具体权重值的大小由管理人员根据实际需求设置。

步骤13：将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加，得到每个所述专家关键词的权重值。

步骤14：根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息，按照预设的筛选条件进行筛选排序，得到检索结果。

预设的筛选条件可以是按照专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值的其中一个或多个之和进行大小排序，也可以按照专家基本信息的基础信息进行筛选，例如，专家的年龄、毕业学校等。

参见图2，在本申请另一实施例中，步骤11包括如下步骤：

步骤21：获取专家信息。

专家信息可为专家的简介或者简历等文本信息，也可为网上搜索到的百度百科等资料。

步骤22：对所述专家信息进行分词，得到初始词组集。

步骤23：在所述初始词组集内提取核心关键词，得到专家关键词集，所述科技成果项目关键词包括科技成果项目专业信息、科技成果项目知识点信息以及科技成果项目业务信息，所述专家关键词包括多个专家基本信息，以及每个专家基本信息对应的专家知识点信息和专家业务信息。

核心关键词是指与项目和专家相关的词汇，提取核心关键词，可去除，语气助词和标点符号等停用词，不仅提高后续数据处理的速度，还可提高数据处理的准确度。

参见图3，在本申请的又一实施例中，步骤22包括如下步骤：

步骤31：识别所述专家信息内的标点符号。

步骤32：根据所述标点符号的位置，对所述专家信息进行拆分处理，得到至少一个分句。

步骤33：利用网络词库对每个所述分句进行初始分词，得到初始词组集。

利用网络词库于每个分句进行匹配，如果与网络词库中的词汇相匹配，则在相匹配的词汇后添加间隔符，进行分词处理。

参见图4，在本申请的又一实施例中，步骤23包括如下步骤：

步骤41：获取初始词组集内的每个初始词组的词性、出现频率以及每个初始词组在所述专家信息中的位置，计算每个初始词组的分数。

词性包括名词、动词、形容词、介词等词性，由于名词、量词和动词作为一个专家关键词的可能性较大，并且一个词出现的次数也是该词是否是关键词的重要依据；同时，考虑在一个文本中，每个段落的段首和段尾的位置，通常记录较为重要的信息，因此，本实施例通过三种参数来对初始词组进行评价，最终得到每个初始词组的分数，分数超过预设分数，则表示该词组为核心关键词。

步骤42：将满足预设分数的初始词组确定为核心关键词。

步骤43：提取所述核心关键词。

由以上技术方案可知，本申请提供了一种专家信息的检索方法，该方法利用对专家信息进行处理，得到专家关键词集，再对专家关键词集内的关键词进行加权处理，通过预设的筛选条件，利用权重值的大小进行排序，得到满足条件的检索结果，无需人工处理，提高检索结果的准确度，并降低管理工作人员的工作量。

第二方面，参见图5，本申请实施例提供一种专家信息的检索装置，所述装置包括：

获取模块51，用于获取专家关键词集，所述专家关键词包括专家基本信息，以及所述专家基本信息对应的专家知识点信息和专家业务信息；

第一加权模块52，用于根据每个所述专家关键词中的专家知识点信息和专家业务信息，对所述专家知识点信息和专家业务信息分别进行加权处理，分别得到专家知识点信息的权重值和专家业务信息的权重值；

第二加权模块53，用于将所述专家关键词集内的每个所述专家关键词的专家知识点信息和专家业务信息所属的权重值相加，得到每个所述专家关键词的权重值；

检索模块54，用于根据专家知识点信息的权重值、专家业务信息的权重值、专家关键词的权重值以及专家基本信息，按照预设的筛选条件进行筛选排序，得到检索结果。

进一步地，所述获取模块51包括：

获取单元，用于获取专家信息；

分词单元，用于对所述专家信息进行分词，得到初始词组集；

提取单元，用于在所述初始词组集内提取核心关键词，得到专家关键词集，所述科技成果项目关键词包括科技成果项目专业信息、科技成果项目知识点信息以及科技成果项目业务信息，所述专家关键词包括多个专家基本信息，以及每个专家基本信息对应的专家知识点信息和专家业务信息。

进一步地，所述分词单元包括：

识别子单元，用于识别所述专家信息内的标点符号；

拆分子单元，用于根据所述标点符号的位置，对所述专家信息进行拆分处理，得到至少一个分句；

分词子单元，用于利用网络词库对每个所述分句进行初始分词，得到初始词组集。

进一步地，所述提取单元包括：

获取子单元，用于获取初始词组集内的每个初始词组的词性、出现频率以及每个初始词组在所述专家信息中的位置，计算每个初始词组的分数；

确定子单元，用于将满足预设分数的初始词组确定为核心关键词；

提取子单元，用于提取所述核心关键词。

Claims

1.一种专家信息的检索方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取科专家关键词集包括：

获取专家信息；

对所述专家信息进行分词，得到初始词组集；

在所述初始词组集内提取核心关键词，得到专家关键词集，所述科技成果项目关键词包括科技成果项目专业信息、科技成果项目知识点信息以及科技成果项目业务信息，所述专家关键词包括多个专家基本信息，以及每个专家基本信息对应的专家知识点信息和专家业务信息。

3.如权利要求2所述的方法，其特征在于，所述对所述专家信息进行分词，得到初始词组集包括：

识别所述专家信息内的标点符号；

根据所述标点符号的位置，对所述专家信息进行拆分处理，得到至少一个分句；

利用网络词库对每个所述分句进行初始分词，得到初始词组集。

4.如权利要求2所述的方法，其特征在于，所述在所述初始词组集内提取核心关键词包括：

获取初始词组集内的每个初始词组的词性、出现频率以及每个初始词组在所述专家信息中的位置，计算每个初始词组的分数；

将满足预设分数的初始词组确定为核心关键词；

提取所述核心关键词。

5.一种专家信息的检索装置，其特征在于，所述装置包括：

6.如权利要求5所述的装置，其特征在于，所述获取模块包括：

获取单元，用于获取专家信息；

7.如权利要求6所述的装置，其特征在于，所述分词单元包括：

识别子单元，用于识别所述专家信息内的标点符号；

8.如权利要求6所述的装置，其特征在于，所述提取单元包括：

提取子单元，用于提取所述核心关键词。