CN112287679A

CN112287679A - 一种科技项目评审中文本信息的结构化抽取方法及系统

Info

Publication number: CN112287679A
Application number: CN202011108855.8A
Authority: CN
Inventors: 康琛; 陈文�; 毛荣军; 黄扬琪; 周世阳; 纪清照; 曹凤香
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-29

Abstract

本发明公开了一种科技项目评审中文本信息的结构化抽取方法及系统，该方法包括：通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据；通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本；对所述结构化文本中的文本信息进行提取，以获取所述结构化文本中文本信息之间的相互关系。本发明对知识表示模型通过层次聚类后再进行相似度计算，能够提取出关键词间的同义关系、概念上下位关系，从而有效提高了文本信息抽取的准确度。

Description

一种科技项目评审中文本信息的结构化抽取方法及系统

技术领域

本发明涉及计算机技术领域，特别是涉及一种科技项目评审中文本信息的结构化抽取方法及系统。

背景技术

随着科技项目管理系统在我国各职能部门迅速普及，科技项目的评审工作从以往的集中会议模式发展到当前的网络模式，打破了评审工作中专家地域的限制。评审专家在网上根据领域知识和资助机构的资助标准，对项目申请书进行评议，资助机构依据专家的评议情况决定是否资助。

由于申请资助的科技项目众多，且遍布多个领域，因此，需要构建专家推荐系统，以根据科技项目的内容推荐相应专家对待审项目进行评审。而对科技项目评审中文本信息进行抽取是构建专家推荐系统的前提。

科技项目与专家主要信息来源是申请书与专家履历等数据库字段，以半结构化的方式存储于数据库中。现有技术中，主要采用关键词提取、知识表示等文本挖掘方法构建知识表示模型。知识表示模型虽能有效地表征文档的主题，但无法表述关键词间的同义关系、概念上下位关系等，抽取的准确度不高。

发明内容

针对上述问题，本发明的一个目的在于提出一种科技项目评审中文本信息的结构化抽取方法，以解决现有技术抽取准确度不高的问题。

一种科技项目评审中文本信息的结构化抽取方法，包括：

通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据；

通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本；

对所述结构化文本中的文本信息进行提取，以获取所述结构化文本中文本信息之间的相互关系。

根据本发明提供的科技项目评审中文本信息的结构化抽取方法，首先通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据，然后通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本，对知识表示模型通过层次聚类后再进行相似度计算，能够提取出关键词间的同义关系、概念上下位关系，从而有效提高了文本信息抽取的准确度。

另外，根据本发明上述的科技项目评审中文本信息的结构化抽取方法，还可以具有如下附加的技术特征：

进一步地，通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据的步骤具体包括：

基于中文分词方法，对文本进行预处理；

基于词语语义相似性，将科技项目与专家的文本映射成词语网络；

根据社会网络的概念，计算词语网络的居间度；

根据词语居间度与统计特性计算关键度，并根据关键度筛选关键词集合。

进一步地，所述统计特性包括词频和位置。

进一步地，基于中文分词方法，对文本进行预处理的步骤具体包括：

利用ICTCLAS中文分词工具，对Lucene中的Analyzer接口进行重写，实现定制化分词；

创建一个TokenStream实例，调用类中的resuableTokenStream方法，实现对文本信息的分词获得关键词；

调用StopFilter类，将上一步得到的第一次分词结果中的所有无意义虚词及自定义的停用词去掉；

通过前三步得到词语集合，并将这些词语作为表示文本信息的分词结果返回。

进一步地，所述结构化文本中的文本信息包括项目信息和专家信息；

所述项目信息包括项目名称、关键技术与公关方向、项目主要研发内容、项目主要技术指标、可行性报告；

所述专家信息包括熟悉专业、研究方向、专家简历、所获奖项、期刊发表情况、课题承担完成情况。

本发明的另一个目的在于提出一种科技项目评审中文本信息的结构化抽取系统，以解决现有技术抽取准确度不高的问题。

一种科技项目评审中文本信息的结构化抽取系统，包括：

抽取模块，用于通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据；

转换模块，用于通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本；

获取模块，用于对所述结构化文本中的文本信息进行提取，以获取所述结构化文本中文本信息之间的相互关系。

根据本发明提供的科技项目评审中文本信息的结构化抽取系统，首先通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据，然后通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本，对知识表示模型通过层次聚类后再进行相似度计算，能够提取出关键词间的同义关系、概念上下位关系，从而有效提高了文本信息抽取的准确度。

另外，根据本发明上述的科技项目评审中文本信息的结构化抽取系统，还可以具有如下附加的技术特征：

进一步地，所述抽取模块包括：

预处理单元，用于基于中文分词方法，对文本进行预处理；

映射单元，用于基于词语语义相似性，将科技项目与专家的文本映射成词语网络；

计算单元，用于根据社会网络的概念，计算词语网络的居间度；

筛选单元，用于根据词语居间度与统计特性计算关键度，并根据关键度筛选关键词集合。

进一步地，所述统计特性包括词频和位置。

进一步地，所述预处理单元具体用于：

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明第一实施例的科技项目评审中文本信息的结构化抽取方法的流程图；

图2是根据本发明第二实施例的科技项目评审中文本信息的结构化抽取系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提出的科技项目评审中文本信息的结构化抽取方法，包括步骤S101～S103。

S101，通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据。

其中，步骤101具体包括：

基于中文分词方法，对文本进行预处理；

根据社会网络的概念，计算词语网络的居间度；

根据词语居间度与统计特性计算关键度，并根据关键度筛选关键词集合，具体的，所述统计特性包括词频和位置。

其中，本实施例采用用了Lucene和中科院的ICTCLAS中文分词工具的组合。

具体的，基于中文分词方法，对文本进行预处理的步骤包括：

S102，通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本。

其中，通过词语网络(WordNet)表述文档的核心主题、语义间关系结构和整体体系结构。其是由文档中心词构成的网络G(Graph)描述文档D(Document)的核心主题，网络中的顶点V(Vertex)表示文档中的词语W(Word)，边E(Edge)表示文档中词语间的关系R(Relation)。

S103，对所述结构化文本中的文本信息进行提取，以获取所述结构化文本中文本信息之间的相互关系。

其中，所述结构化文本中的文本信息包括项目信息和专家信息；

所述项目信息包括：

项目名称，题目是项目信息的一个凝缩点。

关键技术与公关方向，能表明申报项目的具体研究方向。

项目主要研发内容，是申报项目的研究的具体方式、内容、能达到的预期结果的详细描述。

项目主要技术指标、经济指标，反映申报项目计划目标和实际情况。

可行性报告，申报项目所属单位从经济、技术、研发、运营到社会的各种环境、政策、法律等多种角度进行调研、分析、论述，预见各类利害因素及项目的可行性，估计项目风险、经济贡献和社会效益等指标。

所述专家信息包括：

熟悉专业，专家所从事的研究专业。

研究方向，专家所研究的具体方向。

专家的简历，专家的个人形象，包括资历与能力的书面表述。

所获得的各种奖项。

期刊发表情况。

课题承担完成情况。

根据本实施例提供的科技项目评审中文本信息的结构化抽取方法，首先通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据，然后通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本，对知识表示模型通过层次聚类后再进行相似度计算，能够提取出关键词间的同义关系、概念上下位关系，从而有效提高了文本信息抽取的准确度。

请参阅图2，基于同一发明构思，本发明第二实施例提出的科技项目评审中文本信息的结构化抽取系统，包括：

本实施例中，所述抽取模块包括：

预处理单元，用于基于中文分词方法，对文本进行预处理；

本实施例中，所述统计特性包括词频和位置。

本实施例中，所述预处理单元具体用于：

本实施例中，所述结构化文本中的文本信息包括项目信息和专家信息；

根据本实施例提供的科技项目评审中文本信息的结构化抽取系统，首先通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据，然后通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本，对知识表示模型通过层次聚类后再进行相似度计算，能够提取出关键词间的同义关系、概念上下位关系，从而有效提高了文本信息抽取的准确度。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具体用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种科技项目评审中文本信息的结构化抽取方法，其特征在于，包括：

2.根据权利要求1所述的科技项目评审中文本信息的结构化抽取方法，其特征在于，通过文本切分技术在科技项目评审文本中抽取文本特征，以将文本数据转化为能够表述文本内容的结构化数据的步骤具体包括：

基于中文分词方法，对文本进行预处理；

根据社会网络的概念，计算词语网络的居间度；

3.根据权利要求2所述的科技项目评审中文本信息的结构化抽取方法，其特征在于，所述统计特性包括词频和位置。

4.根据权利要求2所述的科技项目评审中文本信息的结构化抽取方法，其特征在于，基于中文分词方法，对文本进行预处理的步骤具体包括：

5.根据权利要求1所述的科技项目评审中文本信息的结构化抽取方法，其特征在于，所述结构化文本中的文本信息包括项目信息和专家信息；

6.一种科技项目评审中文本信息的结构化抽取系统，其特征在于，包括：

7.根据权利要求6所述的科技项目评审中文本信息的结构化抽取系统，其特征在于，所述抽取模块包括：

预处理单元，用于基于中文分词方法，对文本进行预处理；

8.根据权利要求7所述的科技项目评审中文本信息的结构化抽取系统，其特征在于，所述统计特性包括词频和位置。

9.根据权利要求7所述的科技项目评审中文本信息的结构化抽取系统，其特征在于，所述预处理单元具体用于：

10.根据权利要求6所述的科技项目评审中文本信息的结构化抽取系统，其特征在于，所述结构化文本中的文本信息包括项目信息和专家信息；