CN111709235B

CN111709235B - 一种基于自然语言处理的文本数据统计分析系统及方法

Info

Publication number: CN111709235B
Application number: CN202010465823.7A
Authority: CN
Inventors: 华志刚; 郭荣; 程卫国; 汪勇; 沈铭科
Original assignee: Shanghai Power Equipment Research Institute Co Ltd
Current assignee: Shanghai Power Equipment Research Institute Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-10-20
Anticipated expiration: 2040-05-28
Also published as: CN111709235A

Abstract

本发明公开了一种基于自然语言处理的文本数据统计分析系统，该系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和图表可视化子系统：所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块，所述的知识图谱管理子系统包括本体构建模块和数据配置模块，所述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块，所述的数据可视化子系统用于数据图表的生成和可视化展现；还提出一种基于自然语言处理的数据统计分析方法，该方法过利用自然语言处理技术和知识图谱技术建立知识库，再通过智能数据分析和可视化技术实现文本数据统计分析，将文本文档数据分析结果自动生成图表直观地展示，指导企业生产经营。

Description

一种基于自然语言处理的文本数据统计分析系统及方法

技术领域

本发明涉及一种基于自然语言处理的文本数据统计分析系统及方法，属于人工智能技术领域。

背景技术

在企业生产运营过程中形成有大量自然语言形式承载的文本文档，例如技术报告、检查记录、运行日志等等。文本文档中蕴含着丰富的关键数据信息，以电厂历年检修报告为例，“报告中共提到多少种设备”，“报告中提到的设备分别对应多少种故障”，“每种故障数量随着时间是如何变化的”等，而当前大部分上述文本数据信息并没有直接统计成数字形式，而是以文本形式存在，比如“本次检修设备包括汽轮机、锅炉、发电机”，所以本例中检修设备总量的统计结果为3，挖掘类似文本数据信息能对企业生产经营起到重要的指导作用。当前，上述文本数据主要依靠人力通过阅读文本的形式来进行统计，因此会耗费大量的时间。随着文本文档数量的爆炸式增长，人工已经无法满足文本数据分析的需求，再加上企业文本文档的离散化储存，势必导致大量重要的数据信息没有被挖掘而丢失，造成数据资源的浪费。因此，有必要解决企业文本文档数据的统计分析问题，进而提取关键信息指导企业生产运营。

发明内容

本发明的目的在于克服现有技术无法进行文本文档数据统计分析的不足，提供一种基于自然语言处理的文本数据统计分析系统及方法。

为达到上述目的，本发明专利提供的技术方案如下：

一种基于自然语言处理的文本数据统计分析系统，其特征在于，该系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和图表可视化子系统，4个子系统分管不同功能：

所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块，所述的语料预处理模块用于文档文本的预处理，包括语料导入、格式转换、语料清理、分词、人工打标、去停用词等，所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取，为后续知识图谱构建提供知识数据；

所述的知识图谱管理子系统包括本体构建模块和数据配置模块，所述的本体构建模块用于定义知识图谱的领域、标签、词典和本体，所述的数据配置模块用于知识数据的配置，并建立数据与图谱标签的映射关系，为后续数据分析模块提供数据源，知识图谱管理子系统提供可视化功能，可进行图谱数据的增删改查；

所述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块，所述的问题理解模块连接用户交互界面，提供用户问题描述模板，用户可在用户交互界面根据模板输入待分析的问题，将用户待分析的问题通过基于模板和深度学习的自然语言处理技术进行语义提取，所述的图查询计算模块利用图算法对知识图谱数据进行查询和数据统计，所述的语义匹配模块利用自然语言处理技术判断图谱数据查询结果是否匹配用户待分析问题，如果匹配则需要纳入统计，否则不纳入；

所述的数据可视化子系统用于数据图表的生成和可视化展现，系统提供数据图表生成模板及管理功能，可根据图表模板读取数据分析子系统统计结果，并连接用户交互界面，用户可进行展示条件筛选，根据数据分析子系统统计结果和用户筛选条件自动生成数据图表；

在本发明一种基于自然语言处理的文本数据统计分析系统中，所述的语料预处理模块包含中文分词技术，该中文分词技术是指包含字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络在内的基础中文分词算法，运用中文分词算法将中文序列切分成单独的词，为知识抽取提供基础。

在本发明一种基于自然语言处理的文本数据统计分析系统中，所述的知识抽取模块中包含有序列标注技术，该序列标注技术是指包含HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络在内的基础序列标注模型，从带标注的文本数据中抽取特征进行序列标注模型训练，用于从连续文本数据中抽取指定意义的文本片段，运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征，再结合传统n-gram特征，使用表示学习优化特征提取，再使用增强学习方式，结合少量标注训练数据提升模型效果，在标注工作完成后，进行文档数据的抽取，用于之后的导入。

在本发明一种基于自然语言处理的文本数据统计分析系统中，所述的语义匹配模块包含语义相似度技术，该语义相似度计算技术是指包含TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络在内的基础语义相似度算法，运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性，用于判断查询结果是否匹配用户待分析问题。

在本发明一种基于自然语言处理的文本数据统计分析系统中，所述的图查询计算模块包含图算法技术，该图算法技术是指遍历算法、搜索算法、最小生成树算法、图匹配算法在内的基础图算法，根据图算法技术进行图谱数据查询，查询结果供语义匹配模型进行判断。

在本发明一种基于自然语言处理的文本数据统计分析系统中，所述的图查询计算模块包含统计计算功能，该统计计算功能包括求和、求差、求平均值、求最大值、求最小值在内的基本统计数学计算，统计计算结果用于图表可视化模块调用。

在本发明一种基于自然语言处理的文本数据统计分析系统中，所述的知识图谱模板利用事先定义的三元组来定义所需抽取的知识图谱的数据。更进一步地，所述的三元组为实体1-关系-实体2，利用实体抽取技术、关系抽取技术、事件抽取技术通过基于深度学习和基于模板的抽取方法，将语料文本内的实体、实体关系、事件等数据进行抽取，形成知识库并储存。

本发明还包括一种基于自然语言处理的文本数据统计分析方法，其特征在于，采用上述的一种基于自然语言处理的文本数据统计分析系统，先通过自然语言处理技术和知识图谱技术构建知识库，再通过智能数据分析和可视化技术实现文本数据统计分析。具体包括如下实现步骤：

第一步：搭建自然语言信息抽取子系统，其中包括语料预处理模块和知识抽取模块，搭建知识图谱管理子系统，其中包括本体构建模块和数据配置模块，搭建数据分析子系统，其中包括问题理解模块、图查询计算模块和语义匹配模块，搭建数据可视化子系统；

第二步：在知识图谱管理子系统本体构建模块完成知识图谱领域、标签、词典和本体的定义；

第三步：上传文档至语料预处理模块，对文档进行格式转换、语料清理、分词、人工打标、去停用词等预处理，预处理后的文本导入知识抽取模块；

第四步：在知识抽取模块对文档内所需输出的数据进行标注，标注完成后，标注数据自动抽取并导入至知识图谱中，通过数据配置模块建立数据与图谱标签的映射关系，为后续数据分析模块提供数据源，可进行图谱数据的增删改查；

第五步：在问题理解模块的问题描述模板中输入待分析的问题，通过基于模板和深度学习的自然语言处理技术进行语义提取；

第六步：图查询计算模块利用图算法对知识图谱数据进行查询，并根据语义匹配模块利用自然语言处理技术判断查询结果是否纳入统计，如果匹配待分析问题则需要纳入统计，否则不纳入；

第七步：数据可视化子系统根据图表生成模板抽取数据统计结果，自动生成数据图表，用户可根据条件进行筛选展示内容。

基于上述技术方案，本发明一种基于自然语言处理的文本数据分析统计系统与现有技术相比具有如下技术优点：

(1)本发明专利提出一种为企业搭建的基于自然语言处理的文本数据统计分析系统，通过利用自然语言处理技术和知识图谱技术建立知识库，再通过智能数据分析和可视化技术实现文本数据统计分析，实现文本文档数据挖掘，指导企业生产经营。

(2)本发明专利通过自然语言处理技术、知识图谱技术和图算法技术，实现同类型文本文档的统一数据管理和关联分析，可进行知识图谱的扩充和更新，同时数据分析结果也进行相应更新。

(3)本发明专利通过智能文本数据分析技术和数据可视化技术，将文本文档数据分析结果自动生成图表直观地展示，增强了数据分析结果的可读性。

附图说明

图1是本发明一种基于自然语言处理的文本数据分析统计系统的组织结构图；

图2是本发明一种基于自然语言处理的文本数据分析统计方法的操作流程示意图。

具体实施方式

下面结合附图和具体的实施实例，进一步阐释本发明，以求更为清楚明了地理解其模块组成和操作流程，但不能以此来限制本发明的保护范围。

如图1所示，图1是本发明一种基于自然语言处理的文本数据分析统计系统的组织结构图，所述的一种基于自然语言处理的文本数据分析统计系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和数据可视化子系统，4个子系统分管不同功能。

上述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块，所述的语料预处理模块用于文档文本的预处理，包括语料导入、格式转换、语料清理、分词、人工打标、去停用词等，所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取，为后续知识图谱构建提供知识数据。

上述的知识图谱管理子系统包括本体构建模块和数据配置模块，所述的本体构建模块用于定义知识图谱的领域、标签、词典和本体，所述的数据配置模块用于知识数据的配置，并建立数据与图谱标签的映射关系，为后续数据分析模块提供数据源，知识图谱管理子系统提供可视化功能，可进行图谱数据的增删改查。

上述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块，所述的问题理解模块连接用户交互界面，提供用户问题描述模板，用户可在用户交互界面根据模板输入待分析的问题，将用户待分析的问题通过基于模板和深度学习的自然语言处理技术进行语义提取，所述的图查询计算模块利用图算法对知识图谱数据进行查询和数据统计，所述的语义匹配模块利用自然语言处理技术判断图谱数据查询结果是否匹配用户待分析问题，如果匹配则需要纳入统计，否则不纳入。

上述的数据可视化子系统用于数据图表的生成和可视化展现，系统提供数据图表生成模板及管理功能，可根据图表模板读取数据分析子系统统计结果，并连接用户交互界面，用户可进行展示条件筛选，根据数据分析子系统统计结果和用户筛选条件自动生成数据图表。

在上述一种基于自然语言处理的文本数据统计分析系统中，所述的语料预处理模块包含中文分词技术，该中文分词技术是指包含字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络在内的基础中文分词算法，运用中文分词算法将中文序列切分成单独的词，为知识抽取提供基础。

在上述一种基于自然语言处理的文本数据统计分析系统中，所述的知识抽取模块中包含有序列标注技术，该序列标注技术是指包含HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络在内的基础序列标注模型，从带标注的文本数据中抽取特征进行序列标注模型训练，用于从连续文本数据中抽取指定意义的文本片段，运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征，再结合传统n-gram特征，使用表示学习优化特征提取，再使用增强学习方式，结合少量标注训练数据提升模型效果，在标注工作完成后，进行文档数据的抽取，用于之后的导入。

在上述一种基于自然语言处理的文本数据统计分析系统中，所述的语义匹配模块包含语义相似度技术，该语义相似度计算技术是指包含TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络在内的基础语义相似度算法，运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性，用于判断查询结果是否匹配用户待分析问题。

在上述一种基于自然语言处理的文本数据统计分析系统中，所述的图查询计算模块包含图算法技术，该图算法技术是指遍历算法、搜索算法、最小生成树算法、图匹配算法在内的基础图算法，根据图算法技术进行图谱数据查询，查询结果供语义匹配模型进行判断。

在上述一种基于自然语言处理的文本数据统计分析系统中，所述的图查询计算模块包含统计计算功能，该统计计算功能包括求和、求差、求平均值、求最大值、求最小值在内的基本统计数学计算，统计计算结果用于图表可视化模块调用。

在上述一种基于自然语言处理的文本数据统计分析系统中，所述的知识图谱模板利用事先定义的三元组来定义所需抽取的知识图谱的数据。更进一步地，所述的三元组为实体1-关系-实体2，利用实体抽取技术、关系抽取技术、事件抽取技术通过基于深度学习和基于模板的抽取方法，将语料文本内的实体、实体关系、事件等数据进行抽取，形成知识库并储存。

作为企业搭建的一种基于自然语言处理的文本数据统计分析系统，通过利用自然语言处理技术和知识图谱技术建立知识库，再通过智能数据分析和可视化技术实现文本数据统计分析，实现文本文档数据挖掘，指导企业生产经营，实现同类型文本文档的统一数据管理和关联分析，可进行知识图谱的扩充和更新，同时数据分析结果也进行相应更新；通过智能文本数据分析技术和数据可视化技术，将文本文档数据分析结果自动生成图表直观地展示，增强了数据分析结果的可读性。

本发明还包括一种基于自然语言处理的文本数据统计分析方法，采用上述的一种基于自然语言处理的文本数据统计分析系统，先通过自然语言处理技术和知识图谱技术构建知识库，再通过智能数据分析和可视化技术实现文本数据统计分析。具体包括如下实现步骤：

第四步：在知识抽取模块中对文档内所需输出的数据进行标注，标注完成后，标注数据自动抽取并导入至知识图谱中，通过数据配置模块建立数据与图谱标签的映射关系，为后续数据分析模块提供数据源，可进行图谱数据的增删改查；

第六步：在图查询计算模块中利用图算法对知识图谱数据进行查询，并根据语义匹配模块利用自然语言处理技术判断查询结果是否纳入统计，如果匹配待分析问题则需要纳入统计，否则不纳入；

Claims

1.一种基于自然语言处理的文本数据统计分析系统，其特征在于，包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和数据可视化子系统，4个子系统分管不同功能：

所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块，所述的语料预处理模块用于文档文本的预处理，包括语料导入、格式转换、语料清理、分词、人工打标、去停用词，所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取，为后续知识图谱构建提供知识数据；

所述的数据可视化子系统用于数据图表的生成和可视化展现，系统提供数据图表生成模板及管理功能，可根据图表模板读取数据分析子系统统计结果，并连接用户交互界面，用户可进行展示条件筛选，根据数据分析子系统统计结果和用户筛选条件自动生成数据图表。

2.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统，其特征在于，所述的语料预处理模块包含中文分词技术，该中文分词技术包括字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络，运用中文分词算法将中文序列切分成单独的词，为知识抽取提供基础。

3.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统，其特征在于，所述的知识抽取模块中包含有序列标注技术，该序列标注技术包括HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络，从带标注的文本数据中抽取特征进行序列标注模型训练，用于从连续文本数据中抽取指定意义的文本片段，运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征，再结合传统n-gram特征，使用表示学习优化特征提取，再使用增强学习方式，结合标注训练数据提升模型效果，在标注工作完成后，进行文档数据的抽取，用于之后的导入。

4.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统，其特征在于，所述的语义匹配模块包含语义相似度技术，该语义相似度技术包括TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络，运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性，用于判断查询结果是否匹配用户待分析问题。

5.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统，其特征在于，所述的图查询计算模块包含图算法技术，该图算法技术包括遍历算法、搜索算法、最小生成树算法、图匹配算法，根据图算法技术进行图谱数据查询，查询结果供语义匹配模型进行判断。

6.根据权利要求5所述的一种基于自然语言处理的文本数据统计分析系统，其特征在于，所述的图查询计算模块还包含统计计算功能，该统计计算功能包括求和、求差、求平均值、求最大值、求最小值，统计计算结果用于图表可视化模块调用。

7.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统，其特征在于，所述的知识抽取模块利用事先定义的三元组来定义所需抽取的知识图谱的数据。

8.一种基于自然语言处理的文本数据统计分析方法，其特征在于，采用权利要求1至7任一项所述的一种基于自然语言处理的文本数据统计分析系统，先通过自然语言处理技术和知识图谱技术构建知识库，再通过智能数据分析和可视化技术实现文本数据统计分析；具体包括如下步骤：

第一步：搭建自然语言信息抽取子系统，其中包括语料预处理模块和知识抽取模块；搭建知识图谱管理子系统，其中包括本体构建模块和数据配置模块；搭建数据分析子系统，其中包括问题理解模块、图查询计算模块和语义匹配模块，搭建数据可视化子系统；

第三步：上传文档至语料预处理模块，对文档进行格式转换、语料清理、分词、人工打标、去停用词的预处理，预处理后的文本导入知识抽取模块；