CN111709235B - 一种基于自然语言处理的文本数据统计分析系统及方法 - Google Patents
一种基于自然语言处理的文本数据统计分析系统及方法 Download PDFInfo
- Publication number
- CN111709235B CN111709235B CN202010465823.7A CN202010465823A CN111709235B CN 111709235 B CN111709235 B CN 111709235B CN 202010465823 A CN202010465823 A CN 202010465823A CN 111709235 B CN111709235 B CN 111709235B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- graph
- knowledge
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 53
- 238000007619 statistical method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 63
- 238000000605 extraction Methods 0.000 claims abstract description 53
- 238000007405 data analysis Methods 0.000 claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000007726 management method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000010276 construction Methods 0.000 claims abstract description 16
- 238000013079 data visualisation Methods 0.000 claims abstract description 16
- 238000012800 visualization Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 54
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000007792 addition Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000004382 visual function Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 abstract 1
- 238000012098 association analyses Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于自然语言处理的文本数据统计分析系统,该系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和图表可视化子系统:所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块,所述的知识图谱管理子系统包括本体构建模块和数据配置模块,所述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块,所述的数据可视化子系统用于数据图表的生成和可视化展现;还提出一种基于自然语言处理的数据统计分析方法,该方法过利用自然语言处理技术和知识图谱技术建立知识库,再通过智能数据分析和可视化技术实现文本数据统计分析,将文本文档数据分析结果自动生成图表直观地展示,指导企业生产经营。
Description
技术领域
本发明涉及一种基于自然语言处理的文本数据统计分析系统及方法,属于人工智能技术领域。
背景技术
在企业生产运营过程中形成有大量自然语言形式承载的文本文档,例如技术报告、检查记录、运行日志等等。文本文档中蕴含着丰富的关键数据信息,以电厂历年检修报告为例,“报告中共提到多少种设备”,“报告中提到的设备分别对应多少种故障”,“每种故障数量随着时间是如何变化的”等,而当前大部分上述文本数据信息并没有直接统计成数字形式,而是以文本形式存在,比如“本次检修设备包括汽轮机、锅炉、发电机”,所以本例中检修设备总量的统计结果为3,挖掘类似文本数据信息能对企业生产经营起到重要的指导作用。当前,上述文本数据主要依靠人力通过阅读文本的形式来进行统计,因此会耗费大量的时间。随着文本文档数量的爆炸式增长,人工已经无法满足文本数据分析的需求,再加上企业文本文档的离散化储存,势必导致大量重要的数据信息没有被挖掘而丢失,造成数据资源的浪费。因此,有必要解决企业文本文档数据的统计分析问题,进而提取关键信息指导企业生产运营。
发明内容
本发明的目的在于克服现有技术无法进行文本文档数据统计分析的不足,提供一种基于自然语言处理的文本数据统计分析系统及方法。
为达到上述目的,本发明专利提供的技术方案如下:
一种基于自然语言处理的文本数据统计分析系统,其特征在于,该系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和图表可视化子系统,4个子系统分管不同功能:
所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块,所述的语料预处理模块用于文档文本的预处理,包括语料导入、格式转换、语料清理、分词、人工打标、去停用词等,所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取,为后续知识图谱构建提供知识数据;
所述的知识图谱管理子系统包括本体构建模块和数据配置模块,所述的本体构建模块用于定义知识图谱的领域、标签、词典和本体,所述的数据配置模块用于知识数据的配置,并建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,知识图谱管理子系统提供可视化功能,可进行图谱数据的增删改查;
所述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块,所述的问题理解模块连接用户交互界面,提供用户问题描述模板,用户可在用户交互界面根据模板输入待分析的问题,将用户待分析的问题通过基于模板和深度学习的自然语言处理技术进行语义提取,所述的图查询计算模块利用图算法对知识图谱数据进行查询和数据统计,所述的语义匹配模块利用自然语言处理技术判断图谱数据查询结果是否匹配用户待分析问题,如果匹配则需要纳入统计,否则不纳入;
所述的数据可视化子系统用于数据图表的生成和可视化展现,系统提供数据图表生成模板及管理功能,可根据图表模板读取数据分析子系统统计结果,并连接用户交互界面,用户可进行展示条件筛选,根据数据分析子系统统计结果和用户筛选条件自动生成数据图表;
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的语料预处理模块包含中文分词技术,该中文分词技术是指包含字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络在内的基础中文分词算法,运用中文分词算法将中文序列切分成单独的词,为知识抽取提供基础。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的知识抽取模块中包含有序列标注技术,该序列标注技术是指包含HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络在内的基础序列标注模型,从带标注的文本数据中抽取特征进行序列标注模型训练,用于从连续文本数据中抽取指定意义的文本片段,运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征,再结合传统n-gram特征,使用表示学习优化特征提取,再使用增强学习方式,结合少量标注训练数据提升模型效果,在标注工作完成后,进行文档数据的抽取,用于之后的导入。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的语义匹配模块包含语义相似度技术,该语义相似度计算技术是指包含TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络在内的基础语义相似度算法,运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性,用于判断查询结果是否匹配用户待分析问题。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的图查询计算模块包含图算法技术,该图算法技术是指遍历算法、搜索算法、最小生成树算法、图匹配算法在内的基础图算法,根据图算法技术进行图谱数据查询,查询结果供语义匹配模型进行判断。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的图查询计算模块包含统计计算功能,该统计计算功能包括求和、求差、求平均值、求最大值、求最小值在内的基本统计数学计算,统计计算结果用于图表可视化模块调用。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的知识图谱模板利用事先定义的三元组来定义所需抽取的知识图谱的数据。更进一步地,所述的三元组为实体1-关系-实体2,利用实体抽取技术、关系抽取技术、事件抽取技术通过基于深度学习和基于模板的抽取方法,将语料文本内的实体、实体关系、事件等数据进行抽取,形成知识库并储存。
本发明还包括一种基于自然语言处理的文本数据统计分析方法,其特征在于,采用上述的一种基于自然语言处理的文本数据统计分析系统,先通过自然语言处理技术和知识图谱技术构建知识库,再通过智能数据分析和可视化技术实现文本数据统计分析。具体包括如下实现步骤:
第一步:搭建自然语言信息抽取子系统,其中包括语料预处理模块和知识抽取模块,搭建知识图谱管理子系统,其中包括本体构建模块和数据配置模块,搭建数据分析子系统,其中包括问题理解模块、图查询计算模块和语义匹配模块,搭建数据可视化子系统;
第二步:在知识图谱管理子系统本体构建模块完成知识图谱领域、标签、词典和本体的定义;
第三步:上传文档至语料预处理模块,对文档进行格式转换、语料清理、分词、人工打标、去停用词等预处理,预处理后的文本导入知识抽取模块;
第四步:在知识抽取模块对文档内所需输出的数据进行标注,标注完成后,标注数据自动抽取并导入至知识图谱中,通过数据配置模块建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,可进行图谱数据的增删改查;
第五步:在问题理解模块的问题描述模板中输入待分析的问题,通过基于模板和深度学习的自然语言处理技术进行语义提取;
第六步:图查询计算模块利用图算法对知识图谱数据进行查询,并根据语义匹配模块利用自然语言处理技术判断查询结果是否纳入统计,如果匹配待分析问题则需要纳入统计,否则不纳入;
第七步:数据可视化子系统根据图表生成模板抽取数据统计结果,自动生成数据图表,用户可根据条件进行筛选展示内容。
基于上述技术方案,本发明一种基于自然语言处理的文本数据分析统计系统与现有技术相比具有如下技术优点:
(1)本发明专利提出一种为企业搭建的基于自然语言处理的文本数据统计分析系统,通过利用自然语言处理技术和知识图谱技术建立知识库,再通过智能数据分析和可视化技术实现文本数据统计分析,实现文本文档数据挖掘,指导企业生产经营。
(2)本发明专利通过自然语言处理技术、知识图谱技术和图算法技术,实现同类型文本文档的统一数据管理和关联分析,可进行知识图谱的扩充和更新,同时数据分析结果也进行相应更新。
(3)本发明专利通过智能文本数据分析技术和数据可视化技术,将文本文档数据分析结果自动生成图表直观地展示,增强了数据分析结果的可读性。
附图说明
图1是本发明一种基于自然语言处理的文本数据分析统计系统的组织结构图;
图2是本发明一种基于自然语言处理的文本数据分析统计方法的操作流程示意图。
具体实施方式
下面结合附图和具体的实施实例,进一步阐释本发明,以求更为清楚明了地理解其模块组成和操作流程,但不能以此来限制本发明的保护范围。
如图1所示,图1是本发明一种基于自然语言处理的文本数据分析统计系统的组织结构图,所述的一种基于自然语言处理的文本数据分析统计系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和数据可视化子系统,4个子系统分管不同功能。
上述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块,所述的语料预处理模块用于文档文本的预处理,包括语料导入、格式转换、语料清理、分词、人工打标、去停用词等,所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取,为后续知识图谱构建提供知识数据。
上述的知识图谱管理子系统包括本体构建模块和数据配置模块,所述的本体构建模块用于定义知识图谱的领域、标签、词典和本体,所述的数据配置模块用于知识数据的配置,并建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,知识图谱管理子系统提供可视化功能,可进行图谱数据的增删改查。
上述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块,所述的问题理解模块连接用户交互界面,提供用户问题描述模板,用户可在用户交互界面根据模板输入待分析的问题,将用户待分析的问题通过基于模板和深度学习的自然语言处理技术进行语义提取,所述的图查询计算模块利用图算法对知识图谱数据进行查询和数据统计,所述的语义匹配模块利用自然语言处理技术判断图谱数据查询结果是否匹配用户待分析问题,如果匹配则需要纳入统计,否则不纳入。
上述的数据可视化子系统用于数据图表的生成和可视化展现,系统提供数据图表生成模板及管理功能,可根据图表模板读取数据分析子系统统计结果,并连接用户交互界面,用户可进行展示条件筛选,根据数据分析子系统统计结果和用户筛选条件自动生成数据图表。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的语料预处理模块包含中文分词技术,该中文分词技术是指包含字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络在内的基础中文分词算法,运用中文分词算法将中文序列切分成单独的词,为知识抽取提供基础。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的知识抽取模块中包含有序列标注技术,该序列标注技术是指包含HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络在内的基础序列标注模型,从带标注的文本数据中抽取特征进行序列标注模型训练,用于从连续文本数据中抽取指定意义的文本片段,运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征,再结合传统n-gram特征,使用表示学习优化特征提取,再使用增强学习方式,结合少量标注训练数据提升模型效果,在标注工作完成后,进行文档数据的抽取,用于之后的导入。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的语义匹配模块包含语义相似度技术,该语义相似度计算技术是指包含TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络在内的基础语义相似度算法,运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性,用于判断查询结果是否匹配用户待分析问题。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的图查询计算模块包含图算法技术,该图算法技术是指遍历算法、搜索算法、最小生成树算法、图匹配算法在内的基础图算法,根据图算法技术进行图谱数据查询,查询结果供语义匹配模型进行判断。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的图查询计算模块包含统计计算功能,该统计计算功能包括求和、求差、求平均值、求最大值、求最小值在内的基本统计数学计算,统计计算结果用于图表可视化模块调用。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的知识图谱模板利用事先定义的三元组来定义所需抽取的知识图谱的数据。更进一步地,所述的三元组为实体1-关系-实体2,利用实体抽取技术、关系抽取技术、事件抽取技术通过基于深度学习和基于模板的抽取方法,将语料文本内的实体、实体关系、事件等数据进行抽取,形成知识库并储存。
作为企业搭建的一种基于自然语言处理的文本数据统计分析系统,通过利用自然语言处理技术和知识图谱技术建立知识库,再通过智能数据分析和可视化技术实现文本数据统计分析,实现文本文档数据挖掘,指导企业生产经营,实现同类型文本文档的统一数据管理和关联分析,可进行知识图谱的扩充和更新,同时数据分析结果也进行相应更新;通过智能文本数据分析技术和数据可视化技术,将文本文档数据分析结果自动生成图表直观地展示,增强了数据分析结果的可读性。
本发明还包括一种基于自然语言处理的文本数据统计分析方法,采用上述的一种基于自然语言处理的文本数据统计分析系统,先通过自然语言处理技术和知识图谱技术构建知识库,再通过智能数据分析和可视化技术实现文本数据统计分析。具体包括如下实现步骤:
第一步:搭建自然语言信息抽取子系统,其中包括语料预处理模块和知识抽取模块,搭建知识图谱管理子系统,其中包括本体构建模块和数据配置模块,搭建数据分析子系统,其中包括问题理解模块、图查询计算模块和语义匹配模块,搭建数据可视化子系统;
第二步:在知识图谱管理子系统本体构建模块完成知识图谱领域、标签、词典和本体的定义;
第三步:上传文档至语料预处理模块,对文档进行格式转换、语料清理、分词、人工打标、去停用词等预处理,预处理后的文本导入知识抽取模块;
第四步:在知识抽取模块中对文档内所需输出的数据进行标注,标注完成后,标注数据自动抽取并导入至知识图谱中,通过数据配置模块建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,可进行图谱数据的增删改查;
第五步:在问题理解模块的问题描述模板中输入待分析的问题,通过基于模板和深度学习的自然语言处理技术进行语义提取;
第六步:在图查询计算模块中利用图算法对知识图谱数据进行查询,并根据语义匹配模块利用自然语言处理技术判断查询结果是否纳入统计,如果匹配待分析问题则需要纳入统计,否则不纳入;
第七步:数据可视化子系统根据图表生成模板抽取数据统计结果,自动生成数据图表,用户可根据条件进行筛选展示内容。
Claims (8)
1.一种基于自然语言处理的文本数据统计分析系统,其特征在于,包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和数据可视化子系统,4个子系统分管不同功能:
所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块,所述的语料预处理模块用于文档文本的预处理,包括语料导入、格式转换、语料清理、分词、人工打标、去停用词,所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取,为后续知识图谱构建提供知识数据;
所述的知识图谱管理子系统包括本体构建模块和数据配置模块,所述的本体构建模块用于定义知识图谱的领域、标签、词典和本体,所述的数据配置模块用于知识数据的配置,并建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,知识图谱管理子系统提供可视化功能,可进行图谱数据的增删改查;
所述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块,所述的问题理解模块连接用户交互界面,提供用户问题描述模板,用户可在用户交互界面根据模板输入待分析的问题,将用户待分析的问题通过基于模板和深度学习的自然语言处理技术进行语义提取,所述的图查询计算模块利用图算法对知识图谱数据进行查询和数据统计,所述的语义匹配模块利用自然语言处理技术判断图谱数据查询结果是否匹配用户待分析问题,如果匹配则需要纳入统计,否则不纳入;
所述的数据可视化子系统用于数据图表的生成和可视化展现,系统提供数据图表生成模板及管理功能,可根据图表模板读取数据分析子系统统计结果,并连接用户交互界面,用户可进行展示条件筛选,根据数据分析子系统统计结果和用户筛选条件自动生成数据图表。
2.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的语料预处理模块包含中文分词技术,该中文分词技术包括字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络,运用中文分词算法将中文序列切分成单独的词,为知识抽取提供基础。
3.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的知识抽取模块中包含有序列标注技术,该序列标注技术包括HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络,从带标注的文本数据中抽取特征进行序列标注模型训练,用于从连续文本数据中抽取指定意义的文本片段,运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征,再结合传统n-gram特征,使用表示学习优化特征提取,再使用增强学习方式,结合标注训练数据提升模型效果,在标注工作完成后,进行文档数据的抽取,用于之后的导入。
4.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的语义匹配模块包含语义相似度技术,该语义相似度技术包括TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络,运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性,用于判断查询结果是否匹配用户待分析问题。
5.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的图查询计算模块包含图算法技术,该图算法技术包括遍历算法、搜索算法、最小生成树算法、图匹配算法,根据图算法技术进行图谱数据查询,查询结果供语义匹配模型进行判断。
6.根据权利要求5所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的图查询计算模块还包含统计计算功能,该统计计算功能包括求和、求差、求平均值、求最大值、求最小值,统计计算结果用于图表可视化模块调用。
7.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的知识抽取模块利用事先定义的三元组来定义所需抽取的知识图谱的数据。
8.一种基于自然语言处理的文本数据统计分析方法,其特征在于,采用权利要求1至7任一项所述的一种基于自然语言处理的文本数据统计分析系统,先通过自然语言处理技术和知识图谱技术构建知识库,再通过智能数据分析和可视化技术实现文本数据统计分析;具体包括如下步骤:
第一步:搭建自然语言信息抽取子系统,其中包括语料预处理模块和知识抽取模块;搭建知识图谱管理子系统,其中包括本体构建模块和数据配置模块;搭建数据分析子系统,其中包括问题理解模块、图查询计算模块和语义匹配模块,搭建数据可视化子系统;
第二步:在知识图谱管理子系统本体构建模块完成知识图谱领域、标签、词典和本体的定义;
第三步:上传文档至语料预处理模块,对文档进行格式转换、语料清理、分词、人工打标、去停用词的预处理,预处理后的文本导入知识抽取模块;
第四步:在知识抽取模块对文档内所需输出的数据进行标注,标注完成后,标注数据自动抽取并导入至知识图谱中,通过数据配置模块建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,可进行图谱数据的增删改查;
第五步:在问题理解模块的问题描述模板中输入待分析的问题,通过基于模板和深度学习的自然语言处理技术进行语义提取;
第六步:图查询计算模块利用图算法对知识图谱数据进行查询,并根据语义匹配模块利用自然语言处理技术判断查询结果是否纳入统计,如果匹配待分析问题则需要纳入统计,否则不纳入;
第七步:数据可视化子系统根据图表生成模板抽取数据统计结果,自动生成数据图表,用户可根据条件进行筛选展示内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010465823.7A CN111709235B (zh) | 2020-05-28 | 2020-05-28 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010465823.7A CN111709235B (zh) | 2020-05-28 | 2020-05-28 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709235A CN111709235A (zh) | 2020-09-25 |
CN111709235B true CN111709235B (zh) | 2023-10-20 |
Family
ID=72538423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010465823.7A Active CN111709235B (zh) | 2020-05-28 | 2020-05-28 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709235B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113672599B (zh) * | 2020-09-30 | 2023-05-23 | 华斌 | 政务信息化项目建设管理的可视化辅助决策方法 |
CN112182248A (zh) * | 2020-10-19 | 2021-01-05 | 深圳供电局有限公司 | 一种电价的关键政策的统计方法 |
CN112270189B (zh) * | 2020-11-12 | 2023-07-18 | 佰聆数据股份有限公司 | 一种提问式的分析节点生成方法、系统及存储介质 |
CN112417835B (zh) * | 2020-11-18 | 2023-11-14 | 云南电网有限责任公司信息中心 | 基于自然语言处理技术的采购文件智能化审查方法及系统 |
CN112612906B (zh) * | 2020-12-29 | 2022-01-11 | 广东电网有限责任公司中山供电局 | 一种基于最大熵模型的规则知识图谱构建方法及系统 |
CN112732743B (zh) * | 2021-01-12 | 2023-09-22 | 北京久其软件股份有限公司 | 一种基于中文自然语言的数据分析方法及装置 |
CN113377739A (zh) * | 2021-05-19 | 2021-09-10 | 朗新科技集团股份有限公司 | 知识图谱应用方法、平台、电子设备及存储介质 |
CN115438142B (zh) * | 2021-06-02 | 2023-07-11 | 戎易商智(北京)科技有限公司 | 一种对话式交互数据分析报告系统 |
CN114547305A (zh) * | 2022-02-24 | 2022-05-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种基于自然语言处理的文本分类系统 |
CN116205601B (zh) * | 2023-02-27 | 2024-04-05 | 开元数智工程咨询集团有限公司 | 基于互联网的工程清单复核及数据统计方法与系统 |
CN116663534A (zh) * | 2023-08-02 | 2023-08-29 | 中国标准化研究院 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815307A (zh) * | 2016-12-16 | 2017-06-09 | 中国科学院自动化研究所 | 公共文化知识图谱平台及其使用办法 |
WO2017212268A1 (en) * | 2016-06-08 | 2017-12-14 | Blippar.Com Limited | Data processing system and data processing method |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN110245240A (zh) * | 2019-05-31 | 2019-09-17 | 国网电子商务有限公司 | 一种问题数据答案的确定方法及装置 |
CN110472066A (zh) * | 2019-08-07 | 2019-11-19 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
-
2020
- 2020-05-28 CN CN202010465823.7A patent/CN111709235B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017212268A1 (en) * | 2016-06-08 | 2017-12-14 | Blippar.Com Limited | Data processing system and data processing method |
CN106815307A (zh) * | 2016-12-16 | 2017-06-09 | 中国科学院自动化研究所 | 公共文化知识图谱平台及其使用办法 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN110245240A (zh) * | 2019-05-31 | 2019-09-17 | 国网电子商务有限公司 | 一种问题数据答案的确定方法及装置 |
CN110472066A (zh) * | 2019-08-07 | 2019-11-19 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111709235A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709235B (zh) | 一种基于自然语言处理的文本数据统计分析系统及方法 | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN109446221B (zh) | 一种基于语义分析的交互式数据探查方法 | |
CN110134724A (zh) | 一种建筑信息模型的数据智能提取与显示系统及方法 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN110287482A (zh) | 半自动化分词语料标注训练装置 | |
CN114186533A (zh) | 模型训练方法及装置、知识抽取方法及装置、设备和介质 | |
CN111339318B (zh) | 基于深度学习的大学计算机基础知识图谱构建方法 | |
CN111143571A (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN113971210B (zh) | 一种数据字典生成方法、装置、电子设备及存储介质 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN111209362A (zh) | 基于深度学习的地址数据解析方法 | |
CN117131856A (zh) | 一种基于问题引导的交通事故文本因果关系抽取方法 | |
CN113626596B (zh) | 基于深度学习的地铁设计规范文本分析和语料库构建方法 | |
CN116108175A (zh) | 基于语义解析和数据构造的语言转化方法及系统 | |
CN112488593B (zh) | 一种用于招标的辅助评标系统及方法 | |
Liu et al. | Knowledge Graph Construction and Application of Spatial Arrangement of Underground Powerhouse | |
CN114386427A (zh) | 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质 | |
CN113672734A (zh) | 一种基于深度学习复合模型的长文本分类方法 | |
CN109492100A (zh) | 一种非结构信息处理与资源管理系统 | |
Wang | Automatic Scoring of English Online Translation Based on Machine Learning Algorithm | |
CN116663534A (zh) | 一种基于自然语言处理的文本数据统计分析系统及方法 | |
Fan et al. | Research on Fusion of Electric Power Industry and External Data Based on Knowledge Map | |
CN115455196A (zh) | 一种基于rfpc概念设计框架的设计图谱构建方法 | |
Gong et al. | Construction of Knowledge Graph of Pumping Wells Based on Improved BERT Model of Joint Information Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |