CN111709235B - 一种基于自然语言处理的文本数据统计分析系统及方法 - Google Patents

一种基于自然语言处理的文本数据统计分析系统及方法 Download PDF

Info

Publication number
CN111709235B
CN111709235B CN202010465823.7A CN202010465823A CN111709235B CN 111709235 B CN111709235 B CN 111709235B CN 202010465823 A CN202010465823 A CN 202010465823A CN 111709235 B CN111709235 B CN 111709235B
Authority
CN
China
Prior art keywords
data
module
graph
knowledge
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010465823.7A
Other languages
English (en)
Other versions
CN111709235A (zh
Inventor
华志刚
郭荣
程卫国
汪勇
沈铭科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Power Equipment Research Institute Co Ltd
Original Assignee
Shanghai Power Equipment Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Power Equipment Research Institute Co Ltd filed Critical Shanghai Power Equipment Research Institute Co Ltd
Priority to CN202010465823.7A priority Critical patent/CN111709235B/zh
Publication of CN111709235A publication Critical patent/CN111709235A/zh
Application granted granted Critical
Publication of CN111709235B publication Critical patent/CN111709235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于自然语言处理的文本数据统计分析系统,该系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和图表可视化子系统:所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块,所述的知识图谱管理子系统包括本体构建模块和数据配置模块,所述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块,所述的数据可视化子系统用于数据图表的生成和可视化展现;还提出一种基于自然语言处理的数据统计分析方法,该方法过利用自然语言处理技术和知识图谱技术建立知识库,再通过智能数据分析和可视化技术实现文本数据统计分析,将文本文档数据分析结果自动生成图表直观地展示,指导企业生产经营。

Description

一种基于自然语言处理的文本数据统计分析系统及方法
技术领域
本发明涉及一种基于自然语言处理的文本数据统计分析系统及方法,属于人工智能技术领域。
背景技术
在企业生产运营过程中形成有大量自然语言形式承载的文本文档,例如技术报告、检查记录、运行日志等等。文本文档中蕴含着丰富的关键数据信息,以电厂历年检修报告为例,“报告中共提到多少种设备”,“报告中提到的设备分别对应多少种故障”,“每种故障数量随着时间是如何变化的”等,而当前大部分上述文本数据信息并没有直接统计成数字形式,而是以文本形式存在,比如“本次检修设备包括汽轮机、锅炉、发电机”,所以本例中检修设备总量的统计结果为3,挖掘类似文本数据信息能对企业生产经营起到重要的指导作用。当前,上述文本数据主要依靠人力通过阅读文本的形式来进行统计,因此会耗费大量的时间。随着文本文档数量的爆炸式增长,人工已经无法满足文本数据分析的需求,再加上企业文本文档的离散化储存,势必导致大量重要的数据信息没有被挖掘而丢失,造成数据资源的浪费。因此,有必要解决企业文本文档数据的统计分析问题,进而提取关键信息指导企业生产运营。
发明内容
本发明的目的在于克服现有技术无法进行文本文档数据统计分析的不足,提供一种基于自然语言处理的文本数据统计分析系统及方法。
为达到上述目的,本发明专利提供的技术方案如下:
一种基于自然语言处理的文本数据统计分析系统,其特征在于,该系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和图表可视化子系统,4个子系统分管不同功能:
所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块,所述的语料预处理模块用于文档文本的预处理,包括语料导入、格式转换、语料清理、分词、人工打标、去停用词等,所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取,为后续知识图谱构建提供知识数据;
所述的知识图谱管理子系统包括本体构建模块和数据配置模块,所述的本体构建模块用于定义知识图谱的领域、标签、词典和本体,所述的数据配置模块用于知识数据的配置,并建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,知识图谱管理子系统提供可视化功能,可进行图谱数据的增删改查;
所述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块,所述的问题理解模块连接用户交互界面,提供用户问题描述模板,用户可在用户交互界面根据模板输入待分析的问题,将用户待分析的问题通过基于模板和深度学习的自然语言处理技术进行语义提取,所述的图查询计算模块利用图算法对知识图谱数据进行查询和数据统计,所述的语义匹配模块利用自然语言处理技术判断图谱数据查询结果是否匹配用户待分析问题,如果匹配则需要纳入统计,否则不纳入;
所述的数据可视化子系统用于数据图表的生成和可视化展现,系统提供数据图表生成模板及管理功能,可根据图表模板读取数据分析子系统统计结果,并连接用户交互界面,用户可进行展示条件筛选,根据数据分析子系统统计结果和用户筛选条件自动生成数据图表;
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的语料预处理模块包含中文分词技术,该中文分词技术是指包含字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络在内的基础中文分词算法,运用中文分词算法将中文序列切分成单独的词,为知识抽取提供基础。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的知识抽取模块中包含有序列标注技术,该序列标注技术是指包含HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络在内的基础序列标注模型,从带标注的文本数据中抽取特征进行序列标注模型训练,用于从连续文本数据中抽取指定意义的文本片段,运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征,再结合传统n-gram特征,使用表示学习优化特征提取,再使用增强学习方式,结合少量标注训练数据提升模型效果,在标注工作完成后,进行文档数据的抽取,用于之后的导入。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的语义匹配模块包含语义相似度技术,该语义相似度计算技术是指包含TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络在内的基础语义相似度算法,运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性,用于判断查询结果是否匹配用户待分析问题。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的图查询计算模块包含图算法技术,该图算法技术是指遍历算法、搜索算法、最小生成树算法、图匹配算法在内的基础图算法,根据图算法技术进行图谱数据查询,查询结果供语义匹配模型进行判断。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的图查询计算模块包含统计计算功能,该统计计算功能包括求和、求差、求平均值、求最大值、求最小值在内的基本统计数学计算,统计计算结果用于图表可视化模块调用。
在本发明一种基于自然语言处理的文本数据统计分析系统中,所述的知识图谱模板利用事先定义的三元组来定义所需抽取的知识图谱的数据。更进一步地,所述的三元组为实体1-关系-实体2,利用实体抽取技术、关系抽取技术、事件抽取技术通过基于深度学习和基于模板的抽取方法,将语料文本内的实体、实体关系、事件等数据进行抽取,形成知识库并储存。
本发明还包括一种基于自然语言处理的文本数据统计分析方法,其特征在于,采用上述的一种基于自然语言处理的文本数据统计分析系统,先通过自然语言处理技术和知识图谱技术构建知识库,再通过智能数据分析和可视化技术实现文本数据统计分析。具体包括如下实现步骤:
第一步:搭建自然语言信息抽取子系统,其中包括语料预处理模块和知识抽取模块,搭建知识图谱管理子系统,其中包括本体构建模块和数据配置模块,搭建数据分析子系统,其中包括问题理解模块、图查询计算模块和语义匹配模块,搭建数据可视化子系统;
第二步:在知识图谱管理子系统本体构建模块完成知识图谱领域、标签、词典和本体的定义;
第三步:上传文档至语料预处理模块,对文档进行格式转换、语料清理、分词、人工打标、去停用词等预处理,预处理后的文本导入知识抽取模块;
第四步:在知识抽取模块对文档内所需输出的数据进行标注,标注完成后,标注数据自动抽取并导入至知识图谱中,通过数据配置模块建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,可进行图谱数据的增删改查;
第五步:在问题理解模块的问题描述模板中输入待分析的问题,通过基于模板和深度学习的自然语言处理技术进行语义提取;
第六步:图查询计算模块利用图算法对知识图谱数据进行查询,并根据语义匹配模块利用自然语言处理技术判断查询结果是否纳入统计,如果匹配待分析问题则需要纳入统计,否则不纳入;
第七步:数据可视化子系统根据图表生成模板抽取数据统计结果,自动生成数据图表,用户可根据条件进行筛选展示内容。
基于上述技术方案,本发明一种基于自然语言处理的文本数据分析统计系统与现有技术相比具有如下技术优点:
(1)本发明专利提出一种为企业搭建的基于自然语言处理的文本数据统计分析系统,通过利用自然语言处理技术和知识图谱技术建立知识库,再通过智能数据分析和可视化技术实现文本数据统计分析,实现文本文档数据挖掘,指导企业生产经营。
(2)本发明专利通过自然语言处理技术、知识图谱技术和图算法技术,实现同类型文本文档的统一数据管理和关联分析,可进行知识图谱的扩充和更新,同时数据分析结果也进行相应更新。
(3)本发明专利通过智能文本数据分析技术和数据可视化技术,将文本文档数据分析结果自动生成图表直观地展示,增强了数据分析结果的可读性。
附图说明
图1是本发明一种基于自然语言处理的文本数据分析统计系统的组织结构图;
图2是本发明一种基于自然语言处理的文本数据分析统计方法的操作流程示意图。
具体实施方式
下面结合附图和具体的实施实例,进一步阐释本发明,以求更为清楚明了地理解其模块组成和操作流程,但不能以此来限制本发明的保护范围。
如图1所示,图1是本发明一种基于自然语言处理的文本数据分析统计系统的组织结构图,所述的一种基于自然语言处理的文本数据分析统计系统包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和数据可视化子系统,4个子系统分管不同功能。
上述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块,所述的语料预处理模块用于文档文本的预处理,包括语料导入、格式转换、语料清理、分词、人工打标、去停用词等,所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取,为后续知识图谱构建提供知识数据。
上述的知识图谱管理子系统包括本体构建模块和数据配置模块,所述的本体构建模块用于定义知识图谱的领域、标签、词典和本体,所述的数据配置模块用于知识数据的配置,并建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,知识图谱管理子系统提供可视化功能,可进行图谱数据的增删改查。
上述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块,所述的问题理解模块连接用户交互界面,提供用户问题描述模板,用户可在用户交互界面根据模板输入待分析的问题,将用户待分析的问题通过基于模板和深度学习的自然语言处理技术进行语义提取,所述的图查询计算模块利用图算法对知识图谱数据进行查询和数据统计,所述的语义匹配模块利用自然语言处理技术判断图谱数据查询结果是否匹配用户待分析问题,如果匹配则需要纳入统计,否则不纳入。
上述的数据可视化子系统用于数据图表的生成和可视化展现,系统提供数据图表生成模板及管理功能,可根据图表模板读取数据分析子系统统计结果,并连接用户交互界面,用户可进行展示条件筛选,根据数据分析子系统统计结果和用户筛选条件自动生成数据图表。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的语料预处理模块包含中文分词技术,该中文分词技术是指包含字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络在内的基础中文分词算法,运用中文分词算法将中文序列切分成单独的词,为知识抽取提供基础。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的知识抽取模块中包含有序列标注技术,该序列标注技术是指包含HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络在内的基础序列标注模型,从带标注的文本数据中抽取特征进行序列标注模型训练,用于从连续文本数据中抽取指定意义的文本片段,运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征,再结合传统n-gram特征,使用表示学习优化特征提取,再使用增强学习方式,结合少量标注训练数据提升模型效果,在标注工作完成后,进行文档数据的抽取,用于之后的导入。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的语义匹配模块包含语义相似度技术,该语义相似度计算技术是指包含TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络在内的基础语义相似度算法,运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性,用于判断查询结果是否匹配用户待分析问题。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的图查询计算模块包含图算法技术,该图算法技术是指遍历算法、搜索算法、最小生成树算法、图匹配算法在内的基础图算法,根据图算法技术进行图谱数据查询,查询结果供语义匹配模型进行判断。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的图查询计算模块包含统计计算功能,该统计计算功能包括求和、求差、求平均值、求最大值、求最小值在内的基本统计数学计算,统计计算结果用于图表可视化模块调用。
在上述一种基于自然语言处理的文本数据统计分析系统中,所述的知识图谱模板利用事先定义的三元组来定义所需抽取的知识图谱的数据。更进一步地,所述的三元组为实体1-关系-实体2,利用实体抽取技术、关系抽取技术、事件抽取技术通过基于深度学习和基于模板的抽取方法,将语料文本内的实体、实体关系、事件等数据进行抽取,形成知识库并储存。
作为企业搭建的一种基于自然语言处理的文本数据统计分析系统,通过利用自然语言处理技术和知识图谱技术建立知识库,再通过智能数据分析和可视化技术实现文本数据统计分析,实现文本文档数据挖掘,指导企业生产经营,实现同类型文本文档的统一数据管理和关联分析,可进行知识图谱的扩充和更新,同时数据分析结果也进行相应更新;通过智能文本数据分析技术和数据可视化技术,将文本文档数据分析结果自动生成图表直观地展示,增强了数据分析结果的可读性。
本发明还包括一种基于自然语言处理的文本数据统计分析方法,采用上述的一种基于自然语言处理的文本数据统计分析系统,先通过自然语言处理技术和知识图谱技术构建知识库,再通过智能数据分析和可视化技术实现文本数据统计分析。具体包括如下实现步骤:
第一步:搭建自然语言信息抽取子系统,其中包括语料预处理模块和知识抽取模块,搭建知识图谱管理子系统,其中包括本体构建模块和数据配置模块,搭建数据分析子系统,其中包括问题理解模块、图查询计算模块和语义匹配模块,搭建数据可视化子系统;
第二步:在知识图谱管理子系统本体构建模块完成知识图谱领域、标签、词典和本体的定义;
第三步:上传文档至语料预处理模块,对文档进行格式转换、语料清理、分词、人工打标、去停用词等预处理,预处理后的文本导入知识抽取模块;
第四步:在知识抽取模块中对文档内所需输出的数据进行标注,标注完成后,标注数据自动抽取并导入至知识图谱中,通过数据配置模块建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,可进行图谱数据的增删改查;
第五步:在问题理解模块的问题描述模板中输入待分析的问题,通过基于模板和深度学习的自然语言处理技术进行语义提取;
第六步:在图查询计算模块中利用图算法对知识图谱数据进行查询,并根据语义匹配模块利用自然语言处理技术判断查询结果是否纳入统计,如果匹配待分析问题则需要纳入统计,否则不纳入;
第七步:数据可视化子系统根据图表生成模板抽取数据统计结果,自动生成数据图表,用户可根据条件进行筛选展示内容。

Claims (8)

1.一种基于自然语言处理的文本数据统计分析系统,其特征在于,包括自然语言信息抽取子系统、知识图谱管理子系统、数据分析子系统和数据可视化子系统,4个子系统分管不同功能:
所述的自然语言信息抽取子系统包括语料预处理模块和知识抽取模块,所述的语料预处理模块用于文档文本的预处理,包括语料导入、格式转换、语料清理、分词、人工打标、去停用词,所述的知识抽取模块将文档利用自然语言处理技术进行文档信息抽取,为后续知识图谱构建提供知识数据;
所述的知识图谱管理子系统包括本体构建模块和数据配置模块,所述的本体构建模块用于定义知识图谱的领域、标签、词典和本体,所述的数据配置模块用于知识数据的配置,并建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,知识图谱管理子系统提供可视化功能,可进行图谱数据的增删改查;
所述的数据分析子系统包括问题理解模块、图查询计算模块和语义匹配模块,所述的问题理解模块连接用户交互界面,提供用户问题描述模板,用户可在用户交互界面根据模板输入待分析的问题,将用户待分析的问题通过基于模板和深度学习的自然语言处理技术进行语义提取,所述的图查询计算模块利用图算法对知识图谱数据进行查询和数据统计,所述的语义匹配模块利用自然语言处理技术判断图谱数据查询结果是否匹配用户待分析问题,如果匹配则需要纳入统计,否则不纳入;
所述的数据可视化子系统用于数据图表的生成和可视化展现,系统提供数据图表生成模板及管理功能,可根据图表模板读取数据分析子系统统计结果,并连接用户交互界面,用户可进行展示条件筛选,根据数据分析子系统统计结果和用户筛选条件自动生成数据图表。
2.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的语料预处理模块包含中文分词技术,该中文分词技术包括字符串匹配分词算法、HMM隐马尔可夫模型、CRF条件随机场、SVM支持向量机和RNN循环神经网络,运用中文分词算法将中文序列切分成单独的词,为知识抽取提供基础。
3.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的知识抽取模块中包含有序列标注技术,该序列标注技术包括HMM隐马尔可夫模型、MaxEnt最大熵模型、CRF条件随机场、RNN循环神经网络和CNN卷积神经网络,从带标注的文本数据中抽取特征进行序列标注模型训练,用于从连续文本数据中抽取指定意义的文本片段,运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征,再结合传统n-gram特征,使用表示学习优化特征提取,再使用增强学习方式,结合标注训练数据提升模型效果,在标注工作完成后,进行文档数据的抽取,用于之后的导入。
4.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的语义匹配模块包含语义相似度技术,该语义相似度技术包括TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷积神经网络和RNN循环神经网络,运用语义相似度技术计算用户待分析问题模板抽取的指定文本段和利用图算法查询的图谱数据两者之间的语义相似性,用于判断查询结果是否匹配用户待分析问题。
5.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的图查询计算模块包含图算法技术,该图算法技术包括遍历算法、搜索算法、最小生成树算法、图匹配算法,根据图算法技术进行图谱数据查询,查询结果供语义匹配模型进行判断。
6.根据权利要求5所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的图查询计算模块还包含统计计算功能,该统计计算功能包括求和、求差、求平均值、求最大值、求最小值,统计计算结果用于图表可视化模块调用。
7.根据权利要求1所述的一种基于自然语言处理的文本数据统计分析系统,其特征在于,所述的知识抽取模块利用事先定义的三元组来定义所需抽取的知识图谱的数据。
8.一种基于自然语言处理的文本数据统计分析方法,其特征在于,采用权利要求1至7任一项所述的一种基于自然语言处理的文本数据统计分析系统,先通过自然语言处理技术和知识图谱技术构建知识库,再通过智能数据分析和可视化技术实现文本数据统计分析;具体包括如下步骤:
第一步:搭建自然语言信息抽取子系统,其中包括语料预处理模块和知识抽取模块;搭建知识图谱管理子系统,其中包括本体构建模块和数据配置模块;搭建数据分析子系统,其中包括问题理解模块、图查询计算模块和语义匹配模块,搭建数据可视化子系统;
第二步:在知识图谱管理子系统本体构建模块完成知识图谱领域、标签、词典和本体的定义;
第三步:上传文档至语料预处理模块,对文档进行格式转换、语料清理、分词、人工打标、去停用词的预处理,预处理后的文本导入知识抽取模块;
第四步:在知识抽取模块对文档内所需输出的数据进行标注,标注完成后,标注数据自动抽取并导入至知识图谱中,通过数据配置模块建立数据与图谱标签的映射关系,为后续数据分析模块提供数据源,可进行图谱数据的增删改查;
第五步:在问题理解模块的问题描述模板中输入待分析的问题,通过基于模板和深度学习的自然语言处理技术进行语义提取;
第六步:图查询计算模块利用图算法对知识图谱数据进行查询,并根据语义匹配模块利用自然语言处理技术判断查询结果是否纳入统计,如果匹配待分析问题则需要纳入统计,否则不纳入;
第七步:数据可视化子系统根据图表生成模板抽取数据统计结果,自动生成数据图表,用户可根据条件进行筛选展示内容。
CN202010465823.7A 2020-05-28 2020-05-28 一种基于自然语言处理的文本数据统计分析系统及方法 Active CN111709235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010465823.7A CN111709235B (zh) 2020-05-28 2020-05-28 一种基于自然语言处理的文本数据统计分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010465823.7A CN111709235B (zh) 2020-05-28 2020-05-28 一种基于自然语言处理的文本数据统计分析系统及方法

Publications (2)

Publication Number Publication Date
CN111709235A CN111709235A (zh) 2020-09-25
CN111709235B true CN111709235B (zh) 2023-10-20

Family

ID=72538423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010465823.7A Active CN111709235B (zh) 2020-05-28 2020-05-28 一种基于自然语言处理的文本数据统计分析系统及方法

Country Status (1)

Country Link
CN (1) CN111709235B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672599B (zh) * 2020-09-30 2023-05-23 华斌 政务信息化项目建设管理的可视化辅助决策方法
CN112182248A (zh) * 2020-10-19 2021-01-05 深圳供电局有限公司 一种电价的关键政策的统计方法
CN112270189B (zh) * 2020-11-12 2023-07-18 佰聆数据股份有限公司 一种提问式的分析节点生成方法、系统及存储介质
CN112417835B (zh) * 2020-11-18 2023-11-14 云南电网有限责任公司信息中心 基于自然语言处理技术的采购文件智能化审查方法及系统
CN112612906B (zh) * 2020-12-29 2022-01-11 广东电网有限责任公司中山供电局 一种基于最大熵模型的规则知识图谱构建方法及系统
CN112732743B (zh) * 2021-01-12 2023-09-22 北京久其软件股份有限公司 一种基于中文自然语言的数据分析方法及装置
CN113377739A (zh) * 2021-05-19 2021-09-10 朗新科技集团股份有限公司 知识图谱应用方法、平台、电子设备及存储介质
CN115438142B (zh) * 2021-06-02 2023-07-11 戎易商智(北京)科技有限公司 一种对话式交互数据分析报告系统
CN114547305A (zh) * 2022-02-24 2022-05-27 金华高等研究院(金华理工学院筹建工作领导小组办公室) 一种基于自然语言处理的文本分类系统
CN116205601B (zh) * 2023-02-27 2024-04-05 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与系统
CN116663534A (zh) * 2023-08-02 2023-08-29 中国标准化研究院 一种基于自然语言处理的文本数据统计分析系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815307A (zh) * 2016-12-16 2017-06-09 中国科学院自动化研究所 公共文化知识图谱平台及其使用办法
WO2017212268A1 (en) * 2016-06-08 2017-12-14 Blippar.Com Limited Data processing system and data processing method
CN108596439A (zh) * 2018-03-29 2018-09-28 北京中兴通网络科技股份有限公司 一种基于知识图谱的企业风险预测方法及系统
CN110245240A (zh) * 2019-05-31 2019-09-17 国网电子商务有限公司 一种问题数据答案的确定方法及装置
CN110472066A (zh) * 2019-08-07 2019-11-19 北京大学 一种城市地理语义知识图谱的构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212268A1 (en) * 2016-06-08 2017-12-14 Blippar.Com Limited Data processing system and data processing method
CN106815307A (zh) * 2016-12-16 2017-06-09 中国科学院自动化研究所 公共文化知识图谱平台及其使用办法
CN108596439A (zh) * 2018-03-29 2018-09-28 北京中兴通网络科技股份有限公司 一种基于知识图谱的企业风险预测方法及系统
CN110245240A (zh) * 2019-05-31 2019-09-17 国网电子商务有限公司 一种问题数据答案的确定方法及装置
CN110472066A (zh) * 2019-08-07 2019-11-19 北京大学 一种城市地理语义知识图谱的构建方法

Also Published As

Publication number Publication date
CN111709235A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111709235B (zh) 一种基于自然语言处理的文本数据统计分析系统及方法
CN110825882B (zh) 一种基于知识图谱的信息系统管理方法
CN109446221B (zh) 一种基于语义分析的交互式数据探查方法
CN110134724A (zh) 一种建筑信息模型的数据智能提取与显示系统及方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN110287482A (zh) 半自动化分词语料标注训练装置
CN114186533A (zh) 模型训练方法及装置、知识抽取方法及装置、设备和介质
CN111339318B (zh) 基于深度学习的大学计算机基础知识图谱构建方法
CN111143571A (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN113971210B (zh) 一种数据字典生成方法、装置、电子设备及存储介质
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN111209362A (zh) 基于深度学习的地址数据解析方法
CN117131856A (zh) 一种基于问题引导的交通事故文本因果关系抽取方法
CN113626596B (zh) 基于深度学习的地铁设计规范文本分析和语料库构建方法
CN116108175A (zh) 基于语义解析和数据构造的语言转化方法及系统
CN112488593B (zh) 一种用于招标的辅助评标系统及方法
Liu et al. Knowledge Graph Construction and Application of Spatial Arrangement of Underground Powerhouse
CN114386427A (zh) 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质
CN113672734A (zh) 一种基于深度学习复合模型的长文本分类方法
CN109492100A (zh) 一种非结构信息处理与资源管理系统
Wang Automatic Scoring of English Online Translation Based on Machine Learning Algorithm
CN116663534A (zh) 一种基于自然语言处理的文本数据统计分析系统及方法
Fan et al. Research on Fusion of Electric Power Industry and External Data Based on Knowledge Map
CN115455196A (zh) 一种基于rfpc概念设计框架的设计图谱构建方法
Gong et al. Construction of Knowledge Graph of Pumping Wells Based on Improved BERT Model of Joint Information Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant