CN113515939A

CN113515939A - 一种勘察报告文本关键信息提取系统和提取方法

Info

Publication number: CN113515939A
Application number: CN202110459258.8A
Authority: CN
Inventors: 何敏; 徐永辉; 朱记伟; 赵钦; 姚旭豪; 王跃祺; 王妥; 齐程程; 季文静; 任姿徉; 陈阳凤; 包磊
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-10-19
Anticipated expiration: 2041-04-27
Also published as: CN113515939B

Abstract

本发明公开了一种勘察报告文本关键信息提取系统，包括依次电信号连接的文本输入模块、文本预处理模块、TF‑IDF计算模块、文本信息改进模块、关键词输出模块以及查找定位关键信息模块。本发明的一种勘察报告文本关键信息提取系统，对现有TF‑IDF算法进行优化使其准确度大大提高，实现了勘察报告规范文本的关键信息自动输出。本发明还公开了一种勘察报告文本关键信息提取方法。

Description

一种勘察报告文本关键信息提取系统和提取方法

技术领域

本发明属于勘察报告关键信息提取技术领域，涉及一种勘察报告文本关键信息提取系统，本发明还涉及一种勘察报告文本关键信息提取方法。

背景技术

随着我国土木建筑行业的快速发展，出现了工程项目参与单位多、项目地点分散、建设周期长等特点，使得在项目建设过程中，管理者对管理信息的获取和分析存在诸多困难。对于项目管理者而言，文字信息的表达障碍，数量种类繁多和阅读遗漏问题常常导致建设过程中信息的可理解性下降，难以清晰地表达工程实际情况以及各种复杂信息的动态变化。加之随着各种各样形态各异的建筑物出现，相应的出现了许多规范用以保证建筑物的安全性和实用性等。导致了本就信息繁多的建筑行业规范条目更多，这就使得建筑行业从业者在实际工作中查询和使用规范变得相当麻烦。因此如何通过分析各种规范条目的特点和内在规律使得项目管理者能够便捷清晰的获得相关信息就变的势在必行了。

近年来，随着信息可视化技术的出现，枯燥乏味的数据能够变成简明直观的图形、图像，帮助管理者从各个抽象数据集中迅速提取出有价值的项目管理信息，探寻不同数据集之间的联系。但是与之相关的基础信息提取的算法却不多且不能够完全体现使用者的想法。TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。但TF-IDF算法也存在一定的缺点，例如对同一个实体含义的同义化表述不能做到归一化处理，同时未考虑到短语或词语所处的位置信息，比如我们通常认为段尾的信息的重要度一般高于段首或段中等。

发明内容

本发明的目的是提供一种勘察报告文本关键信息提取系统，对现有TF-IDF算法进行优化使其准确度大大提高，实现了勘察报告规范文本的关键信息自动输出。

本发明所采用的技术方案是，一种勘察报告文本关键信息提取系统，包括依次电信号连接的文本输入模块、文本预处理模块、TF-IDF计算模块、文本信息改进模块、关键词输出模块以及查找定位关键信息模块。

本发明第一种技术方案的特征还在于，

文本输入模块用于将勘察报告文本中的文字进行提取，并以.txt格式进行保存，然后去除图表、目录、公式、格式字符，同时将勘察报告以序号、标题、内容格式进行存储，并以.csv文档保存；文本预处理模块用于对经文本输入模块的文本进行预处理降噪；TF-IDF计算模块用于对经文本预处理模块所接收的信息通过TF-IDF算法计算，得到初步的候选关键词；文本信息改进模块用于对经TF-IDF计算模块所得到的候选关键词进一步进行优化，得到优化后的关键词；关键词输出模块用于对文本信息改进模块得到的关键词取前X个进行输出；查找定位关键信息模块用于对经关键词输出模块所得到的关键词通过相关程序语言和字符串搜索技术查找定位到所需要的关键信息。

本发明采用的另一种技术方案是，一种勘察报告文本关键信息提取方法，采用上述的一种勘察报告文本关键信息提取系统，具体按照如下步骤实施：

步骤1，采用文本输入模块进行文本输入；

步骤2，采用文本预处理模块对输入的文本进行预处理降噪，得到候选词；

步骤3，使用TF-IDF计算模块对经过预处理的文本进行计算，得到TF-IDF值排名前N的关键词作为候选关键词；

步骤4，采用文本信息改进模块对TF-IDF计算模块计算得到的候选关键词进行优化，获得候选关键词新的TF-IDF值；

步骤5，采用关键词输出模块输出关键词；

步骤6，通过查找定位关键信息模块查找定位关键信息。

步骤1具体为：

步骤1.1，将需要处理的勘察报告中的文字进行抓取并以.txt格式进行保存；

步骤1.2，去除经步骤1保存的.txt格式文本中的图表、目录、公式、格式字符，然后将勘察报告以序号、标题、内容的形式以.scv文档保存。

步骤2具体为：

步骤2.1、利用Python语言中的Jieba分词库进行勘察报告分词，根据勘察报告特点人为编写自定义词典，根据Jieba分词支持自定义分词的特点，通过Python语言嵌套进自定义词典进行辅助分词；

自定义词典包括一下词：详细勘察、单栋高层建筑、勘探点、地基均匀性、密集、高层建筑群、适当减少、每栋建筑物、至少应有、控制性勘探点、平面布设、高层建筑、平面形状、荷载的分布情况、层数、荷载、体型变异较大、布设、勘察等级；

步骤2.2、对经步骤2.1分词的勘察报告的每个词进行词性标注，词性为：名词、动词、介词、形容词、副词、标题词、自定义词典和专有名词和字符串，专有名词指设备名称、地名、实验名称；标题词为文本标题位置的词汇；

步骤2.3、选择哈尔滨工业大学停用词库，将勘察报告中的词汇与停用词库的词汇进行对比，剔除勘察报告中的停用词汇。

步骤3具体为：

步骤3.1、将经步骤2去除停用词之后的勘察报告中的词只保留动词、名词、标题词、自定义词典、专有名词和字符串，将其他词性的词汇进行剔除，得到的词作为候选词，根据公式(1)计算所有候选词的词频TF；

其中，TF表示当前词的词频，n表示当前词在勘察报告中的数量，∑n表示勘察报告中所有词的数量；

则，将当前词的词频矩阵tf为：[p][q][TF]，表示第p个勘察报告文档中第q个词的词频值为TF；

步骤3.2、根据公式(2)计算所有候选词的逆文档频率IDF：

其中，IDF表示当前词逆文档频率，C表示语料库中勘察报告的总数量，df表示包含当前词的文档数量占所有文档数量的频率；

则，将当前词的逆文档频率矩阵idf为：[p][q][IDF]，表示第p个勘察报告文档中第q个词的逆文档频率值为IDF；

步骤3.3、计算出每个词的TF-IDF矩阵tfidf表示为：

tfidf＝tf×idf

然后将矩阵tfidf除以矩阵tfidf的L2范数来进行矩阵归一化如公式(3)，得出TF-IDF值，然后取TF-IDF值排名前N的候选词作为候选关键词：

步骤4具体为：

步骤4.1、通过公式(4)计算经步骤3选出的候选关键词中的标题词的权重：

其中，weight_title(w_i)表示标题词w_i的权重，

表示勘察报告j内包含词的总数；

步骤4.2、通过公式(5)依据词汇的长度计算该词汇的权重：

其中，weight_len(w_i)表示词w_i的长度权重，len(w_i)表示词w_i的长度，max_len表示当前勘察报告中最长词的长度；

步骤4.3、给自定义词典、字符串、名词、动词以及专有名词赋予不同权重weight_char(w_i)，其中，当词性为自定义词典时weight_char(w_i)＝1.2，当词性为专有名词时weight_char(w_i)＝1.0，当词性为字符串时weight_char(w_i)＝0.8，当词性为名词时weight_char(w_i)＝0.8，当词性为动词时weight_char(w_i)＝0.6；

步骤4.4、通过公式(6)对关键词的TF-IDF值进行加权计算得出新的TF-IDF值Y：

Y＝tfidf*(1.0*weight_title(w_i)+1.0*weight_len(w_i)+1.3*weight_char(w_i)) (6)

其中，Y表示当前词的最终TF-IDF值，如果当前词不是标题词，那么weight_title(w_i)＝0，如果是标题词按照公式(4)计算weight_title(w_i)。

步骤5具体为：对经步骤4计算的所有词的最终TF-IDF值Y进行由大到小排序，取前X个进行输出，得到关键词。

步骤6具体为：通过编写Python语言程序查找定位出勘察报告文本中相应的关键信息。

本发明的有益效果是：

1)本发明一种勘察报告文本关键信息提取系统，以TF-IDF算法为基础，结合土木建筑工程项目的特点，对算法进行优化，准确度大大提高，实现了勘察报告规范文本的关键信息自动输出，大大节省了相关工程人员查看报告的时间和精力；

2)一种勘察报告文本关键信息提取方法，以TF-IDF算法为基础，实现了勘察报告规范文本的关键信息自动输出，为信息可视化和工程项目相关人员核查报告正确提供了更加方便的途径。

附图说明

图1是本发明一种勘察报告文本关键信息提取系统的系统框图；

图2是本发明一种勘察报告文本关键信息提取方法的流程图；

图3是本发明提取的关键词的示意图。

图中，1.文本输入模块，2.文本预处理模块，3.TF-IDF计算模块，4.文本信息改进模块，5.关键词输出模块，6.查找定位关键信息模块；

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种勘察报告文本关键信息提取系统，其结构如图1所示，包括依次电信号连接的文本输入模块1、文本预处理模块2、TF-IDF计算模块3、文本信息改进模块4、关键词输出模块5以及查找定位关键信息模块6。

文本输入模块1用于将勘察报告文本中的文字进行提取，并以.txt格式进行保存，然后去除图表、目录、公式、格式字符，同时将勘察报告以序号、标题、内容格式进行存储，并以.csv文档保存；文本预处理模块2用于对经文本输入模块1的文本进行预处理降噪；TF-IDF计算模块3用于对经文本预处理模块2所接收的信息通过TF-IDF算法计算，得到初步的候选关键词；文本信息改进模块4用于对经TF-IDF计算模块所得到的候选关键词进一步进行优化，得到优化后的关键词；关键词输出模块5用于对文本信息改进模块4得到的关键词取前X个进行输出；查找定位关键信息模块6用于对经关键词输出模块5所得到的关键词通过相关程序语言和字符串搜索技术查找定位到所需要的关键信息。

本发明一种勘察报告文本关键信息提取方法，采用上述的一种勘察报告文本关键信息提取系统，如图2所示，具体按照如下步骤实施：

步骤1，采用文本输入模块1进行文本输入；具体为：

步骤1.1，将文本输入模块1需要处理的勘察报告中的文字进行抓取并以.txt格式进行保存；

步骤1.2，然后去除经步骤1保存的.txt格式文本中的图表、目录、公式、格式字符，然后将勘察报告以序号、标题、内容的形式以.scv文档保存

步骤2，采用文本预处理模块2对输入的文本进行预处理降噪，得到候选词；具体为：

步骤2.1、文本预处理模块2利用Python语言中的Jieba分词库进行勘察报告分词，根据勘察报告特点人为编写自定义词典，根据Jieba分词支持自定义分词的特点，通过Python语言嵌套进自定义词典进行辅助分词；

步骤3，使用TF-IDF计算模块3对经过预处理的文本进行计算，得到TF-IDF值排名前N的关键词作为候选关键词；具体为：

步骤3.1、TF-IDF计算模块3将经步骤2去除停用词之后的勘察报告中的词只保留动词、名词、标题词、自定义词典、专有名词和字符串，将其他词性的词汇进行剔除，得到的词作为候选词，根据公式(1)计算所有候选词的词频TF；

步骤3.2、因为某些词向量的词频虽然不高，但他却是体现文档特征的关键因素，因此需要引出逆文档频率来综合考量词向量的关键程度，因此，根据公式(2)计算所有候选词的逆文档频率IDF：

步骤3.3、计算出每个词的TF-IDF矩阵tfidf表示为：

tfidf＝tf×idf

步骤4，采用文本信息改进模块4对TF-IDF计算模块(3)计算得到的候选关键词进行优化，获得候选关键词新的TF-IDF值；具体为：

步骤4.1、文本信息改进模块4通过公式(4)计算经步骤3选出的候选关键词中的标题词的权重：

其中，weight_title(w_i)表示标题词w_i的权重，

表示勘察报告j内包含词的总数；

步骤4.2、通过公式(5)依据词汇的长度计算该词汇的权重：

Y＝tfidf*(1.0*weight_title(w_i)+1.0*weight_len(w_i)+1.3*weight_char(w_i)) (6)

其中，Y表示当前词的最终TF-IDF值，如果当前词不是标题词，那么weight_title(w_i)＝0，如果是标题词按照公式(4)计算weight_title(w_i)；

步骤5，采用关键词输出模块5输出关键词，具体为：关键词输出模块5对经步骤4计算的所有词的最终TF-IDF值Y进行由大到小排序，取前X个进行输出，得到关键词，如图3所示；

步骤6，通过查找定位关键信息模块6查找定位关键信息，具体为：查找定位关键信息模块6通过编写Python语言程序查找定位出勘察报告文本中相应的关键信息。

本发明进行词性标注和停用词剔除，是因为TF-IDF算法在进行计算的时候不同的词性被作为关键词的概率区别较大，例如名词作为关键词的概率就远高于介词、副词、形容词等修饰性词语，因此在进行关键词计算之前进行词性标注会有利于提取的效率和准确性。至于停用词剔除是因为它并非反映文章主题或对文章的主要表述含义关系不大只是为了语法结构完整以及起到语句通顺的词汇，因此需要剔除此类词汇或短语。

本发明对候选词的TF-IDF值进行重新计算时，考虑因素融合的权重，使其能更大概率的提取出结合勘察要点的关键词，本发明经过对实验结果的多次模拟，确定weight_title(w_i)、weight_len(w_i)、weight_char(w_i)的权重取值确定为：1.0、1.0、1.3。

本发明以TF-IDF算法为基础，结合土木建筑工程项目的特点，对算法进行优化，准确度大大提高，实现了勘察报告规范文本的关键信息自动输出，大大节省了相关工程人员查看报告的时间和精力。

Claims

1.一种勘察报告文本关键信息提取系统，其特征在于，包括依次电信号连接的文本输入模块(1)、文本预处理模块(2)、TF-IDF计算模块(3)、文本信息改进模块(4)、关键词输出模块(5)以及查找定位关键信息模块(6)。

2.根据权利要求1所述的一种勘察报告文本关键信息提取系统，其特征在于，所述文本输入模块(1)用于将勘察报告文本中的文字进行提取，并以.txt格式进行保存，然后去除图表、目录、公式、格式字符，同时将勘察报告以序号、标题、内容格式进行存储，并以.csv文档保存；所述文本预处理模块(2)用于对经文本输入模块(1)的文本进行预处理降噪；所述TF-IDF计算模块(3)用于对经文本预处理模块(2)所接收的信息通过TF-IDF算法计算，得到初步的候选关键词；所述文本信息改进模块(4)用于对经TF-IDF计算模块所得到的候选关键词进一步进行优化，得到优化后的关键词；所述关键词输出模块(5)用于对文本信息改进模块(4)得到的关键词取前X个进行输出；所述查找定位关键信息模块(6)用于对经关键词输出模块(5)所得到的关键词通过相关程序语言和字符串搜索技术查找定位到所需要的关键信息。

3.一种勘察报告文本关键信息提取方法，其特征在于，采用权利要求1所述的一种勘察报告文本关键信息提取系统，具体按照如下步骤实施：

步骤1，采用文本输入模块(1)进行文本输入；

步骤2，采用文本预处理模块(2)对输入的文本进行预处理降噪，得到候选词；

步骤3，使用TF-IDF计算模块(3)对经过预处理的文本进行计算，得到TF-IDF值排名前N的关键词作为候选关键词；

步骤4，采用文本信息改进模块(4)对TF-IDF计算模块(3)计算得到的候选关键词进行优化，获得候选关键词新的TF-IDF值；

步骤5，采用关键词输出模块(5)输出关键词；

步骤6，通过查找定位关键信息模块(6)查找定位关键信息。

4.根据权利要求3所述的一种勘察报告文本关键信息提取方法，其特征在于，所述步骤1具体为：

5.根据权利要求4所述的一种勘察报告文本关键信息提取方法，其特征在于，所述步骤2具体为：

所述自定义词典包括一下词：详细勘察、单栋高层建筑、勘探点、地基均匀性、密集、高层建筑群、适当减少、每栋建筑物、至少应有、控制性勘探点、平面布设、高层建筑、平面形状、荷载的分布情况、层数、荷载、体型变异较大、布设、勘察等级；

步骤2.2、对经步骤2.1分词的勘察报告的每个词进行词性标注，词性为：名词、动词、介词、形容词、副词、标题词、自定义词典和专有名词和字符串，所述专有名词指设备名称、地名、实验名称；所述标题词为文本标题位置的词汇；

6.根据权利要求5所述的一种勘察报告文本关键信息提取方法，其特征在于，所述步骤3具体为：