CN112199926A

CN112199926A - 基于文本挖掘和自然语言处理的地质报告文本可视化方法

Info

Publication number: CN112199926A
Application number: CN202011111355.XA
Authority: CN
Inventors: 吴亮; 王斌; 邱芹军; 周媛; 李文佳; 刘昊; 马莹; 李双江
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-08
Anticipated expiration: 2040-10-16

Abstract

本发明提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法；包括首先，利用自然语言处理技术对地质报告进行数据预处理；其次，基于构建的停用词词库对文本中的停用词进行剔除；然后，统计相邻两个词之间共同出现的次数，并生成共现矩阵；最后，进行了词频统计、改进的TF‑IDF关键词提取等，并分别进行了词频统计可视化、关键词词云可视化、中心性分析可视化、多尺度关键词分析可视化等。本发明提出的地质报告文本可视化流程能充分发现和挖掘地质文本隐含的信息，能迅速从可视化结果中获取关键信息，使繁杂的文本信息能以非常直观的形式进行展示。本发明所提出的可视化流程对工程报告类文本具有较高的适用性和参考价值。

Description

基于文本挖掘和自然语言处理的地质报告文本可视化方法

技术领域

本发明涉及数据挖掘和自然语言处理领域，尤其涉及一种基于文本挖掘和自然语言处理的地质报告文本可视化方法。

背景技术

大数据时代背景下，数据的利用价值越来越受到研究者们的青睐。然而，海量的数据纷繁复杂，处理起来难度极大。如何在海量数据里面挖掘出更具有研究价值和意义的信息，是数据研究者们一直在攻克的难题。地质大数据作为大数据的典型代表，是互联网时代背景下大数据相关理论、技术及方法在地质领域中的应用与实践。地质研究属于数据密集型科学，当前的研究工作已经从定性转变到定量，从数据稀少型转变到数据密集型。面对海量的地质调查数据资料，需要进一步树立大数据思维、定量思维及获取“地质资源”和形成核心“地质数据知识”的新思维方式，以数据密集型工作方法为基础，进而实现地质数据高效便捷的集成与融合。地质大数据代表的是以地质调查、矿产勘查及科研工作中形成的各类成果，通常是以文本、音频、图表等多种数据形式存储，主要的数据来源包括全国地质资料馆和各级地质图书馆、全国矿产资源评价资料、中国地质调查数据库和相关地学文献数据库。当前，在地质调查过程中积累了大量的地质报告，每份报告都包含不同的地质主题，如区调、岩石、矿物或水文，这些报告的内容通常以不同的格式存储，如.doc、.pdf、.jpg、.tiff和空间数据文件。此外，这些报告由大量的结构化数据和非结构化数据组成。结构化数据通常使用关系数据库或空间数据库存储和管理；然而，大量地质调查报告、工作记录等非结构化数据还未得到充分利用与挖掘。非结构化数据包含多种类型和碎片化的信息，比结构化数据包含更丰富的信息，具有更大的潜在价值。如何挖掘地质报告非结构化文本隐含信息，使之直观地可视化展示成了重要的研究课题。

地质报告文本信息的挖掘中，数据预处理是最重要的前提。其中，分词是预处理的关键。中文地质报告的分词有一定的难度，主要由于地质报告中命名实体众多，且不具备一定的规则。地质报告分词首先需要一份良好的分词词典，但目前符合要求的词典非常少。词典确定后，地质文本句子中可能含有很多词典中的词语，它们可能相互重叠，输出哪一个由规则决定。常用的规则有正向最长匹配、逆向最长匹配和双向最长匹配，它们都是基于完全切分过程。完全切分指的是，找出一段文本中的所有单词。正向最长匹配简单意义上来解释，就是越长的单词表达的意义越丰富，也即单词越长优先级越高。具体来说，就是在以某个下标为起点递增查词的过程中，优先输出更长的单词，这种规则被称为最长匹配算法。该下标的扫描顺序如果从前往后，则称为正向最长匹配，反之称为逆向最长匹配。而通常情况下，上述两种方法并不能完全解决问题，所以前人在融合两种匹配方法的特点后，提出了双向最长匹配。其规则如下：(1)同时执行正向和逆向最长匹配，若两者的词数不同，则返回词数更少的那一个；(2)否则，返回两者中单字更少的那一个。当单字也相同时，优先返回逆向最长匹配的结果。

从地质报告文本中进行信息抽取是重要的研究方向和热点。信息抽取是一个宽泛的概念，指的是从非结构化文本中提取结构化信息的一类技术。信息抽取当中一个重要的研究为关键词提取。顾名思义，关键词即提取文本中重要的单词，而不限于词语的新鲜程度。由简入繁的方法分别为词频、TF-IDF和TextRank。关键词通常在文章中反复出现，通过统计文章中每种词语的词频并排序，可以初步获取部分关键词，词频统计的流程一般是分词、停用词过滤、按词频取前n个。TF-IDF是信息检索中衡量一个词语重要程度的统计指标，被广泛用于Lucene、Solr、Elasticsearch等搜索引擎。

综上，目前围绕地质报告文本的处理主要从信息抽取方面入手，从而进行下一步的工作，较少有研究者专门研究地质报告文本内容的可视化展示。本发明在前人研究的基础上，提出了一种基于文本挖掘和自然语言处理技术的地质报告文本可视化方法流程。该流程对工程报告类文本的可视化具有较高的适用性和参考价值。

发明内容

为了解决目前地质报告文本信息表达方法不具备视觉上的直观感受，文本信息处理和挖掘繁琐等技术问题，本发明提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，该方法分别从地质报告关键词提取、中心性分析等进行了可视化展示，对工程报告类文本的可视化具有较高的适用性和参考价值。

本发明提供的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，具体包括如下步骤：

S101：获取研究区域的地质报告，并对所述地质报告进行预处理，得到预处理后的地质报告文本；

S102：将所述预处理后的地质报告文本，分别加入地质文本词典和停用词词典后进行分词，得到分词处理后的地质报告文本；

S103：将所述分词处理后的地质报告文本，分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取，得到词频统计结果和TF-IDF关键词提取结果；其中，TF-IDF关键词提取结果作为第一关键词提取结果；

S104：将所述分词处理后的地质报告文本，利用改进的TF-IDF关键词提取技术进行关键词信息提取，得到第二关键词提取结果；

S105：考虑到相邻词语间的相关性，统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数，并将统计结果转化为共现矩阵；

S106：将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化，并利用所述共现矩阵实现语义相似性的度量，实现了地质文本信息的充分挖掘。

进一步地，步骤S101中，预处理包括：

S201：实现地质报告文本格式的转换，将地质报告.pdf格式转化为.txt格式，并去除地质报告中的图件和表格内容；

S202：将文本内容进行剔除噪声的处理，包括公式的剔除和无关符号的剔除；所述无关符号包括：～，％和＜；

S203：将处理好的文本内容按行存储在.txt文本中，得到预处理后的地质报告文本。

进一步地，步骤S102具体包括：对所述预处理后的地质报告文本，加入预先设计好的地质文本词典，通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词，并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出。

进一步地，步骤S103具体包括：针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果：首先进行词频统计，通过统计每个词语在地质报告文本中出现的次数，获取地质报告文本关键词信息；然后，将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数，得到标准化的词频；同时，考虑到同一地区可能有多份相关内容的地质矿床报告文档，引入了逆文档频率，通过TF-IDF的关键词计算，排除地质文本内容长短和多份相关内容文档的影响，得到第一关键词提取结果。

进一步地，步骤S104中，利用改进的TF-TDF技术进行关键词信息提取具体为：针对地质报告文本中专有名词词长的影响，对TF-IDF关键词提取技术进行了改进，即对S103中-第一关键词提取结果进行词长统计，并与TF-IDF的结果相加，得到第二关键词提取结果。

进一步地，步骤S106具体包括：首先所述词频统计结果以柱状条形图和词云形式展示，所述第一关键词提取结果和所述第一关键词提取结果分别以柱状条形图进行可视化展示；其次，利用S105中获得的共现矩阵实现语义相似性的度量，分析地质文本词语的中心性，并根据不同的粒度进行了关键词分析，实现了地质文本的信息充分挖掘。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中一种基于文本挖掘和自然语言处理的地质报告文本可视化方法的流程图；

图2(a)是本发明实施例中未去停用词的地质报告文本分词后的词频统计可视化结果示意图；

图2(b)是本发明实施例中去停用词后的地质报告文本分词后的词频统计可视化结果示意图；

图3是本发明实施例中去停用词后的地质报告文本分词后的词云展示示意图；

图4(a)是本发明实施例中去停用词后的第一关键词提取可视化结果示意图；

图4(b)是本发明实施例中去停用词后的第二关键词提取可视化结果示意图；

图5是本发明实施例中关键词中心性分析可视化结果示意图；

图6是本发明实施例中多尺度关键词分析可视化结果示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法。

请参考图1，图1是本发明实施例中一种基于文本挖掘和自然语言处理的地质报告文本可视化方法的流程图，具体包括如下步骤：

S102：将所述预处理后的地质报告文本，分别加入地质文本词典和停用词词典后进行更加精细的分词，得到分词处理后的地质报告文本；

步骤S101中，预处理包括：

S202：将文本内容进行剔除噪声的处理，包括一些公式的剔除，无关符号的剔除，如：～，％，＜等；

步骤S102具体包括：对所述预处理后的地质报告文本，加入预先设计好的地质文本词典，通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词，并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出；所述预先设计好的地质文本词典包含通用词典内容以及地质专业术语内容；所述停用词词典内容包含如：的，了，我，你，···等词语。

步骤S103具体包括：针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果：

首先进行词频统计，通过统计每个词语在地质报告文本中出现的次数，获取地质报告文本关键词信息；词频统计公式如公式(1)所示：

n_i＝Word(w_i) (1)

上式中，Word为统计函数，w_i为第i个词语的表示，n_i为词语w_i在地质报告文本中出现的次数；

然后，将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数，得到标准化的词频(TF)；其公式如公式(2)所示：

上式中，f(w_i)为词语w_i在地质报告文本中出现的次数，len(total(words))表示地质报告文本总词数；

同时，考虑到同一地区可能有多份相关内容的地质矿床报告文档，引入了逆文档频率(IDF)(如公式(3)所示)，通过TF-IDF的关键词计算(如公式(4)所示)，能够排除地质文本内容长短和多份相关内容文档的影响，得到第一关键词提取结果：

TF-IDF＝TF*IDF (4)

上式中，log表示对得到的值取对数，len(doc)为地质报告文档总数，len(doc(w_i))为包含词语w_i的文档数目。如果一个词越常见，那么分母就越大，IDF就越小，越接近于0。分母之所以要加1，是为了避免分母为0，即所有文档都不包含该词。

步骤S104中，利用改进的TF-TDF技术进行关键词信息提取具体为：针对地质报告文本中专有名词词长的影响，对TF-IDF关键词提取技术进行了改进，即对S103中第一关键词提取结果的关键词进行词长统计，并与TF-IDF的结果相加，得到第二关键词提取结果；改进后的关键词提取技术公式如公式(5)：

其中，Score(w_i)为最终的地质报告文本关键词提取的得分，len(w_i)表示第i个词语w_i的词长，max(len(words))表示地质报告文本最长的词语长度。

步骤S105中，共现矩阵的计算规则如下，即计算每个词语在给定词语的特定大小窗口范围内出现的次数，例如，给定的地质文本分词后的语料库如下：鞍山市/黑石砬子/铁矿床，黑石砬子/铁矿床/补充/勘探。窗口大小设置为1，则得到如下共现矩阵：

	鞍山市	黑石砬子	铁矿床	补充	勘探
						鞍山市	0	1	0	0	0
黑石砬子	0	0	2	0	0
						铁矿床	0	0	0	1	0
补充	0	0	0	0	1
						勘探	0	0	0	0	0

则共现矩阵为：

步骤S106具体包括：首先所述词频统计结果以柱状条形图和词云形式展示，其结果如图2(a)、图2(b)和图3所示，所述第一关键词提取结果和第二关键词提取结果分别以柱状条形图进行可视化展示，如图4(a)和图4(b)所示，可以发现改进后的TF-IDF关键词提取更能突出一些地质类专业词汇。

其次，利用S105中获得的共现矩阵实现语义相似性的度量，主要分析了地质文本词语的中心性，如图5所示，采用了紧密度中心性概念，假设节点x和y之间的距离用d(x,y)表示，距离可以定义为节点x和y的最短路径长度，在非带权网络中的计算式如公式(6)：

其中，N表示节点数。在本发明中，采用了带权中心性分析，权重为两两词语之间共现的次数。

最后，在不同的粒度下进行了关键词分析，如图6所示。最终，实现了地质文本的信息充分挖掘和可视化展示流程。

本发明的有益效果是：本发明提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，该方法分别从地质报告关键词提取、中心性分析等进行了可视化展示，对工程报告类文本的可视化具有较高的适用性和参考价值。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：步骤S101中，预处理包括：

3.如权利要求2所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：步骤S102具体包括：对所述预处理后的地质报告文本，加入预先设计好的地质文本词典，通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词，并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出。

4.如权利要求3所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：步骤S103具体包括：针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果：首先进行词频统计，通过统计每个词语在地质报告文本中出现的次数，获取地质报告文本关键词信息；然后，将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数，得到标准化的词频；同时，考虑到同一地区可能有多份相关内容的地质矿床报告文档，引入了逆文档频率，通过TF-IDF的关键词计算，排除地质文本内容长短和多份相关内容文档的影响，得到第一关键词提取结果。

5.如权利要求4所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：步骤S104中，利用改进的TF-TDF技术进行关键词信息提取具体为：针对地质报告文本中专有名词词长的影响，对TF-IDF关键词提取技术进行了改进，即对S103中-第一关键词提取结果进行词长统计，并与TF-IDF的结果相加，得到第二关键词提取结果。

6.如权利要求5所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：步骤S106具体包括：首先所述词频统计结果以柱状条形图和词云形式展示，所述第一关键词提取结果和所述第一关键词提取结果分别以柱状条形图进行可视化展示；其次，利用S105中获得的共现矩阵实现语义相似性的度量，分析地质文本词语的中心性，并根据不同的粒度进行了关键词分析，实现了地质文本的信息充分挖掘。