CN116089629A

CN116089629A - 一种磷矿成矿规律文本数据挖掘方法及系统

Info

Publication number: CN116089629A
Application number: CN202310163491.0A
Authority: CN
Inventors: 田宜平; 曾斌; 吴冲龙; 周琦; 吴文明; 吴雪超; 李绍虎; 徐凯; 向世泽; 孔春芳
Original assignee: Guizhou Geological Survey Institute; Guizhou Provincial Geological And Mineral Exploration And Development Bureau 105 Geological Brigade; Wuhan Dida Quanty Technology Co ltd; China University of Geosciences
Current assignee: Guizhou Geological Survey Institute; Guizhou Provincial Geological And Mineral Exploration And Development Bureau 105 Geological Brigade; Wuhan Dida Quanty Technology Co ltd; China University of Geosciences
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-09

Abstract

本发明提供了一种磷矿成矿规律文本数据挖掘方法及系统，本发明采用基于词汇树与磷矿床特点的中文文本分词方法，并对磷矿各类地质报告文本数据进行标注，构建磷矿床成矿特征空间关系知识库，利用时空卷积神经网络模型对语义相似度进行匹配，抽取文本中的时空关系信息，构建磷矿地质实体的空间关系知识图谱。本发明解决磷矿中文地质报告中地质年代、成矿模式、成矿过程等时空信息以及各个不同要素之间的语义关系的高效表示、抽取、结构化表达和可视化等关键问题，构建地质体时空关系知识图谱，以便快速获取磷矿矿区的地质认识和成矿规律，进而为实现各类地质信息与数据的服务，为挖掘地质大数据的潜在价值等重大问题提供决策服务。

Description

一种磷矿成矿规律文本数据挖掘方法及系统

技术领域

本发明属于应用地球物理勘查技术领域，特别是一种磷矿成矿规律文本数据挖掘方法及系统，涉及磷矿中文地质报告分词、磷矿空间关系知识库构建、语义相似度匹配、时空卷积神经网络模型构建、基于空间关系的知识图谱构建。

背景技术

长期以来，地学领域由于研究方法及研究方向的多样性已经积累了大量的地质资料数据，地质研究已经从定性研究逐渐过渡到定量研究，从数据稀少型过渡到数据密集型。从数据的组成结构上来说，地质资料数据包括结构化的数据及非结构化的数据特别是文本数据。目前针对地质数据中的结构化数据的研究方向和模型已经比较成熟，但大量非结构化的数据还未得到充分的利用与挖掘。地质数据作为一种典型的时空数据，研究地质数据中的非结构化数据的时空信息抽取是解决地质数据充分利用的关键性科学问题之一，这为地质数据结构化与非结构化数据的关联、智能化知识服务提供数据及技术上的支持，进而提升地质数据的应用能力。

磷矿的探寻是地质领域的一个重要课题。将磷矿中文地质报关文献数据中矿产信息采用深度学习方式提取与语义分析，以知识图谱可视化表达等方式展示，将为磷矿数据的深度挖掘和利用提供有力的数据基础和技术支持，以帮助地质学者、地质调查部门等迅速处理非结构化的地质数据，挖掘背后有价值的丰富知识。通过自然语言处理等技术提取地质实体与空间信息之间的关联关系，构建地质实体的空间关系知识图谱，为磷矿成矿规律的快速归纳与挖掘提供数据支持。

发明内容

本发明的目的是提供一种磷矿成矿规律文本数据挖掘方法及系统，旨在解决现有技术中无法实现磷矿中文地质报告中地质年代、成矿模式、成矿过程等时空信息以及各个不同要素之间的语义关系的高效表示、抽取、结构化表达和可视化等关键问题，以便快速获取磷矿矿区的地质认识和成矿规律，进而为实现各类地质信息与数据的服务，为挖掘地质大数据的潜在价值等重大问题提供决策服务。

为达到上述技术目的，本发明提供了一种磷矿成矿规律文本数据挖掘方法，所述方法包括以下操作：

根据地质术语表以及磷矿专业词汇构建磷矿地质专业本体，根据本体语义特点，将词库中的词汇构建成词汇树，并利用词汇树对磷矿各类地质报告文本进行分词；

对地质报告文档进行空间关系标注，生成一组附带标签的具有空间关系的表达式集合，构建磷矿成矿特征空间关系知识库；

基于构建的词汇树以及磷矿成矿特征空间关系知识库，通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取，并输出磷矿语义关系，根据输出的空间关系信息三元组，完成磷矿地质实体空间关系知识图谱的构建。

优选地，所述词库包括汉语地质词汇子库、时间词汇子库、空间词汇子库以及未登录词汇子库。

优选地，所述分词采用最大字符串匹配算法，具体为将文本中的每句话当成一个字符串存储在数组中，句子的每个字即为一个汉语字符，按照顺序先将第一个字与词库中词汇树的根节点进行匹配，完成后将句子中的词汇按照根节点到叶节点的顺序，完成匹配，然后在匹配完成后的词汇后面添加“/”，继续将“/”后的字与词库中词汇树的根节点匹配。

优选地，所述空间关系包括拓扑关系、距离关系和方向关系。

优选地，所述通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取具体为：

对于给定的一系列句子S＝(S₁,S₂,…,S_n)及词袋(e₁,e₂)，其中e₁，e₂分别代表两个地质实体，将语料库中的句子通过词向量工具映射成低维分布式向量；时空卷积神经网络模型结合词级注意力机制连接起来形成一个新的句子级表示；形成的句子级表示用于对模型的权重进行进一步微调并提取与关系r匹配的句子；构建形成的句子被输入到Softmax层中预测关系(e₁,e₂)(S₁,S₂,…,S_n),该模型的输入是实体对e₁,e₂和包含实体对e₁,e₂的句子S集合，输出是实体对e₁,e₂的空间关系。

优选地，所述输出磷矿语义关系具体为：

给定n个词袋T＝{S₁,S₂,…,S_n}作为深度学习模型训练集及对应的关系标签{r₁,r₂,…,r_n}，采用P(r|T,θ)作为条件概率，输入到Softmax分类器以计算每个语义关系的置信度。

优选地，所述磷矿地质实体空间关系知识图谱的构建具体为：

磷矿知识采用RDF表示，使用三元组的形式组成的大规模的有向图，其中，节点表示磷矿的概念和地质实体；而边则表示磷矿中实体对之间的空间关系；有向线段表示实体存在关系或属性关联关系，使用不同的类型或颜色的线条去表示不同的关系或属性；由上述的基本元素构成磷矿知识图谱的可视化网络。

本发明还提供了一种磷矿成矿规律文本数据挖掘系统，所述系统包括：

地质报告分词模块，用于根据地质术语表以及磷矿专业词汇构建磷矿地质专业本体，根据本体语义特点，将词库中的词汇构建成词汇树，并利用词汇树对磷矿各类地质报告文本进行分词；

磷矿知识库构建模块，用于对地质报告文档进行空间关系标注，生成一组附带标签的具有空间关系的表达式集合，构建磷矿成矿特征空间关系知识库；

磷矿知识图谱构建模块，用于基于构建的词汇树以及磷矿成矿特征空间关系知识库，通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取，并输出磷矿语义关系，根据输出的空间关系信息三元组，完成磷矿地质实体空间关系知识图谱的构建。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明提出了基于词汇树与磷矿床特点的中文文本分词方法。目前大量的分词方法都是针对通用领域设计优化的分词方法，很少有对地学这个邻域特别是磷矿地质报告文本进行分词的研究，如果将通用邻域的分词方法直接迁移到地质邻域难以达到预期的分词效果。根据磷矿床特征以及磷矿中文地质报告结构固定、内容准确和用词专业的特点，运用基于磷矿地质专业词库的词汇树分词方法可有效提高分词的效率和准确率；

本发明提出了磷矿床成矿特征空间关系知识库。通过人工标注的方式，标注出一组具有空间关系的实体对表达式，方便与后期新输入的句子进行相似度匹配，这些空间关系主要包括：拓扑关系、距离关系和方向关系；

本发明提出了融合时空文本的时空卷积神经网络模型。对于地质文本数据的处理相关研究仅仅局限于对地质报告本身语义特征的提取，尚未充分利用地质报告与空间数据之间的关联关系，使用该模型可有效地提取出句子中实体对之间的空间关系。

附图说明

图1为本发明实施例中所提供的一种磷矿成矿规律文本数据挖掘方法流程图；

图2为本发明实施例中所提供的地质专业词库模型示意图；

图3为本发明实施例中所提供的以矿字为首字的词汇树示意图；

图4为本发明实施例中所提供的磷矿时空卷积神经网络架构模型示意图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种磷矿成矿规律文本数据挖掘方法及系统进行详细说明。

如图1所示，本发明实施例公开了一种磷矿成矿规律文本数据挖掘方法，所述方法包括以下操作：

本发明实施例根据磷矿地质专业词库构建词汇树，完成对地质报告文本的分词，其次采用人工标注的方式标注出一组包含空间关系的磷矿空间关系知识库，再次利用时空卷积神经网络模型对新输入的表达式进行语义相似度匹配，抽取出表达式中的空间关系信息，最终完成地质实体对空间关系知识图谱的构建，并快速发掘归纳磷矿成矿规律。

首先对磷矿成矿规律文本数据进行数据预处理。

磷矿地质报告文本是全面反映地质勘查工作成果的重要技术文件，是下达任务全部完成或告一阶段之后，根据已有的和本次勘查工作所获取的各种资料的系统整理和综合研究编写而成的。这些勘查地质报告中虽然研究的重点各有不同，但其结构基本相同，都有严格的编写规范，报告正文所编写的内容规律性较强，报告中的每部分要写的内容明确，这就为利用其固定结构进行自动标引提供了可能。

构建磷矿地质专业词库。在磷矿地质专业词库的构建时，以中国地质图书馆整理加工的《地质学汉语叙词表》为基础，选取其中与磷矿资源有关的地质专业词汇，构建磷矿地质专业词库进行研究。例如，将“花岗岩”、“沉积岩”等均为汉字的专业词汇放到汉语地质词汇子库中；将“前寒武纪”、“3200-2950Ma”等放入时间词汇子库中；将“海拔400-550”、“长1300米”等放入空间词汇子库中；而未登录词汇子库中专门存放与文本主题密切相关但已有词库中并没有的专业词汇，具体结构如图2所示。

构建磷矿词库读入时词汇树。通过分析词库中的词汇发现，无论是常用的词库还是专业词库，其类型都较为固定，描述同类事物的很多词汇的首字均相同。例如“矿床学”、“矿化期”、“矿石矿物”、“矿化阶段”、“矿床类型”、“矿床成因”等等。这些词都是对矿产资源的描述，词汇均以“矿”字开头，这类词汇不只出现在地质专业词汇库中，在普通词汇库中出现的频率也很高。在中文分词阶段所采取的分词方式为字符串匹配的分词方法，为了增强匹配速率，提高匹配精度，进而增强分词效率，可在词库读入时，利用这些词汇的特点将这些词汇构建成不同的词汇树，如图3所示。

利用磷矿术语中文分词算法进行分词。针对于磷矿地质报告文本的结构特点以及地质词汇的类型特点，所采取的中文分词算法为最大字符串匹配算法，其原理为：将文本中的每句话当成一个字符串存储在数组中，句子的每个字即为一个汉语字符。按照顺序先将第一个字与词库中词汇树的根节点进行匹配，完成后将句子中的词汇按照根节点到叶节点的顺序，完成匹配。然后在匹配完成后的词汇后面添加“/”，继续将“/”后的字与词库中词汇树的根节点匹配。通过此种方式将句子中的词汇切分出来，按这种方式可将整个文本进行切分，切分速度较快，精确度较高。根据磷矿床特征以及磷矿中文地质报告结构固定、内容准确和用词专业的特点，运用基于磷矿地质专业词库的词汇树分词方法可有效提高分词的效率和准确率。

然后基于磷矿时空卷积神经网络进行时空信息抽取。

收集磷矿特征术语样本并构建知识库。通过人工标注方式生成一组附带空间关系标签的表达式集合，方便与后期新输入的新表达式(句子)进行相似性匹配。这些空间关系主要包括：拓扑关系、距离关系和方向关系。收集包含自然语言中某项空间关系的样本，这些样本集主要是来源于地质报告文档及网络上的自然语言文本，包括中文期刊网磷矿相关文章、磷矿地质报告等。这些时空关系主要包括：成矿时代、成矿模式以及成矿空间等关系。

进行磷矿语义相似度匹配。磷矿文本中一个新的句子如果与知识库中的表达式语义相近，那么就能够通过最为相近的表达式来对其进行解释。相似性匹配算法主要包括单句匹配算法和全文匹配算法，其中单句匹配算法通过计算新的表达式(其空间关系未知)和知识库中已知时空关系的表达式之间存在的语义相似度。全文匹配算法是通过计算关键词汇同时在文档中出现的频率，以确定两个文档之间的相似度。

对于磷矿时空卷积神经网络模型，如图4所示，对于给定的一系列句子S＝(S₁,S₂,…,S_n)及词袋(e₁,e₂)(其中e₁，e₂分别代表两个地质实体)，为了能够提取句子的特征，将语料库中的句子通过词向量工具映射成低维分布式向量。接着，磷矿时空卷积神经网络模型结合词级注意力机制连接起来形成一个新的句子级表示。然后，形成的句子级表示用于对模型的权重进行进一步微调并提取与关系r匹配的句子。最后构建形成的句子被输入到Softmax层中预测关系(e₁,e₂)(S₁,S₂,…,S_n)。该模型的输入是实体对e₁,e₂和包含实体对e₁,e₂的句子S集合，输出是实体对e₁,e₂的空间关系。对于地质文本数据的处理相关研究仅仅局限于对地质报告本身语义特征的提取，尚为充分利用地质报告与空间数据之间的关联关系。使用该模型可有效地提取出句子中实体对之间的空间关系。

输出磷矿语义关系。给定n个词袋T＝{S₁,S₂,…,S_n}作为深度学习模型训练集及对应的关系标签{r₁,r₂,…,r_n}，采用P(r|T,θ)作为条件概率，输入到Softmax分类器以计算每个语义关系的置信度。

最后进行磷矿知识图谱的可视化表达。

知识图谱本质上是一种大型的语义网络，通过有向图的方式对客观世界中实体、概念及其相互之间语义关系的描述进行表达，其中节点代表实体、概念，边代表节点的属性或节点之间的关系。知识图谱借助通用的三元组<节点1、关系、节点2>知识表示方式，以实体、概念或属性为节点，以关系为边，建立基于语义网络的知识图结构。在计算机环境下，计算机利用自然语言处理方法从非结构化数据中，获取磷矿时空信息，生成磷矿知识，存储在图数据库中生成磷矿知识图谱。所以，磷矿知识采用RDF(资源描述框架)表示，使用三元组的形式<节点1、关系、节点2>组成的大规模的有向图，其中，节点表示磷矿的概念和地质实体等，而边则表示磷矿中实体对之间的空间关系。有向线段表示实体存在关系或属性关联关系，可使用不同的类型或颜色的线条去表示不同的关系或属性，最后再由上述的基本元素构成磷矿知识图谱的可视化网络。

本发明实施例主要用于磷矿中文地质报告的磷矿成矿规律时空信息提取，通过时空卷积神经网络模型，将非结构化的文本数据转化成结构化的地质实体对关系数据，并构建出知识图谱，为发掘与归纳磷矿成矿规律提供有效的数据支持。

本发明实施例还公开了一种磷矿成矿规律文本数据挖掘系统，所述系统包括：

本发明实施例所述系统可实现前文所述磷矿成矿规律文本数据挖掘方法，在此不作赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种磷矿成矿规律文本数据挖掘方法，其特征在于，所述方法包括以下操作：

2.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法，其特征在于，所述词库包括汉语地质词汇子库、时间词汇子库、空间词汇子库以及未登录词汇子库。

3.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法，其特征在于，所述分词采用最大字符串匹配算法，具体为将文本中的每句话当成一个字符串存储在数组中，句子的每个字即为一个汉语字符，按照顺序先将第一个字与词库中词汇树的根节点进行匹配，完成后将句子中的词汇按照根节点到叶节点的顺序，完成匹配，然后在匹配完成后的词汇后面添加“/”，继续将“/”后的字与词库中词汇树的根节点匹配。

4.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法，其特征在于，所述空间关系包括拓扑关系、距离关系和方向关系。

5.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法，其特征在于，所述通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取具体为：

6.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法，其特征在于，所述输出磷矿语义关系具体为：

7.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法，其特征在于，所述磷矿地质实体空间关系知识图谱的构建具体为：

8.一种磷矿成矿规律文本数据挖掘系统，其特征在于，所述系统包括：