CN111611404A

CN111611404A - 一种基于地质文本语料预测目标区矿产的方法

Info

Publication number: CN111611404A
Application number: CN202010430377.6A
Authority: CN
Inventors: 朱月琴; 吴永亮; 谭永杰
Original assignee: Development & Research Center Of China Geological Survey Bureau
Current assignee: Development & Research Center Of China Geological Survey Bureau
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-01

Abstract

本发明涉及一种基于地质文本语料预测目标区矿产的方法。基于地质文本语料预测目标区矿产的方法步骤依次为：首先，对地质文本语料进行预处理获取实义词；然后，依据设定的高频实义词频阈值得出高频实义词；再对高频实义词对开展共现矩阵计算；另外，基于共现矩阵计算结果生成地质知识谱图；最后，基于地质知识图谱圈定目标区的矿产。本方法构建的地质知识图谱，可满足地质大数据的应用服务的需求，对于大数据时代背景下矿产的预测及发现具有重要意义。

Description

一种基于地质文本语料预测目标区矿产的方法

技术领域

本发明涉及矿产资源预测的技术领域，尤其涉及一种对地质文本语料处理进而预测目标区矿产的方法。

背景技术

地质文本语料中的句子可以被分成实义词和语义含糊的功能描述性词。在文本数据中，实义词是文本关键信息的载体，而一些虚词等没有实际意义。通过选择高频实义词作为每篇文本的主要实义词，能够简单、清楚的代表地学文本中的主要内容。

实义词表明了文本语料的主要信息，其在本体模型中属于概念，在地学中可分为地质学、技术方法和描述性词汇等类型：(1)地质学词汇是与地质和矿物资源有关的词汇，例如断裂、岩浆岩等；(2)技术方法词汇主要是与矿产勘查、数据处理等工作或处理过程有关的词汇，例如遥感、航磁等；(3)描述性词语是一些与地质主题没有直接关系的功能实义词，例如研究、分析等。

依据文本语料中的实义词所生成的知识图谱对于矿产预测领域的知识分析与挖掘的应用具有重要意义。目前缺少通过地质文本语料预测目标区矿产的方法。

发明内容

本发明主要解决的技术问题是提供一种地质文本语料预测目标区矿产的方法。

为解决上述技术问题，本发明公开的方法，包括以下步骤：

a.对地质文本语料进行预处理，获得实义词；

b.依据设定的高频实义词频阈值得出高频实义词；

c.对高频实义词对开展共现矩阵计算；

d.基于共现矩阵计算结果生成地质知识谱图；

e.基于地质知识图谱圈定目标区的矿产。

进一步的，所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和去停用词。

进一步的，所述高频实义词阈值范围为10～100。

进一步的，所述地质知识图谱以词节点的大小和边长度的方式进行显示。

进一步的，所述词节点的大小为实义词的词频，所述边长度为实义词在地质语料中的共现频率。

综上所述，本发明具有以下有益效果：

通过本发明的方法，可以实现基于地质语的知识图谱自动生成及目标区的矿产预测，满足地质大数据的应用服务的需求，对于大数据时代背景下矿产的预测及发现具有重要意义。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是经过词频统计的成矿预测相关实义词示意图。

图2是实义词共现关系示意图。

图3是目标区的共现信息示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例，用于说明本发明，但不用来限制本发明的范围。

本发明公开了一种基于地质文本语料预测目标区矿产的方法，具体包括如下步骤：

1.对地质文本进行分词处理

依据标点符号对文本进行句子划分，根据标点符、换行符将句子切分为独立的词语，即将句子切分形成独立的词汇、标点符号组合。

2.去掉文本中停用词，得到实词的组合

①将句子中的上下文信息给每个词确定一个最为合适的词性标记，确定词汇是实词还是虚词。依据词性将虚词(包括副词、介词、连词、助词、象声词)删除，获得实词组合。②通过设定停用词词典，使用字符匹配的方式删除常用词、描述性词等停用词库中已记录的停用词，获得实词组合。

3.统计实义词频

将去掉停用词和标点符号的实义词语料进行实义词词频统计，并将其词频数进行排序。

4.构建实义词矩阵

将提取的实义词构建成实义词矩阵，每一列是一个关键词，每一行的关键词来自同一篇文本语料。然后，按照全部语料的实义词词频进行降序排列。

5.确定高频词的阈值

确定高频词与低频词的分界点，高频词的阈值设置为10至100之间。

6.生成实义词共现矩阵

将词频符合高频词阈值的实义词过滤出来，假设满足条件的实义词数为N，则形成N阶的高频实义词共现矩阵，并将矩阵主对角线的数据改为0，如表1所示(分析同一个词在不同语料中出现的次数没有意义)。

表1共现矩阵(部分)

	成矿	构造	矿床	模型	矿体
						成矿	0	17	0	16	20
构造	17	0	25	14	8
						矿床	0	25	0	9	6
模型	16	14	9	0	5
						矿体	20	8	6	5	0

7.生成地质知识图谱

以共现词对和“权重”为基础构建地质知识图谱。“权重”由语料中两个实义词的共现频率来确定。如果在语料库中两个实义词相邻，则它们的关系就是“共现”，次数越多说明关系越近，如图2所示。

8.基于地质知识图谱圈定目标区的矿产

去除地质知识图谱中与研究区无关的实义词。结合“权重”及地质知识图谱中所“剩余的实义词”得出“剩余的实义词”所对应的共现内容(如图3所示)，从而对目标区的矿产进行圈定。

Claims

1.一种基于地质文本语料预测目标区矿产的方法，其特征在于，包含以下步骤：

a.对地质文本语料进行预处理，获得实义词；

b.依据设定的高频实义词频阈值得出高频实义词；

c.对高频实义词对开展共现矩阵计算；

d.基于共现矩阵计算结果生成地质知识谱图；

e.基于地质知识图谱圈定目标区的矿产。

2.根据权利要求1所述的方法，其特征在于，所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和去停用词。

3.根据权利要求1所述的方法，其特征在于，所述高频实义词阈值范围为10～100。

4.根据权利要求1所述的方法，其特征在于，所述地质知识图谱以词节点的大小和边长度的方式进行显示。

5.根据权利要求4所述的方法，其特征在于，所述词节点的大小为实义词的词频，所述边长度为实义词在地质语料中的共现频率。