CN113486676A

CN113486676A - 一种面向地质文本的地质实体语义关系提取方法及装置

Info

Publication number: CN113486676A
Application number: CN202110379257.2A
Authority: CN
Inventors: 储德平; 万波; 李红
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-10-08
Anticipated expiration: 2041-04-08
Also published as: CN113486676B

Abstract

本发明提供了一种面向地质文本资料的语义关系提取方法及装置，主要用于文本特征模式多样、内容冗余的非结构化地质文本资料中地质实体语义关系的提取。本发明充分结合了地质文本的表达特点，提供了完善的语义关系提取流程及装置。所述装置包括：地质文本输入模块；数据处理模块；数据标注模块；重要性计算模块；阈值设定模块；结果输出模块。本发明通过对地质文本资料中能够表达地质实体语义关系的词汇的相关特点进行了定量分析，提供了一种有效的面向地质文本资料的地质实体语义关系提取方法。

Description

一种面向地质文本的地质实体语义关系提取方法及装置

技术领域

本发明属于地理信息技术领域，尤其涉及一种面向地质文本的地质实体语义关系提取方法及装置。

背景技术

随着地质调查与勘探工作的持续进行，海量地质文本资料中积累了大量尚未得到充分利用的地质实体语义关系信息，这些实体语义关系信息在一定程度上反映了地质实体间的空间、拓扑、距离等关系，对于城市三维地质建模构建、模型质量评价等工作具有不可忽视的作用。

然而目前尚未有提出一种有效的地质实体语义关系提取方法用于文本特征模式多样、内容冗余的非结构化地质文本资料中地质实体语义关系的提取。

有鉴于此，如何采用有效的方法进行挖掘、组织和应用地质文本资料中的地质实体语义关系信息是推动当前地学领域发展的有力途径之一。

发明内容

鉴于上述问题，本发明的目的在于提供一种面向地质文本的地质实体语义关系提取方法及装置，旨在解决现有的技术方案难以有效提取特征模式多样、内容冗余的地质文本中所包含的语义关系问题。

一种面向地质文本的地质实体语义关系提取方法，包括如下步骤：

S1：划分地质实体的范围，选择需要抽取关系的地质实体类别；

S2：从地质文本资料中获取满足S1中实体类别条件且具有两个及以上地质实体的句子，将句子划分为训练样本集和评估样本集；

S3：对训练样本集中的句子参照S1所选的关系类别，按照地质实体1、地质实体2、实体位置1、实体位置2、关系词、关系词位置、关系词词性、关系词前两个词内是否存在介词或连词、原始语境的形式进行标注；

S4：结合地质文本语境，制定地质实体关系词抽取相关特征用于S6样本集特征统计；

S5：参考Bootstrapping算法原理，对S3标注完成的训练样本集中的句子进行有放回抽样，形成多个等规模的小样本集，所有的小样本集构成一个大规模的样本集；

S6：参照S4所制定的相关特征，对每个小样本集进行特征统计；

S7：依据S6统计结果，计算关系词的重要性，设计关系词提取方法；

S8：标注评估样本集中句子需要提取关系的实体对，并依据S7中的关系词提取方法，计算句子中每个词判定为关系词的得分；

S9：设定合适的阈值，若句子中存在得分大于阈值的词，则从中抽取得分最高的词作为反映地质实体语义关系的关系词，若不存在得分大于阈值的词，则判断相应实体间不存在关系，即关系词为Unknown。

一种面向地质文本的地质实体语义关系提取装置，用于任一项所述的一种面向地质文本的地质实体语义关系提取方法，包括地质文本输入模块、数据处理模块、数据标注模块、重要性计算模块、阈值设定模块以及结果输出模块；

所述地质文本输入模块，用于将待提取语义关系的各格式类型的地质文本资料进行录入，并转化成可编辑的模式；

所述数据处理模块，用于对输入数据进行处理，识别并筛选出满足实体类型要求的句子；

所述数据标注模块，用于对筛选出来的句子进行标注，并将标注结果划分成训练样本集和评估样本集；

所述重要性计算模块，用于对大样本集的构建和特征统计，构建重要性函数，以计算评估样本集各句子中每个词的重要性得分；

所述阈值设定模块，用于设定阈值，使得限定词得分大于阈值时判定为关系词；

所述结果输出模块，用于输出关系提取结果，并以三元组形成存储。

本发明提供的技术方案带来的有益效果是：本发明提供了一种面向地质文本的地质实体语义关系提取方法及装置，该方法能够充分结合地质文本资料的表达特点，从特征模型多样、内容冗余的地质文本中提取挖掘出能够在一定程度上反映地质实体空间、拓扑、距离等关系的信息，为城市三维地质建模、城市三维地质模型质量评价等工作提供支撑。

附图说明

图1为本发明面向地质文本的地质实体语义关系提取方法流程图；

图2为本发明面向地质文本的地质实体语义关系提取装置结构图。

具体实施方案

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用于解释本发明，但不用于限定本发明。

下面通过具体实施例来进行说明：

请参考图1，本发明一种面向地质文本的地质实体语义关系提取方法及装置；

一种面向地质文本的地质实体语义关系提取方法包括以下步骤：

步骤S1：划分地质实体的范围，选择需要抽取关系的地质实体类别。

面对多类型的地质实体，仅抽取岩体、矿体、地层三种可以在地质空间中直观表达的类别。

步骤S2：从地质文本资料中获取满足步骤S1中实体类别条件具有两个及以上地质实体的句子，划分训练样本集和评估样本集。

首先将需要提取关系的某地质文本报告进行清洗，删除地质图、表格等非文本的内容；其次对清洗后的文本报告进行分句，将文本报告划分成一系列句子的形式；然后本文采用中文jieba分词工具对这些句子进行分词操作，在分词时可以引入相关地质词典，避免分词错误；接着采用地质实体识别相关技术识别并提取出满足步骤S1所提出的实体类型且含有两个及以上地质实体的句子；最后将所有的句子按照1:1等比例分成训练样本集和评估样本集。

步骤S3：对训练样本集所获取的句子参照步骤S1所选的关系类别，按照地质实体1、地质实体2、实体位置1、实体位置2、关系词、关系词位置、关系词词性、关系词前两个词内是否存在介词或连词、原始语境的形式对句子进行标注。

采用人工标注和自动标注相结合的方法对训练样本集中句子逐个进行标注，每个句子的标注样式均为<Entity_1，Entity_2,Loc_1,Loc_2,RelationWord,Loc_r,Pos_r,0or1,Sentence>，为后续特征统计奠定基础。其中Entity_1为需要提取关系的第一个地质实体；Entity_2为需要提取关系的第二个地质实体；Loc_1为第一个地质实体在句子中的位置索引；Loc_2为第二个地质实体在句子中的位置索引；RelationWord为相应实体对间需要提取的关系词；Loc_r为关系词的位置索引；Pos_r为关系词的词性信息；0 or 1为表示关系词的前两个词内没有或者有介词或连词的情况；Sentence为原始的句子。

步骤S4：结合地质文本语境，制定地质实体关系词抽取相关特征用于S6样本集特征统计。

在本步骤中，主要制定的特征为关系词词性特征和关系词位置特征。其中关系词词性特征包括判定关系词是否为名词、动词、形容词或其他词性四类；关系词位置特征包括判定关系词距实体1距离、判定关系词距实体2的距离、判定关系词与实体1及实体2的位置关系、判定关系词左侧存在连词或介词时与实体1及实体2的位置关系、判定关系词与实体2所处句子切片前后符号的位置关系，制定完善的特征能够为后续实体对关系词判定提供充足的先验知识。

步骤S5：参考Bootstrapping算法原理，对步骤S3标注完成的句子集中的句子进行有放回抽样，形成多个等规模的小样本集，所有的小样本集构成一个大规模的样本集。

对步骤S3所标注的句子集每次有放回随机抽样一个句子，连续抽取1000次形成一个小样本，重复抽样10000个小样本形成样本数量为1000万大规模样本集，可以减少数据不足的问题。

步骤S6：参照步骤S4所制定的相关特征，对每个小样本集进行特征统计。

在本步骤中，分别逐小样本统计每句子中各词性的占比及各句中关系词与实体位置关系的占比，并取所有样本集的均值作为最终值。

步骤S7：依据S6统计结果，计算关系词的重要性，设计关系词提取方法。

在本步骤中，分别建立关系词词性重要性函数和关系词位置重要性函数，如下：

其中POS(w_i)表示词性i的占比，pos(num_i)表示词性i在样本集中的数量，n表示需要计算的所有词性的数量，这里为4；

其中LOC_j(w_i)表示第j个需要统计的位置特征中位置关系i的占比，loc_j(num_i)表示第j个需要统计的位置特征中位置关系i在样本集中的数量，m表示第j个需要统计的位置特征中所有位置关系的数量。

所采用的关系得分计算方法为：

步骤S8：标注评估样本集句中需要提取关系的实体对，并依据步骤S7中的关系词提取方法，计算句子中每个词的可以判定为关系词的得分。

在本步骤中，每个词都可以按照步骤S7的关系计算方法计算一个在所属剧中可以判定为关系词的得分，作为关系词判定的依据，得分越高属于关系词的概率越大，反之越小。

步骤S9：设定合适的阈值，若句子中存在得分大于阈值的词，则从中抽取得分最高的词作为反映地质实体语义关系的关系词，若不存在得分大于阈值的词，则判断相应实体间不存在关系，即关系词为Unknown。

请参考图2，一种面向地质文本的地质实体语义关系提取装置，用于完成面向地质文本的地质实体语义关系提取。

所述装置包括如下模块：

地质文本输入模块：用于将待提取语义关系的各格式类型的地质文本资料进行录入，并转化成可编辑的模式；

数据处理模块：用于对输入数据进行处理，识别并筛选出满足实体类型要求的句子；

数据标注模块：用于对筛选出来的句子进行标注，并将标注结果划分成训练样本集和评估样本集；

重要性计算模块：用于对大样本集的构建和特征统计，构建重要性函数，以计算评估样本集各句子中每个词的重要性得分；

阈值设定模块：用于设定阈值，使得限定词得分大于阈值时才可判定为关系词；

结果输出模块：用于输出关系提取结果，并以三元组形成存储。所述数据处理模块，包括：

数据清洗单元：用于对录入的地质文本资料进行清洗，删除不必要的图表；

分句分词单元：用于将清洗后的文本切分成句子，并进行分词；

数据筛选单元：用于地质实体识别，筛选中包含两个及以上地质实体且满足实体类型要求的句子，并进行存储。

所述数据标注模块，包括：

句子标注单元：用于根据步骤S3中的标注方式对筛选出来的句子进行标注，并存储；

样本集划分单元：用于将标注结果划分成训练样本集和评估样本集。

所述重要性计算模块，包括：

大样本构建单元：用于从训练样本集中的句子进行有放回抽样形成等规模的小样本，从而构建大样本集；

特征统计及方法设计单元：用于对大样本集中的特征占比进行统计，构建重要性函数；

重要性计算单元：用于计算评估样本集各句子中每个词的重要性得分，作为每个句子中每个词可以判定为该句对应实体对关系词的标准。

假设有以下地质文本信息：

德悟卡下组(S1d)根据岩石组合及其特征，可以分为上、下两部分。下部(剖面1～3层)为灰色薄层－薄板状粉砂质微晶灰岩与灰、灰黑色泥岩、钙质泥岩互层，含笔石、头足类和瓶筐类等化石，未见底。上部(剖面4～10层)为青灰色薄层－薄板状泥晶灰岩、粉砂质泥晶灰岩，夹灰黑色含炭质钙质板岩，灰岩中水平纹理发育，厚1040.9m。以含大量灰黑色泥岩及薄板状灰岩为特征，含鹦鹉螺类化石，地貌上形成负地形，总厚1538m。

从该地质文本信息中可以提取出的地质实体有“德悟卡下组”、“粉砂质微晶灰岩”、“泥岩”、“钙质泥岩”、“泥晶灰岩”、“粉砂质泥晶灰岩”、“含炭质钙质板岩”、“灰岩”、“泥岩”、“灰岩”等，两两判断关系，因而需要判断的关系的实体对有45组，例如“德悟卡下组”与“粉砂质微晶灰岩”、“粉砂质微晶灰岩”与“泥岩”等，这里不一一列举。

采用本发明方法后，可以根据标注的两个实体对，例如“德悟卡下组”与“粉砂质微晶灰岩”，计算这段句子中哪个词作为关系词的得分最高，由于添加了位置标签和距离约束，在实际判断时，离实体越远的词得分就会越低，最终可以判断出“下部”为“德悟卡下组”与“粉砂质微晶灰岩”的关系词，构成<德悟卡下组，下部，粉砂质微晶灰岩>三元组。

当实体对间不存在关系时，例如“粉砂质微晶灰岩”与“泥岩”，本发明会根据得分是否超过阈值判断该实体对间不存在关系，即Unknown，构成<粉砂质微晶灰岩，Unknown，泥岩>三元组。

综上，本发明可以提供一种面向地质文本的地质实体语义关系提取方法及装置，该方法能够充分结合地质文本资料的表达特点，从特征模型多样、内容冗余的地质文本中提取挖掘出能够在一定程度上反映地质实体空间、拓扑、距离等关系的信息，为城市三维地质建模、城市三维地质模型质量评价等工作提供支撑。

以上所述仅为本申请的实施例而已，并不用于限制本发明。对于本领域技术人员来说，凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种面向地质文本的地质实体语义关系提取方法，其特征在于，包括如下步骤：

S2：从地质文本资料中获取满足S1中实体类别条件且具有两个及以上地质实体的句子，将句子按照1:1等比例划分为训练样本集和评估样本集；

S3：对训练样本集中的句子参照S1所选的关系类别，按照包括地质实体1、地质实体2、实体位置1、实体位置2、关系词、关系词位置、关系词词性、关系词前两个词内是否存在介词或连词以及原始语境的形式进行标注；

S8：标注评估样本集中句子需要提取关系的实体对，并依据S7中的关系词提取方法，计算句子中每个词判定为关系词的得分，得分越高属于关系词的概率越大，反之越小；

2.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法，其特征在于，S1中所述选择需要抽取关系的地质实体类别包括岩体、矿体以及地层。

3.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法，其特征在于，所述S2具体为：

S21：对录入的地质文本资料进行清洗，删除不必要的图表；

S22：将清洗后的文本切分成句子，并进行分词；

S23：筛选出包含两个及以上地质实体且满足实体类型要求的句子，并进行存储；

S24：对筛选出来的句子进行标注，并存储；

S25：将标注结果划分成训练样本集和评估样本集。

4.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法，其特征在于，S3中所述对句子进行标注的方式具体为：<Entity_1，Entity_2,Loc_1,Loc_2,RelationWord,Loc_r,Pos_r,0 or 1,Sentence>；

其中，Entity_1为需要提取关系的第一个地质实体；Entity_2为需要提取关系的第二个地质实体；Loc_1为第一个地质实体在句子中的位置索引；Loc_2为第二个地质实体在句子中的位置索引；Relatio nWord为相应实体对间需要提取的关系词；Loc_r为关系词的位置索引；Pos_r为关系词的词性信息；0 or 1为表示关系词的前两个词内没有或者有介词或连词的情况；Sentence为原始的句子。

5.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法，其特征在于，S4中所述制定关系词抽取相关特征，具体包括判定关系词词性特征和判定关系词位置特征：

所述判定关系词词性特征，包括判定关系词是否为名词、动词、形容词或其他词性；

所述判定关系词位置特征，包括判定关系词距实体1距离、判定关系词距实体2的距离、判定关系词与实体1及实体2的位置关系、判定关系词左侧存在连词或介词时与实体1及实体2的位置关系、判定关系词与实体2所处句子切片前后符号的位置关系。

6.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法，其特征在于，所述S5具体如下：

S51：基于S3标注的句子集每次有放回随机抽取一个句子，连续抽取1000次形成一个小样本集；

S52：重复抽样10000个小样本集形成大规模样本集。

7.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法，其特征在于，S6中所述对每个小样本集进行特征统计，具体为：

依据S5，逐小样本集统计每个句子中各词性的占比，并取所有小样本集的均值作为大样本集的值；逐小样本集统计每个句子中各关系词与实体位置关系的占比，并取所有小样本集的均值作为大样本集的值。

8.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法，其特征在于，S7中所述计算关系词的重要性，具体为：

分别建立关系词词性重要性函数和关系词位置重要性函数，分别如下：

其中POS(w_i)表示词性i的占比，pos(num_i)表示词性i在样本集中的数量，n表示需要计算的所有词性的数量，n＝4；

其中LOC_j(w_i)表示第j个需要统计的位置特征中位置关系i的占比，loc_j(num_i)表示第j个需要统计的位置特征中位置关系i在样本集中的数量，m表示第j个需要统计的位置特征中所有位置关系的数量；

所采用的关系得分计算方法为：

其中，Score为关系得分。

9.一种面向地质文本的地质实体语义关系提取装置，用于如权利要求1-8任一项所述的一种面向地质文本的地质实体语义关系提取方法，其特征在于，包括地质文本输入模块、数据处理模块、数据标注模块、重要性计算模块、阈值设定模块以及结果输出模块；

10.根据权利要求9所述的一种面向地质文本的地质实体语义关系提取装置，其特征在于，所述数据处理模块包括数据清洗单元、分句分词单元以及数据筛选单元：

所述数据清洗单元，用于对录入的地质文本资料进行清洗，删除不必要的图表；

所述分句分词单元，用于将清洗后的文本切分成句子，并进行分词；

所述数据筛选单元，用于地质实体识别，筛选中包含两个及以上地质实体且满足实体类型要求的句子，并进行存储；

所述数据标注模块包括句子标注单元、样本集划分单元：

所述句子标注单元，用于根据标注方式对筛选出来的句子进行标注，并存储；

所述样本集划分单元，用于将标注结果划分成训练样本集和评估样本集；

所述重要性计算模块，包括大样本构建单元、特征统计及方法设计单元、重要性计算单元；

所述大样本构建单元，用于从训练样本集中的句子进行有放回抽样形成等规模的小样本，从而构建大样本集；

所述特征统计及方法设计单元，用于对大样本集中的特征占比进行统计，构建重要性函数；

所述重要性计算单元，用于计算评估样本集各句子中每个词的重要性得分，作为每个句子中每个词判定为该句对应实体对关系词的标准。