CN113486676A - 一种面向地质文本的地质实体语义关系提取方法及装置 - Google Patents

一种面向地质文本的地质实体语义关系提取方法及装置 Download PDF

Info

Publication number
CN113486676A
CN113486676A CN202110379257.2A CN202110379257A CN113486676A CN 113486676 A CN113486676 A CN 113486676A CN 202110379257 A CN202110379257 A CN 202110379257A CN 113486676 A CN113486676 A CN 113486676A
Authority
CN
China
Prior art keywords
geological
relation
entity
sample set
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110379257.2A
Other languages
English (en)
Other versions
CN113486676B (zh
Inventor
储德平
万波
李红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202110379257.2A priority Critical patent/CN113486676B/zh
Publication of CN113486676A publication Critical patent/CN113486676A/zh
Application granted granted Critical
Publication of CN113486676B publication Critical patent/CN113486676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种面向地质文本资料的语义关系提取方法及装置,主要用于文本特征模式多样、内容冗余的非结构化地质文本资料中地质实体语义关系的提取。本发明充分结合了地质文本的表达特点,提供了完善的语义关系提取流程及装置。所述装置包括:地质文本输入模块;数据处理模块;数据标注模块;重要性计算模块;阈值设定模块;结果输出模块。本发明通过对地质文本资料中能够表达地质实体语义关系的词汇的相关特点进行了定量分析,提供了一种有效的面向地质文本资料的地质实体语义关系提取方法。

Description

一种面向地质文本的地质实体语义关系提取方法及装置
技术领域
本发明属于地理信息技术领域,尤其涉及一种面向地质文本的地质实体语义关系提取方法及装置。
背景技术
随着地质调查与勘探工作的持续进行,海量地质文本资料中积累了大量尚未得到充分利用的地质实体语义关系信息,这些实体语义关系信息在一定程度上反映了地质实体间的空间、拓扑、距离等关系,对于城市三维地质建模构建、模型质量评价等工作具有不可忽视的作用。
然而目前尚未有提出一种有效的地质实体语义关系提取方法用于文本特征模式多样、内容冗余的非结构化地质文本资料中地质实体语义关系的提取。
有鉴于此,如何采用有效的方法进行挖掘、组织和应用地质文本资料中的地质实体语义关系信息是推动当前地学领域发展的有力途径之一。
发明内容
鉴于上述问题,本发明的目的在于提供一种面向地质文本的地质实体语义关系提取方法及装置,旨在解决现有的技术方案难以有效提取特征模式多样、内容冗余的地质文本中所包含的语义关系问题。
一种面向地质文本的地质实体语义关系提取方法,包括如下步骤:
S1:划分地质实体的范围,选择需要抽取关系的地质实体类别;
S2:从地质文本资料中获取满足S1中实体类别条件且具有两个及以上地质实体的句子,将句子划分为训练样本集和评估样本集;
S3:对训练样本集中的句子参照S1所选的关系类别,按照地质实体1、地质实体2、实体位置1、实体位置2、关系词、关系词位置、关系词词性、关系词前两个词内是否存在介词或连词、原始语境的形式进行标注;
S4:结合地质文本语境,制定地质实体关系词抽取相关特征用于S6样本集特征统计;
S5:参考Bootstrapping算法原理,对S3标注完成的训练样本集中的句子进行有放回抽样,形成多个等规模的小样本集,所有的小样本集构成一个大规模的样本集;
S6:参照S4所制定的相关特征,对每个小样本集进行特征统计;
S7:依据S6统计结果,计算关系词的重要性,设计关系词提取方法;
S8:标注评估样本集中句子需要提取关系的实体对,并依据S7中的关系词提取方法,计算句子中每个词判定为关系词的得分;
S9:设定合适的阈值,若句子中存在得分大于阈值的词,则从中抽取得分最高的词作为反映地质实体语义关系的关系词,若不存在得分大于阈值的词,则判断相应实体间不存在关系,即关系词为Unknown。
一种面向地质文本的地质实体语义关系提取装置,用于任一项所述的一种面向地质文本的地质实体语义关系提取方法,包括地质文本输入模块、数据处理模块、数据标注模块、重要性计算模块、阈值设定模块以及结果输出模块;
所述地质文本输入模块,用于将待提取语义关系的各格式类型的地质文本资料进行录入,并转化成可编辑的模式;
所述数据处理模块,用于对输入数据进行处理,识别并筛选出满足实体类型要求的句子;
所述数据标注模块,用于对筛选出来的句子进行标注,并将标注结果划分成训练样本集和评估样本集;
所述重要性计算模块,用于对大样本集的构建和特征统计,构建重要性函数,以计算评估样本集各句子中每个词的重要性得分;
所述阈值设定模块,用于设定阈值,使得限定词得分大于阈值时判定为关系词;
所述结果输出模块,用于输出关系提取结果,并以三元组形成存储。
本发明提供的技术方案带来的有益效果是:本发明提供了一种面向地质文本的地质实体语义关系提取方法及装置,该方法能够充分结合地质文本资料的表达特点,从特征模型多样、内容冗余的地质文本中提取挖掘出能够在一定程度上反映地质实体空间、拓扑、距离等关系的信息,为城市三维地质建模、城市三维地质模型质量评价等工作提供支撑。
附图说明
图1为本发明面向地质文本的地质实体语义关系提取方法流程图;
图2为本发明面向地质文本的地质实体语义关系提取装置结构图。
具体实施方案
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用于解释本发明,但不用于限定本发明。
下面通过具体实施例来进行说明:
请参考图1,本发明一种面向地质文本的地质实体语义关系提取方法及装置;
一种面向地质文本的地质实体语义关系提取方法包括以下步骤:
步骤S1:划分地质实体的范围,选择需要抽取关系的地质实体类别。
面对多类型的地质实体,仅抽取岩体、矿体、地层三种可以在地质空间中直观表达的类别。
步骤S2:从地质文本资料中获取满足步骤S1中实体类别条件具有两个及以上地质实体的句子,划分训练样本集和评估样本集。
首先将需要提取关系的某地质文本报告进行清洗,删除地质图、表格等非文本的内容;其次对清洗后的文本报告进行分句,将文本报告划分成一系列句子的形式;然后本文采用中文jieba分词工具对这些句子进行分词操作,在分词时可以引入相关地质词典,避免分词错误;接着采用地质实体识别相关技术识别并提取出满足步骤S1所提出的实体类型且含有两个及以上地质实体的句子;最后将所有的句子按照1:1等比例分成训练样本集和评估样本集。
步骤S3:对训练样本集所获取的句子参照步骤S1所选的关系类别,按照地质实体1、地质实体2、实体位置1、实体位置2、关系词、关系词位置、关系词词性、关系词前两个词内是否存在介词或连词、原始语境的形式对句子进行标注。
采用人工标注和自动标注相结合的方法对训练样本集中句子逐个进行标注,每个句子的标注样式均为<Entity_1,Entity_2,Loc_1,Loc_2,RelationWord,Loc_r,Pos_r,0or1,Sentence>,为后续特征统计奠定基础。其中Entity_1为需要提取关系的第一个地质实体;Entity_2为需要提取关系的第二个地质实体;Loc_1为第一个地质实体在句子中的位置索引;Loc_2为第二个地质实体在句子中的位置索引;RelationWord为相应实体对间需要提取的关系词;Loc_r为关系词的位置索引;Pos_r为关系词的词性信息;0 or 1为表示关系词的前两个词内没有或者有介词或连词的情况;Sentence为原始的句子。
步骤S4:结合地质文本语境,制定地质实体关系词抽取相关特征用于S6样本集特征统计。
在本步骤中,主要制定的特征为关系词词性特征和关系词位置特征。其中关系词词性特征包括判定关系词是否为名词、动词、形容词或其他词性四类;关系词位置特征包括判定关系词距实体1距离、判定关系词距实体2的距离、判定关系词与实体1及实体2的位置关系、判定关系词左侧存在连词或介词时与实体1及实体2的位置关系、判定关系词与实体2所处句子切片前后符号的位置关系,制定完善的特征能够为后续实体对关系词判定提供充足的先验知识。
步骤S5:参考Bootstrapping算法原理,对步骤S3标注完成的句子集中的句子进行有放回抽样,形成多个等规模的小样本集,所有的小样本集构成一个大规模的样本集。
对步骤S3所标注的句子集每次有放回随机抽样一个句子,连续抽取1000次形成一个小样本,重复抽样10000个小样本形成样本数量为1000万大规模样本集,可以减少数据不足的问题。
步骤S6:参照步骤S4所制定的相关特征,对每个小样本集进行特征统计。
在本步骤中,分别逐小样本统计每句子中各词性的占比及各句中关系词与实体位置关系的占比,并取所有样本集的均值作为最终值。
步骤S7:依据S6统计结果,计算关系词的重要性,设计关系词提取方法。
在本步骤中,分别建立关系词词性重要性函数和关系词位置重要性函数,如下:
Figure BDA0003012344740000061
其中POS(wi)表示词性i的占比,pos(numi)表示词性i在样本集中的数量,n表示需要计算的所有词性的数量,这里为4;
Figure BDA0003012344740000071
其中LOCj(wi)表示第j个需要统计的位置特征中位置关系i的占比,locj(numi)表示第j个需要统计的位置特征中位置关系i在样本集中的数量,m表示第j个需要统计的位置特征中所有位置关系的数量。
所采用的关系得分计算方法为:
Figure BDA0003012344740000072
步骤S8:标注评估样本集句中需要提取关系的实体对,并依据步骤S7中的关系词提取方法,计算句子中每个词的可以判定为关系词的得分。
在本步骤中,每个词都可以按照步骤S7的关系计算方法计算一个在所属剧中可以判定为关系词的得分,作为关系词判定的依据,得分越高属于关系词的概率越大,反之越小。
步骤S9:设定合适的阈值,若句子中存在得分大于阈值的词,则从中抽取得分最高的词作为反映地质实体语义关系的关系词,若不存在得分大于阈值的词,则判断相应实体间不存在关系,即关系词为Unknown。
请参考图2,一种面向地质文本的地质实体语义关系提取装置,用于完成面向地质文本的地质实体语义关系提取。
所述装置包括如下模块:
地质文本输入模块:用于将待提取语义关系的各格式类型的地质文本资料进行录入,并转化成可编辑的模式;
数据处理模块:用于对输入数据进行处理,识别并筛选出满足实体类型要求的句子;
数据标注模块:用于对筛选出来的句子进行标注,并将标注结果划分成训练样本集和评估样本集;
重要性计算模块:用于对大样本集的构建和特征统计,构建重要性函数,以计算评估样本集各句子中每个词的重要性得分;
阈值设定模块:用于设定阈值,使得限定词得分大于阈值时才可判定为关系词;
结果输出模块:用于输出关系提取结果,并以三元组形成存储。所述数据处理模块,包括:
数据清洗单元:用于对录入的地质文本资料进行清洗,删除不必要的图表;
分句分词单元:用于将清洗后的文本切分成句子,并进行分词;
数据筛选单元:用于地质实体识别,筛选中包含两个及以上地质实体且满足实体类型要求的句子,并进行存储。
所述数据标注模块,包括:
句子标注单元:用于根据步骤S3中的标注方式对筛选出来的句子进行标注,并存储;
样本集划分单元:用于将标注结果划分成训练样本集和评估样本集。
所述重要性计算模块,包括:
大样本构建单元:用于从训练样本集中的句子进行有放回抽样形成等规模的小样本,从而构建大样本集;
特征统计及方法设计单元:用于对大样本集中的特征占比进行统计,构建重要性函数;
重要性计算单元:用于计算评估样本集各句子中每个词的重要性得分,作为每个句子中每个词可以判定为该句对应实体对关系词的标准。
假设有以下地质文本信息:
德悟卡下组(S1d)根据岩石组合及其特征,可以分为上、下两部分。下部(剖面1~3层)为灰色薄层-薄板状粉砂质微晶灰岩与灰、灰黑色泥岩、钙质泥岩互层,含笔石、头足类和瓶筐类等化石,未见底。上部(剖面4~10层)为青灰色薄层-薄板状泥晶灰岩、粉砂质泥晶灰岩,夹灰黑色含炭质钙质板岩,灰岩中水平纹理发育,厚1040.9m。以含大量灰黑色泥岩及薄板状灰岩为特征,含鹦鹉螺类化石,地貌上形成负地形,总厚1538m。
从该地质文本信息中可以提取出的地质实体有“德悟卡下组”、“粉砂质微晶灰岩”、“泥岩”、“钙质泥岩”、“泥晶灰岩”、“粉砂质泥晶灰岩”、“含炭质钙质板岩”、“灰岩”、“泥岩”、“灰岩”等,两两判断关系,因而需要判断的关系的实体对有45组,例如“德悟卡下组”与“粉砂质微晶灰岩”、“粉砂质微晶灰岩”与“泥岩”等,这里不一一列举。
采用本发明方法后,可以根据标注的两个实体对,例如“德悟卡下组”与“粉砂质微晶灰岩”,计算这段句子中哪个词作为关系词的得分最高,由于添加了位置标签和距离约束,在实际判断时,离实体越远的词得分就会越低,最终可以判断出“下部”为“德悟卡下组”与“粉砂质微晶灰岩”的关系词,构成<德悟卡下组,下部,粉砂质微晶灰岩>三元组。
当实体对间不存在关系时,例如“粉砂质微晶灰岩”与“泥岩”,本发明会根据得分是否超过阈值判断该实体对间不存在关系,即Unknown,构成<粉砂质微晶灰岩,Unknown,泥岩>三元组。
综上,本发明可以提供一种面向地质文本的地质实体语义关系提取方法及装置,该方法能够充分结合地质文本资料的表达特点,从特征模型多样、内容冗余的地质文本中提取挖掘出能够在一定程度上反映地质实体空间、拓扑、距离等关系的信息,为城市三维地质建模、城市三维地质模型质量评价等工作提供支撑。
以上所述仅为本申请的实施例而已,并不用于限制本发明。对于本领域技术人员来说,凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种面向地质文本的地质实体语义关系提取方法,其特征在于,包括如下步骤:
S1:划分地质实体的范围,选择需要抽取关系的地质实体类别;
S2:从地质文本资料中获取满足S1中实体类别条件且具有两个及以上地质实体的句子,将句子按照1:1等比例划分为训练样本集和评估样本集;
S3:对训练样本集中的句子参照S1所选的关系类别,按照包括地质实体1、地质实体2、实体位置1、实体位置2、关系词、关系词位置、关系词词性、关系词前两个词内是否存在介词或连词以及原始语境的形式进行标注;
S4:结合地质文本语境,制定地质实体关系词抽取相关特征用于S6样本集特征统计;
S5:参考Bootstrapping算法原理,对S3标注完成的训练样本集中的句子进行有放回抽样,形成多个等规模的小样本集,所有的小样本集构成一个大规模的样本集;
S6:参照S4所制定的相关特征,对每个小样本集进行特征统计;
S7:依据S6统计结果,计算关系词的重要性,设计关系词提取方法;
S8:标注评估样本集中句子需要提取关系的实体对,并依据S7中的关系词提取方法,计算句子中每个词判定为关系词的得分,得分越高属于关系词的概率越大,反之越小;
S9:设定合适的阈值,若句子中存在得分大于阈值的词,则从中抽取得分最高的词作为反映地质实体语义关系的关系词,若不存在得分大于阈值的词,则判断相应实体间不存在关系,即关系词为Unknown。
2.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法,其特征在于,S1中所述选择需要抽取关系的地质实体类别包括岩体、矿体以及地层。
3.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法,其特征在于,所述S2具体为:
S21:对录入的地质文本资料进行清洗,删除不必要的图表;
S22:将清洗后的文本切分成句子,并进行分词;
S23:筛选出包含两个及以上地质实体且满足实体类型要求的句子,并进行存储;
S24:对筛选出来的句子进行标注,并存储;
S25:将标注结果划分成训练样本集和评估样本集。
4.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法,其特征在于,S3中所述对句子进行标注的方式具体为:<Entity_1,Entity_2,Loc_1,Loc_2,RelationWord,Loc_r,Pos_r,0 or 1,Sentence>;
其中,Entity_1为需要提取关系的第一个地质实体;Entity_2为需要提取关系的第二个地质实体;Loc_1为第一个地质实体在句子中的位置索引;Loc_2为第二个地质实体在句子中的位置索引;Relatio nWord为相应实体对间需要提取的关系词;Loc_r为关系词的位置索引;Pos_r为关系词的词性信息;0 or 1为表示关系词的前两个词内没有或者有介词或连词的情况;Sentence为原始的句子。
5.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法,其特征在于,S4中所述制定关系词抽取相关特征,具体包括判定关系词词性特征和判定关系词位置特征:
所述判定关系词词性特征,包括判定关系词是否为名词、动词、形容词或其他词性;
所述判定关系词位置特征,包括判定关系词距实体1距离、判定关系词距实体2的距离、判定关系词与实体1及实体2的位置关系、判定关系词左侧存在连词或介词时与实体1及实体2的位置关系、判定关系词与实体2所处句子切片前后符号的位置关系。
6.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法,其特征在于,所述S5具体如下:
S51:基于S3标注的句子集每次有放回随机抽取一个句子,连续抽取1000次形成一个小样本集;
S52:重复抽样10000个小样本集形成大规模样本集。
7.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法,其特征在于,S6中所述对每个小样本集进行特征统计,具体为:
依据S5,逐小样本集统计每个句子中各词性的占比,并取所有小样本集的均值作为大样本集的值;逐小样本集统计每个句子中各关系词与实体位置关系的占比,并取所有小样本集的均值作为大样本集的值。
8.根据权利要求1所述的一种面向地质文本的地质实体语义关系提取方法,其特征在于,S7中所述计算关系词的重要性,具体为:
分别建立关系词词性重要性函数和关系词位置重要性函数,分别如下:
Figure FDA0003012344730000041
其中POS(wi)表示词性i的占比,pos(numi)表示词性i在样本集中的数量,n表示需要计算的所有词性的数量,n=4;
Figure FDA0003012344730000042
其中LOCj(wi)表示第j个需要统计的位置特征中位置关系i的占比,locj(numi)表示第j个需要统计的位置特征中位置关系i在样本集中的数量,m表示第j个需要统计的位置特征中所有位置关系的数量;
所采用的关系得分计算方法为:
Figure FDA0003012344730000043
其中,Score为关系得分。
9.一种面向地质文本的地质实体语义关系提取装置,用于如权利要求1-8任一项所述的一种面向地质文本的地质实体语义关系提取方法,其特征在于,包括地质文本输入模块、数据处理模块、数据标注模块、重要性计算模块、阈值设定模块以及结果输出模块;
所述地质文本输入模块,用于将待提取语义关系的各格式类型的地质文本资料进行录入,并转化成可编辑的模式;
所述数据处理模块,用于对输入数据进行处理,识别并筛选出满足实体类型要求的句子;
所述数据标注模块,用于对筛选出来的句子进行标注,并将标注结果划分成训练样本集和评估样本集;
所述重要性计算模块,用于对大样本集的构建和特征统计,构建重要性函数,以计算评估样本集各句子中每个词的重要性得分;
所述阈值设定模块,用于设定阈值,使得限定词得分大于阈值时判定为关系词;
所述结果输出模块,用于输出关系提取结果,并以三元组形成存储。
10.根据权利要求9所述的一种面向地质文本的地质实体语义关系提取装置,其特征在于,所述数据处理模块包括数据清洗单元、分句分词单元以及数据筛选单元:
所述数据清洗单元,用于对录入的地质文本资料进行清洗,删除不必要的图表;
所述分句分词单元,用于将清洗后的文本切分成句子,并进行分词;
所述数据筛选单元,用于地质实体识别,筛选中包含两个及以上地质实体且满足实体类型要求的句子,并进行存储;
所述数据标注模块包括句子标注单元、样本集划分单元:
所述句子标注单元,用于根据标注方式对筛选出来的句子进行标注,并存储;
所述样本集划分单元,用于将标注结果划分成训练样本集和评估样本集;
所述重要性计算模块,包括大样本构建单元、特征统计及方法设计单元、重要性计算单元;
所述大样本构建单元,用于从训练样本集中的句子进行有放回抽样形成等规模的小样本,从而构建大样本集;
所述特征统计及方法设计单元,用于对大样本集中的特征占比进行统计,构建重要性函数;
所述重要性计算单元,用于计算评估样本集各句子中每个词的重要性得分,作为每个句子中每个词判定为该句对应实体对关系词的标准。
CN202110379257.2A 2021-04-08 2021-04-08 一种面向地质文本的地质实体语义关系提取方法及装置 Active CN113486676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110379257.2A CN113486676B (zh) 2021-04-08 2021-04-08 一种面向地质文本的地质实体语义关系提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110379257.2A CN113486676B (zh) 2021-04-08 2021-04-08 一种面向地质文本的地质实体语义关系提取方法及装置

Publications (2)

Publication Number Publication Date
CN113486676A true CN113486676A (zh) 2021-10-08
CN113486676B CN113486676B (zh) 2023-08-11

Family

ID=77932814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110379257.2A Active CN113486676B (zh) 2021-04-08 2021-04-08 一种面向地质文本的地质实体语义关系提取方法及装置

Country Status (1)

Country Link
CN (1) CN113486676B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1858803A (zh) * 2006-04-04 2006-11-08 天津大学 水利水电工程地质信息的三维统一模型构建方法
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN107193807A (zh) * 2017-05-12 2017-09-22 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
US20190095423A1 (en) * 2016-09-29 2019-03-28 Tencent Technology (Shenzhen) Company Limited Text recognition method and apparatus, and storage medium
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN110795932A (zh) * 2019-09-30 2020-02-14 中国地质大学(武汉) 基于地质本体的地质报告文本信息提取方法
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1858803A (zh) * 2006-04-04 2006-11-08 天津大学 水利水电工程地质信息的三维统一模型构建方法
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
US20190095423A1 (en) * 2016-09-29 2019-03-28 Tencent Technology (Shenzhen) Company Limited Text recognition method and apparatus, and storage medium
CN107193807A (zh) * 2017-05-12 2017-09-22 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN110795932A (zh) * 2019-09-30 2020-02-14 中国地质大学(武汉) 基于地质本体的地质报告文本信息提取方法
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
万波: "《一种顾及元素语义关联的复合地理网络及其构建算法》", 《测绘科学》 *

Also Published As

Publication number Publication date
CN113486676B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN106156365A (zh) 一种知识图谱的生成方法及装置
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN105550170A (zh) 一种中文分词方法及装置
CN110097096B (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN112527933A (zh) 一种基于空间位置和文本训练的中文地址关联方法
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
CN107357765A (zh) Word文档碎片化方法及装置
CN114662495A (zh) 一种基于深度学习的英文文献污染物信息抽取方法
CN111611404A (zh) 一种基于地质文本语料预测目标区矿产的方法
CN117371534B (zh) 一种基于bert的知识图谱构建方法及系统
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN114970554B (zh) 一种基于自然语言处理的文档校验方法
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN113486676A (zh) 一种面向地质文本的地质实体语义关系提取方法及装置
CN113158669B (zh) 一种用工平台正负面评论识别的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant