CN111611404A - 一种基于地质文本语料预测目标区矿产的方法 - Google Patents

一种基于地质文本语料预测目标区矿产的方法 Download PDF

Info

Publication number
CN111611404A
CN111611404A CN202010430377.6A CN202010430377A CN111611404A CN 111611404 A CN111611404 A CN 111611404A CN 202010430377 A CN202010430377 A CN 202010430377A CN 111611404 A CN111611404 A CN 111611404A
Authority
CN
China
Prior art keywords
geological
frequency
word
semantic
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010430377.6A
Other languages
English (en)
Inventor
朱月琴
吴永亮
谭永杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Development & Research Center Of China Geological Survey Bureau
Original Assignee
Development & Research Center Of China Geological Survey Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Development & Research Center Of China Geological Survey Bureau filed Critical Development & Research Center Of China Geological Survey Bureau
Priority to CN202010430377.6A priority Critical patent/CN111611404A/zh
Publication of CN111611404A publication Critical patent/CN111611404A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于地质文本语料预测目标区矿产的方法。基于地质文本语料预测目标区矿产的方法步骤依次为:首先,对地质文本语料进行预处理获取实义词;然后,依据设定的高频实义词频阈值得出高频实义词;再对高频实义词对开展共现矩阵计算;另外,基于共现矩阵计算结果生成地质知识谱图;最后,基于地质知识图谱圈定目标区的矿产。本方法构建的地质知识图谱,可满足地质大数据的应用服务的需求,对于大数据时代背景下矿产的预测及发现具有重要意义。

Description

一种基于地质文本语料预测目标区矿产的方法
技术领域
本发明涉及矿产资源预测的技术领域,尤其涉及一种对地质文本语料处理进而预测目标区矿产的方法。
背景技术
地质文本语料中的句子可以被分成实义词和语义含糊的功能描述性词。在文本数据中,实义词是文本关键信息的载体,而一些虚词等没有实际意义。通过选择高频实义词作为每篇文本的主要实义词,能够简单、清楚的代表地学文本中的主要内容。
实义词表明了文本语料的主要信息,其在本体模型中属于概念,在地学中可分为地质学、技术方法和描述性词汇等类型:(1)地质学词汇是与地质和矿物资源有关的词汇,例如断裂、岩浆岩等;(2)技术方法词汇主要是与矿产勘查、数据处理等工作或处理过程有关的词汇,例如遥感、航磁等;(3)描述性词语是一些与地质主题没有直接关系的功能实义词,例如研究、分析等。
依据文本语料中的实义词所生成的知识图谱对于矿产预测领域的知识分析与挖掘的应用具有重要意义。目前缺少通过地质文本语料预测目标区矿产的方法。
发明内容
本发明主要解决的技术问题是提供一种地质文本语料预测目标区矿产的方法。
为解决上述技术问题,本发明公开的方法,包括以下步骤:
a.对地质文本语料进行预处理,获得实义词;
b.依据设定的高频实义词频阈值得出高频实义词;
c.对高频实义词对开展共现矩阵计算;
d.基于共现矩阵计算结果生成地质知识谱图;
e.基于地质知识图谱圈定目标区的矿产。
进一步的,所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和去停用词。
进一步的,所述高频实义词阈值范围为10~100。
进一步的,所述地质知识图谱以词节点的大小和边长度的方式进行显示。
进一步的,所述词节点的大小为实义词的词频,所述边长度为实义词在地质语料中的共现频率。
综上所述,本发明具有以下有益效果:
通过本发明的方法,可以实现基于地质语的知识图谱自动生成及目标区的矿产预测,满足地质大数据的应用服务的需求,对于大数据时代背景下矿产的预测及发现具有重要意义。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是经过词频统计的成矿预测相关实义词示意图。
图2是实义词共现关系示意图。
图3是目标区的共现信息示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例,用于说明本发明,但不用来限制本发明的范围。
本发明公开了一种基于地质文本语料预测目标区矿产的方法,具体包括如下步骤:
1.对地质文本进行分词处理
依据标点符号对文本进行句子划分,根据标点符、换行符将句子切分为独立的词语,即将句子切分形成独立的词汇、标点符号组合。
2.去掉文本中停用词,得到实词的组合
①将句子中的上下文信息给每个词确定一个最为合适的词性标记,确定词汇是实词还是虚词。依据词性将虚词(包括副词、介词、连词、助词、象声词)删除,获得实词组合。②通过设定停用词词典,使用字符匹配的方式删除常用词、描述性词等停用词库中已记录的停用词,获得实词组合。
3.统计实义词频
将去掉停用词和标点符号的实义词语料进行实义词词频统计,并将其词频数进行排序。
4.构建实义词矩阵
将提取的实义词构建成实义词矩阵,每一列是一个关键词,每一行的关键词来自同一篇文本语料。然后,按照全部语料的实义词词频进行降序排列。
5.确定高频词的阈值
确定高频词与低频词的分界点,高频词的阈值设置为10至100之间。
6.生成实义词共现矩阵
将词频符合高频词阈值的实义词过滤出来,假设满足条件的实义词数为N,则形成N阶的高频实义词共现矩阵,并将矩阵主对角线的数据改为0,如表1所示(分析同一个词在不同语料中出现的次数没有意义)。
表1共现矩阵(部分)
成矿 构造 矿床 模型 矿体
成矿 0 17 0 16 20
构造 17 0 25 14 8
矿床 0 25 0 9 6
模型 16 14 9 0 5
矿体 20 8 6 5 0
7.生成地质知识图谱
以共现词对和“权重”为基础构建地质知识图谱。“权重”由语料中两个实义词的共现频率来确定。如果在语料库中两个实义词相邻,则它们的关系就是“共现”,次数越多说明关系越近,如图2所示。
8.基于地质知识图谱圈定目标区的矿产
去除地质知识图谱中与研究区无关的实义词。结合“权重”及地质知识图谱中所“剩余的实义词”得出“剩余的实义词”所对应的共现内容(如图3所示),从而对目标区的矿产进行圈定。

Claims (5)

1.一种基于地质文本语料预测目标区矿产的方法,其特征在于,包含以下步骤:
a.对地质文本语料进行预处理,获得实义词;
b.依据设定的高频实义词频阈值得出高频实义词;
c.对高频实义词对开展共现矩阵计算;
d.基于共现矩阵计算结果生成地质知识谱图;
e.基于地质知识图谱圈定目标区的矿产。
2.根据权利要求1所述的方法,其特征在于,所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和去停用词。
3.根据权利要求1所述的方法,其特征在于,所述高频实义词阈值范围为10~100。
4.根据权利要求1所述的方法,其特征在于,所述地质知识图谱以词节点的大小和边长度的方式进行显示。
5.根据权利要求4所述的方法,其特征在于,所述词节点的大小为实义词的词频,所述边长度为实义词在地质语料中的共现频率。
CN202010430377.6A 2020-05-20 2020-05-20 一种基于地质文本语料预测目标区矿产的方法 Pending CN111611404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010430377.6A CN111611404A (zh) 2020-05-20 2020-05-20 一种基于地质文本语料预测目标区矿产的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010430377.6A CN111611404A (zh) 2020-05-20 2020-05-20 一种基于地质文本语料预测目标区矿产的方法

Publications (1)

Publication Number Publication Date
CN111611404A true CN111611404A (zh) 2020-09-01

Family

ID=72201505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010430377.6A Pending CN111611404A (zh) 2020-05-20 2020-05-20 一种基于地质文本语料预测目标区矿产的方法

Country Status (1)

Country Link
CN (1) CN111611404A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN115618018A (zh) * 2022-10-31 2023-01-17 福州果集信息科技有限公司 一种基于spu的知识图谱构建方法及存储介质
CN116307123A (zh) * 2023-02-23 2023-06-23 中国地质大学(武汉) 一种基于知识图谱驱动的矿产资源预测方法、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN109522192A (zh) * 2018-10-17 2019-03-26 北京航空航天大学 一种基于知识图谱和复杂网络组合的预测方法
US20200042508A1 (en) * 2018-08-06 2020-02-06 Walmart Apollo, Llc Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
CN111143547A (zh) * 2019-12-30 2020-05-12 山东大学 一种基于知识图谱的大数据显示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
US20200042508A1 (en) * 2018-08-06 2020-02-06 Walmart Apollo, Llc Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
CN109522192A (zh) * 2018-10-17 2019-03-26 北京航空航天大学 一种基于知识图谱和复杂网络组合的预测方法
CN111143547A (zh) * 2019-12-30 2020-05-12 山东大学 一种基于知识图谱的大数据显示方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN115618018A (zh) * 2022-10-31 2023-01-17 福州果集信息科技有限公司 一种基于spu的知识图谱构建方法及存储介质
CN116307123A (zh) * 2023-02-23 2023-06-23 中国地质大学(武汉) 一种基于知识图谱驱动的矿产资源预测方法、存储介质
CN116307123B (zh) * 2023-02-23 2023-11-14 中国地质大学(武汉) 一种基于知识图谱驱动的矿产资源预测方法、存储介质

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
US6477524B1 (en) Method for statistical text analysis
CN111611404A (zh) 一种基于地质文本语料预测目标区矿产的方法
CN104346379B (zh) 一种基于逻辑和统计技术的数据元识别方法
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN103399901A (zh) 一种关键词抽取方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN103365974A (zh) 一种基于相关词主题的语义消歧方法和系统
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN107480197B (zh) 实体词识别方法及装置
Venugopal-Wairagade et al. Novel language resources for Hindi: an aesthetics text corpus and a comprehensive stop lemma list
CN109189820A (zh) 一种煤矿安全事故本体概念抽取方法
Ye et al. Syntactic word embedding based on dependency syntax and polysemous analysis
CN110532553B (zh) 一种水利空间关系词识别与提取的方法
CN107562774A (zh) 小语种词嵌入模型的生成方法、系统及问答方法和系统
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN111191413A (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200901

RJ01 Rejection of invention patent application after publication