CN111611404A - 一种基于地质文本语料预测目标区矿产的方法 - Google Patents
一种基于地质文本语料预测目标区矿产的方法 Download PDFInfo
- Publication number
- CN111611404A CN111611404A CN202010430377.6A CN202010430377A CN111611404A CN 111611404 A CN111611404 A CN 111611404A CN 202010430377 A CN202010430377 A CN 202010430377A CN 111611404 A CN111611404 A CN 111611404A
- Authority
- CN
- China
- Prior art keywords
- geological
- frequency
- word
- semantic
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910052500 inorganic mineral Inorganic materials 0.000 title claims abstract description 23
- 239000011707 mineral Substances 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000018109 developmental process Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于地质文本语料预测目标区矿产的方法。基于地质文本语料预测目标区矿产的方法步骤依次为:首先,对地质文本语料进行预处理获取实义词;然后,依据设定的高频实义词频阈值得出高频实义词;再对高频实义词对开展共现矩阵计算;另外,基于共现矩阵计算结果生成地质知识谱图;最后,基于地质知识图谱圈定目标区的矿产。本方法构建的地质知识图谱,可满足地质大数据的应用服务的需求,对于大数据时代背景下矿产的预测及发现具有重要意义。
Description
技术领域
本发明涉及矿产资源预测的技术领域,尤其涉及一种对地质文本语料处理进而预测目标区矿产的方法。
背景技术
地质文本语料中的句子可以被分成实义词和语义含糊的功能描述性词。在文本数据中,实义词是文本关键信息的载体,而一些虚词等没有实际意义。通过选择高频实义词作为每篇文本的主要实义词,能够简单、清楚的代表地学文本中的主要内容。
实义词表明了文本语料的主要信息,其在本体模型中属于概念,在地学中可分为地质学、技术方法和描述性词汇等类型:(1)地质学词汇是与地质和矿物资源有关的词汇,例如断裂、岩浆岩等;(2)技术方法词汇主要是与矿产勘查、数据处理等工作或处理过程有关的词汇,例如遥感、航磁等;(3)描述性词语是一些与地质主题没有直接关系的功能实义词,例如研究、分析等。
依据文本语料中的实义词所生成的知识图谱对于矿产预测领域的知识分析与挖掘的应用具有重要意义。目前缺少通过地质文本语料预测目标区矿产的方法。
发明内容
本发明主要解决的技术问题是提供一种地质文本语料预测目标区矿产的方法。
为解决上述技术问题,本发明公开的方法,包括以下步骤:
a.对地质文本语料进行预处理,获得实义词;
b.依据设定的高频实义词频阈值得出高频实义词;
c.对高频实义词对开展共现矩阵计算;
d.基于共现矩阵计算结果生成地质知识谱图;
e.基于地质知识图谱圈定目标区的矿产。
进一步的,所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和去停用词。
进一步的,所述高频实义词阈值范围为10~100。
进一步的,所述地质知识图谱以词节点的大小和边长度的方式进行显示。
进一步的,所述词节点的大小为实义词的词频,所述边长度为实义词在地质语料中的共现频率。
综上所述,本发明具有以下有益效果:
通过本发明的方法,可以实现基于地质语的知识图谱自动生成及目标区的矿产预测,满足地质大数据的应用服务的需求,对于大数据时代背景下矿产的预测及发现具有重要意义。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是经过词频统计的成矿预测相关实义词示意图。
图2是实义词共现关系示意图。
图3是目标区的共现信息示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例,用于说明本发明,但不用来限制本发明的范围。
本发明公开了一种基于地质文本语料预测目标区矿产的方法,具体包括如下步骤:
1.对地质文本进行分词处理
依据标点符号对文本进行句子划分,根据标点符、换行符将句子切分为独立的词语,即将句子切分形成独立的词汇、标点符号组合。
2.去掉文本中停用词,得到实词的组合
①将句子中的上下文信息给每个词确定一个最为合适的词性标记,确定词汇是实词还是虚词。依据词性将虚词(包括副词、介词、连词、助词、象声词)删除,获得实词组合。②通过设定停用词词典,使用字符匹配的方式删除常用词、描述性词等停用词库中已记录的停用词,获得实词组合。
3.统计实义词频
将去掉停用词和标点符号的实义词语料进行实义词词频统计,并将其词频数进行排序。
4.构建实义词矩阵
将提取的实义词构建成实义词矩阵,每一列是一个关键词,每一行的关键词来自同一篇文本语料。然后,按照全部语料的实义词词频进行降序排列。
5.确定高频词的阈值
确定高频词与低频词的分界点,高频词的阈值设置为10至100之间。
6.生成实义词共现矩阵
将词频符合高频词阈值的实义词过滤出来,假设满足条件的实义词数为N,则形成N阶的高频实义词共现矩阵,并将矩阵主对角线的数据改为0,如表1所示(分析同一个词在不同语料中出现的次数没有意义)。
表1共现矩阵(部分)
成矿 | 构造 | 矿床 | 模型 | 矿体 | |
成矿 | 0 | 17 | 0 | 16 | 20 |
构造 | 17 | 0 | 25 | 14 | 8 |
矿床 | 0 | 25 | 0 | 9 | 6 |
模型 | 16 | 14 | 9 | 0 | 5 |
矿体 | 20 | 8 | 6 | 5 | 0 |
7.生成地质知识图谱
以共现词对和“权重”为基础构建地质知识图谱。“权重”由语料中两个实义词的共现频率来确定。如果在语料库中两个实义词相邻,则它们的关系就是“共现”,次数越多说明关系越近,如图2所示。
8.基于地质知识图谱圈定目标区的矿产
去除地质知识图谱中与研究区无关的实义词。结合“权重”及地质知识图谱中所“剩余的实义词”得出“剩余的实义词”所对应的共现内容(如图3所示),从而对目标区的矿产进行圈定。
Claims (5)
1.一种基于地质文本语料预测目标区矿产的方法,其特征在于,包含以下步骤:
a.对地质文本语料进行预处理,获得实义词;
b.依据设定的高频实义词频阈值得出高频实义词;
c.对高频实义词对开展共现矩阵计算;
d.基于共现矩阵计算结果生成地质知识谱图;
e.基于地质知识图谱圈定目标区的矿产。
2.根据权利要求1所述的方法,其特征在于,所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和去停用词。
3.根据权利要求1所述的方法,其特征在于,所述高频实义词阈值范围为10~100。
4.根据权利要求1所述的方法,其特征在于,所述地质知识图谱以词节点的大小和边长度的方式进行显示。
5.根据权利要求4所述的方法,其特征在于,所述词节点的大小为实义词的词频,所述边长度为实义词在地质语料中的共现频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010430377.6A CN111611404A (zh) | 2020-05-20 | 2020-05-20 | 一种基于地质文本语料预测目标区矿产的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010430377.6A CN111611404A (zh) | 2020-05-20 | 2020-05-20 | 一种基于地质文本语料预测目标区矿产的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111611404A true CN111611404A (zh) | 2020-09-01 |
Family
ID=72201505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010430377.6A Pending CN111611404A (zh) | 2020-05-20 | 2020-05-20 | 一种基于地质文本语料预测目标区矿产的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611404A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732871A (zh) * | 2021-01-12 | 2021-04-30 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN115618018A (zh) * | 2022-10-31 | 2023-01-17 | 福州果集信息科技有限公司 | 一种基于spu的知识图谱构建方法及存储介质 |
CN116307123A (zh) * | 2023-02-23 | 2023-06-23 | 中国地质大学(武汉) | 一种基于知识图谱驱动的矿产资源预测方法、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN109522192A (zh) * | 2018-10-17 | 2019-03-26 | 北京航空航天大学 | 一种基于知识图谱和复杂网络组合的预测方法 |
US20200042508A1 (en) * | 2018-08-06 | 2020-02-06 | Walmart Apollo, Llc | Artificial intelligence system and method for auto-naming customer tree nodes in a data structure |
CN111143547A (zh) * | 2019-12-30 | 2020-05-12 | 山东大学 | 一种基于知识图谱的大数据显示方法 |
-
2020
- 2020-05-20 CN CN202010430377.6A patent/CN111611404A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
US20200042508A1 (en) * | 2018-08-06 | 2020-02-06 | Walmart Apollo, Llc | Artificial intelligence system and method for auto-naming customer tree nodes in a data structure |
CN109522192A (zh) * | 2018-10-17 | 2019-03-26 | 北京航空航天大学 | 一种基于知识图谱和复杂网络组合的预测方法 |
CN111143547A (zh) * | 2019-12-30 | 2020-05-12 | 山东大学 | 一种基于知识图谱的大数据显示方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732871A (zh) * | 2021-01-12 | 2021-04-30 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN115618018A (zh) * | 2022-10-31 | 2023-01-17 | 福州果集信息科技有限公司 | 一种基于spu的知识图谱构建方法及存储介质 |
CN116307123A (zh) * | 2023-02-23 | 2023-06-23 | 中国地质大学(武汉) | 一种基于知识图谱驱动的矿产资源预测方法、存储介质 |
CN116307123B (zh) * | 2023-02-23 | 2023-11-14 | 中国地质大学(武汉) | 一种基于知识图谱驱动的矿产资源预测方法、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
US6477524B1 (en) | Method for statistical text analysis | |
CN111611404A (zh) | 一种基于地质文本语料预测目标区矿产的方法 | |
CN104346379B (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN104063387A (zh) | 在文本中抽取关键词的装置和方法 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN103365974A (zh) | 一种基于相关词主题的语义消歧方法和系统 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN107480197B (zh) | 实体词识别方法及装置 | |
Venugopal-Wairagade et al. | Novel language resources for Hindi: an aesthetics text corpus and a comprehensive stop lemma list | |
CN109189820A (zh) | 一种煤矿安全事故本体概念抽取方法 | |
Ye et al. | Syntactic word embedding based on dependency syntax and polysemous analysis | |
CN110532553B (zh) | 一种水利空间关系词识别与提取的方法 | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、系统及问答方法和系统 | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
CN111191413A (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200901 |
|
RJ01 | Rejection of invention patent application after publication |