CN116089629A - 一种磷矿成矿规律文本数据挖掘方法及系统 - Google Patents

一种磷矿成矿规律文本数据挖掘方法及系统 Download PDF

Info

Publication number
CN116089629A
CN116089629A CN202310163491.0A CN202310163491A CN116089629A CN 116089629 A CN116089629 A CN 116089629A CN 202310163491 A CN202310163491 A CN 202310163491A CN 116089629 A CN116089629 A CN 116089629A
Authority
CN
China
Prior art keywords
phosphorite
geological
word
space
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310163491.0A
Other languages
English (en)
Inventor
田宜平
曾斌
吴冲龙
周琦
吴文明
吴雪超
李绍虎
徐凯
向世泽
孔春芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Geological Survey Institute
Guizhou Provincial Geological And Mineral Exploration And Development Bureau 105 Geological Brigade
Wuhan Dida Quanty Technology Co ltd
China University of Geosciences
Original Assignee
Guizhou Geological Survey Institute
Guizhou Provincial Geological And Mineral Exploration And Development Bureau 105 Geological Brigade
Wuhan Dida Quanty Technology Co ltd
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Geological Survey Institute, Guizhou Provincial Geological And Mineral Exploration And Development Bureau 105 Geological Brigade, Wuhan Dida Quanty Technology Co ltd, China University of Geosciences filed Critical Guizhou Geological Survey Institute
Priority to CN202310163491.0A priority Critical patent/CN116089629A/zh
Publication of CN116089629A publication Critical patent/CN116089629A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种磷矿成矿规律文本数据挖掘方法及系统,本发明采用基于词汇树与磷矿床特点的中文文本分词方法,并对磷矿各类地质报告文本数据进行标注,构建磷矿床成矿特征空间关系知识库,利用时空卷积神经网络模型对语义相似度进行匹配,抽取文本中的时空关系信息,构建磷矿地质实体的空间关系知识图谱。本发明解决磷矿中文地质报告中地质年代、成矿模式、成矿过程等时空信息以及各个不同要素之间的语义关系的高效表示、抽取、结构化表达和可视化等关键问题,构建地质体时空关系知识图谱,以便快速获取磷矿矿区的地质认识和成矿规律,进而为实现各类地质信息与数据的服务,为挖掘地质大数据的潜在价值等重大问题提供决策服务。

Description

一种磷矿成矿规律文本数据挖掘方法及系统
技术领域
本发明属于应用地球物理勘查技术领域,特别是一种磷矿成矿规律文本数据挖掘方法及系统,涉及磷矿中文地质报告分词、磷矿空间关系知识库构建、语义相似度匹配、时空卷积神经网络模型构建、基于空间关系的知识图谱构建。
背景技术
长期以来,地学领域由于研究方法及研究方向的多样性已经积累了大量的地质资料数据,地质研究已经从定性研究逐渐过渡到定量研究,从数据稀少型过渡到数据密集型。从数据的组成结构上来说,地质资料数据包括结构化的数据及非结构化的数据特别是文本数据。目前针对地质数据中的结构化数据的研究方向和模型已经比较成熟,但大量非结构化的数据还未得到充分的利用与挖掘。地质数据作为一种典型的时空数据,研究地质数据中的非结构化数据的时空信息抽取是解决地质数据充分利用的关键性科学问题之一,这为地质数据结构化与非结构化数据的关联、智能化知识服务提供数据及技术上的支持,进而提升地质数据的应用能力。
磷矿的探寻是地质领域的一个重要课题。将磷矿中文地质报关文献数据中矿产信息采用深度学习方式提取与语义分析,以知识图谱可视化表达等方式展示,将为磷矿数据的深度挖掘和利用提供有力的数据基础和技术支持,以帮助地质学者、地质调查部门等迅速处理非结构化的地质数据,挖掘背后有价值的丰富知识。通过自然语言处理等技术提取地质实体与空间信息之间的关联关系,构建地质实体的空间关系知识图谱,为磷矿成矿规律的快速归纳与挖掘提供数据支持。
发明内容
本发明的目的是提供一种磷矿成矿规律文本数据挖掘方法及系统,旨在解决现有技术中无法实现磷矿中文地质报告中地质年代、成矿模式、成矿过程等时空信息以及各个不同要素之间的语义关系的高效表示、抽取、结构化表达和可视化等关键问题,以便快速获取磷矿矿区的地质认识和成矿规律,进而为实现各类地质信息与数据的服务,为挖掘地质大数据的潜在价值等重大问题提供决策服务。
为达到上述技术目的,本发明提供了一种磷矿成矿规律文本数据挖掘方法,所述方法包括以下操作:
根据地质术语表以及磷矿专业词汇构建磷矿地质专业本体,根据本体语义特点,将词库中的词汇构建成词汇树,并利用词汇树对磷矿各类地质报告文本进行分词;
对地质报告文档进行空间关系标注,生成一组附带标签的具有空间关系的表达式集合,构建磷矿成矿特征空间关系知识库;
基于构建的词汇树以及磷矿成矿特征空间关系知识库,通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取,并输出磷矿语义关系,根据输出的空间关系信息三元组,完成磷矿地质实体空间关系知识图谱的构建。
优选地,所述词库包括汉语地质词汇子库、时间词汇子库、空间词汇子库以及未登录词汇子库。
优选地,所述分词采用最大字符串匹配算法,具体为将文本中的每句话当成一个字符串存储在数组中,句子的每个字即为一个汉语字符,按照顺序先将第一个字与词库中词汇树的根节点进行匹配,完成后将句子中的词汇按照根节点到叶节点的顺序,完成匹配,然后在匹配完成后的词汇后面添加“/”,继续将“/”后的字与词库中词汇树的根节点匹配。
优选地,所述空间关系包括拓扑关系、距离关系和方向关系。
优选地,所述通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取具体为:
对于给定的一系列句子S=(S1,S2,…,Sn)及词袋(e1,e2),其中e1,e2分别代表两个地质实体,将语料库中的句子通过词向量工具映射成低维分布式向量;时空卷积神经网络模型结合词级注意力机制连接起来形成一个新的句子级表示;形成的句子级表示用于对模型的权重进行进一步微调并提取与关系r匹配的句子;构建形成的句子被输入到Softmax层中预测关系(e1,e2)(S1,S2,…,Sn),该模型的输入是实体对e1,e2和包含实体对e1,e2的句子S集合,输出是实体对e1,e2的空间关系。
优选地,所述输出磷矿语义关系具体为:
给定n个词袋T={S1,S2,…,Sn}作为深度学习模型训练集及对应的关系标签{r1,r2,…,rn},采用P(r|T,θ)作为条件概率,输入到Softmax分类器以计算每个语义关系的置信度。
优选地,所述磷矿地质实体空间关系知识图谱的构建具体为:
磷矿知识采用RDF表示,使用三元组的形式组成的大规模的有向图,其中,节点表示磷矿的概念和地质实体;而边则表示磷矿中实体对之间的空间关系;有向线段表示实体存在关系或属性关联关系,使用不同的类型或颜色的线条去表示不同的关系或属性;由上述的基本元素构成磷矿知识图谱的可视化网络。
本发明还提供了一种磷矿成矿规律文本数据挖掘系统,所述系统包括:
地质报告分词模块,用于根据地质术语表以及磷矿专业词汇构建磷矿地质专业本体,根据本体语义特点,将词库中的词汇构建成词汇树,并利用词汇树对磷矿各类地质报告文本进行分词;
磷矿知识库构建模块,用于对地质报告文档进行空间关系标注,生成一组附带标签的具有空间关系的表达式集合,构建磷矿成矿特征空间关系知识库;
磷矿知识图谱构建模块,用于基于构建的词汇树以及磷矿成矿特征空间关系知识库,通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取,并输出磷矿语义关系,根据输出的空间关系信息三元组,完成磷矿地质实体空间关系知识图谱的构建。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了基于词汇树与磷矿床特点的中文文本分词方法。目前大量的分词方法都是针对通用领域设计优化的分词方法,很少有对地学这个邻域特别是磷矿地质报告文本进行分词的研究,如果将通用邻域的分词方法直接迁移到地质邻域难以达到预期的分词效果。根据磷矿床特征以及磷矿中文地质报告结构固定、内容准确和用词专业的特点,运用基于磷矿地质专业词库的词汇树分词方法可有效提高分词的效率和准确率;
本发明提出了磷矿床成矿特征空间关系知识库。通过人工标注的方式,标注出一组具有空间关系的实体对表达式,方便与后期新输入的句子进行相似度匹配,这些空间关系主要包括:拓扑关系、距离关系和方向关系;
本发明提出了融合时空文本的时空卷积神经网络模型。对于地质文本数据的处理相关研究仅仅局限于对地质报告本身语义特征的提取,尚未充分利用地质报告与空间数据之间的关联关系,使用该模型可有效地提取出句子中实体对之间的空间关系。
附图说明
图1为本发明实施例中所提供的一种磷矿成矿规律文本数据挖掘方法流程图;
图2为本发明实施例中所提供的地质专业词库模型示意图;
图3为本发明实施例中所提供的以矿字为首字的词汇树示意图;
图4为本发明实施例中所提供的磷矿时空卷积神经网络架构模型示意图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种磷矿成矿规律文本数据挖掘方法及系统进行详细说明。
如图1所示,本发明实施例公开了一种磷矿成矿规律文本数据挖掘方法,所述方法包括以下操作:
根据地质术语表以及磷矿专业词汇构建磷矿地质专业本体,根据本体语义特点,将词库中的词汇构建成词汇树,并利用词汇树对磷矿各类地质报告文本进行分词;
对地质报告文档进行空间关系标注,生成一组附带标签的具有空间关系的表达式集合,构建磷矿成矿特征空间关系知识库;
基于构建的词汇树以及磷矿成矿特征空间关系知识库,通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取,并输出磷矿语义关系,根据输出的空间关系信息三元组,完成磷矿地质实体空间关系知识图谱的构建。
本发明实施例根据磷矿地质专业词库构建词汇树,完成对地质报告文本的分词,其次采用人工标注的方式标注出一组包含空间关系的磷矿空间关系知识库,再次利用时空卷积神经网络模型对新输入的表达式进行语义相似度匹配,抽取出表达式中的空间关系信息,最终完成地质实体对空间关系知识图谱的构建,并快速发掘归纳磷矿成矿规律。
首先对磷矿成矿规律文本数据进行数据预处理。
磷矿地质报告文本是全面反映地质勘查工作成果的重要技术文件,是下达任务全部完成或告一阶段之后,根据已有的和本次勘查工作所获取的各种资料的系统整理和综合研究编写而成的。这些勘查地质报告中虽然研究的重点各有不同,但其结构基本相同,都有严格的编写规范,报告正文所编写的内容规律性较强,报告中的每部分要写的内容明确,这就为利用其固定结构进行自动标引提供了可能。
构建磷矿地质专业词库。在磷矿地质专业词库的构建时,以中国地质图书馆整理加工的《地质学汉语叙词表》为基础,选取其中与磷矿资源有关的地质专业词汇,构建磷矿地质专业词库进行研究。例如,将“花岗岩”、“沉积岩”等均为汉字的专业词汇放到汉语地质词汇子库中;将“前寒武纪”、“3200-2950Ma”等放入时间词汇子库中;将“海拔400-550”、“长1300米”等放入空间词汇子库中;而未登录词汇子库中专门存放与文本主题密切相关但已有词库中并没有的专业词汇,具体结构如图2所示。
构建磷矿词库读入时词汇树。通过分析词库中的词汇发现,无论是常用的词库还是专业词库,其类型都较为固定,描述同类事物的很多词汇的首字均相同。例如“矿床学”、“矿化期”、“矿石矿物”、“矿化阶段”、“矿床类型”、“矿床成因”等等。这些词都是对矿产资源的描述,词汇均以“矿”字开头,这类词汇不只出现在地质专业词汇库中,在普通词汇库中出现的频率也很高。在中文分词阶段所采取的分词方式为字符串匹配的分词方法,为了增强匹配速率,提高匹配精度,进而增强分词效率,可在词库读入时,利用这些词汇的特点将这些词汇构建成不同的词汇树,如图3所示。
利用磷矿术语中文分词算法进行分词。针对于磷矿地质报告文本的结构特点以及地质词汇的类型特点,所采取的中文分词算法为最大字符串匹配算法,其原理为:将文本中的每句话当成一个字符串存储在数组中,句子的每个字即为一个汉语字符。按照顺序先将第一个字与词库中词汇树的根节点进行匹配,完成后将句子中的词汇按照根节点到叶节点的顺序,完成匹配。然后在匹配完成后的词汇后面添加“/”,继续将“/”后的字与词库中词汇树的根节点匹配。通过此种方式将句子中的词汇切分出来,按这种方式可将整个文本进行切分,切分速度较快,精确度较高。根据磷矿床特征以及磷矿中文地质报告结构固定、内容准确和用词专业的特点,运用基于磷矿地质专业词库的词汇树分词方法可有效提高分词的效率和准确率。
然后基于磷矿时空卷积神经网络进行时空信息抽取。
收集磷矿特征术语样本并构建知识库。通过人工标注方式生成一组附带空间关系标签的表达式集合,方便与后期新输入的新表达式(句子)进行相似性匹配。这些空间关系主要包括:拓扑关系、距离关系和方向关系。收集包含自然语言中某项空间关系的样本,这些样本集主要是来源于地质报告文档及网络上的自然语言文本,包括中文期刊网磷矿相关文章、磷矿地质报告等。这些时空关系主要包括:成矿时代、成矿模式以及成矿空间等关系。
进行磷矿语义相似度匹配。磷矿文本中一个新的句子如果与知识库中的表达式语义相近,那么就能够通过最为相近的表达式来对其进行解释。相似性匹配算法主要包括单句匹配算法和全文匹配算法,其中单句匹配算法通过计算新的表达式(其空间关系未知)和知识库中已知时空关系的表达式之间存在的语义相似度。全文匹配算法是通过计算关键词汇同时在文档中出现的频率,以确定两个文档之间的相似度。
对于磷矿时空卷积神经网络模型,如图4所示,对于给定的一系列句子S=(S1,S2,…,Sn)及词袋(e1,e2)(其中e1,e2分别代表两个地质实体),为了能够提取句子的特征,将语料库中的句子通过词向量工具映射成低维分布式向量。接着,磷矿时空卷积神经网络模型结合词级注意力机制连接起来形成一个新的句子级表示。然后,形成的句子级表示用于对模型的权重进行进一步微调并提取与关系r匹配的句子。最后构建形成的句子被输入到Softmax层中预测关系(e1,e2)(S1,S2,…,Sn)。该模型的输入是实体对e1,e2和包含实体对e1,e2的句子S集合,输出是实体对e1,e2的空间关系。对于地质文本数据的处理相关研究仅仅局限于对地质报告本身语义特征的提取,尚为充分利用地质报告与空间数据之间的关联关系。使用该模型可有效地提取出句子中实体对之间的空间关系。
输出磷矿语义关系。给定n个词袋T={S1,S2,…,Sn}作为深度学习模型训练集及对应的关系标签{r1,r2,…,rn},采用P(r|T,θ)作为条件概率,输入到Softmax分类器以计算每个语义关系的置信度。
最后进行磷矿知识图谱的可视化表达。
知识图谱本质上是一种大型的语义网络,通过有向图的方式对客观世界中实体、概念及其相互之间语义关系的描述进行表达,其中节点代表实体、概念,边代表节点的属性或节点之间的关系。知识图谱借助通用的三元组<节点1、关系、节点2>知识表示方式,以实体、概念或属性为节点,以关系为边,建立基于语义网络的知识图结构。在计算机环境下,计算机利用自然语言处理方法从非结构化数据中,获取磷矿时空信息,生成磷矿知识,存储在图数据库中生成磷矿知识图谱。所以,磷矿知识采用RDF(资源描述框架)表示,使用三元组的形式<节点1、关系、节点2>组成的大规模的有向图,其中,节点表示磷矿的概念和地质实体等,而边则表示磷矿中实体对之间的空间关系。有向线段表示实体存在关系或属性关联关系,可使用不同的类型或颜色的线条去表示不同的关系或属性,最后再由上述的基本元素构成磷矿知识图谱的可视化网络。
本发明实施例主要用于磷矿中文地质报告的磷矿成矿规律时空信息提取,通过时空卷积神经网络模型,将非结构化的文本数据转化成结构化的地质实体对关系数据,并构建出知识图谱,为发掘与归纳磷矿成矿规律提供有效的数据支持。
本发明实施例还公开了一种磷矿成矿规律文本数据挖掘系统,所述系统包括:
地质报告分词模块,用于根据地质术语表以及磷矿专业词汇构建磷矿地质专业本体,根据本体语义特点,将词库中的词汇构建成词汇树,并利用词汇树对磷矿各类地质报告文本进行分词;
磷矿知识库构建模块,用于对地质报告文档进行空间关系标注,生成一组附带标签的具有空间关系的表达式集合,构建磷矿成矿特征空间关系知识库;
磷矿知识图谱构建模块,用于基于构建的词汇树以及磷矿成矿特征空间关系知识库,通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取,并输出磷矿语义关系,根据输出的空间关系信息三元组,完成磷矿地质实体空间关系知识图谱的构建。
本发明实施例所述系统可实现前文所述磷矿成矿规律文本数据挖掘方法,在此不作赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种磷矿成矿规律文本数据挖掘方法,其特征在于,所述方法包括以下操作:
根据地质术语表以及磷矿专业词汇构建磷矿地质专业本体,根据本体语义特点,将词库中的词汇构建成词汇树,并利用词汇树对磷矿各类地质报告文本进行分词;
对地质报告文档进行空间关系标注,生成一组附带标签的具有空间关系的表达式集合,构建磷矿成矿特征空间关系知识库;
基于构建的词汇树以及磷矿成矿特征空间关系知识库,通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取,并输出磷矿语义关系,根据输出的空间关系信息三元组,完成磷矿地质实体空间关系知识图谱的构建。
2.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法,其特征在于,所述词库包括汉语地质词汇子库、时间词汇子库、空间词汇子库以及未登录词汇子库。
3.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法,其特征在于,所述分词采用最大字符串匹配算法,具体为将文本中的每句话当成一个字符串存储在数组中,句子的每个字即为一个汉语字符,按照顺序先将第一个字与词库中词汇树的根节点进行匹配,完成后将句子中的词汇按照根节点到叶节点的顺序,完成匹配,然后在匹配完成后的词汇后面添加“/”,继续将“/”后的字与词库中词汇树的根节点匹配。
4.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法,其特征在于,所述空间关系包括拓扑关系、距离关系和方向关系。
5.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法,其特征在于,所述通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取具体为:
对于给定的一系列句子S=(S1,S2,…,Sn)及词袋(e1,e2),其中e1,e2分别代表两个地质实体,将语料库中的句子通过词向量工具映射成低维分布式向量;时空卷积神经网络模型结合词级注意力机制连接起来形成一个新的句子级表示;形成的句子级表示用于对模型的权重进行进一步微调并提取与关系r匹配的句子;构建形成的句子被输入到Softmax层中预测关系(e1,e2)(S1,S2,…,Sn),该模型的输入是实体对e1,e2和包含实体对e1,e2的句子S集合,输出是实体对e1,e2的空间关系。
6.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法,其特征在于,所述输出磷矿语义关系具体为:
给定n个词袋T={S1,S2,…,Sn}作为深度学习模型训练集及对应的关系标签{r1,r2,…,rn},采用P(r|T,θ)作为条件概率,输入到Softmax分类器以计算每个语义关系的置信度。
7.根据权利要求1所述的一种磷矿成矿规律文本数据挖掘方法,其特征在于,所述磷矿地质实体空间关系知识图谱的构建具体为:
磷矿知识采用RDF表示,使用三元组的形式组成的大规模的有向图,其中,节点表示磷矿的概念和地质实体;而边则表示磷矿中实体对之间的空间关系;有向线段表示实体存在关系或属性关联关系,使用不同的类型或颜色的线条去表示不同的关系或属性;由上述的基本元素构成磷矿知识图谱的可视化网络。
8.一种磷矿成矿规律文本数据挖掘系统,其特征在于,所述系统包括:
地质报告分词模块,用于根据地质术语表以及磷矿专业词汇构建磷矿地质专业本体,根据本体语义特点,将词库中的词汇构建成词汇树,并利用词汇树对磷矿各类地质报告文本进行分词;
磷矿知识库构建模块,用于对地质报告文档进行空间关系标注,生成一组附带标签的具有空间关系的表达式集合,构建磷矿成矿特征空间关系知识库;
磷矿知识图谱构建模块,用于基于构建的词汇树以及磷矿成矿特征空间关系知识库,通过时空卷积神经网络模型对新输入的表达式进行语义相似度匹配以及实体对空间关系信息抽取,并输出磷矿语义关系,根据输出的空间关系信息三元组,完成磷矿地质实体空间关系知识图谱的构建。
CN202310163491.0A 2023-02-24 2023-02-24 一种磷矿成矿规律文本数据挖掘方法及系统 Pending CN116089629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310163491.0A CN116089629A (zh) 2023-02-24 2023-02-24 一种磷矿成矿规律文本数据挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310163491.0A CN116089629A (zh) 2023-02-24 2023-02-24 一种磷矿成矿规律文本数据挖掘方法及系统

Publications (1)

Publication Number Publication Date
CN116089629A true CN116089629A (zh) 2023-05-09

Family

ID=86212079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310163491.0A Pending CN116089629A (zh) 2023-02-24 2023-02-24 一种磷矿成矿规律文本数据挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN116089629A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992294A (zh) * 2023-09-26 2023-11-03 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
CN118427349A (zh) * 2024-05-14 2024-08-02 中国地质大学(北京) 基于知识图谱的矿床预测指标体系构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992294A (zh) * 2023-09-26 2023-11-03 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
CN116992294B (zh) * 2023-09-26 2023-12-19 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
CN118427349A (zh) * 2024-05-14 2024-08-02 中国地质大学(北京) 基于知识图谱的矿床预测指标体系构建方法

Similar Documents

Publication Publication Date Title
Wang et al. Information extraction and knowledge graph construction from geoscience literature
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109255031B (zh) 基于知识图谱的数据处理方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
Qiu et al. GNER: A generative model for geological named entity recognition without labeled data using deep learning
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN116089629A (zh) 一种磷矿成矿规律文本数据挖掘方法及系统
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN103500208A (zh) 结合知识库的深层数据处理方法和系统
CN103473280A (zh) 一种网络可比语料的挖掘方法及装置
CN112948547B (zh) 测井知识图谱构建查询方法、装置、设备及存储介质
CN106055675A (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN103729428A (zh) 一种大数据分类方法及系统
CN115713085B (zh) 文献主题内容分析方法及装置
Wang et al. Visual analytics and information extraction of geological content for text-based mineral exploration reports
CN108021682A (zh) 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
Chu et al. A machine learning approach to extracting spatial information from geological texts in Chinese
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
Luo et al. Exploring destination image through online reviews: an augmented mining model using latent Dirichlet allocation combined with probabilistic hesitant fuzzy algorithm
Lawley et al. Applications of Natural Language Processing to Geoscience Text Data and Prospectivity Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination