CN117454987B - 基于事件自动抽取的矿山事件知识图谱构建方法及装置 - Google Patents
基于事件自动抽取的矿山事件知识图谱构建方法及装置 Download PDFInfo
- Publication number
- CN117454987B CN117454987B CN202311786525.8A CN202311786525A CN117454987B CN 117454987 B CN117454987 B CN 117454987B CN 202311786525 A CN202311786525 A CN 202311786525A CN 117454987 B CN117454987 B CN 117454987B
- Authority
- CN
- China
- Prior art keywords
- event
- mine
- text data
- accident event
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 129
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 138
- 238000005065 mining Methods 0.000 claims abstract description 51
- 238000011176 pooling Methods 0.000 claims abstract description 44
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 42
- 238000002372 labelling Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241001391944 Commicarpus scandens Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
- G06F18/41—Interactive pattern learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种基于事件自动抽取的矿山事件知识图谱构建方法及装置,涉及知识图谱技术领域,用于解决现有事件抽取准确率低的问题,方法包括:基于众包平台对矿山事故事件文本数据进行半自动化标注,获得标注文本数据集;基于BERT预训练的动态多池化卷积神经网络模型,获取标注文本数据集中各数据的词汇级信息以标识获得词汇级特征向量;根据动态多池化卷积神经网络模型捕获句子级信息以标识获得句子级特征向量,拼接词汇级特征向量与句子级特征向量获得特征向量,并输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;对矿山事故事件抽取结果进行事件标识,以对矿山事故事件抽取结果进行处理进而映射获得矿山事件知识图谱。
Description
技术领域
本说明书涉及知识图谱技术领域,尤其涉及一种基于事件自动抽取的矿山事件知识图谱构建方法及装置。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
由于当前的矿山事故事件多以非结构化的文本形式呈现,要实现对其中的知识的应用,就不可避免地应用事件抽取。然而当前矿山领域的中文事件抽取还处于空白阶段,矿山事故事件触发词、事件元素、元素角色都还没有具体的标准。且由于缺少相应的事故标准数据集,当基于人工批注构建事故标准数据集时仅人工进行事故标准数据集的构建时,效率低且准确率难以保证,进而使得当前进行矿山事件知识图谱构建时的事件抽取准确率低,难以发现矿山所暴露的问题,影响了矿山安全作业与风险防控的工作。
发明内容
为了解决上述技术问题,本说明书一个或多个实施例提供了一种基于事件自动抽取的矿山事件知识图谱构建方法及装置。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供一种基于事件自动抽取的矿山事件知识图谱构建方法,方法包括:
基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;
基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;
根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;
将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;
对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。
可选地,在本说明书一个或多个实施例中,对所述矿山事故事件文本数据进行预处理,具体包括:
获取各所述矿山事故事件文本数据的数据格式,以基于所述数据格式将所述矿山事故时间文本数据划分到不同的文本数据集;
基于所述BERT预训练模型的输入格式确定所述文本数据集中的待转换数据集,以对所述待转换数据集进行数据转换,获得符合格式的第一文本数据;
对各所述第一文本数据基于摘要算法进行数据去重处理,获得去重后的第二文本数据;
确定所述第二文本数据中的中文字符占比,若确定所述中文字符占比小于预设占比阈值,则对所述第二文本数据进行删除,获得处理后的矿山事故事件文本数据。
可选地,在本说明书一个或多个实施例中,所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,具体包括:
获取各所述处理后的矿山事故事件文本数据的摘要数据,以基于自动化算法确定所述摘要数据所对应的自动化标注;其中,所述自动化标注包括:事件类型标注、事件元素标注;
将所述各所述处理后的矿山事故事件文本数据与所述对应的自动化标注上传到所述众包平台;
基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验,获得矿山事故事件的标注文本数据集。
可选地,在本说明书一个或多个实施例中,所述基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量,具体包括:
将所述标注文本数据集中各数据作为输入文本,以将所述输入文本基于词汇单元进行转换获得词汇级序列数据;其中,所述词汇单元为token级单元;
基于所述BERT预训练模型的预设标记算法对所述词汇级序列数据进行拆分,获得所述标注文本数据集中各数据的子单词;其中,所述预设标记算法为:WordPieceTokenization;
基于所述BERT预训练模型的嵌入层确定对各所述子单词进行映射,获得各所述子单词所对应的词汇级特征向量;其中,所述映射向量包含所述子单词的语义信息。
可选地,在本说明书一个或多个实施例中,所述根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量,具体包括:
根据所述词汇级特征向量确定待分类的候选事件触发词与候选事件元素的位置,以基于所述候选事件触发词与所述候选事件元素的位置,进行动态化句子切分获得句子级信息;
基于动态多池化卷积神经网络模型的嵌入层对所述句子级信息进行映射获得句子级特征向量;
基于全连接层对所述词汇级特征向量与所述句子级特征向量进行拼接,获得特征向量;其中,所述特征向量为,L为词汇级特征向量,P为句子级特征向量。
可选地,在本说明书一个或多个实施例中,将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果,具体包括:
确定第一softmax分类器中事件触发词的分类计算公式;其中,所述分类计算公式为:,/>表示转移矩阵,/>表示整个网络的最终输出,V表示所述特征向量;
基于所述分类计算公式确定所述特征向量的分类结果,并基于softmax函数计算当前待分类的候选事件触发词分类结果中,概率最高的事件类型为所述矿山事故事件的事件分类结果;
基于第二softmax分类器对所述事件分类结果的事件元素进行分类,确定所述事件分类结果所对应的事件元素角色,为所述矿山事故事件的元素分类结果;
根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果;
所述根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果之后,所述方法还包括:
基于CRF层确定所述矿山事故事件抽取结果的预测输出标签。
可选地,在本说明书一个或多个实施例中,对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,具体包括:
基于所述矿山事故事件抽取结果进行事件标识,以获取所述矿山事故事件的事件真实性标识与事件共指标识;
若基于所述事件真实性标识确定所述特征向量所对应的矿山事故事件为非真实事件,则对所述矿山事故事件抽取结果中该矿山事故事件进行删除;
若基于所述事件共指性标识,确定特征向量所对应的矿山事故事件为同一事故事件,则对所述特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。
可选地,在本说明书一个或多个实施例中,所述根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量之前,所述方法还包括:
确定所述动态多池化卷积神经网络模型的目标函数,以基于所述目标函数对所述动态多池化卷积神经网络模型进行迭代优化;其中,所述目标函数为:
;
其中,θ表示影响事件类型的参数,i表示第i个事件类型,m表示事件类型的总量,x表示输入的特征,y表示要预测的目标,J(θ)表示极大似然估计。
可选地,在本说明书一个或多个实施例中,所述对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱,具体包括:
获取所述处理后的矿山事故事件抽取结果中各矿山事故事件的事件触发词,作为所述矿山事件知识图谱的事件节点;
基于各所述事件节点所对应的特征向量,确定所述矿山事件知识图谱的事件节点的事件关系,以基于所述事件关系确定所述矿山事件知识图谱的边;
对所述事件节点与所述矿山事件知识图谱的边,获得所述矿山事件知识图谱。
本说明书一个或多个实施例提供一种基于事件自动抽取的矿山事件知识图谱构建装置,装置包括:
数据标注单元,用于基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;
第一向量提取单元,用于基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;
第二向量提取单元,用于根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;
抽取单元,用于将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;
映射单元,用于对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,基于众包半自动化的方式进行标注即降低了仅基于人工经验进行手动标注带来的高人力成本以及高时间成本,也避免了仅基于自动化算法进行标注时容易脱离人工经验的问题,且解决了现有技术中缺乏矿山事故标准数据集导致的事假抽取准确率低的问题。此外通过基于BERT预训练的动态多池化卷积神经网络模型分别获取词汇级特征向量与句子级特征向量,实现了在损失最重要信息的前提下捕获到更多的事件信息,增加了知识图谱构建的可靠性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书实施例提供的一种基于事件自动抽取的矿山事件知识图谱构建方法流程示意图;
图2为本说明书实施例提供的一种事件知识图谱构建流程示意图;
图3为本说明书实施例提供的一种事件抽取的模型结构示意图;
图4为本说明书实施例提供的一种基于事件自动抽取的矿山事件知识图谱构建装置内部结构示意图。
具体实施方式
本说明书实施例提供一种基于事件自动抽取的矿山时间知识图谱构建方法及装置。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如图1所示,本说明书实施例提供了一种基于事件自动抽取的矿山时间知识图谱构建方法流程示意图。由图1可知,本说明书一个或多个实施例中,一种基于事件自动抽取的矿山时间知识图谱构建方法,具体包括以下步骤:
S101:基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集。
为了能够获得矿山事故标准数据集,解决现有矿山领域的知识图谱由于矿山事故标准数据集的空白导致的事件抽取准确率低的问题。本说明书实施例中,通过公开新闻网站以及本地新闻网站爬取相应的矿山事故事件文本数据,作为后续进行处理分析的基础。需要说明的是:由于矿山事故事件文本数据是在新闻网站上爬取获得的,数据质量不能保证,所以要对爬取获得的矿山事故事件文本数据进行预处理,从而对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,基于众包半自动化的方式进行标注即降低了仅基于人工经验进行手动标注带来的高人力成本以及高时间成本,也避免了仅基于自动化算法进行标注时容易脱离人工经验的问题。
具体地,在本说明书一个或多个实施例中,对矿山事故事件文本数据进行预处理,具体包括以下步骤:
首先,为了能够对格式错误的进行调整方便进行后续的事件抽取过程,本说明书实施例中获取各矿山事故事件文本数据的数据格式,从而根据不同的数据格式将矿山事故时间文本数据划分到不同的文本数据集中。然后基于BERT预训练的动态多池化卷积神经网络模型的输入格式确定出文本数据集中的待转换数据集,也就是需要与预训练模型的输入格式不一致的需要进行格式转换的文本数据集作为待转换数据集,从而将待转换数据集进行数据转换,获得符合格式的第一文本数据。然后为了对重复冗余数据进行过滤,本说明书实施例中对各第一文本数据基于摘要算法进行数据去重处理,获得去重后的第二文本数据。然后为了去除不符合要求的乱码数据,首先确定出第二文本数据中的中文字符占比,如果确定第二文本数据中的中文字符占比小于预设占比阈值,该占比阈值可以基于实际场景的需求进行设置例如设置为90%,在中文字符占比小于预设占比阈值是说明该第二文本数据可能为乱码数据,因此为了保证知识图谱的准确性与可靠性需要对第二文本数据进行删除,获得处理后的矿山事故事件文本数据。
进一步地,为了降低仅基于人工经验进行手动标注带来的高人力成本以及高时间成本,以及避免仅基于自动化算法进行标注时容易脱离人工经验的问题,在本说明书一个或多个实施例中,对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,具体包括以下步骤:
首先获取各处理后的矿山事故事件文本数据的摘要数据,从而基于自动化算法确定出摘要数据所对应的自动化标注;其中,需要说明的是自动化算法可以为现有的机器学习算法此处不再加以赘述。而对应的自动化标注包括:事件类型标注与事件元素标注,事件类型标注也就是将文本中的事件触发词与事件类型标记出来,并将该词语作为事件类型所对应的实例,事件元素标注也就是将文本中的事件元素进行标注,并将其与对应的元素角色相关联。通过上述步骤进行自动化标注后为了避免自动化算法陷入局部最优解导致脱离人工经验的问题,本说明书实施例中将各所述处理后的矿山事故事件文本数据与对应的自动化标注上传到矿山领域的众包平台中,以便于基于众包平台的人工经验对各处理后的矿山事故事件文本数据所对应的自动化标注进行进一步地校验,从而获得矿山事故事件的标注文本数据集。
S102:基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量。
为了实现基于有监督的机器学习方法对事件进行抽取,实现对于事件触发词的检测与分类以及事件元素的发现及其角色分类。本说明书实施例中通过BERT预训练模型,获取标注文本数据集中各数据的词汇级信息,并对词汇级信息进行编码标识获得词汇级特征向量。具体地,在本说明书一个或多个实施例中,基于BERT预训练的动态多池化卷积神经网络模型,获取标注文本数据集中各数据的词汇级信息,并对词汇级信息进行标识获得词汇级特征向量,具体包括如图3所示词汇级特征向量也就是词向量的提取,包括以下过程:
将标注文本数据集中各数据作为输入文本,以将输入文本基于词汇单元进行转换获得词汇级序列数据;其中,需要说明的是词汇单元为token级单元。然后基于BERT预训练的动态多池化卷积神经网络模型的预设标记算法也就是WordPiece Tokenization,对词汇级序列数据进行拆分,获得标注文本数据集中各数据的子单词。然后通过BERT预训练模型的嵌入层确定对各所述子单词进行映射,获得各子单词所对应的词汇级特征向量。其中,可以理解的是映射向量中包含了子单词的语义信息,通过基于基于BERT的预训练模型进行词嵌入,利用了BERT模型可以考虑到单词的上下文关系,对于歧义语义效果明显的作用,实现了获取词汇级序列数据并标识为词汇级特征向量L的过程。
S103:根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量。
基于上述步骤获得词汇级特征向量之后,如图3所示的事件抽取模型中还会对句子级表示进行获取,实现对于更多事件信息的获取。因此,本说明书实施例中,根据基于BERT预训练的动态多池化卷积神经网络模型来捕获句子级信息,从而对句子级信息进行编码标识获得句子级特征向量,通过拼接上述过程中获取到的词汇级特征向量与句子级特征向量获得特征向量。具体地,在本说明书一个或多个实施例中,根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接词汇级特征向量与句子级特征向量获得特征向量,具体包括:
首先根据词汇级特征向量确定待分类的候选事件触发词与候选事件元素的位置,从而根据候选事件触发词与候选事件元素的位置,进行动态化句子切分获得句子级信息。然后基于动态多池化卷积神经网络模型的嵌入层对句子级信息进行映射获得句子级特征向量。同时基于全连接层对词汇级特征向量与句子级特征向量进行拼接,获得特征向量。其中,需要说明的是特征向量为,L为词汇级特征向量,P为句子级特征向量。
S104:将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果。
为了获得事件抽取结果,实现为事件触发词分配事件元素,并判定事件元素在相应的事件中扮演的角色。本说明书实施例中将上述过程中获取到的特征向量输入到分类器中进行事件触发词的抽取,从而获得矿山事故事件抽取结果。具体地,在本说明书一个或多个实施例中,将特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果,具体包括:
首先如图2所示事件抽取过程包括两个阶段,一个阶段为事件触发词分类过程基于基于BERT预训练的动态多池化卷积神经网络模型对一个句子中的所有词汇进行分类,判断其是否为事件触发词,触发了什么类型的事件,该过程中进行时间抽取时首先确定第一softmax分类器中事件触发词的分类计算公式;其中,需要说明的是分类计算公式为:,/>表示转移矩阵,/>表示整个网络的最终输出,V表示所述特征向量,b表示偏移量。然后基于分类计算公式确定特征向量的分类结果,并基于softmax函数计算当前待分类的候选事件触发词分类结果中,概率最高的事件类型为矿山事故事件的事件分类结果。然后第二个阶段为事件元素检测阶段,在该阶段中基于动态多池化卷积神经网络模型对句子中所有的候选事件元素进行分类,为事件触发词分配事件元素,并判定事件元素在相应的事件中扮演的角色。也就是基于第二softmax分类器对事件分类结果的事件元素进行分类,确定采集事件分类结果所对应的事件元素角色,为矿山事故事件的元素分类结果。根据事件分类结果与元素分类结果,实现为事件触发词也就是事件分类结果分配对应的元素分类结果确定矿山事故事件抽取结果。
具体的,上述事件抽取过程中,基于动态多池化卷积神经网络模型在不损失最重要信息的前提下捕获到更多的事件信息时,其实现步骤如下:
Xi表示第i个词,Xj表示第j个词,用来表示词/>,/>,…,/>的联接。那么,一次卷积操作对应着一个滤波器,每个滤波器的每次卷积都是考虑临近的n个词。那么特征表示/>通过滤波器处理过程得到:
(1)
其中,是一个偏置项,/>是激活函数,w表示权重矩阵,h表示长度。
通过动态多池化针对每个特征序列获得句子级特征L。将词汇级特征和句子级特征拼接成一个向量。分类计算过程为:
O=WV+b(2)
其中,W表示转移矩阵、O表示网络输出、V表示特征向量、b表示偏移量。输入一个样本,参数为/>的网络输出向量/>,则输出向量/>的第/>维/>中的值代表当前待分类事件元素被判定为角色/>的概率。条件概率/>,对元素角色类型采用softmax分类器进行分类:
(3)
其中,i表示第i个事件类型,x表示输入特征值,θ表示参数,表示第k维的输出向量。然后,输入所有的训练样本,针对/>,针对目标函数进行优化:
(4)
其中,θ表示影响事件类型的参数,i表示第i个事件类型,m表示事件类型的总量,x表示输入的特征,y表示要预测的目标,J(θ)表示极大似然估计。
最后,为了获得更好的分类结果,本说明书实施例在根据事件分类结果与元素分类结果,确定矿山事故事件抽取结果之后,方法还包括:通过在动态多池化神经网络中加入的CRF层确定出矿山事故事件抽取结果的预测输出标签。
进一步地,为了能够实现对于模型的优化保证事件抽取过程中的分类效果,在本说明书一个或多个实施例中,根据动态多池化卷积神经网络模型捕获句子级信息,以对句子级信息进行标识获得句子级特征向量之前,方法还包括以下过程:
即确定动态多池化卷积神经网络模型的目标函数,以基于目标函数对动态多池化卷积神经网络模型进行迭代优化;其中,所述目标函数为:
;
其中,θ表示影响事件类型的参数,i表示第i个事件类型,m表示事件类型的总量,x表示输入的特征,y表示要预测的目标,J(θ)表示极大似然估计。
S105:对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。
在对矿山事件知识图谱进行构建之前,由于事件抽取过程中,抽取的成功率不是100%。为了提高事件质量,通过众包半自动化的方式,借助专家知识,对抽取结果进行筛选清洗,从而保证矿山事故事件的抽取质量。也就是说本说明书实施例中对矿山事故事件抽取结果进行事件标识获得事件真实性标识与事件共指标识。可以理解的是事件共指标识指的是因为存在多个新闻描述同一事件的情况,所以在事件抽取之前做标签,指明两个文本数据描述的是同一事件。在抽取结束后根据标签,将描述相同事件的信息进行融合。因此本说明书实施例中在事件抽取之后基于事件标识对矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。
具体地,在本说明书一个或多个实施例中,对矿山事故事件抽取结果进行事件标识,以基于事件标识对所述矿山事故事件抽取结果进行处理,具体包括:
基于矿山事故事件抽取结果进行事件标识,以获取矿山事故事件的事件真实性标识与事件共指标识。如果基于事件真实性标识确定该特征向量所对应的矿山事故事件为非真实事件,那么就对矿山事故事件抽取结果中该矿山事故事件进行删除。而如果基于事件共指性标识,确定特征向量所对应的矿山事故事件为同一事故事件,则对该特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。进一步地,在本说明书一个或多个实施例中,对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱,具体包括以下步骤:
首先,获取处理后的矿山事故事件抽取结果中各矿山事故事件的事件触发词,作为矿山事件知识图谱的事件节点。然后基于各事件节点所对应的特征向量,确定出矿山事件知识图谱的事件节点的事件关系,以基于事件关系确定矿山事件知识图谱的边。通过对事件节点与所述矿山事件知识图谱的边,获得如图2事件知识图谱中的矿山事件知识图谱。
如图4所示,本说明书实施例提供了一种基于事件自动抽取的矿山事件知识图谱构建装置,装置包括:
数据标注单元401,用于基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;
第一向量提取单元402,用于基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;
第二向量提取单元403,用于根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;
抽取单元404,用于将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;
映射单元405,用于对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在上述记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (6)
1.一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述方法包括:
基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;
基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;
根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;
将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;
对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱;
对所述矿山事故事件文本数据进行预处理,具体包括:
获取各所述矿山事故事件文本数据的数据格式,以基于所述数据格式将所述矿山事故事件文本数据划分到不同的文本数据集;
基于所述BERT预训练的动态多池化卷积神经网络模型的输入格式确定所述文本数据集中的待转换数据集,以对所述待转换数据集进行数据转换,获得符合格式的第一文本数据;
对各所述第一文本数据基于摘要算法进行数据去重处理,获得去重后的第二文本数据;
确定所述第二文本数据中的中文字符占比,若确定所述中文字符占比小于预设占比阈值,则对所述第二文本数据进行删除,获得处理后的矿山事故事件文本数据;
所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,具体包括:
获取各所述处理后的矿山事故事件文本数据的摘要数据,以基于自动化算法确定所述摘要数据所对应的自动化标注;其中,所述自动化标注包括:事件类型标注、事件元素标注;
将所述各所述处理后的矿山事故事件文本数据与所述对应的自动化标注上传到所述众包平台;
基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验,获得矿山事故事件的标注文本数据集;
将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果,具体包括:
确定第一softmax分类器中事件触发词的分类计算公式;其中,所述分类计算公式为:,/>表示转移矩阵,/>表示整个网络的最终输出,V表示所述特征向量,b表示偏移量;
基于所述分类计算公式确定所述特征向量的分类结果,并基于softmax函数计算当前待分类的候选事件触发词分类结果中,概率最高的事件类型为所述矿山事故事件的事件分类结果;
基于第二softmax分类器对所述事件分类结果的事件元素进行分类,确定所述事件分类结果所对应的事件元素角色,为所述矿山事故事件的元素分类结果;
根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果;
所述根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果之后,所述方法还包括:
基于CRF层确定所述矿山事故事件抽取结果的预测输出标签;
对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,具体包括:
基于所述矿山事故事件抽取结果进行事件标识,以获取所述矿山事故事件的事件真实性标识与事件共指标识;
若基于所述事件真实性标识确定所述特征向量所对应的矿山事故事件为非真实事件,则对所述矿山事故事件抽取结果中该矿山事故事件进行删除;
若基于所述事件共指性标识,确定特征向量所对应的矿山事故事件为同一事故事件,则对所述特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。
2.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量,具体包括:
将所述标注文本数据集中各数据作为输入文本,以将所述输入文本基于词汇单元进行转换获得词汇级序列数据;其中,所述词汇单元为token级单元;
基于所述BERT预训练的动态多池化卷积神经网络模型的预设标记算法对所述词汇级序列数据进行拆分,获得所述标注文本数据集中各数据的子单词;其中,所述预设标记算法为:WordPiece Tokenization;
基于所述BERT预训练的动态多池化卷积神经网络模型的嵌入层确定对各所述子单词进行映射,获得各所述子单词所对应的词汇级特征向量;其中,所述词汇级特征向量包含所述子单词的语义信息。
3.根据权利要求2所述的一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量,具体包括:
根据所述词汇级特征向量确定待分类的候选事件触发词与候选事件元素的位置,以基于所述候选事件触发词与所述候选事件元素的位置,进行动态化句子切分获得句子级信息;
基于动态多池化卷积神经网络模型的嵌入层对所述句子级信息进行映射获得句子级特征向量;
基于全连接层对所述词汇级特征向量与所述句子级特征向量进行拼接,获得特征向量;其中,所述特征向量为,L为词汇级特征向量,P为句子级特征向量。
4.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量之前,所述方法还包括:
确定所述动态多池化卷积神经网络模型的目标函数,以基于所述目标函数对所述动态多池化卷积神经网络模型进行迭代优化;其中,所述目标函数为:
;
其中,θ表示影响事件类型的参数,i表示第i个事件类型,m表示事件类型的总量,x表示输入的特征,y表示要预测的目标,J(θ)表示极大似然估计。
5.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱,具体包括:
获取所述处理后的矿山事故事件抽取结果中各矿山事故事件的事件触发词,作为所述矿山事件知识图谱的事件节点;
基于各所述事件节点所对应的特征向量,确定所述矿山事件知识图谱的事件节点的事件关系,以基于所述事件关系确定所述矿山事件知识图谱的边;
对所述事件节点与所述矿山事件知识图谱的边,获得所述矿山事件知识图谱。
6.一种基于事件自动抽取的矿山事件知识图谱构建装置,其特征在于,所述装置包括:
数据标注单元,用于基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;
第一向量提取单元,用于基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;
第二向量提取单元,用于根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;
抽取单元,用于将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;
映射单元,用于对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱;
对所述矿山事故事件文本数据进行预处理,具体包括:
获取各所述矿山事故事件文本数据的数据格式,以基于所述数据格式将所述矿山事故事件文本数据划分到不同的文本数据集;
基于所述BERT预训练的动态多池化卷积神经网络模型的输入格式确定所述文本数据集中的待转换数据集,以对所述待转换数据集进行数据转换,获得符合格式的第一文本数据;
对各所述第一文本数据基于摘要算法进行数据去重处理,获得去重后的第二文本数据;
确定所述第二文本数据中的中文字符占比,若确定所述中文字符占比小于预设占比阈值,则对所述第二文本数据进行删除,获得处理后的矿山事故事件文本数据;
所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,具体包括:
获取各所述处理后的矿山事故事件文本数据的摘要数据,以基于自动化算法确定所述摘要数据所对应的自动化标注;其中,所述自动化标注包括:事件类型标注、事件元素标注;
将所述各所述处理后的矿山事故事件文本数据与所述对应的自动化标注上传到所述众包平台;
基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验,获得矿山事故事件的标注文本数据集;
将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果,具体包括:
确定第一softmax分类器中事件触发词的分类计算公式;其中,所述分类计算公式为:,/>表示转移矩阵,/>表示整个网络的最终输出,V表示所述特征向量,b表示偏移量;
基于所述分类计算公式确定所述特征向量的分类结果,并基于softmax函数计算当前待分类的候选事件触发词分类结果中,概率最高的事件类型为所述矿山事故事件的事件分类结果;
基于第二softmax分类器对所述事件分类结果的事件元素进行分类,确定所述事件分类结果所对应的事件元素角色,为所述矿山事故事件的元素分类结果;
根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果;
所述根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果之后,还包括:
基于CRF层确定所述矿山事故事件抽取结果的预测输出标签;
对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,具体包括:
基于所述矿山事故事件抽取结果进行事件标识,以获取所述矿山事故事件的事件真实性标识与事件共指标识;
若基于所述事件真实性标识确定所述特征向量所对应的矿山事故事件为非真实事件,则对所述矿山事故事件抽取结果中该矿山事故事件进行删除;
若基于所述事件共指性标识,确定特征向量所对应的矿山事故事件为同一事故事件,则对所述特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311786525.8A CN117454987B (zh) | 2023-12-25 | 2023-12-25 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311786525.8A CN117454987B (zh) | 2023-12-25 | 2023-12-25 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117454987A CN117454987A (zh) | 2024-01-26 |
CN117454987B true CN117454987B (zh) | 2024-03-19 |
Family
ID=89584086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311786525.8A Active CN117454987B (zh) | 2023-12-25 | 2023-12-25 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117454987B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110930008A (zh) * | 2019-11-15 | 2020-03-27 | 中国矿业大学 | 一种基于卷积神经网络的矿山灾害事件检测方法 |
CN111915080A (zh) * | 2020-07-30 | 2020-11-10 | 中冶华天工程技术有限公司 | 一种基于铁水质量约束的原燃料成本最优配比方法 |
CN112966525A (zh) * | 2021-03-31 | 2021-06-15 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
CN116932661A (zh) * | 2023-07-20 | 2023-10-24 | 南京邮电大学 | 一种面向网络安全的事件知识图谱构建方法 |
CN117196032A (zh) * | 2023-09-26 | 2023-12-08 | 长三角信息智能创新研究院 | 一种用于智能决策的知识图谱构建方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507700A (zh) * | 2020-11-26 | 2021-03-16 | 北京百度网讯科技有限公司 | 事件抽取方法、装置、电子设备及存储介质 |
CN113935502B (zh) * | 2021-10-15 | 2022-04-22 | 河海大学 | 基于双重注意力机制的面向大坝应急工况事件抽取方法 |
CN114168745B (zh) * | 2021-11-30 | 2022-08-09 | 大连理工大学 | 面向环氧乙烷衍生品生产过程的知识图谱构建方法 |
-
2023
- 2023-12-25 CN CN202311786525.8A patent/CN117454987B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110930008A (zh) * | 2019-11-15 | 2020-03-27 | 中国矿业大学 | 一种基于卷积神经网络的矿山灾害事件检测方法 |
CN111915080A (zh) * | 2020-07-30 | 2020-11-10 | 中冶华天工程技术有限公司 | 一种基于铁水质量约束的原燃料成本最优配比方法 |
CN112966525A (zh) * | 2021-03-31 | 2021-06-15 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
CN116932661A (zh) * | 2023-07-20 | 2023-10-24 | 南京邮电大学 | 一种面向网络安全的事件知识图谱构建方法 |
CN117196032A (zh) * | 2023-09-26 | 2023-12-08 | 长三角信息智能创新研究院 | 一种用于智能决策的知识图谱构建方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
CLIP-Event: Connecting Text and Images with Event Structures;Li, ML (Li, Manling);《2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2022)》;20230105;全文 * |
基于词向量和条件随机场的煤矿安全事故本体概念抽取;刘思含;刘旭红;刘秀磊;李红臣;;煤炭技术;20180910(第09期);全文 * |
铁路隧道钻爆法施工智能管理的安全质量进度知识图谱构建方法;朱庆;《武汉大学学报(信息科学版)》;20210831;第47卷(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117454987A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN107133220B (zh) | 一种地理学科领域命名实体识别方法 | |
CN111914558A (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
CN111309912A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN110532398B (zh) | 基于多任务联合神经网络模型的家族图谱自动构建方法 | |
RU2760471C1 (ru) | Способы и системы идентификации полей в документе | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN114548099A (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN112257413A (zh) | 地址参数处理方法及相关设备 | |
WO2022143608A1 (zh) | 语言标注方法、装置、计算机设备和存储介质 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN117454987B (zh) | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 | |
CN110738054B (zh) | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 | |
CN111209392B (zh) | 污染企业的挖掘方法、装置及设备 | |
KR101126186B1 (ko) | 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체 | |
CN113886602A (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN113076741A (zh) | 一种基于多语言文本数据分析方法 | |
CN112925886B (zh) | 一种基于领域适应的少样本实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |