CN116049345A - 基于双向事件完全图的文档级事件联合抽取方法及系统 - Google Patents
基于双向事件完全图的文档级事件联合抽取方法及系统 Download PDFInfo
- Publication number
- CN116049345A CN116049345A CN202310337487.1A CN202310337487A CN116049345A CN 116049345 A CN116049345 A CN 116049345A CN 202310337487 A CN202310337487 A CN 202310337487A CN 116049345 A CN116049345 A CN 116049345A
- Authority
- CN
- China
- Prior art keywords
- event
- sample
- document
- bidirectional
- joint extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 125
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 86
- 239000011159 matrix material Substances 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 238000010276 construction Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于双向事件完全图的文档级事件联合抽取方法及系统,该方法包括:根据各样本事件类型与论元角色之间的关系,构建三元组关联关系;根据标注语料中各事件记录信息中的词语和三元组关联关系,构建样本双向事件完全图;分别构建各样本文档的邻接矩阵,根据样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练;将待抽取文档输入收敛后的事件联合抽取模型进行事件抽取,得到事件信息。本发明基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练,使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息,提高了事件抽取的准确性。
Description
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于双向事件完全图的文档级事件联合抽取方法及系统。
背景技术
语句级事件抽取旨在从单个语句中抽取事件相关的信息,然而一个事件的成分可能散落的多个语句中,导致事件论元出现跨句现象。因此,需要从整个文档范围中抽取事件。由于同一个事件在一个文档中存在多次提及、一个文档可能包含多个不同事件,使得文档级事件抽取需要解决多事件识别问题。文档级事件抽取需要完成实体识别、事件类型判断、事件识别、事件论元角色识别等任务。
现有的文档级事件抽取过程中,一般采用流水线模式实现文档级事件抽取,导致任务之间存在严重的错误传播,如论元角色识别需要基于实体识别的结果,不准确的实体识别将导致论元角色识别效果较低。
发明内容
本发明实施例的目的在于提供一种基于双向事件完全图的文档级事件联合抽取方法及系统,旨在解决现有的文档级事件抽取过程中,事件抽取准确性低下的问题。
本发明实施例是这样实现的,一种基于双向事件完全图的文档级事件联合抽取方法,所述方法包括:
获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色;
获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,所述样本双向事件完全图用于表征各事件记录中词语之间的关联;
分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;
根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛;
将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息。
优选的,所述根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,包括:
分别获取各样本事件类型的论元角色集合,并将所述论元角色集合中的不同论元角色进行组合,得到论元角色对;
针对各样本事件类型,分别与对应的各论元角色对进行组合,得到所述三元组关联关系,并对所述三元组关联关系进行标识编号。
优选的,所述根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,包括:
分别获取各事件记录信息的事件类型,并分别将各事件记录信息中的事件词语进行组合,得到词语对;
分别获取各词语对的论元角色,并针对各事件记录信息,将对应的所述事件类型和各词语对的论元角色进行边类型组合,得到所述样本双向事件完全图;
根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号。
优选的,所述分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵,包括:
分别获取各样本文档的词语数,并根据所述词语数建立所述邻接矩阵;
分别查询所述样本双向事件完全图中各词语对在所述邻接矩阵中的填充位置;
根据所述样本双向事件完全图中各词语对携带的编号对相对应的所述填充位置进行标识填充,得到所述样本邻接矩阵。
优选的,所述根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,包括:
根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化,并获取捕获各文档词语之间的位置信息,得到特征编码信息;
根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测,得到预测邻接矩阵,并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失;
根据所述模型损失对所述编码层和所述分类层进行参数更新,直至所述编码层和所述分类层收敛,得到收敛后的所述事件联合抽取模型。
优选的,所述将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息,包括:
根据收敛后的所述事件联合抽取模型对所述待抽取文档进行事件分类预测,得到输出邻接矩阵,并对所述输出邻接矩阵进行结构解码,得到解码双向事件完全图;
获取所述解码双向事件完全图中的完全子图,并根据各完全子图中边类型的编号进行结构转换,得到输出三元组关联关系;
获取所述输出三元组关联关系中的事件类型和论元角色,得到所述事件信息。
优选的,所述根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练之后,还包括:
分别计算所述事件联合抽取模型的精确率、召回率和F1值;
当所述事件联合抽取模型的精确率、召回率和F1值均大于对应的收敛阈值时,则判定所述事件联合抽取模型收敛;
所述计算所述事件联合抽取模型的精确率、召回率和F1值采用的公式包括:
;
其中,
Precision表示所述精确率,
Recall表示所述召回率,
TP表示被预测为正且真实值为正的样本数,
FP表示被预测为正但真实值为负的样本数,
FN为被预测为负但真实值为正的样本数。
本发明实施例的另一目的在于提供一种基于双向事件完全图的文档级事件联合抽取系统,所述系统包括:
关系构建模块,用于获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色;
完全图构建模块,用于获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,所述样本双向事件完全图用于表征各事件记录中词语之间的关联;
邻接矩阵构建模块,用于分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;
模型训练模块,用于根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛;
事件抽取模块,用于将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息。
本发明实施例,通过构建三元组关联关系,能有效地确定各词语在特定事件类型下扮演指定角色的论元,通过构建样本双向事件完全图和样本邻接矩阵,能有效地确定同一个事件中词语之间的关联,基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练,使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息,防止了基于流水线模式的错误传播问题,提高了事件抽取的准确性。
附图说明
图1是本发明第一实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图;
图2是本发明第一实施例提供的事件记录信息和词语-词语邻接矩阵的示意图;
图3是本发明第二实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图;
图4是本发明第二实施例提供的事件联合抽取模型训练的示意图;
图5是本发明第三实施例提供的基于双向事件完全图的文档级事件联合抽取系统的结构示意图;
图6是本发明第四实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图,该基于双向事件完全图的文档级事件联合抽取方法可以应用于任一终端设备或系统,该基于双向事件完全图的文档级事件联合抽取方法包括步骤:
步骤S10,获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系;
其中,三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色,该样本事件类型的数量和内容可以根据需求进行设置,通过构建三元组关联关系,能有效地确定各词语在特定事件类型下扮演指定角色的论元;
可选的,该步骤中,所述根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,包括:
分别获取各样本事件类型的论元角色集合,并将所述论元角色集合中的不同论元角色进行组合,得到论元角色对;
针对各样本事件类型,分别与对应的各论元角色对进行组合,得到所述三元组关联关系,并对所述三元组关联关系进行标识编号;
其中,分别将各样本事件类型的类型标识与集合查询表进行匹配,得到该论元角色集合,该集合查询表中存储有不同类型标识与对应论元角色集合之间的对应关系,该论元角色集合包括对应样本事件类型涉及的所有事件论元角色;
该步骤中,针对各元角色集合中的论元角色,将任意2种论元角色相互组合,得到论元角色对,然后将其与对应的样本事件类型组合,形成三元组关联关系,该三元组关联关系包括事件类型-论元角色-论元角色的关系结构集合,对各样本事件类型的三元组关联关系进行编号,以id数值代表每种关系结构。
可选的,样本事件类型表示为,其包含的论元角色可以表示为,论元角色对的集合表示为:
;
样本事件类型下的三元组关联关系的关系结构集合表示为:
;
其中,为第个论元角色,表示论元角色对,为样本事件类型涉及的论元角色个数,公式中的“”为连接符,表示下的第个论元角色对,表示第个论元角色对中的第个论元角色。
步骤S20,获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图;
其中,样本双向事件完全图用于表征各事件记录中词语之间的关联;可选的,该步骤中,所述根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,包括:
分别获取各事件记录信息的事件类型,并分别将各事件记录信息中的事件词语进行组合,得到词语对;
分别获取各词语对的论元角色,并针对各事件记录信息,将对应的所述事件类型和各词语对的论元角色进行边类型组合,得到所述样本双向事件完全图;
根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号;
其中,扫描标注语料中的所有事件记录信息,针对各事件记录信息获取事件类型,扫描当前事件记录信息,获取事件包含的所有词语,为其中任意2个词语建立关联,形成词语对,针对各词语对,获取词语的论元角色,形成该词语对的事件类型-论元角色-论元角色关系结构,以各词语对的事件类型-论元角色-论元角色关系结构为边类型进行组合,得到该样本双向事件完全图,根据三元组关联关系中各事件类型-论元角色-论元角色的id数值,对样本双向事件完全图中对应的事件类型-论元角色-论元角色关系结构进行编号。
其中,当前事件记录信息及事件类型分别为和,事件包含的词语表示为,对应的词语对表示为:
;
其中,
w-
w表示词语对,表示事件类型下事件
e包含的第
s个词语。
事件的词语对的事件类型-论元角色-论元角色关系结构表示为:
;
其中,表示下的第个论元角色对,表示第
k个论元角色对中的第
i个论元角色。
步骤S30,分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;
其中,通过构建样本双向事件完全图和样本邻接矩阵,能有效地确定同一个事件中词语之间的关联,可选的,该步骤中,所述分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵,包括:
分别获取各样本文档的词语数,并根据所述词语数建立所述邻接矩阵;
分别查询所述样本双向事件完全图中各词语对在所述邻接矩阵中的填充位置;
根据所述样本双向事件完全图中各词语对携带的编号对相对应的所述填充位置进行标识填充,得到所述样本邻接矩阵。
其中,扫描标注语料及对应的样本文档,获取样本文档包含的词语数
N,针对各样本文档,建立
N×
N的目标词语-词语的邻接矩阵,分别查询样本双向事件完全图中各词语对在邻接矩阵中的填充位置,通过将各词语对携带的编号对相对应的填充位置进行标识填充,能有效地构建该样本邻接矩阵TT。
样本邻接矩阵表示为,每行和每列均表示样本文档
d中的一个词语。在TT第
s行和第
q列、第
q行和第
s列填充id值可表示为:
;
;
其中,为事件记录信息包含的词语个数,
N为样本文档
d的词语个数,,表示样本文档中的第
s和第
q个词语,对应的第个论元角色对,ID为取三元组关联关系的id值函数。
步骤S40,根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛;
其中,基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练,使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息。
步骤S50,将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息;
可选的,该步骤中,所述将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息,包括:
根据收敛后的所述事件联合抽取模型对所述待抽取文档进行事件分类预测,得到输出邻接矩阵,并对所述输出邻接矩阵进行结构解码,得到解码双向事件完全图;
获取所述解码双向事件完全图中的完全子图,并根据各完全子图中边类型的编号进行结构转换,得到输出三元组关联关系;
获取所述输出三元组关联关系中的事件类型和论元角色,得到所述事件信息;
其中,将待抽取文档输入收敛后的事件联合抽取模型进行事件分类预测,以得到表征待抽取文档中目标词语-词语的输出邻接矩阵,通过对输出邻接矩阵进行结构解码,以得到表征待抽取文档中各事件记录中词语之间关联的解码双向事件完全图;
由于一个完全子图对应一个事件,通过获取解码双向事件完全图中的完全子图,以得到待抽取文档中的事件,通过解码完全子图中的所有词语-词语之间的边类型,可明确哪些词语在特定事件类型下的一个事件中扮演了指定角色的论元,得到该输出三元组关联关系。
请参阅图2,左上部分为语料标注的事件记录信息,右上部分为根据事件记录信息构建的词语-词语关联图(可表示为词语-词语邻接矩阵)。其中,选择“持股者”角色对应的词语“国联”作为伪触发词,伪触发词指向同一事件内的非伪触发词。
基于团的事件解码策略因共享伪触发词导致无法准确解码。当“国联”作为伪触发词时,、和对应的词语-词语关联图完全一样(如图2右上部分所示),此时基于这个图解码成事件记录则存在问题,即无法确定是哪个虚框的事件记录。导致这种情况的原因是该策略需要选定伪触发词并以其为中心,伪触发词一旦相同或部分重叠,则解码存在错误。
因此,本实施例舍弃以伪触发词为中心的策略,将事件记录内的所有论元相互关联(即构建完全图,如图2左下部分所示)。其次,由于无向的词语-词语关联图只能揭示词语之间存在关联,而词语的边类型为,的边类型却为,它们的类型不相同。因此,词语-词语关联图中词语之间的连边需要采用双向,如图2右下部分所示。最后,本实施例设计了一个以事件类型-论元角色-论元角色关系为边类型的词语-词语双向事件完全图,通过解码该图中包含的每一个完全子图(一个完全子图对应一个事件)中的所有词语-词语之间的边类型,可明确哪些词语在特定事件类型下的一个事件中扮演了指定角色的论元。
本实施例中,通过构建三元组关联关系,能有效地确定各词语在特定事件类型下扮演指定角色的论元,通过构建样本双向事件完全图和样本邻接矩阵,能有效地确定同一个事件中词语之间的关联,基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练,使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息,防止了基于流水线模式的错误传播问题,提高了事件抽取的准确性。
实施例二
请参阅图3,是本发明第二实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图,该实施例用于对第一实施例中步骤S40作进一步细化,包括步骤:
步骤S41,根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化,并获取捕获各文档词语之间的位置信息,得到特征编码信息;
其中,针对编码层:给定样本文档
d的词语初始化向量表示为,词语的类型为,其中,表示的类型并没有具体限定,不同词可以对应有不同的类型。例如,类型可以为公司名或时间词等。
请参阅图4,将词语在输入编码层中的Bi-LSTM网络之前与其类型拼接:
;
为拼接操作,为词语的初始化嵌入表示,在随机初始化生成的向量表中查找得到。
Bi-LSTM网络捕获词语对的位置信息,的嵌入表示更新过程表示为:
;
;
其中,和分别表示进行前向和后向LSTM操作,
h s 表示第
s个词语的嵌入表示,
N为词语数量。
词语输出Bi-LSTM网络的嵌入表示为:
;
词语对更新后的嵌入表示为:
;
步骤S42,根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测,得到预测邻接矩阵,并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失;
其中,通过分类层对各特征编码信息进行事件分类预测,得到预测邻接矩阵(预测的词语-词语邻接矩阵),针对分类层:对于样本文档中的各词语对,将其输入分类层中的全连接网络,采用softmax函数计算其对应嵌入表示在事件类型-论元角色-论元角色关系结构上的概率:
;
其中,
W为权重矩阵,
b为偏置项,为词语对在参数下的最终标签输出。
根据词语对在所有关系结构上的概率,采用标准带权重的交叉熵损失函数作为目标函数,以计算模型损失,目标函数公式为:
;
其中,为类别的权重。
可选的,针对预测的词语-词语邻接矩阵可以进行图结构解码,得到词语-词语双向事件完全图,对词语-词语双向事件完全图进行边类型解码,可以得到该预测的词语-词语邻接矩阵对应的事件记录。
步骤S43,根据所述模型损失对所述编码层和所述分类层进行参数更新,直至所述编码层和所述分类层收敛,得到收敛后的所述事件联合抽取模型;
可选的,该步骤中,所述根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练之后,还包括:
分别计算所述事件联合抽取模型的精确率、召回率和F1值;
当所述事件联合抽取模型的精确率、召回率和F1值均大于对应的收敛阈值时,则判定所述事件联合抽取模型收敛,其中,该收敛阈值可以根据需求进行设置;
所述计算所述事件联合抽取模型的精确率、召回率和F1值采用的公式包括:
;
其中,
Precision表示所述精确率,
Recall表示所述召回率,
TP表示被预测为正且真实值为正的样本数,
FP表示被预测为正但真实值为负的样本数,
FN为被预测为负但真实值为正的样本数。在此需要补充说明的是,上述的F1值为综合评价指标,具体表示准确率和召回率的调和平均值。
本实施例中,通过对各样本文档中的文档词语进行向量初始化,获取捕获各文档词语之间的位置信息,能有效地对各样本文档中的文档词语进行特征编码,得到该特征编码信息,通过对各特征编码信息进行事件分类预测,能有效地得到事件联合抽取模型对各样本文档的预测邻接矩阵,基于预测邻接矩阵和样本邻接矩阵能有效地计算到事件联合抽取模型的模型损失,基于模型损失对编码层和分类层进行参数更新,以提高事件联合抽取模型的准确性。
实施例三
请参阅图5,是本发明第三实施例提供的基于双向事件完全图的文档级事件联合抽取系统100的结构示意图,包括:关系构建模块10、完全图构建模块11、邻接矩阵构建模块12、模型训练模块13和事件抽取模块14,其中:
关系构建模块10,用于获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色。
可选的,关系构建模块10还用于:分别获取各样本事件类型的论元角色集合,并将所述论元角色集合中的不同论元角色进行组合,得到论元角色对;
针对各样本事件类型,分别与对应的各论元角色对进行组合,得到所述三元组关联关系,并对所述三元组关联关系进行标识编号。
完全图构建模块11,用于获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,所述样本双向事件完全图用于表征各事件记录中词语之间的关联。
可选的,完全图构建模块11还用于:分别获取各事件记录信息的事件类型,并分别将各事件记录信息中的事件词语进行组合,得到词语对;
分别获取各词语对的论元角色,并针对各事件记录信息,将对应的所述事件类型和各词语对的论元角色进行边类型组合,得到所述样本双向事件完全图;
根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号。
邻接矩阵构建模块12,用于分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵。
可选的,邻接矩阵构建模块12还用于:分别获取各样本文档的词语数,并根据所述词语数建立所述邻接矩阵;
分别查询所述样本双向事件完全图中各词语对在所述邻接矩阵中的填充位置;
根据所述样本双向事件完全图中各词语对携带的编号对相对应的所述填充位置进行标识填充,得到所述样本邻接矩阵。
模型训练模块13,用于根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛。
模型训练模块13还用于:根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化,并获取捕获各文档词语之间的位置信息,得到特征编码信息;
根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测,得到预测邻接矩阵,并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失;
根据所述模型损失对所述编码层和所述分类层进行参数更新,直至所述编码层和所述分类层收敛,得到收敛后的所述事件联合抽取模型。
进一步地,模型训练模块13还用于:分别计算所述事件联合抽取模型的精确率、召回率和F1值;
当所述事件联合抽取模型的精确率、召回率和F1值均大于对应的收敛阈值时,则判定所述事件联合抽取模型收敛;
所述计算所述事件联合抽取模型的精确率、召回率和F1值采用的公式包括:
;
其中,
Precision表示所述精确率,
Recall表示所述召回率,
TP表示被预测为正且真实值为正的样本数,
FP表示被预测为正但真实值为负的样本数,
FN为被预测为负但真实值为正的样本数。
事件抽取模块14,用于将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息。
可选的,事件抽取模块14还用于:根据收敛后的所述事件联合抽取模型对所述待抽取文档进行事件分类预测,得到输出邻接矩阵,并对所述输出邻接矩阵进行结构解码,得到解码双向事件完全图;
获取所述解码双向事件完全图中的完全子图,并根据各完全子图中边类型的编号进行结构转换,得到输出三元组关联关系;
获取所述输出三元组关联关系中的事件类型和论元角色,得到所述事件信息。
本实施例,通过构建三元组关联关系,能有效地确定各词语在特定事件类型下扮演指定角色的论元,通过构建样本双向事件完全图和样本邻接矩阵,能有效地确定同一个事件中词语之间的关联,基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练,使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息,防止了基于流水线模式的错误传播问题,提高了事件抽取的准确性。
实施例四
图6是本申请第四实施例提供的一种终端设备2的结构框图。如图6所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如基于双向事件完全图的文档级事件联合抽取方法的程序。处理器20执行所述计算机程序22时实现上述各个基于双向事件完全图的文档级事件联合抽取方法各实施例中的步骤。
示例性的,所述计算机程序22可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括,但不仅限于,处理器20、存储器21。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述方法包括:
获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色;
获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,所述样本双向事件完全图用于表征各事件记录中词语之间的关联;
分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;
根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛;
将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息。
2.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,包括:
分别获取各样本事件类型的论元角色集合,并将所述论元角色集合中的不同论元角色进行组合,得到论元角色对;
针对各样本事件类型,分别与对应的各论元角色对进行组合,得到所述三元组关联关系,并对所述三元组关联关系进行标识编号。
3.如权利要求2所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,包括:
分别获取各事件记录信息的事件类型,并分别将各事件记录信息中的事件词语进行组合,得到词语对;
分别获取各词语对的论元角色,并针对各事件记录信息,将对应的所述事件类型和各词语对的论元角色进行边类型组合,得到所述样本双向事件完全图;
根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号。
4.如权利要求3所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵,包括:
分别获取各样本文档的词语数,并根据所述词语数建立所述邻接矩阵;
分别查询所述样本双向事件完全图中各词语对在所述邻接矩阵中的填充位置;
根据所述样本双向事件完全图中各词语对携带的编号对相对应的所述填充位置进行标识填充,得到所述样本邻接矩阵。
5.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,包括:
根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化,并获取捕获各文档词语之间的位置信息,得到特征编码信息;
根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测,得到预测邻接矩阵,并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失;
根据所述模型损失对所述编码层和所述分类层进行参数更新,直至所述编码层和所述分类层收敛,得到收敛后的所述事件联合抽取模型。
6.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息,包括:
根据收敛后的所述事件联合抽取模型对所述待抽取文档进行事件分类预测,得到输出邻接矩阵,并对所述输出邻接矩阵进行结构解码,得到解码双向事件完全图;
获取所述解码双向事件完全图中的完全子图,并根据各完全子图中边类型的编号进行结构转换,得到输出三元组关联关系;
获取所述输出三元组关联关系中的事件类型和论元角色,得到所述事件信息。
7.如权利要求1至6任一所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练之后,还包括:
分别计算所述事件联合抽取模型的精确率、召回率和F1值;
当所述事件联合抽取模型的精确率、召回率和F1值均大于对应的收敛阈值时,则判定所述事件联合抽取模型收敛;
所述计算所述事件联合抽取模型的精确率、召回率和F1值采用的公式包括:
;
其中,Precision表示所述精确率,Recall表示所述召回率,TP表示被预测为正且真实值为正的样本数,FP表示被预测为正但真实值为负的样本数,FN为被预测为负但真实值为正的样本数。
8.一种基于双向事件完全图的文档级事件联合抽取系统,其特征在于,应用如上述权利要求1至7任一项所述的基于双向事件完全图的文档级事件联合抽取方法,所述系统包括:
关系构建模块,用于获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色;
完全图构建模块,用于获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,所述样本双向事件完全图用于表征各事件记录中词语之间的关联;
邻接矩阵构建模块,用于分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;
模型训练模块,用于根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛;
事件抽取模块,用于将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息。
9.如权利要求8所述的基于双向事件完全图的文档级事件联合抽取系统,其特征在于,所述关系构建模块还用于:
分别获取各样本事件类型的论元角色集合,并将所述论元角色集合中的不同论元角色进行组合,得到论元角色对;
针对各样本事件类型,分别与对应的各论元角色对进行组合,得到所述三元组关联关系,并对所述三元组关联关系进行标识编号。
10.如权利要求9所述的基于双向事件完全图的文档级事件联合抽取系统,其特征在于,所述完全图构建模块还用于:
分别获取各事件记录信息的事件类型,并分别将各事件记录信息中的事件词语进行组合,得到词语对;
分别获取各词语对的论元角色,并针对各事件记录信息,将对应的所述事件类型和各词语对的论元角色进行边类型组合,得到所述样本双向事件完全图;
根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310337487.1A CN116049345B (zh) | 2023-03-31 | 2023-03-31 | 基于双向事件完全图的文档级事件联合抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310337487.1A CN116049345B (zh) | 2023-03-31 | 2023-03-31 | 基于双向事件完全图的文档级事件联合抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049345A true CN116049345A (zh) | 2023-05-02 |
CN116049345B CN116049345B (zh) | 2023-10-10 |
Family
ID=86118547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310337487.1A Active CN116049345B (zh) | 2023-03-31 | 2023-03-31 | 基于双向事件完全图的文档级事件联合抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049345B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304885A (zh) * | 2023-05-11 | 2023-06-23 | 之江实验室 | 一种基于图节点嵌入的事件识别方法、装置和设备 |
CN116579338A (zh) * | 2023-07-13 | 2023-08-11 | 江西财经大学 | 基于集成联合学习的文档级事件抽取方法和系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357625A1 (en) * | 2016-06-14 | 2017-12-14 | Northrop Grumman Systems Corporation | Event extraction from documents |
JP2019192086A (ja) * | 2018-04-27 | 2019-10-31 | 富士通株式会社 | 領域生成プログラム、領域生成装置および領域生成方法 |
CN111859935A (zh) * | 2020-07-03 | 2020-10-30 | 大连理工大学 | 基于文献的癌症相关生物医学事件数据库构建方法 |
CN112231447A (zh) * | 2020-11-21 | 2021-01-15 | 杭州投知信息技术有限公司 | 一种中文文档事件抽取的方法和系统 |
CN112632230A (zh) * | 2020-12-30 | 2021-04-09 | 中国科学院空天信息创新研究院 | 一种基于多层级图网络的事件联合抽取方法及装置 |
US20210200947A1 (en) * | 2020-03-20 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Event argument extraction method and apparatus and electronic device |
CN113312500A (zh) * | 2021-06-24 | 2021-08-27 | 河海大学 | 一种面向大坝安全运行的事件图谱构建方法 |
CN113779988A (zh) * | 2021-09-07 | 2021-12-10 | 科大国创云网科技有限公司 | 一种通信领域过程类知识事件抽取方法 |
CN113935502A (zh) * | 2021-10-15 | 2022-01-14 | 河海大学 | 基于双重注意力机制的面向大坝应急工况事件抽取方法 |
US20220100963A1 (en) * | 2020-09-30 | 2022-03-31 | Amazon Technologies, Inc. | Event extraction from documents with co-reference |
CN114328838A (zh) * | 2021-12-31 | 2022-04-12 | 北京小米移动软件有限公司 | 事件抽取方法、装置、电子设备及可读存储介质 |
CN114444484A (zh) * | 2022-01-13 | 2022-05-06 | 重庆邮电大学 | 一种基于双层图的文档级事件抽取方法及系统 |
CN114841140A (zh) * | 2022-04-27 | 2022-08-02 | 迈容智能科技(上海)有限公司 | 依存分析模型及基于依存分析的中文联合事件抽取方法 |
CN114880427A (zh) * | 2022-04-20 | 2022-08-09 | 迈容智能科技(上海)有限公司 | 基于多层级注意力机制的模型、事件论元抽取方法及系统 |
US20220318505A1 (en) * | 2021-04-06 | 2022-10-06 | Adobe Inc. | Inducing rich interaction structures between words for document-level event argument extraction |
CN115659974A (zh) * | 2022-09-30 | 2023-01-31 | 中国科学院软件研究所 | 一种基于开源软件供应链的软件安全舆情事件抽取方法与装置 |
-
2023
- 2023-03-31 CN CN202310337487.1A patent/CN116049345B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357625A1 (en) * | 2016-06-14 | 2017-12-14 | Northrop Grumman Systems Corporation | Event extraction from documents |
JP2019192086A (ja) * | 2018-04-27 | 2019-10-31 | 富士通株式会社 | 領域生成プログラム、領域生成装置および領域生成方法 |
US20210200947A1 (en) * | 2020-03-20 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Event argument extraction method and apparatus and electronic device |
CN111859935A (zh) * | 2020-07-03 | 2020-10-30 | 大连理工大学 | 基于文献的癌症相关生物医学事件数据库构建方法 |
US20220100963A1 (en) * | 2020-09-30 | 2022-03-31 | Amazon Technologies, Inc. | Event extraction from documents with co-reference |
CN112231447A (zh) * | 2020-11-21 | 2021-01-15 | 杭州投知信息技术有限公司 | 一种中文文档事件抽取的方法和系统 |
CN112632230A (zh) * | 2020-12-30 | 2021-04-09 | 中国科学院空天信息创新研究院 | 一种基于多层级图网络的事件联合抽取方法及装置 |
US20220318505A1 (en) * | 2021-04-06 | 2022-10-06 | Adobe Inc. | Inducing rich interaction structures between words for document-level event argument extraction |
CN113312500A (zh) * | 2021-06-24 | 2021-08-27 | 河海大学 | 一种面向大坝安全运行的事件图谱构建方法 |
CN113779988A (zh) * | 2021-09-07 | 2021-12-10 | 科大国创云网科技有限公司 | 一种通信领域过程类知识事件抽取方法 |
CN113935502A (zh) * | 2021-10-15 | 2022-01-14 | 河海大学 | 基于双重注意力机制的面向大坝应急工况事件抽取方法 |
CN114328838A (zh) * | 2021-12-31 | 2022-04-12 | 北京小米移动软件有限公司 | 事件抽取方法、装置、电子设备及可读存储介质 |
CN114444484A (zh) * | 2022-01-13 | 2022-05-06 | 重庆邮电大学 | 一种基于双层图的文档级事件抽取方法及系统 |
CN114880427A (zh) * | 2022-04-20 | 2022-08-09 | 迈容智能科技(上海)有限公司 | 基于多层级注意力机制的模型、事件论元抽取方法及系统 |
CN114841140A (zh) * | 2022-04-27 | 2022-08-02 | 迈容智能科技(上海)有限公司 | 依存分析模型及基于依存分析的中文联合事件抽取方法 |
CN115659974A (zh) * | 2022-09-30 | 2023-01-31 | 中国科学院软件研究所 | 一种基于开源软件供应链的软件安全舆情事件抽取方法与装置 |
Non-Patent Citations (6)
Title |
---|
HANG YANG 等: "Multi-Turn and Multi-Granularity Reader for Document-Level Event Extraction", ACM, pages 1 - 16 * |
QIZHI WAN 等: "A Multi-channel Hierarchical Graph Attention Network for Open Event Extraction", ACM, pages 1 - 27 * |
万齐智 等: "基于句法语义依存分析的中文金融事件抽取", 计算机学报, pages 508 - 530 * |
彭楚越;: "基于神经网络方法的事件抽取研究", 现代计算机, no. 06, pages 47 - 50 * |
李培峰;周国栋;朱巧明;: "基于语义的中文事件触发词抽取联合模型", 软件学报, no. 02, pages 280 - 294 * |
贺瑞芳;段绍杨;: "基于多任务学习的中文事件抽取联合模型", 软件学报, no. 04, pages 1015 - 1030 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304885A (zh) * | 2023-05-11 | 2023-06-23 | 之江实验室 | 一种基于图节点嵌入的事件识别方法、装置和设备 |
CN116304885B (zh) * | 2023-05-11 | 2023-08-22 | 之江实验室 | 一种基于图节点嵌入的事件识别方法、装置和设备 |
CN116579338A (zh) * | 2023-07-13 | 2023-08-11 | 江西财经大学 | 基于集成联合学习的文档级事件抽取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116049345B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116049345B (zh) | 基于双向事件完全图的文档级事件联合抽取方法及系统 | |
CN109582772B (zh) | 合同信息提取方法、装置、计算机设备和存储介质 | |
WO2022089227A1 (zh) | 地址参数处理方法及相关设备 | |
CN116822464A (zh) | 一种文本纠错方法、系统、设备及存储介质 | |
CN112214984A (zh) | 内容抄袭识别方法、装置、设备及存储介质 | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN115100739B (zh) | 人机行为检测方法、系统、终端设备及存储介质 | |
CN112348203A (zh) | 模型训练方法、装置、终端设备及存储介质 | |
CN113010785B (zh) | 用户推荐方法及设备 | |
CN115641201B (zh) | 数据异常检测方法、系统、终端设备及存储介质 | |
CN113723466B (zh) | 文本相似度量化方法、设备及系统 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN115618043B (zh) | 文本操作图互检方法及模型训练方法、装置、设备、介质 | |
CN113988067B (zh) | 语句分词方法、装置及电子设备 | |
CN116186223A (zh) | 一种金融文本处理方法、装置、设备和存储介质 | |
CN114490929A (zh) | 一种招投标信息采集方法、装置、存储介质及终端设备 | |
CN112597208A (zh) | 企业名称检索方法、企业名称检索装置及终端设备 | |
CN115310434B (zh) | 合同文书语法的纠错方法、装置、计算机设备及存储介质 | |
CN114385809B (zh) | 实体文本提取模型的训练方法、装置及设备 | |
CN115359495B (zh) | 试卷信息处理方法和系统 | |
CN111753521B (zh) | 基于人工智能的阅读理解方法及相关设备 | |
CN113299345B (zh) | 病毒基因分类的方法、装置及电子设备 | |
CN111680986B (zh) | 一种串案识别方法及装置 | |
CN115809413A (zh) | 数据分析方法和电子设备 | |
CN114003691A (zh) | 实体名称的标准化表示方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |