CN111382575A - 一种基于联合标注和实体语义信息的事件抽取方法 - Google Patents
一种基于联合标注和实体语义信息的事件抽取方法 Download PDFInfo
- Publication number
- CN111382575A CN111382575A CN202010197606.4A CN202010197606A CN111382575A CN 111382575 A CN111382575 A CN 111382575A CN 202010197606 A CN202010197606 A CN 202010197606A CN 111382575 A CN111382575 A CN 111382575A
- Authority
- CN
- China
- Prior art keywords
- event
- entity
- layer
- events
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 34
- 238000002372 labelling Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 58
- 238000000034 method Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 206010033864 Paranoia Diseases 0.000 description 1
- 208000027099 Paranoid disease Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于联合标注和实体语义信息的事件抽取方法,自然语言智能处理技术领域。本发明的事件抽取方法,首先采用BERT模型作为特征提取器;其次,基于字特征输入建模,不进行分词操作,并采用BIO标注,降低触发词识别的错误;再将抽取得到的事件通过计算事件相似度进行同类型事件的事件元素融合。从而使得本发明所提取的文本对象的特征信息更丰富、降低中文文本语料分词的粒度不同所导致的触发词的识别准确率的影响,以及避免因同一事件的事件元素信息可能出现在多个不同的段落或句子对事件抽取的准确性的影响。
Description
技术领域
本发明属于自然语言智能处理技术领域,具体涉及一种基于联合标注和实体语义信息的事件抽取方法。
背景技术
事件抽取任务是识别描述事件信息的文本,从中抽取出事件元素并以结构化的形式呈现出来。事件抽取任务包括事件识别和事件元素抽取两个子任务。事件识别,即识别出文本中由事件触发词引导的事件实例并进行分类;事件元素抽取,即从事件描述句中抽取出事件元素并分类。根据抽取方法,事件抽取分为基于模式匹配的事件抽取和基于机器学习的事件抽取。
在2002年前,事件抽取主要聚焦于模式匹配的方法,但移植性较差。2002年至2013年间,基于建立在统计模型基础上的机器学习的方法成为主流,该方法一般将事件抽取建模成多分类问题,但在特征提取的过程中过分依赖依存句法分析、词性标注等传统的自然语言处理工具,容易造成累计误差。
2013年以来,越来越多的研究者开始转向基于神经网络的事件抽取,利用神经网络来挖掘事件中更深层次的语义信息,不再很大程度上依赖于人工定义的局部或全局特征,提升了事件抽取任务。
目前,事件抽取任务存在的难点在于:
第一、事件抽取过程中不仅要识别出事件触发词和事件类别,还要识别出事件元素和其在事件中的角色,因此需要挖掘出事件描述文本更深层次的特征。
第二、中文文本语料分词的粒度不同对触发词的识别存在一定影响。
第三、同一事件的事件元素信息可能出现在多个不同的段落或句子中。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于联合标注和实体语义信息的事件抽取方式,提升对事件的触发词的识别准确率。
本发明的基于联合标注和实体语义信息的事件抽取方法,包括以下步骤:
步骤1:通过基于实体和事件触发词的联合标注模型对采集的每个事件描述句(简称句子)进行实体和事件触发词的抽取处理;
所述实体和事件触发词的联合标注模型包括输入层、隐藏层和输出层;
在输入层中,对每个句子采用使用BERT(Bidirectional EncoderRepresentations from Transformers)预训练的词向量对句子中的每个词进行初始化,作为联合标注模块的输入;
在隐藏层中,包括前向LSTM(Long Short-Term Memory)层、后向LSTM层和拼接层;
拼接层用于将前向LSTM层和后向LSTM层的输出进行拼接,得到最终的隐藏层向量
本申请从前后两个方向获取句子的语义特征,可以更好的描绘事件描述句的信息。
在输出层中,采用CRF(Conditional random field)标注模型对隐藏层向量进行字符序列化标注,为句子中的每一个字确定相应的标签;在CRF标注模型中,采用的序列标注机制为BIO标注机制,B表示字段开始,I表示字段中间,O表示其他字段;且句子中的每一个字的标签后设置有类型标识符;用于对句子中的实体和事件触发词的进行类型识别,即词的类型识别),其中,实体为表征事件的描述词,事件触发词的类型用于表征句子对应的事件类型。
步骤2:将抽取得到的事件描述句的实体和事件触发词进行向量化表示,并传入自注意力机制层,基于自注意力机制层的输出得到实体语义特征向量。
即对于抽取得到的实体和事件触发词组成词序列W={w1,...,wn-1,wm},其中,m是抽取出来的实体和触发词的个数之和,wj表示实体或触发词,j=1,2,...,m;
对词序列W进行词向量转换,得到句子向量表示S={x1,x2,...,xm},再传入自注意力层,学习实体和触发词之间的依赖关系,得到实体语义特征向量Y={y1,y2,...,ym}。
具体的,基于预设的自注意权重计算方式,将词向量xj通过自注意力层得到每个词向量的带权重向量化表示其中,自注意力权重aj,k的计算公式为:score函数为注意力打分函数,e表示自然底数,k,j=1,2,...,m;
步骤3:将实体语义特征向量Y与上下文特征向量ht拼接后,传入Tree-LSTM层;即将实体的实体语义特征向量中的每个元素yj与下文特征向量ht进行拼接,实现对其特征维度的扩展处理。
步骤4:将Tree-LSTM层输出的特征向量作为全连接层的输入;
并对全连接层Maxout的输出采用Softmax分类器对实体进行事件元素分类;
指定不同事件类型包括的事件元素类型,设置事件表示结构;所述事件表示结构包括:事件类型和对应类型的事件元素;
基于每个句子的事件类型,以及抽取的实体及其事件元素类型,得到事件表示,即事件抽取结果;
例如,对类型为突发事件的事件类型,指定其包括的事件元素类型为:时间,地点,对象,伤亡人数,动作;则突发事件的事件表示结构为:<事件类型,时间,地点,对象,伤亡人数,动作>。
步骤5:基于事件相似性对具有相同事件类型的事件整理和融合处理:
将具有相同事件类型的事件表示对应的事件分别记为事件A和事件B;
基于事件A和事件B之间的相似度,将相似度大于或等于相似度阈值的事件聚为一类;并对同一聚簇的事件进行整理和融合处理,包括:删除冗余事件和和缺失信息补全(即对缺失的事件元素进行补全)。
进一步的,步骤5中,事件A和事件B之间的相似度为事件之间的语义相似度、元素相似度和实体共现度的累加和;
其中,事件之间的语义相似度、元素相似度和实体共现度具体为:
(1)事件之间的语义相似度:
将事件A和事件B对应的事件描述句的词向量表示之间的余弦值作为事件之间的相似度;
其中,事件描述句的词向量表示为:对事件描述句中的每个词转换为词向量构成的词向量序列;
(2)事件之间的元素相似度:
基于事件表示结构,统计事件A和事件B之间同类型的事件元素中相同的元素占事件表示结构中的总元素(或者事件A和B包括的事件元素总数)的比例的总和作为事件之间的元素相似度;
(3)事件之间的实体共现度:
基于联合标注模型,分别得到事件A和事件B的实体集合;
统计两个实体集合的实体类型和实体数统计;
根据两个实体集合的共同实体类型数与两个实体结合的实体数总和的比值得到事件A和事件B的实体共现系度;
进一步的,在融合处理时,若同一事件元素类型下的事件元素存在冲突,则选用出现次数多的事件元素;若出现次数相同,则选用粒度高的事件元素。
综上所述,由于采用了上述技术方案,本发明的有益效果是:一方面通过序列标注的方法可以降低错误识别中文触发词的情况,另一方面在大规模非结构化的数据信息中,可以根据事件抽取技术得到句子级的事件信息,并通过事件融合得到事件信息相对完整的篇章级的结构化事件。
附图说明
图1是本具体实施方式的处理过程示意图;
图2是基于联合标注和实体语义特征向量的事件抽取处理过程示意图;
图3是本发明的事件表示结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明的基于联合标注和实体语义信息的事件抽取方法,首先采用BERT模型作为特征提取器,其特征提取能力优于RNN和卷积神经网络CNN,可以更加充分的描述字符级、词级、句子级的特征;其次,基于字特征输入建模,不进行分词操作,并采用BIO标注,降低触发词识别的错误;然后,将抽取得到的事件通过计算事件相似度进行同类型事件的事件元素融合。从而使得本发明所提取的文本对象的特征信息更丰富、降低中文文本语料分词的粒度不同所导致的触发词的识别准确率的影响,以及避免因同一事件的事件元素信息可能出现在多个不同的段落或句子对事件抽取的准确性的影响。除此之外,本发明将实体和事件触发词进行联合标注,引入自注意力机制编码后的实体语义向量,充分学习实体和事件触发词之间的相互依赖关系,完成事件元素抽取任务。
参见图1、图2,本发明首先对数据进行预处理,提取得到事件描述句;然后,基于事件识别模型对采集的事件描述句进行实体和事件触发词的抽取处理;
其中事件识别模型为序列标注的实体和事件触发词联合标注的事件识别模型,即使用BERT模型替换传统模型中的word2vec词嵌入部分,解决word2vec无法区分多义词不同语义的问题;
接着,对识别出的实体、触发词的词向量(编码信息)传入自注意力层,利用自注意力机制充分学习实体和事件触发词之间的依赖关系,编码得到实体语义特征向量;
再将BERT预处理得到的向量传入Bi-LSTM得到的全局特征向量,即上下文特征向量ht;将ht和得到的实体语义特征向量结合在一起,传入Tree-LSTM神经网络,捕获语义特征和句子结构特征,缓解BERT模型由于基于字特征输入建模而导致的完整语义表示能力差的不足;
再接着利用softmax作为分类器,完成事件元素角色抽取任务;
最后,对于抽取出的句子级的事件通过计算事件相似度进行同类型事件的事件信息整理和融合。
本发明的事件抽取方法的具体实现过程为:
步骤1:数据预处理:对原始文本进行分句、分词等操作,得到事件描述句;
步骤2:通过基于实体和事件触发词的联合标注模型对采集的每个句子进行实体和事件触发词的抽取处理;
参见图2,所述实体和事件触发词的联合标注模型包括输入层、隐藏层和输出层;
在输入层中,将输入句以字符为单位进行表示s={c1,c2,...,cn},其中,n表示句子中的字符个数,ci(i=1,2,...,n)表示句子中第i个字符。
在输入层中,对于句子中的每个词,使用BERT预训练的词向量进行初始化,作为联合标注的模型的输入。BERT采用双向Transformer结构,特征提取能力优于RNN和CNN神经网络,提取句子中的语言学特征,进而可以得到更好的语言学表示。
即本发明中,利用BERT预训练的词向量将输入的句子中的字符ci映射成低维稠密的字符向量wi,最终得到句子的向量化表示X={w1,w2,...,wn},其中,wi表示句子中第i个字符的字符向量。由此,将自然语言组成的文本句子转化为向量X,并将其作为模型的输入;
在隐藏层中,隐藏层为双向长短时记忆网络LSTM。双向LSTM编码层包括前向LSTM层、后向LSTM层和拼接层。
其中,前向LSTM捕获上文特征信息后向LSTM捕获下文特征信息最后将前向LSTM向量和后向LSTM向量拼接在一起,得到最终的隐藏层向量其中,xt表示t时刻双向LSTM神经网络的输入,函数H表示预置的映射函数,表示t时刻前向输入的权重矩阵,表示前向上一时刻的权重矩阵、表示t时刻后向输入的权重矩阵、表示后向上一时刻的权重矩阵,表示对应的偏执项;
在输出层中,使用CRF标注模型进行字符序列化标注。对于输入层每一个输入x={x1,x2...,xm},输出层将得到一个预测标签序列y={y1,y2,...,ym}。定义预测得分为其中,为第j个位置softmax输出为yj的概率,为从yj到yj+1的转移概率。预测的时候,求出所有可能的y序列对应的得分s,然后取y*=argmaxs(x,y)作为预测结果输出。
以突发事件为例,标注的实体类别包括TIME(时间)、PER(人物)、LOC(地点)、ORG(组织)、VALUE(值)、VEH(运输工具),事件类别包括EAR(地震)、FIRE(火灾)、POISON(食品中毒)、TRAFFIC(交通事故)、ATTACK(恐怖袭击)。
例如,“一辆公交车与小轿车在十字路口相撞”经过联合标注后为“一\O辆\O公\B-VEH交\I-VEH车\I-VEH与\O小\O轿\B-VEH车\I-VEH在\O十\B-LOC字\I-LOC路\I-LOC口\I-LOC相\B-TRAFFIC撞\I-TRAFFIC”。因此,得到交通事故触发词“相撞”,运输工具实体“公交车”、“轿车”,地点实体“十字路口”。
步骤3:获取实体语义特征向量;
将基于步骤1所构建的联合标注模型获取的实体和触发词组成词序列W={w1,...,wn-1,wm},其中,m是抽取出来的实体和触发词的个数之和,wj(j=1,2,...,m)表示实体或触发词。将该词序列经词向量生成模型word2vec得到向量表示S={x1,x2,...,xm},并传入自注意力层,得到词序列的最终表示Y={y1,y2,...,ym},即每个词向量xj(j=1,2,...,m)通过自注意力层得到每个词向量的带权重向量化表示其中,自注意力权重aj,k的计算公式:score函数是注意力打分函数,采用加性模型,e表示自然底数。通过自注意力机制充分学习实体和触发词之间的关系,有利于判断实体在事件中扮演的角色。
例如:以步骤1中的例子为例,得到词序列{公交车、轿车、十字路口、相撞},将词序列向量化后,传入自注意力层得到加了权重的向量化表示。
步骤4:将步骤2得到的实体语义特征向量{y1,y2,...,ym}与事件句的上下文特征向量ht拼接后,传入Tree-LSTM中。
步骤5:将步骤3输出的特征(Tree-LSTM的输出)作为全连接层Maxout的输入,最后利用Softmax分类器对实体进行事件元素分类。
指定不同事件类型包括的事件元素类型,设置事件表示结构;所述事件表示结构包括:事件类型和对应类型的事件元素;从而基于每个句子的事件类型,以及抽取的实体及其事件元素类型,得到事件表示。
对于不同的领域或者实现功能不同,事件的表示方式可能不同。比如将突发事件领域的事件组成六元组形式<事件类型,时间,地点,对象,伤亡人数,动作>,具体结构如图3所示。或者将金融领域的事件表示为<主语,谓语,宾语>三元组的形式。
例如:以步骤1中的例子为例,经过步骤5得到事件的部分元素。事件类型:交通事故,地点:十字路口,对象:公交车、轿车,动作:相撞。
本发明中,所涉及的神经网络的相关网络参数均基于常规的神经网络参数学习方式获取,训练数据为中文突发事件语料库。
例如,本具体实施方式中,从332篇新闻报道中选取252篇作为训练集,40篇作为测试集,剩下的40篇作为验证集。事件抽取的网络的训练评估指标是触发词正确识别且正确分类,实体正确识别且正确分类;事件融合的评估指标是相同的事件正确被融合。
步骤6:将抽取出来的事件通过事件相似度进行事件信息的整理和融合;
由于一个完整的事件信息可能分布在多个事件描述句中,因此需要对抽取得到的事件通过事件相似性进行整理和融合,提升数据质量。即对具有相同类型的事件进行事件元素信息的整理和融合。
本发明中,事件相似度从事件语义相似度、事件元素相似度和实体共现三个方面进行计算:
事件语义相似度方面:事件语义相似度是指两个事件表示的语义向量的余弦值。
实体共现方面:在步骤1得到实体和事件触发词基础上,通过计算两个事件对应的事件句中实体共现程度来计算关联性。
事件A对应的事件句中实体集合为SA={Ep,ET,EL,EO,EVA,EVE},事件B对应的事件句中实体集合为SB={Ep,ET,EL,EO,EVA,EVE},其中,Ep为人物实体,ET为时间实体,EL为地点实体,EO为组织实体,EVA为值实体,EVE为运输工具实体。事件A和事件B的实体共现系数为n为共同出现在SA和SB中的实体个数,N为SA和SB中的实体总数。
最后得到事件相似度的计算公式将相似性高的事件聚为一类,补全事件元素信息,即将sim(A,B)超过预置阈值的事件聚为一类。对于缺失的元素进行补全,比如,事件A缺少时间元素,存在地点元素,而事件B存在时间元素,缺少地点元素,事件A与事件B相似,那么在融合过程中,事件元素的信息就得以补全。对于融合冲突的情况,选用出现次数多的元素。对于出现次数一样的元素,选用粒度高的元素。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (4)
1.一种基于联合标注和实体语义信息的事件抽取方式,其特征在于,包括以下步骤:
步骤1:通过基于实体和事件触发词的联合标注模型对采集的每个事件描述句进行实体和事件触发词的抽取处理;
所述实体和事件触发词的联合标注模型包括输入层、隐藏层和输出层;
在输入层中,对事件描述句采用使用BERT预训练的词向量对事件描述句中的每个词进行初始化,作为联合标注模块的输入;
在隐藏层中,包括前向LSTM层、后向LSTM层和拼接层;
步骤2:将抽取得到的事件描述句的实体和事件触发词进行向量化表示,并传入自注意力机制层,基于自注意力机制层的输出得到实体语义特征向量;
步骤3:将同一事件描述句的实体语义特征向量与下文特征向量ht进行拼接,再传入Tree-LSTM层;
步骤4:将Tree-LSTM层输出的特征向量作为全连接层的输入;
并对全连接层Maxout的输出采用Softmax分类器对实体进行事件元素分类;
指定不同事件类型包括的事件元素类型,设置事件表示结构;所述事件表示结构包括:事件类型和对应类型的事件元素;
基于每个事件描述句的事件类型,以及抽取的实体及其事件元素类型,得到事件描述句的事件表示;
步骤5:基于事件相似性对具有相同事件类型的事件整理和融合处理:
将具有相同事件类型的事件表示对应的事件分别记为事件A和事件B;
基于事件A和事件B之间的相似度,将相似度大于或等于相似度阈值的事件聚为一类;并对同一聚簇的事件进行整理和融合处理,包括:删除冗余事件和和缺失信息补全。
2.如权利要求1所述的方法,其特征在于,步骤5中,事件A和事件B之间的相似度为事件之间的语义相似度、元素相似度和实体共现度的累加和;
其中,事件之间的语义相似度、元素相似度和实体共现度具体为:
(1)事件之间的语义相似度:
将事件A和事件B对应的事件描述句的词向量表示之间的余弦值作为事件之间的相似度;
(2)事件之间的元素相似度:
基于事件表示结构,统计事件A和事件B之间同类型的事件元素中相同的元素占事件表示结构中的总元素的比例的总和作为事件之间的元素相似度;
(3)事件之间的实体共现度:
基于联合标注模型,分别得到事件A和事件B的实体集合;
统计两个实体集合的实体类型和实体数统计;
根据两个实体集合的共同实体类型数与两个实体结合的实体数总和的比值得到事件A和事件B的实体共现系度。
3.如权利要求2所述的方法,其特征在于,步骤5中,事件之间的元素相似度为:事件A和事件B之间同类型的事件元素中相同的元素占事件A和B包括的事件元素总数的比值。
4.如权利要求1所述的方法,其特征在于,步骤5中,在融合处理时,若同一事件元素类型下的事件元素存在冲突,则选用出现次数多的事件元素;若出现次数相同,则选用粒度高的事件元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010197606.4A CN111382575A (zh) | 2020-03-19 | 2020-03-19 | 一种基于联合标注和实体语义信息的事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010197606.4A CN111382575A (zh) | 2020-03-19 | 2020-03-19 | 一种基于联合标注和实体语义信息的事件抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111382575A true CN111382575A (zh) | 2020-07-07 |
Family
ID=71221800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010197606.4A Pending CN111382575A (zh) | 2020-03-19 | 2020-03-19 | 一种基于联合标注和实体语义信息的事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382575A (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859858A (zh) * | 2020-07-22 | 2020-10-30 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN111966826A (zh) * | 2020-07-22 | 2020-11-20 | 中国科学院计算技术研究所 | 一种构建文本分类系统的方法、系统、介质及电子设备 |
CN112052665A (zh) * | 2020-09-12 | 2020-12-08 | 广东工业大学 | 一种远程监督事件抽取方法及其应用 |
CN112131343A (zh) * | 2020-09-14 | 2020-12-25 | 杭州东信北邮信息技术有限公司 | 一种中文小说对话人物识别方法 |
CN112307761A (zh) * | 2020-11-19 | 2021-02-02 | 新华智云科技有限公司 | 基于注意力机制的事件抽取方法及系统 |
CN112580330A (zh) * | 2020-10-16 | 2021-03-30 | 昆明理工大学 | 基于中文触发词指导的越南语新闻事件检测方法 |
CN112597299A (zh) * | 2020-12-07 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 文本的实体分类方法、装置、终端设备和存储介质 |
CN112612885A (zh) * | 2020-12-18 | 2021-04-06 | 成都三零凯天通信实业有限公司 | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 |
CN112612871A (zh) * | 2020-12-17 | 2021-04-06 | 浙江大学 | 一种基于序列生成模型的多事件检测方法 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112733526A (zh) * | 2021-01-28 | 2021-04-30 | 成都不问科技有限公司 | 一种自动识别财税文件中征税对象的抽取方法 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
CN112836504A (zh) * | 2021-01-08 | 2021-05-25 | 中国人民解放军国防科技大学 | 一种基于分层策略网络的事件抽取方法及设备 |
CN113111649A (zh) * | 2021-04-13 | 2021-07-13 | 科大讯飞股份有限公司 | 事件抽取方法、系统以及设备 |
CN113177416A (zh) * | 2021-05-17 | 2021-07-27 | 同济大学 | 一种联合序列标注和模式匹配的事件元素检测方法 |
CN113190602A (zh) * | 2021-04-09 | 2021-07-30 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113377884A (zh) * | 2021-07-08 | 2021-09-10 | 中央财经大学 | 基于多智能体增强学习的事件语料库提纯方法 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113627194A (zh) * | 2021-10-13 | 2021-11-09 | 北京中科海芯科技有限公司 | 信息抽取方法及装置、通信消息分类方法及装置 |
CN113657103A (zh) * | 2021-08-18 | 2021-11-16 | 哈尔滨工业大学 | 一种基于ner的非标准中文快递寄件信息识别方法及系统 |
CN113722478A (zh) * | 2021-08-09 | 2021-11-30 | 北京智慧星光信息技术有限公司 | 多维度特征融合相似事件计算方法、系统及电子设备 |
CN113779987A (zh) * | 2021-08-23 | 2021-12-10 | 科大国创云网科技有限公司 | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
CN113836269A (zh) * | 2021-09-27 | 2021-12-24 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN113901813A (zh) * | 2021-10-09 | 2022-01-07 | 东南大学 | 一种基于主题特征和隐式句子结构的事件抽取方法 |
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114610866A (zh) * | 2022-05-12 | 2022-06-10 | 湖南警察学院 | 基于全局事件类型的序列到序列联合事件抽取方法和系统 |
CN114707517A (zh) * | 2022-04-01 | 2022-07-05 | 中国人民解放军国防科技大学 | 一种基于开源数据事件抽取的目标跟踪方法 |
CN115062146A (zh) * | 2022-06-07 | 2022-09-16 | 重庆邮电大学 | 基于BiLSTM结合多头注意力的中文重叠事件抽取系统 |
CN115270801A (zh) * | 2022-09-28 | 2022-11-01 | 浙江太美医疗科技股份有限公司 | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 |
CN115631261A (zh) * | 2022-10-17 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像生成模型的训练方法、图像生成方法和装置 |
CN115860002A (zh) * | 2022-12-27 | 2023-03-28 | 中国人民解放军国防科技大学 | 一种基于事件抽取的作战任务生成方法及系统 |
CN117422061A (zh) * | 2023-12-19 | 2024-01-19 | 中南大学 | 一种文本词项多重分割结果合并标注方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
CN106951530A (zh) * | 2017-03-21 | 2017-07-14 | 苏州大学 | 一种事件类型抽取方法和装置 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107609103A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种基于推特的事件检测方法 |
CN108959305A (zh) * | 2017-05-22 | 2018-12-07 | 北京国信宏数科技有限公司 | 一种基于互联网大数据的事件抽取方法及系统 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
-
2020
- 2020-03-19 CN CN202010197606.4A patent/CN111382575A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
CN106951530A (zh) * | 2017-03-21 | 2017-07-14 | 苏州大学 | 一种事件类型抽取方法和装置 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN108959305A (zh) * | 2017-05-22 | 2018-12-07 | 北京国信宏数科技有限公司 | 一种基于互联网大数据的事件抽取方法及系统 |
CN107609103A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种基于推特的事件检测方法 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
Non-Patent Citations (2)
Title |
---|
仲伟峰 等: "基于联合标注和全局推理的篇章级事件抽取", 《中文信息学报》 * |
尹凯: "事件知识图谱平台设计及实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859858A (zh) * | 2020-07-22 | 2020-10-30 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN111966826A (zh) * | 2020-07-22 | 2020-11-20 | 中国科学院计算技术研究所 | 一种构建文本分类系统的方法、系统、介质及电子设备 |
CN111966826B (zh) * | 2020-07-22 | 2023-01-24 | 中国科学院计算技术研究所 | 一种构建文本分类系统的方法、系统、介质及电子设备 |
CN111859858B (zh) * | 2020-07-22 | 2024-03-01 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN112052665A (zh) * | 2020-09-12 | 2020-12-08 | 广东工业大学 | 一种远程监督事件抽取方法及其应用 |
CN112052665B (zh) * | 2020-09-12 | 2023-06-20 | 广东工业大学 | 一种远程监督事件抽取方法及其应用 |
CN112131343A (zh) * | 2020-09-14 | 2020-12-25 | 杭州东信北邮信息技术有限公司 | 一种中文小说对话人物识别方法 |
CN112131343B (zh) * | 2020-09-14 | 2023-07-07 | 新讯数字科技(杭州)有限公司 | 一种中文小说对话人物识别方法 |
CN112580330A (zh) * | 2020-10-16 | 2021-03-30 | 昆明理工大学 | 基于中文触发词指导的越南语新闻事件检测方法 |
CN112580330B (zh) * | 2020-10-16 | 2023-09-12 | 昆明理工大学 | 基于中文触发词指导的越南语新闻事件检测方法 |
CN112307761A (zh) * | 2020-11-19 | 2021-02-02 | 新华智云科技有限公司 | 基于注意力机制的事件抽取方法及系统 |
CN112597299A (zh) * | 2020-12-07 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 文本的实体分类方法、装置、终端设备和存储介质 |
CN112612871B (zh) * | 2020-12-17 | 2023-09-15 | 浙江大学 | 一种基于序列生成模型的多事件检测方法 |
CN112612871A (zh) * | 2020-12-17 | 2021-04-06 | 浙江大学 | 一种基于序列生成模型的多事件检测方法 |
CN112612885A (zh) * | 2020-12-18 | 2021-04-06 | 成都三零凯天通信实业有限公司 | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112632223B (zh) * | 2020-12-29 | 2023-01-20 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
CN112836504A (zh) * | 2021-01-08 | 2021-05-25 | 中国人民解放军国防科技大学 | 一种基于分层策略网络的事件抽取方法及设备 |
CN112836504B (zh) * | 2021-01-08 | 2024-02-02 | 中国人民解放军国防科技大学 | 一种基于分层策略网络的事件抽取方法及设备 |
CN112733526B (zh) * | 2021-01-28 | 2023-11-17 | 成都不问科技有限公司 | 一种自动识别财税文件中征税对象的抽取方法 |
CN112733526A (zh) * | 2021-01-28 | 2021-04-30 | 成都不问科技有限公司 | 一种自动识别财税文件中征税对象的抽取方法 |
CN113190602A (zh) * | 2021-04-09 | 2021-07-30 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113190602B (zh) * | 2021-04-09 | 2022-03-25 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113111649A (zh) * | 2021-04-13 | 2021-07-13 | 科大讯飞股份有限公司 | 事件抽取方法、系统以及设备 |
CN113111649B (zh) * | 2021-04-13 | 2024-02-20 | 科大讯飞股份有限公司 | 事件抽取方法、系统以及设备 |
CN113392213B (zh) * | 2021-04-19 | 2024-05-31 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113177416B (zh) * | 2021-05-17 | 2022-06-07 | 同济大学 | 一种联合序列标注和模式匹配的事件元素检测方法 |
CN113177416A (zh) * | 2021-05-17 | 2021-07-27 | 同济大学 | 一种联合序列标注和模式匹配的事件元素检测方法 |
CN113377884A (zh) * | 2021-07-08 | 2021-09-10 | 中央财经大学 | 基于多智能体增强学习的事件语料库提纯方法 |
CN113722478A (zh) * | 2021-08-09 | 2021-11-30 | 北京智慧星光信息技术有限公司 | 多维度特征融合相似事件计算方法、系统及电子设备 |
CN113722478B (zh) * | 2021-08-09 | 2023-09-19 | 北京智慧星光信息技术有限公司 | 多维度特征融合相似事件计算方法、系统及电子设备 |
CN113657103A (zh) * | 2021-08-18 | 2021-11-16 | 哈尔滨工业大学 | 一种基于ner的非标准中文快递寄件信息识别方法及系统 |
CN113779987A (zh) * | 2021-08-23 | 2021-12-10 | 科大国创云网科技有限公司 | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
CN113836269A (zh) * | 2021-09-27 | 2021-12-24 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN113836269B (zh) * | 2021-09-27 | 2024-04-02 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN113901813A (zh) * | 2021-10-09 | 2022-01-07 | 东南大学 | 一种基于主题特征和隐式句子结构的事件抽取方法 |
CN113627194A (zh) * | 2021-10-13 | 2021-11-09 | 北京中科海芯科技有限公司 | 信息抽取方法及装置、通信消息分类方法及装置 |
CN114139610B (zh) * | 2021-11-15 | 2024-04-26 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114707517B (zh) * | 2022-04-01 | 2024-05-03 | 中国人民解放军国防科技大学 | 一种基于开源数据事件抽取的目标跟踪方法 |
CN114707517A (zh) * | 2022-04-01 | 2022-07-05 | 中国人民解放军国防科技大学 | 一种基于开源数据事件抽取的目标跟踪方法 |
CN114610866A (zh) * | 2022-05-12 | 2022-06-10 | 湖南警察学院 | 基于全局事件类型的序列到序列联合事件抽取方法和系统 |
CN115062146A (zh) * | 2022-06-07 | 2022-09-16 | 重庆邮电大学 | 基于BiLSTM结合多头注意力的中文重叠事件抽取系统 |
CN115270801B (zh) * | 2022-09-28 | 2022-12-30 | 浙江太美医疗科技股份有限公司 | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 |
CN115270801A (zh) * | 2022-09-28 | 2022-11-01 | 浙江太美医疗科技股份有限公司 | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 |
CN115631261A (zh) * | 2022-10-17 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像生成模型的训练方法、图像生成方法和装置 |
CN115631261B (zh) * | 2022-10-17 | 2023-06-27 | 北京百度网讯科技有限公司 | 图像生成模型的训练方法、图像生成方法和装置 |
CN115860002B (zh) * | 2022-12-27 | 2024-04-05 | 中国人民解放军国防科技大学 | 一种基于事件抽取的作战任务生成方法及系统 |
CN115860002A (zh) * | 2022-12-27 | 2023-03-28 | 中国人民解放军国防科技大学 | 一种基于事件抽取的作战任务生成方法及系统 |
CN117422061B (zh) * | 2023-12-19 | 2024-03-08 | 中南大学 | 一种文本词项多重分割结果合并标注方法及装置 |
CN117422061A (zh) * | 2023-12-19 | 2024-01-19 | 中南大学 | 一种文本词项多重分割结果合并标注方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382575A (zh) | 一种基于联合标注和实体语义信息的事件抽取方法 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN110334213B (zh) | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类系统 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN112560478B (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN114444516B (zh) | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111753058A (zh) | 一种文本观点挖掘方法及系统 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN113516198A (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN114764566B (zh) | 用于航空领域的知识元抽取方法 | |
CN116757218A (zh) | 一种基于上下句关系预测的短文本事件共指消解方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN113569008A (zh) | 一种基于社区治理数据的大数据分析方法及系统 | |
CN113590827A (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
CN117573869A (zh) | 一种网络引接资源关键要素提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200707 |
|
RJ01 | Rejection of invention patent application after publication |