CN114168738A - 篇章级事件抽取方法、系统和设备 - Google Patents
篇章级事件抽取方法、系统和设备 Download PDFInfo
- Publication number
- CN114168738A CN114168738A CN202111543337.3A CN202111543337A CN114168738A CN 114168738 A CN114168738 A CN 114168738A CN 202111543337 A CN202111543337 A CN 202111543337A CN 114168738 A CN114168738 A CN 114168738A
- Authority
- CN
- China
- Prior art keywords
- event
- sentence
- vectors
- extraction
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 75
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000013528 artificial neural network Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 7
- 230000010485 coping Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于文本数据识别领域,具体涉及了一种篇章级事件抽取方法、系统和设备,旨在解决现有的文本数据事件抽取方法,无法从篇章的层面考虑对事件的抽取,没有提供事件描述跨句跨段的应对方法的问题。本发明包括通过神经网络特征提取器选出主题句;并通过神经网络分类器获得事件句;进而获得事件句词向量和事件句上下文词向量,并通过指针网络获取事件要素和事件要素位置;获取所有能够完整组成事件的事件要素组合;将同属于一个事件要素组合的事件要素进行特征提取,获得要素‑要素特征;将所有的所述要素‑要素特征进行拼接,将拼接要素组合选出能构成事件的要素组合。本发明从篇章的层面考虑对事件的抽取,提高了事件抽取的准确性。
Description
技术领域
本发明属于文本数据识别领域,具体涉及了一种篇章级事件抽取方法、系统和设备。
背景技术
随着互联网信息量爆炸式的增长,准确地获取所需信息的需求愈发迫切。事件抽取技术可以通过识别特定类型的事件,并进行相关信息的确定和抽取,得到结构化的事件信息。
现有的时间提取技术通常有1)模板匹配方法,通过正则表达式等人工设计的规则抽取特定事件,难以适应实际文本中事件表示方式复杂、场景多样的特点,抽取的精度较低。2)句法分析方法,通过解析语句的句法树,分析事件表述的主谓宾等结构,从而提取出事件的施事方、相关方等要素,在缺乏高性能句法分析方案的现实场景中效果受到制约,难以应对复杂句式,同时只能提取特定类型(可作为句法单元)的事件要素。3)基于神经网络分类器的方法,包含事件检测和事件要素抽取两个子任务,通过对候选词分类提取事件触发词,再通过对候选要素词和触发词的组合分类提取事件所包含的要素。实际存在pipeline和joint-model两种执行子任务的形式。该方法在拆解子任务的同时,难以充分利用要素与要素间的关联特征,降低了性能上限。4)基于循环神经网络的序列标注方法,相比于分类法,序列标注方法更充分地捕捉到了事件描述中的上下文特征,展现出更好的效果。但是序列标注方法难以应对多个事件描述混杂在一起,尤其是触发词、事件要素存在重叠的情况,难以正确地区分要素所归属的事件。5)基于seq2seq的生成式方法,通过序列生成的方式依次生成事件类型和事件要素,该方法既能捕捉到事件描述中的上下文特征,也能克服多个事件混杂的情况,但实际使用中模型复杂度高,训练难度大,模型效果极不稳定。
现有的文本数据事件抽取方法,均无法从篇章的层面考虑对事件的抽取,没有提供事件描述跨句跨段的应对方法,没有考虑事件要素可能存在需要指代消解的情形,没有考虑抽取的事件是否是文章的主题内容。
发明内容
为了解决现有技术中的上述问题,即现有的文本数据事件抽取方法,无法从篇章的层面考虑对事件的抽取,没有提供事件描述跨句跨段的应对方法,没有考虑抽取的事件是否是文章的主题内容的问题,本发明提供了一种篇章级事件抽取方法,所述方法包括:
步骤S100,获取待抽取文本数据;
步骤S200,基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;
步骤S300,将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;
步骤S400,基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;
步骤S500,将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;
步骤S600,将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;
步骤S700,根据事件定义,获取所有能够完整组成事件的事件要素备选组合;
步骤S800,将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素-要素特征;
步骤S900,将所有的所述要素-要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。
在一些优选的实施方式中,所述步骤S200,包括:
步骤S210,基于所述待抽取文本数据,根据标点和换行符进行分句分段,获得分句文本数据;
步骤S220,基于所述分句文本数据,通过神经网络特征提取器,获取每个分句对应的句向量。
在一些优选的实施方式中,所述所有能够完整组成事件的事件要素组合,具体为:
假设能够完整组成实践的事件要素需要要素ABC,要素类型a、要素类型b、要素类型c……;要素类型a包括a1、a2、a3……,要素类型b包括b1、b2、b3……,要素类型c包括c1、c2、c3……;
则能够完整组成事件的事件要素备选组合包括:a1b1c1、a2b1c1、a1b2c1、a1b1c2、a3b1c1、a1b3c1、a1b1c3、a2b2c1……。
在一些优选的实施方式中,所述步骤S800,具体为:对所有属于一个事件要素组合的事件要素,将其与所在前置文本、所在句文本、要素间文本和后置文本进行向量化操作并拼接,通过神经网络特征提取器获取要素-要素特征。
在一些优选的实施方式中,所述步骤S800还包括使非事件要素的文本等长的步骤:
将所述前置文本、所在句文本、要素间文本和后置文本,通过额外的含有padding、pooling或attention中的一种或多种的映射神经网络映射为预设的固定长度的向量。
在一些优选的实施方式中,所述能构成事件的要素组合具体为:
设所述能构成事件的要素备选组合为a1b1c1,则需要对应的要素-要素特征为a1b1、a1c1和b1c1。
在一些优选的实施方式中,进行指代消解的步骤,具体为:
步骤S1000,搜索所述能构成事件的事件要素组合中的代词,将所述代词依据要素类型通过命名实体识别技术NER在所述文本数据中搜索候选名;
步骤S1100,将归属于同一个能构成事件的事件要素组合的了代词、候选名和事件要素,进行特征提取,获得候选名-代词特征,将所述候选名-代词特征通过softmax进行分类,获得指代消解的结果;
步骤S1200,将所述指代消解的结果替换所述能构成事件的要素组合,获得提取的事件。
本发明的另一方面,提出了一种篇章级事件抽取系统,所述系统包括:文本获取模块、句向量提取模块、句向量拼接模块、主题句背景句分类模块、事件句非事件句分类模块、指针网络抽取模块、完整事件要素组合获取模块、要素-要素特征提取模块和提取的事件获取模块;
所述文本获取模块,配置为获取待抽取文本数据;
所述句向量提取模块,配置为基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;
所述句向量拼接模块,配置为将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;
所述主题句背景句分类模块,配置为基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;
所述事件句非事件句分类模块,配置为将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;
所述指针网络抽取模块,配置为将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;
所述完整事件要素组合获取模块,配置为根据事件定义,获取所有能够完整组成事件的事件要素备选组合;
所述要素-要素特征提取模块,配置为将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素-要素特征;
所述完整事件抽取模块,配置为将所有的所述要素-要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。
本发明的第三方面,提出了一种电子设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的篇章级事件抽取方法。
本发明的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的篇章级事件抽取方法。
本发明的有益效果:
(1)本发明通过将篇章进行主题句和背景句的分类,再将主题句进行事件句和非事件句的分类,进而继续后续的事件要素提取,能够从篇章的层面考虑对事件的抽取,可以实现跨句跨段的事件抽取,且抽取的事件一定是文章的主题内容,提高了事件抽取的准确性。
(2)本发明设置了指代消解的步骤,能够在文本中存在代词的情况下消除代词的影响,进行事件抽取,提高了事件抽取的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明篇章级事件抽取方法实施例的流程示意图;
图2是本发明实施例中进行主题句和背景句分类的原理示意图;
图3是本发明实施例中进行事件句和非事件句分类的原理示意图;
图4是本发明实施例中通过指针网络获取事件要素的原理示意图;
图5是本发明实施例中获取要素-要素特征的原理示意图;
图6是本发明实施例中判定要素-要素特征组合是否为能构成事件的要素组合的原理示意图;
图7是本发明实施例中进行指代消解处理后的效果示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种篇章级事件抽取方法,本方法通过将篇章进行主题句和背景句的分类,再将主题句进行事件句和非事件句的分类,进而继续后续的事件要素提取,能够从篇章的层面考虑对事件的抽取,可以实现跨句跨段的事件抽取,且抽取的事件一定是文章的主题内容,提高了事件抽取的准确性。
本发明的一种篇章级事件抽取方法,具体包括:
步骤S100,获取待抽取文本数据;
步骤S200,基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;
步骤S300,将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;所述分段标记是一种特殊的句向量,随机初始化,随着神经网络一起训练;
步骤S400,基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;
步骤S500,将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;
步骤S600,将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;
步骤S700,根据事件定义,获取所有能够完整组成事件的事件要素备选组合;
步骤S800,将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素-要素特征;
步骤S900,将所有的所述要素-要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。
为了更清晰地对本发明篇章级事件抽取方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的篇章级事件抽取方法,包括步骤S100-步骤S900,各步骤详细描述如下:
步骤S100,获取待抽取文本数据;
步骤S200,基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;所述神经网络特征提取器可通过CNN、RNN、Transformer或其他神经网络实现,对此不作具体限制。
在本实施例中,所述步骤S200,包括:
步骤S210,基于所述待抽取文本数据,根据标点和换行符进行分句分段,获得分句文本数据;
步骤S220,基于所述分句文本数据,通过神经网络特征提取器,获取每个分句对应的句向量。
步骤S300,将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;位置向量表示句子在篇章中的位置,随机初始化,随神经网络一起训练;所述分段标记是一种特殊的句向量,随机初始化,随着神经网络一起训练;
步骤S400,如图2所示,基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;
步骤S500,如图3所示,将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器和softmax分类器,获得事件句和非事件句;
步骤S600,如图4所示,将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;
步骤S700,根据事件定义,获取所有能够完整组成事件的事件要素备选组合;所述事件定义,为在训练阶段中对每个文本中进行标注,从而使模型能够;
在本实施例中,所述所有能够完整组成事件的事件要素组合,具体为:
假设能够完整组成实践的事件要素需要要素ABC,要素类型a、要素类型b、要素类型c……;要素类型a包括a1、a2、a3……,要素类型b包括b1、b2、b3……,要素类型c包括c1、c2、c3……;
则能够完整组成事件的事件要素备选组合包括:a1b1c1、a2b1c1、a1b2c1、a1b1c2、a3b1c1、a1b3c1、a1b1c3、a2b2c1……。
步骤S800,将同属于一个事件要素备选组合的事件通过第二特征提取器要素进行特征提取,获得要素-要素特征;
在本实施例中,所述步骤S800,具体为:对所有属于一个事件要素组合的事件要素,将其与所在前置文本、所在句文本、要素间文本和后置文本进行向量化操作并拼接,通过神经网络特征提取器获取要素-要素特征。
在本实施例中,所述步骤S800还包括使非事件要素的文本等长的步骤:
将所述前置文本、所在句文本、要素间文本和后置文本,通过额外的含有padding、pooling或attention中的一种或多种的映射神经网络映射为预设的固定长度的向量,进而进行拼接。
步骤S900,将所有的所述要素-要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。
在本实施例中,所述能构成事件的要素备选组合具体为:
设所述能构成事件的要素备选组合为a1b1c1,则需要对应的要素-要素特征为a1b1、a1c1和b1c1。
在本实施例中,还包括进行指代消解的步骤,具体为:
步骤S1000,搜索所述能构成事件的事件要素组合中的代词,将所述代词依据要素类型通过命名实体识别技术NER在所述文本数据中搜索候选名;
步骤S1100,将归属于同一个能构成事件的事件要素组合的了代词、候选名和事件要素,进行特征提取,获得候选名-代词特征,将所述候选名-代词特征通过softmax进行分类,获得指代消解的结果;
步骤S1200,将所述指代消解的结果替换所述能构成事件的要素组合,获得提取的事件。
一篇文章可能提到多个事件,每个事件会提到一些相应的事件要素,例如时间人物地点对象等等。抽取目标就是把不同事件的不同要素按照事件本身组合在一起,用事件要素组合代表一个事件。
本发明第二实施例的篇章级事件抽取系统,包括:文本获取模块、句向量提取模块、句向量拼接模块、主题句背景句分类模块、事件句非事件句分类模块、指针网络抽取模块、完整事件要素组合获取模块、要素-要素特征提取模块和提取的事件获取模块;
所述文本获取模块,配置为获取待抽取文本数据;
所述句向量提取模块,配置为基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;
所述句向量拼接模块,配置为将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;
所述主题句背景句分类模块,配置为基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;
所述事件句非事件句分类模块,配置为将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;
所述指针网络抽取模块,配置为将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;
所述完整事件要素组合获取模块,配置为根据事件定义,获取所有能够完整组成事件的事件要素备选组合;
所述要素-要素特征提取模块,配置为将同属于一个事件备选要素组合的事件要素通过第二特征提取器进行特征提取,获得要素-要素特征;
所述完整事件抽取模块,配置为将所有的所述要素-要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的篇章级事件抽取系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的篇章级事件抽取方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的篇章级事件抽取方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种篇章级事件抽取方法,其特征在于,所述方法包括:
步骤S100,获取待抽取文本数据;
步骤S200,基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;
步骤S300,将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;
步骤S400,基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;
步骤S500,将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;
步骤S600,将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;
步骤S700,根据事件定义,获取所有能够完整组成事件的事件要素备选组合;
步骤S800,将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素-要素特征;
步骤S900,将所有的所述要素-要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。
2.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述步骤S200,包括:
步骤S210,基于所述待抽取文本数据,根据标点和换行符进行分句分段,获得分句文本数据;
步骤S220,基于所述分句文本数据,通过神经网络特征提取器,获取每个分句对应的句向量。
3.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述所有能够完整组成事件的事件要素备选组合,具体为:
假设能够完整组成实践的事件要素需要要素ABC,要素类型a、要素类型b、要素类型c……;要素类型a包括a1、a2、a3……,要素类型b包括b1、b2、b3……,要素类型c包括c1、c2、c3……;
则能够完整组成事件的事件要素备选组合包括:a1b1c1、a2b1c1、a1b2c1、a1b1c2、a3b1c1、a1b3c1、a1b1c3、a2b2c1……。
4.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述步骤S800,具体为:对所有属于一个事件要素组合的事件要素,将其与所在前置文本、所在句文本、要素间文本和后置文本进行向量化操作并拼接,通过神经网络特征提取器获取要素-要素特征。
5.根据权利要求4所述的篇章级事件抽取方法,其特征在于,所述步骤S800还包括使非事件要素的文本等长的步骤:
将所述前置文本、所在句文本、要素间文本和后置文本,通过额外的含有padding、pooling或attention中的一种或多种的映射神经网络映射为预设的固定长度的向量,进而进行拼接。
6.根据权利要求3所述的篇章级事件抽取方法,其特征在于,所述能构成事件的要素备选组合具体为:
设所述能构成事件的要素备选组合为a1b1c1,则需要对应的要素-要素特征为a1b1、a1c1和b1c1。
7.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述方法还包括,进行指代消解的步骤,具体为:
步骤S1000,搜索所述能构成事件的事件要素组合中的代词,将所述代词依据要素类型通过命名实体识别技术NER在所述文本数据中搜索候选名;
步骤S1100,将归属于同一个能构成事件的事件要素组合的了代词、候选名和事件要素,进行特征提取,获得候选名-代词特征,将所述候选名-代词特征通过softmax进行分类,获得指代消解的结果;
步骤S1200,将所述指代消解的结果替换所述能构成事件的要素组合,获得提取的事件。
8.一种篇章级事件抽取系统,其特征在于,所述系统包括:文本获取模块、句向量提取模块、句向量拼接模块、主题句背景句分类模块、事件句非事件句分类模块、指针网络抽取模块、完整事件要素组合获取模块、要素-要素特征提取模块和提取的事件获取模块;
所述文本获取模块,配置为获取待抽取文本数据;
所述句向量提取模块,配置为基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;
所述句向量拼接模块,配置为将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;
所述主题句背景句分类模块,配置为基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;
所述事件句非事件句分类模块,配置为将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;
所述指针网络抽取模块,配置为将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;
所述完整事件要素组合获取模块,配置为根据事件定义,获取所有能够完整组成事件的事件要素备选组合;
所述要素-要素特征提取模块,配置为将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素-要素特征;
所述完整事件抽取模块,配置为将所有的所述要素-要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成事件的要素组合和不能构成一个事件的要素组合,所述能构成事件的要素组合即为提取的事件。
9.一种电子设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-7任一项所述的篇章级事件抽取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-8任一项所述的篇章级事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111543337.3A CN114168738B (zh) | 2021-12-16 | 2021-12-16 | 篇章级事件抽取方法、系统和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111543337.3A CN114168738B (zh) | 2021-12-16 | 2021-12-16 | 篇章级事件抽取方法、系统和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114168738A true CN114168738A (zh) | 2022-03-11 |
CN114168738B CN114168738B (zh) | 2024-06-07 |
Family
ID=80487081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111543337.3A Active CN114168738B (zh) | 2021-12-16 | 2021-12-16 | 篇章级事件抽取方法、系统和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168738B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765231A (zh) * | 2019-10-11 | 2020-02-07 | 南京摄星智能科技有限公司 | 一种基于共指融合的篇章事件抽取方法 |
CN111581345A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种文档级别的事件抽取方法和装置 |
CN111695341A (zh) * | 2020-06-16 | 2020-09-22 | 北京理工大学 | 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统 |
WO2021169351A1 (zh) * | 2020-02-24 | 2021-09-02 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
CN113505200A (zh) * | 2021-07-15 | 2021-10-15 | 河海大学 | 一种结合文档关键信息的句子级中文事件检测的方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
-
2021
- 2021-12-16 CN CN202111543337.3A patent/CN114168738B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765231A (zh) * | 2019-10-11 | 2020-02-07 | 南京摄星智能科技有限公司 | 一种基于共指融合的篇章事件抽取方法 |
WO2021169351A1 (zh) * | 2020-02-24 | 2021-09-02 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
CN111581345A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种文档级别的事件抽取方法和装置 |
CN111695341A (zh) * | 2020-06-16 | 2020-09-22 | 北京理工大学 | 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统 |
CN113505200A (zh) * | 2021-07-15 | 2021-10-15 | 河海大学 | 一种结合文档关键信息的句子级中文事件检测的方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114168738B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
US8467614B2 (en) | Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images | |
US8340429B2 (en) | Searching document images | |
CN112417885A (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
US20090144277A1 (en) | Electronic table of contents entry classification and labeling scheme | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
RU2666277C1 (ru) | Сегментация текста | |
CN111241230A (zh) | 一种基于文本挖掘识别串标风险的方法及系统 | |
CN112633001B (zh) | 文本命名实体识别方法、装置、电子设备及存储介质 | |
CN109189965A (zh) | 图像文字检索方法及系统 | |
US20020114515A1 (en) | Character string recognition apparatus, character string recognizing method, and storage medium therefor | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN110795561B (zh) | 一种电子卷宗材料类型自动识别系统及其自主学习方法 | |
CN110795942A (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110362656A (zh) | 一种语义要素提取方法及装置 | |
CN114168738A (zh) | 篇章级事件抽取方法、系统和设备 | |
EP4167106A1 (en) | Method and apparatus for data structuring of text | |
CN115147846A (zh) | 多语言票据识别方法、装置、设备及存储介质 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN115512375A (zh) | 文本纠错模型的训练方法、文本识别方法及相关设备 | |
CN109086272B (zh) | 句型识别方法及其系统 | |
EP3757825A1 (en) | Methods and systems for automatic text segmentation | |
CN112784568A (zh) | 一种文本评分方法、电子设备和计算机可读存储介质 | |
EP3757824A1 (en) | Methods and systems for automatic text extraction | |
Duc et al. | Text spotting in Vietnamese documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |