CN114818721A - 一种结合序列标注的事件联合抽取模型与方法 - Google Patents
一种结合序列标注的事件联合抽取模型与方法 Download PDFInfo
- Publication number
- CN114818721A CN114818721A CN202210760629.0A CN202210760629A CN114818721A CN 114818721 A CN114818721 A CN 114818721A CN 202210760629 A CN202210760629 A CN 202210760629A CN 114818721 A CN114818721 A CN 114818721A
- Authority
- CN
- China
- Prior art keywords
- layer
- event
- sequence
- vector
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种结合序列标注的事件联合抽取模型与方法,涉及文本数据挖掘领域技术领域,通过构建事件描述文件模板,对文本内容进行分词预处理;利用BERT预训练模型转换成对应的词向量,得到事件词向量,并输入至一维卷积神经网络对词向量进行局部特征提取,得到融合上下文特征的词向量;将词向量和通过序列标注编码的事件元素特征输入到条件随机场中,通过随机梯度下降优化方法进行训练;最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取;本发明利用单个汉字级的字符特征,避免词表分词错误的问题,通过局部卷积神经网络,融合局部上下文特征,提升捕捉语义能力,强化事件元素实体边界,提高抽取精度。
Description
技术领域
本发明属于文本数据挖掘领域,涉及神经网络技术,具体是一种结合序列标注的事件联合抽取模型与方法。
背景技术
随着数字化社会的快速发展,当今世界已进入信息爆炸时代,人工智能方法处理提炼海量信息成为当下的重点研究;事件抽取作为自然语言处理中的关键任务之一,其目的是对各类非结构化信息进行挖掘提取,形成结构化信息,为事件的处理、研判和决策提供支撑;
传统事件抽取方法主要分为基于规则模版与基于机器学习两种;基于规则模版的方法需要针对特定任务构建规则模版,泛化性较差且可移植性较低;基于机器学习的方法需要构造合适的特征与分类器,将事件抽取归类于分类任务,可以获得更好的灵活性与精准度;但该方法需要构建大规模标注训练语料库,语料库质量直接影响抽取效果,需要较高的训练成本;
针对传统方法的不足,现阶段事件抽取主要使用深度学习方法;通过构建大规模深度神经网络,可以获得更强的特征学习与上下文语义感知能力;但现有的深度学习方法都采用管道方式,即先识别事件触发词,再确定事件元素,最后判断事件类型;该方法存在传递误差,任意环节的效果都会极大的影响事件抽取精准度;并且目前的方法忽视了上下文语义关系与词元原始特征的结合,仅仅关注上下文语义关系或词元原始特征,导致捕捉触发词语义能力不足、实体边界识别模糊,限制了事件抽取精度,影响了模型的泛化性。
为此,提出一种结合序列标注的事件联合抽取模型与方法。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一;为此,本发明提出一种结合序列标注的事件联合抽取模型与方法,该一种结合序列标注的事件联合抽取模型与方法通过构建事件描述文件模板,对文本内容进行分词预处理;利用BERT预训练模型转换成对应的词向量,得到事件词向量,并输入至一维卷积神经网络对词向量进行局部特征提取,得到融合上下文特征的词向量;将词向量和通过序列标注编码的事件元素特征输入到条件随机场中,通过随机梯度下降优化方法进行训练;最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取;本发明利用单个汉字级的字符特征,避免词表分词错误的问题,并通过局部卷积神经网络,融合局部上下文特征,提升捕捉语义能力,强化事件元素实体边界,提高了抽取精度。
为实现上述目的,根据本发明的第一方面的实施例提出一种结合序列标注的事件联合抽取模型,包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层;
其中,所述输入层用于通过BERT的中文词典对输入的文本序列进行编码,生成模型可以识别的数字向量;所述数字向量有词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment三部分组成;并将词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment拼接为最终输入向量Einput;
所述最终输入向量Einput的拼接公式如公式(1)所示:
Einput = Etoken + Eposition + Esegment (1);
输入层生成的最终输入向量Einput通过电气方式传输至多头自注意力编码层;
其中,所述多头自注意力编码层用于通过计算文本序列中不同词之间关联程度,调整权重系数矩阵来计算字的表征向量;所述多头自注意力编码层计算字的表征向量包括以下步骤:
步骤S1:所述多头自注意力编码层接收由输入层发送的最终输入向量Einput;
步骤S2:所述多头自注意力编码层加载BERT注意力权重变量Q、K、V,加载公式如公式(2)所示:
步骤S3:对注意力权重变量使用公式(3)自注意力函数得到注意力分数;
步骤S4:设置多头自注意力编码层注意力个数变量m,提供m个不同的视角;对于m个不同的视角,重复执行步骤S2-S3;注意力个数以及视角根据实际经验设置;
步骤S5:将所有自注意力头的信息按公式(4)进行拼接(向量首尾相连)得到多头自注意力编码层的表征向量;
其中,所述前馈层主要用于利用预训练BERT模型将输出向量进行编码,获得卷积特征融合层所需要的字向量编码,其中为句子包含字符长度,为BERT嵌入的词向量维度768;前馈层将字向量编码通过电气方式传输至卷积特征融合层;
其中,所述卷积特征融合层用于实现局部窗口卷积和上下文语义信息提升;在局部窗口卷积操作上,为输入句子序列词向量设计了窗口大小为3和5的两种并行化卷积操作,然后将两者结果在特征图上进行堆叠;在上下文语义信息提升部分,利用双层为5的卷积操作,用来提取上下文高层语义空间信息;特征图表示为公式(5),矩阵作为卷积操作的卷积核,为上下文窗口大小,为词向量的维度;表示触发词或事件元素周围个词向量(),表示偏置,表示非线性激活函数;将卷积核扫描句子中每个词,获取融合上下文词级的特征C如公式(6)所示;
所述卷积特征融合层将特征C通过电气方式传输至条件随机场序列解码层;
其中,所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务,对标签之间的依赖关系进行建模,获得正确的标签组合;其中,所述BI标注方式为标注实体的起始位置标记为标签B,实体其余部分标记为标签I,不属于标注内容的标记为标签O;
其中,所述输出层用于输出正确标签;
根据本发明的第二方面实施例,提出一种结合序列标注的事件联合抽取方法,包括以下步骤:
步骤一:构建事件描述文件模板;构建突发事件模板;所述突发事件模板为确定某个突发事件包含多少事件元素;
步骤二:运用JSON格式保存标注好的文本,文本标注按照步骤一中事件描述文件模板的格式,确定事件触发词与事件元素实体事件:其中,所述事件触发词是标志某类事件发生的文本,其在事件类别识别中扮演了及其重要的作用;所述事件元素实体是事件中涉及的具体要素所对应的文本,其在事件元素分类中扮演重要角色;事件元素实体包括但不限于发生事件、发生地点、事件影响、事件参与方等;
步骤三:读取标注好的JSON文件,对文本进行预处理并根据标注的实体对预处理后的文本打标签,由于要处理的文本数据为不定长的非结构化数据,不利于模型的并行化处理,为解决这个问题需要将文本固定长度为512个字,如果超出固定长度则舍弃多余部分文本,不够补0至固定长度;对文本内容进行BI标注;
步骤五:在卷积特征融合层,利用卷积核在句子序列的方向上进行滑动,捕捉每个位置字的语义信息及其上下文窗口特征,最后综合得到特征图(feature map)作为每个位置的向量输出,通过最后全连接层的维度转换,可以得到最终标签分类概率;
步骤六:将整个句子的事件类型、事件触发词、事件元素实体特征编码(BI序列标注Y向量)和句子X向量输入到条件随机场中,条件随机场层初始化转移矩阵A,通过模型训练迭代更新参数得到具有约束条件(矩阵A的参数表现为约束条件)的转移矩阵A,以确保最后预测结果的有效性;将转移矩阵A定义为公式(9), 其中表示第个标签到第个标签的转移得分;模型将整个句子相对于标签序列的得分定义为公式(10)其中为卷积特征融合层的输出标签概率向量,由公式(10)所知,句子序列的得分是由CNN层的输出与CRF层的转移矩阵共同决定的;即整个句子对应的标签序列的打分由每个标签位置的得分与标签之间的转移得分共同决定的;随后,如公式(11)所示用极大似然估计函数作为模型的损失函数;最终模型的输出为,为句子中每个词的标签得分最大的序列;
步骤七:输出句子文本的正确标签。
与现有技术相比,本发明的有益效果是:
本发明通过构建事件描述文件模板,对文本内容进行分词预处理;利用BERT预训练模型转换成对应的词向量,得到事件词向量,并输入至一维卷积神经网络对词向量进行局部特征提取,得到融合上下文特征的词向量;将词向量和通过序列标注编码的事件元素特征输入到条件随机场中,通过随机梯度下降优化方法进行训练;最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取;本发明利用单个汉字级的字符特征,避免词表分词错误的问题,并通过局部卷积神经网络,融合局部上下文特征,提升捕捉语义能力,强化事件元素实体边界,提高了抽取精度;在使用预训练模型的基础上融入上下文词汇语义特征的联合抽取方法,增强对关键实体的抽取和对全局句子语义与局部词汇特征的捕捉能力。
附图说明
图1为本发明的模型图;
图2为本发明的流程图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种结合序列标注的事件联合抽取模型,包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层;
其中,所述输入层用于通过BERT的中文词典对输入的文本序列进行编码,生成模型可以识别的数字向量;所述数字向量有词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment三部分组成;并将词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment拼接为最终输入向量Einput;
所述最终输入向量Einput的拼接公式为公式(1):
Einput = Etoken + Eposition + Esegment (1);
输入层生成的最终输入向量Einput通过电气方式传输至多头自注意力编码层;
其中,所述多头自注意力编码层用于通过计算文本序列中不同词之间关联程度,调整权重系数矩阵来计算字的表征向量;所述多头自注意力编码层计算字的表征向量包括以下步骤:
步骤S1:所述多头自注意力编码层接收由输入层发送的最终输入向量Einput;
步骤S2:所述多头自注意力编码层加载BERT注意力权重变量Q、K、V,加载公式如公式(2)所示,
步骤S3:对注意力权重变量使用公式(3)自注意力函数得到注意力分数;
步骤S4:设置多头自注意力编码层注意力个数变量m,提供m个不同的视角;对于m个不同的视角,重复执行步骤S2-S3;注意力个数以及视角根据实际经验设置;
步骤S5:将所有自注意力头的信息按公式(4)进行拼接(向量首尾相连)得到多头自注意力编码层的输出向量;
其中,所述前馈层主要用于利用预训练BERT模型将输出向量进行编码,获得卷积特征融合层所需要的字向量编码,其中为句子包含字符长度,为BERT嵌入的词向量维度768;前馈层将字向量编码通过电气方式传输至卷积特征融合层;
其中,所述卷积特征融合层用于实现局部窗口卷积和上下文语义信息提升;在局部窗口卷积操作上,为输入句子序列词向量设计了窗口大小为3和5的两种并行化卷积操作,然后将两者结果在特征图上进行堆叠;在上下文语义信息提升部分,利用双层为5的卷积操作,用来提取上下文高层语义空间信息;特征图表示为公式(5),矩阵作为卷积操作的卷积核,为上下文窗口大小,为词向量的维度,“”操作符表示为两个矩阵对应位置相乘之和;表示触发词或事件元素周围个词向量(),表示偏置,表示非线性激活函数;将卷积核扫描句子中每个词,获取融合上下文词级的特征C如公式(6)所示;
所述卷积特征融合层将特征C通过电气方式传输至条件随机场序列解码层;
其中,所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务,对标签之间的依赖关系进行建模,获得正确的标签组合;其中,所述BI标注方式为标注实体的起始位置标记为标签B,实体其余部分标记为标签I,不属于标注内容的标记为标签O;例如表1所示的BI标注示例:
表1
原文 | 钦 | 州 | 市 | 康 | 熙 | 岭 | 镇 | 一 | 艘 | 船 | 只 | 起 | 火 |
BI标注 | B | I | I | I | I | I | I | O | O | B | I | B | I |
其中,所述输出层用于输出正确标签;
通过结合序列标注的事件联合抽取模型利用单个汉字级的字符特征,避免词表分词错误的问题,并通过局部卷积神经网络,融合局部上下文特征,
提升捕捉语义能力,强化区分事件元素实体边界,提升了抽取精度。
如图2所示,一种结合序列标注的事件联合抽取方法,包括以下步骤:
步骤一:构建事件描述文件模板;构建突发事件模板;所述突发事件模板为确定某个突发事件包含多少事件元素;例如自然灾害中的地震事件,其包含以下事件元素:时间、地点、震源深度、震级、受伤人数、死亡人数、财产损失;
步骤二:运用JSON格式保存标注好的文本,文本标注按照步骤一中事件描述文件模板的格式,确定事件触发词与事件元素实体事件:其中,所述事件触发词是标志某类事件发生的文本,其在事件类别识别中扮演了极其重要的作用;所述事件元素实体是事件中涉及的具体要素所对应的文本,其在事件元素分类中扮演重要角色;事件元素实体包括但不限于发生事件、发生地点、事件影响、事件参与方等;
步骤三:读取标注好的JSON文件,对文本进行预处理并根据标注的实体对预处理后的文本打标签,由于要处理的文本数据为不定长的非结构化数据,不利于模型的并行化处理,为解决这个问题需要将文本固定长度为512个字,如果超出固定长度则舍弃多余部分文本,不够补0至固定长度;对文本内容进行BI标注,并将所有文本划分为7:2:1的训练集,测试集以及验证集,划分比例为7:2:1;
步骤五:在卷积特征融合层,利用卷积核在句子序列的方向上进行滑动,捕捉每个位置字的语义信息及其上下文窗口特征,最后综合得到特征图(feature map)作为每个位置的向量输出,通过最后全连接层的维度转换,可以得到最终标签分类概率;
步骤六:将整个句子的事件类型、事件触发词、事件元素实体特征编码(BI序列标注Y向量)和句子X向量输入到条件随机场中,条件随机场层初始化转移矩阵A,通过模型训练迭代更新参数得到具有约束条件(矩阵A的参数表现为约束条件)的转移矩阵A,以确保最后预测结果的有效性;将转移矩阵A定义为公式(9), 其中表示第个标签到第个标签的转移得分;模型将整个句子相对于标签序列的得分定义为公式(10)其中为卷积特征融合层的输出标签概率向量,由公式(10)所知,句子序列的得分是由CNN层的输出与CRF层的转移矩阵共同决定的;即整个句子对应的标签序列的打分由每个标签位置的得分与标签之间的转移得分共同决定的;随后,如公式(11)所示用极大似然估计函数作为模型的损失函数;最终模型的输出为,为句子中每个词的标签得分最大的序列;例如:
步骤七:输出句子文本的正确标签。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
Claims (8)
1.一种结合序列标注的事件联合抽取模型,其特征在于,包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层;
所述输入层用于通过BERT的中文词典对输入的文本序列进行编码,生成模型可以识别的数字向量Einput;输入层生成的最终输入向量Einput通过电气方式传输至多头自注意力编码层;
所述多头自注意力编码层用于通过计算文本序列中不同词之间关联程度,调整权重系数矩阵来计算字的表征向量;多头自注意力编码层将表征向量通过电气方式传输至前馈层;
所述前馈层用于利用预训练BERT模型将输出向量进行编码,获得卷积特征融合层所需要的字向量编码,其中为句子包含字符长度,为BERT嵌入的词向量维度768;前馈层将字向量编码通过电气方式传输至卷积特征融合层;
所述卷积特征融合层用于实现局部窗口卷积和上下文语义信息提升并获得融合上下文词级的特征;卷积特征融合层将融合上下文词级的特征通过电气方式传输至条件随机场序列解码层;
所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务,对标签之间的依赖关系进行建模,获得正确的标签组合;条件随机场序列解码层将正确的标签组合通过电气方式传输至输出层;
所述输出层用于输出正确的标签组合。
2.根据权利要求1所述的一种结合序列标注的事件联合抽取模型,其特征在于,所述输入层生成的数字向量有词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment三部分组成;并将词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment拼接为最终输入向量Einput。
3.根据权利要求1所述的一种结合序列标注的事件联合抽取模型,其特征在于,所述多头自注意力编码层计算字的表征向量包括以下步骤:
步骤S1:所述多头自注意力编码层接收由输入层发送的最终输入向量Einput;
步骤S2:所述多头自注意力编码层加载BERT注意力权重变量Q、K、V,加载公式如公式(2)所示,
步骤S3:对注意力权重变量使用公式(3)自注意力函数得到注意力分数;
步骤S4:设置多头自注意力编码层注意力个数变量m,提供m个不同的视角;对于m个不同的视角,重复执行步骤S2-S3;注意力个数以及视角根据实际经验设置;
步骤S5:将所有自注意力头的信息按公式(4)进行向量首尾相连得到多头自注意力编码层的表征向量;
6.一种结合序列标注的事件联合抽取方法,其特征在于,包括以下步骤:
步骤一:构建事件描述文件模板;构建突发事件模板;所述突发事件模板为确定某个突发事件包含多少事件元素;
步骤二:运用JSON格式保存标注好的文本,文本标注按照步骤一中事件描述文件模板的格式,确定事件触发词与事件元素实体事件:
步骤三:读取标注好的JSON文件,对文本进行预处理并根据标注的实体对预处理后的文本打标签;
步骤五:在卷积特征融合层,利用卷积核在句子序列的方向上进行滑动,捕捉每个位置字的语义信息及其上下文窗口特征,最后综合得到特征图作为每个位置的向量输出,通过最后全连接层的维度转换,得到最终标签分类概率;
步骤六:将整个句子的事件类型、事件触发词、事件元素实体特征编码和句子X向量输入到条件随机场中,条件随机场层初始化转移矩阵A,通过模型训练迭代更新参数得到具有约束条件的转移矩阵A,以确保最后预测结果的有效性;将转移矩阵A定义为公式(9), 其中表示第个标签到第个标签的转移得分;模型将整个句子相对于标签序列的得分定义为公式(10);其中为卷积特征融合层的输出标签概率向量,随后,如公式(11)所示用极大似然估计函数作为模型的损失函数;最终模型的输出为,为句子中每个词的标签得分最大的序列;
根据句子标签序列的预测概率进行维特比解码,得到最终的正确标签;
步骤七:输出句子文本的正确标签。
7.根据权利要求6所述的一种结合序列标注的事件联合抽取方法,其特征在于,所述事件触发词是标志发生事件的文本;所述事件元素实体是事件中涉及的具体要素所对应的文本。
8.根据权利要求6所述的一种结合序列标注的事件联合抽取方法,其特征在于,所述预处理为将文本固定长度为512个字,若超出固定长度则舍弃多余部分文本,不够补0至固定长度;对文本内容进行BI标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210760629.0A CN114818721B (zh) | 2022-06-30 | 2022-06-30 | 一种结合序列标注的事件联合抽取模型与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210760629.0A CN114818721B (zh) | 2022-06-30 | 2022-06-30 | 一种结合序列标注的事件联合抽取模型与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114818721A true CN114818721A (zh) | 2022-07-29 |
CN114818721B CN114818721B (zh) | 2022-11-01 |
Family
ID=82522898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210760629.0A Active CN114818721B (zh) | 2022-06-30 | 2022-06-30 | 一种结合序列标注的事件联合抽取模型与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818721B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238685A (zh) * | 2022-09-23 | 2022-10-25 | 华南理工大学 | 一种基于位置感知的建筑工程变更事件联合抽取方法 |
CN115292504A (zh) * | 2022-09-29 | 2022-11-04 | 北京如炬科技有限公司 | 实体关系分类方法、装置、设备及存储介质 |
CN115994539A (zh) * | 2023-02-17 | 2023-04-21 | 成都信息工程大学 | 一种基于卷积门控和实体边界预测的实体抽取方法及系统 |
CN117390090A (zh) * | 2023-12-11 | 2024-01-12 | 安徽思高智能科技有限公司 | 一种rpa流程挖掘方法、存储介质、电子设备 |
CN117745395A (zh) * | 2024-02-19 | 2024-03-22 | 西昌学院 | 基于个性化居家养老服务的ai信息推送方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN111259666A (zh) * | 2020-01-15 | 2020-06-09 | 上海勃池信息技术有限公司 | 一种结合多头自注意力机制的cnn文本分类方法 |
CN112528643A (zh) * | 2020-12-14 | 2021-03-19 | 上海栖盟科技有限公司 | 一种基于神经网络的文本信息提取方法及装置 |
CN113157916A (zh) * | 2021-03-10 | 2021-07-23 | 南京航空航天大学 | 一种基于深度学习的民航突发事件抽取方法 |
CN113536799A (zh) * | 2021-08-10 | 2021-10-22 | 西南交通大学 | 基于融合注意力的医疗命名实体识别建模方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN114298053A (zh) * | 2022-03-10 | 2022-04-08 | 中国科学院自动化研究所 | 一种基于特征和注意力机制融合的事件联合抽取系统 |
CN114330354A (zh) * | 2022-03-02 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN114429132A (zh) * | 2022-02-24 | 2022-05-03 | 南京航空航天大学 | 一种基于混合格自注意力网络的命名实体识别方法和装置 |
CN114490995A (zh) * | 2022-03-31 | 2022-05-13 | 南京众智维信息科技有限公司 | 多级自注意力的网络安全协同处置作战室语义摘要方法 |
CN114579695A (zh) * | 2022-01-20 | 2022-06-03 | 杭州量知数据科技有限公司 | 一种事件抽取方法、装置、设备及存储介质 |
-
2022
- 2022-06-30 CN CN202210760629.0A patent/CN114818721B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN111259666A (zh) * | 2020-01-15 | 2020-06-09 | 上海勃池信息技术有限公司 | 一种结合多头自注意力机制的cnn文本分类方法 |
CN112528643A (zh) * | 2020-12-14 | 2021-03-19 | 上海栖盟科技有限公司 | 一种基于神经网络的文本信息提取方法及装置 |
CN113157916A (zh) * | 2021-03-10 | 2021-07-23 | 南京航空航天大学 | 一种基于深度学习的民航突发事件抽取方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN113536799A (zh) * | 2021-08-10 | 2021-10-22 | 西南交通大学 | 基于融合注意力的医疗命名实体识别建模方法 |
CN114579695A (zh) * | 2022-01-20 | 2022-06-03 | 杭州量知数据科技有限公司 | 一种事件抽取方法、装置、设备及存储介质 |
CN114429132A (zh) * | 2022-02-24 | 2022-05-03 | 南京航空航天大学 | 一种基于混合格自注意力网络的命名实体识别方法和装置 |
CN114330354A (zh) * | 2022-03-02 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN114298053A (zh) * | 2022-03-10 | 2022-04-08 | 中国科学院自动化研究所 | 一种基于特征和注意力机制融合的事件联合抽取系统 |
CN114490995A (zh) * | 2022-03-31 | 2022-05-13 | 南京众智维信息科技有限公司 | 多级自注意力的网络安全协同处置作战室语义摘要方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238685A (zh) * | 2022-09-23 | 2022-10-25 | 华南理工大学 | 一种基于位置感知的建筑工程变更事件联合抽取方法 |
CN115292504A (zh) * | 2022-09-29 | 2022-11-04 | 北京如炬科技有限公司 | 实体关系分类方法、装置、设备及存储介质 |
CN115994539A (zh) * | 2023-02-17 | 2023-04-21 | 成都信息工程大学 | 一种基于卷积门控和实体边界预测的实体抽取方法及系统 |
CN115994539B (zh) * | 2023-02-17 | 2024-05-10 | 成都信息工程大学 | 一种基于卷积门控和实体边界预测的实体抽取方法及系统 |
CN117390090A (zh) * | 2023-12-11 | 2024-01-12 | 安徽思高智能科技有限公司 | 一种rpa流程挖掘方法、存储介质、电子设备 |
CN117390090B (zh) * | 2023-12-11 | 2024-04-12 | 安徽思高智能科技有限公司 | 一种rpa流程挖掘方法、存储介质、电子设备 |
CN117745395A (zh) * | 2024-02-19 | 2024-03-22 | 西昌学院 | 基于个性化居家养老服务的ai信息推送方法及系统 |
CN117745395B (zh) * | 2024-02-19 | 2024-05-14 | 西昌学院 | 基于个性化居家养老服务的ai信息推送方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114818721B (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114818721B (zh) | 一种结合序列标注的事件联合抽取模型与方法 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
US20240177047A1 (en) | Knowledge grap pre-training method based on structural context infor | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
US10956673B1 (en) | Method and system for identifying citations within regulatory content | |
CN113255294B (zh) | 命名实体识别模型训练方法、识别方法及装置 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN111695053A (zh) | 序列标注方法、数据处理设备、可读存储介质 | |
CN112612871A (zh) | 一种基于序列生成模型的多事件检测方法 | |
CN110991185A (zh) | 一种文章中实体的属性抽取方法及装置 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN114429132A (zh) | 一种基于混合格自注意力网络的命名实体识别方法和装置 | |
CN114065702A (zh) | 一种融合实体关系和事件要素的事件检测方法 | |
CN113806646A (zh) | 序列标注系统及序列标注模型的训练系统 | |
CN113609857B (zh) | 基于级联模型和数据增强的法律命名实体识别方法及系统 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN114612921A (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN114020900A (zh) | 基于融合空间位置注意力机制的图表英语摘要生成方法 | |
CN110889276B (zh) | 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质 | |
CN112307749A (zh) | 文本检错方法、装置、计算机设备和存储介质 | |
CN112148879B (zh) | 一种自动给代码打数据结构标签的计算机可读存储介质 | |
CN114861601B (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN115906854A (zh) | 一种基于多级对抗的跨语言命名实体识别模型训练方法 | |
CN114297408A (zh) | 一种基于级联二进制标注框架的关系三元组抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |