CN113190602A - 融合字词特征与深度学习的事件联合抽取方法 - Google Patents
融合字词特征与深度学习的事件联合抽取方法 Download PDFInfo
- Publication number
- CN113190602A CN113190602A CN202110380536.0A CN202110380536A CN113190602A CN 113190602 A CN113190602 A CN 113190602A CN 202110380536 A CN202110380536 A CN 202110380536A CN 113190602 A CN113190602 A CN 113190602A
- Authority
- CN
- China
- Prior art keywords
- word
- character
- vector
- sequence
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合字词特征与深度学习的事件联合抽取方法,所述方法把事件类型和事件元素当作一个联合标签进行标注,减少了流水线误差。通过延拓MacBERT解决文本按字符切分过长无法全部放入预训练模型提取特征的问题,再结合字符和单词的特征,动态地捕获输入序列任意字符和单词之间的依赖关系,更加充分获取文本的语义信息和字、词特征;在模型训练过程中加入扰动去干扰CRF解码,通过对抗训练的方式提高模型的泛化性和健壮性。从减少流水线误差、获取文本更全面的语义信息和加入对抗训练提高模型泛化性三个方面提高事件抽取的准确率和召回率。
Description
技术领域
本发明涉及事件抽取领域,具体涉及一种融合字词特征与深度学习的事件联合抽取方法。
背景技术
信息抽取的任务包括实体识别与抽取、实体消解、关系抽取和事件抽取等,信息为特定的人、物在特定时间与特定地点相互作用的客观事实,事件抽取是从非结构化信息中自动抽取用户感兴趣的事件,以结构化的方式存储在数据库中供用户查看。
事件抽取包括识别事件类型和识别事件元素二部分,传统的事件抽取,通常采用先识别触发词再识别事件类型最后识别事件元素这样流水线的工作方式,这种工作方式虽然较为灵活但是避免不了流水线的误差。使用流水线的工作方式,单纯地结合字符和单词两种粒度的信息训练事件抽取模型,缺失了很多特征维度信息,对某些事件类型和事件元素的识别存在着一定的困难。
事件抽取通常在一个文本中会有多个事件元素和多个事件类型,一个事件元素有可能属于多个事件类型,一个事件类型可能拥有多个事件元素,即多对多的形态,并且这些元素可能会分布在多个句子中,这些特性是导致事件抽取困难的重要原因,如何充分有效地利用文本特征以提高事件抽取模型的泛化性和健壮性,仍然是当前需要解决的问题。
发明内容
本发明针对事件抽取领域现存的问题,在BiLSTM模型的基础上,把事件类型和事件元素当作一个联合标签进行标注,减少流水线误差;融入字信息以及字词融合信息,并且使用延拓后的MacBERT模型预训练字向量和词向量,更好地解决字符和单词多语义向量表示问题及字符切分文本过长语义学习不全问题;在模型训练过程中注入扰动,通过对抗训练方式提高模型的泛化性和健壮性。
为了实现上述发明目的,本发明提供了以下技术方案:
S1:对待处理的文本进行预处理。
S2:对MacBERT的绝对位置编码进行延拓。
S3:利用预训练模型和词嵌入模型,结合预处理后文本的字符特征信息、分词特征信息,生成文本的字符向量序列和词向量序列。
S4:将文本的字符向量序列进行编码,生成字符隐状态向量。
S5:将文本的词向量输入到卷积神经网络,生成字词综合向量序列,对字词综合向量序列进行编码,字词综合向量序列输入到一个独立的循环神经网络,捕获全局特征,生成字词综合隐状态序列的向量。
S6:将所述字符隐状态向量、字词综合隐状态向量进行合并,得到全局特征隐状态向量。
S7:将所述全局特征隐状态向量,输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量。
S8:把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入到 CRF模型中进行解码,标注出所述文本特征向量序列中的事件元素及该元素的事件类型,生成对应的事件标签序列。
所述步骤S1中,对文本的预处理方式为:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左二种序列标注方法进行标注,把二个标注结果求并集当作最终标注结果。将标注结果文本以一个字符为单位,分割为字符集合;将待处理的文本利用jieba开源中文分词工具将句子分词,生成词汇集合。
所述步骤S2中,对MacBERT的绝对位置编码进行延拓的方式为:假设已经训练好的绝对位置编码向量为p1,p2,…,pn,延拓后的编码向量为q1,q2,…,qm,其中m>n;通过延拓公式q(i-1)n+j=αui+(1-α)uj进行延拓,其中超参数α∈(0,1),u1,u2,…,un是绝对位置编码的“基底”,i是“基底”的编号,i∈(1,n), j是每个“基底”的绝对位置编码编号,j∈(1,n),,把i,j对应的位置编码αui和(1-α)uj叠加表示位置(i-1)n+j的位置编码,达到从n个位置编码延拓到 m个的效果。
所述步骤S3中,所述向量序列具体生成步骤如下:对于字符集合,针对“预训练与微调阶段MASK差异”问题,使用延拓后MacBERT模型预训练的字向量,提高向量表示的精准性,通过MacBERT的词汇表建立分词器,将待处理文本以一个字符为单位,根据固定的文本最大长度对所述文本进行截断或者补0,得到字符向量序列;对于词汇集合,使用Word2Vec的skip-gram模型进行词嵌入,给定输入句子序列X={X1,X2,…,Xn},将句子进行字向量和词向量映射,得到字符向量序列EC和词向量序列EW。
优选的,步骤S4中所述生成字符隐状态序列的向量步骤如下:将字符向量序列EC作为输入序列输入到双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,使用激活函数Tanh缓解梯度消失问题,提高双向长短期记忆神经网络编码精准性,由字符向量序列EC经过BiLSTM生成字符隐状态向量hC。
优选的,步骤S5中所述生成字词综合隐状态序列的向量步骤如下:将输入以分词为单位,经过Word2Vec的skip-gram模型训练后生成词向量序列EW,同时,词语对应的字符通过卷积神经网络CNN生成词语对应的向量序列EK,将二个序列叠加,得到一个字词综合向量序列ET,把所述文本的字词综合向量序列 ET作为输入序列输入到双向长短期记忆神经网络BiLSTM中,提取文本信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量hW。
所述步骤S6中,将上述步骤生成的基于延拓MacBERT训练的字符隐状态向量hC和字词综合隐状态向量hW二个向量合并成一个长向量全局特征隐状态向量hnum。
所述步骤S7中,在全局特征隐状态向量里面加入扰动,使得模型在预测的时候受到干扰,提高模型泛化性,加入扰动使用梯度上升的方式,具体做法为Δx=sign(▽xL(x,y;θ)),其中Δx是对抗扰动,x是输入,y是标签,θ是模型参数,L(x,y;θ)是单个样本的loss,sign函数是防止扰动过大对▽xL(x,y;θ)做标准化处理,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量。
优选的,步骤S8中,把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入至条件随机场CRF进行标签预测,正则化计算给定句子序列s标记为标签序列l的得分,并且在条件随机场中使用维特比算法进行训练,计算出最高概率的事件标签序列。
附图说明:
图1为本发明示例的流程图。
具体实施方式
下面结合示例流程图对本发明作进一步的详细描述,利于更好的理解本发明的技术方案。
如图1所示,本发明主要包括以下步骤:
(1)对待处理的文本进行预处理,得到预处理结果:
对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左二种序列标注方法进行标注,把二个标注结果求并集当作最终标注结果。将标注结果文本以一个字符为单位,分割为字符集合;将待处理的文本利用jieba开源中文分词工具将句子分词,生成词汇集合。
(2)对MacBERT的绝对位置编码进行延拓,使得可以处理超512长度的文本:
假设已经训练好的绝对位置编码向量为p1,p2,…,pn,延拓后的编码向量为 q1,q2,…,qm,其中m>n;通过延拓公式q(i-1)n+j=αui+(1-α)uj进行延拓,其中超参数α∈(0,1),u1,u2,…,un是绝对位置编码的“基底”,i是“基底”的编号, i∈(1,n),j是每个“基底”的绝对位置编码编号,j∈(1,n),,把i,j对应的位置编码αui和(1-α)uj叠加表示位置(i-1)n+j的位置编码,达到从n个位置编码延拓到m个的效果。
(3)利用预训练模型和词嵌入模型,结合预处理后文本的字符特征信息、分词特征信息,生成文本的字符向量序列和词向量序列:
对于字符集合,针对“预训练与微调阶段MASK差异”问题,使用延拓后 MacBERT模型预训练的字向量,提高向量表示的精准性,通过MacBERT的词汇表建立分词器,将待处理文本以一个字符为单位,根据固定的文本最大长度对所述文本进行截断或者补0,得到字符向量序列;对于词汇集合,使用Word2Vec的 skip-gram模型进行词嵌入,给定输入句子序列X={X1,X2,…,Xn},将句子进行字向量和词向量映射,得到字符向量序列EC和词向量序列EW。
(4)将文本的字符向量序列进行编码,生成字符隐状态向量。本实施例提供如下一个优选的生成字符隐状态序列向量的步骤:将字符向量序列EC作为输入序列输入到双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,使用激活函数Tanh缓解梯度消失问题,提高双向长短期记忆神经网络编码精准性,由字符向量序列EC经过BiLSTM生成字符隐状态向量hC。
(5)将文本的词向量输入到卷积神经网络,生成字词综合向量序列,对字词综合向量序列进行编码,字词综合向量序列输入到一个独立的循环神经网络,捕获全局特征,生成字词综合隐状态序列的向量。本实施例提供如下一个优选的生成字词综合隐状态序列向量的步骤:将输入以分词为单位,经过Word2Vec的 skip-gram模型训练后生成词向量序列EW,同时,词语对应的字符通过卷积神经网络CNN生成词语对应的向量序列EK,将二个序列叠加,得到一个字词综合向量序列ET,把所述文本的字词综合向量序列ET作为输入序列输入到双向长短期记忆神经网络BiLSTM中,提取文本信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量hW。
(6)将所述字符隐状态向量、字词综合隐状态向量进行合并,得到全局特征隐状态向量:
将上述步骤生成的基于延拓MacBERT训练的字符隐状态向量hC和字词综合隐状态向量hW二个向量合并成一个长向量全局特征隐状态向量hnum。
(7)在全局特征隐状态向量里面加入扰动,使得模型在预测的时候受到干扰,提高模型泛化性,加入扰动使用梯度上升的方式,具体做法为Δx=sign(▽xL(x,y;θ)),其中Δx是对抗扰动,x是输入,y是标签,θ是模型参数,L(x,y;θ)是单个样本的loss,sign函数是防止扰动过大对▽xL(x,y;θ)做标准化处理,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量。
(8)把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入到 CRF模型中进行解码,标注出所述文本特征向量序列中的事件元素及该元素的事件类型,生成对应的事件标签序列。具体实现过程:把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入至条件随机场CRF进行标签预测,正则化计算给定句子序列s标记为标签序列l的得分,并且在条件随机场中使用维特比算法进行训练,计算出最高概率的事件标签序列。
本发明的有益效果:本发明把事件类型和事件元素当作一个联合标签进行标注,减少了流水线误差。通过延拓MacBERT解决文本按字符切分过长无法全部放入预训练模型提取特征的问题,再结合字符和单词的特征,动态地捕获输入序列任意字符和单词之间的依赖关系,更加充分获取文本的语义信息和字、词特征;在模型训练过程中加入扰动去干扰CRF解码,通过对抗训练的方式提高模型的泛化性和健壮性。从减少流水线误差、获取文本更全面的语义信息和加入对抗训练提高模型泛化性三个方面提高事件抽取的准确率和召回率。
Claims (2)
1.融合字词特征与深度学习的事件联合抽取方法,其特征在于,包括以下步骤:
(1)对文本进行预处理:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左二种序列标注方法进行标注,把二个标注结果求并集当作最终标注结果;将最终标注结果文本以一个字符为单位,分割为字符集合;将待处理的文本利用jieba开源中文分词工具将句子分词,生成词汇集合;
(2)对MacBERT的绝对位置编码进行延拓:假设已经训练好的绝对位置编码向量为p1,p2,…,pn,延拓后的编码向量为q1,q2,…,qm,其中m>n;通过延拓公式q(i-1)n+j=αui+(1-α)uj进行延拓,其中超参数α∈(0,1),u1,u2,…,un是绝对位置编码的“基底”,i是“基底”的编号,i∈(1,n),j是每个“基底”的绝对位置编码编号,j∈(1,n),,把i,j对应的位置编码αui和(1-α)uj叠加表示位置(i-1)n+j的位置编码,达到从n个位置编码延拓到m个的效果;
(3)对于字符集合,针对“预训练与微调阶段MASK差异”问题,使用延拓后MacBERT模型预训练的字向量,提高向量表示的精准性,通过MacBERT的词汇表建立分词器,将待处理文本以一个字符为单位,根据固定的文本最大长度对文本进行截断或者补0,得到字符向量序列;对于词汇集合,使用Word2Vec的skip-gram模型进行词嵌入,给定输入句子序列,将句子进行字向量和词向量映射,得到词向量序列;
(4)将字符隐状态向量、字词综合隐状态向量进行合并,得到全局特征隐状态向量;
2.根据权利要求1所述的事件联合抽取方法,其特征在于,所述方法还包括如下步骤:
(1)将字符向量序列作为输入序列输入到双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,使用激活函数Tanh缓解梯度消失问题,提高双向长短期记忆神经网络编码精准性,由字符向量序列经过BiLSTM生成字符隐状态向量;
(2)将输入以分词为单位,经过Word2Vec的skip-gram模型训练后生成词向量序列,同时,词语对应的字符通过卷积神经网络CNN生成词语对应的向量序列,将二个序列叠加,得到一个字词综合向量序列,把所述文本的字词综合向量序列作为输入序列输入到双向长短期记忆神经网络BiLSTM中,提取文本信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量;
(3)把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入至条件随机场CRF进行标签预测,正则化计算给定句子序列标记为标签序列的得分,并且在条件随机场中使用维特比算法进行训练,计算出最高概率的事件标签序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380536.0A CN113190602B (zh) | 2021-04-09 | 2021-04-09 | 融合字词特征与深度学习的事件联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380536.0A CN113190602B (zh) | 2021-04-09 | 2021-04-09 | 融合字词特征与深度学习的事件联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113190602A true CN113190602A (zh) | 2021-07-30 |
CN113190602B CN113190602B (zh) | 2022-03-25 |
Family
ID=76975167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110380536.0A Active CN113190602B (zh) | 2021-04-09 | 2021-04-09 | 融合字词特征与深度学习的事件联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190602B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091568A (zh) * | 2021-10-20 | 2022-02-25 | 华北电力大学 | 一种面向文本分类模型的字词双粒度对抗防御系统及方法 |
CN114372458A (zh) * | 2022-01-20 | 2022-04-19 | 北京零点远景网络科技有限公司 | 一种基于政务工单的突发事件检测方法 |
CN114741516A (zh) * | 2021-12-08 | 2022-07-12 | 商汤国际私人有限公司 | 一种事件抽取方法和装置、电子设备及存储介质 |
CN114817564A (zh) * | 2022-04-15 | 2022-07-29 | 苏州大学 | 一种属性抽取方法、装置及存储介质 |
CN114861601A (zh) * | 2022-04-29 | 2022-08-05 | 桂林电子科技大学 | 基于旋转式编码的事件联合抽取方法及存储介质 |
CN114880438A (zh) * | 2022-06-08 | 2022-08-09 | 深圳市赛为智能股份有限公司 | 法条推荐方法、装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107273355A (zh) * | 2017-06-12 | 2017-10-20 | 大连理工大学 | 一种基于字词联合训练的中文词向量生成方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110633470A (zh) * | 2019-09-17 | 2019-12-31 | 北京小米智能科技有限公司 | 命名实体识别方法、装置及存储介质 |
CN111310439A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 一种基于深度特征变维机制的智能语义匹配方法和装置 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
KR20200116760A (ko) * | 2019-04-02 | 2020-10-13 | 성균관대학교산학협력단 | 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치 |
CN112000791A (zh) * | 2020-08-26 | 2020-11-27 | 哈电发电设备国家工程研究中心有限公司 | 一种电机故障知识抽取系统及方法 |
CN112052682A (zh) * | 2020-09-02 | 2020-12-08 | 平安资产管理有限责任公司 | 事件实体联合抽取方法、装置、计算机设备及存储介质 |
CN112183083A (zh) * | 2020-08-31 | 2021-01-05 | 杭州远传新业科技有限公司 | 文摘自动生成方法、装置、电子设备及存储介质 |
-
2021
- 2021-04-09 CN CN202110380536.0A patent/CN113190602B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107273355A (zh) * | 2017-06-12 | 2017-10-20 | 大连理工大学 | 一种基于字词联合训练的中文词向量生成方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
KR20200116760A (ko) * | 2019-04-02 | 2020-10-13 | 성균관대학교산학협력단 | 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110633470A (zh) * | 2019-09-17 | 2019-12-31 | 北京小米智能科技有限公司 | 命名实体识别方法、装置及存储介质 |
CN111310439A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 一种基于深度特征变维机制的智能语义匹配方法和装置 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN112000791A (zh) * | 2020-08-26 | 2020-11-27 | 哈电发电设备国家工程研究中心有限公司 | 一种电机故障知识抽取系统及方法 |
CN112183083A (zh) * | 2020-08-31 | 2021-01-05 | 杭州远传新业科技有限公司 | 文摘自动生成方法、装置、电子设备及存储介质 |
CN112052682A (zh) * | 2020-09-02 | 2020-12-08 | 平安资产管理有限责任公司 | 事件实体联合抽取方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
RUI XIONG: "Chinese Conference Event Named Entity Recognition Based on BERT-BiLSTM-CRF", 《PROCEEDINGS OF THE 2020 3RD INTERNATIONAL CONFERENCE ON BIG DATA TECHNOLOGIES (ICBDT 2020)》 * |
苏剑林: "层次分解位置编码,让BERT可以处理超长文本", 《HTTPS://KEXUE.FM/ARCHIVES/7947》 * |
陈佳丽 等: "利用门控机制融合依存与语义信息的事件检测方法", 《中文信息学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091568A (zh) * | 2021-10-20 | 2022-02-25 | 华北电力大学 | 一种面向文本分类模型的字词双粒度对抗防御系统及方法 |
CN114091568B (zh) * | 2021-10-20 | 2023-10-03 | 华北电力大学 | 一种面向文本分类模型的字词双粒度对抗防御系统及方法 |
CN114741516A (zh) * | 2021-12-08 | 2022-07-12 | 商汤国际私人有限公司 | 一种事件抽取方法和装置、电子设备及存储介质 |
CN114372458A (zh) * | 2022-01-20 | 2022-04-19 | 北京零点远景网络科技有限公司 | 一种基于政务工单的突发事件检测方法 |
CN114372458B (zh) * | 2022-01-20 | 2023-04-07 | 北京零点远景网络科技有限公司 | 一种基于政务工单的突发事件检测方法 |
CN114817564A (zh) * | 2022-04-15 | 2022-07-29 | 苏州大学 | 一种属性抽取方法、装置及存储介质 |
CN114817564B (zh) * | 2022-04-15 | 2024-08-23 | 苏州大学 | 一种属性抽取方法、装置及存储介质 |
CN114861601A (zh) * | 2022-04-29 | 2022-08-05 | 桂林电子科技大学 | 基于旋转式编码的事件联合抽取方法及存储介质 |
CN114861601B (zh) * | 2022-04-29 | 2024-04-12 | 桂林电子科技大学 | 基于旋转式编码的事件联合抽取方法及存储介质 |
CN114880438A (zh) * | 2022-06-08 | 2022-08-09 | 深圳市赛为智能股份有限公司 | 法条推荐方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113190602B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113190602B (zh) | 融合字词特征与深度学习的事件联合抽取方法 | |
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
CN111626056B (zh) | 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置 | |
Zitouni et al. | Maximum entropy based restoration of Arabic diacritics | |
CN107844481B (zh) | 识别文本检错方法及装置 | |
CN111444726A (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
EP3029607A1 (en) | Method for text recognition and computer program product | |
Xue et al. | A better way to attend: Attention with trees for video question answering | |
Doetsch et al. | Bidirectional decoder networks for attention-based end-to-end offline handwriting recognition | |
CN114861601B (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN102063900A (zh) | 克服混淆发音的语音识别方法及系统 | |
CN110163181A (zh) | 手语识别方法及装置 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN110991185A (zh) | 一种文章中实体的属性抽取方法及装置 | |
CN112905736B (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN114490953B (zh) | 训练事件抽取模型的方法、事件抽取的方法、装置及介质 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN110175330B (zh) | 一种基于注意力机制的命名实体识别方法 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN114881010A (zh) | 一种基于Transformer和多任务学习的中文语法纠错方法 | |
Zhu et al. | Attention combination of sequence models for handwritten Chinese text recognition | |
Bianne-Bernard et al. | Variable length and context-dependent HMM letter form models for Arabic handwritten word recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |