CN113407660B - 非结构化文本事件抽取方法 - Google Patents

非结构化文本事件抽取方法 Download PDF

Info

Publication number
CN113407660B
CN113407660B CN202110934216.5A CN202110934216A CN113407660B CN 113407660 B CN113407660 B CN 113407660B CN 202110934216 A CN202110934216 A CN 202110934216A CN 113407660 B CN113407660 B CN 113407660B
Authority
CN
China
Prior art keywords
vector
word
text
attention
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110934216.5A
Other languages
English (en)
Other versions
CN113407660A (zh
Inventor
陶建华
吴家帆
张大伟
杨国花
刘通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110934216.5A priority Critical patent/CN113407660B/zh
Publication of CN113407660A publication Critical patent/CN113407660A/zh
Application granted granted Critical
Publication of CN113407660B publication Critical patent/CN113407660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供非结构化文本事件抽取方法,包括:通过利用多阶句法树和图神经网络对文本信息进行编码,得到更为丰富和表征能力更强的词特征向量,进而提升事件检测的能力;通过构建外部本体知识,融入到候选事件论元编码环节,增加论元词汇特征编码的差异性,从而提升事件论元识别准确率。

Description

非结构化文本事件抽取方法
技术领域
本发明涉及事件抽取领域,具体涉及非结构化文本事件抽取方法。
背景技术
事件知识是世界知识资源中一种动态的、结构化的知识数据,这类结构化的知识暗含在自然语言文本或者对话中,是人类知识体系中重要的知识结构体。例如,分析“百度首席科学家吴恩达于2017年3月22日离职”所表述的事件,可得到以下结构化信息:离职(事件类型),吴恩达(涉事人),首席科学家(所在职位),百度(离职单位),2017年3月22日(时间)。这类结构化信息可服务于自然语言处理的下游任务,比如知识图谱,搜索引擎,推荐系统以及智能问答等。
事件抽取(Event Extraction, EE)是信息抽取(Information Extraction, IE)领域中一项十分重要且极具挑战的任务,旨在从文本中自动检测出代表特定事件类型的事件触发词以及描述该事件的论元,分别对应于事件检测(Event Detection, ED)和事件论元提取(Event Arguments Extraction, EAE)两个子任务。事件知识因具有丰富的结构化信息表达能力,吸引到越来越多学界和业界的学者投入到相关研究工作,这些工作可分为模式匹配方法和机器学习方法两大类。近几年,随着深度学习的发展,神经网络模型被广泛地运用到事件抽取任务中,且在性能方面取得很大提升。
公开号为CN102693244B公开了一种用于识别非结构化文本中的信息的方法和装置,能够处理包含/不包含名称或同义词形式的非结构化文本。根据本发明的信息识别装置包括:基础术语提取单元,用于根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;术语提取规则生成单元,用于基于所提取出的基础术语和所述第一非结构化文本,生成术语提取规则;术语提取单元,用于基于所提取出的基础术语和所生成的术语提取规则,从第二非结构化文本中提取出新的术语;术语映射单元,用于将所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
公开号为CN108280173B供了一种非结构化文本的关键信息挖掘方法、介质及设备。所述方法,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。通过根据文本信息的词向量,提取文本信息的语言模板,再将语言模板与文本信息进行匹配,提取文本信息的关键信息,能够从非结构化的文本信息中提取出结构化的语言模板,从而提取文本信息的关键信息,使用户能够快速获取文本中的关键信息。
现有技术缺点
对于事件检测任务,现有技术主要是训练基于文本序列的分类器对句子中的候选词进行分类,来确定事件类型。这种方法由于受限于神经网络模型编码长文本的能力,因而容易在捕获长句中目标词汇之间的依赖关系表现的十分低效。相反,基于依存树的方法可以利用蕴含在给在事件句的依存树中的句法关系,从而更有效地捕获每个候选触发词和相关词之间的关系。然而,现有基于依存树的方法只用了一阶的句法关系(两个词在依存树中存在直接连接的弧),使得不能对文本信息进行充分编码,虽然可以通过堆叠更多的图卷积网络层来提升编码效果,但是会造成图神经网络编码过平滑问题(不同节点的特征表示愈发趋于一致,丧失区别能力)。
对于事件论元抽取任务,现有方法将不同论元的候选词看作独立的实体,而忽视了考虑不同论元的本体概念之间的相似性,因此在模型对候选实体词区分能力不佳。
发明内容
有鉴于此,本发明提供一种非结构化文本事件抽取方法,所述方法包括:
触发词分类阶段
S1:非结构化文本数据预处理,再对数据预处理后的非结构化文本进行文本的切分与分词,得到切分后的文本片段,再将文本片段进一步分割成单个词片段;
S2:通过查表的方式将分割好的单个词片段,转化成空间向量表示的词向量表示;实体类型编码向量、词性标签编码向量和位置标签编码向量是根据确定的维度随机初始化得到的;
实体类型编码向量、词性标签编码向量和位置标签编码向量的每个元素是随机值;
S3:将所述词向量表示、实体类型编码向量、词性标签编码向量和位置标签编码向量,按每个词的维度方向进行拼接,得到文本句子的原始特征表示;
S4:将所述原始特征表示输入文本特征提取网络,得到文本的深度特征表示;
S5:将所述深度特征表示输入多阶图注意力卷积网络,得到多阶句法的特征表示向量;
S6:应用注意力机制聚合所述多阶句法的特征表示向量,得到聚合多阶特征;
S7:应用一个全连接层网络对所述聚合多阶特征进行分类,得到当前词片段属于每种事件类别的概率值;
事件论元角色分类阶段
S8:将句子的词级别序列的聚合多阶特征拼接成隐层嵌入向量;
S9:应用动态多池化层作为特征聚合器,将所述隐层嵌入向量聚合,得到实例嵌入;
S10:对于特定的上位概念,使用可训练的上位概念向量表示其语义特征;采用了多层感知机来计算注意力分值;
S11:定义一个元素角色的k个上位概念,应用步骤S10计算k个上位概念的注意力分值,再计算k个上位概念的注意力分值的均值,得到面向角色的注意力分值;以所述面向角色的注意力分值作为权重,对隐层嵌入向量中所有隐层嵌入进行加权求和,得到面向角色的嵌入;
S12:将所述实例嵌入和面向角色的嵌入作为分类器的输入,估计给定实例嵌入的条件下,元素角色的概率。
优选的,所述文本特征提取网络采用双向长短时间记忆网络构建。
优选的,所述多阶句法的特征表示向量的具体计算方法为:
根据句法依存树路径的邻接矩阵A可以表示成第一阶句法图;邻接矩阵A可以得到其三个变换矩阵,分别是Aalong、Arev和Aloop;k阶邻接矩阵Ak subg表示为A k along、Ak rev和A k loop;将所述深度特征表示和所述k阶邻接矩阵Ak subg输入图注意力卷积网络,得到多阶句法的特征表示向量h i k
优选的,所述将所述深度特征表示和所述k阶邻接矩阵Ak subg输入图注意力卷积网络,得到多阶句法的特征表示向量的具体计算方法为:
Figure 331554DEST_PATH_IMAGE001
其中,ak为A k along,bk为Ak rev,ck为A k loop,⊕表示按元素相加,f(•)是图注意力网络层,公式如下:
Figure 299510DEST_PATH_IMAGE002
σ是指数线性激活函数,Wa,k
Figure DEST_PATH_IMAGE003
分别需要学习的权重矩阵和偏置项,pi和pj为文本的深度特征表示,
Figure 457959DEST_PATH_IMAGE004
表示矩阵A k along中以节点(i, j)为索引位置的值,uij是在更新wi时,其相邻节点wj的归一化权重。
优选的,所述将所述uij的具体计算方法为:
Figure DEST_PATH_IMAGE005
Ni是词片段wi在子图中的相邻节点集合;
eij=γ(Wcomb [Watt pi ||Wattpj]);
其中γ代表LeakyReLU非线性激活函数,Wcomb和Watt是需要学习的权重矩阵,pi和pj为文本的深度特征表示。
优选的,所述k∈[1,K],其中K是一个人工超参,表示需要学习的最高阶数。
优选的,所述应用注意力机制聚合所述多阶句法的特征表示向量,得到聚合多阶特征的具体方法为:
Figure 231879DEST_PATH_IMAGE006
其中v i k 是词片段w i 的第k阶句法图特征表示。
优选的,所述v i k 的具体计算方法为:
Figure DEST_PATH_IMAGE007
其中
Figure 159384DEST_PATH_IMAGE008
是hi j经过非线性激活层的句法特征聚合向量,计算公式为
Figure DEST_PATH_IMAGE009
,Wawa
Figure 360558DEST_PATH_IMAGE010
分别是待学习的权重和偏置项,ctx是一个用来学习每阶图表示重要性的随机初始化的文本向量。
优选的,所述应用注意力机制聚合所述多阶句法的句子特征表示向量,对于每一组触发词-论元对,触发词和论元会将该文本句划分成三部分,由于触发词和论元的位置是非固定的,因此对这三段文本段的池化计算是动态的,池化具体计算方法为:
Figure DEST_PATH_IMAGE011
其中,[•] i表示一个向量的第i个值,向量的下标表示词片段的位置索引,pt,pa分别表示触发词t和候选论元a的位置,如pt+1表示触发词t的下一个词片段的位置,pa+1表示候选论元a的下一个词片段的位置,而
Figure 6303DEST_PATH_IMAGE012
表示中的起始位置到索引为pt位置之间的词片段,
Figure DEST_PATH_IMAGE015
表示x中的索引为pt+1位置到索引为pa位置之间的词片段,
Figure 303610DEST_PATH_IMAGE016
表示x中的索引为pa+1位置到索引为n位置之间的词片段,max{}表示取括号中向量的最大值,[; ;]表示将三个向量按行拼接,拼接后得到新的句子特征x;h1……hn得到的方式与上述聚合多阶特征hi得到的方式相同。
优选的,所述采用了多层感知机来计算注意力分值的具体方法为:
应用所述上位概念向量和所述隐层嵌入向量中的聚合多阶特征计算得到隐层状态向量;再应用softmax计算隐层状态向量中的隐层状态的注意力分值。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
(1)本发明利用句法树能够建模词之间依赖关系的特点,使用图卷积网络对多阶句法树信息编码,并利用注意力机制聚合各阶编码特征,使得最终的词嵌入能够具备更丰富上下文语义信息,从而提升事件类型识别的准确率;
(2)本发明利用实体间上位概念之间差异性较大的特点,通过构建候选论元的上位概念模块,来增加不同候选论元实体词嵌入的区分度,从而提升模型识别论元角色的准确率。
附图说明
图1为本发明实施例提供的非结构化文本事件抽取方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1所示本申请实施例提供的非结构化文本事件抽取方法,包括:
触发词分类阶段
S1:非结构化文本数据预处理,对原始语料进行清洗处理,主要去除文本中的特殊字符(网页链接、乱码字符、非正常间隔号等);再对数据预处理后的非结构化文本进行文本的切分与分词,将原始文本数据按终止符(句号,逗号和感叹号)切分成若干文本片段,再使用自然语言处理工具将文本片段进一步分割成单个词片段,并且获得词的实体类型标签(entity type)以及词性标签(parts-of-speech, pos)(中文语料使用中文自然语言处理工具HanLP进行分词,英文语料直接按空格分词);
S2:通过查表的方式将分割好的单个词片段,转化成空间向量表示的词向量表示;
具体方法为:
通过查表的方式将上述分割好的单词片段,转化成空间向量表示的词向量。此处的词向量表是来自在大规模语料上预训练得到的词嵌入(word embedding),可以选择现在主流的Word2vec、Glove或者FastText;为了追求在业务领域上的高精度和适配性,也可以自主搜集大规模业务领域数据集进行训练得到具有领域适配的词向量表;
实体类型编码向量、词性标签编码向量和位置标签编码向量是根据确定的维度随机初始化得到的;
实体类型编码向量、词性标签编码向量和位置标签编码向量的每个元素是随机值;
实体类型编码向量、词性标签编码向量和位置标签编码向量的尺寸是根据其类别总数以及隐藏层维度确定,如在实验中我们定义了一共8种实体,并设置隐藏层维度的超参数为768,则可以生成一个尺寸为8*768的随机向量,向量的每个元素是随机值;
S3:将所述词向量表示、实体类型编码向量、词性标签编码向量和位置标签编码向量,按每个词的维度方向进行拼接,得到文本句子的原始特征表示;
S4:将所述原始特征表示输入文本特征提取网络,得到文本的深度特征表示pi,所述文本特征提取网络采用双向长短时间记忆网络构建;(Bidirectional Long-Shot TermMemory network, BiLSTM),也就是拼接两个编码方向相反的LSTM神经网络的输出构成,从而实现上下文语义信息的建模;
Figure 675685DEST_PATH_IMAGE017
S5:将所述深度特征表示输入多阶图注意力卷积网络,得到多阶句法的特征表示向量,具体计算方法为:
根据句法依存树路径的邻接矩阵A可以表示成第一阶句法图;邻接矩阵A可以得到其三个变换矩阵,分别是Aalong、Arev和Aloop;其中如果词片段wi和wj之间存在句法连接弧,那么Aalong(i,j)=1, 否则为0;而逆转矩阵Arev=AT along,Aloop是单位矩阵;k阶邻接矩阵阵记录了Asubg的所有k跳路径,Ak subg表示为Ak along、Ak rev和A k loop;将所述深度特征表示和所述k阶邻接矩阵Ak subg输入图注意力卷积网络,得到多阶句法的特征表示向量h i k
将所述深度特征表示和所述k阶邻接矩阵Ak subg输入图注意力卷积网络,得到多阶句法的特征表示向量的具体计算方法为:
Figure 746409DEST_PATH_IMAGE018
其中,ak为A k along,bk为Ak rev,ck为A k loop,⊕表示按元素相加,f(•)是图注意力网络层,公式如下:
Figure 862133DEST_PATH_IMAGE019
σ是指数线性激活函数,Wa,k
Figure 701913DEST_PATH_IMAGE020
分别需要学习的权重矩阵和偏置项,pi和pj为文本的深度特征表示,
Figure 244890DEST_PATH_IMAGE021
表示矩阵A k along中以节点(i, j)为索引位置的值,uij是在更新wi时,其相邻节点wj的归一化权重。
所述uij的具体计算方法为:
Figure 537331DEST_PATH_IMAGE022
Ni是词片段wi在子图中的相邻节点集合;
eij=γ(Wcomb [Watt pi ||Wattpj]);
其中γ代表LeakyReLU非线性激活函数,Wcomb和Watt是需要学习的权重矩阵,pi和pj为文本的深度特征表示;
所述k∈[1,K],其中K是一个人工超参,表示需要学习的最高阶数;
S6:应用注意力机制聚合所述多阶句法的特征表示向量,得到聚合多阶特征,具体方法为:
Figure 456745DEST_PATH_IMAGE023
其中v i k 是词片段w i 的第k阶句法图特征表示,具体计算方法为:
Figure 151032DEST_PATH_IMAGE024
其中
Figure 888347DEST_PATH_IMAGE025
是hi j经过非线性激活层的句法特征聚合向量,计算公式为
Figure 933664DEST_PATH_IMAGE026
,Wawa
Figure 391190DEST_PATH_IMAGE027
分别是待学习的权重和偏置项,ctx是一个用来学习每阶图表示重要性的随机初始化的文本向量;
S7:触发词类型分类器:应用一个全连接层网络对所述聚合多阶特征进行分类,得到当前词片段属于每种事件类别的概率值,得到识别出触发词的计算公式为:
Figure 939983DEST_PATH_IMAGE028
其中,wo
Figure 90341DEST_PATH_IMAGE029
分别是待学习的权重和偏置;p(Oi t│sjt)表示句子sj中的词片段wi属于第t个标签的的概率值;θt代表所有参数,Ni表示预定义的事件类型总数;
事件论元角色分类阶段
S8:句子编码,将句子的词级别序列的识别出触发词的聚合多阶特征拼接成隐层嵌入向量;
S9:应用动态多池化层作为特征聚合器,将所述隐层嵌入向量聚合,得到实例嵌入,
所述应用注意力机制聚合所述多阶句法的句子特征表示向量,对于每一组触发词-论元对,触发词和论元会将该文本句划分成三部分,由于触发词和论元的位置是非固定的,因此对这三段文本段的池化计算是动态的,池化具体计算方法为:
Figure 357375DEST_PATH_IMAGE030
其中,[•] i表示一个向量的第i个值,向量的下标表示词片段的位置索引,pt,pa分别表示触发词t和候选论元a的位置,如pt+1表示触发词t的下一个词片段的位置,pa+1表示候选论元a的下一个词片段的位置,而
Figure 618592DEST_PATH_IMAGE031
表示中的起始位置到索引为pt位置之间的词片段,
Figure 343151DEST_PATH_IMAGE015
表示x中的索引为pt+1位置到索引为pa位置之间的词片段,
Figure 97481DEST_PATH_IMAGE016
表示x中的索引为pa+1位置到索引为n位置之间的词片段,max{}表示取括号中向量的最大值,[; ;]表示将三个向量按行拼接,拼接后得到新的句子特征x;h1……hn得到的方式与上述聚合多阶特征hi得到的方式相同,事件分类阶段得到的句子embedding,再用到论元分类。
S10:上位概念模块:对于特定的上位概念,使用可训练的上位概念向量表示其语义特征uc;采用了多层感知机来计算注意力分值,具体方法为:
应用所述上位概念向量和所述隐层嵌入向量中的聚合多阶特征计算得到隐层状态向量;再应用softmax计算隐层状态向量中的隐层状态的注意力分值;
具体过程为:
首先计算隐层状态:
Figure 896809DEST_PATH_IMAGE032
然后进行softmax操作,为每个隐层状态
Figure 420195DEST_PATH_IMAGE033
得到对应的注意力分值:
Figure 912356DEST_PATH_IMAGE034
其中,Wa,Wb是可训练的矩阵;
S11:逻辑联合模块:定义一个元素角色r∈R的k个上位概念c1,c2,…,ck,应用步骤S10计算k个上位概念的注意力分值si c1 , si c2,…, si ck,再计算k个上位概念的注意力分值的均值,
Figure 888402DEST_PATH_IMAGE035
得到面向角色的注意力分值;以所述面向角色的注意力分值作为权重,对隐层嵌入向量中所有聚合多阶特征进行加权求和,得到面向角色的嵌入,
Figure 491422DEST_PATH_IMAGE036
S12:将所述实例嵌入和面向角色的嵌入作为分类器的输入,估计给定实例嵌入的条件下,元素角色的概率,
Figure 134893DEST_PATH_IMAGE037
其中,
Figure 532376DEST_PATH_IMAGE038
表示元素角色向量空间R中的一个元素角色的嵌入,
Figure 261298DEST_PATH_IMAGE039
表示该候选实体词面向元素角色
Figure 340112DEST_PATH_IMAGE038
的嵌入;
目标函数为:
Figure 900406DEST_PATH_IMAGE040
在一些具体的实施例中,图1是本申请实施例提出的自动非结构化文本事件抽取方法的流程图,如图1所示,包括以下步骤:
非结构化文本数据预处理:由于文本输入的原始数据大部分是来自网络,表述结构规整的数据比较少,因此需要对数据做一些清洗工作,包括但不限于去停用词,去html标签等;
文本分词、词性标签及实体类型生成与编码:使用Hanlp中文自然语言处理工具对清洗后的文本进行分词,获得每个分词token的词性以及所有命名实体的实体类型,并随机初始化为向量,向量长度为相应类型的种类数量;
文本特征提取网络:将上述词向量、词性向量和实体类型向量拼接,送入到Bi-LSTM网络提取高维的词嵌入特征;
多阶图注意力卷积网络:将不同阶的句法树邻接矩阵以及其转置和自环矩阵送入图卷积网络,然后使用注意力机制聚合不同阶的特征,得到融入了句法结构信息的高维词嵌入;
触发词类型分类器(事件类型分类器):将上一步的词嵌入送入线性分类器得到当词片段属于每个事件类别的逻辑值,再经过softmax层转换成相应的概率值,取概率值最高者为事件类型判定结果;
动态多池化层:对于每一个事件论元候选词,都会和上一步骤识别出的触发词一起,将所在文本句子划分成三部分,分别对每段进行池化运算,再将三部分池化结果进行拼接,得到候选论元的实例嵌入;
上位概念模块:为每一种事件论元设计一个上位概念编码网络(SCM),并使用注意力机制将编码结果与候选论元的词嵌入与SCM编码结果聚合,得到融合了上位概念的词嵌入表示;
论元角色分类器:将前两步骤的实例嵌入融合上位概念的词嵌入表示聚合,再送入线性分类器,得到当前候选论元属于每种论元角色的概率值,取值最高者为论元角色识别结果。
本发明还公开一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任意实施例中的非结构化文本事件抽取方法的步骤。
在一些实施例中,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.非结构化文本事件抽取方法,其特征在于,所述方法包括:
触发词分类阶段
S1:非结构化文本数据预处理,再对数据预处理后的非结构化文本进行文本的切分与分词,得到切分后的文本片段,再将文本片段进一步分割成单个词片段;
S2:通过查表的方式将分割好的单个词片段,转化成空间向量表示的词向量表示;实体类型编码向量、词性标签编码向量和位置标签编码向量是根据确定的维度随机初始化得到的;
实体类型编码向量、词性标签编码向量和位置标签编码向量的每个元素是随机值;
S3:将所述词向量表示、实体类型编码向量、词性标签编码向量和位置标签编码向量,按每个词的维度方向进行拼接,得到文本句子的原始特征表示;
S4:将所述原始特征表示输入文本特征提取网络,得到文本的深度特征表示;
S5:将所述深度特征表示输入多阶图注意力卷积网络,得到多阶句法的特征表示向量;
S6:应用注意力机制聚合所述多阶句法的特征表示向量,得到聚合多阶特征;
S7:应用一个全连接层网络对所述聚合多阶特征进行分类,得到当前词片段属于每种事件类别的概率值;
事件论元角色分类阶段
S8:将句子的词级别序列的聚合多阶特征拼接成隐层嵌入向量;
S9:应用动态多池化层作为特征聚合器,将所述隐层嵌入向量聚合,得到实例嵌入;
S10:对于特定的上位概念,使用可训练的上位概念向量表示其语义特征;采用了多层感知机来计算注意力分值;
S11:定义一个元素角色的k个上位概念,应用步骤S10计算k个上位概念的注意力分值,再计算k个上位概念的注意力分值的均值,得到面向角色的注意力分值;以所述面向角色的注意力分值作为权重,对隐层嵌入向量中所有隐层嵌入进行加权求和,得到面向角色的嵌入;
S12:将所述实例嵌入和面向角色的嵌入作为分类器的输入,估计给定实例嵌入的条件下,元素角色的概率。
2.根据权利要求1所述的非结构化文本事件抽取方法,其特征在于,所述文本特征提取网络采用双向长短时间记忆网络构建。
3.根据权利要求1所述的非结构化文本事件抽取方法,其特征在于,所述多阶句法的特征表示向量的具体计算方法为:
根据句法依存树路径的邻接矩阵A可以表示成第一阶句法图;邻接矩阵A可以得到其三个变换矩阵,分别是Aalong、Arev和Aloop;如果词片段wi和wj之间存在句法连接弧,那么Aalong(i,j)=1, 否则为0;而逆转矩阵Arev=AT along,Aloop是单位矩阵;k阶邻接矩阵Ak subg的三个变换矩阵分别表示为A k along、 Ak rev和A k loop;将所述深度特征表示和所述k阶邻接矩阵Ak subg输入图注意力卷积网络,得到多阶句法的特征表示向量h i k
4.根据权利要求3所述的非结构化文本事件抽取方法,其特征在于,所述将所述深度特征表示和所述k阶邻接矩阵Ak subg输入图注意力卷积网络,得到多阶句法的特征表示向量的具体计算方法为:
Figure 629010DEST_PATH_IMAGE001
其中,ak为A k along,bk为Ak rev,ck为A k loop,⊕表示按元素相加,f(•)是图注意力网络层,公式如下:
Figure 297888DEST_PATH_IMAGE002
σ是指数线性激活函数,Wa,k
Figure 855034DEST_PATH_IMAGE003
是指分别需要学习的权重矩阵和偏置项,pi和pj为文本的深度特征表示,
Figure 609363DEST_PATH_IMAGE004
表示矩阵A k along中以节点(i, j)为索引位置的值,uij是在更新wi时,其相邻节点wj的归一化权重。
5.根据权利要求4所述的非结构化文本事件抽取方法,其特征在于,所述uij的具体计算方法为:
Figure 408692DEST_PATH_IMAGE005
Ni是词片段wi在子图中的相邻节点集合;
eij=γ(Wcomb [Watt pi ||Watt pj]);
其中γ代表LeakyReLU非线性激活函数,Wcomb和Watt是需要学习的权重矩阵。
6.根据权利要求3所述的非结构化文本事件抽取方法,其特征在于,所述k∈[1,K],其中K是一个人工超参,表示需要学习的最高阶数。
7.根据权利要求3所述的非结构化文本事件抽取方法,其特征在于,所述应用注意力机制聚合所述多阶句法的特征表示向量,得到聚合多阶特征h i 的具体方法为:
Figure 994394DEST_PATH_IMAGE006
其中v i k 是词片段w i 的第k阶句法图特征表示。
8.根据权利要求7所述的非结构化文本事件抽取方法,其特征在于,所述v i k 的具体计算方法为:
Figure 424239DEST_PATH_IMAGE007
其中
Figure 728181DEST_PATH_IMAGE008
是hi j经过非线性激活层的句法特征聚合向量,计算公式为
Figure 567086DEST_PATH_IMAGE009
,Wawa
Figure 210557DEST_PATH_IMAGE010
分别是待学习的权重和偏置项,ctx是一个用来学习每阶图表示重要性的随机初始化的文本向量,hi j表示第i个词片段的第j阶句法的特征表示向量。
9.根据权利要求8所述的非结构化文本事件抽取方法,其特征在于,所述应用注意力机制聚合所述多阶句法的特征表示向量,对于每一组触发词-论元对,触发词和论元会将文本段划分成三部分,由于触发词和论元的位置是非固定的,因此对这三段文本段的池化计算是动态的,池化具体计算方法为:
Figure 608040DEST_PATH_IMAGE011
其中,[•] i表示一个向量的第i个值,向量的下标表示词片段的位置索引,pt,pa分别表示触发词t和候选论元a的位置,如pt+1表示触发词t的下一个词片段的位置,pa+1表示候选论元a的下一个词片段的位置,而
Figure 336962DEST_PATH_IMAGE012
表示x中的起始位置到索引为pt 位置之间的词片段,
Figure 478093DEST_PATH_IMAGE013
表示x中的索引为pt+1位置到索引为pa位置之间的词片段,
Figure 38388DEST_PATH_IMAGE014
表示x中的索引为pa+1位置到索引为n位置之间的词片段,max{}表示取括号中向量的最大值,[; ;]表示将三个向量按行拼接,拼接后得到新的句子特征x;h1……hn得到的方式同权利要求8所述的聚合多阶特征hi的方法。
10.根据权利要求7所述的非结构化文本事件抽取方法,其特征在于,所述采用了多层感知机来计算注意力分值的具体方法为:
应用所述上位概念向量和所述隐层嵌入向量中的聚合多阶特征计算得到隐层状态向量;再应用softmax计算隐层状态向量中的隐层状态的注意力分值。
CN202110934216.5A 2021-08-16 2021-08-16 非结构化文本事件抽取方法 Active CN113407660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110934216.5A CN113407660B (zh) 2021-08-16 2021-08-16 非结构化文本事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110934216.5A CN113407660B (zh) 2021-08-16 2021-08-16 非结构化文本事件抽取方法

Publications (2)

Publication Number Publication Date
CN113407660A CN113407660A (zh) 2021-09-17
CN113407660B true CN113407660B (zh) 2021-12-14

Family

ID=77688571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110934216.5A Active CN113407660B (zh) 2021-08-16 2021-08-16 非结构化文本事件抽取方法

Country Status (1)

Country Link
CN (1) CN113407660B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946681B (zh) * 2021-12-20 2022-03-29 军工保密资格审查认证中心 文本数据的事件抽取方法、装置、电子设备及可读介质
CN114492377B (zh) * 2021-12-30 2024-04-16 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN114298053B (zh) * 2022-03-10 2022-05-24 中国科学院自动化研究所 一种基于特征和注意力机制融合的事件联合抽取系统
CN116757159B (zh) * 2023-08-15 2023-10-13 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及系统
CN117521639B (zh) * 2024-01-05 2024-04-02 湖南工商大学 一种结合学术文本结构的文本检测方法
CN117807191B (zh) * 2024-02-29 2024-05-24 船舶信息研究中心(中国船舶集团有限公司第七一四研究所) 一种基于知识图谱的非结构化数据检索方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693244B (zh) * 2011-03-23 2015-04-01 日电(中国)有限公司 用于识别非结构化文本中的信息的方法和装置
CN104199933B (zh) * 2014-09-04 2017-07-07 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105677873B (zh) * 2016-01-11 2019-03-26 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN108280173B (zh) * 2018-01-22 2021-05-11 深圳市和讯华谷信息技术有限公司 一种非结构化文本的关键信息挖掘方法、介质及设备
EP3764243B1 (en) * 2019-07-09 2023-11-29 ABB Schweiz AG An industrial information identification and retrieval system

Also Published As

Publication number Publication date
CN113407660A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113407660B (zh) 非结构化文本事件抽取方法
CN109783818B (zh) 一种企业行业分类方法
Vateekul et al. A study of sentiment analysis using deep learning techniques on Thai Twitter data
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
WO2022088444A1 (zh) 一种面向多任务语言模型的元-知识微调方法及平台
EP4009219A1 (en) Analysis of natural language text in document using hierarchical graph
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN112163416A (zh) 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN110263325B (zh) 中文分词系统
CN113641819B (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN107797987A (zh) 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN111985548A (zh) 一种标签引导的跨模态深度哈希方法
CN117851591A (zh) 一种基于bigbird和图注意力网络的多标签长文本分类方法
CN112905793A (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN117009516A (zh) 换流站故障策略模型训练方法、推送方法及装置
Zhang et al. Japanese sentiment classification with stacked denoising auto-encoder using distributed word representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant