CN114880491A - 一种事理图谱自动构建方法和系统 - Google Patents

一种事理图谱自动构建方法和系统 Download PDF

Info

Publication number
CN114880491A
CN114880491A CN202210801439.9A CN202210801439A CN114880491A CN 114880491 A CN114880491 A CN 114880491A CN 202210801439 A CN202210801439 A CN 202210801439A CN 114880491 A CN114880491 A CN 114880491A
Authority
CN
China
Prior art keywords
event
pair
events
vector
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210801439.9A
Other languages
English (en)
Other versions
CN114880491B (zh
Inventor
张文斌
曾俊瑀
贾显伏
程尧
周建行
辛洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunfu Technology Beijing Co ltd
Original Assignee
Yunfu Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunfu Technology Beijing Co ltd filed Critical Yunfu Technology Beijing Co ltd
Priority to CN202210801439.9A priority Critical patent/CN114880491B/zh
Publication of CN114880491A publication Critical patent/CN114880491A/zh
Application granted granted Critical
Publication of CN114880491B publication Critical patent/CN114880491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种事理图谱自动构建方法和系统。其中,方法包括:采用基于深度学习网络改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,并得到事件集合和因果关系事件对集合;对事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,并得到两两事件的相似程度;根据两两事件的相似程度,对事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。本发明提出的方案,可大幅提高事件及其因果关系的抽取准确率;可大幅提高事件相似度计算的准确率。

Description

一种事理图谱自动构建方法和系统
技术领域
本发明属于事理图谱领域,尤其涉及一种事理图谱自动构建方法和系统。
背景技术
事件是人类社会中一个非常重要的概念,人类社会的许多活动往往都是由事件驱动的。事件之间的演化规律是一种十分有价值的知识,挖掘这种事理逻辑知识对我们认识人类社会发展变化的规律具有非常重要的意义。事理图谱(Event Logic Graph,缩写ELG)是一个事理逻辑知识库,描述了事件之间的演化规律和模式,包括事件之间的顺承、因果、条件和上下位等关系,用于刻画和记录人类行为活动和事件客观演化规律。结构上,事理图谱是一个有向有环图,其中节点代表事件,有向边代表事件之间的关系。
事理图谱可以从海量的非机构化数据中自动发现有价值的事件,并分析事件的来龙去脉、前因后果,对政治、经济、军事等多个领域中的事件风险预警、辅助决策等活动都具有非常重要的意义。
事理图谱属于业界非常前沿的领域,研究者少、模块繁多、工程庞大、效果较差,缺乏一套精准高效的事理图谱自动构建方法。
现有技术缺点
现有事理图谱相关技术普遍存在如下问题:
1. 技术落后,没有将深度学习的最新成果应用起来;
2. 事件抽取和事件因果关系抽取是分阶段进行的,普遍存在错误级联、准确率低、速度慢等问题。
发明内容
为解决上述技术问题,本发明提出一种事理图谱自动构建方法的技术方案,以解决上述技术问题。
本发明第一方面公开了一种事理图谱自动构建方法;所述方法包括:
步骤S1、采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;
步骤S2、采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,再根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合;
步骤S3、通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,再通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度;
步骤S4、通过因果关系事件对集合,构建事理图谱的初始版本;根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。
根据本发明第一方面的方法,Transformer类预训练模型有L个Transformer层,所述文本编码模型是在第k个Transformer层和第k+1个Transformer层之间引入触发词增强模块而得到的;在所述步骤S1中,所述采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码的方法包括:
句子经过所述Transformer类预训练模型的第k个Transformer层编码得到字符向量集合;
句子通过所述触发词增强模块的触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量,再将字符向量集合和所述融合后的触发词集合特征向量输入所述触发词增强模块的触发词增强层进行相加,得到触发词增强的字符向量集合;
将所述触发词增强的字符向量集合输入第k个Transformer层之后的其余L-k层,得到句子的语义向量;
所述触发词增强模块通过触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量的方法包括:
利用触发词词典找出句子中每个字符匹配的触发词集合,通过词向量模型word2vec将所述触发词集合映射为对应的触发词词向量集合;
将所述触发词词向量集合进行维度对齐;
将维度对齐后的触发词词向量求和平均后,得到融合后的触发词集合特征向量。
根据本发明第一方面的方法,在所述步骤S2中,所述采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列的方法包括:
所述事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列均采用统一的标注架构,接入一个softmax层进行标签预测,具体公式为:
Figure 344249DEST_PATH_IMAGE001
其中,ci、cj为句子中的任意2个字符,矩阵Wo和向量bo为神经网络模型的参数可通过训练得到,
Figure 963449DEST_PATH_IMAGE002
表示将字符对(ci,cj)通过序列标注模型标记为标签l的概率,
Figure DEST_PATH_IMAGE003
,取概率最大的标签作为标签预测的结果,h i,j 为字符对(ci,cj)的语义向量,
Figure 230483DEST_PATH_IMAGE004
,其中hi、hj分别为字符ci、cj的语义向量,矩阵Wp和向量bp为神经网络模型的参数可通过训练得到。
根据本发明第一方面的方法,在所述步骤S2中,所述标注架构的训练损失函数为融合Focal损失函数和Dice损失函数的优点,改进损失函数,具体公式为:
Figure DEST_PATH_IMAGE005
其中,E为事件标注序列,S为事件因果关系头标注序列,T为事件因果关系尾标注序列,n为字符序列的长度,
Figure 960541DEST_PATH_IMAGE006
为Dice损失函数的权重因子,
Figure DEST_PATH_IMAGE007
为Focal损失函数的权重因子,
Figure 363841DEST_PATH_IMAGE008
为Focal损失函数调节难分样本的损失比例的参数,
Figure DEST_PATH_IMAGE009
为字符对(ci,cj)在标注序列*中通过序列标注模型预测其标签值为1的概率,
Figure 153942DEST_PATH_IMAGE010
为字符对(ci,cj)在标注序列*的真实标签值。
根据本发明第一方面的方法,在所述步骤S2中,根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合的方法包括:
根据事件标注序列的标注结果,抽取出句子中所有的事件,得到事件的头尾字符位置对的集合ES,即事件集合;所述头尾字符位置对包括,事件头字符位置和事件尾字符位置;
从事件因果关系头标注序列中抽取出所有的关系头字符位置对的集合HS;所述关系头字符位置对包括:原因事件头字符位置和结果事件头字符位置;
从事件因果关系尾标注序列中抽取出所有的关系尾字符位置对的集合TS;所述关系尾字符位置对包括:原因事件尾字符位置和结果事件尾字符位置;
从抽取出的事件集合ES中两两枚举事件构成候选因果事件对集合PS;
对于所述PS中的每个候选因果事件对(C,E),如果所述候选因果事件对的头字符位置对,即C的头字符位置和E的头字符位置,在所述关系头字符位置对集合HS中,而且其尾字符位置对,即C的尾字符位置,E的尾字符位置在关系尾字符位置对集合TS中,则抽取出的所述候选因果事件对(C,E)是一个合法的因果事件对,所有合法的因果事件对构成因果关系事件对集合。
根据本发明第一方面的方法,在所述步骤S3中,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量的方法包括:
对于所述事件集合中的每个事件E,找出所述事件集合中所有与当前E的编辑距离不大于1的事件作为正样本,其余事件作为负样本,得到一个事件对集合;
对于所述事件对集合中的每个事件对,将当前事件对的两个事件的文本分别输入已构建的基于预训练模型的孪生网络,先通过预训练模型进行模型编码,再进行平均池化,分别得到两个事件的语义向量a和b;
将所述a和b拼接得到拼接向量a,b,然后将所述拼接向量a和b按元素求绝对差向量得到绝对差向量|a-b|,再将所述拼接向量a和b按元素乘得到乘积向量a*b,再将所述拼接向量a,b、绝对差向量|a-b|和乘积a*b拼接得到拼接语义向量a,b,|a-b|,a*b,即作为两个事件的语义向量,也是事件对的语义向量;
所述通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度的方法包括:
将所述两个事件的语义向量a,b,|a-b|,a*b输入softmax层,得到两两事件的相似程度;
所述孪生网络的训练损失函数为:
Figure DEST_PATH_IMAGE011
其中,m为事件对的数目,
Figure 908272DEST_PATH_IMAGE012
为Dice损失函数的权重因子,
Figure DEST_PATH_IMAGE013
为Focal损失函数的权重因子,
Figure 176442DEST_PATH_IMAGE014
为Focal损失函数调节难分样本的损失比例的参数,
Figure DEST_PATH_IMAGE015
为第i个事件对被模型预测为相似事件对的概率,
Figure 699827DEST_PATH_IMAGE016
为第i个事件对是否为相似事件对的真实标签值。
根据本发明第一方面的方法,在所述步骤S4中,所述通过因果关系事件对集合,构建事理图谱的初始版本的方法包括:
对事件集合中的每个事件,在事理图谱中创建一个对应的节点;对抽取到的因果关系事件对集合中的每个因果事件对,从原因事件节点连一条有向边到结果事件节点,代表因果关系;构建事理图谱的初始版本;
所述根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱的方法包括:
将所述事件集合中的每个事件的语义向量采用ScaNN算法构建其向量索引;
对每个事件E,通过ScaNN算法在向量索引中搜索出所有与其语义相似度高于0.92的事件集合S,认为是与E高度相似的事件,将S中的所有事件对应的节点合并到E对应的节点,得到最终版本的事理图谱。
本发明第二方面公开了一种事理图谱自动构建系统;所述系统包括:
第一处理模块,被配置为,采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;
第二处理模块,被配置为,采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,再根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合;
第三处理模块,被配置为,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,再通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度;
第四处理模块,被配置为,通过因果关系事件对集合,构建事理图谱的初始版本;根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。
根据本发明第二方面的系统,第一处理模块,被配置为,Transformer类预训练模型有L个Transformer层,所述文本编码模型是在第k个Transformer层和第k+1个Transformer层之间引入触发词增强模块而得到的;
所述采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码包括:
句子经过所述Transformer类预训练模型的第k个Transformer层编码得到字符向量集合;
句子通过所述触发词增强模块的触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量,再将字符向量集合和所述融合后的触发词集合特征向量输入所述触发词增强模块的触发词增强层进行相加,得到触发词增强的字符向量集合;
将所述触发词增强的字符向量输入第k个Transformer层之后的其余L-k层,得到句子的语义向量;
所述触发词增强模块通过触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量包括:
利用触发词词典找出句子中每个字符匹配的触发词集合,通过词向量模型word2vec将所述触发词集合映射为对应的触发词词向量集合;
将所述触发词词向量集合进行维度对齐;
将维度对齐后的触发词词向量求和平均后,得到融合后的触发词集合特征向量。
根据本发明第二方面的系统,第二处理模块,被配置为,所述采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列包括:
所述事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列均采用统一的标注架构,接入一个softmax层进行标签预测,具体公式为:
Figure DEST_PATH_IMAGE017
其中,ci、cj为句子中的任意2个字符,矩阵Wo和向量bo为神经网络模型的参数可通过训练得到,
Figure 660830DEST_PATH_IMAGE018
表示将字符对(ci,cj)通过序列标注模型标记为标签l的概率,
Figure 636876DEST_PATH_IMAGE019
,取概率最大的标签作为标签预测的结果,h i,j 为字符对(ci,cj)的语义向量,
Figure 177579DEST_PATH_IMAGE020
,其中hi、hj分别为字符ci、cj的语义向量,矩阵Wp和向量bp为神经网络模型的参数可通过训练得到。
根据本发明第二方面的系统,第二处理模块,被配置为,所述标注架构的训练损失函数为融合Focal损失函数和Dice损失函数的优点,改进损失函数,具体公式为:
Figure 352208DEST_PATH_IMAGE005
其中,E为事件标注序列,S为事件因果关系头标注序列,T为事件因果关系尾标注序列,n为字符序列的长度,
Figure 687375DEST_PATH_IMAGE021
为Dice损失函数的权重因子,
Figure 416296DEST_PATH_IMAGE022
为Focal损失函数的权重因子,
Figure 495111DEST_PATH_IMAGE023
为Focal损失函数调节难分样本的损失比例的参数,
Figure 524247DEST_PATH_IMAGE024
为字符对(ci,cj)在标注序列*中通过序列标注模型预测其标签值为1的概率,
Figure 30314DEST_PATH_IMAGE025
为字符对(ci,cj)在标注序列*的真实标签值。
根据本发明第二方面的系统,第二处理模块,被配置为,根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合的方法包括:
根据事件标注序列的标注结果,抽取出句子中所有的事件,得到事件的头尾字符位置对的集合ES,即事件集合;所述头尾字符位置对包括,事件头字符位置和事件尾字符位置;
从事件因果关系头标注序列中抽取出所有的关系头字符位置对的集合HS;所述关系头字符位置对包括:原因事件头字符位置和结果事件头字符位置;
从事件因果关系尾标注序列中抽取出所有的关系尾字符位置对的集合TS;所述关系尾字符位置对包括:原因事件尾字符位置和结果事件尾字符位置;
从抽取出的事件集合ES中两两枚举事件构成候选因果事件对集合PS;
对于所述PS中的每个候选因果事件对(C,E),如果所述候选因果事件对的头字符位置对,即C的头字符位置和E的头字符位置,在所述关系头字符位置对集合HS中,而且其尾字符位置对,即C的尾字符位置,E的尾字符位置在关系尾字符位置对集合TS中,则抽取出的所述候选因果事件对(C,E)是一个合法的因果事件对,所有合法的因果事件对构成因果关系事件对集合。
根据本发明第二方面的系统,第三处理模块,被配置为,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量包括:
对于所述事件集合中的每个事件E,找出所述事件集合中所有与当前E的编辑距离不大于1的事件作为正样本,其余事件作为负样本,得到一个事件对集合;
对于所述事件对集合中的每个事件对,将当前事件对的两个事件的文本分别输入已构建的基于预训练模型的孪生网络,先通过预训练模型进行模型编码,再进行平均池化,分别得到两个事件的语义向量a和b;
将所述a和b拼接得到拼接向量a,b,然后将所述拼接向量a和b按元素求绝对差向量得到拼接向量|a-b|,再将所述拼接向量a和b按元素乘得到乘积向量a*b,再将所述拼接向量a,b、绝对差向量|a-b|和乘积向量a*b拼接得到拼接语义向量a,b,|a-b|,a*b,即作为两个事件的语义向量,也是事件对的语义向量;
其中,
拼接向量为a,b;
绝对差向量为|a-b|;
乘积向量为a*b;
拼接语义向量且a,b,|a-b|,a*b。
所述通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度包括:
将所述两个事件的语义向量a,b,|a-b|,a*b输入softmax层,得到两两事件的相似程度;
所述孪生网络的训练损失函数为:
Figure 246532DEST_PATH_IMAGE026
其中,m为事件对的数目,
Figure 129037DEST_PATH_IMAGE027
为Dice损失函数的权重因子,
Figure 12680DEST_PATH_IMAGE028
为Focal损失函数的权重因子,
Figure 955228DEST_PATH_IMAGE029
为Focal损失函数调节难分样本的损失比例的参数,
Figure 393163DEST_PATH_IMAGE030
为第i个事件对被模型预测为相似事件对的概率,
Figure 813780DEST_PATH_IMAGE031
为第i个事件对是否为相似事件对的真实标签值。
根据本发明第二方面的系统,第四处理模块,被配置为,所述通过因果关系事件对集合,构建事理图谱的初始版本包括:
对事件集合中的每个事件,在事理图谱中创建一个对应的节点;对抽取到的因果关系事件对集合中的每个因果事件对,从原因事件节点连一条有向边到结果事件节点,代表因果关系;构建事理图谱的初始版本;
所述根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱的方法包括:
将所述事件集合中的每个事件的语义向量采用ScaNN算法构建其向量索引;
对每个事件E,通过ScaNN算法在向量索引中搜索出所有与其语义相似度高于0.92的事件集合S,认为是与E高度相似的事件,将S中的所有事件对应的节点合并到E对应的节点,得到最终版本的事理图谱。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种事理图谱自动构建方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种事理图谱自动构建方法中的步骤。
本发明提出的方案,
1. 触发词增强的文本编码,可有效融合事件触发词词典的信息,可大幅提高事件及其因果关系的抽取准确率。
2. 事件及其因果关系的单个阶段联合抽取,可避免错误级联,可大幅提高事件及其因果关系的抽取准确率。
3. 基于对比学习的事件向量表示,可有效表示事件的语义,可大幅提高事件相似度计算的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种事理图谱自动构建方法的流程图;
图2为根据本发明实施例的事理图谱自动构建方法的流程图;
图3为根据本发明实施例的采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码的架构图;
图4为根据本发明实施例的事件及其因果关系联合抽取的示意图;
图5为根据本发明实施例的基于对比学习的事件向量学习的方法,得到事件对的语义向量,在通过所述事件对的语义向量,判断两个事件是否相似的示意图;
图6为根据本发明实施例的事件聚合的示意图;
图7为根据本发明实施例的事理图谱构具体实施例示意图;
图8为根据本发明实施例的一种事理图谱自动构建系统的结构图;
图9为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
实施例1:
本发明公开了一种事理图谱自动构建方法。图1为根据本发明实施例的一种事理图谱自动构建方法的流程图,如图1和图2所示,所述方法包括:
步骤S1、采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;
步骤S2、采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,再根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合;
步骤S3、通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,再通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度;
步骤S4、通过因果关系事件对集合,构建事理图谱的初始版本;根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。
在步骤S1,采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量。
在一些具体的实施例中个,句子可以是中文句子。
在一些实施例中,在所述步骤S1中,如图3所示,基于Transformer类预训练模型有L个Transformer层;所述文本编码模型是在第k个Transformer层和第k+1个Transformer层之间,引入触发词增强模块二得到的;所述采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码的方法包括:
句子经过所述基于Transformer类预训练模型的第k个Transformer层编码得到字符向量集合;
所述触发词增强模块通过触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量,再将字符向量和所述融合后的触发词集合特征向量输入所述触发词增强模块的触发词增强层进行相加,得到触发词增强的字符向量;
将所述触发词增强的字符向量输入第k个Transformer层之后的其余L-k层,得到句子的语义向量;
所述触发词增强模块通过触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量的方法包括:
利用触发词词典找出句子中每个字符匹配的触发词集合,通过词向量模型word2vec将所述触发词集合映射为对应的触发词词向量集合;
将所述触发词词向量集合进行维度对齐;
将维度对齐后的触发词词向量求和平均后,得到融合后的触发词集合特征向量。
具体地,给定一个句子S={c1,c2,…,cn},其中ci是句子S的第i个字符;
基于Transformer类预训练模型有L个Transformer层;
在第k个Transformer层和第k+1个Transformer层之间,引入触发词增强模块;
句子经过所述基于Transformer类预训练模型的第k个Transformer层编码得到字符向量集合,Hk={hi k,h2 k,…,hn k};
所述触发词增强模块利用触发词词典找出句子中每个字符匹配的触发词集合,设字符ci匹配到的触发词集合为{wi1,wi2,…,wim},通过词向量模型word2vec将所述触发词集合映射为对应的触发词词向量集合,{xi1,xi2,…,xim};将所述触发词词向量集合进行维度对齐,公式为,
Figure 817508DEST_PATH_IMAGE032
将维度对齐后的触发词词向量求和平均后,得到融合后的触发词集合特征向量,
Figure 665378DEST_PATH_IMAGE033
再将字符向量和所述融合后的触发词集合特征向量输入所述触发词增强模块的触发词增强层进行相加,得到触发词增强的字符向量集合;
Figure 590609DEST_PATH_IMAGE034
将所述触发词增强的字符向量集合输入第k个Transformer层之后的其余L-k层,得到句子的语义向量H={hi,h2,…,hn}。
在步骤S2,采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,再根据标注后事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合。
在一些实施例中,在所述步骤S2中,所述采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列的方法包括:
所述事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列均采用统一的标注架构,接入一个softmax层进行标签预测,具体公式为:
Figure 814917DEST_PATH_IMAGE035
其中,ci、cj为句子中的任意2个字符,矩阵Wo和向量bo为神经网络模型的参数可通过训练得到,
Figure 673151DEST_PATH_IMAGE036
表示将字符对(ci,cj)通过序列标注模型标记为标签l的概率,
Figure 957502DEST_PATH_IMAGE019
,取概率最大的标签作为标签预测的结果,h i,j 为字符对(ci,cj)的语义向量,
Figure 370029DEST_PATH_IMAGE037
,其中hi、hj分别为字符ci、cj的语义向量,矩阵Wp和向量bp为神经网络模型的参数可通过训练得到。
所述标注架构的训练损失函数为融合Focal损失函数和Dice损失函数的优点,改进损失函数,具体公式为:
Figure 132448DEST_PATH_IMAGE005
其中,E为事件标注序列,S为事件因果关系头标注序列,T为事件因果关系尾标注序列,n为字符序列的长度,
Figure 845190DEST_PATH_IMAGE038
为Dice损失函数的权重因子,
Figure 300442DEST_PATH_IMAGE039
为Focal损失函数的权重因子,
Figure 200265DEST_PATH_IMAGE023
为Focal损失函数调节难分样本的损失比例的参数,
Figure 766375DEST_PATH_IMAGE040
为字符对(ci,cj)在标注序列*中通过序列标注模型预测其标签值为1的概率,
Figure 333623DEST_PATH_IMAGE041
为字符对(ci,cj)在标注序列*的真实标签值。
根据标注后事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合的方法包括:
根据事件标注序列的标注结果,抽取出句子中所有的事件,得到事件的头尾字符位置对的集合ES,即事件集合;所述头尾字符位置对包括,事件头字符位置和事件尾字符位置;
从事件因果关系头标注序列中抽取出所有的关系头字符位置对的集合HS;所述关系头字符位置对包括:原因事件头字符位置和结果事件头字符位置;
从事件因果关系尾标注序列中抽取出所有的关系尾字符位置对的集合TS;所述关系尾字符位置对包括:原因事件尾字符位置和结果事件尾字符位置;
从抽取出的事件集合ES中两两枚举事件构成候选因果事件对集合PS;
对于所述PS中的每个候选因果事件对(C,E),如果所述候选因果事件对的头字符位置对,即C的头字符位置和E的头字符位置,在所述关系头字符位置对集合HS中,而且其尾字符位置对,即C的尾字符位置,E的尾字符位置在关系尾字符位置对集合TS中,则抽取出的所述候选因果事件对(C,E)是一个合法的因果事件对,所有合法的因果事件对构成因果关系事件对集合。
具体地,如图4所示,首先为句子S构建字符对序列P={(ci,cj)};
定义三个标注序列:事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列;
事件标注序列E={ei,j},ei,j=1表示以ci开始并以cj结束构成的字符序列构成了一个事件;
事件因果关系头标注序列S={si,j},si,j=1表示ci和cj分别是一个因果关系事件对中原因事件和结果事件的头字符;
事件因果关系尾标注序列T={ti,j},ti,j=1表示ci和cj分别是一个因果关系事件对中原因事件和结果事件的尾字符;
所述事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列均采用统一的标注架构,接入一个softmax层进行标签预测,具体公式为:
Figure 959776DEST_PATH_IMAGE042
其中,ci、cj为句子中的任意2个字符,矩阵Wo和向量bo为神经网络模型的参数可通过训练得到,
Figure 346895DEST_PATH_IMAGE043
表示将字符对(ci,cj)通过序列标注模型标记为标签l的概率,
Figure 451117DEST_PATH_IMAGE044
,取概率最大的标签作为标签预测的结果,h i,j 为字符对(ci,cj)的语义向量,
Figure 138451DEST_PATH_IMAGE045
,其中hi、hj分别为字符ci、cj的语义向量,矩阵Wp和向量bp为神经网络模型的参数可通过训练得到。
由于在三个序列标注任务中都存在0标签很多、1标签很少的标签不平衡的情况,为缓解这种标签不平衡现象,所述标注架构的训练损失函数融合Focal损失函数和Dice损失函数的优点,改进损失函数,具体公式为:
Figure 935505DEST_PATH_IMAGE046
其中,E为事件标注序列,S为事件因果关系头标注序列,T为事件因果关系尾标注序列,n为字符序列的长度,
Figure 544341DEST_PATH_IMAGE047
为Dice损失函数的权重因子,
Figure 248992DEST_PATH_IMAGE048
为Focal损失函数的权重因子,
Figure 259673DEST_PATH_IMAGE049
为Focal损失函数调节难分样本的损失比例的参数,
Figure 227629DEST_PATH_IMAGE050
为字符对(ci,cj)在标注序列*中通过序列标注模型预测其标签值为1的概率,
Figure 323761DEST_PATH_IMAGE051
为字符对(ci,cj)在标注序列*的真实标签值。
根据事件标注序列的标注结果,抽取出中文句子中所有的事件,得到事件的头尾字符位置对的集合ES,即事件集合;所述头尾字符位置对包括,事件头字符位置和事件尾字符位置;
从事件因果关系头标注序列中抽取出所有的关系头字符位置对的集合HS;所述关系头字符位置对包括:原因事件头字符位置和结果事件头字符位置;
从事件因果关系尾标注序列中抽取出所有的关系尾字符位置对的集合TS;所述关系尾字符位置对包括:原因事件尾字符位置和结果事件尾字符位置;
从抽取出的事件集合ES中两两枚举事件构成候选因果事件对集合PS;
对于所述PS中的每个候选因果事件对(C,E),如果所述候选因果事件对的头字符位置对,即C的头字符位置和E的头字符位置,在所述关系头字符位置对集合HS中,而且其尾字符位置对,即C的尾字符位置,E的尾字符位置在关系尾字符位置对集合TS中,则抽取出的所述候选因果事件对(C,E)是一个合法的因果事件对,得到因果关系事件对集合。
在步骤S3,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,在通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度。
在一些实施例中,在所述步骤S3中,如图5所示,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量的方法包括:
对于所述事件集合中的每个事件E,找出所述事件集合中所有与当前E的编辑距离不大于1的事件作为正样本,其余事件作为负样本,得到一个事件对集合;
构建一个基于预训练模型的孪生网络,其网络权重共享,其模型架构图如图5所示;
对于所述事件对集合中的每个事件对,将当前事件对的两个事件的文本分别输入已构建的基于预训练模型的孪生网络,先通过预训练模型进行模型编码,再进行平均池化,分别得到两个事件的语义向量a和b;
将所述a和b拼接得到拼接向量a,b,然后将所述拼接向量a和b按元素求绝对差向量得到绝对差向量|a-b|,再将所述拼接向量a和b按元素乘得到乘积向量a*b,再将所述拼接向量a,b、绝对差向量|a-b|和乘积向量a*b拼接得到拼接语义向量a,b,|a-b|,a*b,即作为两个事件的语义向量,也是事件对的语义向量;
所述通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度的方法包括:
将所述两个事件的语义向量a,b,|a-b|,a*b输入softmax层,得到两两事件的相似程度;
Figure 300945DEST_PATH_IMAGE052
所述孪生网络的训练损失函数为:
Figure 431712DEST_PATH_IMAGE053
其中,m为事件对的数目,
Figure 570569DEST_PATH_IMAGE054
为Dice损失函数的权重因子,
Figure 153997DEST_PATH_IMAGE055
为Focal损失函数的权重因子,
Figure 934871DEST_PATH_IMAGE056
为Focal损失函数调节难分样本的损失比例的参数,
Figure 920145DEST_PATH_IMAGE057
为第i个事件对被模型预测为相似事件对的概率,
Figure 229903DEST_PATH_IMAGE058
为第i个事件对是否为相似事件对的真实标签值。
在步骤S4,通过因果关系事件对集合,构建事理图谱的初始版本;根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。
在一些实施例中,在所述步骤S4中,如图6所示,所述通过因果关系事件对集合,构建事理图谱的初始版本的方法包括:
对事件集合中的每个事件,在事理图谱中创建一个对应的节点;对抽取到的因果关系事件对集合中的每个因果事件对,从原因事件节点连一条有向边到结果事件节点,代表因果关系;构建事理图谱的初始版本;
所述根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱的方法包括:
将所述事件集合中的每个事件的语义向量采用ScaNN算法构建其向量索引;
对每个事件E,通过ScaNN算法在向量索引中搜索出所有与其语义相似度高于0.92的事件集合S,认为是与E高度相似的事件,将S中的所有事件对应的节点合并到E对应的节点,得到最终版本的事理图谱。
综上,本发明提出的方案能够
1. 触发词增强的文本编码,可有效融合事件触发词词典的信息,可大幅提高事件及其因果关系的抽取准确率。
2. 事件及其因果关系的单个阶段联合抽取,可避免错误级联,可大幅提高事件及其因果关系的抽取准确率。
3. 基于对比学习的事件向量表示,可有效表示事件的语义,可大幅提高事件相似度计算的准确率。
实施例2:接下来以两个句子组成的文本集合为例构建一个事理图谱样例,如图7所示。给定一个文本集合:{“货币超发会引起通货膨胀”,“房价上涨的原因归结为货币放水”}。
从文本“货币超发会引起通货膨胀”中抽取出事件{“货币超发”, “通货膨胀”},抽取出因果关系事件对{(“货币超发”, “通货膨胀”)};从文本“房价上涨的原因归结为货币放水”中抽取出事件{“房价上涨”, “货币放水”},抽取出因果关系事件对{(“货币放水”,“房价上涨”)}。
通过事件聚合模块,将高度相似事件“货币超发”和“货币放水”的节点进行合并。
最终构建得到一个事理图谱,显示“货币超发”事件会引起“通货膨胀”和“房价上涨”事件。
实施例3:
本发明公开了一种事理图谱自动构建系统。图8为根据本发明实施例的一种事理图谱自动构建系统的结构图;如图8所示,所述系统100包括:
第一处理模块101,被配置为,采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;
第二处理模块102,被配置为,采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,再根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合;
第三处理模块103,被配置为,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,再通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度;
第四处理模块104,被配置为,通过因果关系事件对集合,构建事理图谱的初始版本;根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。
根据本发明第二方面的系统,第一处理模块101,被配置为,Transformer类预训练模型有L个Transformer层,所述文本编码模型是在第k个Transformer层和第k+1个Transformer层之间引入触发词增强模块而得到的;
所述采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码包括:
句子经过所述Transformer类预训练模型的第k个Transformer层编码得到字符向量集合;
句子通过所述触发词增强模块的触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量,再将字符向量集合和所述融合后的触发词集合特征向量输入所述触发词增强模块的触发词增强层进行相加,得到触发词增强的字符向量集合;
将所述触发词增强的字符向量输入第k个Transformer层之后的其余L-k层,得到句子的语义向量;
所述触发词增强模块通过触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量包括:
利用触发词词典找出句子中每个字符匹配的触发词集合,通过词向量模型word2vec将所述触发词集合映射为对应的触发词词向量集合;
将所述触发词词向量集合进行维度对齐;
将维度对齐后的触发词词向量求和平均后,得到融合后的触发词集合特征向量。
根据本发明第二方面的系统,第二处理模块102,被配置为,所述采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列包括:
所述事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列均采用统一的标注架构,接入一个softmax层进行标签预测,具体公式为:
Figure 300628DEST_PATH_IMAGE059
其中,ci、cj为句子中的任意2个字符,矩阵Wo和向量bo为神经网络模型的参数可通过训练得到,
Figure 885193DEST_PATH_IMAGE060
表示将字符对(ci,cj)通过序列标注模型标记为标签l的概率,
Figure 724973DEST_PATH_IMAGE061
,取概率最大的标签作为标签预测的结果,h i,j 为字符对(ci,cj)的语义向量,
Figure 205633DEST_PATH_IMAGE062
,其中hi、hj分别为字符ci、cj的语义向量,矩阵Wp和向量bp为神经网络模型的参数可通过训练得到。
根据本发明第二方面的系统,第二处理模块102,被配置为,所述标注架构的训练损失函数为融合Focal损失函数和Dice损失函数的优点,改进损失函数,具体公式为:
Figure 498074DEST_PATH_IMAGE005
其中,E为事件标注序列,S为事件因果关系头标注序列,T为事件因果关系尾标注序列,n为字符序列的长度,
Figure 886330DEST_PATH_IMAGE063
为Dice损失函数的权重因子,
Figure 580616DEST_PATH_IMAGE064
为Focal损失函数的权重因子,
Figure 232177DEST_PATH_IMAGE065
为Focal损失函数调节难分样本的损失比例的参数,
Figure 277494DEST_PATH_IMAGE066
为字符对(ci,cj)在标注序列*中通过序列标注模型预测其标签值为1的概率,
Figure 215580DEST_PATH_IMAGE067
为字符对(ci,cj)在标注序列*的真实标签值。
根据本发明第二方面的系统,第二处理模块102,被配置为,根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合的方法包括:
根据事件标注序列的标注结果,抽取出句子中所有的事件,得到事件的头尾字符位置对的集合ES,即事件集合;所述头尾字符位置对包括,事件头字符位置和事件尾字符位置;
从事件因果关系头标注序列中抽取出所有的关系头字符位置对的集合HS;所述关系头字符位置对包括:原因事件头字符位置和结果事件头字符位置;
从事件因果关系尾标注序列中抽取出所有的关系尾字符位置对的集合TS;所述关系尾字符位置对包括:原因事件尾字符位置和结果事件尾字符位置;
从抽取出的事件集合ES中两两枚举事件构成候选因果事件对集合PS;
对于所述PS中的每个候选因果事件对(C,E),如果所述候选因果事件对的头字符位置对,即C的头字符位置和E的头字符位置,在所述关系头字符位置对集合HS中,而且其尾字符位置对,即C的尾字符位置,E的尾字符位置在关系尾字符位置对集合TS中,则抽取出的所述候选因果事件对(C,E)是一个合法的因果事件对,所有合法的因果事件对构成因果关系事件对集合。
根据本发明第二方面的系统,第三处理模块103,被配置为,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量包括:
对于所述事件集合中的每个事件E,找出所述事件集合中所有与E的编辑距离不大于1的事件作为正样本,其余事件作为负样本,得到一个事件对集合;
对于所述事件对集合中的每个事件对,将当前事件对的两个事件的文本分别输入已构建的基于预训练模型的孪生网络,先通过预训练模型进行模型编码,再进行平均池化,分别得到两个事件的语义向量a和b;
将所述a和b拼接得到拼接向量a,b,然后将所述拼接向量a和b按元素求绝对差向量得到拼接向量|a-b|,再将所述拼接向量a和b按元素乘得到乘积向量a*b,再将所述拼接向量a,b、绝对差向量|a-b|和乘积向量a*b拼接得到拼接语义向量a,b,|a-b|,a*b,即作为两个事件的语义向量,也是事件对的语义向量;
所述通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度包括:
将所述两个事件的语义向量a,b,|a-b|,a*b输入softmax层,得到两两事件的相似程度;
所述孪生网络的训练损失函数为:
Figure 764373DEST_PATH_IMAGE068
其中,m为事件对的数目,
Figure 852415DEST_PATH_IMAGE069
为Dice损失函数的权重因子,
Figure 119448DEST_PATH_IMAGE070
为Focal损失函数的权重因子,
Figure 583928DEST_PATH_IMAGE071
为Focal损失函数调节难分样本的损失比例的参数,
Figure 252806DEST_PATH_IMAGE072
为第i个事件对被模型预测为相似事件对的概率,
Figure 511749DEST_PATH_IMAGE073
为第i个事件对是否为相似事件对的真实标签值。
根据本发明第二方面的系统,第四处理模块,被配置为,所述通过因果关系事件对集合,构建事理图谱的初始版本包括:
对事件集合中的每个事件,在事理图谱中创建一个对应的节点;对抽取到的因果关系事件对集合中的每个因果事件对,从原因事件节点连一条有向边到结果事件节点,代表因果关系;构建事理图谱的初始版本;
所述根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱的方法包括:
将所述事件集合中的每个事件的语义向量采用ScaNN算法构建其向量索引;
对每个事件E,通过ScaNN算法在向量索引中搜索出所有与其语义相似度高于0.92的事件集合S,认为是与E高度相似的事件,将S中的所有事件对应的节点合并到E对应的节点,得到最终版本的事理图谱。
实施例4:
本发:公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开实施例1中任一项的一种事理图谱自动构建方法中的步骤。
图9为根据本发明实施例的一种电子设备的结构图,如图9所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例5:
本发明公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明的实施例1中任一项的一种事理图谱自动构建方法中的步骤中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种事理图谱自动构建方法,其特征在于,所述方法包括:
步骤S1、采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;
步骤S2、采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,再根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合;
步骤S3、通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,再通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度;
步骤S4、通过因果关系事件对集合,构建事理图谱的初始版本;根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。
2.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,Transformer类预训练模型有L个Transformer层,所述文本编码模型是在第k个Transformer层和第k+1个Transformer层之间引入触发词增强模块而得到的;
在所述步骤S1中,所述采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码的方法包括:
句子经过所述Transformer类预训练模型的第k个Transformer层编码得到字符向量集合;
句子通过所述触发词增强模块的触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量,再将字符向量集合和所述融合后的触发词集合特征向量输入所述触发词增强模块的触发词增强层进行相加,得到触发词增强的字符向量集合;
将所述触发词增强的字符向量集合输入第k个Transformer层之后的其余L-k层,得到句子的语义向量;
所述触发词增强模块通过触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量的方法包括:
利用触发词词典找出句子中每个字符匹配的触发词集合,通过词向量模型word2vec将所述触发词集合映射为对应的触发词词向量集合;
将所述触发词词向量集合进行维度对齐;
将维度对齐后的触发词词向量求和平均后,得到融合后的触发词集合特征向量。
3.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S2中,所述采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列的方法包括:
所述事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列均采用统一的标注架构,接入一个softmax层进行标签预测,具体公式为:
Figure 74576DEST_PATH_IMAGE001
其中,ci、cj为句子中的任意2个字符,矩阵Wo和向量bo为神经网络模型的参数可通过训练得到,
Figure 213433DEST_PATH_IMAGE002
表示将字符对(ci,cj)通过序列标注模型标记为标签l的概率,
Figure 796861DEST_PATH_IMAGE003
,取概率最大的标签作为标签预测的结果,h i,j 为字符对(ci,cj)的语义向量,
Figure 577735DEST_PATH_IMAGE004
,其中hi、hj分别为字符ci、cj的语义向量,矩阵Wp和向量bp为神经网络模型的参数可通过训练得到。
4.根据权利要求3所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S2中,所述标注架构的训练损失函数为融合Focal损失函数和Dice损失函数的优点,改进损失函数,具体公式为:
Figure 563009DEST_PATH_IMAGE005
其中,E为事件标注序列,S为事件因果关系头标注序列,T为事件因果关系尾标注序列,n为字符序列的长度,
Figure 872768DEST_PATH_IMAGE006
为Dice损失函数的权重因子,
Figure 943492DEST_PATH_IMAGE007
为Focal损失函数的权重因子,
Figure 528057DEST_PATH_IMAGE008
为Focal损失函数调节难分样本的损失比例的参数,
Figure 367837DEST_PATH_IMAGE009
为字符对(ci,cj)在标注序列*中通过序列标注模型预测其标签值为1的概率,
Figure 848497DEST_PATH_IMAGE010
为字符对(ci,cj)在标注序列*的真实标签值。
5.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S2中,根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合的方法包括:
根据事件标注序列的标注结果,抽取出句子中所有的事件,得到事件的头尾字符位置对的集合ES,即事件集合;所述头尾字符位置对包括,事件头字符位置和事件尾字符位置;
从事件因果关系头标注序列中抽取出所有的关系头字符位置对的集合HS;所述关系头字符位置对包括:原因事件头字符位置和结果事件头字符位置;
从事件因果关系尾标注序列中抽取出所有的关系尾字符位置对的集合TS;所述关系尾字符位置对包括:原因事件尾字符位置和结果事件尾字符位置;
从抽取出的事件集合ES中两两枚举事件构成候选因果事件对集合PS;
对于所述PS中的每个候选因果事件对(C,E),如果所述候选因果事件对的头字符位置对,即C的头字符位置和E的头字符位置,在所述关系头字符位置对集合HS中,而且其尾字符位置对,即C的尾字符位置,E的尾字符位置在关系尾字符位置对集合TS中,则抽取出的所述候选因果事件对(C,E)是一个合法的因果事件对,所有合法的因果事件对构成因果关系事件对集合。
6.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S3中,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量的方法包括:
对于所述事件集合中的每个事件E,找出所述事件集合中所有与当前E的编辑距离不大于1的事件作为正样本,其余事件作为负样本,得到一个事件对集合;
对于所述事件对集合中的每个事件对,将当前事件对的两个事件的文本分别输入已构建的基于预训练模型的孪生网络,先通过预训练模型进行模型编码,再进行平均池化,分别得到两个事件的语义向量a和b;
将所述a和b拼接得到拼接向量a,b,然后将所述拼接向量a和b按元素求绝对差向量得到绝对差向量|a-b|,再将所述拼接向量a和b按元素乘得到乘积向量a*b,再将所述拼接向量a,b、绝对差向量|a-b|和乘积向量a*b拼接得到拼接语义向量a,b,|a-b|,a*b,即作为两个事件的语义向量,也是事件对的语义向量;
所述通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度的方法包括:
将所述两个事件的语义向量a,b,|a-b|,a*b输入softmax层,得到两两事件的相似程度;
所述孪生网络的训练损失函数为:
Figure 140938DEST_PATH_IMAGE011
其中,m为事件对的数目,
Figure 529194DEST_PATH_IMAGE012
为Dice损失函数的权重因子,
Figure 223480DEST_PATH_IMAGE013
为Focal损失函数的权重因子,
Figure 875042DEST_PATH_IMAGE014
为Focal损失函数调节难分样本的损失比例的参数,
Figure 451516DEST_PATH_IMAGE015
为第i个事件对被模型预测为相似事件对的概率,
Figure 846726DEST_PATH_IMAGE016
为第i个事件对是否为相似事件对的真实标签值。
7.根据权利要求6所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S4中,所述通过因果关系事件对集合,构建事理图谱的初始版本的方法包括:
对事件集合中的每个事件,在事理图谱中创建一个对应的节点;对抽取到的因果关系事件对集合中的每个因果事件对,从原因事件节点连一条有向边到结果事件节点,代表因果关系;构建事理图谱的初始版本;
所述根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱的方法包括:
将所述事件集合中的每个事件的语义向量采用ScaNN算法构建其向量索引;
对每个事件E,通过ScaNN算法在向量索引中搜索出所有与其语义相似度高于0.92的事件集合S,认为是与E高度相似的事件,将S中的所有事件对应的节点合并到E对应的节点,得到最终版本的事理图谱。
8.一种用于事理图谱自动构建系统,其特征在于,所述系统包括:
第一处理模块,被配置为,采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;
第二处理模块,被配置为,采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,再根据标注后事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合;
第三处理模块,被配置为,通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,再通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度;
第四处理模块,被配置为,通过因果关系事件对集合,构建事理图谱的初始版本;根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7中任一项所述的一种事理图谱自动构建方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的一种事理图谱自动构建方法中的步骤。
CN202210801439.9A 2022-07-08 2022-07-08 一种事理图谱自动构建方法和系统 Active CN114880491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210801439.9A CN114880491B (zh) 2022-07-08 2022-07-08 一种事理图谱自动构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210801439.9A CN114880491B (zh) 2022-07-08 2022-07-08 一种事理图谱自动构建方法和系统

Publications (2)

Publication Number Publication Date
CN114880491A true CN114880491A (zh) 2022-08-09
CN114880491B CN114880491B (zh) 2022-09-23

Family

ID=82683298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210801439.9A Active CN114880491B (zh) 2022-07-08 2022-07-08 一种事理图谱自动构建方法和系统

Country Status (1)

Country Link
CN (1) CN114880491B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727803A (zh) * 2019-10-10 2020-01-24 北京明略软件系统有限公司 文本事件抽取方法及装置
CN111767408A (zh) * 2020-05-27 2020-10-13 青岛大学 一种基于多种神经网络集成的因果事理图谱构建方法
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置
CN114064937A (zh) * 2022-01-14 2022-02-18 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统
WO2022134071A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 文本抽取方法及装置、计算机可读存储介质以及电子设备
WO2022134794A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 新闻事件的舆情处理方法及装置、存储介质、计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727803A (zh) * 2019-10-10 2020-01-24 北京明略软件系统有限公司 文本事件抽取方法及装置
CN111767408A (zh) * 2020-05-27 2020-10-13 青岛大学 一种基于多种神经网络集成的因果事理图谱构建方法
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
WO2022134794A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 新闻事件的舆情处理方法及装置、存储介质、计算机设备
WO2022134071A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 文本抽取方法及装置、计算机可读存储介质以及电子设备
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置
CN114064937A (zh) * 2022-01-14 2022-02-18 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统

Also Published As

Publication number Publication date
CN114880491B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
US11983269B2 (en) Deep neural network system for similarity-based graph representations
CN107004159B (zh) 主动机器学习
WO2022037573A1 (zh) 表单识别方法、装置、设备及计算机可读存储介质
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
JP6894058B2 (ja) 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置
WO2019169719A1 (zh) 文摘自动提取方法、装置、计算机设备及存储介质
CN110826335B (zh) 一种命名实体识别的方法和装置
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
CN116049412B (zh) 文本分类方法、模型训练方法、装置及电子设备
CN113158676A (zh) 专业实体与关系联合抽取方法、系统及电子设备
Sun et al. Analyzing Cross-domain Transportation Big Data of New York City with Semi-supervised and Active Learning.
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN115983271A (zh) 命名实体的识别方法和命名实体识别模型的训练方法
CN116205482A (zh) 重点人员风险等级评估方法及相关设备
CN111444335B (zh) 中心词的提取方法及装置
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN114064937A (zh) 一种事理图谱自动构建方法和系统
CN115146068A (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN112740200A (zh) 用于基于共指消解的端到端深度强化学习的系统和方法
CN114880491B (zh) 一种事理图谱自动构建方法和系统
CN115035890B (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN115982363A (zh) 基于提示学习的小样本关系分类方法、系统、介质及电子设备
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant