CN117648980B - 基于矛盾纠纷数据的新型实体关系联合抽取方法 - Google Patents

基于矛盾纠纷数据的新型实体关系联合抽取方法 Download PDF

Info

Publication number
CN117648980B
CN117648980B CN202410119013.4A CN202410119013A CN117648980B CN 117648980 B CN117648980 B CN 117648980B CN 202410119013 A CN202410119013 A CN 202410119013A CN 117648980 B CN117648980 B CN 117648980B
Authority
CN
China
Prior art keywords
entity
node
dependency
nodes
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410119013.4A
Other languages
English (en)
Other versions
CN117648980A (zh
Inventor
马韵洁
王胡健
王晓思
王佐成
毕晨曦
王飞
王晴
葛鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Space Research Institute
Original Assignee
Data Space Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data Space Research Institute filed Critical Data Space Research Institute
Priority to CN202410119013.4A priority Critical patent/CN117648980B/zh
Publication of CN117648980A publication Critical patent/CN117648980A/zh
Application granted granted Critical
Publication of CN117648980B publication Critical patent/CN117648980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公布了基于矛盾纠纷数据的新型实体关系联合抽取算法,该算法包括以下步骤:S1,通过BERT模型对句子进行编码,以得到词向量;S2,以句子中的单词作为节点构建依存关系树,并确定依存关系树中每个边的权重;S3,基于DERNN和GAT对步骤S2中的节点进行编码;S4,将步骤S3中关于节点的两种编码表示加权融合,确定实体预测模型的总目标函数,本发明的有益效果是,将实体和关系的抽取任务整合在一个模型中,可以更好地捕捉它们之间的关联;通过对实体跨度的全面建模,尤其是考虑了连续单词,能够准确地捕捉实体在文本中的具体位置和范围;整合了BERT的句子表示、依存树构建、DERNN编码和GAT图注意力网络,从不同角度捕捉了输入文本的信息。

Description

基于矛盾纠纷数据的新型实体关系联合抽取方法
技术领域
本发明涉及数据识别处理方法技术领域,具体涉及一种基于矛盾纠纷数据的新型实体关系联合抽取算法。
背景技术
在当前社会环境下,矛盾纠纷的频发导致了机关需要处理大量复杂的数据,这些数据既包含结构化的信息(例如案件基本信息、人员关系等),也包括丰富的非结构化数据(如报警记录、视频资料、文本描述等),这使得矛盾纠纷业务的数据处理变得愈发复杂和庞大。
传统的数据处理方式主要依赖于人工操作,这不仅效率低下,而且容易因为信息过载而遗漏关键信息。而知识图谱作为一种以图结构方式呈现知识关系的工具,能够有效地解决这些问题。通过构建实体和实体之间的关系,知识图谱能够将各种数据元素有机地连接起来,形成更为全面和深入的信息网络。
但是现有的抽取工具存在以下问题:
误差累积问题:传统的管道(pipeline)方式中,级联特性导致命名实体识别模型的误差传播到关系抽取模型,累积影响整体性能。
实体对配对引入噪声:在关系分类任务前,对命名实体识别的结果进行实体对的两两配对可能引入“噪声”,即匹配的实体对中实际上并不存在关系,增加了模型的错误率和计算复杂度。
重叠关系挑战:存在实体间多种对应方式,例如一对多或多对多关系,导致模型在预测时可能只能捕捉其中一种关系,面临重叠关系问题。
发明内容
为解决上述问题,本发明提供了基于矛盾纠纷数据的新型实体关系联合抽取算法,本发明是通过以下技术方案来实现的。
基于矛盾纠纷数据的新型实体关系联合抽取算法,该算法包括以下步骤:
S1,通过BERT模型对句子进行编码,以得到词向量,具体为:
其中,为句子中的所有单词,/>为单词的词向量,d为向量的维度数;
S2,以句子中的单词作为节点构建依存关系树,并确定依存关系树中每个边的权重
S3,基于DERNN和GAT对步骤S2中的节点进行编码,分别得到和/>
S4,将步骤S3中关于节点的两种编码表示加权融合得到词节点的综合表示,分别利用实体分类器和关系分类器预测文本中单个或连续单词为实体或关系的概率;
S5,计算步骤S4中实体分类器和关系分类器的损失函数,确定实体预测模型的总目标损失函数
优选的,所述步骤S2中,包括以下子步骤:
S21,使用依存句法分析工具对句子进行依存分析,得到依存关系树;
S22,构建依存关系邻接矩阵A,遍历依存关系树中的每个节点,对于每个节点i,找到其父节点j,若二者之间存在直接的依存关系,则A[i][j]为 1,反之为0;
S23,构建依存类别邻接矩阵T,对于每个直接的依存关系,获取其依存关系类别,用BERT编码后保存在矩阵T中;
S24,构建全连接矩阵S,计算每对单词的注意力分数,将所有单词建立连接关系,即为S[i][j];
S25,将矩阵A和S加权融合并进行规范化处理,得到M[i][j],
其中w1和w2分别为矩阵A以及S的权重参数,表示使用sigmoid激活函数进行规范化处理。
优选的,所述步骤3中,使用DERNN对节点进行编码的步骤如下:
S311,隐藏状态聚合项编码,
其中是节点/>的 BERT 编码,/>表示与节点/> 相关的子节点的集合,表示子节点的索引集合,/> 表示对所有属于集合/> 的子节点/> 的编码进行求和;
S312,依赖关系聚合项编码,
其中 是第/> 个子节点与父节点间的依存关系编码向量,依存关系编码向量从矩阵/> 中取值,/> 表示对集合/> 中的所有子节点/> 的依存关系编码/> 进行求和;
S313,控制门项编码,控制门项包括遗忘门项、输入门项/>和更新门项/>
其中,、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>均为模型可学习的参数;/>为双曲正切激活函数;
S314,得到
其中,表示元素级别的乘法。
优选的,所述步骤3中,使用GAT对节点进行编码的步骤如下:
S321,线性投影,对输入的节点特征进行线性投影,得到不同注意力头的输入:
其中、/>分别是节点/>、节点/>的邻居节点/> 的第/>层GAT编码表示,/>、/>是模型需要学习的权重矩阵;
S322,计算注意力权重,对每个注意力头计算自适应融合权重:
其中,和/>表示边的权重,由步骤S25得到,/>表示权重参数,/>表示节点u的邻居节点集合;
S323,注意力池优化,利用计算得到的注意力权重对每个注意力头的邻居节点表示进行加权池化,得到聚合后的节点表示:
S324,多头合并,将所有注意力头的输出进行加权求和,得到最终的多头注意力输出:
其中,是学习的权重矩阵,将最后一层GAT编码得到的节点记为/>
优选的,所述步骤S4中,总目标损失函数:
其中表示实体分类器损失函数,/>表示关系分类器损失函数。
优选的,所述的求解步骤如下:
S411,确定加权融合表示,将步骤S314和S324中的两种编码结果加权融合,得到表示:
其中,是加权系数;
S412,确定特征表示,对于步骤S411中得到的单词的表示集合/>,将单个单词和所有连续单词的集合记为/>,对于集合中的元素我们用/>来表示它们的特征,其中/>,/>
其中表示集合/>的跨度;
S413,确定实体分类器函数,
其中,和/>为训练参数;
S414,确定实体分类器损失函数,该函数由实体分类器损失函数的交叉熵的累加和构成,同时加上了L2正则化项:
,其中/>
其中,是实体的真实标签向量,/>实体分类器的正则化系数,/>是对应的模型参数。
优选的,所述的求解步骤如下:
S421,确定实体对关系的表示,通过/>来计算两个实体对/>和/>是否存在关系,
S422,确定关系分类器函数,
其中,和/>为训练参数;
S423,确定关系分类器损失函数,
,其中/>
其中,是关系的真实标签向量,/>是关系分类器的正则化系数,/>是对应的模型参数。
本发明的有益效果如下:
1、实体关系联合抽取:通过将实体和关系的抽取任务整合在一个模型中,可以更好地捕捉它们之间的关联。这有助于模型学习到实体与关系之间的上下文信息,提高整体性能。
2、全面建模实体跨度:通过对实体跨度的全面建模,尤其是考虑了连续单词,能够准确地捕捉实体在文本中的具体位置和范围。对于处理实体之间可能存在的重叠、交叉、嵌套等复杂情况,新的模型能够准确地捕捉边界信息,提供更深入的语境理解。
3、融合多模块信息:整合了BERT的句子表示、依存树构建、DERNN编码和GAT图注意力网络,从不同角度捕捉了输入文本的信息。这有助于提高模型对语义和结构的理解。
附图说明
为了更清楚地说明本发明的技术方案,下面将对具体实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:本发明算法的流程图;
图2:依存关系树的示意图;
图3:本发明中依存关系的示例;
图4:基于图3的依存关系的邻接矩阵A1;
图5:本发明实际应用时的抽取效果展示。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1-5所示,基于矛盾纠纷数据的新型实体关系联合抽取算法,该算法包括以下步骤:
S1,通过BERT模型对句子进行编码,以得到词向量,具体为:
其中,为句子中的所有单词,/>为单词的词向量,d为向量的维度数;
S2,以句子中的单词作为节点构建依存关系树,并确定依存关系树中每个边的权重
S3,基于DERNN和GAT对步骤S2中的节点进行编码,分别得到和/>
S4,将步骤S3中关于节点的两种编码表示加权融合得到词节点的综合表示,分别利用实体分类器和关系分类器预测文本中单个或连续单词为实体或关系的概率;
S5,计算步骤S4中实体分类器和关系分类器的损失函数,确定实体预测模型的总目标损失函数
进一步地,步骤S2中,包括以下子步骤:
S21,使用依存句法分析工具对句子进行依存分析,得到依存关系树;
本发明实用的句法分析工具为Stanford NLP,以句子“因为插队问题李丽与王强发生冲突”,构建的依存关系树如图2所示,依存关系树中,以单词为节点,以节点之间的依存关系为边。
S22,构建依存关系邻接矩阵A,遍历依存关系树中的每个节点,对于每个节点i,找到其父节点j,若二者之间存在直接的依存关系,则A[i][j]为 1,反之为0。
依存关系邻接矩阵的具体示例如下,如图3所示我们假设具有四个节点V0、V1、V2和V3,任意两个节点之间若存在连线,则表示二者具有直接的依存关系,则V0、V1、V2和V3的依存关系邻接矩阵A1如图4所示。
S23,构建依存类别邻接矩阵T,对于每个直接的依存关系,获取其依存关系类别,用BERT编码后保存在矩阵T中;
S24,构建全连接矩阵S,计算每对单词的注意力分数,将所有单词建立连接关系,记为S[i][j];
对于较长的句子,句子中的相距较远的单次之间可能存在关联信息,但是依存句法分析工具难以捕获到这些关联信息,因此,通过计算每对单词的注意力分数,来将句子中的所有的单词建立连接关系,其中每条边被赋予一个权重,记为S[i][j]。
S25,将矩阵A和S加权融合并进行规范化处理,得到M[i][j],
其中w1和w2分别为矩阵A以及S的权重参数,表示使用sigmoid激活函数进行规范化处理。
对于每个节点和/>,通过加权融合的方式,使用不同的权重参数分别考虑依存关系和注意力分数,融合后的表示为:
权重参数的选择可以根据具体任务和数据集进行调整。
对于融合后的表示,为确保其在一定范围内,以避免不同矩阵的值范围差异导致的影响不均衡问题,使用sigmoid激活函数进行规范化处理。得到:
我们可以将矩阵M看做依存关系树的邻接矩阵,基于矩阵可以得到一个带边权重的全连接图,图上的节点为句子中的单次,每个边的权重为
进一步地,步骤3中,基于步骤S21得到依存关系树,DERNN模型采用自底向上的方式对节点进行编码,每个节点通过DERNN获得隐藏状态,DERNN模型接收当前节点的词向量,子节点的隐藏向量以及当前节点和子节点之间的依存关系编码,输出当前节点的隐藏状态,使用DERNN对节点进行编码的步骤如下:
S311,隐藏状态聚合项编码,
其中是节点/>的 BERT 编码,/>表示与节点/> 相关的子节点的集合,表示子节点的索引集合,/> 表示对所有属于集合/> 的子节点/> 的编码进行求和;
S312,依赖关系聚合项编码,
其中 是第/> 个子节点与父节点间的依存关系编码向量,依存关系编码向量从矩阵/> 中取值,/> 表示对集合/> 中的所有子节点/> 的依存关系编码/> 进行求和;
S313,控制门项编码,控制门项包括遗忘门项、输入门项/>和更新门项/>
其中,、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>均为模型可学习的参数;/>为双曲正切激活函数;
S314,隐藏状态更新表示:
其中,表示元素级别的乘法。
采用上述的编码方式,可以有效捕捉句子结构中的语法信息。输入门项和遗忘门项的设计允许网络自动忘记那些依存关系不重要的子结点 (如标点关系),而记住重要的子结点(如主谓关系)。DERNN 模型编码过后的词节点为
进一步地,步骤3中,使用GAT对节点进行编码的步骤如下:
S321,线性投影,对输入的节点特征进行线性投影,得到不同注意力头的输入:
其中、/>分别是节点/>、节点/>的邻居节点/> 的第/>层GAT编码表示,/>、/>是模型需要学习的权重矩阵;
GAT 模型可以创建一个包含多层的图注意力网络模型。每个 GAT 层通过学习节点之间的注意力权重会更新节点表示,本发明引入多头图注意力机制来编码词节点,多头图注意力机制的目的是希望从不同的线性投影空间中学习不同的关系权重,以更全面地捕捉节点之间的关系。
S322,计算注意力权重,对每个注意力头计算自适应融合权重:
其中,表示边的权重,由步骤S25得到,/>表示权重参数,/>表示节点u的邻居节点集合;
K是多头注意力机制中的头数,,多头注意力机制是一种机制,它允许模型同时学习多个不同的注意力权重,以更全面地捕获输入序列的信息,本发明一共计算K个注意力头。
S323,注意力池优化,利用计算得到的注意力权重对每个注意力头的邻居节点表示进行加权池化,得到聚合后的节点表示:
S324,多头合并,将所有注意力头的输出进行加权求和,得到最终的多头注意力输出:
其中,是学习的权重矩阵,将最后一层GAT编码得到的节点记为/>
优选的,步骤S4中,总目标损失函数:
其中表示实体分类器损失函数,/>表示关系分类器损失函数。
进一步地,的求解步骤如下:
S411,确定加权融合表示,将步骤S314和S324中的两种编码结果加权融合,得到表示:
其中,是加权系数,控制了两种编码结果在融合中的权重,这个加权融合的过程允许模型动态地调整每个表示的贡献,以生成更适应特定任务的整体表示。加权融合考虑了 DERNN 和 GAT 两个不同模型的信息,有助于提高模型对实体关系的建模能力。
S412,确定特征表示,对于步骤S411中得到的单词的表示集合/>,将单个单词和所有连续单词的集合记为/>,对于集合中的元素我们用/>来表示它们的特征,其中/>,/>
其中表示集合/>的跨度。
表示单词/>的加权表示,通过对步骤/>中得到的单词表示集合/>中的每个单词的表示/>应用权重系数/> 进行加权求和得到:
这个加权过程考虑了单词在集合中的不同位置对于形成最终表示的贡献。
表示单词/>中位置/>的权重系数。该系数是通过对单词/>中每个位置/>的表示/>进行 softmax 归一化得到的:
这个权重系数用于表示在形成单词的表示时,不同位置/>的相对贡献。权重越大表示该位置对最终表示的影响越大。
构建特征表示,其中/>是由加权表示/>和单词长度信息/>组成的:
最终的综合了单词/>的语义信息和跨度信息。
这个过程确保了对于集合中的每个单词/>,其特征表示/>能够综合考虑单词的语义内容和在整个集合中的位置信息。
对于步骤S411中的加权结果,由于每个实体可能是多个单词,所以我们使用实体跨度建模的方式,我们需要计算句子中的连续单词的所有可能情况来计算为实体的概率,将单个词和所有的连续单词的集合记为,对于集合里的元素我们用新的表示/>来表示他们的特征。
S413,确定实体分类器函数,
其中,和/>为训练参数。
S414,确定实体分类器损失函数,该函数由实体分类器损失函数的交叉熵的累加和构成,同时加上了L2正则化项:
,其中/>
其中,是实体的真实标签向量,/>实体分类器的正则化系数,/>是对应的模型参数。
进一步地,的求解步骤如下:
S421,确定实体对关系的表示,通过/>来计算两个实体对/>是否存在关系,
涵盖了两个跨度之间的信息,包括每个跨度的表示以及它们的逐元素乘积。
S422,确定关系分类器函数,
其中,和/>为训练参数;
S423,确定关系分类器损失函数,
,其中/>
其中,是关系的真实标签向量,/>是关系分类器的正则化系数,/>是对应的模型参数。
下面对本发明的实际应用效果进行验证。
一、实际应用场景的抽取示例:
主要抽取以下实体:事件(案件-案件信息-报案时间:XX年X月X日;处理结果-按刑事案件受理)、人物(张无忌、张翠山、赵敏敏、周芷若)、物(手机号、银行卡号、APP、虚拟账号)、事件(转账)、组织(深圳市XX科技有限公司)、地点(XXXX小区);抽取了以下关系:父亲、网友、报警人等;并根据案件信息,理解案件类型为电信诈骗(标签)。
抽取的结果如图5所示。
二、与同类型模型性能分析比较:
我们选取了2020年百度语言与智能技术竞赛中提供的关系抽取任务数据集,并进行了细致的数据清洗和筛选。我们旨在使用这个公开数据集,通过性能比较与同类型模型进行对比评估。每个文本中只包含一个目标提取三元组,使得数据集更为规范。
实验数据集涵盖了70种实体关系类别,分布在106,854个句子中,其中85484句用作训练集,21370句用作测试集。在性能评估上,我们采用了准确率(Precision)、召回率(Recall)以及F值,这些指标在实体关系抽取领域中被广泛应用,F值作为综合性指标考虑了准确率和召回率的平衡。
为了评估我们提出的新模型在中文实体关系抽取中的性能,我们选择了经典模型LSTM-CRF、LSTM-LSTM、LSTM-LSTM-Bias以及LSTM-GCN-Pruned作为基线模型。我们进行了中文实体关系抽取实验,并对各模型的评价指标结果进行了详细比较分析。为了简便叙述,我们将本发明提出的新模型命名为BERT-DERNN-GAT-JER。
下表为本发明的新模型与四个经典模型的关系三元组预测性能比较。
实验结果表明,该模型相较于经典模型表现出更优异的性能。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.基于矛盾纠纷数据的新型实体关系联合抽取方法,其特征在于,该方法包括以下步骤:
S1,通过BERT模型对句子进行编码,以得到词向量,具体为:
其中,为句子中的所有单词,/>为单词的词向量,d为向量的维度数;
S2,以句子中的单词作为节点构建依存关系树,并确定依存关系树中每个边的权重
所述步骤S2中,包括以下子步骤:
S21,使用依存句法分析工具对句子进行依存分析,得到依存关系树;
S22,构建依存关系邻接矩阵A,遍历依存关系树中的每个节点,对于每个节点i,找到其父节点j,若二者之间存在直接的依存关系,则A[i][j]为 1,反之为0;
S23,构建依存类别邻接矩阵T,对于每个直接的依存关系,获取其依存关系类别,用BERT编码后保存在矩阵T中;
S24,构建全连接矩阵S,计算每对单词的注意力分数,将所有单词建立连接关系,即为S[i][j];
S25,将矩阵A和S加权融合并进行规范化处理,得到M[i][j],
其中w1和w2分别为矩阵A以及S的权重参数,表示使用sigmoid激活函数进行规范化处理;
S3,基于DERNN和GAT对步骤S2中的节点进行编码,分别得到和/>
所述步骤3中,使用DERNN对节点进行编码的步骤如下:
S311,隐藏状态聚合项编码,
其中 是节点 />的 BERT 编码,/> 表示与节点 /> 相关的子节点的集合, 表示子节点的索引集合, /> 表示对所有属于集合 /> 的子节点 /> 的编码/>进行求和;
S312,依赖关系聚合项编码,
其中 是第 /> 个子节点与父节点间的依存关系编码向量,依存关系编码向量从矩阵 中取值, /> 表示对集合 /> 中的所有子节点 /> 的依存关系编码 /> 进行求和;
S313,控制门项编码,控制门项包括遗忘门项、输入门项/>和更新门项/>
其中,、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>均为模型可学习的参数;/>为双曲正切激活函数;
S314,得到
其中, 表示元素级别的乘法;
所述步骤3中,使用GAT对节点进行编码的步骤如下:
S321,线性投影,对输入的节点特征进行线性投影,得到不同注意力头的输入:
其中、/> 分别是节点 />、节点/>的邻居节点 /> 的第/>层GAT编码表示,/>、/> 是模型需要学习的权重矩阵;
S322,计算注意力权重,对每个注意力头计算自适应融合权重:
其中,和/>表示边的权重,由步骤S25得到,/>表示权重参数,/>表示节点u的邻居节点集合;
S323,注意力池优化,利用计算得到的注意力权重对每个注意力头的邻居节点表示进行加权池化,得到聚合后的节点表示:
S324,多头合并,将所有注意力头的输出进行加权求和,得到最终的多头注意力输出:
其中, 是学习的权重矩阵,将最后一层GAT编码得到的节点记为/>
S4,将步骤S3中关于节点的两种编码表示加权融合得到词节点的综合表示,分别利用实体分类器和关系分类器预测文本中单个或连续单词为实体或关系的概率;
S5,计算步骤S4中实体分类器和关系分类器的损失函数,确定实体预测模型的总目标损失函数
2.根据权利要求1所述的基于矛盾纠纷数据的新型实体关系联合抽取方法,其特征在于,所述步骤S5中,总目标损失函数:
其中表示实体分类器损失函数,/>表示关系分类器损失函数。
3.根据权利要求2所述的基于矛盾纠纷数据的新型实体关系联合抽取方法,其特征在于,所述的求解步骤如下:
S411,确定加权融合表示,将步骤S314和S324中的两种编码结果加权融合,得到表示:
其中, 是加权系数;
S412,确定特征表示,对于步骤S411中得到的单词的表示集合/>,将单个单词和所有连续单词的集合记为/>,对于集合中的元素我们用/>来表示它们的特征,其中,/>
其中表示集合/>的跨度;
S413,确定实体分类器函数,
其中,和/>为训练参数;
S414,确定实体分类器损失函数,该函数由实体分类器损失函数的交叉熵的累加和构成,同时加上了L2正则化项:
,其中/>
其中,是实体的真实标签向量,/>实体分类器的正则化系数,/>是对应的模型参数。
4.根据权利要求3所述的基于矛盾纠纷数据的新型实体关系联合抽取方法,其特征在于,所述的求解步骤如下:
S421,确定实体对关系的表示,通过/>来计算两个实体对/>和/>是否存在关系,
S422,确定关系分类器函数,
其中,和/>为训练参数;
S423,确定关系分类器损失函数,
,其中/>
其中, 是关系的真实标签向量,/>是关系分类器的正则化系数, />是对应的模型参数。
CN202410119013.4A 2024-01-29 2024-01-29 基于矛盾纠纷数据的新型实体关系联合抽取方法 Active CN117648980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410119013.4A CN117648980B (zh) 2024-01-29 2024-01-29 基于矛盾纠纷数据的新型实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410119013.4A CN117648980B (zh) 2024-01-29 2024-01-29 基于矛盾纠纷数据的新型实体关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN117648980A CN117648980A (zh) 2024-03-05
CN117648980B true CN117648980B (zh) 2024-04-12

Family

ID=90049951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410119013.4A Active CN117648980B (zh) 2024-01-29 2024-01-29 基于矛盾纠纷数据的新型实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN117648980B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN112632230A (zh) * 2020-12-30 2021-04-09 中国科学院空天信息创新研究院 一种基于多层级图网络的事件联合抽取方法及装置
CN113743097A (zh) * 2021-08-23 2021-12-03 桂林电子科技大学 基于跨度共享和语法依存关系增强的情感三元组抽取方法
CN114429121A (zh) * 2022-01-19 2022-05-03 广州启辰电子科技有限公司 一种面向试题语料情感与原因句子对的抽取方法
CN114692602A (zh) * 2022-03-23 2022-07-01 浙江工业大学 一种句法信息注意力引导的图卷积网络关系抽取方法
CN115098634A (zh) * 2022-06-27 2022-09-23 重庆大学 一种基于语义依存关系融合特征的舆情文本情感分析方法
WO2023077562A1 (zh) * 2021-11-03 2023-05-11 深圳市检验检疫科学研究院 一种基于图扰动策略的事件检测方法及装置
CN116384371A (zh) * 2022-06-06 2023-07-04 成都量子矩阵科技有限公司 一种基于bert和依存句法联合实体及关系抽取方法
CN117391466A (zh) * 2023-10-11 2024-01-12 中国科学技术大学先进技术研究院 一种新型矛盾纠纷案件的预警方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN112632230A (zh) * 2020-12-30 2021-04-09 中国科学院空天信息创新研究院 一种基于多层级图网络的事件联合抽取方法及装置
CN113743097A (zh) * 2021-08-23 2021-12-03 桂林电子科技大学 基于跨度共享和语法依存关系增强的情感三元组抽取方法
WO2023077562A1 (zh) * 2021-11-03 2023-05-11 深圳市检验检疫科学研究院 一种基于图扰动策略的事件检测方法及装置
CN114429121A (zh) * 2022-01-19 2022-05-03 广州启辰电子科技有限公司 一种面向试题语料情感与原因句子对的抽取方法
CN114692602A (zh) * 2022-03-23 2022-07-01 浙江工业大学 一种句法信息注意力引导的图卷积网络关系抽取方法
CN116384371A (zh) * 2022-06-06 2023-07-04 成都量子矩阵科技有限公司 一种基于bert和依存句法联合实体及关系抽取方法
CN115098634A (zh) * 2022-06-27 2022-09-23 重庆大学 一种基于语义依存关系融合特征的舆情文本情感分析方法
CN117391466A (zh) * 2023-10-11 2024-01-12 中国科学技术大学先进技术研究院 一种新型矛盾纠纷案件的预警方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-Task Learning Model Based on BERT and Knowledge Graph for Aspect-Based Sentiment Analysis;Zhu He 等;Electronics;20230201;第12卷(第3期);1-16 *

Also Published As

Publication number Publication date
CN117648980A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
CN111309824B (zh) 实体关系图谱显示方法及系统
CN111061856B (zh) 一种基于知识感知的新闻推荐方法
CN109543180A (zh) 一种基于注意力机制的文本情感分析方法
CN110674279A (zh) 基于人工智能的问答处理方法、装置、设备及存储介质
WO2023093205A1 (zh) 一种实体标签关联预测方法、装置及计算机可读存储介质
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN112131261B (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN113326384A (zh) 一种基于知识图谱的可解释推荐模型的构建方法
CN114386513A (zh) 一种集成评论与评分的交互式评分预测方法及系统
CN115344863A (zh) 一种基于图神经网络的恶意软件快速检测方法
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN113744023A (zh) 一种基于图卷积网络的双通道协同过滤推荐方法
CN117648980B (zh) 基于矛盾纠纷数据的新型实体关系联合抽取方法
CN110674265B (zh) 面向非结构化信息的特征判别与信息推荐系统
CN116955650A (zh) 基于小样本知识图谱补全的信息检索优化方法及其系统
CN116668105A (zh) 一种结合工控安全知识图谱的攻击路径推理系统
CN117194765A (zh) 一种兴趣感知的双通道图对比学习会话推荐方法
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
CN116257786A (zh) 一种基于多元时序图结构的异步时间序列分类方法
CN114358186A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN117556149B (zh) 资源推送方法、装置、电子设备和存储介质
CN117763400A (zh) 一种基于双注意力的社交网络图节点分类方法
CN117788122B (zh) 一种基于异质图神经网络商品推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant