CN113283605B - 基于预训练模型的交叉聚焦损失的溯因推理方法 - Google Patents

基于预训练模型的交叉聚焦损失的溯因推理方法 Download PDF

Info

Publication number
CN113283605B
CN113283605B CN202110841128.0A CN202110841128A CN113283605B CN 113283605 B CN113283605 B CN 113283605B CN 202110841128 A CN202110841128 A CN 202110841128A CN 113283605 B CN113283605 B CN 113283605B
Authority
CN
China
Prior art keywords
cross
value
event
training
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110841128.0A
Other languages
English (en)
Other versions
CN113283605A (zh
Inventor
陶建华
徐铭
杨国花
张大伟
刘通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110841128.0A priority Critical patent/CN113283605B/zh
Publication of CN113283605A publication Critical patent/CN113283605A/zh
Application granted granted Critical
Publication of CN113283605B publication Critical patent/CN113283605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供基于预训练模型的交叉聚焦损失的溯因推理方法,包括:将观测对O1和O2与所有假设的结合,得到输入序列;将输入序列中的单一输入变量输入预训练模型,得到对应句子级别的特征矩阵,然后对特征矩阵的单词维度求和,得到特征向量;遍历输入序列中所有单一输入变量,得到特征向量序列;将特征向量序列输入双向长短期记忆网络,获取到分布式特征表示,再利用全连接层进行映射求和得到每个输入的分数;将输入序列中N个标签为真的值分别与所有标签为假的值组成N组,并进行组内softmax,得到交叉预测值;引入聚类因子和引入权重因子,改进FocalLoss,得到训练损失函数;优化所述训练损失函数,得到最优的溯因推理模型。

Description

基于预训练模型的交叉聚焦损失的溯因推理方法
技术领域
本发明涉及人工智能领域,尤其是智能分类,针对语言和事件的自动分类、溯源,具体涉及基于预训练模型的交叉聚焦损失的溯因推理方法。
背景技术
人类可以通过以往的经验或者已知的常识,来理解关于日常情况的自然语言文本。给出两个观测O1和O2以及两个假设H1和H2。在观测O1的条件下,根据O2这个结果来猜测导致O1变化为O2的原因有哪些,然后从候选假设H1,H2中选择更加合理的假设。aNLI也可以说是寻找最合理的解释。
溯因推理的目的主要是为了帮助人们理解文本,以及捕捉文本之间是否存在因果关系。现有的技术有L2R2,利用排名来进行aNLI任务。主要步骤为,将文本进行预处理后输入到预训练模型中,预训练模型会输出对应文本的分数,根据分数对文本进行排名,然后根据排名的六种损失函数对预训练模型进行调整。
溯因推理任务定义:
溯因推理是一个逆向推理的任务,它主要包含两个概念,这两个概念分别为观测和假设。观测主要描述了当前场景的状态,其中包括前提与结果。而假设则是导致前提转化为结果可能的原因。著名的皮亚杰的认知发展理论告诉我们,我们的世界是一个不断变化的动态系统。而aNLI的核心任务就是寻找导致变化的原因。
总体而言,就是给出一对观测O1,O2∈O,其中O1作为前提,O2作为结果,O为所有观测的集合,其中O1发生的时间要早于O2。aNLI的任务就是预测最合理的假设。H*∈H,H是所有假设的集合。收到传统NLI的启发,假设被认为是直接从前提中派生出来的。然而,在aNLI任务中假设和两个观测值之间的关系是以一种完全不同的方式。使用基于O1的贝叶斯规则可以表示为以下的形式。
Figure DEST_PATH_IMAGE001
其中假设Hj发生于观测O1后,并取决于O1,并且O2发生于O1和Hj后,并取决于O1和Hj。最合适的假设H^*是最大化这两个部分的分数。当使用O1,O2和Hj作为输入时,可以由一个得分函数来建模,并且输出一个分数
Figure 513504DEST_PATH_IMAGE002
为了更容易的适应模型,aNLI数据集最初被定义为二选一的选择问题。将从两个假设H1和H2中选择最可信的假设。从分类的角度来看,可以形式化为区分s1 - s2之间种类的判别任务。Yunchang Zhu等人认为在排名视图中这是不完整的成对方法,因此,从排名的角度重新定制了这个任务,并采用学习到排名的框架。由于采用排名框架时,总体概率和会为固定值,会导致不同的正确假设之间评分会相互影响,造成分数分配不正确的问题。
公开号为CN110837892A,公开了一种基于带类型关系路径嵌入模型的对附带OWL2 DL本体的知识图谱进行事实溯因推理的方法,属于人工智能领域。本发明的主要特征在于先根据知识图谱中的事实和附带的OWL 2 DL本体计算知识图谱中所有长度不超过人工设定的邻域阈值ρ的频繁关系路径,再根据知识图谱蕴含的事实和负采样的虚假事实学习预测知识图谱事实的带类型关系路径的嵌入模型,最后根据给定的观察事实,计算最大可能推导观察事实的带类型关系路径,并将该带类型关系路径转换成带变量的三元组集合计算给定事实的溯因解释。
现有技术缺点:
当我们想要寻找一件事情发生的原因时,我们会寻找导致这件事情发生的各种原因,比如当我们发现在口袋里的钱包找不到了。可能有多种假设,我们使用三种假设,一种是钱包从口袋里滑落了,第二种是被小偷偷走了,第三种是自己忘记了钱包的位置。当我们使用L2R2的方法对假设进行排序时,可能会存在两个问题。1)由于L2R2中所有假设发生的概率总和为固定值,因此当钱包从口袋滑落发生的概率变大时,其他两种假设发生的概率就会随之变小,而对于实际来说,钱包从口袋滑落,钱包被小偷偷走和自己忘记了钱包的位置这三种假设是相互独立的,因此他们之间发生的概率也是独立的,不应该随着其他假设发生概率的变化而变化。2)L2R2方法根据这些假设在数据集出现的次数来进行排序,但是实际上很难对发生的概率进行赋值与排序,对于这三种假设来说,我们没有办法直接对他们发生的概率进行赋值,并且我们也没有办法判断这三个假设种哪一个发生的概率最高,哪一个发生的概率最低。
发明内容
有鉴于此,本发明提供一种基于预训练模型的交叉聚焦损失的溯因推理方法,包括:
S1:将观测对O1和O2与所有假设H*={H1,H2,...,Hm}的结合,得到输入序列
Figure DEST_PATH_IMAGE003
;其中,n的值为数据集中故事的数量;m的值取决于一个故事内假设的数量;
S2:将所述输入序列中的单一输入变量
Figure 633907DEST_PATH_IMAGE004
输入预训练模型,得到对应句子级别的特征矩阵
Figure DEST_PATH_IMAGE005
,然后对所述特征矩阵的单词维度求和,得到特征向量
Figure 475961DEST_PATH_IMAGE006
S3:遍历输入序列中所有单一输入变量,得到特征向量序列;
S4:将特征向量序列输入双向长短期记忆网络,获取到分布式特征表示,再利用全连接层进行映射求和得到每个输入的分数;
S5:将输入序列中N个标签为真的值分别与所有标签为假的值组成N组,并进行组内softmax,得到交叉预测值;
S6:在FocalLoss框架下,引入聚类因子,将正样本与负样本的损失区分开来,应用交叉预测值得到聚类预测值;引入权重因子,通过设置权重因子的值来控制正负样本对训练损失的共享权重;应用所述聚类预测值和训练损失的共享权重构建训练损失函数;
S7:优化所述训练损失函数,得到最优的溯因推理模型。
在一些实施例中,所述单一输入变量
Figure DEST_PATH_IMAGE007
的具体形式为:
Figure 871170DEST_PATH_IMAGE008
在一些实施例中,所述对所述特征矩阵的单词维度求和的具体方式为:对所述特征矩阵按列求和。
在一些实施例中,所述组内softmax,得到交叉预测值的具体形式为:
Figure DEST_PATH_IMAGE009
其中,
Figure 341335DEST_PATH_IMAGE010
表示所述分数s i 经过Cross-Softmax后的交叉预测值,si 0中0表示标签为假值位置的分数,其中i表示在标签为假值时的第i个分数。sj 1中的1表示标签为真值位置的分数,其中j则表示标签为真值时的第j个分数。
在一些实施例中,所述聚类预测值的具体计算方法为:
Figure DEST_PATH_IMAGE011
其中,yi为真实标签,
Figure 429376DEST_PATH_IMAGE012
为聚类因子,
Figure DEST_PATH_IMAGE013
中0表示标签为假值位置的交叉预测值,其中i表示在标签为假值时的第i个交叉预测值;
Figure 994612DEST_PATH_IMAGE014
中的1表示标签为真值位置的交叉预测值。
在一些实施例中,所述共享权重的具体计算方法为:
Figure DEST_PATH_IMAGE015
其中,a为权重因子。
在一些实施例中,所述训练损失函数的具体形式为:
Figure 193512DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
其中,ε为1e-8,其作用是防止log0的出现,γ为聚焦参数,y为真实标签yi的集合,
Figure 659129DEST_PATH_IMAGE018
为交叉预测值
Figure 918072DEST_PATH_IMAGE010
的集合。
在一些实施例中,所述聚类因子
Figure DEST_PATH_IMAGE019
的取值范围为:1/4≤
Figure 469139DEST_PATH_IMAGE012
≤1/2。
在一些实施例中,所述权重因子a的取值范围为:0.6≤a≤0.8。
在一些实施例中,所述聚焦参数γ的取值范围为:4≤γ≤6。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
(1)本发明针对以往的方法中无法横向对比文本的缺陷进行了改进,修改了网络的模型,增加了BiLSTM网络来捕捉文本之间的相互关系,提高了溯因推理的模型的健壮性;
(2)本发明针对L2R2方法中存在的任务定义不准确造成的损失函数不正确的问题,提出了新的损失函数,可以捕捉文本之间存在的问题与相互关系。提高了方法的准确率。
附图说明
图1为本发明实施例提供的L2R2方法和CSFL方法的对比图;
图2为本发明实施例提供的基于预训练模型的交叉聚焦损失的溯因推理方法流程简图;
图3本发明实施例提供的基于预训练模型的交叉聚焦损失的溯因推理方法流程图;
图4本发明实施例提供的CSFL方法与其他方法试验对比图;
图5本发明实施例提供的交叉softmax示意图;
图6本发明实施例提供的模型结构图;
图7本发明实施例提供的在低资源设置下aNLI的准确率柱状图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
现阶段自然语言推理技术被广泛应用于网页搜索,智能问答,地址匹配等应用场景。在网页搜索中,推理模型计算用户输入的查询语句和网页标题的相关性,根据相关程度排序返回给用户,在智能问答场景中,推理模型根据用户输入的问题,在知识库中匹配相似的标准问题,用户能够选择符合其疑问的标准问题并且查看为标准问题准备好的标准答案。
自然语言较难被机器识别的原因之一就是同一句话可以用完全不同的词语和句法结构来表达。所以判断两句话是否有相同含义的准确率越高,越能代表算法的优越性。从2005年起PASCAL开始举办自然语言推理的挑战赛,之后自然语言推理方向出现基于规则语义解析的方法和基于概率统计的方法。从2015年Bowman发布了大型标注语料斯坦福标注语料数据集后,大量研究人员从事基于深度多层的神经网络解决自然语言推理的任务。现如今基于深度学习的自然语言推理方法已有百种以上,并且发展出基于句子编码,句间交互,预训练预训练语言模型等多种类型的方法论。
溯因推理于现有的信息处理技术有着重要的应用价值,比如自动问答自动文摘和话题预测等。同时,借助事件的固有逻辑关系,能够推理特定事件的衍生与发展概率,从而有效辅助信息传播中话题的监控。事件含有较为丰富的结构信息(触发词、事件元素和事件角色等),探索如何有效利用事件结构化信息和上下文环境进行溯因推理对自然语言领域的发展具有重要的意义。
实施例1:
如图1所示,O1和O2为任意一个观测对,在这个观测对中有四个对应的假设,其中H1和H2为正确假设,H3和H4为错误假设。L2R2排名算法会将这四种概率进行排名并选择概率较大的部分作为正确答案。但是还是有一些缺陷在其中,一,对于有些假设,我们没有办法来判断哪个作为答案的概率更大,例如图1中的H1与H2,这两句话在本质上含义相差不大,因此他们作为答案的概率很难进行对比。并且对于两个与问题不相关的答案,更是难以对比它们作为答案的概率。二,L2R2方法将所有正确答案的概率总和为固定值,当假设H1作为答案的概率提升时,其他假设的概率的和也会随之降低,这样也就会影响假设H2的概率,正确答案之间的概率是不应该相互影响的。一个假设作为答案的可能性不应当随着另外一个正确答案而发生变化。
如图2和图3所示,例提供的基于预训练模型的交叉聚焦损失的溯因推理方法,包括:
S1:将观测对O1和O2与所有假设H*={H1,H2,...,Hm}的结合,得到输入序列
Figure 206151DEST_PATH_IMAGE003
;其中,n的值为数据集中故事的数量;m的值取决于一个故事内假设的数量;所述单一输入变量
Figure 729536DEST_PATH_IMAGE007
的具体形式为:
Figure 159380DEST_PATH_IMAGE020
S2:将所述输入序列中的单一输入变量
Figure 932164DEST_PATH_IMAGE007
输入预训练模型,得到对应句子级别的特征矩阵
Figure 472867DEST_PATH_IMAGE021
,然后对所述特征矩阵按列求和,得到特征向量
Figure 116338DEST_PATH_IMAGE022
;所述训练模型选用BERT或者RoBERT;
S3:遍历输入序列中所有单一输入变量,得到特征向量序列;
S4:由于原始的模型进行打分时仅仅考虑单一的输入,无法更好的捕捉同一组内不同输入xni与xnj之间的关系,因此我们增加了信息交互层捕捉两个不同输入之间依赖关系;我们选择对特征向量mxni和mxnj进行交互;将特征向量序列输入双向长短期记忆网络,获取到分布式特征表示,再利用全连接层进行映射求和得到每个输入的分数;
在这其中,如图6示,使用BiLSTM可以捕捉到由上下文编码层生成的特征向量之间的依赖关系,并对其进行限制性约束;
BiLSTM首先对输入过来的数据使用遗忘门进行遗忘,并输出一个0到1之间的数,其在句子t位置的公式为:
Figure 812024DEST_PATH_IMAGE023
其中σ是sigmoid激活函数,Wf∈R2d×d,bf∈Rd是可训练的参数;ht-1表示在不同句子时的特征状态。其中mxnt作为为LSTM的输入,mxnt是第t个句子的特征向量,当输入句子不同时特征向量也不同;
输入门:接收当前位置新的输入句子并更新当前的细胞状态。这时当前的细胞状态已经更新完成;在句子t时其公式为:
Figure 603262DEST_PATH_IMAGE024
其中tanh表示tanh激活函数,Wi∈R2d×d,bi∈Rd,Wc∈R2d×d,bc∈Rd,⨂代表向量对应元素相乘;
输出门:该门决定了输出的内容,这个输出基于当前的细胞状态h_t并结合使用当前句子中的部分内容最后将值规范化进行输出;在句子t时的公式为:
Figure 682077DEST_PATH_IMAGE025
其中Wo∈R2d×d,bo∈Rd
经过LSTM层后可以得到ht,然后使用全连接层可以得到最终的分数si;si为对每个输入句子xn1的打分;公式如下所示:
s i =W s ∙h t +b s
其中Ws∈R2d×d,bs∈Rd
损失函数分为两个部分,一部分将预测的值进行CrossSoftmax,另一部分为对Cross Softmax后的预测值进行损失计算;其他人的实验中仅仅采用了一个正确的项与一个错误的项进行对比,这样数据量较少,也没办法捕捉更多的关系,因此我们选择取出一个正确的项与所有的错误的项进行对比,这样每个正确选项都可以与所有的错误选项进行对比;
S5:将输入序列中N个标签为真的值分别与所有标签为假的值组成N组,并进行组内softmax,得到交叉预测值;图5示,我们将yn=1也就是标签为真的两个元素分别与其他yn=0的所有元素作为一组,图5,
Figure 180054DEST_PATH_IMAGE027
有两个yn=1的值,因此我们分成两组,然后对这两组内分别进行softmax;所述组内softmax,得到交叉预测值的具体形式为:
Figure 686122DEST_PATH_IMAGE009
其中,
Figure 964656DEST_PATH_IMAGE010
表示所述分数s i 经过Cross-Softmax后的交叉预测值,si 0中0表示标签为假值位置的分数,其中i表示在标签为假值时的第i个分数。sj 1中的1表示标签为真值位置的分数,其中j则表示标签为真值时的第j个分数;
S6:Focal Loss被设计用于解决图像在训练过程中前景和背景类之间存在极端不平衡的目标检测中。当我们使用MSE进行计算损失时,由于回归损失的特性,会过于拉近正样本与正样本或负样本与负样本之间的距离,但实际上,不同的正样本之间也存在差距,不应当将所有的正样本都归属于同一类别,为了解决这个问题,在FocalLoss框架下,引入聚类因子,将正样本与负样本的损失区分开来,应用交叉预测值得到聚类预测值;引入权重因子,通过设置权重因子的值来控制正负样本对训练损失的共享权重,a取较小的值来降低负样本的权重,其中对于正确假设我们使用a,对于错误假设我们使用1-a;虽然a可以控制正负样本的权重,但是,正负样本不仅存在数量上的不平衡,还存在损失上的不平衡,因此,使用聚类因子
Figure 847162DEST_PATH_IMAGE028
进行学习,主要用于将正样本与负样本的损失区分开来;应用所述聚类预测值和训练损失的共享权重构建训练损失函数;
所述聚类预测值的具体计算方法为:
Figure 199646DEST_PATH_IMAGE029
其中,yi为真实标签,
Figure 876615DEST_PATH_IMAGE028
=1/3为聚类因子,
Figure 376866DEST_PATH_IMAGE030
中0表示标签为假值位置的交叉预测值,其中i表示在标签为假值时的第i个交叉预测值;
Figure 797483DEST_PATH_IMAGE031
中的1表示标签为真值位置的交叉预测值;
所述共享权重的具体计算方法为:
Figure 270053DEST_PATH_IMAGE032
其中,a=0.5为权重因子;
所述训练损失函数的具体形式为:
Figure 852344DEST_PATH_IMAGE016
Figure 335497DEST_PATH_IMAGE017
其中,ε为1e-8,其作用是防止log0的出现,γ=5为聚焦参数,y为真实标签yi的集合,
Figure 559805DEST_PATH_IMAGE018
为交叉预测值
Figure 886881DEST_PATH_IMAGE010
的集合;
S7:优化所述训练损失函数,得到最优的溯因推理模型。
如图4示,使用AUC和ACC作为评价指标。由于原有的ACC,没办法较好地脱离测试数据对模型进行评价,因此我们在原有ACC的基础之上又增加了AUC作为评价指标。AUC是一种统计上一致且比准确性更有辨别力的测量方法。我们的模型比L2R2在ACC上提升了一个百分点,在AUC上提升了4个百分点。
为了更好的理解数据集规模对模型的影响,并在aNLI上测试其对稀疏数据的鲁棒性,模仿MHKA模型使用{1,2,5,10,100}%来训练数据的低资源场景。展示了我们的模型对于MHKA以及RoBERTa-Base和-Large的提升。结果表明我们的模型在低资源的情况下可以取得更好的效果。结果如图7示。
实验中使用学习率为1e-6的学习率训练10个批次,然后使用5e-7的学习率并且使用不同的随机数种子再进行训练三个批次。其中,a,γ和φ的取值分别为0.7,5和1/3。
实施例2:
根据实施例1所述的基于预训练模型的交叉聚焦损失的溯因推理方法,应用某基于线索挖掘的事件关系分类,具体实如下:
事件关系检测是一项深入判定两两事件之间相关性以及具有何种逻辑关系的自然语言处理技术。其核心任务是以事件为基本语义单元,通过分析事件之间的语义关联特征,实现事件逻辑关系的识别与判定,主要包括事件关系识别(即识别有无关系)和事件关系判定(即判定逻辑关系类型)两个研究任务。事件关系识别主要是判断两个事件之间是否具有逻辑或者语义关系,为事件之间的深层关系检测预先采集样本,是深入解析事件逻辑关系的重要前提条件;事件关系判定则是在事件关系关联性识别的基础上,判定相关联事件属于何种具体事件逻辑关系的过程。
1)未标注样本数据的事件关系分类得分
首先从Gigaword纽约时报新闻语料(LDC2003T05),共包含1200233篇文章。从语料中抽取由事件1和事件2组成的句对作为未标注事件关系的样例。主要方法为当两个句子为事件且存在前后关系时,对事件进行抽取。
检测的事件关系类型主要分为在前后的时序关系以及属于因果的偶然关系。
实施的具体步骤为:首先将可能成为时序关系与因果关系的语句进行结合,得到输入序列
Figure 171232DEST_PATH_IMAGE033
,其中n的值表示数据中文章的数量,其中从同一个文本中获取的因果关系以及时序关系我们认为都将认为是同一个文章,m的值取决于一个故事中关系的数量。
将所述输入序列中的单一输入变量
Figure 380496DEST_PATH_IMAGE034
输入预训练模型,得到对应句子级别的特征矩阵
Figure 142916DEST_PATH_IMAGE035
,然后对所述特征矩阵的单词维度求和,得到特征向量
Figure 324499DEST_PATH_IMAGE022
遍历输入序列中所有单一输入变量,得到特征向量序列;
将特征向量序列输入双向长短期记忆网络,获取到分布式特征表示,再利用全连接层进行映射求和得到每个输入的分数;由于因果关系与时序关系都存在一定的前后联系,因果关系一定存在时序关系,因此我们设置当分数小于0.3时不存在因果关系以及时序关系,当分数大于等于0.3小于0.6时判定为时序关系,当分数大于等于0.6小于等于1时,判定为因果关系。
2)对事件关系分类进行训练
将人工标注好的数据输入由1)中的步骤输入到溯因推理模型之中。并根据人工给与的分数对溯因推理模型进行优化。具体优化步骤如下所示。
将输入序列中N个标签为真的值分别与所有标签为假的值组成N组,并进行组内softmax,得到交叉预测值;
在FocalLoss框架下,引入聚类因子,将正样本与负样本的损失区分开来,应用交叉预测值得到聚类预测值;引入权重因子,通过设置权重因子的值来控制正负样本对训练损失的共享权重;应用所述聚类预测值和训练损失的共享权重构建训练损失函数;
优化所述训练损失函数,得到最优的溯因推理模型。并使用最优的溯因推理模型对未标注样本数据的事件关系进行划分。
本申请公开的基于预训练模型的交叉聚焦损失的溯因推理方法,主要应用于信息处理,比如自动问答自动文摘和话题预测等。同时,借助事件的固有逻辑关系,能够推理特定事件的衍生与发展概率,从而有效辅助信息传播中话题的监控。事件含有较为丰富的结构信息(触发词、事件元素和事件角色等),探索如何有效利用事件结构化信息和上下文环境进行溯因推理。同时也应用于自然语言的分析和溯因推理,尤其是复杂的语义情况,能够给予更清晰的溯因推理。
本发明还提供一种存储介质用于执行和/或存储上述方法。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.基于预训练模型的交叉聚焦损失的溯因推理方法,其特征在于,所述方法应用于事件关系中,所述事件关系的检测是一项深入判定两两事件之间相关性以及具有何种逻辑关系的自然语言处理技术,其任务是以事件为基本语义单元,通过分析事件之间的语义关联特征,实现事件逻辑关系的识别与判定,包括事件关系识别即识别有无关系和事件关系判定即判定逻辑关系类型,所述事件关系识别是判断两个事件之间是否具有逻辑或者语义关系,为事件之间的深层关系检测预先采集样本,是深入解析事件逻辑关系的前提条件;事件关系判定则是在事件关系关联性识别的基础上,判定相关联事件属于何种具体事件逻辑关系的过程,所述事件即为故事,
所述方法包括:
S1:将观测对O1和O2与所有假设H*={H1,H2,...,Hm}的结合,得到输入序列
Figure 571137DEST_PATH_IMAGE001
;其中,n的值为数据集中故事的数量;m的值取决于一个故事内假设的数量;
S2:将所述输入序列中的单一输入变量
Figure 737895DEST_PATH_IMAGE002
输入预训练模型,得到对应句子级别的特征矩阵
Figure 911387DEST_PATH_IMAGE003
,然后对所述特征矩阵的单词维度求和,得到特征向量
Figure 922069DEST_PATH_IMAGE004
S3:遍历输入序列中所有单一输入变量,得到特征向量序列;
S4:将特征向量序列输入双向长短期记忆网络,获取到分布式特征表示,再利用全连接层进行映射求和得到每个输入的分数;
S5:将输入序列中N个标签为真的值分别与所有标签为假的值组成N组,并进行组内softmax,得到交叉预测值;
S6:在FocalLoss框架下,引入聚类因子,将正样本与负样本的损失区分开来,再应用交叉预测值得到聚类预测值;引入权重因子a,正确假设使用a,对于错误假设使用1-a,通过设置权重因子的值来控制聚类预测值中的正负样本对训练损失的共享权重;应用所述聚类预测值和训练损失的共享权重构建训练损失函数;
S7:优化所述训练损失函数,得到最优的溯因推理模型;
所述聚类预测值的具体计算方法为:
Figure 811396DEST_PATH_IMAGE005
其中,yi为真实标签,
Figure 907528DEST_PATH_IMAGE006
为聚类因子,
Figure 619132DEST_PATH_IMAGE007
中0表示标签为假值位置的交叉预测值,其中i表示在标签为假值时的第i个交叉预测值;
Figure 546637DEST_PATH_IMAGE008
中的1表示标签为真值位置的交叉预测值。
所述共享权重的具体计算方法为:
Figure 685494DEST_PATH_IMAGE009
其中,a为权重因子。
2.根据权利要求1所述的基于预训练模型的交叉聚焦损失的溯因推理方法,其特征在于,所述单一输入变量
Figure 268922DEST_PATH_IMAGE010
的具体形式为:
Figure 518638DEST_PATH_IMAGE011
3.根据权利要求1所述的基于预训练模型的交叉聚焦损失的溯因推理方法,其特征在于,所述对所述特征矩阵的单词维度求和的具体方式为:对所述特征矩阵按列求和。
4.根据权利要求1所述的基于预训练模型的交叉聚焦损失的溯因推理方法,其特征在于,所述组内softmax,得到交叉预测值的具体形式为:
Figure 802114DEST_PATH_IMAGE012
其中,
Figure 111873DEST_PATH_IMAGE013
表示所述分数s i 经过Cross-Softmax后的交叉预测值,si 0中0表示标签为假值位置的分数,其中i表示在标签为假值时的第i个分数,sj 1中的1表示标签为真值位置的分数,其中j则表示标签为真值时的第j个分数。
5.根据权利要求1所述的基于预训练模型的交叉聚焦损失的溯因推理方法,其特征在于,所述训练损失函数的具体形式为:
Figure 182597DEST_PATH_IMAGE014
Figure 236004DEST_PATH_IMAGE015
其中,ε为1e-8,γ为聚焦参数,y为真实标签yi的集合,
Figure 810204DEST_PATH_IMAGE016
为交叉预测值
Figure 353181DEST_PATH_IMAGE013
的集合。
6.根据权利要求1所述的基于预训练模型的交叉聚焦损失的溯因推理方法,其特征在于,所述聚类因子
Figure 645622DEST_PATH_IMAGE017
的取值范围为:1/4≤
Figure 502720DEST_PATH_IMAGE018
≤1/2。
7.根据权利要求1所述的基于预训练模型的交叉聚焦损失的溯因推理方法,其特征在于,所述权重因子a的取值范围为:0.6≤a≤0.8。
8.根据权利要求5所述的基于预训练模型的交叉聚焦损失的溯因推理方法,其特征在于,所述聚焦参数γ的取值范围为:4≤γ≤6。
CN202110841128.0A 2021-07-26 2021-07-26 基于预训练模型的交叉聚焦损失的溯因推理方法 Active CN113283605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110841128.0A CN113283605B (zh) 2021-07-26 2021-07-26 基于预训练模型的交叉聚焦损失的溯因推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110841128.0A CN113283605B (zh) 2021-07-26 2021-07-26 基于预训练模型的交叉聚焦损失的溯因推理方法

Publications (2)

Publication Number Publication Date
CN113283605A CN113283605A (zh) 2021-08-20
CN113283605B true CN113283605B (zh) 2021-11-09

Family

ID=77287207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110841128.0A Active CN113283605B (zh) 2021-07-26 2021-07-26 基于预训练模型的交叉聚焦损失的溯因推理方法

Country Status (1)

Country Link
CN (1) CN113283605B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720583B (zh) * 2023-05-06 2024-05-14 中国人民解放军军事科学院国防科技创新研究院 基于概率溯因推理的观测状态解释方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014222434A (ja) * 2013-05-14 2014-11-27 日本電信電話株式会社 重み行列更新装置、その動作方法およびコンピュータプログラム
CN106997376A (zh) * 2017-02-28 2017-08-01 浙江大学 一种基于多级特征的问题和答案句子相似度计算方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN110245860A (zh) * 2019-06-13 2019-09-17 桂林电子科技大学 一种基于虚拟实验平台的自动评分的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014222434A (ja) * 2013-05-14 2014-11-27 日本電信電話株式会社 重み行列更新装置、その動作方法およびコンピュータプログラム
CN106997376A (zh) * 2017-02-28 2017-08-01 浙江大学 一种基于多级特征的问题和答案句子相似度计算方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN110245860A (zh) * 2019-06-13 2019-09-17 桂林电子科技大学 一种基于虚拟实验平台的自动评分的方法

Also Published As

Publication number Publication date
CN113283605A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
Ruby et al. Binary cross entropy with deep learning technique for image classification
Meng et al. Weakly-supervised hierarchical text classification
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN111460157B (zh) 用于多领域文本分类的循环卷积多任务学习方法
Kandhro et al. Sentiment analysis of students’ comment using long-short term model
CN112528668A (zh) 深层情感语义识别方法、系统、介质、计算机设备及终端
CN114722805B (zh) 基于大小导师知识蒸馏的少样本情感分类方法
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN111259147B (zh) 基于自适应注意力机制的句子级情感预测方法及系统
Ma et al. Jointly trained sequential labeling and classification by sparse attention neural networks
Sujana et al. Rumor detection on Twitter using multiloss hierarchical BiLSTM with an attenuation factor
Sarnovský et al. Fake news detection related to the covid-19 in slovak language using deep learning methods
CN113283605B (zh) 基于预训练模型的交叉聚焦损失的溯因推理方法
Saha et al. The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network
Patil et al. Hate speech detection using deep learning and text analysis
Cerulli Fundamentals of Supervised Machine Learning: With Applications in Python, R, and Stata
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Xia Label oriented hierarchical attention neural network for short text classification
Perez-Martin et al. Semantic search of memes on twitter
Akalya devi et al. Multimodal emotion recognition framework using a decision-level fusion and feature-level fusion approach
Khalafi et al. A hybrid deep learning approach for phenotype prediction from clinical notes
Jiang et al. Aspect-based sentiment analysis with adjustments to irrelevant sentimental-related features
Ma et al. Semi-supervised sentence classification based on user polarity in the social scenarios
Galanakis et al. Nearest Neighbor-Based Data Denoising for Deep Metric Learning
Reddy et al. Improving Student Grade Prediction Using Hybrid Stacking Machine Learning Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant