CN113032539A - 一种基于预训练神经网络的因果性问答对匹配方法 - Google Patents

一种基于预训练神经网络的因果性问答对匹配方法 Download PDF

Info

Publication number
CN113032539A
CN113032539A CN202110277668.0A CN202110277668A CN113032539A CN 113032539 A CN113032539 A CN 113032539A CN 202110277668 A CN202110277668 A CN 202110277668A CN 113032539 A CN113032539 A CN 113032539A
Authority
CN
China
Prior art keywords
causal
question
answer
classification
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110277668.0A
Other languages
English (en)
Inventor
任飞扬
蔡铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110277668.0A priority Critical patent/CN113032539A/zh
Publication of CN113032539A publication Critical patent/CN113032539A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预训练神经网络的因果性问答对匹配方法,该方法首先利用预训练模型BERT对问题句子和候选答案句子进行编码得到相应的句子嵌入;然后模型通过卷积或链接方式充分利用句子嵌入的上下文信息,并根据问答句子对的分类特征、上下文的局部显著特征和整体特征得到问答句子对相关的因果特征;最后由全连接网络构成的分类器判断因果极性。本发明充分利用了预训练模型学到的上下文相关的编码信息,能捕获问答句子对编码的因果特征,在COPA和SOCIAL IQA两个关于因果性问答对的数据集上的匹配效果可以达到目前研究的先进水平。

Description

一种基于预训练神经网络的因果性问答对匹配方法
技术领域
本发明属于因果性问答对匹配领域,尤其涉及一种基于预训练神经网络的因果性问答对匹配方法。
背景技术
现有技术仅仅利用预训练模型输出的一个分类标记来衡量问答句子对的匹配程度,这种方法往往考量的是两个句子的语义相似度,对于因果性的问答句子对匹配任务而言,仅利用分类标记作为特征向量不足以充分涵盖因果性信息。例如,给出一个句子A:“Ifelt exhausted.”,而要预测的下一句话有两个候选项,分别是,(a):“I went to bedearly.”;(b):“I stayed up all night.”,要求是在选项(a)和选项(b)中选择合理的一项作为句子A的结果(effect)。从语义相似性的角度上看选项(b)和句子A更加匹配,两者都有“我已经精疲力尽”的意思。但是在因果性匹配任务中,要求下一句话是“effect”的前提下,选项(a)显然更加合理,因为“累了就早点上床休息”更加符合人类的生活习性。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于预训练神经网络的因果性问答对匹配方法。
本发明的目的是通过以下技术方案来实现的:一种基于预训练神经网络的因果性问答对匹配方法,包括以下步骤:
(1)构建因果性问答对分类网络:所述因果性问答对分类网络由输入层、编码层、特征提取层和分类层依次组成。
所述输入层将问题句子和候选答案句子的单词记号通过词典索引转化为词嵌入。
所述编码层将词嵌入输入预训练模型BERT;预训练模型BERT的最后一层隐藏层的输出包括问答句子对的分类特征和上下文相关的编码信息。
所述特征提取层根据预训练模型BERT输出的问答句子对的分类特征和上下文相关的编码信息,得到问答句子对相关的因果特征,使用卷积或链接的方式实现。
所述分类层为由全连接网络构成的分类器,根据问答句子对相关的因果特征输出候选答案句子的因果性匹配分数和非因果性匹配分数,两者之和为1。
(2)训练因果性问答对分类网络:输入问题句子和候选答案句子以及对应的因果极性匹配分数进行训练;因果极性包括因果性和非因果性。
(3)将待测的问答句子对输入步骤(2)训练的因果性问答对分类网络,计算出待测的问答句子对的因果极性匹配分数,获得因果极性判断结果。
进一步地,所述因果性问答对分类网络采用的优化函数为随机梯度下降,损失函数为交叉熵损失。
进一步地,所述编码层中,问答句子对的分类特征来源于预训练模型BERT的[CLS]所表示的分类嵌入。
进一步地,所述特征提取层中,将上下文相关的编码信息经过最大池化得到上下文的局部显著特征;将上下文相关的编码信息经过平均池化得到上下文的整体特征。
进一步地,所述特征提取层以卷积的方式实现时,相应的模型为因果性问答对分类卷积网络。特征提取层采用通道为3宽度为2的卷积核,将问答句子对的分类特征、上下文的局部显著特征和整体特征分别输入卷积核的三个通道,得到问答句子对相关的因果特征。
进一步地,所述因果性问答对分类卷积网络选择ReLU函数作为激活函数。
进一步地,所述特征提取层以链接的方式实现时,相应的模型为因果性问答对分类链接网络。特征提取层将问答句子对的分类特征、上下文的局部显著特征和整体特征依次串联拼接至同一个向量空间中,得到问答句子对相关的因果特征。
进一步地,所述分类层采用softmax回归的方法。
进一步地,步骤(2)中,训练时,具有因果性的候选答案句子对应的因果性匹配分数为1,非因果性匹配分数为0;不具有因果性的候选答案句子对应的因果性匹配分数为0,非因果性匹配分数为1。
进一步地,匹配分数较高的因果极性为候选答案句子的因果极性判断结果。
本发明的有益效果是:本发明把因果性问答对匹配任务转化成基于预训练模型的问答句子对分类任务,即计算句子A和选项(a)、选项(b)的匹配分数,之后模型通过比较两者分数的高低做出抉择。本发明能捕获问答句子对编码的因果特征,匹配更符合因果关系的答案;在COPA和SOCIAL IQA两个关于因果性问答对的数据集上的匹配效果可以达到目前研究的先进水平。
附图说明
图1是本发明的CNet-Conv模型结构示意图;
图2是本发明的CNet-Concat模型结构示意图。
具体实施方式
本发明一种基于预训练神经网络的因果性问答对匹配方法,用于实现单项选择型的因果性问答对匹配任务,其本质上是问答句子对的分类任务,即通过计算问答句子对的得分来衡量两个句子互为因果性的程度,从而在较少的答案候选项中选择最为合理的一项。
本发明具体包括以下步骤:
(1)构建因果性问答对分类网络(CNet):所述因果性问答对分类网络由输入层、编码层、特征提取层和分类层依次组成;采用的优化函数为随机梯度下降,损失函数为交叉熵损失。
所述输入层将问题句子和候选答案句子(问答句子对)的单词记号通过词典索引转化为词嵌入。并且输入层在句子对头部插入[CLS]标志符,在句子对之间插入[SEP]标志符,在句子对末尾加入[SEP]标志符。
所述编码层将词嵌入输入预训练模型BERT;预训练模型BERT的最后一层隐藏层的输出为问答句子对的分类特征和上下文相关的编码信息;其中,问答句子对的分类特征来源于预训练模型BERT的[CLS]所表示的分类嵌入。
所述特征提取层使用卷积和链接两种方式实现,相应的模型分别命名为因果性问答对分类卷积网络CNet-Conv和因果性问答对分类链接网络CNet-Concat。两种模型的特征提取层都充分利用到预训练模型输出的上下文相关的编码信息,对上下文相关的编码信息采用时序最大池化max-over-time pooling的方法得到上下文的局部显著特征,对上下文相关的编码信息采用时序平均池化mean-over-time pooling的方法得到上下文的整体特征;再根据问答句子对的分类特征、上下文的局部显著特征和整体特征,得到问答句子对相关的因果特征。
如图1所示,CNet-Conv模型的特征提取层以卷积的方式实现,选择ReLU函数作为激活函数,可以有效地抑制和因果不相关的信息,更多地关注于因果相关的特征。卷积过程中采用了通道为3宽度为2的卷积核,将问答句子对的分类特征、上下文的局部显著特征和整体特征分别输入卷积核的三个通道,同时考虑三者对因果极性判断的影响,得到问答句子对相关的因果特征。所述因果极性包括问答句子对蕴含的因果性和非因果性。
如图2所示,CNet-Concat模型的特征提取层以链接的方式实现。将问答句子对的分类特征、上下文的局部显著特征和整体特征依次串联拼接至同一个向量空间中,得到问答句子对相关的因果特征。
所述分类层为由全连接网络构成的分类器,采用softmax回归的方法,根据问答句子对相关的因果特征输出候选答案句子的因果性匹配分数和非因果性匹配分数;两者之和为1,因果性匹配分数为具有因果性的概率,非因果性匹配分数为不具有因果性的概率。
(2)训练因果性问答对分类网络:输入问题句子和候选答案句子以及对应的因果极性进行训练;训练时,具有因果性的候选答案句子对应的因果性匹配分数为1,非因果性匹配分数为0;不具有因果性的候选答案句子对应的因果性匹配分数为0,非因果性匹配分数为1。
(3)将待测的问答句子对输入步骤(2)训练的因果性问答对分类网络,计算出问答句子对的因果极性匹配分数,匹配分数较高的因果极性为候选答案句子的因果极性判断结果。
本实施例在COPA和SOCIAL IQA数据集上进行了评测。COPA包含1000个常识问题,用于自然语言处理的研究,可以评估模型因果推理的能力;SOCIAL IQA是关于社会情况的常识推理的大规模数据集。SOCIAL IQA包含38000个左右的选择题,聚焦于人们日常生活中情绪和社交方面的推理。实验结果为,在COPA数据集上,CNet-Conv的分类准确率为78.6%,CNet-Concat的分类准确率为77.4%;在SOCIAL IQA数据集上,CNet-Conv的分类准确率为65.6%,CNet-Concat的分类准确率为63.58%。通过多种对比方法的比较实验,CNet-Conv模型在两个数据集上均取得较高的准确率。综上所述,有理由相信在模型中加入上下文相关的显著局部特征和整体特征,非常有助于提升问答句子对因果性匹配的效果。

Claims (10)

1.一种基于预训练神经网络的因果性问答对匹配方法,其特征在于,包括以下步骤:
(1)构建因果性问答对分类网络:所述因果性问答对分类网络由输入层、编码层、特征提取层和分类层依次组成。
所述输入层将问题句子和候选答案句子的单词记号通过词典索引转化为词嵌入。
所述编码层将词嵌入输入预训练模型BERT;预训练模型BERT的最后一层隐藏层的输出包括问答句子对的分类特征和上下文相关的编码信息。
所述特征提取层根据预训练模型BERT输出的问答句子对的分类特征和上下文相关的编码信息,得到问答句子对相关的因果特征,使用卷积或链接的方式实现。
所述分类层为由全连接网络构成的分类器,根据问答句子对相关的因果特征输出候选答案句子的因果性匹配分数和非因果性匹配分数,两者之和为1。
(2)训练因果性问答对分类网络:输入问题句子和候选答案句子以及对应的因果极性匹配分数进行训练;因果极性包括因果性和非因果性。
(3)将待测的问答句子对输入步骤(2)训练的因果性问答对分类网络,计算出待测的问答句子对的因果极性匹配分数,获得因果极性判断结果。
2.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,所述因果性问答对分类网络采用的优化函数为随机梯度下降,损失函数为交叉熵损失。
3.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,所述编码层中,问答句子对的分类特征来源于预训练模型BERT的[CLS]所表示的分类嵌入。
4.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,所述特征提取层中,将上下文相关的编码信息经过最大池化得到上下文的局部显著特征;将上下文相关的编码信息经过平均池化得到上下文的整体特征。
5.根据权利要求4所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,所述特征提取层以卷积的方式实现时,相应的模型为因果性问答对分类卷积网络。特征提取层采用通道为3宽度为2的卷积核,将问答句子对的分类特征、上下文的局部显著特征和整体特征分别输入卷积核的三个通道,得到问答句子对相关的因果特征。
6.根据权利要求5所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,所述因果性问答对分类卷积网络选择ReLU函数作为激活函数。
7.根据权利要求4所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,所述特征提取层以链接的方式实现时,相应的模型为因果性问答对分类链接网络。特征提取层将问答句子对的分类特征、上下文的局部显著特征和整体特征依次串联拼接至同一个向量空间中,得到问答句子对相关的因果特征。
8.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,所述分类层采用softmax回归的方法。
9.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,步骤(2)中,训练时,具有因果性的候选答案句子对应的因果性匹配分数为1,非因果性匹配分数为0;不具有因果性的候选答案句子对应的因果性匹配分数为0,非因果性匹配分数为1。
10.根据权利要求9所述基于预训练神经网络的因果性问答对匹配方法,其特征在于,匹配分数较高的因果极性为候选答案句子的因果极性判断结果。
CN202110277668.0A 2021-03-15 2021-03-15 一种基于预训练神经网络的因果性问答对匹配方法 Pending CN113032539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110277668.0A CN113032539A (zh) 2021-03-15 2021-03-15 一种基于预训练神经网络的因果性问答对匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110277668.0A CN113032539A (zh) 2021-03-15 2021-03-15 一种基于预训练神经网络的因果性问答对匹配方法

Publications (1)

Publication Number Publication Date
CN113032539A true CN113032539A (zh) 2021-06-25

Family

ID=76470676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110277668.0A Pending CN113032539A (zh) 2021-03-15 2021-03-15 一种基于预训练神经网络的因果性问答对匹配方法

Country Status (1)

Country Link
CN (1) CN113032539A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177376A (zh) * 2019-12-17 2020-05-19 东华大学 一种基于bert与cnn层级连接的中文文本分类方法
CN111581966A (zh) * 2020-04-30 2020-08-25 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN111831789A (zh) * 2020-06-17 2020-10-27 广东工业大学 一种基于多层语义特征提取结构的问答文本匹配方法
CN112163429A (zh) * 2020-09-27 2021-01-01 华南理工大学 结合循环网络及bert的句子相关度获取方法、系统及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177376A (zh) * 2019-12-17 2020-05-19 东华大学 一种基于bert与cnn层级连接的中文文本分类方法
CN111581966A (zh) * 2020-04-30 2020-08-25 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN111831789A (zh) * 2020-06-17 2020-10-27 广东工业大学 一种基于多层语义特征提取结构的问答文本匹配方法
CN112163429A (zh) * 2020-09-27 2021-01-01 华南理工大学 结合循环网络及bert的句子相关度获取方法、系统及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
风度78: "二分类问题:基于BERT的文本分类时间!附完整代码", 《HTTP://BLOG.CSDN.NET/FENGDU78/ARTICEL/DETAILS/104958643》 *

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN111274800B (zh) 基于关系图卷积网络的推理型阅读理解方法
CN110347847B (zh) 基于神经网络的知识图谱补全方法
WO2021164200A1 (zh) 一种基于深度分层编码的智能语义匹配方法和装置
CN111581350A (zh) 一种基于预训练语言模型的多任务学习阅读理解方法
CN112417894B (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN111460176B (zh) 一种基于哈希学习的多文档机器阅读理解方法
CN113987179A (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN113590799B (zh) 一种基于多视角推理的弱监督知识图谱问答方法
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
CN111626041B (zh) 一种基于深度学习的音乐评论生成方法
CN112417884A (zh) 一种基于知识增强和知识迁移的句子语义相关度判断方法
CN109344242A (zh) 一种对话问答方法、装置、设备及存储介质
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN112926323A (zh) 基于多级残差卷积与注意力机制的中文命名实体识别方法
CN110826341A (zh) 一种基于seq2seq模型的语义相似度计算方法
CN116205227A (zh) 一种基于变分推断理论的关键词生成方法及系统
CN113032539A (zh) 一种基于预训练神经网络的因果性问答对匹配方法
CN110929006A (zh) 一种数据型问答系统
CN115293142A (zh) 一种基于词典增强预训练模型的常识问答方法
CN114648017A (zh) 一种基于异质图注意力网络的文档级关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210625

WD01 Invention patent application deemed withdrawn after publication