CN114638195A - 一种基于多任务学习的立场检测方法 - Google Patents

一种基于多任务学习的立场检测方法 Download PDF

Info

Publication number
CN114638195A
CN114638195A CN202210069337.2A CN202210069337A CN114638195A CN 114638195 A CN114638195 A CN 114638195A CN 202210069337 A CN202210069337 A CN 202210069337A CN 114638195 A CN114638195 A CN 114638195A
Authority
CN
China
Prior art keywords
task
text
emotion
graph
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210069337.2A
Other languages
English (en)
Other versions
CN114638195B (zh
Inventor
廖清
柴合言
丁烨
李肯立
高翠芸
方滨兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Hunan University
Dongguan University of Technology
Original Assignee
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Hunan University
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology, Hunan University, Dongguan University of Technology filed Critical Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority to CN202210069337.2A priority Critical patent/CN114638195B/zh
Publication of CN114638195A publication Critical patent/CN114638195A/zh
Application granted granted Critical
Publication of CN114638195B publication Critical patent/CN114638195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多任务学习的立场检测方法。该方法通过将输入文本输入至多任务图网络模型,得到输入文本的立场检测极性和情感分类极性;所述多任务图网络模型为图卷积神经网络模型,多任务图网络模型包括文本输入处理模块、任务交互模块和任务相关注意力模块;文本编码模块用于将输入文本处理成多个词向量;任务交互模块用于构建立场相关图和情感相关图,并采用迭代交互异质图更新方法对立场相关图和情感相关图进行更新;任务相关注意力模块用于根据立场相关图的立场特征表示和情感相关图的情感特征表示计算输入文本的检测立场的极性和分类情感的极性。本发明技术方案提高了针对推文文本进行立场检测的准确性。

Description

一种基于多任务学习的立场检测方法
技术领域
本发明涉及立场检测技术领域,尤其涉及一种基于多任务学习的立场检测方法。
背景技术
立场检测是自然语言处理领域中一项基本的文本分析任务,主要内容是:识别文本作者对于某个特定的目标(如实体、事件、人物、观点、主题等)的立场或者态度(例如,支持、反对和保持中立)。立场检测任务对于机器理解自然语言来说是至关重要的。目前的新闻文本都是短文本,运用深度学习方法来识别其立场会造成欠拟合的问题,大大降低了模型的检测准确率。
现有的立场检测方法主要分为单任务学习方法和多任务学习方法,其中单任务学习方法大致分为两类:(1)使用传统的机器学习技术,如支持向量机(SVM、决策树、随机森林等。这类方法需要耗费大量的时间来进行特征工程,人工提取特征,然后输入到机器学习模型里面训练。这种方法代价太高,太依赖手工提取特征,不利于扩展到其他大规模的文本分类任务。(2)使用深度学习方法,构建深度学习模型,不需要手动提特征,让神经网络自动学习到有用的特征,例如,长短期记忆网络(LSTM)、卷积神经网络(CNN)、词向量模型(Bert)、注意力模型(Attention)等。但是由于深度学习模型需要较多的训练数据才能发挥其强大的表征能力,本发明是针对短新闻文本,文本较短,会带来欠拟合问题,从而带来性能的下降。
现有基于多任务学习的方法来进行立场检测的方法较少,主要是引入辅助任务(如情感分析任务、目标分类任务、目标文本相关任务等)来帮助主任务(立场检测任务)的性能。这些方法都忽略了联合训练的各个任务基于词级别的交互关系,没有充分利用任务之间的信息共享来提升各个任务的表现。同时也忽略辅助任务的表现,仅仅关注主任务的性能,没有发挥出多任务学习方法的优势,进而降低了模型的整体性能。因此,造成现有技术对推文文本进行立场检测时的准确率较低。
发明内容
本发明提供一种基于多任务学习的立场检测方法,提高了针对推文文本进行立场检测的准确性。
本发明一实施例提供一种基于多任务学习的立场检测方法,包括以下步骤:
将输入文本输入至多任务图网络模型,得到所述输入文本的立场检测极性和情感分类极性;所述多任务图网络模型为图卷积神经网络模型,所述多任务图网络模型包括文本输入处理模块、任务交互模块和任务相关注意力模块;所述输入文本包括推文文本和目标文本;
所述文本编码模块用于将输入文本处理成多个词向量,以供所述任务交互模块和任务相关注意力模块使用;
所述任务交互模块用于构建立场相关图和情感相关图,并采用迭代交互异质图更新方法对所述立场相关图和情感相关图进行更新;
所述任务相关注意力模块用于根据所述立场相关图的立场特征表示和情感相关图的情感特征表示计算输入文本的检测立场的极性和分类情感的极性。
进一步的,所述采用迭代交互异质图更新方法对所述立场相关图和情感相关图进行更新,具体为根据以下公式更新所述立场相关图和情感相关图:
Figure BDA0003481418070000021
Figure BDA0003481418070000022
式中I是单位矩阵,σ是非线性激活函数,l表示当前迭代的网络层数,
Figure BDA0003481418070000023
表示情感任务图的邻接矩阵,
Figure BDA0003481418070000031
表示立场任务图的邻接矩阵;
Figure BDA0003481418070000032
Figure BDA0003481418070000033
j表示邻接矩阵对角线填充1,
Figure BDA0003481418070000034
表示第l层网络的参数,task∈{st,se}。
进一步的,构建立场相关图和情感相关图,包括以下步骤:
根据所述推文文本的句法结构构建第一句法依赖树,并获取所述第一句法依赖树的根词集合;
根据所述目标文本和所述根词集合之间的单词连接关系,将所述目标文本中的单词添加至所述第一句法依赖树中,得到输入文本的第二句法依赖树;
计算所述推文文本的第一语用权重和第二语用权重,以及所述目标文本的第三语用权重,所述第一语用权重为所述推文文本的各个单词在立场检测任务中的语用权重,所述第二语用权重为所述推文文本的各个单词在情感分类任务中的语用权重;
根据所述第一语用权重、第三语用权重和第二句法依赖树构建所述立场相关图,根据所述第二语用权重和第二句法依赖树构建所述情感相关图。
进一步的,所述多任务图网络模型目标函数为立场检测与情感分析任务的损失函数的线性组合,所述具体为:
Figure BDA0003481418070000035
式中Θ为所述多任务图网络模型模型的参数,λ1、λ2、λ3是对应损失项的系数。d为第d条推文文本,
Figure BDA0003481418070000036
为所有推文文本的集合,
Figure BDA0003481418070000037
为模型所预测出来的第d条推文的情感任务标签,
Figure BDA0003481418070000038
为模型所预测出来的第d条推文的立场任务的标签,ytask|task={st,se}为所述多图稀疏交互网络模型预测的立场检测极性和情感分类极性。
进一步的,根据以下公式计算所述立场相关图的立场特征表示rst
Figure BDA0003481418070000041
式中α为立场特征表示的注意力权重,hi为第i个词经过BERT模型编码后的特征向量,m+n表示所述输入文本的长度。
进一步的,根据以下公式计算所述情感相关图的情感特征表示rse
Figure BDA0003481418070000042
式中α‘为情感特征表示的注意权重,
Figure BDA0003481418070000043
为情感相关图的输出gse中第i个节点的特征表示,m+n表示所述输入文本的长度。
进一步的,根据以下公式计算输入文本的检测立场和分类情感的极性:
ytask=softmax(Wtaskrtask+btask);
式中ytask|task={st,se}为所述多图稀疏交互网络模型预测的立场检测极性和情感分类极性,Wtask|task={st,se}为全连接层的权重,btask为Wtask对应的偏置,rtask|task={st,se}为立场特征表示和情感特征表示,softmax为激活函数。
本发明的实施例,具有如下有益效果:
本发明提供了一种基于多任务学习的立场检测方法,该方法通过采用迭代交互异质图更新方法将情感分析任务联合立场检测任务进行模型训练以帮助任务进行信息共享,并通过构建立场相关图和情感相关图来捕捉任务细粒度的交互关系,即不同的单词对于不同的任务的重要性不同,有针对性的捕捉任务之间基于词级别的关系,从而促进了任务之间有用信息的共享,提升了所述多任务图网络模型针对立场检测任务和情感分析任务的性能,即提高了针对推文文本进行立场检测的准确性。
附图说明
图1是本发明一实施例提供的多任务图网络模型的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供的一种基于多任务学习的立场检测方法,包括以下步骤:
将输入文本输入至多任务图网络模型,得到所述输入文本的立场检测极性和情感分类极性;所述多任务图网络模型为图卷积神经网络模型,所述多任务图网络模型包括文本输入处理模块、任务交互模块和任务相关注意力模块;所述输入文本包括推文文本和目标文本;
所述文本编码模块用于将输入文本处理成多个词向量,以供所述任务交互模块和任务相关注意力模块使用;
所述任务交互模块用于构建立场相关图和情感相关图,并采用迭代交互异质图更新方法对所述立场相关图和情感相关图进行更新;
所述任务相关注意力模块用于根据所述立场相关图的立场特征表示和情感相关图的情感特征表示计算输入文本的检测立场的极性和分类情感的极性。
作为其中一种实施例,所述文本编码模块使用BERT来编码推文文本内容C和目标文本中的目标词T。首先将推文文本内容C和目标词T拼接起来形成输入文本S,其中S={t1,…,tm,w1,w2,…,wn}。然后将处理成BERT模型的输入格式:[CLS]t1…ymw1w2…wn[SEP]。再将其输入到BERT网络模型以捕捉输入文本的上下文特征。其过程可由如下公式定义:
H=BERT(S)
其中,H是BERT网络模型的输出,H={h1,h2,…,hm+n}。其中H中的每一个元素为输入文本中一个词的特征表示,
Figure BDA0003481418070000051
为第t个词包含上下文信息的特征表示。所述文本输入处理模块主要用于处理输入文本,包括推文文本内容和目标文本内容,将其处理成计算机能够处理的格式,即将每个单词映射成一个词向量,然后将所有单词的词向量组成一个矩阵,就得到整个输入文本的向量矩阵,最后使用一个Bi-LSTM网络模型来训练输入文本的向量矩阵,使得每个单词的词向量能够捕捉与上下文相关的特征信息,从而使得词向量能够适应输入文本的内容。
作为其中一种实施例,构建所述立场相关图和情感相关图,包括以下步骤:
根据所述推文文本的句法结构构建第一句法依赖树,并获取所述第一句法依赖树的根词集合;
根据所述目标文本和所述根词集合之间的单词连接关系,将所述目标文本中的单词添加至所述第一句法依赖树中,得到输入文本的第二句法依赖树;
计算所述推文文本的第一语用权重和第二语用权重,以及所述目标文本的第三语用权重,所述第一语用权重为所述推文文本的各个单词在立场检测任务中的语用权重,即利用单词与立场标签(“支持”和“反对”)在整个语料中的相对共现频率和词频计算得到词关于立场任务的语用权重;所述第二语用权重为所述推文文本的各个单词在情感分类任务中的语用权重,即利用单词与情感标签在整个语料中的相对共现频率和词频计算得到词关于立场任务的语用权重。所述语用权重是指推文中的词对于特定的目标的依赖关系(或影响)。
根据所述第一语用权重、第三语用权重和第二句法依赖树构建所述立场相关图,根据所述第二语用权重和第二句法依赖树构建所述情感相关图。
具体地,使用句法分析工具对每条推文文本进行句法分析以构建句法依赖树;并通过将单词表示为图的节点(即图的节点为推文文本中的每个词的词向量),将句法依赖树中单词之间的关系表示为节点之间的连接线,以构建目标文本T和推文文本C的基图
Figure BDA0003481418070000061
包括以下步骤:
根据所述推文文本C的句法结构构建第一句法依赖树
Figure BDA0003481418070000062
并通过句法解析器获取所述第一句法依赖树的根词集合wr
由于目标文本T不是一个完整的句子,而是一个短语或者单词,无法被建模成一棵句法依赖树,因此,本发明实施例根据所述目标文本和所述根词集合之间的单词连接关系,将所述目标文本中的单词添加至所述第一句法依赖树中,得到所述输入文本S的第二句法依赖树
Figure BDA0003481418070000071
所述第二句法依赖树
Figure BDA0003481418070000072
的计算公式如下:
Figure BDA0003481418070000073
式中,wr表示第一句法依赖树
Figure BDA0003481418070000074
的根词,
Figure BDA0003481418070000075
表示输入文本S的第二句法依赖树
Figure BDA0003481418070000076
wi和wj表示推文文本和目标文本构成的输入文本S中的任意两个不相同的词。
为了捕捉输入文本中单词的重要性和单词之间的交互特征,需要计算不同任务的单词的语用权重和单词的词频。计算所述输入文本中每个单词在整个语料库中出现的频率
Figure BDA0003481418070000077
式中N(wi)为单词wi出现在语料库中的次数,N为语料库中所有的单词的数量。本发明实施例针对不同的任务计算单词在不同任务中的语用权重,包括第一语用权重φtask(wi)|task=stance和第二语用权重φtask(wi)|task=sentiment,在计算第一语用权重和第二语用权重时只考虑了有实际意义的类别来计算,忽略了中立的态度和中性的情感这两个不包含有用信息的类别,其具体计算过程如下式所示:
Figure BDA0003481418070000078
Figure BDA0003481418070000079
式中N(wi,label+)和N(wi,label-)分别表示词wi出现在立场任务标签“支持”和“反对”中的数量,或者分别表示词wi出现在情感任务标签“积极”和“消极”中的数量;N(label+)和N(label-)分别表示立场任务标签“支持”和“反对”的总数量,或者分别表示情感任务标签“积极”和“消极”的总数量,μ为均值,δ为标准差。
根据公式φtask(sj)=1,sj∈T and
Figure BDA00034814180700000710
计算所述目标文本的第三语用权重。所述目标文本的第三语用权重用于建立目标文本和推文文本之间的联系,即构造图中目标文本和推文文本之间的边。
根据所述第一语用权重、第三语用权重和第二句法依赖树计算所述立场相关图的第一邻接矩阵,进而根据所述第一邻接矩阵得到所述立场相关图。
根据所述第二语用权重和第二句法依赖树计算所述情感相关图的第二邻接矩阵,进而根据所述二邻接矩阵得到所情感相关图。
具体地,根据以下公式计算所述第一邻接矩阵和第二邻接矩阵:
Figure BDA0003481418070000081
式中sj和si为输入文本中的单词。
作为其中一种实施例,采用迭代交互异质图更新方法对所述立场相关图和情感相关图进行更新;具体地,本发明实施例采用一种迭代交互异质图更新方法来训练立场相关图和情感相关图,以进行任务之间基于词级别的交互,从而提升所述多任务图网络模型对于各个任务的表现力。所述迭代交互异质图更新方法具体为:首先将图的节点初始化为经过BERT编码的词向量,经过一轮迭代后,分别获得立场图的节点表示和情感图的节点表示,然后将立场图的节点特征
Figure BDA0003481418070000082
输入到情感图中进行立场图和情感图交换,将情感图的节点特征
Figure BDA0003481418070000083
输入到立场图中进行两个任务之间的交互,以捕捉任务之间的关系。其中通过卷积神经网络对第l层的图的结点特征来行更新,具体过程如下:
根据以下公式更新所述立场相关图和情感相关图(即采用迭代交互异质图更新方法进行更新):
Figure BDA0003481418070000084
Figure BDA0003481418070000085
式中I是单位矩阵,σ是非线性激活函数,
Figure BDA0003481418070000091
Figure BDA0003481418070000092
j表示邻接矩阵对角线填充1,
Figure BDA0003481418070000093
Figure BDA0003481418070000094
为图卷积网络卷积核的特征向量和常规图卷积神经网络更新的参数;l表示图的网络层数,
Figure BDA0003481418070000095
为第二邻接矩阵,
Figure BDA0003481418070000096
为第一邻接矩阵。
本发明实施例的任务交互模块用于构建立场相关图和情感相关图,将输入文本中的每个单词表示为图的节点,单词的任务相关的语用权重为边,分别构造立场相关图和情感相关图;同时对所述立场相关图和情感相关图进行基于词级别的迭代交互更新(即采用迭代交互异质图更新方法进行更新),使得各个任务能够吸收来自于其他任务的对任务训练有帮助的信息,从而能够获得包含更丰富特征的任务表达,帮助所述多任务图网络模型提高针对各个任务的预测准确率。
作为其中一种实施例,对所述立场相关图和情感相关图进行迭代更新后,得到立场相关图和情感相关图的输出,即立场相关图节点和情感相关图节结点更新后的表征,然后将图的输出输入到任务相关的注意力模块中,获得与目标词更相关的更丰富的立场任务表征和情感任务的表征,再根据得到的立场任务表征和情感任务表征来进行立场检测和情感分类。具体地,在所述任务相关注意力模块获取立场相关图的立场特征表示gst和情感相关图的情感特征表示gse。对于立场检测任务来说,为了获得目标相关的立场特征表示,需要采用掩码机制过滤掉非目标词,具体地,通过设计mask矩阵,将目标词对应位置置1,非目标词对应位置置0,从而得到mask后的立场相关图的特征表示
Figure BDA0003481418070000097
Figure BDA0003481418070000098
再使用基于检索的注意力机制来获取与目标词相关的更丰富的立场特征表示,所述立场特征表示的注意力权重α根据下式计算得出:
Figure BDA0003481418070000099
Figure BDA00034814180700000910
式中,h为所述BERT网络模型的输出,
Figure BDA0003481418070000101
表示第t个词经过BERT网络模型编码后的特征表示;m+n表示输入文本中词的长度(目标文本的长度为m,推文文本的长度n),
Figure BDA0003481418070000102
表示立场相关图经过mask矩阵转换后的输出
Figure BDA0003481418070000103
中第i个节点(即第i个词向量)的特征表示,βt表示第t个词向量的注意力权重,βi为第i个词向量的情感表征的注意力权重,αt表示第t个词向量的注意力权重经过归一化的注意力权重。所述立场特征表示的注意力权重表示推文中所有词对立场表征的注意力。
再根据下式计算立场相关图的立场特征表示rst
Figure BDA0003481418070000104
hi为第i个词经过所述BERT模型编码后的特征向量,αi为第i个词向量的立场特征表示的注意力权重。
同理,根据公式(4)-(6)计算情感相关图的情感特征表示rse
Figure BDA0003481418070000105
Figure BDA0003481418070000106
Figure BDA0003481418070000107
Figure BDA0003481418070000108
表示情感相关图的输出gse中第i个节点的特征表征,m+n表示输入文本中词的长度(目标文本的长度为m,推文文本的长度n),
Figure BDA0003481418070000109
表示第t个词经过BERT编码后的特征表示,β’t为第t个词向量的情感表征的注意力权重,β’i为第i个词向量的情感表征的注意力权重。
得到最终的立场特征表示rst和情感特征表示rse后,使用一层全连接层来融合文本特征和丰富的上下文特征,并得到所述输入文本的检测立场的极性和分类情感的极性:
ytask=softmax(Wtaskrtask+btask)
式中,ytask|task={st,se}为所述多任务图网络模型预测的立场检测极性和情感分类极性,Wtask|task={st,se}为全连接层的权重,btask为对应的偏置,softmax为激活函数。
最后,整个多图稀疏交互模块的目标函数为立场检测任务与情感分析任务的损失函数的线性组合:
Figure BDA0003481418070000111
式中Θ为所述多任务图网络模型模型的参数,λ1、λ2、λ3是对应损失项的系数。d为第d条推文文本,
Figure BDA0003481418070000112
为所有推文文本的集合,
Figure BDA0003481418070000113
为模型所预测出来的第d条推文的情感任务标签,
Figure BDA0003481418070000114
为模型所预测出来的第d条推文的立场任务的标签。
本发明实施例的任务相关注意力模块用于计算最终的所述立场相关图的立场特征表示和情感相关图的情感特征表示,并根据立场特征表示和情感特征表示来进行立场检测和情感分类。所述任务相关注意力模块首先是聚合立场相关图和情感相关图的输出,获得立场相关图的特征表示和情感相关图的特征表示,然后使用注意力机制来分别计算与立场任务的目标词相关的推文文本词的注意力权重和情感任务的推文文本词之间的注意力权重,最后加权求和得到最终的立场任务的表达和情感任务表达(即最终的立场特征表示和情感特征表示)。
现有的多任务立场检测方法没有深入地考虑到任务之间的交互关系,也没有充分进行任务间信息共享,因此无法提高立场检测和情感分类的准确率。本发明通过构建异构的任务相关语用图来捕捉单词之间与任务相关的语用关系,本发明实施例能同时检测推文文本的立场和识别出其情感极性,并能提高其准确性。同时,通过为每个任务构建异构的任务相关语用图和设计任务交互模块,以捕获各个任务的词级交互。
本发明实施例致力于解决目前基于多任务学习的立场检测方法忽略了任务之间细粒度的交互从而导致任务表现下降的问题,即目前的多任务立场检测方法仅仅使用硬参数共享的方式简单地联合两个任务进行训练,没有考虑到多任务细粒度的交互问题,从而带来性能瓶颈。本发明实施例通过情感分析任务联合立场检测任务进行模型训练。并通过构建任务相关的图来捕捉了任务细粒度的交互关系,即不同的单词对于不同的任务的重要性不同,有针对性的捕捉任务之间基于词级别的关系,从而促进任务之间有用信息的共享。本发明通过构建任务相关的图来捕捉任务之间基于词级别的交互关系,从而促进任务之间有用信息的共享,提升了所述多任务图网络模型针对立场检测任务和情感分析任务的性能。
目前基于多任务学习的立场检测方法存在以下问题:(1)都是采用辅助任务形式,即不关注辅助任务的性能,辅助任务只用来帮助提升主任务的表现,这跟多任务学习的目标是不一致的(多任务学习方法能够同时提升所有任务的表现)。本发明实施例提出的基于多任务学习的立场检测方法能够同时提升立场检测的准确率和情感分类的准确率;(2)现有的多任务学习的立场检测方法在进行任务之间信息交互时,仅仅考虑简单地提取两个任务的特征然后简单拼接起来进行交互,这是基于整个任务特征层面的信息交互(即只考虑了句子层面之间的信息交互),这种粗粒度的交互关系,忽略了任务之间的关系的复杂性,认为任务之间的交互都是对称等价的,实际上,任务之间的关系是十分复杂的且在不同的维度上是不一样的。现有技术方案完全没有考虑到输入文本中的词对于不同任务的重要性是不同的这个问题,在设计任务交互时没有充分考虑到任务之间在词水平上的关系。从而导致了现有的模型无法保证各个任务之间的信息共享是充分的,即大部分情况下任务之间进行共享的信息对整个多任务模型没有用的,不能帮助立场检测模型提高性能,反而带来会带来很大的信息冗余,从而在整个任务共享网络中产生较大的负迁移(即任务A从任务B中吸收信息后,反而降低了任务A的表现),一旦任务共享中产生了很大的负迁移,带来了很大的任务噪声,那么所有任务的性能都会下降。针对任务之间信息交互产生较大负迁移问题,本发明实施例提出一种在词级别的多任务交互方法,让各个任务在交互时能够学到哪些词之间信息共享是有利于提升多任务性能的,哪些词之间的交互信息是对模型没有用的会产生较大负迁移和影响多任务模型的性能,通过抑制这种产生负迁移的词之间的信息共享,从而提升多任务共享网络的效率,最终使得所述多任务图网络模型的所有任务都能在任务共享中吸收到有用的信息,提高了所述多任务图网络模型的任务表现力。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (7)

1.一种基于多任务学习的立场检测方法,其特征在于,
将输入文本输入至多任务图网络模型,得到所述输入文本的立场检测极性和情感分类极性;所述多任务图网络模型为图卷积神经网络模型,所述多任务图网络模型包括文本输入处理模块、任务交互模块和任务相关注意力模块;所述输入文本包括推文文本和目标文本;
所述文本编码模块用于将输入文本处理成多个词向量,以供所述任务交互模块和任务相关注意力模块使用;
所述任务交互模块用于构建立场相关图和情感相关图,并采用迭代交互异质图更新方法对所述立场相关图和情感相关图进行更新;
所述任务相关注意力模块用于根据所述立场相关图的立场特征表示和情感相关图的情感特征表示计算输入文本的检测立场的极性和分类情感的极性。
2.根据权利要求1所述的基于多任务学习的立场检测方法,其特征在于,所述采用迭代交互异质图更新方法对所述立场相关图和情感相关图进行更新,具体为根据以下公式更新所述立场相关图和情感相关图:
Figure FDA0003481418060000011
Figure FDA0003481418060000012
式中I是单位矩阵,σ是非线性激活函数,l表示当前迭代的网络层数,
Figure FDA0003481418060000013
表示情感任务图的邻接矩阵,
Figure FDA0003481418060000014
表示立场任务图的邻接矩阵;
Figure FDA0003481418060000015
Figure FDA0003481418060000016
j表示邻接矩阵对角线填充1,
Figure FDA0003481418060000017
表示第l层网络的参数,task∈{st,se}。
3.根据权利要求1所述的基于多任务学习的立场检测方法,其特征在于,构建立场相关图和情感相关图,包括以下步骤:
根据所述推文文本的句法结构构建第一句法依赖树,并获取所述第一句法依赖树的根词集合;
根据所述目标文本和所述根词集合之间的单词连接关系,将所述目标文本中的单词添加至所述第一句法依赖树中,得到输入文本的第二句法依赖树;
计算所述推文文本的第一语用权重和第二语用权重,以及所述目标文本的第三语用权重,所述第一语用权重为所述推文文本的各个单词在立场检测任务中的语用权重,所述第二语用权重为所述推文文本的各个单词在情感分类任务中的语用权重;
根据所述第一语用权重、第三语用权重和第二句法依赖树构建所述立场相关图,根据所述第二语用权重和第二句法依赖树构建所述情感相关图。
4.根据权利要求3所述的基于多任务学习的立场检测方法,其特征在于,所述多任务图网络模型目标函数为立场检测与情感分析任务的损失函数的线性组合,所述具体为:
Figure FDA0003481418060000021
式中Θ为所述多任务图网络模型模型的参数,λ1、λ2、λ3是对应损失项的系数。d为第d条推文文本,
Figure FDA0003481418060000022
为所有推文文本的集合,
Figure FDA0003481418060000023
为模型所预测出来的第d条推文的情感任务标签,
Figure FDA0003481418060000024
为模型所预测出来的第d条推文的立场任务的标签,ytask|task={st,se}为所述多图稀疏交互网络模型预测的立场检测极性和情感分类极性。
5.根据权利要求4所述的基于多任务学习的立场检测方法,其特征在于,
根据以下公式计算所述立场相关图的立场特征表示rst
Figure FDA0003481418060000025
式中α为立场特征表示的注意力权重,hi为第i个词经过BERT模型编码后的特征向量,m+n表示所述输入文本的长度。
6.根据权利要求5所述的基于多任务学习的立场检测方法,其特征在于,根据以下公式计算所述情感相关图的情感特征表示rse
Figure FDA0003481418060000031
式中α‘为情感特征表示的注意权重,
Figure FDA0003481418060000032
为情感相关图的输出gse中第i个节点的特征表示,m+n表示所述输入文本的长度。
7.根据权利要求1至6任一项所述的基于多任务学习的立场检测方法,其特征在于,根据以下公式计算输入文本的检测立场和分类情感的极性:
ytask=softmax(Wtaskrtask+btask);
式中ytask|task={st,se}为所述多图稀疏交互网络模型预测的立场检测极性和情感分类极性,Wtask|task={st,se}为全连接层的权重,btask为Wtask对应的偏置,rtask|task={st,se}为立场特征表示和情感特征表示,softmax为激活函数。
CN202210069337.2A 2022-01-21 2022-01-21 一种基于多任务学习的立场检测方法 Active CN114638195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210069337.2A CN114638195B (zh) 2022-01-21 2022-01-21 一种基于多任务学习的立场检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210069337.2A CN114638195B (zh) 2022-01-21 2022-01-21 一种基于多任务学习的立场检测方法

Publications (2)

Publication Number Publication Date
CN114638195A true CN114638195A (zh) 2022-06-17
CN114638195B CN114638195B (zh) 2022-11-18

Family

ID=81945593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210069337.2A Active CN114638195B (zh) 2022-01-21 2022-01-21 一种基于多任务学习的立场检测方法

Country Status (1)

Country Link
CN (1) CN114638195B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN112257066A (zh) * 2020-10-30 2021-01-22 广州大学 面向带权异质图的恶意行为识别方法、系统和存储介质
CN113094596A (zh) * 2021-04-26 2021-07-09 东南大学 一种基于双向传播图的多任务谣言检测方法
CN113312478A (zh) * 2021-04-25 2021-08-27 国家计算机网络与信息安全管理中心 基于阅读理解的观点挖掘方法及装置
CN113537593A (zh) * 2021-07-15 2021-10-22 之江实验室 预测议员投票倾向的方法及其装置
CN113641820A (zh) * 2021-08-10 2021-11-12 福州大学 基于图卷积神经网络的视角级文本情感分类方法及系统
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN112257066A (zh) * 2020-10-30 2021-01-22 广州大学 面向带权异质图的恶意行为识别方法、系统和存储介质
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
CN113312478A (zh) * 2021-04-25 2021-08-27 国家计算机网络与信息安全管理中心 基于阅读理解的观点挖掘方法及装置
CN113094596A (zh) * 2021-04-26 2021-07-09 东南大学 一种基于双向传播图的多任务谣言检测方法
CN113537593A (zh) * 2021-07-15 2021-10-22 之江实验室 预测议员投票倾向的方法及其装置
CN113641820A (zh) * 2021-08-10 2021-11-12 福州大学 基于图卷积神经网络的视角级文本情感分类方法及系统

Also Published As

Publication number Publication date
CN114638195B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
RU2722571C1 (ru) Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети
CN107239444B (zh) 一种融合词性与位置信息的词向量训练方法及系统
WO2021212749A1 (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN111858944B (zh) 一种基于注意力机制的实体方面级情感分析方法
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110633409A (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111522965A (zh) 一种基于迁移学习的实体关系抽取的问答方法及系统
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111782769B (zh) 基于关系预测的知识图谱智能问答方法
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN111222330B (zh) 一种中文事件的检测方法和系统
CN112800774A (zh) 基于注意力机制的实体关系抽取方法、装置、介质和设备
CN116385937B (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN111428501A (zh) 命名实体的识别方法、识别系统及计算机可读存储介质
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN111428518A (zh) 一种低频词翻译方法及装置
CN114638195B (zh) 一种基于多任务学习的立场检测方法
CN115827865A (zh) 一种融合多特征图注意力机制的不良文本分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant