CN112883714B - 基于依赖图卷积和迁移学习的absc任务句法约束方法 - Google Patents

基于依赖图卷积和迁移学习的absc任务句法约束方法 Download PDF

Info

Publication number
CN112883714B
CN112883714B CN202110285140.8A CN202110285140A CN112883714B CN 112883714 B CN112883714 B CN 112883714B CN 202110285140 A CN202110285140 A CN 202110285140A CN 112883714 B CN112883714 B CN 112883714B
Authority
CN
China
Prior art keywords
training
model
task
layer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110285140.8A
Other languages
English (en)
Other versions
CN112883714A (zh
Inventor
李泽鑫
陆广泉
宋嘉港
黄天城
吴丽娟
梁荣娇
唐锦云
张桂衔
张魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202110285140.8A priority Critical patent/CN112883714B/zh
Publication of CN112883714A publication Critical patent/CN112883714A/zh
Application granted granted Critical
Publication of CN112883714B publication Critical patent/CN112883714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于依赖图卷积和迁移学习的ABSC任务句法约束方法,包括如下步骤:一、辅助任务训练:1)数据预处理;2)初始化设置;3)构建模型;4)训练模型;5)迭代训练;6)测试和评估;二、主任务训练:1)数据预处理和初始化设置;2)构建模型;3)模型训练;4)迭代训练;5)模型的测试和优化评估。这种方法可获得文本分类的性能和泛化能力强,还能避免特征图信息的损失。

Description

基于依赖图卷积和迁移学习的ABSC任务句法约束方法
技术领域
本发明涉及计算机人工智能自然语言处理领域,具体是一种基于依赖图卷积和迁移学习的ABSC任务句法约束方法。
背景技术
随着信息时代的到来,信息技术和大数据产业开始进入高速发展阶段。互联网深入到生活中的方方面面,每天都会在生活的各个领域产生大量的数据,对这些数据进行挖掘可以得到很多有用的信息。基于方面的情感分类(Aspect-based SentimentClassification,简称ABSC),在识别针对特定方面的细粒度意见极性,它是自然语言处理的细粒度任务。ABSC的目的是识别句子中清楚给出的方面的情感极性,而不是模糊的分析句子层面或文档层面的整体情绪极性。
ABSC任务是一个分类问题,目前已有大量基于深度学习的模型来解决 ABSC问题,如基于神经网络方法的早期模型,以及长短时记忆(LSTM)。在中期,Tang等人使用递归神经网络(RNNs)结合注意机制来解决上下文词和方面之间语义关联建模的难题。Fan等人提出了一种细粒度的注意机制,可以捕捉方面和上下文之间的词级交互。虽然基于注意的模型是非常有效的,但是它们不足以捕捉上下文词和句子中体之间的句法依赖。为了解决这一问题,提出了一种面向方面的图卷积网络(ASGCN),这是第一个基于GCN的ABSC模型,在ASGCN 中主要用到的技术称为依赖图卷积,即对生成的句法依赖树进行图卷积。虽然ASGCN捕获了句法依赖,但它并不认为在局部上下文中远离方面的单词可能对准确预测特定主语的极性产生负面影响。在LCF-BERT中,考虑到情感的极性更多地与自己的邻近语境词相关,因此增加了语义相对距离(SRD)来关注局部语境的特征,但忽略了上下文和句子的句法依赖性。
近几年在实现人工智能方面,人工神经网络现在已成为被广泛应用于各个领域的数据处理的一种方法,成为当前的热门机器学习方法之一,如卷积神经网络,循环神经网络等,但现实生活中许多数据都是不具备规则的空间结构,这时候引入图神经网络来对不具备规则的空间结构数据进行处理是一个很好的方法。在自然语言处理过程之中,近几年预训练模型的出现使得它的性能得到了极大的提升,同时,利用迁移学习技术可提取数据的特征来增强特征信息,提升性能。
发明内容
本发明的目的是针对现有技术中存在的不足,提供了基于依赖图卷积和迁移学习的ABSC任务句法约束方法。这种方法可获得文本分类的性能和泛化能力强,还能避免特征图信息的损失。
实现本发明目的的技术方案是:
基于依赖图卷积和迁移学习的ABSC任务句法约束方法,包括如下步骤:
将任务分为主任务和辅助任务,先训练好辅助任务的被迁移的词性标注的模型BiLSTMPOSTagger,然后对模型BiLSTMPOSTagger进行冻结,再进行主任务模型LCF-TDGCN的训练:
一、辅助任务训练:
1)数据预处理:采用程序包TorchText对数据集通用依赖性英语Web树库,即UDPOS中的文本格式进行预处理,预处理包含小写所有文本、对未知token 进行标记,将预处理后的文本数据集分成训练集、验证集和测试集;
2)初始化设置:设置超参数,加载Glove预训练,构建词汇表,将Glove 预先训练的向量加载到词汇表中,使用超参数初始化模型,再定义迭代器,设置批处理大小batch_size和device,分别对辅助任务训练步骤1)中划分好的训练集、验证集和测试集中的文本以batch_size个文本样本为一个批次进行处理;
3)构建模型:使用PyTorch和TorchText构建一个机器学习模型BiLSTMPOSTagger,BiLSTMPOSTagger包括:一个嵌入层Embedding,输入尺寸为输入文字或词汇的大小;两层双向LSTM,即Bi-LSTM;Linear线性层;一个dropout层;
4)训练模型:实例化模型,将辅助任务训练步骤2)中训练集的文本样本分批次输入到辅助任务训练步骤3)的模型BiLSTMPOSTagger中,应用Adam算法和交叉熵损失函数来训练词性标注模型,直至训练集中所有样本的文本都被 BiLSTMPOSTagger模型网络学习;
5)迭代训练:对BiLSTMPOSTagger进行迭代训练,并保存训练后的模型,在完成一次迭代后更新系数,直至进行了e次迭代后结束训练,其中e的次数人为设定,得到符合预期要求的BiLSTMPOSTagger,同时将辅助任务训练步骤1) 中验证集的样本分批次输入到BiLSTMPOSTagger中计算得到验证集的分类准确度和分类损失值;
6)测试和评估:将辅助任务训练步骤2)中测试集的样本分批次输入到辅助任务训练步骤5)中得到的BiLSTMPOSTagger中进行计算并测试,并记录测试结果,然后保存记录训练好的网络参数,然后将该参数输出;
二、主任务训练:
1)数据预处理和初始化设置:对原始数据集进行分析和预处理,主任务共有5个数据集,分别是Twitter、Laptop、SemEval-2014的任务4下子任务2的餐馆数据集REST14、SemEval 2015任务12的餐馆数据集REST15、SemEval 2016任务5的餐馆数据集REST15,数据集信息18744条,其中每类数据集下面分积极、消极、中性三类数据集,对数据集根据极性的三种类别进行训练集和测试集的划分,先将5个数据集的训练集和测试集分别生成对应的句法依赖图.graph文件备用,共10个.graph文件,对10个.graph文件进行处理得到.graph对应的邻接矩阵,再对数据集的原文本格式使用进行预处理,进行小写处理、通过Tokenizer4Bert生成字向量,设置超参数,定义迭代器,设置批处理大小 batch_size和device,分别对划分好的训练集、测试集中的文本以batch_size个文本样本为一个批次进行处理;
2)构建模型:采用预训练模型、图神经网络和迁移学习技术,设计和构建好模型框架LCF-TDGCN,本地上下文即LCFB单元位于左侧,全局上下文即 GCFB单元位于右侧,GCFB使用另一个独立的预训练BERTg 层对全局上下文进行建模,同时,LCFB使用一个独立的预训练BERTl层和辅助任务的迁移词性标注模型BiLSTMPOSTagger对本地上下文进行建模,进行加权和Add操作、动态权重CDW操作、2层GCN层、动态掩码CDM操作,在CDM操作后得到的特征和GCFB单元得到的特征进行torch.cat()连接,再通过Linear层, SelfAttention层,BertPooler层,Linear层后返回向量;
3)模型训练:对辅助模型BiLSTMPOSTagger进行加载和冻结操作,将主任务训练步骤1)中训练集的文本样本分批次输入到主任务训练步骤2)构建的模型LCF-TDGCN中,应用Adam算法和交叉熵损失函数来训练模型LCF-TDGCN,直至训练集中所有样本的文本都被模型LCF-TDGCN学习;
4)迭代训练:对模型LCF-TDGCN进行迭代训练,并保存训练后的网络,然后在完成一次迭代后更新系数,直至进行了n次迭代后结束训练,其中n的次数人为设定,得到符合预期要求的网络,为防止过拟合,在迭代训练过程中采用 early stop,early stop阈值人为设定;
5)模型的测试和优化评估:将主任务训练步骤1)中测试集的样本分批次输入到主任务训练步骤4)中得到的网络中进行计算并测试,并记录测试结果,然后保存记录训练好的网络参数,然后将该参数输出,为了获得更好的效果,在模型的每次训练后应用Adam算法和交叉熵损失函数进行参数调整优化,此外还对模型LCF-TDGCN做出相应的评价,采用评价指标Acc即分类准确率和F1即精确率和召回率的调和均值来反馈结果。
所述主任务训练步骤1)中的生成对应的句法依赖图.graph文件时统一为矩阵格式。
本技术方案与现有技术相比,引入了语法树与GCN相结合的依赖图卷积,句子依赖树上的图卷积为句子内的一个方面提供了句法约束,根据句法距离识别描述性词语,更好地提取复杂文本中的样本特征图信息,提出了的方法更多的特征信息被用于训练网络,从而提高模型的性能,而学习大量的信息比较困难,本技术方案引入迁移学习词性标注来编码句子向量,施以权重,使得特征得到增强,从而获得更好文本分类的性能和泛化能力,既能够避免特征图信息的损失。
本技术方案方法利用依赖图卷积捕获长期依赖关系和句法约束信息,通过迁移学习技术可提取数据的特征来增强特征信息,同时采用预训练模型可使得它的性能得到了极大的提升。准确分析出人们评论中的情感极性,借此针对性研究了一种带转移词性标注的局部上下文焦点(LCF)注意机制依赖图卷积模型 LCF-TDGCN。
这种方法可获得文本分类的性能和泛化能力强,还能避免特征图信息的损失。
附图说明
图1为实施例中模型LCF-TDGCN框架示意图;
图2为实施例迁移学习词性标注模型BiLSTMPOSTagger的过程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
本例方法的预期要求是在基础的文本分类问题上能大幅度提高文本分类准确度,性能优于同类文本分类准确性的平均水平。
基于依赖图卷积和迁移学习的ABSC任务句法约束方法,包括如下步骤:将任务分为主任务和辅助任务,先训练好辅助任务的被迁移的词性标注的模型 BiLSTMPOSTagger,在训练好后,对模型BiLSTMPOSTagger进行冻结,再进行主任务模型LCF-TDGCN的训练:
一、辅助任务的训练:
1)数据预处理:采用程序包TorchText对数据集通用依赖性英语Web树库即UDPOS中的文本格式进行预处理,导入必要的模块TorchText,为可重复性设置随机种子,本例使用通用依赖性英语Web树库即UDPOS数据集,在UDPOS 数据集的UD标签上训练模型,并对UDPOS数据集的格式进行预处理,所述预处理为使用包TorchText的Field标签来设置小写格式,将未知token设置为 unk_token=None,将预处理后的文本数据集分成训练集、验证集和测试集;
2)初始化设置:设置超参数,TorchText初始化默认的未知token<unk>,删除unk_token=None的token,再建立vocabulary-tokens的映射,对于未知的 tokens,设置min_freq为2,只有在训练集中出现两次的标记才会被添加到词汇表中,其余的将设置<unk>取代;加载GloVe预训练的令牌嵌入, torch.Tensor.normal_用于初始化不在预训练GloVe的嵌入词汇表中的令牌嵌入,将这些预先训练的向量加载到词汇表中,使用这些值初始化模型,再定义迭代器,设置批处理大小batch_size=128和device,分别对训练集、验证集和测试集中的文本以128个文本样本为一个批次进行处理;
3)构建模型:使用PyTorch和TorchText构建一个机器学习模型BiLSTMPOSTagger,BiLSTMPOSTagger包括:一个嵌入层Embedding,输入尺寸为输入文字或词汇的大小;两层双向LSTM,即Bi-LSTM;Linear线性层;一个dropout层,如图2所示,Embedding是一个嵌入层,输入尺寸应为输入文字或词汇的大小,设置填充令牌的索引,就不会更新填充令牌的嵌入条目,本例中Bi-LSTM是两层双向LSTM,则将压差应用为层之间的正则化,Linear定义线性层以使用LSTM输出进行预测,因为使用双向LSTM,则将输入的大小加倍,输出尺寸应为标签词汇量的大小,还使用定义了一个dropout层,在Pytorch框架下模型BiLSTMPOSTagger的forward方法中使用了该层,以将dropout应用于 LSTM的最后一层的嵌入和输出,一些参数设置如表1所示:
表1主辅任务部分超参数设置
Figure BDA0002980148850000061
4)训练模型:实例化模型,设置嵌入尺寸与之前加载的GloVe嵌入尺寸匹配,其余的超参数已被选择为明智的默认值,输入和输出尺寸直接取自相应词汇的长度,填充索引是使用词汇表和Field文本的来获得的,使用从正态分布来初始化权重,使用先前加载的预训练的嵌入值来初始化模型的嵌入层,将辅助任务训练步骤2)中训练集的文本样本分批次输入到辅助任务训练步骤3)模型 BiLSTMPOSTagger中,接着使用Adam算法来定义优化器和使用交叉熵来定义损失函数,来训练词性标注模型,直至训练集中所有样本的文本都被模型网络学习;
交叉熵损失函数形式如下:
Figure BDA0002980148850000062
其中,E表示样本的交叉熵损失函数计算的误差值,T表示图像样本的所有类别数,i是指第i个类别,范围是1到类别数T,pi是第i个图像样本的各类别的预测值,yi是经过one-hot编码后的图像样本类别的集合,因此y是一个1*T的向量,而且只有1个值是1,其他都是0,假设yi=1,即真实的分类结果是yi
5)迭代训练:对BiLSTMPOSTagger进行迭代训练,并保存训练后的网络,然后在完成一次迭代后更新系数,直至进行了e次迭代后结束训练,其中e的次数人为设定,得到符合预期要求的模型BiLSTMPOSTagger,同时将辅助任务的步骤1)中验证集的样本分批次输入到BiLSTMPOSTagger中计算得到验证集的分类准确度和分类损失值,在每个时期之后,检查到目前为止模型是否已达到最佳验证损失,如果有的话,保存该模型的参数,并使用这些最佳参数来计算测试集的性能;
6)测试和评估:将辅助任务训练步骤2)中测试集的样本分批次输入到辅助任务训练步骤5)中得到的BiLSTMPOSTagger网络中进行计算并测试,并记录测试结果,然后保存记录训练好的网络参数,然后将该参数输出;
二、主任务的训练:
1)数据预处理及初始化设置:对原始数据集进行分析和预处理,本例中主任务共有5个数据集,分别是Twitter、Laptop、SemEval-2014的任务4下子任务2的餐馆数据集REST14、SemEval 2015任务12的餐馆数据集REST15、 SemEval 2016任务5的餐馆数据集REST15,数据集信息18744条,其中每类数据集下面分积极、消极、中性三类数据集,对数据集根据极性的三种类别进行训练集和测试集的划分,数据集划分如表2所示,先将5个数据集的训练集和测试集生成其对应的句法依赖图.graph文件备用,生成对应的句法依赖图.graph文件时统一为矩阵格式,共10个.graph文件,对10个.graph文件进行处理得到.graph 对应的邻接矩阵D,再对数据集的原文本格式使用进行预处理,进行小写处理、通过Tokenizer4Bert生成字向量,设置超参数,定义迭代器,设置批处理大小 batch_size和device,分别对划分好的训练集、测试集中的文本以batch_size个文本样本为一个批次进行处理,部分超参数如表1所示:
表2主任务数据集划分
Figure BDA0002980148850000071
2)构建模型:采用预训练模型、图神经网络和迁移学习技术,设计和构建好模型框架LCF-TDGCN,如图1所示:
本地上下文即LCFB单元位于左侧,全局上下文即GCFB单元位于右侧,LCFB使用一个独立的预训练BERTl层和一个转移词性标注模型对本地上下文进行建模,同时,GCFB使用另一个独立的预训练BERTg层对全局上下文进行建模, LCFB的输入序列格式是以"[CLS]+文本序列+[SEP]",GCFB的输入序列格式是以"[CLS]+文本序列+[SEP]+aspect+[SEP]",这种输入格式可以提高 LCF-TDGCN模型的性能,分别提取好主任务中BERTl层得出特征O1和辅助任务中得出的特征O2备用,跟着主任务一起训练,模型进行分批次训练,主辅任务结合公式如下:
I=a*O1+b*O2
a+b=1,
主辅这两个任务都是基于BERT-BASE的输入格式,即"[CLS]+S+[SEP]", S为句子序列,O1来自BERTl层后面的局部上下文特征,O2是由冻结词性标注转换模型编码的局部上下文句子向量,a和b是O1和O2分别对应的权重,a和b之和为1,I是作为下一步输入的特征;
在上一步得到需要的特征后,对得到的特征进行动态权重CDW操作,语义相关上下文词的特征被完全保留,语义相对较少的上下文特征被加权和衰减,在本例中,远离目标的上下文词的特征将根据其语义相对距离SRD进行缩减;
其中SRD的公式如下:
Figure BDA0002980148850000081
i和Pa分别是上下文词的位置和aspect的中心位置,m是目标方面的长度, SRDi是第i个上下文标记和特定方面之间的SRD;
CDW通过为语义相对较少的每个上下文词构造一个加权向量
Figure BDA0002980148850000082
来对特征进行加权,如下公式:
Figure BDA0002980148850000083
Figure BDA0002980148850000084
Figure BDA0002980148850000085
其中,n是输入序列的长度,α是SRD阈值,
Figure BDA0002980148850000086
是CDW层的输出,“·”表示向量点积运算;
基于CDW的输出,可以得到局部上下文的输出表示,
Figure BDA0002980148850000087
需要经过一个2 层图神经卷积层(GCN),D是主任务训练步骤1)中由语法依赖树生成的邻接矩阵,可得到下一步的输入Ol,对于CDW层:
Figure BDA0002980148850000091
Ol=GCN(Ol,D),
图神经卷积层(GCN)的公式如下:
Figure BDA0002980148850000092
Figure BDA0002980148850000093
其中
Figure BDA0002980148850000094
是从前面的GCN层演化而来的第j个令牌的表示,而
Figure BDA0002980148850000095
是当前GCN层的乘积,
Figure BDA0002980148850000096
是树中第i个token的度,权重Wh和偏差bh是可训练的参数;
再对上面获得的特征进行动态掩码CDM操作,其公式如下:
Figure BDA0002980148850000097
Figure BDA0002980148850000098
Figure BDA0002980148850000099
M是一个特征掩蔽矩阵,其中
Figure BDA00029801488500000910
是输入序列中每个标记的掩蔽向量,α是 SRD阈值,n是输入序列的长度,包括aspect,
Figure BDA00029801488500000911
表示向量,
Figure BDA00029801488500000912
表示零向量,“·”表示向量的点积运算,
Figure BDA00029801488500000913
是CDM层的输出;
在CDM操作后,得到的特征依次经过torch.cat(),Linear层,SelfAttention 层,BertPooler层,Linear层后返回向量;
3)模型训练:对辅助模型BiLSTMPOSTagger进行加载和冻结操作,将主任务训练步骤1)中训练集的文本样本分批次输入到主任务训练步骤2)的模型 LCF-TDGCN中,在主任务中,将数据输入主线任务模型self.model以及迁移好的模型model_text(BiLSTMPOSTagger实例化),分别提取好特征O1和O2备用,模型进行分批次训练,应用Adam算法和交叉熵损失函数来训练模型 LCF-TDGCN,直至训练集中所有的样本都被模型LCF-TDGCN学习;
4)迭代训练:对LCF-TDGCN网络进行迭代训练,并保存训练后的网络,然后在完成一次迭代后更新系数,直至进行了n次迭代后结束训练,其中n的次数人为设定,得到符合预期要求的网络,为防止过拟合,在迭代训练过程中采用 early stop,本例中early stop阈值设定为5;
5)模型的测试和优化评估:将主任务训练步骤1)中测试集的样本分批次输入到主任务训练步骤4)中得到的网络中进行计算并测试,并记录测试结果,然后保存记录训练好的网络参数,然后将该参数输出,为了获得更好的效果,在模型的每次训练后应用Adam算法和交叉熵损失函数进行参数调整优化,此外还对模型做出相应的评价,采用评价指标Acc(分类准确率)和F1(精确率和召回率的调和均值)来反馈结果。

Claims (2)

1.基于依赖图卷积和迁移学习的ABSC任务句法约束方法,其特征在于,包括如下步骤:
将任务分为主任务和辅助任务,先训练好辅助任务的被迁移的词性标注的模型BiLSTMPOSTagger,然后对模型BiLSTMPOSTagger进行冻结,再进行主任务模型LCF-TDGCN的训练:
一、辅助任务训练:
1)数据预处理:采用程序包TorchText对数据集通用依赖性英语Web树库,即UDPOS中的文本格式进行预处理,预处理包含小写所有文本、对未知token进行标记,将预处理后的文本数据集分成训练集、验证集和测试集;
2)初始化设置:设置超参数,加载Glove预训练,构建词汇表,将Glove预先训练的向量加载到词汇表中,使用超参数初始化模型,再定义迭代器,设置批处理大小batch_size和device,分别对辅助任务训练步骤1)中划分好的训练集、验证集和测试集中的文本以batch_size个文本样本为一个批次进行处理;
3)构建模型:使用PyTorch和TorchText构建一个机器学习模型BiLSTMPOSTagger,BiLSTMPOSTagger包括:一个嵌入层Embedding,输入尺寸为输入文字或词汇的大小;两层双向LSTM,即Bi-LSTM;Linear线性层;一个dropout层;
4)训练模型:实例化模型,将辅助任务训练步骤2)中训练集的文本样本分批次输入到辅助任务训练步骤3)的模型BiLSTMPOSTagger中,应用Adam算法和交叉熵损失函数来训练词性标注模型,直至训练集中所有样本的文本都被BiLSTMPOSTagger模型网络学习;
5)迭代训练:对BiLSTMPOSTagger进行迭代训练,并保存训练后的模型,然后在完成一次迭代后更新系数,直至进行了e次迭代后结束训练,其中e的次数人为设定,得到符合预期要求的BiLSTMPOSTagger,同时将辅助任务训练步骤1)中验证集的样本分批次输入到BiLSTMPOSTagger中计算,得到验证集的分类准确度和分类损失值;
6)测试和评估:将辅助任务训练步骤2)中测试集的样本分批次输入到辅助任务训练步骤5)中得到的BiLSTMPOSTagger中进行计算并测试,并记录测试结果,然后保存记录训练好的网络参数,然后将该参数输出;
二、主任务训练:
1)数据预处理和初始化设置:对原始数据集进行分析和预处理,主任务共有5个数据集,分别是Twitter、Laptop、SemEval-2014的任务4下子任务2的餐馆数据集REST14、SemEval 2015任务12的餐馆数据集REST15、SemEval 2016任务5的餐馆数据集REST15,数据集信息18744条,其中每类数据集下面分积极、消极、中性三类数据集,对数据集根据极性的三种类别进行训练集和测试集的划分,先将5个数据集的训练集和测试集分别生成对应的句法依赖图.graph文件备用,共10个.graph文件,对10个.graph文件进行处理得到.graph对应的邻接矩阵,再对数据集的原文本格式使用进行预处理,进行小写处理、通过Tokenizer4Bert生成字向量,设置超参数,定义迭代器,设置批处理大小batch_size和device,分别对划分好的训练集、测试集中的文本以batch_size个文本样本为一个批次进行处理;
2)构建模型:采用预训练模型、图神经网络和迁移学习技术,设计和构建好模型框架LCF-TDGCN,本地上下文即LCFB单元位于左侧,全局上下文即GCFB单元位于右侧,GCFB使用另一个独立的预训练BERTg 层对全局上下文进行建模,同时,LCFB使用一个独立的预训练BERTl层和辅助任务的迁移词性标注模型BiLSTMPOSTagger对本地上下文进行建模,进行加权和Add操作、动态权重CDW操作、2层GCN层、动态掩码CDM操作,在CDM操作后得到的特征和GCFB单元得到的特征进行torch.cat()连接,再通过Linear层,SelfAttention层,BertPooler层,Linear层后返回向量;
3)模型训练:对辅助模型BiLSTMPOSTagger进行加载和冻结操作,将主任务训练步骤1)中训练集的文本样本分批次输入到主任务训练步骤2)构建的模型LCF-TDGCN中,应用Adam算法和交叉熵损失函数来训练模型LCF-TDGCN,直至训练集中所有样本的文本都被模型LCF-TDGCN学习;
4)迭代训练:对模型LCF-TDGCN进行迭代训练,并保存训练后的网络,在完成一次迭代后更新系数,直至进行了n次迭代后结束训练,其中n的次数人为设定,得到符合预期要求的网络,为防止过拟合,在迭代训练过程中采用early stop,early stop阈值人为设定;
5)模型的测试和优化评估:将主任务训练步骤1)中测试集的样本分批次输入到主任务训练步骤4)中得到的网络中进行计算并测试,并记录测试结果,然后保存记录训练好的网络参数,然后将该参数输出,为了获得更好的效果,在模型的每次训练后应用Adam算法和交叉熵损失函数进行参数调整优化,此外还对模型LCF-TDGCN做出相应的评价,采用评价指标Acc即分类准确率和F1即精确率和召回率的调和均值来反馈结果。
2.根据权利要求1所述的基于依赖图卷积和迁移学习的ABSC任务句法约束方法,其特征在于,所述主任务训练步骤1)中的生成对应的句法依赖图.graph文件时统一为矩阵格式。
CN202110285140.8A 2021-03-17 2021-03-17 基于依赖图卷积和迁移学习的absc任务句法约束方法 Active CN112883714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110285140.8A CN112883714B (zh) 2021-03-17 2021-03-17 基于依赖图卷积和迁移学习的absc任务句法约束方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110285140.8A CN112883714B (zh) 2021-03-17 2021-03-17 基于依赖图卷积和迁移学习的absc任务句法约束方法

Publications (2)

Publication Number Publication Date
CN112883714A CN112883714A (zh) 2021-06-01
CN112883714B true CN112883714B (zh) 2022-05-10

Family

ID=76041074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110285140.8A Active CN112883714B (zh) 2021-03-17 2021-03-17 基于依赖图卷积和迁移学习的absc任务句法约束方法

Country Status (1)

Country Link
CN (1) CN112883714B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110880019B (zh) * 2019-10-30 2022-07-12 北京中科研究院 通过无监督域适应训练目标域分类模型的方法
CN113343690B (zh) * 2021-06-22 2024-03-12 北京语言大学 一种文本可读性自动评估方法及装置
CN113779988A (zh) * 2021-09-07 2021-12-10 科大国创云网科技有限公司 一种通信领域过程类知识事件抽取方法
CN114036272B (zh) * 2021-10-29 2024-07-30 厦门快商通科技股份有限公司 一种对话系统语义分析方法、系统、电子装置及存储介质
CN114580631B (zh) * 2022-03-04 2023-09-08 北京百度网讯科技有限公司 模型的训练方法、烟火检测方法、装置、电子设备及介质
CN117076431B (zh) * 2023-10-13 2024-03-12 云筑信息科技(成都)有限公司 一种用于系统升级数据迁移的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390017A (zh) * 2019-07-25 2019-10-29 中国民航大学 基于注意力门控卷积网络的目标情感分析方法及系统
CN111400494A (zh) * 2020-03-16 2020-07-10 江南大学 一种基于GCN-Attention的情感分析方法
CN112001185A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种结合中文句法和图卷积神经网络的情感分类方法
CN112115700A (zh) * 2020-08-19 2020-12-22 北京交通大学 一种基于依存句法树和深度学习的方面级情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390017A (zh) * 2019-07-25 2019-10-29 中国民航大学 基于注意力门控卷积网络的目标情感分析方法及系统
CN111400494A (zh) * 2020-03-16 2020-07-10 江南大学 一种基于GCN-Attention的情感分析方法
CN112115700A (zh) * 2020-08-19 2020-12-22 北京交通大学 一种基于依存句法树和深度学习的方面级情感分析方法
CN112001185A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种结合中文句法和图卷积神经网络的情感分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks;Chen Zhang 等;《Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing》;20191130;4568–4578页 *
LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification;Biqing Zeng 等;《Applied Sciences》;20191231;1-22页 *
基于图卷积网络的方面级情感分析方法研究;陈俊杰;《中国优秀博硕士学位论文全文数据库 (博士)信息科技辑》;20210115(第(2021年)01期);I138-330 *

Also Published As

Publication number Publication date
CN112883714A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN110188358B (zh) 自然语言处理模型的训练方法及装置
US11625540B2 (en) Encoder, system and method for metaphor detection in natural language processing
Onan SRL-ACO: A text augmentation framework based on semantic role labeling and ant colony optimization
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN112084327A (zh) 在保留语义的同时对稀疏标注的文本文档的分类
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN111241807B (zh) 一种基于知识引导注意力的机器阅读理解方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
US11900250B2 (en) Deep learning model for learning program embeddings
CN110232123A (zh) 文本的情感分析方法及其装置、计算设备与可读介质
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
Silaparasetty Deep Learning Projects Using TensorFlow 2
Murfi et al. BERT-based combination of convolutional and recurrent neural network for indonesian sentiment analysis
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN112906398A (zh) 句子语义匹配方法、系统、存储介质和电子设备
Rodzin et al. Deep learning techniques for natural language processing
Garrido-Munoz et al. A holistic approach for image-to-graph: application to optical music recognition
Li et al. Self attention mechanism of bidirectional information enhancement
CN114511023A (zh) 分类模型训练方法以及分类方法
CN114048314A (zh) 一种自然语言隐写分析方法
Panahandeh Nigjeh et al. Leveraging ParsBERT for cross-domain polarity sentiment classification of Persian social media comments
CN116956228A (zh) 一种技术交易平台的文本挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant