CN114742071A

CN114742071A - 基于图神经网络的汉越跨语言观点对象识别分析方法

Info

Publication number: CN114742071A
Application number: CN202210532418.1A
Authority: CN
Inventors: 余正涛; 施忆雪; 相艳; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-07-12
Anticipated expiration: 2042-05-12
Also published as: CN114742071B

Abstract

本发明涉及基于图神经网络的汉越跨语言观点对象识别分析方法，属于自然语言处理领域。本发明包括：构建汉越观点对象数据集；利用异构图对中文和越南语评论之间的信息进行关联关系构建，之后利用图卷积神经网络编码观点对象特征；最后基于中文的观点对象标签作为输入训练分类器，最终完成在越南语数据集上的观点对象识别任务。本发明具体研究跨语言事件评论的关联异构图网络构建方法，研究跨语言评论的观点对象表征方法，研究双语评论关联异构图网络的传递和学习方法，实现跨语言观点对象识别与对齐，为把握越南民众对公共事件等对象的观点看法提供支撑。

Description

基于图神经网络的汉越跨语言观点对象识别分析方法

技术领域

本发明涉及基于图神经网络的汉越跨语言观点对象识别分析方法，属于自然语言处理技术领域。

背景技术

社交媒体评论的观点对象识别任务可以看作是特定领域下的多分类任务，旨在快速有效地识别评论中评价的观点对象，及时了解和掌握用户的关注重点，是事件观点分析的重要步骤。观点对象识别作为基于对象级情感分析的一项重要任务，为从文本评论中识别参考方面提供了重要的技术手段。为了解决观点对象识别的问题，人们提出了基于统计规则和基于机器学习方法进行识别任务，基于每个领域的评论表征来学习一个特定的观点对象分类器。通过统计学习方法主要是分析语料，结合分析结论制定词性规则、词序列规则及句法规则等，基于深度学习的主流方法通过融入主题模型或领域相关信息等外部知识提升识别性能。尽管这些模型背后的数学机制可能有所不同，但它们都有相同的先决条件：当前的训练过程有一个规模大且高质量的标注数据集可用。但是在面对不同的应用场景时，构建这样规模的训练数据集成本不可避免地会高。当面对一个标注训练数据有限的语言，人们可以通过使用来自富资源语言的补充标注数据增量训练过程用以提高模型的性能，这就是利用跨语言技术去解决稀缺语言观点对象识别的问题。

发明内容

本发明提供了基于图神经网络的汉越跨语言观点对象识别分析方法，以利用中文观点对象标签对相同事件下越南语评论句进行观点对象识别任务，解决了由于标注数据稀缺、跨语言评论关联复杂以及观点对象表征比较困难导致识别性能较低的问题。

本发明的技术方案是：基于图神经网络的汉越跨语言观点对象识别分析方法，所述方法的具体步骤如下：

Step1、通过爬虫技术爬取某疫情期间的中文微博评论和越南语推特评论，通过人工对噪声数据进行筛选和标注得到中越跨语言评论数据集；

Step2、利用异构图结构对中文和越南语评论句中的关联信息进行编码，利用图卷积编码器对评论和观点对象进行编码，将得到的观点对象特征向量用于训练模型，用训练好的模型进行观点对象识别。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取“某疫情”和“某歧视”的中文热点事件评论，从推特上爬取“某疫情”和“某歧视”的越南语热点事件评论；

Step1.2、对爬取微博和推特评论进行过滤筛选，过滤筛选的方式如下所示：删除#话题#结构、删除微博评论里“＠+用户名+回复”这样的结构，且删除无关超链接广告；

Step1.3、采用人工标注，获得中越跨语言评论数据集：以一条帖子为单位进行标注工作，对“某疫情”和“某歧视”事件中的观点对象所属类别进行标注，三人盲判取交集；

作为本发明的进一步方案，所述步骤Step2的具体步骤如下：

Step2.1、通过异构图对评论的语义信息和拓扑信息进行表征学习，异构图表示为G＝(V、E、τ、γ)，其中τ：V→N表示节点类型的映射函数，γ：V→Z表示关系类型的映射函数。其中利用词频关系、词共现关系和语义相似度构建评论节点和词节点之间的边。基于关键词在语料库中出现的次数构建单词与评论句之间的边并将计算的TF-IDF值作为边的权重。

Step2.2、基于词共现关系构建节点之间的边，为了更好的利用全局词的共现信息，在单语上对语料库中所有的句子使用一个固定大小的滑动窗口来收集词的共现信息，使用点互信息(PMI)来计算两个词节点之间的权重。其中#W(i)表示指滑动窗口中包含单词i的数量，#W(i,j)是指滑动窗口中同时包含单词i和j的数量，#W是指语料库中所有滑动窗口的数量。当PMI值为正时表示两个词之间的语义相关性较高。一个词对(i,j)PMI值的计算公式为：

Step2.3、基于语义相似度找到跨语言词对(i,j)之间的关联性。利用xlmr模型获取到汉越语料库中单词的嵌入向量(A,B)，同时利用余弦相似度判断两个嵌入向量之间的相似性，当余弦值越接近1表示两个夹角越接近0度，也就是两个向量越相似。在中设置超参数k作为阈值，当余弦值大于k则认为词对中的两个单词高度相关，在这样词对之间添加边。

Step2.4、利用跨语言语义相关的词搭建两个评论句之间的关联性。判断汉越两条评论句是否相关时，采用匹配算法判断句对(i,j)连接的词节点是否存在边，当存在相关联的词对时认为这两个评论句具有较大的相关性，通过对相关词的权重进行加权平均数计算出跨语言评论句(C,V)得到相似度，在这样的句对之间添加边。

所构异构图间的节点之间边的权重可以定义为：

Step2.5、在根据双语对齐关系构建了异构图后，将图嵌入到一个简单的二层GCN中。GCN是一种多层神经网络，它直接在图上运行，并根据节点的领域属性引入节点的嵌入向量。GCN只能通过一层卷积来捕获关于近邻的信息。当多个GCN层被堆叠时，图上更多的信息就会被整合起来。两层GCN可以允许信息在最多两步长的节点之间传递信息，对于一层GCN，新的k维节点特征矩阵L⁽¹⁾∈R^n×k为：

其中

表示标准化对称邻接矩阵，

表示

的度矩阵，W₀∈R^m×k表示权重矩阵。ρ是激活函数，本发明使用的是RELU。通过叠加多个GCN层来学习合并更高阶的领域信息，学习更深层的节点特征。可以表示为：

其中j表示层数，而L⁽⁰⁾表示原始邻接矩阵。

Step2.6、在图神经网络的第二层将评论嵌入维度映射成与类别标签相同的维度大小，然后送入到分类器中：

其中

而z＝∑_iexp(x_i)。

Step2.7、最终模型的目标函数使用交叉熵损失进行计算

其中y_D是具有标签的评论索引集，F表示输出特征的维度，与类别数量相同。Y是标签矩阵。

本发明的有益效果是：

(1)由于以往的方法值只考虑到单语语料库中各评论文本的局部特征，未关注到观点对象信息在跨语言之间的知识迁移。无论是哪种语言，用户针对同一热点事件的讨论内容较为接近，讨论重点类似。因此本发明训练信息互补的特征表示学习模型，利用跨语言评论之间的关联特征可以较好地捕获跨语言评论的全局信息和局部信息。

(2)根据学习到关联信息的评论表征，本发明提出利用GCN神经网络对评论进行编码，利用节点间的信息传递捕获高阶领域知识，从而可以利用汉语观点对象类别标签，实现越南语观点对象的识别。

附图说明

图1本发明中识别模型的具体结构示意图。

具体实施方式

实施例1：如图1所示，融入主题特征的中越跨语言评论情感倾向性分析方法，所述方法的具体步骤如下：

表1中越评论句数据集统计信息

所构异构图间的节点之间边的权重可以定义为：

其中

表示标准化对称邻接矩阵，

表示

的度矩阵，W₀∈R^m×k表示权重矩阵。ρ是激活函数，本文使用的是RELU。通过叠加多个GCN层来学习合并更高阶的领域信息，学习更深层的节点特征。可以表示为：

其中j表示层数，而L⁽⁰⁾表示原始邻接矩阵。

其中

而

Step2.7、最终模型的目标函数使用交叉熵损失进行计算

Step2.7、选择Adam优化器，它收敛速度较快且收敛过程较稳定，能基于训练数据迭代地更新神经网络权重。利用Adam优化器对图卷积神经网络和分类器进行优化，其中使用学习率大小为0.0005。

为了说明本发明的效果，实验设置了2组对比实验。第一组实验验证基于图神经网络对越南语观点对象识别分析性能的提升，另一组实验验证设置不同的相似度阈值对模型性能的提升。

(1)基于图神经网络提高越南语观点对象识别分析的有效性验证

对比在基准模型中使用中文微博评论句和越南语推特评论句进行跨语言观点对象识别。在基准模型中将中越评论句作为模型的输入，然后获取到在整个语料上捕获关联信息的异构图节点特征，利用图卷积神经网络捕获到包含高阶领域信息的评论表征，最后进行观点对象识别。实验结果如表2所示：

列出了本文模型与基准模型在“某疫情”和“某歧视”两个跨语言数据集上的对比结果。

表2汉越跨语言观点对象识别方法性能对比

分析表2可知，本发明的方法的Accuracy，macroP，macroR，macroF1值均高于其他所有方法，说明：本发明方法结构中基于图神经网络能更好的将中文评论中所包含的观点对象信息迁移到越南语评论中，利用图卷积能收集全面的评论标签信息，从而使标签信息可以传播到整个图中；与基准实验中的textgcn+MT相比，在语义相似度计算后的macroF1值有提升，说明：对于描述同一事件的两种不同语言评论，相比较利用机器翻译缩小语言差异，本发明方法能更好地捕获跨语言评论中关联信息，从而在分类性能上得到提升。

(2)不同相似度阈值的有效性验证

第二部分验证不同相似度阈值的有效性，即对比在不同大小的相似度阈值下模型的性能，实验结果如表3所示:

表3不同相似度阈值的有效性验证(％)

分析表3可知，当阈值为0.75时达到macroF1达到最高随后又逐渐下降。同样模型的accuracy在阈值为0.75时处于最大，这表明当阈值设定过小都会遗漏相关的汉越词对，不能很好地将对齐信息整合到图中。因此根据实验分析结果得到，当相似度阈值设置为0.75时，模型在汉越数据集上的性能最高。

通过以上实验数据证明了图神经网络能够更好捕获跨语言之间的关联信息，能够更好学习跨语言表征，以往的观点对象识别工作没有关注到解决跨语言关联关系复杂和观点对象表征困难的问题，本发明通过异构图有效构建汉越评论句以及关键词之间的关联关系，并通过图卷积网络学习到高阶领域信息的观点对象特征。根据实验证明异构图能够捕获图中跨语言对象关联信息，利用滑动窗口能够生成足够的全局词共现信息，图卷积网络能够进行信息互补，从而较好地完成迁移任务，解决越南语标注资源稀缺的问题。本发明针对越南语观点对象识别任务，提出了一种基于图神经网络来指导越南语观点对象识别的方式施有效的。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于图神经网络的汉越跨语言观点对象识别分析方法，其特征在于：所述方法的具体步骤如下：

Step1、收集某事件中文微博评论和越南语推特评论，通过人工对噪声数据进行筛选和标注得到中越跨语言评论数据集；

2.根据权利要求1所述的基于图神经网络的汉越跨语言观点对象识别分析方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取某中文热点事件评论，从推特上爬取对应事件的越南语热点事件评论；

Step1.3、采用人工标注，获得中越跨语言评论数据集：以一条帖子为单位进行标注工作，对事件中的观点对象所属类别进行标注，三人盲判取交集。

3.根据权利要求1所述的基于图神经网络的汉越跨语言观点对象识别分析方法，其特征在于：所述步骤Step2的具体步骤如下：

Step2.1、通过异构图对评论的语义信息和拓扑信息进行表征学习，异构图表示为G＝(V、E、τ、γ)，其中τ：V→N表示节点类型的映射函数，γ：V→Z表示关系类型的映射函数；其中利用词频关系、词共现关系和语义相似度构建评论节点和词节点之间的边；基于关键词在语料库中出现的次数构建单词与评论句之间的边并将计算的TF-IDF值作为边的权重；

Step2.2、基于词共现关系构建节点之间的边，为了更好的利用全局词的共现信息，在单语上对语料库中所有的句子使用一个固定大小的滑动窗口来收集词的共现信息，使用点互信息PMI来计算两个词节点之间的权重；其中#W(i)表示指滑动窗口中包含单词i的数量，#W(i，j)是指滑动窗口中同时包含单词i和j的数量，#W是指语料库中所有滑动窗口的数量；当PMI值为正时表示两个词之间的语义相关性较高；一个词对(i，j)PMI值的计算公式为：

Step2.3、基于语义相似度找到跨语言词对(i，j)之间的关联性；利用xlmr模型获取到汉越语料库中单词的嵌入向量(A，B)，同时利用余弦相似度判断两个嵌入向量之间的相似性，当余弦值越接近1表示两个夹角越接近0度，也就是两个向量越相似；设置超参数k作为阈值，当余弦值大于k则认为词对中的两个单词高度相关，在这样词对之间添加边：

Step2.4、利用跨语言语义相关的词搭建两个评论句之间的关联性；判断汉越两条评论句是否相关时，采用匹配算法判断句对(i，j)连接的词节点是否存在边，当存在相关联的词对时认为这两个评论句具有较大的相关性，通过对相关词的权重进行加权平均数计算出跨语言评论句(C，V)得到相似度，在这样的句对之间添加边；

所构异构图间的节点之间边的权重定义为：

Step2.5、在根据双语对齐关系构建了异构图后，将图嵌入到一个简单的二层GCN中；GCN是一种多层神经网络，它直接在图上运行，并根据节点的领域属性引入节点的嵌入向量；GCN只能通过一层卷积来捕获关于近邻的信息；当多个GCN层被堆叠时，图上更多的信息就会被整合起来；两层GCN允许信息在最多两步长的节点之间传递信息，对于一层GCN，新的k维节点特征矩阵L⁽¹⁾∈R^n×k为：

其中

表示标准化对称邻接矩阵，

表示

的度矩阵，W₀∈R^m×k表示权重矩阵；ρ是激活函数，使用的是RELU；通过叠加多个GCN层来学习合并更高阶的领域信息，学习更深层的节点特征，表示为：

其中j表示层数，而L⁽⁰⁾表示原始邻接矩阵；

其中

而z＝∑_i exp(x_i)；

Step2.7、最终模型的目标函数使用交叉熵损失进行计算

其中y_D是具有标签的评论索引集，F表示输出特征的维度，与类别数量相同，Y是标签矩阵。