CN116562302A

CN116562302A - 融合汉越关联关系的多语言事件观点对象识别方法

Info

Publication number: CN116562302A
Application number: CN202310779783.7A
Authority: CN
Inventors: 余正涛; 李格格; 郭军军; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-08-08

Abstract

本发明涉及融合汉越关联关系的多语言事件观点对象识别方法，属自然语言处理领域。本发明包括：构建观点对象识别数据集；使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征；将评论文本和其中的关键词作为异构图的节点，并基于评论文本中词共现、词对齐、词频信息和语义相似度的关系构边；利用图卷积网络对节点特征进行学习；识别出评论文本中的观点对象。本发明利用中文和越南语事件间的要素共现和整体语义关联构建汉越多语言事件表征网络，得到同一语义空间下汉越两种语言的公共表征，实现汉越事件观点对象的对齐与识别，为把握汉越两国对公共事件的观点看法提供支撑。

Description

融合汉越关联关系的多语言事件观点对象识别方法

技术领域

本发明涉及融合汉越关联关系的多语言事件观点对象识别方法，属于自然语言处理领域。

背景技术

互联网的快速发展推动了中越两国交流，从社交媒体评论文本中挖掘两国用户的观点，掌握用户对事件的关注，对处理好与越南的国际关系、区域经济发展和文化交流有着重要的作用，同时为政府及企业正确把握汉越舆情动态并及时做出应对措施提供有效保障。

如图2所示的是汉越“事件A”数据集中有关不同观点对象的评论句。通过观察可以发现中文和越南语评论在针对同一事件时讨论的内容较为接近，关注的重点也较为相似，利用这种关联特征可以较好地捕获汉越双语评论的全局特征（汉越评论之间的关联关系）和局部特征（评论中关键词所携带的语义信息）。通过对关联关系和语义信息进行建模，能够得到信息互补的特征表示学习模型，从而较好地完成迁移任务，解决越南语标注资源稀缺的问题。

目前，在多语言观点对象识别的研究中，主要通过基于传统机器学习的方法和基于深度学习的方法进行观点对象识别，根据每个领域的评论表征来学习特定的观点对象分类器。基于传统机器学习的方法通过制定相关规则并融入领域相关信息等外部知识利用算法提升识别性能，基于深度学习的方法通过使用神经网络提取数据特征进行观点对象的识别。这些模型利用传统的特征编码模式只能考虑到单语语料库中各评论文本的局部特征，不能很好的做到多语言间的知识迁移，因此，本发明提出一种融合汉越关联关系的多语言事件观点对象识别方法。

发明内容

本发明提供了融合汉越关联关系的多语言事件观点对象识别方法，以用于通过将汉越评论文本和其中的关键词作为节点构建异构图，结合评论文本节点的输入表征，通过图卷积网络准确地捕获汉越双语评论间观点对象的关联信息，提高观点对象表征学习和识别性能。

本发明的技术方案是：融合汉越关联关系的多语言事件观点对象识别方法，所述方法的具体步骤如下：

Step1、获取事件相关的汉越双语评论文本，经过筛选后再形成json格式文件，再进行标注得到汉越双语观点对象识别数据集；

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、采用基于Scrapy框架的网络爬虫从新浪微博和推特上爬取热点事件事件A和事件B相关的微博及推特汉越双语评论文本；

Step1.2、对微博及推特的汉越双语评论文本进行过滤筛选，过滤筛选的方式如下所示：通过语种识别方法删除非汉越数据，其中，语种识别方法采用通过fastText中的cbow模型进行语种识别来删除非汉越数据，利用emoji数据包和正则表达式删除文本中的表情、符号以及超链接，删除#话题#结构，删除相同的评论文本；经过过滤筛选后再形成json格式文件；

Step1.3、采用人工标注，获得事件A和事件B汉越双语观点对象识别数据集：以一条汉越双语评论文本为单位进行标注工作，对“事件A”和“事件B”事件中的观点对象所属类别进行标注，三人盲判取交集。

Step2、使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征，将事件相关的汉越双语评论文本和其中的关键词作为异构图的节点，并基于事件相关的汉越双语评论文本中词共现、词对齐、词频信息和语义相似度的关系构边，利用图卷积网络对节点特征进行学习，并对节点进行线性转换输出评论文本节点的预测，得到事件相关的汉越双语评论文本的观点对象。

作为本发明的进一步方案，所述Step2的具体步骤如下：

Step2.1、使用多语言预训练语言模型XLM-R来获得事件相关的汉越双语评论文本的嵌入，即得到事件相关的汉越双语评论文本的节点特征，并将它们作为异构图中评论文本节点的输入表示；

（1）

其中，、、和分别表示中文评论文本数量、越南语评论文本数量、中文关键词数量和越南语关键词数量，中文评论文本和越南语评论文本节点嵌入分别由和表示，其中d是文本嵌入的维度，由于不考虑关键词节点的特征表示，因此将中文关键词和越南语关键词嵌入置为0；

Step2.2、使用事件相关的汉越双语评论文本数据集中的评论句和其中的关键词作为异构图的节点构建汉越双语异构图，其中关键词之间、评论句和关键词之间以及评论句之间均有不同的关系种类，包括关键词之间的词共现和词对齐关系，评论句和关键词的词频关系，评论句之间的语义相似度关系；

Step2.3、在构建汉越双语异构图后，将不同关系类别的子图进行融合，嵌入到一个多层图卷积网络GCN中；图卷积网络是一种多层神经网络，可以根据节点的领域属性引入节点的嵌入向量。GCN可以通过一层卷积来捕获关于近邻节点的信息，当堆叠多个GCN层时，图上更多的信息就会被整合起来。两层GCN允许信息在最多两步长的节点之间传递信息，对于一层GCN，新的维节点特征矩阵为：

（2）

其中表示标准化对称邻接矩阵，/>表示权重矩阵，/>是RELU激活函数，/>是邻接矩阵，/>是邻接矩阵/>的度矩阵、/>是第j层权重矩阵；通过叠加多个GCN层来学习合并更高阶的领域信息，学习更深层的节点特征，表示为：

（3）

其中表示层数，而表示原始邻接矩阵；

Step2.4、观点对象识别过程是判断当前节点属于哪一类别，属于分类过程，在图神经网络的第二层将汉越双语评论文本嵌入维度映射成与类别标签相同的维度大小，然后送入到分类器中：

（4）

其中，而，是第一层权重矩阵、是第i个评论文本节点的概率分布输出值；

Step2.5、最终模型的目标函数使用交叉熵损失进行计算；

（5）

其中是具有标签的评论索引集，F表示输出特征的维度，与类别数量相同，是标签矩阵，是汉越双语评论文本属于观点对象类别的预测概率值。

作为本发明的进一步方案，所述Step2.2中的关键词之间的词共现和词对齐关系为：

为了更好的利用单语关键词的共现信息，通过基于词共现关系构建关键词节点之间的边，对语料库中所有的评论句使用一个固定大小的滑动窗口来收集词的共现信息，分别在汉越双语评论文本上使用点互信息PMI计算两个关键词节点之间的权重，单语关键词对的PMI值计算公式为:

（6）

(7)

(8)

(9)

其中、分别表示滑动窗口中包含关键词、的数量，是语料库中所有滑动窗口的数量；当PMI值为正时表示两个词之间的语义相关性较高，而PMI值为负时表示两个词之间的语义相关性很少或没有，只在PMI值为正的关键词对之间添加边；

考虑挖掘汉越双语关键词之间的关系，基于双语词对齐构建关键词节点之间的边，对于汉越双语观点对象识别研究中，汉越双语关键词对相较于其他词对对模型预测性能产生影响更大，利用汉越双语种子词典，首先识别出评论文本中的关键词，匹配语义相似的双语关键词作为词节点并添加对齐的边关系，根据匹配出的双语关键词对进行多语言词级对齐和聚合，从而将两种语言的词级关系融入图结构中。

作为本发明的进一步方案，所述Step2.2中的评论句和关键词的词频关系为：

基于关键词在评论文本中出现的次数构建关键词与评论句之间的边，使用TF-IDF计算词频，其中TF是单词在评论句中出现的次数，IDF指的是由包含该单词的句子数量的对数缩放的逆分数，在评论句与关键词之间添加边并将计算的TF-IDF值作为边的权重。

作为本发明的进一步方案，所述Step2.2中的评论句之间的语义相似度关系为：

为了在评论句之间添加更直接的连接，使汉越两种语言的评论句可以更好的进行同一嵌入空间下的迁移学习，通过多语言预训练语言模型XLM-R得到汉越两种语言评论句的嵌入向量()，同时利用余弦相似度计算两个嵌入向量之间的相似性；

（9）

其中表示第条中文评论文本嵌入向量，表示第条越南语评论文本嵌入向量；当余弦值越接近1表示两个向量的夹角越接近0度，也就是两个向量越相似，设置超参数P作为阈值，找到余弦相似度最大的P个评论文本添加边关系。

本发明的有益效果是：

（1）在中文和越南语评论文本上利用异构图进行关联关系构建，通过构建多种类型的节点和边关系，捕捉各节点之间丰富的关系结构，得到汉越评论文本数据在同一嵌入空间下的对应关系；

（2）使用多语言预训练语言模型获取评论文本的特征向量，并将其作为评论文本节点的输入表征，使用图卷积网络学习节点特征并基于图结构迭代更新评论文本表征，进行汉越观点对象的识别；

（3）在所构建的汉越评论数据集上进行了实验，相比已有的基线模型，本发明性能都有较大的提升。

附图说明

图1为本发明提出的融合汉越关联关系的多语言事件观点对象识别模型图；

图2为本发明“事件A”数据集上的汉越社交媒体评论样例示意图；

图3为本发明在不同数据集下GCN层数设定对实验结果影响的示意图。

具体实施方式

实施例1：如图1-图3所示，融合汉越关联关系的多语言事件观点对象识别方法，所述方法的具体步骤如下：

Step1、通过网络爬虫技术从新浪微博和推特获取事件A和事件B相关中文和越南语评论文本，经过筛选后再形成json格式文件，通过人工对数据集进行标注得到汉越双语观点对象识别数据集，如图2所示为“事件A”数据集上的汉越社交媒体评论样例示意图，所述Step1的具体步骤为：

Step2、使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征，将事件相关的汉越双语评论文本和其中的关键词作为异构图的节点，并基于事件相关的汉越双语评论文本中词共现、词对齐、词频信息和语义相似度的关系构边，利用图卷积网络对节点特征进行学习，并对节点进行线性转换输出评论文本节点的预测，得到事件相关的汉越双语评论文本的观点对象。所述Step2的具体步骤如下：

（1）

所述Step2.2中的关键词之间的词共现和词对齐关系为：

通过基于词共现关系构建关键词节点之间的边，对语料库中所有的评论句使用一个固定大小的滑动窗口来收集词的共现信息，分别在汉越双语评论文本上使用点互信息 PMI计算两个关键词节点之间的权重，单语关键词对的PMI值计算公式为:

（2）

（3）

（4）

(5)

其中、分别表示滑动窗口中包含关键词、的数量，是指滑动窗口中同时包含关键词和的数量，是语料库中所有滑动窗口的数量；只在PMI值为正的关键词对之间添加边；

利用汉越双语种子词典，首先识别出评论文本中的关键词，匹配语义相似的双语关键词作为词节点并添加对齐的边关系，根据匹配出的双语关键词对进行多语言词级对齐和聚合，从而将两种语言的词级关系融入图结构中。

所述Step2.2中的评论句和关键词的词频关系为：

所述Step2.2中的评论句之间的语义相似度关系为：

通过多语言预训练语言模型XLM-R得到汉越两种语言评论句的嵌入向量()，同时利用余弦相似度计算两个嵌入向量之间的相似性；

（6）

其中表示第条中文评论文本嵌入向量，表示第条越南语评论文本嵌入向量；设置超参数P作为阈值，找到余弦相似度最大的P个评论文本添加边关系。

Step2.3、在构建汉越双语异构图后，将不同关系类别的子图进行融合，嵌入到一个多层图卷积网络GCN中；两层GCN允许信息在最多两步长的节点之间传递信息，对于一层 GCN，新的维节点特征矩阵为：

（7）

（8）

其中表示层数，而表示原始邻接矩阵；

（9）

Step2.5、最终模型的目标函数使用交叉熵损失进行计算；

（10）

为了说明本发明的效果，设置了4组对比实验，第1组是主实验，分别是两个数据集与基线模型进行比较；第2组实验，是数据集在不同的多语言预训练语言模型上的实验结果对比；第3组实验是数据集在不同的图卷积层数下的实验结果；第4组实验分析了不同的图结构对实验结果的影响。

（1）基线模型

TF-IDF+LR（LogisticRegression）：具有术语频率和反向文档频率加权的词袋模型加监督学习中经典的分类方法，以线性回归为理论支持，通过Sigmoid函数引入非线性因素，解决观点对象识别任务。

MT+LM（Machine Translation by Google Translation API + LanguageModel）:将训练的越南语评论翻译为中文评论，利用预训练语言模型对评论句进行表征并训练观点对象分类器，在测试数据上实现观点对象识别。

CNN：采用TextCNN模型，仅依靠双语词嵌入对目标进行分类，设置卷积核大小为。

Node2vec: Node2ve通过网络中的二阶随机游走来学习图的嵌入，通过在验证集上对进行网格搜索，为实验选择最佳的参数设置。

MT+TextGCN：将训练后的中文评论翻译为越南语评论，利用翻译后的文本进行异构图构建，并利用TextGCN对节点特征进行学习。

CLHG：使用基于异构图的图卷积网络，通过机器翻译对不同语言的文档进行翻译，文档和词之间存在的不同关系创建异构图结构，将异构图的方法应用在多语言文本分类任务上。

（2）主实验结果

实现本发明方法的观点对象识别模型与基线模型在两个数据集上的实验对比结果，如下表1所示。分析可知本发明方法的Accuracy，macroP，macroR，macroF1值均高于其他所有方法，说明：本发明方法结构中融合汉越关联关系的多语言事件观点对象识别方法能更好的利用图卷积网络收集全面的评论标签信息，使标签信息可以传播到整个异构图中。

表1 汉越双语观点对象识别方法性能对比

（3）不同多语言预训练语言模型的实验结果

为了验证不同的多语言预训练语言模型对本发明模型方法的影响，本发明分别使用mBert、XLM和XLM-R对数据集中的评论文本节点进行表征，所有参数设置均相同。观察表2可以发现，选择多语言预训练模型XLM-R做表征时模型效果最好。

表2 不同多语言预训练语言模型对实验结果的影响

（4）图卷积层数设定对实验结果的影响

在图卷积学习的过程，图卷积层数的设定对聚合邻居节点信息程度有影响，实验结果如图3所示，模型的F1值先随着卷积层数的增大而增加，当卷积层数为2时，模型的性能达到最佳，当卷积层数超过2层后，随着层数的增加，模型性能有所下降并趋于稳定。

（5）不同图结构对实验结果的影响

本发明构建了四种不同关系种类的子图，其中单语言图包括关键词之间的词共现关系以及评论文本和关键词的词频关系，多语言图包括词对齐关系和评论文本之间的语义相似度关系。根据不同构图方式在“事件A”和“事件B”两个数据集上进行实验分析，实验的对比结果如下表3所示，实验结果证明了进行跨语言的有效性。

表3不同图结构的性能对比

总之，本发明提出了一种融合汉越关联关系的多语言事件观点对象识别方法，将汉越语料库中的各种实体和关系整合到一个异构图中，将语义信息和拓扑信息封装到一个低维联合嵌入的观点对象识别任务中，通过构建一个包含关键词节点和评论文本节点的异构图，得到同一语义空间下汉越两种语言的公共表征；

利用关联事件下的汉越社交媒体评论文本数据作为模型训练语料，结合汉越评论文本之间以及关键词之间的关联关系构建多语言异构图，随后利用图卷积网络对该图进行建模，从而聚合邻居节点信息并捕获高阶领域信息，利用该方法能够识别出汉越双语评论文本中的观点对象，实验结果证明了本发明所提方法的有效性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合汉越关联关系的多语言事件观点对象识别方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法，其特征在于：所述Step1的具体步骤为：

3.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法，其特征在于：所述Step2的具体步骤如下：

（1）

其中，、/>、/>和/>分别表示中文评论文本数量、越南语评论文本数量、中文关键词数量和越南语关键词数量，中文评论文本和越南语评论文本节点嵌入分别由/>和/>表示，其中d是文本嵌入的维度，由于不考虑关键词节点的特征表示，因此将中文关键词和越南语关键词嵌入置为0；

Step2.3、在构建汉越双语异构图后，将不同关系类别的子图进行融合，嵌入到一个多层图卷积网络GCN中；两层GCN允许信息在最多两步长的节点之间传递信息，对于一层GCN，新的维节点特征矩阵/>为：

（2）

(3)

其中表示层数，而/>表示原始邻接矩阵；

(4)

其中，而/>，/>是第一层权重矩阵、/>是第i个评论文本节点的概率分布输出值；

Step2.5、最终模型的目标函数使用交叉熵损失进行计算；

(5)

其中是具有标签的评论索引集，F表示输出特征的维度，与类别数量相同，/>是标签矩阵，/>是汉越双语评论文本属于观点对象类别的预测概率值。

4.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法，其特征在于：所述Step2.2中的关键词之间的词共现和词对齐关系为：

通过基于词共现关系构建关键词节点之间的边，对语料库中所有的评论句使用一个固定大小的滑动窗口来收集词的共现信息，分别在汉越双语评论文本上使用点互信息PMI计算两个关键词节点之间的权重，单语关键词对的PMI值计算公式为:

(6)

(7)

(8)

(9)

其中、/>分别表示滑动窗口中包含关键词/>、/>的数量，/>是指滑动窗口中同时包含关键词/>和/>的数量，/>是语料库中所有滑动窗口的数量；只在PMI值为正的关键词对之间添加边；

5.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法，其特征在于：所述Step2.2中的评论句和关键词的词频关系为：

6.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法，其特征在于：所述Step2.2中的评论句之间的语义相似度关系为：

(10)

其中表示第/>条中文评论文本嵌入向量，/>表示第/>条越南语评论文本嵌入向量；设置超参数P作为阈值，找到余弦相似度最大的P个评论文本添加边关系。