CN114742071A - 基于图神经网络的汉越跨语言观点对象识别分析方法 - Google Patents

基于图神经网络的汉越跨语言观点对象识别分析方法 Download PDF

Info

Publication number
CN114742071A
CN114742071A CN202210532418.1A CN202210532418A CN114742071A CN 114742071 A CN114742071 A CN 114742071A CN 202210532418 A CN202210532418 A CN 202210532418A CN 114742071 A CN114742071 A CN 114742071A
Authority
CN
China
Prior art keywords
language
comment
cross
graph
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210532418.1A
Other languages
English (en)
Other versions
CN114742071B (zh
Inventor
余正涛
施忆雪
相艳
黄于欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210532418.1A priority Critical patent/CN114742071B/zh
Publication of CN114742071A publication Critical patent/CN114742071A/zh
Application granted granted Critical
Publication of CN114742071B publication Critical patent/CN114742071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于图神经网络的汉越跨语言观点对象识别分析方法,属于自然语言处理领域。本发明包括:构建汉越观点对象数据集;利用异构图对中文和越南语评论之间的信息进行关联关系构建,之后利用图卷积神经网络编码观点对象特征;最后基于中文的观点对象标签作为输入训练分类器,最终完成在越南语数据集上的观点对象识别任务。本发明具体研究跨语言事件评论的关联异构图网络构建方法,研究跨语言评论的观点对象表征方法,研究双语评论关联异构图网络的传递和学习方法,实现跨语言观点对象识别与对齐,为把握越南民众对公共事件等对象的观点看法提供支撑。

Description

基于图神经网络的汉越跨语言观点对象识别分析方法
技术领域
本发明涉及基于图神经网络的汉越跨语言观点对象识别分析方法,属于自然语言处理技术领域。
背景技术
社交媒体评论的观点对象识别任务可以看作是特定领域下的多分类任务,旨在快速有效地识别评论中评价的观点对象,及时了解和掌握用户的关注重点,是事件观点分析的重要步骤。观点对象识别作为基于对象级情感分析的一项重要任务,为从文本评论中识别参考方面提供了重要的技术手段。为了解决观点对象识别的问题,人们提出了基于统计规则和基于机器学习方法进行识别任务,基于每个领域的评论表征来学习一个特定的观点对象分类器。通过统计学习方法主要是分析语料,结合分析结论制定词性规则、词序列规则及句法规则等,基于深度学习的主流方法通过融入主题模型或领域相关信息等外部知识提升识别性能。尽管这些模型背后的数学机制可能有所不同,但它们都有相同的先决条件:当前的训练过程有一个规模大且高质量的标注数据集可用。但是在面对不同的应用场景时,构建这样规模的训练数据集成本不可避免地会高。当面对一个标注训练数据有限的语言,人们可以通过使用来自富资源语言的补充标注数据增量训练过程用以提高模型的性能,这就是利用跨语言技术去解决稀缺语言观点对象识别的问题。
发明内容
本发明提供了基于图神经网络的汉越跨语言观点对象识别分析方法,以利用中文观点对象标签对相同事件下越南语评论句进行观点对象识别任务,解决了由于标注数据稀缺、跨语言评论关联复杂以及观点对象表征比较困难导致识别性能较低的问题。
本发明的技术方案是:基于图神经网络的汉越跨语言观点对象识别分析方法,所述方法的具体步骤如下:
Step1、通过爬虫技术爬取某疫情期间的中文微博评论和越南语推特评论,通过人工对噪声数据进行筛选和标注得到中越跨语言评论数据集;
Step2、利用异构图结构对中文和越南语评论句中的关联信息进行编码,利用图卷积编码器对评论和观点对象进行编码,将得到的观点对象特征向量用于训练模型,用训练好的模型进行观点对象识别。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取“某疫情”和“某歧视”的中文热点事件评论,从推特上爬取“某疫情”和“某歧视”的越南语热点事件评论;
Step1.2、对爬取微博和推特评论进行过滤筛选,过滤筛选的方式如下所示:删除#话题#结构、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.3、采用人工标注,获得中越跨语言评论数据集:以一条帖子为单位进行标注工作,对“某疫情”和“某歧视”事件中的观点对象所属类别进行标注,三人盲判取交集;
作为本发明的进一步方案,所述步骤Step2的具体步骤如下:
Step2.1、通过异构图对评论的语义信息和拓扑信息进行表征学习,异构图表示为G=(V、E、τ、γ),其中τ:V→N表示节点类型的映射函数,γ:V→Z表示关系类型的映射函数。其中利用词频关系、词共现关系和语义相似度构建评论节点和词节点之间的边。基于关键词在语料库中出现的次数构建单词与评论句之间的边并将计算的TF-IDF值作为边的权重。
Step2.2、基于词共现关系构建节点之间的边,为了更好的利用全局词的共现信息,在单语上对语料库中所有的句子使用一个固定大小的滑动窗口来收集词的共现信息,使用点互信息(PMI)来计算两个词节点之间的权重。其中#W(i)表示指滑动窗口中包含单词i的数量,#W(i,j)是指滑动窗口中同时包含单词i和j的数量,#W是指语料库中所有滑动窗口的数量。当PMI值为正时表示两个词之间的语义相关性较高。一个词对(i,j)PMI值的计算公式为:
Figure BDA0003639483050000021
Figure BDA0003639483050000022
Figure BDA0003639483050000023
Step2.3、基于语义相似度找到跨语言词对(i,j)之间的关联性。利用xlmr模型获取到汉越语料库中单词的嵌入向量(A,B),同时利用余弦相似度判断两个嵌入向量之间的相似性,当余弦值越接近1表示两个夹角越接近0度,也就是两个向量越相似。在中设置超参数k作为阈值,当余弦值大于k则认为词对中的两个单词高度相关,在这样词对之间添加边。
Figure BDA0003639483050000031
Step2.4、利用跨语言语义相关的词搭建两个评论句之间的关联性。判断汉越两条评论句是否相关时,采用匹配算法判断句对(i,j)连接的词节点是否存在边,当存在相关联的词对时认为这两个评论句具有较大的相关性,通过对相关词的权重进行加权平均数计算出跨语言评论句(C,V)得到相似度,在这样的句对之间添加边。
Figure BDA0003639483050000032
所构异构图间的节点之间边的权重可以定义为:
Figure BDA0003639483050000033
Step2.5、在根据双语对齐关系构建了异构图后,将图嵌入到一个简单的二层GCN中。GCN是一种多层神经网络,它直接在图上运行,并根据节点的领域属性引入节点的嵌入向量。GCN只能通过一层卷积来捕获关于近邻的信息。当多个GCN层被堆叠时,图上更多的信息就会被整合起来。两层GCN可以允许信息在最多两步长的节点之间传递信息,对于一层GCN,新的k维节点特征矩阵L(1)∈Rn×k为:
Figure BDA0003639483050000034
其中
Figure BDA0003639483050000035
表示标准化对称邻接矩阵,
Figure BDA0003639483050000036
表示
Figure BDA0003639483050000037
的度矩阵,W0∈Rm×k表示权重矩阵。ρ是激活函数,本发明使用的是RELU。通过叠加多个GCN层来学习合并更高阶的领域信息,学习更深层的节点特征。可以表示为:
Figure BDA0003639483050000038
其中j表示层数,而L(0)表示原始邻接矩阵。
Step2.6、在图神经网络的第二层将评论嵌入维度映射成与类别标签相同的维度大小,然后送入到分类器中:
Figure BDA0003639483050000041
其中
Figure BDA0003639483050000042
而z=∑iexp(xi)。
Step2.7、最终模型的目标函数使用交叉熵损失进行计算
Figure BDA0003639483050000043
其中yD是具有标签的评论索引集,F表示输出特征的维度,与类别数量相同。Y是标签矩阵。
本发明的有益效果是:
(1)由于以往的方法值只考虑到单语语料库中各评论文本的局部特征,未关注到观点对象信息在跨语言之间的知识迁移。无论是哪种语言,用户针对同一热点事件的讨论内容较为接近,讨论重点类似。因此本发明训练信息互补的特征表示学习模型,利用跨语言评论之间的关联特征可以较好地捕获跨语言评论的全局信息和局部信息。
(2)根据学习到关联信息的评论表征,本发明提出利用GCN神经网络对评论进行编码,利用节点间的信息传递捕获高阶领域知识,从而可以利用汉语观点对象类别标签,实现越南语观点对象的识别。
附图说明
图1本发明中识别模型的具体结构示意图。
具体实施方式
实施例1:如图1所示,融入主题特征的中越跨语言评论情感倾向性分析方法,所述方法的具体步骤如下:
Step1、通过爬虫技术爬取某疫情期间的中文微博评论和越南语推特评论,通过人工对噪声数据进行筛选和标注得到中越跨语言评论数据集;
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取“某疫情”和“某歧视”的中文热点事件评论,从推特上爬取“某疫情”和“某歧视”的越南语热点事件评论;
Step1.2、对爬取微博和推特评论进行过滤筛选,过滤筛选的方式如下所示:删除#话题#结构、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.3、采用人工标注,获得中越跨语言评论数据集:以一条帖子为单位进行标注工作,对“某疫情”和“某歧视”事件中的观点对象所属类别进行标注,三人盲判取交集;
表1中越评论句数据集统计信息
Figure BDA0003639483050000051
Step2、利用异构图结构对中文和越南语评论句中的关联信息进行编码,利用图卷积编码器对评论和观点对象进行编码,将得到的观点对象特征向量用于训练模型,用训练好的模型进行观点对象识别。
Step2.1、通过异构图对评论的语义信息和拓扑信息进行表征学习,异构图表示为G=(V、E、τ、γ),其中τ:V→N表示节点类型的映射函数,γ:V→Z表示关系类型的映射函数。其中利用词频关系、词共现关系和语义相似度构建评论节点和词节点之间的边。基于关键词在语料库中出现的次数构建单词与评论句之间的边并将计算的TF-IDF值作为边的权重。
Step2.2、基于词共现关系构建节点之间的边,为了更好的利用全局词的共现信息,在单语上对语料库中所有的句子使用一个固定大小的滑动窗口来收集词的共现信息,使用点互信息(PMI)来计算两个词节点之间的权重。其中#W(i)表示指滑动窗口中包含单词i的数量,#W(i,j)是指滑动窗口中同时包含单词i和j的数量,#W是指语料库中所有滑动窗口的数量。当PMI值为正时表示两个词之间的语义相关性较高。一个词对(i,j)PMI值的计算公式为:
Figure BDA0003639483050000052
Figure BDA0003639483050000053
Figure BDA0003639483050000054
Step2.3、基于语义相似度找到跨语言词对(i,j)之间的关联性。利用xlmr模型获取到汉越语料库中单词的嵌入向量(A,B),同时利用余弦相似度判断两个嵌入向量之间的相似性,当余弦值越接近1表示两个夹角越接近0度,也就是两个向量越相似。在中设置超参数k作为阈值,当余弦值大于k则认为词对中的两个单词高度相关,在这样词对之间添加边。
Figure BDA0003639483050000061
Step2.4、利用跨语言语义相关的词搭建两个评论句之间的关联性。判断汉越两条评论句是否相关时,采用匹配算法判断句对(i,j)连接的词节点是否存在边,当存在相关联的词对时认为这两个评论句具有较大的相关性,通过对相关词的权重进行加权平均数计算出跨语言评论句(C,V)得到相似度,在这样的句对之间添加边。
Figure BDA0003639483050000062
所构异构图间的节点之间边的权重可以定义为:
Figure BDA0003639483050000063
Step2.5、在根据双语对齐关系构建了异构图后,将图嵌入到一个简单的二层GCN中。GCN是一种多层神经网络,它直接在图上运行,并根据节点的领域属性引入节点的嵌入向量。GCN只能通过一层卷积来捕获关于近邻的信息。当多个GCN层被堆叠时,图上更多的信息就会被整合起来。两层GCN可以允许信息在最多两步长的节点之间传递信息,对于一层GCN,新的k维节点特征矩阵L(1)∈Rn×k为:
Figure BDA0003639483050000064
其中
Figure BDA0003639483050000065
表示标准化对称邻接矩阵,
Figure BDA0003639483050000066
表示
Figure BDA0003639483050000067
的度矩阵,W0∈Rm×k表示权重矩阵。ρ是激活函数,本文使用的是RELU。通过叠加多个GCN层来学习合并更高阶的领域信息,学习更深层的节点特征。可以表示为:
Figure BDA0003639483050000068
其中j表示层数,而L(0)表示原始邻接矩阵。
Step2.6、在图神经网络的第二层将评论嵌入维度映射成与类别标签相同的维度大小,然后送入到分类器中:
Figure BDA0003639483050000071
其中
Figure BDA0003639483050000072
Figure BDA0003639483050000073
Step2.7、最终模型的目标函数使用交叉熵损失进行计算
Figure BDA0003639483050000074
其中yD是具有标签的评论索引集,F表示输出特征的维度,与类别数量相同。Y是标签矩阵。
Step2.7、选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。利用Adam优化器对图卷积神经网络和分类器进行优化,其中使用学习率大小为0.0005。
为了说明本发明的效果,实验设置了2组对比实验。第一组实验验证基于图神经网络对越南语观点对象识别分析性能的提升,另一组实验验证设置不同的相似度阈值对模型性能的提升。
(1)基于图神经网络提高越南语观点对象识别分析的有效性验证
对比在基准模型中使用中文微博评论句和越南语推特评论句进行跨语言观点对象识别。在基准模型中将中越评论句作为模型的输入,然后获取到在整个语料上捕获关联信息的异构图节点特征,利用图卷积神经网络捕获到包含高阶领域信息的评论表征,最后进行观点对象识别。实验结果如表2所示:
列出了本文模型与基准模型在“某疫情”和“某歧视”两个跨语言数据集上的对比结果。
表2汉越跨语言观点对象识别方法性能对比
Figure BDA0003639483050000075
Figure BDA0003639483050000081
分析表2可知,本发明的方法的Accuracy,macroP,macroR,macroF1值均高于其他所有方法,说明:本发明方法结构中基于图神经网络能更好的将中文评论中所包含的观点对象信息迁移到越南语评论中,利用图卷积能收集全面的评论标签信息,从而使标签信息可以传播到整个图中;与基准实验中的textgcn+MT相比,在语义相似度计算后的macroF1值有提升,说明:对于描述同一事件的两种不同语言评论,相比较利用机器翻译缩小语言差异,本发明方法能更好地捕获跨语言评论中关联信息,从而在分类性能上得到提升。
(2)不同相似度阈值的有效性验证
第二部分验证不同相似度阈值的有效性,即对比在不同大小的相似度阈值下模型的性能,实验结果如表3所示:
表3不同相似度阈值的有效性验证(%)
Figure BDA0003639483050000082
分析表3可知,当阈值为0.75时达到macroF1达到最高随后又逐渐下降。同样模型的accuracy在阈值为0.75时处于最大,这表明当阈值设定过小都会遗漏相关的汉越词对,不能很好地将对齐信息整合到图中。因此根据实验分析结果得到,当相似度阈值设置为0.75时,模型在汉越数据集上的性能最高。
通过以上实验数据证明了图神经网络能够更好捕获跨语言之间的关联信息,能够更好学习跨语言表征,以往的观点对象识别工作没有关注到解决跨语言关联关系复杂和观点对象表征困难的问题,本发明通过异构图有效构建汉越评论句以及关键词之间的关联关系,并通过图卷积网络学习到高阶领域信息的观点对象特征。根据实验证明异构图能够捕获图中跨语言对象关联信息,利用滑动窗口能够生成足够的全局词共现信息,图卷积网络能够进行信息互补,从而较好地完成迁移任务,解决越南语标注资源稀缺的问题。本发明针对越南语观点对象识别任务,提出了一种基于图神经网络来指导越南语观点对象识别的方式施有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.基于图神经网络的汉越跨语言观点对象识别分析方法,其特征在于:所述方法的具体步骤如下:
Step1、收集某事件中文微博评论和越南语推特评论,通过人工对噪声数据进行筛选和标注得到中越跨语言评论数据集;
Step2、利用异构图结构对中文和越南语评论句中的关联信息进行编码,利用图卷积编码器对评论和观点对象进行编码,将得到的观点对象特征向量用于训练模型,用训练好的模型进行观点对象识别。
2.根据权利要求1所述的基于图神经网络的汉越跨语言观点对象识别分析方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取某中文热点事件评论,从推特上爬取对应事件的越南语热点事件评论;
Step1.2、对爬取微博和推特评论进行过滤筛选,过滤筛选的方式如下所示:删除#话题#结构、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.3、采用人工标注,获得中越跨语言评论数据集:以一条帖子为单位进行标注工作,对事件中的观点对象所属类别进行标注,三人盲判取交集。
3.根据权利要求1所述的基于图神经网络的汉越跨语言观点对象识别分析方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、通过异构图对评论的语义信息和拓扑信息进行表征学习,异构图表示为G=(V、E、τ、γ),其中τ:V→N表示节点类型的映射函数,γ:V→Z表示关系类型的映射函数;其中利用词频关系、词共现关系和语义相似度构建评论节点和词节点之间的边;基于关键词在语料库中出现的次数构建单词与评论句之间的边并将计算的TF-IDF值作为边的权重;
Step2.2、基于词共现关系构建节点之间的边,为了更好的利用全局词的共现信息,在单语上对语料库中所有的句子使用一个固定大小的滑动窗口来收集词的共现信息,使用点互信息PMI来计算两个词节点之间的权重;其中#W(i)表示指滑动窗口中包含单词i的数量,#W(i,j)是指滑动窗口中同时包含单词i和j的数量,#W是指语料库中所有滑动窗口的数量;当PMI值为正时表示两个词之间的语义相关性较高;一个词对(i,j)PMI值的计算公式为:
Figure FDA0003639483040000021
Figure FDA0003639483040000022
Figure FDA0003639483040000023
Step2.3、基于语义相似度找到跨语言词对(i,j)之间的关联性;利用xlmr模型获取到汉越语料库中单词的嵌入向量(A,B),同时利用余弦相似度判断两个嵌入向量之间的相似性,当余弦值越接近1表示两个夹角越接近0度,也就是两个向量越相似;设置超参数k作为阈值,当余弦值大于k则认为词对中的两个单词高度相关,在这样词对之间添加边:
Figure FDA0003639483040000024
Step2.4、利用跨语言语义相关的词搭建两个评论句之间的关联性;判断汉越两条评论句是否相关时,采用匹配算法判断句对(i,j)连接的词节点是否存在边,当存在相关联的词对时认为这两个评论句具有较大的相关性,通过对相关词的权重进行加权平均数计算出跨语言评论句(C,V)得到相似度,在这样的句对之间添加边;
Figure FDA0003639483040000025
所构异构图间的节点之间边的权重定义为:
Figure FDA0003639483040000026
Step2.5、在根据双语对齐关系构建了异构图后,将图嵌入到一个简单的二层GCN中;GCN是一种多层神经网络,它直接在图上运行,并根据节点的领域属性引入节点的嵌入向量;GCN只能通过一层卷积来捕获关于近邻的信息;当多个GCN层被堆叠时,图上更多的信息就会被整合起来;两层GCN允许信息在最多两步长的节点之间传递信息,对于一层GCN,新的k维节点特征矩阵L(1)∈Rn×k为:
Figure FDA0003639483040000031
其中
Figure FDA0003639483040000032
表示标准化对称邻接矩阵,
Figure FDA0003639483040000033
表示
Figure FDA0003639483040000034
的度矩阵,W0∈Rm×k表示权重矩阵;ρ是激活函数,使用的是RELU;通过叠加多个GCN层来学习合并更高阶的领域信息,学习更深层的节点特征,表示为:
Figure FDA0003639483040000035
其中j表示层数,而L(0)表示原始邻接矩阵;
Step2.6、在图神经网络的第二层将评论嵌入维度映射成与类别标签相同的维度大小,然后送入到分类器中:
Figure FDA0003639483040000036
其中
Figure FDA0003639483040000037
而z=∑i exp(xi);
Step2.7、最终模型的目标函数使用交叉熵损失进行计算
Figure FDA0003639483040000038
其中yD是具有标签的评论索引集,F表示输出特征的维度,与类别数量相同,Y是标签矩阵。
CN202210532418.1A 2022-05-12 2022-05-12 基于图神经网络的汉越跨语言观点对象识别分析方法 Active CN114742071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210532418.1A CN114742071B (zh) 2022-05-12 2022-05-12 基于图神经网络的汉越跨语言观点对象识别分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210532418.1A CN114742071B (zh) 2022-05-12 2022-05-12 基于图神经网络的汉越跨语言观点对象识别分析方法

Publications (2)

Publication Number Publication Date
CN114742071A true CN114742071A (zh) 2022-07-12
CN114742071B CN114742071B (zh) 2024-04-23

Family

ID=82285019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210532418.1A Active CN114742071B (zh) 2022-05-12 2022-05-12 基于图神经网络的汉越跨语言观点对象识别分析方法

Country Status (1)

Country Link
CN (1) CN114742071B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455258A (zh) * 2022-09-14 2022-12-09 中国电子科技集团公司第十五研究所 一种网络空间语言描述与分析方法及装置
CN116562302A (zh) * 2023-06-29 2023-08-08 昆明理工大学 融合汉越关联关系的多语言事件观点对象识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150074122A1 (en) * 2013-09-09 2015-03-12 International Business Machines Corporation Social recommendation across heterogeneous networks
CN109165299A (zh) * 2018-08-30 2019-01-08 杭州电子科技大学 一种基于Gspan和TextRank的科技领域本体构建方法
CN112183026A (zh) * 2020-11-27 2021-01-05 北京惠及智医科技有限公司 Icd编码方法、装置、电子设备和存储介质
CN112948541A (zh) * 2021-02-01 2021-06-11 华南理工大学 基于图卷积网络的金融新闻文本情感倾向分析方法
CN113901208A (zh) * 2021-09-15 2022-01-07 昆明理工大学 融入主题特征的中越跨语言评论情感倾向性分析方法
CN114282606A (zh) * 2021-12-22 2022-04-05 安徽科大讯飞医疗信息技术有限公司 对象识别方法、装置、计算机可读存储介质及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150074122A1 (en) * 2013-09-09 2015-03-12 International Business Machines Corporation Social recommendation across heterogeneous networks
CN109165299A (zh) * 2018-08-30 2019-01-08 杭州电子科技大学 一种基于Gspan和TextRank的科技领域本体构建方法
CN112183026A (zh) * 2020-11-27 2021-01-05 北京惠及智医科技有限公司 Icd编码方法、装置、电子设备和存储介质
CN112948541A (zh) * 2021-02-01 2021-06-11 华南理工大学 基于图卷积网络的金融新闻文本情感倾向分析方法
CN113901208A (zh) * 2021-09-15 2022-01-07 昆明理工大学 融入主题特征的中越跨语言评论情感倾向性分析方法
CN114282606A (zh) * 2021-12-22 2022-04-05 安徽科大讯飞医疗信息技术有限公司 对象识别方法、装置、计算机可读存储介质及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAO WANG等: "Heterogeneous graph structure learning for graph neural networks", 《AAAI TECHNICAL TRACK ON DATA MINING AND KNOWLEDGE MANAGEMENT》, vol. 35, no. 5, 18 May 2021 (2021-05-18), pages 1 - 9 *
施忆雪: "面向社交媒体文本的汉越跨语言对象级情感分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 21 February 2024 (2024-02-21), pages 1 - 62 *
闫娟: "基于图神经网络和外部特征融合的短文本分类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2022 (2022-01-15), pages 138 - 3365 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455258A (zh) * 2022-09-14 2022-12-09 中国电子科技集团公司第十五研究所 一种网络空间语言描述与分析方法及装置
CN116562302A (zh) * 2023-06-29 2023-08-08 昆明理工大学 融合汉越关联关系的多语言事件观点对象识别方法

Also Published As

Publication number Publication date
CN114742071B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
US9373086B1 (en) Crowdsource reasoning process to facilitate question answering
Snyder et al. Interactive learning for identifying relevant tweets to support real-time situational awareness
TW202009749A (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN111008274B (zh) 特征扩展卷积神经网络的案件微博观点句识别构建方法
Wullach et al. Towards hate speech detection at large via deep generative modeling
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
Nagamanjula et al. A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Shah et al. Multimodal fake news detection using a Cultural Algorithm with situational and normative knowledge
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN113901208B (zh) 融入主题特征的中越跨语言评论情感倾向性分析方法
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN109815485A (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
Tang et al. Research on automatic labeling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching
WO2023129339A1 (en) Extracting and classifying entities from digital content items
Sheeba et al. A fuzzy logic based on sentiment classification
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
Baboo et al. Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers
CN116562302A (zh) 融合汉越关联关系的多语言事件观点对象识别方法
Zhang et al. Predicting and visualizing consumer sentiments in online social media
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
CN116383517A (zh) 动态传播特征增强的多模态谣言检测方法及系统
CN114943216A (zh) 基于图注意力网络的案件微博属性级观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant