CN116562302A - 融合汉越关联关系的多语言事件观点对象识别方法 - Google Patents
融合汉越关联关系的多语言事件观点对象识别方法 Download PDFInfo
- Publication number
- CN116562302A CN116562302A CN202310779783.7A CN202310779783A CN116562302A CN 116562302 A CN116562302 A CN 116562302A CN 202310779783 A CN202310779783 A CN 202310779783A CN 116562302 A CN116562302 A CN 116562302A
- Authority
- CN
- China
- Prior art keywords
- comment
- event
- bilingual
- yue
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000005096 rolling process Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000867077 Macropes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合汉越关联关系的多语言事件观点对象识别方法,属自然语言处理领域。本发明包括:构建观点对象识别数据集;使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征;将评论文本和其中的关键词作为异构图的节点,并基于评论文本中词共现、词对齐、词频信息和语义相似度的关系构边;利用图卷积网络对节点特征进行学习;识别出评论文本中的观点对象。本发明利用中文和越南语事件间的要素共现和整体语义关联构建汉越多语言事件表征网络,得到同一语义空间下汉越两种语言的公共表征,实现汉越事件观点对象的对齐与识别,为把握汉越两国对公共事件的观点看法提供支撑。
Description
技术领域
本发明涉及融合汉越关联关系的多语言事件观点对象识别方法,属于自然语言处理领域。
背景技术
互联网的快速发展推动了中越两国交流,从社交媒体评论文本中挖掘两国用户的观点,掌握用户对事件的关注,对处理好与越南的国际关系、区域经济发展和文化交流有着重要的作用,同时为政府及企业正确把握汉越舆情动态并及时做出应对措施提供有效保障。
如图2所示的是汉越“事件A”数据集中有关不同观点对象的评论句。通过观察可以发现中文和越南语评论在针对同一事件时讨论的内容较为接近,关注的重点也较为相似,利用这种关联特征可以较好地捕获汉越双语评论的全局特征(汉越评论之间的关联关系)和局部特征(评论中关键词所携带的语义信息)。通过对关联关系和语义信息进行建模,能够得到信息互补的特征表示学习模型,从而较好地完成迁移任务,解决越南语标注资源稀缺的问题。
目前,在多语言观点对象识别的研究中,主要通过基于传统机器学习的方法和基于深度学习的方法进行观点对象识别,根据每个领域的评论表征来学习特定的观点对象分类器。基于传统机器学习的方法通过制定相关规则并融入领域相关信息等外部知识利用算法提升识别性能,基于深度学习的方法通过使用神经网络提取数据特征进行观点对象的识别。这些模型利用传统的特征编码模式只能考虑到单语语料库中各评论文本的局部特征,不能很好的做到多语言间的知识迁移,因此,本发明提出一种融合汉越关联关系的多语言事件观点对象识别方法。
发明内容
本发明提供了融合汉越关联关系的多语言事件观点对象识别方法,以用于通过将汉越评论文本和其中的关键词作为节点构建异构图,结合评论文本节点的输入表征,通过图卷积网络准确地捕获汉越双语评论间观点对象的关联信息,提高观点对象表征学习和识别性能。
本发明的技术方案是:融合汉越关联关系的多语言事件观点对象识别方法,所述方法的具体步骤如下:
Step1、获取事件相关的汉越双语评论文本,经过筛选后再形成json格式文件,再进行标注得到汉越双语观点对象识别数据集;
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、采用基于Scrapy框架的网络爬虫从新浪微博和推特上爬取热点事件事件A和事件B相关的微博及推特汉越双语评论文本;
Step1.2、对微博及推特的汉越双语评论文本进行过滤筛选,过滤筛选的方式如下所示:通过语种识别方法删除非汉越数据,其中,语种识别方法采用通过fastText中的cbow模型进行语种识别来删除非汉越数据,利用emoji数据包和正则表达式删除文本中的表情、符号以及超链接,删除#话题#结构,删除相同的评论文本;经过过滤筛选后再形成json格式文件;
Step1.3、采用人工标注,获得事件A和事件B汉越双语观点对象识别数据集:以一条汉越双语评论文本为单位进行标注工作,对“事件A”和“事件B”事件中的观点对象所属类别进行标注,三人盲判取交集。
Step2、使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征,将事件相关的汉越双语评论文本和其中的关键词作为异构图的节点,并基于事件相关的汉越双语评论文本中词共现、词对齐、词频信息和语义相似度的关系构边,利用图卷积网络对节点特征进行学习,并对节点进行线性转换输出评论文本节点的预测,得到事件相关的汉越双语评论文本的观点对象。
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、使用多语言预训练语言模型XLM-R来获得事件相关的汉越双语评论文本的嵌入,即得到事件相关的汉越双语评论文本的节点特征,并将它们作为异构图中评论文本节点的输入表示;
(1)
其中,、、和分别表示中文评论文本数量、越南语评论文本数量、中文
关键词数量和越南语关键词数量,中文评论文本和越南语评论文本节点嵌入分别由和表示,其中d是文本嵌入的维度,由于不考虑关键词节点的特征表
示,因此将中文关键词和越南语关键词嵌入置为0;
Step2.2、使用事件相关的汉越双语评论文本数据集中的评论句和其中的关键词作为异构图的节点构建汉越双语异构图,其中关键词之间、评论句和关键词之间以及评论句之间均有不同的关系种类,包括关键词之间的词共现和词对齐关系,评论句和关键词的词频关系,评论句之间的语义相似度关系;
Step2.3、在构建汉越双语异构图后,将不同关系类别的子图进行融合,嵌入到一
个多层图卷积网络GCN中;图卷积网络是一种多层神经网络,可以根据节点的领域属性引入
节点的嵌入向量。GCN可以通过一层卷积来捕获关于近邻节点的信息,当堆叠多个GCN层时,
图上更多的信息就会被整合起来。两层GCN允许信息在最多两步长的节点之间传递信息,对
于一层GCN,新的维节点特征矩阵为:
(2)
其中表示标准化对称邻接矩阵,/>表示权重矩阵,/>是RELU激活函数,/>是邻接矩阵,/>是邻接矩阵/>的度矩阵、/>是第j层权重矩阵;通过叠加多个GCN层来学习合并更高阶的领域信息,学习更深层的节点特征,表示为:
(3)
其中表示层数,而表示原始邻接矩阵;
Step2.4、观点对象识别过程是判断当前节点属于哪一类别,属于分类过程,在图神经网络的第二层将汉越双语评论文本嵌入维度映射成与类别标签相同的维度大小,然后送入到分类器中:
(4)
其中,而,是第一层权重矩阵、是第i个评
论文本节点的概率分布输出值;
Step2.5、最终模型的目标函数使用交叉熵损失进行计算;
(5)
其中是具有标签的评论索引集,F表示输出特征的维度,与类别数量相同,是
标签矩阵,是汉越双语评论文本属于观点对象类别的预测概率值。
作为本发明的进一步方案,所述Step2.2中的关键词之间的词共现和词对齐关系为:
为了更好的利用单语关键词的共现信息,通过基于词共现关系构建关键词节点之
间的边,对语料库中所有的评论句使用一个固定大小的滑动窗口来收集词的共现信息,分
别在汉越双语评论文本上使用点互信息PMI计算两个关键词节点之间的权重,单语关键词
对的PMI值计算公式为:
(6)
(7)
(8)
(9)
其中、分别表示滑动窗口中包含关键词、的数量,是语料库中所
有滑动窗口的数量;当PMI值为正时表示两个词之间的语义相关性较高,而PMI值为负时表
示两个词之间的语义相关性很少或没有,只在PMI值为正的关键词对之间添加边;
考虑挖掘汉越双语关键词之间的关系,基于双语词对齐构建关键词节点之间的边,对于汉越双语观点对象识别研究中,汉越双语关键词对相较于其他词对对模型预测性能产生影响更大,利用汉越双语种子词典,首先识别出评论文本中的关键词,匹配语义相似的双语关键词作为词节点并添加对齐的边关系,根据匹配出的双语关键词对进行多语言词级对齐和聚合,从而将两种语言的词级关系融入图结构中。
作为本发明的进一步方案,所述Step2.2中的评论句和关键词的词频关系为:
基于关键词在评论文本中出现的次数构建关键词与评论句之间的边,使用TF-IDF计算词频,其中TF是单词在评论句中出现的次数,IDF指的是由包含该单词的句子数量的对数缩放的逆分数,在评论句与关键词之间添加边并将计算的TF-IDF值作为边的权重。
作为本发明的进一步方案,所述Step2.2中的评论句之间的语义相似度关系为:
为了在评论句之间添加更直接的连接,使汉越两种语言的评论句可以更好的进行
同一嵌入空间下的迁移学习,通过多语言预训练语言模型XLM-R得到汉越两种语言评论句
的嵌入向量(),同时利用余弦相似度计算两个嵌入向量之间的相似性;
(9)
其中表示第条中文评论文本嵌入向量,表示第条越南语评论
文本嵌入向量;当余弦值越接近1表示两个向量的夹角越接近0度,也就是两个向量越相似,
设置超参数P作为阈值,找到余弦相似度最大的P个评论文本添加边关系。
本发明的有益效果是:
(1)在中文和越南语评论文本上利用异构图进行关联关系构建,通过构建多种类型的节点和边关系,捕捉各节点之间丰富的关系结构,得到汉越评论文本数据在同一嵌入空间下的对应关系;
(2)使用多语言预训练语言模型获取评论文本的特征向量,并将其作为评论文本节点的输入表征,使用图卷积网络学习节点特征并基于图结构迭代更新评论文本表征,进行汉越观点对象的识别;
(3)在所构建的汉越评论数据集上进行了实验,相比已有的基线模型,本发明性能都有较大的提升。
附图说明
图1为本发明提出的融合汉越关联关系的多语言事件观点对象识别模型图;
图2为本发明“事件A”数据集上的汉越社交媒体评论样例示意图;
图3为本发明在不同数据集下GCN层数设定对实验结果影响的示意图。
具体实施方式
实施例1:如图1-图3所示,融合汉越关联关系的多语言事件观点对象识别方法,所述方法的具体步骤如下:
Step1、通过网络爬虫技术从新浪微博和推特获取事件A和事件B相关中文和越南语评论文本,经过筛选后再形成json格式文件,通过人工对数据集进行标注得到汉越双语观点对象识别数据集,如图2所示为“事件A”数据集上的汉越社交媒体评论样例示意图,所述Step1的具体步骤为:
Step1.1、采用基于Scrapy框架的网络爬虫从新浪微博和推特上爬取热点事件事件A和事件B相关的微博及推特汉越双语评论文本;
Step1.2、对微博及推特的汉越双语评论文本进行过滤筛选,过滤筛选的方式如下所示:通过语种识别方法删除非汉越数据,其中,语种识别方法采用通过fastText中的cbow模型进行语种识别来删除非汉越数据,利用emoji数据包和正则表达式删除文本中的表情、符号以及超链接,删除#话题#结构,删除相同的评论文本;经过过滤筛选后再形成json格式文件;
Step1.3、采用人工标注,获得事件A和事件B汉越双语观点对象识别数据集:以一条汉越双语评论文本为单位进行标注工作,对“事件A”和“事件B”事件中的观点对象所属类别进行标注,三人盲判取交集。
Step2、使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征,将事件相关的汉越双语评论文本和其中的关键词作为异构图的节点,并基于事件相关的汉越双语评论文本中词共现、词对齐、词频信息和语义相似度的关系构边,利用图卷积网络对节点特征进行学习,并对节点进行线性转换输出评论文本节点的预测,得到事件相关的汉越双语评论文本的观点对象。所述Step2的具体步骤如下:
Step2.1、使用多语言预训练语言模型XLM-R来获得事件相关的汉越双语评论文本的嵌入,即得到事件相关的汉越双语评论文本的节点特征,并将它们作为异构图中评论文本节点的输入表示;
(1)
其中,、、和分别表示中文评论文本数量、越南语评论文本数量、中文
关键词数量和越南语关键词数量,中文评论文本和越南语评论文本节点嵌入分别由和表示,其中d是文本嵌入的维度,由于不考虑关键词节点的特征表
示,因此将中文关键词和越南语关键词嵌入置为0;
Step2.2、使用事件相关的汉越双语评论文本数据集中的评论句和其中的关键词作为异构图的节点构建汉越双语异构图,其中关键词之间、评论句和关键词之间以及评论句之间均有不同的关系种类,包括关键词之间的词共现和词对齐关系,评论句和关键词的词频关系,评论句之间的语义相似度关系;
所述Step2.2中的关键词之间的词共现和词对齐关系为:
通过基于词共现关系构建关键词节点之间的边,对语料库中所有的评论句使用一
个固定大小的滑动窗口来收集词的共现信息,分别在汉越双语评论文本上使用点互信息
PMI计算两个关键词节点之间的权重,单语关键词对的PMI值计算公式为:
(2)
(3)
(4)
(5)
其中、分别表示滑动窗口中包含关键词、的数量,是指滑动
窗口中同时包含关键词和的数量,是语料库中所有滑动窗口的数量;只在PMI值为正
的关键词对之间添加边;
利用汉越双语种子词典,首先识别出评论文本中的关键词,匹配语义相似的双语关键词作为词节点并添加对齐的边关系,根据匹配出的双语关键词对进行多语言词级对齐和聚合,从而将两种语言的词级关系融入图结构中。
所述Step2.2中的评论句和关键词的词频关系为:
基于关键词在评论文本中出现的次数构建关键词与评论句之间的边,使用TF-IDF计算词频,其中TF是单词在评论句中出现的次数,IDF指的是由包含该单词的句子数量的对数缩放的逆分数,在评论句与关键词之间添加边并将计算的TF-IDF值作为边的权重。
所述Step2.2中的评论句之间的语义相似度关系为:
通过多语言预训练语言模型XLM-R得到汉越两种语言评论句的嵌入向量(),
同时利用余弦相似度计算两个嵌入向量之间的相似性;
(6)
其中表示第条中文评论文本嵌入向量,表示第条越南语评论
文本嵌入向量;设置超参数P作为阈值,找到余弦相似度最大的P个评论文本添加边关系。
Step2.3、在构建汉越双语异构图后,将不同关系类别的子图进行融合,嵌入到一
个多层图卷积网络GCN中;两层GCN允许信息在最多两步长的节点之间传递信息,对于一层
GCN,新的维节点特征矩阵为:
(7)
其中表示标准化对称邻接矩阵,/>表示权重矩阵,/>是RELU激活函数,/>是邻接矩阵,/>是邻接矩阵/>的度矩阵、/>是第j层权重矩阵;通过叠加多个GCN层来学习合并更高阶的领域信息,学习更深层的节点特征,表示为:
(8)
其中表示层数,而表示原始邻接矩阵;
Step2.4、观点对象识别过程是判断当前节点属于哪一类别,属于分类过程,在图神经网络的第二层将汉越双语评论文本嵌入维度映射成与类别标签相同的维度大小,然后送入到分类器中:
(9)
其中,而,是第一层权重矩阵、是第i个评
论文本节点的概率分布输出值;
Step2.5、最终模型的目标函数使用交叉熵损失进行计算;
(10)
其中是具有标签的评论索引集,F表示输出特征的维度,与类别数量相同,是
标签矩阵,是汉越双语评论文本属于观点对象类别的预测概率值。
为了说明本发明的效果,设置了4组对比实验,第1组是主实验,分别是两个数据集与基线模型进行比较;第2组实验,是数据集在不同的多语言预训练语言模型上的实验结果对比;第3组实验是数据集在不同的图卷积层数下的实验结果;第4组实验分析了不同的图结构对实验结果的影响。
(1)基线模型
TF-IDF+LR(LogisticRegression):具有术语频率和反向文档频率加权的词袋模型加监督学习中经典的分类方法,以线性回归为理论支持,通过Sigmoid函数引入非线性因素,解决观点对象识别任务。
MT+LM(Machine Translation by Google Translation API + LanguageModel):将训练的越南语评论翻译为中文评论,利用预训练语言模型对评论句进行表征并训练观点对象分类器,在测试数据上实现观点对象识别。
CNN:采用TextCNN模型,仅依靠双语词嵌入对目标进行分类,设置卷积核大小为。
Node2vec: Node2ve通过网络中的二阶随机游走来学习图的嵌入,通过在验证集
上对进行网格搜索,为实验选择最佳的参数设置。
MT+TextGCN:将训练后的中文评论翻译为越南语评论,利用翻译后的文本进行异构图构建,并利用TextGCN对节点特征进行学习。
CLHG:使用基于异构图的图卷积网络,通过机器翻译对不同语言的文档进行翻译,文档和词之间存在的不同关系创建异构图结构,将异构图的方法应用在多语言文本分类任务上。
(2)主实验结果
实现本发明方法的观点对象识别模型与基线模型在两个数据集上的实验对比结果,如下表1所示。分析可知本发明方法的Accuracy,macroP,macroR,macroF1值均高于其他所有方法,说明:本发明方法结构中融合汉越关联关系的多语言事件观点对象识别方法能更好的利用图卷积网络收集全面的评论标签信息,使标签信息可以传播到整个异构图中。
表1 汉越双语观点对象识别方法性能对比
(3)不同多语言预训练语言模型的实验结果
为了验证不同的多语言预训练语言模型对本发明模型方法的影响,本发明分别使用mBert、XLM和XLM-R对数据集中的评论文本节点进行表征,所有参数设置均相同。观察表2可以发现,选择多语言预训练模型XLM-R做表征时模型效果最好。
表2 不同多语言预训练语言模型对实验结果的影响
(4)图卷积层数设定对实验结果的影响
在图卷积学习的过程,图卷积层数的设定对聚合邻居节点信息程度有影响,实验结果如图3所示,模型的F1值先随着卷积层数的增大而增加,当卷积层数为2时,模型的性能达到最佳,当卷积层数超过2层后,随着层数的增加,模型性能有所下降并趋于稳定。
(5)不同图结构对实验结果的影响
本发明构建了四种不同关系种类的子图,其中单语言图包括关键词之间的词共现关系以及评论文本和关键词的词频关系,多语言图包括词对齐关系和评论文本之间的语义相似度关系。根据不同构图方式在“事件A”和“事件B”两个数据集上进行实验分析,实验的对比结果如下表3所示,实验结果证明了进行跨语言的有效性。
表3不同图结构的性能对比
总之,本发明提出了一种融合汉越关联关系的多语言事件观点对象识别方法,将汉越语料库中的各种实体和关系整合到一个异构图中,将语义信息和拓扑信息封装到一个低维联合嵌入的观点对象识别任务中,通过构建一个包含关键词节点和评论文本节点的异构图,得到同一语义空间下汉越两种语言的公共表征;
利用关联事件下的汉越社交媒体评论文本数据作为模型训练语料,结合汉越评论文本之间以及关键词之间的关联关系构建多语言异构图,随后利用图卷积网络对该图进行建模,从而聚合邻居节点信息并捕获高阶领域信息,利用该方法能够识别出汉越双语评论文本中的观点对象,实验结果证明了本发明所提方法的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述方法的具体步骤如下:
Step1、获取事件相关的汉越双语评论文本,经过筛选后再形成json格式文件,再进行标注得到汉越双语观点对象识别数据集;
Step2、使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征,将事件相关的汉越双语评论文本和其中的关键词作为异构图的节点,并基于事件相关的汉越双语评论文本中词共现、词对齐、词频信息和语义相似度的关系构边,利用图卷积网络对节点特征进行学习,并对节点进行线性转换输出评论文本节点的预测,得到事件相关的汉越双语评论文本的观点对象。
2.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述Step1的具体步骤为:
Step1.1、采用基于Scrapy框架的网络爬虫从新浪微博和推特上爬取热点事件事件A和事件B相关的微博及推特汉越双语评论文本;
Step1.2、对微博及推特的汉越双语评论文本进行过滤筛选,过滤筛选的方式如下所示:通过语种识别方法删除非汉越数据,其中,语种识别方法采用通过fastText中的cbow模型进行语种识别来删除非汉越数据,利用emoji数据包和正则表达式删除文本中的表情、符号以及超链接,删除#话题#结构,删除相同的评论文本;经过过滤筛选后再形成json格式文件;
Step1.3、采用人工标注,获得事件A和事件B汉越双语观点对象识别数据集:以一条汉越双语评论文本为单位进行标注工作,对“事件A”和“事件B”事件中的观点对象所属类别进行标注,三人盲判取交集。
3.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述Step2的具体步骤如下:
Step2.1、使用多语言预训练语言模型XLM-R来获得事件相关的汉越双语评论文本的嵌入,即得到事件相关的汉越双语评论文本的节点特征,并将它们作为异构图中评论文本节点的输入表示;
(1)
其中,、/>、/>和/>分别表示中文评论文本数量、越南语评论文本数量、中文关键词数量和越南语关键词数量,中文评论文本和越南语评论文本节点嵌入分别由/>和/>表示,其中d是文本嵌入的维度,由于不考虑关键词节点的特征表示,因此将中文关键词和越南语关键词嵌入置为0;
Step2.2、使用事件相关的汉越双语评论文本数据集中的评论句和其中的关键词作为异构图的节点构建汉越双语异构图,其中关键词之间、评论句和关键词之间以及评论句之间均有不同的关系种类,包括关键词之间的词共现和词对齐关系,评论句和关键词的词频关系,评论句之间的语义相似度关系;
Step2.3、在构建汉越双语异构图后,将不同关系类别的子图进行融合,嵌入到一个多层图卷积网络GCN中;两层GCN允许信息在最多两步长的节点之间传递信息,对于一层GCN,新的维节点特征矩阵/>为:
(2)
其中表示标准化对称邻接矩阵,/>表示权重矩阵,/>是RELU激活函数,/>是邻接矩阵,/>是邻接矩阵/>的度矩阵、/>是第j层权重矩阵;通过叠加多个GCN层来学习合并更高阶的领域信息,学习更深层的节点特征,表示为:
(3)
其中表示层数,而/>表示原始邻接矩阵;
Step2.4、观点对象识别过程是判断当前节点属于哪一类别,属于分类过程,在图神经网络的第二层将汉越双语评论文本嵌入维度映射成与类别标签相同的维度大小,然后送入到分类器中:
(4)
其中,而/>,/>是第一层权重矩阵、/>是第i个评论文本节点的概率分布输出值;
Step2.5、最终模型的目标函数使用交叉熵损失进行计算;
(5)
其中是具有标签的评论索引集,F表示输出特征的维度,与类别数量相同,/>是标签矩阵,/>是汉越双语评论文本属于观点对象类别的预测概率值。
4.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述Step2.2中的关键词之间的词共现和词对齐关系为:
通过基于词共现关系构建关键词节点之间的边,对语料库中所有的评论句使用一个固定大小的滑动窗口来收集词的共现信息,分别在汉越双语评论文本上使用点互信息PMI计算两个关键词节点之间的权重,单语关键词对的PMI值计算公式为:
(6)
(7)
(8)
(9)
其中、/>分别表示滑动窗口中包含关键词/>、/>的数量,/>是指滑动窗口中同时包含关键词/>和/>的数量,/>是语料库中所有滑动窗口的数量;只在PMI值为正的关键词对之间添加边;
利用汉越双语种子词典,首先识别出评论文本中的关键词,匹配语义相似的双语关键词作为词节点并添加对齐的边关系,根据匹配出的双语关键词对进行多语言词级对齐和聚合,从而将两种语言的词级关系融入图结构中。
5.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述Step2.2中的评论句和关键词的词频关系为:
基于关键词在评论文本中出现的次数构建关键词与评论句之间的边,使用TF-IDF计算词频,其中TF是单词在评论句中出现的次数,IDF指的是由包含该单词的句子数量的对数缩放的逆分数,在评论句与关键词之间添加边并将计算的TF-IDF值作为边的权重。
6.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述Step2.2中的评论句之间的语义相似度关系为:
通过多语言预训练语言模型XLM-R得到汉越两种语言评论句的嵌入向量(),同时利用余弦相似度计算两个嵌入向量之间的相似性;
(10)
其中表示第/>条中文评论文本嵌入向量,/>表示第/>条越南语评论文本嵌入向量;设置超参数P作为阈值,找到余弦相似度最大的P个评论文本添加边关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310779783.7A CN116562302A (zh) | 2023-06-29 | 2023-06-29 | 融合汉越关联关系的多语言事件观点对象识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310779783.7A CN116562302A (zh) | 2023-06-29 | 2023-06-29 | 融合汉越关联关系的多语言事件观点对象识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116562302A true CN116562302A (zh) | 2023-08-08 |
Family
ID=87503807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310779783.7A Pending CN116562302A (zh) | 2023-06-29 | 2023-06-29 | 融合汉越关联关系的多语言事件观点对象识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562302A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757159A (zh) * | 2023-08-15 | 2023-09-15 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543110A (zh) * | 2018-11-28 | 2019-03-29 | 南京航空航天大学 | 一种微博情感分析方法及系统 |
CN112800229A (zh) * | 2021-02-05 | 2021-05-14 | 昆明理工大学 | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN114742071A (zh) * | 2022-05-12 | 2022-07-12 | 昆明理工大学 | 基于图神经网络的汉越跨语言观点对象识别分析方法 |
CN115659017A (zh) * | 2022-10-21 | 2023-01-31 | 百果园技术(新加坡)有限公司 | 一种敏感词匹配方法、装置、设备、存储介质及产品 |
CN115712731A (zh) * | 2022-12-12 | 2023-02-24 | 南京邮电大学 | 一种基于ernie和多特征融合的多模态情感分析方法 |
-
2023
- 2023-06-29 CN CN202310779783.7A patent/CN116562302A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543110A (zh) * | 2018-11-28 | 2019-03-29 | 南京航空航天大学 | 一种微博情感分析方法及系统 |
CN112800229A (zh) * | 2021-02-05 | 2021-05-14 | 昆明理工大学 | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN114742071A (zh) * | 2022-05-12 | 2022-07-12 | 昆明理工大学 | 基于图神经网络的汉越跨语言观点对象识别分析方法 |
CN115659017A (zh) * | 2022-10-21 | 2023-01-31 | 百果园技术(新加坡)有限公司 | 一种敏感词匹配方法、装置、设备、存储介质及产品 |
CN115712731A (zh) * | 2022-12-12 | 2023-02-24 | 南京邮电大学 | 一种基于ernie和多特征融合的多模态情感分析方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757159A (zh) * | 2023-08-15 | 2023-09-15 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
CN116757159B (zh) * | 2023-08-15 | 2023-10-13 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bansal et al. | Structured learning for taxonomy induction with belief propagation | |
Vedula et al. | Enriching taxonomies with functional domain knowledge | |
Chen et al. | Visual and textual sentiment analysis using deep fusion convolutional neural networks | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
Nasim et al. | Sentiment analysis on Urdu tweets using Markov chains | |
Zhou et al. | Coupling topic modelling in opinion mining for social media analysis | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
Liu et al. | Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm | |
Yu et al. | Iarnet: An information aggregating and reasoning network over heterogeneous graph for fake news detection | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN116562302A (zh) | 融合汉越关联关系的多语言事件观点对象识别方法 | |
CN115544252A (zh) | 一种基于注意力静态路由胶囊网络的文本情感分类方法 | |
Wang et al. | Positive unlabeled fake news detection via multi-modal masked transformer network | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
Ibrohim et al. | Sentiment analysis for the natural environment: A systematic review | |
Mehendale et al. | Cyber bullying detection for Hindi-English language using machine learning | |
Hua et al. | A character-level method for text classification | |
CN116578708A (zh) | 一种基于图神经网络的论文数据姓名消歧算法 | |
CN115952794A (zh) | 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法 | |
Lu et al. | Mining latent attributes from click-through logs for image recognition | |
CN113111288A (zh) | 一种融合非结构化和结构化信息的Web服务分类方法 | |
Krishna et al. | Disaster tweet classification: A majority voting approach using machine learning algorithms | |
Zhu et al. | A Text Classification Algorithm for Power Equipment Defects Based on Random Forest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230808 |