CN115526236A - 一种基于多模态对比学习的文本网络图分类方法 - Google Patents
一种基于多模态对比学习的文本网络图分类方法 Download PDFInfo
- Publication number
- CN115526236A CN115526236A CN202211065236.4A CN202211065236A CN115526236A CN 115526236 A CN115526236 A CN 115526236A CN 202211065236 A CN202211065236 A CN 202211065236A CN 115526236 A CN115526236 A CN 115526236A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- modal
- graph
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态对比学习的文本网络图分类方法,其步骤如下:1)对文本网络图数据的拓扑结构与节点信息中文本模态的数据进行抽取、归类和预处理;2)根据数据的不同模态选择相应编码器,采用对比学习分别对编码器进行训练,并基于训练完成的编码器对数据进行特征编码得到特征向量;3)计算结构特征向量和文本特征向量的笛卡尔积从而获取不同模态间的共同特征;4)采用注意力机制对不同模态的原始特征及共同特征进行加权汇总,并作为图级别特征输入分类器得出分类标签。本方法提高了不同模态特征的表现,有利于增强图级别分类任务的表现,不仅分类准确率高且具备可解释性。本发明对于涉及多模态数据的文本网络图数据分类任务具有重要的应用价值。
Description
技术领域
本发明属于多模态网络图数据分类领域,具体涉及一种基于多模态对比学习的网络图分类算法。
背景技术
图是一种对节点与关系进行建模的一种数据结构,而基于节点与关系的网络数据在人类社会中是普遍存在的,因此图数据可以用来对大量不同领域的数据进行建模和定义,因此对现实数据具有强大的抽象和表征能力。社会科学中的社交网络数据,自然科学中的物理系统与蛋白质结构,以及知识图谱等都可以使用图数据进行建模和表征。图数据的无处不在使得其在机器学习领域也得到广泛关注与应用。作为一种独特的非欧几里得数据结构,对图数据对分析侧重于图分类、节点分类、链接预测和聚类等任务。当前,在深度学习领域,图神经网络(GNNs)被提出并得到广泛应用与发展。GNNs通过消息传递机制,基于图的拓扑结构对图数据中的节点信息进行汇总与聚合,通过不同层次的聚合可捕捉到不同深度的图结构信息。由于其令人信服的性能,GNNs最近已经成为一种广泛应用的图分析方法。
对比学习是一种有效的自监督模型训练范式,由于其不受训练样本标签的限制,并且有较好的泛化能力,受到深度学习多个领域的关注。在以往将对比学习应用到图数据分析时,通常的做法是将图数据视为一个整体,节点中包含的文本或图像等内容作为图节点信息的一部分,将整体图数据作为一个模态进行对比学习,未能同时挖掘图在拓扑结构与节点信息上的特征。
发明内容
本发明的目的是克服现有的不足,提供一种基于多模态对比学习的网络图分类算法。
为实现本发明目的,提供的技术方案如下:
一种基于多模态对比学习的文本网络图分类方法,其步骤如下:
S1:针对待分类的多模态网络图数据集中的每一个文本网络图数据,分别对图中的拓扑结构以及节点中的文本这两种模态数据进行抽取,抽取得到的数据按模态进行归类后以字典格式保存;再对每一种模态数据进行预处理使其满足对应模态的编码器输入要求;
S2:针对拓扑结构模态和文本模态分别选择匹配的编码器并采用对比学习框架分别进行训练;基于训练完成的编码器,对S1中预处理后的每一种模态数据进行特征编码,得到每一个文本网络图数据中每一种模态数据的特征向量,从而得到文本网络图数据在不同模态下的特征表示;
S3:针对每一个文本网络图数据,将对应的两种模态数据的特征向量对齐至统一维度后,通过计算两者的笛卡尔积得到特征交叉矩阵,对特征交叉矩阵做横向的最大池化得到第一特征向量,对特征交叉矩阵做纵向的最大池化得到第二特征向量,将第一特征向量和第二特征向量拼接后重新降维至所述统一维度,从而得到跨模态共同特征向量;
S4:针对每一个文本网络图数据,将两种模态数据的特征向量以及跨模态共同特征向量进行标准化,然后采用注意力机制对三个特征向量计算注意力权重,并根据注意力权重对三个特征向量进行加权融合,得到最终的图级别特征后将其输入分类器,得出多模态网络图数据集中每一个文本网络图数据的分类标签。
作为优选,所述步骤S1中,针对多模态网络图数据集,按照S11~S14对其中的每一个文本网络图数据进行抽取、保存和预处理:
S11:针对每一个文本网络图数据Gi赋予唯一标识符,i=1,2,…,N,其中N为多模态网络图数据集的规模;建立用于存储每一个文本网络图数据中的不同模态数据的图数据字典;
S12:对每一个文本网络图数据包含的节点进行标号,并根据文本网络图数据中的关系信息,以有序数对列表的形式对图中每一对节点邻接关系进行存储,从而提取出文本网络图数据的拓扑结构模态数据,并根据S11对文本网络图数据的唯一标识符存储至相应图数据字典;
S13:对每一个文本网络图数据,根据提取拓扑结构信息时对节点的标号,将节点中的内容文本数据按顺序进行抽取,并根据S11对文本网络图数据的唯一标识符存储至相应图数据字典;
S14:针对图数据字典中不同模态数据分别进行预处理,使其形成适配所需输入编码器的结构化数据;其中:
对于拓扑结构模态数据,需定义Graph类数据,分别将节点标号与使用有序数对列表形式保存的节点邻接关系进行存储;
对于文本模态数据,先对文本序列进行拆解分词和标准化,并根据词表将字词编码映射为数值,从而将文本序列处理为数值向量。
作为优选,对于文本模态数据,基于Tokenize工具函数对文本序列进行拆解分词和标准化。
作为优选,所述步骤S2的具体方法如下:
S21:选择图神经网络GCN作为拓扑结构模态的编码器,选择文本预训练模型BERT作为文本模态的编码器;
S22:针对不同模态分别设置对比学习框架,其中对于拓扑结构模态数据,采用SimGRACE对比学习框架,而对于文本模态数据,采用SimCSE对比学习框架;对每一种数据模态的编码器,将训练数据分批次构建正负样本后输入编码器中,根据对应的对比学习框架计算对比学习损失,并通过神经网络的后向传递对编码器的模型参数进行更新,直至对全部训练数据参与训练,视为完成一个epoch;根据对比学习损失下降的情况,设置早停策略,完成指定epoch训练次数后,得到基于对比学习训练完成的编码器;
S23:基于训练后的每一种数据模态对应的编码器,对S1中预处理后的对应模态结构化数据进行编码,得到相应模态数据的特征向量;每一个文本网络图数据分别得到拓扑结构模态数据的特征向量和文本模态数据的特征向量。
作为优选,所述SimGRACE对比学习框架中,在训练过程中使用两个图编码器对同一数据进行编码;在以batch为数据输入的训练过程中,每一batch中同一图数据经两次编码得到的特征向量作为正样本,batch内其他图数据编码得到的特征向量为负样本;对于训练中使用的两个编码器,需先初始化一个基编码器,同时在对基编码器参数进行复制的基础上增加基于原参数高斯分布的随机扰动,得到另一编码器的参数。
作为优选,所述SimCSE对比学习框架中,将同一样本输入两次编码器即得到对比学习的正样本。
作为优选,所述步骤S3的具体方法如下:
S31:针对每一个文本网络图数据中拓扑结构模态数据的特征向量和文本模态数据的特征向量,将两个特征向量的维度对齐至统一维度;
S32:将对齐后的两个特征向量做笛卡尔向量积,从而得到特征交叉矩阵M;再对特征交叉矩阵M按行向量做最大池化得到第一特征向量,再对特征交叉矩阵M按列向量做最大池化得到第二特征向量,从而将两个模态中同时重要的信息全部提取出来;
S33:将两次最大池化获得的第一特征向量和第二特征向量拼接后利用线性映射降维到统一维度,得到跨模态共同特征向量。
作为优选,所述统一维度设为64、128或768。
作为优选,所述步骤S4的具体方法如下:
S41:针对每一个文本网络图数据,将两种模态数据的特征向量以及跨模态共同特征向量进行标准化,然后一并输入注意力机制,通过注意力机制对三个特征向量进行权重计算,得出三个特征向量的注意力权重;
S42:针对每一个文本网络图数据,根据S41计算得到的注意力权重对三个特征向量进行加权融合,将加权融合后的向量作为最终的图级别特征表示;
S43:针对多模态网络图数据集中每一个文本网络图数据,将对应的图级别特征表示输入线性分类器,获得对应的图分类结果。
作为优选,所述文本网络图数据为谣言传播树数据,每条谣言传播树数据包含种子节点和互动节点,种子节点为原始信息,互动节点为基于该原始信息的转发与评论,每个节点包含与原始信息相关的文本内容;谣言传播树数据对应的分类标签为原始信息是否为谣言的标签。
本发明与现有技术相比具有的有益效果:
本发明针对多模态网络图数据分类的场景,充分考虑了图数据本身拓扑结构的信息与节点特征信息,并采用对比学习的训练方式,基于个体判别的任务设计构造对比学习损失,减少了模型对标签的数据的依赖。同时,本发明创新性地提出通过对不同模态的特征表示取笛卡尔积的方式对跨模态的共同特征进行提取,增强了图级别的特征表示,有效提高了图级别分类任务上的模型表现。此外,基于该发明中对比学习的模块,可以使编码器有效学习到大量无标签数据的内在特征;再结合具体图分类任务,通过少量有标签的样本对编码器进行任务导向的调优,即可实现良好的分类性能。本发明在常见图分类评价指标准确率(Accuracy)、精度(Precision)、召回率(Recall)、F1 Score上均有提升,且操作简单易行,模型框架灵活。本发明对其他具有多模态特征的图数据分类任务与少样本图数据分类任务可以提供示范和借鉴。
附图说明
图1为基于多模态对比学习的文本网络图分类方法实施流程图;
图2为基于实施例的含有文本内容的多模态对比学习的文本网络图分类方法框架图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,为本发明的一个较佳实施例中提供的一种基于多模态对比学习的网络图分类算法流程图。其主要步骤包括4步,分别为S1~S4:
S1:针对待分类的多模态网络图数据集中的每一个文本网络图数据,分别对图中的拓扑结构以及节点中的文本这两种模态数据进行抽取,抽取得到的数据按模态进行归类后以字典格式保存;再对每一种模态数据进行预处理使其满足对应模态的编码器输入要求。
S2:针对拓扑结构模态和文本模态分别选择匹配的编码器并采用对比学习框架分别进行训练;基于训练完成的编码器,对S1中预处理后的每一种模态数据进行特征编码,得到每一个文本网络图数据中每一种模态数据的特征向量,从而得到文本网络图数据在不同模态下的特征表示。
S3:针对每一个文本网络图数据,将对应的两种模态数据的特征向量对齐至统一维度后,通过计算两者的笛卡尔积得到特征交叉矩阵,对特征交叉矩阵做横向的最大池化得到第一特征向量,对特征交叉矩阵做纵向的最大池化得到第二特征向量,将第一特征向量和第二特征向量拼接后重新降维至所述统一维度,从而得到跨模态共同特征向量。
S4:针对每一个文本网络图数据,将两种模态数据的特征向量以及跨模态共同特征向量进行标准化,然后采用注意力机制对三个特征向量计算注意力权重,并根据注意力权重对三个特征向量进行加权融合,得到最终的图级别特征后将其输入分类器,得出多模态网络图数据集中每一个文本网络图数据的分类标签。
下面对本实施例中S1~S4的具体实现方式以及其效果进行详细描述。
在本发明中,上述步骤S1的具体实现方法如下:
针对多模态网络图数据集,按照S11~S14对其中的每一个文本网络图数据进行抽取、保存和预处理:
S11:针对每一个文本网络图数据,结合图数据实际背景含义或次序赋予唯一标识符,将每一个文本网络图数据记为i=1,2,…,N,其中N为多模态网络图数据集的规模,即数据集中的文本网络图数据总数。建立用于存储每一个文本网络图数据中的不同模态数据的图数据字典,每个图数据字典对应关联前述的唯一标识符。
S12:结合原始多模态网络图数据中的关系信息,对图数据中的拓扑结构模态信息进行抽取,具体做法为:对每一个文本网络图数据包含的节点进行标号,并根据文本网络图数据中的关系信息,以有序数对列表的形式对图中每一对节点邻接关系进行存储,从而提取出文本网络图数据的拓扑结构模态数据,并根据S11对文本网络图数据的唯一标识符存储至相应图数据字典。此时文本网络图数据可表示为Gi={T:ti},i=1,2,…,N,T为表示拓扑结构的键名,ti表示图Gi的拓扑结构信息,具体为表示邻接关系的有序数对列表。
S13:结合原始多模态网络图数据中的节点信息,对图数据中的文本模态信息进行抽取,具体做法为:对每一个文本网络图数据,根据提取拓扑结构信息时对节点的标号,将节点中的内容文本数据按顺序进行抽取,并根据S11对文本网络图数据的唯一标识符存储至相应图数据字典。此时文本网络图数据可表示为Gi={T:ti,D:di},i=1,2,…,N,D为表示文本信息的键名,di表示图Gi的文本内容。
S14:针对图数据字典中不同模态数据分别进行预处理,使其形成适配所需输入编码器的结构化数据;其中:
对于拓扑结构模态数据,需定义Graph类数据,分别将节点标号与使用有序数对列表形式保存的节点邻接关系进行存储。在本实施例中,可使用Python工具包PytorchGeometric(下称PyG)将节点与使用有序数对列表存储的节点邻接关系转置后存储为PyG预定义的Graph类数据。
对于文本模态数据,先对文本序列进行拆解分词和标准化,并根据词表将字词编码映射为数值,从而将文本序列处理为数值向量。在本实施例中,可基于HuggingFace开源社区发布的Transformer工具包中的Tokenize工具函数实现对文本拆解、标准化,并根据词表将字词映射为数值,从而将文本序列处理为数值向量。
在本发明中,上述步骤S2的具体实现方法如下:
S21:对不同模态的数据选择各自合适的编码器。此实例中,对图拓扑结构模态数据使用图神经网络ResGCN作为编码器,对文本模态数据使用BERT等大规模预训练语言模型作为编码器。ResGCN是基于GCN增加了残差连接的图神经网络模型,相较GCN等具有更强的编码能力。BERT是2018年Google提出的大规模预训练语言模型,由于其对文本语义的表示性能与对多下游任务场景的兼容性得以广泛应用。
S22:针对不同模态构建正负样本,设计具体对比学习框架。对图拓扑结构,采用SimGRACE对比学习框架,在训练过程中使用两个图编码器对同一数据进行编码。在以batch为单位进行数据输入的训练过程中,每一batch中同一图数据经两次编码得到的特征向量作为正样本,batch内其他数据编码得到的特征为负样本。对于训练中使用的两个编码器,需先初始化一个基编码器,同时在对基编码器参数进行复制的基础上增加基于原参数高斯分布的随机扰动,得到另一编码器的参数。对于文本模态的数据,采用SimCSE对比学习框架,由于文本编码器BERT中的Dropout机制带有随机性,因此不需要设置两个编码器,只需将同一样本输入两次编码器即可得到互为正样本的两个文本特征表示。
基于上述步骤,将在同一batch内获得的正负样本分别计算相似度,并计算对比学习的损失。在本实例中,向量相似度计算采用cosine相似度计算方式。基于上述框架,对比学习损失函数可归纳为:
其中,li表示第i样本的损失,表示同一数据经两个不同编码器编码得出的两个图数据特征表示,也即两个正样本;τ表示控制对比损失大小的温度参数,在实例中该温度参数是超参数,需使用网格搜索,结合数据表现进行调整确定。
将训练数据分批次构建正负样本后输入编码器中,基于定义的对比学习损失对batch内数据进行损失计算并通过神经网络的后向传递对模型参数进行更新,直至对全部数据参与训练,视为完成一个epoch。跟据对比学习损失下降的情况,参考对比学习预训练参数设置,设置最大训练epoch数为200,得到基于对比学习训练完成的编码器。
S23:基于训练后的每一种数据模态对应的编码器,对S1中预处理后的对应模态结构化数据进行编码,得到相应模态数据的特征向量。每一个文本网络图数据分别得到拓扑结构模态数据的特征向量和文本模态数据的特征向量
在本发明中,上述步骤S3的具体实现方法如下:
S31:针对每一个文本网络图数据中拓扑结构模态数据的特征向量和文本模态数据的特征向量,检查不同模态特征向量维度是否对齐至统一维度,若没有对其则需要将两个特征向量的维度对齐至统一维度。本实施例中拓扑结构模态数据的特征向量和文本模态数据的特征向量均设置为统一维度768维,即特征表示维度统一为d=768。
S32:将对齐后的两个特征向量做笛卡尔向量积,从而得到特征交叉矩阵M;再对特征交叉矩阵M按行向量做最大池化得到第一特征向量,再对特征交叉矩阵M按列向量做最大池化得到第二特征向量。在本实施例中,记特征交叉矩阵为M768*768,对矩阵M768*768分别按行向量做最大池化,再以列向量做最大池化,得到两个长度为768维的向量,从而将两个模态中同时重要的信息全部提取出来。
在本发明中,上述步骤S4的具体实现方法如下:
S41:针对每一个文本网络图数据,将两种模态数据的特征向量以及跨模态共同特征向量各自进行做0-1标准化后,合并得将hi输入注意力机制,通过注意力机制对三个特征向量做权重计算,得出三个特征向量的注意力权重,记为
下面基于上述实施例方法,将其应用至具体的实例中对其效果进行展示。在该实施例中,其针对的文本网络图数据为谣言传播树数据,每条谣言传播树数据包含种子节点和互动节点,种子节点为原始信息,互动节点为基于该原始信息的转发与评论,每个节点包含与原始信息相关的文本内容。因此,该实施例中,本质上提供了一种基于多模态对比学习的谣言识别方法,其最终的识别结果为谣言传播树数据对应的分类标签,即原始信息是否为谣言的标签。该方法的具体的过程如前所述,区别在于输入数据和输出标签进行了具体化,因此不再完全赘述,下面主要展示其具体参数设置和实现效果。
实施例
下面以公开的微博谣言数据集为例,对本发明进行具体描述,其具体步骤如下:
1)采用公开的微博谣言数据集Weibo Dataset,利用Python对数据进行初步分析与清洗。该数据集根据新浪社区管理中心报告的谣言信息进行收集,共计采集2313条谣言微博与2351条非谣言微博,并采集了相应微博的转发微博信息。通过对原始数据的数据结构进行解读,解析得谣言传播树数据4664条。每条谣言传播树数据包含原始微博信息,作为种子节点;同时包含对该原始微博信息的互动信息,具体包括对该微博的转发以及基于一级转发的二级转发与评论等互动节点;同时每个节点包含与原始微博信息相关的文本内容。
2)按照前述的步骤S1,对公开微博谣言数据集Weibo Dataset中的4664条微博传播树结构数据,按照谣言事件ID定义唯一标识符,将每一个图数据记为Gi,i=1,2,…,4664.结合谣言传播树中的转发信息,以有序数对列表的形式对图中每一对邻接关系进行存储,从而提取出图数据的拓扑结构;同时利用谣言传播树数据中的节点信息,对节点数据中的文本内容进行抽取。针对抽取出的拓扑结构数据,使用Python工具包PytorchGeometric(下称PyG)将节点与使用有序数对列表存储的节点邻接关系转置后存储为PyG预定义的Graph类数据;针对抽取出的文本数据,基于HuggingFace开源社区发布的Transformer工具包中的Tokenize工具函数实现对文本拆解、标准化,并根据词表将字词映射为数值,从而将文本序列处理为数值向量;将预处理记为则有 表示用Graph类数据存储的图节点与边,表示图Gi的文本预处理后的字符编号向量。
3)按照前述的S2对不同模态的数据选择各自合适的编码器,并采用对比学习的方式对编码器进行预训练。此实例中,对图拓扑结构数据使用图神经网络ResGCN作为编码器,对文本向量数据使用BERT等大规模预训练语言模型作为编码器。对图拓扑结构,采用SimGRACE对比学习框架;对于文本模态的数据,采用SimCSE对比学习框架。在本实例中,对比学习的loss计算采用cosine相似度计算方式。对比学习温度参数参照以往研究工作设为0.001。在编码器设置最大训练epoch数为200。基于训练后的编码器,对原始模态数据进行编码,得到相应模态的特征向量。记图拓扑结构模态的特征表示为文本模态的特征表示为
4)按照前述的S3对经过编码器编码得到的拓扑结构信息与文本信息的特征表示进行融合。图节点特征表示与文本特征表示设置为768维,并将对齐后的拓扑结构特征向量与文本特征向量做笛卡尔向量积实现跨模态共同特征的提取,并对跨模态特征表示做0-1标准化,记跨模态的特征表示为
5)按照前述的S4步骤,将提取得到跨模态共同特征与不同模态原始特征各自标准化后,合并得通过注意力机制对三部分特征向量做权重计算,对特征进行加权,并将加权后的向量作为最终的图级别特征表示,将图级别特征表示输入线性分类器,获得图分类结果。
将本发明的图数据分类方法命名为MMCLGC,其相比原有的经典图数据分类方法GCN(Kipf,Thomas N.,and Max Welling."Semi-supervised classification with graphconvolutional networks."arXiv preprint arXiv:1609.02907(2016))在小样本的设定下,其模型识别表现上的多个指标均有提升,如下表1所示为在1%训练数据为标签已知设定下的模型表现数据。在分类任务综合指标F1上提高了8.26%。
表1
为了进一步分析本发明提出的MMCLGC方法中各步骤的效果及对重构结果的影响,采用调整步骤及实验参数的方式,又设计了不同做法的对比实验,具体方案和试验结果如表2所示,表中试验参数表示所执行的步骤。
表2
其中试验一的参数与经典GCN一致,试验四的参数与本发明提出MMCLGC的一致。试验参数顺序与试验中的操作流程顺序一致。从具体试验参数和试验结果分析可知:对比试验一和试验三,采用对拓扑结构数据的对比学习有效利用了不含标签训练数据的信息。对比试验二和试验四,采用对文本数据的对比学习有效利用了不含标签训练数据的信息。对比试验五和试验三、四,采用多模态特征融合可以同时利用拓扑结构信息与文本信息,反映出多模态学习可以有效的对不同模态信息进行聚合,提高数据的表达能力。对比试验六和试验五,试验六在试验五特征融合的基础上,利用笛卡尔积对不同模态的共同特征进行提取,有效增强了不同模态特征在融合时的表达能力。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于多模态对比学习的文本网络图分类方法,其特征在于,步骤如下:
S1:针对待分类的多模态网络图数据集中的每一个文本网络图数据,分别对图中的拓扑结构以及节点中的文本这两种模态数据进行抽取,抽取得到的数据按模态进行归类后以字典格式保存;再对每一种模态数据进行预处理使其满足对应模态的编码器输入要求;
S2:针对拓扑结构模态和文本模态分别选择匹配的编码器并采用对比学习框架分别进行训练;基于训练完成的编码器,对S1中预处理后的每一种模态数据进行特征编码,得到每一个文本网络图数据中每一种模态数据的特征向量,从而得到文本网络图数据在不同模态下的特征表示;
S3:针对每一个文本网络图数据,将对应的两种模态数据的特征向量对齐至统一维度后,通过计算两者的笛卡尔积得到特征交叉矩阵,对特征交叉矩阵做横向的最大池化得到第一特征向量,对特征交叉矩阵做纵向的最大池化得到第二特征向量,将第一特征向量和第二特征向量拼接后重新降维至所述统一维度,从而得到跨模态共同特征向量;
S4:针对每一个文本网络图数据,将两种模态数据的特征向量以及跨模态共同特征向量进行标准化,然后采用注意力机制对三个特征向量计算注意力权重,并根据注意力权重对三个特征向量进行加权融合,得到最终的图级别特征后将其输入分类器,得出多模态网络图数据集中每一个文本网络图数据的分类标签。
2.根据权利要求1所述的基于多模态对比学习的文本网络图分类方法,其特征在于,所述步骤S1中,针对多模态网络图数据集,按照S11~S14对其中的每一个文本网络图数据进行抽取、保存和预处理:
S11:针对每一个文本网络图数据Gi赋予唯一标识符,i=1,2,…,N,其中N为多模态网络图数据集的规模;建立用于存储每一个文本网络图数据中的不同模态数据的图数据字典;
S12:对每一个文本网络图数据包含的节点进行标号,并根据文本网络图数据中的关系信息,以有序数对列表的形式对图中每一对节点邻接关系进行存储,从而提取出文本网络图数据的拓扑结构模态数据,并根据S11对文本网络图数据的唯一标识符存储至相应图数据字典;
S13:对每一个文本网络图数据,根据提取拓扑结构信息时对节点的标号,将节点中的内容文本数据按顺序进行抽取,并根据S11对文本网络图数据的唯一标识符存储至相应图数据字典;
S14:针对图数据字典中不同模态数据分别进行预处理,使其形成适配所需输入编码器的结构化数据;其中:
对于拓扑结构模态数据,需定义Graph类数据,分别将节点标号与使用有序数对列表形式保存的节点邻接关系进行存储;
对于文本模态数据,先对文本序列进行拆解分词和标准化,并根据词表将字词编码映射为数值,从而将文本序列处理为数值向量。
3.根据权利要求1所述的基于多模态对比学习的文本网络图分类方法,其特征在于,对于文本模态数据,基于Tokenize工具函数对文本序列进行拆解分词和标准化。
4.根据权利要求1所述的基于多模态对比学习的文本网络图分类方法,其特征在于,所述步骤S2的具体方法如下:
S21:选择图神经网络GCN作为拓扑结构模态的编码器,选择文本预训练模型BERT作为文本模态的编码器;
S22:针对不同模态分别设置对比学习框架,其中对于拓扑结构模态数据,采用SimGRACE对比学习框架,而对于文本模态数据,采用SimCSE对比学习框架;对每一种数据模态的编码器,将训练数据分批次构建正负样本后输入编码器中,根据对应的对比学习框架计算对比学习损失,并通过神经网络的后向传递对编码器的模型参数进行更新,直至对全部训练数据参与训练,视为完成一个epoch;根据对比学习损失下降的情况,设置早停策略,完成指定epoch训练次数后,得到基于对比学习训练完成的编码器;
S23:基于训练后的每一种数据模态对应的编码器,对S1中预处理后的对应模态结构化数据进行编码,得到相应模态数据的特征向量;每一个文本网络图数据分别得到拓扑结构模态数据的特征向量和文本模态数据的特征向量。
5.根据权利要求4所述的基于多模态对比学习的文本网络图分类方法,其特征在于,所述SimGRACE对比学习框架中,在训练过程中使用两个图编码器对同一数据进行编码;在以batch为数据输入的训练过程中,每一batch中同一图数据经两次编码得到的特征向量作为正样本,batch内其他图数据编码得到的特征向量为负样本;对于训练中使用的两个编码器,需先初始化一个基编码器,同时在对基编码器参数进行复制的基础上增加基于原参数高斯分布的随机扰动,得到另一编码器的参数。
6.根据权利要求4所述的基于多模态对比学习的文本网络图分类方法,其特征在于,所述SimCSE对比学习框架中,将同一样本输入两次编码器即得到对比学习的正样本。
7.根据权利要求1所述的基于多模态对比学习的文本网络图分类方法,其特征在于,所述步骤S3的具体方法如下:
S31:针对每一个文本网络图数据中拓扑结构模态数据的特征向量和文本模态数据的特征向量,将两个特征向量的维度对齐至统一维度;
S32:将对齐后的两个特征向量做笛卡尔向量积,从而得到特征交叉矩阵M;再对特征交叉矩阵M按行向量做最大池化得到第一特征向量,再对特征交叉矩阵M按列向量做最大池化得到第二特征向量,从而将两个模态中同时重要的信息全部提取出来;
S33:将两次最大池化获得的第一特征向量和第二特征向量拼接后利用线性映射降维到统一维度,得到跨模态共同特征向量。
8.根据权利要求7所述的基于多模态对比学习的文本网络图分类方法,其特征在于,所述统一维度设为64、128或768。
9.根据权利要求1所述的基于多模态对比学习的文本网络图分类方法,其特征在于,所述步骤S4的具体方法如下:
S41:针对每一个文本网络图数据,将两种模态数据的特征向量以及跨模态共同特征向量进行标准化,然后一并输入注意力机制,通过注意力机制对三个特征向量进行权重计算,得出三个特征向量的注意力权重;
S42:针对每一个文本网络图数据,根据S41计算得到的注意力权重对三个特征向量进行加权融合,将加权融合后的向量作为最终的图级别特征表示;
S43:针对多模态网络图数据集中每一个文本网络图数据,将对应的图级别特征表示输入线性分类器,获得对应的图分类结果。
10.如权利要求1所述的基于多模态对比学习的文本网络图分类方法,其特征在于,所述文本网络图数据为谣言传播树数据,每条谣言传播树数据包含种子节点和互动节点,种子节点为原始信息,互动节点为基于该原始信息的转发与评论,每个节点包含与原始信息相关的文本内容;谣言传播树数据对应的分类标签为原始信息是否为谣言的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065236.4A CN115526236A (zh) | 2022-09-01 | 2022-09-01 | 一种基于多模态对比学习的文本网络图分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065236.4A CN115526236A (zh) | 2022-09-01 | 2022-09-01 | 一种基于多模态对比学习的文本网络图分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115526236A true CN115526236A (zh) | 2022-12-27 |
Family
ID=84698318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211065236.4A Pending CN115526236A (zh) | 2022-09-01 | 2022-09-01 | 一种基于多模态对比学习的文本网络图分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115526236A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937615A (zh) * | 2023-02-20 | 2023-04-07 | 智者四海(北京)技术有限公司 | 基于多模态预训练模型的主题标签分类方法与装置 |
CN116361859A (zh) * | 2023-06-02 | 2023-06-30 | 之江实验室 | 基于深度隐私编码器的跨机构患者记录链接方法及系统 |
CN117473124A (zh) * | 2023-11-03 | 2024-01-30 | 哈尔滨工业大学(威海) | 一种具备抵制过度平滑能力的自监督异质图表示学习方法 |
CN117633561A (zh) * | 2024-01-24 | 2024-03-01 | 上海蜜度科技股份有限公司 | 文本聚类方法、系统、电子设备及介质 |
-
2022
- 2022-09-01 CN CN202211065236.4A patent/CN115526236A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937615A (zh) * | 2023-02-20 | 2023-04-07 | 智者四海(北京)技术有限公司 | 基于多模态预训练模型的主题标签分类方法与装置 |
CN116361859A (zh) * | 2023-06-02 | 2023-06-30 | 之江实验室 | 基于深度隐私编码器的跨机构患者记录链接方法及系统 |
CN116361859B (zh) * | 2023-06-02 | 2023-08-25 | 之江实验室 | 基于深度隐私编码器的跨机构患者记录链接方法及系统 |
CN117473124A (zh) * | 2023-11-03 | 2024-01-30 | 哈尔滨工业大学(威海) | 一种具备抵制过度平滑能力的自监督异质图表示学习方法 |
CN117473124B (zh) * | 2023-11-03 | 2024-04-16 | 哈尔滨工业大学(威海) | 一种具备抵制过度平滑能力的自监督异质图表示学习方法 |
CN117633561A (zh) * | 2024-01-24 | 2024-03-01 | 上海蜜度科技股份有限公司 | 文本聚类方法、系统、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN109472033A (zh) | 文本中的实体关系抽取方法及系统、存储介质、电子设备 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN114444507A (zh) | 基于水环境知识图谱增强关系的上下文参数中文实体预测方法 | |
CN112668719A (zh) | 基于工程能力提升的知识图谱构建方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN114818703A (zh) | 基于BERT语言模型和TextCNN模型的多意图识别方法及系统 | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN116821372A (zh) | 基于知识图谱的数据处理方法、装置、电子设备及介质 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN112950414B (zh) | 一种基于解耦法律要素的法律文本表示方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
CN117648984A (zh) | 一种基于领域知识图谱的智能问答方法及系统 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN111259106A (zh) | 一种结合神经网络和特征演算的关系抽取方法 | |
CN111859910B (zh) | 一种用于语义角色识别的融合位置信息的词特征表示方法 | |
CN116150353A (zh) | 意图特征提取模型训练方法、意图识别方法及相关装置 | |
CN112926336A (zh) | 基于正文评论交互式注意力的微博案件方面级观点识别方法 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 | |
CN113076490A (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |