CN112163069A - 一种基于图神经网络节点特征传播优化的文本分类方法 - Google Patents

一种基于图神经网络节点特征传播优化的文本分类方法 Download PDF

Info

Publication number
CN112163069A
CN112163069A CN202011033194.7A CN202011033194A CN112163069A CN 112163069 A CN112163069 A CN 112163069A CN 202011033194 A CN202011033194 A CN 202011033194A CN 112163069 A CN112163069 A CN 112163069A
Authority
CN
China
Prior art keywords
text
node
word
neural network
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011033194.7A
Other languages
English (en)
Other versions
CN112163069B (zh
Inventor
杨易扬
任成森
巩志国
蔡瑞初
郝志峰
陈炳丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202011033194.7A priority Critical patent/CN112163069B/zh
Publication of CN112163069A publication Critical patent/CN112163069A/zh
Application granted granted Critical
Publication of CN112163069B publication Critical patent/CN112163069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于图神经网络节点特征传播优化的文本分类方法,解决了现有文本分类方法不能兼顾分类准确度和分类效率的问题,包括:获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵A;将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型;对图神经网络节点特征传播优化模型进行训练;利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。本发明将文本分类问题转换为节点分类问题,在保持节点分类的准确度下,提高节点特征传播的效率,从而提高文本分类的速度,同时减少文本标注数量,从而减少标注成本。

Description

一种基于图神经网络节点特征传播优化的文本分类方法
技术领域
本发明涉及深度学习及文本分类的技术领域,更具体地,涉及一种基于图神经网络节点特征传播优化的文本分类方法。
背景技术
文本分类是自然语言处理的一个基础服务,其目的是区分句子的类别。目前,在许多自然语言处理的人工智能应用中,文本分类是所有涉及自然语言处理领域工作必须首选攻克的难题。
因为文本分类是理解句子中的语义信息,通过提取有效的关键词,才能更好应用于其他上层任务。例如智能客服,它必须对用户的回答进行分类,方可作出符合人们期望的应答。目前在文本领域中,深度学习技术在其上面的表现尤其优秀,深度学习技术利用神经网络通过大量的标签数据充分拟合数据分布情况,可以有效提取句子的特征信息,避免花费大量时间在人工提取特征等类似的特征工程上,但是深度学习想要充分拟合数据,则需要大量的标签数据,在现实生活中,如果需要给数据打标签,不但效率低下并且需要浪费许多时间以及金钱,2018年,Yao L,Mao C,Luo Y在The Thirty-Third AAAI Conference onArtificial Intelligence上发表Graph Convolutional Networks for TextClassification的文章,首次将整个语料库建模为异构图,并通过图神经网络共同学习单词和文档嵌入,将文本分类问题转换为节点分类问题,该方法相对于普通文本分类模型,可以用较少数量标记的文档实现强大的分类性能,却未考虑在更少标注成本的情况,也未考虑训练占用的资源量和训练速度,无法兼顾文本分类准确度和分类效率。
发明内容
为解决现有文本分类方法不能兼顾分类准确度和分类效率的问题,本发明提出一种基于图神经网络节点特征传播优化的文本分类方法,将文本分类问题转换为节点分类问题,在保持节点分类的准确度下,提高节点特征传播的效率,从而提高文本分类的速度,同时减少文本标注数量,从而减少标注成本。
为了达到上述技术效果,本发明的技术方案如下:
一种基于图神经网络节点特征传播优化的文本分类方法,至少包括:
S1.获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵A;
S2.将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型;
S3.对图神经网络节点特征传播优化模型进行训练;
S4.利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。
优选地,步骤S1还包括:获取文本数据集后,将文本数据集划分为有标签的训练集及无标签的测试集。
优选地,步骤S1所述以文本节点、单词节点为基础的二元异构图的形成过程为:
S11.将文本数据集所有句子中的单词转换为小写字母,并用统一字符替代标点符号;
S12.利用TF-IDF算法得到单词节点相对文本节点的重要性权重,作为文本节点-单词节点的关系权重;
S13.利用点互信息算法得到单词节点-单词节点之间的影响力权重,作为单词节点-单词节点的关系权重;
S14.将文本节点-单词节点的关系权重及单词节点-单词节点的关系权重合并,以文本、单词作为节点,以文本节点-单词节点、单词节点-单词节点作为边,形成二元异构图。
优选地,邻接矩阵A的行和列为二元异构图的文本节点、单词节点,邻接矩阵A的行和列对应的元素为节点连接的关系权重,包括文本节点-单词节点的关系权重、单词节点-单词节点的关系权重、同一单词节点自身的关系权重及同一文本节点自身的关系权重,同一单词节点自身的关系权重为1,同一文本节点自身的关系权重为1。
优选地,步骤S2所述的将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型的过程为:
S21.基于二元异构图,将邻接矩阵A分块拆解为文本节点-文本节点邻接矩阵P、文本节点-单词节点邻接矩阵B、单词节点-文本节点邻接矩阵BT及单词节点-单词节点邻接矩阵C;
S22.构建基础图神经网络模型,包括第一卷积层及第二卷积层,第一卷积层与第二卷积层均为AXθ(1),基础图神经网络模型总表达式为AAXθ(1)θ(2),其中,θ(1)为第一卷积层的权重参数;θ(2)为第二卷积层的权重参数,X表示二元异构图的节点特征矩阵,为单位矩阵;
S23.将文本节点-文本节点邻接矩阵P、文本节点-单词节点邻接矩阵B及单词节点-单词节点邻接矩阵C输入至图神经网络模型的第一卷积层得到:
Figure BDA0002704415920000031
其中,Z(1)表示第一卷积层表达函数;
Figure BDA0002704415920000032
表示第一卷积层中文本节点对应的权重参数;
Figure BDA0002704415920000033
表示第一卷积层中单词节点对应的权重参数,BT表示文本节点-单词节点邻接矩阵B的转置;
第一卷积层的输出作为第二卷积层的输入,第二卷积层去除以单词节点为传播节点的特征传输,形成的图神经网络节点特征传播优化模型为:
Figure BDA0002704415920000034
优选地,构建图神经网络节点特征传播优化模型的过程中还包括:对单词-单词邻接矩阵C按行不放回采样,将单词-单词邻接矩阵C分解为M个维度与单词-单词邻接矩阵C相同的稀疏矩阵,形成子矩阵列表。
在此,在文本数据集量比较大时,对应二元异构图形成的邻接矩阵A是很大的,通过矩阵拆解,合并矩阵对称部分,减少大型矩阵所需要的大量内存、显存资源,使其可以加载更多的文本节点及单词节点,提高图神经网络节点特征传播优化模型的训练速度,提升文本数据集分类的效率。
优选地,步骤S3所述对图神经网络节点特征传播优化模型进行训练的过程包括:每一次迭代,随机或顺序地从子矩阵列表中抽取出一个子矩阵,替代单词-单词邻接矩阵C输入到模型。
在此,文本数据集形成二元异构图时,是以“文本节点-单词节点”为基础的,对于任何一个文本,单词的数目是巨大的,因此,在以二元异构图为基础,考虑节点特征传播时,以单词节点作为特征传输点的数量是巨大的,通过对单词-单词邻接矩阵C按行不放回采样,将单词-单词邻接矩阵C分解为M个维度与单词-单词邻接矩阵C相同的稀疏矩阵,形成子矩阵列表,训练过程中交替输入不同的稀疏子矩阵,使得训练速度加快,但不影响节点之间整体的特征传播性能,提升后续文本数据集分类的效率。
优选地,步骤S3所述对图神经网络节点特征传播优化模型进行训练的过程还包括:
S31.从文本数据集中每一类样本中随机抽取T个文本样本,并标注标签,作为训练集,未被标注标签的文本样本作为测试集;
S32.将训练集与测试集输入至图神经网络节点特征传播优化模型,并通过梯度反向传播法更新模型参数,记录第t次迭代输出的每一个文本节点的预测标签与t-1次迭代输出的每一个文本节点的预测标签,确定与t-1次迭代输出的每一个文本节点的预测标签相比,第t次迭代过程中预测标签发生变化的文本节点;
S33.累计每个文本节点的预测标签变化次数,确认预测标签变化次数最多的文本节点,作为图神经网络节点特征传播优化模型中最不稳定的文本节点;
S33.基于输出的文本节点的预测标签,确定每一次迭代的稳定性分数;
S34.判断标注成本是否使用完毕,若是,执行步骤S35;否则,将最不稳定的文本节点标注标签,返回步骤S32;
S35.判断标注成本使用完毕后稳定性分数是否满足标准,若是,执行步骤S36;否则,返回步骤S32;
S36.判断图神经网络节点特征传播优化模型训练的稳定性分数是否满足:在[J,J+K]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[eJ-ε,eJ+ε],eJ是第J轮迭代时的稳定性分数,ε表示阈值参数,K表示从J次迭代开始,至第J+K次迭代依次跨过的迭代次数,为正整数,若是,则说明图神经网络节点特征传播优化模型收敛,训练完成;否则,返回步骤S32。
在此,通过记录模型每次迭代后的输出,能够获得节点的预测标签,记录每个节点在迭代过程中的预测节点的变化次数,待训练稳定后,选择最不稳定的节点进行标记,能够找到最值得标记的节点,从而减少标注成本。
优选地,步骤S33所述的稳定性分数求解过程为:
Figure BDA0002704415920000041
其中,i表示输出文本节点的预测标签类别i,Nt(i)表示在t次迭代时,输出i类别预测标签的数量,n表示总文本样本的数目;
Figure BDA0002704415920000042
其中,et表示第t次迭代过程中,输出的文本节点的所有预测标签类别下的稳定性分数,m表示文本节点的所有预测标签类别。
优选地,步骤S35所述的标准为:存在迭代轮次J,满足在[J,J+K]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[eJ-ε,eJ+ε],eJ是第J轮迭代时的稳定性分数,ε表示阈值参数,K表示从J次迭代开始,至第J+K次迭代依次跨过的迭代次数,为正整数。
在此,考虑节点在训练迭代过程中的所有节点预测标签变化,即当训练满足在[J,J+K]次迭代过程中每次一迭代的稳定性分数稳定均在区间[0,ε]时,训练稳定,对应着所有节点的预测标签比例维持在一个稳定的范围,针对这一特性,在不增加大量标签的前提下,控制训练的进程,选择合适的时候进行标注,保持文本分类的准确度下,有效提高特征传播的效率。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于图神经网络节点特征传播优化的文本分类方法,首先将文本数据集构造成以文本节点、单词节点为基础的二元异构图,将文本分类问题转换为节点分类问题,利用二元异构图形成对应的邻接矩阵A,然后将邻接矩阵A拆解,减少大型矩阵所需要的大量内存、显存资源,同时对较为密集的单词-单词矩阵进行采样,形成子矩阵列表,每次训练只用子矩阵列表中的一个稀疏子矩阵,使其可以加载更多的文本节点及单词节点,然后构建图神经网络节点特征传播优化模型,对图神经网络节点特征传播优化模型进行训练,训练过程中记录迭代后的模型预测结果,记录节点预测标签的变化情况,同时利用全局稳定性分数来衡量特征传播是否趋向稳定来提前结束训练或者进行下一轮标注,将文本数据集转换为节点特征传播的训练,提高训练速度,比单纯直接进行文本训练再分类的准确性高,同时也保证了文本数据集分类的效率,降低了数据集标注成本。
附图说明
图1表示本发明实施例中提出的基于图神经网络节点特征传播优化的文本分类方法的流程图。
图2表示本发明实施例中提出的以文本节点、单词节点为基础的二元异构图的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的基于图神经网络节点特征传播优化的文本分类方法的流程图,参见图1,包括:
S1.获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵A;
S2.将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型;
S3.对图神经网络节点特征传播优化模型进行训练;
S4.利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。
在本实施例中,步骤S1所述以文本节点、单词节点为基础的二元异构图的形成过程为:
S11.将文本数据集所有句子中的单词转换为小写字母,并用统一字符替代标点符号;
S12.利用TF-IDF算法得到单词节点相对文本节点的重要性权重,作为文本节点-单词节点的关系权重;
S13.利用点互信息算法得到单词节点-单词节点之间的影响力权重,作为单词节点-单词节点的关系权重;
S14.将文本节点-单词节点的关系权重及单词节点-单词节点的关系权重合并,以文本、单词作为节点,以文本节点-单词节点、单词节点-单词节点作为边,形成二元异构图。
在以上实施时,采用的TF-IDF算法及点互信息算法为比较成熟的现有技术,对于一批文本数据集,可能包括“体育”、“娱乐”、“教育”等类别,文本数据集划分为有标签的训练集和无标签的测试集,将这一批文本数据集的所有句子中的单词拆解,对于步骤S1所提的“文本节点”是代表的归类号,这个“文本节点”具体属于的“体育”或者“娱乐”或者“教育”等类别,可能知道(带标签),也可能不知道(不带标签),如图2所示,具体按照上述过程,形成的一种二元异构图,参见图2,可以看到文本节点与单词节点之间是双向箭头,代表的互相的特征传播,而对于一个二元异构图,单词节点的数目是较多的,单词节点与单词节点之间存在互相的特征传播路径,因此通过常规基础神经网络直接训练,不同路径之间的传播既耗时也耗费资源,基于二元异构图的话,节点特征传播优化十分有必要。
在本实施例中,邻接矩阵A的行和列为二元异构图的文本节点、单词节点,邻接矩阵A的行和列对应的元素为节点连接的关系权重,包括文本节点-单词节点的关系权重、单词节点-单词节点的关系权重、同一单词节点自身的关系权重及同一文本节点自身的关系权重,同一单词节点自身的关系权重为1,同一文本节点自身的关系权重为1。
在本实施例中,步骤S2所述的将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型的过程为:
S21.基于二元异构图,将邻接矩阵A分块拆解为文本节点-文本节点邻接矩阵P、文本节点-单词节点邻接矩阵B、单词节点-文本节点邻接矩阵BT及单词节点-单词节点邻接矩阵C;
S22.构建基础图神经网络模型,包括第一卷积层及第二卷积层,第一卷积层与第二卷积层均为AXθ(1),基础图神经网络模型总表达式为AAXθ(1)θ(2),其中,θ(1)为第一卷积层的权重参数;θ(2)为第二卷积层的权重参数,X表示二元异构图的节点特征矩阵,为单位矩阵;
S23.将文本节点-文本节点邻接矩阵P、文本节点-单词节点邻接矩阵B及单词节点-单词节点邻接矩阵C输入至图神经网络模型的第一卷积层得到:
Figure BDA0002704415920000071
其中,Z(1)表示第一卷积层表达函数;
Figure BDA0002704415920000072
表示第一卷积层中文本节点对应的权重参数;
Figure BDA0002704415920000073
表示第一卷积层中单词节点对应的权重参数,BT表示文本节点-单词节点邻接矩阵B的转置;
第一卷积层的输出作为第二卷积层的输入,第二卷积层去除以单词节点为传播节点的特征传输,形成的图神经网络节点特征传播优化模型为:
Figure BDA0002704415920000074
由于单词的数目巨大,在图神经网络节点特征传播优化模型训练之前首先对单词-单词邻接矩阵C按行不放回采样,将单词-单词邻接矩阵C分解为M个维度与单词-单词邻接矩阵C相同的稀疏矩阵,形成子矩阵列表,做一个预处理,在每一次迭代,随机或顺序地从子矩阵列表中抽取出一个子矩阵,替代单词-单词邻接矩阵C输入到模型,通过对单词-单词邻接矩阵C按行不放回采样,将单词-单词邻接矩阵C分解为M个维度与单词-单词邻接矩阵C相同的稀疏矩阵,形成子矩阵列表,训练过程中交替输入不同的稀疏子矩阵,也呼应第二卷积层中后续建立的模型中去除以单词节点为传播节点的特征传输,训练速度加快,但不影响节点之间整体的特征传播性能,提升后续文本数据集分类的效率。
对图神经网络节点特征传播优化模型进行训练的过程还包括:
S31.从文本数据集中每一类样本中随机抽取T个文本样本,并标注标签,作为训练集,未被标注标签的文本样本作为测试集;
S32.将训练集与测试集输入至图神经网络节点特征传播优化模型,并通过梯度反向传播法更新模型参数,记录第t次迭代输出的每一个文本节点的预测标签与t-1次迭代输出的每一个文本节点的预测标签,确定与t-1次迭代输出的每一个文本节点的预测标签相比,第t次迭代过程中预测标签发生变化的文本节点;
S33.累计每个文本节点的预测标签变化次数,确认预测标签变化次数最多的文本节点,作为图神经网络节点特征传播优化模型中最不稳定的文本节点;
S33.基于输出的文本节点的预测标签,确定每一次迭代的稳定性分数;
稳定性分数求解过程为:
Figure BDA0002704415920000081
其中,i表示输出文本节点的预测标签类别i,Nt(i)表示在t次迭代时,输出i类别预测标签的数量,n表示总文本样本的数目;
Figure BDA0002704415920000082
其中,et表示第t次迭代过程中,输出的文本节点的所有预测标签类别下的稳定性分数,m表示文本节点的所有预测标签类别;
S34.判断标注成本是否使用完毕,若是,执行步骤S35;否则,将最不稳定的文本节点标注标签,返回步骤S32;
S35.判断标注成本使用完毕后稳定性分数是否满足标准,若是,执行步骤S36;否则,返回步骤S32;所述的标准为:存在迭代轮次J,满足在[J,J+K]次迭代过程中每次一迭代的稳定性分数稳定均在区间[0,ε],ε表示阈值参数,K表示从J次迭代开始,至第J+K次迭代依次跨过的迭代次数,为正整数;
S36.判断图神经网络节点特征传播优化模型训练的稳定性分数是否满足:在[J,J+K]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[eJ-ε,eJ+ε],eJ是第J轮迭代时的稳定性分数,ε表示阈值参数,K表示从J次迭代开始,至第J+K次迭代依次跨过的迭代次数,为正整数,若是,则说明图神经网络节点特征传播优化模型收敛,训练完成;否则,返回步骤S32。
在此过程中,模型参数的训练通过反向传播法属于现有技术,记录模型每次迭代后的输出,通过softmax函数获得节点的预测标签,记录每个节点在迭代过程中的预测节点的变化次数,待训练稳定后,选择最不稳定的节点进行标记,能够找到最值得标记的节点,通过训练集标签信息传播到测试集上的方式,从而减少标注成本。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于图神经网络节点特征传播优化的文本分类方法,其特征在于,至少包括:
S1.获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵A;
S2.将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型;
S3.对图神经网络节点特征传播优化模型进行训练;
S4.利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。
2.根据权利要求1所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,步骤S1还包括:获取文本数据集后,将文本数据集划分为有标签的训练集及无标签的测试集。
3.根据权利要求2所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,步骤S1所述以文本节点、单词节点为基础的二元异构图的形成过程为:
S11.将文本数据集所有句子中的单词转换为小写字母,并用统一字符替代标点符号;
S12.利用TF-IDF算法得到单词节点相对文本节点的重要性权重,作为文本节点-单词节点的关系权重;
S13.利用点互信息算法得到单词节点-单词节点之间的影响力权重,作为单词节点-单词节点的关系权重;
S14.将文本节点-单词节点的关系权重及单词节点-单词节点的关系权重合并,以文本、单词作为节点,以文本节点-单词节点、单词节点-单词节点作为边,形成二元异构图。
4.根据权利要求3所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,邻接矩阵A的行和列为二元异构图的文本节点、单词节点,邻接矩阵A的行和列对应的元素为节点连接的关系权重,包括文本节点-单词节点的关系权重、单词节点-单词节点的关系权重、同一单词节点自身的关系权重及同一文本节点自身的关系权重,同一单词节点自身的关系权重为1,同一文本节点自身的关系权重为1。
5.根据权利要求4所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,步骤S2所述的将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型的过程为:
S21.基于二元异构图,将邻接矩阵A分块拆解为文本节点-文本节点邻接矩阵P、文本节点-单词节点邻接矩阵B、单词节点-文本节点邻接矩阵BT及单词节点-单词节点邻接矩阵C;
S22.构建基础图神经网络模型,包括第一卷积层及第二卷积层,第一卷积层与第二卷积层均为AXθ(1),基础图神经网络模型总表达式为AAXθ(1)θ(2),其中,θ(1)为第一卷积层的权重参数;θ(2)为第二卷积层的权重参数,X表示二元异构图的节点特征矩阵,为单位矩阵;
S23.将文本节点-文本节点邻接矩阵P、文本节点-单词节点邻接矩阵B及单词节点-单词节点邻接矩阵C输入至神经网络模型的第一卷积层得到:
Figure FDA0002704415910000021
其中,Z(1)表示第一卷积层表达函数;
Figure FDA0002704415910000022
表示第一卷积层中文本节点对应的权重参数;
Figure FDA0002704415910000023
表示第二卷积层中单词节点对应的权重参数,BT表示文本节点-单词节点邻接矩阵B的转置;
第一卷积层的输出作为第二卷积层的输入,第二卷积层去除以单词节点为传播节点的特征传输,形成的图神经网络节点特征传播优化模型为:
Figure FDA0002704415910000024
6.根据权利要求5所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,构建图神经网络节点特征传播优化模型的过程中还包括:对单词-单词邻接矩阵C按行不放回采样,将单词-单词邻接矩阵C分解为M个维度与单词-单词邻接矩阵C相同的稀疏矩阵,形成子矩阵列表。
7.根据权利要求6所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,步骤S3所述对图神经网络节点特征传播优化模型进行训练的过程包括:每一次迭代,随机或顺序地从子矩阵列表中抽取出一个子矩阵,替代单词-单词邻接矩阵C输入到模型。
8.根据权利要求7所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,步骤S3所述对图神经网络节点特征传播优化模型进行训练的过程还包括:
S31.从文本数据集中每一类样本中随机抽取T个文本样本,并标注标签,作为训练集,未被标注标签的文本样本作为测试集;
S32.将训练集与测试集输入至图神经网络节点特征传播优化模型,并通过梯度反向传播法更新模型参数,记录第t次迭代输出的每一个文本节点的预测标签与t-1次迭代输出的每一个文本节点的预测标签,确定与t-1次迭代输出的每一个文本节点的预测标签相比,第t次迭代过程中预测标签发生变化的文本节点;
S33.累计每个文本节点的预测标签变化次数,确认预测标签变化次数最多的文本节点,作为图神经网络节点特征传播优化模型中最不稳定的文本节点;
S33.基于输出的文本节点的预测标签,确定每一次迭代的稳定性分数;
S34.判断标注成本是否使用完毕,若是,执行步骤S35;否则,将最不稳定的文本节点标注标签,返回步骤S32;
S35.判断标注成本使用完毕后稳定性分数是否满足标准,若是,执行步骤S36;否则,返回步骤S32;
S36.判断图神经网络节点特征传播优化模型训练的稳定性分数是否满足:在[J,J+K]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[eJ-ε,eJ+ε],eJ是第J轮迭代时的稳定性分数,ε表示阈值参数,K表示从J次迭代开始,至第J+K次迭代依次跨过的迭代次数,为正整数;若是,则说明图神经网络节点特征传播优化模型收敛,训练完成;否则,返回步骤S32。
9.根据权利要求8所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,步骤S33所述的稳定性分数求解过程为:
Figure FDA0002704415910000031
其中,i表示输出文本节点的预测标签类别i,Nt(i)表示在t次迭代时,输出i类别预测标签的数量,n表示总文本样本的数目;
Figure FDA0002704415910000032
其中,et表示第t次迭代过程中,输出的文本节点的所有预测标签类别下的稳定性分数,m表示文本节点的所有预测标签类别。
10.根据权利要求9所述的基于图神经网络节点特征传播优化的文本分类方法,其特征在于,步骤S35所述的标准为:存在迭代轮次J,满足在[J,J+K]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[eJ-ε,eJ+ε],eJ是第J轮迭代时的稳定性分数,ε表示阈值参数,K表示从J次迭代开始,至第J+K次迭代依次跨过的迭代次数,为正整数。
CN202011033194.7A 2020-09-27 2020-09-27 一种基于图神经网络节点特征传播优化的文本分类方法 Active CN112163069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011033194.7A CN112163069B (zh) 2020-09-27 2020-09-27 一种基于图神经网络节点特征传播优化的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011033194.7A CN112163069B (zh) 2020-09-27 2020-09-27 一种基于图神经网络节点特征传播优化的文本分类方法

Publications (2)

Publication Number Publication Date
CN112163069A true CN112163069A (zh) 2021-01-01
CN112163069B CN112163069B (zh) 2024-04-12

Family

ID=73863105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011033194.7A Active CN112163069B (zh) 2020-09-27 2020-09-27 一种基于图神经网络节点特征传播优化的文本分类方法

Country Status (1)

Country Link
CN (1) CN112163069B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862092A (zh) * 2021-01-26 2021-05-28 中山大学 一种异构图卷积网络的训练方法、装置、设备和介质
CN113284498A (zh) * 2021-05-20 2021-08-20 中国工商银行股份有限公司 客户意图识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
WO2019214133A1 (zh) * 2018-05-08 2019-11-14 华南理工大学 一种大规模客户投诉数据自动分类方法
CN110807101A (zh) * 2019-10-15 2020-02-18 中国科学技术信息研究所 一种科技文献大数据分类方法
CN111125358A (zh) * 2019-12-17 2020-05-08 北京工商大学 一种基于超图的文本分类方法
CN111209398A (zh) * 2019-12-30 2020-05-29 北京航空航天大学 一种基于图卷积神经网络的文本分类方法、系统
WO2020143302A1 (zh) * 2019-01-10 2020-07-16 平安科技(深圳)有限公司 卷积神经网络模型优化方法、装置、计算机设备及存储介质
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型
WO2019214133A1 (zh) * 2018-05-08 2019-11-14 华南理工大学 一种大规模客户投诉数据自动分类方法
WO2020143302A1 (zh) * 2019-01-10 2020-07-16 平安科技(深圳)有限公司 卷积神经网络模型优化方法、装置、计算机设备及存储介质
CN110807101A (zh) * 2019-10-15 2020-02-18 中国科学技术信息研究所 一种科技文献大数据分类方法
CN111125358A (zh) * 2019-12-17 2020-05-08 北京工商大学 一种基于超图的文本分类方法
CN111209398A (zh) * 2019-12-30 2020-05-29 北京航空航天大学 一种基于图卷积神经网络的文本分类方法、系统
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
殷亚博;杨文忠;杨慧婷;许超英;: "基于卷积神经网络和KNN的短文本分类算法研究", 计算机工程, no. 07, pages 199 - 204 *
魏勇;: "关联语义结合卷积神经网络的文本分类方法", 控制工程, no. 02, pages 187 - 190 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862092A (zh) * 2021-01-26 2021-05-28 中山大学 一种异构图卷积网络的训练方法、装置、设备和介质
CN112862092B (zh) * 2021-01-26 2021-11-26 中山大学 一种异构图卷积网络的训练方法、装置、设备和介质
CN113284498A (zh) * 2021-05-20 2021-08-20 中国工商银行股份有限公司 客户意图识别方法及装置

Also Published As

Publication number Publication date
CN112163069B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN111125358B (zh) 一种基于超图的文本分类方法
Bansal et al. Structured learning for taxonomy induction with belief propagation
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN115688776A (zh) 面向中文金融文本的关系抽取方法
CN114218389A (zh) 一种基于图神经网络的化工制备领域长文本分类方法
CN103336852A (zh) 跨语言本体构建方法及装置
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN115114409B (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
Cheng et al. TreeNet: Learning Sentence Representations with Unconstrained Tree Structure.
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN115329088B (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN112163069A (zh) 一种基于图神经网络节点特征传播优化的文本分类方法
CN114077836A (zh) 一种基于异构神经网络的文本分类方法及装置
CN115795018A (zh) 一种面向电网领域的多策略智能搜索问答方法及系统
CN118227790A (zh) 基于多标签关联的文本分类方法、系统、设备及介质
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
Shan Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment
CN111368092A (zh) 一种基于可信网页资源的知识图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant