CN115858725B - 一种基于无监督式图神经网络的文本噪声筛选方法及系统 - Google Patents
一种基于无监督式图神经网络的文本噪声筛选方法及系统 Download PDFInfo
- Publication number
- CN115858725B CN115858725B CN202211465319.2A CN202211465319A CN115858725B CN 115858725 B CN115858725 B CN 115858725B CN 202211465319 A CN202211465319 A CN 202211465319A CN 115858725 B CN115858725 B CN 115858725B
- Authority
- CN
- China
- Prior art keywords
- text
- graph
- feature
- matrix
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种基于无监督式图神经网络的文本噪声筛选方法及系统,本方法首先根据初始标签数据构建文本图,从文本图中构建文本邻接矩阵和顶点特征矩阵,然后依据文本邻接矩阵利用图卷积神经网络对文本的顶点进行信息聚合,即依据文本邻接矩阵采用图卷积的方式来注意到对文本的顶点的有效连接信息,使得文本顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达能够紧凑簇拥在一块,最后利用这一特性,通过KNN能够区分出正确和错误的标签数据,达到去噪的目的。本方法能够准确的区分正确的标签数据和错误的标签数据,将这部分数据移除,可以有效避免人工智能算法学习过程中遇到错误的标签数据而导致学习能力低下的问题。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于无监督式图神经网络的文本噪声筛选方法及系统。
背景技术
互联网无时无刻都在产生新的文本数据,借助文本分类可以极大的提高工作或生活效率,如舆情监控、邮件过滤、知识图谱的构建等任务,知识图谱的关系分类即文档分类,通过文档分类技术,可以极快的判断文档中实体之间属于哪种关系,从而自动的、快速的构建知识图谱。无论是搜索引擎、电商平台、还是知识图谱数据库都需要借助文本分类来完成相应的任务。
但是实际的标注数据是存在大量的错误标签的,由于所标注的样本数据需要人工逐一进行审核,并且打上相对应的标签,所以标注过程是十分耗时的工作,并且人长时间的标注数据会导致产生错误标注的现象,或者是标注人员对各个类别的概念不清晰,导致标注错误。
其中还有一些使用自动化的方法来快速的产生标签数据,这种方式的错误标签数据更严重。总的来说,使用人工以及自动化的方法来标注数据,势必会产生错误标注的现象,这于人工智能算法而言是不利的,如果不将这部分数据移除,算法就无法很好的对每一类标签数据进行区分,失去较好的鲁棒性。
发明内容
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种基于无监督式图神经网络的文本噪声筛选方法及系统,能够准确的区分正确的标签数据和错误的标签数据。
本发明的第一方面,提供了一种基于无监督式图神经网络的文本噪声筛选方法,所述基于无监督式图神经网络的文本噪声筛选方法包括:
获取初始标签数据,根据所述初始标签数据构建文本图;
根据所述文本图构建文本邻接矩阵,并根据所述文本图构建文本和词汇的顶点特征矩阵;
将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示;
通过KNN根据所述顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。
根据本发明的实施例,至少具有如下技术效果:
本方法首先根据初始标签数据构建文本图,从文本图中构建文本邻接矩阵和顶点特征矩阵,然后依据文本邻接矩阵利用图卷积神经网络对文本的顶点进行信息聚合,即依据文本邻接矩阵采用图卷积的方式来注意到对文本的顶点的有效连接信息,使得文本顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达能够紧凑簇拥在一块,最后利用这一特性,通过KNN能够区分出正确和错误的标签数据,达到去噪的目的。本方法能够准确的区分正确的标签数据和错误的标签数据,将这部分数据移除,可以有效避免人工智能算法学习过程中遇到错误的标签数据而导致学习能力低下的问题。
根据本发明的一些实施例,所述根据所述文本图构建文本邻接矩阵,包括:
通过使用互信息建立文本内词汇之间的关联关系,通过tf-idf算法建立词汇与文本的关联关系,得到文本邻接矩阵。
根据本发明的一些实施例,所述将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示,包括:
根据所述文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第一图特征表示;
通过多尺度的卷积算子对所述文本邻接矩阵进行特征变换,得到新的文本邻接矩阵;并根据所述新的文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第二图特征表示;
将所述第一图特征表示和所述第二图特征表示融合,得到第三图特征表示;
根据所述第三图特征表示迭代训练至收敛,得到信息聚合后的顶点特征表示。
根据本发明的一些实施例,所述根据所述文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第一图特征表示,包括:
Z1=F(X,A)
F(X,A)=A~(A~XW0)W1
其中,Z1表示第一图特征表示,X表示所述顶点特征矩阵,A表示邻接矩阵,W0和W1表示可更新权重,A~表示通过A得到的归一化对称邻接矩阵,F()表示图卷积神经网络。
根据本发明的一些实施例,通过多尺度的卷积算子对所述文本邻接矩阵进行特征变换,得到新的文本邻接矩阵;并根据所述新的文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第二图特征表示,包括:
A°=f(w1°A)+f(w2°A)
其中,w1表示卷积核大小为的1*1的过滤器,w2表示卷积核大小为3*3的过滤器,°表示卷积操作,f()表示激活函数,A°表示所述新的文本邻接矩阵;
Z2=F(x,A°)
F(X,A°)=ReLu(A~XW3)
其中,W3表示可更新的权重,Z2表示第二图特征表示。
根据本发明的一些实施例,所述将所述第一图特征表示和所述第二图特征表示融合,得到第三图特征表示,包括:
Z3=Zi+αZ2
其中,α表示权重因子,Z3表示第三图特征表示。
根据本发明的一些实施例,所述图卷积神经网络模型的损失函数包括:
本发明的第二方面,提供了一种基于无监督式图神经网络的文本噪声筛选系统,所述基于无监督式图神经网络的文本噪声筛选系统包括:
数据获取单元,用于获取初始标签数据,根据所述初始标签数据构建文本图;
矩阵构建单元,用于根据所述文本图构建文本邻接矩阵,并根据所述文本图构建文本和词汇的顶点特征矩阵;
顶点特征聚合单元,用于将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示;
噪声筛选单元,用于通过KNN根据所述顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。
由于基于无监督式图神经网络的文本噪声筛选系统采用了上述实施例的基于无监督式图神经网络的文本噪声筛选方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
本发明的第三方面,提供了一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行上述基于无监督式图神经网络的文本噪声筛选方法。
由于电子设备采用了上述实施例的基于无监督式图神经网络的文本噪声筛选方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述的基于无监督式图神经网络的文本噪声筛选方法。
由于可读存储介质采用了上述实施例的基于无监督式图神经网络的文本噪声筛选方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
需要注意的是,本发明的第二方面至第四方面与现有技术之间的有益效果与上述的基于无监督式图神经网络的文本噪声筛选方法与现有技术之间的有益效果相同,此处不再细述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例提供的一种基于无监督式图神经网络的文本噪声筛选方法的流程示意图;
图2是本发明一个实施例提供的顶点权重更新的示意图;
图3是本发明一个实施例提供的一种基于无监督式图神经网络的文本噪声筛选系统的结构示意图;
图4是本发明一个实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行介绍:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
图神经网络(Graph Neural Network,GNN):是指使用神经网络来学习图结构数据,提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。图卷积网络(Graph Convolutional Network,GCN)属于GNN中的一种,将卷积运算从传统数据推广到图数据,其核心思想是学习一个函数映射f(.),通过该映射图中的节点vi;可以聚合它自己的特征xi;与它的邻居特征xj;(j=N(vi))来生成节点vi的新表示。
无监督式学习网络(Unsupervised Learning Network):是人工智能网络的一种算法(algorithm),其目的是对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强,其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后,也可以将之应用到新的案例上。
K最邻近分类算法(K-NearestNeighbor,KNN):如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
本申请涉及人工智能技术领域,通常文本分类技术需要大量的标注数据,并且要保证所标注的数据不存在错误标签的情况下,人工智能算法才能有较为良好的性能。但是实际的标注数据是存在大量的错误标签的,如果不将这部分数据移除,算法就无法很好的对每一类标签数据进行区分,失去较好的鲁棒性。
为了解决上述的技术缺陷,参照图1,本申请的一个实施例,提供一种基于无监督式图神经网络的文本噪声筛选方法,本方法包括步骤S101至S104,具体如下:
步骤S101、获取初始标签数据,根据初始标签数据构建文本图。
步骤S102、根据文本图构建文本邻接矩阵,并根据文本图构建文本和词汇的顶点特征矩阵。
步骤S103、将文本邻接矩阵和顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到图卷积神经网络模型输出的信息聚合后的顶点特征表示。
步骤S104、通过KNN根据顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。
在步骤S101中,初始标签数据当中包含正确标签和错误标签,如果不将这部分错误标签去除,人工智能算法就无法很好的对每一类标签数据进行区分,从而使算法失去较好的鲁棒性。为了从初始标签数据当中筛选出错误标签数据,达到去噪的效果,首先根据初始标签数据构建文本图,构建文本图的目的在于能够准确得到后续计算处理的两个参数:文本邻接矩阵和顶点特征矩阵。
在步骤S102中,根据文本图构建文本邻接矩阵和顶点特征矩阵,具体构建如下所示:
假设文本图G,文本图G中的V是顶点集合,A是文本邻接矩阵。对于k个文本的数据S=[s1,s2,...,sk],其词汇集为W=[w1,w2,…,wm],所构建的顶点V与S、W所对应,每一个文本与词汇都有对应的顶点,其顶点数量为n=k+m,通过使用互信息(PMI)建立文本内词汇之间的关联关系,通过tf-idf算法建立词汇与文本的关联关系,至此就完整的构建了一个能体现词汇与词汇、词汇与文本关联关系的文本邻接矩阵A。
构建顶点集合V中各个顶点的特征,对于词汇顶点则采用词向量的方式得到相应的特征向量,对于文本顶点则使用所有词向量相加,以此得到顶点特征矩阵X。
在步骤S103中,为了从初始标签数据当中筛选出错误标签,达到去噪的效果,本文将依据文本邻接矩阵利用图卷积神经网络对文本的顶点进行信息聚合,即依据文本邻接矩阵采用图卷积的方式来注意到对文本的顶点的有效连接信息,使得文本顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达能够紧凑簇拥在一块,不一类的顶点的特征表达与紧凑簇拥在一块特征表达之间是分离(离群)的,最后利用这一特性,能够区分出正确(紧凑簇拥状态)和错误(离群状态)的样本。
在步骤S104中,在图卷积神经网络迭代训练完成后,图卷积神经网络和卷积神经网络一样,可以学习到丰富的语义特征,图卷积神经网络能对文本的特征进行有效的学习和更新,能使得文本顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达是紧凑簇拥在一块的,利用KNN的方式能很容易将不同类别的顶点信息区分开来,正确的样本是多数的,也是聚集到一块,错误的样本是少部分的与错误的样本在语义上是不一致的,在聚类分析的时候,错误的样本在欧氏距离上与簇拥在一起的正确标签数据是分类的,将离群的标签数据剔除即可达到去噪目的。
本方法首先根据初始标签数据构建文本图,从文本图中构建文本邻接矩阵和顶点特征矩阵,然后依据文本邻接矩阵利用图卷积神经网络对文本的顶点进行信息聚合,即依据文本邻接矩阵采用图卷积的方式来注意到对文本的顶点的有效连接信息,使得文本顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达能够紧凑簇拥在一块,最后利用这一特性,通过KNN能够区分出正确和错误的标签数据,达到去噪的目的。本方法能够准确的区分正确的标签数据和错误的标签数据,将这部分数据移除,可以有效避免人工智能算法学习过程中遇到错误的标签数据而导致学习能力低下的问题。
参照图2,本申请的一个实施例,提供了一种基于无监督式图神经网络的文本噪声筛选方法,本方法包括步骤S201至S204,具体如下:
步骤S201、构建文本邻接矩阵A。
对于类别标签为i的数据,存在正常数据以及错误标签数据,需要构建为文本图G,文本图G中的V是顶点集合,A是文本邻接矩阵。对于k个文本的数据S=[s1,s2,...,sk],其词汇集为W=[w1,w2,…,wm],所构建的顶点V与S、W所对应,每一个文本与词汇都有对应的顶点。
邻接矩阵A构建方式如下,其顶点数量为n=k+m,通过使用互信息(PMI)建立文本内词汇之间的关联关系,通过tf-idf算法建立词汇与文本的关联关系,至此就完整的构建了一个能体现词汇与词汇、词汇与文本关联关系的文本邻接矩阵A。
步骤S202、构建顶点特征矩阵X。
构建顶点集合V中各个顶点的特征,对于词汇顶点则采用词向量的方式得到相应的特征向量,对于文本顶点则使用所有词向量相加,以此得到顶点特征矩阵X。
步骤S203、构建图卷积神经网络模型,将文本邻接矩阵A和顶点特征矩阵X输入至图卷积神经网络模型中进行顶点的特征聚合,得到图卷积神经网络模型输出的信息聚合后的顶点特征表示。具体实现过程如下:
Z1=F(X,A)
F(X,A)=A~(A~XW0)W1
其中,Z1表示图卷积神经网络进行信息聚合后得到的特征表示,X表示顶点特征矩阵,A表示文本邻接矩阵,W0和W1表示可更新权重,其中,F()表示图卷积神经网络,A~表示通过A得到的归一化对称邻接矩阵。
与上述实施例不同的是,本申请为了丰富图卷积的信息表达,使用卷积的方式对文本邻接矩阵A进行特征变换,通过卷积来注意到对文档更为有效的连接信息,对文本邻接矩阵A的变换方式如下:
其中,w1表示卷积核大小为1*1的过滤器,w2表示卷积核大小为3*3的过滤器,°表示卷积操作,f为激活函数,通过多尺度的卷积算子来对文本邻接矩阵A进行卷积操作,丰富文本邻接矩阵A的连接信息,通过A°来丰富图的信息表达,其方式如下,其中W3为可更新的权重:
Z2=F(X,A°)
F(X,A°)=ReLu(A~XW3)
其中,W3表示可更新的权重,Z2表示基于A°生成的特征表示。后续将利用基于A°生成的特征表示Z2去得到新的特征表示。
新的特征表示为Z3=Z1+αZ2,本申请在基于原有的文本邻接矩阵A汇聚的顶点特征Z1的基础上,添加信息更为丰富的邻接矩阵A°所汇聚的图特征Z2,得到新的特征表示Z3,这种方式考虑了特征的多样性,丰富了信息源,极大的提升了图卷积神经网络的特征汇聚效果,其中α表示权重因子。
图卷积神经网络需要不断的更新迭代才能使得文档顶点充分的进行信息聚合,得到良好的特征表达,而在无监督图卷积神经网络中,由于数据是不存在标签的,整个网络的优化方向是不固定的,所以需要设计一个优化函数(损失函数),使得网络往预先设定的方向去优化。
通过上述的特征表示Z2得到新的文本邻接矩阵A*,如果权重更新往好的方向发展,能良好的进行信息的聚合,就应该使重构出的邻接矩阵A*与原始文本邻接矩阵A尽可能的相似,因为文本邻接矩阵决定了图的结构,构建方式如下:
同时为了文本的顶点能良好的汇聚对标签更具有表达性的特征,其损失函数方式如下:
其中,y代表原始的文本邻接矩阵A中的元素,y*代表文本邻接矩阵A*的元素。
步骤S204、图卷积神经网络迭代训练完成后,从特征Z3中选取属于文本顶点的特征Z*,使用KNN将正确标签数据与错误标签数据区分开。
因为图卷积神经网络和卷积神经网络一样,可以学习到丰富的语义特征,图卷积神经网络能对文本的特征进行有效的学习和更新,能使得文档顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达是紧凑簇拥在一块的,利用KNN的方式能很容易将不同类别的顶点信息区分开来,正确的样本是多数的,也是聚集到一块,错误的样本是少部分的与错误的样本在语义上是不一致的,在聚类分析的时候,错误的样本在欧氏距离上与簇拥在一起的正确样本是分类的,将离群的样本剔除即可达到去噪目的。
(1)本方法首先根据初始标签数据构建文本图,从文本图中构建文本邻接矩阵和顶点特征矩阵,然后依据文本邻接矩阵利用图卷积神经网络对文本的顶点进行信息聚合,即依据文本邻接矩阵采用图卷积的方式来注意到对文本的顶点的有效连接信息,使得文本顶点充分汇聚周围词汇顶点的信息,同一类的顶点的特征表达能够紧凑簇拥在一块,最后利用这一特性,通过KNN能够区分出正确和错误的标签数据,达到去噪的目的。本方法能够准确的区分正确的标签数据和错误的标签数据,将这部分数据移除,可以有效避免利算法学习过程中遇到错误的标签数据而导致学习能力低下的问题。
(2)本申请为了使模型能自我调整原始的文本邻接矩阵A,学习各个顶点之间的关联关系,丰富图卷积神经网络的信息表达,对文本邻接矩阵A进行一些特征处理,得到一个新的邻接矩阵A°,通过该邻接矩阵A°生成第二种特征Z2,综合考虑Z1和Z2,进行融合,得到更多样性的特征,提升了图卷积神经网络的特征汇聚效果,最终提升错误标签数据的去噪效果。
参照图3,本申请的一个实施例,提供了一种基于无监督式图神经网络的文本噪声筛选系统,本系统包括数据获取单元1100、矩阵构建单元1200、顶点特征聚合单元1300以及噪声筛选单元,具体如下:
数据获取单元1100用于获取初始标签数据,根据所述初始标签数据构建文本图。
矩阵构建单元1200用于根据所述文本图构建文本邻接矩阵,并根据所述文本图构建文本和词汇的顶点特征矩阵。
顶点特征聚合单元1300用于将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示。
噪声筛选单元1400用于通过KNN根据所述顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。
需要注意的是,本基于无监督式图神经网络的文本噪声筛选系统实施例与上述的方法实施例是基于相同的发明构思,因此上述方法实施例的相关内容同样适用于本系统实施例,这里不再赘述。
参照图4,本申请还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现:如上述的基于无监督式图神经网络的文本噪声筛选方法。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的基于无监督式图神经网络的文本噪声筛选方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的基于无监督式图神经网络的文本噪声筛选方法,例如,执行以上描述的图1中的方法步骤S101至步骤S104。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行:如上述的基于无监督式图神经网络的文本噪声筛选方法。
该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的基于无监督式图神经网络的文本噪声筛选方法,例如,执行以上描述的图1中的方法步骤S101至步骤S104。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储数据(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的数据并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何数据递送介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本申请实施例的较佳实施进行了具体说明,但本申请实施例并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。
Claims (9)
1.一种基于无监督式图神经网络的文本噪声筛选方法,其特征在于,所述基于无监督式图神经网络的文本噪声筛选方法包括:
获取初始标签数据,根据所述初始标签数据构建文本图;
根据所述文本图构建文本邻接矩阵,并根据所述文本图构建文本和词汇的顶点特征矩阵;
将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示;所述将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示,包括:根据所述文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第一图特征表示;通过多尺度的卷积算子对所述文本邻接矩阵进行特征变换,得到新的文本邻接矩阵;并根据所述新的文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第二图特征表示;将所述第一图特征表示和所述第二图特征表示融合,得到第三图特征表示;根据所述第三图特征表示迭代训练至收敛,得到信息聚合后的顶点特征表示;
通过KNN根据所述顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。
2.根据权利要求1所述的基于无监督式图神经网络的文本噪声筛选方法,其特征在于,所述根据所述文本图构建文本邻接矩阵,包括:
通过使用互信息建立文本内词汇之间的关联关系,通过tf-idf算法建立词汇与文本的关联关系,得到文本邻接矩阵。
7.一种基于无监督式图神经网络的文本噪声筛选系统,其特征在于,所述基于无监督式图神经网络的文本噪声筛选系统包括:
数据获取单元,用于获取初始标签数据,根据所述初始标签数据构建文本图;
矩阵构建单元,用于根据所述文本图构建文本邻接矩阵,并根据所述文本图构建文本和词汇的顶点特征矩阵;
顶点特征聚合单元,用于将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示;所述将所述文本邻接矩阵和所述顶点特征矩阵输入至预设的图卷积神经网络模型进行顶点的特征聚合,得到所述图卷积神经网络模型输出的信息聚合后的顶点特征表示,包括:根据所述文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第一图特征表示;通过多尺度的卷积算子对所述文本邻接矩阵进行特征变换,得到新的文本邻接矩阵;并根据所述新的文本邻接矩阵和所述顶点特征矩阵进行顶点的特征聚合,得到顶点的第二图特征表示;将所述第一图特征表示和所述第二图特征表示融合,得到第三图特征表示;根据所述第三图特征表示迭代训练至收敛,得到信息聚合后的顶点特征表示;
噪声筛选单元,用于通过KNN根据所述顶点特征表示进行聚类,筛选出正确标签数据与错误标签数据。
8.一种电子设备,其特征在于:包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行权利要求1至6任一项所述的基于无监督式图神经网络的文本噪声筛选方法。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1至6任一项所述的基于无监督式图神经网络的文本噪声筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211465319.2A CN115858725B (zh) | 2022-11-22 | 2022-11-22 | 一种基于无监督式图神经网络的文本噪声筛选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211465319.2A CN115858725B (zh) | 2022-11-22 | 2022-11-22 | 一种基于无监督式图神经网络的文本噪声筛选方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115858725A CN115858725A (zh) | 2023-03-28 |
CN115858725B true CN115858725B (zh) | 2023-07-04 |
Family
ID=85664852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211465319.2A Active CN115858725B (zh) | 2022-11-22 | 2022-11-22 | 一种基于无监督式图神经网络的文本噪声筛选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858725B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304061B (zh) * | 2023-05-17 | 2023-07-21 | 中南大学 | 基于层次文本图结构学习的文本分类方法、装置及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390259A (zh) * | 2019-06-11 | 2019-10-29 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据的识别方法、装置、计算机设备和存储介质 |
CN110889282A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种基于深度学习的文本情感分析方法 |
CN113963445A (zh) * | 2021-11-15 | 2022-01-21 | 河南理工大学 | 一种基于姿态估计的行人摔倒动作识别方法及设备 |
CN114511905A (zh) * | 2022-01-20 | 2022-05-17 | 哈尔滨工程大学 | 一种基于图卷积神经网络的人脸聚类方法 |
WO2022105016A1 (zh) * | 2020-11-19 | 2022-05-27 | 中国科学院深圳先进技术研究院 | 一种股票价格走势预测方法、系统、终端以及存储介质 |
CN114743037A (zh) * | 2022-04-06 | 2022-07-12 | 华南农业大学 | 一种基于多尺度结构学习的深度医学图像聚类方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062551A (zh) * | 2017-06-28 | 2018-05-22 | 浙江大学 | 一种基于邻接矩阵的图特征提取系统、图分类系统和方法 |
WO2022082091A1 (en) * | 2020-10-16 | 2022-04-21 | Visa International Service Association | System, method, and computer program product for user network activity anomaly detection |
CN112464057A (zh) * | 2020-11-18 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种网络数据分类方法、装置、设备及可读存储介质 |
CN112488241B (zh) * | 2020-12-18 | 2022-04-19 | 贵州大学 | 一种基于多粒度融合网络的零样本图片识别方法 |
CN113705772A (zh) * | 2021-07-21 | 2021-11-26 | 浪潮(北京)电子信息产业有限公司 | 一种模型训练方法、装置、设备及可读存储介质 |
CN113792937B (zh) * | 2021-09-29 | 2022-09-13 | 中国人民解放军国防科技大学 | 一种基于图神经网络的社交网络影响力预测方法、装置 |
CN114818737B (zh) * | 2022-06-29 | 2022-11-18 | 北京邮电大学 | 科技论文数据文本语义特征提取方法、系统及存储介质 |
-
2022
- 2022-11-22 CN CN202211465319.2A patent/CN115858725B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390259A (zh) * | 2019-06-11 | 2019-10-29 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据的识别方法、装置、计算机设备和存储介质 |
CN110889282A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种基于深度学习的文本情感分析方法 |
WO2022105016A1 (zh) * | 2020-11-19 | 2022-05-27 | 中国科学院深圳先进技术研究院 | 一种股票价格走势预测方法、系统、终端以及存储介质 |
CN113963445A (zh) * | 2021-11-15 | 2022-01-21 | 河南理工大学 | 一种基于姿态估计的行人摔倒动作识别方法及设备 |
CN114511905A (zh) * | 2022-01-20 | 2022-05-17 | 哈尔滨工程大学 | 一种基于图卷积神经网络的人脸聚类方法 |
CN114743037A (zh) * | 2022-04-06 | 2022-07-12 | 华南农业大学 | 一种基于多尺度结构学习的深度医学图像聚类方法 |
Non-Patent Citations (2)
Title |
---|
An Overview of Unsupervised Deep Feature Representation for Text Categorization;Shiping Wang 等;《IEEE Transactions on Computational Social Systems》;第2019年7月第6卷卷(第第3期期);全文 * |
基于图分类的中文长文本匹配算法;郭佳乐等;《智能计算机与应用》(第2020年06期期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115858725A (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114241282B (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
Alzubaidi et al. | A survey on deep learning tools dealing with data scarcity: definitions, challenges, solutions, tips, and applications | |
US10719301B1 (en) | Development environment for machine learning media models | |
US20230195845A1 (en) | Fast annotation of samples for machine learning model development | |
CN111914644B (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN109685110B (zh) | 图像分类网络的训练方法、图像分类方法及装置、服务器 | |
US11537506B1 (en) | System for visually diagnosing machine learning models | |
CN107205016A (zh) | 物联网设备的检索方法 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN115858725B (zh) | 一种基于无监督式图神经网络的文本噪声筛选方法及系统 | |
CN114610900A (zh) | 知识图谱补全方法及系统 | |
CN113987236B (zh) | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 | |
CN116129286A (zh) | 基于知识图谱的图神经网络遥感图像分类方法 | |
CN114880307A (zh) | 一种开放教育领域知识的结构化建模方法 | |
CN114818707A (zh) | 一种基于知识图谱的自动驾驶决策方法和系统 | |
CN114463596A (zh) | 一种超图神经网络的小样本图像识别方法、装置及设备 | |
CN112181814A (zh) | 一种针对于缺陷报告的多标签标记方法 | |
CN116633639A (zh) | 基于无监督与有监督融合强化学习的网络入侵检测方法 | |
CN116127376A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
US11875250B1 (en) | Deep neural networks with semantically weighted loss functions | |
WO2023273171A1 (zh) | 图像处理方法、装置、设备和存储介质 | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
CN115440384A (zh) | 一种基于多任务学习的医疗知识图谱的处理方法及系统 | |
CN110110756B (zh) | 一种数据分类优化方法和优化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |