CN112860900A - 文本分类方法、装置、电子设备及存储介质 - Google Patents
文本分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112860900A CN112860900A CN202110310369.2A CN202110310369A CN112860900A CN 112860900 A CN112860900 A CN 112860900A CN 202110310369 A CN202110310369 A CN 202110310369A CN 112860900 A CN112860900 A CN 112860900A
- Authority
- CN
- China
- Prior art keywords
- candidate
- label
- classification
- text
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 18
- 238000011160 research Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本分类方法、装置、电子设备及存储介质,其中方法包括:确定待分类文本的语义特征;基于所述语义特征,以及多个候选标签的分类特征,确定所述待分类文本的分类标签;其中,任一候选标签的分类特征是基于所述任一候选标签,以及所述任一候选标签与其他候选标签之间的关联确定的。本发明提供的方法、装置、电子设备及存储介质,考虑了标签与标签之间的关联特征信息,使得文本多标签分类更加合理,提高了文本分类准确性和文本分类效率。
Description
技术领域
本发明涉及文本识别技术领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。
背景技术
对文本进行分析时,需要先对文本进行分类筛选,再进行后续处理。通常通过标签来实现对文本的分类,例如,以人工智能领域的文本为例,可以有多个不同的研究方向,如计算机视觉、自然语言处理、强化学习、图神经网络等,每个研究方向又会有多个不同的分支标签,例如图像增强、三维重建、视频分析等。随着交叉学科、交叉实验等研究的兴起,逐渐出现了一篇论文的研究课题涵盖多个标签的情况。对论文或更广义的文本的标签进行判断本质上就是一个多标签分类问题。
现有技术中,这些标签是由人工标注的,工作量巨大且极易出现错漏,分类准确性差,分类效率低。
发明内容
本发明提供一种文本分类方法、装置、电子设备及存储介质,用以解决现有技术中利用标签对文本进行分类时需要人工标注,分类准确性差,分类效率低的技术问题。
本发明提供一种文本分类方法,包括:
确定待分类文本的语义特征;
基于所述语义特征,以及多个候选标签的分类特征,确定所述待分类文本的分类标签;
其中,任一候选标签的分类特征是基于所述任一候选标签,以及所述任一候选标签与其他候选标签之间的关联确定的。
根据本发明提供的一种文本分类方法,所述分类特征的确定方法包括:
基于各个候选标签,以及各个候选标签之间的关联,建立候选标签关联图;
将所述候选标签关联图输入至标签特征提取模型,得到所述标签特征提取模型输出的各个候选标签的分类特征。
根据本发明提供的一种文本分类方法,所述标签特征提取模型的初始模型为图神经网络模型,所述候选标签关联图的节点为各个候选标签,所述节点之间的边是基于各个候选标签之间的关联概率确定的;
所述关联概率为任一候选标签在多个样本文本中出现时邻接标签同时出现的概率;所述邻接标签为与所述任一候选标签出现在同一样本文本中的其他候选标签。
根据本发明提供的一种文本分类方法,所述节点之间的边的确定方法为:
确定各个候选标签之间的关联概率;
基于各个候选标签之间的关联概率,以及每一候选标签与每一邻接标签之间的关联概率,确定每一候选标签与每一邻接标签之间的邻接概率;
基于每一候选标签与每一邻接标签之间的邻接概率,确定所述节点之间的边。
根据本发明提供的一种文本分类方法,所述基于各个候选标签之间的关联概率,以及每一候选标签与每一邻接标签之间的关联概率,确定每一候选标签与每一邻接标签之间的邻接概率,包括:
基于各个候选标签之间的关联概率,确定多个分组,以及每一分组对应的分组权重和分组概率区间;
基于每一分组对应的分组概率区间,对每一候选标签与每一邻接标签之间的关联概率进行分组,确定每一候选标签与每一邻接标签之间的关联概率对应的分组权重;
基于每一候选标签与每一邻接标签之间的关联概率对应的分组权重,以及每一候选标签的邻接标签共有概率,确定每一候选标签与每一邻接标签之间的邻接概率。
根据本发明提供的一种文本分类方法,所述基于所述语义特征,以及多个候选标签的分类特征,确定所述待分类文本的分类标签,包括:
基于所述语义特征与任一候选标签的分类特征,确定所述任一候选标签与所述语义特征之间的相似度;
基于每一候选标签与所述语义特征之间的相似度,确定所述待分类文本的分类标签。
根据本发明提供的一种文本分类方法,所述确定待分类文本的语义特征,包括:
基于所述待分析文本的标题信息、摘要信息、作者信息和内容信息中的至少一种,确定所述待分析文本的语义特征。
本发明还提供一种文本分类装置,包括:
确定单元,用于确定待分类文本的语义特征;
分类单元,用于基于所述语义特征,以及多个候选标签的分类特征,确定所述待分类文本的分类标签;
其中,任一候选标签的分类特征是基于所述任一候选标签,以及所述任一候选标签与其他候选标签之间的关联确定的。
本发明提供的文本分类方法、装置、电子设备及存储介质,根据待分类文本的语义特征,以及多个候选标签的分类特征,确定待分类文本的分类标签;任一候选标签的分类特征是基于该候选标签,以及该候选标签与其他候选标签之间的关联确定的,不仅考虑了标签本身的特征信息,还考虑了标签与标签之间的关联特征信息,使得文本多标签分类更加合理,提高了文本分类准确性和文本分类效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的文本分类方法的流程示意图;
图2为本发明提供的文本分类装置的结构示意图;
图3为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的文本分类方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待分类文本的语义特征。
具体地,待分类文本为需要确定进行多标签分类的文本。例如,待分类文本可以为新闻报道、科研论文等。例如,一篇关于人工智能的科研论文,同时涉及了图像增强和三维重建等内容,对其多标签分类,就是为了将该论文中所有的标签都预测出来,分类后该科研论文的标签可以为图像增强和三维重建。
语义特征为用于表征待分类文本的语义信息的特征。例如,可以采用词频-逆文档频率(TF-IDF)统计或者独热(One-hot)编码的方法,确定待分类文本的语义特征。语义特征的表现形式可以为嵌入(Embedding)向量。
步骤120,基于语义特征,以及多个候选标签的分类特征,确定待分类文本的分类标签;其中,任一候选标签的分类特征是基于该候选标签,以及该候选标签与其他候选标签之间的关联确定的。
具体地,分类标签为用于对文本进行分类的标签。例如,分类标签可以为语义类的主题标签,如计算机视觉、自然语言处理、强化学习、图神经网络等。候选标签为已有的分类标签。候选标签的获取可以从已实现分类的文本中获取。
分类特征为候选标签所具有的能够用于与其他候选标签进行区别和联系的特征信息。这些特征信息包括两个方面,一方面为候选标签本身所具有的特征信息,另一方面为候选标签与其他候选标签之间的关联特征信息。此处,候选标签与其他候选标签之间的关联可以为该候选标签与其他候选标签在语义内容上的从属关系、依赖关系或者相似关系等。例如,候选标签“神经网络”的分类特征可以包括其自身表征的信息特征外,还可以包括与候选标签“人工智能”之间的从属关系。因此,对于任一候选标签的分类特征,可以根据该候选标签本身,以及该候选标签与其他候选标签之间的关联进行确定。
可以用嵌入向量分别表示待分类文本的语义特征,以及每一候选标签的分类特征,根据求解向量相似度的方法,确定每一候选标签的分类特征与待分类文本的语义特征之间的向量相似度,进而根据向量相似度,确定待分类文本的分类标签。确定的分类标签的数量可以为多个,根据实际需要进行设置。例如,可以设置相似度比较阈值,当向量相似度大于等于比较阈值时,就可以将该向量相似度对应的候选标签作为待分类文本的一个分类标签。
本发明实施例提供的文本分类方法,根据待分类文本的语义特征,以及多个候选标签的分类特征,确定待分类文本的分类标签;任一候选标签的分类特征是基于该候选标签,以及该候选标签与其他候选标签之间的关联确定的,不仅考虑了标签本身的特征信息,还考虑了标签与标签之间的关联特征信息,使得文本多标签分类更加合理,提高了文本分类准确性和文本分类效率。
基于上述实施例,分类特征的确定方法包括:
基于各个候选标签,以及各个候选标签之间的关联,建立候选标签关联图;
将候选标签关联图输入至标签特征提取模型,得到标签特征提取模型输出的各个候选标签的分类特征。
具体地,候选标签关联图用于表示各个候选标签以及各个候选标签之间的关联。例如,候选标签关联图可以为有向图,图中各个候选标签可以为有向图的顶点,候选标签之间的关联可以为有向图的边。
标签特征提取模型可以对候选标签关联图进行特征提取,得到各个候选标签的分类特征。例如,标签特征提取模型可以以神经网络模型为初始模型,采用图遍历算法,对候选标签关联图中各个候选标签自身所包含的特征信息,以及各个候选标签之间的关联特征信息进行学习,最终融合得到各个候选标签的分类特征。
基于上述任一实施例,标签特征提取模型的初始模型为图神经网络模型,候选标签关联图的节点为各个候选标签,节点之间的边是基于各个候选标签之间的关联概率确定的;
关联概率为任一候选标签在多个样本文本中出现时邻接标签同时出现的概率;邻接标签为与任一候选标签出现在同一样本文本中的其他候选标签。
具体地,图神经网络(Graph Neural Network,GNN)是指神经网络在图上应用的模型的统称,根据采用的技术不同和分类方法的不同,又可以分为不同的种类。例如从传播的方式来看,图神经网络可以分为图卷积神经网络(Graph Convolution Network,GCN)和图注意力网络(Graph Attention Network,GAT)等,图神经网络是一种直接作用在图结构上面的神经网络。
候选标签关联图的节点为各个候选标签,节点之间的边可以根据各个候选标签之间的关联概率确定的。此处,关联概率用于表征各个候选标签之间的关联。
例如,若关联概率不为零,则候选标签之间存在关联,候选标签对应的节点之间的边存在,边的值可以根据关联概率进行确定。若关联概率为零,则候选标签之间不存在关联,候选标签对应的节点之间的边可以认为不存在。
基于上述任一实施例,节点之间的边的确定方法为:
确定各个候选标签之间的关联概率;
基于各个候选标签之间的关联概率,以及每一候选标签与每一邻接标签之间的关联概率,确定每一候选标签与每一邻接标签之间的邻接概率;
基于每一候选标签与每一邻接标签之间的邻接概率,确定节点之间的边。
具体地,关联概率可以用概率统计的方式得到。可以收集多个样本文本,每一样本文本可以包括一个或者多个分类标签。样本文本的数量可以根据实际需要进行设置。所有样本文本的分类标签可以作为候选标签。对每一候选标签在所有样本文本中出现的次数进行统计。同时,再统计每一候选标签和其对应的邻接标签共同出现的次数。例如,其中一个样本文本的分类标签为“神经网络”和“人工智能”,则“神经网络”和“人工智能”可以作为候选标签,并且互为邻接标签。
统计得到每一候选标签在所有样本文本中出现的次数,以及每一候选标签和其对应的邻接标签共同出现的次数后,根据所有样本文本的数量,可以得到每一候选标签在所有样本文本中出现的概率,以及每一候选标签和其对应的邻接标签共同出现的概率,进一步地,得到每一候选标签在多个样本文本中出现时邻接标签同时出现的概率。
例如,多个样本文本中,候选标签A在所有样本文本中出现的概率为P(A),候选标签A和其对应的邻接标签B共同出现的概率为P(AB),则根据贝叶斯定理,可以得到候选标签A在多个样本文本中出现时邻接标签B同时出现的概率为P(B|A),用公式表示为:
P(B|A)=P(AB)/P(A)
关联概率P(B|A)是一种条件概率,是根据联合概率P(AB)和边缘概率P(A)得到的。
考虑到实际操作中进行概率计算时,可能出现由于总样本数较大而候选标签的样本数较少导致计算结果精度较差的情形。例如,总样本数达到百万量级时,而候选标签A比较冷门,对应的样本数较少,使得P(A)很小,计算机计算P(B|A)=P(AB)/P(A)时可能会出现精度误差。此时,考虑到等式右边分子分母其实都是通过除以总样本数得到,本质上进行了重复计算,带来了不必要的计算开销。因此,实际操作的时候,可以直接统计各个候选标签出现的样本数:包含候选标签A的样本数、包含候选标签B的样本数、以及同时包含候选标签A和候选标签B的样本数,然后按照统计得到的各个候选标签的样本数进行计算。计算P(B|A)=P(AB)/P(A)可以优化为计算P(B|A)=N(AB)/N(A)。其中,N(AB)为候选标签A和候选标签B在样本中同时出现的次数,N(A)为候选标签A在样本中出现的次数。通过直接采用统计的样本数进行计算,可以减少运算量,同时保证计算精度。
在得到各个候选标签之间的关联概率后,还可以根据这些关联概率得到图神经网络模型中图的相关矩阵,用来对候选标签关联图进行特征提取。
如果直接使用关联概率作为节点之间的边,由于关联概率的分布服从长尾分布(long-tail distribution),使用关联概率组成的相关矩阵在进行特征提取时,容易产生噪音,使得所得到的分类特征准确度差,因此,需要对每一候选标签与每一邻接标签之间的关联概率进行调整。
邻接概率为根据候选标签之间的关联概率分布特征,对关联概率进行调整后得到的概率,用于表征候选标签与邻接标签之间的紧密联系程度。
例如,可以根据各个候选标签之间的关联概率的分布规律,确定邻接标签与候选标签的紧密连接程度。关联概率的分布位置越接近长尾头部的邻接标签,其与候选标签之间的关联程度也就越大,应该对候选标签与该邻接标签之间的关联概率给予较大的权重,关联概率的分布位置越接近长尾尾部的邻接标签,其与候选标签之间的关联程度也就越小,应该对候选标签与该邻接标签之间的关联概率给予较小的权重。
根据每一候选标签与每一邻接标签之间的关联概率,及其权重,重新调整每一候选标签与每一邻接标签之间的关联概率,将调整后得到的邻接概率作为节点之间的边的值。
基于上述任一实施例,基于各个候选标签之间的关联概率,以及每一候选标签与每一邻接标签之间的关联概率,确定每一候选标签与每一邻接标签之间的邻接概率,包括:
基于各个候选标签之间的关联概率,确定多个分组,以及每一分组对应的分组权重和分组概率区间;
基于每一分组对应的分组概率区间,对每一候选标签与每一邻接标签之间的关联概率进行分组,确定每一候选标签与每一邻接标签之间的关联概率对应的分组权重;
基于每一候选标签与每一邻接标签之间的关联概率对应的分组权重,以及每一候选标签的邻接标签共有概率,确定每一候选标签与每一邻接标签之间的邻接概率。
具体地,根据各个候选标签之间的关联概率的分布规律,可以确定多个分组,以及每一分组对应的分组权重和分组概率区间。可以将分组数量作为一个超参数进行设置。分组数量越大,文本分类准确性较高,但文本分类算法执行时间较长;分组数量越小,文本分类准确性较低,但文本分类算法执行时间较少。分组数量可以根据实际需要进行设置。
分组概率区间为分组后,每一候选标签与每一邻接标签之间的关联概率所在的概率区间。分组权重为对应概率区间的权重。分组权重越大,落入该分组概率区间的候选标签及其邻接标签的关联程度越大。
分组概率区间和分组权重可以根据分组数量进行设置。例如,分组数量为4,则可以采用四分位数,将关联概率分布区间划分为[0,0.25),[0.25,0.5),[0.5,0.75)和[0.75,1]。相应地,每一分组权重可以设定为0,1,2和3。
根据每一分组对应的分组概率区间,对每一候选标签与每一邻接标签之间的关联概率进行分组,确定每一候选标签与每一邻接标签之间的关联概率对应的分组权重。例如,对于候选标签A,其对应3个邻接标签分别为B、C和D。其中,候选标签A与邻接标签B之间的关联概率为0.8,候选标签A与邻接标签C之间的关联概率为0.9,候选标签A与邻接标签D之间的关联概率为0.4。则可以将候选标签A分别与邻接标签B、邻接标签C之间的关联概率分入[0.75,1],确定其分组权重为3,将候选标签A分别与邻接标签D之间的关联概率分入[0.25,0.5),确定其分组权重为1。
每一候选标签的邻接标签共有概率,用于衡量在确定候选标签的分类特征时,对该候选标签的所有邻接标签的关注程度。例如,对于任一候选标签,可以设置其邻接标签共有概率为p,则分配至自身的概率为1-p,即提取该候选标签的分类特征时,关注其与邻接节点之间的关联特征信息的程度为p,关注其自身的特征信息的程度为1-p。p越接近1,候选标签自身的特征信息就越弱化,候选标签之间的关联特征信息就越强化,此时,文本分类算法倾向于输出多个候选标签;p越接近0,候选标签自身的特征信息就越强化,候选标签之间的关联特征信息就越弱化,此时,文本分类算法倾向于输出单一的候选标签。邻接标签共有概率可以作为一个超参数进行设置。
根据每一候选标签与每一邻接标签之间的关联概率对应的分组权重,以及每一候选标签的邻接标签共有概率,确定每一候选标签与每一邻接标签之间的邻接概率。例如,邻接标签共有概率p为0.6,对于候选标签A,其对应3个邻接标签分别为B、C和D,分组权重分别为3、3和1,所有邻接标签的分组权重和为7。则候选标签A与邻接标签B之间的邻接概率为0.6*(3/7),即0.26;候选标签A与邻接标签C之间的邻接概率为0.6*(3/7),即0.26;候选标签A与邻接标签D之间的邻接概率为0.6*(1/7),即0.08。
得到邻接概率后,将其作为节点之间的边的值进行分类特征的提取。例如,在对候选标签A提取分类特征时,关注其自身的特征信息的程度为0.4,关注其与邻接节点B之间的关联特征信息的程度为0.26,关注其与邻接节点C之间的关联特征信息的程度为0.26,关注其与邻接节点D之间的关联特征信息的程度为0.08。
相比于关联概率,邻接概率对候选标签与每一邻接标签之间的关注程度进行了量化,同时,在对候选标签提取分类特征时,关注其与邻接节点之间的关联特征信息的程度,以及关注其自身的特征信息的程度的分配更加合理,使得文本多标签分类更加合理。
本发明实施例提供的文本分类方法,根据各个候选标签之间的关联概率的分布和每一候选标签的邻接标签共有概率,得到了邻接概率,将其用于提取候选标签的分类特征,避免了长尾分布带来的噪音,使得文本多标签分类更加合理,提高了文本分类准确性和文本分类效率。
基于上述任一实施例,步骤120包括:
基于语义特征与任一候选标签的分类特征,确定任一候选标签与语义特征之间的相似度;
基于每一候选标签与语义特征之间的相似度,确定待分类文本的分类标签。
具体地,可以将语义特征与任一候选标签的分类特征分别用向量表示,将语义特征对应的向量与候选标签的分类特征对应的向量进行点乘,将得到的点积作为该候选标签与语义特征之间的相似度。
将得到的每一候选标签与语义特征之间的相似度输入激活函数,激活函数可以为Sigmoid函数、Tanh函数和ReLU函数中的一种。由激活函数对每一候选标签与语义特征之间的相似度进行判断后,得到待分类文本的分类标签。
例如,可以采用Sigmoid函数将每一候选标签的分类特征与待分类文本的语义特征之间的相似度转换到[0,1]之间。若相似度大于一个给定阈值,则输出该相似度对应的候选标签,并将其作为待分类文本的分类标签。给定阈值可以根据需要进行设置,例如0.5或者0.6,本发明实施例对于给定阈值的大小不作具体限定。
基于上述任一实施例,步骤110包括:
基于待分析文本的标题信息、摘要信息、作者信息和内容信息中的至少一种,确定待分析文本的语义特征。
具体地,待分析文本可以是新闻报道或者科研论文。一般地,待分析文本可以包括标题、摘要、作者和内容。可以对标题信息、摘要信息、作者信息和内容信息中的至少一种进行语义特征提取,得到待分析文本的语义特征。
例如,对于新闻报道,摘要信息可能没有,但内容信息相比于标题信息和作者信息而言更为重要,则新闻报道的语义特征可以根据内容信息进行提取。对于科研论文,标题信息包含了表征技术内容的关键词;作者信息可能蕴含与论文的研究方向等信息,比如,论文作者通常在某些研究领域发表论文或者在某些研究领域具有极高的学术知名度,那么根据作者的研究领域或者学术知名度可以大致判断论文的研究方向;内容信息相对于需要用于分类的信息来说过于丰富,摘要信息则可以反映所有的重要信息又不至于篇幅太大。因此,科研论文的语义特征可以根据标题信息、作者信息和摘要信息进行提取。
基于上述任一实施例,本发明提供一种基于图神经网络的文本多标签分类方法,其步骤包括:
步骤一、收集已有标签的文本作为训练数据,这些文本可以是新闻稿、科研论文等。
步骤二、采用Transformer模型来读取文本信息,将文本中的语义信息转变成相应的嵌入向量。以科研论文为例,可以同时对文章的标题、摘要分别进行处理得到各自的嵌入向量E1(标题)和E2(摘要),接着再对作者信息进行编码得到E3,然后将这些向量进行联结后再通过一个全连接层,生成最终的嵌入向量E。
步骤三、采用GNN模型建立图网络结构,以已有的标签为图网络结构中的节点,标签和标签之间的相互关系为节点之间的边。例如,如果有一篇论文同时覆盖了图像增强、三维重建两个研究方向,则标签“图像增强”和“三维重建”之间就有一条边。
步骤四、根据标签之间的相互依赖关系,建立图网络结构的相关矩阵。具体来说,P(B|A)表示在标签A出现的时候,标签B出现的概率。这样便构造了一个有向图,先单独统计每个标签的文章数量,再统计两两配对(标签A和标签B)后同时具备标签A和B的论文出现次数。那么在有向图中,从标签A到标签B的有向边的权重就定义为P(B|A)=P(AB)/P(A)或者P(B|A)=N(AB)/N(A),此处N(AB)为AB同时出现的次数,N(A)为标签A出现的次数,相比于前一公式,后一公式减少了运算量,也保证了计算精度。这样就得到了图的相关矩阵M。
步骤五、对相关矩阵M进行优化:
(1)对概率进行分组,组数b是一个可以控制的超参,比如分四组(b=4)或者3组(b=3)。分组标准以b=4为例,可以设置三(b-1)个阈值0.25,0.5,0.75,然后步骤四中的概率落入区间[0,0.25),[0.25,0.5),[0.5,0.75),[0.75,1]的则分别落入组号0,1,2,3。实际操作中因为该分布常常是长尾(long-tail)分布,可能会出现较多噪音,即很可能[0,0.25]的组覆盖了训练数据中60%的数据,而[0.75,1]中没有数据(覆盖0%)。面对这种偏度值较大的分布,可以选取数据驱动的分组方式,即以25%百分位的概率值作为组0和1的分界线,50%百分位(也就是中位数)作为组1和2的分界线,以此类推。在较为极端的情况下(比如训练数据中有40%的0概率,非零概率只有60%),可以将所有0概率的部分归为组0,非零概率的部分再按照b-1组的方式重新分组(即非零概率数据中,33%,67%的两个百分位作为后两个阈值)。以达到将数据较为平均地分配进0,1,2,3四个组,方便后续计算。
(2)对任意标签C,分配给标签自己的概率为1-p,标签的所有邻居共有概率p,然后根据这些邻居在步骤五(1)中得到的组号(0,1,2,…,b-1)再进行二次分配(例如p=0.6,标签C有4个邻居,一个3,两个1,一个0,所有邻居的权重和为5,则0的那个邻居概率仍是0,组号为3的邻居概率为0.6/5*3=0.36,组号为1的那两个邻居的概率为0.6/5*1=0.12,标签C自己具备概率1-0.6=0.4,易知C和其邻居的概率和仍然为1满足条件,且邻居之间不再是简单的平均分配概率,而是根据它们与C的联系紧密程度而定)。构造出这个图网络后,就用GNN模型训练出每个标签的嵌入向量F。
步骤六、将步骤五中每个标签的嵌入向量F与步骤二中文本的嵌入向量E求点积,即可获得各标签的相应标量值,它代表了该文本与各标签的匹配程度或相似性。
步骤七、将步骤六中标签对应的标量值再经过一层sigmoid激活层判断,得到最后的输出标签。
本发明提供的方法利用图网络获得全局信息,照顾到了标签之间的关系和相似度,使得多标签分类更合理,更准确。且该方法灵活性很高,对于不同类型的文本分类可以灵活定义嵌入向量E。
基于上述任一实施例,图2为本发明提供的文本分类装置的结构示意图,如图2所示,该装置包括:
确定单元210,用于确定待分类文本的语义特征;
分类单元220,用于基于语义特征,以及多个候选标签的分类特征,确定待分类文本的分类标签;其中,任一候选标签的分类特征是基于任一候选标签,以及任一候选标签与其他候选标签之间的关联确定的。
本发明实施例提供的文本分类装置,根据待分类文本的语义特征,以及多个候选标签的分类特征,确定待分类文本的分类标签;任一候选标签的分类特征是基于该候选标签,以及该候选标签与其他候选标签之间的关联确定的,不仅考虑了标签本身的特征信息,还考虑了标签与标签之间的关联特征信息,使得文本多标签分类更加合理,提高了文本分类准确性和文本分类效率。
基于上述任一实施例,该装置还包括:
分类特征确定单元,用于基于各个候选标签,以及各个候选标签之间的关联,建立候选标签关联图;将候选标签关联图输入至标签特征提取模型,得到标签特征提取模型输出的各个候选标签的分类特征。
基于上述任一实施例,标签特征提取模型的初始模型为图神经网络模型,候选标签关联图的节点为各个候选标签,节点之间的边是基于各个候选标签之间的关联概率确定的;
关联概率为任一候选标签在多个样本文本中出现时邻接标签同时出现的概率;邻接标签为与任一候选标签出现在同一样本文本中的其他候选标签。
基于上述任一实施例,该装置还包括边确定单元,边确定单元包括:
关联概率确定子单元,用于确定各个候选标签之间的关联概率;
邻接概率确定子单元,用于基于各个候选标签之间的关联概率,以及每一候选标签与每一邻接标签之间的关联概率,确定每一候选标签与每一邻接标签之间的邻接概率;
边确定子单元,用于基于每一候选标签与每一邻接标签之间的邻接概率,确定节点之间的边。
基于上述任一实施例,邻接概率确定子单元包括:
分组模块,用于基于各个候选标签之间的关联概率,确定多个分组,以及每一分组对应的分组权重和分组概率区间;
权重确定模块,用于基于每一分组对应的分组概率区间,对每一候选标签与每一邻接标签之间的关联概率进行分组,确定每一候选标签与每一邻接标签之间的关联概率对应的分组权重;
邻接概率确定模块,用于基于每一候选标签与每一邻接标签之间的关联概率对应的分组权重,以及每一候选标签的邻接标签共有概率,确定每一候选标签与每一邻接标签之间的邻接概率。
基于上述任一实施例,分类单元220具体用于基于语义特征与任一候选标签的分类特征,确定任一候选标签与语义特征之间的相似度;基于每一候选标签与语义特征之间的相似度,确定待分类文本的分类标签。
基于上述任一实施例,确定单元210具体用于基于待分析文本的标题信息、摘要信息、作者信息和内容信息中的至少一种,确定待分析文本的语义特征。
基于上述任一实施例,图3为本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(Processor)310、通信接口(Communications Interface)320、存储器(Memory)330和通信总线(Communications Bus)340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑命令,以执行如下方法:
确定待分类文本的语义特征;基于语义特征,以及多个候选标签的分类特征,确定待分类文本的分类标签;其中,任一候选标签的分类特征是基于任一候选标签,以及任一候选标签与其他候选标签之间的关联确定的。
此外,上述的存储器330中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
确定待分类文本的语义特征;基于语义特征,以及多个候选标签的分类特征,确定待分类文本的分类标签;其中,任一候选标签的分类特征是基于任一候选标签,以及任一候选标签与其他候选标签之间的关联确定的。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
确定待分类文本的语义特征;
基于所述语义特征,以及多个候选标签的分类特征,确定所述待分类文本的分类标签;
其中,任一候选标签的分类特征是基于所述任一候选标签,以及所述任一候选标签与其他候选标签之间的关联确定的。
2.根据权利要求1所述的文本分类方法,其特征在于,所述分类特征的确定方法包括:
基于各个候选标签,以及各个候选标签之间的关联,建立候选标签关联图;
将所述候选标签关联图输入至标签特征提取模型,得到所述标签特征提取模型输出的各个候选标签的分类特征。
3.根据权利要求2所述的文本分类方法,其特征在于,所述标签特征提取模型的初始模型为图神经网络模型,所述候选标签关联图的节点为各个候选标签,所述节点之间的边是基于各个候选标签之间的关联概率确定的;
所述关联概率为任一候选标签在多个样本文本中出现时邻接标签同时出现的概率;所述邻接标签为与所述任一候选标签出现在同一样本文本中的其他候选标签。
4.根据权利要求3所述的文本分类方法,其特征在于,所述节点之间的边的确定方法为:
确定各个候选标签之间的关联概率;
基于各个候选标签之间的关联概率,以及每一候选标签与每一邻接标签之间的关联概率,确定每一候选标签与每一邻接标签之间的邻接概率;
基于每一候选标签与每一邻接标签之间的邻接概率,确定所述节点之间的边。
5.根据权利要求4所述的文本分类方法,其特征在于,所述基于各个候选标签之间的关联概率,以及每一候选标签与每一邻接标签之间的关联概率,确定每一候选标签与每一邻接标签之间的邻接概率,包括:
基于各个候选标签之间的关联概率,确定多个分组,以及每一分组对应的分组权重和分组概率区间;
基于每一分组对应的分组概率区间,对每一候选标签与每一邻接标签之间的关联概率进行分组,确定每一候选标签与每一邻接标签之间的关联概率对应的分组权重;
基于每一候选标签与每一邻接标签之间的关联概率对应的分组权重,以及每一候选标签的邻接标签共有概率,确定每一候选标签与每一邻接标签之间的邻接概率。
6.根据权利要求1至5任一项所述的文本分类方法,其特征在于,所述基于所述语义特征,以及多个候选标签的分类特征,确定所述待分类文本的分类标签,包括:
基于所述语义特征与任一候选标签的分类特征,确定所述任一候选标签与所述语义特征之间的相似度;
基于每一候选标签与所述语义特征之间的相似度,确定所述待分类文本的分类标签。
7.根据权利要求1至5任一项所述的文本分类方法,其特征在于,所述确定待分类文本的语义特征,包括:
基于所述待分析文本的标题信息、摘要信息、作者信息和内容信息中的至少一种,确定所述待分析文本的语义特征。
8.一种文本分类装置,其特征在于,包括:
确定单元,用于确定待分类文本的语义特征;
分类单元,用于基于所述语义特征,以及多个候选标签的分类特征,确定所述待分类文本的分类标签;
其中,任一候选标签的分类特征是基于所述任一候选标签,以及所述任一候选标签与其他候选标签之间的关联确定的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本分类方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310369.2A CN112860900B (zh) | 2021-03-23 | 2021-03-23 | 文本分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310369.2A CN112860900B (zh) | 2021-03-23 | 2021-03-23 | 文本分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112860900A true CN112860900A (zh) | 2021-05-28 |
CN112860900B CN112860900B (zh) | 2022-11-04 |
Family
ID=75992455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110310369.2A Active CN112860900B (zh) | 2021-03-23 | 2021-03-23 | 文本分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112860900B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578707A (zh) * | 2022-10-25 | 2023-01-06 | 上海壁仞智能科技有限公司 | 目标识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080027929A1 (en) * | 2006-07-12 | 2008-01-31 | International Business Machines Corporation | Computer-based method for finding similar objects using a taxonomy |
CN107180075A (zh) * | 2017-04-17 | 2017-09-19 | 浙江工商大学 | 文本分类集成层次聚类分析的标签自动生成方法 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN111695052A (zh) * | 2020-06-12 | 2020-09-22 | 上海智臻智能网络科技股份有限公司 | 标签分类方法、数据处理设备、可读存储介质 |
CN112183655A (zh) * | 2020-10-10 | 2021-01-05 | 北京邮电大学 | 文档多标签分类方法和装置 |
-
2021
- 2021-03-23 CN CN202110310369.2A patent/CN112860900B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080027929A1 (en) * | 2006-07-12 | 2008-01-31 | International Business Machines Corporation | Computer-based method for finding similar objects using a taxonomy |
CN107180075A (zh) * | 2017-04-17 | 2017-09-19 | 浙江工商大学 | 文本分类集成层次聚类分析的标签自动生成方法 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN111695052A (zh) * | 2020-06-12 | 2020-09-22 | 上海智臻智能网络科技股份有限公司 | 标签分类方法、数据处理设备、可读存储介质 |
CN112183655A (zh) * | 2020-10-10 | 2021-01-05 | 北京邮电大学 | 文档多标签分类方法和装置 |
Non-Patent Citations (1)
Title |
---|
吴树芳等: "融合用户标签和关系的微博用户相似性度量", 《情报杂志》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578707A (zh) * | 2022-10-25 | 2023-01-06 | 上海壁仞智能科技有限公司 | 目标识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112860900B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
KR20200127020A (ko) | 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 | |
Pathak et al. | Application of deep learning approaches for sentiment analysis | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114048729A (zh) | 医学文献评价方法、电子设备、存储介质和程序产品 | |
Schofield et al. | Identifying hate speech in social media | |
CN112860900B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113849653A (zh) | 一种文本分类方法及装置 | |
Shang et al. | Improved feature weight algorithm and its application to text classification | |
CN116226747A (zh) | 数据分类模型的训练方法、数据分类方法和电子设备 | |
CN110765872A (zh) | 一种基于视觉特征的在线数学教育资源分类方法 | |
CN115797701A (zh) | 目标分类方法、装置、电子设备及存储介质 | |
WO2022148108A1 (en) | Systems, devices and methods for distributed hierarchical video analysis | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
Kusakin et al. | Classification of Short Scientific Texts | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
CN114898426A (zh) | 一种同义标签聚合方法、装置、设备及存储介质 | |
CN113962196A (zh) | 一种简历处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Patentee after: Shanghai Bi Ren Technology Co.,Ltd. Country or region after: China Address before: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Patentee before: Shanghai Bilin Intelligent Technology Co.,Ltd. Country or region before: China |