CN113836302A - 文本分类方法、文本分类装置及存储介质 - Google Patents
文本分类方法、文本分类装置及存储介质 Download PDFInfo
- Publication number
- CN113836302A CN113836302A CN202111130538.0A CN202111130538A CN113836302A CN 113836302 A CN113836302 A CN 113836302A CN 202111130538 A CN202111130538 A CN 202111130538A CN 113836302 A CN113836302 A CN 113836302A
- Authority
- CN
- China
- Prior art keywords
- classified
- text
- graph
- vector
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 178
- 239000011159 matrix material Substances 0.000 claims abstract description 88
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 230000004927 fusion Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,提供了一种文本分类方法,包括:基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵;所述图邻接矩阵包括用于表征待分类文本的文本节点与用于表征特征词的词节点;将图邻接矩阵输入至图神经网络,获得每个待分类文本的图隐含向量;根据图隐含向量与待分类文本的语义向量,对待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果。实现了基于文本与文本之间,词与词之间,文本与词之间的关联程度来进行文本分类,极大的增加了待分类文本的有用特征信息,提高了文本分类的准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本分类方法、文本分类装置、计算机设备及存储介质。
背景技术
文本分类是自然语言处理领域中的常见任务,有广泛的应用场景。例如,在各种新闻或社交信息中,都需要进行相应的文本分类。随着机器学习的发展,各种基于卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)的深度学习方法被引入到文本分类领域中,使得文本分类的准确率已经得到了很大提高。但是现有的文本分类模型,着重于对单个文本局部特征的捕捉,例如考虑文本和词,文本和句子之间的隐含特征来对文本进行分类,而并没有考虑到基于整体文本层面,分析文本与文本之间的关联程度。现有技术中基于更高层面、更隐含的信息来进行文本分类的技术手段依然有限,文本分类的准确率仍有较大的提升空间。
发明内容
基于此,有必要针对上述技术问题,提供一种文本分类方法,以解决文本分类方法中文本分类的准确率较低的问题。
本申请实施例的第一方面提供了一种文本分类方法,包括:
基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵;所述图邻接矩阵包括用于表征所述待分类文本的文本节点与用于表征所述特征词的词节点;
将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量;
根据所述图隐含向量与所述待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果,其中,所述语义向量是利用预训练模型对所述待分类文本进行编码得到。
本申请实施例的第二方面提供了一种文本分类装置,包括:
构建模块:用于基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵;
获取模块:用于将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量;
分类模块:用于根据所述图隐含向量与所述待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果。
本申请实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述文本分类方法。
本申请实施例的第四方面提供了一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述文本分类方法。
本申请实施例提供的一种文本分类方法,通过基于待分类文本集合与待分类文本集合中的所有待分类文本的特征词,构建图邻接矩阵,然后将图邻接矩阵输入至图神经网络进行深度学习,可以获得包含各待分类文本之间,各待分类文本与特征词之间以及特征词与特征词之间联系信息的图隐含向量,再结合经过深度学习获得的图隐含向量与待分类文本的语义向量,可以对待分类文本集合中的所有待分类文本进行更精确的类别预测,获得各待分类文本的分类结果。实现了基于文本与文本之间,词与词之间,文本与词之间的关联程度来进行文本分类,极大的增加了待分类文本的有用特征信息,提高了文本分类的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中文本分类方法的一应用环境示意图;
图2是本申请实施例中文本分类方法的实现流程示意图;
图3是本申请一实施例中文本分类装置的一结构示意图;
图4是本申请一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1示出了本申请实施例中文本分类方法的一应用环境示意图,如图1所示,本申请实施例提供的文本分类方法,可应用在如图1的应用环境中,由服务端的服务器执行进行文本分类,将分类结果返回给客户端。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
请参阅图2,图2所示为本申请实施例中文本分类方法的实现流程图,以该方法应用在图1中的服务端的服务器为例进行说明,包括如下步骤:
S11:基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵。
在步骤S11中,图邻接矩阵包括用于表征待分类文本的文本节点与用于表征特征词的词节点。待分类文本集合包括一个或多个待分类文本,待分类文本中包含一个或多个特征词。这里,待分类文本集合中的文本可以是由客户端打包后发送至服务器,由服务器对该待分类文本集合进行文本分类。或者,待分类文本集合中的文本可以是由服务器从本地数据库中按照一定的抽取策略进行文本提取得到。
在实际应用中,待分类文本的特征词可以是通过对待分类文本的内容进行分词得到。作为示例,待分类文本的特征词可以是待分类文本内容进行分词后得到的所有分词内容。
在本实施例中,基于待分类文本集合中的所有待分类文本以及所有待分类文本中的特征词来构建图邻接矩阵,建立文本与文本之间,词语词之间,文本与词之间的联系。
作为一示例,假设共有个Ndoc待分类文本,这Ndoc个待分类文本构成待分类文本集合,Ndoc个待分类文本中共包含Nword个特征词,将每个待分类文本,每个特征词都视作图邻接矩阵的一个节点,待分类文本对应文本节点,特征词对应词节点。构造一个(Ndoc+Nword)*(Ndoc+Nword)大小的图邻接矩阵A,其中,图邻接矩阵A的对应的元素可以通过以下方式计算:
式中,对于任何i,j,由于图邻接矩阵A的对称性,有Ai,j=Aj,i。当节点i和j都是词时,计算的是两个词之间余弦距离Cosin(i,j)作为点(i,j)上的元素值,当节点i表示文本,节点j表示词时,通过TFIDF(i,j)计算点(i,j)上对应的的词在该点对应的文本里的TFIDF值作为该点的元素值,当i和j表示同一个文本或同一个词时,该点元素值取值为1,其他情况元素值均取为0。其中,图邻接矩阵的元素对应图邻接矩阵中的文本节点或词节点。TF-IDF(Term frequency–Inverse document frequency),是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否)。
通过上式计算获得图邻接矩阵A的各元素值,基于获得的元素值构造一个(Ndoc+Nword)*(Ndoc+Nword)大小的图邻接矩阵A。
S12:将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量。
在步骤S12中,图神经网络是一类基于深度学习的处理图域信息的方法。本实施例中应用图神经网络中的图卷积神经网络对图邻接矩阵进行深度学习,获得图邻接矩阵中各文本节点对应的待分类文本的隐含向量,由于图邻接矩阵包括用于表征待分类文本的文本节点,与用于表征特征词的词节点,因此应用图神经网络可以学习到待分类文本之间,特征词之间以及待分类文本与特征词之间的隐含关联信息,最终输出包含这些隐含关联信息的图隐含向量。即最终输出的图隐含向量包含了图邻接矩阵中各节点之间联系,表示出各节点的潜在语义。
在本实施例中,将图邻接矩阵输入到图神经网络后,对图邻接矩阵中的各个节点进行向量初始化,获得一个节点向量初始化后的矩阵,初始化后的矩阵与图邻接矩阵大小相同,然后根据图神经网络的层次对初始化后的矩阵各节点进行迭代更新,最终获得每个待分类文本的图隐含向量。在实际应用场景中,图神经网络的层次可根据实际情况灵活设置,以获得包含较精确的待分类文本的隐含信息为目的设置图神经网络的层次。
作为本申请一实施例,步骤S12包括对所述文本节点和词节点进行节点向量初始化,获得所述图邻接矩阵的特征矩阵;基于所述特征矩阵,获得每个所述待分类文本的图隐含向量。
在本实施例中,特征矩阵即对图邻接矩阵中的各个节点进行向量初始化后获得的矩阵,与图邻接矩阵的大小一致。基于特征矩阵,根据图神经网络的层次通过迭代更新计算最终获得包含每个待分类文本的潜在语义信息的图隐含向量,其中图神经网络的层次可以根据实际情况进行灵活设置。
作为本申请一实施例,基于特征矩阵获得每个待分类文本的图隐含向量,包括:
按照下式计算所述待分类文本集合的图隐含向量:
Hj=AHj-1Wj
式中,A表示所述图邻接矩阵,Hj表示图神经网络第j层输出的图隐含向量,Hj-1表示图神经网络第j-1层输出的图隐含向量,Wj表示第j层的权重,当j=1时,Hj-1=H0,表示特征矩阵;
若所述图神经网络为K层,则根据上式计算获得所述待分类文本集合的图隐含向量HK;
基于所述待分类文本集合的图隐含向量HK,获得所述待分类文本集合中每个所述待分类文本的图隐含向量HK,i;其中,HK,i表示图神经网络第K层第i个节点对应的待分类文本的图隐含向量。
在本实施例中,图隐含向量HK是图邻接矩阵最终获得的各节点的向量表示,将各个节点的信息数字化表示。其中,图隐含向量HK包含了每个文本节点对应的待分类文本的图隐含向量HK,i。在利用图神经网络输出图隐含向量的实际应用场景中,图神经网络包含的层数可以根据实际情况灵活设置,以便输出精确度较高的图隐含向量。
作为本申请一实施例,对所述文本节点和词节点进行节点向量初始化,获得所述图邻接矩阵的特征矩阵,包括:若所述图邻接矩阵的节点为文本节点,则计算获得所述待分类文本的句向量,将所述句向量作为所述文本节点的初始化向量;若所述图邻接矩阵的节点为词节点,则将所述词的词向量作为所述词节点的初始化向量;基于所述句向量和词向量获得所述图邻接矩阵的特征矩阵。
在本实施例中,对图邻接矩阵中的文本节点和词节点进行向量初始化,对于表征待分类文本的文本节点,通过预训练模型对对应的待分类文本进行编码获得待分类文本的句向量,以此作为文本节点的初始化向量。对于表征特征词的词节点,直接将该词节点对应的特征词的词向量作为初始化向量。各节点向量初始化完成后将最终获得的初始化矩阵作为特征矩阵H0。作为一示例,预训练模型可采用预训练的BERT模型,在实际应用场景中,可根据需求选择其他的预训练模型对待分类文本进行编码,例如GPT模型等。
S13:根据所述图隐含向量与所述待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果。
在步骤S13中,待分类文本的语义向量是指通过预训练模型对待分类文本进行编码获得的,用于表示待分类文本的隐含语义信息。
在本实施例中,通过结合每个文本节点对应的待分类文本的图隐含向量和语义向量,可以获得表征各待分类文本的更精确的特征信息的向量表示,基于这个向量表示再对待分类文本进行分类,获得待分类文本集合中所有的待分类文本的分类结果也更加精确。其中,预训练模型可采用预训练的BERT模型,在实际应用场景中,可根据需求选择其他的预训练模型,例如GPT模型等。
在具体实现时,通过设置适当的权重占比将含有待分类文本之间,特征词之间以及待分类文本域特征词之间联系的图隐含向量和包含待分类文本隐含语义信息的语义向量映射到同一向量空间,然后将两向量融合成一个向量,调整图隐含向量和语义向量的权重比例以对待分类文本进行更精确的分类,从而获得更精确的文本分类结果。
作为本申请一实例,步骤S13包括:对所述图隐含向量和所述语义向量进行向量融合,得到所述各待分类文本的向量融合结果;基于所述向量融合结果,利用分类函数对所述待分类文本集合中的所有待分类文本进行类别预测,获得所述待分类文本的分类结果。
在本实施例中,通过全连接层对每个待分类文本对应的图隐含向量和语义向量进行向量融合,即将图隐含向量与语义向量映射到同一向量空间,基于向量融合结果,利用分类函数对待分类文本集合中的所有待分类文本进行类别预测,获得待分类文本的分类结果。
作为本申请一实施例,所述对所述图隐含向量和所述语义向量进行向量融合,得到所述各待分类文本的向量融合结果,包括:
按照下式对对所述图隐含向量和所述语义向量进行向量融合:
Vi=αZi+(1-α)HK,i
式中,Vi表示所述各待分类文本的向量融合结果,Zi表示第i个文本节点对应的待分类文本通过预训练模型进行编码获得的语义向量,α为预先设置的参数,表示所述图隐含向量或所述语义向量的占比,且α∈(0,1)。
在本实施例中,通过图神经网络的全连接层将待分类文本的图隐含向量与其语义向量映射到同一向量空间,在实际应用场景中全连接层可由卷积操作实现。上式中,α表示权重,通过设置α的值可调整待分类文本的图隐含向量和语义向量的占比,且将待分类文本的图隐含向量与语义向量映射到同意向量空间,便于对两向量进行加权平均计算,将两个向量融合成一个向量Vi。向量融合后的获得的向量Vi,同时包含了图隐含向量和表示出的待分类文本的特征信息和语义向量表示出的待分类文本的特征信息,因此可以将图隐含向量与语义向量融合后获得的向量Vi作为用于文本分类的最终目标向量,对待分类文本进行分类计算。
在本实施例中,预训练模型可根据实际应用场景进行选择,并不作限定,本实施例中是应用BERT模型对待分类文本进行编码获得对应的语义向量,在其他应用场景中可以选择其他的预训练模型对待分类文本进行编码。通过公式计算对待分类文本的图隐含向量和语义向量进行向量融合获得向量融合结果,同时考虑到包含待分类文本之间,特征词之间以及待分类文本与特征词之间联系的信息和待分类文本的隐含语义信息,使得用于表示待分类文本的特征信息更加丰富,进而获得的文本分类结果更加精确。
作为本申请一实施例,基于所述向量融合结果,利用分类函数对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果,包括:
按照下式对所有待分类文本的类别概率进行计算:
yi=Softmax(wVi+b)
式中,yi表示第i个文本节点对应的待分类文本的类别概率,w和b分别表示全连接层的权重矩阵和偏置值。其中,w和b是基于上述表征各待分类文本特征信息的向量Vi集合通过计算获得。
选取所述类别概率最大值对应的类别作为所述待分类文本的分类结果。
在本实施例中,基于向量融合结果,即基于融合的待分类文本的图神经网络学习的特征以及其语义特征,利用分类函数计算待分类文本属于各个类别的概率,选取其中概率最大值对应的类别作为待分类文本的分类结果。
需要注意的是,在实际应用场景中,分类函数并不限于Softmax函数,也可采用其他分类函数对文本进行分类,例如对于二分类任务可采用sigmoid函数进行分类。
本申请实施例提供的一种文本分类方法,通过基于待分类文本集合与待分类文本集合中的所有待分类文本的特征词,构建图邻接矩阵,然后将图邻接矩阵输入至图神经网络进行深度学习,可以获得包含各待分类文本之间,各待分类文本与特征词之间以及特征词与特征词之间联系信息的图隐含向量,再结合经过深度学习获得的图隐含向量与待分类文本的语义向量,可以对待分类文本集合中的所有待分类文本进行更精确的类别预测,获得各待分类文本的分类结果。实现了基于文本与文本之间,词与词之间,文本与词之间的关联程度来进行文本分类,极大的增加了待分类文本的有用特征信息,提高了文本分类的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一个实施例中,提供一种文本分类装置300,该文本分类装置与上述实施例中文本分类方法一一对应。如图3所示,该文本分类装置包括构建模块301、获取模块302和分类模块303。各功能模块详细说明如下:
构建模块301:用于基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵。
获取模块302:用于将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量。
分类模块303:用于根据所述图隐含向量与所述待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果。
关于文本分类装置的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储文本分类方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种文本分类方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种文本分类方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵。
将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量。
根据所述图隐含向量与所述待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果。
其中,所述图邻接矩阵包括用于表征所述待分类文本的文本节点与用于表征所述特征词的词节点;所述语义向量是利用预训练模型对所述待分类文本进行编码得到。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵。
将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量。
根据所述图隐含向量与所述待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果。
其中,所述图邻接矩阵包括用于表征所述待分类文本的文本节点与用于表征所述特征词的词节点;所述语义向量是利用预训练模型对所述待分类文本进行编码得到。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵;所述图邻接矩阵包括用于表征所述待分类文本的文本节点与用于表征所述特征词的词节点;
将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量;
根据所述图隐含向量与所述待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果;其中,所述语义向量是利用预训练模型对所述待分类文本进行编码得到。
2.如权利要求1所述的文本分类方法,其特征在于,所述将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量,包括:
对所述文本节点和词节点进行节点向量初始化,获得所述图邻接矩阵的特征矩阵;
基于所述特征矩阵,获得每个所述待分类文本的图隐含向量。
3.如权利要求2所述的文本分类方法,其特征在于,所述对所述文本节点和词节点进行节点向量初始化,获得所述图邻接矩阵的特征矩阵,包括:
若所述图邻接矩阵的节点为文本节点,则计算获得所述待分类文本的句向量,将所述句向量作为所述文本节点的初始化向量;
若所述图邻接矩阵的节点为词节点,则将所述词的词向量作为所述词节点的初始化向量;
基于所述句向量和词向量获得所述图邻接矩阵的特征矩阵。
4.如权利要求2所述的文本分类方法,其特征在于,所述基于所述特征矩阵,获得每个所述待分类文本的图隐含向量,包括:
按照下式计算所述待分类文本集合的图隐含向量:
Hj=AHj-1Wj
式中,A表示所述图邻接矩阵,Hj表示图神经网络第j层输出的图隐含向量,Hj-1表示图神经网络第j-1层输出的图隐含向量,Wj表示第j层的权重,当j=1时,Hj-1=H0,H0用于表示特征矩阵;
若所述图神经网络为K层,则根据上式计算获得所述待分类文本集合的图隐含向量HK;
基于所述待分类文本集合的图隐含向量HK,获得所述待分类文本集合中每个所述待分类文本的图隐含向量HK,i;其中,HK,i表示图神经网络第K层第i个节点对应的待分类文本的图隐含向量。
5.如权利要求1所述的文本分类方法,其特征在于,根据所述图隐含向量与所述各待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果,包括:
对所述图隐含向量和所述语义向量进行向量融合,得到所述各待分类文本的向量融合结果;
基于所述向量融合结果,利用分类函数对所述待分类文本集合中的所有待分类文本进行类别预测,获得所述待分类文本的分类结果。
6.如权利要求5所述的文本分类方法,其特征在于,所述对所述图隐含向量和所述语义向量进行向量融合,得到所述各待分类文本的向量融合结果,包括:
按照下式对对所述图隐含向量和所述语义向量进行向量融合:
Vi=αZi+(1-α)HK,i
式中,Vi表示所述各待分类文本的向量融合结果,Zi表示第i个文本节点对应的待分类文本的语义向量,α为预先设置的参数,表示所述图隐含向量或所述语义向量的占比,且α∈(0,1)。
7.如权利要求5所述的文本分类方法,其特征在于,所述基于所述融合结果,利用分类函数对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果,包括:
按照下式对所有待分类文本的类别概率进行计算:
yi=Softmax(wVi+b)
式中,yi表示第i个文本节点对应的待分类文本的类别概率,w和b分别表示所述向量融合结果的权重矩阵和偏置值;
选取所述类别概率最大值对应的类别作为所述待分类文本的分类结果。
8.一种文本分类装置,其特征在于,包括:
构建模块:用于基于待分类文本集合中的所有待分类文本以及所有待分类文本的特征词,构建图邻接矩阵;
获取模块:用于将所述图邻接矩阵输入至图神经网络,获得每个所述待分类文本的图隐含向量;
分类模块:用于根据所述图隐含向量与所述待分类文本的语义向量,对所述待分类文本集合中的所有待分类文本进行类别预测,获得各待分类文本的分类结果;
其中,所述图邻接矩阵包括用于表征所述待分类文本的文本节点与用于表征所述特征词的词节点;所述语义向量是利用预训练模型对所述待分类文本进行编码得到。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时以实现权利要求1-7任意一项所述的文本分类方法。
10.一个或多个可读存储介质,所述可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1-7任意一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130538.0A CN113836302A (zh) | 2021-09-26 | 2021-09-26 | 文本分类方法、文本分类装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130538.0A CN113836302A (zh) | 2021-09-26 | 2021-09-26 | 文本分类方法、文本分类装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836302A true CN113836302A (zh) | 2021-12-24 |
Family
ID=78970452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111130538.0A Pending CN113836302A (zh) | 2021-09-26 | 2021-09-26 | 文本分类方法、文本分类装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836302A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117149957A (zh) * | 2023-11-01 | 2023-12-01 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125358A (zh) * | 2019-12-17 | 2020-05-08 | 北京工商大学 | 一种基于超图的文本分类方法 |
CN111737474A (zh) * | 2020-07-17 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 业务模型的训练和确定文本分类类别的方法及装置 |
WO2021081945A1 (zh) * | 2019-10-31 | 2021-05-06 | 深圳市欢太科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN112818121A (zh) * | 2021-01-27 | 2021-05-18 | 润联软件系统(深圳)有限公司 | 一种文本分类方法、装置、计算机设备及存储介质 |
-
2021
- 2021-09-26 CN CN202111130538.0A patent/CN113836302A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021081945A1 (zh) * | 2019-10-31 | 2021-05-06 | 深圳市欢太科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN111125358A (zh) * | 2019-12-17 | 2020-05-08 | 北京工商大学 | 一种基于超图的文本分类方法 |
CN111737474A (zh) * | 2020-07-17 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 业务模型的训练和确定文本分类类别的方法及装置 |
CN112818121A (zh) * | 2021-01-27 | 2021-05-18 | 润联软件系统(深圳)有限公司 | 一种文本分类方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
LIANG YAO等: "Graph Convolutional Networks for Text Classification", pages 1 - 9, Retrieved from the Internet <URL:https://arvix.org/abs/1809.05679> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117149957A (zh) * | 2023-11-01 | 2023-12-01 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及介质 |
CN117149957B (zh) * | 2023-11-01 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230025317A1 (en) | Text classification model training method, text classification method, apparatus, device, storage medium and computer program product | |
US20230100376A1 (en) | Text sentence processing method and apparatus, computer device, and storage medium | |
WO2021114625A1 (zh) | 用于多任务场景的网络结构构建方法和装置 | |
US12039280B2 (en) | Multi-turn dialogue response generation with persona modeling | |
WO2021027533A1 (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
US9807473B2 (en) | Jointly modeling embedding and translation to bridge video and language | |
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN113593611B (zh) | 语音分类网络训练方法、装置、计算设备及存储介质 | |
WO2021184902A1 (zh) | 图像分类方法、装置、及其训练方法、装置、设备、介质 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
CN111324696B (zh) | 实体抽取方法、实体抽取模型的训练方法、装置及设备 | |
CN112101042B (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN113627447A (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN109710921B (zh) | 词语相似度的计算方法、装置、计算机设备及存储介质 | |
US20200159828A1 (en) | Robust key value extraction | |
CN111178358A (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN113626610A (zh) | 知识图谱嵌入方法、装置、计算机设备和存储介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN112948584B (zh) | 短文本分类方法、装置、设备以及存储介质 | |
CN113836302A (zh) | 文本分类方法、文本分类装置及存储介质 | |
CN113515625A (zh) | 测试结果分类模型训练方法、分类方法及装置 | |
CN117076946A (zh) | 一种短文本相似度确定方法、装置及终端 | |
CN116975743A (zh) | 行业信息分类方法、装置、计算机设备和存储介质 | |
CN114579876A (zh) | 虚假信息检测方法、装置、设备及介质 | |
CN114898184A (zh) | 模型训练方法、数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |