CN109948149B - 一种文本分类方法及装置 - Google Patents
一种文本分类方法及装置 Download PDFInfo
- Publication number
- CN109948149B CN109948149B CN201910149829.0A CN201910149829A CN109948149B CN 109948149 B CN109948149 B CN 109948149B CN 201910149829 A CN201910149829 A CN 201910149829A CN 109948149 B CN109948149 B CN 109948149B
- Authority
- CN
- China
- Prior art keywords
- text
- activation function
- connection
- word segmentation
- participles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明涉及计算机技术领域,尤其涉及一种文本分类方法及装置,获取当前层语义模块输入的文本的分词结果中各分词的特征向量;分别确定所述各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置;根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果;将所述文本的新的分词结果作为下一层语义模块的输入;或者,确认当前层为预设层次时,根据所述新的分词结果,以及分类模型,获得所述文本的类别,这样,通过多层语义模块,提高了最终文本划分的准确性,进而提高了文本分类的准确性和效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本分类方法及装置。
背景技术
目前,在进行文本分类等文本理解相关任务时,通常是先对文本进行分词或分字,并训练出相应的模型,基于训练后的模型,对文本进行分类或执行相关任务,但是,现有技术中的方法,主要是按照一定长度的分词或分字方式,确定分词结果,并为模型提供输入特征,这种文本划分方式,得到的分词结果可能不并准确,导致模型的输入特征中会引入噪音特征,降低了模型训练和预测的准确性和效率,增加模型本身的学习难度,进而使得基于训练的模型进行文本分类的准确性较低。
发明内容
本发明实施例提供一种文本分类方法及装置,以解决现有技术中文本划分不准确,降低文本分类的准确性和效率的问题。
本发明实施例提供的具体技术方案如下:
本发明一个实施例提供了一种文本分类方法,包括:
获取当前层语义模块输入的文本的分词结果中各分词的特征向量;
分别确定所述各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置;
根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果;
将所述文本的新的分词结果作为下一层语义模块的输入;或者,
确认当前层为预设层次时,根据所述新的分词结果,以及分类模型,获得所述文本的类别。
本发明另一个实施例提供了一种文本分类装置,包括:
获取模块,用于获取当前层语义模块输入的文本的分词结果中各分词的特征向量;
确定模块,用于分别确定所述各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置;
获得模块,用于根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果;
循环处理模块,用于将所述文本的新的分词结果作为下一层语义模块的输入;或者,
分类模块,用于确认当前层为预设层次时,根据所述新的分词结果,以及分类模型,获得所述文本的类别。
本发明另一个实施例提供了一种电子设备,包括:
至少一个存储器,用于存储程序指令;
至少一个处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述任一种文本分类方法。
本发明另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种文本分类方法的步骤。
本发明实施例中,获取当前层语义模块输入的文本的分词结果中各分词的特征向量;分别确定所述各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置;根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果;将所述文本的新的分词结果作为下一层语义模块的输入;或者,确认当前层为预设层次时,根据所述新的分词结果,以及分类模型,获得所述文本的类别,这样,通过多层语义模块,每层均可以获得不同的特征向量,使得每层模型输入不依赖于底层特征,并且通过多层语义模块对文本不断进行特征提取,提升了模型的可解释性,并且提高了最终文本划分的准确性,进而提高了文本分类的准确性和效率。
附图说明
图1为本发明实施例中文本分类方法流程图;
图2为本发明实施例中语义模块原理示意图;
图3为本发明实施例中文本划分结果的示意图;
图4为本发明实施例中文本分类方法的整体原理示意图;
图5为本发明实施例中文本分类装置结构示意图;
图6为本发明实施例中电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面先对几个概念进行简单介绍:
循环神经网络(Recurrent Neural Network,RNN):是一种节点定向连接成环的人工神经网络,在处理单元之间既有内部的反馈连接又有前馈连接。
加权RNN:本发明实施例中主要为将特征之间连接概率加入RNN计算构成的一种加权的RNN模型。
卷积神经网络(Convolutional Neural Network,CNN):是一种前馈神经网络,可以用于提取卷积特征。
激活函数:为在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,例如包括Tanh函数、Relu函数,其中,Tanh函数用于将数值限定在(-1,1)区间范围内,Relu函数用于将数值小于0的变换为0。
分字:主要表示文本的一种划分形式,将文本按字进行划分。
分词:表示文本的另一种划分形式,是将文本根据一定的规则进行分词处理,便于提取文本的特征,可以获得文本划分后的分词结果。
目前,针对文本分类等文本理解相关任务时,基于任务对文本进行划分,通常是通过统计的方式,对文本进行分词或分字处理,并训练出相应的模型,虽然分字、分词或者是基于二者的多元语言模型(N-Gram)以及其对应的嵌入向量(Embedding)等能够为文本理解任务提供很有用的信息,并训练出不错的模型,但是这些方法都无法避免引入噪音特征,而且通常情况下,噪音特征的量级甚至要远远大于有用特征,引入的噪音特征不仅会降低模型的训练及预测时间,同时还会增大模型本身的学习难度。
传统统计方式中,例如,通常至少会使用分字+3Gram或分词+2Gram的方式为模型提供输入特征,即利用该方式为文本进行划分,例如,针对文本分类问题中:北京天气怎么样?属于天气类。
则对应分字+3Gram为:{北,京,天,气,怎,么,样,?,北京,京天,天气,气怎,怎么,么样,样?,北京天,京天气,天气怎,气怎么,怎么样,么样?}。对应分词+2Gram为:{北京,天气,怎么样,?,北京天气,天气怎么样,怎么样?}。
但是实际上,较为理想的分词结果应该为{北京天气,怎么样,?},可知上述划分得到的分词结果并不准确,而且虽然上述基于分词的2-Gram得到的分词结果中包含了该较为理想的分词结果的特征,但是,同时也引入更多无用的特征,影响模型的训练和判断结果。
并且,现有技术中,对于文本分类等相关任务对应的模型,例如,基于循环神经网络的分类模型,对于循环神经网络,其输入特征通常会更加基础,例如输入特征为,分字{北,京,天,气,怎,么,样,?}或分词{北京,天气,怎么样,?},但是可知这些输入特征并不是较为理想的分词结果,可能会对分类模型的训练以及使用造成影响。并且,现有技术中,当训练多层RNN时,由于不同层间输入结构相同,不同的层都需要对文本的句子内部的语义单元重新学习,每一层都需要重新进行表示,增大了分类模型训练优化难度,进而影响分类模型使用效果,降低了最终分类模型对文本分类的准确性和效率。
因此,本发明实施例中针对上述问题,提出了一种文本分类方法,定义了一种语义模块(Semantic Block),通过多层语义模块的叠加,对文本进行划分,在层间确定相邻分词之间的连接概率和连接概率为0的索引位置,即确定文本内部的语义边界,根据确定的语义边界,对文本进行划分,确定文本的新的分词结果,并作为下一层语义模块的输入,达到预设层次时,根据最终的新的分词结果,以及分类模型,获得文本的类别,这样可以使得分词结果更加符合文本分类任务,减少了噪音特征,并且模型每次输入特征是可变的,不依赖于底层特征,提高了文本分类的准确性和效率,通过层间特征不断提取抽象,也增加了模型本身的可解释性。
需要说明的是,本发明实施例中,本发明实例中文本分类方法可以由智能终端执行,也可以智能终端接收到文本或语音后,发送给服务器,并由服务器对文本进行分类,或者由服务器将语音转换为文本,并对文本进行分类,智能终端与服务器之间可以通过互联网相连,实现相互之间的通信,服务器可以认为是提供相应网络服务的后台服务器,对于这两种方式,本发明实施例中并不进行限制。
参阅图1所示,为本发明实施例中,文本分类方法的流程图,该方法包括:
步骤100:获取当前层语义模块输入的文本的分词结果中各分词的特征向量。
本发明实施例中定义了一种语义模块,可以多层语义模块进行叠加使用,每一层语义模块的输入特征基于上一层语义模块的输出,这样每层语义模块的输入特征是不同的,每一层的输出可以得到一个动态变化的金字塔结构的文本的分词结果。
其中,第一层语义模块输入的文本的分词结果为文本的各分字的集合,即将文本进行分字处理,获得多个分字,将文本的分字作为第一层语义模块的输入。
进一步地,若文本为英文,则第一层语义模块的输入为英文归一化后的单词,也就是说,本发明实施例中,针对中文的文本或者基于英文的文本,在初始输入,即第一层语义模块的输入时,都可以以最基本的字符作为输入,例如中文的分字,或英文归一化后的单词,并且输入的特征通常表示为向量。
步骤110:分别确定各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置。
执行步骤110时,具体包括:
S1、分别将各分词的特征向量输入到预先训练的卷积网络中,获得卷积网络对各特征向量进行特征提取后输出的各特征向量对应的卷积特征。
其中,预先训练的卷积网络,例如可以为大小为2的卷积核的CNN。
S2、分别将各分词中每两个相邻分词的卷积特征,输入到预先训练的全连接网络。
其中,全连接网络输出长度为1,这样通过全连接网络的线性变换后,可以得到一个确定的值。
S3、基于全连接网络,分别将每两个相邻分词的卷积特征映射到预设向量空间,获得全连接网络输出的各一维向量,并将输出的各一维向量,分别作为相应的每两个相邻分词之间的关系权重。
本发明实施例中,将文本的分词结果输入到当前层语义模块,例如,分词结果中有K个分词,则通过CNN对长度为K的输入进行卷积操作,并将每两个相邻分词的卷积特征再通过全连接网络,分别输出长度为1的一维向量,即为相应的每两个相邻分词之间的关系权重,这样,对于K个分词,可以得到K-1个关系权重,例如关系权重可以记为O={o1,o2,…,ok-1}。
当然,确定每两个相邻分词之间的关系权重,并不仅限于使用CNN,也可以使用其它方法计算,只要其最终输出为一个确定的值即可,即最终得到的每两个相邻分词之间的关系权重为一个确定的值。
S4、根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率。
其中,预设激活函数包括第一激活函数和第二激活函数,具体地,例如第一激活函数为Tanh函数,第二激活函数为Relu函数。
则具体地,针对确定相应的每两个相邻分词之间的连接概率,本发明实施例中还提供了一种可能的实施方式,具体包括:
S4.1、将各关系权重,输入到第一激活函数中,通过第一激活函数将各关系权重变换到预设取值范围内。
例如,对于Tanh函数,对应的预设取值范围为(-1,1),则可以将关系权重的取值映射到(-1,1)中。
S4.2、将各变换后的关系权重,输入到第二激活函数中,若确定任意一个变换后的关系权重的取值小于0,则将取值小于0的变换后的关系权重调整为0,若确定变换后的关系权重的取值不小于0,则不进行调整。
即本发明实施例中,第二激活函数的目的是为了将取值小于0的关系权重,调整为0,这样,可以得到取值为0的连接概率,便于后续确定文本的语义边界。
S4.3、将经过第二激活函数调整后的关系权重的取值,作为相应的每两个相邻分词之间的连接概率。
例如,关系权重为O={o1,o2,…,ok-1},第一激活函数为Tanh函数,第二激活函数为Relu函数,则连接概率为J=Relu(Tanh(O))。
本发明实施例中,通过两个不同功能的激活函数,先将关系权重的取值映射到预设取值范围内,然后再将取值小于0的调整为0,这样得到的连接概率的取值为0或者为(0,1)的值。
S5、记录连接概率为0的索引位置。
即记录J=0对应的索引位置,例如记为Index,Index={idx1,idx2,…}。
步骤120:根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定文本的新的分词结果。
执行步骤120时,具体包括:
1)将各分词的特征向量和确定的各连接概率,输入到循环神经网络中,获得循环神经网络基于各特征向量和各连接概率输出的向量表示。
2)根据记录的索引位置,分别获取循环神经网络的相应位置输出的向量表示,并将获取到的各向量表示,作为文本的新的分词结果。
具体地,该循环神经网络RNN在其循环过程中,将上一个状态的结果,根据连接概率进行加权后,然后输入到下一层,例如,上一个状态输出为h,对应连接概率j=0.4,则RNN的下层的初始化输入为0.4h,若连接概率为0,则RNN的下层初始化h全部是0,这样,根据连接概率为0的索引位置,可以确定为文本内部的语义边界,可以抽取对应的索引位置的输出状态的向量表示,作为各个分词。
本发明实施例中,将连接概率加入到循环神经网络RNN中,可以构成一个加权RNN,将连接概率与当前层的分词结果合并,作为该RNN的输入,连接概率为0时,可以认为是一个隐藏的RNN-块(Block),抽取连接概率为0对应的索引位置的隐状态,可以作为文本的新的分词结果,例如,抽取Index对应位置的隐状态,可以记为In={h0,h1,…},将In={h0,h1,…}作为文本的新的分词结果的特征向量。
当然,本发明实施例中,根据分词特征向量和连接概率,获得各向量表示的方式并不仅限于使用RNN,也可以使用其它循环结构的网络,例如(Gated Recurrent Unit,GRU)、长短时记忆网络(Long Short Memory Network,LSTM)等,只要输出为向量的网络结构均可。
进一步地,本发明实施例中还可以设置语义模块叠加的预设层次,若未达到预设层次,则当前层得到的新的分词结果,可以作为下一层语义模块的输入,若达到预设层次,则作为最终的分词结果,可以作为分类模型的输入,从而获取文本的类别,具体地,可以通过判断是否达到预设层次,分别执行以下步骤130和步骤140两种情况。
步骤130:将文本的新的分词结果作为下一层语义模块的输入。
即本发明实施例中,若确定未达到预设层次后,可以将新的分词结果作为下一层语义模块的输入,并继续重复执行上述步骤100-步骤120,直到达到预设层次,这样,最终可以得到更好的分词结果。
步骤140:确认当前层为预设层次时,根据新的分词结果,以及分类模型,获得文本的类别。
其中,预设层次,例如为3层,本发明实施例中并不进行限制,可以根据实际任务需求进行设置。
本发明实施例中,获取当前层语义模块输入的文本的分词结果中各分词的特征向量,确定相邻分词之间的连接概率并记录连接概率为0的索引位置,进而根据连接概率和记录的索引位置,确定文本的新的分词结果,将文本的新的分词结果作为下一层语义模块的输入,迭代多层后,确认当前层为预设层次时,根据新的分词结果,以及分类模型,获得文本的类别,这样,不依赖于底层特征,每层的输入特征向量均是不同的,多层迭代的耗时增加有所降低,通过多层特征的不断提取,也提升了模型的可解释性,并且可以获得更好的分词结果,提高文本划分的准确性,进而提高了文本分类的准确性和效率。
需要说明的是,本发明实施例并不仅限于分类任务,当确认当前层为预设层次时,最终得到的新的分词结果,也可以应用于其它文本语言理解相关任务,本发明实施例中并不进行限制,只要基于本发明实施例中多层语义模块对文本不断划分,得到更好的分词结果,都可以提高最终相应任务的准确性和效率。
基于上述实施例,下面采用具体应用场景对本发明实施例中语义模块进行具体说明,以针对第一层语义模块为例,参阅图2所示,为本发明实施例中语义模块原理示意图。
如图2所示,以文本为“北京天气怎么样?”为例,语义模块的结构具体包括以下几个部分:
1)输入(Input):本发明实施例中第一层语义模块的输入的文本的分词结果为文本的各分字的集合,即输入为{北,京,天,气,怎,么,样,?}。
2)CNN:将文本的各分词的特征向量通过CNN的卷积特征提取和全连接网络Ws∈RK ×1的线性变换,获得每两个相邻分词之间的关系权重。
其中,输入的各分词可以表示为向量,例如,W为分词个数、H为向量的维度,则所有分词对应的向量组成的矩阵可以表示为E∈RW×H,其中H的大小可以根据实际需求进行设置,本发明实施例中并不进行限制。例如,输入的各分词对应的特征向量分别为E′={e1′,e2′,e3′,e4′,e5′,e6′,e7′,e8′},经过CNN和Ws,每两个相邻分词通过Ws得到一个关系权重,其中,图2仅示出了将e1′,e2′输入Ws得到其关系权重的示例,其它未示出,进而得到各每两个相邻分词之间的关系权重分别为O={o1,o2,…,o7}。
3)Tanh:将各关系权重通过Tanh函数,可以变换到(-1,1)取值范围内。
例如,如图2所示,通过Tanh函数变换后的关系权重的取值分别为:
{0.8,-0.2,0.9,-0.6,0.4,0.7,-0.1},这里仅是一种示例性说明。
4)Relu:将取值小于0的调整为0。
例如,如图2所示,通过Relu函数调整后的关系权重的取值分别为:
{0.8,0,0.9,0,0.4,0.7,0}。
本发明实施例中,将通过Relu函数输出的值,作为相应的每两个相邻分词之间的连接概率,即连接概率为J=Relu(Tanh(O))={0.8,0,0.9,0,0.4,0.7,0}。
并同时记录连接概率为0的索引位置,即Index={1,3,6}。
5)RNN:将连接概率输入到RNN中,可以构成一个加权RNN,当连接概率为0时,可以认为构成一个隐藏的RNN-Block,如图2所示,有3个连接概率为0对应的索引位置,相应地可以构成4个隐藏的Block,连接概率为0的索引位置可以认为是文本的语义边界,这样每个Block中,定义了一种更高级的语义单元,可以记为S,可以使用每个Block对应的隐状态来表示该语义单元S。
其中,每层通过RNN划分的Block,即文本划分的段数,依赖于输入的文本特征,并没有固定的值。
本发明实施例中,可以将连接概率为0的索引位置对应的隐状态,作为文本的新的分词结果,即每个Block对应的语义单元为新的分词结果,例如得到的文本的新的分词结果为E″={e1″,e2″,e3″,e4″}。
6)下次输入(Next Input):将当前层输出得到的新的分词结果,作为下一层语义模块的输入,即将E″={e1″,e2″,e3″,e4″}作为下一层的输入。
这样,将新的分词结果作为下一层的输入,重复上述过程,直至达到预设层次,通过多层语义模块的叠加,可以将文本进行不同的划分,较佳地参阅图3所示,为本发明实施例中文本划分结果的示意图,如图3所示,可以将文本划分为不同长度的分词结果,其中,S1、S2、S3分别表示第一、二、三层的隐藏RNN-Block对应的语义单元,即S1对应的分词结果为{北,京,天,气,怎,么,样,?},S2对应的分词结果为{北京,天气,怎么样,?},S3对应的分词结果为{北京天气,怎么样,?},可知,通过多层语义模块的叠加,可以得到一个动态变化的金字塔结构的分词结果,S3对应的分词结果更加符合实际划分要求,提高了文本划分的准确性。
需要说明的是,文本的语义划分是基于相应的任务的,划分结果也与模型的训练程度有关,因此,图3所示的划分结果仅是一种较佳的结果,实际中最终划分的结果也可能并不是如图3所示,但是可知的是,即使可能最终不能划分为{北京天气,怎么样,?},但最终得到的划分结果仍然是对于模型来说是更加准确,得到的效果仍是更好的。
基于上述实施例,下面为本发明实施例中文本分类方法的整体原理进行简单说明,例如,参阅图4所示,为本发明实施例中文本分类方法的整体原理示意图。
如图4所示,以预设层次为3为例,即通过三层语义模块的叠加,具体地:
1)输入文本的分词结果,分别经过语义模块1、语义模块2、语义模块3,得到最终的文本的新的分词结果。
2)确定语义模块3为预设层次,将语义模块3输出的新的分词结果,输入到分类模型,如图4所示,以应用于分类任务,并分类模型基于RNN训练获得,则将语义模块3输出的新的分词结果,输入到RNN中,通过该RNN分类模型,计算最终的隐状态hfinal,即分别计算获得再通过该RNN分类模型中的全连接层(fully connected layers,FC)和softmax函数,可以输出最终预测结果outputfinal,即输出文本的类别。
本发明实施例中语义模块还可以适用于其它文本语言理解相关任务,则可以将语义模块3输出的新的分词结果,输入到相应的任务模型,最终获得预测结果,针对其他任务模型的具体的参数,可以根据实际情况进行设置,本发明实施例中并不进行限制。
基于上述实施例,参阅图5所示,本发明实施例中,文本分类装置具体包括:
获取模块50,用于获取当前层语义模块输入的文本的分词结果中各分词的特征向量;
确定模块51,用于分别确定所述各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置;
获得模块52,用于根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果;
循环处理模块53,用于将所述文本的新的分词结果作为下一层语义模块的输入;或者,
分类模块54,用于确认当前层为预设层次时,根据所述新的分词结果,以及分类模型,获得所述文本的类别。
可选的,分别确定所述各分词的相邻分词之间的连接概率时,确定模块51具体包括:
分别将各分词的特征向量输入到预先训练的卷积网络中,获得所述卷积网络对各特征向量进行特征提取后输出的各特征向量对应的卷积特征;
分别将所述各分词中每两个相邻分词的卷积特征,输入到预先训练的全连接网络;
基于所述全连接网络,分别将每两个相邻分词的卷积特征映射到预设向量空间,获得所述全连接网络输出的各一维向量,并将输出的各一维向量,分别作为相应的每两个相邻分词之间的关系权重;
根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率。
可选的,所述预设激活函数包括第一激活函数和第二激活函数,则根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率时,确定模块51具体用于:
将各关系权重,输入到第一激活函数中,通过第一激活函数将各关系权重变换到预设取值范围内;
将各变换后的关系权重,输入到第二激活函数中,若确定任意一个变换后的关系权重的取值小于0,则将取值小于0的变换后的关系权重调整为0,若确定变换后的关系权重的取值不小于0,则不进行调整;
将经过第二激活函数调整后的关系权重的取值,作为相应的每两个相邻分词之间的连接概率。
可选的,根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果时,获得模块52具体用于:
将各分词的特征向量和确定的各连接概率,输入到循环神经网络中,获得循环神经网络基于各特征向量和各连接概率输出的向量表示;
根据记录的索引位置,分别获取所述循环神经网络的相应位置输出的向量表示,并将获取到的各向量表示,作为所述文本的新的分词结果。
基于上述实施例,参阅图6所示,本发明实施例中,一种电子设备的结构示意图。
本发明实施例提供了一种电子设备,该电子设备可以包括处理器610(CenterProcessing Unit,CPU)、存储器620、输入设备630和输出设备640等,输入设备630可以包括键盘、鼠标、触摸屏等,输出设备640可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器620可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器610提供存储器620中存储的程序指令和数据。在本发明实施例中,存储器620可以用于存储本发明实施例中文本分类方法的程序。
处理器610通过调用存储器620存储的程序指令,处理器610用于按照获得的程序指令执行:
获取当前层语义模块输入的文本的分词结果中各分词的特征向量;
分别确定所述各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置;
根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果;
将所述文本的新的分词结果作为下一层语义模块的输入;或者,
确认当前层为预设层次时,根据所述新的分词结果,以及分类模型,获得所述文本的类别。
可选的,第一层语义模块输入的文本的分词结果为所述文本的各分字的集合。
可选的,分别确定所述各分词的相邻分词之间的连接概率时,处理器610具体用于:
分别将各分词的特征向量输入到预先训练的卷积网络中,获得所述卷积网络对各特征向量进行特征提取后输出的各特征向量对应的卷积特征;
分别将所述各分词中每两个相邻分词的卷积特征,输入到预先训练的全连接网络;
基于所述全连接网络,分别将每两个相邻分词的卷积特征映射到预设向量空间,获得所述全连接网络输出的各一维向量,并将输出的各一维向量,分别作为相应的每两个相邻分词之间的关系权重;
根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率。
可选的,所述预设激活函数包括第一激活函数和第二激活函数,则根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率时,处理器610具体用于:
将各关系权重,输入到第一激活函数中,通过第一激活函数将各关系权重变换到预设取值范围内;
将各变换后的关系权重,输入到第二激活函数中,若确定任意一个变换后的关系权重的取值小于0,则将取值小于0的变换后的关系权重调整为0,若确定变换后的关系权重的取值不小于0,则不进行调整;
将经过第二激活函数调整后的关系权重的取值,作为相应的每两个相邻分词之间的连接概率。
可选的,根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果时,处理器610具体用于:
将各分词的特征向量和确定的各连接概率,输入到循环神经网络中,获得循环神经网络基于各特征向量和各连接概率输出的向量表示;
根据记录的索引位置,分别获取所述循环神经网络的相应位置输出的向量表示,并将获取到的各向量表示,作为所述文本的新的分词结果。
基于上述实施例,本发明实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的文本分类方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种文本分类方法,其特征在于,包括:
获取当前层语义模块输入的文本的分词结果中各分词的特征向量;
分别确定所述各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置;
根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果,具体包括:将各分词的特征向量和确定的各连接概率,输入到循环神经网络中,获得循环神经网络基于各特征向量和各连接概率输出的向量表示;根据记录的索引位置,分别获取所述循环神经网络的相应位置输出的向量表示,并将获取到的各向量表示,作为所述文本的新的分词结果;
将所述文本的新的分词结果作为下一层语义模块的输入;或者,
确认当前层为预设层次时,根据所述新的分词结果,以及分类模型,获得所述文本的类别。
2.如权利要求1所述的方法,其特征在于,第一层语义模块输入的文本的分词结果为所述文本的各分字的集合。
3.如权利要求1所述的方法,其特征在于,分别确定所述各分词的相邻分词之间的连接概率,具体包括:
分别将各分词的特征向量输入到预先训练的卷积网络中,获得所述卷积网络对各特征向量进行特征提取后输出的各特征向量对应的卷积特征;
分别将所述各分词中每两个相邻分词的卷积特征,输入到预先训练的全连接网络;
基于所述全连接网络,分别将每两个相邻分词的卷积特征映射到预设向量空间,获得所述全连接网络输出的各一维向量,并将输出的各一维向量,分别作为相应的每两个相邻分词之间的关系权重;
根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率。
4.如权利要求3所述的方法,其特征在于,所述预设激活函数包括第一激活函数和第二激活函数,则根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率,具体包括:
将各关系权重,输入到第一激活函数中,通过第一激活函数将各关系权重变换到预设取值范围内;
将各变换后的关系权重,输入到第二激活函数中,若确定任意一个变换后的关系权重的取值小于0,则将取值小于0的变换后的关系权重调整为0,若确定变换后的关系权重的取值不小于0,则不进行调整;
将经过第二激活函数调整后的关系权重的取值,作为相应的每两个相邻分词之间的连接概率。
5.一种文本分类装置,其特征在于,包括:
获取模块,用于获取当前层语义模块输入的文本的分词结果中各分词的特征向量;
确定模块,用于分别确定所述各分词的相邻分词之间的连接概率,并记录连接概率为0的索引位置;
获得模块,用于根据确定的各连接概率和记录的索引位置,基于循环神经网络,确定所述文本的新的分词结果,具体用于:将各分词的特征向量和确定的各连接概率,输入到循环神经网络中,获得循环神经网络基于各特征向量和各连接概率输出的向量表示;根据记录的索引位置,分别获取所述循环神经网络的相应位置输出的向量表示,并将获取到的各向量表示,作为所述文本的新的分词结果;
循环处理模块,用于将所述文本的新的分词结果作为下一层语义模块的输入;或者,
分类模块,用于确认当前层为预设层次时,根据所述新的分词结果,以及分类模型,获得所述文本的类别。
6.如权利要求5所述的装置,其特征在于,分别确定所述各分词的相邻分词之间的连接概率时,确定模块具体包括:
分别将各分词的特征向量输入到预先训练的卷积网络中,获得所述卷积网络对各特征向量进行特征提取后输出的各特征向量对应的卷积特征;
分别将所述各分词中每两个相邻分词的卷积特征,输入到预先训练的全连接网络;
基于所述全连接网络,分别将每两个相邻分词的卷积特征映射到预设向量空间,获得所述全连接网络输出的各一维向量,并将输出的各一维向量,分别作为相应的每两个相邻分词之间的关系权重;
根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率。
7.如权利要求6所述的装置,其特征在于,所述预设激活函数包括第一激活函数和第二激活函数,则根据各关系权重,基于预设激活函数,确定相应的每两个相邻分词之间的连接概率时,确定模块具体用于:
将各关系权重,输入到第一激活函数中,通过第一激活函数将各关系权重变换到预设取值范围内;
将各变换后的关系权重,输入到第二激活函数中,若确定任意一个变换后的关系权重的取值小于0,则将取值小于0的变换后的关系权重调整为0,若确定变换后的关系权重的取值不小于0,则不进行调整;
将经过第二激活函数调整后的关系权重的取值,作为相应的每两个相邻分词之间的连接概率。
8.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储程序指令;
至少一个处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述权利要求1-4任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-4中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910149829.0A CN109948149B (zh) | 2019-02-28 | 2019-02-28 | 一种文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910149829.0A CN109948149B (zh) | 2019-02-28 | 2019-02-28 | 一种文本分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109948149A CN109948149A (zh) | 2019-06-28 |
CN109948149B true CN109948149B (zh) | 2020-09-11 |
Family
ID=67008140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910149829.0A Active CN109948149B (zh) | 2019-02-28 | 2019-02-28 | 一种文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109948149B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159433B (zh) * | 2019-08-14 | 2023-07-25 | 广东小天才科技有限公司 | 一种内容定位方法及电子设备 |
CN110795938B (zh) * | 2019-11-11 | 2023-11-10 | 北京小米智能科技有限公司 | 文本序列分词方法、装置及存储介质 |
CN110990569B (zh) * | 2019-11-29 | 2023-11-07 | 百度在线网络技术(北京)有限公司 | 文本聚类方法、装置及相关设备 |
CN111062431A (zh) * | 2019-12-12 | 2020-04-24 | Oppo广东移动通信有限公司 | 图像聚类方法、图像聚类装置、电子设备及存储介质 |
CN111143567B (zh) * | 2019-12-30 | 2023-04-07 | 成都数之联科技股份有限公司 | 一种基于改进神经网络的评论情感分析方法 |
CN111460791B (zh) * | 2020-03-30 | 2023-12-01 | 北京百度网讯科技有限公司 | 文本分类方法、装置、设备以及存储介质 |
CN111737972A (zh) * | 2020-05-20 | 2020-10-02 | 华为技术有限公司 | 人机交互系统中实现自然语言理解的方法和装置 |
US11514699B2 (en) * | 2020-07-30 | 2022-11-29 | International Business Machines Corporation | Text block recognition based on discrete character recognition and text information connectivity |
CN112116391A (zh) * | 2020-09-18 | 2020-12-22 | 北京达佳互联信息技术有限公司 | 多媒体资源投放方法、装置、计算机设备及存储介质 |
CN112988753B (zh) * | 2021-03-31 | 2022-10-11 | 中国建设银行股份有限公司 | 一种数据搜索方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740226A (zh) * | 2016-01-15 | 2016-07-06 | 南京大学 | 使用树形神经网络和双向神经网络实现中文分词 |
CN107392311B (zh) * | 2016-05-17 | 2020-06-30 | 创新先进技术有限公司 | 序列切分的方法和装置 |
CN107145484A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于隐多粒度局部特征的中文分词方法 |
US10217030B2 (en) * | 2017-06-14 | 2019-02-26 | International Business Machines Corporation | Hieroglyphic feature-based data processing |
CN109101480B (zh) * | 2018-06-14 | 2022-09-06 | 华东理工大学 | 一种企业名称的切分方法、装置及计算机可读存储介质 |
-
2019
- 2019-02-28 CN CN201910149829.0A patent/CN109948149B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109948149A (zh) | 2019-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948149B (zh) | 一种文本分类方法及装置 | |
US20210042580A1 (en) | Model training method and apparatus for image recognition, network device, and storage medium | |
US20230100376A1 (en) | Text sentence processing method and apparatus, computer device, and storage medium | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
RU2661750C1 (ru) | Распознавание символов с использованием искусственного интеллекта | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
US10867169B2 (en) | Character recognition using hierarchical classification | |
EP3295381B1 (en) | Augmenting neural networks with sparsely-accessed external memory | |
KR20180062321A (ko) | 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN109918663A (zh) | 一种语义匹配方法、装置及存储介质 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN111783767B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
US10824808B2 (en) | Robust key value extraction | |
CN110110724A (zh) | 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN113486175B (zh) | 文本分类方法、文本分类装置、计算机设备及存储介质 | |
US20220383036A1 (en) | Clustering data using neural networks based on normalized cuts | |
EP4060526A1 (en) | Text processing method and device | |
US20100296728A1 (en) | Discrimination Apparatus, Method of Discrimination, and Computer Program | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |