具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文本分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端和服务器均可单独用于执行本申请实施例中提供的文本分类方法。
例如,终端获取目标文本,将目标文本输入目标文本分类模型。终端通过目标文本分类模型,对目标文本进行文本特征提取,得到初始文本特征。终端通过目标文本分类模型,基于初始文本特征,构造目标文本的各单词之间的关联度,得到初始结构特征。终端通过目标文本分类模型,对初始文本特征和初始结构特征进行特征聚合,得到初始聚合特征。终端基于初始聚合特征输出目标文本对应的文本分类结果。
终端和服务器也可协同用于执行本申请实施例中提供的文本分类方法。
例如,终端向服务器发送文本分类请求,文本分类请求携带目标文本的文本标识。服务器基于文本标识获取目标文本,将目标文本输入目标文本分类模型。服务器通过目标文本分类模型,对目标文本进行文本特征提取,得到初始文本特征。服务器通过目标文本分类模型,基于初始文本特征,构造目标文本的各单词之间的关联度,得到初始结构特征。服务器通过目标文本分类模型,对初始文本特征和初始结构特征进行特征聚合,得到初始聚合特征。服务器基于初始聚合特征输出目标文本对应的文本分类结果。服务器可以将文本分类结果发送至终端,终端可以将文本分类结果进行展示。
在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于计算机设备为例进行说明,计算机设备可以是终端或服务器,由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。文本分类方法包括以下步骤:
步骤S202,获取目标文本,将目标文本输入目标文本分类模型。
其中,目标文本是指需要进行文本分类的处理,从而确定文本类别的文本,例如,目标文本可以新闻文本、推送文本、课程文本和谚语文本等。目标文本分类模型是指用于对文本进行分类的模型,目标文本分类模型的输入数据是至少一个目标文本,输出数据是每个目标文本分别对应的文本类别。目标文本分类模型是已训练的文本分类模型。
示例性地,计算机设备在本地或从其他设备上获取至少一个目标文本,将目标文本作为目标文本分类模型的输入数据,输入目标文本分类模型。
步骤S204,通过目标文本分类模型,对目标文本进行文本特征提取,得到初始文本特征。
其中,文本特征用于表征文本的语义信息,文本特征包括文本中各单词分别对应的语义特征。初始文本特征是指对目标文本进行文本特征提取得到的文本特征,用于表征目标文本的语义信息。
示例性地,通过目标文本分类模型,对输入目标文本分类模型的目标文本进行文本特征提取操作,得到目标文本对应的初始文本特征。
步骤S206,通过目标文本分类模型,基于初始文本特征,构造目标文本的各单词之间的关联度,得到初始结构特征。
其中,单词之间的关联度是指两个单词之间的关联程度,用于构造目标文本对应的结构特征。结构特征是指由文本中各单词之间的关联程度构成的目标文本对应的结构信息,可以表征目标文本中各单词之间的联系。初始结构特征是基于初始文本特征得到的结构特征。
示例性地,通过目标文本分类模型,基于目标文本对应的初始文本特征,计算目标文本中各个单词之间的关联度,基于各个单词之间的关联度,得到目标文本对应的初始结构特征。
在一个实施例中,对初始文本特征进行特征增强,得到至少一个目标文本特征,目标文本特征包括目标文本的各单词分别对应的单词语义特征。通过特征增强使得目标文本特征的语义表征能力得到增强。从各个目标文本特征中确定参考文本特征,将参考文本特征中各单词对应的单词语义特征分别和其他目标文本特征中各单词对应的单词语义特征进行特征交互,得到目标文本的各单词之间的关联度,基于各个单词之间的关联度,得到目标文本对应的初始结构特征。
步骤S208,通过目标文本分类模型,对初始文本特征和初始结构特征进行特征聚合,得到初始聚合特征。
其中,聚合特征是指由文本特征和结构特征聚合得到的特征,用于表征聚合了目标文本的语义信息和结构信息的高阶特征信息。初始聚合特征是对初始文本特征和初始结构特征进行特征聚合得到的聚合特征。
示例性地,通过目标文本分类模型,对目标文本对应的初始文本特征和初始结构特征进行特征聚合操作,得到目标文本对应的初始聚合特征。
步骤S210,基于初始聚合特征输出目标文本对应的文本分类结果。
其中,文本分类结果是指目标文本对应的文本类别。
示例性地,目标文本分类模型基于目标文本对应的初始聚合特征,处理得到目标文本对应的文本分类结果,并输出文本分类结果。
上述文本分类方法中,通过获取目标文本,将目标文本输入目标文本分类模型;通过目标文本分类模型,对目标文本进行文本特征提取,得到初始文本特征;通过目标文本分类模型,基于初始文本特征,构造目标文本的各单词之间的关联度,得到初始结构特征;通过目标文本分类模型,对初始文本特征和初始结构特征进行特征聚合,得到初始聚合特征;基于初始聚合特征输出目标文本对应的文本分类结果。这样,初始文本特征能够反映目标文本的最基本的语义信息,初始结构特征由目标文本中各个单词之间的关联度构造得到,可以表征目标文本的除语义信息之外的各单词之间的结构信息。聚合目标文本对应的初始文本特征和初始结构特征得到初始聚合特征,也就是,初始聚合特征为聚合了目标文本的语义信息和结构信息的高阶特征信息。由于初始聚合特征充分融合了目标文本的语义信息和结构信息,使得初始聚合特征可以更有效、更准确地反映目标文本的特征信息,使得基于初始聚合特征得到的文本分类结果能够更加准确。
在一个实施例中,通过目标文本分类模型,对目标文本进行文本特征提取,得到初始文本特征,包括:
对目标文本进行特征转换,得到目标文本的各个单词分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征;基于同一单词分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征,得到目标文本对应的文本嵌入特征;对文本嵌入特征进行注意力处理,得到初始文本特征。
其中,特征转换是指将目标文本中的各单词转换为三种不同的向量表示,三种不同的向量表示分别为单词嵌入特征、位置嵌入特征和句子嵌入特征。单词嵌入特征是指目标文本中各单词对应的固定维度的向量表示。位置嵌入特征是指用于表征目标文本中各单词输入顺序的向量表示。句子嵌入特征是指辅助区别句子对中的两个句子的向量表示。注意力处理是指基于多头注意力机制对文本嵌入特征进行数据处理,从多个维度提取文本特征信息,并加强特征信息中较为重要的特征。
示例性地,对目标文本进行特征转换,得到目标文本的各个单词分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征。对各个单词分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征进行加和拼接,得到目标文本对应的文本嵌入特征。对目标文本对应的文本嵌入特征进行注意力处理,得到目标文本对应的初始文本特征。
上述实施例中,目标文本分类模型对目标文本进行特征转换,得到目标文本中各个单词分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征。单词嵌入特征使得不同的单词有不同的向量表示,位置嵌入特征可以指示目标文本中各个单词的输入顺序,当目标文本中出现相同的单词时,可以根据单词的输入顺序将单词区分开,句子嵌入特征可以将目标文本中不同的句子区分开,由单词嵌入特征、位置嵌入特征和句子嵌入特征聚合得到的文本嵌入特征可以全面地反映目标文本中各个单词的特征信息,能够有效提高文本分类的准确性。基于多头注意力机制对文本嵌入特征进行处理得到的初始文本特征能够更加准确地反映目标文本的语义信息,从而提高文本分类的准确性。
在一个实施例中,如图3所示,目标文本分类模型包括结构特征提取层,结构特征提取层包括至少一个文本特征处理通道;通过目标文本分类模型,基于初始文本特征,构造目标文本的各单词之间的关联度,得到初始结构特征,包括:
步骤S302,将初始文本特征输入结构特征提取层,通过各个文本特征处理通道分别对初始文本特征进行数据处理,得到至少一个目标文本特征;目标文本特征包括目标文本的各单词分别对应的单词语义特征。
步骤S304,从各个目标文本特征中确定参考文本特征。
步骤S306,将参考文本特征中各单词对应的单词语义特征分别和其他目标文本特征中各单词对应的单词语义特征进行特征交互,得到目标文本的各单词之间的关联度。
步骤S308,基于目标文本的各单词之间的关联度,得到初始结构特征。
其中,结构特征提取层是指目标文本分类模型中用于提取目标文本结构特征的模型层。文本特征处理通道是指能够对文本特征进行特征处理的通道,用于在初始文本特征的基础上,进一步提取目标文本的各单词对应的不同语义信息。在一个实施例中,文本特征处理通道为可以完成特征提取的模块,例如,MLP网络(Multi-Layer Perceptron,即多层感知器)、BP网络(Back Propagation neural network,即反向传播网络)等。目标文本特征是指文本特征处理通道对初始文本特征进行数据处理后得到的文本特征,用于表征目标文本的各单词分别对应的语义信息。举例说明,若结构特征提取层中有两个文本特征处理通道分别为M1和M2,通过文本特征处理通道M1对初始文本特征X进行数据处理得到目标文本特征X1,通过文本特征处理通道M2对初始文本特征信息X进行数据处理得到目标文本特征X2,X1和X2分别代表目标文本的各单词对应的两组不同的语义信息。
参考文本特征是指在各个目标文本特征中任意选定的目标文本特征。单词语义特征是指目标文本中各个单词分别对应的特征向量,用于表征单词的语义信息。初始结构特征是指基于初始文本特征得到的目标文本对应的结构特征。
示例性地,计算机设备将目标文本对应的初始文本特征输入结构特征提取层中的各个文本特征处理通道对初始文本特征进行数据处理,得到至少一个目标文本特征。从各个目标文本特征中选择至少一个目标文本特征作为参考文本特征,将参考文本特征中各单词对应的单词语义特征分别和其他目标文本特征中各单词对应的单词语义特征进行特征交互,得到目标文本的各单词之间的关联度,基于目标文本各单词之间的关联度,得到目标文本对应的初始结构特征。
在一个实施例中,结构特征提取层中只有一个文本特征处理通道。将初始文本特征输入文本特征处理通道得到一个目标文本特征,可以通过将目标文本特征中各个单词对应的单词语义特征分别和目标文本特征中其他单词对应的单词语义特征进行特征交互,得到目标文本中各个单词之间的关联度,基于目标文本中各单词之间的关联度,得到目标文本对应的初始结构特征。例如,若目标文本特征为X,可以先计算目标文本特征的转置,再将目标文本特征的转置和目标文本特征相乘,对相乘得到结果进行激活处理,得到目标文本对应的初始结构特征。
在一个实施例中,结构特征提取层包括两个文本特征处理通道。如图4所示,若结构特征提取层中使用MLP网络作为文本特征处理通道,并且结构特征提取层中只有两个文本特征处理通道,分别为MLP_1和MLP_2。两个MLP网络的参数大小是一样的,作用也是一致的,区别在于两个MLP网络在训练时参数是独立优化的。若目标文本分类模型的输入数据为文本长度为n的目标文本,n为目标文本中单词数量,此时,输入结构特征提取层的初始文本特征为矩阵Xn×C,C为目标文本中各单词对应的单词语义特征的长度。将初始文本特征X分别输入MLP_1和MLP_2进行特征提取得到目标文本特征X1n×C′和目标文本特征X2n×C′,C′为经过文本特征处理层处理后目标文本中各单词对应的单词语义特征的长度。将目标文本特征X1作为参考文本特征,将参考文本特征中各单词对应的单词语义特征和目标文本特征X2中各单词对应的单词语义特征进行特征交互,得到目标文本的各单词之间的关联度,基于各个单词之间的关联度,得到目标文本对应的初始结构特征。例如,可以将目标文本特征X2的转置矩阵和参考文本特征X1相乘,并采用激活函数softmax对X2的转置矩阵和X1的乘积进行激活处理,得到初始结构特征An×n;也可以计算参考文本特征X1中每个单词的单词语义特征分别和目标文本特征X2中各单词的单词语义特征的特征相似度,将各个特征相似度作为目标文本中各单词之间的关联度,基于各单词之间的关联度,得到初始结构特征An×n,矩阵中第i行第j列的元素为目标文本中第i个单词和第j个单词之间的关联度;等等。相比于只使用一个MLP网络来构造目标文本对应的结构特征,使用两个MLP网络时,针对模型训练,在反向传播过程中X1和X2是独立优化的,能够使得结构特征的优化过程变得容易。在模型完成训练后,两个MLP网络能够有效捕捉各单词对应的不同的语义信息,实现了不同单词之间的高阶信息交互。使用MLP网络能够完成低级特征向高级特征的转化,并且MLP网络能够在空间消耗少且时间复杂度低的情况下完成有效的特征转换。
上述实施例中,使用一个文本特征处理通道对初始文本特征进行处理得到一个目标文本特征,再基于这个目标文本特征得到目标文本对应的初始结构特征,可以提高计算初始结构特征的效率并节约计算机设备的内存资源,从而提高目标文本分类模型的分类效率。使用多个文本特征处理通道分别对初始文本特征进行数据处理可以有效捕捉到目标文本中各个单词对应的不同的单词语义信息,使得基于初始文本特征得到的各个目标文本特征可以更加全面地、充分地反映目标文本中各单词的语义信息。基于各个目标文本特征,计算目标文本中各单词之间的关联度,从而得到目标文本对应的初始结构特征,可见初始结构特征融合了目标文本中各单词对应的不同语义信息,并挖掘了不同单词之间的联系,也就是,基于初始文本特征得到初始结构特征,实现了从低阶特征向高阶特征的转换,初始结构特征能够反映目标文本的高阶特征信息,基于初始结构特征对目标文本进行文本分类,可以有效提高文本分类的准确性。
在一个实施例中,通过目标文本分类模型,对初始文本特征和初始结构特征进行特征聚合,得到初始聚合特征,包括:
融合初始文本特征和初始结构特征,得到第一聚合特征;通过第一激活函数对第一聚合特征进行激活处理,得到第二聚合特征;融合第二聚合特征和初始文本特征,得到第三聚合特征;通过第二激活函数对第三聚合特征进行激活处理,得到初始聚合特征。
其中,第一激活函数是指对第一聚合特征进行激活处理所用到的激活函数。第二激活函数是指对第三聚合特征进行激活处理时所用到的激活函数。聚合特征是指聚合目标文本对应的文本特征和结构特征得到的聚合特征,可以表征从目标文本对应文本特征和结构特征中提取得到的特征信息。初始聚合特征是指由目标文本对应的初始文本特征和初始结构特征聚合得到的聚合特征。
示例性地,计算机设备聚合初始文本特征和初始结构特征得到第一聚合特征。例如,将初始文本特征、初始结构特征和参数矩阵的乘积作为第一聚合特征;将初始文本特征、初始结构特征和参数矩阵的乘积与预设值相乘得到第一聚合特征;等等。采用第一激活函数对第一聚合特征进行激活处理,得到第二聚合特征。为了使得目标文本分类模型提取到的初始聚合特征更加完善,并保证目标文本分类模型不会退化,对第二聚合特征进行残差连接,也就是将第二聚合特征和初始文本特征进行融合操作,得到第三聚合特征。例如,将第二聚合特征和初始文本特征之和作为第三聚合特征;计算第二聚合特征和初始文本特征之和,再将第二聚合特征和初始文本特征之和与预设值相乘得到第三聚合特征;等等。采用第二激活函数对第三聚合特征进行激活处理,得到目标文本对应的初始聚合特征。
上述实施例中,计算机设备聚合初始文本特征和初始结构特征得到第一聚合特征,第一聚合特征能够表征目标文本分类模型在目标文本对应的文本特征和结构特征的基础上提取得到的特征,可以理解,第一聚合特征的计算不仅考虑了目标文本的语义信息,还考虑到了目标文本的结构信息,能够全面地、充分地反映目标文本的特征信息。采用第一激活函数对第一聚合特征进行激活处理,得到第二聚合特征。对第二聚合进行残差连接,也就是将第二聚合特征和初始文本特征进行融合操作得到第三聚合特征,能够使得目标文本分类模型提取到的初始聚合特征更加完善,并保证目标文本分类模型不会退化,从而有效提高文本分类的准确性。
在一个实施例中,可以通过以下公式计算目标文本的第二聚合特征:
f(X,A1)=σ(A1XW1)
其中,f(X,A1)为第二聚合特征,X为目标文本对应的初始文本特征,A1为目标文本对应的初始结构特征,W1为参数矩阵,σ为第一激活函数,A1XW1为第一聚合特征。
在一个实施例中,可以通过以下公式计算目标文本的第三聚合特征:
Y=f(X,A1)+X
其中,Y为第三聚合特征。
在一个实施例中,可以通过以下公式计算目标文本的初始聚合特征:
Y1=Relu(f(X,A1)+X)
其中,Y1为初始聚合特征,Relu为第二激活函数。
在一个实施例中,基于初始聚合特征输出目标文本对应的文本分类结果,包括:
基于初始聚合特征,构造目标文本的各单词之间的关联度,得到目标结构特征;对初始聚合特征和目标结构特征进行特征聚合,得到目标聚合特征;基于目标聚合特征输出目标文本对应的文本分类结果。
其中,目标结构特征是指基于初始聚合特征得到的结构。目标聚合特征是指对初始聚合特征和目标结构特征进行特征聚合得到的聚合特征。
示例性地,在基于初始聚合特征得到目标文本对应的文本分类结果时,可以通过进一步进行结构特征构造和特征聚合,来将初始聚合特征中语义信息和结构信息进行进一步的充分融合,得到在语义和结构上表征能力更强的目标聚合特征,最终基于目标聚合特征得到文本分类结果。
计算机设备具体可以先基于初始聚合特征构造目标文本的各单词之间的关联度,得到目标结构特征,再对初始聚合特征和目标结构特征进行特征聚合,得到目标聚合特征。
在一个实施例中,目标文本分类模型包括两个结构特征提取层。将初始文本特征输入第一结构特征提取层,通过第一结构特征提取层构造目标文本的各单词之间的关联度,得到初始结构特征。对初始文本特征和初始结构特征进行特征聚合,得到初始聚合特征。将初始聚合特征输入第二结构特征提取层,通过第二结构特征提取层构造目标文本的各单词之间的关联度,得到目标结构特征。对初始聚合特征和初始结构特征进行特征聚合,得到目标聚合特征。最终,基于目标聚合特征得到目标文本对应的文本分类结果。
在一个实施例中,将初始聚合特征输入第二结构特征提取层,通过第二结构特征提取层中各个文本特征处理通道分别对初始聚合特征进行数据处理,得到至少一个中间聚合特征,从各个中间聚合特征中确定新的参考聚合特征,将新的参考聚合特征中各单词对应的单词语义特征分别和其他中间聚合特征中各单词对应的单词语义特征进行特征交互,得到各单词之间的关联度,基于各个关联度,得到目标结构特征。聚合初始聚合特征和目标结构特征,得到第一聚合特征,采用第一激活函数对第一聚合特征进行激活处理,得到第二聚合特征,将第二聚合特征和初始聚合特征进行融合操作得到第三聚合特征,采用第二激活函数对第三聚合特征进行激活处理,得到目标文本对应的目标聚合特征。将目标聚合特征输入分类层,得到目标文本对应的文本分类结果。
上述实施例中,基于初始聚合特征再次构造目标文本对应的结构特征,使得目标文本分类模型能够基于不同的结构特征得到聚合特征,可以增强目标文本分类模型的灵活性。聚合了初始聚合特征和目标结构特征得到的目标聚合特征能够更加全面、充分地反映目标文本的特征信息,将目标聚合特征输入分类层得到目标文本对应的文本分类结果,可以有效提高文本、分类的准确性。
在一个实施例中,目标文本分类模型包括文本特征提取层、结构特征提取层、特征聚合层和分类层,文本特征提取层用于提取文本对应的文本特征,结构特征提取层用于提取文本对应的结构特征,特征聚合层用于聚合文本特征和结构特征得到文本对应的聚合特征,分类层用于输出文本对应的文本分类结果。
示例性地,将目标文本输入到目标文本分类模型,目标文本首先输入目标文本分类模型中的文本特征提取层,由文本特征提取层提取目标文本对应的初始文本特征,再将初始文本特征输入结构特征提取层。结构特征提取层接收初始文本特征,并提取目标文本对应的初始结构特征,再将初始结构特征输入特征聚合层。特征聚合层获取初始文本特征和初始结构特征,聚合初始文本特征和初始结构特征得到目标文本对应的初始聚合特征,再将初始聚合特征输入分类层。分类层接收初始聚合特征,基于初始聚合特征得到目标文本对应的文本分类结果,再将文本分类结果输出。
在一个实施例中,目标文本分类模型可以包括依次连接的至少一个组合层,组合层包括依次连接的结构特征提取层和特征聚合层。目标文本输入文本特征提取层,文本特征提取层输出初始文本特征,将初始文本特征输入第一个组合层,第一个组合层输出初始聚合特征,将初始聚合特征输入第二个组合层,第二个组合层输出新的聚合特征,依次类推,最后一个组合层输出最终的聚合特征。将最终的聚合特征输入分类器,得到目标文本对应的文本分类结果。目标文本分类模型输出文本分类结果。
在一个实施例中,特征聚合层为图卷积神经网络。图卷积神经网络是一类非常强大的用于图数据的图神经网络架构。
上述实施例中,通过目标文本分类模型中的文本特征提取层、结构特征提取层、特征聚合层和分类层对目标文本进行层层处理,得到目标文本对应的文本特征、结构特征、聚合特征以及文本分类结果。文本特征能够表征目标文本的语义信息,结构特征可以表征目标文本中各单词之间的结构信息,聚合特征能够表征聚合了语义信息和结构信息的高阶特征信息,可见基于文本特征和结构特征得到的聚合特征能够更加完善、更加全面地反应目标文本的特征信息。分类器基于聚合特征信息得到目标文本对应的文本分类结果,可以有效提高文本分类的准确性。
在一个具体的实施例中,本申请的用户数据处理方法可以应用于对不同领域的新闻报道进行文本分类。如图5所示,文本分类方法包括以下步骤:
1、提取初始文本特征
将B个长度为n的文本输入序列输入到目标文本分类模型。输入嵌入模块首先对文本输入序列中的各个文本进行特征转换,得到各个文本分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征,单词嵌入特征、位置嵌入特征和句子嵌入特征为形状为(1,n,C)的张量。首先对各个单词分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征进行加和拼接,再对加和拼接得到的结果进行层正态化处理、dropout(随机失活)正则化处理得到各个文本对应的文本嵌入特征,层正态化处理能够使得数据满足正态分布,从而可以保证在之后的处理中各参数的梯度相差不会太大,提高模型的收敛性,而正则化处理能够减轻模型训练中的过拟合问题。文本嵌入特征为形状为(1,n,C)的张量,由于文本输入序列中文本的数量为B,因此得到形状为(B,n,C)的张量Z。将Z作为输入传入文本特征提取层,基于多头注意力机制对Z进行处理,得到由各个单词对应的新的向量编码组成的张量Z1。单个自注意力机制中的每一次计算包括三个权重矩阵Wq,Wk,Wv,三个权重矩阵分别和Z线性相乘,得到大小为(B,n,C)的三个矩阵Q、K、V。
计算机设备可以通过以下公式计算Z1:
对张量Z1进行层正态化处理和正则化处理,再输入MLP进行数据处理,对MLP输出的结果进行层正态化处理和正则化处理后得到初始文本特征X,初始文本特征为形状为(B,n,C)的张量。
2、构造图结构并计算初始聚合特征
将初始文本特征X输入第一个组合层,在组合层使用两个MLP网络作为文本特征提取通道对各个文本进行构图操作(结构特征提取),两个文本特征提取通道分别为MLP_1和MLP_2。通过MLP_1和MLP_2分别对初始文本特征进行数据处理,并对处理结果进行标准化和激活处理(Relu激活函数)得到目标文本特征X1和目标文本特征X2,X1和X2均为形状为(B,n,C’)的张量,C’为经过文本特征处理层处理后文本中各单词对应的单词语义特征的长度。基于X1和X2得到目标文本对应的初始结构特征A1,A1为形状为(B,n,n)的张量。聚合初始文本特征X和初始结构特征A1得到聚合特征Y,Y为形状为(B,n,C)的张量。对聚合特征Y进行残差连接,也就是将特征聚合特征和初始文本特征相加,并进行激活处理得到初始聚合特征Y1。
计算机设备可以通过以下公式计算初始结构特征A1:
A1=softmax(X1*X2^T)
计算机设备可以通过以下公式计算聚合特征Y:
Y=f(X,A1)
计算机设备可以通过以下公式计算初始聚合特征Y1:
Y1=Relu(f(X,A1)+X)
3、构造目标结构特征并计算目标聚合特征
将初始聚合特征Y1输入第二个组合层,得到文本对应的目标结构特征A2和目标聚合特征Y2。
计算机设备可以通过以下公式计算目标结构特征A2:
A2=softmax(Y1*Y2^T)
其中,Y1为初始聚合特征Y1输入MLP_1进行数据处理,并对处理结果进行标准化和激活处理(Relu激活函数)得到的输出,标准化处理是指对特征信息进行缩放操作,使不同特征处于同一数值量。Y2为初始聚合特征Y1输入MLP_2进行数据处理,并对处理结果进行标准化和激活处理(Relu激活函数)得到的输出。
计算机设备可以通过以下公式计算目标聚合特征Y2:
Y2=Relu(f(Y1,A2)+Y1)
4、基于目标聚合特征输出文本分类结果
将目标聚合特征输入分类层,将目标聚合特征进行展平处理得到形状为(B,N×C)的张量,将该张量输入MLP_3进行数据处理,并对处理结果进行标准化和激活处理(Relu激活函数)得到形状为(B,C)的张量,将该张量输入MLP_4进行数据处理,并对处理结果进行标准化和激活处理(Softmax激活函数)得到文本分类结果,最后输出文本分类结果。文本分类结果为形状为(B,k)的张量,k为文本类别个数。例如,若目标文本分类模型是用于确定输入文本是否属于“金融”或“体育”类别的机器学习模型,文本输入序列中的每一个文本对应的文本分类结果可以是“金融”标签、“体育”标签或“无”标签。“无”标签表示文本不属于“金融”类别,也不属于“体育”类别。
上述实施例中,目标文本分类模型不仅提取了文本输入序列的文本特征信息,还为每个文本构造了图结构(提取结构特征),图结构可以有效地反应文本中单词与单词之间的结构关系,这样,目标文本分类模型不仅能够学习到文本的语义信息,同时也能考虑到文本的结构信息,有效提高了目标文本分类学习文本表示的效果。同时,使用MLP网络作为文本特征提取通道对初始文本特征进行数据处理,能够完成低级特征向高级特征的转化,并且MLP网络能够在空间消耗少且时间复杂度低的情况下完成有效的特征转换。将文本特征和图结构聚合得到聚合特征,使得文本的语义信息和结构信息能够交互并相互影响,同时,引入残差网络能够使得模型提取得到的特征更加完善,并且能够防止模型退化。基于各个文本对应的目标聚合特征得到各个文本对应的文本分类结果,能够有效提高文本分类的准确性。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本分类方法的文本分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本分类装置实施例中的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种文本分类装置,包括:目标文本获取模块602、文本特征提取模块604、结构特征提取模块606、聚合特征确定模块608和分类结果确定模块610,其中:
目标文本获取模块602,用于获取目标文本,将目标文本输入目标文本分类模型。
文本特征提取模块604,用于通过目标文本分类模型,对目标文本进行文本特征提取,得到初始文本特征。
结构特征提取模块606,用于通过目标文本分类模型,基于初始文本特征,构造目标文本的各单词之间的关联度,得到初始结构特征。
聚合特征确定模块608,用于通过目标文本分类模型,对初始文本特征和初始结构特征进行特征聚合,得到初始聚合特征。
分类结果确定模块610,用于基于初始聚合特征输出目标文本对应的文本分类结果。
上述文本分类装置,通过获取目标文本,将目标文本输入目标文本分类模型;通过目标文本分类模型,对目标文本进行文本特征提取,得到初始文本特征;通过目标文本分类模型,基于初始文本特征,构造目标文本的各单词之间的关联度,得到初始结构特征;通过目标文本分类模型,对初始文本特征和初始结构特征进行特征聚合,得到初始聚合特征;基于初始聚合特征输出目标文本对应的文本分类结果。这样,初始文本特征能够反映目标文本的最基本的语义信息,初始结构特征由目标文本中各个单词之间的关联度构造得到,可以表征目标文本的除语义信息之外的各单词之间的结构信息。聚合目标文本对应的初始文本特征和初始结构特征得到初始聚合特征,也就是,初始聚合特征为聚合了目标文本的语义信息和结构信息的高阶特征信息。由于初始聚合特征充分融合了目标文本的语义信息和结构信息,使得初始聚合特征可以更有效、更准确地反映目标文本的特征信息,使得基于初始聚合特征得到的文本分类结果能够更加准确。
在一个实施例中,文本特征提取模块604还用于:
对目标文本进行特征转换,得到目标文本的各个单词分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征;基于同一单词分别对应的单词嵌入特征、位置嵌入特征和句子嵌入特征,得到目标文本对应的文本嵌入特征;对文本嵌入特征进行注意力处理,得到初始文本特征。
在一个实施例中,结构特征提取模块606还用于:
将初始文本特征输入结构特征提取层,通过各个文本特征处理通道分别对初始文本特征进行数据处理,得到至少一个目标文本特征;目标文本特征包括目标文本的各单词分别对应的单词语义特征;从各个目标文本特征中确定参考文本特征;将参考文本特征中各单词对应的单词语义特征分别和其他目标文本特征中各单词对应的单词语义特征进行特征交互,得到目标文本的各单词之间的关联度;基于目标文本的各单词之间的关联度,得到初始结构特征。
在一个实施例中,聚合特征确定模块608还用于:
融合初始文本特征和初始结构特征,得到第一聚合特征;通过第一激活函数对第一聚合特征进行激活处理,得到第二聚合特征;融合第二聚合特征和初始文本特征,得到第三聚合特征;通过第二激活函数对第三聚合特征进行激活处理,得到初始聚合特征。
在一个实施例中,分类结果确定模块610还用于:
基于初始聚合特征,构造目标文本的各单词之间的关联度,得到目标结构特征;对初始聚合特征和目标结构特征进行特征聚合,得到目标聚合特征;基于目标聚合特征输出目标文本对应的文本分类结果。
在一个实施例中,目标文本分类模型包括文本特征提取层、结构特征提取层、特征聚合层和分类层,文本特征提取层用于提取文本对应的文本特征,结构特征提取层用于提取文本对应的结构特征,特征聚合层用于聚合文本特征和结构特征得到文本对应的聚合特征,分类层用于输出文本对应的文本分类结果。
上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始文本特征、初始结构特征、初始聚合特征、文本分类结果等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7、8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。