CN112559750A

CN112559750A - 文本数据的分类方法、装置、非易失性存储介质、处理器

Info

Publication number: CN112559750A
Application number: CN202011522253.7A
Authority: CN
Inventors: 陈海波; 唐光远; 罗琴; 张俊杰; 李润静
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-26
Anticipated expiration: 2040-12-21
Also published as: CN112559750B

Abstract

本发明公开了一种文本数据的分类方法、装置、非易失性存储介质、处理器。其中，该方法包括：对待分类文本数据进行语义表征处理，得到词向量；对上述词向量进行语句级别特征处理，得到文本特征表示；对上述文本特征表示进行分类处理，得到分类结果。本发明解决了现有技术中基于神经网络的分类方法的文本分类效果和分类准确性较差的技术问题。

Description

文本数据的分类方法、装置、非易失性存储介质、处理器

技术领域

本发明涉及文本数据处理领域，具体而言，涉及一种文本数据的分类方法、装置、非易失性存储介质、处理器。

背景技术

随着人工智能的发展，人们更倾向于采用计算机来处理文本数据，文本分类即采用计算机对文本集(或其他实体)按照一定的分类体系或标准进行自动分类标记，它根据一个已经被标注的训练文档集合，找到文档特征和文档类别之间的关系模型，然后利用这种学习得到的关系模型对新的文档进行类别判断，在信息检索、数据挖掘中，文本分类是一项重要且基本的任务。

传统的文本分类方法需要人工来完成，费时费力而且准确性不高，随着机器学习的发展，KNN(邻近算法)、SVM(支持向量机)等算法得到了广泛的应用，但是这些方法虽然在传统人工方法上有了一定提升，但是准确率却不是很高；随着深度学习的不断发展，基于神经网络的分类方法取得了不错的效果，例如，CNN、RNN、TextCNN等神经网络模型，但是上述基于神经网络的分类方法的文本分类效果仍然较差，需要进一度提高分类效果和分类准确性。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本数据的分类方法、装置、非易失性存储介质、处理器，以至少解决现有技术中基于神经网络的分类方法的文本分类效果和分类准确性较差的技术问题。

根据本发明实施例的一个方面，提供了一种文本数据的分类方法，包括：对待分类文本数据进行语义表征处理，得到词向量；对上述词向量进行语句级别特征处理，得到文本特征表示；对上述文本特征表示进行分类处理，得到分类结果。

在一种可选的实施例中，上述文本数据的分类方法还包括：对上述待分类文本数据进行分词处理，得到分词结果；从上述分词结果中去除停用词，得到预处理结果。

在一种可选的实施例中，对上述待分类文本数据进行语义表征处理，得到上述词向量包括：利用第一神经网络模型将上述预处理结果转化成向量形式，得到文本表示的上述词向量，其中，上述第一神经网络模型为多层双向转换解码模型。

在一种可选的实施例中，对上述词向量进行语句级别特征处理，得到上述文本特征表示包括：利用第二神经网络模型对上述词向量进行语句级别特征处理，得到上述文本特征表示，其中，上述第二神经网络模型为句级别的双向反馈网络模型。

在一种可选的实施例中，上述第二神经网络模型包括：至少一个第三神经网络模型、全连接层以及至少一个第四神经网络模型，利用上述第二神经网络模型对上述词向量进行语句级别特征处理，得到上述文本特征表示包括：利用上述至少一个第三神经网络模型对上述词向量进行单词特征编码处理，得到句子特征编码向量，其中，上述至少一个第三神经网络模型为词级别的编码网络模型；利用上述全连接层汇总上述句子特征编码向量，并将上述句子特征编码向量前向传递至上述至少一个第四神经网络模型，其中，上述至少一个第四神经网络模型为词级别的解码网络模型；利用上述至少一个第四神经网络模型对上述句子特征编码向量进行单词特征解码处理，得到上述文本特征表示。

可选的，对上述文本特征表示进行分类处理，得到上述分类结果包括：利用分类器对上述文本特征表示中的每个语句的特征表示进行分类处理，得到每个语句对应类别的概率值；统计每个语句对应类别的概率值，得到上述分类结果。

根据本发明实施例的另一方面，还提供了一种文本数据的分类装置，包括：第一处理模块，用于对待分类文本数据进行语义表征处理，得到词向量；第二处理模块，用于对上述词向量进行语句级别特征处理，得到文本特征表示；第三处理模块，用于对上述文本特征表示进行分类处理，得到分类结果。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，上述存储介质中存储有计算机程序，其中，上述计算机程序被设置为运行时执行任一项中上述的文本数据的分类方法。

根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序被设置为运行时执行任一项中上述的文本数据的分类方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行任一项中上述的文本数据的分类方法。

在本发明实施例中，通过对待分类文本数据进行语义表征处理，得到词向量；对上述词向量进行语句级别特征处理，得到文本特征表示；对上述文本特征表示进行分类处理，得到分类结果，达到了提升文本分类效果的目的，从而实现了增强文本分类的准确性的技术效果，进而解决了现有技术中基于神经网络的分类方法的文本分类效果和分类准确性较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种文本数据的分类方法的流程图；

图2是根据本发明实施例的一种可选的文本数据的分类方法的实现框架示意图；

图3是根据本发明实施例的一种可选的BERT网络模型的结构示意图；

图4是根据本发明实施例的一种单个DPCNN层的结构示意图；

图5是根据本发明实施例的一种文本数据的分类装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种文本数据的分类方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种文本数据的分类方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，对待分类文本数据进行语义表征处理，得到词向量；

步骤S104，对上述词向量进行语句级别特征处理，得到文本特征表示；

步骤S106，对上述文本特征表示进行分类处理，得到分类结果。

可选的，上述待分类数据为网络中的待分类处理，本申请实施例所提供的文本数据的分类方法实质为一种基于多层双向转换解码模型-双向反馈网络模型(即BERT-DPCNN)的文本数据的分类方法。

在一种可选的实施例中，上述文本数据的分类方法还包括：

步骤S202，对上述待分类文本数据进行分词处理，得到分词结果；

步骤S204，从上述分词结果中去除停用词，得到预处理结果。

如图2所示，本申请实施例可以采用文本数据层对待分类文本数据进行预处理，例如，首先对待分类文本数据进行数据清洗，去除一些无效的样本，例如，针对中文文本待分类处理，较为关键的是进行中文分词，得到分词结果，从上述分词结果中去除停用词，例如，通过建立停用词词典，从上述分词结果中去除停用词，得到预处理结果。

在一种可选的实施例中，对上述待分类文本数据进行语义表征处理，得到上述词向量包括：

步骤S302，利用第一神经网络模型将上述预处理结果转化成向量形式，得到文本表示的上述词向量。

可选的，上述第一神经网络模型为多层双向转换解码模型，即BERT网络模型，该BERT网络模型的结构示意图如图3所示，在本申请实施例中，利用BERT网络模型强大的语义表征能力，将上述预处理结果转化成向量形式，得到文本表示的上述词向量。

在本申请实施例中，上述BERT网络模型在是一个双向的Transformer模型，在词向量的训练上有些很好的效果，可以将待分类的文本数据层(即文本数据预处理层)的词转化成向量的形式，得到文本表示的词向量，将词向量输入到DPCNN网络模型中。

在一种可选的实施例中，对上述词向量进行语句级别特征处理，得到上述文本特征表示包括：

步骤S402，利用第二神经网络模型对上述词向量进行语句级别特征处理，得到上述文本特征表示。

可选的，上述第二神经网络模型为句级别的双向反馈网络模型。

在本申请实施例中，在利用BERT网络模型强大的语义表征能力，将上述预处理结果转化成向量形式，得到文本表示的上述词向量之后，利用DPCNN网络模型对上述词向量进行语句级别特征处理，得到上述文本特征表示，最后输入到XGBoost分类器实现文本分类，得到文本的类别。

可选的，上述单独的一个DPCNN层的结构示意图如图4所示，对于其中的细节不过多进行描述，可以参考现有技术实现，需要说明的是，本申请实施例中的DPCNN网络模型相比传统的CNN文本分类模型而言，可以学习到文本数据的语句级别特征，可以捕捉到文本数据的长距离句子之间的依赖关系。

在一种可选的实施例中，上述第二神经网络模型包括：至少一个第三神经网络模型、全连接层以及至少一个第四神经网络模型，利用上述第二神经网络模型对上述词向量进行语句级别特征处理，得到上述文本特征表示包括：

步骤S502，利用上述至少一个第三神经网络模型对上述词向量进行单词特征编码处理，得到句子特征编码向量，其中，上述至少一个第三神经网络模型为词级别的编码网络模型；

步骤S504，利用上述全连接层汇总上述句子特征编码向量，并将上述句子特征编码向量前向传递至上述至少一个第四神经网络模型，其中，上述至少一个第四神经网络模型为词级别的解码网络模型；

步骤S506，利用上述至少一个第四神经网络模型对上述句子特征编码向量进行单词特征解码处理，得到上述文本特征表示。

需要说明的是，传统的DPCNN是一种词级别的深度卷积神经网络，通过简单堆叠卷积模块和下采样层来学习n-gram单词间的语义关系。

但是，本申请实施例中的第二神经网络模型包括：至少一个第三神经网络模型(DPCNN编码层)、全连接层以及至少一个第四神经网络模型(DPCNN解码层)，通过在至少一个第三神经网络模型和至少一个第四神经网络模型之间嵌入了一层全连接层，通过该全连接层负责汇总至少一个第三神经网络模型学习到的n-gram单词特征形成句子特征编码向量，再采用至少一个第四神经网络模型对上述句子特征编码向量进行单词特征解码处理，得到上述文本特征表示。

在本申请实施例中，上述至少一个第三神经网络模型和至少一个第四神经网络模型DPCNN可通过全连接层作为中间媒介层，不停的前向传递和后向反馈来调节词学习特征，这种双向反馈DPCNN网络模型从词级别神经网络升级为句级别的神经网络；对于长段落文本，可以在全连接层的两端并行多个DPCNN，可以学习到更深层次句子与句子之间的依赖关系。

在一种可选的实施例中，对上述文本特征表示进行分类处理，得到上述分类结果包括：

步骤S602，利用分类器对上述文本特征表示中的每个语句的特征表示进行分类处理，得到每个语句对应类别的概率值；

步骤S604，统计每个语句对应类别的概率值，得到上述分类结果。

可选的，在本申请实施例，上述分类器为XGBoost分类器，该XGBoost分类器是一系列分类回归树组合，是一种多分类器。

例如，一个长段落文本通过双向反馈DPCNN之后，输出每个句子的特征表示向量进入到XGBoost分类器，XGBoost会不断进行特征分裂来生产成一颗新树，每颗树都输出分到每个类别的概率值，最后将每棵树对应类别概率值相加，具有最大值的类别为该文本的类别。

可选的，本申请实施例中采用第一神经网络模型，例如，多层双向转换解码模型(BERT网络模型，Bidirectional Encoder Representation from Transformers)的强大语义表征能力，对待分类文本数据进行语义表征处理，得到词向量；再输入到第二神经网络模型，例如，双向反馈网络模型(DPCNN网络模型)进行语句级别特征处理，得到文本特征表示，本申请实施例中提出的双向反馈网络模型DPCNN是对传统DPCNN网络模型进行改进，在至少两个DPCNN网络模型中间嵌入了全连接层，形成了双向反馈模型BiDPCNN。

通过本申请实施例，采用将传统词级DPCNN网络模型转变为句级DPCNN网络模型的处理方式且具有反馈机制，将全连接层作为DPCNN网络模型的中间调节机制，前向传播和后向反馈在全连接层进行调节，优化分类学习的效果，最后采用XGBoost分类器输出分类结果。

本申请实施例相比传统文本分类模型CNN而言，本申请实施例所提供的文本数据的分类方法，不仅可以学习到文本词级的特征，可以捕捉到长文本中的句子与句子之间的依赖关系。

通过本申请实施例，基于BERT-DPCNN的分类技术，避免了传统方法和机器学习方法的缺点，对深度学习方法进行优化和改进，提高了文本分类的效果和文本分类的准确率，解决传统文本分类方法和机器学习方法文本分类效果较差的技术问题。

实施例2

根据本发明实施例，还提供了一种用于实施上述文本数据的分类方法的装置实施例，图5是根据本发明实施例的一种文本数据的分类装置的结构示意图，如图5所示，上述文本数据的分类装置，包括：第一处理模块500、第二处理模块502和第三处理模块504，其中：

第一处理模块500，用于对待分类文本数据进行语义表征处理，得到词向量；第二处理模块502，用于对上述词向量进行语句级别特征处理，得到文本特征表示；第三处理模块504，用于对上述文本特征表示进行分类处理，得到分类结果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，例如，对于后者，可以通过以下方式实现：上述各个模块可以位于同一处理器中；或者，上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是，上述第一处理模块500、第二处理模块502和第三处理模块504对应于实施例1中的步骤S102至步骤S106，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在计算机终端中。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

上述的文本数据的分类装置还可以包括处理器和存储器，上述第一处理模块500、第二处理模块502和第三处理模块504等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元，上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本申请实施例，还提供了一种非易失性存储介质的实施例。可选地，在本实施例中，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行上述任意一种文本数据的分类方法。

可选地，在本实施例中，上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中，上述非易失性存储介质包括存储的程序。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：对待分类文本数据进行语义表征处理，得到词向量；对上述词向量进行语句级别特征处理，得到文本特征表示；对上述文本特征表示进行分类处理，得到分类结果。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：对上述待分类文本数据进行分词处理，得到分词结果；从上述分词结果中去除停用词，得到预处理结果。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：利用第一神经网络模型将上述预处理结果转化成向量形式，得到文本表示的上述词向量，其中，上述第一神经网络模型为多层双向转换解码模型。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：利用第二神经网络模型对上述词向量进行语句级别特征处理，得到上述文本特征表示，其中，上述第二神经网络模型为句级别的双向反馈网络模型。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：利用上述至少一个第三神经网络模型对上述词向量进行单词特征编码处理，得到句子特征编码向量，其中，上述至少一个第三神经网络模型为词级别的编码网络模型；利用上述全连接层汇总上述句子特征编码向量，并将上述句子特征编码向量前向传递至上述至少一个第四神经网络模型，其中，上述至少一个第四神经网络模型为词级别的解码网络模型；利用上述至少一个第四神经网络模型对上述句子特征编码向量进行单词特征解码处理，得到上述文本特征表示。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：利用分类器对上述文本特征表示中的每个语句的特征表示进行分类处理，得到每个语句对应类别的概率值；统计每个语句对应类别的概率值，得到上述分类结果。

根据本申请实施例，还提供了一种处理器的实施例。可选地，在本实施例中，上述处理器用于运行程序，其中，上述程序运行时执行上述任意一种文本数据的分类方法。

根据本申请实施例，还提供了一种电子装置的实施例，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任意一种的文本数据的分类方法。

根据本申请实施例，还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有上述任意一种的文本数据的分类方法步骤的程序。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本数据的分类方法，其特征在于，包括：

对待分类文本数据进行语义表征处理，得到词向量；

对所述词向量进行语句级别特征处理，得到文本特征表示；

对所述文本特征表示进行分类处理，得到分类结果。

2.根据权利要求1所述的文本数据的分类方法，其特征在于，所述文本数据的分类方法还包括：

对所述待分类文本数据进行分词处理，得到分词结果；

从所述分词结果中去除停用词，得到预处理结果。

3.根据权利要求2所述的文本数据的分类方法，其特征在于，对所述待分类文本数据进行语义表征处理，得到所述词向量包括：

利用第一神经网络模型将所述预处理结果转化成向量形式，得到文本表示的所述词向量，其中，所述第一神经网络模型为多层双向转换解码模型。

4.根据权利要求1所述的文本数据的分类方法，其特征在于，对所述词向量进行语句级别特征处理，得到所述文本特征表示包括：

利用第二神经网络模型对所述词向量进行语句级别特征处理，得到所述文本特征表示，其中，所述第二神经网络模型为句级别的双向反馈网络模型。

5.根据权利要求4所述的文本数据的分类方法，其特征在于，所述第二神经网络模型包括：至少一个第三神经网络模型、全连接层以及至少一个第四神经网络模型，利用所述第二神经网络模型对所述词向量进行语句级别特征处理，得到所述文本特征表示包括：

利用所述至少一个第三神经网络模型对所述词向量进行单词特征编码处理，得到句子特征编码向量，其中，所述至少一个第三神经网络模型为词级别的编码网络模型；

利用所述全连接层汇总所述句子特征编码向量，并将所述句子特征编码向量前向传递至所述至少一个第四神经网络模型，其中，所述至少一个第四神经网络模型为词级别的解码网络模型；

利用所述至少一个第四神经网络模型对所述句子特征编码向量进行单词特征解码处理，得到所述文本特征表示。

6.根据权利要求5所述的文本数据的分类方法，其特征在于，对所述文本特征表示进行分类处理，得到所述分类结果包括：

利用分类器对所述文本特征表示中的每个语句的特征表示进行分类处理，得到每个语句对应类别的概率值；

统计每个语句对应类别的概率值，得到所述分类结果。

7.一种文本数据的分类装置，其特征在于，包括：

第一处理模块，用于对待分类文本数据进行语义表征处理，得到词向量；

第二处理模块，用于对所述词向量进行语句级别特征处理，得到文本特征表示；

第三处理模块，用于对所述文本特征表示进行分类处理，得到分类结果。

8.一种非易失性存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的文本数据的分类方法。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至6任一项中所述的文本数据的分类方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的文本数据的分类方法。