CN113806536A

CN113806536A - 文本分类方法及其装置、设备、介质、产品

Info

Publication number: CN113806536A
Application number: CN202111075424.0A
Authority: CN
Inventors: 郭东波
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-17
Anticipated expiration: 2041-09-14
Also published as: CN113806536B

Abstract

本申请公开一种文本分类方法及其装置、设备、介质、产品，所述方法包括：获取待分类文本；调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类，获得分类结果，其中，所述文本特征提取模型的训练过程中，包括如下步骤：执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息；执行第二训练任务以在标签监督下，从该标签相应的有标签文本中获取文本特征信息，将文本特征信息与数据分布特征信息合并为联合特征信息进行分类，直至该文本特征提取模型达致收敛状态。本申请对文本特征提取模型进行两阶段训练，能大幅减少对有标签文本的依赖。

Description

文本分类方法及其装置、设备、介质、产品

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本分类方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

NLP(Natural Language Processing,自然语言处理)技术应用广泛，涉及词法分析、句子分析、语义分析、信息抽取等多方面应用及其上游应用。各种神经网络模型不断推陈出新，其基本原理均是基于文本向量化之后所提取的特征信息进行分类处理，由此可见，如何高效地对这些神经网络模型进行训练，关系到NLP技术领域的发展。

采用两阶段进行NLP(Natural Language Processing,自然语言处理)训练任务的方法是近几年来比较流行且效果较好的方法，该方法采用预训练作为第一阶段，产出预训练模型；采用预训练模型作为基座，根据上游任务进一步对预训练模型及上层神经网络的权重进行微调(Fine-tuning)，最终达到完成上游任务的目标。该方法在各项NLP任务上都取得了较好的效果。

但是，该方法没有考虑到上游任务的标注数据是十分稀少的，即便进行人工标注，也会浪费大量的人力成本。因此，如何解决NLP网络模型标注数据稀少的问题，值得探索。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种文本分类方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品，以实现辅助音乐创作。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种文本分类方法，包括如下步骤：

获取待分类文本；

用于调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类，获得分类结果，其中，所述文本特征提取模型的训练过程中，包括如下步骤：

执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息；

执行第二训练任务以在标签监督下，从该标签相应的有标签文本中获取文本特征信息，将文本特征信息与数据分布特征信息合并为联合特征信息进行分类，直至该文本特征提取模型达致收敛状态。

深化的实施例中，执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息，包括如下步骤：

获取训练数据集中的多个无标签文本相对应的多个文本向量矩阵，每个文本向量矩阵派生出多个视图特征信息；

对所述视图特征信息进行特征增强处理，获得每个无标签文本相对应的多个增强特征信息；

对多个无标签文本相对应的所有增强特征信息进行全连接以捕捉异同信息，获得数据分布特征信息。

深化的实施例中，对所述视图特征信息进行数据增强处理，获得每个无标签文本相对应的多个增强特征信息，包括为获得所述增强特征信息而执行的如下任意一种或任意多种特征增强方式：

对视图特征信息之一执行基于将其中部分行向量换位的特征扰动处理；

对视图特征信息之一执行基于将其中部分行向量清零的特征裁剪处理；

对视图特征信息之一执行基于将其中部分列向量清零的特征裁剪处理；

对视图特征信息之一执行基于随机将其中的部分元素清零的特征丢弃处理。

较佳的实施例中，同一文本向量矩阵所派生的多个增强特征信息采用不同的特征增强方式获得。

深化的实施例中，执行第二训练任务的过程包括如下迭代执行直至文本特征提取模型被训练至收敛的步骤：

从训练数据集中的一个有标签文本中提取出其文本特征信息；

将该文本特征信息与第一训练任务获得的数据分布特征信息进行特征拼接，获得联合特征信息；

调用分类模型对所述联合特征信息进行分类，获得分类结果；

根据分类结果与该有标签文本相对应的标签计算分类模型的损失函数值，基于损失函数值反向传播修正文本特征提取模型的权重参数。

具体化的实施例中，所述第一训练任务与第二训练任务为串行结构，第二训练任务依赖于第一训练任务的数据分布特征信息的输入。

较佳的实施例中，所述待分类文本为电商平台中商品标题文本，所述文本特征提取模型用于参与对所述待分类文本的机器翻译、新词发现、命名实体识别、语义识别、分词处理任意一种任务而从所述待分类文本中提取出该任务所需的文本特征信息。

适应本申请的目的之一而提供的一种文本分类装置，包括文本获取模块与文本分类模块，所述文本获取模块，用于获取待分类文本；所述文本分类模块，用于调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类，获得分类结果，其中，所述文本特征提取模型的训练过程中，包括：第一训练模块，用于执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息；第二训练模块，用于执行第二训练任务以在标签监督下，从该标签相应的有标签文本中获取文本特征信息，将文本特征信息与数据分布特征信息合并为联合特征信息进行分类，直至该文本特征提取模型达致收敛状态。

深化的实施例中，所述第一训练模块包括：批量输入子模块，用于获取训练数据集中的多个无标签文本相对应的多个文本向量矩阵，每个文本向量矩阵派生出多个视图特征信息；特征增强子模块，用于对所述视图特征信息进行特征增强处理，获得每个无标签文本相对应的多个增强特征信息；数据分布子模块，用于对多个无标签文本相对应的所有增强特征信息进行全连接以捕捉异同信息，获得数据分布特征信息。

深化的实施例中，所述特征增强子模块，被配置包括为获得所述增强特征信息而执行的如下任意一种或任意多种特征增强方式：对视图特征信息之一执行基于将其中部分行向量换位的特征扰动处理；对视图特征信息之一执行基于将其中部分行向量清零的特征裁剪处理；对视图特征信息之一执行基于将其中部分列向量清零的特征裁剪处理；对视图特征信息之一执行基于随机将其中的部分元素清零的特征丢弃处理。

深化的实施例中，所述第二训练模块包括：后提取子模块，用于从训练数据集中的一个有标签文本中提取出其文本特征信息；特征拼接子模块，用于将该文本特征信息与第一训练任务获得的数据分布特征信息进行特征拼接，获得联合特征信息；联合分类子模块，用于调用分类模型对所述联合特征信息进行分类，获得分类结果；权重修正子模块，用于根据分类结果与该有标签文本相对应的标签计算分类模型的损失函数值，基于损失函数值反向传播修正文本特征提取模型的权重参数。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的文本分类方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的文本分类方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

本申请用于实现对文本进行分类的文本特征提取模型，其训练过程被分解为两个阶段，第一阶段相对应的第一训练任务先利用无标签文本对该模型进行训练，利用无标签文本进行任意形式的数据增强所获得的文本特征信息产生第二阶段所需的数据分布特征信息，实现了对比学习思想的应用，然后，第二阶段相对应的第二训练任务中，由该模型对有标签文本进行特征提取，获得相应的文本特征信息，将这一文本特征信息与所述数据分布特征信息进行融合，获得联合特征信息，然后由分类模型对联合特征信息进行分类，获得分类结果，继而在相应的标签的监督下，使该文本特征模型不断逼近收敛，如此训练直接最终达致收敛，可以看出，由于直接利用数据分布特征信息对有标签文本相对应的文本特征信息进行泛化，可以摆脱对海量有标签训练样本的依赖，并且可使模型快速收敛，训练成本低，训练效率却明显提升。

此外，由于本申请的文本特征模型的主要功能在于实现对文本的语义特征提取，提取而得的文本特征信息适于服务于自然语言处理技术相关的各种应用场景，因此，其普适性强，具有广阔的应用前景。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请所适应的自然语言处理场景中的基础网络架构的原理框图；

图2为本申请的文本分类方法的典型实施例的流程示意图；

图3为本申请的文本特征提取模型两阶段训练任务过程所涉的基础网络架构及其各逻辑部件之间逻辑关系示意图；

图4为本申请实施例中对无标签文本进行特征增强过程的流程示意图；

图5为本申请实施例中第一训练任务实施过程中的预训练网络架构的原理框图；

图6、7、8、9分别为本申请实施例中各种特征增强效果的示意图；

图10为本申请中第二训练任务的实施过程的流程示意图；

图11为本申请的文本分类装置的原理框图；

图12为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种文本分类方法，可被编程为计算机程序产品，部署于客户端和/或服务器中运行而实现，藉此，客户端可以网页程序或应用程序的形式访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程实现人机交互。

本申请所实现的功能在于实现对文本进行分类，属于自然语言处理技术中的一项基础技术，自然语言处理技术，涉及到词法分析、句子分析、语义分析、信息抽取等方面的功能，这些应用的基础均需要依赖对文本信息的提取，在提取出文本特征信息的基础上对其进行分类，利用分类结果做出差别，获得最终的目标结果。

词法分析方面，主要是为了实现对自然语言进行词汇层面的分析，是NLP的基础性工作，例如对文本进行分词、新词发现、形态分析、词性标注、拼写校正等。

句子分析方面，主要是为了实现对自然语言进行句子层面的分析，包括句法分析和其他句子级别的分析任务，例如对文本进行组块分析、超级标签标注、成分句法分析、依存句法分析、建立语言模型、进行语种识别、句子边界检测等。

语义分析方面，主要是为了实现对给定的文本进行分析和理解，形成能够构成表达语义的形式化表示或分布表示，例如词义消歧、语义角色标注、抽象语义表示分析、一阶谓词逻辑演算、框架语义分析、词汇/句子/段落的向量化表示等。

信息抽取方面，主要是为了从无结构文本中抽取结构化的信息，例如命名实体识别、实体消歧、术语抽取、共指消解、关系抽取、事件抽取、情感分析、意图识别、槽位填充等。

以上均为自然语言处理领域涉及各方面的基础功能及其应用示例，均属于更为贴近技术层面的技术功能，因此，在此基础上，还会派生出更为顶层的、面向用户的具体应用，以便负责顶层任务的处理，向用户提供自然语言处理产品服务。示例而言，这些顶层任务包括但不限于：机器翻译、文本摘要、问答系统、对话系统、阅读理解、自动文章分级、电商平台中的商品对象的标题关键词提取等等。

以上，属于自然语言处理技术的结构中，可以抽取出如图1所示的基于神经网络模型的基础实现架构，该架构包括文本预处理模型、文本特征提取模型，以及分类模型，其中文本预处理模型主要用于根据文本特征提取模型的接口规范所需而实现对文本的预处理，包括数据清洗、分句等，获得格式化文本，所述文本特征提取模型根据其固有的实现逻辑在格式化文本的基础上进行文本特征提取，获得相应的文本特征信息，所述分类模型则对文本特征信息进行分类，获得相应的分类结果。至于这一基础实现架构所能完成的上游任务，主要通过对其中的文本特征模型进行训练来实现的，训练文本特征模型的目的，在于适应具体上游任务所需，对文本进行准确的表示学习，以具有良好的表示学习效果的基础上提出所述文本特征信息，分类模型才能对其进行正确有效的分类。

所述的上游任务，对应所述的顶层任务，是由该训练者赋予的，通过提供相应的文本和标签对所述基础实现架构进行训练，使其最终适应上游任务所需而获得分类结果，例如，本实施例将结合说明的一个应用场景中，该基础实现架构可以用于实现电商平台中对商品对象的标题文本进行分类判别，这种情况下。尽管本申请只给出一个应用场景的具体示例，但应当理解，以上揭示的涉及自然语言处理的各种可能的技术场景，只要其采用到所述的基础实现架构，利用其中的文本特征模型对文本进行语义学习，则均可适应本申请的技术方案来达到执行所述上游任务使文本特征模型实现该上游任务所需的表示学习的功能的目的。

所述的文本特征提取模型，可以涵盖本领域技术人员熟知的各种神经网络模型，以及涵盖其在功能和效果上与本申请的定义相同的神经网络模型，例如，本申请示例性说明所需而提及的Bert模型，是近几年被公认为较为优秀的神经网络模型，即可构成本申请所需的文本特征提取模型。

请参阅图2，在其典型实施例中，该方法通过图1所示的网络架构实施，包括如下步骤：

步骤S1100、获取待分类文本；

示例性的应用场景中，将该基础网络架构用于实现电商平台的商品对象的标题文本的分类。众所周知，电商平台为了管理其商品对象，一般预设有相应的类目树，类目树包含一个或多个层次的类目，为便于理解，本示例性应用场景将以一个层次的类目进行说明。单个层次包括多个类目，因此，所述基础网络架构在本示例性应用场景中，将被训练为适于依据所述的待分类文本而实现商品对象在电商平台的单层级的类目树中的分类，这种示例情况下，所述待分类文本特指所述的电商平台的标题文本。电商平台的标题文本为自身的特色，例如会包含一些产品型号、品牌名称、规格信息等，信息语义分布相对离散，故通过神经网络模型来进行分类识别，效率较高。

即使待分类文本以电商平台中的商品标题文本进行示例，所述基础网络架构中的文本特征模型也比可以扩展更多方面的应用，其所能实现的功能，比之前述示例性应用场景中仅将其用于商品分类更为宽泛，例如，所述文本特征提取模型可以用于参与对所述待分类文本的机器翻译、新词发现、命名实体识别、语义识别、分词处理任意一种任务而从所述待分类文本中提取出该任务所需的文本特征信息，对此，本领域技术人员应当理解，而不应以本申请中的示例性说明限制本申请的创造精神所应涵盖的范围。

步骤S1200、用于调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类，获得分类结果；

所述基础网络架构中的文本特征提取模型，当其被训练完成之后，便能对所述的待分类文本进行特征信息提取，提取出包含所述待分类文本的深层语义特征信息，对其进行分类，相应获得分类结果。例如，本申请示例性的应用场景中，由所述基础网络架构中的分类模型将本质上为电商平台的商品标题文本的待分类文本的文本特征信息进行分类，便可获得单层级类目中的多个分类标签相对应的评分信息，根据该评分信息即判定分数最高的分类标签即为该商品标题文本所属的商品对象的分类标签，将这一分类标签赋值给该商品对象的分类属性，利用分类标签完成对商品对象的标记，即可达到完成分类的目的，体现本申请的基础网络架构的功能。

但是，所述文本特征提取模型常面临标签文本数据较少的困境，因此，需要借助本申请为文本特征提取模型而改进的训练过程来进行训练，使得该文本特征提取模型能够以较低的训练成本以及较高的训练效率，来构造出顶层任务所需的功能。

具体而言，本申请所改进的训练过程，分为两个阶段的训练任务，即第一训练任务和第二训练任务，可以采取多任务运行机制来实现，本实施例中，所述文本特征提取模型的训练过程中，包括如下步骤：

步骤S2100、执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息：

第一训练任务的目的在于利用无标签文本对所述基础网络架构中的所述文本特征提取模型进行单独预训练，使该文本特征提取模型构成一个预训练模型，在第二训练任务中继续微调训练。

为了达成第一训练任务的目的，实施例中，可应用对比学习原理，同一批次的训练中，向文本特征模型输入多个无标签文本，为了实现对比学习，所述多个无标签文可进行数据增强处理，使所述文本特征提取模型针对每个无标签文本均能获得两个以上的文本向量矩阵输入，由于这一文本向量矩阵是同一无标签文本经数据增强获得，无需再行数据增强处理，故也可视为视图特征信息及增强特征信息，在此基础上文本特征提取模型继续抽取深层语义而获得文本特征信息。由此，可以理解，相同无标签文本所派生出的多个文本特征信息更为相近，而不同无标签文本所派生出的多个文本特征信息则差距较大，据此便可根据对比学习原理学习到文本数据的数据分布，从而生成相应的数据分布特征信息，这一数据分布特征信息正应第二训练任务所需，可以用于泛化第二训练任务的文本特征信息，起到等效扩大训练样本量的作用。

本典型实施例中，数据增强一般是基于无标签文本在文本层面预先执行的，本申请后续即将揭示的另一实施例中，数据增强也可以是基于特征层面进行，也即特征增强，相比较本典型实施例，能够进一步取得更为高效的数据分布学习效果，此处暂且不表。

步骤S2200、执行第二训练任务以在标签监督下，从该标签相应的有标签文本中获取文本特征信息，将文本特征信息与数据分布特征信息合并为联合特征信息进行分类，直至该文本特征提取模型达致收敛状态：

执行第二训练任务时，基于整个所述的基础网络架构进行训练，如图3所示的逻辑关系示意图中，所述文本特征信息以多任务的方式被分解为两路执行，一路即按照第一训练任务的逻辑而进行数据分布表示学习，另一路即为顶层任务所需的表示学习，即将所述基础网络架构中的文本特征提取模型训练至收敛状态，使其习得胜任顶层任务所需的表示学习的能力。

为了实施第二训练任务的训练，为所述文本特征提取模型输入有标签文本用于提取其深层语义特征信息，与前述同理，所述标签文本可根据NLP预处理原理进行预处理后输入，文本特征提取模型提取后便获得相应的文本特征信息。

将第二训练任务提取的文本特征信息与第一训练任务中获得的数据分布特征信息进行合并，具体是在特征层面进行拼接，便构成了联合特征信息，然后对其进行分类，便可获取相应的分类结果，根据该分类结果与该有标签文本的标签之间的差值计算损失函数值，利用该损失函数值反向传播修正该文本特征提取模型的权重参数，即可完成一次训练。

所述的联合特征信息，综合了有标签文本的文本特征信息及从无标签文本中提取的个性化的数据分布特征信息，相当于在有标签文本的基础上派生出更多的有数据分布代表性的训练样本，并且这一训练样本均可受该有标签文本的标签的监督实施训练，该标签构成了联合特征信息的分类结果的监督标签。

理论上，第二训练任务每完成一次训练，便可使分类模型的损失函数更逼近收敛状态，因此，循环迭代多次这样的训练，可使文本特征提取模型达致收敛状态，完成第二阶段训练。适应分类模型的特征，其损失函数可为交叉熵损失函数。

由本典型实施例的揭示过程可以看出，本申请用于实现对文本进行分类的文本特征提取模型，其训练过程被分解为两个阶段，第一阶段相对应的第一训练任务先利用无标签文本对该模型进行训练，利用无标签文本数据增强所获得的文本特征信息产生第二阶段所需的数据分布特征信息，实现了对比学习思想的应用，然后，第二阶段相对应的第二训练任务中，由该模型对有标签文本进行特征提取，获得相应的文本特征信息，将这一文本特征信息与所述数据分布特征信息进行融合，获得联合特征信息，然后由分类模型对联合特征信息进行分类，获得分类结果，继而在相应的标签的监督下，使该文本特征模型不断逼近收敛，如此训练直接最终达致收敛，可以看出，由于直接利用数据分布特征信息对有标签文本相对应的文本特征信息进行泛化，可以摆脱对海量有标签训练样本的依赖，并且可使模型快速收敛，训练成本低，训练效率却明显提升。

深化的实施例中，请参阅图4，所述步骤S2100、执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息，包括如下步骤：

步骤S2110、获取训练数据集中的多个无标签文本相对应的多个文本向量矩阵，每个文本向量矩阵派生出多个视图特征信息：

本实施例中，在执行第一训练任务时，对文本特征提取模型进行预训练，通过如图5所示的预训练网络架构来实施，该图中提示，采用训练数据集中的多个无标签文本，例如至少两个每个无标签文本被分句、分词之后构造出相应的文本向量矩阵，其行向量映射无标签文本中的一个分句，其中的元素则指示该分句中的一个分词。由此，对应多个无标签文件可以构造出对应的多个文本向量矩阵，以这些文本向量阵列便构成了不同视图，称为视图特征信息，提供给预训练网络架构中的特征增强子模块处理。可以理解，每个视图特征信息即为一个无标签文本的文本嵌入向量的副本。

步骤S2120、对所述视图特征信息进行特征增强处理，获得每个无标签文本相对应的多个增强特征信息；

所述的特征增强子模块，区别于其他实施例中对无标签文本在文本层面进行数据增强，而对所述视图特征信息在特征层面上进行数据增强即特征增强处理。特征增强的好处在于，其思路更为巧妙，避免在文本层面进行数据增强所造成的语义破坏。示例而言，如果在文本层面随意调整分句中各个分词的顺序，有时候可能导致语义发生较大的改变，例如，“XX手机绚彩款一元抵快递费包邮”，如果在文本层面改变为“一元抵XX绚彩款手机快递费包邮”，则语义会发生较大的改变，从“一元抵快递费”改变为从“一元抵手机”。而在特征层面，通过对文本向量矩阵进行规则操作，更容易避免出现这种情况。

为了实现对所述视图特征信息进行特征增强而获得相应的增强特征信息，采用的方式可以多样化，以下通过各个变通实施例进行说明：

一种变通实施例中，对视图特征信息之一执行基于将其中部分行向量换位的特征扰动处理。具体而言，对于其中任意一个视图特征信息，可以如图6所示，原来按12345排序的行向量，被调整为按照25413的排序，将部分行向量进行换位处理，对应到文本层面，实际上是调整了各个分句的排序关系，由此便获得了相应的增强特征信息。

另一变通实施例中，对视图特征信息之一执行基于将其中部分行向量清零的特征裁剪处理。具体而言，对于其中任意一个视图特征信息，可以如图7所示，将其中灰度部分(图中第2、5行)的行向量裁剪掉，被裁剪部分可以置为0值，通过清零而实现特征裁剪，对应到文本层面，相当于将无标签文本中的一个分句删除。

又一变通实施例中，对视图特征信息之一执行基于将其中部分列向量清零的特征裁剪处理。具体而言，对于其中任意一个视图特征信息，可以如图8所示，将其中灰度部分(图中第1、5列)的列向量裁剪掉，被裁剪部分置0值处理，通过清零而实现特征裁剪，对应到文本层面，等效于统一将无标签文本各分句中位置对应的一列分词删除。

再一变通实施例中，对视图特征信息之一执行基于随机将其中的部分元素清零的特征丢弃处理。具体而言，对于其中任意一个视图特征信息，可以如图9所示，随机选中视图特征信息的矩阵结构中的若干元素，将这些元素置0值实现随机清零，丢弃相应的特征信息。对应到文本层面，起到随机删除文本标签中部分分词的作用。

通过此处多种变通实施例的说明，可以理解，特征增强的方式是多样的，包括但并局限于以上各种方式，但是，较佳而不是禁止的情况下，本申请并不推荐随意对分词进行排序上的换位处理，即在特征增强时尽量避免对视图特征信息的列向量的排序关系进行调整，以避免改变无标签文本的语义。

以上任意一种方式均可实现对视图特征信息进行数据增强，对于同一视图特征信息而言，以上方式可以随机选用，或者指定选用。较佳的实施例中，同一无标签文本的多个视图特征信息可以分别采用不同的特征增强方式进行处理。对此，本领域技术人员可以根据本实施例所揭示原理灵活实施。

步骤S2130、对多个无标签文本相对应的所有增强特征信息进行全连接以捕捉异同信息，获得数据分布特征信息：

为体现对比学习思想，需要通过同一无标签文本的多个经数据增强后的增强特征信息来进行对比，原始输入的文本特征向量经数据增强，在本实施例中具体是经特征增强之后获得的文本向量矩阵被称为增强特征信息，每个原始的文本向量矩阵可以派生出两个或两个以上的所述视图特征信息，从而相应也转换为两个或两个以上的所述增强特征信息。基于同一无标签文本而派生出的多个增强特征信息之间，可以采用相同的增强特征方式获得，也可以采用不同的增强特征处理方式获得。不同无标签文本所派生出的增强特征信息之间，也同样可以采用相同或不同的增强特征处理方式获得。

可以理解，同一无标签文本派生出的多个增强特征信息及其分别进行特征提取之后获得的文本特征信息之间，在特征层面上，两者编码差异较小，而基于不同无标签文本派生出的多个增强特征信息及其分别进行特征提取之后获得的文本特征信息之间在特征层面上两者编码差异较大，据此，这些增强特征信息之中便隐含了个性化的数据分布，便可在后续提取出数据分布特征信息。

在获得多个无标签文本各自的多个增强特征信息，也即所有增强特征信息的基础上，以所述文本特征提取模型对其进行特征提取，获得其相对应的中间特征信息，然后，如图5的预训练网络架构所示，经一个平均池化层进行池化，获得相应的各个文本特征信息。以此为基础，应用前述的对比学习思想，将这些文本特征信息接入全连接层进行全连接，便可获得相应的数据分布特征信息，由该全连接层根据对比学习思想捕捉出相应的异同信息，获得数据分布特征信息，这一数据分布特征信息便可供第二训练任务之用。

图5所示的预训练网络架构，其损失函数如下：

此处的s im()函数为余弦相似度函数；r表示对应的句向量；τ表示温度temperature，是一个超参数，可以控制文本的相似度。i,j为文本特征信息中的坐标信息，N为训练数据集中无标签文本的总量，k在1至2N之间取值。

通过该损失函数计算相应的损失函数值，便可用于修正文本特征提取模型的权重参数。

本实施例通过在特征层面上对无标签文本的文本向量矩阵做数据增强处理，避免了在文本层面做数据增强所带来的语义破坏，并且，可以预见，其运算效率较高，模型更容易收敛。

本实施例的多种变通实施例中，针对多种优选的特征增强处理方式，这些方式更贴合文本的数据分布所需，因此，能进一步提升训练任务的达成效率。

请参阅图10，深化的实施例中，所述步骤S2200、执行第二训练任务的过程包括如下迭代执行直至文本特征提取模型被训练至收敛的步骤：

步骤S2210、从训练数据集中的一个有标签文本中提取出其文本特征信息：

请再参阅图3所示，当执行第二训练任务时，在一个迭代过程中，文本特征提取模型从所述训练数据集的一个有标签文本中提取出其相应的文本特征信息。

步骤S2220、将该文本特征信息与第一训练任务获得的数据分布特征信息进行特征拼接，获得联合特征信息：

进一步，将从有标签文本中提取出的文本特征信息与第一训练任务获得的数据分布特征信息进行简单的特征拼接，便可获得所述的联合特征信息，该联合特征信息改变了有标签文本的文本特征信息，相当于派生出了新一有标签文本，但与原来的有标签文本对应同一训练标签。

步骤S2230、调用分类模型对所述联合特征信息进行分类，获得分类结果：

后续，将所述联合特征信息馈入分类模型，便可由所述分类模型进行分类，获得相应的分类结果。在本申请的示例性应用场景中，这一分类结果可以是对应到电商平台单级类目树的单层次的各个细分类目的概率值，据此可以确定将有标签文本最终分类至何一细分类目。

步骤S2240、根据分类结果与该有标签文本相对应的标签计算分类模型的损失函数值，基于损失函数值反向传播修正文本特征提取模型的权重参数：

所述分类模型是多分类器，故采用交叉熵损失函数即可。应用交叉熵损失函数根据与该有标签文本相对应的标签计算出分类模型的损失函数值，以该损失函数值为基础，反向传播修正文本特征提取模型的权重参数即可。

针对训练数据集中的多个有标签文本进行以上过程的迭代训练，最终将文本特征提取模型训练至收敛状态，即可使文本特征提取模型习得根据待分类文本进行正确分类的能力。本申请的示例性应用场景中，该文本特征提取模型即可用于完成相应的根据商品标题文本进行商品对象分类的功能。

根据以上各实施例的揭示，可以看出，本申请中，所述第一训练任务与第二训练任务可以多任务运行，但存在串行结构，其中，第二训练任务依赖于第一训练任务的数据分布特征信息的输入。

请参阅图11，本申请提供的一种文本分类装置，适应本申请的文本分类方法进行功能化部署，包括文本获取模块1100与文本分类模块1200，所述文本获取模块1100，用于获取待分类文本；所述文本分类模块1200，用于调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类，获得分类结果，其中，所述文本特征提取模型的训练过程中，包括：第一训练模块2100，用于执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息；第二训练模块2200，用于执行第二训练任务以在标签监督下，从该标签相应的有标签文本中获取文本特征信息，将文本特征信息与数据分布特征信息合并为联合特征信息进行分类，直至该文本特征提取模型达致收敛状态。

深化的实施例中，所述第一训练模块2100包括：批量输入子模块，用于获取训练数据集中的多个无标签文本相对应的多个文本向量矩阵，每个文本向量矩阵派生出多个视图特征信息；特征增强子模块，用于对所述视图特征信息进行特征增强处理，获得每个无标签文本相对应的多个增强特征信息；数据分布子模块，用于对多个无标签文本相对应的所有增强特征信息进行全连接以捕捉异同信息，获得数据分布特征信息。

深化的实施例中，所述第二训练模块2200包括：后提取子模块，用于从训练数据集中的一个有标签文本中提取出其文本特征信息；特征拼接子模块，用于将该文本特征信息与第一训练任务获得的数据分布特征信息进行特征拼接，获得联合特征信息；联合分类子模块，用于调用分类模型对所述联合特征信息进行分类，获得分类结果；权重修正子模块，用于根据分类结果与该有标签文本相对应的标签计算分类模型的损失函数值，基于损失函数值反向传播修正文本特征提取模型的权重参数。

为解决上述技术问题，本申请实施例还提供计算机设备。如图12所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种文本分类方法方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的文本分类方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图11中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的文本分类装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的文本分类方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请运用对比学习思想对文本特征提取模型进行两阶段训练，大幅减少对有标签文本的依赖，提升训练效率，使模型更快收敛，节省训练成本，在自然语言处理领域具有广阔的应用前景。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本分类方法，其特征在于，包括如下步骤：

获取待分类文本；

调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类，获得分类结果，其中，所述文本特征提取模型的训练过程中，包括如下步骤：

2.根据权利要求1所述的文本分类方法，其特征在于，执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息，包括如下步骤：

3.根据权利要求2所述的文本分类方法，其特征在于，对所述视图特征信息进行数据增强处理，获得每个无标签文本相对应的多个增强特征信息，包括为获得所述增强特征信息而执行的如下任意一种或任意多种特征增强方式：

4.根据权利要求3所述的文本分类方法，其特征在于，同一文本向量矩阵所派生的多个增强特征信息采用不同的特征增强方式获得。

5.根据权利要求1至4中任意一项所述的文本分类方法，其特征在于，执行第二训练任务的过程包括如下迭代执行直至文本特征提取模型被训练至收敛的步骤：

6.根据权利要求1至4中任意一项所述的文本分类方法，其特征在于，所述第一训练任务与第二训练任务为串行结构，第二训练任务依赖于第一训练任务的数据分布特征信息的输入。

7.根据权利要求1至4中任意一项所述的文本分类方法，其特征在于，所述待分类文本为电商平台中商品标题文本，所述文本特征提取模型用于参与对所述待分类文本的机器翻译、新词发现、命名实体识别、语义识别、分词处理任意一种任务而从所述待分类文本中提取出该任务所需的文本特征信息。

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。