CN110110088B

CN110110088B - 一种文本分类的方法、系统、设备及计算机可读存储介质

Info

Publication number: CN110110088B
Application number: CN201910412742.8A
Authority: CN
Inventors: 朱芬红; 洪宇; 朱巧明
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2023-11-24
Anticipated expiration: 2039-05-17
Also published as: CN110110088A

Abstract

本申请公开了一种文本分类的方法，包括：接收输入的分类语料；利用分类语料构建多组句对语料；利用分类语料训练预设神经网络，得到文本分类模型；基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练；当双输入二分类模型训练完成后，利用双输入二分类模型对文本分类模型的特征抽取网络进行优化，并利用优化后的文本分类模型对待分类文本进行文本分类。本申请令文本分类模型能更可靠地抽取文本的深层语义特征，进一步提升了文本分类性能，解决了现有技术中基于神经网络的分类难以进一步优化特征抽取网络的问题。本申请同时还提供了一种文本分类的系统、设备及计算机可读存储介质，具有上述有益效果。

Description

一种文本分类的方法、系统、设备及计算机可读存储介质

技术领域

本申请涉及文本分类领域，特别涉及一种文本分类的方法、系统、设备及计算机可读存储介质。

背景技术

文本分类旨在从预定义的类别标签中自动地为给定的文本指派目标标签，是自然语言处理领域中的一项基础任务。文本分类广泛应用于情感分析、问答以及自然语言理解等领域，因此，如何有效提升文本分类性能具有重要的研究价值和意义。

目前，文本分类的研究方法主要集中于基于规则、基于统计学习方法以及基于神经网络三个方面。基于规则的分类方法源于对专家知识的应用，也就是专家对特定语料进行观测并制定刚性规则，从而界定文本的类别。基于规则的方法往往处理速度快、精确度高，但受限于观测样本数据的“小样本”现象，因此在大批量数据上的分类性能较低。基于统计学习方法的分类很大程度上依赖于特征工程，如抽取文本的词性、句法依存以及实体信息等特征，并采用向量空间模型表示这些特征，从而训练支持向量机、最大熵等的分类模型，存在一定的局限性。基于神经网络的分类通常采用低维分布式的词向量表示文本，在通过卷积神经网络或循环神经网络提取文本表示的深层语义时仅从文本自身特征出发，难以进一步优化特征抽取网络。

因此，如何进一步提升文本分类性能是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种文本分类的方法、系统、设备及计算机可读存储介质，用于进一步提升文本分类性能。

为解决上述技术问题，本申请提供一种文本分类的方法，该方法包括：

接收输入的分类语料；

利用所述分类语料构建多组句对语料；其中，所述句对语料为一对属于同一主题或不同主题的语料；

利用所述分类语料训练预设神经网络，得到文本分类模型；

基于所述文本分类模型的特征抽取网络构建双输入二分类模型，并利用所述句对语料对所述双输入二分类模型进行训练；其中，所述双输入二分类模型用于判断所述句对语料是否属于同一主题；

当所述双输入二分类模型训练完成后，利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化，并利用所述优化后的文本分类模型对待分类文本进行文本分类。

可选的，利用所述分类语料构建句对语料，包括：

在所述分类语料的各主题下均随机选取源语句；

在所述源语句所属的主题下选择一个句子与所述源语句组成正例句对语料，在所述分类语料的其他主题下随机选择一个句子与所述源语句组成负例句对语料；

其中，所述正例句对语料与所述负例句对语料的数量相同。

可选的，利用所述分类语料训练预设神经网络，得到文本分类模型，包括：

构建单层卷积神经网络；

利用所述分类语料训练所述单层卷积神经网络；

当所述单层卷积神经网络的损失值和正确率不再变化时，将所述单层卷积神经网络作为所述文本分类模型。

可选的，基于所述文本分类模型的特征抽取网络构建双输入二分类模型，包括：

将所述文本分类模型的特征抽取网络接入所述双输入二分类模型，以使所述双输入二分类模型共享所述文本分类模型的特征抽取网络。

本申请还提供一种文本分类的系统，该系统包括：

接收模块，用于接收输入的分类语料；

句对语料构建模块，用于利用所述分类语料构建多组句对语料；其中，所述句对语料为一对属于同一主题或不同主题的语料；

第一训练模块，用于利用所述分类语料训练预设神经网络，得到文本分类模型；

第二训练模块，用于基于所述文本分类模型的特征抽取网络构建双输入二分类模型，并利用所述句对语料对所述双输入二分类模型进行训练；其中，所述双输入二分类模型用于判断所述句对语料是否属于同一主题；

优化及分类模块，用于当所述双输入二分类模型训练完成后，利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化，并利用所述优化后的文本分类模型对待分类文本进行文本分类。

可选的，所述句对语料构建模块包括：

选取子模块，用于在所述分类语料的各主题下均随机选取源语句；

组队子模块，用于在所述源语句所属的主题下选择一个句子与所述源语句组成正例句对语料，在所述分类语料的其他主题下随机选择一个句子与所述源语句组成负例句对语料；

其中，所述正例句对语料与所述负例句对语料的数量相同。

可选的，所述第一训练模块包括：

构建子模块，用于构建单层卷积神经网络；

训练子模块，用于利用所述分类语料训练所述单层卷积神经网络；

模型确定子模块，用于当所述单层卷积神经网络的损失值和正确率不再变化时，将所述单层卷积神经网络作为所述文本分类模型。

可选的，所述第二训练模块包括：

模型接入子模块，用于将所述文本分类模型的特征抽取网络接入所述双输入二分类模型，以使所述双输入二分类模型共享所述文本分类模型的特征抽取网络。

本申请还提供一种文本分类设备，该文本分类设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述文本分类的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述文本分类的方法的步骤。

本申请所提供文本分类的方法，包括：接收输入的分类语料；利用分类语料构建多组句对语料；其中，句对语料为一对属于同一主题或不同主题的语料；利用分类语料训练预设神经网络，得到文本分类模型；基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练；其中，双输入二分类模型用于判断句对语料是否属于同一主题；当双输入二分类模型训练完成后，利用双输入二分类模型对文本分类模型的特征抽取网络进行优化，并利用优化后的文本分类模型对待分类文本进行文本分类。

本申请所提供的技术方案，通过基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练，然后对文本分类模型的特征抽取网络进行优化，使得文本分类模型能更可靠地抽取文本的深层语义特征，进一步提升了文本分类性能，解决了现有技术中基于神经网络的分类难以进一步优化特征抽取网络的问题。本申请同时还提供了一种文本分类的系统、设备及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种文本分类的方法的流程图；

图2为图1所提供的一种文本分类的方法中S102的一种实际表现方式的流程图；

图3为图1所提供的一种文本分类的方法中S103的一种实际表现方式的流程图；

图4为本申请实施例所提供的一种文本分类的系统的结构图；

图5为本申请实施例所提供的另一种文本分类的系统的结构图；

图6为本申请实施例所提供的一种文本分类设备的结构图。

具体实施方式

本申请的核心是提供一种文本分类的方法、系统、设备及计算机可读存储介质，用于进一步提升文本分类性能。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种文本分类的方法的流程图。

其具体包括如下步骤：

S101：接收输入的分类语料；

基于神经网络的分类通常采用低维分布式的词向量表示文本，在通过卷积神经网络或循环神经网络提取文本表示的深层语义时仅从文本自身特征出发，难以进一步优化特征抽取网络，本申请提供了一种文本分类的方法，用于解决上述问题；

语料，即语言材料，是训练分类模型的基础；分类语料的类别形式可以包括主题、情感倾向以及文本类型等，以主题为例，“去开封应该吃什么”属于食物主题的语料，“榛子怎么吃最好”也是属于食物主题的语料，而“让不让座，都需文明表达”则属于社会主题的语料，等等；

这里提到的接收输入的分类语料，其输入方式具体可以为用户手动输入至系统中，也可以为系统依据输入的指令在指定服务器的指定位置下载得到，还可以为系统依据输入的指令在线查找到需要的分类语料，本申请对分类语料的输入方式不做具体限定，只要能够达到将分类语料输入到系统中的目的即可。

S102：利用分类语料构建多组句对语料；

这里提到的句对语料为一对属于同一主题或不同主题的语料，用于对双输入二分类模型进行训练；

可选的，这里提到的利用分类语料构建句对语料，其具体可以为如图2所示的步骤，下面结合图2进行说明。

请参考图2，图2为图1所提供的一种文本分类的方法中S102的一种实际表现方式的流程图。

其具体包括以下步骤：

S201：在分类语料的各主题下均随机选取源语句；

这里提到的源语句即为被选中的用于组成句对语料的语句。

S202：在源语句所属的主题下选择一个句子与源语句组成正例句对语料，在分类语料的其他主题下随机选择一个句子与源语句组成负例句对语料；

这里提到的正例句对语料即为源语句与选择的语句属于同一个主题的句对语料，负例句对语料即为源语句与选择的语句属于不同主题的句对语料，例如，语句“去开封应该吃什么”和语句“榛子怎么吃最好”为同属于食物主题的句对语料，为正例句对语料；而语句“去开封应该吃什么”和语句“让不让座，都需文明表达”为不属于同一主题的句对语料，为负例句对语料；

正例句对语料与负例句对语料的数量相同，其目的在于另训练后的双输入二分类模型得到的判断结果能够不偏向于正例句对语料或负例句对语料，进而使文本分类结果更为精确。

S103：利用分类语料训练预设神经网络，得到文本分类模型；

这里提到的预设神经网络具体可以为基于卷积神经网络、循环神经网络等的分类网络，本申请对预设神经网络的具体类别不作限定，只要能够达到对输入的待分类文本进行特征抽取和分类的目的即可，用户可根据实际情况进行选择。

S104：基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练；

这里提到的双输入二分类模型用于判断句对语料是否属于同一主题，因为一个句对语料由两个语句组成，故该模型为双输入模型；双输入二分类模型基于文本分类模型的特征抽取网络构建，其目的在于在双输入二分类模型训练完成后，能够对文本分类模型的特征抽取网络进行优化；

可选的，这里提到的基于文本分类模型的特征抽取网络构建双输入二分类模型，其具体可以为：

将文本分类模型的特征抽取网络接入双输入二分类模型，以使双输入二分类模型共享文本分类模型的特征抽取网络。

S105：当双输入二分类模型训练完成后，利用双输入二分类模型对文本分类模型的特征抽取网络进行优化，并利用优化后的文本分类模型对待分类文本进行文本分类。

当双输入二分类模型训练完成后，利用双输入二分类模型对文本分类模型的特征抽取网络进行优化，使得文本分类模型在提取文本表示的深层语义时能够考虑文本所属主题，进而更可靠地抽取文本的深层语义特征，进一步提升了文本分类性能；

可选的，在对该双输入二分类模型进行训练的过程中，还可以先使用难度低的句对语料训练该双输入二分类模型，当模型达到收敛状态时，再使用难度适中的句对语料进行训练，最终使用难度高的句对微调该双输入二分类模型，以使文本分类模型的特征抽取参数在双输入二分类模型的训练中得到了进一步优化，而文本分类模型的分类层参数保持不变。

基于上述技术方案，本申请所提供的一种文本分类的方法，通过基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练，然后对文本分类模型的特征抽取网络进行优化，使得文本分类模型能更可靠地抽取文本的深层语义特征，进一步提升了文本分类性能，解决了现有技术中基于神经网络的分类难以进一步优化特征抽取网络的问题。

针对于上一实施例的步骤S103，其中所描述的利用分类语料训练预设神经网络，得到文本分类模型，当预设神经网络为单层卷积神经网络时，其具体也可以为如图3所示的步骤，下面结合图3进行说明。

请参考图3，图3为图1所提供的一种文本分类的方法中S103的一种实际表现方式的流程图。

其具体包括以下步骤：

S301：构建单层卷积神经网络；

这里选择单层卷积神经网络的目的在于，单层卷积神经网络结构简单，便于构建，对用户的编程能力及建模能力要求较低，进而提高用户友好度。

S302：利用分类语料训练单层卷积神经网络；

S303：当单层卷积神经网络的损失值和正确率不再变化时，将单层卷积神经网络作为文本分类模型。

请参考图4，图4为本申请实施例所提供的一种文本分类的系统的结构图。

该系统可以包括：

接收模块100，用于接收输入的分类语料；

句对语料构建模块200，用于利用分类语料构建多组句对语料；其中，句对语料为一对属于同一主题或不同主题的语料；

第一训练模块300，用于利用分类语料训练预设神经网络，得到文本分类模型；

第二训练模块400，用于基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练；其中，双输入二分类模型用于判断句对语料是否属于同一主题；

优化及分类模块500，用于当双输入二分类模型训练完成后，利用双输入二分类模型对文本分类模型的特征抽取网络进行优化，并利用优化后的文本分类模型对待分类文本进行文本分类。

请参考图5，图5为本申请实施例所提供的另一种文本分类的系统的结构图。

该句对语料构建模块200可以包括：

选取子模块，用于在分类语料的各主题下均随机选取源语句；

组队子模块，用于在源语句所属的主题下选择一个句子与源语句组成正例句对语料，在分类语料的其他主题下随机选择一个句子与源语句组成负例句对语料；

其中，正例句对语料与负例句对语料的数量相同。

该第一训练模块300可以包括：

构建子模块，用于构建单层卷积神经网络；

训练子模块，用于利用分类语料训练单层卷积神经网络；

模型确定子模块，用于当单层卷积神经网络的损失值和正确率不再变化时，将单层卷积神经网络作为文本分类模型。

该第二训练模块400可以包括：

模型接入子模块，用于将文本分类模型的特征抽取网络接入双输入二分类模型，以使双输入二分类模型共享文本分类模型的特征抽取网络。

以上系统中的各个组成部分可实际应用于以下的实施例中：

接收模块接收输入的分类语料；选取子模块在分类语料的各主题下均随机选取源语句；组队子模块在源语句所属的主题下选择一个句子与源语句组成正例句对语料，在分类语料的其他主题下随机选择一个句子与源语句组成负例句对语料；

构建子模块构建单层卷积神经网络；训练子模块利用分类语料训练单层卷积神经网络；当单层卷积神经网络的损失值和正确率不再变化时，模型确定子模块将单层卷积神经网络作为文本分类模型；

第二训练模块基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练；当双输入二分类模型训练完成后，优化及分类模块利用双输入二分类模型对文本分类模型的特征抽取网络进行优化，并利用优化后的文本分类模型对待分类文本进行文本分类。

请参考图6，图6为本申请实施例所提供的一种文本分类设备的结构图。

该文本分类设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在文本分类设备600上执行存储介质630中的一系列指令操作。

文本分类设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图3所描述的文本分类的方法中的步骤由文本分类设备基于该图6所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种文本分类的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种文本分类的方法，其特征在于，包括：

接收输入的分类语料；

利用所述分类语料训练预设神经网络，得到文本分类模型；

当所述双输入二分类模型训练完成后，利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化，并利用所述优化后的文本分类模型对待分类文本进行文本分类；

所述利用所述分类语料训练预设神经网络，得到文本分类模型，包括：

构建单层卷积神经网络；

利用所述分类语料训练所述单层卷积神经网络；

当所述单层卷积神经网络的损失值和正确率不再变化时，将所述单层卷积神经网络作为所述文本分类模型；

利用所述分类语料构建句对语料，包括：

在所述分类语料的各主题下均随机选取源语句；

其中，所述正例句对语料与所述负例句对语料的数量相同；

基于所述文本分类模型的特征抽取网络构建双输入二分类模型，包括：

将所述文本分类模型的特征抽取网络接入所述双输入二分类模型，以使所述双输入二分类模型共享所述文本分类模型的特征抽取网络；

在对该双输入二分类模型进行训练的过程中，先使用难度低的句对语料训练该双输入二分类模型，当模型达到收敛状态时，再使用难度适中的句对语料进行训练，最终使用难度高的句对语料微调该双输入二分类模型，以使文本分类模型的特征抽取参数在双输入二分类模型的训练中得到了进一步优化，而文本分类模型的分类层参数保持不变。

2.一种文本分类的系统，其特征在于，包括：

接收模块，用于接收输入的分类语料；

优化及分类模块，用于当所述双输入二分类模型训练完成后，利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化，并利用所述优化后的文本分类模型对待分类文本进行文本分类；

所述第一训练模块，包括：

构建子模块，用于构建单层卷积神经网络；

模型确定子模块，用于当所述单层卷积神经网络的损失值和正确率不再变化时，将所述单层卷积神经网络作为所述文本分类模型；

所述句对语料构建模块包括：

其中，所述正例句对语料与所述负例句对语料的数量相同；

所述第二训练模块包括：

模型接入子模块，用于将所述文本分类模型的特征抽取网络接入所述双输入二分类模型，以使所述双输入二分类模型共享所述文本分类模型的特征抽取网络；

所述第二训练模块，具体用于在对该双输入二分类模型进行训练的过程中，先使用难度低的句对语料训练该双输入二分类模型，当模型达到收敛状态时，再使用难度适中的句对语料进行训练，最终使用难度高的句对语料微调该双输入二分类模型，以使文本分类模型的特征抽取参数在双输入二分类模型的训练中得到了进一步优化，而文本分类模型的分类层参数保持不变。

3.一种文本分类设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1所述文本分类的方法的步骤。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1所述文本分类的方法的步骤。