CN113094504A

CN113094504A - 基于自动机器学习的自适应文本分类方法及装置

Info

Publication number: CN113094504A
Application number: CN202110314496.XA
Authority: CN
Inventors: 颜鑫; 王闫若显; 张霞; 任多; 梁宇海
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-09

Abstract

本发明提供一种基于自动机器学习的自适应文本分类方法及装置，该方法包括：获取分类任务对应的训练数据集；根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；对构建好的神经网络模型进行训练；将待检测文本数据输入所述神经网络模型，输出分类结果。该方法针对不同的分类任务，自适应的搭建出最合适的模型架构，在不依赖于大规模预训练模型的情况下，大幅度的提升了模型的精确度。

Description

基于自动机器学习的自适应文本分类方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于自动机器学习的自适应文本分类方法及装置。

背景技术

随着人工智能领域的发展，人们对于文本分类的技术要求愈发提高，不论是作为OCR识别技术的后续处理程序，还是新闻分类，虚假新闻识别，垃圾邮件识别等需求，文本分类的精确性和对特定领域的适应性需求愈发的急迫。

在现有技术中，想要进行文本分类的识别任务，要考虑数据的预处理，模型的选择与搭建，实体信息的识别。目前主流做法是使用BERT等大规模预训练模型来做，但是这种方法模型过大，对算力要求很高，简易模型又在精确度和适用性上有所欠缺。

发明内容

针对现有技术存在的问题，本发明提供一种基于自动机器学习的自适应文本分类方法及装置。

本发明提供一种基于自动机器学习的自适应文本分类方法，包括：获取分类任务对应的训练数据集；根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；对构建好的神经网络模型进行训练；将待检测文本数据输入所述神经网络模型，输出分类结果。

根据本发明一个的基于自动机器学习的自适应文本分类方法，所述根据所述训练数据集进行神经架构搜索之前，还包括：对所述训练数据集进行清洗数据、分词、去重和类别均衡处理。

根据本发明一个的基于自动机器学习的自适应文本分类方法，所述根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型，包括：根据分类任务，确定对应的搜索空间；使用预训练的词向量对文本进行向量化，得到嵌入矩阵作为输入；使用one-shot方法，对操作节点做归一化处理，并基于梯度下降搜索方法，确定最优分类神经网络模型。

根据本发明一个的基于自动机器学习的自适应文本分类方法，所述基于梯度下降搜索方法，确定最优分类神经网络模型，包括：使用SMO方法进行近似优化，每次固定部分参数来训练其它参数，通过反向传播更新权重。

根据本发明一个的基于自动机器学习的自适应文本分类方法，所述对构建好的神经网络模型进行训练，包括：通过随机搜索对超参数进行训练；通过5折交叉验证，选出效果最优的模型。

根据本发明一个的基于自动机器学习的自适应文本分类方法，所述将待检测文本数据输入所述神经网络模型，输出分类结果，包括：对于输入的待检测文本数据，进行相同数据清洗和分词操作；将处理后的文本输入模型中，生成softmax矩阵，取最高值对应的类别作为识别结果输出。

本发明还提供一种基于自动机器学习的自适应文本分类装置，包括：获取模块，用于获取分类任务对应的训练数据集；搜索模块，用于根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；训练模块，用于对构建好的神经网络模型进行训练；检测模块，用于将待检测文本数据输入所述神经网络模型，输出分类结果。

根据本发明一个的基于自动机器学习的自适应文本分类装置，其特征在于，所述搜索模块具体用于：根据分类任务，确定对应的搜索空间；使用预训练的词向量对文本进行向量化，得到嵌入矩阵作为输入；使用one-shot方法，对操作节点做归一化处理，并基于梯度下降搜索方法，确定最优分类神经网络模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于自动机器学习的自适应文本分类方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于自动机器学习的自适应文本分类方法的步骤。

本发明提供的基于自动机器学习的自适应文本分类方法及装置，针对不同的分类任务，自适应的搭建出最合适的模型架构。同时本发明考虑了字词信息的结合，以及模型架构的压缩，在不依赖于大规模预训练模型的情况下，大幅度的提升了模型的精确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于自动机器学习的自适应文本分类方法的流程示意图之一；

图2是本发明提供的基于自动机器学习的自适应文本分类方法的流程示意图之二；

图3是本发明提供的神经网络架构搜索流程图；

图4为本发明提供的one-shot网络节点路径建模法；

图5为本发明提供的网络架构示意图；

图6是本发明提供的基于自动机器学习的自适应文本分类装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明的基于自动机器学习的自适应文本分类方法及装置。图1是本发明提供的基于自动机器学习的自适应文本分类方法的流程示意图之一，如图1所示，本发明提供基于自动机器学习的自适应文本分类方法，包括：

101、获取分类任务对应的训练数据集。

首先，确定已标注好的数据集作为训练数据集，包括具体文本和类别名称。可以分割数据集为训练集、验证集和测试集，比例为60％，20％，20％。

102、根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型。

针对分类任务，制定相对应的搜索空间(search space)，主要为NLP任务常见的网络层和操作，如BiGRU网络、Attention(注意机制)、CNN网络、Concat操作、Add操作、LayerNorm操作等，其中CNN的尺寸选择包括1*1，3*3，5*5等。基于神经网络构架搜索(NAS)，确定用于分类的神经网络模型。

103、对构建好的神经网络模型进行训练。

对上一步采样出的最佳网络，可使用随机搜索(Random Search)对其超参数进行重新训练。

104、将待检测文本数据输入所述神经网络模型，输出分类结果。

将待分类文输入上述神经网络模型，返回softmax概率矩阵，输出其概率最大值对应类别为最终结果。

本发明的基于自动机器学习的自适应文本分类方法，针对不同的分类任务，自适应的搭建出最合适的模型架构，在不依赖于大规模预训练模型的情况下，大幅度的提升了模型的精确度。

在一个实施例中，所述根据所述训练数据集进行神经架构搜索之前，还包括：对所述训练数据集进行清洗数据、分词、去重和类别均衡处理。

可参见图2，具体地，对文本进行清洗，删除文本中包含的特殊字符，包括换行符和制表符等。之后对文本做去重复、类别平衡(包括复制法和同义词替换等文本增强方法)、分词，最终将数据集分为训练集、验证集和测试集。

使用jieba分词工具对文本做分词处理，并统计各类别对应的样本数量。统计样本数量最多的类别数量，根据其作为基准进行类别均衡处理，主要方法为类别均衡，对文本长度少于5的使用复制法，对文本长度少于10的使用同义词替换等EDA方法。

在一个实施例中，所述根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型，包括：根据分类任务，确定对应的搜索空间；使用预训练的词向量对文本进行向量化，得到嵌入矩阵作为输入；使用one-shot方法，对操作节点做归一化处理，并基于梯度下降搜索方法，确定最优分类神经网络模。

使用预训练好的词向量分别对文本进行向量化，对字向量做随机初始化，然后通过一层char-cnn后与词向量做拼接，从而得嵌入(embedding)矩阵，作为神经网络的输入。然后根据现有数据集进行神经架构搜索。

首先设定适用于NLP任务的网络结构和节点操作作为搜索空间，包括BiGRU、Attention、CNN等。如图3所示，由于离散的强化学习方法计算量高，本发明使用梯度下降法，使用one-shot网络，对节点中所有的操作初始化权重并归一化，通过对softmax求导，更新各操作权重。最终每个节点选择其对应的softmax矩阵中概率最高值作为该节点的操作，从而实现离散化，即通过选择每个节点所有操作中最大权重所对应的值作为该节点的操作。

使用梯度下降(Gradient Based)的搜索方法对网络结构进行搜索，普通的神经网络结构搜索方案使用循环神经网络(Recurrent Neural Network,RNN)结构作为controller(控制器)，通过attention模型产生skip connection(跳跃连接)，通过对RNN模型求最优化问题，得到最优模型结构。

基于梯度下降法的算法搜索步骤如图4所示，最小单位是一个称为cell的结构。一开始，cell中每个结点都与它之前的结点有连线。cell中的每个结点代表一个隐层特征(例如CNN中的特征图)，连线代表一些操作(一条线上有多个操作，如conv、pooling和zero等操作)。默认cell有两个输入和一个输出。对于CNN结构，cell可以来自之前两个cell的输出，而对于RNN，输入则可以是当前cell的输入和上个cell的输出状态。

通常我们对于操作的选择是离散的，一般我们使用强化学习的方法进行学习，该方法缺点在于计算量大，不易收敛。本发明使用one-shot的方法对离散的选择做连续化处理，如图4所示，即统计节点中每一个操作层，将所有层求和后做归一化处理，给具体的每个节点操作赋予权重，将离散的操作转为多分类问题，利用softmax进行梯度更新。

具体归一化公式如下：

其中，O代表有向图中连线上操作的集合，α_o代表连接结点i到节点j的连线上操作o的权值，o′为O中的一个操作，x为操作的输入。所以公式的含义就是使用连线上每个操作对结点进行操作，然后按照一定的权值将结果组合起来作为连线的输出。

在一个实施例中,基于梯度下降搜索方法，确定最优分类神经网络模型，包括：使用SMO方法进行近似优化，每次固定部分参数来训练其它参数，通过反向传播更新权重。

由于同时对多个参数进行更新实现困难，本发明使用进行近似优化，每次固定部分参数来训练其它参数。例如，固定所有其它参数，训练一个参数。通过反向传播更新权重，得到最终结果后，通过选择每个节点所有操作中最大权重所对应的值作为该节点的操作，进行离散化。为了简化搜索，我们只针对小的cell进行搜索，包括Normal Cell和ReductionCell两种，Normal Cell使用普通的网络搜索，Reduction Cell使用残差结构进行搜索，从而加深网络层数。确定二者结构后我们对其进行堆叠，从而得到最终的网络架构。两种Cell的堆叠方法如图5所示。

在一个实施例中，所述对构建好的神经网络模型进行训练，包括：通过随机搜索对超参数进行训练；通过5折交叉验证，选择出效果最优的模型。

对产生的模型的超参进行随机搜索，确定最优超参组合。对该模型进行重新训练，保持测试集不变，重新划分训练集和验证集，使用交叉验证的方法，选出最优模型。例如，对上一步采样出的最佳网络，对其进行重新训练，通过5折交叉验证的方法选出最优模型。

在一个实施例中，所述将待检测文本数据输入所述神经网络模型，输出分类结果，包括：对于输入的待检测文本数据，进行相同数据清洗和分词操作；将处理后的文本输入模型中，生成softmax矩阵，取最高值对应的类别作为识别结果输出。

输入待识别文本，同样进行数据清洗，去重，分词操作后，输入神经网络，得到softmax概率，取最大值对应的类别作为最终结果输出。

通过上述步骤，使用自动机器学习技术解决了不同应用场景下的文本分类落地问题。同时NAS有一定的模型压缩的作用，可以在不使用大规模预训练模型的情况下，尽可能的实现了分类效果的提升。

下面对本发明提供的基于自动机器学习的自适应文本分类装置进行描述，下文描述的基于自动机器学习的自适应文本分类装置与上文描述的基于自动机器学习的自适应文本分类方法可相互对应参照。

图6是本发明实施例提供的基于自动机器学习的自适应文本分类装置的结构示意图，如图6所示，该基于自动机器学习的自适应文本分类装置包括：获取模块601、搜索模块602、训练模块603和检测模块604。其中，获取模块601用于获取分类任务对应的训练数据集；搜索模块602用于根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；训练模块603用于对构建好的神经网络模型进行训练；检测模块604用于将待检测文本数据输入所述神经网络模型，输出分类结果。

在一个装置实施例中，所述搜索模块具体用于：根据分类任务，确定对应的搜索空间；使用预训练的词向量对文本进行向量化，得到嵌入矩阵作为输入；使用one-shot方法，对操作节点做归一化处理，并基于梯度下降搜索方法，确定最优分类神经网络模型。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的基于自动机器学习的自适应文本分类装置，针对不同的分类任务，自适应的搭建出最合适的模型架构，在不依赖于大规模预训练模型的情况下，大幅度的提升了模型的精确度。

图7是本发明提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令，以执行基于自动机器学习的自适应文本分类方法，该方法包括：获取分类任务对应的训练数据集；根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；对构建好的神经网络模型进行训练；将待检测文本数据输入所述神经网络模型，输出分类结果。

此外，上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于自动机器学习的自适应文本分类方法，该方法包括：获取分类任务对应的训练数据集；根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；对构建好的神经网络模型进行训练；将待检测文本数据输入所述神经网络模型，输出分类结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于自动机器学习的自适应文本分类方法，该方法包括：获取分类任务对应的训练数据集；根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；对构建好的神经网络模型进行训练；将待检测文本数据输入所述神经网络模型，输出分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于自动机器学习的自适应文本分类方法，其特征在于，包括：

获取分类任务对应的训练数据集；

根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；

对构建好的神经网络模型进行训练；

将待检测文本数据输入所述神经网络模型，输出分类结果。

2.根据权利要求1所述的基于自动机器学习的自适应文本分类方法，其特征在于，所述根据所述训练数据集进行神经架构搜索之前，还包括：

对所述训练数据集进行清洗数据、分词、去重和类别均衡处理。

3.根据权利要求1所述的基于自动机器学习的自适应文本分类方法，其特征在于，所述根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型，包括：

根据分类任务，确定对应的搜索空间；

使用预训练的词向量对文本进行向量化，得到嵌入矩阵作为输入；

使用one-shot方法，对操作节点做归一化处理，并基于梯度下降搜索方法，确定最优分类神经网络模型。

4.根据权利要求1所述的基于自动机器学习的自适应文本分类方法，其特征在于，所述基于梯度下降搜索方法，确定最优分类神经网络模型，包括：

使用序列最小优化SMO方法进行近似优化，每次固定部分参数训练其它参数，通过反向传播更新权重。

5.根据权利要求1所述的基于自动机器学习的自适应文本分类方法，其特征在于，所述对构建好的神经网络模型进行训练，包括：

通过随机搜索对超参数进行训练；

通过5折交叉验证，选出效果最优的模型。

6.根据权利要求2所述的基于自动机器学习的自适应文本分类方法，其特征在于，所述将待检测文本数据输入所述神经网络模型，输出分类结果，包括：

对于输入的待检测文本数据，进行相同数据清洗和分词操作；

将处理后的文本输入模型中，生成softmax矩阵，取最高值对应的类别作为识别结果输出。

7.一种基于自动机器学习的自适应文本分类装置，其特征在于，包括：

获取模块，用于获取分类任务对应的训练数据集；

搜索模块，用于根据所述训练数据集进行神经架构搜索，构建用于分类的神经网络模型；

训练模块，用于对构建好的神经网络模型进行训练；

检测模块，用于将待检测文本数据输入所述神经网络模型，输出分类结果。

8.根据权利要求7所述的基于自动机器学习的自适应文本分类装置，其特征在于，所述搜索模块具体用于：

根据分类任务，确定对应的搜索空间；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于自动机器学习的自适应文本分类方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于自动机器学习的自适应文本分类方法的步骤。