CN112836049A

CN112836049A - 一种文本分类方法、装置、介质和计算设备

Info

Publication number: CN112836049A
Application number: CN202110117666.5A
Authority: CN
Inventors: 崔圆圆; 林洋港; 朱浩齐
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-25
Anticipated expiration: 2041-01-28
Also published as: CN112836049B

Abstract

本公开提供一种文本分类方法、装置、介质和计算设备，该方法包括：将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

Description

一种文本分类方法、装置、介质和计算设备

技术领域

本公开涉及文本分类领域，更具体地，本公开涉及一种文本分类方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

互联网平台上存在着海量的文档，其中混杂着色情片段、暴力片段等敏感内容，需要依靠机器系统进行及时的拦截删除。基于深度学习的文本分类方法被广泛应用于此类场景。相关技术中，对于敏感内容类的文本检测任务，在训练文本分类模型时，不仅训练样本制作周期长，而且人工标注成本稿。

发明内容

本公开提供了一种文本分类方法、装置、介质和计算设备，至少能缩短训练样本的制作周期，节省人工标注成本。

本公开实施例的第一方面提供一种文本分类方法，包括：将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

在本公开的一个实施例中，所述对所述K个片段进行分词处理，包括下述至少之一：将每个所述片段的每个汉字分成一个词；将每个所述片段的每个标点符号分成一个词；将每个所述片段的单独出现的一个数字字符或者连续出现的多个数字字符分成一个词；将每个所述片段的单独出现的一个英文字母或者连续出现的多个英文字母分成一个词。

在本公开的一个实施例中，所述方法还包括：获取M个所述第一输入文本中每个所述第一输入文本包括的词，并统计在所述M个所述第一输入文本中出现的词的词频；M为大于1的整数；基于每个词的词频，构建词典以及词典向量矩阵；其中，所述根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵，包括：基于所述词典以及所述词典向量矩阵，确定每个所述片段包括的词所对应的词向量；根据每个所述片段包括的词所对应的词向量，确定所述K个片段中每个所述片段的词向量矩阵。

在本公开的一个实施例中，所述基于每个词的词频，构建词典以及词典向量矩阵，包括：根据词频排名前S的词构建所述词典；为前S个词中的每个词分别分配目标编号，并配置预留编号；根据前S个词中的每个词对应的所述目标编号，生成前S个词中的每个词对应的词向量；以及，根据所述预留编号生成所述预留编号对应的词向量；根据所述预留编号对应的词向量，以及前S个词中的每个词对应的词向量，构建所述词典向量矩阵。

在本公开的一个实施例中，所述基于所述词典以及所述词典向量矩阵，确定每个所述片段包括的词所对应的词向量，包括：查询每个所述片段中的每个词在所述词典中的目标编号；基于每个所述片段中的每个词在所述词典中的所述目标编号，从所述词典向量矩阵中查询每个所述片段中的每个词对应的词向量；在未查询到所述片段中的当前词在所述词典中的目标编号的情况下，将预留编号对应的词向量作为所述当前词对应的词向量。

在本公开的一个实施例中，所述方法还包括：将所述K个片段中每个所述片段的所述词向量矩阵，拼接成所述第一输入文本的三维向量矩阵；其中，所述将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，包括：将所述第一输入文本的三维向量矩阵，输入到所述文本分类模型中。

在本公开的一个实施例中，对所述K个片段进行分词处理之前，所述方法还包括：对所述K个片段中每个所述片段进行下述至少之一处理：在所述片段存在预设文本符号的情况下，删除所述预设文本符号；在所述片段存在大写字母的情况下，将所述大写字母转化为小写字母。

在本公开的一个实施例中，所述方法还包括：根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数；基于所述损失函数，训练所述文本分类模型。

在本公开的一个实施例中，所述方法还包括：根据所述第一输入文本的分类标签确定所述第一输入文本中包括的每个所述片段的分类标签，所述第一输入文本中包括的每个所述片段的分类标签与所述第一输入文本的分类标签一致；其中，所述根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数，包括：根据所述第一输入文本中包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及所述第一输入文本中包括的每个片段的分类标签，确定第一损失函数；其中，基于所述损失函数，训练所述文本分类模型，包括：基于所述第一损失函数训练所述文本分类模型，使所述第一输入文本中K个所述片段的分类概率的均值等于所述第一输入文本的分类概率。

在本公开的一个实施例中，所述方法还包括：在所述第一输入文本的分类标签为包含敏感内容的情况下，确定所述第一输入文本中包括的至少一个所述片段的分类标签与所述第一输入文本的分类标签一致；其中，所述根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数，包括：根据所述第一输入文本的K个所述片段的分类概率中的最大值、所述第一输入文本包括的片段数、以及所述第一输入文本的分类标签，确定第二损失函数；其中，所述基于所述损失函数，训练所述文本分类模型，包括：基于所述第二损失函数训练所述文本分类模型，使所述第一输入文本中K个所述片段的分类概率的最大值等于所述第一输入文本的分类概率。

在本公开的一个实施例中，所述方法还包括：在所述第一输入文本的分类标签为包含敏感内容的情况下，确定所述第一输入文本中分类概率大于第一阈值的第一类片段以及所述第一输入文本中分类概率小于第二阈值的第二类片段，所述第一阈值大于所述第二阈值；其中，所述根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数，包括：根据所述第一输入文本中第一类片段的概率值，所述第一输入文本中第二类片段的概率值、所述第一输入文本包括的所述第一类片段的片段数、所述第一输入文本包括的所述第二类片段的片段数、所述第一类片段的分类标签以及所述第二类片段的分类标签，确定第三损失函数；其中，所述基于所述损失函数，训练所述文本分类模型，包括：基于所述第三损失函数训练所述文本分类模型，使所述第一输入文本中所述第一类片段的分类概率值为1，所述第二类片段的概率值为0。

在本公开的一个实施例中，所述训练分为第一训练阶段、第二训练阶段和第三训练阶段；所述方法还包括：在所述第一训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之M1；在所述第二训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之M2；M1大于或等于M1；在所述第三训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之为M3；M3大于M1，M3大于M2。

在本公开的一个实施例中，所述方法还包括：将第二输入文本的三维向量矩阵输入所述文本分类模型，得到由所述文本分类模型输出的所述第二输入文本的分类标签；其中，所述第二输入文本的长度小于所述第一输入文本的长度；所述第二输入文本的三维向量矩阵是由所述第二输入文本包括的片段的词向量矩阵拼接而成的。

在本公开的一个实施例中，所述文本分类模型包括第一卷积层、第二卷积层、池化层、全连接层和分类层；其中，所述第一卷积层与所述第二卷积层连接，所述第二卷积层与所述池化层连接，所述池化层与所述全连接层连接，所述全连接层与所述分类层连接；其中，所述将第二输入文本的三维向量矩阵输入所述文本分类模型，得到由所述文本分类模型输出的所述第二输入文本的分类标签，包括：将所述第二输入文本的三维向量矩阵逐层流过所述第一卷积层、所述第二卷积层、所述池化层、所述全连接层和所述分类层，得到由所述分类层输出的所述第二输入文本的分类标签。

本公开实施例的第二方面提供一种文本分类装置，包括：分段单元，用于将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；分词单元，用于对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；确定单元，用于根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；分类单元，用于将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

在本公开的一个实施例中，所述分词单元用于对所述K个片段进行下述至少之一分词处理：将每个所述片段的每个汉字分成一个词；将每个所述片段的每个标点符号分成一个词；将每个所述片段的单独出现的一个数字字符或者连续出现的多个数字字符分成一个词；将每个所述片段的单独出现的一个英文字母或者连续出现的多个英文字母分成一个词。

在本公开的一个实施例中，所述装置还包括：统计单元，用于获取M个所述第一输入文本中每个所述第一输入文本包括的词，并统计在所述M个所述第一输入文本中出现的词的词频；M为大于1的整数；构建单元，用于基于每个词的词频，构建词典以及词典向量矩阵；其中，所述确定单元，用于：基于所述词典以及所述词典向量矩阵，确定每个所述片段包括的词所对应的词向量；根据每个所述片段包括的词所对应的词向量，确定所述K个片段中每个所述片段的词向量矩阵。

在本公开的一个实施例中，所述构建单元，用于：根据词频排名前S的词构建所述词典；为前S个词中的每个词分别分配目标编号，并配置预留编号；根据前S个词中的每个词对应的所述目标编号，生成前S个词中的每个词对应的词向量；以及，根据所述预留编号生成所述预留编号对应的词向量；根据所述预留编号对应的词向量，以及前S个词中的每个词对应的词向量，构建所述词典向量矩阵。

在本公开的一个实施例中，所述确定单元，用于：查询每个所述片段中的每个词在所述词典中的目标编号；基于每个所述片段中的每个词在所述词典中的所述目标编号，从所述词典向量矩阵中查询每个所述片段中的每个词对应的词向量；在未查询到所述片段中的当前词在所述词典中的目标编号的情况下，将预留编号对应的词向量作为所述当前词对应的词向量。

在本公开的一个实施例中，所述装置还包括：拼接单元，用于将所述K个片段中每个所述片段的所述词向量矩阵，拼接成所述第一输入文本的三维向量矩阵；其中，所述分类单元，还用于：将所述第一输入文本的三维向量矩阵，输入到所述文本分类模型中。

在本公开的一个实施例中，所述装置还包括：预处理单元，用于对所述K个片段中每个所述片段进行下述至少之一处理：在所述片段存在预设文本符号的情况下，删除所述预设文本符号；在所述片段存在大写字母的情况下，将所述大写字母转化为小写字母。

在本公开的一个实施例中，所述装置还包括：训练单元，用于：根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数；基于所述损失函数，训练所述文本分类模型。

在本公开的一个实施例中，所述训练单元，还用于：根据所述第一输入文本的分类标签确定所述第一输入文本中包括的每个所述片段的分类标签，所述第一输入文本中包括的每个所述片段的分类标签与所述第一输入文本的分类标签一致；根据所述第一输入文本中包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及所述第一输入文本中包括的每个片段的分类标签，确定第一损失函数；基于所述第一损失函数训练所述文本分类模型，使所述第一输入文本中K个所述片段的分类概率的均值等于所述第一输入文本的分类概率。

在本公开的一个实施例中，所述训练单元，还用于：在所述第一输入文本的分类标签为包含敏感内容的情况下，确定所述第一输入文本中包括的至少一个所述片段的分类标签与所述第一输入文本的分类标签一致；根据所述第一输入文本的K个所述片段的分类概率中的最大值、所述第一输入文本包括的片段数、以及所述第一输入文本的分类标签，确定第二损失函数；基于所述第二损失函数训练所述文本分类模型，使所述第一输入文本中K个所述片段的分类概率的最大值等于所述第一输入文本的分类概率。

在本公开的一个实施例中，所述训练单元，还用于：在所述第一输入文本的分类标签为包含敏感内容的情况下，确定所述第一输入文本中分类概率大于第一阈值的第一类片段以及所述第一输入文本中分类概率小于第二阈值的第二类片段，所述第一阈值大于所述第二阈值；根据所述第一输入文本中第一类片段的概率值，所述第一输入文本中第二类片段的概率值、所述第一输入文本包括的所述第一类片段的片段数、所述第一输入文本包括的所述第二类片段的片段数、所述第一类片段的分类标签以及所述第二类片段的分类标签，确定第三损失函数；基于所述第三损失函数训练所述文本分类模型，使所述第一输入文本中所述第一类片段的分类概率值为1，所述第二类片段的概率值为0。

在本公开的一个实施例中，所述训练分为第一训练阶段、第二训练阶段和第三训练阶段；所述训练单元，还用于：在所述第一训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之M1；在所述第二训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之M2；M1大于或等于M1；在所述第三训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之为M3；M3大于M1，M3大于M2。

在本公开的一个实施例中，所述分类单元，还用于：将第二输入文本的三维向量矩阵输入所述文本分类模型，得到由所述文本分类模型输出的所述第二输入文本的分类标签；其中，所述第二输入文本的长度小于所述第一输入文本的长度；所述第二输入文本的三维向量矩阵是由所述第二输入文本包括的片段的词向量矩阵拼接而成的。

在本公开的一个实施例中，所述文本分类模型包括第一卷积层、第二卷积层、池化层、全连接层和分类层；其中，所述第一卷积层与所述第二卷积层连接，所述第二卷积层与所述池化层连接，所述池化层与所述全连接层连接，所述全连接层与所述分类层连接；其中，所述分类单元，还用于：将所述第二输入文本的三维向量矩阵逐层流过所述第一卷积层、所述第二卷积层、所述池化层、所述全连接层和所述分类层，得到由所述分类层输出的所述第二输入文本的分类标签。

本公开实施例的第三方面提供一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如前述实施例的方法。

本公开实施例的第四方面提供一种计算设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前述实施例的方法。

根据本公开实施方式，可以将第一输入文本切分成多个片段，利用文本分类模型分别对多个片段进行预测，得到由文本分类模型预测的各个片段包含敏感内容的概率。如此，能够采用长文本作为训练数据来训练文本分类模型，且只需依赖长文本的标注标签，无需对其中的各个片段进行额外人工标注，充分利用了易获取的海量长文本，极大地降低了开发成本，解决了文本分类模型无法直接处理长文本的问题，从而有助于实现了从长文本训练数据到短文本实测数据的知识迁移。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1为根据本公开一实施方式的文本分类方法流程图一；

图2为根据本公开一实施方式的将输入文本切分成多个片段的流程图；

图3为根据本公开一实施方式的文本分类方法流程图二；

图4为根据本公开一实施方式的文本分类方法流程图三；

图5为根据本公开一实施方式的文本分类方法流程图四；

图6为根据本公开一实施方式的文本分类模型的示意图；

图7为根据本公开一实施方式的对长文本分类训练的流程图；

图8为根据本公开一实施方式的长文本分类训练与短文本分类预测的整体流程示意图；

图9为根据本公开一实施方式的介质示意图；

图10为根据本公开一实施方式的文本分类装置组成结构示意图一；

图11为根据本公开一实施方式的文本分类装置组成结构示意图二；

图12为根据本公开一实施方式的计算设备结构示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种文本分类方法、装置、介质和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本申请人发现，互联网平台上存在着海量的数字文档，其中混杂着色情、暴力、恐怖等敏感内容，需要依靠机器系统进行及时的拦截或删除。基于深度学习的文本分类方法被广泛应用于此类场景。对于敏感内容检测任务，通常能够直接获取到的原始训练数据是长篇的完整文本，例如长篇小说。完整小说中包含敏感内容片段，但并非任意片段都是敏感内容片段。即，训练数据的标注(“敏感内容文本”与“普通文本”)是篇章级的，缺少其中具体“敏感内容段落”的详细标注。文本分类模型需要处理此长文本，并将从中学习到的知识迁移到“段落级”的较短文本分类任务中。

长文本分类的常用处理方法有截取法和滑窗法两种。截取法直接从文章的开头或结尾取定长的片段作为分类系统的输入。滑窗法是一种层次化的建模方法，它以特定步长扫描输入文本，并在每个采样位置保留特定长度的连续片段。在低层网络，借助卷积神经网络(Convolutional Neural Networks,CNN)结构从片段中提取局部特征，实现序列压缩，由长变短；在高层网络，借助循环神经网络(Recurrent Neural Network，RNN)结构进行局部特征的融合，构建用于分类的全局特征。

对于新闻资讯类的长文本，其开头和结尾往往是总结性的内容摘要，采用截取法能够高效提取文章的关键信息。对于小说类长文本，其中的敏感内容片段可能分布在文章的任意位置，截取开头结尾或随机位置都无法保证准确捕捉到违规信息。相比之下，滑窗法不会遗漏关键信息，但是模型结构过于复杂。对于敏感内容小说类长文本，只需要判断各个单独的片段是否包含敏感内容，片段之间并没有强相关性，没有必要进行全局特征的建模。

有鉴于此，本公开提供一种文本分类方法、装置、介质和计算设备，该文本分类方法包括：将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

如此，可以将第一输入文本切分成多个片段，利用文本分类模型分别对多个片段进行预测，得到由文本分类模型预测的各个片段包含敏感内容的概率。这样，能够采用长文本作为训练数据来训练文本分类模型，且只需依赖长文本的标注标签，无需对其中的各个片段进行额外人工标注，充分利用了易获取的海量长文本，极大地降低了开发成本，解决了文本分类模型无法直接处理超长输入文本的问题，从而有助于实现了从长文本训练数据到短文本实测数据的知识迁移。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

示例性方法

本公开提供了一种文本分类方法，如图1所示，包括：

S101：将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；

S102：对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；

S103：根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；

S104：将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

本实施例可以应用于电子设备，该电子设备包括但不限于固定设备和/或移动设备，例如，固定设备包括但不限于服务器，比如云服务器、普通服务器等服务器。例如，移动设备包括但不限于终端设备，比如智能手机、平板电脑等终端设备。

在S101中，所述第一输入文本可以是长文本，这里，长文本是包含字数大于预设字数阈值的文本。这里，所述预设字数阈值可以根据实际情况进行设定或调整，如1000或10000等。

在S101中，所述第一输入文本是标签为涉及敏感内容的文本，或者，是标签为未涉及敏感内容的文本，也即普通文本。敏感内容包括但不限于色情、暴力、恐怖等内容。示例性地，第一输入文本为标注为色情的小说或文章，或者，第一输入文本为标注为暴力的小说或文章，第一输入文本为标注为恐怖的小说或文章。

在S101中，不同第一输入文本被分成的片段数可以不同，也就是说，不同第一输入文本对应的K数可以不同。同一第一输入文本中包括的K个片段中包含的句子数，可以相同，也可以不同。

在S102中，词是指预设规则定义的词，示例性地，单个汉字作为一个词，比如，“你”作为一个词，“他”作为一个词。示例性地，单个标点符号为一个词，比如，“。”作为一个词，“！”作为一个词。示例性地，单独出现的一个数字字符作为一个词，比如，“第1名”中的“1”作为一个词，“有5只”中的“5”作为一个词。示例性地，连续出现的多个数字字符分成一个词作为一个词，比如，“第1253次”中的“1253”作为一个词，又比如，“共108名”中的“108”作为一个词。示例性地，单独出现的一个英文字母作为一个词，比如，“步骤a”中的“a”作为一个词，“设备b”中的“b”作为一个词。示例性地，连续出现的多个英文字母作为一个词。比如，“这件case”中的“case”作为一个词，“单词pen的中文解释为钢笔”中的“pen”作为一个词。

可以理解，分词处理是指按照上述预设规则定义的“词”对片段进行分词处理。在一些实施例中，对所述K个片段进行分词处理，包括下述至少之一：将每个所述片段的每个汉字分成一个词；将每个所述片段的每个标点符号分成一个词；将每个所述片段的单独出现的一个数字字符或者连续出现的多个数字字符分成一个词；将每个所述片段的单独出现的一个英文字母或者连续出现的多个英文字母分成一个词。如此，能够为后续确定词向量矩阵提供数据支撑。示例性地，“我爱北京。”进行分词处理后的结果为“我”、“爱”、“北”、“京”、“。”共5个词。示例性地，“这个case难度系数大。”进行分词处理后的结果为“这”、“个”、“case”、“难”、“度”、“系”、“数”、“大”、“。”共9个词。示例性地，“班上有30名女生，50名男生。”进行分词处理后的结果为“班”、“上”、“有”、“30”、“名”、“女”、“生”、“，”、“50”、“名”、“男”、“生”“。”共13个词。

在一些实施例中，对所述K个片段进行分词处理之前，所述方法还可以包括：对所述K个片段中每个所述片段进行下述至少之一处理：在所述片段存在预设文本符号的情况下，删除所述预设文本符号；在所述片段存在大写字母的情况下，将所述大写字母转化为小写字母。其中，预设文本符号是预先定义的符号。比如，预设文本符号是除汉字、标点符号、字母和数字之外的其他符号。如此，能够保证分词处理结果符合预期标准，只包含期望的词，不包括预设文本符号，从而有助于后续构建词典，提高词典的可靠性。

在S103中，每个片段的词向量矩阵，由每个片段的各个词的词向量组成。示例性地，片段1包括x个词，这x个词分别对应的词向量分别记为a1、a2、…、ax，那么，片段1的词向量矩阵为[a1 a2…ax]。

在S104中，文本分类模型是待训练的模型，该模型是神经网络模型，比如深度学习模型。

在S104中，敏感内容是定义的违规内容，比如，色情内容，或暴力内容，或恐怖内容等平台需要予以拦截或删除的内容。实际处理中敏感内容可以包含更多的情况，本实施例不做穷举。

根据本实施例所述方法，可以将第一输入文本切分成多个片段，利用文本分类模型分别对多个片段进行预测，得到由文本分类模型预测的各个片段包含敏感内容的概率。如此，能够采用长文本作为训练数据来训练文本分类模型，且只需依赖长文本的标注标签，无需对其中的各个片段进行额外人工标注，充分利用了易获取的海量长文本，极大地降低了开发成本，解决了文本分类模型无法直接处理长文本的问题，本公开对长文本切成的各个短片段，进行互相独立的分类概率计算，保证了输入数据长度分布在文本分类模型可以直接处理的合理区间内，进而避免了对长文本训练和短文本预测进行差异化的模型设计，从而有助于实现了从长文本训练数据到短文本实测数据的知识迁移。

图2示出了将输入文本切分成多个片段的流程图，每个片段包含若干个完整的句子，各个片段的总长度在文本分类模型可直接处理的范围内，假设可直接处理的范围为100字到200字。详细步骤如下：

根据句末标点(。？！)对输入文本进行分句。特别地，当句号(。)后出现下引号(”)时，将句号和下引号同时划分到前一个句子；

从前往后，对句子进行合并，保证合并后的每个片段总长接近，没有偏长或偏短的片段出现。在合并的过程中，如果片段总长不足100字，则继续合并；如果超过200字，则取前150字作为合并句，并将下一次合并的起点设为当前被截断的句子。假设分句后共n个句子，经合并变成K个片段。

可以理解，上述分界值100、150和200都是示意性的，这里不做穷举。

应理解，图2所示的流程图为一种可选的具体实现方式，本领域技术人员可以基于图2的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

基于图1所示文本分类方法，在一些实施例中，如图3所示，所述方法还可以包括：

S105：获取M个所述第一输入文本中每个所述第一输入文本包括的词，并统计在所述M个所述第一输入文本中出现的词的词频；M为大于1的整数；

S106：基于每个词的词频，构建词典以及词典向量矩阵。

本实施例中，不对M的个数进行强制性限定。M的数值可以根据实际情况如训练要求或获取第一输入文本的难易程度等进行选择。

其中，词频是指某个词在M个第一输入文本中的出现频率或出现次数。示例性地，在M个第一输入样本中，词1共出现5次，词2共出现10次，词3共出现50次，那么，词1的词频可以记为5，词2的词频可以记为10，词3的词频可以记为50。或者，在M个第一输入样本中共包括10000个词，词1共出现5次，词2共出现10次，词3共出现50次，那么，词1的词频可以记为5/10000，词2的词频可以记为10/10000，词3的词频可以记为50/10000。

通过上述实施方式，预先构建词典和词典矩阵向量，能够为后续获取各个第一输入文本的词向量矩阵提供统一的参考依据或参考标准，进而提高获取的词向量矩阵的准确性。

基于图3所示文本分类方法，在一些实施例中，所述基于每个词的词频，构建词典以及词典向量矩阵，包括：根据词频排名前S的词构建所述词典；为前S个词中的每个词分别分配目标编号，并配置预留编号；根据前S个词中的每个词对应的所述目标编号，生成前S个词中的每个词对应的词向量；以及，根据所述预留编号生成所述预留编号对应的词向量；根据所述预留编号对应的词向量，以及前S个词中的每个词对应的词向量，构建所述词典向量矩阵。

其中，S的数值可以根据实际情况如M个第一输入文本包括的词的数量或者训练需求进行设定或调整。可以理解，S小于或等于M个第一输入文本包括的词的数量。

其中，预留编号是指目标编号之外的编号，是为词典中不包括的词分配的编号。示例性地，词典包括S个词，这S个词对应的目标编号分别记为1、2、…、S-1、S，那么，预留编号可以记为0，或者S+1、或者其他与1～S不同的编号。

其中，对于预留编号以及每一个目标编号，均生成相同维数的随机词向量。不同目标编号对应的词向量不同，预留编号的词向量与目标编号的词向量也不同。比如，每个编号都生成一个128维的随机词向量。又比如，每个编号都生成一个64维的随机词向量。

举例来说，S＝20000，按词频排名从高到低的顺序选取前20000个词作为词典，并为其中的每个词分配1～20000的编号，0为预留编号。每个编号生成一个128维的随机词向量，构建20001×128的词典向量矩阵。

又举例来说，S＝20000，按词频排名从高到低的顺序选取前20000个词作为词典，并为其中的每个词分配1～20000的编号，0为预留编号。每个编号生成一个64维的随机词向量，构建20001×64的词典向量矩阵。

可以理解，上述S的数值、预留编号的数值、目标编号的数值、以及每个编号生成的随机词向量的维数，都是示意性的，这里不做穷举。

基于图3所示文本分类方法，在一些实施例中，根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵，包括：基于所述词典以及所述词典向量矩阵，确定每个所述片段包括的词所对应的词向量；根据每个所述片段包括的词所对应的词向量，确定所述K个片段中每个所述片段的词向量矩阵。

在一些实施方式中，所述基于所述词典以及所述词典向量矩阵，确定每个所述片段包括的词所对应的词向量，包括：查询每个所述片段中的每个词在所述词典中的目标编号；基于每个所述片段中的每个词在所述词典中的所述目标编号，从所述词典向量矩阵中查询每个所述片段中的每个词对应的词向量；在未查询到所述片段中的当前词在所述词典中的目标编号的情况下，将预留编号对应的词向量作为所述当前词对应的词向量。

也就是说，将每个片段中的每个词，转换为其在词典中的目标编号，将不在词典中的词统一转换为预留编号；根据各个词在词典的编号，从词典向量矩阵中抽取对应的词向量，从而得到每个片段的词向量矩阵。

通过上述实施方式，能够依据词典和词典矩阵向量得到K个片段中每个片段的词向量矩阵，为后续文本分类模型预测各个片段的分类概率提供输入数据。

基于图3所示文本分类方法，在一些实施例中，所述方法还可以包括：将所述K个片段中每个所述片段的所述词向量矩阵，拼接成所述第一输入文本的三维向量矩阵；进一步地，所述将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，包括：将所述第一输入文本的三维向量矩阵，输入到所述文本分类模型中。

在一些实施方式中，将所述K个片段中每个所述片段的所述词向量矩阵，拼接成所述第一输入文本的三维向量矩阵，包括：遍历所述K个片段，确定所述K个片段中的最长片段的词数m；对于词数不足m的片段，以预设维数值的全0向量在词向量矩阵的结尾处进行补齐；拼接全部片段的词向量，得到k(片段数量)×m(最长片段的词数)×预设维数值(如128维)的三维向量矩阵。

其中，所述K个片段中的最长片段是指所述K个片段中词数最多的片段。

示例性地，遍历第一输入文本中的全部片段，记录最长片段的词数m。对于词数不足m的片段，以128维的全0向量在词向量矩阵的结尾处进行补齐。拼接全部片段的词向量，得到k(片段数量)×m(最长片段的词数)×128的三维向量矩阵。应理解，128维是示意性的，这里不做穷举。

通过上述实施方式，能够得到第一输入文本的三维向量矩阵，便于文本分类模型基于该三维向量矩阵确定各个片段是否包含敏感内容的概率。

基于图1所示文本分类方法，在一些实施例中，如图4所示，所述方法还可以包括：

S107：根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数；

S108：基于所述损失函数，训练所述文本分类模型。

其中，所述第一输入文本的分类标签可以是敏感内容文本，或者是普通文本。

如此，在训练文本分类模型时，用可以批量获取的长文本替代收集难度更大、缺少标签的短文本片段，极大地压缩了训练样本制作周期，免去了人工标注成本。

基于图4所示文本分类方法，在一些实施例中，所述方法还可以包括：根据所述第一输入文本的分类标签确定所述第一输入文本中包括的每个所述片段的分类标签，所述第一输入文本中包括的每个所述片段的分类标签与所述第一输入文本的分类标签一致。

示例性地，第一输入文本的分类标签为敏感内容文本，那么，第一输入文本的K个片段的分类标签均为敏感内容文本。

示例性地，第一输入文本的分类标签为普通文本，那么，第一输入文本的K个片段的分类标签均为普通文本。

进一步地，所述根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数，包括：根据所述第一输入文本中包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及所述第一输入文本中包括的每个片段的分类标签，确定第一损失函数；其中，基于所述损失函数，训练所述文本分类模型，包括：基于所述第一损失函数训练所述文本分类模型，使所述第一输入文本中K个所述片段的分类概率的均值等于所述第一输入文本的分类概率。可以将该训练阶段称为均值约束训练阶段。

如此，使用特定的理论假设来构建第一损失函数，在缺少片段标注的情况下，实现了利用整篇小说的分类标签进行监督训练；通过第一损失函数训练文本分类模型，使训练好的文本分类模型具备了初步的敏感内容文本识别能力。

基于图4所示文本分类方法，在一些实施例中，所述方法还可以包括：在所述第一输入文本的分类标签为包含敏感内容的情况下，确定所述第一输入文本中包括的至少一个所述片段的分类标签与所述第一输入文本的分类标签一致。

示例性地，第一输入文本的分类标签为敏感内容文本，那么，第一输入文本的K个片段的分类标签至少有一个片段的分类标签为敏感内容文本。

进一步地，所述根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数，包括：根据所述第一输入文本的K个所述片段的分类概率中的最大值、所述第一输入文本包括的片段数、以及所述第一输入文本的分类标签，确定第二损失函数；其中，所述基于所述损失函数，训练所述文本分类模型，包括：基于所述第二损失函数训练所述文本分类模型，使所述第一输入文本中K个所述片段的分类概率的最大值等于所述第一输入文本的分类概率。可以将该训练阶段称为最大值约束训练阶段。

如此，使用特定的理论假设来构建第二损失函数，在缺少片段标注的情况下，实现了利用整篇小说的分类标签进行监督训练。通过第二损失函数训练文本分类模型，使训练好的文本分类模型具备了较强的敏感内容文本识别能力。

基于图4所示文本分类方法，在一些实施例中，所述方法还可以包括：在所述第一输入文本的分类标签为包含敏感内容的情况下，确定所述第一输入文本中分类概率大于第一阈值的第一类片段以及所述第一输入文本中分类概率小于第二阈值的第二类片段，所述第一阈值大于所述第二阈值。

其中，第一阈值和第二阈值均可根据实际情况如训练精度或训练速度进行设定或调整。

示例性地，第一输入文本的分类标签为敏感内容文本，那么，第一输入文本的K个片段中Y1个片段的分类概率大于第一阈值，则有Y1个第一类片段。第一输入文本的K个片段中Y2个片段的分类概率小于第二阈值，则有Y2个第二类片段。其中，Y1+Y2小于等于K。

进一步地，所述根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数，包括：根据所述第一输入文本中第一类片段的概率值，所述第一输入文本中第二类片段的概率值、所述第一输入文本包括的所述第一类片段的片段数、所述第一输入文本包括的所述第二类片段的片段数、所述第一类片段的分类标签以及所述第二类片段的分类标签，确定第三损失函数；其中，所述基于所述损失函数，训练所述文本分类模型，包括：基于所述第三损失函数训练所述文本分类模型，使所述第一输入文本中所述第一类片段的分类概率值为1，所述第二类片段的概率值为0。可以将该训练阶段称为补偿约束训练阶段。

如此，使用特定的理论假设来构建第三损失函数，在缺少片段标注的情况下，实现了利用整篇小说的分类标签进行监督训练。通过第三损失函数训练文本分类模型，使训练好的文本分类模型具备了更强的敏感内容文本识别能力。

基于图4所示文本分类方法，在一些实施例中，将训练分为第一训练阶段、第二训练阶段和第三训练阶段；所述方法还可以包括：在所述第一训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之M1；在所述第二训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之M2；M1大于或等于M1；在所述第三训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之为M3；M3大于M1，M3大于M2。

其中，第一训练阶段为上文提到的均值约束训练阶段，第二训练阶段为上文提到的最大值约束训练阶段，第三训练阶段为上文提到的补偿约束训练阶段。

如此，模型训练过程包括均值约束、最大值约束和补偿约束三个阶段，每个阶段使用特定的理论假设来构建各自的损失函数，在缺少片段标注的情况下，实现了利用整篇小说的分类标签进行监督训练。另外，对于不同的训练阶段，采用一定比例的第一输入文本，既能够缩短训练周期，还能够保证训练效果，提高文本分类模型的识别能力。

基于图1所示文本分类方法，在一些实施例中，如图5所示，所述方法还可以包括：

S109：将第二输入文本的三维向量矩阵输入所述文本分类模型，得到由所述文本分类模型输出的所述第二输入文本的分类标签。

其中，所述第二输入文本的长度小于所述第一输入文本的长度；所述第二输入文本的三维向量矩阵是由所述第二输入文本包括的片段的词向量矩阵拼接而成的。

其中，第二输入文本为短文本，第一输入文本为长文本。

如此，训练结束后得到的文本分类模型，可以直接用于预测短文本的分类标签，不需要任何显式的知识迁移过程。

基于图1所示文本分类方法，在一些实施例中，所述文本分类模型包括第一卷积层、第二卷积层、池化层、全连接层和分类层；其中，所述第一卷积层与所述第二卷积层连接，所述第二卷积层与所述池化层连接，所述池化层与所述全连接层连接，所述全连接层与所述分类层连接。其中，所述将第二输入文本的三维向量矩阵输入所述文本分类模型，得到由所述文本分类模型输出的所述第二输入文本的分类标签，包括：将所述第二输入文本的三维向量矩阵逐层流过所述第一卷积层、所述第二卷积层、所述池化层、所述全连接层和所述分类层，得到由所述分类层输出的所述第二输入文本的分类标签。

通过上述实施方式，由于三维向量矩阵逐层流过文本分类模型的各个层，无层间交叉，能够提升文本分类模型的预测速度。

图6示出了文本分类模型的示意图，如图6所示，文本分类模型包含第一卷积层、第二卷积层、池化层、全连接层和分类层；其中，

第一卷积层的卷积核为5×128，步长为1，滤波器深度为128，使用线性整流函数(ReLU)作为激活函数。第一卷积层的输入为k×m×128的三维矩阵，输出为k×(m-4)×128的低层语义特征矩阵；

第二卷积层的卷积核为5×128，步长为1，滤波器深度为64，使用线性整流函数(ReLU)作为激活函数。相比第一卷积层，第二卷积层实施了进一步的数据降维，有助于对低层语义特征进行筛选并加快后续网络层的计算速度。输入为k×(m-4)×128的三维矩阵，输出为k×(m-8)×64的高层语义特征矩阵；

池化层采用最大池化技术，将每个片段的向量表达，从三维矩阵压缩为二维向量。池化层的输入为k×(m-8)×64的三维矩阵，输出为k×64的二维矩阵；

全连接层，变换尺度为64×64，使用线性整流函数(ReLU)作为激活函数。全连接层的输入和输出均为k×64的二维矩阵；

分类层，先采用64×2的尺度变换，再使用softmax函数对每个片段的输出向量进行归一化。分类层的输入为k×64的二维矩阵，输出为k×2的二维矩阵；

对于包含K个片段的输入文档，最终通过上述文本分类模型，计算得到每个片段的分类概率向量[p,q]。其中，p为敏感内容文本的概率，q为普通文本的概率，p+q＝1。

应理解，第一卷积层和第二卷积层的卷积核、步长、滤波器深度，均是示意性的。在此不做穷举。

应理解，图6所示的文本分类模型为一种可选的具体实现方式，本领域技术人员可以基于图6的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

图7示出了对长文本分类训练的流程图，如图7所示，以整篇小说这类长文本为第一输入文本为例，对整篇小说进行分句及合并处理，得到2个片段，分别记为片段1和片段2，对片段1和片段2分别进行分词处理，生成相应的词向量矩阵，将片段1的词向量矩阵1a和向量2的词向量矩阵2a输入第一卷积层，得到经第一卷积层处理后的片段1的词向量矩阵1b和向量2的词向量矩阵2b；将片段1的词向量矩阵1b和向量2的词向量矩阵2b输入第二卷积层，得到经第二卷积层处理后的片段1的词向量矩阵1c和向量2的词向量矩阵2c；将片段1的词向量矩阵1c和向量2的词向量矩阵2c输入池化层，得到归一化的片段1的词向量矩阵1d和向量2的词向量矩阵2d；将片段1的词向量矩阵1d和向量2的词向量矩阵2d流过全连接层，再经过分类层，得到片段1的分类概率[p,q]和片段2的分类概率[p,q]。其中，p为敏感内容文本的概率，q为普通文本的概率，p+q＝1。

在K×2的输出概率矩阵中，K个片段的分类预测是彼此独立的。这些片段来自同一个长文本，可以确认该文本的标签(“敏感内容”或“普通”)，但无法确认每个片段的标签。但是，如果输入文本的标签为“敏感内容”，则全部片段中至少一个片段的标签也是“敏感内容”。如果输入文本的标签为“普通”，则全部片段的标签都是“普通”。根据这一特点，本公开可将模型训练过程分为三个阶段，在每个阶段对敏感内容进行不同的假设，推导出不同的损失函数。该训练方法可以从整篇长文本的标注中学习知识，并迁移到短文本的敏感内容分类任务中。在每一个训练步，取包含N个文本其对应标签T＝[t₁,t₂,…,t_N]作为一个批次的输入数据，其中，t₁表示第1个文本的标签，t₂表示第2个文本的标签，t_N表示第N个文本的标签。经过分句及合并后，各文本所包含的片段数为K＝[k₁,k₂,…,k_N]，其中，K₁表示第1个文本包含的片段数，K₂表示第2个文本包含的片段数，K_N表示第N个文本包含的片段数。这些片段经过上述文本分类模型处理后，得到各个片段的分类概率。

根据T、K、P三个向量，计算损失函数L，并采用Adam误差反向传播(Error BackPropagation，BP)算法反向更新梯度，降低L。待遍历全部标注数据数次后，训练结束，保存文本分类模型。这里，遍历次数可以为4或5。当然，遍历次数可根据训练需求进行设定或调整。

具体的，上述提到的三个训练阶段具体如下：

第一训练阶段为均值约束阶段。该阶段是启动阶段，假设文本中的所有片段的标注，和文本自身的标注一致。即，敏感内容文本中的片段全部都是敏感内容片段，普通文本中的片段全部都是普通片段。该假设可以帮助模型沿着正确方向快速收敛。优化目标为各个文本中全部片段的分类概率均值等于该文本的敏感内容分类概率。损失函数L1为：

其中，N表示当前训练批次中的文本数，t_i表示第i个文本的标签，若标签为敏感内容，则t_i＝1，若标签为普通内容，则t_i＝1；k_i表示第i个文本包含的片段数，p_ij表示第i个文本中第j个片段为敏感内容的分类概率。

第二个训练阶段为最大值约束阶段。经过第一个训练阶段的训练，模型已经具备了初步的敏感内容文本识别能力。第二个训练阶段根据“敏感内容文本中至少有一个敏感内容片段”的实际情况，进一步强化约束，假设其中分类概率最大的片段为敏感内容片段。优化目标为各个文本中全部片段的分类概率最大值等于该文本的敏感内容分类概率。损失函数L2为：

第三个训练阶段为补偿约束阶段。第二训练阶段中的每个文本，只有分类概率最大的一个片段参与了模型训练，有效训练样本的规模受限。因此，第三个训练阶段进行补偿训练，假设敏感内容文本中分类概率超过0.7的片段都是敏感内容片段，低于0.4的片段都是普通片段，其他片段的分类概率置信度不足，故不参与训练。优化目标为敏感内容片段的分类概率为1，普通片段的分类概率为0。损失函数L3为：

其中，N表示当前训练批次中的文本数，t_i表示第i个文本的标签，若标签为敏感内容，则t_i＝1，若标签为普通内容，则t_i＝1；k_i表示第i个文本包含的片段数，p_ij表示第i个文本中第j个片段为敏感内容的分类概率。sgn为符号函数。

应理解，0.7和0.4均是示意性的，在此不做穷举。

在整体训练过程中，阶段一为前10％的训练步，使用损失函数L1；阶段二为前10％～20％的训练步，使用损失函数L2；阶段三为其余80％的训练步，使用复合损失函数L2+L3。举例来说，假设总共有10万个文本，将10万个文本分成三个训练步，第一个训练步取10万×10％＝1万的文本，第二个训练步取(10万-1万)×20％的文本，第三个训练步取(10万-1万)×80％的文本。或者，第一个训练步取10万×10％＝1万的文本，第二个训练步取10万×10％的文本，第三个训练步取10万×80％的文本。

应理解，10％，20％，80％均是示意性的，在此不做穷举。

如此，本公开的模型训练过程包括均值约束、最大值约束和补偿约束三个阶段。每个阶段使用特定的理论假设来构建各自的损失函数。该方案在缺少片段标注的情况下，实现了利用整篇小说的分类标签进行监督训练。

以第一输入文本为长文本，第二输入文本为短文本，敏感内容为色情内容，文本分类模型为色情分类模型为例，图8示出了长文本分类训练与短文本分类预测的整体流程示意图，如图8所示，该流程包括：对于长文本分类训练，对整篇小说进行分句及合并处理，得到片段1和片段2，将片段1和片段2输入色情分类模型，得到片段1的分类概率p1以及片段2的分类概率p2，分阶段计算损失函数，基于损失函数分阶段训练色情分类模型，更新色情分类模型的参数，最终得到训练好的色情分类模型。对于短文本预测，将短文本输入色情分类模型，得到由色情分类模型输出的该短文本是色情文本还是普通文本的分类结果。也就是说，长文本分类训练和短文本分类预测两个阶段共享以上流程。对于短文本分类预测，如果输入文档不超过200字，则跳过分句及合并步骤，即只包含唯一K＝1个片段，p0即为分类概率，全部流程结束。对于长文本分类训练，需要继续进行后续流程，将深度学习网络训练成色情分类模型。

可见，通过本公开的技术方案，在训练文本分类模型时，用可以批量获取的长篇小说替代收集难度更大、缺少标签的短文本片段，极大地压缩了训练样本制作周期，免去了人工标注成本。对长文本进行先分句再合并，解决了深度学习网络无法直接处理长文本的问题。长文本分类训练和短文本分类预测，共享同一个文本分类模型，无需进行额外的知识迁移处理。本公开所设计的损失函数，利用了敏感内容分类任务的应用特点，实现了整篇标注对片段样本的监督训练。三个递进的训练阶段，对理论假设进行了补偿，提升了文本分类模型对样本的召回能力。

本公开使用长文本样本及其标注标签作为训练数据，训练用于短文本敏感内容分类的模型。上述训练样本的长度(如万字)，远超过普通深度学习分类模型可以直接处理的范围(如百字)。模型训练过程不依赖任何经人工标注的短文本数据。

本公开产出的文本分类模型，为精简的深度学习模型，包含输入层、第一卷积层、第二卷积层、池化层、全连接层和分类层。各个模块均为基础的深度学习单元，未采用任何复杂结构。整体计算开销小，模型训练和实际测试速度极快，适合高吞吐业务的部署。

本公开采用先分句后合并的方式，将长文本输入数据进行切成片段。这些片段由若干完整的句子组成，长度控制在一定字数之间。只有在单独的某个句子超长的情况，才会在非句末标点处进行直接截断。

本公开对长文本切成的各个短片段，进行互相独立的分类概率计算。该方案保证了分类器的输入数据长度分布在深度学习模型可以直接处理的合理区间内，进而避免了对长文本训练和短文本预测进行差异化的模型设计。训练完成后的模型，可以直接用于短文本的敏感内容分类任务，不需要任何显式的知识迁移过程。

本公开的模型训练过程包括均值约束、最大值约束和补偿约束三个阶段。每个阶段使用特定的理论假设来构建各自的损失函数。该方案在缺少片段标注的情况下，实现了利用整篇小说的分类标签进行监督训练。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图9对本公开示例性实施方式的介质进行说明。

在一些可能的实施方式中，本公开的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的文本分类方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)或闪存、光纤、便携式紧凑盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图9所示，描述了根据本公开的实施方式的介质900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本公开不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的方法之后，接下来，对本公开示例性实施方式的装置进行说明。

本公开实施例提供一种文本分类装置如图10所示，该文本分类装置包括：分段单元1001，用于将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；分词单元1002，用于对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；确定单元1003，用于根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；分类单元1004，用于将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

在本公开的一个实施例中，所述分词单元1002用于对所述K个片段进行下述至少之一分词处理：将每个所述片段的每个汉字分成一个词；将每个所述片段的每个标点符号分成一个词；将每个所述片段的单独出现的一个数字字符或者连续出现的多个数字字符分成一个词；将每个所述片段的单独出现的一个英文字母或者连续出现的多个英文字母分成一个词。

在本公开的一个实施例中，如图11所示，所述装置还可以包括：统计单元1005，用于获取M个所述第一输入文本中每个所述第一输入文本包括的词，并统计在所述M个所述第一输入文本中出现的词的词频；M为大于1的整数；构建单元1006，用于基于每个词的词频，构建词典以及词典向量矩阵；其中，所述确定单元1003，用于：基于所述词典以及所述词典向量矩阵，确定每个所述片段包括的词所对应的词向量；根据每个所述片段包括的词所对应的词向量，确定所述K个片段中每个所述片段的词向量矩阵。

在本公开的一个实施例中，所述构建单元1006，用于：根据词频排名前S的词构建所述词典；为前S个词中的每个词分别分配目标编号，并配置预留编号；根据前S个词中的每个词对应的所述目标编号，生成前S个词中的每个词对应的词向量；以及，根据所述预留编号生成所述预留编号对应的词向量；根据所述预留编号对应的词向量，以及前S个词中的每个词对应的词向量，构建所述词典向量矩阵。

在本公开的一个实施例中，所述确定单元1003，用于：查询每个所述片段中的每个词在所述词典中的目标编号；基于每个所述片段中的每个词在所述词典中的所述目标编号，从所述词典向量矩阵中查询每个所述片段中的每个词对应的词向量；在未查询到所述片段中的当前词在所述词典中的目标编号的情况下，将预留编号对应的词向量作为所述当前词对应的词向量。

在本公开的一个实施例中，如图11所示，所述装置还可以包括：拼接单元1007，用于将所述K个片段中每个所述片段的所述词向量矩阵，拼接成所述第一输入文本的三维向量矩阵；其中，所述分类单元1004，还用于：将所述第一输入文本的三维向量矩阵，输入到所述文本分类模型中。

在本公开的一个实施例中，如图11所示，所述装置还可以包括：预处理单元1008，用于对所述K个片段中每个所述片段进行下述至少之一处理：在所述片段存在预设文本符号的情况下，删除所述预设文本符号；在所述片段存在大写字母的情况下，将所述大写字母转化为小写字母。

在本公开的一个实施例中，如图11所示，所述装置还可以包括：训练单元1009，用于：根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数；基于所述损失函数，训练所述文本分类模型。

在本公开的一个实施例中，所述训练单元1009，还用于：根据所述第一输入文本的分类标签确定所述第一输入文本中包括的每个所述片段的分类标签，所述第一输入文本中包括的每个所述片段的分类标签与所述第一输入文本的分类标签一致；根据所述第一输入文本中包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及所述第一输入文本中包括的每个片段的分类标签，确定第一损失函数；基于所述第一损失函数训练所述文本分类模型，使所述第一输入文本中K个所述片段的分类概率的均值等于所述第一输入文本的分类概率。

在本公开的一个实施例中，所述训练单元1009，还用于：在所述第一输入文本的分类标签为包含敏感内容的情况下，确定所述第一输入文本中包括的至少一个所述片段的分类标签与所述第一输入文本的分类标签一致；根据所述第一输入文本的K个所述片段的分类概率中的最大值、所述第一输入文本包括的片段数、以及所述第一输入文本的分类标签，确定第二损失函数；基于所述第二损失函数训练所述文本分类模型，使所述第一输入文本中K个所述片段的分类概率的最大值等于所述第一输入文本的分类概率。

在本公开的一个实施例中，所述训练单元1009，还用于：在所述第一输入文本的分类标签为包含敏感内容的情况下，确定所述第一输入文本中分类概率大于第一阈值的第一类片段以及所述第一输入文本中分类概率小于第二阈值的第二类片段，所述第一阈值大于所述第二阈值；根据所述第一输入文本中第一类片段的概率值，所述第一输入文本中第二类片段的概率值、所述第一输入文本包括的所述第一类片段的片段数、所述第一输入文本包括的所述第二类片段的片段数、所述第一类片段的分类标签以及所述第二类片段的分类标签，确定第三损失函数；基于所述第三损失函数训练所述文本分类模型，使所述第一输入文本中所述第一类片段的分类概率值为1，所述第二类片段的概率值为0。

在本公开的一个实施例中，所述训练分为第一训练阶段、第二训练阶段和第三训练阶段；所述训练单元1009，还用于：在所述第一训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之M1；在所述第二训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之M2；M1大于或等于M1；在所述第三训练阶段采用的所述第一输入文本的数量占总的所述第一输入样本数量的百分之为M3；M3大于M1，M3大于M2。

在本公开的一个实施例中，所述分类单元1004，还用于：将第二输入文本的三维向量矩阵输入所述文本分类模型，得到由所述文本分类模型输出的所述第二输入文本的分类标签；其中，所述第二输入文本的长度小于所述第一输入文本的长度；所述第二输入文本的三维向量矩阵是由所述第二输入文本包括的片段的词向量矩阵拼接而成的。

在本公开的一个实施例中，所述文本分类模型包括第一卷积层、第二卷积层、池化层、全连接层和分类层；其中，所述第一卷积层与所述第二卷积层连接，所述第二卷积层与所述池化层连接，所述池化层与所述全连接层连接，所述全连接层与所述分类层连接；其中，所述分类单元1004，还用于：将所述第二输入文本的三维向量矩阵逐层流过所述第一卷积层、所述第二卷积层、所述池化层、所述全连接层和所述分类层，得到由所述分类层输出的所述第二输入文本的分类标签。

本公开装置文本分类装置中各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

本公开所述文本分类装置，能够采用长文本作为训练数据来训练文本分类模型，且只需依赖长文本的标注标签，无需对其中的各个片段进行额外人工标注，充分利用了易获取的海量长文本，极大地降低了开发成本，解决了文本分类模型无法直接处理长文本的问题，本公开对长文本切成的各个短片段，进行互相独立的分类概率计算，保证了输入数据长度分布在文本分类模型可以直接处理的合理区间内，进而避免了对长文本训练和短文本预测进行差异化的模型设计，从而有助于实现了从长文本训练数据到短文本实测数据的知识迁移。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图12对本公开示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开的各种示例性实施方式的文本分类方法中的步骤。

下面参照图12来描述根据本公开的这种实施方式的计算设备1200。图12显示的计算设备1200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，计算设备1200以通用计算设备的形式表现。计算设备1200的组件可以包括但不限于：上述至少一个处理单元1201、上述至少一个存储单元1202，连接不同系统组件(包括处理单元1201和存储单元1202)的总线1203。

总线1203包括数据总线、控制总线和地址总线。

存储单元1202可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)12021和/或高速缓存存储器12022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)12023。

存储单元1202还可以包括具有一组(至少一个)程序模块12024的程序/实用工具12025，这样的程序模块12024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备1200也可以与一个或多个外部设备1204(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口1205进行。并且，计算设备1200还可以通过网络适配器1206与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图12所示，网络适配器1206通过总线1203与计算设备1200的其它模块通信。应当理解，尽管图12中未示出，可以结合计算设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、独立磁盘冗余阵列(RedundantArray of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了文本分类装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种文本分类方法，包括：

将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；

对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；

根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；

将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

2.根据权利要求1所述的方法，其中，所述对所述K个片段进行分词处理，包括下述至少之一：

将每个所述片段的每个汉字分成一个词；

将每个所述片段的每个标点符号分成一个词；

将每个所述片段的单独出现的一个数字字符或者连续出现的多个数字字符分成一个词；

将每个所述片段的单独出现的一个英文字母或者连续出现的多个英文字母分成一个词。

3.根据权利要求1所述的方法，其中，所述方法还包括：

获取M个所述第一输入文本中每个所述第一输入文本包括的词，并统计在所述M个所述第一输入文本中出现的词的词频；M为大于1的整数；

基于每个词的词频，构建词典以及词典向量矩阵；

其中，所述根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵，包括：

基于所述词典以及所述词典向量矩阵，确定每个所述片段包括的词所对应的词向量；

根据每个所述片段包括的词所对应的词向量，确定所述K个片段中每个所述片段的词向量矩阵。

4.根据权利要求3所述的方法，其中，所述基于每个词的词频，构建词典以及词典向量矩阵，包括：

根据词频排名前S的词构建所述词典；

为前S个词中的每个词分别分配目标编号，并配置预留编号；

根据前S个词中的每个词对应的所述目标编号，生成前S个词中的每个词对应的词向量；以及，根据所述预留编号生成所述预留编号对应的词向量；

根据所述预留编号对应的词向量，以及前S个词中的每个词对应的词向量，构建所述词典向量矩阵。

5.根据权利要求4所述的方法，其中，所述基于所述词典以及所述词典向量矩阵，确定每个所述片段包括的词所对应的词向量，包括：

查询每个所述片段中的每个词在所述词典中的目标编号；

基于每个所述片段中的每个词在所述词典中的所述目标编号，从所述词典向量矩阵中查询每个所述片段中的每个词对应的词向量；

在未查询到所述片段中的当前词在所述词典中的目标编号的情况下，将预留编号对应的词向量作为所述当前词对应的词向量。

6.根据权利要求1所述的方法，其中，所述方法还包括：

将所述K个片段中每个所述片段的所述词向量矩阵，拼接成所述第一输入文本的三维向量矩阵；

其中，所述将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，包括：

将所述第一输入文本的三维向量矩阵，输入到所述文本分类模型中。

7.根据权利要求1所述的方法，其中，所述方法还包括：

根据所述第一输入文本包括的每个片段的分类概率、所述第一输入文本包括的片段数、以及基于所述第一输入文本的分类标签，确定损失函数；

基于所述损失函数，训练所述文本分类模型。

8.一种文本分类装置，包括：

分段单元，用于将第一输入文本切分成K个片段，其中，K为正整数，每个所述片段包含若干个句子；

分词单元，用于对所述K个片段进行分词处理，得到所述K个片段中每个所述片段包括的词；

确定单元，用于根据所述K个片段中每个所述片段包括的词，确定所述K个片段中每个所述片段的词向量矩阵；

分类单元，用于将所述K个片段中每个所述片段的所述词向量矩阵输入到文本分类模型中，得到由所述文本分类模型预测的各个所述片段包含敏感内容的概率。

9.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

10.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。