CN114328919A

CN114328919A - 文本内容分类方法、装置、电子设备及存储介质

Info

Publication number: CN114328919A
Application number: CN202111604888.6A
Authority: CN
Inventors: 张薇薇; 赵旭; 柳正青
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本公开提供了一种文本内容分类方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及深度学习技术领域。具体实现方案为：获取目标文本内容的名称，简介和章节标题；提取名称的名称特征，简介的简介特征和章节标题的章节标题特征；基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签。通过上述处理，可以高效、准确地实现对文本内容的多标签分类。

Description

文本内容分类方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习技术领域，具体涉及一种文本内容分类方法、装置、电子设备及存储介质。

背景技术

在相关技术中，通常采用以下方式对文本进行分类：收集训练样本；对文本进行预处理；将处理过的文本进行向量表示，并根据文本的表示形式确定相应的特征提取方法；利用传统机器学习方法或深度学习方法训练模型，基于训练好的模型对文本进行分类。但上述方法存在缺点，上述方法对每个文本内容进行分类时，每个文本内容仅属于一个类别，即文本内容仅对应于一个标签，但该分类明显不能较为具体地体现文本内容的特点。另外，在待分类文本内容过长时，上述方法的分类结果也不够准确。因此，在相关技术方案中，文本内容分类方式较为单一，无法较为具体地体现文本内容的特点的问题。

发明内容

本公开提供了一种用于文本内容分类的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文本内容分类方法，包括：获取目标文本内容的名称，简介和章节标题；提取名称的名称特征，简介的简介特征和章节标题的章节标题特征；基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签。

可选地，提取名称的名称特征，简介的简介特征和章节标题的章节标题特征包括：对名称的关键词进行抽取，得到名称目标词，提取名称目标词的特征，得到名称的名称特征；对简介的无效词进行过滤，得到目标简介内容，提取目标简介内容的特征，得到简介的简介特征；对章节标题进行无效数据清洗操作，得到目标章节标题，提取目标章节标题的特征，得到章节标题的章节标题特征。

可选地，对简介的无效词进行过滤，得到目标简介内容包括：采用关键字抽取和整句过滤的方式，对简介的无效词进行过滤，得到目标简介内容；对章节标题进行无效数据清洗操作，得到目标章节标题包括：采用过滤章节标题的格式，提取章节标题的主体的方式，对章节标题进行无效数据清洗操作，得到目标章节标题。

可选地，采用过滤章节标题的格式，提取章节标题的主体的方式，对章节标题进行无效数据清洗操作，得到目标章节标题包括以下至少之一：删除章节标题的序号，删除章节标题的后缀，删除重复的章节标题，删除相似度大于相似度阈值的章节标题，删除章节标题的说明性内容。

可选地，基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签包括：采用预测模型，基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签，其中，预测模型基于多组样本数据训练得到，多组样本数据包括：文本内容的名称特征，简介特征和章节标题特征，以及该文本内容在多个分类维度上的标签。

可选地，上述方法还包括：通过以下方式训练得到预测模型：获取句子对样本数据，采用句子对样本数据进行机器训练，得到初始模型，其中，句子对样本数据包括：句子对和该句子对所表示的语义；使用文本内容所属预定领域的领域语料对初始模型进行训练，得到针对于预定领域的语言模型，其中，领域语料包括：领域术语和该领域术语对应的标签；采用多组样本数据对语言模型进行训练，得到预测模型。

可选地，采用多组样本数据对语言模型进行训练，得到预测模型包括：为语言模型构造针对多标签中单独标签的第一损失函数和针对文本内容整体的第二损失函数；结合第一损失函数和第二损失函数，对语言模型进行训练，得到预测模型。

可选地，文本内容为小说。

根据本公开的另一方面，提供了一种文本内容分类的装置，包括：获取模块，用于获取目标文本内容的名称，简介和章节标题；提取模块，用于提取名称的名称特征，简介的简介特征和章节标题的章节标题特征；预测模块，用于基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签。

可选地，提取模块包括：第一提取单元，用于对名称的关键词进行抽取，得到名称目标词，提取名称目标词的特征，得到名称的名称特征；第二提取单元，用于对简介的无效词进行过滤，得到目标简介内容，提取目标简介内容的特征，得到简介的简介特征；第三提取单元，用于对章节标题进行无效数据清洗操作，得到目标章节标题，提取目标章节标题的特征，得到章节标题的章节标题特征。

可选地，第二提取单元包括：第一处理子单元，用于采用关键字抽取和整句过滤的方式，对简介的无效词进行过滤，得到目标简介内容；第三提取单元包括：第二处理子单元，用于采用过滤章节标题的格式，提取章节标题的主体的方式，对章节标题进行无效数据清洗操作，得到目标章节标题。

可选地，第二处理子单元，还用于通过以下方式至少之一，采用过滤章节标题的格式，提取章节标题的主体的方式，对章节标题进行无效数据清洗操作，得到目标章节标题：删除章节标题的序号，删除章节标题的后缀，删除重复的章节标题，删除相似度大于相似度阈值的章节标题，删除章节标题的说明性内容。

可选地，预测模块包括：预测单元，用于采用预测模型，基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签，其中，预测模型基于多组样本数据训练得到，多组样本数据包括：文本内容的名称特征，简介特征和章节标题特征，以及该文本内容在多个分类维度上的标签。

可选地，上述装置还包括：训练模块，训练模块包括：第一训练单元，用于获取句子对样本数据，采用句子对样本数据进行机器训练，得到初始模型，其中，句子对样本数据包括：句子对和该句子对所表示的语义；第二训练单元，用于使用文本内容所属预定领域的领域语料对初始模型进行训练，得到针对于预定领域的语言模型，其中，领域语料包括：领域术语和该领域术语对应的标签；第三训练单元，用于采用多组样本数据对语言模型进行训练，得到预测模型。

可选地，第三训练单元包括：构造子单元，用于为语言模型构造针对多标签中单独标签的第一损失函数和针对文本内容整体的第二损失函数；训练子单元，用于结合第一损失函数和第二损失函数，对语言模型进行训练，得到预测模型。

可选地，上述装置中文本内容为小说。

根据本公开的还一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行任一项上述的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行任一项上述的方法。

根据本公开的再一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现任一项上述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的文本内容分类方法的流程图；

图2是根据本公开可选实施方式提供的文本内容分类方法的示意图；

图3是根据本公开实施例提供的文本内容分类装置的结构框图；

图4是用来实现本公开实施例的文本内容分类的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

术语说明

自然语言处理技术(Natural Language Processing，简称NLP)，是研究人与计算机交互的语言问题的一门学科。

应用程序编程接口(Application Programming Interface，简称API)，是一些预先定义的接口(如函数、HTTP接口)，或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程，而又无需访问源码，或理解内部工作机制的细节。

朴素贝叶斯法(

Bayes model)，是基于贝叶斯定理与特征条件独立假设的分类方法。

逻辑回归，是一种广义的线性回归分析模型，常用于数据挖掘、疾病自动诊断、经济预测等领域。

支持向量机(Support Vector Machine，简称SVM)，是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalizedlinear classifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。

最邻近节点算法(K-Nearest Neighbor，简称KNN)，是数据挖掘分类技术中最简单的方法之一。所谓K最邻近，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。

XGBoost，一个优化的分布式梯度增强库，旨在实现高效、灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost提供并行树提升(也称GBDT，GBM)，可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop，SGE，MPI)上运行，并且可以解决数十亿个示例之外的问题。

FastText，一个快速文本分类算法。

TextCNN，一种利用卷积神经网络对文本进行分类的算法。

TextRNN，一种利用循环神经网络对文本进行分类的算法。

ERNIE 2.0，一种持续学习语义理解框架，该框架支持增量引入不同角度的自定义预训练任务，以捕捉语料中词法、语法、语义等信息。这些任务通过多任务学习对模型进行训练更新，每当引入新任务时，该框架可在学习该任务的同时，不遗忘之前学到过的信息。

BERT，全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。BERT MASK方法是指：15％的原始数据被mask，85％的原始数据没有被mask；对于被mask的15％分三种处理方式，其中的80％赋值为MASK，10％进行随机赋值，剩下的10％保留原来值。

在本公开实施例中，提供了一种文本内容分类方法，图1是本公开实施例提供的文本内容分类方法的流程图，如图1所示，该方法包括：

步骤S102，获取目标文本内容的名称，简介和章节标题；

步骤S104，提取名称的名称特征，简介的简介特征和章节标题的章节标题特征；

步骤S106，基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签。

通过上述步骤，获取目标文本内容的名称、简介和章节标题，对目标文本内容的名称、简介和章节标题进行特征提取，由于简介和章节标题可以较为全面，准确地描述文本内容的主要信息，因此，可以最大限度地保留对于预测文本内容在各分类维度上对应标签有效的特征信息，使得后续的预测判断过程更加高效、准确，提高文本内容分类结果的准确性，最后，基于获取的名称、简介和章节标题的特征以及这些特征之间的关联关系预测目标文本内容在多个分类维度上的标签，可以实现对文本内容的多标签分类，使目标文本内容对应的标签更加全面、准确，进而解决相关技术方案中，文本内容分类方式较为单一，无法较为具体地体现文本内容的特点的问题，进而达到高效、准确，全面地得到对文本内容的分类结果。

作为一种可选的实施例，在提取名称的名称特征，简介的简介特征和章节标题的章节标题特征时可以采取多种方式，例如，可以采取以下方式：对名称的关键词进行抽取，得到名称目标词，提取名称目标词的特征，得到名称的名称特征；对简介的无效词进行过滤，得到目标简介内容，提取目标简介内容的特征，得到简介的简介特征；对章节标题进行无效数据清洗操作，得到目标章节标题，提取目标章节标题的特征，得到章节标题的章节标题特征。通过抽取名称的关键词、过滤简介的无效词以及对章节标题进行无效数据清洗，可以最大限度地去除无效的信息，避免噪声数据的干扰，使得之后预测的结果更加准确，在去除无效信息之后，对名称目标词、目标简介内容以及目标章节标题进行特征提取，得到的特征数据将作为判断依据供后续预测文本内容对应标签时所用，可以进一步地提高文本内容分类结果的准确性。

作为一种可选的实施例，在对简介的无效词进行过滤，得到目标简介内容时可以采用多种方式，例如，可以采用以下方式：采用关键字抽取和整句过滤的方式，对简介的无效词进行过滤，得到目标简介内容；同样的，在对章节标题进行无效数据清洗操作，得到目标章节标题时可以采用多种方式，例如，可以采用以下方式：采用过滤章节标题的格式，提取章节标题的主体的方式，对章节标题进行无效数据清洗操作，得到目标章节标题。针对简介内容共有关键字抽取和整句过滤两种细粒度的过滤格式，过滤效果显著且适配性高，能够最大程度地保留当前文本简介中的有效内容，而通过过滤章节标题的格式以及提取章节标题主体的方式，可以有效地过滤掉章节标题中的无效信息，避免噪声数据的干扰，进一步地提高文本内容分类结果的准确性。

作为一种可选的实施例，采用过滤章节标题的格式，提取章节标题的主体的方式对章节标题进行无效数据清洗操作，得到目标章节标题时可以采用多种方式，例如，可以采用以下方式中至少之一：删除章节标题的序号，删除章节标题的后缀，删除重复的章节标题，删除相似度大于相似度阈值的章节标题，删除章节标题的说明性内容。通过删除上述内容，可以最大限度地过滤掉章节标题中无效数据，避免这些无效内容对预测文本分类对应标签造成干扰，提高文本内容分类标签预测结果的准确性。

作为一种可选的实施例，基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签时可以采用多种方式，例如，可以采用以下方式：采用预测模型，基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签，其中，预测模型基于多组样本数据训练得到，多组样本数据包括：文本内容的名称特征，简介特征和章节标题特征，以及该文本内容在多个分类维度上的标签。基于多组文本内容的名称特征、简介特征和章节标题特征，以及该文本内容在多个分类维度上的标签训练得到的预测模型，可以实现高效、准确地对文本内容的多标签分类预测，同时提高预测结果的准确性。

作为一种可选的实施例，预测模型可以通过多种方式训练得到，例如，可以通过以下方式：获取句子对样本数据，采用句子对样本数据进行机器训练，得到初始模型，其中，句子对样本数据包括：句子对和该句子对所表示的语义；使用文本内容所属预定领域的领域语料对初始模型进行训练，得到针对于预定领域的语言模型，其中，领域语料包括：领域术语和该领域术语对应的标签；采用多组样本数据对语言模型进行训练，得到预测模型。通过采用句子对和该句子对所对应的语义训练预测模型，加强了模型对词义和语义的理解能力和分析能力，使得模型更加准确地判断文本内容，以便于后续分类以及标签的预测，而通过采用文本内容所属预定领域的领域术语和该领域术语对应的标签对预测模型进行训练，则可以增强预测模型对该预定领域中的术语和对应标签的分析能力，进而提高对该目标文本内容分类的敏感性和准确性，优化模型的分类效果。

作为一种可选的实施例，在采用多组样本数据对语言模型进行训练，得到预测模型时可以采用多种方式，例如，可以采用以下方式：为语言模型构造针对多标签中单独标签的第一损失函数和针对文本内容整体的第二损失函数；结合第一损失函数和第二损失函数，对语言模型进行训练，得到预测模型。通过构造第一损失函数和第二损失函数，可以从每个单独的标签和文本内容整体两个角度分别对模型的预测误差进行评估，使模型在训练过程中能高效地学习文本内容特征，最小化测试误差，进一步地提高预测模型的准确性，也提升了模型的泛化能力。

作为一种可选的实施例，上述的文本内容可以是多种，例如，可以是小说，通过预测小说的标签，可以更加全面、细致地对小说进行分类，从而更好地满足用户阅读小说的需求，也可以提高关于小说分类的检索和推荐的准确性，提升用户的使用感和体验感。需要说明的是，小说仅仅为一种长文本内容的举例，其它类似于小说的长文本内容也可以采用上述方法进行多标签分类进行预测，例如，网络连载内容等。

基于上述实施例及可选实施例，提供了一种可选实施方式。

长文本内容(例如，小说)是一个语料庞大且受众广泛的垂类，书籍物料库中存储了小说书名、作者、简介、全部章节、正文、书籍分类等关键信息。一般小说分类的标签是由作者或出版方资源方等人工标注，虽然小说数据库中存储了很多书籍关键信息，但小说的分类标签种类少且覆盖率低，对于能从资源方或者现有书籍转码资源中获取标签用于维护的热门书籍尚且还好，但除此以外的书籍的标签分类存在维护困难、人工标注工作量非常大、成本极高且收益无法保证的问题。书籍标签分类体系的不完整和不规范，使得当前很难基于书籍分类进行数据管理，无法在数据库中进行细粒度的小说标签分类，不利于泛需求检索、推荐等业务场景。

以上描述的问题导致当前用户在垂类搜索等场景中以某类书籍标签为查询描述词的召回排序很难让用户得到满足，严重降低了用户的搜索和阅读体验，进而影响用户阅读使用时长和平台粘性。也不利于刻画用户画像、捕捉用户特征、识别用户行为意图，无法基于标签识别用户兴趣爱好，很难实现内容推送等个性化推荐。

在相关技术中，小说标签分类方法一般是基于人工标注的，极少将深度学习和机器学习方法应用于书籍标签的分类，主要原因是当前自然语言处理技术(NaturalLanguage Processing，简称NLP)的发展不够成熟，小说文本太多且内容不够精炼，较难提取书籍标签特征，因此没有通用的小说相关数据集，而且也没有通用的或行业默认的书籍标签标注规则。因此，当前广泛用于文本多分类的技术很难实现超多标签超长文本的分类。

本可选实施方式意在解决上述问题，通过深度学习的多标签分类技术，使用小说的书名、简介、章节标题内容挖掘小说的多维(目前是七个维度(后续依据分类的细化可能还会增加)：风格、流派、背景、情节、角色身份、角色性格、同人元素)标签。

小说目前的需求是尽量从风格、流派、背景、情节、角色身份、角色性格、同人元素这七个维度上为小说打标签。因为当前小说甚至大部分的书籍的标签是通过人工标注的，所以相关的可用技术和可用数据参考有限，例如，主流的376个标签，覆盖了两万本以上的小说。所以优先考虑使用NLP中的文本分类进行处理。

所采用的文本分类方法及分类流程如下：

(1)数据收集：通过爬虫、应用程序编程接口(Application ProgrammingInterface，简称API)等途径进行数据集的收集。主要注意数据的每个类别的样本数量均衡、不能过度失衡。训练样本越多越好，对于模型的泛化能力有帮助。同时确保样本充分覆盖可能的输入空间，而不仅仅是覆盖常见的情况。

(2)探索数据及文本预处理：观察数据特征，根据需求对文本进行相应的预处理。

(3)特征工程：选择文本表示方式和特征提取方法，表示方法主要有空间向量模型和词向量模型。不同文本表示方法有相应特征提取方法。

(4)训练分类器：一般有传统机器学习方法和深度学习方法。传统机器学习方法有朴素贝叶斯、逻辑回归、支持向量机、最邻近节点算法(K-Nearest Neighbor，简称KNN)和XGBoost。深度学习方法由FastText、TextCNN、TextRNN、Transformer等卷积神经网络实现。

本公开可选实施方式采用深度学习方法，一般用于NLP文本分类的深度学习基于四种神经网络结构，分别是NN、CNN、RNN、Transformer。

NN是传统的神经网络模型，例如，FastText。CNN是卷积神经网络模型。将图像网络结构用于文本处理，例如，TextCNN。之后基于CNN，又出现了CharCNN、VDCNN等等。RNN是循环神经网络模型。RNN用于文本处理，有天然的优势，但普通RNN会有梯度爆炸/梯度消失的问题，所以有了改进的RNN模型：LSTM、GRU。LSTM/GRU是基于门的概念来解决RNN网络的梯度问题。基于上下文的概念，又有Bi-LSTM/Bi-GRU等。RNN\LSTM\GRU。Transformer是近年提出的新型的网络结构，是比CNN/RNN更为强大的特征提取器。Transformer的关键点是自注意力机制。当前各方面表现和应用最广泛的是基于Transformer的网络模型。本公开可选实施方式是基于使用了multi-head attention机制的ERNIE模型。

上述相关技术中，所采用的对文本内容的分类大致属于标签文本多分类，不足以满足当前的需求，“文本多分类”是指，共有多个类别，每个样本的标签值只能属于其中一个类别。而对于本公开可选实施方式中的多标签分类问题而言，每个样本的标签值可能不仅仅属于同一个类别。放在当前的小说环境中可以理解为，一本小说既是甜宠文又是霸道总裁文而且主角性格还是腹黑的，情节上还可以是校园青春的。这本小说就拥有：甜宠、腹黑、霸道总裁、校园等4个标签，维度上又可以将标签分为风格、角色身份、角色性格、情节等等。所以类标签数量不确定，有些样本可能只有一个类标签，有些样本的类标可能高达十几个。因此本公开可选实施方式针对的是“多标签文本分类”而非“文本多分类”。

通过前面的需求描述可以知道，分类任务中一条数据可能有多个维度，一个维度可能不止一个标签，并且类别标签之间可能存在相互依赖关系：比如一本小说角色是将军，那风格就更有可能是“铁血”，如果小说情节是赘婿，风格就很可能是甜宠或爽文。而一般的文本多分类任务，分类之间是互斥的关系，比如一段文字的情绪分析分类，可能分类是开心、悲伤、生气等这些分类是不存在互相依赖的关系的。显然当前的需求更符合多标签文本分类的定义，但是对于多标签分类问题，在相关技术中还没有很成熟的解决方法，主要也是因为标签之间可能会存在很复杂的或有层次的依赖关系，现阶段还没有成熟的模型来挖掘这些关系。

通过本公开可选实施方式的需求可知，对于小说物料的要求较高，一本书有上万字，要在一本书中找到能代表书籍风格特征、角色性格特征、书籍情节特征等内容。而一般的文本分类深度学习模型都对文本输入字数有限制，常用的分类模型基本限制在512字，最多1024个字。实际上在512个字中表现出一本书的全部维度特征是很有挑战性的。

小说等书籍内容标注成本高、数据集样本有限。深度学习模型很难在超小规模数据集中训练出一个高可用的预测模型。

在相关技术中有很多关于多标签的学习算法，依据解决问题的角度，这些算法可以分为两大类：一是基于问题转化的方法，二是基于算法适用的方法。基于问题转化的方法是转化问题数据，使之使用现有算法；基于算法适用的方法是指针对某一特定的算法进行扩展，从而能够处理多标记数据，改进算法，适用数据。

针对多分类模型不能解析复杂的多标签和有层次关系的标签间依赖关系问题，本公开可选实施方式在解决多标签问题的时候，通过改编算法来直接执行多标签分类，而不是将问题转化为不同的问题子集。相比于转化为多个分类器的办法，这样的方法适用性更高且保留了标签间独立性和相互依赖关系、实用性和普适性高。

本公开可选实施方式实现了效果显著的简介、章节标题等数据过滤、清洗策略，增强了语言模型在小说任务上的特征表示、改进了常用的多标签文本分类模型分类器，使得小说在376个标签的多维度分类任务中表现优异。图2是根据本公开可选实施方式提供的文本内容分类方法的示意图，如图2所示，具体流程如下：

(1)对于小说物料的处理

小说内容爬取：获取数据库中小说章节内容，主要利用存储章节目录的数据库与存储章节内容的数据库信息，根据书籍标识索引查找小说书名、简介、章节所有标题，本公开可选实施方式从每本小说前2000章的章节标题中进行书籍主要内容特征挖掘。

简介数据无效词过滤：从书籍物料库中爬取的简介是原始不经处理的简介，内容杂糅，不仅有有效的简介内容、还包含很多作者跟读者说的话，比如作者新书或已完本小说推荐、小说出版发行或上架各平台说明、小说更新时间说明、求月票求收藏求订阅求评论求打赏各种互动、小说群、各种读者交流群、小说获奖情况、诸如(n*_*n)形式的表情符号、小说平台统一资源定位器(Uniform Resource Locator，简称URL)、小说中各种不含实际语义的语气词如emmmmmm，886，5555、甚至小说没有简介平台有默认的兜底简介说明等。为此设计了一个对小说文本根据指定分隔符断句，并实现对包含无效关键字句子的过滤策略。主要针对小说简介中具有代表性的说明字段进行正则匹配和句子中文字符检测，并分为关键字抽取和整句过滤两种细粒度的过滤格式。不仅过滤效果显著、适配性高，更是最大程度地保留了当前小说简介有效内容。

章节标题数据清洗及主体抽取：小说章节标题五花八门，但是每一章的主要内容都会概括性的总结在标题中，吸引读者注意且简单凝练。所以为了使用章节标题主体内容进行小说文本多标签分类，当前需要对章节标题前缀和后缀作非常精细化的过滤并进行了一些通用数据清洗，具体如下：

首先，一般小说是连载的形式，跟章节有关的说明信息常常以章节标题的形式出现，比如停更一天、请假一天、作者休假一周等。这些不可预知的说明掺杂在章节标题列表中但有不是章节标题，主要的区分就是，说明性的内容不会带上章节序号。所以针对有章节序号的小说采用识别章节序号并剔除序号和后缀的方式得到主体。但是不同小说章节序号格式高度不统一，主要有：第13章/第十三章/一十三章/【13章】/第十三十四章(二合一)/十三-十四/第十三章_1/十三：/13、/最强赘婿-13/章13/天书第一卷_第13章、/第十三回/一十三话/[第一季I]章十三/番外13.甚至还有倒置的标题序号，针对这些复杂的情况设计了层级式的标题序号过滤策略。分10级保证最大限度地抽取到完整章节序号且避免误杀的情况。

其次，针对占比少的无章节序号的小说，或章节序号参半的情况设计了无序号标题处理策略、放宽了内容准入要求，主要对章节内容是否有效进行了针对性的判断。

同时，对于有相同或相似前缀的主体内容，使用了前缀树算法、尽量过滤重复性高的内容，比如：“江湖1_四海为家”、“江湖2_一壶浊酒问青天”。前缀树会匹配“江湖x_”，剪切后的内容更适合输入网络。

另外，对于前后两个标题主体相同或差异化很小的情况加入了内容相似度判定算法(编辑距离、紧密度、bm25等)，比如“魔兽激战无心法师”、“魔兽再战无心法师”。针对很多前后标题内容相似度超过设定阈值的进行内容过滤，使样本数据更优质。

然后，过滤章节内容后缀、诸如：第3更、加更、补更、(更完毕)、【20号请个假】、(完结)、(求票求赏)、_上、—1。设计了层级式的后缀过滤策略。

最后，无效章数据清洗，如果章节是类似：全文终、本书完、终章、大结局、完、楔子、前言、番外。对这些不含实际意义的内容进行清洗。避免模型学到干扰。

训练和评估样本选取：将样本按照一定的样式组织起来。样本经过清洗和过滤会有简介为空或章节标题文本长度过少的情况，在小范围数据集，多标签的情况下为了减少噪声，需要必不可少的弱样本、负样本清洗。并且需要比对训练集和测试集标签的重叠情况，避免训练和测试标签覆盖范围及标签占比相似度差异大导致的模型效果失真。

(2)对于模型的处理

使用ERNIE(base2.0及以上、包括但不限于ernie_2.3、ernie_doc)预训练模型：选用ERNIE预训练语言模型，相比于浅层词法分析模型和BERT的Mask方法等，ERNIE在数据处理和模型结构中融入了更多的人类知识，比如短语、专有名词等等。模型预训练的输入是基于百科类、资讯类、论坛对话类数据构造具有上下文关系的句子对数据，利用内部词法分析工具对句对数据进行字、词、实体等不同粒度的切分，在预训练过程中学习词义、语义、语句间表示特征，增加了语义表示的丰富性。

使用小说语料进行语言模型post-pretrain训练：在互联网通用语料上的语言模型预训练，不足以实现当前技术任务的高可用，为增加小说多标签分类的敏感性和准确性，使用小说标签定义名词解释、相似标签介绍、各类小说类型风格说明等语料进行了预训练模型的post-pretrain，经过语言模型在当前小说领域语料的微调，模型的效果有明显提升。

特征工程优化：改变了输出概率(probabilities)的计算方式和交叉熵的计算方式，使模型充分学习标签间依赖关系、针对小说任务进行了模型的微调、从模型卷积层数、激活函数、损失函数、学习率、数据送入网路后的前向计算和反向传播、批大小等多方面优化，制定了小说多标签独有的评估准召公式、从单维度(风格、情节、角色性格、角色身份、同人、背景、流派等)准召和书本级别总体准召两个角度评估模型的预测误差。使模型在训练中学习到最有效的小说特征，并最小化了测试误差，提升了小说多标签分类模型的泛化能力。

深度学习模型小说多标签装置：特征工程优化训练后得到的预测模型，就是实际多标签装置会应用到的模型，在实际应用中为多标签预测设计了单预测和批预测，在搭建的分类预测装置中输入书籍唯一标识(如book_id)，就能在物料库中将小说数据按照训练时组织的样本格式组织好输入网络，就能得到小说在七个维度对应的多个标签。

本公开可选实施方式能够提高小说多标签分类的准确率，更精准地标注小说分类，有助于在业务上提升用户的搜索体验、阅读体验和推荐准确度。通过本公开可选实施方式，可以提升小说的推荐命中率与用户平台阅读时长，小说各维度标签信息的补充也可以更好的应用于其它策略中。

在本公开实施例中，还提供了一种文本内容分类的装置，图3时根据本公开实施例提供的文本内容分类装置的结构框图，如图3所示，该装置包括：获取模块31，提取模块32和预测模块33，下面对该装置进行说明：

获取模块31，用于获取目标文本内容的名称，简介和章节标题；提取模块32，连接至上述获取模块31，用于提取名称的名称特征，简介的简介特征和章节标题的章节标题特征；预测模块33，连接至上述提取模块32，用于基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签。

作为一种可选的实施例，提取模块32包括：第一提取单元，用于对名称的关键词进行抽取，得到名称目标词，提取名称目标词的特征，得到名称的名称特征；第二提取单元，用于对简介的无效词进行过滤，得到目标简介内容，提取目标简介内容的特征，得到简介的简介特征；第三提取单元，用于对章节标题进行无效数据清洗操作，得到目标章节标题，提取目标章节标题的特征，得到章节标题的章节标题特征。

作为一种可选的实施例，第二提取单元包括：第一处理子单元，用于采用关键字抽取和整句过滤的方式，对简介的无效词进行过滤，得到目标简介内容；第三提取单元包括：第二处理子单元，用于采用过滤章节标题的格式，提取章节标题的主体的方式，对章节标题进行无效数据清洗操作，得到目标章节标题。

作为一种可选的实施例，第二处理子单元，还用于通过以下方式至少之一，采用过滤章节标题的格式，提取章节标题的主体的方式，对章节标题进行无效数据清洗操作，得到目标章节标题：删除章节标题的序号，删除章节标题的后缀，删除重复的章节标题，删除相似度大于相似度阈值的章节标题，删除章节标题的说明性内容。

作为一种可选的实施例，预测模块33包括：预测单元，用于采用预测模型，基于名称特征，简介特征和章节标题特征，以及名称特征，简介特征和章节标题特征之间的关联关系，预测目标文本内容在多个分类维度上的标签，其中，预测模型基于多组样本数据训练得到，多组样本数据包括：文本内容的名称特征，简介特征和章节标题特征，以及该文本内容在多个分类维度上的标签。

作为一种可选的实施例，上述装置还包括：训练模块，训练模块包括：第一训练单元，用于获取句子对样本数据，采用句子对样本数据进行机器训练，得到初始模型，其中，句子对样本数据包括：句子对和该句子对所表示的语义；第二训练单元，用于使用文本内容所属预定领域的领域语料对初始模型进行训练，得到针对于预定领域的语言模型，其中，领域语料包括：领域术语和该领域术语对应的标签；第三训练单元，用于采用多组样本数据对语言模型进行训练，得到预测模型。

作为一种可选的实施例，第三训练单元包括：构造子单元，用于为语言模型构造针对多标签中单独标签的第一损失函数和针对文本内容整体的第二损失函数；训练子单元，用于结合第一损失函数和第二损失函数，对语言模型进行训练，得到预测模型。

作为一种可选的实施例，上述装置中文本内容为小说。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如文本内容分类方法。例如，在一些实施例中，文本内容分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的文本内容分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本内容分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本内容分类的方法，包括：

获取目标文本内容的名称，简介和章节标题；

提取所述名称的名称特征，所述简介的简介特征和所述章节标题的章节标题特征；

基于所述名称特征，所述简介特征和所述章节标题特征，以及所述名称特征，所述简介特征和所述章节标题特征之间的关联关系，预测所述目标文本内容在多个分类维度上的标签。

2.根据权利要求1所述的方法，其中，所述提取所述名称的名称特征，所述简介的简介特征和所述章节标题的章节标题特征包括：

对所述名称的关键词进行抽取，得到名称目标词，提取所述名称目标词的特征，得到所述名称的名称特征；

对所述简介的无效词进行过滤，得到目标简介内容，提取所述目标简介内容的特征，得到所述简介的简介特征；

对所述章节标题进行无效数据清洗操作，得到目标章节标题，提取所述目标章节标题的特征，得到所述章节标题的章节标题特征。

3.根据权利要求2所述的方法，其中，

所述对所述简介的无效词进行过滤，得到目标简介内容包括：采用关键字抽取和整句过滤的方式，对所述简介的无效词进行过滤，得到所述目标简介内容；

所述对所述章节标题进行无效数据清洗操作，得到目标章节标题包括：采用过滤所述章节标题的格式，提取所述章节标题的主体的方式，对所述章节标题进行无效数据清洗操作，得到目标章节标题。

4.根据权利要求3所述的方法，其中，所述采用过滤所述章节标题的格式，提取所述章节标题的主体的方式，对所述章节标题进行无效数据清洗操作，得到目标章节标题包括以下至少之一：

删除所述章节标题的序号，删除所述章节标题的后缀，删除重复的章节标题，删除相似度大于相似度阈值的章节标题，删除章节标题的说明性内容。

5.根据权利要求1所述的方法，其中，所述基于所述名称特征，所述简介特征和所述章节标题特征，以及所述名称特征，所述简介特征和所述章节标题特征之间的关联关系，预测所述目标文本内容在多个分类维度上的标签包括：

采用预测模型，基于所述名称特征，所述简介特征和所述章节标题特征，以及所述名称特征，所述简介特征和所述章节标题特征之间的关联关系，预测所述目标文本内容在多个分类维度上的标签，其中，所述预测模型基于多组样本数据训练得到，所述多组样本数据包括：文本内容的名称特征，简介特征和章节标题特征，以及该文本内容在多个分类维度上的标签。

6.根据权利要求5所述的方法，其中，所述方法还包括：通过以下方式训练得到所述预测模型：

获取句子对样本数据，采用所述句子对样本数据进行机器训练，得到初始模型，其中，所述句子对样本数据包括：句子对和该句子对所表示的语义；

使用文本内容所属预定领域的领域语料对所述初始模型进行训练，得到针对于所述预定领域的语言模型，其中，所述领域语料包括：领域术语和该领域术语对应的标签；

采用所述多组样本数据对所述语言模型进行训练，得到所述预测模型。

7.根据权利要求6所述的方法，其中，所述采用所述多组样本数据对所述语言模型进行训练，得到所述预测模型包括：

为所述语言模型构造针对多标签中单独标签的第一损失函数和针对文本内容整体的第二损失函数；

结合所述第一损失函数和所述第二损失函数，对所述语言模型进行训练，得到所述预测模型。

8.根据权利要求1至7中任一项所述的方法，其中，所述文本内容为小说。

9.一种文本内容分类的装置，包括：

获取模块，用于获取目标文本内容的名称，简介和章节标题；

提取模块，用于提取所述名称的名称特征，所述简介的简介特征和所述章节标题的章节标题特征；

预测模块，用于基于所述名称特征，所述简介特征和所述章节标题特征，以及所述名称特征，所述简介特征和所述章节标题特征之间的关联关系，预测所述目标文本内容在多个分类维度上的标签。

10.根据权利要求9所述的装置，其中，所述提取模块包括：

第一提取单元，用于对所述名称的关键词进行抽取，得到名称目标词，提取所述名称目标词的特征，得到所述名称的名称特征；

第二提取单元，用于对所述简介的无效词进行过滤，得到目标简介内容，提取所述目标简介内容的特征，得到所述简介的简介特征；

第三提取单元，用于对所述章节标题进行无效数据清洗操作，得到目标章节标题，提取所述目标章节标题的特征，得到所述章节标题的章节标题特征。

11.根据权利要求10所述的装置，其中，

所述第二提取单元包括：第一处理子单元，用于采用关键字抽取和整句过滤的方式，对所述简介的无效词进行过滤，得到所述目标简介内容；

所述第三提取单元包括：第二处理子单元，用于采用过滤所述章节标题的格式，提取所述章节标题的主体的方式，对所述章节标题进行无效数据清洗操作，得到目标章节标题。

12.根据权利要求11所述的装置，其中，所述第二处理子单元，还用于通过以下方式至少之一，采用过滤所述章节标题的格式，提取所述章节标题的主体的方式，对所述章节标题进行无效数据清洗操作，得到目标章节标题：

13.根据权利要求9所述的装置，其中，所述预测模块包括：

预测单元，用于采用预测模型，基于所述名称特征，所述简介特征和所述章节标题特征，以及所述名称特征，所述简介特征和所述章节标题特征之间的关联关系，预测所述目标文本内容在多个分类维度上的标签，其中，所述预测模型基于多组样本数据训练得到，所述多组样本数据包括：文本内容的名称特征，简介特征和章节标题特征，以及该文本内容在多个分类维度上的标签。

14.根据权利要求13所述的装置，其中，所述装置还包括：训练模块，所述训练模块包括：

第一训练单元，用于获取句子对样本数据，采用所述句子对样本数据进行机器训练，得到初始模型，其中，所述句子对样本数据包括：句子对和该句子对所表示的语义；

第二训练单元，用于使用文本内容所属预定领域的领域语料对所述初始模型进行训练，得到针对于所述预定领域的语言模型，其中，所述领域语料包括：领域术语和该领域术语对应的标签；

第三训练单元，用于采用所述多组样本数据对所述语言模型进行训练，得到所述预测模型。

15.根据权利要求14所述的装置，其中，所述第三训练单元包括：

构造子单元，用于为所述语言模型构造针对多标签中单独标签的第一损失函数和针对文本内容整体的第二损失函数；

训练子单元，用于结合所述第一损失函数和所述第二损失函数，对所述语言模型进行训练，得到所述预测模型。

16.根据权利要求9至15中任一项所述的装置，其中，所述文本内容为小说。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的方法。