CN112115264B

CN112115264B - 面向数据分布变化的文本分类模型调整方法

Info

Publication number: CN112115264B
Application number: CN202010959524.9A
Authority: CN
Inventors: 梁冬; 赵晓芳; 张程; 宋永浩; 王晓诗; 习健
Original assignee: Zhongke Suzhou Intelligent Computing Technology Research Institute
Current assignee: Zhongke Suzhou Intelligent Computing Technology Research Institute
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2024-03-22
Anticipated expiration: 2040-09-14
Also published as: CN112115264A

Abstract

本发明揭示了一种面向数据分布变化的文本分类模型调整方法，能够根据数据分布情况的变化，先对在线文本数据流进行标签预测，而后通过相似度计算和价值筛选，分类进行人工标注，采用对抗的训练样本数据集分别迭代训练判别网络，动态地对已训练好的识别网络模型进行调整和更新，使得离线模型自适应在线系统数据特征发生变化的情况；同时针对完全手动标注样本困难的情况提供一种有效的半自动化标注数据方法，对于文本分类技术的实际应用效果具有积极作用。

Description

面向数据分布变化的文本分类模型调整方法

技术领域

本发明涉及一种文本数据分类及模型更新方法，尤其涉及面向数据分布变化的文本分类模型适应性调整方法，属于网络数据处理技术领域。

背景技术

文本分类是自然语言处理领域的一个经典问题，相关研究最早可以追溯到50年代专家规则的模式识别。后来伴随着统计学习方法的发展，特别是90年代后在线文本数量增长和机器学习学科的兴起，逐渐形成了人工特征工程+浅层分类建模的流程。近年来深度学习在NLP上的发展，使得基于深度学习的文本分类模型取得了不错的效果。相较于传统分类模型，深度学习能够自动获取特征表达能力，去掉繁杂的人工特征工程，实现端到端的解决问题，展现出明显的优势。

文本分类技术虽然取得了很大的进展，但在实际应用中还是存在一些问题：一者、标注样本数量少，分布不均衡引起拟合偏移。高质量的标记数据有助于提升文本分类的准确率，然而互联网上存在大量杂乱无章的无标签数据，完全依赖人工标注的成本高，效率低，并且样本分布不均衡，这些特点容易造成生成的模型不能很好的拟合数据总体的分布状态。

再者、数据分布变化引起模型失效。一方面，随着时间的推移，新的数据不断产生，数据的特征分布也在逐步变化，引起已有模型识别准确率的下降，另一方面，在业务应用中，会不断有新类识别的需求产生，已有模型难以适应新类识别任务。

发明内容

为解决上述现有技术中存在的问题，本发明的目的旨在提出一种面向数据分布变化的文本分类模型调整方法，以适应文本数据海量增长和特征分布变化环境下的文本分类要求。

本发明实现上述目的的技术解决方案是：面向数据分布变化的文本分类模型调整方法，其特征在于包括步骤：S1、构建识别网络，由带标签数据训练识别网络，用于在线文本数据的分类，获得每条文本数据的预测类别；S2、将识别网络的分类结果，通过相似度计算聚成不同的样本子集，比对样本子集与原有训练样本的分布情况，进行主动样本选择和训练样本积累；S3、构建判别网络，用手动标注后的真实标签数据和识别网络分类后未标注的预测标签数据训练判别网络，用于判断输入的“样本-标签”数据是预测标签还是真实标签；S4、从训练样本集中选取真实标签的数据生成格式为“样本-真实标签”的正样本数据集，从识别网络的分类结果中选取预测标签的数据生成格式为“样本-预测标签”的负样本数据集，基于正样本数据集、负样本数据集采用增量迭代训练判别网络，并更新在线系统的判别网络模型；S5、识别网络根据判别网络返回的奖励值计算预期奖励的梯度，并通过策略梯度的方式更新识别网络的模型参数。

应用本发明文本分类模型调整的技术解决方案，具备突出的实质性特点和显著的进步性：（1）数据分布发生变化时，能够动态调整和更新识别网络模型。在离线模型应用于在线系统时，能够实时调整识别网络，使其符合当前数据分布特征，持续保持在线识别结果的高精度，对于文本分类技术的实际应用具有积极作用。

（2）在模型迭代更新时，引入了对抗训练和强化学习的理念。识别网络通过和判别网络对抗学习，并用策略梯度更新模型的方法，相比于传统模型迭代更新方法，能够促进文本分类的发展。

（3）提供了一种有效的半自动化标注数据方法，能够降低人工标注的成本，提高标注效率；能够丰富训练样本集，解决样本数量少，分布不均衡引起拟合偏移的问题；还可以将积累的训练样本集作为知识库，应用于其它相关领域，提高了应用系统的可扩展性。

附图说明

图1为本发明文本分类模型调整方法各实施阶段的总体流程图。

图2为本发明方法中步骤S2细节的执行流程图。

图3为本发明方法中步骤S4细节的执行流程图。

图4为本发明方法中步骤S5细节的执行流程图。

具体实施方式

有鉴于文本分类的技术发展现状的缺陷及针对以“数据分布变化、模型、调整”为关键词的技术文献的研究，本申请设计者创新提出了一种面向数据分布变化的文本分类模型调整方法，能够根据数据分布情况的变化，动态地对已训练好的模型进行调整和更新，使得离线模型自适应在线系统数据特征发生变化的情况，同时针对完全手动标注样本困难的情况提供一种有效的半自动化标注数据方法，避免样本数据分布不均衡引起拟合偏移的情况，对于文本分类技术的实际应用效果具有积极作用。

该文本分类模型调整方法的概述特征包括步骤：S1、构建识别网络，由带标签数据训练识别网络，用于在线文本数据的分类；输入为在线文本数据流，输出为每条文本数据的预测类别，并且在系统应用中定期的迭代更新模型，以适应在线数据的分布变化。S2、将识别网络的分类结果，通过相似度计算聚成不同的样本子集，比对样本子集与原有训练样本的分布情况，进行主动样本选择和训练样本积累。S3、构建判别网络，用手动标注后的真实标签数据（正样本）和识别网络分类后未标注的预测标签数据（负样本）以对抗方式训练判别网络，用于判断输入的“样本-标签”数据是预测标签还是真实标签，并返回一个价值，作为识别网络策略梯度更新的回报。S4、定期地从训练样本集中选取真实标签的数据生成格式为“样本-真实标签”的正样本数据集，从识别网络的分类结果中选取预测标签的数据生成格式为“样本-预测标签”的负样本数据集，基于正样本数据集、负样本数据集采用增量迭代训练判别网络，并更新在线系统的判别网络模型，以适应当前所需判别的数据分布情况。S5、利用强化学习的方式对识别网络模型进行更新，所要预测的在线数据流作为状态，预测标签作为动作，识别网络作为策略模型，根据模型的参数和在线文本数据特征，确定其类别标签的选择概率。判别网络根据识别网络预测的标签（即选择的动作），判断预测标签和真实标签的相似程度，并返回对应的价值。识别网络模型根据返回的回报，以策略梯度方式更新模型参数。识别网络根据判别网络返回的奖励值计算预期奖励的梯度，并通过策略梯度的方式更新识别网络的模型参数。

其中步骤S2中主动样本选择的过程含义为：设置样本子集相对现有训练样本数据集的价值阈值，将识别网络的分类结果（在线识别结果），通过相似度计算聚成不同的子集，即与一个现有类型相似的文本数据聚集为一个子集，与另一个现有类型相似的文本数据聚集为另一个子集，与现有类型分布较远的文本数据聚集为其它多个子集。主动样本选择根据不同子集与原有训练样本的分布情况，排除能够聚合到现有训练样本数据集的样本子集，挑选出有标注价值的部分样本子集。

其中步骤S2中训练样本积累的过程含义为：通过“选择策略”，挑选最有价值的子集，反馈给专业人员（相关领域的专家）进行标注。在样本挑选过程中遵循所选择的子集具有较高的不确定性和多样性的原则。然后将标注样本增加到训练样本数据集中，以完善丰富训练样本集。在样本标注过程中针对相似的样本子集仅需要标注一次即可，从而实现半自动化的样本标注，降低人工标注成本。

以下便结合实施例图示对本发明的具体实施方式做进一步的详述，以使本发明技术方案更易于理解、掌握，从而对本发明的保护范围做出更为清晰的界定。

如图1所示各实施阶段的总体流程图，图中结点S1描述第一阶段，主要完成识别网络的构建和初始化。针对文本分类实际应用场景，基于深度学习构建合适的识别网络，然后根据最初的训练样本数据集训练生成识别网络模型，用于在线文本数据的类别预测。结点S2描述第二阶段，主要完成训练样本集的积累。识别网络对在线文本数据分类结果，通过相似度计算聚成不同的子集，然后选择有标注价值的部分子集交由专业人员进行手动标注，将标注结果存入训练样本集中。结点S3描述第三阶段，主要完成判别网络的构建和初始化。基于深度学习构建合适的判别网络，用真实标签数据（正样本）和预测标签数据（负样本）训练判别网络，训练好的判别网络针对输入的“样本-标签”数据判断该标签是人工标注的真实标签还是识别网络预测的标签。结点S4描述第四阶段，主要完成判别网络的迭代更新。定期的从积累的训练样本集中选取正样本集“样本-真实标签”，从识别网络的在线分类结果中选取负样本集“样本-预测标签”，构造训练判别网络的新训练集，并利用该数据集迭代更新已有的判别网络模型。结点S5描述第五阶段，主要完成识别网络基于策略梯度迭代更新，识别网络在线预测的结果输入判别网络中，判别网络判断输入的数据是真实标签还是预测标签，根据预测标签和真实标签的相似度确定返回的奖励值回报，识别网络基于回报进行策略更新模型参数。

从各步骤细节的执行流程图来理解，定期的将在线数据的识别结果，经过选择交于专业人员标注，进行训练样本的积累，该流程的执行过程如图2所示：其中子步骤S21，启动后，将一段时间内识别网络分类结果进行相似度计算聚成不同子集，并针对每个子集提供一条典型样本。子步骤S22，根据主动样本选择策略判断不同子集被选择标注的价值，选择策略的制定遵循所选择的子集具有较高的不确定性和多样性的原则。如某一子集能够聚合到现有训练样本某一子集中则被选择的价值较低，若某一子集中心点和训练样本数据整体分布域相差较远或某一子集中心点处于训练样本数据不同类别分布中间区域则被选择的价值较高。子步骤S23，对S22中具有不同被选择价值的每个子集，做以下操作：首先检查当前子集被选择的价值是否大于预设的阈值，如果低于阈值，则结束当前子集的处理，如果高于阈值，则将当前子集交由专业人员进行标注，专业人员仅需确定该子集中典型样本的标签即可，最后将确定后子集的样本及其真实标签存入训练样本集中，结束当前子集的处理操作。

每隔固定时间或者新训练样本数量达到某一数值，则迭代更新判别网络，以适应当前判别数据分布变化，该流程主要包括新训练集的构造和判别网络的迭代更新两部分，其执行过程如图3所示：其中子步骤S41，流程启动后，从训练样本集中选取真实标签数据，生成格式为“样本-真实标签”的正样本数据集，从识别网络分类结果中选取预测标签数据，生成格式为“样本-预测标签”的负样本数据集，然后通过正负样本集构造训练判别网络的新训练集。子步骤S42，利用上述生成的新训练集，采用增量迭代训练判别网络，并更新在线系统的判别网络模型。

每隔固定时间或者识别网络分类结果数量达到某一数值，则通过策略梯度的方式更新在线网络，以适应当前在线数据分布变化。由此可见识别网络设有自定义的更新周期，该流程主要包括判别网络计算奖励值和识别网络的策略更新两部分，其执行过程如图4所示：其中子步骤S51，流程启动后，从识别网络分类结果中选取m条预测标签数据转换为“样本-预测标签”格式，输入判别网络中判断该m条数据预测标签和真实标签的相似度，并将该相似度值作为识别网络预测标签这一动作的奖励值。m为对应识别网络更新自定义的分类结果数量，m条数据得自于更新周期下在线文本数据的长度。子步骤S52.，根据判别网络返回的奖励值，计算预期奖励的梯度，并通过策略梯度的方式更新识别网络的模型参数，以达到识别网络模型迭代更新的目的，流程执行结束。

除上述实施例外，本发明还可以有其它实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明所要求保护的范围之内。

Claims

1.面向数据分布变化的文本分类模型调整方法，其特征在于包括步骤：

S1、构建识别网络，由带标签数据训练识别网络，用于在线文本数据的分类，获得每条文本数据的预测类别；

S2、将识别网络的分类结果，通过相似度计算聚成不同的样本子集，比对样本子集与原有训练样本的分布情况，进行主动样本选择和训练样本积累；

S3、构建判别网络，用手动标注后的真实标签数据和识别网络分类后未标注的预测标签数据训练判别网络，用于判断输入的“样本-标签”数据是预测标签还是真实标签；

S4、从训练样本集中选取真实标签的数据生成格式为“样本-真实标签”的正样本数据集，从识别网络的分类结果中选取预测标签的数据生成格式为“样本-预测标签”的负样本数据集，基于正样本数据集、负样本数据集采用增量迭代训练判别网络，并更新在线系统的判别网络模型；

S5、判别网络计算奖励值，从识别网络的分类结果中选取m条数据转换为“样本-预测标签”格式，并输入判别网络中判断m条数据预测标签与真实标签的相似度，作为识别网络预测分类的奖励值，m为对应识别网络更新自定义的分类结果数量；识别网络根据判别网络返回的奖励值计算预期奖励的梯度，并通过策略梯度的方式更新识别网络的模型参数。

2.根据权利要求1所述面向数据分布变化的文本分类模型调整方法，其特征在于：步骤S1所构建的识别网络于在线系统流程启动后，输入为在线文本数据流，输出为每条文本数据的预测类别。

3.根据权利要求1所述面向数据分布变化的文本分类模型调整方法，其特征在于：步骤S2包含主动样本选择，设置样本子集相对现有训练样本数据集的价值阈值，排除能够聚合到现有训练样本数据集的样本子集，挑选出有标注价值的部分样本子集。

4.根据权利要求1所述面向数据分布变化的文本分类模型调整方法，其特征在于：步骤S2包含训练样本积累，经挑选的部分样本子集进行手动标注，并将标注后的样本添加至现有训练样本数据集。

5.根据权利要求1所述面向数据分布变化的文本分类模型调整方法，其特征在于：识别网络设有自定义的更新周期，且m条数据得自于更新周期下在线文本数据的长度。