CN114020905A

CN114020905A - 一种文本分类外分布样本检测方法、装置、介质及设备

Info

Publication number: CN114020905A
Application number: CN202111211129.3A
Authority: CN
Inventors: 何豪杰; 王思宽; 王铎; 李晓雅; 卢辰鑫
Original assignee: Zhejiang Xiangnong Huiyu Technology Co ltd
Current assignee: Zhejiang Xiangnong Huiyu Technology Co ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-02-08

Abstract

本申请公开了一种文本分类外分布样本检测方法、装置、介质及设备，属于文本编辑领域。该方法主要包括，依次利用包含多个文本类别的训练数据总集中缺少其中一个文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个文本类别对应的多个外分布样本测试子模型；以及，利用每一个外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断新输入文本是否为外分布样本。本申请能够利用类别缺省训练数据对文本分类模型进行训练，并利用训练后的模型对当前输入进行检测，若模型没有足够的自信对它做出正确的判断，就将其判断为外分布样本，从而避免对是外分布样本的当前输入做出错误的分类预测。

Description

一种文本分类外分布样本检测方法、装置、介质及设备

技术领域

本申请涉及文本编辑领域，特别涉及一种文本分类外分布样本检测方法、装置、介质及设备。

背景技术

文本分类就是给定一个输入的句子，模型需要判断它的分类是什么。外分布样本就是，所输入的句子和模型在训练时所用的数据在数据分布上不一致。即所输入的语句不属于训练模型的数据所包括的类别。例如，训练文本分类模型用的数据都是类别“社会”和“体育”，然而在测试的时候也还有“政治”这一类别，即训练时模型未曾见过“政治”类别的数据，对于模型来说“政治”类别的数据就是外分布样本。现有技术在面对外分布样本时无法得出正确的预测结果。

发明内容

针对现有技术存在的问题，本申请主要提供一种文本分类外分布样本检测方法、装置、介质及设备，通过类别缺省训练数据集训练文本分类模型，并利用训练后的模型对当前输入进行检测判断得到外分布样本，能够避免对当前输入做出错误的分类预测。

为了实现上述目的，本申请采用的一个技术方案是：提供一种文本分类外分布样本检测方法，其包括：

依次利用包含多个文本类别的训练数据总集中缺少其中一个文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个文本类别对应的多个外分布样本测试子模型；以及，利用每一个外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断新输入文本是否为外分布样本。

本申请采用的另一个技术方案是：提供一种文本分类外分布样本检测装置，其包括：

模型训练模块，用于依次利用包含多个文本类别的训练数据总集中缺少其中一个文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个文本类别对应的多个外分布样本测试子模型；以及，新文本测试模块，用于利用每一个外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断新输入文本是否为外分布样本。

本申请采用的另一个技术方案是：一种计算机可读存储介质，其存储有计算机指令，其特征在于，计算机指令被操作以执行上述方案中的文本分类外分布样本检测方法。

本申请采用的另一个技术方案是：一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，该计算机指令被操作以执行上述方案中的文本分类外分布样本检测方法。

本申请的技术方案可以达到的有益效果是：本申请设计了一种文本分类外分布样本检测方法、装置、介质及设备。该方法利用类别缺省训练数据对文本分类模型进行训练，并利用训练后的模型对当前输入进行检测，若模型没有足够的自信对它做出正确的判断，就将其判断为外分布样本，从而避免当前输入是外分布样本情况下做出错误的分类预测。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一种文本分类外分布样本检测方法的一个具体实施方式的流程示意图；

图2是本申请一种文本分类外分布样本检测方法的一个具体实施例中训练文本分类模型的流程示意图；

图3是本申请一种文本分类外分布样本检测方法的一个具体实施例中新输入文本测试的流程示意图；

图4是本申请一种文本分类外分布样本检测装置的一个具体实施方式示意图；

图5是本申请一种文本分类外分布样本检测装置的一个具体实施例示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

下面结合附图对本申请的较佳实施例进行详细阐述，以使本申请的优点和特征能更易于被本领域技术人员理解，从而对本申请的保护范围做出更为清楚明确的界定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

文本分类(text classification)就是给定一个输入句子，模型需要判断它的类别是什么，比如“政治”“经济”“社会”“体育”等等。所谓外分布(out-of-distribution)，就是测试时输入的句子和训练模型用的数据在数据分布上不一致。比如，训练文本分类模型用的数据都是类别“社会”和“体育”，然而在测试的时候也还有“政治”这一类别，对这样的类别，模型永远无法得出正确的预测结果，因为训练时模型未曾见过“政治”类别的数据。外分布检测，就是模型要在测试的时候判断，当前的输入文本是不是一个外分布类别，如果是，就把它找出来，如果不是，就对其进行类别预测。

该任务实际上是一个“模型自信度”的问题，对当前的输入，模型是否有足够的自信对它做出正确的判断，当模型不够自信的时候，该样本就有可能是一个外分布样本。换句话说，外分布检测的意义在于：宁可不做预测，也不要做极有可能错误的预测。

本申请创新性地提出了一种基于k折模型集成的方法，用包括k种文本类别的训练数据，首先训练k个子模型，每个子模型分别把k个类别中的一个类别当作“外分布”类别，训练好k个子模型后，测试时用k个子模型对新输入文本进行分别测试，并且把各个测试结果集成起来形成一个最终的预测概率分布，如果该分布中，有一类的概率明显高于其他类，则认为模型对当前输入样本的类别预测很有自信，也就意味着该样本不是外分布样本；若所有类的概率都相近，则认为模型对这个样本的预测不自信，所以是一个外分布数据。用这种方法就能很好地检测外分布样本。

下面以具体地实施例，并结合附图对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1示出了本申请一种文本分类外分布样本检测方法的一个具体实施方式。

在该具体实施方式中，本申请文本分类外分布样本检测方法主要包括模型训练过程S101，依次利用包含多个文本类别的训练数据总集中缺少其中一个文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个文本类别对应的多个外分布样本测试子模型；以及新文本测试过程S102，利用每一个外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断新输入文本是否为外分布样本。

通过利用类别缺省训练数据对文本分类模型进行训练，并利用训练后的模型对当前输入进行检测，若模型没有足够的自信对它做出正确的判断，就将其判断为外分布样本，从而避免对是外分布样本的当前输入做出错误的分类预测，宁可不做预测，也不要做极有可能错误的预测。

模型训练过程S101，表示的依次利用包含多个文本类别的训练数据总集中缺少其中一个文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个文本类别对应的多个外分布样本测试子模型的过程，有利于后续利用各个外分布样本测试子模型对新输入文本进行测试。

在本申请的一个具体实施例中，上述利用类别缺省训练数据集对文本分类模型进行训练的过程包括，对文本分类模型进行不确定性训练，使得文本分类模型经训练成为的外分布样本测试子模型，预测相应类别缺省训练数据集中所缺少的一个文本类别，为类别缺省训练数据集中的每一个类别的概率趋于均匀分布的。

在本申请的一个具体实施例中，上述利用类别缺省训练数据集对文本分类模型进行训练的过程包括，使得文本模型经训练成为的外分布样本测试子模型，预测相应类别缺省训练数据集中所缺少的一个文本类别，为类别缺省训练数据集中的每一个类别的概率均趋于0。

在本申请的一个具体实施例中，上述利用类别缺省训练数据集对文本分类模型进行训练的过程包括，利用类别缺省训练数据集使用常规的训练方法对文本分类模型进行训练。

优选的，利用类别缺省训练数据集使用交叉熵损失函数对文本分类模型进行训练。

在本申请的一个具体实例中，利用类别缺省训练数据集使用交叉熵损失函数对文本分类模型进行训练，并且对文本分类模型进行不确定性训练，使得文本分类模型经训练成为的外分布样本测试子模型，预测相应类别缺省训练数据集中所缺少的一个文本类别，为类别缺省训练数据集中的每一个类别的概率趋于均匀分布的，得到与每个文本类别对应的外分布样本测试子模型。

在本申请的一个具体实例中，如图2所示，上述训练数据总集包括K个类别的数据，每次抽出上述训练数据总集中的1个类别，让模型在剩下的K-1个类别的数据上，按照常交叉熵(cross-entropy)损失函数进行训练，当模型遇到抽出来的那个类别的时候，模型就把这个类别的数据当作外分布(out-of-distribution)样本进行训练，并让模型对它的预测结果趋于“均匀分布”，用公式表示是

min KL(f(x)，u)

其中KL是KL散度，用来衡量两个概率分布的相似性，f(x)是模型预测得到的概率分布，u是均匀分布，该式子的含义就是让模型预测分布逼近均匀分布，以此表明模型对外分布样本的不确定性。

预测被抽出来的那个类别为已知的K1个类别的概率都是1/(K-1)，以此来表示模型遇到了外分布样本，对该样本的预测结果是极度不自信的。例如，当K＝5的时候，模型遇到外分布样本时应该预测每个可见类别的概率都是1/4。上述过程是对一个类别而言，将K个类别中的每个类别都按照上述思路训练一个单独的模型，每个模型关注一个特定的外分布类别，以便于在后续测试时根据每个模型的预测结果对新输入的样本是不是一个外分布样本进行判断。由于需要把K个模型的预测结果进行结合，所以该方案所提出的方法又被称为k折模型集成。

在本申请的一个具体实例汇总，上述训练数据总集包括三个类别A,B,C。首先把类别A提出来，让它对模型1不可见，换句话说，模型现在只知道有类别B和类别C，不知道有类别A的存在，此时类别A就是“外分布数据”。模型1在类别B,C的数据上按照常规方法训练，进而能够比较准确地预测类别B和C的样本，在类别A的数据上让模型预测趋于均匀分布(0.5,0.5)，表明当前样本为类别B的概率和为类别C的概率都是0.5，进而表示模型认为类别A是外分布的。同样地，提出类别B，在类别A和C上常规训练模型2，并让模型2的预测在类别B上趋于均匀分布(0.5,0.5)。模型3同理。

新文本测试过程S102，利用每一个外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断新输入文本是否为外分布样本，能够利用已经训练好的子模型对新输入文本进行测试，如果新输入文本是外分布样本，那么就不对它进行预测，即不把它进行分类，宁可不做预测，也不做既有可能是错误的预测。

在本申请的一个具体实施例中，上述利用每一个外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断新输入文本是否为外分布样本的过程包括，分别利用每一个外分布样本测试子模型对新输入文本进行测试，得到每一个模型的对应预测概率分布结果，将每一个模型对应的预测概率分布结果集成起来得到一个最终的预测概率分布，根据最终的预测概率分布就可以对新输入文本是否为外分布样本进行判断了。

在本申请的一个具体实施例中，上述将每一个模型对应的预测概率分布结果集成起来得到一个最终的预测概率分布的过程包括，根据每个测试结果的平均值对新输入文本是否为外分布样本进行判断。即将每一个模型的对应预测概率分布结果中，每个类别的概率值取平均值。

在本申请的一个具体实施例中，上述将每一个模型对应的预测概率分布结果集成起来得到一个最终的预测概率分布的过程包括，将每一个模型的对应预测概率分布结果中，每个类别的概率值相叠加，得到一个最终的预测概率分布。

在本申请的一个具体实施例中，根据每个测试结果的平均值得到最终概率分布。

在本申请的一个具体实施例中，若最终概率分布的熵大于预设的概率分布熵阈值，则就将新输入文本确定为外分布样本。

在本申请的一个具体实施例中，若最终概率分布的熵不大于预设的概率分布熵阈值，则就将新输入文本确定为内分布样本。

在本申请的一个具体实例中，如图3所示，在训练好K个子模型之后，就可以在测试阶段使用它们。对于输入的测试样本，首先将它分别送入K个子模型中，得到各自的概率分布，然后把它们的预测结果集成起来，得到最终的概率分布。如果该分布中有一类的概率明显高于其他类，则表明当前输入的测试样本应该就属于该类，是一个“内分布”样本；如果所有类的概率都接近，趋于均匀分布，则表明当前输入的测试样本就是一个“外分布”样本。这可以用概率分布的“熵”(entropy)加以衡量：

熵越大，就表明概率分布的不确定性越大，则模型预测当前样本为“外分布”的可能性也就越大。所以，本方案设置了一个阈值a，当最终概率分布的熵H(P)大于a的时候，就认为该样本是“外分布”样本，否则为内分布样本。这就最终实现了外分布样本检测。

在本申请的一个具体实例中，用一个包括A，B和C共3个类别的数据总集训练文本分类模型得到3个对应的外分布样本测试子模型。新输入一个文本，3个模型分别进行预测，把它们的预测结果集成起来，得到一个关于类别A,B,C的概率分布，比如说是(0.1,0.1,0.8)，类别C的概率为0.8，那么此时就表明这个样本属于类别C，不是外分布样本。但如果概率分布是(0.3,0.3,0.4)，那么此时就表明这个样本很有可能是一个外分布样本，因为这个概率分布非常接近均匀分布(0.33,0.33,0.33)。所以，通过判断最后模型集成得到的概率分布是否接近均匀分布，我们就能判断新输入文本是不是一个外分布样本。

在本申请的一个具体实例中，若新输入文本不是一个外分布样本，那么对该样本进行正常的预测分类。

图4示出了本申请一种文本分类外分布样本检测装置的一个具体实施方式。

在该具体实施方式中，本申请文本分类外分布样本检测装置主要包括模型训练模块401，用于依次利用包含多个文本类别的训练数据总集中缺少其中一个文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个文本类别对应的多个外分布样本测试子模型；以及新文本测试模块402，用于利用每一个外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断新输入文本是否为外分布样本。

模型训练模块401，用于依次利用包含多个文本类别的训练数据总集中缺少其中一个文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个文本类别对应的多个外分布样本测试子模型，有利于后续利用各个外分布样本测试子模型对新输入文本进行测试。

在本申请的一个具体实施例中，上述模型训练模块401包括不确定训练子模块如图5所示，用于对文本分类模型进行不确定性训练，使得文本分类模型经训练成为的外分布样本测试子模型，预测相应类别缺省训练数据集中所缺少的一个文本类别，为类别缺省训练数据集中的每一个类别的概率趋于均匀分布的。

在本申请的一个具体实施例中，上述模不确定训练子模块，能够使得文本模型经训练成为的外分布样本测试子模型，预测相应类别缺省训练数据集中所缺少的一个文本类别，为类别缺省训练数据集中的每一个类别的概率均趋于0。

在本申请的一个具体实施例中，上述模型训练模块401包括常规训练子模块如图5所示，能够利用类别缺省训练数据集使用常规的训练方法对文本分类模型进行训练。

在本申请的一个具体实施例中，上述常规训练子模块，能够利用类别缺省训练数据集使用交叉熵损失函数对文本分类模型进行训练。

上述新文本测试模块402，能够利用已经训练好的子模型对新输入文本进行测试，如果新输入文本是外分布样本，那么就不对它进行预测，即不把它进行分类，宁可不做预测，也不做既有可能是错误的预测。

在本申请的一个具体实施例中，上述新文本测试模块402，分别利用每一个外分布样本测试子模型对新输入文本进行测试，得到每一个模型的对应预测概率分布结果。

在本申请的一个具体实施例中，上述新文本测试模块402包括结果集成子模块如图5所示，用于获取每个测试结果的平均值，并根据平均值对新输入文本是否为外分布样本进行判断。

在本申请的一个具体实施例中，上述结果集成子模块，能够将每一个模型的对应预测概率分布结果中，每个类别的概率值相叠加，得到一个最终的预测概率分布。

在本申请的一个具体实施例中，上述结果集成子模块能够，根据每个测试结果的平均值得到最终概率分布。

在本申请的一个具体实例中，上述结果集成子模块能够，并且在最终概率分布的熵大于预设的概率分布熵阈值时，将新输入文本确定为外分布样本。

本申请提供的文本分类外分布样本检测装置，可用于执行上述任一实施例描述的文本分类外分布样本检测方法，其实现原理和技术效果类似，在此不再赘述。

在本申请的一个具体实施例中，本申请一种文本分类外分布样本检测装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的另一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，计算机指令被操作以上述方案中的文本分类外分布样本检测方法。

在本申请的另一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，该计算机指令被操作以执行上述方案中的文本分类外分布样本检测方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本分类外分布样本检测方法，其特征在于，包括，

依次利用包含多个文本类别的训练数据总集中缺少其中一个所述文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个所述文本类别对应的多个外分布样本测试子模型；以及，

利用每一个所述外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断所述新输入文本是否为外分布样本。

2.根据权利要求1所述的文本分类外分布样本检测方法，其特征在于，所述依次利用包含多个文本类别的训练数据总集中缺少其中一个所述文本类别的类别缺省训练数据集，对文本分类模型进行训练的过程包括，

使每个所述外分布样本测试子模型，预测相应所述类别缺省训练数据集中所缺少的一个所述文本类别，为所述类别缺省训练数据集中的每一个类别的概率趋于均匀分布。

3.根据权利要求1或2所述的文本分类外分布样本检测方法，其特征在于，所述依次利用包含多个文本类别的训练数据总集中缺少其中一个所述文本类别的类别缺省训练数据集，对文本分类模型进行训练的过程包括，

利用所述类别缺省训练数据集使用交叉熵损失函数对所述文本分类模型进行训练。

4.根据权利要求1或2所述的文本分类外分布样本检测方法，其特征在于，所述根据每个测试结果判断所述新输入文本是否为外分布样本的过程包括，

根据每个所述测试结果的平均值对所述新输入文本是否为外分布样本进行判断。

5.根据权利要求4所述的文本分类外分布样本检测方法，其特征在于，所述根据每个所述测试结果的平均值对所述新输入文本是否为外分布样本进行判断的过程包括，

根据每个所述测试结果的平均值得到最终概率分布，若所述最终概率分布的熵大于预设的概率分布熵阈值，那么就将所述新输入文本确定为外分布样本。

6.一种文本分类外分布样本检测装置，其特征在于，包括，

模型训练模块，用于依次利用包含多个文本类别的训练数据总集中缺少其中一个所述文本类别的类别缺省训练数据集，对文本分类模型进行训练，得到与每一个所述文本类别对应的多个外分布样本测试子模型；以及，

新文本测试模块，用于利用每一个所述外分布样本测试子模型对新输入文本进行测试，并根据每个测试结果判断所述新输入文本是否为外分布样本。

7.根据权利要求6所述的文本分类外分布样本检测装置，其特征在于，

所述模型训练模块包括不确定训练子模块以及常规训练子模块；

所述不确定训练子模块，用于使每个所述外分布样本测试子模型，预测相应所述类别缺省训练数据集中所缺少的一个所述文本类别，为所述类别缺省训练数据集中的每一个类别的概率趋于均匀分布；

所述常规训练子模块，用于利用所述类别缺省训练数据集使用交叉熵损失函数对所述文本分类模型进行训练。

8.根据权利要求6或7所述的文本分类外分布样本检测装置，其特征在于，

所述测试模块包括结果集成子模块，用于获取每个所述测试结果的平均值，并根据所述平均值对所述新输入文本是否为外分布样本进行判断。

9.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被操作以执行权利要求1-5中任一项所述的文本分类外分布样本检测方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中所述处理器操作所述计算机指令以执行权利要求1-5中任一项所述的文本分类外分布样本检测方法。