CN112308131B

CN112308131B - 样本拒识方法、装置、设备及存储介质

Info

Publication number: CN112308131B
Application number: CN202011179458.XA
Authority: CN
Inventors: 高文龙; 李承恩; 文瑞; 陈曦; 张子恒
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-09-27
Anticipated expiration: 2040-10-29
Also published as: CN112308131A

Abstract

本申请实施例提供一种样本拒识方法、装置、设备及存储介质。该方法包括：获取待分类样本；对待分类样本进行向量化处理，得到待分类样本的特征向量；通过分类模型获取特征向量分别与n个中心向量之间的相似度；基于特征向量分别与n个中心向量之间的相似度，确定待分类样本是否属于拒识样本，拒识样本是指分类结果不为分类模型所包括的类别的样本。本申请实施例提供的技术方案，由于待分类样本的特征与该待分类样本所属的类别的特征通常较为相似，基于该特性来判断待分类样本是否属于拒识样本，避免分类模型在待分类样本属于拒识样本时输出错误的分类结果，提高分类准确率。

Description

样本拒识方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能的机器学习技术领域，特别涉及一种样本拒识方法、装置、设备及存储介质。

背景技术

分类模型是机器学习技术领域较为广泛的应用之一。例如，疾病预测模型、物体分类模型等。

相关技术中，在训练分类模型时设定分类模型的类别数目，分类模型训练完成后，其使用过程具体如下：接收输入的待分类样本，获取待分类样本属于各个类别的概率，概率最大的类别也即是上述待分类样本所属的类别。例如，短信识别模型预先设定有诈骗短信和推销短信两个类别，待分类样本1为短信“今日运动鞋特惠，点击链接即可购买”，通过短信识别模型确定待分类样本1 为推销短信。

相关技术中，存在待分类样本不属于上述预先设定的类别的情况，此时分类模型返回错误的分类结果，分类准确率较低。例如，待分类样本2为短信“今晚6点大鱼餐厅，不见不散”，待分类样本2既不属于诈骗短信，也不属于推销短信，此时短信识别模型返回的分类结果为诈骗短信或推销短信，短信分类结果错误。

发明内容

本申请实施例提供一种样本拒识方法、装置、设备及存储介质，提高分类准确率。所述技术方案如下：

一方面，本申请实施例提供一种样本拒识方法，所述方法包括：

获取待分类样本；

对所述待分类样本进行向量化处理，得到所述待分类样本的特征向量；

通过分类模型获取所述特征向量分别与n个中心向量之间的相似度，所述n 个中心向量与所述分类模型的n个类别一一对应，所述类别对应的中心向量用于表征分类结果为所述类别的样本数据的整体特征，所述n为正整数；

基于所述特征向量分别与n个中心向量之间的相似度，确定所述待分类样本是否属于拒识样本，所述拒识样本是指分类结果不为所述分类模型所包括的类别的样本。

另一方面，本申请实施例提供一种样本拒识方法，所述方法包括：

获取患者的患病症状信息；

对所述患者的患病症状信息进行向量化处理，得到所述患病症状信息的特征向量；

通过疾病预测模型获取所述特征向量分别与n个中心向量之间的相似度，所述疾病预测模型用于基于患病症状信息预测疾病类型，所述n个中心向量与所述疾病预测模型的n个疾病类型一一对应，所述疾病类型对应的中心向量用于表征分类结果为所述疾病类型的样本数据的整体特征，所述n为正整数；

基于所述特征向量分别与n个中心向量之间的相似度，确定所述患病症状信息是否属于拒识样本，所述拒识样本是指分类结果不为所述疾病预测模型所包括的疾病类型的样本。

又一方面，本申请实施例提供一种样本拒识装置，所述装置包括：

样本获取模块，用于获取待分类样本；

第一向量化模块，用于对所述待分类样本进行向量化处理，得到所述待分类样本的特征向量；

第一获取模块，用于通过分类模型获取所述特征向量分别与n个中心向量之间的相似度，所述n个中心向量与所述分类模型的n个类别一一对应，所述类别对应的中心向量用于表征分类结果为所述类别的样本数据的整体特征，所述n为正整数；

第一拒识模块，用于基于所述特征向量分别与n个中心向量之间的相似度，确定所述待分类样本是否属于拒识样本，所述拒识样本是指分类结果不为所述分类模型所包括的类别的样本。

再一方面，本申请实施例提供一种样本拒识装置，所述装置包括：

信息获取模块，用于获取患者的患病症状信息；

第二向量化模块，用于对所述患者的患病症状信息进行向量化处理，得到所述患病症状信息的特征向量；

第二获取模块，用于通过疾病预测模型获取所述特征向量分别与n个中心向量之间的相似度，所述疾病预测模型用于基于患病症状信息预测疾病类型，所述n个中心向量与所述疾病预测模型的n个疾病类型一一对应，所述疾病类型对应的中心向量用于表征分类结果为所述疾病类型的样本数据的整体特征，所述n为正整数；

第二拒识模块，用于基于所述特征向量分别与n个中心向量之间的相似度，确定所述疾病症状信息是否属于拒识样本，所述拒识样本是指分类结果不为所述疾病预测模型所包括的疾病类型的样本。

又一方面，本申请实施例提供了一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述样本拒识方法。

再一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述样本拒识方法。

再一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述样本拒识方法。

本申请实施例提供的技术方案可以带来的有益效果至少包括：

通过先获取分类模型的各个类别分别对应的中心向量，对于分类模型包括的每一类别，计算该类别对应的中心向量与待分类样本的特征向量之间的相似度，之后基于待分类样本的特征向量与各个类别分别对应的中心向量之间的相似度来确定待分类样本是否为拒识样本；由于待分类样本的特征与该待分类样本所属的类别的特征通常较为相似，基于该特性来判断待分类样本是否属于拒识样本，避免分类模型在待分类样本属于拒识样本时输出错误的分类结果，提高分类准确率。

附图说明

图1是本申请一个实施例提供的疾病预测的示意图；

图2是本申请一个实施例提供的样本拒识方法的流程图；

图3是本申请一个实施例提供的训练分类模型的流程图；

图4是本申请一个实施例提供的样本拒识方法的流程图；

图5是本申请一个实施例提供的样本拒识的界面示意图；

图6是本申请一个实施例提供的样本拒识装置的结构框图；

图7是本申请一个实施例提供的样本拒识装置的结构框图；

图8是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行介绍说明之前，首先对本申请实施例涉及的相关名词进行介绍。

1、分类模型：用于预测待分类样本所属的类别。常见的分类模型包括且不限于：疾病预测模型、垃圾短信识别模型、商品图片分类模型等等。以分类模型为疾病预测模型为例，其用于基于用户输入的症状来预测用户所患的疾病类型。

分类模型包括特征提取模块与分类器。特征提取模块用于对输入的待分类样本进行聚合处理，得到用于表征待分类样本的特征向量。分类器用于基于待分类样本的特征向量预测待分类样本属于分类模型的各个类别的概率。通常情况下，待分类样本属于某一类别的概率最大，则认为待分类样本属于该类别。

特征提取模块包括且不限于基于Transformer的双向编码器表征(Bidirectional Encoder Representations from Transformers，BERT)模型、长短期记忆网络(Long Short-Term Memory，LSTM)模型，文本卷积申请网络(Text ConvolutionalNeural Networks，TextCNN)模型等。在本申请实施例中，仅以特征提取模块为BERT模型为例进行讲解。BERT模型是一种预训练模型，其预训练的权重可以帮助对输入特征进行更有表达意义的编码，也即，预训练过的 BERT模型可以提升下游分类任务的准确率。在本申请实施例中，分类器包括全连接层以及softmax激活函数。

分类模型是机器学习技术领域的重要应用之一。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2、对抗训练：在模型的训练过程中构建对抗样本并将对抗样本和原始样本混合一起训练模型的方法。原始样本也称正样本，对抗样本也称负样本。将正样本添加扰动项即可生成负样本。该扰动项需要满足如下两个特点：(1)扰动很微小；(2)扰动有能力使模型产生错误的输出。

3、拒识：拒绝识别。在本申请实施例中，分类模型将不属于其分类模型的任一类别的待分类样本确定为拒识样本。

本申请实施例提供的技术方案，通过先获取分类模型的各个类别分别对应的中心向量，对于分类模型包括的每一类别，计算该类别对应的中心向量与待分类样本的特征向量之间的相似度，之后基于待分类样本的特征向量与各个类别分别对应的中心向量之间的相似度来确定待分类样本是否为拒识样本；由于待分类样本的特征与该待分类样本所属的类别的特征通常较为相似，基于该特性来判断待分类样本是否属于拒识样本，避免分类模型在待分类样本属于拒识样本时输出错误的分类结果，提高分类准确率。

本申请实施例提供的技术方案，各步骤的执行主体是计算机设备。该计算机设备可以是诸如个人计算机、平板电脑、智能手机之类的终端，也可以是服务器。该服务器可以是一个服务器，也可以是多个服务器集群，还可以是一个云计算服务中心。在本申请实施例中，仅以各步骤的执行主体为终端为例进行说明。终端包含完成训练的分类模型，该分类模型可以是在终端本地训练得到的，也可以是从服务器中获取的。

本申请实施例提供的分类模型，在多个应用场景下可以得到应用。例如，分类模型可用于对图像中的物体进行分类识别，得到图像中包含的物体；也可以用于对用户的症状描述信息(如文本/图像)进行分类识别，得到用户可能患有的疾病；还可以用于对短信中的内容进行分类识别，确定该短信是否为垃圾短信；还可以对图像中的商品进行分类识别，得到图像中包含的商品等等。

下面结合图1对本申请实施例提供的技术方案应用于疾病预测为例进行说明。该过程具体如下：

(1)获取输入的疾病症状。

患者通过移动终端访问医院的公共服务平台，该公共服务平台提供有症状输入界面10，患者在该症状输入界面10输入疾病症状，上述疾病症状包括且不限于：是否发烧、发烧持续时间、是否咳嗽、咳嗽持续时长、是否头疼。可选地，患者还在该疾病输入界面10输入患者性别、年龄等。

在其他可能的实现方式中，医院提供有导医设备，该导医设备用于供患者完成症状输入。

(2)将输入的疾病症状转换为特征向量，并通过疾病预测模型获取该特征向量与各个疾病类型的中心向量之间的相似度。

(3)根据特征向量与各个疾病类型的中心向量之间的相似度，确定输入的疾病症状是否为拒识样本。

若特征向量与各个疾病类型的中心向量之间的相似度均小于各个疾病类型分别对应的相似度阈值，则确定输入的疾病症状为拒识样本，移动终端输出拒识结果101。

若特征向量与各个疾病类型的中心向量之间的相似度中，存在至少一个相似度大于该疾病类型分别的相似度阈值，则移动终端确定输入的疾病症状不为拒识样本，之后通过疾病预测模型进行预测，输出预测结果102。

图2示出了本申请一个实施例提供的拒绝识别方法的流程图。该方法包括：

步骤201，获取待分类样本。

待分类样本是指存在类别确定需求的样本。

在一种可能的实现方式中，待分类样本为图像。可选地，该图像中包含待分类对象。示例性地，待分类样本为商品图片、医学图像。医学图像是指通过医学仪器对患者的身体或身体组织进行扫描得到的图像。

在一种可能的实现方式中，待分类样本为文字，该文字用于描述待分类对象。示例性地，待分类样本为描述商品的形状、颜色、用途的文字。再例如，待分类样本为描述患者的患病症状的文字。

计算机设备接收用户输入的待分类样本，或者，计算机设备从其建立有通信连接的其它设备中获取待分类样本。

步骤202，对待分类样本进行向量化处理，得到待分类样本的特征向量。

向量化处理是指将待分类样本采用特征向量来表示。向量化处理的方式根据待分类样本的类型实际确定。当待分类样本为图像时，计算机设备通过分类模型的特征提取模块获取待分类样本的特征向量。当待分类样本为文字时，计算机设备通过词向量(Word2Vectot)算法、词嵌入(word embedding)算法、 one-hot算法中的至少一种来获取待分类样本的特征向量。

步骤203，通过分类模型，获取特征向量分别与n个中心向量之间的相似度。

n为正整数，n的取值也即是分类模型的类别的数量，是分类模型在训练过程中时由技术人员自定义设定，或者，由计算机设备默认设定的。

N个中心向量与分类模型所包括的n个类别一一对应。也即，分类模型的每一类别均对应有一个中心向量，类别对应的中心向量用于表征分类结果为该类别的样本数据的整体特征。

分类模型用于预测待分类样本所属的分类。分类模型的训练过程将在下文实施例进行讲解。

计算机设备通过分类模型，获取特征向量与每一中心向量之间的相似度。特征向量与中心向量之间的相似度用于衡量待分类样本与该中心向量对应的类别之间的相似程度。特征向量与中心向量之间的相似度越大，则待分类样本与分类结果为该中心向量对应的类别的样本数据之间的相似程度越大；特征向量与中心向量之间的相似度越小，则待分类样本与分类结果为该中心向量对应的类别的样本数据之间的相似程度越小。

特征向量与中心向量之间的相似度采用以下至少一项来表示：特征向量与中心向量之间的欧式距离、特征向量与中心向量之间的余弦相似度、特征向量与中心向量之间的曼哈顿距离、特征向量与中心向量之间的切比雪夫距离等等。在本申请实施例中，仅以特征向量与中心向量之间的相似度采用二者之间的余弦相似度来表示为例进行说明。

可选地，特征向量与中心向量之间的余弦相似度cos(θ)通过如下公式计算得到：

x_i表示特征向量的第i个维度的特征，y_i表示中心向量的第i个维度的特征， n为特征向量或中心向量所包括的维度数量。

特征向量与中心向量之间的余弦相似度越接近1，则特征向量与中心向量之间的相似度越大；特征向量与中心向量之间的余弦相似度越接近-1，则特征向量与中心向量之间的相似度越小。

步骤204，基于特征向量分别与n个中心向量之间的相似度，确定待分类样本是否属于拒识样本。

拒识样本是指分类结果不为分类模型所包括的类别的样本。

可选地，若特征向量与各个中心向量之间的相似度，均小于中心向量对应的相似度阈值，则确定待分类样本属于拒识样本。各个中心向量分别对应的相似度阈值可以相同，也可以不相同。

在本申请实施例中，计算机设备将特征向量与各个中心向量之间的相似度，与各个向量分别对应的相似度阈值进行逐一比对，根据比对结果来确定待分类样本是否为拒识样本。

可选地，若特征向量与各个中心向量之间的相似度中，存在至少一个相似度大于中心向量对应的相似度阈值，则通过分类模型对待分类样本进行分类，最终由分类模型输出待分类样本所属的分类结果。

在一个示例中，计算机设备确定待分类样本属于拒识样本的步骤具体如下：

步骤204a，令i＝1。

步骤204b，检测特征向量与第i个中心向量之间的相似度是否小于第i个特征向量对应的相似度阈值。

若特征向量与第i个中心向量之间的相似度小于第i个中心向量对应的相似度阈值，则执行步骤204c；若特征向量与第i个中心向量之间的相似度大于第i 个中心向量对应的相似度阈值，则结束流程，并通过分类模型对该待分类样本进行分类。

步骤204c，令i＝i+1。

计算机设备重复执行步骤204b-204c，直至i大于n时，确定待分类样本属于拒识样本。

综上所述，本申请实施例提供的技术方案，通过先获取用于表征分类结果为某一类别的整体特征的中心向量，对于分类模型包括的每一类别，计算该类别对应的中心向量与待分类样本的特征向量之间的相似度，之后基于待分类样本的特征向量与各个类别分别对应的中心向量之间的相似度来确定待分类样本是否为拒识样本；由于待分类样本的特征与该待分类样本所属的类别的特征通常较为相似，基于该特性来判断待分类样本是否属于拒识样本，避免分类模型在待分类样本属于拒识样本时输出错误的分类结果，提高分类准确率。

下面对每一类别对应的中心向量的生成过程进行讲解。

(1)在训练样本集中确定目标训练样本对。

目标训练样本对包括分类结果为第j个类别的正样本，以及分类结果为第j 个类别的正样本对应的负样本。目标训练样本对的数量为一个或多个，本申请实施例对此不作限定。

第j个类别是分类模型所包括的任一类别。j为小于或等于n的正整数，j 的取值为1到n的正整数。

分类结果为第j个类别的正样本对应的负样本是指，基于分类结果为第j个类别的正样本生成的负样本。基于正样本生成负样本的流程将在下文实施例进行讲解。

计算机设备在训练样本集中的训练样本中查找分类结果为第j个类别的正样本，之后查找该分类结果为第j个类别的正样本对应的负样本。

(2)根据目标训练样本对中正样本的特征向量，与目标训练样本对中负样本的特征向量，确定目标训练样本对的特征向量。

正样本的特征向量用于表示目标训练样本对中的正样本的特征。正样本的特征向量的维度根据计算机设备默认设定。可选地，计算机设备通过分类模型获取正样本的特征向量。在一个示例中，分类模型包括BERT模型和分类器，计算机设备将正样本输入分类模型，获取BERT模型中输出的向量，得到正样本的特征向量。在该示例中，正样本的特征向量为1*768的向量，也即正样本的特征向量的维度为768。

负样本的特征向量用于表示上述正样本对应的负样本的特征。负样本的特征向量的维度与正样本的特征向量的维度相同，负样本的特征向量的获取方式与正样本的特征向量的获取方式也相同。结合上述示例，负样本的特征向量也为1*768的向量。

可选地，计算机设备将正样本的特征向量和负样本的特征向量取均值，将该均值作为目标训练样本对的特征向量。结合上述示例，目标训练样本对的特征向量也为1*768的向量。

(3)根据目标训练样本对的特征向量确定第j个类别对应的中心向量。

当目标训练样本对为一个时，计算机设备将该目标训练样本对的特征向量确定为第j个类别对应的中心向量。

当目标训练样本对为多个时，计算机设备将各个目标训练样本对的特征向量的均值，确定为第j个类别对应的中心向量。计算机设备通过上述步骤(1)-

(3)获取分类模型的各个类别分别对应的中心向量。

需要说明的是，在本申请实施例中，计算机设备获取各个类别分别对应的中心向量后，在向量空间内形成每个类别对应的聚类集群，该类别对应的中心向量也即是该聚类集群的重心，分类结果为该类别的正样本以及负样本均处于该聚类集群中，若待分类样本映射到向量空间时处于该聚类集群之外，则说明待分类样本不属于该类别，若待分类样本映射到向量空间时处于所有聚类集群之外，则该待分类样本属于拒识样本。其中，上述向量空间是指分类模型所包括的类别映射的空间。

综上所述，本申请实施例提供的技术方案，根据训练分类模型采用的训练样本集来获取分类模型的各个类别对应的中心向量，可以快速获取中心向量。

在上文实施例中提到，各个中心向量分别对应的相似度阈值可以不相同。下面将介绍该情况下如何生成各个中心向量分别对应的相似度阈值。生成各个中心向量分别对应的相似度阈值的流程如下。

(4)通过分类模型在多个验证样本中确定出第k个类别的接受样本。

第k个类别的接受样本用于指示分类结果为第k个类别的验证样本，k为小于或等于n的整数。可选地，k的取值为1到n之间的正整数。

在分类模型训练完成后，需要通过验证样本对分类模型进行验证。计算机设备将验证样本输入训练完成的分类模型，由分类模型输出该验证样本所属的类别。在该步骤中，计算机设备筛选出分类结果为同一类别的全部或部分验证样本，作为该类别的接受样本。

可选地，计算机设备将第k个类别的接受样本的特征向量与第k个类别对应的中心向量之间的相似度，按照由大到小的顺序进行排列，之后基于排列结果筛选出预设比例的验证样本。示例性地，计算机设备筛选出分类结果为同一分类的且相似度排在前90％的验证样本，作为该类别的接受样本。

(5)根据第k个类别的接受样本的特征向量与第k个类别对应的中心向量之间的相似度，在第k个类别的接受样本中确定出目标接受样本。

第k个类别的接受样本的特征向量的获取方式与待分类样本的特征向量的获取方式相同，此处不作赘述。

可选地，计算机设备将与第k个类别对应的中心向量之间的相似度最小的第k个类别的接受样本，确定为目标接受样本。

(6)将目标接受样本与第k个类别对应的中心向量之间的相似度，确定为第k个类别对应的相似度阈值。

计算机设备将目标接受样本与第k个类别的样本对应的中心向量之间的相似度，确定为第k个类别对应的相似度阈值。计算机设备通过上述步骤(4)- (6)获取分类模型的各个类别分别对应的相似度阈值。

由于机器学习技术领域中的随机变量满足正态分布，基于该特性，假设待分类样本的特征向量与类别对应的中心向量之间的相似度作为满足正态分布与独立同分布，基于这两个假设，计算机设备动态确定各个类别分别对应的相似度阈值，可以提高识别待分类样本是否为拒识样本的准确率。

综上所述，本申请实施例提供的技术方案，通过动态设定分类模型的各个类别分别对应的相似度阈值，待识别样本的特征向量与各个类别的中心向量之间的相似度，与各个类别分别对应的相似度阈值进行比对，可以提高识别待分类样本是否为拒识样本的准确率。

图3是本申请一个示例性实施例提供的训练分类模型的流程图。该分类模型的训练过程包括如下步骤。

步骤301，获取训练样本集。

训练样本集中的训练样本标注有实际分类结果。训练样本对应的实际分类结果可以是人工标注的。可选地，训练样本集中的训练样本的数量根据分类模型的精度要求确定。若分类模型的精度要求越高，则训练样本的数量越大。

训练样本集中的训练样本包括正样本和基于正样本生成的负样本。由于本申请实施例采用对抗训练方式来训练分类模型。在对抗训练过程中，需要对正样本添加扰动参数来生成负样本。下面对该过程进行讲解。

步骤301a，获取正样本。

步骤301b，通过预设算法生成扰动参数。

扰动参数是指使分类模型产生误判断的参数。也即，正样本添加扰动参数后得到负样本后，分类模型对负样本进行分类时，输出错误的分类结果。扰动参数通常很微小。

在本申请实施例中，预设算法为(Fast Gradient Method，FGM)算法，扰动参数通过如下公式计算得到

g为损失函数L关于输入X的梯度，并且g采用L2归一化将梯度的每个维度除以梯度的L2范数，因此FGM算法更严格地保留了梯度的方向。另外扰动项不可以无限放大，需要控制在一定范围内，本发明采取的FGM约束扰动项的 L2范数小于1。

步骤301c，基于正样本和扰动参数生成负样本。

计算机设备将扰动参数与正样本的特征向量相加，得到负样本。

步骤302，将训练样本集中的训练样本输入原始模型，由原始模型输出预测分类结果。

原始分类模型是指未经训练的分类模型。可选地，分类模型的各项参数是随机确定的。

步骤303，通过预测分类结果与实际分类结果获取损失函数。

计算机设备设计损失函数，并通过预测分类结果与实际分类结果的比对来

可选地，损失函数通过如下公式表示：

γ是专注参数(focus parameter)，1-p_t是调制系数。

根据上述公式得到：当训练样本的分类结果错误时，p_t较小，(1-p_t)接近 1，损失不被影响；当训练样本的分类结果正确时，p_t接近1，(1-p_t)接近0，此时分类正确而且是易分类样本的权值被调低。当γ＝0的时候，损失函数就是传统的交叉熵损失，当γ增加的时候，调制系数也会增加。专注参数γ平滑地调节了易分样本调低权值的比例。γ增大能增强调制系数的影响，实验发现γ值等于2时模型效果最好。专注参数以及调制系数减少了易分样本的损失贡献，拓宽了样例接收到低损失的范围，从而使得模型在训练中更加专注于难分类的样本，因此就增加那些误分类的重要性。

步骤304，基于损失函数调整原始模型的各项参数。

可选地，对抗训练通过如下公式来表示：

L_focal()为损失函数，X为输入特征，y为真实标签。max(L)为优化目标，即寻找损失函数最大的扰动。

计算机调整原始模型的各项参数后，并再次从将训练样本集中的训练样本输入原始模型的步骤开始执行，直至损失函数符合预设条件，得到分类模型。预设条件可以是指实际分类结果与预测分类结果之间的误差小于预设阈值。计算机设备重复执行步骤302至步骤304，在损失函数满足预设条件时，得到分类模型。

综上所述，本申请实施例提供的技术方案，通过采用对抗训练的方式来训练分类模型，可以在模型训练的过程中对模型进行对抗攻击从而提升模型对于对抗攻击的鲁棒性。

下面对本申请实施例提供的样本拒识方法应用于疾病预测为例进行讲解。图4是本申请一个示例性实施例提供的样本拒识方法的流程图。该方法包括如下步骤：

步骤401，获取患者的患病症状信息。

患者的患病症状信息包括且不限于：患者性别、患者年龄、患者病史、患者的症状。可选地，患病症状信息为医学图像，例如通过医学仪器对患者的身体或组织进行扫描得到的图像。可选地，患病症状信息为描述疾病症状的词语或句子。

在一种可能的实现方式中，患者通过移动终端访问医院的公共服务平台，上述公共服务平台提供有症状输入界面，患者在上述症状输入界面输入患病症状信息。上述公共服务平台是医院的官网或者公众号。在另一种可能的实现方式中，医院提供有导医设备，患者在导医设备提供的症状输入界面输入患病症状信息。

步骤402，对患病症状信息进行向量化处理，得到患病症状信息的特征向量。

计算机设备将患者性别、患者年龄转化为one-hot向量，将患者病史、患者的症状转换为相应的词向量。

步骤403，通过疾病预测模型获取特征向量分别与n个中心向量之间的相似度。

疾病预测模型用于基于输入的疾病特征预测疾病类型。

n个中心向量与疾病预测模型的n个疾病类型一一对应，疾病类型对应的中心向量用于表征分类结果为疾病类型的样本数据的整体特征，n为正整数。

步骤404，基于特征向量分别与n个中心向量之间的相似度，确定患病症状信息是否属于拒识样本。

拒识样本是指分类结果不为疾病预测模型所包括的类别的样本。

参考表-1，其示例性示出了对于“急性上呼吸道感染”这个类别的用户输入样本预测情况：

表-1

可选地，本申请实施例提供的样本拒识方法还包括如下步骤：

步骤405，若患病症状信息属于拒识样本，则输出拒识结果。

拒识结果用于指示患病症状信息属于拒识样本。示例性地，拒识结果为“无法识别您输入的患病症状信息”。

步骤406，若患病症状信息不属于拒识样本，则通过疾病预测模型获取患病症状信息对应的分类结果，根据分类结果输出就医指导信息。

就医指导信息用于向患者提供就医指导。就医指导信息包括且不限于：患病症状信息对应的分类结果、科室推荐信息、医生推荐信息、诊治注意事项等。科室推荐信息用于向患者推荐用于诊断上述分类结果的科室，患者可以基于上述科室推荐信息进行挂号。医生推荐信息用于向患者推荐用于诊断上述分类结果的医生。诊治注意事项用于提示用户在治疗上述分类结果时的注意事项，例如多喝水、饮食清淡、多运动等等。

在一个示例中，参考图5，其示出了本申请一个实施例示出的拒绝识别待分类样本的示意图。在训练分类模型前，计算机设备通过对抗负样本模块生成负样本，之后通过正样本和负样本训练疾病预测模型，计算机设备还将所有的训练样本及类别映射到一个向量空间内，将属于某一类别的正样本的特征向量和该正样本对应的负样本的特征向量取均值，得到该类别对应的中心向量，上述正样本的特征向量、负样本的特征向量、中心向量可以构建出该类别对应的集群，该类别还被设置有相似度阈值，后续待分类样本被输入时，计算该分类样本的特征向量与类别的中心向量之间的相似度，并比对相似度和该类别的相似度阈值之间的大小，以确定待分类样本是否属于拒识样本。

综上所述，本申请实施例提供的技术方案，通过先获取用于表征分类结果为某一疾病类型的整体特征的中心向量，对于疾病预测模型包括的每一类别，计算该类别对应的中心向量与患者的患病症状信息的特征向量之间的相似度，之后基于上述特征向量与各个疾病类型分别对应的中心向量之间的相似度来确定患病症状信息是否为拒识样本；由于患病症状信息的特征与该待分类样本所属的疾病类型的特征通常较为相似，基于该特性来判断患病症状信息是否属于拒识样本，避免疾病预测模型在待分类样本属于拒识样本时输出错误的分类结果，提高分类准确率。

下面对本申请实施例提供的样本拒识方法应用于短信分类为例进行讲解。该方法包括如下步骤：

步骤501，获取待分类短信的短信内容。

计算机设备从短信应用中读取待分类短信的短信内容。

步骤502，对待分类短信的短信内容进行向量化处理，得到待分类短信的特征向量。

计算机设备先对待分类短信的短信内容进行分词，得到待分类短信所包括的词语，之后将待分类短信的词语转换成词向量，之后基于待分类短信所包括的词语分别对应的词向量得到待分类短信的特征向量。在一种可能的实现方式中，计算机设备将待分类短信所包括的词语分别对应的词向量拼接，得到待分类短信的特征向量。在另一种可能的实现方式中，计算机设备将待分类短信所包括的词语分别对应的词向量取均值，得到待分类短信的特征向量。

步骤503，通过短信分类模型获取特征向量分别与n个中心向量之间的相似度。

短信分类模型用于预测待分类短信所属的类别。短信分类模型的类别包括推销短信、诈骗短信等等。

n个中心向量与短信分类模型的n个类别一一对应，类别对应的中心向量用于表征分类结果为该类别的样本数据的整体特征，n为正整数。

步骤504，基于特征向量分别与n个中心向量之间的相似度，确定待分类短信是否属于拒识样本。

拒识样本是指分类结果不为短信分类模型所包括的类别的样本。

步骤505，若待分类短信不属于拒识样本，则拦截待分类短信。

若待分类短信为拒识样本，则不拦截待分类短信。

综上所述，本申请实施例提供的技术方案，对于短信分类模型包括的每一类别，计算该类别对应的中心向量与待分类短信的特征向量之间的相似度，之后基于上述特征向量与各个类别分别对应的中心向量之间的相似度来确定待分类短息是否为拒识样本；由于待分类短信的特征与该待分类短信所属的类别的特征通常较为相似，基于该特性来判断待分类短信是否属于拒识样本，避免短信分类模型在待分类短信属于拒识样本时输出错误的分类结果，提高分类准确率。

下面对本申请实施例提供的样本拒识方法应用于图像分类为例进行讲解。该方法包括如下步骤：

步骤506，获取待分类图像。

计算机设备从本地或网络中获取待分类图像，待分类图像中包含待分类对象。

步骤507，对待分类图像进行向量化处理，得到待分类图像的特征向量。

计算机设备通过图像分类模型的特征提取模块对待分类图像进行向量化处理，得到待分类图像的特征向量。

步骤508，通过图像分类模型获取特征向量分别与n个中心向量之间的相似度。

图像分类模型用于预测待分类图像中的待分类对象所属的类别。

n个中心向量与图像分类模型的n个类别一一对应，类别对应的中心向量用于表征分类结果为该类别的样本数据的整体特征，n为正整数。

步骤509，基于特征向量分别与n个中心向量之间的相似度，确定待分类图像是否属于拒识样本。

若待分类图像为拒识样本，则输出拒识结果。若待分类图像不属于拒识样本，则通过图像分类模型对待分类图像进行图像分类，得到待分类图像对应的分类结果，并输出上述分类结果。

综上所述，本申请实施例提供的技术方案，对于图像分类模型包括的每一类别，计算该类别对应的中心向量与待分类图像的特征向量之间的相似度，之后基于上述特征向量与各个类别分别对应的中心向量之间的相似度来确定待分类图像是否为拒识样本；由于待分类图像的特征与该待分类图像所属的类别的特征通常较为相似，基于该特性来判断待分类图像是否属于拒识样本，避免图像分类模型在待分类图像属于拒识样本时输出错误的分类结果，提高分类准确率。

以下为本申请装置实施例，对于装置实施例中未详细阐述的部分，可以参考上述方法实施例中公开的技术细节。

请参考图6，其示出了本申请一个示例性实施例提供的样本拒识装置的框图。该样本拒识装置可以通过软件、硬件或者两者的组合实现成为计算机设备的全部或一部分。该装置包括：样本获取模块601、向量化处理模块602、相似度获取模块603、样本拒识模块604。

样本获取模块601，用于获取待分类样本。

第一向量化模块602，用于对所述待分类样本进行向量化处理，得到所述待分类样本的特征向量。

第一获取模块603，用于通过分类模型获取所述特征向量分别与n个中心向量之间的相似度，所述n个中心向量与所述分类模型的n个类别一一对应，所述类别对应的中心向量用于表征分类结果为所述类别的样本数据的整体特征，所述n为正整数。

第一拒识模块604，用于基于所述特征向量分别与n个中心向量之间的相似度，确定所述待分类样本是否属于拒识样本，所述拒识样本是指分类结果不为所述分类模型所包括的类别的样本。

在基于图6所示实施例提供的可选实施例中，所述第一拒识模块604，用于：若所述特征向量与各个所述中心向量之间的相似度，均小于所述中心向量对应的相似度阈值，则确定所述待分类样本属于所述拒识样本。

可选地，所述第一拒识模块604，用于：

检测所述特征向量与第i个中心向量之间的相似度是否小于所述第i个中心向量对应的相似度阈值，所述i的初始值为1；

若所述特征向量与所述第i个中心向量之间的相似度小于所述第i个中心向量对应的相似度阈值，则令i＝i+1，并再次从所述检测所述特征向量与第i个中心向量之间的相似度是否小于所述第i个中心向量对应的相似度阈值的步骤开始执行；

直至所述i大于所述n时，确定所述待分类样本属于所述拒识样本。

在基于图6所示实施例提供的可选实施例中，所述装置还包括：中心向量获取模块(图6未示出)。

在训练样本集中确定目标训练样本对，所述目标训练样本对包括分类结果为第j个类别的正样本和负样本，所述j为小于等于所述n的正整数；

根据所述目标训练样本对中所述正样本的特征向量，以及所述目标训练样本对中所述负样本的特征向量，确定所述目标训练样本对的特征向量；

根据所述目标训练样本对的特征向量，确定所述第j个类别对应的中心向量。

在基于图6所示实施例提供的可选实施例中，所述装置还包括：阈值确定模块(图6未示出)。

在多个验证样本中确定出第k个类别的接受样本，所述第k个类别的接受样本是指分类结果为所述第k个类别的验证样本，所述k为小于等于所述n的整数；

根据所述第k个类别的接受样本的特征向量与所述第k个类别对应的中心向量之间的相似度，在所述第k个类别的接受样本中确定出目标接受样本；

将所述目标接受样本的特征向量与所述第k个类别对应的中心向量之间的相似度，确定为所述第k个类别对应的相似度阈值。

在基于图6所示实施例提供的可选实施例中，所述分类模型的训练过程如下：

获取训练样本集，所述训练样本集中的训练样本标注有实际分类结果，所述训练样本集中的训练样本包括正样本和基于所述正样本生成的负样本；

将所述训练样本集中的训练样本输入原始模型，由所述原始模型输出预测分类结果；

通过所述预测分类结果与所述实际分类结果获取损失函数；

基于所述损失函数调整所述原始模型的各项参数，并再次从所述将所述训练样本集中的训练样本输入原始模型的步骤开始执行，直至所述损失函数符合预设条件，得到所述分类模型。

可选地，所述获取训练样本集，包括：

获取所述正样本；

通过预设算法生成扰动参数，所述扰动参数是指使所述分类模型产生误判断的参数；

基于所述正样本和所述扰动参数，生成所述负样本。

请参考图7，其示出了本申请一个示例性实施例提供的样本拒识装置的框图。该样本拒识装置可以通过软件、硬件或者两者的组合实现成为计算机设备的全部或一部分。该装置包括：信息获取模块701、第二向量化模块702、第二获取模块703、第二拒识模块704。

信息获取模块701，用于获取患者的患病症状信息。

第二向量化模块702，用于对所述患者的患病症状信息进行向量化处理，得到所述患病症状信息的特征向量。

第二获取模块703，用于通过疾病预测模型获取所述特征向量分别与n个中心向量之间的相似度，所述疾病预测模型用于基于患病症状信息预测疾病类型，所述n个中心向量与所述疾病预测模型的n个疾病类型一一对应，所述疾病类型对应的中心向量用于表征分类结果为所述疾病类型的样本数据的整体特征，所述n为正整数。

第二拒识模块704，用于基于所述特征向量分别与n个中心向量之间的相似度，确定所述疾病症状信息是否属于拒识样本，所述拒识样本是指分类结果不为所述疾病预测模型所包括的疾病类型的样本。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的计算机设备800的结构框图。该计算机设备800可以是：智能手机、平板电脑、笔记本电脑或台式电脑。该计算机设备还可以是服务器。

通常，计算机设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列 (Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器801 也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储计算机程序，该计算机程序用于被处理器801所执行以实现本申请中方法实施例提供的样本拒识方法。

在一些实施例中，计算机设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

本领域技术人员可以理解，图8中示出的结构并不构成对计算机设备800 的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由终端的处理器加载并执行以实现上述方法实施例中的样本拒识方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory， ROM)、随机存取存储器(Random Access Memory，RAM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述样本拒识方法。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种样本拒识方法，其特征在于，所述方法包括：

获取患者的患病症状信息；

在训练样本集中确定目标训练样本对，所述目标训练样本对包括分类结果为第j个类别的正样本和负样本，所述j为正整数，所述负样本为对所述正样本添加扰动参数得到的样本，所述扰动参数用于对所述正样本进行微小扰动；

将所述目标训练样本对中所述正样本的特征向量与所述目标训练样本对中所述负样本的特征向量的均值，确定为所述目标训练样本对的特征向量；

根据所述目标训练样本对的特征向量，确定所述第j个类别对应的中心向量，所述第j个类别对应的中心向量用于表征分类结果为所述第j个类别的样本数据的整体特征；

通过分类模型获取所述患病症状信息的特征向量分别与n个中心向量之间的相似度，所述分类模型用于基于患病症状信息预测疾病类型，所述n个中心向量与所述分类模型的n个疾病类型一一对应，所述n为大于或者等于j的正整数；

基于所述患病症状信息的特征向量分别与n个中心向量之间的相似度，确定所述患病症状信息是否属于拒识样本，所述拒识样本是指分类结果不为所述分类模型所包括的疾病类型的样本。

2.根据权利要求1所述的方法，其特征在于，所述基于所述患病症状信息的特征向量分别与n个中心向量之间的相似度，确定所述患病症状信息是否属于拒识样本，包括：

若所述患病症状信息的特征向量与各个所述中心向量之间的相似度，均小于所述中心向量对应的相似度阈值，则确定所述患病症状信息属于所述拒识样本。

3.根据权利要求2所述的方法，其特征在于，所述确定所述患病症状信息属于所述拒识样本，包括：

检测所述患病症状信息的特征向量与第i个中心向量之间的相似度是否小于所述第i个中心向量对应的相似度阈值，所述i的初始值为1；

若所述患病症状信息的特征向量与所述第i个中心向量之间的相似度小于所述第i个中心向量对应的相似度阈值，则令i=i+1，并再次从所述检测所述患病症状信息的特征向量与第i个中心向量之间的相似度是否小于所述第i个中心向量对应的相似度阈值的步骤开始执行；

直至所述i大于所述n时，确定所述患病症状信息属于所述拒识样本。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述患病症状信息的特征向量分别与n个中心向量之间的相似度，确定所述患病症状信息是否属于拒识样本之前，还包括：

在多个验证样本中确定出第k个疾病类型的接受样本，所述第k个疾病类型的接受样本是指分类结果为所述第k个疾病类型的验证样本，所述k为小于或者等于所述n的正整数；

根据所述第k个疾病类型的接受样本的特征向量与所述第k个疾病类型对应的中心向量之间的相似度，在所述第k个疾病类型的接受样本中确定出目标接受样本；

将所述目标接受样本的特征向量与所述第k个疾病类型对应的中心向量之间的相似度，确定为所述第k个疾病类型对应的相似度阈值。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述分类模型的训练过程如下：

通过所述预测分类结果与所述实际分类结果获取损失函数；

基于所述损失函数调整所述原始模型的参数。

6.根据权利要求5所述的方法，其特征在于，所述获取训练样本集，包括：

获取所述正样本；

通过预设算法生成所述扰动参数，所述扰动参数是指使所述分类模型产生误判断的参数；

基于所述正样本和所述扰动参数，生成所述负样本。

7.一种样本拒识装置，其特征在于，所述装置包括：

样本获取模块，用于获取患者的患病症状信息；

第一向量化模块，用于对所述患者的患病症状信息进行向量化处理，得到所述患病症状信息的特征向量；

中心向量获取模块，用于在训练样本集中确定目标训练样本对，所述目标训练样本对包括分类结果为第j个类别的正样本和负样本，所述j为正整数，所述负样本为对所述正样本添加扰动参数得到的样本，所述扰动参数用于对所述正样本进行微小扰动；

所述中心向量获取模块，还用于将所述目标训练样本对中所述正样本的特征向量与所述目标训练样本对中所述负样本的特征向量的均值，确定为所述目标训练样本对的特征向量；

所述中心向量获取模块，还用于根据所述目标训练样本对的特征向量，确定所述第j个类别对应的中心向量，所述第j个类别对应的中心向量用于表征分类结果为所述第j个类别的样本数据的整体特征；

第一获取模块，用于通过分类模型获取所述患病症状信息的特征向量分别与n个中心向量之间的相似度，所述分类模型用于基于患病症状信息预测疾病类型，所述n个中心向量与所述分类模型的n个疾病类型一一对应，所述n为大于或者等于j的正整数；

第一拒识模块，用于基于所述患病症状信息的特征向量分别与n个中心向量之间的相似度，确定所述患病症状信息是否属于拒识样本，所述拒识样本是指分类结果不为所述分类模型所包括的疾病类型的样本。

8.根据权利要求7所述的装置，其特征在于，所述第一拒识模块，用于：

9.根据权利要求8所述的装置，其特征在于，所述第一拒识模块，用于：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的样本拒识方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至6任一项所述的样本拒识方法。