CN110503155A

CN110503155A - 一种信息分类的方法及相关装置、服务器

Info

Publication number: CN110503155A
Application number: CN201910794568.8A
Authority: CN
Inventors: 胡一凡; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-26

Abstract

本申请公开了一种信息分类的方法及相关装置、服务器，用于提高分类模型中样本数据较少的类别预测的准确率。本申请方法包括：获取待分类信息；通过分类模型获取待分类信息所对应的第一概率；基于信息分类规则对第一概率进行修正处理，得到第二概率，其中，信息分类规则表示原始概率集合与修正概率集合之间的对应关系，原始概率集合包括M个原始概率，修正概率集合包括M个修正概率，M为大于1的整数，原始概率与修正概率具有一一对应的关系，且修正概率集合中的修改概率与所述原始概率集合中的原始概率满足相同的分布顺序；根据第二概率生成信息分类结果。

Description

一种信息分类的方法及相关装置、服务器

技术领域

本申请涉及计算机技术领域，尤其涉及一种信息分类的方法及相关装置、服务器。

背景技术

随着计算机技术的迅速发展，计算机已经成为了人们生活中不可或缺的一部分，人们逐渐采用计算机来代替人工完成一些特定的工作。例如，在文本分类或图像分类等需要对信息进行分类的领域中，人们通常采用基于机器学习的分类模型来对文本或图像等信息进行分类。

在基于机器学习的分类模型中，其输入通常是待分类的文本或图像等信息，输出则是待分类的文本或图像所属的类别。通常来说，这些分类模型是先输出待分类的文本或图像属于每一个类别的概率，然后再基于这些概率决定待分类的文本或图像所属的类别，即输出概率值最大的类别作为待分类的文本或图像所属的类别。

目前，大部分的基于机器学习的分类模型对于不平衡数据的预测存在问题，即采用不平衡数据对分类模型进行训练的时候，分类模型所预测的结果会偏移至训练数据中样本数据较多的类别，从而导致样本数据较少的类别的预测准确率很低。

发明内容

本申请实施例提供了一种信息分类的方法及相关装置、服务器，通过在获得分类模型输出的预测概率之后，将每一个类别对应的预测概率按照信息分类规则重新进行修正，使得每一个类别对应的预测概率均能够按照其在所属类别对应的原始概率中的分布进行重构对齐，使得每一个类别的分布尽可能相同，然后再进行分类，能够有效地提高样本数据较少的类别预测的准确率。

本申请实施例第一方面提供一种信息分类的方法，包括：

获取待分类信息；

通过分类模型获取待分类信息所对应的第一概率；

基于信息分类规则对第一概率进行修正处理，得到第二概率，其中，信息分类规则表示原始概率集合与修正概率集合之间的对应关系，原始概率集合包括M个原始概率，修正概率集合包括M个修正概率，M为大于1的整数，原始概率与修正概率具有一一对应的关系，且修正概率集合中的修改概率与原始概率集合中的原始概率满足相同的分布顺序；

根据第二概率生成信息分类结果。

本申请实施例第二方面提供一种信息分类的装置，包括：

获取单元，用于获取待分类信息；

获取单元，还用于通过分类模型获取待分类信息所对应的第一概率；

修正单元，用于基于信息分类规则对第一概率进行修正处理，得到第二概率，其中，信息分类规则表示原始概率集合与修正概率集合之间的对应关系，原始概率集合包括M个原始概率，修正概率集合包括M个修正概率，M为大于1的整数，原始概率与修正概率具有一一对应的关系，且修正概率集合中的修改概率与原始概率集合中的原始概率满足相同的分布顺序；

生成单元，用于根据第二概率生成信息分类结果。

在一种可能的设计中，在本申请实施例的第二方面的一种实现方式中，还包括确定单元；

获取单元，还用于获取分类模型的分类阈值，分类阈值属于原始概率集合；

确定单元，用于根据分类阈值确定目标概率阈值；

生成单元，还用于根据目标概率阈值生成信息分类规则，其中，修正概率集合包括目标概率阈值，目标概率阈值属于M个修正概率中的第N个修正概率，第一个修正概率至第N-1个修正概率均小于目标概率阈值，第N+1个修正概率至第M个修正概率均大于目标概率阈值，N为大于1，且小于M的整数。

在一种可能的设计中，在本申请实施例的第二方面的一种实现方式中，

获取单元，还用于获取分类模型的接收者操作特征ROC曲线；

获取单元，还用于根据ROC曲线获取分类模型的分类阈值。

获取单元，还用于获取ROC曲线上坐标点的模型准确值，模型准确值由与坐标点对应的精确率和召回率确定得到；

获取单元，还用于根据模型准确值获取分类模型的分类阈值。

获取单元，还用于获取ROC曲线上的坐标点与目标坐标点之间的距离，其中，目标坐标点的横坐标为0，目标坐标点的纵坐标为1；

确定单元，还用于确定ROC曲线上的第一坐标点，第一坐标点为ROC曲线上与目标坐标点之间的距离最小的坐标点；

获取单元，还用于根据第一坐标点获取分类模型的分类阈值。

获取单元，还用于获取ROC曲线上的坐标点所对应的敏感度；

获取单元，还用于根据ROC曲线上的坐标点所对应的敏感度获取分类模型的分类阈值。

确定单元，还用于根据分类模型中多个分类类别所对应的多个第二概率确定第三概率，第三概率为多个第二概率中概率值最大的一个概率；

确定单元，还用于根据第三概率所属的分类类别确定信息分类结果。

获取单元，还用于获取待分类的医学图像，医学图像包括标注有病灶所在区域的图像；

生成单元，还用于根据第二概率生成医学图像的病灶分类结果。

本申请实施例第三方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；其中，存储器用于存储程序；处理器用于执行存储器中的程序，包括如下步骤：

获取待分类信息；

通过分类模型获取待分类信息所对应的第一概率；

根据第二概率生成信息分类结果；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请实施例第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一方面的方法。

本申请实施例第五方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述任一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

附图说明

图1为本申请实施例中信息分类系统的一个架构示意图；

图2为本申请实施例提供的一种信息分类的方法的示例图；

图3为本申请实施例提供的一种ROC曲线示例图；

图4为本申请实施例提供的一种获取ROC曲线上第一坐标点的示例图；

图5为本申请实施例提供的病灶区域的检测示例图；

图6为本申请实施例提供的信息分类的装置的示例图；

图7为本申请实施例提供的一种服务器结构示意图。

具体实施方式

本申请实施例提供了一种信息分类的方法及相关装置、服务器，用于提高分类模型中样本数据较少的类别预测的准确率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。目前，根据强调侧面的不同对机器学习有多种分类方法，包括有基于学习策略的分类、基于学习方法的分类、基于学习方式的分类、基于数据形式的分类以及基于学习目标的分类。其中，基于学习策略对机器学习进行分类主要包括有统计机器学习，统计机器学习是基于对数据的初步认识以及学习目的的分析，选择合适的数学模型，拟定超参数，并输入样本数据，依据一定的策略，运用合适的学习算法对模型进行训练，最后运用训练好的模型对数据进行分析预测。

本申请实施例提供的信息分类的方法涉及人工智能的统计机器学习等技术，具体将通过以下的实施例进行说明。

应理解，本申请实施例应用于基于机器学习的分类模型进行信息分类的场景，具体地，可以应用于对新闻文本、评论文本等文本信息进行分类的场景，或者应用于对图像进行分类的场景，例如通过分类模型对一些脑部出血的医学图像进行分类，以获得该医学图像所属的脑部出血原因类别，能够有效地辅助医生作出诊断结果。具体地，在本实施例中，所采用的基于机器学习的分类模型具体可以是二分类模型或者多分类模型，在此不做具体限定。

可以理解的是，在采用分类模型对信息进行分类之前，通常需要采用大量的样本数据对分类模型进行训练，最后再采用训练后的分类模型对信息进行分类。然而，由于部分样本数据的难获得性，例如医学上的一些较为罕见的疾病对应的病灶图像是较难获得的，会导致用于训练分类模型的样本数据中部分类别的样本较多，而部分类别的样本则较少，即出现了样本数据不平衡的情况。目前，大部分的基于机器学习的分类模型在采用不平衡的样本数据训练之后，在对信息进行预测分类时，其预测结果会偏移至训练数据中样本数据较多的类别，从而导致样本数据较少的类别的预测准确率很低。例如，在通过分类模型对脑部出血的医学图像进行出血原因分类时，假设出血原因有六种(即一共有六个分类类别)，其中第一至第三种出血原因是较为常见的出血原因，因此，临床上能够提供的相关医学图像也较多，即用于训练分类模型的且属于第一至第三种出血原因的医学图像较多，另外，第四至第六种出血原因是较为罕见的出血原因，因此，临床上能够提供的相关医学图像也较少，即用于训练分类模型的且属于第四至第六种出血原因的医学图像较少。这样一来，会导致分类模型所预测的分类结果偏向第一至第三种出血原因，即第四至第六种出血原因的预测准确率较低。实际上，由于第一至第三种出血原因是较为常见的出血原因，临床医生往往也较为容易分辨出来，而第四至第六种出血原因是较为罕见的出血原因，临床医生往往不容易分辨出来，医生通常更为关注第四至第六种出血原因并且更希望能够得到较佳的预测结果。

有鉴于此，本申请实施例提供了一种信息分类的方法及相关装置、服务器，通过在获得分类模型输出的预测概率之后，将每一个类别对应的预测概率按照信息分类规则重新进行修正，使得每一个类别对应的预测概率均能够按照其在所属类别对应的原始概率中的分布进行重构对齐，使得每一个类别的分布尽可能相同，然后再进行分类，能够有效地提高样本数据较少的类别预测的准确率。

为了便于理解，以下将对本申请实施例提供的方法所应用的系统架构进行介绍。本申请提出了一种信息分类的方法，该方法应用于图1所示的信息分类系统，请参阅图1，图1为本申请实施例中信息分类系统的一个架构示意图，如图所示，终端通过网络与服务器建立通信连接，服务器上部署有基于机器学习的分类模型，该分类模型用于进行信息分类；在用户需要对文本或图像进行分类时，可以通过终端将待分类的文本或图像发送至服务器，由服务器通过该分类模型对待分类的文本或图像进行分类，并且基于信息分类规则对分类模型原始输出的概率进行修正处理，得到修正后的概率，最后再基于修正后的概率生成相应的信息分类结果。例如，临床医生在通过影像设备(例如电子计算机断层扫描(computedtomography，CT)设备)拍摄得到医学图像之后，可以通过与服务器建立有通信连接的终端将医学图像发送至服务器上，由服务器基于分类模型以及信息分类规则得到最终的图像分类结果，最后再获取服务器返回的图像分类结果。

值得注意的是，在本实施例中，也可以在终端上部署基于机器学习的分类模型，在终端获取到需要进行分类的文本或图像等信息时，可以通过部署于终端上的该分类模型来对文本或图像进行分类，并且基于信息分类规则对分类模型原始输出的概率进行修正处理，得到修正后的概率，最后再基于修正后的概率生成相应的信息分类结果。为了便于叙述，以下将以在服务器上执行信息分类为例，对本申请实施例提供的信息分类的方法进行详细的介绍。

其中，图1中所示的终端仅为简单的示意，在实际应用中，终端包含但不仅限于手机、平板电脑、台式电脑、笔记本电脑以及掌上电脑等终端设备。

请参阅图2，图2为本申请实施例提供的一种信息分类的方法的示例图。本申请实施例中提供的一种信息分类的方法一个实施例包括：

201、获取待分类信息；

在本实施例中，在服务器上可以获取到终端所发送的待分类信息，该待分类信息可以包括但不限于文本信息或图像信息，为了便于叙述，以下将以图像信息为例进行介绍。在采用本申请实施例提供的信息分类的方法对医学图像进行分类时，服务器可以获取到待分类的医学图像，该医学图像上包括标注有病灶所在区域的图像，例如该医学图像可以包括有脑出血的图像。

202、通过分类模型获取待分类信息所对应的第一概率；

在本实施例中，分类模型指的是每个数据集合中的元素均分配给一个已知的数据类别，也就是说对于一个数据集合中的元素，都可以将其分配给一个预先设定好的数据类别，以实现元素的分类。例如，根据医生的病历记录，将病历记录对应的检查者区分为健康或者生病，这里所指的检查者即为数据集合中的元素，健康或者生病则可以理解为预先设定好的数据类别；又例如，根据影像设备对病人病变部位(例如大脑)进行拍摄得到的医学图像，可以将病人病变原因分为动脉瘤破裂导致的脑出血、高血压脑出血或者动静脉畸形导致的脑出血等，这里所指的医学图像可以理解为数据集合中的元素，上述的三种脑出血原因则可以理解为数据类别。

一般来说，构建一个分类模型需要以下三个步骤：1)、数据预处理；2)、模型训练；3)、模型性能评估。其中，数据预处理指的是根据分类模型所要针对的待分类信息，获取相应的训练数据并且对这些训练数据进行预处理，例如分类模型要对脑部出血的医学图像进行脑部出血原因分类，那么就需要获取大量的脑部出血的医学图像作为训练数据，并且在这些训练数据上标注上具体的脑部出血原因，最后对这些标注好的训练数据进行数据清洗，获得有效的训练数据。模型训练指的是将这些有效的训练数据输入到预先构建好的分类模型中，通过这些训练数据对分类模型进行训练，以使得分类模型中的参数能够得到优化，最终令到分类模型能够通过学习训练数据中的分类结果来获得能够预测新的图像数据所属类别的能力。模型性能评估指的是根据与训练数据相类似的测试数据来对模型的预测能力进行评估，如果模型的预测能力较佳，则代表模型的性能较好，能够确定该模型可以用于分类预测，如果模型的预测能力较差，则代表模型的性能较差，还需要对模型中的参数做进一步优化。

通常来说，在获得分类模型之后，通过将待分类的医学图像输入至分类模型，分类模型便可以根据输入的医学图像对其自动进行分类，输出医学图像所属的类别。实际上，对于大部分的分类模型来说，分类模型在预测医学图像所属的类别的时候，是先预测得到医学图像属于每个类别所对应的概率，然后通过对比每个类别对应的概率来确定医学图像所属的类别，即概率值最大的类别即为医学图像所属的类别。因此，在本实施例中，可以只获取分类模型对医学图像进行预测得到的概率(即第一概率)，其中，对于一个分类模型来说，该分类模型预测得到的第一概率的个数与该分类模型中可分类的类别的个数相同，即该分类模型可以预测得到多个第一概率，且每个第一概率对应一个类别。例如，对于一张脑部出血的医学图像，该医学图像对应的类别分别有：动脉瘤破裂导致的脑出血、高血压脑出血、动静脉畸形导致的脑出血、烟雾病、海绵状血管瘤导致的脑出血以及其他原因共六个类别，分类模型对其进行预测得到六个概率值0.3、0.2、0.15、0.15、0.1以及0.1，分别对应于上述的六个类别。

值得注意的是，本申请实施例中的分类模型可以是二分类模型，也可以是多分类模型，其中，二分类模型指的是分类任务中有两个类别的模型，比如通过二分类模型可以将某检查者分类为有病或者没有病；多分类模型指的是分类任务中有多个类别的模型，比如通过多分类模型可以将医学图像分类为动脉瘤破裂导致的脑出血、高血压脑出血、动静脉畸形导致的脑出血、烟雾病、海绵状血管瘤导致的脑出血以及其他原因共六个类别。

203、基于信息分类规则对第一概率进行修正处理，得到第二概率，其中，信息分类规则表示原始概率集合与修正概率集合之间的对应关系，原始概率集合包括M个原始概率，修正概率集合包括M个修正概率，M为大于1的整数，原始概率与修正概率具有一一对应的关系，且所述修正概率集合中的所述修改概率与所述原始概率集合中的原始概率满足相同的分布顺序；

在本实施例中，在获得分类模型预测得到的第一概率之后，可以对每个类别所对应的第一概率根据信息分类规则进行修正，为了便于理解，以下将对如何获取信息分类规则进行详细的介绍。

首先，在对分类模型进行训练的过程中，将用于训练的数据分成训练集和验证集，其中，训练集中的数据则用于对分类模型进行正常的训练，验证集中的数据则用于对训练后的分类模型进行验证。具体地，在验证过程中，假设该分类模型具有S个类别，且验证集中有M个数据，那么，对每一个数据，均可以获得该分类模型预测得到的S个第一概率；对于第i个类别的预测概率p_i，则共有M个对应的预测概率值[p_i1、p_i2…、p_iM]。首先，对于每一个类别，均可以确定一个目标概率阈值，对于一个数据而言，若该数据在某一类别上所对应的概率值大于该类别对应的目标概率阈值，则可以认为该数据是属于该类别的。因此，对于S个类别，则可以确定得到S个目标概率阈值，分别为[t₁,t₂,…,t_S]。此时，可以对验证集中每个数据对应的第一概率进行重构修正，假设重构修正后的第一概率为F(p)，则可以设定F(t_i)为0.5，即每一个类别所对应的目标概率阈值均修正为0.5。

假设，在验证集中，有m₁个数据的原始概率小于t_i，且有m₂＝N-m₁-1个数据的预测概率大于t_i，那么M个数据在第i个类别中所对应的原始概率与修正概率之间的对应关系如表1所示：

表1

其中，表1中第一行表示的是M个对应的原始概率这M个原始概率是从小到大排列的，即p_i1为概率值最小的原始概率，而p_i,M则为概率值最大的原始概率；表1中第二行表示的是M个原始概率对应的修正概率，这M个修正概率也是从小到大排列的，并且p_il至所对应的修正概率均匀地分布在区间[0,0.5)中，而至p_i,M所对应的修正概率则均匀地分布在区间(0.5,1]中。

从表1可以看出，对于任意一个类别所对应的修正概率来说，M个数据对应的修正概率均分布在区间[0,1]中，且这些修正概率的分布情况是根据原始概率相对于目标阈值概率的分布位置确定的，即修正概率集合中的修改概率与原始概率集合中的原始概率满足相同的分布顺序，都是按从小到大的方式进行排序。显然，在对验证集中数据的原始概率进行修正之后，即使某一数据在某一样本数据较少的类别对应的原始概率要低于该数据在另一样本数据较多的类别对应的原始概率，只要该数据在样本数据较少的类别中其原始概率排在相对靠前的位置，那么该数据在样本数据较少的类别对应的修正概率也可能大于该数据在样本数据较多的类别对应的修正概率。例如，假设对于数据A来说，数据A在类别1上对应的原始概率为0.5，数据A在类别2上对应的原始概率为0.3，数据A在类别3上对应的原始概率为0.2，那么如果按照原始概率来确定数据A的分类结果，数据A则被分为类别1；假设数据A在类别1上对应的目标阈值概率为0.6，数据A在类别2上对应的目标阈值概率为0.25，数据A在类别3上对应的目标阈值概率为0.1；对数据A的原始概率进行修正后，数据A在类别1上对应的修正概率为0.4，数据A在类别2上对应的修正概率为0.45，数据A在类别3上对应的修正概率为0.6，那么如果按照修正概率来确定数据A的分类结果，数据A则被分为类别3。也就是说，即便数据A在某一类别上的原始概率小于另一类别的原始概率，在进行概率修正之后，数据A在该类别上的修正概率也可以是大于另一类别的。

以上为对原始概率集合与修正概率集合之间的对应关系所进行的介绍，以下将介绍如何基于原始概率集合与修正概率集合之间的对应关系对第一概率进行修正处理，从而得到第二概率。

由于修正概率是基于其对应的原始概率相对于目标阈值概率所处的分布位置确定的，那么在求取第一概率对应的第二概率时，同样可以基于相同的原理进行求取。可以理解的是，如果第一概率与上述表1中的任意一个原始概率一样时，则可以根据该原始概率对应的修正概率得到第一概率对应的第二概率，即第二概率与该修正概率相同。如果第一概率与上述表1中所有的原始概率均不一样时，则可以通过求取线性插值的方式来求取第一概率对应的第二概率。

其中，线性插值指的是插值函数为一次多项式的插值方式，其在插值节点上的插值误差为零，线性插值的几何意义是利用过两个坐标点的直线来近似表示两个坐标点之间的原函数，另外，线性插值既可以用于近似代替原函数，也可以用于计算得到查表过程中表中没有的数值。例如，假设x位于坐标点(x_o，y₀)和(x₁，y₁)之间，那么对于y＝F(x)，可以有

在本实施例中，表1中只有M个对应的原始概率[p_i1、p_i2…、p_iM]，而新获得的第一概率可能与上述表1中所有的原始概率均不一样，即在表1中无法查找得到与第一概率对应的原始概率，那么此时可以采用线性插值来求取与第一概率对应的原始概率。

具体地，首先找到第一概率在M个原始概率中实际落入的区间，假设第一概率落入区间[p_i,k,p_i,k+1]，即第一概率p_i,k<p_i≤p_i,k+1，其中，p_i,k对应的修正概率为F(p_i,k)，p_i,k+1对应的修改概率为F(p_i,k+1)，也就是说第一概率p_i位于坐标点(p_i,k，F(p_i,k))和(p_i,k+1，F(p_i,k+1))之间，因此，对于第一概率p_i对应的修正概率(即第二概率)F(p_i)，可以通过以下的公式进行求取：

显然，由上式可以看出，对于任意一个第一概率，均可以通过求取其落入的区间，然后基于区间对应的坐标点来求取该第一概率对应的第二概率。

此外，由于以上是对每一个类别的概率都进行了重构修正，因此，对于一个待分类的医学图像的多个第一概率来说，这几个第一概率修正后对应的第二概率可能并不等于1，即F(p₁)+F(p₂)+…+F(p_N)可能不等于1。因此，可以对这多个第二概率进行归一化，具体地，可以通过以下的公式进行归一化：

其中，为归一化后的第二概率。

可以理解的是，对于一些分类模型来说，该分类模型可能是一个多模型融合的模型，在这种情况下，可以对每个单模型的第二概率取平均值来获得最终的分类概率。

204、根据第二概率生成信息分类结果。

在本实施例中，在获得待分类的医学图像对应的多个第二概率之后，可以根据这多个第二概率确定一个第三概率，其中，第三概率为多个第二概率中概率值最大的一个概率，然后判断第三概率具体是属于哪个类别的，即可以将该医学图像分类为第三概率对应的类别。具体地，在待分类的信息为医学图像时，可以根据第二概率生成医学图像的病灶分类结果，例如对于脑出血的医学图像，可以获取以下的病灶分类结果中的一个：动脉瘤破裂导致的脑出血、高血压脑出血、动静脉畸形导致的脑出血、烟雾病、海绵状血管瘤导致的脑出血或其他原因。

本实施例中，通过在获得分类模型输出的预测概率之后，将每一个类别对应的预测概率按照信息分类规则重新进行修正，使得每一个类别对应的预测概率均能够按照其在所属类别对应的原始概率中的分布进行重构对齐，使得每一个类别的分布尽可能相同，然后再进行分类，能够有效地提高样本数据较少的类别预测的准确率。

可选地，在上述图2对应的一个实施例的基础上，本申请实施例提供的信息分类的方法一个可选实施例中，基于信息分类规则对第一概率进行修正处理之前，该方法还包括：获取分类模型的分类阈值，分类阈值属于原始概率集合；根据分类阈值确定目标概率阈值；根据目标概率阈值生成信息分类规则，其中，修正概率集合包括目标概率阈值，目标概率阈值属于M个修正概率中的第N个修正概率，第一个修正概率至第N-1个修正概率均小于目标概率阈值，第N+1个修正概率至第M个修正概率均大于目标概率阈值，N为大于1，且小于M的整数。

在本实施例中，在确定目标概率阈值之前，首先可以在原始概率集合中找到分类模型的分类阈值，分类阈值指的是对于某一类别来说，能够达到最优分类效果的一个阈值。比如说，对于一个类别，如果将其判定为其预测概率大于0.5则为属于该类别，而小于0.5则不属于该类别，并且判定阈值为0.5的时候，刚好可以获得准确率最高的分类结果，则可以将0.5认为是分类模型中该类别对应的分类阈值。在获得分类阈值之后，可以根据分类阈值确定目标概率阈值，具体地，目标概率阈值可以为与分类阈值相同。

可选地，在上述图2对应的一个实施例的基础上，本申请实施例提供的信息分类的方法一个可选实施例中，获取分类模型的分类阈值之前，方法还包括：获取分类模型的接收者操作特征(receiver operating characteristic curve，ROC)曲线；获取分类模型的分类阈值，包括：根据ROC曲线获取分类模型的分类阈值。

在本实施例中，具体可以通过ROC曲线来获取分类模型的分类阈值。其中，ROC曲线为通过用每一个测试数据的概率作为阈值后得到测试集整体的假阳性率(False PositiceRate，FPR)和真阳性率(True Positive Rate，TPR)为该点的坐标，然后把这样的坐标依次连接而得到的曲线。也就是说，在ROC曲线中，每个点的横坐标是FPR，纵坐标是TPR。为了便于理解，以下将对ROC曲线进行详细的介绍。

一般来说，二分类问题在机器学习中是一个很常见的问题，经常会用到，而ROC曲线则是专门被用来评价一个二分类模型的优劣的工具。针对一个二分类问题，通常可以将实例分为正类(positive)和负类(negative)两种。例如：在肺结节计算机辅助识别这一问题上，一幅肺部图像中有肺结节被认为是阳性(positive)，没有肺结节被认为是阴性(negative)。因此，在实际检测时，就会有如下四种情况：

(1)真阳性(True Positive，TP)：检测有结节，且实际有结节；正确肯定的匹配数目；

(2)假阳性(False Positive，FP)：检测有结节，但实际无结节；误报，给出的匹配是不正确的；

(3)真阴性(True Negative，TN)：检测无结节，且实际无结节；正确拒绝的非匹配数目；

(4)假阴性(False Negative，FN)：检测无结节，但实际有结节；漏报，没有正确找到的匹配的数目。

基于上述的四个参数，通常可以得到几个主要的用于评价二分类模型的参数指标，具体如下：

其中，TPR又可以成为敏感度(sensitivity)或者是召回率(recall)，FPR又可以称为误诊率。由上式可以得知，ROC曲线的横坐标实际上是预测为正但实际为负的样本占所有负例样本的比例；ROC曲线的纵坐标实际上是预测为正且实际为正的样本占所有正例样本的比例。在一个二分类模型中，假设采用逻辑回归分类器，其给出针对每个实例为正类的概率，那么通过设定一个阈值如0.6，概率大于等于0.6的为正类，小于0.6的为负类。对应的就可以算出一组(FPR,TPR)，在平面中得到对应坐标点。随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负实例，即TPR和FPR会同时增大。阈值最大时，对应坐标点为(0,0)，阈值最小时，对应坐标点(1,1)。显然，理想情况下，TPR应该接近1，FPR应该接近0。如图3所示，图3为本申请实施例提供的一种ROC曲线示例图。图3中，一共有3条ROC曲线，不同的ROC曲线代表不同的分类模型。一般来说，在上方的ROC曲线比在下方的ROC曲线要好，因为在同样的假阳性率前提下，上方的ROC曲线的真阳性率更高，基于此，通常可以使用曲线下面积(area under the curve,AUC)来作为评价模型的标准，AUC越大(表示ROC曲线在上方)，模型越好。然而，ROC曲线和AUC虽然是一种评估模型的常用方式，但它们通常仅限于应用在二类分类上，因此应用范围较为狭窄，并且ROC曲线本身无法提供一个合适的阈值，它只能用来比较模型，并不能直接计算阈值用于给出具体的分类结果。

基于此，本申请实施例中，在对于多分类时，采用1比多的策略来获取每一个类别下对应的ROC曲线。具体地，对于第i个类别，可以认为其对应的二分类概率为[p_i，1-p_i]，基于此二分类概率便可以获得第i个类别对应的ROC曲线。显然，对于多分类模型中的每一个类别，均可以通过上述的方式来求取对应的ROC曲线，也就是说，在一个多分类模型中，ROC曲线的个数和多分类模型中所包括的类别个数是相同的。

在获得ROC曲线之后，可以根据ROC曲线来获取每一个类别对应的二分类最优阈值(即上述的分类阈值)，具体的获取方式包括但不限于以下的几种：

A、获取ROC曲线上坐标点的模型准确值，模型准确值由与坐标点对应的精确率和召回率确定得到；根据模型准确值获取分类模型的分类阈值。

具体地，ROC曲线上坐标点的模型准确值可以为F1分数(F1 Score)，F1分数是统计学中用来衡量二分类模型精确度的一种指标，它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均，它的最大值是1，最小值是0。其中，F1分数具体为因此，对于每一个类别对应的ROC曲线，都可以找到一个在该ROC曲线上F1分数最大的一个坐标点，然后可以获取该坐标点对应的概率p_i，并且将该坐标点的概率p_i作为该类别对应的分类阈值，这样一来，通过求取每一个类别对应的ROC曲线上的F1分数，并且找到每一个ROC曲线上F1分数最大的坐标点，便可以得到分类模型的多个分类阈值。

B、获取ROC曲线上的坐标点与目标坐标点之间的距离，其中，目标坐标点的横坐标为0，目标坐标点的纵坐标为1；确定ROC曲线上的第一坐标点，第一坐标点为ROC曲线上与目标坐标点之间的距离最小的坐标点；根据第一坐标点获取分类模型的分类阈值。

具体地，目标坐标点可以为坐标点(0,1)，对于每一个ROC曲线上的每个坐标点，均可以求取这些坐标点与目标坐标点之间的距离d，显然，对于每一个类别对应的ROC曲线，都可以获取到在该ROC曲线上d最小的一个坐标点(即第一坐标点)，因此，可以将该坐标点的概率p_i作为该类别对应的分类阈值，这样一来，通过求取每一个类别对应的ROC曲线上的第一坐标点，便可以得到分类模型的多个分类阈值。如图4所示，图4为本申请实施例提供的一种获取ROC曲线上第一坐标点的示例图。如图4所示，对于每一个ROC曲线均可以找到相应的第一坐标点。

C、获取ROC曲线上的坐标点所对应的敏感度；根据ROC曲线上的坐标点所对应的敏感度获取分类模型的分类阈值。

可以理解的是，由于某些分类问题上的特殊性，例如医学上的分类问题，医生可能希望分类模型能够对某一些类别具有较高的敏感度(例如敏感度>k)那么，在这种情况下，可以在该类别对应的ROC曲线上找到离敏感度为k的最近的一个坐标点(其中，ROC曲线的纵坐标为敏感度，因此基于ROC曲线上坐标点的纵坐标即可找到相应的坐标点)，最后再将该坐标点的概率p_i作为该类别对应的分类阈值。

值得注意的是，在求取分类模型中每个类别对应的分类阈值时，需要在同一标准下进行求取，也就是说，可以通过上述的获取方式A来求取所有类别对应的分类阈值，也可以采用获取方式B或获取方式C来求取所有类别对应的分类阈值，即不采用不同的获取方式来获取分类模型中不同类别对应的分类阈值。

为了便于理解，以下将结合具体的例子对本申请实施例提供的信息分类的方法进行详细的介绍。具体地，选取了部分CT平扫脑部医学图像作为数据集，这部分数据集中包含了6个类别的数据，分别为动脉瘤破裂导致的脑出血、高血压脑出血、动静脉畸形导致的脑出血、烟雾病、海绵状血管瘤导致的脑出血以及其他原因。

首先，对数据集进行归一化，对于没有固定的形状大小和方向性的病灶区域，可以通过对医学图像进行翻转、旋转、放缩或对比度增强等数据增广的操作，增加数据集的数量，并且增大方向性和不同大小规模下的信息价值。

其次，可以通过两种方式对数据集进行特征提取以及分类，分别是：采用传统特征方法对数据集进行特征提取，并采用极端梯度提升(extreme gradient boosting，XGBoost)模型来进行分类；以及采用深度学习模型来进行分类。

具体地，采用传统特征进行分类的方法如下：

对于医学图像，首先检测或分割出病灶所在区域，具体地，检测病灶所在区域的方式包括但不限于医生手动标注、使用现有的检测算法或分割算法进行检测或分割或利用阈值分割等无监督算法区分出病灶区域，然后再通过提取影像组学特征的方式提取医学图像中的病灶区域。具体地，可以参阅图5，图5为本申请实施例提供的病灶区域的检测示例图。图5中，(a)表示的是医学图像，(b)表示的是通过上述的方法检测得到病灶所在区域(即脑出血区域)的医学图像，在通过手工标注或者算法标注获得病灶所在区域之后，在病灶所在区域提取影像组学特征，以获得后续用于进行分类的特征。

然后，将整体的数据集分成五份，其中三份作为训练集，一份作为验证集，一份作为测试集，首先使用XGBoost分类得到验证集分类概率结果和每一类的ROC曲线(值得注意的是，此处的分类器可使用多种传统分类器，包括但不限于XGBoost、AdaBoost或决策树等等)，然后用F1分数作为阈值选取器选取分类阈值，构建概率重构函数F；

对最终测试集的概率结果进行重构并利用argmax函数得到最终分类结果。

具体地，采用深度学习模型进行分类的方法如下：

首先，选取整体三维图像作为输入的数据；

然后将整体数据分为五份，其中三份作为训练集，一份作为验证集，一份作为测试集，首先使用残差神经网络(residual neural network，ResNet)分类得到验证集分类概率结果和每一类的ROC曲线，然后用F1分数作为阈值选取器选取分类阈值，构建概率重构函数F；

具体地，实验结果如表2所示：

表2

其中，类别1和类别2数据较多，临床医生较容易分辨，类别3-类别6医生较为关注。可以看到，类别3-6的分类正确率显著提高，能对产品决策产生重大提升，且整体正确率未有下降。

以上为对本申请实施例提供的信息分类的方法所进行的介绍，以下将对本申请实施例提供的信息分类的装置进行介绍。如图6所示，图6为本申请实施例提供的信息分类的装置的示例图。

本申请实施例提供的一种信息分类的装置60，包括：

获取单元601，用于获取待分类信息；

获取单元601，还用于通过分类模型获取待分类信息所对应的第一概率；

修正单元602，用于基于信息分类规则对第一概率进行修正处理，得到第二概率，其中，信息分类规则表示原始概率集合与修正概率集合之间的对应关系，原始概率集合包括M个原始概率，修正概率集合包括M个修正概率，M为大于1的整数，原始概率与修正概率具有一一对应的关系，且所述修正概率集合中的所述修改概率与所述原始概率集合中的原始概率满足相同的分布顺序；

生成单元603，用于根据第二概率生成信息分类结果。

可选地，在上述图6所对应的实施例的基础上，本申请实施例提供的信息分类的装置60的另一实施例中，还包括确定单元604；

获取单元601，还用于获取分类模型的分类阈值，分类阈值属于原始概率集合；

确定单元604，用于根据分类阈值确定目标概率阈值；

生成单元603，还用于根据目标概率阈值生成信息分类规则，其中，修正概率集合包括目标概率阈值，目标概率阈值属于M个修正概率中的第N个修正概率，第一个修正概率至第N-1个修正概率均小于目标概率阈值，第N+1个修正概率至第M个修正概率均大于目标概率阈值，N为大于1，且小于M的整数。

可选地，在上述图6所对应的实施例的基础上，本申请实施例提供的信息分类的装置60的另一实施例中，

获取单元601，还用于获取分类模型的接收者操作特征ROC曲线；

获取单元601，还用于根据ROC曲线获取分类模型的分类阈值。

获取单元601，还用于获取ROC曲线上坐标点的模型准确值，模型准确值由与坐标点对应的精确率和召回率确定得到；

获取单元601，还用于根据模型准确值获取分类模型的分类阈值。

获取单元601，还用于获取ROC曲线上的坐标点与目标坐标点之间的距离，其中，目标坐标点的横坐标为0，目标坐标点的纵坐标为1；

确定单元604，还用于确定ROC曲线上的第一坐标点，第一坐标点为ROC曲线上与目标坐标点之间的距离最小的坐标点；

获取单元601，还用于根据第一坐标点获取分类模型的分类阈值。

获取单元601，还用于获取ROC曲线上的坐标点所对应的敏感度；

获取单元601，还用于根据ROC曲线上的坐标点所对应的敏感度获取分类模型的分类阈值。

确定单元604，还用于根据分类模型中多个分类类别所对应的多个第二概率确定第三概率，第三概率为多个第二概率中概率值最大的一个概率；

确定单元604，还用于根据第三概率所属的分类类别确定信息分类结果。

获取单元601，还用于获取待分类的医学图像，医学图像包括标注有病灶所在区域的图像；

生成单元603，还用于根据第二概率生成医学图像的病灶分类结果。

图7为本申请实施例提供的一种服务器结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在本申请实施例中，该服务器700所包括的CPU 722还具有以下功能：

获取待分类信息；

通过分类模型获取待分类信息所对应的第一概率；

根据第二概率生成信息分类结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信息分类的方法，其特征在于，包括：

获取待分类信息；

通过分类模型获取所述待分类信息所对应的第一概率；

基于信息分类规则对所述第一概率进行修正处理，得到第二概率，其中，所述信息分类规则表示原始概率集合与修正概率集合之间的对应关系，所述原始概率集合包括M个原始概率，所述修正概率集合包括M个修正概率，所述M为大于1的整数，所述原始概率与所述修正概率具有一一对应的关系，且所述修正概率集合中的所述修改概率与所述原始概率集合中的所述原始概率满足相同的分布顺序；

根据所述第二概率生成信息分类结果。

2.根据权利要求1所述的信息分类的方法，其特征在于，所述基于信息分类规则对所述第一概率进行修正处理之前，所述方法还包括：

获取所述分类模型的分类阈值，所述分类阈值属于所述原始概率集合；

根据所述分类阈值确定目标概率阈值；

根据所述目标概率阈值生成所述信息分类规则，其中，所述修正概率集合包括所述目标概率阈值，所述目标概率阈值属于所述M个修正概率中的第N个修正概率，第一个修正概率至第N-1个修正概率均小于所述目标概率阈值，所述第N+1个修正概率至第M个修正概率均大于所述目标概率阈值，所述N为大于1，且小于所述M的整数。

3.根据权利要求2所述的信息分类的方法，其特征在于，所述获取所述分类模型的分类阈值之前，所述方法还包括：

获取所述分类模型的接收者操作特征ROC曲线；

所述获取所述分类模型的分类阈值，包括：

根据所述ROC曲线所述获取所述分类模型的分类阈值。

4.根据权利要求3所述的信息分类的方法，其特征在于，所述根据所述ROC曲线所述获取所述分类模型的分类阈值，包括：

获取所述ROC曲线上坐标点的模型准确值，所述模型准确值由与所述坐标点对应的精确率和召回率确定得到；

根据所述模型准确值获取所述分类模型的分类阈值。

5.根据权利要求3所述的信息分类的方法，其特征在于，所述根据所述ROC曲线所述获取所述分类模型的分类阈值，包括：

获取所述ROC曲线上的坐标点与目标坐标点之间的距离，其中，所述目标坐标点的横坐标为0，所述目标坐标点的纵坐标为1；

确定所述ROC曲线上的第一坐标点，所述第一坐标点为所述ROC曲线上与所述目标坐标点之间的距离最小的坐标点；

根据所述第一坐标点获取所述分类模型的分类阈值。

6.根据权利要求3所述的信息分类的方法，其特征在于，所述根据所述ROC曲线所述获取所述分类模型的分类阈值，包括：

获取所述ROC曲线上的坐标点所对应的敏感度；

根据所述ROC曲线上的坐标点所对应的敏感度获取所述分类模型的分类阈值。

7.根据权利要求1所述的信息分类的方法，其特征在于，所述根据所述第二概率生成信息分类结果，包括：

根据所述分类模型中多个分类类别所对应的多个第二概率确定第三概率，所述第三概率为所述多个第二概率中概率值最大的一个概率；

根据所述第三概率所属的分类类别确定信息分类结果。

8.根据权利要求1所述的信息分类的方法，其特征在于，所述获取待分类信息，包括：

获取待分类的医学图像，所述医学图像包括标注有病灶所在区域的图像；

所述根据所述第二概率生成信息分类结果，包括：

根据所述第二概率生成所述医学图像的病灶分类结果。

9.一种信息分类的装置，其特征在于，包括：

获取单元，用于获取待分类信息；

所述获取单元，还用于通过分类模型获取所述待分类信息所对应的第一概率；

修正单元，用于基于信息分类规则对所述第一概率进行修正处理，得到第二概率，其中，所述信息分类规则表示原始概率集合与修正概率集合之间的对应关系，所述原始概率集合包括M个原始概率，所述修正概率集合包括M个修正概率，所述M为大于1的整数，所述原始概率与所述修正概率具有一一对应的关系，且所述修正概率集合中的所述修改概率与所述原始概率集合中的所述原始概率满足相同的分布顺序；

生成单元，用于根据所述第二概率生成信息分类结果。

10.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待分类信息；

通过分类模型获取所述待分类信息所对应的第一概率；

基于信息分类规则对所述第一概率进行修正处理，得到第二概率，其中，所述信息分类规则表示原始概率集合与修正概率集合之间的对应关系，所述原始概率集合包括M个原始概率，所述修正概率集合包括M个修正概率，所述M为大于1的整数，所述原始概率与所述修正概率具有一一对应的关系，且所述修正概率集合中的所述修改概率与所述原始概率集合中的原始概率满足相同的分布顺序；

根据所述第二概率生成信息分类结果；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。