CN108197638A

CN108197638A - 对待评估样本进行分类的方法及装置

Info

Publication number: CN108197638A
Application number: CN201711322274.2A
Authority: CN
Inventors: 周书恒; 祝慧佳; 赵智源
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-06-22
Anticipated expiration: 2037-12-12
Also published as: TWI722325B; EP3644232B1; WO2019114305A1; TW201928771A; US20200210459A1; EP3644232A4; EP3644232A1; CN108197638B; SG11202000863RA

Abstract

本说明书实施例提供一种对待评估样本进行分类的方法，该方法包括：获取待评估样本T，及其样本特征Ft；在分类样本库中选择一定数目N个示例样本；获取待评估样本T与N个示例样本中各个示例样本i的特征相似度SIMi；获取各个示例样本i的样本质量Qi；至少根据所述特征相似度SIMi和所述样本质量Qi的差值ri，确定待评估样本T与各个示例样本i的综合相似度Si；根据综合相似度Si，确定待评估样本T是否属于分类样本库的分类。还提供了对应的装置。通过以上方法和装置，可以更有效更准确地对待评估样本进行分类。

Description

对待评估样本进行分类的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及样本分类和识别。

背景技术

随着互联网的升级，网络上每天产生各种各样的信息和内容。在许多情况下，需要对这些内容进行识别和分类。例如，许多网络平台每天产生大量的垃圾信息，广告信息等。为了保障用户体验，需要对垃圾和广告信息进行识别和过滤。又例如，为了优化网络环境，还需要对网络平台中可能流通的色情、暴力或其他违反法律法规的内容进行识别和分类。

为了对网络内容进行识别和分类，常常采用建立分类样本库的方式。例如，可以针对广告信息建立广告“黑样本”库，其中存储收集的示例样本，或称为黑样本。对于待评估的网络内容，将其与黑样本库中的黑样本进行比较，根据比较的相似度来确定待评估的网络内容是否属于同样的分类，即是否也属于广告。

通常，样本库中包含大量的示例样本，这些示例样本往往通过人工方式采集，因此，示例样本的质量参差不齐。有些示例样本质量不高，泛化能力差，即使待评估内容与它相似度非常高，实际上也常常不属于同样的分类。这就为样本的分类评估带来了很大困难。

因此，需要改进的方案，更有效地对待评估内容和样本进行评估和分类。

发明内容

本说明书一个或多个实施例描述了一种方法和装置，通过在评估过程中引入对示例样本的样本质量的考虑，更有效更准确地评估待评估样本与示例样本的相似度。

根据第一方面，提供了一种对待评估样本进行分类的方法，包括：获取待评估样本T，以及所述待评估样本T的样本特征Ft；

在分类样本库中选择第一数目N个示例样本；

获取所述待评估样本T与所述N个示例样本中各个示例样本i的特征相似度SIMi，其中所述特征相似度SIMi根据所述待评估样本T的样本特征Ft，以及所述各个示例样本i的样本特征Fi而确定；

获取所述各个示例样本i的样本质量Qi；

至少根据所述特征相似度SIMi和所述样本质量Qi的差值ri，确定所述待评估样本T与各个示例样本i的综合相似度Si；以及

根据所述综合相似度Si，确定所述待评估样本T是否属于所述分类样本库的分类。

在一个实施例中，在分类样本库中选择第一数目N个示例样本包括：

根据所述待评估样本T的样本特征Ft，以及所述分类样本库中第二数目M个示例样本的样本特征，计算所述待评估样本T与第二数目M个示例样本中各示例样本的特征相似度，其中所述第二数目M大于所述第一数目N；

根据所述待评估样本与所述第二数目M个示例样本中各示例样本的特征相似度，从所述第二数目M个示例样本中选择所述第一数目N个示例样本。

在一个实施例中，在分类样本库中选择第一数目N个示例样本包括：根据所述分类样本库中各个样本的所述样本质量的排序，从所述分类样本库中选择所述第一数目N个示例样本。

根据一个实施例，所述特征相似度SIMi通过将所述待评估样本T的样本特征Ft与所述各个示例样本i的样本特征Fi之间的距离进行归一化处理而确定。

在一个实施例中，确定所述待评估样本T与各个示例样本i的综合相似度Si包括：将所述综合相似度Si确定为Si＝a+b*ri*c，其中a+b＝1，c为与样本质量Qi相关的系数。

在一个实施例中，在ri>＝0的情况下，c＝1/(1-Qi)；在ri<0的情况下，c＝1/Qi。

根据一个实施例，上述方法还包括：根据所述待评估样本T与各个示例样本i的综合相似度Si，确定所述待评估样本的总相似度分数。

在一个实施例中，上述确定所述待评估样本的总相似度分数包括：

如果存在至少一个ri>＝0，将所述总相似度分数确定为，所述待评估样本T与各个示例样本i的各个综合相似度Si中的最大值；

否则，将所述总相似度分数确定为，所述待评估样本T与各个示例样本i的各个综合相似度Si中的最小值。

在一个实施例中，上述确定所述待评估样本的总相似度分数包括：将所述总相似度分数确定为，所述待评估样本T与各个示例样本i的各个综合相似度Si的平均值。

根据第二方面，提供一种对待评估样本进行分类的装置，包括：样本获取单元，配置为获取待评估样本T，以及所述待评估样本T的样本特征Ft；选择单元，配置为在分类样本库中选择第一数目N个示例样本；第一获取单元，配置为获取所述待评估样本T与所述N个示例样本中各个示例样本i的特征相似度SIMi，其中所述特征相似度SIMi根据所述待评估样本T的样本特征Ft，以及所述各个示例样本i的样本特征Fi而确定；第二获取单元，配置为获取所述各个示例样本i的样本质量Qi；处理单元，配置为至少根据所述特征相似度SIMi和所述样本质量Qi的差值ri，确定所述待评估样本T与各个示例样本i的综合相似度Si；分类单元，配置为根据所述综合相似度Si，确定所述待评估样本T是否属于所述分类样本库的分类。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法及装置，综合考虑待评估样本与示例样本的特征相似度以及示例样本的样本质量，来确定待评估样本与示例样本的综合相似度，据此对待评估样本进行分类，由此减小或避免了示例样本质量不一对评估结果的不利影响，从而可以更有效更准确地确定待评估样本的分类。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书披露的一个实施例的应用场景示意图；

图2示出根据一个实施例的方法的流程图；

图3示出根据一个实施例的选择一定数目的示例样本的流程图；

图4示出根据另一实施例的选择一定数目的示例样本的流程图；

图5示出根据又一实施例的选择一定数目的示例样本的流程图；

图6示出根据一个实施例的分类装置的示意框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的应用场景示意图。在图1中，处理平台一方面获取待评估样本，一方面从样本库中获取示例样本的信息，该信息包括示例样本的样本特征以及示例样本的样本质量。然后处理平台根据待评估样本与各个示例样本的特征相似度以及示例样本的样本质量，确定待评估样本与示例样本的综合相似度。以上的处理平台可以是任何具有计算能力和处理能力的平台，例如服务器。以上的样本库可以是为了进行样本分类或识别，而采集和建立的样本库，其中包含多个示例样本。尽管在图1中，将样本库示出为存储在独立的数据库中，但是可以理解，样本库也可以存储在处理平台中。通过实施例中的评估方式，处理平台在确定待评估样本与示例样本的综合相似度的过程中，综合考虑了示例样本的样本质量，从而降低或避免了示例样本的样本质量不一对评估结果的影响。

下面具体描述处理平台对待评估样本进行分类的方法。图2示出根据一个实施例的方法的流程图。该流程的执行主体可以是图1所示的具有计算能力的处理平台，例如服务器。如图2所示，方法包括以下步骤：步骤S21，获取待评估样本T，以及所述待评估样本T的样本特征Ft；步骤S22，从分类样本库中选择第一数目N个示例样本；步骤S23，获取待评估样本T与所述第一数目N个示例样本中各个示例样本i的特征相似度SIMi，其中所述特征相似度SIMi根据所述待评估样本T的样本特征Ft，以及所述各个示例样本i的样本特征Fi而确定；步骤S24，获取各个示例样本i的样本质量Qi。其中所述样本质量Qi对应于这样的相似度阈值，即，与该示例样本i的特征相似度超过该相似度阈值的历史评估样本以一定比例被确定为特定分类；步骤S25，至少根据所述特征相似度SIMi和所述样本质量Qi的差值ri，确定所述待评估样本T与各个示例样本i的综合相似度Si；步骤S26，根据所述综合相似度Si，确定所述待评估样本T是否属于所述分类样本库的分类。

首先，在步骤S21，获取待评估样本T，以及该待评估样本的样本特征Ft。可以理解，上述待评估样本T可以是各种有待进行评估和分类的对象，例如一段文本，一张图片，一段代码等等。在一个实施例中，处理平台需要对网络中的各种上传内容自动进行检测、评估或分类，此时，获取该待评估样本T包括从网络中捕获待评估样本。例如，处理平台需要过滤网络中的广告图片，此时，就可以从网络中捕获待评估的图片样本。在另一实施例中，获取该待评估样本T包括接收待评估样本T，即处理平台对所接收的待评估样本进行分析和评估。例如，手机通信系统在接收到一条短信之后，需要判别该短信是否为垃圾短信。在这样的情况下，可以将该短信发送到用于进行短信分类的处理平台。处理平台进而对接收到的短信进行评估和分类。

对于获取的待评估样本T，可以从中提取出其样本特征Ft。样本特征Ft是为了机器学习和分析，提取的用于标识不同样本的一些特征。现有技术中已经存在多种模型，对各种样本进行特征提取，从而实现对比分析。例如，对于图片样本而言，样本特征可以包括：像素数目，灰度均值，灰度中值，子区域数目，子区域面积，子区域灰度均值，等等。对于文本样本而言，样本特征可以包括：文本中的词，词数目，词频等等。对于其他类型的样本，存在相应的特征提取方式。一般地，样本特征包括多项特征元素，因此样本特征可以表示为由多项特征元素构成的特征向量：

Ft＝(t₁,t₂,...t_n)，其中t_i为待评估样本的特征元素。

另一方面，在步骤S22，从分类样本库中选择第一数目N个示例样本。

可以理解，分类样本库是为了进行样本分类或对比识别，预先采集和建立的样本库，其中包含多个示例样本。例如，广告图片样本库中包含大量的示例性广告图片，垃圾短信样本库中包含多条示例性垃圾短信。

在一个实施例中，分类样本库中包含的示例样本的数目较少，例如小于一定阈值(比如100个)，此时可以采用该样本库中全部的示例样本进行后续步骤S23-S25的处理。也就是，步骤S22中的第一数目N即为分类样本库中全部示例样本的数目。

在另一实施例中，分类样本库中包含的示例样本的数量较大，例如大于一定阈值(比如200个)，或者样本库中的示例样本的内容并不集中，例如广告图片样本库中存储的虽然都是广告图片，但是图片内容有人有物有景，并不统一，在这样的情况下，可以对分类样本库中的示例样本进行筛选，从中确定出一定数目N的更有针对性的示例样本，进行进一步处理。

从分类样本库中确定出一定数目N个示例样本可以通过多种方式来执行。图3示出根据一个实施例的选择一定数目的示例样本的流程图。如图3所示，首先在步骤S31，获取分类样本库中每个示例样本i的样本特征Fi。可以理解，与待评估样本对应地，示例样本i的样本特征Fi可以类似地通过特征向量来表示：

F_i＝(f_i1,f_i2,...f_in)

在步骤S32，根据待评估样本T的样本特征Ft，以及每个示例样本i的样本特征Fi，计算待评估样本T与每个示例样本i的特征相似度SIMi。

在一个实施例中，首先计算待评估样本T与示例样本i的距离di，对距离di进行归一化而得到特征相似度SIMi。可以理解，由于待评估样本T和示例样本i均可以表示为特征向量的形式，因此，可以用各种算法计算两个向量之间的距离作为上述距离di。例如，可以采用常规数学方法，计算待评估样本T的特征向量Ft和示例样本i的特征向量Fi之间的欧式距离，作为上述距离di。或者，还可以计算Ft和Fi之间的马式距离、汉明距离等，作为待评估样本T和示例样本i之间的距离di。接着，可以对距离进行归一化，而得到特征相似度SIMi。在一个例子中，通过下式对距离进行归一化：

SIMi＝1-di/100，

从而使得SIMi在0到1之间。可以理解，还可以采用其他的归一化方式。

在一个实施例中，根据特征向量Ft与特征向量Fi之间的余弦相似度，确定待评估样本T和示例特征i之间的特征相似度SIMi。该方式利用特征向量Ft和特征向量Fi之间的夹角的余弦值，直接确定出范围在0到1之间的特征相似度SIMi。本领域技术人员还可以根据需要，采取其他算法，基于待评估样本T和示例特征i各自的特征向量，确定两者之间的特征相似度。

由此，在步骤S32，计算了待评估样本T与样本库中每个示例样本i的特征相似度SIMi。接着，在步骤S33，根据计算得到的各个特征相似度SIMi，从分类样本库中选择一定数目N个示例样本。

在一个实施例中，首先将待评估样本T与所有示例样本i的特征相似度SIMi进行排序，根据排序结果，选择N个示例样本。

在一个例子中，选择与待评估样本T的特征相似度最高的N个示例样本。例如，N可以为10个，或20个。当然，也可以选择特征相似度大小排序在预定区间，例如第5名到第15名，的示例样本。选择的方式可以根据需要而设定。

在另一例子中，首先去除特征相似度偏离预定范围的异常数值，在去除异常数值之后的排序中，选择特征相似度最高的N个示例样本。

在又一实施例中，上述一定数目N预先并不确定。相应地，可以选择特征相似度在预定范围的示例样本作为选定的示例样本。例如，可以预先设定一个阈值，对特征相似度SIMi高于该阈值的示例样本均进行选择。

如此，从分类样本库中选择出一定数目的(N个)示例样本，选择出的示例样本是分类样本库中与待评估样本的特征相似度较高的一些示例样本，也就是与待评估样本的特征较为相似的一些示例样本，因此针对性更强，更有利于后续处理结果的准确性。

选择示例样本的过程还可以通过其他方式实现。图4示出根据另一实施例的选择一定数目的(第一数目N)示例样本的流程图。如图4所示，首先在步骤S41，从分类样本库中选择M个(第二数目)示例样本，获取该M个示例样本中各示例样本i的样本特征Fi。可以理解，第二数目M是初步选择的示例样本，数目M大于前述的第一数目N。在一个实施例中，从分类样本库中随机选择M个示例样本，执行接下来的步骤。或者，从分类样本库中选择最近被使用过的M个示例样本，执行接下来的步骤。第二数目M也可以根据预定比例而确定，例如是分类样本库中所有示例样本的总数目的50％。

接着在步骤S42，根据待评估样本T的样本特征Ft，以及选择出的M个示例样本中各示例样本i的样本特征Fi，计算待评估样本T与各示例样本i的特征相似度SIMi。该步骤中特征相似度SIMi的计算方式可以参考对图3中步骤S32的描述，在此不再赘述。

然后在步骤S43，根据计算得到的各个特征相似度SIMi，从M个示例样本中进一步选择出第一数目N个示例样本。该步骤中根据特征相似度SIMi的大小从更多示例样本中选择N个示例样本的方式可以参考对图3步骤S33的描述，在此不再赘述。

对比图4与图3的实施例可以看到，图4的实施例与图3的不同在于，首先从分类样本库中初步选择M个示例样本，计算待评估样本与这M个示例样本的特征相似度，然后根据特征相似度的大小，从这M个示例样本中进一步选择出N个示例样本。这特别适合于分类样本库中示例样本数量及其庞大的情况。在这样的情况下，计算分类样本库中每个示例样本与待评估样本的特征相似度(步骤S32)的计算成本仍然偏大，此时可以采取图4的实施例。

在具体实践中，最终选择的N个示例样本通常为几十的量级，例如10个，20个，50个等。因此，在分类样本库的示例样本数量在几千数量级的情况下，可以采取图3的实施例。而在分类样本库的示例样本数量非常庞大，例如几万甚至几十万的情况下，为了加快处理速度，可以采取图4实施例的方法，首先从中简单地选择一部分，即M个示例样本，例如为几千个或几百个，然后根据特征相似度从中进一步选择出几十个示例样本用于后续进一步处理。

图5示出根据又一实施例的选择一定数目的示例样本的流程图。如图5所示，在步骤S51，获取分类样本库中各个示例样本i的样本质量Qi。

样本质量Qi用于衡量一个示例样本的泛化能力，它对应于这样的相似度阈值，即，与该示例样本i的特征相似度超过该相似度阈值的历史评估样本以一定比例被确定为与分类样本库相同的分类。在一个例子中，与该示例样本i的特征相似度超过该相似度阈值的历史评估样本均被确定为与分类样本库相同的分类。因此，当待评估样本与该示例样本的特征相似度超过Qi时，就有较大理由相信，待评估样本与该示例样本属于同样的分类。例如，对于垃圾短信样本库中的某个示例样本，如果它的样本质量为0.6，那就意味着，一旦待评估样本与该示例样本的特征相似度超过0.6，就有较大概率相信该待评估样本也是垃圾短信。又例如，对于广告图片样本库中的某个示例样本，如果它的样本质量为0.8，那就意味着，如果待评估样本与该示例样本的特征相似度超过0.8，该待评估样本有极大概率也是广告图片。一般来说，样本质量Q值越低，该样本的泛化能力越强。

样本质量Qi可以通过多种方式确定。在一个实施例中，采用人工标定的方式确定各个示例样本的样本质量，并将其存储在分类样本库中。在另一实施例中，根据样本评估分类的历史数据确定样本质量Qi。具体而言，获取在之前的历史记录中，多个历史评估样本与某个示例样本的特征相似度，以及该多个历史评估样本的最终评估结果，据此确定该示例样本的样本质量。更具体地，可以将历史记录中，最终被认定为属于同样分类的历史评估样本中，与该示例样本的特征相似度的最低值，确定为该示例样本的样本质量。例如，对于示例样本k，在历史记录中有5个历史评估样本分别与它进行过比对。假定对比的结果显示，这5个历史评估样本与示例样本k的特征相似度分别为SIM1＝0.8,SIM2＝0.6,SIM3＝0.4，SIM4＝0.65,SIM5＝0.7，最终这5个历史评估样本中，特征相似度为0.6和0.4的历史评估样本被认为不属于示例样本k同样的分类，其他历史评估样本被认为属于同样的分类。在这样的情况下，可以认为该示例样本k的样本质量Q为0.65，即，属于同样分类的3个历史评估样本中，与示例样本k的特征相似度的最低值。

在一个实施例中，在步骤S51，通过以上历史记录，计算分类样本库中各个示例样本i的样本质量Qi。在另一实施例中，样本质量已经预先计算，存储在样本库中。在步骤S51，读取各个示例样本i的样本质量Qi。

接着，在步骤S52，根据上述各个示例样本i的样本质量Qi的排序，从分类样本库中选择一定数目N个示例样本。在一个实施例中，从分类样本库中选择样本质量Qi值最低的N个示例样本。在另一实施例中，N的值并没有预先指定。此时，可以选择样本质量Qi的值低于一定阈值的所有示例样本。通过这样的方式，从分类样本库中选择出泛化能力强的N个示例样本用于进一步处理。

除了图3，图4和图5所示的方式之外，在阅读本说明书的情况下，本领域技术人员还可以采用类似的其他方式，从分类样本库中选择出第一数目N个示例样本。由此，执行了图2中的步骤S22。

回到图2，在选择出N个示例样本的基础上，在步骤S23，获取待评估样本T与这N个示例样本中各个示例样本i的特征相似度SIMi，其中所述特征相似度SIMi根据所述待评估样本T的样本特征Ft，以及所述各个示例样本i的样本特征Fi而确定。

可以理解，如果采用图3或图4的方式选择上述N个示例样本，那么在选择过程中，已经计算得出待评估样本T与全部示例样本/M个示例样本的特征相似度SIMi。那么相应地，在步骤S23，只需要从计算结果中读取待评估样本T与选择出的N个示例样本的特征相似度。

如果采取其他方式选择上述N个示例样本，那么在步骤S23，根据待评估样本T的样本特征Ft，以及选择出的N个示例中各个示例样本i的样本特征Fi，来计算待评估样本T与各个示例样本i的特征相似度SIMi。计算的方式可以参考结合图3步骤S32的描述，不再赘述。

另一方面，在步骤S24，获取所选择出的N个示例样本中各个示例样本i的样本质量Qi。

可以理解，如果采用图5的方式选择上述N个示例样本，那么在选择过程中，已经获取到全部示例样本的样本质量。那么相应地，在步骤S24，只需要从全部结果中读取出所选择的N个示例样本的样本质量。

如果采取其他方式选择上述N个示例样本，那么在步骤S24，获取上述N个示例样本的样本质量。样本质量的获取方式可以参考结合图5步骤S51的描述，在此不再赘述。

在获取了各个示例样本i与待评估样本的特征相似度SIMi，以及各示例样本i的样本质量Qi的基础上，在步骤S25，至少根据特征相似度SIMi和样本质量Qi的差值ri，确定待评估样本T与各个示例样本i的综合相似度Si。

在一个实施例中，将上述综合相似度Si确定为Si＝a+b*ri*c，其中a和b为常数，且a+b＝1，c为与样本质量Qi相关的系数。

例如，在一个例子中，Si＝0.8+0.2*ri/2Qi；

在另一例子中，Si＝0.7+0.3*ri/Qi。

在一个实施例中，对于不同ri的取值，将参数c设为不同的值。例如，在ri>＝0的情况下，c＝1/(1-Qi)；在ri<0的情况下，c＝1/Qi。

在一个具体例子中，Si的计算形式如下：

在以上计算式中，在ri>＝0的情况下，令c＝1/(1-Qi)，这一方面使得r_i/(1-Q_i)不大于1，进而使得Si不大于1，另一方面，更好地衡量特征相似度SIMi超出样本质量Qi值的差值ri的作用。在Qi值本身比较高甚至接近1的情况下，差值ri的余地(1-Qi)必然极小。此时应该考虑差值ri与其可能的余地的比例而计算Si。而在ri<0的情况下，可以将c直接设置为1/Qi，考虑差值ri与Qi的比例而计算Si。

在以上计算综合相似度的过程中，由于综合考虑了示例样本的样本质量，以及特征相似度与样本质量的差值，因此得出的综合相似度能够更加客观地反映待评估样本与示例样本属于同样分类的概率，而较少受到示例样本的样本质量的影响。例如，如果存在两个示例样本A和B，其样本质量分别为Q_A＝0.4，Q_B＝0.8。假定待评估样本T与示例样本A和B的特征相似度均为0.7。在这样的情况下，如果仅考虑特征相似度，那么由于待评估样本T与示例样本A和B的特征相似度相同，通常会认为，待评估样本与两个示例样本要么均相似，要么均不相似。如果采用以上实施例的方法，例如采用式1的算法，可以得出待评估样本与示例样本A的综合相似度S_A＝0.95，与示例样本B的综合相似度S_B＝0.8875。根据综合相似度来评判，显然待评估样本与示例样本A和B的相似程度是不同的。示例样本A的样本质量分值仅为0.4，待评估样本与其特征相似度已经远远超出了属于同一分类的阈值要求，因此与该示例样本A的综合相似度明显更高。因此，如此得出的综合相似度能够更加客观地反映待评估样本与示例样本属于同样分类的概率。

如此，在步骤S25，分别计算出待评估样本T与N个示例样本的综合相似度。进一步地，在步骤S26，可以根据所述综合相似度Si，确定所述待评估样本T是否属于所述分类样本库的分类。

在一个实施例中，对获得的N个综合相似度Si进行排序，确定其中的最大值，将该最大值与一预定阈值进行比较，如果高于该阈值，则认为待评估样本T属于与分类样本库相同的分类。

在一个实施例中，根据待评估样本T与N个示例样本的N个综合相似度，确定所述待评估样本的总相似度分数，根据该总相似度分数，确定所述待评估样本T是否属于所述分类样本库的分类。该总相似度分数用于衡量待评估样本与整个示例样本集合，或者与整个分类样本库的相似程度，以及属于同样分类的概率。

在一个实施例中，对待评估样本T与各个示例样本i的各个综合相似度SIMi求平均，将平均值作为上述总相似度分数。

在另一实施例中，如果在N个示例样本对应的N个差值ri中，存在至少一个ri大于或等于0，那么将总相似度分数确定为，所述待评估样本T与N个示例样本的综合相似度中的最大值；否则，将所述总相似度分数确定为，所述待评估样本T与N个示例样本的综合相似度中的最小值。

由于总相似度分数全面考虑了各个示例样本的样本质量的差异，因此，只需要预先设定适当的总分数阈值，就可以对待评估样本进行判断。相应地在步骤S26中，将该总相似度分数与预设的总分数阈值进行比较，如果待评估样本的总相似度分数高于预设的总分数阈值，那么可以将该待评估样本确定为属于分类样本库的分类。例如，如果待评估样本为接收的短信，只要它与垃圾短信样本库的总相似度分数高于预设阈值，就可以认为，该短信同样属于垃圾短信。

通过以上实施例的方法，综合考虑了待评估样本与示例样本的特征相似度以及示例样本的样本质量来确定待评估样本与示例样本的综合相似度，从而减小或避免了示例样本质量不一对评估结果的不利影响。

根据另一方面的实施例，本说明书还提供一种对待评估样本进行分类的装置。图6示出根据一个实施例的分类装置的示意框图。如图6所示，该分类装置60包括：样本获取单元61，配置为获取待评估样本T，以及所述待评估样本T的样本特征Ft；选择单元62，配置为在分类样本库中选择第一数目N个示例样本；第一获取单元63，配置为获取所述待评估样本T与所述N个示例样本中各个示例样本i的特征相似度SIMi，其中所述特征相似度SIMi根据所述待评估样本T的样本特征Ft，以及所述各个示例样本i的样本特征Fi而确定；第二获取单元64，配置为获取所述各个示例样本i的样本质量Qi，其中所述样本质量Qi对应于这样的相似度阈值，即，与该示例样本i的特征相似度超过该相似度阈值的历史评估样本以一定比例被确定为属于所述分类样本库的分类；处理单元65，配置为至少根据所述特征相似度SIMi和所述样本质量Qi的差值ri，确定所述待评估样本T与各个示例样本i的综合相似度Si，分类单元66，配置为根据所述综合相似度Si，确定所述待评估样本T是否属于所述分类样本库的分类。

在一个实施例中，所述选择单元62包括(未示出)：计算子单元，配置为根据所述待评估样本T的样本特征Ft，以及所述分类样本库中第二数目M个示例样本的样本特征，计算所述待评估样本T与第二数目M个示例样本中各示例样本的特征相似度，其中所述第二数目M大于所述第一数目N；以及选择子单元，配置为根据所述待评估样本与所述第二数目M个示例样本中各示例样本的特征相似度，从所述第二数目M个示例样本中选择所述第一数目N个示例样本。

在一个实施例中，上述选择子单元配置为：从所述第二数目M个示例样本中，选择与所述待评估样本T的特征相似度最高的第一数目N个示例样本。

根据一个实施例，所述选择单元62配置为：根据所述分类样本库中各个样本的所述样本质量的排序，从所述分类样本库中选择所述第一数目N个示例样本。

在一个实施例中，上述特征相似度SIMi通过将所述待评估样本T的样本特征Ft与所述各个示例样本i的样本特征Fi之间的距离进行归一化处理而确定。

根据一个实施例，所述处理单元65配置为：将所述综合相似度Si确定为Si＝a+b*ri*c，其中a+b＝1，c为与样本质量Qi相关的系数。

根据一个实施例，分类单元66配置为根据所述待评估样本T与各个示例样本i的综合相似度Si，确定所述待评估样本的总相似度分数，根据所述总相似度分数，确定所述待评估样本T是否属于所述分类样本库的分类。

在一个实施例中，分类单元66进一步配置为：

在一个实施例中，分类单元66配置为：将所述总相似度分数确定为，所述待评估样本T与各个示例样本i的各个综合相似度Si的平均值。

利用以上实施例的装置，可以综合考虑待评估样本与示例样本的特征相似度以及示例样本的样本质量，来确定待评估样本与示例样本的综合相似度，据此对待评估样本进行分类，从而减小或避免了示例样本质量不一对评估结果的不利影响。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2至图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2至图5所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种对待评估样本进行分类的方法，包括：

获取待评估样本T，以及所述待评估样本T的样本特征Ft；

在分类样本库中选择第一数目N个示例样本；

获取所述各个示例样本i的样本质量Qi；

至少根据所述特征相似度SIMi和所述样本质量Qi的差值ri，确定所述待评估样本T与各个示例样本i的综合相似度Si；

2.根据权利要求1所述的方法，其中所述在分类样本库中选择第一数目N个示例样本包括：

3.根据权利要求2所述的方法，其中从所述第二数目M个示例样本中选择所述第一数目N个示例样本包括：从所述第二数目M个示例样本中，选择与所述待评估样本T的特征相似度最高的第一数目N个示例样本。

4.根据权利要求1所述的方法，其中所述在分类样本库中选择第一数目N个示例样本包括：根据所述分类样本库中各个样本的所述样本质量的排序，从所述分类样本库中选择所述第一数目N个示例样本。

5.根据权利要求1所述的方法，所述特征相似度SIMi通过将所述待评估样本T的样本特征Ft与所述各个示例样本i的样本特征Fi之间的距离进行归一化处理而确定。

6.根据权利要求1所述的方法，其中确定所述待评估样本T与各个示例样本i的综合相似度Si包括：将所述综合相似度Si确定为Si＝a+b*ri*c，其中a+b＝1，c为与样本质量Qi相关的系数。

7.根据权利要求6所述的方法,其中在ri>＝0的情况下，c＝1/(1-Qi)；在ri<0的情况下，c＝1/Qi。

8.根据权利要求1所述的方法，其中根据所述综合相似度Si，确定所述待评估样本T是否属于所述分类样本库的分类包括：

根据所述待评估样本T与各个示例样本i的综合相似度Si，确定所述待评估样本的总相似度分数；

根据所述总相似度分数，确定所述待评估样本T是否属于所述分类样本库的分类。

9.根据权利要求8所述的方法，其中确定所述待评估样本的总相似度分数包括：

10.根据权利要求8所述的方法，其中确定所述待评估样本的总相似度分数包括：将所述总相似度分数确定为，所述待评估样本T与各个示例样本i的各个综合相似度Si的平均值。

11.一种对待评估样本进行分类的装置，包括：

样本获取单元，配置为获取待评估样本T，以及所述待评估样本T的样本特征Ft；

选择单元，配置为在分类样本库中选择第一数目N个示例样本；

第一获取单元，配置为获取所述待评估样本T与所述N个示例样本中各个示例样本i的特征相似度SIMi，其中所述特征相似度SIMi根据所述待评估样本T的样本特征Ft，以及所述各个示例样本i的样本特征Fi而确定；

第二获取单元，配置为获取所述各个示例样本i的样本质量Qi，其中所述样本质量Qi对应于这样的相似度阈值，即，与该示例样本i的特征相似度超过该相似度阈值的待评估样本会被确定为属于所述分类样本库的分类；

处理单元，配置为至少根据所述特征相似度SIMi和所述样本质量Qi的差值ri，确定所述待评估样本T与各个示例样本i的综合相似度Si；

分类单元，配置为根据所述综合相似度Si，确定所述待评估样本T是否属于所述分类样本库的分类。

12.根据权利要求11所述的装置，其中所述选择单元包括：

计算子单元，配置为根据所述待评估样本T的样本特征Ft，以及所述分类样本库中第二数目M个示例样本的样本特征，计算所述待评估样本T与第二数目M个示例样本中各示例样本的特征相似度，其中所述第二数目M大于所述第一数目N；

选择子单元，配置为根据所述待评估样本与所述第二数目M个示例样本中各示例样本的特征相似度，从所述第二数目M个示例样本中选择所述第一数目N个示例样本。

13.根据权利要求12所述的装置，其中所述选择子单元配置为：从所述第二数目M个示例样本中，选择与所述待评估样本T的特征相似度最高的第一数目N个示例样本。

14.根据权利要求11所述的装置，其中所述选择单元配置为：根据所述分类样本库中各个样本的所述样本质量的排序，从所述分类样本库中选择所述第一数目N个示例样本。

15.根据权利要求11所述的装置，其中所述特征相似度SIMi通过将所述待评估样本T的样本特征Ft与所述各个示例样本i的样本特征Fi之间的距离进行归一化处理而确定。

16.根据权利要求11所述的装置，其中所述处理单元配置为：将所述综合相似度Si确定为Si＝a+b*ri*c，其中a+b＝1，c为与样本质量Qi相关的系数。

17.根据权利要求16所述的装置,其中在ri>＝0的情况下，c＝1/(1-Qi)；在ri<0的情况下，c＝1/Qi。

18.根据权利要求11所述的装置，其中所述分类单元配置为：

19.根据权利要求18所述的装置，其中所述分类单元配置为：

20.根据权利要求18所述的装置，其中所述分类单元配置为：将所述总相似度分数确定为，所述待评估样本T与各个示例样本i的各个综合相似度Si的平均值。

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

22.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。