CN103761210B

CN103761210B - 一种多分类器阈值的设置方法

Info

Publication number: CN103761210B
Application number: CN201410001014.5A
Authority: CN
Inventors: 周龙沙; 邵诗强
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2014-01-02
Filing date: 2014-01-02
Publication date: 2018-02-13
Anticipated expiration: 2034-01-02
Also published as: CN103761210A

Abstract

一种多分类器阈值的设置方法，根据实际应用环境条件，采用模式识别或机器学习算法得到实际应用环境条件下的多个分类器；将多个分类器放入实际应用环境下进行N次测试分别得到多个分类器的N个阈值对N个阈值进行分类，偏大的阈值valueX通过公式result_value=a*valueX‑b*valueX*valueX进行调整，偏小的阈值valueY通过公式result_value=(valueY‑m)^3+k进行调整；再根据调整后的各个阈值对各个分类器进行设定。本发明对多分类器在不同应用环境下的阈值进行调整，对偏大和偏小的阈值分别进行调整，保证分类器在进行分类过程中正确性的提高和拒识率的降低；正常的阈值则直接使用，使得调整后的阈值应用到分类器中能够降低分类器的错误率，保证分类器在实际环境中的应用。

Description

一种多分类器阈值的设置方法

技术领域

本发明涉及模式识别技术，尤其涉及一种多分类器阈值的设置方法。

背景技术

在进行模式识别过程中，通过采用相应的识别算法获得在具体应用环境下的分类器。对于分类器而言，实际环境所得到的分类结果有时候是极端的两面：是或否，但往往大多数的时候是一个数值，数值应取到什么程度才算达到区分类别的要求，这个在实际应用中是非常重要的，因为它直接反应出分类器的分类能力，在模式识别领域中也体现为对置信度的设置。在实际情况下，分类器接收到非预期的情况下的取值情况，如果分类器没有拒识的能力，那么在接收实际的结果后，根据最大结果做出的分类决策有时候也会带来不便。在很多多分类器的应用中人们常采用经验值来对阈值进行设定，或者根据某个实际的应用实例，通过统计分类器在这个实例中的分类效果来确定阈值，这种方法往往需要过多的人工干预同时也使得在分类器阈值设定方法上太过于固定，不灵活。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足之处，本发明为解决现有技术的缺陷和不足，提出一种能够对分类器的初步阈值数据进行分析，根据预设的数学映射函数对分类数据进行参数调整得到理想的多分类器阈值的方法。

本发明解决技术问题所采用的技术方案如下：

一种多分类器阈值的设置方法，其特征在于，包括如下步骤：

A．根据实际应用环境条件，采用模式识别或机器学习算法得到实际应用环境条件下的多个分类器1~N；

B．将所述多个分类器分别放入实际应用环境下进行N次测试，得到多个分类器中各个分类器在实际应用环境下N次测试的N个阈值；

C．对所述各个分类器N个阈值进行统计分类，对偏大的阈值通过公式result_value=a*valueX-b*valueX*valueX进行调整，对偏小的阈值通过公式result_value=(valueY-m)^3+k进行调整；其中，valueX为偏大的阈值，valueY为偏小的阈值，result_value为调整后的阈值，a、b、m、k为根据实际应用环境条件确定的参数；

D．根据调整后的各个阈值对各个分类器进行分别设定。

作为进一步改进方案，所述模式识别或机器学习算法包括神经网络、支持向量机和均值聚类方法。

步骤C中所述对偏大的阈值通过公式result_value=a*valueX-b*valueX*valueX进行调整后得到的阈值仍旧属于偏大的阈值时则继续通过该公式进行调整。

步骤C 中所述对偏小的阈值valueY通过公式result_value=(valueY-m)^3+k进行调整后得到的阈值仍旧属于偏小的阈值时则继续通过该公式进行调整。

步骤C中所述偏大的阈值范围为大于0.7，所述偏小的阈值范围为小于0.4。

步骤C中参数a、b、m、k的范围为：1≤a≤2、0.1≤b≤0.3、1.5≤m≤2.8、0.1≤k≤0.25。

步骤C还包括：对偏大的阈值和偏小的阈值之外的正常阈值则直接使用。

所述正常阈值范围为0.4~0.7。

与现有技术相比较，本发明对多分类器在不同应用环境下的阈值进行调整，对偏大和偏小的阈值分别进行调整，保证分类器在进行分类过程中正确性的提高和拒识率的降低；正常的阈值则直接使用，使得调整后的阈值应用到分类器中能够降低分类器的错误率，保证分类器在实际环境中的应用。

附图说明

图1是本发明多分类器阈值的设置方法流程图。

图2是本发明多分类器阈值的设置方法中初步阈值中偏大阈值取值的曲线示意图。

图3是本发明多分类器阈值的设置方法中初步阈值中偏小阈值取值的曲线示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在图像识别的过程中往往需要根据需求建立多个分类器，以适应环境需求，但是对于多个分类器要选取合适的阈值依靠需要不断的尝试和经验，这对于分类器的快速应用很不利，本发明提供一种多分类器的阈值设置方法，如图1所示，本发明多分类器的设置方法步骤如下：

S100，根据实际应用环境条件，采用模式识别或机器学习算法得到实际应用环境条件下的多个分类器1~N。

具体而言，通过对实际应用环境的分析，采用相应的模式识别或机器学习算法得到对应的分类器，模式识别或机器学习算法包括神经网络、支持向量机、均值聚类等方法，以得到不同环境条件下的多个分类器，分类器的存在表示对某个条件下环境的区分情况，而分类器的分类好坏，则反映出对该条件的区分能力。实际环境表示的是要区分的实际应用场景，如要区分物体所存在的环境，条件是对分类器设计的一个要求，即满足指定的条件能得到对应的各个分类器进行分类。

根据条件1、条件2、条件3……条件M采用模式识别或机器学习中的算法得到对应的不同分类器：分类器1、分类器2、分类器3……分类器M，即得到不同应用环境条件下的多个分类器。

S200，将所述多个分类器分别放入实际应用环境下进行N次测试，得到多个分类器中各个分类器在实际应用环境下N次测试的N个阈值value1、value2……valueN。

对于所得到的多分类器1~M，把1~M各个分类器分别放入实际的环境中进行N次测试（N次测试可以根据应用环境来确定得到，为本领域技术人员公知的经验值，此处并不做限定），得到对应的多个输出值，并且所输出的值有正确也有错误，把这些输出值进行统计根据具体应用的要求，比如：保证错误率为5‰以下的基础上在尽量保证正确率在95%以上，得到每个分类器各个不同的阈值value1、value2、value3……valueN。

S300，对各个分类器N个阈值value1、value2……valueN进行统计分类，对偏大的阈值valueX通过公式result_value=a*valueX-b*valueX*valueX进行调整，对偏小的阈值valueY通过公式result_value=(valueY-m)^3+k进行调整；其中，valueX∈value1~valueN，valueY∈value1~valueN，result_value为调整后的阈值，a、b、m、k为根据实际应用环境条件确定的参数。

对于每个分类器所确定的初步阈值（即N个阈值value1、value2、value3……valueN），测试得到的初步阈值有时候比较低，有时候比较高，这只是针对实际环境测试下所得到的结果，反映的也只是实际环境的部分情况不能完全的反映出分类器的分类能力，需要做进一步的阈值优化，在这里我们引入一种函数映射，主要用于对实际环境测试下所得到初步阈值进行调整，以使得分类器在实际环境中具有更好的分类能力。在上述输出的所有初步阈值value1、value2、value3……valueN值中，对于阈值的值而言，一般阈值的分布情况有如下三种：

一种是正常阈值，如0.5、0.6、0.7等，优选范围为0.4~0.7，其分布是合理的，也是在分类中符合人们经验的，所以对于这类值我们不需要进行阈值调整，直接使用该阈值即可。

一种是偏大的阈值，如0.85、0.9、0.95等，若不进行调整会使得阈值门槛过高，本可以区分的类别会出现未区分，使得分类器的正确率降低，拒识率提高，不利于分类器在实际环境中的应用，所以对于这些偏大的值我们采用函数result_value=a*valueX-b*valueX*valueX来实现对偏高数值的阈值调整，其中valueX为偏高的初步阈值，a、b为给定的参数，具体的取值根据实际应用环境确定，优选范围为：1≤a≤2、0.1≤b≤0.3。上述偏大阈值所形成的曲线趋势如图2所示：

图2中横坐标为初步阈值value，标定值value_max为偏大阈值节点，优选为0.7，即大于该value_max的阈值为偏大阈值，纵坐标为通过上述result_value=a*valueX-b*valueX*valueX数学映射函数映射得到的result_value值，value_set为偏大阈值节点通过该数学映射函数映射得到的调整结果阈值，其中value_set<value_max；这样保证了初步阈值value在偏大的情况下通过映射降低value值，保证了分类器在进行分类过程中正确性的提高，以及拒识率的降低。

应当说明的是，对偏大阈值根据上述偏大阈值数学映射函数调整后得到的结果阈值如果仍旧属于偏大的阈值范围，则需要继续通过该偏大阈值数学映射函数循环计算直到得到正常的阈值。

一种是偏小的阈值，如0.1、0.24、0.3等，若直接使用该阈值，则会因为新环境的变化让分类器的输出值变高，使得相应的错误率增加，不利于分类器的应用，所以对于偏小的值我们采用函数为：result_value=(valueY-m)^3+k来实现对偏低数值的阈值调整，其中valueY为偏小的初步阈值，m、k为所取的参数值，具体的取值根据实际的环境确定，优选范围为：1.5≤m≤2.8、0.1≤k≤0.25。偏小阈值所形成的曲线如图3所示：

图3中的横坐标为初步阈值value，标定值value_min为偏小阈值节点，优选为0.4，即小于该value_min的阈值为偏小阈值，纵坐标为通过上述result_value=(valueY-m)^3+k数学映射函数所得到的值，value_set为偏小阈值节点通过该数学映射函数映射得到的调整结果阈值，其中value_set>value_min，这保证了分类器在较低阈值下通过函数映射提高原有的阈值，从而降低了分类器的错误率，保证了分类器在实际环境中的应用。

应当说明的是，对偏小阈值根据上述偏小阈值数学映射函数调整后得到的结果阈值如果仍旧属于偏大的阈值范围，则需要继续通过该偏大阈值数学函数循环计算直到得到正常的阈值。

S400，根据调整后的各个阈值对各个分类器进行分别设定。

把所有的分类器根据上述方法进行阈值的初步设定，并经函数映射得到最后确定的阈值分布。

以下通过一个具体实施例来说明上述方法的具体应用：

根据需求，需建立区分10种类别物体的图像，这需要通过模式识别或者机器学习建立10组类别的分类器，所采用形成分类器的技术在这里不做限制，可以是神经网络，支持向量机，均值聚类等，最重要的是每个分类器都能对测试环境给予一个输出值，并且用这个输出值来进行各类之间区分度的判别。

例如，根据类别建立10个分类器，分别为：分类器1、分类器2、分类器3……分类器10。

对每个分类器我们通过实际环境获取样本，对这10个分类器进行分别测试，测试次数为2000次。

例如，表1为分类器5所得到的2000个测试样本的输出值（初步阈值）分布结果，其中正确分类的结果分布在1~1.2之间的为887次，错误分类的结果分布在1~1.2之间的为1次，其他范围的具体见表1，按照要求保证错误率在5‰以下的基础上在确保正确识别率在95%以上，得到的初步阈值为：value5=0.28；

表1

	-0.4~-0.2	-0.2~0	0~0.2	0.2~0.4	0.4~0.6	0.6~0.8	0.8~1	1~1.2
									正确	1	2	5	6	18	39	1033	887
错误	2	4	1	0	0	1	0	1

例如，表2为分类器8所得到的2000个测试样本的输出值（初步阈值）分布结果，其中正确分类的结果分布在1~1.2之间的为1805次，错误分类的结果分布在1~1.2之间的为0次，其他范围的具体见表2，按照本例要求保证错误率在5‰以下的基础上确保正确识别率在95%以上，则得到初步阈值为：value8=1.05；

表2

	-0.4~-0.2	-0.2~0	0~0.2	0.2~0.4	0.4~0.6	0.6~0.8	0.8~1	1~1.2
									正确	0	0	0	0	0	0	195	1805
错误	0	0	0	0	0	0	0	0

例如，表3为分类器10所得到的2000个测试样本的输出值（初步阈值）结果，其中正确分类的结果分布在1~1.2之间的为1622次，错误分类的结果分布在1~1.2之间的为0次，其他范围的具体见表3，按照要求保证错误率在5‰以下的基础上确保正确识别率在95%以上，则得到初步阈值为：value8=0.67；

表3

	-0.4~-0.2	-0.2~0	0~0.2	0.2~0.4	0.4~0.6	0.6~0.8	0.8~1	1~1.2
									正确	1	6	9	31	52	81	182	1622
错误	3	8	4	1	0	0	0	0

在该实际情况下，我们采用对偏大、偏小数学映射函数来完成对上述10个分类器的阈值设定，使得较高的阈值降低，提高识别率降低；提升较低的识别率，防止错误率提升；在这里通过实验条件我们可以设定value_max=0.8,value_min=0.2，a=1,b=0.111,m=0.5,k=0.64,通过上述偏大、偏小数学映射函数分别得到调整后的分类器5阈值：result_value5=0.6294；分类器8阈值result_value=0.67；分类器10阈值result_value=0.7552，在分类器10的阈值计算中由于阈值过高，采用了两次函数映射才把阈值映射到指定的区域内,形成最终确定的10个分类器的阈值。并为后续的多分类器的识别和应用做准备。

本发明引入了一种新的映射函数方法来完成在多分类器阈值设定中对于较大的值和较小的值的调整，从而保证调整后的阈值可以提升分类器的正确率、降低拒识率、降低错误率。

应当理解的是，以上所述仅为本发明的较佳实施例而已，并不足以限制本发明的技术方案，对本领域普通技术人员来说，在本发明的精神和原则之内，可以根据上述说明加以增减、替换、变换或改进，而所有这些增减、替换、变换或改进后的技术方案，都应属于本发明所附权利要求的保护范围。

Claims

1.一种多分类器阈值的设置方法，其特征在于，包括如下步骤：

A．根据实际应用环境条件，采用模式识别或机器学习算法得到实际应用环境条件下的多个分类器；

C．对所述各个分类器N个阈值进行统计分类，对其中偏大的阈值通过公式result_value=a*valueX-b*valueX*valueX进行调整，对其中偏小的阈值通过公式result_value=(valueY-m)^3+k进行调整；其中，valueX为偏大的阈值，valueY为偏小的阈值，result_value为调整后的阈值，a、b、m、k为根据实际应用环境条件确定的参数；

D．根据调整后的各个阈值对各个分类器进行分别设定；

步骤C中所述对偏大的阈值通过公式result_value=a*valueX-b*valueX*valueX进行调整后得到的阈值仍旧属于偏大的阈值时则继续通过该公式进行调整；

步骤C 中所述对偏小的阈值valueY通过公式result_value=(valueY-m)^3+k进行调整后得到的阈值仍旧属于偏小的阈值时则继续通过该公式进行调整；

通过映射函数方法来完成在多分类器阈值设定中对于较大的值和较小的值的调整；

步骤C中所述偏大的阈值为0.8、0.85、0.9、0.95，所述偏小的阈值为0.1、0.2、0.24、0.3；

步骤C中参数a、b、m、k分别为：a=1、b=0.1、m=0.5、k=0.64。

2.根据权利要求1所述的多分类器阈值的设置方法，其特征在于，所述模式识别或机器学习算法包括神经网络、支持向量机和均值聚类方法。

3.根据权利要求1所述的多分类器阈值的设置方法，其特征在于，步骤C还包括：对偏大的阈值和偏小的阈值之外的正常阈值则直接使用。

4.根据权利要求3所述的多分类器阈值的设置方法，其特征在于，所述正常阈值范围为0.4~0.7。