CN111814990A

CN111814990A - 阈值确定方法、系统、存储介质及终端

Info

Publication number: CN111814990A
Application number: CN202010582348.1A
Authority: CN
Inventors: 崔龙; 袁德胜; 成西锋; 林治强; 党毅飞; 马卫民; 游浩泉; 李伟超
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-23
Anticipated expiration: 2040-06-23
Also published as: CN111814990B

Abstract

本发明提供一种阈值确定方法、系统、存储介质及终端；所述方法应用于机器学习中，包括以下步骤：获取包含数据子元素的数据集；计算数据集中两两数据子元素之间的数据相似度；根据数据相似度，搭建相似度直方图；根据相似度直方图，确定阈值范围；本发明提出一种基于非标注数据的阈值确定方法，在实现阈值获取自动化的同时，有效解决了对数据进行标注存在成本过高的问题；保证了精度、效果及稳定性均高于传统经验阈值；在机器学习的目标识别任务中，不仅能够有效降低识别设备首次阈值部署和配置的成本，更可以反向利用各设备间阈值的差异程度，作为同一设备和算法在不同应用环境中受外界因素带来的干扰强弱。

Description

阈值确定方法、系统、存储介质及终端

技术领域

本发明属于机器学习技术领域，特别是涉及一种阈值确定方法、系统、存储介质及终端。

背景技术

目标识别是人工智能视觉领域的研究热点领域，该技术广泛基于图像视频的审查及安防监控等场景，同时，该领域也是深度学习技术主要应用方向之一，在某些场景中识别准确率甚至超过人类的识别极限，如人脸识别等。

而阈值是机器学习和深度学习应用中，最重要且直接关系到模型算法业务应用效果的参数，在目标识别中，通常使用相似度阈值，那么较高的相似度阈值可以保证高的识别准确率(即同一目标识别正确的概率)，但却带来低的检出或召回率(即同一目标多个数据被正确识别的比例)，反之亦然；那么如何设置一个目标效果最优化的阈值，是目标识别行业落地应用中关键但却被忽视的任务。

在识别任务中，通常以注册数据有限或无限分为封闭集合任务和开放集合任务；其中，封闭集合任务是指在有限的目标样本中进行识别工作，即针对已注册数据库中的数据进行匹配，具体应用比如注册考勤，人证识别，授权认证等；开放合集任务是需要对未注册在数据库中的数据同样进行识别任务，识别完成后，数据库注册也可以进行添加或修改，具体应用如商业客流统计中去除重复目标；因上所述，开放集合识别任务的难度和数据体量要远高于封闭集合。

同时，在识别应用中，根据数据采集的方式，又可分为主动配合式和被动无感式这两种；其中，在主动配合式识别任务中，数据被采集的目标，需要自身调整去配合传感器完成优质数据的采集，即采集输入数据和注册库的数据大于统一设定的相似度阈值；而被动无感式，则不会要求目标配合传感器去完成采集验证，这样往往会带来数据采集的质量差异较大，直接表现为采集数据和注册库数据的相似度是变化的。

在被动无感式开放集合的目标识别应用场景中，往往会在准确率和召回率之间倾向某个指标，并保证所有设备的准确率和召回率在统一或近似，才能保证所有应用设备的数据再进行统计时是客观且合理的；因为阈值在被动无感开放集合中的重要性，阈值通常需要经过一些数学计算，才能得到一个性能稳定的数值。

现有阈值的计算方法通常有以下两种：

(1)逻辑常识或经验值设定统一阈值；该方法整体效果不理想，主要原因是相机的安装和角度，光照和目标数据的采集质量在实际安装中是无法统一的，如果为每个设备设定独有阈值，那么经验成本和人力成本很难做到。

(2)构架数据集，通过计算正样本集合(同一目标的不同数据)和负样本集合(不同目标的不同数据)的相似度矩阵，计算不同阈值下的精度(precision)和召回率(recall)，尽可能选取阈值平衡精度和召回率性能，即同时保证其最大，也可计算F1分数(F1-score)，其最大值所对应的阈值即为最佳性能阈值；此种方法需要对数据进行预先标注(正样本和负样本的标注)，存在通用性差、标注成本过高的问题，特别是面临大批量数据时。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种阈值确定方法、系统、存储介质及终端，用于解决现有机器学习技术中阈值的确定存在数据标注成本高、通用性差、效果不理想的问题。

为实现上述目的及其他相关目的，本发明提供一种阈值确定方法，应用于机器学习中，包括以下步骤：获取包含数据子元素的数据集；计算所述数据集中两两数据子元素之间的数据相似度；根据所述数据相似度，搭建相似度直方图；根据所述相似度直方图，确定阈值范围。

于本发明的一实施例中，计算所述数据集中两两数据子元素之间的数据相似度包括：根据所述数据子元素的数据特性计算两两数据子元素之间的数据相似度；计算公式为：

s_i,j＝1-dist(f_i,f_j)；

F＝[f₁,f₂,…,f_n]；

其中，F表示包含n个数据子元素的数据集；s_i,j表示数据子元素f_i与数据子元素f_j的数据相似度；i和j的值均从1取到n；dist(f_i,f_j)表示根据数据特性计算出的数据子元素f_i与数据子元素f_j之间的向量距离；所述数据子元素以向量形式表示，一所述数据子元素的数据特性包括至少一特征值。

于本发明的一实施例中，将根据所述数据特性计算出的两两数据子元素之间的欧式距离作为所述向量距离；计算公式为：

或

将根据所述数据特性计算出的两两数据子元素之间的余弦距离作为所述向量距离；计算公式为：

其中，f_it、f_jt分别表示数据子元素f_i、数据子元素f_j的第t个特征值；t的值从1取到T。

于本发明的一实施例中，根据所述数据相似度，搭建相似度直方图包括以下步骤：将数据值域[0,1]均匀划分为预设等份，并获取每一等份的子值域区间，以搭建出所述相似度直方图的横轴；初始化每一所述子值域区间的初始计数量；依次遍历所有的所述数据相似度，并判断每一所述数据相似度所在的子值域区间；根据判断结果更新所述数据相似度所在的子值域区间对应的计数量，以获取所有子值域区间的最终计数量；根据所述所有子值域区间的最终计数量，搭建出所述相似度直方图的纵轴，以最终实现所述相似度直方图的搭建。

于本发明的一实施例中，每一所述子值域区间的初始计数量均为零；根据判断结果更新所述数据相似度所在的子值域区间对应的计数量包括：当判断出所述数据相似度在一所述子值域区间内时，则对应所述子值域区间的计数量加一。

于本发明的一实施例中，根据所述相似度直方图，确定阈值范围包括以下步骤：对所述相似度直方图横轴所有区间对应的纵轴数值进行一阶差分，获取相应的一阶差分结果；对所述一阶差分结果进行符号运算处理，获取相应的第一向量；对所述第一向量进行一阶差分，获取第二向量；遍历所述第二向量，以确定波谷，并根据所述波谷最终确定所述阈值范围。

于本发明的一实施例中，对所述一阶差分结果进行符号运算处理，获取相应的第一向量包括：当所述一阶差分结果大于零时，记所述第一向量为第一预设正值；当所述一阶差分结果小于零时，记所述第一向量为第一预设负值。

本发明提供一种阈值确定系统，应用于机器学习中，包括：获取模块、计算模块、搭建模块及确定模块；所述获取模块用于获取包含数据子元素的数据集；所述计算模块用于计算所述数据集中两两数据子元素之间的数据相似度；所述搭建模块用于根据所述数据相似度，搭建相似度直方图；所述确定模块用于根据所述相似度直方图，确定阈值范围。

本发明提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的阈值确定方法。

本发明提供一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的阈值确定方法。

如上所述，本发明所述的阈值确定方法、系统、存储介质及终端，具有以下有益效果：

(1)与现有技术相比，本发明提出一种基于非标注数据的阈值确定方法，在实现阈值获取自动化的同时，有效解决了对数据进行标注存在成本过高的问题；

(2)通过对未标注的数据集计算识别阈值，在保证精度、效果及稳定性均高于传统经验阈值的同时，能够低成本、自动化地实现阈值参数的调整或设置；

(3)在机器学习的目标识别任务中，不仅能够有效降低识别设备首次阈值部署和配置的成本，更可以反向利用各设备间阈值的差异程度，作为同一设备和算法在不同应用环境中受外界因素带来的干扰强弱。

附图说明

图1显示为本发明的阈值确定方法于一实施例中的流程图。

图2显示为本发明的搭建相似度直方图于一实施例中的流程图。

图3显示为本发明的根据相似度直方图，确定阈值范围于一实施例中的流程图。

图4显示为现有技术中对于已标注的数据集，其正负样本对于一实施例中的相似度分布曲线。

图5显示为本发明的对于未标注的数据集，其全部样本对于一实施例中的相似度分布曲线。

图6显示为现有技术中对于已标注的数据集，于一实施例中的精度、召回率及F1分数曲线。

图7显示为本发明的相似度直方图及阈值范围于一实施例中的示意图。

图8显示为本发明的现有技术中对于已标注的数据集，于另一实施例中的精度、召回率及F1分数曲线。

图9显示为本发明的相似度直方图及阈值范围于另一实施例中的示意图。

图10显示为本发明的阈值确定系统于一实施例中的结构示意图。

图11显示为本发明的终端于一实施例中的结构示意图。

标号说明

51 获取模块

52 计算模块

53 搭建模块

54 确定模块

61 处理器

62 存储器

S1～S4 步骤

S31～S35 步骤

S41～S44 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的阈值确定方法、系统、存储介质及终端，与现有技术相比，本发明提出一种基于非标注数据的阈值确定方法，在实现阈值获取自动化的同时，有效解决了对数据进行标注存在成本过高的问题；通过对未标注的数据集计算识别阈值，在保证精度、效果及稳定性均高于传统经验阈值的同时，能够低成本、自动化地实现阈值参数的调整或设置；在机器学习的目标识别任务中，不仅能够有效降低识别设备首次阈值部署和配置的成本，更可以反向利用各设备间阈值的差异程度，作为同一设备和算法在不同应用环境中受外界因素带来的干扰强弱。

于一实施例中，将本发明的阈值确定方法应用于机器学习中，特别是目标的识别任务中。

需要说明的是，在进行目标的识别任务过程中，对于一个已标注的数据集，目标的数量和正负样本对的对应编号关系是已知的，但如果是一个未标注的数据集，那么可利用的信息骤减，这些具体数量和关系编号都是未知量；本实施例中提出的阈值确定方法，主要利用的是数据集中数据子元素之间自相关的相似度，通过对相似度做统计、分析推论，最终确定阈值，即不需要任何数量和标注信息的支持，从而省去了数据标注的成本。

如图1所示，于一实施例中，本发明的阈值确定方法包括以下步骤：

步骤S1、获取包含数据子元素的数据集。

具体地，获取数据集，该数据集中包含多个数据子元素。

进一步地，该数据子元素是以向量形式表示的，每一数据子元素均有相应的数据特性，且每一数据子元素的数据特性均包括至少一特征值。

步骤S2、计算所述数据集中两两数据子元素之间的数据相似度。

需要说明的是，从步骤S1中获取的数据集中随机组合选取两个数据子元素，作为一数据子元素组合，并计算该数据子元素组合中两个数据子元素之间的数据相似度。

进一步地，假设数据集中包括M个数据子元素，则从该数据集中获得的数据子元素组合的个数为

于一实施例中，计算所述数据集中两两数据子元素之间的数据相似度包括：根据所述数据子元素的数据特性计算两两数据子元素之间的数据相似度。

具体地，根据数据子元素的数据特性计算两两数据子元素之间的数据相似度的计算公式为：

s_i,j＝1-dist(f_i,f_j)；

F＝[f₁,f₂,…,f_n]；

其中，F表示包含n个数据子元素的数据集；s_i,j表示数据子元素f_i与数据子元素f_j的数据相似度；i和j的值均从1取到n；dist(f_i,f_j)表示根据数据特性计算出的数据子元素f_i与数据子元素f_j之间的向量距离。

需要说明的是，该向量距离的计算方法有很多种，包括但不限于采用欧式距离和余弦距离的计算方式作为两两数据子元素之间的向量距离。

于一实施例中，将根据所述数据特性计算出的两两数据子元素之间的欧式距离作为所述向量距离；计算公式为：

或

其中，f_it、f_jt分别表示数据子元素f_i、数据子元素f_j的第t个特征值(向量的特征值)；t的值从1取到T(表示一数据子元素包括T个特征值)。

需要说明的是，在进行两两数据子元素之间的欧氏距离或余弦距离计算时，两两数据子元素的特征值一一对应，且是以相对应的特征值进行运算，然后叠加处理的。

步骤S3、根据所述数据相似度，搭建相似度直方图。

具体地，经步骤S1中获取的数据集，得到数据集中所有两两组合的数据子元素，然后经步骤S2，对所有两两组合的数据子元素进行数据相似度的计算，最后，基于所有的两两数据子元素之间的数据相似度，搭建出一相似度直方图。

如图2所示，于一实施例中，根据所述数据相似度，搭建相似度直方图包括以下步骤：

步骤S31、将数据值域[0,1]均匀划分为预设等份，并获取每一等份的子值域区间，以搭建出所述相似度直方图的横轴。

需要说明的是，经步骤S2计算出的两两数据子元素之间的数据相似度，取值范围为[0,1]，数据相似度的值表示两两数据子元素之间的相似程度。

具体地，将数据值域[0,1](数据相似度的取值范围)划分成预设等份(N等份)，每一等份R_m(m的值从1取至N)的值域表示为[L_m，H_m)(L_m表示第m等份子值域区间的最小值，H_m表示第m等份子值域区间的最大值)，搭建一以数据相似度为横轴的相似度直方图。

需要说明的是，将数据值域[0,1]划分为多少等份，不作为限制本发明的条件，可根据具体应用场景来设定；划分等份越多，阈值精确度越高；诸如，将数据值域[0,1]划分为10等份，则阈值精度精确到0.1；将数据值域[0,1]划分为100等份，则阈值精度精确到0.01；将数据值域[0,1]划分为1000等份，阈值精度精确到0.001。

优选地，将数据值域[0,1]划分为100等份，这100等份的子值域区间分别为[0,0.01)、[0.01，0.02)、[0.02,0.03)……[0.99,1.00)，以[0,0.01)、[0.01，0.02)、[0.02,0.03)……[0.99,1.00)搭建出相似度直方图的横轴。

步骤S32、初始化每一所述子值域区间的初始计数量。

具体地，对经步骤S31获取的所有子值域区间(R_m，m的值从1取至N)进行计数量的初始化，获得每一子值域区间的初始计数量。

优选地，将每一子值域区间的初始计数量均初始化为零。

步骤S33、依次遍历所有的所述数据相似度，并判断每一所述数据相似度所在的子值域区间。

具体地，遍历经步骤S2获取的所有的数据相似度，并判断每一数据相似度是在步骤S31中的哪个子值域区间内。

步骤S34、根据判断结果更新所述数据相似度所在的子值域区间对应的计数量，以获取所有子值域区间的最终计数量。

具体地，经步骤S33确定一数据相似度所在的子值域区间后，对该子值域区间的计数量C_m进行更新，以最终经步骤S33遍历完所有的数据相似度，并根据数据相似度所在的子值域区间，更新其对应的子值域区间后，获取所有子值域区间的最终计数量。

于一实施例中，根据判断结果更新所述数据相似度所在的子值域区间对应的计数量包括：当判断出所述数据相似度在一所述子值域区间内时，则对应所述子值域区间的计数量加一。

具体地，当数据相似度在某一子值域区间内，即L_m≤s_i,j＜H_m，则C_m＝C_m+1。

进一步地，所有子值域区间的最终计数量集合记为C＝[C₁，C₂，…C_m，…C_N]，其中，子值域区间R₁对应的最终计数量为C₁；子值域区间R₂对应的最终计数量为C₂……子值域区间R_m对应的最终计数量为C_m……子值域区间R_N对应的最终计数量为C_N。

步骤S35、根据所述所有子值域区间的最终计数量，搭建出所述相似度直方图的纵轴，以最终实现所述相似度直方图的搭建。

具体地，经步骤S34，获取了所有子值域区间对应的最终计数量(C₁，C₂，…C_m，…C_N)，以子值域区间为相似度直方图的横轴，以每一子值域区间对应的最终计数量作为相似度直方图的纵轴，搭建出一相似度直方图。

步骤S4、根据所述相似度直方图，确定阈值范围。

如图3所示，于一实施例中，根据所述相似度直方图，确定阈值范围包括以下步骤：

步骤S41、对所述相似度直方图横轴所有区间对应的纵轴数值进行一阶差分，获取相应的一阶差分结果。

具体地，对相似度直方图横轴所有区间对应的纵轴数值(经步骤S34获取的所有子值域区间的最终计数量集合C＝[C₁，C₂，…C_m，…C_N])进行一阶差分，获取相应的一阶差分结果Diff(C_m)＝C_m-C_m+1。

步骤S42、对所述一阶差分结果进行符号运算处理，获取相应的第一向量。

具体地，对Diff(C_m)取符号运算，得到第一向量Trend。

于一实施例中，对所述一阶差分结果进行符号运算处理，获取相应的第一向量包括：当所述一阶差分结果大于零时，记所述第一向量为第一预设正值；当所述一阶差分结果小于零时，记所述第一向量为第一预设负值。

优选地，当一阶差分结果Diff(C_m)大于零时，记第一向量Trend为+1；当一阶差分结果Diff(C_m)小于零时，记第一向量Trend为﹣1。

步骤S43、对所述第一向量进行一阶差分，获取第二向量。

具体地，经步骤S42对所有的一阶差分结果进行符号运算处理，获得相应的第一向量后，对最终的第一向量依次进行一阶差分，得到第二向量O＝Diff(Trend)。

需要说明的是，第二向量的结果存在以下几种可能：(+1)-(+1)＝0(C_m+1＜C_m＜C_m-1，递减)或(﹣1)-(﹣1)＝0(C_m﹣1＜C_m＜C_m+1，递增)；(+1)-(﹣1)＝2(C_m＜C_m-1，C_m＜C_m+1，先减后增，出现波谷)；(﹣1)-(+1)＝﹣2(C_m-1＜C_m，C_m+1＜C_m，先增后减，出现波峰)。

步骤S44、遍历所述第二向量，以确定波谷，并根据所述波谷最终确定所述阈值范围。

具体地，遍历经步骤S43获取的所有的第二向量(包括0、2及﹣2)，2值对应波谷，﹣2值对应波峰，查看2值对应C_m的位置，以根据C_m映射回子值域区间R_m，即最终确定的阈值范围。

下面通过具体实施例来进一步解释说明于本发明中，为何将相似度直方图中波谷的位置，对应的子值域区间作为最终的阈值范围。

针对已标注的数据集，目标的数量和正负样本对的对应编号关系是已知的，关于如何确定最佳阈值区间，需要根据正样本对和负样本对的分布特性来决定。

已知，无论正样本对的相似度或负样本对的相似度分布均为近似正态分布性质的概率分布，即从分布图上可以观测到其满足三个特性：第一是集中性，曲线存在高峰，即均值数所在的位置；第二是对称性，曲线以高峰为中心，左右近似对称分布，曲线两端与横轴相交；第三是均匀变动性，曲线由峰值数所在处开始，分别向左右两侧逐渐均匀下降。

如图4所示，以某一已标注的数据集图示为例，虚线和实线分别展示了正负样本对的相似度分布曲线，从图中可以明显观测到：

(1)负样本对数量远高于正样本对，且负样本对峰值所对应的相似度小于正样本对峰值对应的相似度。

需要说明的是，正负样本对的数量可以用有序排列组合确定；假定数据集D有M条标签数据，其中包含目标N个，且每个目标有L_i个数据，则正负样本对的数量可以用以下公式表达：

样本对总量：

正样本对数量：

负样本对数量：

当N＝1时，M＝L_i，Num_N＝0；当M≥2L_i时，

对于识别任务的数据集，单个目标包含的数据条目数量远小于样本总量，例如数据集10000条数据包含100个目标，其中目标包含最大数据量往往约10条，依据上述公式，当负样本对数量高于正样本对数量时，本发明的阈值确定方法适用；通常情况下，数据集总数据量要远高于单个目标数据条目数，且随着目标数量的上升，负样本对要远远高于正样本对，那么通过相似度的统计结果，我们可以清晰的看到负样本对的相似度分布及边界，以便后续确定最终的阈值范围。

(2)正负样本对相似度分布曲线，符合上述提及的近似正态分布性质。

从图4中明显可以看到实线和虚线有非零的重叠范围，最佳阈值范围即在该范围，但对于一未标注的数据集，是无法区分正负样本对，即无法区分两条独立曲线的，如果不区分正负样本对，在图4同样的数据上添加表述全部样本对(从未标注的数据集中获取的所有的两两数据子元素组成的数据子元素组合)的相似度分布统计的曲线(如图5)。

如图5所示，在表述全部样本对的相似度分布统计的曲线的波谷处，即在实线和虚线的非零重叠范围内，即在最佳阈值附近；因此，从未标注的数据集获取最佳阈值的问题，即等效于依据数据集全样本的相似度统计直方图，求解波谷的问题。

如图6和图7所示，于一实施例中，将该阈值确定方法应用于人脸识别任务中。

具体地，已知图6中显示为依据标注数据绘制的精度(Precision)、召回率(Recall)和F1-score曲线，求解精度和召回率交点或F1-score峰值点得到最佳阈值范围(图6中圆圈圈出来的范围即为最佳的阈值范围)；图7中显示为依据本发明的阈值确定方法，根据相似度直方图分布求解波谷得到的人脸识别任务的最佳阈值(图7中圆圈圈出来的范围即为最佳的阈值范围)。

如图8和图9所示，于一实施例中，将该阈值确定方法应用于行人再识别任务中。

具体地，已知图8中显示为依据标注数据绘制的精度(Precision)、召回率(Recall)和F1-score曲线，求解精度和召回率交点或F1-score峰值点得到最佳阈值范围(图8中圆圈圈出来的范围即为最佳的阈值范围)；图9中显示为依据本发明的阈值确定方法，根据相似度直方图分布求解波谷得到的行人再识别任务的最佳阈值(图9中圆圈圈出来的范围即为最佳的阈值范围)。

从该两组结果中，可以明显看到在利用相似度直方图做分析去测算的阈值非常接近利用数据标签分析的最佳阈值区域；因此，可最终认为将相似度直方图中波谷的位置，对应的子值域区间作为最终的阈值范围。

进一步地，该阈值确定方法通过对未标注的数据集计算识别阈值，在保证精度、效果及稳定性均高于传统经验阈值的同时，能够低成本、自动化地实现阈值参数的调整或设置；在机器学习的目标识别任务中，不仅能够有效降低识别设备首次阈值部署和配置的成本，更可以反向利用各设备间阈值的差异程度，作为同一设备和算法在不同应用环境中受外界因素带来的干扰强弱。

需要说明的是，本发明所述的阈值确定方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

如图10所示，于一实施例中，本发明的阈值确定系统应用于机器学习中，包括获取模块51、计算模块52、搭建模块53及确定模块54。

所述获取模块51用于获取包含数据子元素的数据集。

所述计算模块52用于计算所述数据集中两两数据子元素之间的数据相似度。

所述搭建模块53用于根据所述数据相似度，搭建相似度直方图。

所述确定模块54用于根据所述相似度直方图，确定阈值范围。

需要说明的是，所述获取模块51、所述计算模块52、所述搭建模块53及所述确定模块54的结构及原理与上述阈值确定方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个数字信号处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的阈值确定方法。所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图11所示，本发明的终端包括处理器61及存储器62。

所述存储器62用于存储计算机程序；优选地，所述存储器62包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器61与所述存储器62相连，用于执行所述存储器62存储的计算机程序，以使所述终端执行上述的阈值确定方法。

优选地，所述处理器61可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明的阈值确定系统可以实现本发明的阈值确定方法，但本发明的阈值确定方法的实现装置包括但不限于本实施例列举的阈值确定系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明的阈值确定方法、系统、存储介质及终端，与现有技术相比，本发明提出一种基于非标注数据的阈值确定方法，在实现阈值获取自动化的同时，有效解决了对数据进行标注存在成本过高的问题；通过对未标注的数据集计算识别阈值，在保证精度、效果及稳定性均高于传统经验阈值的同时，能够低成本、自动化地实现阈值参数的调整或设置；在机器学习的目标识别任务中，不仅能够有效降低识别设备首次阈值部署和配置的成本，更可以反向利用各设备间阈值的差异程度，作为同一设备和算法在不同应用环境中受外界因素带来的干扰强弱；所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种阈值确定方法，应用于机器学习中，其特征在于，包括以下步骤：

获取包含数据子元素的数据集；

计算所述数据集中两两数据子元素之间的数据相似度；

根据所述数据相似度，搭建相似度直方图；

根据所述相似度直方图，确定阈值范围。

2.根据权利要求1所述的阈值确定方法，其特征在于，计算所述数据集中两两数据子元素之间的数据相似度包括：根据所述数据子元素的数据特性计算两两数据子元素之间的数据相似度；计算公式为：

s_i,j＝1-dist(f_i,f_j)；

F＝[f₁,f₂,…,f_n]；

其中，F表示包含n个数据子元素的数据集；s_i,j表示数据子元素f_i与数据子元素f_j的数据相似度；i和j的值均从1取到n；dist(f_i,f_j)表示根据数据特性计算出的数据子元素f_i与数据子元素f_j之间的向量距离；

所述数据子元素以向量形式表示，一所述数据子元素的数据特性包括至少一特征值。

3.根据权利要求2所述的阈值确定方法，其特征在于，将根据所述数据特性计算出的两两数据子元素之间的欧式距离作为所述向量距离；计算公式为：

或

4.根据权利要求1所述的阈值确定方法，其特征在于，根据所述数据相似度，搭建相似度直方图包括以下步骤：

将数据值域[0,1]均匀划分为预设等份，并获取每一等份的子值域区间，以搭建出所述相似度直方图的横轴；

初始化每一所述子值域区间的初始计数量；

依次遍历所有的所述数据相似度，并判断每一所述数据相似度所在的子值域区间；

根据判断结果更新所述数据相似度所在的子值域区间对应的计数量，以获取所有子值域区间的最终计数量；

根据所述所有子值域区间的最终计数量，搭建出所述相似度直方图的纵轴，以最终实现所述相似度直方图的搭建。

5.根据权利要求4所述的阈值确定方法，其特征在于，每一所述子值域区间的初始计数量均为零；根据判断结果更新所述数据相似度所在的子值域区间对应的计数量包括：当判断出所述数据相似度在一所述子值域区间内时，则对应所述子值域区间的计数量加一。

6.根据权利要求1所述的阈值确定方法，其特征在于，根据所述相似度直方图，确定阈值范围包括以下步骤：

对所述相似度直方图横轴所有区间对应的纵轴数值进行一阶差分，获取相应的一阶差分结果；

对所述一阶差分结果进行符号运算处理，获取相应的第一向量；

对所述第一向量进行一阶差分，获取第二向量；

遍历所述第二向量，以确定波谷，并根据所述波谷最终确定所述阈值范围。

7.根据权利要求6所述的阈值确定方法，其特征在于，对所述一阶差分结果进行符号运算处理，获取相应的第一向量包括：

当所述一阶差分结果大于零时，记所述第一向量为第一预设正值；

当所述一阶差分结果小于零时，记所述第一向量为第一预设负值。

8.一种阈值确定系统，应用于机器学习中，其特征在于，包括：获取模块、计算模块、搭建模块及确定模块；

所述获取模块用于获取包含数据子元素的数据集；

所述计算模块用于计算所述数据集中两两数据子元素之间的数据相似度；

所述搭建模块用于根据所述数据相似度，搭建相似度直方图；

所述确定模块用于根据所述相似度直方图，确定阈值范围。

9.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的阈值确定方法。

10.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的阈值确定方法。