CN107832780B

CN107832780B - 基于人工智能木板分选低置信度样本处理方法及系统

Info

Publication number: CN107832780B
Application number: CN201710966909.6A
Authority: CN
Inventors: 丁磊
Original assignee: Beijing Muyebang Technology Co ltd
Current assignee: Beijing Muyebang Technology Co ltd
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2020-04-10
Anticipated expiration: 2037-10-17
Also published as: CN107832780A

Abstract

本发明提供了一种基于人工智能木板分选低置信度样本处理方法及系统，首先获取低置信度样本的至少一种格式的图像数据；将所述低置信度样本的至少一种格式的图像呈现在显示装置中；获取所述低置信度样本标注的新分类；将标注后的所述低置信度样本被输入训练方法，重新训练得到新的分类模型。本发明的方法及系统，能够不断的发现低置信度的样本并加以利用，可以使得机器学习方法逐渐的提高其分类精度。

Description

基于人工智能木板分选低置信度样本处理方法及系统

技术领域

本发明属于人工智能技术领域，具体涉及一种机器学习中低置信度样本的处理方法、系统、机器学习中图像样本分类标注方法、系统及其计算机程序产品。

背景技术

在木材加工领域，木板分选是一个重要环节。原木在经过成型、上色、烘干等工艺之后，变为加工后的木板。木板在变为商品化产品之前，需要按照不同的板材特征进行产品分类。在传统的方法中，木板的分选由人工完成。经过训练的工人，通过观察，判断每一块木板的颜色、纹理、缺陷，进而结合经验将一块木板归入不同的分类。每一个分类之中的木板拥有更为接近的特性，实现较高的产品外观、质量的一致性。

然而，使用人工的分选的方法需要耗费大量的人力资源，并且成本昂贵。由于每一批次的木板材质和上色工艺可能存在不同，每一次的产品分类标准也可能存在变动，因此需要不断的对工人进行培训和训练。同时，随着工作时间的增加，人力的方法也会出现准确率下降，效率变慢的现象。

使用机器进行木材分选的方法正成为当前行业的新兴方向，在木材处理过程中的很多步骤可以通过机器的方法来解决。然而，这些技术多数使用一种固定方法对木材或木板进行特征提取，进而得到想要的特征。例如，US20120170055A1中给出了一种使用极化光照射木板，接收反射光信号。由于木纹方向是由纤维结构决定的，而纤维结构会对极化光信号造成影响。因此，通过对反射光的特征处理，进而可以识别木板的木纹方向。再例如，CN101767094A中给出了一种基于颜色和木纹进行分选的方法，该方法只是将人工的经验转变成列表，并根据木板的样本与列表进行比对而获得分类。以上的方法均属于对木材的某一特征进行提取，使用一种固定的分类计算机算法，进而实现木板分选的目的。

根据以上描述，此类方法均存在一定的局限性，其一在于其分选参数和方法是固定的，必须通过专门的设计和调教才能有效运行。由于木材是一种非标准化产品，这就很难保障算法和参数总是与需求匹配的。在木材原材料供应、场地外部环境，产品能分类需求发生变动时，这些传统的机器参数需要进行重新校准和重新测试，否则机器无法正常工作。此外，固定的参数在多变的部署环境中也变得极为不稳定，受光照、传送带等影响，调教好的参数必须同时保障非常高的运行环境，否则性能面临巨大的下降。由此可见，传统的方法在自适应，效率方面存在严重的不足。

随着最近机器学习方面的研究进展，使用机器学习进行木材加工自动化的方法变得越来越受到欢迎。这是由于机器学习能够通过海量的训练数据，使得自动化机器变得更为可靠和弹性。同时，训练的方法极为简单，只需要对分类后的数据进行标注，并使用相应的算法训练模型即可，而模型具体根据木材的哪些特征，如何进行分类则无需人工干预。也就是说，机器学习的方法抛弃了对具体分类模型、算法、图像特征的依赖，只需要采集足够多的数据，就可以实现对原木、木板等非标准化产品的分类。然而，目前的机器学习依赖于足够的数据量，当数据量规模不够大时，机器学习的精确度大为下降。

由于快速变化的消费需求，当前木板生产中对快速部署的需求变得越来越高。每家木板生产厂商都拥有自定义的木板分类标准，也就是说分类的标准也变成了一种非标准化的过程。使用一种预先训练的机器学习方法，并部署到每一家生产厂商的方法无法实现自定义的木板分类标准。另外一个重要的问题在于，每一批次的产品都基于同一批次的原木供应，该批次最终的产品分类与该批次的原木材质，喷漆工艺高度相关。也就是说，对于每一批次的分类方法，都需要一个全新的机器学习算法。最后，自然光线的改变对机器学习算法的影响并没有在现有技术中得到考虑，因此传统的机器学习方法无法适应光照条件变化的生产环境。

在木板分选领域应用机器学习的方法，面临一个与其他机器学习没有遇到的问题。机器学习依赖于大量的训练数据，在一般领域，这些数据可以离线获取，并且可以轻易获得足够多的训练数据。然而，在上述木板分选场景，每个工厂的分类都是自定义的，其木板源也是有限的。因此，训练数据的获取就难以轻易得到满足。在机器学习的方法运行时，会产生低置信度的样本，也就是分类算法无法在较高置信度的情况下判断该样本的分类。此时，该样本在多个分类中的置信度评估值接近，因此机器无法给出分类判断。然而，这些低置信度样本的巧妙使用可以实现一种迭代的改进机器学习精度的方法，也就是说，通过不断发现低置信度的样本并加以利用，可以使得机器学习方法逐渐的提升其分类精度。

发明内容

本发明的目的在于，使用一种低置信度样本的处理方法，能够使得木板生产厂家可以在木板数据有限的前提下不断的细分，进而实现良好的机器学习效果。木板分类的机器学习效果能够快速适应不同生产厂家的木板分类标准、不断变动的产品分类需求、多变的部署环境、高差异性的木料材质。

本发明提供了一种机器学习中低置信度样本处理方法，其特征在于，包括：

获取低置信度样本的至少一种格式的图像数据；

将所述低置信度样本的至少一种格式的图像呈现在显示装置中；

获取所述低置信度样本标注的新分类；

将标注后的所述低置信度样本输入训练方法，重新训练得到新的分类模型。

通过将低置信度样本进行新的标注整合到学习过程中的方法，能够使得在训练样本不大的基础上，数据量有限的情况下，也可以得到较高的分类精度，更加符合厂家的实际需求，满足企业实际生产中的高效分类需求，降低了机器学习中对训练样本数据量的要求。

可选地，所述低置信度样本标注的新分类由操作员进行标注。

可选地，将标注后的低置信度样本与原始样本合并后，进行所述重新训练。

可选地，收集一定量的标注后的低置信度样本，将这些标注后的低置信度样本作为新的训练批次，进行所述重新训练。可选地，还包括获得高置信度样本的至少一种格式的图像数据，将所述高置信度样本的至少一种格式的图像及其分类也呈现在显示装置中。

可选地，所述呈现在显示装置中包括在同一页面上显示一个低置信度样本的图像和至少一个高置信度样本的图像及其分类。

可选地，所述呈现在显示装置中包括显示图像数据的对应分类的置信度值。

获得高置信度的图像样本将其显示，以及显示在同一页面并且显示出置信度值都使得操作员更容易将低置信度的样本进行比对，方便为低置信度选择一个最优的分类。

可选地，所述至少一种格式的图像数据包括：样本采集的原始数据、经过归一化处理的增强数据、基于某一参照物归一化处理的增强数据中的一种或多种。

通过对原始数据的处理，得到基于参考图像的归一化处理的图像数据，消除了外界环境光线的干扰，避免了环境的干扰对分类的影响。

可选地，所述训练方法为逻辑回归、线性回归、支持向量机、KNN、卷积神经网络中的一种或多种。

在另一方面，本发明提供了一种机器学习中低置信度样本处理系统，其特征在于，所述系统包括：

图像获取单元，获取低置信度样本的至少一种格式的图像数据；

显示单元，将至少一个低置信度样本的图像呈现在显示装置中；

标注单元，为低置信度样本标注新的分类；

学习单元，将标注后的所述低置信度样本被输入训练方法，重新训练得到该置信度的分类模型。

可选地，所述标注单元由操作员进行标注。

可选地，所述学习单元将标注后的低置信度样本与原始样本合并后，进行所述重新训练。

可选地，所述学习单元收集一定量的标注后的低置信度样本，将这些标注后的低置信度样本作为新的训练批次，进行所述重新训练。

可选地，所述图像获取单元还获取高置信度样本的至少一种格式的图像数据，显示单元将所述高置信度样本的至少一种格式的图像及其分类也呈现在显示装置中。

在本申请的另一方面，还提供了一种机器学习中图像样本分类标注方法，其特征在于，包括：

通过机器分类或人工标注的方法，获得多个属于同一分类的图像样本；

将所述样本的至少一种数据格式的图像呈现在显示装置中；

通过对比所述样本的至少一种数据格式的图像，选择同一分类中置信度较低的样本。

可选地，将同一分类中获得的多个低置信度样本呈现在显示装置中，接收操作员的输入，得到每个样本的对应分类。

可选地，所述呈现在显示装置中包括在同一页面上显示所述多个属于同一分类的图像。

可选地，所述呈现方式能够用于数据清洗。

在本申请再一方面，还提供了一种机器学习中图像样本分类标注系统，其特征在于，包括：

分类单元，通过机器分类方法或人工标注的方法，获得多个属于同一分类的样本；

显示单元，将该样本的至少一种数据格式的图像呈现在显示装置中；

选择单元，通过对比所述样本的至少一种数据格式的图像，选择同一分类中置信度较低的样本。

可选地，所述呈现方式能够用于数据清洗。

在申请的另一方面，还提供了一种木板分选系统，其特征在于，所述系统包括：

存储器；和

一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器能够实现如前所述的方法。

在本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储由计算机可执行指令，所述计算机可执行指令被执行时可实现如前所述的方法。

通过本发明的方法系统对低置信度样本的处理，使得木板分选机器能够快速适应小样本数据的机器学习，适合每一家生产厂商的非标准化的自定义木板分类标准，满足不同批次木板的材质要求、喷漆工艺的需求等。对木材图像数据的处理，设置多种格式的图像数据，使得机器学习适应更多的光照环境变化，提高了训练效率和分拣准确度。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：一种木板图像的数据采集方法。

图2：低置信度样本数据的标注与再利用。

图3：一种低置信度样本的呈现方法。

图4：一种带有参考图像的数据采集方法。

图5：一种低置信度样本的呈现方法。

图6：一种用于数据清洗的样本呈现方式。

图7：卷积神经网络示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

在本发明中，针对的是使用木材分类的机器学习方法。采用机器学习的方法能够将木板自动的分类到自定义的类别中，与人工分类的速度相比大大提高。然而由于木板天然的特性，同一批次的样本的数量是有限的，不能对机器学习进行大规模的数据训练进而影响到了分类的精度。因此，对有限规模的样本处理显得极为关键。

实施例1

如图1所示，一个木板通过传送带被送入图像采集区域，木板在移动过程中完成图像采集，拍摄装置采集所述木板的图像，并将采集的图像输入到经过训练的机器学习模型中。

对于机器学习方法首先，需要在工厂内部获得一部分木板样本，以及每个木板样本的分类。由于木材为一种半天然产品，不可能像钢材等工业产品一样具有明确的分类标准。因此，目前在工厂内，根据工厂的实际情况进行自定义分类。这种自定义分类的方式更加适应于不同木板工厂实际情况以及分类的要求，分类更加灵活、方便。分类的具体实施是由人工凭借经验来完成的，具体设置多少个品类，哪个样本归入哪一类也都是由人工来实施的。人工分类可以基于木板的不同特征，例如颜色，纹理，缺陷等任意木板特征来完成。因此，可见该分类是基于每个工厂的需求，自定义的木板分类，而不是一种可以预先定义的通用型分类。

具体做法为，首先确定木板样本，然后对木板样本进行自定义分类，例如将1-3号木板样本分为A级类别，将4-8号木板分为B级类别，将9-10号木板分类C级类别。

由于是自定义分类，所以可以根据木板工厂具体情况和实际分类的要求，进行自定义的分类，例如将1、3、5号木板分为A级类别，将其余木板样本分为B级类别。

注意，随着技术的发展，样本分类并不局限于人工经验，也可以采用机器学习中聚类的分类方法对于木板样本进行自动分类。

然后，对木板样本进行图像采集。拍摄装置在一定的自然和/或人为光照环境条件下采集木板样本图像。以下是一组使用上述分类方法的数据：

Sample 1：类别A

Sample 2：类别B

Sample 3：类别A

….

Sample N:类别C

接下来，图像数据作为输入，机器学习模型将在每一个分类上得到一个置信度的估计值。在实施分类过程中，训练过的机器学习模型将会在不同的种类上得到置信度的评估。该置信度反映了该木板样本对其应该归为某个分类的推测，例如

Sample 1:

类别：{A：95％，B：3％，C：2％}

Sample 2:

类别：{A：49％，B：50％，C：1％}

其中，样本1(Sample 1)在A分类下的置信度远远高于其他分类的置信度，这就意味着该木板在以极高的可能应该被分为A类别。我们将这个某一分类具有较高置信度结果的样本称为高置信度样本，同时可以通过对置信度的一个判别，将高置信度的样本通过机械装置分为对应分类。

然而，由于木板样本属于一种半天然产品而不是标准化的工业产品，在很多情况下某一木板具有较为独特的花纹或颜色，此时可能会产生一个类似样本2(Sample 2)的一个结果。其具体特征为，A分类的置信度与B类的置信度较为类似(49％vs 50％)，任何一个分类的置信度都不远远高于其他分类。也就是说，训练后的模型无法精准推测该样本应该分为A或B类。我们将这种多个分类的置信度类似的样本称为低置信度样本。

低置信度样本的产生，说明训练后的机器学习模型无法应对该样本的具体图像特征。一种原因在于，用于训练机器学习模型的数据样本不够充分，无法覆盖该样本的特殊性。由于机器学习模型可以通过不断增加训练数据来改善其分类性能，因此低置信度样本是非常宝贵的数据资源。同时，由于前述过程，所有的分类为某一工厂自定义的分类，因此也无法从其他工厂获取低置信度样本数据。这意味着，在某一工厂内部分类方法中产生的低置信度样本数据，对该工厂所使用的分类方法具有极高的价值。我们将在以下部分详细介绍如何利用这些低置信度的样本数据，进而迭代式的提升所使用的机器学习模型的性能。

首先，通过设置一个用于判断低置信度样本的判别条件，该判别条件可以通过对置信度数值的分析，判断当前样本是否是一个低置信度样本。例如，设置一个阈值，当没有任何一个分类的置信度超过该阈值时，就认为是一个低置信度样本。再或者，设置一个差值，当多个分类的置信度差异值小于该阈值时，就认为是一个低置信度样本。

如图2所示当发现一个低置信度样本后，系统将低置信度样本的数据呈现于一个显示装置，并且重新对该低置信度样本进行分类标注。标注后的低置信度样本被用于输入被训练过的机器学习模型，进行新一轮的训练。在使用低置信度样本训练后的机器学习模型，其分类性能会得到进一步提升。其中接收分类标识可以是通过获得人工分类的方法实现的。

在获得多个低置信度样本后，有多种训练机器学习模型的方法。一种方法为，将获得分类标注的新样本与原始样本合并，并对一个全新的机器学习模型进行训练。一种方法为，收集一定量的标注后的低置信度样本。由于机器学习可以通过分批次(Batch)训练的方法实现迭代式的演进，因此可以将这些标注后的低置信度样本作为新的训练批次，对原有的机器学习模型进行再训练。

实施例2

在人工标注的过程中，由于低置信度的样本本身就存在一定的模糊性，也就是即使人工分类也面临一定的挑战。因此，如何更好的向操作员呈现这些样本决定了低置信度样本的标注准确率。在此，我们介绍下列的实施方式，以描述具体的呈现方式。

如图3所示，不仅呈现低置信度样本的图像数据，也同时呈现高置信度样本的图像数据，通过同时比对高置信度样本数据和低置信度样本数据，从而使得操作员更容易的进行比对，对低置信度样本图像重新标定。

为了更清楚的进行比对，可以在同一界面内同时呈现低置信度样本与高置信度样本，或人工标注的样本。该方法的界面中，一个低置信度样本被呈现，同时多个分类的多个高置信度样本同时被呈现。此时，操作员可以轻易的根据对比，为低置信度样本选择一个最优的分类。

为了更加明确，可以设置呈现的低置信度样本与其在各个分类中获得的置信度值一同呈现。置信度值可以为操作员提供一个参考，使其知晓该低置信度样本产生的原因，例如在类别A和类别B之中无法精准区分。

实施例3

有一种可能，低置信度样本的产生可能是由于外界环境光线的改变造成的，例如光照强度不够，或者有其他光污染进入被采集的图像。因此，一种方法对样本进行预处理，例如通过基于参考图像对原始图像进行增强处理，例如对亮度，白平衡，对比度等参数进行归一化处理。

为了后期消除光照变化对图像质量的影响，图像采集过程中，可以设置参考图像。例如，在图像采集区域，提供一个白色的参考物体，以保障木板样本的图像与白色参考物体的图像同时被采集。白色参考物体可以用于提供一个白平衡、亮度或其他图像参数的一个参考。在一种方式中，图像采集的过程中使用一个外部光源，例如LED灯光源。该光源能够提供一种均匀的光照，以提升图像的基础亮度。如图4所示，在传送带上设置一个白色参考图像，将图像采集设备(摄像头)对准于白色参考图像所在区域。当木板样本出现时，图像采集设备将白色参考物与木板的图像数据同时采集并记录。这样就获得了一个带有参考图像的木板图像数据。

除此之外，为了实现更多自适应的方法，可以将图像获取时其他的变量也纳入训练样本中，例如图像采集时的光照条件，传送带运动速度等。这样可以得到增强的分类数据：

Sample 1

[类别：A，速度：V2，光照强度：L3，摄像机角度，A5]

Sample 2

[类别：A，速度：V3，光照强度：L3，摄像机角度，A5]

Sample 3

[类别：B，速度：V0，光照强度：L3，摄像机角度，A5]

Sample 4

[类别：A，速度：V2，光照强度：L3，摄像机角度，A5]

注意，训练数据不局限于以上的示例，可以利用的其他相关参数均可以有选择的被整合到训练数据中。

当训练数据包含多种可选参数时，训练后的模型不仅能对木板的种类进行分类，也能够在对应的参数上进行分类，进而实现更精准的判断。例如可以判断木板的移动速度，木板图像采集时的光照条件，这样就能避免由于外界环境改变对分类带来的影响。

此外，关于呈现方式，呈现的样本经过归一化消除了外界光线的影响，因此更易于与其他的高置信度样本进行对比。图5给出了一种该种呈现方式的示例。其中，低置信度样本的原始图像和增强图像同时与高置信度样本呈现，此时操作员可以根据增强图像选择最优分类。注意，高置信度样本的原始图像与增强图像也可以同时呈现在成像装置上，此处不再给出图片示例。

实施例4

在一种实施方式中，上述呈现方法可以用于数据清洗。也就是说，在初始人工标注后，获得多个标注分类的样本。然而，由于光线或人员效率的因素，这些初始数据可能存在较大的噪声。也就是人工标注的样本可能存在误判或误差。

此时，数据清洗的过程在于将初始样本数据的分类准确性提高，以保证神经网络的初次训练能够获得好的效果。因此，将多个被标注于同一分类的低置信度的样本被同时呈现。此时可以呈现单一的原始图像或同时呈现原始图像与增强图像，也可以同时呈现其他被标注到其他分类的原始或增强图像。操作员通过同一分类内多个样本的对比，识别噪声样本，并对噪声样本重新分类。如图6所示，分类A中的两个样本被同时呈现，操作员可以通过与右侧高置信度样本的对比，识别某一样本是否应该被标注为A类别。如果发现标注错误，则可以进行重新分类。

在另外一种应用方式中，可以通过某种机器学习的模型获取某一分类的多个高置信度样本。此时，由于训练机器学习的模型的数据量可能还不足够，因此分类结果中高置信度的样本仍然可能存在噪声。因此，通过类似图5的方式，呈现多个属于同一分类的样本，用于人工精细化分类。

实施例5

本发明可以采取多种机器学习的模型实现自动分类，如监督式学习、半监督式学习、无监督式学习、增强学习几大类，每一类都有很多算法实现，具体的如逻辑回归、线性回归、支持向量机、KNN等，上述一种或多种算法单独或还可以嵌套在深度学习模型中来实现自动分类。此处以卷积神经网络为例，描述具体分类过程。

图7中给出了一个卷积神经网络的示意图，其中包括了多个卷积层和降采样层以及全连接层。卷积层是卷积神经网络的核心模块，通过与一个滤波器(filter)的卷积操作，将前一层的多个节点与下一层的节点相连。一般来说，卷积层的每一个节点只与前一层的部分节点相连。通过训练过程，其中使用初始值的滤波器可以根据训练数据不断改变自身的权重，进而生成最终的滤波器取值。降采样层可以使用最大池化(max-pooling)的方法将一组节点降维成一个节点，其中使用非线性取最大值的方法。在经过多个卷积层和降采样层后，一个全连接层最终用于产生分类的输出，全连接层将前一层的所有节点与后一层的所有节点相连，这与一个传统的神经网络类似。

在学习，也就是训练过程中，我们将木板的样本数据作为输入，将其所在的自定义分类，速度等分类属性作为输出，通过训练算法，例如梯度下降(gradient descent)算法使得神经网络中的滤波器权重值改变，进而使得输出与样本数据中的分类差异最小。随着使用的训练数据量的不断增大，不断改变的网络节点值不断改变并提高，神经网络的分类能力也就得到了提升。当训练结束后，一个训练好的神经网络包括所设计的网络架构，例如图6中的层级设计以及层级之间连接方法，以及经过训练而改变的滤波器权重值。这些权重值被记录下来，并在后期的使用中被重复利用。

学习过程可以在本地分类系统中完成，也可以在云端完成。

需要在云端完成学习的情况下，分类系统将确定的自定义分类和所述图像样本与自定义分类的关系、以及采集的图像样本上传到云端。云端服务器利用获得的自定义分类、图像样本与自定义分类的关系、以及图像样本对神经网络进行训练，并将训练后的模型部署到本地的分类系统中。

本发明的方法可以是由计算机程序控制的系统来实现。因此，与之相对应地，本发明的实施例中还同时提供了一种木板分选系统，其包括：存储器；和一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器能够实现本发明的方法。

同时，本发明还提供了一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令可执行上述任意实施例中所描述的方法。

本发明的所有步骤方法，例如图像获取、显示、学习也可以通过系统的一个/或多个处理器处理。处理器可为任何可编程微处理器、微计算机或可由软件指令(应用程序)配置以执行多种功能(包括本文中所描述的各种实施例的功能)的多处理器芯片。处理器可包括足以存储应用程序软件指令的内部存储器，内部存储器可为易失性或非易失性存储器(例如，快闪存储器)或两者的混合。出于此描述的目的，对存储器的一般参考指代可由处理器存取的所有存储器，包括内部存储器、插入到设备中的可装卸存储器及处理器自身内的存储器。

本发明中，可以硬件、软件、固件或其任何组合来实施所描述的功能。如果以硬件实施，那么可在可适合用于系统中的处理电路的电路内实施功能性。此处理电路可包括用于实现各实施例中所描述的图像获取、学习以及控制步骤中任何一个或多个的电路。如果以软件来实施，那么所述功能可作为一个或一个以上指令或代码而存储在计算机可读媒体上，或经由计算机可读媒体而传输。本文中所揭示的方法或算法的步骤可包含在所执行的处理器可执行软件模块中，所述处理器可执行软件模块可驻存在计算机可读媒体上。计算机可读媒体包括计算机存储媒体及通信媒体两者，通信媒体包括促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。作为实例而非限制，此计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以运载或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

此外，本发明的技术方案并不仅仅局限于木材分类领域，同样适合各种农林产品的分选，包括但不限于如棉花的分选，木耳的分选，水果的分选等。农林产品的分选目前基本都是采用人工的方式，每个厂家都是自定义的一种分选方式，并不存在严格的通用选择标准。并且，都存在着分类样本是批次量的特点，样本空间有限的缺陷，不可能一次实现大批量的样本进行训练，直接的机器学习并不能有效的解决产品分类这个问题。因此，低置信度的样本的处理方式和再利用对农林产品的分选上具备实际的使用意义，可以解决如何使用机器学习的方法将农林产品进行分类，从而提高农林产品的分类速度和效率。本发明要求保护的低置信度样本的处理方法、系统，以及图样样本的标注方法、系统对于农林产品的高效分选问题上给出了可行的解决方案。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。前后两个步骤之间并不必然意味着一定是一种先后执行的顺序，只要能够解决本发明的技术问题即可，而且前后两个步骤之间并不必然意味着一定排除了发明中未列出的其他步骤；同理，系统的各个设备、器件、装置之间并不必然意味是一种直接的电气连接，说明书表示的仅仅是逻辑关系。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器学习中低置信度样本处理方法，其特征在于，包括：

将图像数据输入到机器学习模型中，确定低置信度样本的至少一种格式的图像数据和高置信度样本的至少一种格式的图像数据；

将所述低置信度样本的至少一种格式的图像和高置信度样本的至少一种格式的图像呈现在显示装置中的同一页面上，所述显示装置中的同一页面上还显示所述低置信度样本和所述高置信度样本对应分类的置信度值；

获取所述低置信度样本标注的新分类；

2.根据权利要求1所述的方法，其特征在于，所述低置信度样本标注的新分类由操作员进行标注。

3.根据权利要求2所述的方法，其特征在于，将标注后的低置信度样本与原始样本合并后，进行所述重新训练。

4.根据权利要求2所述的方法，其特征在于，收集一定量的标注后的低置信度样本，将这些标注后的低置信度样本作为新的训练批次，进行所述重新训练。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述机器学习模型输出图像数据对应多个分类的多个置信度估计值，以及基于所述多个置信度估计值确定的分类结果。

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述至少一种格式的图像数据包括：样本采集的原始数据、经过归一化处理的增强数据、基于某一参照物归一化处理的增强数据中的一种或多种。

7.根据权利要求6所述的方法，其特征在于，所述训练方法为逻辑回归、线性回归、支持向量机、KNN、卷积神经网络中的一种或多种。

8.一种机器学习中低置信度样本处理系统，其特征在于，所述系统包括：

图像获取单元，用于将图像数据输入到机器学习模型中，确定低置信度样本的至少一种格式的图像数据和高置信度样本的至少一种格式的图像数据；

显示单元，将至少一个低置信度样本的图像和高置信度样本的至少一种格式的图像呈现在显示装置中的同一页面上，所述显示装置中的同一页面上还显示所述低置信度样本和所述高置信度样本对应分类的置信度值；

标注单元，为低置信度样本标注新的分类；

学习单元，将标注后的所述低置信度样本输入训练方法，重新训练得到分类模型。

9.根据权利要求8所述的系统，其特征在于，所述标注单元由操作员进行标注。

10.根据权利要求9所述的系统，其特征在于，所述学习单元将标注后的低置信度样本与原始样本合并后，进行所述重新训练。

11.根据权利要求9所述的系统，其特征在于，所述学习单元收集一定量的标注后的低置信度样本，将这些标注后的低置信度样本作为新的训练批次，进行所述重新训练。

12.根据权利要求8-11中任一项所述的系统，其特征在于，所述至少一种格式的图像数据包括：样本采集的原始数据、经过归一化处理的增强数据、基于某一参照物归一化处理的增强数据中的一种或多种。

13.根据权利要求12所述的系统，其特征在于，所述训练方法为逻辑回归、线性回归、支持向量机、KNN、卷积神经网络中的一种或多种。

14.一种木板产品分选系统，其特征在于，所述系统包括：

存储器；和

一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器能够实现如权利要求1-7中任一项所述的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储由计算机可执行指令，所述计算机可执行指令被执行时可实现权利要求1-7中任一项所述的方法。