CN109492549A

CN109492549A - 一种训练样本集处理、模型训练方法及系统

Info

Publication number: CN109492549A
Application number: CN201811246391.XA
Authority: CN
Inventors: 徐青松; 李青
Original assignee: Hangzhou Glority Software Ltd
Current assignee: Hangzhou Glority Software Ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-19

Abstract

本发明提供了一种训练样本集处理、模型训练方法及系统，训练样本集处理方法包括：服务器获取原始训练样本集，将原始训练样本集发送至第一客户端；第一客户端对原始训练样本集中的各个样本上的多个区域添加标注框，标注出各个区域的属性信息，并将各个样本的区域标注结果返回给服务器；服务器根据第一客户端的区域标注结果，将各个标注框区域发送至第二客户端；第二客户端对各个标注框区域进行字符信息标注，并将各个标注框区域的字符标注结果返回给服务器；服务器结合第一客户端返回的区域标注结果和第二客户端返回的字符标注结果，处理得到各个样本的标注结果，完成对原始训练样本集的处理。本发明的方案可以提高训练样本集中样本处理效率。

Description

一种训练样本集处理、模型训练方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用于训练样本集处理、模型训练方法及系统。

背景技术

神经网络识别模型可用来进行区域识别，神经网络识别模型的建立需要通过包含大量样本的训练样本集进行训练。例如，对题目进行识别的神经网络识别模型需要通过包含大量题目样本的训练样本集进行训练得到，而对发票进行识别的神经网络识别模型需要通过对包含大量发票样本的训练样本集进行训练得到。

目前，在进行模型训练前，需要对训练样本集中各个样本进行处理，例如标注出样本中的关键区域以及区域内的字符信息，而对于包含大量样本的样本训练集，提供一种能够提高样本处理效率的训练样本集处理方法，是十分必要的。

发明内容

本发明的目的在于提供一种训练样本集处理、模型训练方法及系统，以提高训练样本集中样本处理效率。

为达到上述目的，本发明提供了一种训练样本集处理方法，用于建立神经网络识别模型的训练样本集的处理，所述方法包括：

步骤S11：服务器获取原始训练样本集，将所述原始训练样本集发送至第一客户端；

步骤S12：所述第一客户端对所述原始训练样本集中的各个样本上的多个区域添加标注框，标注出各个区域的属性信息，并将各个样本的区域标注结果返回给所述服务器；

步骤S13：所述服务器根据所述第一客户端的区域标注结果，将各个标注框区域发送至第二客户端；

步骤S14：所述第二客户端对各个标注框区域进行字符信息标注，并将各个标注框区域的字符标注结果返回给所述服务器；

步骤S15：所述服务器结合所述第一客户端返回的区域标注结果和所述第二客户端返回的字符标注结果，处理得到各个样本的标注结果，完成对所述原始训练样本集的处理。

可选的，在步骤S11服务器将所述原始训练样本集发送至第一客户端之前，通过历史样本类别识别模型对所述原始样本集进行清洗过滤，识别出各个样本的类别标签，清除无关类别的样本。

可选的，在步骤S11服务器将所述原始训练样本集发送至第一客户端之前，对所述原始样本集进行清洗过滤，若样本的内容不正确和/或无法识别，则标记为错误样本，若样本预设的类别标签不正确，则修正样本的类别标签。

可选的，步骤S12具体包括：

所述第一客户端通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框，标注出各个区域的属性信息。

可选的，步骤S12还包括：

检查各个区域的标注框位置、属性信息是否正确，如果错误则进行处理，处理方式包括：添加标注框，移除标注框，修正标注框大小、位置、角度、属性信息。

可选的，步骤S13具体包括：

所述服务器根据所述第一客户端的区域标注结果，将各个标注框对应的区域切割为单独的区域图片，将切割后的各个区域图片发送至第二客户端。

可选的，步骤S14具体包括：

针对每一标注框区域，所述第二客户端通过历史字符识别模型识别出该标注框区域内的字符信息，根据所识别出的字符信息对该标注框区域进行标注。

可选的，步骤S14还包括：

针对每一标注框区域，检查该标注框区域所标注的字符信息、标注位置是否正确，如果错误则进行处理，处理方式包括：修正标注的字符信息，标记无法识别字符信息的标注框区域。

本发明还提供了一种模型训练方法，包括：

采用如上述任一项所述的训练样本集处理方法，对原始训练样本集进行处理得到目标训练样本集；

所述服务器利用所述目标训练样本集对神经网络进行训练，得到神经网络模型。

本发明还提供了一种训练样本集处理系统，用于建立神经网络识别模型的训练样本集的处理，所述系统包括：服务器、第一客户端和第二客户端，其中，

所述服务器，用于获取原始训练样本集，将所述原始训练样本集发送至第一客户端；

所述第一客户端，用于对所述原始训练样本集中的各个样本上的多个区域添加标注框，标注出各个区域的属性信息，并将各个样本的区域标注结果返回给所述服务器；

所述服务器，还用于根据所述第一客户端的区域标注结果，将各个标注框区域发送至第二客户端；

所述第二客户端，用于对各个标注框区域进行字符信息标注，并将各个标注框区域的字符标注结果返回给所述服务器；

所述服务器，还用于结合所述第一客户端返回的区域标注结果和所述第二客户端返回的字符标注结果，处理得到各个样本的标注结果，完成对所述原始训练样本集的处理。

可选的，所述服务器，还用于在将所述原始训练样本集发送至第一客户端之前，通过历史样本类别识别模型对所述原始样本集进行清洗过滤，识别出各个样本的类别标签，清除无关类别的样本。

可选的，所述服务器，还用于在将所述原始训练样本集发送至第一客户端之前，对所述原始样本集进行清洗过滤，若样本的内容不正确和/或无法识别，则标记为错误样本，若样本预设的类别标签不正确，则修正样本的类别标签。

可选的，所述第一客户端，具体用于通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框，标注出各个区域的属性信息。

可选的，所述第一客户端，还用于检查各个区域的标注框位置、属性信息是否正确，如果错误则进行处理，处理方式包括：添加标注框，移除标注框，修正标注框大小、位置、角度、类型。

可选的，所述服务器，具体用于根据所述第一客户端的区域标注结果，将各个标注框对应的区域切割为单独的区域图片，将切割后的各个区域图片发送至第二客户端。

可选的，所述第二客户端，具体用于针对每一标注框区域，通过历史字符识别模型识别出该标注框区域内的字符信息，根据所识别出的字符信息对该标注框区域进行标注。

可选的，所述第二客户端，还用于针对每一标注框区域，检查该标注框区域所标注的字符信息、标注位置是否正确，如果错误则进行处理，处理方式包括：修正标注的字符信息，标记无法识别字符信息的标注框区域。

本发明还提供了一种模型训练系统，包括上述任一项所述的训练样本集处理系统，其中，

所述训练样本集处理系统，用于对原始训练样本集进行处理得到目标训练样本集；

所述训练样本集处理系统中的服务器，还用于利用所述目标训练样本集对神经网络进行训练，得到神经网络模型。

与现有技术相比，本发明利用服务器、第一客户端、第二客户端进行训练样本集的处理，其中第一客户端用于对样本上多个区域添加标注框，第二客户端用于对各个标注框区域进行字符信息标注，这种分步骤的流水线处理方式，相比于由同一设备执行全部处理步骤的方式，可以提高样本处理效率，尤其对于具有大量样本的训练样本集，可以大大缩短样本处理时间。

附图说明

图1是本发明一实施例提供的训练样本集处理方法的流程示意图；

图2是本发明一实施例提供的训练样本集处理系统的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种训练样本集处理、模型训练方法及系统作进一步详细说明。根据权利要求书和下面说明，本发明的优点和特征将更清楚。

为解决现有技术的问题，本发明实施例提供了一种训练样本集处理、模型训练方法及系统。

图1是本发明一实施例提供的一种训练样本集处理方法的流程示意图，可以包括如下步骤：

步骤S11：服务器获取原始训练样本集，将所述原始训练样本集发送至第一客户端。

服务器在将所述原始训练样本集发送至第一客户端之前，可以对原始训练样本集进行清洗过滤，清除无关样本。在一种实现方式中，如果存在历史部署过的样本类别识别模型，则可以将该历史部署过的样本类别识别模型作为历史样本类别识别模型，此时服务器可以通过该历史样本类别识别模型对所述原始样本集进行清洗过滤，识别出各个样本的类别标签，清除无关类别的样本。例如，原始样本训练集为训练题目识别模型的训练集，即原始样本训练集中各个样本的类别标签应该为题目，若原始样本训练集中混入类别标签为发票的样本，则该样本属于无关类别的样本，需要从原始样本训练集中清除。将原始训练样本集中各个样本输入该历史样本类别识别模型中，可以识别出各个样本的类别标签，若存在无关类别的样本，则将该样本清除，以提高训练样本集的准确度。其中，该历史样本类别识别模型可以为基于神经网络的模型，该历史样本类别识别模型的训练方法可以参见现有技术，在此不做赘述。

在另一种实现方式中，若不存在历史部署过的样本类别识别模型，则可以通过人工检查进行清洗，也可以分配给其它客户端进行清洗。具体而言，对所述原始样本集进行清洗过滤，检查每个分类下的样本预设标签是否正确，若错误则进行如下处理，具体为：若样本的内容不正确和/或无法识别，则标记为错误样本，若样本预设的类别标签不正确，则修正样本的类别标签。

进一步的，服务器完成对原始训练样本集的清洗过滤后，还可以将清洗后的原始训练样本集提交给人工审核，或者分配给其他客户端进行检查清洗结果的正确性，标记出清洗阶段被标记错误的样本，返回至清洗阶段重新进行清洗。若清洗结果符合期望则保留清洗结果，进行下一阶段的处理。可以理解的是，进行人工审核可以提高训练样本集中样本标注准确率，进而提高训练得到的神经网络识别模型的识别准确率。

步骤S12：所述第一客户端对所述原始训练样本集中的各个样本上的多个区域添加标注框，标注出各个区域的属性信息，并将各个样本的区域标注结果返回给所述服务器。

举例而言，对于类别为试题的样本，可以将试题分为题干部分、手写答案部分、图片部分，识别出各个部分并对各个部分所在区域添加标注框，同时标注出各个区域的属性信息，例如，题干部分所在区域的属性信息为题干，手写答案部分所在区域的属性信息为手写答案，图片部分所在区域的属性信息为图片。对于类别为发票的样本，样本中的区域可分为发票号码部分、开票金额部分等，发票号码部分所在区域的属性信息为发票号码，开篇金额部分的属性信息为开票金额。

在一种实现方式中，如果存在历史部署过的区域识别模型，则可以将该历史部署过的区域识别模型作为历史区域识别模型，此时所述第一客户端可以通过该历史区域识别模型对各个样本上的多个区域进行识别并添加标注框，标注出各个区域的属性信息。其中，历史区域识别模型可以为基于神经网络的模型，该历史区域识别模型的训练方法可以参见现有技术，在此不做赘述。

可选的，为消除历史区域识别模型识别出错造成标注错误，还可以以人工或者发送给其他客户端的方式检查各个区域的标注框位置、属性信息是否正确，如果错误则进行处理，处理方式包括：添加标注框，移除标注框，修正标注框大小、位置、角度、属性信息。例如，若题目样本中某一题目的题干区域没有被历史区域识别区域模型识别出来，则将该题干区域添加标注框以及属性信息；若题目样本中某一区域被添加了批注框，但是该区域不属于题干部分、手写答案部分、或者图片部分，则需要将该区域的批注框移除；若题目样本中某一批注框所框中的区域过大、过小，或者位置、角度有偏差，或者属性信息标注错误，则需要进行相应的修正。

在另一种实现方式中，若不存在历史部署过的区域识别模型，则可以进行人工标注，直接由人工对样本中的各个区域添加标注框以及标注对应的属性信息。

进一步的，第一客户端完成对各个样本的区域添加标注框后，还可以进行人工审核或者发送给其他客户端检查标注结果的正确性，以提高样本标注准确率，具体的，标记出第一客户端标注错误的样本，返回给第一客户端重新进行标注。若标注结果符合期望则保留标注结果，并提交给服务器，以进行下一阶段的处理。可以理解的是，进行审核可以提高训练样本集中样本标注准确率，进而提高训练得到的神经网络识别模型的识别准确率。

步骤S13：所述服务器根据所述第一客户端的区域标注结果，将各个标注框区域发送至第二客户端。

此步骤中，所述服务器可以对样本进行切割处理，根据所述第一客户端的区域标注结果，将各个标注框对应的区域切割为单独的区域图片，将切割后的各个区域图片发送至第二客户端。或者，也可以不进行切割，直接使用标注框区域内的数据(忽略其他部分数据，每次仅对单个标注框的内容进行识别)进行下一步操作。

需要说明的是，各个区域的标注框可能存在相互交叉的情况，例如大框套小框、部分框重叠。举例而言，以试卷样本为例，一张试卷的各个题目区域是大框，题目的题干部分、答案部分、图片部分、甚至每行题目内容是小框，进行切割时例如可以先将最小的区域部分(如每行题目内容)提取切割出来形成单独的区域图片，然后将稍大的区域部分(如题干和图片部分)提取切割出来形成单独的区域图片，最后将最大的区域部分(如整个题目内容)提取切割出来形成单独的区域图片。如果样本是票据的话，发票章的标注框也可能和多个区域的标注框重叠，进行切割时例如可以先将多个区域部分提取切割出来形成单独的区域图片，再将发票章部分提取切割出来形成单独的区域图片。对于其它类型的样本也是类似的切割处理方式，在此不做赘述。

步骤S14：所述第二客户端对各个标注框区域进行字符信息标注，并将各个标注框区域的字符标注结果返回给所述服务器。

举例而言，对于类别为试题的样本，需要识别出题干部分、手写答案部分的字符内容，对于类别为发票的样本，需要识别出发票号码部分、开票金额部分的字符内容，然后将识别出的字符内容标注在各个部分对应的标注框区域。

在一种实现方式中，如果存在历史部署过的字符识别模型，则可以将该历史部署过的字符识别模型作为历史字符识别模型，此时针对每一标注框区域，所述第二客户端可以通过该历史字符识别模型识别出该标注框区域内的字符信息，根据所识别出的字符信息对该标注框区域进行标注。其中，历史字符识别模型可以为基于神经网络的模型，该历史字符识别模型的训练方法可以参见现有技术，在此不做赘述。

可选的，为消除历史字符识别模型识别出错造成标注错误，还可以针对每一标注框区域，以人工或者发送给其他客户端的方式检查该标注框区域所标注的字符信息、标注位置是否正确，如果错误则进行处理，处理方式包括：修正标注的字符信息，标记无法识别字符信息的标注框区域。例如，若检查发现标注的字符信息错误，则对字符信息进行修正，若发现标注框区域内的字符信息无法识别，则将该标注框区域标记为无法识别字符信息的标注框区域。

在另一种实现方式中，若不存在历史部署过的字符识别模型，则可以进行人工标注，针对每一标注框区域，直接由人工对该标注框区域内的字符信息进行识别，并根据所识别出的字符信息对该标注框区域进行标注。

进一步的，第二客户端完成对各个标注框区域标注字符信息后，还可以进行人工审核或者发送给其他客户端检查标注结果的正确性，以提高样本标注准确率，具体的，标记出第二客户端标注错误的样本，返回给第二客户端重新进行标注。若标注结果符合期望则保留标注结果，并提交给服务器，以进行下一阶段的处理。可以理解的是，进行人工审核可以提高训练样本集中样本标注准确率，进而提高训练得到的神经网络识别模型的识别准确率。

可以理解的是，在得到第一客户端和第二客户端的标注结果后，即完成了对各个样本中区域和区域中字符的识别和标注，从而可以处理得到各个样本的标注结果，例如将第一客户端和第二客户端标注的信息进行合成，形成完整的标注信息图片。

相应于上述的训练样本集处理方法，本发明还提供了一种模型训练方法，包括如下步骤：

采用上述的训练样本集处理方法，对原始训练样本集进行处理得到目标训练样本集；

相应于上述的训练样本集处理方法，本发明提供了一种训练样本集处理系统，参见图2，该系统包括：服务器21、第一客户端22和第二客户端23，其中，

所述服务器21，用于获取原始训练样本集，将所述原始训练样本集发送至第一客户端22；

所述第一客户端22，用于对所述原始训练样本集中的各个样本上的多个区域添加标注框，标注出各个区域的属性信息，并将各个样本的区域标注结果返回给所述服务器21；

所述服务器21，还用于根据所述第一客户端的区域标注结果，将各个标注框区域发送至第二客户端23；

所述第二客户端23，用于对各个标注框区域进行字符信息标注，并将各个标注框区域的字符标注结果返回给所述服务器21；

所述服务器21，还用于结合所述第一客户端22返回的区域标注结果和所述第二客户端23返回的字符标注结果，处理得到各个样本的标注结果，完成对所述原始训练样本集的处理。

可选的，所述服务器21，还用于在将所述原始训练样本集发送至第一客户端22之前，通过历史样本类别识别模型对所述原始样本集进行清洗过滤，识别出各个样本的类别标签，清除无关类别的样本。

可选的，所述服务器21，还用于在将所述原始训练样本集发送至第一客户端22之前，对所述原始样本集进行清洗过滤，若样本的内容不正确和/或无法识别，则标记为错误样本，若样本预设的类别标签不正确，则修正样本的类别标签。

可选的，所述第一客户端22，具体用于通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框，标注出各个区域的属性信息。

可选的，所述第一客户端22，还用于检查各个区域的标注框位置、属性信息是否正确，如果错误则进行处理，处理方式包括：添加标注框，移除标注框，修正标注框大小、位置、角度、类型。

可选的，所述服务器21，具体用于根据所述第一客户端22的区域标注结果，将各个标注框对应的区域切割为单独的区域图片，将切割后的各个区域图片发送至第二客户端23。

可选的，所述第二客户端23，具体用于针对每一标注框区域，通过历史字符识别模型识别出该标注框区域内的字符信息，根据所识别出的字符信息对该标注框区域进行标注。

可选的，所述第二客户端23，还用于针对每一标注框区域，检查该标注框区域所标注的字符信息、标注位置是否正确，如果错误则进行处理，处理方式包括：修正标注的字符信息，标记无法识别字符信息的标注框区域。

相应于上述的训练样本集处理系统，本发明提供了一种模型训练系统，包括上述的训练样本集处理系统，其中

需要说明的是，本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种训练样本集处理方法，用于建立神经网络识别模型的训练样本集的处理，其特征在于，所述方法包括：

2.如权利要求1所述的训练样本集处理方法，其特征在于，在步骤S11服务器将所述原始训练样本集发送至第一客户端之前，通过历史样本类别识别模型对所述原始样本集进行清洗过滤，识别出各个样本的类别标签，清除无关类别的样本。

3.如权利要求1所述的训练样本集处理方法，其特征在于，在步骤S11服务器将所述原始训练样本集发送至第一客户端之前，对所述原始样本集进行清洗过滤，若样本的内容不正确和/或无法识别，则标记为错误样本，若样本预设的类别标签不正确，则修正样本的类别标签。

4.如权利要求1所述的训练样本集处理方法，其特征在于，步骤S12具体包括：

5.如权利要求4所述的训练样本集处理方法，其特征在于，步骤S12还包括：

6.如权利要求1所述的训练样本集处理方法，其特征在于，步骤S13具体包括：

7.如权利要求1所述的训练样本集处理方法，其特征在于，步骤S14具体包括：

8.如权利要求7所述的训练样本集处理方法，其特征在于，步骤S14还包括：

9.一种模型训练方法，其特征在于，包括：

采用如权利要求1-8任一项所述的训练样本集处理方法，对原始训练样本集进行处理得到目标训练样本集；

10.一种训练样本集处理系统，用于建立神经网络识别模型的训练样本集的处理，其特征在于，所述系统包括：服务器、第一客户端和第二客户端，其中，

11.如权利要求10所述的训练样本集处理系统，其特征在于，所述服务器，还用于在将所述原始训练样本集发送至第一客户端之前，通过历史样本类别识别模型对所述原始样本集进行清洗过滤，识别出各个样本的类别标签，清除无关类别的样本。

12.如权利要求10所述的训练样本集处理系统，其特征在于，所述服务器，还用于在将所述原始训练样本集发送至第一客户端之前，对所述原始样本集进行清洗过滤，若样本的内容不正确和/或无法识别，则标记为错误样本，若样本预设的类别标签不正确，则修正样本的类别标签。

13.如权利要求10所述的训练样本集处理系统，其特征在于，所述第一客户端，具体用于通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框，标注出各个区域的属性信息。

14.如权利要求13所述的训练样本集处理系统，其特征在于，所述第一客户端，还用于检查各个区域的标注框位置、属性信息是否正确，如果错误则进行处理，处理方式包括：添加标注框，移除标注框，修正标注框大小、位置、角度、类型。

15.如权利要求10所述的训练样本集处理系统，其特征在于，所述服务器，具体用于根据所述第一客户端的区域标注结果，将各个标注框对应的区域切割为单独的区域图片，将切割后的各个区域图片发送至第二客户端。

16.如权利要求10所述的训练样本集处理系统，其特征在于，所述第二客户端，具体用于针对每一标注框区域，通过历史字符识别模型识别出该标注框区域内的字符信息，根据所识别出的字符信息对该标注框区域进行标注。

17.如权利要求16所述的训练样本集处理方法，其特征在于，所述第二客户端，还用于针对每一标注框区域，检查该标注框区域所标注的字符信息、标注位置是否正确，如果错误则进行处理，处理方式包括：修正标注的字符信息，标记无法识别字符信息的标注框区域。

18.一种模型训练系统，其特征在于，包括如权利要求9-17任一项所述的训练样本集处理系统，其中，