CN109492549A - 一种训练样本集处理、模型训练方法及系统 - Google Patents

一种训练样本集处理、模型训练方法及系统 Download PDF

Info

Publication number
CN109492549A
CN109492549A CN201811246391.XA CN201811246391A CN109492549A CN 109492549 A CN109492549 A CN 109492549A CN 201811246391 A CN201811246391 A CN 201811246391A CN 109492549 A CN109492549 A CN 109492549A
Authority
CN
China
Prior art keywords
client
training sample
server
sample
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811246391.XA
Other languages
English (en)
Inventor
徐青松
李青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Glority Software Ltd
Original Assignee
Hangzhou Glority Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Glority Software Ltd filed Critical Hangzhou Glority Software Ltd
Priority to CN201811246391.XA priority Critical patent/CN109492549A/zh
Publication of CN109492549A publication Critical patent/CN109492549A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种训练样本集处理、模型训练方法及系统,训练样本集处理方法包括:服务器获取原始训练样本集,将原始训练样本集发送至第一客户端;第一客户端对原始训练样本集中的各个样本上的多个区域添加标注框,标注出各个区域的属性信息,并将各个样本的区域标注结果返回给服务器;服务器根据第一客户端的区域标注结果,将各个标注框区域发送至第二客户端;第二客户端对各个标注框区域进行字符信息标注,并将各个标注框区域的字符标注结果返回给服务器;服务器结合第一客户端返回的区域标注结果和第二客户端返回的字符标注结果,处理得到各个样本的标注结果,完成对原始训练样本集的处理。本发明的方案可以提高训练样本集中样本处理效率。

Description

一种训练样本集处理、模型训练方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种用于训练样本集处理、模型训练方法及系统。
背景技术
神经网络识别模型可用来进行区域识别,神经网络识别模型的建立需要通过包含大量样本的训练样本集进行训练。例如,对题目进行识别的神经网络识别模型需要通过包含大量题目样本的训练样本集进行训练得到,而对发票进行识别的神经网络识别模型需要通过对包含大量发票样本的训练样本集进行训练得到。
目前,在进行模型训练前,需要对训练样本集中各个样本进行处理,例如标注出样本中的关键区域以及区域内的字符信息,而对于包含大量样本的样本训练集,提供一种能够提高样本处理效率的训练样本集处理方法,是十分必要的。
发明内容
本发明的目的在于提供一种训练样本集处理、模型训练方法及系统,以提高训练样本集中样本处理效率。
为达到上述目的,本发明提供了一种训练样本集处理方法,用于建立神经网络识别模型的训练样本集的处理,所述方法包括:
步骤S11:服务器获取原始训练样本集,将所述原始训练样本集发送至第一客户端;
步骤S12:所述第一客户端对所述原始训练样本集中的各个样本上的多个区域添加标注框,标注出各个区域的属性信息,并将各个样本的区域标注结果返回给所述服务器;
步骤S13:所述服务器根据所述第一客户端的区域标注结果,将各个标注框区域发送至第二客户端;
步骤S14:所述第二客户端对各个标注框区域进行字符信息标注,并将各个标注框区域的字符标注结果返回给所述服务器;
步骤S15:所述服务器结合所述第一客户端返回的区域标注结果和所述第二客户端返回的字符标注结果,处理得到各个样本的标注结果,完成对所述原始训练样本集的处理。
可选的,在步骤S11服务器将所述原始训练样本集发送至第一客户端之前,通过历史样本类别识别模型对所述原始样本集进行清洗过滤,识别出各个样本的类别标签,清除无关类别的样本。
可选的,在步骤S11服务器将所述原始训练样本集发送至第一客户端之前,对所述原始样本集进行清洗过滤,若样本的内容不正确和/或无法识别,则标记为错误样本,若样本预设的类别标签不正确,则修正样本的类别标签。
可选的,步骤S12具体包括:
所述第一客户端通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框,标注出各个区域的属性信息。
可选的,步骤S12还包括:
检查各个区域的标注框位置、属性信息是否正确,如果错误则进行处理,处理方式包括:添加标注框,移除标注框,修正标注框大小、位置、角度、属性信息。
可选的,步骤S13具体包括:
所述服务器根据所述第一客户端的区域标注结果,将各个标注框对应的区域切割为单独的区域图片,将切割后的各个区域图片发送至第二客户端。
可选的,步骤S14具体包括:
针对每一标注框区域,所述第二客户端通过历史字符识别模型识别出该标注框区域内的字符信息,根据所识别出的字符信息对该标注框区域进行标注。
可选的,步骤S14还包括:
针对每一标注框区域,检查该标注框区域所标注的字符信息、标注位置是否正确,如果错误则进行处理,处理方式包括:修正标注的字符信息,标记无法识别字符信息的标注框区域。
本发明还提供了一种模型训练方法,包括:
采用如上述任一项所述的训练样本集处理方法,对原始训练样本集进行处理得到目标训练样本集;
所述服务器利用所述目标训练样本集对神经网络进行训练,得到神经网络模型。
本发明还提供了一种训练样本集处理系统,用于建立神经网络识别模型的训练样本集的处理,所述系统包括:服务器、第一客户端和第二客户端,其中,
所述服务器,用于获取原始训练样本集,将所述原始训练样本集发送至第一客户端;
所述第一客户端,用于对所述原始训练样本集中的各个样本上的多个区域添加标注框,标注出各个区域的属性信息,并将各个样本的区域标注结果返回给所述服务器;
所述服务器,还用于根据所述第一客户端的区域标注结果,将各个标注框区域发送至第二客户端;
所述第二客户端,用于对各个标注框区域进行字符信息标注,并将各个标注框区域的字符标注结果返回给所述服务器;
所述服务器,还用于结合所述第一客户端返回的区域标注结果和所述第二客户端返回的字符标注结果,处理得到各个样本的标注结果,完成对所述原始训练样本集的处理。
可选的,所述服务器,还用于在将所述原始训练样本集发送至第一客户端之前,通过历史样本类别识别模型对所述原始样本集进行清洗过滤,识别出各个样本的类别标签,清除无关类别的样本。
可选的,所述服务器,还用于在将所述原始训练样本集发送至第一客户端之前,对所述原始样本集进行清洗过滤,若样本的内容不正确和/或无法识别,则标记为错误样本,若样本预设的类别标签不正确,则修正样本的类别标签。
可选的,所述第一客户端,具体用于通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框,标注出各个区域的属性信息。
可选的,所述第一客户端,还用于检查各个区域的标注框位置、属性信息是否正确,如果错误则进行处理,处理方式包括:添加标注框,移除标注框,修正标注框大小、位置、角度、类型。
可选的,所述服务器,具体用于根据所述第一客户端的区域标注结果,将各个标注框对应的区域切割为单独的区域图片,将切割后的各个区域图片发送至第二客户端。
可选的,所述第二客户端,具体用于针对每一标注框区域,通过历史字符识别模型识别出该标注框区域内的字符信息,根据所识别出的字符信息对该标注框区域进行标注。
可选的,所述第二客户端,还用于针对每一标注框区域,检查该标注框区域所标注的字符信息、标注位置是否正确,如果错误则进行处理,处理方式包括:修正标注的字符信息,标记无法识别字符信息的标注框区域。
本发明还提供了一种模型训练系统,包括上述任一项所述的训练样本集处理系统,其中,
所述训练样本集处理系统,用于对原始训练样本集进行处理得到目标训练样本集;
所述训练样本集处理系统中的服务器,还用于利用所述目标训练样本集对神经网络进行训练,得到神经网络模型。
与现有技术相比,本发明利用服务器、第一客户端、第二客户端进行训练样本集的处理,其中第一客户端用于对样本上多个区域添加标注框,第二客户端用于对各个标注框区域进行字符信息标注,这种分步骤的流水线处理方式,相比于由同一设备执行全部处理步骤的方式,可以提高样本处理效率,尤其对于具有大量样本的训练样本集,可以大大缩短样本处理时间。
附图说明
图1是本发明一实施例提供的训练样本集处理方法的流程示意图;
图2是本发明一实施例提供的训练样本集处理系统的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的一种训练样本集处理、模型训练方法及系统作进一步详细说明。根据权利要求书和下面说明,本发明的优点和特征将更清楚。
为解决现有技术的问题,本发明实施例提供了一种训练样本集处理、模型训练方法及系统。
图1是本发明一实施例提供的一种训练样本集处理方法的流程示意图,可以包括如下步骤:
步骤S11:服务器获取原始训练样本集,将所述原始训练样本集发送至第一客户端。
服务器在将所述原始训练样本集发送至第一客户端之前,可以对原始训练样本集进行清洗过滤,清除无关样本。在一种实现方式中,如果存在历史部署过的样本类别识别模型,则可以将该历史部署过的样本类别识别模型作为历史样本类别识别模型,此时服务器可以通过该历史样本类别识别模型对所述原始样本集进行清洗过滤,识别出各个样本的类别标签,清除无关类别的样本。例如,原始样本训练集为训练题目识别模型的训练集,即原始样本训练集中各个样本的类别标签应该为题目,若原始样本训练集中混入类别标签为发票的样本,则该样本属于无关类别的样本,需要从原始样本训练集中清除。将原始训练样本集中各个样本输入该历史样本类别识别模型中,可以识别出各个样本的类别标签,若存在无关类别的样本,则将该样本清除,以提高训练样本集的准确度。其中,该历史样本类别识别模型可以为基于神经网络的模型,该历史样本类别识别模型的训练方法可以参见现有技术,在此不做赘述。
在另一种实现方式中,若不存在历史部署过的样本类别识别模型,则可以通过人工检查进行清洗,也可以分配给其它客户端进行清洗。具体而言,对所述原始样本集进行清洗过滤,检查每个分类下的样本预设标签是否正确,若错误则进行如下处理,具体为:若样本的内容不正确和/或无法识别,则标记为错误样本,若样本预设的类别标签不正确,则修正样本的类别标签。
进一步的,服务器完成对原始训练样本集的清洗过滤后,还可以将清洗后的原始训练样本集提交给人工审核,或者分配给其他客户端进行检查清洗结果的正确性,标记出清洗阶段被标记错误的样本,返回至清洗阶段重新进行清洗。若清洗结果符合期望则保留清洗结果,进行下一阶段的处理。可以理解的是,进行人工审核可以提高训练样本集中样本标注准确率,进而提高训练得到的神经网络识别模型的识别准确率。
步骤S12:所述第一客户端对所述原始训练样本集中的各个样本上的多个区域添加标注框,标注出各个区域的属性信息,并将各个样本的区域标注结果返回给所述服务器。
举例而言,对于类别为试题的样本,可以将试题分为题干部分、手写答案部分、图片部分,识别出各个部分并对各个部分所在区域添加标注框,同时标注出各个区域的属性信息,例如,题干部分所在区域的属性信息为题干,手写答案部分所在区域的属性信息为手写答案,图片部分所在区域的属性信息为图片。对于类别为发票的样本,样本中的区域可分为发票号码部分、开票金额部分等,发票号码部分所在区域的属性信息为发票号码,开篇金额部分的属性信息为开票金额。
在一种实现方式中,如果存在历史部署过的区域识别模型,则可以将该历史部署过的区域识别模型作为历史区域识别模型,此时所述第一客户端可以通过该历史区域识别模型对各个样本上的多个区域进行识别并添加标注框,标注出各个区域的属性信息。其中,历史区域识别模型可以为基于神经网络的模型,该历史区域识别模型的训练方法可以参见现有技术,在此不做赘述。
可选的,为消除历史区域识别模型识别出错造成标注错误,还可以以人工或者发送给其他客户端的方式检查各个区域的标注框位置、属性信息是否正确,如果错误则进行处理,处理方式包括:添加标注框,移除标注框,修正标注框大小、位置、角度、属性信息。例如,若题目样本中某一题目的题干区域没有被历史区域识别区域模型识别出来,则将该题干区域添加标注框以及属性信息;若题目样本中某一区域被添加了批注框,但是该区域不属于题干部分、手写答案部分、或者图片部分,则需要将该区域的批注框移除;若题目样本中某一批注框所框中的区域过大、过小,或者位置、角度有偏差,或者属性信息标注错误,则需要进行相应的修正。
在另一种实现方式中,若不存在历史部署过的区域识别模型,则可以进行人工标注,直接由人工对样本中的各个区域添加标注框以及标注对应的属性信息。
进一步的,第一客户端完成对各个样本的区域添加标注框后,还可以进行人工审核或者发送给其他客户端检查标注结果的正确性,以提高样本标注准确率,具体的,标记出第一客户端标注错误的样本,返回给第一客户端重新进行标注。若标注结果符合期望则保留标注结果,并提交给服务器,以进行下一阶段的处理。可以理解的是,进行审核可以提高训练样本集中样本标注准确率,进而提高训练得到的神经网络识别模型的识别准确率。
步骤S13:所述服务器根据所述第一客户端的区域标注结果,将各个标注框区域发送至第二客户端。
此步骤中,所述服务器可以对样本进行切割处理,根据所述第一客户端的区域标注结果,将各个标注框对应的区域切割为单独的区域图片,将切割后的各个区域图片发送至第二客户端。或者,也可以不进行切割,直接使用标注框区域内的数据(忽略其他部分数据,每次仅对单个标注框的内容进行识别)进行下一步操作。
需要说明的是,各个区域的标注框可能存在相互交叉的情况,例如大框套小框、部分框重叠。举例而言,以试卷样本为例,一张试卷的各个题目区域是大框,题目的题干部分、答案部分、图片部分、甚至每行题目内容是小框,进行切割时例如可以先将最小的区域部分(如每行题目内容)提取切割出来形成单独的区域图片,然后将稍大的区域部分(如题干和图片部分)提取切割出来形成单独的区域图片,最后将最大的区域部分(如整个题目内容)提取切割出来形成单独的区域图片。如果样本是票据的话,发票章的标注框也可能和多个区域的标注框重叠,进行切割时例如可以先将多个区域部分提取切割出来形成单独的区域图片,再将发票章部分提取切割出来形成单独的区域图片。对于其它类型的样本也是类似的切割处理方式,在此不做赘述。
步骤S14:所述第二客户端对各个标注框区域进行字符信息标注,并将各个标注框区域的字符标注结果返回给所述服务器。
举例而言,对于类别为试题的样本,需要识别出题干部分、手写答案部分的字符内容,对于类别为发票的样本,需要识别出发票号码部分、开票金额部分的字符内容,然后将识别出的字符内容标注在各个部分对应的标注框区域。
在一种实现方式中,如果存在历史部署过的字符识别模型,则可以将该历史部署过的字符识别模型作为历史字符识别模型,此时针对每一标注框区域,所述第二客户端可以通过该历史字符识别模型识别出该标注框区域内的字符信息,根据所识别出的字符信息对该标注框区域进行标注。其中,历史字符识别模型可以为基于神经网络的模型,该历史字符识别模型的训练方法可以参见现有技术,在此不做赘述。
可选的,为消除历史字符识别模型识别出错造成标注错误,还可以针对每一标注框区域,以人工或者发送给其他客户端的方式检查该标注框区域所标注的字符信息、标注位置是否正确,如果错误则进行处理,处理方式包括:修正标注的字符信息,标记无法识别字符信息的标注框区域。例如,若检查发现标注的字符信息错误,则对字符信息进行修正,若发现标注框区域内的字符信息无法识别,则将该标注框区域标记为无法识别字符信息的标注框区域。
在另一种实现方式中,若不存在历史部署过的字符识别模型,则可以进行人工标注,针对每一标注框区域,直接由人工对该标注框区域内的字符信息进行识别,并根据所识别出的字符信息对该标注框区域进行标注。
进一步的,第二客户端完成对各个标注框区域标注字符信息后,还可以进行人工审核或者发送给其他客户端检查标注结果的正确性,以提高样本标注准确率,具体的,标记出第二客户端标注错误的样本,返回给第二客户端重新进行标注。若标注结果符合期望则保留标注结果,并提交给服务器,以进行下一阶段的处理。可以理解的是,进行人工审核可以提高训练样本集中样本标注准确率,进而提高训练得到的神经网络识别模型的识别准确率。
步骤S15:所述服务器结合所述第一客户端返回的区域标注结果和所述第二客户端返回的字符标注结果,处理得到各个样本的标注结果,完成对所述原始训练样本集的处理。
可以理解的是,在得到第一客户端和第二客户端的标注结果后,即完成了对各个样本中区域和区域中字符的识别和标注,从而可以处理得到各个样本的标注结果,例如将第一客户端和第二客户端标注的信息进行合成,形成完整的标注信息图片。
与现有技术相比,本发明利用服务器、第一客户端、第二客户端进行训练样本集的处理,其中第一客户端用于对样本上多个区域添加标注框,第二客户端用于对各个标注框区域进行字符信息标注,这种分步骤的流水线处理方式,相比于由同一设备执行全部处理步骤的方式,可以提高样本处理效率,尤其对于具有大量样本的训练样本集,可以大大缩短样本处理时间。
相应于上述的训练样本集处理方法,本发明还提供了一种模型训练方法,包括如下步骤:
采用上述的训练样本集处理方法,对原始训练样本集进行处理得到目标训练样本集;
所述服务器利用所述目标训练样本集对神经网络进行训练,得到神经网络模型。
相应于上述的训练样本集处理方法,本发明提供了一种训练样本集处理系统,参见图2,该系统包括:服务器21、第一客户端22和第二客户端23,其中,
所述服务器21,用于获取原始训练样本集,将所述原始训练样本集发送至第一客户端22;
所述第一客户端22,用于对所述原始训练样本集中的各个样本上的多个区域添加标注框,标注出各个区域的属性信息,并将各个样本的区域标注结果返回给所述服务器21;
所述服务器21,还用于根据所述第一客户端的区域标注结果,将各个标注框区域发送至第二客户端23;
所述第二客户端23,用于对各个标注框区域进行字符信息标注,并将各个标注框区域的字符标注结果返回给所述服务器21;
所述服务器21,还用于结合所述第一客户端22返回的区域标注结果和所述第二客户端23返回的字符标注结果,处理得到各个样本的标注结果,完成对所述原始训练样本集的处理。
可选的,所述服务器21,还用于在将所述原始训练样本集发送至第一客户端22之前,通过历史样本类别识别模型对所述原始样本集进行清洗过滤,识别出各个样本的类别标签,清除无关类别的样本。
可选的,所述服务器21,还用于在将所述原始训练样本集发送至第一客户端22之前,对所述原始样本集进行清洗过滤,若样本的内容不正确和/或无法识别,则标记为错误样本,若样本预设的类别标签不正确,则修正样本的类别标签。
可选的,所述第一客户端22,具体用于通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框,标注出各个区域的属性信息。
可选的,所述第一客户端22,还用于检查各个区域的标注框位置、属性信息是否正确,如果错误则进行处理,处理方式包括:添加标注框,移除标注框,修正标注框大小、位置、角度、类型。
可选的,所述服务器21,具体用于根据所述第一客户端22的区域标注结果,将各个标注框对应的区域切割为单独的区域图片,将切割后的各个区域图片发送至第二客户端23。
可选的,所述第二客户端23,具体用于针对每一标注框区域,通过历史字符识别模型识别出该标注框区域内的字符信息,根据所识别出的字符信息对该标注框区域进行标注。
可选的,所述第二客户端23,还用于针对每一标注框区域,检查该标注框区域所标注的字符信息、标注位置是否正确,如果错误则进行处理,处理方式包括:修正标注的字符信息,标记无法识别字符信息的标注框区域。
相应于上述的训练样本集处理系统,本发明提供了一种模型训练系统,包括上述的训练样本集处理系统,其中
所述训练样本集处理系统,用于对原始训练样本集进行处理得到目标训练样本集;
所述训练样本集处理系统中的服务器,还用于利用所述目标训练样本集对神经网络进行训练,得到神经网络模型。
需要说明的是,本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (18)

1.一种训练样本集处理方法,用于建立神经网络识别模型的训练样本集的处理,其特征在于,所述方法包括:
步骤S11:服务器获取原始训练样本集,将所述原始训练样本集发送至第一客户端;
步骤S12:所述第一客户端对所述原始训练样本集中的各个样本上的多个区域添加标注框,标注出各个区域的属性信息,并将各个样本的区域标注结果返回给所述服务器;
步骤S13:所述服务器根据所述第一客户端的区域标注结果,将各个标注框区域发送至第二客户端;
步骤S14:所述第二客户端对各个标注框区域进行字符信息标注,并将各个标注框区域的字符标注结果返回给所述服务器;
步骤S15:所述服务器结合所述第一客户端返回的区域标注结果和所述第二客户端返回的字符标注结果,处理得到各个样本的标注结果,完成对所述原始训练样本集的处理。
2.如权利要求1所述的训练样本集处理方法,其特征在于,在步骤S11服务器将所述原始训练样本集发送至第一客户端之前,通过历史样本类别识别模型对所述原始样本集进行清洗过滤,识别出各个样本的类别标签,清除无关类别的样本。
3.如权利要求1所述的训练样本集处理方法,其特征在于,在步骤S11服务器将所述原始训练样本集发送至第一客户端之前,对所述原始样本集进行清洗过滤,若样本的内容不正确和/或无法识别,则标记为错误样本,若样本预设的类别标签不正确,则修正样本的类别标签。
4.如权利要求1所述的训练样本集处理方法,其特征在于,步骤S12具体包括:
所述第一客户端通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框,标注出各个区域的属性信息。
5.如权利要求4所述的训练样本集处理方法,其特征在于,步骤S12还包括:
检查各个区域的标注框位置、属性信息是否正确,如果错误则进行处理,处理方式包括:添加标注框,移除标注框,修正标注框大小、位置、角度、属性信息。
6.如权利要求1所述的训练样本集处理方法,其特征在于,步骤S13具体包括:
所述服务器根据所述第一客户端的区域标注结果,将各个标注框对应的区域切割为单独的区域图片,将切割后的各个区域图片发送至第二客户端。
7.如权利要求1所述的训练样本集处理方法,其特征在于,步骤S14具体包括:
针对每一标注框区域,所述第二客户端通过历史字符识别模型识别出该标注框区域内的字符信息,根据所识别出的字符信息对该标注框区域进行标注。
8.如权利要求7所述的训练样本集处理方法,其特征在于,步骤S14还包括:
针对每一标注框区域,检查该标注框区域所标注的字符信息、标注位置是否正确,如果错误则进行处理,处理方式包括:修正标注的字符信息,标记无法识别字符信息的标注框区域。
9.一种模型训练方法,其特征在于,包括:
采用如权利要求1-8任一项所述的训练样本集处理方法,对原始训练样本集进行处理得到目标训练样本集;
所述服务器利用所述目标训练样本集对神经网络进行训练,得到神经网络模型。
10.一种训练样本集处理系统,用于建立神经网络识别模型的训练样本集的处理,其特征在于,所述系统包括:服务器、第一客户端和第二客户端,其中,
所述服务器,用于获取原始训练样本集,将所述原始训练样本集发送至第一客户端;
所述第一客户端,用于对所述原始训练样本集中的各个样本上的多个区域添加标注框,标注出各个区域的属性信息,并将各个样本的区域标注结果返回给所述服务器;
所述服务器,还用于根据所述第一客户端的区域标注结果,将各个标注框区域发送至第二客户端;
所述第二客户端,用于对各个标注框区域进行字符信息标注,并将各个标注框区域的字符标注结果返回给所述服务器;
所述服务器,还用于结合所述第一客户端返回的区域标注结果和所述第二客户端返回的字符标注结果,处理得到各个样本的标注结果,完成对所述原始训练样本集的处理。
11.如权利要求10所述的训练样本集处理系统,其特征在于,所述服务器,还用于在将所述原始训练样本集发送至第一客户端之前,通过历史样本类别识别模型对所述原始样本集进行清洗过滤,识别出各个样本的类别标签,清除无关类别的样本。
12.如权利要求10所述的训练样本集处理系统,其特征在于,所述服务器,还用于在将所述原始训练样本集发送至第一客户端之前,对所述原始样本集进行清洗过滤,若样本的内容不正确和/或无法识别,则标记为错误样本,若样本预设的类别标签不正确,则修正样本的类别标签。
13.如权利要求10所述的训练样本集处理系统,其特征在于,所述第一客户端,具体用于通过历史区域识别模型对各个样本上的多个区域进行识别并添加标注框,标注出各个区域的属性信息。
14.如权利要求13所述的训练样本集处理系统,其特征在于,所述第一客户端,还用于检查各个区域的标注框位置、属性信息是否正确,如果错误则进行处理,处理方式包括:添加标注框,移除标注框,修正标注框大小、位置、角度、类型。
15.如权利要求10所述的训练样本集处理系统,其特征在于,所述服务器,具体用于根据所述第一客户端的区域标注结果,将各个标注框对应的区域切割为单独的区域图片,将切割后的各个区域图片发送至第二客户端。
16.如权利要求10所述的训练样本集处理系统,其特征在于,所述第二客户端,具体用于针对每一标注框区域,通过历史字符识别模型识别出该标注框区域内的字符信息,根据所识别出的字符信息对该标注框区域进行标注。
17.如权利要求16所述的训练样本集处理方法,其特征在于,所述第二客户端,还用于针对每一标注框区域,检查该标注框区域所标注的字符信息、标注位置是否正确,如果错误则进行处理,处理方式包括:修正标注的字符信息,标记无法识别字符信息的标注框区域。
18.一种模型训练系统,其特征在于,包括如权利要求9-17任一项所述的训练样本集处理系统,其中,
所述训练样本集处理系统,用于对原始训练样本集进行处理得到目标训练样本集;
所述训练样本集处理系统中的服务器,还用于利用所述目标训练样本集对神经网络进行训练,得到神经网络模型。
CN201811246391.XA 2018-10-24 2018-10-24 一种训练样本集处理、模型训练方法及系统 Pending CN109492549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811246391.XA CN109492549A (zh) 2018-10-24 2018-10-24 一种训练样本集处理、模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811246391.XA CN109492549A (zh) 2018-10-24 2018-10-24 一种训练样本集处理、模型训练方法及系统

Publications (1)

Publication Number Publication Date
CN109492549A true CN109492549A (zh) 2019-03-19

Family

ID=65691549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811246391.XA Pending CN109492549A (zh) 2018-10-24 2018-10-24 一种训练样本集处理、模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN109492549A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960808A (zh) * 2019-03-26 2019-07-02 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN110209849A (zh) * 2019-06-04 2019-09-06 北京字节跳动网络技术有限公司 用于标注关键点的方法和装置
CN110245716A (zh) * 2019-06-20 2019-09-17 杭州睿琪软件有限公司 样本标注审核方法及装置
CN110245087A (zh) * 2019-06-20 2019-09-17 杭州睿琪软件有限公司 用于样本审核的人工客户端的状态检查方法及装置
CN110610175A (zh) * 2019-08-06 2019-12-24 深圳市华付信息技术有限公司 一种ocr数据误标注清洗方法
CN112070224A (zh) * 2020-08-26 2020-12-11 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN112241749A (zh) * 2019-07-17 2021-01-19 上海高德威智能交通系统有限公司 字符识别模型训练方法、装置及设备
CN112699887A (zh) * 2020-12-30 2021-04-23 科大讯飞股份有限公司 一种获得数学对象标注模型、数学对象标注的方法和装置
CN113095603A (zh) * 2021-06-08 2021-07-09 易纳购科技(北京)有限公司 箱型预测方法、装置、计算机设备及存储介质
CN113160209A (zh) * 2021-05-10 2021-07-23 上海市建筑科学研究院有限公司 用于建筑外立面损伤检测的目标标注方法及目标识别方法
CN113177607A (zh) * 2021-05-21 2021-07-27 浙江大华技术股份有限公司 一种对训练对象的标注方法及客户端
CN113627191A (zh) * 2021-07-05 2021-11-09 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警样本语义自动化标注方法及系统
WO2022237215A1 (zh) * 2021-05-11 2022-11-17 华为云计算技术有限公司 模型训练方法、系统、设备及计算机可读存储介质
CN116543392A (zh) * 2023-04-19 2023-08-04 钛玛科(北京)工业科技有限公司 一种用于深度学习字符识别的标注方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002352192A (ja) * 2001-05-22 2002-12-06 Michiyo Nozu 画像認識システム、認識管理サーバ及びその制御方法、プログラム
CN101587478A (zh) * 2008-05-20 2009-11-25 株式会社理光 图像训练、自动标注、检索方法及装置
CN105260428A (zh) * 2015-09-29 2016-01-20 北京奇艺世纪科技有限公司 图片处理方法和装置
CN105447522A (zh) * 2015-11-25 2016-03-30 成都数联铭品科技有限公司 一种复杂图像文字识别系统
US20170060993A1 (en) * 2015-09-01 2017-03-02 Skytree, Inc. Creating a Training Data Set Based on Unlabeled Textual Data
CN107016387A (zh) * 2016-01-28 2017-08-04 苏宁云商集团股份有限公司 一种识别标签的方法及装置
CN107220648A (zh) * 2017-04-11 2017-09-29 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
US20180032842A1 (en) * 2016-07-26 2018-02-01 Intuit Inc. Performing optical character recognition using spatial information of regions within a structured document
CN108564035A (zh) * 2018-04-13 2018-09-21 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN108701029A (zh) * 2016-02-29 2018-10-23 奥林巴斯株式会社 图像处理装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002352192A (ja) * 2001-05-22 2002-12-06 Michiyo Nozu 画像認識システム、認識管理サーバ及びその制御方法、プログラム
CN101587478A (zh) * 2008-05-20 2009-11-25 株式会社理光 图像训练、自动标注、检索方法及装置
US20170060993A1 (en) * 2015-09-01 2017-03-02 Skytree, Inc. Creating a Training Data Set Based on Unlabeled Textual Data
CN105260428A (zh) * 2015-09-29 2016-01-20 北京奇艺世纪科技有限公司 图片处理方法和装置
CN105447522A (zh) * 2015-11-25 2016-03-30 成都数联铭品科技有限公司 一种复杂图像文字识别系统
CN107016387A (zh) * 2016-01-28 2017-08-04 苏宁云商集团股份有限公司 一种识别标签的方法及装置
CN108701029A (zh) * 2016-02-29 2018-10-23 奥林巴斯株式会社 图像处理装置
US20180032842A1 (en) * 2016-07-26 2018-02-01 Intuit Inc. Performing optical character recognition using spatial information of regions within a structured document
CN107220648A (zh) * 2017-04-11 2017-09-29 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN108564035A (zh) * 2018-04-13 2018-09-21 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
TAO WANG 等,: "End-to-end text recognition with convolutional neural networks", 《PROCEEDINGS OF THE 21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR2012)》 *
任俊玲,: "《脱机手写汉字识别若干关键技术研究》", 31 January 2013, 北京邮电大学出版社, *
张艳,: "票据自动处理系统中若干关键技术研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 *
朱燕: "基于图像标注的图像内容文字描述生成", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陆建 等,: "《家庭电脑学校——基础篇》", 30 April 2003, 上海科学技术出版社 *
陈雯柏 等,: "《人工神经网络原理与实践》", 31 January 2016, 西安电子科技大学出版社 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960808B (zh) * 2019-03-26 2023-02-07 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN109960808A (zh) * 2019-03-26 2019-07-02 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN110209849B (zh) * 2019-06-04 2022-03-25 北京字节跳动网络技术有限公司 用于标注关键点的方法和装置
CN110209849A (zh) * 2019-06-04 2019-09-06 北京字节跳动网络技术有限公司 用于标注关键点的方法和装置
CN110245716A (zh) * 2019-06-20 2019-09-17 杭州睿琪软件有限公司 样本标注审核方法及装置
CN110245087A (zh) * 2019-06-20 2019-09-17 杭州睿琪软件有限公司 用于样本审核的人工客户端的状态检查方法及装置
CN112241749A (zh) * 2019-07-17 2021-01-19 上海高德威智能交通系统有限公司 字符识别模型训练方法、装置及设备
CN110610175A (zh) * 2019-08-06 2019-12-24 深圳市华付信息技术有限公司 一种ocr数据误标注清洗方法
CN112070224B (zh) * 2020-08-26 2024-02-23 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN112070224A (zh) * 2020-08-26 2020-12-11 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN112699887A (zh) * 2020-12-30 2021-04-23 科大讯飞股份有限公司 一种获得数学对象标注模型、数学对象标注的方法和装置
CN113160209A (zh) * 2021-05-10 2021-07-23 上海市建筑科学研究院有限公司 用于建筑外立面损伤检测的目标标注方法及目标识别方法
WO2022237215A1 (zh) * 2021-05-11 2022-11-17 华为云计算技术有限公司 模型训练方法、系统、设备及计算机可读存储介质
CN113177607A (zh) * 2021-05-21 2021-07-27 浙江大华技术股份有限公司 一种对训练对象的标注方法及客户端
CN113177607B (zh) * 2021-05-21 2023-01-31 浙江大华技术股份有限公司 一种对训练对象的标注方法及客户端
CN113095603B (zh) * 2021-06-08 2021-09-21 易纳购科技(北京)有限公司 箱型预测方法、装置、计算机设备及存储介质
CN113095603A (zh) * 2021-06-08 2021-07-09 易纳购科技(北京)有限公司 箱型预测方法、装置、计算机设备及存储介质
CN113627191A (zh) * 2021-07-05 2021-11-09 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警样本语义自动化标注方法及系统
CN116543392A (zh) * 2023-04-19 2023-08-04 钛玛科(北京)工业科技有限公司 一种用于深度学习字符识别的标注方法
CN116543392B (zh) * 2023-04-19 2024-03-12 钛玛科(北京)工业科技有限公司 一种用于深度学习字符识别的标注方法

Similar Documents

Publication Publication Date Title
CN109492549A (zh) 一种训练样本集处理、模型训练方法及系统
CN105653444B (zh) 基于互联网日志数据的软件缺陷故障识别方法和系统
CN107766371A (zh) 一种文本信息分类方法及其装置
CN106960154A (zh) 一种基于决策树模型的恶意程序动态识别方法
CN110263166A (zh) 基于深度学习的舆情文本分类方法
CN109241894A (zh) 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN107704453A (zh) 一种文字语义分析方法、文字语义分析终端及存储介质
CN109492026A (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN106446882A (zh) 一种基于8字码的智能留痕阅卷方法
CN108334493A (zh) 一种基于神经网络的题目知识点自动提取方法
CN104376108B (zh) 一种基于6w语义标识的非结构化自然语言信息抽取方法
CN107465643A (zh) 一种深度学习的网络流量分类方法
CN108228788A (zh) 办事指南自动提取并关联的方法及电子设备
CN106547733A (zh) 一种面向特定文本的命名实体识别方法
CN103839078A (zh) 一种基于主动学习的高光谱图像分类方法
CN108829676A (zh) 基于文本分析技术的人才专业能力评估方法
CN103500216A (zh) 一种文件信息的提取方法
CN109992752A (zh) 合同文件的标签标记方法、装置、计算机装置及存储介质
CN109241527A (zh) 一种中文商品虚假评论数据集自动生成方法
CN107301411A (zh) 数学公式识别方法及装置
CN110516257A (zh) 一种基于边界识别与组合的裁判文书证据抽取方法
CN108536673A (zh) 新闻事件抽取方法及装置
CN1367446A (zh) 汉语个人简历信息处理系统和方法
CN103838739B (zh) 一种搜索引擎中纠错词的检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190319

RJ01 Rejection of invention patent application after publication