CN107392221B - 分类模型的训练方法、分类ocr识别结果的方法及装置 - Google Patents

分类模型的训练方法、分类ocr识别结果的方法及装置 Download PDF

Info

Publication number
CN107392221B
CN107392221B CN201710411604.9A CN201710411604A CN107392221B CN 107392221 B CN107392221 B CN 107392221B CN 201710411604 A CN201710411604 A CN 201710411604A CN 107392221 B CN107392221 B CN 107392221B
Authority
CN
China
Prior art keywords
picture
classification
ocr recognition
training
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710411604.9A
Other languages
English (en)
Other versions
CN107392221A (zh
Inventor
周列淳
岳智磊
刘泓
江岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thorgene Beijing Information Technology Co ltd
Original Assignee
Thorgene Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thorgene Beijing Information Technology Co ltd filed Critical Thorgene Beijing Information Technology Co ltd
Priority to CN201710411604.9A priority Critical patent/CN107392221B/zh
Publication of CN107392221A publication Critical patent/CN107392221A/zh
Application granted granted Critical
Publication of CN107392221B publication Critical patent/CN107392221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出一种分类模型的训练方法、分类OCR识别结果的方法及装置,其中,该用于分类OCR识别结果的分类模型的训练方法包括:获取训练图片的OCR识别结果,并提取训练图片的第一特征信息;获取与训练图片的OCR识别结果对应的第一分类标注数据;提取OCR识别结果的第二特征信息;根据第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。本发明的用于分类OCR识别结果的分类模型的训练方法,提供了一种建立分类OCR识别结果的分类模型的方法,准确建立了分类OCR识别结果的分类模型,方便后续根据该分类模型对图片的OCR识别结果进行分类。

Description

分类模型的训练方法、分类OCR识别结果的方法及装置
技术领域
本发明涉及图片技术领域,特别涉及一种分类模型的训练方法、分类OCR识别结果的方法及装置。
背景技术
目前,可通过光学字符识别(Optical Character Recognition,OCR)将图片中的文字识别出来。其中,光学字符识别(Optical Character Recognition,OCR)是指通过图像处理和模式识别技术对图片中的光学字符进行识别,并将光学字符翻译成计算机文字的过程。
相关技术中,在获取待识别的图片之后,通常通过OCR识别算法对待识别的图片进行识别,并直接将所获得的图片的OCR识别结果,并不对OCR识别结果的质量是否满足用户需求进行分类。然而,在一些情况中,返回的OCR识别结果中错误较多,并不能满足用户的需求。在对OCR识别结果进行分类的过程中,如何为用户提供一种准确对OCR识别结果进行分类的模型是准确分类OCR识别结果的关键因素。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种用于分类OCR识别结果的分类模型的训练方法,该方法提供了一种建立分类OCR识别结果的分类模型的方法,准确建立了分类OCR识别结果的分类模型,方便后续根据该分类模型对图片的OCR识别结果进行分类。
本发明的第二个目的在于提出一种分类OCR识别结果的方法。
本发明的第三个目的在于提出一种用于分类OCR识别结果的分类模型的训练装置。
本发明的第四个目的在于提出一种分类OCR识别结果的装置。
为达上述目的,本发明第一方面实施例提出了一种用于分类OCR识别结果的分类模型的训练方法,包括:获取训练图片的OCR识别结果,并提取所述训练图片的第一特征信息;获取与所述训练图片的OCR识别结果对应的第一分类标注数据;提取所述OCR识别结果的第二特征信息;根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。
本发明实施例的用于分类OCR识别结果的分类模型的训练方法,获取训练图片的OCR识别结果,并提取所述训练图片的第一特征信息,获取与所述训练图片的OCR识别结果对应的第一分类标注数据,提取所述OCR识别结果的第二特征信息,根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。由此,提供了一种建立分类OCR识别结果的分类模型的方法,准确建立了分类OCR识别结果的分类模型,方便后续根据该分类模型对图片的OCR识别结果进行分类。
为达上述目的,本发明第二方面实施例提出了一种使用本发明第一方面实施例所述的分类模型分类OCR识别结果的方法,包括:获取待处理图片的OCR识别结果,并提取所述待处理图片的第五特征信息;提取所述待处理图片的OCR识别结果的第六特征信息;将所述第五特征信息和所述第六特征信息输入至所述分类模型,以通过所述分类模型生成所述待处理图片的分类结果;根据所述待处理图片的分类结果确定是否将所述待处理图片的OCR识别结果提供给用户。
本发明实施例的分类OCR识别结果的方法,获取待处理图片的OCR识别结果,并提取待处理图片的第五特征信息,提取待处理图片的OCR识别结果的第六特征信息,将第五特征信息和第六特征信息输入至分类模型,以通过分类模型生成待处理图片的分类结果,根据待处理图片的分类结果确定是否将待处理图片的OCR识别结果提供给用户。由此,通过对待处理图片的OCR识别结果进行分类,可将质量满足要求的OCR识别结果提供给用户,避免了返回错误较多的OCR识别结果对用户造成干扰。另外,在根据待处理图片的分类结果确定待处理图片的OCR识别结果不适合提供给用户后,方便后续通过其他方式对待处理图片的OCR识别结果进行修正。
为达上述目的,本发明第三方面实施例提出了一种用于分类OCR识别结果的分类模型的训练装置,包括:第一获取模块,用于获取训练图片的OCR识别结果,并提取所述训练图片的第一特征信息;第二获取模块,用于获取与所述训练图片的OCR识别结果对应的第一分类标注数据;第一提取模块,用于所述OCR识别结果的第二特征信息;训练模块,用于根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。
本发明实施例的用于分类OCR识别结果的分类模型的训练装置,获取训练图片的OCR识别结果,并提取所述训练图片的第一特征信息,获取与所述训练图片的OCR识别结果对应的第一分类标注数据,提取所述OCR识别结果的第二特征信息,根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。由此,提供了一种建立分类OCR识别结果的分类模型的方法,准确建立了分类OCR识别结果的分类模型,方便后续根据该分类模型对图片的OCR识别结果进行分类。
为达上述目的,本发明第四方面实施例提出了一种使用本发明第三方面实施例所述的类模型分类OCR识别结果的装置,包括:第五获取模块,用于获取待处理图片的OCR识别结果,并提取所述待处理图片的第五特征信息;第三提取模块,用于提取所述待处理图片的OCR识别结果的第六特征信息;第二生成模块,用于将所述第五特征信息和所述第六特征信息输入至所述分类模型,以通过所述分类模型生成所述待处理图片的分类结果;第二处理模块,用于根据所述待处理图片的分类结果确定是否将所述待处理图片的OCR识别结果提供给用户。
本发明实施例的分类OCR识别结果的装置,获取待处理图片的OCR识别结果,并提取待处理图片的第五特征信息,提取待处理图片的OCR识别结果的第六特征信息,将第五特征信息和第六特征信息输入至分类模型,以通过分类模型生成待处理图片的分类结果,根据待处理图片的分类结果确定是否将待处理图片的OCR识别结果提供给用户。由此,通过对待处理图片的OCR识别结果进行分类,可将质量满足要求的OCR识别结果提供给用户,避免了返回错误较多的OCR识别结果对用户造成干扰。另外,在根据待处理图片的分类结果确定待处理图片的OCR识别结果不适合提供给用户后,方便后续通过其他方式对待处理图片的OCR识别结果进行修正。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的用于分类OCR识别结果的分类模型的训练方法的流程图;
图2为根据本发明另一个实施例的用于分类OCR识别结果的分类模型的训练方法的流程图;
图3为根据本发明一个实施例的分类OCR识别结果的方法的流程图;
图4为根据本发明一个实施例的用于分类OCR识别结果的分类模型的训练装置的结构示意图;
图5为根据本发明另一个实施例的用于分类OCR识别结果的分类模型的训练装置的结构示意图;
图6为根据本发明一个实施例的分类OCR识别结果的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面参考附图描述根据本发明实施例的分类模型的训练方法、分类OCR识别结果的方法及装置。
图1为根据本发明一个实施例的用于分类OCR识别结果的分类模型的训练方法的流程图。
如图1所示,根据本发明实施例的用于分类OCR识别结果的分类模型的训练方法,包括以下步骤。
S11,获取训练图片的OCR识别结果,并提取训练图片的第一特征信息。
具体地,获取大量的训练图片,并使用OCR识别算法对训练图片进行OCR识别,以获取训练图片的OCR识别结果。
另外,在获取大量的训练图片后,可提取训练图片的第一特征信息。
其中,第一特征信息为训练图片的特征信息。
其中,第一特征信息可以包括形态学特征和纹理特征。
其中,形态学特征可以包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度等特征。
其中,纹理特征可以包括小梯度优势、大梯度优势、灰度分布的不均匀性、梯度分布的不均匀性、灰度平均、梯度平均、灰度均方差,梯度均方差、是否有模糊等特征。
S12,获取与训练图片的OCR识别结果对应的第一分类标注数据。
其中,第一分类标注数据是由人工对训练图片的OCR识别结果进行分类标注。
其中,OCR识别结果的分类分为第一类和第二类,第一类和第二类是根据OCR识别结果是否满足预设条件进行划分的,如果OCR识别结果满足预设条件,则将对应的OCR识别结果的类型标注为第一类,否则,将对应的将对应的OCR识别结果的类型标注为第二类。
举例而言,预设条件为缺项少于5项,错字别字少于20个,对于一个训练图片的OCR识别结果,如果该训练图片的OCR识别结果满足预设条件,则将该训练图片标注为第一类,否则标注为第二类。
其中,需要说明的是,属于第一类的OCR识别结果的错误较少。属于第二类的OCR识别结果的错误较多,对于错误较多的OCR识别结果,返回给用户之后,并不能为用户带来有益的效果。
S13,提取OCR识别结果的第二特征信息。
其中,第二特征信息可以包括数据表块(table block)数、正文块(text block)数、字符数、疑惑字符数、字库匹配相似度大于>0.8的数目、检测项和字库匹配相似度大于0.7的数目、检测项和字库匹配相似度大于0.5的数目、检测项和词库不匹配的字符数,怪异字符数等。
S14,根据第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。
在获取第一特征信息、第二特征信息和第一分类标注数据后,可通过多种方式根据第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。举例说明如下:
作为一种示例性的实施方式,可基于C4.5决策树算法,对第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。
作为一种示例性的实施方式,可基于逻辑回归算法,对第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。
本发明实施例的用于分类OCR识别结果的分类模型的训练方法,获取训练图片的OCR识别结果,并提取所述训练图片的第一特征信息,获取与所述训练图片的OCR识别结果对应的第一分类标注数据,提取所述OCR识别结果的第二特征信息,根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。由此,提供了一种建立分类OCR识别结果的分类模型的方法,准确建立了分类OCR识别结果的分类模型,方便后续根据该分类模型对图片的OCR识别结果进行分类。
基于上述实施例的基础上,在根据第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型之后,如图2所示,该方法还可以包括:
S21,获取测试图片的OCR识别结果,并提取测试图片的第三特征信息。
其中,第三特征信息可以包括形态学特征和纹理特征。
其中,形态学特征可以包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度等特征。
其中,纹理特征可以包括小梯度优势、大梯度优势、灰度分布的不均匀性、梯度分布的不均匀性、灰度平均、梯度平均、灰度均方差,梯度均方差、是否有模糊等特征。
S22,获取与测试图片的OCR识别结果对应的第二分类标注数据。
S23,提取测试图片的OCR识别结果的第四特征信息。
其中,第四特征信息可以包括但不限于数据表块(table block)数、正文块(textblock)数、字符数、疑惑字符数、字库匹配相似度大于0.8的数目、检测项和字库匹配相似度大于0.7的数目、检测项和字库匹配相似度大于0.5的数目、检测项和词库不匹配的字符数,怪异字符数等。
S24,将第三特征信息和第四特征信息输入至分类模型,以通过分类模型生成测试图片的分类结果。
S25,根据测试图片的分类结果和第二分类标注数据计算分类模型分类的准确度。
S26,判断分类模型分类的准确度是否超过预设阈值。
其中,预设阈值是预先设置的准确度的阈值。
S27,若否,则重新训练分类模型,直至分类模型分类的准确度超过预设阈值。
另外,需要理解的是,如果判断分类模型分类的准确度超过预设阈值,则直接使用该分类模型对待处理图片的OCR识别结果进行分类。
在本发明的一个实施例中,在判断出分类模型分类的准确度未超过预设阈值时,获取人工标注的信息和用分类模型预测得出的模型不一致的测试图片,然后对这些所获取的人工标注的信息和用模型预测得出的模型不一致的测试图片进行分析,以根据分析结果确定出用于训练分类模型的新特征,例如,原先训练分类模型的为第一特征信息和第二特征信息,如果通过分析这些所获取的人工标注的信息和用模型预测得出的模型不一致的测试图片确定图片像素、图片大小、是否包含易错字等新特征与训练分类模型有关,此时,可结合新特征、第一特征信息和第二特征信息重新对分类模型进行训练,以生成更新后的分类模型,提供分类模型的分类准确度。
综上可以看出,该实施例通过训练图片训练出分类模型后,通过测试图片对分类模型的准确度进行验证,以获取准确度超过预设阈值的分类模型,以提高后续在使用该分类模型对图片的OCR识别结果进行分类的准确度。
图3为根据本发明一个实施例的分类OCR识别结果的方法的流程图。其中,需要说明的是,本发明实施例的分类OCR识别结果的方法所使用的分类模型是由前述实施例的用于分类OCR识别结果的分类模型的训练方法所生成的。
如图3所示,该分类OCR识别结果的方法可以包括以下步骤:
S31,获取待处理图片的OCR识别结果,并提取待处理图片的第五特征信息。
其中,第五特征信息可以包括形态学特征和纹理特征。
其中,形态学特征可以包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度等特征。
其中,纹理特征可以包括小梯度优势、大梯度优势、灰度分布的不均匀性、梯度分布的不均匀性、灰度平均、梯度平均、灰度均方差,梯度均方差、是否有模糊等特征。
S32,提取待处理图片的OCR识别结果的第六特征信息。
其中,第六特征信息可以包括数据表块(table block)数、正文块(text block)数、字符数、疑惑字符数、字库匹配相似度大于>0.8的数目、检测项和字库匹配相似度大于0.7的数目、检测项和字库匹配相似度大于0.5的数目、检测项和词库不匹配的字符数,怪异字符数。
S33,将第五特征信息和第六特征信息输入至分类模型,以通过分类模型生成待处理图片的分类结果。
S34,根据待处理图片的分类结果确定是否将待处理图片的OCR识别结果提供给用户。
其中,待处理图片的分类结果可以包括第一类和第二类。
其中,属于第一类的OCR识别结果中错误较少,OCR识别结果的总体评分大于或者等于预设分数。也就是说,属于第一类的OCR识别结果的质量满足要求,可以返给用户。
其中,属于第二类的OCR识别结果错误较多,OCR识别结果的总体评分小于预设分数。也就是说,属于第二类的OCR识别结果的质量不满足返回给用户的要求。
具体地,在获取待处理图片的分类结果,如果根据分类结果确定待处理图片的OCR识别结果属于第一类,则确定待处理图片的OCR识别结果满足返回给用户的要求,并将待处理图片的OCR识别结果提供给用户。
另外,如果根据分类结果确定待处理的OCR识别结果属于第二类,则确定待处理图片的OCR识别结果不满足返回给用户的要求,此时,可对待处理图片的OCR识别结果进行修正,以使修正后的OCR识别结果满足要求,并将修正后的OCR识别结果提供给用户。
作为一种示例性的实施方式,可通过人工方式对OCR识别结果进行修正,或者,对待处理图片进行处理,以提高待处理图片的图片质量。
本发明实施例的分类OCR识别结果的方法,获取待处理图片的OCR识别结果,并提取待处理图片的第五特征信息,提取待处理图片的OCR识别结果的第六特征信息,将第五特征信息和第六特征信息输入至分类模型,以通过分类模型生成待处理图片的分类结果,根据待处理图片的分类结果确定是否将待处理图片的OCR识别结果提供给用户。由此,通过对待处理图片的OCR识别结果进行分类,可将质量满足要求的OCR识别结果提供给用户,避免了返回错误较多的OCR识别结果对用户造成干扰。另外,在根据待处理图片的分类结果确定待处理图片的OCR识别结果不适合提供给用户后,方便后续通过其他方式对待处理图片的OCR识别结果进行修正。
为了实现上述实施例,本发明还提出了一种用于分类OCR识别结果的分类模型的训练装置。
图4为根据本发明一个实施例的用于分类OCR识别结果的分类模型的训练装置的结构示意图。
如图4所示,该用于分类OCR识别结果的分类模型的训练装置包括第一获取模块111、第二获取模块112、第一提取模块113和训练模块114,其中:
第一获取模块111用于获取训练图片的OCR识别结果,并提取训练图片的第一特征信息。
其中,第一特征信息可以包括形态学特征和纹理特征。
其中,形态学特征可以包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度等特征。
其中,纹理特征可以包括小梯度优势、大梯度优势、灰度分布的不均匀性、梯度分布的不均匀性、灰度平均、梯度平均、灰度均方差,梯度均方差、是否有模糊等特征。
第二获取模块112用于获取与训练图片的OCR识别结果对应的第一分类标注数据。
第一提取模块113用于OCR识别结果的第二特征信息。
其中,第二特征信息可以包括数据表块(table block)数、正文块(text block)数、字符数、疑惑字符数、字库匹配相似度大于>0.8的数目、检测项和字库匹配相似度大于0.7的数目、检测项和字库匹配相似度大于0.5的数目、检测项和词库不匹配的字符数,怪异字符数等。
训练模块114用于根据第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。
在本发明的一个实施例中,训练模块114具体用于:
基于C4.5决策树算法,对第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。
在本发明的一个实施例中,训练模块114具体用于:
基于逻辑回归算法,对第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。
在本发明的一个实施例中,在图4所示的基础上,如图5所示,该装置还可以包括第三获取模块115、第四获取模块116、第一提取模块117、第一生成模块118、计算模块119、判断模块120和第一处理模块121,其中:
第三获取模块115用于获取测试图片的OCR识别结果,并提取测试图片的第三特征信息。
其中,第三特征信息可以包括形态学特征和纹理特征。
其中,形态学特征可以包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度等特征。
其中,纹理特征可以包括小梯度优势、大梯度优势、灰度分布的不均匀性、梯度分布的不均匀性、灰度平均、梯度平均、灰度均方差,梯度均方差、是否有模糊等特征。
第四获取模块116用于获取与测试图片的OCR识别结果对应的第二分类标注数据。
第一提取模块117用于提取测试图片的OCR识别结果的第四特征信息。
其中,第四特征信息可以包括但不限于数据表块(table block)数、正文块(textblock)数、字符数、疑惑字符数、字库匹配相似度大于0.8的数目、检测项和字库匹配相似度大于0.7的数目、检测项和字库匹配相似度大于0.5的数目、检测项和词库不匹配的字符数,怪异字符数等。
第一生成模块118用于将第三特征信息和第四特征信息输入至分类模型,以通过分类模型生成测试图片的分类结果。
计算模块119用于根据测试图片的分类结果和第二分类标注数据计算分类模型分类的准确度。
判断模块120用于判断分类模型分类的准确度是否超过预设阈值。
第一处理模块121用于在判断分类模型分类的准确度未超过预设阈值时,重新训练分类模型,直至分类模型分类的准确度超过预设阈值。
其中,需要说明的是,前述对用于分类OCR识别结果的分类模型的训练方法实施例的解释说明也适用于该实施例的用于分类OCR识别结果的分类模型的训练装置,此处不再赘述。
本发明实施例的用于分类OCR识别结果的分类模型的训练装置,获取训练图片的OCR识别结果,并提取所述训练图片的第一特征信息,获取与所述训练图片的OCR识别结果对应的第一分类标注数据,提取所述OCR识别结果的第二特征信息,根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型。由此,提供了一种建立分类OCR识别结果的分类模型的方法,准确建立了分类OCR识别结果的分类模型,方便后续根据该分类模型对图片的OCR识别结果进行分类。
为了实现上述实施例,本发明还提出了一种分类OCR识别结果的装置。
图6为根据本发明一个实施例的分类OCR识别结果的装置的结构示意图。需要说明的是,本发明实施例的分类OCR识别结果的装置所使用的分类模型是由上述任一个实施例的用于分类OCR识别结果的分类模型的训练装置所生成的。
如图6所示,该分类OCR识别结果的装置可以包括第五获取模块210、第三提取模块220、第二生成模块230和第二处理模块240,其中:
第五获取模块210用于获取待处理图片的OCR识别结果,并提取待处理图片的第五特征信息。
其中,第五特征信息可以包括形态学特征和纹理特征。
其中,形态学特征可以包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度等特征。
其中,纹理特征可以包括小梯度优势、大梯度优势、灰度分布的不均匀性、梯度分布的不均匀性、灰度平均、梯度平均、灰度均方差,梯度均方差、是否有模糊等特征。
第三提取模块220用于提取待处理图片的OCR识别结果的第六特征信息。
其中,第六特征信息可以包括数据表块(table block)数、正文块(text block)数、字符数、疑惑字符数、字库匹配相似度大于>0.8的数目、检测项和字库匹配相似度大于0.7的数目、检测项和字库匹配相似度大于0.5的数目、检测项和词库不匹配的字符数,怪异字符数。
第二生成模块230用于将第五特征信息和第六特征信息输入至分类模型,以通过分类模型生成待处理图片的分类结果。
第二处理模块240用于根据待处理图片的分类结果确定是否将待处理图片的OCR识别结果提供给用户。
需要说明的是,前述对分类OCR识别结果的方法实施例的解释说明也适用于该实施例的分类OCR识别结果的装置,此处不再赘述。
本发明实施例的分类OCR识别结果的装置,获取待处理图片的OCR识别结果,并提取待处理图片的第五特征信息,提取待处理图片的OCR识别结果的第六特征信息,将第五特征信息和第六特征信息输入至分类模型,以通过分类模型生成待处理图片的分类结果,根据待处理图片的分类结果确定是否将待处理图片的OCR识别结果提供给用户。由此,通过对待处理图片的OCR识别结果进行分类,可将质量满足要求的OCR识别结果提供给用户,避免了返回错误较多的OCR识别结果对用户造成干扰。另外,在根据待处理图片的分类结果确定待处理图片的OCR识别结果不适合提供给用户后,方便后续通过其他方式对待处理图片的OCR识别结果进行修正。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种用于分类OCR识别结果的分类模型的训练方法,其特征在于,包括以下步骤:
获取训练图片的OCR识别结果,并提取所述训练图片的第一特征信息,其中,所述训练图片的第一特征信息包括所述训练图片的形态学特征和纹理特征;
获取与所述训练图片的OCR识别结果对应的第一分类标注数据,其中,所述第一分类标注数据是由人工对训练图片的OCR识别结果进行分类标注;
提取所述OCR识别结果的第二特征信息,其中,所述第二特征信息包括所述训练图片的OCR识别结果中的字符特征信息;
根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型;
在根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型之后,所述方法还包括:
获取测试图片的OCR识别结果,并提取所述测试图片的第三特征信息,所述测试图片的第三特征信息包括所述测试图片的形态学特征和纹理特征;
获取与所述测试图片的OCR识别结果对应的第二分类标注数据,其中,所述第二分类标注数据是由人工对所述测试图片的OCR识别结果进行分类标注;
提取所述测试图片的OCR识别结果的第四特征信息,其中,所述第四特征信息包括所述测试图片的OCR识别结果中的字符特征信息;
将所述第三特征信息和所述第四特征信息输入至所述分类模型,以通过所述分类模型生成所述测试图片的分类结果;
根据所述测试图片的分类结果和第二分类标注数据计算所述分类模型分类的准确度;
判断所述分类模型分类的准确度是否超过预设阈值;
若否,则重新训练所述分类模型,直至所述分类模型分类的准确度超过预设阈值。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型,包括:
基于C4.5决策树算法,对所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成所述分类模型。
3.如权利要求1所述的方法,其特征在于,所述根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型,包括:
基于逻辑回归算法,对所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成所述分类模型。
4.一种使用如权利要求1所述的分类模型分类OCR识别结果的方法,其特征在于,包括以下步骤:
获取待处理图片的OCR识别结果,并提取所述待处理图片的第五特征信息,其中,所述待处理图片的第五特征信息包括所述待处理图片的形态学特征和纹理特征;
提取所述待处理图片的OCR识别结果的第六特征信息,所述第六特征信息包括所述OCR识别结果的字符特征信息;
将所述第五特征信息和所述第六特征信息输入至所述分类模型,以通过所述分类模型生成所述待处理图片的分类结果;
根据所述待处理图片的分类结果确定是否将所述待处理图片的OCR识别结果提供给用户。
5.一种用于分类OCR识别结果的分类模型的训练装置,其特征在于,包括:
第一获取模块,用于获取训练图片的OCR识别结果,并提取所述训练图片的第一特征信息,其中,所述训练图片的第一特征信息包括所述训练图片的形态学特征和纹理特征;
第二获取模块,用于获取与所述训练图片的OCR识别结果对应的第一分类标注数据,其中,所述第一分类标注数据是由人工对训练图片的OCR识别结果进行分类标注;
第一提取模块,用于所述OCR识别结果的第二特征信息,其中,所述第二特征信息包括所述训练图片的OCR识别结果中的字符特征信息;
训练模块,用于根据所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成分类模型;
所述装置还包括:
第三获取模块,用于获取测试图片的OCR识别结果,并提取所述测试图片的第三特征信息;
第四获取模块,用于获取与所述测试图片的OCR识别结果对应的第二分类标注数据,所述测试图片的第三特征信息包括所述测试图片的形态学特征和纹理特征;
第一提取模块,用于提取所述测试图片的OCR识别结果的第四特征信息,其中,所述第四特征信息包括所述测试图片的OCR识别结果中的字符特征信息;
第一生成模块,用于将所述第三特征信息和所述第四特征信息输入至所述分类模型,以通过所述分类模型生成所述测试图片的分类结果;
计算模块,用于根据所述测试图片的分类结果和第二分类标注数据计算所述分类模型分类的准确度;
判断模块,用于判断所述分类模型分类的准确度是否超过预设阈值;
第一处理模块,用于在判断所述分类模型分类的准确度未超过预设阈值时,重新训练所述分类模型,直至所述分类模型分类的准确度超过预设阈值。
6.如权利要求5所述的装置,其特征在于,所述训练模块,具体用于:
基于C4.5决策树算法,对所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成所述分类模型。
7.如权利要求5所述的装置,其特征在于,所述训练模块,具体用于:
基于逻辑回归算法,对所述第一特征信息、第二特征信息和第一分类标注数据进行训练,以生成所述分类模型。
8.一种使用如权利要求5-7中任一项所述的分类模型分类OCR识别结果的装置,其特征在于,包括:
第五获取模块,用于获取待处理图片的OCR识别结果,并提取所述待处理图片的第五特征信息,其中,所述训练图片的第一特征信息包括所述训练图片的形态学特征和纹理特征;
第三提取模块,用于提取所述待处理图片的OCR识别结果的第六特征信息,所述第六特征信息包括所述OCR识别结果的字符特征信息;
第二生成模块,用于将所述第五特征信息和所述第六特征信息输入至所述分类模型,以通过所述分类模型生成所述待处理图片的分类结果;
第二处理模块,用于根据所述待处理图片的分类结果确定是否将所述待处理图片的OCR识别结果提供给用户。
CN201710411604.9A 2017-06-05 2017-06-05 分类模型的训练方法、分类ocr识别结果的方法及装置 Active CN107392221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710411604.9A CN107392221B (zh) 2017-06-05 2017-06-05 分类模型的训练方法、分类ocr识别结果的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710411604.9A CN107392221B (zh) 2017-06-05 2017-06-05 分类模型的训练方法、分类ocr识别结果的方法及装置

Publications (2)

Publication Number Publication Date
CN107392221A CN107392221A (zh) 2017-11-24
CN107392221B true CN107392221B (zh) 2020-09-22

Family

ID=60331870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710411604.9A Active CN107392221B (zh) 2017-06-05 2017-06-05 分类模型的训练方法、分类ocr识别结果的方法及装置

Country Status (1)

Country Link
CN (1) CN107392221B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685100B (zh) * 2018-11-12 2024-05-10 平安科技(深圳)有限公司 字符识别方法、服务器及计算机可读存储介质
CN109271977A (zh) * 2018-11-23 2019-01-25 四川长虹电器股份有限公司 票据自动分类训练方法、装置及自动分类方法、装置
CN111259918B (zh) * 2018-11-30 2023-06-20 重庆小雨点小额贷款有限公司 一种意图标签的标注方法、装置、服务器及存储介质
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN112667831B (zh) * 2020-12-25 2022-08-05 上海硬通网络科技有限公司 素材存储方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467564A (zh) * 2010-11-12 2012-05-23 中国科学院烟台海岸带研究所 一种基于改进支持向量机相关反馈的遥感图像检索方法
CN104915668A (zh) * 2015-05-29 2015-09-16 深圳泓数科技有限公司 医学影像中的文字信息识别方法及装置
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN105930844A (zh) * 2016-04-20 2016-09-07 西北工业大学 提高纸质医疗化验单手机扫描识别率的方法
CN106778722A (zh) * 2016-11-25 2017-05-31 天方创新(北京)信息技术有限公司 图片处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467564A (zh) * 2010-11-12 2012-05-23 中国科学院烟台海岸带研究所 一种基于改进支持向量机相关反馈的遥感图像检索方法
CN104915668A (zh) * 2015-05-29 2015-09-16 深圳泓数科技有限公司 医学影像中的文字信息识别方法及装置
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN105930844A (zh) * 2016-04-20 2016-09-07 西北工业大学 提高纸质医疗化验单手机扫描识别率的方法
CN106778722A (zh) * 2016-11-25 2017-05-31 天方创新(北京)信息技术有限公司 图片处理方法及装置

Also Published As

Publication number Publication date
CN107392221A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107392221B (zh) 分类模型的训练方法、分类ocr识别结果的方法及装置
CN106156766B (zh) 文本行分类器的生成方法及装置
WO2019169532A1 (zh) 车牌识别方法及云系统
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
US10395136B2 (en) Image processing apparatus, image processing method, and recording medium
CN108733778B (zh) 对象的行业类型识别方法和装置
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
US8606022B2 (en) Information processing apparatus, method and program
CN107273883B (zh) 决策树模型训练方法、确定ocr结果中数据属性方法及装置
US10043071B1 (en) Automated document classification
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
CN107480585B (zh) 基于dpm算法的目标检测方法
CN107886066A (zh) 一种基于改进hog‑sslbp的行人检测方法
US10380456B2 (en) Classification dictionary learning system, classification dictionary learning method and recording medium
CN111507344A (zh) 从图像中识别出文字的方法和装置
Ramirez et al. Automatic recognition of square notation symbols in western plainchant manuscripts
Kataria et al. CNN-bidirectional LSTM based optical character recognition of Sanskrit manuscripts: A comprehensive systematic literature review
CN106709490B (zh) 一种字符识别方法和装置
Liang et al. A supervised figure-ground segmentation method using genetic programming
Raj et al. Grantha script recognition from ancient palm leaves using histogram of orientation shape context
Boillet et al. Confidence estimation for object detection in document images
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质
US20230110558A1 (en) Systems and methods for detecting objects
Calefati et al. Reading meter numbers in the wild
KR102050422B1 (ko) 문자 인식 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant