CN113221880A - 基于基尼不纯度的ocr版面分析方法 - Google Patents

基于基尼不纯度的ocr版面分析方法 Download PDF

Info

Publication number
CN113221880A
CN113221880A CN202110479171.7A CN202110479171A CN113221880A CN 113221880 A CN113221880 A CN 113221880A CN 202110479171 A CN202110479171 A CN 202110479171A CN 113221880 A CN113221880 A CN 113221880A
Authority
CN
China
Prior art keywords
text
confidence
separation line
purity
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110479171.7A
Other languages
English (en)
Other versions
CN113221880B (zh
Inventor
刘星辰
何盼
陈晓峰
麻沁甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bochi Information Technology Co ltd
Original Assignee
Shanghai Bochi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bochi Information Technology Co ltd filed Critical Shanghai Bochi Information Technology Co ltd
Priority to CN202110479171.7A priority Critical patent/CN113221880B/zh
Publication of CN113221880A publication Critical patent/CN113221880A/zh
Application granted granted Critical
Publication of CN113221880B publication Critical patent/CN113221880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

本发明基于基尼不纯度的OCR版面分析方法,包括:获取图像OCR初始的含位置信息和置信分的识别结果;根据置信分将所有的识别结果分为高置信度和低置信度两类;从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线;利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分;对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度;取所有分隔线中基尼不纯度最小的线作为最终的分隔线;通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本较少一侧的文本识别结果;根据过滤后的识别结果进行字段匹配,得到最终的识别结果。

Description

基于基尼不纯度的OCR版面分析方法
【技术领域】
本发明主要涉及图像处理和OCR技术领域,尤其涉及一种基于基尼不纯度(Giniimpurity)的OCR(0ptical Character Recognition)版面分析方法。
【背景技术】
OCR是图像处理中的经典任务之一,在各行业领域均应用广泛。当前OCR识别在深度学习算法的加持下已经可以达到很高的精度,但是深度学习识别算法本身仅仅输出图像中的所有文本识别结果,而无法判断图像文本的排版信息,更不用说将识别的结果和有意义的字段相匹配,使OCR在复杂场景下应用大大受限。
【发明内容】
本发明目的在于克服现有技术不足,提供一种OCR识别结果的版面分析方法,通过寻找图像中最小基尼不纯度的分隔线,判断图像文本的排版方向,从而为后续的文本识别结果过滤和字段匹配提供有效的信息。为实现上述目的,本发明需要保护的技术方案概括为:
基于基尼不纯度的OCR版面分析方法,其特征是,通过找到图像中基尼不纯度最小的分隔线,然后通过分隔线的位置和方向判断图像中文本的排版方向,基于排版方向过滤掉无效的识别结果,得到最终OCR识别文本信息。
以下进一步给出具体实现过程:
基于基尼不纯度的OCR版面分析方法,所述方法如下:
S1:获取图像OCR初始的含位置信息和置信分的识别结果,提供给S2;
S2:根据置信分将所有的识别结果分为高置信度和低置信度两类,提供给S4;
S3:从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线,提供给S4;
S4:利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分,提供给S5;
S5:对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度,提供给S6;
S6:取所有分隔线中基尼不纯度最小的线作为最终的分隔线,提供给S7;
S7:通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本相对少那一侧的文本识别结果;提供给S8;
S8:将过滤后的识别结果进行字段匹配,得到最终的识别结果。
作为上述技术方案的改进,S1中:图像的OCR初始结果,由OCR识别模型处理所得,OCR识别模型不限于某一种或某一类模型,但是识别结果需要包含识别文本的位置信息和置信分。OCR识别模型,文本检测和文本识别两部分,举例而非限定,文本检测可采用CTPN和DBNet等深度学习模型,文本识别可采用CRNN等深度学习模型。
作为上述技术方案的改进,S2中:文本识别结果置信度的高低,通过以下方法判定:(1)若所有识别文本的置信分均大于60,则将所有文本视为高置信度文本;(2)若所有识别文本置信度均小于60,则将所有文本视为低置信度文本;(3)若识别结果中兼有置信分大于和小于60的文本,则通过如公式(1)计算分隔高低置信度的阈值C:
C=(max(c1,c2,...,cn)+min(c1,c2,...,cn))/2 (1)
其中c1,c2,...,cn为所有文本识别结果的置信分。置信分大于C的文本视为高置信度,置信分小于C的文本视为低置信度。
作为上述技术方案的改进,S3中:分隔线的设置包含水平和竖直两个方向,每个方向以一定的间隔设置多条间隔线,举例说明:图像的长度为1000,宽度为800,两个方向的间隔均为10,则水平和竖直方向上分别设置80和100条分隔线。
作为上述技术方案的改进,S4中:分隔线将图像的文本识别结果分成两部分,对于竖直方向的分隔线,将识别结果分成左右两部分,即将文本位置(左上角x坐标)小于分隔线x坐标的文本分到左半部分,大于或等于则分到右半部分;对于水平方向的分隔线,将识别结果分成上下两部分,即将文本位置(左上角y坐标)小于分隔线y坐标的文本分到下半部分,大于或等于则分到上半部分。
作为上述技术方案的改进,S5中:通过如下步骤计算每一条分隔线的基尼不纯度,首先,根据公式(2)分别计算两侧的基尼不纯度:
g=phigh(1-phigh)+plow(1-plow) (2)
其中phigh和plow分别为高置信度文本和低置信度文本在该侧文本的占比。根据式(2)得到两侧的基尼不纯度值g后,通过公式(3)计算分隔线的总体基尼不纯度:
G=P1*g1+P2*g2 (3)
其中p1和p2分别打标两侧文本在总文本中的占比,g1和g2分别为两侧的基尼不纯度。基尼不纯度(GiNi Inpurity),用于度量决策树中预测误差率,基尼不纯度Gl值越小,纯度越高,有序程度越高,说明分类效果越好,反之,基尼不纯度Gl值越大,纯度越低,有序程度越低,分类效果越差。作为上述技术方案的改进,S6中:选取基尼不纯度最小的分隔线作为最终的分隔线,水平方向的分隔线和竖直方向的分隔线均参与排序,如果同时存在多个基尼不纯度最小的分隔线,则取坐标最小的分隔线。
作为上述技术方案的改进,S7中:根据分隔线的方向判断图像的文本排版,如果分隔线为水平方向,则文本为上下排版,如果分隔线为竖直方向,则文本为左右排版。在判定排版方向之后,根据分隔线过滤掉高置信度文本相对少的那一侧的所有文本。
作为上述技术方案的改进,S8中:将过滤后的文本识别结果进行字段匹配,是指根据位置信息和文本特征,将识别结果映射到姓名、号码和日期等预设的有意义字段,从而得到最终有意义的识别结果。
本发明的有益效果:
简言之,本发明采用基尼不纯度判断图像文本的排版方向,用于过滤掉无效文本,保障有效字段进行匹配,保证最终有意义的OCR识别结果。
本发明的基于基尼不纯度的OCR版面分析方法,通过获取最小基尼不纯度的分隔线判断图像文本的排版方向,为后续文本过滤和有效字段匹配提供有效信息,从而提升最终OCR识别的准确率。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明具体实施方式提供的基于基尼不纯度的OCR版面分析方法的流程示意图
图2是实施例图像经OCR处理得到原始文本识别结果的样例
图3是实施例OCR识别结果设置水平和竖直分隔线的示例图
图4是实施例分隔线将OCR识别结果分为左侧和右侧的示意图
图5是实施例计算分隔线左侧、右侧和总基尼不纯度的示例图
图6是实施例OCR识别结果最优分隔线的示意图
【具体实施方式】
OCR是图像处理领域常见的一种应用,当前基于深度学习的OCR模型可以实现图像中文本的准确定位和识别,但是在图像文字排版较为复杂的情况下,如何获取文本排版信 息以及进一步提取有效的文本信息,仍然是OCR识别中待解决的问题。
本发明提出基于基尼不纯度的OCR版面分析方法,通过找到图像中基尼不纯度最小的分隔线,然后通过分隔线的位置和方向判断图像中文本的排版方向,基于排版方向可以过滤掉无效的识别结果,从而得到最终有效的OCR识别文本信息。
以下结合具体实施方式和附图对本发明技术方案作进一步说明。图1示出本发明提供的基于基尼不纯度的OCR版面分析方法的流程示意图,具体步骤如下:
S1:获取图像OCR初始的含位置信息和置信分的识别结果;
S2:根据置信分将所有的识别结果分为高置信度和低置信度两类;
S3:从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线;
S4:利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分;
S5:对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度;
S6:取所有分隔线中基尼不纯度最小的线作为最终的分隔线;
S7:通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本较少的一侧的文本识别结果;
S8:将过滤后的识别结果进行字段匹配,得到最终的识别结果。具体地,S1中,获取图像OCR初始的包含位置和置信分的识别结果。包含文本的图像通过深度学习OCR模型的处理之后,对于每一个位置的文本会输出三个结果:(1)文本位置信息,通常用一个四边形框出文本所在的位置,位置信息由四边形的四个点坐标给出;(2)文本框中文本的识别结果;(3)文本识别结果的置信度,通常给出范围在1~100的置信分,置信分越高表示识别结果的可靠度越高。图2给出了一个从图像得到原始文本识别结果的样例,图的左侧为原始图像,图的右侧为原始的OCR识别结果。在这个OCR示例中,假设最终的识别目的为提取图像中的中文地址信息,为了得到正确的地址信息,需要将右侧的英文地址过滤掉。
S2中,根据置信分将所有的识别结果分为高置信度和低置信度两类。在这个步骤中,需要根据所有识别文本的置信分确定高低置信度的阈值,置信分低于阈值的文本判定为低置信度,反之判定为高置信度。阈值的计算规则如下:作为实施例,假如所有文本置信分均大于等于60或者小于60,则无需设定阈值,直接将所有文本判定为高置信度(>=60)或者低置信度(<60);如果文本中包含置信分大于等于60的文本和小于60的文本,则取所有文本中置信分的最大值和最小值的均值作为阈值。举例而言,假设4个识别文本的阈值为[45,50,95,85],则根据上述规则可以计算出阈值h=(45+95)/2=70,则文本的高低置信度判定为[低,低,高,高]。在S1中提取中文地址的示例中,通常采用中文OCR识别模型(识别中文和数字),在得到的识别结果中,中文和数字的识别结果会获得高置信分,英文则会得到低置信分,在图2中,高置信分和低置信分通过深色背景和浅色背景区分开。
S3中,从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线。具体而言,竖直间隔线之间的间隔不能大于文本框的长度,水平间隔线之间的间隔不能大于文本框的高度。假设识别得到4个文本框,4个文本框的长度和高度为:[(40,10),(35,8),(20,9),(15,12)],则竖直间隔线之间的间隔不能大于15,水平间隔线之间的间隔不能大于9。图3给出了S1中识别结果样例的分隔线示意图。
S4中,利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分。分隔线对文本的分隔根据分隔线的位置和文本框的位置确定,对于竖直方向的分隔线,通过对比较文本框左上角x坐标和分隔线x坐标判定左右侧,如果前者大于等于后者,则判定为右侧,否则判定为左侧。对于水平方向的分隔线,则比较文本框左上角y坐标和分隔线y坐标,如果前者大于或等于后者,则判定为上侧,否则判定为下侧。图4给出了S1中识别结果样例中通过竖直分隔线分隔文本框的样例,其中深色背景结果判定为左侧,浅色背景结果判定为右侧。
S5中,对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度。在判定识别结果在分隔线的左右或者上下后,通过公式(2)分别计算左右/上下两侧的基尼不纯度,然后通过公式(3)计算分隔线总的基尼不纯度。以S4中给出的分隔样例为例,分隔后左侧共有9个文本,其中高置信度文本和低置信度文本分别为4和5,右侧共有8个文本,高置信度文本和低置信度文本分别为3和5,如图5所示。则根据公式(2)计算左侧和右侧的基尼不纯度分别为:gleft=4/9*4/9+5/9*5/9=0.50,gright=3/8*3/8+5/8*5/8=0.531,然后根据公式(3)计算总的基尼不纯度为:G=0.506*9/(9+8)+0.531*8/(9+8)=0.518。
S6中,取所有分隔线中基尼不纯度最小的线作为最终的分隔线。通过S5步骤可以计算出每一条分隔线的基尼不纯度,将所有分隔线按照基尼不纯度排序,并取出最小的一条或者一组分隔线。假如分隔线不止一条,则比较分隔线的坐标大小,对于竖直方向的分隔线比较x坐标,对于水平方向分隔线比较y坐标,取坐标最小的一条分隔线作为最优分隔线。图6给出了S1识别样例中最优分隔线的示意图。
S7中,通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本较少的一侧的文本识别结果。具体而言,若最优分隔线为竖直方向,则图像文本为左右排版,若最优分隔线为水平方向,则图像为上下排版。判定排版方向之后,可以过滤掉高置信度文本较少的那一侧的所有文本。以图6给出的分隔线示意图为例,右侧的高置信度文本较少,因此通过分隔线可以过滤掉右侧的英文地址,保留想要识别的中文地址。
S8中,将过滤后的识别结果进行字段匹配,得到最终的识别结果。在过滤掉无效信息之后,需要根据目标识别字段的特征和位置,从过滤之后的文本中获取最终结果。以图6中的地址为例,地址信息的首部出现“地址”关键词,以此可以判断“地址”之后的文本均为地址信息,从而提取出最终的中文地址文本,至此,实现了最终的识别目标。这部分采用本领域常规技术即可实现。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.基于基尼不纯度的OCR版面分析方法,其特征在于,通过找到图像中基尼不纯度最小的分隔线,然后通过分隔线的位置和方向判断图像中文本的排版方向,基于排版方向过滤掉无效的识别结果,得到最终OCR识别文本信息。
2.如权利要求1所述基于基尼不纯度的OCR版面分析方法,其特征在于,采用如下方法实现:
S1:获取图像OCR初始的含位置信息和置信分的识别结果,提供给S2;
S2:根据置信分将所有的识别结果分为高置信度和低置信度两类,提供给S4;
S3:从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线,提供给S4;
S4:利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分,提供给S5;
S5:对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度,提供给S6;
S6:取所有分隔线中基尼不纯度最小的线作为最终的分隔线,提供给S7;
S7:通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本少的那一侧的文本识别结果,提供给S8;
S8:将过滤后的识别结果进行字段匹配,得到最终的识别结果。
3.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:图像的OCR初始结果,由OCR识别模型处理所得,识别模型不限于某一种或某一类模型,但是识别结果需要包含识别文本的位置信息和置信分。
4.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于,文本识别结果置信度的高低,通过以下方法判定:(1)若所有识别文本的置信分均大于60,则将所有文本视为高置信度文本;(2)若所有识别文本置信度均小于60,则将所有文本视为低置信度文本;(3)若识别结果中兼有置信分大于和小于60的文本,则通过如公式(1)计算分隔高低置信度的阈值C,
C=(max(c1,c2,...,cn)+min(c1,c2,...,cn))/2 (1)
其中c1,c2,...,cn为所有文本识别结果的置信分。置信分大于C的文本视为高置信度,置信分小于C的文本视为低置信度。
5.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:分隔线的设置包含水平和竖直两个方向,每个方向以一定的间隔设置多条间隔线,假如图像的长度为1000,宽度为800,两个方向的间隔均为10,则水平和竖直方向上分别设置80和100条分隔线。
6.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:分隔线将图像的文本识别结果分成两部分,对于竖直方向的分隔线,将识别结果分成左右两部分,即将文本位置(左上角x坐标)小于分隔线x坐标的文本分到左半部分,大于或等于则分到右半部分;对于水平方向的分隔线,将识别结果分成上下两部分,即将文本位置(左上角y坐标)小于分隔线y坐标的文本分到下半部分,大于或等于则分到上半部分。
7.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:通过如下步骤计算每一条分隔线的基尼不纯度,首先,根据公式(2)分别计算两侧的基尼不纯度:
g=phigh(1-phigh)+plow(1-plow) (2)
其中phigh和plow分别为高置信度文本和低置信度文本在该侧文本的占比。根据式(2)得到两侧的基尼不纯度值g后,通过公式(3)计算分隔线的总体基尼不纯度:
G=p1*g1+p2*g2 (3)
其中p1和p2分别打标两侧文本在总文本中的占比,g1和g2分别为两侧的基尼不纯度。
8.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:选取基尼不纯度最小的分隔线作为最终的分隔线,水平方向的分隔线和竖直方向的分隔线均参与排序,如果同时存在多个基尼不纯度最小的分隔线,则取坐标最小的分隔线。
9.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:根据分隔线的方向判断图像的文本排版,如果分隔线为水平方向,则文本为上下排版,如果分隔线为竖直方向,则文本为左右排版;在判定排版方向之后,根据分隔线过滤掉高置信度文本比较少一侧的所有文本。
10.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:将过滤后的文本识别结果进行字段匹配,是指根据位置信息和文本特征,比如将识别结果映射到姓名、号码和日期等预设的字段,从而得到最终有意义的识别结果。
CN202110479171.7A 2021-04-29 2021-04-29 基于基尼不纯度的ocr版面分析方法 Active CN113221880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110479171.7A CN113221880B (zh) 2021-04-29 2021-04-29 基于基尼不纯度的ocr版面分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110479171.7A CN113221880B (zh) 2021-04-29 2021-04-29 基于基尼不纯度的ocr版面分析方法

Publications (2)

Publication Number Publication Date
CN113221880A true CN113221880A (zh) 2021-08-06
CN113221880B CN113221880B (zh) 2022-08-05

Family

ID=77090294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110479171.7A Active CN113221880B (zh) 2021-04-29 2021-04-29 基于基尼不纯度的ocr版面分析方法

Country Status (1)

Country Link
CN (1) CN113221880B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295532A (zh) * 2016-08-01 2017-01-04 河海大学 一种视频图像中的人体动作识别方法
CN110147760A (zh) * 2019-05-20 2019-08-20 吉林化工学院 一种高效电能质量扰动图像特征提取与识别新方法
CN110414483A (zh) * 2019-08-13 2019-11-05 山东浪潮人工智能研究院有限公司 一种基于深度神经网络和随机森林的人脸识别方法及系统
CN110414529A (zh) * 2019-06-26 2019-11-05 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN110457685A (zh) * 2019-07-22 2019-11-15 南京邮电大学 一种基于机器学习的中文商业文本预处理方法
CN112116593A (zh) * 2020-08-06 2020-12-22 北京工业大学 一种基于基尼指数的领域自适应语义分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295532A (zh) * 2016-08-01 2017-01-04 河海大学 一种视频图像中的人体动作识别方法
CN110147760A (zh) * 2019-05-20 2019-08-20 吉林化工学院 一种高效电能质量扰动图像特征提取与识别新方法
CN110414529A (zh) * 2019-06-26 2019-11-05 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN110457685A (zh) * 2019-07-22 2019-11-15 南京邮电大学 一种基于机器学习的中文商业文本预处理方法
CN110414483A (zh) * 2019-08-13 2019-11-05 山东浪潮人工智能研究院有限公司 一种基于深度神经网络和随机森林的人脸识别方法及系统
CN112116593A (zh) * 2020-08-06 2020-12-22 北京工业大学 一种基于基尼指数的领域自适应语义分割方法

Also Published As

Publication number Publication date
CN113221880B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
WO2017031716A1 (zh) 自然场景图像中手写体数学公式结构分析与识别方法
JP2789971B2 (ja) 表認識装置
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN110717492B (zh) 基于联合特征的图纸中字符串方向校正方法
JP4686433B2 (ja) 単語認識方法および単語認識装置
CN113221880B (zh) 基于基尼不纯度的ocr版面分析方法
CN107798355B (zh) 一种基于文档图像版式自动分析与判断的方法
CN111104942B (zh) 一种模板匹配网络训练方法、识别方法及装置
JPH1166238A (ja) 手書き文字認識方法
JP5857634B2 (ja) 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム
CN112396056B (zh) 对文本图片ocr结果进行高准确率分行的方法
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN114373178A (zh) 一种图片文字检测与识别方法及系统
JP4601835B2 (ja) 単語認識方法および単語認識プログラムおよび単語認識装置
CN112667771A (zh) 答案序列的确定方法及装置
JP2827960B2 (ja) 宛名行抽出装置
JP2004046723A (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP2991754B2 (ja) 認識辞書作成方法
JPH0728935A (ja) 文書画像処理装置
JP3457094B2 (ja) 文字認識装置及び文字認識方法
JP3344062B2 (ja) カタカナ手書き文字切り出し回路
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
JPH08287188A (ja) 文字列認識装置
CN116883703A (zh) 一种图像语义匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant