CN113221880A - 基于基尼不纯度的ocr版面分析方法 - Google Patents
基于基尼不纯度的ocr版面分析方法 Download PDFInfo
- Publication number
- CN113221880A CN113221880A CN202110479171.7A CN202110479171A CN113221880A CN 113221880 A CN113221880 A CN 113221880A CN 202110479171 A CN202110479171 A CN 202110479171A CN 113221880 A CN113221880 A CN 113221880A
- Authority
- CN
- China
- Prior art keywords
- text
- confidence
- separation line
- purity
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
Abstract
本发明基于基尼不纯度的OCR版面分析方法,包括:获取图像OCR初始的含位置信息和置信分的识别结果;根据置信分将所有的识别结果分为高置信度和低置信度两类;从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线;利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分;对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度;取所有分隔线中基尼不纯度最小的线作为最终的分隔线;通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本较少一侧的文本识别结果;根据过滤后的识别结果进行字段匹配,得到最终的识别结果。
Description
【技术领域】
本发明主要涉及图像处理和OCR技术领域,尤其涉及一种基于基尼不纯度(Giniimpurity)的OCR(0ptical Character Recognition)版面分析方法。
【背景技术】
OCR是图像处理中的经典任务之一,在各行业领域均应用广泛。当前OCR识别在深度学习算法的加持下已经可以达到很高的精度,但是深度学习识别算法本身仅仅输出图像中的所有文本识别结果,而无法判断图像文本的排版信息,更不用说将识别的结果和有意义的字段相匹配,使OCR在复杂场景下应用大大受限。
【发明内容】
本发明目的在于克服现有技术不足,提供一种OCR识别结果的版面分析方法,通过寻找图像中最小基尼不纯度的分隔线,判断图像文本的排版方向,从而为后续的文本识别结果过滤和字段匹配提供有效的信息。为实现上述目的,本发明需要保护的技术方案概括为:
基于基尼不纯度的OCR版面分析方法,其特征是,通过找到图像中基尼不纯度最小的分隔线,然后通过分隔线的位置和方向判断图像中文本的排版方向,基于排版方向过滤掉无效的识别结果,得到最终OCR识别文本信息。
以下进一步给出具体实现过程:
基于基尼不纯度的OCR版面分析方法,所述方法如下:
S1:获取图像OCR初始的含位置信息和置信分的识别结果,提供给S2;
S2:根据置信分将所有的识别结果分为高置信度和低置信度两类,提供给S4;
S3:从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线,提供给S4;
S4:利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分,提供给S5;
S5:对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度,提供给S6;
S6:取所有分隔线中基尼不纯度最小的线作为最终的分隔线,提供给S7;
S7:通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本相对少那一侧的文本识别结果;提供给S8;
S8:将过滤后的识别结果进行字段匹配,得到最终的识别结果。
作为上述技术方案的改进,S1中:图像的OCR初始结果,由OCR识别模型处理所得,OCR识别模型不限于某一种或某一类模型,但是识别结果需要包含识别文本的位置信息和置信分。OCR识别模型,文本检测和文本识别两部分,举例而非限定,文本检测可采用CTPN和DBNet等深度学习模型,文本识别可采用CRNN等深度学习模型。
作为上述技术方案的改进,S2中:文本识别结果置信度的高低,通过以下方法判定:(1)若所有识别文本的置信分均大于60,则将所有文本视为高置信度文本;(2)若所有识别文本置信度均小于60,则将所有文本视为低置信度文本;(3)若识别结果中兼有置信分大于和小于60的文本,则通过如公式(1)计算分隔高低置信度的阈值C:
C=(max(c1,c2,...,cn)+min(c1,c2,...,cn))/2 (1)
其中c1,c2,...,cn为所有文本识别结果的置信分。置信分大于C的文本视为高置信度,置信分小于C的文本视为低置信度。
作为上述技术方案的改进,S3中:分隔线的设置包含水平和竖直两个方向,每个方向以一定的间隔设置多条间隔线,举例说明:图像的长度为1000,宽度为800,两个方向的间隔均为10,则水平和竖直方向上分别设置80和100条分隔线。
作为上述技术方案的改进,S4中:分隔线将图像的文本识别结果分成两部分,对于竖直方向的分隔线,将识别结果分成左右两部分,即将文本位置(左上角x坐标)小于分隔线x坐标的文本分到左半部分,大于或等于则分到右半部分;对于水平方向的分隔线,将识别结果分成上下两部分,即将文本位置(左上角y坐标)小于分隔线y坐标的文本分到下半部分,大于或等于则分到上半部分。
作为上述技术方案的改进,S5中:通过如下步骤计算每一条分隔线的基尼不纯度,首先,根据公式(2)分别计算两侧的基尼不纯度:
g=phigh(1-phigh)+plow(1-plow) (2)
其中phigh和plow分别为高置信度文本和低置信度文本在该侧文本的占比。根据式(2)得到两侧的基尼不纯度值g后,通过公式(3)计算分隔线的总体基尼不纯度:
G=P1*g1+P2*g2 (3)
其中p1和p2分别打标两侧文本在总文本中的占比,g1和g2分别为两侧的基尼不纯度。基尼不纯度(GiNi Inpurity),用于度量决策树中预测误差率,基尼不纯度Gl值越小,纯度越高,有序程度越高,说明分类效果越好,反之,基尼不纯度Gl值越大,纯度越低,有序程度越低,分类效果越差。作为上述技术方案的改进,S6中:选取基尼不纯度最小的分隔线作为最终的分隔线,水平方向的分隔线和竖直方向的分隔线均参与排序,如果同时存在多个基尼不纯度最小的分隔线,则取坐标最小的分隔线。
作为上述技术方案的改进,S7中:根据分隔线的方向判断图像的文本排版,如果分隔线为水平方向,则文本为上下排版,如果分隔线为竖直方向,则文本为左右排版。在判定排版方向之后,根据分隔线过滤掉高置信度文本相对少的那一侧的所有文本。
作为上述技术方案的改进,S8中:将过滤后的文本识别结果进行字段匹配,是指根据位置信息和文本特征,将识别结果映射到姓名、号码和日期等预设的有意义字段,从而得到最终有意义的识别结果。
本发明的有益效果:
简言之,本发明采用基尼不纯度判断图像文本的排版方向,用于过滤掉无效文本,保障有效字段进行匹配,保证最终有意义的OCR识别结果。
本发明的基于基尼不纯度的OCR版面分析方法,通过获取最小基尼不纯度的分隔线判断图像文本的排版方向,为后续文本过滤和有效字段匹配提供有效信息,从而提升最终OCR识别的准确率。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明具体实施方式提供的基于基尼不纯度的OCR版面分析方法的流程示意图
图2是实施例图像经OCR处理得到原始文本识别结果的样例
图3是实施例OCR识别结果设置水平和竖直分隔线的示例图
图4是实施例分隔线将OCR识别结果分为左侧和右侧的示意图
图5是实施例计算分隔线左侧、右侧和总基尼不纯度的示例图
图6是实施例OCR识别结果最优分隔线的示意图
【具体实施方式】
OCR是图像处理领域常见的一种应用,当前基于深度学习的OCR模型可以实现图像中文本的准确定位和识别,但是在图像文字排版较为复杂的情况下,如何获取文本排版信 息以及进一步提取有效的文本信息,仍然是OCR识别中待解决的问题。
本发明提出基于基尼不纯度的OCR版面分析方法,通过找到图像中基尼不纯度最小的分隔线,然后通过分隔线的位置和方向判断图像中文本的排版方向,基于排版方向可以过滤掉无效的识别结果,从而得到最终有效的OCR识别文本信息。
以下结合具体实施方式和附图对本发明技术方案作进一步说明。图1示出本发明提供的基于基尼不纯度的OCR版面分析方法的流程示意图,具体步骤如下:
S1:获取图像OCR初始的含位置信息和置信分的识别结果;
S2:根据置信分将所有的识别结果分为高置信度和低置信度两类;
S3:从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线;
S4:利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分;
S5:对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度;
S6:取所有分隔线中基尼不纯度最小的线作为最终的分隔线;
S7:通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本较少的一侧的文本识别结果;
S8:将过滤后的识别结果进行字段匹配,得到最终的识别结果。具体地,S1中,获取图像OCR初始的包含位置和置信分的识别结果。包含文本的图像通过深度学习OCR模型的处理之后,对于每一个位置的文本会输出三个结果:(1)文本位置信息,通常用一个四边形框出文本所在的位置,位置信息由四边形的四个点坐标给出;(2)文本框中文本的识别结果;(3)文本识别结果的置信度,通常给出范围在1~100的置信分,置信分越高表示识别结果的可靠度越高。图2给出了一个从图像得到原始文本识别结果的样例,图的左侧为原始图像,图的右侧为原始的OCR识别结果。在这个OCR示例中,假设最终的识别目的为提取图像中的中文地址信息,为了得到正确的地址信息,需要将右侧的英文地址过滤掉。
S2中,根据置信分将所有的识别结果分为高置信度和低置信度两类。在这个步骤中,需要根据所有识别文本的置信分确定高低置信度的阈值,置信分低于阈值的文本判定为低置信度,反之判定为高置信度。阈值的计算规则如下:作为实施例,假如所有文本置信分均大于等于60或者小于60,则无需设定阈值,直接将所有文本判定为高置信度(>=60)或者低置信度(<60);如果文本中包含置信分大于等于60的文本和小于60的文本,则取所有文本中置信分的最大值和最小值的均值作为阈值。举例而言,假设4个识别文本的阈值为[45,50,95,85],则根据上述规则可以计算出阈值h=(45+95)/2=70,则文本的高低置信度判定为[低,低,高,高]。在S1中提取中文地址的示例中,通常采用中文OCR识别模型(识别中文和数字),在得到的识别结果中,中文和数字的识别结果会获得高置信分,英文则会得到低置信分,在图2中,高置信分和低置信分通过深色背景和浅色背景区分开。
S3中,从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线。具体而言,竖直间隔线之间的间隔不能大于文本框的长度,水平间隔线之间的间隔不能大于文本框的高度。假设识别得到4个文本框,4个文本框的长度和高度为:[(40,10),(35,8),(20,9),(15,12)],则竖直间隔线之间的间隔不能大于15,水平间隔线之间的间隔不能大于9。图3给出了S1中识别结果样例的分隔线示意图。
S4中,利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分。分隔线对文本的分隔根据分隔线的位置和文本框的位置确定,对于竖直方向的分隔线,通过对比较文本框左上角x坐标和分隔线x坐标判定左右侧,如果前者大于等于后者,则判定为右侧,否则判定为左侧。对于水平方向的分隔线,则比较文本框左上角y坐标和分隔线y坐标,如果前者大于或等于后者,则判定为上侧,否则判定为下侧。图4给出了S1中识别结果样例中通过竖直分隔线分隔文本框的样例,其中深色背景结果判定为左侧,浅色背景结果判定为右侧。
S5中,对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度。在判定识别结果在分隔线的左右或者上下后,通过公式(2)分别计算左右/上下两侧的基尼不纯度,然后通过公式(3)计算分隔线总的基尼不纯度。以S4中给出的分隔样例为例,分隔后左侧共有9个文本,其中高置信度文本和低置信度文本分别为4和5,右侧共有8个文本,高置信度文本和低置信度文本分别为3和5,如图5所示。则根据公式(2)计算左侧和右侧的基尼不纯度分别为:gleft=4/9*4/9+5/9*5/9=0.50,gright=3/8*3/8+5/8*5/8=0.531,然后根据公式(3)计算总的基尼不纯度为:G=0.506*9/(9+8)+0.531*8/(9+8)=0.518。
S6中,取所有分隔线中基尼不纯度最小的线作为最终的分隔线。通过S5步骤可以计算出每一条分隔线的基尼不纯度,将所有分隔线按照基尼不纯度排序,并取出最小的一条或者一组分隔线。假如分隔线不止一条,则比较分隔线的坐标大小,对于竖直方向的分隔线比较x坐标,对于水平方向分隔线比较y坐标,取坐标最小的一条分隔线作为最优分隔线。图6给出了S1识别样例中最优分隔线的示意图。
S7中,通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本较少的一侧的文本识别结果。具体而言,若最优分隔线为竖直方向,则图像文本为左右排版,若最优分隔线为水平方向,则图像为上下排版。判定排版方向之后,可以过滤掉高置信度文本较少的那一侧的所有文本。以图6给出的分隔线示意图为例,右侧的高置信度文本较少,因此通过分隔线可以过滤掉右侧的英文地址,保留想要识别的中文地址。
S8中,将过滤后的识别结果进行字段匹配,得到最终的识别结果。在过滤掉无效信息之后,需要根据目标识别字段的特征和位置,从过滤之后的文本中获取最终结果。以图6中的地址为例,地址信息的首部出现“地址”关键词,以此可以判断“地址”之后的文本均为地址信息,从而提取出最终的中文地址文本,至此,实现了最终的识别目标。这部分采用本领域常规技术即可实现。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.基于基尼不纯度的OCR版面分析方法,其特征在于,通过找到图像中基尼不纯度最小的分隔线,然后通过分隔线的位置和方向判断图像中文本的排版方向,基于排版方向过滤掉无效的识别结果,得到最终OCR识别文本信息。
2.如权利要求1所述基于基尼不纯度的OCR版面分析方法,其特征在于,采用如下方法实现:
S1:获取图像OCR初始的含位置信息和置信分的识别结果,提供给S2;
S2:根据置信分将所有的识别结果分为高置信度和低置信度两类,提供给S4;
S3:从图像的左侧开始,按照一定的间隔设置多条竖直分隔线,同样地,从图像上侧开始,按照一定的间隔设置多条水平分隔线,提供给S4;
S4:利用竖直分隔线将识别结果分成左右两部分,水平分隔线将识别结果分成上下两部分,提供给S5;
S5:对于每一条分隔线,分别计算左右或者上下两个部分的基尼不纯度,然后根据上下/左右的基尼不纯度计算总的基尼不纯度,提供给S6;
S6:取所有分隔线中基尼不纯度最小的线作为最终的分隔线,提供给S7;
S7:通过最终分隔线的位置和方向判断图像的版面,同时过滤掉高置信度文本少的那一侧的文本识别结果,提供给S8;
S8:将过滤后的识别结果进行字段匹配,得到最终的识别结果。
3.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:图像的OCR初始结果,由OCR识别模型处理所得,识别模型不限于某一种或某一类模型,但是识别结果需要包含识别文本的位置信息和置信分。
4.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于,文本识别结果置信度的高低,通过以下方法判定:(1)若所有识别文本的置信分均大于60,则将所有文本视为高置信度文本;(2)若所有识别文本置信度均小于60,则将所有文本视为低置信度文本;(3)若识别结果中兼有置信分大于和小于60的文本,则通过如公式(1)计算分隔高低置信度的阈值C,
C=(max(c1,c2,...,cn)+min(c1,c2,...,cn))/2 (1)
其中c1,c2,...,cn为所有文本识别结果的置信分。置信分大于C的文本视为高置信度,置信分小于C的文本视为低置信度。
5.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:分隔线的设置包含水平和竖直两个方向,每个方向以一定的间隔设置多条间隔线,假如图像的长度为1000,宽度为800,两个方向的间隔均为10,则水平和竖直方向上分别设置80和100条分隔线。
6.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:分隔线将图像的文本识别结果分成两部分,对于竖直方向的分隔线,将识别结果分成左右两部分,即将文本位置(左上角x坐标)小于分隔线x坐标的文本分到左半部分,大于或等于则分到右半部分;对于水平方向的分隔线,将识别结果分成上下两部分,即将文本位置(左上角y坐标)小于分隔线y坐标的文本分到下半部分,大于或等于则分到上半部分。
7.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:通过如下步骤计算每一条分隔线的基尼不纯度,首先,根据公式(2)分别计算两侧的基尼不纯度:
g=phigh(1-phigh)+plow(1-plow) (2)
其中phigh和plow分别为高置信度文本和低置信度文本在该侧文本的占比。根据式(2)得到两侧的基尼不纯度值g后,通过公式(3)计算分隔线的总体基尼不纯度:
G=p1*g1+p2*g2 (3)
其中p1和p2分别打标两侧文本在总文本中的占比,g1和g2分别为两侧的基尼不纯度。
8.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:选取基尼不纯度最小的分隔线作为最终的分隔线,水平方向的分隔线和竖直方向的分隔线均参与排序,如果同时存在多个基尼不纯度最小的分隔线,则取坐标最小的分隔线。
9.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:根据分隔线的方向判断图像的文本排版,如果分隔线为水平方向,则文本为上下排版,如果分隔线为竖直方向,则文本为左右排版;在判定排版方向之后,根据分隔线过滤掉高置信度文本比较少一侧的所有文本。
10.根据权利要求2所述基于基尼不纯度的OCR版面分析方法,其特征在于:将过滤后的文本识别结果进行字段匹配,是指根据位置信息和文本特征,比如将识别结果映射到姓名、号码和日期等预设的字段,从而得到最终有意义的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479171.7A CN113221880B (zh) | 2021-04-29 | 2021-04-29 | 基于基尼不纯度的ocr版面分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479171.7A CN113221880B (zh) | 2021-04-29 | 2021-04-29 | 基于基尼不纯度的ocr版面分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221880A true CN113221880A (zh) | 2021-08-06 |
CN113221880B CN113221880B (zh) | 2022-08-05 |
Family
ID=77090294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110479171.7A Active CN113221880B (zh) | 2021-04-29 | 2021-04-29 | 基于基尼不纯度的ocr版面分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221880B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295532A (zh) * | 2016-08-01 | 2017-01-04 | 河海大学 | 一种视频图像中的人体动作识别方法 |
CN110147760A (zh) * | 2019-05-20 | 2019-08-20 | 吉林化工学院 | 一种高效电能质量扰动图像特征提取与识别新方法 |
CN110414483A (zh) * | 2019-08-13 | 2019-11-05 | 山东浪潮人工智能研究院有限公司 | 一种基于深度神经网络和随机森林的人脸识别方法及系统 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
CN110457685A (zh) * | 2019-07-22 | 2019-11-15 | 南京邮电大学 | 一种基于机器学习的中文商业文本预处理方法 |
CN112116593A (zh) * | 2020-08-06 | 2020-12-22 | 北京工业大学 | 一种基于基尼指数的领域自适应语义分割方法 |
-
2021
- 2021-04-29 CN CN202110479171.7A patent/CN113221880B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295532A (zh) * | 2016-08-01 | 2017-01-04 | 河海大学 | 一种视频图像中的人体动作识别方法 |
CN110147760A (zh) * | 2019-05-20 | 2019-08-20 | 吉林化工学院 | 一种高效电能质量扰动图像特征提取与识别新方法 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
CN110457685A (zh) * | 2019-07-22 | 2019-11-15 | 南京邮电大学 | 一种基于机器学习的中文商业文本预处理方法 |
CN110414483A (zh) * | 2019-08-13 | 2019-11-05 | 山东浪潮人工智能研究院有限公司 | 一种基于深度神经网络和随机森林的人脸识别方法及系统 |
CN112116593A (zh) * | 2020-08-06 | 2020-12-22 | 北京工业大学 | 一种基于基尼指数的领域自适应语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113221880B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017031716A1 (zh) | 自然场景图像中手写体数学公式结构分析与识别方法 | |
JP2789971B2 (ja) | 表認識装置 | |
CN111340020B (zh) | 一种公式识别方法、装置、设备及存储介质 | |
CN113158808A (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
CN110717492B (zh) | 基于联合特征的图纸中字符串方向校正方法 | |
JP4686433B2 (ja) | 単語認識方法および単語認識装置 | |
CN113221880B (zh) | 基于基尼不纯度的ocr版面分析方法 | |
CN107798355B (zh) | 一种基于文档图像版式自动分析与判断的方法 | |
CN111104942B (zh) | 一种模板匹配网络训练方法、识别方法及装置 | |
JPH1166238A (ja) | 手書き文字認識方法 | |
JP5857634B2 (ja) | 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム | |
CN112396056B (zh) | 对文本图片ocr结果进行高准确率分行的方法 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
CN114373178A (zh) | 一种图片文字检测与识别方法及系统 | |
JP4601835B2 (ja) | 単語認識方法および単語認識プログラムおよび単語認識装置 | |
CN112667771A (zh) | 答案序列的确定方法及装置 | |
JP2827960B2 (ja) | 宛名行抽出装置 | |
JP2004046723A (ja) | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 | |
JP2991754B2 (ja) | 認識辞書作成方法 | |
JPH0728935A (ja) | 文書画像処理装置 | |
JP3457094B2 (ja) | 文字認識装置及び文字認識方法 | |
JP3344062B2 (ja) | カタカナ手書き文字切り出し回路 | |
JP2000322514A (ja) | パターン抽出装置及び文字切り出し装置 | |
JPH08287188A (ja) | 文字列認識装置 | |
CN116883703A (zh) | 一种图像语义匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |