CN113657369B - 一种文字识别方法及其相关设备 - Google Patents
一种文字识别方法及其相关设备 Download PDFInfo
- Publication number
- CN113657369B CN113657369B CN202110988932.1A CN202110988932A CN113657369B CN 113657369 B CN113657369 B CN 113657369B CN 202110988932 A CN202110988932 A CN 202110988932A CN 113657369 B CN113657369 B CN 113657369B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- identified
- cutting
- text image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000005520 cutting process Methods 0.000 claims abstract description 201
- 238000001514 detection method Methods 0.000 claims abstract description 149
- 238000012545 processing Methods 0.000 claims abstract description 58
- 230000011218 segmentation Effects 0.000 claims abstract description 53
- 238000004590 computer program Methods 0.000 claims description 14
- 238000002679 ablation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 11
- 238000013507 mapping Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种文字识别方法及其相关设备,该方法包括:在获取到包括长文本的待识别文本图像之后,先将该待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和该至少一个图像切片的位置信息;再根据该至少一个图像切片的单字检测结果以及位置信息,确定该待识别文本图像对应的实际切图位置;然后,按照该待识别文本图像对应的实际切图位置,对该待识别文本图像进行第二切分处理,得到至少一个待使用图片;最后,根据该至少一个待使用图片的文字识别结果,确定该待识别文本图像的文字识别结果,如此能够实现针对长文本的文字识别过程。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文字识别方法及其相关设备。
背景技术
随着文字识别技术的发展,文字识别技术的应用范围越来越广。其中,文字识别技术用于针对一个图像中出现的字符进行识别处理。
然而,因一些文字识别技术(如,光学字符识别(Optical CharacterRecognition,OCR)等技术)存在缺陷,使得这些文字识别技术在一些应用场景(如,长文本识别等应用场景)下的识别准确性较低。其中,“长文本识别”是指针对包括长文本的图像进行文字识别的过程。
发明内容
为了解决上述技术问题,本申请提供了一种文字识别方法及其相关设备,能够提高长文本识别的识别准确性。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种文字识别方法,所述方法包括:
在获取到待识别文本图像之后,将所述待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和所述至少一个图像切片的位置信息;其中,所述待识别文本图像包括长文本;
根据所述至少一个图像切片的单字检测结果和所述至少一个图像切片的位置信息,确定所述待识别文本图像对应的实际切图位置;
按照所述待识别文本图像对应的实际切图位置,对所述待识别文本图像进行第二切分处理,得到至少一个待使用图片;
根据所述至少一个待使用图片的文字识别结果,确定所述待识别文本图像的文字识别结果。
在一种可能的实施方式下,所述根据所述至少一个图像切片的单字检测结果和所述至少一个图像切片的位置信息,确定所述待识别文本图像对应的实际切图位置,包括:
根据所述至少一个图像切片的单字检测结果、所述至少一个图像切片的位置信息、和所述待识别文本图像对应的预设切图位置,确定所述待识别文本图像对应的实际切图位置。
在一种可能的实施方式下,所述待识别文本图像对应的实际切图位置的确定过程,包括:
将所述至少一个图像切片的单字检测结果按照所述至少一个图像切片的位置信息进行拼接处理,得到所述待识别文本图像的单字检测结果;
根据所述待识别文本图像的单字检测结果和所述待识别文本图像对应的预设切图位置,确定所述待识别文本图像对应的实际切图位置。
在一种可能的实施方式下,所述预设切片参数包括切分间隔和切分偏移长度;其中,所述切分偏移长度小于所述切分间隔;
所述至少一个图像切片的确定过程,包括:
从所述待识别文本图像中切除具有所述切分偏移长度的图像区域,得到待切分图像;
将所述待切分图像按照所述切分间隔进行切分处理,得到至少一个图像切片。
在一种可能的实施方式下,所述预设切片参数还包括切除起始位置;
所述待切分图像的确定过程,包括:
根据所述切除起始位置和所述切分偏移长度,确定切除区域位置;
按照所述切除区域位置对所述待识别文本图像进行区域切除处理,得到所述待切分图像。
在一种可能的实施方式下,所述至少一个图像切片的单字检测结果的确定过程,包括:
利用预先构建的单字检测模型对所述至少一个图像切片进行并行单字检测处理,得到所述至少一个图像切片的单字检测结果;其中,所述单字检测模型是根据样本文本图像和所述样本文本图像中各个字符的实际位置进行构建的。
本申请实施例还提供了一种文字识别装置,包括:
第一切分单元,用于在获取到待识别文本图像之后,将所述待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和所述至少一个图像切片的位置信息;其中,所述待识别文本图像包括长文本;
位置确定单元,用于根据所述至少一个图像切片的单字检测结果和所述至少一个图像切片的位置信息,确定所述待识别文本图像对应的实际切图位置;
第二切分单元,用于按照所述待识别文本图像对应的实际切图位置,对所述待识别文本图像进行第二切分处理,得到至少一个待使用图片;
结果确定单元,用于根据所述至少一个待使用图片的文字识别结果,确定所述待识别文本图像的文字识别结果。
本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的文字识别方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的文字识别方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的文字识别方法的任一实施方式。
与现有技术相比,本申请实施例至少具有以下优点:
本申请实施例提供的技术方案中,在获取到包括长文本的待识别文本图像之后,先将该待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和该至少一个图像切片的位置信息;再根据该至少一个图像切片的单字检测结果以及位置信息,确定该待识别文本图像对应的实际切图位置;然后,按照该待识别文本图像对应的实际切图位置,对该待识别文本图像进行第二切分处理,得到至少一个待使用图片;最后,根据该至少一个待使用图片的文字识别结果,确定该待识别文本图像的文字识别结果,如此能够实现针对长文本的文字识别过程。
可见,因上述“至少一个图像切片的单字检测结果以及位置信息”能够准确地表示出待识别文本图像中至少一个字符的位置信息,使得基于该单字检测结果确定的实际切图位置尽可能地不会出现在字符内部,从而使得在基于该实际切图位置进行切图时尽可能地不会出现切坏字符的现象,如此能够尽可能地避免该待识别文本图像对应的各个切图(也就是,各个待使用图片)中出现不完整字符,从而有利于提高长文本识别的识别准确性。还因各个图像切片的长度远远小于待识别文本图像的长度,使得针对各个图像切片的处理耗时远远小于针对待识别文本图像的处理耗时,如此有利于提高文字识别效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种文字识别方法的流程图;
图2为本申请实施例提供的一种待识别文本图像的示意图;
图3为本申请实施例提供的另一种待识别文本图像的示意图;
图4为本申请实施例提供的一种图像切片的处理过程示意图;
图5为本申请实施例提供的一种两个文字识别过程的对比示意图;
图6为本申请实施例提供的一种单字检测模型的结构示意图;
图7为本申请实施例提供的一种文字识别过程的示意图;
图8为本申请实施例提供的一种文字识别装置的结构示意图。
具体实施方式
发明人在针对文字识别的研究中发现,因一些文字识别模型(如,光学字符识别(Optical Character Recognition,OCR)识别模型)通常支持固定宽度的输入数据,使得在获取到包括长文本的图像之后,需要先将该图像进行大幅度缩小;再由这些文字识别模型针对缩小后的图像进行文字识别,得到该长文本的文字识别结果。然而,因上述“大幅度缩小”操作通常会大幅度降低图像清晰度,使得缩小后的图像易出现图像内容模糊不清的现象,从而使得基于该缩小后的图像确定出的文字识别结果不准确,如此导致长文本识别的识别准确性较低。
基于上述发现,为了解决背景技术部分的技术问题,本申请实施例提供了一种文字识别方法,该方法包括:在获取到包括长文本的待识别文本图像之后,先将该待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和该至少一个图像切片的位置信息;再根据该至少一个图像切片的单字检测结果以及位置信息,确定该待识别文本图像对应的实际切图位置;然后,按照该待识别文本图像对应的实际切图位置,对该待识别文本图像进行第二切分处理,得到至少一个待使用图片;最后,根据该至少一个待使用图片的文字识别结果,确定该待识别文本图像的文字识别结果,如此能够实现针对长文本的文字识别过程。
可见,因上述“至少一个图像切片的单字检测结果以及位置信息”能够准确地表示出待识别文本图像中至少一个字符的位置信息,使得基于该单字检测结果确定的实际切图位置尽可能地不会出现在字符内部,从而使得在基于该实际切图位置进行切图时尽可能地不会出现切坏字符的现象,如此能够尽可能地避免该待识别文本图像对应的各个切图(也就是,各个待使用图片)中出现不完整字符,从而有利于提高长文本识别的识别准确性。还因各个图像切片的长度远远小于待识别文本图像的长度,使得针对各个图像切片的处理耗时远远小于针对待识别文本图像的处理耗时,如此有利于提高文字识别效率。
另外,本申请实施例不限定文字识别方法的执行主体,例如,本申请实施例提供的文字识别方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例
参见图1,该图为本申请实施例提供的一种文字识别方法的流程图。
本申请实施例提供的文字识别方法,包括S1-S5:
S1:获取待识别文本图像。
待识别文本图像是指需要进行文字识别处理(尤其是,进行长文本识别处理)的图像;而且该待识别文本图像包括长文本(尤其是,超长文本)。其中,“长文本”是指字符数超过第一阈值的文本;而且,第一阈值可以预先设定。“超长文本”指字符数超过第二阈值的文本;该第二阈值可以预先设定,而且该第二阈值大于上述“第一阈值”。
另外,本申请实施例不限定待识别文本图像,例如,待识别文本图像可以是图2所示的待处理图像,也可以是图3所示的该待处理图像对应的文本图像。其中,“待处理图像对应的文本图像”是指依据该待处理图像的文本检测结果从该待处理图像中切割下来的图像。另外,“待处理图像”以及“待处理图像的文本检测结果”的相关内容请参见下文S11。
此外,本申请实施例不限定S1的实施方式,为了便于理解,下面结合两个示例进行说明。
示例1,S1具体可以包括:在获取到待处理图像之后,可以直接将该待处理图像,确定为待识别文本图像。
示例2,为了尽可能地避免待处理图像中除了文字以外其他图像信息对长文本识别造成不良影响,S1具体可以包括S11-S12:
S11:在获取到待处理图像之后,对该待处理图像进行文本检测,得到该待处理图像的文本检测结果。
其中,待处理图像是指需要进行图像处理(如,文本检测和/或文字识别)的图像;而且本申请实施例不限定待处理图像,例如,待处理图像可以是一帧视频图像。
待处理图像的文本检测结果用于描述该待处理图像中文本(如,“这是一张包括长文本的图像”)在该待处理图像中所处位置。
另外,本申请实施例不限定S11中“文本检测”的实施方式,可以采用现有的或者未来出现的任一种能够针对图像进行文本检测的方法进行实施。
S12:按照待处理图像的文本检测结果,从该待处理图像中切割出待识别文本图像。
本申请实施例中,在获取到待处理图像(如图2所示)的文本检测结果之后,将该待处理图像中该文本检测结果对应的图像区域切割下来,得到待识别文本图像(如图3所示),以使该待识别文本图像能够更准确地表示出该待处理图像携带的字符信息。
基于上述S1的相关内容可知,在获取到待处理图像(如,一帧视频图像)之后,可以根据该待处理图像,确定待识别文本图像,以使该待识别文本图像用于表示该待处理图像携带的字符信息,以便后续能够基于该待识别文本图像准确地确定出该待处理图像携带的字符信息。
S2:将待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和该至少一个图像切片的位置信息。
其中,“预设切片参数”是指对待识别文本图像进行第一切分处理时所需参考的参数;而且本申请实施例不限定“预设切片参数”,例如,其可以包括切分间隔。“切分间隔”用于表示在针对待识别文本图像进行第一切分处理时两个相邻切分位置之间的距离;而且本申请实施例不限定“切分间隔”(例如,图4所示的512个像素)。
“第一切分处理”用于表示按照上述“预设切片参数”进行实施的切分处理过程。
“至少一个图像切片”是指针对待识别文本图像进行第一切分处理之后得到的至少一个图像片段;而且“至少一个图像切片的位置信息”用于描述该各个图像切片在待识别文本图像中所处位置。
另外,本申请实施例不限定“至少一个图像切片”的确定过程,为了便于理解,下面结合两种可能的实施方式进行说明。
在一种可能的实施方式下,当上述“预设切片参数”包括切分间隔时,“至少一个图像切片”的确定过程具体可以包括:将待识别文本图像按照切分间隔进行第一切分处理,得到至少一个图像切片,以使每个图像切片的长度均为上述“切分间隔”(如,图4所示的512个像素)。
在一些情况(例如,类似于下文S3通过参考“待识别文本图像对应的预设切图位置”确定“待识别文本图像对应的实际切图位置”的情况)下,当上述“第一切分处理”出现切坏字现象(如图5所示的将“结”切成“纟”与“吉”这两部分等现象)时,这些被切坏的字易导致后续发生文字识别错误。例如,当上述“第一切分处理”所涉及的切分位置与下文“预设切图位置”之间存在相同位置(如,均存在图5所示的位于“纟”与“吉”之间的位置)时,易发生文字识别错误(例如,导致将“结”错误地识别为“三”和“吉”这两个字的错误)。
基于上述分析可知,为了尽可能地避免因“第一切分处理”出现切坏字现象而导致的上述不良影响,可以通过控制“第一切分处理”所涉及的切分位置与下文“预设切图位置”之间不存在相同位置进行实现。基于此,本申请实施例还提供了确定“至少一个图像切片”的另一种可能的实施方式,在该实施方式中,当上述“预设切片参数”包括切分间隔和切分偏移长度时,“至少一个图像切片”的确定过程具体可以包括S21-S22:
S21:从待识别文本图像中切除具有切分偏移长度的图像区域,得到待切分图像,以使该待切分图像不包括上述“具有切分偏移长度的图像区域”。
其中,“切分偏移长度”用于表示针对待识别文本图像进行第一切分处理时所需使用的切分偏移量;而且该“切分偏移长度”可以小于上述“切分间隔”。另外,本申请实施例不限定“切分偏移长度”,例如,如图4所示,当上述“切分间隔”为512个像素时,该“切分偏移长度”可以为256个像素。
另外,本申请实施例不限定上述“具有切分偏移长度的图像区域”的位置,例如,可以位于该待识别文本图像的最左端区域(如图4所示),也可以位于该待识别文本图像的最右端区域,还可以位于该待识别文本图像的预设内部区域。
此外,本申请实施例不限定S21的实施方式,例如,在一种可能的实施方式中,若上述“预设切片参数”还包括切除起始位置,则S21具体可以包括S211-S212:
S211:根据切除起始位置和切分偏移长度,确定切除区域位置。
其中,“切除起始位置”用于表示上述“具有切分偏移长度的图像区域”的一个边界位置(如,左端边界位置)在上述“待识别文本图像”中所处位置;而且本申请实施例不限定“切除起始位置”,例如,如图4所示,其可以是该待识别文本图像的左端边界位置。
“切除区域位置”用于表示上述“具有切分偏移长度的图像区域”在“待识别文本图像”中所处位置;而且该“切除区域位置”的长度为上述“切分偏移长度”,该“切除区域位置”的边界位置包括上述“切除起始位置”。
S212:按照切除区域位置对待识别文本图像进行区域切除处理,得到待切分图像。
本申请实施例中,在获取到切除区域位置之后,可以从待识别文本图像中切除占有该切除区域位置的图像区域(也就是,上述“具有切分偏移长度的图像区域”),并将该待识别文本图像的剩余区域确定为待切分图像,以使该待切分图像用于表示该待识别文本图像中除了上述“具有切分偏移长度的图像区域”以外的其他图像区域,从而使得该待切分图像不包括上述“具有切分偏移长度的图像区域”。
基于上述S21的相关内容可知,在获取到待识别文本图像之后,可以从待识别文本图像中切除具有切分偏移长度的图像区域,得到待切分图像,以使该待切分图像不包括上述“具有切分偏移长度的图像区域”,以便后续能够针对该待切分图像进行切分处理。
S22:将待切分图像按照切分间隔进行切分处理,得到至少一个图像切片。
本申请实施例中,在获取到待切分图像之后,可以将待切分图像按照切分间隔进行切分处理,得到至少一个图像切片(如图4所示的多个图像切片)。其中,因上述“待切分图像”相较于“待识别文本图像”来说缺少一部分区域,使得针对该“待切分图像”进行切分处理时所使用的切分位置相对于“待识别文本图像”来说发生了一定量的偏移,从而使得针对上述“待切分图像”进行切分处理时所使用的切分位置几乎不可能与下文“预设切图位置”之间存在相同位置,如此能够有效地避免因“第一切分处理”出现切坏字现象而导致的上述不良影响。
基于上述S2的相关内容可知,在获取到待识别文本图像之后,可以将待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和该至少一个图像切片的位置信息,以便后续能够基于该至少一个图像切片”实现针对该“待识别文本图像”的文字识别结果。其中,因各个图像切片的长度远远小于待识别文本图像的长度,使得针对各个图像切片的处理过程耗时远远小于针对待识别文本图像的处理过程耗时,如此有利于提高文字识别效率。
S3:根据至少一个图像切片的单字检测结果和该至少一个图像切片的位置信息,确定待识别文本图像对应的实际切图位置。
其中,“至少一个图像切片的单字检测结果”用于表示各个图像切片中各个字符所处位置。
另外,本申请实施例不限定“至少一个图像切片的单字检测结果”的确定过程,例如,可以分别各个图像切片进行单字检测处理,得到各个图像切片的单字检测结果。需要说明的是,本申请实施例不限定“单字检测处理”的实施方式,例如,可以采用现有的或者未来出现的任一种单字检测方法进行实施。又如,可以采用下文所示的“单字检测模型”进行实施。
此外,为了进一步提高单字检测效率,本申请实施例还提供了确定“至少一个图像切片的单字检测结果”的另一种可能的实施方式,其具体可以包括:利用预先构建的单字检测模型对至少一个图像切片进行并行单字检测处理,得到所述至少一个图像切片的单字检测结果。
其中,单字检测模型用于针对该单字检测模型的输入数据进行字符位置检测(如,进行字符边界位置检测)。
本申请实施例不限定单字检测模型的模型结构,例如,在一种可能的实施方式下,如图6所示,该单字检测模型600可以包括特征提取层601和单字位置确定层602,而且该单字位置确定层602的输入数据包括该特征提取层601的输出数据。
为了便于理解单字检测模型600的工作原理,下面以上述目标图像的单字检测结果的确定过程为例进行说明。其中,“目标图像”用于表示上述“至少一个图像切片”中的任一图像切片。
作为示例,利用单字检测模型600确定上述“单字检测结果”的过程,具体可以包括步骤11-步骤12:
步骤11:将目标图像输入特征提取层601,得到该特征提取层601输出的图像位置特征。
其中,特征提取层601用于针对该特征提取层601的输入数据进行特征提取;而且本申请实施例不限定特征提取层601,例如,该特征提取层601可以利用任一种卷积神经网络(Convolutional Neural Networks,CNN)进行实施(如,可以采用(Visual GeometryGroup,VGG)网络进行实施)。
图像位置特征用于表示目标图像中各个位置携带的信息(尤其是,在宽度方向上各个位置携带的信息)。另外,本申请实施例不限定图像位置特征,例如,若目标图像为[C,H,W]矩阵,则该图像位置特征可以是[1,1,W/4]的矩阵。其中,C表示图像通道数(如,C=3),H表示图像高度(如,H=32),W表示图像宽度(如,W=512)。
步骤12:将图像位置特征输入单字位置确定层602,得到该单字位置确定层602输出的目标图像的单字检测结果。
其中,单字位置确定层602用于针对该单字位置确定层602的输入数据进行字符边界位置识别处理。
另外,本申请实施例不限定单字位置确定层602,例如,在一种可能的实施方式下,若图像位置特征的宽度小于目标图像的宽度(例如,该图像位置特征的宽度是该目标图像的宽度的1/4),则该单字位置确定层602可以包括位置分类层和位置映射层,而且该位置映射层的输入数据包括该位置分类层的输出数据。
为了便于理解单字位置确定层602的工作原理,下面以上述“单字检测结果”的确定过程为例进行说明。
作为示例,若单字位置确定层602包括位置分类层和位置映射层,则上述“单字检测结果”的确定过程可以包括步骤21-步骤22:
步骤21:将图像位置特征输入位置分类层,得到该位置分类层输出的位置分类结果。
其中,位置分类层用于判断该位置分类层的输入数据是否属于字符边界位置。
另外,本申请实施例不限定位置分类层的实施方式,可以采用现有的或者未来出现的任一种分类器(如,softmax等)进行实施。
位置分类结果用于表示目标图像中各个位置是否属于字符边界(尤其是,目标图像在宽度方向上各个位置是否属于字符边界)。
步骤22:将位置分类结果输入位置映射层,得到该位置映射层输出的目标图像的单字检测结果。
其中,位置映射层用于针对该位置映射层进行映射处理。
另外,本申请实施例不限定位置映射层的工作原理,例如,该位置映射层可以将位置分类结果中各个位置按照公式(1)进行映射处理。
y=a×x+b (1)
式中,y表示x对应的映射后位置坐标;“a”表示目标图像的宽度与图像位置特征的宽度之间的比值(如,4);“x”表示位置分类结果中的一个位置坐标(尤其是,位置分类结果在宽度方向上的一个位置坐标);“b”表示特征提取层601中所使用的卷积偏移量。
可见,在一些情况下,因图像位置特征的宽度小于目标图像的宽度(例如,该图像位置特征的宽度是该目标图像的宽度的1/4),使得基于该图像位置特征确定的位置分类结果的宽度也小于目标图像的宽度(例如,该位置分类结果的宽度也是该目标图像的宽度的1/4),此时,为了能够更准确地描述出目标图像在宽度方向上各个位置是否属于字符边界,可以将该位置分类结果在宽度方向上的各个位置坐标按照公式(1)映射到该目标图像在宽度方向上的位置坐标。
基于上述步骤11至步骤12的相关内容可知,对于图6所示的单字检测模型600来说,在将目标图像输入该单字检测模型600之后,可以由该单字检测模型600能够针对该目标图像依次进行特征提取处理以及单字位置确定处理,得到并输出该目标图像的单字检测结果,以使该单字检测结果能够准确地表示出该目标图像中各个字符的边界位置。
另外,单字检测模型可以预先根据样本文本图像和该样本文本图像中各个字符的实际位置进行构建。其中,样本文本图像是指构建单字检测模型所使用的图像;而且本申请实施例不限定样本文本图像的个数。另外,本申请实施例不限定样本文本图像中各个字符的实际位置,例如,其可以样本文本图像中各个字符的实际边界位置。
此外,本申请实施例不限定单字检测模型的构建过程,例如,在一种可能的实施方式中,单字检测模型的构建过程可以包括步骤31-步骤34:
步骤31:将样本文本图像输入待训练模型,得到该待训练模型输出的该样本文本图像的预测字符位置。
其中,待训练模型用于针对该待训练模型的数据输入进行字符位置检测(如,进行字符边界位置检测)。另外,待训练模型的模型结构与上文“单字检测模型”相同,故待训练模型的模型结构的相关内容可以参见上文“单字检测模型”的模型结构的相关内容。
样本文本图像的预测字符位置用于描述该样本文本图像中至少一个字符的预测位置。
步骤32:判断是否达到预设停止条件,若是,则执行步骤34;若否,则执行步骤33。
其中,预设停止条件可以预先设定,例如,该预设停止条件可以是待训练模型的损失值低于预设损失阈值,也可以是该待训练模型的损失值的变化率低于预设变化率阈值(也就是,该待训练模型的字符位置检测性能处于收敛状态),还可以是该待训练模型的更新次数达到预设次数阈值。
待训练模型的损失值用于表征该待训练模型的字符位置检测性能;而且,本申请实施例不限定待训练模型的损失值的确定方法。
另外,预设损失阈值、预设变化率阈值、以及预设次数阈值均可以预先设定。
步骤33:根据样本文本图像的预测字符位置和该样本文本图像中各个字符的实际位置,更新待训练模型,并返回执行步骤31。
本申请实施例中,在确定当前轮的待训练模型仍未达到预设停止条件之后,可以确定当前轮的待训练模型仍然具有较差的字符位置检测性能,故可以依据该样本文本图像的预测字符位置和该样本文本图像中各个字符的实际位置之间的差异性,对当前轮的待训练模型进行更新,以使更新后的待训练模型具有更好的字符位置检测性能,并返回继续执行步骤31及其后续步骤。
步骤34:根据待训练模型,确定单字检测模型。
本申请实施例中,在确定当前轮的待训练模型已达到预设停止条件之后,可以确定当前轮的待训练模型已经具有较好的字符位置检测性能,故可以依据当前轮的待训练模型,确定单字检测模型(例如,可以直接将当前轮的待训练模型确定为单字检测模型。又如,可以按照当前轮的待训练模型的模型结构以及模型参数,确定该单字检测模型的模型结构以及模型参数,以使该单字检测模型的模型结构以及模型参数分别与该当前轮的待训练模型的模型结构以及模型参数保持一致),如此使得单字检测模型也具有较好的字符位置检测性能,从而使得后续利用该单字检测模型针对至少一个图像切片确定的单字检测结果能够准确地表示出各个图像切片中各个字符所处位置。
上述“待识别文本图像对应的实际切图位置”用于描述针对该待识别文本图像的实际切割位置;而且,本申请实施例不限定“待识别文本图像对应的实际切图位置”的确定过程(也就是,S3的实施方式),例如,可以先根据至少一个图像切片的单字检测结果和该至少一个图像切片的位置信息,确定待识别文本图像的单字位置信息;再根据该待识别文本图像的单字位置信息,确定该待识别文本图像对应的实际切图位置,以使该“待识别文本图像对应的实际切图位置”尽可能地不会出现在字符内部。
在一些情况下,终端用户可以设定文字识别效率需求;或者,不同应用场景可以对应于不同的文字识别效率需求。基于此可知,为了满足上述“文字识别效率需求”,本申请实施例还提供了S3的一种可能的实施方式,其具体可以包括:根据至少一个图像切片的单字检测结果、该至少一个图像切片的位置信息、和待识别文本图像对应的预设切图位置,确定该待识别文本图像对应的实际切图位置。
其中,“待识别文本图像对应的预设切图位置”是指针对该待识别文本图像预先设定的切割位置;而且该“待识别文本图像对应的预设切图位置”是根据上述“文字识别效率需求”确定的。
另外,本申请实施例不限定待识别文本图像对应的预设切图位置,例如,其可以包括至少一个硬切位置。其中,“硬切位置”用于表示待识别文本图像对应的一个预设切割位置。为了便于理解,下面以图7所示的待识别文本图像为例进行说明。
作为示例,若待识别文本图像为图7所示的待识别文本图像,则该待识别文本图像对应的预设切图位置可以为{512,1024,1536,2048}。其中,“512”、“1024”、“1536”、以及“2048”均是待识别文本图像对应的硬切位置。
此外,本申请实施例不限定待识别文本图像对应的预设切图位置的确定过程,例如,其具体可以包括步骤41-步骤42:
步骤41:获取预设切分参数。
其中,“预设切分参数”用于表示一张切图的最大宽度(也就是,上述“预设切图位置”中两个相邻硬切位置之间的距离);而且该预设切分参数可以根据应用场景预先设定(尤其可以根据该应用场景下的文字识别效率需求进行设定)。例如,预设切分参数可以是512个像素值。
步骤42:根据预设切分参数和待识别文本图像,确定该待识别文本图像对应的预设切图位置。
本申请实施例中,在获取到待识别文本图像之后,可以参考预设切分参数,确定待识别文本图像对应的预设切图位置(如图7中{512,1024,1536,2048}),以使该预设切图位置中相邻位置之间的位置间隔不超过该预设切分参数。
基于上述步骤41至步骤42的相关内容可知,待识别文本图像对应的预设切图位置可以依据应用场景确定(尤其可以依据该应用场景下的文字识别效率需求进行确定),使得基于该预设切图位置确定的实际切图位置能够在满足该应用场景下的文字识别效率需求的前提下进行图片切分,从而使得本申请提供的文字识别方法能够满足该应用场景下的文字识别效率需求。
另外,本申请实施例不限定上述参考上述“预设切图位置”确定待识别文本图像对应的实际切图位置的实施方式,例如,其具体可以包括步骤51-步骤52:
步骤51:将至少一个图像切片的单字检测结果按照该至少一个图像切片的位置信息进行拼接处理,得到待识别文本图像的单字检测结果。
其中,“待识别文本图像的单字检测结果”用于描述该待识别文本图像中至少一个字符所处位置。
另外,本申请实施例不限定“待识别文本图像的单字检测结果”,例如,该单字检测结果可以包括至少一个边界位置。其中,“边界位置”用于表示一个字符的边缘位置。为了便于理解,下面以图7所示的待识别文本图像为例进行说明。
作为示例,若待识别文本图像为图7所示的待识别文本图像,则该待识别文本图像的单字检测结果可以为{43,82,293,309,……}。其中,“43”表示“这”的左边界,“82”表示“这”的右边界,“293”表示“是”的左边界,“309”表示“是”的右边界,……(以此类推)。
基于上述步骤51的相关内容可知,在获取到至少一个图像切片的单字检测结果之后,可以将该至少一个图像切片的单字检测结果按照该至少一个图像切片的位置信息进行拼接处理,得到待识别文本图像的单字检测结果,以使该“待识别文本图像的单字检测结果”用于描述该待识别文本图像中至少一个字符所处位置。
步骤42:根据待识别文本图像的单字检测结果和该待识别文本图像对应的预设切图位置,确定该待识别文本图像对应的实际切图位置。
本申请实施例中,在获取到待识别文本图像的单字检测结果、以及该待识别文本图像对应的预设切图位置之后,可以参考上述两者确定该待识别文本图像对应的实际切图位置;而且该确定过程具体可以包括:如图7所示,可以利用预设算法,将待识别文本图像对应的预设切图位置与该待识别文本图像的单字检测结果进行匹配,得到该待识别文本图像对应的实际切图位置。其中,预设算法可以预先设定,例如,预设算法可以是贪心算法或者匈牙利算法。
为了便于理解步骤42,下面结合示例进行说明。
下面结合两个示例进行说明。
示例一,步骤42具体可以包括步骤61-步骤63:
步骤61:根据待识别文本图像的单字检测结果和该待识别文本图像对应的预设切图位置,确定第一位置集合和第二位置集合。
其中,第一位置集合中位置的个数不少于第二位置集合中位置的个数。也就是,第一位置集合是指切图位置较多的集合,且第二位置集合是指切图位置较少的集合。
另外,本申请实施例不限定步骤61的实施方式,例如,若待识别文本图像的单字检测结果包括至少一个边界位置,且该待识别文本图像对应的预设切图位置包括至少一个硬切位置,则步骤61具体可以包括步骤611-步骤612:
步骤611:若边界位置的个数不低于硬切位置的个数,则将上述“至少一个边界位置”的集合确定为第一位置集合,并将上述“至少一个硬切位置”的集合确定为第二位置集合。
步骤612:若边界位置的个数低于硬切位置的个数,则将上述“至少一个硬切位置”的集合确定为第一位置集合,并将上述“至少一个边界位置”的集合确定为第二位置集合。
基于上述步骤611至步骤612的相关内容可知,第一位置集合和第二位置集合可以依据单字检测结果表示的切图位置(也就是,边界位置)个数以及预设切图位置表示的切图位置(也就是,硬切位置)个数之间的大小关系确定,以使该第一位置集合用于表示单字检测结果表示的切图位置以及预设切图位置表示的切图位置中位置个数较多的集合,且该第二位置集合用于表示单字检测结果表示的切图位置以及预设切图位置表示的切图位置中位置个数较少的集合。例如,若待识别文本图像的单字检测结果为图7所示的位置集合{43,82,293,309,……},且该待识别文本图像对应的预设切图位置为图4所示的位置集合{512,1024,1536,2048},则第一位置集合可以是{43,82,293,309,……},且第二位置集合可以是{512,1024,1536,2048}。
步骤62:将第二位置集合中各个位置分别与第一位置集合中至少一个位置进行匹配,得到第二位置集合中各个位置对应的匹配结果。
本申请实施例中,若第二位置集合包括N个位置,则可以从第一位置集合中查找与该第二位置集合中第n个位置匹配成功的位置(例如,从第一位置集合中查找与该第二位置集合中第n个位置距离最近的位置),得到该第二位置集合中第n个位置对应的匹配结果,以使该第二位置集合中第n个位置对应的匹配结果用于表示在第一位置集合中存在的与该第n个位置匹配成功的位置。例如,如图7所示,若第一位置集合是{43,82,293,309,……},且第二位置集合是{512,1024,1536,2048},则第二位置集合中“512”对应的匹配结果可以是“512”与“335”匹配成功、……(以此类推)。
步骤63:根据第二位置集合中各个位置对应的匹配结果,确定待识别文本图像对应的实际切图位置。
本申请实施例中,在获取到第二位置集合中各个位置对应的匹配结果之后,可以参考该第二位置集合中各个位置对应的匹配结果,确定该待识别文本图像对应的实际切图位置(如,直接将该第二位置集合中各个位置对应的匹配结果,确定为该待识别文本图像对应的实际切图位置)。
基于上述步骤61至步骤63的相关内容可知,在获取到待识别文本图像的单字检测结果和该待识别文本图像对应的预设切图位置之后,可以先确定单字检测结果表示的切图位置个数以及该预设切图位置表示的切图位置个数;再将具有较少切图位置的切图位置集合中各个切图位置分别与具有较多切图位置的切图位置集合中至少一个切图位置进行匹配,得到具有较少切图位置的切图位置集合中各个切图位置对应的匹配结果;最后,依据该匹配结果,确定待识别文本图像对应的实际切图位置。
示例二,若待识别文本图像的单字检测结果包括至少一个边界位置,且该待识别文本图像对应的预设切图位置包括至少一个硬切位置,则步骤42具体可以包括步骤71-步骤74:
步骤71:根据待识别文本图像的单字检测结果和该待识别文本图像对应的预设切图位置,确定第一位置集合和第二位置集合。
需要说明的是,步骤71的相关内容请参见上文S21。
步骤72:若确定第二位置集合包括至少一个边界位置,则将该第二位置集合确定为待识别文本图像对应的实际切图位置。
本申请实施例中,若确定第二位置集合包括至少一个边界位置,则可以确定该第二位置集合是根据待识别文本图像的单字检测结果确定的,使得该第二位置集合中各个位置均不会出现在字符内部,故可以直接将该第二位置集合确定为待识别文本图像对应的实际切图位置,以使该实际切图位置不会出现在字符内部,从而使得在基于该实际切图位置进行切图时不会出现切坏字符的现象,如此能够有效地避免该待识别文本图像对应的各个切图(中出现不完整字符,从而有利于提高长文本识别的识别准确性。
步骤73:若确定第二位置集合包括至少一个硬切位置,则将第二位置集合中各个位置分别与第一位置集合中至少一个位置进行匹配,得到第二位置集合中各个位置对应的匹配结果。
需要说明的是,步骤73可以采用上文S22的任一实施方式进行实施。
可见,若确定第二位置集合包括至少一个硬切位置,则可以确定该第二位置集合是根据待识别文本图像对应的预设切图位置确定的,使得该第二位置集合有可能出现在字符内部,故可以从第一位置集合中分别查找能够与第二位置集合中各个位置匹配成功的位置,以便后续能够利用这些查找到的位置确定待识别文本图像对应的实际切图位置,以使该实际切图位置不会出现在字符内部,从而使得在基于该实际切图位置进行切图时不会出现切坏字符的现象,如此能够有效地避免该待识别文本图像对应的各个切图中出现不完整字符,从而有利于提高长文本识别的识别准确性。
步骤74:根据第二位置集合中各个位置对应的匹配结果,确定待识别文本图像对应的实际切图位置。
需要说明的是,步骤74的相关内容请参见上文S23。
基于上述步骤71至步骤74的相关内容可知,在获取到待识别文本图像的单字检测结果和该待识别文本图像对应的预设切图位置之后,应该尽可能地从该单字检测结果中挑选出该待识别文本图像对应的实际切图位置,以使该实际切图位置能够在不切坏字符的情况下尽可能地满足应用场景下的文字识别效率需求。
基于上述步骤42的相关内容可知,在获取到待识别文本图像的单字检测结果和该待识别文本图像对应的预设切图位置之后,可以综合上述两者来确定该待识别文本图像对应的实际切图位置,以使该待识别文本图像对应的实际切图位置能够在不切坏字符的情况下尽可能地满足应用场景下的文字识别效率需求。其中,因上述“待识别文本图像对应的预设切图位置”是依据应用场景对应的预设切分参数确定,使得该预设切图位置符合该应用场景下的文字识别效率需求,从而使得基于该预设切图位置确定的实际切图位置也符合该应用场景下的文字识别效率需求,从而使得基于该预设切图位置实现的文字识别过程能够满足该应用场景下的文字识别效率需求,如此实现在保证长文本识别的识别准确性的前提下尽可能地满足不同应用场景下的文字识别效率需求。
基于上述S3的相关内容可知,在获取到至少一个图像切片的单字检测结果和该至少一个图像切片的位置信息之后,可以参考该至少一个图像切片的单字检测结果以及位置信息,确定待识别文本图像对应的实际切图位置。
S4:按照待识别文本图像对应的实际切图位置,对该待识别文本图像进行第二切分处理,得到至少一个待使用图片。
其中,“第二切分处理”是指按照待识别文本图像对应的实际切图位置对该待识别文本图像进行切分处理的过程。
可见,在获取到待识别文本图像对应的实际切图位置之后,可以按照该实际切图位置对该待识别文本图像进行切分,得到该待识别文本图像对应的各个切图,并将各个切图分别确定为待使用图片。
S5:根据至少一个待使用图片的文字识别结果,确定待识别文本图像的文字识别结果。
其中,待使用图片的文字识别结果用于描述该待使用图片携带的字符信息;而且本申请实施例不限定待使用图片的文字识别结果的确定过程,可以采用现有的或者未来出现的任一种文字识别方法进行实施(例如,可以采用OCR模型进行实施)。另外,为了提高文字识别效率,可以将所有待使用图片并行进行文字识别处理,得到各个待使用图片的文字识别结果。
待识别文本图像的文字识别结果用于描述该待识别文本图像携带的字符信息。
另外,本申请实施例不限定S5的实施方式,例如,S5具体可以包括:将至少一个待使用图片的文字识别结果按照该至少一个待使用图片对应的排列顺序进行拼接,得到待识别文本图像的文字识别结果。
其中,至少一个待使用图片对应的排列顺序用于表示该至少一个待使用图片在待识别文本图像中的位置相邻关系;而且其具体为:排列序号为1的待使用图片与排列序号为2的待使用图片相邻,排列序号为2的待使用图片与排列序号为3的待使用图片相邻,……(以此类推),排列序号为T-1的待使用图片与排列序号为T的待使用图片相邻。其中,T为正整数,T表示待使用图片个数。
基于上述S1至S5的相关内容可知,对于本申请实施例提供的文字识别方法来说,在获取到包括长文本的待识别文本图像之后,先将该待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和该至少一个图像切片的位置信息;再根据该至少一个图像切片的单字检测结果以及位置信息,确定该待识别文本图像对应的实际切图位置;然后,按照该待识别文本图像对应的实际切图位置,对该待识别文本图像进行第二切分处理,得到至少一个待使用图片;最后,根据该至少一个待使用图片的文字识别结果,确定该待识别文本图像的文字识别结果,如此能够实现针对长文本的文字识别过程。
可见,因上述“至少一个图像切片的单字检测结果以及位置信息”能够准确地表示出待识别文本图像中至少一个字符的位置信息,使得基于该单字检测结果确定的实际切图位置尽可能地不会出现在字符内部,从而使得在基于该实际切图位置进行切图时尽可能地不会出现切坏字符的现象,如此能够尽可能地避免该待识别文本图像对应的各个切图(也就是,各个待使用图片)中出现不完整字符,从而有利于提高长文本识别的识别准确性。还因各个图像切片的长度远远小于待识别文本图像的长度,使得针对各个图像切片的处理耗时远远小于针对待识别文本图像的处理耗时,如此有利于提高文字识别效率。
基于上述方法实施例提供的文字识别方法,本申请实施例还提供了一种文字识别装置,下面结合附图进行解释和说明。
装置实施例
装置实施例提供的文字识别装置的技术详情,请参照上述方法实施例。
参见图8,该图为本申请实施例提供的一种文字识别装置的结构示意图。
本申请实施例提供的文字识别装置800,包括:
第一切分单元801,用于在获取到待识别文本图像之后,将所述待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和所述至少一个图像切片的位置信息;其中,所述待识别文本图像包括长文本;
位置确定单元802,用于根据所述至少一个图像切片的单字检测结果和所述至少一个图像切片的位置信息,确定所述待识别文本图像对应的实际切图位置;
第二切分单元803,用于按照所述待识别文本图像对应的实际切图位置,对所述待识别文本图像进行第二切分处理,得到至少一个待使用图片;
结果确定单元804,用于根据所述至少一个待使用图片的文字识别结果,确定所述待识别文本图像的文字识别结果。
在一种可能的实施方式中,所述位置确定单元802,具体用于:根据所述至少一个图像切片的单字检测结果、所述至少一个图像切片的位置信息、和所述待识别文本图像对应的预设切图位置,确定所述待识别文本图像对应的实际切图位置。
在一种可能的实施方式中,所述位置确定单元802,具体用于:将所述至少一个图像切片的单字检测结果按照所述至少一个图像切片的位置信息进行拼接处理,得到所述待识别文本图像的单字检测结果;根据所述待识别文本图像的单字检测结果和所述待识别文本图像对应的预设切图位置,确定所述待识别文本图像对应的实际切图位置。
在一种可能的实施方式中,所述预设切片参数包括切分间隔和切分偏移长度;其中,所述切分偏移长度小于所述切分间隔;
所述第一切分单元801,包括:
区域切除子单元,用于从所述待识别文本图像中切除具有所述切分偏移长度的图像区域,得到待切分图像;
图像切片子单元,用于将所述待切分图像按照所述切分间隔进行切分处理,得到至少一个图像切片。
在一种可能的实施方式中,所述预设切片参数还包括切除起始位置;
所述区域切除子单元,具体用于:根据所述切除起始位置和所述切分偏移长度,确定切除区域位置;按照所述切除区域位置对所述待识别文本图像进行区域切除处理,得到所述待切分图像。
在一种可能的实施方式中,所述至少一个图像切片的单字检测结果的确定过程,包括:利用预先构建的单字检测模型对所述至少一个图像切片进行并行单字检测处理,得到所述至少一个图像切片的单字检测结果;其中,所述单字检测模型是根据样本文本图像和所述样本文本图像中各个字符的实际位置进行构建的。
基于上述文字识别装置800的相关内容可知,对于文字识别装置800来说,在获取到包括长文本的待识别文本图像之后,先将该待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和该至少一个图像切片的位置信息;再根据该至少一个图像切片的单字检测结果以及位置信息,确定该待识别文本图像对应的实际切图位置;然后,按照该待识别文本图像对应的实际切图位置,对该待识别文本图像进行第二切分处理,得到至少一个待使用图片;最后,根据该至少一个待使用图片的文字识别结果,确定该待识别文本图像的文字识别结果,如此能够实现针对长文本的文字识别过程。
可见,因上述“至少一个图像切片的单字检测结果以及位置信息”能够准确地表示出待识别文本图像中至少一个字符的位置信息,使得基于该单字检测结果确定的实际切图位置尽可能地不会出现在字符内部,从而使得在基于该实际切图位置进行切图时尽可能地不会出现切坏字符的现象,如此能够尽可能地避免该待识别文本图像对应的各个切图(也就是,各个待使用图片)中出现不完整字符,从而有利于提高长文本识别的识别准确性。还因各个图像切片的长度远远小于待识别文本图像的长度,使得针对各个图像切片的处理耗时远远小于针对待识别文本图像的处理耗时,如此有利于提高文字识别效率。
进一步地,本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的文字识别方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的文字识别方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的文字识别方法的任一实施方式。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (9)
1.一种文字识别方法,其特征在于,所述方法包括:
在获取到待识别文本图像之后,将所述待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和所述至少一个图像切片的位置信息;其中,所述待识别文本图像包括长文本;所述待识别文本图像是按照所述长文本在待处理图像中所处位置从待处理图像中切割得到的;各所述图像切片的长度相同;所述预设切片参数包括切分间隔和切分偏移长度;所述至少一个图像切片的确定过程,包括:从所述待识别文本图像中切除具有所述切分偏移长度的图像区域,得到待切分图像;将所述待切分图像按照所述切分间隔进行切分处理,得到至少一个图像切片;
根据所述至少一个图像切片的单字检测结果和所述至少一个图像切片的位置信息,确定所述待识别文本图像对应的实际切图位置,以使所述实际切图位置不出现在所述待识别文本图像中的字符内部;所述至少一个图像切片的单字检测结果是利用预先构建的单字检测模型对所述至少一个图像切片进行并行单字检测处理所得到的;
按照所述待识别文本图像对应的实际切图位置,对所述待识别文本图像进行第二切分处理,得到至少一个待使用图片,以使所述待使用图片中不存在不完整字符;
根据所述至少一个待使用图片的文字识别结果,确定所述待识别文本图像的文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个图像切片的单字检测结果和所述至少一个图像切片的位置信息,确定所述待识别文本图像对应的实际切图位置,包括:
根据所述至少一个图像切片的单字检测结果、所述至少一个图像切片的位置信息、和所述待识别文本图像对应的预设切图位置,确定所述待识别文本图像对应的实际切图位置。
3.根据权利要求2所述的方法,其特征在于,所述待识别文本图像对应的实际切图位置的确定过程,包括:
将所述至少一个图像切片的单字检测结果按照所述至少一个图像切片的位置信息进行拼接处理,得到所述待识别文本图像的单字检测结果;
根据所述待识别文本图像的单字检测结果和所述待识别文本图像对应的预设切图位置,确定所述待识别文本图像对应的实际切图位置。
4.根据权利要求1所述的方法,其特征在于,所述预设切片参数还包括切除起始位置;
所述待切分图像的确定过程,包括:
根据所述切除起始位置和所述切分偏移长度,确定切除区域位置;
按照所述切除区域位置对所述待识别文本图像进行区域切除处理,得到所述待切分图像。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述至少一个图像切片的单字检测结果的确定过程,包括:
利用预先构建的单字检测模型对所述至少一个图像切片进行并行单字检测处理,得到所述至少一个图像切片的单字检测结果;其中,所述单字检测模型是根据样本文本图像和所述样本文本图像中各个字符的实际位置进行构建的。
6.一种文字识别装置,其特征在于,包括:
第一切分单元,用于在获取到待识别文本图像之后,将所述待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和所述至少一个图像切片的位置信息;其中,所述待识别文本图像包括长文本;所述待识别文本图像是按照所述长文本在待处理图像中所处位置从待处理图像中切割得到的;各所述图像切片的长度相同;所述预设切片参数包括切分间隔和切分偏移长度;所述至少一个图像切片的确定过程,包括:从所述待识别文本图像中切除具有所述切分偏移长度的图像区域,得到待切分图像;将所述待切分图像按照所述切分间隔进行切分处理,得到至少一个图像切片;
位置确定单元,用于根据所述至少一个图像切片的单字检测结果和所述至少一个图像切片的位置信息,确定所述待识别文本图像对应的实际切图位置,以使所述实际切图位置不出现在所述待识别文本图像中的字符内部;所述至少一个图像切片的单字检测结果是利用预先构建的单字检测模型对所述至少一个图像切片进行并行单字检测处理所得到的;
第二切分单元,用于按照所述待识别文本图像对应的实际切图位置,对所述待识别文本图像进行第二切分处理,得到至少一个待使用图片,以使所述待使用图片中不存在不完整字符;
结果确定单元,用于根据所述至少一个待使用图片的文字识别结果,确定所述待识别文本图像的文字识别结果。
7.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-5中任一项所述的方法。
9.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-5中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988932.1A CN113657369B (zh) | 2021-08-26 | 2021-08-26 | 一种文字识别方法及其相关设备 |
PCT/CN2022/107728 WO2023024793A1 (zh) | 2021-08-26 | 2022-07-26 | 一种文字识别方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988932.1A CN113657369B (zh) | 2021-08-26 | 2021-08-26 | 一种文字识别方法及其相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657369A CN113657369A (zh) | 2021-11-16 |
CN113657369B true CN113657369B (zh) | 2024-05-24 |
Family
ID=78492998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110988932.1A Active CN113657369B (zh) | 2021-08-26 | 2021-08-26 | 一种文字识别方法及其相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113657369B (zh) |
WO (1) | WO2023024793A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657369B (zh) * | 2021-08-26 | 2024-05-24 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298982A (zh) * | 2013-07-16 | 2015-01-21 | 深圳市腾讯计算机系统有限公司 | 一种文字识别方法及装置 |
CN105046254A (zh) * | 2015-07-17 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 字符识别方法及装置 |
CN105678293A (zh) * | 2015-12-30 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种基于cnn-rnn的复杂图像字序列识别方法 |
CN106056114A (zh) * | 2016-05-24 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 名片内容识别方法和装置 |
CN110991437A (zh) * | 2019-11-28 | 2020-04-10 | 北京嘉楠捷思信息技术有限公司 | 字符识别方法及其装置、字符识别模型的训练方法及其装置 |
CN111582085A (zh) * | 2020-04-26 | 2020-08-25 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
CN113139629A (zh) * | 2020-01-16 | 2021-07-20 | 武汉金山办公软件有限公司 | 一种字体识别方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919014B (zh) * | 2019-01-28 | 2023-11-03 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN110738602B (zh) * | 2019-09-12 | 2021-01-01 | 北京三快在线科技有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
CN113657369B (zh) * | 2021-08-26 | 2024-05-24 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
-
2021
- 2021-08-26 CN CN202110988932.1A patent/CN113657369B/zh active Active
-
2022
- 2022-07-26 WO PCT/CN2022/107728 patent/WO2023024793A1/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298982A (zh) * | 2013-07-16 | 2015-01-21 | 深圳市腾讯计算机系统有限公司 | 一种文字识别方法及装置 |
CN105046254A (zh) * | 2015-07-17 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 字符识别方法及装置 |
CN105678293A (zh) * | 2015-12-30 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种基于cnn-rnn的复杂图像字序列识别方法 |
CN106056114A (zh) * | 2016-05-24 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 名片内容识别方法和装置 |
CN110991437A (zh) * | 2019-11-28 | 2020-04-10 | 北京嘉楠捷思信息技术有限公司 | 字符识别方法及其装置、字符识别模型的训练方法及其装置 |
CN113139629A (zh) * | 2020-01-16 | 2021-07-20 | 武汉金山办公软件有限公司 | 一种字体识别方法、装置、电子设备及存储介质 |
CN111582085A (zh) * | 2020-04-26 | 2020-08-25 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
Jingkang Kang,Jianing Zhou.Multiple character Embeddings for Chinese Word Segmentation.《arXiv:1808.04963v2》.2018,全文. * |
李文华 ; 罗改龙 ; .基于NLP的OCR后处理方法.软件导刊.2010,(第10期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
WO2023024793A1 (zh) | 2023-03-02 |
CN113657369A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146892B (zh) | 一种基于美学的图像裁剪方法及装置 | |
CN112101317B (zh) | 页面方向识别方法、装置、设备及计算机可读存储介质 | |
RU2697649C1 (ru) | Способы и системы сегментации документа | |
EP3734496A1 (en) | Image analysis method and apparatus, and electronic device and readable storage medium | |
CN113657370B (zh) | 一种文字识别方法及其相关设备 | |
CN112041851A (zh) | 一种识别文本的方法及终端设备 | |
CN108734159B (zh) | 一种图像中敏感信息的检测方法及系统 | |
CN110807110B (zh) | 结合局部和全局特征的图片搜索方法、装置及电子设备 | |
CN112434612A (zh) | 吸烟检测方法、装置、电子设备及计算机可读存储介质 | |
CN111652140A (zh) | 基于深度学习的题目精准分割方法、装置、设备和介质 | |
CN113657369B (zh) | 一种文字识别方法及其相关设备 | |
CN111612004A (zh) | 一种基于语义内容的图像裁剪方法及装置 | |
CN114005019B (zh) | 一种翻拍图像识别方法及其相关设备 | |
CN114519717A (zh) | 一种图像处理方法及装置、计算机设备、存储介质 | |
CN113780297A (zh) | 图像处理方法、装置、设备以及存储介质 | |
CN113887375A (zh) | 一种文本识别方法、装置、设备及存储介质 | |
CN113902899A (zh) | 训练方法、目标检测方法、装置、电子设备以及存储介质 | |
CN113298852A (zh) | 目标跟踪方法、装置、电子设备及计算机可读存储介质 | |
CN111179287A (zh) | 人像实例分割方法、装置、设备及存储介质 | |
CN114511862B (zh) | 表格识别方法、装置及电子设备 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN112364835B (zh) | 视频信息取帧方法、装置、设备及存储介质 | |
CN113011409A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN113592807A (zh) | 一种训练方法、图像质量确定方法及装置、电子设备 | |
CN114494678A (zh) | 文字识别方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |