CN115331234A - 存储有图像处理程序的计算机可读取的非瞬时性记录介质、以及图像处理装置 - Google Patents

存储有图像处理程序的计算机可读取的非瞬时性记录介质、以及图像处理装置 Download PDF

Info

Publication number
CN115331234A
CN115331234A CN202211035324.XA CN202211035324A CN115331234A CN 115331234 A CN115331234 A CN 115331234A CN 202211035324 A CN202211035324 A CN 202211035324A CN 115331234 A CN115331234 A CN 115331234A
Authority
CN
China
Prior art keywords
image
character
image processing
trimming
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211035324.XA
Other languages
English (en)
Inventor
同前和树
岩崎幸雄
铃木淳
森俊介
藤田拓真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Publication of CN115331234A publication Critical patent/CN115331234A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/1607Correcting image deformation, e.g. trapezoidal deformation caused by perspective
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

在计算机可读取的非瞬时性记录介质中存储有图像处理程序。该图像处理程序是用于为了识别图像所包含的文档中的字符而生成至少检测该图像中的该字符的位置的字符检测模型的学习数据的程序,使计算机以如下方式动作:生成将图像裁切后的裁切图像,不将包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理,将不包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理。由此,本发明在对于图像所包含的文档的字符的识别中,能够提高字符及其位置的检测的精度。

Description

存储有图像处理程序的计算机可读取的非瞬时性记录介质、 以及图像处理装置
技术领域
本发明涉及用于生成字符检测模型的学习数据的、存储有图像处理程序的计算机可读取的非瞬时性记录介质以及图像处理装置。
背景技术
已知用于识别图像所包含的文档中的字符的技术。
发明内容
但是,在字符识别的技术中,为了图像所包含的文档中的字符的识别,存在检测该图像中的该字符的位置的字符检测模型的字符的位置的检测的精度低的问题。
因此,本发明的目的在于,在对于图像所包含的文档的字符的识别中,提高字符及其位置的检测的精度。
本公开的一个方面所涉及的存储有图像处理程序的计算机可读取的非瞬时性记录介质,该图像处理程序是用于为了识别图像所包含的文档中的字符而生成至少检测该图像中的该字符的位置的字符检测模型的学习数据的程序,使计算机以如下方式动作:生成将图像裁切后的裁切图像,不将包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理,将不包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理。
本公开的一个方面所涉及的图像处理装置是为了识别图像所包含的文档中的字符而生成至少检测该图像中的该字符的位置的字符检测模型的学习数据的图像处理装置,该图像处理装置具备控制部,所述控制部生成将图像裁切后的裁切图像,不将包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理,将不包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理。
本发明在对于图像所包含的文档的字符的识别中,能够提高字符及其位置的检测的精度。
附图说明
图1是由一台计算机构成的情况下的本发明的一个实施方式所涉及的图像处理装置的框图。
图2是示出由图1所示的图像处理装置实现的OCR技术的流程的图。
图3A是示出通过图2所示的图像取入处理而取入的电子化图像的一例的图。
图3B是示出通过图2所示的字符检测处理而检测出的各字符的位置的一例的图。
图3C是示出通过图2所示的行检测处理而检测出的各行的位置的一例的图。
图4A是示出通过图2所示的字符检测处理而检测出的各字符的一例的图。
图4B是示出通过图2所示的字符识别处理而确定的各行的字符串的一例的图。
图5A是示出在图1所示的手写字符检测的学习中使用的学习数据的一例的图。
图5B是示出在图1所示的手写字符检测的学习中使用的正解数据的一例的图。
图6是执行模糊校正处理的情况下的图1所示的图像处理装置的动作的流程图。
图7A是示出通过图1所示的模糊校正处理部而检测出像素之前的电子化图像的一例的图。
图7B是示出通过图1所示的模糊校正处理部而检测出的像素的一例的图。
图8是示出通过图2所示的模糊校正处理而校正了模糊的字符之后的电子化图像的一例的图。
图9是执行字符检测的学习的情况下的图1所示的图像处理装置的动作的流程图。
图10是示出为了图1所示的字符检测的学习而准备的电子化图像的一例的图。
图11是示出在图9所示的动作中生成的裁切图像的一例的图。
图12是示出在图9所示的动作中生成的修正裁切图像的一例的图。
具体实施方式
以下,参照附图,对作为本发明的一个方面的实施方式所涉及的图像处理程序、存储有该图像处理程序的计算机可读取的非瞬时性的记录介质、以及图像处理装置进行说明。该图像处理程序是用于生成字符检测模型的学习数据的程序。
首先,对本发明的一个实施方式所涉及的图像处理装置的结构进行说明。
本实施方式所涉及的图像处理装置例如可以由MFP(Multifunction Peripheral:多功能外围设备)等图像形成装置、或者PC(Personal Computer:个人计算机)等一台计算机构成,也可以由多台计算机构成。
图1是由一台计算机构成的情况下的图像处理装置1的框图。
如图1所示,图像处理装置10具备:操作部11,其是用于输入各种操作的例如键盘、鼠标等操作设备;显示部12,其是用于显示各种信息的例如LCD(Liquid Crystal Display:液晶显示器)等显示设备;通信部13,其是用于经由LAN(Local Area Network:局域网)、因特网等网络、或者不经由网络而通过有线或者无线直接与外部的装置进行通信的通信设备;存储部14,其是用于存储各种信息的例如半导体存储器或者HDD(Hard Disk Drive:硬盘驱动器)等非易失性存储设备;控制部15,用于管理图像处理装置10的整体的动作控制。
存储部14存储有本发明的一个实施方式所涉及的图像处理程序14a。图像处理程序14a例如可以在图像处理装置10的制造阶段安装于图像处理装置10,也可以从USB(Universal Serial Bus:通用串行总线)存储器等外部的存储介质追加安装于图像处理装置10,也可以从网络上追加安装于图像处理装置10。
例如,图像处理程序14a被存储在计算机可读取的非瞬时性记录介质中而被提供。
另外,存储部14存储手写像素检测模型14b,该手写像素检测模型14b是作为在模糊校正处理21b中通过推论来检测手写的线的像素的模块。手写像素检测模型14b执行例如基于U-Net的机器学习方法。
存储部14存储作为执行字符检测处理22a的模块的字符检测模型14c。
控制部15例如具备CPU(Central Processing Unit:中央处理器)、存储有程序以及各种数据的ROM(Read Only Memory:只读存储器)、作为用作控制部28的CPU的作业区域的存储器的RAM(Random Access Memory:随机存取存储器)。控制部15的CPU作为处理器,执行存储于存储部14或控制部15的ROM的程序。
控制部15通过执行图像处理程序14a,例如实现执行手写像素检测模型14b的学习的手写像素检测模型学习部15a、执行模糊校正处理21b的模糊校正处理部15b、执行字符检测模型14c的学习的字符检测模型学习部15c、OCR处理部15d。
图2是示出由图像处理装置10实现的OCR(Optical Character Reognition:光学字符识别)处理的流程的图。
控制部15通过执行图像处理程序14a而作为OCR处理部15d发挥功能,通过OCR处理部15d执行图2所示的处理。
如图2所示,由图像处理装置10实现的OCR处理包括作为OCR技术的主要处理的主处理30、在主处理30之前执行的前处理20、在主处理30之后执行的后处理40。
前处理20包括:图像取入处理21,其是对通过扫描仪、照相机等设备将描绘在纸等介质上的文档电子化而取入的图像(以下称为“电子化图像”)进行的处理;布局解析处理22,其解析电子化图像所包含的文件中的字符、行等布局。
图像取入处理21包括:噪声除去处理21a,其为了提高字符识别的精度,例如对电子化图像进行梯形校正、方向校正等电子化图像的形状的校正,为了提高字符识别的精度,例如去除电子化图像所包含的阴影、去除在电子化时在电子化图像中映入的影子等,执行从电子化图像中去除字符识别中不需要的信息;模糊校正处理21b,其校正执行了噪声去除处理21a的电子化图像所包含的模糊的线。作为模糊的线包含在电子化图像中的情况,例如有笔压弱的手写字符被电子化的情况。
此外,以上,在噪声去除处理21a的执行之后执行模糊校正处理21b,但模糊校正处理21b的执行的时间点也可以不在噪声去除处理21a的执行之后。例如,可以在噪声去除处理21a的执行的中途执行模糊校正处理21b,也可以在执行模糊校正处理21b之后执行噪声去除处理21a。
布局解析处理22对执行了噪声去除处理21a以及模糊校正处理21b的电子化图像所包含的文档的布局进行解析。布局解析处理22包括:字符检测处理22a,其检测电子化图像所包含的文件中的各字符,检测该各字符在电子化图像中的位置;行检测处理22b,其检测由通过字符检测处理22a检测出的字符构成的行在电子化图像中的位置。
图3A是示出通过图像取入处理21而取入的电子化图像的一例的图。图3B是示出通过字符检测处理22a而检测出的各字符的位置的一例的图。图3C是示出通过行检测处理22b而检测出的各行的位置的一例的图。
在通过图像取入处理21取入的电子化图像例如是图3A所示的电子化图像的情况下,如图3B所示,字符检测处理22a检测电子化图像所包含的文档中的各字符以及各字符的位置。电子化图像所包含的文档中的各字符的位置例如由包围各字符的矩形范围的端部的一个(例如在图3B中左上的端部)的坐标等、相对于包围各字符的矩形范围的某个位置的坐标(x,y)、包围各字符的矩形范围的宽度(width)以及高度(height)来表示。也可以通过其他方法来表示电子化图像所包含的文档中的各字符的位置。
在通过图像取入处理21取入的电子化图像例如是图3A所示的电子化图像的情况下,如图3C所示,行检测处理22b检测电子化图像所包含的文档中的多个字符形成的各行的位置。电子化图像所包含的文档中的各行的位置例如由包围各行的矩形范围的端部的一个(例如在图3C中左上的端部)的坐标等、相对于包围各行的矩形范围的某个位置的坐标(x,y)、包围各行的矩形范围的宽度(width)以及高度(height)来表示。也可以通过其他方法来表示电子化图像所包含的文档中的各行的位置。
如图2所示,主处理30包括字符识别处理31。字符识别处理31识别通过字符检测处理22a而检测出位置的各字符具体是哪种内容的字符,其结果,确定通过行检测处理22b而检测出位置的各行具体由哪种内容的各字符构成的字符串构成。
图4A是示出通过字符检测处理31而检测出的各字符的一例的图。图4B是示出通过字符检测处理31而检测出的各字符的一例的图。
在通过字符检测处理22a而检测出的各字符的位置例如是图3B所示的位置的情况下,如图4A所示,字符识别处理31识别电子化图像所包含的文档中的各字符的内容。而且,在通过行检测处理22b而检测出的各行的位置例如是图3C所示的位置的情况下,如图4B所示,字符识别处理31确定电子化图像所包含的文本中的各行的字符串是由哪种内容的字符构成的。
如图2所示,后处理40例如包括知识处理41,该知识处理41通过使用词典所包含的单词等来修正基于字符识别处理31的误识别。
即,通过按照前处理20、主处理30以及后处理40的顺序执行,完成基于图像处理装置10的OCR处理,上述电子化图像被文本化,检测出由文本构成的各字符的位置。在图像处理装置10中,为了提高基于该OCR处理的上述字符识别的处理的准确性,进行后述的学习处理。通过该学习处理得到的数据用于布局解析处理22中的基于字符检测处理22a以及行检测处理22b的检测处理、进而基于字符识别处理31的字符内容的识别、以及行内容的识别的各处理。
在图像处理装置10进行的OCR处理中,还进行基于电子化图像识别手写字符并将其文本化的处理。对用于提高手写字符的字符识别精度的学习处理进行说明。此外,控制部15通过在图像处理程序14A的基础上进一步按照手写像素检测模型14b以及字符检测模型14c进行动作,作为手写像素检测模型学习部15a、模糊校正处理部15b、字符检测模型学习部15c以及OCR处理部15d发挥功能,通过手写像素检测模型学习部15a进行手写字符检测的学习处理。以下,对手写字符检测的学习处理进行说明。
作业者准备例如存在模糊的手写字符的图像作为学习数据,并且准备在该图像中手写字符不存在模糊的情况下的图像作为正解数据。图5A是示出手写字符检测模型14b的学习中使用的学习数据的一例的图。图5B是示出手写字符检测模型14b的学习中使用的正解数据的一例的图。
例如,图5A所示的学习数据是基于图5B所示的正解数据而生成的。图5A所示的学习数据是相对于图5B所示的正解数据,通过作业者手动或使用图像处理应用自动地例如用白色等背景颜色填充表示手写字符的像素的一部分而生成的。
作业者将学习数据以及正解数据例如通过上述通信部13从外部的装置输入到图像处理装置10,或者从与图像处理装置10所具备的USB接口连接的USB存储器输入到图像处理装置10。然后,作业者例如经由操作部11向图像处理装置10输入基于手写像素检测模型14b的学习的指示,该手写像素检测模型14b指定了学习数据以及正解数据。当输入该指示时,手写像素检测模型学习部15a使用在该指示中指定的学习数据以及正解数据来执行手写字符检测的学习处理。
在手写字符检测的学习处理时,作为其前处理,执行模糊校正处理21b。图6是执行模糊校正处理21b的情况下的图像处理装置10的动作的流程图。
在执行模糊校正处理21b时,模糊校正处理部15b检测电子化图像所包含的手写的线的像素(S101)。
图7A是示出通过模糊校正处理部15b而检测出像素之前的电子化图像的一例的图。图7B是示出通过模糊校正处理部15b而检测出的像素的一例的图。
图7A所示的电子图像包含模糊的“个”字符。模糊校正处理部15b根据输入的图7A所示的电子化图像,在图7B中将由粗框包围的像素推论为手写的线的像素,作为构成表示“个”字符的像素组的像素。
模糊校正处理部15b在S101的处理之后,通过用例如黑色等特定的颜色填充由S101检测出的像素,如图8所示的例子那样,校正电子化图像所包含的模糊的线(S102)。即,在通过S101检测出图7B所示的像素的情况下,模糊校正处理部15b在S102中生成图8所示的电子化图像。之后,结束图6所示的动作。图8是示出通过模糊校正处理部15b而校正了模糊的字符之后的电子化图像的一例的图。
此外,在图7以及图8所示的例子中,在电子化图像中,只包含一个手写字符。但是,在作为模糊校正处理21b的对象的电子化图像中,也可以包含多个手写字符。另外,在模糊校正处理21b的对象的电子化图像中,可以包含手写字符以外的手写的线,也可以包含手写的线以外的线。例如,在模糊校正处理21b的对象的电子化图像中。也可以包含手写字符以外的字符、手写的线以外的格线、手写的图形以外的图形中的至少一个。另外,作为模糊校正处理21b的对象的电子化图像可以是彩色图像,但为了减少模糊校正处理21b中的处理量,模糊校正处理21b在电子化图像为彩色图像的情况下优选转换为单色图像。
在该模糊校正处理之后,通过手写像素检测模型学习部15a执行手写字符检测的学习处理。基于手写像素检测模型学习部15a的手写字符检测的学习处理通过与后述的基于字符检测模型学习部15c的字符检测的学习处理同样的处理来进行。
此外,在OCR处理时进行的模糊校正处理21b也由模糊校正处理部15b同样地进行。
接下来,对执行字符检测的学习处理的情况下的图像处理装置10的动作进行说明。字符检测的学习处理由字符检测模型学习部15c进行。图9是在执行字符检测的学习处理的情况下的图像处理装置10的动作的流程图。
作业者准备例如A4尺寸等特定的尺寸的电子化图像(以下,在图9所示的动作的说明中称为“对象图像”。)和表示该对象图像所包含的文档中的全部字符以及该字符的位置的正解数据(以下,在图9所示的动作的说明中称为“对象正解数据”。),将对象图像以及对象正解数据例如通过上述通信部13从外部的装置输入到图像处理装置10,或者从与图像处理装置10所具备的USB接口连接的USB存储器输入到图像处理装置10。作业者例如经由操作部11向图像处理装置10输入指定了对象图像以及对象正解数据作为学习对象的字符检测的学习处理的执行指示。当输入该指示时,字符检测模型学习部15c执行图9所示的处理。
字符检测模型学习部15c生成通过从对象图像中的特定的位置以特定的高度以及宽度裁切对象图像的图像(以下称为“裁切图像”)(S121)。在此,特定的高度以及宽度取决于图像处理装置10的硬件资源,例如500像素×500像素。
例如,在将例如A4尺寸的图像等的尺寸大的图像作为学习数据来执行字符检测的学习处理的情况下,学习数据的数据量变得过大,有超过图像处理装置10的硬件资源的可能性,因此有不能正常地执行字符检测的学习处理的可能性。因此,字符检测模型学习部15c从尺寸大的图像中适当地切出的一部分,即,裁切一部分,生成通过裁切而得到的图像作为数据量小的学习数据。
在S121的处理之后,字符检测模型学习部15c基于对象正解数据,判断在紧接在前的S121中生成的裁切图像中是否包含表示被分割的字符的图像(S122)。在此,被分割的字符是在紧接在前的S121中生成的裁切图像中仅包含一部分的字符。字符检测模型学习部15c例如参照上述对象正解中与在S121中生成的裁切图像对应的数据部分,将表示该数据部分所表示的对象正解数据中未包含的字符的图像作为表示被分割的字符的图像而检测。
图10是示出为了字符检测模型14c的学习而准备的对象图像50的一例的图。图11是示出在S121中生成的裁切图像60的一例的图。
图11所示的裁切图像60是从图10所示的目标图像50生成的裁切图像。图11所示的裁切图像60包括表示未被分割的字符的图像61(以下,称为未被分割的字符61)和表示被分割的字符的图像62(以下,称为被分割的字符62)。在图11中,被分割的字符62是图10所示的“贴”。在“贴”中,只有“贝”的部分包含在裁切图像60中。图11所示的裁切图像60示出仅包含一个被分割的字符62的例子。但是,被分割的字符也可以在裁切图像中包含有多个。
在S122中,字符检测模型学习部15c在判断为在紧接在前的S121中生成的裁切图像中不包含被分割的字符时(在S122中为否),基于与该裁切图像对应的上述数据部分所表示的对象正解数据,判断该裁切图像所包含的字符的数量是否为特定的数量以上(S123)。
字符检测模型学习部15c当在S123中判断为在紧接在前的步骤S121中生成的裁切图像所包含的字符的数量为特定的数量以上时,生成与该裁切图像对应的上述数据部分所表示的对象正解数据作为表示该裁切图像中的所有字符的位置的正解数据(S124)。
而且,在S124的处理之后,字符检测模型学习部15c使用在紧接在前的S121中生成的作为裁切图像的学习数据和在紧接在前的S124中生成的正解数据,执行字符检测模型14c的学习(步骤S125)。
另一方面,字符检测模型学习部15c在判断为在紧接在前的S121中生成的裁切图像所包含被分割的字符时(在S122中为是),基于与该裁切图像对应的上述数据部分所表示的对象正解数据,判断该裁切图像所包含的、表示未被分割的字符的图像的数量是否为特定的数量以上(S126)。此外,S126中的“特定的数量”可以是与S123中的“特定的数量”相同的数量。
字符检测模型学习部15c当在S126中判断为在紧接在前的步骤S121中生成的裁切图像所包含的、未被分割的字符的数量为特定的数量以上时(在S126中为是),生成从该裁切图像中去除该裁切图像所包含的被分割的字符的图像,作为修正裁切图像(S127)。具体而言,字符检测模型学习部15c基于与该裁切图像对应的上述数据部分所表示的对象正解数据来确定在该裁切图像中包括的被分割的字符、其位置以及表示该字符的区域,并用例如白色等该裁切图像的背景色填充被分割的字符,从而生成如图12中示例的那样的修正裁切图像70。
图12所示的修正裁切图像70是从图11所示的裁切图像60生成的修正裁切图像。修正裁切图像70是例如用白色填充被分割的字符62(参照图11。)的图像。
而且,字符检测模型学习部15c在S127的处理之后,生成与在紧接在前的S127中生成的修正裁切图像对应的上述数据部分所表示的对象正解数据,作为表示该修正裁切图像中的所有字符的位置的正解数据(S128)。这里,字符检测模型学习部15c在S128中生成的正解数据不包含在紧接在前的S121中生成的裁切图像所包含的被分割的字符及其位置。
字符检测模型学习部15c在S128的处理之后,使用在紧接在前的S127中生成的作为修正裁切图像的学习数据和在紧接在前的S128中生成的正解数据,执行字符检测模型14c的学习(步骤S129)。
接着,字符检测模型学习部15c判断执行S125的学习处理或S129的学习处理的次数是否已达到特定的次数(S130)。
在S130中,字符检测模型学习部15c当判断为在本次的图9所示的动作中没有执行特定的次数的学习(在S130中为否),再次执行S121的处理。另外,字符检测模型学习部15c在S123中判断为在紧接在前的步骤S121中生成的裁切图像所包含的字符的数量不是特定的数量以上的情况下(在S123中为否),和在S126中判断为该裁切图像所包含的、未被分割的字符的数量不是特定的数量以上的情况下(在S126中为否),也再次进行S121的处理。
这里,在再次执行的S121的处理中,字符检测模型学习部15c从上述对象图像生成新的裁切图像,该新的裁切图像不是之前生成的裁切图像。例如,字符检测模型学习部15c将上述对象图像划分为方格状而分为多个区域,在多次的S121的处理中,生成关于不同的区域的裁切图像。然后,字符检测模型学习部15c对新生成的裁切图像进行步骤S122之后的处理。字符检测模型学习部15c可以针对上述多个区域以事先确定的顺序生成裁切图像,也可以针对上述多个区域以随机的顺序生成裁切图像。字符检测模型学习部15c不从上述对象图像生成两次相同的裁切图像。
字符检测模型学习部15c当在S130中判断为在本次的图9所示的动作中执行了特定的次数(例如,将上述对象图像划分为方格状而分为多个区域时的区域数)的学习时(在S130中为是),结束本次的图9所示的动作。
此外,在步骤S123中判断为裁切图像所包含的字符的数量是否为特定的数量以上,或者在步骤S126中判断为裁切图像所包含的、未被分割的字符的数量是否为特定的数量以上的理由是因为,仅执行将包含特定的数量以上的字符的图像作为学习数据的学习,从而有效地执行字符检测的学习。因此,在字符检测的学习的效果可以稍微降低的情况下,可以省略S123以及S126的处理。即,字符检测模型学习部15c可以在S122中判断为在紧接在前的S121中生成的裁切图像中不包含被分割的字符的情况下立即执行S124的处理,或者也可以在S122中判断为在紧接在前的S121中生成的裁切图像中包含被分割的字符的情况下立即执行S127的处理。
如以上说明的这样,由于图像处理装置10基于将图像裁切后的裁切图像来生成学习数据(S121~S130),因此可以从一个图像生成多个学习数据,其结果,可以提高字符检测模型14c对字符的位置的检测的精度。
由于图像处理装置10不将包含被分割的字符的裁切图像作为学习数据来处理(S129),或者将不包含被分割的字符的裁切图像作为学习数据来处理(S125),因此可以防止将包含被分割的字符的裁切图像作为学习数据来学习,其结果,在对于图像所包含的文档的字符的识别中,可以提高字符及其位置的检测的精度。假设将图11所示的裁切图像60作为学习数据来执行字符检测模型14c的学习,可能生成字符检测模型14c,其将“贴”中的“贝”以及“占”的部分分别检测为一个字符,而将“贴”检测为一个字符。但是,图像处理装置10生成从图11所示的裁切图像60中去除“贴”中的“贝”的部分的修正裁切图像70(参照图12。)作为学习数据,因此能够降低将“贴”中的“贝”以及“占”的部分分别检测为一个字符的可能性。
另外,在裁切图像中包含被分割的字符的情况下(在S122中为是),图像处理装置10将从裁切图像去除被分割的字符的修正裁切图像作为学习数据来处理(S127),因此,可以容易地生成学习数据。
此外,图像处理装置10也可以采用将修正裁切图像作为学习数据进行处理的方法以外的方法,作为不将包含被分割的字符的裁切图像作为学习数据进行处理的方法。例如,在裁切图像中包含被分割的字符的情况下,图像处理装置10也可以重新生成变更了对象图像中的位置、形状以及大小中的至少一个的裁切图像。
以上,关于模糊字符的校正,仅对模糊校正处理21b中的模糊字符的校正进行了说明。但是,模糊字符的校正也可以应用于字符检测模型14c的学习数据的生成的前处理。即,图像处理装置10在执行S121~S130的处理之前,校正模糊的字符,在图9所示的处理中,将校正了该模糊的字符的图像作为对象图像。之后,图像处理装置10(字符检测模型学习部15c)将校正了该模糊的字符的图像作为对象图像,执行S121~S130的处理。由此,在对象图像中包含模糊的字符的情况下,图像处理装置10能够生成将校正了模糊的字符的对象图像裁切后的裁切图像(S121),并进行S122以后的处理。其结果,能够提高基于字符检测模型14c的字符及其位置的检测的精度。
以上,字符检测模型14c是仅执行字符检测处理22a的模块。但是,字符检测模型14c除了字符检测处理22a之外,也可以执行字符检测处理22a以外的处理。例如,除了字符检测处理22a之外,字符检测模型14c还可以执行行检测处理22b以及字符识别处理31。
在不脱离本发明的范围以及主旨的情况下的本发明的各种修正形态以及变更形态,对本领域技术人员来说显而易见。另外,应该理解,本发明并不限定于在本说明书中记载的示例性的实施方式。

Claims (4)

1.一种存储有图像处理程序的计算机可读取的非瞬时性记录介质,其特征在于,该图像处理程序是用于为了识别图像所包含的文档中的字符而生成至少检测该图像中的该字符的位置的字符检测模型的学习数据的程序,使计算机以如下方式动作:
生成将所述图像裁切后的裁切图像,
不将包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理,将不包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理。
2.根据权利要求1所述的存储有图像处理程序的计算机可读取的非瞬时性记录介质,其特征在于,该图像处理程序还使计算机以如下方式动作:在所述裁切图像中包含表示被分割的字符的图像的情况下,通过从所述裁切图像中去除表示被分割的字符的图像,将不包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理。
3.根据权利要求1所述的存储有图像处理程序的计算机可读取的非瞬时性记录介质,其特征在于,该图像处理程序还使计算机以如下方式动作:
检测在所述图像中是否包含表示模糊的字符的图像,
当在所述图像中检测出表示所述模糊的字符的图像时,将表示该检测出的所述模糊的字符的图像校正为表示没有模糊的正确的字符的图像,
生成将进行了所述校正的所述图像裁切后的所述裁切图像。
4.一种图像处理装置,该图像处理装置为了识别图像所包含的文档中的字符而生成至少检测该图像中的该字符的位置的字符检测模型的学习数据,所述图像处理装置的特征在于,
具备控制部,所述控制部生成将图像裁切后的裁切图像,不将包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理,将不包括表示被分割的字符的图像的所述裁切图像作为所述学习数据进行处理。
CN202211035324.XA 2021-09-03 2022-08-26 存储有图像处理程序的计算机可读取的非瞬时性记录介质、以及图像处理装置 Pending CN115331234A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-144053 2021-09-03
JP2021144053A JP2023037360A (ja) 2021-09-03 2021-09-03 画像処理プログラムおよび画像処理システム

Publications (1)

Publication Number Publication Date
CN115331234A true CN115331234A (zh) 2022-11-11

Family

ID=83928376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211035324.XA Pending CN115331234A (zh) 2021-09-03 2022-08-26 存储有图像处理程序的计算机可读取的非瞬时性记录介质、以及图像处理装置

Country Status (3)

Country Link
US (1) US20230071008A1 (zh)
JP (1) JP2023037360A (zh)
CN (1) CN115331234A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220383503A1 (en) * 2020-05-11 2022-12-01 Nec Corporation Determination device, determination method, and recording medium

Also Published As

Publication number Publication date
JP2023037360A (ja) 2023-03-15
US20230071008A1 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
KR102208683B1 (ko) 문자 인식 방법 및 그 장치
EP3002712A2 (en) Horizontal and vertical line detection and removal for document images
EP2333655A2 (en) Printed matter examination apparatus, a printed matter examination method, a storage medium, and a printed matter examination system
US9275030B1 (en) Horizontal and vertical line detection and removal for document images
WO2009094446A1 (en) Method and apparatus for cropping images
US20210357674A1 (en) Image processing system, image processing method, and storage medium each for obtaining pixels of object using neural network
US20210056336A1 (en) Image processing apparatus, image processing method, and storage medium
CN115331234A (zh) 存储有图像处理程序的计算机可读取的非瞬时性记录介质、以及图像处理装置
US8472078B2 (en) Image processing apparatus for determining whether a region based on a combined internal region is a table region
KR20150099116A (ko) Ocr를 이용한 컬러 문자 인식 방법 및 그 장치
CN111340040B (zh) 一种纸张字符识别方法、装置、电子设备及存储介质
RU2458396C1 (ru) Способ редактирования статических цифровых комбинированных изображений, включающих в себя изображения нескольких объектов
US10424051B2 (en) Image analyzing apparatus and non-transitory storage medium storing instructions executable by the image analyzing apparatus
CN113793264B (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备
JP5222776B2 (ja) 画像処理装置及び方法
JP7341758B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7301529B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US9031324B2 (en) Image-processing device specifying encircling line for identifying sub-region of image
JP2023037359A (ja) 画像処理プログラムおよび画像処理システム
CN111401366A (zh) 字符识别方法、装置、计算机设备和存储介质
US10878271B2 (en) Systems and methods for separating ligature characters in digitized document images
US20080225340A1 (en) Image processing apparatus, image processing method, and computer program product
JP6111796B2 (ja) 画像処理装置およびコンピュータプログラム
US10430927B2 (en) Image analyzing apparatus and non-transitory storage medium storing instructions executable by the image analyzing apparatus
JP6797763B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination