CN108427952A - 日期识别装置、日期识别方法及计算机可读存储介质 - Google Patents

日期识别装置、日期识别方法及计算机可读存储介质 Download PDF

Info

Publication number
CN108427952A
CN108427952A CN201710819188.6A CN201710819188A CN108427952A CN 108427952 A CN108427952 A CN 108427952A CN 201710819188 A CN201710819188 A CN 201710819188A CN 108427952 A CN108427952 A CN 108427952A
Authority
CN
China
Prior art keywords
date
data
binaryzation
identification
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710819188.6A
Other languages
English (en)
Inventor
林正义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Publication of CN108427952A publication Critical patent/CN108427952A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Abstract

本发明能够高精度地对附加在照片等介质上的日期进行识别。一种日期识别装置(1)包括截取部(12)、二值化部(13)、识别部(14)、校正部(15)和附加部(16)。截取部(12)从输入图像数据截取日期区域数据。二值化部(13)进行将日期区域数据二值化而生成二值化数据的二值化处理。识别部(14)进行如下识别处理:对二值化数据实施利用了深度学习的识别处理,来识别日期区域数据所包含的字符串。校正部(15)对识别部(14)的识别处理的识别结果进行与日期区域数据所包含的字符串的字体种类相匹配的校正处理。附加部(16)将基于校正后的识别结果所包含的字符串的日期数据附加到图像数据。

Description

日期识别装置、日期识别方法及计算机可读存储介质
技术领域
本发明涉及一种日期识别装置、日期识别方法及计算机可读存储介质。
背景技术
某些照片会将拍摄照片的日期附加在该照片上,例如以前拍摄的老式卤化银照片中多数情况下会在照片上冲印有日期。
另一方面,近年来,通过使用数码照相机等拍摄没有电子数据的老式卤化银照片而将这些老式卤化银照片电子数据化的情况不断增加。
专利文献1:日本特开2013-084071号公报
专利文献2:日本特开平8-221512号公报
专利文献3:日本特开2000-339472号公报
发明内容
在冲印有日期的老式卤化银照片中,该日期会不清晰,所以在将这些老式卤化银照片电子数据化时即使对日期实施OCR(Optical Character Recognition,光学字符识别)等字符识别方法,日期的识别精度也会很低。
本发明是鉴于上述问题而完成的,其目的在于提供一种能够高精度地识别附加在照片等介质上的日期的技术。
在本发明的形态中,日期识别装置包括截取部、二值化部、识别部、校正部和附加部。上述截取部从通过拍摄附加有日期的介质而生成的图像数据,截取被推断为附加有上述日期的区域的数据即日期区域数据。上述二值化部进行将上述日期区域数据二值化而生成二值化数据的二值化处理。上述识别部进行如下识别处理:对上述二值化数据实施利用了深度学习的识别处理,来识别上述日期区域数据所包含的字符串。上述校正部对上述识别处理的识别结果进行与上述字符串的字体种类相匹配的校正处理。上述附加部将基于校正后的上述识别结果所包含的上述字符串的日期数据附加到上述图像数据。
根据本发明的形态,能够高精度地识别附加在照片等介质上的日期。
附图说明
图1是表示实施例1的日期识别装置的结构示例的图。
图2是用于说明实施例1的日期识别装置的处理示例的流程图。
图3是表示实施例1的指定范围截取处理的一个示例的图。
图4是用于说明实施例1的线截取处理的一个示例的流程图。
图5是表示实施例1的字体种类的一个示例的图。
图6是表示实施例1的字体种类的一个示例的图。
图7是表示实施例1的字体种类的一个示例的图。
图8是表示实施例1的字体种类的一个示例的图。
图9是表示实施例1的字体种类的一个示例的图。
图10是表示实施例1的字体种类的一个示例的图。
图11是用于说明实施例1的第1二值化处理的一个示例的流程图。
图12是表示实施例1的提取色调的直方图的一个示例的图。
图13是表示实施例1的第一标记处理的一个示例的图。
图14是表示实施例1的第一标记处理的一个示例的图。
图15是表示实施例1的第一标记处理的一个示例的图。
图16是表示实施例1的第一标记处理的一个示例的图。
图17是表示实施例1的第一标记处理的一个示例的图。
图18是表示实施例1的第一标记处理的一个示例的图。
图19是表示实施例1的第一标记处理的一个示例的图。
图20是表示实施例1的标记检索的一个示例的图。
图21是用于说明实施例1的识别处理的一个示例的流程图。
图22是表示实施例1的容易混淆的数据的一个示例的图。
图23是用于说明实施例1的校正处理的一个示例的流程图。
图24是表示实施例1的第一校正处理的一个示例的图。
图25是表示实施例1的第一校正处理的一个示例的图。
图26是表示实施例1的第一校正处理的一个示例的图。
图27是表示实施例1的第二校正处理的一个示例的图。
图28是表示实施例1的第二校正处理的一个示例的图。
图29是表示实施例1的第二校正处理的一个示例的图。
图30是表示实施例1的第二校正处理的一个示例的图。
图31是表示实施例1的第二校正处理的一个示例的图。
图32是表示实施例1的第二校正处理的一个示例的图。
图33是表示实施例2的便携式终端的结构示例的图。
符号说明
1 日期识别装置
11 存储部
12 截取部
13 二值化部
14 识别部
15 校正部
16 附加部
17 控制部
10 便携式终端
具体实施方式
下面,基于附图对本申请公开的日期识别装置、日期识别方法及日期识别程序的实施例进行说明。另外,本申请公开的日期识别装置、日期识别方法及日期识别程序不限于该实施例。此外,在实施例中对具有相同功能的结构、以及进行相同处理的步骤标注相同的符号。
实施例1
日期识别装置的结构
图1是表示实施例1的日期识别装置的结构示例的图。在图1中,日期识别装置1包括存储部11、截取部12、二值化部13、识别部14、校正部15、附加部16和控制部17。
存储部11作为硬件例如由存储器实现。作为存储器的一个示例,可以列举SDRAM(Synchronous Dynamic Random Access Memory,同步动态随机存取存储器)等RAM(RandomAccess Memory,随机存取存储器)、ROM(Read Only Memory,只读存储器)、快闪存储器等。
截取部12、二值化部13、识别部14、校正部15、附加部16及控制部17作为硬件例如能够由处理器实现。作为处理器的一个示例,可以列举CPU(Central Processing Unit,中央处理单元)、DSP(Digital Signal Processor,数字信号处理器)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)等。此外,截取部12、二值化部13、识别部14、校正部15、附加部16及控制部17也可以由包括处理器和周边电路的LSI(Large ScaleIntegrated circuit,大规模集成电路)来实现。并且,截取部12、二值化部13、识别部14、校正部15、附加部16及控制部17也可以使用GPU(Graphics Processing Unit,图形处理单元)、ASIC(Application Specific Integrated Circuit,专用集成电路)等来实现。
输入到日期识别装置1的图像数据(以下也称为“输入图像数据”)存储在存储部11中。基于存储在存储部11中的输入图像数据,由截取部12、二值化部13、识别部14、校正部15、附加部16及控制部17进行下面要说明的各处理,由此生成从日期识别装置1输出的图像数据(以下也称为“输出图像数据”)。控制部17对截取部12、二值化部13、识别部14、校正部15及附加部16进行控制。
输入图像数据是例如通过由具有日期识别装置1的便携式终端搭载的照相机拍摄作为拍摄对象的介质的卤化银照片而生成的照片数据。此外,卤化银照片、特别是冲印有日期的卤化银照片为拍摄对象的介质。另外,拍摄对象的介质不限于卤化银照片,例如也可以是印刷照片、以及印刷在纸面上的图像等。特别是,印有日期的印刷照片、以及印有日期的图像为拍摄对象的介质。也就是说,输入图像数据是通过拍摄附加有日期的介质而生成的图像数据。
日期识别装置的处理
图2是用于说明实施例1的日期识别装置的处理示例的流程图。
在图2中,首先,在步骤S201中,控制部17使截取部12进行矩形截取处理。截取部12从输入图像数据来截取规定的矩形区域的数据(以下也称为“矩形区域数据”)。规定的矩形区域的大小是基于作为拍摄对象的介质的照片的尺寸规定的,截取部12沿着照片的轮廓从输入图像数据中截取矩形区域数据。
接着,在步骤S203中,判断截取部12是否成功截取了矩形区域数据。在截取部12成功截取了矩形区域数据时(步骤S203:“是”),处理前进至步骤S205。另一方面,在截取部12对矩形区域数据的截取失败时(步骤S203:“否”),处理前进至“结束”,控制部17强制性结束日期的识别处理。
在步骤S205中,截取部12从通过步骤S201截取的矩形区域数据中截取指定范围。
图3是表示实施例1的指定范围截取处理的一个示例的图。在附加有日期的照片中,在以横长朝向观看长方形的照片时,通常多数情况下日期附加在照片的左上方部位或右下方部位。此外,通常日期是通过将表示年月日的各数字横向排列来表示的,所以在照片上表示日期的范围为横长的矩形范围。因此,如图3所示,截取部12通过以横长的矩形形状从矩形区域数据100中截取矩形区域数据100中的左上方指定范围和右下方指定范围,将被推断为附加有日期的区域的数据(以下也称为“日期区域数据”)101-1、101-2从矩形区域数据100中截取。以下,在不区分日期区域数据101-1、101-2的情况下统称为日期区域数据101。
返回图2,接着,在步骤S207中,控制部17将字体种类计数器n设定为“0”。
接着,在步骤S209中,控制部17使截取部12及二值化部13进行线截取处理。
图4是用于说明实施例1的线截取处理的一个示例的流程图。此外,图5~图10是表示实施例1的字体种类的一个示例的图。
这里,如图5~图10所示,附加在照片上的日期的字体种类大致分成第一种~第三种这三种字体。
作为字体种类的“第一种”,可以列举DSEG字体(数码管字体)(图5、图6)。通常多数情况下,使用DSEG字体附加在照片上的日期的颜色是如日期CS1(图5)那样的红色或如日期CS2(图6)那样的黄色。此外,如图5及图6所示,用DSEG字体表示的日期通常多数情况下具有表示“年”的数字、表示“月”的数字和表示“日”的数字用空白(space)隔开的特征。在此,以下“字体种类计数器n=0”与作为第一种字体种类的“彩色DSEG字体”相对应。另外,在图5及图6中,作为DSEG字体的一个示例,列举七段式字体,但是本发明的技术能够适用的DSEG字体不限于七段式字体。例如本发明的技术也能够适用于十四段式字体。
作为字体种类的“第二种”,可以列举DSEG字体以外的白色字体(以下也称为“白色非DSEG字体”)(图7、图8)。在使用白色非DSEG字体在照片上附加的日期中,如日期CS3(图7)及日期CS4(图8)所示,通常单个字符不像DSEG字体那样被分割成段。此外,如图7及图8所示,用白色非DSEG字体表示的日期通常多数情况下具有表示“年”的数字、表示“月”的数字和表示“日”的数字用“.”(点)或“/”(斜线)等“分隔符”隔开的特征。在此,以下“字体种类计数器n=1”与第二种字体种类即“白色非DSEG字体”相对应。
作为字体种类的“第三种”,可以列举DSEG字体以外的彩色字体(以下也称为“彩色非DSEG字体”)(图9、图10)。在使用彩色非DSEG字体被在照片上附加的日期中,如日期CS5(图9)及日期CS6(图10)所示,通常单个字符不像DSEG字体那样被分割成段。此外,如图10所示,用彩色非DSEG字体表示的日期多数情况下具有包含“年”、“月”、“日”等汉字的特征。在此,以下“字体种类计数器n=2”与第三种字体种类即“彩色非DSEG字体”相对应。
返回图4,首先,在步骤S301中,控制部17判断字体种类计数器n是否为“2”以下。在字体种类计数器n为“3”以上的情况下,也就是说,在针对第一种~第三种的所有字体种类进行的日期识别均失败的情况下(步骤S301:“否”),处理前进到“结束”,控制部17强制性结束日期的识别处理。另一方面,在字体种类计数器n为“2”以下的情况下(步骤S301:“是”),处理前进到步骤S303。
在步骤S303中,控制部17判断字体种类计数器n的值。在字体种类计数器n为“0”的情况下,进行步骤S305~S309的处理,在字体种类计数器n为“1”的情况下,进行步骤S311~S315的处理,在字体种类计数器n为“2”的情况下,进行步骤S317~S321的处理。也就是说,步骤S305~S309的处理是以彩色DSEG字体为识别对象的处理,步骤S311~S315的处理是以白色非DSEG字体为识别对象的处理,步骤S317~S321的处理是以彩色非DSEG字体为识别对象的处理。
在步骤S303中判断为字体种类计数器n为“0”的情况下,在步骤S305中控制部17使二值化部13进行“第1二值化处理”。在步骤S305中,例如二值化部13通过使用直方图解析对日期区域数据101进行第1二值化处理,将日期区域数据101二值化而生成二值化数据。图11是用于说明实施例1的第1二值化处理的一个示例的流程图。
在图11所示的第1二值化处理中,首先,在步骤S601中,二值化部13进行色彩空间转换。例如二值化部13将采用由红(Red)、绿(Green)、蓝(Blue)三原色表示的RGB色彩模式而被数据化的日期区域数据101转换成利用由色调(Hue)、饱和度(Saturation)和明度(Value)这三个分量构成的HSV色彩空间表示的数据。
接着,在步骤S603中,二值化部13对转换成HSV色彩空间的数据后的日期区域数据101进行直方图解析。该直方图解析是针对转换成HSV色彩空间的数据后的日期区域数据101中的色调(Hue)和明度(Value)进行的。二值化部13在进行色调的直方图解析时提取色调的直方图。
图12是表示实施例1的提取色调的直方图的一个示例的图。如图12所示,色调上以0~360度的范围表示颜色的种类,因此二值化部13在提取色调的直方图时,设色调中所期望的颜色为0度,提取以该0度为中心的所期望范围的颜色。例如在附加在照片上的日期的字体种类为DSEG字体时,日期的颜色通常多数情况下是红色或黄色这样的橙色系的颜色。因此,二值化部13在以0~360度表示的颜色中将作为日期的颜色可能是最多的橙色系颜色的部分设为0度,提取以该0度为中心的规定范围的颜色。例如在设定条件H1和条件H2作为色调条件并且设条件H1为±40度、条件H2为±80度的情况下,二值化部13从构成日期区域数据101的像素中分别提取条件H1所包含的颜色的像素和条件H2所包含的颜色的像素。这样,二值化部13进行了提取色调的直方图。此外,二值化部13通过将提取出的色调的直方图对数(log)化,使数据容易处理。
返回图11,在步骤S603中,接着,二值化部13基于明度直方图计算二值化的分层基准(slice level)。也就是说,二值化部13基于明度直方图计算在进行二值化时使各像素为“1”还是为“0”的阈值。例如二值化部13设定条件V1和条件V2作为明度条件,并且计算日期区域数据101整体的明度直方图的80%的值即第一阈值作为条件V1,计算日期区域数据101整体的明度直方图的40%的值即第二阈值作为条件V2。二值化部13使用这样设定的明度条件和色调条件,对构成日期区域数据101的各像素进行直方图解析,判断是否满足两方条件。
即,二值化部13在进行直方图解析来判断色调及明度是否满足色调条件及明度条件这两方条件时,首先计算使用色调条件H1和明度条件V1的阈值即sliceH1_VL、使用色调条件H1和明度条件V2的阈值即sliceH1_VH、使用色调条件H2和明度条件V1的阈值即sliceH2_VL、以及使用色调条件H2和明度条件V2的阈值即sliceH2_VH。进而,二值化部13通过判断构成日期区域数据101的各像素的色调和明度是否满足计算出的各阈值,来进行日期区域数据101的直方图解析。
接着,在步骤S605中,二值化部13将日期区域数据101二值化来生成二值化数据。例如二值化部13将构成日期区域数据101的各像素,满足计算出的阈值的情况下设为“1”,不满足计算出的阈值的情况下设为“0”,由此来将日期区域数据101二值化而生成二值化数据。被二值化的日期区域数据101中,通过二值化部13例如将“1”的像素变换成黑色,将“0”的像素变换成白色,从而变换成仅由黑色和白色构成的数据。这样,在图4的步骤S305中,二值化部13以彩色DSEG字体作为识别对象,利用基于色调及明度的阈值,进行将日期区域数据101二值化的第1二值化处理。
返回图4,接着,在步骤S307中,控制部17使截取部12进行“第一标记处理”。图13~图19是表示实施例1的第一标记处理的一个示例的图。
在第一标记处理中,首先,如图13所示,截取部12对通过在纵向和横向上排列多个而构成日期区域数据101的各像素110进行光栅扫描(raster scan)。例如截取部12在经过二值化而由黑色和白色的像素110构成的日期区域数据101中,从位于最左上方的像素110起向右方向扫描,到达右端的像素110之后,使扫描移动到下一行的左端的像素110,从该像素110起再次向右方向扫描。截取部12对构成日期区域数据101的所有像素110反复进行上述扫描。
然后,如图14所示,截取部12在对日期区域数据101进行光栅扫描时,如果检测出黑色的像素110,则将该检测出的黑色的像素110设为关注像素111,确认关注像素111的左方的像素110和上方的像素110是否带有标记编号。在图13、图15~图19中,标有“0”的像素110是没有标记编号的像素,标有“0”以外的数字的像素110是带有标记编号的像素。如果关注像素111的左方的像素110或上方的像素110带有标记编号,则截取部12对关注像素111赋予左方的像素110的标记编号及上方的像素110的标记编号中最小的标记编号。也就是说,在关注像素111的左方的像素110和上方的像素110之间标记编号不同的情况下,截取部12对关注像素111赋予较小的标记编号。由此,例如对图15所示的关注像素111-1赋予“1”作为标记编号。另一方面,在关注像素111的左方的像素110和上方的像素110双方均没有标记编号的情况下,截取部12对关注像素111赋予新的标记编号。也就是说,在关注像素111的左方的像素110和上方的像素110双方均没有标记编号的情况下,截取部12对关注像素111赋予“最后赋予的标记编号的值+1”的标记编号。由此,例如对图15所示的关注像素111-2赋予“2”作为标记编号。
此外,如图16所示,在具有标记编号的像素110彼此相邻地存在有多个的情况下,截取部12将具有标记编号的一连串的多个像素110的所有标记编号统一成相同的值。例如如图16所示,在存在有具有标记编号的彼此相邻的一连串的像素110-1、110-2、112的情况下,截取部12将这一连串的像素110-1、110-2、112的标记编号统一成对这一连串的像素110-1、110-2、112赋予的标记编号中的最小的标记编号。由此,例如图16中的像素112的标记编号“3”由截取部12如图17所示那样变更为“2”。由此,将具有标记编号的彼此相邻的一连串的像素110-1、110-2、112的标记编号统一成“2”。
然后,截取部12将被赋予的标记编号相同的一连串的多个像素110作为一个标记115进行处理。由此,例如如图17所示,标记编号同为“1”的一连串的像素110-5、110-6、110-7被作为一个标记115-1进行处理,标记编号同为“2”的一连串的像素110-1、110-2、112被作为另一个标记115-2进行处理。以下,在不区分标记115-1、115-2的情况下将其统称为标记115。
在第一标记处理(步骤S307)中,截取部12接着进行“邻近统合”,其是将相互隔开距离较近的多个标记115彼此统合成一个标记115的处理。邻近统合大致分成“第一邻近统合”和“第二邻近统合”这两种。图18是表示实施例1的第一邻近统合的一个示例的图,图19是表示实施例1的第二邻近统合的一个示例的图。
在图18中,被赋予标记编号“1”的标记115-1和被赋予标记编号“2”的标记115-2彼此分开。在第一邻近统合中,在由标记115-1形成的矩形区域即标记区域116-1与由标记115-2形成的矩形区域即标记区域116-2重叠的情况下,截取部12将标记115-1和标记115-2统合成一个标记115进行处理。这里,关于标记115-1,如图18所示,将在纵向和横向上延伸的一个标记115-1中,以位于纵向端部的像素110的位置为上端和下端、以位于横向两端部的像素110的位置为左端和右端所形成的矩形区域设为标记115-1的标记区域116-1。同样,关于标记115-2,如图18所示,将在纵向和横向上延伸的一个标记115-2中,以位于纵向端部的像素110的位置为上端和下端、以位于横向两端部的像素110的位置为左端和右端所形成的矩形区域设为标记115-2的标记区域116-2。由此,在图18中,标记区域116-1的一部分与标记区域116-2的一部分相互重叠。因此,截取部12对标记115-1和标记115-2进行邻近统合,将标记115-1、115-2作为相同的一个标记115进行处理。这样,第一邻近统合是多个标记区域的一部分相互重叠时进行的邻近统合。
另一方面,在图19中,被赋予标记编号“1”的标记115-1和被赋予标记编号“2”的标记115-2与图18同样是彼此分开的。但是,在图19中,由标记115-1形成的标记区域116-1和由标记115-2形成的标记区域116-2相互不重叠,标记区域116-2位于与标记区域116-1相距距离d的位置。因此,在第二邻近统合中,在标记区域116-1与标记区域116-2之间的距离d小于阈值THD的情况下,截取部12将标记115-1和标记115-2统合作为一个标记115进行处理。在图19中,由于标记区域116-1与标记区域116-2之间的距离d是两个像素,所以例如在阈值THD被设定为五个像素的情况下,截取部12将标记115-1和标记115-2统合作为一个标记115进行处理。这样,第二邻近统合是多个标记区域彼此间的距离小于阈值THD时进行的邻近统合。
以上,在第一标记处理(步骤S307)中,进行第一邻近统合及第二邻近统合两方。以下,在不区分标记区域116-1、116-2的情况下,将其统称为标记区域116。
返回图4,接着,在步骤S309中,截取部12进行“第一去除处理”。在步骤S309中,截取部12对实施了第一标记处理(步骤S307)的二值化数据实施第一去除处理,从二值化数据中去除噪点,由此从多个标记115中提取可能识别为字符的标记(以下也称为“识别可能性标记”)。也就是说,识别可能性标记是由从实施了第一标记处理的二值化数据中去除了形成作为噪点的标记115的二值化数据之后剩余的二值化数据形成的标记。第一去除处理中的噪点去除是基于标记区域116的尺寸进行的。截取部12基于标记区域116的尺寸,判断可能表示数字“1”的标记115、可能表示数字“1”以外的字符的标记115、以及不可能表示字符的标记115(也就是说噪点),将判断为噪点的标记115从二值化数据中去除。由此,提取可能表示数字“1”的标记115、以及可能表示数字“1”以外的字符的标记115作为识别可能性标记。
在判断标记115是否是噪点时,设定标记区域116的“基准尺寸”,将具有尺寸不符合于该基准尺寸并且横向长度与纵向长度间的横纵比小于1:3的标记区域116的标记115作为噪点去除。在第一去除处理中,例如在将长方形照片以横长朝向观看时,将照片的横向长度的0.3%以上且小于2.2%的长度设定为基准尺寸的横向长度,将照片的纵向长度的2.0%以上且小于4.0%的长度设定为基准尺寸的纵向长度。
以上,对以彩色DSEG字体作为识别对象的步骤S305~S309的处理进行了说明。
另一方面,控制部17,在步骤S303中判断为字体种类计数器n为“1”的情况下,在步骤S311中使二值化部13进行“第2二值化处理”。例如二值化部13使用“大津二值化”对日期区域数据101进行第2二值化处理,由此将日期区域数据101二值化而生成二值化数据。
接着,在步骤S313中,控制部17使截取部12进行“第二标记处理”。第二标记处理是在上述第一标记处理(步骤S307)所包含的处理中将第二邻近统合排除掉的处理。也就是说,在第二标记处理中,进行上述图13~图18例示的处理,不进行上述图19例示的处理。
接着,在步骤S315中,截取部12进行“第二去除处理”。在步骤S315中,截取部12对实施了第二标记处理(步骤S313)的二值化数据实施第二去除处理而从二值化数据中去除噪点,由此从多个标记115中提取识别可能性标记。第二去除处理中的噪点去除与第一去除处理同样,基于标记区域116的尺寸进行。但是,在第二去除处理中,例如在将长方形照片以横长朝向观看时,将照片的横向长度的0.4%以上且小于4.0%的长度设定为基准尺寸的横向长度,将照片的纵向长度的2.0%以上且小于5.0%的长度设定为基准尺寸的纵向长度。
以上,对以白色非DSEG字体为识别对象的步骤S311~S315的处理进行了说明。
此外,控制部17,在步骤S303中判断为字体种类计数器n为“2”的情况下,在步骤S317中,与步骤S305同样地使二值化部13进行第1二值化处理。
接着,在步骤S319中,控制部17与步骤S313同样地使截取部12进行第二标记处理。
接着,在步骤S321中,截取部12与步骤S315同样地进行第二去除处理。
以上,对以彩色非DSEG字体作为识别对象的步骤S317~S321的处理进行了说明。
经过步骤S309、S315或S321的处理后,处理前进至步骤S323。
在步骤S323中,截取部12进行标记检索。图20是表示实施例1的标记检索的一个示例的图。图20所示的所有标记115都是识别可能性标记。
在图20中,截取部12将日期区域数据101内的多个识别可能性标记115中位于最上侧的识别可能性标记115作为基准,在该位于最上侧的标记115的上端的位置设定在横向上延伸的检测线125。以下,也将作为检测线125的设定基准的标记115称为“基准标记”。
接着,截取部12将以所设定的检测线125为基准上下规定的范围设定为检索范围126。例如,截取部12将以检测线125为基准向上五个像素以及向下五个像素的范围、也就是说以上下十个像素的宽度横向延伸的范围设定为检索范围126。
接着,截取部12在基准标记115以外的其他识别可能性标记115中进行标记检索,来检索标记区域116的一部分与检索范围126重叠的其他识别可能性标记115。
在检测出两个以上标记区域116的一部分与检索范围126重叠的其他识别可能性标记115的情况下,截取部12将在基准标记115及检测出的多个其他识别可能性标记115中位于最上侧的识别可能性标记115的上端位置横向延伸的线设定为“上端线”,将在位于最下侧的识别可能性标记115的下端位置横向延伸的线设定为“下端线”。
另一方面,在没有检测出两个以上的标记区域116的一部分与检索范围126重叠的其他识别可能性标记115的情况下,截取部12将日期区域数据101内的多个识别可能性标记115中位于此次检索的基准标记下侧的下一个识别可能性标记115作为新的基准标记,并设定新的检测线125及新的检索范围126。然后,截取部12基于该新的检索范围126进行与上述同样的标记检索,并尝试设定上端线及下端线。
然后,截取部12反复进行上述标记检索并尝试设定上端线及下端线,直到日期区域数据101内的多个识别可能性标记115中位于最下侧的识别可能性标记115成为基准标记为止。
返回图4,接着,在步骤S325中,控制部17判断步骤S323中的标记检索是否成功。在截取部12能够通过步骤S323中的标记检索来设定上端线及下端线两方的情况下,控制部17判断为标记检索成功。在标记检索成功的情况下(步骤S325:“是”),处理前进至步骤S327。另一方面,在截取部12无法通过步骤S323中的标记检索来设定上端线或下端线的情况下,控制部17判断为标记检索失败。在标记检索失败的情况下(步骤S325:“否”),处理前进至步骤S329。
这里,例如在图3所示的矩形区域数据100中,在右下方的指定范围内包含日期,而在左上方的指定范围内没有包含日期的情况下,对日期区域数据101-2进行的标记检索成功,而对日期区域数据101-1进行的标记检索失败。
在步骤S329中,控制部17使字体种类计数器n递增。经过步骤S329的处理后,处理返回到步骤S301。
另一方面,在步骤S327中,截取部12进行截取处理。在步骤S327中,截取部12基于通过步骤S323设定的上端线及下端线,从日期区域数据101中截取位于上端线与下端线之间的区域内的数据(以下也称为“对象区域数据”)。
经过步骤S327的处理后,处理前进至图2的步骤S211。
返回图2,在步骤S211中,控制部17使识别部14进行识别处理。图21是用于说明实施例1的识别处理的一个示例的流程图。
在图21中,在步骤S401中,首先,控制部17将指定处理次数a及处理次数计数器i设定为“0”。
接着,在步骤S403中,控制部17判断字体种类计数器n的值。在字体种类计数器n为“0”的情况下,进行步骤S405~S411的处理,在字体种类计数器n为“1”的情况下,进行步骤S413~S419的处理,在字体种类计数器n为“2”的情况下,进行步骤S421~S427的处理。也就是说,步骤S405~S411的处理是以彩色DSEG字体为识别对象的处理,步骤S413~S419的处理是以白色非DSEG字体为识别对象的处理,步骤S421~S427的处理是以彩色非DSEG字体为识别对象的处理。
在步骤S403中判断为字体种类计数器n为“0”的情况下,控制部17在步骤S405中将指定处理次数a设定为“56”。通过步骤S405将指定处理次数a设定为“56”,由此在灰度值为26~246的范围内,使用每隔灰度值“4”的56个二值化分层基准,反复进行56次步骤S407~S411、S431的处理。即,在第一次处理中,将二值化分层基准设定为“26”,进行步骤S407~S411、S431的处理,在第二次处理中,将二值化分层基准设定为“30”,进行步骤S407~S411、S431的处理,在第三次处理中,将二值化分层基准设定为“34”,进行步骤S407~S411、S431的处理。之后,同样地,二值化分层基准每次增加“4”,直到成为“246”为止,在灰度值为26~246的范围内设定56个二值化分层基准,使用各二值化分层基准反复进行S407~S411、S431的处理。
在步骤S407中,控制部17使二值化部13进行“第3二值化处理”。在第3二值化处理中,在处理次数计数器i为“0”时,二值化部13将二值化分层基准设定为“26”,通过分别对对象区域数据的R分量及R-G分量进行二值化来生成二值化数据。由此,每进行一次第3二值化处理,就生成R分量的二值化数据和R-G分量的二值化数据这两个二值化数据。此外,在第3二值化处理中,在处理次数计数器i为“1”时,二值化部13将二值化分层基准设定为“30”而分别对对象区域数据的R分量及R-G分量进行二值化,来生成二值化数据,在处理次数计数器i为“2”时,将二值化分层基准设定为“34”而分别对对象区域数据的R分量及R-G分量进行二值化,来生成二值化数据。由此,随着步骤S429中处理次数计数器i的递增反复进行56次步骤S407的处理,由此生成R分量的56个二值化数据和R-G分量的56个二值化数据。
接着,在步骤S409中,控制部17使截取部12进行第一标记处理。在步骤S409中,截取部12对通过第3二值化处理生成的二值化数据进行第一标记处理。
接着,在步骤S411中,截取部12进行第一去除处理。在步骤S411中,截取部12对实施了第一标记处理(步骤S409)的二值化数据实施第一去除处理。
以上,对以彩色DSEG字体为识别对象的步骤S405~S411的处理进行了说明。
另一方面,在步骤S403中判断为字体种类计数器n为“1”的情况下,在步骤S413中,控制部17将指定处理次数a设定为“1”。通过在步骤S413中将指定处理次数a设定为“1”,仅进行一次步骤S413~S419的处理。
接着,在步骤S415中,控制部17使二值化部13进行第2二值化处理。
接着,在步骤S417中,控制部17使截取部12进行第二标记处理。
接着,在步骤S419中,截取部12进行第二去除处理。
以上,对以白色非DSEG字体为识别对象的步骤S413~S419的处理进行了说明。
此外,在步骤S403中判断为字体种类计数器n为“2”的情况下,在步骤S421中,控制部17与步骤S405同样地将指定处理次数a设定为“56”。
接着,在步骤S423中,控制部17与步骤S407同样地使二值化部13进行第3二值化处理。
接着,在步骤S425中,控制部17与步骤S417同样地使截取部12进行第二标记处理。
接着,在步骤S427中,截取部12与步骤S419同样地进行第二去除处理。
以上,对以彩色非DSEG字体为识别对象的步骤S421~S427的处理进行了说明。
这里,在步骤S411中,对实施了第一标记处理(步骤S409)的二值化数据实施第一去除处理而从二值化数据中去除噪点,由此从多个标记115中提取作为字符成为识别对象的标记(以下,也称为“识别对象标记”)。此外,在步骤S419、S427中,对实施了第二标记处理(步骤S417、S425)的二值化数据实施第二去除处理而从二值化数据中去除噪点,由此从多个标记115中提取识别对象标记。
经过步骤S411、S419或S427的处理后,处理前进到步骤S429。
在步骤S429中,控制部17使处理次数计数器i递增。
接着,在步骤S431中,控制部17使识别部14对识别对象标记进行字符识别。识别部14例如使用作为深度学习(Deep Learning)的一种的CNN(Convolutional NeuralNetwork,卷积神经网络)对识别对象标记进行字符识别。以下,识别部14使用CNN而能够识别的字符种类例如为数字“0”~“9”、以及作为日期的分隔符使用的“/”、“年”、“月”、“日”共计14种。即,日期区域数据101中包含作为使用这14种字符中的任意字符而形成的字符串的日期。
这里,通常通过在CNN中使用各种学习数据,模型(model)表现力得以提高,因此能够提高字符识别的精度。另一方面,模型表现力越高,CNN的层数越深,因此字符识别所要求的计算量增加。也就是说,在CNN中,学习数据的量越多,字符识别所要求的计算量就越多。因此,在本实施例中,通过将字符识别中的容易混淆的数据从学习数据中排除,制作层数少的模型,识别部14使用应用了层数少的模型的CNN,对识别对象标记进行字符识别。
图22是表示实施例1的容易混淆的数据的一个示例的图。在图22中,例如数据D1容易混淆是“/”还是数字“1”。此外,例如数据组D2中的各数据容易混淆是数字“1”还是数字“7”。此外,例如数据组D3中的各数据容易混淆是数字“3”还是数字“8”。此外,例如数据组D4中的各数据容易混淆是数字“8”还是数字“9”。因此,在本实施例中,通过将图22所示的容易混淆的数据从学习数据中排除,来制作层数少的模型。例如在本实施例中,使CNN的层为卷积(Convolutional)两层及全连通(Fully connected)两层共计四层。
在步骤S431中,识别部14以如下方式使用CNN对识别对象标记进行字符识别。即,识别部14将通过步骤S411、S419或S427提取出的识别对象标记逐个输入到CNN,计算上述14种字符种类中的每一种的准确度[%]作为CNN的输出。其中,将上述14种字符种类的合计准确度设为100%。然后,识别部14采用在上述14种字符种类中准确度超过50%的字符作为识别结果。例如对于被输入到CNN的识别对象标记,CNN的输出是数字“1”的准确度为70%、数字“7”的准确度为10%、分隔符“/”的准确度为20%、其他字符的准确度为0%的情况下,识别部14采用数字“1”作为对被输入到CNN的识别对象标记进行字符识别的结果,并使数字“1”的识别次数递增。此外,例如对于被输入到CNN的识别对象标记,CNN的输出是数字“3”的准确度为60%、数字“8”的准确度为5%、数字“9”的准确度为35%、其他字符的准确度为0%的情况下,识别部14采用数字“3”作为对被输入到CNN的识别对象标记进行字符识别的结果,并使数字“3”的识别次数递增。这样的关于各字符的识别次数的递增,是对在对象区域数据内位于互不相同位置的多个识别对象标记按每个识别对象标记分别进行的。
返回图21,接着,在步骤S433中,控制部17判断处理次数计数器i的值是否超过指定处理次数a。在处理次数计数器i的值为指定处理次数a以下的情况下(步骤S433:“否”),处理返回步骤S403。由此,在字体种类计数器n为“0”的情况下,反复进行56次步骤S407~S411及S431的处理。此外,在字体种类计数器n为“2”的情况下,反复进行56次步骤S423~S427及S431的处理。也就是说,在字体种类为彩色DSEG字体及彩色非DSEG字体即“彩色字体”的情况下,反复进行多次二值化部13的二值化处理(步骤S407、S423)及识别部14的去除处理(步骤S411、S427)。
另一方面,在处理次数计数器i的值超过指定处理次数a的情况下(步骤S433:“是”),处理前进到步骤S435。
在步骤S435中,识别部14进行“整体识别”。识别部14基于步骤S431中的识别结果,以如下方式进行整体识别。
即,例如假设对象区域数据包含第一~第五的五个识别对象标记。在字体种类计数器n为“0”或“2”的情况下,识别部14按56个二值化分层基准的每一个来判断第一~第五识别对象标记的识别结果的组合,通过在56次字符识别中按组合分别统计识别结果组合的判断次数,来进行整体识别。即,识别部14采用在56次字符识别中,具有按组合分别统计的判断次数中最多判断次数的组合作为对第一~第五识别对象标记的识别结果。这是由于具有最多判断次数的组合是准确度最高的组合。这里,识别部14仅在各二值化分层基准下对象区域数据中包含四个以上的识别对象标记的情况下判断识别对象标记的识别结果的组合。
例如,在二值化分层基准为“38”、“138”及“210”时,在步骤S431的字符识别中,第一识别对象标记被识别为“8”、第二识别对象标记被识别为“8”、第三识别对象标记被识别为“6”、第四识别对象标记被识别为“3”、第五识别对象标记被识别为“0”。此外,在二值化分层基准为“86”及“178”时,在步骤S431的字符识别中,第一识别对象标记被识别为“9”、第二识别对象标记被识别为“8”、第三识别对象标记被识别为“6”、第四识别对象标记被识别为“3”、第五识别对象标记被识别为“0”。此外,在二值化分层基准=98时,在步骤S431的字符识别中,第一识别对象标记被识别为“8”、第二识别对象标记被识别为“8”、第三识别对象标记被识别为“5”、第四识别对象标记被识别为“3”、第五识别对象标记被识别为“0”。此外,在二值化分层基准=222时,在步骤S431的字符识别中,第一识别对象标记被识别为“3”、第二识别对象标记被识别为“8”、第三识别对象标记被识别为“5”、第四识别对象标记被识别为“3”、第五识别对象标记被识别为“0”。由此,第一~第五识别对象标记的识别结果的组合的判断次数中,作为第一组合的“88630”是3次,作为第二组合的“98630”是2次,作为第三组合的“88530”是1次,作为第四组合的“38530”是1次。因此,作为整体识别的最终的识别结果,识别部14采用判断次数最多的第一组合即字符串“88630”。通过整体识别得到的该“88630”的识别结果,作为图5所示的DSEG字体的日期的识别结果是妥当的。
此外,例如在二值化分层基准为“38”、“138”及“210”时,在步骤S431的字符识别中,第一识别对象标记被识别为“3”、第二识别对象标记被识别为“8”、第三识别对象标记被识别为“6”、第四识别对象标记被识别为“3”、第五识别对象标记被识别为“0”。此外,在二值化分层基准为“86”及“178”时,在步骤S431的字符识别中,第一识别对象标记被识别为“9”、第二识别对象标记被识别为“8”、第三识别对象标记被识别为“6”、第四识别对象标记被识别为“3”、第五识别对象标记被识别为“0”。此外,在二值化分层基准=98时,在步骤S431的字符识别中,第一识别对象标记被识别为“8”、第二识别对象标记被识别为“8”、第三识别对象标记被识别为“5”、第四识别对象标记被识别为“3”、第五识别对象标记被识别为“0”。此外,在二值化分层基准=222时,在步骤S431的字符识别中,第一识别对象标记被识别为“8”、第二识别对象标记被识别为“8”、第三识别对象标记被识别为“6”、第四识别对象标记被识别为“3”、第五识别对象标记被识别为“0”。由此,第一~第五识别对象标记的识别结果的组合的判断次数中,作为第一组合的“38630”是3次,作为第二组合的“98630”是2次,作为第三组合的“88530”是1次,作为第四组合的“88630”是1次。因此,作为整体识别的最终识别结果,识别部14采用判断次数最多的第一组合即字符串“38630”。通过整体识别得到的该“38630”的识别结果,作为图5所示的DSEG字体的日期识别结果是不妥当的。
另外,在字体种类计数器n为“1”的情况下,识别部14采用在通过步骤S431对第一~第五中的各识别对象标记仅进行1次字符识别中被识别出的识别对象标记的组合作为整体识别的最终识别结果。
以上,对步骤S435的整体识别进行了说明。这样,在步骤S435中,识别部14对对象区域数据所包含的所有识别对象标记进行整体识别。换言之,识别部14以如上方式对日期区域数据所包含的字符串进行整体识别。
接着,在步骤S437中,识别部14判断步骤S435的整体识别是否成功。在步骤S437中,在所有二值化分层基准的任一个下通过整体识别都无法识别出四位以上的字符串的情况下,识别部14判断为整体识别失败,而在某一个二值化分层基准下通过整体识别能够识别出四位以上的字符串的情况下,识别部14判断为整体识别成功。在字体种类计数器n为“0”或“2”的情况下,所有二值化分层基准的个数为56个,在字体种类计数器n为“1”的情况下,所有二值化分层基准的个数为1个。
在整体识别成功的情况下(步骤S437:“是”),处理前进到图2的步骤S213,在整体识别失败的情况下(步骤S437:“否”),处理前进到步骤S439。也就是说,在难以通过步骤S435的整体识别来识别字符串的情况下(步骤S437:“否”),识别部14进行步骤S439的单个识别。
在步骤S439中,识别部14进行“单个识别”。识别部14基于步骤S431中的识别结果,以如下方式进行单个识别。
即,例如假设对象区域数据中包含第一~第五的五个识别对象标记。在字体种类计数器n为“0”或“2”的情况下,识别部14通过在56次字符识别中按第一~第五中的各识别对象标记单个地统计识别次数来进行单个识别。即,识别部14针对第一~第五的各识别对象标记单个采用在56次字符识别中统计的识别次数最多的字符作为识别结果。这是由于识别次数最多的字符是准确度最高的字符。这里,识别部14仅在各二值化分层基准下对象区域数据中包含四个以上的识别对象标记的情况下对各识别对象标记进行单个识别。
例如,针对第一~第五识别对象标记中的第一识别对象标记,在56次字符识别中,6次被识别为“8”,1次被识别为“9”,1次被识别为“3”。因此,识别部14采用“8”作为单个识别时对第一识别对象标记的识别结果。此外,针对第二识别对象标记,在56次字符识别中,9次被识别为“8”,2次被识别为“3”。因此,识别部14采用“8”作为单个识别时对第二识别对象标记的识别结果。此外,针对第三识别对象标记,在56次字符识别中,7次被识别为“6”,2次被识别为“5”。因此,识别部14采用“6”作为单个识别时对第三识别对象标记的识别结果。此外,针对第四识别对象标记,在56次字符识别中,9次被识别为“3”。因此,识别部14采用“3”作为单个识别时对第四识别对象标记的识别结果。此外,针对第五识别对象标记,在56次字符识别中,9次被识别为“0”,4次被识别为“8”。因此,识别部14采用“0”作为单个识别时对第五识别对象标记的识别结果。由此,作为单个识别的最终识别结果,识别部14采用作为各单个识别的识别结果的“8”、“8”、“6”、“3”、“0”的组合即字符串“88630”。通过单个识别得到的该“88630”的识别结果,作为图5所示的DSEG字体的日期的识别结果是妥当的。
此外,例如,针对第一~第五识别对象标记中的第一识别对象标记,在56次字符识别中,6次被识别为“3”,1次被识别为“9”,1次被识别为“8”。因此,识别部14采用“3”作为单个识别时对第一识别对象标记的识别结果。此外,针对第二识别对象标记,在56次字符识别中,9次被识别为“8”,2次被识别为“3”。因此,识别部14采用“8”作为单个识别时对第二识别对象标记的识别结果。此外,针对第三识别对象标记,在56次字符识别中,7次被识别为“6”,2次被识别为“5”。因此,识别部14采用“6”作为单个识别时对第三识别对象标记的识别结果。此外,针对第四识别对象标记,在56次字符识别中,9次被识别为“3”。因此,识别部14采用“3”作为单个识别时对第四识别对象标记的识别结果。此外,针对第五识别对象标记,在56次字符识别中,9次被识别为“0”,4次被识别为“8”。因此,识别部14采用“0”作为单个识别时对第五识别对象标记的识别结果。由此,作为单个识别的最终识别结果,识别部14采用作为各单个识别的识别结果的“3”、“8”、“6”、“3”、“0”的组合即字符串“38630”。通过单个识别得到的该“38630”的识别结果,作为图5所示的DSEG字体的日期的识别结果是不妥当的。
另外,在字体种类计数器n为“1”的情况下,识别部14采用通过步骤S431对第一~第五中的各识别对象标记仅进行1次字符识别的识别结果作为单个识别的最终识别结果。
以上,对步骤S439的单个识别进行了说明。这样,在步骤S439中,识别部14对对象区域数据所包含的各识别对象标记进行单个识别。换言之,识别部14以如上方式对日期区域数据所包含的字符串的各字符进行单个识别。
接着,在步骤S441中,识别部14判断步骤S439的单个识别是否成功。在步骤S439中,在所有二值化分层基准的任一个下通过单个识别都无法识别出四位以上的字符串的情况下,识别部14判断为单个识别失败,而在某一个二值化分层基准下通过单个识别能够识别出四位以上的字符串的情况下,识别部14判断为单个识别成功。在字体种类计数器n为“0”或“2”的情况下,所有二值化分层基准的个数是56个,在字体种类计数器n为“1”的情况下,所有二值化分层基准的个数是1个。
在单个识别成功的情况下(步骤S441:“是”),处理前进到图2的步骤S213,在单个识别失败的情况下(步骤S441:“否”),处理前进到步骤S443。
在步骤S443中,控制部17使字体种类计数器n递增。经过步骤S443的处理后,处理返回图2的步骤S209。
以上,对步骤S211的识别处理进行了说明。
返回图2,接着,在步骤S213中,控制部17使校正部15进行校正处理。在步骤S213中,校正部15对步骤S435中的整体识别的最终识别结果或步骤S439中的单个识别的最终识别结果进行校正处理。图23是用于说明实施例1的校正处理的一个示例的流程图。
在图23中,在步骤S500中,首先,控制部17判断由识别结果所包含的字符串表示的日期是否满足规定的日期条件。例如规定的日期条件是“1950年1月1日~当前日期”,在由识别结果所包含的字符串表示的日期与1950年1月1日~当前日期中的某一日期相对应的情况下,控制部17判断为该日期满足规定的日期条件。另一方面,如果由识别结果所包含的字符串表示的日期与1950年1月1日~当前日期中的任一日期都不对应,控制部17判断为该日期不满足规定的日期条件。也就是说,控制部17判断由识别结果所包含的字符串表示的日期作为日期是否妥当。在由校正后的识别结果所包含的字符串表示的日期满足规定的日期条件的情况下(步骤S500:“是”),处理前进至图2的步骤S215。另一方面,在由校正后的识别结果所包含的字符串表示的日期不满足规定的日期条件的情况下(步骤S500:“否”),处理前进至步骤S501。
由此,例如对于图5所示的DSEG字体的日期,在通过整体识别或单个识别被识别为“88630”的情况下,步骤S500中的判断为“是”,而在被识别为“38630”的情况下,步骤S500中的判断为“否”。
接着,在步骤S501中,控制部17判断字体种类计数器n的值。
在字体种类计数器n为“0”的情况下,在步骤S503中,控制部17使校正部15进行“第一校正处理”。另一方面,在字体种类计数器n为“1”或“2”的情况下,在步骤S505中,控制部17使校正部15进行“第二校正处理”。也就是说,步骤S503的第一校正处理是以对彩色DSEG字体的识别结果为对象的校正处理,步骤S505的第二校正处理是以对白色非DSEG字体及彩色非DSEG字体、也就是说对非DSEG字体的识别结果为对象的校正处理。也就是说,在字体种类为DSEG字体的情况下与字体种类为DSEG字体以外的字体的情况下,校正部15使对识别结果的校正处理不同。
图24~图26是表示实施例1的第一校正处理的一个示例的图。在DSEG字体是七段式字体的情况下,“0”~“9”中各数字如图24所示,用seg1~seg7这七个字段形成。因此,在步骤S503中,例如在由识别部14进行识别处理所得到的最终识别结果中包含数字“3”的情况下,校正部15如图25所示那样将该“3”校正为数字“8”。此外,例如在步骤S503中,在由识别部14进行识别处理所得到的最终识别结果中包含数字“5”的情况下,校正部15如图26所示那样将该“5”校正为数字“6”。如图25所示,构成数字“3”的字段数量是五个,而构成数字“8”的字段是七个。此外,如图26所示,构成数字“5”的字段数量是五个,而构成数字“6”的字段数量是六个。也就是说,在字体种类为DSEG字体的情况下执行的第一校正处理(步骤S503)中,校正部15基于构成识别处理的识别结果所包含的各数字的字段数量,对识别结果进行校正处理。
另一方面,图27~图32是表示实施例1的第二校正处理的一个示例的图。
例如如图27所示,在由识别部14进行识别处理所得到的最终识别结果为“2002/08112”的情况下,校正部15首先在从最左侧起第五位的位置P5检测作为分隔符的“/”。然后,在从最左侧起第五位的位置P5检测出作为分隔符的“/”的情况下,如果如图27所示那样在从最左侧起第八位的位置P8有数字“1”,则校正部15将该数字“1”校正为作为分隔符的“/”。
此外,例如如图28所示,在由识别部14进行识别处理所得到的最终识别结果为“2002/08712”的情况下,校正部15首先在从最左侧起第五位的位置P5检测作为分隔符的“/”。然后,在从最左侧起第五位的位置P5检测出作为分隔符的“/”的情况下,如果如图28所示那样在从最左侧起第八位的位置P8有数字“7”,则校正部15将该数字“7”校正为作为分隔符的“/”。
此外,例如如图29所示,在由识别部14进行识别处理所得到的最终识别结果为“2002108112”的情况下,校正部15首先在从最左侧起第五位的位置P5和第八位的位置P8检测数字“1”。然后,在从最左侧起第五位的位置P5和第八位的位置P8检测出数字“1”的情况下,校正部15如图29所示那样分别将位于从最左侧起第五位的位置P5和第八位的位置P8的数字“1”校正为作为分隔符的“/”。
此外,例如如图30所示,在由识别部14进行识别处理所得到的最终识别结果为“0045月248”的情况下,校正部15首先在从最左侧起第五位的位置P5检测作为分隔符的“月”。然后,在从最左侧起第五位的位置P5检测出作为分隔符的“月”的情况下,如果如图30所示在从最左侧起第三位的位置P3有数字“4”,则校正部15将该数字“4”校正为作为分隔符的“年”,如果在从最左侧起第八位的位置P8有数字“8”,则将该数字“8”校正为作为分隔符的“日”。
此外,例如如图31所示,在由识别部14进行识别处理所得到的最终识别结果为“00年58248”的情况下,校正部15首先在从最左侧起第三位的位置P3检测作为分隔符的“年”。然后,在从最左侧起第三位的位置P3检测出作为分隔符的“年”的情况下,如果如图31所示在从最左侧起第五位的位置P5有数字“8”,则校正部15将该数字“8”校正为作为分隔符的“月”,如果在从最左侧起第八位的位置P8有数字“8”,则将该数字“8”校正为作为分隔符的“日”。
此外,例如如图32所示,在由识别部14进行识别处理所得到的最终识别结果为“0045824日”的情况下,校正部15首先在从最左侧起第八位的位置P8检测作为分隔符的“日”。然后,在从最左侧起第八位的位置P8检测出作为分隔符的“日”的情况下,如果如图32所示在从最左侧起第三位的位置P3有数字“4”,则校正部15将该数字“4”校正为作为分隔符的“年”,如果在从最左侧起第五位的位置P5有数字“8”,则校正部15将该数字“8”校正为作为分隔符的“月”。
也就是说,在字体种类为DSEG字体以外的字体(也就是说,非DSEG字体)的情况下执行的第二校正处理(步骤S505)中,校正部15基于识别处理的识别结果所包含的各字符的位置关系,对识别结果进行校正处理。
以上,对第一校正处理和第二校正处理进行了说明。
返回图23,经过步骤S503或步骤S505的处理后,处理前进至步骤S507。
在步骤S507中,控制部17判断由校正后的识别结果所包含的字符串表示的日期是否满足规定的日期条件。判断方法与步骤S500相同。在由校正后的识别结果所包含的字符串表示的日期满足规定的日期条件的情况下(步骤S507:“是”),处理前进到图2的步骤S215。另一方面,在由校正后的识别结果所包含的字符串表示的日期不满足规定的日期条件的情况下(步骤S507:“否”),处理前进到步骤S509。
在步骤S509中,控制部17判断字体种类计数器n是否为“2”以下。在字体种类计数器n为“3”以上的情况下、也就是说在与第一种~第三种的所有字体种类对应的日期识别处理结束的情况下(步骤S509:“否”),处理前进到图2的步骤S215。另一方面,在字体种类计数器n为“2”以下的情况下、也就是说在与第一种~第三种中的第三种为止的字体种类对应的日期识别处理没有结束的情况下(步骤S509:“是”),处理前进到步骤S511。
在步骤S511中,控制部17使字体种类计数器n递增。经过步骤S511的处理后,处理返回图2的步骤S209。
返回图2,在步骤S215中,控制部17使附加部16进行日期数据附加处理。在步骤S215中,附加部16从存储部11获取输入图像数据,将构成由校正后的识别结果所包含的字符串表示的日期的日期数据附加到从存储部11获取的输入图像数据。然后,附加部16将被附加了日期数据的输入图像数据作为输出图像数据从日期识别装置1输出。
如上所述,在实施例1中,日期识别装置1包括截取部12、二值化部13、识别部14、校正部15和附加部16。截取部12从输入图像数据截取日期区域数据。二值化部13进行将日期区域数据二值化而生成二值化数据的二值化处理。识别部14进行如下识别处理:对二值化数据实施利用了深度学习的识别处理,来识别日期区域数据所包含的字符串。校正部15对识别处理的识别结果,进行与日期区域数据所包含的字符串的字体种类相匹配的校正处理。附加部16将基于校正后的识别结果所包含的字符串的日期数据附加到图像数据。
这样,即使在深度学习的学习程度较低而字符串的识别精度较低的情况下,也能够通过进行与字体种类相匹配的校正处理来提高日期的识别精度。换言之,由于能够通过进行与字体种类相匹配的校正处理来提高日期的识别精度,所以能够减少作为深度学习的一种的CNN的层数,从而能够削减计算量。由此,能够以较少的处理量而高精度地识别被附加在照片等介质上的日期。
此外,在字体种类为DSEG字体的情况下与字体种类为DSEG字体以外的字体(也就是说,非DSEG字体)的情况下,校正部15使校正处理不同。
这样,由于能够进行与DSEG字体及非DESG字体各自的特征相匹配的校正处理,所以能够提高校正的精度。
此外,在字体种类为DSEG字体的情况下,校正部15基于构成识别处理的识别结果所包含的各数字的字段数量来进行校正处理。
这样,能够优先校正DSEG字体中容易产生识别错误的数字。
此外,在字体种类为非DSEG字体的情况下,校正部15基于识别结果所包含的各字符的位置关系来进行校正处理。
这样,能够优先校正非DSEG字体中容易产生识别错误的字符。
此外,二值化部13及识别部14反复进行多次二值化处理及识别处理,识别部14基于准确度最高的识别结果来识别字符串。
这样,能够进一步提高日期的识别精度。
此外,识别部14,在难以通过整体识别来整体地识别字符串所包含的多个字符的情况下,通过单个识别来单个地识别多个字符中的每个字符。
这样,在难以通过整体识别来进行识别的情况下,才会进行与整体识别相比处理量更多而识别精度更高的单个识别,因此能够将处理量抑制为最小限度并且能够提高识别精度。
实施例2
图33是表示实施例2的便携式终端的结构示例的图。在图33中,便携式终端10包括日期识别装置1、拍摄部10a、操作部10b、显示部10c和通信部10d。便携式终端10例如是智能手机或平板电脑终端等智能设备。拍摄部10a作为硬件例如由照相机实现。操作部10b及显示部10c作为硬件例如由触摸面板实现。通信部10d作为硬件例如由无线通信模块或网络接口模块实现。
在便携式终端10中,例如由拍摄部10a拍摄的图像的数据、由通信部10d接收到的图像的数据成为向日期识别装置1的输入图像数据。
其他实施例
(1)在步骤S431的字符识别中,如果识别对象标记的标记区域116的横向长度与纵向长度的横纵比为1:3以上,则识别部14可以不使用CNN进行字符识别,而采用数字“1”作为对识别对象标记的字符识别结果。
(2)校正部15可以在判断次数相同的组合存在多个的情况下对整体识别的识别结果进行第一校正处理。例如在整体识别中,上述第一~第五识别对象标记的识别结果组合的判断次数是,第一组合“88613”为4次、第二组合“88618”为4次、第三组合“88530”为2次、第四组合“88630”为1次的情况下,校正部15可以通过在判断次数同为4次的第一组合与第二组合之间进行第一校正处理,从而采用“88618”作为整体识别的识别结果。
(3)校正部15可以在针对一个识别对象标记存在有识别次数相同的多个数字的情况下对单个识别的识别结果进行第一校正处理。例如在对于上述第一~第五识别对象标记中的第一识别对象标记,在56次字符识别中,5次被识别为“3”,5次被识别为“8”,1次被识别为“9”的情况下,校正部15可以通过在识别次数同为5次的“3”与“8”之间进行第一校正处理,从而采用“8”作为第一识别对象标记的单个识别的识别结果。
(4)在实施例1的第二标记处理(步骤S313、S319)中,不进行第二邻近统合。但是,在第二标记处理中也可以进行第二邻近统合。在第二标记处理中进行第二邻近统合时,优选将第二邻近统合所用的阈值THD设为比第一标记处理中的第二邻近统合的情况小的值。
(5)也可以基于日期区域数据101的背景颜色,设定指定处理次数a的值。例如在背景中摄入有图案等而使背景的颜色比较复杂的情况下,也可以增大指定处理次数a的值。
(6)S431的字符识别所用的深度学习不限于CNN。例如也可以使用RNN(RecurrentNeural Network,循环神经网络)或LSTM(Long Short-Term Memory,长短期记忆)等深度学习来进行S431的字符识别。
(7)日期识别装置1的上述说明中的各处理的全部或一部分可以通过使日期识别装置1具有的处理器执行与各处理对应的程序来实现。例如与上述说明中的各处理对应的程序可以存储在存储器中,由处理器从存储器中读取并执行程序。此外,程序也可以存储在经由任意网络与便携式终端10连接的程序服务器中,从该程序服务器下载到便携式终端10来执行,或者存储在便携式终端10能够读取的记录介质中,从该记录介质读取并执行。便携式终端10能够读取的记录介质例如包括存储卡、USB存储器、SD卡、软盘、磁光盘、CD-ROM、DVD、以及Blu-ray(登记商标)盘等便携式存储介质。此外,程序是以任意语言及任意描述方法记述的数据处理方法,源代码及二进制代码等,形式均可。此外,程序不限于单一构成的程序,还包括作为多个模块或多个程序库而分散构成的程序、与以OS为代表的另一个程序协同作用来实现其功能的程序。
(8)日期识别装置1的分散/集成的具体形态不限于图示的方式,能够根据各种附加等或者根据功能负载,相应地以任意单位在功能上或物理上将日期识别装置1的全部或一部分进行分散/集成而构成。

Claims (8)

1.一种日期识别装置,其包括:
截取部,其从通过拍摄附加有日期的介质而生成的图像数据,截取被推断为附加有所述日期的区域的数据即日期区域数据;
二值化部,其进行将所述日期区域数据二值化而生成二值化数据的二值化处理;
识别部,其进行如下识别处理:对所述二值化数据实施利用了深度学习的识别处理,来识别所述日期区域数据所包含的字符串;
校正部,其对所述识别处理的识别结果进行与所述字符串的字体种类相匹配的校正处理;以及
附加部,其将基于校正后的所述识别结果所包含的字符串的日期数据附加到所述图像数据。
2.根据权利要求1所述的日期识别装置,其特征在于:
所述校正部,在所述字体种类为DSEG字体的情况下与所述字体种类为所述DSEG字体以外的字体的情况下,使所述校正处理不同。
3.根据权利要求2所述的日期识别装置,其特征在于:
所述校正部,在所述字体种类为所述DSEG字体的情况下,基于构成所述识别结果所包含的各数字的字段的数量来进行所述校正处理。
4.根据权利要求2所述的日期识别装置,其特征在于:
所述校正部,在所述字体种类为所述DSEG字体以外的字体的情况下,基于所述识别结果所包含的各字符的位置关系来进行所述校正处理。
5.根据权利要求1至4中任一项所述的日期识别装置,其特征在于:
所述二值化部及所述识别部,反复进行多次所述二值化处理及所述识别处理,
所述识别部,基于准确度最高的所述识别结果来识别所述字符串。
6.根据权利要求1至5中任一项所述的日期识别装置,其特征在于:
所述识别部,在难以整体地识别所述字符串所包含的多个字符的情况下,单个地识别所述多个字符中的每个字符。
7.一种日期识别方法,其特征在于:
从通过拍摄附加有日期的介质而生成的图像数据,截取被推断为附加有所述日期的区域的数据即日期区域数据;
将所述日期区域数据二值化而生成二值化数据;
进行如下识别处理:对所述二值化数据实施利用了深度学习的识别处理,来识别所述日期区域数据所包含的字符串;
根据所述字符串的字体种类来校正所述识别处理的识别结果;以及
将基于校正后的所述识别结果所包含的字符串的日期数据附加到所述图像数据。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
从通过拍摄附加有日期的介质而生成的图像数据,截取被推断为附加有所述日期的区域的数据即日期区域数据;
将所述日期区域数据二值化而生成二值化数据;
对所述二值化数据实施利用了深度学习的识别处理,来识别所述日期区域数据所包含的字符串而获得识别结果;
根据所述字符串的字体种类来校正所述识别结果;以及
将基于校正后的所述识别结果所包含的字符串的日期数据附加到所述图像数据。
CN201710819188.6A 2017-02-14 2017-09-12 日期识别装置、日期识别方法及计算机可读存储介质 Withdrawn CN108427952A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-025261 2017-02-14
JP2017025261A JP6401806B2 (ja) 2017-02-14 2017-02-14 日付識別装置、日付識別方法及び日付識別プログラム

Publications (1)

Publication Number Publication Date
CN108427952A true CN108427952A (zh) 2018-08-21

Family

ID=63104751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710819188.6A Withdrawn CN108427952A (zh) 2017-02-14 2017-09-12 日期识别装置、日期识别方法及计算机可读存储介质

Country Status (3)

Country Link
US (1) US10380416B2 (zh)
JP (1) JP6401806B2 (zh)
CN (1) CN108427952A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220648B (zh) * 2017-04-11 2018-06-22 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
US20210397737A1 (en) * 2018-11-07 2021-12-23 Element Ai Inc. Removal of sensitive data from documents for use as training sets
CN111353511B (zh) 2018-12-20 2024-03-08 富士通株式会社 号码识别装置及方法
JP6868057B2 (ja) * 2019-05-27 2021-05-12 株式会社東芝 読取システム、読取方法、プログラム、記憶媒体、及び移動体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016019171A (ja) * 2014-07-09 2016-02-01 株式会社ビデオリサーチ コンテンツ接触状況検出装置及びシステム及び方法及びプログラム、端末
CN105431866A (zh) * 2013-07-16 2016-03-23 株式会社汤山制作所 光学字符识别装置
CN105989359A (zh) * 2015-03-20 2016-10-05 株式会社Pfu 日期识别装置
CN106156768A (zh) * 2016-07-01 2016-11-23 屈桢深 基于视觉的机动车行驶证检测方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221512A (ja) 1995-02-10 1996-08-30 Canon Inc 画像処理装置及びその方法
JP3422896B2 (ja) * 1996-05-10 2003-06-30 株式会社神戸製鋼所 画像認識方法及びその装置
JPH09326012A (ja) * 1996-06-05 1997-12-16 Oki Electric Ind Co Ltd 文字認識装置および文字認識方法
US6029144A (en) * 1997-08-29 2000-02-22 International Business Machines Corporation Compliance-to-policy detection method and system
JP2000339472A (ja) 1999-05-31 2000-12-08 Hitachi Eng Co Ltd セグメント文字パターンの印字判定方法及び装置
JP2001331781A (ja) * 2000-05-19 2001-11-30 Konica Corp 画像データ保存方法、画像処理方法及びコンピュータ読み取り可能な記憶媒体
US8569142B2 (en) * 2003-11-28 2013-10-29 Blackberry Limited Multi-level thin film capacitor on a ceramic substrate and method of manufacturing the same
FR2864664B1 (fr) * 2003-12-24 2008-08-15 Solystic Procede de traitement d'envois postaux avec prise en compte d'un surcroit d'erreur de distribution
US9769354B2 (en) * 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US7895157B2 (en) * 2007-11-19 2011-02-22 At&T Intellectual Property I, Lp Methods, systems and computer program products for playing back previously published content
US8001237B2 (en) * 2008-03-21 2011-08-16 Young Yee Remote monitoring of user input devices
WO2010027813A1 (en) * 2008-08-25 2010-03-11 The Nanosteel Company, Inc. Ductile metallic glasses in ribbon form
KR101468231B1 (ko) * 2009-09-11 2014-12-04 삼성전자주식회사 라벨 검색 방법 및 장치
US9152883B2 (en) * 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US20110249905A1 (en) * 2010-01-15 2011-10-13 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents including tables
JP5418386B2 (ja) * 2010-04-19 2014-02-19 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
EP2666123A4 (en) * 2011-01-18 2017-03-08 RTC Vision Ltd. System and method for improved character recognition in distorted images
JP5075997B2 (ja) * 2011-03-30 2012-11-21 株式会社東芝 電子機器、プログラムおよび文字列認識方法
JP5830338B2 (ja) * 2011-10-07 2015-12-09 株式会社日立情報通信エンジニアリング 帳票認識方法および帳票認識装置
US9311531B2 (en) 2013-03-13 2016-04-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9355312B2 (en) * 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
JP2016177383A (ja) * 2015-03-18 2016-10-06 グローリー株式会社 識別番号検索システム及び識別番号検索方法
JP5997808B1 (ja) 2015-06-18 2016-09-28 株式会社Pfu 画像処理装置、日付識別装置、画像処理方法、および、プログラム
US10242285B2 (en) * 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105431866A (zh) * 2013-07-16 2016-03-23 株式会社汤山制作所 光学字符识别装置
JP2016019171A (ja) * 2014-07-09 2016-02-01 株式会社ビデオリサーチ コンテンツ接触状況検出装置及びシステム及び方法及びプログラム、端末
CN105989359A (zh) * 2015-03-20 2016-10-05 株式会社Pfu 日期识别装置
CN106156768A (zh) * 2016-07-01 2016-11-23 屈桢深 基于视觉的机动车行驶证检测方法

Also Published As

Publication number Publication date
JP2018132894A (ja) 2018-08-23
US10380416B2 (en) 2019-08-13
JP6401806B2 (ja) 2018-10-10
US20180232884A1 (en) 2018-08-16

Similar Documents

Publication Publication Date Title
CN108427952A (zh) 日期识别装置、日期识别方法及计算机可读存储介质
EP3425563B1 (en) Automatic extraction method, device and system for driving licence expiration date, and storage medium
CN110766014A (zh) 票据信息定位方法、系统及计算机可读存储介质
CN111753767A (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN103699891B (zh) 图像处理装置及图像处理方法
CN111340037B (zh) 文本版面分析方法、装置、计算机设备和存储介质
EA001689B1 (ru) Система автоматической идентификации языка для многоязычного оптического распознавания символов
CN107292307B (zh) 一种倒置汉字验证码自动识别方法及系统
RU2014137297A (ru) Система и способ считывания серийного номера бумажного листа
CN104809099B (zh) 文档文件生成装置及文档文件生成方法
JP2021502628A (ja) 画像処理方法及び画像処理システム
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
Tanahashi et al. Natsumushi: Image measuring software for entomological studies
CN111126243A (zh) 一种图像数据检测方法、装置以及计算机可读存储介质
EP4064114A1 (en) Image processing method and apparatus, electronic device, and storage medium
US20060194187A1 (en) Material processing apparatus, material processing method, and program product
CN109063670A (zh) 基于字头分组的印刷体满文单词识别方法
CN107122785A (zh) 文本识别模型建立方法和装置
JP7338135B2 (ja) 認識処理装置及びプログラム
US7920742B2 (en) Image processing apparatus, program and recording medium for document registration
JP7351159B2 (ja) 情報処理装置及びプログラム
JP6118646B2 (ja) 帳票処理装置、帳票処理方法、帳票処理プログラム
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN115376142B (zh) 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质
JP6561876B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180821