CN107085699B - 信息处理设备、信息处理设备的控制方法和存储介质 - Google Patents

信息处理设备、信息处理设备的控制方法和存储介质 Download PDF

Info

Publication number
CN107085699B
CN107085699B CN201611237042.2A CN201611237042A CN107085699B CN 107085699 B CN107085699 B CN 107085699B CN 201611237042 A CN201611237042 A CN 201611237042A CN 107085699 B CN107085699 B CN 107085699B
Authority
CN
China
Prior art keywords
image
region
coordinate information
information processing
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611237042.2A
Other languages
English (en)
Other versions
CN107085699A (zh
Inventor
七海嘉仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN107085699A publication Critical patent/CN107085699A/zh
Application granted granted Critical
Publication of CN107085699B publication Critical patent/CN107085699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1335Combining adjacent partial images (e.g. slices) to create a composite input or reference pattern; Tracking a sweeping finger movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/0044Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及信息处理设备、信息处理设备的控制方法和存储介质。该信息处理设备包括:提取单元,用于提取整体图像的特征量和局部图像的特征量;决定单元,用于基于所述整体图像的特征量和所述局部图像的特征量来决定所述局部图像在所述整体图像中的位置;接收单元,用于接收对所述局部图像中所包括的对象的选择;以及转换单元,用于将基于所决定的所述局部图像在所述整体图像中的位置,来将在所述局部图像中的所选择的对象的坐标转换成所述整体图像中的坐标。

Description

信息处理设备、信息处理设备的控制方法和存储介质
技术领域
本发明涉及信息处理设备、信息处理设备的控制方法和存储介质。
背景技术
近年来,具有照相机的移动终端已经普及。在现有技术中,用户已经使用扫描器等来对纸质文档进行电子拍摄,而如今能够通过使用移动终端的照相机等来简单地对纸质文档进行电子拍摄。日本特开2011-008802公开了用于对通过使用照相机所拍摄的图像进行OCR的技术。
发明内容
为了使用OCR所识别出的文本信息,OCR精度是非常重要的。然而,存在如下可能性:与接近对象时所拍摄的商业名片或驾驶执照的OCR精度相比,诸如A4或A3等的相对大尺寸的纸质文档的OCR精度可能降低。更具体地,除了相对于对象的距离远所引起的所要识别的文本中的各单个字符的分辨率降低之外,在对图像细节进行聚焦时还可能发生模糊。因此,即使在诸如A4或A3等的相对大尺寸的纸质文档中,也必须在接近对象的文本区域时拍摄图像,以提高OCR精度。利用提高了的OCR精度,可以通过在拍摄了纸质文档的整体图像之后,在接近要使用的文本区域时拍摄图像,来获取纸质文档的整体图像和具有良好精度的文本信息。
本发明提供在接近纸质文档时拍摄图像的情况下能够快速地找到所需的文本区域的信息处理设备。
本发明的一种信息处理设备,其特征在于,包括:提取单元,用于提取整体图像的特征量和局部图像的特征量;决定单元,用于基于所述整体图像的特征量和所述局部图像的特征量来决定所述局部图像在所述整体图像中的位置;接收单元,用于接收对所述局部图像中所包括的对象的选择;以及转换单元,用于基于所决定的所述局部图像在所述整体图像中的位置,来将所述局部图像中的所选择的对象的坐标转换成所述整体图像中的坐标。
本发明的一种信息处理设备的控制方法,所述控制方法的特征在于包括以下步骤:提取步骤,用于提取整体图像的特征量和局部图像的特征量;决定步骤,用于基于所述整体图像的特征量和所述局部图像的特征量来决定所述局部图像在所述整体图像中的位置;接收步骤,用于接收对所述局部图像中所包括的对象的选择;以及转换步骤,用于基于所决定的所述局部图像在所述整体图像中的位置,来将所述局部图像中的所选择的对象的坐标转换成所述整体图像中的坐标。
本发明的一种非瞬态存储介质,其存储使计算机执行信息处理设备的控制方法的计算机程序,其特征在于,所述控制方法包括:提取步骤,用于提取整体图像的特征量和局部图像的特征量;决定步骤,用于基于所述整体图像的特征量和所述局部图像的特征量来决定所述局部图像在所述整体图像中的位置;接收步骤,用于接收对所述局部图像中所包括的对象的选择;以及转换步骤,用于基于所决定的所述局部图像在所述整体图像中的位置,来将所述局部图像中的所选择的对象的坐标转换成所述整体图像中的坐标。
根据本发明,可以提供在通过接近纸质文档来拍摄图像的情况下能够找到所需的文本区域的信息处理设备。
通过以下(参考附图)对典型实施例的说明,本发明的其它特征将变得明显。
附图说明
图1是示出移动终端的外观的示例的图。
图2是示出移动终端的硬件结构的示例的图。
图3是示出移动终端的软件结构的示例的图。
图4是示出移动应用程序的UI的示例的图。
图5是示出整体图像和局部图像的示例的图。
图6A和6B是示出图像分类处理的示例的图。
图7是示出坐标处理的示例的图。
图8是示出坐标管理表的数据结构和所保持的坐标信息的图。
图9是示出预设处理流程的图。
图10是示出基本流程的图。
图11是示出图10的步骤S1005中的处理的详情的图。
图12是示出移动应用程序的UI的示例的图。
具体实施方式
以下将参考附图等来描述用于执行本发明的最佳实施例。
外观
将描述移动终端作为根据本实施例的信息处理设备的示例。移动终端是移动便携式终端的示例,并且是使用具有无线通信功能的装置而能够在任何位置使用的终端。图1是示出移动终端的外观的示例的图。移动终端100被配置成包括各个类型的单元(移动终端正面单元101~照相机104)。移动终端100的正面侧是移动终端正面单元101。触摸面板102是诸如显示器等的显示单元的示例,并且具有输出(显示)和输入两个功能。另外,移动终端100的背面侧是移动终端背面单元103。移动终端背面单元103包括用于拍摄图像的照相机104。在本实施例中,移动终端100的用户可以在以下要描述的移动应用程序中通过拍摄被摄体105的图像来开始处理。在本实施例中,被摄体105是作为A4尺寸的纸质文档的订货单。被摄体105不仅仅局限于纸质文档,并且还可以包括例如商业名片、照片和白板等。此外,以下要描述的移动应用程序使得能够拍摄被摄体105的图像并且将该图像输出(显示)至触摸面板102。
硬件结构
图2是示出移动终端100的硬件结构的示例的图。移动终端100被配置成包括各个类型的单元(CPU 201~总线207)。中央处理单元(CPU)201是用于执行各个类型的程序并且实现各种功能的单元。随机存取存储器(RAM)202是用于存储各个类型的信息的单元。另外,RAM 202是还被用作CPU 201的临时工作存储区域的单元。只读存储器(ROM)203是用于存储各个类型的程序等的单元。例如,CPU 201将ROM 203中所存储的程序加载在RAM 202上并且执行该程序。
另外,CPU 201执行基于诸如闪速存储器、硬盘驱动器(HDD)或固态硬件(SSD)等的外部存储装置中所存储的程序的处理。因此,实现以下要描述的如图3所示的构成移动终端100的软件结构和以下要描述的序列的各步骤中的处理。还可以使用专用硬件来实现与以下要描述的序列有关的处理的全部或一部分以及移动终端100的功能。输入/输出接口204相对于触摸面板102发送或接收数据。网络接口卡(NIC)205是用于将移动终端100连接至网络(未示出)的单元。照相机单元206连接至照相机104,并且拍摄移动终端100中的被摄体105的图像。上述的单元各自被配置成能够经由总线207来发送和接收数据。
软件结构(移动终端)
将描述移动终端100中的软件的结构。图3是示出移动终端100的软件结构的示例的图。用于实现图3所示的各软件(应用程序)中的功能(模块单元)的程序存储在各装置的ROM 203等中。移动终端100的操作系统(OS)(未示出)具有数据管理单元301。数据管理单元301管理图像或应用程序数据。OS提供用来使用数据管理单元301的控制用应用程序编程接口(API)。各应用程序通过使用控制用API来获取或保存数据管理单元301所管理的图像或应用程序数据。
移动应用程序302是可以通过使用移动终端100的OS的安装功能(例如,AppleStore和GooglePay等)进行下载和安装来执行的应用程序。移动应用程序302对经由照相机单元206所拍摄的被摄体105的图像进行各个类型的数据处理。
主控制单元303控制应用程序(移动应用程序)302,并且进行针对各模块单元(主控制单元303~图像特征量提取单元312)的指示和管理。信息显示单元304根据来自主控制单元303的指示,向用户提供移动应用程序302的用户界面(UI)。操作信息获取单元305获取与信息显示单元304所显示的移动应用程序302的UI的用户操作有关的信息,并且向主控制单元303通知所获取到的信息。例如,如果用户利用手来触摸以下要描述的图4所示的显示操作区域401,则操作信息获取单元305检测与在画面上的触摸位置有关的信息,并且将所检测到的与位置有关的信息发送至主控制单元303。
图像分析单元306对经由照相机单元206所获取到的照相机输入图像进行分析,并且生成布局信息。该布局信息包括从图像提取出的矩形区域和该矩形区域的类型(字符、图形、线和表等)。另外,图像分析单元306针对照相机输入图像进行纸张检测处理和失真校正处理。OCR单元307针对图像分析单元306所提取出的矩形区域进行光学字符识别(OCR)处理。图像分类单元308进行学习处理,以创建分类处理中所使用的分类器。此外,图像分类单元308使用该分类器来进行分类处理,并且对照相机输入图像进行分类。
存储单元309保存用户经由操作信息获取单元305(即,经由移动应用程序302的UI)所输入的设置值(使设置值存留)。DB单元310具有数据库功能,并且管理用户所选择的矩形区域的坐标信息、图像的特征量和分类器等。另外,DB单元310的数据保存在存储单元309中。坐标处理单元311进行将坐标信息登记在数据库时的坐标转换处理或者图像的位置指定处理。图像特征量提取单元312针对照相机输入图像进行用以提取图像的特征量的处理。
图4是示出用于提供移动应用程序302的UI(移动终端用的UI)的画面的示例(移动终端画面400)的图。移动终端画面400是在移动终端100的触摸面板102上所显示的UI。将经由照相机104所拍摄的图像显示在移动终端画面400上的显示操作区域401中,并且经由所显示的UI来接收针对图像等的用户的操作(用户操作)。移动应用程序302的UI的形式(位置、尺寸、范围、配置和显示内容等)不限于图4所示的本实施例,并且可以采用能够实现移动终端100的功能的结构。
整体图像和局部图像
接着,将使用图5来描述整体图像和局部图像。在本实施例中,经由照相机104来获取被摄体105的A4尺寸的整体订货单的图像。通过进行用以排除被摄体以外的区域的纸张检测处理以及用以校正失真部分的失真校正处理来使图像成形。在本实施例中,将所成形的图像设置为整体图像500,并且视为整体图像的示例。另外,将接近被摄体105时照相机104所获取到的被摄体105的部分(或者整体)的图像设置为局部图像501。在本实施例中,局部图像501是局部图像的示例。此外,位置502示出局部图像在整体图像中的区域(位置)。
图像分类处理
接着,将使用图6A和6B来描述图像分类单元308所进行的对照相机输入图像的分类。图像分类单元308包括学习处理单元601和分类处理单元602。学习处理单元601使用要分类成的各文档类型(各类型)中的图像的整体图像特征量数据608来执行以下要描述的学习处理,并且创建分类器。图像分类单元308使用所创建的分类器来进行分类处理,并且决定照相机输入图像的分类。
通常,表示图像的特征的特征量数据由多维数据来表示,并且被称为特征向量。维数表示特征的类型是哪种类型。在学习处理单元601所进行的学习处理中,图像特征量提取单元312进行对从各文档类型的多个学习图像(整体图像)的特征提取以进行分类,并且计算针对各学习图像的100维的特征向量。此外,基于同一文档的多个学习图像的特征向量,从100维的特征向量中决定分类中的具有显著特征的10维的特征向量。通过被称为过滤器的软件组件来进行该维数减少处理。在各文档中所计算出的特征向量(10维)和过滤器的组合的集合被称为分类器607,并且与针对各文档类型的整体图像特征量数据608一起由DB单元310进行管理。
在分类处理单元602所进行的学习处理中,图像特征量提取单元312针对经由照相机104所获取到的局部图像进行特征提取,并且计算特征向量(100维)。接着,向所计算出的特征向量(100维)应用分类器607的各分类的过滤器(主成分分析),由此计算出与各分类相对应的特征向量(10维)。然后,将局部图像的特征向量(10维)与分类器的各文档的特征向量(10维)相比较,并且通过相似度判断来决定分类。在相似度判断中,如果相似度没有超过阈值,则决定为分类失败。
图6A和6B的学习结果609示出通过学习处理单元601的学习处理而在DB单元310中所存储的数据的示例。DB单元310包括从针对各文档类型的整体图像所提取出的整体图像特征量数据608和能够分类成分类1(604)、分类2(605)和分类3(606)的分类器607。另外,分类结果610表示通过分类处理单元602的分类处理、基于分类器607和局部图像来决定分类的示例。在本实施例中,分类结果610示出输入局部图像,并且将分类结果判断为分类1(604)、分类2(605)和分类3(606)中的分类1(604)。图像分类单元308所进行的图像分类不限于本实施例,并且可以采用能够实现该功能的适当技术。
坐标处理
接着,将使用图7来描述根据本实施例的坐标系统、坐标处理单元311所进行的坐标变换处理和DB单元310所管理的矩形区域坐标。首先,根据本实施例的坐标系统包括被摄体坐标701、显示器坐标702、局部图像坐标703、整体图像坐标704和DB登记坐标。被摄体坐标701是表示A4订货单中的位置的坐标的集合,显示器坐标702是在显示器中的位置的坐标的集合,局部图像坐标703是局部图像中的位置的坐标的集合,并且整体图像坐标704是整体图像中的位置的坐标的集合。DB登记坐标是标准化(将整体图像坐标相对于整体的比率乘以10000)后的整体图像坐标的集合。进行标准化的原因在于:即使在对原始图像的长度和宽度不存在依赖性并且具有不同的DPI的情况下(即使在附近进行摄像或者在远距离处进行摄像),也可以存在对应关系。
这里,坐标转换处理是用以在这些坐标系统之间进行转换的处理。例如,在矩形区域坐标保存处理中(以下要描述的步骤S904),将用户在显示器上所选择的矩形区域(显示器坐标)705转换成整体图像坐标706,并且进一步转换成DB登记坐标并保存在DB单元310中。DB单元310所管理的矩形区域坐标具有被设置为minX的矩形区域的左上X坐标、被设置为maxX的右下X坐标、被设置为minY的左上Y坐标以及被设置为maxY的右下Y坐标。以整体图像500的宽度是1500px并且整体图像500的长度是2000px的情况来提供描述。如果整体图像坐标706的左上坐标707是(X,Y)=(200,700)并且右上坐标708是(400,750),则DB登记坐标是(1333,3500),(2666,3750)。
数据结构(DB)
接着,将描述DB单元310的坐标管理表。图8是示出根据本实施例的坐标管理表的数据结构和所保持的坐标信息的示例的图。坐标管理表801包括id栏、分类栏、类型栏、minX栏、maxX栏、minY栏和maxY栏。id栏是每当记录添加至坐标管理表801时递增1的值并且是表的主关键字。分类栏存储分类结果(例如,图6A和6B的分类结果610)。类型栏存储用以识别数据是通过矩形区域坐标保存处理(以下要描述的步骤S904)所保存的数据还是通过用户的选择由矩形区域坐标保存处理所保存的数据的识别符。minX栏存储所选区域的左上X坐标。maxX栏存储所选区域的右下X坐标。minY栏存储所选区域的左上Y坐标。maxY栏存储所选区域的右下Y坐标。在附图中,与作为用户在矩形区域坐标保存处理(以下要描述的步骤S904)中所选择的区域的所选区域807、808和809相对应的坐标信息是坐标信息802、坐标信息803和坐标信息804。与作为通过用户的选择而在矩形区域坐标保存处理中所选择的区域的所选区域810和811相对应的坐标信息是坐标信息805和坐标信息806。
预设置处理流程
接着,将使用图9来描述移动终端中的预设置处理流程。该流程从用户使用移动应用程序302、经由移动终端100中的照相机104来获取被摄体105的图像的步骤作为触发而开始。针对文档类型的数量的一部分(在本实施例中,用于分类成分类1~分类3的三个文档类型的一部分)重复以下步骤S901~S904的处理。
首先,移动应用程序302的图像分析单元306对照相机输入图像执行纸张检测处理和失真校正处理,并且获取整体图像500。接着,在步骤S902中,图像特征量提取单元312从整体图像500提取整体图像特征量数据608。然后,在步骤S903中,移动应用程序302的主控制单元303将整体图像特征量数据608与文档类型相关联地保存在DB单元310。然后,在步骤S904中,移动应用程序302的主控制单元303将在步骤S901中所获取到的整体图像500显示在移动终端100的显示操作区域401中,并且允许用户选择矩形区域坐标(例如,矩形区域705)。此外,主控制单元303使用坐标处理单元311进行坐标转换处理,将矩形区域坐标705转换成整体图像坐标706,并且将结果转换成DB登记坐标。然后,主控制单元303将坐标信息804保存在DB单元310中。坐标信息802和803也采用相同过程来保存。
在针对文档类型的数量的部分的处理的重复结束之后,在步骤S905中,图像分类单元308基于针对文档类型部分的整体图像特征量数据608来创建分类器607,并且将该分类器保存在DB单元310中。根据上述处理,创建在以下要描述的处理中所要使用的针对各文档的整体图像特征量数据608、坐标信息(802、803和804)和分类器607。
基本流程
接着,将使用图10来描述移动终端100的基本处理流程。该流程从用户使用移动终端100中的移动应用程序302、使照相机104接近被摄体105来获取图像的步骤作为触发而开始。
首先,在步骤S1001中,移动应用程序302经由照相机单元206来获取局部图像501。接着,在步骤S1002中,图像特征量提取单元312从局部图像中提取局部图像特征量。然后,在步骤S1003中,图像分类单元308使用所提取出的局部图像特征量和分类器607来进行分类处理单元602中的分类处理,并且决定局部图像中的分类。然后,在步骤S1004中,移动应用程序302判断局部图像是否被分类。如果局部图像能够被分类(是),则过程移入步骤S1005。另一方面,如果局部图像无法被分类(否),则过程返回至步骤S1001,以再次经由照相机单元206来获取局部图像。
接着,在步骤S1005中,移动应用程序302的主控制单元403将局部图像显示在显示操作区域401中。此外,主控制单元使用坐标处理单元311来决定局部图像501在整体图像500中的位置,并且显示文本区域。以下将使用图12来详细描述步骤S1005。接着,在步骤S1006中,移动应用程序302判断是否存在用户对文本区域的选择。如果存在用户对文本区域的选择(是),则过程移入步骤S1007。另一方面,如果不存在用户对文本区域的选择(否),则过程返回至步骤S1005,以再次进行文本区域显示处理。
接着,在步骤S1007中,移动应用程序302获取与用户所选择的文本区域有关的文本信息。然后,根据步骤S1005中所限定的整体图像和局部图像的位置502,移动应用程序302将用户在坐标处理单元311中所选择的文本区域的矩形坐标711转换成整体图像的矩形坐标712。然后,移动应用程序302将矩形坐标712保存在DB单元310的坐标管理表801中(坐标信息805和806)。
文本区域显示处理流程
图11是示出图10的流程中的步骤S1005的处理的详情的流程图。首先,在步骤S1101中,移动应用程序302经由照相机单元206来获取要处理的局部图像。接着,在步骤S1102中,图像特征量提取单元312从局部图像501中提取局部图像特征量。然后,在步骤S1103中,坐标处理单元311从DB单元310获取步骤S1003中所决定的分类(分类1)的整体图像特征量数据608。然后,将整体图像特征量数据608与局部图像特征量相比较,由此指定局部图像在整体图像中的位置502。
接着,在步骤S1104中判断是否指定了位置。如果能够指定位置(是),则过程移入步骤S1105,另一方面,如果无法指定位置(否),则过程返回至步骤S1101。接着,在步骤S1105中,OCR单元307对局部图像501中的对象区域进行识别。接着,在步骤S1106中,OCR单元307对步骤S1105中所识别出的对象区域进行OCR处理,并且对文本信息进行识别。然后,OCR单元307将能够识别文本信息的对象区域识别为文本区域。图12的文本区域1201是所识别出的文本区域的示例。然后,在步骤S1108中,主控制单元303判断在局部图像中是否识别出文本区域。如果能够识别出文本区域(是),则过程移入步骤S1109。另一方面,如果无法识别出文本区域(否),则过程移入步骤S1113。
接着,在步骤S1109中,坐标处理单元311通过坐标转换处理将DB单元310中所保存的坐标信息(802~806)从整体图像坐标转换成局部图像坐标,并且判断转换出的局部图像坐标是否为局域图像501中的坐标。如果坐标在局域图像501中(是),则过程移入步骤S1111。另一方面,如果坐标不在局部图像中(否),则过程移入步骤S1110。然后,在步骤S1110中,信息显示单元304将步骤S1107中所识别出的文本区域重叠在局部图像上,并且将该文本区域显示在显示操作区域401中,并且处理结束。
接着,在步骤S1111中,信息显示单元304将步骤S1107中所识别出的文本区域重叠在局部图像上,并会将该文本区域显示在显示操作区域401中。然后,在步骤S1112中,坐标处理单元311将转换出的局部图像坐标校正成文本区域,并且显示该文本区域。换句话说,在转换出的局部图像坐标与文本区域即使只有一点点重叠的情况下,也对转换出的局部图像坐标进行校正,并且显示文本区域。此外,如果转换出的局部图像坐标与多个文本区域重叠,则将转换出的局部图像坐标校正成存在更多重叠面积的坐标,并且显示文本区域。
这里,将参考图12来描述显示示例中的校正之后的文本区域。坐标1202是校正之前的局部图像坐标,并且显示示例1203是校正之后的显示示例。另外,显示示例1205、1203和1204与图8中的坐标信息802、803和804相对应。此外,显示示例1206和1207与图8所示的坐标信息805和806相对应。
返回参考图11,在步骤S1113中,坐标处理单元311通过进行坐标转换处理将DB单元310中所保存的坐标信息(802~806)从整体图像坐标转换成局部图像坐标,并且判断转换出的局部图像坐标是否为局部图像501中的坐标。如果坐标在局部图像501中(是),则过程移入步骤S1114。另一方面,如果坐标不在局部图像501中(否),过程返回至步骤S1101。接着,信息显示单元304将从整体图像坐标转换成局部图像坐标的坐标显示在局部图像中。然后,处理结束。
如上所述,根据本实施例,如果通过接近纸质文档来拍摄图像,则通过显示作为用户的候选选择而预先保存的区域,能够快速地找到所需的文本区域。
其它实施例
本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。
尽管已经参考典型实施例说明了本发明,但是应该理解,本发明不限于所公开的典型实施例。所附权利要求书的范围符合最宽的解释,以包含所有这类修改、等同结构和功能。
本申请要求2015年12月28日提交的日本专利申请2015-256476的优先权,这里通过引用将其全部内容包含于此。

Claims (11)

1.一种信息处理设备,包括:
存储单元,用于存储整体图像的第一特征量和所述整体图像中所包括的区域的坐标信息;
提取单元,用于提取局部图像的第二特征量;
决定单元,用于基于所存储的所述整体图像的第一特征量和所提取的所述局部图像的第二特征量来决定所述局部图像在所述整体图像中的位置;
识别单元,用于从所述局部图像识别文本区域的位置;以及
显示单元,用于显示所述局部图像和与所述存储单元中所存储的坐标信息相对应的区域,其中,所显示的与所述存储单元中所存储的坐标信息相对应的区域与所显示的局部图像重叠,以及其中,基于所识别的文本区域的位置来校正所显示的与所存储的坐标信息相对应的区域的位置。
2.根据权利要求1所述的信息处理设备,其中,所述提取单元还用于提取所述整体图像的第一特征量,
所述信息处理设备还包括:
坐标信息获得单元,用于获得所述整体图像中所包括的区域的坐标信息;以及
控制单元,用于控制所述存储单元对所提取的所述整体图像的第一特征量和所获得的所述整体图像中所包括的区域的坐标信息进行存储。
3.根据权利要求1所述的信息处理设备,其中,还包括:
接收单元,用于接收用户对所显示的区域的选择;以及
文本信息获得单元,用于获得基于所述用户的选择所选择的区域的文本信息。
4.根据权利要求1所述的信息处理设备,其中,在与所存储的坐标信息相对应的区域的位置与所识别的文本区域的位置重叠的情况下,所述显示单元基于重叠面积更多的文本区域的位置来校正与所存储的坐标信息相对应的区域的位置。
5.根据权利要求1所述的信息处理设备,其中,通过光学字符识别处理来在所述局部图像中识别所述文本区域的位置。
6.一种信息处理方法,包括以下步骤:
存储整体图像的第一特征量和所述整体图像中所包括的区域的坐标信息;
提取局部图像的第二特征量;
基于所存储的所述整体图像的第一特征量和所提取的所述局部图像的第二特征量来决定所述局部图像在所述整体图像中的位置;
从所述局部图像识别文本区域的位置;以及
显示所述局部图像和与所存储的坐标信息相对应的区域,其中,所显示的与所存储的坐标信息相对应的区域与所显示的局部图像重叠,以及其中,基于所识别的文本区域的位置来校正所显示的与所存储的坐标信息相对应的区域的位置。
7.根据权利要求6所述的信息处理方法,其中,还包括:
提取所述整体图像的第一特征量;以及
获得所述整体图像中所包括的区域的坐标信息,
其中,在所述存储中对所提取的所述整体图像的第一特征量和所获得的所述整体图像中所包括的区域的坐标信息进行存储。
8.根据权利要求6所述的信息处理方法,其中,还包括以下步骤:
接收用户对所显示的区域的选择;以及
获得基于所述用户的选择所选择的区域的文本信息。
9.根据权利要求6所述的信息处理方法,其中,在与所存储的坐标信息相对应的区域的位置与所识别的文本区域的位置重叠的情况下,基于重叠面积更多的文本区域的位置来校正与所存储的坐标信息相对应的区域的位置。
10.根据权利要求6所述的信息处理方法,其中,通过光学字符识别处理来从所述局部图像识别所述文本区域的位置。
11.一种非瞬态存储介质,其存储使计算机执行信息处理方法的计算机程序,所述信息处理方法包括:
存储整体图像的第一特征量和所述整体图像中所包括的区域的坐标信息;
提取局部图像的第二特征量;
基于所存储的所述整体图像的第一特征量和所提取的所述局部图像的第二特征量来决定所述局部图像在所述整体图像中的位置;
从所述局部图像识别文本区域的位置;以及
显示所述局部图像和与所存储的坐标信息相对应的区域,其中,所显示的与所存储的坐标信息相对应的区域与所显示的局部图像重叠,以及其中,基于所识别的文本区域的位置来校正所显示的与所存储的坐标信息相对应的区域的位置。
CN201611237042.2A 2015-12-28 2016-12-28 信息处理设备、信息处理设备的控制方法和存储介质 Active CN107085699B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-256476 2015-12-28
JP2015256476A JP6739937B2 (ja) 2015-12-28 2015-12-28 情報処理装置、情報処理装置の制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN107085699A CN107085699A (zh) 2017-08-22
CN107085699B true CN107085699B (zh) 2021-06-15

Family

ID=57538984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611237042.2A Active CN107085699B (zh) 2015-12-28 2016-12-28 信息处理设备、信息处理设备的控制方法和存储介质

Country Status (4)

Country Link
US (1) US10452943B2 (zh)
EP (1) EP3193279A1 (zh)
JP (1) JP6739937B2 (zh)
CN (1) CN107085699B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176363B2 (en) * 2017-09-29 2021-11-16 AO Kaspersky Lab System and method of training a classifier for determining the category of a document
JP6784273B2 (ja) 2018-04-02 2020-11-11 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
JP7292052B2 (ja) * 2019-02-25 2023-06-16 Toppanエッジ株式会社 画像処理装置、ガイド画像生成方法及びプログラム
US20210286991A1 (en) * 2020-03-12 2021-09-16 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
EP4224349A4 (en) 2020-10-01 2023-11-15 NEC Corporation INFORMATION DISPLAY DEVICE, INFORMATION DISPLAY METHOD, AND RECORDING MEDIUM

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218109A (ja) * 2009-03-16 2010-09-30 Ricoh Co Ltd 画像検索装置及び画像検索方法
JP2011008752A (ja) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
CN105051753A (zh) * 2012-11-02 2015-11-11 维普公司 指纹录入算法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898301B2 (en) 2000-07-10 2005-05-24 Casio Computer Co., Ltd. Authentication system based on fingerprint and electronic device employed for the system
US7221796B2 (en) 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program
DE10342594B4 (de) 2003-09-15 2005-09-15 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE10345526A1 (de) 2003-09-30 2005-05-25 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten
US7840033B2 (en) 2004-04-02 2010-11-23 K-Nfb Reading Technology, Inc. Text stitching from multiple images
US7499588B2 (en) 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
WO2007117334A2 (en) 2006-01-03 2007-10-18 Kyos Systems Inc. Document analysis system for integration of paper records into a searchable electronic database
US20080094496A1 (en) 2006-10-24 2008-04-24 Kong Qiao Wang Mobile communication terminal
TWI379245B (en) 2009-04-27 2012-12-11 Asustek Comp Inc Method for continuously outputting character by video-recording
US8520983B2 (en) 2009-10-07 2013-08-27 Google Inc. Gesture-based selective text recognition
EP2821934B1 (en) 2013-07-03 2024-02-14 Open Text S.A. System and method for optical character recognition and document searching based on optical character recognition
US20150138220A1 (en) * 2013-11-18 2015-05-21 K-Nfb Reading Technology, Inc. Systems and methods for displaying scanned images with overlaid text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218109A (ja) * 2009-03-16 2010-09-30 Ricoh Co Ltd 画像検索装置及び画像検索方法
JP2011008752A (ja) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
CN105051753A (zh) * 2012-11-02 2015-11-11 维普公司 指纹录入算法

Also Published As

Publication number Publication date
US10452943B2 (en) 2019-10-22
CN107085699A (zh) 2017-08-22
EP3193279A1 (en) 2017-07-19
JP6739937B2 (ja) 2020-08-12
JP2017120503A (ja) 2017-07-06
US20170185859A1 (en) 2017-06-29

Similar Documents

Publication Publication Date Title
CN107085699B (zh) 信息处理设备、信息处理设备的控制方法和存储介质
CN107885430B (zh) 一种音频播放方法、装置、存储介质及电子设备
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
JP5896245B2 (ja) テキスト画像のトリミング方法
JP5662670B2 (ja) 画像処理装置、画像処理方法、及びプログラム
EP2605186B1 (en) Method and apparatus for recognizing a character based on a photographed image
EP3518522B1 (en) Image capturing method and device
WO2014184372A1 (en) Image capture using client device
CN103019537A (zh) 一种图像预览方法及装置
EP1833022A1 (en) Image processing device for detecting position of processing object in image
US20150112853A1 (en) Online loan application using image capture at a client device
US10373329B2 (en) Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing
KR20230017774A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
US10002291B2 (en) Method and system of identifying fillable fields of an electronic form
KR101498546B1 (ko) 문서 디지털 복원 시스템 및 방법
KR20120035360A (ko) 문자 인식 장치 및 방법
JP2016025625A (ja) 情報処理装置、情報処理方法及びプログラム
JP6478282B2 (ja) 情報端末装置及びプログラム
CN113835590A (zh) 显示方法、信息发送方法和电子设备
US11380032B2 (en) Image information processing apparatus, method and non-transitory computer readable medium storing program
JP2007011762A (ja) 領域抽出装置及び領域抽出方法
JP6639257B2 (ja) 情報処理装置及びその制御方法
Chazalon et al. Improving document matching performance by local descriptor filtering
JP2018055338A (ja) 情報処理装置、情報処理装置の制御方法、およびプログラム
JP6833324B2 (ja) 情報処理装置、プログラム及び情報処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant