JP2012194879A - Information processing apparatus, information processing method and program - Google Patents

Information processing apparatus, information processing method and program Download PDF

Info

Publication number
JP2012194879A
JP2012194879A JP2011059362A JP2011059362A JP2012194879A JP 2012194879 A JP2012194879 A JP 2012194879A JP 2011059362 A JP2011059362 A JP 2011059362A JP 2011059362 A JP2011059362 A JP 2011059362A JP 2012194879 A JP2012194879 A JP 2012194879A
Authority
JP
Japan
Prior art keywords
area
region
position information
image data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011059362A
Other languages
Japanese (ja)
Inventor
Masamitsu Ito
修光 伊藤
Takashi Sawada
敬 澤田
Shigehiro Fujitsuka
誠弘 藤塚
Tatsuya Mogi
達也 毛木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2011059362A priority Critical patent/JP2012194879A/en
Priority to CN2012100592429A priority patent/CN102708365A/en
Priority to US13/410,930 priority patent/US20120237131A1/en
Publication of JP2012194879A publication Critical patent/JP2012194879A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

PROBLEM TO BE SOLVED: To provide a technique for improving efficiency of definition information creation used for OCR software and the like.SOLUTION: An information processing apparatus according to the invention includes: an area recognition part for, in an area designated by a predetermined expression in image data, recognizing a first area designated by a first area designation expression and a second area designated by a second area designation expression that is different from the first area designation expression; a position information acquisition part for, in the image data, acquiring position information on the first area as position information to designate an area that is to be an object of character recognition; and an item name acquisition part for acquiring character information that is acquired by recognizing characters in the second area as an item name of an area that is to be an object of character recognition designated by the position information acquired by the position information acquisition part.

Description

本発明は、情報処理装置、情報処理方法、及び、プログラムの技術に関する。   The present invention relates to an information processing apparatus, an information processing method, and a program technique.

近年、業務改善及びコスト削減の観点から、様々な業務においてペーパーレス化が進められている。その一方で、例えば、取引書類等、未だ紙を利用する場面が数多く存在する。従来、このような紙が用いられる業務の効率を改善するためにOCR(Optical Character Recognition)ソフトが用いられてきた。   In recent years, paperlessness has been promoted in various businesses from the viewpoint of business improvement and cost reduction. On the other hand, there are still many scenes where paper is still used, for example, transaction documents. Conventionally, OCR (Optical Character Recognition) software has been used to improve the efficiency of operations in which such paper is used.

このようなOCRソフトにおいて読取領域等を指定するためには、該読取領域等の定義情報が必要となる。以下で挙げられる特許文献1及び特許文献2には、該定義情報に関する技術が開示されている。   In order to designate a reading area or the like in such OCR software, definition information of the reading area or the like is required. Patent Document 1 and Patent Document 2 listed below disclose techniques relating to the definition information.

特許文献1には、イメージデータを色別に走査することにより、色に対応する文字種の読み取りを行う技術が開示されている。また、特許文献2には、所定色枠で囲われた領域に記入されている属性情報を認識して、読み取り項目の属性情報定義体を作成する技術が開示されている。   Japanese Patent Application Laid-Open No. H10-260260 discloses a technique for reading a character type corresponding to a color by scanning image data for each color. Patent Document 2 discloses a technique for recognizing attribute information entered in a region surrounded by a predetermined color frame and creating an attribute information definition body for a read item.

実開平05−008670号公報Japanese Utility Model Publication No. 05-008670 特開平05−081472号公報JP 05-081472 A

しかしながら、従来の技術では、ユーザは、OCRソフトの定義情報を作成する際、イメージデータから取得した読取領域の位置情報に対して、該読取領域の記載内容を示す項目名を手入力により設定する必要があった。   However, in the conventional technique, when creating definition information of OCR software, the user manually sets an item name indicating the description content of the reading area for the position information of the reading area acquired from the image data. There was a need.

本発明は、このような点を考慮してなされたものであり、OCRソフト等に用いられる定義情報作成の効率化を図ることができる技術を提供することを目的とする。   The present invention has been made in consideration of such points, and an object of the present invention is to provide a technique capable of improving the efficiency of creating definition information used in OCR software or the like.

本発明は、上述した課題を解決するために、以下の構成を採用する。   The present invention employs the following configuration in order to solve the above-described problems.

すなわち、本発明の情報処理装置は、
イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識する領域認識部と、
前記イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、前記領域認識部により認識された前記第1領域の位置情報を取得する位置情報取得部と、
前記領域認識部により認識された前記第2領域内に存在する文字を認識することで得られる文字情報を、前記位置情報取得部により取得された前記位置情報により指定される前記文字認識の対象となる領域についての項目名として取得する項目名取得部と、
を備えることを特徴とする。
That is, the information processing apparatus of the present invention
For the area specified by the predetermined expression in the image data, the first area specified by the first area specifying expression and the second area specifying expression different from the first area specifying expression are designated. An area recognition unit for recognizing two areas;
In the image data, a position information acquisition unit that acquires position information of the first region recognized by the region recognition unit as position information for designating a region that is a target of character recognition;
Character information obtained by recognizing characters existing in the second area recognized by the area recognition unit is the character recognition target specified by the position information acquired by the position information acquisition unit. An item name acquisition unit to acquire as an item name for the area
It is characterized by providing.

ここで、領域指定表現とは、領域を指定するための表現である、枠、塗りつぶし、ハッチング等を指す。   Here, the area designation expression refers to an expression for designating an area, such as a frame, painting, or hatching.

上記構成によれば、イメージデータ内における第1領域と第2領域が認識される。そして、第1領域からは、文字認識の対象となる領域を指定するための位置情報が取得される。また、第2領域からは、該文字認識の対象となる領域についての項目名が取得される。そのため、ユーザは、取得された位置情報に係る文字認識の対象となる領域についての項目名を手入力により設定する必要がなくなる。したがって、上記構成によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる。   According to the above configuration, the first area and the second area in the image data are recognized. And the positional information for designating the area | region used as the object of character recognition is acquired from a 1st area | region. Moreover, the item name about the area | region used as the object of this character recognition is acquired from a 2nd area | region. This eliminates the need for the user to manually set item names for the areas for character recognition related to the acquired position information. Therefore, according to the above configuration, it is possible to improve the efficiency of creating definition information used for OCR software or the like.

また、本発明の別の形態として、本発明の情報処理装置は、
前記第1領域と前記第2領域とを対応付ける対応付け部を更に備え、
前記項目名取得部は、前記第2領域から得られた前記文字情報を、前記対応付け部により該第2領域に対応付けられた前記第1領域から取得された位置情報により指定される前記文字認識の対象となる領域についての項目名として取得してもよい。
As another form of the present invention, the information processing apparatus of the present invention
An association unit that associates the first area with the second area;
The item name acquisition unit is configured to specify the character information obtained from the second area by the position information acquired from the first area associated with the second area by the association unit. You may acquire as an item name about the area | region used as recognition object.

上記構成によれば、文字認識の対象となる領域を指定するための位置情報と、該文字認識の対象となる領域についての項目名との対応付けが行われる。そのため、ユーザは、取得された位置情報と項目名との対応付けを行う必要がなくなる。したがって、上記構成によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる。   According to the above configuration, the position information for designating the area to be character-recognized is associated with the item name for the area to be character-recognized. This eliminates the need for the user to associate the acquired position information with the item name. Therefore, according to the above configuration, it is possible to improve the efficiency of creating definition information used for OCR software or the like.

また、本発明の別の形態として、前記対応付け部は、前記第1領域と、イメージデータ上前記第1領域の最も近くにある前記第2領域とを対応付けてもよい。   As another form of the present invention, the association unit may associate the first region with the second region closest to the first region in image data.

また、本発明の別の形態として、前記対応付け部は、前記第1領域の位置と前記第2領域の位置との位置関係が所定の条件を満たすか否かを判定し、所定の条件を満たすと判定した前記第1領域と前記第2領域とを対応付けてもよい。   As another embodiment of the present invention, the association unit determines whether a positional relationship between the position of the first region and the position of the second region satisfies a predetermined condition, and sets the predetermined condition. The first area determined to satisfy the second area may be associated with the second area.

また、本発明の別の形態として、前記対応付け部は、イメージデータ内において縦方向に並ぶ複数の第1領域と縦方向に並ぶ複数の第2領域のうち、横方向に並ぶ1つの第1領域と1つの第2領域に対して前記所定の条件を満たすと判定してもよい。   As another form of the present invention, the associating unit includes one first line arranged in the horizontal direction among a plurality of first areas arranged in the vertical direction and a plurality of second areas arranged in the vertical direction in the image data. It may be determined that the predetermined condition is satisfied for the region and one second region.

また、本発明の別の形態として、前記対応付け部は、イメージデータ内において横方向に並ぶ複数の第1領域と横方向に並ぶ複数の第2領域のうち、縦方向に並ぶ1つの第1領域と1つの第2領域に対して前記所定の条件を満たすと判定してもよい。   As another form of the present invention, the associating unit includes one first line arranged in the vertical direction among a plurality of first areas arranged in the horizontal direction and a plurality of second areas arranged in the horizontal direction in the image data. It may be determined that the predetermined condition is satisfied for the region and one second region.

また、本発明の別の形態として、前記対応付け部は、イメージデータ内に存在する、前記第1領域と前記第2領域の対応関係を示す所定の対応関係指示表現を認識し、該認識した対応関係に基づいて、前記第1領域と前記第2領域とを対応付けてもよい。   As another embodiment of the present invention, the association unit recognizes and recognizes a predetermined correspondence instruction expression indicating the correspondence between the first area and the second area, which exists in the image data. Based on the correspondence, the first area and the second area may be associated with each other.

また、本発明の別の形態として、本発明の情報処理装置は、前記位置情報取得部により取得された前記文字認識の対象となる領域を指定するための前記位置情報と、前記項目名取得部により取得された、前記位置情報により指定される前記文字認識の対象となる領域についての前記項目名とを含む項目定義情報を作成する項目定義情報作成部を更に備えてもよい。   As another form of the present invention, the information processing apparatus according to the present invention includes the position information acquired by the position information acquisition unit for designating an area to be subjected to character recognition, and the item name acquisition unit. And an item definition information creating unit that creates item definition information including the item name for the area to be recognized by the character specified by the position information.

なお、本発明の別態様としては、以上の各構成を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記憶媒体であってもよい。また、本発明の別態様として、以上の各構成を実現する複数の装置が通信可能に構成された情報処理システムであってもよい。   As another aspect of the present invention, an information processing method that implements each of the above configurations, a program, or a computer-readable storage medium that records such a program may be used. There may be. Further, as another aspect of the present invention, an information processing system in which a plurality of devices that realize each of the above configurations is configured to be communicable may be used.

本発明によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる技術を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the technique which can aim at the efficiency improvement of the definition information used for OCR software etc. can be provided.

図1は、実施の形態に係る情報処理装置の処理を例示する。FIG. 1 illustrates the processing of the information processing apparatus according to the embodiment. 図2は、実施の形態に係る情報処理装置の構成を例示する。FIG. 2 illustrates the configuration of the information processing apparatus according to the embodiment. 図3は、実施の形態に係る情報処理装置の処理手順の一例を示したフローチャートである。FIG. 3 is a flowchart illustrating an example of a processing procedure of the information processing apparatus according to the embodiment. 図4は、実施の形態に係る情報処理装置により処理されるイメージデータの一例を示す。FIG. 4 shows an example of image data processed by the information processing apparatus according to the embodiment. 図5は、第1領域と第2領域の走査順の一例を示す。FIG. 5 shows an example of the scanning order of the first region and the second region. 図6は、第1領域と第2領域の対応付けの一例を示す。FIG. 6 shows an example of the association between the first area and the second area. 図7は、第1領域と第2領域の対応付けの一例を示す。FIG. 7 shows an example of the association between the first area and the second area. 図8は、第1領域と第2領域の対応付けの一例を示すFIG. 8 shows an example of the association between the first area and the second area. 図9は、第1領域と第2領域の対応付けの一例を示す。FIG. 9 shows an example of the association between the first area and the second area. 図10は、図4に示されるイメージデータから取得される項目定義情報の一例を示す。FIG. 10 shows an example of item definition information acquired from the image data shown in FIG.

以下、本発明の一側面に係る情報処理装置、情報処理方法及びプログラム等の実施の形態(以下、「本実施形態」とも表記する)を説明する。ただし、本実施形態は例示であり、本発明は本実施形態の構成に限定されない。   Hereinafter, embodiments of an information processing apparatus, an information processing method, a program, and the like according to one aspect of the present invention (hereinafter also referred to as “this embodiment”) will be described. However, the present embodiment is an exemplification, and the present invention is not limited to the configuration of the present embodiment.

なお、本実施形態において登場するデータを自然言語(日本語等)により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメタ、マシン語等で指定される。   Although the data appearing in the present embodiment is described in a natural language (such as Japanese), more specifically, it is specified in a pseudo language, a command, a parameter, a machine language, or the like that can be recognized by a computer.

§1 情報処理装置
本実施形態に係る情報処理装置を図1及び図2を用いて説明する。
§1 Information processing apparatus An information processing apparatus according to the present embodiment will be described with reference to FIGS. 1 and 2.

<概要>
図1は、本実施形態に係る情報処理装置が実行する処理を例示する。本実施形態に係る情報処理装置は、イメージデータ内において所定の表現によって指定された領域である第1領域50と第2領域60とを認識する。
<Overview>
FIG. 1 illustrates processing executed by the information processing apparatus according to the present embodiment. The information processing apparatus according to the present embodiment recognizes the first area 50 and the second area 60 that are areas designated by predetermined expressions in the image data.

第1領域50は、第1の領域指定表現により指定される。他方、第2領域60は、第2の領域指定表現により指定される。つまり、第1領域50と第2領域60とは領域指定表現が異なる。領域指定表現とは、領域を指定するための表現であり、例えば、枠、塗りつぶし、各種のハッチング等である。図1に示される例では、第1の領域指定表現は、枠のみである。つまり、第1の領域指定表現では、枠内において、塗りつぶし及び各種ハッチング等がなされていない。他方、第2の領域指定表現は、図1に示される例では、塗りつぶしである。   The first area 50 is designated by the first area designation expression. On the other hand, the second area 60 is designated by the second area designation expression. That is, the area designation expression is different between the first area 50 and the second area 60. The area designation expression is an expression for designating an area, and is, for example, a frame, painting, various types of hatching, and the like. In the example shown in FIG. 1, the first area designation expression is only a frame. That is, in the first area designation expression, the fill and various hatching are not performed within the frame. On the other hand, the second area designation expression is a fill in the example shown in FIG.

第1領域50は、イメージデータ内において文字認識の対象として指定される領域である。また、第2領域60は、文字認識の対象として指定される領域についての項目名が存在する領域である。   The first area 50 is an area designated as a character recognition target in the image data. The second area 60 is an area in which item names for areas designated as character recognition targets exist.

例えば、ユーザは、帳票又はカルテ等の紙面上に、マーカ、シール、又は、印刷等によ
り、枠、塗りつぶし、又は、各種のハッチング等を描画し、第1領域50及び第2領域60の指定を行う。情報処理装置は、このようにして第1領域50及び第2領域60が指定された紙をスキャナ等により読み取ることで、第1領域50及び第2領域60が指定されたイメージデータを取得する。
For example, the user draws a frame, a fill, or various hatchings on a paper surface such as a form or a chart by a marker, a seal, or printing, and designates the first area 50 and the second area 60. Do. The information processing apparatus acquires image data in which the first area 50 and the second area 60 are specified by reading the paper in which the first area 50 and the second area 60 are specified in this way by a scanner or the like.

本実施形態に係る情報処理装置は、異なる領域指定表現により指定されている第1領域50と第2領域60とを認識する。そして、本実施形態に係る情報処理装置は、第1領域50から、文字認識の対象となる領域を指定するための位置情報を取得する。また、本実施形態に係る情報処理装置は、第2領域60から、該文字認識の対象となる領域についての項目名を取得する。   The information processing apparatus according to the present embodiment recognizes the first area 50 and the second area 60 that are designated by different area designation expressions. Then, the information processing apparatus according to the present embodiment acquires position information for designating an area that is a character recognition target from the first area 50. In addition, the information processing apparatus according to the present embodiment acquires the item name for the area that is the target of character recognition from the second area 60.

このように、本実施形態に係る情報処理装置は、イメージデータ上に指定された第1領域及び第2領域から、文字認識の対象となる領域についての位置情報と項目名とをそれぞれ取得することにより、ユーザによる定義情報作成の効率化を図る。   As described above, the information processing apparatus according to the present embodiment acquires the position information and the item name about the area that is the target of character recognition from the first area and the second area specified on the image data. As a result, the efficiency of the definition information creation by the user is improved.

なお、ユーザは、イメージデータを描画ソフト等により編集することで、該イメージデータ上に第1領域50及び第2領域60を指定してもよい。   The user may specify the first area 50 and the second area 60 on the image data by editing the image data with drawing software or the like.

<構成例>
図2は、本実施形態に係る情報処理装置1の構成例を示す。情報処理装置1は、図2に示されるとおり、そのハードウェア構成として、バス13に接続される、記憶部11、制御部12、入出力部14等を有している。
<Configuration example>
FIG. 2 shows a configuration example of the information processing apparatus 1 according to the present embodiment. As illustrated in FIG. 2, the information processing apparatus 1 includes a storage unit 11, a control unit 12, an input / output unit 14, and the like that are connected to the bus 13 as a hardware configuration.

記憶部11は、制御部12で実行される処理で利用される各種データ及びプログラムを記憶する(不図示)。記憶部11は、例えば、ハードディスクによって実現される。記憶部11は、USBメモリ等の記録媒体により実現されてもよい。   The storage unit 11 stores various data and programs used in processing executed by the control unit 12 (not shown). The storage unit 11 is realized by a hard disk, for example. The storage unit 11 may be realized by a recording medium such as a USB memory.

なお、記憶部11が格納する当該各種データ及びプログラムは、CD(Compact Disc)又はDVD(Digital Versatile Disc)等の記録媒体から取得されてもよい。また、記憶部11は、補助記憶装置と呼ばれてもよい。   The various data and programs stored in the storage unit 11 may be obtained from a recording medium such as a CD (Compact Disc) or a DVD (Digital Versatile Disc). The storage unit 11 may be referred to as an auxiliary storage device.

制御部12は、マイクロプロセッサ又はCPU(Central Processing Unit)等の1又
は複数のプロセッサと、このプロセッサの処理に利用される周辺回路(ROM(Read Only Memory)、RAM(Random Access Memory)、インタフェース回路等)と、を有する。制御部12は、記憶部11に格納されている各種データ及びプログラムを実行することにより、本実施形態における情報処理装置1の処理を実現する。ROM、RAM等は、制御部12内のプロセッサが取り扱うアドレス空間に配置されているという意味で主記憶装置と呼ばれてもよい。
The control unit 12 includes one or a plurality of processors such as a microprocessor or a CPU (Central Processing Unit), and peripheral circuits (ROM (Read Only Memory), RAM (Random Access Memory), interface circuits) used for processing of the processor. Etc.). The control unit 12 implements the processing of the information processing apparatus 1 in the present embodiment by executing various data and programs stored in the storage unit 11. ROM, RAM, and the like may be referred to as a main storage device in the sense that they are arranged in an address space handled by a processor in the control unit 12.

入出力部14は、情報処理装置1の外部に存在する装置とデータの送受信を行うための1又は複数のインタフェースである。入出力部14は、例えば、LAN(Local Area Network)ケーブルを接続するためのインタフェース、入力装置及び出力装置等のユーザインタフェースと接続するためのインタフェース、又はUSB(Universal Serial Bus)等のインタフェースである。   The input / output unit 14 is one or a plurality of interfaces for transmitting / receiving data to / from a device existing outside the information processing device 1. The input / output unit 14 is, for example, an interface for connecting a LAN (Local Area Network) cable, an interface for connecting to a user interface such as an input device and an output device, or an interface such as USB (Universal Serial Bus). .

入出力部14は、図2に示されるように、例えば、スキャナ2と接続してもよい。また、入出力部14は、不図示のユーザインタフェース(タッチパネル、テンキー、キーボード、マウス、ディスプレイ等の入出力装置)と接続してもよい。更に、入出力部14は、CDドライブ、DVDドライブ等の着脱可能な記録媒体の入出力装置、或いはメモリカード等の不揮発性の可搬型の記録媒体等の入出力装置と接続してもよい。入出力部14は、
ネットワーク接続を行うインタフェース(通信部)としての機能を有してもよい。
As shown in FIG. 2, the input / output unit 14 may be connected to the scanner 2, for example. The input / output unit 14 may be connected to a user interface (not shown) (input / output devices such as a touch panel, a numeric keypad, a keyboard, a mouse, and a display). Further, the input / output unit 14 may be connected to an input / output device such as a CD drive or a DVD drive or a removable recording medium, or a non-volatile portable recording medium such as a memory card. The input / output unit 14
You may have a function as an interface (communication part) which performs network connection.

本実施形態に係る情報処理装置は、文字認識の対象となる領域についての位置情報と項目名とをそれぞれ取得することにより、ユーザによる定義情報作成の効率化を図る。該処理は、制御部12の処理として実現される。   The information processing apparatus according to the present embodiment obtains position information and item names for an area that is a character recognition target, thereby improving the efficiency of definition information creation by the user. This process is realized as a process of the control unit 12.

図2に示されるとおり、制御部12は、上記処理を実現するために、領域認識部31、位置情報取得部32、項目名取得部33、対応付け部34、及び、項目定義情報作成部35を含む。領域認識部31、位置情報取得部32、項目名取得部33、対応付け部34、及び、項目定義情報作成部35は、例えば、記憶部11に格納されたプログラム等が制御部12の周辺回路であるRAM等に展開され、制御部12のプロセッサにより実行されることによって実現される。   As illustrated in FIG. 2, the control unit 12 includes a region recognition unit 31, a position information acquisition unit 32, an item name acquisition unit 33, an association unit 34, and an item definition information creation unit 35 in order to realize the above processing. including. For example, the area recognition unit 31, the position information acquisition unit 32, the item name acquisition unit 33, the association unit 34, and the item definition information creation unit 35 may be configured such that a program stored in the storage unit 11 is a peripheral circuit of the control unit 12. This is realized by being expanded in a RAM or the like and executed by the processor of the control unit 12.

領域認識部31は、イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識する。領域認識部31は、例えば、図1に示される、第1領域50及び第2領域60を区別して認識する。   The area recognition unit 31 includes a first area designated by the first area designation expression and a second area designation different from the first area designation expression for the area designated by the predetermined expression in the image data. Recognizing the second area designated by the expression. For example, the region recognition unit 31 distinguishes and recognizes the first region 50 and the second region 60 shown in FIG.

位置情報取得部32は、イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、領域認識部により認識された第1領域の位置情報を取得する。図1に示されるように、位置情報取得部32は、例えば、文字認識の対象となる領域を指定するための位置情報として、イメージデータ内における第1領域50の位置情報を取得する。   The position information acquisition unit 32 acquires the position information of the first area recognized by the area recognition unit as position information for designating an area to be character-recognized in the image data. As illustrated in FIG. 1, the position information acquisition unit 32 acquires, for example, position information of the first area 50 in the image data as position information for designating an area that is a character recognition target.

なお、位置情報取得部32は、後述する対応付け部34の処理のために、第2領域の位置情報を取得してもよい。位置情報取得部32は、例えば、図1に示されるイメージデータ内の第2領域60の位置情報を取得してもよい。   Note that the position information acquisition unit 32 may acquire the position information of the second region for the processing of the association unit 34 described later. For example, the position information acquisition unit 32 may acquire position information of the second region 60 in the image data illustrated in FIG.

項目名取得部33は、領域認識部31により認識された第2領域内に存在する文字を認識することにより得られる文字情報を、位置情報取得部32により取得された位置情報により指定される文字認識の対象となる領域についての項目名として取得する。図1に示されるように、例えば、項目名取得部33は、第2領域内に存在する文字を文字認識することにより得られる文字情報を、第1領域50についての項目名として取得する。   The item name acquisition unit 33 uses the character information specified by the position information acquired by the position information acquisition unit 32 as the character information obtained by recognizing the character existing in the second region recognized by the region recognition unit 31. Acquired as the item name for the area to be recognized. As shown in FIG. 1, for example, the item name acquisition unit 33 acquires character information obtained by recognizing characters existing in the second area as an item name for the first area 50.

なお、後述するとおり、第1領域と第2領域は、対応付け部34により対応づけられる。本実施形態に係る項目名取得部33は、第2領域から得られる文字情報を、対応付け部34により該第2領域に対応付けられた第1領域から取得された位置情報により指定される文字認識の対象となる領域についての項目名として取得する。   As will be described later, the first area and the second area are associated by the association unit 34. The item name acquisition unit 33 according to the present embodiment uses the character information obtained from the second area as the character specified by the position information acquired from the first area associated with the second area by the association unit 34. Acquired as the item name for the area to be recognized.

対応付け部34は、第1領域と第2領域とを対応付ける。   The association unit associates the first area with the second area.

例えば、対応付け部34は、第1領域と、イメージデータ上該第1領域の最も近くにある第2領域とを対応付ける。   For example, the associating unit 34 associates the first region with the second region closest to the first region in the image data.

また、例えば、対応付け部34は、第1領域の位置と第2領域の位置との位置関係が所定の条件を満たすか否かを判定し、所定の条件を満たすと判定した第1領域と第2領域とを対応付ける。所定の条件とは、対応関係にある第1領域と第2領域の位置関係を条件付ける。詳細は、後述する。   Further, for example, the associating unit 34 determines whether or not the positional relationship between the position of the first region and the position of the second region satisfies a predetermined condition, and the first region determined to satisfy the predetermined condition The second area is associated. The predetermined condition conditions the positional relationship between the first region and the second region that are in a corresponding relationship. Details will be described later.

また、例えば、対応付け部34は、イメージデータ内に存在する、第1領域と第2領域
の対応付けを示す所定の対応関係指示表現を認識する。そして、対応付け部34は、該認識した対応関係に基づいて、第1領域と第2領域とを対応付ける。
Further, for example, the association unit 34 recognizes a predetermined correspondence instruction expression indicating the association between the first area and the second area, which exists in the image data. Then, the associating unit 34 associates the first area with the second area based on the recognized correspondence relationship.

対応関係指示表現は、第1領域と第2領域の対応付けを示すものである。例えば、対応関係指示表現は、第1領域と第2領域の間に設けられた矢印、第1領域と第2領域とを結ぶ線分、第1領域と第2領域に記された同じ記号又は印である。対応関係指示表現は、第1領域と第2領域の対応関係を示すことができるものであるならば、いかなるものであってもよい。   The correspondence relationship instruction expression indicates the correspondence between the first area and the second area. For example, the correspondence relationship instruction expression includes an arrow provided between the first region and the second region, a line segment connecting the first region and the second region, the same symbol written in the first region and the second region, or It is a mark. The correspondence relationship instruction expression may be anything as long as it can indicate the correspondence relationship between the first region and the second region.

項目定義情報作成部35は、位置情報取得部32により取得された文字認識の対象となる領域を指定するための位置情報と、項目名取得部33により取得された、該位置情報により指定される文字認識の対象となる領域についての項目名とを含む項目定義情報を作成する。作成された項目定義情報は、文字認識の対象となる領域の位置及び項目名を指定する情報である。該項目定義情報は、例えば、OCRソフト等により用いられる。   The item definition information creation unit 35 is specified by the position information acquired by the position information acquisition unit 32 and the position information for specifying the area to be recognized by the character, and the position information acquired by the item name acquisition unit 33. Create item definition information that includes the item name for the area to be recognized. The created item definition information is information for designating the position and item name of an area that is a character recognition target. The item definition information is used by, for example, OCR software.

§2 動作例
次に、図3を用いて、本実施形態に係る情報処理装置1の動作例を説明する。図3は、本実施形態に係る情報処理装置1の処理手順の一例を示す。なお、図3では、ステップを「S」と略称する。
§2 Operation Example Next, an operation example of the information processing apparatus 1 according to the present embodiment will be described with reference to FIG. FIG. 3 shows an example of a processing procedure of the information processing apparatus 1 according to the present embodiment. In FIG. 3, the step is abbreviated as “S”.

<スタート>
まず、例えば、ユーザによる操作に応じて、記憶部11に格納されたプログラムが、制御部12のRAM等に展開される。そして、制御部12のRAM等に展開された該プログラムが、制御部12のプロセッサにより実行される。このようにして、情報処理装置1は、処理を開始する。
<Start>
First, for example, a program stored in the storage unit 11 is expanded in the RAM or the like of the control unit 12 in accordance with a user operation. Then, the program developed in the RAM or the like of the control unit 12 is executed by the processor of the control unit 12. In this way, the information processing apparatus 1 starts processing.

<ステップ101>
次に、制御部12は、当該処理に用いられるイメージデータを取得する(ステップ101)。取得されるイメージデータは、例えば、図2に示されるスキャナ2により取り込まれたデータであってもよい。また、取得されるイメージデータは、記憶部11に格納されたデータであってもよい。このようなイメージデータは、ネットワークを介して取得されてもよい。また、イメージデータは、メモリカード等の不揮発性の可搬型の記録媒体等から取得されてもよい。
<Step 101>
Next, the control part 12 acquires the image data used for the said process (step 101). The acquired image data may be, for example, data captured by the scanner 2 shown in FIG. Further, the acquired image data may be data stored in the storage unit 11. Such image data may be acquired via a network. The image data may be acquired from a non-volatile portable recording medium such as a memory card.

図4は、この時に取得されるイメージデータの一例を示す。イメージデータは、例えば、帳票及びカルテ等の紙媒体を電子化することにより得られるデータである。図4に示されるとおり、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等の上に指定される。第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等とは区別可能に表現される。   FIG. 4 shows an example of image data acquired at this time. The image data is data obtained by digitizing paper media such as forms and medical records, for example. As shown in FIG. 4, the first area (50a, 50b) and the second area (60a, 60b) are designated on columns, characters, and the like described in the form and medical record. The first area (50a, 50b) and the second area (60a, 60b) are expressed so as to be distinguishable from columns, characters, and the like described in the form and medical record.

例えば、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等と明確に区別するために、帳票及びカルテ等に記載される欄及び文字等の色とは異なる色で表現されてもよい。このように表現されていれば、該異なる色を検知して読み取るOCRエンジンにより、イメージデータ内において描画されているものの中から、第1領域(50a、50b)及び第2領域(60a、60b)に係る領域指定表現のみを抽出することができる。例えば、帳票及びカルテ等に記載されている欄及び文字等が黒色であるとすると、該OCRエンジンは、該黒色以外の色を検知して読み取ることで、第1領域(50a、50b)及び第2領域(60a、60b)を抽出する。   For example, the first area (50a, 50b) and the second area (60a, 60b) are fields described in the form and medical record in order to clearly distinguish them from the fields and characters described in the form and medical record. Also, it may be expressed in a color different from the color of characters and the like. If expressed in this way, the first area (50a, 50b) and the second area (60a, 60b) out of those drawn in the image data by the OCR engine that detects and reads the different colors. It is possible to extract only the area designation expression related to. For example, assuming that the fields and characters described in the form and medical record are black, the OCR engine detects and reads a color other than the black color, so that the first region (50a, 50b) and the first Two regions (60a, 60b) are extracted.

ただし、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等の色と必ず異なる色で表現されなければならない訳ではない。例えば、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄等の領域指定表現と区別可能な領域指定表現により表現されているならば、帳票及びカルテ等に記載される欄及び文字等の色と同じ色で表現されてもよい。   However, the first area (50a, 50b) and the second area (60a, 60b) do not necessarily have to be expressed in a color different from the color of the columns and characters described in the form and medical record. For example, if the first area (50a, 50b) and the second area (60a, 60b) are expressed by an area designation expression that can be distinguished from an area designation expression such as a column described in a form and a medical record, It may be expressed in the same color as the color of the fields and characters described in the form and medical record.

<ステップ102>
次に、図3に示されるとおり、制御部12は、ステップ101において取得したイメージデータ内における第1領域を認識する(ステップ102)。
<Step 102>
Next, as shown in FIG. 3, the control unit 12 recognizes the first region in the image data acquired in step 101 (step 102).

図4に示されるイメージデータにおいて、枠が、第1の領域指定表現として用いられている。言いかえると、図4に示されるイメージデータにおいて、第1領域(50a、50b)は、枠によって表現されている。制御部12は、当該枠によって表現されている第1領域(50a、50b)を認識する。   In the image data shown in FIG. 4, a frame is used as the first area designation expression. In other words, in the image data shown in FIG. 4, the first regions (50a, 50b) are represented by frames. The control unit 12 recognizes the first area (50a, 50b) represented by the frame.

例えば、制御部12は、イメージデータ内において描画されているものの中から、第1領域及び第2領域に係る領域指定表現を抽出する。当該抽出は、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等とは区別可能に表現されているため、実行可能である。続いて、制御部12は、抽出した第1領域及び第2領域に係る領域指定表現から、第1の領域指定表現に係る領域を特定する。当該特定は、例えば、パターンマッチング等により実現される。そして、制御部12は、特定された領域を、第1領域として認識する。このようにして、制御部12は、図4に示されるイメージデータ内において、枠によって表現されている第1領域(50a、50b)を認識する。   For example, the control unit 12 extracts region designation expressions related to the first region and the second region from those drawn in the image data. The extraction is feasible because the first area (50a, 50b) and the second area (60a, 60b) are expressed so as to be distinguishable from the columns and characters described in the form and medical record. . Subsequently, the control unit 12 specifies an area related to the first area designation expression from the extracted area designation expressions related to the first area and the second area. The identification is realized by pattern matching or the like, for example. Then, the control unit 12 recognizes the specified area as the first area. In this way, the control unit 12 recognizes the first areas (50a, 50b) represented by the frames in the image data shown in FIG.

<ステップ103>
次に、制御部12は、ステップ102において認識した第1領域のイメージデータ内における位置情報を取得する(ステップ103)。
<Step 103>
Next, the control unit 12 acquires position information in the image data of the first area recognized in step 102 (step 103).

位置情報は、イメージデータ内における位置を示す情報であれば、いかなる情報であっても構わない。本実施形態では、位置情報は、イメージデータの左上端を原点、横軸をx軸、縦軸をy軸としたxy座標系で表現される。ただし、位置情報の表現は、xy座標系に限定される訳ではない。例えば、位置情報の表現は、イメージデータのある一点(例えば、イメージデータの中心)を原点とする極座標系であってもよい。   The position information may be any information as long as it is information indicating a position in the image data. In the present embodiment, the position information is expressed in an xy coordinate system in which the upper left corner of the image data is the origin, the horizontal axis is the x axis, and the vertical axis is the y axis. However, the representation of the position information is not limited to the xy coordinate system. For example, the representation of the position information may be a polar coordinate system having an origin at a certain point in the image data (for example, the center of the image data).

また、本実施形態に係る第1領域の位置情報は、第1領域の左上端の位置(座標)、横の長さ、及び、縦の長さを含む。当該位置情報は、後述する図9において例示される。制御部12は、ステップ102において認識した第1領域の左上端の位置座標を特定する。また、制御部12は、認識した第1領域の横の長さと縦の長さを特定する。これにより、制御部12は、認識した第1領域のイメージデータ内における位置情報を取得する。   Further, the position information of the first region according to the present embodiment includes the position (coordinates) of the upper left end of the first region, the horizontal length, and the vertical length. The position information is exemplified in FIG. 9 described later. The control unit 12 specifies the position coordinates of the upper left end of the first area recognized in step 102. Further, the control unit 12 specifies the horizontal length and the vertical length of the recognized first region. Thereby, the control part 12 acquires the positional information in the image data of the recognized 1st area | region.

<ステップ104>
次に、制御部12は、ステップ101において取得したイメージデータ内における第2領域を認識する(ステップ104)。
<Step 104>
Next, the control unit 12 recognizes the second area in the image data acquired in Step 101 (Step 104).

図4に示されるイメージデータにおいて、塗りつぶしが、第2の領域指定表現として用いられている。言いかえると、図4に示されるイメージデータにおいて、第2領域(60a、60b)は、塗りつぶしによって表現されている。制御部12は、当該塗りつぶしに
よって表現されている第2領域(60a、60b)を認識する。なお、該第2領域の認識は、ステップ102における第1領域の認識方法と同様の方法で行われる。
In the image data shown in FIG. 4, the fill is used as the second area designation expression. In other words, in the image data shown in FIG. 4, the second area (60a, 60b) is expressed by painting. The control unit 12 recognizes the second area (60a, 60b) expressed by the filling. The second area is recognized by the same method as the first area recognition method in step 102.

<ステップ105>
次に、制御部12は、ステップ104において認識した第2領域のイメージデータ内における位置情報を取得する(ステップ105)。なお、当該ステップ105は、省略されてもよい。本実施形態では、後述するステップ107における対応付けにおいて第2領域の位置情報が用いられるため、該第2領域の位置情報が取得される。なお、第2領域の位置情報は、ステップ103における第1領域の位置情報と同様である。
<Step 105>
Next, the control unit 12 acquires position information in the image data of the second area recognized in Step 104 (Step 105). Note that step 105 may be omitted. In the present embodiment, since the position information of the second area is used in the association in step 107 described later, the position information of the second area is acquired. The position information of the second area is the same as the position information of the first area in step 103.

<ステップ106>
次に、制御部12は、ステップ104において認識した第2領域内に存在する文字を文字認識することで、該第2領域内に存在する文字の文字情報を取得する(ステップ106)。
<Step 106>
Next, the control unit 12 recognizes characters existing in the second area recognized in step 104, thereby acquiring character information of the characters existing in the second area (step 106).

文字認識は、いかなる方法によって実行されてもよい。本ステップ106において、制御部12は、第2領域内に記載された文字を文字認識することで、該第2領域内に記載された文字の文字情報を取得する。   Character recognition may be performed by any method. In step 106, the control unit 12 recognizes the characters described in the second area, thereby acquiring character information of the characters described in the second area.

なお、文字情報は、文字認識の対象となる第1領域についての項目名として取得される。第1領域と第2領域とが1つずつしか存在しない場合、第1領域と第2領域の組合せは1通りしか考えられないため、第1領域と第2領域の対応関係を特定する必要はない。すなわち、本ステップ106において第2領域から取得される文字情報が、どの第1領域についての項目名であるかを特定する必要はない。本ステップ106において文字情報が取得された時点において、該文字情報は、ステップ102及び103に係る第1領域についての項目名として特定される。   Note that the character information is acquired as an item name for the first area to be character-recognized. If there is only one each of the first area and the second area, only one combination of the first area and the second area can be considered, so it is necessary to specify the correspondence between the first area and the second area. Absent. That is, it is not necessary to specify which first area the character information acquired from the second area in this step 106 is the item name. When the character information is acquired in this step 106, the character information is specified as an item name for the first area according to steps 102 and 103.

他方、第1領域と第2領域とがそれぞれ複数存在する場合、第2領域から取得される文字情報が、どの第1領域についての項目名であるか特定される必要がある。本実施形態では、後述するステップ107において、第1領域と第2領域とが対応づけられることによって、第2領域から取得される文字情報が、どの第1領域についての項目名であるか特定される。   On the other hand, when there are a plurality of first areas and a plurality of second areas, it is necessary to specify which first area the character information acquired from the second area is the item name of. In the present embodiment, in step 107 to be described later, the first area and the second area are associated with each other, thereby specifying which first area the character information acquired from the second area is the item name of. The

しかしながら、このような対応付けが常に必要となる訳ではない。例えば、図5に示されるように、制御部12が、イメージデータの上部から順番に走査し、ステップ102の第1領域の認識、及び、ステップ104の第2領域の認識を実行するとする。そして、制御部12は、第1領域を1つ、第2領域を1つ見つけるたびに、ステップ102〜106の処理を繰り返すとする。この時、処理に係る第1領域と第2領域は常に1つずつとなるため、上記対応付けの処理は不要となる。   However, such association is not always necessary. For example, as illustrated in FIG. 5, it is assumed that the control unit 12 sequentially scans from the upper part of the image data and executes recognition of the first area in step 102 and recognition of the second area in step 104. And it is assumed that the control part 12 repeats the process of steps 102-106 whenever it finds one 1st area | region and one 2nd area | region. At this time, since the first area and the second area related to the process are always one by one, the above-described association process becomes unnecessary.

なお、例えば、このように処理が実行されると、図5に示される例では、第2領域60aから取得される文字情報は、第1領域50aについての項目名として特定される。また、第2領域60bから取得される文字情報は、第1領域50bについての項目名として特定される。第2領域60cから取得される文字情報は、第1領域50cについての項目名として特定される。なお、当該処理は、第1領域と第2領域が発見される順序により、ステップ102〜103とステップ104〜106は入れ替わりうる。   For example, when the process is executed in this way, in the example shown in FIG. 5, the character information acquired from the second area 60a is specified as the item name for the first area 50a. Moreover, the character information acquired from the 2nd area | region 60b is specified as an item name about the 1st area | region 50b. The character information acquired from the second area 60c is specified as the item name for the first area 50c. In this process, steps 102 to 103 and steps 104 to 106 can be interchanged depending on the order in which the first area and the second area are found.

<ステップ107>
次に、制御部12は、ステップ102において認識した第1領域と、ステップ104において認識した第2領域との対応関係を特定するため、該第1領域と該第2領域とを対応
付ける。本ステップ107は、例えば、対応付けに係る第1領域と第2領域が1つずつしかない場合、省略されてもよい。本ステップ107は、上述のとおり、第2領域から取得される文字情報が、どの第1領域についての項目名であるかを特定するための処理である。
<Step 107>
Next, the control unit 12 associates the first region with the second region in order to specify the correspondence between the first region recognized at step 102 and the second region recognized at step 104. This step 107 may be omitted, for example, when there is only one first area and second area related to the association. As described above, this step 107 is a process for specifying which first area the character information acquired from the second area is the item name.

制御部12による対応付けに係る処理の例を、図6〜9を用いて説明する。   An example of processing related to association by the control unit 12 will be described with reference to FIGS.

例えば、制御部12は、第1領域と、イメージデータ上該第1領域の最も近くにある第2領域とを対応付ける。図6は、当該処理の例を示す。本実施形態では、ステップ103及び105において、第1領域と第2領域の位置情報が取得されている。当該位置情報には、各領域の左上端の位置座標が含まれている。制御部12は、当該位置座標を用いて、第1領域と第2領域の距離をそれぞれ計算する。すなわち、制御部12は、第1領域の左上端の位置座標と第2領域の左上端の位置座標との間の距離をそれぞれ計算する。そして、制御部12は、当該距離が最短である第1領域と第2領域とを対応付ける。   For example, the control unit 12 associates the first area with the second area closest to the first area in the image data. FIG. 6 shows an example of the processing. In this embodiment, in Steps 103 and 105, position information of the first area and the second area is acquired. The position information includes the position coordinates of the upper left corner of each area. The control unit 12 calculates the distance between the first area and the second area using the position coordinates. That is, the control unit 12 calculates the distance between the position coordinates of the upper left end of the first area and the position coordinates of the upper left end of the second area. Then, the control unit 12 associates the first area with the shortest distance with the second area.

図6において示される例では、制御部12は、第1領域50aと、イメージデータ上該第1領域50aに最も近くにある第2領域60aとを対応付ける。また、第1領域50bと、イメージデータ上該第1領域50bに最も近くにある第2領域60bとを対応付ける。   In the example shown in FIG. 6, the control unit 12 associates the first area 50a with the second area 60a closest to the first area 50a in the image data. Further, the first area 50b is associated with the second area 60b closest to the first area 50b in the image data.

なお、当該処理における第1領域と第2領域は入れ替わってもよい。すなわち、制御部12は、第2領域と、イメージデータ上該第2領域の最も近くにある第1領域とを対応付けてもよい。   Note that the first area and the second area in the processing may be interchanged. That is, the control unit 12 may associate the second area with the first area that is closest to the second area in the image data.

また、例えば、制御部12は、第1領域の位置と第2領域の位置との位置関係が所定の条件を満たすか否かを判定し、所定の条件を満たすと判定した第1領域と第2領域とを対応付けてもよい。   Further, for example, the control unit 12 determines whether or not the positional relationship between the position of the first region and the position of the second region satisfies a predetermined condition, and the first region and the first region determined to satisfy the predetermined condition Two areas may be associated with each other.

所定の条件は、対応関係にある第1領域と第2領域の位置関係を条件付ける。   The predetermined condition conditions the positional relationship between the first region and the second region that are in a correspondence relationship.

例えば、所定の条件は、対応関係にある第1領域と第2領域の距離に関する。制御部12は、イメージデータ内にある第1領域と第2領域のうち、ユーザによって設定及び変更可能な閾値以内の距離にある第1領域と第2領域に対して所定の条件を満たすと判定する。   For example, the predetermined condition relates to the distance between the first area and the second area that are in a correspondence relationship. The control unit 12 determines that a predetermined condition is satisfied for the first area and the second area that are within a threshold that can be set and changed by the user, among the first area and the second area in the image data. To do.

また、例えば、所定の条件は、対応関係にある第1領域と第2領域の相対的な位置関係に関する。制御部12は、イメージデータ内にある第1領域と第2領域のうち、ある特定の相対的な位置関係にある第1領域と第2領域に対して所定の条件を満たすと判定する。ここで、本実施形態において、相対的な位置関係は、イメージデータの左上端を原点として、第1領域の左上端を指すベクトルと第2領域の左上端を指すベクトルとの差分ベクトルとして表現されうる。また、ある特定の相対的な位置関係は、当該差分ベクトルが満たすべき条件ベクトルとして表現されうる。そして、例えば、当該差分ベクトルと条件ベクトルとの内積がユーザにより設定及び変更可能な値の範囲に含まれる場合、当該差分ベクトルに係る第1領域と第2領域は、ある特定の相対的な位置関係にあると判定される。   For example, the predetermined condition relates to a relative positional relationship between the first region and the second region that are in a correspondence relationship. The control unit 12 determines that a predetermined condition is satisfied for the first area and the second area that are in a specific relative positional relationship among the first area and the second area in the image data. Here, in the present embodiment, the relative positional relationship is expressed as a difference vector between a vector indicating the upper left end of the first area and a vector indicating the upper left end of the second area with the upper left end of the image data as the origin. sell. Further, a specific relative positional relationship can be expressed as a condition vector that the difference vector should satisfy. For example, when the inner product of the difference vector and the condition vector is included in the range of values that can be set and changed by the user, the first area and the second area related to the difference vector are in a certain relative position. It is determined that there is a relationship.

また、例えば、所定の条件は、対応関係にある第1領域と第2領域の横方向の並び方に関する。制御部12は、イメージデータ内において縦方向に並ぶ第1領域と縦方向に並ぶ第2領域のうち、横方向に並ぶ第1領域と第2領域に対して所定の条件を満たすと判定する。図7は、該条件を満たす第1領域と第2領域を例示する。なお、図7における座標(x、y)におけるxは、横軸(x軸)の座標を示す。また、yは、縦軸(y軸)の座標を
示す。
Further, for example, the predetermined condition relates to a horizontal arrangement of the first area and the second area that are in a correspondence relationship. The control unit 12 determines that a predetermined condition is satisfied for the first region and the second region arranged in the horizontal direction among the first region arranged in the vertical direction and the second region arranged in the vertical direction in the image data. FIG. 7 illustrates a first region and a second region that satisfy the condition. In addition, x in the coordinate (x, y) in FIG. 7 shows the coordinate of a horizontal axis (x-axis). Moreover, y shows the coordinate of a vertical axis | shaft (y axis).

ここで、本実施形態において、縦方向に並ぶ第1領域とは、第1領域の左上端の横軸(x軸)に関する位置座標(x座標)が、ユーザによって設定及び変更可能な閾値以内の誤差範囲に存在する第1領域のことである。例えば、図7において示される第1領域50aのx座標は70である。第1領域50bのx座標は68である。第1領域50cのx座標は70である。この時、例えば、閾値が5であるとすると、第1領域50a、第1領域50b、及び、第1領域50cは、それぞれ縦方向に並ぶ第1領域である。   Here, in the present embodiment, the first region arranged in the vertical direction means that the position coordinate (x coordinate) related to the horizontal axis (x axis) at the upper left end of the first region is within a threshold that can be set and changed by the user. It is the first region existing in the error range. For example, the x coordinate of the first region 50a shown in FIG. The x coordinate of the first region 50b is 68. The x coordinate of the first region 50c is 70. At this time, for example, if the threshold is 5, the first region 50a, the first region 50b, and the first region 50c are first regions arranged in the vertical direction.

第2領域についても同様である。本実施形態において、縦方向に並ぶ第2領域とは、第2領域の左上端の横軸(x軸)に関する位置座標(x座標)が、ユーザによって設定及び変更可能な閾値以内の誤差範囲に存在する第2領域のことである。例えば、図7において示される第2領域60aのx座標は20である。第2領域60bのx座標は21である。第2領域60cのx座標は19である。この時、例えば、閾値が5であるとすると、第2領域60a、第2領域60b、及び、第2領域60cは、それぞれ縦方向に並ぶ第2領域である。   The same applies to the second region. In the present embodiment, the second region arranged in the vertical direction is an error range in which the position coordinate (x coordinate) related to the horizontal axis (x axis) at the upper left end of the second region is within a threshold that can be set and changed by the user. It is the second region that exists. For example, the x coordinate of the second region 60a shown in FIG. The x coordinate of the second region 60b is 21. The x coordinate of the second region 60c is 19. At this time, for example, if the threshold is 5, the second region 60a, the second region 60b, and the second region 60c are second regions arranged in the vertical direction.

制御部12は、このように縦方向に並ぶ第1領域と縦方向に並ぶ第2領域を取得する。そして、制御部12は、縦方向に並ぶ第1領域及び第2領域のうち、横方向に並ぶ第1領域と第2領域に対して上記所定の条件を満たすと判定する。   In this way, the control unit 12 acquires the first region arranged in the vertical direction and the second region arranged in the vertical direction. And the control part 12 determines with satisfy | filling the said predetermined conditions with respect to the 1st area | region and 2nd area | region which are located in a horizontal direction among the 1st area | regions and 2nd area | regions arranged in a vertical direction.

ここで、本実施形態において、第1領域と第2領域とが横方向に並ぶとは、第1領域の左上端の縦軸(y軸)に関する位置座標(y座標)と第2領域の左上端の縦軸に関する位置座標の差分が、ユーザによって設定及び変更可能な閾値以内である状態を指す。   Here, in the present embodiment, the first area and the second area are arranged in the horizontal direction. The position coordinate (y coordinate) on the vertical axis (y axis) at the upper left corner of the first area and the upper left corner of the second area. This refers to a state in which the difference in position coordinates regarding the vertical axis at the end is within a threshold that can be set and changed by the user.

例えば、図7において示される第1領域50aのy座標は59である。第1領域50bのy座標は98である。第1領域50cのy座標は140である。これに対して、図7において示される第2領域60aのy座標は60である。第2領域60bのy座標は100である。第2領域60cのy座標は141である。   For example, the y coordinate of the first region 50a shown in FIG. The y coordinate of the first region 50b is 98. The y coordinate of the first region 50c is 140. On the other hand, the y coordinate of the second region 60a shown in FIG. The y coordinate of the second region 60b is 100. The y coordinate of the second region 60c is 141.

この時、例えば、閾値が5であるとすると、制御部12は、第1領域50aと第2領域60aとが横方向に並び、所定の条件を満たすと判定する。また、制御部12は、第1領域50bと第2領域60bとが横方向に並び、所定の条件を満たすと判定する。更に、制御部12は、第1領域50cと第2領域60cとが横方向に並び、所定の条件を満たすと判定する。すなわち、制御部12は、第1領域50aと第2領域60aとを対応付ける。また、制御部12は、第1領域50bと第2領域60bとを対応付ける。更に、制御部12は、第1領域50cと第2領域60cとを対応付ける。   At this time, for example, if the threshold value is 5, the control unit 12 determines that the first region 50a and the second region 60a are arranged in the horizontal direction and satisfy a predetermined condition. Further, the control unit 12 determines that the first region 50b and the second region 60b are arranged in the horizontal direction and satisfy a predetermined condition. Further, the control unit 12 determines that the first region 50c and the second region 60c are arranged in the horizontal direction and satisfy a predetermined condition. That is, the control unit 12 associates the first area 50a with the second area 60a. In addition, the control unit 12 associates the first area 50b with the second area 60b. Furthermore, the control unit 12 associates the first area 50c with the second area 60c.

また、例えば、所定の条件は、対応関係にある第1領域と第2領域の縦方向の並び方に関する。制御部12は、イメージデータ内において横方向に並ぶ第1領域と横方向に並ぶ第2領域のうち、縦方向に並ぶ第1領域と第2領域に対して所定の条件を満たすと判定する。図8は、該条件を満たす第1領域と第2領域を例示する。図8における座標(x、y)は、図7における座標と同様である。   Further, for example, the predetermined condition relates to a vertical arrangement of the first area and the second area that are in a correspondence relationship. The control unit 12 determines that a predetermined condition is satisfied for the first region and the second region arranged in the vertical direction among the first region arranged in the horizontal direction and the second region arranged in the horizontal direction in the image data. FIG. 8 illustrates a first region and a second region that satisfy the condition. The coordinates (x, y) in FIG. 8 are the same as the coordinates in FIG.

ここで、第1領域が横方向に並ぶか否かの判定、及び、第2領域が横方向に並ぶか否かの判定は、上記第1領域と第2領域とが横方向に並ぶか否かの判定と同様である。また、第1領域と第2領域とが縦方向に並ぶか否かの判定は、上記第1領域が縦方向に並ぶか否かの判定、及び、上記第2領域が縦方向に並ぶか否かの判定と同様である。   Here, whether or not the first region is aligned in the horizontal direction and whether or not the second region is aligned in the horizontal direction are determined based on whether the first region and the second region are aligned in the horizontal direction. This is the same as the determination. Whether the first area and the second area are arranged in the vertical direction is determined by determining whether the first area is arranged in the vertical direction, and whether the second area is arranged in the vertical direction. This is the same as the determination.

例えば、閾値が5であるとすると、制御部12は、図8における、第1領域50aと第
2領域60aとが縦方向に並び、所定の条件を満たすと判定する。また、制御部12は、第1領域50bと第2領域60bとが縦方向に並び、所定の条件を満たすと判定する。更に、制御部12は、第1領域50cと第2領域60cとが縦方向に並び、所定の条件を満たすと判定する。すなわち、制御部12は、第1領域50aと第2領域60aとを対応付ける。また、制御部12は、第1領域50bと第2領域60bとを対応付ける。更に、制御部12は、第1領域50cと第2領域60cとを対応付ける。
For example, if the threshold value is 5, the control unit 12 determines that the first region 50a and the second region 60a in FIG. Further, the control unit 12 determines that the first region 50b and the second region 60b are arranged in the vertical direction and satisfy a predetermined condition. Further, the control unit 12 determines that the first region 50c and the second region 60c are arranged in the vertical direction and satisfy a predetermined condition. That is, the control unit 12 associates the first area 50a with the second area 60a. In addition, the control unit 12 associates the first area 50b with the second area 60b. Furthermore, the control unit 12 associates the first area 50c with the second area 60c.

また、例えば、制御部12は、イメージデータ内に存在する、第1領域と第2領域の対応関係を示す所定の対応関係指示表現を認識する。そして、制御部12は、該認識した対応関係指示表現により示される対応関係に基づいて、第1領域と第2領域とを対応付ける。   For example, the control unit 12 recognizes a predetermined correspondence instruction expression indicating the correspondence between the first area and the second area, which exists in the image data. Then, the control unit 12 associates the first region with the second region based on the correspondence relationship indicated by the recognized correspondence relationship instruction expression.

対応関係指示表現は、第1領域と第2領域の対応付けを示すものである。図9は、該対応関係指示表現を例示する。   The correspondence relationship instruction expression indicates the correspondence between the first area and the second area. FIG. 9 illustrates the correspondence relationship instruction expression.

例えば、対応関係指示表現は、図9により示される、矢印70である。例えば、制御部12は、イメージデータ内に存在する矢印70を認識する。そして、制御部12は、認識した矢印70から、該矢印70が指し示す方向についてのベクトル情報を取得する。更に、制御部12は、該取得したベクトル情報を用いて、該矢印70によって指示される第1領域50a及び第2領域60aを特定する。その結果、制御部12は、特定した第1領域50a及び第2領域60aを対応付ける。   For example, the correspondence relationship instruction expression is an arrow 70 shown by FIG. For example, the control unit 12 recognizes an arrow 70 existing in the image data. Then, the control unit 12 acquires vector information about the direction indicated by the arrow 70 from the recognized arrow 70. Further, the control unit 12 specifies the first region 50a and the second region 60a indicated by the arrow 70 using the acquired vector information. As a result, the control unit 12 associates the identified first region 50a and second region 60a with each other.

また、例えば、対応関係指示表現は、図9に示される、線分71である。例えば、制御部12は、イメージデータ内に存在する線分71を認識する。そして、制御部12は、線分71により繋げられている第1領域50b及び第2領域60bを特定する。その結果、制御部12は、特定した第1領域50b及び第2領域60bを対応付ける。   Further, for example, the correspondence relationship instruction expression is a line segment 71 shown in FIG. For example, the control unit 12 recognizes a line segment 71 existing in the image data. Then, the control unit 12 specifies the first region 50b and the second region 60b connected by the line segment 71. As a result, the control unit 12 associates the identified first region 50b and second region 60b with each other.

また、例えば、対応関係指示表現は、図9に示される、記号72a及び記号72bである。例えば、制御部12は、イメージデータ内に存在する同一の記号である記号72a及び記号72bを認識する。そして、制御部12は、同一の記号である記号72a及び記号72bが付されている第1領域50c及び第2領域60cを特定する。その結果、制御部12は、特定した第1領域50c及び第2領域60cを対応付ける。   Further, for example, the correspondence relationship instruction expression is a symbol 72a and a symbol 72b shown in FIG. For example, the control unit 12 recognizes the symbols 72a and 72b that are the same symbols existing in the image data. And the control part 12 specifies the 1st area | region 50c and the 2nd area | region 60c to which the symbol 72a and the symbol 72b which are the same symbols are attached | subjected. As a result, the control unit 12 associates the identified first region 50c and second region 60c with each other.

制御部12は、これまでに例示した対応付けの方法により、ステップ102において認識した第1領域と、ステップ104において認識した第2領域とを対応付ける。なお、制御部12は、これまでに例示した対応付けの方法を複数組み合わせて、第1領域と第2領域とを対応付けてもよい。   The control unit 12 associates the first area recognized in step 102 with the second area recognized in step 104 by the association method exemplified so far. The control unit 12 may associate the first region with the second region by combining a plurality of association methods exemplified so far.

<ステップ108>
次に、制御部12は、ステップ103において取得した位置情報と、ステップ106において取得した項目名とを含む項目定義情報を作成する。図10は、図4に示されるイメージデータに対して上記ステップ102〜107までの処理が実行された結果、当該ステップ108において生成される項目定義情報を例示する。
<Step 108>
Next, the control unit 12 creates item definition information including the position information acquired in step 103 and the item name acquired in step 106. FIG. 10 exemplifies the item definition information generated in step 108 as a result of the processing from step 102 to step 107 being executed on the image data shown in FIG.

図10において示されるとおり、第1領域50aと第2領域60aとが対応付けられている。また、第1領域50bと第2領域60bとが対応付けられている。   As shown in FIG. 10, the first area 50a and the second area 60a are associated with each other. Further, the first area 50b and the second area 60b are associated with each other.

そして、第1領域50aのx座標(Left)、y座標(Top)、横軸の長さ(Width)、及び、縦軸の長さ(Height)は、それぞれ、120、80、320、及び、30である。第1領域50bのx座標、y座標、横軸の長さ、及び、縦軸の長さは、それぞれ、120、
120、320、及び、30である。また、第2領域60aのx座標、y座標、横軸の長さ、及び、縦軸の長さは、それぞれ、20、80、90、及び、30である。第2領域60bのx座標、y座標、横軸の長さ、及び、縦軸の長さは、それぞれ、20、120、90、及び、30である。
The x coordinate (Left), the y coordinate (Top), the length of the horizontal axis (Width), and the length of the vertical axis (Height) of the first region 50a are 120, 80, 320, and 30. The x-coordinate, y-coordinate, the length of the horizontal axis, and the length of the vertical axis of the first region 50b are 120,
120, 320, and 30. Further, the x coordinate, the y coordinate, the length of the horizontal axis, and the length of the vertical axis of the second region 60a are 20, 80, 90, and 30, respectively. The x coordinate, the y coordinate, the length of the horizontal axis, and the length of the vertical axis of the second region 60b are 20, 120, 90, and 30, respectively.

図10は、このような第1領域50aと第2領域60a、及び、第1領域50bと第2領域60bから取得される項目定義情報を例示する。なお、図10において例示される項目定義情報における「項目名」フィールドは、第2領域から取得される文字情報を格納する。「Left」フィールドは、第1領域の左上端のx座標を格納する。「Top」フィールド
は、第1領域の左上端のy座標を格納する。「Width」フィールドは、第1領域の横軸の
長さを格納する。「Height」フィールドは、第1領域の縦軸の長さを格納する。
FIG. 10 exemplifies item definition information acquired from the first area 50a and the second area 60a, and the first area 50b and the second area 60b. The “item name” field in the item definition information illustrated in FIG. 10 stores character information acquired from the second area. The “Left” field stores the x coordinate of the upper left corner of the first area. The “Top” field stores the y coordinate of the upper left corner of the first area. The “Width” field stores the length of the horizontal axis of the first area. The “Height” field stores the length of the vertical axis of the first area.

ここで、項目定義情報の行データ(レコード)は、対応関係にある第1領域と第2領域に係る情報を示す。つまり、項目定義情報のレコードは、文字認識の対象となる領域の位置情報と、当該領域についての項目名を含む。   Here, the row data (record) of the item definition information indicates information related to the first area and the second area that are in a correspondence relationship. That is, the record of the item definition information includes the position information of the area that is the object of character recognition and the item name for the area.

なお、OCRソフト等は、項目定義情報のレコードから、文字認識の対象となる領域の位置情報、及び、当該領域についての項目名を取得してもよい。つまり、項目定義情報は、OCRソフト等において、文字認識の対象となる領域に係る情報を特定するために用いられてもよい。   Note that the OCR software or the like may acquire the position information of the area to be character-recognized and the item name for the area from the record of the item definition information. That is, the item definition information may be used in OCR software or the like to specify information related to a region that is a character recognition target.

また、制御部12は、項目定義情報のレコードから得られる文字認識の対象となる領域に係る位置情報と項目名を、これらの情報を取得したイメージデータとともに、情報処理装置1に接続される表示装置に表示してもよい。   In addition, the control unit 12 displays the position information and item names related to the character recognition target area obtained from the item definition information record, together with the image data obtained from the information, connected to the information processing apparatus 1. It may be displayed on the device.

<エンド>
最後に、制御部12は、例えば、ステップ108において生成した項目定義情報を記憶部11に格納する。そして、情報処理装置1は、本動作例に係る処理を終了する。
<End>
Finally, the control unit 12 stores the item definition information generated in step 108 in the storage unit 11, for example. Then, the information processing apparatus 1 ends the process according to this operation example.

<その他>
なお、制御部12による上記ステップ102及び104における第1領域及び第2領域の認識に係る処理は、領域認識部31の処理に相当する。
<Others>
Note that the processing related to the recognition of the first region and the second region in steps 102 and 104 by the control unit 12 corresponds to the processing of the region recognition unit 31.

制御部12による上記ステップ103による位置情報取得に係る処理は、位置情報取得部32の処理に相当する。   The process related to the position information acquisition in step 103 performed by the control unit 12 corresponds to the process of the position information acquisition unit 32.

制御部12による上記ステップ106における項目名取得に係る処理は、項目名取得部33の処理に相当する。   The process related to the item name acquisition in step 106 by the control unit 12 corresponds to the process of the item name acquisition unit 33.

制御部12による上記ステップ107における対応付けに係る処理は、対応付け部34の処理に係る。   The process related to the association in step 107 by the control unit 12 relates to the process of the association unit 34.

制御部12による上記ステップ108における項目定義情報の作成に係る処理は、項目定義情報作成部35の処理に係る。   The processing related to the creation of the item definition information in step 108 by the control unit 12 relates to the processing of the item definition information creation unit 35.

§3 実施の形態に係る作用及び効果
以上によれば、本実施形態に係る情報処理装置1では、イメージデータ内における第1領域と第2領域が認識される(ステップ102及び104)。そして、第1領域からは、文字認識の対象となる領域を指定するための位置情報が取得される(ステップ103)。また、第2領域からは、該文字認識の対象となる領域についての項目名が取得される(ス
テップ106)。
§3 Actions and effects according to the embodiment As described above, the information processing apparatus 1 according to the present embodiment recognizes the first area and the second area in the image data (steps 102 and 104). Then, from the first area, position information for designating an area for character recognition is acquired (step 103). Further, the item name for the area that is the target of character recognition is acquired from the second area (step 106).

そのため、本実施形態に係る情報処理装置1によれば、ユーザは、取得された位置情報に係る文字認識の対象となる領域についての項目名を手入力により設定する必要がなくなる。したがって、本実施形態に係る情報処理装置1によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる。   Therefore, according to the information processing apparatus 1 according to the present embodiment, the user does not need to manually set an item name for an area that is a target of character recognition related to the acquired position information. Therefore, according to the information processing apparatus 1 according to the present embodiment, it is possible to improve the efficiency of creating definition information used for OCR software or the like.

また、本実施形態に係る情報処理装置1では、文字認識の対象となる領域を指定するための位置情報と、該文字認識の対象となる領域についての項目名との対応付けが行われる(ステップ107)。そのため、ユーザは、取得された位置情報と項目名との対応付けを行う必要がなくなる。したがって、本実施形態に係る情報処理装置1によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる。   Further, in the information processing apparatus 1 according to the present embodiment, the position information for designating the area that is the target of character recognition is associated with the item name for the area that is the target of character recognition (step) 107). This eliminates the need for the user to associate the acquired position information with the item name. Therefore, according to the information processing apparatus 1 according to the present embodiment, it is possible to improve the efficiency of creating definition information used for OCR software or the like.

§4 補足
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎず、その範囲を限定しようとするものではない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。
§4 Supplement Although the embodiment of the present invention has been described in detail above, the above description is merely an example of the present invention in all respects and is not intended to limit the scope thereof. It goes without saying that various improvements and modifications can be made without departing from the scope of the present invention.

当業者は、上記本実施形態の記載から、特許請求の範囲の記載および技術常識に基づいて等価な範囲を実施することができる。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられる。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語および技術用語は、本発明の属する分野の当業者によって一般的に理解される意味と同じ意味を有する。両者が矛盾する場合、本明細書において使用される用語は、本明細書(定義を含めて)に記載された意味において理解される。   A person skilled in the art can implement an equivalent range from the description of the present embodiment based on the description of the claims and the common general technical knowledge. Moreover, the term used in this specification is used by the meaning normally used in the said field unless there is particular mention. Thus, unless defined otherwise, all technical and technical terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. In the event of a conflict, terms used herein will be understood in the meaning set forth herein (including definitions).

1 情報処理装置
2 スキャナ
11 記憶部
12 制御部
13 バス
14 入出力部
31 領域認識部
32 位置情報取得部
33 項目名取得部
34 対応付け部
35 項目定義情報作成部
50、50a、50b、50c 第1領域
60、60a、60b、60c 第2領域
70 対応関係指示表現(矢印)
71 対応関係指示表現(線分)
72a、72b 対応関係指示表現(記号)
DESCRIPTION OF SYMBOLS 1 Information processing apparatus 2 Scanner 11 Storage part 12 Control part 13 Bus 14 Input / output part 31 Area recognition part 32 Position information acquisition part 33 Item name acquisition part 34 Correlation part 35 Item definition information creation part 50, 50a, 50b, 50c 1 area 60, 60a, 60b, 60c 2nd area 70 Correspondence relation instruction expression (arrow)
71 Corresponding relationship instruction expression (line segment)
72a, 72b Corresponding relationship instruction expression (symbol)

Claims (10)

イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識する領域認識部と、
前記イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、前記領域認識部により認識された前記第1領域の位置情報を取得する位置情報取得部と、
前記領域認識部により認識された前記第2領域内に存在する文字を認識することで得られる文字情報を、前記位置情報取得部により取得された前記位置情報により指定される前記文字認識の対象となる領域についての項目名として取得する項目名取得部と、
を備えることを特徴とする情報処理装置。
For the area specified by the predetermined expression in the image data, the first area specified by the first area specifying expression and the second area specifying expression different from the first area specifying expression are designated. An area recognition unit for recognizing two areas;
In the image data, a position information acquisition unit that acquires position information of the first region recognized by the region recognition unit as position information for designating a region that is a target of character recognition;
Character information obtained by recognizing characters existing in the second area recognized by the area recognition unit is the character recognition target specified by the position information acquired by the position information acquisition unit. An item name acquisition unit to acquire as an item name for the area
An information processing apparatus comprising:
前記第1領域と前記第2領域とを対応付ける対応付け部を更に備え、
前記項目名取得部は、前記第2領域から得られた前記文字情報を、前記対応付け部により該第2領域に対応付けられた前記第1領域から取得された位置情報により指定される前記文字認識の対象となる領域についての項目名として取得することを特徴とする請求項1に記載の情報処理装置。
An association unit that associates the first area with the second area;
The item name acquisition unit is configured to specify the character information obtained from the second area by the position information acquired from the first area associated with the second area by the association unit. The information processing apparatus according to claim 1, wherein the information processing apparatus acquires an item name for an area to be recognized.
前記対応付け部は、前記第1領域と、イメージデータ上前記第1領域の最も近くにある前記第2領域とを対応付けることを特徴とする請求項2に記載の情報処理装置。   The information processing apparatus according to claim 2, wherein the association unit associates the first region with the second region that is closest to the first region in image data. 前記対応付け部は、前記第1領域の位置と前記第2領域の位置との位置関係が所定の条件を満たすか否かを判定し、所定の条件を満たすと判定した前記第1領域と前記第2領域とを対応付けることを特徴とする請求項2に記載の情報処理装置。   The associating unit determines whether or not a positional relationship between the position of the first region and the position of the second region satisfies a predetermined condition, and the first region that has been determined to satisfy the predetermined condition and the The information processing apparatus according to claim 2, wherein the second area is associated with the information processing apparatus. 前記対応付け部は、イメージデータ内において縦方向に並ぶ複数の第1領域と縦方向に並ぶ複数の第2領域のうち、横方向に並ぶ1つの第1領域と1つの第2領域に対して前記所定の条件を満たすと判定することを特徴とする請求項4に記載の情報処理装置。   The associating unit includes a plurality of first regions arranged in the vertical direction and a plurality of second regions arranged in the vertical direction in the image data, with respect to one first region and one second region arranged in the horizontal direction. The information processing apparatus according to claim 4, wherein the information processing apparatus determines that the predetermined condition is satisfied. 前記対応付け部は、イメージデータ内において横方向に並ぶ複数の第1領域と横方向に並ぶ複数の第2領域のうち、縦方向に並ぶ1つの第1領域と1つの第2領域に対して前記所定の条件を満たすと判定することを特徴とする請求項4に記載の情報処理装置。   The associating unit is configured to detect one first region and one second region arranged in the vertical direction among a plurality of first regions arranged in the horizontal direction and a plurality of second regions arranged in the horizontal direction in the image data. The information processing apparatus according to claim 4, wherein the information processing apparatus determines that the predetermined condition is satisfied. 前記対応付け部は、イメージデータ内に存在する、前記第1領域と前記第2領域の対応関係を示す所定の対応関係指示表現を認識し、該認識した対応関係に基づいて、前記第1領域と前記第2領域とを対応付けることを特徴とする請求項2に記載の情報処理装置。   The association unit recognizes a predetermined correspondence instruction expression indicating the correspondence between the first region and the second region, which exists in the image data, and based on the recognized correspondence, the first region The information processing apparatus according to claim 2, wherein the second area is associated with the second area. 前記位置情報取得部により取得された前記文字認識の対象となる領域を指定するための前記位置情報と、前記項目名取得部により取得された、前記位置情報により指定される前記文字認識の対象となる領域についての前記項目名とを含む項目定義情報を作成する項目定義情報作成部を更に備えることを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。   The position information for designating the area for character recognition acquired by the position information acquisition unit, and the character recognition target specified by the position information acquired by the item name acquisition unit; The information processing apparatus according to claim 1, further comprising: an item definition information creating unit that creates item definition information including the item name for a region to be formed. コンピュータが、
イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識するステップと、
前記イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、前記認識された第1領域の位置情報を取得するステップと、
前記認識された第2領域内に存在する文字を認識することで得られる文字情報を、前記取得された位置情報により指定される前記文字認識の対象となる領域についての項目名として取得するステップと、
を実行することを特徴とする情報処理方法。
Computer
For the area specified by the predetermined expression in the image data, the first area specified by the first area specifying expression and the second area specifying expression different from the first area specifying expression are designated. Recognizing two regions;
Obtaining position information of the recognized first region as position information for designating a region for character recognition in the image data;
Obtaining character information obtained by recognizing characters existing in the recognized second area as an item name for the area to be subjected to character recognition specified by the obtained position information; ,
The information processing method characterized by performing.
コンピュータに、
イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識するステップと、
前記イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、前記認識された第1領域の位置情報を取得するステップと、
前記認識された第2領域内に存在する文字を認識することで得られる文字情報を、前記取得された位置情報により指定される前記文字認識の対象となる領域についての項目名として取得するステップと、
を実行させるためのプログラム。
On the computer,
For the area specified by the predetermined expression in the image data, the first area specified by the first area specifying expression and the second area specifying expression different from the first area specifying expression are designated. Recognizing two regions;
Obtaining position information of the recognized first region as position information for designating a region for character recognition in the image data;
Obtaining character information obtained by recognizing characters existing in the recognized second area as an item name for the area to be subjected to character recognition specified by the obtained position information; ,
A program for running
JP2011059362A 2011-03-17 2011-03-17 Information processing apparatus, information processing method and program Withdrawn JP2012194879A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011059362A JP2012194879A (en) 2011-03-17 2011-03-17 Information processing apparatus, information processing method and program
CN2012100592429A CN102708365A (en) 2011-03-17 2012-03-02 Information processing apparatus to acquire character information
US13/410,930 US20120237131A1 (en) 2011-03-17 2012-03-02 Information processing apparatus to acquire character information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011059362A JP2012194879A (en) 2011-03-17 2011-03-17 Information processing apparatus, information processing method and program

Publications (1)

Publication Number Publication Date
JP2012194879A true JP2012194879A (en) 2012-10-11

Family

ID=46828502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011059362A Withdrawn JP2012194879A (en) 2011-03-17 2011-03-17 Information processing apparatus, information processing method and program

Country Status (3)

Country Link
US (1) US20120237131A1 (en)
JP (1) JP2012194879A (en)
CN (1) CN102708365A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138396A (en) * 2014-01-22 2015-07-30 富士ゼロックス株式会社 Image processor and image processing program
CN112347831A (en) * 2019-08-09 2021-02-09 株式会社日立制作所 Information processing apparatus and table identification method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6707825B2 (en) * 2015-09-14 2020-06-10 富士ゼロックス株式会社 Information processing device and program
JP6903966B2 (en) * 2017-03-16 2021-07-14 富士フイルムビジネスイノベーション株式会社 Information processing equipment, information processing systems and programs
CN112639816A (en) * 2018-09-14 2021-04-09 三菱电机株式会社 Image information processing apparatus, image information processing method, and image information processing program
JP7263721B2 (en) * 2018-09-25 2023-04-25 富士フイルムビジネスイノベーション株式会社 Information processing device and program
JP7211157B2 (en) * 2019-02-27 2023-01-24 日本電信電話株式会社 Information processing device, association method and association program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007279828A (en) * 2006-04-03 2007-10-25 Toshiba Corp Business form processor, business form format preparation device, business form, program for processing business form and program for preparing business form format
GB0622863D0 (en) * 2006-11-16 2006-12-27 Ibm Automated generation of form definitions from hard-copy forms

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138396A (en) * 2014-01-22 2015-07-30 富士ゼロックス株式会社 Image processor and image processing program
CN112347831A (en) * 2019-08-09 2021-02-09 株式会社日立制作所 Information processing apparatus and table identification method

Also Published As

Publication number Publication date
US20120237131A1 (en) 2012-09-20
CN102708365A (en) 2012-10-03

Similar Documents

Publication Publication Date Title
JP2012194879A (en) Information processing apparatus, information processing method and program
JP6007497B2 (en) Image projection apparatus, image projection control apparatus, and program
JP2018190398A (en) Guide image capture user interface
KR100315318B1 (en) Apparatus and method of bitmap image processing, storage medium storing an image processing program
JP2012203458A (en) Image processor and program
JP2007279828A (en) Business form processor, business form format preparation device, business form, program for processing business form and program for preparing business form format
JP5321109B2 (en) Information processing apparatus and information processing program
JP2008192032A (en) Document processing device, document processing method, and program
JP2021043775A (en) Information processing device and program
WO2016170691A1 (en) Input processing program, input processing device, input processing method, character identification program, character identification device, and character identification method
JP6222541B2 (en) Image processing apparatus and program
JP2018055256A (en) Information processing apparatus, information processing method, and program
JP2018137509A (en) Image processing device, image reading device, and program
JP4830763B2 (en) Image processing system and image processing program
JP2008269131A (en) Image processor and image processing program
JP4357226B2 (en) Form definition device, form definition method, and form definition program
JP4050677B2 (en) Image processing apparatus, image processing method, program, and recording medium
JP5361315B2 (en) Information processing apparatus and information processing method
JP7404943B2 (en) Information processing device and information processing program
JP2003016385A (en) Image processor, method, program and storage medium
JP2011197844A (en) Difference detection system
JP2007179203A (en) Slip retrieval device, slip retrieval method, program and computer-readable storage medium
JP2007221293A (en) Image processing apparatus, image processing method and computer program
JP2007299321A (en) Information processor, information processing method, information processing program and information storage medium
JP4241820B2 (en) Character recognition method and character recognition system

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140603