JP2012194879A - Information processing apparatus, information processing method and program - Google Patents
Information processing apparatus, information processing method and program Download PDFInfo
- Publication number
- JP2012194879A JP2012194879A JP2011059362A JP2011059362A JP2012194879A JP 2012194879 A JP2012194879 A JP 2012194879A JP 2011059362 A JP2011059362 A JP 2011059362A JP 2011059362 A JP2011059362 A JP 2011059362A JP 2012194879 A JP2012194879 A JP 2012194879A
- Authority
- JP
- Japan
- Prior art keywords
- area
- region
- position information
- image data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
Description
本発明は、情報処理装置、情報処理方法、及び、プログラムの技術に関する。 The present invention relates to an information processing apparatus, an information processing method, and a program technique.
近年、業務改善及びコスト削減の観点から、様々な業務においてペーパーレス化が進められている。その一方で、例えば、取引書類等、未だ紙を利用する場面が数多く存在する。従来、このような紙が用いられる業務の効率を改善するためにOCR(Optical Character Recognition)ソフトが用いられてきた。 In recent years, paperlessness has been promoted in various businesses from the viewpoint of business improvement and cost reduction. On the other hand, there are still many scenes where paper is still used, for example, transaction documents. Conventionally, OCR (Optical Character Recognition) software has been used to improve the efficiency of operations in which such paper is used.
このようなOCRソフトにおいて読取領域等を指定するためには、該読取領域等の定義情報が必要となる。以下で挙げられる特許文献1及び特許文献2には、該定義情報に関する技術が開示されている。
In order to designate a reading area or the like in such OCR software, definition information of the reading area or the like is required. Patent Document 1 and
特許文献1には、イメージデータを色別に走査することにより、色に対応する文字種の読み取りを行う技術が開示されている。また、特許文献2には、所定色枠で囲われた領域に記入されている属性情報を認識して、読み取り項目の属性情報定義体を作成する技術が開示されている。
Japanese Patent Application Laid-Open No. H10-260260 discloses a technique for reading a character type corresponding to a color by scanning image data for each color.
しかしながら、従来の技術では、ユーザは、OCRソフトの定義情報を作成する際、イメージデータから取得した読取領域の位置情報に対して、該読取領域の記載内容を示す項目名を手入力により設定する必要があった。 However, in the conventional technique, when creating definition information of OCR software, the user manually sets an item name indicating the description content of the reading area for the position information of the reading area acquired from the image data. There was a need.
本発明は、このような点を考慮してなされたものであり、OCRソフト等に用いられる定義情報作成の効率化を図ることができる技術を提供することを目的とする。 The present invention has been made in consideration of such points, and an object of the present invention is to provide a technique capable of improving the efficiency of creating definition information used in OCR software or the like.
本発明は、上述した課題を解決するために、以下の構成を採用する。 The present invention employs the following configuration in order to solve the above-described problems.
すなわち、本発明の情報処理装置は、
イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識する領域認識部と、
前記イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、前記領域認識部により認識された前記第1領域の位置情報を取得する位置情報取得部と、
前記領域認識部により認識された前記第2領域内に存在する文字を認識することで得られる文字情報を、前記位置情報取得部により取得された前記位置情報により指定される前記文字認識の対象となる領域についての項目名として取得する項目名取得部と、
を備えることを特徴とする。
That is, the information processing apparatus of the present invention
For the area specified by the predetermined expression in the image data, the first area specified by the first area specifying expression and the second area specifying expression different from the first area specifying expression are designated. An area recognition unit for recognizing two areas;
In the image data, a position information acquisition unit that acquires position information of the first region recognized by the region recognition unit as position information for designating a region that is a target of character recognition;
Character information obtained by recognizing characters existing in the second area recognized by the area recognition unit is the character recognition target specified by the position information acquired by the position information acquisition unit. An item name acquisition unit to acquire as an item name for the area
It is characterized by providing.
ここで、領域指定表現とは、領域を指定するための表現である、枠、塗りつぶし、ハッチング等を指す。 Here, the area designation expression refers to an expression for designating an area, such as a frame, painting, or hatching.
上記構成によれば、イメージデータ内における第1領域と第2領域が認識される。そして、第1領域からは、文字認識の対象となる領域を指定するための位置情報が取得される。また、第2領域からは、該文字認識の対象となる領域についての項目名が取得される。そのため、ユーザは、取得された位置情報に係る文字認識の対象となる領域についての項目名を手入力により設定する必要がなくなる。したがって、上記構成によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる。 According to the above configuration, the first area and the second area in the image data are recognized. And the positional information for designating the area | region used as the object of character recognition is acquired from a 1st area | region. Moreover, the item name about the area | region used as the object of this character recognition is acquired from a 2nd area | region. This eliminates the need for the user to manually set item names for the areas for character recognition related to the acquired position information. Therefore, according to the above configuration, it is possible to improve the efficiency of creating definition information used for OCR software or the like.
また、本発明の別の形態として、本発明の情報処理装置は、
前記第1領域と前記第2領域とを対応付ける対応付け部を更に備え、
前記項目名取得部は、前記第2領域から得られた前記文字情報を、前記対応付け部により該第2領域に対応付けられた前記第1領域から取得された位置情報により指定される前記文字認識の対象となる領域についての項目名として取得してもよい。
As another form of the present invention, the information processing apparatus of the present invention
An association unit that associates the first area with the second area;
The item name acquisition unit is configured to specify the character information obtained from the second area by the position information acquired from the first area associated with the second area by the association unit. You may acquire as an item name about the area | region used as recognition object.
上記構成によれば、文字認識の対象となる領域を指定するための位置情報と、該文字認識の対象となる領域についての項目名との対応付けが行われる。そのため、ユーザは、取得された位置情報と項目名との対応付けを行う必要がなくなる。したがって、上記構成によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる。 According to the above configuration, the position information for designating the area to be character-recognized is associated with the item name for the area to be character-recognized. This eliminates the need for the user to associate the acquired position information with the item name. Therefore, according to the above configuration, it is possible to improve the efficiency of creating definition information used for OCR software or the like.
また、本発明の別の形態として、前記対応付け部は、前記第1領域と、イメージデータ上前記第1領域の最も近くにある前記第2領域とを対応付けてもよい。 As another form of the present invention, the association unit may associate the first region with the second region closest to the first region in image data.
また、本発明の別の形態として、前記対応付け部は、前記第1領域の位置と前記第2領域の位置との位置関係が所定の条件を満たすか否かを判定し、所定の条件を満たすと判定した前記第1領域と前記第2領域とを対応付けてもよい。 As another embodiment of the present invention, the association unit determines whether a positional relationship between the position of the first region and the position of the second region satisfies a predetermined condition, and sets the predetermined condition. The first area determined to satisfy the second area may be associated with the second area.
また、本発明の別の形態として、前記対応付け部は、イメージデータ内において縦方向に並ぶ複数の第1領域と縦方向に並ぶ複数の第2領域のうち、横方向に並ぶ1つの第1領域と1つの第2領域に対して前記所定の条件を満たすと判定してもよい。 As another form of the present invention, the associating unit includes one first line arranged in the horizontal direction among a plurality of first areas arranged in the vertical direction and a plurality of second areas arranged in the vertical direction in the image data. It may be determined that the predetermined condition is satisfied for the region and one second region.
また、本発明の別の形態として、前記対応付け部は、イメージデータ内において横方向に並ぶ複数の第1領域と横方向に並ぶ複数の第2領域のうち、縦方向に並ぶ1つの第1領域と1つの第2領域に対して前記所定の条件を満たすと判定してもよい。 As another form of the present invention, the associating unit includes one first line arranged in the vertical direction among a plurality of first areas arranged in the horizontal direction and a plurality of second areas arranged in the horizontal direction in the image data. It may be determined that the predetermined condition is satisfied for the region and one second region.
また、本発明の別の形態として、前記対応付け部は、イメージデータ内に存在する、前記第1領域と前記第2領域の対応関係を示す所定の対応関係指示表現を認識し、該認識した対応関係に基づいて、前記第1領域と前記第2領域とを対応付けてもよい。 As another embodiment of the present invention, the association unit recognizes and recognizes a predetermined correspondence instruction expression indicating the correspondence between the first area and the second area, which exists in the image data. Based on the correspondence, the first area and the second area may be associated with each other.
また、本発明の別の形態として、本発明の情報処理装置は、前記位置情報取得部により取得された前記文字認識の対象となる領域を指定するための前記位置情報と、前記項目名取得部により取得された、前記位置情報により指定される前記文字認識の対象となる領域についての前記項目名とを含む項目定義情報を作成する項目定義情報作成部を更に備えてもよい。 As another form of the present invention, the information processing apparatus according to the present invention includes the position information acquired by the position information acquisition unit for designating an area to be subjected to character recognition, and the item name acquisition unit. And an item definition information creating unit that creates item definition information including the item name for the area to be recognized by the character specified by the position information.
なお、本発明の別態様としては、以上の各構成を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記憶媒体であってもよい。また、本発明の別態様として、以上の各構成を実現する複数の装置が通信可能に構成された情報処理システムであってもよい。 As another aspect of the present invention, an information processing method that implements each of the above configurations, a program, or a computer-readable storage medium that records such a program may be used. There may be. Further, as another aspect of the present invention, an information processing system in which a plurality of devices that realize each of the above configurations is configured to be communicable may be used.
本発明によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる技術を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the technique which can aim at the efficiency improvement of the definition information used for OCR software etc. can be provided.
以下、本発明の一側面に係る情報処理装置、情報処理方法及びプログラム等の実施の形態(以下、「本実施形態」とも表記する)を説明する。ただし、本実施形態は例示であり、本発明は本実施形態の構成に限定されない。 Hereinafter, embodiments of an information processing apparatus, an information processing method, a program, and the like according to one aspect of the present invention (hereinafter also referred to as “this embodiment”) will be described. However, the present embodiment is an exemplification, and the present invention is not limited to the configuration of the present embodiment.
なお、本実施形態において登場するデータを自然言語(日本語等)により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメタ、マシン語等で指定される。 Although the data appearing in the present embodiment is described in a natural language (such as Japanese), more specifically, it is specified in a pseudo language, a command, a parameter, a machine language, or the like that can be recognized by a computer.
§1 情報処理装置
本実施形態に係る情報処理装置を図1及び図2を用いて説明する。
§1 Information processing apparatus An information processing apparatus according to the present embodiment will be described with reference to FIGS. 1 and 2.
<概要>
図1は、本実施形態に係る情報処理装置が実行する処理を例示する。本実施形態に係る情報処理装置は、イメージデータ内において所定の表現によって指定された領域である第1領域50と第2領域60とを認識する。
<Overview>
FIG. 1 illustrates processing executed by the information processing apparatus according to the present embodiment. The information processing apparatus according to the present embodiment recognizes the
第1領域50は、第1の領域指定表現により指定される。他方、第2領域60は、第2の領域指定表現により指定される。つまり、第1領域50と第2領域60とは領域指定表現が異なる。領域指定表現とは、領域を指定するための表現であり、例えば、枠、塗りつぶし、各種のハッチング等である。図1に示される例では、第1の領域指定表現は、枠のみである。つまり、第1の領域指定表現では、枠内において、塗りつぶし及び各種ハッチング等がなされていない。他方、第2の領域指定表現は、図1に示される例では、塗りつぶしである。
The
第1領域50は、イメージデータ内において文字認識の対象として指定される領域である。また、第2領域60は、文字認識の対象として指定される領域についての項目名が存在する領域である。
The
例えば、ユーザは、帳票又はカルテ等の紙面上に、マーカ、シール、又は、印刷等によ
り、枠、塗りつぶし、又は、各種のハッチング等を描画し、第1領域50及び第2領域60の指定を行う。情報処理装置は、このようにして第1領域50及び第2領域60が指定された紙をスキャナ等により読み取ることで、第1領域50及び第2領域60が指定されたイメージデータを取得する。
For example, the user draws a frame, a fill, or various hatchings on a paper surface such as a form or a chart by a marker, a seal, or printing, and designates the
本実施形態に係る情報処理装置は、異なる領域指定表現により指定されている第1領域50と第2領域60とを認識する。そして、本実施形態に係る情報処理装置は、第1領域50から、文字認識の対象となる領域を指定するための位置情報を取得する。また、本実施形態に係る情報処理装置は、第2領域60から、該文字認識の対象となる領域についての項目名を取得する。
The information processing apparatus according to the present embodiment recognizes the
このように、本実施形態に係る情報処理装置は、イメージデータ上に指定された第1領域及び第2領域から、文字認識の対象となる領域についての位置情報と項目名とをそれぞれ取得することにより、ユーザによる定義情報作成の効率化を図る。 As described above, the information processing apparatus according to the present embodiment acquires the position information and the item name about the area that is the target of character recognition from the first area and the second area specified on the image data. As a result, the efficiency of the definition information creation by the user is improved.
なお、ユーザは、イメージデータを描画ソフト等により編集することで、該イメージデータ上に第1領域50及び第2領域60を指定してもよい。
The user may specify the
<構成例>
図2は、本実施形態に係る情報処理装置1の構成例を示す。情報処理装置1は、図2に示されるとおり、そのハードウェア構成として、バス13に接続される、記憶部11、制御部12、入出力部14等を有している。
<Configuration example>
FIG. 2 shows a configuration example of the information processing apparatus 1 according to the present embodiment. As illustrated in FIG. 2, the information processing apparatus 1 includes a
記憶部11は、制御部12で実行される処理で利用される各種データ及びプログラムを記憶する(不図示)。記憶部11は、例えば、ハードディスクによって実現される。記憶部11は、USBメモリ等の記録媒体により実現されてもよい。
The
なお、記憶部11が格納する当該各種データ及びプログラムは、CD(Compact Disc)又はDVD(Digital Versatile Disc)等の記録媒体から取得されてもよい。また、記憶部11は、補助記憶装置と呼ばれてもよい。
The various data and programs stored in the
制御部12は、マイクロプロセッサ又はCPU(Central Processing Unit)等の1又
は複数のプロセッサと、このプロセッサの処理に利用される周辺回路(ROM(Read Only Memory)、RAM(Random Access Memory)、インタフェース回路等)と、を有する。制御部12は、記憶部11に格納されている各種データ及びプログラムを実行することにより、本実施形態における情報処理装置1の処理を実現する。ROM、RAM等は、制御部12内のプロセッサが取り扱うアドレス空間に配置されているという意味で主記憶装置と呼ばれてもよい。
The
入出力部14は、情報処理装置1の外部に存在する装置とデータの送受信を行うための1又は複数のインタフェースである。入出力部14は、例えば、LAN(Local Area Network)ケーブルを接続するためのインタフェース、入力装置及び出力装置等のユーザインタフェースと接続するためのインタフェース、又はUSB(Universal Serial Bus)等のインタフェースである。
The input /
入出力部14は、図2に示されるように、例えば、スキャナ2と接続してもよい。また、入出力部14は、不図示のユーザインタフェース(タッチパネル、テンキー、キーボード、マウス、ディスプレイ等の入出力装置)と接続してもよい。更に、入出力部14は、CDドライブ、DVDドライブ等の着脱可能な記録媒体の入出力装置、或いはメモリカード等の不揮発性の可搬型の記録媒体等の入出力装置と接続してもよい。入出力部14は、
ネットワーク接続を行うインタフェース(通信部)としての機能を有してもよい。
As shown in FIG. 2, the input /
You may have a function as an interface (communication part) which performs network connection.
本実施形態に係る情報処理装置は、文字認識の対象となる領域についての位置情報と項目名とをそれぞれ取得することにより、ユーザによる定義情報作成の効率化を図る。該処理は、制御部12の処理として実現される。
The information processing apparatus according to the present embodiment obtains position information and item names for an area that is a character recognition target, thereby improving the efficiency of definition information creation by the user. This process is realized as a process of the
図2に示されるとおり、制御部12は、上記処理を実現するために、領域認識部31、位置情報取得部32、項目名取得部33、対応付け部34、及び、項目定義情報作成部35を含む。領域認識部31、位置情報取得部32、項目名取得部33、対応付け部34、及び、項目定義情報作成部35は、例えば、記憶部11に格納されたプログラム等が制御部12の周辺回路であるRAM等に展開され、制御部12のプロセッサにより実行されることによって実現される。
As illustrated in FIG. 2, the
領域認識部31は、イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識する。領域認識部31は、例えば、図1に示される、第1領域50及び第2領域60を区別して認識する。
The area recognition unit 31 includes a first area designated by the first area designation expression and a second area designation different from the first area designation expression for the area designated by the predetermined expression in the image data. Recognizing the second area designated by the expression. For example, the region recognition unit 31 distinguishes and recognizes the
位置情報取得部32は、イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、領域認識部により認識された第1領域の位置情報を取得する。図1に示されるように、位置情報取得部32は、例えば、文字認識の対象となる領域を指定するための位置情報として、イメージデータ内における第1領域50の位置情報を取得する。
The position information acquisition unit 32 acquires the position information of the first area recognized by the area recognition unit as position information for designating an area to be character-recognized in the image data. As illustrated in FIG. 1, the position information acquisition unit 32 acquires, for example, position information of the
なお、位置情報取得部32は、後述する対応付け部34の処理のために、第2領域の位置情報を取得してもよい。位置情報取得部32は、例えば、図1に示されるイメージデータ内の第2領域60の位置情報を取得してもよい。
Note that the position information acquisition unit 32 may acquire the position information of the second region for the processing of the association unit 34 described later. For example, the position information acquisition unit 32 may acquire position information of the
項目名取得部33は、領域認識部31により認識された第2領域内に存在する文字を認識することにより得られる文字情報を、位置情報取得部32により取得された位置情報により指定される文字認識の対象となる領域についての項目名として取得する。図1に示されるように、例えば、項目名取得部33は、第2領域内に存在する文字を文字認識することにより得られる文字情報を、第1領域50についての項目名として取得する。
The item name acquisition unit 33 uses the character information specified by the position information acquired by the position information acquisition unit 32 as the character information obtained by recognizing the character existing in the second region recognized by the region recognition unit 31. Acquired as the item name for the area to be recognized. As shown in FIG. 1, for example, the item name acquisition unit 33 acquires character information obtained by recognizing characters existing in the second area as an item name for the
なお、後述するとおり、第1領域と第2領域は、対応付け部34により対応づけられる。本実施形態に係る項目名取得部33は、第2領域から得られる文字情報を、対応付け部34により該第2領域に対応付けられた第1領域から取得された位置情報により指定される文字認識の対象となる領域についての項目名として取得する。 As will be described later, the first area and the second area are associated by the association unit 34. The item name acquisition unit 33 according to the present embodiment uses the character information obtained from the second area as the character specified by the position information acquired from the first area associated with the second area by the association unit 34. Acquired as the item name for the area to be recognized.
対応付け部34は、第1領域と第2領域とを対応付ける。 The association unit associates the first area with the second area.
例えば、対応付け部34は、第1領域と、イメージデータ上該第1領域の最も近くにある第2領域とを対応付ける。 For example, the associating unit 34 associates the first region with the second region closest to the first region in the image data.
また、例えば、対応付け部34は、第1領域の位置と第2領域の位置との位置関係が所定の条件を満たすか否かを判定し、所定の条件を満たすと判定した第1領域と第2領域とを対応付ける。所定の条件とは、対応関係にある第1領域と第2領域の位置関係を条件付ける。詳細は、後述する。 Further, for example, the associating unit 34 determines whether or not the positional relationship between the position of the first region and the position of the second region satisfies a predetermined condition, and the first region determined to satisfy the predetermined condition The second area is associated. The predetermined condition conditions the positional relationship between the first region and the second region that are in a corresponding relationship. Details will be described later.
また、例えば、対応付け部34は、イメージデータ内に存在する、第1領域と第2領域
の対応付けを示す所定の対応関係指示表現を認識する。そして、対応付け部34は、該認識した対応関係に基づいて、第1領域と第2領域とを対応付ける。
Further, for example, the association unit 34 recognizes a predetermined correspondence instruction expression indicating the association between the first area and the second area, which exists in the image data. Then, the associating unit 34 associates the first area with the second area based on the recognized correspondence relationship.
対応関係指示表現は、第1領域と第2領域の対応付けを示すものである。例えば、対応関係指示表現は、第1領域と第2領域の間に設けられた矢印、第1領域と第2領域とを結ぶ線分、第1領域と第2領域に記された同じ記号又は印である。対応関係指示表現は、第1領域と第2領域の対応関係を示すことができるものであるならば、いかなるものであってもよい。 The correspondence relationship instruction expression indicates the correspondence between the first area and the second area. For example, the correspondence relationship instruction expression includes an arrow provided between the first region and the second region, a line segment connecting the first region and the second region, the same symbol written in the first region and the second region, or It is a mark. The correspondence relationship instruction expression may be anything as long as it can indicate the correspondence relationship between the first region and the second region.
項目定義情報作成部35は、位置情報取得部32により取得された文字認識の対象となる領域を指定するための位置情報と、項目名取得部33により取得された、該位置情報により指定される文字認識の対象となる領域についての項目名とを含む項目定義情報を作成する。作成された項目定義情報は、文字認識の対象となる領域の位置及び項目名を指定する情報である。該項目定義情報は、例えば、OCRソフト等により用いられる。
The item definition
§2 動作例
次に、図3を用いて、本実施形態に係る情報処理装置1の動作例を説明する。図3は、本実施形態に係る情報処理装置1の処理手順の一例を示す。なお、図3では、ステップを「S」と略称する。
§2 Operation Example Next, an operation example of the information processing apparatus 1 according to the present embodiment will be described with reference to FIG. FIG. 3 shows an example of a processing procedure of the information processing apparatus 1 according to the present embodiment. In FIG. 3, the step is abbreviated as “S”.
<スタート>
まず、例えば、ユーザによる操作に応じて、記憶部11に格納されたプログラムが、制御部12のRAM等に展開される。そして、制御部12のRAM等に展開された該プログラムが、制御部12のプロセッサにより実行される。このようにして、情報処理装置1は、処理を開始する。
<Start>
First, for example, a program stored in the
<ステップ101>
次に、制御部12は、当該処理に用いられるイメージデータを取得する(ステップ101)。取得されるイメージデータは、例えば、図2に示されるスキャナ2により取り込まれたデータであってもよい。また、取得されるイメージデータは、記憶部11に格納されたデータであってもよい。このようなイメージデータは、ネットワークを介して取得されてもよい。また、イメージデータは、メモリカード等の不揮発性の可搬型の記録媒体等から取得されてもよい。
<Step 101>
Next, the
図4は、この時に取得されるイメージデータの一例を示す。イメージデータは、例えば、帳票及びカルテ等の紙媒体を電子化することにより得られるデータである。図4に示されるとおり、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等の上に指定される。第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等とは区別可能に表現される。 FIG. 4 shows an example of image data acquired at this time. The image data is data obtained by digitizing paper media such as forms and medical records, for example. As shown in FIG. 4, the first area (50a, 50b) and the second area (60a, 60b) are designated on columns, characters, and the like described in the form and medical record. The first area (50a, 50b) and the second area (60a, 60b) are expressed so as to be distinguishable from columns, characters, and the like described in the form and medical record.
例えば、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等と明確に区別するために、帳票及びカルテ等に記載される欄及び文字等の色とは異なる色で表現されてもよい。このように表現されていれば、該異なる色を検知して読み取るOCRエンジンにより、イメージデータ内において描画されているものの中から、第1領域(50a、50b)及び第2領域(60a、60b)に係る領域指定表現のみを抽出することができる。例えば、帳票及びカルテ等に記載されている欄及び文字等が黒色であるとすると、該OCRエンジンは、該黒色以外の色を検知して読み取ることで、第1領域(50a、50b)及び第2領域(60a、60b)を抽出する。 For example, the first area (50a, 50b) and the second area (60a, 60b) are fields described in the form and medical record in order to clearly distinguish them from the fields and characters described in the form and medical record. Also, it may be expressed in a color different from the color of characters and the like. If expressed in this way, the first area (50a, 50b) and the second area (60a, 60b) out of those drawn in the image data by the OCR engine that detects and reads the different colors. It is possible to extract only the area designation expression related to. For example, assuming that the fields and characters described in the form and medical record are black, the OCR engine detects and reads a color other than the black color, so that the first region (50a, 50b) and the first Two regions (60a, 60b) are extracted.
ただし、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等の色と必ず異なる色で表現されなければならない訳ではない。例えば、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄等の領域指定表現と区別可能な領域指定表現により表現されているならば、帳票及びカルテ等に記載される欄及び文字等の色と同じ色で表現されてもよい。 However, the first area (50a, 50b) and the second area (60a, 60b) do not necessarily have to be expressed in a color different from the color of the columns and characters described in the form and medical record. For example, if the first area (50a, 50b) and the second area (60a, 60b) are expressed by an area designation expression that can be distinguished from an area designation expression such as a column described in a form and a medical record, It may be expressed in the same color as the color of the fields and characters described in the form and medical record.
<ステップ102>
次に、図3に示されるとおり、制御部12は、ステップ101において取得したイメージデータ内における第1領域を認識する(ステップ102)。
<Step 102>
Next, as shown in FIG. 3, the
図4に示されるイメージデータにおいて、枠が、第1の領域指定表現として用いられている。言いかえると、図4に示されるイメージデータにおいて、第1領域(50a、50b)は、枠によって表現されている。制御部12は、当該枠によって表現されている第1領域(50a、50b)を認識する。
In the image data shown in FIG. 4, a frame is used as the first area designation expression. In other words, in the image data shown in FIG. 4, the first regions (50a, 50b) are represented by frames. The
例えば、制御部12は、イメージデータ内において描画されているものの中から、第1領域及び第2領域に係る領域指定表現を抽出する。当該抽出は、第1領域(50a、50b)及び第2領域(60a、60b)は、帳票及びカルテ等に記載される欄及び文字等とは区別可能に表現されているため、実行可能である。続いて、制御部12は、抽出した第1領域及び第2領域に係る領域指定表現から、第1の領域指定表現に係る領域を特定する。当該特定は、例えば、パターンマッチング等により実現される。そして、制御部12は、特定された領域を、第1領域として認識する。このようにして、制御部12は、図4に示されるイメージデータ内において、枠によって表現されている第1領域(50a、50b)を認識する。
For example, the
<ステップ103>
次に、制御部12は、ステップ102において認識した第1領域のイメージデータ内における位置情報を取得する(ステップ103)。
<Step 103>
Next, the
位置情報は、イメージデータ内における位置を示す情報であれば、いかなる情報であっても構わない。本実施形態では、位置情報は、イメージデータの左上端を原点、横軸をx軸、縦軸をy軸としたxy座標系で表現される。ただし、位置情報の表現は、xy座標系に限定される訳ではない。例えば、位置情報の表現は、イメージデータのある一点(例えば、イメージデータの中心)を原点とする極座標系であってもよい。 The position information may be any information as long as it is information indicating a position in the image data. In the present embodiment, the position information is expressed in an xy coordinate system in which the upper left corner of the image data is the origin, the horizontal axis is the x axis, and the vertical axis is the y axis. However, the representation of the position information is not limited to the xy coordinate system. For example, the representation of the position information may be a polar coordinate system having an origin at a certain point in the image data (for example, the center of the image data).
また、本実施形態に係る第1領域の位置情報は、第1領域の左上端の位置(座標)、横の長さ、及び、縦の長さを含む。当該位置情報は、後述する図9において例示される。制御部12は、ステップ102において認識した第1領域の左上端の位置座標を特定する。また、制御部12は、認識した第1領域の横の長さと縦の長さを特定する。これにより、制御部12は、認識した第1領域のイメージデータ内における位置情報を取得する。
Further, the position information of the first region according to the present embodiment includes the position (coordinates) of the upper left end of the first region, the horizontal length, and the vertical length. The position information is exemplified in FIG. 9 described later. The
<ステップ104>
次に、制御部12は、ステップ101において取得したイメージデータ内における第2領域を認識する(ステップ104)。
<Step 104>
Next, the
図4に示されるイメージデータにおいて、塗りつぶしが、第2の領域指定表現として用いられている。言いかえると、図4に示されるイメージデータにおいて、第2領域(60a、60b)は、塗りつぶしによって表現されている。制御部12は、当該塗りつぶしに
よって表現されている第2領域(60a、60b)を認識する。なお、該第2領域の認識は、ステップ102における第1領域の認識方法と同様の方法で行われる。
In the image data shown in FIG. 4, the fill is used as the second area designation expression. In other words, in the image data shown in FIG. 4, the second area (60a, 60b) is expressed by painting. The
<ステップ105>
次に、制御部12は、ステップ104において認識した第2領域のイメージデータ内における位置情報を取得する(ステップ105)。なお、当該ステップ105は、省略されてもよい。本実施形態では、後述するステップ107における対応付けにおいて第2領域の位置情報が用いられるため、該第2領域の位置情報が取得される。なお、第2領域の位置情報は、ステップ103における第1領域の位置情報と同様である。
<Step 105>
Next, the
<ステップ106>
次に、制御部12は、ステップ104において認識した第2領域内に存在する文字を文字認識することで、該第2領域内に存在する文字の文字情報を取得する(ステップ106)。
<Step 106>
Next, the
文字認識は、いかなる方法によって実行されてもよい。本ステップ106において、制御部12は、第2領域内に記載された文字を文字認識することで、該第2領域内に記載された文字の文字情報を取得する。
Character recognition may be performed by any method. In step 106, the
なお、文字情報は、文字認識の対象となる第1領域についての項目名として取得される。第1領域と第2領域とが1つずつしか存在しない場合、第1領域と第2領域の組合せは1通りしか考えられないため、第1領域と第2領域の対応関係を特定する必要はない。すなわち、本ステップ106において第2領域から取得される文字情報が、どの第1領域についての項目名であるかを特定する必要はない。本ステップ106において文字情報が取得された時点において、該文字情報は、ステップ102及び103に係る第1領域についての項目名として特定される。 Note that the character information is acquired as an item name for the first area to be character-recognized. If there is only one each of the first area and the second area, only one combination of the first area and the second area can be considered, so it is necessary to specify the correspondence between the first area and the second area. Absent. That is, it is not necessary to specify which first area the character information acquired from the second area in this step 106 is the item name. When the character information is acquired in this step 106, the character information is specified as an item name for the first area according to steps 102 and 103.
他方、第1領域と第2領域とがそれぞれ複数存在する場合、第2領域から取得される文字情報が、どの第1領域についての項目名であるか特定される必要がある。本実施形態では、後述するステップ107において、第1領域と第2領域とが対応づけられることによって、第2領域から取得される文字情報が、どの第1領域についての項目名であるか特定される。 On the other hand, when there are a plurality of first areas and a plurality of second areas, it is necessary to specify which first area the character information acquired from the second area is the item name of. In the present embodiment, in step 107 to be described later, the first area and the second area are associated with each other, thereby specifying which first area the character information acquired from the second area is the item name of. The
しかしながら、このような対応付けが常に必要となる訳ではない。例えば、図5に示されるように、制御部12が、イメージデータの上部から順番に走査し、ステップ102の第1領域の認識、及び、ステップ104の第2領域の認識を実行するとする。そして、制御部12は、第1領域を1つ、第2領域を1つ見つけるたびに、ステップ102〜106の処理を繰り返すとする。この時、処理に係る第1領域と第2領域は常に1つずつとなるため、上記対応付けの処理は不要となる。
However, such association is not always necessary. For example, as illustrated in FIG. 5, it is assumed that the
なお、例えば、このように処理が実行されると、図5に示される例では、第2領域60aから取得される文字情報は、第1領域50aについての項目名として特定される。また、第2領域60bから取得される文字情報は、第1領域50bについての項目名として特定される。第2領域60cから取得される文字情報は、第1領域50cについての項目名として特定される。なお、当該処理は、第1領域と第2領域が発見される順序により、ステップ102〜103とステップ104〜106は入れ替わりうる。
For example, when the process is executed in this way, in the example shown in FIG. 5, the character information acquired from the
<ステップ107>
次に、制御部12は、ステップ102において認識した第1領域と、ステップ104において認識した第2領域との対応関係を特定するため、該第1領域と該第2領域とを対応
付ける。本ステップ107は、例えば、対応付けに係る第1領域と第2領域が1つずつしかない場合、省略されてもよい。本ステップ107は、上述のとおり、第2領域から取得される文字情報が、どの第1領域についての項目名であるかを特定するための処理である。
<Step 107>
Next, the
制御部12による対応付けに係る処理の例を、図6〜9を用いて説明する。
An example of processing related to association by the
例えば、制御部12は、第1領域と、イメージデータ上該第1領域の最も近くにある第2領域とを対応付ける。図6は、当該処理の例を示す。本実施形態では、ステップ103及び105において、第1領域と第2領域の位置情報が取得されている。当該位置情報には、各領域の左上端の位置座標が含まれている。制御部12は、当該位置座標を用いて、第1領域と第2領域の距離をそれぞれ計算する。すなわち、制御部12は、第1領域の左上端の位置座標と第2領域の左上端の位置座標との間の距離をそれぞれ計算する。そして、制御部12は、当該距離が最短である第1領域と第2領域とを対応付ける。
For example, the
図6において示される例では、制御部12は、第1領域50aと、イメージデータ上該第1領域50aに最も近くにある第2領域60aとを対応付ける。また、第1領域50bと、イメージデータ上該第1領域50bに最も近くにある第2領域60bとを対応付ける。
In the example shown in FIG. 6, the
なお、当該処理における第1領域と第2領域は入れ替わってもよい。すなわち、制御部12は、第2領域と、イメージデータ上該第2領域の最も近くにある第1領域とを対応付けてもよい。
Note that the first area and the second area in the processing may be interchanged. That is, the
また、例えば、制御部12は、第1領域の位置と第2領域の位置との位置関係が所定の条件を満たすか否かを判定し、所定の条件を満たすと判定した第1領域と第2領域とを対応付けてもよい。
Further, for example, the
所定の条件は、対応関係にある第1領域と第2領域の位置関係を条件付ける。 The predetermined condition conditions the positional relationship between the first region and the second region that are in a correspondence relationship.
例えば、所定の条件は、対応関係にある第1領域と第2領域の距離に関する。制御部12は、イメージデータ内にある第1領域と第2領域のうち、ユーザによって設定及び変更可能な閾値以内の距離にある第1領域と第2領域に対して所定の条件を満たすと判定する。
For example, the predetermined condition relates to the distance between the first area and the second area that are in a correspondence relationship. The
また、例えば、所定の条件は、対応関係にある第1領域と第2領域の相対的な位置関係に関する。制御部12は、イメージデータ内にある第1領域と第2領域のうち、ある特定の相対的な位置関係にある第1領域と第2領域に対して所定の条件を満たすと判定する。ここで、本実施形態において、相対的な位置関係は、イメージデータの左上端を原点として、第1領域の左上端を指すベクトルと第2領域の左上端を指すベクトルとの差分ベクトルとして表現されうる。また、ある特定の相対的な位置関係は、当該差分ベクトルが満たすべき条件ベクトルとして表現されうる。そして、例えば、当該差分ベクトルと条件ベクトルとの内積がユーザにより設定及び変更可能な値の範囲に含まれる場合、当該差分ベクトルに係る第1領域と第2領域は、ある特定の相対的な位置関係にあると判定される。
For example, the predetermined condition relates to a relative positional relationship between the first region and the second region that are in a correspondence relationship. The
また、例えば、所定の条件は、対応関係にある第1領域と第2領域の横方向の並び方に関する。制御部12は、イメージデータ内において縦方向に並ぶ第1領域と縦方向に並ぶ第2領域のうち、横方向に並ぶ第1領域と第2領域に対して所定の条件を満たすと判定する。図7は、該条件を満たす第1領域と第2領域を例示する。なお、図7における座標(x、y)におけるxは、横軸(x軸)の座標を示す。また、yは、縦軸(y軸)の座標を
示す。
Further, for example, the predetermined condition relates to a horizontal arrangement of the first area and the second area that are in a correspondence relationship. The
ここで、本実施形態において、縦方向に並ぶ第1領域とは、第1領域の左上端の横軸(x軸)に関する位置座標(x座標)が、ユーザによって設定及び変更可能な閾値以内の誤差範囲に存在する第1領域のことである。例えば、図7において示される第1領域50aのx座標は70である。第1領域50bのx座標は68である。第1領域50cのx座標は70である。この時、例えば、閾値が5であるとすると、第1領域50a、第1領域50b、及び、第1領域50cは、それぞれ縦方向に並ぶ第1領域である。
Here, in the present embodiment, the first region arranged in the vertical direction means that the position coordinate (x coordinate) related to the horizontal axis (x axis) at the upper left end of the first region is within a threshold that can be set and changed by the user. It is the first region existing in the error range. For example, the x coordinate of the
第2領域についても同様である。本実施形態において、縦方向に並ぶ第2領域とは、第2領域の左上端の横軸(x軸)に関する位置座標(x座標)が、ユーザによって設定及び変更可能な閾値以内の誤差範囲に存在する第2領域のことである。例えば、図7において示される第2領域60aのx座標は20である。第2領域60bのx座標は21である。第2領域60cのx座標は19である。この時、例えば、閾値が5であるとすると、第2領域60a、第2領域60b、及び、第2領域60cは、それぞれ縦方向に並ぶ第2領域である。
The same applies to the second region. In the present embodiment, the second region arranged in the vertical direction is an error range in which the position coordinate (x coordinate) related to the horizontal axis (x axis) at the upper left end of the second region is within a threshold that can be set and changed by the user. It is the second region that exists. For example, the x coordinate of the
制御部12は、このように縦方向に並ぶ第1領域と縦方向に並ぶ第2領域を取得する。そして、制御部12は、縦方向に並ぶ第1領域及び第2領域のうち、横方向に並ぶ第1領域と第2領域に対して上記所定の条件を満たすと判定する。
In this way, the
ここで、本実施形態において、第1領域と第2領域とが横方向に並ぶとは、第1領域の左上端の縦軸(y軸)に関する位置座標(y座標)と第2領域の左上端の縦軸に関する位置座標の差分が、ユーザによって設定及び変更可能な閾値以内である状態を指す。 Here, in the present embodiment, the first area and the second area are arranged in the horizontal direction. The position coordinate (y coordinate) on the vertical axis (y axis) at the upper left corner of the first area and the upper left corner of the second area. This refers to a state in which the difference in position coordinates regarding the vertical axis at the end is within a threshold that can be set and changed by the user.
例えば、図7において示される第1領域50aのy座標は59である。第1領域50bのy座標は98である。第1領域50cのy座標は140である。これに対して、図7において示される第2領域60aのy座標は60である。第2領域60bのy座標は100である。第2領域60cのy座標は141である。
For example, the y coordinate of the
この時、例えば、閾値が5であるとすると、制御部12は、第1領域50aと第2領域60aとが横方向に並び、所定の条件を満たすと判定する。また、制御部12は、第1領域50bと第2領域60bとが横方向に並び、所定の条件を満たすと判定する。更に、制御部12は、第1領域50cと第2領域60cとが横方向に並び、所定の条件を満たすと判定する。すなわち、制御部12は、第1領域50aと第2領域60aとを対応付ける。また、制御部12は、第1領域50bと第2領域60bとを対応付ける。更に、制御部12は、第1領域50cと第2領域60cとを対応付ける。
At this time, for example, if the threshold value is 5, the
また、例えば、所定の条件は、対応関係にある第1領域と第2領域の縦方向の並び方に関する。制御部12は、イメージデータ内において横方向に並ぶ第1領域と横方向に並ぶ第2領域のうち、縦方向に並ぶ第1領域と第2領域に対して所定の条件を満たすと判定する。図8は、該条件を満たす第1領域と第2領域を例示する。図8における座標(x、y)は、図7における座標と同様である。
Further, for example, the predetermined condition relates to a vertical arrangement of the first area and the second area that are in a correspondence relationship. The
ここで、第1領域が横方向に並ぶか否かの判定、及び、第2領域が横方向に並ぶか否かの判定は、上記第1領域と第2領域とが横方向に並ぶか否かの判定と同様である。また、第1領域と第2領域とが縦方向に並ぶか否かの判定は、上記第1領域が縦方向に並ぶか否かの判定、及び、上記第2領域が縦方向に並ぶか否かの判定と同様である。 Here, whether or not the first region is aligned in the horizontal direction and whether or not the second region is aligned in the horizontal direction are determined based on whether the first region and the second region are aligned in the horizontal direction. This is the same as the determination. Whether the first area and the second area are arranged in the vertical direction is determined by determining whether the first area is arranged in the vertical direction, and whether the second area is arranged in the vertical direction. This is the same as the determination.
例えば、閾値が5であるとすると、制御部12は、図8における、第1領域50aと第
2領域60aとが縦方向に並び、所定の条件を満たすと判定する。また、制御部12は、第1領域50bと第2領域60bとが縦方向に並び、所定の条件を満たすと判定する。更に、制御部12は、第1領域50cと第2領域60cとが縦方向に並び、所定の条件を満たすと判定する。すなわち、制御部12は、第1領域50aと第2領域60aとを対応付ける。また、制御部12は、第1領域50bと第2領域60bとを対応付ける。更に、制御部12は、第1領域50cと第2領域60cとを対応付ける。
For example, if the threshold value is 5, the
また、例えば、制御部12は、イメージデータ内に存在する、第1領域と第2領域の対応関係を示す所定の対応関係指示表現を認識する。そして、制御部12は、該認識した対応関係指示表現により示される対応関係に基づいて、第1領域と第2領域とを対応付ける。
For example, the
対応関係指示表現は、第1領域と第2領域の対応付けを示すものである。図9は、該対応関係指示表現を例示する。 The correspondence relationship instruction expression indicates the correspondence between the first area and the second area. FIG. 9 illustrates the correspondence relationship instruction expression.
例えば、対応関係指示表現は、図9により示される、矢印70である。例えば、制御部12は、イメージデータ内に存在する矢印70を認識する。そして、制御部12は、認識した矢印70から、該矢印70が指し示す方向についてのベクトル情報を取得する。更に、制御部12は、該取得したベクトル情報を用いて、該矢印70によって指示される第1領域50a及び第2領域60aを特定する。その結果、制御部12は、特定した第1領域50a及び第2領域60aを対応付ける。
For example, the correspondence relationship instruction expression is an
また、例えば、対応関係指示表現は、図9に示される、線分71である。例えば、制御部12は、イメージデータ内に存在する線分71を認識する。そして、制御部12は、線分71により繋げられている第1領域50b及び第2領域60bを特定する。その結果、制御部12は、特定した第1領域50b及び第2領域60bを対応付ける。
Further, for example, the correspondence relationship instruction expression is a
また、例えば、対応関係指示表現は、図9に示される、記号72a及び記号72bである。例えば、制御部12は、イメージデータ内に存在する同一の記号である記号72a及び記号72bを認識する。そして、制御部12は、同一の記号である記号72a及び記号72bが付されている第1領域50c及び第2領域60cを特定する。その結果、制御部12は、特定した第1領域50c及び第2領域60cを対応付ける。
Further, for example, the correspondence relationship instruction expression is a
制御部12は、これまでに例示した対応付けの方法により、ステップ102において認識した第1領域と、ステップ104において認識した第2領域とを対応付ける。なお、制御部12は、これまでに例示した対応付けの方法を複数組み合わせて、第1領域と第2領域とを対応付けてもよい。
The
<ステップ108>
次に、制御部12は、ステップ103において取得した位置情報と、ステップ106において取得した項目名とを含む項目定義情報を作成する。図10は、図4に示されるイメージデータに対して上記ステップ102〜107までの処理が実行された結果、当該ステップ108において生成される項目定義情報を例示する。
<Step 108>
Next, the
図10において示されるとおり、第1領域50aと第2領域60aとが対応付けられている。また、第1領域50bと第2領域60bとが対応付けられている。
As shown in FIG. 10, the
そして、第1領域50aのx座標(Left)、y座標(Top)、横軸の長さ(Width)、及び、縦軸の長さ(Height)は、それぞれ、120、80、320、及び、30である。第1領域50bのx座標、y座標、横軸の長さ、及び、縦軸の長さは、それぞれ、120、
120、320、及び、30である。また、第2領域60aのx座標、y座標、横軸の長さ、及び、縦軸の長さは、それぞれ、20、80、90、及び、30である。第2領域60bのx座標、y座標、横軸の長さ、及び、縦軸の長さは、それぞれ、20、120、90、及び、30である。
The x coordinate (Left), the y coordinate (Top), the length of the horizontal axis (Width), and the length of the vertical axis (Height) of the
120, 320, and 30. Further, the x coordinate, the y coordinate, the length of the horizontal axis, and the length of the vertical axis of the
図10は、このような第1領域50aと第2領域60a、及び、第1領域50bと第2領域60bから取得される項目定義情報を例示する。なお、図10において例示される項目定義情報における「項目名」フィールドは、第2領域から取得される文字情報を格納する。「Left」フィールドは、第1領域の左上端のx座標を格納する。「Top」フィールド
は、第1領域の左上端のy座標を格納する。「Width」フィールドは、第1領域の横軸の
長さを格納する。「Height」フィールドは、第1領域の縦軸の長さを格納する。
FIG. 10 exemplifies item definition information acquired from the
ここで、項目定義情報の行データ(レコード)は、対応関係にある第1領域と第2領域に係る情報を示す。つまり、項目定義情報のレコードは、文字認識の対象となる領域の位置情報と、当該領域についての項目名を含む。 Here, the row data (record) of the item definition information indicates information related to the first area and the second area that are in a correspondence relationship. That is, the record of the item definition information includes the position information of the area that is the object of character recognition and the item name for the area.
なお、OCRソフト等は、項目定義情報のレコードから、文字認識の対象となる領域の位置情報、及び、当該領域についての項目名を取得してもよい。つまり、項目定義情報は、OCRソフト等において、文字認識の対象となる領域に係る情報を特定するために用いられてもよい。 Note that the OCR software or the like may acquire the position information of the area to be character-recognized and the item name for the area from the record of the item definition information. That is, the item definition information may be used in OCR software or the like to specify information related to a region that is a character recognition target.
また、制御部12は、項目定義情報のレコードから得られる文字認識の対象となる領域に係る位置情報と項目名を、これらの情報を取得したイメージデータとともに、情報処理装置1に接続される表示装置に表示してもよい。
In addition, the
<エンド>
最後に、制御部12は、例えば、ステップ108において生成した項目定義情報を記憶部11に格納する。そして、情報処理装置1は、本動作例に係る処理を終了する。
<End>
Finally, the
<その他>
なお、制御部12による上記ステップ102及び104における第1領域及び第2領域の認識に係る処理は、領域認識部31の処理に相当する。
<Others>
Note that the processing related to the recognition of the first region and the second region in steps 102 and 104 by the
制御部12による上記ステップ103による位置情報取得に係る処理は、位置情報取得部32の処理に相当する。
The process related to the position information acquisition in step 103 performed by the
制御部12による上記ステップ106における項目名取得に係る処理は、項目名取得部33の処理に相当する。
The process related to the item name acquisition in step 106 by the
制御部12による上記ステップ107における対応付けに係る処理は、対応付け部34の処理に係る。
The process related to the association in step 107 by the
制御部12による上記ステップ108における項目定義情報の作成に係る処理は、項目定義情報作成部35の処理に係る。
The processing related to the creation of the item definition information in step 108 by the
§3 実施の形態に係る作用及び効果
以上によれば、本実施形態に係る情報処理装置1では、イメージデータ内における第1領域と第2領域が認識される(ステップ102及び104)。そして、第1領域からは、文字認識の対象となる領域を指定するための位置情報が取得される(ステップ103)。また、第2領域からは、該文字認識の対象となる領域についての項目名が取得される(ス
テップ106)。
§3 Actions and effects according to the embodiment As described above, the information processing apparatus 1 according to the present embodiment recognizes the first area and the second area in the image data (steps 102 and 104). Then, from the first area, position information for designating an area for character recognition is acquired (step 103). Further, the item name for the area that is the target of character recognition is acquired from the second area (step 106).
そのため、本実施形態に係る情報処理装置1によれば、ユーザは、取得された位置情報に係る文字認識の対象となる領域についての項目名を手入力により設定する必要がなくなる。したがって、本実施形態に係る情報処理装置1によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる。 Therefore, according to the information processing apparatus 1 according to the present embodiment, the user does not need to manually set an item name for an area that is a target of character recognition related to the acquired position information. Therefore, according to the information processing apparatus 1 according to the present embodiment, it is possible to improve the efficiency of creating definition information used for OCR software or the like.
また、本実施形態に係る情報処理装置1では、文字認識の対象となる領域を指定するための位置情報と、該文字認識の対象となる領域についての項目名との対応付けが行われる(ステップ107)。そのため、ユーザは、取得された位置情報と項目名との対応付けを行う必要がなくなる。したがって、本実施形態に係る情報処理装置1によれば、OCRソフト等に用いられる定義情報作成の効率化を図ることができる。 Further, in the information processing apparatus 1 according to the present embodiment, the position information for designating the area that is the target of character recognition is associated with the item name for the area that is the target of character recognition (step) 107). This eliminates the need for the user to associate the acquired position information with the item name. Therefore, according to the information processing apparatus 1 according to the present embodiment, it is possible to improve the efficiency of creating definition information used for OCR software or the like.
§4 補足
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎず、その範囲を限定しようとするものではない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。
§4 Supplement Although the embodiment of the present invention has been described in detail above, the above description is merely an example of the present invention in all respects and is not intended to limit the scope thereof. It goes without saying that various improvements and modifications can be made without departing from the scope of the present invention.
当業者は、上記本実施形態の記載から、特許請求の範囲の記載および技術常識に基づいて等価な範囲を実施することができる。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられる。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語および技術用語は、本発明の属する分野の当業者によって一般的に理解される意味と同じ意味を有する。両者が矛盾する場合、本明細書において使用される用語は、本明細書(定義を含めて)に記載された意味において理解される。 A person skilled in the art can implement an equivalent range from the description of the present embodiment based on the description of the claims and the common general technical knowledge. Moreover, the term used in this specification is used by the meaning normally used in the said field unless there is particular mention. Thus, unless defined otherwise, all technical and technical terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. In the event of a conflict, terms used herein will be understood in the meaning set forth herein (including definitions).
1 情報処理装置
2 スキャナ
11 記憶部
12 制御部
13 バス
14 入出力部
31 領域認識部
32 位置情報取得部
33 項目名取得部
34 対応付け部
35 項目定義情報作成部
50、50a、50b、50c 第1領域
60、60a、60b、60c 第2領域
70 対応関係指示表現(矢印)
71 対応関係指示表現(線分)
72a、72b 対応関係指示表現(記号)
DESCRIPTION OF SYMBOLS 1
71 Corresponding relationship instruction expression (line segment)
72a, 72b Corresponding relationship instruction expression (symbol)
Claims (10)
前記イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、前記領域認識部により認識された前記第1領域の位置情報を取得する位置情報取得部と、
前記領域認識部により認識された前記第2領域内に存在する文字を認識することで得られる文字情報を、前記位置情報取得部により取得された前記位置情報により指定される前記文字認識の対象となる領域についての項目名として取得する項目名取得部と、
を備えることを特徴とする情報処理装置。 For the area specified by the predetermined expression in the image data, the first area specified by the first area specifying expression and the second area specifying expression different from the first area specifying expression are designated. An area recognition unit for recognizing two areas;
In the image data, a position information acquisition unit that acquires position information of the first region recognized by the region recognition unit as position information for designating a region that is a target of character recognition;
Character information obtained by recognizing characters existing in the second area recognized by the area recognition unit is the character recognition target specified by the position information acquired by the position information acquisition unit. An item name acquisition unit to acquire as an item name for the area
An information processing apparatus comprising:
前記項目名取得部は、前記第2領域から得られた前記文字情報を、前記対応付け部により該第2領域に対応付けられた前記第1領域から取得された位置情報により指定される前記文字認識の対象となる領域についての項目名として取得することを特徴とする請求項1に記載の情報処理装置。 An association unit that associates the first area with the second area;
The item name acquisition unit is configured to specify the character information obtained from the second area by the position information acquired from the first area associated with the second area by the association unit. The information processing apparatus according to claim 1, wherein the information processing apparatus acquires an item name for an area to be recognized.
イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識するステップと、
前記イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、前記認識された第1領域の位置情報を取得するステップと、
前記認識された第2領域内に存在する文字を認識することで得られる文字情報を、前記取得された位置情報により指定される前記文字認識の対象となる領域についての項目名として取得するステップと、
を実行することを特徴とする情報処理方法。 Computer
For the area specified by the predetermined expression in the image data, the first area specified by the first area specifying expression and the second area specifying expression different from the first area specifying expression are designated. Recognizing two regions;
Obtaining position information of the recognized first region as position information for designating a region for character recognition in the image data;
Obtaining character information obtained by recognizing characters existing in the recognized second area as an item name for the area to be subjected to character recognition specified by the obtained position information; ,
The information processing method characterized by performing.
イメージデータ内において所定の表現によって指定された領域について、第1の領域指定表現により指定された第1領域と、前記第1の領域指定表現とは異なる第2の領域指定表現により指定された第2領域とを認識するステップと、
前記イメージデータ内において、文字認識の対象となる領域を指定するための位置情報として、前記認識された第1領域の位置情報を取得するステップと、
前記認識された第2領域内に存在する文字を認識することで得られる文字情報を、前記取得された位置情報により指定される前記文字認識の対象となる領域についての項目名として取得するステップと、
を実行させるためのプログラム。 On the computer,
For the area specified by the predetermined expression in the image data, the first area specified by the first area specifying expression and the second area specifying expression different from the first area specifying expression are designated. Recognizing two regions;
Obtaining position information of the recognized first region as position information for designating a region for character recognition in the image data;
Obtaining character information obtained by recognizing characters existing in the recognized second area as an item name for the area to be subjected to character recognition specified by the obtained position information; ,
A program for running
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011059362A JP2012194879A (en) | 2011-03-17 | 2011-03-17 | Information processing apparatus, information processing method and program |
CN2012100592429A CN102708365A (en) | 2011-03-17 | 2012-03-02 | Information processing apparatus to acquire character information |
US13/410,930 US20120237131A1 (en) | 2011-03-17 | 2012-03-02 | Information processing apparatus to acquire character information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011059362A JP2012194879A (en) | 2011-03-17 | 2011-03-17 | Information processing apparatus, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012194879A true JP2012194879A (en) | 2012-10-11 |
Family
ID=46828502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011059362A Withdrawn JP2012194879A (en) | 2011-03-17 | 2011-03-17 | Information processing apparatus, information processing method and program |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120237131A1 (en) |
JP (1) | JP2012194879A (en) |
CN (1) | CN102708365A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015138396A (en) * | 2014-01-22 | 2015-07-30 | 富士ゼロックス株式会社 | Image processor and image processing program |
CN112347831A (en) * | 2019-08-09 | 2021-02-09 | 株式会社日立制作所 | Information processing apparatus and table identification method |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6707825B2 (en) * | 2015-09-14 | 2020-06-10 | 富士ゼロックス株式会社 | Information processing device and program |
JP6903966B2 (en) * | 2017-03-16 | 2021-07-14 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment, information processing systems and programs |
CN112639816A (en) * | 2018-09-14 | 2021-04-09 | 三菱电机株式会社 | Image information processing apparatus, image information processing method, and image information processing program |
JP7263721B2 (en) * | 2018-09-25 | 2023-04-25 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
JP7211157B2 (en) * | 2019-02-27 | 2023-01-24 | 日本電信電話株式会社 | Information processing device, association method and association program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007279828A (en) * | 2006-04-03 | 2007-10-25 | Toshiba Corp | Business form processor, business form format preparation device, business form, program for processing business form and program for preparing business form format |
GB0622863D0 (en) * | 2006-11-16 | 2006-12-27 | Ibm | Automated generation of form definitions from hard-copy forms |
-
2011
- 2011-03-17 JP JP2011059362A patent/JP2012194879A/en not_active Withdrawn
-
2012
- 2012-03-02 US US13/410,930 patent/US20120237131A1/en not_active Abandoned
- 2012-03-02 CN CN2012100592429A patent/CN102708365A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015138396A (en) * | 2014-01-22 | 2015-07-30 | 富士ゼロックス株式会社 | Image processor and image processing program |
CN112347831A (en) * | 2019-08-09 | 2021-02-09 | 株式会社日立制作所 | Information processing apparatus and table identification method |
Also Published As
Publication number | Publication date |
---|---|
US20120237131A1 (en) | 2012-09-20 |
CN102708365A (en) | 2012-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012194879A (en) | Information processing apparatus, information processing method and program | |
JP6007497B2 (en) | Image projection apparatus, image projection control apparatus, and program | |
JP2018190398A (en) | Guide image capture user interface | |
KR100315318B1 (en) | Apparatus and method of bitmap image processing, storage medium storing an image processing program | |
JP2012203458A (en) | Image processor and program | |
JP2007279828A (en) | Business form processor, business form format preparation device, business form, program for processing business form and program for preparing business form format | |
JP5321109B2 (en) | Information processing apparatus and information processing program | |
JP2008192032A (en) | Document processing device, document processing method, and program | |
JP2021043775A (en) | Information processing device and program | |
WO2016170691A1 (en) | Input processing program, input processing device, input processing method, character identification program, character identification device, and character identification method | |
JP6222541B2 (en) | Image processing apparatus and program | |
JP2018055256A (en) | Information processing apparatus, information processing method, and program | |
JP2018137509A (en) | Image processing device, image reading device, and program | |
JP4830763B2 (en) | Image processing system and image processing program | |
JP2008269131A (en) | Image processor and image processing program | |
JP4357226B2 (en) | Form definition device, form definition method, and form definition program | |
JP4050677B2 (en) | Image processing apparatus, image processing method, program, and recording medium | |
JP5361315B2 (en) | Information processing apparatus and information processing method | |
JP7404943B2 (en) | Information processing device and information processing program | |
JP2003016385A (en) | Image processor, method, program and storage medium | |
JP2011197844A (en) | Difference detection system | |
JP2007179203A (en) | Slip retrieval device, slip retrieval method, program and computer-readable storage medium | |
JP2007221293A (en) | Image processing apparatus, image processing method and computer program | |
JP2007299321A (en) | Information processor, information processing method, information processing program and information storage medium | |
JP4241820B2 (en) | Character recognition method and character recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140603 |