JP6536542B2 - Information processing apparatus, control method, program - Google Patents
Information processing apparatus, control method, program Download PDFInfo
- Publication number
- JP6536542B2 JP6536542B2 JP2016224365A JP2016224365A JP6536542B2 JP 6536542 B2 JP6536542 B2 JP 6536542B2 JP 2016224365 A JP2016224365 A JP 2016224365A JP 2016224365 A JP2016224365 A JP 2016224365A JP 6536542 B2 JP6536542 B2 JP 6536542B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- character string
- document
- priority
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
Description
本発明は、文書画像の所望の箇所の値を容易に取得可能とする画像処理技術に関する。 BACKGROUND OF THE INVENTION Field of the Invention The present invention relates to an image processing technique capable of easily acquiring a value of a desired part of a document image.
従来、様々な画像処理技術が開示されている。その中で、報告書や伝票等の帳票をスキャナで取り込み、取り込んだデータからOCR(Optical Character Recognition;光学文字認識)技術を用いて必要な項目の値を認識し取得する方法が提案されている。 Conventionally, various image processing techniques are disclosed. Among them, a method has been proposed in which a form such as a report or slip is read by a scanner and the value of the necessary item is recognized and acquired from the read-in data using an OCR (Optical Character Recognition) technology. .
特許文献1には、認識する項目ごとの表示位置、辞書、重要度を設定し、重要度に従って当該項目の読み取りの優先順や読み飛ばし可否を判断することによって認識精度を向上させる方法が記載されている。
しかしながら、特許文献1に記載された方法は、項目ごとの表示位置が定められた定型帳票のみに適用できる方法であり、例えば各企業ごとに書式の異なる財務報告書等の場合、帳票の書式ごとに設定情報を作成する必要があり、非常に手間がかかる。
However, the method described in
また、値を取得すべき項目について帳票上での表示方法を見ると、項目名称のすぐ隣に値が表示されていたり、参照情報をはさんで値が表示されていたりと、表示形態は様々である。 In addition, when you look at the display method on the form for items for which values are to be acquired, the display format is various, such as that values are displayed immediately next to the item name or values are displayed across reference information. It is.
このような様々な書式を持つ帳票(文書)から、所望の項目が表示されている箇所を特定し当該項目の値を取得する方法が望まれている。 It is desirable to identify a portion where a desired item is displayed from a form (document) having various formats as described above and obtain a value of the item.
そこで、本発明の目的は、複数の書式の文書に対する項目値取得の設定が可能であり、複数の書式の文書から所望の項目の値を容易に取得できる仕組みを提供することである。
Therefore, an object of the present invention is to provide a mechanism capable of setting item value acquisition for documents of a plurality of formats, and easily acquiring values of desired items from documents of a plurality of formats .
本発明は、キー文字列と当該キー文字列に関連する文字列とが複数配置された文書において、前記文書から前記関連する文字列を取得する領域と前記文書内の前記キー文字列との位置関係を含む取得条件を記憶する取得条件記憶手段を備える情報処理装置であって、除外文字列を記憶する除外文字列記憶手段と、前記文書内の前記除外文字列から所定の方向に並び配置された文字列を含む領域である除外領域を特定する除外領域特定手段と、前記取得条件に適合する前記取得する領域のうち、前記除外領域を除いた領域を特定する特定手段と、前記特定手段で特定された領域から前記取得条件に適合する文字列を取得する取得手段とを備えることを特徴とする。 According to the present invention, in a document in which a plurality of key character strings and character strings related to the key character strings are arranged, positions of an area for acquiring the related character strings from the document and positions of the key character strings in the document An information processing apparatus including an acquisition condition storage unit that stores an acquisition condition including a relationship, which is arranged in a predetermined direction from the excluded character string in the document and an excluded character string storage unit that stores an excluded character string An exclusion area specifying unit that specifies an exclusion area that is an area including the character string; an identification unit that specifies an area excluding the exclusion area among the acquisition areas that conform to the acquisition condition ; And acquiring means for acquiring a character string meeting the acquisition condition from the identified area.
本発明によれば、複数の書式の文書に対する項目値取得の設定が可能であり、複数の書式の文書から所望の項目の値を容易に取得できる仕組みを提供可能となる。
According to the present invention, it is possible to set item value acquisition for documents of a plurality of formats, and it is possible to provide a mechanism capable of easily acquiring the value of a desired item from a document of a plurality of formats .
以下、本発明の実施形態を、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の実施形態に係る画像処理方法が適用された画像処理システムの構成例を示す図である。 FIG. 1 is a view showing a configuration example of an image processing system to which an image processing method according to an embodiment of the present invention is applied.
図1において、画像処理システムは、例えば、情報処理装置としてのパーソナルコンピュータ(PC)201と、画像読取装置としてのスキャナ202と、印刷装置としてのプリンタ203とを備え、これらがネットワーク204を介して互いに接続されている。
In FIG. 1, the image processing system includes, for example, a personal computer (PC) 201 as an information processing apparatus, a
スキャナ202は、紙文書を光学的に読み取って電子化し、その画像データをPC201に送ることができる。PC201は、受信した画像データに対して所定の画像処理を実行する。その際、オペレータがキーボードやマウス等を操作して処理結果の確認および修正を行うことができる。プリンタ203は、所定の画像処理が行われた画像データをPC201から受信して印刷を行う。
The
ネットワーク204は、インターネット、LANやWAN、電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれか、またはこれらの組み合わせにより実現される、いわゆる通信ネットワークであり、データの送受信が可能であればよい。
The
なお、本発明の実施形態に係る画像処理方法を図示の画像処理システムに適用した形態について説明するが、これに限定されず、スキャナやプリンタが一体的に構成された複合機に適用した形態であってもよい。また、PC201は、スキャナ202から入力された画像データに限らず、デジタルカメラ等で撮影された文書画像データに対して本発明の画像処理方法を実行してもよく、画像データの入力先や入力方法を限定するものではない。
Although the image processing method according to the embodiment of the present invention will be described as applied to the illustrated image processing system, the present invention is not limited to this, and is applied to a multifunction device in which a scanner and a printer are integrally configured. It may be. Further, the PC 201 may execute the image processing method of the present invention not only on image data input from the
図2は、図1のPC201の概略構成を示すブロック図である。
FIG. 2 is a block diagram showing a schematic configuration of the
PC201において、CPU101は、ROM102に格納されている制御プログラムに従って装置全体の制御を行う。ROM102は、CPU101が実行する後述する処理等の制御プログラムを含む各種プログラムや各種パラメータデータを格納する。RAM103は、記憶装置104からロードされたプログラムを一時的に記憶したり、エリア画像や各種データを記憶する。また、RAM103は、データの作業領域や一時待避領域として機能する。
In the PC 201, the CPU 101 controls the entire apparatus in accordance with a control program stored in the
記憶装置104は、例えば、ハードディスクやCD−ROM等で構成され、画像データを管理するデータベースを含む各種データを記憶する。ディスプレイ105は、例えば、LCDやCRTで構成される。入力装置106は、例えば、マウスやキーボード、ペンタブレット等で構成される。
The storage device 104 is configured by, for example, a hard disk, a CD-ROM, etc., and stores various data including a database for managing image data. The
ネットワークインターフェース(I/F)109は、ネットワーク204上に接続されている外部装置(スキャナ202やプリンタ203に限らず、不図示のサーバや外部記憶装置等)と通信し、プログラムやデータを読み込んだり、書き込んだりする。
A network interface (I / F) 109 communicates with an external device (not limited to the
図3は、図1の画像処理システムにて実行される画像処理の概略を示すフローチャートである。本処理は、PC201内の画像処理プログラムに基づいてCPU101により実行される処理である。なお、図3の詳細な処理を示すフローチャートは、図4を用いて説明する。 FIG. 3 is a flowchart showing an outline of image processing executed by the image processing system of FIG. The present process is a process executed by the CPU 101 based on an image processing program in the PC 201. A flowchart showing the detailed processing of FIG. 3 will be described with reference to FIG.
まず、ステップS301では、PC201は、スキャナ202を制御して紙文書の画像を読み取らせて、その画像データを取得する。次に、PC201は、画像に対してブロックセレクション処理を行って、画像から表、文字、絵や図、枠、線の各領域を抽出する。
First, in step S301, the PC 201 controls the
ブロックセレクション処理とは、図9のように読み取った一頁のイメージデータをオブジェクト毎の塊として認識し、該ブロック各々を文字/図画/写真/線/表等の属性に判定し、異なる属性を持つ領域に分割する処理である。 In block selection processing, the image data of one page read as shown in FIG. 9 is recognized as a block for each object, each block is judged as an attribute such as character / drawing / photograph / line / table, etc. It is processing to divide into the area to have.
具体的には、先ず、入力画像を白黒に二値化し、輪郭線追跡をおこなって黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡をおこない白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。 Specifically, first, the input image is binarized into black and white, outline tracking is performed, and a block of pixels surrounded by black pixel outlines is extracted. With regard to a block of large black pixels, outline tracking is performed on the white pixels inside to extract blocks of white pixels, and furthermore, from inside the block of white pixels having a certain area or more, the black pixels are recursively extracted. Extract the mass.
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つ領域へ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素塊を線領域、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意ブロックセレクション処理で得られた各ブロックに対するブロック情報を図5に示す。図5に示すブロック情報に対応する画像の例が図10である。なお、各ブロック情報は画面上で表示されないが、説明のために図10で各ブロックを示すものとする。 A block of black pixels obtained in this manner is classified by size and shape, and is classified into regions having different attributes. For example, if the aspect ratio is close to 1 and the size is within a certain range as a pixel block corresponding to characters, further adjacent characters can be aligned well grouped part character area, flat pixel block line area constant The area occupied by black pixel blocks larger than the size and including square white pixel blocks in an orderly arrangement is obtained by the table area, the area in which irregular pixel blocks are scattered is obtained by the photograph area, and other arbitrary block selection processing The block information for each block is shown in FIG. An example of an image corresponding to the block information shown in FIG. 5 is FIG. Although each block information is not displayed on the screen, each block is shown in FIG. 10 for the sake of explanation.
このブロックセレクション処理で得られたブロックのうち、テキスト属性(種別)を持つブロックを取得し、このブロックについて文字認識処理を行う。文字認識技術については既知の技術であるため説明を省略する。 Among the blocks obtained by the block selection process, a block having a text attribute (type) is obtained, and character recognition processing is performed on this block. The character recognition technology is a known technology and therefore the description thereof is omitted.
文字認識をした結果得られた文字列から、複数行にわたる領域かを判定し、複数行にわたる場合には、各行に分割して、領域として登録する。1行の場合にはそのままの領域として登録する。文字認識した場合に得られた領域(座標)も取得できるため、その座標を登録する。領域として登録されたデータの例が図6である。図5のブロック4が13個の領域として分割され、登録される。 From the character string obtained as a result of character recognition, it is determined whether it is an area extending over a plurality of lines, and in the case of extending over a plurality of lines, it is divided into each line and registered as an area. In the case of one line, it registers as an area as it is. Since the area (coordinates) obtained when characters are recognized can also be acquired, the coordinates are registered. An example of data registered as a region is FIG. Block 4 of FIG. 5 is divided into 13 areas and registered.
次に設定ファイル(図7)に設定された取得条件701に従って、値を取得する領域を特定する。この特定は、ブロックセレクションにより得られたブロックに対して文字認識処理を行い、行分割して、領域を登録する。この領域から、取得条件701のキー領域の検索文字列(例えば、HDLコレステロール)を基に、キー領域を検索して、このキー領域から、検索方向(例えば、横)を用いて、キー領域の横の領域を値取得領域として特定する。この時値フォーマット(例えば、数字、3ケタ)の条件に合わない場合は更に検索方向の隣の領域を値取得領域として特定する。 Next, according to the acquisition condition 701 set in the setting file (FIG. 7), the area for acquiring the value is specified. In this specification, character recognition processing is performed on a block obtained by block selection, line division is performed, and an area is registered. From this area, the key area is searched based on the search character string (for example, HDL cholesterol) of the key area of the acquisition condition 701, and from this key area, the search direction (for example, horizontal) is used to Identify the horizontal area as the value acquisition area. If the condition of the time value format (for example, numeral, three digits) is not met, the area next to the search direction is further specified as the value acquisition area.
この時、702のように設定ファイルの検索文字列をカンマ区切りで複数登録しておくと、1番目の検索文字列に合致する文字列が存在しない場合は2番目の検索文字列(例えば、トリグリセライド)を検索する。 At this time, if a plurality of search strings in the configuration file are registered separated by commas as in 702, the second search string (for example, a triglyceride) is found if there is no string matching the first search string. Search for).
また、703のように設定ファイルの検索方向をカンマ区切りで複数登録しておくと、1番目の検索方向に合致する値が存在しない場合は2番目の検索方向(例えば、下)を検索する。 In addition, if a plurality of search directions in the setting file are registered with comma separation as shown in 703, if there is no value matching the first search direction, the second search direction (for example, lower) is searched.
さらに、上記の検索方向に加えて、図8に示す除外列設定条件801および優先列設定条件803により、除外すべき列、優先すべき列を判断し、値を取得すべき領域を特定する。なお、本実施例では、除外列、優先列は、縦並びの一連の項目として説明しているが、帳票等の書式によっては横並びの一連の項目(除外行、優先行と呼んでもよい)としてもよい。
Furthermore, in addition to the search direction described above, the exclusion
除外列設定条件801は、設定された文字列802が表示されている列には、検査の基準値や前回の検査値など、今回の検査結果とは異なる情報が表示されていると判断される対象を設定する条件である。
In the excluded
優先列設定条件803は、設定された文字列804が表示されている列には、今回の検査結果が表示されていると判断される対象を設定する条件である。
The priority
そして、値取得領域として特定された領域に登録されている文字列(数字)を今回の検査結果として取得する。 Then, the character string (number) registered in the area specified as the value acquisition area is acquired as the present inspection result.
ステップS302では、PC201は、ステップS301にて取得した文字列(数字)を今回の検査結果としてディスプレイ105に表示する。ディスプレイへの表示例は、図12および図13であり、それぞれの画面については後述する。また、ユーザからの出力指示によりCSVファイル等に取得した値のデータ群をエクスポートして出力する。
In step S302, the
図4を用いて、ステップS301の値取得処理について説明する。 The value acquisition process of step S301 will be described with reference to FIG.
ステップS401では、PC201は、設定ファイルから取得条件701、除外列設定条件801、優先列設定条件803を読み込む。それぞれの条件はステップS301で説明した通りである。利用する設定ファイルは、ユーザが任意に選択して読み込んでもよい。
In step S401, the
ステップS402では、PC201は、スキャナから取り込まれた画像、或いは所定のフォルダに格納されている画像を読み込む。
In step S402, the
ステップS403では、PC201は、読み込まれた画像を用いて、ブロックセレクション処理を実行する。このブロックセレクションは、ブロックセレクションライブラリを用いて実行する。なお、ブロックセレクション処理については、ステップS301にて説明した通りである。また、ブロック情報は図5と同様である。さらに、ブロックセレクションライブラリで文字認識処理を実行してもよい。
In step S403, the
ステップS404では、PC201は、ブロックセレクションライブラリからテキスト種別、表種別を有するブロック情報を取得する。
In step S404, the
ステップS405では、PC201は、取得したブロックに対して、文字認識処理を行う。文字認識処理は既知の技術であり説明を省略するが、例えば、パターンマッチングを用いて、記入文字と文字のテンプレートを照合して、文字候補を抽出する技術がある。
In step S405, the
文字認識処理により、文字列(数字含む)と、その文字列の領域情報(座標)が取得できる。領域情報は、文字列を囲む枠を示す領域である。文字認識した結果は、ブロックごとにメモリで管理されるものとする。 The character recognition process can acquire a character string (including numbers) and area information (coordinates) of the character string. The area information is an area indicating a frame surrounding a character string. The result of character recognition shall be managed in memory for each block.
ステップS405では、すべてのブロックに対して、まず文字認識を実行し、ステップS406の処理へ移行するようにしているが、1ブロックごとに、文字認識を行い、S406の判定を行ってもよい。すなわち、すべてのブロックに対して文字認識を実行したあとに、ステップS406の判定を実行する手順に限定されるものではない。 In step S405, character recognition is first performed on all blocks, and the process proceeds to step S406. However, character recognition may be performed for each block and determination in S406 may be performed. That is, the present invention is not limited to the procedure of performing the determination in step S406 after character recognition is performed on all blocks.
ステップS406では、PC201は、すべてのブロックに対して、処理を実行したか否かを判定する。すべてのブロックに対して処理が行われていない場合、次に処理するブロックの文字列を取得するべくステップS407へ処理を移す。すべてのブロックに対して処理を実行した場合には、ステップS411へ処理を移す。
In step S406, the
ステップS407では、PC201は、処理対象のブロックの文字認識結果(文字列)をメモリから取得する。
In step S407, the
ステップS408では、PC201は、取得した文字列が複数行の文字列かを判定する。複数行の文字列を取得した場合はステップS410へ処理を移す。また、1行の文字列を取得した場合はステップS409へ処理を移す。
In step S408, the
ステップS409では、PC201は、文字認識結果をメモリに記憶する。文字認識結果は図6の文字認識領域情報に登録される。図6では、領域IDと、文字認識結果から得られる文字列と、文字列がある位置を示す領域情報(座標)を登録する。
In step S409, the
ステップS410では、PC201は、行ごとに領域を分割して、文字認識領域情報を生成し、登録する。図6の601に示す通り、ブロック4の文字列が、13個の領域に分けて登録される。なお、領域情報(座標)は、それぞれの行の文字列のある位置の座標が登録される。
In step S410, the
ステップS411では、PC201は、読み込まれた取得条件701のキー領域の検索文字列(図7参照)を取得して、文字認識領域情報を検索する。キー領域の検索文字列に従って、文字認識領域情報の文字列で一致する領域を特定する。これにより、一致した領域がキー検索領域となる。
In step S411, the
ステップS412では読み込まれた除外列設定条件801の検索文字列(図8参照)を取得して、文字認識領域情報を検索し、値が一致する領域を特定する。この時、値が一致した領域が表領域の場合は表中の自分自身が存在する列を「除外列」とする。
In step S412, a search character string (see FIG. 8) of the read exclusion
除外列設定条件801の検索文字列を複数登録している場合は全ての検索文字列に対して、上記を実施する。
When a plurality of search character strings of the exclusion
除外列の検索文字列と一致した個所が表形式でない場合は自分自身の文字列のX座標と同じ並びの領域を「除外列」として判断しても良い。また、除外列が横並びの場合はY座標で判断してもよい。 If the location matched with the search string in the exclusion string is not in tabular form, it is possible to judge an area in the same row as the X coordinate of its own character string as the “deletion string”. In addition, when the excluded column is in the horizontal alignment, it may be determined by the Y coordinate.
ステップS413では読み込まれた優先列設定条件803の検索文字列(図8参照)を取得して、文字認識領域情報を検索し、値が一致する領域を特定する。この時、値が一致した領域が表領域の場合は表中の自分自身が存在する列を「優先列」とする。
In step S413, a search character string (see FIG. 8) of the read priority
優先列設定条件803の検索文字列を複数登録している場合は全ての検索文字列に対して、上記を実施する。
When a plurality of search character strings of the priority
優先列の検索文字列と一致した個所が表形式でない場合は自分自身の文字列のX座標と同じ並びの領域を「優先列」として判断しても良い。また、優先列が横並びの場合はY座標で判断してもよい。 If the location that matches the search string in the priority column is not in tabular form, it may be determined as a "priority column" an area aligned with the X coordinate of its own character string. In addition, when the priority column is horizontally arranged, it may be determined by the Y coordinate.
ステップS414では、PC201は、キー領域と、取得条件701の検索方向(例えば、右)を取得して、キー領域から1つ右の領域を特定する。キー領域の座標を基に、文字認識領域情報(例えば、図6)を参照して右方向の座標を有する領域を検索し、特定する。この特定した領域が値取得領域となる。なお、右方向の座標を有する領域のうち、一番近い座標を持つ領域から順に1つ目の領域、2つ目の領域とする。キー領域が複数ある場合には、同様にそれぞれの条件に従い値の取得領域を特定する。
In step S414, the
上記にて値の取得領域を取得する際に、値の検索方向に「優先列」が存在する場合はその列(例えば、図11の1101)を優先的に値を取得する取得領域の候補とする。また「優先列」が複数存在する場合は、優先度順に値の取得領域の候補とする。 When acquiring a value acquiring area in the above, if there is a “priority column” in the value search direction, the column (for example, 1101 in FIG. 11) is used as a candidate for an acquiring area to preferentially acquire a value. Do. In addition, when there are a plurality of "preceding columns", they are considered as candidate areas for acquiring values in order of priority.
また、値の検索方向に「除外列」が存在する場合はその列(例えば、図11の1102)を値取得領域の対象外とする。 If there is an “excluded column” in the value search direction, the column (eg, 1102 in FIG. 11) is excluded from the value acquisition area.
例えば、図14に示す報告書例1401の場合、キー項目「HDLコレステロール」の値を取得する際に、基準値が表示された列1402は除外列を表す文字列を含まないため除外列とは判断されないが、文字列「今回」を含む列1403が優先列と判断され、列1402をスキップして、列1403の文字列「51」の領域を値の取得領域とする。
For example, in the case of the
また、図14に示す報告書例1411の場合、文字列「基準値」を含む列1412が除外列と判断され、検索方向で除外列にある文字列「40〜86」は対象から除外され、除外列をスキップした列1413の文字列「51」の領域を値の取得領域とする。なお、列1413は優先列を表す文字列を含まないため優先列とは判断されない。
Further, in the case of the
ステップS415では、PC201は、ステップS414で特定した値の取得領域から値を取得する。この時取得した文字列が読み込まれた取得条件701の値フォーマット(図7参照)と異なる場合は読み込まれた取得条件701の検索方向(図7参照)の次の文字列を取得する。これを値フォーマットに合致した文字列が取得できるか、同一の表の端まで繰り返す。
In step S415, the
ステップS416では、PC201は、値が取得できたか否かを判断し、値が取得できた場合はステップS418を実施する。値が取得できなかった場合はステップS417を実施する。
In step S416, the
ステップS417では、PC201は、読み込まれた取得条件701の検索方向(図7参照)に設定された全ての検索方向に対して値の取得を実施したか否かを判断し、実施した場合はステップS418を実施し、実施していない場合は検索方向を次の方向にしてステップS414を実施する。
In step S417, the
ステップS418では、PC201は、認識した全てのキー項目に対して値の取得を実施した場合はステップS419を実施し、値の取得が未実施のキー項目がある場合は値の取得処理(ステップS414〜ステップS417)を実施する。
In step S418, the
ステップS419では、値取得領域として特定された領域のうち、ステップS415で値を取得できなかったものについて、値を取得すべき領域であったどうかを判定する。判定した結果は、ステップS302にて結果を表示する際に反映させる。 In step S419, it is determined whether it is an area | region which should acquire a value about what was not able to acquire a value by step S415 among the area | regions specified as a value acquisition area. The determined result is reflected when displaying the result in step S302.
具体的処理を、画像として取り込んだ報告書等が表形式の場合について説明する。ステップS415にて、あるキー項目についてエラーとなり、当該キー項目に対して値が取得できなかった場合、値を取得しようとした領域に対して、同じ列に値が正常に取得できた他の値取得領域が存在する場合は「優先領域」と判定する。逆に同じ列に値が正常に取得できた他の値取得領域が存在しない場合は「非優先領域」と判定する。つまり、値が正常に取得できた値取得領域が存在する列については、取得すべき項目が並んだ列である可能性が高いため、同列でエラーとなった領域についても、値を取得すべき領域と判定している。
A specific process will be described in the case where a report etc. captured as an image is in tabular form. If an error occurs for a key item in
図13に判定結果の一例を示す。図13では、キー項目「ALT(GPT)」について、値取得領域として1302と1303の2ヶ所が特定され、いずれも値取得がエラーとなっている。値取得領域1302では、他のキー項目「AST(GOT)」などについて同列の値取得領域で値が正常に取得できているため、「優先領域」、つまり値を取得すべきキー領域と判定される。一方、値取得領域1303では、他のキー項目について同列で値を正常に取得できた値取得領域が存在しないため、「非優先領域」、つまり値を取得しなくてもよいキー領域と判定される。
FIG. 13 shows an example of the determination result. In FIG. 13, with respect to the key item “ALT (GPT)”, two
また、画像として取り込んだ報告書等が表形式でない場合は、エラーとなったキー領域のX座標と近いX座標を持つ領域に値の取得できた他のキー項目が存在する場合に「優先領域」、存在しない場合に「非優先領域」と判定してもよい。また、表形式の場合に列ではなく行で領域を特定してもよく、表形式でない場合にY座標で特定してもよい。 Also, if the report etc. captured as an image is not in tabular form, “Priority area” if there is another key item whose value could be acquired in an area having an X coordinate close to the X coordinate of the key area that resulted in an error. If there is none, it may be determined as a "non-priority area". Further, in the case of the table format, the area may be specified not by the column but by the row, and when not in the table format, it may be specified by the Y coordinate.
次に、ステップS302の値出力処理により表示される画面について説明する。 Next, the screen displayed by the value output process of step S302 will be described.
図12は、ステップS302により表示される画面の一例である認識結果画面1201の画面イメージである。
FIG. 12 is a screen image of a
認識結果画面1201は、左側に読み取った画像イメージ1202、右側に検査項目毎の認識結果一覧1203を表示する。
The
ステップS415で、キー領域が空欄の場合や、値フォーマットに合う文字列がない場合など、値が取得できない項目がある場合にはエラー項目として強調表示する(1204、1205)。認識結果に誤りがあった場合には、ユーザにより、修正入力エリアに修正値を入力させることが可能である(1206)。修正入力エリアに入力された場合には、入力値が登録される値となる。
If there is an item whose value can not be acquired, such as when the key area is blank or there is no character string that conforms to the value format in
また、優先列設定条件803および除外列設定条件801により特定される優先列、除外列を識別可能に表示してもよい。
Further, the priority column and the exclusion column specified by the priority
図13は、ステップS419による判定結果を反映させた画面の一例である認識結果画面1301の画面イメージである。
FIG. 13 is a screen image of a
値取得領域1302はステップS415にて値を取得できず、ステップS419にて「優先領域」と判定されたため、値取得領域1302と、値取得領域1302の認識結果1304が強調表示されている。
Since the
一方、値取得領域1303はステップS415にて値を取得できず、ステップS419にて「非優先領域」と判定されたため、値取得領域1303と、値取得領域1303の認識結果1305が、「優先領域」とは異なる形式で表示されている。
On the other hand, since the
また、認識結果画面1201および1301は、出力ボタンを備えており、認識結果と、ユーザによる値の修正があれば修正結果とをCSVファイルに出力する。なお、複数の画像が読み込まれた場合には、すべての画像に対して、値取得、確認を実行し、最後の画像に対して出力ボタンを押下すると、CSVファイルに一括して値を出力する。出力するファイルの形式は一例であり、限定されるものではない。
Also, the
上記により、複数の書式を持つ文書から所望の項目の値を容易に取得できるようになる。 By the above, it becomes possible to easily obtain the value of a desired item from a document having a plurality of formats.
以上、一実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。例えば、クラウド環境で実現する構成であってもよい。その場合、クラウド環境上のサーバで、設定ファイル作成ツールが実行される。 As mentioned above, although one Embodiment was shown, this invention can take the embodiment as a system, an apparatus, a method, a program, a recording medium etc., for example, and, specifically, it is comprised from a some apparatus The present invention may be applied to a single system or to an apparatus comprising a single device. For example, the configuration may be realized in a cloud environment. In that case, the configuration file creation tool is executed on the server on the cloud environment.
また、本発明におけるプログラムは、図3〜図4に示すフローチャートの処理方法をコンピュータが実行可能なプログラムである。なお、記憶媒体に図3〜図4の処理方法をコンピュータが実行可能なプログラムが記憶される構成であってもよい。なお、本発明におけるプログラムは図3〜図4の各装置の処理方法ごとのプログラムであってもよい。 Further, the program in the present invention is a program that can execute the processing method of the flowcharts shown in FIG. 3 to FIG. Note that the storage medium may be configured to store a program that allows a computer to execute the processing method of FIGS. 3 to 4. The program in the present invention may be a program for each processing method of each device in FIGS. 3 to 4.
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。 As described above, the recording medium recording the program for realizing the functions of the above-described embodiments is supplied to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the program stored in the recording medium. It goes without saying that the object of the present invention can be achieved also by reading and executing.
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。 In this case, the program itself read out from the recording medium realizes the novel function of the present invention, and the recording medium storing the program constitutes the present invention.
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。 As a recording medium for supplying the program, for example, a flexible disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, DVD-ROM, magnetic tape, non-volatile memory card, ROM, EEPROM, silicon Disks, solid state drives, etc. can be used.
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program read by the computer, not only the functions of the above-described embodiment are realized, but also an operating system (OS) or the like running on the computer is actually executed based on the instructions of the program. It goes without saying that the processing is partially or entirely performed, and the processing realizes the functions of the above-described embodiments.
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, after the program read from the recording medium is written to the memory provided to the function expansion board inserted into the computer or the function expansion unit connected to the computer, the function expansion board is read based on the instruction of the program code. It goes without saying that the case where the CPU or the like provided in the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiment are realized by the processing.
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 Further, the present invention may be applied to a system constituted by a plurality of devices or to an apparatus comprising a single device. It goes without saying that the present invention can also be applied to the case where it is achieved by supplying a program to a system or apparatus. In this case, by reading a recording medium storing a program for achieving the present invention into the system or apparatus, the system or apparatus can receive the effects of the present invention.
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 Further, by downloading and reading out a program for achieving the present invention from a server on a network, a database or the like by a communication program, the system or apparatus can receive the effects of the present invention.
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。 In addition, the structure which combined each embodiment mentioned above and its modification is also contained in this invention altogether.
101 CPU
102 RAM
104 記憶装置
201 PC
202 スキャナ
203 プリンタ
101 CPU
102 RAM
104
202
Claims (8)
除外文字列を記憶する除外文字列記憶手段と、
前記文書内の前記除外文字列から所定の方向に並び配置された文字列を含む領域である除外領域を特定する除外領域特定手段と、
前記取得条件に適合する前記取得する領域のうち、前記除外領域を除いた領域を特定する特定手段と、
前記特定手段で特定された領域から前記取得条件に適合する文字列を取得する取得手段と
を備えることを特徴とする情報処理装置。 In a document in which a plurality of key character strings and character strings related to the key character string are arranged, acquisition including a positional relationship between an area for acquiring the related character string from the document and the key character string in the document An information processing apparatus comprising acquisition condition storage means for storing conditions, comprising:
Exclusion string storage means for storing exclusion strings;
An exclusion area specifying unit for specifying an exclusion area which is an area including a character string arranged in a predetermined direction from the exclusion character string in the document;
An identification unit that identifies an area excluding the excluded area among the acquired areas that conform to the acquisition condition;
An acquisition unit configured to acquire a character string that conforms to the acquisition condition from the area identified by the identification unit.
前記文書内の前記優先文字列から所定の方向に並び配置された文字列を含む領域である優先領域を特定する優先領域特定手段と、
を備え、
前記特定手段は、前記取得条件に適合する前記取得する領域のうち、前記優先領域に含まれる領域を特定することを特徴とする請求項1に記載の情報処理装置。 Priority string storage means for storing a priority string;
Priority area specifying means for specifying a priority area which is an area including character strings arranged in a predetermined direction from the priority character string in the document;
Equipped with
The information processing apparatus according to claim 1, wherein the specifying unit specifies an area included in the priority area among the areas to be acquired that conform to the acquisition condition.
優先文字列を記憶する優先文字列記憶手段と、
前記文書内の前記優先文字列から所定の方向に並び配置された文字列を含む領域である優先領域を特定する優先領域特定手段と、
前記取得条件に適合する前記取得する領域のうち、前記優先領域に含まれる領域を特定する特定手段と、
前記特定手段で特定された領域から前記取得条件に適合する文字列を取得する取得手段と
を備えることを特徴とする情報処理装置。 In a document in which a plurality of key character strings and character strings related to the key character string are arranged, acquisition including a positional relationship between an area for acquiring the related character string from the document and the key character string in the document An information processing apparatus comprising acquisition condition storage means for storing conditions, comprising:
Priority string storage means for storing a priority string;
Priority area specifying means for specifying a priority area which is an area including character strings arranged in a predetermined direction from the priority character string in the document;
An identification unit that identifies an area included in the priority area among the acquisition areas that conform to the acquisition condition;
An acquisition unit configured to acquire a character string that conforms to the acquisition condition from the area identified by the identification unit.
除外領域特定手段が、前記文書内の前記除外文字列から所定の方向に並び配置された文字列を含む領域である除外領域を特定する除外領域特定ステップと、
特定手段が、前記取得条件に適合する前記取得する領域のうち、前記除外領域を除いた領域を特定する特定ステップと、
取得手段が、前記特定手段で特定された領域から前記取得条件に適合する文字列を取得する取得ステップと
を備えることを特徴とする情報処理装置の制御方法。 In a document in which a plurality of key character strings and character strings related to the key character string are arranged, acquisition including a positional relationship between an area for acquiring the related character string from the document and the key character string in the document A control method of an information processing apparatus, comprising: acquisition condition storage means for storing conditions; and exclusion character string storage means for storing exclusion character strings,
An exclusion area identification step of identifying an exclusion area which is an area including a character string arranged in a predetermined direction from the exclusion character string in the document;
A specifying step of specifying a region excluding the excluded region among the regions to be acquired that conform to the acquisition condition;
A control method of an information processing apparatus, comprising: an acquisition step of acquiring a character string that meets the acquisition condition from the area specified by the specification unit.
特定手段が、前記優先文字列情報により特定される領域を優先して、前記キー文字列と前記位置条件とに基づいて文字列を取得可能な領域を特定する特定ステップと、
取得手段が、前記文書内の前記特定された領域から前記関連する文字列を取得する取得ステップと
を備えることを特徴とする情報処理装置の制御方法。 In a document in which a plurality of key character strings and character strings related to the key character string are arranged, a position indicating a positional relationship between an area for acquiring the related character string from the document and the key character string in the document A control method of an information processing apparatus, comprising: acquisition condition storage means for storing conditions; and priority character string storage means for storing priority character string information,
An identification step of identifying an area capable of acquiring a character string based on the key character string and the position condition, prioritizing an area specified by the priority character string information;
A control method of an information processing apparatus, comprising: an acquisition step of acquiring the related character string from the specified area in the document.
A program for causing an information processing apparatus to function as each unit according to any one of claims 1 to 5.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016224365A JP6536542B2 (en) | 2016-11-17 | 2016-11-17 | Information processing apparatus, control method, program |
JP2019105777A JP6931168B2 (en) | 2016-11-17 | 2019-06-06 | Information processing device, control method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016224365A JP6536542B2 (en) | 2016-11-17 | 2016-11-17 | Information processing apparatus, control method, program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019105777A Division JP6931168B2 (en) | 2016-11-17 | 2019-06-06 | Information processing device, control method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018081578A JP2018081578A (en) | 2018-05-24 |
JP6536542B2 true JP6536542B2 (en) | 2019-07-03 |
Family
ID=62197802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016224365A Active JP6536542B2 (en) | 2016-11-17 | 2016-11-17 | Information processing apparatus, control method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6536542B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62169283A (en) * | 1986-01-22 | 1987-07-25 | Nec Corp | Character string extraction system |
JP3394694B2 (en) * | 1997-08-29 | 2003-04-07 | 沖電気工業株式会社 | Format information registration method and OCR system |
JPH11110479A (en) * | 1997-10-02 | 1999-04-23 | Canon Inc | Method and device for processing characters and storage medium |
JP2003223610A (en) * | 2002-01-28 | 2003-08-08 | Toshiba Corp | Character recognizing device and character recognizing method |
JP2007026263A (en) * | 2005-07-20 | 2007-02-01 | Sharp Corp | Character recognition device and computer program |
-
2016
- 2016-11-17 JP JP2016224365A patent/JP6536542B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018081578A (en) | 2018-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4533273B2 (en) | Image processing apparatus, image processing method, and program | |
JP6826293B2 (en) | Information information system and its processing method and program | |
US20210227083A1 (en) | Image processing system that computerizes document, control method thereof, and storage medium | |
JP2007279828A (en) | Business form processor, business form format preparation device, business form, program for processing business form and program for preparing business form format | |
US11153446B2 (en) | Information processing apparatus for presenting an object for a batch operation without selection in advance and non-transitory computer readable medium | |
US20230206672A1 (en) | Image processing apparatus, control method of image processing apparatus, and storage medium | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP6931168B2 (en) | Information processing device, control method, program | |
JP2010102502A (en) | Image processing device, image processing method, and program | |
JP2018055256A (en) | Information processing apparatus, information processing method, and program | |
JP6947971B2 (en) | Information processing device, control method, program | |
JP6536542B2 (en) | Information processing apparatus, control method, program | |
JP2009031937A (en) | Form image processing apparatus and form image processing program | |
JP6481204B2 (en) | Information processing apparatus, processing method thereof, and program | |
US11163992B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP4518212B2 (en) | Image processing apparatus and program | |
JP6700705B2 (en) | Distribution system, information processing method, and program | |
JP6795770B2 (en) | Information processing device and its processing method and program | |
US11380032B2 (en) | Image information processing apparatus, method and non-transitory computer readable medium storing program | |
JP2006252455A (en) | File management device, file management method and file management program | |
US9912834B2 (en) | Document camera device and cutout assistance method | |
US10109091B2 (en) | Image display apparatus, image display method, and storage medium | |
JP2015114806A (en) | Image processor and program | |
US20220383023A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
US8768060B2 (en) | Image processing apparatus, image processing method and computer-readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20180703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181002 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20181031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190108 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190520 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6536542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |