JP2011248609A - Form recognition device and form recognition method - Google Patents
Form recognition device and form recognition method Download PDFInfo
- Publication number
- JP2011248609A JP2011248609A JP2010120751A JP2010120751A JP2011248609A JP 2011248609 A JP2011248609 A JP 2011248609A JP 2010120751 A JP2010120751 A JP 2010120751A JP 2010120751 A JP2010120751 A JP 2010120751A JP 2011248609 A JP2011248609 A JP 2011248609A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- likelihood
- item
- item name
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
Abstract
Description
本発明は、帳票認識装置および帳票認識方法に係り、特に帳票画像上に記載される文字列の属性の理解と文字列認識の技術に関する。 The present invention relates to a form recognition device and a form recognition method, and more particularly, to a technique for understanding attributes of a character string described on a form image and character string recognition.
従来の帳票認識装置は、あらかじめ読取対象文字列の帳票画像上での記載位置とその属性をユーザが事前に装置に登録しておく「帳票定義」により、読取対象文字列の読取および当該文字列の属性の理解を行っていた。 A conventional form recognition apparatus reads a character string to be read and the character string by “form definition” in which the user registers in advance the position and attribute of the character string to be read on the form image in advance. Had to understand the attributes.
帳票処理業務において、処理する帳票のレイアウト、すなわち文字列の記載位置や枠の記載位置、枠の並びが統一されており、帳票画像における読取対象文字列の記載位置が固定である場合には、前記の帳票定義を事前に装置に登録することで読取対象文字列の位置検出および該文字列の属性の理解を行っていた。一方で、多種レイアウトが混在する帳票処理業務や、処理する帳票のレイアウトが未知である帳票処理業務が存在する。多種レイアウトとは、図2に示す帳票例200,201のように、読取対象文字列の記載位置が帳票ごとに異なることである。図2の例は、帳票画像内から「振込先口座番号」「納入金額」「納入期限日付」を読み取る例であるが、それぞれ記載位置が異なるため、帳票ごとに帳票定義を作成する必要がある。業務によっては帳票レイアウトの種類が数万種類に及ぶ場合もあり、帳票定義による認識は、帳票定義の作成コストが膨大になり利用できなかった。 In the form processing business, when the layout of the form to be processed, that is, the description position of the character string, the description position of the frame, and the arrangement of the frames are unified, and the description position of the character string to be read in the form image is fixed, The position of the character string to be read is detected and the attributes of the character string are understood by registering the form definition in the apparatus in advance. On the other hand, there is a form processing operation in which various layouts are mixed and a form processing operation in which the layout of the form to be processed is unknown. The various layouts mean that the description position of the character string to be read differs for each form as in the form examples 200 and 201 shown in FIG. The example of FIG. 2 is an example of reading the “transfer account number”, “delivery amount”, and “delivery date” from the form image. However, since the description positions are different, it is necessary to create a form definition for each form. . Depending on the business, there may be several tens of thousands of forms layout types, and the recognition by the form definition cannot be used due to the enormous cost of creating the form definition.
多種レイアウト帳票を帳票定義を用いずに認識する技術として、例えば特許文献1に開示の技術のように、帳票画像内の文字列と、項目名辞書に登録された項目名単語とを照合し、項目名単語照合に成功した文字列を項目名、項目名単語照合に失敗した文字列を項目値(特許文献1では「データ」と表現している)候補と判定し、項目名と項目値候補の配置関係から、項目名と項目値の対応関係を決定し、項目名辞書に登録された項目名の属性から、対応する項目値の属性を判定する方式がある。
As a technique for recognizing various layout forms without using a form definition, for example, as in the technique disclosed in
また、特許文献2の方式では、帳票を論理的に構成する論理要素(項目名や項目値)からなる論理構造を、論理要素となる文字列と当該文字列の出現頻度および論理要素間の相対位置に関する頻度によって定義した辞書を帳票種ごとに作成し、帳票画像内の文字列と辞書内の論理構造を照合することにより、帳票画像内の文字列が論理構造内の論理要素である確率により、帳票画像内から読取対象の文字列を読み取る。
Further, in the method of
特許文献1では、帳票画像のノイズや低画質などの悪影響により、文字列認識誤りが発生した場合に、項目名単語照合において照合誤りが発生し、帳票画像内の文字列が正しい項目名であるにもかかわらず、項目名でないと判定されることがある。さらに、特許文献1の方式では、項目名と判定された文字列と項目値候補と判定された文字列の配置関係から、項目名−項目値対応関係を決定するため、項目名となる文字列の判定を誤ると、その誤りが項目名−項目値対応関係の判定誤りに直結してしまう。また、1つの項目名に対し、配置関係上対応付けられる項目値候補が複数存在する場合に、項目名−項目値関係の対応付け誤りが発生する恐れがある。
In
また、特許文献2の方式では、帳票種ごとに、論理構造辞書内の論理要素の出現頻度や論理要素間の相対位置の頻度を定義するため、辞書の作成コストが膨大になってしまう。また、論理構造辞書と整合性のとれないレイアウトの帳票の場合、正しい認識結果が得られず、汎用性が低下する。
Further, in the method of
本発明は、このような問題に鑑みてなされたものである。
すなわち、本発明は、項目名照合の前段階の処理である文字列認識処理において、文字列認識誤りが発生した場合にも、帳票画像内から正しく項目名−項目値関係を抽出する帳票認識方式を提供することを第1の課題とする。
また、本発明は、項目名−項目値関係の配置関係に曖昧性がある場合、つまり1つの項目名に対し、配置関係上対応付けられる項目値候補が複数存在する場合にも、対応付け誤りを少なく、項目名−項目値関係を抽出する帳票認識方式を提供することを第2の課題とする。
また、本発明は、辞書の作成コストを極力少なくかつ様々なレイアウトの帳票に対しても、汎用性高く認識できる帳票認識方式を提供することを第3の課題とする。
The present invention has been made in view of such problems.
That is, the present invention provides a form recognition method for correctly extracting an item name-item value relationship from a form image even when a character string recognition error occurs in a character string recognition process, which is a process prior to item name matching. It is a first problem to provide the above.
In addition, the present invention provides a correspondence error even when the arrangement relationship of the item name-item value relationship is ambiguous, that is, when there are a plurality of item value candidates associated with the arrangement relationship for one item name. A second problem is to provide a form recognition method for extracting the item name-item value relationship.
It is a third object of the present invention to provide a form recognition method that can recognize a document with high versatility even for forms having various layouts with a minimal dictionary creation cost.
上記課題を解決するために、本発明の帳票認識装置は、帳票画像を入力し、当該帳票画像内の文字列の認識処理を行う帳票認識装置であって、前記帳票画像から文字列領域を検出する文字列検出部と、前記文字列領域の個々の文字を認識する文字列認識部と、帳票画像内の文字列に対し、当該文字列が項目名である確率を表す項目名尤度を計算する項目名尤度計算部と、帳票画像内の文字列に対し、当該文字列が項目値である確率を表す項目値尤度を計算する項目値尤度計算部と、帳票画像内の文字列ペアに対し、当該文字列ペアの配置関係が項目名−項目値関係として妥当であるかを表す配置尤度を計算する配置尤度計算部と、前記項目名尤度、項目値尤度、配置尤度を基に、当該文字列ペアの項目名−項目値としての尤もらしさを表す評価値を計算する項目名−項目値関係評価値計算部と、前記項目名−項目値関係評価値計算部の出力する前記評価値により、帳票画像内での項目名−項目値関係の対応付けを決定する項目名−項目値関係決定部を有することを特徴とするものである。 In order to solve the above-described problem, the form recognition apparatus of the present invention is a form recognition apparatus for inputting a form image and performing recognition processing of a character string in the form image, and detecting a character string region from the form image. A character string detection unit that recognizes individual characters in the character string region, and a character string recognition unit that calculates the probability that the character string is an item name for the character string in the form image The item name likelihood calculating unit, the item value likelihood calculating unit for calculating the item value likelihood representing the probability that the character string is the item value for the character string in the form image, and the character string in the form image For a pair, an arrangement likelihood calculating unit that calculates an arrangement likelihood indicating whether the arrangement relation of the character string pair is valid as an item name-item value relationship, and the item name likelihood, item value likelihood, arrangement Based on the likelihood, the character string pair's item name-an evaluation representing the likelihood as the item value. The item name-item value relationship evaluation value calculation unit for calculating the value and the evaluation value output from the item name-item value relationship evaluation value calculation unit associates the item name-item value relationship in the form image. It has an item name-item value relationship determination unit to be determined.
また、本発明の帳票認識装置において、前記配置尤度計算部は、前記文字列ペアの項目名文字列と項目値文字列の枠の配置関係やサイズ、または文字列矩形の配置関係やサイズの項目名−項目値関係の非妥当さを表すルールであるペナルティルールに基づき、前記配置尤度を計算するものである。 Further, in the form recognition apparatus of the present invention, the placement likelihood calculation unit is configured such that the placement relationship or size of the frame of the item name character string and the item value character string of the character string pair, or the placement relationship or size of the character string rectangle. The placement likelihood is calculated based on a penalty rule that is a rule representing the invalidity of the item name-item value relationship.
また、本発明の帳票認識装置において、前記項目名尤度計算部は、項目名単語を記載した項目名辞書との照合により、前記文字列に対し前記項目名尤度を計算し、前記項目値尤度計算部は、項目値単語や文字列の文法表記ルールを記載した表記辞書との照合により、前記文字列に対し前記項目値尤度を計算するものである。 In the form recognition device of the present invention, the item name likelihood calculating unit calculates the item name likelihood for the character string by collating with an item name dictionary describing item name words, and the item value The likelihood calculating unit calculates the item value likelihood for the character string by collating it with a notation dictionary describing grammar notation rules for item value words and character strings.
本発明により、多種レイアウトの帳票が混在する帳票処理業務において、厳密な帳票定義なしに帳票を認識することができる。また、文字認識誤りに頑健に、ならびに項目名−項目値関係に曖昧性のある帳票を誤りが少なく認識することができる。 According to the present invention, a form can be recognized without a strict form definition in a form processing operation in which forms of various layouts are mixed. Further, it is possible to recognize a form that is robust against a character recognition error and has an ambiguous item name-item value relationship with few errors.
以下、本発明の実施の形態を説明する。なお、これにより本発明が限定されるものではない。具体的な処理の内容を説明する前に、本発明の概略について説明する。 Embodiments of the present invention will be described below. Note that the present invention is not limited thereby. The outline of the present invention will be described before describing the details of specific processing.
本発明は、多種レイアウトが混在する帳票群を、読取対象文字列の記載位置および当該文字列の属性を事前に登録する帳票定義なしに、読取対象文字列の読取および当該文字列の属性の判定を行うものである。このためには、項目値とそれに対応する項目名のペアを帳票画像内から抽出することが必要である。本実施例では、帳票画像内の全文字列に対し、当該文字列が項目名である確率を表す項目名尤度、項目値である確率を表す項目値尤度を計算し、帳票画像内の全文字列ペアに対し、当該文字列ペアをなす2つの文字列の配置関係が項目名−項目値関係として妥当であるかを表した配置尤度を計算する。さらに、項目名尤度と項目値尤度と配置尤度を基に計算した項目名−項目値関係評価値の値を基に、帳票画像内の項目名−項目値関係の対応付けを決定する。 The present invention reads a character string to be read and determines the attribute of the character string without a form definition for registering in advance the description position of the character string to be read and the attribute of the character string. Is to do. For this purpose, it is necessary to extract pairs of item values and corresponding item names from the form image. In this embodiment, for all the character strings in the form image, the item name likelihood indicating the probability that the character string is the item name and the item value likelihood indicating the probability that the character string is the item value are calculated. For all character string pairs, an arrangement likelihood representing whether the arrangement relationship between the two character strings forming the character string pair is valid as the item name-item value relationship is calculated. Further, the association between the item name-item value relationship in the form image is determined based on the value of the item name-item value relationship evaluation value calculated based on the item name likelihood, the item value likelihood, and the placement likelihood. .
具体的には、以下の順序により、帳票画像内の項目名−項目値関係の対応付けを決定する。
(1)ユーザが事前に登録した項目名のリストである項目名辞書内の項目名単語と、帳票画像内の文字列とを照合し、項目名辞書内の全ての項目名単語と、帳票画像内の全ての文字列の組み合わせに対して、項目名尤度を計算する。
(2)例えば、日付、金額、口座番号などの汎用的に利用できる文法表記ルールによって定義される表記辞書と、帳票画像内の文字列とを照合し、全ての表記辞書と、帳票画像内の全ての文字列の組み合わせに対して、項目値尤度を計算する。
(3)2つの文字列の配置関係が項目名−項目値関係として非妥当な配置関係となるルールを記載したペナルティルールと、帳票画像内の2つの文字列の組み合わせからなる全ての文字列ペアの配置関係を参照し、帳票画像内の全ての文字列ペアに対して、配置尤度を計算する。
(4)項目名尤度、項目値尤度、配置尤度を基に、帳票画像内の全ての文字列ペアに対して、当該文字列ペアが項目名−項目値関係にあるかを表す評価値を計算し、前記評価値を基に帳票画像内から項目名−項目値関係を抽出する。
なお、(1)(2)(3)はそれぞれ独立に処理されるため、順序は上記の順に依らない。
Specifically, the association of the item name-item value relationship in the form image is determined in the following order.
(1) The item name word in the item name dictionary, which is a list of item names registered in advance by the user, is matched with the character string in the form image, and all the item name words in the item name dictionary and the form image The item name likelihood is calculated for all combinations of character strings.
(2) For example, a notation dictionary defined by general-purpose grammar notation rules such as date, amount, and account number is collated with a character string in a form image. Item value likelihood is calculated for all combinations of character strings.
(3) A penalty rule describing a rule in which the arrangement relationship between two character strings is an invalid arrangement relationship as an item name-item value relationship, and all character string pairs composed of two character strings in the form image The placement likelihood is calculated for all the character string pairs in the form image.
(4) Based on the item name likelihood, the item value likelihood, and the placement likelihood, an evaluation indicating whether the character string pair has an item name-item value relationship with respect to all the character string pairs in the form image. A value is calculated, and an item name-item value relationship is extracted from the form image based on the evaluation value.
Since (1), (2), and (3) are processed independently, the order does not depend on the above order.
以下、本発明の一実施例になる帳票認識装置および帳票認識方法について、図面を用いて詳細に説明する。 Hereinafter, a form recognition apparatus and a form recognition method according to an embodiment of the present invention will be described in detail with reference to the drawings.
図3は、本発明の帳票認識装置のハードウェア構成例である。本実施例の帳票認識装置は、命令コマンドやデータなどを入力するための入力装置301、認識対象の帳票を入力する画像入力装置302、文字列の検出や文字列認識、項目名−項目値関係の解析を行う帳票認識部300、文字認識辞書や項目名単語辞書を格納する認識辞書303、帳票画像の認識結果を表示する表示装置304を備える。帳票認識部300と、入力装置301、画像入力装置302、認識辞書303、表示装置304は、物理的な接続手段に依らず、ネットワークなどを介して接続されてもよい。
FIG. 3 is a hardware configuration example of the form recognition apparatus of the present invention. The form recognition apparatus according to the present embodiment includes an
図4に、帳票認識部300の詳細なブロック構成図を示す。帳票認識部300は、文字列検出部420、文字列認識部430、項目名尤度計算部440、項目値尤度計算部450、配置尤度計算部460、項目名−項目値関係評価値計算部470、項目名−項目値関係決定部480などから構成されている。
FIG. 4 shows a detailed block diagram of the
ここで、文字列検出部420は、帳票画像から文字列領域を検出するものである。文字列認識部430は、文字列領域の個々の文字を認識するものである。項目名尤度計算部440は、帳票画像内の文字列に対し、当該文字列が項目名辞書に登録された単語である確率を表す項目名尤度を計算するものである。項目値尤度計算部450は、帳票画像内の文字列に対し、当該文字列が表記辞書に登録された単語や、金額、日付、口座番号などの文法ルールに一致する確率である項目値尤度を計算するものである。配置尤度計算部460は、帳票画像内の文字列ペアに対し、当該文字列ペアの配置関係の項目名−項目値関係としての妥当さである配置尤度を計算するものである。項目名−項目値関係評価値計算部470は、前記項目名尤度、項目値尤度、配置尤度を基に、当該文字列ペアの項目名−項目値としての尤もらしさを表す評価値を計算するものである。項目名−項目値関係決定部480は、前記項目名−項目値関係評価値計算部の出力する評価値により、帳票画像内での項目名−項目値関係を決定するものである。
Here, the character
図1に、帳票認識部300における帳票認識の処理フロー図を示す。まず、ステップS110において、入力された帳票画像から枠を検出する。次に、ステップS120において、文字列検出部420で、帳票画像から文字列領域を検出する。文字列領域とは、ある1つの文字列を含む矩形領域である。ステップS110およびS120の具体例として、例えば、特開平11−53466号公報に開示の技術のように、帳票画像から罫線を抽出し、2本の罫線の交点と端点を抽出し、矩形枠の四隅に相当する右上角、左上角、右下角、左下角を検出することにより、帳票画像内から枠を検出する方式を利用することができる。ステップS130では、文字列認識部430において、ステップS120において検出された文字列領域の個々の文字を文字認識辞書131を用いて認識する。ステップS130の具体例として、例えば、非特許文献:F.Kimura et. al. “Modified quadratic discriminant functions and the application to chinese character recognition” IEEE Transaction on Pattern Analysis and Machine Intelligence、 vol.9、 pp.149-153 に開示の技術のように、ベイズの定理から導かれる距離尺度である識別関数を文字カテゴリごとに定め、識別関数の出力する値に基づいて、未知の文字を文字カテゴリに分類することで、個々の文字を認識する方式などがある。
FIG. 1 shows a process flow diagram of form recognition in the
ステップS140では、項目名尤度計算部440で、ステップS130において認識された各文字列の文字列認識結果ごとに、項目名辞書141と照合し、当該文字列が項目名辞書141に登録された単語である確率を表す項目名尤度を計算する。また、ステップS150では、項目値尤度計算部450で、ステップS130において認識された各文字列の文字列認識結果ごとに、表記辞書151と照合し、当該文字列が表記辞書151に記載された単語や文字列の文法表記ルールに一致する確率を表す項目値尤度を計算する。ステップS140、ステップS150の処理は、後に詳細に説明する。
In step S140, the item name
ステップS160では、配置尤度計算部460で、ステップS110において検出された枠の座標およびステップS120において検出された文字列領域の座標を基に、帳票画像内の文字列ペアをなす2つの文字列の配置関係の項目名−項目値関係としての妥当さを表す配置尤度を計算する。配置尤度は、2つの文字列が属する枠のサイズおよび配置関係や、2つの文字列矩形のサイズおよび配置関係を基に計算する。ステップS160の処理は、後に詳細に説明する。
In step S160, two character strings forming a character string pair in the form image based on the coordinates of the frame detected in step S110 and the coordinates of the character string region detected in step S120 by the placement
ステップS170では、項目名−項目値関係評価値計算部470で、ステップS140において計算された項目名尤度、ステップS150において計算された項目値尤度、ステップS160において計算された配置尤度を基に、各尤度の数値から2つの文字列の項目名−項目値関係の評価値を計算する。評価値の計算には、例えば、項目名尤度、項目値尤度、配置尤度を代入することで評価値を出力する評価関数を用いる方法などがある。また、項目名尤度、項目値尤度、配置尤度が全て事前に定義したある閾値を超える場合に評価値を1(フラグを立てる)にする方法などがある。ステップS170の処理は、後に詳細に説明する。
In step S170, the item name-item value relation evaluation
ステップS180では、項目名−項目値関係決定部480において、ステップS170で計算された評価値を基に、帳票画像内での項目名−項目値関係を決定する。例えば、評価値がある閾値以上となる文字列ペアを項目名−項目値関係と決定するなどがある。また、同一属性の項目名−項目値関係候補のうち、最大の評価値を持つ文字列ペアを項目名−項目値関係と決定するなどがある。項目名−項目値関係を決定することにより、文字列の認識結果および該文字列の属性が決定される。
In step S180, the item name-item value
図1において、ステップS140、ステップS150、ステップS160はそれぞれ独立に並列に計算する。なお、ステップS110の後段にステップS120、ステップS120の後段にステップS130、ステップS130の後段にステップS140とS150、ステップS120の後段にステップS160、ステップS140とS150とS160の後段にステップS170、ステップS170の後段にステップS180が処理される構成であれば、処理フローは図1の形式に依らない。 In FIG. 1, step S140, step S150, and step S160 are independently calculated in parallel. Note that step S120 is subsequent to step S110, step S130 is subsequent to step S120, steps S140 and S150 are subsequent to step S130, steps S160 are subsequent to step S120, and steps S170 and S170 are subsequent to steps S140, S150, and S160. If step S180 is processed in the subsequent stage, the processing flow does not depend on the format of FIG.
以下、図1のステップS140の項目名尤度計算の処理フロー、ステップS150の項目値尤度計算の処理フロー、ステップS160の配置尤度計算の処理フロー、およびステップS170の項目名−項目値関係評価値計算の計算例について詳細に説明する。 Hereinafter, the processing flow of the item name likelihood calculation in step S140 in FIG. 1, the processing flow of the item value likelihood calculation in step S150, the processing flow of the placement likelihood calculation in step S160, and the item name-item value relationship in step S170. A calculation example of evaluation value calculation will be described in detail.
まず、ステップS140の項目名尤度計算の処理フローについて、図5と図6と図7を用いて説明する。
図5は項目名辞書の例、図6は項目名尤度計算のフローチャート、図7は項目名尤度テーブルの例である。図6のステップS1401では、帳票画像内の項目名尤度を計算していない文字列の有無を判定する。残り文字列がない場合は、項目名尤度計算処理を終了する。ステップS1402では、当該文字列に対して、照合を行っていない項目名単語の有無を判定する。ステップS1403では、帳票画像内の文字列と項目名辞書内の項目名の照合を行い、項目名尤度を計算する。ステップS1403における単語照合の具体例としては、例えば、特開2004−171316号公報に開示の技術を利用することができる。また、項目名尤度の計算方法として、例えば、図1のステップS130における文字列認識結果が各個別文字の文字識別尤度を有し、単語照合により求まった文字列パスの各個別文字の文字識別尤度の平均値を項目名尤度とする方法が利用できる。また、これに依らず、個別文字の識別尤度、個別文字への切出し尤度、個別文字矩形のサイズおよびアスペクト比等を基に項目名尤度を計算する方式であってもよい。ステップS1404では、ステップS1403で得られた項目名尤度が最大のものを図7の項目名尤度テーブルに記録する。図5の項目名辞書を用いて、図15の帳票画像内の文字列に対して項目名尤度を計算する場合、項目名尤度テーブルの例は図6のようになる。図7の項目名尤度テーブルの場合、帳票画像内のN個(本実施例の場合N=3)の文字列に対し、全ての項目名単語との照合を行い、項目名尤度を計算する。
First, the processing flow of the item name likelihood calculation in step S140 will be described using FIG. 5, FIG. 6, and FIG.
FIG. 5 is an example of an item name dictionary, FIG. 6 is a flowchart of item name likelihood calculation, and FIG. 7 is an example of an item name likelihood table. In step S1401 of FIG. 6, it is determined whether or not there is a character string for which the item name likelihood is not calculated in the form image. If there is no remaining character string, the item name likelihood calculation process is terminated. In step S1402, it is determined whether or not there is an item name word that has not been collated with respect to the character string. In step S1403, the character string in the form image is compared with the item name in the item name dictionary, and the item name likelihood is calculated. As a specific example of word collation in step S1403, for example, the technique disclosed in Japanese Patent Application Laid-Open No. 2004-171316 can be used. In addition, as a method for calculating the item name likelihood, for example, the character string recognition result in step S130 of FIG. 1 has the character identification likelihood of each individual character, and the character of each individual character in the character string path obtained by word matching A method of using the average value of the identification likelihood as the item name likelihood can be used. In addition, the item name likelihood may be calculated based on the identification likelihood of individual characters, the likelihood of extraction into individual characters, the size and aspect ratio of the individual character rectangle, and the like. In step S1404, the item with the maximum item name likelihood obtained in step S1403 is recorded in the item name likelihood table of FIG. When the item name likelihood is calculated for the character string in the form image of FIG. 15 using the item name dictionary of FIG. 5, an example of the item name likelihood table is as shown in FIG. In the case of the item name likelihood table of FIG. 7, N item strings in the form image (N = 3 in this embodiment) are collated with all item name words, and the item name likelihood is calculated. To do.
次に、図1のステップS150の項目値尤度計算の処理フローについて、図8と図9と図10を用いて説明する。基本的な概念は前記の項目名尤度計算と同じである。
図9のステップS1501では、帳票画像内に項目値尤度の計算を行っていない文字列があるか判定する。残り文字列がなければ、項目値尤度計算処理を終了する。ステップS1502では、当該文字列に対し、照合を行っていない表記辞書があるか否かを判定する。残り辞書がなければ、帳票画像内の次の文字列の項目値尤度計算に移行する。ステップS1503では、帳票画像内の文字列と表記辞書との照合を行い、項目値尤度を計算する。ステップS1503における単語照合の具体的な実施例としては、例えば、非特許文献:高橋他、「回帰的遷移ネットワークを用いた文字経路探索方式の開発」、電子情報通信学会技術研究報告 Vol.109 No.418 pp.141-146、に開示の技術のように、個別文字の識別候補をノードと見立てた識別候補文字ネットワークと状態遷移ネットワークで表現した表記辞書のマッチングにより、状態遷移ネットワークから最適な文字列パスを選択し、文字列認識結果を得る方法がある。項目値尤度の計算例として、前述の項目名尤度と同様に、個別文字の識別尤度、個別文字への切出し尤度、個別文字矩形のサイズおよびアスペクト比等を基に項目名尤度を計算する方式がある。ステップS1504では、ステップS1503で得られた項目値尤度が最大のものを、項目値尤度テーブルに登録する。以上のステップS1503、S1504の処理を全ての帳票画像内の文字列と表記辞書の組み合わせに対して行う(ステップS1505、S1506)。表記辞書の例として、例えば、図8の801に示すような文字列の表記ルールの正規表現、802に示す単語ネットワーク、803に示す項目値単語リストなどがある。図8の表記辞書801を用いて、図15の帳票画像内の文字列に対して項目値尤度を計算する場合、項目値尤度テーブルは図10のようになる。
Next, the processing flow of the item value likelihood calculation in step S150 of FIG. 1 will be described using FIG. 8, FIG. 9, and FIG. The basic concept is the same as the item name likelihood calculation described above.
In step S1501 of FIG. 9, it is determined whether there is a character string for which the item value likelihood is not calculated in the form image. If there is no remaining character string, the item value likelihood calculation process is terminated. In step S1502, it is determined whether or not there is a notation dictionary that is not collated for the character string. If there is no remaining dictionary, the process proceeds to the item value likelihood calculation of the next character string in the form image. In step S1503, the character string in the form image is compared with the notation dictionary, and the item value likelihood is calculated. Specific examples of word matching in step S1503 include, for example, non-patent literature: Takahashi et al., “Development of a character path search method using a recursive transition network”, IEICE Technical Report Vol.109 No. As in the technology disclosed in .418 pp.141-146, the optimal character from the state transition network is matched by matching the identification candidate character network in which individual character identification candidates are regarded as nodes and the notation dictionary expressed by the state transition network. There is a method of obtaining a character string recognition result by selecting a column path. As an example of item value likelihood calculation, the item name likelihood is based on the identification likelihood of individual characters, the likelihood of extraction into individual characters, the size and aspect ratio of individual character rectangles, etc. There is a method to calculate In step S1504, the item value likelihood obtained in step S1503 is registered in the item value likelihood table. The processes in steps S1503 and S1504 described above are performed on combinations of character strings and notation dictionaries in all form images (steps S1505 and S1506). Examples of the notation dictionary include a regular expression of a character string notation rule as indicated by 801 in FIG. 8, a word network indicated by 802, an item value word list indicated by 803, and the like. When the item value likelihood is calculated for the character string in the form image of FIG. 15 using the
次に、図1のステップS160の配置尤度計算の処理フローについて、図11と図12を用いて説明する。図11のステップS1701では、配置尤度を計算していない帳票画像内の文字列ペアの有無を判定する。残り文字列ペアがなければ配置尤度計算処理を終了する。ステップS1702では、配置尤度の初期化を行う。本方式では、例えば配置尤度は、配置尤度が取り得る値の最大値で初期化し、文字列ペアをなす2つの文字列の配置関係が項目名−項目値関係として非妥当であると判断できる配置パターンをペナルティルールとして定義し、初期値からペナルティルールによって得られたペナルティ値を減算した値として計算する方法がある。そのため、ステップS1702では、配置尤度の初期値を配置尤度が取り得る値の最大値と設定する。ステップS1704では、2つの文字列の配置関係が参照しているペナルティルールに該当するか否かを判断する。該当した場合、ステップS1705で、ペナルティ値を計算し、現在の配置尤度から減算する。以上、ステップS1703、ステップS1704、ステップS1705をペナルティルールの数だけ繰り返し、当該文字列ペアの配置尤度を計算する。以上の処理を帳票画像内の全文字列ペアに対して実行する。 Next, the processing flow of the placement likelihood calculation in step S160 of FIG. 1 will be described using FIG. 11 and FIG. In step S1701 of FIG. 11, the presence / absence of a character string pair in the form image for which the placement likelihood is not calculated is determined. If there are no remaining character string pairs, the placement likelihood calculation process is terminated. In step S1702, the placement likelihood is initialized. In this method, for example, the placement likelihood is initialized with the maximum value that the placement likelihood can take, and the placement relationship between the two character strings forming the character string pair is determined to be invalid as the item name-item value relationship. There is a method of defining a possible arrangement pattern as a penalty rule, and calculating as a value obtained by subtracting a penalty value obtained by the penalty rule from an initial value. Therefore, in step S1702, the initial value of the placement likelihood is set as the maximum value that the placement likelihood can take. In step S1704, it is determined whether the arrangement relationship between the two character strings corresponds to the penalty rule referred to. If applicable, in step S1705, a penalty value is calculated and subtracted from the current placement likelihood. As described above, step S1703, step S1704, and step S1705 are repeated by the number of penalty rules, and the arrangement likelihood of the character string pair is calculated. The above processing is executed for all character string pairs in the form image.
ペナルティルールの例を図12に示す。ペナルティルールは2つの文字列の属する枠の配置関係やサイズ、2つの文字列矩形の配置関係やサイズを基に計算する。例えば、ルール1101の場合、2つの文字列が相互に隣接する枠内に存在する場合に、項目名となる文字列の中心座標が、枠の中心座標からずれがある場合に、ずれの距離に応じてペナルティを付加する。これは、本来2つの文字列が項目名−項目値関係にある場合には、項目名となる文字列は枠の中心付近に存在するといった仮定によるものである。ルール1102の場合、項目名となる文字列の属する枠の高さが、項目値となる文字列の属する枠の高さよりも大きい場合に、枠高さの比率に応じてペナルティを付加する。これは、本来は、項目名の属する枠の高さより、項目値の属する枠高さが大きいといった仮定に基づくものである。ルール1103の場合、2つの文字列が同一枠に存在する場合に、項目名となる文字列よりも、項目値となる文字列が左もしくは上に存在する場合に、左もしくは上方向へのはみ出し距離に応じてペナルティを付加する。これは、本来、2つの文字列が項目名−項目値関係にある場合には、項目名となる文字列の右下方向に項目値が存在するといった仮定に基づくものである。ルール1104の場合、2つの文字列が帳票画像内のいずれの枠にも属さず、枠の外かつ相互に近くに存在する場合に、項目名となる文字列の高さと、項目値となる文字列の高さが異なる場合に、文字列高さの比率に応じて、ペナルティを付加する。これは、本来は、項目名と項目値の文字列の高さは互いにほぼ等しいという仮定に基づくものである。ルール1105は、項目名となる文字列と、項目値となる文字列の距離が離れている場合に、2つの文字列の距離に応じてペナルティを付加する。これは、2つの文字列が項目名−項目値関係にある場合には、2つの文字列は相互に近くにあるといった仮定に基づくものである。ルール1106は、項目名となる文字列より、項目値となる文字列が左上方向に存在する場合に、そのずれの距離に応じてペナルティを付加するものである。これは、本来は、項目名の右下方向に項目値が存在するといった仮定に基づくものである。
An example of the penalty rule is shown in FIG. The penalty rule is calculated based on the arrangement relation and size of the frame to which the two character strings belong, and the arrangement relation and size of the two character string rectangles. For example, in the case of the
以上のように、ペナルティルールは、2つの文字列が項目名−項目値関係にある場合の尤もらしい配置関係を仮定し、その仮定から外れる配置関係に2つの文字列が配置される場合に、ペナルティが付加されるように生成される。なお、ペナルティルールは図12に示した1101から1106に限定されるものではなく、2つの文字列の属する枠の配置関係やサイズ、2つの文字列矩形の配置関係やサイズなどから計算されるものであり、2つの文字列が項目名−項目値関係にある場合に尤もらしい配置関係を仮定し、その仮定から外れる場合に付加される計算方法であれば、これに依らない。 As described above, the penalty rule assumes a plausible arrangement relationship when two character strings are in the item name-item value relationship, and when two character strings are arranged in an arrangement relationship that deviates from the assumption, Generated to add a penalty. The penalty rule is not limited to 1101 to 1106 shown in FIG. 12, but is calculated from the layout relationship and size of the frames to which the two character strings belong, the layout relationship and size of the two character string rectangles, etc. Assuming a plausible arrangement relationship when the two character strings are in the item name-item value relationship, the calculation method added when the two character strings deviate from the assumption does not depend on this.
図12のペナルティルールを用いて、図15の帳票画像内の文字列ペアに対して配置尤度を計算する場合、配置尤度テーブルは図13のようになる。例えば、項目名文字列番号「1」−項目値文字列番号「2」の文字列ペアの場合、図12の1101から1106のペナルティルールのいずれにも該当しないため、配置尤度は初期値として定めた「1.00」となる。また、項目名文字列番号「1」−項目値文字列番号「3」の文字列ペアの場合、図12のペナルティルール1101に該当するため、ペナルティルール1101にて計算されたペナルティが初期値から減算され、配置尤度は「0.90」となる。
When the placement likelihood is calculated for the character string pair in the form image of FIG. 15 using the penalty rule of FIG. 12, the placement likelihood table is as shown in FIG. For example, in the case of the character string pair of item name character string number “1” −item value character string number “2”, it does not correspond to any of the
次に、図1のステップS170の項目名−項目値関係評価値計算の処理フローについて、図14を用いて説明する。項目名−項目値関係評価値は、例えば、項目名尤度、項目値尤度、配置尤度を入力とする評価関数によって計算する。LLを項目名尤度、VLを項目値尤度、ALを配置尤度としたときに、評価関数E(LL、 VL、 AL)の例として、例えば式(1)、式(2)、式(3)に示すものがある。 Next, the processing flow of the item name-item value relationship evaluation value calculation in step S170 of FIG. 1 will be described with reference to FIG. The item name-item value relationship evaluation value is calculated by, for example, an evaluation function that receives item name likelihood, item value likelihood, and placement likelihood. As an example of the evaluation function E (LL, VL, AL) where LL is the item name likelihood, VL is the item value likelihood, and AL is the placement likelihood, for example, Equation (1), Equation (2), Equation There is what is shown in (3).
E(LL、 VL、 AL) = (LL + VL) × AL ・・・(1)
E(LL、 VL、 AL) = LL + VL + AL ・・・(2)
E(LL、 VL、 AL) = √(LL × VL) × AL ・・・(3)
なお、評価関数は上記(1)(2)(3)に限るものではなく、項目名尤度、項目値尤度、配置尤度の値から、2つの文字列が項目名−項目値関係にある確からしさを算出できる形式であれば、これに限らない。
E (LL, VL, AL) = (LL + VL) x AL (1)
E (LL, VL, AL) = LL + VL + AL (2)
E (LL, VL, AL) = √ (LL × VL) × AL (3)
The evaluation function is not limited to the above (1), (2), and (3), and the two character strings have an item name-item value relationship based on the item name likelihood, the item value likelihood, and the placement likelihood value. Any format that can calculate certain certainty is not limited to this.
図7の項目名尤度テーブル、図10の項目値尤度テーブル、図13の配置尤度テーブルが得られた場合、上記式(1)により求めた図15の帳票画像に対する項目名−項目値評価値テーブルは、図14のようになる。項目名−項目値関係評価値は、図5の項目名辞書、図8の表記辞書において、事前に定義した属性ごとに計算し、項目名−項目値評価値テーブルに登録する。本実施例では、項目名尤度、項目値尤度、配置尤度のいずれかが「0.00」となる場合は、項目名−項目値評価値の計算は行わない。例えば、項目名文字列番号「1」、項目値文字列番号「2」の場合は、属性ID「002」に対し、E(LL、 VL、 AL) = (0.25+0.85)×1.00=1.10、属性ID「003」に対し、E(LL、 VL、 AL) = (0.28+0.20)×1.00=0.48となる。項目名文字列番号「1」、項目値文字列番号「3」の場合は、属性ID「003」に対して、E(LL、 VL、 AL) = (0.28+0.92)×0.90=1.08となる。上記のような評価関数による項目名−項目値評価値計算を帳票画像内の全文字列ペアに対して行い、項目名−項目値評価値テーブルに登録する。図15の帳票画像に対する項目名−項目値関係の候補は、項目名文字列番号「1」と項目値文字列番号「2」の「納付額」−「17,420」および、項目名文字列番号「1」と項目値文字列番号「3」の「納期限」−「21.11.13」となる。この場合、両候補において項目名文字列番号「1」が重複するため、評価値の高い文字列ペアが選択され(図1のステップ180)、最終的な項目名−項目値関係抽出結果は、項目名文字列番号「1」と項目値文字列番号「2」の「納付額」−「17,420」(属性ID:002)となる。
When the item name likelihood table of FIG. 7, the item value likelihood table of FIG. 10, and the placement likelihood table of FIG. 13 are obtained, the item name-item value for the form image of FIG. 15 obtained by the above equation (1). The evaluation value table is as shown in FIG. The item name-item value relationship evaluation value is calculated for each predefined attribute in the item name dictionary of FIG. 5 and the notation dictionary of FIG. 8, and is registered in the item name-item value evaluation value table. In this embodiment, when any of the item name likelihood, the item value likelihood, and the placement likelihood is “0.00”, the item name-item value evaluation value is not calculated. For example, in the case of the item name character string number “1” and the item value character string number “2”, E (LL, VL, AL) = (0.25 + 0.85) × 1.00 = 1.10 for the attribute ID “002”. For the attribute ID “003”, E (LL, VL, AL) = (0.28 + 0.20) × 1.00 = 0.48. In the case of the item name character string number “1” and the item value character string number “3”, E (LL, VL, AL) = (0.28 + 0.92) × 0.90 = 1.08 for the attribute ID “003”. . The item name-item value evaluation value calculation by the evaluation function as described above is performed for all character string pairs in the form image and registered in the item name-item value evaluation value table. The item name-item value relationship candidates for the form image in FIG. 15 are “payment amount”-“17,420” of the item name character string number “1” and the item value character string number “2”, and the item name character string number “ “1” and item value character string number “3” are “delivery date” − “21.11.13”. In this case, since the item name character string number “1” is duplicated in both candidates, a character string pair having a high evaluation value is selected (
以上述べた通り、本発明によれば、帳票画像内の文字列の項目名らしさの項目名尤度、項目値らしさの項目値尤度を全文字列に対して計算し、帳票画像内の文字列ペアの配置関係の項目名−項目値らしさの配置尤度を全文字列ペアに対して計算し、項目名尤度、項目値尤度、配置尤度に基づいて計算される項目名−項目値関係評価値によって、帳票画像内の項目名−項目値関係を抽出する帳票認識方式により、文字認識誤りに頑健に、項目名−項目値関係の配置関係の曖昧性のある非表形式レイアウト帳票を誤り少なく認識することができる。また、項目名尤度、項目値尤度、配置尤度をそれぞれ独立に計算するモジュール構成により、少ない定義で汎用性の高い帳票認識方式を提供することができる。 As described above, according to the present invention, the item name likelihood of the item name likelihood of the character string in the form image and the item value likelihood of the item value likelihood are calculated for all character strings, and the character in the form image is calculated. Item name-item that is calculated based on the item name likelihood, item value likelihood, and arrangement likelihood. A non-tabular layout form that is robust against character recognition errors and has an ambiguous layout relation of the item name-item value relation by the form recognition method that extracts the item name-item value relation in the form image by the value relation evaluation value Can be recognized with few errors. In addition, the module configuration for independently calculating the item name likelihood, the item value likelihood, and the placement likelihood can provide a highly versatile form recognition method with a small number of definitions.
131・・・文字認識辞書、141・・・項目名辞書、151・・・表記辞書、200,201・・・帳票例、300・・・帳票認識部、301・・・入力装置、302・・・画像入力装置、303・・・認識辞書、304・・・表示装置、420・・・文字列検出部、430・・・文字列認識部、440・・・項目名尤度計算部、450・・・項目値尤度計算部、460・・・配置尤度計算部、470・・・項目名−項目値関係評価値計算部、480・・・項目名−項目値関係決定部、801・・・文字列の表記ルールの正規表現、802・・・単語ネットワーク、803・・・項目値単語リスト、1101〜1106・・・ペナルティルール。
131 ... Character recognition dictionary, 141 ... Item name dictionary, 151 ... Notation dictionary, 200, 201 ... Form example, 300 ... Form recognition unit, 301 ... Input device, 302 ...
Claims (6)
前記帳票画像から文字列領域を検出する文字列検出部と、
前記文字列領域の個々の文字を認識する文字列認識部と、
帳票画像内の文字列に対し、当該文字列が項目名である確率を表す項目名尤度を計算する項目名尤度計算部と、
帳票画像内の文字列に対し、当該文字列が項目値である確率を表す項目値尤度を計算する項目値尤度計算部と、
帳票画像内の文字列ペアに対し、当該文字列ペアの配置関係が項目名−項目値関係として妥当であるかを表す配置尤度を計算する配置尤度計算部と、
前記項目名尤度、項目値尤度、配置尤度を基に、当該文字列ペアの項目名−項目値としての尤もらしさを表す評価値を計算する項目名−項目値関係評価値計算部と、
前記項目名−項目値関係評価値計算部の出力する前記評価値により、帳票画像内での項目名−項目値関係の対応付けを決定する項目名−項目値関係決定部を有することを特徴とする帳票認識装置。 A form recognition device that inputs a form image and performs recognition processing of a character string in the form image,
A character string detection unit for detecting a character string region from the form image;
A character string recognition unit for recognizing individual characters in the character string region;
An item name likelihood calculating unit that calculates an item name likelihood representing the probability that the character string is an item name for the character string in the form image;
An item value likelihood calculating unit that calculates an item value likelihood representing the probability that the character string is an item value for the character string in the form image;
An arrangement likelihood calculating unit for calculating an arrangement likelihood indicating whether the arrangement relation of the character string pair is valid as the item name-item value relation for the character string pair in the form image;
An item name-item value relation evaluation value calculation unit for calculating an evaluation value representing the likelihood as the item name-item value of the character string pair based on the item name likelihood, the item value likelihood, and the placement likelihood; ,
An item name-item value relationship determining unit that determines an association of an item name-item value relationship in a form image based on the evaluation value output from the item name-item value relationship evaluation value calculation unit, Form recognition device to do.
前記配置尤度計算部は、前記文字列ペアの項目名文字列と項目値文字列の枠の配置関係やサイズ、または文字列矩形の配置関係やサイズの項目名−項目値関係の非妥当さを表すルールであるペナルティルールに基づき、前記配置尤度を計算することを特徴とする帳票認識装置。 The form recognition device according to claim 1,
The placement likelihood calculation unit determines whether the item name character string and the item value character string of the character string pair are arranged in relation to the size or size of the character string rectangle, or the relationship between the character string rectangle and the item name-item value relationship of the size. A form recognizing device, wherein the placement likelihood is calculated based on a penalty rule which represents a rule.
前記項目名尤度計算部は、項目名単語を記載した項目名辞書との照合により、前記文字列に対し前記項目名尤度を計算し、
前記項目値尤度計算部は、項目値単語や文字列の文法表記ルールを記載した表記辞書との照合により、前記文字列に対し前記項目値尤度を計算することを特徴とする帳票認識装置。 The form recognition device according to claim 1,
The item name likelihood calculating unit calculates the item name likelihood for the character string by collating with an item name dictionary describing item name words,
The item value likelihood calculating unit calculates the item value likelihood for the character string by collating with a notation dictionary describing grammar notation rules for item value words and character strings. .
前記帳票画像から文字列領域を検出する文字列検出ステップと、
前記文字列領域の個々の文字を認識する文字列認識ステップと、
帳票画像内の文字列に対し、当該文字列が項目名である確率を表す項目名尤度を計算する項目名尤度計算ステップと、
帳票画像内の文字列に対し、当該文字列が項目値である確率を表す項目値尤度を計算する項目値尤度計算ステップと、
帳票画像内の文字列ペアに対し、当該文字列ペアの配置関係が項目名−項目値関係として妥当であるかを表す配置尤度を計算する配置尤度計算ステップと、
前記項目名尤度、項目値尤度、配置尤度を基に、当該文字列ペアの項目名−項目値としての尤もらしさを表す評価値を計算する項目名−項目値関係評価値計算ステップと、
前記項目名−項目値関係評価値計算ステップの出力する前記評価値により、帳票画像内での項目名−項目値関係の対応付けを決定する項目名−項目値関係決定ステップを有することを特徴とする帳票認識方法。 A form recognition method for inputting a form image and recognizing a character string in the form image,
A character string detection step for detecting a character string region from the form image;
A character string recognition step for recognizing individual characters in the character string region;
An item name likelihood calculating step for calculating an item name likelihood representing the probability that the character string is an item name for the character string in the form image;
An item value likelihood calculating step for calculating an item value likelihood representing a probability that the character string is an item value for the character string in the form image;
An arrangement likelihood calculating step for calculating an arrangement likelihood indicating whether the arrangement relation of the character string pair is valid as an item name-item value relation for the character string pair in the form image;
An item name-item value relationship evaluation value calculating step for calculating an evaluation value representing the likelihood as the item name-item value of the character string pair based on the item name likelihood, the item value likelihood, and the placement likelihood; and ,
The item name-item value relationship evaluation value calculating step includes an item name-item value relationship determining step for determining an association between the item name-item value relationship in the form image based on the evaluation value output from the item name-item value relationship evaluation value calculating step. Form recognition method.
前記配置尤度計算ステップは、前記文字列ペアの項目名文字列とデータ文字列の枠の配置関係やサイズ、または文字列矩形の配置関係やサイズの項目名−項目値関係の非妥当さを表すルールであるペナルティルールに基づき、前記配置尤度を計算することを特徴とする帳票認識方法。 The form recognition method according to claim 4,
In the placement likelihood calculation step, the invalidity of the layout relation and size of the frame of the item name character string and the data character string of the character string pair, or the relation of the character string rectangle and the item name-item value relation of the size. A form recognition method, wherein the placement likelihood is calculated based on a penalty rule which is a rule to be expressed.
前記項目名尤度計算ステップは、項目名単語を記載した項目名辞書との照合により、前記文字列に対し前記項目名尤度を計算するものであり、
前記項目値尤度計算ステップは、項目値単語や文字列の文法のルールを記載した表記辞書との照合により、前記文字列対し前記項目値尤度を計算することを特徴とする帳票認識方法。 The form recognition method according to claim 4,
The item name likelihood calculating step calculates the item name likelihood for the character string by matching with an item name dictionary describing item name words.
In the item value likelihood calculating step, the item value likelihood is calculated for the character string by collation with a notation dictionary describing rule of grammar of the item value word and character string.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010120751A JP5621169B2 (en) | 2010-05-26 | 2010-05-26 | Form recognition device and form recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010120751A JP5621169B2 (en) | 2010-05-26 | 2010-05-26 | Form recognition device and form recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248609A true JP2011248609A (en) | 2011-12-08 |
JP5621169B2 JP5621169B2 (en) | 2014-11-05 |
Family
ID=45413794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010120751A Active JP5621169B2 (en) | 2010-05-26 | 2010-05-26 | Form recognition device and form recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5621169B2 (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013190993A (en) * | 2012-03-14 | 2013-09-26 | Hitachi Ltd | Device and method for analyzing table structure |
JP2014016762A (en) * | 2012-07-09 | 2014-01-30 | Hitachi Omron Terminal Solutions Corp | Form recognition apparatus and form recognition method |
JP2015072637A (en) * | 2013-10-03 | 2015-04-16 | 富士通株式会社 | Program, information processing device, and information processing method |
JP2015102938A (en) * | 2013-11-22 | 2015-06-04 | 日立オムロンターミナルソリューションズ株式会社 | Document recognition apparatus, document recognition method, and program |
JP2015153158A (en) * | 2014-02-14 | 2015-08-24 | 富士通株式会社 | Search program, search method, and search device |
JP2015176410A (en) * | 2014-03-17 | 2015-10-05 | 株式会社日立システムズ | Information processor, document reading method, and program |
JP2016051339A (en) * | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | Document recognition device and method |
JP2019079488A (en) * | 2018-05-24 | 2019-05-23 | 株式会社エスピック | Table recognition processing device |
US10740899B2 (en) | 2016-09-27 | 2020-08-11 | Canon Kabushiki Kaisha | Image processing apparatus for identifying region within image, information processing method, and storage medium |
JP2022162380A (en) * | 2021-04-12 | 2022-10-24 | 株式会社プリマジェスト | Information processing apparatus, information processing method, and program |
US11699296B2 (en) | 2020-12-09 | 2023-07-11 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
US11756321B2 (en) | 2020-12-16 | 2023-09-12 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134406A (en) * | 1995-09-06 | 1997-05-20 | Fujitsu Ltd | Device and method for extracting title from document image |
JP2009169844A (en) * | 2008-01-18 | 2009-07-30 | Hitachi Software Eng Co Ltd | Table recognition method and table recognition device |
-
2010
- 2010-05-26 JP JP2010120751A patent/JP5621169B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134406A (en) * | 1995-09-06 | 1997-05-20 | Fujitsu Ltd | Device and method for extracting title from document image |
JP2009169844A (en) * | 2008-01-18 | 2009-07-30 | Hitachi Software Eng Co Ltd | Table recognition method and table recognition device |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013190993A (en) * | 2012-03-14 | 2013-09-26 | Hitachi Ltd | Device and method for analyzing table structure |
JP2014016762A (en) * | 2012-07-09 | 2014-01-30 | Hitachi Omron Terminal Solutions Corp | Form recognition apparatus and form recognition method |
JP2015072637A (en) * | 2013-10-03 | 2015-04-16 | 富士通株式会社 | Program, information processing device, and information processing method |
JP2015102938A (en) * | 2013-11-22 | 2015-06-04 | 日立オムロンターミナルソリューションズ株式会社 | Document recognition apparatus, document recognition method, and program |
JP2015153158A (en) * | 2014-02-14 | 2015-08-24 | 富士通株式会社 | Search program, search method, and search device |
JP2015176410A (en) * | 2014-03-17 | 2015-10-05 | 株式会社日立システムズ | Information processor, document reading method, and program |
JP2016051339A (en) * | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | Document recognition device and method |
US10740899B2 (en) | 2016-09-27 | 2020-08-11 | Canon Kabushiki Kaisha | Image processing apparatus for identifying region within image, information processing method, and storage medium |
JP2019079488A (en) * | 2018-05-24 | 2019-05-23 | 株式会社エスピック | Table recognition processing device |
US11699296B2 (en) | 2020-12-09 | 2023-07-11 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
US11756321B2 (en) | 2020-12-16 | 2023-09-12 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
JP2022162380A (en) * | 2021-04-12 | 2022-10-24 | 株式会社プリマジェスト | Information processing apparatus, information processing method, and program |
JP7317886B2 (en) | 2021-04-12 | 2023-07-31 | 株式会社プリマジェスト | Information processing device and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP5621169B2 (en) | 2014-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5621169B2 (en) | Form recognition device and form recognition method | |
JP6406932B2 (en) | Form recognition apparatus and method | |
Weinman et al. | Toward integrated scene text reading | |
US8171391B2 (en) | Method of describing the structure of graphical objects | |
JP2734386B2 (en) | String reader | |
US10769360B1 (en) | Apparatus and method for processing an electronic document to derive a first electronic document with electronic-sign items and a second electronic document with wet-sign items | |
Nurminen | Algorithmic extraction of data in tables in PDF documents | |
US20160259988A1 (en) | Delivery system and computer readable storage medium | |
CN110874534B (en) | Data processing method and data processing device | |
JP2021043478A (en) | Information processing device, control method thereof and program | |
KR20180104678A (en) | System and method for recognizing multiple object structures | |
JP6174466B2 (en) | Form recognition device, form recognition method, and program | |
CN114092949A (en) | Method and device for training class prediction model and identifying interface element class | |
TW201201113A (en) | Handwriting recognition method and device | |
US8401298B2 (en) | Storage medium storing character recognition program, character recognition method, and character recognition apparatus | |
JP2015069256A (en) | Character identification system | |
KR102282025B1 (en) | Method for automatically sorting documents and extracting characters by using computer | |
KR101265928B1 (en) | Logical structure and layout based offline character recognition | |
JP2022095391A (en) | Information processing apparatus and information processing program | |
JP5712415B2 (en) | Form processing system and form processing method | |
JP2022137634A (en) | Information processing apparatus, information processing method, and program | |
JP2013025390A (en) | Handwriting input method | |
JP4466241B2 (en) | Document processing method and document processing apparatus | |
US11704921B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2021071911A (en) | Form recognition device, form recognition system, and form recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140819 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5621169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |