JP5318742B2 - Character recognition method, character recognition device, and character recognition program - Google Patents
Character recognition method, character recognition device, and character recognition program Download PDFInfo
- Publication number
- JP5318742B2 JP5318742B2 JP2009283087A JP2009283087A JP5318742B2 JP 5318742 B2 JP5318742 B2 JP 5318742B2 JP 2009283087 A JP2009283087 A JP 2009283087A JP 2009283087 A JP2009283087 A JP 2009283087A JP 5318742 B2 JP5318742 B2 JP 5318742B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- data
- character
- heading
- headline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
Description
本発明は文字認識方法、文字認識装置および文字認識プログラムに関し、特に無罫線の帳票におけるデータ部分が規則的に整列していない連記帳票の文字を認識する文字認識方法、文字認識装置および文字認識プログラムに関する。 The present invention relates to a character recognition method, a character recognition device, and a character recognition program, and in particular, a character recognition method, a character recognition device, and a character recognition program for recognizing characters in a continuous form in which data portions in a ruled line form are not regularly arranged. About.
金融機関等では、帳票に印字された文字の入力を自動化するために、帳票上の文字を認識する文字認識装置が用いられている。この文字認識装置では、文字認識の精度を高めるために、帳票に印刷される見出し部分およびデータ部分がどの位置にどのような順序で印刷されているかを定義し、その定義情報に基づいて文字列を認識している。 In a financial institution or the like, a character recognition device that recognizes characters on a form is used to automate the input of characters printed on the form. In this character recognition device, in order to increase the accuracy of character recognition, the heading part and the data part printed on the form are defined in what position and in what order, and the character string is based on the definition information. Recognize.
図24は連記式の帳票の一例を示す図である。
連記式の帳票の例として、ここでは、振込依頼書を示している。この帳票100によれば、その上部に、これが「振込依頼書」であり、振込人が「(株)あいうシステム」であり、振込指定日が何時であるかが記載されている。
FIG. 24 is a diagram showing an example of a continuous writing form.
Here, a transfer request form is shown as an example of the continuous entry form. According to this
帳票100の主要部には、明細101が表形式で記載されている。明細101は、見出し部分102、データ部分103および見出しフッタ104から構成され、見出し部分102は、1行の見出しヘッダを構成し、データ部分103は、複数の明細行からなっている。見出し部分102には、「銀行名」、「支店名」、「科目」、「口座番号」、「受取人氏名」および「金額」の項目が設定されている。データ部分103は、見出し部分102の各項目に対応した文字列のデータが振込先の数だけ連記されている。見出しフッタ104には、見出しの「振込合計」とその数値データとが記載されている。
In the main part of the
この帳票100では、見出し部分102のそれぞれの項目とそれに対応するデータ部分103の文字列とは、予め定められた定義情報に従って整列して印字されている。その定義情報には、見出し部分102の項目およびこれに対応するデータ部分103のデータについての位置情報および文字情報が定義されていて、帳票100における文字列のレイアウトおよび文字列の属性等が分るようになっている。
In the
このように、帳票100のデータ部分103を認識するには、見出し項目に対応するデータの位置情報を定義しておく必要があるため、あらかじめ定義情報を登録した帳票しか文字認識をすることができない。また、その帳票のフォーマットが変更になった場合には、登録した帳票の定義情報をその都度変更する必要がある。
As described above, in order to recognize the
これに対し、定義情報の登録を不要にしてフォーマットの変更があっても柔軟に対応することができる文字認識装置が知られている(たとえば、特許文献1参照)。この特許文献1に記載の文字認識装置によれば、帳票の文字の定義情報をあらかじめ作成することがなく、帳票の文字列の並びの規則性を利用して帳票の文字のレイアウトを検出し、そのレイアウトと、見出しの順序と、見出しに対応する文字列の定義情報とから、データ部分の文字列を認識している。
On the other hand, there is known a character recognition device that can flexibly cope with a format change without requiring registration of definition information (see, for example, Patent Document 1). According to the character recognition device described in
また、文字列を罫線枠の中に印字する帳票では、見出し部分およびそれに対応するデータ部分がそれぞれの罫線枠内に複数行記載されることがある。そのような場合、それぞれの罫線枠内では、途中で複数行に折り返された文字列が記載されているので、文字認識のときには、複数ある見出しの項目と複数行に記載された各行の文字列との対応付けを行うようにしている(たとえば、特許文献2参照)。 In addition, in a form in which a character string is printed in a ruled line frame, a heading part and a data part corresponding to the headline part may be described in a plurality of lines in each ruled line frame. In such a case, a character string that is folded back into multiple lines in the middle of each ruled line frame is described, so when recognizing characters, multiple headline items and character strings in each line listed in multiple lines (See, for example, Patent Document 2).
従来の文字認識装置は、帳票の文字列の並びの規則性を利用して帳票の文字列を認識しているため、帳票の文字列は、見出しの項目とそれに対応するデータ部分の文字列とは、一列に整列されていて、見出しに対するデータの対応付けが見出しの順番で行われている。しかしながら、近年では、見出しとデータ部分の文字列とが整列した上記のような定型的な帳票以外に、金融機関等の顧客(以下、エンドユーザという)から持ち込まれる帳票(以下、私製帳票という)についても同じように文字認識処理を行ないたいというニーズが出てきている。 Since the conventional character recognition device recognizes the character string of the form by utilizing the regularity of the arrangement of the character string of the form, the character string of the form includes the heading item and the character string of the corresponding data portion. Are arranged in a line, and data is associated with the headings in the order of the headings. However, in recent years, in addition to the above-mentioned regular forms in which the headline and the character string of the data part are aligned, forms brought in from customers (hereinafter referred to as end users) such as financial institutions (hereinafter referred to as private forms) There is also a need to perform character recognition processing in the same way.
私製帳票は、エンドユーザが自由な構想で作成した帳票であるため、必ずしも見出しとデータ部分の文字列とが規則的に整列されているとは限らない。たとえば、見出し行および明細行において、見出しの項目とそれに対応する文字列とが一列に並んで配置されずに文字列が最小の間隔で隔てて印刷されることがある。また、見出しに対応するデータが、たとえば、氏名の姓名を空白文字で結合した文字列とした場合、当該明細行では、見出しの項目数と文字列の数とが一致しなくなる。 Since the private form is a form created by the end user with a free concept, the heading and the character string of the data part are not necessarily regularly arranged. For example, in a heading line and a detail line, a heading item and a character string corresponding to the heading item may not be arranged in a line, and the character string may be printed with a minimum interval. Further, when the data corresponding to the headline is, for example, a character string in which the full name is combined with a blank character, the number of items in the headline and the number of character strings do not match in the detail line.
さらに、見出しとデータ部分の文字列とが規則的に整列されていても、1つのデータが同じ列内で折り返した文字列で印刷されて、その明細行のみ2行表示となることがあり、その結果、明細行が1行のものと複数行のものとが混在することがある。 Furthermore, even if the heading and the character string of the data portion are regularly arranged, one data may be printed as a character string folded in the same column, and only the detail line may be displayed in two lines. As a result, there may be a mixture of one detail line and multiple detail lines.
定型的ではない私製帳票は、帳票の文字列のレイアウトを検出する際に、上下に隣り合う2つの行の文字列の構造が同じであるかどうかで明細の範囲を判断する原理であるため、見出しに対するデータの文字列が整列していない場合、または見出しに対するデータが折り返しのために連続して存在していない場合は、帳票の文字列のレイアウトが正確に検出できず、文字列の文字認識処理ができないという問題点があった。 Non-standard private forms are the principle of determining the range of a statement based on whether or not the structure of the character strings in two adjacent rows is the same when detecting the character string layout of the form. If the data string for the heading is not aligned, or if the data for the heading does not exist continuously due to wrapping, the layout of the text in the form cannot be accurately detected, and the character recognition of the character string There was a problem that it could not be processed.
本発明はこのような点に鑑みてなされたものであり、見出し部分に対するデータ部分の文字列の並びが規則的に整列していない帳票においても、帳票の文字のレイアウトを解析し、帳票のデータ部分の文字列を認識する文字認識方法、文字認識装置および文字認識プログラムを提供することを目的とする。 The present invention has been made in view of such a point, and even in a form in which the arrangement of the character string of the data part with respect to the heading part is not regularly arranged, the layout of the character of the form is analyzed, and the form data An object of the present invention is to provide a character recognition method, a character recognition device, and a character recognition program for recognizing a partial character string.
本発明では上記の課題を解決するために、見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する文字認識方法において、前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、折り返しにより複数行に跨っている文字列を1つのデータとして統合し、データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、ことを特徴とする文字認識方法が提供される。 In the present invention, in order to solve the above problem, in a character recognition method for recognizing a character string of a form having a character string of a heading part and a character string of a data part, the character string extracted from the image data of the form Extract the logical lines in which the character strings are arranged in the horizontal direction from the positional relationship on the form, recognize the character strings in the logical lines, extract the heading lines in which the headline character strings of the details are arranged, and the total number of the headline character strings Detail lines with the same ratio of the number of character strings in the data part are extracted, and the heading item in the heading part is associated with the character string in the data part on a one-to-one basis, and the character string in the data part corresponding to the heading is fixed. Identifies long data and associates it with the heading item. The character string of the data portion corresponding to the heading has a variable length and the first variable length data that does not wrap the character string is identified and associated with the heading item. The headline The heading item is specified by specifying the second variable length data in which the character string of the data portion has a variable length and the character string may be folded, and the heading and the number of character strings of the data portion correspond one-to-one. The character string of the data portion corresponding to the heading has a variable length, and the character string may be folded, and the third variable length in which the number of character strings of the heading and the data portion corresponds 1 to N Identify the data and make it correspond to the item of the headline, combine the character string that spans multiple lines by wrapping as one data, and use the dictionary of the category corresponding to the content of the heading to character string of the data part A character recognition method characterized by recognition is provided.
また、本発明では、帳票のイメージデータから文字列を抽出し、文字列の位置関係から論理行を抽出し、文字列を認識して見出し行を抽出するレイアウト解析処理部と、見出し部分の文字列とデータ部分の文字列とを対応付ける対応付け処理部と、データ部分の文字列を認識する文字認識処理部と、文字列の認識および特定に必要な辞書を格納しているデータ記憶部と、を備え、前記対応付け処理部は、見出しの総数と行のデータの文字列の数との比が同じ行を抽出して見出し部とデータ部とを無条件に対応させる標準データ特定部と、見出しに対応するデータ部分の文字列が固定長であるデータを特定する固定長データ特定部と、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのないデータを特定する第1可変長データ特定部と、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対1に対応するデータを特定する第2可変長データ特定部と、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対Nに対応するデータを特定する第3可変長データ特定部と、折り返しにより複数行に跨っている文字列を1つのデータとして統合する折り返しデータ統合部と、を有していることを特徴とする文字認識装置が提供される。 In the present invention, a layout analysis processing unit that extracts a character string from image data of a form, extracts a logical line from the positional relationship of the character string, recognizes the character string, and extracts a heading line; An association processing unit for associating a column with a character string of the data part, a character recognition processing unit for recognizing the character string of the data part, a data storage unit storing a dictionary necessary for character string recognition and identification, The association processing unit extracts a line having the same ratio between the total number of headings and the number of character strings of the data in the line, and unconditionally associates the heading part and the data part, and A fixed-length data identification unit that identifies data whose character string in the data part corresponding to the heading has a fixed length, and data that has a variable-length character string in the data part corresponding to the heading and that does not wrap the character string 1st variable to A data specifying unit and a character string of a data part corresponding to a headline have a variable length, and the character string may be folded. The variable-length data specifying unit and the character string of the data part corresponding to the headline have variable length, and the character string may be folded, and the data corresponding to the number of headings and character strings is specified as 1 to N. There is provided a character recognition device including a third variable length data specifying unit and a folded data integrating unit that integrates character strings straddling a plurality of lines by folding as one data.
さらに、本発明では、見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する処理をコンピュータに実行させる文字認識プログラムであって、前記コンピュータに、前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、折り返しにより複数行に跨っている文字列を1つのデータとして統合し、データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、処理を実行させることを特徴とする文字認識プログラムが提供される。 Furthermore, in the present invention, there is provided a character recognition program for causing a computer to execute processing for recognizing a character string of a form having a character string of a heading part and a character string of a data part. Extracting logical lines in which the character strings are arranged in a horizontal direction from the positional relationship of the extracted character strings on the form, extracting the heading lines in which the character strings of the details are recognized by recognizing the character strings of the logical lines, Data corresponding to the headline is extracted by extracting details lines having the same ratio between the total number of character strings in the headline and the number of character strings in the data part, and matching the headline item in the headline part with the character string in the data part on a one-to-one basis The character string of the part specifies fixed-length data and corresponds to the heading item, and the character string of the data part corresponding to the heading is variable-length and specifies the first variable-length data that does not wrap the character string. The The character string of the data part corresponding to the heading has a variable length, and the character string may be folded, and the heading and the number of character strings of the data part have a one-to-one correspondence. 2 Specify variable-length data and make it correspond to the heading item. The character string of the data part corresponding to the heading has a variable length and the character string may be folded. Identifies the third variable-length data corresponding to 1 to N and associates it with the item of the headline. By folding, the character strings straddling multiple lines are integrated as one data, and the character string of the data portion There is provided a character recognition program characterized in that a character recognition process is executed using a category dictionary corresponding to the content.
このような文字認識方法、文字認識装置および文字認識プログラムによれば、データ部分の文字列に対し、容易に特定できる文字列から順に解析し、残った解析しにくい文字列を最後に消去法で特定することで、見出しに対するデータ部分の文字列を順次特定するようにした。これにより、無罫線の帳票に自由なレイアウトで印字された文字列を認識することが可能となる。 According to such a character recognition method, character recognition device, and character recognition program, the character string of the data part is analyzed in order from the easily identifiable character string, and the remaining difficult-to-analyze character string is finally deleted by the erasing method. By specifying, the character string of the data part for the heading was specified sequentially. As a result, it is possible to recognize a character string printed in a free layout on a ruled line form.
上記構成の文字認識方法、文字認識装置および文字認識プログラムは、容易に特定できる文字列から順に解析していく方法であるため、現状の定型的な帳票の作成仕様の範囲を超えた文字認識処理が可能となり、対応できる帳票の種類を増大させることができるという利点がある。 The character recognition method, character recognition device, and character recognition program configured as described above are methods of analyzing in order starting from a character string that can be easily specified, so that the character recognition process exceeds the scope of the current standard form creation specifications. There is an advantage that the types of forms that can be handled can be increased.
また、見出しとデータ部分の文字列とが一列に整列していないような非定型の帳票は、オペレータがレイアウトを解析して文字列を入力していたが、このようなレイアウト解析が困難で文字認識結果に誤りが多い帳票も文字認識処理が可能であるので、オペレータの入力負荷を軽減することができる。 In addition, an atypical form in which the heading and the character string of the data part are not aligned in a single line was input by the operator by analyzing the layout. Since a form having many errors in the recognition result can be subjected to character recognition processing, the input load on the operator can be reduced.
以下、本発明の実施の形態について、連記式の帳票として金融機関等で使用している振込依頼書を使用し、この振込依頼書に印刷されている文字列の認識を行う装置に適用した場合を例に図面を参照して詳細に説明する。 Hereinafter, the embodiment of the present invention is applied to a device that uses a transfer request form used in a financial institution or the like as a continuous form form and recognizes a character string printed on the transfer request form. Will be described in detail with reference to the drawings.
図1は第1の実施の形態に係る文字認識装置を示すブロック図である。
文字認識装置10は、スキャナ1の出力が接続されたレイアウト解析処理部11と、文字列の対応付けの処理を行う対応付け処理部12と、文字列の認識を行う文字認識処理部13と、処理に必要なデータ等を格納するデータ記憶部14とを備えている。
FIG. 1 is a block diagram showing a character recognition apparatus according to the first embodiment.
The
レイアウト解析処理部11は、スキャナ1によって取得された帳票のイメージデータを処理して帳票上の文字列の並びを解析する。対応付け処理部12は、標準データ特定部15と、固定長データ特定部16と、第1可変長データ特定部17と、第2可変長データ特定部18と、第3可変長データ特定部19と、折り返しデータ統合部20とを備え、レイアウト解析処理部11によって解析された文字列から見出し部分の項目と、それに対応するデータ部分のデータとを対応付ける処理を行う。
The layout
文字認識処理部13は、対応付け処理部12によって対応付けられたデータに対し、見出しの内容に対応した最適の文字認識方式を用いて文字認識を行う。
データ記憶部14は、見出し文言辞書21およびカテゴリ/フォント別辞書22を格納しており、レイアウト解析処理部11、対応付け処理部12および文字認識処理部13の処理に使用される。見出し文言辞書21は、あらかじめ定められた見出し文言とそのイメージデータおよび見出しに対応した文字列の属性および文字列の特徴を格納している。カテゴリ/フォント別辞書22は、データ部分の文字認識のための辞書として、文字認識カテゴリ/文字フォント別に用意している。
The character
The
ここで、文字認識装置10が処理対象とする連記式の帳票について説明する。
図2は見出しに対するデータが一列に整列していない帳票例を示す図、図3は複数行の明細行が混在する帳票例を示す図である。
Here, the continuous form form which is processed by the
FIG. 2 is a diagram showing an example of a form in which data for headings is not arranged in a line, and FIG. 3 is a diagram showing an example of a form in which a plurality of detail lines are mixed.
図2に示す帳票2は、その明細3が見出し部分4、データ部分5および見出しフッタ6から構成されているが、見出し部分4の見出しの項目に対するデータ部分5の文字列が一列に整列していない例、および1つの見出しの項目に対するデータ部分5の文字列が空白文字によって2つ以上(以下、Nという)の文字列を含む例を示している。このような帳票2は、見出しの項目とこれに対応する文字列が一列に整列していることを前提とした処理では、見出し部分4の見出しの項目に対するデータ部分5の文字列を正しく対応付けすることができない。
The
また、図3に示す帳票7は、そのデータ部分において、1明細行が複数行となる場合を示している。これは、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているものの、データ部分の文字列の一部が途中で折り返されてしまっていることによる。このため、データ部分は、1明細行が1行のものと複数行のものとが混在した形になっている。このような帳票7は、1明細行が1行であることを前提とした処理では、見出し部分の見出しの項目に対するデータ部分の文字列を正しく対応付けすることができない。
Further, the
次に、文字認識装置10の動作について説明する。
図4はレイアウト解析処理部の処理の流れを示すフローチャートである。
レイアウト解析処理部11は、まず、スキャナ1で走査して得られたデータを受けて帳票をイメージ化する(ステップS1)。次に、レイアウト解析処理部11は、帳票のイメージデータを基に文字列を抽出する(ステップS2)。この文字列の抽出は、既存の技術を用いて行われる。たとえば、帳票のイメージデータを走査し、黒画素が連続する部分に接した外接矩形をラベルとして抽出する。抽出したラベルのうち、しきい値以内の距離にあるラベルは、1つの文字列を構成するラベルとして抽出する。
Next, the operation of the
FIG. 4 is a flowchart showing a processing flow of the layout analysis processing unit.
The layout
次に、レイアウト解析処理部11は、抽出されたラベルの座標から文字列の位置関係を解析し、横方向に並ぶ文字列については、論理行を構成する文字列として抽出する(ステップS3)。この論理行の抽出のとき、帳票用紙の外周の輪郭を解析し、イメージが斜行していれば、イメージを回転させて同一論理行の文字列については、これらが水平に並ぶように補正される。
Next, the layout
次に、レイアウト解析処理部11は、帳票全体の文字列について、全カテゴリで文字認識を行う(ステップS4)。ここでは、抽出された文字列がどのカテゴリに属するものであるのか分らないので、レイアウト解析処理部11は、特定のカテゴリに限定することなく、データ記憶部14のすべてのカテゴリ/フォント別辞書22を使用して文字列を認識する。この文字認識は、抽出されたすべての文字列について行われる。
Next, the layout
そして、レイアウト解析処理部11は、文字認識の結果をデータ記憶部14の見出し文言辞書21とマッチングを行い、明細の見出しが並ぶ行、すなわち、見出しヘッダ行および見出しフッタ行を抽出する(ステップS5)。見出し文言辞書21には、振込依頼書で使用される見出しの項目である「銀行名」、「支店名」、「科目」、「口座番号」、「受取人氏名」、「金額」および「振込合計」が登録されている。もちろん、この見出し文言辞書21は、金融機関等の業務で使用される他の見出しとなるすべての項目名も登録されている。
Then, the layout
図5は対応付け処理部の処理の流れを示すフローチャート、図6は見出し文言辞書から取得した文字列の属性および特徴の情報を示す図である。
まず、対応付け処理部12は、見出し文言辞書21を参照して、見出しに対応するデータ部分の文字列の属性および文字列の特徴の情報を取得する(ステップS11)。図6に示したように、文字列の属性としては、文字数、文字種、データ形式、文字列折り返しおよび見出しの総数と1明細行のデータの文字列の数との比を定義している。文字列の特徴としては、見出し部分の行に出現する見出しの項目の順番と、見出しに対応するデータが固定長であるときの文字列幅を定義している。
FIG. 5 is a flowchart showing the processing flow of the association processing unit, and FIG. 6 is a diagram showing the attribute and feature information of the character string acquired from the headline wording dictionary.
First, the
図7は見出し部分とデータ部分とが1対1で対応している状態を説明する図、図8は1対1で対応している見出し部分とデータ部分とが対応付けされた結果の帳票を示す図、図9は見出しに対応するデータが固定長の文字列の文字列幅を計測する説明図である。 FIG. 7 is a diagram for explaining a state in which the heading part and the data part are in one-to-one correspondence, and FIG. 8 is a result form in which the heading part and the data part are in one-to-one correspondence. FIG. 9 is an explanatory diagram for measuring the character string width of a character string whose data corresponding to the heading has a fixed length.
対応付け処理部12の標準データ特定部15では、明細行を順に解析し、見出しの総数とデータ部分の文字列の数とが同じである標準的な明細行を抽出し、見出しの項目に対するデータを無条件に対応させて特定する(ステップS12)。すなわち、図7に示したように、見出し部分には、その項目H1〜H6が6個あり、データ部分のデータD1〜D6も6個あって等しい場合には、見出しとデータとを1対1で対応できるため、無条件に対応させる。これにより、銀行名は「いろは銀行」、支店名は「本店」、科目は「普通」、口座番号は「1234567」、受取人氏名は「あいうえお(株)」、金額は「1,000,000」に対応付けられることになる。この結果、図8に示したように、帳票のデータ部分では、四角で囲った1行目、5行目および6行目の明細行が対応付け処理を終えたことになる。
The standard
ここで、見出しとデータとが1対1で対応付けられた明細行の文字桁固定項目の幅を算出する(ステップS13)。データの中で文字桁が固定の項目については、他の明細行についても同じ文字列幅を有しているので、ここで、文字桁固定項目の幅を算出しておく。文字桁が固定の項目は、図6の文字列の属性から、データ形式が固定長のデータ、すなわち、見出しの項目が「科目」および「口座番号」に対応するデータD3,D4が選択され、図9に示したように、データD3,D4の文字列幅が算出される。なお、ステップS12において、明細行が抽出されない場合は、抽出した1文字文のラベルおよび図6の文字列の属性から、1文字の幅に桁数を掛けた長さを、文字列の横幅として算出する。 Here, the width of the fixed character column item in the detail line in which the heading and the data are associated one-to-one is calculated (step S13). Since items having fixed character digits in the data have the same character string widths in other detail lines, the widths of the character digit fixed items are calculated here. For the item with fixed character digits, data D3 and D4 corresponding to “subject” and “account number” are selected from the attribute of the character string in FIG. As shown in FIG. 9, the character string widths of the data D3 and D4 are calculated. In step S12, if a detail line is not extracted, the length obtained by multiplying the width of one character by the number of digits from the extracted label of one character sentence and the character string attribute of FIG. 6 is used as the width of the character string. calculate.
ここまでは、見出しの総数と行のデータの文字列の数との比が同じである場合の処理について説明したが、以下では、見出しの総数と行のデータの文字列の数との比が異なる行の処理について説明する。 So far, the processing when the ratio between the total number of headings and the number of character strings in the line data is the same has been described, but in the following, the ratio between the total number of headings and the number of character strings in the line data is The processing of different lines will be described.
図10は見出し部分とデータ部分とが1対1で対応していない行における固定長データを示す説明図、図11は一致率を表す得点の例を示す図、図12は固定長データが対応付けされた結果の帳票を示す図である。 FIG. 10 is an explanatory diagram showing fixed-length data in a line where the heading portion and the data portion do not correspond one-to-one, FIG. 11 is a diagram showing an example of a score representing the matching rate, and FIG. It is a figure which shows the form of the attached result.
対応付け処理部12の固定長データ特定部16は、標準データ特定部15で抽出されなかった明細行を順に解析し、文字列の横幅、文字列の桁数、文字列の属性、文字列の位置から見出しに対する固定長データを特定する(ステップS14)。データ部分において、文字列が固定長のデータとして、科目および口座番号のデータがある。たとえば口座番号のデータを特定する場合は、まず、図10に示したように、行内の文字列を順次文字列の属性と比較し、口座番号のデータの文字列の属性から、明細行の文字列の幅が、半角7桁の幅のデータを抽出する。図10の例では、データD4,D7が該当する。この文字列と文字列の属性との比較は、1行に含まれる文字列(データD1〜D7)のすべてに対し、順次、判断要素による評価(得点制)で行う。
The fixed length
図10および図11から、行を構成する文字列が7つあり、7つすべてについて文字列の属性や特徴を比較している。図11の表には、判断要素による比較の一致率を得点換算した値が入っており、一致率が高いほど得点が高くなっている。図10の例の行で順番が4番目と7番目の文字列(データD4,D7)に得点が入っているが、文字列の幅、文字列の文字数、文字列の文字種、文字列の位置(順番)から総合的に4番目の文字列(データD4)の合計得点が高いため、4番目の文字列(データD4)が口座番号のデータと推定する。 From FIG. 10 and FIG. 11, there are seven character strings constituting the line, and the attributes and features of the character strings are compared for all seven. The table of FIG. 11 contains the value obtained by converting the comparison coincidence rate according to the determination element into a score, and the higher the coincidence rate, the higher the score. In the example row of FIG. 10, the fourth and seventh character strings (data D4, D7) are scored, but the character string width, the number of characters in the character string, the character type of the character string, and the position of the character string Since the total score of the fourth character string (data D4) is generally high from (order), the fourth character string (data D4) is estimated to be account number data.
また、固定長データである科目のデータの解析も口座番号のデータの解析と同様に行われ、さらに、これら固定長データの特定は、標準データ特定部15で抽出されなかったすべての明細行について解析する。この結果、図12に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。なお、斜線が入った四角は、解析済みの文字列を示している。
The analysis of the subject data that is fixed length data is performed in the same manner as the analysis of the account number data. Further, the specification of the fixed length data is performed for all the details lines that are not extracted by the standard
図13は見出し部分とデータ部分とが1対1で対応していない行における第1可変長データを示す説明図、図14は一致率を表す得点の例を示す図、図15は第1可変長データが対応付けされた結果の帳票を示す図である。 FIG. 13 is an explanatory diagram showing the first variable length data in a row where the heading portion and the data portion do not correspond one-to-one, FIG. 14 is a diagram showing an example of the score indicating the matching rate, and FIG. 15 is the first variable It is a figure which shows the form of a result with which long data was matched.
対応付け処理部12の第1可変長データ特定部17は、標準データ特定部15で抽出されなかった明細行の残りのデータを順に解析し、文字列が可変長で、文字列の折り返しがなく、文字種が半角英数文字とする第1可変長データを特定する(ステップS15)。この第1可変長データに該当する文字列は、図13の明細行の最後に位置し、見出しの項目H6の「金額」に対応するデータD7である。図14の表には、既に対応付けが確定した3番目および4番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図14の表によれば、その合計得点より、7番目の文字列(データD7)の得点が最も高いため、7番目の文字列(データD7)が金額のデータと推定する。
The first variable length
この第1可変長データである「科目」のデータの解析は、残りのすべての明細行について行われる。この結果、図15に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。 The analysis of the “subject” data, which is the first variable length data, is performed for all the remaining detail lines. As a result, as shown in FIG. 15, in the data portion of the form, the association processing between the item of the heading portion enclosed by the square and the data of the corresponding data portion is completed.
図16は見出し部分とデータ部分とが1対1で対応していない行における第2可変長データを示す説明図、図17は一致率を表す得点の例を示す図、図18は第2可変長データが対応付けされた結果の帳票を示す図である。 FIG. 16 is an explanatory diagram showing second variable length data in a line in which the header portion and the data portion do not correspond one-to-one, FIG. 17 is a diagram showing an example of a score representing the matching rate, and FIG. 18 is a second variable It is a figure which shows the form of a result with which long data was matched.
対応付け処理部12の第2可変長データ特定部18は、文字列比が1対1、文字列が6桁折り返しの可変長で、文字種が全角全カテゴリの文字とする第2可変長データを特定する(ステップS16)。この第2可変長データに該当する文字列は、図16では、見出しの「銀行名」および「支店名」に対応するデータD1,D2である。図17の表には、既に対応付けが確定した3番目、4番目および7番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図17の表によれば、その合計得点より、1番目の文字列(データD1)の得点が最も高いため、1番目の文字列(データD1)が銀行名のデータと推定する。次に、2番目の文字列(データD2)の得点も高いため、2番目の文字列(データD2)が支店名のデータと推定する。
The second variable length
この第2可変長データである「銀行名」および「支店名」のデータの解析は、残りのすべての明細行について行われる。この結果、図18に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。 The analysis of the data of “bank name” and “branch name” as the second variable length data is performed for all the remaining detail lines. As a result, as shown in FIG. 18, in the data portion of the form, the association processing between the item of the heading portion enclosed by the square and the data of the corresponding data portion is completed.
図19は見出し部分とデータ部分とが1対1で対応していない行における第3可変長データを示す説明図、図20は一致率を表す得点の例を示す図、図21は第3可変長データが対応付けされた結果の帳票を示す図である。 FIG. 19 is an explanatory diagram showing third variable length data in a line in which the header portion and the data portion do not correspond one-to-one, FIG. 20 shows an example of a score indicating the matching rate, and FIG. 21 shows the third variable It is a figure which shows the form of a result with which long data was matched.
対応付け処理部12の第3可変長データ特定部19は、文字列比が1対N、文字列が14桁折り返しの可変長で、文字種が全角全カテゴリの文字とする第3可変長データを特定する(ステップS17)。この第3可変長データに該当する文字列は、図19では、残りの見出しの「受取人氏名」に対応するデータD5,D6である。図20の表には、既に対応付けが確定した1〜4番目および7番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図20の表によれば、その合計得点より、5番目の文字列(データD5)の得点が最も高いため、5番目の文字列(データD5)が受取人氏名のデータと推定する。また、6番目の文字列(データD6)については、対応する見出しがなく、しかも、5番目の文字列と同じ文字列の属性であるため、6番目の文字列(データD6)は、5番目の文字列とともに受取人氏名のデータと判断する。
The third variable length
この第3可変長データである「受取人氏名」のデータの解析は、残りのすべての明細行について行われる。この結果、図21に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終え、1明細が1行のときのすべてのデータが対応付けられたことになる。 The third variable length data “recipient name” data is analyzed for all remaining detail lines. As a result, as shown in FIG. 21, in the data portion of the form, the correspondence processing between the item of the heading portion enclosed by the square and the data of the data portion corresponding thereto is completed, and all of the items when one specification is one line Are associated with each other.
次に、図3に示した帳票7のように、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているが、データ部分における1明細行が1行の場合と複数行の場合とが混在しているときの処理について説明する。ただ、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているかどうかは、上記の対応付け処理では関係ないので、ここでは、1明細行が複数行からなる明細行を含むデータ部分がある場合の処理について説明する。
Next, as in the
図22は1明細が複数行であるかの判定を説明する図である。
まず、対応付け処理部12の折り返しデータ統合部20は、固定長データ特定部16が抽出した文字列が固定長のデータ(科目または口座番号のデータ)に着目し、文字列が存在する隣接行の間隔から、文字列の折り返しがある明細行であるか判断し、それぞれの明細行の行数を特定する(ステップS18)。図22を見ると、たとえば、口座番号のデータのある行がデータ部分の1行目と2行目とに連続して存在するため、1行目は、1明細が1行であると判断する。口座番号のデータのある行で2行目の次は、5行目となって2行分の空きがあるので、2行目は、1明細が3行であると判断する。口座番号のデータのある行で5行目の次は、7行目となって1行分の空きがあるので、5行目は、1明細が2行であると判断する。
FIG. 22 is a diagram for explaining whether one specification is a plurality of lines.
First, the loopback
次に、折り返しデータ統合部20は、ステップS18で文字列の折り返しのある明細行であると判断した場合、口座番号のデータの位置を確定した後、複数行に跨って折り返したデータの文字列を、1項目に統合する(ステップS19)。すなわち、2行目の明細行では、2行に跨って折り返されている銀行名のデータの文字列が1項目に統合され、3行に跨って折り返されている受取人氏名のデータの文字列が1項目に統合される。5行目の明細行においても同様に、2行に跨って折り返されている銀行名のデータの文字列が1項目に統合され、2行に跨って折り返されている支店名のデータの文字列が1項目に統合される。
Next, when the return
以上のように、対応付け処理部12では、見出しとデータ部分の文字列との対応付けは、見出し文言辞書21から取得した見出しに対するデータ部分の文字列の属性および文字列の特徴と、上記のステップS4で実際に文字認識した文字列の属性および文字列の特徴とを比較して、一致率が高いものを対応させている。しかも、見出しとデータ部分の文字列との対応付けは、文字列の属性および特徴の情報から容易に特定できるデータから順に解析していき、残った解析しにくい項目を最後に消去法で特定することにしている。
As described above, in the
このようにして対応付けられた文字列は、その属性および特徴が判明している。したがって、最後に、文字認識処理部13が文字認識処理を行うときには、その文字列の文字種に適合したカテゴリの辞書を用いて文字認識をすることになる。これにより、たとえば見出しが口座番号のデータは、カテゴリが半角数字に絞り込まれた特定の辞書を使って文字認識されるので、1回目の文字認識(ステップS4)よりも高い精度で認識させることができる。
The attributes and characteristics of the character strings associated in this way are known. Therefore, finally, when the character
この文字認識装置10は、最後に、文字認識処理部13にて文字認識された結果を文字認識の呼び出し側へ通知する。
図23は文字認識装置に用いられるコンピュータのハードウェア構成例を示す図である。
Finally, the
FIG. 23 is a diagram illustrating a hardware configuration example of a computer used in the character recognition device.
コンピュータ50は、CPU(Central Processing Unit)51によって装置全体が制御されている。CPU51には、バス57を介してRAM(Random Access Memory)52、ハードディスクドライブ(HDD:Hard Disk Drive)53、グラフィック処理装置54、入力インタフェース55、および通信インタフェース56が接続されている。
The entire computer 50 is controlled by a CPU (Central Processing Unit) 51. A random access memory (RAM) 52, a hard disk drive (HDD) 53, a
RAM52には、CPU51に実行させるOS(Operating System)のプログラムや文字認識処理に必要なアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM52には、CPU51による処理に必要な各種データが格納される。HDD53には、OS、文字認識用のアプリケーションプログラム、文字認識に使われる辞書等が格納されている。
The
グラフィック処理装置54には、モニタ58が接続されている。グラフィック処理装置54は、CPU51からの命令に従って、画像をモニタ58の画面に表示させる。入力インタフェース55には、スキャナ1、キーボード59およびマウス60が接続されている。入力インタフェース55は、スキャナ1、キーボード59およびマウス60から送られてくる信号を、バス57を介してCPU51に送信する。
A
通信インタフェース56は、金融機関内のネットワークに接続されている。通信インタフェース56は、ネットワークを介して、他のコンピュータとの間でデータの送受信を行う。
The
以上のようなハードウェア構成によって、本実施の形態の文字認識装置10に係る処理機能を実現することができる。
With the hardware configuration as described above, the processing function according to the
1 スキャナ
2,7,100 帳票
3,101 明細
4,102 見出し部分
5 データ部分
6 見出しフッタ
10 文字認識装置
11 レイアウト解析処理部
12 対応付け処理部
13 文字認識処理部
14 データ記憶部
15 標準データ特定部
16 固定長データ特定部
17 第1可変長データ特定部
18 第2可変長データ特定部
19 第3可変長データ特定部
20 折り返しデータ統合部
21 見出し文言辞書
22 カテゴリ/フォント別辞書
50 コンピュータ
51 CPU
52 RAM
53 HDD
54 グラフィック処理装置
55 入力インタフェース
56 通信インタフェース
57 バス
58 モニタ
59 キーボード
60 マウス
DESCRIPTION OF
52 RAM
53 HDD
54
Claims (10)
前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、
見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、
見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、
折り返しにより複数行に跨っている文字列を1つのデータとして統合し、
データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、
ことを特徴とする文字認識方法。 In a character recognition method for recognizing a character string of a form having a character string of a heading part and a character string of a data part,
From the positional relationship of the character string extracted from the image data of the form on the form, a logical line in which the character string is arranged in the horizontal direction is extracted, the character string in the logical line is recognized, and the character string of the headline of the description is arranged. Extract the heading line,
Detail lines having the same ratio between the total number of character strings in the heading and the number of character strings in the data part are extracted, and the heading item in the heading part is associated with the character string in the data part on a one-to-one basis.
Specify data with a fixed-length character string in the data part corresponding to the headline, and make it correspond to the headline item.
The character string of the data portion corresponding to the heading is variable length, and the first variable length data without the character string wrapping is identified and associated with the heading item,
The character string of the data portion corresponding to the headline has a variable length and the character string may be folded, and the second variable length data in which the headline and the number of character strings of the data portion correspond one-to-one is specified. Corresponding to the headline item,
The character string of the data portion corresponding to the headline has a variable length and the character string may be folded, and the third variable length data in which the number of the character string of the heading and the data portion corresponds 1 to N is specified. Corresponding to the headline item,
By concatenating character strings that span multiple lines as a single piece of data,
Recognize the character string of the data part using the dictionary of the category corresponding to the content of the heading,
A character recognition method characterized by the above.
見出し部分の文字列とデータ部分の文字列とを対応付ける対応付け処理部と、
データ部分の文字列を認識する文字認識処理部と、
文字列の認識および特定に必要な辞書を格納しているデータ記憶部と、
を備え、
前記対応付け処理部は、
見出しの総数と行のデータの文字列の数との比が同じ行を抽出して見出し部とデータ部とを無条件に対応させる標準データ特定部と、
見出しに対応するデータ部分の文字列が固定長であるデータを特定する固定長データ特定部と、
見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのないデータを特定する第1可変長データ特定部と、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対1に対応するデータを特定する第2可変長データ特定部と、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対Nに対応するデータを特定する第3可変長データ特定部と、
折り返しにより複数行に跨っている文字列を1つのデータとして統合する折り返しデータ統合部と、
を有していることを特徴とする文字認識装置。 A layout analysis processing unit that extracts a character string from the image data of the form, extracts a logical line from the positional relationship of the character string, recognizes the character string, and extracts a heading line;
An association processing unit for associating the character string of the heading part with the character string of the data part;
A character recognition processing unit for recognizing the character string of the data portion;
A data storage unit storing a dictionary necessary for character recognition and identification;
With
The association processing unit
A standard data specifying unit that extracts lines having the same ratio between the total number of headings and the number of character strings in the line data and unconditionally associates the heading part and the data part;
A fixed-length data specifying unit for specifying data whose character string of the data part corresponding to the heading has a fixed length;
A first variable length data specifying unit for specifying data in which the character string of the data portion corresponding to the heading has a variable length and the character string is not folded;
A second variable-length data specifying unit for specifying data in which the character string of the data portion corresponding to the heading has a variable length and the character string may be folded and the heading and the number of character strings correspond one-to-one When,
A third variable length data specifying unit for specifying data in which the character string of the data portion corresponding to the heading has a variable length and the character string may be folded and the heading and the number of character strings correspond to 1 to N When,
A folded data integration unit that integrates a character string that spans multiple lines as a single data by folding,
A character recognition device characterized by comprising:
前記コンピュータに、
前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、
見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、
見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、
折り返しにより複数行に跨っている文字列を1つのデータとして統合し、
データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、
処理を実行させることを特徴とする文字認識プログラム。 A character recognition program for causing a computer to execute processing for recognizing a character string of a form having a character string of a heading part and a character string of a data part,
In the computer,
From the positional relationship of the character string extracted from the image data of the form on the form, a logical line in which the character string is arranged in the horizontal direction is extracted, the character string in the logical line is recognized, and the character string of the headline of the description is arranged. Extract the heading line,
Detail lines having the same ratio between the total number of character strings in the heading and the number of character strings in the data part are extracted, and the heading item in the heading part is associated with the character string in the data part on a one-to-one basis.
Specify data with a fixed-length character string in the data part corresponding to the headline, and make it correspond to the headline item.
The character string of the data portion corresponding to the heading is variable length, and the first variable length data without the character string wrapping is identified and associated with the heading item,
The character string of the data portion corresponding to the headline has a variable length and the character string may be folded, and the second variable length data in which the headline and the number of character strings of the data portion correspond one-to-one is specified. Corresponding to the headline item,
The character string of the data portion corresponding to the headline has a variable length and the character string may be folded, and the third variable length data in which the number of the character string of the heading and the data portion corresponds 1 to N is specified. Corresponding to the headline item,
By concatenating character strings that span multiple lines as a single piece of data,
Recognize the character string of the data part using the dictionary of the category corresponding to the content of the heading,
A character recognition program for executing a process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009283087A JP5318742B2 (en) | 2009-12-14 | 2009-12-14 | Character recognition method, character recognition device, and character recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009283087A JP5318742B2 (en) | 2009-12-14 | 2009-12-14 | Character recognition method, character recognition device, and character recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011123825A JP2011123825A (en) | 2011-06-23 |
JP5318742B2 true JP5318742B2 (en) | 2013-10-16 |
Family
ID=44287627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009283087A Active JP5318742B2 (en) | 2009-12-14 | 2009-12-14 | Character recognition method, character recognition device, and character recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5318742B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6028905B2 (en) * | 2012-07-03 | 2016-11-24 | 富士通株式会社 | Form management device, form management method, and form management program |
JP7026386B2 (en) * | 2018-08-24 | 2022-02-28 | ネットスマイル株式会社 | Form image processing system, form image processing method, and form image processing program |
JP7383882B2 (en) * | 2019-01-22 | 2023-11-21 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and information processing program |
JP7456131B2 (en) | 2019-11-29 | 2024-03-27 | 株式会社リコー | Information processing system, information processing method and program |
CN111695553B (en) * | 2020-06-05 | 2023-09-08 | 北京百度网讯科技有限公司 | Form identification method, device, equipment and medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2926066B2 (en) * | 1992-05-29 | 1999-07-28 | 富士ゼロックス株式会社 | Table recognition device |
GB9305554D0 (en) * | 1993-03-18 | 1993-05-05 | Ncr Int Inc | Method and apparatus for processing decuments |
JP3525997B2 (en) * | 1997-12-01 | 2004-05-10 | 富士通株式会社 | Character recognition method |
-
2009
- 2009-12-14 JP JP2009283087A patent/JP5318742B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011123825A (en) | 2011-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4347677B2 (en) | Form OCR program, method and apparatus | |
JP4996940B2 (en) | Form recognition device and program thereof | |
JP4461769B2 (en) | Document retrieval / browsing technique and document retrieval / browsing device | |
JP2004139484A (en) | Form processing device, program for implementing it, and program for creating form format | |
JP5318742B2 (en) | Character recognition method, character recognition device, and character recognition program | |
US20040202352A1 (en) | Enhanced readability with flowed bitmaps | |
US20090024667A1 (en) | Information processing device, file data merging method, file naming method, and file data output method | |
JP5385349B2 (en) | Receipt definition data creation device and program thereof | |
US20190294912A1 (en) | Image processing device, image processing method, and image processing program | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JPH11120293A (en) | Character recognition/correction system | |
JPH08147446A (en) | Electronic filing device | |
JP2005216203A (en) | Table format data processing method and table format data processing apparatus | |
JP2012212293A (en) | Document recognition device, document recognition method, program and storage medium | |
JP4983464B2 (en) | Form image processing apparatus and form image processing program | |
CN102685347B (en) | Image processing apparatus and image processing method | |
CN116311300A (en) | Table generation method, apparatus, electronic device and storage medium | |
CN115983202A (en) | Data processing method, device, equipment and storage medium | |
EP3470993A1 (en) | A method and system for click thru capability of electronic media | |
JPH11219394A (en) | Automatic various financial chart input device | |
CN113111881A (en) | Information processing apparatus and recording medium | |
JP6379676B2 (en) | Output program, output device, and output method | |
JP2005165978A (en) | Business form ocr program, method and device thereof | |
JP2007280413A (en) | Automatic input device of financial statement | |
WO2023021636A1 (en) | Data processing device, data processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120403 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5318742 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |