JP2011123825A - 文字認識方法、文字認識装置および文字認識プログラム - Google Patents

文字認識方法、文字認識装置および文字認識プログラム Download PDF

Info

Publication number
JP2011123825A
JP2011123825A JP2009283087A JP2009283087A JP2011123825A JP 2011123825 A JP2011123825 A JP 2011123825A JP 2009283087 A JP2009283087 A JP 2009283087A JP 2009283087 A JP2009283087 A JP 2009283087A JP 2011123825 A JP2011123825 A JP 2011123825A
Authority
JP
Japan
Prior art keywords
character string
data
character
heading
headline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009283087A
Other languages
English (en)
Other versions
JP5318742B2 (ja
Inventor
Masaaki Ozawa
昌昭 小澤
Hirotaka Inoue
博貴 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Frontech Ltd filed Critical Fujitsu Frontech Ltd
Priority to JP2009283087A priority Critical patent/JP5318742B2/ja
Publication of JP2011123825A publication Critical patent/JP2011123825A/ja
Application granted granted Critical
Publication of JP5318742B2 publication Critical patent/JP5318742B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】見出し部分に対するデータ部分の文字列の縦横の並びが規則的に整列していない帳票においても、帳票の見出しに対応するデータ部分の文字列を対応付けする。
【解決手段】見出しと明細行の文字列との対応付けは、特定しやすい順に行い、残った解析しにくい項目を最後に消去法で特定する。まず、見出しと明細行の文字列とが1対1で対応する行を特定し(S12)、次に、固定長の文字列を特定し(S14)、文字列の折り返しのない可変長の文字列を特定し(S15)、文字列の折り返しがあり1対1で対応する可変長の文字列を特定し(S16)、文字列の折り返しのあり1対Nで対応する可変長の文字列を特定し(S17)、それぞれ対応付けする。そして、1明細が複数行の明細行を特定し(S18)、折り返した文字列を1つに統合する(S19)。
【選択図】図5

Description

本発明は文字認識方法、文字認識装置および文字認識プログラムに関し、特に無罫線の帳票におけるデータ部分が規則的に整列していない連記帳票の文字を認識する文字認識方法、文字認識装置および文字認識プログラムに関する。
金融機関等では、帳票に印字された文字の入力を自動化するために、帳票上の文字を認識する文字認識装置が用いられている。この文字認識装置では、文字認識の精度を高めるために、帳票に印刷される見出し部分およびデータ部分がどの位置にどのような順序で印刷されているかを定義し、その定義情報に基づいて文字列を認識している。
図24は連記式の帳票の一例を示す図である。
連記式の帳票の例として、ここでは、振込依頼書を示している。この帳票100によれば、その上部に、これが「振込依頼書」であり、振込人が「(株)あいうシステム」であり、振込指定日が何時であるかが記載されている。
帳票100の主要部には、明細101が表形式で記載されている。明細101は、見出し部分102、データ部分103および見出しフッタ104から構成され、見出し部分102は、1行の見出しヘッダを構成し、データ部分103は、複数の明細行からなっている。見出し部分102には、「銀行名」、「支店名」、「科目」、「口座番号」、「受取人氏名」および「金額」の項目が設定されている。データ部分103は、見出し部分102の各項目に対応した文字列のデータが振込先の数だけ連記されている。見出しフッタ104には、見出しの「振込合計」とその数値データとが記載されている。
この帳票100では、見出し部分102のそれぞれの項目とそれに対応するデータ部分103の文字列とは、予め定められた定義情報に従って整列して印字されている。その定義情報には、見出し部分102の項目およびこれに対応するデータ部分103のデータについての位置情報および文字情報が定義されていて、帳票100における文字列のレイアウトおよび文字列の属性等が分るようになっている。
このように、帳票100のデータ部分103を認識するには、見出し項目に対応するデータの位置情報を定義しておく必要があるため、あらかじめ定義情報を登録した帳票しか文字認識をすることができない。また、その帳票のフォーマットが変更になった場合には、登録した帳票の定義情報をその都度変更する必要がある。
これに対し、定義情報の登録を不要にしてフォーマットの変更があっても柔軟に対応することができる文字認識装置が知られている(たとえば、特許文献1参照)。この特許文献1に記載の文字認識装置によれば、帳票の文字の定義情報をあらかじめ作成することがなく、帳票の文字列の並びの規則性を利用して帳票の文字のレイアウトを検出し、そのレイアウトと、見出しの順序と、見出しに対応する文字列の定義情報とから、データ部分の文字列を認識している。
また、文字列を罫線枠の中に印字する帳票では、見出し部分およびそれに対応するデータ部分がそれぞれの罫線枠内に複数行記載されることがある。そのような場合、それぞれの罫線枠内では、途中で複数行に折り返された文字列が記載されているので、文字認識のときには、複数ある見出しの項目と複数行に記載された各行の文字列との対応付けを行うようにしている(たとえば、特許文献2参照)。
特開平11−161736号公報 特開2000−29983号公報
従来の文字認識装置は、帳票の文字列の並びの規則性を利用して帳票の文字列を認識しているため、帳票の文字列は、見出しの項目とそれに対応するデータ部分の文字列とは、一列に整列されていて、見出しに対するデータの対応付けが見出しの順番で行われている。しかしながら、近年では、見出しとデータ部分の文字列とが整列した上記のような定型的な帳票以外に、金融機関等の顧客(以下、エンドユーザという)から持ち込まれる帳票(以下、私製帳票という)についても同じように文字認識処理を行ないたいというニーズが出てきている。
私製帳票は、エンドユーザが自由な構想で作成した帳票であるため、必ずしも見出しとデータ部分の文字列とが規則的に整列されているとは限らない。たとえば、見出し行および明細行において、見出しの項目とそれに対応する文字列とが一列に並んで配置されずに文字列が最小の間隔で隔てて印刷されることがある。また、見出しに対応するデータが、たとえば、氏名の姓名を空白文字で結合した文字列とした場合、当該明細行では、見出しの項目数と文字列の数とが一致しなくなる。
さらに、見出しとデータ部分の文字列とが規則的に整列されていても、1つのデータが同じ列内で折り返した文字列で印刷されて、その明細行のみ2行表示となることがあり、その結果、明細行が1行のものと複数行のものとが混在することがある。
定型的ではない私製帳票は、帳票の文字列のレイアウトを検出する際に、上下に隣り合う2つの行の文字列の構造が同じであるかどうかで明細の範囲を判断する原理であるため、見出しに対するデータの文字列が整列していない場合、または見出しに対するデータが折り返しのために連続して存在していない場合は、帳票の文字列のレイアウトが正確に検出できず、文字列の文字認識処理ができないという問題点があった。
本発明はこのような点に鑑みてなされたものであり、見出し部分に対するデータ部分の文字列の並びが規則的に整列していない帳票においても、帳票の文字のレイアウトを解析し、帳票のデータ部分の文字列を認識する文字認識方法、文字認識装置および文字認識プログラムを提供することを目的とする。
本発明では上記の課題を解決するために、見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する文字認識方法において、前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、折り返しにより複数行に跨っている文字列を1つのデータとして統合し、データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、ことを特徴とする文字認識方法が提供される。
また、本発明では、帳票のイメージデータから文字列を抽出し、文字列の位置関係から論理行を抽出し、文字列を認識して見出し行を抽出するレイアウト解析処理部と、見出し部分の文字列とデータ部分の文字列とを対応付ける対応付け処理部と、データ部分の文字列を認識する文字認識処理部と、文字列の認識および特定に必要な辞書を格納しているデータ記憶部と、を備え、前記対応付け処理部は、見出しの総数と行のデータの文字列の数との比が同じ行を抽出して見出し部とデータ部とを無条件に対応させる標準データ特定部と、見出しに対応するデータ部分の文字列が固定長であるデータを特定する固定長データ特定部と、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのないデータを特定する第1可変長データ特定部と、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対1に対応するデータを特定する第2可変長データ特定部と、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対Nに対応するデータを特定する第3可変長データ特定部と、折り返しにより複数行に跨っている文字列を1つのデータとして統合する折り返しデータ統合部と、を有していることを特徴とする文字認識装置が提供される。
さらに、本発明では、見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する処理をコンピュータに実行させる文字認識プログラムであって、前記コンピュータに、前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、折り返しにより複数行に跨っている文字列を1つのデータとして統合し、データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、処理を実行させることを特徴とする文字認識プログラムが提供される。
このような文字認識方法、文字認識装置および文字認識プログラムによれば、データ部分の文字列に対し、容易に特定できる文字列から順に解析し、残った解析しにくい文字列を最後に消去法で特定することで、見出しに対するデータ部分の文字列を順次特定するようにした。これにより、無罫線の帳票に自由なレイアウトで印字された文字列を認識することが可能となる。
上記構成の文字認識方法、文字認識装置および文字認識プログラムは、容易に特定できる文字列から順に解析していく方法であるため、現状の定型的な帳票の作成仕様の範囲を超えた文字認識処理が可能となり、対応できる帳票の種類を増大させることができるという利点がある。
また、見出しとデータ部分の文字列とが一列に整列していないような非定型の帳票は、オペレータがレイアウトを解析して文字列を入力していたが、このようなレイアウト解析が困難で文字認識結果に誤りが多い帳票も文字認識処理が可能であるので、オペレータの入力負荷を軽減することができる。
第1の実施の形態に係る文字認識装置を示すブロック図である。 見出しに対するデータが一列に整列していない帳票例を示す図である。 複数行の明細行が混在する帳票例を示す図である。 レイアウト解析処理部の処理の流れを示すフローチャートである。 対応付け処理部の処理の流れを示すフローチャートである。 見出し文言辞書から取得した文字列の属性および特徴の情報を示す図である。 見出し部分とデータ部分とが1対1で対応している状態を説明する図である。 1対1で対応している見出し部分とデータ部分とが対応付けされた結果の帳票を示す図である。 見出しに対応するデータが固定長の文字列の文字列幅を計測する説明図である。 見出し部分とデータ部分とが1対1で対応していない行における固定長データを示す説明図である。 一致率を表す得点の例を示す図である。 固定長データが対応付けされた結果の帳票を示す図である。 見出し部分とデータ部分とが1対1で対応していない行における第1可変長データを示す説明図である。 一致率を表す得点の例を示す図である。 第1可変長データが対応付けされた結果の帳票を示す図である。 見出し部分とデータ部分とが1対1で対応していない行における第2可変長データを示す説明図である。 一致率を表す得点の例を示す図である。 第2可変長データが対応付けされた結果の帳票を示す図である。 見出し部分とデータ部分とが1対1で対応していない行における第3可変長データを示す説明図である。 一致率を表す得点の例を示す図である。 第3可変長データが対応付けされた結果の帳票を示す図である。 1明細が複数行であるかの判定を説明する図である。 文字認識装置に用いられるコンピュータのハードウェア構成例を示す図である。 連記式の帳票の一例を示す図である。
以下、本発明の実施の形態について、連記式の帳票として金融機関等で使用している振込依頼書を使用し、この振込依頼書に印刷されている文字列の認識を行う装置に適用した場合を例に図面を参照して詳細に説明する。
図1は第1の実施の形態に係る文字認識装置を示すブロック図である。
文字認識装置10は、スキャナ1の出力が接続されたレイアウト解析処理部11と、文字列の対応付けの処理を行う対応付け処理部12と、文字列の認識を行う文字認識処理部13と、処理に必要なデータ等を格納するデータ記憶部14とを備えている。
レイアウト解析処理部11は、スキャナ1によって取得された帳票のイメージデータを処理して帳票上の文字列の並びを解析する。対応付け処理部12は、標準データ特定部15と、固定長データ特定部16と、第1可変長データ特定部17と、第2可変長データ特定部18と、第3可変長データ特定部19と、折り返しデータ統合部20とを備え、レイアウト解析処理部11によって解析された文字列から見出し部分の項目と、それに対応するデータ部分のデータとを対応付ける処理を行う。
文字認識処理部13は、対応付け処理部12によって対応付けられたデータに対し、見出しの内容に対応した最適の文字認識方式を用いて文字認識を行う。
データ記憶部14は、見出し文言辞書21およびカテゴリ/フォント別辞書22を格納しており、レイアウト解析処理部11、対応付け処理部12および文字認識処理部13の処理に使用される。見出し文言辞書21は、あらかじめ定められた見出し文言とそのイメージデータおよび見出しに対応した文字列の属性および文字列の特徴を格納している。カテゴリ/フォント別辞書22は、データ部分の文字認識のための辞書として、文字認識カテゴリ/文字フォント別に用意している。
ここで、文字認識装置10が処理対象とする連記式の帳票について説明する。
図2は見出しに対するデータが一列に整列していない帳票例を示す図、図3は複数行の明細行が混在する帳票例を示す図である。
図2に示す帳票2は、その明細3が見出し部分4、データ部分5および見出しフッタ6から構成されているが、見出し部分4の見出しの項目に対するデータ部分5の文字列が一列に整列していない例、および1つの見出しの項目に対するデータ部分5の文字列が空白文字によって2つ以上(以下、Nという)の文字列を含む例を示している。このような帳票2は、見出しの項目とこれに対応する文字列が一列に整列していることを前提とした処理では、見出し部分4の見出しの項目に対するデータ部分5の文字列を正しく対応付けすることができない。
また、図3に示す帳票7は、そのデータ部分において、1明細行が複数行となる場合を示している。これは、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているものの、データ部分の文字列の一部が途中で折り返されてしまっていることによる。このため、データ部分は、1明細行が1行のものと複数行のものとが混在した形になっている。このような帳票7は、1明細行が1行であることを前提とした処理では、見出し部分の見出しの項目に対するデータ部分の文字列を正しく対応付けすることができない。
次に、文字認識装置10の動作について説明する。
図4はレイアウト解析処理部の処理の流れを示すフローチャートである。
レイアウト解析処理部11は、まず、スキャナ1で走査して得られたデータを受けて帳票をイメージ化する(ステップS1)。次に、レイアウト解析処理部11は、帳票のイメージデータを基に文字列を抽出する(ステップS2)。この文字列の抽出は、既存の技術を用いて行われる。たとえば、帳票のイメージデータを走査し、黒画素が連続する部分に接した外接矩形をラベルとして抽出する。抽出したラベルのうち、しきい値以内の距離にあるラベルは、1つの文字列を構成するラベルとして抽出する。
次に、レイアウト解析処理部11は、抽出されたラベルの座標から文字列の位置関係を解析し、横方向に並ぶ文字列については、論理行を構成する文字列として抽出する(ステップS3)。この論理行の抽出のとき、帳票用紙の外周の輪郭を解析し、イメージが斜行していれば、イメージを回転させて同一論理行の文字列については、これらが水平に並ぶように補正される。
次に、レイアウト解析処理部11は、帳票全体の文字列について、全カテゴリで文字認識を行う(ステップS4)。ここでは、抽出された文字列がどのカテゴリに属するものであるのか分らないので、レイアウト解析処理部11は、特定のカテゴリに限定することなく、データ記憶部14のすべてのカテゴリ/フォント別辞書22を使用して文字列を認識する。この文字認識は、抽出されたすべての文字列について行われる。
そして、レイアウト解析処理部11は、文字認識の結果をデータ記憶部14の見出し文言辞書21とマッチングを行い、明細の見出しが並ぶ行、すなわち、見出しヘッダ行および見出しフッタ行を抽出する(ステップS5)。見出し文言辞書21には、振込依頼書で使用される見出しの項目である「銀行名」、「支店名」、「科目」、「口座番号」、「受取人氏名」、「金額」および「振込合計」が登録されている。もちろん、この見出し文言辞書21は、金融機関等の業務で使用される他の見出しとなるすべての項目名も登録されている。
図5は対応付け処理部の処理の流れを示すフローチャート、図6は見出し文言辞書から取得した文字列の属性および特徴の情報を示す図である。
まず、対応付け処理部12は、見出し文言辞書21を参照して、見出しに対応するデータ部分の文字列の属性および文字列の特徴の情報を取得する(ステップS11)。図6に示したように、文字列の属性としては、文字数、文字種、データ形式、文字列折り返しおよび見出しの総数と1明細行のデータの文字列の数との比を定義している。文字列の特徴としては、見出し部分の行に出現する見出しの項目の順番と、見出しに対応するデータが固定長であるときの文字列幅を定義している。
図7は見出し部分とデータ部分とが1対1で対応している状態を説明する図、図8は1対1で対応している見出し部分とデータ部分とが対応付けされた結果の帳票を示す図、図9は見出しに対応するデータが固定長の文字列の文字列幅を計測する説明図である。
対応付け処理部12の標準データ特定部15では、明細行を順に解析し、見出しの総数とデータ部分の文字列の数とが同じである標準的な明細行を抽出し、見出しの項目に対するデータを無条件に対応させて特定する(ステップS12)。すなわち、図7に示したように、見出し部分には、その項目H1〜H6が6個あり、データ部分のデータD1〜D6も6個あって等しい場合には、見出しとデータとを1対1で対応できるため、無条件に対応させる。これにより、銀行名は「いろは銀行」、支店名は「本店」、科目は「普通」、口座番号は「1234567」、受取人氏名は「あいうえお(株)」、金額は「1,000,000」に対応付けられることになる。この結果、図8に示したように、帳票のデータ部分では、四角で囲った1行目、5行目および6行目の明細行が対応付け処理を終えたことになる。
ここで、見出しとデータとが1対1で対応付けられた明細行の文字桁固定項目の幅を算出する(ステップS13)。データの中で文字桁が固定の項目については、他の明細行についても同じ文字列幅を有しているので、ここで、文字桁固定項目の幅を算出しておく。文字桁が固定の項目は、図6の文字列の属性から、データ形式が固定長のデータ、すなわち、見出しの項目が「科目」および「口座番号」に対応するデータD3,D4が選択され、図9に示したように、データD3,D4の文字列幅が算出される。なお、ステップS12において、明細行が抽出されない場合は、抽出した1文字文のラベルおよび図6の文字列の属性から、1文字の幅に桁数を掛けた長さを、文字列の横幅として算出する。
ここまでは、見出しの総数と行のデータの文字列の数との比が同じである場合の処理について説明したが、以下では、見出しの総数と行のデータの文字列の数との比が異なる行の処理について説明する。
図10は見出し部分とデータ部分とが1対1で対応していない行における固定長データを示す説明図、図11は一致率を表す得点の例を示す図、図12は固定長データが対応付けされた結果の帳票を示す図である。
対応付け処理部12の固定長データ特定部16は、標準データ特定部15で抽出されなかった明細行を順に解析し、文字列の横幅、文字列の桁数、文字列の属性、文字列の位置から見出しに対する固定長データを特定する(ステップS14)。データ部分において、文字列が固定長のデータとして、科目および口座番号のデータがある。たとえば口座番号のデータを特定する場合は、まず、図10に示したように、行内の文字列を順次文字列の属性と比較し、口座番号のデータの文字列の属性から、明細行の文字列の幅が、半角7桁の幅のデータを抽出する。図10の例では、データD4,D7が該当する。この文字列と文字列の属性との比較は、1行に含まれる文字列(データD1〜D7)のすべてに対し、順次、判断要素による評価(得点制)で行う。
図10および図11から、行を構成する文字列が7つあり、7つすべてについて文字列の属性や特徴を比較している。図11の表には、判断要素による比較の一致率を得点換算した値が入っており、一致率が高いほど得点が高くなっている。図10の例の行で順番が4番目と7番目の文字列(データD4,D7)に得点が入っているが、文字列の幅、文字列の文字数、文字列の文字種、文字列の位置(順番)から総合的に4番目の文字列(データD4)の合計得点が高いため、4番目の文字列(データD4)が口座番号のデータと推定する。
また、固定長データである科目のデータの解析も口座番号のデータの解析と同様に行われ、さらに、これら固定長データの特定は、標準データ特定部15で抽出されなかったすべての明細行について解析する。この結果、図12に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。なお、斜線が入った四角は、解析済みの文字列を示している。
図13は見出し部分とデータ部分とが1対1で対応していない行における第1可変長データを示す説明図、図14は一致率を表す得点の例を示す図、図15は第1可変長データが対応付けされた結果の帳票を示す図である。
対応付け処理部12の第1可変長データ特定部17は、標準データ特定部15で抽出されなかった明細行の残りのデータを順に解析し、文字列が可変長で、文字列の折り返しがなく、文字種が半角英数文字とする第1可変長データを特定する(ステップS15)。この第1可変長データに該当する文字列は、図13の明細行の最後に位置し、見出しの項目H6の「金額」に対応するデータD7である。図14の表には、既に対応付けが確定した3番目および4番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図14の表によれば、その合計得点より、7番目の文字列(データD7)の得点が最も高いため、7番目の文字列(データD7)が金額のデータと推定する。
この第1可変長データである「科目」のデータの解析は、残りのすべての明細行について行われる。この結果、図15に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。
図16は見出し部分とデータ部分とが1対1で対応していない行における第2可変長データを示す説明図、図17は一致率を表す得点の例を示す図、図18は第2可変長データが対応付けされた結果の帳票を示す図である。
対応付け処理部12の第2可変長データ特定部18は、文字列比が1対1、文字列が6桁折り返しの可変長で、文字種が全角全カテゴリの文字とする第2可変長データを特定する(ステップS16)。この第2可変長データに該当する文字列は、図16では、見出しの「銀行名」および「支店名」に対応するデータD1,D2である。図17の表には、既に対応付けが確定した3番目、4番目および7番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図17の表によれば、その合計得点より、1番目の文字列(データD1)の得点が最も高いため、1番目の文字列(データD1)が銀行名のデータと推定する。次に、2番目の文字列(データD2)の得点も高いため、2番目の文字列(データD2)が支店名のデータと推定する。
この第2可変長データである「銀行名」および「支店名」のデータの解析は、残りのすべての明細行について行われる。この結果、図18に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。
図19は見出し部分とデータ部分とが1対1で対応していない行における第3可変長データを示す説明図、図20は一致率を表す得点の例を示す図、図21は第3可変長データが対応付けされた結果の帳票を示す図である。
対応付け処理部12の第3可変長データ特定部19は、文字列比が1対N、文字列が14桁折り返しの可変長で、文字種が全角全カテゴリの文字とする第3可変長データを特定する(ステップS17)。この第3可変長データに該当する文字列は、図19では、残りの見出しの「受取人氏名」に対応するデータD5,D6である。図20の表には、既に対応付けが確定した1〜4番目および7番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図20の表によれば、その合計得点より、5番目の文字列(データD5)の得点が最も高いため、5番目の文字列(データD5)が受取人氏名のデータと推定する。また、6番目の文字列(データD6)については、対応する見出しがなく、しかも、5番目の文字列と同じ文字列の属性であるため、6番目の文字列(データD6)は、5番目の文字列とともに受取人氏名のデータと判断する。
この第3可変長データである「受取人氏名」のデータの解析は、残りのすべての明細行について行われる。この結果、図21に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終え、1明細が1行のときのすべてのデータが対応付けられたことになる。
次に、図3に示した帳票7のように、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているが、データ部分における1明細行が1行の場合と複数行の場合とが混在しているときの処理について説明する。ただ、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているかどうかは、上記の対応付け処理では関係ないので、ここでは、1明細行が複数行からなる明細行を含むデータ部分がある場合の処理について説明する。
図22は1明細が複数行であるかの判定を説明する図である。
まず、対応付け処理部12の折り返しデータ統合部20は、固定長データ特定部16が抽出した文字列が固定長のデータ(科目または口座番号のデータ)に着目し、文字列が存在する隣接行の間隔から、文字列の折り返しがある明細行であるか判断し、それぞれの明細行の行数を特定する(ステップS18)。図22を見ると、たとえば、口座番号のデータのある行がデータ部分の1行目と2行目とに連続して存在するため、1行目は、1明細が1行であると判断する。口座番号のデータのある行で2行目の次は、5行目となって2行分の空きがあるので、2行目は、1明細が3行であると判断する。口座番号のデータのある行で5行目の次は、7行目となって1行分の空きがあるので、5行目は、1明細が2行であると判断する。
次に、折り返しデータ統合部20は、ステップS18で文字列の折り返しのある明細行であると判断した場合、口座番号のデータの位置を確定した後、複数行に跨って折り返したデータの文字列を、1項目に統合する(ステップS19)。すなわち、2行目の明細行では、2行に跨って折り返されている銀行名のデータの文字列が1項目に統合され、3行に跨って折り返されている受取人氏名のデータの文字列が1項目に統合される。5行目の明細行においても同様に、2行に跨って折り返されている銀行名のデータの文字列が1項目に統合され、2行に跨って折り返されている支店名のデータの文字列が1項目に統合される。
以上のように、対応付け処理部12では、見出しとデータ部分の文字列との対応付けは、見出し文言辞書21から取得した見出しに対するデータ部分の文字列の属性および文字列の特徴と、上記のステップS4で実際に文字認識した文字列の属性および文字列の特徴とを比較して、一致率が高いものを対応させている。しかも、見出しとデータ部分の文字列との対応付けは、文字列の属性および特徴の情報から容易に特定できるデータから順に解析していき、残った解析しにくい項目を最後に消去法で特定することにしている。
このようにして対応付けられた文字列は、その属性および特徴が判明している。したがって、最後に、文字認識処理部13が文字認識処理を行うときには、その文字列の文字種に適合したカテゴリの辞書を用いて文字認識をすることになる。これにより、たとえば見出しが口座番号のデータは、カテゴリが半角数字に絞り込まれた特定の辞書を使って文字認識されるので、1回目の文字認識(ステップS4)よりも高い精度で認識させることができる。
この文字認識装置10は、最後に、文字認識処理部13にて文字認識された結果を文字認識の呼び出し側へ通知する。
図23は文字認識装置に用いられるコンピュータのハードウェア構成例を示す図である。
コンピュータ50は、CPU(Central Processing Unit)51によって装置全体が制御されている。CPU51には、バス57を介してRAM(Random Access Memory)52、ハードディスクドライブ(HDD:Hard Disk Drive)53、グラフィック処理装置54、入力インタフェース55、および通信インタフェース56が接続されている。
RAM52には、CPU51に実行させるOS(Operating System)のプログラムや文字認識処理に必要なアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM52には、CPU51による処理に必要な各種データが格納される。HDD53には、OS、文字認識用のアプリケーションプログラム、文字認識に使われる辞書等が格納されている。
グラフィック処理装置54には、モニタ58が接続されている。グラフィック処理装置54は、CPU51からの命令に従って、画像をモニタ58の画面に表示させる。入力インタフェース55には、スキャナ1、キーボード59およびマウス60が接続されている。入力インタフェース55は、スキャナ1、キーボード59およびマウス60から送られてくる信号を、バス57を介してCPU51に送信する。
通信インタフェース56は、金融機関内のネットワークに接続されている。通信インタフェース56は、ネットワークを介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の文字認識装置10に係る処理機能を実現することができる。
1 スキャナ
2,7,100 帳票
3,101 明細
4,102 見出し部分
5 データ部分
6 見出しフッタ
10 文字認識装置
11 レイアウト解析処理部
12 対応付け処理部
13 文字認識処理部
14 データ記憶部
15 標準データ特定部
16 固定長データ特定部
17 第1可変長データ特定部
18 第2可変長データ特定部
19 第3可変長データ特定部
20 折り返しデータ統合部
21 見出し文言辞書
22 カテゴリ/フォント別辞書
50 コンピュータ
51 CPU
52 RAM
53 HDD
54 グラフィック処理装置
55 入力インタフェース
56 通信インタフェース
57 バス
58 モニタ
59 キーボード
60 マウス

Claims (10)

  1. 見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する文字認識方法において、
    前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、
    見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、
    見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、
    見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、
    見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、
    見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、
    折り返しにより複数行に跨っている文字列を1つのデータとして統合し、
    データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、
    ことを特徴とする文字認識方法。
  2. 前記見出し行を抽出した後に、データ部分の文字列の属性と文字列の特徴とを取得し、見出しに対応する前記明細行の文字列を解析する際に、取得した文字列の属性と文字列の特徴とを基にして見出しに対応する文字列を特定することを特徴とする請求項1記載の文字認識方法。
  3. 文字列の属性は、文字数、全角漢字か半角数字か半角英数か全角全カテゴリかを示す文字種、固定長か可変長かを示すデータ形式、文字列の折り返しの有無を示す文字列折り返し、および見出しの総数とデータの文字列の数との比を示す文字列数比を含み、文字列の特徴は、見出しの順番および固定長データの幅を示す文字列幅を含んでいることを特徴とする請求項2記載の文字認識方法。
  4. 見出しの項目をデータ部分の文字列と1対1で対応させた後に、取得した文字列の属性と文字列の特徴とから特定した見出しに対するデータ部分の固定長の文字列に対して文字列の幅を算出し、固定長のデータを特定する際に使用することを特徴とする請求項2記載の文字認識方法。
  5. 固定長のデータの特定は、データ部分の文字列を、算出された文字列の幅と、取得した文字列の属性および文字列の特徴を基にした文字列の文字数、文字列の文字種および文字列の位置との判断要素で比較し、それぞれの比較の一致率を得点換算し、合計得点で判断されることを特徴とする請求項4記載の文字認識方法。
  6. 前記第1ないし第3可変長データの特定は、データ部分の文字列を、取得した文字列の属性および文字列の特徴を基にした文字列の文字数、文字列の文字種および文字列の位置との判断要素で比較し、それぞれの比較の一致率を得点換算し、合計得点で判断されることを特徴とする請求項2記載の文字認識方法。
  7. 文字列の統合は、データ部分の固定長のデータの文字列が存在する隣接行の間隔から1明細行の行数を算出し、複数行の明細行にて折り返しによる前記第2および第3可変長データの文字列を統合することを特徴とする請求項1記載の文字認識方法。
  8. 帳票のイメージデータから文字列を抽出し、文字列の位置関係から論理行を抽出し、文字列を認識して見出し行を抽出するレイアウト解析処理部と、
    見出し部分の文字列とデータ部分の文字列とを対応付ける対応付け処理部と、
    データ部分の文字列を認識する文字認識処理部と、
    文字列の認識および特定に必要な辞書を格納しているデータ記憶部と、
    を備え、
    前記対応付け処理部は、
    見出しの総数と行のデータの文字列の数との比が同じ行を抽出して見出し部とデータ部とを無条件に対応させる標準データ特定部と、
    見出しに対応するデータ部分の文字列が固定長であるデータを特定する固定長データ特定部と、
    見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのないデータを特定する第1可変長データ特定部と、
    見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対1に対応するデータを特定する第2可変長データ特定部と、
    見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対Nに対応するデータを特定する第3可変長データ特定部と、
    折り返しにより複数行に跨っている文字列を1つのデータとして統合する折り返しデータ統合部と、
    を有していることを特徴とする文字認識装置。
  9. 見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する処理をコンピュータに実行させる文字認識プログラムであって、
    前記コンピュータに、
    前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、
    見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、
    見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、
    見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、
    見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、
    見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、
    折り返しにより複数行に跨っている文字列を1つのデータとして統合し、
    データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、
    処理を実行させることを特徴とする文字認識プログラム。
  10. 文字列を統合する処理は、データ部分の固定長のデータの文字列が存在する隣接行の間隔から1明細行の行数を算出し、複数行の明細行にて折り返しによる前記第2および第3可変長データの文字列を統合することを特徴とする請求項9記載の文字認識プログラム。
JP2009283087A 2009-12-14 2009-12-14 文字認識方法、文字認識装置および文字認識プログラム Active JP5318742B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009283087A JP5318742B2 (ja) 2009-12-14 2009-12-14 文字認識方法、文字認識装置および文字認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009283087A JP5318742B2 (ja) 2009-12-14 2009-12-14 文字認識方法、文字認識装置および文字認識プログラム

Publications (2)

Publication Number Publication Date
JP2011123825A true JP2011123825A (ja) 2011-06-23
JP5318742B2 JP5318742B2 (ja) 2013-10-16

Family

ID=44287627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009283087A Active JP5318742B2 (ja) 2009-12-14 2009-12-14 文字認識方法、文字認識装置および文字認識プログラム

Country Status (1)

Country Link
JP (1) JP5318742B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014010795A (ja) * 2012-07-03 2014-01-20 Fujitsu Ltd 電子帳票システム及び電子帳票の管理方法並びに電子帳票の管理プログラム
JP2020030722A (ja) * 2018-08-24 2020-02-27 ネットスマイル株式会社 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP2020119152A (ja) * 2019-01-22 2020-08-06 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP2021086479A (ja) * 2019-11-29 2021-06-03 株式会社リコー 情報処理システム、情報処理方法及びプログラム
JP2021193549A (ja) * 2020-06-05 2021-12-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334490A (ja) * 1992-05-29 1993-12-17 Fuji Xerox Co Ltd 表認識装置
JPH07110841A (ja) * 1993-03-18 1995-04-25 At & T Global Inf Solutions Internatl Inc 証券処理方法および処理装置
JPH11161736A (ja) * 1997-12-01 1999-06-18 Fujitsu Ltd 文字認識方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334490A (ja) * 1992-05-29 1993-12-17 Fuji Xerox Co Ltd 表認識装置
JPH07110841A (ja) * 1993-03-18 1995-04-25 At & T Global Inf Solutions Internatl Inc 証券処理方法および処理装置
JPH11161736A (ja) * 1997-12-01 1999-06-18 Fujitsu Ltd 文字認識方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014010795A (ja) * 2012-07-03 2014-01-20 Fujitsu Ltd 電子帳票システム及び電子帳票の管理方法並びに電子帳票の管理プログラム
JP2020030722A (ja) * 2018-08-24 2020-02-27 ネットスマイル株式会社 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP2021140831A (ja) * 2018-08-24 2021-09-16 ネットスマイル株式会社 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP7026386B2 (ja) 2018-08-24 2022-02-28 ネットスマイル株式会社 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP2020119152A (ja) * 2019-01-22 2020-08-06 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP7383882B2 (ja) 2019-01-22 2023-11-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
JP2021086479A (ja) * 2019-11-29 2021-06-03 株式会社リコー 情報処理システム、情報処理方法及びプログラム
JP7456131B2 (ja) 2019-11-29 2024-03-27 株式会社リコー 情報処理システム、情報処理方法及びプログラム
JP2021193549A (ja) * 2020-06-05 2021-12-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11636699B2 (en) 2020-06-05 2023-04-25 Beijing Baidu Netcom Science and Technology Co., Ltd Method and apparatus for recognizing table, device, medium
JP7299939B2 (ja) 2020-06-05 2023-06-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Also Published As

Publication number Publication date
JP5318742B2 (ja) 2013-10-16

Similar Documents

Publication Publication Date Title
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
JP4996940B2 (ja) 帳票認識装置およびそのプログラム
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US20040202352A1 (en) Enhanced readability with flowed bitmaps
JP5318742B2 (ja) 文字認識方法、文字認識装置および文字認識プログラム
JP5385349B2 (ja) レシート定義データ作成装置およびそのプログラム
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
GB2487600A (en) System for extracting data from an electronic document
US20080008391A1 (en) Method and System for Document Form Recognition
JP2005216203A (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
JP2012212293A (ja) 文書認識装置、文書認識方法、プログラム及び記憶媒体
CN102685347B (zh) 图像处理装置和图像处理方法
JPH11219394A (ja) 財務諸表自動入力装置
JP6325218B2 (ja) 文字認識結果検証装置及び文字読取システム
KR20100115048A (ko) 복사 문서 판별 시스템 및 그 방법
JP6379676B2 (ja) 出力プログラム、出力装置、および出力方法
JP2007280413A (ja) 財務諸表自動入力装置
US20240184985A1 (en) Information representation structure analysis device, and information representation structure analysis method
JP2003132078A (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP2020030722A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
WO2023074008A1 (ja) 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体
WO2023021636A1 (ja) データ処理装置、データ処理方法及びプログラム
JP2010262578A (ja) 帳票辞書生成装置、帳票識別装置、帳票辞書生成方法、及びプログラム
JP2011197844A (ja) 差分検知システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130710

R150 Certificate of patent or registration of utility model

Ref document number: 5318742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250