JP4754889B2

JP4754889B2 - 文字列抽出方法および装置

Info

Publication number: JP4754889B2
Application number: JP2005193285A
Authority: JP
Inventors: 洋渡部; 俊秀佐藤
Original assignee: Hitachi Engineering and Services Co Ltd
Current assignee: Hitachi Engineering and Services Co Ltd
Priority date: 2005-07-01
Filing date: 2005-07-01
Publication date: 2011-08-24
Anticipated expiration: 2025-07-01
Also published as: JP2007011824A

Description

本発明はイメージセンサで読み取った文書の文字列を抽出してデータベース化するための文字列抽出方法および装置に関する。

労働局で使用する求償事務資料などの文書は、書誌的事項が記載されている指定様式に求償者が手書きで数字や文字を記入している。求償者の記入データはイメージセンサで読み込んで得た文字画像を文字データに変換して文字列として抽出している。抽出する求償者の記入データ、つまり抽出すべき被抽出文字列を自動的に探索してコンピュータに格納しデータベース化している。

イメージセンサで読み込んで得た文字画像の座標（位置）によって被抽出文字列を指定することは困難である。従来、求償者が記入した受付番号“０３１０２２６９５”を抽出する場合には、書誌的事項として記載されている“受付番号”という文字列を探索して辞書データとの比較照合を行い、一致したときに“受付番号”という文字列の後に書かれている文字列を抽出するようにしている。

なお、文字列を抽出するには、文字列に「網掛け」、「下線」などの文字列属性を付して抽出あるいは領域（位置）を設定して抽出することが知られている。前者は下記特許文献１に記載されており、後者は下記特許文献２に記載されている。前者を求償事務資料に適用することは全体システムを変更する必要があり、実用上困難なことである。

特開平７−２４９０３４号公報特開平８−２９３００３号公報

従来技術は文書に書誌的事項として記載されている１つの文字列を探索して被抽出文字列を抽出するようにしている。しかし、漢字は非常によく似た形のものが多いため、文字画像から文字データに変換すると１００％認識できるという確率が低くなる。誤認識によりエラーが発生した場合には、手作業で被抽出文字列を入力する必要があり修正手入力に多大の時間を要するという問題点を有する。

本発明の目的は被抽出文字列を抽出する確率を大幅に向上させ手作業による被抽出文字列の入力時間を低減できる文字列抽出方法および装置を提供することにある。

本発明の特徴とするところはイメージセンサから出力される文書の文字画像を文字データに変換して被抽出文字列を抽出する際に、被抽出文字列の直前および直後の２つの文字列（以後、前後文字列と称する）に基づいて抽出するようにし、前後文字列については予め定めた一部の文字が一致していると前後の該当文字列であると判定して被抽出文字列を抽出するようにしたことにある。

換言すると、本発明は被抽出文字列の前後文字列中に一部誤認識された文字が含まれていても、所定の認識率以上の場合には一致したものと見なし、前後文字列に挟まれる被抽出文字列を抽出するものである。

本発明は、被抽出文字列の前後文字列に基づいて被抽出文字列を抽出するようにし、かつ、前後の文字列については予め定めた一部の文字が一致していると前後の該当文字列であると判定しているので被抽出文字列の抽出確率が高くなり、手入力作業の頻度を減らしてデータベースへの格納作業を効率よく行うことができる。

文字変換手段はイメージセンサから出力される文書の文字画像を文字データに変換する。文字列抽出手段は文字変換手段で変換された文字列を抽出する。辞書テーブルには文字列抽出手段で抽出すべき被抽出文字列の前後文字列が格納されている。前後文字列は文書の書誌的事項で、辞書テーブルには１つの文字列について一部の文字が異なる複数の候補文字列が格納されている。文字列抽出手段は被抽出文字列の前後の文字列を辞書テーブルから検索し、予め定めた一部の文字が一致していると該当文字列であると判定して被抽出文字列を抽出する。

図１に本発明の一実施例を示す。

図１において、求償事務資料の文書１はイメージセンサ２で読取られる。イメージセンサ２が出力する文書１の文字画像は文字変換手段（文字認識手段）３に加えられる。文字変換手段３は文字画像を文字データに変換する。

文字列抽出手段４は文字変換手段３で変換された文書１の文字列をスキャンして被抽出文字列を抽出する。辞書テーブル５には文字列抽出手段４で抽出すべき被抽出文字列の前後の文字列が格納されている。前後の文字列は文書１の書誌的事項で、辞書テーブル５には１つの文字列について一部の文字が異なる複数の候補文字列が格納されている。文字列抽出手段４は被抽出文字列の前後の文字列を辞書テーブル５から検索し、予め定めた一部の文字が一致していると前後の該当文字列であると判定して被抽出文字列を抽出する。

文字列抽出手段４で抽出した被抽出文字列は書込み制御手段６に取込まれデータベース７に格納される。

図２に文書１の一例として失業保険給付申請書の一部分を示す。

文書（失業保険給付申請書）１には指定の様式で作成された用紙に求償者が記載するための所定の書誌的事項が記述されている。書誌的事項は、「受付番号」、「受付年月日」、「申請者氏名」、「年齢」、「歳」、「住所」、「郵便番号」、「電話番号」、「休職期間」、「休職日数」、「日」などである。これらの書誌的事項が被抽出文字列の前後文字列になる。なお、「歳」と「日」は一文字であるが、本明細書では前後の文字列と称する。

求償者は各書誌的事項に対し所定事項を記載する。受付番号は“０３１０２２６９５”、受付年月日は“平成１７年３月１４日”、申請者氏名は“日立太郎”、年齢は“３５”、住所は“日立市助川町３−２−２”、郵便番号は“３１７−００７３”、電話番号は“０２９４−５５−９１１３”、休職期間は“平成１６年１０月１０日から平成１７年２月１０日まで”、休職日数は“１２０”と記載する。

このように求償者が記載した文書１はイメージセンサ２で読取られ文字画像として文字変換手段３に入力される。文字変換手段３は文字画像をデジタル信号の文字データに変換する。求償者が記載した所定事項は被抽出文字列になり、その前後文字列の関係は図３に示すようになる。被抽出文字列の前後文字列は辞書テーブル５に格納されている。

辞書テーブル５には前後文字列について複数の候補文字列が格納されている。被抽出文字列の前後文字列には誤認識される文字が含まれていることが多くある。例えば、図２に示す求償事務資料では、誤認識されやすい文字列の事例を図４に示す。点線丸で囲んだ文字が誤認識されやすい文字である。

本発明では前後文字列について複数の候補文字列を用意している。前後文字列は抽出のための文字列であり、実際に認識した文字列とが全て一致していなくとも、候補文字列が選択されるようにしている。前後文字列の判定においては、多数の文字や語群を辞書テーブル５に登録しておき、一致の判定基準をゆるくする。

被抽出文字列の前後文字列について実際に認識した文字列と全て一致しなければ判定できないように設定すると、例えば５文字のうち１文字のみが異なっていても候補文字列を抽出できなくなる。このため、被抽出文字列の該当なしと判定し修正手入力の頻度が増加するので、前後文字列の判定基準をゆるく設定している。

辞書テーブル５に登録する候補文字列の一例を図５に示す。図５において「？」はどんな文字でも対応するよう設定されている。文字変換手段３で文字変換した文字列が「申請番号」であるとすると、候補文字列の（１）〜（６）までのどれにも合っているので、一致していると判定する。“申請審”は（１）に該当しているので、一致していると判定する。また、文字変換した文字列が一部欠けて「申請番」で認識されたときは、３文字合っているので一致していると判定する。文字変換した文字列が「甲謂審号」の場合には“号”の１文字しか合っておらず、（１）〜（６）までの何れにも該当しないため、不一致と判定する。

このように本発明では予め定めた一部の文字が一致していると該当文字列であると判定するようにしている。すなわち、被抽出文字列の前後文字列が一部間違っていても、所定の認識率以上、図５の例では４文字の内、２文字が合っている条件（５０％）であれば、一致していると判定する。この認識率は、求償資料に記載されている各種の文字列において、同一文字を含んでいた場合に誤認識しない程度で、極力低い割合に設定しておくのが望ましい。

次に、文字列抽出手段４の動作を図６のフローチャートを参照して説明する。

文字列抽出手段４はステップＳ１において文字変換手段３で認識した文字列から抽出すべき被抽出文字列の前後文字列を辞書テーブル５から取り込む。受付番号である“０３１０２２６９５”を抽出するために、前文字列を「受付番号」、後文字列を「受付年月日」に設定する。

ステップＳ２に移行して文字変換されたｎ番目（１番目）の文字列、図２の例では「失業保険給付申請書」を切り出し、ステップＳ３で１番目の文字列が前文字列（前候補文字列）と一致するかどうかを判定する。この場合には一致する文字列がないのでステップＳ４に移る。

ステップＳ４では、文書１（抽出対象資料）の全文字列数が１００以下のため、ｎの最大値を１００に設定している。ｎは１なのでステップＳ５に移り１を加算したｎを２としてステップＳ２へ戻る。ここでのｎは２に変化しており、２番目の文字列は「受付番号」であり、ステップＳ３で前候補文字列に一致していると判定しステップＳ７に移行する。

ステップＳ７ではｎ＋２番目、すなわち４番目の文字列である「受付年月日」が切り出される。この文字列は後文字列（後文字列候補）に設定されているので、ステップＳ８において一致していると判定し、ステップＳ９に移行してｎ＋１番目、すなわち３番目の文字列である“０３１０２２６９５”を抽出する。

次の被抽出文字列“平成１７年３月１４日”を抽出する場合には、ステップＳ１で前文字列を「受付年月日」、後文字列を「申請者氏名」に設定する。ステップＳ２ではｎが１であり、１番目の文字列「失業保険給付申請書」を切り出し、ステップＳ３に移行して１番目の文字列が前候補文字列と一致しているかどうかを判定する。この場合には一致する文字列がないので、ステップＳ４へ進む。

ステップＳ４ではｎが１であり、１００以下なのでステップＳ５に移り１を加算したｎを２としてステップＳ２へ戻る。ｎは２であり、２番目の文字列は［受付番号］であり、ステップＳ３において前候補文字列に一致するものがないと判定しステップＳ４に移行する。ｎは１００以下の２であり、ステップＳ４からステップＳ５に移り１を加算したｎを３としてステップＳ２に戻る。

ｎが３で、３番目の文字列は“０３１０２２６９５”であり、やはりこの文字列は前候補文字列に設定されていないためステップＳ３からステップＳ４に移行する。ｎ（３）は１００以下のためステップＳ５へ進み、ｎは１加算されて４となり、ステップＳ２に戻る。

ステップＳ２では、ｎが４、すなわち４番目の文字列が「受付年月日」を切り出し、この文字列は前候補文字列に設定されているので、ステップＳ７でｎ＋２すなわち６番目の文字列「申請者氏名」が切り出される。ステップＳ８に移りこの文字列が後候補文字列と一致しているか判定する。文字列「申請者氏名」は後候補文字列に設定されているため、ステップＳ９において、ｎ＋１番目すなわち５番目の文字列“平成１７年３月１４日”が抽出される。

このように一つの被抽出文字列の抽出が終了したら、順次、前後候補文字列をプログラムにより自動的に変えることによって、以下同様にして図３に示すＮｏ．１から９までの被抽出文字列を自動的に抽出し、認識文字データとして書込み制御手段６によりデータベース７に格納される。

文字列判定のステップＳ３とＳ８において文字列が前後候補文字列に一致しない間は、ステップＳ４のｎが１００を超えるまで、加算ステップＳ５、文字列切り出しステップＳ２、判定ステップＳ３、文字列切り出しステップＳ７、文字列判定ステップＳ８のループを繰り返し実行する。ｎが１００を超えるとステップＳ６で抽出対象なしとしてエラーメッセージが発せられる。

このようにして被抽出文字列を抽出するのであるが、被抽出文字列の前後文字列に基づいて被抽出文字列を抽出するようにし、かつ、前後文字列については予め定めた一部の文字が一致していると前後の該当文字列であると判定しているので被抽出文字列の抽出確率が高くなり、手入力作業の頻度を減らしてデータベースへの格納作業を効率よく行うことができる。

図７に文字列抽出処理の他の例によるフローチャートを示す。

図７は辞書テーブル５から前候補文字列、後候補文字列を読み出して連続する３個の文字列を切り出し、前文字列、後文字列をそれぞれ前候補文字列、後候補文字列と比較し、両方が一致したら中間の文字列を被抽出文字列として抽出するようにしたものである。

いずれか一方、もしくは両方が一致しないときは、１個ずらして３個の連続する文字列を切り出し同様の比較を行う。前、後文字列が前、後候補文字列と一致すれば、中間の文字列が被抽出文字列となる。

文字列抽出手段４はステップＳ１０において前候補文字列を「受付番号」、後候補文字列を「受付年月日」に設定するために、前後候補文字列を辞書テーブル５から取り込み処理を実行する。ステップＳ１１では、イメージセンサ２で認識した文字画像から文字変換された連続する３個の文字列（Ｍ：１番目の文字列「失業保険給付申請書」、Ｍ＋１：２番目の文字列「受付番号」、Ｍ＋２：３番目の文字列“０３１０２２６９５”）を切り出す。

ステップＳ１２に移行して切り出したＭとＭ＋２、すなわち「失業保険給付申請書」と“０３１０２２６９５”が前候補文字列、後候補文字列に一致しているか比較する。ステップＳ１２の比較結果をステップＳ１５で判定する。この場合には一致する文字列がないのでステップＳ１４に移行する。

ステップＳ１４ではＭが１で１００以下なので１を加算してＭを２としてステップＳ１１に戻る。Ｍは２に変化しており、Ｍ＋１は３、Ｍ＋２は４となり、３個の文字列は「受付番号」、“０３１０２２６９５”、「受付年月日」となって切り出される。ステップＳ１２においてＭ（２番目）とＭ＋２（４番目）の文字列が前後候補文字列に一致しているか比較する。ステップＳ１５では、前候補文字列の「受付番号」、後候補文字列の「受付年月日」が両者とも一致しているため、ステップＳ１６に移りＭ＋１（３番目）の文字列“０３１０２２６９５”を抽出する。

次の被抽出文字列“平成１７年３月１４日”を抽出する場合には、ステップＳ１０の前文字列を「受付年月日」、後文字列を「申請者氏名」に設定する。第一回目の抽出例と同様に、各ステップの繰り返し処理によって“平成１７年３月１４日”が抽出される。以下同様にして、図３に示すＮｏ．１〜９までの被抽出文字列が抽出され、認識文字データとしてデータベース７に格納することができる。

文字列がステップＳ１２とＳ１５による前後候補文字列に一致しない間は、ステップＳ１３でＭが１００を超えたと判定するまでステップＳ１４、ステップＳ１１、ステップＳ１２、ステップＳ１５のループを循環する。ステップＳ１３でＭが１００を超えたと判定するとステップＳ１４に移行して抽出対象なしとしてエラーメッセージを発生する。

このように実施例２においても被抽出文字列の前後文字列が文字変換手段３で認識した文字列と全て一致しなくとも、所定の割合以上が一致していれば該当しているとみなし、その間に挟まれる文字列を抽出している。したがって、従来の方式に比べて抽出率が高くなり、修正手入力の頻度を減らしてデータベースへの格納作業を効率よく行うことができる。

本発明の一実施例を示す構成図である。文書の一例を示す求償事務資料の部分図である。本発明の説明図である。本発明の説明図である。本発明の辞書テーブルの説明図である。本発明の実施例１の動作を説明するためのフローチャートである。本発明の実施例２の動作を説明するためのフローチャートである。

符号の説明

１…文書（求償事務資料）、２…イメージセンサ、３…文字変換手段、４…文字列抽出手段、５…辞書テーブル、６…書込み制御手段、７…データベース。

Claims

複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列とからなる文字列で構成された文書の各文字列の文字画像をイメージセンサで取得し、該文字画像を文字データに変換し、文字列抽出手段によって前記変換された文字データに基づいて目的の被抽出文字列として抽出する文字列抽出方法において、
被抽出文字列の前後の行の書誌的事項の文字列が該被抽出文字列前後の書誌的事項の文字列として、及び書誌的事項の文字列の候補文字列が辞書テーブルに予め格納され、
文字変換手段が、前記イメージセンサで取得された前記文字列の文字画像を文字データに変換し、
前記文字列抽出手段が、複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列からなる文字列から、所定事項記載の被抽出文字列を切り出し、二つの書誌的事項の文字列を取り込み、取り込まれた書誌的事項の文字列が予め格納された被抽出文字列に対する前後の書誌的事項の文字列であるかを判定し、該被抽出文字列を被抽出文字列として抽出するものであって、この際に取り込まれた書誌的事項の文字列が予め格納された書誌的事項の文字列の候補文字列と所定の認識率で一致するかを判定して一致判定された時に、前記切り出した被抽出文字列を目的の被抽出文字列として抽出すること
を特徴とする文字列抽出方法。
複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列とからなる文字列で構成された文書の各文字列の文字画像をイメージセンサで取得し、該文字画像を文字データに変換し、文字列抽出手段によって前記変換された文字データに基づいて被抽出文字列として抽出する文字列抽出装置において、
辞書テーブルに、被抽出文字列の前後の行の書誌的事項の文字列が前後の文字列として、予め格納され、
文字変換手段が、前記イメージセンサで取得された前記文字列の文字画像を文字データに変換し、
前記文字抽出手段が、複数の行の異なる被抽出文字列から切り出した被抽出文字列を取り込むと共に二つの書誌的事項の文字列を取り込み、取り込まれた書誌的事項の文字列が予め格納された被抽出文字列に対する前後の書誌的事項の文字列であるかを判定し、該被抽出文字列を被抽出文字列として抽出するものであって、この際に取り込まれた書誌的事項の文字列が予め格納された書誌的事項の前後の文字列のそれぞれと所定の認識率で一致するかを判定して一致判定された時に、前記切り出した被抽出文字列を目的の被抽出文字列として抽出すること
を特徴とする文字列抽出装置。
請求項２において、前記辞書テーブルに、書誌的事項の前後の文字列候補文字列が、一部の文字を異なって構成された複数の文字列として格納され、前記文字抽出手段が、前記書誌的事項の文字列と異なって構成された候補の文字列のいずれかの文字列との一致判定を行い、１つでも一致するときには一致判定したとすることを特徴とする文字列抽出装置。
請求項１において、前記書誌的事項の文字列は、前記被抽出文字列の直前直後の書誌的事項の文字列であることを特徴とする文字列抽出装置。