JP4754889B2 - 文字列抽出方法および装置 - Google Patents

文字列抽出方法および装置 Download PDF

Info

Publication number
JP4754889B2
JP4754889B2 JP2005193285A JP2005193285A JP4754889B2 JP 4754889 B2 JP4754889 B2 JP 4754889B2 JP 2005193285 A JP2005193285 A JP 2005193285A JP 2005193285 A JP2005193285 A JP 2005193285A JP 4754889 B2 JP4754889 B2 JP 4754889B2
Authority
JP
Japan
Prior art keywords
character string
character
extracted
string
bibliographic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005193285A
Other languages
English (en)
Other versions
JP2007011824A (ja
Inventor
洋 渡部
俊秀 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Engineering and Services Co Ltd
Original Assignee
Hitachi Engineering and Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Engineering and Services Co Ltd filed Critical Hitachi Engineering and Services Co Ltd
Priority to JP2005193285A priority Critical patent/JP4754889B2/ja
Publication of JP2007011824A publication Critical patent/JP2007011824A/ja
Application granted granted Critical
Publication of JP4754889B2 publication Critical patent/JP4754889B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明はイメージセンサで読み取った文書の文字列を抽出してデータベース化するための文字列抽出方法および装置に関する。
労働局で使用する求償事務資料などの文書は、書誌的事項が記載されている指定様式に求償者が手書きで数字や文字を記入している。求償者の記入データはイメージセンサで読み込んで得た文字画像を文字データに変換して文字列として抽出している。抽出する求償者の記入データ、つまり抽出すべき被抽出文字列を自動的に探索してコンピュータに格納しデータベース化している。
イメージセンサで読み込んで得た文字画像の座標(位置)によって被抽出文字列を指定することは困難である。従来、求償者が記入した受付番号“031022695”を抽出する場合には、書誌的事項として記載されている“受付番号”という文字列を探索して辞書データとの比較照合を行い、一致したときに“受付番号”という文字列の後に書かれている文字列を抽出するようにしている。
なお、文字列を抽出するには、文字列に「網掛け」、「下線」などの文字列属性を付して抽出あるいは領域(位置)を設定して抽出することが知られている。前者は下記特許文献1に記載されており、後者は下記特許文献2に記載されている。前者を求償事務資料に適用することは全体システムを変更する必要があり、実用上困難なことである。
特開平7−249034号公報 特開平8−293003号公報
従来技術は文書に書誌的事項として記載されている1つの文字列を探索して被抽出文字列を抽出するようにしている。しかし、漢字は非常によく似た形のものが多いため、文字画像から文字データに変換すると100%認識できるという確率が低くなる。誤認識によりエラーが発生した場合には、手作業で被抽出文字列を入力する必要があり修正手入力に多大の時間を要するという問題点を有する。
本発明の目的は被抽出文字列を抽出する確率を大幅に向上させ手作業による被抽出文字列の入力時間を低減できる文字列抽出方法および装置を提供することにある。
本発明の特徴とするところはイメージセンサから出力される文書の文字画像を文字データに変換して被抽出文字列を抽出する際に、被抽出文字列の直前および直後の2つの文字列(以後、前後文字列と称する)に基づいて抽出するようにし、前後文字列については予め定めた一部の文字が一致していると前後の該当文字列であると判定して被抽出文字列を抽出するようにしたことにある。
換言すると、本発明は被抽出文字列の前後文字列中に一部誤認識された文字が含まれていても、所定の認識率以上の場合には一致したものと見なし、前後文字列に挟まれる被抽出文字列を抽出するものである。
本発明は、被抽出文字列の前後文字列に基づいて被抽出文字列を抽出するようにし、かつ、前後の文字列については予め定めた一部の文字が一致していると前後の該当文字列であると判定しているので被抽出文字列の抽出確率が高くなり、手入力作業の頻度を減らしてデータベースへの格納作業を効率よく行うことができる。
文字変換手段はイメージセンサから出力される文書の文字画像を文字データに変換する。文字列抽出手段は文字変換手段で変換された文字列を抽出する。辞書テーブルには文字列抽出手段で抽出すべき被抽出文字列の前後文字列が格納されている。前後文字列は文書の書誌的事項で、辞書テーブルには1つの文字列について一部の文字が異なる複数の候補文字列が格納されている。文字列抽出手段は被抽出文字列の前後の文字列を辞書テーブルから検索し、予め定めた一部の文字が一致していると該当文字列であると判定して被抽出文字列を抽出する。
図1に本発明の一実施例を示す。
図1において、求償事務資料の文書1はイメージセンサ2で読取られる。イメージセンサ2が出力する文書1の文字画像は文字変換手段(文字認識手段)3に加えられる。文字変換手段3は文字画像を文字データに変換する。
文字列抽出手段4は文字変換手段3で変換された文書1の文字列をスキャンして被抽出文字列を抽出する。辞書テーブル5には文字列抽出手段4で抽出すべき被抽出文字列の前後の文字列が格納されている。前後の文字列は文書1の書誌的事項で、辞書テーブル5には1つの文字列について一部の文字が異なる複数の候補文字列が格納されている。文字列抽出手段4は被抽出文字列の前後の文字列を辞書テーブル5から検索し、予め定めた一部の文字が一致していると前後の該当文字列であると判定して被抽出文字列を抽出する。
文字列抽出手段4で抽出した被抽出文字列は書込み制御手段6に取込まれデータベース7に格納される。
図2に文書1の一例として失業保険給付申請書の一部分を示す。
文書(失業保険給付申請書)1には指定の様式で作成された用紙に求償者が記載するための所定の書誌的事項が記述されている。書誌的事項は、「受付番号」、「受付年月日」、「申請者氏名」、「年齢」、「歳」、「住所」、「郵便番号」、「電話番号」、「休職期間」、「休職日数」、「日」などである。これらの書誌的事項が被抽出文字列の前後文字列になる。なお、「歳」と「日」は一文字であるが、本明細書では前後の文字列と称する。
求償者は各書誌的事項に対し所定事項を記載する。受付番号は“031022695”、受付年月日は“平成17年3月14日”、申請者氏名は“日立 太郎”、年齢は“35”、住所は“日立市助川町3−2−2”、郵便番号は“317−0073”、電話番号は“0294−55−9113”、休職期間は“平成16年10月10日から平成17年2月10日まで”、休職日数は“120”と記載する。
このように求償者が記載した文書1はイメージセンサ2で読取られ文字画像として文字変換手段3に入力される。文字変換手段3は文字画像をデジタル信号の文字データに変換する。求償者が記載した所定事項は被抽出文字列になり、その前後文字列の関係は図3に示すようになる。被抽出文字列の前後文字列は辞書テーブル5に格納されている。
辞書テーブル5には前後文字列について複数の候補文字列が格納されている。被抽出文字列の前後文字列には誤認識される文字が含まれていることが多くある。例えば、図2に示す求償事務資料では、誤認識されやすい文字列の事例を図4に示す。点線丸で囲んだ文字が誤認識されやすい文字である。
本発明では前後文字列について複数の候補文字列を用意している。前後文字列は抽出のための文字列であり、実際に認識した文字列とが全て一致していなくとも、候補文字列が選択されるようにしている。前後文字列の判定においては、多数の文字や語群を辞書テーブル5に登録しておき、一致の判定基準をゆるくする。
被抽出文字列の前後文字列について実際に認識した文字列と全て一致しなければ判定できないように設定すると、例えば5文字のうち1文字のみが異なっていても候補文字列を抽出できなくなる。このため、被抽出文字列の該当なしと判定し修正手入力の頻度が増加するので、前後文字列の判定基準をゆるく設定している。
辞書テーブル5に登録する候補文字列の一例を図5に示す。図5において「?」はどんな文字でも対応するよう設定されている。文字変換手段3で文字変換した文字列が「申請番号」であるとすると、候補文字列の(1)〜(6)までのどれにも合っているので、一致していると判定する。“申請審”は(1)に該当しているので、一致していると判定する。また、文字変換した文字列が一部欠けて「申請番」で認識されたときは、3文字合っているので一致していると判定する。文字変換した文字列が「甲謂審号」の場合には“号”の1文字しか合っておらず、(1)〜(6)までの何れにも該当しないため、不一致と判定する。
このように本発明では予め定めた一部の文字が一致していると該当文字列であると判定するようにしている。すなわち、被抽出文字列の前後文字列が一部間違っていても、所定の認識率以上、図5の例では4文字の内、2文字が合っている条件(50%)であれば、一致していると判定する。この認識率は、求償資料に記載されている各種の文字列において、同一文字を含んでいた場合に誤認識しない程度で、極力低い割合に設定しておくのが望ましい。
次に、文字列抽出手段4の動作を図6のフローチャートを参照して説明する。
文字列抽出手段4はステップS1において文字変換手段3で認識した文字列から抽出すべき被抽出文字列の前後文字列を辞書テーブル5から取り込む。受付番号である“031022695”を抽出するために、前文字列を「受付番号」、後文字列を「受付年月日」に設定する。
ステップS2に移行して文字変換されたn番目(1番目)の文字列、図2の例では「失業保険給付申請書」を切り出し、ステップS3で1番目の文字列が前文字列(前候補文字列)と一致するかどうかを判定する。この場合には一致する文字列がないのでステップS4に移る。
ステップS4では、文書1(抽出対象資料)の全文字列数が100以下のため、nの最大値を100に設定している。nは1なのでステップS5に移り1を加算したnを2としてステップS2へ戻る。ここでのnは2に変化しており、2番目の文字列は「受付番号」であり、ステップS3で前候補文字列に一致していると判定しステップS7に移行する。
ステップS7ではn+2番目、すなわち4番目の文字列である「受付年月日」が切り出される。この文字列は後文字列(後文字列候補)に設定されているので、ステップS8において一致していると判定し、ステップS9に移行してn+1番目、すなわち3番目の文字列である“031022695”を抽出する。
次の被抽出文字列“平成17年3月14日”を抽出する場合には、ステップS1で前文字列を「受付年月日」、後文字列を「申請者氏名」に設定する。ステップS2ではnが1であり、1番目の文字列「失業保険給付申請書」を切り出し、ステップS3に移行して1番目の文字列が前候補文字列と一致しているかどうかを判定する。この場合には一致する文字列がないので、ステップS4へ進む。
ステップS4ではnが1であり、100以下なのでステップS5に移り1を加算したnを2としてステップS2へ戻る。nは2であり、2番目の文字列は[受付番号]であり、ステップS3において前候補文字列に一致するものがないと判定しステップS4に移行する。nは100以下の2であり、ステップS4からステップS5に移り1を加算したnを3としてステップS2に戻る。
nが3で、3番目の文字列は“031022695”であり、やはりこの文字列は前候補文字列に設定されていないためステップS3からステップS4に移行する。n(3)は100以下のためステップS5へ進み、nは1加算されて4となり、ステップS2に戻る。
ステップS2では、nが4、すなわち4番目の文字列が「受付年月日」を切り出し、この文字列は前候補文字列に設定されているので、ステップS7でn+2すなわち6番目の文字列「申請者氏名」が切り出される。ステップS8に移りこの文字列が後候補文字列と一致しているか判定する。文字列「申請者氏名」は後候補文字列に設定されているため、ステップS9において、n+1番目すなわち5番目の文字列“平成17年3月14日”が抽出される。
このように一つの被抽出文字列の抽出が終了したら、順次、前後候補文字列をプログラムにより自動的に変えることによって、以下同様にして図3に示すNo.1から9までの被抽出文字列を自動的に抽出し、認識文字データとして書込み制御手段6によりデータベース7に格納される。
文字列判定のステップS3とS8において文字列が前後候補文字列に一致しない間は、ステップS4のnが100を超えるまで、加算ステップS5、文字列切り出しステップS2、判定ステップS3、文字列切り出しステップS7、文字列判定ステップS8のループを繰り返し実行する。nが100を超えるとステップS6で抽出対象なしとしてエラーメッセージが発せられる。
このようにして被抽出文字列を抽出するのであるが、被抽出文字列の前後文字列に基づいて被抽出文字列を抽出するようにし、かつ、前後文字列については予め定めた一部の文字が一致していると前後の該当文字列であると判定しているので被抽出文字列の抽出確率が高くなり、手入力作業の頻度を減らしてデータベースへの格納作業を効率よく行うことができる。
図7に文字列抽出処理の他の例によるフローチャートを示す。
図7は辞書テーブル5から前候補文字列、後候補文字列を読み出して連続する3個の文字列を切り出し、前文字列、後文字列をそれぞれ前候補文字列、後候補文字列と比較し、両方が一致したら中間の文字列を被抽出文字列として抽出するようにしたものである。
いずれか一方、もしくは両方が一致しないときは、1個ずらして3個の連続する文字列を切り出し同様の比較を行う。前、後文字列が前、後候補文字列と一致すれば、中間の文字列が被抽出文字列となる。
文字列抽出手段4はステップS10において前候補文字列を「受付番号」、後候補文字列を「受付年月日」に設定するために、前後候補文字列を辞書テーブル5から取り込み処理を実行する。ステップS11では、イメージセンサ2で認識した文字画像から文字変換された連続する3個の文字列(M:1番目の文字列「失業保険給付申請書」、M+1:2番目の文字列「受付番号」、M+2:3番目の文字列“031022695”)を切り出す。
ステップS12に移行して切り出したMとM+2、すなわち「失業保険給付申請書」と“031022695”が前候補文字列、後候補文字列に一致しているか比較する。ステップS12の比較結果をステップS15で判定する。この場合には一致する文字列がないのでステップS14に移行する。
ステップS14ではMが1で100以下なので1を加算してMを2としてステップS11に戻る。Mは2に変化しており、M+1は3、M+2は4となり、3個の文字列は「受付番号」、“031022695”、「受付年月日」となって切り出される。ステップS12においてM(2番目)とM+2(4番目)の文字列が前後候補文字列に一致しているか比較する。ステップS15では、前候補文字列の「受付番号」、後候補文字列の「受付年月日」が両者とも一致しているため、ステップS16に移りM+1(3番目)の文字列“031022695”を抽出する。
次の被抽出文字列“平成17年3月14日”を抽出する場合には、ステップS10の前文字列を「受付年月日」、後文字列を「申請者氏名」に設定する。第一回目の抽出例と同様に、各ステップの繰り返し処理によって“平成17年3月14日”が抽出される。以下同様にして、図3に示すNo.1〜9までの被抽出文字列が抽出され、認識文字データとしてデータベース7に格納することができる。
文字列がステップS12とS15による前後候補文字列に一致しない間は、ステップS13でMが100を超えたと判定するまでステップS14、ステップS11、ステップS12、ステップS15のループを循環する。ステップS13でMが100を超えたと判定するとステップS14に移行して抽出対象なしとしてエラーメッセージを発生する。
このように実施例2においても被抽出文字列の前後文字列が文字変換手段3で認識した文字列と全て一致しなくとも、所定の割合以上が一致していれば該当しているとみなし、その間に挟まれる文字列を抽出している。したがって、従来の方式に比べて抽出率が高くなり、修正手入力の頻度を減らしてデータベースへの格納作業を効率よく行うことができる。
本発明の一実施例を示す構成図である。 文書の一例を示す求償事務資料の部分図である。 本発明の説明図である。 本発明の説明図である。 本発明の辞書テーブルの説明図である。 本発明の実施例1の動作を説明するためのフローチャートである。 本発明の実施例2の動作を説明するためのフローチャートである。
符号の説明
1…文書(求償事務資料)、2…イメージセンサ、3…文字変換手段、4…文字列抽出手段、5…辞書テーブル、6…書込み制御手段、7…データベース。

Claims (4)

  1. 複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列からなる文字列で構成された文書の各文字列の文字画像をイメージセンサで取得し、該文字画像を文字データに変換し、文字列抽出手段によって前記変換された文字データに基づいて目的の被抽出文字列として抽出する文字列抽出方法において
    抽出文字列の前後の行の書誌的事項文字列が該被抽出文字列前後の書誌的事項の文字列として、及び書誌的事項の文字列の候補文字列が辞書テーブルに予め格納され、
    文字変換手段が、前記イメージセンサで取得された前記文字列の文字画像を文字データに変換し、
    前記文字抽出手段が、複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列からなる文字列から、所定事項記載の被抽出文字列を切り出し、二つの書誌的事項文字列を取り込み、取り込まれた書誌的事項の文字列が予め格納された被抽出文字列に対する前後の書誌的事項の文字列であるかを判定し、該被抽出文字列を被抽出文字列として抽出するものであって、この際に取り込まれた書誌的事項の文字列予め格納された書誌的事項の文字列の候補文字列と所定の認識率で一致するかを判定して一致判定された時に、前記切り出した被抽出文字列を目的の被抽出文字として抽出すること
    を特徴とする文字列抽出方法。
  2. 複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列からなる文字列で構成された文書の各文字列の文字画像をイメージセンサで取得し、該文字画像を文字データに変換し、文字列抽出手段によって前記変換された文字データに基づいて被抽出文字列として抽出する文字列抽出装置において、
    辞書テーブルに、被抽出文字列の前後の行の書誌的事項文字列が前後の文字列として、予め格納され、
    文字変換手段が、前記イメージセンサで取得された前記文字列の文字画像を文字データに変換し、
    前記文字抽出手段が、複数の行の異なる被抽出文字列から切り出した被抽出文字列を取り込むと共に二つの書誌的事項文字列を取り込み、取り込まれた書誌的事項の文字列が予め格納された被抽出文字列に対する前後の書誌的事項の文字列であるかを判定し、該被抽出文字列を被抽出文字列として抽出するものであって、この際に取り込まれた書誌的事項の文字列予め格納された書誌的事項の前後の文字列のそれぞれと所定の認識率で一致するかを判定して一致判定された時に、前記切り出した被抽出文字列を目的の被抽出文字として抽出すること
    を特徴とする文字列抽出装置。
  3. 請求項2において、前記辞書テーブルに、書誌的事項の前後の文字列候補文字列が、一部の文字を異なって構成された複数の文字列として格納され、前記文字抽出手段が、前記書誌的事項の文字列と異なって構成された候補の文字列のいずれかの文字列との一致判定を行い、1つでも一致するときには一致判定したとすることを特徴とする文字列抽出装置。
  4. 請求項1において、前記書誌的事項の文字列は、前記被抽出文字列の直前直後の書誌的事項の文字列であることを特徴とする文字列抽出装置。
JP2005193285A 2005-07-01 2005-07-01 文字列抽出方法および装置 Expired - Fee Related JP4754889B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005193285A JP4754889B2 (ja) 2005-07-01 2005-07-01 文字列抽出方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005193285A JP4754889B2 (ja) 2005-07-01 2005-07-01 文字列抽出方法および装置

Publications (2)

Publication Number Publication Date
JP2007011824A JP2007011824A (ja) 2007-01-18
JP4754889B2 true JP4754889B2 (ja) 2011-08-24

Family

ID=37750198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005193285A Expired - Fee Related JP4754889B2 (ja) 2005-07-01 2005-07-01 文字列抽出方法および装置

Country Status (1)

Country Link
JP (1) JP4754889B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3452774B2 (ja) * 1997-10-16 2003-09-29 富士通株式会社 文字認識方法
JP2000288478A (ja) * 1999-04-06 2000-10-17 Toshiba Corp 宛先特定装置
JP4136282B2 (ja) * 2000-07-05 2008-08-20 キヤノン株式会社 画像処理装置及び画像処理方法並びに記憶媒体
JP4347675B2 (ja) * 2003-12-05 2009-10-21 富士フイルム株式会社 帳票ocrプログラム、方法及び装置

Also Published As

Publication number Publication date
JP2007011824A (ja) 2007-01-18

Similar Documents

Publication Publication Date Title
US10489682B1 (en) Optical character recognition employing deep learning with machine generated training data
JP2001344562A (ja) 文書読取装置および文書読取方法
JPH087033A (ja) 情報処理方法及び装置
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
KR102468975B1 (ko) 인공지능 기반의 판례 인식의 정확도 향상 방법 및 장치
JP4754889B2 (ja) 文字列抽出方法および装置
JP5091549B2 (ja) 文書データ処理装置
JPH0423185A (ja) 自動セル属性判定機能を有する表読取装置
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP5060334B2 (ja) 文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法
JP2010134766A (ja) 文書データ処理装置およびそのプログラム
JPH06223121A (ja) 情報検索装置
JP3455643B2 (ja) 文字認識装置における学習辞書の更新方法及び文字認識装置
JP2655087B2 (ja) 文字認識後処理方式
JP2000090193A (ja) 文字認識装置および項目分類方法
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JPH04104367A (ja) ファイルシステム
JPH03209564A (ja) 文献データ登録方法
JP2000132635A (ja) 認識データ確認方法
JPS63282586A (ja) 文字認識装置
JP2990734B2 (ja) 文字認識装置の認識候補文字出力制御方法
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JPH11120294A (ja) 文字認識装置および媒体
JPH07271920A (ja) 文字認識装置
JP3058706B2 (ja) 住所カナの漢字変換方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110517

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees