JP2004171316A - Ocr装置及び文書検索システム及び文書検索プログラム - Google Patents

Ocr装置及び文書検索システム及び文書検索プログラム Download PDF

Info

Publication number
JP2004171316A
JP2004171316A JP2002337369A JP2002337369A JP2004171316A JP 2004171316 A JP2004171316 A JP 2004171316A JP 2002337369 A JP2002337369 A JP 2002337369A JP 2002337369 A JP2002337369 A JP 2002337369A JP 2004171316 A JP2004171316 A JP 2004171316A
Authority
JP
Japan
Prior art keywords
character
search
document
ocr
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002337369A
Other languages
English (en)
Other versions
JP2004171316A5 (ja
Inventor
Takeshi Eisaki
健 永崎
Katsumi Marukawa
勝美 丸川
Shigeyuki Fujiwara
茂之 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002337369A priority Critical patent/JP2004171316A/ja
Priority to TW92100430A priority patent/TWI285849B/zh
Priority to CNB031049559A priority patent/CN100351847C/zh
Publication of JP2004171316A publication Critical patent/JP2004171316A/ja
Publication of JP2004171316A5 publication Critical patent/JP2004171316A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

【課題】紙文書及び文書画像に対する文書検索手段として、文字認識技術を応用して所与のキーワードをを含む文書群を検索する方法を提案する。
【解決手段】OCRと検索装置を分離し、OCRの出力形態として、文字行抽出及び文字切出及び文字識別の多重仮説を恒久的に保持するファイル(OCR読取仮説ファイル)を採用し、このOCR読取仮説ファイルを元にキーワードを検索する機能を構成することで、必要な文書の検索及び文書分類を行うシステムを提供する。
【選択図】 図3

Description

【0001】
【発明の属する技術分野】
本発明は、紙文書群または文書画像群の中から、文字認識技術を応用して所与の検索キーを含む文書群を検索し、必要とする情報を取得する文書検索・処理方法、その装置及び文書検索処理プログラムに関する。
【0002】
【従来の技術】
コンピュータによるデジタル情報技術が普及した現在でも、紙文書は情報伝達の媒体として広く使われている。しかし、多量の文書の中から必要な情報をあるキーワードで検索したい、あるいは特定のキーワード群を含む文書を検索及び自動分類したい等の要求に対しては、紙文書はデジタルデータに比べて扱いが著しく難しいという問題がある。この問題を解決するために、紙文書の検索及び自動処理のための様々な手法が提案されている。
紙文書または文書画像から必要なキーワードを検索する手段としては、検索が必要となるたびにOCR(光学的読取装置)で紙文書を認識して検索するオンライン的処理と、最初にOCRで読取を行い、その読取結果を恒久的に保持して検索を行うというオフライン的な処理がある。例えば、郵便区分機等の装置はオンライン的な処理に属すると言える。このオンライン的な処理では、検索したいキーワードが指定されているので、キーワードに含まれる文字の特性(全角、半角、漢字、英数字など)によって文字切出のパラメータを変更する、あるいは文字識別の際に字種限定を掛けるなどの処理を施すことで検索の精度を上げることができる。その半面、検索のたびごとに画像解析及び文字識別を行わなければならないため、検索が繰り返し行われるような運用形態では計算時間の点で実用的ではない。本発明で提案する手法はオフライン的な処理に基づく。
紙文書からのオフライン的キーワード検索における最も基本的な手法は、OCRによって紙文書をテキストファイルに変換し、テキストファイルに対して検索を行うことである。しかし、一般にOCRで変換されたテキストコードには誤りが含まれるため、単純なテキスト検索では対処できないケースが生じる。無論、OCRによって変換されたテキストコードを人手で修正し、その修正結果に対して検索を行うことも可能である。しかし、人間が介在しての修正は、その処理速度及びコストの面から実用的とは言い難い。
OCRの読取精度を向上する手段としてはOCRの認識結果に形態素解析を適用する手法が知られている(例えば、特許文献1参照。)。確かに形態素解析等の知識処理を行うことで誤読を訂正することは可能であるが、それでも100%の訂正は不可能である。また、通常の形態素解析で用いる辞書は新聞等の一般文章を対象としており、特殊な業務用途の文書を精度良く校正するためには、その分野に適合した特殊辞書を追加定義する必要がある。このため保守性や計算量の面で問題が残る。
また、文字誤読が検索に与える悪影響を回避するために、OCRで誤読しやすい類似文字の情報を利用して単語検索を行う手法が提案されている(例えば、特許文献2参照。)。また、OCRの読取結果に複数の文字識別候補を許し、その中から文字コードを選択して単語を検出する手法が提案されている(例えば、特許文献3参照。)。確かに、これらの技術を使えば1文字単位の誤読が単語検索に与える悪影響を回避することができる。
しかし、上記手法では分離文字や文字間接触等によって文字パタンの境界が明確に定まらないが故に誤って文字パタンが切り出されたケースに対処できない。例えば、「ハル」と書かれた文字を、OCRが「ヘル」と読んだケースには上記特許の手法で対処できるが、「ハノレ」と読んだケースには対処できない。更に、図や表が入り組んだ文書や帳票形式で罫線が多く混在する文書等に対しては、そもそも文字読取の以前に文字行の検出・同定が困難であるケースが多い。この問題に対しても上記手法では対処できない。
【特許文献1】
特開平05−108891号公報
【特許文献2】
特開平10−74250号公報
【特許文献3】
特開平9−134369号公報
【0003】
【発明が解決しようとする課題】
本発明の目的は、文字認識の結果を元に、紙文書群の中から必要なキーワードを検索する単語検索手法と、その結果を用いて文書検索・文書分類等の処理を行う文書検索処理システム、その装置及び検索処理プログラムを記録した記録媒体を提供することにある。
従来の手法では、紙文書群からの文書検索はOCR読取の結果であるテキストに対して検索を行っていたが、文字潰れやかすれ等に起因するOCRの文字識別誤りや、文字パタン境界の曖昧性に起因するOCRの文字切出誤りや、文書−図版−罫線混在に起因するOCRの文字行抽出誤りに対処することが困難であった。本発明の第1の目的はOCR読取に起こり得る文字識別、文字切出、文字行抽出の誤りが単語検索に与える悪影響を回避する方法を提案することである。
また、キーワード群を使った文書検索・文書分類処理では特定キーワードとその結合ルール(ANDやOR)を使って処理を行うのが一般的である。例えば「OCR」と「検索」という単語が共に(AND)見つかる文書を検索するといった例である。従来のテキスト文書に対する検索ではキーワードの有無が1か0の二値で定まるので、結合ルールの適用は単純な処理で行えるが、本手法は文字認識が関係するため、キーワードの有無が0から1の間の連続値を取る尤度として解釈される。このため、尤度が低いキーワードに対して一律に結合ルールを適用して文書検索を行うと検索で十分な絞込みが行えなかったり、あるいは尤度が低いキーワードを一律に無視するように文書検索を行うと必要な文書が検索できなかったりといった問題が生じ得る。本発明の第2の目的は、文字識別の尤度を利用して単語検索の尤度及び結合ルールの尤度を導出し、自動学習によって文書検索の精度をコントロールする手法を提案することである。
【0004】
【課題を解決するための手段】
上記第1の目的を達成するため、本発明は、OCRと検索装置を分離し、OCRの出力形態として、文字行抽出及び文字切出及び文字識別の多重仮説を恒久的に保持するファイル(OCR読取仮説ファイル)を採用し、このOCR読取仮説ファイルを元にキーワードを検索する機能を構成することで、必要な文書の検索及び文書分類を行うシステムを提供する。
上記第2の目的を達成するため、OCR読取仮説ファイルに文字識別の類似度、文字パタンの位置情報等を含み得るようにし、検索されたキーワードの尤度及びキーワードをルール結合した際の尤度を計算する情報として利用し、これら尤度を元に文書検索結果の受理・棄却を決定できる機構を提供する。
【0005】
【発明の実施の形態】
第1図を例として、従来手法と本提案手法の違いを概説する。第1図は、従来の単語検索手法及び文書検索手法と、本発明で提案する手法との違いを模式図化したものである。
まず従来のフローでは、101に示す紙文書群があり、これを102に示すOCRに掛けて読取りを行う。読取結果は103に示すようなテキストファイルとして出力される。次に、104に示す装置にテキストファイルを入力して、単語検索を行う。このフローでは検索対象となる単語を、単語DB(113)から参照している。しかし、本来「血液化学検査」と書かれていたものが、OCRの読取の結果「皿液イヒ学検査」と読まれた場合、テキストファイルを元に「血液化学検査」という単語を検索することは困難であり、この場合一般的には検索が失敗する。このため105に示す装置で、検索された単語に対して文書検索ルール(114)を適用して処理を行おうとしても、ルールを適用するべき単語が存在しないため、これに失敗する。そのため最終的な文書の検索・絞込みができない。これに対し、本発明で提案する処理フローでは、まず107に示す紙文書群があり、これを108に示すOCRに掛けて読取を行う。読取結果は109に示すようなOCR読取仮説ファイルとして出力される。次に、110に示す装置にOCR読取仮説ファイルを入力して、単語検索を行う。検索するべき単語は113に示す単語DBに定義されているとする。OCR読取仮説ファイルでは、さまざまな文字行抽出候補、文字切出候補、文字識別候補が保持されているため、「皿液イヒ学検査」という結果以外にも、正しい識別結果である「血」「化」という結果が保持できるため、単語検索が容易にできる。次に111に示す装置で、検出された単語と単語間の関係を記述する文書検索ルールにより、文書の検索・絞込みを行う。文書検索ルールは114に示すルールDBに記されているとする。文書検索ルールの例としては、「「OCR」と「検索」という単語が共に存在する文書」というように、複数の単語をORまたはANDで結んだ構造などが考えられる。OCR読取仮説ファイルを使うことで単語検索の精度が高まり、結果として文書検索ルールが適用でき、112に示すような文書検索・絞込みが可能となる。
OCR読取仮説ファイルは、対応する紙文書または文書画像を一意的に同定する文書IDコードを持ち、磁気記憶装置などに恒久的に保存できる。OCR読取仮説ファイルを用いた検索システムは、文書検索の要求が起きたときに、予め蓄えておいたOCR読取仮説ファイルから必要なキーワードを検索し、文書検索ルールと照らし合わせて、適合する文書の文書IDコードを記憶する。検索結果は、文書IDコードにより同定される紙文書または文書画像などと共に表示できる。これにより、OCR装置と検索装置が分離した形態においても文書画像と読取データを統一して扱える文書処理システムが構成できる。
第2図について説明する。本発明の実施例である帳票認識装置では、初めに、OCR装置が紙文書を撮像して、これを電子的画像データに変換する(201)。本処理は、元々の文書が電子的画像データである場合は省略可能である。次に、電子的画像データを元にして、罫線抽出、枠構造解析、読取り対象枠の位置推定等の文書構造解析を行う(202)。このとき使う認識処理には公知技術(特開平09−319824、特開2000−251012等)を利用する。次に、文書構造解析の結果を受けて、読取り対象である文字行候補を抽出する(203)。次に、文字行画像から文字パタン候補の切出し(204)、更に各文字パタン候補を識別する(205)。これら文字行候補、文字パタン候補、文字識別候補は対象文書から複数抽出され、多重仮説を構成する。最後に、文字行候補、文字切出パタン候補及びその識別結果をファイルに出力する(206)。この出力ファイルをOCR読取仮説ファイルと称する。OCR読取仮説ファイルの詳細については後述する。上記処理201から206は、光学的読取装置などの専用装置を使って紙文書からOCR読取仮説ファイルに変換する過程を示したものである。これに対して電子画像データが与えられた場合は、処理201の代わりに画像読込み(207)を行うことで、OCR読取仮説ファイルに変換することができる。この場合は変換プログラム及びプログラムを動かすための汎用演算装置があれば、処理を遂行できる。
上記に述べた各々の情報は、第10図に示すOCR装置において次の場所に格納される。紙文書から変換された画像データ、または処理対象として既に用意されている画像データは外部記憶装置1004またはメモリ1005に蓄えられる。OCRプログラムは外部記憶装置1004またはメモリ1005に蓄えられており、中央演算装置1006によって処理が遂行される。画像データを解析した結果得られた枠情報、行情報、候補パタンネットワーク、候補文字ネットワークは主にメモリ1005上に展開される。本処理の出力であるOCR読取仮説ファイルは、外部記憶装置1004またはメモリ1005または通信装置1007を通して外部の装置に格納される。
第3図について説明する。第3図は、OCR読取仮説ファイルを使った文書検索エンジンの処理フローを示した図である。初めに、検索対象である紙文書群(または文書画像群)に対応するOCR読取仮説ファイル群を読み込み、各々のOCR読取仮説に対して候補文字ネットワークを作成する(301)。次に、候補文字ネットワークと検索対象である単語群を入力として単語検索を行う(302)。OCR読取仮説ファイルには、様々な文字行候補、文字切出候補、文字識別候補が含まれるので、検索された単語が正しいかどうかを判定する処理が必要となる。そこで最後に検索した結果を、文字識別の尤度や順位、及びパタンの並びなどの情報を使って検索された単語の尤度を計算し、単語検索結果を受理するか棄却するかを決定する(303)。これら文字識別の尤度や順位、及び文字パタンの並びに関する情報はOCR読取仮説ファイルに含まれている。OCR読取仮説ファイルの詳細については後述する(第12図〜第16図が関連)。次に検索された単語群を含む文書に対して文書検索ルールを適用して文書検索を行う(304)。最後に、検索された文書に対して、ルールの適用された検出単語の尤度や、適用したルールの重要性を勘案して、文書検索結果を受理するか棄却するかを決定する(305)。
第4図について説明する。第4図は、上記処理303を詳述したものである。この処理では、検索した単語に対して、文字識別の尤度、文字パタンの配置情報、単語の文書画像中に対する配置情報などを使って、検出単語の尤度を計算する。検出単語の尤度計算では、初めに文字列パス(検索された単語は文字コード列と文字パタン列の組として表される。これをパスと称する。詳細は第5図の説明で述べる)上にある文字パタンの識別尤度を勘案して単語の識別尤度を計算する(401)。次に文字パタンの配置に関するペナルティを計算する(402)。例えば、パス全体の高さに対する文字の高さ比や、パス全体の中心線に対する文字の中心線のずれ、平均的な文字幅、隣接する文字パタンの間隔などが、統計的な平均値からどの程度外れるかの度合いをペナルティとする方法がある。さらに、検出した単語全体の位置を勘案したぺナルティを計算する(403)。例えば、検出単語が文書画像中の所定領域内に有るか否かの情報などが使われる。但し、OCR読取仮説ファイルに保持される情報には何段階かのレベルがあり(後述)、そのレベルに応じて処理402及び処理403は省略できるとする。OCR読取仮説ファイルの詳細については後述する。
第5図及び第6図について説明する。第5図は、単語検索の過程を概念図で示したものである。また、第6図は、候補文字ネットワークの概念図とデータの詳細を示した図である。第5図を元に単語検索の流れを説明する。読取り対象文字行(a)から、文字パタンと思われる部分を様々に切出して候補文字パタンを作り、各候補文字パタンを文字識別して作られたのが、候補文字ネットワーク(b)である。候補文字ネットワークは、文字パタン、文字識別の結果得られた順位付けされた識別コード群、候補文字ネットワーク中での文字パタン間の接続関係の情報、を最低限持つものとする。OCR読取仮説ファイルは、これらの情報の一部分が含まれる。その形態としてはバイナリ形態、またはXML等の表記を使ったテキスト形態がある。本発明で提案する手法はOCR読取仮説ファイルを用いるため、候補文字ネットワークはファイルから読取った情報を元に作る。次に文字列表記知識(c)を使って、候補文字ネットワークから文字列パス(d)を計算する。例では文字列表記知識をOR記号(|)で単語を並べて表現されている。すなわち、記号|の間に挟まれた単語群が検索対象として指定されることを意味する。文字列表記としては、この表記以外にもトライ、文脈自由文法などを使った方法がある(特開2001−014311等に記載)。文字候補ネットワークの詳細は第6図に詳しい。文字候補ネットワークは、文字パタンの候補をアーク(601)とし、文字パタンの境界をノード(602)とする有向グラフとして表現される。各文字パタンには、左右(縦書きであれば上下)のノード(パタン境界)を表す境界ID番号と、文字識別候補(603)及び識別類似度(604)の情報が含まれる。単語検索処理は、この候補文字ネットワークと文字列表記知識を入力として、候補文字ネットワークに含まれ得る単語とそのパタン列を見つける処理である。例えば文字列表記知識にある「血液化学検査」という単語は、第6図の候補文字ネットワーク中に、605のような黒丸で示される文字コード及び文字パタンを辿ることで見つけることができる。文字コード及び文字パタンを辿るアルゴリズムについては、公知技術(特願平10−28077、特願平11−18753等)を利用する。単語検索の結果、文字列パスが確定する。文字列パスとは、文字コード列(つまり文字列)と、各文字コードに対応する文字パタンから構成される情報のことである。
上記に述べた各々の情報は、第10図に示す検索装置において次の場所に格納される。OCR読取仮説ファイルは外部記憶装置1012またはメモリ1013に蓄えられる。単語検索プログラムは外部記憶装置1012またはメモリ1013に蓄えられており、中央演算装置1014によって処理が遂行される。読取仮説ファイルから作られた候補文字ネットワークはメモリ1013上に展開される。これに対して単語の検索が行われ、検索結果の情報は外部記憶装置1012またはメモリ1013または通信装置1015を通して外部の装置に格納される。
第7図について説明する。第7図は、本発明で提案する手法を用いた文書検索システムの一画面構成例を示したものである。ここでは、レセプト文書の検索システムを例としている。まず初めに、入力欄701に検索したいキーワードを指定し、入力欄702に検索キーをどのようなルールで取り扱うかを指定する。この図では指定した全キーワードのいずれかを見つけることを意味するORルールが選択されている。上記2項目を入力として、OCR読取仮説ファイルを蓄えたデータベースから、レセプト文書検索を行う。表示欄703には、検索の結果得られたレセプト名を表示する。表示欄704は、検索された文書の中で現在表示している文書に関するデータを表示する。表示欄705には検索結果を視覚的に表示する。OCR読取仮説ファイルは、元の紙文書または文書画像と一意的な対応が取れる文書IDコードを持つため、文書画像と検索結果の同時表示が可能である。また、検索された単語は706に示すような下線で場所を示している。文書検索結果を表示する際には、OCR読取仮説ファイルを用いることで計算できる検出単語尤度及び検索文書尤度を使って、優先付けをすることが可能である。
第8図について説明する。第8図は、OCR読取仮説ファイルを用いた検索システムにおける文字切出及び文字識別の多重仮説化による効果を示した図である。図(a)は読取対象の文書(の部分画像)であり、太枠で括った部分が1つの行仮説に相当する。図(b)は、この部分を通常のOCRで特別な知識無しに読ませると、本来「ルリッド錠」と書かれているものが、「ノレリソド症」と読まれることを示している。これは、「ル」が2つの文字パタンの合成であるため分離して読まれたこと、「ツ」がかすれにより識別第一位の結果が誤読されたこと、同様に「錠」の一部が潰れて識別第一位の結果が誤読されたことに因る。これに対して、OCR読取仮説上では、図(c)のような候補文字ネットワークが保持されている。すなわち、「ル」を「ノ」と「レ」に読む仮説も存在するが、「ル」と読む仮説も存在すること、更に「ッ」「錠」などでは1位の文字識別結果は「ソ」「症」と誤っているものの、より解の識別候補に正しい識別結果である「ツ」「錠」が含まれることを示している。OCRのテキスト読取結果に対して単語検索を行った場合は、「ノレリソド症」から「ルリッド錠」という単語を検索しなければならないが、この場合2つの文字列の距離は編集距離で測った場合、1文字挿入2文字不読ということになり、単語として類似しているとは言えない。一方、OCR読取仮説ファイルを使っての検索では文字挿入及び不読が無いことになり、単語検索が容易にできる。その結果、図(d)に示すような正しい単語が検索される。
第9図について説明する。第9図は、OCR読取仮説ファイルを用いた検索システムにおける文字行の多重仮説化による効果を示した図である。図(a)は読取対象の文書(の部分画像)である。図(b)は、この中から単一仮説による文字行の抽出を行った際の結果である。この図では、図(a)中の真中3行がまとめて1行として抽出されている。これは、文字行を横方向に射影して切り分ける際に、行が印活行の間に挟まる形で、手書行及び判子行があるため、射影時に十分な切れ目ができずに、まとめて一行と判断してしまうのである。これに対して、上記単一仮説のみでなく複数の行仮説を許すことで、図(b)の太い文字行を更に細かく切断した文字行も仮説として加えて図(c)のような文字行仮説群を構成する。これら複数の行仮説に対してOCR読取仮説ファイルを展開し、それらに対して単語検索を行うことで、結果として図(d)に示すような正しい単語が検索される。OCR読取仮説ファイルには、文字切出、文字識別の情報だけでなく文字行仮説情報が格納される。OCR読取仮説ファイルに含まれる情報の詳細については後述(第12図〜第16図が関連)する。
第10図について説明する。第10図は、これは本発明で提案する手法によってOCR装置と検索装置を分離する形で文書検索システムを構成した場合の一構成例である。第10図上段にはOCR装置の一構成例を、第10図下段には検索装置の一構成例を示した。
まず上段のOCR装置では、画像入力装置(1001)により文書を電子データに変換し、それを外部記憶装置(1004)及びメモリ(1005)に蓄えて、中央演算装置(1006)により読取を行う。文書形式の定義などは外部記憶装置(1004)に蓄えられており、文書構造解析にはここに蓄えた定義を参照する。これらの処理は操作端末装置(1002)を通して人間が操作可能であり、処理結果等は表示端末装置(1003)を通して表示され、外部記憶装置に蓄積または通信装置(1007)を通して外部装置にデータが送られる。OCRが読取った結果は、従来の装置のようにテキストファイルとしても出力できるが、OCR読取仮説ファイルとしても出力できる。OCR読取仮説ファイルは外部記憶装置に蓄えられるか、または通信装置を通して外部の装置に送られる。その際、OCR読取仮説ファイルにはOCRで読取った文書(あるいは画像)に対応する文書IDコードが振られるとする。この文書IDコードを利用することで、紙文書または文書画像とOCR読取仮説ファイルとの対応が取れる。読取仮説ファイルとの対応が取れることにより、検索した単語を元の文書画像上で表示するといった人間にとって親しみやすいGUI機能の提供や、目的とする単語を含む文書画像を選別するなどの、文書検索機能が実現できる。例えば第7図は単語検索におけるGUIの一構成例を示したものだが、ここでは文書画像(705)と検索された単語(706)が同時に表示されている。この表示機能は、OCR読取仮説ファイル上で検索した単語の位置情報と、OCR読取仮説ファイルのIDに対応する画像ファイルを利用することで実現されている。
第10図下段の検索装置は、上記OCR機能装置から出力されたOCR読取仮説ファイルを用いて検索を行うもので、一旦OCR読取仮説ファイルが生成された文書に対しては何度でも繰り返し(仮説ファイルが存在する限り)検索できる機能を有する。この検索装置は、通信装置(1015)及び外部記憶装置(1012)よりOCR読取仮説ファイルを読み、これをメモリ(1013)にロードして、中央演算装置(1014)により検索処理を行う。検索したい単語及び文書検索ルールは、外部記憶装置に蓄えられているか、または操作端末装置(1010)から入力することができる。単語の検索結果は表示端末装置(1011)を通して表示され、また通信装置を通して外部機器にデータを送信する、または外部記憶装置に検索結果を蓄積することができる。これらの装置は内部バス(1008、1009、1016)によってつながれている。
第11図について説明する。第11図は文書検索システムを実業務に適合させる自動学習機構の模式図である。初めに、文書検索システムに多量の紙文書・文書画像群(1101)が入力され、各文書に対応するOCR読取仮説ファイル(1102)が作られる。次にOCR読取仮説ファイルを使って単語検索を行う(1103)。その際、検索対象である単語はデータベース(1110)に蓄えられており、各単語には、その単語の重要度や検索時の尤度閾値を表す学習可能なパラメータ(1111)が付随するとする。次に、検索された単語(1104)に対して文書検索ルールを適用する(1105)。その際、文書検索ルールはデータベース(1112)に蓄えられており、各ルールには、そのルールの重要度や適用時の尤度閾値を表す学習パラメータ(1113)が付随するとする。次に対象文書群の中から検索尤度などにより検索の受理・棄却が決定され、検索文書群(あるいはその補集合である検索条件に適合しなかった文書群=非検索文書群)が確定し、その結果がディスプレイ等の表示装置を通してユーザに表示される(1106)。ユーザは提示された結果を判断材料として、検索結果の中で必要な文書はそのまま利用し(1107)、検索結果の中のゴミ(意味のない検索結果)や、検索結果に上がらなかった文書に関してシステムにフィードバックを掛ける(1108)。学習機構(1109)は文書検索の結果に対して、検索ゴミと判断されたものに対しては、その検索尤度を下げるようにパラメータ(1111、1113)を調整し、検索候補に上がらなかった文書に対してはその検索尤度を上げるようにパラメータを調整する。
学習についてもう少し詳しく述べる。本発明で提案する手法は、検出した単語に対して、識別尤度、文字配置の尤度などから、検出単語の尤度が計算できる。この検出単語尤度を使うことで、検索ルールに関しても、その尤度(適合度)が計算できる。例えば、検索対象の単語とif−thenルールによって文書検索ルールが定められているとする。このとき、if−thenルールの真偽値は、検出した単語の尤度を用いて、ファジー論理値として表すことができる。一般にIf−thenルールは、次の論理演算に分解できる:
論理積A∩B、論理和A∪B、否定〜A
それぞれ、A及びBには検出した単語を当てはめるとするならば、単語の識別尤度をファジー論理値と考え、上記各要素に対するファジー演算子を
尤度(A∩B)=MIN(尤度(A)、尤度(B))
尤度(A∪B)=MAX(尤度(A)、尤度(B))
尤度(〜A) =1−尤度(A)
という置き換えが可能である。ここで尤度(X)とは、単語Xまたは論理式Xに対する尤度を計算する関数を指すとする。これにより、文書検索ルールに対しても文字識別の尤度が反映できるため、例えば重要なルールに対しては、特定単語の識別尤度が多少低くても、それを重視してルールを適用して文書を検索するというように、文書検索に対して重み付けが可能となる。また、単語検索のミス(精度の低い単語として棄却した場合)、あるいはルール適合のミス(ルールを精度が低いとして棄却)が起こり、それにより本来検出するべき情報が抽出できなかった場合においては、単語検索時の閾値及びルール適合時の尤度パラメータを調整し、共に尤度(検出尤度、ルール適合尤度)が高くなるようにパラメータを微調整することで、より実運用に適応した検索システムへと学習することが可能となる。
【0006】
一般に文書検索においては検索の性能を測る上で再現率と適合率という2つの尺度が使われる。再現率とは本来検索したかった文書が、当該検索エンジンによって何割見つかったかを測る尺度である。また、適合率とは当該検索エンジンによって検出された文書のうち、何割が本来欲しかった文書であったかを測る尺度である。上記学習プロセスは、ユーザのフィードバックを使うことにより再現率と適合率を高めることを目的とする。適合率を高めるためには、ユーザからのフィードバックである「どの文書をユーザが選択したか」という情報を使って、ユーザが選択した文書群に対して検出尤度を挙げるようにパラメータを調整する。また、再現率を高めるためには、第11図の1106に挙がった非検索文書群の中から、ランダムサンプリングなどにより「検索漏れの文書群」を見つけ出し、これらに対して検出尤度を上げるようパラメータを調整する。
具体的な学習のアルゴリズムとしては最急降下法などが考えられる。検索する単語のリストがあるとする{W1,W2,・・・,Wn}。また、これら単語に対して検索時の尤度閾値が定まっているとする{T1,T2,・・・,Tn}。つまり、単語及びその検索尤度閾値のペア{(W1,T1),・・・,(Wn,Tn)}が検索システムへの入力と仮定する。OCR読取仮説ファイルを使い単語を検索した結果、ある単語Wkが、識別尤度Lkで見つかったとする(当然、この尤度の計算には、単純に文字識別の尤度のみを考慮するのではなく、文字パタンの配置情報なども考えてよい)。この時、単語の尤度は、尤度閾値Tkと、識別尤度Lkの関数として表すことができる。これを単語の検出尤度Fk=F(Tk,Lk)とする。例えば単語の検出尤度としては、識別尤度Lkが閾値尤度Tkを下回る場合は0、逆に上回る場合は1とするような離散的な関数を考えることができるし、また識別尤度と閾値尤度の差分Lk−Tkに対するシグモイド関数またはそれに類似した連続関数を考えることができる。
上で述べたとおり、ルールに対しても、元となる論理演算子の尤度関数定義を元に論理式の尤度が計算できる。すなわち、単語Wkを含むあるルールの尤度は、単語Wkの尤度に対する関数と考えられるので、これをR(Fk)と表せる。更には、これをパラメータTkの関数と見るならば、FkがパラメータTkの関数であるので、R(Fk)=R´(Tk)と表せる。
学習は、どのルール適用を強化するべきか、どのルール適用を無視するべきかを指定する教師付き学習により行われる。例えば、強化するべきルールがあるならば、そのルールの尤度R=R(Fk)を大きくするよう、単語Wkに関するパラメータを調整すればよい。例えば、上記に述べた尤度閾値Tkを学習したいパラメータとするならば、パラメータTkの関数として捉えたルール尤度R´(Tk)の、パラメータTkに関する偏導関数δR/δTkに比例した摂動を元のパラメータTkに与えるならば、ルール尤度R´(Tk)の値を大きくすることができる。
無論、これはルール尤度R´がパラメータTkに対して滑らかである場合に使える学習方法である。しかし、ここで述べたような最急降下法的な手法以外にも、GA(遺伝的アルゴリズム)、SA(焼きなまし法)、シンプレックス法のように、離散的な関数でも使えるパラメータ学習法が存在する。これらの学習方法は、対象データの判別の良否を表す何らかの評価尺度を、対象データ群全体に対して最適化するように、判別アルゴリズムに関するパラメータ群を調整する機構に基づく。本発明で述べた検出単語の尤度からルールの尤度を計算するという枠組みは、上記評価尺度の定義をルールの尤度を使った明示的な関数として表現でき、かつ検出単語の精度などをパラメータで調節できるため、連続・離散に関係なく学習が可能となる。
【0007】
OCR読取仮説ファイルの構造について詳述する。OCR読取仮説ファイルは、元となる紙文書または文書画像と一意的に対応が取れる文書IDコードと、複数の行仮説情報及び各文字行候補における複数の文字切出仮説及び文字識別仮説を最低限持つものとする。行仮説情報、文字切出仮説、文字識別仮説については下記に記す。
初めに、文字行の多重仮説を保持するために必要な情報について述べる。文字行多重仮説は、第12図に示す単一文字行の仮説情報が複数集まって構成される。文字行仮説を構成する情報は幾つかのレベルに分けて考えることができる。この図では3段階に分けている。レベル1は、多重行仮説を保持するために必要な最低限の情報である。これは、文字行を表す行IDと、当該文字行に含まれる文字切出及び文字識別仮説と、及び当該文字行の座標情報からなる。行IDは行仮説のまとまりを表す区切り記号でも代用できる。この行IDを用いて文字行単位での情報のまとまりを識別し、文字切出及び文字識別仮説によって当該文字行から単語を検出し、行座標情報を用いて過剰検索の問題(同じ検索キーが複数の行仮説で検出される問題)を防ぐ。レベル2は、単語検索を文字行間に跨って行う場合に必要な情報であり、文字行間の連結構造を表す情報である。これはレセプトや帳票文書のように、殆どの文章が箇条書きのように一行単位でまとまっているケースでは不要な情報だが、学術文書や一般文書のように長いまとまりを持つ文書に対して検索を行う場合は必要となる。レベル3は、多重行仮説を保持する上では本質的な情報ではないが、画像情報を元に再文字切出及び再文字識別を行いたい場合には有用な情報である。
【0008】
次に、各文字行仮説にある文字切出及び文字識別の多重仮説を保持するために必要な情報について述べる。各行における文字切出及び文字識別の多重仮説は、第13図に示す単一文字パタンの仮説情報が複数集まって構成される。文字切出仮説を構成する情報もまた上記と同様に幾つかのレベルに分けて考えることができる。この図では3段階に分けている。レベル1は、多重切出仮説及び多重識別仮説を保持するために必要な最低限の情報である。即ち、文字切出及び文字識別の多重仮説は、文字パタン間の接続関係を示す境界ID番号cn、nnによって示され、文字識別の多重仮説は複数の識別コードdtから構成される。文字パタン間の接続関係は第6図で示したようにネットワークとして捉えることができる。文字パタンの切断位置はネットワーク上のノード(第6a図の白丸の点)で表され、上記の境界ID番号cn、nnはこのノードに振られた一意的な番号である。 レベル2は、単語の検索結果に対して尤度を計算する際に使える情報である。例えば文字パタンの配置や文字識別の類似度dkによって単語の尤度にペナルティを掛ける場合は、この情報が必要になる。レベル3は、検索後の処理において、より詳細な文字パタンの解析が必要な場合に要求される情報である。
【0009】
OCR読取仮説ファイルには上で述べた情報が含まれる。OCR装置は上記情報を必要なレベルに応じてOCR読取仮説ファイルに出力し、検索装置はOCR読取仮説ファイルから候補文字ネットワークを復元した上で単語の検索を行う。OCR読取仮説ファイルに吐き出す情報のレベルを何段階かに分けることで、システムに応じてファイルの容量と単語検索の精度を調整することができる。OCR読取仮説ファイルの形態は、バイナリファイルまたはテキストファイルのいずれも可能である。ここではOCR読取仮説ファイルをXML表記を用いてテキストで記す場合の一実施例について述べる。
OCR読取仮説ファイルのXML表記例を述べる前に、現在JEITAで提唱されている文字識別多重仮説に対するXML規格を記す。この規格では、多重文字コード用のタグ<mc>、及びタグ内属性vを使ったXML構造が提案されている。タグmcは複数の文字識別コードを表し、タグ内属性vは識別類似度を表す。タグ内属性vは省略可能である。XML表記例を次に示す(第14図に文字パタン例を図示する)。
例1)
「文字」という文字行があり、各文字パタンが次のように識別された場合:
「文」に対して識別結果が「文交大」、類似度が0. 80、0.71、0.60
「字」に対して識別結果が「字宇学」、類似度が0.89、0. 00、0.00。
表記例1: 文 <mc> 交大 </mc> 字 <mc> 宇学 </mc>
表記例2: 文 <mc v=”0.80 0.71 0.60”> 交大 </mc>
字 <mc v=”0.89 0.00 0.00”> 宇学 </mc>
本発明では上記規格の枠組みに沿ったOCR読取仮説ファイルの表記例を記す。まず、文字切出の多重仮説化に向けて、タグ内属性cn、nnを追加して文字間の連結関係を表せるようにする。ここでcn、nnは第13図に示した文字パタンの境界を示す境界ID番号である。XML表記例を次に示す(第15図に文字パタン例を図示する)。
例2)
「文字」という文字行があり、各文字パタンが次のように識別された場合:
「文」に対して識別結果が「文交大」で、類似度が0.80、0.71、0.60
「字」に対して識別結果が「字宇学」で、類似度が0.89、0.00、0.00
「文字」を跨ったパタンがあり、識別結果が「対効」で、類似度が0.60、0.57
Figure 2004171316
次に文字行切出の多重仮説化に向けて、行情報タグ<ml>を追加して文字行仮説を表せるようにする。タグ間の階層関係としては、mcタグはmlタグに包含され得るとする。即ち<ml>タグから</ml>タグの間には、<mc>タグから</mc>タグで括られるまとまりを複数挟むことができると規定する。XML表記例を次に示す(第16図に文字パタン例を図示する)。
例3)
行切出仮説1で「文字」が行として抽出され、次の文字パタンを含み:
「文」に対して、識別結果が「文交大」で、類似度が0.80、0.71、0.60
「字」に対して、識別結果が「字宇学」で、類似度が0. 89、0. 00、0. 00
「文字」を跨ったパタンがあり、識別結果が「対効」で、類似度が0.60、0. 57かつ、行切出仮説2で「多重」が行として抽出され、次の文字パタンを含む: 「多」に対して、文字コード「多名」で、類似度が0. 80、0. 71の場合
「重」に対して、文字コード「重乗」で、類似度が0. 89、0. 70の場合
表記例1:<ml> 文 <mc cn=1 nn=2> 交大 </mc>
字 <mc cn=2 nn=3> 宇学 </mc>
対 <mc cn=1 nn=3> 効 </mc> </ml>
<ml> 多 <mc cn=1 nn=2> 多名 </mc>
重 <mc cn=2 nn=3> 重乗 </mc> </ml>
第12図の説明で述べた通り、文字行仮説を構成する情報は幾つかのレベルに分けて考えることができる。特に多重行仮説を保持するために必要な最低限の情報としては、文字行を表す行IDと、当該文字行に含まれる文字切出及び文字識別仮説と、及び当該文字行の座標情報が考えられる。行IDは行仮説のまとまりを表す区切り記号で代用できる。上記表記例1では<ml>タグがこの区切り記号に該当し、<ml>タグと</ml>タグに挟まれた部分が文字切出及び文字識別仮説を表現している。次に、上記表記例を行の矩形座標が表現できるよう拡張する。行の座標情報は過剰検索の問題(同じ検索キーが複数の行仮説で検出される問題)を防ぐために有効な情報である。行の矩形座標を表現するためにタグ内属性l、r、t、bを使う。lrtbは其々、各行を包含する外接矩形の左端X座標、右端X座標、上Y座標、下Y座標を表す。座標の表し方は他にも考えられる。行の中心座標及びサイズで表すやり方や、行矩形四隅の点座標を使うやり方などがある。次に外接矩形座標を使った場合のXML表記例を示す(第16図に文字パタン例を図示する)。
例4)
Figure 2004171316
同様に、上記表記例に対して行間の繋がり方を記述できるよう拡張できる。この場合はタグ内属性lc、lnを使い、文字パタンと同様に行同士の繋がりかたを規定する。XML表記例を次に示す(第16図に文字パタン例を図示する)。例5)
Figure 2004171316
【0010】
【発明の効果】
従来の手法では、紙文書群からの文書検索はOCR読取の結果であるテキストに対して検索を行っていたが、文字潰れやかすれ等に起因するOCRの文字識別誤りや、文字パタン境界の曖昧性に起因するOCRの文字切出誤りや、文書−図版−罫線混在に起因するOCRの文字行抽出誤りに対処することが困難であった。本発明によれば、文字識別、文字切出、文字行抽出方法を保持するOCR読取仮説ファイルを用いて単語検索及び文書検索を行うことにより、上記問題が回避できる。
また、本発明によれば、従来手法において調整困難であった文書検索性能と単語検索性能のトレードオフ関係(文字識別的に信頼度の高いキーワードのみを使って文書検索を行うと必要な文書が検索できない、信頼度の低いキーワードも使って文書検索を行うと文書検索で余計な検索結果が生じる)についても、OCR読取仮説ファイルに含まれる文字識別順位・類似度・パタン配置尤度などの情報を使うことで個々の単語検索結果に対する尤度及び単語検索尤度に基づく文書検索尤度が計算できるため、検索結果の良否に対するユーザフィードバックを利用して文書検索結果の精度を高めるよう自動パラメータ学習を行うことで、ユーザの検索意図に適合した文書検索システムの自動構築が可能となる。
【図面の簡単な説明】
【図1】OCR読取仮説ファイルを使った検索と従来手法の比較概念図。
【図2】OCR読取仮説ファイルを出力する迄のフロー図。
【図3】OCR読取仮説ファイルを使った検索処理のフロー図。
【図4】検索された単語パスの検定のフロー図。
【図5】候補文字ネットワークからの単語抽出処理の概念図。
【図6】候補文字ネットワークの概念図。
【図7】文書検索システムの一画面構成例。
【図8】OCR読取仮説ファイルの効果を示す図1。
【図9】OCR読取仮説ファイルの効果を示す図2。
【図10】文書検索システムの一構成例。
【図11】文書検索システムにおける学習フローの概念図。
【図12】OCR読取仮説ファイルのデータ構造図1。
【図13】OCR読取仮説ファイルのデータ構造図2。
【図14】OCR読取仮説ファイルで表現される文字列パタンの概念図1。
【図15】OCR読取仮説ファイルで表現される文字列パタンの概念図2。
【図16】OCR読取仮説ファイルで表現される文字列パタンの概念図3。
【符号の説明】
101…従来の文書検索システムに入力される紙文書
102…従来の文書検索システムでのOCR部
103…従来の文書検索システムのOCR出力形態
104…従来の文書検索システムでの単語検索部
105…従来の文書検索システムでの文書検索部
106…従来の文書検索システムでの文書検索結果
107…本発明で提案する文書検索システムに入力される紙文書
108…本発明で提案する文書検索システムでのOCR部
109…本発明で提案する文書検索システムのOCR出力形態
110…本発明で提案する文書検索システムでの単語検索部
111…本発明で提案する文書検索システムでの文書検索部
112…本発明で提案する文書検索システムでの文書検索結果
113…単語検索で用いる単語データベース部
114…文書検索で用いる文書検索ルールデータベース部
201…OCR装置における画像入力部
202…OCR装置における文書構造解析部
203…OCR装置における文字行抽出部
204…OCR装置における文字パタン生成部
205…OCR装置における文字識別部
206…OCR装置におけるOCR読取仮説ファイル出力部
207…OCR装置において文書画像を入力とした場合の流れ
301…文書検索装置におけるOCR読取仮説ファイル入力部
302…文書検索装置における単語検索部
303…文書検索装置における検索単語検定部
304…文書検索装置における検索ルール適用部
305…文書検索装置における検索文書検定部
401…文書検索装置におけるパス識別尤度計算部
402…文書検索装置における文字配置尤度計算部
403…文書検索装置におけるパス配置尤度計算部
601…候補文字ネットワーク上の文字パタン
602…候補文字ネットワーク上のパタン境界
603…候補文字ネットワーク上の文字識別結果
604…候補文字ネットワーク上の文字識別類似度
605…候補文字ネットワーク上から検索された単語
701…文書検索システム画面のキーワード入力欄
702…文書検索システム画面の検索ルール指定欄
703…文書検索システム画面の検索文書表示欄
704…文書検索システム画面の検索文書の詳細情報表示欄
705…文書検索システム画面の検索画像表示欄
706…文書検索システム画面の単語検索結果
1001…OCR装置部における画像入力装置
1002…OCR装置部における操作端末装置
1003…OCR装置部における表示端末装置
1004…OCR装置部における外部記憶装置
1005…OCR装置部におけるメモリ
1006…OCR装置部におけるCPU
1007…OCR装置部における通信装置
1008…OCR装置部における通信バス
1009…ネットワーク部
1010…検索装置部における操作端末装置
1011…検索装置部における表示端末装置
1012…検索装置部における外部記憶装置
1013…検索装置部におけるメモリ
1014…検索装置部におけるCPU
1015…検索装置部における通信装置
1016…検索装置部における通信バス
1101…文書検索システムに入力される紙文書
1102…文書検索システムで作られたOCR読取仮説ファイル
1103…文書検索システムの単語検索部
1104…文書検索システムで得られた単語検索の結果
1105…文書検索システムの文書検索ルール適用部
1106…文書検索システムで得られた検索文書・非検索文書
1107…検索文書の利用
1108…検索文書の良否を指定する教師信号
1109…文書検索システムの学習部
1110…文書検索システムの検索対象単語
1111…文書検索システムの検索対象単語パラメータ
1112…文書検索システムの文書検索ルール
1113…文書検索システムの文書検索ルールパラメータ。

Claims (10)

  1. 文字が記載された画像の入力を受付ける画像入力装置と、中央演算装置と、外部記憶装置を備えたOCR装置であって、
    上記中央演算装置では、
    上記入力された画像から文字行候補と文字切り出し候補を抽出し、
    さらに上記文字切り出し候補を文字識別し、
    該文字識別の結果、該文字行候補および該文字切り出し候補を併せて読取仮説ファイルとして上記外部記憶手段に記憶することを特徴とするOCR装置。
  2. 上記中央演算装置ではさらに、
    上記文字切り出し候補間の関係の抽出、および上記文字識別結果の類似度の抽出を行い、
    抽出された上記文字切り出し候補間の関係、および上記文字識別結果の類似度をさらに併せて上記読取仮説ファイルとして記憶手段に記憶することを特徴とする請求項1記載のOCR装置。
  3. 上記中央演算装置ではさらに、
    上記文字切り出し候補の上下左右の座標値うち少なくともいずれか一つを抽出し、
    抽出された上記文字切り出し候補の座標値をさらに併せて上記読取仮説ファイルとして上記記憶手段に記憶することを特徴とする請求項1または2記載のOCR装置。
  4. 上記中央演算装置ではさらに、
    上記文字行候補の外接矩形の上下左右の頂点の座標値のうち少なくともいずれか一つを抽出し、
    抽出された上記頂点の座標値をさらに併せて上記読取仮説ファイルとして上記記憶手段に記憶することを特徴とする請求項1乃至3のいずれかに記載のOCR装置。
  5. 操作端末装置、外部記憶装置、中央演算装置、表示端末装置、および通信装置の各装置を備えた検索装置と、
    通信装置を備え、該検索装置に接続された請求項1乃至4のいずれかに記載のOCR装置によって構成される文書検索システムであって、
    上記OCR装置の中央演算装置では、
    上記読取仮説ファイルを上記OCR装置側の上記通信装置から送信し、
    上記検索装置の中央演算装置では、
    上記OCR装置から送信された上記読取仮説ファイルを上記検索装置側の通信装置で受信し、
    受信した上記読取仮説ファイル中の上記各情報を用いて、上記画像に記載された上記文字から、上記操作端末装置に入力された検索キーに一致する上記文字列を検索し、
    上記検索の結果を上記外部記憶装置または上記表示端末装置に出力することを特徴とする文書検索システム。
  6. 上記検索装置の中央演算装置ではさらに、
    上記検索キーに重みを設定し、
    入力された上記検索キーの検索精度を上記重みに応じて変更することを特徴とする請求項5記載の文書検索システム。
  7. 上記検索キーを用いた検索履歴における過去の再現率と適合率を用いて上記検索キーの重みを設定することを特徴とする請求項6記載の文書検索システム。
  8. 上記OCR装置の画像入力装置ではさらに、
    複数の画像の入力を受付け、
    上記OCR装置の中央演算装置では、
    上記入力された複数の画像の各々について、上記画像と一意的な対応がとれる文書IDをさらに併せて読取仮説ファイルとして上記記憶手段に記憶し、
    上記検索装置の中央演算装置ではさらに、
    上記検索で上記検索キーに一致するとされた文字列が記載された上記画像を上記文書IDを用いて同定し、上記表示端末装置に出力することを特徴とする請求項5乃至7のいずれかに記載の文書検索システム。
  9. 操作端末装置と、記憶装置と、表示端末装置を備えたコンピュータで実行されるプログラムであって、
    文字が記載された画像の入力を受付けるステップと、
    上記画像から文字行候補を抽出するステップと、
    上記画像から文字切り出し候補を抽出するステップと、
    上記文字切り出し候補を文字識別するステップと、
    上記文字識別の結果、上記文字行候補および上記文字切り出し候補を含むファイルを読取仮説ファイルとして上記記憶手段に記憶するステップと、
    上記操作端末装置から検索キーの入力を受付けるステップと、
    上記記憶手段から上記読取仮説ファイルを読み出すステップと、
    上記読取仮説ファイル中の上記文字切り出し候補及び上記行抽出候補を用いて上記画像に記載された文字から上記検索キーに一致する文字列を検索するステップと、
    上記検索の結果を上記記憶手段または上記表示端末装置に出力するステップとを有することを特徴とする検索方法を上記コンピュータで実現するためのプログラム。
  10. 上記画像の入力を受付けるステップでは、複数の上記画像の入力を受付け、
    上記読取仮説ファイルを記憶するステップでは、上記入力された複数の画像の各々について、上記画像と一意的な対応がとれる文書IDをさらに併せて読取仮説ファイルとして上記記憶手段に記憶し、
    さらに、上記検索で上記検索キーに一致するとされた文字列が記載された上記画像を上記文書IDを用いて同定し、上記表示端末装置に出力するステップを有することを特徴とする請求項9記載の検索方法を上記コンピュータで実現するためのプログラム。
JP2002337369A 2002-11-21 2002-11-21 Ocr装置及び文書検索システム及び文書検索プログラム Pending JP2004171316A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002337369A JP2004171316A (ja) 2002-11-21 2002-11-21 Ocr装置及び文書検索システム及び文書検索プログラム
TW92100430A TWI285849B (en) 2002-11-21 2003-01-09 Optical character recognition device, document searching system, and document searching program
CNB031049559A CN100351847C (zh) 2002-11-21 2003-02-28 Ocr装置、文件检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002337369A JP2004171316A (ja) 2002-11-21 2002-11-21 Ocr装置及び文書検索システム及び文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2004171316A true JP2004171316A (ja) 2004-06-17
JP2004171316A5 JP2004171316A5 (ja) 2005-12-22

Family

ID=32700898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002337369A Pending JP2004171316A (ja) 2002-11-21 2002-11-21 Ocr装置及び文書検索システム及び文書検索プログラム

Country Status (3)

Country Link
JP (1) JP2004171316A (ja)
CN (1) CN100351847C (ja)
TW (1) TWI285849B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276736A (ja) * 2007-04-26 2008-11-13 Fuji Xerox Co Ltd インタラクティブシステムおよび画像検索性能を高めるプログラム
JP2010039609A (ja) * 2008-08-01 2010-02-18 Tokyo Univ Of Agriculture & Technology プログラム、情報記憶媒体及び文字列認識装置
CN102779140A (zh) * 2011-05-13 2012-11-14 富士通株式会社 一种关键词获取方法及装置
US10552674B2 (en) 2017-05-31 2020-02-04 Hitachi, Ltd. Computer, document identification method, and system

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183744A (zh) * 2015-06-29 2015-12-23 努比亚技术有限公司 一种利用手机进行纸质书关键字检索的方法及装置
CN106878632B (zh) * 2017-02-28 2020-07-10 北京知慧教育科技有限公司 一种视频数据的处理方法和装置
CN107391668A (zh) * 2017-07-20 2017-11-24 深圳大普微电子科技有限公司 一种图片文字搜寻系统及方法
JP6938408B2 (ja) * 2018-03-14 2021-09-22 株式会社日立製作所 計算機及びテンプレート管理方法
US11755659B2 (en) * 2018-10-04 2023-09-12 Resonac Corporation Document search device, document search program, and document search method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3689455B2 (ja) * 1995-07-03 2005-08-31 キヤノン株式会社 情報処理方法及び装置
JP3727995B2 (ja) * 1996-01-23 2005-12-21 キヤノン株式会社 文書処理方法及び装置
JPH1069494A (ja) * 1996-08-29 1998-03-10 Canon Inc 画像検索方法とその装置
AU770515B2 (en) * 1998-04-01 2004-02-26 William Peterman System and method for searching electronic documents created with optical character recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276736A (ja) * 2007-04-26 2008-11-13 Fuji Xerox Co Ltd インタラクティブシステムおよび画像検索性能を高めるプログラム
JP2010039609A (ja) * 2008-08-01 2010-02-18 Tokyo Univ Of Agriculture & Technology プログラム、情報記憶媒体及び文字列認識装置
CN102779140A (zh) * 2011-05-13 2012-11-14 富士通株式会社 一种关键词获取方法及装置
US10552674B2 (en) 2017-05-31 2020-02-04 Hitachi, Ltd. Computer, document identification method, and system

Also Published As

Publication number Publication date
CN100351847C (zh) 2007-11-28
TW200409046A (en) 2004-06-01
CN1503193A (zh) 2004-06-09
TWI285849B (en) 2007-08-21

Similar Documents

Publication Publication Date Title
US8693043B2 (en) Automatic document separation
US11514698B2 (en) Intelligent extraction of information from a document
US5943443A (en) Method and apparatus for image based document processing
US6950555B2 (en) Holistic-analytical recognition of handwritten text
KR101312770B1 (ko) 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템
US6542635B1 (en) Method for document comparison and classification using document image layout
US11416531B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN107818320A (zh) 基于开源ocr技术变电设备红外图像数值的识别方法
CN112307741A (zh) 保险行业文档智能化解析方法和装置
CN115577698A (zh) 一种基于机器学习的数据和文本处理系统及其方法
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
CN115410185A (zh) 一种多模态数据中特定人名及单位名属性的提取方法
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
JPH11232296A (ja) 文書ファイリングシステムおよび文書ファイリング方法
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
JPH11282964A (ja) 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
JP2002183667A (ja) 文字認識装置及び記録媒体
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
Mukhejee et al. A new approach to information retrieval based on keyword spotting from handwritten medical prescriptions
US11315351B2 (en) Information processing device, information processing method, and information processing program
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
CN116010421A (zh) 一种搜索方法
Shi et al. A system for text recognition based on graph embedding matching

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051108

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080919

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090107

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090122

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090213