JP2009230658A - 文字検索システム - Google Patents

文字検索システム Download PDF

Info

Publication number
JP2009230658A
JP2009230658A JP2008078021A JP2008078021A JP2009230658A JP 2009230658 A JP2009230658 A JP 2009230658A JP 2008078021 A JP2008078021 A JP 2008078021A JP 2008078021 A JP2008078021 A JP 2008078021A JP 2009230658 A JP2009230658 A JP 2009230658A
Authority
JP
Japan
Prior art keywords
character
data
correction
search
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008078021A
Other languages
English (en)
Inventor
Takeshi Yoshida
剛 吉田
Takeshi Narai
剛士 成相
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008078021A priority Critical patent/JP2009230658A/ja
Publication of JP2009230658A publication Critical patent/JP2009230658A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文字の認識結果の確認を容易に行うことができ時間が短縮できる文字検索システムを提供する。
【解決手段】書類データ101、102を格納する書庫データベース103と、書類データから文字を解析して文字データを作成する解析サーバ1と、文字データを格納する文字データベース104と、任意の文字列を文字データベース104の文字データから検索する検索サーバ3とを備え、検索サーバ3は、文字列を有するとして検索された文字データに対応する書類データを書庫データベース103から抽出して書類データ内の文字列が検索された箇所のサムネイル画像データ、および、検索された文字データの文字列を有する箇所を含む所定領域分の文字データを文字データベース104から抽出した要約データを作成するヒット要約・サムネイル作成機能部303を有する。
【選択図】図1

Description

この発明は、書類データ内の文字が検索できる文字検索システムにおいて、文字の認識結果の確認を効率良く行うことができるものである。
従来の文字検索システムは、文字の認識結果の確認および修正を行う場合、文字の認識結果を画面表示し、オペレータが1文字ずつ文字認識結果の確認を行い、文字認識結果に誤りがあれば、キー入力により正しい文字に修正することを可能としている。また、修正履歴を利用し、誤認識しやすい文字の確認や、修正後の文字認識処理において同じ誤りが無いようにすることを可能としている(例えば、特許文献1参照)。
特開2000−57258号公報
従来の文字検索システムは、文字認識結果を確認する場合、その検索された文字が本来検索すべき文字であるか否かの判断を行うこと無く、検索された文字を1文字ずつ実施するため、明らかに検索されるべきでない不必要な文字が含まれている可能性があり、文字認識結果の確認作業に時間が掛かり、作業の効率が悪いという問題点があった。
この発明は上記のような課題を解決するためになされたものであり、文字の認識結果の確認を容易に行うことができ、時間が短縮できる文字検索システムを提供することを目的とする。
この発明は、書類データを格納する書庫データベースと、
書類データから文字を解析して文字データを作成する解析サーバと、
文字データを格納する文字データベースと、
任意の文字列を文字データベースの文字データから検索する検索サーバとを備えた文字検索システムにおいて、
検索サーバは、文字列を有するとして検索された文字データに対応する書類データを書庫データベースから抽出して書類データ内の文字列が検索された箇所のサムネイル画像データ、または、検索された文字データの文字列を有する箇所を含む所定領域分の文字データを文字データベースから抽出した要約データの少なくともいずれか一方を作成するものである。
この発明の文字検索システムは、書類データを格納する書庫データベースと、
書類データから文字を解析して文字データを作成する解析サーバと、
文字データを格納する文字データベースと、
任意の文字列を文字データベースの文字データから検索する検索サーバとを備えた文字検索システムにおいて、
検索サーバは、文字列を有するとして検索された文字データに対応する書類データを書庫データベースから抽出して書類データ内の文字列が検索された箇所のサムネイル画像データ、または、検索された文字データの文字列を有する箇所を含む所定領域分の文字データを文字データベースから抽出した要約データの少なくともいずれか一方を作成するので、文字の認識結果の確認を容易に行うことができ時間が短縮できる。
実施の形態1.
以下、本願発明の実施の形態について説明する。図1はこの発明の実施の形態1における文字検索システムの構成を示すブロック図、図2は図1に示した文字検索システムの動作を説明するためのフローチャート、図3および図4は図1に示した文字検索システムの表示手段に表示される画面構成を示す図である。図において、文字検索システムは以下の構成要素から構成されている。まず、例えば文字がデータ形式にて入力されているデータを、ここでは電子データとして称する。そして、この電子データにてなる書類データ102、および、画像を例えばスキャナ5で読み取り画像を表す画像データまたはあらじめ電子化されている画像データを書類データ101として格納する書庫データベース103と、書庫データベース103から解析するための書類データを抽出する登録サーバ2と、登録サーバ2から抽出された書類データの文字を解析して文字データを作成し登録サーバ2に送信する解析サーバ1と、登録サーバ2が解析サーバ1にて解析された文字データを格納するための文字データベース104とを備えている。
そして、解析サーバ1には、画像を表す画像データから文字を解析して抽出して文字データを作成するイメージ内文字抽出機能部201aと、電子データの書類データ102内の文字を抽出して文字データを作成する電子データ内文字抽出機能部201bとを有する。尚、1つの書類データ内には、電子データと画像データとが混在しているものも存在していることは言うまでも無い。また、登録サーバ2は、検索文書登録機能部202を備えており、書庫データベース103から、解析するために抽出した書類データのデータ構成に応じて、画像データならばイメージ内文字抽出機能部201aに送出したり、電子データならば電子データ内文字抽出機能部201bに送出したりと解析サーバ1への割り振りを行っている。また、その解析結果を文字データとして文字データベース104に、書類データのID番号などとともに登録し、その文字がいずれの書類データの部分であるかを関連づけして登録している。尚、文字データと書類データとを関連づける方法は他の方法でも良いことは言うまでもない。
尚、文字データとは、例えば画像データの書類データの場合には、その画像データ内に示されている文字と認識することができるか否かの解析を行い、文字と認識することができるデータである。画像データの方向を定め、その書類データの左上から右下に向かって順次解析する方法などにより解析することが可能である。また、例えば電子データの場合には、その電子データ内の文字データのみを抽出して文字データとするものであり、文字以外のデータが削除されて保管されているものである。但し、電子データの解析された文字データは確実に認識されているデータであり、誤認識が無いものと考える。
また、検索サーバ3は、任意の文字列を文字データベース104の文字データから検索する全文検索機能部301と、文字列を有するとして検索された文字データに対応する書類データを例えばID番号をキーとして書庫データベース103から抽出して書類データ内の文字列が検索された箇所、すなわち文字列の含まれている1ページ分のサムネイル画像データ、および、検索された文字データの文字列を有する箇所を含む所定領域分、例えば、検索に用いられた文字列の前後70文字数分の合計140文字分+検索文字列分を所定領域分として文字データを文字データベース104から抽出した要約データを作成するヒット要約・サムネイル作成機能部303と、ヒット要約・サムネイル作成機能部303にて作成されたサムネイル画像データおよび要約データ、および、検索された文字データに対応する書類データの文書名(ファイル名)、登録されている箇所、登録日、その他の属性など、書類データに関する情報を後述する表示手段に表示する検索結果表示機能部302とを備えている。尚、ヒット要約・サムネイル作成機能部303の所定領域部は、あくまでも1例を示したものであり、検索する文字列の文字数に応じて設定したり、上記に示した場合よりさらに多くの領域、または、少ない領域を表示するように設定したりすることも可能であることは言うまでも無い。
また、表示されているサムネイル画像データおよび要約データに対応する書類データを例えばID番号をキーとして書庫データベース103から抽出して書庫データベース103から読み出して表示手段に表示するヒット文書閲覧機能部304と、ヒット文書閲覧機能部304により表示手段に表示された書類データに対して修正文字の修正データを入力し、かつ、修正データの内容を文字データに反映して文字データベース104に登録する誤認識修正機能部305とを備える。そして、クライアント端末4には、全文検索実行画面401と、検索結果表示画面402と、ヒット文書閲覧画面405と、誤認識修正画面406とにて構成されている表示手段が備えられている。
そして、全文検索実行画面401では、検索を行うための任意の文字列を入力することができる。また、検索結果表示画面402には要約データを表示する検索ヒット要約表示部403およびサムネイル画像データを表示する検索ヒットサムネイル表示部404を有している。そして、サムネイル画像データまたは要約データに対応する書類データを表示するヒット文書閲覧画面405と、表示された書類データの誤認識を修正することができる誤認識修正画面406とを備えている。
次に上記のように構成された実施の形態1の文字検索システムの動作について説明する。まず、文書登録処理において、画像データを有する書類データ101および電子データを有する書類データ102を書庫データベース103に保存する(図2のステップS1)。次に、保存された書類データ(図2のステップS2)を、その書類データの内容に応じて、イメージ内文字抽出機能部201aまたは電子データ内文字抽出機能部201bに登録サーバ2の検索文書登録機能部202が割り振って送信して、解析サーバ1に解析を要求する(図2のステップS3)。次に、解析サーバ1のイメージ内文字抽出機能部201aおよび電子データ内文字抽出機能部201bにて書類データの解析を行い文字抽出処理を行う(図2のステップS4)。そして、その解析された抽出結果を文字データとして文字データベース104に登録サーバ2の検索文章登録機能部202が保存する(図2のステップS5)。尚、この際、画像データから解析され抽出された文字は、複数の候補文字、例えば、「金」であれば「金」、「全」、「企」、「合」などの複数の候補文字が登録されている可能性が考えられる。これに対し、電子データの場合は、1つの文字に対して1つの候補文字が登録されている。
次に、文書検索処理においては、検索サーバ3の全文検索機能部301がクライアント端末4の全文検索実行画面401を、例えば図3の左端の一覧の部分に示すように表示する(図2のステップS7)。次に、検索するための任意の文字列としての検索キーワードが、例えばここでは”全文検索”という文字列が入力されて指定される。そして、実行ボタンが押され、全文検索機能部301が文字データベース104から文字列を有する文字データの検索を実行する(図2のステップS8)。次に、検索結果表示機能部302が、文字列を有するとして検索された文字データに対応する書類データがいずれのデータであるかを、例えばID番号を取得する(図2のステップS9)。次に、ヒット要約・サムネイル作成機能部303は、検索された文字データの文字列が検索された箇所を含む所定領域分の文字データを文字データベース104から抽出した要約データを、ID番号に基づいて取得する(図2のステップS10)。
次に、検索された書類データのID番号に基づいて、すなわち、文字列を有するとして検索された文字データに対応する書類データを書庫データベース103から抽出してサムネイル画像データを作成し、書庫データベース103に登録する(図2のステップS6)。次に、検索された書類データのID番号に基づいて、書庫データベース103に登録されたサムネイル画像データを取得する(図2のステップS11)。次に、検索結果表示機能部302が、検索結果画面402の検索ヒット要約表示部403および検索ヒットサムネイル表示部404に、図3に示すように、検索結果の一覧画面を表示する(図2のステップS12)。具体的には、図3に示すように、サムネイル画像データがサムネイルという箇所に、要約データがサマリという箇所に、他に、検索された文字データに対応する書類データの文書名(ファイル名)に、登録されている箇所(フォルダ)および登録日が登録部に、その他の属性、ページ数、サイズなど、書類データに関する情報を表示される。尚、要約データでは、検索された文字列の箇所が容易に判断できるように、強調表示されている。
次に、このように表示された、要約・サムネイルから誤認識であると考えられる誤認識文書を特定して選択する(図2のステップS13)。このように、文字列を有するとして検索された書類データの文字列を有する箇所のサムネイル画像およびサマリを見ることにより、その検索された書類データが本来検索したい文字列が含まれている内容であるのか否かを判断する基準に利用することができるため、容易にかつ短時間にて本来検索したい文字列が含まれているか否かを判断することができる。次に、ヒット文章閲覧機能部304は誤認識が行われているとして選択された書類データを書庫データベース103から抽出して、例えば図4(a)に示すように、ヒット文書閲覧画面405に表示する(図2のステップS14)。
尚、ここでの書類データの表示とは、書類データが実際に書面としてあらわれるイメージでの表示であり、図4(a)に示すように、検索文字列を”E1021”であり、その検索された文字列の部分が、ユーザに一目で分かるように、文字を強調表示(色枠表示等)されている。そしてこの図から明らかなように、”E102I”の”I”を”1”として誤って認識し”E1021”として検索されている箇所が存在する。また、何らかの理由により、”E1021”との記載が認識されていない箇所が存在する。次に、ヒット文書閲覧画面405から誤認識部分を、例えばマウスドラッグ操作等により位置座標を指定することで選択する(図2のステップS15)。
すると、誤認識修正機能部305は、例えば図4(b)に示すように、誤認識修正画面406を表示する(図2のステップS16)。次に、誤認識修正画面406から”E102I”と修正を入力し、誤認識修正機能部305は文字データベース104の対応する文字データに修正部分を反映させて保存する(図2のステップS17)。次に、他にも修正対象があるか否かを判断する(図2のステップS18)。次に、修正対象が残っていると判断された場合(YES)には、ステップS12に戻り上記に示した動作を繰り返す。また、修正対象が残っていないと判断された場合(NO)には、処理を終了する。
以上のように、この発明の実施の形態1の文字検索システムによれば、検索を行った文字列に対し、検索結果表示画面での要約データおよびサムネイル画像データの表示により誤認識および認識漏れ箇所の確認を行うことができるため、誤認識の抽出が容易にかつ短時間に行うことができる。さらに、これを用いて、誤認識および認識漏れの確認および修正を行うとができるため、誤認識の確認および修正作業が容易にかつ短時間に行うことができる。また、この誤認識の修正した修正データは元の文字データに反映して保存しているため、今後の誤認識を防止することができる。これらのことは特に画像を表す画像データの場合は顕著となる。但し、電子データのように、文字列が誤認識されない場合であっても、文字列の検索により作成された、要約データおよびサムネイル画像データにより、その検索された書類データが本来検索するべきデータであるか否かを、容易にかつ短時間にて判断することが可能になることは言うまでも無い。
尚、上記実施の形態1においては、要約データおよびサムネイル画像データのいずれも表示する例を示したが、これに限られることは無く、サムネイル画像データまたは要約データの少なくともいずれか一方を表示して行って良いことは言うまでも無い。但し、その場合は2つを表示する場合より誤認識の確認自体が行いにくくなったりすることが考えられる。
実施の形態2.
図5はこの発明の実施の形態2における文字検索システムの構成を示したブロック図、図6は図5に示した文字検索システムの動作を説明するためのフローチャートである。図において、上記実施の形態1と同様な部分を示す箇所は同一符号を付して説明を省略する。検索サーバ3は、検索にて作成されたサムネイル画像データおよび要約データを巡回してヒット文書閲覧画面405の閲覧自動巡回表示部407に表示する閲覧自動巡回機能部306を備えたものである。
次に上記のように構成された実施の形態2の文字検索システムの動作について図6のフローチャートを交えて説明する。ここでは、上記実施の形態1とは異なる動作の部分について主に説明する。まず、上記実施の形態1と同様に、書類データおよび文字データの登録を各データベース103、104に行う。次に、全文検索を行い、検索結果表示機能部302が、検索結果画面402の検索ヒット要約表示部403および検索ヒットサムネイル表示部404に、図3に示すように、検索結果の一覧画面を表示する(図4のステップS12)。次に、閲覧自動巡回機能部306により検索結果画面402の検索ヒット要約表示部403および検索ヒットサムネイル表示部404を、閲覧自動巡回表示部407に検索にて作成されたサムネイル画像データおよび要約データ毎に巡回して表示する(図4のステップS20)。次に、この巡回して表示されるサムネイル画像データおよび要約データから修正対象を発見して、選択する(図4のステップS21)。以後の工程は、上記実施の形態1と同様に誤認識を表示して修正する。
以上のように、この発明の実施の形態2の文字検索システムによれば、上記実施の形態1と同様の効果を奏するのはもちろんのこと、検索された書類データのサムネイル画像データおよび要約データの表示を自動で巡回表示することができるため、少ない操作で誤認識および認識漏れ箇所の確認を行うことができる。
実施の形態3.
図7はこの発明の実施の形態3における文字検索システムの構成を示すブロック図、図8は図7に示した文字検索システムの動作を説明するためのフローチャート、図9は図7に示した文字検索システムの表示手段に表示される画面構成を示す図である。図において、上記各実施の形態と同様な部分を示す箇所は同一符号を付して説明を省略する。図において、解析サーバ1のイメージ内文字候補抽出機能部203は、画像データの文字の解析において文字の確度を設定し、複数の認識候補を抽出して解析し確度とともに文字データを作成する。検索サーバ3には、文字列の検索において文字列の確度を確度閾値設定部408から設定され、その確度に基づいて検索する確度閾値設定機能部307を備える。
次に上記のように構成された実施の形態3の文字検索システムの動作について説明する。ここでは、上記各実施の形態とは異なる動作の部分について主に説明する。まず、上記各実施の形態と同様に、文書登録処理において、書類データ101、102を書庫データベース103に保存する(図8のステップS1)。次に、保存された書類データ(図8のステップS2)を、その書類データの内容に応じて、イメージ内文字抽出機能部203または電子データ内文字抽出機能部201bに登録サーバ2の検索文書登録機能部202が割り振って送信して、解析サーバ1に解析を要求する(図8のステップS3)。
次に、解析サーバ1のイメージ内文字抽出抽出機能部203および電子データ内文字抽出機能部201bにて書類データの解析を行い文字抽出処理を行う(図8のステップS4)。そして、その解析された抽出結果を文字データとして文字データベース104に登録サーバ2の検索文章登録機能部202が保存する(図8のステップS5)。この際、本実施の形態3では、画像データの各文字の解析結果をその確度とともに保存する。画像データから解析され抽出された文字は、複数の候補文字、例えば、「金」であれば「金」の確度は99%、「全」の確度は80%、「企」の確度は60%、「合」の確度は55%などの複数の候補文字が確度とともに登録されている可能性が考えられる。これに対し、電子データの場合は、1つの文字に対して1つの候補文字が登録され、確度は100%である。
次に、文書検索処理においては、検索サーバ3の全文検索機能部301がクライアント端末4の全文検索実行画面401を、例えば図9の左端の一覧の部分に示すように表示する(図8のステップS7)。次に、検索するための任意の文字列としての検索キーワードが、例えばここでは”全文検索”という文字列が入力されて指定される。そして、これとともに本実施の形態3では、確度閾値を設定する。ここではこれを、誤認識修正を行う場合であるか否かの判断を行い(図8のステップS30)、通常の検索(NO)においては、確度を90%以上と設定する。
また、誤認識修正を行う場合には、確度閾値を下げ確度の低い、例えば確度を70%以上と設定する。このように誤認識修正を行わないような場合、ただ単に文字列の含まれている書類データを確認したい場合などには、確度の高い検索結果を表示し、不必要となる書類データをなるべく少なくすると判断し、また、誤認識修正を行う場合には、修正することを目的としているため、確度の低い検索結果も参照に検討する必要があると判断されるため上記に示したように確度がそれぞれ設定されているものである。尚、この確度の設定方法は様々な例が考えられることは言うまでも無い。そして、以後の工程は、上記実施の形態1と同様に誤認識を表示して修正する。
以上のように、この発明の実施の形態3の文字検索システムによれば、上記各実施の形態と同様の効果を奏するのはもちろんのこと、確度の低い認識候補も検索結果として表示するため、認識漏れ箇所の確認漏れを少なくすることができる。また、確度の高いものを表示することにより、検索する文字列を確実に含んでいると考えられる書類データのみを表示させることができるため、検索のみを行う場合などは大変有効となる。
実施の形態4.
図10はこの発明の実施の形態4における文字検索システムの構成を示したブロック図、図11は図10に示した文字検索システムの動作を説明するためのフローチャートである。図において、上記各実施の形態と同様な部分を示す箇所は同一符号を付して説明を省略する。修正データと修正前の文字との関係を蓄積する修正候補データベース105と、解析サーバ1のイメージ内文字抽出機能部203は、修正候補データベース105の修正データに登録されている文字に対しては修正データの修正文字として書類データの解析を行う修正候補反映機能部204とを備えている。
次に上記のように構成された実施の形態4の文字検索システムの動作について図11のフローチャートを交えて説明する。ここでは、上記各実施の形態とは異なる動作の部分について主に説明する。まず、上記各実施の形態と同様に、書類データおよび文字データの登録を各データベース103、104に行う。次に、全文検索を行い、誤認識を表示して修正する。そして、本実施の形態4では、図11のステップS17における修正において、修正データと修正前の文字との関係を修正候補データベース105に蓄積する。そして、他の書類データを登録する際に、イメージ内文字抽出機能部203の修正候補反映機能部204により、修正候補データベース105内に修正候補と同じ文字があるか否かを判断する(図11のステップS40)。そして、無いと判断される(NO)と上記各実施の形態と同様に抽出される。また、あると判断される(YES)と、抽出された文字を修正データの修正文字として書類データの解析を行い、抽出文字を修正する(図11のステップS41)。そして、以下の動作は上記各実施の形態と同様に行う。
以上のように、この発明の実施の形態4の文字検索システムによれば、上記各実施の形態と同様の効果を奏するのはもちろんのこと、一度修正を実行した文字は、以降の解析において同じ誤認識をした文字を修正候補データベースの修正データを元に自動修正するため、認識精度の向上を図ることができる。
実施の形態5.
図12はこの発明の実施の形態5における文字検索システムの構成を示したブロック図、図13は図12に示した文字検索システムの動作を説明するためのフローチャートである。図において、上記各実施の形態と同様な部分を示す箇所は同一符号を付して説明を省略する。修正候補データベース105には、修正データにて修正された修正文字の書類データ内における位置、文字サイズ、確度の付帯情報を付加して保存する付帯情報データベース106と、解析サーバ1のイメージ内文字抽出機能部203は、修正候補データベース105の付帯情報データベース106の修正データの付帯情報に近似する文字においては修正データの修正文字として書類データの解析を行う付帯情報評価修正候補反映機能部205とを備えている。
次に上記のように構成された実施の形態5の文字検索システムの動作について図13のフローチャートを交えて説明する。ここでは、上記各実施の形態とは異なる動作の部分について主に説明する。まず、上記各実施の形態と同様に、書類データおよび文字データの登録を各データベース103、104に行う。次に、全文検索を行い、誤認識を表示して修正する。そして、本実施の形態5では、上記実施の形態4と同様に、図13のステップS17の修正において、修正データと修正前の文字との関係を修正候補データベース105に蓄積するとともに、修正データにて修正された修正文字の書類データ内における位置、文字サイズ、確度の付帯情報を付加して付帯情報データベース106に保存する。
そして、他の書類データを登録する際に、イメージ内文字酵素抽出機能部203の付帯情報評価修正候補反映機能部205により、修正候補データベース105内に修正候補と同じ文字があるか否かを判断する(図13のステップS40)。そして、無いと判断される(NO)と上記各実施の形態と同様に抽出される。次に、あると判断される(YES)と、付帯情報データベース106内の付帯情報が類似しているか否かを判断する(図13のステップS50)。そして、類似していないと判断される(NO)と上記各実施の形態と同様に抽出される。また、類似していると判断される(YES)と、抽出された文字を修正データの修正文字として書類データの解析を行い、抽出文字を修正する(図13のステップS41)。そして、以下の動作は上記各実施の形態と同様に行う。
以上のように、この発明の実施の形態5の文字検索システムによれば、上記各実施の形態と同様の効果を奏するのはもちろんのこと、一度修正を実行した文字は、以降の解析において同じ誤認識をした文字を修正文字候補リストを元に自動修正する場合に、修正文字の付帯情報を見て、修正時と同じ状況の解析結果の場合に自動修正を行い、修正時と異なる状況の場合には自動修正しないため、無駄な修正が行われない。
この発明の実施の形態1の文字検索システムの構成を示す図である。 図1に示した文字検索システムの動作を説明するためのフローチャートである。 図1に示した文字検索システムの表示手段に表示される画面構成を示す図である。 図1に示した文字検索システムの表示手段に表示される画面構成を示す図である。 この発明の実施の形態2の文字検索システムの構成を示す図である。 図5に示した文字検索システムの動作を説明するためのフローチャートである。 この発明の実施の形態3の文字検索システムの構成を示す図である。 図7に示した文字検索システムの動作を説明するためのフローチャートである。 図7に示した文字検索システムの表示手段に表示される画面構成を示す図である。 この発明の実施の形態4の文字検索システムの構成を示す図である。 図10に示した文字検索システムの動作を説明するためのフローチャートである。 この発明の実施の形態5の文字検索システムの構成を示す図である。 図12に示した文字検索システムの動作を説明するためのフローチャートである。
符号の説明
1 解析サーバ、3 検索サーバ、4 クライアント端末、
101,102 書類データ、103 書庫データベース、104 文字データベース、105 修正候補データベース、106 付帯情報データベース、
201a,203 イメージ内文字酵素抽出機能部、204 修正候補反映機能部、
205 付帯情報反映機能部、301 全文検索機能部、302 検索結果表示機能部、303 ヒット要約・サムネイル作成機能部、304 ヒット文書閲覧機能部、
306 閲覧自動巡回機能部、305 誤認識修正機能部、401 全文検索実行画面、402 検索結果表示画面、403 検索ヒット要約表示部、
404 検索ヒットサムネイル表示部、405 ヒット文書閲覧画面、
407 閲覧自動巡回表示部、406 誤認識修正画面。

Claims (8)

  1. 書類データを格納する書庫データベースと、
    上記書類データから文字を解析して文字データを作成する解析サーバと、
    上記文字データを格納する文字データベースと、
    任意の文字列を上記文字データベースの文字データから検索する検索サーバとを備えた文字検索システムにおいて、
    上記検索サーバは、上記文字列を有するとして検索された文字データに対応する上記書類データを上記書庫データベースから抽出して当該書類データ内の上記文字列が検索された箇所のサムネイル画像データ、または、上記検索された文字データの上記文字列を有する箇所を含む所定領域分の文字データを上記文字データベースから抽出した要約データの少なくともいずれか一方を作成することを特徴とする文字検索システム。
  2. 上記サムネイル画像データまたは上記要約データの少なくともいずれか一方を表示する表示手段を備えたことを特徴とする請求項1に記載の文字検索システム。
  3. 上記書類データは、画像を表す画像データを有し、
    上記解析サーバは、上記画像データから文字を解析するイメージ内文字抽出機能部を有していることを特徴とする請求項2に記載の文字検索システム。
  4. 上記検索サーバは、上記サムネイル画像データまたは上記要約データの少なくともいずれか一方に対応する上記書類データを読み出して表示するヒット文章閲覧機能部と、
    上記ヒット文章閲覧機能部により上記表示手段に表示された上記書類データに対して修正文字の修正データを入力する誤認識修正機能部とを有し、
    上記誤認識修正機能部は、上記修正データの内容を上記文字データに反映して登録することを特徴とする請求項3に記載の文字検索システム。
  5. 上記修正データと修正前の文字との関係を蓄積する修正候補データベースを備え、
    上記解析サーバのイメージ内文字抽出機能部は、上記修正候補データベースの修正データに登録されている文字に対しては上記修正データの修正文字として上記書類データの解析を行うことを特徴とする請求項4に記載の文字検索システム。
  6. 上記修正候補データベースは、上記修正データにて修正された修正文字の上記書類データ内における位置、文字サイズ、確度の付帯情報を保存し、
    上記解析サーバのイメージ内文字抽出機能部は、上記修正候補データベースの修正データの付帯情報に近似する文字においては上記修正データの修正文字として上記書類データの解析を行うことを特徴とする請求項5に記載の文字検索システム。
  7. 上記解析サーバのイメージ内文字抽出機能部は、上記画像データの文字の解析において上記文字の確度を設定して解析して上記文字データを作成し、
    上記検索サーバは、上記文字列の検索において上記文字列の確度を設定して検索する確度閾値設定機能部を備えたことを特徴とする請求項2ないし請求項6のいずれか1項に記載の文字検索システム。
  8. 上記検索サーバは、上記検索にて作成されたサムネイル画像データまたは要約データの少なくともいずれか一方を巡回して上記表示手段に表示する閲覧自動巡回機能部を備えたことを特徴とする請求項2ないし請求項7のいずれか1項に記載の文字検索システム。
JP2008078021A 2008-03-25 2008-03-25 文字検索システム Pending JP2009230658A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008078021A JP2009230658A (ja) 2008-03-25 2008-03-25 文字検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008078021A JP2009230658A (ja) 2008-03-25 2008-03-25 文字検索システム

Publications (1)

Publication Number Publication Date
JP2009230658A true JP2009230658A (ja) 2009-10-08

Family

ID=41245925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008078021A Pending JP2009230658A (ja) 2008-03-25 2008-03-25 文字検索システム

Country Status (1)

Country Link
JP (1) JP2009230658A (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02171876A (ja) * 1988-12-23 1990-07-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識処理方式
JPH04104384A (ja) * 1990-08-24 1992-04-06 Canon Inc 文字認識装置
JPH06223121A (ja) * 1993-01-22 1994-08-12 Nec Corp 情報検索装置
JPH06290297A (ja) * 1993-04-02 1994-10-18 Sharp Corp 文字認識装置
JPH1063773A (ja) * 1996-08-13 1998-03-06 Ricoh Co Ltd 認識結果編集方法およびパターン認識システムおよび情報記録媒体
JP2001337993A (ja) * 2000-05-30 2001-12-07 Fujitsu Ltd 文字認識結果を利用して情報を検索する検索装置および方法
JP2002351433A (ja) * 2001-03-08 2002-12-06 Konica Corp 文字情報修正装置
JP2006106905A (ja) * 2004-09-30 2006-04-20 Toshiba Corp 文字読取装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02171876A (ja) * 1988-12-23 1990-07-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識処理方式
JPH04104384A (ja) * 1990-08-24 1992-04-06 Canon Inc 文字認識装置
JPH06223121A (ja) * 1993-01-22 1994-08-12 Nec Corp 情報検索装置
JPH06290297A (ja) * 1993-04-02 1994-10-18 Sharp Corp 文字認識装置
JPH1063773A (ja) * 1996-08-13 1998-03-06 Ricoh Co Ltd 認識結果編集方法およびパターン認識システムおよび情報記録媒体
JP2001337993A (ja) * 2000-05-30 2001-12-07 Fujitsu Ltd 文字認識結果を利用して情報を検索する検索装置および方法
JP2002351433A (ja) * 2001-03-08 2002-12-06 Konica Corp 文字情報修正装置
JP2006106905A (ja) * 2004-09-30 2006-04-20 Toshiba Corp 文字読取装置

Similar Documents

Publication Publication Date Title
US10860848B2 (en) Multi-page document recognition in document capture
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US20160179313A1 (en) Page-independent multi-field validation in document capture
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US20220222292A1 (en) Method and system for ideogram character analysis
US20150106701A1 (en) Input support method and information processing system
US8571262B2 (en) Methods of object search and recognition
JP5229102B2 (ja) 帳票検索装置、帳票検索プログラムおよび帳票検索方法
JP2005107931A (ja) 画像検索装置
US20230306767A1 (en) Information processing apparatus, non-transitory computer readable medium, and method for processing information
US20110075941A1 (en) Data managing apparatus, data managing method and information storing medium storing a data managing program
CN113177392B (zh) 校对界面中行段信息同步方法、计算设备及存储介质
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
US10331948B1 (en) Rules based data extraction
JP7331551B2 (ja) 情報処理装置及び情報処理プログラム
JP2009230658A (ja) 文字検索システム
JP5826148B2 (ja) 図面管理サーバ及びこれを用いた図面管理システム
JP5445740B2 (ja) 画像処理装置、画像処理システムおよび処理プログラム
JP2008176625A (ja) 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
JP2009181225A (ja) Ocr装置、証跡管理装置及び証跡管理システム
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2001094711A (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
US11868726B2 (en) Named-entity extraction apparatus, method, and non-transitory computer readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120321

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120928

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121009

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20121214