JP4750476B2 - 文書検索装置及び方法と記憶媒体 - Google Patents

文書検索装置及び方法と記憶媒体 Download PDF

Info

Publication number
JP4750476B2
JP4750476B2 JP2005167347A JP2005167347A JP4750476B2 JP 4750476 B2 JP4750476 B2 JP 4750476B2 JP 2005167347 A JP2005167347 A JP 2005167347A JP 2005167347 A JP2005167347 A JP 2005167347A JP 4750476 B2 JP4750476 B2 JP 4750476B2
Authority
JP
Japan
Prior art keywords
search
character string
document
search result
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005167347A
Other languages
English (en)
Other versions
JP2006343870A (ja
JP2006343870A5 (ja
Inventor
英一朗 戸島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005167347A priority Critical patent/JP4750476B2/ja
Priority to CNB200610088580XA priority patent/CN100511232C/zh
Publication of JP2006343870A publication Critical patent/JP2006343870A/ja
Publication of JP2006343870A5 publication Critical patent/JP2006343870A5/ja
Application granted granted Critical
Publication of JP4750476B2 publication Critical patent/JP4750476B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

本発明は、検索クエリに従って文書データを検索する文書検索装置及びその検索方法及び記憶媒体に関するものである。
パーソナルコンピュータ(PC)の普及に伴い、文書の作成は、文書作成ソフトなどのPC上のアプリケーションソフトを用いて行われるのが一般的となっている。具体的には、各種書類等をPCの画面上で作成、編集し、それを複写、検索するといったことが広く行われている。またネットワークの発展と普及に伴い、このようにPC上で作成された電子的な文書データ(電子文書データ)が、プリンタ等を用いて紙文書として印刷されずに他のPC等からアクセスされ、電子メール等で送信・配布される、ということも一般化されておりペーパーレスの文書作成環境が広がりつつある。
このようなペーパーレス化を実現する電子文書データは、文書管理システムを構築して、コンピュータによって体系的に管理されるようになってきており、文書の共有化による効率的な情報量の削減、文書間の関連付け等の点で、極めて利便性の高いものである。このよう電子文書データの普及につれて、文書データの全文検索、キーワード検索などの検索操作が普及し、検索の有用性が一般に広く知られてきている。
一方、紙に文書を印刷した紙文書は、電子文書データと比較して、読みやすさ、扱いの汎用性、持ち運びの容易性、全貌把握の容易性等の利点があり、例えば、資料を配布する必要があるときは、電子データをプリンタ装置で印刷した紙文書の形で配布することが依然として行われている。ところが、紙文書はそのままの形では検索ができないので、所望の情報が印刷された紙文書の検索は容易ではない。そこで従来から、紙文書をスキャンしOCR(Optical Character Recognition)処理し電子テキスト化した電子文書を検索することが行われていた。しかしながら、OCR処理において誤認識が発生する場合、ユーザが所望する個所が正しく検索されないことになる。
このような問題を解決するために、従来から様々な提案がなされており、文書上の文字列の文字抜け、文字混入、文字化けを想定して検索クエリと文書上の文字列とを照合して検索する手法、或は検索クエリの各文字を、想定した誤認識文字に展開し、その展開された検索クエリと照合して文書を検索する手法等が提案されている。ここでは、これらの照合手法を総称して不完全照合と呼ぶことにする。
このような不完全照合の工夫により、誤認識が原因で取りこぼしていたヒット位置が拾えるようになってきたが、弊害もまた多く発生している。例えば、検索クエリとして「イラク」を入力し、「イラク」から誤認識によって生じた誤認識文字(例えば、「イテク」)までも検索対象としてヒットさせようとすると、例えば、(誤認識していない)「ハイテク」中の「イテク」にヒットしてしまい、文書中で「ハイテク」という単語が使用されるたびに無関係なヒットが発生してしまう。このような本来意図しないヒットが多発すると、意味のあるヒットを選別するための作業が必要となり、ユーザにとって作業負荷が増大し使いづらい検索装置となる。
関連する技術として、特開2004−334334号公報が存在する。
特開2004−334334号公報
ところがこの特許文献1の技術では、依然として無関係なヒットが発生してしまう。例えば、「人間」という文字列(或は、それが誤認識した結果発生する文字列)を検索したい場合、クエリとして「人間」を指定することになるが、「間」は「関」と類似しているため、文字列「人関」もヒットしてしまう。そうすると、もし文書中に「被告人関係者」という文字列があると、この中の「人関」もヒットしてしまうことになる。このとき、「人関」「告人関」「人関係」などは辞書単語の一部を形成しているわけではないので、従来技術ではこのヒットを抑制することができなかった。
本発明は、上記従来技術の欠点を解決することにある。
また本願発明の特徴は、誤認識された文字列を効率良く検索できる文書検索装置及びその方法を提供することにある。
本発明の一態様に係る文書検索装置は以下のような構成を備える。即ち、
紙文書をスキャンし文字認識して得られた文書データを検索する文書検索装置であって、
前記文書データを検索するための検索クエリを入力する入力手段と、
前記検索クエリと当該検索クエリに類似する展開クエリとを基に、前記文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する照合手段と、
前記照合手段で抽出された前記文字列とヒット順位を保持する検索結果保持手段と、
記文書データを形態素解析辞書を参照して解析し、未知語を含む文書データの領域である未知語領域を識別する解析手段と、
前記検索結果保持手段に保持された前記文字列が、前記未知語領域の文字列を含むか否かを判定する領域ヒット判定手段と、
前記領域ヒット判定手段により前記検索結果保持手段に保持された前記文字列が前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持手段に保持された前記文字列のヒット順位を調整し検索結果として出力する検索結果出力手段と、
を有することを特徴とする。
本発明の一態様に係る文書検索方法は以下のような工程を備える。即ち、
紙文書をスキャンし文字認識して得られた文書データを検索する文書検索装置を制御する文書検索方法であって、
前記文書検索装置の入力手段が、前記文書データを検索するための検索クエリを入力する入力工程と、
前記文書検索装置の照合手段が、前記検索クエリと当該検索クエリに類似する展開クエリとを基に、前記文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する照合工程と、
前記文書検索装置の検索結果保持手段が、前記照合工程で抽出された前記文字列とヒット順位を保持する検索結果保持工程と、
前記文書検索装置の解析手段が、前記文書データを形態素解析辞書を参照して解析し、未知語を含む文書データの領域である未知語領域を識別する解析工程と、
前記文書検索装置の領域ヒット判定手段が、前記検索結果保持手段に保持された前記文字列が、前記未知語領域の文字列を含むか否かを判定する領域ヒット判定工程と、
前記文書検索装置の検索結果出力段が、前記領域ヒット判定工程で前記検索結果保持工程で保持された前記文字列が前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持工程で保持された前記文字列のヒット順位を調整し検索結果として出力する検索結果出力工程と、を有することを特徴とする。
尚、この発明の概要は、必要な特徴を全て列挙しているものでなく、よって、これら特徴群のサブコンビネーションも発明になり得る。
本発明によれば、誤認識された文字列を効率良く検索できる。
以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
図1は、本発明の実施の形態に係る文書検索装置の構成を示すブロック図である。
図において、CPU101はマイクロプロセッサで、ROM102或はRAM103に記憶されたプログラムに従って、画像処理、文字処理、認識処理、検索処理等のための演算、論理判断等を行い、バス120を介して接続されている各構成要素を制御する。バス120はシステムバスで、CPU101の制御対象である各構成要素を指示するアドレス信号、データ及びコントロール信号を転送する。ROM102は読出し専用の不揮発性メモリで、CPU101により実行されるブートプログラムや各種データを記憶する。このブートプログラムはシステム起動時に、ハードディスク(HD)108に記憶された制御プログラムをRAM103にロードしてCPU101に実行させる。この制御プログラムについては、後にフローチャートを参照して詳述する。RAM103は読み書き可能なランダムアクセスメモリで、HD108からロードされ、CPU101により実行される各種プログラムを記憶するとともに、CPU101の動作時にワークエリアとして使用され、各構成要素からの各種データの一次記憶に用いられる。
入力部104は、キーボードやマウス、タッチパネル等を含み、ユーザの操作により、メニュー項目の選択、各種データの入力等に使用される。表示部105は、液晶やCRT、プラズマなどのディスプレイを有し、各種メニュー、処理結果、エラー、警告、捜査結果等を表示してユーザに提示するのに使用される。スキャナ106は、原稿である紙文書を光学的に読み取ってデジタル化する等の処理を行う。プリンタ106は、文書や画像などを印刷するのに使用される。この文書検索装置では、通信部110で受信したPDL(印刷制御言語)形式の電子文書データも印刷することができる。
HD108は、CPU101により実行される制御プログラム111、自然言語解析を行うための形態素解析辞書112、未知語領域を認定するための規則を記述している未知語領域認定ルール113等が格納されている。更に、必要に応じて、未知語領域を管理するための未知語領域テーブル114、検索結果を保持する検索結果テーブル115、検索クエリを展開して保持するためのクエリ展開テーブル115等の作業用データも格納されている。これら各種データは、必要に応じてRAM103にロードされて参照され、また必要に応じて変更されてHD108に書き戻される。尚、形態素解析辞書112には、一般の自然言語解析で提案されている必要な情報、例えば、単語表記、品詞情報、活用情報、単語共起情報などが格納される。
リムーバブル外部記憶装置109は、USBメモリデバイス、ICカード等の着脱可能な記憶デバイスである。これらは通常のPCと同様に、フロッピィディスクやCD,DVD等の外部記憶にアクセスするためのドライブ等であっても良い。このリムーバブル外部記憶装置109は、HD108と同様に使用でき、それらの記憶媒体を通じて他の装置とデータ交換を行うことができる。尚、ハードディスク108に記憶される制御プログラム111は、リムーバブル外部記憶装置109から必要に応じて全部又は一部をHD108にコピー(インストール)することができる。通信部110は、ネットワークコントローラで、通信回線を介して外部とのデータ交換を行うことができる。
以上の構成を備える本実施の形態に係る文書検索装置は、入力部104等からの各種イベントに応じて作動する。入力部104等からのインタラプトが供給されると、その割り込み信号がCPU101に送られ、それに伴ってイベントが発生される。このイベントに応じてCPU101がROM102又はRAM102に記憶される各種命令を読み出し、それを実行することにより、その制御プログラムに従った各種制御が行われる。
図2(A)(B)は、本実施の形態に係る検索の操作例を説明する図である。
図2(A)に示す例1において、本来検索されるべきテキストが「イラクへのハイテク兵器輸出の是非を問う」である(201)。これがOCR処理の際に、「イテクへのハイテク兵器輸出の是非を問う」と認識されてしまって登録されている(202)。ここでは、本来「イラク」であった文字列が誤認識のため「イテク」となっている。
次にオペレータは、その誤認識された文字列「イラク」を探すために検索クエリ「イラク」を発行する(203)。本実施の形態における検索処理では、類似語展開処理によって類似した文字(展開クエリ)は一致するとみなして検索するため、原文の文字列「イラクへの」中の「イテク」が検索結果として見つかる。「ハイテク」の中にも同じ文字列が存在するが、こちらは「ハイテク」という文節が解析されている中でのヒットなので、ヒット順位を下げて検索結果として出力される。
図2(B)に示す例2において、検索されるテキストは「法律に詳しい人間が被告人関係者に必要」である(205)。この原文が例1と同様に文字認識されると、「間」が「関」に誤認識されて登録されている(206)。
そして「人間」を検索するために検索クエリ「人間」を発行する(207)。これにより類似文字を含めて検索され、文字列「人関への」中の「人関」がヒットする。このとき「被告人関係者」中の「人関」は「被告人」「関係者」が解析できた文節となるので、ヒット順位を下げて検索結果として出力される。
図3は、本実施の形態に係る未知語解析処理の一例を説明する図である。
ページイメージ301は、紙文書のスキャン或は電子文書のラスタライズにより生成されたものである。これをOCR処理した結果がテキスト302で示されている。このテキスト302では、誤認識のため「人間」が「人関」、「望まれる」が「望申れる」、「イラク」が「イテク」に変わっている(誤認識した文字は下線をつけて表示している)。
テキスト303は、テキスト302を形態素解析した解析結果を示し、テキストが文節単位に分割されている。「/」は文節の区切りを示す。ここで形態素解析できなかった個所(解析不能文字列)は枠310を付けて表示している。このとき誤認識された「人関」、「イテク」は、形態素に分割すれば解析できるので、解析不能文字列として判定されていない。テキスト304は、303で示す解析結果に、更に後述する未知語領域の抽出処理をかけた結果を示している(枠310が付された文字列は、未知語領域を示す)。これにより、303における解析不能文字列(「望申れる」)に加えて、後述する未知語領域認定ルール113に従って、誤認識された「人関」、「イテク」の部分も未知語領域に設定されている。
図4は、本実施の形態に係る未知語領域を記憶する未知語領域テーブル114のデータ構成を説明する図である。
各未知語領域に対して、開始位置401と末尾位置402が記憶される。これら開始位置及び末尾位置は、テキスト上での未知語領域の開始位置と末尾位置を示す値(ページ、行数、その行で何番目の文字かを示す情報)が格納される。文字コード403は、図3のテキスト304において、未知語領域として認定された文字列に対応する文字コードである。図4では、未知語領域として指定された「イテク」の開始位置と末尾位置が記憶されている。
図5は、本実施の形態に係る検索クエリの各文字(文字列)を類似文字列(展開クエリ)に展開するためのクエリ展開テーブル116のデータ構成を説明する図である。
ここには誤認識されそうな類似性を持つ文字(列)のペアが記憶される。例えば、「ン」は「ソ」と似ているので、展開元文字列501に「ン」が記憶され、それに対応する展開先文字列502に「ソ」が記憶される。また「デ」は2文字の「テリ」に誤認識される可能性があるので、展開元文字列501として「デ」、それに対応する展開先文字列502として「テリ」が記憶される。また「ク」は「ワ」に誤認識される可能性があるとして登録されている。また2文字「イン」は、1文字の「仁」に誤認識される可能性があるため、展開元元文字列501として「イン」、それに対応する展開先文字列502として「仁」が記憶される。これ以外にも、誤認識される可能性が高い文字や文字列が登録されているが、ここではそれらは省略している。
図6は、本実施の形態に係る検索クエリを、誤認識により展開される可能のある文字列として展開する展開クエリLatticeを説明する図である。
ここでは各展開文字列の連結状況がLatticeを形成している。先頭ノード601から末尾ノード602に到る経路を選択すると、元の検索クエリが、誤認識される可能性のある類似文字列に展開された1つのクエリとして表される。例えば、検索クエリとして「インデクス」は、610で示すルートを通ると「イソテリワス」になり、611で示すルートを通ると「仁デワス」に展開されることが分かる。更に別のルートを通ると、「インテリクス」「イソデクス」「仁デワス」等に展開される。こうして検索クエリは、その検索クエリの原文そのままか、或は、この展開クエリに従って類似文字列に展開された文字列であるかが区別されて格納される。尚、図6において、楕円内の文字は、元の検索クエリの文字と一致している文字を示し、矩形状内の文字は、それが誤認識された場合の文字を示している。
図7は、形態素解析結果のどの部分が未知語領域となるべきかを認定するためのルールである未知語領域認定ルール113の格納形式を示した図である。
各ルールについて、第1文節701及び第2文節702の各文節が満たすべき条件が記述される。例えば、ルール1では、第1文節701の文節長(文字数)が「1」で、かつ第2文節702の自立語長(即ち、付属語を除いた文字数)が「1」である場合に、このルール1を満足する(即ち、未知語領域と認定される)ことを意味している。これにより例えば図3の304に示す例では、「人」と「関が」からなる2つの文節が未知語領域として新たに認定される。
同様に、ルール2では、第1文節701の文節長が2以下で、表記がカタカナであり、かつ第2文節702の自立語長が2以下で、カタカナ表記のときに未知語と認定されることを意味するルールが記述されている。これにより例えば図3の304に示す例では、「イ」と「テク」からなる2つの文節が未知語領域として新たに認定される。
図8は、本実施の形態に係る検索結果の候補を格納する検索結果テーブル115の構成を示す図である。
ここでは各検索結果候補に対して、先頭位置801には、検索結果(ヒット文字列)の先頭文字のテキスト上での位置が格納される。末尾位置802には、検索結果(ヒット文字列)の末尾文字のテキスト上での位置が格納される。スコア803には、その検索結果の表示順位を規定する値(後述)が格納される。この検索結果は、最終的にはスコア順にソートされ、検索結果として出力されることになる。
図9は、本実施の形態に係る検索結果の出力順位を規定するスコアの算出式を説明する図である。
まず、類似度が「完全一致文字数」×2+「不完全一致文字数」の式で算出される。ここで「完全一致文字数」は、検索クエリとヒット文字列が正確に(類似文字列展開せずに)一致した文字数である。また「不完全一致文字数」は、検索クエリを類似文字列に展開した結果、ヒット文字列と一致する文字数である。尚、ここでヒット文字列が一部でも未知語領域にかかっているときは、上記求めた「類似度」がそのまま「スコア」となる。またヒット文字列が未知語領域にかかっていない場合、即ち、ヒット文字列の全領域に亘って解析文節が存在する場合は、「スコア」は、「類似度」から「最大の解析文節長」分、減点される。ここで「最大の解析文節長」は、ヒット文字列に係る形態素解析結果の文節の内、最長のものの文節長(文字数)である。
例1は、ヒット文字列が未知語領域にかかっている場合の例を示す。このときは「スコア」=「類似度」と定義する。別の言い方をすれば、「最大の解析文節長」=0である。
例2から例4は、未知語領域にかかっていない場合の例を示している。例2では、解析文節1と解析文節2がヒット文字列にかかっており、この内、文字数が多い方のnが「最大の解析文節長」となる。
例3では、ヒット文字列の唯一の文節のみがかかっているので、その文字数nが「最大の解析文節長」となる。
例4では、ヒット文字列に3つの解析文節がかかっているが、このうち最長の文字数kが「最大の解析文節長」となる。
以上説明したスコアの求め方を図3の304で示す例を用いて説明すると、検索クエリが「人間」の場合、その展開クエリ「人関」に一致する文字列として(a)「人関が」、(b) 「被告人関係者に」が検索される。また検索クエリが「イラク」の場合、その展開クエリ「イテク」に一致する文字列として(c)「イテク」、(d) 「ハイテク」が検索される。この場合、まず(a)の「人関が」の類似度は(例1)に対応し、図9の式より「3」となり、また未知語領域にかかっているため、スコアも「3」となる。一方、「被告人関係者に」(b)の場合は、(例2)に対応し、類似度は「3」となるが未知語領域にかかっていないため、スコアは(3−4=)−1となる。同様に検索クエリが「イラク」の場合は、(例1)に対応し、(c)「イテク」の類似度は図9の式より「5」となり、また未知語領域にかかっているためスコアも「5」となる。一方、(d)「ハイテク」の場合は、(例3)に対応し、類似度は「5」となるが未知語領域にかかっていないためスコアは(5−4=)1となる。
上述の動作をフローチャートに従って説明する。
図10は、本実施の形態に係る文書検索装置における処理を説明するフローチャートで、この処理を実行するプログラムは実行時にはRAM103に記憶されており、CPU101の制御の下に実行される。
まずステップS1で、システムの初期化処理を実行し、ここでは各種パラメータの初期化や初期画面の表示等を行う。次にステップS2で、入力部104或はネットワーク等を介して接続されている機器からのリクエストなどによる、何らかのイベントが発生するのを待つ。ここでイベントが発生するとステップS3に進んで、その発生したイベントを判別し、その判別したイベントの種類に応じて各種の処理に分岐する。ここでは各種イベントに対応した分岐先の複数の処理をステップS4でまとめて表現している。各種イベントに対応した分岐先の処理の一例として、図11に示す検索処理が含まれる。他の処理としては詳細は記述していないが、検索条件を指定する処理、原稿をスキャンして文書画像を生成する処理、文書を指定する処理など通常の検索装置の処理がある。そしてステップS5に進み、ステップS4における各処理の処理結果を表示する。ここでの処理は、検索結果の表示処理、エラーがあった場合のエラー表示、正常終了の場合の表示処理など通常広く行われる処理である。
図11は、図10のステップS4におけるイベント対応処理の一部である検索処理を説明するフローチャートである。
まずステップS11で、図12のフローチャートで詳述する未知語解析処理を実行する。ここでは、指定された文書の画像を基に文字認識してOCRテキストを生成し、更に形態素解析、未知語解析により未知語領域テーブル114(図4)を作成する。次にステップS12で、入力された検索クエリを、誤認識される可能性のある類似文字列に展開して展開クエリLatticeを生成する(図6参照)。次にステップS13で、その生成した展開クエリLatticeに基づいて、図14のフローチャートを参照して後述する不完全照合処理を実行し、検索結果テーブル115を作成する。次にステップS14で、図15のフローチャートを参照して後述するように、未知語領域テーブル114と図9の式に基づいて、検索結果テーブル115のスコアを求める。次にステップS15で、その求めたスコアの順に検索結果をスコア順にソートする。そしてステップS16で、そのスコア順にソートした検索結果を表示・出力する。
図12は、図11のステップS11の未知語解析処理を説明するフローチャートである。
まずステップS21で、指定された文書画像を文字認識してテキスト情報を得る(図3の302)。次にステップS22で、そのテキスト情報を形態素解析し、文節に分割する(図3の303)。次にステップS23で、図13のフローチャートを参照して後述するように、未知語領域を抽出する(図3の304)。次にステップS24で、その抽出した未知語領域を未知語領域テーブル114として出力する。
図13は、図12のステップS23の未知語領域の抽出処理を説明するフローチャートである。
まずステップS31で変数等を初期設定し、文節を示すポインタをテキストの先頭を指し示すように初期化する。次にステップS32で、そのポインタで示された文節の情報を取得する。次にステップS33で、ステップS32で取得した文節が解析不能な文節かどうかを形態素解析辞書112を参照して判定する。解析不能な文節であると判定した場合は未知語領域とみなしてステップS35に分岐するが、解析不能な文節でないと判定したときはステップS34に進み、未知語領域認定ルール113を参照して、その文節が未知語領域に該当するかどうかを判定する。ここで未知語領域に該当しない判断されるとステップS36に分岐するが、未知語領域に該当すると判断するとステップS35に進み、その抽出した未知語領域について必要な情報を収集し、未知語領域として設定する。そしてステップS36に進み、文節を示すポインタを更新し、次の文節を示すようにする。次にステップS37で、次の文節が存在するかどうかを判定し、存在すると判定するとステップS32に戻って前述した処理を実行する。一方、次の文節が存在しないと判定すると、この未知語領域の抽出処理を終了する。
図14は、図11のステップS13の不完全照合処理を説明するフローチャートである。
まずステップS41で、文字位置を示すポインタを、テキストの先頭を指すように初期設定する。次にステップS42で、展開クエリLatticeと、そのポインタで指示されるテキスト上の文字とを照合する。そしてステップS43で、展開クエリLatticeと文字とが一致したかどうかを判定し、一致しない場合はステップS46にスキップして次の文字に移動する。ステップS43で、一致した場合はステップS44に進み、その一致の度合いを類似度として算出する。この類似度の算出処理は、前述の図9に示す式に従って行われる。次にステップS45に進み、その一致した文字位置を検索結果テーブル115(図8)に登録する。尚、ここではスコアとして、ステップS44で求めた類似度をそのまま設定する。次にステップS46で、文字位置を指示するポインタを更新して文字位置を次に進める。そしてステップS47で、文字位置がテキストの末尾に到達したか否かを判定し、末尾に到達していない場合はステップS42に戻って前述の処理を実行し、末尾に到達した場合は、この不完全照合処理を終了する。
図15は、図11のステップS14のスコア調整処理を説明するフローチャートである。
まずステップS51で、検索結果を示すポインタを検索結果テーブル115(図8)の先頭を示すように初期設定する。次にステップS52で、そのポインタの示す検索結果の情報(位置とスコア)を取得する。次にステップS53で、検索結果の示すヒット文字列がテキスト上で未知語領域を含むかどうかを、未知語領域テーブル114(図4)を基にチェックする。そしてステップS54で、未知語領域を含むと判定するとステップS58に分岐してスコアを類似度と等しい値に確定するが、含まないと判定するとステップS55に進み、図9に示したように、ヒット文字列にかかる最長の解析文節長を求める。次にステップS56で、その求めた最長の解析文節長をスコアから減じて、スコアを補正する。次にステップS57で、その補正したスコアを検索結果テーブル115(図8)に反映する。次にステップS58で、検索結果を示すポインタを次の検索結果を示すように更新する。そしてステップS59で、検索結果が終了したかどうかを判定し、終了していないときはステップS52に戻って前述した処理を実行し、終了したときは、このスコア調整処理を終了する。
(他の実施の形態)
尚、本発明は上述の実施の形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。上述の実施の形態においては、言語解析の手法として形態素解析を使用したが、それ以外の実現形態も考えられる。例えば、単に単語に分割するだけの手法に基づく方式も考えられる。この場合は付属語の部分は一切解析されずに未知語領域として処理されることになる。これにより解析の精度が低下するという欠点があるものの、形態素解析に比べて解析処理が軽くて済み、より軽量なシステムを構成することができる。
また上述の実施の形態においては、不完全照合の手法としてクエリの文字を類似文字列に展開して検索しているが、このような展開をせずに、類似した文字群をまとめて代表する代表文字に正規化して照合する手法も考えられる。そのように構成することで処理負荷が軽減され、より小規模の装置に適用が可能となる。
また或は、全く異なる不完全照合の実現形態も考えられる。例えば、ワイルドカードサーチなどのように一致しない部分があっても照合に成功すると判定する手法を採用することもできる。この場合、類似度の算出方法が若干変わるものの、不完全照合の部分を除けば全く同様に構成することができ、全く同様の効果を得ることができる。更に上記以外にも、本発明の趣旨を逸脱しない限りにおいて、この実施の形態の構成を適宜変更することが可能である。
以上説明したように本実施の形態によれば、誤認識があるテキストに対して、誤認識を許容した検索が可能となる。しかも誤認識を許容したヒットがあった場合も、解析可能な文字列に含まれていればスコアが低く評価されるので、意図しない誤ヒットを抑制できる。これにより、本当に誤認識された文字列のヒットが相対的に優先的に表示され、操作性の高い文書検索装置を提供できる。
本発明の実施の形態に係る文書検索装置の構成を示すブロック図である。 本実施の形態に係る検索の操作例を説明する図である。 本実施の形態に係る未知語解析処理の一例を説明する図である。 本実施の形態に係る未知語領域を記憶する未知語領域テーブルのデータ構成を説明する図である。 本実施の形態に係る検索クエリの各文字(文字列)を類似文字列に展開するためのクエリ展開テーブルのデータ構成を説明する図である。 本実施の形態に係る検索クエリを、誤認識により展開される可能のある文字列として展開する展開クエリLatticeを説明する図である。 本実施の形態に係る、形態素解析結果のどの部分が未知語領域となるべきかを認定するためのルールである未知語領域認定ルールの格納形式を示した図である。 本実施の形態に係る検索結果の候補を格納する検索結果テーブルの構成を示す図である。 本実施の形態に係る検索結果の出力順位を規定するスコアの算出式を説明する図である。 本実施の形態に係る文書検索装置における処理を説明するフローチャートである。 図10のステップS4におけるイベント対応処理の一部である検索処理を説明するフローチャートである。 図11のステップS11の未知語解析処理を説明するフローチャートである。 図12のステップS23の未知語領域の抽出処理を説明するフローチャートである。 図11のステップS13の不完全照合処理を説明するフローチャートである。 図11のステップS14のスコア調整処理を説明するフローチャートである。

Claims (10)

  1. 紙文書をスキャンし文字認識して得られた文書データを検索する文書検索装置であって、
    前記文書データを検索するための検索クエリを入力する入力手段と、
    前記検索クエリと当該検索クエリに類似する展開クエリとを基に、前記文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する照合手段と、
    前記照合手段で抽出された前記文字列とヒット順位を保持する検索結果保持手段と、
    記文書データを形態素解析辞書を参照して解析し、未知語を含む文書データの領域である未知語領域を識別する解析手段と、
    前記検索結果保持手段に保持された前記文字列が、前記未知語領域の文字列を含むか否かを判定する領域ヒット判定手段と、
    前記領域ヒット判定手段により前記検索結果保持手段に保持された前記文字列が前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持手段に保持された前記文字列のヒット順位を調整し検索結果として出力する検索結果出力手段と、
    を有することを特徴とする文書検索装置。
  2. 前記検索結果出力手段は、前記領域ヒット判定手段により前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持手段に保持された文字列のヒット順位減少させるスコア補正手段を有し、
    前記スコア補正手段により得られたヒット順位に応じた順番で前記文字列を検索結果として出力することを特徴とする請求項1に記載の文書検索装置。
  3. 前記展開クエリは、前記検索クエリを構成する文字を文字認識した場合に誤認識される確率の高い文字を、前記検索クエリを構成する対応する文字と入れ替えて構成される文字列であることを特徴とする請求項1に記載の文書検索装置。
  4. 前記照合手段は、前記一致する文字列に含まれる前記検索クエリの文字と一致している文字数、及び前記一致する文字列に含まれる前記展開クエリの文字と一致している文字数とにより前記一致する文字列の類似度を求め、前記検索結果出力手段では、前記類似度を用いて前記文字列のヒット順位を決定して前記文字列を検索結果として出力することを特徴とする請求項1乃至3のいずれか1項に記載の文書検索装置。
  5. 前記解析手段は、前記文書データの形態素解析を行い、形態素解析して得られた文節に含まれる単語が単語辞書に含まれているか否かに応じて前記未知語領域を識別することを特徴とする請求項1乃至4のいずれか1項に記載の文書検索装置。
  6. 前記解析手段は、前記文書データの形態素解析を行い、形態素解析して得られた各文節の文節長と自立語長とから前記未知語領域を識別することを特徴とする請求項1乃至5のいずれか1項に記載の文書検索装置。
  7. 前記スコア補正手段は、前記照合手段により抽出された文字列が含まれる文節の最大文字数を、前記抽出された文字列の類似度から減算して類似度を低下させることを特徴とする請求項2に記載の文書検索装置。
  8. 紙文書をスキャンし文字認識して得られた文書データを検索する文書検索装置を制御する文書検索方法であって、
    前記文書検索装置の入力手段が、前記文書データを検索するための検索クエリを入力する入力工程と、
    前記文書検索装置の照合手段が、前記検索クエリと当該検索クエリに類似する展開クエリとを基に、前記文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する照合工程と、
    前記文書検索装置の検索結果保持手段が、前記照合工程で抽出された前記文字列とヒット順位を保持する検索結果保持工程と、
    前記文書検索装置の解析手段が、前記文書データを形態素解析辞書を参照して解析し、未知語を含む文書データの領域である未知語領域を識別する解析工程と、
    前記文書検索装置の領域ヒット判定手段が、前記検索結果保持手段に保持された前記文字列が、前記未知語領域の文字列を含むか否かを判定する領域ヒット判定工程と、
    前記文書検索装置の検索結果出力段が、前記領域ヒット判定工程で前記検索結果保持工程で保持された前記文字列が前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持工程で保持された前記文字列のヒット順位を調整し検索結果として出力する検索結果出力工程と、
    を有することを特徴とする文書検索方法。
  9. 請求項に記載の文書検索方法をコンピュータに実行させるためのプログラム。
  10. 請求項に記載のプログラムを記憶していることを特徴とする、コンピュータにより読取り可能な記憶媒体。
JP2005167347A 2005-06-07 2005-06-07 文書検索装置及び方法と記憶媒体 Expired - Fee Related JP4750476B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005167347A JP4750476B2 (ja) 2005-06-07 2005-06-07 文書検索装置及び方法と記憶媒体
CNB200610088580XA CN100511232C (zh) 2005-06-07 2006-06-06 文档检索装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005167347A JP4750476B2 (ja) 2005-06-07 2005-06-07 文書検索装置及び方法と記憶媒体

Publications (3)

Publication Number Publication Date
JP2006343870A JP2006343870A (ja) 2006-12-21
JP2006343870A5 JP2006343870A5 (ja) 2008-07-17
JP4750476B2 true JP4750476B2 (ja) 2011-08-17

Family

ID=37510012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005167347A Expired - Fee Related JP4750476B2 (ja) 2005-06-07 2005-06-07 文書検索装置及び方法と記憶媒体

Country Status (2)

Country Link
JP (1) JP4750476B2 (ja)
CN (1) CN100511232C (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4930288B2 (ja) * 2007-09-03 2012-05-16 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
CN101630315B (zh) * 2008-07-16 2011-09-14 清华大学 一种快速检索方法及系统
JP5357711B2 (ja) * 2009-11-17 2013-12-04 株式会社日立ソリューションズ 文書処理装置
JP5716328B2 (ja) * 2010-09-14 2015-05-13 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
CN102567421B (zh) * 2010-12-27 2014-04-02 北大方正集团有限公司 文档检索方法和装置
JP6003705B2 (ja) 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN104424255B (zh) * 2013-08-28 2019-02-01 阿尔派株式会社 检索装置及检索方法
JP7139669B2 (ja) * 2018-04-17 2022-09-21 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11797551B2 (en) * 2019-02-14 2023-10-24 Resonac Corporation Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152774A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
JP3744676B2 (ja) * 1998-03-20 2006-02-15 沖電気工業株式会社 情報抽出装置及びその方法
JP4332356B2 (ja) * 2003-01-22 2009-09-16 キヤノン株式会社 情報検索装置及び方法並びに制御プログラム

Also Published As

Publication number Publication date
JP2006343870A (ja) 2006-12-21
CN1877578A (zh) 2006-12-13
CN100511232C (zh) 2009-07-08

Similar Documents

Publication Publication Date Title
JP4750476B2 (ja) 文書検索装置及び方法と記憶媒体
JP4306894B2 (ja) 自然言語処理装置及びその方法、及び自然言語認識装置
US20040267734A1 (en) Document search method and apparatus
US20080040098A1 (en) Machine translation apparatus and method
US20060095426A1 (en) System and method for creating document abstract
US20050097080A1 (en) System and method for automatically locating searched text in an image file
JP3220886B2 (ja) 文書検索方法および装置
US20120143897A1 (en) Wild Card Auto Completion
JP2004227227A (ja) 情報検索装置
US20220222292A1 (en) Method and system for ideogram character analysis
JP2002510089A (ja) 光学的文字認識により作成された電子的文書を検索するためのシステムおよび方法
Bechtel Developments in computer science with application to text analysis
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
US6754386B1 (en) Method and system of matching ink processor and recognizer word breaks
JPH11224258A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JP4208566B2 (ja) 文書画像検索装置及びその方法、文書画像検索システム、プログラム
KR101245631B1 (ko) 근사조합장치, 근사조합방법, 프로그램 및 기록매체
JP6916437B2 (ja) 情報処理装置、その制御方法、及びプログラム
US20040054677A1 (en) Method for processing text in a computer and a computer
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
JP7172343B2 (ja) 文書検索用プログラム
US7523031B1 (en) Information processing apparatus and method capable of processing plurality type of input information
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2011198285A (ja) 文書処理システム、及びプログラム
JP2000029901A (ja) 画像検索装置及び方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101022

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110516

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110519

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140527

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees