JP2007148925A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2007148925A
JP2007148925A JP2005344439A JP2005344439A JP2007148925A JP 2007148925 A JP2007148925 A JP 2007148925A JP 2005344439 A JP2005344439 A JP 2005344439A JP 2005344439 A JP2005344439 A JP 2005344439A JP 2007148925 A JP2007148925 A JP 2007148925A
Authority
JP
Japan
Prior art keywords
search
character
document
data
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005344439A
Other languages
English (en)
Inventor
Tomoyuki Shimizu
智之 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005344439A priority Critical patent/JP2007148925A/ja
Publication of JP2007148925A publication Critical patent/JP2007148925A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 確定コードデータと認識コードデータが検索対象として混在している場合であっても、高速で高精度な、かつ検索漏れの少ない検索処理を実現する。
【解決手段】 文書データを検索する情報処理装置であって、文書データから所定の文字コードデータを抽出する文字コードデータ抽出部102と、文書データのうち、認識処理を介して電子化された文書データより抽出された文字データコードに基づいて生成されたインデックスを登録する格納部106と、文書データのうち、所定の認識処理を介さずに電子化された文書データより抽出された文字データコードに基づいて生成されたインデックスを登録する格納部107と、格納部106に登録されたインデックスを検索対象とする場合と、格納部107に登録されたインデックスを検索対象とする場合とで、検索処理を切り替えて検索する検索部108とを備える。
【選択図】 図1

Description

本発明は、電子化された文書を検索する文書検索技術に関するものである。
近年、計算機を利用して文書を作成・利用する機会が増加しており、それに応じて大量の文書が電子化され、文書データとして保管、蓄積されるようになってきた。しかし、これらの文書データの中から、特定の文書データを即座に発見することは容易では無い。このため、文書データを探すための技術、すなわち文書検索技術のニーズが急速に高まってきている。
文書検索の代表的な技術の一つに、検索対象となる文書データに含まれる各文字の出現位置を、検索用インデックス(以下、「文字位置インデックス」と称す)として利用する手法がある。該手法は、検索条件に含まれている各文字列(検索文字)の文字位置を参照し、同一の文書データ内に検索文字と同じ位置関係が存在することを示す文字位置インデックスが見つかった場合、該文書データを検索結果とするものである。該手法は、高速かつ漏れの無い検索を実現可能であることから、一般的に広く利用されている。
しかしながら、このような従来手法は、文字(計算機上では文字コードデータ)を検索することを想定している。一方で、近年では、検索対象となる文書データは多様化が進んでいる。すなわち、検索対象としては単に文字コードデータのみを含んだもの(文書データのうち、文字コードデータのみを含んだものを、以下、「テキスト文書データ」と称す)だけにとどまらない。例えば、紙として存在していた文書を画像として読み込んで電子化する等、画像データや音声データなど様々なデータ形式の文書データ(文書画像データ、音声文書データ等)が扱われるようになってきている。
このような状況に鑑みて、文字コードデータの検索処理としての高速かつ高精度な従来手法を利用しつつ、文書画像データ等にも対応するために、同手法を応用した検索処理の実現が望まれている。
文字位置インデックスを使った従来の文書検索手法を、文書画像データの検索処理に利用する方法としては、例えば、特開平8−153110号公報が挙げられる。同公報では、OCR等の文字認識装置による文字認識処理により文書画像データから取り出した文字コードデータとその出現位置とを利用する。なお、以下、文字認識装置による文字認識処理によって抽出した文字コードデータを「認識コードデータ」と称す。また、これに対して、テキスト文書データから(文字認識処理を介さずに)直接抽出された文字コードデータを「確定コードデータ」と称することとする。
特開平8−153110号公報
しかしながら、OCR等の文字認識装置は必ずしも正しい文字コードデータを抽出できるわけではなく、多くの場合、認識結果には誤りが含まれる。このような誤りを含む文字コードデータを従来の文書検索装置に登録した場合、検索に失敗してしまうといった問題が生じえる。
本発明は、上記課題に鑑みてなされたものであり、確定コードデータと認識コードデータとが検索対象として混在している環境であっても、高速で高精度な、かつ検索漏れの少ない検索処理を実現することを目的とする。
上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
電子化された文書を検索する情報処理装置であって、
前記電子化された文書から予め定められた文字コードデータを抽出する文字コードデータ抽出手段と、
前記電子化された文書のうち、認識処理を介して電子化された文書より抽出された前記文字データコードに基づいて生成されたインデックスを登録する第1の登録手段と、
前記電子化された文書のうち、認識処理を介することなく電子化された文書より抽出された前記文字データコードに基づいて生成されたインデックスを生成する第2の登録手段と、
前記第1の登録手段に登録されたインデックスを検索対象とする場合と、前記第2の登録手段に登録されたインデックスを検索対象とする場合とで、検索処理を切り替えて検索する検索手段とを備える。
本発明によれば、確定コードデータと認識コードデータとが検索対象として混在している環境であっても、高速で高精度な、かつ検索漏れの少ない検索処理を実現することが可能となる。
以下、必要に応じて添付図面を参照しながら本発明の各実施形態を詳細に説明する。
[第1の実施形態]
<文書検索装置の機能構成>
図1は、本発明の一実施形態に係る文書検索装置(情報処理装置)の機能構成を示すブロック図である。図1において、文書データ取得部101は、スキャナやデジタルカメラ等から入力された文書画像データを取得したり、磁気ディスクなどの記憶装置に記憶された既存の各種文書データを取得したりする。
文字コードデータ抽出部102は文書データ取得部101で取得した文書データを解析する。文字コードデータ抽出部102では、取得された文書データがテキスト文書データであった場合には、文字コードデータ(確定コードデータ)を抽出する。一方、取得された文書データが文書画像データ等であった場合には、当該文書画像データ等を認識部103に送信する。
認識部103は、文字コードデータ抽出部102で解析された文書データが文字コードデータ以外のデータ形式からなる文書データであり、かつ該文書データが文字認識処理可能な文書データであるかを判断する。該当する場合には、該文書データから文字認識処理によって認識コードデータを抽出し、文字コードデータ抽出部102へと返す。これにより、文字コードデータ抽出部102は、認識コードデータを取得する。
インデックス登録部104は、文字コードデータ抽出部102で取得された確定コードデータおよび認識コードデータに基づいて生成された各文字位置インデックスを、各々の文字位置インデックス格納部へと登録する。
インデックス生成部105は、インデックス登録部104から確定コードデータあるいは認識コードデータを取得して文字位置インデックスを生成する。
認識コードデータ用文字位置インデックス格納部106は、認識コードデータに基づいて生成された文字位置インデックスを格納する。
確定コードデータ用文字位置インデックス格納部107は、確定コードデータに基づいて生成された文字位置インデックスを格納する。
検索部108は、認識コードデータ用文字位置インデックス格納部106および確定コードデータ用文字位置インデックス格納部107に対して、それぞれ適した検索手段を用いて検索処理を行い、検索結果を生成する。例えば、本実施形態においては、認識コードデータ用文字位置インデックス格納部106の検索処理については完全一致を条件としない曖昧検索が行われる。また、確定コードデータ用文字位置インデックス格納部107の検索処理については完全一致を条件とする検索処理が行われる。
<文書検索装置のハードウェア構成>
図2において、入力装置201は、各種情報を入力する。入力装置201には、例えば、文書画像データを生成するスキャナやデジタルカメラ等の他、検索条件の入力に使用するためのキーボード、マウス、音声入力マイク等も含まれる。
出力装置202は検索結果を出力する。該出力装置202には、例えばLCD等のディスプレイ、プリンタ、音声出力スピーカ等が含まれるが、本実施の形態においてはディスプレイ装置とする。ROM203は図1に示す各機能を実現するための処理を実行するプログラム等を格納する。ワーク用RAM204はROM203に格納されたプログラムを実行する際に用いられるメモリである。
CPU205はROM203に格納されたプログラムを実行する。ディスク206は文字位置インデックスや文書データを格納可能なHDD等の2次記憶装置である。バス207は本文書検索装置の各部を接続してデータをやり取りするための通信ラインである。
なお、CPU205は、図1に示す文字データ取得部101,文字コードデータ抽出部102,認識部103,インデックス登録部104,インデックス生成部105,検索部108の機能を実行する。また、ディスク206は、認識コードデータ用文字位置インデックス格納部106および確定コードデータ用文字位置インデックス格納部107に対応する。
<文書検索装置における処理の流れ(登録処理)>
次に図3および図4のフローチャートを用いて、本発明の一実施形態に係る文書検索装置における処理を説明する。図3,4のフローチャートは、CPU205がROM203から読み出されたプログラムを実行することによって行われる。
図3に示すフローチャートは、文字位置インデックス登録処理の手順を示す。
ステップS301において、文書データ取得部101は、検索対象となる文書データを取得する。このとき、該文書データは入力装置201経由で入力されたものでも、本文書検索装置外で作成されROM203、RAM204、ディスク206のような記憶装置に保持されているものでもかまわない。
ステップS302において、文字コードデータ抽出部102は、ステップS301で取得した文書データが確定コードデータを含み得るか否かを判定する。含み得る場合にはステップS303へ移行する。一方、含み得ない場合にはステップS304へ移行する。
なお、確定コードデータを含み得るか否かの判定は、例えば文書データに付与されていたファイルタイプの拡張子を見ることで行うことができる。ただし、かかる方法に限るものではなく、取得した文書データ内に存在する特定のデータ列からファイルタイプを推定するなどの方法を採用しても構わない。また、既存の解析用ツールを利用して確定コードデータを含み得るか否かの判定を行うようにしても良いことは言うまでもない。
ステップS303において、文字コードデータ抽出部102は、確定コードデータを抽出する。なお、抽出方法は文書データ作成時に使用したアプリケーションの仕様等によって異なる場合が多いが、本発明は、いずれの抽出方法であってもよく、特に抽出方法は限定されないものとする。
ステップS304において、文字コードデータ抽出部102は、ステップS301で取得した文書データが文字認識処理可能な文書データを含み得るか否かを判定する。含み得る場合にはステップS305へ移行する。一方、含み得ない場合にはステップS306へ移行する。
なお、文字認識処理可能な文書データを含み得るか否かの判定は、ステップS302同様、例えば文書データに付与されていたファイルタイプの拡張子を見ることで行うことができる。ただし、かかる方法に限るものではなく、取得した文書データ内に存在する特定のデータ列からファイルタイプを推定するなどの方法を採用しても構わない。また、既存の解析用ツールを利用して文字認識処理可能な文書データを含み得るか否かの判定を行うようにしても良いことは言うまでもない。
ステップS305において、文字コードデータ抽出部102は、文書データから文字認識処理可能な文書データを抽出する。そして、認識部103は、抽出した文書データに対して文字認識処理を行うことにより認識コードデータ列を抽出する。なお、文字認識処理可能な文書データについての認識コードデータ列の抽出処理方法、および各データ形式の文書データに応じた文字認識処理方法については、特に限定されるものではない。
ステップS306において、文字コードデータ抽出部102は、確定コードデータ、認識コードデータの少なくともいずれか一方の文字コードデータを抽出したかどうかを判定する。どちらの文字コードデータも抽出しなかった、あるいはできなかった場合は、処理を終了する。少なくともいずれか一方の文字コードデータを抽出した場合は、ステップS307へ移行する。
ステップS307において、インデックス生成部105は、確定コードデータ、及び認識コードデータの各々から、文書データ内での各文字の出現位置を示す検索用インデックス(文字位置インデックス)を生成する。この時、各文字の出現位置はそれぞれの文書データ毎に連続した値であれば良い。
ステップS308では、インデックス登録部104は、ステップS307で生成した各文字位置インデックスを、各々の文字位置インデックス格納部106,107へ登録する。
<文書検索装置における処理の流れ(検索処理)>
図4は、本実施形態にかかる文書検索装置における検索処理の手順を示すフローチャートである。
ステップS401において、検索部108は、ユーザによって入力された検索条件となる文字列(以下、検索文字とする)を取得する。
ステップS402において、検索部108は、ステップS401で取得した検索文字で、確定コードデータ用文字位置インデックスに対する検索処理を行う。本実施形態では検索文字に完全一致する文字列が存在する文書データを検索する。なお、検索処理については、既知の文字位置インデックスを利用した全文検索方法を使用して構わない。
ステップS403において、検索部108は、ステップS401で取得した検索文字で、認識コードデータ用文字位置インデックスに対する検索処理を行う。本実施形態では、文字位置インデックスの文字列の一部が欠落あるいは置換されているか、または文字位置インデックスの文字列の一部に新たな文字が挿入されていることを想定した曖昧検索を行う。なお、曖昧検索処理については既知の方法、例えば特開平8−235212号公報に記載した曖昧検索方法を使用して構わない。
ステップS404において、検索部108は、ステップS402とステップS403で取得した検索結果をまとめて、検索結果を生成する。本実施形態では、両ステップの検索結果をマージしたものを最終的な検索結果とし、出力装置202に出力する。
以上説明したように、本実施形態では、誤りを含まない確定コードデータと誤認識を含む可能性が高い認識コードデータとが検索対象として混在している場合を考慮し、確定コードデータと認識コードデータとで、別々の文字位置インデックスを作成した。そして、検索処理時には、確定コードデータ用文字位置インデックスに対しては従来の完全一致を条件とする検索処理を行い、認識コードデータ用文字位置インデックスに対しては曖昧検索処理を行うこととした。
このように、確定コードデータについては、従来の完全一致を条件とする検索処理を行うことで、検索結果のノイズ増加や検索効率の低下を無くすことができる。更に、認識コードデータについては、曖昧検索によって、検索漏れを抑制することができるようになる。つまり、確定コードデータと認識コードデータとが検索対象として混在している環境であっても、高速で高精度な、かつ検索漏れの少ない検索処理を実現することが可能となる。
[第2の実施形態]
上記第1の実施形態においては、一つの文書データ内であっても確定コードデータと認識コードデータとをそれぞれ別々の文字位置インデックス格納部に分けて保持することとした。しかし、本発明は特にこれに限定されない。認識単位ごとに文字位置インデックスを分けるのではなく、一部あるいは全てが認識コードデータである文書データの文字位置インデックスと、確定コードデータのみからなる文書データの文字位置インデックスのように、文書データ単位で分けてもよい。この場合、検索処理については、例えば、文字認識処理を経た文書データ用の文字位置インデックスに対しては曖昧検索を行い、確定コードデータのみからなる文書データ用の文字位置インデックスに対しては完全一致を条件とする検索処理を行えば良い。
[第3の実施形態]
上記第1及び第2の実施形態においては、検索条件として検索文字のみを指定したが、検索部108の仕様にあわせて別の検索条件を指定可能にしても良い。例えば、上記実施形態において認識コードデータ用文字位置インデックスの検索は曖昧検索を行ったが、検索部108において曖昧度の設定が可能である場合には、検索条件として曖昧度を指定できるようにしても良い。
[第4の実施形態]
上記各実施形態においては、ステップS403では、文字位置インデックスの文字列の一部が欠落あるいは置換されているか、または文字位置インデックスの文字列の一部に新たな文字が挿入されていることを想定した曖昧検索による検索処理を行った。しかしながら、文字認識処理を経た文書データを検索対象として検索処理を行う場合に、文字認識処理時の誤認識が考慮された方法であればよい。例えば、ステップS403において、認識コードデータの抽出に使われた、認識処理的に類似した特徴を持つと判断される文字の置換を特に考慮して、検索処理を行うようにしても良い。
[第5の実施形態]
上記各実施形態においては、ステップS404で両文字位置インデックスからの検索結果を単純にマージすることとした。しかし、この処理に換えて、どちらの文字位置インデックスからの検索結果かによって重み付けを行い、重みによって順位付けを行ったうえで検索結果を生成するようにしても良い。例えば、上記実施形態において認識コードデータ用文字位置インデックスから検索された文書データは、確定コードデータ用文字位置インデックスから検索された文書データに比べて検索文字との一致の確実性が乏しい。このため、重みを下げることで、下位に順位付けするようにしても良い。また、重みは一定である必要は無く、検索文字との一致の度合いに応じて、重みの値を変動させるようにしても良い。
[他の実施形態]
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給するよう構成することによっても達成されることはいうまでもない。この場合、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することにより、上記機能が実現されることとなる。なお、この場合、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、前述した実施形態の機能が実現される場合も含まれる。つまり、プログラムコードがメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって実現される場合も含まれる。
本発明の一実施形態に係る文書検索装置の機能構成を示すブロック図である。 本発明の一実施形態に係る文書検索装置のハードウェア構成を示すブロック図である。 本発明の一実施形態に係る文書検索装置における、文字位置インデックス登録処理の手順を示すフローチャートである。 本発明に一実施形態に係る文書検索装置における、検索処理の手順を示すフローチャートである。

Claims (7)

  1. 電子化された文書を検索する情報処理装置であって、
    前記電子化された文書から予め定められた文字コードデータを抽出する文字コードデータ抽出手段と、
    前記電子化された文書のうち、認識処理を介して電子化された文書より抽出された前記文字データコードに基づいて生成されたインデックスを登録する第1の登録手段と、
    前記電子化された文書のうち、認識処理を介することなく電子化された文書より抽出された前記文字データコードに基づいて生成されたインデックスを生成する第2の登録手段と、
    前記第1の登録手段に登録されたインデックスを検索対象とする場合と、前記第2の登録手段に登録されたインデックスを検索対象とする場合とで、検索処理を切り替えて検索する検索手段と
    を備えることを特徴とする情報処理装置。
  2. 前記第1の登録手段は、光学的文字認識処理を介して抽出された文字データコードに基づいて生成されたインデックスを登録することを特徴とする請求項1に記載の情報処理装置。
  3. 前記検索手段は、前記第1の登録手段に登録されたインデックスを検索対象とする場合には、完全一致を条件としない曖昧検索処理を行い、前記第2の登録手段に登録されたインデックスを検索対象とする場合には、完全一致を条件とする検索処理を行うことを特徴とする請求項1に記載の情報処理装置。
  4. 前記検索手段による検索結果を出力する出力手段を更に備え、
    前記出力手段は、前記第1の登録手段に登録されたインデックスを検索対象として検索した際の検索結果と、前記第2の登録手段に登録されたインデックスを検索対象として検索した際の検索結果とで、異なる重み付けを行ったうえで出力することを特徴とする請求項1に記載の情報処理装置。
  5. 電子化された文書を検索する情報処理方法であって、
    前記電子化された文書から予め定められた文字コードデータを抽出する文字コードデータ抽出工程と、
    前記電子化された文書のうち、認識処理を介して電子化された文書より抽出された前記文字データコードに基づいて生成されたインデックスを登録する第1の登録工程と、
    前記電子化された文書のうち、認識処理を介することなく電子化された文書より抽出された前記文字データコードに基づいて生成されたインデックスを生成する第2の登録工程と、
    前記第1の登録工程により登録されたインデックスを検索対象とする場合と、前記第2の登録工程により登録されたインデックスを検索対象とする場合とで、検索処理を切り替えて検索する検索工程と
    を備えることを特徴とする情報処理方法。
  6. 請求項5に記載の情報処理方法をコンピュータによって実現させるための制御プログラムを格納した記憶媒体。
  7. 請求項5に記載の情報処理方法をコンピュータによって実現させるための制御プログラム。
JP2005344439A 2005-11-29 2005-11-29 情報処理装置及び情報処理方法 Withdrawn JP2007148925A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005344439A JP2007148925A (ja) 2005-11-29 2005-11-29 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005344439A JP2007148925A (ja) 2005-11-29 2005-11-29 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2007148925A true JP2007148925A (ja) 2007-06-14

Family

ID=38210254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005344439A Withdrawn JP2007148925A (ja) 2005-11-29 2005-11-29 情報処理装置及び情報処理方法

Country Status (1)

Country Link
JP (1) JP2007148925A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP2009098777A (ja) * 2007-10-15 2009-05-07 Fuji Xerox Co Ltd データ処理装置及びデータ処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP4533920B2 (ja) * 2007-07-23 2010-09-01 シャープ株式会社 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
JP2009098777A (ja) * 2007-10-15 2009-05-07 Fuji Xerox Co Ltd データ処理装置及びデータ処理プログラム

Similar Documents

Publication Publication Date Title
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
WO2010119615A1 (ja) 学習データ生成装置、及び固有表現抽出システム
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
US20060062492A1 (en) Document processing device, document processing method, and storage medium recording program therefor
JP3309077B2 (ja) 構文情報を用いた検索方法およびシステム
JP4983526B2 (ja) データ処理装置及びデータ処理プログラム
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2007148925A (ja) 情報処理装置及び情報処理方法
JP4208566B2 (ja) 文書画像検索装置及びその方法、文書画像検索システム、プログラム
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JPH1173415A (ja) 類似文書検索装置及び類似文書検索方法
JP4693065B2 (ja) 人名表現同定装置、その方法、プログラム及び記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2009087037A (ja) 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体
JP2002132789A (ja) 文書検索方法
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2007323415A (ja) 情報検索装置、情報検索システム、情報検索装置の制御方法、及び制御プログラムを提供する媒体
JP2009110204A (ja) 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP2005173950A (ja) 文書処理装置及び文書処理方法
JP5514002B2 (ja) 検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090203