JP2003242171A

JP2003242171A - 文書の検索方法

Info

Publication number: JP2003242171A
Application number: JP2002044109A
Authority: JP
Inventors: Katsumi Tada; 勝己多田; 壽 ▲高▼取; Hisashi Takatori
Original assignee: Hitachi Ltd; Hitachi Systems and Services Ltd
Current assignee: Hitachi Ltd; Hitachi Systems and Services Ltd
Priority date: 2002-02-21
Filing date: 2002-02-21
Publication date: 2003-08-29
Anticipated expiration: 2022-02-21
Also published as: US7047238B2; US20040255218A1; JP4006239B2

Abstract

(57)【要約】【課題】イメージデータを用いた文書管理システムにお
いて、種文書と検索対象の文書内に認識誤り文字がいず
れかあるいは両方に存在したとしても、認識誤り文字に
よる検索精度の劣化を抑止した高精度な類似文書検索を
可能とする。【解決手段】種文書中あるいは登録対象文書中の特徴文
字列に存在する認識誤り文字を補正する処理と、検索対
象文書中に存在する認識誤り文字を許容する処理を個別
に有する。また、特徴文字列に存在する認識誤り文字を
補正する処理では、読み込まれた文書中に存在する特徴
文字列を抽出し、抽出した特徴文字列のうち、認識誤り
文字を含む文字列を検索実行に適切な文字列へと補正
し、実際に検索に用いる特徴文字列を選択する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ装置
を用いた文書検索システムや文書管理システムに係わ
り、特に、紙文書を電子化したイメージ文書の集合を対
象として、ユーザが指定した文書に記述されている内容
に類似する内容を含む文書の検索を高精度に行なうこと
のできるようにした文書の登録方法、検索方法および装
置並びにそれに用いられるプログラムを格納した記憶媒
体に関する。

【０００２】

【従来の技術】オフィスには文書が大量に存在する。近
年、業務の効率化を目的として、オフィス内で文書を共
有し、その上でユーザが所望する文書を迅速かつ的確に
提供できるよう、文書の管理を行なうことが重要であ
る。ワープロソフトなどで作成された電子データに対す
る文書共有の方法としては、文書管理システムが既に実
用化され、高速かつ効率的に所望の文書を検索できる仕
組みが提供されている。また、紙文書を共有するシステ
ムとして、紙の文書をスキャナなどで読み取り、イメー
ジデータとして管理するイメージ文書管理システムがあ
る。

【０００３】イメージ文書管理システムにおいては、イ
メージデータを簡単に登録でき、かつ、蓄積したイメー
ジデータを再利用できる手段が求められる。また、蓄積
したイメージデータを再利用するためには、ユーザが所
望する情報を含んだイメージデータや電子データを高速
かつ効率的に検索する手段が必要不可欠となる。

【０００４】ユーザが所望する情報を含んだ電子データ
を高速かつ効率的に検索する手段として、ユーザの所望
する内容を含んだ文書（以下、種文書と呼ぶ）を例示
し、その文書と類似する文書を検索する類似文書検索が
実用化されている。

【０００５】イメージデータに対応した類似文書検索の
方法は、例えば、特開平８−１１５３３０号公報（以
下、従来技術１とする）に開示されている。従来技術１
では、文書登録時に、紙文書をイメージデータとして読
み込み、イメージデータに対して文字認識技術により文
字情報を抽出することでテキストデータに変換し、イメ
ージデータと共にテキストデータを登録しておく。さら
に、文書検索時は、紙文書をイメージデータとして読み
込み、イメージデータに対して文字認識技術により文字
情報を抽出することでテキストデータに変換し、さらに
テキストデータから該文書を特徴付けるような文字列
（以下、特徴文字列とする）を自動抽出し、文書検索を
行なっている。

【０００６】文字認識技術により文字情報を抽出する際
には、認識誤り文字が発生することが知られているが、
従来技術１では、前提として、文書登録時と文書検索時
に用いるスキャナとＯＣＲ（Optical Character Recogn
ition：光学的文字認識装置）を同一のものを用いるこ
とにしており、その前提の元で、生成されるテキストデ
ータの文字認識精度を均質化できるとしている。つま
り、検索条件として入力するテキストデータと検索対象
となるテキストデータにおける認識誤り文字の出現傾向
は同一であり、特徴文字列のミスマッチは起こり得ない
としている。

【０００７】しかし、この前提のもとでは登録を行なう
マシンと検索を行なうマシンを全く同一にする必要があ
ることになり、検索を行なう際にも登録用のマシンにわ
ざわざ足を運ぶことに繋がるため、利便性に欠ける。ま
た、仮に同一のスキャナとＯＣＲを用いたとしても、こ
れら文字認識装置は同一文字に対し毎回同じ結果を出力
するものではなく、紙文書を読み込む際に生じる文書の
傾きあるいは文書内に存在する文字自体が持つ大きさ、
鮮明さ、傾き、フォントなどの影響を受け、ある文字に
対して認識誤りを起こす場合と正しく認識される場合が
ある。

【０００８】例えば、イメージデータ中に存在する
「E」という文字に対して、ＯＣＲは通常「E」という文
字であるとの文字認識結果を出力するが、傾いた文字や
不鮮明な文字、紙文書の汚れなどによる品質の劣化が生
じると、同一のＯＣＲであっても「F」や「B」、
「Σ」、「L」、「Γ」といった文字であると誤って認
識することも多い。このことから、種となる文書もしく
は検索対象のどちらか一方に認識誤り文字が存在し、も
う一方に正しく認識された文字が存在する場合、特徴文
字列がマッチせず、検索漏れが発生することがある。

【０００９】さらに、種文書としてユーザ自ら自然文を
キーボードから入力した場合、種文書の設定に用いたス
キャナと検索対象の文書に用いたスキャナが異なってい
た場合あるいは種文書の設定に用いたＯＣＲと検索対象
の文書に用いたＯＣＲが異なっていた場合には、従来技
術１での前提が成立しない。このため、種文書中に存在
する特徴文字列と検索対象の文書内に存在する特徴文字
列が異なるので検索漏れが発生することがある。

【００１０】例えば、「サッカー日本代表、ブラジルと
対戦」という紙の文書が存在し、ＯＣＲにより「ナッカ
ー日本代表、ブラジル仁対戦」と文字認識されたとす
る。また、この文字認識結果から「ナッカー」「日本」
「代表」「ブラジル」「仁」といった特徴文字列が抽出
されるものとする。このとき、検索対象の文書中に「サ
ッカー」が「ナッカー」と認識誤りを起こしている文書
は検索できるが、たまたま正しく「サッカー」と認識さ
れている文書や「サソカー」と認識誤りを起こしている
文書は検索対象外となり、検索漏れが起こる。

【００１１】さらに、「と」という文字が「仁」と認識
誤りを起こしているために「日本を代表する古墳の仁徳
天皇陵」といった検索ユーザにとって不必要な文書まで
検索してしまう。さらに、ユーザ自身が検索の種となる
文書として「サッカー日本代表、ブラジルと対戦」と入
力した場合には、「ナッカー」と認識誤りを起こしてい
る文書は検索されない。

【００１２】つまり、実際には検索条件における特徴文
字列もしくは種文書から抽出された特徴文字列と検索対
象の文書に存在する特徴文字列に文字認識によるギャッ
プが存在し、従来技術１ではそのギャップを埋める処理
が存在しないため、特徴文字列のミスマッチが生じ、検
索精度が劣化する。

【００１３】また、検索条件における特徴文字列と検索
対象の文書中に存在する特徴文字列との文字認識による
ギャップを埋める検索方法としては、例えば、特開平４
−１５８４７８号公報（以下、従来技術２とする）で
は、認識誤りの傾向を予め学習しておき、その学習結果
を検索時に用いることで検索対象となる文書に存在する
認識誤り文字を許容し、人手による校正作業なしで高精
度な全文検索を実行できる。なお、全文検索とは、ユー
ザが入力した検索用の文字列が含まれる文書を検索する
技術である。

【００１４】上記従来技術２では、文書登録のときにＯ
ＣＲ出力によるテキストデータに修正を加えず、そのま
ま文書登録を行なう。つまり、従来技術２では、文書登
録時における人手による修正作業を必要とせず、さら
に、検索を行なう処理に工夫をすることで、検索対象に
含まれる認識誤り文字による検索漏れを防いでいる。

【００１５】従来技術２では、ある文字に対して認識誤
りを起こす可能性の高い文字（以下、認識候補文字とす
る）を類似文字テーブルに格納しておき、検索を行なう
際に類似文字テーブルを参照しながら検索に用いる文字
列を1文字ごとに分割し、分割された各文字に対して上
記類似文字テーブルを参照し、参照した各文字の認識候
補文字を組み合わせて複数の文字列（以下、展開語とす
る）に展開する。そして、それらの展開語のいずれかを
含む文書を検索するため、展開語の論理和（ＯＲ）集合
（以下、拡張特徴文字列とする）による全文検索を行な
うことで、検索対象の文書に存在する認識誤り文字を許
容する。

【００１６】前記従来技術２の全文検索の方法を類似文
書検索に適用した場合、検索対象となる文書に存在する
認識誤り文字を許容して検索できる。しかし、種文書に
存在する認識誤り文字が原因となる問題を解決できな
い。例えば、上記の例の「サッカー」という文字に対し
て、検索対象となる文書内で「ナッカー」や「サソカ
ー」と認識誤りを起こしていれば、従来技術２を用いて
検索を行なうことができる。

【００１７】しかし、種文書内で「ナッカー」と認識誤
りをおこしていた場合においては、「ナ」という文字
は、例えば「十」、「＋」あるいは「ｔ」といった文字
と形状が似ていると判断されても、「サ」という文字と
は形状が似ているとは判断されない場合がある。これ
は、「サ」という文字は「ナ」という文字に認識誤りを
起こすことがあり得るが、「ナ」という文字が「サ」と
認識誤りすることが少ないということに起因する。この
場合、同様の技術を種文書に対して適用したとしても、
「サッカー」という文字へと展開することはできない。
このため、「サッカー」という特徴文字列が漏れる可能
性がある。また、「と」という文字が「仁」と誤って認
識され、「日本を代表する古墳の仁徳天皇陵」といった
不必要な文書まで検索される問題は、従来技術２を類似
文書検索に適用しても解消できない。

【００１８】

【発明が解決しようとする課題】以上述べたように、文
書登録時と文書検索時に同一のＯＣＲを用いた場合、利
便性に欠けるというだけでなく、種文書における特徴文
字列と検索対象の文書に存在する特徴文字列との文字認
識精度から生じるギャップにより検索精度が劣化する。

【００１９】本発明の目的は、認識誤り文字が存在する
ことによる種文書と検索対象となる文書とに存在する特
徴文字列のギャップを吸収することで、イメージデータ
を利用した高精度な文書情報の検索方法および情報蓄積
装置を実現することにある。

【００２０】

【課題を解決するための手段】上記目的を達成するた
め、本発明では、（Ａ）種文書中あるいは登録対象文書
中に存在する認識誤り文字を補正する処理と（Ｂ）検索
対象の文書中に存在する認識誤り文字を許容する処理を
個別に行なった上で、文書情報の登録および検索を行な
う。

【００２１】すなわち、本発明による（Ａ）種文書中あ
るいは登録対象文書中に存在する認識誤り文字を補正す
る処理は、（１）文書を読み込む文書読み込みステップ
と、（２）上記文書読み込みステップにおいて読み込ま
れた文書中の文字列から特徴的な文字列を特徴文字列と
して抽出する特徴文字列抽出ステップと、（３）前記特
徴文字列抽出ステップにおいて抽出された全ての特徴文
字列のうち、認識誤り文字を含む特徴文字列に対し、検
索を実行する上で適切な特徴文字列および特徴文字列の
重み値へ補正する特徴文字列補正ステップと、（４）前
記特徴文字列補正ステップにより補正された特徴文字列
群を基に、実際の検索に使用する特徴文字列を選択する
特徴文字列選択ステップを有する。

【００２２】次に、本発明による（Ｂ）検索対象の文書
内に存在する認識誤り文字を許容する処理は、（１）前
記特徴文字列選択ステップにより選択された各特徴文字
列に対し、各文字に対してＯＣＲが認識誤りをおこす可
能性のある文字を候補文字としてあらかじめ列挙し、記
憶領域に格納してある類似文字テーブルを参照し、参照
した各候補文字を組み合わせて特徴文字列を展開・拡張
する特徴文字列展開ステップと、（２）前記特徴文字列
展開ステップにおいて展開された特徴文字列群を基に文
書検索コマンドを生成する検索式生成ステップを有す
る。

【００２３】以上に述べたように、種文書における認識
誤り文字と検索対象となる文書における認識誤り文字に
対し、それぞれ個別に検索に悪影響を与えないようにす
る処理を施すことにより、種文書と検索対象となる文書
のイメージ化を行なう際にそれぞれ異なるスキャナを用
いた場合、種文書と検索対象となる文書の文字情報の抽
出にそれぞれ異なるＯＣＲを用いた場合、種文書と検索
対象文書のどちらか一方にのみ認識誤り文字が含まれる
場合あるいは種文書と検索対象文書の両方に認識誤り文
字が存在する場合のいずれの場合においても、ＯＣＲに
よる認識誤り文字の人手による校正を行なわずに高精度
な類似文書検索を行なうことができる。

【００２４】

【発明の実施の形態】以下、本発明を適用した第一の実
施例について図面を用いて説明する。

【００２５】図1は本実施例におけるシステムの全体構
成を示す。図1に示すように、本実施例は文書登録サブ
システム１０１、文書検索サーバ１０２、検索クライア
ント１０３および１０４、ネットワーク１０５から構成
される。

【００２６】文書登録サブシステム１０１は、検索対象
として入力される各紙文書をスキャナ２０６によりイメ
ージデータに変換し、ＯＣＲを用いてイメージデータに
存在する文字情報を抽出しテキストデータとして出力す
る。出力されたテキストデータを解析し、検索時に必要
となるインデックスデータを作成する。このインデック
スデータは、生成されたイメージデータやテキストデー
タおよび文書管理情報とともに、ネットワーク１０５を
介して文書検索サーバ１０２に転送され、後に文書検索
サーバ１０２が検索処理を行なう際に用いられる。

【００２７】文書検索サーバ１０２は、検索クライアン
ト１０３および１０４からの検索コマンドを受け取り、
文書登録サブシステム１０１が作成したインデックスデ
ータを用いて検索コマンドの指定する条件に適合する文
書内容の検索を行ない、検索結果データを要求元の検索
クライアントに送り返す。

【００２８】検索クライアント１０３および１０４は、
ユーザが対話的に検索条件を指定するための画面をディ
スプレイ上に表示し、この画面上でユーザが指定した検
索条件を、文書検索サーバ１０２にとって解釈可能な検
索コマンドの形に変換し、この検索コマンドをネットワ
ーク１０５を介して文書検索サーバ１０２に送信する。
前記の通り、文書検索サーバ１０２が検索コマンドに対
応する処理を行ない、検索結果データを送り返してくる
と、検索クライアントは受け取った検索結果データを画
面に表示してユーザに提示する。なお、ユーザが指定す
る検索条件には、テキストデータやイメージデータを指
定しても構わない。

【００２９】さらに、ユーザが検索条件を入力する形態
としては、ユーザ自らキーボードから自然文を入力する
場合、文書登録サブシステム１０１や文書検索サーバ１
０２に蓄積されているデータを用いる場合、手元に存在
する紙文書をスキャナなどでイメージ化したデータを用
いる場合、フロッピー（登録商標）ディスクや光ディス
クなど可搬型記憶媒体からイメージデータやテキストデ
ータを読み込む場合あるいはネットワーク１０５を介し
て転送されてくるイメージデータやテキストデータを入
力とする場合が想定されるが、いずれの形態を利用して
も構わない。

【００３０】また、図1では２台のコンピュータ１０３
および１０４を検索クライアントとして使用する構成例
を示したが、検索クライアントは１台のみとする構成、
又は３台以上とする構成をとることもできる。

【００３１】ネットワーク１０５は、ローカルエリアネ
ットワークおよび（または）広域エリアネットワークで
あって、文書登録サブシステム１０１、文書検索サーバ
１０２、検索クライアント１０３および１０４が各種デ
ータやコマンドを送受信するために用いられる。

【００３２】ここで、図１では文書登録サブシステム１
０１から文書検索サーバ１０２にインデックスデータを
転送するためにネットワーク１０５を使用するものとし
たが、代わりにフロッピーディスク、光磁気ディスク、
追記型光ディスクなどの可搬型記憶媒体を使用する構成
をとることもできる。あるいは、文書登録サブシステム
１０１と文書検索サーバ１０２を１台のコンピュータ上
に実装し、データ転送を行なわない構成をとることもで
きる。さらに、図１では検索クライアント１０３および
１０４と文書検索サーバ１０２には別個のコンピュータ
を使用するものとしたが、１個以上の検索クライアント
を文書検索サーバと同一のコンピュータで実行する構成
をとることもできる。

【００３３】文書登録サブシステム１０１は、ディスプ
レイ２０１、キーボード２０２、中央演算装置（ＣＰ
Ｕ）２０３、フロッピーディスクドライブ（ＦＤＤ）２
０４、フロッピーディスク２０５、スキャナ２０６、通
信制御装置２０７、主メモリ２０８、磁気ディスク装置
２０９、システムバス２１０から構成される。

【００３４】ディスプレイ２０１は、本サブシステムに
おける処理の実行状況を表示するために使用する。キー
ボード２０２は、文書登録処理の実行などを指示するコ
マンドを入力するために使用する。中央演算装置２０３
は、本サブシステムを構成する各種プログラムを実行す
る。フロッピーディスクドライブ２０４は、フロッピー
ディスク２０５に対するデータの読み書きのために使用
する。スキャナ２０６は、登録対象とする紙文書を読み
込み、イメージデータとして電子化し、本サブシステム
に入力するために使用する。通信制御装置２０７は、ネ
ットワーク１０５を介して前記文書検索サーバ１０２と
通信し、文書登録あるいは文書検索に関するリクエスト
およびデータの送受信を行なうために使用する。

【００３５】主メモリ２０８は、本サブシステムによる
処理を行なうための各種プログラムおよび一時的なデー
タを保持するために使用する。磁気ディスク装置２０９
は、登録されたイメージデータ、テキストデータ、本サ
ブシステムが作成するインデックスデータ、イメージデ
ータとテキストデータの関連性を保持する文書管理情報
および各種プログラムを格納するために使用する。シス
テムバス２１０は、これらの各種装置を接続するために
使用する。

【００３６】主メモリ２０８中には、システム制御プロ
グラム２１１、文書登録制御プログラム２１２、スキャ
ナ制御プログラム２２０、文字認識プログラム２２１、
テキスト登録プログラム２２２、イメージ登録プログラ
ム２２３、文書管理情報登録プログラム２２４および文
字列インデックス生成プログラム２２５が格納されると
ともに、ワークエリア２７０が確保される。これらのプ
ログラムは、フロッピーディスク２０５や光磁気ディス
クなどの可搬型記憶媒体に格納され、ここから読み出
し、磁気ディスク装置２０９へインストールする。本サ
ブシステム起動時に、システム制御プログラム２１１が
起動し、これらのプログラムを磁気ディスク装置２０９
から読み出し、主メモリ２０８へ格納する。

【００３７】磁気ディスク装置２０９中には、テキスト
データ格納領域２５０、イメージデータ格納領域２５
１、インデックスファイル格納領域２５２、文書管理情
報格納領域２５３および各種プログラム格納領域２５４
が確保される。

【００３８】システム制御プログラム２１１は周辺機器
との間のデータの入出力など、コンピュータ上で本サブ
システムを構成する各プログラムを実行するための基本
機能を提供する。文書登録制御プログラム２１２は、ス
キャナ制御プログラム２２０、文字認識プログラム２２
１、テキスト登録プログラム２２２、イメージ登録プロ
グラム２２３、文書管理情報登録プログラム２２４およ
び文字列インデックス生成プログラム２２５の起動およ
び実行制御を行なうと共に、これらのプログラムによっ
て生成されたテキストデータ、イメージデータ、インデ
ックスファイルおよび文書管理情報をネットワーク１０
５を介して前記文書検索サーバ１０２に転送する。ワー
クエリア２７０はプログラムの実行時に一時的に必要と
なるデータを記憶するために用いられる。

【００３９】スキャナ制御プログラム２２０は、登録す
る紙文書をセットしたスキャナ２０６を起動し、紙文書
からイメージデータを生成する。文字認識プログラム２
２１は、前記スキャナ制御プログラムで生成されたイメ
ージデータを入力して文字情報を抽出し、テキストデー
タを生成する。テキスト登録プログラム２２２は、前記
文字認識プログラムで生成されたテキストデータを磁気
ディスク２０９内に存在するテキストデータ格納領域２
５０へ登録する。イメージ登録プログラム２２３は、前
記スキャナ制御プログラムから出力されたイメージデー
タを磁気ディスク２０９内に存在するイメージデータ格
納領域２５１へ登録する。文書管理情報登録プログラム
は、前記スキャナ制御プログラムで生成されたイメージ
データと前記文字認識プログラムで生成されたテキスト
データの識別子を関連付け、文書管理情報格納領域２５
３へ登録する。文字列インデックス生成プログラム２２
５は、前記文字認識プログラムで生成されたテキストデ
ータから、所定の部分文字列と該部分文字列の文字位置
情報との対応関係を表すデータを生成し、インデックス
ファイル格納領域２５２に格納されているインデックス
に登録し、インデックスを更新する。

【００４０】なお、本実施例ではスキャナ２０６から入
力されたイメージデータを登録対象文書として入力する
構成としたが、フロッピーディスク、光磁気ディスク、
追記型光ディスクなど可搬型記憶媒体からイメージデー
タを読み込む構成をとることもでき、ネットワーク１０
５を介して転送されてくるイメージデータを入力とする
こともできる。また、スキャナやＯＣＲを介す構成を取
らず、すでに電子化されているテキストデータを可搬型
記憶媒体から読み込む構成、直接データをキーボード２
０２から手入力する構成あるいはネットワーク１０５を
介して転送されてくるテキストデータを入力とする構成
を取っても構わない。

【００４１】また、テキストデータを入力とした場合、
対応するイメージデータに対する情報は、空のデータを
作成し仮の文書識別子を付与する形態を用いてもよい
し、イメージデータは存在しないことを明示する情報を
付与する形態を取ってもよい。さらに、本実施例では生
成されたテキストデータ、イメージデータ、インデック
スファイルおよび文書管理情報を文書検索サーバ１０２
に転送するものとしたが、生成されたインデックスファ
イルのみ、あるいは、生成されたインデックスファイル
およびいずれかのデータのみを文書検索サーバ１０２に
転送し、実体のデータは各文書登録サブシステムに格納
しておく形態を取っても構わない。

【００４２】次に、本実施例における文書登録処理の手
順を図２を用いて説明する。キーボード２０２からの登
録指示コマンド等により、文書登録制御プログラム２１
２が起動されると、本プログラムはまずスキャナ制御プ
ログラム２２０を起動し、スキャナ２０６上にセットさ
れている紙文書の有無を調べ、全ての登録対象文書に対
し、以下に示すステップ３０２から３０７の一連の処理
を繰り返し実行する（ステップ３０１）。

【００４３】ステップ３０２では、スキャナ制御プログ
ラム２２０を実行し、スキャナ２０６により、登録対象
の紙文書を読み込み、イメージデータへ変換する。この
登録対象の紙文書には図表やイラストが挿入されていて
も構わない。さらに、変換したイメージデータに対して
文書識別子を割り当て、ワークエリア２７０へ格納す
る。なお、文書識別子は文書データベース中で特定の文
書を一意に識別する番号である。

【００４４】ステップ３０３では、周知の文字認識技術
を用いた文字認識プログラム２２１を実行し、ステップ
３０２にて生成されたイメージデータを入力とする文字
認識を行なうことでイメージデータ中に存在する文字情
報を抽出する。抽出された文字情報はテキストデータと
して文書識別子を割り当て、ワークエリア２７０に格納
する。

【００４５】ステップ３０４ではステップ３０３で生成
されたテキストデータを入力して文字列インデックス生
成プログラム２２５を実行する。文字列インデックス生
成プログラムは、まずインデックスファイル格納領域２
５２から現時点での文字列インデックスを読み出し、所
定の部分文字列と該部分文字列の位置情報との対応関係
を表わすデータを生成してこれをインデックスファイル
に登録し、更新されたインデックスファイルをインデッ
クスファイル格納領域２５２に格納する。

【００４６】ステップ３０５では、ワークエリアに格納
されているテキストデータとイメージデータを入力とし
て文書管理情報登録プログラム２２４を実行する。ワー
クエリアに格納されているテキストデータとイメージデ
ータの文書識別子を関連付け、関連付けたデータ間の情
報を文書管理情報格納領域２５３に登録する。関連付け
たデータ間の情報は、対応関係を表わすテーブルを持つ
ことで容易に実現できる。

【００４７】ステップ３０６では、ワークエリアに格納
されているテキストデータを入力し、テキスト登録プロ
グラム２２２を実行する。テキスト登録プログラムで
は、入力されたテキストデータと文書識別子をテキスト
データ格納領域２５０に登録する。また、ステップ３０
７では、ワークエリアに格納されているイメージデータ
を入力し、イメージ登録プログラム２２３を実行する。
イメージ登録プログラムでは、入力されたイメージデー
タと文書識別子をイメージデータ格納領域２５１に登録
する。

【００４８】全ての登録対象文書について上記ステップ
３０２から３０７の一連の処理が終了すると、文書登録
制御プログラム２１２はステップ３０８を実行して終了
する。ステップ３０８では、テキストデータ格納領域２
５０に格納された全てのテキストデータ、イメージデー
タ格納領域２５１に格納された全てのイメージデータ、
インデックスファイル格納領域２５２に格納された全て
のインデックスファイル、文書管理情報格納領域２５３
に格納された全ての文書管理情報を、ネットワーク１０
５を介して文書検索サーバ１０２に転送する。

【００４９】文書検索サーバ１０２は、文書登録サブシ
ステム１０１と同様のシステム構成を取るが、スキャナ
２０６をシステムとして組込まない点が異なる。さら
に、主メモリ２０８と磁気ディスク２０９に格納される
プログラム群およびデータが異なっている。図３に本実
施例における文書検索サーバ１０２の構成を示す。

【００５０】主メモリ２０８中には、システム制御プロ
グラム２１１、文書検索制御プログラム２１３、検索条
件式解析プログラム２２６、類似文書検索プログラム２
２７、特徴文字列補正プログラム２３１、文字列分割プ
ログラム２３５、拡張特徴文字列生成プログラム２３６
および検索結果取得プログラム２３９が格納されるとと
もにワークエリア２７０が確保される。

【００５１】磁気ディスク装置２０９中には、テキスト
データ格納領域２５０、イメージデータ格納領域２５
１、インデックスファイル格納領域２５２、文書管理情
報格納領域２５３、各種プログラム格納領域２５４およ
び類似文字テーブル格納領域２５５が確保される。

【００５２】文書検索制御プログラム２１３は、検索条
件式解析プログラム２２６、類似文書検索プログラム２
２７、特徴文字列補正プログラム２３１、文字列分割プ
ログラム２３５、拡張特徴文字列生成プログラム２３６
および検索結果取得プログラム２３９の起動と実行制御
を行なうとともに、ネットワーク１０５を介して、文書
登録サブシステム１０１および検索クライアント（１０
３および１０４）との間で文書登録または文書検索に関
するリクエストおよびデータの送受信を行なう。

【００５３】検索条件式解析プログラム２２６は、検索
クライアント１０３および１０４から受信した検索リク
エスト中に含まれる検索条件式を解析し、類似文書検索
プログラム２２７によって直接検索可能な条件指定に翻
訳する。

【００５４】類似文書検索プログラム２２７は検索条件
式解析プログラム２２６によって翻訳された条件指定に
従って、インデックスファイル格納領域２５２に格納さ
れているインデックスを検索し、得られた検索結果デー
タをワークエリア２７０に格納する。類似文書検索プロ
グラム２２７は、種文書読込プログラム２２８、特徴文
字列抽出プログラム２２９および類似度算出プログラム
２３０で構成されるとともに、後述するように特徴文字
列補正プログラム２３１を呼び出す構成をとる。

【００５５】特徴文字列補正プログラム２３１は、重み
値補正プログラム２３４で構成され、抽出された特徴文
字列およびその重み値を補正する処理を行なうととも
に、拡張特徴文字列生成プログラム２３６を呼び出す構
成をとる。

【００５６】拡張特徴文字列生成プログラム２３６は、
類似文字テーブル参照プログラム２３７と文字列展開プ
ログラム２３８で構成されるとともに、文字列分割プロ
グラム２３５を呼び出す構成をとる。

【００５７】検索結果取得プログラム２３９は、類似文
書検索プログラム２２７によって取得された検索結果デ
ータを類似度の降順にソートし、この情報を要求元の検
索クライアントに転送する。

【００５８】次に、本実施例における文書検索処理の手
順を図４を用いて説明する。キーボード２０２からのサ
ーバ起動コマンドなどにより文書検索制御プログラム２
１３が起動されると、本プログラムはサーバとして文書
登録サブシステム１０１および検索クライアント（１０
３、１０４など）からリクエストを受信してはその処理
を行なうループに入る（ステップ４０１）。このループ
は、キーボード２０２からサーバの停止を指示するコマ
ンドが入力されるまで継続する。

【００５９】ステップ４０１のループは、文書登録サブ
システム１０１および検索クライアント（１０３および
１０４）から文書登録あるいは文書検索に関するリクエ
ストを受信する処理（ステップ４０２）と、受信したリ
クエストの種別を判定し、判定した種別に対応する処理
に分岐する処理（ステップ４０３）を繰り返す。

【００６０】ステップ４０３では、受信したリクエスト
の種別を判定し、判定したリクエストが文書登録サブシ
ステム１０１から送信されたデータベース更新リクエス
トであった場合、ステップ４０４および４０５からなる
処理に分岐する。また、前記リクエストが検索クライア
ント（１０３、１０４など）から送信された文書検索リ
クエスト（特定の検索条件を満たす文書群の検索を求め
るリクエスト）であった場合、ステップ４０６、４０
７、４０８および４０９からなる処理に分岐する。ま
た、前記リクエストが検索クライアント（１０３、１０
４など）から送信された検索結果問合せリクエスト（特
定の検索処理の結果を問合せるリクエスト）であった場
合、ステップ４１０の処理に分岐する。また、前記リク
エストが検索クライアント（１０３、１０４など）から
送信された文書転送リクエスト（指定された文書の転送
を求めるリクエスト）であった場合、ステップ４１１の
処理に分岐する。分岐先の処理が終了した後は再びステ
ップ４０２に戻ってループを継続する。

【００６１】ステップ４０４では、文書登録サブシステ
ム１０１から、新規に登録された文書群の文書データ
（テキストデータおよびイメージデータ）を受信し、受
信した文書データのうちテキストデータをテキストファ
イル格納領域２５０に、イメージデータをイメージデー
タ格納領域２５１にそれぞれ追加する。

【００６２】次に、ステップ４０５では、文書登録サブ
システム１０１から、新規に登録された前記文書群の内
容に対応したインデックスデータを受信し、この受信し
たインデックスデータを反映してインデックスファイル
格納領域２５２に存在するインデックスデータを更新す
る。

【００６３】ステップ４０６では、検索条件式解析プロ
グラム２２６を実行し、文書検索リクエスト中で指定さ
れている検索条件を解析し、該検索条件を、類似文書検
索プログラム２２７にて直接処理可能な条件指定に変換
する。併せて、検索条件式から種文書として設定すべき
文章を抽出し、種文書として設定しておく。

【００６４】次に、ステップ４０７では、前記ステップ
４０６にて生成された種文書と条件指定を入力して、類
似文書検索プログラム２２７を実行し、該種文書と該条
件指定を満たす文書群を検索して各文書の類似度を算出
する。なお、本ステップにおける類似文書検索プログラ
ム２２７の詳細な説明は後述する。

【００６５】次に、ステップ４０８では、検索結果取得
プログラム２３８を起動し、類似文書検索プログラムに
て算出された各文書の類似度の降順に文書をソートし、
この文書群と各文書に対応した類似度といった情報をま
とめた検索結果データをワークエリア２７０に格納す
る。

【００６６】次に、ステップ４０９では、前記検索結果
データ集合もしくは検索結果データ集合を識別する検索
結果識別子を要求元の検索クライアントに返送する。

【００６７】ステップ４１０では、問合せの内容に応じ
て前記ステップ４０８にて求めた検索結果データの一部
もしくは全体をワークエリア２７０から抽出し、要求元
の検索クライアントに転送する。

【００６８】ステップ４１１では、文書転送リクエスト
中で指定されている文書（複数の文書が指定されている
場合は指定されている文書すべて）の文書データをテキ
ストファイル格納領域２５０あるいはイメージファイル
格納領域２５１から抽出し、要求元の検索クライアント
に転送する。

【００６９】以上が本実施例における文書検索処理の概
略手順である。以下では、上記ステップ４０７の詳細な
らびに各種プログラムの詳細を、図を用いて説明する。

【００７０】図５はステップ４０７の詳細、すなわち本
実施例における類似文書検索プログラム２２７の処理手
順を示すＰＡＤ図である。

【００７１】類似文書検索プログラム２２７は、文書検
索リクエスト中に存在する種文書や各種条件指定を入力
として起動されると、まず、ステップ５０１では、入力
された種文書をワークエリア２７０に格納する。

【００７２】次に、ステップ５０２にて、特徴文字列抽
出プログラム２２９を起動し、ステップ５０１で読み込
んだ種文書中から検索に必要な特徴文字列を抽出し、各
特徴文字列に対して検索に用いる重み値を付与する。

【００７３】次に、ステップ５０３では、イメージデー
タに対応した検索が要求されているかどうかを判定す
る。そして、イメージデータに対応した検索が要求され
ている場合に限り、ステップ５０４からステップ５１２
までの処理を実行する。イメージデータに対応した検索
が要求されていない場合には、ステップ５１３へ進む。
なお、ステップ５０３の判定に用いるデータは、検索ク
ライアント１０３における検索条件の設定時にユーザも
しくはシステムが設定する。

【００７４】ステップ５０４からステップ５１１までの
処理は、本実施例における特徴文字列補正プログラム２
３１の処理である。

【００７５】特徴文字列補正プログラム２３１が呼び出
されると、まず、類似文書検索プログラム２２７で指定
されている特徴文字列をワークエリア２７０に格納する
（ステップ５０４）。

【００７６】ステップ５０４が終了すると、特徴文字列
を一つずつ読み出してはその処理を行なうループに入る
（ステップ５０５）。このループ処理を行なうことによ
り、種文書から抽出する特徴文字列を補正し、かつ、検
索対象の文書に存在する認識誤り文字を許容することが
可能となる。また、ステップ５０５のループは、全ての
特徴文字列が読み出されるまで繰り返される。ステップ
５０５のループは、特徴文字列から拡張特徴文字列を生
成する処理（ステップ５０６からステップ５０９）と、
生成された拡張特徴文字列に対して重み値を設定する重
み値補正処理（ステップ５１０）と、拡張特徴文字列と
それに対する重み値を特徴文字列として設定する処理
（ステップ５１１）を繰り返す。なお、ステップ５０６
からステップ５０９における処理は、本実施例における
拡張特徴文字列生成プログラム２３６の処理である。

【００７７】拡張特徴文字列生成プログラム２３６で
は、ステップ５０５にて指定された特徴文字列を読み出
す（ステップ５０６）。

【００７８】次に、読み出された特徴文字列を入力とし
て文字列分割プログラム２３５を呼び出し、１文字単位
の部分文字列に分割する（ステップ５０７）。

【００７９】さらに、類似文字テーブル参照プログラム
２３７を起動し、分割された各部分文字列に対して、類
似文字テーブル格納領域２５５に格納されている認識候
補文字を参照することで各部分文字列における１文字単
位の認識候補文字を設定する（ステップ５０８）。

【００８０】最後に、文字列展開プログラム２３８を起
動し、設定した各部分文字列における１文字単位の認識
候補文字を組み合わせて展開語を生成し、さらに生成し
た展開語を論理和（ＯＲ）で結合することで拡張特徴文
字列を生成し、その拡張特徴文字列を出力する（ステッ
プ５０９）。

【００８１】なお、本実施例における拡張特徴文字列生
成プログラム２３６に用いるプログラムは、従来技術２
に示されている方法を基本として説明したが、１文字単
位の処理ではなく、ｎ文字単位（ｎ≧１）の処理を行な
っても構わない。さらに、ステップ５０９にて生成され
た各展開語に対して各々重み付けを行ない、各展開語に
対して重みを付与した拡張特徴文字列生成を行なっても
構わない。また、類似文字テーブルの作成方法について
も、従来技術２に示されている方法を用いて作成して
も、ｎ文字単位の類似文字テーブルを作成しても構わな
い。これら拡張特徴文字列生成プログラム２３６に関連
する方法および類似文字テーブル作成方法は、従来技術
２に示されている。

【００８２】また、本ステップ５０９で用いられる類似
文字テーブルの具体例を図６に示す。図６における第１
列２５５１は、認識対象となる文字である。また、図６
における第２列２５５２は文字認識を行なった結果とし
て第一候補として認識される確率が高いもの、つまり、
認識結果として出力される可能性が一番高いものを示し
ている。同様に、図６における第３列２５５３は文字認
識を行なった結果として第二候補として認識される確率
が高いもの、図６における第４列２５５４は文字認識を
行なった結果として第三候補として認識される確率が高
いものを示す。なお、図６における第１列２５５１で
は、１文字毎に格納されているが、「日本」や「Cup」
のような複数文字を格納しても構わない。この場合、第
２列２５５２から第４列２５５４列はそれぞれ複数文字
における認識候補文字が格納される。

【００８３】ステップ５１０では、前記ステップ５０８
にて生成された拡張特徴文字列に対して重み値補正プロ
グラム２３４を実行し、検索に用いる重み値を設定す
る。重み値補正プログラム２３４は、以下に示すステッ
プ（ａ）と（ｂ）の２つのステップにより構成される。

【００８４】ステップ（ａ）：拡張特徴文字列生成プロ
グラム２３６で生成された拡張特徴文字列を読み込み、
格納された拡張特徴文字列が種文書内に出現する頻度を
算出する。このとき、拡張特徴文字列は各展開語が論理
和にて結合されたものであるから、各展開語のいずれか
が種文書内に出現すれば、出現頻度情報としてカウント
できる。このステップ（ａ）の処理により、種文書内に
存在する認識誤り文字を許容し、特徴文字列の重み値設
定に関わるパラメータの一つを補正できる。

【００８５】ステップ（ｂ）：算出されたパラメータを
基として、周知の算出方法を用いて拡張特徴文字列の重
み値を算出し、その重み値を出力する。

【００８６】ステップ５１１では、前記ステップ５０９
にて生成された拡張特徴文字列と前記ステップ５１０に
て生成された重み値を特徴文字列とその重み値として設
定し、ワークエリア２７０に格納する。

【００８７】ステップ５０６からステップ５１１までの
処理が終了した後は再びステップ５０５に戻ってループ
を継続する。ステップ５０５のループが終了すると、生
成された特徴文字列群をソートする処理に入る（ステッ
プ５１２）。このステップ５１２では、特徴文字列を重
み値の降順にソートし、ソートされた特徴文字列をワー
クエリア２７０に格納する。ステップ５１２が完了する
と、特徴文字列補正プログラム２３１を終了し、ステッ
プ５１３へ進む。

【００８８】ステップ５１３では、ソートされた特徴文
字列から、重み値などの選択基準を元に検索に用いる特
徴文字列を選択する。

【００８９】ステップ５１４では、周知の技術を適用し
た類似度算出プログラム２３０を起動し、選択した各特
徴文字列とその重み値を入力として、テキストファイル
格納領域２５０に存在する各文書の類似度を算出する。

【００９０】以上が、類似文書検索プログラム２２７、
すなわち、前記文書検索処理手段におけるステップ４０
７の処理手順の詳細である。

【００９１】検索クライアント１０３あるいは１０４
は、文書登録サブシステム１０１と同様のシステム構成
をとる。ただし、主メモリ２０８と磁気ディスク２０９
に格納されるプログラム群およびデータが異なってい
る。なお、図７は本実施例における検索クライアント１
０３あるいは１０４のシステム構成を示す。

【００９２】主メモリ２０８中には、システム制御プロ
グラム２１１、クライアント制御プログラム２１４、ス
キャナ制御プログラム２２０、文字認識プログラム２２
１、検索条件入力プログラム２４０および検索結果表示
プログラム２４１が格納されるとともにワークエリア２
７０が確保される。

【００９３】磁気ディスク装置２０９中には、検索結果
データ格納領域２５７および各種プログラム格納領域２
５４が確保される。

【００９４】クライアント制御プログラム２１４は、ス
キャナ制御プログラム２２０、文字認識プログラム２２
１、検索条件入力プログラム２４０および検索結果表示
プログラム２４１の起動および実行制御を行なうと共
に、ネットワーク１０５を介して文書検索サーバ１０２
との間で文書検索に関するリクエストおよびデータの送
受信を行なう。

【００９５】検索条件入力プログラム２４０は、ユーザ
と対話しつつ検索条件の入力および解釈を行なう。検索
結果表示プログラム２４１は、文書検索サーバ１０２か
ら受け取った検索結果の表示を行なう。

【００９６】なお、本実施例ではスキャナ２０６から入
力されたイメージデータを検索の種文書として入力する
構成としたが、磁気ディスク２０９上に存在するイメー
ジデータを読み込む構成やフロッピーディスク、光磁気
ディスク、追記型光ディスクなど可搬型記憶媒体からイ
メージデータを読み込む構成をとることもできる。さら
に、ネットワーク１０５を介して転送されてくるイメー
ジデータを入力とすることもできる。これらの場合には
スキャナ２０６は必要としない。また、スキャナやＯＣ
Ｒを介す構成をとらず、すでに電子化されているテキス
トデータを磁気ディスクや可搬型記憶媒体から読み込む
構成、直接データをキーボード２０２から手入力する構
成あるいはネットワーク１０５を介して転送されてくる
テキストデータを入力とする構成をとっても構わない。
さらに、本クライアントにプリンタを接続し、検索結果
を印刷するよう構成することもできる。

【００９７】次に、本実施例における検索クライアント
（１０３、１０４）の動作手順を図８を用いて説明す
る。キーボード２０２から入力されるクライアント起動
コマンドなどにより、クライアント制御プログラム２１
２が起動されると、本プログラムはユーザから文書検索
を指示するコマンドを受け取ってはその処理を行なうル
ープに入る（ステップ７０１）。このループは、キーボ
ード２０２からクライアントの停止を指示するコマンド
が入力されるまで継続する。ステップ７０１のループ
は、以下に示すステップ７０２からステップ７０８まで
に示す処理を繰り返す。

【００９８】ステップ７０２では、ユーザが対話的に検
索条件を入力するための画面を表示する。ステップ７０
３では、スキャナ制御プログラム２２０を起動し、スキ
ャナ２０６により、種文書として設定する対象の紙文書
を読み込み、イメージデータへと変換しワークエリア２
７０に格納する。この種文書として設定する紙文書には
図表やイラストが挿入されていても構わない。ステップ
７０４では、文字認識プログラム２２１を実行し、ステ
ップ７０３にて生成されたイメージデータ中に存在する
文字情報を抽出する。抽出された文字情報はテキストデ
ータとしてワークエリア２７０に格納する。なお、文字
認識技術についてはすでに公知であるため、ここでは言
及しない。ステップ７０５では、検索条件入力プログラ
ム２４０を実行し、ユーザとの対話により検索条件を入
力し、さらに、ワークエリアに格納されたテキストデー
タを種文書として設定する。そして、該検索条件と該種
文書を文書検索サーバ１０２が解釈可能な文書検索リク
エストに変換する。

【００９９】ステップ７０６では、前記文書検索リクエ
ストを、ネットワーク１０５を介して、文書検索サーバ
１０２に送信する。ステップ７０７では、文書検索サー
バ１０２から前記文書検索リクエストの返送として検索
結果データ集合が返されるのを待ち、検索結果データ集
合あるいは該検索結果識別子を受信する。ステップ７０
８では、前記検索結果データ集合あるいは検索結果識別
子を入力として検索結果表示プログラム２４１を実行
し、ユーザと対話しつつ検索結果データの問合せおよび
画面表示を行なう。

【０１００】ステップ７０８で実行される検索結果表示
プログラム２４１は、図９に示すように、クライアント
制御プログラム２１４から起動されると、直ちにステッ
プ８０１のループに入る。このループは、ユーザから検
索結果表示の終了を指示するコマンドを入力されるま
で、以下に示すステップ８０２からステップ８１２まで
に示す処理を繰り返し実行する。

【０１０１】前記ステップ８０１のループ内では、まず
ステップ８０２において、検索結果の表示とユーザから
の指示入力のために用いる画面をディスプレイ２０１に
表示する。次に、ステップ８０３において、前記画面上
でユーザが指定した指示内容を読み込む。次に、ステッ
プ８０４において、前記ユーザの指示内容の種別を判定
し、その種別に対応した分岐を行なう。すなわち、該指
示が検出文書数の表示を求めるものであった場合には、
以下に記すステップ８０５および８０６の処理に分岐
し、該指示が文書識別子リスト表示を求めるものであっ
た場合には、以下に記すステップ８０７および８０８の
処理に分岐し、該指示が文書内容表示を求めるものであ
った場合には、以下に記すステップ８０９からステップ
８１２までの処理に分岐する。各分岐先の処理が終了す
るとステップ８０１に戻り、前記ループを再開する。

【０１０２】ステップ８０５では、検出文書数を問い合
わせるための検出文書数問合せリクエストを作成し、該
リクエストを文書検索サーバ１０２に送信する。ステッ
プ８０６では、前記リクエストに対応して文書検索サー
バ１０２から転送されてきた検索文書数を受信し、該数
値をディスプレイ２０１に表示する。

【０１０３】ステップ８０７では、検出文書群の文書識
別子リストを問合せるための文書識別子問合せリクエス
トを作成し、該リクエストを文書検索サーバ１０２に送
信する。ステップ８０８では、前記リクエストに対応し
て文書検索サーバ１０２から転送されてきた文書識別子
の集合を受信し、該集合に含まれる文書識別子群を検索
結果データ格納領域２５７に格納し、ディスプレイ２０
１に文書識別子群をリスト表示する。

【０１０４】ステップ８０９では、表示すべき文書を特
定する文書識別子を入力する。ステップ８１０では、該
識別子が識別する文書の文書データをえるための文書転
送リクエストを作成し、該リクエストを文書検索サーバ
１０２に送信する。ステップ８１１では、前記リクエス
トに対応して文書検索サーバ１０２から転送されてきた
文書データを受信し、該文書データを検索結果データ格
納領域２５７に格納する。ステップ８１２では、格納し
た文書データを、書式化してディスプレイ２０１上に表
示する。このとき、文書データ内に存在する特徴文字列
などに対して、反転や着色などのハイライト表示処理を
加えても構わない。さらに、このステップにおいて表示
するデータはイメージデータであってもテキストデータ
であっても構わない。

【０１０５】イメージデータは、文章の加工ができない
反面、可読性に優れており、図表も同時に見ることがで
きる。一方、テキストデータは文章の加工ができる反
面、認識誤り文字を含んでいるため可読性に劣り、図表
も見ることができない。こういった文書の特性を理解し
た上で、イメージデータとテキストデータのどちらの文
書を表示するかはユーザが選択できる。テキストファイ
ル格納領域２５０およびイメージファイル格納領域２５
１に登録されている情報は、文書管理情報２５３におい
てテーブル形式にて管理されているため、必要なデータ
の取得は、容易に実現できる。

【０１０６】以下では、第一の実施例における文書登録
および文書検索の処理について、具体的な例を用いて説
明する。

【０１０７】まずは、文書登録における処理手順につい
て、文書登録サブシステム１０２の処理手順に基づき、
具体例を用いて説明する。

【０１０８】図１０に、文書登録に用いる紙文書９０１
の一例を示す。なお、登録対象の紙文書９０１には、図
１０に示す文書内容だけでなく、その記事に関連した写
真が掲載されている。また、図１０のテキストデータ９
０２は、前記文書登録サブシステム１０２の処理手順に
おけるステップ３０２および３０３によって文字認識を
行なった後のテキストデータの一例を示す。

【０１０９】今回の文字認識においては、例えば「サッ
カー」、「Goal」あるいは「team」という文字が「ナッ
かー」、「God１」、「teen」と認識誤りを起こしてい
ることがわかる。なお、図１０のテキストデータ９０２
において、アンダーラインの文字は文字認識誤りを起こ
していることを示す。文書登録サブシステム１０２は、
テキストデータ９０２からインデックスデータを作成
し、テキストデータとステップ３０２にて生成されたイ
メージデータとの関連付けを行なった後、それぞれの格
納領域に登録する（ステップ３０４からステップ３０７
まで）。本実施例では、文字認識によって抽出されたテ
キストデータに何も処理を施していない。

【０１１０】また、図１０には、文書登録に用いる電子
データ９０３の一例を示す。この文書は、すでに電子化
されているテキストデータである。そのため、文書登録
サブシステム１０２は、ステップ３０２および３０３を
実行する必要がなく、イメージデータを空データとして
設定し、テキストデータとイメージデータの関連付けを
行なった後、それぞれの格納領域に登録する（図１０の
テキストデータ９０４）。なお、本実施例では、登録対
象が電子データの場合、イメージデータは空データとし
て登録するものとしたが、電子データをイメージデータ
化して登録する形式を取っても構わない。

【０１１１】この処理を登録文書がなくなるまで実行
し、生成したテキストデータ群、イメージデータ群、イ
ンデックスデータおよび文書管理情報をデータベース更
新リクエストとして文書検索サーバ１０２に転送する。

【０１１２】次に、文書検索における処理手順につい
て、文書検索サーバ１０２の処理手順および検索クライ
アント（１０３および１０４）の処理手順に基づき、具
体例を用いて説明する。

【０１１３】図１１に、類似文書検索をしたい元の文
書、すなわち種文書として設定する紙文書１００１の一
例を示す。なお、紙文書１００１には、図１１に示す文
書内容と共に、それに関連したイラストが挿入されてい
る。また、図１１におけるテキストデータ１００２は、
検索クライアント１０３（あるいは１０４）の処理手順
におけるステップ７０３および７０４によって文字認識
を行なった後のテキストデータの一例を示す。この文字
認識においては、例えば「サッカー」、「Cup」、「Azz
urri」あるいは「soccer」という文字が「サソカー」、
「Cap」、「Azzurvi」、「social」と認識誤りを起こし
ていることがわかる。

【０１１４】なお、図１１のテキストデータ１００２に
おいて、アンダーラインの文字は文字認識誤りを起こし
ていることを示す。さらに、図１１中に検索条件入力プ
ログラム２４０を用いて生成された検索リクエスト１０
０３の一例を示す。この検索リクエストは、DB1という
データベース内でテキストデータ１００２の内容に類似
した文書を検索する条件式である。この検索リクエスト
を検索サーバ１０２に送信する。

【０１１５】検索サーバ１０２においてこの検索リクエ
ストを受信すると、文書検索サーバ１０２の処理手順に
おけるステップ４０６および４０７により、種文書に存
在する特徴文字列を抽出する。図１２におけるテーブル
１１０１は図１１における検索リクエスト１００３によ
り生成された特徴文字列の一例を示す。なお、類似文書
検索を実行するに際しては、テーブル１１０１に示した
特徴文字列から検索に用いる特徴文字列を取捨選択する
ことが必要となる。特徴文字列の選択方法としては、種
文書中での高頻度の特徴文字列を選択する方法、検索対
象の文書群に余り存在しない特徴文字列を選択する方
法、文中の役割（主語、述語、目的語）などに応じて決
定する方法あるいはこれらを組み合わせて特徴文字列の
重要度（重み値）を設定する方法などさまざまな周知の
方法が利用できる。本実施例では、便宜上、設定された
各特徴文字列の重み値が５．０以上のものを検索用の特
徴文字列として設定することにする。

【０１１６】従来技術１では、ここで選択された特徴文
字列を用いて検索式を生成し、検索を実行するものとし
ている。図１２におけるテーブル１１０２は従来技術１
により選択された特徴文字列群、図１２における検索条
件式１１０３は従来技術１により生成された検索式であ
る。この検索式では、DB1というデータベース内の文書
で、「サソカー」、「ナッカー」、「エタリア」、
「仁」、「代表」、「日本」、「Cap」の全ての特徴文
字列を含んでいる文書を検索することになる。このた
め、図１０の文書９０２には「仁」という文字しかヒッ
トせず、文書９０３においても、「代表」という特徴文
字列しかヒットしないことになり、各々検索漏れになっ
てしまう。また、検索式の生成において検索に用いる特
徴文字列を論理和（ＯＲ）で結合した場合は、「日本を
代表する古墳、仁徳天皇陵」あるいは「The FDNY's Cap
Sold Out」のような無駄な文書を多くヒットさせる結
果となるばかりでなく、図１０の文書９０２においてヒ
ットする特徴文字列は「仁」のみであり、また、文書９
０３においてヒットする特徴文字列は「代表」のみであ
るため、検索結果表示において文書９０１、９０２、９
０３あるいは９０４は相当下位のランクにて出現するこ
とになり、類似文書であると判別しにくい。

【０１１７】そこで、本実施例では、図１２に示す処理
に対して、図１３に示す特徴文字列と検索用特徴文字列
の選択に用いる重み値を補正する処理を行なっている。

【０１１８】まず、種文書や検索対象の文書内に存在す
る認識誤り文字に対応するため、類似文書検索プログラ
ム２３１にて生成された特徴文字列（テーブル１１０
１）に対し、認識誤りを起こしている可能性の高い文字
列へと展開する。これには類似文字テーブル２５５を用
いる。拡張特徴文字列生成プログラム２３６を適用する
ことにより、例えば「サッカー」は、「サッカー or ナ
ッカー or ・・・ or サソカー or ・・・ or サッかー or ・・
・」に、「Cap」は「Cap or Cup or Oap or Oupor ・・・」
と展開される（図１３におけるテーブル１２０１）。こ
の展開方法については、従来技術２にて公知のため、こ
こでは詳細に言及しない。

【０１１９】次に、展開された特徴文字列（拡張特徴文
字列）を用いて、各特徴文字列の重み値の補正、つま
り、重み値の設定を行なう際に用いるパラメータの補正
を行なう（重み値補正プログラム２３４）。なお、各特
徴文字列の重み値の設定方法については、本実施例では
便宜上、各特徴文字列が種文書に出現する頻度をパラメ
ータとして用いることにする。この場合、例えば、図１
１の文書１００２内に存在する「サッカー」という文字
列の出現頻度は１回であるが、「サッカー」という文字
列に対する拡張特徴文字列「サッカー or ナッカー or
・・・ or サソカーor ・・・ or サッかー or ・・・」を用いる
ことにより、本来の出現頻度である３回に補正すること
が可能となる。この補正したパラメータを基に、拡張特
徴文字列の重み値を設定し、これを検索に用いる特徴文
字列候補として設定する（図１３におけるテーブル１２
０２における「サッカー」の項を参照）。

【０１２０】上記により設定された検索に用いる特徴文
字列候補を重み値の降順にソートし、ある閾値以上の特
徴文字列候補を検索に用いる特徴文字列として決定す
る。なお、本実施例では、便宜上、重み値が５．０以上
のものを検索用の特徴文字列として設定している。この
設定方法により設定された検索に用いる特徴文字列を図
１３におけるテーブル１２０３に示し、本実施例により
生成された検索式を図１３における検索式１２０４に示
す。

【０１２１】従来技術１により抽出された特徴文字列群
（図１２におけるテーブル１１０２）と比較して、図１
３におけるテーブル１２０３においては、本来検索を行
なうにあたって重要な語である「サッカー」、「Azzurr
i」あるいは「Cup」という文字列が抽出できていること
がわかる。よって、以上の処理を用いることで、検索に
必要な特徴文字列が抽出できる。

【０１２２】また、図１３の検索式１２０４において
は、拡張された特徴文字列とその重み値により構成され
る。つまり、検索式１２０４は、拡張された特徴文字列
のいずれかを内包する文書を検索する検索条件式であ
る。ここでは、特徴文字列の代わりに拡張特徴文字列を
用いることにより、検索対象の文書内に存在する認識誤
りを許容することが可能となる。

【０１２３】例えば、「サッカー」という特徴文字列に
対して、図１０の文書９０２では、「サッカー」という
言葉は存在しないが、拡張特徴文字列を用いることによ
り、「ナッかー」という文字列にもヒットするため、検
索漏れを防ぐことが可能となる。また、副次的な効果で
はあるが、「Cup」が「Cap」のように認識誤りを起こし
ていたとしても、「u」と「a」が互いに認識誤りを起こ
しやすい文字である場合には、特徴文字列を拡張するこ
とにより、正しい文字列に対する検索を行なうことも可
能となる。このことにより、図１０に示すような認識誤
りが内部に存在しないテキストデータ９０３に対して
も、高精度に検索を行なうことが可能となる。

【０１２４】具体的には、図１３の検索式１２０４に
「ナッかー」「エタリヱ」「イタりア」「Azzurri」
「仁」「代表」「日木」「白本」という認識誤り文字を
含んだ特徴文字列をも内包することにより、図１０の文
書９０２内に存在するこれらの文字と一致するため、文
書９０２を検索できる。さらに、図１３における検索式
１２０４に「サッカー」「イタリア」「Azzurri」「Cu
p」「代表」「日本」という認識誤り文字を含まない特
徴文字列をも内包することにより、図１０の文書９０４
内に存在するそれぞれの文字列にヒットするため、文書
９０４を検索できる。

【０１２５】上記までの処理において抽出・設定された
特徴文字列群を入力として類似文書検索を実行する。実
行後、抽出された各文書の類似度を基準にして降順にソ
ートし、検索結果データ集合として要求元の検索クライ
アントに返送する。検索クライアントでは、検索結果デ
ータ集合を受信し、検索結果表示プログラム２４１を実
行することで検索結果を表示する。

【０１２６】さらに、ユーザが求める文書が見つかった
場合にはその文書識別子を基に文書内容を表示する。検
索結果表示プログラム２４１を用いて内容表示を行なう
場合には、図１０における文書９０１や図１１における
文書１００１のようなイメージデータあるいは図１０に
おける文書９０３のような認識誤りが存在しないテキス
トデータを出力することもでき、文字認識に全く影響さ
れることなく内容を読むことができる。また、文書内容
の加工を行ないたい場合には、図１０における文書９０
２、図１１における文書１００２あるいは図１０におけ
る文書９０３もしくは文書９０４のようなテキストデー
タを表示することもできる。

【０１２７】以上説明したように、本実施例により、登
録対象の文書はイメージデータとイメージデータを文字
認識することにより抽出されたテキストデータを登録す
るだけでよく、文書登録を行なうユーザは、手軽に文書
を登録できる。さらに、種文書と検索対象の文書に存在
する同一の特徴文字列が文字認識技術により異なった文
字列として存在している場合でも、種文書から抽出され
る特徴文字列を補正する処理と検索対象の文書内に存在
する認識誤り文字を許容する処理を個別に行なうこと
で、特徴文字列の認識誤りを意識せずに高精度な検索が
できる。

【０１２８】なお、本実施例では、拡張特徴文字列を作
成する際に、１文字単位の類似文字テーブルを参照する
ことで検索対象の文書内に存在する認識誤り文字を許容
している。しかし、本実施例による方法では、抽出され
た特徴文字列が短い場合、認識誤りをおこす可能性のあ
る語に展開した拡張特徴文字列を用いて検索することで
ユーザが所望しない結果（以下、検索ノイズとする）が
増えてしまう。

【０１２９】例えば、特徴文字列として「仁」が抽出さ
れた場合、この特徴文字列に対する拡張特徴文字列は
「仁 or に or 口 or 仕 or …」となり、この拡張特徴
文字列を用いて検索すると、「に」や「口（くち）」な
ど別の意味を持つ特徴文字列を含む文書も検索結果とし
て提示されてしまう。また、別の例として、「C langua
ge」といった文字列に存在する「C」という文字列に対
する拡張特徴文字列は「Cor c or 0 or O or …」とな
り、「0（ゼロ）」や文書内に存在する見出し項目を示
す「（c）」、あるいは「Blood type : O」など、別の
意味をもつ特徴文字列をも含んでしまう。そのため、検
索ノイズが多くなり、検索精度が劣化する。

【０１３０】上記課題を解決するため、本実施例の処理
に加えて、図５におけるステップ５０６からステップ５
０９、すなわち本実施例における拡張特徴文字列生成プ
ログラム２３６を実行する前に、入力された検索文字列
の文字列長で拡張特徴文字列を生成するか否かを判定
し、実行する場合にのみ拡張特徴文字列生成プログラム
２３６を実行するという拡張特徴文字列生成方法を切り
替えるステップを備えることも容易に実現できる。

【０１３１】以下、本発明を適用した第二の実施例につ
いて、図面を用いて説明する。本実施例は、システムの
構成については前記第一の実施例と同一であるが、文書
検索サーバ１０２の処理において、特徴文字列の補正方
法が異なり、その結果、検索に用いる特徴文字列の選択
結果が第一の実施例とは異なってくる。

【０１３２】ここで、第一の実施例において選択された
特徴文字列の具体例（図１３におけるテーブル１２０
３）を考察する。テーブル１２０３において、「仁」と
いう文字列は、「に」という文字列が認識誤りを起こし
ているために生じた文字列である。もともと「に」とい
う文字列は「は」、「が」、「a」、「the」といった文
字列と同様、文書中でとりわけ特別な意味を持たず、
「に」といった文字列を特徴文字列として検索に用いた
場合、不必要な文書が検索結果として大量に出現するこ
とになる。このことから、本来特徴文字列として設定す
べきでない「に」が文字認識誤りを起こして出現した
「仁」という文字列が、特徴文字列として設定された場
合には、「日本を代表する古墳、仁徳天皇陵・・・」とい
った不要な文書をさらに検索することにつながり、検索
精度を劣化させる要因となる。

【０１３３】本実施例では、抽出された特徴文字列から
検索に不要な特徴文字列を排除することにより、検索精
度の向上を行なうことが可能となる。

【０１３４】以下、本実施例における文書検索サーバ１
０２の詳細について説明する。図１４は、本実施例にお
ける文書検索サーバ１０２の構成を示す図である。図１
４に示す文書検索サーバ１０２のハードウェア構成は、
図１に示す第一の実施例の場合と同様である。ただし、
主メモリ２０８中には、第一の実施例において保持する
プログラム群に加えて、文字確信度算出プログラム２３
２および不要語削除プログラム２３３を保持する。ま
た、磁気ディスク装置２０９中には、第一の実施例にお
いて確保する領域群に加えて、文字確信度情報格納領域
２５６が確保される。

【０１３５】特徴文字列補正プログラム２３１は、文字
確信度算出プログラム２３２、不要語削除プログラム２
３３および重み値補正プログラム２３４によって構成さ
れ、さらに、第一の実施例と同様、拡張特徴文字列生成
プログラム２３６を呼び出す。

【０１３６】不要語削除プログラム２３３は、種文書か
ら抽出された特徴文字列群から、検索に不要な特徴文字
列を排除し、検索に必要な特徴文字列群へと補正する。

【０１３７】文字確信度算出プログラム２３２は、種文
書から抽出された特徴文字列が正しい文字列で構成され
ている確率を算出する。

【０１３８】図１５は、第二の実施例における特徴文字
列補正プログラム２３１の概略処理を示したＰＡＤ図で
ある。図１５は、図５に示す第一の実施例における特徴
文字列補正プログラム２３１と比較して、類似文書検索
プログラム２２７にて指定された特徴文字列を読み込ん
だ後、生成された特徴文字列に対する重み値の補正を行
なう前に、全ての特徴文字列に対して検索に不要な特徴
文字列を排除する処理（ステップ１３０１からステップ
１３０７まで）を加えている点が異なる。以下、本実施
例の特徴文字列補正プログラム２３１を、図１５を用い
て説明する。

【０１３９】特徴文字列補正プログラム２３１は、類似
文書検索プログラム２２７から呼び出される。呼び出し
を受けると、特徴文字列補正プログラム２３１は、ま
ず、類似文書検索プログラム２２７で指定されている特
徴文字列をワークエリア２７０に格納する（ステップ５
０４）。

【０１４０】ステップ５０４が終了すると、特徴文字列
を一つずつ読み出してはその処理を行なうループに入る
（ステップ１３０１）。このループ処理を行なうことに
より、種文書および（または）検索対象の文書内に認識
誤り文字が含まれていたとしても、検索に必要十分な特
徴文字列を抽出でき、同時に、検索に不要な特徴文字列
を検索用特徴文字列から除外できる。このステップ１３
０１のループはステップ５０４にて格納された全ての特
徴文字列が読み出されるまで継続する。ステップ１３０
１のループは、不要語削除プログラム２３３を実行して
検索に不必要な特徴文字列を削除する処理（ステップ１
３０２から１３０７まで）を繰り返す。

【０１４１】ステップ１３０２では、文字確信度算出プ
ログラム２３２を起動し、前記ステップ１３０１にて読
み込んだ特徴文字列を入力として文字確信度算出プログ
ラム２３２を実行する。文字確信度算出プログラム２３
２では、読み出された特徴文字列を入力として文字列分
割プログラム２３５を呼び出し、所定のｎ文字単位（ｎ
≧１）の部分文字列に分割する（ステップ１３０２）。

【０１４２】さらに、分割された各部分文字列に対し
て、文字確信度情報格納領域２５６に格納されている文
字確信度情報を参照し、各部分文字列における文字確信
度を設定する（ステップ１３０３）。

【０１４３】最後に、設定した各部分文字列の文字確信
度を組み合わせて特徴文字列全体の文字確信度を設定
し、入力された特徴文字列に対応した文字確信度を出力
する（ステップ１３０４）。なお、ステップ１３０２か
らステップ１３０４までが文字確信度算出プログラム２
３２の処理手順である。

【０１４４】ステップ１３０４が終了すると、ステップ
１３０５において、前記ステップ１３０４で出力された
文字確信度が所定の閾値を超えているかどうかを判定す
る。

【０１４５】そして、前記ステップ１３０４より出力さ
れてきた文字確信度が所定の閾値を超えている場合に限
り、検索用の特徴文字列として設定し、ワークエリア２
７０に格納する（ステップ１３０６）。

【０１４６】前記ステップ１３０４で出力された文字確
信度が所定の閾値を超えていない場合、その特徴文字列
を検索用の特徴文字列として設定せず、ワークエリア２
７０には空のリストを格納するか、あるいは何も格納し
ない（ステップ１３０７）。

【０１４７】なお、このステップ１３０１からステップ
１３０７まで処理は本実施例における不要語削除プログ
ラム２３３の処理ステップである。また、ステップ５０
５以降の処理については、第一の実施例で述べた処理と
同様であるため、省略する。

【０１４８】なお、本実施例ではステップ１３０２に
て、読み出された特徴文字列をｎ文字単位に分割するス
テップを必要としているが、後述する文字確信度情報の
作成方法によっては、ｎを相当大きな数と見なし（ｎ＝
∞）、部分文字列に分割しない処理方式も取れる。この
場合、ステップ１３０２は省略できる。ちなみに、文字
確信度算出プログラム２３２にて使用する文字確信度情
報の一例を図１６のテーブル１６００に示し、文字確信
度情報の具体的な作成方法については後述する。

【０１４９】また、ステップ１３０４における該特徴文
字列の部分文字列を用いた文字確信度の算出方法として
は以下に示す３つの方法が想定されるが、いずれの方法
を用いても構わない。なお、以下においては、ある特徴
文字列からステップ１３０２によりｍ個の部分文字列Ci
（０≦ｉ＜ｍ）に分割され、さらにステップ１３０３に
てそれぞれの部分文字列における文字確信度をS(Ci)
（０≦ｉ＜ｍ）として設定されるものとする。（１）各部分文字列の文字確信度を乗算することで、特
徴文字列全体において正しい文字が並んでいる確率を以
下に示す数１により算出し、特徴文字列の文字確信度と
して設定する。

【０１５０】

【数１】

【０１５１】（２）各部分文字列の文字確信度を加算平
均することで、特徴文字列全体における正しい文字で構
成されている確率の平均を以下に示す数２により算出
し、特徴文字列の文字確信度として設定する。

【０１５２】

【数２】

【０１５３】（３）各部分文字列の文字確信度を基に、
特徴文字列全体で正しい文字を含んでいる確率を以下に
示す数３により算出し、特徴文字列の文字確信度として
設定する。

【０１５４】

【数３】

【０１５５】なお、本実施例では、文字確信度情報を利
用して文書検索処理を行なうこととしている。文字確信
度情報とは、ｎ文字単位（ｎ≧１）の部分文字列におい
て、認識された文字が正しい文字である確率を算出した
ものである。文字確信度情報の作成方法については、様
々な方法が想定される。文字確信度情報の作成方法とし
て、以下に７つの方法を例示する。（１）文字確信度情報を作成する第一の方法は、文字確
信度情報を作成するための教師データをあらかじめ用意
することで、事前に文字確信度情報を定義しておく方法
が想定される。なお、図１６は図１４における文字確信
度情報について、第一の方法による作成概要を示した図
である。教師データにはイメージデータとその文書内容
に相当するテキストデータを格納しておく。イメージデ
ータを用いてＯＣＲによる文字認識を行ない、その結果
として出力されたデータと教師データとして存在するテ
キストデータを突き合せることにより、認識された文字
が正しく認識された文字である確率（正解確率）を算出
する。この正解確率を算出するために文字確信度情報作
成プログラム１５００を実行する。そして、算出した正
解確率を文字確信度S(i)として設定し、文字確信度情報
に格納する。（２）文字確信度情報を作成する第二の方法は、構築済
の類似文字テーブルを利用する方法が想定される。この
場合においても、（１）と同様、事前に文字確信度情報
を定義しておくことになる。図１７は図１４における文
字確信度情報について、第二の方法による作成概要を示
した図である。類似文字テーブルには、文字列とその文
字列に対応する認識候補文字が重み値（もしくは認識確
率）と共に格納されている場合がある。その場合には、
その重み値を認識確率と設定し、Bayesの定理を応用す
ることにより、認識された文字列の正解確率を算出する
ことが可能となる。その算出方法の例を以下に示す。正
しいテキストにおける文字がｉである事象をAi、それに
対応する文字認識結果として出力される文字がｊである
事象をBjとするとき、ＯＣＲによる文字認識結果として
出力される文字ｊ（事象Bj）が正しいテキストにおいて
文字ｉ（事象Ai）である確率Pr(Ai|Bj) は、Bayesの定
理より次に示す数４を用いて算出することができる。

【０１５６】

【数４】

【０１５７】つまり、ＯＣＲによる文字認識結果として
出力される文字ｉ（事象Bi）が正しいテキストにおいて
文字ｉ（事象Ai）である確率（正解確率）Pr(Ai|Bi) を
算出し、算出した正解確率を文字確信度S(i)として設定
し、文字確信度情報に格納することにより作成する。（３）文字確信度情報を作成する第三の方法は、検索対
象のテキストファイル格納領域２５０に出現することが
少ない文字（もしくは文字列）は認識誤り文字である可
能性が高いと考える方法がある。この方法を用いると新
規に文字確信度情報を構築する必要がなく、見かけ上、
文字確信度情報は存在しない。すなわち、本作成方法の
場合には、検索対象となる文書を格納したテキストファ
イル格納領域２５０から導出される統計情報が文字確信
度情報に相当する。そのため、あらかじめ文字確信度情
報を作成しておく必要がなく、検索時に特徴文字列抽出
プログラム２２９にて抽出された各特徴文字列について
テキストファイル格納領域２５０から導出される統計情
報を参照しながら文字確信度を設定する。（４）文字確信度情報を作成する第四の方法は、認識後
の文字種により文字確信度を設定する方法がある。ＯＣ
Ｒによる文字認識は文字種により得手不得手が存在す
る。そのため、文字種により認識精度が異なるという事
実がある。本作成方法はＯＣＲの認識傾向に基づいた性
質を利用したものである。なお、この作成方法も（３）
と同様、あらかじめ文字確信度情報を作成しておく必要
はない。（５）文字確信度情報を作成する第五の方法は、認識後
のテキストデータから抽出された特徴文字列の文字列長
により判断する方法が想定される。特徴文字列として抽
出されたものは、文字列長が長いほど正しく認識された
文字列である可能性が高い。本作成方法は、この性質を
利用したものである。なお、この方法においても（３）
と同様、あらかじめ文字確信度情報を作成しておく必要
はない。（６）文字確信度情報を作成する第六の方法は、種文書
として設定する文書を文字認識する際にＯＣＲから出力
される認識確率の情報を利用する方法が想定される。Ｏ
ＣＲは文字認識を行なう際に、認識候補文字としていく
つかの候補文字を出力する。このとき、いくつかのＯＣ
Ｒでは認識確率も一緒に出力されるので、その情報を文
字確信度として設定するという方法である。また、認識
確率を出力しないようなＯＣＲであっても、文字形状が
似ている順に候補文字として出力されるため、各候補文
字の出現順位によって文字確信度を設定することは可能
である。なお、この方法では、あらかじめ文字確信度を
設定しておく方法でも、抽出された文字列に対して随時
文字確信度を算出する方法でも構わない。（７）文字確信度情報を作成する第七の方法は、形態素
解析などに利用されている単語辞書を利用する方法であ
る。すなわち、種文書から抽出された特徴文字列のう
ち、単語辞書に存在する文字列を正しい文字であると判
定する方法である。この場合は、予め単語辞書を用意す
れば文字確信度情報を設定したことになる。しかし、こ
の方法を用いる場合には、例えば、本来「に」や「Cu
p」という文字であるものがＯＣＲによって「仁」や「C
ap」と認識誤りし、さらに、特徴文字列として「仁」や
「Cap」が設定された場合、「仁」や「Cap」という単語
は単語辞書に存在するため、正しい文字であると判定さ
れてしまう。このことから、本方法により作成された文
字確信度情報を用いても、正しい文字であると判定され
た文字列がどの程度正しいのかは判断できない。

【０１５８】文字確信度情報を作成する際には上記例示
したいずれの場合を用いても、上記の方法をいくつか組
み合わせる方法で構築しても構わない。また、文字確信
度情報をあらかじめ作成する場合には、本サーバ上にお
いて作成し、磁気ディスク２０９に直接保存する形式を
用いてもよいし、別マシンにて本文字確信度情報を作成
し、その文字確信度情報を格納したフロッピーディスク
などの可搬型記憶媒体から読み込み、磁気ディスク２０
９に保存する形態を用いてもよいし、文字確信度情報を
格納したフロッピーディスクなどの可搬型記憶媒体から
直接読み出す形態を用いてもよい。あるいは、ネットワ
ーク１０５を介して転送されてくる文字確信度情報を磁
気ディスク２０９に保存する形態や直接主メモリ２０８
中のワークエリア２７０に取り込む形態を取ってもよ
い。

【０１５９】本実施例の文書登録の処理は、第一の実施
例と同様である。以下では、本発明の第二の実施例にお
ける文書検索の処理を、具体的な例をあげて説明する。

【０１６０】本実施例では、第一の実施例と同様、図１
１の紙文書１００１を文字認識したテキストデータ１０
０２を種文書として設定するものとする。このとき、第
一の実施例と同様に、種文書中に存在する特徴文字列が
抽出され、テーブル１１０１が生成されるものとする。
ここまでは、第一の実施例と同じ処理である。本実施例
ではこの後の処理として、テーブル１１０１に存在する
特徴文字列に対し、不要語削除プログラム２３３を実行
して、検索に不要な特徴文字列を排除する。

【０１６１】図１８は、不要な特徴文字列を削除する処
理の具体例を示す。文字確信度算出プログラム２３２を
実行し、文字確信度情報２５６を参照しながら、抽出さ
れた特徴文字列毎の文字確信度を算出する（テーブル１
７０１）。具体例として「エタリア」という文字に対す
る文字確信度を算出する。例えば、カタカナの文字が正
しく認識される確率を一律３０％と設定し、さらに、前
述した文字確信度算出方法のうち、数３を用いて文字確
信度Ｓを算出すると、以下の算出式により「エタリア」
という文字の文字確信度は０．７６と設定される。

【０１６２】

【数５】

【０１６３】本実施例では１文字単位の文字確信度を用
いて特徴文字列全体の文字確信度を算出しているが、前
述したように、この文字確信度を算出する際には、１文
字単位で算出しても複数文字単位で算出しても構わな
い。さらに、上記の算出例では、便宜上、カタカナの文
字列の文字確信度は一律３０％であると設定したが、前
記文字確信度算出方法にて述べたように、各文字もしく
は各文字列の文字確信度を個別に設定しても構わない。

【０１６４】この文字確信度算出プログラムによって算
出された文字確信度という指標は、特徴文字列が正しい
文字列である確率を示したものであり、例えば、上記の
例における「エタリア」という文字列が正しく認識され
た文字によって構成されている確率は７６％であるとい
うことである。このことから、この文字確信度が低い文
字列は認識誤りを起こしている可能性が高い。そのた
め、文字確信度が低いものを特徴文字列から外すこと
で、不要な特徴文字列を削除できる。具体的には、各特
徴文字列の文字確信度が所定の閾値以下の特徴文字列を
特徴文字列群から削除する（処理１７００）。本実施例
では、便宜上、０．５以下のものを削除する。図１８の
場合、「仁」という文字が０．４５と０．５以下である
ので、この文字列は特徴文字列としては設定しない。こ
のようにして、検索に不必要な特徴文字列を削除でき
る。

【０１６５】本実施例によって設定された検索に用いる
特徴文字列を図１９のテーブル１８０１に示し、テーブ
ル１８０２に本実施例により生成された検索式を示す。
第一の実施例により抽出された特徴文字列群（図１３の
テーブル１２０３）と比較して、テーブル１８０１にお
いては、本来検索の際に不要であると思われる「仁」と
いう文字列が排除されている。よって、本実施例におけ
る処理を用いることで、検索に必要かつ十分な特徴文字
列が抽出できるため、「日本を代表する古墳、仁徳天皇
陵・・・」といった不要な文書を大量に検索するという問
題が解決される。

【０１６６】以上説明したように、本実施例を適用する
ことにより、検索に不要な特徴文字列と見なされる文字
列を排除することが可能となり、第一の実施例による効
果に加えて、不要な文書を抽出することがなくなって、
検索精度が向上する。

【０１６７】また、本実施例においても、第一の実施例
同様、検索精度および検索性能の改善のため、図１５に
おけるステップ５０６からステップ５０９、すなわち本
実施例における拡張特徴文字列生成プログラム２３６を
実行する前に、入力された検索文字列の文字列長で拡張
特徴文字列を生成するか否かを判定し、実行する場合に
のみ拡張特徴文字列生成プログラム２３６を実行すると
いう拡張特徴文字列生成方法を切り替えるステップを備
えることも可能である。

【０１６８】以下、本発明を適用した第三の実施例につ
いて説明する。本実施例は、システムの構成については
前記第一の実施例と同一であるが、文書検索サーバ１０
２の処理において、特徴文字列の補正方法およびそれに
伴う重み値の補正方法が異なり、その結果、検索に用い
る特徴文字列の選択結果が第一の実施例とは異なる。

【０１６９】ここで、第二の実施例同様、第一の実施例
で選択された特徴文字列の具体例（図１３のテーブル１
２０３）を考察する。テーブル１２０３では、「サソカ
ー」および「ナッカー」という文字列は、いずれも「サ
ッカー」という文字列が認識誤りを起こしているために
生じた文字列である。検索に用いる特徴文字列が増大す
ると、ヒットする文書は多くなる可能性はあるが、不必
要な文書まで検索してしまう可能性も存在する。特に、
今回のような認識誤りを内部に含んでいる特徴文字列を
検索に用いても検索精度は余り向上しない。さらに、不
要な特徴文字列を検索に用いると、検索の特徴文字列が
増大することになり、検索性能が劣化する。

【０１７０】本実施例では、「サソカー」および「ナッ
カー」のように認識誤り文字が内包されているために生
じた文字列を「サッカー」のような認識誤り文字が内包
されていない（あるいは認識誤り文字が内包されていな
い可能性が高い）文字列に集約することにより、検索性
能の向上と検索に不要な文字列を削除できる。

【０１７１】図２０は、第三の実施例における特徴文字
列補正プログラム２３１の概略処理を示したＰＡＤ図で
ある。図２０においては、第一の実施例における特徴文
字列補正プログラム２３１（図５中の２３１）と比較し
て、生成された特徴文字列に対する重み値の補正を行な
うループ処理（ステップ５０５）の前に特徴文字列を文
字列長の降順、文字確信度の降順にソーティングしてい
る処理（ステップ１９０１）を加えている点が異なる。
また、重み値補正プログラム２３４内において、種文書
内における拡張特徴文字列の頻度を算出した後、種文書
内で拡張特徴文字列が出現した部分を記号などに置き換
えるマスキング処理（ステップ１９０４）を施している
点が異なる。

【０１７２】本実施例の文書登録の処理は、第一の実施
例と同様である。以下では、本発明の第三の実施例にお
ける文書検索の処理を、具体的な例をあげて説明する。

【０１７３】本実施例では、第一の実施例と同様、図１
１の紙文書１００１を文字認識したテキストデータ１０
０２を種文書として設定するものとする。この場合、第
一の実施例と同様に、種文書内に存在する特徴文字列が
抽出され、図１３のテーブル１１０１が生成されるもの
とする。ここまでは、第一の実施例と同じ処理である。

【０１７４】本実施例ではこの後の処理として、テーブ
ル１１０１に存在する特徴文字列を文字列長の降順にソ
ートする。さらに、第二の実施例を組み合わせて実装す
る場合には、文字確信度の降順にもソートする。図２１
は、前記ソートする処理の具体例である。第一の実施例
のテーブル１１０１には、文字確信度のデータが付与さ
れていないが、本実施例では便宜上、第二の実施例を組
み合わせ、テーブル１１０１に文字確信度のデータが付
与されているものとする（テーブル１７０１）。図２１
に示すテーブル２００１はソートされた後の特徴文字列
群を示している。この特徴文字列群では、文字列長が長
く、文字確信度の高い順にソーティングされている。こ
れは、文字列長が長く、かつ、文字確信度が高い文字列
ほど正しく認識されている確率が高いという性質を利用
するためである。

【０１７５】そして、ソーティングされた特徴文字列を
用いて、第一の実施例と同様の処理を行なう。具体的に
は、ソーティングされた特徴文字列を一つずつ読み出
し、特徴文字列を拡張特徴文字列に展開、さらに、拡張
特徴文字列に対して重み値を付与し（重み値補正プログ
ラム２３４）、特徴文字列とその重み値を設定する。

【０１７６】図２１に示すように、重み値補正プログラ
ム２３４では、第一の実施例と同様、拡張特徴文字列を
読み込み、種文書内での出現頻度を算出する（図２０の
ステップ１９０２、１９０３）。

【０１７７】本実施例では、ステップ１９０３の終了
後、ステップ１９０４からなる処理を実行している。ス
テップ１９０４では、種文書内で拡張特徴文字列がヒッ
トした文字列を、検索に使用することがない記号（例え
ば「＃」、「＄」、「！」など）に置き換え（以下、マ
スキング処理とする）、本来同じ文字列であるが、認識
誤りを起こしている可能性が高い文字列を再びヒットさ
せないようにしている。

【０１７８】図２２に、種文書１００２にマスキング処
理を行なった例を示す。図２２に示す種文書は、類似文
字テーブル２５５を用いて、「Azzurri」と「サッカ
ー」という文字列（特徴文字列）を拡張特徴文字列に展
開し、拡張特徴文字列にてヒットした部分を「＃」とい
う文字に置き換えたものである。この処理を行なうこと
により、「Azzurvi」、「ナッカー」などといった認識
誤りを起こしている文字列がこの後にヒットすることが
なくなる。図２１に示す特徴文字列群（テーブル２００
２）では、「Azzurvi」、「サソカー」あるいは「ナッ
カー」といった文字列の出現頻度は１回ずつ存在するの
に対し、本実施例による重み値補正プログラムを実施し
た後の特徴文字列群（テーブル２００３）では「Azzurv
i」、「サソカー」あるいは「ナッカー」といった文字
列の出現頻度は０回となっている。このため、重み値も
０となり、結果的に検索に用いる特徴文字列から排除さ
れる。

【０１７９】本実施例によって設定された検索に用いる
特徴文字列を図２３のテーブル２２０１に示し、テーブ
ル２２０２に本実施例により生成された検索式を示す。
第一の実施例により抽出された特徴文字列群（図１３の
テーブル１２０３）と比較して、テーブル２２０１にお
いては、本来検索の際には不要であると思われる「サソ
カー」、「ナッカー」、「エタリア」、「Cap」という
文字列が排除されている。よって、本実施例における処
理を用いることにより、検索に必要かつ十分な特徴文字
列が抽出でき、さらに、結果的には、検索に不要な文字
列を削除できる。

【０１８０】以上説明したように、本実施例を適用する
ことにより、同一の特徴文字列と見なされる文字列を集
約でき、第一の実施例による効果に加えて、検索性能の
向上と検索における不要な特徴文字列の削除によって検
索精度が向上する。

【０１８１】なお、本実施例における同一の特徴文字列
と見なされる文字列を集約する方法を採用した場合、前
記第二の実施例同様に、検索に不要な特徴文字列と見な
される文字列を排除する方法を適用することで、検索結
果として不要な文書が検索されないので検索精度が向上
する。また、本実施例においても、第一の実施例同様、
検索精度および検索性能の改善のため、図２０のステッ
プ５０６からステップ５０９、すなわち本実施例におけ
る拡張特徴文字列生成プログラム２３６を実行する前
に、入力された検索文字列の文字列長で拡張特徴文字列
を生成するか否かを判定し、実行する場合にのみ拡張特
徴文字列生成プログラム２３６を実行するという拡張特
徴文字列生成方法を切り替えるステップを備えることも
可能である。

【０１８２】さらに、本実施例では、文書検索時におい
て、種文書から抽出される特徴文字列を補正する処理と
して、特徴文字列補正制御プログラム２３１を用いるこ
ととしたが、文書登録時においても、登録対象文書を種
文書と見なし、本実施例における特徴文字列補正プログ
ラム２３１と同様の処理を登録対象文書に対して実行す
ることで、登録対象文書中に存在する特徴文字列の認識
誤り文字を自動的に補正することが容易にでき、文字認
識精度が向上する。

【０１８３】以下、前記認識誤り文字の自動補正方式に
ついて具体的に説明する。本実施例における登録対象文
書が図１１に示す紙文書１００１であり、図１１の紙文
書１００１を文字認識したテキストデータが図１１にお
ける文書１００２であるとする。本実施例として記述し
た図１１の文書１００２を種文書と見立て、本実施例に
おける特徴文字列補正プログラム２３１を用いて抽出さ
れる特徴文字列群は、図２３のテーブル２２０１に示さ
れる文字列群となる。

【０１８４】ここで、登録文書中に存在する拡張特徴文
字列に含まれる文字列は、もともとの特徴文字列に統合
する。例えば、拡張特徴文字列が「サッカー or ナッカ
ー or … or サソカー or … or サッかー or …」であ
った場合、登録文書中で上記拡張特徴文字列に含まれる
文字列（例えば、「ナッカー」や「サソカー」など）は
全て「サッカー」という文字に集約することができ、
「ナッカー」や「サソカー」という文字列は「サッカ
ー」という文字列に自動的に置き換えることができる。
この処理を前記特徴文字列補正プログラム２３１により
抽出された特徴文字列全てに行なうことにより、登録対
象文書内に存在する認識誤り文字を自動的、もしくは半
自動的に一括補正することが可能となる。また、第二の
実施例にて用いた文字確信度情報を利用し、文字確信度
がある閾値以下である特徴文字列に関しては、認識誤り
文字の自動補正を行なわないという方式も容易に実現で
きる。

【０１８５】なお、認識誤り文字の自動修正方式につい
て、抽出された特徴文字列のうち、ユーザが修正すべき
特徴文字列を指定し、一括修正が行なえるユーザインタ
フェースは容易に実装できる。図２４に、認識誤り文字
の自動修正方式におけるユーザインタフェースの一例を
示す。図２４においては、登録対象文書を文字認識した
テキストデータを表示するエリアと、自動修正を行なう
か否かの設定ボタンと、選択された特徴文字列を一括修
正するボタンと、修正するべき特徴文字列を選択するチ
ェックボックスと、登録対象文書から抽出された特徴文
字列を表示し、さらにプルダウンによって各特徴文字列
に対応した認識誤りを起こしやすい文字列（派生文字
列）を表示するテキストボックスと、登録対象文書から
抽出された各特徴文字列を個々に修正する修正ボタンに
よって構成される。図２４に示すユーザインタフェース
においては、修正すべき特徴文字列をチェックすると、
登録対象文書を表示するエリア内に、特徴文字列あるい
は派生文字列であると考えられる文字列がハイライト表
示され、さらに正しいと思われる特徴文字列を登録ユー
ザがプルダウンで選択でき、修正ボタンを押下すること
で登録対象文書内における認識誤りによる派生文字列を
選択された文字列へと一括変換できる。また、登録ユー
ザが一括修正したい特徴文字列を選択し、選択した文字
列を一括修正するボタンを押下すると、選択された特徴
文字列に対応する派生文字列を一括して修正できる。さ
らに、個々の特徴文字列に対する設定が煩雑であると考
えるユーザに対しては、全て自動修正するボタンを押下
することで、個々の派生文字列を画面上に表示されてい
る特徴文字列へ一括変換できる。

【０１８６】また、図２４では、自動修正を行なうか否
かの設定ボタンと、選択された特徴文字列を一括修正す
るボタンと、修正するべき特徴文字列を選択するチェッ
クボックスと、特徴文字列群および各特徴文字列に対応
した派生文字列を表示するテキストボックスと、各特徴
文字列を個々に修正するボタンを用いるようにしたが、
修正すべき特徴文字列をチェックし、自動修正する項目
だけでもよいし、自動修正をするか否かを設定する項目
だけでもよい。

【０１８７】以下、本発明を適用した第四の実施例につ
いて説明する。本実施例は、システムの構成については
前記第一の実施例と同一であるが、文書検索サーバ１０
２の処理において、重み値の補正方法が異なる。

【０１８８】第一の実施例においては、重み値を補正す
るため、特徴文字列が種文書内に出現する頻度を算出
し、その出現頻度を補正するといった方式を取っている
（図５のステップ５１０）。しかし、一般的な類似文書
検索システムにおいては、特徴文字列が種文書内に出現
する頻度だけでなく、検索対象の文書中で特徴文字列が
存在する文書数を重み設定のパラメータとしているシス
テムも存在する。こういったシステムでは、特徴文字列
が種文書内に出現する頻度のみを補正するだけでは、検
索に必要な特徴文字列を抽出するためには不十分である
ことが想定される。

【０１８９】本実施例では、第一の実施例における重み
値補正プログラム２３４に加え、検索対象の文書中で特
徴文字列が存在する文書数を補正することにより、重み
値補正の精度を向上させるという効果が得られる。

【０１９０】本実施例における文書登録の処理について
は、第一の実施例と同様であるため省略とし、以下で
は、本発明の第四の実施例における文書検索の処理につ
いて、具体的な例をあげて説明する。

【０１９１】本実施例では、第一の実施例と同様、図１
１の紙文書１００１を文字認識したテキストデータ１０
０２を種文書として設定するものとする。この場合、第
一の実施例と同様に、図１３のテーブル１１０１に示す
特徴文字列が抽出され、拡張特徴文字列生成プログラム
２３６により、図１３中のテーブル１２０１が生成され
るものとする。ここまでは、第一の実施例と同じ処理で
ある。

【０１９２】本実施例では、この後の処理として、第一
の実施例と同様、重み値補正処理を行なう。ただし、本
実施例では、第一の実施例の重み値補正プログラム（図
５のステップ５１０）と比較して、種文書内における拡
張特徴文字列の頻度を算出した後、拡張特徴文字列が検
索対象文書内で出現する文書数を算出するステップを加
えている点が異なる。以下、重み値補正プログラム２３
４を詳細に説明する。

【０１９３】本実施例における重み値補正プログラム２
３４では、第一の実施例と同様に、拡張特徴文字列を読
み込み、拡張特徴文字列が種文書内に出現する頻度を算
出する。このとき、拡張特徴文字列は各展開語が論理和
にて結合されたものであるから、各展開語のいずれかが
種文書内に含まれれば、出現頻度情報としてカウントで
きる。この処理を行なうことにより、種文書内に存在す
る認識誤り文字を許容し、特徴文字列の重み値設定に関
わるパラメータの一つを補正できる。ここまでは、第一
の実施例と同様の処理である。本実施例では、さらに、
格納された拡張特徴文字列が検索対象の文書集合である
テキストファイル格納領域２５０に出現する回数を算出
するステップを組込む。このときも各展開語のいずれか
がテキストファイル格納領域２５０に含まれれば、出現
回数情報としてカウントできる。この処理により、検索
対象の文書内に存在する認識誤り文字を許容し、特徴文
字列の重み値設定に関わるパラメータの一つを補正でき
る。そして、上記ステップにて算出された各パラメータ
を基として、拡張特徴文字列の重み値を算出し、その重
み値を出力する。また、以降の処理は、第一の実施例と
同様である。

【０１９４】以上が、本実施例における重み値補正プロ
グラム２３４、すなわち図５におけるステップ５１０の
詳細な処理手順である。

【０１９５】以上説明したように、本実施例を適用する
ことにより、拡張特徴文字列が検索対象の文書に出現す
る文書数を算出するステップを加えることにより、重み
値補正の精度を向上させ、その結果、検索精度を向上さ
せることができる。

【０１９６】なお、本実施例における検索対象の文書内
における出現文書数の補正を行なう方法を採用した場合
でも、前記第二の実施例同様に、検索に不要な特徴文字
列と見なされる文字列を排除する方法を適用することに
より、検索結果として不要な文書を検索しないので検索
精度が向上する。また、前記第三の実施例同様に、同一
の特徴文字列と見なされる文字列を集約する方法を適用
することにより、検索における不要な特徴文字列を削除
できるので検索性能および検索精度が向上する。

【０１９７】また、本実施例では、文書検索時におい
て、種文書から抽出される特徴文字列を補正する処理と
して、特徴文字列補正プログラム２３１を用いることと
したが、第三の実施例を適用することで、文書登録時に
おいても、第三の実施例における登録対象文書に対する
認識誤り自動補正方式と同様、登録対象文書を種文書と
見なした処理を行なうことにより、登録対象文書中に存
在する特徴文字列の認識誤りを自動的に補正することが
容易に実現でき、文字認識精度が向上する。

【０１９８】さらに、本実施例においても、第一の実施
例同様、検索精度および検索性能の改善のため、図５に
おけるステップ５０６からステップ５０９、すなわち本
実施例における拡張特徴文字列生成プログラム２３６を
実行する前に、入力された検索文字列の文字列長で拡張
特徴文字列を生成するか否かを判定し、実行する場合に
のみ拡張特徴文字列生成プログラム２３６を実行すると
いう拡張特徴文字列生成方法を切り替えるステップを備
えることもできる。

【０１９９】

【発明の効果】以上説明したように、文書登録を行なう
場合においては、登録対象の文書をスキャナなどによっ
て生成されたイメージデータとイメージデータを文字認
識することにより抽出されたテキストデータを登録する
だけでよく、また、これらの登録処理はシステムが行な
うので、ユーザは登録対象の文書を提示するだけでよ
く、手軽に文書を登録できる。また、本発明を適用する
ことにより、登録文書内に存在する認識誤り文字に対し
ても一括修正を行なえ、ユーザの負担が軽減する。

【０２００】さらに、登録した文書に対して検索を行な
う場合においても、ユーザは類似文書検索をしたい元の
文書を種文書として設定するだけで、種文書から抽出さ
れる特徴文字列を補正する処理と検索対象の文書内に存
在する認識誤り文字を許容する処理を別々に行なうこと
により、種文書と検索対象の文書のいずれかあるいは両
方に存在する特徴文字列の認識誤りをユーザが意識する
ことなく、精度の高い類似文書検索を行なえる。

【図面の簡単な説明】

【図１】本発明による文書検索システムの第一の実施例
におけるシステム全体構成および文書登録サブシステム
の構成を示す図である。

【図２】本発明による第一の実施例における文書登録サ
ブシステムの概略手順を示すＰＡＤ図である。

【図３】本発明による文書検索システムの第一の実施例
における文書検索サーバの構成を示す図である。

【図４】本発明による第一の実施例における文書検索サ
ーバの概略手順を示すＰＡＤ図である。

【図５】本発明による第一の実施例における類似文書検
索プログラムの概略手順を示すＰＡＤ図である。

【図６】本発明による類似文字テーブルの例を示す図で
ある。

【図７】本発明による第一の実施例における検索クライ
アントの概略手順を示すＰＡＤ図である。

【図８】本発明による第一の実施例における検索クライ
アントの概略手順を示すＰＡＤ図である。

【図９】本発明による第一の実施例における検索結果表
示プログラムの概略手順を示すＰＡＤ図である。

【図１０】本発明による第一の実施例において文書登録
に用いる文書および文書登録内容の具体例である。

【図１１】本発明による第一の実施例において文書検索
時に種文書として設定する処理の具体例である。

【図１２】本発明による第一の実施例において文書検索
時に設定した種文書から特徴文字列を抽出し、検索条件
式を生成した具体例である。

【図１３】本発明による第一の実施例において抽出され
た特徴文字列を補正する処理の具体例である。

【図１４】本発明による第二の実施例における文書検索
サーバの構成を示す図である。

【図１５】本発明による第二の実施例における特徴文字
列補正プログラムの概略手順を示すＰＡＤ図である。

【図１６】本発明による文字確信度情報の作成方法にお
ける第一の概要図である。

【図１７】本発明による文字確信度情報の作成方法にお
ける第二の概要図である。

【図１８】本発明による第二の実施例において抽出され
た特徴文字列を補正する不要語削除プログラムの処理例
を示す図である。

【図１９】本発明による第二の実施例において種文書か
ら検索に用いる特徴文字列を選択し、検索条件式を生成
した一例である。

【図２０】本発明による第三の実施例における特徴文字
列補正プログラムの概略手順を示すＰＡＤ図である。

【図２１】本発明による第三の実施例において抽出され
た特徴文字列をソーティングし、ヒットした文字列をマ
スキングする処理を組み込んだ重み値補正処理の具体例
である。

【図２２】本発明による第三の実施例において種文書を
マスキング処理した結果の具体例である。

【図２３】本発明による第三の実施例において種文書か
ら検索に用いる特徴文字列を選択し、検索条件式を生成
した一例である。

【図２４】本発明による第三の実施例において登録対象
文書内に存在する認識誤り文字を自動修正するユーザイ
ンタフェースの一例である。

【符号の説明】

１０１・・・文書登録サブシステム、１０２・・・文書検索サ
ーバ、１０３、１０４・・・検索クライアント、１０５・・・
ネットワーク、２０１・・・ディスプレイ、２０２・・・キー
ボード、２０３・・・中央演算処理装置（ＣＰＵ）、２０
４・・・フロッピーディスクドライブ（ＦＤＤ）、２０５・
・・フロッピーディスク、２０６・・・スキャナ、２０７・・・
通信制御装置、２０８・・・主メモリ、２０９・・・磁気ディ
スク装置、２１０・・・システムバス、２１１・・・システム
制御プログラム、２１２・・・文書登録制御プログラム、
２１３・・・文書検索制御プログラム、２１４・・・クライア
ント制御プログラム、２２０・・・スキャナ制御プログラ
ム、２２１・・・文字認識プログラム、２２２・・・テキスト
登録プログラム、２２３・・・イメージ登録制御プログラ
ム、２２４・・・文書管理情報登録プログラム、２２５・・・
文字列インデックス生成プログラム、２２６・・・検索条
件式解析プログラム、２２７・・・類似文書検索プログラ
ム、２２８・・・種文書読込プログラム、２２９・・・特徴文
字列抽出プログラム、２３０・・・類似度算出プログラ
ム、２３１・・・特徴文字列補正プログラム、２３２・・・文
字確信度算出プログラム、２３３・・・不要語削除プログ
ラム、２３４・・・重み値補正プログラム、２３５・・・文字
列分割プログラム、２３６・・・拡張特徴文字列生成プロ
グラム、２３７・・・類似文字テーブル参照プログラム、
２３８・・・文字列展開プログラム、２３９・・・検索結果取
得プログラム、２４０・・・検索条件入力プログラム、２
４１・・・検索結果表示プログラム、２５０・・・テキストフ
ァイル格納領域、２５１・・・イメージファイル格納領
域、２５２・・・インデックスファイル格納領域、２５３・
・・文書管理情報格納領域、２５４・・・各種プログラム格
納領域、２５５・・・類似文字テーブル格納領域、２５６・
・・文字確信度情報格納領域、２５７・・・検索結果データ
格納領域、２７０・・・ワークエリア

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｋ 9/03 Ｇ０６Ｋ 9/03 Ｃ 9/68 9/68 Ｇ (72)発明者 ▲高▼取壽東京都大田区大森北三丁目２番16号株式会社日立システムアンドサービスＦターム(参考） 5B064 AA01 EA12 EA31 EA32 FA04 5B075 ND03 NK32 PQ27 QM06

Claims

【特許請求の範囲】

【請求項１】予め作成されたテキストデータ、または予
めイメージ文書から文字認識処理により抽出されたテキ
ストデータのうち少なくとも一方を登録した文書データ
ベースに対し、検索者が指定した文書と内容的に類似し
た文書を検索する検索システムにおいて、前記検索者が指定した文書から該当文書中に含まれる少
なくとも１つの部分文字列を抽出する部分文字列抽出ス
テップと、前記部分文字列抽出ステップにより抽出された部分文字
列に対し、認識誤りに伴う文字列の補正処理を行う検索
用文字列補正ステップと、前記検索用文字列補正ステップにより抽出した検索用文
字列について、認識誤りにより発生し得る表記の候補を
含めた検索を実行する認識誤り許容検索ステップと、前記認識誤り許容検索ステップにより抽出された前記デ
ータベース中の各文書における各検索用文字列の出現頻
度情報を用いて検索者が指定した文書との類似度を算出
する類似度算出ステップを有することを特徴とする文書
の検索方法。
【請求項２】前記検索用文字列補正ステップが前記部分文字列抽出ステップにより抽出された部分文字
列に対し、認識誤りにより発生し得る表記の候補を生成
する部分文字列展開ステップと、前記部分文字列展開ステップにより生成した各部分文字
列の出現頻度を用いて、前記検索者が指定した文書内で
の出現頻度を補正する出現頻度補正ステップを有するこ
とを特徴とした請求項１記載の文書の検索方法。
【請求項３】前記種文書補正ステップにおける出現頻度
補正ステップが、前記部分文字列展開ステップにより生成される部分文字
列の中の少なくとも１つの出現頻度を補正することを特
徴とする請求項２記載の文書の検索方法。
【請求項４】前記検索用文字列補正ステップが予め作成
された文字確信度情報を参照することにより、検索用文
字列の確信度を算出する文字確信度算出ステップと、前記文字確信度算出ステップにより算出された文字確信
度が、予め定められた閾値を下回る文字列を検索用の文
字列から除外する検索用文字列除外ステップを有するこ
とを特徴とする請求項１記載の文書の検索方法。
【請求項５】前記検索用文字列補正ステップが前記部分
文字列抽出ステップにより抽出された部分文字列に対
し、認識誤りにより発生し得る表記の候補を生成する部
分文字列展開ステップと、展開した部分文字列に対し検索対象データベース内での
出現頻度を抽出するデータベース内出現頻度抽出ステッ
プと、前記データベース内出現頻度抽出ステップにより抽出さ
れた前記データベース中での出現頻度情報を用いて検索
に使用する部分文字列を選択する検索用部分文字列選択
ステップを有することを特徴とする請求項１記載の文書
の検索方法。
【請求項６】前記検索用文字列補正ステップが前記部分
文字列抽出ステップにより抽出された部分文字列に対
し、認識誤りにより発生し得る表記の候補を生成する部
分文字列展開ステップと、前記生成した部分文字列に対し検索対象データベース内
での出現頻度を抽出するデータベース内出現頻度抽出ス
テップを有し、前記類似度算出ステップが前記データベース内出現頻度
抽出ステップにより抽出されたデータベース内出現頻度
を用いて類似度の算出を行なうことを特徴とする請求項
１記載の文書の検索方法。
【請求項７】イメージデータから文字認識処理によって
テキストデータを抽出する文字認識方法における文字認
識結果テキストに対する後処理として、前記認識結果テキストから所定の部分文字列群を抽出す
る部分文字列抽出ステップと、前記部分文字列抽出ステップにより抽出された部分文字
列に対し、認識誤りにより発生し得る表記の候補を生成
する部分文字列展開ステップと、前記部分文字列展開ステップにより得られる各部分文字
列の前記認識結果テキスト中での出現頻度情報を用い
て、前記認識結果テキスト中の部分文字列を補正する認
識結果テキスト補正ステップを有することを特徴とする
文字認識方法。
【請求項８】前記認識結果テキスト補正ステップは、出
現頻度が予め定められた所定の閾値を上回る文字列を補
正処理の対象として選択することを特徴とする請求項７
記載の文字認識方法。
【請求項９】前記検索者が指定した文書が、予めデータベース中に登録された文書、検索時に紙文書
からスキャナを用いてイメージ文書に変換後に、文字認
識処理によりテキスト抽出された文書、ないしは検索時
に検索者により入力される検索用文章のうち少なくとも
１種類により構成されることを特徴とする請求項１記載
の文書の検索方法。
【請求項１０】前記検索者が指定した文書から抽出する
検索用文字列に対し補正処理を行う検索用文字列補正ス
テップを実行するか否かに関する情報を検索時に指定す
るインタフェースを有することを特徴とする請求項１記
載の文書の検索方法。
【請求項１１】前記検索者が指定した文書が、予めデー
タベース中に登録された文書であるか、検索時に紙文書
からスキャナを用いてイメージ文書に変換後、文字認識
処理によりテキスト抽出された文書であるか、または検
索者により入力される検索用文章であるか否かに関する
情報を用いて、前記検索者が指定した文書から抽出する
検索用文字列に対し補正処理を行う検索用文字列補正ス
テップを実行するか否かを決定することを特徴とする請
求項１０記載の文書の検索方法。
【請求項１２】前記部分文字列抽出ステップにより抽出
された部分文字列に関する出現頻度情報を用いて、前記
認識結果テキスト中の部分文字列を補正するステップを
実行するか否かを選択するための閾値値情報を設定する
ためのインタフェースを有することを特徴とする請求項
７記載の文字認識方法。
【請求項１３】前記部分文字列抽出ステップにより抽出
された部分文字列群を前記認識結果テキストにおいて登
録者が識別可能な形式で表示し、登録者の指示により前
記文字列群を登録者により指定された文字列に一括変更
するインタフェースを有することを特徴とする請求項７
記載の文字認識方法。