JP2002189747A

JP2002189747A - 文書情報の検索方法

Info

Publication number: JP2002189747A
Application number: JP2000389956A
Authority: JP
Inventors: Katsumi Tada; 勝己多田; Naohiro Koizumi; 直弘小泉; Hisashi Takatori; 壽高取
Original assignee: Hitachi Ltd; Hitachi Systems and Services Ltd
Current assignee: Hitachi Ltd; Hitachi Systems and Services Ltd
Priority date: 2000-12-19
Filing date: 2000-12-19
Publication date: 2002-07-05
Also published as: US20020169763A1; US7010519B2

Abstract

(57)【要約】【課題】ＯＣＲによる認識誤りを含む文書データベース
を対象として、ＯＣＲの認識誤りよる検索漏れを抑止し
た高精度な検索を、比較的文字列長が長い検索タームが
入力された場合にも実用的な時間で実現することを可能
とする。【解決手段】イメージ文書を対象とした文字認識処理を
実行した結果出力されるテキストによる文書を対象とし
て、検索者が指定した検索文字列を含む文書を検索する
システムにおいて、前記検索文字列を所定のｎ文字単位
の部分文字列（ｎ≧２）に分割する検索用文字列分割ス
テップと、前記ｎ文字単位の部分文字列（ｎ≧２）に対
して、誤認識される可能性の高い文字形状の類似した類
似文字列を格納することにより予め作成したｎ文字単位
の類似文字テーブルを参照する類似文字テーブル参照ス
テップと、前記検索文字列を構成する部分文字列に対し
てｎ文字単位類似文字テーブルを参照することにより抽
出し類似文字列群を組合せて展開語を生成する検索文字
列展開ステップを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、紙の文書を電子化
して保管・管理するシステムにおける文書情報の検索方
法に関するものである。

【０００２】

【従来の技術】情報化社会の本格的な進展に伴い、文書
を紙のままファイルして保管・管理していた従来の文書
管理方法に変わり、文書を電子化して保管・管理する文
書管理システムによる管理方法が普及してきた。当初
は、紙の形態の文書をスキャナで取り込みイメージデー
タを生成し、そのイメージデータに対して「作成者」や
「日付」、「キーワード」等の書誌情報を関連づけて登
録し、検索のときには書誌情報を検索の対象とすること
で所望する文書を検索していた。しかし、書誌情報を用
いた検索だけでは所望する文書を見つけ出すことが困難
であり、また本文テキストを対象とする全文検索技術が
実用化されていることから、イメージ文書の世界にも全
文検索を行う機能を有する文書管理システムが普及して
きた。

【０００３】この文書管理システムでは、まず紙の形態
の文書をスキャナで取り込みイメージデータとして蓄積
し、更にイメージデータから文字認識して得られたテキ
ストデータを併せて蓄積しておく。そして、検索時には
テキストデータを対象とした全文検索を行い、結果表示
の際には指定したテキストデータまたは、それに対応す
るイメージデータを表示するシステムである。全文検索
では基本的に誤りがないテキストデータを対象とするの
が前提であるが、検索対象のテキストデータはイメージ
データからＯＣＲ（光学的文字認識装置）による文字認
識により生成されているため、認識誤りを含んだテキス
トデータとなる可能性がある。そのため、正しく文字認
識されていれば本来ヒットすべきテキストデータが、認
識誤りを含むことでヒットせずに検索漏れとなる場合が
ある。

【０００４】この検索漏れの発生の問題を解決するため
に、従来からＯＣＲによる認識誤りのあるテキストデー
タは人手により校正を行っていた。すなわち、文書登録
の際にＯＣＲ出力のテキストデータに対して、元の文書
と比較して誤っている箇所を見つけだし人手によりテキ
ストデータを修正することで登録文書の認識誤りを解消
し、文書検索を可能とするものである。しかし、上記の
方法では人手による修正作業であるために、ユーザの負
担が大きく文書登録に要する手間と時間がかかるという
問題があった。

【０００５】この問題点を解決する技術として特開平４
−１５８４７８号公報では、検索対象の曖昧さをある程
度許容して検索を行う方法が開示されている。上記従来
技術では、文書登録の時にＯＣＲ出力によるテキストデ
ータには修正を加えず、そのまま文書登録を行う。つま
り、誤りを含んだテキストのまま文書登録を行うことで
人手による修正作業を必要とせずに検索時に工夫がなさ
れていることに特徴がある。

【０００６】以下、従来技術の認識誤りを許容した検索
方法について、図２に示すフローチャートに従い説明す
る。この方法では、ＯＣＲが認識誤りする可能性のある
文字形状の類似した候補文字（以下、候補文字とする）
を予め1文字単位の類似文字テーブルに列挙しておく。
まず、検索者は探したい文書に含まれている検索文字列
を入力する（ステップ１０００）。次に入力された検索
文字列を１文字毎に分割し（ステップ１００１）、分割
された各文字に対して上記1文字単位の類似文字テーブ
ルから候補文字を参照し（ステップ１００２）、参照し
た各文字の候補文字を組合せて複数の文字列（以下、展
開語とする）に展開する（ステップ１００３）。次にそ
れらの展開語のいずれかと一致する文書を探すために展
開語の論理和（ＯＲ）集合による全文検索を行い（ステ
ップ１００４）、その検索結果を取得する（ステップ１
００５）。このように認識誤りする可能性のある展開語
も含めて検索を行うことで、ＯＣＲによる認識誤りが生
じても検索漏れとならずに検索を可能とするものであ
る。

【０００７】

【発明が解決しようとする課題】しかしながら、上記従
来の技術では以下に示す問題がある。

【０００８】文書検索時に指定した検索文字列が長い場
合は、認識誤りする可能性のある展開語の数が爆発的に
増加し、それに伴い検索に要する時間が長くなるという
ことである。

【０００９】例えば、検索文字列が“日本文化”の４文
字の場合、各文字の候補文字が（日、目、白、曰、臼）
（本、木、不、天、末）（文、丈、女、攵、大）（化、
仕、牝、比、北）のように各々５つずつと仮定すると、
生成される展開語はすべての文字を組合せることで、５
×５×５×５＝５^４＝６２５通りとなる。

【００１０】同様に、検索文字列が“ｌｏｃｋ”の４文
字の場合、各文字の候補文字が（ｌ、Ｉ、！、１、ｉ）
（ｏ、Ｏ、０、Ｑ、６）（ｃ、Ｃ、Ｇ、ｅ、ｑ）（ｋ、
Ｋ、ｈ、ｂ、Ｒ）のように各々５つずつと仮定すると、
生成される展開語はすべての文字を組合せることで、５
×５×５×５＝５^４＝６２５通りとなる。

【００１１】さらに検索文字列長が長くなり、８文字の
場合では展開語数が５^８＝３９０，６２５通りにもな
り、検索文字列が長くなるにつれて展開語数が大きく増
加することは明らかである。そして、検索処理では展開
語の論理和（ＯＲ）集合による全文検索のため、展開語
数の増加は検索時間の増加となる。そのため、検索文字
列が長くなるに伴い検索に要する時間が長大化する。

【００１２】上記従来の技術の問題点に対して、本発明
の解決しようとする課題は検索文字列が長くても、検索
漏れの発生を低減しつつ実用的な検索時間での検索を可
能とするＯＣＲ認識誤りを許容した文書情報の検索方法
を実現することである。

【００１３】

【課題を解決するための手段】上記の課題を、本発明で
は以下の処理から構成される文書情報の検索方法により
解決する。図３のフローチャートに従い説明する。

【００１４】本発明による文書検索方法では、ｎ文字単
位（ｎ≧２）の部分文字列に対しＯＣＲが認識誤りする
可能性のある候補文字を、予めｎ文字単位類似文字テー
ブルに列挙しておく。

【００１５】まず、検索者は探したい文書に含まれてい
る検索文字列を入力する（ステップ１５００）。入力さ
れた検索文字列を所定のｎ文字単位（ｎ≧２）の部分文
字列に分割する検索用文字列分割ステップ（ステップ１
５０１）と、分割された各部分文字列に対し前記ｎ文字
単位類似文字テーブルを参照し、検索精度向上に寄与す
る可能性の高い候補文字列を抽出するｎ文字単位類似文
字テーブル参照ステップ（ステップ１５０２）と、参照
した各部分文字列の候補文字を組合せて展開語を生成す
る検索文字列展開ステップ（ステップ１５０３）と、そ
の展開語のいずれかを含む文書を探すための検索条件式
を生成する検索条件式生成ステップ（ステップ１５０
４）、検索条件式をテキストサーチプログラムへ入力す
る検索条件入力ステップ（ステップ１５０５）からなる
検索方法により実現する。

【００１６】ここで、上記類似文字テーブルの候補文字
をｎ文字単位とすることにより、「１文字単位で誤認識
される可能性が低い候補文字を組合せた文字列は、検索
精度向上の観点で寄与する確率が低い」という特徴を利
用し、精度向上に寄与しないｎ文字単位の候補文字を排
除し候補数を削減している。

【００１７】

【発明の実施の形態】以下、本発明を適用した第一の実
施例について図面を用いて説明する。まず、本発明を適
用した文書検索システムの構成図を図１に示す。この文
書検索システムは、ディスプレイ１００、キーボード１
０１、中央演算装置ＣＰＵ１０２、スキャナ１０３、主
メモリ２００、磁気ディスク１０４から構成される。ま
た、これらはバス１０５で接続されている。磁気ディス
ク１０４にはテキストデータ１０６、イメージデータ１
０７、後述する各種プログラム１０８、類似文字テーブ
ル１０９が格納される。

【００１８】主メモリ２００には、システム制御プログ
ラム２０１、文書登録制御プログラム２０２、スキャナ
制御プログラム２０３、ＯＣＲ制御プログラム２０４、
文書登録プログラム２０５、展開制御プログラム２０
６、展開語生成プログラム２０７、検索条件式生成プロ
グラム２１１、検索制御プログラム２１２、検索条件式
解析プログラム２１３、テキストサーチプログラム２１
４、表示プログラム２１５が磁気ディスク１０４から読
み出されて格納されるとともにワークエリア２１６が確
保される。

【００１９】展開語生成プログラム２０７は検索用文字
列分割プログラム２０８、類似文字テーブル参照プログ
ラム２０９、検索文字列展開プログラム２１０から構成
されている。これらのプログラムはユーザのキーボード
１０１からの指示に応じてシステム制御プログラム２０
１の制御の下で実行される。以上、本文書管理システム
の構成である。

【００２０】次に類似文字テーブル１０９について説明
する。一般的にはｎ文字単位の候補文字を列挙している
が、本実施例ではｎ＝２の場合を例にして説明する。

【００２１】通常ＯＣＲは文字の形の特徴に基づいて文
字認識するので、常に確実な認識結果が得られるわけで
はなく確定文字の他にある程度可能性のある候補文字を
用意している。本類似文字テーブルは、展開に漏れのな
いように全文字コードを組合せた2文字の学習データを
用いてＯＣＲが出力する候補文字を認識誤りする確率情
報（以下、出現確率とする）と共に収集することで実現
する。類似文字テーブル作成の概要を図４に示す。まず
全文字コードを組合せた2文字の学習データを印字した
紙文書をスキャナへ入力し、イメージデータを出力する
（ステップ１５５０）。次にイメージデータをＯＣＲへ
入力し、候補文字とその出現確率を列挙した認識テキス
トデータを出力する（ステップ１５５１）。次に学習デ
ータの元テキストデータと前述の認識テキストデータを
類似文字テーブル作成プログラムに入力し類似文字テー
ブルを作成する（ステップ１５５２）。

【００２２】次に類似文字テーブル作成プログラムの詳
細な処理手順を図５のフローチャートに示す。まず学習
データの元テキストデータを入力（ステップ１６００）
し、見出し文字を1行ずつ読み出し類似文字テーブルに
追加する（ステップ１６０１）。次に認識テキストデー
タを入力（ステップ１６０２）し、各候補文字を出現確
率と共に1行ずつ抽出する（ステップ１６０３）。次に
各候補文字の出現確率が所定値を超える候補文字を類似
文字テーブルに追加（ステップ１６０４〜１６０６）し
ていくことで類似文字テーブルを生成する。このとき、
出現確率が所定の値を超える候補文字のみを抽出し類似
文字テーブルに列挙することで検索精度の向上に寄与し
ない候補文字を排除し、大幅に候補文字を削減してい
る。なお、上記の例における確率情報はＯＣＲ出力によ
る出現確率を用いているが、同様の学習データに対して
文字認識を複数回繰返して得られる学習結果による頻度
情報であっても構わない。図６は類似文字テーブルの一
例であり、縦の列が見出し文字（５００）であり、横に
見出し文字に対する認識誤りする可能性のある候補文字
（５０１）を列挙している。

【００２３】次に候補文字の単位をｎ文字とする効果に
ついて“日本”の場合を例にして説明する。従来技術で
は各文字の候補文字が認識誤りし易い順に列挙された
（日、目、白、曰、臼）（本、木、不、天、末）に対し
て、すべてを組合せたの５×５＝２５通りの展開語を生成し、それらの展開語
の論理和集合を検索条件として検索を行っている。しか
し、“臼末”のような第５候補文字と第５候補文字の組
合せの展開語が検索精度の向上に寄与する可能性は極め
て低いと考えられる。そこで「１文字単位での出現確率
が低い候補文字を組合せると、さらに出現確率が低下す
る」という特徴を利用することで、検索精度の向上に寄
与しない候補文字を排除することができる。実際に図６
のように“日本”に対しては、の１５通りの展開語で検索した場合と、すべてを組合せ
た２５通りの展開語で検索した場合と比べて検索精度の
劣化はほとんど生じない。その理由を以下の例で説明す
る。

【００２４】上記“日”と“本”の各々の第一候補文字
の出現確率を1/2、第二候補文字の出現確率を1/4、第三
候補文字の出現確率を1/8、第四候補文字の出現確率を1
/16、第五候補文字の出現確率を1/32、それ以降の候補
文字の出現確率を1/32と仮定する。そして、各々の候補
文字を組合せて累積した出現確率を算出すると、 “日本”1/4、 “目本”1/8、 “白本”1/16、 “曰
本”1/32、“臼本”1/64、“日木”1/8、 “目木”1/1
6、“白木”1/32、 “曰木”1/64、“臼木”1/128、
“日不”1/16、“目不”1/32、“白不”1/64、“曰不”
1/128“臼不”1/256、“日天”1/32、“目天”1/64、
“白天”1/128、“曰天”1/256、“臼天”1/512、“日
末”1/64、“目末”1/128、“白末”1/256、“曰末”1/
512、“臼末”1/1,024 となる。このうち本実施例に示す通り左上半分の文字列
を採用することにより、 1/4 ＋ 1/8×２＋ 1/16×３＋ 1/32×４＋ 1/64×５
＝ 57/64 ≒ 90％の確率で検索漏れを抑止することが可能となる。そのた
め、出現確率の小さな候補文字は対象から除外しても検
索精度への影響はほとんどない。

【００２５】（ｌ、Ｉ、！、１、ｉ）（ｏ、Ｏ、０、
Ｑ、６）（ｃ、Ｃ、Ｇ、ｅ、ｑ）（ｋ、Ｋ、ｈ、ｂ、
Ｒ）また、“ｌｏ”の場合について図１５を用いて説明する
と、従来技術では各文字の候補文字が認識誤りし易い順
に列挙された（ｌ、Ｉ、！、１、ｉ）（ｏ、Ｏ、０、
Ｑ、６）に対して、すべてを組合せたの５×５＝２５通りの展開語を生成し、それらの展開語
の論理和集合を検索条件として検索を行っている。しか
し、“ｉ６”のような第５候補文字と第５候補文字の組
合せの展開語が検索精度の向上に寄与する可能性は極め
て低いと考えられる。そこで「１文字単位での出現確率
が低い候補文字を組合せると、さらに出現確率が低下す
る」という特徴を利用することで、検索精度の向上に寄
与しない候補文字を排除することができる。実際に図６
のように“ｌｏ”に対しては、の１５通りの展開語で検索した場合と、すべてを組合せ
た２５通りの展開語で検索した場合と比べて検索精度の
劣化はほとんど生じない。その理由を以下の例で説明す
る。

【００２６】上記“ｌ”と“ｏ”の各々の第一候補文字
の出現確率を1/2、第二候補文字の出現確率を1/4、第三
候補文字の出現確率を1/8、第四候補文字の出現確率を1
/16、第五候補文字の出現確率を1/32、それ以降の候補
文字の出現確率を1/32と仮定する。そして、各々の候補
文字を組合せて累積した出現確率を算出すると、 “ｌｏ”1/4、“Ｉｏ”1/8、 “！ｏ”1/16、 “１ｏ”
1/32、 “ｉｏ”1/64、“ｌＯ”1/8、“ＩＯ”1/16、
“！Ｏ”1/32、“１Ｏ”1/64、 “ｉＯ”1/128、“ｌ
０”1/16、“Ｉ０”1/32、“！０”1/64、“１０”1/12
8、“ｉ０”1/256、“ｌＱ”1/32、“ＩＱ”1/64、“！
Ｑ”1/128、“１Ｑ”1/256、“ｉＱ”1/512、“ｌ６”1
/64、“Ｉ６”1/128、“！６”1/256、“１６”1/512、
“ｉ６”１／１，０２４となる。このうち本実施例に示す通り左上半分の文字列
を採用することにより、１／４＋ 1/8×２＋ 1/16×３＋ 1/32×４＋ 1/64
×５＝ 57/64 ≒ 90％の確率で検索漏れを抑止することが可能となる。そのた
め、出現確率の小さな候補文字は対象から除外しても検
索精度への影響はほとんどない。

【００２７】このようにして作成した類似文字テーブル
の例を図１６に示す。

【００２８】このようにｎ文字単位の文字列の出現確率
を基に候補文字を選択することで、出現確率の高い候補
文字に絞り込んだ類似文字テーブルとなり、検索精度向
上に寄与する候補文字数を少なくすることが可能とな
る。以上、本類似文字テーブル１０９の説明である。

【００２９】以下、本文書検索システムにおける登録処
理について図７を用いて説明する。

【００３０】文書の登録の際は、まず登録する紙文書を
スキャナ１０３にセット（ステップ２０００）し、キー
ボード１０１から入力されたコマンドを受け、システム
制御プログラム２０１は文書登録制御プログラム２０２
を起動する（ステップ２００１）。この文書登録制御プ
ログラム２０２は、最初にスキャナ制御プログラム２０
３を起動して、スキャナ１０３にセットしてある紙文書
からイメージデータを抽出し、ワークエリア２１６に出
力する（ステップ２００２）。次に文書登録制御プログ
ラム２０２はＯＣＲ制御プログラム２０４を起動し、ワ
ークエリア２１６のイメージデータを入力として文字認
識を行い、テキストデータを抽出しワークエリア２１６
に出力する（ステップ２００３）。最後に文書登録制御
プログラム２０２は文書登録プログラム２０５を起動
し、ワークエリア２１６に読み込まれているテキストデ
ータとイメージデータの識別子を関連付ける。テキスト
データから検索用のインデクスデータを作成する。そし
て、テキストデータはテキストデータ１０６として、イ
メージデータは画像データ１０７として、磁気ディスク
１０４へ格納する（ステップ２００４）。なお、本実施
例は紙文書をスキャナからイメージデータを入力するだ
けでなく、通信回線を介してＦＡＸなどから直接イメー
ジデータを入力する構成をとってもかまわない。以上、
本文書検索システムにおける登録処理の説明である。

【００３１】以下、本文書検索システムにおける検索処
理について図８を用いて説明する。

【００３２】検索の際は、検索条件式がキーボード１０
１から入力されると、システム制御プログラム２０１に
より展開制御プログラム２０６が起動される（ステップ
２０１０）。次に展開制御プログラム２０６は最初に展
開語生成プログラム２０７を起動して、入力された検索
文字列に対して複数の展開語を生成しワークエリア２１
６に出力する（ステップ２０１１）。次に展開制御プロ
グラム２０６は検索条件式生成プログラム２１１を起動
し、ワークエリア２１６に読み込まれている展開語の論
理和（ＯＲ）集合となる検索条件式に拡張してシステム
制御プログラム２０１に出力する（ステップ２０１
２）。次にシステム制御プログラム２０１は検索制御プ
ログラム２１２を起動し、出力された検索条件式を入力
する。そして、本制御プログラムの下で検索条件解析プ
ログラム２１３、テキストサーチプログラム２１４が順
次起動され、検索条件式に従いテキストサーチを行う
（ステップ２０１３）。最後に検索結果をシステム制御
プログラム２０１に出力する（ステップ２０１４）。

【００３３】次に、展開語生成プログラム２０７の詳細
な処理手順について図９を用いて説明する。展開語生成
プログラム２０７は、検索用文字列分割プログラム２０
８を起動し、入力された検索文字列を所定のｎ文字単位
（ｎ≧２）の部分文字列に分割する（ステップ２０２
０）。次に、類似文字テーブル参照プログラム２０９を
実行して、分割された各部分文字列ごとの候補文字を上
記で説明したｎ文字単位（ｎ≧２）の類似文字テーブル
１０９より参照し、ワークエリア２１６に格納する（ス
テップ２０２１）。次に、検索文字列展開プログラム２
１０を実行して、ワークエリア２１６から各部分文字列
の候補文字を読み出して、それぞれを組合せることで複
数の展開語を生成する（ステップ２０２２）。以上、本
文書検索システムにおける展開語生成プログラム２０７
の処理手順の説明である。

【００３４】以上、本文書検索システムにおける検索処
理の説明である。

【００３５】以下、本文書検索システムにおける文書表
示の処理について図１０を用いて説明する。

【００３６】検索結果の中からユーザが指定した文書を
表示する際は、ユーザが表示したい文書を指定する（ス
テップ２０３０）。すると、システム制御プログラム２
０１が表示プログラム２１５を起動し、磁気ディスク１
０４上のテキストデータ１０６を表示する（ステップ２
０３１）。このとき、イメージデータでの表示を指定さ
れたか否かを判定し（ステップ２０３２）、磁気ディス
ク１０４上の関連付けられたイメージデータ１０７を表
示する（ステップ２０３３）。

【００３７】上記で説明した検索方法について、検索文
字列として“日本文化”を用いた場合を例に具体的に説
明する。この例では、2文字単位の展開とし“日本”と
“文化”の候補文字を図６の類似文字テーブルから参照
するものとする。

【００３８】検索文字列“日本文化”が入力されると、
まず展開語生成の処理を行う。展開語生成では、まず検
索文字列“日本文化”を2文字単位の部分文字列“日
本”と“文化”に分割する。次に“日本”の候補文字を
類似文字テーブルから参照し、（日本、目本、白本、曰本、臼本、日木、目木、白木、
曰木、日不、目不、白不、日天、目天、日末）をワークエリアに読み込む。同様に“文化”の候補文字
を（文化、丈化、女化、攵化、大化、文仕、丈仕、女仕、
攵仕、文牝、丈牝、女牝、文比、丈比、文北）をワークエリアに読み込む。次に各部分文字列の候補文
字を組合せることで、 “日本文化” “日本丈化” “日本女化” “日本攵化” “日本大化” … “日末文北” の展開語を生成する。最後に生成した展開語のいずれか
を含む文書を探す論理和（ＯＲ）条件「“日本文化”or
“日本丈化”or“日本女化”or“日本攵化”or“日本大
化”or・・・or“日末文北”」に従い検索を行うことで検
索漏れを低減した検索が可能となる。このように長い検
索文字列では、所定の長さの部分文字列単位で展開し、
出現確率が低い候補文字を排除した類似文字テーブルを
用いることで、従来の方法では５×５×５×５＝６２５
通りの展開語による検索に対し、本発明では１５×１５
＝２２５通りの展開語による検索となる。すなわち、出
現確率の高い候補文字に絞った類似文字テーブルに基づ
いて展開される展開語の数は、従来技術のようにすべて
の候補文字の組合せから生成される展開語の数に比べ
て、検索精度を維持したまま大幅に削減することが可能
である。このため大幅に検索時間を短縮することが可能
となる。

【００３９】さらに、上記で説明した検索方法につい
て、検索文字列として“ｌｏｃｋ”を用いた場合を例に
具体的に説明する。この例では、2文字単位の展開とし
“ｌｏ”と“ｃｋ”の候補文字を図１６の類似文字テー
ブルから参照するものとする。

【００４０】検索文字列“ｌｏｃｋ”が入力されると、
まず展開語生成の処理を行う。展開語生成では、まず検
索文字列“ｌｏｃｋ”を2文字単位の部分文字列“ｌ
ｏ”と“ｃｋ”に分割する。次に“ｌｏ”の候補文字を
類似文字テーブルから参照し、（ｌｏ、Ｉｏ、！ｏ、１ｏ、ｉｏ、ｌＯ、ＩＯ、！Ｏ、
１Ｏ、ｌ０、Ｉ０、！０、ｌＱ、ＩＱ、ｌ６）をワークエリアに読み込む。同様に“ｃｋ”の候補文字（ｃｋ、Ｃｋ、Ｇｋ、ｅｋ、ｑｋ、ｃＫ、ＣＫ、ＧＫ、
ｅＫ、ｃｈ、Ｃｈ、ＧＨ、ｃｂ、Ｃｂ、ｃＲ）をワークエリアに読み込む。次に各部分文字列の候補文
字を組合せることで、 “ｌｏｃｋ” “ｌｏＣｋ” “ｌｏＧｋ” “ｌｏｅｋ” “ｌｏｑｋ” … “ｌ６ｃＲ” の展開語を生成する。最後に生成した展開語のいずれか
を含む文書を探す論理和（ＯＲ）条件「“ｌｏｃｋ”or
“ｌｏＣｋ”or“ｌｏＧｋ”or“ｌｏｅｋ”or“ｌｏｑ
ｋ”or・・・or“ｌ６ｃＲ”」に従い検索を行うことで検
索漏れを低減した検索が可能となる。このように長い検
索文字列では、所定の長さの部分文字列単位で展開し、
出現確率が低い候補文字を排除した類似文字テーブルを
用いることで、従来の方法では５×５×５×５＝６２５
通りの展開語による検索に対し、本発明では１５×１５
＝２２５通りの展開語による検索となる。すなわち、出
現確率の高い候補文字に絞った類似文字テーブルに基づ
いて展開される展開語の数は、従来技術のようにすべて
の候補文字の組合せから生成される展開語の数に比べ
て、検索精度を維持したまま大幅に削減することが可能
である。このため大幅に検索時間を短縮することが可能
となる。

【００４１】以上、第一の実施例を説明した。本実施例
によれば、ＯＣＲによる認識誤りを許容した検索におい
て、検索漏れの発生を低減し、高い検索精度の検索を実
用的な検索時間で可能となる。

【００４２】次に、本発明の第二の実施例について説明
する。

【００４３】第一の実施例では、ｎ文字単位の類似文字
テーブルを参照することにより、検索精度に寄与する確
率の低い文字列を展開の対象から除外する。これにより
検索文字列が長い場合にも高速な検索を実現している。
しかし、本方法では文書検索時に指定した検索文字列が
短い場合、認識誤りする可能性のある語に展開して検索
することで所望しない結果（以下、検索ノイズとする）
が増えてしまう。例えば、検索文字列が“犬”の場合、
この検索文字列を展開することで「“犬”or“尤”or
“大”or“太”…」の論理和集合で検索すると、“大”
や“太”などのような別の意味を持つ展開語を含む文書
もまた検索結果となる。そのため、検索ノイズが多くな
り検索精度が劣化する。

【００４４】第二の実施例では、第一の実施例に加え
て、入力された検索文字列の長さで展開するか否かを判
定し、展開方法を切り替えるステップを備えることで、
検索文字列が短い場合では検索ノイズを低減するという
効果が得られる。

【００４５】図１１は、本実施例を説明する構成図であ
る。本実施例と第一の実施例は基本的には同様である
が、異なる点は展開制御プログラム２０６に新たに展開
方法切り替えプログラム３００が追加された構成とな
る。

【００４６】文書の登録方法は第一の実施例と同様であ
るので省略し、検索方法について図１２を用いて説明す
る。

【００４７】検索の際は、検索条件式がキーボード１０
１から入力されると、システム制御プログラム２０１に
より展開制御プログラム２０６が起動される（ステップ
３０００）。次に展開制御プログラム２０６は最初に展
開方法を切り替えプログラム３００を起動して、入力さ
れた検索文字列の長さを取得する（ステップ３００
１）。そして、取得した長さを判定（ステップ３００
２）し、所定の長さを超えなければ展開しないものとし
て入力された検索条件式を維持したまま（ステップ３０
０５）に進み、所定の長さを超えれば（ステップ３００
３）に進む。展開制御プログラム２０６は展開語生成プ
ログラム２０７を起動して、入力された検索文字列に対
して複数の展開語を生成しワークエリア２１６に出力す
る（ステップ３００３）。次に展開制御プログラム２０
６は検索条件式生成プログラム２１１を起動し、ワーク
エリア２１６に読み込まれている展開語の論理和（Ｏ
Ｒ）集合となる検索条件式に拡張してシステム制御プロ
グラム２０１に出力する（ステップ３００４）。次にシ
ステム制御プログラム２０１は検索制御プログラム２１
３を起動し、元の検索条件式または出力された検索条件
式を入力する。そして、本制御プログラムの下で検索条
件解析プログラム２１２、テキストサーチプログラム２
１４が順次起動し、検索条件式に従いテキストサーチを
行う（ステップ３００５）。最後に検索結果をシステム
制御プログラム２０１に出力する（ステップ３００
６）。以上、本文書検索システムにおける検索処理の説
明である。

【００４８】上記で説明した検索方法について、検索文
字列として“犬”を用いた場合を例に具体的に説明す
る。この例では、検索文字列の展開判定の所定値を１と
する。

【００４９】検索文字列“犬”が入力されると、まず検
索文字列の長さ１が取得される。次に展開判定におい
て、取得した検索文字列の長さが所定値以下なので、展
開語生成の処理を行わない。そのため、入力された検索
文字列“犬”による検索を行う。このように短い検索文
字列では、展開しないことで従来の技術のように別の意
味の文字列を含む文書が結果とならないので検索ノイズ
を減らすことが可能となる。

【００５０】また、本実施例では展開判定の所定値を予
め設定するだけではなく、検索時に自由に調整すること
が可能である。さらに、漢字のような表意文字は1文
字、英字などの表音文字は2文字のように文字種で切り
替える構成も可能である。

【００５１】以上、第二の実施例を説明した。本実施例
によれば、ＯＣＲによる認識誤りを許容した検索におい
て、検索文字列長が短い場合には検索ノイズが増加しな
い高精度な検索が可能となる。

【００５２】次に、本発明の第三の実施例について説明
する。

【００５３】第三の実施例では、第一の実施例に加えて
さらに類似文字テーブルの見出し文字を全文字コードの
組合せから一部分を抽出して作成することにより、類似
文字テーブルのファイル容量を低減できるという効果が
ある。

【００５４】すなわち、第一の実施例では、類似文字テ
ーブルの見出し文字を全文字コードの組合せた学習デー
タから作成している。この場合、日本語の全文字コード
を約８，０００種とし、１個の見出し文字について１０
個の候補文字を格納するケースを想定すると２文字単位
類似文字テーブルの容量は以下の通りになる。

【００５５】（全文字コードの組合せ）×4［バイト］
（２文字なので）×１０個＝８，０００×８，０００×
4×１０＝２．５６Ｇ［バイト］第三の実施例では、検索文字列として使用される確率の
高い主要な文字列のみを２文字単位類似文字テーブルに
格納することにより、類似文字テーブルの少容量化を実
現しようとするものである。

【００５６】本実施例と第一の実施例は基本的には同様
であるが、異なる点は、類似文字テーブル１０９におい
て、第一の実施例ではｎ文字単位（ｎ≧２）の候補文字
を全文字コードの組合せで作成していたが、本実施例で
は検索文字列に使われる主要な文字の組合せに対しての
み作成している。そのため、類似文字テーブルにない見
出し文字が存在するので、例外処理が類似文字テーブル
参照プログラム２０９に追加されている。なお、本実施
例の主要な組合せとしては、第一水準文字の組合せによ
るものを想定している。

【００５７】以下、本実施例の類似文字テーブルを用い
た際の展開処理の手順、すなわち展開語生成プログラム
２０７の新たな処理手順について図１３を用いて説明す
る。

【００５８】展開語生成プログラム２０７では、検索用
文字列分割プログラム２０８を起動し、入力された検索
文字列を所定のｎ文字単位（ｎ≧２）の部分文字列に分
割する（ステップ３０００）。次に、類似文字テーブル
参照プログラム２０９を実行して、まず対象となる部分
文字列が類似文字テーブル１０９の見出し文字に有るか
否か走査する（ステップ３００１）。見出し文字がある
か判定（ステップ３００２）し、見出し文字がある場合
は、候補文字を参照しワークエリア２１６に格納する
（ステップ３００３）。見出し文字がない場合は、部分
文字列そのものをワークエリア２１６に格納する（ステ
ップ３００４）。最後に、検索文字列展開プログラム２
１０を実行して、ワークエリア２１６から各部分文字列
の候補文字または部分文字列を読み出して、それぞれを
組合せることで複数の展開語を生成する（ステップ３０
０５）。以上、本文書検索システムにおける展開処理の
手順の説明である。

【００５９】次に本実施例で用いている主要な組合せ文
字における類似文字テーブルのファイル容量について示
す。第一水準文字の数を約３，０００種とし、１個の見
出し文字について１０個の候補文字を保持させると、類
似文字テーブルのファイル容量は、（第一水準文字の組
合せ）×4［バイト］（２文字なので）×１０個＝３，
０００×３，０００×4×１０＝３６０Ｍ［バイト］の
容量となる。すなわち、実施例１と比較して類似文字テ
ーブルのファイル容量が約１／７で済むことになる。

【００６０】また、本実施例では第一水準文字の組合せ
によるものだけではなく、新聞記事や各種文献などのコ
ーパスに存在する文字の組合せを抽出し、言語として連
接する文字の組合せをさらに絞り込むことが可能であ
る。

【００６１】以上、第三の実施例を説明した。本実施例
によれば、ＯＣＲによる認識誤りを許容した検索文字列
で用いる類似文字テーブルの見出し文字において検索に
使われる主要な文字の組合せに絞り込むことで、類似文
字テーブルのファイル容量を大幅に削減することが可能
となる。

【００６２】なお、第三の実施例では、検索文字列に対
してｎ文字単位の類似文字テーブルを参照する際に、ｎ
文字単位類似文字テーブルに記載されていない文字列に
ついては候補文字列展開の対象として組入れない方法に
ついて記載をしている。しかし、主要な文字列を対象と
して作成したｎ文字単位の類似文字テーブルと併用する
形でｍ文字単位（ｍ＜ｎ）の類字文字テーブルを予め作
成しておき、ｎ文字単位の類似文字テーブルに記載され
ていない文字列については、ｍ文字単位の類似文字テー
ブルを参照することにより展開語を生成する構成を採る
ことも可能である。

【００６３】次に、本発明の第四の実施例について説明
する。

【００６４】第一の実施例から第三の実施例では展開処
理と検索処理を独立とする構成であったが、第四の実施
例では展開処理を検索処理の中に組込んだ構成に拡張し
たものである。図１４は、本実施例を説明する構成図で
ある。これまでの実施例と異なり、検索の際には検索制
御プログラム２１２で展開処理も含めて制御する。ま
た、検索処理内部で検索文字列の展開を行っているた
め、新たに検索条件式を生成する検索条件式生成プログ
ラム２１１を必要としない。

【００６５】

【発明の効果】以上のように本発明によれば、イメージ
文書をＯＣＲで文字認識した際に発生する認識誤りを含
んだテキストデータを対象とした検索において、出現確
率の低いｎ文字単位の候補文字を排除した類似文字テー
ブルから生成される展開語による検索を行い展開語数を
低減することで、高い検索精度でありながら実用的な検
索時間での検索を実現することが可能となる。

【図面の簡単な説明】

【図１】第一の実施例の文書検索システムの構成図であ
る。

【図２】従来の技術による検索方法のフローチャートで
ある。

【図３】本発明による検索方法のフローチャートであ
る。

【図４】第一の実施例における類似文字テーブル作成の
概要図である。

【図５】第一の実施例における類似文字テーブル作成の
処理手順のフローチャートである。

【図６】第一の実施例における類似文字テーブルの一例
である。

【図７】第一の実施例における文書登録の処理手順のフ
ローチャートである。

【図８】第一の実施例における検索の処理手順のフロー
チャートである。

【図９】第一の実施例における展開語生成の処理手順の
フローチャートである。

【図１０】第一の実施例における文書表示の処理手順の
フローチャートである。

【図１１】第二の実施例の文書検索システムの構成図で
ある。

【図１２】第二の実施例における検索の処理手順のフロ
ーチャートである。

【図１３】第三の実施例における展開語生成制御の処理
手順のフローチャートである。

【図１４】第四の実施例の文書検索システムの構成図で
ある。

【図１５】第一の実施例における類似文字テーブル作成
の概要図である。

【図１６】第一の実施例における類似文字テーブルの一
例である。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…
中央演算装置ＣＰＵ、１０３…スキャナ、１０４…磁気
ディスク、１０５…バス、１０８…各種プログラム、１
０９…類似文字テーブル、２００…主メモリ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者小泉直弘東京都大田区大森北三丁目２番16号株式会社日立システムアンドサービス内 (72)発明者高取壽東京都大田区大森北三丁目２番16号株式会社日立システムアンドサービス内Ｆターム(参考） 5B075 ND07 NK31 NK35 NK54 PP25 PQ02 QM06 UU06

Claims

【特許請求の範囲】

【請求項１】イメージ文書を対象とした文字認識処理を
実行した結果出力されるテキストによる文書を対象とし
て、検索者が指定した検索文字列を含む文書を検索する
システムにおいて、前記検索文字列を所定のｎ文字単位
の部分文字列（ｎ≧２）に分割する検索用文字列分割ス
テップと、前記ｎ文字単位の部分文字列（ｎ≧２）に対
して、誤認識される可能性の高い文字形状の類似した類
似文字列を格納することにより予め作成したｎ文字単位
の類似文字テーブルを参照する類似文字テーブル参照ス
テップと、前記検索文字列を構成する部分文字列に対し
てｎ文字単位類似文字テーブルを参照することにより抽
出し類似文字列群を組合せて展開語を生成する検索文字
列展開ステップを有することを特徴とする検索文字列の
展開方法。
【請求項２】請求項１記載の検索文字列の展開方法にに
おいて、字単位類似文字テーブルの見出し文字は、ｎ文
字の組合せにより構成される部分文字列群のうちの一部
分の組合せのみを格納したことを特徴とする検索文字列
の展開方法。
【請求項３】請求項２記載の検索文字列の展開方法にお
いて、前記検索タームを構成する部分文字列が前記ｎ文
字単位類似文字テーブル中に存在しなかった場合には、
該当の部分文字列に対して類似文字列の抽出を行わない
ことを特徴とする検索文字列の展開方法。
【請求項４】請求項２記載の検索文字列の展開方法にお
いて、前記検索タームを構成する部分文字列が前記ｎ文
字単位類似文字テーブル中に存在しなかった場合には、
予めｍ文字単位（ｍ＜ｎ）について誤認識される可能性
の高い文字形状の類似した類似文字を格納したｍ文字単
位類似文字テーブルを参照して、展開語を生成すること
を特徴とする検索文字列の展開方法。
【請求項５】請求項１記載の検索文字列の展開方法にお
いて、前記検索文字列に対して文字列長を算出し、前記
検索文字列長に応じて展開語の生成方法を切り替える展
開方法切り替えステップを有することを特徴とする検索
文字列の展開方法。
【請求項６】イメージ文書を対象とした文字認識処理を
実行した結果出力されるテキストによる文書を対象とし
て、検索者が指定した検索文字列を含む文書を検索する
システムにおいて、前記検索文字列に対して検索文字列
長を算出し、前記検索文字列長に応じて展開の方法を切
り替える展開方法切り替えるステップを有することを特
徴とする検索文字列の展開方法。
【請求項７】請求項５記載の検索文字列の展開方法にお
いて、前記検索文字列長に応じて生成する前記展開文字
列の数を調整することを特徴とする検索文字列の展開方
法。
【請求項８】請求項６記載の検索文字列の展開方法にお
いて、前記ターム長に応じて展開語を生成する、しない
を選択することを特徴とする検索文字列の展開方法。
【請求項９】請求項８記載の検索文字列の展開方法にお
いて、前記展開方法を切り替えるための設定情報を有す
ることを特徴とする検索文字列の展開方法。
【請求項１０】請求項９記載の検索文字列の展開方法に
おいて、得られた検索文字列を、それらの論理和の条件
として検索を実行するテキストサーチステップを有する
ことを特徴とする文書情報の検索方法。