JP2002189747A - 文書情報の検索方法 - Google Patents

文書情報の検索方法

Info

Publication number
JP2002189747A
JP2002189747A JP2000389956A JP2000389956A JP2002189747A JP 2002189747 A JP2002189747 A JP 2002189747A JP 2000389956 A JP2000389956 A JP 2000389956A JP 2000389956 A JP2000389956 A JP 2000389956A JP 2002189747 A JP2002189747 A JP 2002189747A
Authority
JP
Japan
Prior art keywords
character
search
character string
similar
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000389956A
Other languages
English (en)
Inventor
Katsumi Tada
勝己 多田
Naohiro Koizumi
直弘 小泉
Hisashi Takatori
壽 高取
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Systems and Services Ltd
Original Assignee
Hitachi Ltd
Hitachi Systems and Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Systems and Services Ltd filed Critical Hitachi Ltd
Priority to JP2000389956A priority Critical patent/JP2002189747A/ja
Priority to US10/015,800 priority patent/US7010519B2/en
Publication of JP2002189747A publication Critical patent/JP2002189747A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

(57)【要約】 【課題】OCRによる認識誤りを含む文書データベース
を対象として、OCRの認識誤りよる検索漏れを抑止し
た高精度な検索を、比較的文字列長が長い検索タームが
入力された場合にも実用的な時間で実現することを可能
とする。 【解決手段】イメージ文書を対象とした文字認識処理を
実行した結果出力されるテキストによる文書を対象とし
て、検索者が指定した検索文字列を含む文書を検索する
システムにおいて、前記検索文字列を所定のn文字単位
の部分文字列(n≧2)に分割する検索用文字列分割ス
テップと、前記n文字単位の部分文字列(n≧2)に対
して、誤認識される可能性の高い文字形状の類似した類
似文字列を格納することにより予め作成したn文字単位
の類似文字テーブルを参照する類似文字テーブル参照ス
テップと、前記検索文字列を構成する部分文字列に対し
てn文字単位類似文字テーブルを参照することにより抽
出し類似文字列群を組合せて展開語を生成する検索文字
列展開ステップを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、紙の文書を電子化
して保管・管理するシステムにおける文書情報の検索方
法に関するものである。
【0002】
【従来の技術】情報化社会の本格的な進展に伴い、文書
を紙のままファイルして保管・管理していた従来の文書
管理方法に変わり、文書を電子化して保管・管理する文
書管理システムによる管理方法が普及してきた。当初
は、紙の形態の文書をスキャナで取り込みイメージデー
タを生成し、そのイメージデータに対して「作成者」や
「日付」、「キーワード」等の書誌情報を関連づけて登
録し、検索のときには書誌情報を検索の対象とすること
で所望する文書を検索していた。しかし、書誌情報を用
いた検索だけでは所望する文書を見つけ出すことが困難
であり、また本文テキストを対象とする全文検索技術が
実用化されていることから、イメージ文書の世界にも全
文検索を行う機能を有する文書管理システムが普及して
きた。
【0003】この文書管理システムでは、まず紙の形態
の文書をスキャナで取り込みイメージデータとして蓄積
し、更にイメージデータから文字認識して得られたテキ
ストデータを併せて蓄積しておく。そして、検索時には
テキストデータを対象とした全文検索を行い、結果表示
の際には指定したテキストデータまたは、それに対応す
るイメージデータを表示するシステムである。全文検索
では基本的に誤りがないテキストデータを対象とするの
が前提であるが、検索対象のテキストデータはイメージ
データからOCR(光学的文字認識装置)による文字認
識により生成されているため、認識誤りを含んだテキス
トデータとなる可能性がある。そのため、正しく文字認
識されていれば本来ヒットすべきテキストデータが、認
識誤りを含むことでヒットせずに検索漏れとなる場合が
ある。
【0004】この検索漏れの発生の問題を解決するため
に、従来からOCRによる認識誤りのあるテキストデー
タは人手により校正を行っていた。すなわち、文書登録
の際にOCR出力のテキストデータに対して、元の文書
と比較して誤っている箇所を見つけだし人手によりテキ
ストデータを修正することで登録文書の認識誤りを解消
し、文書検索を可能とするものである。しかし、上記の
方法では人手による修正作業であるために、ユーザの負
担が大きく文書登録に要する手間と時間がかかるという
問題があった。
【0005】この問題点を解決する技術として特開平4
−158478号公報では、検索対象の曖昧さをある程
度許容して検索を行う方法が開示されている。上記従来
技術では、文書登録の時にOCR出力によるテキストデ
ータには修正を加えず、そのまま文書登録を行う。つま
り、誤りを含んだテキストのまま文書登録を行うことで
人手による修正作業を必要とせずに検索時に工夫がなさ
れていることに特徴がある。
【0006】以下、従来技術の認識誤りを許容した検索
方法について、図2に示すフローチャートに従い説明す
る。この方法では、OCRが認識誤りする可能性のある
文字形状の類似した候補文字(以下、候補文字とする)
を予め1文字単位の類似文字テーブルに列挙しておく。
まず、検索者は探したい文書に含まれている検索文字列
を入力する(ステップ1000)。次に入力された検索
文字列を1文字毎に分割し(ステップ1001)、分割
された各文字に対して上記1文字単位の類似文字テーブ
ルから候補文字を参照し(ステップ1002)、参照し
た各文字の候補文字を組合せて複数の文字列(以下、展
開語とする)に展開する(ステップ1003)。次にそ
れらの展開語のいずれかと一致する文書を探すために展
開語の論理和(OR)集合による全文検索を行い(ステ
ップ1004)、その検索結果を取得する(ステップ1
005)。このように認識誤りする可能性のある展開語
も含めて検索を行うことで、OCRによる認識誤りが生
じても検索漏れとならずに検索を可能とするものであ
る。
【0007】
【発明が解決しようとする課題】しかしながら、上記従
来の技術では以下に示す問題がある。
【0008】文書検索時に指定した検索文字列が長い場
合は、認識誤りする可能性のある展開語の数が爆発的に
増加し、それに伴い検索に要する時間が長くなるという
ことである。
【0009】例えば、検索文字列が“日本文化”の4文
字の場合、各文字の候補文字が(日、目、白、曰、臼)
(本、木、不、天、末)(文、丈、女、攵、大)(化、
仕、牝、比、北)のように各々5つずつと仮定すると、
生成される展開語はすべての文字を組合せることで、5
×5×5×5=5=625通りとなる。
【0010】同様に、検索文字列が“lock”の4文
字の場合、各文字の候補文字が(l、I、!、1、i)
(o、O、0、Q、6)(c、C、G、e、q)(k、
K、h、b、R)のように各々5つずつと仮定すると、
生成される展開語はすべての文字を組合せることで、5
×5×5×5=5=625通りとなる。
【0011】さらに検索文字列長が長くなり、8文字の
場合では展開語数が5=390,625通りにもな
り、検索文字列が長くなるにつれて展開語数が大きく増
加することは明らかである。そして、検索処理では展開
語の論理和(OR)集合による全文検索のため、展開語
数の増加は検索時間の増加となる。そのため、検索文字
列が長くなるに伴い検索に要する時間が長大化する。
【0012】上記従来の技術の問題点に対して、本発明
の解決しようとする課題は検索文字列が長くても、検索
漏れの発生を低減しつつ実用的な検索時間での検索を可
能とするOCR認識誤りを許容した文書情報の検索方法
を実現することである。
【0013】
【課題を解決するための手段】上記の課題を、本発明で
は以下の処理から構成される文書情報の検索方法により
解決する。図3のフローチャートに従い説明する。
【0014】本発明による文書検索方法では、n文字単
位(n≧2)の部分文字列に対しOCRが認識誤りする
可能性のある候補文字を、予めn文字単位類似文字テー
ブルに列挙しておく。
【0015】まず、検索者は探したい文書に含まれてい
る検索文字列を入力する(ステップ1500)。入力さ
れた検索文字列を所定のn文字単位(n≧2)の部分文
字列に分割する検索用文字列分割ステップ(ステップ1
501)と、分割された各部分文字列に対し前記n文字
単位類似文字テーブルを参照し、検索精度向上に寄与す
る可能性の高い候補文字列を抽出するn文字単位類似文
字テーブル参照ステップ(ステップ1502)と、参照
した各部分文字列の候補文字を組合せて展開語を生成す
る検索文字列展開ステップ(ステップ1503)と、そ
の展開語のいずれかを含む文書を探すための検索条件式
を生成する検索条件式生成ステップ(ステップ150
4)、検索条件式をテキストサーチプログラムへ入力す
る検索条件入力ステップ(ステップ1505)からなる
検索方法により実現する。
【0016】ここで、上記類似文字テーブルの候補文字
をn文字単位とすることにより、「1文字単位で誤認識
される可能性が低い候補文字を組合せた文字列は、検索
精度向上の観点で寄与する確率が低い」という特徴を利
用し、精度向上に寄与しないn文字単位の候補文字を排
除し候補数を削減している。
【0017】
【発明の実施の形態】以下、本発明を適用した第一の実
施例について図面を用いて説明する。まず、本発明を適
用した文書検索システムの構成図を図1に示す。この文
書検索システムは、ディスプレイ100、キーボード1
01、中央演算装置CPU102、スキャナ103、主
メモリ200、磁気ディスク104から構成される。ま
た、これらはバス105で接続されている。磁気ディス
ク104にはテキストデータ106、イメージデータ1
07、後述する各種プログラム108、類似文字テーブ
ル109が格納される。
【0018】主メモリ200には、システム制御プログ
ラム201、文書登録制御プログラム202、スキャナ
制御プログラム203、OCR制御プログラム204、
文書登録プログラム205、展開制御プログラム20
6、展開語生成プログラム207、検索条件式生成プロ
グラム211、検索制御プログラム212、検索条件式
解析プログラム213、テキストサーチプログラム21
4、表示プログラム215が磁気ディスク104から読
み出されて格納されるとともにワークエリア216が確
保される。
【0019】展開語生成プログラム207は検索用文字
列分割プログラム208、類似文字テーブル参照プログ
ラム209、検索文字列展開プログラム210から構成
されている。これらのプログラムはユーザのキーボード
101からの指示に応じてシステム制御プログラム20
1の制御の下で実行される。以上、本文書管理システム
の構成である。
【0020】次に類似文字テーブル109について説明
する。一般的にはn文字単位の候補文字を列挙している
が、本実施例ではn=2の場合を例にして説明する。
【0021】通常OCRは文字の形の特徴に基づいて文
字認識するので、常に確実な認識結果が得られるわけで
はなく確定文字の他にある程度可能性のある候補文字を
用意している。本類似文字テーブルは、展開に漏れのな
いように全文字コードを組合せた2文字の学習データを
用いてOCRが出力する候補文字を認識誤りする確率情
報(以下、出現確率とする)と共に収集することで実現
する。類似文字テーブル作成の概要を図4に示す。まず
全文字コードを組合せた2文字の学習データを印字した
紙文書をスキャナへ入力し、イメージデータを出力する
(ステップ1550)。次にイメージデータをOCRへ
入力し、候補文字とその出現確率を列挙した認識テキス
トデータを出力する(ステップ1551)。次に学習デ
ータの元テキストデータと前述の認識テキストデータを
類似文字テーブル作成プログラムに入力し類似文字テー
ブルを作成する(ステップ1552)。
【0022】次に類似文字テーブル作成プログラムの詳
細な処理手順を図5のフローチャートに示す。まず学習
データの元テキストデータを入力(ステップ1600)
し、見出し文字を1行ずつ読み出し類似文字テーブルに
追加する(ステップ1601)。次に認識テキストデー
タを入力(ステップ1602)し、各候補文字を出現確
率と共に1行ずつ抽出する(ステップ1603)。次に
各候補文字の出現確率が所定値を超える候補文字を類似
文字テーブルに追加(ステップ1604〜1606)し
ていくことで類似文字テーブルを生成する。このとき、
出現確率が所定の値を超える候補文字のみを抽出し類似
文字テーブルに列挙することで検索精度の向上に寄与し
ない候補文字を排除し、大幅に候補文字を削減してい
る。なお、上記の例における確率情報はOCR出力によ
る出現確率を用いているが、同様の学習データに対して
文字認識を複数回繰返して得られる学習結果による頻度
情報であっても構わない。図6は類似文字テーブルの一
例であり、縦の列が見出し文字(500)であり、横に
見出し文字に対する認識誤りする可能性のある候補文字
(501)を列挙している。
【0023】次に候補文字の単位をn文字とする効果に
ついて“日本”の場合を例にして説明する。従来技術で
は各文字の候補文字が認識誤りし易い順に列挙された
(日、目、白、曰、臼)(本、木、不、天、末)に対し
て、すべてを組合せた の5×5=25通りの展開語を生成し、それらの展開語
の論理和集合を検索条件として検索を行っている。しか
し、“臼末”のような第5候補文字と第5候補文字の組
合せの展開語が検索精度の向上に寄与する可能性は極め
て低いと考えられる。そこで「1文字単位での出現確率
が低い候補文字を組合せると、さらに出現確率が低下す
る」という特徴を利用することで、検索精度の向上に寄
与しない候補文字を排除することができる。実際に図6
のように“日本”に対しては、 の15通りの展開語で検索した場合と、すべてを組合せ
た25通りの展開語で検索した場合と比べて検索精度の
劣化はほとんど生じない。その理由を以下の例で説明す
る。
【0024】上記“日”と“本”の各々の第一候補文字
の出現確率を1/2、第二候補文字の出現確率を1/4、第三
候補文字の出現確率を1/8、第四候補文字の出現確率を1
/16、第五候補文字の出現確率を1/32、それ以降の候補
文字の出現確率を1/32と仮定する。そして、各々の候補
文字を組合せて累積した出現確率を算出すると、 “日本”1/4、 “目本”1/8、 “白本”1/16、 “曰
本”1/32、“臼本”1/64、“日木”1/8、 “目木”1/1
6、“白木”1/32、 “曰木”1/64、“臼木”1/128、
“日不”1/16、“目不”1/32、“白不”1/64、“曰不”
1/128“臼不”1/256、“日天”1/32、“目天”1/64、
“白天”1/128、“曰天”1/256、“臼天”1/512、“日
末”1/64、“目末”1/128、“白末”1/256、“曰末”1/
512、“臼末”1/1,024 となる。このうち本実施例に示す通り左上半分の文字列
を採用することにより、 1/4 + 1/8×2 + 1/16×3 + 1/32×4 + 1/64×5
= 57/64 ≒ 90% の確率で検索漏れを抑止することが可能となる。そのた
め、出現確率の小さな候補文字は対象から除外しても検
索精度への影響はほとんどない。
【0025】(l、I、!、1、i)(o、O、0、
Q、6)(c、C、G、e、q)(k、K、h、b、
R) また、“lo”の場合について図15を用いて説明する
と、従来技術では各文字の候補文字が認識誤りし易い順
に列挙された(l、I、!、1、i)(o、O、0、
Q、6)に対して、すべてを組合せた の5×5=25通りの展開語を生成し、それらの展開語
の論理和集合を検索条件として検索を行っている。しか
し、“i6”のような第5候補文字と第5候補文字の組
合せの展開語が検索精度の向上に寄与する可能性は極め
て低いと考えられる。そこで「1文字単位での出現確率
が低い候補文字を組合せると、さらに出現確率が低下す
る」という特徴を利用することで、検索精度の向上に寄
与しない候補文字を排除することができる。実際に図6
のように“lo”に対しては、 の15通りの展開語で検索した場合と、すべてを組合せ
た25通りの展開語で検索した場合と比べて検索精度の
劣化はほとんど生じない。その理由を以下の例で説明す
る。
【0026】上記“l”と“o”の各々の第一候補文字
の出現確率を1/2、第二候補文字の出現確率を1/4、第三
候補文字の出現確率を1/8、第四候補文字の出現確率を1
/16、第五候補文字の出現確率を1/32、それ以降の候補
文字の出現確率を1/32と仮定する。そして、各々の候補
文字を組合せて累積した出現確率を算出すると、 “lo”1/4、“Io”1/8、 “!o”1/16、 “1o”
1/32、 “io”1/64、“lO”1/8、“IO”1/16、
“!O”1/32、“1O”1/64、 “iO”1/128、“l
0”1/16、“I0”1/32、“!0”1/64、“10”1/12
8、“i0”1/256、“lQ”1/32、“IQ”1/64、“!
Q”1/128、“1Q”1/256、“iQ”1/512、“l6”1
/64、“I6”1/128、“!6”1/256、“16”1/512、
“i6”1/1,024 となる。このうち本実施例に示す通り左上半分の文字列
を採用することにより、 1/4 + 1/8×2 + 1/16×3 + 1/32×4 + 1/64
×5 = 57/64 ≒ 90% の確率で検索漏れを抑止することが可能となる。そのた
め、出現確率の小さな候補文字は対象から除外しても検
索精度への影響はほとんどない。
【0027】このようにして作成した類似文字テーブル
の例を図16に示す。
【0028】このようにn文字単位の文字列の出現確率
を基に候補文字を選択することで、出現確率の高い候補
文字に絞り込んだ類似文字テーブルとなり、検索精度向
上に寄与する候補文字数を少なくすることが可能とな
る。以上、本類似文字テーブル109の説明である。
【0029】以下、本文書検索システムにおける登録処
理について図7を用いて説明する。
【0030】文書の登録の際は、まず登録する紙文書を
スキャナ103にセット(ステップ2000)し、キー
ボード101から入力されたコマンドを受け、システム
制御プログラム201は文書登録制御プログラム202
を起動する(ステップ2001)。この文書登録制御プ
ログラム202は、最初にスキャナ制御プログラム20
3を起動して、スキャナ103にセットしてある紙文書
からイメージデータを抽出し、ワークエリア216に出
力する(ステップ2002)。次に文書登録制御プログ
ラム202はOCR制御プログラム204を起動し、ワ
ークエリア216のイメージデータを入力として文字認
識を行い、テキストデータを抽出しワークエリア216
に出力する(ステップ2003)。最後に文書登録制御
プログラム202は文書登録プログラム205を起動
し、ワークエリア216に読み込まれているテキストデ
ータとイメージデータの識別子を関連付ける。テキスト
データから検索用のインデクスデータを作成する。そし
て、テキストデータはテキストデータ106として、イ
メージデータは画像データ107として、磁気ディスク
104へ格納する(ステップ2004)。なお、本実施
例は紙文書をスキャナからイメージデータを入力するだ
けでなく、通信回線を介してFAXなどから直接イメー
ジデータを入力する構成をとってもかまわない。以上、
本文書検索システムにおける登録処理の説明である。
【0031】以下、本文書検索システムにおける検索処
理について図8を用いて説明する。
【0032】検索の際は、検索条件式がキーボード10
1から入力されると、システム制御プログラム201に
より展開制御プログラム206が起動される(ステップ
2010)。次に展開制御プログラム206は最初に展
開語生成プログラム207を起動して、入力された検索
文字列に対して複数の展開語を生成しワークエリア21
6に出力する(ステップ2011)。次に展開制御プロ
グラム206は検索条件式生成プログラム211を起動
し、ワークエリア216に読み込まれている展開語の論
理和(OR)集合となる検索条件式に拡張してシステム
制御プログラム201に出力する(ステップ201
2)。次にシステム制御プログラム201は検索制御プ
ログラム212を起動し、出力された検索条件式を入力
する。そして、本制御プログラムの下で検索条件解析プ
ログラム213、テキストサーチプログラム214が順
次起動され、検索条件式に従いテキストサーチを行う
(ステップ2013)。最後に検索結果をシステム制御
プログラム201に出力する(ステップ2014)。
【0033】次に、展開語生成プログラム207の詳細
な処理手順について図9を用いて説明する。展開語生成
プログラム207は、検索用文字列分割プログラム20
8を起動し、入力された検索文字列を所定のn文字単位
(n≧2)の部分文字列に分割する(ステップ202
0)。次に、類似文字テーブル参照プログラム209を
実行して、分割された各部分文字列ごとの候補文字を上
記で説明したn文字単位(n≧2)の類似文字テーブル
109より参照し、ワークエリア216に格納する(ス
テップ2021)。次に、検索文字列展開プログラム2
10を実行して、ワークエリア216から各部分文字列
の候補文字を読み出して、それぞれを組合せることで複
数の展開語を生成する(ステップ2022)。以上、本
文書検索システムにおける展開語生成プログラム207
の処理手順の説明である。
【0034】以上、本文書検索システムにおける検索処
理の説明である。
【0035】以下、本文書検索システムにおける文書表
示の処理について図10を用いて説明する。
【0036】検索結果の中からユーザが指定した文書を
表示する際は、ユーザが表示したい文書を指定する(ス
テップ2030)。すると、システム制御プログラム2
01が表示プログラム215を起動し、磁気ディスク1
04上のテキストデータ106を表示する(ステップ2
031)。このとき、イメージデータでの表示を指定さ
れたか否かを判定し(ステップ2032)、磁気ディス
ク104上の関連付けられたイメージデータ107を表
示する(ステップ2033)。
【0037】上記で説明した検索方法について、検索文
字列として“日本文化”を用いた場合を例に具体的に説
明する。この例では、2文字単位の展開とし“日本”と
“文化”の候補文字を図6の類似文字テーブルから参照
するものとする。
【0038】検索文字列“日本文化”が入力されると、
まず展開語生成の処理を行う。展開語生成では、まず検
索文字列“日本文化”を2文字単位の部分文字列“日
本”と“文化”に分割する。次に“日本”の候補文字を
類似文字テーブルから参照し、 (日本、目本、白本、曰本、臼本、日木、目木、白木、
曰木、日不、目不、白不、日天、目天、日末) をワークエリアに読み込む。同様に“文化”の候補文字
を (文化、丈化、女化、攵化、大化、文仕、丈仕、女仕、
攵仕、文牝、丈牝、女牝、文比、丈比、文北) をワークエリアに読み込む。次に各部分文字列の候補文
字を組合せることで、 “日本文化” “日本丈化” “日本女化” “日本攵化” “日本大化” … “日末文北” の展開語を生成する。最後に生成した展開語のいずれか
を含む文書を探す論理和(OR)条件「“日本文化”or
“日本丈化”or“日本女化”or“日本攵化”or“日本大
化”or・・・or“日末文北”」に従い検索を行うことで検
索漏れを低減した検索が可能となる。このように長い検
索文字列では、所定の長さの部分文字列単位で展開し、
出現確率が低い候補文字を排除した類似文字テーブルを
用いることで、従来の方法では5×5×5×5=625
通りの展開語による検索に対し、本発明では15×15
=225通りの展開語による検索となる。すなわち、出
現確率の高い候補文字に絞った類似文字テーブルに基づ
いて展開される展開語の数は、従来技術のようにすべて
の候補文字の組合せから生成される展開語の数に比べ
て、検索精度を維持したまま大幅に削減することが可能
である。このため大幅に検索時間を短縮することが可能
となる。
【0039】さらに、上記で説明した検索方法につい
て、検索文字列として“lock”を用いた場合を例に
具体的に説明する。この例では、2文字単位の展開とし
“lo”と“ck”の候補文字を図16の類似文字テー
ブルから参照するものとする。
【0040】検索文字列“lock”が入力されると、
まず展開語生成の処理を行う。展開語生成では、まず検
索文字列“lock”を2文字単位の部分文字列“l
o”と“ck”に分割する。次に“lo”の候補文字を
類似文字テーブルから参照し、 (lo、Io、!o、1o、io、lO、IO、!O、
1O、l0、I0、!0、lQ、IQ、l6) をワークエリアに読み込む。同様に“ck”の候補文字 (ck、Ck、Gk、ek、qk、cK、CK、GK、
eK、ch、Ch、GH、cb、Cb、cR) をワークエリアに読み込む。次に各部分文字列の候補文
字を組合せることで、 “lock” “loCk” “loGk” “loek” “loqk” … “l6cR” の展開語を生成する。最後に生成した展開語のいずれか
を含む文書を探す論理和(OR)条件「“lock”or
“loCk”or“loGk”or“loek”or“loq
k”or・・・or“l6cR”」に従い検索を行うことで検
索漏れを低減した検索が可能となる。このように長い検
索文字列では、所定の長さの部分文字列単位で展開し、
出現確率が低い候補文字を排除した類似文字テーブルを
用いることで、従来の方法では5×5×5×5=625
通りの展開語による検索に対し、本発明では15×15
=225通りの展開語による検索となる。すなわち、出
現確率の高い候補文字に絞った類似文字テーブルに基づ
いて展開される展開語の数は、従来技術のようにすべて
の候補文字の組合せから生成される展開語の数に比べ
て、検索精度を維持したまま大幅に削減することが可能
である。このため大幅に検索時間を短縮することが可能
となる。
【0041】以上、第一の実施例を説明した。本実施例
によれば、OCRによる認識誤りを許容した検索におい
て、検索漏れの発生を低減し、高い検索精度の検索を実
用的な検索時間で可能となる。
【0042】次に、本発明の第二の実施例について説明
する。
【0043】第一の実施例では、n文字単位の類似文字
テーブルを参照することにより、検索精度に寄与する確
率の低い文字列を展開の対象から除外する。これにより
検索文字列が長い場合にも高速な検索を実現している。
しかし、本方法では文書検索時に指定した検索文字列が
短い場合、認識誤りする可能性のある語に展開して検索
することで所望しない結果(以下、検索ノイズとする)
が増えてしまう。例えば、検索文字列が“犬”の場合、
この検索文字列を展開することで「“犬”or“尤”or
“大”or“太”…」の論理和集合で検索すると、“大”
や“太”などのような別の意味を持つ展開語を含む文書
もまた検索結果となる。そのため、検索ノイズが多くな
り検索精度が劣化する。
【0044】第二の実施例では、第一の実施例に加え
て、入力された検索文字列の長さで展開するか否かを判
定し、展開方法を切り替えるステップを備えることで、
検索文字列が短い場合では検索ノイズを低減するという
効果が得られる。
【0045】図11は、本実施例を説明する構成図であ
る。本実施例と第一の実施例は基本的には同様である
が、異なる点は展開制御プログラム206に新たに展開
方法切り替えプログラム300が追加された構成とな
る。
【0046】文書の登録方法は第一の実施例と同様であ
るので省略し、検索方法について図12を用いて説明す
る。
【0047】検索の際は、検索条件式がキーボード10
1から入力されると、システム制御プログラム201に
より展開制御プログラム206が起動される(ステップ
3000)。次に展開制御プログラム206は最初に展
開方法を切り替えプログラム300を起動して、入力さ
れた検索文字列の長さを取得する(ステップ300
1)。そして、取得した長さを判定(ステップ300
2)し、所定の長さを超えなければ展開しないものとし
て入力された検索条件式を維持したまま(ステップ30
05)に進み、所定の長さを超えれば(ステップ300
3)に進む。展開制御プログラム206は展開語生成プ
ログラム207を起動して、入力された検索文字列に対
して複数の展開語を生成しワークエリア216に出力す
る(ステップ3003)。次に展開制御プログラム20
6は検索条件式生成プログラム211を起動し、ワーク
エリア216に読み込まれている展開語の論理和(O
R)集合となる検索条件式に拡張してシステム制御プロ
グラム201に出力する(ステップ3004)。次にシ
ステム制御プログラム201は検索制御プログラム21
3を起動し、元の検索条件式または出力された検索条件
式を入力する。そして、本制御プログラムの下で検索条
件解析プログラム212、テキストサーチプログラム2
14が順次起動し、検索条件式に従いテキストサーチを
行う(ステップ3005)。最後に検索結果をシステム
制御プログラム201に出力する(ステップ300
6)。以上、本文書検索システムにおける検索処理の説
明である。
【0048】上記で説明した検索方法について、検索文
字列として“犬”を用いた場合を例に具体的に説明す
る。この例では、検索文字列の展開判定の所定値を1と
する。
【0049】検索文字列“犬”が入力されると、まず検
索文字列の長さ1が取得される。次に展開判定におい
て、取得した検索文字列の長さが所定値以下なので、展
開語生成の処理を行わない。そのため、入力された検索
文字列“犬”による検索を行う。このように短い検索文
字列では、展開しないことで従来の技術のように別の意
味の文字列を含む文書が結果とならないので検索ノイズ
を減らすことが可能となる。
【0050】また、本実施例では展開判定の所定値を予
め設定するだけではなく、検索時に自由に調整すること
が可能である。さらに、漢字のような表意文字は1文
字、英字などの表音文字は2文字のように文字種で切り
替える構成も可能である。
【0051】以上、第二の実施例を説明した。本実施例
によれば、OCRによる認識誤りを許容した検索におい
て、検索文字列長が短い場合には検索ノイズが増加しな
い高精度な検索が可能となる。
【0052】次に、本発明の第三の実施例について説明
する。
【0053】第三の実施例では、第一の実施例に加えて
さらに類似文字テーブルの見出し文字を全文字コードの
組合せから一部分を抽出して作成することにより、類似
文字テーブルのファイル容量を低減できるという効果が
ある。
【0054】すなわち、第一の実施例では、類似文字テ
ーブルの見出し文字を全文字コードの組合せた学習デー
タから作成している。この場合、日本語の全文字コード
を約8,000種とし、1個の見出し文字について10
個の候補文字を格納するケースを想定すると2文字単位
類似文字テーブルの容量は以下の通りになる。
【0055】(全文字コードの組合せ)×4[バイト]
(2文字なので)×10個=8,000×8,000×
4×10=2.56G[バイト] 第三の実施例では、検索文字列として使用される確率の
高い主要な文字列のみを2文字単位類似文字テーブルに
格納することにより、類似文字テーブルの少容量化を実
現しようとするものである。
【0056】本実施例と第一の実施例は基本的には同様
であるが、異なる点は、類似文字テーブル109におい
て、第一の実施例ではn文字単位(n≧2)の候補文字
を全文字コードの組合せで作成していたが、本実施例で
は検索文字列に使われる主要な文字の組合せに対しての
み作成している。そのため、類似文字テーブルにない見
出し文字が存在するので、例外処理が類似文字テーブル
参照プログラム209に追加されている。なお、本実施
例の主要な組合せとしては、第一水準文字の組合せによ
るものを想定している。
【0057】以下、本実施例の類似文字テーブルを用い
た際の展開処理の手順、すなわち展開語生成プログラム
207の新たな処理手順について図13を用いて説明す
る。
【0058】展開語生成プログラム207では、検索用
文字列分割プログラム208を起動し、入力された検索
文字列を所定のn文字単位(n≧2)の部分文字列に分
割する(ステップ3000)。次に、類似文字テーブル
参照プログラム209を実行して、まず対象となる部分
文字列が類似文字テーブル109の見出し文字に有るか
否か走査する(ステップ3001)。見出し文字がある
か判定(ステップ3002)し、見出し文字がある場合
は、候補文字を参照しワークエリア216に格納する
(ステップ3003)。見出し文字がない場合は、部分
文字列そのものをワークエリア216に格納する(ステ
ップ3004)。最後に、検索文字列展開プログラム2
10を実行して、ワークエリア216から各部分文字列
の候補文字または部分文字列を読み出して、それぞれを
組合せることで複数の展開語を生成する(ステップ30
05)。以上、本文書検索システムにおける展開処理の
手順の説明である。
【0059】次に本実施例で用いている主要な組合せ文
字における類似文字テーブルのファイル容量について示
す。第一水準文字の数を約3,000種とし、1個の見
出し文字について10個の候補文字を保持させると、類
似文字テーブルのファイル容量は、(第一水準文字の組
合せ)×4[バイト](2文字なので)×10個=3,
000×3,000×4×10=360M[バイト]の
容量となる。すなわち、実施例1と比較して類似文字テ
ーブルのファイル容量が約1/7で済むことになる。
【0060】また、本実施例では第一水準文字の組合せ
によるものだけではなく、新聞記事や各種文献などのコ
ーパスに存在する文字の組合せを抽出し、言語として連
接する文字の組合せをさらに絞り込むことが可能であ
る。
【0061】以上、第三の実施例を説明した。本実施例
によれば、OCRによる認識誤りを許容した検索文字列
で用いる類似文字テーブルの見出し文字において検索に
使われる主要な文字の組合せに絞り込むことで、類似文
字テーブルのファイル容量を大幅に削減することが可能
となる。
【0062】なお、第三の実施例では、検索文字列に対
してn文字単位の類似文字テーブルを参照する際に、n
文字単位類似文字テーブルに記載されていない文字列に
ついては候補文字列展開の対象として組入れない方法に
ついて記載をしている。しかし、主要な文字列を対象と
して作成したn文字単位の類似文字テーブルと併用する
形でm文字単位(m<n)の類字文字テーブルを予め作
成しておき、n文字単位の類似文字テーブルに記載され
ていない文字列については、m文字単位の類似文字テー
ブルを参照することにより展開語を生成する構成を採る
ことも可能である。
【0063】次に、本発明の第四の実施例について説明
する。
【0064】第一の実施例から第三の実施例では展開処
理と検索処理を独立とする構成であったが、第四の実施
例では展開処理を検索処理の中に組込んだ構成に拡張し
たものである。図14は、本実施例を説明する構成図で
ある。これまでの実施例と異なり、検索の際には検索制
御プログラム212で展開処理も含めて制御する。ま
た、検索処理内部で検索文字列の展開を行っているた
め、新たに検索条件式を生成する検索条件式生成プログ
ラム211を必要としない。
【0065】
【発明の効果】以上のように本発明によれば、イメージ
文書をOCRで文字認識した際に発生する認識誤りを含
んだテキストデータを対象とした検索において、出現確
率の低いn文字単位の候補文字を排除した類似文字テー
ブルから生成される展開語による検索を行い展開語数を
低減することで、高い検索精度でありながら実用的な検
索時間での検索を実現することが可能となる。
【図面の簡単な説明】
【図1】第一の実施例の文書検索システムの構成図であ
る。
【図2】従来の技術による検索方法のフローチャートで
ある。
【図3】本発明による検索方法のフローチャートであ
る。
【図4】第一の実施例における類似文字テーブル作成の
概要図である。
【図5】第一の実施例における類似文字テーブル作成の
処理手順のフローチャートである。
【図6】第一の実施例における類似文字テーブルの一例
である。
【図7】第一の実施例における文書登録の処理手順のフ
ローチャートである。
【図8】第一の実施例における検索の処理手順のフロー
チャートである。
【図9】第一の実施例における展開語生成の処理手順の
フローチャートである。
【図10】第一の実施例における文書表示の処理手順の
フローチャートである。
【図11】第二の実施例の文書検索システムの構成図で
ある。
【図12】第二の実施例における検索の処理手順のフロ
ーチャートである。
【図13】第三の実施例における展開語生成制御の処理
手順のフローチャートである。
【図14】第四の実施例の文書検索システムの構成図で
ある。
【図15】第一の実施例における類似文字テーブル作成
の概要図である。
【図16】第一の実施例における類似文字テーブルの一
例である。
【符号の説明】
100…ディスプレイ、101…キーボード、102…
中央演算装置CPU、103…スキャナ、104…磁気
ディスク、105…バス、108…各種プログラム、1
09…類似文字テーブル、200…主メモリ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小泉 直弘 東京都大田区大森北三丁目2番16号 株式 会社日立システムアンドサービス内 (72)発明者 高取 壽 東京都大田区大森北三丁目2番16号 株式 会社日立システムアンドサービス内 Fターム(参考) 5B075 ND07 NK31 NK35 NK54 PP25 PQ02 QM06 UU06

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】イメージ文書を対象とした文字認識処理を
    実行した結果出力されるテキストによる文書を対象とし
    て、検索者が指定した検索文字列を含む文書を検索する
    システムにおいて、前記検索文字列を所定のn文字単位
    の部分文字列(n≧2)に分割する検索用文字列分割ス
    テップと、前記n文字単位の部分文字列(n≧2)に対
    して、誤認識される可能性の高い文字形状の類似した類
    似文字列を格納することにより予め作成したn文字単位
    の類似文字テーブルを参照する類似文字テーブル参照ス
    テップと、前記検索文字列を構成する部分文字列に対し
    てn文字単位類似文字テーブルを参照することにより抽
    出し類似文字列群を組合せて展開語を生成する検索文字
    列展開ステップを有することを特徴とする検索文字列の
    展開方法。
  2. 【請求項2】請求項1記載の検索文字列の展開方法にに
    おいて、字単位類似文字テーブルの見出し文字は、n文
    字の組合せにより構成される部分文字列群のうちの一部
    分の組合せのみを格納したことを特徴とする検索文字列
    の展開方法。
  3. 【請求項3】請求項2記載の検索文字列の展開方法にお
    いて、前記検索タームを構成する部分文字列が前記n文
    字単位類似文字テーブル中に存在しなかった場合には、
    該当の部分文字列に対して類似文字列の抽出を行わない
    ことを特徴とする検索文字列の展開方法。
  4. 【請求項4】請求項2記載の検索文字列の展開方法にお
    いて、前記検索タームを構成する部分文字列が前記n文
    字単位類似文字テーブル中に存在しなかった場合には、
    予めm文字単位(m<n)について誤認識される可能性
    の高い文字形状の類似した類似文字を格納したm文字単
    位類似文字テーブルを参照して、展開語を生成すること
    を特徴とする検索文字列の展開方法。
  5. 【請求項5】請求項1記載の検索文字列の展開方法にお
    いて、前記検索文字列に対して文字列長を算出し、前記
    検索文字列長に応じて展開語の生成方法を切り替える展
    開方法切り替えステップを有することを特徴とする検索
    文字列の展開方法。
  6. 【請求項6】イメージ文書を対象とした文字認識処理を
    実行した結果出力されるテキストによる文書を対象とし
    て、検索者が指定した検索文字列を含む文書を検索する
    システムにおいて、前記検索文字列に対して検索文字列
    長を算出し、前記検索文字列長に応じて展開の方法を切
    り替える展開方法切り替えるステップを有することを特
    徴とする検索文字列の展開方法。
  7. 【請求項7】請求項5記載の検索文字列の展開方法にお
    いて、前記検索文字列長に応じて生成する前記展開文字
    列の数を調整することを特徴とする検索文字列の展開方
    法。
  8. 【請求項8】請求項6記載の検索文字列の展開方法にお
    いて、前記ターム長に応じて展開語を生成する、しない
    を選択することを特徴とする検索文字列の展開方法。
  9. 【請求項9】請求項8記載の検索文字列の展開方法にお
    いて、前記展開方法を切り替えるための設定情報を有す
    ることを特徴とする検索文字列の展開方法。
  10. 【請求項10】請求項9記載の検索文字列の展開方法に
    おいて、得られた検索文字列を、それらの論理和の条件
    として検索を実行するテキストサーチステップを有する
    ことを特徴とする文書情報の検索方法。
JP2000389956A 2000-12-19 2000-12-19 文書情報の検索方法 Pending JP2002189747A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000389956A JP2002189747A (ja) 2000-12-19 2000-12-19 文書情報の検索方法
US10/015,800 US7010519B2 (en) 2000-12-19 2001-12-17 Method and system for expanding document retrieval information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000389956A JP2002189747A (ja) 2000-12-19 2000-12-19 文書情報の検索方法

Publications (1)

Publication Number Publication Date
JP2002189747A true JP2002189747A (ja) 2002-07-05

Family

ID=18856407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000389956A Pending JP2002189747A (ja) 2000-12-19 2000-12-19 文書情報の検索方法

Country Status (2)

Country Link
US (1) US7010519B2 (ja)
JP (1) JP2002189747A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
US7047238B2 (en) 2002-02-21 2006-05-16 Hitachi, Ltd. Document retrieval method and document retrieval system
JP2006519445A (ja) * 2003-03-03 2006-08-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文字列検索の方法および設備
JP2009176274A (ja) * 2007-10-05 2009-08-06 Fujitsu Ltd 拡張検索の実施及び拡張検索結果の提供
JP2013145587A (ja) * 2013-03-22 2013-07-25 Olympus Imaging Corp 画像検索システム
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US6691103B1 (en) * 2002-04-02 2004-02-10 Keith A. Wozny Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
US7424510B2 (en) 2002-09-03 2008-09-09 X1 Technologies, Inc. Methods and systems for Web-based incremental searches
US8856093B2 (en) 2002-09-03 2014-10-07 William Gross Methods and systems for search indexing
JP4332356B2 (ja) * 2003-01-22 2009-09-16 キヤノン株式会社 情報検索装置及び方法並びに制御プログラム
JP4797380B2 (ja) * 2004-12-28 2011-10-19 コニカミノルタホールディングス株式会社 医療支援システム
JP5274259B2 (ja) * 2005-11-23 2013-08-28 ダン アンド ブラッドストリート インコーポレイテッド 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法
US20080267504A1 (en) * 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
KR101035744B1 (ko) * 2008-12-08 2011-05-20 삼성전자주식회사 카메라를 이용한 문자 인식 장치 및 방법
CN102402693B (zh) * 2010-09-09 2014-07-30 富士通株式会社 处理包含字符的图像的方法和设备
DE112011106041T5 (de) * 2011-12-27 2014-10-02 Mitsubishi Electric Corp. Suchvorrichtung
US8965971B2 (en) * 2011-12-30 2015-02-24 Verisign, Inc. Image, audio, and metadata inputs for name suggestion
US9063936B2 (en) 2011-12-30 2015-06-23 Verisign, Inc. Image, audio, and metadata inputs for keyword resource navigation links
US9659058B2 (en) 2013-03-22 2017-05-23 X1 Discovery, Inc. Methods and systems for federation of results from search indexing
US9880983B2 (en) 2013-06-04 2018-01-30 X1 Discovery, Inc. Methods and systems for uniquely identifying digital content for eDiscovery
JPWO2014196063A1 (ja) * 2013-06-06 2017-02-23 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
US10346550B1 (en) 2014-08-28 2019-07-09 X1 Discovery, Inc. Methods and systems for searching and indexing virtual environments
JP2020021273A (ja) * 2018-07-31 2020-02-06 京セラドキュメントソリューションズ株式会社 画像読取装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265242A (en) 1985-08-23 1993-11-23 Hiromichi Fujisawa Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
JPH0797373B2 (ja) 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
US5048113A (en) * 1989-02-23 1991-09-10 Ricoh Company, Ltd. Character recognition post-processing method
US5469354A (en) * 1989-06-14 1995-11-21 Hitachi, Ltd. Document data processing method and apparatus for document retrieval
JP2932667B2 (ja) 1990-10-22 1999-08-09 松下電器産業株式会社 情報の検索方法および情報蓄積装置
US5581460A (en) * 1990-11-06 1996-12-03 Kabushiki Kaisha Toshiba Medical diagnostic report forming apparatus capable of attaching image data on report
JP3210102B2 (ja) * 1992-11-17 2001-09-17 松下電器産業株式会社 電子化文書ファイリング装置及びファイリング文書検索方法
JP2758826B2 (ja) * 1994-03-02 1998-05-28 株式会社リコー 文書検索装置
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047238B2 (en) 2002-02-21 2006-05-16 Hitachi, Ltd. Document retrieval method and document retrieval system
JP2006519445A (ja) * 2003-03-03 2006-08-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文字列検索の方法および設備
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
JP4595415B2 (ja) * 2004-07-14 2010-12-08 日本電気株式会社 音声検索システムおよび方法ならびにプログラム
JP2009176274A (ja) * 2007-10-05 2009-08-06 Fujitsu Ltd 拡張検索の実施及び拡張検索結果の提供
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
JP5951105B2 (ja) * 2013-03-04 2016-07-13 三菱電機株式会社 検索装置
JP2013145587A (ja) * 2013-03-22 2013-07-25 Olympus Imaging Corp 画像検索システム

Also Published As

Publication number Publication date
US20020169763A1 (en) 2002-11-14
US7010519B2 (en) 2006-03-07

Similar Documents

Publication Publication Date Title
JP2002189747A (ja) 文書情報の検索方法
US6952691B2 (en) Method and system for searching a multi-lingual database
US7809744B2 (en) Method and system for approximate string matching
US6418403B2 (en) Translating apparatus, dictionary search apparatus, and translating method
US20050278292A1 (en) Spelling variation dictionary generation system
JPS6211932A (ja) 情報検索方法
JP2000231563A (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003242171A (ja) 文書の検索方法
CN105404677A (zh) 一种基于树形结构的检索方法
JP3497243B2 (ja) 文書検索方法及び装置
CN105426490A (zh) 一种基于树形结构的索引方法
JP2002342361A (ja) 情報検索装置
JP3727995B2 (ja) 文書処理方法及び装置
JPH07121547A (ja) 情報検索装置
JP2005158044A (ja) 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JPH1011431A (ja) 漢字検索装置および方法
JP2006209399A (ja) 文書検索装置および方法
JP3241854B2 (ja) 単語スペル自動補正装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
Šimon et al. Transliterated named entity recognition based on Chinese word sketch
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP2006106896A (ja) データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
JPH08263508A (ja) 文書検索方法
JPH0954781A (ja) 文書検索システム
JPH11203281A (ja) 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050307

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060512

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060512

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080919

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081118