JP2001236358A - 文書検索方法および装置 - Google Patents

文書検索方法および装置

Info

Publication number
JP2001236358A
JP2001236358A JP2000046633A JP2000046633A JP2001236358A JP 2001236358 A JP2001236358 A JP 2001236358A JP 2000046633 A JP2000046633 A JP 2000046633A JP 2000046633 A JP2000046633 A JP 2000046633A JP 2001236358 A JP2001236358 A JP 2001236358A
Authority
JP
Japan
Prior art keywords
document
character string
search
normalization
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000046633A
Other languages
English (en)
Inventor
Sakiko Honma
咲子 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000046633A priority Critical patent/JP2001236358A/ja
Publication of JP2001236358A publication Critical patent/JP2001236358A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 単語の接尾辞に多くの語形変化を伴う言語で
記述する文書の検索において、ユーザのニーズに応じて
検索精度と検索効率および再現率と適合率とのトレード
オフを有する検索を可能にする。 【解決手段】 文書DB27に記憶した文書データ27
aの索引のための文字列(索引語)とユーザが入力した
問い合わせテキストにおける検索のための文字列(検索
語)を抽出し、該抽出文字列に対し正規化処理の可否を
選択する文字列情報抽出処理手段26b,正規化を行う
場合に正規化可能部分を全て正規化した表記とする完全
正規化または未正規化部分を含む表記を許容する不完全
正規化のいずれかを行い、かつ、展開辞書26eに従っ
て該検索語を関連表記に展開する正規化処理手段26c
を設ける。さらに、ユーザは入力指示情報によって随時
前記正規化および前記展開を指定することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データベース
からユーザが所望する文書データを検索する文書検索方
法および装置に関するものであり、特に、たとえば英語
のように屈折形や派生形などの語尾変化を持つ言語によ
って記述された文書データの検索を効率よく柔軟に実施
する文献検索方法および装置に関する。
【0002】
【従来の技術】一般に、英語のように単語の区切りが明
確な言語によって記述された文書データを対象として全
文検索を行う場合、文書データの索引情報を登録する
際、すなわち索引登録時には、空白やピリオド、コンマ
など特定の区切り文字を境界として、各文書データを単
語単位の文字列に区切り、抽出した文字列(索引語)
を、出現した文書データの識別子および文書データ中に
おける出現位置などと共に索引情報として登録する。文
書データを検索する時には、ユーザがテキスト形式で入
力した問い合わせから、索引情報の登録の際と同様に問
い合わせテキストから単語文字列(検索語)を抽出し、
抽出された検索語から検索条件を作成し、索引情報を検
索して検索条件を満たす文書の識別子を同定し、同定さ
れた文書識別子に対応する文書データを文書データベー
ス(文書DB)から取り出して出力する。
【0003】しかし、例えば、英語のように単語の語形
変化を伴う言語、すなわち、原形または語幹に対する屈
折形(動詞の過去・過去分詞形や名詞の複数形など e.
g. explore/explored, explorer/explorers)や派生形
(動詞語幹に対する名詞形や形容詞形など e.g. explo
re/exploration/exploratory)などの変化形を持つ言語
によって記述された文書データを対象として全文検索を
行なう場合、検索語自体と一致する索引語が登録されて
いなく、検索語に対する原形や語幹(e.g.検索語explor
ersに対するexplorer)、または、検索語に対する変化
形(e.g.検索語exploreに対するexplored,exploratio
n)、さらには、検索語と原形や語幹が同一である変化
形(e.g.検索語explorationに対するexploratory)が索
引語となる文書データは検索できず、検索洩れを生じる
おそれがある。
【0004】このような検索洩れを防止するために、文
書データから抽出された索引語、および、問い合わせテ
キストから抽出された検索語の表記を、原形や語幹に統
一する正規化処理(すなわち、ステミング処理)が行われ
るのが一般的である。この正規化処理の従来技術として
は、Porter,M.F. "An algorithm for suffixstripping"
(Program,14(3),pp.130-37,1980)やLovins,J."Developm
ent of a stemming algorithm"(Mechanical Translatio
n and Computational Linguistics,11,pp.22-31,1968)
の処理がよく知られている。前者においては、正規化対
象である索引語および検索語の接尾辞や屈折語尾を、条
件を満たす限り、順次1つずつ削除していって、その単
語の原形を得る手法である。(e.g.legalization→lega
liz-ation→legal-ize→legal)。一方、後者において
は、正規化対象である索引語および検索語の接尾辞や屈
折語尾の連続パターンを規則化しておき、その最長一致
の部分を削除することにより、その単語の原形を得るも
のである(e.g.legalization→legal-ization→lega
l)。なお、屈折語尾は文法機能(数格の一致)を変え
るのみで、基本的に付加される原形の意味を変えないの
に対し、接尾辞は文法機能(品詞)を変える上に付加さ
れる語幹の意味を特殊化するという特徴を有している。
【0005】しかしながら、文書データから単語を抽出
してこれらの正規化処理を一義的に施して、その結果を
索引情報として登録してしまう場合、抽出した単語と索
引語との関連付けは固定されてしまう。この結果、原形
や語幹を同一とする語であっても意味的に関連している
かどうかは出現文書の種類や検索条件によって異なるに
もかかわらず、検索条件に応じた関連付けの変更が不可
能となるため、誤った関連付けにより検索ノイズを生じ
てしまう可能性がある。
【0006】かかる問題を解決する方法として、索引情
報の登録時すなわち索引登録時に正規化するのではな
く、検索時に検索語を関連表記に展開して検索するとい
う方法がある。これに関わる従来技術としては、特開平
7−65013号公報により開示されている手法があ
る。この手法では、同一意味を有しながら、表記が異な
る単語群からなる異表記辞書と同一の属性を持つ単語群
からなる類語辞書とを参照して検索語の展開を行ってい
る。
【0007】
【発明が解決しようとする課題】しかしながら、屈折形
や派生形のような語形変化を伴う言語において、これら
のすべての変化に対応する関連表記を異表記辞書や類語
辞書に登録しておき、検索時に、検索語のみに対して関
連表記への展開、すなわち、検索語展開を行なう場合、
これらの辞書に登録している関連表記が多数に及ぶた
め、検索語として、展開される語数が非常に多くなり、
検索効率を著しく下げる可能性がある。さらには、屈折
語尾や新語生成力の強い接尾辞による未知語が多数生じ
る可能性もある。
【0008】また、例えば、Croft, W.B. and Xu, J.
“Corpus-specific stemming using word form co-occu
rrence”(Proc. for the Fourth Annual Symposium on
Document Analysis and Information Retrieval, pp.1
47-159,1995)にあるように、文書データベースにおけ
る共起頻度などの統計情報を利用して、検索語の関連表
記として展開される語を削減する(統計的に関連性が低
い語は検索条件に加えない)手法が提案されている。こ
の手法を適用する際、例えば同一名詞の単数形と複数形
(e.g. explorer, explorers)などは同一語として出現
頻度を計算する方が、より有効な統計情報を得られる
が、索引語および検索語に対して全く正規化処理を行っ
ていない場合は、このような頻度計算は困難になってし
まう。したがって、過度な正規化による弊害は避けつつ
も、誤った関連付けが生じない程度には、索引語および
検索語の正規化処理を行なうことが望ましい。
【0009】また、一方、ユーザのニーズによっては文
書データの検索を全く異なる視点で行なう場合も存在す
る。たとえば、文書データベースに格納されている文書
データの中、厳密に意味的な関連付けがなされていなく
ても関連性がある可能性を有する文書データも含んで広
く検索したい場合もある。すなわち、この場合はノイズ
の発生は覚悟の上で適合率よりも再現率を重視する場合
であり、索引語および検索語の正規化を行なうことにな
る。すなわち、ユーザのニーズにより検索方法を選択可
能な柔軟性がある文書検索システムが望まれる。
【0010】本発明は、以上の問題を鑑みてなされたも
のであり、ユーザのニーズに応じて索引語および検索語
に関し正規化のレベルを指定できる方法と検索語の関連
表記への展開を指定できる方法とを具備することによ
り、検索精度と検索効率および再現率と適合率とのトレ
ードオフを実現することを目的とする。
【0011】
【課題を解決するための手段】請求項1の発明は、文書
データベースに記憶している文書データの中に含まれて
いる文字列もしくは前記文書データを検索するための問
い合わせテキストの中に含まれている文字列を所定の区
切り文字を境界として区切られた文字列として抽出する
方法と、前記抽出文字列に対して正規化処理を行なうか
否かを選択する方法と、正規化処理を行なう場合に正規
化可能な部分を全て正規化した表記とする完全正規化を
行なう方法と未正規化部分を含む表記を許容する不完全
正規化を行なう方法とを備えていることを特徴としたも
のである。
【0012】請求項2の発明は、請求項1の発明におい
て、抽出文字列の正規化方法として、前記不完全正規化
方法を選択している場合に、抽出文字列に関する前記未
正規化部分として、語幹に隣接する単一の接尾辞のみを
指定することを特徴としたものである。
【0013】請求項3の発明は、請求項1の発明におい
て、抽出文字列の正規化方法として、前記不完全正規化
方法を選択している場合に、抽出文字列に関する前記未
正規化部分として、正規化対象外の接尾辞を末尾とする
接尾辞連続を指定することを特徴としたものである。
【0014】請求項4の発明は、請求項1乃至請求項3
のいずれかの発明において、抽出文字列の正規化方法と
して、前記不完全正規化方法を選択している場合に、前
記検索のための問い合わせテキストから抽出した文字列
(以下、検索語と記す)を該文字列の関連表記に展開す
る方法を有することを特徴としたものである。
【0015】請求項5の発明は、請求項4の発明におい
て、前記関連表記に展開する方法に関し、関連表記への
展開データを登録する展開辞書の見出し語と完全一致す
る文字列に限らず、該見出し語と部分一致する文字列に
ついても関連表記に展開する方法を有することを特徴と
したものである。
【0016】請求項6の発明は、請求項4または請求項
5のいずれかの発明において、前記関連表記に展開する
方法に関し、関連表記として語幹同一の文字列に限ら
ず、前記見出し語と同一の意味を持つ同義語についても
展開する方法を有することを特徴としたものである。
【0017】請求項7の発明は、請求項1乃至請求項3
のいずれかの発明において、文書検索方法の種類を指定
するためにユーザが入力する指示情報(以下、入力指示
情報と記す)により、前記正規化処理を行なうか否かの
選択および正規化処理を行なう場合に前記完全正規化方
法と前記不完全正規化方法のいずれを行なうかの選択を
指定する方法および前記不完全正規化方法を選択する場
合に請求項2または/および請求項3のいずれに記載の
正規化方法を選択するかを指定する方法とを有すること
を特徴としたものである。
【0018】請求項8の発明は、請求項4の発明におい
て、前記入力指示情報により、前記関連表記への展開を
行なうか否かを指定する方法を有することを特徴とした
ものである。
【0019】請求項9の発明は、請求項5の発明におい
て、前記入力指示情報により、前記関連表記に展開する
方法に関し、前記見出し語と完全一致する文字列に限ら
ず、該見出し語と部分一致する文字列を関連表記に展開
するか否かを指定することができる方法を有することを
特徴とする文書検索方法。
【0020】請求項10の発明は、請求項6の発明にお
いて、前記入力指示情報により、前記関連表記に展開す
る方法に関し、関連表記として語幹同一の文字列に限ら
ず、前記同義語についても展開するか否かを指定するこ
とができる方法を有することを特徴としたものである。
【0021】請求項11の発明は、請求項1乃至請求項
10のいずれかの発明において、電子化した文書データ
に識別子を付して文書データベースに格納する文書格納
方法、前記文書格納方法によって格納された文書データ
からユーザが所望する文書データを検索するための問い
合わせテキストまたは前記入力指示情報を入力する問い
合わせ入力方法、前記文書格納方法によって格納された
文書データもしくは前記問い合わせ入力方法によって入
力されたテキストを所定の区切り文字を境界として区切
られた文字列を該文字列の出現位置情報などと共に抽出
する文字列情報抽出方法、前記文書格納方法によって格
納された文書データから、前記文字列情報抽出方法によ
り抽出された文字列(以下、索引語と記す)を該文書デ
ータの識別子と該文字列の出現位置情報とを対応付けて
索引情報格納部に記憶する索引登録方法、前記問い合わ
せ入力方法によって入力されたテキストから、前記文字
列情報抽出方法により抽出された前記検索語をもとに検
索処理ができる形式の検索条件を作成する検索条件作成
方法、前記索引登録方法によって記憶された索引情報格
納部を参照して前記検索条件作成方法により作成された
検索条件を満たす文書データを検索する検索処理方法、
および前記検索処理方法によって検索した結果を表示
し、さらに、必要に応じて前記文書格納方法によって格
納された文書データから前記検索処理方法により検索さ
れた文書データを取り出し、表示などの出力処理を行な
う出力処理方法とを有することを特徴としたものであ
る。
【0022】請求項12の発明は、前記文書データベー
スに記憶している前記文書データの中に含まれている文
字列もしくは前記文書データを検索するための問い合わ
せテキストの中に含まれている文字列を所定の区切り文
字を境界として区切られた文字列として抽出する手段
と、前記抽出文字列に対して正規化処理を行なうか否か
の選択手段と、正規化処理を行なう場合に正規化可能な
部分を全て正規化した表記とする完全正規化手段と未正
規化部分を含む表記を許容する不完全正規化手段とを備
えていることを特徴としたものである。
【0023】請求項13の発明は、請求項12の発明に
おいて、抽出文字列の正規化手段として、前記不完全正
規化手段を選択している場合に、抽出文字列に関する前
記未正規化部分として、語幹に隣接する単一の接尾辞の
みを指定することを特徴としたものである。
【0024】請求項14の発明は、請求項12の発明に
おいて、抽出文字列の正規化手段として、前記不完全正
規化手段を選択している場合に、抽出文字列に関する前
記未正規化部分として、正規化対象外の接尾辞を末尾と
する接尾辞連続を指定することを特徴としたものであ
る。
【0025】請求項15の発明は、請求項12乃至請求
項14のいずれかの発明において、抽出文字列の正規化
手段として、前記不完全正規化手段を選択している場合
に、前記検索語を該検索語の関連表記に展開する手段を
有することを特徴したものである。
【0026】請求項16の発明は、請求項15の発明に
おいて、前記関連表記に展開する手段に関し、前記展開
辞書の見出し語と完全一致する文字列に限らず、該見出
し語と部分一致する文字列についても関連表記に展開す
る手段を有することを特徴としたものである。
【0027】請求項17の発明は、請求項15または請
求項16のいずれかの発明において、前記関連表記に展
開する手段に関し、関連表記として語幹同一の文字列に
限らず、前記見出し語と同一の意味を持つ同義語につい
ても展開する手段を有することを特徴としたものであ
る。
【0028】請求項18の発明は、請求項12乃至請求
項14のいずれかの発明において、前記入力指示情報に
より、前記正規化処理を行なうか否かの選択および正規
化処理を行なう場合に前記完全正規化手段と前記不完全
正規化手段のいずれかの選択を指定する手段および前記
不完全正規化手段を選択する場合に請求項13または/
および請求項14のいずれに記載の正規化手段を選択す
るかを指定する手段とを有することを特徴としたもので
ある。
【0029】請求項19の発明は、請求項15の発明に
おいて、前記入力指示情報により、前記関連表記への展
開を行なうか否かを指定する手段を有することを特徴と
したものである。
【0030】請求項20の発明は、請求項16の発明に
おいて、前記入力指示情報により、前記関連表記に展開
する手段に関し、前記見出し語と完全一致する文字列に
限らず、該見出し語と部分一致する文字列を関連表記に
展開するか否かを指定することができる手段を有するこ
とを特徴としたものである。
【0031】請求項21の発明は、請求項17の発明に
おいて、前記入力指示情報により、前記関連表記に展開
する手段に関し、関連表記として語幹同一の文字列に限
らず、前記同義語についても展開するか否かを指定する
ことができる手段を有することを特徴としたものであ
る。
【0032】請求項22の発明は、請求項12乃至請求
項21のいずれかの発明において、電子化した文書デー
タに識別子を付して文書データベースに格納する文書格
納手段、前記文書格納手段によって格納された文書デー
タからユーザが所望する文書データを検索するための問
い合わせテキストまたは前記入力指示情報を入力する問
い合わせ入力手段、前記文書格納手段によって格納され
た文書データもしくは前記問い合わせ入力手段によって
入力されたテキストを所定の区切り文字を境界として区
切られた文字列を該文字列の出現位置情報などと共に抽
出する文字列情報抽出手段、前記文書格納手段によって
格納された文書データから、前記文字列情報抽出手段に
より抽出された前記索引語を該文書データの識別子と該
文字列の出現位置情報とを対応付けて索引情報格納部に
記憶する索引登録手段、前記問い合わせ入力手段によっ
て入力されたテキストから、前記文字列情報抽出手段に
より抽出された前記検索語をもとに検索処理ができる形
式の検索条件を作成する検索条件作成手段、前記索引登
録手段によって記憶された索引情報格納部を参照して前
記検索条件作成手段により作成された検索条件を満たす
文書データを検索する検索処理手段、および前記検索処
理手段によって検索した結果を表示し、さらに、必要に
応じて前記文書格納手段によって格納された文書データ
から前記検索処理手段により検索された文書データを取
り出し、表示などの出力処理を行なう出力処理手段とを
有することを特徴としたものである。
【0033】請求項23の発明は、前記文書データベー
スに記憶している前記文書データの中に含まれている文
字列もしくは前記文書データを検索するための問い合わ
せテキストの中に含まれている文字列を所定の区切り文
字を境界として区切られた文字列として抽出する方法
と、前記抽出文字列に対して正規化処理を行なうか否か
を選択する方法と、正規化処理を行なう場合に正規化可
能な部分を全て正規化した表記とする完全正規化を行な
う方法と未正規化部分を含む表記を許容する不完全正規
化を行なう方法とを備えている文書検索方法を、コンピ
ュータに実施させるためのプログラムとして記録したコ
ンピュータ読み取り可能な記録媒体である。
【0034】
【発明の実施の形態】以下に、添付図を用いて、本発明
の実施の一形態を説明する。ここで、図1は本発明の文
書検索方法を実現するハードウエア構成の例を、図2は
その機能構成を概略的に示すブロック図である。
【0035】図1に示すように、本文書検索方法を実現
するハードウエアはCPU(中央処理装置)1,メモリ
2,ハードディスク3,入力装置4,表示装置5,FD
D(フロッピーディスクドライブ)6およびCD−RO
Mドライブ7の各装置で構成され、それぞれの装置をバ
ス8によって相互接続している。メモリ2はROM(Re
ad Only Memory)やRAM(Random Access Memory)等
で構成し、本システムの各種処理機能を実現するプログ
ラム群などを格納している。ハードディスク3は文書デ
ータベースや展開辞書などを蓄積する。入力装置4はキ
ーボードやマウス等で構成し、ユーザが種々の指示を入
力する。表示装置5はCRT(Cathode Ray Tube)や液
晶ディスプレイ(LCD:Liquid Crystal Display)等
で構成し、ユーザに対し、種々の情報を出力する。ま
た、FDD6およびCD−ROMドライブ7は、フロッ
ピーディスク(FD)およびCD−ROMとの情報授受
を司どるもので、FDやCD−ROMには本文書検索方
法を実現する各種プログラムや辞書,文書データ等が格
納され、必要に応じてメモリ2およびハードディスク3
との間でその読み出しまたは書き込み(FDDのみ)を
行なう。
【0036】前記メモリ2に格納されている各種処理機
能はCPU1によってその実行が制御される。これらの
各種処理機能は、図2に示すように、以下の各処理部か
ら構成されている。入力処理部20は、ユーザからの入
力テキストを入力装置4から受け取り、適切な形に編集
する。テキスト処理部26はテキスト処理受付部26
a、文字列情報抽出処理部26b、正規化処理部26
c、正規化規則26dおよび展開辞書26eからなる。
テキスト処理受付部26aは、後述の索引登録処理部2
5もしくは検索条件作成部21からテキストの処理要求
を受け付け、文字列情報抽出処理部26bを用いて文書
DB(データベース)27にある文書データ27aもし
くは入力テキストに含まれている文字列情報を抽出す
る。さらに、必要に応じて、文字列情報抽出処理部26
bは正規化処理部26cを用いて正規化規則26dにし
たがって適切な正規化処理を行ったり、展開辞書26e
にしたがって関連表記への展開を行なう。索引登録処理
部25は、前記テキスト処理部26の処理結果を用い
て、文書DB27の文書データ27aに対応する索引情
報(すなわち、インデックス)を索引情報格納部28に
登録する。検索条件作成部21は、前記テキスト処理部
26の処理結果を用いて、入力テキストで指定されてい
る検索条件を作成する。検索処理部22は、前記検索条
件作成部21で作成された検索条件に基づいて、前記索
引登録処理部25で登録した索引語の検索を行なう。出
力処理部23は、前記検索処理部22における検索結果
および必要に応じて所望の文書データ27aの内容を表
示する。文字列情報抽出処理部26bは、前記テキスト
処理受付部26aが処理するテキストまたは文書データ
の中からスペースや句読点記号などの区切り文字を除去
し、有効な文字列を抽出して、前記テキスト処理受付部
26aへリターン情報として返送する。正規化処理部2
6cは、前記文字列情報抽出処理部26bが抽出した文
字列に対し、ユーザが指定する正規化処理パラメータに
応じて正規化規則26dを用いることにより正規化を行
なうとともに、さらに、関連表記への展開処理の指定が
ある場合は、展開辞書26eを用いて展開した結果を前
記文字列情報抽出処理部26bにリターン情報として返
送する。なお、完全正規化規則26d1および不完全正
規化規則26d2は本システム起動時に、あるいは文書
検索方法の種類を指定するためにユーザが入力する指示
情報(すなわち、入力指示情報のこと。以下、入力指示
情報と記す。)として、ユーザが指定した正規化処理パ
ラメータに応じて、ハードディスク3上の正規化規則2
6dの正規化データの一部をメモリ2上に読み込んだも
のである。文書格納部24は、電子化した文書データを
その識別子としての文書IDを付して、文書DB27に
格納する。
【0037】一方、前記ハードディスク3に蓄積されて
いる文書データベースや展開辞書などは、前記各種処理
部の実行に応じて、情報の読み書きが行われる。これら
は図2に示すように、以下のデータ類から構成される。
文書DB(データベース)27は、多数の文書をその文
書IDとともに文書データ27aとして格納している。
索引情報格納部28は各文書データ27aの索引情報
(インデックス)を登録している。正規化規則26d
は、前記正規化処理部26cで実施する正規化処理に用
いる規則を登録する。展開辞書26eは、前記正規化処
理部26cで実施する関連表記への展開処理に用いる辞
書である。
【0038】まず、図1,2を用いて索引情報を索引情
報格納部28に登録する索引登録処理の概略を示す。入
力処理部20は、入力装置4から入力された入力指示情
報である登録指示を索引登録処理部25に送る。索引登
録処理部25は、該登録指示に従って、文書DB27か
ら1文書ずつ文書データ27aを読み出し、読み出した
文書データをテキスト処理部26のテキスト処理受付部
26aに送る。テキスト処理受付部26aは、さらに、
文字列情報抽出処理部26bに送って、該文書データに
含まれる索引語(文字列)を該文書データ中の出現位置
情報と共に抽出し、その結果をテキスト処理受付部26
aを介して索引登録処理部25に返す。なお、文字列情
報抽出処理部26bは、システム起動時にまたは入力指
示情報としてユーザが指定した正規化処理のパラメータ
に応じて抽出した文字列を正規化処理部26cに送り、
正規化処理部26cは正規化処理パラメータの指定に従
ってハードディスク3の正規化規則26dからメモリ2
上に読み込まれている完全正規化規則26d1または不
完全正規化規則26d2に基づいて索引語の正規化処理
を行なう。最後に、索引登録処理部25は該文書データ
の索引語を文書IDおよびその出現位置情報ともに索引
情報として索引情報格納部28に登録する。
【0039】次に、文書データを検索する検索処理の概
略を示す。入力処理部20は、入力装置4から入力され
た検索の問い合わせテキストを検索条件作成部21に送
る。検索条件作成部21は、問い合わせテキストをテキ
スト処理部26のテキスト処理受付部26aに送る。テ
キスト処理受付部26aは、該問い合わせテキストを索
引登録時と同様に文字列情報抽出処理部26bに送っ
て、検索語(文字列)を抽出し、その結果を検索条件作
成部21に送る。なお、文字列情報抽出処理部26b
は、索引登録時にまたは入力指示情報としてユーザが指
定した正規化処理のパラメータに応じて、抽出した文字
列を正規化処理部26cに送る。正規化処理部26cは
ハードディスク3の正規化規則26dからメモリ2上に
読み込まれている完全正規化規則26d1または不完全
正規化規則26d2に基づいて検索語の正規化処理を行
なう。さらに、展開処理の指示があれば、展開辞書26
eに基づいて検索語の関連表記への展開を行ない、展開
表記を文字列情報抽出部26bさらにテキスト処理受付
部26aを介して検索条件作成部21に返送する。検索
条件作成部21は、検索語を論理演算式(AND,OR
等の論理演算子を用いた式)の形式に変換し、検索条件
として検索処理部22に送る。検索処理部22は、該検
索条件に従って索引情報格納部28に登録されている索
引情報(インデックス)を検索し、条件を満たすすべて
の文書データを特定する。出力処理部23では、検索処
理部22で特定された文書データの情報を表示装置5に
出力する。また、必要であれば、文書データベース27
から、文書データ27aを読み出し、表示装置5に出力
する。
【0040】次に、本実施例における文書検索システム
動作について、添付図に示すフローチャートを参照しな
がら説明する。まず、索引登録処理について図3,図4
に従って説明する。ここで、図3は索引登録処理部25
における索引情報の登録処理の流れを概略的に示すフロ
ーチャート、図4はテキスト処理部26の中にある文字
列情報抽出処理部26bにおける索引登録時の文字列情
報抽出処理の流れを概略的に示すフローチャートであ
る。
【0041】図3を参照して、索引情報の登録処理の流
れを追っていく。まず、ハードディスク3の文書DB2
7に格納された文書データ27aの中に、索引情報が未
作成の文書データ27aがあるか否かを判断する(S
1)。索引情報未作成の文書データ27aがない場合に
は(S1のNO)、既に、全ての検索対象の文書データ
27aの索引語が作成されているので、索引登録処理を
終了する。
【0042】一方、索引情報未作成の文書データ27a
がある場合には(S1のYES)、索引情報未作成の文
書データ27aを読み込み(S2)、文書DB27に格
納されている各文書データ27aをユニークに特定でき
る文書データの識別子すなわち文書IDを取得した後
(S3)、該文書データ27aをテキスト処理部26に
あるテキスト処理受付部26aを介して文字列情報抽出
処理部26bに送る(S4)。文字列情報抽出処理部2
6bからのリターン情報が終了指示であれば(S5のY
ES)、該文書データ27aの文字列情報の抽出処理は
終了したことを示すので、S1に戻って次の文書データ
について索引登録処理を繰り返す。一方、終了指示でな
ければ(S5のNO)、文字列情報抽出処理部26bか
らは抽出した索引語と出現位置などの索引情報(インデ
ックス)が返送されているので、この索引情報を索引情
報格納部28に登録した後(S6)、S4に戻って、さ
らに該文書データ27aについての文字列情報の抽出処
理を繰り返す。
【0043】また、索引語の抽出処理を行なう場合の文
字列情報抽出処理部26bにおける索引語の抽出処理の
流れを図4を参照しながら追っていく。まず、索引情報
の登録処理を行なう登録モードを指定しているかチェッ
クする(S10)。そうでなければ(S10のNO)、
文書データを検索するモードに限られるので検索モード
の処理を行なう。一方、登録モードが指定されていれば
(S10のYES)、文書データ内における場所を示す
出現位置をゼロに初期化し(S11)、さらに、セット
した出現位置に基づき文書データ内の文字列抽出用に開
始位置をセットする(S12)。文書データの末尾に達
していれば(S13のYES)、リターン情報として終
了指示を設定して(S14)、本処理を終了する。文書
データの末尾に達していない場合は(S13のNO)、
セットされている開始位置からスペースや句読点記号な
どの区切り文字を除いて索引語を抽出する(S15)。
次に、正規化処理選択部26b1において、システム起
動時にまたは入力指示情報としてユーザが指定した正規
化処理のパラメータをチェックする(S16)。本実施
例では、パラメータの値は、正規化非実施(0)/完全
正規化(1)/不完全正規化(2)のいずれかをとるも
のとする。これらのパラメータの意味については、後述
の正規化処理において説明する。パラメータの値が0で
ある場合は(S16のYES)、抽出した文字列そのも
のを索引語すなわち索引語表記とし、出現位置とともに
リターン情報として設定する(S17)。その後、出現
位置を1つ進めて(S18)、次の文字列情報を抽出す
るためにS12に戻って処理を繰り返す。パラメータの
値が0以外である場合は、抽出文字列を正規化処理部2
6cに送り、後述の正規化処理(S19)を施してから
S17に進み、正規化処理された文字列を索引語として
出現位置とともにリターン情報に設定する(S17)。
【0044】次に、検索処理について図5,図6に従っ
て説明する。ここで、図5は検索条件作成部21から出
力処理部23に至るまでの文書データの検索処理の流れ
を概略的に示すフローチャート、図6は文字列情報抽出
処理部26bにおける検索処理時の文字列情報抽出処理
の流れを概略的に示すフローチャートである。
【0045】図5を参照して文書データ検索処理の流れ
を追っていく。まず、入力装置4から入力された問い合
わせテキストを入力処理部20が受け取り、検索処理を
指定していれば、検索条件作成部21に送る(S2
0)。検索条件作成部21は、該問い合わせテキストを
テキスト処理部26のテキスト処理受付部26aを介し
て文字列情報抽出処理部26bに送る(S21)。文字
列情報抽出処理部26bから終了指示がリターン情報と
して返送されてこない場合(S22のNO)、抽出され
た文字列が返送されてきているので該文字列を検索語と
して記憶した後(S24)、さらに次の検索語を抽出す
るためにS21に戻って処理を繰り返す。一方、終了指
示が返された場合(S22のYES)、それまでに抽出
した検索語が複数個あるかチェックし、ある場合は(S
23のYES)、それらを論理演算子で結合した論理式
に変換し(S25)、検索語が1つである場合は(S2
3のNO)、1つの検索語すなわち検索語表記のままで
検索条件を作成して検索処理部22に送る。検索条件処
理部22は、該検索条件によって検索処理を行なう(S
26)。検索結果は出力処理部23に送られ、表示装置
5に出力する(S27)。
【0046】また、検索語の抽出を行なう場合の文字列
情報抽出処理部26bにおける検索語の抽出処理の流れ
を図6を参照しながら追っていく。まず、指定したモー
ドが検索モード指定か否かをチェックし、検索モードが
指定されていなければ(S30のNO)、索引情報の登
録を行なうモードに限られるので登録モードの処理を行
なう。検索モードが指定されていれば(S30のYE
S)、問い合わせテキスト内の文字列の抽出用に開始位
置をセットする(S31)。問い合わせテキストの末尾
に達していれば(S32のYES)、終了指示をリター
ン情報として設定して(S33)、本処理を終了する。
一方、問い合わせテキストの末尾に達していない場合は
(S32のNO)、セットされた開始位置からスペース
や句読点記号などの区切り文字を除いて検索語を抽出す
る(S34)。次に、正規化処理選択部26b1におい
て、索引登録時または入力指示情報としてユーザが指定
した正規化処理のパラメータを参照し(S35)、パラ
メータの値が0である場合は(S35のYES)、抽出
した文字列を検索語としてリターン情報に設定する(S
36)。その後、S31に戻って開始位置を設定し直
し、次の文字列情報を抽出するために処理を繰り返す。
パラメータの値が0以外である場合は(S35のN
O)、抽出した文字列を正規化処理部26cに送り、後
述の正規化処理(S37)を実施してから、S36以降
の処理に進む。
【0047】次に、図7乃至図10を参照しながら、文
字列の正規化処理について説明する。ここで、図7は、
システム起動時または入力指示情報が入力された時に行
なわれる正規化データの初期化処理の流れを概略的に示
すフローチャート、図8は、索引登録処理における図4
に示すステップS19および検索処理における図6に示
すステップS37に対応する正規化処理の流れを概略的
に示すフローチャートを示す。なお、本実施例では関連
表記への展開処理を正規化処理部26c内の一機能とし
て実施するものとする。図9は、正規化規則26dに登
録している正規化データの一例を示す図であり、図10
は展開辞書26eに登録している関連表記への展開デー
タの一例を示す図である。また、本実施例における正規
化処理パラメータの値は、前述のように、正規化非実施
(0)/完全正規化(1)/不完全正規化(2)のいず
れかをとるものとする。正規化非実施(0)とは、抽出
した文字列そのものを索引語もしくは検索語とする場合
であり、完全正規化(1)とは、抽出した文字列に対し
て屈折形や派生形などの語形変化を除去した原形や語幹
に統一する正規化処理を施した結果を索引語もしくは検
索語とする場合である。また、不完全正規化(2)と
は、正規化処理は施すが、誤った関連付けが生じない程
度までに正規化処理を留めるものであり、語幹に隣接し
た単一の接尾辞までを残す形で正規化を施したり、さら
には、正規化対象外の接尾辞を指定して、該接尾辞が後
続している場合に、その連続接尾辞までを残す形で正規
化を施すことにより、索引語もしくは検索語を得る場合
である。
【0048】まず、図9を参照しながら、正規化規則2
6dに登録している正規化データの構造、すなわち、各
文字列に対応する正規化処理用の規則記述に関するデー
タの構造について説明する。図9に示すように、正規化
データは、セミコロンを区切りとする3つのフィールド
で構成する。第1フィールドは見出しであり、正規化対
象となる単語末尾の文字列を表す。第2フィールドは請
求項1に記載の完全正規化方法を実現するための変換文
字列を表す。第3フィールドは請求項1に記載の不完全
正規化方法を実現するための変換文字列を表す。図9に
示す記述例では、第2フィールドはいずれも空文字列へ
の変換、すなわち、見出しにある単語末尾の文字列を削
除する文字列として記述しているが、例えば、"biologi
cal ->biology"のような完全正規化処理を実現するため
の正規化データの場合は、"logical; logy; logical"の
ように第2フィールドに該当する変換文字列を記述す
る。
【0049】図9の正規化データ群90は、正規化処理
パラメータとして不完全正規化(2)を指定した場合に
おいて、請求項2記載の発明を実現するための正規化デ
ータ群すなわち不完全正規化規則の記述例である。すな
わち、第1フィールドに記述された文字列のうち、先頭
の接尾辞つまり語幹に隣接する単一の接尾辞である"iz
e"のみを第3フィールドに記述している。一方、図9の
正規化データ群91は、正規化処理パラメータとして、
不完全正規化(2)を指定した場合において、請求項3
記載の発明を実現するための正規化データ群すなわち不
完全正規化規則の記述例である。本実施例においては、
正規化対象外の接尾辞として"ist"を設定している場合
を示している。もし、請求項2記載の規則に従って正規
化データ群を作成すると、この正規化データ群91の第
3フィールドの記述はすべて"ion"になる。しかし、請
求項3記載の規則に従う場合、正規化対象外である"is
t"が接尾辞"ion"に連続している場合には、"ist"を削除
することはなく、"ionist"として正規化データを登録す
る。
【0050】展開辞書26eに登録する関連表記への展
開データは、図10に示すように、セミコロンを区切り
とする2フィールドで構成される。第1フィールドは見
出しであり、展開対象となる単語全体の文字列を表す。
第2フィールドは、関連表記への展開データ群であり、
見出しと同一表記を先頭にコンマを区切りとして関連表
記への展開データすなわち展開表記を列挙している。も
しも、展開辞書26eへの登録時に正規化処理を行なわ
ない場合には、見出し"legalize"に対する関連表記への
展開データ群には、"legalization","legalizational",
"legalizationally", "legalized"など、見出し"prote
ctionist"に対する関連表記への展開データには、"prot
ectionistically","protectionistic"なども追加するこ
とになるが、本実施例に示した前記正規化規則を展開辞
書26eへの登録を行なう場合にも適用して正規化処理
を行なうことにより、図10に示す程度の数の展開デー
タ群に抑えることができる。したがって、該展開データ
群を検索語として検索する場合でも、検索効率を大幅に
低下することなく検索することができる。
【0051】次に、本システム起動時にまたは入力指示
情報としてユーザが指定した時に実行する正規化データ
の初期化処理の流れを図7に従って説明する。まず、正
規化処理パラメータの値をチェックし、正規化を実施し
ないことを指定している0の場合は(S40のYE
S)、初期化を行なわずに直ちに終了する。パラメータ
の値が0以外であれば(S40のNO)、図2に示す正
規化規則26dのファイルをオープンする(S41)。
正規化処理パラメータが1であれば(S42のYE
S)、完全正規化を指定しているので、正規化データの
第1フィールドと第2フィールドをメモリ2に読み込み
(S43)、完全正規化規則26d1を作成し、ファイ
ル末尾に達したら(S44のYES)、終了する。ファ
イルの末尾に達していない場合は(S44のNO)、S
43に戻り、次の正規化データの読み込みを繰り返す。
正規化処理パラメータが1でなければ(S42のN
O)、2であり、不完全正規化を指定しているので、正
規化データの第1フィールドと第3フィールドをメモリ
2に読み込み(S45)、不完全正規化規則26d2
作成する。ファイルの末尾に達していない場合は(S4
6のNO)、S45に戻り、次の正規化データの読み込
みを繰り返す。ファイル末尾に達していれば(S46の
YES)、次に検索モードのチェックの処理を実行す
る。検索モードか否かをチェックし、検索モードでなけ
れば(S47のNO)処理を終了する。検索モードであ
れば(S47のYES)、検索語の関連表記を展開でき
るように、図2に示す展開辞書26eのファイルをオー
プンし(S48)、関連表記の展開データをメモリ2に
読み込み(S49)、展開辞書26eのファイル末尾に
達したら(S50のYES)終了する。
【0052】次に、索引登録処理または検索処理におい
て実施する正規化処理の流れを、図8に従って説明す
る。まず、本システム起動時にまたは入力指示情報とし
てユーザが指定した正規化処理パラメータに従って正規
化規則26dにある正規化データ群を選んでメモリ2に
読み込んでいる完全正規化規則26d1または不完全正
規化規則26d2のいずれかを探索する(S60)。本
実施例においては、索引登録処理または検索処理におい
て文字列情報抽出処理部26bで抽出した文字列と、正
規化データの第1フィールドに相当する見出しとを比較
照合し、抽出文字列の語末からの最長一致で探索する。
すなわち、前述の正規化データ初期化処理において指定
した正規化処理パラメータに応じて、完全正規化あるい
は不完全正規化に相当する変換文字列を、完全正規化規
則26d1あるいは不完全正規化規則26d2として読み
込んでいる。マッチする見出しがあれば(S61のYE
S)、見出しに該当する文字列を対応する変換文字列
(すなわち、完全正規化指定の場合は、正規化規則26
dの正規化データの第2フィールド、不完全正規化指定
では、第3フィールドに相当する文字列)で置換する
(S62)。検索モードでなければ(S63のNO)、
登録モードであり、正規化表記(見出しにマッチした場
合は置換した変換文字列、そうでない場合は文字列情報
抽出処理部26bで抽出した文字列そのまま)をリター
ン情報として設定して終了する(S64)。一方、検索
モードであれば(S63のYES)、正規化処理パラメ
ータの値が2、すなわち、不完全正規化を指定し(S6
5のYES)、かつ、関連表記への展開処理を指示して
いる場合は(S66のYES)、前述の初期化処理にお
いて展開辞書26eをメモリ2に読み込んで初期化して
おいた展開データを探索する(S67)。本実施例にお
いては、文字列情報抽出処理部26bで抽出した文字列
または前記処理で置換した変換文字列と展開データの第
1フィールドに相当する見出しとの完全一致で探索す
る。マッチする見出しがあれば(S68のYES)、そ
の見出しに対応する関連表記への展開データすなわち展
開表記をリターン情報として設定して、終了する(S6
9)。
【0053】なお、本実施例においては、展開データの
第1フィールドに相当する見出しとの完全一致により、
展開データを探索する場合を示しているが、部分一致に
より探索することももちろん可能である。部分一致によ
る探索としては、文字列の前方部分との一致により探索
する場合、後方部分との一致により探索する場合、中間
部分との一致により探索する場合やさらには指定した任
意の部分との一致により探索する場合などを用いること
ができる。これにより、さらに再現率が高い文書検索方
法を実現できる。
【0054】さらに、本実施例においては、展開辞書2
6eに展開データを登録する際に、展開データとしての
展開数を押さえるために展開処理に正規化処理を施す場
合を示しているが、正規化を行った展開データ以外に、
適当な数に限れば、見出し語と同一の意味を持つ同義語
を展開データに付加することも可能である。これに伴
い、再現率のみでなく適合率を高める文書検索方法を実
現することができる。
【0055】次に、本発明における索引登録処理および
文書検索処理の具体的な一実施例を図11乃至図15に
従って説明する。図11は図2に示す文書格納処理部2
4により文書DB27に格納している文書データ27a
群を示し、文書データ110から文書データ115まで
の6つの文書データがあり、各文書データの識別子とし
て順に1から6までの文書IDを付与している。文書デ
ータ110乃至112はいずれも"protect"を語幹とす
る関連表記を含む。文書データ110が「環境保護」に
関する文書であるのに対し、文書データ111および文
書データ112は「保護主義経済」に関する文書であ
る。一方、文書データ113乃至115はいずれも"leg
al"を語幹とする関連表記を含む。文書113,114
は「ドラッグ使用の合法化」に関する文書であるのに対
し、文書115は「無作為薬物テストの合法性」に関す
る文書である。
【0056】図12は、文書DB27に図11に示す前
記文書データ110乃至115が格納されている場合に
おいて、正規化処理パラメータとして完全正規化(1)
を指定した場合に索引情報格納部28に登録される索引
情報の一部を示す模式図である。図11の文書データ1
10,111における文字列"protection","protection
istic"は、いずれも"protect"に正規化し、文書データ
113,115における"legalizing","legality"は、
いずれも"legal"に正規化して登録している。一方、図
13は、正規化処理パラメータとして不完全正規化
(2)を指定した場合に索引情報格納部28に登録され
る索引情報の一部を示す模式図である。ここでは、図1
1の文書データ111における"protectionistic"は図
9における前記正規化規則91に従って"protectionis
t"に、また、文書113における"legalizing"は図9に
おける前記正規化規則90に従って"legalize"にそれぞ
れ不完全正規化するが、語幹である"protect"もしくは"
legal"までは正規化しない。また、文書110におけ
る"protection",文書115における"legality"は語幹
に隣接する唯一の接尾辞を有する単語であり、そのまま
索引語となり、いずれも語幹までは正規化しない。
【0057】図14は、入力処理部20を通して入力し
た2種類の問い合わせテキストの例を示している。図1
5は、図14に示す各問い合わせテキストに対して検索
条件作成部21で作成する検索条件の例である。すなわ
ち、図14の問い合わせテキスト1に対応して検索条件
1−1乃至1−3を、問い合わせテキスト2に対応して
検索条件2−1乃至2−3を作成する。また、図15に
おいて、検索条件1−1および2−1は正規化処理パラ
メータとして完全正規化(1)を指定した場合の検索条
件、検索条件1−2および2−2は正規化処理パラメー
タとして不完全正規化(2)を指定し、かつ、検索語の
関連表記への展開を指定していなかった場合の検索条件
を表す。また、検索条件1−3および2−3は正規化処
理パラメータとして不完全正規化(2)を指定し、か
つ、検索語の関連表記への展開を指定した場合の検索条
件を表す。ここでは、展開辞書33には、文字列"legal
ize"および"protectionist"に関し、前記図10に示す
展開データが登録されているものとする。
【0058】たとえば、前記の具体的な実施例におい
て、図14に示す問い合わせテキスト1の“drug legal
ization”(ドラッグの合法化)を入力して文書を検索
した場合、文字列情報抽出処理部26bにおいて検索語
として“drug”および“legalization”の2つの文字列
を抽出する。ここで、正規化処理パラメータとして完全
正規化(1)を指定している場合は、正規化処理部26
cにおいて文字列“legalization”を“legal”に正規
化し、検索条件作成部21においてもう一つの検索語
“drug”との論理演算式“#AND(drug,legal)”
の検索条件1−1を作成する。この検索条件1−1に基
づいて、検索処理部22で、索引情報格納部28に登録
されている図12に示す索引情報を検索するので、この
場合は、文書データ113,114,115の3つすべ
てを検索する。文書データ115は「無作為薬物テスト
の合法性」に関する文書であり、「ドラッグの合法化」
に関する文書ではないので、ノイズを含む結果となる。
なお、本実施例においては問い合わせテキストから抽出
した2つの検索語の双方が索引語として登録されている
文書データのみを検索する検索条件1−1(#AND
(drug,legal))を作成する場合を示しているが、ユー
ザの入力指示情報の指定により、抽出した2つの検索語
のいずれか1方でも索引語に登録されていれば該当する
文書データをすべて検索する検索条件(#OR(drug,l
egal))の作成を選択することももちろん可能である。
【0059】一方、正規化処理パラメータとして、不完
全正規化(2)を指定し、かつ展開処理を指示していな
い場合は、文字列“legalization”を“legalize”に正
規化し、もう一つの検索語“drug”との論理演算式“#
AND(drug,legalize)”の検索条件1−2となる。
したがって、検索処理部22では、図13に示す索引語
を検索して、完全一致している文書データ113のみを
検索し、出力する。この場合、ノイズである文書データ
115は出力しないが、問い合わせ1“drug legalizat
ion”に関連性が高い文書データ114も出力しない結
果となる。
【0060】しかしながら、不完全正規化(2)を指定
している場合であっても、展開処理を指示すれば、文字
列“legalization”は図10に示すように“legalize,
legal,legality,legally”に置換するので、検索条件
作成部21では検索条件として検索条件1−3に示す
“#AND{drug,#OR(legalize,legal,legalit
y,legally)}”を作成する。この検索条件1−3で検
索した場合は、完全正規化(1)を指定した場合と同様
に、文書データ113,114,115とも検索結果と
して出力する。ノイズは含むが、関連性が高い可能性を
有する文書も合わせて検索することができる。
【0061】
【発明の効果】以上のように、本発明によれば、ユーザ
のニーズに応じて、索引語および検索語に関し正規化処
理レベルを指定できる方法と検索語の関連表記への展開
指示を行なうことができる方法を具備することによっ
て、検索精度と検索効率および適合率と再現率のトレー
ドオフを柔軟に実現することができる。特に、たとえ
ば、英文文書のように単語に屈折形や派生形などの語形
変化を伴う言語によって記述した文書データの検索にお
いては効果を発揮する。
【図面の簡単な説明】
【図1】 本発明の文書検索方法を実現するハードウエ
ア構成の概略の一実施例を示すブロック図である。
【図2】 本発明の文書検索方法を実現する機能構成の
概略の一実施例を示すブロック図である。
【図3】 本実施例の索引登録処理部25における索引
情報の登録処理の流れの概略を示すフローチャートであ
る。
【図4】 本実施例の文字列情報抽出処理部26bにお
ける索引登録時の文字列情報抽出処理の流れの概略を示
すフローチャートである。
【図5】 本実施例の検索条件作成部21から出力処理
部23に至るまでの文書データの検索処理の流れの概略
を示すフローチャートである。
【図6】 本実施例の文字列情報抽出処理部26bにお
ける検索処理時の文字列情報抽出処理の流れの概略を示
すフローチャートである。
【図7】 本実施例の正規化処理部26cにおいて、本
システム起動時にまたは入力指示情報が入力された時に
実施する初期化処理の流れの概略を示すフローチャート
である。
【図8】 本実施例の正規化処理部26cにおける抽出
文字列に対する正規化処理の流れの概略を示すフローチ
ャートである。
【図9】 本実施例の正規化規則26dに登録している
正規化データの一例を示す図である。
【図10】 本実施例の展開辞書26eに登録している
関連表記への展開データの一例を示す図である。
【図11】 本実施例における文書DB27に格納して
いる文書データ27aの具体的な一例を示す図である。
【図12】 本実施例において、前記図11に示す具体
的な文書データ27aを格納している場合で、かつ、正
規化処理として完全正規化を指定している場合に、索引
情報格納部28に登録される索引情報の一部を具体的に
示す模式図である。
【図13】 本実施例において、前記図11に示す具体
的な文書データ27aを格納している場合で、かつ、正
規化処理として不完全正規化を指定している場合に、索
引情報格納部28に登録される索引情報の一部を具体的
に示す模式図である。
【図14】 本実施例において、文書データを検索する
ために入力処理部20へ入力した具体的な問い合わせテ
キストの例を示す図である。
【図15】 本実施例において、前記図14に示す問い
合わせテキストの入力に対応して、検索条件作成部21
で作成した検索条件の具体的な例を示す図である。
【符号の説明】
1…CPU(中央処理装置)、2…メモリ、3…ハード
ディスク、4…入力装置、5…表示装置、6…FDD
(フロッピーディスクドライブ)、7…CD−ROMド
ライブ、8…バス、20…入力処理部、21…検索条件
作成部、22…検索処理部、23…出力処理部、24…
文書格納処理部、25…索引登録処理部、26…テキス
ト処理部、26a…テキスト処理受付部、26b…文字
列情報抽出処理部、26b1…正規化処理選択部、26
c…正規化処理部、26d…正規化規則、26d1…完
全正規化規則、26d…不完全正規化規則、26e…
展開辞書、27…文書DB(データベース)、27a…
文書データ、28…索引情報格納部、90…先頭の接尾
辞のみの不完全正規化処理指定の場合の正規化データ
例、91…正規化対象外の接尾辞の指定がある不完全正
規化処理指定の場合の正規化データ例、110〜115
…文書DB27に格納している文書識別子1〜6の6個
の文書データ例。

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 文書データベースに記憶している文書デ
    ータの中に含まれている文字列もしくは前記文書データ
    を検索するための問い合わせテキストの中に含まれてい
    る文字列を所定の区切り文字を境界として区切られた文
    字列として抽出する方法と、前記抽出文字列に対して正
    規化処理を行なうか否かを選択する方法と、正規化処理
    を行なう場合に正規化可能な部分を全て正規化した表記
    とする完全正規化を行なう方法と未正規化部分を含む表
    記を許容する不完全正規化を行なう方法とを備えている
    ことを特徴とする文書検索方法。
  2. 【請求項2】 請求項1記載の文書検索方法において、
    抽出文字列の正規化方法として、前記不完全正規化方法
    を選択している場合に、抽出文字列に関する前記未正規
    化部分として、語幹に隣接する単一の接尾辞のみを指定
    することを特徴とする文書検索方法。
  3. 【請求項3】 請求項1記載の文書検索方法において、
    抽出文字列の正規化方法として、前記不完全正規化方法
    を選択している場合に、抽出文字列に関する前記未正規
    化部分として、正規化対象外の接尾辞を末尾とする接尾
    辞連続を指定することを特徴とする文書検索方法。
  4. 【請求項4】 請求項1乃至請求項3のいずれかに記載
    の文書検索方法において、抽出文字列の正規化方法とし
    て、前記不完全正規化方法を選択している場合に、前記
    検索のための問い合わせテキストから抽出した文字列
    (以下、検索語と記す)を該文字列の関連表記に展開す
    る方法を有することを特徴とする文書検索方法。
  5. 【請求項5】 請求項4に記載の文書検索方法におい
    て、前記関連表記に展開する方法に関し、関連表記への
    展開データを登録する展開辞書の見出し語と完全一致す
    る文字列に限らず、該見出し語と部分一致する文字列に
    ついても関連表記に展開する方法を有することを特徴と
    する文書検索方法。
  6. 【請求項6】 請求項4または請求項5のいずれかに記
    載の文書検索方法において、前記関連表記に展開する方
    法に関し、関連表記として語幹同一の文字列に限らず、
    前記見出し語と同一の意味を持つ同義語についても展開
    する方法を有することを特徴とする文書検索方法。
  7. 【請求項7】 請求項1乃至請求項3のいずれかに記載
    の文書検索方法において、文書検索方法の種類を指定す
    るためにユーザが入力する指示情報(以下、入力指示情
    報と記す)により、前記正規化処理を行なうか否かの選
    択および正規化処理を行なう場合に前記完全正規化方法
    と前記不完全正規化方法のいずれを行なうかの選択を指
    定する方法および前記不完全正規化方法を選択する場合
    に請求項2または/および請求項3のいずれに記載の正
    規化方法を選択するかを指定する方法とを有することを
    特徴とする文書検索方法。
  8. 【請求項8】 請求項4に記載の文書検索方法におい
    て、前記入力指示情報により、前記関連表記への展開を
    行なうか否かを指定する方法を有することを特徴とする
    文書検索方法。
  9. 【請求項9】 請求項5に記載の文書検索方法におい
    て、前記入力指示情報により、前記関連表記に展開する
    方法に関し、前記見出し語と完全一致する文字列に限ら
    ず、該見出し語と部分一致する文字列を関連表記に展開
    するか否かを指定することができる方法を有することを
    特徴とする文書検索方法。
  10. 【請求項10】 請求項6に記載の文書検索方法におい
    て、前記入力指示情報により、前記関連表記に展開する
    方法に関し、関連表記として語幹同一の文字列に限ら
    ず、前記同義語についても展開するか否かを指定するこ
    とができる方法を有することを特徴とする文書検索方
    法。
  11. 【請求項11】 請求項1乃至請求項10のいずれかに
    記載の文書検索方法において、電子化した文書データに
    識別子を付して文書データベースに格納する文書格納方
    法、前記文書格納方法によって格納された文書データか
    らユーザが所望する文書データを検索するための問い合
    わせテキストまたは前記入力指示情報を入力する問い合
    わせ入力方法、前記文書格納方法によって格納された文
    書データもしくは前記問い合わせ入力方法によって入力
    されたテキストを所定の区切り文字を境界として区切ら
    れた文字列を該文字列の出現位置情報などと共に抽出す
    る文字列情報抽出方法、前記文書格納方法によって格納
    された文書データから、前記文字列情報抽出方法により
    抽出された文字列(以下、索引語と記す)を該文書デー
    タの識別子と該文字列の出現位置情報とを対応付けて索
    引情報格納部に記憶する索引登録方法、前記問い合わせ
    入力方法によって入力されたテキストから、前記文字列
    情報抽出方法により抽出された前記検索語をもとに検索
    処理ができる形式の検索条件を作成する検索条件作成方
    法、前記索引登録方法によって記憶された索引情報格納
    部を参照して前記検索条件作成方法により作成された検
    索条件を満たす文書データを検索する検索処理方法、お
    よび前記検索処理方法によって検索した結果を表示し、
    さらに、必要に応じて前記文書格納方法によって格納さ
    れた文書データから前記検索処理方法により検索された
    文書データを取り出し、表示などの出力処理を行なう出
    力処理方法とを有することを特徴とする文書検索方法。
  12. 【請求項12】 前記文書データベースに記憶している
    前記文書データの中に含まれている文字列もしくは前記
    文書データを検索するための問い合わせテキストの中に
    含まれている文字列を所定の区切り文字を境界として区
    切られた文字列として抽出する手段と、前記抽出文字列
    に対して正規化処理を行なうか否かの選択手段と、正規
    化処理を行なう場合に正規化可能な部分を全て正規化し
    た表記とする完全正規化手段と未正規化部分を含む表記
    を許容する不完全正規化手段とを備えていることを特徴
    とする文書検索装置。
  13. 【請求項13】 請求項12に記載の文書検索装置にお
    いて、抽出文字列の正規化手段として、前記不完全正規
    化手段を選択している場合に、抽出文字列に関する前記
    未正規化部分として、語幹に隣接する単一の接尾辞のみ
    を指定することを特徴とする文書検索装置。
  14. 【請求項14】 請求項12に記載の文書検索装置にお
    いて、抽出文字列の正規化手段として、前記不完全正規
    化手段を選択している場合に、抽出文字列に関する前記
    未正規化部分として、正規化対象外の接尾辞を末尾とす
    る接尾辞連続を指定することを特徴とする文書検索装
    置。
  15. 【請求項15】 請求項12乃至請求項14のいずれか
    に記載の文書検索装置において、抽出文字列の正規化手
    段として、前記不完全正規化手段を選択している場合
    に、前記検索語を該検索語の関連表記に展開する手段を
    有することを特徴とする文書検索装置。
  16. 【請求項16】 請求項15に記載の文書検索装置にお
    いて、前記関連表記に展開する手段に関し、前記展開辞
    書の見出し語と完全一致する文字列に限らず、該見出し
    語と部分一致する文字列についても関連表記に展開する
    手段を有することを特徴とする文書検索装置。
  17. 【請求項17】 請求項15または請求項16のいずれ
    かに記載の文書検索装置において、前記関連表記に展開
    する手段に関し、関連表記として語幹同一の文字列に限
    らず、前記見出し語と同一の意味を持つ同義語について
    も展開する手段を有することを特徴とする文書検索装
    置。
  18. 【請求項18】 請求項12乃至請求項14のいずれか
    に記載の文書検索装置において、前記入力指示情報によ
    り、前記正規化処理を行なうか否かの選択および正規化
    処理を行なう場合に前記完全正規化手段と前記不完全正
    規化手段のいずれかの選択を指定する手段および前記不
    完全正規化手段を選択する場合に請求項13または/お
    よび請求項14のいずれに記載の正規化手段を選択する
    かを指定する手段とを有することを特徴とする文書検索
    装置。
  19. 【請求項19】 請求項15に記載の文書検索装置にお
    いて、前記入力指示情報により、前記関連表記への展開
    を行なうか否かを指定する手段を有することを特徴とす
    る文書検索装置。
  20. 【請求項20】 請求項16に記載の文書検索装置にお
    いて、前記入力指示情報により、前記関連表記に展開す
    る手段に関し、前記見出し語と完全一致する文字列に限
    らず、該見出し語と部分一致する文字列を関連表記に展
    開するか否かを指定することができる手段を有すること
    を特徴とする文書検索装置。
  21. 【請求項21】 請求項17記載の文書検索装置におい
    て、前記入力指示情報により、前記関連表記に展開する
    手段に関し、関連表記として語幹同一の文字列に限ら
    ず、前記同義語についても展開するか否かを指定するこ
    とができる手段を有することを特徴とする文書検索装
    置。
  22. 【請求項22】 請求項12乃至請求項21のいずれか
    に記載の文書検索装置において、電子化した文書データ
    に識別子を付して文書データベースに格納する文書格納
    手段、前記文書格納手段によって格納された文書データ
    からユーザが所望する文書データを検索するための問い
    合わせテキストまたは前記入力指示情報を入力する問い
    合わせ入力手段、前記文書格納手段によって格納された
    文書データもしくは前記問い合わせ入力手段によって入
    力されたテキストを所定の区切り文字を境界として区切
    られた文字列を該文字列の出現位置情報などと共に抽出
    する文字列情報抽出手段、前記文書格納手段によって格
    納された文書データから、前記文字列情報抽出手段によ
    り抽出された前記索引語を該文書データの識別子と該文
    字列の出現位置情報とを対応付けて索引情報格納部に記
    憶する索引登録手段、前記問い合わせ入力手段によって
    入力されたテキストから、前記文字列情報抽出手段によ
    り抽出された前記検索語をもとに検索処理ができる形式
    の検索条件を作成する検索条件作成手段、前記索引登録
    手段によって記憶された索引情報格納部を参照して前記
    検索条件作成手段により作成された検索条件を満たす文
    書データを検索する検索処理手段、および前記検索処理
    手段によって検索した結果を表示し、さらに、必要に応
    じて前記文書格納手段によって格納された文書データか
    ら前記検索処理手段により検索された文書データを取り
    出し、表示などの出力処理を行なう出力処理手段とを有
    することを特徴とする文書検索装置。
  23. 【請求項23】 前記文書データベースに記憶している
    前記文書データの中に含まれている文字列もしくは前記
    文書データを検索するための問い合わせテキストの中に
    含まれている文字列を所定の区切り文字を境界として区
    切られた文字列として抽出する方法と、前記抽出文字列
    に対して正規化処理を行なうか否かを選択する方法と、
    正規化処理を行なう場合に正規化可能な部分を全て正規
    化した表記とする完全正規化を行なう方法と未正規化部
    分を含む表記を許容する不完全正規化を行なう方法とを
    備えている文書検索方法を、コンピュータに実施させる
    ためのプログラムとして記録したコンピュータ読み取り
    可能な記録媒体。
JP2000046633A 2000-02-23 2000-02-23 文書検索方法および装置 Pending JP2001236358A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000046633A JP2001236358A (ja) 2000-02-23 2000-02-23 文書検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000046633A JP2001236358A (ja) 2000-02-23 2000-02-23 文書検索方法および装置

Publications (1)

Publication Number Publication Date
JP2001236358A true JP2001236358A (ja) 2001-08-31

Family

ID=18569012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000046633A Pending JP2001236358A (ja) 2000-02-23 2000-02-23 文書検索方法および装置

Country Status (1)

Country Link
JP (1) JP2001236358A (ja)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010522936A (ja) * 2007-03-29 2010-07-08 アマゾン テクノロジーズ インコーポレイテッド ユーザ装置上の複数のコンテンツソースの検索
JP2011503681A (ja) * 2007-09-28 2011-01-27 インターナショナル・ビジネス・マシーンズ・コーポレーション データ記録を一致させるシステムの分析のための方法およびシステム
US7984077B2 (en) 2007-03-29 2011-07-19 Nec Corporation Data management system, data registration device, data retrieval device, data management method and program
US8510338B2 (en) 2006-05-22 2013-08-13 International Business Machines Corporation Indexing information about entities with respect to hierarchies
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US8589415B2 (en) 2006-09-15 2013-11-19 International Business Machines Corporation Method and system for filtering false positives
US8656040B1 (en) 2007-05-21 2014-02-18 Amazon Technologies, Inc. Providing user-supplied items to a user device
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US8793575B1 (en) 2007-03-29 2014-07-29 Amazon Technologies, Inc. Progress indication for a digital work
US8832584B1 (en) 2009-03-31 2014-09-09 Amazon Technologies, Inc. Questions on highlighted passages
US8954444B1 (en) 2007-03-29 2015-02-10 Amazon Technologies, Inc. Search and indexing on a user device
US9087032B1 (en) 2009-01-26 2015-07-21 Amazon Technologies, Inc. Aggregation of highlights
US9116657B1 (en) 2006-12-29 2015-08-25 Amazon Technologies, Inc. Invariant referencing in digital works
US9158741B1 (en) 2011-10-28 2015-10-13 Amazon Technologies, Inc. Indicators for navigating digital works
US9275052B2 (en) 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
US9286374B2 (en) 2007-09-28 2016-03-15 International Business Machines Corporation Method and system for indexing, relating and managing information about entities
US9495322B1 (en) 2010-09-21 2016-11-15 Amazon Technologies, Inc. Cover display
US9564089B2 (en) 2009-09-28 2017-02-07 Amazon Technologies, Inc. Last screen rendering for electronic book reader
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
CN113239054A (zh) * 2021-05-11 2021-08-10 北京百度网讯科技有限公司 信息生成方法、相关装置及计算机程序产品
JP2022547956A (ja) * 2020-05-18 2022-11-16 杭州趣鏈科技有限公司 ブロックチェーンデータをインデックスする方法およびブロックチェーンデータを格納する方法

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10853560B2 (en) 2005-01-19 2020-12-01 Amazon Technologies, Inc. Providing annotations of a digital work
US9275052B2 (en) 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
US8510338B2 (en) 2006-05-22 2013-08-13 International Business Machines Corporation Indexing information about entities with respect to hierarchies
US8589415B2 (en) 2006-09-15 2013-11-19 International Business Machines Corporation Method and system for filtering false positives
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
US9292873B1 (en) 2006-09-29 2016-03-22 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US9116657B1 (en) 2006-12-29 2015-08-25 Amazon Technologies, Inc. Invariant referencing in digital works
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US9665529B1 (en) 2007-03-29 2017-05-30 Amazon Technologies, Inc. Relative progress and event indicators
US7984077B2 (en) 2007-03-29 2011-07-19 Nec Corporation Data management system, data registration device, data retrieval device, data management method and program
JP2010522936A (ja) * 2007-03-29 2010-07-08 アマゾン テクノロジーズ インコーポレイテッド ユーザ装置上の複数のコンテンツソースの検索
US8954444B1 (en) 2007-03-29 2015-02-10 Amazon Technologies, Inc. Search and indexing on a user device
US8793575B1 (en) 2007-03-29 2014-07-29 Amazon Technologies, Inc. Progress indication for a digital work
US9888005B1 (en) 2007-05-21 2018-02-06 Amazon Technologies, Inc. Delivery of items for consumption by a user device
US8965807B1 (en) 2007-05-21 2015-02-24 Amazon Technologies, Inc. Selecting and providing items in a media consumption system
US9568984B1 (en) 2007-05-21 2017-02-14 Amazon Technologies, Inc. Administrative tasks in a media consumption system
US8990215B1 (en) 2007-05-21 2015-03-24 Amazon Technologies, Inc. Obtaining and verifying search indices
US9178744B1 (en) 2007-05-21 2015-11-03 Amazon Technologies, Inc. Delivery of items for consumption by a user device
US8700005B1 (en) 2007-05-21 2014-04-15 Amazon Technologies, Inc. Notification of a user device to perform an action
US9479591B1 (en) 2007-05-21 2016-10-25 Amazon Technologies, Inc. Providing user-supplied items to a user device
US8656040B1 (en) 2007-05-21 2014-02-18 Amazon Technologies, Inc. Providing user-supplied items to a user device
US9286374B2 (en) 2007-09-28 2016-03-15 International Business Machines Corporation Method and system for indexing, relating and managing information about entities
JP2011503681A (ja) * 2007-09-28 2011-01-27 インターナショナル・ビジネス・マシーンズ・コーポレーション データ記録を一致させるシステムの分析のための方法およびシステム
US9600563B2 (en) 2007-09-28 2017-03-21 International Business Machines Corporation Method and system for indexing, relating and managing information about entities
US8799282B2 (en) 2007-09-28 2014-08-05 International Business Machines Corporation Analysis of a system for matching data records
US10698755B2 (en) 2007-09-28 2020-06-30 International Business Machines Corporation Analysis of a system for matching data records
US9087032B1 (en) 2009-01-26 2015-07-21 Amazon Technologies, Inc. Aggregation of highlights
US8832584B1 (en) 2009-03-31 2014-09-09 Amazon Technologies, Inc. Questions on highlighted passages
US9564089B2 (en) 2009-09-28 2017-02-07 Amazon Technologies, Inc. Last screen rendering for electronic book reader
US9495322B1 (en) 2010-09-21 2016-11-15 Amazon Technologies, Inc. Cover display
US9158741B1 (en) 2011-10-28 2015-10-13 Amazon Technologies, Inc. Indicators for navigating digital works
JP2022547956A (ja) * 2020-05-18 2022-11-16 杭州趣鏈科技有限公司 ブロックチェーンデータをインデックスする方法およびブロックチェーンデータを格納する方法
JP7407912B2 (ja) 2020-05-18 2024-01-04 杭州趣鏈科技有限公司 ブロックチェーンデータをインデックスする方法およびブロックチェーンデータを格納する方法
CN113239054A (zh) * 2021-05-11 2021-08-10 北京百度网讯科技有限公司 信息生成方法、相关装置及计算机程序产品
CN113239054B (zh) * 2021-05-11 2024-05-07 北京百度网讯科技有限公司 信息生成方法及相关装置

Similar Documents

Publication Publication Date Title
JP2001236358A (ja) 文書検索方法および装置
JP3181548B2 (ja) 情報検索装置及び情報検索方法
Evert The CQP query language tutorial
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
WO2016121048A1 (ja) 文章生成装置及び方法
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
KR100691400B1 (ko) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR20170107808A (ko) 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
KR0160919B1 (ko) 동사정보를 이용한 한국어 자연어 질의 정보검색 방법
KR100282610B1 (ko) 부분 문자열별 기분석에 기반한 한국어 형태소 분석장치 및 그방법
JP2000207404A (ja) 文書検索方法及び装置並びに記録媒体
JP3848014B2 (ja) 文書検索方法および文書検索装置
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP3379643B2 (ja) 形態素解析方法および形態素解析プログラムを記録した記録媒体
JP3804609B2 (ja) 検索チューニング方法および情報検索システム
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
JP2000311170A (ja) テキスト情報抽出方法
JP2001195427A (ja) デジタルドキュメントのキー特徴の自動抽出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080520

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080718

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081104