JP2003022277A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JP2003022277A
JP2003022277A JP2001205569A JP2001205569A JP2003022277A JP 2003022277 A JP2003022277 A JP 2003022277A JP 2001205569 A JP2001205569 A JP 2001205569A JP 2001205569 A JP2001205569 A JP 2001205569A JP 2003022277 A JP2003022277 A JP 2003022277A
Authority
JP
Japan
Prior art keywords
document
search
word
concept
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001205569A
Other languages
English (en)
Inventor
Tsutomu Kobayashi
勉 小林
Shigemi Nakazato
茂美 中里
Yukio Nakamoto
幸夫 中本
Hiroshi Yamazaki
弘 山崎
Takeshi Matsukuma
剛 松隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001205569A priority Critical patent/JP2003022277A/ja
Publication of JP2003022277A publication Critical patent/JP2003022277A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索に際して単語間の概念階層を考慮した、
適切な検索を可能とする文書検索装置及び文書検索方法
を提供する。 【解決手段】 シソーラス辞書5cに所定の単語の同意
語や所定の単語の上位概念となる単語、下位概念となる
単語など、単語間の概念階層に関する情報を予め格納す
る。制御装置1aが検索キー文書を用いて検索を行うと
きに、単語を用いたマッチング処理を行うが、この際、
検索キー文書に含まれる単語の上位概念、下位概念の単
語といった概念階層の異なる単語についてもマッチング
処理を行う。検索結果については、マッチング処理を行
った単語と、検索キー文書中の単語との間の概念階層に
ついても考慮し、相対的に近い概念階層に含まれる単語
には高い重みづけを行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書検索技術に
係わり、特に、文書を検索キーとしてその文書に類似す
るものを文書データベースから検索する文書検索装置及
び文書検索方法に関する。
【0002】
【従来の技術】情報処理技術の進歩と共に、文書データ
の取り扱いを電子化し、効率の良い文書処理を行いたい
という要望が高まっている。特に、文書の内容に応じた
文書分類技術、文書検索技術は、機械的に実行すること
ができれば労力を大幅に削減することができる。
【0003】文書を検索キーとして、その文書の内容に
類似している文書をあらかじめカテゴリー分けされた検
索対象文書データベースから抽出する類似文書検索装置
がある。この類似文書検索装置は、検索キーとする文書
中に含まれている単語と、指定されたカテゴリーの検索
対象文書データベースに格納されている各文書中に含ま
れている単語とを比較し、検索キーとする文書と検索対
象文書データベースに格納されている各文書との類似度
を算出し、その類似度により類似文書の抽出を行ってい
る。その類似度の算出方法としては、検索キーとする文
書と検索対象文書データベースに格納されている各文書
に含まれている単語の種類や出現回数・出現場所などか
らベクトル空間法により算出する方法等がある。
【0004】上記の方式において類似文書検索の精度を
向上させるには、「受付け」と「受付」あるいは「湯沸
し」と「湯沸かし」といった送り仮名付与方法の相違、
「インターフェース」と「インタフェース」あるいは
「インバーター」と「インバータ」といった長音記号の
有無、「コミュニケーション」と「コミニュケーション
あるいは「シミュレーション」と「シュミレーション」
といったよく使われる誤用、「電子計算機」と「コンピ
ュータ」あるいは「マグネット」と「磁石」といった同
意語等、表記の異なる単語同士を同一のものとして扱う
枠組みが必要となる。
【0005】しかし、ここに挙げたような、送り仮名の
揺れ、異表記、誤用、同意語を吸収する手法を用いて
も、所定の単語を含む文書に対し、その単語の上位概
念、下位概念といった概念階層の異なる単語を含んだ文
書について高い類似度を有するものを検索することは難
しい。例えば、「容器に液体を入れて加熱する」という
検索キー文書に対し、検索対象文書が「泥水の入ったバ
ケツを加熱する」という場合等が挙げられる。すなわ
ち、「容器」に対する下位概念である「バケツ」、「液
体」に対する下位概念である「泥水」といった概念階層
が異なる単語を含んだ文書の場合である。
【0006】
【発明が解決しようとする課題】従来の文書検索装置に
おいては、検索キー文書で使用されている単語の抽象度
が高く、検索対象文書で使用されている単語はそれより
も抽象度が低いという前提に立っていることが多いた
め、単語の抽象度が低い検索文書に対してはうまく動作
しない可能性が有る。さらに、抽象度が異なる文書につ
いてそれぞれの文書間で優先度をつけることが困難であ
る、という問題もある。なお、本願出願人はこれに関連
する発明として、特願2000−291297を出願し
ている。
【0007】例えば、「容器に液体を入れて加熱する」
という検索文書に対して、第一の検索対象文書として
「泥水の入ったバケツを加熱する」という文書、第二の
検索対象文書として「液体の入った器を加熱する」とい
う文書、第三の検索対象文書として「海水の入った試験
管を加熱する」という文書、第四の検索対象文書として
「ビーカーに雨水を入れて加熱する」という文書があっ
たとする。
【0008】検索文書に対して、同じ抽象度の単語を用
いている検索対象文書2の類似度がもっとも高くなるこ
とが望ましいが、これらの文書に含まれる単語の概念階
層が様々であるため、抽象度を考慮した類似度の優先度
付けをするのが困難である。
【0009】そこで、本発明は上記の問題を解決するた
めになされたものであり、検索に際して単語間の概念階
層を考慮した、適切な検索が可能となる文書検索装置お
よび文書検索方法を提供することを目的とする。
【0010】
【課題を解決するための手段】この発明は、文書を検索
キーとして辞書を用い、文書データベースから所定の文
書を検索する文書検索方法であって、前記検索キーとな
る文書から単語抽出を行う第一抽出ステップと、前記第
一抽出ステップで抽出された単語について、所定の概念
階層の範囲に含まれる単語を前記辞書から抽出する第二
抽出ステップと、前記文書データベース中の文書から単
語抽出を行う第三抽出ステップと、前記第一抽出ステッ
プ及び前記第二抽出ステップにおいて抽出された単語
と、前記第三抽出ステップにおいて抽出された単語との
間で、マッチング処理を行うマッチング処理ステップ
と、このマッチング処理ステップでマッチング処理を行
われた単語のうち、前記第二抽出ステップにおいて抽出
された単語について、前記第一抽出ステップで抽出され
た単語に対して相対的に近い概念階層の単語について高
い重み付けを行い、前記検索キー文書と前記文書データ
ベース中の文書との間で類似度を計算する類似度計算ス
テップと、この類似度計算ステップによる計算結果に応
じて、検索結果を出力する出力ステップとを具備するこ
とを特徴とする。
【0011】このような構成によれば、検索に際して単
語間の概念階層を考慮した、適切な検索が可能となる。
【0012】また、この発明は、文書を検索キーとして
辞書を用い、文書データベースから所定の文書を検索す
る文書検索装置であって、前記検索キーとなる文書から
単語抽出を行う第一抽出手段と、前記第一抽出手段が抽
出した単語について、所定の概念階層の範囲に含まれる
単語を前記辞書から抽出する第二抽出手段と、前記文書
データベース中の文書から単語抽出を行う第三抽出手段
と、前記第一抽出手段及び前記第二抽出手段が抽出した
単語と、前記第三抽出手段が抽出した単語との間で、マ
ッチング処理を行うマッチング処理手段と、このマッチ
ング処理手段がマッチング処理を行った単語のうち、前
記第二抽出手段が抽出した単語について、前記第一抽出
手段が抽出した単語に対して相対的に近い概念階層の単
語について高い重み付けを行い、前記検索キー文書と前
記文書データベース中の文書との間で類似度を計算する
類似度計算手段と、この類似度計算手段の計算結果に応
じて、検索結果を出力する出力手段とを具備することを
特徴とする。
【0013】このような構成によれば、検索に際して単
語間の概念階層を考慮した、適切な検索が可能となる。
【0014】また、この発明は、文書を検索キーとして
検索対象文書データベース中から類似文書を抽出する文
書検索方法であって、形態素解析辞書の情報を利用して
検索キーおよび検索対象文書からの単語抽出を行い、単
語の上位概念・下位概念の関係を保持したシソーラス辞
書を用いて所定の概念階層範囲内で、前記抽出された単
語間でのマッチング処理を行い、このマッチング処理の
結果に基づき、文書間の類似度を計算し類似度の高い文
書を検索結果として出力することを特徴とする。
【0015】このような構成によれば、検索に際して単
語間の概念階層を考慮した、適切な検索が可能となる。
【0016】また、この発明は、文書を検索キーとして
検索対象文書データベース中から類似文書を抽出する文
書検索装置であって、形態素解析辞書の情報を利用して
検索キーおよび検索対象文書からの単語抽出を行う抽出
手段と、単語の上位概念・下位概念の関係を保持したシ
ソーラス辞書を用いて所定の概念階層範囲内で、前記抽
出された単語間でのマッチング処理を行うマッチング手
段と、このマッチング処理の結果に基づき、文書間の類
似度を計算し類似度の高い文書を検索結果として出力す
る出力手段とを具備することを特徴とする。
【0017】このような構成によれば、検索に際して単
語間の概念階層を考慮した、適切な検索が可能となる。
【0018】
【発明の実施の形態】以下、図面を参照して本発明につ
いて説明する。図1は、本発明に係る一実施形態である
類似文書検索装置のハードウェア構成を示す図である。
同図に示すように、本実施形態における類似文書検索装
置は、制御装置1a、入力装置1b、表示装置1c、メ
モリ1d、外部記憶装置1eから構成され,各装置は互
いにバスを介して結合されている。制御装置1aは中央
演算処理装置であり、各装置の制御および各装置間のデ
ータ転送等の処理をおこなうものである。入力装置1b
はキーボード、ペン、マウス、タブレット或いはタッチ
パネル等からなり、文字列、各種データおよび命令の入
力をおこなう。表示装置1cはCRT或いは液晶ディス
プレイと表示コントローラからなり、検索結果やシステ
ムからユーザへの指示を表示する。 メモリ1dはRA
M等からなり、図2に示すように制御装置1aが各種制
御や処理を実行するためのプログラム部2aと、処理の
際に必要なデータを格納するためのバッファ部2bから
なっている。
【0019】外部記憶装置1eはハードディスク、フラ
ッシュメモリ或いは光磁気ディスクとコントローラから
なり、装置の電源断の後にも保存が必要なデータを格納
する。具体的には図5に示すように、検索対象文書をデ
ータベース化した検索対象文書データベース5aと、文
を形態素解析するために必要な情報を収容した形態素解
析辞書5bと、概念階層の情報、すなわち同意語の関係
や上位概念−下位概念の関係等の単語同士の関係を保持
したシソーラス辞書5cとを含む。検索を行う分野が所
定の範囲内であることが分かっている場合等、このシソ
ーラス辞書5cを予め検索する文書に関係する分野のも
のについて準備しておくと、検索を行いやすくなる。
【0020】プログラム部2aは、図3に示すように、
類似する文書を検索するための検索キーとなる文書を入
力するための検索キー入力手段3aと、検索結果等を表
示部1cに表示するための表示手段3bと、検索キーと
なる文書から抽出された単語に対応してシソーラス階層
を上位・下位それぞれ何段階まで検索するかを設定する
ための検索概念階層レベル設定手段3cと、検索概念階
層レベルに応じた単語の重みを設定するための概念階層
重み設定手段3dと、検索キー格納バッファ4aに置か
れた検索キーから単語を抽出し検索キー抽出単語格納バ
ッファ4cに格納するとともに検索対象文書格納バッフ
ァ4bに置かれた検索対象文書から単語を抽出し検索対
象文書抽出単語格納バッファ4eに格納する単語抽出手
段3eと、検索キー抽出単語格納バッファ4cおよび検
索対象文書抽出単語格納バッファ4eに格納された単語
から検索単語IDを抽出するための検索単語ID抽出手
段3fと、類似度格納バッファ4hに格納された検索対
象文書との類似度を使って類似文書を選択するための類
似文書選択手段3gと、検索キー格納バッファ4aに読
み込まれた検索キーと検索対象文書格納バッファ4bに
読み込まれた検索対象文書との類似度を算出し結果を類
似度格納バッファ4hに書き込むための類似度算出手段
3hからなっている。
【0021】バッファ部2bは、図4に示すように、検
索キーを格納するための検索キー格納バッファ4aと、
検索対象文書を格納するための検索対象文書格納バッフ
ァ4bと、検索キー格納バッファ4aに置かれた検索キ
ーから単語抽出手段3eを用いて単語を抽出した結果を
格納するための検索キー抽出単語格納バッファ4cと、
検索キー抽出単語格納バッファ4cに格納された単語か
ら検索単語ID抽出手段3fを用いて検索単語IDを抽
出しその結果を格納するための検索キー検索単語ID格
納バッファ4dと、検索対象文書格納バッファ4bに置
かれた検索対照文書から単語抽出手段3eを用いて単語
を抽出した結果を格納するための検索対象文書単語格納
バッファ4eと、検索対象文書単語格納バッファ4eに
格納された単語から検索単語ID抽出手段3fを用いて
検索単語IDを抽出しその結果を格納するための検索対
象文書検索単語ID格納バッファ4fと、類似度算出手
段3hを用いて算出した類似度を格納するための類似度
格納バッファ4gと、検索概念階層レベル設定手段3c
を用いて設定した上位および下位の検索概念階層レベル
を格納するための概念階層レベル格納バッファ4hと、
概念階層重み設定手段3dを用いて設定した概念階層重
みを格納するための概念階層重み格納バッファ4iと、
ループ制御変数等の処理の実行に必要なローカル変数を
格納するための一時変数格納バッファ4jとからなる。
【0022】形態素解析辞書5bは、図8に示す構造を
しており、1レコードは「単語」および「品詞」の2項
目からなる。「単語」は単語の表記であり、活用しうる
語(用言)に関しては活用しても普遍の表記が格納され
ている。「品詞」は単語の品詞である。
【0023】シソーラス辞書5cは、図13に示したよ
うに単語と単語の関係を収容した辞書である。図13で
は、上向きの矢印が下位概念から上位概念への関係を示
しており、水平な横線が同意語の関係を表している。図
13に示した例では「試験器具」と「実験器具」は同意
語の関係にあり、下位概念として「試験容器」をもつ。
また「試験容器」は「試験器具」という上位概念の他に
「容器」という上位概念も持つ。なお、このシソーラス
辞書においては「加熱」という単語は単独で存在してお
り、他の単語との関係は存在しない。「試験容器」の上
位概念として矢印が「試験器具」にのみ伸びており「実
験器具」には伸びていないが、データ構造を簡潔にする
目的で便宜的に同意語の代表を決め、その代表に対する
関係を記述している。
【0024】このような単語間の関係を表すデータ構造
としてさまざまなものが考えられるが、本実施形態では
図14に示すデータ構造を用いて図13のシソーラス辞
書を表す。図13のデータ構造は1レコードが「ID」
「単語」「同意語ID」「上位概念ID」「下位概念I
D」の5つのフィールドで構成される。「ID」は各レ
コードにユニークなIDであり単語を示す符号として用
いる。
【0025】「単語」は単語の表記であり図8に示した
形態素解析辞書の「単語」フィールドと同じものが入っ
ている。「ID」および「単語」からはレコードを一意
に特定できる。
【0026】「同意語ID」は同意語の関係を保持する
フィールドである。単語が同意語の代表の場合には−1
が入り、代表でない場合には代表単語のIDが格納され
る。図14の例ではIDが02の「うつわ」は「同意語
ID」フィールドが01なので、IDが01の「容器」
が代表であることを表す。同意語IDが−1以外の場合
には「上位概念ID」および「下位概念ID」の2つの
フィールドは不定である(図14ではブランクにしてあ
る)。これはシソーラス辞書5cのサイズを小さくする
ためのものであり、同意語IDに対応する同意語が有す
る上位概念ID、下位概念IDと同じものをコピーする
形で保持しても構わない。
【0027】「上位概念ID」には上位概念がある場合
にはその単語のIDが入り、上位概念がない場合には−
1が入る。上位概念が複数ある場合にはIDをカンマで
区切って格納する。図14の例では、「容器」の上位概
念IDは−1になっているため、この単語の上位概念は
ないことを表す。一方、「試験管」の上位概念IDは0
4と08の2つあることを表す。04は「ガラス容器」
であり、08は「試験容器」である。
【0028】「下位概念ID」には下位概念がある場合
にはその単語のIDが入り、下位概念がない場合には−
1が入る。下位概念が複数ある場合にはIDをカンマで
区切って格納する。図14の例では、IDが07の「ビ
ーカー」は下位概念IDが−1になっており、下位概念
がないことを表す。IDが14の「水」は下位概念ID
が15,16,17,18の4つあり、「雨水」「海
水」「泥水」「純水」の4単語が「水」の下位概念であ
ることを表している。
【0029】ここで、本実施形態の処理の説明のため、
例として検索キーとして図6および図7に示す2つの文
書(検索キー1:「容器に液体を入れて加熱する」およ
び検索キー2:「雨水を入れたビーカーを加熱する」)
を用い、検索対象文書として図15に示す4つの文書
(検索対象文書1「泥水を入れたバケツを加熱する」、
検索対象文書2「液体を入れた器を加熱する」、検索対
象文書3「海水を入れた試験管を加熱する」、検索対象
文書4「ビーカーに雨水を入れて加熱する」)を用いる
ことにする。
【0030】本実施形態の動作を図36から図46まで
のフローチャート図を参照して以下の通り説明する。
【0031】本実施形態による類似文献検索装置の電源
が投入されるとブートストラップ等の起動処理を経て図
36に示す処理を保持したプログラムがメモリ1b中の
プログラム部2aにロードされた後、実行される。この
処理では、まず始めに入力装置1bや表示装置1cの初
期化等の初期化処理が行なわれる(ステップ36a)。
続いて、装置は入力装置1bを介して検索キーを取得し
(検索キー入力処理、ステップ36b)、終了かどうか
を判定し(ステップ36c)、終了でなければ、概念階
層レベル設定処理(ステップ36d)、概念階層重み設
定処理(ステップ36e)、類似文書検索処理(ステッ
プ36f)を順に実行した後、再び検索キー入力処理
(ステップ36b)に戻る。終了であれば装置の終了に
必要な終了処理(ステップ36g)を行なった後、動作
は終了する。
【0032】検索キー入力処理(ステップ36b)につ
いて図37を参照して説明する。まず検索キー入力手段
3aを用いて入力装置1bから検索キーを取得する(ス
テップ37a)。ここで入力装置から終了を示すファン
クションが送られたかどうかを判定し(ステップ37
b)、終了でなければ得られた検索キーを検索キー格納
バッファ4aに格納し(ステップ37c)、検索キー格
納バッファの内容を表示装置1cに表示手段1bに表示
する(ステップ37e)。ステップ37bで終了であれ
ば終了であることを表す値を検索キー格納バッファ4a
に格納し(ステップ37d)、コール元にリターンす
る。
【0033】概念階層レベル設定処理(ステップ36
d)の動作について図38を参照して説明する。まず表
示装置1cに概念階層レベルの入力を促す文字列を表示
し(ステップ38a)、次に入力装置1bを用いて概念
階層レベル(上位レベル、下位レベル)を読み込み、概
念階層レベル格納バッファ4hに格納する。ここでは上
位レベル、下位レベルとも0であったとすると、概念階
層レベル格納バッファ4hには「上位概念階層レベル
「0」、下位概念階層レベル「0」」という情報が格納
される。
【0034】読み込んだ概念階層レベルについて、上位
レベルが0、下位レベルが2の場合には概念階層レベル
格納バッファ4hには「上位概念階層レベル「0」、下
位概念階層レベル「2」」という情報が格納される。
【0035】読み込んだ概念階層レベルについて、上位
レベルが2、下位レベルが0の場合には概念階層レベル
格納バッファ4hには「上位概念階層レベル「2」、下
位概念階層レベル「0」」という情報が格納される。
【0036】続いて、概念階層重み設定処理36eの動
作を図39を参照して以下の通り説明する。まず重み初
期値を1.0として、レベルが1,2,3と上がるごと
に0.1を減じた値を概念階層重み格納バッファ4iに
格納する。上位および下位の概念階層レベルのうち大き
い方のレベルまでを準備する。
【0037】上位・下位ともに0の場合、レベル0のみ
の重みの値が概念階層重み格納バッファ4iに格納され
る。すなわち、「レベル「0」、重み「1.0」」とい
う情報が格納される。
【0038】次に上位レベルが0、下位レベルが2の場
合には、および上位レベルが2、下位レベルが0の場合
は共に最大レベルが2なので、概念階層重み格納バッフ
ァ4iは次のようになる。すなわち、「レベル「0」、
重み「1.0」」、「レベル「1」、重み「0.
9」」、「レベル「2」、重み「0.8」」という情報
が格納される。
【0039】なお、本実施形態においては、概念階層の
重み付けとして、「レベル「0」、重み「1.0」」、
「レベル「1」、重み「0.9」」、「レベル「2」、
重み「0.8」」という例を用いている。このように、
各レベル間の間隔に対して等差数列的に重み付け設定を
行うことも可能であるが、「レベル「0」、重み「1.
0」」、「レベル「1」、重み「0.9」」、「レベル
「2」、重み「0.7」」というように非等差数列的な
重み付け設定を行うことも可能である。これは、レベル
「0」とレベル「2」との間の関係は、レベル「0」と
レベル「1」との関係を単純に2回繰り返したものとは
言い切れない場合があるためである。検索対象によって
は、このような非等差数列的な重み付け設定を適宜選択
することができる。
【0040】類似文書検索処理(ステップ36f)の動
作を図40を用いて説明する。まず単語抽出手段3eを
用いて検索キー格納バッファ4aから単語抽出を行い、
結果を検索キー抽出単語格納バッファ4cに入れる(ス
テップ40a)。続いて検索単語ID抽出手段3fを用
いて、検索キー抽出単語格納バッファ4cに格納された
単語から検索単語IDの抽出を行い、結果を検索キー検
索単語ID格納バッファ4dに入れる(ステップ40
b)。
【0041】次にループ制御用の変数IおよびNを用い
て検索対象文書の数だけステップ40e〜ステップ40
hまでの処理を繰り返す(40c,40d,40i)。
ループ内の処理は、I番目の検索対象文書を検索対象文
書格納バッファに格納し(ステップ40e)、単語抽出
手段3eを用いて検索対象文書格納バッファ4bから単
語抽出を行い、結果を検索対照文書抽出単語格納バッフ
ァ4eに入れ(ステップ40f)、続いて検索単語ID
抽出手段3fを用いて、検索対象文書抽出単語格納バッ
ファ4eに格納された単語から検索単語IDの抽出を行
い、結果を検索対象文書検索単語ID格納バッファ4f
に入れ(ステップ40g)、類似度算出手段3hを用い
て検索キーとI番目の検索対象文書との類似度を算出
し、類似度格納バッファ4gに格納する(ステップ40
h)。
【0042】このループ内の処理を検索対象文書すべて
について行った後、類似文書選択手段3gを用いて類似
度格納バッファ4gに格納されたN個の検索対象文書と
の類似度から類似文書を選択する(ステップ40j)。
最後に選択された文書を検索結果として表示装置に表示
し(ステップ40k)、コール元に制御を戻す。
【0043】ステップ40aおよびステップ40fで用
いられる単語抽出手段3eの処理を図41を用いて説明
する。まず、形態素解析辞書5bに格納されている情報
を用いて,指定された文書の形態素解析を行い、単語単
位に分割する(ステップ41a)。次に、抽出された単
語のうち,品詞が名詞およびサ変動詞のものだけを抽出
する(ステップ41b)。実際の複雑な処理系では、動
詞、形容詞、形容動詞等の品詞も抽出する場合が多い
が、本実施形態では説明の便のために品詞を絞って単純
化してある。
【0044】検索キー1の形態素解析結果を図9に、単
語抽出結果を図11に示す。検索キー2の形態素解析結
果を図10に、単語抽出結果を図12に示す。また、検
索対象文書1〜検索対象文書4までの形態素解析結果を
図16〜図19に示す。検索対象文書1〜検索対象文書
4までの単語抽出結果を図20〜図23に示す。
【0045】ステップ40bおよびステップ40gで用
いられる検索単語ID抽出処理の動作を図42を用いて
説明する。まず処理対象が検索キーであるか検索対象文
書であるかを判断し(ステップ42a)、検索キーであ
れば検索キー文書単語ID抽出処理を行い(ステップ4
2b)、検索対象文書であれば検索対象文書単語ID抽
出処理(ステップ42c)を行う。
【0046】検索キー文書単語ID抽出処理の動作を図
43を用いて説明する。上位の検索概念階層レベルをU
とし、下位の検索概念階層レベルをLとする(ステップ
43a)。検索キー抽出単語格納バッファ4cに格納さ
れているN個の単語(I番目の単語をW(I)と記す)
について、次に述べるステップ43e〜ステップ43h
までのループを構成する(ステップ43b,ステップ4
3c,ステップ43d,ステップ43i)。
【0047】ループ内の処理について説明する。まず、
W(I)をシソーラス辞書で検索し、単語に対応するI
Dを得る。その際、同意語IDが−1でなければ同意語
IDをIDとして用いる(ステップ43e)。この処理
により、同意語は代表単語のIDに統一される。次に、
こうして得られたIDと概念階層重み格納バッファ4i
に格納されたレベル0の重みをペアにして、検索キー検
索単語ID格納バッファ4dに格納する(ステップ43
f)。次に、シソーラス辞書の「下位概念ID」をたど
って下位レベルLまでの単語IDを得て、概念階層重み
格納バッファ4iに格納された対応するレベルの重みと
ペアにして検索キー検索単語ID格納バッファ4dに格
納する。その際、すでに登録されている単語があれば、
登録は抑制する(ステップ43g)。次に上位概念ID
フィールドおよび下位概念フィールドをたどって上位レ
ベルUまでの単語IDおよびそのすべての下位概念の単
語IDを得て、上位レベルと対応する重みとペアにして
検索キー検索単語ID格納バッファ4dに格納する。そ
の際、既に登録されている単語IDであっても重みが大
きければ差し替える(ステップ43h)。このループを
すべての単語に対して実行し、コール元に制御を移す。
【0048】上位検索概念レベル0、下位検索概念レベ
ル0に対する検索キー1の検索キー検索単語ID格納バ
ッファ4dの内容を図28に示す。また上位検索概念レ
ベル0、下位検索概念レベル0に対する検索キー2の検
索キー検索単語ID格納バッファ4dの内容を図29に
示す。これらは、上位下位ともに検索概念レベルが0で
あるため、図11および図12に示した検索キー1およ
び検索キー2の抽出単語をシソーラス辞書で単語IDに
変換したものに等しくなっている。
【0049】上位検索概念レベル0、下位検索概念レベ
ル2に対する検索キー1の検索キー検索単語ID格納バ
ッファ4dの内容を図30に示す。
【0050】上位検索概念レベル2、下位検索概念レベ
ル0に対する検索キー1の検索キー検索単語ID格納バ
ッファ4dの内容を図31に示す。
【0051】次に検索対象文書単語ID抽出処理(ステ
ップ42c)について図44を用いて説明する。この処
理は図43で説明した検索キー単語ID抽出処理から、
上位概念および下位概念に関する単語ID抽出処理を除
くとともに重み情報を除外したもの(単語IDのみのリ
スト)となっている。それ以外の処理は共通である。検
索対象文書1〜検索対象文書4について検索対象文書単
語ID抽出処理による検索単語IDの抽出結果を図24
〜図27に示す。
【0052】次にステップ40hで用いられる類似度算
出手段の処理について図45を用いて説明する。検索キ
ーから抽出された単語IDおよび検索対象文書から抽出
された単語IDの共通項を求め、そのIDに対応する重
みを検索キー検索単語ID格納バッファから取得し、そ
の和nを計算する(ステップ45a)。このnを類似度
とする(ステップ45b)。
【0053】検索キー1に対して上位検索概念レベル
0、下位概念検索レベル0で求めた類似度を図32に示
す。
【0054】検索キー2に対して上位検索概念レベル
0、下位概念検索レベル0で求めた類似度を図33に示
す。
【0055】検索キー1に対して上位検索概念レベル
0、下位概念検索レベル2で求めた類似度を図34に示
す。
【0056】検索キー2に対して上位検索概念レベル
2、下位概念検索レベル0で求めた類似度を図35に示
す。
【0057】次にステップ40jで用いられる類似文書
選択処理を図46を用いて説明する。この処理では単に
類似度の高い順に類似文献として選択する(ステップ4
6a)。
【0058】本実施形態の動作を順を追って説明した。
検索キー1および検索キー2に対しての類似文書検索の
結果を図47乃至図50を参照して以下のように説明す
る。図47は検索キー1「容器に液体を入れて加熱す
る」という文書について、上位検索概念階層レベルを0
として、下位検索概念階層レベルを0とした場合の検索
結果である。検索対象文書2「液体に入れた器を加熱す
る」が類似度3とされ、それ以外の3つの文書について
は全て類似度1となる。
【0059】図48は検索キー1「容器に液体を入れて
加熱する」という文書について、上位検索概念階層レベ
ルを0として、下位検索概念階層レベルを2とした場合
の検索結果である。検索対象文書2「液体に入れた器を
加熱する」が類似度3.0とされ、検索対象文書1「泥
水を入れたバケツを加熱する」が類似度2.7となり、
検索対象文書3「海水を入れた試験管を加熱する」と検
索対象文書4「ビーカーに雨水を入れて加熱する」がそ
れぞれ類似度2.6となる。
【0060】図49は検索キー2「雨水を入れたビーカ
ーを加熱する」という文書について、上位検索概念階層
レベルを0として、下位検索概念階層レベルを0とした
場合の検索結果である。検索対象文書4「ビーカーに雨
水を入れて加熱する」が類似度3とされ、それ以外の3
つの文書については全て類似度1となる。
【0061】図50は検索キー2「雨水を入れたビーカ
ーを加熱する」という文書について、上位検索概念階層
レベルを2として、下位検索概念階層レベルを0とした
場合の検索結果である。検索対象文書4「ビーカーに雨
水を入れて加熱する」が類似度3とされ、検索対象文書
3「海水を入れた試験管を加熱する」が類似度2.7と
なり、検索対象文書1「泥水を入れたバケツを加熱す
る」と検索対象文書2「液体に入れた器を加熱する」が
それぞれ類似度2.6となる。
【0062】このように本発明によれば、検索概念階層
レベルを設定することにより、概念階層をどこまでたど
るかをきめ細かく指定できるようになり、また概念レベ
ルが離れるほど重み付けを低く設定することにより、同
レベルの抽象度をもった文書を優先して見つけ出すこと
が可能になる。
【0063】なお、上記実施形態においては、検索実行
の際の概念階層レベルをユーザが設定するようにしてい
たが、これを自動化することも可能である。例えば、初
めは上位・下位概念階層レベルのいずれも0として検索
を行う。ここで所望の数の検索結果が得られない場合
に、自動的に上位・下位概念階層レベルを1ずつ広げ、
再検索を行うようにする。検索結果に応じて概念階層レ
ベルを自動的に設定して再検索を行うことが特徴であ
り、ユーザが概念階層レベルを入力する手間を省くこと
ができる。
【0064】
【発明の効果】以上説明したように、この発明によれ
ば、検索に際して単語間の概念階層を考慮した、適切な
検索が可能となる文書検索装置および文書検索方法を提
供することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態に係わる類似文書検索装置の
ハードウェア構成を示すブロック図。
【図2】メモリの構成を示す図。
【図3】プログラム部の構成を示す図。
【図4】バッファ部の構成を示す図。
【図5】外部記憶装置に格納されるデータを示す図。
【図6】検索キー1の例を示す図。
【図7】検索キー2の例を示す図。
【図8】形態素解析辞書の構造を示す図。
【図9】検索キー1の形態素解析結果を示す図。
【図10】検索キー2の形態素解析結果を示す図。
【図11】検索キー1の単語抽出結果を示す図。
【図12】検索キー2の単語抽出結果を示す図。
【図13】シソーラス辞書における単語と単語の関係を
示す図。
【図14】シソーラス辞書のデータ構造を示す図。
【図15】検索対象文書の例を示す図。
【図16】検索対象文書1の形態素解析結果を示す図。
【図17】検索対象文書2の形態素解析結果を示す図。
【図18】検索対象文書3の形態素解析結果を示す図。
【図19】検索対象文書4の形態素解析結果を示す図。
【図20】検索対象文書1の単語抽出結果を示す図。
【図21】検索対象文書2の単語抽出結果を示す図。
【図22】検索対象文書3の単語抽出結果を示す図。
【図23】検索対象文書4の単語抽出結果を示す図。
【図24】検索対象文書1の検索対象文書単語ID抽出
処理による検索単語IDの抽出結果を示す図。
【図25】検索対象文書2の検索対象文書単語ID抽出
処理による検索単語IDの抽出結果を示す図。
【図26】検索対象文書3の検索対象文書単語ID抽出
処理による検索単語IDの抽出結果を示す図。
【図27】検索対象文書4の検索対象文書単語ID抽出
処理による検索単語IDの抽出結果を示す図。
【図28】上位検索概念レベル0、下位検索概念レベル
0に対する検索キー1の検索キー検索単語ID格納バッ
ファ4dの内容を示す図。
【図29】上位検索概念レベル0、下位検索概念レベル
0に対する検索キー2の検索キー検索単語ID格納バッ
ファ4dの内容を示す図。
【図30】上位検索概念レベル0、下位検索概念レベル
2に対する検索キー1の検索キー検索単語ID格納バッ
ファ4dの内容を示す図。
【図31】上位検索概念レベル2、下位検索概念レベル
0に対する検索キー1の検索キー検索単語ID格納バッ
ファ4dの内容を示す図。
【図32】検索キー1に対して上位検索概念レベル0、
下位概念検索レベル0で求めた類似度を示す図。
【図33】検索キー2に対して上位検索概念レベル0、
下位概念検索レベル0で求めた類似度を示す図。
【図34】検索キー1に対して上位検索概念レベル0、
下位概念検索レベル2で求めた類似度を示す図。
【図35】検索キー2に対して上位検索概念レベル2、
下位概念検索レベル0で求めた類似度を示す図
【図36】類似文献検索処理の全体の流れを示すフロー
チャート図。
【図37】検索キー入力処理の流れを示すフローチャー
ト図。
【図38】概念階層レベル設定処理の流れを示すフロー
チャート図。
【図39】概念階層重み設定処理の流れを示すフローチ
ャート図。
【図40】類似文書検索処理の流れを示すフローチャー
ト図。
【図41】単語抽出手段3eの処理の流れを示すフロー
チャート図。
【図42】検索単語ID抽出処理の流れを示すフローチ
ャート図。
【図43】検索キー文書単語ID抽出処理の流れを示す
フローチャート図。
【図44】検索対象文書単語ID抽出処理の流れを示す
フローチャート図。
【図45】類似度算出手段の処理の流れを示すフローチ
ャート図。
【図46】類似文書選択処理の流れを示すフローチャー
ト図。
【図47】検索キー1「容器に液体を入れて加熱する」
という文書について、上位検索概念階層レベルを0とし
て、下位検索概念階層レベルを0とした場合の検索結果
を示す図。
【図48】検索キー1「容器に液体を入れて加熱する」
という文書について、上位検索概念階層レベルを0とし
て、下位検索概念階層レベルを2とした場合の検索結果
を示す図。
【図49】検索キー2「雨水を入れたビーカーを加熱す
る」という文書について、上位検索概念階層レベルを0
として、下位検索概念階層レベルを0とした場合の検索
結果を示す図。
【図50】検索キー2「雨水を入れたビーカーを加熱す
る」という文書について、上位検索概念階層レベルを2
として、下位検索概念階層レベルを0とした場合の検索
結果を示す図。
【符号の説明】
1a…制御装置、1b…入力装置、1c…表示装置、1
d…メモリ、1e…外部記憶装置、2a…プログラム
部、2b…バッファ部、3a…検索キー入力手段、3b
…表示手段、3c…検索概念階層レベル設定手段、3d
…概念階層重み設定手段、3e…単語抽出手段、3f…
検索単語ID抽出手段、3g…類似文書選択手段、3h
…類似度算出手段、4a…検索キー格納バッファ、4b
…検索対象文書格納バッファ、4c…検索キー抽出単語
格納バッファ、4d…検索キー検索単語ID格納バッフ
ァ、4e…検索対象文書単語格納バッファ、4f…検索
対象文書検索単語ID格納バッファ、4g…類似度格納
バッファ、4h…概念階層レベル格納バッファ、4i…
概念階層重み格納バッファ、4j…一時変数格納バッフ
ァ、5a…検索対象文書データベース、5b…形態素解
析文書、5c…シソーラス辞書
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 山崎 弘 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 Fターム(参考) 5B075 ND03 NK35 PP24 PR06 QM08 UU40

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】文書を検索キーとして辞書を用い、文書デ
    ータベースから所定の文書を検索する文書検索方法にお
    いて、 前記検索キーとなる文書から単語抽出を行う第一抽出ス
    テップと、 前記第一抽出ステップで抽出された単語について、所定
    の概念階層の範囲に含まれる単語を前記辞書から抽出す
    る第二抽出ステップと、 前記文書データベース中の文書から単語抽出を行う第三
    抽出ステップと、 前記第一抽出ステップ及び前記第二抽出ステップにおい
    て抽出された単語と、前記第三抽出ステップにおいて抽
    出された単語との間で、マッチング処理を行うマッチン
    グ処理ステップと、 このマッチング処理ステップでマッチング処理を行われ
    た単語のうち、前記第二抽出ステップにおいて抽出され
    た単語について、前記第一抽出ステップで抽出された単
    語に対して相対的に近い概念階層の単語について高い重
    み付けを行い、前記検索キー文書と前記文書データベー
    ス中の文書との間で類似度を計算する類似度計算ステッ
    プと、 この類似度計算ステップによる計算結果に応じて、検索
    結果を出力する出力ステップとを具備することを特徴と
    する文書検索方法。
  2. 【請求項2】前記文書検索方法は更に、所定の概念階層
    の範囲を設定する設定ステップを具備することを特徴と
    する請求項1記載の文書検索方法。
  3. 【請求項3】前記設定ステップにおいて、検索を実行す
    る概念階層として、上位概念の階層を設定することを可
    能とすることを特徴とする請求項2記載の文書検索方
    法。
  4. 【請求項4】前記設定ステップにおいて、検索を実行す
    る概念階層として、下位概念の階層を設定することを可
    能とすることを特徴とする請求項2または3記載の文書
    検索方法。
  5. 【請求項5】文書を検索キーとして辞書を用い、文書デ
    ータベースから所定の文書を検索する文書検索装置にお
    いて、 前記検索キーとなる文書から単語抽出を行う第一抽出手
    段と、 前記第一抽出手段が抽出した単語について、所定の概念
    階層の範囲に含まれる単語を前記辞書から抽出する第二
    抽出手段と、 前記文書データベース中の文書から単語抽出を行う第三
    抽出手段と、 前記第一抽出手段及び前記第二抽出手段が抽出した単語
    と、前記第三抽出手段が抽出した単語との間で、マッチ
    ング処理を行うマッチング処理手段と、 このマッチング処理手段がマッチング処理を行った単語
    のうち、前記第二抽出手段が抽出した単語について、前
    記第一抽出手段が抽出した単語に対して相対的に近い概
    念階層の単語について高い重み付けを行い、前記検索キ
    ー文書と前記文書データベース中の文書との間で類似度
    を計算する類似度計算手段と、 この類似度計算手段の計算結果に応じて、検索結果を出
    力する出力手段とを具備することを特徴とする文書検索
    装置。
  6. 【請求項6】前記文書検索装置は更に、ユーザが所定の
    概念階層の範囲を設定する設定手段を具備することを特
    徴とする請求項5記載の文書検索装置。
  7. 【請求項7】前記設定手段は、検索を実行する概念階層
    として、上位概念の階層を設定することが可能であるこ
    とを特徴とする請求項6記載の文書検索装置。
  8. 【請求項8】前記設定手段は、検索を実行する概念階層
    として、上位概念の階層を設定することが可能であるこ
    とを特徴とする請求項6又は7記載の文書検索装置。
  9. 【請求項9】文書を検索キーとして検索対象文書データ
    ベース中から類似文書を抽出する文書検索方法であっ
    て、 形態素解析辞書の情報を利用して検索キーおよび検索対
    象文書からの単語抽出を行い、 単語の上位概念・下位概念の関係を保持したシソーラス
    辞書を用いて所定の概念階層範囲内で、前記抽出された
    単語間でのマッチング処理を行い、 このマッチング処理の結果に基づき、文書間の類似度を
    計算し類似度の高い文書を検索結果として出力すること
    を特徴とする文書検索方法。
  10. 【請求項10】文書を検索キーとして検索対象文書デー
    タベース中から類似文書を抽出する文書検索装置であっ
    て、 形態素解析辞書の情報を利用して検索キーおよび検索対
    象文書からの単語抽出を行う抽出手段と、 単語の上位概念・下位概念の関係を保持したシソーラス
    辞書を用いて所定の概念階層範囲内で、前記抽出された
    単語間でのマッチング処理を行うマッチング手段と、 このマッチング処理の結果に基づき、文書間の類似度を
    計算し類似度の高い文書を検索結果として出力する出力
    手段とを具備することを特徴とする文書検索装置。
JP2001205569A 2001-07-06 2001-07-06 文書検索装置及び文書検索方法 Pending JP2003022277A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001205569A JP2003022277A (ja) 2001-07-06 2001-07-06 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001205569A JP2003022277A (ja) 2001-07-06 2001-07-06 文書検索装置及び文書検索方法

Publications (1)

Publication Number Publication Date
JP2003022277A true JP2003022277A (ja) 2003-01-24

Family

ID=19041856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001205569A Pending JP2003022277A (ja) 2001-07-06 2001-07-06 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP2003022277A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法
JP2008234218A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 情報検索システム及び情報検索方法
JP2012216082A (ja) * 2011-03-31 2012-11-08 Furyu Kk 画像管理システム、画像管理システムの制御方法、制御プログラム、および記録媒体
JP2016218586A (ja) * 2015-05-15 2016-12-22 富士ゼロックス株式会社 情報処理装置及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法
JP2008234218A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 情報検索システム及び情報検索方法
JP2012216082A (ja) * 2011-03-31 2012-11-08 Furyu Kk 画像管理システム、画像管理システムの制御方法、制御プログラム、および記録媒体
JP2016218586A (ja) * 2015-05-15 2016-12-22 富士ゼロックス株式会社 情報処理装置及びプログラム

Similar Documents

Publication Publication Date Title
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5257186A (en) Digital computing apparatus for preparing document text
JP2003532194A (ja) 言語間リーディングウィザードを用いたコンピュータ援用リーディングシステムおよび方法
JPH0675992A (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
JPS6211932A (ja) 情報検索方法
JP2005107597A (ja) 類似文検索装置、類似文検索方法、およびプログラム
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003022277A (ja) 文書検索装置及び文書検索方法
JP3290451B2 (ja) 電子辞書
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
Simard et al. TransSearch: A bilingual concordance tool
JPH0683812A (ja) 文書入力装置のかな漢字変換装置
JP2002132789A (ja) 文書検索方法
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP3041002B2 (ja) 仮名漢字変換方法及び仮名漢字変換装置
JP2007213157A (ja) 用例文検索装置および用例文検索方法
JP2002259426A (ja) 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム
JP2856450B2 (ja) かな漢字変換方式
JP2002099573A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JPS62245366A (ja) 文書処理装置
JP2866437B2 (ja) 用例辞書登録方法及び装置
JP2003173338A (ja) 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム
JP2720430B2 (ja) 文章入力装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606