JP2000339342A - 文書検索方法および文書検索装置 - Google Patents

文書検索方法および文書検索装置

Info

Publication number
JP2000339342A
JP2000339342A JP11152539A JP15253999A JP2000339342A JP 2000339342 A JP2000339342 A JP 2000339342A JP 11152539 A JP11152539 A JP 11152539A JP 15253999 A JP15253999 A JP 15253999A JP 2000339342 A JP2000339342 A JP 2000339342A
Authority
JP
Japan
Prior art keywords
document
phrase
documents
extracted
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11152539A
Other languages
English (en)
Other versions
JP3848014B2 (ja
Inventor
Tatsuya Dewa
達也 出羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP15253999A priority Critical patent/JP3848014B2/ja
Publication of JP2000339342A publication Critical patent/JP2000339342A/ja
Application granted granted Critical
Publication of JP3848014B2 publication Critical patent/JP3848014B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文書の内容に即した精度の高い文書の検索を可
能にする文書検索方法およびそれを用いた文書検索装置
を提供する。 【解決手段】複数の文書の中から入力された検索要求に
応じた文書を検索する文書検索方法において、前記文書
は複数の構成要素で構造化された文書であって、前記文
書の予め定めらた主たる構成要素の中から第1の語句を
抽出し、さらに、前記文書の前記主たる構成要素以外の
構成要素の中から前記第1の語句との間で所定の条件を
満たす第2の語句を抽出し、前記複数の文書のそれぞれ
から抽出された前記第1および第2の語句と前記検索要
求とに基づき文書を検索することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の文書の中か
ら検索要求に応じた文書を検索(キーワード検索、類似
文書検索)するための文書検索方法およびそれを用いた
文書検索装置に関する。
【0002】
【従来の技術】近年のパーソナルコンピューターの普及
に伴って大量の電子化文書が作成されるようになり、更
にコンピューターネットワークの普及に伴ってそれらの
大量の電子化文書へのアクセスが容易になってきた。し
かし、アクセス可能な文書が増えれば増えるほど、その
中からユーザが必要とする文書を探し出すのが困難にな
り、折角の情報が活用されないという事態になりかねな
い。そこで、大量の文書の中からユーザが必要としてい
るものを選び出す文書検索装置、とりわけ、タイトルや
作成者といった書誌情報だけでなく、文書の内容を利用
した全文検索技術を用いた文書検索装置への需要が高ま
りつつある。
【0003】
【発明が解決しようとする課題】従来の文書検索装置に
おいては、検索対象となる文書に対し、形態素解析処理
を施す等して語句を抽出し、抽出した語句を文書内出現
頻度や出現文書数で重み付けすることにより索引を作成
することが一般的に行われている。このような文書全体
から語句を抽出し索引を作成する方法は、特許明細書や
学術論文といった長い文書を対象とした場合、重要でな
い(当該文書の内容的な特徴を表した箇所でない)箇所
に出現する語句を抽出してしまうという問題がある。
【0004】このような問題を回避するため、特に、構
成が定型化された(構造化された)文書(構造化された
文書の例として、特許明細書や学術論文等があり、特許
明細書の場合、「特許請求の範囲」「発明の詳細な説
明」「発明の実施の形態」等の項目毎の構成要素があ
り、学術論文の場合、「アブストラクト」「本文」等の
構成要素がある)では、その文書の構成要素のうち、特
許明細書であれば請求項、学術論文等であればアブスト
ラクト等、その文書の要旨を簡潔に表現した主構成要素
だけから語句を抽出して索引を作成するという方法がと
られることもある。しかし、このような部分はより抽象
度の高い語で記述されることが多いため、ユーザの検索
要求がより具体的な語句で記述された場合には、検索結
果から洩れてしまう危険が大きい。
【0005】一方、ユーザがそのような危険を考慮して
抽象的な言葉で検索要求を記述した場合には、不要な文
書が多数マッチしてしまうという問題がある。
【0006】本発明はこのような実情に鑑みてなされた
ものであり、文書の内容を的確に表した語句を抽出して
当該文書の検索のために用いる索引を作成することによ
り、文書の内容に即した精度の高い文書の検索を可能に
する文書検索方法およびそれを用いた文書検索装置を提
供することを目的とする。
【0007】
【課題を解決するための手段】(1)本発明の文書検索
方法は、複数の文書の中から入力された検索要求に応じ
た文書を検索する文書検索方法において、前記文書は複
数の構成要素で構造化された文書であって、前記文書の
予め定めらた主たる構成要素の中から第1の語句を抽出
し、さらに、前記文書の前記主たる構成要素以外の構成
要素の中から前記第1の語句との間で所定の条件を満た
す第2の語句を抽出し、前記複数の文書のそれぞれから
抽出された前記第1および第2の語句と前記検索要求と
に基づき文書を検索することを特徴とする。
【0008】本発明の文書検索方法は、複数の文書の中
から入力された文書に類似する文書を検索するための文
書検索方法において、前記文書は複数の構成要素で構造
化された文書であって、前記入力された文書と検索対象
の前記複数の文書のそれぞれから、該文書の予め定めら
れた主たる構成要素の中から第1の語句を抽出し、さら
に、該文書の前記主たる構成要素以外の構成要素の中か
ら前記第1の語句との間で所定の条件を満たす第2の語
句を抽出し、前記入力された文書と前記検索対象の複数
の文書との間で、そのそれぞれから抽出された前記第1
および第2の語句の類似度を求めて、前記入力された文
書に類似する文書を前記検索対象の複数の文書の中から
検索することを特徴とする。
【0009】本発明によれば、文書の内容を的確に表し
た第1の語句(基本語)と第2の語句(拡張語)を抽出
して当該文書を検索するために用いる索引を作成するこ
とにより、文書の内容に即した精度の高い文書の検索を
可能にする。
【0010】好ましくは、予め定められた言語表現にて
前記第1の語句に関連付けられた語句を第2の語句とし
て抽出する。
【0011】また、好ましくは、前記第1の語句を項と
する述語と同じ述語の項になっている語句を第2の語句
として抽出する。
【0012】(2)本発明の文書検索装置は、複数の文
書の中から入力された検索要求に応じた文書を検索する
文書検索装置において、前記文書は複数の構成要素で構
造化された文書であって、前記文書の予められた主たる
構成要素の中から第1の語句を抽出する第1の抽出手段
と、前記文書の前記主たる構成要素以外の構成要素の中
から前記第1の語句との間で所定の条件を満たす第2の
語句を抽出する第2の抽出手段と、前記複数の文書のそ
れぞれから抽出された前記第1および第2の語句と前記
検索要求とに基づき文書を検索する検索手段と、を具備
したことを特徴とする。
【0013】本発明の文書検索装置は、複数の文書の中
から入力された文書に類似する文書を検索するための文
書検索装置において、前記文書は複数の構成要素で構造
化された文書であって、前記入力された文書と検索対象
の前記複数の文書のそれぞれから、該文書の予め定めら
れた主たる構成要素の中から第1の語句を抽出する第1
の抽出手段と、前記入力された文書と前記検索対象の複
数の文書のそれぞれから、前記主たる構成要素以外の構
成要素の中から前記第1の語句との間で所定の条件を満
たす第2の語句を抽出する第2の抽出手段と、前記入力
された文書と前記検索対象の複数の文書との間で、その
それぞれから抽出された前記第1および第2の語句の類
似度を求めて、前記入力された文書に類似する文書を前
記検索対象の複数の文書の中から検索する検索手段と、
を具備したことを特徴とする。
【0014】本発明によれば、文書の内容を的確に表し
た第1の語句(基本語)と第2の語句(拡張語)を抽出
して当該文書を検索するために用いる索引を作成するこ
とにより、文書の内容に即した精度の高い類似文書の検
索を可能にする。
【0015】好ましくは、予め定められた言語表現にて
前記第1の語句に関連付けられた語句を第2の語句とし
て抽出する。
【0016】また、好ましくは、前記第1の語句を項と
する述語と同じ述語の項になっている語句を第2の語句
として抽出する。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。
【0018】図1に、本実施形態にかかる文書検索装置
の機器構成例を示したものである。図1に示すように、
この実施形態の文書検索装置は、本発明の文書検索処理
を実行するためのプログラムや各種データを記憶する外
部記憶装置102、外部記憶装置102に記憶されたプ
ログラムを実行するCPU101、他のコンピュータか
ら公衆網、専用線等の通信ネットワークを介して所定の
データを読み込む通信装置103、検索要求等ユーザか
らの指示を入力するためのキーボード104、マウス1
05、検索結果等を表示する表示装置106をバスを介
して互いに接続してなる。
【0019】図2は、本実施形態にかかる文書検索装置
の機能ブロック図である。図2に示すように、この実施
形態の文書検索装置は、検索要求等ユーザからの指示を
入力する入力部201、検索結果を表示する出力部20
3、検索対象となる文書群を格納する文書格納部21
1、文書群から語句を抽出して索引を作成する索引作成
部204、文書群を検索するための索引を記憶する索引
格納部209、索引格納部209に格納された索引を参
照してユーザからの検索要求に適合した文書を選択する
文書検索部208、索引を作成したり、ユーザの検索要
求から語句を抽出するための語句抽出部205、検索対
象となる構造化された文書の構成要素を認識する文書構
造認識部210、ユーザからの指示により索引作成部2
04や文書検索部208を起動する制御部202からな
る。
【0020】語句抽出部205は、検索対象の文書の主
たる構成要素から基本語を抽出する基本語抽出部206
と、基本語に追加するための語句を主たる構成要素以外
の要素から抽出する拡張語抽出部207からなる。
【0021】図2の各構成部(出力部201、制御部2
02、入力部203、索引作成部204、語句抽出部2
05、文書検索部208、および文書構造認識部21
0)は、図1の外部記憶装置102に記録されてCPU
101によって実行制御されるプログラムとして構成さ
れ、また、索引格納部209および文書格納部211
は、外部記憶装置102または、通信装置103を介し
てつながっている他のコンピューターの外部記憶装置上
に構築されていてもよい。この場合、入力部203は図
1のキーボード104およびマウス105を介して入力
された検索要求等のユーザからの指示を受け取り、ま
た、出力部201は検索結果を図1の表示装置106に
表示するためのものである。
【0022】以上のような構成により、図2に示す文書
検索装置は、入力した文書の内容に類似する文書を検索
する(類似文書検索)。
【0023】なお、ここでは、検索対象の文書として、
例えば、図3(a)に示すような特許明細書を入力部2
03から入力し、類似特許検索を行う場合の各部の動作
について説明する。
【0024】検索に先立って、文書格納部211に既に
格納されている複数の特許明細書のそれぞれから索引を
作成しておく。索引の作成は、制御部202が索引作成
部204を呼び出すことにより行われる。
【0025】索引作成部204は、語句抽出部205を
呼び出して、文書格納部211に格納されている特許明
細書から語句を抽出し、抽出した語句から索引を作成す
る。語句抽出部205は、基本語抽出部206と拡張語
抽出部207とからなる。基本語抽出部206は、文書
構造認識部210を呼び出して、特許明細書の構成要素
のうち、「特許請求の範囲」という項目の構成要素の文
章のみを取り出し、取り出された文章全体から索引語句
を抽出する。拡張語抽出部207は、文書構造認識部2
10を呼び出して、特許明細書の構成要素のうち、「発
明の実施の形態」という項目の構成要素の文章のみを取
り出し、基本語抽出部206により抽出された索引語句
を拡張するための語句を抽出する。
【0026】制御部202は、入力部203から特許明
細書が入力されると、文書検索部208を呼び出す。文
書検索部208は、語句抽出部205を呼び出すことに
より、入力された特許明細書から語句を抽出する。さら
に、文書検索部208は、抽出された語句と、索引格納
部209に格納された索引を参照することにより、入力
された特許明細書と文書格納部209に格納された各文
書との間の類似度を計算する。制御部202は、類似度
の高い特許明細書のリストを出力部201よりユーザに
呈示する。
【0027】次に、索引作成部204の処理について、
図3(b)に示す特許明細書の索引を作成する場合を例
にとり詳述する。
【0028】図4に索引作成部204の処理の流れを示
す。索引作成部204は、文書格納部211から特許明
細書を1つずつ取り出して、索引を作成する。文書格納
部211では、1つの特許明細書が1つのファイルとし
て格納されており、各特許明細書には固有のファイル名
が付けられている。例えば、図3(b)に示す特許明細
書には「特開平01−999999.txt」というフ
ァイル名が付けられている。
【0029】索引格納部209では、各ファイルは番号
で管理されているため、各ファイルに番号を付けて登録
する(ステップS2)。次に、基本語の抽出を行う(ス
テップS3)。
【0030】図5に図4のステップ3の処理の流れを示
す。
【0031】図5において、まず、文書構造認識部21
0が呼び出されて、特許明細書の構成要素のうち、「特
許請求の範囲」という項目の構成要素の文章のみが取り
出される(ステップS11)。図3(b)の特許明細書
から取り出された「特許請求の範囲」に書かれた文章の
例を図7に示す。この「特許請求の範囲」に書かれた文
章に対し、形態素解析を施す(ステップS12)。形態
素解析の方法については広く公知であるのでここでは詳
述しない。
【0032】図7の文章に対して形態素解析を施した結
果の一部を図8に示す。図8では、1行に1形態素の情
報が出力されており、行頭からスペースで区切られて、
形態素表記、読み、基本形表記、品詞、品詞番号、細品
詞、細品詞番号、活用型、活用型番号、活用形、活用形
番号が並んでいる。情報がない場合は、「*」が記され
ている。
【0033】ステップS12の形態素解析の結果から、
名詞、動詞、形容詞、記号、未知語等の品詞を持った語
を索引語として抽出する(ステップS13)。図9は、
図8の形態素解析の結果から抽出された索引語のリスト
の一部を示したものである。
【0034】一方、ステップS12の形態素解析の結果
からは名詞句リストも抽出される(ステップS14)。
名詞句とは、ここでは、名詞、記号、未知語、形容詞語
幹、形容詞連体形の連接、あるいは助詞「の」を介した
連続を指す。図10は、図8の形態素解析の結果から抽
出された名詞句のリストの一部を示したものである。図
10において、左側が名詞句の表記で、名詞句が複数の
形態素から構成される場合は、形態素間の境界を「/」
で示している。右側は名詞句を構成する形態素の品詞を
記している。表記の場合と同様、形態素間の境界は
「/」で示している。
【0035】さらに、ステップS12の形態素解析の結
果から、対応関係にある述語と項のリスト(述語−項リ
スト)を抽出する(ステップS15)。なお、ここで
は、述語は動詞に限定しており、項は名詞句の形で抽出
する。図11は、図8の形態素解析の結果から抽出され
た述語−項リストの一部を示したものである。図11に
おいて、抽出された各述語に対し、その各述語が取る項
を右側に記している。一つの述語が複数の項を取る場合
は、項と項の間を「;」で区切っている。各項は、「表
記(品詞)」の形で記されており、1つの項が複数の形
態素で構成される場合は、形態素間の境界は「/」で示
している。
【0036】図4の説明に戻る。ステップS3で基本語
の抽出が終了したら、次に、図5のステップS14、ス
テップS15で抽出したリストを基に、ステップS13
で抽出された索引語リストの拡張を行う(ステップS
4)。
【0037】図6は、図4のステップS4の処理の流れ
を示したフローチャートである。
【0038】まず、文書構造認識部210が呼び出され
て、特許明細書の構成要素のうち、「発明の実施の形
態」に書かれた文章のみが取り出される(ステップS2
1)。図3(b)の特許明細書から取り出された「発明
の実施の形態」に書かれた文章の一部を図12に示す。
この「発明の実施の形態」に書かれた文章に対し、形態
素解析を施す(ステップS22)。形態素解析処理につ
いては、図5のステップS12と同様でよい。
【0039】形態素解析を施した結果から図5のステッ
プS15と同様にして、述語−項リストを抽出する(ス
テップS23)。図12の文章に対して形態素解析を施
した結果から抽出した述語−項リストを図13に示す。
形式は図11と同じである。
【0040】続いて、名詞句の言い換えを抽出する(ス
テップS24)。名詞句の言い換えは、図14に示すよ
うな文字列のパターンを予め用意しておき、これと文章
との照合を行うことにより実現する。例えば、パターン
番号「1」の文字列のパターンは、「としての」という
文字列の前後に名詞句が出現したとき、前に出現した名
詞句を拡張元名詞句として、後に出現した名詞句を拡張
名詞句として抽出する。このパターンを用いて、例え
ば、図12の文章中にある「広域の地名としての都道府
県名」という部分から、拡張元名詞句として「広域の地
名」が、拡張名詞句として「都道府県名」が抽出され
る。図12の文章から抽出された拡張元名詞句と拡張名
詞句との対応を示したリスト、すなわち、名詞句の言い
換えリストを図15に示す。
【0041】次に、ステップS23で抽出された述語−
項リストと、ステップS24で抽出された名詞句言い換
えリストを用いて、拡張語の選択を行う(ステップS2
5)。
【0042】図19は、図6のステップS25のに拡張
語選択処理の流れを示したフローチャートである。拡張
語選択処理としては、述語−項リストを用いる場合と、
名詞句の言い換えリストを用いる場合とがあるが、ここ
では、図19では、述語−項リストを用いる場合を例に
とり説明する。
【0043】「発明の実施の形態」の文章から抽出され
た述語−項リスト中の述語と項との組を1組ずつ取り出
し、全ての組について、図5のステップS15で「特許
請求の範囲」の文章から抽出された述語−項リスト中の
述語と照合する(ステップS31)。すなわち、「発明
の実施の形態」の文章から抽出された述語−項リストか
ら述語と項との組を1組取り出す(ステップS32)。
そして、この述語と同じ述語が「特許請求の範囲」の文
章から抽出された述語−項リスト中の述語にあるかどう
か調べる。同じものがない場合は、ステップS31に戻
り、「発明の実施の形態」の文章から抽出された述語−
項リストから次の述語と項との組を取り出す。
【0044】同じものがあった場合は(ステップS3
3)、「発明の実施の形態」の文章から抽出された述語
−項リスト中の当該述語の項を1つずつ調べる(ステッ
プS34、ステップS35)。すなわち、図5のステッ
プS14で「特許請求の範囲」の文章から抽出した名詞
句リストに「発明の実施の形態」の文章から抽出された
述語−項リスト中の当該述語の項と同じものがないかど
うか調べる(ステップS36)。同じものがあった場合
は、ステップS34に戻って次の項をチェックする。同
じものがなかった場合は、ステップS37に進み、当該
項を拡張語として登録し、再びステップS34に戻って
次の項をチェックする。ステップS35〜ステップS3
7の処理を「発明の実施の形態」の文章から抽出された
述語−項リスト中の当該述語の項がなくなるまで繰り返
す。
【0045】以上のようにして、図13に示した「発明
の実施の形態」の文章から抽出された述語−項リストの
みを用いて拡張語を選択してもよいし、これに換えて、
図15の名詞句の言い換えリストを用いて拡張語を選択
してもよい。さらに、述語−項リストと名詞句の言い換
えリストを両方用いて拡張語を選択してもよい。
【0046】すなわち、図9に示すような手順にて拡張
語を選択した後、次に、図6のステップS24にて「発
明の実施の形態」の文章から抽出された図15に示した
ような名詞句の言い換えリストにある拡張元名詞句と同
じ名詞句が図5のステップS14で「特許請求の範囲」
の文章から抽出した名詞句リストに存在するか否か調べ
る。同じものがあった場合は、その名詞句の言い換えリ
ストの拡張元名詞句に対応する拡張名詞句を拡張語とす
る。このとき、すでに拡張語として選択済みの拡張名詞
句は無視する。
【0047】なお、図15に示すような名詞句の言い換
えリストを用いて拡張語を選択した後に、図13に示す
ような述語−項リストを用いて拡張語を選択してもよ
い。
【0048】図13の述語−項リストと図15名詞句の
言い換えリストとを両方用いて得られた拡張語を図16
に示す。
【0049】図6の説明に戻り、ステップS26では、
ステップS25で選択された、名詞句の形の拡張語を単
語に展開する。例えば、図16の拡張語を単語に展開し
たものを図17に示す。ここでは、拡張語の出現頻度を
一律「1」であるとして、展開された単語の頻度を計算
している。
【0050】図5のステップS13で抽出された図9に
示したような索引語リストに図6のステップS25〜ス
テップS26で抽出されて、単語に展開された拡張語
(図17参照)を追加したものを図18に示す。図18
において、索引語番号「18」〜「20」が新たに追加
された語、すなわち、拡張語である。
【0051】ここで再び図4の説明に戻る。次の処理は
ステップS5である。ステップS5では、ステップS4
までに得られた索引語とその出現頻度の情報を頻度表に
書き出す。ここで作成される頻度表が索引格納部209
に格納される索引に相当する。
【0052】頻度表の例を図20に示す。縦軸に各文書
の格納されているファイルを識別するためのファイル番
号、横軸に基本語および拡張語として抽出された単語の
それぞれを識別するための単語番号が取られ、どのファ
イルに、どの単語が何回出現したかが記されている。
【0053】以上のような処理(図4参照)を、文書格
納部211中の全ての特許明細書のファイルに対して実
行する。文書格納部211中の全ての特許明細書のファ
イルに対して処理を終えると、ステップS6で、各索引
語の文書頻度を数える。各索引語の文書頻度は、頻度表
を縦に読んで、出現頻度が「1」以上のファイルの数を
数えることにより得られる。各索引語の文書頻度を算出
した例を図21に示す。
【0054】次に、文書検索部208の処理について、
図3(a)に示す特許明細書に類似する特許明細書を検
索する場合を例にとり詳述する。図22に文書検索部2
08の処理の流れを示す。
【0055】入力部203より入力された図3(a)に
示したような特許明細書に対し、基本語が抽出される
(ステップS41)。ステップS41での処理は図4の
ステップS3の処理と同様である。図3(a)に示す特
許明細書を入力としたとき、基本語抽出処理の過程で得
られる情報を図23〜26に示す。図23は、図3
(a)に示す特許明細書から抽出された「特許請求の範
囲」の文章である。図24は、図23の文章に形態素解
析を施した結果から抽出した索引語リストである。図2
5は、図23の文章に形態素解析を施した結果から抽出
した名詞句リストである。図26は、図23の文章に形
態素解析を施した結果から抽出した述語−項リストであ
る。同じく入力部203より入力された特許明細書に対
して、ステップS42で拡張語が抽出される。ステップ
S42での処理は図4のステップS4と同様である。
【0056】図3(a)に示す特許明細書を入力とした
とき、拡張語抽出処理の過程で得られるデータを図27
〜31に示す。図27は、図3(a)に示す特許明細書
から抽出された「発明の実施の形態」の文章である。図
28は、図27の文章から抽出した述語−項のリストで
ある。図27の文章からは、名詞句の言い換えは1つも
抽出されなかった。図29は、図28の述語−項リスト
を用いて選択された拡張語である。図30は、図29の
拡張語を単語に展開したものである。図31は、図24
の索引語リストに、図30の拡張語を加えたものであ
る。
【0057】ステップS43では、ステップS41、S
42で抽出された語句を用い、索引格納部209に格納
されている索引語リストを参照して、文書格納部211
に格納された各特許明細書との類似度を計算する。例え
ば、図3(a)の特許明細書と図3(b)の特許明細書
との類似度の計算は、図31の索引語と図18の索引語
とを比較することにより行われる。文書中に出現する単
語の頻度情報を用いた文書間類似度の計算方法には様々
な方法が知られているが、ここではどのようなものを用
いてもよい。
【0058】例えば、各文書毎にその各索引語のtf・
idf値を次式から求める。
【0059】tf・log(N/df) tf:当該索引語の当該文書中における出現頻度 N :総文書数 df:当該索引語の文書頻度 そして、索引語番号を次元にとり索引語番号に対応する
索引語のtf・idf値を各次元の要素とする特徴ベク
トルを求める。入力された文書(すなわち、ここでは、
図3(a)の特許明細書)と検索対象の文書(例えば、
図3(b)の特許明細書)のそれぞれについて、特徴ベ
クトルを求める。あるいは、tf・idf値の替わり
に、各文書毎に索引語番号に対するその文書内での当該
索引語の出現頻度を特徴ベクトルの要素としてもよい。
【0060】図24に示した索引語リストを基に索引語
の出現頻度を用いて作成された図3(b)に示した特許
明細書の特徴ベクトルの一部を次式に示す。
【0061】
【数1】
【0062】そして、入力された文書(すなわち、ここ
では、図3(a)の特許明細書)と検索対象の文書(例
えば、図3(b)の特許明細書)のそれぞれについて、
特徴ベクトルを求めて、これらの間で内積を算出して、
それを入力された文書と文書格納部211に格納されて
いる各文書との間の類似度としてもよい。なお、内積の
代わりにコサイン距離を求めてもよい。この場合、類似
度の値が大きいほど類似度が高くなる。
【0063】ステップS43で計算された入力された文
書と文書格納部211に格納されている各文書との間の
類似度は、その値が大きい順にソートされ(ステップS
44)、上位n位(nは正の整数)の特許明細書のファ
イル名が出力部201に出力される(ステップS4
5)。
【0064】上述したような処理によれば、文書検索の
精度を向上させることができる。例えば、図3(a)の
特許明細書と、図3(b)の特許明細書とでは、どちら
も都道府県名と市区郡名とを対応付けて辞書に格納して
いるにもかかわらず、どちらの特許請求の範囲にも「都
道府県名」「市区郡名」という語は出現しない。そのた
め、拡張語抽出部207を持たない従来の文書検索装置
では、特許請求の範囲の文章だけから索引語を抽出した
場合、図3(a)の特許明細書と図3(b)の特許明細
書との間の高い類似度は得られない。これに対して本発
明の文書検索装置では、図3(a)の特許明細書におい
ても、図3(b)の特許明細書においても、特許請求の
範囲に出現しない「都道府県名」と「市区郡名」という
語が拡張語として索引語に追加されるため両者の間で高
い類似度が得られる。
【0065】なお、上記実施形態では、検索要求として
入力した文書に類似する文書の検索要求の場合を例にと
り説明したが、この場合に限らず、種々変形して応用可
能である。例えば、文書検索部208での検索処理は、
入力されたキーワードに合致する文書の検索要求の場合
であっても、上記同様にして(すなわち、キーワードと
索引語との類似度を求める)文書を検索することが可能
である。
【0066】また、上記実施形態では、索引語として、
主に名詞、動詞のみを抽出しているが、この場合に限る
ものではなく、種々変形して応用可能である。例えば、
これらに加えて例えば形容詞、副詞等を選択してもよい
し、動詞を選択しなくてもよい。
【0067】また、ここでは、検索対象の文書が特許明
細書である場合を例にとり説明しているため、その内容
の特徴を最も適切に記述している「特許請求の範囲」と
いう項目の文章から基本語を抽出し、基本語に関連する
拡張語(例えば、基本語をより具体化して表現している
拡張語)を「発明の実施の形態」という項目の文章から
抽出しているが、この場合に限るものではない。また、
検索対象の文書が学術論文であれば、基本語を「アブス
トラクト」から抽出し、その基本語に関連する拡張語を
本文から抽出するようにしてもよい。このように、検索
対象の文書がどのような文書であるにしろ、基本語は、
その文書の内容の特徴を最も適切に記述している構成要
素から抽出し、拡張語は、それより詳細な記述がなされ
ている構成要素から抽出することが望ましい。
【0068】図32は、上記実施形態で説明した文書検
索装置を適用した類似文書検索を行う他の文書検索装置
の構成を概略的に示したものである。図32に示した類
似文書検索装置では、まず、入力した文書の類似文書を
検索するに先だって、当該文書の大まかな分類を行う。
例えば、文書の内容に応じて複数のクラス(例えば、電
気、機械、化学等)が用意されているとする。各クラス
は、例えば、そのクラスに属する文書にてよく使われる
単語を羅列した辞書を有し、この辞書の単語と入力され
た文書内の単語とを照合して(類似度を算出して)、最
も類似するクラスを特定する。このとき求めることがで
きる当該文書中に出現する単語と、その出現頻度は、先
に説明した図9に示したような索引語リストの作成の際
に用いてもよい。
【0069】この大分け分類処理部においては、クラス
の特定された文書は、例えば、その文書中の単語と出現
頻度とに基づき、より詳細なサブクラスに分類され、さ
らに、サブクラスの特定された文書はより詳細なグルー
プに分類され、さらに、グループの特定された文書はよ
り詳細なサブグループに分類されてもよい。
【0070】次に、類似文書検索処理部において、上記
実施形態にて説明した類似文書の検索を行い、検索され
た類似文書のリストを出力する。
【0071】なお、ここでの検索結果を大分け分類処理
および類似文書検索処理にフィードバックすることによ
り、より精度の高い(ヒット率の高い)類似文書の検索
が可能になる。すなわち、例えば、大分け分類処理にお
いて得られた入力された文書から抽出された単語を当該
文書の属するサブグループ、グループ、サブクラス、ク
ラスの辞書に追加する。また、検索された類似文書の索
引語リストに当該入力文書にはあって類似文書にはない
単語を追加する。
【0072】図32に示した文書検索装置もコンピュー
タに実行させることのできるプログラムとして、磁気デ
ィスク(フロッピーディスク、ハードディスクなど)、
光ディスク(CD−ROM、DVDなど)、半導体メモ
リなどの記録媒体に格納して頒布することもできる。
【0073】以上説明したように上記実施形態によれ
ば、文書中の予め定められた構成要素の文章から索引語
を抽出し、他の構成要素の文章中から適切な語を拡張語
として抽出して索引語に追加することにより、大量の文
書の中からユーザの検索要求に合致する文書を高精度に
選択できるようになる。
【0074】
【発明の効果】以上説明したように、本発明によれば、
文書の内容に即した精度の高い文書の検索を可能にす
る。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る文書検索装置の機器
構成例を示した図。
【図2】本発明の一実施形態に係る文書検索装置の機能
ブロック図。
【図3】入力部より入力される特許明細書の例と、文書
格納部に格納される特許明細書の具体例を示した図。
【図4】索引作成部における索引作成処理動作を説明す
るためのフローチャート。
【図5】基本語抽出処理動作を説明するためのフローチ
ャート。
【図6】拡張語抽出処理動作を説明するためのフローチ
ャート。
【図7】図3(b)の特許明細書中の「特許請求の範
囲」という項目に書かれた文章を示した図。
【図8】図7の文章に対し形態素解析を行った結果を示
した図。
【図9】図8の形態素解析の結果から抽出した索引語リ
ストの一例を示した図。
【図10】図8の形態素解析の結果から抽出した名詞句
リストの一例を示した図。
【図11】図8の形態素解析の結果から抽出した述語−
項リストの一例を示した図。
【図12】図3(b)の特許明細書中の「発明の実施の
形態」という項目に書かれた文章を示した図。
【図13】図12の文章に対し形態素解析を施した結果
から抽出した述語−項リストの一例を示した図。
【図14】名詞句の言い換えを抽出するための文字列パ
ターンの一例を示した図。
【図15】図12の文章に形態素解析を施した結果から
抽出された名詞句の言い換えリストの一例を示した図。
【図16】図13の述語−項リストと図15の名詞句の
言い換えリストとを用いて選択した拡張語の一例を示し
た図。
【図17】図16の拡張語を単語に展開した場合を示し
た図。
【図18】図9の索引語リストに拡張語を追加して得ら
れた索引語リストの一例を示した図。
【図19】拡張語選択処理動作を説明するためのフロー
チャート。
【図20】頻度表の一例を示した図。
【図21】索引語の文書頻度の算出結果を示した図。
【図22】文書検索部における文書検索処理動作を説明
するためのフローチャート。
【図23】図3(a)に示す特許明細書中の「特許請求
の範囲」という項目に書かれた文章を示した図。
【図24】図23の文章に対し形態素解析を施した結果
から抽出した索引語リストの一例を示した図。
【図25】図23の文章に形態素解析を施した結果から
抽出した名詞句リストの一例を示した図。
【図26】図23の文章に形態素解析を施した結果から
抽出した述語−項リストの一例を示した図。
【図27】図3(a)に示した特許明細書中の「発明の
実施の形態」という項目の文章を示した図。
【図28】図27の文章に形態素解析を施した結果から
抽出した述語−項リストの一例を示した図。
【図29】図28の述語−項リストを用いて選択された
拡張語の一例を示した図。
【図30】図29の拡張語を単語に展開した場合を示し
た図。
【図31】図24の索引語リストに、図30の拡張語を
追加して得られた索引語リストの一例を示した図。
【図32】他の文書検索装置の構成例を示した図。
【符号の説明】
201…出力部 202…制御部 203…入力部 204…索引作成部 205…語句抽出部 206…基本語抽出部 207…拡張語抽出部 208…文書検索部 209…索引格納部 210…文書構造認識部 211…文書格納部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書の中から入力された検索要求
    に応じた文書を検索する文書検索方法において、 前記文書は複数の構成要素で構造化された文書であっ
    て、 前記文書の予め定められた主たる構成要素の中から第1
    の語句を抽出し、さらに、前記文書の前記主たる構成要
    素以外の構成要素の中から前記第1の語句との間で所定
    の条件を満たす第2の語句を抽出し、前記複数の文書の
    それぞれから抽出された前記第1および第2の語句と前
    記検索要求とに基づき文書を検索することを特徴とする
    文書検索方法。
  2. 【請求項2】 複数の文書の中から入力された文書に類
    似する文書を検索するための文書検索方法において、 前記文書は複数の構成要素で構造化された文書であっ
    て、 前記入力された文書と検索対象の前記複数の文書のそれ
    ぞれから、該文書の予め定められた主たる構成要素の中
    から第1の語句を抽出し、さらに、該文書の前記主たる
    構成要素以外の構成要素の中から前記第1の語句との間
    で所定の条件を満たす第2の語句を抽出し、前記入力さ
    れた文書と前記検索対象の複数の文書との間で、そのそ
    れぞれから抽出された前記第1および第2の語句の類似
    度を求めて、前記入力された文書に類似する文書を前記
    検索対象の複数の文書の中から検索することを特徴とす
    る文書検索方法。
  3. 【請求項3】 予め定められた言語表現にて前記第1の
    語句に関連付けられた語句を第2の語句として抽出する
    ことを特徴とする請求項1または2記載の文書検索方
    法。
  4. 【請求項4】 前記第1の語句を項とする述語と同じ述
    語の項になっている語句を第2の語句として抽出するこ
    とを特徴とする請求項1または2記載の文書検索方法。
  5. 【請求項5】 複数の文書の中から入力された検索要求
    に応じた文書を検索する文書検索装置において、 前記文書は複数の構成要素で構造化された文書であっ
    て、 前記文書の予められた主たる構成要素の中から第1の語
    句を抽出する第1の抽出手段と、 前記文書の前記主たる構成要素以外の構成要素の中から
    前記第1の語句との間で所定の条件を満たす第2の語句
    を抽出する第2の抽出手段と、 前記複数の文書のそれぞれから抽出された前記第1およ
    び第2の語句と前記検索要求とに基づき文書を検索する
    検索手段と、 を具備したことを特徴とする文書検索装置。
  6. 【請求項6】 複数の文書の中から入力された文書に類
    似する文書を検索するための文書検索装置において、 前記文書は複数の構成要素で構造化された文書であっ
    て、 前記入力された文書と検索対象の前記複数の文書のそれ
    ぞれから、該文書の予め定められた主たる構成要素の中
    から第1の語句を抽出する第1の抽出手段と、 前記入力された文書と前記検索対象の複数の文書のそれ
    ぞれから、前記主たる構成要素以外の構成要素の中から
    前記第1の語句との間で所定の条件を満たす第2の語句
    を抽出する第2の抽出手段と、 前記入力された文書と前記検索対象の複数の文書との間
    で、そのそれぞれから抽出された前記第1および第2の
    語句の類似度を求めて、前記入力された文書に類似する
    文書を前記検索対象の複数の文書の中から検索する検索
    手段と、 を具備したことを特徴とする文書検索装置。
  7. 【請求項7】 前記第2の抽出手段は、予め定められた
    言語表現にて前記第1の語句に関連付けられた語句を第
    2の語句として抽出することを特徴とする請求項5また
    は6記載の文書検索装置。
  8. 【請求項8】 前記第2の抽出手段は、前記第1の語句
    を項とする述語と同じ述語の項になっている語句を第2
    の語句として抽出することを特徴とする請求項5または
    6記載の文書検索装置。
  9. 【請求項9】 複数の文書の中から入力された検索要求
    に応じた文書を検索するためのプログラムを記憶した機
    械読み取り可能な記憶媒体であって、 前記文書は複数の構成要素で構造化された文書であり、 前記文書の予められた主たる構成要素の中から第1の語
    句を抽出させる第1の抽出手段と、 前記文書の前記主たる構成要素以外の構成要素の中から
    前記第1の語句との間で所定の条件を満たす第2の語句
    を抽出させる第2の抽出手段と、 前記複数の文書のそれぞれから抽出された前記第1およ
    び第2の語句と前記検索要求とに基づき文書を検索させ
    る検索手段と、 を実行するプログラムを記憶した記憶媒体。
  10. 【請求項10】 複数の文書の中から入力された文書に
    類似する文書を検索するためのプログラムを記憶した機
    械読み取り可能な記憶媒体であって、 前記文書は複数の構成要素で構造化された文書であり、 前記入力された文書と検索対象の前記複数の文書のそれ
    ぞれから、該文書の予め定められた主たる構成要素の中
    から第1の語句を抽出させる第1の抽出手段と、 前記入力された文書と前記検索対象の複数の文書のそれ
    ぞれから、前記主たる構成要素以外の構成要素の中から
    前記第1の語句との間で所定の条件を満たす第2の語句
    を抽出させる第2の抽出手段と、 前記入力された文書と前記検索対象の複数の文書との間
    で、そのそれぞれから抽出された前記第1および第2の
    語句の類似度を求めて、前記入力された文書に類似する
    文書を前記検索対象の複数の文書の中から検索させる検
    索手段と、 を実行するプログラムを記録した記憶媒体。
  11. 【請求項11】 前記第2の抽出手段は、予め定められ
    た言語表現にて前記第1の語句に関連付けられた語句を
    第2の語句として抽出させることを特徴とする請求項9
    または10記載の記憶媒体。
  12. 【請求項12】 前記第2の抽出手段は、前記第1の語
    句を項とする述語と同じ述語の項になっている語句を第
    2の語句として抽出させることを特徴とする請求項9ま
    たは10記載の記憶媒体。
JP15253999A 1999-05-31 1999-05-31 文書検索方法および文書検索装置 Expired - Fee Related JP3848014B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15253999A JP3848014B2 (ja) 1999-05-31 1999-05-31 文書検索方法および文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15253999A JP3848014B2 (ja) 1999-05-31 1999-05-31 文書検索方法および文書検索装置

Publications (2)

Publication Number Publication Date
JP2000339342A true JP2000339342A (ja) 2000-12-08
JP3848014B2 JP3848014B2 (ja) 2006-11-22

Family

ID=15542671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15253999A Expired - Fee Related JP3848014B2 (ja) 1999-05-31 1999-05-31 文書検索方法および文書検索装置

Country Status (1)

Country Link
JP (1) JP3848014B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030237A (ja) * 2001-07-11 2003-01-31 Just Syst Corp ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2005227994A (ja) * 2004-02-12 2005-08-25 Shiyoufuu:Kk 特許・実用新案文献検索システムおよびプログラム
JP2018133077A (ja) * 2017-02-17 2018-08-23 雲拓科技有限公司 特許検索キーワードを薦める方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030237A (ja) * 2001-07-11 2003-01-31 Just Syst Corp ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2005227994A (ja) * 2004-02-12 2005-08-25 Shiyoufuu:Kk 特許・実用新案文献検索システムおよびプログラム
JP4505236B2 (ja) * 2004-02-12 2010-07-21 株式会社松風 特許・実用新案文献検索システムおよびプログラム
JP2018133077A (ja) * 2017-02-17 2018-08-23 雲拓科技有限公司 特許検索キーワードを薦める方法

Also Published As

Publication number Publication date
JP3848014B2 (ja) 2006-11-22

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US10552467B2 (en) System and method for language sensitive contextual searching
JP2742115B2 (ja) 類似文書検索装置
Chen et al. Towards robust unsupervised personal name disambiguation
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JP2008117351A (ja) 検索システム
Pouliquen et al. Automatic construction of multilingual name dictionaries
JP2000112949A (ja) 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
Azmi et al. Modern information retrieval in Arabic–catering to standard and colloquial Arabic users
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2009086903A (ja) 検索サービス装置
Khan et al. Metadata for Efficient Management of Digital News Articles in Multilingual News Archives
JP3848014B2 (ja) 文書検索方法および文書検索装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2008090396A (ja) 電子文書検索方法、電子文書検索装置及びプログラム
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2
KR20200122089A (ko) 지역 색인을 이용한 전자문서 검색 방법 및 장치
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060824

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130901

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees