JP4569179B2 - ドキュメント検索装置 - Google Patents

ドキュメント検索装置 Download PDF

Info

Publication number
JP4569179B2
JP4569179B2 JP2004166213A JP2004166213A JP4569179B2 JP 4569179 B2 JP4569179 B2 JP 4569179B2 JP 2004166213 A JP2004166213 A JP 2004166213A JP 2004166213 A JP2004166213 A JP 2004166213A JP 4569179 B2 JP4569179 B2 JP 4569179B2
Authority
JP
Japan
Prior art keywords
keyword
classification code
classification
document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004166213A
Other languages
English (en)
Other versions
JP2005346486A (ja
Inventor
奨 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004166213A priority Critical patent/JP4569179B2/ja
Publication of JP2005346486A publication Critical patent/JP2005346486A/ja
Application granted granted Critical
Publication of JP4569179B2 publication Critical patent/JP4569179B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、特許文献や科学技術文献などのドキュメントをデータベースから検索するドキュメント検索装置に関する。
科学技術文献や特許文献など、文献資料の蓄積量は年々増える一方であり、膨大な文献資料から目的の文献資料を見つけ出すための技術が求められている。例えば特許文献であれば、国際特許分類(IPC)により、技術分野を限定して検索を行うことで、目的の文献資料が見つけやすくなるよう工夫されている。なお、英語文献と日本語文献とを一斉に検索させる装置が、特許文献1に開示されている。
特開2001−337981号公報
しかしながら、上記従来の検索技術などでは、ドキュメントデータベースに格納されている全ドキュメントについてキーワード検索を行うこととなるため、例えば「振動」のようなキーワードでは広範なドキュメントに含まれる可能性が大きく、キーワードのみで絞込むことが困難となる。
一方、分類符号(例えば国際特許分類など)で絞込むことで検索精度を向上できることが経験的に知られているが、検索のキーとなる分類符号の選択は容易なものではない。
本発明は上記実情に鑑みて為されたもので、検索のキーとなる分類符号の選択を支援し、ドキュメントの検索を容易にできるドキュメント検索装置を提供することを、その目的の一つとする。
上記従来例の問題点を解決するための本発明は、分類符号に関連づけられた複数のドキュメントを保持するドキュメントデータベースにアクセス可能に接続され、当該ドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索するドキュメント検索装置であって、検索条件となるテキストの入力を受け入れる手段と、前記テキストから第1の検索キーとなる文字列をキーワードとして少なくとも一つ抽出するキーワード抽出手段と、前記ドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得するリスト取得手段と、前記キーワードごとの分類符号のリストを用いて、第2の検索キーとなるキー分類符号を決定する決定手段と、前記決定手段によって決定されたキー分類符号を用いて、前記ドキュメントデータベースから、当該キー分類符号に係る第2ドキュメント群を取得する検索手段と、を備え、前記第2ドキュメント群が、検索結果として提示されることを特徴としている。
また上記従来例の問題点を解決するための本発明は、分類符号に関連づけられた複数のドキュメントを保持する第1ドキュメントデータベースと、前記分類符号の検索インデックスを有する第2ドキュメントデータベースとにアクセス可能に接続され、当該第1又は第2のドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索するドキュメント検索装置であって、検索条件となるテキストの入力を受け入れる手段と、前記テキストから第1の検索キーとなる文字列をキーワードとして少なくとも一つ抽出するキーワード抽出手段と、前記第1のドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得するリスト取得手段と、前記キーワードごとの分類符号のリストを用いて、第2の検索キーとなるキー分類符号を決定する決定手段と、前記決定手段によって決定されたキー分類符号を用いて、前記第1又は第2の少なくとも一方のドキュメントデータベースから、当該キー分類符号に係る第2ドキュメント群を取得する検索手段と、を備え、前記第2ドキュメント群が、検索結果として提示されることを特徴としている。
ここで、分類符号と、分類符号に係る文字列を関連付けて保持する分類符号データベースにアクセス可能に接続されており、前記決定手段によって決定されたキー分類符号に係る文字列を、前記分類符号データベースから取得し、当該取得した文字列を提示する提示手段をさらに含むこととしてもよい。
また、前記テキストから抽出したキーワードに基づいて、入力されたテキストの内容に関係する中心概念語を取得し、当該中心概念語に関係する分類符号の少なくとも一部を取得して、キーワードごとの分類符号の第2のリストを生成する第2リスト生成手段をさらに含み、前記決定手段は、前記キーワードごとの分類符号のリストと、第2のリストとを用いて、第2の検索キーとなるキー分類符号を決定することとしてもよい。このとき、前記抽出したキーワードの少なくとも一部を所定のルールに従って選択して、当該選択したキーワードを、入力されたテキストの内容に関係する中心概念語として取得することとしてもよい。
また、上記従来例の問題点を解決するための本発明は、分類符号に関連づけられた複数のドキュメントを保持するドキュメントデータベースにアクセス可能に接続されたコンピュータを用い、当該ドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索するドキュメント検索方法であって、検索条件となるテキストの入力を受け入れ、前記テキストから第1の検索キーとなる文字列をキーワードとして少なくとも一つ抽出し、前記ドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得し、前記キーワードごとの分類符号のリストを用いて、第2の検索キーとなるキー分類符号を決定し、前記当該決定されたキー分類符号を用いて、前記ドキュメントデータベースから、当該キー分類符号に係る第2ドキュメント群を取得して、前記第2ドキュメント群が、検索結果として提示されることを特徴としている。
また、上記従来例の問題点を解決するための本発明は、分類符号に関連づけられた複数のドキュメントを保持する第1ドキュメントデータベースと、前記分類符号の検索インデックスを有する第2ドキュメントデータベースとにアクセス可能に接続されたコンピュータを用い、当該第1又は第2のドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索するドキュメント検索方法であって、検索条件となるテキストの入力を受け入れ、前記テキストから第1の検索キーとなる文字列をキーワードとして少なくとも一つ抽出し、前記第1のドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得し、前記キーワードごとの分類符号のリストを用いて、第2の検索キーとなるキー分類符号を決定し、前記決定手段によって決定されたキー分類符号を用いて、前記第1又は第2の少なくとも一方のドキュメントデータベースから、当該キー分類符号に係る第2ドキュメント群を取得して、前記第2ドキュメント群が、検索結果として提示されることを特徴としている。
さらに上記従来例の問題点を解決するための本発明は、分類符号に関連づけられた複数のドキュメントを保持するドキュメントデータベースにアクセス可能に接続されたコンピュータに、当該ドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索させるドキュメント検索プログラムであって、検索条件となるテキストの入力を受け入れる手順と、前記テキストから第1の検索キーとなる文字列をキーワードとして少なくとも一つ抽出する手順と、前記ドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得する手順と、前記キーワードごとの分類符号のリストを用いて、第2の検索キーとなるキー分類符号を決定する手順と、前記当該決定されたキー分類符号を用いて、前記ドキュメントデータベースから、当該キー分類符号に係る第2ドキュメント群を取得する手順と、をコンピュータに実行させ、前記第2ドキュメント群が、検索結果として提示されることを特徴としている。
さらに、上記従来例の問題点を解決するための本発明は、分類符号に関連づけられた複数のドキュメントを保持する第1ドキュメントデータベースと、前記分類符号の検索インデックスを有する第2ドキュメントデータベースとにアクセス可能に接続されたコンピュータに、当該第1又は第2のドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索させるプログラムであって、検索条件となるテキストの入力を受け入れる手順と、前記テキストから第1の検索キーとなる文字列をキーワードとして少なくとも一つ抽出する手順と、前記第1のドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得する手順と、前記キーワードごとの分類符号のリストを用いて、第2の検索キーとなるキー分類符号を決定する手順と、前記決定手段によって決定されたキー分類符号を用いて、前記第1又は第2の少なくとも一方のドキュメントデータベースから、当該キー分類符号に係る第2ドキュメント群を取得する手順と、をコンピュータに実行させ、前記第2ドキュメント群が、検索結果として提示されることを特徴としている。
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係るドキュメント検索装置は、図1に示すように、制御部11と、記憶部12と、ストレージ部13と、操作部14と、表示部15とを含んで構成されている。
制御部11は、CPU(Central Processing Unit)などによって実現され、記憶部12に格納されているプログラムに従って動作している。本実施の形態では、制御部11は、検索条件からキーワードを抽出する処理と、当該抽出したキーワードを用いて、検索キーとなる分類符号(キー分類符号)を決定する処理と、当該キー分類符号を用いたドキュメントの検索を行う処理と、を実行する。これらの具体的な処理の内容については、後に詳しく説明する。
記憶部12は、RAM(Random Access Memory)等のメモリ素子を含んで構成され、制御部11によって実行されるプログラムを格納している。この記憶部12はまた、制御部11の処理の過程で利用される種々のデータを保持するワークメモリとしても動作する。
ストレージ部13は、例えばハードディスク装置等のコンピュータ可読な記録媒体を含んで構成され、制御部11によって実行されるプログラムを格納している。制御部11によって処理が行われるときには、このプログラムがストレージ部13から読出されて記憶部12に格納され、処理に供されることとなる。また、このストレージ部13は、予め分類符号が付与されている複数のドキュメントを保持するドキュメントデータベースを格納している。さらに、ストレージ部13は、キーワードと、当該キーワードに関するドキュメントに割当てるべき分類符号とを関連付けて記憶する辞書データベースを保持している。
具体的に、ストレージ部13が保持しているドキュメントデータベースには、複数のドキュメントと、各ドキュメントに関連付けられた分類符号とが保持されている(図2)。本実施の形態の説明では、具体的な例として、このドキュメントが特許文献と、科学技術文献とである場合を例として説明する。
また、各ドキュメントには、その発行時期・発行機関等に応じて、例えば特許文献であれば国際特許分類のうち、所定の版(例えば2000年1月以降であれば第7版)の種類の分類符号が付与されているのが普通であるが、本実施の形態においては、このドキュメントデータベースに格納されたドキュメントに付与されている分類符号は、予め一種類の分類符号(統一符号)に統一されている。
例えば、国際特許分類の第7版の分類符号に統一する場合、ドキュメントデータベースに格納するドキュメントのうち、国際特許分類第7版以外の分類符号が付与されているものについては、各種類の分類符号間に対応表(いわゆるコンコーダンス表)を用い、例えば国際特許分類第6版の分類符号が付与されているドキュメントについては、第6版から第7版へのコンコーダンス表を参照しながら当該付与されている分類符号を第7版の分類符号に変換してドキュメントデータベースに登録する。
また、ストレージ部13は、図3に示すように、キーワードと、当該キーワードに関するドキュメントに割当てるべき分類符号とを関連付けた辞書データベースを保持していてもよい。この辞書データベースは、例えばドキュメントデータベースに新規のドキュメントが追加された際などに更新されるようにしてもよい。この更新の処理は、制御部11によって実行されることになる。この更新処理の内容についても後に詳しく述べる。
操作部14は、マウスやキーボード等であり、利用者の指示操作の内容を制御部11に出力する。表示部15は、ディスプレイ等であり、制御部11から入力される指示に従って、利用者に対して情報を提示する。
ここで制御部11によって実行される処理の内容について説明する。制御部11はまず、検索条件となるテキストの入力を操作部14から受け入れる。そして制御部11は、入力されたテキストからキーワードを抽出する。ここでキーワードとは、ドキュメントデータベース内のドキュメントを検索するためのキーとなる文字列である。具体的に制御部11は、検索条件であるテキストを、主語述語関係の単位(一般に単語よりも大きい単位)で区切り、区切った結果、得られた各文字列をキーワードとして記憶部12に格納する。例えば日本語の場合、いわゆる「てにをは」などの助詞(格助詞・係助詞)で区切ればよい。なお、不要な助詞などの部分は当該区切って得た文字列群の各々から除去する。また、予め不要語(ストップワード)を列挙した不要語データベースをストレージ部13に保持しておき、当該列挙されている不要語は記憶部12から取り除く。
例えば、「急須の内部を、仕切りを開口部近傍まで延設して2分し、仕切により分けて得られた各室に注ぎ口を一つずつ設けて、1つの急須で2つの茶わんに一斉に注ぎ入れることができるように、利便性を高めた」というテキストを区切って、「急須の」、「内部を」…といった文字列を得る。そして助詞などの部分を除去し、「急須」、「内部」…とする。次に、予め定められた不要語(どのようなドキュメントにも登場し得る文字列)として「内部」や「2分」などといった文字列を除去し、結局、「急須」、「開口部近傍」、「仕切」、「各室」、「注ぎ口」、「急須」、「茶わん」、「注ぎ入れ」といった文字列群を得る。制御部11は、これらの文字列群をキーワードとして選択する。
さらに制御部11は、入力されたテキスト全体からこのキーワードを抽出する処理を行ってもよいが、テキストの一部分を対象部分として選択し、当該選択した対象部分からキーワードを抽出することとしてもよい。具体的に特許明細書(特許請求の範囲を含む)の全文を検索条件のテキストとして入力する場合、特許請求の範囲の欄や、実施形態、実施例を記述する欄を選択的に処理対象として特定し、当該特定した処理対象の部分からキーワードを抽出することとしてもよい。
なお、ここでは主語述語関係の単位で区切ってキーワードを抽出しているが、形態素解析により単語ごとに分割した上で、例えば隣接して分割された漢字の単語同士を連結して得た文字列をキーワードとして抽出してもよい。これにより、例えば「紫外線照射装置」のような語を「紫外線」と「照射」と「装置」とに細かく分割してしまうことによる検索精度の低下(「紫外線」に関わらず何らかの「照射」を行うことに関する文献などが検索結果に含まれてしまうなど)を防止できる。
制御部11は、次に、これらの抽出されたキーワードに対して予め関連づけられている分類符号を検索する。すなわち、制御部11は、辞書データベースから各キーワードを検索する。そして辞書データベースにキーワードに関係した分類符号(複数あってもよい)が関連づけられて保持されている場合には、当該分類符号のリストを、キーワードに関連付けて記憶部12に保持する。なお、この際、分類符号の一部が重要符号として辞書データベースに登録されている場合には、当該重要符号のみを選択的に取り出して、分類符号リストとしてもよい。
また検索の結果、辞書データベースにキーワードが保持されていない場合(キーワードに関連付けられた分類符号がない場合)は、当該キーワードについて、ドキュメント群を抽出する処理を行う。すなわち制御部11は、抽出したキーワードの各々に関するドキュメント群をドキュメントデータベースから全文検索処理等により抽出する。これにより、キーワードごとに、各キーワードを含むドキュメントがドキュメントデータベースから取り出されることになる。
制御部11は、この検索により抽出されたドキュメントの各々に付与されている分類符号の少なくとも一部を取り出す。例えば、ドキュメントに複数の分類符号が付与されている場合には、そのうち筆頭のものを取り出す。
制御部11は、この処理によってキーワードごとに分類符号のリストを得て、各リストをキーワードに関連付けて記憶部12に格納する。具体的に上記の例のように、「急須」、「開口部近傍」、「仕切」、「各室」、「注ぎ口」、「急須」、「茶わん」、「注ぎ入れ」の各々の結果を得た場合は、図4に示すように「急須」について国際特許分類の第7版の符号「A23F 3/06」、「A45C 11/20」などを含むリストが記憶され、「仕切」について「A11C 11/02」などを含むリストが記憶される。なお、このリストでは、重複する分類符号も含まれているものとして図示しているが、アルファベット順などの所定順序で並替え(ソート)を行った上で、重複行を除去する処理(UNIX(登録商標)のコマンドでいう、uniqコマンドに相当する処理)を行ってもよい。これにより重複を除いたリストを生成できる。
そして制御部11は、ここで得た、キーワードと、それに関連する分類符号のリストとを、辞書データベースに登録する。これにより、辞書データベースに未だ登録されていなかったキーワードについての分類符号のリストを、辞書データベースに登録することができる。つまり、辞書データベースは、制御部11の分類符号リスト生成処理の結果をキャッシュしたものということができる。
なお、分類符号のリストに含まれる分類符号の少なくとも一つを重要符号として、他の分類符号と識別可能に登録してもよい。具体的には、重複を除去する前に、各分類符号の出現頻度を調べ、この出現頻度が所定のしきい値以上のものを重要符号として登録する。さらに制御部11は、出現頻度が所定のしきい値以上の分類符号のうち、さらに特異性のある分類符号を重要符号として登録することとしてもよい。ここで特異性とは、他のキーワードをキーとしてドキュメントデータベースを検索した結果からは得られない(得られたとしても出現頻度が所定頻度未満の)分類符号であることを意味する。
制御部11は、検索処理と、分類符号リスト生成処理とによって得られた結果を参照して、キーワード間に跨って存在する分類符号を取り出す。具体的に制御部11は、キーワードごとに、それによって得られた分類符号の欄にチェックを入れたチェックテーブルを生成する(図5)。この図5ではチェックされた欄に「○」の記号を表記している。制御部11は、チェックテーブルを生成すると、次に、各分類符号ごとにチェックの数を調べる。例えば特定の分類符号について、関係するキーワードが5つある場合は、チェックテーブル上で、当該分類符号の欄に5つのチェックがなされていることになる。
そして制御部11は、このチェックの最も多い、少なくとも一つの分類符号を、第1のキー候補分類符号として選択する。具体的に上記の例のように、「急須」、「開口部近傍」、「仕切」、「各室」、「注ぎ口」、「急須」、「茶わん」、「注ぎ入れ」の各々の結果があった場合には、これらの7つ(重複を除く)のキーワードのうち、5つのキーワードに該当するものとして国際特許分類第7版の分類符号で「A47G 19/22」が得られる。
なお、ここではチェックの数が最も多い分類符号を選択することとしているが、例えばキーワードの数に比して所定の比率以上の個数のチェックがあるものとの条件や、予め定めたしきい値以上の個数のチェックがあるものなどの条件で、第1のキー候補分類符号を選択してもよい。
例えば、ここでは50%以上の比率以上のチェックがあるものとの条件では7個のキーワードの50%、つまり「3.5」個以上(ただし、個数は必ず整数であるので「4」個以上と言換えることができる)の分類符号として、4つのキーワードに該当する「A47J 31/06」が得られる。
さらに制御部11は、検索条件として入力されたテキストから抽出したキーワードのうちの一部を、中心概念語として選択し、この中心概念語に基づいて第2のキー候補分類符号を選択する。ここで中心概念語とは、テキストの内容を特徴づけるキーワードであり、キーワード抽出処理によって抽出されたキーワードのうちから所定の条件に基づいて選択されたものである。
ここで所定の条件は、例えば次のようなものである。すなわち制御部11は、検索処理と分類符号リスト生成処理とによって得られた分類符号のリストを記憶部12から読出して、当該リストに含まれる分類符号の集合の論理和を生成する。これにより、抽出したキーワードに関連して取り出された分類符号の群が得られる。制御部11は、キーワードごとに、当該キーワードに関連して取り出した分類符号の個数が、上記生成した論理和に含まれる分類符号の個数に対して占める割合(分類符号分布割合)を演算する。例えば論理和に含まれる分類符号の個数が100個で、キーワード「急須」に関連して得られた分類符号の個数が30個である場合、その分類符号分布割合は30%ということになる。
制御部11は、さらに抽出したキーワードの群(重複を排除する前の群)から、各キーワードの出現頻度を調べる。具体的に上記の例のように、「急須」、「開口部近傍」、「仕切」、「各室」、「注ぎ口」、「急須」、「茶わん」、「注ぎ入れ」の各々の結果があった場合、「急須」について頻度が「2」、その他のキーワードについては頻度は「1」となる。そこで制御部11は、この出現頻度の順に、注目キーワードを選択し、当該注目キーワードに関して演算された分類符号分布割合が所定の割合しきい値(例えば40%)を下回っているか否かを調べる。ここで所定の割合しきい値を下回っている場合は、当該注目キーワードを中心概念語として選択する。また、割合しきい値を下回っていない場合は、次の注目キーワードを選択する。なお、キーワード群のうちで出現頻度が所定頻度しきい値より小さいキーワードについては、注目キーワードとして選択しないようにしてもよい。
ここでは、頻度が最大となっている「急須」を注目キーワードとして、当該「急須」に関する分類符号分布割合が30%となっているので、この30%が所定の割合しきい値を下回っていれば、この「急須」を中心概念語として選択する。
なお制御部11は、条件に合致するものがなければ、中心概念語の選択をせず、中心概念語に基づく第2のキー候補分類符号を選択しないこととしてもよい。また、中心概念語は、必ずしも一つでなくてもよい。
制御部11は、中心概念語について得られた分類符号リストから、当該分類符号リスト上で出現する各分類符号の出現頻度を演算する。そして、出現頻度が、所定の出現割合しきい値を上回っている分類符号を第2のキー候補分類符号として選択する。例えば中心概念語「急須」について得られた分類符号リストに、85個の分類符号があり、そのうちの35個(37.5%)が「A47G 19/14」であり、24個(28%)が「A47J 31/06」であり、…といった場合、出現割合しきい値を35%と定めておくと、「A47G 19/14」が第2キー候補分類符号として選択される。
制御部11はさらに、第1のキー候補分類符号と、第2のキー候補分類符号との論理和を演算して、その結果を第2の検索キーとなるキー分類符号として決定する。制御部11は、ドキュメントデータベースから上記決定したキー分類符号に関連付けられたドキュメントを検索する。そしてこの検索の結果得られたドキュメント群(本発明の第2ドキュメント群)に含まれる各ドキュメントを特定する情報を、表示部15に表示する。
以上の流れを整理すると、制御部11は図6に示すような動作を行っていることになる。まず、制御部11は検索条件として入力されたテキストからキーワードを抽出する(S1)。そして抽出したキーワードごとに、各キーワードに関連するドキュメントデータベース内のドキュメントに予め付与されている分類符号のリストを取得する(S2)。この処理S2の検索においては、予めキャッシュされて辞書データベースに関連する分類符号リストが登録されているキーワードについては、当該辞書データベースを参照して分類符号リストを取得し、キャッシュされていないものについては、当該キーワードをキーとしてドキュメントデータベースを検索し、検索の結果、得られたドキュメント群から当該ドキュメント群に含まれるドキュメントに付与されている分類符号の少なくとも一部を取り出して、分類符号リストを取得する。
制御部11は、ここで取得した分類符号のリストに含まれる各分類符号について、いくつのキーワードに関連して取得されているかを調べる。そして例えば全キーワードに対して所定の割合の個数のキーワードに共通して関連づけられている分類符号を取り出し、第1のキー候補分類符号(本発明のキーワードごとの分類符号のリストに相当する)として選択する(S3)。
次に制御部11は、処理S1で抽出したキーワードのうちから中心概念語を選択する(S4)。中心概念語の選択は、抽出したキーワード群中の各キーワードの出現頻度と、各キーワードに関連して取り出された分類符号の分布(分類符号リストの論理和中で占める、各キーワードに関連して取り出された分類符号の割合など)とに基づく所定のルールに従って行われる。
そして中心概念語に関する分類符号リストから、その出現頻度に基づいて、例えば所定の出現割合しきい値を越える出現頻度の分類符号を第2キー候補分類符号(本発明の第2のリストに相当する)として選択する(S5)。なお、この処理S5において、上記出現割合しきい値を越える分類符号がなければ、第2のキー候補分類符号は必ずしも選択する必要はない。
制御部11はさらに、処理S3で選択した第1のキー候補分類符号と、処理S5で選択した第2のキー候補分類符号との論理和を演算して、その結果をキー分類符号を得る(S6)。そして制御部11は、キー分類符号に係るドキュメントをドキュメントデータベースから検索して(S7)、当該検索の結果を表示部15に表示して利用者に提示し(S8)、処理を終了する。
次に、制御部11による辞書データベースの更新処理について説明する。制御部11は、ドキュメントデータベースに新たなドキュメントが追加されると、辞書データベースの更新処理として、次の処理を行うようにしてもよい。
すなわち、制御部11は辞書データベースに既に登録されているキーワードのリストを生成する。そして、当該リストに含まれる各キーワードを順次キーとして選択し、選択したキーを用いてドキュメントデータベースを検索する。そしてドキュメントデータベースから、当該選択したキーを含むドキュメントを抽出する。ここで抽出したドキュメントに関連づけられている分類符号の少なくとも一部を取り出して、分類符号のリストを生成し、キーとして選択したキーワードと、当該生成した分類符号のリストとを関連付けて、辞書データベースに格納する。なお、当該キーワードに関連付けて格納されている既存の情報に上書きする。これにより辞書データベースが更新される。
制御部11は、さらに検索用のキーワードの候補を提示する処理を行ってもよい。この場合は、例えばストレージ部13等、制御部11が読出し可能なストレージに、分類符号と、分類符号に係る文字列とを関連付けて保持する分類符号データベースを格納しておく。この分類符号データベースは、例えば国際特許分類の分類表に記載されたものと同じものを電子化したものである。
制御部11は、上記処理S6で得たキー分類符号に関係する文字列を、分類符号データベースから検索して、当該検索によって取得した文字列を表示部15に表示して、利用者に提示する。
この場合に、分類符号が階層的に設計されている場合(例えば国際特許分類のように、「A01B 1/00」(手作業具(芝生の縁切り取り具A01G3/06))の下位に、「A01B 1/02」(鋤;ショベル)を含むように設計されている場合など)には、処理S6で得たキー分類符号の上位に相当する分類符号に関係する文字列を併せて提示してもよい。
つまり、国際特許分類において、キー分類符号が「A01B 1/02」で、それによって得られる文字列が「鋤、ショベル」であるときには、当該キー分類符号の上位である分類符号「A01B 1/00」に関連する文字列「手作業具」も併せて提示する。
制御部11は、これらキー分類符号(及びその上位など、キー分類符号と所定の関係を有する分類符号)に関連づけられている文字列の一覧を表示する。なお、この一覧を表示する際に、処理S8で提示した検索の結果に含まれるドキュメント群(本発明の第2ドキュメント群)から当該文字列をキーワードとするキーワード検索により、ドキュメントを絞込み検索し、その結果(検索により得られたドキュメントの件数など)を併せて提示してもよい。このとき、各文字列に「指定」などのボタンを関係付けて表示し、このボタンがクリック操作されたときに、当該クリックされたボタンに関係づけられている文字列を用いて上記絞込み検索を行った結果、得られたドキュメントの一覧を提示してもよい。
本実施の形態によれば、検索のキーとなる分類符号の選択を支援し、ドキュメントの検索を容易にできる。
なお、ここまでの説明では、ドキュメントデータベースが日本国特許出願に係る公報を蓄積したデータベースであるとして説明したが、キー分類符号が得られた後であれば、分類符号の検索インデックスを有する他のドキュメントデータベースを検索することもできる。例えば、日本国特許出願に係る公報を蓄積した第1ドキュメントデータベースと、米国特許出願に係る発行物を蓄積した第2ドキュメントデータベースとをストレージ部13に格納しておけば、次のような処理を行うこともできる。
すなわち、制御部11は、図6に示した処理S1からS6までをそのまま実行する。ここで処理S2等において分類符号のリストを取得する際には、検索条件として入力されたテキストと同じ言語のドキュメントデータベース(ここでは第1ドキュメントデータベース)を参照して分類符号のリストを取得する。そして、処理S7において、第1,第2のドキュメントデータベースの少なくとも一方からキー分類符号に係るドキュメントを検索する。
つまり、本実施の形態では、日本語で検索条件を入力すれば、当該検索条件に対応するキー分類符号が生成されるので、このキー分類符号を用いれば英語で記載されたドキュメント等、日本語以外のドキュメントであっても、該当する分類符号で検索インデックスを作成しておくだけで、検索処理が容易にできることになるのである。
ここで例えば、検索条件として入力されたテキストの言語が判別できる場合(所定の特徴語を利用したり、或いは利用者にどの言語であるかを入力させてもよい)、ドキュメントの記述に用いられている言語ごとにドキュメントデータベースを分けておき、検索条件として入力されたテキストに係る分類符号を取得する際に、上記判別した検索条件の言語に係るドキュメントデータベースを選択的に参照することとしてもよい。
本発明の実施の形態に係るドキュメント検索装置の構成例を表すブロック図である。 ドキュメントデータベースの内容例を表す説明図である。 辞書データベースの内容例を表す説明図である。 キーワード毎の分類符号のリストの例を表す説明図である。 チェックテーブルの一例を表す説明図である。 本発明の実施の形態に係るドキュメント検索装置の処理例を表すフローチャート図である。
符号の説明
11 制御部、12 記憶部、13 ストレージ部、14 操作部、15 表示部。

Claims (5)

  1. 分類符号に関連づけられた複数のドキュメントを保持するドキュメントデータベースにアクセス可能に接続され、当該ドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索するドキュメント検索装置であって、
    検索条件となるテキストの入力を受け入れる手段と、
    前記テキストから少なくとも一つの文字列をキーワードとして抽出するキーワード抽出手段と、
    前記ドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得するリスト取得手段と、
    前記キーワードごとの分類符号のリストから、分類符号ごとに関連するキーワードの数をカウントし、この数に基づいて第1の検索キー候補となる分類符号を選択する手段と、
    前記キーワードごとの分類符号のリストに含まれる分類符号の論理和を得、当該論理和に含まれる分類符号の数に対して、前記キーワードごとの分類符号のリストに含まれる分類符号の数の割合をキーワードごとの分類符号の分布割合として演算し、前記キーワード抽出手段が抽出したキーワードのうちから、前記演算したキーワードごとの分類符号の分布割合に基づき、キーワードを中心概念語として取得し、前記キーワードごとの分類符号のリストのうち当該中心概念語に関係する分類符号の出現頻度に基づいて、前記キーワードごとの分類符号のリストのうちから、第2の検索キー候補となる分類符号を選択する手段と、
    前記第1の検索キー候補となる分類符号と、第2の検索キー候補となる分類符号とを用いて、前記ドキュメントデータベースから第2ドキュメント群を取得する検索手段と、
    を備え、
    前記第2ドキュメント群が、検索結果として提示されることを特徴とするドキュメント検索装置。
  2. 分類符号に関連づけられた複数のドキュメントを保持する第1ドキュメントデータベースと、前記分類符号の検索インデックスを有する第2ドキュメントデータベースとにアクセス可能に接続され、当該第1,第2の少なくとも一方のドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索するドキュメント検索装置であって、
    検索条件となるテキストの入力を受け入れる手段と、
    前記テキストから少なくとも一つの文字列をキーワードとして抽出するキーワード抽出手段と、
    前記第1ドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得するリスト取得手段と、
    前記キーワードごとの分類符号のリストから、分類符号ごとに関連するキーワードの数をカウントし、この数に基づいて第1の検索キー候補となる分類符号を選択する手段と、
    前記キーワードごとの分類符号のリストに含まれる分類符号の論理和を得、当該論理和に含まれる分類符号の数に対して、前記キーワードごとの分類符号のリストに含まれる分類符号の数の割合をキーワードごとの分類符号の分布割合として演算し、前記キーワード抽出手段が抽出したキーワードのうちから、前記演算したキーワードごとの分類符号の分布割合に基づき、キーワードを中心概念語として取得し、前記キーワードごとの分類符号のリストのうち当該中心概念語に関係する分類符号の出現頻度に基づいて、前記キーワードごとの分類符号のリストのうちから、第2の検索キー候補となる分類符号を選択する手段と、
    前記第1の検索キー候補となる分類符号と、第2の検索キー候補となる分類符号とを用いて、前記第1又は第2の少なくとも一方のドキュメントデータベースから第2ドキュメント群を取得する検索手段と、
    を備え、
    前記第2ドキュメント群が、検索結果として提示されることを特徴とするドキュメント検索装置。
  3. 請求項1または2に記載のドキュメント検索装置であって、
    分類符号と、分類符号に係る文字列を関連付けて保持する分類符号データベースにアクセス可能に接続されており、
    前記第1の検索キー候補となる分類符号と、第2の検索キー候補となる分類符号とに係る文字列を、前記分類符号データベースから取得し、当該取得した文字列を提示する提示手段をさらに含む
    ことを特徴とするドキュメント検索装置。
  4. 分類符号に関連づけられた複数のドキュメントを保持するドキュメントデータベースにアクセス可能に接続されたコンピュータに、当該ドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索させるドキュメント検索プログラムであって、コンピュータを、
    検索条件となるテキストの入力を受け入れる手段と、
    前記テキストから少なくとも一つの文字列をキーワードとして抽出するキーワード抽出手段と、
    前記ドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得するリスト取得手段と、
    前記キーワードごとの分類符号のリストから、分類符号ごとに関連するキーワードの数をカウントし、この数に基づいて第1の検索キー候補となる分類符号を選択する手段と、
    前記キーワードごとの分類符号のリストに含まれる分類符号の論理和を得、当該論理和に含まれる分類符号の数に対して、キーワードごとの分類符号のリストに含まれる分類符号の数の割合をキーワードごとの分類符号の分布割合として演算し、前記キーワード抽出手段が抽出したキーワードのうちから、前記演算したキーワードごとの分類符号の分布割合が、予め定めたしきい値を下回っているキーワードを中心概念語として取得し、前記キーワードごとの分類符号のリストのうち当該中心概念語に関係する分類符号の出現頻度に基づいて、前記キーワードごとの分類符号のリストのうちから、第2の検索キー候補となる分類符号を選択する手段と、
    前記第1の検索キー候補となる分類符号と、第2の検索キー候補となる分類符号とを用いて、前記ドキュメントデータベースから第2ドキュメント群を取得する検索手段と、
    として機能させ、
    前記第2ドキュメント群が、検索結果として提示されることを特徴とするドキュメント検索プログラム。
  5. 分類符号に関連づけられた複数のドキュメントを保持する第1ドキュメントデータベースと、前記分類符号の検索インデックスを有する第2ドキュメントデータベースとにアクセス可能に接続されたコンピュータに、当該第1又は第2のドキュメントデータベースから、与えられた検索条件を満足するドキュメントを検索させるプログラムであって、コンピュータを、
    検索条件となるテキストの入力を受け入れる手段と、
    前記テキストから少なくとも一つの文字列をキーワードとして抽出するキーワード抽出手段と、
    前記第1ドキュメントデータベースから、前記抽出したキーワードの各々に関係する第1ドキュメント群を抽出し、当該キーワードごとに抽出した第1ドキュメント群を参照し、当該第1ドキュメント群に関連付けられた分類符号の少なくとも一部を用いて生成された、キーワードごとの分類符号のリストを取得するリスト取得手段と、
    前記キーワードごとの分類符号のリストから、分類符号ごとに関連するキーワードの数をカウントし、この数に基づいて第1の検索キー候補となる分類符号を選択する手段と、
    前記キーワードごとの分類符号のリストに含まれる分類符号の論理和を得、当該論理和に含まれる分類符号の数に対して、キーワードごとの分類符号のリストに含まれる分類符号の数の割合をキーワードごとの分類符号の分布割合として演算し、前記キーワード抽出手段が抽出したキーワードのうちから、前記演算したキーワードごとの分類符号の分布割合が、予め定めたしきい値を下回っているキーワードを中心概念語として取得し、前記キーワードごとの分類符号のリストのうち当該中心概念語に関係する分類符号の出現頻度に基づいて、前記キーワードごとの分類符号のリストのうちから、第2の検索キー候補となる分類符号を選択する手段と、
    前記第1の検索キー候補となる分類符号と、第2の検索キー候補となる分類符号とを用いて、前記第1又は第2の少なくとも一方のドキュメントデータベースから第2ドキュメント群を取得する検索手段と、
    として機能させ、
    前記第2ドキュメント群が、検索結果として提示されることを特徴とするドキュメント検索プログラム。
JP2004166213A 2004-06-03 2004-06-03 ドキュメント検索装置 Expired - Fee Related JP4569179B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004166213A JP4569179B2 (ja) 2004-06-03 2004-06-03 ドキュメント検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004166213A JP4569179B2 (ja) 2004-06-03 2004-06-03 ドキュメント検索装置

Publications (2)

Publication Number Publication Date
JP2005346486A JP2005346486A (ja) 2005-12-15
JP4569179B2 true JP4569179B2 (ja) 2010-10-27

Family

ID=35498794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004166213A Expired - Fee Related JP4569179B2 (ja) 2004-06-03 2004-06-03 ドキュメント検索装置

Country Status (1)

Country Link
JP (1) JP4569179B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608071A (zh) * 2015-12-21 2016-05-25 北京奇虎科技有限公司 用于确定中心词的机器学习算法的生成方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4857448B2 (ja) * 2006-03-10 2012-01-18 独立行政法人情報通信研究機構 多義語による情報検索装置及びプログラム
TW200837581A (en) * 2007-03-13 2008-09-16 Sunonwealth Electr Mach Ind Co Verifying method for reliability of patent data
JP5060601B2 (ja) * 2010-08-03 2012-10-31 株式会社東芝 文書分析装置およびプログラム
US9043350B2 (en) * 2011-09-22 2015-05-26 Microsoft Technology Licensing, Llc Providing topic based search guidance
JP2012216239A (ja) * 2012-07-12 2012-11-08 Toshiba Corp 情報処理装置、プログラムおよび情報検索方法
JP6623547B2 (ja) 2015-05-12 2019-12-25 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0228769A (ja) * 1988-07-18 1990-01-30 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH0424869A (ja) * 1990-05-21 1992-01-28 Toshiba Corp 文書処理システム
JPH05128152A (ja) * 1991-11-06 1993-05-25 Hitachi Ltd 文書検索支援方法
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0228769A (ja) * 1988-07-18 1990-01-30 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH0424869A (ja) * 1990-05-21 1992-01-28 Toshiba Corp 文書処理システム
JPH05128152A (ja) * 1991-11-06 1993-05-25 Hitachi Ltd 文書検索支援方法
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608071A (zh) * 2015-12-21 2016-05-25 北京奇虎科技有限公司 用于确定中心词的机器学习算法的生成方法及装置

Also Published As

Publication number Publication date
JP2005346486A (ja) 2005-12-15

Similar Documents

Publication Publication Date Title
US7769771B2 (en) Searching a document using relevance feedback
US10552467B2 (en) System and method for language sensitive contextual searching
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
JP2010003015A (ja) 文書検索システム
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP4569179B2 (ja) ドキュメント検索装置
US9875298B2 (en) Automatic generation of a search query
JP6533876B2 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム
US8612431B2 (en) Multi-part record searches
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Ochs et al. Google Knows Who is Famous Today--Building an Ontology from Search Engine Knowledge and DBpedia
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2009129176A (ja) 構造化文書検索装置、方法およびプログラム
Yoon et al. A conference paper exploring system based on citing motivation and topic
JP6173990B2 (ja) 検索支援装置、方法およびプログラム
JP4569178B2 (ja) 分類符号処理装置
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2007323238A (ja) 強調表示装置及びプログラム
JP2014146076A (ja) 文字列抽出方法、文字列抽出装置、および文字列抽出プログラム
JP7284371B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6967412B2 (ja) サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法
JP2004206608A (ja) 文書検索方法及び装置並びにプログラム
JP2003178057A (ja) フレーズ生成装置、フレーズ生成方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070517

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071112

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100713

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100726

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees