JP2004151791A - 文書検索方法、装置およびプログラム - Google Patents
文書検索方法、装置およびプログラム Download PDFInfo
- Publication number
- JP2004151791A JP2004151791A JP2002313547A JP2002313547A JP2004151791A JP 2004151791 A JP2004151791 A JP 2004151791A JP 2002313547 A JP2002313547 A JP 2002313547A JP 2002313547 A JP2002313547 A JP 2002313547A JP 2004151791 A JP2004151791 A JP 2004151791A
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- summary sentence
- sentence
- document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書解析部8は文書2から文章を抽出するとともに、文書2の文章に対して形態素解析処理を施して文章から語の抽出を行い、インデックス作成部9は抽出した語と文書2とを対応付けたインデックスを作成して文書データベース4に登録し、抽出した複数の文章から要約候補を選択して要約候補テーブルに登録し、要約候補と抽出した語とを関連テーブルに登録する。そして、検索部5は入力部6から検索語を受け付けると、検索処理部10は検索語に合致する文書を検索し、要約生成部11は文書データベース4から検索された文書に対応する関連テーブルを読み出し、読み出した関連テーブルから要約を決定し、出力部7は検索結果を表示する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、文書検索装置、方法およびプログラムに関し、特に、検索条件に適合する文書を検索し、検索結果を要約表示する文書検索装置、方法およびプログラムに関する。
【0002】
【従来の技術】
インターネットのサーチエンジンのような大規模な検索システムを利用する際には、検索された文書がユーザの検索意図に適合しているか否かを判定するために、検索結果中に含まれる要約文若しくはサンプル文等(以下、要約と呼ぶ)の内容を手がかりにする。そして、この要約の内容を確認することで、検索された文書が検索意図に適合しているか否かを判定することができれば、実際に当該文書を取得して内容を閲覧する時間を節約することができる。
【0003】
一般に、要約の生成は、文書内の全テキストから重要文を抽出し、抽出した重要文を要約(静的要約)とする方法と、文書内の全テキストを蓄積し、検索条件に指定されたキーワードを含む文を要約(動的要約)とする方法の2種類に大別される。
【0004】
【発明が解決しようとする課題】
しかし、静的要約は、必ずしもユーザの検索意図を反映した要約とは言えず、検索意図に適合しているか否かを判定するユーザの負担を軽減することは困難であり、また、動的要約は、ユーザの検索意図を反映する要約を作成することは可能であるが、要約作成のために全テキストを蓄積する必要があるため、検索対象となる情報の増大に伴ってデータベースが肥大化し、検索時間および要約作成時間が長くなってしまう。
【0005】
特に、WWW(World Wide Web)のコンテンツのみを検索対象とした場合、1つのコンテンツ辺りの全テキストのサイズは数キロバイト程度であるが、一般のオフィス文書も検索対象とした場合、1つの文書辺りの全テキストのサイズは、WWWのコンテンツ辺りの全テキストのサイズの10倍以上になることが多く、結果として登録できる文書数が減少してしまう。
【0006】
そこで、本発明は、ユーザの検索意図を反映した要約を効率良く高速に作成することが可能な文書検索装置、方法およびプログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成するため、請求項1の発明は、登録された複数の文書から所望の検索要求に対応する文書を検索する文書検索方法において、文書に含まれる文章から少なくとも1つの語および少なくとも1つの文を抽出し、該抽出した文から前記文書の要約文の候補となる要約文候補を選択し、該選択した要約文候補に重要度を設定する要約文候補テーブルを作成し、前記要約文候補に前記語が出現するか否かの関連性を設定する関連テーブルを作成し、要約文候補テーブルおよび前記関連テーブルに基づき、前記所望の検索要求に対応して検索された文書の要約文を作成することを特徴とする。
【0008】
また、請求項2の発明は、請求項1の発明において、前記所望の検索要求として複数の検索語が指定された際に、前記要約文候補に該検索語が出現しているか否かを表す出現パターンを算出し、前記要約文とする要約候補の数を予め設定し、該算出した出現パターンに基づいて前記設定した数の要約文候補を選択し、該選択した要約文候補を要約文とすることを特徴とする。
【0009】
また、請求項3の発明は、請求項2の発明において、要約文として選択された第1の要約文候補で算出されない出現パターンが、第1の要約文候補より前記重要度の低い第2の要約文候補で算出された場合、前記第1の要約文候補の中から前記第2の要約文候補と置き換えられる被置換え要約文候補を決定し、前記第2の要約文候補を前記被置換え要約文候補と置き換えて要約文とすることを特徴とする。
【0010】
また、請求項4の発明は、請求項3の発明において、前記第1の要約文候補の出現パターンと前記第2の要約文候補の出現パターンとの論理和を算出し、該算出した論理和に基づき、前記第1の要約文候補の中で検索語の網羅性が低い要約文候補を前記被置換え要約文候補に決定することを特徴とする。
【0011】
また、請求項5の発明は、請求項4の発明において、前記網羅性に差異がない場合、前記第1の要約文候補の中で検索語の種類が少ない要約文候補を前記被置換え要約文候補に決定することを特徴とする。
【0012】
また、請求項6の発明は、請求項3の発明において、前記第1の要約文候補の中で前記重要度の低い要約文候補を前記被置換え要約文候補に決定することを特徴とする。
【0013】
また、請求項7の発明は、請求項2の発明において、前記要約文として選択された要約文候補に前記検索語が出現しない場合、前記重要度の高い順に要約文候補を選択することを特徴とする。
【0014】
また、請求項8の発明は、請求項2の発明において、前記要約文として選択された前記検索語が出現する要約文候補の数が、前記要約文とする要約文候補の数より少ない場合、前記重要度の高い順に残りの要約文候補を選択することを特徴とする。
【0015】
また、請求項9の発明は、請求項2の発明において、前記文書に含まれる文章から少なくとも1つの文を抽出するとともに、該抽出した各文の該文章における位置情報を抽出し、該抽出した位置情報に基づき、前記要約文として選択された要約文候補を並び替え、該並び替えた要約文候補を要約文とすることを特徴とする。
【0016】
また、請求項10の発明は、請求項1の発明において、前記語に重み付けを行い、前記語の重みに基づき、前記要約文候補テーブルを作成することを特徴とする。
【0017】
また、請求項11の発明は、請求項2の発明において、前記要約文候補に出現する語の位置情報および語の長さを登録し、該登録した位置情報および語に基づき、前記要約文に出願する検索語の強調表示を行うことを特徴とする。
【0018】
また、請求項12の発明は、登録された複数の文書から所望の検索要求に対応する文書を検索する文書検索装置において、文書に含まれる文章から少なくとも1つの語および少なくとも1つの文を抽出する文書解析手段と、前記文書解析手段で抽出した文から前記文書の要約文の候補となる要約文候補を選択する要約文候補選択手段と、前記要約文候補選択手段で選択した要約文候補に重要度を設定する要約文候補テーブルを作成する要約文候補テーブル作成手段と、前記要約文候補に前記語が出現するか否かの関連性を設定する関連テーブルを作成する関連テーブル作成手段と、前記要約文候補テーブルおよび前記関連テーブルに基づき、前記所望の検索要求に対応して検索された文書の要約文を作成する要約文作成手段とを具備することを特徴とする。
【0019】
また、請求項13の発明は、請求項12の発明において、前記要約文作成手段は、前記所望の検索要求として複数の検索語が指定された際に、前記要約文候補に該検索語が出現しているか否かを表す出現パターンを算出する出現パターン算出手段と、前記要約文とする要約候補の数を予め設定する要約候補数設定手段と、前記出現パターン算出手段で算出した出現パターンに基づいて前記要約候補数設定手段で設定した数の要約文候補を選択する要約文選択手段とを具備し、前記要約文選択手段で選択した要約文候補を要約文とすることを特徴とする。
【0020】
また、請求項14の発明は、請求項13の発明において、前記要約文選択手段は、要約文として選択された第1の要約文候補で算出されない出現パターンが、第1の要約文候補より前記重要度の低い第2の要約文候補で算出された場合、前記第1の要約文候補の中から前記第2の要約文候補と置き換えられる被置換え要約文候補を決定する被置換え要約文候補決定手段を具備し、前記第2の要約文候補を前記被置換え要約文候補と置き換えて選択することを特徴とする。
【0021】
また、請求項15の発明は、請求項14の発明において、前記被置換え要約文候補決定手段は、前記第1の要約文候補の出現パターンと前記第2の要約文候補の出現パターンとの論理和を算出し、該算出した論理和に基づき、前記第1の要約文候補の中で検索語の網羅性が低い要約文候補を前記被置換え要約文候補に決定することを特徴とする。
【0022】
また、請求項16の発明は、請求項15の発明において、前記被置換え要約文候補決定手段は、前記網羅性に差異がない場合、前記第1の要約文候補の中で検索語の種類が少ない要約文候補を前記被置換え要約文候補に決定することを特徴とする。
【0023】
また、請求項17の発明は、請求項14の発明において、前記被置換え要約文候補決定手段は、前記第1の要約文候補の中で前記重要度が低い要約文候補を前記被置換え要約文候補に決定することを特徴とする。
【0024】
また、請求項18の発明は、請求項13の発明において、前記要約文選択手段は、前記要約文として選択された要約文候補に前記検索語が出現しない場合、前記重要度の高い順に要約文候補を選択することを特徴とする。
【0025】
また、請求項19の発明は、請求項13の発明において、前記要約文選択手段は、前記要約文として選択された前記検索語が出現する要約文候補の数が、前記要約文とする要約文候補の数より少ない場合、前記重要度の高い順に残りの要約文候補を選択することを特徴とする。
【0026】
また、請求項20の発明は、請求項12の発明において、前記文書解析手段は、前記文書に含まれる文章から少なくとも1つの文を抽出するとともに、該抽出した各文の該文章における位置情報を抽出し、前記要約文作成手段は、前記文書解析手段で抽出した位置情報に基づき、前記要約文選択手段で要約文として選択された要約文候補を並び替え、該並び替えた要約文候補を要約文とすることを特徴とする。
【0027】
また、請求項21の発明は、請求項12の発明において、前記文書解析手段は、前記語に重み付けを行い、前記要約文候補テーブル作成手段は、前記語の重みに基づき、前記要約文候補テーブルを作成することを特徴とする。
【0028】
また、請求項22の発明は、請求項13の発明において、前記要約文候補に出現する語の位置情報および語の長さを登録する登録手段と前記登録手段で登録した位置情報および語に基づき、前記要約文に出願する検索語の強調表示を行う強調表示手段とを具備することを特徴とする。
【0029】
また、請求項23の発明は、登録された複数の文書から所望の検索要求に対応する文書を検索する文書検索プログラムにおいて、文書に含まれる文章から少なくとも1つの語および少なくとも1つの文を抽出する処理と、該抽出した文から前記文書の要約文の候補となる要約文候補を選択する処理と、該選択した要約文候補に重要度を設定する要約文候補テーブルを作成する処理と、前記要約文候補に前記語が出現するか否かの関連性を設定する関連テーブルを作成する処理と、前記要約文候補テーブルおよび前記関連テーブルに基づき、前記所望の検索要求に対応して検索された文書の要約文を作成する処理とをコンピュータに動作させることを特徴とする。
【0030】
また、請求項24の発明は、請求項23の発明において、前記所望の検索要求として複数の検索語が指定された際に、前記要約文候補に該検索語が出現しているか否かを表す出現パターンを算出する処理と、前記要約文とする要約候補の数を予め設定する処理と、該算出した出現パターンに基づいて前記設定した数の要約文候補を選択する処理と、該選択した要約文候補を要約文とする処理とをコンピュータに動作させることを特徴とする。
【0031】
また、請求項25の発明は、請求項24の発明において、要約文として選択された第1の要約文候補で算出されない出現パターンが、第1の要約文候補より前記重要度の低い第2の要約文候補で算出された場合、前記第1の要約文候補の中から前記第2の要約文候補と置き換えられる被置換え要約文候補を決定する処理と、前記第2の要約文候補を前記被置換え要約文候補と置き換えて要約文とする処理とをコンピュータに動作させることを特徴とする。
【0032】
また、請求項26の発明は、請求項25の発明において、前記第1の要約文候補の出現パターンと前記第2の要約文候補の出現パターンとの論理和を算出する処理と、該算出した論理和に基づき、前記第1の要約文候補の中で検索語の網羅性が低い要約文候補を前記被置換え要約文候補に決定する処理とをコンピュータに動作させることを特徴とする。
【0033】
また、請求項27の発明は、請求項26の発明において、前記網羅性に差異がない場合、前記第1の要約文候補の中で検索語の種類が少ない要約文候補を前記被置換え要約文候補に決定する処理をコンピュータに動作させることを特徴とする。
【0034】
また、請求項28の発明は、請求項25の発明において、前記第1の要約文候補の中で前記重要度の低い要約文候補を前記被置換え要約文候補に決定する処理をコンピュータに動作させることを特徴とする。
【0035】
また、請求項29の発明は、請求項24の発明において、前記要約文として選択された要約文候補に前記検索語が出現しない場合、前記重要度の高い順に要約文候補を選択する処理をコンピュータに動作させることを特徴とする。
【0036】
また、請求項30の発明は、請求項24の発明において、前記要約文として選択された前記検索語が出現する要約文候補の数が、前記要約文とする要約文候補の数より少ない場合、前記重要度の高い順に残りの要約文候補を選択する処理をコンピュータに動作させることを特徴とする。
【0037】
また、請求項31の発明は、請求項24の発明において、前記文書に含まれる文章から少なくとも1つの文を抽出するとともに、該抽出した各文の該文章における位置情報を抽出する処理と、該抽出した位置情報に基づき、前記要約文として選択された要約文候補を並び替え、該並び替えた要約文候補を要約文とする処理とをコンピュータに動作させることを特徴とする。
【0038】
また、請求項32の発明は、請求項23の発明において、前記語に重み付けを行う処理と、前記語の重みに基づき、前記要約文候補テーブルを作成する処理とをコンピュータに動作させることを特徴とする。
【0039】
また、請求項33の発明は、請求項24の発明において、前記要約文候補に出現する語の位置情報および語の長さを登録し、該登録した位置情報および語に基づき、前記要約文に出願する検索語の強調表示を行う処理をコンピュータに動作させることを特徴とする。
【0040】
【発明の実施の形態】
以下、本発明に係わる文書検索装置、方法およびプログラムの実施の形態について添付図面を参照して詳細に説明する。
【0041】
図1は、本発明に係わる文書検索装置1の機能的な構成の一例を示すブロック図である。
【0042】
図1に示すように、文書検索装置1は、文書2から文章および語を抽出する登録部3、登録部3で抽出された文章および語を記憶するハードディスク等の文書データベース4、キーワード検索または意味検索等の既存の検索方法によって文書の検索を行う検索部5、ユーザが検索要求を入力するキーボード等の入力部6、検索部5から出力された検索結果を表示するディスプレイ等の出力部7から構成されている。また、登録部3は、文書解析部8およびインデックス作成部9から構成され、検索部5は、検索処理部10および要約生成部11から構成されている。
【0043】
ここで、インデックス、語および要約候補を登録する際の文書検索装置1の機能的な動作について説明する。
【0044】
登録部3が文書収集ロボット等により収集した文書2を受け取ると、登録部3の文書解析部8は、文書2から文章を抽出するとともに、文書2の文章に対して解析処理を施し、文章から語の抽出を行う。なお、解析した文書2に対するID等の識別情報を生成する。
【0045】
登録部3のインデックス作成部9は、文書解析部8で抽出した語と文書2とを対応付けたインデックスを作成し、作成したインデックスを文書データベース4に登録する。
【0046】
また、インデックス作成部9は、文書解析部8で抽出した複数の文章から要約の候補になる文章(以後、要約候補とする)を選択し、選択した要約候補を予め設定した形式(以後、要約候補テーブルとする)で文書データベース4に登録する。ここで、要約候補となる文章は完全な文の場合もあれば、文の一部の場合もあり、例えば、要約候補として選択した文章が長文の場合は、その文章を分割し、分割した複数の文章を要約候補とすることもある。なお、複数の文章から要約候補として登録する際に、文書2における先頭の文章を選択する方法、語の出現頻度に基づいて選択する方法、キーリレーションに基づいて選択する方法、または手がかり語等に基づいて選択する方法等を用いる。
【0047】
そして、インデックス作成部9は要約候補テーブルを登録するとともに、要約候補と文書解析部8で抽出した語とを関連付けて予め設定した形式(以後、関連テーブルとする)で文書解析部8で生成した識別情報と対応付けて文書データベース4に登録する。
【0048】
次に、要約を生成する際の文書検索装置1の機能的な動作について説明する。
【0049】
検索部5は入力部6から検索語を受け付けると、検索部6の検索処理部10は検索語に合致する文書を検索し、検索された文書の識別情報と検索で合致した検索語とを要約生成部11に送る。
【0050】
要約生成部11は文書の識別情報および検索語を受け取ると、識別情報に基づいて文書データベース4から検索処理部10で検索された文書に対応する関連テーブルを読み出し、読み出した関連テーブルから要約候補を選択する。この選択した要約候補が要約となり、要約を検索処理部11に送る。
【0051】
検索処理部11は要約を受け取ると、検索した文書およびその文書に対する要約をまとめて検索結果として出力部7に送り、出力部7は検索結果を表示する。
【0052】
次に、要約候補テーブルについて詳細に説明する。図2は、要約候補テーブル12の一例を示す図である。
【0053】
図2に示すように、要約候補になった文章および本文中におけるその文章の位置の情報が要約候補テーブル12に登録されている。例えば、図2に示す要約候補テーブル12では、本文中の「1」に位置する「XXX。」の文章が「要約候補1」として登録され、本文中の「15」に位置する「YYY。」の文章が「要約候補2」として登録され、本文中の「5」に位置する「ZZZ。」の文章が「要約候補3」として登録され、本文中の「20」に位置する「MMM。」の文章が「要約候補4」として登録され、本文中の「10」に位置する「NNN。」の文章が「要約候補5」として登録されている。
【0054】
ここで、要約候補テーブル12に要約候補を登録する際に、語の出現頻度、キーリレーション、または手がかり語から要約候補に重み付けを行い、その重みに基づいて要約候補に重要度を設定し、重要度が高い順に要約候補を並べて登録する。例えば、図2に示す要約候補テーブル12では、重要度において「要約候補1」>「要約候補2」>「要約候補3」>「要約候補4」>「要約候補5」の順になっている。
【0055】
また、要約候補テーブル12に要約候補を登録する際に、要約候補を特定の数に限定する構成、文書サイズまたは文章の総数に対して特定の割合で要約候補の数を限定する構成、文書に存在する全ての語を網羅するように要約候補を選択する構成、各文章に重要度等を設定し、その重要度が特定の閾値より上位の文章を要約候補として選択する構成等を用い、更に、上記の構成を組み合わせて用いることも可能である。
【0056】
そして、要約候補テーブル12に要約候補を登録すると、文書解析部8は抽出された語と要約候補とを関連付けて登録するために関連テーブルを作成する。
【0057】
次に、関連テーブルについて詳細に説明する。図3は、関連テーブル13の一例を示す図である。なお、図3に示す関連テーブル13は、図2に示す要約候補テーブル12に基づいて作成されたものである。
【0058】
図3に示すように、要約候補テーブル12に登録された要約候補と文書解析部8により抽出された語とが関連付けられて関連テーブル13に登録され、要約候補の文章中に含まれる語にビットを立てる(図3では、含まれるを「1」、含まれないを「0」で表している。)ことで、どの語がどの要約候補に含まれているか即座に検索することが可能になる。例えば、図3に示す関連テーブル13では、「語A」、「語B」、「語C」、「語D」、「語E」という語が各要約候補に含まれているか否か登録されていて、「要約候補1」には「語A」と「語C」が含まれ、「要約候補2」には「語A」と「語C」が含まれ、「要約候補3」には「語A」と「語B」が含まれ、「要約候補4」には「語B」と「語C」が含まれ、「要約候補5」には「語B」、「語D」と「語E」が含まれている。
【0059】
ここで、具体的な一例を挙げると、例えば、動的要約のために全文章を蓄積するには約40KBのサイズを必要とする文書に対して、上記のように、約128の要約候補および約500語を抽出し、抽出した要約候補と語とに基づき、要約候補テーブルおよび関連テーブルとして登録するには約25KBのサイズだけしか必要とせず、約15KBのサイズの削減が実現する。
【0060】
従って、上記のように文書から抽出した要約候補と語とを関連付けて登録することで、文書の全文を蓄積するのに較べてサイズをコンパクトにすることが可能になる。
【0061】
なお、関連テーブルに基づいて要約候補から要約を決定する際に、以下に挙げる手順に従う。
【0062】
1.関連テーブルに基づいて重要度が高い要約候補から順に、要約候補における検索語の出現パターンを計測し、重要度の高い要約候補を順に要約として選択する。
【0063】
2.手順1で選択された要約候補に存在しない新たな出現パターンが、より重要度の低い要約候補に出現した場合、その要約候補を選択する(以下、これを置換え要約候補という)。
【0064】
3.手順1で選択された要約候補の中で、手順2で選択された置換え要約候補と置き換えられる要約候補(以下、これを被置換え要約候補という)を決定するために、手順1で選択された各要約候補の出現パターンと、置換え要約候補の出現パターンとの論理和をとり、検索語の網羅性を見て、網羅性の最も低い要約候補が被置換え要約候補に決定される。
【0065】
4.検索語の網羅性が同じ場合は、各要約候補に出現する検索語の種類が少ない要約候補が被置換え候補に決定される。
【0066】
5.出現する検索語の種類の数が同じ場合は、重要度の低い要約候補が被置換え要約候補に決定される。
【0067】
なお、1の手順により、検索語を含む要約候補が存在しなかった場合、重要度が高い要約候補から順に、要約候補を要約として選択する。
【0068】
また、要約としてN個の要約候補を選択する際に、1の手順により、M個の検索語を含む要約候補を選択し、N>Mの場合、残りの(N−M)個の要約候補は重要度の高い順に選択することもできる。ただし、要約として選択した要約候補で網羅性を満たしていると判断できる場合、要約候補から要約を決定する処理を終了することもできる。
【0069】
また、要約全体としての網羅性が維持していれば、重要度を優先して手順4を考慮しない場合もある。
【0070】
そして、要約の選択が完了すると、要約候補テーブルに基づき、要約として選択された要約候補の位置を確認し、位置順に並べ替える。例えば、図3に示す関連テーブル13の要約候補から、「要約候補2」、「要約候補3」および「要約候補5」を要約として選択した際には、「要約候補3」、「要約候補5」、「要約候補2」の順に並び替えられる。
【0071】
ここで、図3に示す関連テーブル13に基づいて要約を決定する具体例を説明する。なお、要約として選択候補を2つ選択する場合を例にして説明する。
【0072】
第1の具体例として、「語A」and「語B」and「語D」を検索語として検索する。
【0073】
図4は、各要約候補における検索語(「語A」and「語B」and「語D」)の出現パターンを示す出現パターン表14の一例を示す図である。
【0074】
図4に示すように、各要約候補における検索語の出現パターンは、左から順に「語A」のビット、「語B」のビット、「語D」のビットとすると、「要約候補1」は「(1,0,1)」、「要約候補2」は「(1,0,0)」、「要約候補3」は「(1,1,0)」、「要約候補4」は「(0,1,0)」、「要約候補5」は「(0,1,1)」となる。
【0075】
最初に、手順1により、要約として「要約候補1」と「要約候補2」とが選択される。
【0076】
次に、手順2により、「要約候補1」と「要約候補2」とには含まれない「語B」が、「要約候補3」には含まれるため、「要約候補3」を置換え候補として選択する。
【0077】
次に、手順3により、「要約候補1」と「要約候補3」との論理和、および「要約候補2」と「要約候補3」との論理和をとり、「要約候補1」と「要約候補3」との論理和は「(1,1,1)」になり、「要約候補2」と「要約候補3」との論理和は「(1,1,0)」になり、検索語の網羅性で低い要約候補は「要約候補2」になったため、「要約候補2」が被置換え要約候補に決定される。
【0078】
つまり、要約として「要約候補1」と「要約候補3」とが選択される。
【0079】
次に、手順2により、「要約候補1」と「要約候補3」とに存在しない新たな出現パターンが、「要約候補4」に出現しないため、「要約候補4」を置換え候補として選択しない。
【0080】
次に、手順2により、「要約候補1」と「要約候補3」とには含まれない「語D」が、「要約候補5」には含まれるため、「要約候補5」を置換え候補として選択する。
【0081】
次に、手順3により、「要約候補1」と「要約候補5」との論理和、および「要約候補3」と「要約候補5」との論理和をとり、「要約候補1」と「要約候補5」との論理和は「(1,1,1)」になり、「要約候補3」と「要約候補5」との論理和は「(1,1,1)」になり、検索語の網羅性は同じである。
【0082】
次に、手順4により、「要約候補1」に含まれる検索語は1種類であり、「要約候補3」に含まれる検索語は2種類であることから、「要約候補1」が被置換え要約候補に決定され、「要約候補3」と「要約候補5」とが要約に決定される。
【0083】
また、手順4を考慮しない場合、手順5により、重要度が低い「要約候補3」が被置換え要約候補に決定され、「要約候補1」と「要約候補5」とが要約に決定される。
【0084】
次に、第2の具体例として、「語D」を検索語として検索する。
【0085】
最初に、手順1により、要約として「要約候補1」と「要約候補2」とが選択される。
【0086】
次に、手順2により、「要約候補1」と「要約候補2」とに存在しない新たな出現パターンが、「要約候補3」および「要約候補4」に出現しないため、「要約候補3」および「要約候補4」を置換え候補として選択しない。
【0087】
次に、手順2により、「要約候補1」と「要約候補2」とには含まれない「語D」が、「要約候補5」には含まれるため、「要約候補5」を置換え候補として選択する。
【0088】
次に、手順3により、「要約候補1」と「要約候補5」との論理和、および「要約候補2」と「要約候補5」との論理和をとり、「要約候補1」と「要約候補5」との論理和は「(1)」になり、「要約候補2」と「要約候補5」との論理和は「(1)」になり、検索語の網羅性は同じである。
【0089】
次に、手順4により、「要約候補1」には「語D」が含まれ、「要約候補2」には「語D」が含まれないことから、「要約候補2」が被置換え要約候補に決定され、「要約候補1」と「要約候補5」とが要約に決定される。
【0090】
また、手順4を考慮しない場合、手順5により、重要度が低い「要約候補2」が被置換え要約候補に決定され、「要約候補1」と「要約候補5」とが要約に決定される。
【0091】
次に、第3の具体例として、「語E」を検索語として検索する。
【0092】
最初に、手順1により、要約として「要約候補5」が選択されるが、要約候補が1つなので、残りの1つとして重要度が最も高い「要約候補1」を要約として選択し、「要約候補1」と「要約候補5」とが要約に決定される。
【0093】
次に、第4の具体例として、「語F」を検索語として検索する。
【0094】
「語F」を含む要約候補は存在しないため、重要度が高い要約候補から順に、「要約候補1」と「要約候補2」とが要約に決定される。
【0095】
従って、上記のような手順で関連テーブルに基づいて要約を決定することで、1つの検索語または複数の検索語ができる限り多く出現する要約候補が選択されることで、ユーザの検索意図に適合するか否かを判定するのに役立つ要約を決定することが可能になり、更に、文書全体を通して重要と判断された文章が要約として選択されることになる。
【0096】
また、要約候補に検索語が含まれていない際にも、文書全体を通して重要と判断された文章が要約として選択されることになる。
【0097】
次に、検索語をボールド等で強調して表示する強調表示ついて説明する。強調表示は以下に挙げる方法がある。
【0098】
1.要約文を走査し、該当する検索語を強調表示する方法。
【0099】
2.語の抽出・登録時に、要約候補中に出現する語の位置情報および語の長さの組を登録しておき、それを利用して検索語の強調表示を行う方法。
【0100】
また、方法2には、更に2つの方法がある。
【0101】
2−1.語に付随する情報として登録する方法。
【0102】
2−2.要約候補に付随する情報として登録する方法(これによって、カタカナの表記ゆれ等があっても、正しく強調表示することができる。)。
【0103】
例えば、「プリンターとプリンタの表記について」という要約候補が登録されている場合、「プリンター」、「プリンタ」を「プリンタ」という同一の語として認識するような語抽出を行うことで、要約にどちらが出現しても、位置情報および長さ情報に基づいて強調表示することができる。これらの情報はバイト単位で、「プリンタ」は[0,10]、[12,8]([0,10]が「プリンター」の情報で0バイト目に出現し10バイトの長さ、[12,8]が「プリンタ」の情報で12バイト目に出現し8バイトの長さ)で表される。これらの情報を語に付随する情報として登録する場合は、要約候補番号(要約候補1からの順序)と合わせて登録し、要約候補に付随する情報として登録する場合は、語番号(語Aからの順序)と合わせて登録することで、強調表示のための位置情報を取得する。
【0104】
従って、検索語が要約に含まれている際には、検索語をボールド等で強調表示することで、ユーザの検索意図に適合するか否かを判定するのに役立つ。
【0105】
なお、上記実施例で説明した文書検索装置1と同様の動作を行うことが可能な文書検索プログラムを一般的なPC(Personal Computer)にインストールする構成でも適用可能である。
【0106】
【発明の効果】
以上説明したように本発明によれば、作成される文書データベースのサイズを、文書の全文を蓄積する従来のシステムに較べてコンパクトにすることで、従来のシステムよりも多くの文書データを登録することが可能になり、また、要約を作成する際に全文を走査する必要が無い事で、より高速に要約を作成することが可能になり、また、要約候補を登録する際に重要度を設定することで、ユーザが検索意図に適合するか否か判定することが容易な要約を作成することが可能になるという効果を奏する。
【図面の簡単な説明】
【図1】
【図2】
【図3】
【図4】
【符号の説明】
1 文書検索装置
2 文書
3 登録部
4 文書データベース
5 検索部
6 入力部
7 出力部
8 文書解析部
9 インデックス作成部
10 検索処理部
11 要約作成部
12 要約候補テーブル
13 関連テーブル
14 出現パターン表
Claims (33)
- 登録された複数の文書から所望の検索要求に対応する文書を検索する文書検索方法において、
文書に含まれる文章から少なくとも1つの語および少なくとも1つの文を抽出し、
該抽出した文から前記文書の要約文の候補となる要約文候補を選択し、
該選択した要約文候補に重要度を設定する要約文候補テーブルを作成し、
前記要約文候補に前記語が出現するか否かの関連性を設定する関連テーブルを作成し、
要約文候補テーブルおよび前記関連テーブルに基づき、前記所望の検索要求に対応して検索された文書の要約文を作成する
ことを特徴とする文書検索方法。 - 前記所望の検索要求として複数の検索語が指定された際に、前記要約文候補に該検索語が出現しているか否かを表す出現パターンを算出し、
前記要約文とする要約候補の数を予め設定し、
該算出した出現パターンに基づいて前記設定した数の要約文候補を選択し、
該選択した要約文候補を要約文とする
ことを特徴とする請求項1記載の文書検索方法。 - 要約文として選択された第1の要約文候補で算出されない出現パターンが、第1の要約文候補より前記重要度の低い第2の要約文候補で算出された場合、
前記第1の要約文候補の中から前記第2の要約文候補と置き換えられる被置換え要約文候補を決定し、
前記第2の要約文候補を前記被置換え要約文候補と置き換えて要約文とする
ことを特徴とする請求項2記載の文書検索方法。 - 前記第1の要約文候補の出現パターンと前記第2の要約文候補の出現パターンとの論理和を算出し、
該算出した論理和に基づき、前記第1の要約文候補の中で検索語の網羅性が低い要約文候補を前記被置換え要約文候補に決定する
ことを特徴とする請求項3記載の文書検索方法。 - 前記網羅性に差異がない場合、前記第1の要約文候補の中で検索語の種類が少ない要約文候補を前記被置換え要約文候補に決定する
ことを特徴とする請求項4記載の文書検索方法。 - 前記第1の要約文候補の中で前記重要度の低い要約文候補を前記被置換え要約文候補に決定する
ことを特徴とする請求項3記載の文書検索方法。 - 前記要約文として選択された要約文候補に前記検索語が出現しない場合、前記重要度の高い順に要約文候補を選択する
ことを特徴とする請求項2記載の文書検索方法。 - 前記要約文として選択された前記検索語が出現する要約文候補の数が、前記要約文とする要約文候補の数より少ない場合、前記重要度の高い順に残りの要約文候補を選択する
ことを特徴とする請求項2記載の文書検索方法。 - 前記文書に含まれる文章から少なくとも1つの文を抽出するとともに、該抽出した各文の該文章における位置情報を抽出し、
該抽出した位置情報に基づき、前記要約文として選択された要約文候補を並び替え、該並び替えた要約文候補を要約文とする
ことを特徴とする請求項2記載の文書検索方法。 - 前記語に重み付けを行い、
前記語の重みに基づき、前記要約文候補テーブルを作成する
ことを特徴とする請求項1記載の文書検索方法。 - 前記要約文候補に出現する語の位置情報および語の長さを登録し、該登録した位置情報および語に基づき、前記要約文に出願する検索語の強調表示を行う
ことを特徴とする請求項2記載の文書検索方法。 - 登録された複数の文書から所望の検索要求に対応する文書を検索する文書検索装置において、
文書に含まれる文章から少なくとも1つの語および少なくとも1つの文を抽出する文書解析手段と、
前記文書解析手段で抽出した文から前記文書の要約文の候補となる要約文候補を選択する要約文候補選択手段と、
前記要約文候補選択手段で選択した要約文候補に重要度を設定する要約文候補テーブルを作成する要約文候補テーブル作成手段と、
前記要約文候補に前記語が出現するか否かの関連性を設定する関連テーブルを作成する関連テーブル作成手段と、
前記要約文候補テーブルおよび前記関連テーブルに基づき、前記所望の検索要求に対応して検索された文書の要約文を作成する要約文作成手段と
を具備することを特徴とする文書検索装置。 - 前記要約文作成手段は、
前記所望の検索要求として複数の検索語が指定された際に、前記要約文候補に該検索語が出現しているか否かを表す出現パターンを算出する出現パターン算出手段と、
前記要約文とする要約候補の数を予め設定する要約候補数設定手段と、
前記出現パターン算出手段で算出した出現パターンに基づいて前記要約候補数設定手段で設定した数の要約文候補を選択する要約文選択手段と
を具備し、
前記要約文選択手段で選択した要約文候補を要約文とする
ことを特徴とする請求項12記載の文書検索装置。 - 前記要約文選択手段は、
要約文として選択された第1の要約文候補で算出されない出現パターンが、第1の要約文候補より前記重要度の低い第2の要約文候補で算出された場合、前記第1の要約文候補の中から前記第2の要約文候補と置き換えられる被置換え要約文候補を決定する被置換え要約文候補決定手段
を具備し、
前記第2の要約文候補を前記被置換え要約文候補と置き換えて選択する
ことを特徴とする請求項13記載の文書検索装置。 - 前記被置換え要約文候補決定手段は、
前記第1の要約文候補の出現パターンと前記第2の要約文候補の出現パターンとの論理和を算出し、
該算出した論理和に基づき、前記第1の要約文候補の中で検索語の網羅性が低い要約文候補を前記被置換え要約文候補に決定する
ことを特徴とする請求項14記載の文書検索装置。 - 前記被置換え要約文候補決定手段は、
前記網羅性に差異がない場合、前記第1の要約文候補の中で検索語の種類が少ない要約文候補を前記被置換え要約文候補に決定する
ことを特徴とする請求項15記載の文書検索装置。 - 前記被置換え要約文候補決定手段は、
前記第1の要約文候補の中で前記重要度が低い要約文候補を前記被置換え要約文候補に決定する
ことを特徴とする請求項14記載の文書検索装置。 - 前記要約文選択手段は、
前記要約文として選択された要約文候補に前記検索語が出現しない場合、前記重要度の高い順に要約文候補を選択する
ことを特徴とする請求項13記載の文書検索装置。 - 前記要約文選択手段は、
前記要約文として選択された前記検索語が出現する要約文候補の数が、前記要約文とする要約文候補の数より少ない場合、前記重要度の高い順に残りの要約文候補を選択する
ことを特徴とする請求項13記載の文書検索方法。 - 前記文書解析手段は、
前記文書に含まれる文章から少なくとも1つの文を抽出するとともに、該抽出した各文の該文章における位置情報を抽出し、
前記要約文作成手段は、
前記文書解析手段で抽出した位置情報に基づき、前記要約文選択手段で要約文として選択された要約文候補を並び替え、該並び替えた要約文候補を要約文とする
ことを特徴とする請求項12記載の文書検索装置。 - 前記文書解析手段は、
前記語に重み付けを行い、
前記要約文候補テーブル作成手段は、
前記語の重みに基づき、前記要約文候補テーブルを作成する
ことを特徴とする請求項12記載の文書検索装置。 - 前記要約文候補に出現する語の位置情報および語の長さを登録する登録手段と
前記登録手段で登録した位置情報および語に基づき、前記要約文に出願する検索語の強調表示を行う強調表示手段と
を具備することを特徴とする請求項13記載の文書検索装置。 - 登録された複数の文書から所望の検索要求に対応する文書を検索する文書検索プログラムにおいて、
文書に含まれる文章から少なくとも1つの語および少なくとも1つの文を抽出する処理と、
該抽出した文から前記文書の要約文の候補となる要約文候補を選択する処理と、
該選択した要約文候補に重要度を設定する要約文候補テーブルを作成する処理と、
前記要約文候補に前記語が出現するか否かの関連性を設定する関連テーブルを作成する処理と、
前記要約文候補テーブルおよび前記関連テーブルに基づき、前記所望の検索要求に対応して検索された文書の要約文を作成する処理と
をコンピュータに動作させることを特徴とする文書検索プログラム。 - 前記所望の検索要求として複数の検索語が指定された際に、前記要約文候補に該検索語が出現しているか否かを表す出現パターンを算出する処理と、
前記要約文とする要約候補の数を予め設定する処理と、
該算出した出現パターンに基づいて前記設定した数の要約文候補を選択する処理と、
該選択した要約文候補を要約文とする処理と
をコンピュータに動作させることを特徴とする請求項23記載の文書検索プログラム。 - 要約文として選択された第1の要約文候補で算出されない出現パターンが、第1の要約文候補より前記重要度の低い第2の要約文候補で算出された場合、
前記第1の要約文候補の中から前記第2の要約文候補と置き換えられる被置換え要約文候補を決定する処理と、
前記第2の要約文候補を前記被置換え要約文候補と置き換えて要約文とする処理と
をコンピュータに動作させることを特徴とする請求項24記載の文書検索プログラム。 - 前記第1の要約文候補の出現パターンと前記第2の要約文候補の出現パターンとの論理和を算出する処理と、
該算出した論理和に基づき、前記第1の要約文候補の中で検索語の網羅性が低い要約文候補を前記被置換え要約文候補に決定する処理と
をコンピュータに動作させることを特徴とする請求項25記載の文書検索プログラム。 - 前記網羅性に差異がない場合、前記第1の要約文候補の中で検索語の種類が少ない要約文候補を前記被置換え要約文候補に決定する処理
をコンピュータに動作させることを特徴とする請求項26記載の文書検索プログラム。 - 前記第1の要約文候補の中で前記重要度の低い要約文候補を前記被置換え要約文候補に決定する処理
をコンピュータに動作させることを特徴とする請求項27記載の文書検索プログラム。 - 前記要約文として選択された要約文候補に前記検索語が出現しない場合、前記重要度の高い順に要約文候補を選択する処理
をコンピュータに動作させることを特徴とする請求項24記載の文書検索プログラム。 - 前記要約文として選択された前記検索語が出現する要約文候補の数が、前記要約文とする要約文候補の数より少ない場合、前記重要度の高い順に残りの要約文候補を選択する処理
をコンピュータに動作させることを特徴とする請求項24記載の文書検索プログラム。 - 前記文書に含まれる文章から少なくとも1つの文を抽出するとともに、該抽出した各文の該文章における位置情報を抽出する処理と、
該抽出した位置情報に基づき、前記要約文として選択された要約文候補を並び替え、該並び替えた要約文候補を要約文とする処理と
をコンピュータに動作させることを特徴とする請求項24記載の文書検索プログラム。 - 前記語に重み付けを行う処理と、
前記語の重みに基づき、前記要約文候補テーブルを作成する処理と
をコンピュータに動作させることを特徴とする請求項23記載の文書検索プログラム。 - 前記要約文候補に出現する語の位置情報および語の長さを登録し、該登録した位置情報および語に基づき、前記要約文に出願する検索語の強調表示を行う処理
をコンピュータに動作させることを特徴とする請求項24記載の文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002313547A JP4135467B2 (ja) | 2002-10-28 | 2002-10-28 | 情報処理装置、システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002313547A JP4135467B2 (ja) | 2002-10-28 | 2002-10-28 | 情報処理装置、システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004151791A true JP2004151791A (ja) | 2004-05-27 |
JP4135467B2 JP4135467B2 (ja) | 2008-08-20 |
Family
ID=32458107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002313547A Expired - Fee Related JP4135467B2 (ja) | 2002-10-28 | 2002-10-28 | 情報処理装置、システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4135467B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9367605B2 (en) | 2009-09-23 | 2016-06-14 | Alibaba Group Holding Limited | Abstract generating search method and system |
JP6205466B1 (ja) * | 2016-07-19 | 2017-09-27 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
-
2002
- 2002-10-28 JP JP2002313547A patent/JP4135467B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9367605B2 (en) | 2009-09-23 | 2016-06-14 | Alibaba Group Holding Limited | Abstract generating search method and system |
JP6205466B1 (ja) * | 2016-07-19 | 2017-09-27 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP2018013876A (ja) * | 2016-07-19 | 2018-01-25 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4135467B2 (ja) | 2008-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6081804A (en) | Method and apparatus for performing rapid and multi-dimensional word searches | |
CN100535898C (zh) | 问答式文献检索系统和方法 | |
JP5011751B2 (ja) | 訳語情報出力処理プログラム,処理方法および処理装置 | |
US5893094A (en) | Method and apparatus using run length encoding to evaluate a database | |
JPH11120203A (ja) | データベースを合併する方法およびデータベースからドキュメントを検索する装置 | |
JPH11102374A (ja) | データベースの文書表示方法およびその装置 | |
TW201027375A (en) | Search system, search method and program | |
KR101174057B1 (ko) | 인덱스 분석장치와 인덱스 검색장치 및 그 방법 | |
Merkel et al. | Knowledge-lite extraction of multi-word units with language filters and entropy thresholds. | |
JP2004192546A (ja) | 情報検索方法、装置、プログラム、および記録媒体 | |
JP4009937B2 (ja) | 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体 | |
JPH0944523A (ja) | 関連語提示装置 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP4135467B2 (ja) | 情報処理装置、システムおよびプログラム | |
JP3558267B2 (ja) | 文書検索装置 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP2006293616A (ja) | 文書集約方法及び装置及びプログラム | |
US20090249197A1 (en) | Document proofreading support method and document proofreading support apparatus | |
JPH117452A (ja) | ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体 | |
Huffman et al. | Multiple-signal duplicate detection for search evaluation | |
JP2008090396A (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP3816680B2 (ja) | 文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP2004133510A (ja) | 技術文献検索システム | |
US20230359658A1 (en) | Business matching support device, business matching support method, and program | |
JP3861105B2 (ja) | 質問応答システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080513 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080526 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120613 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130613 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140613 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |