JP2001249935A - 文書ダイジェスト作成方法、文書検索装置および記録媒体 - Google Patents

文書ダイジェスト作成方法、文書検索装置および記録媒体

Info

Publication number
JP2001249935A
JP2001249935A JP2000062561A JP2000062561A JP2001249935A JP 2001249935 A JP2001249935 A JP 2001249935A JP 2000062561 A JP2000062561 A JP 2000062561A JP 2000062561 A JP2000062561 A JP 2000062561A JP 2001249935 A JP2001249935 A JP 2001249935A
Authority
JP
Japan
Prior art keywords
document
word
graph
digest
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000062561A
Other languages
English (en)
Other versions
JP3581074B2 (ja
Inventor
Junji Tomita
準二 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000062561A priority Critical patent/JP3581074B2/ja
Publication of JP2001249935A publication Critical patent/JP2001249935A/ja
Application granted granted Critical
Publication of JP3581074B2 publication Critical patent/JP3581074B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書構造を仮定せず、どのような言語も扱
え、ユーザが入力した検索キーに応じたダイジェストを
作成可能な文書検索装置を構築する。 【解決手段】 電子化された文書の内容を簡潔に表現す
るダイジェストを情報処理装置により作成する、文書ダ
イジェスト作成方法において、ダイジェストを作成する
文書本文および、どのような状況を想定してダイジェス
トを作成するのかを規定するコンテクストを単語とその
単語の重要度の対の形態で情報処理装置に入力し、文書
本文を、その文書に使用されている単語の重要度をノー
ドの重み、単語間の関連度をリンクの重みとした文書グ
ラフによって表現し、文書グラフからコンテクストに応
じて部分グラフを抽出し、部分グラフを、元の文書の内
容を図的に表現したダイジェストグラフとする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書から、「文書
がどのような内容で書かれているのかを簡潔に表現する
ダイジェスト」を適切に作成するための方法に関するも
のであり、文書ダイジェスト作成方法、文書検索装置お
よび記録媒体に関する。
【0002】
【従来の技術】(従来のダイジェスト作成方法)ここで
言う、ダイジェストとは、文書がどのような内容である
かを簡潔に表現するものである。文書から作成される要
約や本のタイトルといった文形式のものから、表紙に書
かれている絵や図等も文書の内容を簡潔に表現するとい
う意味で、一種のダイジェストである。電子化された文
書から、このようなダイジェストを作成する方法には、
以下のものがあった。 (方法a)文書の構造情報を利用し、タイトル,章や節
の見出し、概要などのあらかじめ文書に記述されている
一部を抜き出してダイジェストとする。 (方法b)言語情報を用いて文書内から重要な文を抽出
し、これらを並べてダイジェストとする。例えば、「す
なわち」や「つまり」といった接続詞の後の文を重要文
としてダイジェストに用いる。 (方法c)文書の中から単語を抽出しそれぞれの単語に
重要度を付ける。次に重要度の高い単語が多く含まれて
いる文を重要文として抽出し、これらを並べてダイジェ
ストとする。 (方法d)ユーザが指定した特定の単語を含む文をダイ
ジェストとする。
【0003】(従来の文書検索装置)従来の文書検索装
置では、以下のステップによって検索を実行し検索結果
をユーザに提示していた。 (1)ユーザは単語,単語集合,単語のブール演算子結
合,文,文書,文書集合等によって検索キーを指定す
る。 (2)検索キーに合致する文書IDの集合を文書索引デ
ータベースを用いて取得する。 (3)文書IDに対応する文書のダイジェストと本文へ
のポインタを並べて検索結果とする。 (4)検索結果をユーザに提示する。
【0004】このように検索結果として、ダイジェスト
を並べることによって、ユーザはそれぞれの文書本文を
読まなくても、それぞれがどのような内容で書かれてい
るのかを概観することができる。
【0005】これらのダイジェスト作成方法には上記方
法a〜方法dのいずれかの方法が利用されてきた(方法
dを用いる場合には検索キーに含まれる単語を指定単語
として、その単語を含む文をダイジェストとして出力し
ている)。
【0006】
【発明が解決しようとする課題】しかしながら従来のダ
イジェスト作成方法を文書検索装置に用いる場合、以下
のような解決すべき課題が従来技術にはあった。
【0007】・文書構造を仮定する必要がある。方法a
では、文書のどの部分が、タイトル,章や節の見出し、
概要に当たるのかと言った文書の構造情報がないとダイ
ジェストを作成することができない。
【0008】・言語に依存した情報を利用する必要があ
る。方法bでは、接続詞の抽出等言語に依存した処理を
行なわないといけない。そのため、様々な言語で書かれ
た文書を同じ方法でダイジェスト作成ができない。
【0009】・検索キーに応じたダイジェストが作成で
きない。方法a,方法b,方法cでは、検索キーに応じ
てダイジェストを作成することができない。そのためユ
ーザはなぜ、自分が入力した検索キーに対してその文書
が合致したのかを即座に理解することができない。
【0010】・検索キーが複雑になった場合のダイジェ
ストが作成できない。方法dでは、検索キーが少数個の
キーワードの場合、文書内のそれらのキーワードを含む
文をすべて結合してダイジェストを作成することができ
る。しかし、検索キーが複雑になり検索キーに含まれる
キーワードの個数が増えるとそれらのキーワードを含む
文の個数は多数となり、ダイジェストが大きくなり過ぎ
てしまう。
【0011】そこで本発明の目的は、上述の点に鑑み
て、文書構造を仮定せず、どのような言語も扱え、ユー
ザが入力した検索キーに応じたダイジェストを作成可能
な、ユーザにとって扱いやすい文書検索装置を構築する
ことができる文書ダイジェスト作成方法、文書検索装置
および記録媒体を提供することにある。
【0012】
【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、電子化された文書から、
該文書の内容を簡潔に表現するダイジェストを情報処理
装置により作成する、文書ダイジェスト作成方法におい
て、ダイジェストを作成する文書本文および、どのよう
な状況を想定してダイジェストを作成するのかを規定す
るコンテクストを単語とその単語の重要度の対の形態で
前記情報処理装置に入力し、前記情報処理装置におい
て、前記文書本文を、その文書に使用されている単語の
重要度をノードの重み、単語間の関連度をリンクの重み
とした文書グラフによって表現し、前記文書グラフから
前記コンテクストに応じて部分グラフを抽出し、当該抽
出された部分グラフを、元の文書の内容を図的に表現し
たダイジェストグラフとすることを特徴とする。
【0013】請求項2の発明は、請求項1に記載の文書
ダイジェスト作成方法において、前記文書グラフから前
記コンテクストに応じた部分グラフを抽出する場合に、
前記情報処理装置は、前記コンテクストのそれぞれの単
語と、前記文書グラフ上のそれぞれの単語との関連の強
さを表す間接関連度を計算し、前記コンテクストのそれ
ぞれの単語毎に、該単語と前記文書グラフ上の全ての単
語との間接関連度を並べた間接関連度ベクトルを作成
し、前記コンテクストの単語の重要度と前記間接関連度
ベクトルとから、前記コンテクストと関連の強い単語か
らなる関連単語集合を求め、前記文書グラフから、前記
関連単語集合に含まれる単語を持つノードだけを抽出す
ることによって、前記部分グラフを作成することを特徴
とする。
【0014】請求項3の発明は、請求項2に記載の文書
ダイジェスト作成方法において、前記間接関連度を計算
する場合に、前記コンテクストの第1の単語と前記文書
グラフ上の第2の単語との間接関連度について、前記情
報処理装置は、前記文書グラフ上に前記コンテクストの
第1の単語がなければ、前記間接関連度は0となし、も
しあった場合には、前記コンテクストの第1の単語から
前記文書グラフ上の第2の単語への全てのパスを求め、
それぞれのパスの重みを計算し、当該計算されたパスの
重みの最大値をもって、前記間接関連度とすることを特
徴とする。
【0015】請求項4の発明は、請求項3に記載の文書
ダイジェスト作成方法において、前記パスの重みを計算
する場合に、前記情報処理装置は、経由するノード数お
よびリンク数が少なければ少ないほどパスの重みを大き
くし、経由するそれぞれのノードの重みが大きければ大
きいほどパスの重みを大きくし、経由するそれぞれのリ
ンクの重みが大きければ大きいほどパスの重みを大きく
するようにパスの重みを計算することを特徴とする。
【0016】請求項5の発明は、請求項2に記載の文書
ダイジェスト作成方法において、前記コンテクストの単
語毎に作られた前記間接関連度ベクトルから前記関連単
語集合を求める場合に、前記情報処理装置は、前記間接
関連度ベクトルの単語部分が同じ各要素の間接関連度
を、前記コンテクストの単語の重要度が大きいものほど
その影響が大きくなるように足し合わせることによっ
て、前記コンテクストの全単語に対して足し合わせた間
接関連度ベクトルを求め、前記間接関連度ベクトルに含
まれる単語の中で、ある定めた値を越える間接関連度を
持つ単語だけを選択するか、または、間接関連度が大き
な上位定数個の単語を選択することによって、前記関連
単語集合を求めることを特徴とする。
【0017】請求項6の発明は、ユーザに検索キーを入
力させる入力手段と、前記検索キーに合致する文書ID
の集合を文書索引データベースから取り出す検索実行手
段と、前記文書IDに対応したダイジェストを並べて検
索結果を作成する検索結果作成手段と、前記検索結果を
ユーザに提示する結果表示手段とを具え、前記検索結果
作成手段は、前記文書IDに対応して、単語をノードお
よび単語間の関連をリンクとした文書の内容を表わすグ
ラフ形式のダイジェストと、文書本文へのポインタを並
べて検索結果とすることを特徴とする。
【0018】請求項7の発明は、請求項6に記載の文書
検索装置において、前記文書IDに対応したダイジェス
トを作成する場合に、前記検索キーから単語を抽出し、
当該抽出された単語の重要度を計算し、前記単語と前記
単語の重要度の対を作成するコンテクスト作成手段と、
それぞれの前記文書IDに対応した文書を文書データベ
ースから取得し、文書グラフを作成する文書グラフ作成
手段と、前記文書グラフの集合と、単語と単語の重要度
の対で与えられる前期コンテクストを入力とし、グラフ
形式のダイジェストを作成するダイジェスト作成手段と
を具えたことを特徴とする。
【0019】請求項8の発明は、電子化された文書か
ら、該文書の内容を簡潔に表現するダイジェストを情報
処理装置により作成する、文書ダイジェスト作成プログ
ラムを記録した記録媒体において、前記プログラムは、
ダイジェストを作成する文書本文および、どのような状
況を想定してダイジェストを作成するのかを規定するコ
ンテクストを単語とその単語の重要度の対の形態で前記
情報処理装置に入力するステップと、前記文書本文を、
その文書に使用されている単語の重要度をノードの重
み、単語間の関連度をリンクの重みとした文書グラフに
よって表現するステップと、前記文書グラフから前記コ
ンテクストに応じて部分グラフを抽出するステップと、
当該抽出された部分グラフを、元の文書の内容を図的に
表現したダイジェストグラフとするステップとを具えた
ことを特徴とする。
【0020】請求項9の発明は、請求項8に記載の記録
媒体において、前記文書グラフから前記コンテクストに
応じて部分グラフを抽出するステップは、前記コンテク
ストのそれぞれの単語と、前記文書グラフ上のそれぞれ
の単語との関連の強さを表す間接関連度を計算し、前記
コンテクストのそれぞれの単語毎に、該単語と前記文書
グラフ上の全ての単語との間接関連度を並べた間接関連
度ベクトルを作成し、前記コンテクストの単語の重要度
と前記間接関連度ベクトルとから、前記コンテクストと
関連の強い単語からなる関連単語集合を求め、前記文書
グラフから、前記関連単語集合に含まれる単語を持つノ
ードだけを抽出することによって、前記部分グラフを作
成することを特徴とする。
【0021】請求項10の発明は、請求項9に記載の記
録媒体において、前記間接関連度を計算する場合に、前
記コンテクストの第1の単語と前記文書グラフ上の第2
の単語との間接関連度について、前記プログラムは、前
記文書グラフ上に前記コンテクストの第1の単語がなけ
れば、前記間接関連度は0となし、もしあった場合に
は、前記コンテクストの第1の単語から前記文書グラフ
上の第2の単語への全てのパスを求め、それぞれのパス
の重みを計算し、当該計算されたパスの重みの最大値を
もって、前記間接関連度とすることを特徴とする。
【0022】請求項11の発明は、請求項10に記載の
記録媒体において、前記パスの重みを計算する場合に、
前記プログラムは、経由するノード数およびリンク数が
少なければ少ないほどパスの重みを大きくし、経由する
それぞれのノードの重みが大きければ大きいほどパスの
重みを大きくし、経由するそれぞれのリンクの重みが大
きければ大きいほどパスの重みを大きくするようにパス
の重みを計算することを特徴とする。
【0023】請求項12の発明は、請求項9に記載の記
録媒体において、前記コンテクストの単語毎に作られた
前記間接関連度ベクトルから前記関連単語集合を求める
場合に、前記プログラムは、前記間接関連度ベクトルの
単語部分が同じ各要素の間接関連度を、前記コンテクス
トの単語の重要度が大きいものほどその影響が大きくな
るように足し合わせることによって、前記コンテクスト
の全単語に対して足し合わせた間接関連度ベクトルを求
め、前記間接関連度ベクトルに含まれる単語の中で、あ
る定めた値を越える間接関連度を持つ単語だけを選択す
るか、または、間接関連度が大きな上位定数個の単語を
選択することによって、前記関連単語集合を求めること
を特徴とする。
【0024】請求項13の発明は、ユーザに検索キーを
入力させるステップと、前記検索キーに合致する文書I
Dの集合を文書索引データベースから取り出すステップ
と、前記文書IDに対応したダイジェストを並べて検索
結果を作成するステップと、前記検索結果をユーザに提
示するステップとを具え、前記検索結果を作成するステ
ップは、前記文書IDに対応して、単語をノードおよび
単語間の関連をリンクとした文書の内容を表わすグラフ
形式のダイジェストと、文書本文へのポインタを並べて
検索結果とすることを特徴とする。
【0025】請求項14の発明は、請求項13に記載の
記録媒体において、前記文書IDに対応したダイジェス
トを作成する場合に、前記検索キーから単語を抽出し、
当該抽出された単語の重要度を計算し、前記単語と前記
単語の重要度の対を作成するコンテクスト作成のステッ
プと、それぞれの前記文書IDに対応した文書を文書デ
ータベースから取得し、文書グラフを作成するステップ
と、前記文書グラフの集合と、単語と単語の重要度の対
で与えられる前期コンテクストを入力とし、グラフ形式
のダイジェストを作成するステップとを具えたことを特
徴とする。
【0026】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。 (実施形態1 ダイジェスト作成方法)本発明に係わる
実施形態のダイジェスト作成方法における、ユーザが文
書検索装置に入力する情報は、ダイジェストを作成した
い「文書本文」とどの様な状況を想定してダイジェスト
を作成するのかを規定する「コンテクスト」である。
【0027】コンテクストは単語とその単語の重要度の
対の集合で与える。また、本発明におけるダイジェスト
は通常の要約やタイトルといった文(文書)形式ではな
く、図的に文書の内容を表現する。具体的には、単語を
ノードとし単語間の関連をリンクで結んだグラフ形式と
する(図1)。このようなグラフをダイジェストグラフ
と呼ぶ。ダイジェストグラフを見たユーザはグラフに使
用されている単語と単語の関連の仕方を見て文書の内容
を簡単に把握することができる。
【0028】文書DとコンテクストCからダイジェスト
グラフsD を作成する具体的な手順を以下に示す(詳し
くは後述)。 1.文書Dを、単語の重要度をノードの重み、単語間の
関連度をリンクの重みとしたグラフで表現する。以下、
このグラフを文書グラフgD と呼ぶ。 2.単語kとその単語の重要度wK の対の集合で、コン
テクストCを与える。文書グラフgD 上のそれぞれの単
語iと単語kとの関連の強さpikを計算する。P ikを間
接関連度と呼び、単語k毎に、この値を要素として持つ
間接関連度ベクトルpk を作成する。 3.単語k毎の間接関連度ベクトルpk の総和を計算
し、コンテクスト全体に対する間接関連度ベクトルpを
作成する。pの中である程度大きな間接関連度を持つ単
語だけからなる集合(関連単語集合)MD を求める。 4.関連単語集合MD に含まれる単語を持つノードだけ
を文書グラフgD から、抽出し、部分グラフを作成す
る。この部分グラフを文書DのダイジェストグラフsD
とする。
【0029】(文書グラフの作成)文書Dからその文書
の内容を表現する文書グラフgD を作成する方法は、特
願平10−297321号に記載されている主題グラフ
の作成法を用いる。ここでは、その方法を簡単に説明す
る。
【0030】まず、文書Dに含まれる全ての単語を抽出
する。それぞれの単語iの出現頻度情報,出現場所の情
報等を用いて、単語の重要度vi を求める。また、単語
の共起情報,単語間の係り受け情報を用いて、単語iと
単語jの関連の強さを表す関連度rijを求める。このよ
うにして求めた単語の重要度をノードの重み、単語間の
関連度をリンクの重みとしたグラフを作成する(図
2)。このグラフを文書グラフgD と呼ぶ。文書グラフ
D は、以下の2つのベクトルによって表現される。
【0031】 単語の重要度のベクトル (v1 ,v2 ,…,vi
…,vn ) 単語間の関連度のベクトル(r12 ,13 ,…,rij ,
n-1n) (i,j∈ND ) ここで、ND は、文書Dに含まれる全ての単語からなる
集合を表し、n=|N D |は、総単語数を表す(|X|
は集合Xの要素数)。また、(0≦vi ,rij≦1)と
なるように正規化する。
【0032】(単語毎の間接関連度ベクトルの作成)コ
ンテクストCのそれぞれの単語k毎に間接関連度ベクト
ルpk を求める方法を述べる。コンテクストCのそれぞ
れの単語kの重要度をwk とすると、コンテクストCは
以下のベクトルで表現される。
【0033】 (w1 ,w2 ,…,wk ,…,wl ) (k∈LC ) ここで、LC は、コンテクストCに含まれる全ての単語
からなる集合を表し、l=|LC |は、コンテクストC
に含まれる総単語数を表す。次に単語kと文書グラフg
D 上のそれぞれの単語iとの間接関連度pikを、以下の
方法で計算する。
【0034】if 単語kが文書グラフgD 上に存在する
ならpik=単語i,k間の任意のパスの「パスの重み」
の最大値; else pik=0 for all i; end ここで、「パスaの重み」とは、パスaの上の全てのノ
ードの重みとリンクの重みを掛けた値である。これらの
値を並べて、コンテクストCのそれぞれの単語k毎に間
接関連度ベクトルpk を作成する。
【0035】 pk =(p1k ,2k ,…,pik…,pnk) 以下に、図3の文書グラフ上で、単語「検索」と単語
「ロボット」間の間接関連度を計算する例を示す。30
1はパス1、302はパス2、303はパス3である。
【0036】まず、301のパス1では、 パス1の重み=0.7(検索)* 0.9(検索−エンジン)* 0.8(エンジン) * 0.8(エンジン−WWW)* 0.9(WWW)* 0.8(WWW−ロボット)* 0 .8(ロボット) =0.2322 となる。ただし、数字(単語A)は単語Aの重要度を表
し、数字(単語A−単語B)は単語A,B間の関連度を
表す。
【0037】同様に、302のパス2では、 パス2の重み=0.7*0.9 *0.8 *0.9 *0.1 *0.2 *0.9 *0.8 *0.8= =0.052 303のパス3では、 パス3の重み=0.7*0.8 *0.3 *0.7 *0.9 *0.8 *0.8 =0.0677 となり、これらの最大値を取り単語「検索」と「ロボッ
ト」間の間接関連度は0.2322となる。
【0038】同様に図2における単語「検索」と文書グ
ラフgD の全ての単語との間接関連度を求めることによ
って、以下の間接関連度ベクトルp検索を作成する。 p検索=((検索0.7)(エンジン0.504)(WWW0.3628)
…(ロボット0.2322)) 同様に単語「ソフトウェア」の間接関連度ベクトルpソ
フトウェアは、以下のようになる。 pソフトウェア=((検索0.0907)(エンジン0.0653)(WW
W 0.1021)…(ロボット0.0653)) (間接関連度ベクトルの総和) コンテクストCのそれぞれの単語k毎に求めた間接関連
度ベクトルpk を足し合わせて、コンテクストCに対す
る間接関連度ベクトルpを作成する。この際、コンテク
ストCで与えられる単語の重要度wk も考慮し、間接関
連度ベクトルpは、
【0039】となる。
【0040】例えば、コンテクストとして、(検索 0.
9)(ソフトウェア0.3)が与えられたとする。前節の方
法で、それぞれの単語の間接関連度ベクトルpk は、 p検索=((検索0.7)(エンジン0.504)(WWW0.3628)
…(ロボット0.2322)) pソフトウェア=((検索0.0907)(エンジン0.0653)(WW
W 0.1021)…(ロボット0.0653)) と求まる。
【0041】そのため、 p=((検索 0.9 *p[ 検索,検索] +0.3 *p[ 検索,ソフトウェア] ) (エンジン 0.9 *p[エンジン,検索] +0.3 *p[ エンジン,ソフトウェア]) (WWW 0.9 *p[www,検索] +0.3 *p[ www,ソフトウェア]) ・ ・ (ロボット 0.9 *p[ロボット,検索] +0.3 *p[ ロボット,ソフトウェア]) =((検索 0.9*0.7 +0.3 * 0.0907 ) (エンジン 0.9*0.504 +0.3 *0.0653) (WWW 0.9*0.3628+0.3 *0.1021) ・ ・ (ロボット 0.9*0.2322+ 0.3*0.0653) =((検索 0.6572)( エンジン0.4732)(WWW0.3572)…(ロボット0.2286)) となる。
【0042】ここで、pの関連単語集合をMD とすると
D は、pに含まれる要素に対応する単語の中で、 ・閾値を越える間接関連度を持つ単語を選択するまた
は、 ・間接関連度が大きな上位定数個の単語を選択すること
で求める。 例えば、pの上位8単語を関連単語集合MD とすると、 MD =(検索(0.6572), エンジン(0.4732), WWW(0.3
572), ロボット(0.2286),ソフトウェア(0.2616), シス
テム(0.1998), UNIX(登録商標)(0.1439), 効率
(0.0837)) となる。ここで、括弧内の数字は間接関連度であり、参
考のために記述してある。
【0043】(ダイジェストグラフの作成)関連単語集
合MD を単語として持つノードを、gD から抽出するこ
とによって、ダイジェストグラフsD を作成する。MD
=(検索,エンジン,WWW,ロボット,ソフトウェ
ア,システム,UNIX,効率)の場合、図2から求め
たダイジェストグラフは、図1となる。
【0044】(実施形態2 文書検索装置)実施形態1
のダイジェストグラフを検索結果としてユーザに提示す
る文書検索装置として使用可能なコンピュータのシステ
ム構成を図4に示す。
【0045】図4において、上記コンピュータはCPU
401,RAM(Random Access Memory)402、結果
表示部403、入力部404、HD(Hard Disk)40
5、バス406を有する。
【0046】CPU401はRAM402にロードされ
たプログラムを実行する。RAM402はCPU401
に対する入出力データおよびCPU401が実行するプ
ログラムを記憶する。
【0047】結果表示部403は、検索結果をユーザに
提示するディスプレイ等である。入力部404はマウス
のようなポインティングデバイスおよびキーボードを有
する。
【0048】HD405はCPU401が実行するプロ
グラムおよびデータベースを保存目的のために記憶す
る。HD405は図5に示す文書検索プログラム405
1および検索実行時に使用される文書索引データベース
4052および文書グラフ作成時に使用される文書デー
タベース4053を記憶している。
【0049】バス406はシステム・バスであり、アド
レスを転送するアドレス・バス、制御信号を転送するコ
ントロール・バス、各種データを転送するデータ・バスを
備える。
【0050】図4および図5のフローチャートを参照し
て、上記コンピュータで行われる文書検索の処理を説明
する。
【0051】ユーザが文書検索を行う場合には、HD4
05に記憶された図5の文書検索プログラムを入力部4
04からの指示で起動する。この指示に応じてCPU4
01は、HD405に記憶された図5のプログラムをR
AM402にロードし、文書検索処理を実行する。
【0052】CPU401はユーザによって入力部40
4から入力された検索キーを取り込み、RAM402に
一時保存する。ここで検索キーは単なるキーワードだけ
ではなく、単語,単語集合,単語のブール演算子結合,
文,文書,文書集合等も指定可能である(ステップS5
00)。
【0053】ステップS510でCPU401は、入力
部404から取り込んだ検索キーを用いて検索を実行
し、文書索引データベース4052から検索キーに合致
するそれぞれの文書の文書IDを取得する。CPU40
1はこれら文書IDの集合をRAM402に一時保存
し、ダイジェストグラフ入り検索結果作成処理を行う
(ステップS520)。
【0054】ダイジェストグラフ入り検索結果作成処理
において、CPU401はRAM402に保存されてい
る検索キーに基づいて単語を抽出し、それぞれの単語の
重要度を計算し、単語と単語の重要度の対の集合を作成
する。この集合をコンテクストCとする。ここで、単語
の抽出方法、単語の重要度の計算方法は特に限定しない
(ステップS540)。
【0055】ステップS550でCPU401は、RA
M402に保存されているそれぞれの文書IDに対応し
た文書を文書データベース4053から取得し、文書グ
ラフを作成する。文書グラフの作成には、特願平10−
297321の方法を用いる。
【0056】CPU401は上記文書グラフの集合と上
記コンテクストCを用いてそれぞれの文書に対応したダ
イジェストグラフを作成する。ダイジェストグラフの作
成方法は実施形態1の方法である(ステップS56
0)。
【0057】CPU401はダイジェストグラフとその
文書本文へのポインタを並べて検索結果を作成し(ステ
ップS570)、文書検索処理のステップS530へ戻
る。
【0058】ステップS530でCPU401は、結果
表示部403に上記検索結果を表示しユーザに提示す
る。たとえば検索結果は図6のように表示される。
【0059】このように、検索結果内にダイジェストグ
ラフがあることによって、ユーザは自分が入力した検索
キーに対して、なぜ、それぞれの文書が合致したのかを
直感的に把握することができる。
【0060】なお、本発明で言う記録媒体とは、ICメ
モリ、HD(Hard Disk)、FD(Floppy(登録
商標) Disk)、CD−ROMおよびその他の携帯
可能な記録媒体を意味する。これらの記録媒体に記録さ
れた上述のプログラムは、パソコン等の情報処理装置に
より実行される場合に、情報処理装置が文書検索装置と
して機能する。
【0061】
【発明の効果】以上、説明したように、本発明によれ
ば、文書がどのような構造をしているのかといった情報
を全く利用せずにダイジェストを作成することができ
る。
【0062】また、品詞等の言語情報を全く必要としな
い。そのため、どのような言語で書かれた文書でもダイ
ジェストを作成することができる。
【0063】また、検索キーに含まれる単語情報をコン
テクストとし、それに応じて文書グラフから部分グラフ
を抽出するため、検索キーに応じた適切なダイジェスト
を作成することができる。
【0064】さらに、単に単語が含まれている文を出力
するのではなく、検索キーに含まれている単語がどの程
度重要なのかの情報も考慮することができる。また、最
終的にダイジェストグラフとして出力する単語の個数を
重要なものから順番に制限して出力することができる。
そのため、検索キーが複雑になった場合でも、適切なダ
イジェストを作成することができる。
【0065】したがって、本発明によれば、コンテクス
トとして単語とその単語の重要度の集合を与えるとそれ
に応じたダイジェストを作成することができる。また、
本発明を検索装置に利用することによって、検索キーに
応じたダイジェストを作成することができるので、ユー
ザは自分の探している文書を検索結果の中から簡単に見
つけ出すことができる。
【図面の簡単な説明】
【図1】本実施形態1のダイジェストグラフである。
【図2】本実施形態1の文書グラフである。
【図3】本実施形態1の単語「検索」と単語「ロボッ
ト」間の間接関連度を計算する例を示す文書グラフであ
る。
【図4】本実施形態2のコンピュータのシステム構成図
である。
【図5】本実施形態2の文書検索プログラムのフローチ
ャートである。
【図6】本実施形態2のダイジェストグラフを用いた検
索結果の表示の説明図である。
【符号の説明】
301 パス1 302 パス2 303 パス3 401 CPU 402 RAM 403 結果表示部 404 入力部 405 HD 406 バス 4051 文書検索プログラム 4052 文書索引データベース 4053 文書データベース

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 電子化された文書から、該文書の内容を
    簡潔に表現するダイジェストを情報処理装置により作成
    する、文書ダイジェスト作成方法において、 ダイジェストを作成する文書本文および、どのような状
    況を想定してダイジェストを作成するのかを規定するコ
    ンテクストを単語とその単語の重要度の対の形態で前記
    情報処理装置に入力し、 前記情報処理装置において、前記文書本文を、その文書
    に使用されている単語の重要度をノードの重み、単語間
    の関連度をリンクの重みとした文書グラフによって表現
    し、 前記文書グラフから前記コンテクストに応じて部分グラ
    フを抽出し、 当該抽出された部分グラフを、元の文書の内容を図的に
    表現したダイジェストグラフとすることを特徴とする文
    書ダイジェスト作成方法。
  2. 【請求項2】 請求項1に記載の文書ダイジェスト作成
    方法において、前記文書グラフから前記コンテクストに
    応じた部分グラフを抽出する場合に、前記情報処理装置
    は、前記コンテクストのそれぞれの単語と、前記文書グ
    ラフ上のそれぞれの単語との関連の強さを表す間接関連
    度を計算し、前記コンテクストのそれぞれの単語毎に、
    該単語と前記文書グラフ上の全ての単語との間接関連度
    を並べた間接関連度ベクトルを作成し、前記コンテクス
    トの単語の重要度と前記間接関連度ベクトルとから、前
    記コンテクストと関連の強い単語からなる関連単語集合
    を求め、前記文書グラフから、前記関連単語集合に含ま
    れる単語を持つノードだけを抽出することによって、前
    記部分グラフを作成することを特徴とする文書ダイジェ
    スト作成方法。
  3. 【請求項3】 請求項2に記載の文書ダイジェスト作成
    方法において、前記間接関連度を計算する場合に、前記
    コンテクストの第1の単語と前記文書グラフ上の第2の
    単語との間接関連度について、前記情報処理装置は、前
    記文書グラフ上に前記コンテクストの第1の単語がなけ
    れば、前記間接関連度は0となし、もしあった場合に
    は、前記コンテクストの第1の単語から前記文書グラフ
    上の第2の単語への全てのパスを求め、それぞれのパス
    の重みを計算し、当該計算されたパスの重みの最大値を
    もって、前記間接関連度とすることを特徴とする文書ダ
    イジェスト作成方法。
  4. 【請求項4】 請求項3に記載の文書ダイジェスト作成
    方法において、前記パスの重みを計算する場合に、前記
    情報処理装置は、経由するノード数およびリンク数が少
    なければ少ないほどパスの重みを大きくし、経由するそ
    れぞれのノードの重みが大きければ大きいほどパスの重
    みを大きくし、経由するそれぞれのリンクの重みが大き
    ければ大きいほどパスの重みを大きくするようにパスの
    重みを計算することを特徴とする文書ダイジェスト作成
    方法。
  5. 【請求項5】 請求項2に記載の文書ダイジェスト作成
    方法において、前記コンテクストの単語毎に作られた前
    記間接関連度ベクトルから前記関連単語集合を求める場
    合に、前記情報処理装置は、前記間接関連度ベクトルの
    単語部分が同じ各要素の間接関連度を、前記コンテクス
    トの単語の重要度が大きいものほどその影響が大きくな
    るように足し合わせることによって、前記コンテクスト
    の全単語に対して足し合わせた間接関連度ベクトルを求
    め、前記間接関連度ベクトルに含まれる単語の中で、あ
    る定めた値を越える間接関連度を持つ単語だけを選択す
    るか、または、間接関連度が大きな上位定数個の単語を
    選択することによって、前記関連単語集合を求めること
    を特徴とする文書ダイジェスト作成方法。
  6. 【請求項6】 ユーザに検索キーを入力させる入力手段
    と、 前記検索キーに合致する文書IDの集合を文書索引デー
    タベースから取り出す検索実行手段と、 前記文書IDに対応したダイジェストを並べて検索結果
    を作成する検索結果作成手段と、 前記検索結果をユーザに提示する結果表示手段とを具
    え、 前記検索結果作成手段は、前記文書IDに対応して、単
    語をノードおよび単語間の関連をリンクとした文書の内
    容を表わすグラフ形式のダイジェストと、文書本文への
    ポインタを並べて検索結果とすることを特徴とする文書
    検索装置。
  7. 【請求項7】 請求項6に記載の文書検索装置におい
    て、前記文書IDに対応したダイジェストを作成する場
    合に、前記検索キーから単語を抽出し、当該抽出された
    単語の重要度を計算し、前記単語と前記単語の重要度の
    対を作成するコンテクスト作成手段と、それぞれの前記
    文書IDに対応した文書を文書データベースから取得
    し、文書グラフを作成する文書グラフ作成手段と、前記
    文書グラフの集合と、単語と単語の重要度の対で与えら
    れる前期コンテクストを入力とし、グラフ形式のダイジ
    ェストを作成するダイジェスト作成手段とを具えたこと
    を特徴とする文書検索装置。
  8. 【請求項8】 電子化された文書から、該文書の内容を
    簡潔に表現するダイジェストを情報処理装置により作成
    する、文書ダイジェスト作成プログラムを記録した記録
    媒体において、前記プログラムは、 ダイジェストを作成する文書本文および、どのような状
    況を想定してダイジェストを作成するのかを規定するコ
    ンテクストを単語とその単語の重要度の対の形態で前記
    情報処理装置に入力するステップと、 前記文書本文を、その文書に使用されている単語の重要
    度をノードの重み、単語間の関連度をリンクの重みとし
    た文書グラフによって表現するステップと、 前記文書グラフから前記コンテクストに応じて部分グラ
    フを抽出するステップと、 当該抽出された部分グラフを、元の文書の内容を図的に
    表現したダイジェストグラフとするステップとを具えた
    ことを特徴とする情報処理装置により読み取り可能な記
    録媒体。
  9. 【請求項9】 請求項8に記載の記録媒体において、前
    記文書グラフから前記コンテクストに応じて部分グラフ
    を抽出するステップは、前記コンテクストのそれぞれの
    単語と、前記文書グラフ上のそれぞれの単語との関連の
    強さを表す間接関連度を計算し、前記コンテクストのそ
    れぞれの単語毎に、該単語と前記文書グラフ上の全ての
    単語との間接関連度を並べた間接関連度ベクトルを作成
    し、前記コンテクストの単語の重要度と前記間接関連度
    ベクトルとから、前記コンテクストと関連の強い単語か
    らなる関連単語集合を求め、前記文書グラフから、前記
    関連単語集合に含まれる単語を持つノードだけを抽出す
    ることによって、前記部分グラフを作成することを特徴
    とする情報処理装置により読み取り可能な記録媒体。
  10. 【請求項10】 請求項9に記載の記録媒体において、
    前記間接関連度を計算する場合に、前記コンテクストの
    第1の単語と前記文書グラフ上の第2の単語との間接関
    連度について、前記プログラムは、前記文書グラフ上に
    前記コンテクストの第1の単語がなければ、前記間接関
    連度は0となし、もしあった場合には、前記コンテクス
    トの第1の単語から前記文書グラフ上の第2の単語への
    全てのパスを求め、それぞれのパスの重みを計算し、当
    該計算されたパスの重みの最大値をもって、前記間接関
    連度とすることを特徴とする情報処理装置により読み取
    り可能な記録媒体。
  11. 【請求項11】 請求項10に記載の記録媒体におい
    て、前記パスの重みを計算する場合に、前記プログラム
    は、経由するノード数およびリンク数が少なければ少な
    いほどパスの重みを大きくし、経由するそれぞれのノー
    ドの重みが大きければ大きいほどパスの重みを大きく
    し、経由するそれぞれのリンクの重みが大きければ大き
    いほどパスの重みを大きくするようにパスの重みを計算
    することを特徴とする情報処理装置により読み取り可能
    な記録媒体。
  12. 【請求項12】 請求項9に記載の記録媒体において、
    前記コンテクストの単語毎に作られた前記間接関連度ベ
    クトルから前記関連単語集合を求める場合に、前記プロ
    グラムは、前記間接関連度ベクトルの単語部分が同じ各
    要素の間接関連度を、前記コンテクストの単語の重要度
    が大きいものほどその影響が大きくなるように足し合わ
    せることによって、前記コンテクストの全単語に対して
    足し合わせた間接関連度ベクトルを求め、前記間接関連
    度ベクトルに含まれる単語の中で、ある定めた値を越え
    る間接関連度を持つ単語だけを選択するか、または、間
    接関連度が大きな上位定数個の単語を選択することによ
    って、前記関連単語集合を求めることを特徴とする情報
    処理装置により読み取り可能な記録媒体。
  13. 【請求項13】 ユーザに検索キーを入力させるステッ
    プと、 前記検索キーに合致する文書IDの集合を文書索引デー
    タベースから取り出すステップと、 前記文書IDに対応したダイジェストを並べて検索結果
    を作成するステップと、 前記検索結果をユーザに提示するステップとを具え、 前記検索結果を作成するステップは、前記文書IDに対
    応して、単語をノードおよび単語間の関連をリンクとし
    た文書の内容を表わすグラフ形式のダイジェストと、文
    書本文へのポインタを並べて検索結果とすることを特徴
    とする文書検索プログラムを記録した、情報処理装置に
    より読み取り可能な記録媒体。
  14. 【請求項14】 請求項13に記載の記録媒体におい
    て、前記文書IDに対応したダイジェストを作成する場
    合に、前記検索キーから単語を抽出し、当該抽出された
    単語の重要度を計算し、前記単語と前記単語の重要度の
    対を作成するコンテクスト作成のステップと、それぞれ
    の前記文書IDに対応した文書を文書データベースから
    取得し、文書グラフを作成するステップと、前記文書グ
    ラフの集合と、単語と単語の重要度の対で与えられる前
    期コンテクストを入力とし、グラフ形式のダイジェスト
    を作成するステップとを具えたことを特徴とする情報処
    理装置により読み取り可能な記録媒体。
JP2000062561A 2000-03-07 2000-03-07 文書ダイジェスト作成方法、文書検索装置および記録媒体 Expired - Fee Related JP3581074B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000062561A JP3581074B2 (ja) 2000-03-07 2000-03-07 文書ダイジェスト作成方法、文書検索装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000062561A JP3581074B2 (ja) 2000-03-07 2000-03-07 文書ダイジェスト作成方法、文書検索装置および記録媒体

Publications (2)

Publication Number Publication Date
JP2001249935A true JP2001249935A (ja) 2001-09-14
JP3581074B2 JP3581074B2 (ja) 2004-10-27

Family

ID=18582562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000062561A Expired - Fee Related JP3581074B2 (ja) 2000-03-07 2000-03-07 文書ダイジェスト作成方法、文書検索装置および記録媒体

Country Status (1)

Country Link
JP (1) JP3581074B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003034279A1 (fr) * 2001-10-17 2003-04-24 Japan Science And Technology Agency Procede et programme de recherche d'information, support d'enregistrement lisible par ordinateur sur lequel est enregistre le programme de recherche d'information
WO2004086258A1 (ja) * 2003-03-24 2004-10-07 Japan Science And Technology Agency 生活情報支援システム
JP2013033452A (ja) * 2011-08-01 2013-02-14 Nec (China) Co Ltd 文書検索装置および方法
JP2019061656A (ja) * 2017-09-27 2019-04-18 株式会社リコー 要約文自動生成方法、装置及び電子デバイス
JP2020060816A (ja) * 2018-10-04 2020-04-16 Tis株式会社 情報処理装置、情報処理方法およびプログラム
JP2020181523A (ja) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 情報処理装置及びプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003034279A1 (fr) * 2001-10-17 2003-04-24 Japan Science And Technology Agency Procede et programme de recherche d'information, support d'enregistrement lisible par ordinateur sur lequel est enregistre le programme de recherche d'information
JPWO2003034279A1 (ja) * 2001-10-17 2005-02-03 独立行政法人科学技術振興機構 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7346614B2 (en) 2001-10-17 2008-03-18 Japan Science And Technology Corporation Information searching method, information searching program, and computer-readable recording medium on which information searching program is recorded
WO2004086258A1 (ja) * 2003-03-24 2004-10-07 Japan Science And Technology Agency 生活情報支援システム
JP2013033452A (ja) * 2011-08-01 2013-02-14 Nec (China) Co Ltd 文書検索装置および方法
JP2019061656A (ja) * 2017-09-27 2019-04-18 株式会社リコー 要約文自動生成方法、装置及び電子デバイス
JP2020060816A (ja) * 2018-10-04 2020-04-16 Tis株式会社 情報処理装置、情報処理方法およびプログラム
JP7170487B2 (ja) 2018-10-04 2022-11-14 Tis株式会社 情報処理装置およびプログラム
JP2020181523A (ja) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7275816B2 (ja) 2019-04-26 2023-05-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP3581074B2 (ja) 2004-10-27

Similar Documents

Publication Publication Date Title
US20060195435A1 (en) System and method for providing query assistance
KR101933953B1 (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
JP2010267247A (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP2004157931A (ja) 意図文型種別抽出方式
CN107315735B (zh) 用于笔记整理的方法及设备
JP2001249935A (ja) 文書ダイジェスト作成方法、文書検索装置および記録媒体
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP4499179B1 (ja) 端末装置
JP5228451B2 (ja) 文書検索装置
JP2000148780A (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
JP5332128B2 (ja) 情報検索装置、情報検索方法およびそのプログラム
JP4756764B2 (ja) プログラム及び情報処理装置並びに情報処理方法
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000105769A (ja) 文書表示方法
JP2007241635A (ja) 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP7323484B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3006526B2 (ja) 類似文書検索方法および類似文書検索装置
JPH1145269A (ja) 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4088176B2 (ja) 質問応答装置及び質問応答プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040721

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees