JP3581074B2 - 文書ダイジェスト作成方法、文書検索装置および記録媒体 - Google Patents

文書ダイジェスト作成方法、文書検索装置および記録媒体 Download PDF

Info

Publication number
JP3581074B2
JP3581074B2 JP2000062561A JP2000062561A JP3581074B2 JP 3581074 B2 JP3581074 B2 JP 3581074B2 JP 2000062561 A JP2000062561 A JP 2000062561A JP 2000062561 A JP2000062561 A JP 2000062561A JP 3581074 B2 JP3581074 B2 JP 3581074B2
Authority
JP
Japan
Prior art keywords
document
word
graph
context
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000062561A
Other languages
English (en)
Other versions
JP2001249935A (ja
Inventor
準二 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000062561A priority Critical patent/JP3581074B2/ja
Publication of JP2001249935A publication Critical patent/JP2001249935A/ja
Application granted granted Critical
Publication of JP3581074B2 publication Critical patent/JP3581074B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書から、「文書がどのような内容で書かれているのかを簡潔に表現するダイジェスト」を適切に作成するための方法に関するものであり、文書ダイジェスト作成方法、文書検索装置および記録媒体に関する。
【0002】
【従来の技術】
(従来のダイジェスト作成方法)
ここで言う、ダイジェストとは、文書がどのような内容であるかを簡潔に表現するものである。文書から作成される要約や本のタイトルといった文形式のものから、表紙に書かれている絵や図等も文書の内容を簡潔に表現するという意味で、一種のダイジェストである。電子化された文書から、このようなダイジェストを作成する方法には、以下のものがあった。
(方法a)文書の構造情報を利用し、タイトル,章や節の見出し、概要などのあらかじめ文書に記述されている一部を抜き出してダイジェストとする。
(方法b)言語情報を用いて文書内から重要な文を抽出し、これらを並べてダイジェストとする。例えば、「すなわち」や「つまり」といった接続詞の後の文を重要文としてダイジェストに用いる。
(方法c)文書の中から単語を抽出しそれぞれの単語に重要度を付ける。次に重要度の高い単語が多く含まれている文を重要文として抽出し、これらを並べてダイジェストとする。
(方法d)ユーザが指定した特定の単語を含む文をダイジェストとする。
【0003】
(従来の文書検索装置)
従来の文書検索装置では、以下のステップによって検索を実行し検索結果をユーザに提示していた。
(1)ユーザは単語,単語集合,単語のブール演算子結合,文,文書,文書集合等によって検索キーを指定する。
(2)検索キーに合致する文書IDの集合を文書索引データベースを用いて取得する。
(3)文書IDに対応する文書のダイジェストと本文へのポインタを並べて検索結果とする。
(4)検索結果をユーザに提示する。
【0004】
このように検索結果として、ダイジェストを並べることによって、ユーザはそれぞれの文書本文を読まなくても、それぞれがどのような内容で書かれているのかを概観することができる。
【0005】
これらのダイジェスト作成方法には上記方法a〜方法dのいずれかの方法が利用されてきた(方法dを用いる場合には検索キーに含まれる単語を指定単語として、その単語を含む文をダイジェストとして出力している)。
【0006】
【発明が解決しようとする課題】
しかしながら従来のダイジェスト作成方法を文書検索装置に用いる場合、以下のような解決すべき課題が従来技術にはあった。
【0007】
・文書構造を仮定する必要がある。
方法aでは、文書のどの部分が、タイトル,章や節の見出し、概要に当たるのかと言った文書の構造情報がないとダイジェストを作成することができない。
【0008】
・言語に依存した情報を利用する必要がある。
方法bでは、接続詞の抽出等言語に依存した処理を行なわないといけない。そのため、様々な言語で書かれた文書を同じ方法でダイジェスト作成ができない。
【0009】
・検索キーに応じたダイジェストが作成できない。
方法a,方法b,方法cでは、検索キーに応じてダイジェストを作成することができない。そのためユーザはなぜ、自分が入力した検索キーに対してその文書が合致したのかを即座に理解することができない。
【0010】
・検索キーが複雑になった場合のダイジェストが作成できない。
方法dでは、検索キーが少数個のキーワードの場合、文書内のそれらのキーワードを含む文をすべて結合してダイジェストを作成することができる。しかし、検索キーが複雑になり検索キーに含まれるキーワードの個数が増えるとそれらのキーワードを含む文の個数は多数となり、ダイジェストが大きくなり過ぎてしまう。
【0011】
そこで本発明の目的は、上述の点に鑑みて、文書構造を仮定せず、どのような言語も扱え、ユーザが入力した検索キーに応じたダイジェストを作成可能な、ユーザにとって扱いやすい文書検索装置を構築することができる文書ダイジェスト作成方法、文書検索装置および記録媒体を提供することにある。
【0012】
【課題を解決するための手段】
このような目的を達成するために、本発明の文書ダイジェスト作成方法は、電子化された文書から、該文書の内容を簡潔に表現するダイジェストを情報処理装置により作成する、文書ダイジェスト作成方法であって、ダイジェストを作成する文書本文および、文書グラフからダイジェストを生成するための規定となるコンテクストを単語とその単語の重要度の対の形態で前記情報処理装置に入力し、前記情報処理装置においては、前記文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現し、前記文書グラフ前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したダイジェストグラフとすることを特徴とする。
【0013】
ここで、前記文書グラフから前記コンテクストに応じた部分グラフを抽出する場合に、前記情報処理装置は、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とすることができる。
【0014】
また、前記間接関連度を計算する場合に、前記コンテクストの第1の単語と前記文書グラフ上の第2の単語との間接関連度について、前記情報処理装置は、前記文書グラフ上に前記コンテクストの第1の単語がなければ、前記間接関連度は0となし、もしあった場合には、前記コンテクストの第1の単語から前記文書グラフ上の第2の単語への全てのパスを求め、それぞれのパスの重みを計算し、当該計算されたパスの重みの最大値をもって、前記間接関連度とすることを特徴とすることができる。
【0015】
また、前記パスの重みを計算する場合に、前記情報処理装置は、経由するノード数およびリンク数が少なければ少ないほどパスの重みを大きくし、経由するそれぞれのノードの重みが大きければ大きいほどパスの重みを大きくし、経由するそれぞれのリンクの重みが大きければ大きいほどパスの重みを大きくするようにパスの重みを計算することを特徴とすることができる。
【0016】
また、前記コンテクストの単語毎に作られた前記間接関連度ベクトルから前記関連単語集合を求める場合に、前記情報処理装置は、前記間接関連度ベクトルの単語部分が同じ各要素の間接関連度を、前記コンテクストの単語の重要度が大きいものほどその影響が大きくなるように足し合わせることによって、前記コンテクストの全単語に対して足し合わせた間接関連度ベクトルを求め、前記間接関連度ベクトルに含まれる単語の中で、ある定めた値を越える間接関連度を持つ単語だけを選択するか、または、間接関連度が大きな上位定数個の単語を選択することによって、前記関連単語集合を求めることを特徴とすることができる。
【0017】
また上記目的を達成するために、本発明の文書検索装置は、ユーザに検索キーを入力させる入力手段と、前記検索キーに合致する文書IDの集合を文書索引データベースから取り出す検索実行手段と、前記文書IDに対応したダイジェストを並べて検索結果を作成する検索結果作成手段と、前記検索結果をユーザに提示する結果表示手段とを具え、前記検索結果作成手段は、前記検索キーから単語を抽出し、当該抽出された単語の重要度を計算し、文書グラフからダイジェストを生成するための規定となる、前記単語と前記単語の重要度の対で与えられるコンテクストを作成するコンテクスト作成手段と、それぞれの前記文書IDに対応した文書を文書データベースから取得し、当該取得した文書に対応して、該文書の文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現する文書グラフ作成手段と、前記文書グラフの集合と、前記コンテクストとを入力とし、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したグラフ形式のダイジェストとするダイジェスト作成手段と、前記グラフ形式のダイジェストと、前記文書の文書本文へのポインタを並べて検索結果とする検索結果作成手段とを具えたことを特徴とする。
【0019】
また上記目的を達成するために、本発明の記録媒体は、電子化された文書から、該文書の内容を簡潔に表現するダイジェストを情報処理装置により作成する、文書ダイジェスト作成プログラムを記録した記録媒体であって、前記プログラムは、ダイジェストを作成する文書本文および、文書グラフからダイジェストを生成するための規定となるコンテクストを単語とその単語の重要度の対の形態で前記情報処理装置に入力するステップと、前記文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現するステップと、前記文書グラフ前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出するステップと、当該抽出された部分グラフを、元の文書の内容を図的に表現したダイジェストグラフとするステップとを具えたことを特徴とする。
【0020】
ここで、前記文書グラフから前記コンテクストに応じて部分グラフを抽出するステップは、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とすることができる。
【0021】
また、前記間接関連度を計算する場合に、前記コンテクストの第1の単語と前記文書グラフ上の第2の単語との間接関連度について、前記プログラムは、前記文書グラフ上に前記コンテクストの第1の単語がなければ、前記間接関連度は0となし、もしあった場合には、前記コンテクストの第1の単語から前記文書グラフ上の第2の単語への全てのパスを求め、それぞれのパスの重みを計算し、当該計算されたパスの重みの最大値をもって、前記間接関連度とすることを特徴とすることができる。
【0022】
また、前記パスの重みを計算する場合に、前記プログラムは、経由するノード数およびリンク数が少なければ少ないほどパスの重みを大きくし、経由するそれぞれのノードの重みが大きければ大きいほどパスの重みを大きくし、経由するそれぞれのリンクの重みが大きければ大きいほどパスの重みを大きくするようにパスの重みを計算することを特徴とすることができる。
【0023】
また、前記コンテクストの単語毎に作られた前記間接関連度ベクトルから前記関連単語集合を求める場合に、前記プログラムは、前記間接関連度ベクトルの単語部分が同じ各要素の間接関連度を、前記コンテクストの単語の重要度が大きいものほどその影響が大きくなるように足し合わせることによって、前記コンテクストの全単語に対して足し合わせた間接関連度ベクトルを求め、前記間接関連度ベクトルに含まれる単語の中で、ある定めた値を越える間接関連度を持つ単語だけを選択するか、または、間接関連度が大きな上位定数個の単語を選択することによって、前記関連単語集合を求めることを特徴とすることができる。
【0024】
また上記目的を達成するために、本発明の記録媒体は、ユーザに検索キーを入力させるステップと、前記検索キーに合致する文書IDの集合を文書索引データベースから取り出すステップと、前記文書IDに対応したダイジェストを並べて検索結果を作成するステップと、前記検索結果をユーザに提示するステップとを具え、前記検索結果を作成するステップは、前記検索キーから単語を抽出し、当該抽出された単語の重要度を計算し、文書グラフからダイジェストを生成するための規定となる、前記単語と前記単語の重要度の対で与えられるコンテクストを作成するステップと、それぞれの前記文書IDに対応した文書を文書データベースから取得し、当該取得した文書に対応して、該文書の文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現するステップと、前記文書グラフの集合と、前記コンテクストとを入力とし、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したグラフ形式のダイジェストとするステップと、前記グラフ形式のダイジェストと、前記文書の文書本文へのポインタを並べて検索結果とするステップとを具えた文書検索プログラムを記録したことを特徴とする。
【0026】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
(実施形態1 ダイジェスト作成方法)
本発明に係わる実施形態のダイジェスト作成方法における、ユーザが文書検索装置に入力する情報は、ダイジェストを作成したい「文書本文」とどの様な状況を想定してダイジェストを作成するのかを規定する「コンテクスト」である。
【0027】
コンテクストは単語とその単語の重要度の対の集合で与える。また、本発明におけるダイジェストは通常の要約やタイトルといった文(文書)形式ではなく、図的に文書の内容を表現する。具体的には、単語をノードとし単語間の関連をリンクで結んだグラフ形式とする(図1)。このようなグラフをダイジェストグラフと呼ぶ。ダイジェストグラフを見たユーザはグラフに使用されている単語と単語の関連の仕方を見て文書の内容を簡単に把握することができる。
【0028】
文書DとコンテクストCからダイジェストグラフs を作成する具体的な手順を以下に示す(詳しくは後述)。
1.文書Dを、単語の重要度をノードの重み、単語間の関連度をリンクの重みとしたグラフで表現する。以下、このグラフを文書グラフg と呼ぶ。
2.単語kとその単語の重要度w の対の集合で、コンテクストCを与える。文書グラフg 上のそれぞれの単語iと単語kとの関連の強さpikを計算する。Pikを間接関連度と呼び、単語k毎に、この値を要素として持つ間接関連度ベクトルp を作成する。
3.単語k毎の間接関連度ベクトルp の総和を計算し、コンテクスト全体に対する間接関連度ベクトルpを作成する。pの中である程度大きな間接関連度を持つ単語だけからなる集合(関連単語集合)M を求める。
4.関連単語集合M に含まれる単語を持つノードだけを文書グラフg から、抽出し、部分グラフを作成する。この部分グラフを文書Dのダイジェストグラフs とする。
【0029】
(文書グラフの作成)
文書Dからその文書の内容を表現する文書グラフg を作成する方法は、特願平10−297321号に記載されている主題グラフの作成法を用いる。ここでは、その方法を簡単に説明する。
【0030】
まず、文書Dに含まれる全ての単語を抽出する。それぞれの単語iの出現頻度情報,出現場所の情報等を用いて、単語の重要度v を求める。また、単語の共起情報,単語間の係り受け情報を用いて、単語iと単語jの関連の強さを表す関連度rijを求める。このようにして求めた単語の重要度をノードの重み、単語間の関連度をリンクの重みとしたグラフを作成する(図2)。このグラフを文書グラフg と呼ぶ。文書グラフg は、以下の2つのベクトルによって表現される。
【0031】
Figure 0003581074
ここで、N は、文書Dに含まれる全ての単語からなる集合を表し、n=|N |は、総単語数を表す(|X|は集合Xの要素数)。また、(0≦v ,rij≦1)となるように正規化する。
【0032】
(単語毎の間接関連度ベクトルの作成)
コンテクストCのそれぞれの単語k毎に間接関連度ベクトルp を求める方法を述べる。コンテクストCのそれぞれの単語kの重要度をw とすると、コンテクストCは以下のベクトルで表現される。
【0033】
(w ,w ,…,w ,…,w ) (k∈L
ここで、L は、コンテクストCに含まれる全ての単語からなる集合を表し、l=|L |は、コンテクストCに含まれる総単語数を表す。次に単語kと文書グラフg 上のそれぞれの単語iとの間接関連度pikを、以下の方法で計算する。
【0034】
Figure 0003581074
ここで、「パスaの重み」とは、パスaの上の全てのノードの重みとリンクの重みを掛けた値である。これらの値を並べて、コンテクストCのそれぞれの単語k毎に間接関連度ベクトルp を作成する。
【0035】
=(p1k 2k …,pik…,pnk
以下に、図3の文書グラフ上で、単語「検索」と単語「ロボット」間の間接関連度を計算する例を示す。301はパス1、302はパス2、303はパス3である。
【0036】
まず、301のパス1では、
Figure 0003581074
となる。ただし、数字(単語A)は単語Aの重要度を表し、数字(単語A−単語B)は単語A,B間の関連度を表す。
【0037】
同様に、302のパス2では、
Figure 0003581074
303のパス3では、
パス3の重み=0.7*0.8 *0.3 *0.7 *0.9 *0.8 *0.8 =0.0677
となり、これらの最大値を取り単語「検索」と「ロボット」間の間接関連度は0.2322となる。
【0038】
同様に図2における単語「検索」と文書グラフg の全ての単語との間接関連度を求めることによって、以下の間接関連度ベクトルp検索を作成する。
p検索=((検索0.7)(エンジン0.504)(WWW0.3628)…(ロボット0.2322))
同様に単語「ソフトウェア」の間接関連度ベクトルpソフトウェアは、以下のようになる。
pソフトウェア=((検索0.0907)(エンジン0.0653)(WWW 0.1021)…(ロボット
0.0653))
(間接関連度ベクトルの総和)
コンテクストCのそれぞれの単語k毎に求めた間接関連度ベクトルp を足し合わせて、コンテクストCに対する間接関連度ベクトルpを作成する。この際、コンテクストCで与えられる単語の重要度w も考慮し、間接関連度ベクトルpは、
Figure 0003581074
【0039】
となる。
【0040】
例えば、コンテクストとして、(検索 0.9)(ソフトウェア0.3)が与えられたとする。前節の方法で、それぞれの単語の間接関連度ベクトルp は、
p検索=((検索0.7)(エンジン0.504)(WWW0.3628)…(ロボット0.2322))
pソフトウェア=((検索0.0907)(エンジン0.0653)(WWW 0.1021)…(ロボット 0.0653))
と求まる。
【0041】
そのため、
Figure 0003581074
となる。
【0042】
ここで、pの関連単語集合をM とするとM は、pに含まれる要素に対応する単語の中で、
・閾値を越える間接関連度を持つ単語を選択する
または、
・間接関連度が大きな上位定数個の単語を選択
することで求める。
例えば、pの上位8単語を関連単語集合M とすると、
=(検索(0.6572), エンジン(0.4732), WWW(0.3572), ロボット(0.2286)
,ソフトウェア(0.2616), システム(0.1998), UNIX(0.1439), 効率(0.0837))
となる。ここで、括弧内の数字は間接関連度であり、参考のために記述してある。
【0043】
(ダイジェストグラフの作成)
関連単語集合M を単語として持つノードを、g から抽出することによって、ダイジェストグラフs を作成する。
=(検索,エンジン,WWW,ロボット,ソフトウェア,システム,UNIX,効率)の場合、図2から求めたダイジェストグラフは、図1となる。
【0044】
(実施形態2 文書検索装置)
実施形態1のダイジェストグラフを検索結果としてユーザに提示する文書検索装置として使用可能なコンピュータのシステム構成を図4に示す。
【0045】
図4において、上記コンピュータはCPU401,RAM(Random Access Memory)402、結果表示部403、入力部404、HD(Hard Disk)405、バス406を有する。
【0046】
CPU401はRAM402にロードされたプログラムを実行する。RAM402はCPU401に対する入出力データおよびCPU401が実行するプログラムを記憶する。
【0047】
結果表示部403は、検索結果をユーザに提示するディスプレイ等である。入力部404はマウスのようなポインティングデバイスおよびキーボードを有する。
【0048】
HD405はCPU401が実行するプログラムおよびデータベースを保存目的のために記憶する。HD405は図5に示す文書検索プログラム4051および検索実行時に使用される文書索引データベース4052および文書グラフ作成時に使用される文書データベース4053を記憶している。
【0049】
バス406はシステム・バスであり、アドレスを転送するアドレス・バス、制御信号を転送するコントロール・バス、各種データを転送するデータ・バスを備える。
【0050】
図4および図5のフローチャートを参照して、上記コンピュータで行われる文書検索の処理を説明する。
【0051】
ユーザが文書検索を行う場合には、HD405に記憶された図5の文書検索プログラムを入力部404からの指示で起動する。この指示に応じてCPU401は、HD405に記憶された図5のプログラムをRAM402にロードし、文書検索処理を実行する。
【0052】
CPU401はユーザによって入力部404から入力された検索キーを取り込み、RAM402に一時保存する。ここで検索キーは単なるキーワードだけではなく、単語,単語集合,単語のブール演算子結合,文,文書,文書集合等も指定可能である(ステップS500)。
【0053】
ステップS510でCPU401は、入力部404から取り込んだ検索キーを用いて検索を実行し、文書索引データベース4052から検索キーに合致するそれぞれの文書の文書IDを取得する。CPU401はこれら文書IDの集合をRAM402に一時保存し、ダイジェストグラフ入り検索結果作成処理を行う(ステップS520)。
【0054】
ダイジェストグラフ入り検索結果作成処理において、CPU401はRAM402に保存されている検索キーに基づいて単語を抽出し、それぞれの単語の重要度を計算し、単語と単語の重要度の対の集合を作成する。この集合をコンテクストCとする。ここで、単語の抽出方法、単語の重要度の計算方法は特に限定しない(ステップS540)。
【0055】
ステップS550でCPU401は、RAM402に保存されているそれぞれの文書IDに対応した文書を文書データベース4053から取得し、文書グラフを作成する。文書グラフの作成には、特願平10−297321の方法を用いる。
【0056】
CPU401は上記文書グラフの集合と上記コンテクストCを用いてそれぞれの文書に対応したダイジェストグラフを作成する。ダイジェストグラフの作成方法は実施形態1の方法である(ステップS560)。
【0057】
CPU401はダイジェストグラフとその文書本文へのポインタを並べて検索結果を作成し(ステップS570)、文書検索処理のステップS530へ戻る。
【0058】
ステップS530でCPU401は、結果表示部403に上記検索結果を表示しユーザに提示する。たとえば検索結果は図6のように表示される。
【0059】
このように、検索結果内にダイジェストグラフがあることによって、ユーザは自分が入力した検索キーに対して、なぜ、それぞれの文書が合致したのかを直感的に把握することができる。
【0060】
なお、本発明で言う記録媒体とは、ICメモリ、HD(Hard Disk)、FD(Floppy Disk)、CD−ROMおよびその他の携帯可能な記録媒体を意味する。これらの記録媒体に記録された上述のプログラムは、パソコン等の情報処理装置により実行される場合に、情報処理装置が文書検索装置として機能する。
【0061】
【発明の効果】
以上、説明したように、本発明によれば、文書がどのような構造をしているのかといった情報を全く利用せずにダイジェストを作成することができる。
【0062】
また、品詞等の言語情報を全く必要としない。そのため、どのような言語で書かれた文書でもダイジェストを作成することができる。
【0063】
また、検索キーに含まれる単語情報をコンテクストとし、それに応じて文書グラフから部分グラフを抽出するため、検索キーに応じた適切なダイジェストを作成することができる。
【0064】
さらに、単に単語が含まれている文を出力するのではなく、検索キーに含まれている単語がどの程度重要なのかの情報も考慮することができる。また、最終的にダイジェストグラフとして出力する単語の個数を重要なものから順番に制限して出力することができる。そのため、検索キーが複雑になった場合でも、適切なダイジェストを作成することができる。
【0065】
したがって、本発明によれば、コンテクストとして単語とその単語の重要度の集合を与えるとそれに応じたダイジェストを作成することができる。また、本発明を検索装置に利用することによって、検索キーに応じたダイジェストを作成することができるので、ユーザは自分の探している文書を検索結果の中から簡単に見つけ出すことができる。
【図面の簡単な説明】
【図1】本実施形態1のダイジェストグラフである。
【図2】本実施形態1の文書グラフである。
【図3】本実施形態1の単語「検索」と単語「ロボット」間の間接関連度を計算する例を示す文書グラフである。
【図4】本実施形態2のコンピュータのシステム構成図である。
【図5】本実施形態2の文書検索プログラムのフローチャートである。
【図6】本実施形態2のダイジェストグラフを用いた検索結果の表示の説明図である。
【符号の説明】
301 パス1
302 パス2
303 パス3
401 CPU
402 RAM
403 結果表示部
404 入力部
405 HD
406 バス
4051 文書検索プログラム
4052 文書索引データベース
4053 文書データベース

Claims (12)

  1. 電子化された文書から、該文書の内容を簡潔に表現するダイジェストを情報処理装置により作成する、文書ダイジェスト作成方法において、
    ダイジェストを作成する文書本文および、文書グラフからダイジェストを生成するための規定となるコンテクストを単語とその単語の重要度の対の形態で前記情報処理装置に入力し、
    前記情報処理装置においては、前記文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現し、
    前記文書グラフ前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、
    当該抽出された部分グラフを、元の文書の内容を図的に表現したダイジェストグラフとする
    ことを特徴とする文書ダイジェスト作成方法。
  2. 請求項1に記載の文書ダイジェスト作成方法において、前記文書グラフから前記コンテクストに応じた部分グラフを抽出する場合に、前記情報処理装置は、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とする文書ダイジェスト作成方法。
  3. 請求項2に記載の文書ダイジェスト作成方法において、前記間接関連度を計算する場合に、前記コンテクストの第1の単語と前記文書グラフ上の第2の単語との間接関連度について、前記情報処理装置は、前記文書グラフ上に前記コンテクストの第1の単語がなければ、前記間接関連度は0となし、もしあった場合には、前記コンテクストの第1の単語から前記文書グラフ上の第2の単語への全てのパスを求め、それぞれのパスの重みを計算し、当該計算されたパスの重みの最大値をもって、前記間接関連度とすることを特徴とする文書ダイジェスト作成方法。
  4. 請求項3に記載の文書ダイジェスト作成方法において、前記パスの重みを計算する場合に、前記情報処理装置は、経由するノード数およびリンク数が少なければ少ないほどパスの重みを大きくし、経由するそれぞれのノードの重みが大きければ大きいほどパスの重みを大きくし、経由するそれぞれのリンクの重みが大きければ大きいほどパスの重みを大きくするようにパスの重みを計算することを特徴とする文書ダイジェスト作成方法。
  5. 請求項2に記載の文書ダイジェスト作成方法において、前記コンテクストの単語毎に作られた前記間接関連度ベクトルから前記関連単語集合を求める場合に、前記情報処理装置は、前記間接関連度ベクトルの単語部分が同じ各要素の間接関連度を、前記コンテクストの単語の重要度が大きいものほどその影響が大きくなるように足し合わせることによって、前記コンテクストの全単語に対して足し合わせた間接関連度ベクトルを求め、前記間接関連度ベクトルに含まれる単語の中で、ある定めた値を越える間接関連度を持つ単語だけを選択するか、または、間接関連度が大きな上位定数個の単語を選択することによって、前記関連単語集合を求めることを特徴とする文書ダイジェスト作成方法。
  6. ユーザに検索キーを入力させる入力手段と、
    前記検索キーに合致する文書IDの集合を文書索引データベースから取り出す検索実行手段と、
    前記文書IDに対応したダイジェストを並べて検索結果を作成する検索結果作成手段と、
    前記検索結果をユーザに提示する結果表示手段と
    を具え、
    前記検索結果作成手段は、
    前記検索キーから単語を抽出し、当該抽出された単語の重要度を計算し、文書グラフからダイジェストを生成するための規定となる、前記単語と前記単語の重要度の対で与えられるコンテクストを作成するコンテクスト作成手段と、
    それぞれの前記文書IDに対応した文書を文書データベースから取得し、当該取得した文書に対応して、該文書の文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現する文書グラフ作成手段と、
    前記文書グラフの集合と、前記コンテクストとを入力とし、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したグラフ形式のダイジェストとするダイジェスト作成手段と、
    前記グラフ形式のダイジェストと、前記文書の文書本文へのポインタを並べて検索結果とする検索結果作成手段と
    を具えたことを特徴とする文書検索装置。
  7. 電子化された文書から、該文書の内容を簡潔に表現するダイジェストを情報処理装置により作成する、文書ダイジェスト作成プログラムを記録した記録媒体において、前記プログラムは、
    ダイジェストを作成する文書本文および、文書グラフからダイジェストを生成するための規定となるコンテクストを単語とその単語の重要度の対の形態で前記情報処理装置に入力するステップと、
    前記文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現するステップと、
    前記文書グラフ前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出するステップと、
    当該抽出された部分グラフを、元の文書の内容を図的に表現したダイジェストグラフとするステップと
    を具えたことを特徴とする情報処理装置により読み取り可能な記録媒体。
  8. 請求項7に記載の記録媒体において、前記文書グラフから前記コンテクストに応じて部分グラフを抽出するステップは、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とする情報処理装置により読み取り可能な記録媒体。
  9. 請求項8に記載の記録媒体において、前記間接関連度を計算する場合に、前記コンテクストの第1の単語と前記文書グラフ上の第2の単語との間接関連度について、前記プログラムは、前記文書グラフ上に前記コンテクストの第1の単語がなければ、前記間接関連度は0となし、もしあった場合には、前記コンテクストの第1の単語から前記文書グラフ上の第2の単語への全てのパスを求め、それぞれのパスの重みを計算し、当該計算されたパスの重みの最大値をもって、前記間接関連度とすることを特徴とする情報処理装置により読み取り可能な記録媒体。
  10. 請求項9に記載の記録媒体において、前記パスの重みを計算する場合に、前記プログラムは、経由するノード数およびリンク数が少なければ少ないほどパスの重みを大きくし、経由するそれぞれのノードの重みが大きければ大きいほどパスの重みを大きくし、経由するそれぞれのリンクの重みが大きければ大きいほどパスの重みを大きくするようにパスの重みを計算することを特徴とする情報処理装置により読み取り可能な記録媒体。
  11. 請求項8に記載の記録媒体において、前記コンテクストの単語毎に作られた前記間接関連度ベクトルから前記関連単語集合を求める場合に、前記プログラムは、前記間接関連度ベクトルの単語部分が同じ各要素の間接関連度を、前記コンテクストの単語の重要度が大きいものほどその影響が大きくなるように足し合わせることによって、前記コンテクストの全単語に対して足し合わせた間接関連度ベクトルを求め、前記間接関連度ベクトルに含まれる単語の中で、ある定めた値を越える間接関連度を持つ単語だけを選択するか、または、間接関連度が大きな上位定数個の単語を選択することによって、前記関連単語集合を求めることを特徴とする情報処理装置により読み取り可能な記録媒体。
  12. ユーザに検索キーを入力させるステップと、
    前記検索キーに合致する文書IDの集合を文書索引データベースから取り出すステップと、
    前記文書IDに対応したダイジェストを並べて検索結果を作成するステップと、
    前記検索結果をユーザに提示するステップと
    を具え、
    前記検索結果を作成するステップは、
    前記検索キーから単語を抽出し、当該抽出された単語の重要度を計算し、文書グラフからダイジェストを生成するための規定となる、前記単語と前記単語の重要度の対で与えられるコンテクストを作成するステップと、
    それぞれの前記文書IDに対応した文書を文書データベースから取得し、当該取得した文書に対応して、該文書の文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現するステップと、
    前記文書グラフの集合と、前記コンテクストとを入力とし、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したグラフ形式のダイジェストとするステップと、
    前記グラフ形式のダイジェストと、前記文書の文書本文へのポインタを並べて検索結果とするステップと
    を具えたことを特徴とする文書検索プログラムを記録した、情報処理装置により読み取り可能な記録媒体。
JP2000062561A 2000-03-07 2000-03-07 文書ダイジェスト作成方法、文書検索装置および記録媒体 Expired - Fee Related JP3581074B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000062561A JP3581074B2 (ja) 2000-03-07 2000-03-07 文書ダイジェスト作成方法、文書検索装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000062561A JP3581074B2 (ja) 2000-03-07 2000-03-07 文書ダイジェスト作成方法、文書検索装置および記録媒体

Publications (2)

Publication Number Publication Date
JP2001249935A JP2001249935A (ja) 2001-09-14
JP3581074B2 true JP3581074B2 (ja) 2004-10-27

Family

ID=18582562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000062561A Expired - Fee Related JP3581074B2 (ja) 2000-03-07 2000-03-07 文書ダイジェスト作成方法、文書検索装置および記録媒体

Country Status (1)

Country Link
JP (1) JP3581074B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346614B2 (en) * 2001-10-17 2008-03-18 Japan Science And Technology Corporation Information searching method, information searching program, and computer-readable recording medium on which information searching program is recorded
WO2004086258A1 (ja) * 2003-03-24 2004-10-07 Japan Science And Technology Agency 生活情報支援システム
CN102915304B (zh) * 2011-08-01 2016-02-24 日电(中国)有限公司 文档检索设备和方法
CN109558583A (zh) * 2017-09-27 2019-04-02 株式会社理光 一种自动生成文摘的方法、装置及设备
JP7170487B2 (ja) * 2018-10-04 2022-11-14 Tis株式会社 情報処理装置およびプログラム
JP7275816B2 (ja) * 2019-04-26 2023-05-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP2001249935A (ja) 2001-09-14

Similar Documents

Publication Publication Date Title
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
JP4049317B2 (ja) 検索支援装置およびプログラム
Aruleba et al. A full text retrieval system in a digital library environment
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP3581074B2 (ja) 文書ダイジェスト作成方法、文書検索装置および記録媒体
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
KR102119083B1 (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법, 이를 기록한 기록매체
JP2004157931A (ja) 意図文型種別抽出方式
JP6882975B2 (ja) 対話ログ群からコンテキストを決定可能な対話シナリオ生成装置、プログラム及び方法
JP5332128B2 (ja) 情報検索装置、情報検索方法およびそのプログラム
JP2004206391A (ja) 文書情報分析装置
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法
JP7180767B2 (ja) 応答処理プログラム、応答処理方法および情報処理装置
JP7238411B2 (ja) 情報処理装置及びプログラム
JP4756764B2 (ja) プログラム及び情報処理装置並びに情報処理方法
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3778270B2 (ja) 選択履歴管理情報、選択履歴情報、情報記憶媒体、及びユーザーインターフェース補助システム
JP2007241635A (ja) 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
KR101078966B1 (ko) 문서 분석 시스템
JP4496797B2 (ja) 文書管理装置および方法
JP2005234772A (ja) 文書管理装置および方法
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002215642A (ja) フィードバック型インターネット検索方法及びその方法を実施するためのシステムとプログラム記録媒体
JP3444223B2 (ja) データベース登録装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040721

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees