JP4806773B2 - 対話型複数文書要約装置 - Google Patents

対話型複数文書要約装置 Download PDF

Info

Publication number
JP4806773B2
JP4806773B2 JP2006256759A JP2006256759A JP4806773B2 JP 4806773 B2 JP4806773 B2 JP 4806773B2 JP 2006256759 A JP2006256759 A JP 2006256759A JP 2006256759 A JP2006256759 A JP 2006256759A JP 4806773 B2 JP4806773 B2 JP 4806773B2
Authority
JP
Japan
Prior art keywords
document
sentence
word
target
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006256759A
Other languages
English (en)
Other versions
JP2008077459A (ja
Inventor
辰則 森
洵 谷岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yokohama National University NUC
Original Assignee
Yokohama National University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yokohama National University NUC filed Critical Yokohama National University NUC
Priority to JP2006256759A priority Critical patent/JP4806773B2/ja
Publication of JP2008077459A publication Critical patent/JP2008077459A/ja
Application granted granted Critical
Publication of JP4806773B2 publication Critical patent/JP4806773B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索条件により検索した複数の文書を要約する対話型複数文書要約装置に係り、要約文書から操作者が選択する注目部位に基づいて、注目部位に関連する情報を含む要約文書を再生成する技術に関する。
通常の要約生成装置では、複数の文書から重要文を抽出し、それらを整列させて要約文書を生成する。しかし、一回の要約で操作者が欲する情報を提供できるとは限らない。
特開2006−59082号公報
本発明では、少ない操作と処理により、目的の情報に容易に到達できるようにすることを課題とする。
本発明に係る対話型複数文書要約装置は、
複数の文書を記憶する文書データベースから文書を検索する文書検索エンジンと接続する対話型複数文書要約装置であって、以下の要素を有することを特徴とする
(1)検索条件文を入力する検索条件入力部
(2)入力した検索条件文から検索条件式を生成し、文書検索エンジンに検索条件式を転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを要約対象文書の識別情報とする要約対象文書選択部
(3)要約対象文書の識別情報を記憶する要約対象文書記憶部
(4)要約対象文書の識別情報により特定される要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる要約文書を生成する要約文書生成部
(5)要約文書を表示し、操作者に対して要約文書に含まれる重要文から注目文を選択するように促す要約文書画面を生成し、要約文書画面で選択された注目文の出所である注目文書の識別情報を特定する要約文書提示部
(6)要約対象文書記憶部に記憶している要約対象文書の識別情報群を注目文書の識別情報に更新する要約対象文書絞込部。
また、要約文書提示部は、要約文書画面が操作者に対して要約文書から注目文字列を選択するように促すように生成し、要約文書画面で選択された注目文字列に含まれる注目文字列内単語を特定し、更に要約文書に含まれるが注目文字列に含まれない注目文字列外単語を特定し、
対話型複数文書要約装置は、注目文字列内単語に1より大きい文字列注目係数を設定し、注目文字列外単語に1より小さい文字列注目係数を設定する文字列注目係数算出部を有し、
要約文書生成部は、単語の重要度に文字列注目係数を乗じ、その積を単語の重要度として用いることを特徴とする。
また、要約文書提示部は、更に重要文の出所のうち注目文書以外の非注目文書の識別情報を特定し、
対話型複数文書要約装置は、更に、注目文書に含まれる注目文書内単語に1より大きい文書注目係数を設定し、非注目文書に含まれる単語であって注目文書内単語以外の注目文書外単語に1より小さい文書注目係数を設定する文書注目係数算出部を有し、
要約対象要約文書生成部は、単語の重要度に文書注目係数を乗じ、その積を単語の重要度として用いることを特徴とする。
また、対話型複数文書要約装置は、更に、
検索条件文に含まれる単語の頻度に基づいて初期の検索質問ベクトルを算出し、検索質問ベクトル記憶部に記憶させる初期検索質問ベクトル算出部と、
検索質問ベクトルを記憶する検索質問ベクトル記憶部と、
文書検索エンジンに検索質問ベクトルを転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを推薦要約対象文書の識別情報とする推薦要約対象文書抽出部と、
推薦要約対象文書の識別情報により特定される推薦要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる推薦要約文書を生成する推薦要約文書生成部と、
注目文書の識別情報により特定される文書ベクトルに基づいて加算修正ベクトルを算出し、非注目文書の識別情報により特定される文書ベクトルに基づいて減算修正ベクトルを算出し、検索質問ベクトル記憶部に記憶している検索質問ベクトルに加算修正ベクトルを加算し、減算修正ベクトルを減算し、検索質問ベクトルを更新する検索質問ベクトル更新部を有し、
要約文書提示部は、推薦要約文書を表示し、操作者に対して推薦要約文書に含まれる重要文から注目文を選択するように促す推薦要約文書画面を生成し、推薦要約文書画面で選択された注目文の出所である注目文書の識別情報を特定し、前記要約文書及び当該推薦要約文書について、重要文の出所のうち注目文書以外の非注目文書の識別情報を特定することを特徴とする。
本発明に係るプログラムは、
要約対象文書の識別情報を記憶する要約対象文書記憶部を有し、複数の文書を記憶する文書データベースから文書を検索する文書検索エンジンと接続する対話型複数文書要約装置となるコンピュータに、以下の手順を実行させることを特徴とする
(1)検索条件文を入力する検索条件入力手順
(2)入力した検索条件文から検索条件式を生成し、文書検索エンジンに検索条件式を転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを要約対象文書の識別情報とする要約対象文書選択手順
(3)要約対象文書の識別情報により特定される要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる要約文書を生成する要約文書生成手順
(4)要約文書を表示し、操作者に対して要約文書に含まれる重要文から注目文を選択するように促す要約文書画面を生成し、要約文書画面で選択された注目文の出所である注目文書の識別情報を特定する要約文書提示手順
(5)要約対象文書記憶部に記憶している要約対象文書の識別情報群を注目文書の識別情報に更新する要約対象文書絞込手順。
本発明によれば、操作者が選択した注目文の出所である注目文書を要約対象とするので、操作者が関心を持った情報の源から有効な要約文書を生成することができる。
また、操作者が選択した文字列に含まれる単語の重要度を増して重要文を選択するので、操作者が関心を持った情報と直接的に関連の深い文を抽出することができる。
また、操作者が選択した注目文の出所である注目文書に含まれる単語の重要度を増して重要文を選択するので、操作者が関心を持った情報の源と関連の深い文を抽出することができる。
ベクトルによる文書検索で生成した推薦要約を併せて表示し、推薦要約からも注目文書を選択させるので、要約対象の文書の収束を防止することができる。
実施の形態1.
本実施の形態では、表示された要約文書中から操作者が選択した文に基づいて、当該文の出所である文書に要約の対象を絞り込む実施例を説明する。
図1は、実施の形態1に係る全体処理フローを示す図である。検索条件入力部201による検索条件入力処理(S101)で、単語を含む検索条件文の入力を受付ける。要約対象文書選択部202による要約対象文書選択処理(S102)では、検索条件文に基づく検索条件式に従って文書データベース204内の文書を文書検索エンジン203に検索させ、検索された文書を要約対象文書とする。本処理については、図3を用いて後述する。要約文書生成部501による要約文書生成処理(S103)では、要約対象文書に含まれる文の重要度を判定し、文重要度の大きい文群からなる要約文書を生成する。本処理については、図7を用いて後述する。要約文書提示部504による要約文書提示処理(S104)では、生成した要約文書を表示するとともに、操作者に注目する部位(本形態では、文)を指示させる。本処理については、図25を用いて後述する。要約文書提示処理(S104)の終了ステータス(S105)として絞込要約ステータスを受け付けた場合に、要約対象文書絞込部506による要約対象絞込処理(S106)で前述の注目部位に従って要約文書を絞り込む。本処理については、図29を用いて後述する。終了ステータス(S105)として完了ステータスを受け付けた場合には、全体処理を終了する。
前述の検索条件入力処理(S101)及び要約対象文書選択処理(S102)について詳述する。図2は、要約対象文書選択に係るモジュール構成を示す図である。対話型複数文書要約装置は、検索条件入力部201、要約対象文書選択部202、文書検索エンジン203、文書データベース204、及び要約対象文書記憶部205を有する。
図3は、要約対象文書選択処理フローを示す図である。要約対象文書選択部202は、検索条件文に従って、検索条件式を生成する(S301)。そして、文書検索エンジン203に検索条件式を転送し文書を検索させ(S302)、文書検索エンジン203から検索結果の文書ID群を取得する(S303)。取得した文書ID群を要約対象文書記憶部205に記憶させる(S304)。
図4は、要約対象文書記憶部の構成例を示す図である。検索結果の文書ID群を要約対象の文書ID群として記憶している。
図5は、要約文書生成、要約文書提示、及び要約対象文書絞込に係るモジュール構成を示す図である。本装置は、要約文書生成部501、要約文書記憶部502、要約文書構成テーブル503、要約文書提示部504、注目文書テーブル505、及び要約対象文書絞込部506を有している。
次に、要約文書生成部501による要約文書生成処理(S103)について詳述する。図6は、要約文書生成部の内部モジュール構成を示す図である。文書データベース204は、文書管理テーブル602、単語テーブル603、文内単語出現頻度テーブル604、文書内単語出現頻度テーブル605、文書頻度逆数テーブル606、文提供部607、及び文書データ記憶部608を有している。要約文書生成部501は、文重要度計算部601、文重要度テーブル609、重要文抽出部610、文抽出テーブル611、及び重要文整列部612を有している。
図7は、要約文書生成処理フローを示す図である。まず、文重要度テーブル609、文抽出テーブル611、要約文書記憶部502、及び要約文書構成テーブル503をクリアする(S701)。文重要度計算部601による文重要度計算処理(S702)では、要約対象文書に含まれる文の重要度を判定する。本処理については、図8を用いて後述する。重要文抽出部610による重要文抽出処理(S703)では、文重要度に基づいて、要約文書に用いる文を抽出する。本処理については、図18を用いて後述する。重要文整列部612による重要文整列処理(S704)では、抽出した文を整列させて要約文書を生成する。本処理については、図21を用いて後述する。
文重要度計算部601による文重要度計算処理(S702)について詳述する。図8及び図9は、文重要度計算処理フローを示す図である。要約対象文書記憶部205に記憶している要約対象文書毎に(S801)、当該要約対象文書に含まれる文毎の処理を繰り返す(S802)。文の数は、文書管理テーブル602から取得する。
図10に、文書管理テーブルの構成例を示す。文書管理テーブル602では、文書毎にレコードを設け、文書IDと、文書作成日付と、文書データファイル名と、文書を構成する文数と、文書内単語総数の項目を対応付けて記憶するように構成されている。
文毎の処理として、当該文を解析し、当該文に含まれる単語群を特定し(S803)、特定した各単語に対応する単語IDを特定する(S804)。これらの対応付けは、単語テーブル603より取得する。
図11は、単語テーブルの構成例を示す図である。単語毎にレコードを設け、単語IDと、単語文字列との項目を対応付けて記憶するように構成されている。
次に、当該文に含まれる総単語数(文中総単語数)を算出する(S805)。この文中総単語数算出処理については、図12を用いて後述する。
そして、当該文に含まれる単語毎に以下の処理を繰り返す(S806)。単語毎の処理として、当該単語の重要度を算出する(S807)。この単語重要度算出処理については、図14を用いて後述する。そして、算出した単語重要度を累計パラメータ(初期値=0)に加算する(S808)。これらの処理を、当該文に含まれるすべての単語について処理した後(S809)、累計パラメータの値(単語重要度の総計)を文中総単語数で除算して、商を得る(S810)。そして、当該文書の文書ID及び当該文の文書内文番号と対応付けて、算出した商を文重要度テーブルに一時的に記憶させる(S811)。このようにして、当該要約対象文書に含まれるすべての文について処理すると(S812)、最後に当該要約対象文書に含まれる文群の前記商を母集団として、各商の偏差値(T-score,0〜1の値)を算出し、算出した偏差値を文重要度として文重要度テーブルを書き変える(S813)。そして、すべての要約対象文書について処理した時点で終了する(S814)。
ここで、前述の文中総単語数算出処理(S805)について詳述する。図12は、文中総単語数算出処理フローを示す図である。当該文に含まれる単語毎に以下の処理を繰り返す(S1201)。文内単語出現頻度テーブル604から当該文書の当該文中における当該単語の出現頻度(文内単語出現頻度)を取得し(S1202)、文内単語出現頻度を累計パラメータ(初期値=0)に加算する(S1203)。そして、当該文に含まれるすべての単語について処理した時点で(S1204)、累計パラメータの値(文内単語出現頻度の総計)を文中総単語数とする(S1205)。
文内単語出現頻度テーブル604は、図13のようになっている。文書IDに対応付けられ文書毎に設けられたテーブルが文書数分設けられており、各テーブルは、当該文書内の文毎に各単語の出現頻度を記憶するように構成されている。
更に、単語重要度算出処理(S807)について詳述する。図14は、単語重要度算出処理フローを示す図である。文内単語出現頻度テーブル604から当該文書の当該文中における当該単語の出現頻度(文内単語出現頻度)を取得し(S1401)、更に文書内単語出現頻度テーブル605から当該文書における当該単語の出現頻度(文書内単語出現頻度)を取得する(S1402)。
文書内単語出現頻度テーブル605は、図15のようになっている。当該文書毎に各単語の出現頻度を記憶するように構成されている。
また、文書頻度逆数テーブル606から当該単語の文書頻度の逆数(文書頻度逆数)を取得する(S1403)。
図16は、文書頻度逆数テーブルの構成例を示す図である。単語毎に、文書頻度の逆数(IDF値)を記憶するように構成されている。
そして、文内単語出現頻度と文書内単語出現頻度と文書頻度逆数を乗算し(S1404)、算出した積を単語重要度として文重要度テーブル609に記憶させる(S1405)。
図17は、文重要度テーブルの構成例を示す図である。要約対象文書に含まれる文毎にレコードを設け、当該要約対象文書の文書IDと、その文書内の文番号と、その文の重要度との項目を対応付けて記憶するように構成されている。
次に、重要文抽出部610による重要文抽出処理(S703)について詳述する。図18と図19は、重要文抽出処理フローを示す図である。この処理において、抽出文テーブルを用いる。
図20は、文抽出テーブルの構成例を示す図である。要約対象文書に含まれる文毎にレコードを設け、当該要約対象文書の文書IDと、その文書内の文番号と、抽出フラグとの項目を対応付けて記憶するように構成されている。抽出された文を、ONとして識別する。
まず、既選択文集合Aを空集合に初期化する(S1801)。具体的には、抽出文テーブルのすべての抽出フラグをOFFにする。次に、変数である既選択文長Lを0に初期化する(S1802)。
そして、要約対象の文書に含まれる文の集合SSと既選択文集合Aの差集合に含まれる文(Sp∈SS\A)毎に以下の処理を行う(S1803)。具体的には、抽出文テーブルの抽出フラグがOFFの文について処理する。
既選択文集合Aに含まれる文(Sq∈A)毎に以下の処理を繰り返す(S1804)。具体的には、抽出文テーブルの抽出フラグがONの文について処理する。差集合に含まれる文(Sp)と既選択文集合に含まれる文(Sq)の類似度(Sims(Sp,Sq))を算出する(S1805)。既選択文集合に含まれる文(Sq)のすべてについて処理した時点で(S1806)、次に移行する。
既選択文集合に含まれる各文との組み合わせによる類似度のうち、最大の類似度(max Sims(Sp,Sq))を選択し(S1807)、最大の類似度に、(1−冗長度制御変数λ)を乗じて積を求め、積を第二項の値((1−λ)max Sims(Sp,Sq))とする(S1808)。
文重要度テーブル609から、差集合に含まれる文(Sp)の文重要度(Imps(Sp))を読み込み(S1809)、文重要度に冗長度制御変数λを乗じて積を求め、積を第一項の値(λImps(Sp))とする(S1810)。
そして、第一項の値から第二項の値を引いて差を求め、差を抽出評価値とする(S1811)。差集合に含まれる文(Sp)のすべてについて処理すると(S1812)、差集合に含まれる文(Sp)のうち、前記抽出評価値が最大となる文(Sp)を特定する(S1813)。
前記抽出評価値が最大の文の長さ(|Sp|)を既選択文長Lに加え(S1814)、既選択文長Lが要約文書制限長を越えた場合には(S1815)、終了する。越えていない場合には、前記抽出評価値が最大の文(Sp)を既選択文集合Aに加える(S1816)。具体的には、抽出文テーブルの当該文の文IDに対応する抽出フラグをONにする。そして、処理を繰り返す。
次に、重要文整列部612による重要文整列処理(S704)について詳述する。図21は、重要文整列処理フローを示す図である。最初に、要約対象の文書について非階層型のクラスタリングを行なう(S2101)。そして、そのクラスタ間の順序付けを行なう(S2102)。例えば、文書作成日付に基づいて順序付けを行なう。更に、クラスタ内の文書間の順序付けを行なう(S2103)。
そして、文書の順序付けに従って、文書毎に以下の処理を繰り返す(S2104)。文抽出テーブルの抽出フラグがONのレコードのうち、そのレコードに含まれる文書IDが当該文書のIDと一致するレコードを検索し(S2105)、検索したレコード群について、それらのレコードに含まれる文書内文番号の順に従ってレコード毎に以下の処理を繰り返す(S2106)。文書データベース204の文提供部607から当該レコードに含まれる文書IDと文書内文番号により特定される文データ(文字列)を取得し(S2107)、取得した文データ(文字列)を、要約文書記憶部に順に記憶させる(S2108)
図22は、要約文書記憶部の構成例を示す図である。要約内文番号の順に従って重要文を記憶している。
また、当該文書IDと当該文書内文番号を対応付けて、要約文構成テーブル503に順に記憶させる(S2109)。
図23は、要約文書構成テーブルの構成例を示す図である。要約文書内の文毎にレコードを設け、要約内文番号の順に従って文書IDと、その文書内の文番号の項目を対応付けて記憶するように構成されている。
そして、すべてのレコードについて処理すると(S2110)、次の文書の処理に移り、最終的に順序付けしたすべての文書について処理した時点で終了する(S2111)。
次に、前述の要約文書提示部504による要約文書提示処理(S104)について詳述する。
図24は、要約文書提示部の内部モジュール構成を示す図である。要約文書提示部504は、要約文書画面生成部2401、要約文書画面記憶部2402、要約文書画面出力部2403、注目部位取得部2404、注目文記憶部2405、及び注目文書判定部2406を有している。
図25は、要約文書提示処理フローを示す図である。まず、注目文記憶部2405、及び注目文書テーブル505をクリアする(S2501)。そして、要約文書画面生成部2401による要約文書画面生成処理(S2502)で、要約文書を表示し、要約文書中の注目部位(この例では、注目する文書)の選択などの指示を促す要約文書画面を生成する。本処理については、図26を用いて後述する。次に、要約文書画面出力部2403による要約文書画面出力処理で(S2503)、生成した要約文書画面を出力する。つまし、表示のために表示装置に送信する。そして、要約文書画面上での操作による指示を受け付ける(S2504)。注目文を選択する指示の場合には、注目部位取得部2404による注目文取得処理(S2505)で、選択された注目文を特定する。詳しくは、図27を用いて後述する。受け付けた指示が絞込を要求する指示の場合には、注目文書判定部2406による注目文書判定処理(S2506)で、注目文書を特定し、本処理の終了ステータスを絞込要約ステータスとして終了する(S2507)。注目文書判定処理(S2506)については、図28を用いて後述する。受け付けた指示が完了の指示の場合には、本処理の終了ステータスを完了ステータスとして終了する(S2508)。
要約文書画面生成部2401による要約文書画面生成処理(S2502)について詳述する。図26は、要約文書画面生成処理フローを示す図である。要約文書記憶部502から順次重要文の文データを読み出し、以下の処理を繰り返す(S2601)。まず、文データの要約文書内文番号を特定する。具体的には、要約文書内文番号(初期値=0)をインクリメントする(S2602)。そして、要約文書画面に含まれる新たな文イベントを設け(S2603)、文アイテムの表示データとして、文データを設定する(S2604)。また、文アイテムの返信データとして、要約文書内文番号を設定する(S2605)。これにより、操作者が画面上で当該文データを選択した場合に、要約文書内文番号が返信されるようになる。そして、すべての文データについて処理した時点で終了する(S2606)。
次に、注目部位取得部2404による注目文取得処理(S2505)について詳述する。図27は、注目文取得処理フローを示す図である。操作者の操作により選択された文アイテムの返値として、要約文書内文番号を取得し(S2701)、取得した要約文書内文番号を、注目文記憶部2405に追加記憶させる(S2702)。
次に、注目文書判定部2406による注目文書判定処理(S2506)について詳述する。図28は、注目文書判定処理フローを示す図である。注目文記憶部2405に記憶している要約文書内注目文番号を順次読み出し、以下の処理を繰り返す(S2801)。要約文書構成テーブル503から要約文書内注目文番号に対応する文書IDを取得し(S2802)、取得した文書IDを注目文書テーブル505に記憶させる(S2803)。そして、すべての要約文書内注目文番号について処理した時点で終了する(S2804)。
続いて、要約対象文書絞込部506による要約対象絞込処理(S106)について詳述する。図29は、要約対象文書絞込処理フローを示す図である。注目文書テーブル505から文書ID群を読み取る(S2901)。要約対象文書記憶部205を、読み取った文書ID群に書き換える(S2902)。このようにして、要約対象文書が絞り込まれる。
実施の形態2.
本実施の形態では、表示された要約文書中から操作者が選択した文字列に基づいて、当該文字列に含まれる単語に対して重み付けを施して、要約文書を再生成する実施例について説明する。この例では、単語に対して重み付けとしてBIASw(文字列注目係数)を用いる。
図30は、実施の形態2に係る全体処理フローを示す図である。本実施の形態では、要約文書生成部501による要約文書生成処理(S3003)で、文字列注目係数を用いた文重要度の算出を行う。本処理については、図39を用いて後述する。また、要約文書提示処理(S3004)では、注目部位として注目する文字列の指示の入力を受け付ける。つまり、選択した文字列を返信するように構成された要約文書表示画面を生成する。また、文字列注目係数算出部3103による文字列注目係数算出処理(S3007)では、選択された文字列に従って、文字列注目係数を設定する処理を行なう。本処理については、図37を用いて後述する。
図31は、要約文書提示及び文字列注目係数算出に係るモジュール構成を示す図である。対話型複数文書要約装置は、注目文字列内単語テーブル3101、注目文字列外単語テーブル3102、文字列注目係数算出部3103、及び文字列注目係数テーブル3104を有している。
要約文書提示部504による要約文書提示処理(S3003)について詳述する。図32は、要約文書提示部の内部モジュール構成を示す図である。要約文書提示部504は、注目文字列記憶部3201、注目文字列内単語判定部3202、及び注目文字列外単語判定部3203を有している。
要約文書提示部504による要約文書提示処理(S3003)について詳述する。図33は、要約文書提示処理フローを示す図である。まず、注目文記憶部2405、注目文書テーブル505、注目文字列記憶部3201、注目文字列内単語テーブル3101、及び注目文字列外単語テーブル3102をクリアする(S3301)。要約文書画面生成処理(S3302)では、選択した文字列を返信するように文アイテムを設定した要約文書表示画面を生成する。尚、前述の例と同様に当該文字列を含む要約文書内文番号も返信する。要約文書画面出力処理(S3303)では、当該画面を出力する。指示受付処理(S3304)で、注目する文字列が指示された場合には、注目部位取得部2404による注目文字列取得処理(S3305)で、選択された要約文書内文番号に併せて選択された文字列を取得する。本処理については、図34を用いて後述する。受け付けた指示が、絞込要求指示の場合には、注目文書判定部2406による注目文書判定処理(S3306)で、注目文書を判定し、注目文字列内単語判定部3202による注目文字列内単語判定処理(S3307)で、注目文字列に含まれる単語を判定する。本処理については、図35を用いて後述する。また、注目文字列外単語判定部3203による注目文字列外単語判定処理(S3308)で、要約文書に含まれるそれ以外の単語を判定する。本処理については、図36を用いて後述する。
注目部位取得部2404による注目文字列取得処理(S3305)について詳述する。図34は、注目文字列取得処理フローを示す図である。要約文書から選択された文字列と、当該文字列を含む文の要約文書内文番号を返値として取得し(S3401)、取得した文字列を、注目文字列として注目文字列記憶部3201に追加記憶させ(S3402)、取得した要約文書内文番号を、注目文記憶部2405に追加記憶させる(S3403)。
注目文字列内単語判定部3202による注目文字列内単語判定処理(S3307)について詳述する。図35は、注目文字列内単語判定処理フローを示す図である。注目文字列記憶部3201に記憶している注目文字列を順次読み出し、以下の処理を繰り返す(S3501)。注目文字列を解析し、注目文字列に含まれる単語群を抽出し(S3502)、抽出した単語毎に以下の処理を繰り返す(S3503)。単語毎の処理として、単語テーブル603から当該単語に対応する単語IDを検索し(S3504)、当該単語IDを注目単語のIDとして注目文字列内単語テーブルに追加記憶させる(S3505)。但し、重複する単語IDは除く。すべての単語について処理すると(S3506)、次の注目文字列の処理に移行し、すべての注目文字列について処理した時点で終了する(S3507)。
次に、注目文字列外単語判定部3203による注目文字列外単語判定処理(S3308)について詳述する図36は、注目文字列外単語判定処理フローを示す図である。要約文書記憶部要約文書記憶部502から重要文の文データを順次読み出し、以下の処理を繰り返す(S3601)。文データを解析し、文データに含まれる単語群を抽出し(S3602)、抽出した単語毎に以下の処理を繰り返す(S3603)。単語テーブル603から当該単語に対応する単語IDを検索する(S3604)。特定した単語IDは、注目文字列内単語テーブル3101に含まれているか判定し(S3605)、含まれていない場合に、当該単語IDを注目文字列外単語のIDとして注目文字列外単語テーブル3102に追加記憶させる(S3606)。但し、重複する単語IDは除く。すべての単語について処理すると(S3607)、次の重要文の文データの処理に移行し、すべての文データについて処理した時点で終了する(S3608)。
次に、文字列注目係数算出部3103による文字列注目係数算出処理(S3007)について詳述する。図37は、文字列注目係数算出処理フローを示す図である。注目文字列内単語テーブル3102から注目文字列内単語のID群を読み出し(S3701)、すべての注目文字列内単語IDについて、注目文字列内単語IDに注目文字列内単語に係る文字列注目係数(1.0より大きい数値、例えば、定数2.0)を対応付けて文字列注目係数テーブル3104に記憶させる(S3702)。また、注目文字列外単語テーブル3102から注目文字列外単語のID群を読み出し(S3703)、すべての注目文字列外単語IDについて、注目文字列外単語IDに注目文字列外単語に係る文字列注目係数(1.0より小さい数値、例えば、定数0.5)を対応付けて文字列注目係数テーブル3104に記憶させる(S3704)。
続いて、要約文書生成処理(S3003)内の文重要度計算処理(S702)について詳述する。図38は、文重要度計算に係るモジュール構成を示す図である。図39は、単語重要度算出処理フローを示す図である。S3905までは、前述の実施例と同様である。そして、文字列注目係数テーブル3104に当該単語のIDがあるか判定し(S3906)、有る場合には文字列注目係数テーブル3104から、当該単語IDに対応する文字列注目係数を読み出し(S3907)、その文字列注目係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S3908)。
これにより、要約文書内で注目された文字列内の単語を優先した単語重要度が算出されるようになる。そして、この単語重要度を用いて文重要度を算出する(図8)。
実施の形態3.
本実施の形態では、表示された要約文書中から操作者が選択した部位(文あるいは文字列)に基づいて、当該部位の出所である要約対象文書に含まれる単語に対して重み付けを施して、要約文書を再生成する実施例について説明する。この例では、単語に対して重み付けとしてBIASd(文書注目係数)を用いる。
図40は、実施の形態3に係る全体処理フローを示す図である。本実施の形態では、要約文書提示部504による要約文書提示処理(S4004)で、文書注目係数を用いた文重要度の算出を行う。本処理については、図50を用いて後述する。文書注目係数算出部4301による文書注目係数算出処理(S4007)では、選択された部位を含む要約対象文書に基づいて文書注目係数を設定する処理を行なう。本処理については、図45を用いて後述する。
図41は、要約文書提示処理フローを示す図である。注目文書判定処理(S4106)に続いて非注目文書判定処理(S4107)を行なう。
非注目文書判定処理(S4107)について詳述する。図42は、非注目文書判定処理フローを示す図である。要約文書構成テーブル503から文書IDを順次読み出し、以下の処理を繰り返す(S4201)。当該文書IDが注目文書テーブル505に記憶されているいずれかの注目文書IDと一致するか判定し(S4202)、一致しない場合に当該文書IDを非注目文書のIDとして非注目文書テーブル4303に追加記憶させる(S4203)。但し、重複する文書IDは除く。そして、すべての文書IDについて処理した時点で終了する(S4204)。
文書注目係数算出部4301による文書注目係数算出処理(S4007)について詳述する。図43は、要約文書提示及び文書注目係数算出に係るモジュール構成を示す図である。対話型複数文書要約装置は、文書注目係数算出部4301及び文書注目係数テーブル4302を有している。
図44は、文書注目係数算出部の内部モジュール構成を示す図である。文書注目係数算出部4301は、注目文書内単語抽出部4401、注目文書内単語テーブル4402、注目文書外単語抽出部4403、注目文書外単語テーブル4404、及び係数設定部4405を有している。
図45は、文書注目係数算出処理フローを示す図である。注目文書内単語抽出処理(S4501)では、操作者から指示された部位を含む文(注目文)の出所である注目文書に含まれる単語を抽出する。詳しくは、図46を用いて後述する。また、注目文書外単語抽出処理(S4502)では、それ以外の単語を抽出する。詳しくは、図47を用いて後述する。係数設定処理(S4503)では、文書注目係数を設定する。詳しくは、図48を用いて後述する。
まず、注目文書内単語抽出処理(S4501)について詳述する。図46は、注目文書内単語抽出処理フローを示す図である。注目文書テーブル505から注目文書IDを順次読み出し、以下の処理を繰り返す(S4601)。当該注目文書IDの文書に含まれる文を順次読み出し、以下の処理を繰り返す(S4602)。文毎の処理として、当該文を解析し、当該文に含まれる単語群を特定し(S4603)、単語テーブル603から当該単語に対応する単語IDを検索し(S4604)、特定した単語IDを注目文書内単語IDとして注目文書内単語テーブル4402に記憶させる(S4605)。これらの処理をすべての単語について処理すると(S4606)、次の文の処理に移行する。そしてすべての文について処理すると(S4607)、次の注目文書IDの処理に移行し、すべての注目文書IDについて処理した時点で終了する(S4608)。
次に、注目文書外単語抽出処理(S4502)について詳述する。図47は、注目文書外単語抽出処理フローを示す図である。単語テーブル602から単語IDを順次読み出し、以下の処理を繰り返す(S4701)。当該単語IDは、注目文書内単語テーブル4402に記憶しているいずれかの注目文書内単語IDと一致するか判定し(S4702)、一致しない場合に当該単語IDを注目文書外単語IDとして注目文書外単語テーブル4404に記憶させる(S4703)。そして、すべての単語IDについて処理した時点で終了する(S4704)。
次に、係数設定処理(S4503)について詳述する。図48は、係数設定処理フローを示す図である。注目文書内単語テーブル4402から注目文書内単語ID群を読み出し(S4801)、すべての注目文書内単語IDについて、注目文書内単語IDに注目文書内単語に係る文書注目係数(1.0より大きい数値、例えば、定数2.0)を対応付けて文書注目係数テーブル4302に記憶させる(S4802)。また、注目文書外単語テーブル4404から注目文書外単語ID群を読み出し(S4803)、すべての注目文書外単語IDについて、注目文書外単語IDに注目文書外単語に係る文書注目係数(1.0より小さい数値、例えば、定数0.5)を対応付けて文書注目係数テーブル4302に記憶させる(S4804)。
続いて、要約文書生成処理(S4003)内の文重要度計算処理(S702)について詳述する。図49は、文重要度計算に係るモジュール構成を示す図である。図50は、単語重要度算出処理フローを示す図である。S5005までは、前述の例と同様である。文書注目係数テーブルに当該単語のIDがあるか判定し(S5006)、ある場合には文書注目係数テーブル4302から、当該単語IDに対応する文書注目係数を読み出し(S5007)、文書注目係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S5008)。
これにより、要約文書内で注目された文の出所である要約対象文書に含まれる単語を優先した単語重要度が算出されるようになる。そして、この単語重要度を用いて文重要度を算出する(図8)。
実施の形態4.
実施の形態2の注目文字列内単語係数と実施の形態3の注目文書内単語係数を併せて用いることもできる。
図51は、実施の形態4に係る全体処理フローを示す図である。
要約文書提示処理(S5104)では、注目文字列と注目文の両方を取得する。そして、注目文字列内単語係数算出処理(S5107)と注目文書内単語係数算出処理(S5108)を行なう。
また、要約文書生成処理(S5103)内の文重要度計算処理(S702)では、両係数を単語重要度に乗算する。図52は、単語重要度算出処理フローを示す図である。文字列注目係数テーブル3104に当該単語のIDがある場合には(S5202)、文字列注目係数テーブル3104から、当該単語IDに対応する文字列注目係数を読み出し(S5203)、文字列注目係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S5204)。更に、文書注目係数テーブル4302に当該単語のIDがある場合には(S5205)、文書注目係数テーブル4302から、当該単語IDに対応する文書注目係数を読み出し(S5206)、更に文書注目係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S5207)。
実施の形態5.
上述の実施例のように検索条件文を変換した検索条件式による文書検索に基づく要約文書を主要約文書とし、更に検索条件文から生成した検索質問ベクトルによる文書検索に基づく推薦要約文書を生成し、両要約文書を同時に提示し、両要約文書画面から前述の注目文や注目文字列の指示の入力を受け付ける実施例について説明する。
図53は、実施の形態5に係る全体処理フローを示す図である。
検索条件入力処理(S5301)と(主)要約対象文書選択処理(S5302)は、前述と同様である。初期検索質問ベクトル算出部5401による初期検索質問ベクトル算出処理(S5303)では、検索条件文に基づいて検索質問ベクトルの初期化を行なう。本処理については、図57を用いて後述する。(主)要約文書生成処理(S5304)は、前述と同様である。推薦要約対象文書抽出部5403による推薦要約対象文書抽出処理(S5305)では、文書ベクトルと検索質問ベクトルの類似度を算出し、類似度の大きい順に文書を抽出する処理を行なう。例えば、文書検索エンジン203は、204から順次文書ベクトルを読み出し、その文書ベクトルと検索質問ベクトルのなす角を算出し、その角の余弦値を算出して類似度とする。そして、余弦値の大きい順に所定数の文書のIDを推薦要約対象文書の文書IDとして出力する。推薦要約文書生成処理(S5306)では、検索された推薦要約対象文書に基づいて推薦要約文書を生成する。本処理については、図61を用いて後述する。要約文書提示部504による要約文書同時提示処理(S5307)では、(主)要約文書画面と推薦要約文書画面を同時に出力し、いずれの要約文書からでも注目部位の指示を受け付ける。本処理については、図63を用いて後述する。(主)要約対象文書絞込処理(S5309)は、前述と同様である。検索質問ベクトル更新部6401による検索質問ベクトル更新処理(S5310)では、注目文書と非注目文書に基づいて検索質問ベクトルを更新する。本処理については、図66を用いて後述する。
図54は、初期検索質問ベクトル算出と推薦要約対象文書抽出に係るモジュール構成を示す図である。対話型複数文書要約装置は、初期検索質問ベクトル算出部5401、検索質問ベクトル記憶部5402、推薦要約対象文書抽出部5403、及び推薦要約対象文書記憶部5404を有している。
図55は、検索質問ベクトル記憶部の構成例を示す図である。単語毎に検索質問ベクトルの成分を記憶するように構成されている。
図56は、初期検索質問ベクトル算出部の内部モジュール構成を示す図である。初期検索質問ベクトル算出部5401は、検索条件内単語出現頻度算出部5601、検索条件内単語出現頻度テーブル5602、及び初期検索質問ベクトル成分算出部5603を有している。
初期検索質問ベクトル算出部5401による初期検索質問ベクトル算出処理(S5303)について詳述する。図57は、初期検索質問ベクトル算出処理フローを示す図である。検索条件内単語出現頻度算出部5601による検索条件内単語出現頻度算出処理(S5701)では、検索条件内における単語の出現頻度を算出する。本処理については、図58を用いて後述する。そして、初期検索質問ベクトル成分算出部5603による初期検索質問ベクトル成分算出処理(S5702)では、検索条件内単語出現頻度に基づいて初期検索質問ベクトル成分を算出する。本処理については、図60を用いて後述する。
検索条件内単語出現頻度算出部5601による検索条件内単語出現頻度算出処理(S5701)について詳述する。図58は、検索条件内単語出現頻度算出処理フローを示す図である。まず、検索条件内単語出現頻度テーブル5602のすべての検索条件内単語出現頻度を0にする(S5801)。そして、検索条件入力部201によるS5301の処理で受け付けた検索条件文を解析し、検索条件文に含まれる単語群を抽出し(S5802)、抽出した単語毎に以下の処理を繰り返す(S5803)。単語毎の処理として、単語テーブル603から当該単語に対応する単語IDを検索し(S5804)、検索条件内単語出現頻度テーブル5602上で、当該単語IDに対応する検索条件内単語出現頻度をインクリメント(+1)する(S5805)。これをすべての単語について行なう(S5806)。
図59は、検索条件内単語出現頻度テーブルの構成例を示す図である。単語毎に検索条件内単語出現頻度を記憶するように構成されている。
次に、初期検索質問ベクトル成分算出部5603による初期検索質問ベクトル成分算出処理(S5702)について詳述する。図60は、初期検索質問ベクトル成分算出処理フローを示す図である。まず、検索質問ベクトル記憶部5402の検索質問ベクトルのすべての成分を0にする(S6001)。そして、検索条件内単語出現頻度テーブル5602に含まれる検索条件内単語出現頻度のうち最大値を求める(S6002)。続いて、検索条件文に含まれる単語毎に以下の処理を繰り返す(S6003)。当該単語IDに対応する検索条件内単語出現頻度を検索条件内単語出現頻度テーブル5602から読み出し(S6004)、検索条件内単語出現頻度を検索条件内単語出現頻度の最大値で割って、商を求める(S6005)。当該単語IDに対応する文書頻度逆数を文書頻度逆数テーブル606から読み出し(S6006)、前記商に1を加え、その和に文書頻度逆数を乗じて、積を求め、その積を初期検索質問ベクトルの成分として、当該単語IDに対応付けて検索質問ベクトル記憶部5402に記憶させる(S6007)。そして、すべての単語について処理した時点で終了する(S6008)。
図61は、推薦要約文書生成と要約文書提示に係るモジュール構成を示す図である。対話型複数文書要約装置は、推薦要約文書生成部6101、推薦要約文書記憶部6102、推薦要約文書構成テ-ブル6103、及び推薦要約対象文書記憶部6104を有する。推薦要約文書生成の手順は、(主)要約文書生成と同様である。但し、要約の対象となる文書が異なるので別に行なわれる。
図62は、要約文書提示部の内部モジュール構成を示す図である。要約文書提示部504は、非注目文書判定部6201を有している。
図63は、要約文書提示処理フローを示す図である。まず、注目文記憶部2405、注目文書テーブル505、及び非注目文書テーブル4303をクリアする(S6301)。(主)要約文書画面生成処理(S6302)と推薦要約文書画面生成処理(S6303)に続いて、(主)要約文書画面出力処理(S6304)と推薦要約文書画面出力処理(S6305)を行なう。両画面は、例えば一体の枠内に上下あるは左右に並べて表示する。注目部位取得部2404による注目文取得処理(S6307)では、いずれの要約文書からでも注目文を取得する。絞込要求指示を受け付けた場合には、注目文書判定部2406による注目文書判定処理(S6308)では、推薦要約文書画面から注目文指示を受け付けた場合には、推薦要約文書構成テーブル6103に基づいて注目文書を特定する。続いて、非注目文書判定部6201による非注目文書判定処理(S6309)を行なう。この処理では、注目文書以外の非注目文書を判定する。特に、図42のS4201では、要約文書構成テーブル503及び推薦要約文書構成テーブル6103から文書IDを順次読み出し、以下の処理を繰り返す。
図64は、検索質問ベクトル更新に係るモジュール構成を示す図である。対話型複数文書要約装置は、検索質問ベクトル更新部6401を有している。また、文書データベース204は、内部に設けた文書ベクトルテーブル6802から文書ベクトルを提供する。
図65は、文書ベクトルテーブルの構成例を示す図である。文書毎に文書ベクトルを記憶するように構成されており、文書ベクトルは、各単語に対応する文書ベクトル成分から構成されている。文書ベクトルの算出については、図70を用いて後述する。
検索質問ベクトル更新部6401による検索質問ベクトル更新処理(S5310)について詳述する。図66は、検索質問ベクトル更新処理フローを示す図である。まず、加算修正ベクトル算出処理(S6601)で、検索質問ベクトルを修正するために加算するベクトル値を算出する。本処理については、図67を用いて後述する。次に、減算修正ベクトル算出処理(S6602)で、検索質問ベクトルを修正するために減算するベクトル値を算出する。本処理については、図68を用いて後述する。そして、検索質問ベクトル記憶部から旧検索質問ベクトルを読み出し(S6603)、旧検索質問ベクトルに加算修正ベクトルを加算し、更に減算修正ベクトルを減算し、新検索質問ベクトルを求める(S6604)。求めた新検索質問ベクトルを検索質問ベクトル記憶部5402に書き込む(S6605)。
図67は、加算修正ベクトル算出処理フローを示す図である。注目文書テーブル505に記憶している各注目文書IDについて、以下の処理を繰り返す(S6701)。当該注目文書IDに対応する文書ベクトルを読み出し(S6702)、文書ベクトルを注目文書累計ベクトル(初期値:0ベクトル)に加算する(S6703)。すべての注目文書IDについて処理すると(S6704)、注目文書累計ベクトルを注目文書の総数で割って、注目文書平均ベクトルを求め(S6705)、注目文書平均ベクトルに注目文書更新寄与係数(例えば、2.0)を乗じて、加算修正ベクトルを得る(S6706)。
図68は、減算修正ベクトル算出処理フローを示す図である。非注目文書テーブル4303に記憶している各非注目文書IDについて、以下の処理を繰り返す(S6801)。当該非注目文書IDに対応する文書ベクトルを読み出し(S6802)、文書ベクトルを非注目文書累計ベクトル(初期値:0ベクトル)に加算する(S6803)。すべての非注目文書IDについて処理すると(S6804)、非注目文書累計ベクトルを非注目文書の総数で割って、非注目文書平均ベクトルを求め(S6805)、非注目文書平均ベクトルに非注目文書更新寄与係数(例えば、0.5)を乗じて、減算修正ベクトルを得る(S6806)。
ここで、文書データベース204内部における文書ベクトル算出について説明する。図68は、文書ベクトル算出に係る文書データベースのモジュール構成を示す図である。文書データベース204は、文書ベクトル算出部6901を有している。
図70は、文書ベクトル算出処理フローを示す図である。文書管理テーブル602で管理している各文書について、以下の処理を繰り返す(S7001)。文書管理テーブル602から当該文書の文書内単語総数を読み出す(S7002)。そして、各単語について、以下の処理を繰り返す(S7003)。文書内単語出現頻度テーブル605から当該文書の当該単語に係る文書内単語出現頻度を読み出し(S7004)、更に文書頻度逆数テーブル606から当該単語の文書頻度逆数を読み出す(S7005)。そして、文書内単語出現頻度を文書内単語総数で割り、その商に文書頻度逆数を乗じて積を求め(S7006)、算出した積を当該文書の当該単語に係る文書ベクトル成分として、文書ベクトルテーブル6902に記憶させる(S7007)。すべての単語について処理すると(S7008)、次の文書の処理に移行し、すべての文書について処理した時点で終了する(S7009)。これにより、図65に示した文書ベクトルテーブル6902が得られる。
実施の形態6.
実施の形態5に実施の形態2の特徴を加えることも有効である。図71は、実施の形態6に係る全体処理フローを示す図である。
実施の形態7.
実施の形態5に実施の形態3の特徴を加えることも有効である。図72は、実施の形態7に係る全体処理フローを示す図である。
実施の形態8.
実施の形態5に実施の形態4の特徴を加えることも有効である。図73は、実施の形態8に係る全体処理フローを示す図である。
実施の形態9.
前述の例では、主要約文書画面と推薦要約文書画面を同時に表示したが、一方のみを表示し、切換指示を受け付けた場合に他方の画面に切り換えることもできる。図74は、実施の形態9に係る全体処理フローを示す図である。
要約文書提示部504による要約文書(切換)提示処理(S7407)では、両画面の切り換えを行なう。図75と図76は、要約文書(切換)提示処理フローを示す図である。(主)要約画面を出力中に画面の切換指示を受け付けた場合には(S7504)、推薦要約文書画面生成処理(S7511)に移行し、推薦要約文書画面出力処理(S7512)を行なう。また、推薦要約画面を出力中に画面の切換指示を受け付けた場合には(S7513)、(主)要約文書画面生成処理(S7502)に移行し、(主)要約文書画面出力処理(S7503)を行なう。S7507以下では、要約文書構成テーブル503を用いて注目文書と非注目文書を判定し、S7516以下では、推薦要約文書構成テ-ブル6103を用いて注目文書と非注目文書を判定する。
実施の形態10.
実施の形態2から要約対象文書絞込の処理を除くこともできる。この場合には、同じ要約対象文書群に基づいて、新たな要約文書が生成される。図77は、実施の形態10に係る全体処理フローを示す図である。
実施の形態11.
実施の形態3から要約対象文書絞込の処理を除くこともできる。この場合には、同じ要約対象文書群に基づいて、新たな要約文書が生成される。図78は、実施の形態11に係る全体処理フローを示す図である。
実施の形態12.
実施の形態4から要約対象文書絞込の処理を除くこともできる。この場合には、同じ要約対象文書群に基づいて、新たな要約文書が生成される。図79は、実施の形態12に係る全体処理フローを示す図である。
実施の形態13.
実施の形態5から主要約文書に関する処理を除くこともできる。この場合には、推薦要約文書のみが生成され、提示される。図80は、実施の形態13に係る全体処理フローを示す図である。
実施の形態14.
実施の形態6から主要約文書に関する処理を除くこともできる。この場合には、推薦要約文書のみが生成され、提示される。図81は、実施の形態14に係る全体処理フローを示す図である。
実施の形態15.
実施の形態7から主要約文書に関する処理を除くこともできる。この場合には、推薦要約文書のみが生成され、提示される。図82は、実施の形態15に係る全体処理フローを示す図である。
実施の形態16.
実施の形態8から主要約文書に関する処理を除くこともできる。この場合には、推薦要約文書のみが生成され、提示される。図83は、実施の形態16に係る全体処理フローを示す図である。
実施の形態17.
本実施の形態では、検索条件文に含まれる単語に対して重み付けを施して、要約文書を再生成する実施例について説明する。この例では、単語に対して重み付けとしてBIASs(検索キーワード係数)を用いる。
図84は、実施の形態17に係る全体処理フローを示す図である。検索キーワード係数算出部8501による検索キーワード係数算出処理(8303)で算出した検索キーワード係数を用いて、文重要度を計算する。
図85は、検索キーワード係数算出に係るモジュール構成を示す図である。対話型複数文書要約装置は、検索キーワード係数算出部8501及び検索キーワード係数テーブル8502を有している。
図86は、検索キーワード係数算出処理フローを示す図である。検索条件文を解析し、検索条件文に含まれる単語として検索キーワード群を特定する(S8601)。そして、検索キーワード毎に、以下の処理を繰り返す(S8602)、当該検索キーワードの単語に対応する単語IDを特定し(S8603)、単語IDに検索キーワード係数(1.0より大きい数値、例えば、定数2.0)を対応付けて検索キーワード係数テーブルに記憶させる(S8604)。すべての検索キーワードについて処理した時点で終了する(S8605)。
要約文書生成処理(S8404)内の単語重要度算出処理(S702)について詳述する。図87は、単語重要度算出処理フローを示す図である。検索キーワード係数テーブル8502に当該単語のIDがある場合には(S8702)、検索キーワード係数テーブル8502から、当該単語IDに対応する検索キーワード係数を読み出す(S8703)。そして、検索キーワード係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S8704)。
検索キーワード係数を用いる形態は、上述の実施の形態1乃至16のいずれにも適用することができる。
対話型複数文書要約装置は、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。
実施の形態1に係る全体処理フローを示す図である。 要約対象文書選択に係るモジュール構成を示す図である。 要約対象文書選択処理フローを示す図である。 要約対象文書記憶部の構成例を示す図である。 要約文書生成、要約文書提示、及び要約対象文書絞込に係るモジュール構成を示す図である。 要約文書生成部の内部モジュール構成を示す図である。 要約文書生成処理フローを示す図である。 文重要度計算処理フロー(1/2)を示す図である。 文重要度計算処理フロー(2/2)を示す図である。 文書管理テーブルの構成例を示す図である。 単語テーブルの構成例を示す図である。 文中総単語数算出処理フローを示す図である。 文内単語出現頻度テーブルの構成例を示す図である。 単語重要度算出処理フローを示す図である。 文書内単語出現頻度テーブルの構成例を示す図である。 文書頻度逆数テーブルの構成例を示す図である。 文重要度テーブルの構成例を示す図である。 重要文抽出処理フロー(1/2)を示す図である。 重要文抽出処理フロー(2/2)を示す図である。 文抽出テーブルの構成例を示す図である。 重要文整列処理フローを示す図である。 要約文書記憶部の構成例を示す図である。 要約文書構成テーブルの構成例を示す図である。 要約文書提示部の内部モジュール構成を示す図である。 要約文書提示処理フローを示す図である。 要約文書画面生成処理フローを示す図である。 注目文取得処理フローを示す図である。 注目文書判定処理フローを示す図である。 要約対象文書絞込処理フローを示す図である。 実施の形態2に係る全体処理フローを示す図である。 要約文書提示及び文字列注目係数算出に係るモジュール構成を示す図である。 要約文書提示部の内部モジュール構成を示す図である。 要約文書提示処理フローを示す図である。 注目文字列取得処理フローを示す図である。 注目文字列内単語判定処理フローを示す図である。 注目文字列外単語判定処理フローを示す図である。 文字列注目係数算出処理フローを示す図である。 文重要度計算に係るモジュール構成を示す図である。 単語重要度算出処理フローを示す図である。 実施の形態3に係る全体処理フローを示す図である。 要約文書提示処理フローを示す図である。 非注目文書判定処理フローを示す図である。 要約文書提示及び文書注目係数算出に係るモジュール構成を示す図である。 文書注目係数算出部の内部モジュール構成を示す図である。 文書注目係数算出処理フローを示す図である。 注目文書内単語抽出処理フローを示す図である。 注目文書外単語抽出処理フローを示す図である。 係数設定処理フローを示す図である。 文重要度計算に係るモジュール構成を示す図である。 単語重要度算出処理フローを示す図である。 実施の形態4に係る全体処理フローを示す図である。 単語重要度算出処理フローを示す図である。 実施の形態5に係る全体処理フローを示す図である。 初期検索質問ベクトル算出と推薦要約対象文書抽出に係るモジュール構成を示す図である。 検索質問ベクトル記憶部の構成例を示す図である。 初期検索質問ベクトル算出部の内部モジュール構成を示す図である。 初期検索質問ベクトル算出処理フローを示す図である。 検索条件内単語出現頻度算出処理フローを示す図である。 検索条件内単語出現頻度テーブルの構成例を示す図である。 初期検索質問ベクトル成分算出処理フローを示す図である。 推薦要約文書生成と要約文書提示に係るモジュール構成を示す図である。 要約文書提示部の内部モジュール構成を示す図である。 要約文書提示処理フローを示す図である。 検索質問ベクトル更新に係るモジュール構成を示す図である。 文書ベクトルテーブルの構成例を示す図である。 検索質問ベクトル更新処理フローを示す図である。 加算修正ベクトル算出処理フローを示す図である。 減算修正ベクトル算出処理フローを示す図である。 文書ベクトル算出に係る文書データベースのモジュール構成を示す図である。 文書ベクトル算出処理フローを示す図である。 実施の形態6に係る全体処理フローを示す図である。 実施の形態7に係る全体処理フローを示す図である。 実施の形態8に係る全体処理フローを示す図である。 実施の形態9に係る全体処理フローを示す図である。 要約文書(切換)提示処理フロー(1/2)を示す図である。 要約文書(切換)提示処理フロー(2/2)を示す図である。 実施の形態10に係る全体処理フローを示す図である。 実施の形態11に係る全体処理フローを示す図である。 実施の形態12に係る全体処理フローを示す図である。 実施の形態13に係る全体処理フローを示す図である。 実施の形態14に係る全体処理フローを示す図である。 実施の形態15に係る全体処理フローを示す図である。 実施の形態16に係る全体処理フローを示す図である。 実施の形態17に係る全体処理フローを示す図である。 検索キーワード係数算出に係るモジュール構成を示す図である。 検索キーワード係数算出処理フローを示す図である。 単語重要度算出処理フローを示す図である。
符号の説明
201 検索条件入力部、202 要約対象文書選択部、203 文書検索エンジン、204 文書データベース、205 要約対象文書記憶部、501 要約文書生成部、502 要約文書記憶部、503 要約文書構成テーブル、504 要約文書提示部、505 注目文書テーブル、506 要約対象文書絞込部、601 文重要度計算部、602 文書管理テーブル、603 単語テーブル、604 文内単語出現頻度テーブル、605 文書内単語出現頻度テーブル、606 文書頻度逆数テーブル、607 文提供部、608 文書データ記憶部、609 文重要度テーブル、610 重要文抽出部、611 文抽出テーブル、612 重要文整列部、2401 要約文書画面生成部、2402 要約文書画面記憶部、2403 要約文書画面出力部、2404 注目部位取得部、2405 注目文記憶部、2406 注目文書判定部、3101 注目文字列内単語テーブル、3102 注目文字列外単語テーブル、3103 文字列注目係数算出部、3104 文字列注目係数テーブル、3201 注目文字列記憶部、3202 注目文字列内単語判定部、3203 注目文字列外単語判定部、4301 文書注目係数算出部、4302 文書注目係数テーブル、4303 非注目文書テーブル、4401 注目文書内単語抽出部、4402 注目文書内単語テーブル、4403 注目文書外単語抽出部、4404 注目文書外単語テーブル、4405 係数設定部、5401 初期検索質問ベクトル算出部、5402 検索質問ベクトル記憶部、5403 推薦要約対象文書抽出部、5404 推薦要約対象文書記憶部、5601 検索条件内単語出現頻度算出部、5602 検索条件内単語出現頻度テーブル、5603 初期検索質問ベクトル成分算出部、6101 推薦要約文書生成部、6102 推薦要約文書記憶部、6103 推薦要約文書構成テ-ブル、6104 推薦要約対象文書記憶部、6201 非注目文書判定部、6401 検索質問ベクトル更新部、6901 文書ベクトル算出部、8501 検索キーワード係数算出部、8502 検索キーワード係数テーブル。

Claims (5)

  1. 複数の文書を記憶する文書データベースから文書を検索する文書検索エンジンと接続する対話型複数文書要約装置であって、以下の要素を有することを特徴とする対話型複数文書要約装置
    (1)検索条件文を入力する検索条件入力部
    (2)入力した検索条件文から検索条件式を生成し、文書検索エンジンに検索条件式を転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを要約対象文書の識別情報とする要約対象文書選択部
    (3)要約対象文書の識別情報を記憶する要約対象文書記憶部
    (4)要約対象文書の識別情報により特定される要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる要約文書を生成する要約文書生成部
    (5)要約文書を表示し、操作者に対して要約文書に含まれる重要文から注目文を選択するように促す要約文書画面を生成し、要約文書画面で選択された注目文の出所である注目文書の識別情報を特定する要約文書提示部
    (6)要約対象文書記憶部に記憶している要約対象文書の識別情報群を注目文書の識別情報に更新する要約対象文書絞込部。
  2. 要約文書提示部は、要約文書画面が操作者に対して要約文書から注目文字列を選択するように促すように生成し、要約文書画面で選択された注目文字列に含まれる注目文字列内単語を特定し、更に要約文書に含まれるが注目文字列に含まれない注目文字列外単語を特定し、
    対話型複数文書要約装置は、注目文字列内単語に1より大きい文字列注目係数を設定し、注目文字列外単語に1より小さい文字列注目係数を設定する文字列注目係数算出部を有し、
    要約文書生成部は、単語の重要度に文字列注目係数を乗じ、その積を単語の重要度として用いることを特徴とする請求項1記載の対話型複数文書要約装置。
  3. 要約文書提示部は、更に重要文の出所のうち注目文書以外の非注目文書の識別情報を特定し、
    対話型複数文書要約装置は、更に、注目文書に含まれる注目文書内単語に1より大きい文書注目係数を設定し、非注目文書に含まれる単語であって注目文書内単語以外の注目文書外単語に1より小さい文書注目係数を設定する文書注目係数算出部を有し、
    要約対象要約文書生成部は、単語の重要度に文書注目係数を乗じ、その積を単語の重要度として用いることを特徴とする請求項1記載の対話型複数文書要約装置。
  4. 対話型複数文書要約装置は、更に、
    検索条件文に含まれる単語の頻度に基づいて初期の検索質問ベクトルを算出し、検索質問ベクトル記憶部に記憶させる初期検索質問ベクトル算出部と、
    検索質問ベクトルを記憶する検索質問ベクトル記憶部と、
    文書検索エンジンに検索質問ベクトルを転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを推薦要約対象文書の識別情報とする推薦要約対象文書抽出部と、
    推薦要約対象文書の識別情報により特定される推薦要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる推薦要約文書を生成する推薦要約文書生成部と、
    注目文書の識別情報により特定される文書ベクトルに基づいて加算修正ベクトルを算出し、非注目文書の識別情報により特定される文書ベクトルに基づいて減算修正ベクトルを算出し、検索質問ベクトル記憶部に記憶している検索質問ベクトルに加算修正ベクトルを加算し、減算修正ベクトルを減算し、検索質問ベクトルを更新する検索質問ベクトル更新部を有し、
    要約文書提示部は、推薦要約文書を表示し、操作者に対して推薦要約文書に含まれる重要文から注目文を選択するように促す推薦要約文書画面を生成し、推薦要約文書画面で選択された注目文の出所である注目文書の識別情報を特定し、前記要約文書及び当該推薦要約文書について、重要文の出所のうち注目文書以外の非注目文書の識別情報を特定することを特徴とする請求項1記載の対話型複数文書要約装置。
  5. 要約対象文書の識別情報を記憶する要約対象文書記憶部を有し、複数の文書を記憶する文書データベースから文書を検索する文書検索エンジンと接続する対話型複数文書要約装置となるコンピュータに、以下の手順を実行させるためのプログラム
    (1)検索条件文を入力する検索条件入力手順
    (2)入力した検索条件文から検索条件式を生成し、文書検索エンジンに検索条件式を転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを要約対象文書の識別情報とする要約対象文書選択手順
    (3)要約対象文書の識別情報により特定される要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる要約文書を生成する要約文書生成手順
    (4)要約文書を表示し、操作者に対して要約文書に含まれる重要文から注目文を選択するように促す要約文書画面を生成し、要約文書画面で選択された注目文の出所である注目文書の識別情報を特定する要約文書提示手順
    (5)要約対象文書記憶部に記憶している要約対象文書の識別情報群を注目文書の識別情報に更新する要約対象文書絞込手順。
JP2006256759A 2006-09-22 2006-09-22 対話型複数文書要約装置 Active JP4806773B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006256759A JP4806773B2 (ja) 2006-09-22 2006-09-22 対話型複数文書要約装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006256759A JP4806773B2 (ja) 2006-09-22 2006-09-22 対話型複数文書要約装置

Publications (2)

Publication Number Publication Date
JP2008077459A JP2008077459A (ja) 2008-04-03
JP4806773B2 true JP4806773B2 (ja) 2011-11-02

Family

ID=39349434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006256759A Active JP4806773B2 (ja) 2006-09-22 2006-09-22 対話型複数文書要約装置

Country Status (1)

Country Link
JP (1) JP4806773B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2749790B2 (ja) * 1995-03-28 1998-05-13 株式会社エイ・ティ・アール音声翻訳通信研究所 並列テキスト検索システム
JP3654850B2 (ja) * 2000-05-17 2005-06-02 松下電器産業株式会社 情報検索システム
JP2003281159A (ja) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd 文書処理装置及び文書処理方法、文書処理プログラム
JP2005141428A (ja) * 2003-11-05 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> 単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体
JP2006059082A (ja) * 2004-08-19 2006-03-02 Yokohama National Univ 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム
JP2006163525A (ja) * 2004-12-02 2006-06-22 Canon Inc 文書処理装置、文書処理方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2008077459A (ja) 2008-04-03

Similar Documents

Publication Publication Date Title
US8250054B2 (en) Network search engine utilizing client browser favorites
US7424476B2 (en) Categorized web browsing history
KR101147470B1 (ko) 레코멘데이션 정보 생성 장치 및 레코멘데이션 정보 생성 방법
US20110314005A1 (en) Determining and using search term weightings
US20100057717A1 (en) System And Method For Generating A Search Ranking Score For A Web Page
US20060059440A1 (en) System for organization, display, and navigation of digital information
US20090112800A1 (en) System and method for visual contextual search
JP5859606B2 (ja) オンライン商取引プラットフォームにおける広告ソースおよびキーワードセットの適合
US20120072406A1 (en) Search processing method and apparatus
US6850954B2 (en) Information retrieval support method and information retrieval support system
US20030101286A1 (en) Inferring relations between internet objects
US20060277174A1 (en) Method and device for searching a data unit in a database
US9667505B2 (en) URL navigation page generation method, device and program
CN103678555A (zh) 进行网页收藏的方法和浏览器
WO2001050346A1 (en) System and method for displaying results of search
CN108197244A (zh) 一种搜索推荐词的推送方法和装置
US8538941B2 (en) Visual information search tool
JP4806773B2 (ja) 対話型複数文書要約装置
JP2010181966A (ja) レコメンド情報評価装置およびレコメンド情報評価方法
Markowetz et al. Geographic information retrieval
Markowetz et al. Exploiting the internet as a geospatial database
CN105243106A (zh) 一种用于生成查询结果的方法和装置
JP5813560B2 (ja) 検索条件提示装置、方法、及びプログラム
CN108062328A (zh) 获取网站自然搜索排名的方法和装置
US20160100020A1 (en) Web presence management system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110719

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350