JP2008097077A - 重要文選出装置,重要文選出プログラム,重要文選出方法 - Google Patents

重要文選出装置,重要文選出プログラム,重要文選出方法 Download PDF

Info

Publication number
JP2008097077A
JP2008097077A JP2006274757A JP2006274757A JP2008097077A JP 2008097077 A JP2008097077 A JP 2008097077A JP 2006274757 A JP2006274757 A JP 2006274757A JP 2006274757 A JP2006274757 A JP 2006274757A JP 2008097077 A JP2008097077 A JP 2008097077A
Authority
JP
Japan
Prior art keywords
sentence
importance
word
important
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006274757A
Other languages
English (en)
Inventor
Hiroshi Narasaki
博司 楢崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2006274757A priority Critical patent/JP2008097077A/ja
Publication of JP2008097077A publication Critical patent/JP2008097077A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書データに含まれる複数の文から,ユーザが文書内容を正しく把握するために極力必要十分な文を選出することができること。
【解決手段】文とその文に含まれる節とを対応付ける上位リンク及びその重み係数,節とその節に含まれる単語とを対応付ける下位リンク及びその重み係数及び単語の重要度の初期値を設定し,下位リンクの重み係数と単語の重要度とに基づき節の重要度を計算し,上位リンクの重み係数と節の重要度とに基づき文の重要度を計算する前方伝播処理と,上位リンクの重み係数と文の重要度とに基づき節の重要度を計算し,下位リンクの重み係数と節の重要度とに基づいて単語の重要度を計算する後方伝播処理とを繰り返し,所定の収束条件が成立した場合の文の重要度に基づいて1又は複数の重要文を選出する。
【選択図】図2

Description

本発明は,文書データに含まれる複数の文それぞれの重要度を表す数値を自動計算し,その計算結果に基づいて前記文書データに含まれる複数の文から1又は複数の文を選出する重要文選出装置及びその処理をコンピュータに実行させるための重要文選出プログラム並びにその処理をコンピュータにより実行する重要文選出方法に関するものである。
文書データにはそれぞれ複数の単語を含む複数の文(句点で区分される単語の集合)が含まれる。従来,コンピュータにより,前記文書データに含まれる複数の文それぞれの重要度を表す数値を自動計算(重要度の推定)し,その計算結果(推定結果)に基づいて特に重要と考えられる文を自動的に選出する処理を実行することが行われている。以下,前記文書データから重要と考えられる文を自動選出する処理のことを重要文選出処理と称する。なお,従来,前記重要文選出処理は,文書要約や要約文生成等において採用され,例えば,特許文献1〜3に従来の重要文選出処理の一例が示されている。
従来の重要文選出処理は,大きく分けて次の2つの処理のいずれかである。
その1つは,文書データに含まれる単語の頻出度を計算し,その頻出度が高い単語を含む文を重要な文として選出(抽出)する処理である。以下,これを第1の従来処理と称する。
例えば,特許文献1には,文書中に出現する単語の頻度に基づいて,その単語を含む文の重要度(重要性)を評価する技術について言及されています。また,特許文献2には,名詞句(単語)それぞれについて,その重要度に応じた重み付けを行い,その重み付けの結果に基づいて文それぞれの重要度のランキング付けを行う技術が示されています。
他の1つは,文書データに含まれる接続語(例えば,「したがって」など)に基づいて隣接する文の関係を推定し,その推定結果に基づいて重要な文を選出する処理である。以下,これを第2の従来処理と称する。
例えば,特許文献3には,文章全体の論旨構造を文を単位として木構造表現し,文の接続関係(共範疇的標識)に基づいて前記木構造における部分木構造を分類し,その分類に応じて前記部分木構造のうちの一部の文を削除することによって残った文を重要文として取り出す技術が示されています。
特開平11−272699号公報 特開平11−25091号公報 特開平4−90055号公報
ところで,前記第1の従来処理によれば,特に重要と考えられる頻出単語を含む文が選出されるものの,複数の頻出単語それぞれとともに同じ文中に現れる単語,即ち,それぞれ頻出単語を含む複数の文において共用されている単語であって,頻出度が特に高いとまではいえない単語(以下,共用非頻出単語と称する)が存在する場合,その共用非頻出単語を含む文は選出されない。例えば,それぞれ異なる単語Wa,Wb,Wc,Wdを含む文として,「WaがWbを発生させる。」(文1),「WbとWcとはほぼ同じ意味を表す。」(文2),「WcがWdの触媒となる。」(文3)が存在する場合であって,単語Wa及びWdは頻出単語であるが,単語WbとWcとは頻出単語ではない前記共用非頻出単語である場合を考える。この場合,前記第1の従来処理では,(文1)及び(文3)が重要文として選出されるが,(文2)は選出されない。しかしながら,(文1)及び(文3)を併せただけのものは,頻出単語Wa,Wdそれぞれの意味をつなぐための前記共用頻出単語を含む(文2)が不足している結果,全体として前記文書データの本来の内容を正しく理解できる情報とならない可能性が高い。このため,前記第1の従来処理は,選出した文が断片的な情報を表すものとなり,ユーザが前記文書データの内容を正しく把握するために必要な文を十分に選出できない場合があるという問題点があった。
一方,前記第2の従来処理によれば,前記頻出単語を含む文と前記共用非頻出単語を含む文とが隣接している場合には,その両方が重要文として選出され得る。しかしながら,前記第2の従来処理は,前記頻出単語を含む文と前記共用非頻出単語を含む文とが隣接していなければ,前記第1の従来処理と同様に,ユーザが前記文書データの内容を正しく把握するために必要な文を十分に選出できない場合があるという問題点があった。
また,文には,その文における主題となる単語(「〜は」と表現されるハ格の単語)である提題が欠落しているものや,当該文よりも前に位置する他の文の内容を指示する指示語を含むものがあり,そのような文はそれ単独では可読性に欠ける場合が多い。このため,そのような可読性に欠ける文を重要文として選出する場合,当該文に対して前の位置に隣接する文等も併せて選出することが,頻出単語を含む重要文の可読性を補う上で重要となる。また,重要文として選出する文に対して後の位置に隣接する文が,提題が欠落している文や指示語を含む文である場合,その文も併せて選出することが,頻出単語を含む重要文の可読性を補う上で有効な場合もある。
しかしながら,前記第1の従来処理や前記第2の従来処理は,重要文として選出する文の可読性を向上させるための処理を含んでいない。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,文書データに含まれる複数の文から,文それぞれの重要度の自動計算によって特に重要と考えられる文を選出する際に,ユーザが前記文書データの内容を正しく把握するために極力必要十分な文を選出することができる重要文選出装置及びその処理をコンピュータに実行させるための重要文選出プログラム並びにその処理をコンピュータにより実行する重要文選出方法を提供することにある。
上記目的を達成するために本発明に係る重要文選出装置は,所定の情報入力手段(例えば,キーボードやコンパクトディスク等の情報記憶手段からデータを読み取るデータ読取装置など)を通じて文書データを取得し,その文書データに含まれる複数の文それぞれの重要度を表す数値を自動計算し,その計算結果に基づいて前記文書データに含まれる複数の文から1又は複数の文を選出するものであり,次の(1)〜(6)に示す各構成要素を備えることを特徴とするものである。
(1)前記文それぞれとその文に含まれる1又は複数の単語の集合であって一つのまとまりをなす節それぞれとを対応付けるルートを表す情報である上位リンク,及び前記節それぞれとその節に含まれる前記単語それぞれとを対応付けるルートを表す情報である下位リンクを設定してその設定情報を所定の情報記憶手段(第1メモリ)に記録するリンク設定手段。
(2)予め定められた規則に従って前記上位リンク及び前記下位リンクそれぞれに重み係数を設定してその設定情報を所定の情報記憶手段(第2メモリ)に記録するリンク重み係数設定手段。
(3)前記文書データに含まれる前記単語のうち同じ単語ごとにその重要度を表す数値である単語重要度の初期値を設定してその設定情報を所定の情報記憶手段(第3メモリ)に記録する単語重要度初期値設定手段。なお,前記同じ単語とは,基本形の表現が同じである単語のことを意味する。従って,時制のみが異なる単語「買う」及び「買った」は,ここでいう同じ単語である。
(4)前記第1メモリ乃至前記第3メモリにアクセスしつつ,以下に示す前方伝播処理と後方伝播処理とを順次交互に実行する順次伝播処理実行手段。
ここで,前記前方伝播処理は,前記節ごとにその節に対応する前記下位リンクの前記重み係数とその下位リンクに対応する前記単語の前記単語重要度とに基づいて前記節の重要度を表す数値である節重要度を自動計算して所定の情報記憶手段(第4メモリ)に記録し,さらに前記文ごとにその文に対応する前記上位リンクの前記重み係数とその上位リンクに対応する前記節の前記節重要度とに基づいて前記文の重要度を表す数値である文重要度を自動計算して所定の情報記憶手段(第5メモリ)に記録する処理である。
また,前記後方伝播処理は,前記節ごとにその節に対応する前記上位リンクの前記重み係数とその上位リンクに対応する前記文の前記文重要度とに基づいて前記節の前記節重要度を自動計算して所定の情報記憶手段(第6メモリ)に記録し,さらに前記同じ単語ごとにその単語に対応する前記下位リンクの前記重み係数とその下位リンクに対応する前記節の前記節重要度とに基づいて前記単語重要度を自動計算して所定の情報記憶手段(第7メモリ)に記録する処理である。
(5)前記順次伝播処理実行手段による前記前方伝播処理及び前記後方伝播処理が所定回数(例えば1回)実行されるごとに予め定められた条件(各重要度の計算結果を確定させるタイミングを判別する条件,以下,計算値確定条件という)が成立したか否かを自動判別する計算値確定条件判別手段。
(6)前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別されたときの最新の前記文重要度の記録内容に基づいて1又は複数の前記文を選出し,選出した文の情報を所定の情報出力手段を通じて出力する第1の重要文選出手段。なお,前記情報出力手段は,例えば,表示装置やプリンタ,ハードディスクの情報記憶手段にデータを書き込むデータ書込み装置などである。
また,前記リンク設定手段,前記リンク重み係数設定手段,前記単語重要度初期値設定手段,前記順次伝播処理実行手段,前記計算値確定条件判別手段及び前記第1の重要文選出手段は,所定のプログラムを実行するコンピュータにより実現されることが考えられる。
本発明に係る重要文選出装置では,前記リンク設定手段の処理により,前記単語が多くの前記節に含まれる高頻出の単語である場合,その単語は数多くの前記節との間で前記下位リンクが設定されることになる。このため,前記順次伝播処理実行手段による前記後方伝播処理により,前記単語の頻出度が高いほど,その単語の前記単語重要度の値が,前記下位リンクを通じて数多くの前記節の前記節重要度が集積された値,即ち,より重要性が高い状態を表す値となるよう計算され,さらに,その重要性が高い状態を表す前記単語重要度の値が,前記前方伝播処理により,その単語を含む前記節の前記節重要度や,さらにその節を含む前記文の前記文重要度の値にも反映される。従って,前記順次伝播処理実行手段の処理により,頻出度の高い単語を含む文の前記文重要度の値が,他の文の前記重要度の値よりも重要性が高い状態を表す値へと徐々に変化していくことになる。その結果,前記第1の重要文選出手段により,頻出度の高い前記単語を含む前記文が重要文として優先的に選出される。
また,前記後方伝播処理により,頻出度の高い単語を含む前記文に含まれる他の単語の前記単語重要度の値も,頻出度の高い単語の前記単語重要度の影響を受けた前記節重要度の値が反映される。従って,それぞれ頻出度が高い単語を含む複数の文において共用されている単語であって,頻出度が特に高いとまではいえない前記共用非頻出単語が存在する場合,前記順次伝播処理実行手段の処理により,前記共用非頻出単語の前記単語重要度の値も,重要性が高い状態を表す値へと徐々に変化していくことになる。その結果,前記第1の重要文選出手段により,頻出度の高い前記単語を含む文とともに,前記共用非頻出単語を含む文も重要文として優先的に選出され,ユーザが前記文書データの内容を正しく把握するために極力必要十分な文が選出される。
また,より具体的には,本発明に係る重要文選出装置が,前記文それぞれについて周知の形態素解析処理及び周知の係り受け解析処理を実行し,その処理結果を所定の情報記憶手段(第8メモリ)に記録する構文解析手段をさらに具備することが考えられる。この場合,前記リンク設定手段が,前記第8メモリにアクセスしつつ,前記構文解析手段の処理結果に基づいて前記上位リンク及び前記下位リンクを設定する。
また,本発明に係る重要文選出装置が,前記下位リンクそれぞれについて,その下位リンクに対応する前記節における前記単語の格を自動判別して所定の記憶手段(第9メモリ)に記録する格判別手段をさらに具備することが考えられる。そして,前記リンク重み係数設定手段が,前記下位リンクに対応する前記単語の格(主格,所有格,目的格など)に応じた数値を前記下位リンクそれぞれの前記重み係数として設定することが考えられる。
一般に,文において,主格の単語は,他の格の単語に比べてその文の主な内容を表す主要部分である。また,目的格の単語も,主格以外の単語よりも比較的主要な部分である。このため,主格や目的格の単語と,その単語を含む前記節との間における前記下位リンクの前記重み係数を,他の前記下位リンクの前記重み係数よりも高い重みを表す値に設定することが考えられる。これにより,あまり重要でない格(所有格など)の単語の頻出度が高い場合でも,そのような単語及びそれを含む前記節や前記文の重要度は,前記順次伝播処理によって比較的低い重要性を表す値に抑えられる。その結果,より適切な重要文の選出が行われる。
一方,前記上位リンクについては,前記リンク重み係数設定手段が,予め定められた一の数値をその上位リンクそれぞれの前記重み係数として設定することが考えられる。その他,前記文それぞれについて,その文に含まれる前記節の中から主節を特定し,その主節と前記文との間における前記上位リンクの前記重み係数をその他の前記重み係数よりも高い重みを表す値に設定すること等も考えられる。
また,前記単語重要度初期値設定手段が,予め定められた一の数値を前記単語重要度の初期値として設定する第1の単語重要度初期値設定手段を具備することが考えられる。
その他,本発明に係る重要文選出装置が,前記文書データに含まれる前記単語それぞれの品詞を自動判別してその判別結果を所定の情報記憶手段(第10メモリ)に記録する品詞判別手段を具備することが考えられる。この場合,前記単語重要度初期値設定手段が,前記第10メモリにアクセスしつつ,前記同じ単語ごとにその品詞に応じた数値を前記単語重要度の初期値として設定する第2の単語重要度初期値設定手段を具備すれば好適である。
一般に,文において,品詞が名詞や動詞である単語は,その他の単語(例えば,品詞が形容詞や副詞である単語)に比べ,その文の主要な内容を表すことが多い。このため,品詞が名詞や動詞である単語の前記単語重要度の初期値を,他の前記単語重要度の初期値よりも高い重要性を表す値に設定すれば,より適切な重要文の選出が行われる。
一方,ユーザがキーワードを指定し,そのキーワードに関する重要文を選出したいというニーズがある。
この場合,本発明に係る重要文選出装置が,所定の情報入力手段(キーボードや情報受信を行う通信手段など)を通じてキーワードを入力するキーワード入力手段を具備し,前記単語重要度初期値設定手段が,前記キーワード入力手段により前記キーワードが入力された場合に,前記同じ単語ごとにその単語と前記キーワードとの一致度合いに基づいて前記単語重要度の初期値を設定する第3の単語重要度初期値設定手段を具備することが考えられる。
これにより,入力された前記キーワードとの一致度合いが高い単語の前記単語重要度の値として,他の前記単語重要度よりも高い重要性を表す値が設定される。その結果,前記キーワードを含む文や,同じ文の中で前記キーワードとともに現れる前記共用非頻出単語を含む文が優先して重要文として選出される。
以上の他,前記単語重要度の初期値は,前記文書データにおける前記単語(同じ単語)それぞれの出現頻度に基づいて設定することや,予め重要な単語の集合(重要語リスト)が設定され,前記文書データに含まれる前記単語それぞれについて,前記重要語リストに含まれる単語と一致する場合に他よりも高い重要性を表す前記単語重要度を設定すること,或いは予め重要でない単語の集合(非重要語リスト)が設定され,前記文書データに含まれる前記単語それぞれについて,前記非重要語リストに含まれる単語と一致する場合に他よりも低い重要性を表す前記単語重要度を設定すること等も考えられる。
また,より具体的な前記計算値確定条件(安定条件ともいえる)としては,例えば,前記文重要度,前記節重要度及び前記単語重要度のうちの1又は複数の総変化量(変化量の合計や平均など)が所定のしきい値以下となる条件が考えられる。ここで,「1又は複数」としているのは,前記順次伝播処理実行手段の処理において,前記文重要度,前記節重要度及び前記単語重要度のうちのいずれかが安定すれば,自ずとそれら全てが安定すると考えられるからである。
また,他の前記計算値確定条件としては,前記前方伝播処理及び前記後方伝播処理が所定回数実行されるごとに,前記文重要度,前記節重要度又は前記単語重要度のいずれかについて,その中で最も高い重要性を表すものから順に予め定められた数だけ選択した場合に,その選択したもに対応する前記文,前記節又は前記単語の集合が,所定回数以上連続して同じ集合となったという条件や,前記前方伝播処理及び前記後方伝播処理が予め定められた回数や時間以上実行されたという条件なども考えられる。
また,前記第1の重要文選出手段は,前記文重要度がより高い(より高い重要性を表す値である)文を優先して選出するものであるが,その選出範囲の基準は種々考えられる。
例えば,前記第1の重要文選出手段が,前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別されたときの最新の前記文重要度が高いものから予め設定された数だけ前記文を選出することが考えられる。これにより,指定された数だけ重要文が選出される。その他,前記第1の需要文選出手段が,最も高い前記文重要度を基準とし,その基準に対して前記文重要度が所定範囲内にある前記文を選出することなども考えられる。
ところで,重要文選出の際にユーザが指定したい事項としては,前記キーワード(単語の表現そのもの)の他,単語の意味カテゴリや時制(過去,現在又は未来)なども考えられる。ここで,単語と意味カテゴリとが対応付けられた情報は,一般に概念辞書情報(或いは概念辞書)とよばれ周知である。
例えば,ユーザが,「知事が過去に行った行為」に関する重要文の選出を望む場合,前記キーワードとして「知事」,「過去」,「行為」などを指定しても,ユーザが望む重要文が選出されない。この場合,前記キーワード「知事」(単語そのもの),意味カテゴリ「行為」と対応付けられた単語,及び時制が「過去」である単語(動詞)を含む文を重要文として選出できることが望まれる。もちろん,前記キーワードを指定せずに,意味カテゴリのみ,或いは意味カテゴリと時制のみを指定したい場合も考えられる。
また,前記文には,複数の前記節及びその節に属する複数の単語が含まれるが,その中でも特に主節に属する単語の意味カテゴリや時制が,その主節を含む文の主な意味カテゴリや時制を表すことが一般的である。
そこで,ユーザが少なくとも意味カテゴリを指定できるよう,本発明に係る重要文選出装置が,さらに次の(7)〜(10)に示す各構成要素を備えていればなお好適である。
(7)所定の情報入力手段を通じて単語の意味カテゴリを含む情報である文選出指標情報を入力する文選出指標情報入力手段。
(8)前記文それぞれについて該文に含まれる前記節のうち主節を特定してその特定結果を所定の情報記憶手段(第11メモリ)に記録する主節特定手段。
(9)複数の単語とその単語それぞれの意味カテゴリとが対応付けられた概念辞書情報を所定の情報記憶手段(第12メモリ)から読み出し,該概念辞書情報に基づいて前記主節に含まれる前記単語の意味カテゴリを自動判別する意味カテゴリ判別手段。
(10)前記第5メモリ及び前記第11メモリにアクセスしつつ,前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別されたときの最新の前記文重要度の記録内容を,前記文それぞれに含まれる前記主節について前記意味カテゴリ判別手段により判別された意味カテゴリと前記文選出指標情報入力手段により入力された意味カテゴリとの一致判別の結果に基づいて自動修正する文重要度修正手段。
この場合,前記第1の重要文選出手段は,前記文重要度修正手段により修正された前記重要度に基づいて1又は複数の前記文を選出する。
本発明に係る重要文選出装置が,ここに示した構成をさらに備えれば,ユーザにより意味カテゴリが指定された場合に,その意味カテゴリに対応する単語(前記主節に含まれる単語)を含む文の前記文重要度をより高くなる(より高い重要性を表す値となる)よう,或いはより低くなるよう修正することができる。なお,指定した意味カテゴリに対応する単語を含む文を重要文から除外する旨の指定がなされた場合に,前記文重要度を低くする修正を行えばよい。
また,ユーザがさらに時制を指定できるよう,本発明に係る重要文選出装置が,前記主節それぞれについてその主節に含まれる品詞が動詞である前記単語の時制を自動判別してその判別結果を所定の情報記憶手段(第13メモリ)に記録する時制判別手段をさらに具備することが考えられる。この場合,前記文選出指標情報に単語の時制の情報が含まれ,前記文重要度修正手段が,前記第13メモリにもアクセスしつつ,前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別されたときの最新の前記文重要度の記録内容を,前記文それぞれに含まれる前記主節について前記時制判別手段により判別された前記単語の時制と前記文選出指標情報入力手段により入力された時制との一致判別の結果と前記意味カテゴリの一致判別の結果とに基づいて自動修正する。
以上より,本発明に係る重要文選出装置は,ユーザにより指定された意味カテゴリや時制に対応する単語を含む文を優先的に(或いは非優先的に)重要文として選出することができる。
また,選出された文の可読性を高めるため,本発明に係る重要文選出装置が,さらに次の(11)及び(12)に示す各構成要素を備えていればなお好適である。
(11)前記文について指示語を表す前記単語が含まれること及び提題を表す前記単語が含まれないことのうちの少なくとも一方を含む遡及条件が成立するか否かを自動判別する遡及条件判別手段。
(12)前記第1の重要文選出手段により選出された前記文のうち,前記重要度に基づく重要性が相対的に高い前記文である第1重要文とそれより前記重要性が相対的に低い前記文である第2重要文とに関し,前記第1重要文について前記遡及条件判別手段により前記遡及条件が成立したと判別された場合に,その第1重要文と少なくともその第1重要文を基準に前記文書データ内において1つ前に位置する(前方に隣接する)前記文である前方隣接文とを,前記第2重要文よりも優先して選出し,選出した文の情報を所定の情報出力手段を通じて出力する第2の重要文選出手段。
これにより,前記第1の重要文選出手段により選出された文(重要文)に,提題(「〜は」というハ格となる単語)が欠落している文や,当該文よりも前に位置する他の文の内容を指示する指示語を含む文,即ち,可読性に欠ける文が存在する場合,前記第2の重要文選出手段が,その可読性に欠ける文に対して前の位置に隣接する文も併せて(優先的に)選出する。その結果,前記第1の重要文選出手段により選出された文の可読性が補われる。
また,本発明に係る重要文選出装置が,上記(11)及び(12)に示す構成要素に加え,さらに次の(13)に示す構成要素を備えることも考えられる。
(13)前記第1重要文と前記第2重要文とに関し,前記第1重要文を基準に前記文書データ内において1つ後に位置する前記文である後方隣接文について前記遡及条件判別手段により前記遡及条件が成立したと判別された場合に,少なくともその後方隣接文と前記第1重要文とを,前記第2重要文よりも優先して選出し,選出した文の情報を所定の情報出力手段を通じて出力する第3の重要文選出手段。
この第3の重要文選出手段は,前記第1の重要文選出手段により選出された文(重要文)に対して後の位置に隣接する文が,提題が欠落している文や指示語を含む文である場合,その文も併せて(優先して)選出する。その結果,前記第1の重要文選出手段により選出された文の可読性が補われる。
より具体的には,本発明に係る重要文選出手段が,前記第1の重要文選出手段により選出された前記文について,前記重要性が高いものから順に前記遡及条件判別手段による判別対象とする前記第1重要文を特定する(「選択する」ということもできる)遡及条件判別対象特定手段をさらに具備することが考えられる。
この場合,前記第2の重要文選出手段が,前記遡及条件判別対象特定手段により前記第1重要文が特定されるごとに,前記遡及条件判別手段による判別結果に基づいて,より優先するものから順に予め設定された数以下に収まる範囲で前記文を選出する。
同様に,前記第3の重要文選出手段が,前記遡及条件判別対象特定手段により前記第1重要文が特定されるごとに,前記遡及条件判別手段による判別結果に基づいて,より優先するものから順に予め設定された数以下に収まる範囲で前記文を選出する。
これにより,前記第2の重要文選出手段や前記第3の重要文選出手段が予め設定された数の文(重要文)を選出するまで,前記文重要度の高いものから順に前記遡及条件の判別処理が行われる。その結果,無駄のない効率的な処理となる。
また,前記重み係数と前記順次伝播処理実行手段の具体例としては,以下の例が考えられる。
まず,前記リンク重み係数設定手段が,0以上1未満の範囲内で前記下位リンク及び前記上位リンクそれぞれに重み係数を設定する。
そして,前記順次伝播処理実行手段が,以下の計算を実行する。
即ち,前記前方伝播処理において前記節ごとにその節に対応する前記下位リンクそれぞれの前記重み係数とその下位リンクそれぞれに対応する前記単語の前記単語重要度との積和演算により前記節重要度を計算する。
また,前記前方伝播処理において前記文ごとにその文に対応する前記上位リンクそれぞれの前記重み係数とその上位リンクそれぞれに対応する前記節の前記節重要度との積和演算により前記文重要度を計算する。
さらに,前記後方伝播処理において前記節ごとにその節に対応する前記上位リンクそれぞれの前記重み係数とその上位リンクそれぞれに対応する前記文の前記文重要度との積和演算により前記節重要度を計算する。
さらに,前記後方伝播処理において前記単語ごとにその単語に対応する前記下位リンクそれぞれの前記重み係数とその下位リンクそれぞれに対応する前記節の前記節重要度との積和演算により前記単語重要度を計算する。
これにより,前記単語の頻出度が高いほど,その単語の前記単語重要度の値が,前記下位リンクを通じて数多くの前記節の前記節重要度が加算(和)された大きな値,即ち,より重要性が高い状態を表す値となるよう計算される。さらに,その重要性が高い状態を表す前記単語重要度の値が,前記前方伝播処理により,その単語を含む前記節の前記節重要度や,さらにその節を含む前記文の前記文重要度の値にも反映される。また,前記順次伝播処理実行手段の処理において,重要度の高い前記単語,前記節及び前記文に対し,前記下位リンク又は前記上位リンクを経る都度,前記単語,前記節及び前記文の重要度が,前記重み係数(0より大,1未満)の乗算(積)によって小さくなる(減衰する)。このため,前記単語,前記節及び前記文の中で,頻出単語(重要度の高い単語)に対して前記下位リンク又は前記上位リンクを経る数が少ないもの,即ち,頻出単語との関係が近いものについて,その重要度が高くなるよう計算される。また,相互の対応関係が希薄な単語,節及び文に対応する前記下位リンク又は前記上位リンクの前記重み係数を0に設定することにより,実質的にそれらの対応関係を無視できる。
また,前記前方伝播処理及び前記後方伝播処理において,各重要度(前記単語重要度,前記節重要度及び前記文重要度)の計算結果が,収束方向(安定方向)に向かわない状態に陥る場合が生じ得る。
そこで,本発明に係る重要文選出装置が,前記単語重要度それぞれの値の制限に用いる重要度制限係数を設定してその設定情報を所定の情報記憶手段(第14メモリ)に記録する重要度制限係数設定手段をすることが考えられる。この場合,前記順次伝播処理実行手段が,前記第14メモリにおける前記重要度制限係数に基づいて前記単語重要度の計算結果を制限する。
これにより,前記前方伝播処理及び前記後方伝播処理において,前記単語重要度の計算結果が収束方向に向かうよう重要度の計算結果が調整される。
なお,前記節や前記文についても同様に,前記重要度制限係数の設定とそれに基づく重要度の計算結果の制限とを行うことも考えられる。
また,本発明は,以上に示した本発明に係る重要文選出装置が実行する処理(手順といってもよい)をコンピュータに実行させるための重要文選出プログラムとして実現されることも考えられる。
同様に,本発明は,以上に示した本発明に係る重要文選出装置が実行する処理をコンピュータによって実行する重要文選出方法として捉えることもできる。
本発明によれば,文書データに含まれる複数の文から,文それぞれの重要度の自動計算によって特に重要と考えられる文を選出する際に,ユーザが前記文書データの内容を正しく把握するために極力必要十分な文を選出することができる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施形態に係る重要文選出装置X(コンピュータ)の概略構成を表すブロック図,図2は重要文選出装置Xによる重要文選出処理の手順を表すフローチャート,図3は重要文選出装置Xによる重要文選出処理の一部である重要文リストB選出・出力処理の手順を表すフローチャート,図4は文書データの構文解析処理のプロセス及び処理結果の一例を表す図,図5は重要文選出装置Xが生成するノード情報及びリンク情報のデータ構成を表す図,図6は重要文選出装置Xが生成するノード情報及びリンク情報により特定されるノードネットワークの概念図である。
<装置概要>
まず,図1を参照しつつ,本発明の実施形態に係る重要文選出装置Xの構成について説明する。
前記重要文選出装置Xは,文書データD0に含まれる複数の文それぞれの重要度を表す数値を自動計算し,その計算結果に基づいて前記文書データに含まれる複数の文から1又は複数の文を選出する処理を実行するコンピュータであり,そのコンピュータが所定の重要文選出プログラム10を実行することによって重要文選出装置として機能する。即ち,前記重要文選出プログラム10は,コンピュータを重要文選出装置Xとして機能させるためのプログラムである。
重要文選出装置Xは,磁気ディスク等の2次記憶媒体を有する大容量の記憶手段である前記データ記憶部7を備えたパーソナルコンピュータ等のコンピュータである。
前記重要文選出装置Xは,CPU1,RAM2,ROM3,入力装置4,表示装置5及びデータ記憶部7を備え,それらがバス8により接続されている。
前記CPU1は,各種プログラムを実行することにより各種の演算処理を行う演算装置である。前記RAM2は,前記CPU1により実行されるプログラムや一時記憶データが展開される高速メモリである。前記ROM3は,前記CPU1により実行されるBIOS等のプログラムが予め記憶された不揮発性メモリである。前記入力装置4は,キーボードやマウス等を備えた情報入力手段である。前記表示装置5は,前記CPU1による演算結果等の各種情報を映像として出力する液晶表示パネルやCRT等である。前記データ記憶部7は,前記CPU1により実行或いは参照される前記重要文選出プログラム10や各種情報が記憶されるハードディスク等の情報記憶手段である。
このデータ記憶部7に記憶(記録)される情報には,文書データD0,構文解析結果情報D1,単語ノード情報D2,節ノード情報D3,文ノード情報D4,リンク情報D5,単語辞書情報D6及び概念辞書情報D7などが含まれる。これらの詳細については後述する。
なお,前記データ記憶部7には,当該重要文選出装置X(コンピュータ)を構成する各ハードウェアと前記重要文選出プログラム10を含む各種アプリケーションプログラムとの間の中継処理を行うOS(オペレーションシステム)及びファイルシステムのプログラムも記憶されている(不図示)。
次に,図2に示されるフローチャートを参照しつつ,前記重要文選出装置XのCPU1が前記重要文選出プログラム10を実行することによって実現される重要文選出処理の手順について説明する。なお,以下に示すS1,S2,…は,前記CPU1が実行する処理の手順(ステップ)の識別符号を表す。また,以下に示す手順はあくまで一例であり,本発明の実施形態を限定するものではない。
<ステップS1,S2>
まず,前記CPU1は,前記文書データD0について,周知の形態素解析処理及び周知の係り受け解析処理を行う構文解析処理を実行し,その解析結果を前記データ記憶部7に記録する(S1,S2)。
より具体的には,まず,前記CPU1は,前記文書データD0を前記データ記憶部7から読み出しつつ,その文書データに含まれる複数の文(句点で区切られた文字列)それぞれについて,周知の形態素解析処理を実行し,その解析結果を前記データ記憶部7に記録する(S1)。これにより,前記文書データD0に含まれる複数の文それぞれが単語ごとに区分され,その結果がデータ記憶部7に記録される。
さらに,前記CPU1は,ステップS1での形態素解析処理の結果をデータ記憶部7から読み出しつつ,周知の係り受け解析処理を実行し,その解析結果を表す前記構文解析結果情報D1をデータ記憶部7に記録する(S2)。これにより,前記文書データD0に含まれる文それぞれについて,形態素解析処理により区分された複数の単語が,一つのまとまりをなす1又は複数の単語の集合である節ごとにグループ化(区分)される。
なお,前記データ記憶部7には,複数の単語及びその単語それぞれに関する各種情報(品詞,格など)が関連付けられた前記単語辞書情報D6が予め記憶されており,前記CPU1は,その単語辞書情報D6を参照しつつ前記構文解析処理を実行する。
図4は,前記文書データD0についての前記構文解析処理(特に,前記係り受け解析処理S2)のプロセス及び処理結果の一例を表す図である。
例えば,「本を買った店は有名だ。」という文について前記係り受け解析処理が実行された場合について説明する。
この場合,前記CPU1は,前記単語辞書情報D6の参照により品詞が動詞である単語「だ」を特定し,この動詞「だ」を含む深さd34が第0層の節(即ち,主節)「有名だ」を特定する。さらに,前記CPU1は,前記単語辞書情報D6の参照により品詞が動詞である単語「買った」を特定し,この動詞「買った」を含む深さd34が第2層の節「本を買った」を特定する。
このように,前記CPU1は,前記係り受け解析処理を実行することにより,前記文書データD0に含まれる文それぞれについて,その文に含まれる節のその文中における階層の深さd34を判別し,その判別結果を前記データ記憶部7に記録する。この深さd34は,その値(内容)が0層であるか否かにより,その節が主節であるか否かを特定する情報であるため,前記CPU1は,各文に含まれる節のうち主節を特定してその特定結果をデータ記憶部7に記録するものであるといえる(前記主節特定手段の一例)。
さらに,前記CPU1は,ステップS2において,前記単語辞書情報D6の参照により,前記文書データD0に含まれる単語それぞれの品詞d25と,品詞が動詞である単語それぞれの時制d36とを自動判別し,その判別結果を前記データ記憶部7に記録する(前記品詞判別手段及び前記時制判別手段の一例)。
また,前記CPU1は,前記係り受け解析処理を実行して前記単語辞書情報D6を参照することにより,品詞d25が名詞である単語とその単語に付加されている助詞の単語とを特定し,さらに,その組み合わせに基づいて単語の格d55(ハ格,ガ格,ヲ格など)を特定し,その特定結果を前記データ記憶部7に記録する。この単語の格d55は,後述する下位リンクd50aそれぞれについて設定される(図5参照)。即ち,前記CPU1は,前記下位リンクそれぞれについて,その下位リンクに対応する前記節における前記単語の格を自動判別する前記格判別手段の一例である。なお,図4における「ハ格」,「ガ格」及び「ヲ格」は,それぞれ「未格」,「主格」及び「目的格」と同義である。
前記CPU1は,前記構文解析の結果を前記構文解析結果情報D1として前記データ記憶部7に記録する。図4に示す前記構文解析結果情報D1は,前記節ごとに1つのレコードである節データが構成され,その節データそれぞれが,その節を含む文の識別子d41である文番号,その節の深さd34,その節に含まれる単語,及び品詞が動詞である単語の時制d36を含んでいる。また,その単語は,その品詞d25及び格d55に応じて分類されている。なお,前記構文解析結果情報D1において,そこに含められる各単語は基本形で表現されたもの(見出し語表現)である。例えば,品詞が動詞である単語については,その時制が現在である場合の表現で表される。前記CPU1は,前記単語辞書情報D6に基づいて,単語の見出し語表現を特定する。
<ステップS3>
さらに,前記CPU1は,前記構文解析処理によって区分された単語(前記文書データD0に含まれる単語)それぞれについて,その意味カテゴリを判別し,その判別結果を前記構文解析結果情報D1に含めて前記データ記憶部7に記録する(図4参照)。
ここで,前記CPU1は,複数の単語とその単語それぞれの意味カテゴリとが対応付けられた前記概念辞書情報D7を前記データ記憶部D7から読み出し,その概念辞書情報D7に基づいて,前記節に含まれる単語それぞれの意味カテゴリを自動判別する(前記意味カテゴリ判別手段の一例)。
<ステップS4>
次に,前記CPU1は,以下に示すリンク設定処理を実行する(S4,前記リンク設定手段の一例)。このリンク設定処理は,前記文書データD0に含まれる文それぞれと,その文に含まれる1又は複数の前記節それぞれとを対応付けるルートを表す情報である上位リンクd50b(図6参照)と,前記節それぞれとその節に含まれる前記単語(その基本形(前記見出し語表現)が同じ単語)それぞれとを対応付けるルートを表す情報である下位リンクd50a(図6参照)とを設定し,その設定情報を前記データ記憶部7に記録する処理である。ここで,前記CPU1は,ステップS1〜S3の処理によって得られた前記構文解析結果情報D1(形態素解析処理及び係り受け解析処理の結果)に基づいて前記リンク設定処理を実行する。なお,これ以降において,前記下位リンクd50a及び前記上位リンクd50bを総称して単にリンクd50と称する。
このリンク設定処理において,前記CPU1は,前記単語ノード情報D2,前記節ノード情報D3,前記文ノード情報D4と,前記リンク情報D5とを生成し,これらを前記データ記憶部7に記録する。
図5は,ステップS4の処理により生成及び記録される各ノード情報D2〜D4及び前記リンク情報D5のデータ構成を表す図である。
前記単語ノード情報D2は,ステップS1で区分された単語に関する情報であり,前記文書データD0に含まれる単語のうちその基本形の表現が同じ単語(前記見出し語表現が同じである単語)ごとに設定された(割り当てられた)データである単語ノードd20の集合体である。
また,前記単語ノードd20は,それぞれ次の(1)〜(6)に示す複数の属性情報を保有するデータである。
(1)当該単語ノードd20の識別情報である識別子d21。
(2)当該単語ノードd20の重要度を表す数値情報であるATTENTION値d22。以下,ATTENTION値は,AT値と省略して記載する。
(3)当該単語ノードd20の前記AT値d22のとり得る範囲の制限やその初期値設定に用いられる数値情報であるFACT値d23。
(4)当該単語ノードd20に対応する単語の前記見出し語表現d24。
(5)当該単語ノードd20に対応する単語の品詞d25。
(6)当該単語ノードd20に対応する単語の意味カテゴリd26。
そして,前記CPU1は,ステップS4のリンク設定処理において,前記単語ノードd20の属性情報のうち,前記識別子d21,前記見出し語表現d24,前記品詞d25及び前記意味カテゴリd26についてその内容(値)を設定し,前記データ記憶部7に記録する。ここで,前記CPU1は,前記構文解析結果情報D1を参照することにより,前記見出し語表現d24,前記品詞d25及び前記意味カテゴリd26の内容(値)を特定する。
また,前記節ノード情報D3は,ステップS2で区分された前記節に関する情報であり,前記文書データD0に含まれる前記節ごとに設定された(割り当てられた)データである節ノードd30の集合体である。
また,前記節ノードd30は,それぞれ次の(1)〜(6)に示す複数の属性情報を保有するデータである。
(1)当該節ノードd30の識別情報である識別子d31。
(2)当該節ノードd30の重要度を表す数値情報であるAT値d32。
(3)当該節ノードd30の前記AT値d32のとり得る範囲の制限に用いられる数値情報であるFACT値d33。
(4)当該節ノードd30に対応する節の,その節を含む文中における階層の深さd34。
(5)当該節ノードd30に相当する前記節に指示語(単語)が含まれるか否かを表す情報である指示語有無フラグd35。
(6)当該節ノードd30に対応する節に含まれる単語(動詞)の時制d36(現在,過去又は未来)。
(7)当該節ノードd30に相当する前記節に提題を表す単語が含まれるか否かを表す情報である提題有無フラグd37。
そして,前記CPU1は,ステップS4のリンク設定処理において,前記節ノードd30の属性情報のうち,前記識別子d31,前記深さd34,前記指示語有無フラグd35及び前記時制d36についてその内容(値)を設定し,前記データ記憶部7に記録する。ここで,前記CPU1は,前記構文解析結果情報D1を参照することにより,前記深さd34及び前記時制d36の内容(値)を特定する。また,前記CPU1は,前記構文解析結果情報D1に含まれる節それぞれについて,その節に属する単語に「これ」,「それ」,「あれ」,「どれ」などの指示語が含まれているか否かを判別し,その判別結果を前記指示語有無フラグd35として設定する。また,前記CPU1は,前記構文解析結果情報D1に含まれる節それぞれについて,その節に属する単語に前記格d55が「ハ格」である単語が含まれるか否かを判別し,その判別結果に応じて前記提題有無フラグd37を設定する。即ち,「ハ格」である単語が含まれる場合に提題が存在する旨を表す情報を,そうでない場合に提題が存在しない旨の情報を前記提題有無フラグd37に設定する。
また,前記文ノード情報D4は,前記文書データD0に含まれる文に関する情報であり,その文ごとに設定された(割り当てられた)データである文ノードd40の集合体である。
また,前記文ノードd40は,それぞれ次の(1)〜(4)に示す複数の属性情報を保有するデータである。
(1)当該文ノードd40の識別情報である識別子d41。
(2)当該文ノードd40の重要度を表す数値情報であるAT値d42。
(3)当該節ノードd40の前記AT値d42のとり得る範囲の制限に用いられる数値情報であるFACT値d43。
(4)当該文ノードd40に対応する文の出典d44。この出典d44は,当該文ノードd40に対応する文を含む文書名またはその文書の識別情報である。
そして,前記CPU1は,ステップS4のリンク設定処理において,前記文ノードd40の属性情報のうち,前記識別子d41及び前記出典d44についてその内容(値)を設定し,前記データ記憶部7に記録する。ここで,前記CPU1は,前記構文解析結果情報D1を参照することによって前記識別子d41(文番号)の内容(値)を特定する。また,前記文書データD0において,複数の文ごとにその出典情報が設定されており,前記CPU1は,前記文書データD0を参照することにより,前記出典d44の内容を特定する。
また,前記リンク情報D5は,前記リンクd50(前記下位リンクd50a及び前記上位リンクd50b)の集合体である。ここで,前記リンクd50は,単語と前記節との従属関係,及び前記節と前記文との従属関係を表す情報であるが,実際には,前記リンクd50は,同じ単語ごとに割り当てられるデータである単語ノードd20と,前記節ごとに割り当てられるデータである節ノードd30とを対応付ける内容を有するデータ,及び文ごとに割り当てられるデータである文ノードd40と前記節ノードd30とを対応付ける内容を有するデータである。
前記リンクd50は,それぞれ次の(1)〜(5)に示す複数の属性情報を保有するデータである。
(1)当該リンクd50の識別情報である識別子d51。
(2)当該リンクd50に対応する上位側のノードの識別子(前記節ノードの識別子d31又は前記文ノードの識別子d41)が設定される上位ノード識別子d52。
(3)当該リンクd50に対応する下位側のノードの識別子(前記節ノードの識別子d31又は前記単語ノードの識別子d21)が設定される下位ノード識別子d53。
(4)当該リンクd50に対応する上位側ノードと下位側ノードとの間における相互に影響しあう程度の強さを表す数値である重み係数d54。
(5)当該リンクd50に対応する下位側ノードが前記単語ノードd20である場合のその単語ノードd20に相当する単語の格d55。
そして,前記CPU1は,ステップS4のリンク設定処理において,前記リンクd50の属性情報のうち,前記識別子d51,前記上位ノード識別子d52,前記下位ノード識別子d53及び前記単語の格d55についてその内容(値)を設定し,前記データ記憶部7に記録する。ここで,前記CPU1は,前記構文解析結果情報D1に基づいて上位側ノードと下位側ノードとの従属関係を判別し,その判別結果と各ノード情報D2〜D4において設定した前記識別子d21,d31,d41とに基づいて,前記上位ノード識別子d52及び前記下位ノード識別子d53の内容(値)を特定する。また,前記CPU1は,前記構文解析結果情報D1を参照することによって前記単語の格d55の内容(値)を特定する。
なお,前記上位ノード識別子d52及び前記下位ノード識別子d53のそれぞれに前記節ノードの識別子d31及び前記単語ノードの識別子d21が設定された前記ノードd50が,前記下位リンクd50aである。同様に,前記上位ノード識別子d52及び前記下位ノード識別子d53のそれぞれに前記文ノードの識別子d41及び前記節ノードの識別子d31が設定された前記リンクd50が,前記上位リンクd50bである。
図6は,前記単語ノード情報D2,前記節ノード情報D3,前記文ノード情報D4及び前記リンク情報D5により特定されるノード間の対応関係を表すネットワーク(以下,ノードネットワークという)の概念図である。
図6に示すように,各ノード情報D2〜D4及び前記リンク情報D5により,下位層の前記単語ノードd20と中間層の前記節ノードd30とが前記下位リンクd50aにより接続され,前記中間層の前記節ノードd30と上位層の前記文ノードd40とが前記上位リンクd50bにより接続された3階層のネットワークが特定される。
そして,後述する前方伝播処理により,前記単語ノードd20の前記AT値d22(単語重要度)に基づき前記節ノードd30の前記AT値d32が計算され,その節ノードd30の前記AT値d32に基づき前記文ノードd40の前記AT値d42が計算される。また,後述する後方伝播処理により,前記文ノードd40の前記AT値d42に基づき前記節ノードd30の前記AT値d32が計算(更新)され,その節ノードd30の前記AT値d32に基づき前記単語ノードd20の前記AT値d22が計算(更新)される。その現象は,概念的に,下位側ノードから上位側ノードへ,或いは上位側ノードから下位側ノードへ重要度(前記AT値)が伝播する現象であると捉え得る。
<ステップS5>
次に,前記CPU1は,予め定められた規則に従って前記リンクd50(前記下位リンクd50a及び前記上位リンクd50b)それぞれの前記重み係数d54を設定し,その設定情報である前記リンク情報D5を前記データ記憶部7に記録する(S5,前記リンク重み係数設定手段の一例)。なお,前記下位リンクd50a及び前記上位リンクd50bそれぞれの前記重み係数d54は,0以上1未満の範囲内で設定される。
例えば,前記CPU1は,前記下位リンクd50aにおける前記単語の格d55(当該下位リンクd50aの前記下位ノード識別子d53に相当する単語の格(主格,所有格,目的格など))に応じた数値を,前記下位リンクd50aそれぞれの前記重み係数d54として設定する。より具体的には,前記CPU1は,前記下位リンクd50aの前記重み係数d54を,前記単語の格d55が「主格」であれば「0.9」,同「目的格」であれば「0.5」,その他であれば「0.1」などに設定する。
一般に,文において,主格の単語は,他の格の単語に比べてその文の主な内容を表す主要部分である。また,目的格の単語も,主格以外の単語よりも比較的主要な部分である。このため,上記例のように,主格や目的格の単語と,その単語を含む前記節との間における前記下位リンクd50aの前記重み係数d54を,他の前記下位リンクd50aのそれよりも高い重みを表す値に設定することが考えられる。
一方,前記CPU1は,前記上位リンクd50bについては,例えば予め定められた一の数値(例えば,0.9など)を前記重み係数d54として設定する。
以上に示した他,前記CPU1が,主節に対応する前記節ノードd30(即ち,前記深さd34が0であるもの)と前記文ノードd40とを対応付ける前記上位リンクd50bの前記重み係数d54を,その他の前記重み係数d54よりも高い値に設定すること等も考えられる。
もちろん,すべての前記リンクd50について,前記重み係数d54を同じ値に設定することも考えられる。
<ステップS6>
次に,前記CPU1は,ユーザにより操作される前記入力装置4(情報入力手段の一例)を通じて,キーワードと,文選出指標情報とを入力する処理を実行する(S6,前記キーワード入力手段及び前記文選出指標情報入力手段の一例)。ここで,前記文選出指標情報には,単語の意味カテゴリと,品詞が動詞である単語の時制の情報とが含まれる。このステップS6での入力情報は,前記データ記憶部7に記録される。また,このステップS6において,前記キーワード及び前記文選出指標情報の一方又は両方が入力されない場合もある。
なお,前記キーワード及び前記文選出指標情報が,通信により情報を入力する通信機器(前記情報入力手段の一例)などを通じて入力されることも考えられる。
<ステップS7>
次に,前記CPU1は,前記単語ノードd20それぞれについて(即ち,前記文書データD0に含まれる前記単語のうち同じ単語ごとに),前記AT値d22(前記単語重要度に相当)の初期値を設定し,その設定情報(前記単語ノード情報D2)を前記データ記憶部7に記録する(S7,前記単語重要度初期値設定手段の一例)。
このステップS7において,前記CPU1は,ステップS6において前記キーワードが入力されなかった場合,前記単語ノードd20それぞれの前記AT値d22に(同じ単語ごとに),予め定められた一の数値を初期値として設定する(第1の単語重要度初期値設定手段の一例)。
その他,ステップS6において前記キーワードが入力されなかった場合,前記CPU1が,前記単語ノードd20それぞれの前記AT値d22に(同じ単語ごとに),その単語ノードd20の前記品詞d25に応じた数値を初期値として設定することも考えられる(前期第2の単語重要度初期値設定手段の一例)。
一般に,文において,品詞が名詞や動詞である単語は,その他の単語(例えば,品詞が形容詞や副詞である単語)に比べ,その文の主要な内容を表すことが多い。このため,前記品詞d25が名詞や動詞である前記単語ノードd20における前記AT値d22の初期値を,他の前記単語ノードd20の前記AT値d22初期値よりも高い値に設定することが考えられる。
一方,このステップS7において,前記CPU1は,ステップS6において前記キーワードが入力された場合,前記単語ノードd20それぞれについて(同じ単語ごとに),その単語(ここでは,前記見出し語表現d24)と前記キーワードとの一致度合いに基づいて前記AT値d22(前記単語重要度に相当)の初期値を設定する(前記第3の単語重要度初期値設定手段の一例)。
例えば,前記キーワードが「鉄鋼」である場合,前記見出し語表現d24が「鉄」であれば,単語の50%が重複(一致)しているので前記AT値d22の初期値を0.5と設定し,前記見出し語表現d24が「鉄鉱石」であれば,単語の33%が重複(一致)しているので前記AT値d22の初期値を0.33と設定すること等が考えられる。
<ステップS8>
次に,前記CPU1は,前記単語ノードd20それぞれについて(同じ単語ごとに),その重要度を表す前記AT値d22の値の制限に用いる数値パラメータである前記FACT値d23(前記重要度制限係数の一例)を設定し,その設定情報(前記単語ノード情報D2)を前記データ記憶部7に記録する(S8,前記重要度制限係数設定手段の一例)。
例えば,前記CPU1が,このステップS8において,前記FACT値d23を前記AT値d22の初期値と同様のアルゴリズムで設定することや,前記AT値d22の初期値と同じ値に設定すること等が考えられる。
また,前記CPU1が,前記節ノードd30や前記文ノードd40それぞれについても,その重要度を表す前記AT値d32,d42の値の制限に用いる数値パラメータである前記FACT値d33,d43を設定し,その設定情報(前記節ノード情報D3及び前記文ノード情報D4)を前記データ記憶部7に記録することも考えられる。
前記節ノードd30の前記FACT値d33及び前記文ノードd40の前記FACT値d43の設定ルールとしては,例えば,最初の前記前方伝播処理(S9,S10)によって算出された前記AT値d32,d42を設定することや,或いは予め定められた数値を設定すること等が考えられる。
<ステップS9〜S12>
次に,前記CPU1は,予め定められた計算値確定条件が成立するまで,以下に示す前方伝播処理(S9,S10)と後方伝播処理(S11,S12)とを順次交互に実行する(前記順次伝播処理実行手段の一例)。
ここで,前記前方伝播処理は,次のステップS9及びS10の処理である。
前記CPU1は,ステップS9において,前記節ノードd30ごとに,その節ノードd30に対応する前記下位リンクd50aの前記重み係数d54と,その下位リンクd50aに対応する前記単語ノードd20の前記AT値d43(前記単語重要度に相当)とに基づく積和計算により,前記節ノードd30の重要度を表す前記AT値d32を自動計算し,その計算結果を前記節ノード情報D3として前記データ記憶部7に記録する(S9)。
さらに,前記CPU1は,ステップS10において,前記文ノードd40ごとに,その文ノードd40に対応する前記上位リンクd50bの前記重み係数d54と,その上位リンクd50bに対応する前記節ノードd30の前記AT値d32とに基づく積和計算により,前記文ノードd40の重要度を表す前記AT値d42を自動計算し,その計算結果を前記文ノード情報D4として前記データ記憶部7に記録する(S10)。
また,前記後方伝播処理は,次のステップS11及びS12の処理である。
前記CPU1は,ステップS11において,前記節ノードd30ごとに,その節ノードd30に対応する前記上位リンクd50bの前記重み係数d54とその上位リンクd50bに対応する前記文ノードd40の前記AT値d42とに基づく積和計算により,前記節ノードd30の前記AT値d54を自動計算し,その計算結果を前記節ノード情報D3として前記データ記憶部7に記録する(S11)。
さらに,前記CPU1は,ステップS12において,前記単語ノードd20ごとに,その単語ノードd20に対応する前記下位リンクd50aの前記重み係数d54と,その下位リンクd50aに対応する前記節ノードd30の前記AT値d32とに基づく積和計算により,前記単語ノードd20の重要度を表す前記AT値d22を自動計算し,その計算結果を前記単語ノード情報D2として前記データ記憶部7に記録する(S12)。
なお,前記積和計算の式は,計算対象となるノードが出力側となる前記リンクd50の数をn,そのリンクd50それぞれの前記重み係数d54をwi,そのリンクd50それぞれの入力側となるノードの前記AT値をvi,した場合,次の(1)式で表される。
Figure 2008097077
但し,前記CPU1は,ステップS12の処理において,前記単語ノードd20の前記FACT値d23(前記重要度制限係数に相当)に基づいて,前記単語ノードd20の前記AT値d22(前記単語重要度に相当)の計算結果を制限する。
例えば,前記CPU1は,ステップS12における前記AT値d22の今回の計算値vx及び前記FACT値d23のうちの大きい方の値vmaxと,ステップS12における前記AT値d22の前回の計算値Vx-1とに基づいて,制限後の前記AT値d22の値vx’を,次の(2)式により算出する。但し,(2)式においてαは,予め定められた0以上1未満の定数である。
Figure 2008097077
これにより,前記前方伝播処理及び前記後方伝播処理において,前記単語ノードd20の前記AT値d22の計算結果が収束方向(安定方向)に向かうよう調整(修正)される。なお,前記AT値d22は,予め定められた下限値と上限値との範囲内で設定され,これにより前記AT値d22が際限なく高く又は低くなることが回避される。例えば,前記AT値d22は,0以上1以下の範囲内で設定される。
同様に,前記CPU1が,ステップS9〜S11の処理において,前記節ノードd30の前記FACT値d33に基づいて,前記節ノードd30の前記AT値d32の計算結果を制限することや,前記文ノードd40の前記FACT値d43に基づいて,前記文ノードd40の前記AT値d42の計算結果を制限することも考えられる。
なお,ステップS7において,(2)式に基づいて前記AT値d22の初期値を設定することも考えられる。
<ステップS13>
また,前記CPU1は,前記前方伝播処理及び前記後方伝播処理を1回実行するごとに,すべてのノードd20,d30,d40の前記AT値d22,d32,d42の総変化量(前回の計算結果との差の合計)を自動計算し,その計算結果が予め定められたしきい値以下となるという前記計算値確定条件が成立したか否かを自動判別する(S13,前記計算値確定条件判別手段の一例)。
上記の他,前記計算値確定条件を,前記単語ノードd20,前記節ノードd30及び前記文ノードd40のうちのいずれか1種類又は2種類についての前記AT値の総変化量が予め定められたしきい値以下となる条件とすること等も考えられる。
また,前記計算値確定条件を,前記単語ノードd20,前記節ノードd30及び前記文ノードd40のうちのいずれか1種類又は複数種類について,その前記AT値の変化量の最大値が予め定められたしきい値以下となる条件とすること等も考えられる。
そして,前記CPU1は,前記計算値確定条件が成立するまで,ステップS9〜S12の処理を繰り返す。
なお,前記計算値確定条件の判別処理が,前記前方伝播処理及び前記後方伝播処理が2回以上の所定回数実行されるごとに行われる実施形態も考えられる。
<ステップS14,S15>
次に,前記CPU1は,ステップS13において前記計算値確定条件が成立したと判別した場合,ステップS6において意味カテゴリを含む前記文選出指標情報の入力がなされたか否かを判別する(S14)。
そして,前記CPU1は,意味カテゴリを含む前記文選出指標情報の入力がなされたと判別した場合,前記計算値確定条件が成立したときの最新の前記文ノードd40の前記AT値d42(前記文重要度に相当)の記録内容を,以下のようにして自動修正する(S15,前記文重要度修正手段の一例)。
このステップS15において,前記CPU1は,前記文それぞれに含まれる前記節のうち主節について,即ち,前記深さd34が0である前記節ノードd30について,ステップS3(前記意味カテゴリ判別手段の処理に相当)において判別された意味カテゴリと,ステップS6(前記文選出指標情報入力手段の処理に相当)において入力された意味カテゴリとの一致判別を行い,その判別結果に基づいて,最新の前記文ノードd40の前記AT値d42の記録内容を自動修正する。
同様に,前記CPU1は,ステップS14において,前記意味カテゴリと単語の時制との両方を含む前記文選出指標情報の入力がなされたと判別した場合,このステップS15において,前記深さd34が0である前記節ノードd30について,ステップS2(前記時制判別手段の処理に相当)において判別された単語の時制(即ち,前記節ノードd30の前記時制d36)と,ステップS6(前記文選出指標情報入力手段の処理に相当)において入力された時制との一致判別を行い,その判別結果と前記意味カテゴリの一致判別の結果とに基づいて,最新の前記文ノードd40の前記AT値d42の記録内容を自動修正する。
前記自動修正は,例えば,ステップS6において意味カテゴリのみが入力された場合,その意味カテゴリの一致が確認された場合に,前記文ノードd40の前記AT値d42の値を無条件に1(最大の重要度)に修正することや,或いは予め設定された1以上の係数を乗算することによって修正すること等が考えられる。
同様に,例えば,ステップS6において意味カテゴリと時制との両方が入力された場合,その意味カテゴリの一致と時制の一致との両方が確認された場合に,前記文ノードd40の前記AT値d42の値を無条件に1に修正することや,或いは予め設定された1以上の係数を乗算することによって修正すること等が考えられる。
<ステップS16>
次に,前記CPU1は,前記文ノードd40を,その前記AT値d42の値が高いものから順に(より高い重要性を表すものから順に)ソート(順序付け)を行うとともに,そのAT値d42が最大のものから順に予め設定された数だけ前記文ノードd40を選出し,その選出結果である重要文リストA(前記AT値42の値が高い前記文ノードd40の識別子d41の集合)を前記表示装置5と前記データ記憶部7とに出力する(S16,第1の重要文選出手段の一例)。このステップS16において参照される前記文ノードd40の前記AT値d42は,ステップS15でのAT値の修正処理が行われなかった場合は,ステップS13で前記計算値確定条件が成立したと判別されたときの最新の前記文ノードd40の前記AT値d42であり,ステップS15でのAT値の修正処理が行われた場合は,そのステップS15の処理で修正された前記文ノードd40の前記AT値d42である。
以上に示したステップS1〜S4の処理により,多くの前記節に含まれる高頻出の単語に相当する前記単語ノードd20は,数多くの前記節ノードd30との間で前記下位リンクd50aが設定されることになる。このため,ステップS11,S12の前記後方伝播処理により,前記単語の頻出度が高いほど,その単語に相当する前記単語ノードd20の前記AT値d22が,前記下位リンクd50aを通じて数多くの前記節ノードd30の前記AT値d32が集積された高い値となるよう計算される。さらに,その高い値の前記AT値d32(単語の重要度)が,前記前方伝播処理(S9,S10)により,その単語ノードd20に相当する単語を含む前記節に関する前記節ノードd30のAT値d32や,さらにその節を含む前記文に関する前記文ノードd40のAT値d42にも反映される。従って,ステップS9〜S12の処理により,頻出度の高い単語を含む文の重要度を表す前記文ノードd40のAT値d42が,他よりも高い値へと徐々に変化していくことになる。
その結果,ステップS16の処理により,頻出度の高い単語を含む文に相当する前記文ノードd40が,重要文に相当するノードとして優先的に選出される。
また,前記後方伝播処理(S11,S12)により,頻出度の高い単語を含む前記文に含まれる他の単語に相当する前記単語ノードd20のAT値d22も,頻出度の高い単語に対応する前記AT値d22の影響を受けた高い値が反映される。従って,それぞれ頻出度が高い単語を含む複数の文において共用されている単語であって,頻出度が特に高いとまではいえない単語(前記共用非頻出単語)が存在する場合,その単語に対応する前記AT値d22も,ステップS9〜S12の処理によって高い値へと徐々に変化していくことになる。その結果,ステップS16の処理により,頻出度の高い前記単語を含む文とともに,前記共用非頻出単語を含む文に相当する前記文ノードd40も重要文に相当するノードとして優先的に選出され,ユーザが前記文書データD0の内容を正しく把握するために極力必要十分な文が選出される。
但し,このステップS16までの処理は,ステップS16で選出された前記文ノードd40(前記重要文リストA)に相当する文に指示語(これ,それ等)が含まれている場合に,その文の可読性を高めるための処理について考慮されていない。
<ステップS17>
次に,前記CPU1は,ステップS16で選出された前記文ノードd40に相当する文に指示語(これ,それ等)が含まれている場合に,その文の可読性を高めるための処理として,前記重要文リストAに基づいてさらなる重要文のリストの選出及び出力(重要文リストBの選出及び出力)を行う処理を実行し(S17),その後,重要文選出処理を終了させる。
なお,前記重要文リストBは,最終的に選出される重要文の集合に相当する前記文ノードd40の集合である。
続いて,図3に示されるフローチャートを参照しつつ,ステップS17の処理(重要文リストB選出・出力処理)の詳細について説明する。ステップS17の処理は,以下に示すステップS21〜S34の処理を含む。
<ステップS21,S22,S32>
まず,前記CPU1は,ステップS16(前記第1の重要文選出手段の処理に相当)で選出された前記重要文リストAについて,前記AT値d42が高いもの(即ち,重要性が高いもの)から順に,後述する遡及条件判別処理(S23,S28)による判別対象とする文の前記文ノードd40(前記第1重要文に相当)を特定する処理を実行する(S21,S22,S32:前記遡及条件判別対象特定手段の一例)。以下,この処理により特定される前記文ノードd40及びこれに対応する文を,i番目重要文ノードd40及びi番目重要文と称する。
具体的には,前記CPU1は,最初に所定のカウンタ変数iの初期化(i=1)と,前記重要文リストBの空集合への初期化と(S21)を行った上で,以後,前記重要文リストAの中からi番目の前記文ノードd40を前記i番目重要文ノードd40として読み出し(即ち,特定し),そのi番目重要文ノードd40を,初期値が空集合である所定の前方遡及重要文リストの要素として設定する(S22)。そして,以後,前記CPU1は,後述するステップS23〜S31の処理が実行されるごとに,前記カウンタ変数iを1ずつカウントアップし(S32),そのカウントアップした前記カウンタ変数iに基づいて,前記重要文リストAの中からi番目の前記文ノードd40を前記i番目重要文ノードd40として読み出し,そのi番目重要文ノードd40を,前記前方遡及重要文リストの要素として加える(S22)という処理を繰り返す。
なお,前記前方遡及重要文リストは,後に最終的に選出される重要文の集合(リスト)に相当する前記重要文リストB(前記文ノードd40の集合)の要素として加えられる前記文ノードd40の集合である。
また,前記CPU1は,ステップS22の処理によって前記i番目重要文ノードd40読み出される(特定される)ごとに,以下のステップS23〜S31の処理を実行する。
<ステップS23>
まず,前記CPU1は,前記i番目重要文について以下に示す遡及条件が成立するか否かを自動判別し(S23,前記遡及条件判別手段の一例),前記遡及条件が成立すると判別した場合は処理を次のステップS24に移行させ,そうでない場合はそのステップS24をスキップさせてさらに次のステップS25に処理を移行させる。
前記遡及条件は,次の第1条件と第2条件とのOR条件(論理和)と,第3条件とのAND条件(論理積)である。なお,前記第1条件〜前記第3条件のうちの1つ又は複数を前記遡及条件から除外することも考えられる。
前記第1条件は,前記i番目重要文ノードd40に対応する文(前記i番目重要文)に指示語を表す単語が含まれるという条件である。
前記第2条件は,前記i番目重要文に提題を表す単語が含まれないという条件である。
前記第3条件は,前記i番目重要文の出典と,そのi番目重要文(前記第1重要文に相当)を基準に前記文書データD0内において1つ前に位置する文である前方隣接文の出典とが一致するという条件である。
ここで,前記CPU1は,前記上位リンクd50bにより前記i番目重要文ノードd40と対応付けられている前記節ノードd30の前記指示語有無フラグd35が「指示語あり」を表す内容であるか否かにより前記第1条件の成立当否を判別する。
また,前記CPU1は,前記上位リンクd50bにより前記i番目重要文ノードd40と対応付けられている前記節ノードd30の前記提題有無フラグd37が「提題無し」を表す内容であるか否かにより前記第2条件の成立当否を判別する。
また,前記CPU1は,前記i番目重要文及び前記前方隣接文それぞれの前記文ノードd40における前記出典d44の内容が一致するか否かにより,前記第3条件の成立当否を判別する。
そして,前記CPU1は,前記遡及条件が成立していると判別した場合には,次のステップS24に処理を移行させ,そうでない場合はステップS24をスキップしてその次のステップS25の処理に移行させる。
<ステップS24〜S26>
前記CPU1は,前記i番目重要文について前記遡及条件が成立していると判別した場合,前記前方遡及重要文リストに,既にその要素として設定されている前記i番目重要文のノードに加え,さらにそのi番目重要文(前記第1重要文に相当)を基準に前記文書データD0内において1つ前に位置する前記文(以下,前方隣接文と称する)に対応する前記文ノードd40(以下,前方隣接文ノードと称する)を前記前方遡及重要文リストの要素に加える。
さらに,前記CPU1は,その時点で前記重要文リストBに含まれる要素(前記文ノードd40)の数と,前記前方遡及重要文リストに含まれる要素(前記文ノードd40)の数との合計が,予め設定された数(最終的に選出する重要文の上限数)以下であるか否かを判別する(S25)。
そして,前記CPU1は,要素数の合計が前記上限数以下であると判別した場合,前記重要文リストBに,前記前方遡及重要文リストの内容(要素)を追加する(S26)。
一方,前記CPU1は,要素数の合計が前記上限数を超えると判別した場合,処理を後述するステップS34へ移行させる。
以上に示したステップS23〜S26の処理は,ステップS21,S22,S32の処理(前記遡及条件判別対象特定手段の処理に相当)により前記i番目重要文(前記第1重要文に相当)が特定されるごとに実行される。
そして,ステップS23〜S26の処理を実行する前記CPU1は,ステップS16の処理(前記第1の重要文選出手段の処理に相当)により選出した前記文ノードd40に相当する文のうち,前記AT値d42(重要度)が相対的に高い前記i番目重要文と,それより前記AT値d42が相対的に低い(i+1)番目以降の文(前記第2重要文に相当)とに関し,前記i番目重要文について前記遡及条件が成立したと判別(S23)した場合に,そのi番目重要文と前記前方隣接文とを,前記重要文リストBに加える文として前記(i+1)番目以降の文よりも優先して選出する(S26,前記第2の重要文選出手段の一例)。その際,前記CPU1は,ステップS23での前記遡及条件の判別結果に基づいて,より優先するものから順に予め設定された数(前記上限数)以下に収まる範囲で前記文を選出する(S30,S31)。
その結果,ステップS16で選出された前記重要文リストAに,提題(「〜は」というハ格となる単語)が欠落している文や,当該文よりも前に位置する他の文の内容を指示する指示語を含む文,即ち,可読性に欠ける文の前記文ノードd40が存在する場合,その可読性に欠ける文に対して前の位置に隣接する文の前記文ノードd40も併せて(優先的に)前記重要文リストBの要素として選出される。
なお,以上に示した例は,前記i番目重要文についてのみ前記遡及条件の判別(S23)及びその判別結果に基づく前記前方隣接文の選出(S24,S26)を行う例であるが,前記前方隣接文が選出された場合に,さらにその文を前記i番目重要文とみなして,前記遡及条件が成立しなくなるまで,文の選出数が前記上限数以下に収まる範囲内で,前記遡及条件の判別(S23)及びその判別結果に基づく前記前方隣接文の選出(S24,S26)を,前記文書データD0における前方側の位置へ一文ずつ順次遡及しながら実行することも考えられる。
<ステップS27,S28>
同様に,前記CPU1は,ステップS23において前記i番目重要文について前記遡及条件が成立していると判別した場合,前記i番目重要文(前記第1重要文に相当)を基準に前記文書データD0内において1つ後に位置する前記文(以下,後方隣接文と称する)に対応する前記文ノードd40(以下,後方隣接文ノードと称する)を前記データ記憶部7から読み出す(S27)。
さらに,前記CPU1は,前記後方隣接文について,前述した遡及条件が成立するか否かを自動判別し(S28,前記遡及条件判別手段の一例),前記遡及条件が成立すると判別した場合は処理を次のステップS29に移行させ,そうでない場合はそのステップS29をスキップさせてさらに次のステップS30に処理を移行させる。
なお,前記遡及条件のうち前記第3条件における出典の比較対象は,前記i番目重要文と前記後方隣接文とである。また,前記後方隣接文の前記文ノードd40における前記AT値d42が,その時点で前記重要文リストBに含まれる前記文ノードd40それぞれの前記AT値d42の平均値或いは最小値等に対して予め定められた範囲内にあるという第4条件を前記遡及条件にAND条件として加えること等も考えられる。
<ステップS29〜S31>
ステップS29において,前記CPU1は,前記後方隣接文について前記遡及条件が成立していると判別した場合,初期値が空集合である所定の後方遡及重要文リストに,その要素として前記後方隣接文に対応する前記文ノードd40(即ち,前記後方隣接文ノード)を加える(S29)。
また,ステップS30において,前記CPU1は,その時点で前記重要文リストBに含まれる要素(前記文ノードd40)の数と,前記後方遡及重要文リストに含まれる要素(前記文ノードd40)の数との合計が,予め設定された数(最終的に選出する重要文の上限数)以下であるか否かを判別する(S30)。
そして,前記CPU1は,要素数の合計が前記上限数以下であると判別した場合,前記重要文リストBに,前記後方遡及重要文リストの内容(要素)を追加する(S31)。
一方,前記CPU1は,要素数の合計が前記上限数を超えると判別した場合,処理を後述するステップS34へ移行させる。
以上に示したステップS27〜S31の処理も,ステップS21,S22,S32の処理(前記遡及条件判別対象特定手段の処理に相当)により前記i番目重要文(前記第1重要文に相当)が特定されるごとに実行される。
そして,ステップS27〜S31の処理を実行する前記CPU1は,ステップS16の処理(前記第1の重要文選出手段の処理に相当)により選出した前記文ノードd40に相当する文のうち,前記AT値d42(重要度)が相対的に高い前記i番目重要文と,それより前記AT値d42が相対的に低い(i+1)番目以降の文(前記第2重要文に相当)とに関し,前記i番目重要文の後方側に隣接する前記後方隣接文について前記遡及条件が成立したと判別(S28)した場合に,前記i番目重要文と前記後方隣接文とを,前記重要文リストBに加える文として前記(i+1)番目以降の文よりも優先して選出する(S31,前記第3の重要文選出手段の一例)。その際,前記CPU1は,前記遡及条件判別手段による判別結果に基づいて,より優先するものから順に予め設定された数(前記上限数)以下に収まる範囲で前記文を選出する(S30,S31)。
その結果,ステップS16で選出された重要文の後方側に隣接する前記後方隣接文が,提題(「〜は」というハ格となる単語)が欠落している文や,当該文よりも前に位置する前記i番目重要文の内容を指示する指示語を含む文である場合,その後方隣接文の前記文ノードd40も併せて(優先的に)前記重要文リストBの要素として選出される。
なお,以上に示した例は,前記i番目重要文の1つ後方側に隣接する前記後方隣接文についてのみ前記遡及条件の判別(S28)及びその判別結果に基づく前記後方隣接文の選出(S29,S31)を行う例であるが,前記後方隣接文が選出された場合に,さらにその文を前記i番目重要文とみなして,前記遡及条件が成立しなくなるまで,文の選出数が前記上限数以下に収まる範囲内で,前記遡及条件の判別(S28)及びその判別結果に基づく前記後方隣接文の選出(S29,S31)を,前記文書データD0における後方側の位置へ一文ずつ順次遡及しながら実行することも考えられる。
<ステップS33,S34>
一方,前記CPU1は,以上に示したステップS22〜S31の処理を行うごとに,前記重要文リストBの要素(前記文ノードd40)の選出の終了条件が成立したか否かを判別する(S33)。この終了条件は,その時点における前記i番目重要文ノードが,前記重要文リストAにおいて最後尾に位置する(前記AT値d42が最も低い)前記文ノードd40であることである。
そして,前記CPU1は,前記終了条件が成立したと判別すると,その時点の前記重要文リストB(前記遡及条件に基づき前記前方隣接文や前記後方隣接文が優先して選出されたもの)を前記表示装置5と前記データ記憶部7とに出力する(S34)。
以上により,重要文選出処理が終了する。
以上に示した処理を実行する前記重要文選出装置Xによれば,前記文書データD0に含まれる複数の文から,文それぞれの重要度(前記AT値d42)の自動計算によって特に重要と考えられる文を選出する際に,ユーザが前記文書データD0の内容を正しく把握するために極力必要十分な文を選出することができる。
また,図2及び図3に示した重要文選出処理の手順から,前記AT値の修正に関するステップS14及びS15の処理と,隣接文の遡及処理に関するステップS17(S21〜S34)の処理との一方又は両方を省略した実施形態も考えられる。
また,前述した実施形態では,ハードディスクなどの不揮発性の情報記憶手段(メモリ)である前記データ記憶部7が,前記第1メモリ〜第14メモリの例として採用された。しかしながら,前記第1メモリ〜第14メモリは,RAM2等の揮発性の情報記憶手段や,不揮発性の情報記憶手段および揮発性の情報記憶手段とが組み合わされたものであってもよい。
本発明は,文書データに含まれる複数の文それぞれの重要度を表す数値を自動計算し,その計算結果に基づいて前記文書データに含まれる複数の文から1又は複数の文を選出する重要文選出装置及びそのプログラム等に利用可能である。
本発明の実施形態に係る重要文選出装置X(コンピュータ)の概略構成を表すブロック図。 重要文選出装置Xによる重要文選出処理の手順を表すフローチャート。 重要文選出装置Xによる重要文選出処理の一部である重要文リストB選出・出力処理の手順を表すフローチャート。 文書データの構文解析処理のプロセス及び処理結果の一例を表す図。 重要文選出装置Xが生成するノード情報及びリンク情報のデータ構成を表す図。 重要文選出装置Xが生成するノード情報及びリンク情報により特定されるノードネットワークの概念図。
符号の説明
X:本発明の実施形態に係る重要文選出装置(コンピュータ)
1:CPU
2:RAM
3:ROM
4:入力装置
5:表示装置
7:データ記憶部
8:バス
d20…単語ノード
d30…節ノード
d40…文ノード
d50…リンク
d50a…下位リンク
d50b…上位リンク
D0:文書データ
D1:構文解析結果情報
D2:単語ノード情報
D3:節ノード情報
D4:文ノード情報
D5:リンク情報
S1,S2,…:処理手順(ステップ)

Claims (21)

  1. 所定の情報入力手段を通じて文書データを取得し,該文書データに含まれる複数の文それぞれの重要度を表す数値を自動計算し,その計算結果に基づいて前記文書データに含まれる複数の文から1又は複数の文を選出する重要文選出装置であって,
    前記文それぞれと該文に含まれる1又は複数の単語の集合であって一つのまとまりをなす節それぞれとを対応付けるルートを表す情報である上位リンク,及び前記節それぞれと該節に含まれる前記単語それぞれとを対応付けるルートを表す情報である下位リンクを設定してその設定情報を所定の情報記憶手段である第1メモリに記録するリンク設定手段と,
    予め定められた規則に従って前記上位リンク及び前記下位リンクそれぞれに重み係数を設定してその設定情報を所定の情報記憶手段である第2メモリに記録するリンク重み係数設定手段と,
    前記文書データに含まれる前記単語のうち同じ単語ごとにその重要度を表す数値である単語重要度の初期値を設定してその設定情報を所定の情報記憶手段である第3メモリに記録する単語重要度初期値設定手段と,
    前記第1メモリ乃至前記第3メモリにアクセスしつつ,前記節ごとに該節に対応する前記下位リンクの前記重み係数と該下位リンクに対応する前記単語の前記単語重要度とに基づいて前記節の重要度を表す数値である節重要度を自動計算して所定の情報記憶手段である第4メモリに記録し,さらに前記文ごとに該文に対応する前記上位リンクの前記重み係数と該上位リンクに対応する前記節の前記節重要度とに基づいて前記文の重要度を表す数値である文重要度を自動計算して所定の情報記憶手段である第5メモリに記録する前方伝播処理と,前記節ごとに該節に対応する前記上位リンクの前記重み係数と該上位リンクに対応する前記文の前記文重要度とに基づいて前記節の前記節重要度を自動計算して所定の情報記憶手段である第6メモリに記録し,さらに前記同じ単語ごとに該単語に対応する前記下位リンクの前記重み係数と該下位リンクに対応する前記節の前記節重要度とに基づいて前記単語重要度を自動計算して所定の情報記憶手段である第7メモリに記録する後方伝播処理とを順次交互に実行する順次伝播処理実行手段と,
    前記順次伝播処理実行手段による前記前方伝播処理及び前記後方伝播処理が所定回数実行されるごとに予め定められた計算値確定条件が成立したか否かを自動判別する計算値確定条件判別手段と,
    前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別されたときの前記第5メモリにおける最新の前記文重要度の記録内容に基づいて1又は複数の前記文を選出し,選出した文の情報を所定の情報出力手段を通じて出力する第1の重要文選出手段と,
    を具備してなることを特徴とする重要文選出装置。
  2. 前記リンク設定手段,前記リンク重み係数設定手段,前記単語重要度初期値設定手段,前記順次伝播処理実行手段,前記計算値確定条件判別手段及び前記第1の重要文選出手段が,所定のプログラムを実行するコンピュータにより実現されてなる請求項1に記載の重要文選出装置。
  3. 前記文それぞれについて形態素解析処理及び係り受け解析処理を実行し,その処理結果を所定の情報記憶手段である第8メモリに記録する構文解析手段を具備し,
    前記リンク設定手段が,前記第8メモリにアクセスしつつ,前記構文解析手段の処理結果に基づいて前記下位リンク及び前記上位リンクを設定してなる請求項1又は2のいずれかに記載の重要文選出装置。
  4. 前記下位リンクそれぞれについて,該下位リンクに対応する前記節における前記単語の格を自動判別して所定の記憶手段である第9メモリに記録する格判別手段を具備し,
    前記リンク重み係数設定手段が,前記第9メモリにアクセスしつつ,前記下位リンクに対応する前記単語の格に応じた数値を前記下位リンクそれぞれの前記重み係数として設定してなる請求項1〜3のいずれかに記載の重要文選出装置。
  5. 前記リンク重み係数設定手段が,予め定められた一の数値を前記上位リンクそれぞれの前記重み係数として設定してなる請求項1〜4のいずれかに記載の重要文選出装置。
  6. 前記単語重要度初期値設定手段が,予め定められた一の数値を前記単語重要度の初期値として設定する第1の単語重要度初期値設定手段を具備してなる請求項1〜5のいずれかに記載の重要文選出装置。
  7. 前記文書データに含まれる前記単語それぞれの品詞を自動判別してその判別結果を所定の情報記憶手段である第10メモリに記録する品詞判別手段を具備し,
    前記単語重要度初期値設定手段が,前記第10メモリにアクセスしつつ,前記同じ単語ごとにその品詞に応じた数値を前記単語重要度の初期値として設定する第2の単語重要度初期値設定手段を具備してなる請求項1〜5のいずれかに記載の重要文選出装置。
  8. 所定の情報入力手段を通じてキーワードを入力するキーワード入力手段を具備し,
    前記単語重要度初期値設定手段が,前記キーワード入力手段により前記キーワードが入力された場合に,前記同じ単語ごとにその単語と前記キーワードとの一致度合いに基づいて前記単語重要度の初期値を設定する第3の単語重要度初期値設定手段を具備してなる請求項1〜7のいずれかに記載の重要文選出装置。
  9. 前記計算値確定条件が,前記文重要度,前記節重要度及び前記単語重要度のうちの1又は複数の総変化量が所定のしきい値以下となる条件である請求項1〜8のいずれかに記載の重要文選出装置。
  10. 前記第1の重要文選出手段が,前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別されたときの最新の前記文重要度が高いものから予め設定された数だけ前記文を選出するものである請求項1〜9のいずれかに記載の重要文選出装置。
  11. 所定の情報入力手段を通じて単語の意味カテゴリを含む情報である文選出指標情報を入力する文選出指標情報入力手段と,
    前記文それぞれについて該文に含まれる前記節のうち主節を特定してその特定結果を所定の情報記憶手段である第11メモリに記録する主節特定手段と,
    複数の単語と該単語それぞれの意味カテゴリとが対応付けられた概念辞書情報を所定の情報記憶手段である第12メモリから読み出し,該概念辞書情報に基づいて前記節に含まれる前記単語の意味カテゴリを自動判別する意味カテゴリ判別手段と,
    前記第5メモリ及び前記第11メモリにアクセスしつつ,前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別されたときの最新の前記文重要度の記録内容を,前記文それぞれに含まれる前記主節について前記意味カテゴリ判別手段により判別された意味カテゴリと前記文選出指標情報入力手段により入力された意味カテゴリとの一致判別の結果に基づいて自動修正する文重要度修正手段と,を具備し,
    前記第1の重要文選出手段が,前記文重要度修正手段により修正された前記重要度に基づいて1又は複数の前記文を選出してなる請求項1〜10のいずれかに記載の重要文選出装置。
  12. 前記節に含まれる品詞が動詞である前記単語の時制を自動判別してその判別結果を所定の情報記憶手段である第13メモリに記録する時制判別手段を具備し,
    前記文選出指標情報に単語の時制の情報が含まれ,
    前記文重要度修正手段が,前記第13メモリにもアクセスしつつ,前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別された場合のときの最新の前記文重要度の記録内容を,前記文それぞれに含まれる前記主節について前記時制判別手段により判別された前記単語の時制と前記文選出指標情報入力手段により入力された時制との一致判別の結果と前記意味カテゴリの一致判別の結果とに基づいて自動修正してなる請求項11に記載の重要文選出装置。
  13. 前記文について指示語を表す前記単語が含まれること及び提題を表す前記単語が含まれないことのうちの少なくとも一方を含む遡及条件が成立するか否かを自動判別する遡及条件判別手段と,
    前記第1の重要文選出手段により選出された前記文のうち,前記重要度に基づく重要性が相対的に高い前記文である第1重要文とそれより前記重要性が相対的に低い前記文である第2重要文とに関し,前記第1重要文について前記遡及条件判別手段により前記遡及条件が成立したと判別された場合に,該第1重要文と少なくとも該第1重要文を基準に前記文書データ内において1つ前に位置する前記文である前方隣接文とを,前記第2重要文よりも優先して選出し,選出した文の情報を所定の情報出力手段を通じて出力する第2の重要文選出手段と,
    を具備してなる請求項1〜12のいずれかに記載の重要文選出装置。
  14. 前記第1重要文と前記第2重要文とに関し,前記第1重要文を基準に前記文書データ内において1つ後に位置する前記文である後方隣接文について前記遡及条件判別手段により前記遡及条件が成立したと判別された場合に,少なくとも該後方隣接文と前記第1重要文とを,前記第2重要文よりも優先して選出し,選出した文の情報を所定の情報出力手段を通じて出力する第3の重要文選出手段を具備してなる請求項13に記載の重要文選出装置。
  15. 前記第1の重要文選出手段により選出された前記文について,前記重要性が高いものから順に前記遡及条件判別手段による判別対象とする前記第1重要文を特定する遡及条件判別対象特定手段を具備してなる請求項13又は14のいずれかに記載の重要文選出装置。
  16. 前記第2の重要文選出手段が,前記遡及条件判別対象特定手段により前記第1重要文が特定されるごとに,前記遡及条件判別手段による判別結果に基づいて,より優先するものから順に予め設定された数以下に収まる範囲で前記文を選出してなる請求項15に記載の重要文選出装置。
  17. 前記第3の重要文選出手段が,前記遡及条件判別対象特定手段により前記第1重要文が特定されるごとに,前記遡及条件判別手段による判別結果に基づいて,より優先するものから順に予め設定された数以下に収まる範囲で前記文を選出するものである請求項15又は16のいずれかに記載の重要文選出装置。
  18. 前記リンク重み係数設定手段が,0以上1未満の範囲内で前記上位リンク及び前記下位リンクそれぞれに重み係数を設定し,
    前記順次伝播処理実行手段が,
    前記前方伝播処理において前記節ごとに該節に対応する前記下位リンクそれぞれの1前記重み係数と該下位リンクそれぞれに対応する前記単語の前記単語重要度との積和演算により前記節重要度を計算し,
    前記前方伝播処理において前記文ごとに該文に対応する前記上位リンクそれぞれの前記重み係数と該上位リンクそれぞれに対応する前記節の前記節重要度との積和演算により前記文重要度を計算し,
    前記後方伝播処理において前記節ごとに該節に対応する前記上位リンクそれぞれの前記重み係数と該上位リンクそれぞれに対応する前記文の前記文重要度との積和演算により前記節重要度を計算し,
    前記後方伝播処理において前記単語ごとに該単語に対応する前記下位リンクそれぞれの前記重み係数と該下位リンクそれぞれに対応する前記節の前記節重要度との積和演算により前記単語重要度を計算してなる請求項1〜17のいずれかに記載の重要文選出装置。
  19. 前記単語重要度それぞれの値の制限に用いる重要度制限係数を設定してその設定情報を所定の情報記憶手段である第14メモリに記録する重要度制限係数設定手段を具備し,
    前記順次伝播処理実行手段が,前記第14メモリにおける前記重要度制限係数に基づいて前記単語重要度の計算結果を制限してなる請求項1〜18のいずれかに記載の重要文選出装置。
  20. 所定の情報入力手段を通じて文書データを取得し,該文書データに含まれる複数の文それぞれの重要度を表す数値を自動計算し,その計算結果に基づいて前記文書データに含まれる複数の文から1又は複数の文を選出する処理をコンピュータに実行させるための重要文選出プログラムであって,
    前記コンピュータを,
    前記文それぞれと該文に含まれる1又は複数の単語の集合であって一つのまとまりをなす節それぞれとを対応付けるルートを表す情報である上位リンク,及び前記節それぞれと該節に含まれる前記単語それぞれとを対応付けるルートを表す情報である下位リンクを設定してその設定情報を所定の情報記憶手段である第1メモリに記録するリンク設定手段と,
    予め定められた規則に従って前記上位リンク及び前記下位リンクそれぞれに重み係数を設定してその設定情報を所定の情報記憶手段である第2メモリに記録するリンク重み係数設定手段と,
    前記文書データに含まれる前記単語のうち同じ単語ごとにその重要度を表す数値である単語重要度の初期値を設定してその設定情報を所定の情報記憶手段である第3メモリに記録する単語重要度初期値設定手段と,
    前記第1メモリ乃至前記第3メモリにアクセスしつつ,前記節ごとに該節に対応する前記下位リンクの前記重み係数と該下位リンクに対応する前記単語の前記単語重要度とに基づいて前記節の重要度を表す数値である節重要度を自動計算して所定の情報記憶手段である第4メモリに記録し,さらに前記文ごとに該文に対応する前記上位リンクの前記重み係数と該上位リンクに対応する前記節の前記節重要度とに基づいて前記文の重要度を表す数値である文重要度を自動計算して所定の情報記憶手段である第5メモリに記録する前方伝播処理と,前記節ごとに該節に対応する前記上位リンクの前記重み係数と該上位リンクに対応する前記文の前記文重要度とに基づいて前記節の前記節重要度を自動計算して所定の情報記憶手段である第6メモリに記録し,さらに前記同じ単語ごとに該単語に対応する前記下位リンクの前記重み係数と該下位リンクに対応する前記節の前記節重要度とに基づいて前記単語重要度を自動計算して所定の情報記憶手段である第7メモリに記録する後方伝播処理とを順次交互に実行する順次伝播処理実行手段と,
    前記順次伝播処理実行手段による前記前方伝播処理及び前記後方伝播処理が所定回数実行されるごとに予め定められた計算値確定条件が成立したか否かを自動判別する計算値確定条件判別手段と,
    前記計算値確定条件判別手段により前記計算値確定条件が成立したと判別されたときの前記第5メモリにおける最新の前記文重要度の記録内容に基づいて1又は複数の前記文を選出し,選出した文の情報を所定の情報出力手段を通じて出力する第1の重要文選出手段と,
    の各手段として機能させるための重要文選出プログラム。
  21. 所定の情報入力手段を通じて文書データを取得し,該文書データに含まれる複数の文それぞれの重要度を表す数値を自動計算し,その計算結果に基づいて前記文書データに含まれる複数の文から1又は複数の文を選出する処理を実行する重要文選出方法であって,
    所定のコンピュータにより,
    前記文それぞれと該文に含まれる1又は複数の単語の集合であって一つのまとまりをなす節それぞれとを対応付けるルートを表す情報である上位リンク,及び前記節それぞれと該節に含まれる前記単語それぞれとを対応付けるルートを表す情報である下位リンクを設定してその設定情報を所定の情報記憶手段である第1メモリに記録するリンク設定手順と,
    予め定められた規則に従って前記上位リンク及び前記下位リンクそれぞれに重み係数を設定してその設定情報を所定の情報記憶手段である第2メモリに記録するリンク重み係数設定手順と,
    前記文書データに含まれる前記単語のうち同じ単語ごとにその重要度を表す数値である単語重要度の初期値を設定してその設定情報を所定の情報記憶手段である第3メモリに記録する単語重要度初期値設定手順と,
    前記第1メモリ乃至前記第3メモリにアクセスしつつ,前記節ごとに該節に対応する前記下位リンクの前記重み係数と該下位リンクに対応する前記単語の前記単語重要度とに基づいて前記節の重要度を表す数値である節重要度を自動計算して所定の情報記憶手段である第4メモリに記録し,さらに前記文ごとに該文に対応する前記上位リンクの前記重み係数と該上位リンクに対応する前記節の前記節重要度とに基づいて前記文の重要度を表す数値である文重要度を自動計算して所定の情報記憶手段である第5メモリに記録する前方伝播処理と,前記節ごとに該節に対応する前記上位リンクの前記重み係数と該上位リンクに対応する前記文の前記文重要度とに基づいて前記節の前記節重要度を自動計算して所定の情報記憶手段である第6メモリに記録し,さらに前記同じ単語ごとに該単語に対応する前記下位リンクの前記重み係数と該下位リンクに対応する前記節の前記節重要度とに基づいて前記単語重要度を自動計算して所定の情報記憶手段である第7メモリに記録する後方伝播処理とを順次交互に実行する順次伝播処理実行手順と,
    前記順次伝播処理実行手順による前記前方伝播処理及び前記後方伝播処理が所定回数実行されるごとに予め定められた計算値確定条件が成立したか否かを自動判別する計算値確定条件判別手順と,
    前記計算値確定条件判別手順により前記計算値確定条件が成立したと判別されたときの前記第5メモリにおける最新の前記文重要度の記録内容に基づいて1又は複数の前記文を選出し,選出した文の情報を所定の情報出力手段を通じて出力する第1の重要文選出手順と,
    を実行することを特徴とする重要文選出方法。
JP2006274757A 2006-10-06 2006-10-06 重要文選出装置,重要文選出プログラム,重要文選出方法 Withdrawn JP2008097077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006274757A JP2008097077A (ja) 2006-10-06 2006-10-06 重要文選出装置,重要文選出プログラム,重要文選出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006274757A JP2008097077A (ja) 2006-10-06 2006-10-06 重要文選出装置,重要文選出プログラム,重要文選出方法

Publications (1)

Publication Number Publication Date
JP2008097077A true JP2008097077A (ja) 2008-04-24

Family

ID=39379901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006274757A Withdrawn JP2008097077A (ja) 2006-10-06 2006-10-06 重要文選出装置,重要文選出プログラム,重要文選出方法

Country Status (1)

Country Link
JP (1) JP2008097077A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012174014A (ja) * 2011-02-22 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置、文書要約方法、及びプログラム
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
KR20190080317A (ko) * 2017-12-28 2019-07-08 강상희 지문 및 문제 해설 방법 및 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012174014A (ja) * 2011-02-22 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置、文書要約方法、及びプログラム
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
KR20190080317A (ko) * 2017-12-28 2019-07-08 강상희 지문 및 문제 해설 방법 및 장치
KR102010344B1 (ko) * 2017-12-28 2019-08-13 강상희 지문 및 문제 해설 방법 및 장치

Similar Documents

Publication Publication Date Title
KR101306667B1 (ko) 지식 그래프 정제 장치 및 방법
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
CN106599148A (zh) 一种文摘生成方法及装置
JP2007226797A (ja) 目次判別目的類似度リンク計算の高速化
CN109165040B (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN117009605B (zh) 一种策略化创新设计问题求解方法及系统
JP2016164708A (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
CN103324641B (zh) 信息记录推荐方法和装置
JP2008097077A (ja) 重要文選出装置,重要文選出プログラム,重要文選出方法
US20070112908A1 (en) Determination of passages and formation of indexes based on paragraphs
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2007164583A (ja) 判定装置,判定方法および判定プログラム
JP3472032B2 (ja) 情報フィルタ装置及び情報フィルタ方法
KR101246101B1 (ko) 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
JP2012518221A (ja) 寄与スコアに基づいた文書順位決定システムおよび方法
JP2749790B2 (ja) 並列テキスト検索システム
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP2011076194A (ja) トピック具体表現辞書作成システム、トピック具体表現辞書作成方法及びそのプログラム
JP5142897B2 (ja) 文検索装置,文検索プログラム,文検索方法
CN109684442A (zh) 一种文本检索方法、装置、设备及程序产品
WO2015071804A1 (en) Ranking prediction candidates of controlled natural languages or business rules depending on document hierarchy
JP5811795B2 (ja) 文書分析システム、文書分析方法およびプログラム
JP2013182580A (ja) 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080926

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20081226