JP5856905B2

JP5856905B2 - 主題抽出装置およびそのプログラム

Info

Publication number: JP5856905B2
Application number: JP2012116759A
Authority: JP
Inventors: 山田　一郎; 一郎山田; 宮崎　勝; 勝宮崎; 田中　英輝; 英輝田中
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-05-22
Filing date: 2012-05-22
Publication date: 2016-02-10
Anticipated expiration: 2032-05-22
Also published as: JP2013242791A

Description

本発明は、言語処理技術に関する。特に、本発明は、文書に含まれる主題を抽出する主題抽出装置およびそのプログラムに関する。

文書に含まれる単語に対して、重要度の重み付けを行ない、重要な単語を抽出する技術が求められている。そのように抽出された単語は、文書の主題を表わす。従来の技術において、文書に含まれる単語に対する重要度の重み付けを行う手法としては、文書に含まれる単語の出現頻度情報や、他の文書での出現頻度の逆数などを指標とするものが提案されている。例えば、非特許文献１では、単語の出現頻度情報と文書における当該単語の逆出現頻度情報とを用いるｔｆ−ｉｄｆの重み付けについて記載されている。

また、特許文献１では、単語の共起や係り受け関係などの関係を考慮して単語の重要度の算出する手法が記載されている。

特開２００４−１０２３９７号公報

「ｔｆ−ｉｄｆ」、［online］、Ｗｉｋｅｐｅｄｉａ、［平成２４年５月１５日検索］、インターネット〈ＵＲＬ：http://ja.wikipedia.org/wiki/Tf-idf〉

しかしながら、非特許文献１に記載されたｔｆ−ｉｄｆを用いる手法では、文脈が考慮されず、単語の統計的な出現頻度に関する情報のみで重要度を算出している。このため、対象の文書における個々の単語の重要性が考慮されないという問題がある。

また、特許文献１に記載された、単語の共起や係り受け関係などの関係を考慮する手法では、部分的な構造上の関係を利用しているのみであり、文書に基づいて人が捉えるような意味的な関係が考慮されないという問題がある。

本発明は、上記の課題認識に基づいて行なわれたものであり、単語が出現する状況や、単語間の意味的関係を用いて、より精度良く単語の重み付けをすることの出来る主題抽出装置を提供するものである。

［１］上記の課題を解決するため、本発明の一態様による主題抽出装置は、読み込んだ文書データから表現を抽出する表現抽出部と、表現と表現との意味的な関係を表わす関係データを取得する関係獲得部と、抽出された前記表現の前記文書データにおける出現頻度に基づく第１重要度を算出する第１重要度評価部と、前記文書データに含まれる２個の表現をそれぞれ始点表現および終点表現として、前記関係獲得部が取得した関係データを用いて前記始点表現と前記終点表現とを１段階以上の前記関係で接続したときの前記始点表現から前記終点表現に至る関係密度の総和に基づき前記終点表現の第２重要度を算出するとともに、前記文書データに含まれる前記表現に関して前記第１重要度と前記第２重要度とに基づく総合重要度を算出する第２重要度評価部と、算出された前記総合重要度に基づいて前記表現を前記文書データの主題として出力する主題出力部と、を具備することを特徴とする。

ここで、表現とは、言語表現におけるまとまった単位である。表現の例は、単語や、熟語や、複数の単語または熟語の組などである。そして、第１重要度評価部が算出する第１重要度は、表現の出現頻度や場合に応じて他の要素に基づいて計算されるものである。第１重要度は、関係獲得部が取得した意味的関係に依存しない値である。第２重要度は、関係獲得部が取得した意味的関係に基づいて算出される値である。始点表現から終点表現に至る関係密度とは、始点表現から終点表現に至る経路における１個以上の関係の各々における密度（遷移確率）を推移的に連結して得られる値である。一例としては、直列な多段の関係における関係密度は、各段の関係における関係密度の積により計算される。また、上記「関係密度の総和」とは、ある終点表現に接続される始点表現が複数存在するときに、各々の始点表現から当該終点表現までの関係密度を全てたし合わせた値である。

［２］また、本発明の一態様は、上記の主題抽出装置において、前記第２重要度評価部は、前記関係を成す２個の表現間の遷移確率に基づき、前記始点表現から前記終点表現に至るまでの全ての段階の関係に対応する前記遷移確率の積による遷移確率を、当該始点表現から当該終点表現に至る関係密度として計算する、ことを特徴とする。

［３］また、本発明の一態様は、上記の主題抽出装置において、前記第２重要度評価部は、前記関係を第１表現から第２表現への遷移の関係として、前記第１表現からの全ての関係の数のうちの、前記第１表現から前記第２表現への関係の数の割合を、当該第１表現および第２表現の間の前記遷移確率として計算する、ことを特徴とする。

［４］また、本発明の一態様は、上記の主題抽出装置において、前記第２重要度評価部は、前記始点表現と前記終点表現とを接続する前記関係の段階数が所定の上限値以下である経路のみに基づいて前記第２重要度を算出する、ことを特徴とする。

［５］また、本発明の一態様は、コンピューターを、上記の主題抽出装置として機能させるためのプログラムである。

本発明によれば、既存の言語リソースから獲得可能な単語間の関係（具体的には、例えば、類似関係、因果関係、上位下位関係、属性関係など）を利用して、文書中に出現した他の関連単語についての情報に基づいて単語の重要度を付与できる。このような単語の重要度により、文書から主題を抽出することができる。

本発明の実施形態による主題抽出装置の機能構成を示したブロック図である。同実施形態による主題抽出装置の全体的な処理の手順を示すフローチャートである。同実施形態による第１重要度評価部が各単語に付与した重要度のデータ例を示す概略図である。同実施形態による第２重要度評価部の処理手順を詳細に示すフローチャートである。

次に、図面を参照しながら、本発明の実施形態について説明する。
［第１の実施形態］
図１は、本実施形態による主題抽出装置の機能構成を示すブロック図である。図示するように、主題抽出装置１は、文書記憶部１１と、単語抽出部１２（表現抽出部）と、第１重要度評価部１３と、第２重要度評価部１４と、主題抽出結果出力部１５（主題出力部）と、単語関係獲得部１８（関係獲得部）とを含んで構成される。

文書記憶部１１は、多数の文書のデータを記憶する。これらの文書の各々は、自然言語で書かれたテキストを含んでいる。文書記憶部１１が記憶する文書の内容は、例えば、テレビやラジオの放送番組の概要を表わした概要文である。文書記憶部１１は、例えば、磁気ディスク装置や半導体メモリなどの記憶手段を用いて実現される。

単語抽出部１２は、文書記憶部１１に記憶されている文書のうち、指定された文書に含まれる文の形態素解析処理を行い、文に含まれる単語（表現。名詞や動詞など。）を抽出する。形態素解析の処理自体は、既存の技術を用いて行なうことが出来る。例えば、下記のウェブページに記載されているＭｅＣａｂは、利用可能な形態素解析器の一つである。「MeCab: Yet Another Part-of-Speech and Morphological Analyzer」ＵＲＬ http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

第１重要度評価部１３は、単語抽出部１２によって抽出された単語の文書データにおける出現頻度に基づく重要度（第１重要度）を算出する。第１重要度評価部１３は、出現頻度に加えて、単語の共起や係り受け関係などの関係を考慮して単語の重要度を算出するようにしても良い。

単語関係獲得部１８は、ある単語と他の単語との関係を獲得する。ここで、単語間の関係とは、類似関係や、因果関係や、上位下位関係や、属性関係や、あるものとその材料との関係や、ある場所とその場所の名物との関係や、作者（作家、著者、作詞または作曲者等）と作品名との関係などである。単語間の関係を予め獲得しておくためには、例えば、ウェブから得られるテキストなどを元として、単語間関係獲得ツールなどを利用する。単語間関係獲得ツール自体は既存技術を利用して実現できる。一例として、上位下位関係は、日本語で「ＸはＹである」あるいは「ＸはＹの一種である」などと言えるときにＸとＹとの間で成り立つ関係であり、この場合にＸは下位概念であり、Ｙは上位概念である。上位下位関係の単語を獲得するには、参考ＵＲＬ［http://alaginrc.nict.go.jp/hyponymy/］にも記載された手法を利用することができる。この手法では、インターネットを介して、ウェブ上の事典等からＸＭＬ（Extensible Markup Language）形式のデータを取得し、予め機械学習した結果を用いて、上位概念の単語と下位概念の単語とのペアを獲得する。この手法により数百万組の関係を獲得できる。また、意味的関係抽出ツールを利用して、因果関係や、場所と名物との関係や、音楽家と曲名との関係など、様々な意味的関係を獲得する。意味的関係抽出ツール自体は、参考ＵＲＬ［http://alaginrc.nict.go.jp/resources/nictmastar/resource-info/abstract.html］などにも記載されているように、既存技術を利用して獲得できる。なお、これらのツールを使わず、手作業で単語間の関係を獲得した上で記憶装置（磁気ディスク装置や、半導体メモリ等）に蓄積しておき、単語関係獲得部１８がその記憶装置から読み出すようにしても良い。

第２重要度評価部１４は、単語間の関連性を評価することにより、第１重要度評価部１３の処理で得られた各単語に対する重要度の重みを、対象文における文脈を考慮した重みに更新する。言い換えれば、第２重要度評価部１４は、単語関係獲得部１８が取得した単語間の意味的な関係に基づく単語の重要度（第２重要度）を算出し、第１重要度と第２重要度とに基づく総合重要度を算出する。より具体的には、第２重要度評価部１４は、処理対象の文書データに含まれる２個の単語（表現）をそれぞれ始点表現および終点表現として、単語関係獲得部１８が取得した関係データを用いて始点表現と終点表現とを１段階以上の関係で接続したときの始点表現から終点表現に至る関係密度の総和に基づき終点表現の第２重要度を算出する。また、処理対象の文書データに含まれる単語に関して第１重要度と第２重要度とに基づく総合重要度を算出する。

主題抽出結果出力部１５は、算出された前記総合重要度に基づいて重要度の高い単語を、文書データの主題として出力する。

次に主題抽出装置１の動作手順について説明する。
図２は、主題抽出装置１による処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップＳ１において、単語抽出部１２は、文書記憶部１１に記憶されている文書データのうち、処理対象として指定された文書データについて、単語抽出の処理を行なう。具体的には、単語抽出部１２は、指定された文書データに含まれる文の形態素解析処理を行い、含まれる単語を抽出する。

ここで、単語抽出処理の実例を表わすデータについて説明する。処理対象として指定された文書データが表わす概要文の一例は、表１に示す通りである。

また、表１に示したデータを元に単語抽出部１２が処理した結果、抽出された単語のリストは、表２に示す通りである。

本例では、単語抽出部１２が抽出の対象とする品詞は、名詞のみである。なお、抽出対象の品詞は、名詞のみとしても良く、名詞と動詞としても良く、名詞と動詞と形容詞としても良い。この他にも、複数の品詞の組合せを抽出対象としても良い。

次にステップＳ２において、単語関係獲得部１８が、単語間の関係を表わすデータを取得する。単語間の関係を獲得するための方法は、前述の通りである。単語関係獲得部１８が獲得する関係は、処理対象の文書に依存するものではなく一般的なものである。
単語関係獲得部１８が取得する関係のうち、表２に示した単語に関係するものを例示すると、次の通りである。
例えば、単語「井上○彦」は、「作者と著書の関係」によって単語「リアル」に直接関連付けられている。
また、単語「リアル」は、「下位概念と上位概念の関係」（「リアル」の方が下位概念）によって単語「漫画」に直接関連付けられている。
また、単語「漫画」は、「下位概念と上位概念の関係」（「漫画」の方が下位概念）によって単語「本」に直接関連付けられている。
また、単語「本」は、「下位概念と上位概念の関係」（「本」の方が上位概念）によって単語「小説」に関連付けられている。
なお、同一の単語ペア間で、複数の関係が成立することもあり得る。この場合、それらの２単語は、複数の関係によって関連付けられている。

次にステップＳ３において、第１重要度評価部１３は、単語抽出部１２によって抽出された各単語について、重要度を評価する。なお、ここで第１重要度評価部１３はが算出する重要度は、ステップＳ２で獲得した単語間の関係に依存しない値である。第１重要度評価部１３は、例えば、既存技術によるｔｆ−ｉｄｆ（term frequency - inverse document frequency）値を計算することにより、各単語の重要度を評価する。単語ｗのｔｆ−ｉｄｆ値は、下の式（１）および式（２）により計算される。

ここで、ｔｆ（ｗ）は、処理対象の文書における単語ｗの出現頻度である。また、｜Ｄ｜は、処理対象の文書を含む、大量の文書全体の文書数である。また、ｄｆ（ｗ）は前記の大量の文書全体において、単語ｗを含む文書数である。そして、ＴＦＩＤＦ（ｗ）が、第１重要度評価部１３によって算出される

なお、処理対象の文書に関してｔｆ−ｉｄｆ値を求めるために、単語抽出部１２は、文書記憶部１１に記憶されている全文書の各々から単語を抽出する処理を行なう。処理対象の文書以外の文書については、予め単語抽出の処理を行なっておいても良いし、処理対象文書が指定される都度単語抽出の処理を行なうようにしても良い。

図３は、第１重要度評価部１３が各単語に付与した重要度のデータ例を示す概略図である。図示する例では、第１重要度評価部１３が各単語について算出したｔｆ−ｉｄｆ値を示している。例えば、作品のタイトルを構成する単語であって、他の文書においては比較的出現しにくいと考えられる「ＤＵＮＫ」や「ＳＨＯＯＴ」といった単語が、ｔｆ−ｉｄｆ値における上位にランクされている。また、処理対象の文書にも出現しているが、他の文書に置いても出現し易いと考えられる「成長」や「撮影」といった単語が、ｔｆ−ｉｄｆ値における下位にランクされている。

図２に戻って、次にステップＳ４において、第２重要度評価部１４は、ステップＳ３において求められた各単語の重要度に対して、補正係数を乗じることにより、重要度の評価を更新する。なお、ここで用いる補正係数とは、ステップＳ２で獲得されている単語間の関係を加味した重要度である。第２重要度評価部１４による計算を式で表わすと、下の式（３）の通りである。

ここで、ＴＦＩＤＦ（ｗ）は、第１重要度評価部１３によって算出された単語ｗの重要度であり、本例ではｔｆ−ｉｄｆ値である。第１重要度評価部１３がｔｆ−ｉｄｆ値以外で単語の重要度を評価する場合には、適宜、このＴＦＩＤＦ（ｗ）を置き換える。また、ｒ（ｗ，ｄ）は、単語ｗの文書ｄにおける重要度であり、上記の補正係数に当たる。このｒ（ｗ，ｄ）を算出するために、第２重要度評価部１４は、単語関係獲得部１８が獲得した単語間の関係を利用する。なお、ｒ（ｗ，ｄ）を算出する方法の詳細については、後述する。

そして、ステップＳ５において、主題抽出結果出力部１５が、算出されたｗｅｉｇｈｔ２（ｗ）の値に応じて、処理対象文書の主題を表わす単語を出力する。一例としては、算出されたｗｅｉｇｈｔ２（ｗ）の値が最も高い単語を、その文書の主題として出力する。他の例としては、算出されたｗｅｉｇｈｔ２（ｗ）の値が上位である複数個の単語を、その文書の主題として、または主題候補として、出力する。

図４は、第２重要度評価部１４による処理の詳細な手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップＳ４１において、第２重要度評価部１４は、与えられた単語集合間の関係を全て抽出する。ここで、与えられた単語集合とは、処理対象の文書から抽出された全ての単語を要素とする集合である。言い換えれば、表２に列挙した単語の集合である。また、第２重要度評価部１４がここで抽出する全ての関係とは、当該単語集合の要素である単語相互間の関係であって、単語関係獲得部１８が獲得する単語間の関係を用いて、直接ないしは間接に対応付けすることの出来る関係である。

単語間の間接的な関係の例は、次の通りである。即ち、処理対象の文書から抽出された単語には、単語「井上○彦」と単語「小説」とが含まれている。そして、単語「井上○彦」は、「作者と著書の関係」によって単語「リアル」に直接関連付けられている。そして、単語「リアル」は、「下位概念と上位概念の関係」（「リアル」の方が下位概念）によって単語「漫画」に直接関連付けられている。そして、単語「漫画」は、「下位概念と上位概念の関係」（「漫画」の方が下位概念）によって単語「本」に直接関連付けられている。そして、単語「本」は、「下位概念と上位概念の関係」（「本」の方が上位概念）によって単語「小説」に関連付けられている。つまり、単語関係獲得部１８が獲得した単語間の複数の関係を推移的に適用することによって、単語「井上○彦」と単語「小説」とは間接的に関連付けられている。つまり、「井上○彦−リアル−漫画−本−小説」という関係が抽出される。このように、第２重要度評価部１４は、単語関係獲得部１８が獲得した全ての単語間関係を用いて、与えられた単語集合内での単語間の関係を抽出する。

なお、単語間の間接的な関係を抽出する際に、中間単語数の上限値を設けるようにしても良い。例えば、中間単語数の上限値を４とした場合、第２重要度評価部１４は、５個以上の中間単語を経由して関連付けられる関係を抽出しないようにする。このように中間単語数に上限を設けることは、単語間の関係を探索する際に探索空間が広くなりすぎて計算が困難になることを防ぐ。

また、単語間の間接的な関係を抽出する際に、循環を禁止するようにする。例えば、「漫画−本−小説−本−・・・・・・」という関係で単語間の関連付けを行なうことも形式的には可能であるが、このように同一の中間単語（ここでは、単語「本」）が複数回出現することは、単に冗長であるため、避けるようにする。

次にステップＳ４２において、第２重要度評価部１４は、他の単語からの遷移確率を計算する。本ステップの処理では、ステップＳ４１で抽出した単語間の関係を利用して、関係の連鎖における最初の単語から最後の単語に対する遷移確率を計算する。具体例では、関係の連鎖が「井上○彦−リアル−漫画−本−小説」であり、この場合に、最初の単語は「井上○彦」であり、最後の単語は「小説」である。一般に、（ｎ−１）個の関係（つまり、（ｎ−２）個の中間単語）により関連付けられる単語間の遷移確率は、下の式（４）で計算される。

ここで、Ｐ（ｗ_１）は最初の単語ｗ_１の生起確率である。Ｐ（ｗ_１）の値は、便宜的に１としても良いし、テキスト集合全体における単語ｗ_１の出現頻度から計算される確率値を用いても良い。便宜上、ｗ_１を始点表現と呼び、ｗ_ｎを終点表現と呼んでも良い。また、Ｐ（ｗ_ｊ＋１｜ｗ_ｊ）は、下の式（５）で定義される。

つまり、単語関係獲得部１８が既に獲得している関係としてｗ_ｊ（第１表現）からｗ_ｊ＋１（第２表現）への関係を有しており、このｗ_ｊからの全ての関係の数のうちの、ｗ_ｊからｗ_ｊ＋１への関係の数の割合を、当該ｗ_ｊとｗ_ｊ＋１の間の遷移確率とする。この値を、ｗ_ｊからｗ_ｊ＋１への関係密度と捉えることもできる。これは、各々の関係が均等な重みを有する場合の、ランダムウォークによるｗ_ｊからｗ_ｊ＋１への遷移の可能性を表わす。なお、ｗ_ｊからｗ_ｊ＋１への関係数が複数の場合もあり得る（例えば、上位下位関係であり且つ類似関係である場合など）ため、式（５）の右辺の分子は２以上の値にもなり得る。なお、式（５）の他にも、単語間の関係に基づく遷移の可能性を表わす値を他の計算方法で算出し、その値をＰ（ｗ_ｊ＋１｜ｗ_ｊ）としても良い。

式（４）に示した遷移確率を、前記の具体例「井上○彦−リアル−漫画−本−小説」に適用すると、次の通りである。即ち、
Ｐ（小説）＝Ｐ（井上○彦）×Ｐ（リアル｜井上○彦）×Ｐ（漫画｜リアル）×Ｐ（本｜漫画）×Ｐ（小説｜本）

次にステップＳ４３において、第２重要度評価部１４は、式（４）で計算される遷移確率を用いて、単語の重要度（第２重要度、補正係数）を計算する。式（４）に示した生起確率は、単語の連鎖として、ｗ_１−ｗ_２−・・・−ｗ_ｎと遷移する場合の単語ｗ_ｎの生起確率である。与えられた単語集合内から開始して、この単語ｗ_ｎに至る単語の連鎖としては、上記以外の単語の列もあり得る。従って、第２重要度評価部１４は、まず下の式（６）により、単語ｗに至る遷移確率の総和を求める。

ここで、Ｐ_ｒｅｌ（ｗ）は、文書ｄ内に含まれる単語集合による関係ｒｅｌで単語ｗに至る遷移確率であり、式（３）で定義されたものである。
そして、第２重要度評価部１４は、式（６）で定義される値に関して、さらに文書ｄに含まれる全ての単語での総和を算出する。その値Ｚは、式（７）で与えられる。

ここで、ｉは、文書ｄに含まれる単語についてのサフィックスである。
そして、第２重要度評価部１４は、上記のＺを用いた下の式（８）により、式（６）で求められた値のスケーリングを行なう。

式（８）における（１／Ｚ）は、全ての単語ｗに関するＰ_ａｌｌ（ｗ，ｄ）の値の総和を１に調整するための係数である。そして、式（８）で求められたＰ_ａｌｌ（ｗ，ｄ）を用いて、下の式（９）により、ｒ（ｗ，ｄ）を計算する。

但し、ここで、関数ｚ（ｘ）の定義は、下の式（１０）の通りである。

ここで、μは変数ｘの平均値であり、σは変数ｘの標準偏差である。つまり、式（９）における「ｚ（Ｐ_ａｌｌ（ｗ，ｄ））」は、Ｐ_ａｌｌ（ｗ，ｄ）の値を、単語ごとのＰ_ａｌｌ（ｗ，ｄ）の値の分布に基づく分散度合いを表わす値に写像する作用を有する。
式（９）の右辺にはシグモイド関数を用いている。式（９）から明らかなように、０＜ｒ（ｗ，ｄ）＜１である。
そして、既に式（３）で示したように、第１重要度評価部１３が算出した重要度（第１重要度）を、第２重要度評価部１４がこの第２重要度（補正係数）ｒ（ｗ、ｄ）を用いて更新する。

以上を整理すると、第２重要度評価部１４は、単語関係獲得部１８が獲得した関係データにおいて関係を成す２個の単語間の遷移確率に基づき、文書内の２つの単語を接続する１段階または多段階の関係（始点表現から終点表現に至るまでの全ての段階の関係）に対応する遷移確率の積により、両単語間の遷移確率を計算する。この遷移確率を、これら２単語間の関係密度とする。そして、第２重要度評価部１４は、文書データに含まれる２個の表現をそれぞれ始点表現および終点表現として、単語関係獲得部１８が取得した関係データを用いて始点表現と終点表現とを１段階以上の関係で接続したときの始点表現から終点表現に至る関係密度（式（４）で算出するＰ（ｗ_ｎ））の総和（式（６）で算出する総和）に基づき終点表現の第２重要度を算出する。つまり、与えられた文書内において、外部から獲得した意味の関係に基づく、関係の密度を多く（濃く）集める単語（表現）ほど、第２重要度評価部１４が算出する第２重要度の値が大きくなるような計算を行なう。また、第２重要度評価部１４は、単語に関する第１重要度（ｔｆ−ｉｄｆ値等）と第２重要度（式（３）におけるｒ（ｗ，ｄ））とに基づく総合重要度（式（３）におけるｗｅｉｇｈｔ２（ｗ））を算出する。

なお、計算方法から明らかなように、第１重要度評価部１３が算出する重要度は、単語の出現頻度（文書逆頻度（ｉｄｆ）も含む）等のみに基づいて算出される値である。つまり、単語間の意味的な関係からは一切独立した値である。これは、ｔｆ−ｉｄｆによらずに、単語の出現頻度を用いた他の計算方法や、単語同士の共起状況や、文における文法構造を加味して重要度を算出する場合にも同様であり、第１重要度評価部１３は、単語の意味から独立な重要度を算出する。これに対して、第２重要度評価部１４は、単語間の意味的関係に基づく重要度を算出し、これを補正係数として用いる。このような、単語間の意味的関係を取得して利用しながらも、自動的な数値計算のみによって、文書の主題を抽出することが本実施形態による主題抽出装置１の特徴である。

また、前述のように、単語間の間接的な関係を抽出する際に中間単語数の上限値を設ける場合には、第２重要度評価部１４が、文書内の２つの単語（始点表現と終点表現）を接続する関係の段階数が所定の上限値以下である経路のみに基づいて重要度の補正係数（第２重要度）を算出することとなる。段階数に上限を設ける場合には、第２重要度評価部１４、その上限よりも多い段階数で接続される経路による遷移確率を考慮せずに計算を行なう。式（４）からわかるように段階数（ｎ−１）が増えるにつれて、算出されるＰ（ｗ_ｎ）の値は比較的急激に小さくなる。従って、式（６）において総和を取ることを考慮してもなお、段階数に上限を設けることによって計算に入れられなくなる遷移確率の影響は、限定的なものである。つまり、段階数に上限を設けることによって重要度の値としての適切さが損なわれる度合いは限定的であり、且つ段階数に上限を設けることによる計算量削減のメリットを得られる。

［第２の実施形態］
次に、第２の実施形態について説明する。なお、第１の実施形態と共通の事項については記載を省略し、本実施形態に特有の事項のみを以下に記載する。

第１の実施形態においては、第１重要度評価部１３は、ｔｆ−ｉｄｆ値を計算することによって単語の重要度の評価を行なった（図２のフローチャートでのステップＳ３の処理）。これに対して、本実施形態では、第１重要度評価部１３は、単語間の共起や、単語を含む文節間の係り受け関係を加味した重要度を算出する。しかしながら、本実施形態においても、第１重要度評価部１３が算出する重要度は、ステップＳ２で獲得した単語間の関係に依存しない値である。

本実施形態における第１重要度評価部１３は、次の手順で、重要度を算出する（図２のステップＳ３の処理の代替）。
第１重要度評価部１３は、複数の文書からなる文書集合のデータを順次読み込む。そして、各文書に含まれる各文について、概念表現を抽出する処理を行なう。ここで、概念表現とは、１）単語（但し、ここで単語とは自立語に限定。本実施形態の以下の説明において同様。）、２）単語１−単語２の２つ組、３）単語１−単語２−単語３の３つ組、の３種類である。

１）単語：第１重要度評価部１３は、各文に含まれる各単語を、ひとつの概念表現として抽出する。
２）単語１−単語２の２つ組：第１重要度評価部１３は、各文に含まれる単語の２つ組を抽出する。ここで第１重要度評価部１３が抽出する２つ組には、次の２通りのパターンがある。２Ａ）単語１と単語２とが同一文節内に連続して出現する場合の、単語１と単語２の組。２Ｂ）ある文節が他の文節に係る係り受け関係がある場合において、係り元となる文節に含まれる単語１と、係り先となる文節に含まれる単語２との組。

３）単語１−単語２−単語３の３つ組：第１重要度評価部１３は、各文に含まれる単語の３つ組を抽出する。ここで第１重要度評価部１３が抽出する３つ組には、次の４通りのパターンがある。３Ａ）単語１と単語２と単語３とが同一文節内に連続して出現する場合の、それらの３単語の組。３Ｂ）文節１が文節２に係り、さらにその文節２が他の文節３に係る場合において、文節１に含まれる単語１と、文節２に含まれる単語２と、文節３に含まれる単語３との組。３Ｃ）文節１が文節２に係る場合において、文節１内で連続して出現する単語１および単語２と、文節２内に含まれる単語３との、３単語の組。３Ｄ）文節１が文節２に係る場合において、文節１内に含まれる単語１と、文節２内で連続して出現する単語２および単語３との、３単語の組。

与えられた文書集合からの上記の１）、２）、および３）の概念表現の抽出を完了すると、第１重要度評価部１３は、抽出した各々の概念表現の重要度を、次の式により算出する。即ち、（概念表現の重要度）＝（その概念表現の文書集合内における出現回数）／（その文書集合に含まれる文書数）。

［第３の実施形態］
次に、第３の実施形態について説明する。なお、第１の実施形態や第２の実施形態と共通の事項については記載を省略し、本実施形態に特有の事項のみを以下に記載する。
前述の第２の実施形態では、第１重要度評価部１３が概念表現（単語、単語の２つ組、単語の３つ組）を抽出するための処理を列記した。第２の実施形態で記載した抽出方法に代わり、本実施形態による第１重要度評価部１３は、下記の方法で概念表現を抽出する。
１）単語：第２の実施形態における方法と同様に、第１重要度評価部１３は、各文に含まれる各単語を、ひとつの概念表現として抽出する。
２）単語１−単語２の２つ組：第１重要度評価部１３は、第２の実施形態において記載した２Ｂ）の方法のみを用いて、単語１−単語２の２つ組を抽出する。
３）単語１−単語２−単語３の３つ組：第１重要度評価部１３は、第２の実施形態において記載した３Ｂ）の方法のみを用いて、単語１−単語２−単語３の３つ組を抽出する。
そして、第１重要度評価部１３は、抽出した各々の概念表現の重要度を、次の式により算出する。即ち、（概念表現の重要度）＝（その概念表現の文書集合内における出現回数）／（その文書集合に含まれる文書数）。

なお、上述した各実施形態における主題抽出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、単語を表現の単位として扱う代わりに、複数の単語からなる組を表現の単位として扱い、重要度の算出および主題の抽出を行なうようにしても良い。

本発明は、文書から主題を抽出できるため、情報検索や情報理解の手段として利用可能である。また、例えば番組概要文に適用することにより、テレビやラジオ等の放送番組の推薦等のために利用することが出来る。

１主題抽出装置
１１文書記憶部
１２単語抽出部（表現抽出部）
１３第１重要度評価部
１４第２重要度評価部
１５主題抽出結果出力部（主題出力部）
１８単語関係獲得部（関係獲得部）

Claims

読み込んだ文書データから表現を抽出する表現抽出部と、
表現と表現との意味的な関係を表わす関係データを取得する関係獲得部と、
抽出された前記表現の前記文書データにおける出現頻度に基づく第１重要度を算出する第１重要度評価部と、
前記文書データに含まれる２個の表現をそれぞれ始点表現および終点表現として、前記関係獲得部が取得した関係データを用いて前記始点表現と前記終点表現とを１段階以上の前記関係で接続したときの前記始点表現から前記終点表現に至る関係密度の総和に基づき前記終点表現の第２重要度を算出するとともに、前記文書データに含まれる前記表現に関して前記第１重要度と前記第２重要度とに基づく総合重要度を算出する第２重要度評価部と、
算出された前記総合重要度に基づいて前記表現を前記文書データの主題として出力する主題出力部と、
を具備することを特徴とする主題抽出装置。
前記第２重要度評価部は、前記関係を成す２個の表現間の遷移確率に基づき、前記始点表現から前記終点表現に至るまでの全ての段階の関係に対応する前記遷移確率の積による遷移確率を、当該始点表現から当該終点表現に至る関係密度として計算する、
ことを特徴とする請求項１に記載の主題抽出装置。
前記第２重要度評価部は、前記関係を第１表現から第２表現への遷移の関係として、前記第１表現からの全ての関係の数のうちの、前記第１表現から前記第２表現への関係の数の割合を、当該第１表現および第２表現の間の前記遷移確率として計算する、
ことを特徴とする請求項２に記載の主題抽出装置。
前記第２重要度評価部は、前記始点表現と前記終点表現とを接続する前記関係の段階数が所定の上限値以下である経路のみに基づいて前記第２重要度を算出する、
ことを特徴とする請求項１から３までのいずれか一項に記載の主題抽出装置。
コンピューターを、請求項１乃至４のいずれか１項に記載の主題抽出装置として機能させるためのプログラム。