JP5466575B2

JP5466575B2 - 重要語抽出装置とその方法とプログラム

Info

Publication number: JP5466575B2
Application number: JP2010117671A
Authority: JP
Inventors: 済央野本; 敏高橋; 理吉岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-05-21
Filing date: 2010-05-21
Publication date: 2014-04-09
Anticipated expiration: 2030-05-21
Also published as: JP2011248409A

Description

この発明は、テキスト文書のキーワード検索を行うに当たり、テキスト文書から重要語を抽出する重要語抽出装置と、その方法とプログラムに関する。

従来から、テキスト文書中から重要語を抽出する方法としてTF-IDFアルゴリズム（非特許文献１）が知られている。TF-IDFアルゴリズムは、単語wの出現頻度TF（TF:Term Frequency）を、単語wを含む文書の数DF（IDF:Inverse Document Frequency）で除算したTF-IDFを指標として重要語を抽出するアルゴリズムである。このアルゴリズムは、ある文書内で数多く出現しており、且つ他の文書ではあまり出現しない単語ほど重要であるとして重要度を算出する。

図１０に、TF-IDFアルゴリズムを用いた重要語抽出装置９００の機能構成例を示す。その動作を、対話テキストから重要単語を抽出する場合について簡単に説明する。重要語抽出装置９００は、単語出現頻度（TF）算出部９１と、文書出現頻度（DF）算出部９２と、単語重要度（TF-IDF）算出部９３と、テキスト文書集合記憶部９４と、を備える。

単語出現頻度（TF）算出部９１は、例えば音声認識装置によって形態素解析した対話テキストを入力とする。そして、対話テキスト内の各単語の出現頻度TFを算出する。文書出現頻度（DF）算出部９２は、テキスト文書集合記憶部９４に記憶されている多数の文書を参照して各単語を含む文書数DFを算出する。単語重要度（TF-IDF）算出部９３は、出現頻度TFを各単語を含む文書数DFで除算して、対話テキストを構成する各単語の重要度を出力する。

Gerard Salton, Christopher Buckley "TERM-WEIGHTING APPROACHES IN AUTOMATIC TEXT RETRIEVAL" Information Processing & Management Vol.24, No.5,pp.513-523,1988.

例えば、従来のTF-IDFアルゴリズムを用いて電話の料金や故障など電話に関する話題が話されている対話テキストを探す場合を、コンタクトセンタにおける対話を例に説明する。「電話」という単語は「お電話ありがとうございます。」や「お電話番号を教えていただけますでしょうか」など、抽出したい話題とは関係なく、対話テキストに数多く頻出する。その結果、「電話の料金」や「電話の故障」について話されていないのにも係わらず「電話」の出現頻度TFは大きくなる。そこで、他の対話テキストにも一般的に出てくる特徴的でない単語、例えば「電話」の重要度を下げる目的で、「電話」を含む文書の数DFの逆数を、出現頻度TFに乗算する必要があった。

よって、従来のTF-IDFアルゴリズムを用いた重要語抽出装置９００では、各単語を含む文書の数DFを計算するために大量のテキストデータ（テキスト文書集合記憶部９４）を持つ必要があった。その大量のテキストデータを収集するのに要するコストが大きい。

この発明は、このような課題に鑑みてなされたものであり、テキスト文書集合記憶部を必要としない重要語抽出装置とその方法とプログラムを提供することを目的とする。

この発明の重要語抽出装置は、発話分割部と、共通出現単語抽出部と、単語近傍度算出部と、単語重要度算出部と、を具備する。発話分割部は、複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する。共通出現単語抽出部は、その発話単位に共通して出現する共通出現単語を抽出する。単語近傍度算出部は、共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する。単語重要度算出部は、共通出現単語の単語近傍度を入力として、単語近傍度が高く、その回数の多い共通出現単語ほど大きな値となる重要度を算出する。

この発明の重要語抽出装置は、形態素解析済みの対話テキストを入力として、その対話テキストの発話単位から共通出現語を抽出し、その共通出現語の近傍度と出現頻度とから共通出現語の重要度を算出する。したがって、従来技術のようにテキスト文書集合記憶部を必要としない。よって、重要語抽出装置のコストを低減する効果を奏する。

この発明の重要語抽出装置１００の機能構成例を示す図。重要語抽出装置１００の動作フローを示す図。対話テキストの対話構造を示す図。各発話が複数の単語から構成されることを示す図。発話に含まれる共通出現単語の例を示す図。この発明の重要語抽出装置２００の機能構成例を示す図。重要語抽出装置２００の動作フローを示す図。この発明の重要語抽出装置２００′の機能構成例を示す図。この発明の重要語抽出装置３００の機能構成例を示す図。従来のTF-IDFアルゴリズムを用いた重要語抽出装置９００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには
同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の重要語抽出装置１００の機能構成例を示す。その動作フローを図２に示す。重要語抽出装置１００は、発話分割部１０と、共通出現単語抽出部２０と、単語近傍度算出部３０と、単語重要度算出部４０と、を具備する。

重要語抽出装置１００は、複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキスト内の重要語を抽出する装置であり、上記した各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

ここで、形態素とは、言語学の用語で、意味を持つ最小の単位のことである。ある言語において、それ以上分解したら意味をなさなくなるまで分割されたものが形態素であり、品詞情報も付加されている。

この形態素解析済みの対話テキストは、図１に破線で示すように、対話音声データを音声認識装置１で音声認識することで得ることが出来る。また、対話テキスト情報を形態素解析装置２で解析して得ることも出来る。その何れも従来技術である。

発話分割部１０は、複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する（ステップＳ１０）。発話分割部１０は、例えば句読点「。」の単位で対話テキストを分割する。

図３に、発話単位に分割した対話テキストの対話構造を示す。ａx，byは、それぞれ話者Ａと話者Ｂの発話であり、経過時間順にax（x=1,2,…,X）,by（y=1,2,…,Y）で表す。話者Ａの最初の発話単位a1に対して、話者Ｂの発話単位b1があり、以後時間経過に伴って、通常は話者Ａと話者Ｂの発話単位が交互に繰り返される。図４に、各発話単位が複数の単語から構成されることを示す。話者Ａの発話a1は、単語Ｗ₁ ^ａ1，Ｗ₂ ^ａ1，Ｗ₃ ^a1，…，Ｗ_i ^a1で構成される。話者Ｂの発話b1も同様に単語Ｗ₁ ^b1，Ｗ₂ ^b1，Ｗ₃ ^b1，…，Ｗ_j ^b1で構成される。

共通出現単語抽出部２０は、発話単位a1,b1〜aX,bYに共通して出現する共通出現単語を抽出する（ステップＳ２０）。共通出現単語抽出部２０は、各発話単位を構成する単語列から、名詞、動詞、形容詞の内容語を取り出して発話間で共通する共通出現単語を抽出する。

図５に共通出現単語の例を示す。発話a1は、Ｗ₁ ^ａ1：「電話」/Ｗ₂ ^ａ1：「の」/Ｗ₃ ^ａ1：「料金」/Ｗ₄ ^ａ1：「って」/Ｗ₅ ^ａ1：「毎月」/Ｗ₆ ^ａ1：「いくら」/Ｗ₇ ^ａ1：「ぐらい」/Ｗ₈ ^ａ1：「払ってる」/、の８個の単語から、名詞、動詞、形容詞の内容語である「電話」、「料金」、「毎月」、「払う」を取り出し、他の発話単位にも出現する内容語を共通出現単語として抽出する。このとき、動詞は原形に変換される。図５に示す例では、共通出現単語として「電話」、「料金」、「毎月」、「高い」、「プラチナライン」、が共通出現単語として抽出される。

単語近傍度算出部３０は、それぞれの発話を基準として共通出現単語が含まれる発話間隔を発話距離数（式（１），（２））として検出する。

例えば発話a1の共通出現単語Ｗ₁ ^ａ1：「電話」を基準とした話者Ｂとの発話距離数は、発話b1がＷ₁ ^b1：「電話」/Ｗ₂ ^b1：「料金」/Ｗ₃ ^b1：「だいたい」/Ｗ₄ ^b1：「10000」/Ｗ₅ ^b1：「円」/Ｗ₆ ^b2：「いくら」/Ｗ₇ ^ａ1：「ぐらい」１であるので、Ｗ₁ ^b1：「電話」との発話距離数で１となる（式（３））。また、共通出現単語Ｗ₅ ^ａ1：「毎月」を基準とした話者Ｂとの発話距離数は、発話b2がＷ₁ ^b2：「高い」/Ｗ₂ ^b2：「よ」/Ｗ₃ ^b2：「本当」/Ｗ₄ ^b2：「に」/Ｗ₅ ^b2：「毎月」/Ｗ₆ ^b2：「あっぷ」/Ｗ₇ ^ａ2：「あっぷ」/Ｗ₈ ^ａ2：「だよ」であるので、Ｗ₅ ^b2：「毎月」との発話距離数で２となる（式（４））。

発話a1に対する発話bの発話数はｎ個あるので、発話a1の共通出現単語Ｗ₁ ^ａ1：「電話」に関する発話距離数は複数個存在する。共通出現単語Ｗ₅ ^ａ1：「毎月」についても同様である。
次に、単語近傍度算出部３０は、最近傍発話距離数を式（５）と式（６）で求める。

そして、単語近傍度算出部３０は、単語近傍度を式（７）と式（８）で算出する。

つまり、単語近傍度算出部３０は、共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、その発話距離の最小値の逆数を当該共通出現単語の単語近傍度として算出する。なお、発話距離数は単語間の距離で求めても良い。単語間距離の発話距離数も、各発話を構成する単語数が既知のため容易に求めることが可能である。

単語重要度算出部４０は、単語近傍度算出部３０が出力する単語近傍度を入力として、その単語近傍度の値が大きく、且つその数の多い共通出現単語ほど大きな値を示す重要度I_Wを式（９）で算出する（ステップＳ４０）。

図５の発話例を参照して重要度I_Wを説明する。発話a1の共通出現単語Ｗ₁ ^ａ1：「電話」の単語近傍度D_Ｗ1ａ1は１/１、発話b1の共通出現単語Ｗ₁ ^ｂ1：「電話」の単語近傍度D_Ｗ1ｂ1は１/１、発話ａ３の共通出現単語Ｗ₁ ^ａ3：「電話」の単語近傍度D_Ｗ1ａ3は１/２、これらを足し合わせた値２.５が共通出現単語「電話」の重要度I_Wとなる。

同様に、図５に示す範囲での共通出現単語「料金」の重要度は、発話a1の共通出現単語Ｗ₃ ^ａ1：料金と、発話b1の共通出現単語Ｗ₂ ^ｂ1：料金の単語近傍度を足したI_W=１/１＋１/１=２である。共通出現単語「高い」の重要度は、発話a2と発話b2と発話a3の三箇所の単語近傍度を足したI_W=１/１＋１/１＋１/１=３となる。

重要度I_Wはこのように求められるので、共通出現単語の発話距離が近く、その出現頻度が多いほど大きな値を示す。つまり、重要な単語ほど、短い間隔で繰り返し会話の中に登場する特性と合致している。以上説明したように、重要語抽出装置１００は、テキスト文書集合記憶部９４を用いること無く、共通出現単語の重要度を算出することが可能である。

図６に、この発明の重要語抽出装置２００の機能構成例を示す。その動作フローを図７に示す。重要語抽出装置２００は、上記した重要度抽出装置１００に対して照応解析処理部２５を具備する点で異なる。照応解析処理部２５は、発話分割部１０の前に設けられる。他の機能構成は、重要語抽出装置１００と同じである。

照応解析処理部２５は、単語の照応関係を明らかにし、「それ」、「これ」等や代名詞の「彼」、「あなた」等の指示語を、それらが指し示している実態の単語に置換する働きをする。この照応解析方法は、例えば参考文献１（特開２００５−２５６５９号公報）に開示された従来技術である。

照応解析処理部２５が、指示語に置き換えられた共通出現単語を、本来の単語に変換する（ステップＳ２５）。この処理は、共通出現単語を増加させるので、重要度の算出精度を向上させることが出来る。

なお、照応解析処理部２５は、省略語を補完する機能に置き換えても良い。省略語を補完する機能とは、例えば「サーロインステーキは高い」という文書があった時に、「サーロインステーキの値段は高い」といったように本来あるべき語句を補完する技術である。また、「東京ラ」や「東京シ」のように省略して表記された文書を、「東京ディズニーランド」、「東京ディズニーシー」と本来の単語を推定するのも省略語補完技術である。この省略語補完技術については、例えば参考文献２（特開２００８−３０５１２７号公報）に記載された従来技術である。

照応解析処理部２５を、破線で示す省略語補完処理部２６に置き換えても、省略語補完処理部２６は省略された共通出現単語を補完するので、重要度の算出精度を向上させることが出来る。
〔変形例１〕
図８に、この発明の重要語抽出装置２００′の機能構成例を示す。重要語抽出装置２００′は、重要語抽出装置２００に対して更に省略語補完処理部２６を設けたものである。照応解析処理と省略語補完処理の両方を行う事で、重要度の算出精度を更に向上させることが可能になる。

なお、図８では、照応解析処理部２５の後に省略語補完処理部２６を設けた例を示したが、省略語補完処理部２６を照応解析処理部２５の前に移動しても同じ効果を得ることが出来る。

図９に、この発明の重要語抽出装置３００の機能構成例を示す。重要語抽出装置３００は、重要語抽出装置１００と、従来のTF-IDFアルゴリズムを用いた重要語抽出装置９００の機能構成を合体したものである。

単語重要度算出部４５は、単語近傍度とTF-IDF値とに基づいて式（１０）で重要度I_Wを算出する。

ここでαは事前に適当な値に設定される重みである。Nは、テキスト文書集合記憶部９４に記憶された全てのドキュメント数である。

重要語抽出装置３００は、テキスト文書集合記憶部９４を備えることになるが、単語近傍度とTF-IDF値の両方を用いることで、重要度の算出精度をより向上させる効果が期待できる。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する発話分割部と、
上記発話単位に共通して出現する共通出現単語を抽出する共通出現単語抽出部と、
上記共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する単語近傍度算出部と、
上記共通出現単語の単語近傍度を入力として、その単語近傍度が高く、且つその数の多い共通出現単語ほど大きな値を示す重要度を算出する単語重要度算出部と、
を具備する重要語抽出装置。
請求項１に記載した重要語抽出装置において、
更に、
上記発話単語の指示語や代名詞を、それらが指し示す単語に置換する照応解析処理部又は、
上記発話単位内において省略されている語を補完する省略語補完処理部を、
具備することを特徴とする重要語抽出装置。
複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する発話分割部と、
上記発話単位に共通して出現する共通出現単語を抽出する共通出現単語抽出部と、
上記共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する単語近傍度算出部と、
上記発話分割部の出力する発話単位を入力として上記対話テキスト内の各単語の出現頻度TFを算出する単語出現頻度（TF）算出部と、
上記各単語の出現頻度TFを入力としてテキスト文書集合記憶部に記憶されている文書を参照して各単語を含む文書数DFを算出する文書出現頻度（DF）算出部と、
上記単語近傍度と、上記各単語の出現頻度TFと、各単語を含む文書数DFを入力として上記共通出現単語毎の重要度を算出する単語重要度算出部と、
を具備する重要語抽出装置。
発話分割部が、複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する発話分割過程と、
共通出現単語抽出部が、上記発話単位に共通して出現する共通出現単語を抽出する共通出現単語抽出過程と、
単語近傍度算出部が、上記共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する単語近傍度算出過程と、
単語重要度算出部が、上記共通出現単語の単語近傍度を入力として、その単語近傍度が高く、且つその数の多い共通出現単語ほど大きな値を示す重要度を算出する単語重要度算出過程と、
を含む重要語抽出方法。
請求項４に記載した重要語抽出方法において、
更に、
照応解析処理が、上記発話単語の指示語や代名詞を、それらが指し示す単語に置換する照応解析処理過程又は、
省略語補完処理部が、上記発話単位内において省略されている語を補完する省略語補完処理過程を、
含むことを特徴とする重要語抽出方法。
発話分割部が、複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する発話分割過程と、
共通出現単語抽出部が、上記発話単位に共通して出現する共通出現単語を抽出する共通出現単語抽出過程と、
単語近傍度算出部が、上記共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する単語近傍度算出過程と、
単語出現頻度（TF）算出部が、上記発話分割部の出力する発話単位を入力として上記対話テキスト内の各単語の出現頻度TFを算出する単語出現頻度（TF）算出過程と、
文書出現頻度（DF）算出部が、上記各単語の出現頻度TFを入力としてテキスト文書集合記憶部に記憶されている文書を参照して各単語を含む文書数DFを算出する文書出現頻度（DF）算出過程と、
単語重要度算出部が、上記単語近傍度と、上記各単語の出現頻度TFと、各単語を含む文書数DFを入力として上記共通出現単語毎の重要度を算出する単語重要度算出過程と、
を含む重要語抽出方法。
請求項１乃至３の何れかに記載した重要語抽出装置の各部の機能を、コンピュータに実行させるためのプログラム。