JP4333318B2

JP4333318B2 - 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP4333318B2
Application number: JP2003357372A
Authority: JP
Inventors: 克人別所; 義博松尾; 伸章廣嶋; 林　　良彦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-10-17
Filing date: 2003-10-17
Publication date: 2009-09-16
Anticipated expiration: 2023-10-17
Also published as: JP2005122510A

Description

本発明は、話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体に係り、特に、テキスト中の複数の話題を検出し、話題間の関係を抽出・可視化するための話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体に関する。

議事録作成技術として、入力テキストが同一話題の区間の集合へ階層的に分割され、各話題区間から話題語が抽出される（例えば、特許文献１参照）（以下、従来技術１と記す）。

また、入力テキストを同一話題の区間の集合へ分割した後、各話題区間から、時間的に後の話題区間で類似度が閾値以上のものへリンクを張っていく（例えば、非特許文献１参照）（以下、従来技術２と記す）。
特開平８−８７５０１号公報松村真宏，加藤優，大澤幸生，石塚満：議論構造の可視化による論点の発見と理解，Journal of SOFT, Vol.15, No.5,2003.

人間が作る議事録は項目毎に階層的に整理されている。議事録作成者は、記憶に残っているもの、会議の時にメモをとったもの（共に記録しておく必要があると考えた重要事項）を必ず項目毎にまとめ、階層的に整理しようとする。全ての項目を時系列順に忠実に並べようとはしないし、そもそも会議の模様を時系列に細かく追想するのは困難である。そこで、機械が議事録を作成するにあたっても、話題毎の集約・階層化が必要となる。

従来技術１の方法は、１次元のストリームにおける話題区間の階層的分割であるため、隣接していない話題区間で同一話題のもの、あるいは関係の深いものが同じクラスタに属さないことがある。話題区間の階層構成を１次元の制約下で行うため、適切な話題の集約・階層化ができないという問題がある。

従来技術２の方法により、リンク付けられた話題区間の集合を人間が把握することはできるが、そこでできている話題区間群内部のより詳細な話題構成、及び話題区間群同士の類似性を把握することは難しく、よりきめ細かな話題構成を把握することは困難である。議事録においては、会議全体の内容を容易に把握できる必要があり、そのためには大局的なクラスタから局所的なクラスタまでの表示が必要となる。

また、従来技術２の方法では、リンク付けられた話題区間の集合に対して、それを要約する語句・文の抽出への応用は示唆されているものの、具体的な要約処理そのものについては言及されていない。このため、リンク付けられた話題区間の集合の内容を容易に把握することが困難である。

本発明は、上記の点に鑑みなされたもので、入力テキストの話題構造を容易に把握することを可能にする話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明は、テキスト中の複数の話題を検出し、話題間の関係を抽出・可視化するための話題構造抽出装置が実行する話題構造抽出方法において、
テキストを単語単位に分割する形態素解析過程と（ステップ１）、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースを検索することによって、形態素解析過程で得られた各単語に対応するベクトルを取得する単語ベクトル取得過程と（ステップ２）、
単語ベクトル取得過程で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション過程と（ステップ３）、
トピックセグメンテーション過程で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング過程（ステップ４）と、
要約対象のクラスタＣに含まれる各単語について、該クラスタＣ内の単語ベクトルとの距離の自乗の和であるＴｗと、該クラスタＣと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるＵｗを求め、ＵｗをＴｗで除したスコアが大きい単語から順にある個数だけ単語を出力する要約過程と（ステップ５）、
セグメントクラスタリング過程で得られたツリーの上で、要約過程で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力過程（ステップ６）と、を行う。

本発明は、テキスト中の複数の話題を検出し、話題間の関係を抽出・可視化するための話題構造抽出装置が実行する話題構造抽出方法において、
テキストを単語単位に分割する形態素解析過程と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースを検索することによって、形態素解析過程で得られた各単語に対応するベクトルを取得する単語ベクトル取得過程と、
単語ベクトル取得過程で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション過程と（ステップ３）、
トピックセグメンテーション過程で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング過程と、
要約対象のクラスタＣに含まれる各単語について、該クラスタＣ内の単語ベクトルの重心との距離Ｔｗと、該クラスタＣと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Ｕｗを求め、ＵｗをＴｗで除したスコアが大きい単語から順にある個数だけ単語を出力する要約過程と、
セグメントクラスタリング過程で得られたツリーの上で、要約過程で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力過程と、を行う。

また、本発明では、トピックセグメンテーション過程で得られた各セグメント毎に、該トピックセグメンテーション過程に該セグメントＳをより短い区間のセグメントの集合へ分割させる制御を行い、この結果得られた、該セグメントＳ内のセグメント集合をセグメントクラスタリング過程に階層的にクラスタリングさせる制御を行う制御過程を更に行う。

図２は、本発明の原理構成図である。

本発明（請求項１）は、テキストを単語単位に分割する形態素解析手段２１と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベース２７と、
概念ベース２７を検索することによって、形態素解析手段２１で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段２２と、
単語ベクトル取得手段２２で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段２３と、
トピックセグメンテーション手段２３で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段２４と、
要約対象のクラスタＣに含まれる各単語について、該クラスタＣ内の全ての単語ベクトルとの距離の自乗の和であるＴｗと、該クラスタＣと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるＵｗを求め、ＵｗをＴｗで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段２５と、
セグメントクラスタリング手段２４で得られたツリーの上で、要約手段２５で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段２６と、を有する。

本発明（請求項２）は、テキストを単語単位に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
概念ベースを検索することによって、形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
単語ベクトル取得手段で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
要約対象のクラスタＣに含まれる各単語について、該クラスタＣ内の単語ベクトルの重心との距離Ｔｗと、該クラスタＣと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Ｕｗを求め、ＵｗをＴｗで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
セグメントクラスタリング手段で得られたツリーの上で、要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
を有する。

また、本発明（請求項３）は、トピックセグメンテーション手段２３で得られた各セグメント毎に、該トピックセグメンテーション手段２３に該セグメントＳをより短い区間のセグメントの集合へ分割させる制御を行い、この結果得られた、該セグメントＳ内のセグメント集合をセグメントクラスタリング手段２４に階層的にクラスタリングさせる制御を行う制御手段２８を更に併せ持つ。

本発明（請求項４）は、請求項１乃至３の何れか１項に記載の話題構造抽出装置を構成する手段としてコンピュータを機能させるための話題構造抽出プログラムである。

本発明（請求項５）は、請求項４に記載の話題構造抽出プログラムを格納したコンピュータ読み取り可能な記憶媒体である。

上記の請求項１、２で述べた内容により、入力テキストを同一話題の区間であるセグメントの集合へ分割した後、セグメント集合を階層的にクラスタリングすることにより、話題毎の集約・階層化が可能となる。各クラスタから要約文が抽出されることにより、入力テキストは図３に示すようなツリー構成で表示される。各セグメントはツリーにおけるリーフとなり、ツリー上、上位ノードが議事録における大項目、下位ノードが小項目に相当することになる。上位ノード群より会議における主要項目を容易に把握でき、下位ノードを読むにつれ、各主要項目の詳細情報を知ることができる。このように会議の話題がトップダウン式に整理され構造化されているので、ユーザは容易にその内容を理解することが可能となる。

また、請求項１，２で述べた処理により、クラスタＣの話題を表す単語で、なおかつＣと兄弟関係にあるクラスタ群と差異化するものが選定される。これにより、出力ツリーの各ノードにおいて、該ノードと兄弟関係にあるノードの単語群となるべく一致することがなく、該ノードに特徴的な単語群を表示することが可能となる。

また、本発明においては、トピックセグメンテーション過程（手段）において、各文を１セグメントとした上で、セグメントクラスタリング過程（手段）で、全文集合をクラスタリングすることも原理的には可能である。しかしながら、実運用でそのようにすると、異なる話題に属する文で、類似性の高いものは同一クラスタに誤って分類されるため、クラスタリング結果の精度は低いものとなる。高精度なクラスタリング結果を得るために、ある程度の長さを持つセグメントに分割した上でクラスタリングする必要があり、本発明において、セグメントクラスタリング過程（手段）のみならずトピックセグメンテーション過程（手段）も具備する意義もそこにある。

一方、請求項３で述べた処理により、最初に得たセグメントよりももっと粒度の高いセグメント（場合によっては１文のみからなるセグメント）を、高精度のままクラスタリング結果のツリーにおけるリーフとすることが可能となる。なぜなら、より粒度の高いセグメント（小セグメントと呼ぶ）は、それを含むセグメント内の小セグメントとしか同一クラスタとなり得ず、異なる話題のセグメント内の小セグメントとは同一クラスタとなり得ないからである。

以下、図面と共に本発明の実施の形態を説明する。

図４は、本発明の一実施の形態における一連の動作を示すフローチャートであり、図５は、本発明の一実施の形態における話題構造抽出装置の構成を示す。

話題構造抽出装置は、形態素解析部２１、単語ベクトル取得部２２、トピックセグメンテーション部２３、セグメントクラスタリング部２４、要約部２５、話題構造出力部２６、概念ベース２７、制御部２８から構成される。

本発明は、形態素解析部２１が、入力テキストを単語単位に分割する形態素解析過程（ステップ１１）と、単語ベクトル取得部２２が、単語の意味を表現するベクトルが格納されている記憶手段である概念ベース２７を検索することによって、形態素解析過程（ステップ１１）で得られた各単語に対応するベクトルを取得する単語ベクトル取得過程（ステップ１２）と、トピックセグメンテーション部２３が、単語ベクトル取得過程（ステップ１２）で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション過程（ステップ１３）と、セグメントクラスタリング部２４が、トピックセグメンテーション過程（ステップ１３）で得られたセグメント集合を、各セグメントを該セグメントに含まれる単語ベクトルの集合と見做して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングするセグメントクラスタリング過程（ステップ１４）と、要約部２５が、セグメントクラスタリング過程（ステップ１４）で得られた各クラスタに対し、該クラスタに含まれるテキストから該クラスタを特徴付ける要約文を抽出する要約過程（ステップ１５）と、話題構造出力部２６が、セグメントクラスタリング過程（ステップ１４）で得られたクラスタ間の関係と、要約過程（ステップ１５）で得られた各クラスタの要約文を出力する話題構造出力過程（ステップ１６）とからなる。

また、本発明は、要約過程（ステップ１５）において、要約対象のクラスタＣに含まれる単語の内、該クラスタＣ内の任意の単語ベクトルとの距離が小さく、該クラスタＣの上位クラスタの下位クラスタで該クラスタＣ以外のクラスタ群に含まれる任意の単語ベクトルとの距離が大きくなるような単語から順にある個数だけ単語を出力する。

また、本発明は、要約過程（ステップ１５）において、要約対象のクラスタＣに含まれる単語の内、該クラスタＣ内の単語ベクトルの重心との距離が小さく、該クラスタＣの上位クラスタの下位クラスタで該クラスタＣ以外のクラスタ群に含まれる単語ベクトルの重心との距離が大きくなるような単語から順にある個数だけ単語を出力する。

また、本発明では、制御部２８が、トピックセグメンテーション過程（ステップ１３）で得られた各セグメント毎に、トピックセグメンテーション過程（ステップ１３）において該セグメントＳをより短い区間のセグメント集合へ分割し、この結果得られた、該セグメントＳ内のセグメント集合をセグメントクラスタリング過程（ステップ１４）において階層的にクラスタリングする。この際、トピックセグメンテーション過程（ステップ１３）において、階層的にセグメンテーションを行っておき、セグメントクラスタリング過程（ステップ１４）において各階層レベル毎に、該階層レベルに属するセグメント集合のクラスタリングを行う。あるいは、トピックセグメンテーション過程（ステップ１３）において非階層的にセグメンテーションを行い、この結果得られたセグメント集合をセグメントクラスタリング過程（ステップ１４）においてクラスタリングした後、再び、トピックセグメンテーション過程（ステップ１３）において、各セグメント毎にその内部で非階層的にセグメンテーションを行い、この結果得られたセグメント集合をセグメントクラスタリング過程（ステップ１４）においてクラスタリングするというように、トピックセグメンテーション過程（ステップ１３）とセグメントクラスタリング過程（ステップ１４）を繰り返すように行うことも可能である。トピックセグメンテーション過程（ステップ１３）におけるセグメンテーションは指定した階層数のセグメンテーション結果を出力した段階、あるいは、任意のセグメントが１文になった段階で停止する。

以下、各構成要素の詳細な説明を行う。

形態素解析部２１は、テキストを単語単位に分割する。この結果得られた単語の内、品詞情報等を参照して、内容語のみを残す。

単語ベクトル取得部２２は、単語の意味を表現するベクトルが格納されている記憶手段である概念ベース２７を検索することによって、形態素解析過程（ステップ１１）で得られた各単語に対応するベクトルを取得する。

図６は、本発明の一実施の形態における概念ベースの例を示す。

同図に示す概念ベース２７は、ハードディスク等の記憶手段に格納され、各単語毎に、ｆ次元ベクトル値が付与されている。概念ベース２７中の単語は、名詞や動詞、形容詞等の自立語である。概念ベース２７における単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されている。

概念ベースの例としては、特開平６−１０３３１５の「類似性判別装置」や、特開平７−３０２２６５の「類似性判別用データ精錬方法及びこの方法を実施する装置」で開示されているデータベースがある。

また、Deerwesterの論文(Deerwester, S., Dumais,S.T., Furnas, G.W., Landauer, T.K., and Harshman, R.: Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, pp. 391-407(1990))では、単語の文書における頻度を記録した単語・文書間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。Schutzeの論文(Schutze,H.:Dimensions of Meaning, Proc. of Supercomputing’92, pp.786-796(1992))では、コーパス中の単語間の共起頻度を記録した単語・単語間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。

トピックセグメンテーション部２３は、単語ベクトル取得過程（ステップ１２）で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割する。トピックセグメンテーションの方法としては、特開２００２−３４２３２４や「別所克人：クラスター内変動最小アルゴリズムに基づくトピックセグメンテーション，情報処理学会研究報告，Vol. SIG-NL 154, pp.177-183(2003)」で述べられている方法がある。

特開２００２−３４２３２４で述べられている方法の一実施例では、任意の単語境界の前後に、ある個数の単語の集合である単語列をとり、各単語列に対し、各単語列を構成する単語のベクトルの重心を算出し、前後の単語列に対応する重心間の余弦測度を該単語境界の結束度としてとり、この結束度が極小となる単語境界を話題区間の境界と認定する。

また、上記の文献「クラスター内変動最小アルゴリズムに基づくトピックセグメンテーション」で述べられている方法の一実施例では、任意の区間に対して、該区間内の単語ベクトルの重心と各単語ベクトルとの間の距離の自乗の和をコストとして求め、任意の区間列のコストを、該区間列に含まれる区間のコストの和として、一定の条件下でコストが最小になる区間列を話題区間列と認定する。

いずれの方法も、あるセグメンテーション結果の各セグメント内で、より細分化されたセグメントの列があるように、階層的なセグメンテーション結果を出力することが可能である。それは、話題区間の境界として尤度の高い境界から順に出力していく方法で可能である。あるいは、一旦出力したセグメンテーション結果中の各セグメントを、新たな入力テキストとしてセグメンテーション処理する方法によっても可能である。

セグメントクラスタリング部２４は、トピックセグメンテーション過程（ステップ１３）で得られたセグメント集合を、各セグメントを該セグメントに含まれる単語ベクトルの集合と見做して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングする。

階層的なクラスタリングアルゴリズムの一例を説明する。

入力テキスト中の全単語ベクトルの集合（同一単語が複数存在する場合、対応する単語ベクトルは別物とする）を、

とし、Ｘの分割であるクラスタ集合を

とする。

クラスタＣ_ｉの重心Ｍ（Ｃ_ｉ）は、

と計算される。クラスタＣ_ｉのコストＥ（Ｃ_ｉ）を

とし、クラスタ集合ＤのコストＥ（Ｄ）を、

とする。これから述べるクラスタリングアルゴリズムは、クラスタリングの過程で、このコストＥ（Ｄ）が常に最小となるように、クラスタの併合を行っていくものである。即ち、クラスタＣ_ｉ，Ｃ_ｊ（ｉ≠ｊ）間の距離ΔＥ（Ｃ_ｉ，Ｃ_ｊ）を、Ｃ_ｉ，Ｃ_ｊを併合した時のコストＥ（Ｄ）の増分とし、距離が最小となるクラスタＣ_ｉ，Ｃ_ｊ（ｉ≠ｊ）を併合する。ΔＥ（Ｃ_ｉ，Ｃ_ｊ）は、

となる。

トピックセグメンテーション過程（ステップ１３）で得られたセグメントを、Ｓ_１，Ｓ_２，・・・，Ｓ_ｎとする。これは、Ｘの分割であり、各Ｓ_ｉはそれに含まれる単語ベクトルの集合である。｜Ｓ_ｉ｜は、Ｓ_ｉに含まれる単語ベクトルの個数であり、Ｍ（Ｓ_ｉ）は、Ｓ_ｉに含まれる単語ベクトルの重心である。具体的なクラスタリングアルゴリズムは以下のようになる。

・階層的クラスタリングアルゴリズム：
ステップ１０１）
初期のクラスタ集合を、Ｃ_ｉ＝Ｓ_ｉ（１≦ｉ≦ｎ）とする。各ＣｉにコストＥ（Ｄ）を対応付けて記憶しておく。クラスタＣ_ｉ，Ｃ_ｊ（１≦ｉ，ｊ≦ｎ，ｉ≠ｊ）の間の距離ΔＥ（Ｃ_ｉ，Ｃ_ｊ）を式（１）によって計算する。

ステップ１０２）
距離最小のクラスタ対を探して結合する。

Ｃ_ｑとＣ_ｒをＤから取り除き、Ｃ´＝Ｃ_ｑ∪Ｃ_ｒをＤに追加する。│Ｃ´│＝│Ｃ_ｑ│＋│Ｃ_ｒ│である。

│Ｄ│：＝│Ｄ│―１とクラスタの数を１つ減らす。

Ｅ（Ｄ）：＝Ｅ（Ｄ）＋ΔＥ（Ｃ_ｑ，Ｃ_ｒ）とし、Ｃ´にコストＥ（Ｄ）を対応付けて記憶しておく。

Ｃ_ｑとＣ_ｒの親ノードをＣ´とし、Ｃ´の子ノードをＣ_ｑとＣ_ｒとする。

│Ｄ│＝１ならば終了。│Ｄ│≠１ならばステップ１０３に進む。

ステップ１０３）
全てのＣｉ∈Ｄ，Ｃｉ≠Ｃ´についてクラスタ間の距離ΔＥ（Ｃ´，Ｃｉ）を再計算する。ΔＥ（Ｃ´，Ｃｉ）は、

として計算できる。ステップ１０２に進む。

クラスタリングアルゴリズムの処理が終了すると、図７のような２分木が得られる。ルーフのＮ１，・・・，Ｎ８のそれぞれは、トピックセグメンテーション過程（ステップ１３）で得られたセグメントである。Ｎ１，・・・，Ｎ８は、セグメントテキスト中における順序に従って並んでいるとは限らない。クラスタ対が結合されることによってできるクラスタには、それまでの添数の最大値に１増やした添数のついたラベルが付与されている。また、各クラスタはそれに対応付けられているコストＥ（Ｄ）のレベル（縦方向の位置）には位置されている。

ツリー出力の際の、任意のノードの直下にくる子ノードの順序を例えば次のように定めることもできる。クラスタリングアルゴリズムのステップ１０２で、Ｃ´の子ノードＣ_ｑ，Ｃ_ｒそれぞれに対し、配下のセグメントで、テキスト中、一番前方にあるものをとり、その一番前方にあるセグメントがより前方にある子ノードを前、もう一方の子ノードを後ろとして記憶しておく。

Ｃ_ｑ，Ｃ_ｒには、配下のセグメントで、テキスト中、一番前方にあるものが対応付けられており、Ｃ´には、その中でより前方にあるセグメントを対応付ける。あるいは、Ｃ_ｑ，Ｃ_ｒには、配下のセグメント集合がテキスト中の出現順にソートされた上で対応付けられており、それらをマージしテキスト中の出現順にソートしたものを、Ｃ´に対応付けるというようにしてもよい。

図７のような２分木では階層数が非常に多くなる傾向があり、話題構造としては複雑になるという問題がある。そこで、クラスタリングアルゴリズムの処理終了後、ツリーを指定した階層数のツリーに変形する処理を行う。具体的なツリー変形アルゴリズムは以下のようになる。

・ツリー変形アルゴリズム：
ステップ２０１）
ルートノードのコストｅ１とリーフノードのコストｅ０を端点とする区間を指定した数で等分する。図７では３等分しており、新しくできる等分点はｆ１，ｆ２でる。以下、等分点といったときは、端点も含めるものとする。

ステップ２０２）
ルートノードを引数にして関数Ａを呼び出す。

関数Ａ）
引数のノードＸがリーフなら終了する。

Ｘがリーフでないならば、Ｘのコスト未満の等分点の最大値ｍを求める（Ｘのコストがｅ０に等しいならｅ０そのものとする）。

Ｘのノードを展開し、展開先ノードのコストがｍより大きい限り展開先ノードを展開する。このようにして、コストがｍ以下となるノード群が得られる。

Ｘの新しい子を求めたノード群にし、求めたノード群の新しい親をＸとする。

求めたノード群の中のそれぞれのノードを引数として関数Ａを再帰呼び出しする。

以上述べたアルゴリズムを図７のような２分木に適用することによって図８のような、階層数がより少なく、１ノードの子ノードが３個以上の場合もあり得るようなツリーが得られる。

以上、セグメントクラスタリング部２４の処理の一例を述べたが、初期のクラスタ集合を、Ｃ_ｉ＝｛Ｍ（Ｓ_ｉ）｝（１≦ｉ≦ｎ）としてもよい。

また、クラスタ間の距離を、コストに基づく方法以外の方法で定義して処理することも可能である。

また、階層的なクラスタリングアルゴリズムは、最初、セグメント集合自体を１つのクラスタとし、これを分割していくトップダウンの方式であってもよい。

ここで述べたクラスタリングアルゴリズムにおいては、各クラスタの親となるクラスタは一つであるが、同一のクラスタが複数の異なるクラスタの子となるようにアルゴリズムを拡張することも可能である。

要約部２５は、前述のセグメントクラスタリング過程（ステップ１４）で得られた各クラスタに対し、該クラスタに含まれるテキストから該クラスタを特徴付ける要約文を抽出する。

要約部２５においては、請求項１で述べたように、要約対象のクラスタＣに含まれる単語の内、Ｃ内の任意の単語ベクトルとの距離が小さく、Ｃの上位クラスタの下位クラスタでＣ以外のクラスタ群に含まれる任意の単語ベクトルとの距離が大きくなるような単語から順にある個数だけ単語を出力する。この処理の例を以下に説明する。

あるクラスタＣ内の単語集合（同一単語が複数存在する場合、別物とする）をＦ、Ｆ内の同一単語をユニークにした集合をＧとし、任意の単語ｗのベクトルをｖ_ｗとしたとき、

とおく。これは、Ｇ内のある単語ｗに対して定まる値で、ｗのベクトルとＣ内の任意の単語ベクトルとの距離の自乗の和である。

また、ツリー上、Ｃと兄弟関係にあるクラスタ群Ｈ_１，Ｈ_２，…，Ｈ_ｍに対し、Ｉ＝Ｈ_１∪Ｈ_２∪・・・∪Ｈ_ｍとしたとき、Ｉ内の単語集合（同一単語が複数存在する場合、別物とする）をＪとする。

とおく。これも、Ｇ内のある単語ｗに対して定まる値で、ｗのベクトルとＩ内の任意の単語ベクトルとの距離の自乗の和である。

スコアＵ_ｗ／Ｔ_ｗの大きい順にＧ内の単語をソートする。Ｊ＝φの場合は、スコアＴｗの小さい順にＧ内の単語をソートする。より厳密にはＧ内の単語を以下の規則により降順にソートする。

・Ｊ＝φのときは、Ｕ_ｗ＝０とする。

・Ｔ_ｗ＝０とＴ_ｗ＞０なら、Ｔ_ｗ＝０となる方を大とする。

・Ｔ_ｗ＝０同士なら、Ｕ_ｗの値の大きい方を大とする。

・Ｔ_ｗ＞０同士で、共にＵ_ｗ＝０なら、Ｔ_ｗの値の小さい方を大とする。

・Ｔ_ｗ＞０同士で、少なくとも一方がＵ_ｗ＞０なら、Ｕ_ｗ／Ｔ_ｗの大きい方を大とする。

ソートした後、最大、指定した数（ツリーにおける全階層レベルにわたって共通としてもよいし、階層レベルごとに異なるようにしてもよい）だけの上位の単語を出力する。あるいは、単語に付随したスコアがある閾値を満足する単語を出力するようにしてもよい。さらに、スコアがある閾値を満足する単語で最大、指定した数だけの上位の単語を出力するようにしてもよい。

図９は、各クラスタからスコアがある閾値以上の、最大５個の上位単語を出力して得られるツリーである。

なお、請求項１においては、兄弟関係にあるクラスタ群に含まれる単語ベクトルとの距離を考慮しないで単語を順序付けることも可能である。その場合は、常にスコアＴｗの小さい順にＧ内の単語をソートする。

また、要約部２５においては、請求項３，７，１１で述べたように、要約対象のクラスタＣに含まれる単語の内、Ｃ内の単語ベクトルの重心との距離が小さく、Ｃの上位クラスタの下位クラスタでＣ以外のクラスタ群に含まれる単語ベクトルの重心との距離が大きくなるような単語から順にある個数だけ単語を出力する。この処理の例を説明する。

あるクラスタＣ内の単語集合（同一単語が複数存在する場合、別物とする）をＦ、Ｆ内の同一単語をユニークした集合をＧとし、任意の単語ｗのベクトルをｖ_ｗとし、Ｃの重心をＭ（Ｃ）としたとき、
Ｔ_ｗ＝‖Ｍ（Ｃ）−ｖ_ｗ‖ ｗ∈Ｇ
とおく。これは、Ｇ内のある単語ｗに対して定まる値で、ｗのベクトルとＣ内の単語ベクトルの重心との距離である。

また、ツリー上、Ｃと兄弟関係にあるクラスタ群Ｈ_１，Ｈ_２，…，Ｈ_ｍに対し、Ｉ＝Ｈ_１∪Ｈ_２∪・・・∪Ｈ_ｍとし、Ｉの重心をＭ（Ｉ）としたとき、
Ｕ_ｗ＝‖Ｍ（Ｉ）−ｖ_ｗ‖ ｗ∈Ｇ
とおく。これも、Ｇ内のある単語ｗに対して定まる値で、ｗのベクトルとＩ内の単語ベクトルの重心との距離である。

・Ｊ＝φのときは、Ｕ_ｗ＝０とする。

・Ｔ_ｗ＝０同士なら、Ｕ_ｗの値の大きい方を大とする。

ソートした後、最大、指定した数（ツリーにおける全階層レベルにわたって共通としてもよいし、階層レベル毎に異なるようにしてもよい）だけの上位の単語を出力する。あるいは、単語に付随したスコアがある閾値を満足する単語を出力するようにしてもよい。更に、スコアがある閾値を満足する単語で最大、指定した数だけの上位の単語を出力するようにしてもよい。

この処理によっても、図９と同様のツリーが出力される。

なお、請求項２においては、兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離を考慮しないで単語を順序付けることも可能である。その場合には、常にスコアＴ_ｗの小さい順にＧ内の単語をソートする。

なお、要約部２５においては、「廣嶋伸章，長谷川隆明，山崎毅文：統計的手法に基づくWebページからのヘッドライン生成，情報処理学会研究報告，Vol.SIG-NL 149, pp.45-50 (2002)」で述べられているような要約アルゴリズムを用いることにより、各クラスタに含まれるテキストから該クラスタを特徴付ける語句や文、文章を抽出することも可能である。このようなアルゴリズムを用いることにより、例えば、図３に示したようなツリー上の各ノードに語句相当の要約文が表示されている話題構造を出力することができる。また、リーフにあたるセグメントの要約として、図３では語句相当のものを表示しているが、より詳細な文ないし文章相当の要約文も抽出可能である。さらに、一セグメントは、同一話者による発言区間によって細分されるので、この細分して得られる区間それぞれから要約文を抽出することも可能である。

話題構造出力部２６は、セグメントクラスタリング過程（ステップ１４）で得られたクラスタ間の関係である、各クラスタをノードとするツリーと、要約過程（ステップ１５）で得られた各クラスタの要約文を、要約文は該クラスタに対応するノードのラベルとした上で、ディスプレイやプリンタに出力する。出力の結果の例は、図３や図９に示すツリーである。

また、各ノードに、配下にあるテキストの全文（セグメント単位に分割されているが、セグメントはテキスト中の出現順になっている）をリンク付け、ユーザが見たいノードの項目の実際の発言内容を読むことができるようにすることも可能である。

制御部２８は、トピックセグメンテーション過程（ステップ１３）で得られた各セグメント毎に、トピックセグメンテーション過程（ステップ１３）において該セグメントＳをより短い区間のセグメントの集合へ分割し、この結果得られた、該セグメントＳ内のセグメント集合をセグメントクラスタリング過程（ステップ１４）において階層的にクラスタリングする。

例えば、図１０に示したように、トピックセグメンテーション過程でテキストをＳ_１，Ｓ_２，Ｓ_３，Ｓ_４に分割する。これを階層レベルLevel1のセグメンテーション結果とする。トピックセグメンテーション過程で、Level1のセグメンテーション結果を得た直後に、セグメント境界を固定したままセグメンテーション処理を続行することにより、各Ｓ_ｉ内部が細分されたLevel2のセグメンテーション結果を得ることができる。Level2のセグメンテーション結果においては、例えば、セグメントＳ１はより粒度の高いセグメントＳ_１１、Ｓ_１２、Ｓ_１３、Ｓ_１４に細分されている。この階層レベル毎のセグメンテーション結果の情報を保持したまま、セグメントクラスタリング過程に進む。

セグメントクラスタリング過程では、Level1のセグメンテーション結果Ｓ_１，Ｓ_２，Ｓ_３，Ｓ_４を階層的にクラスタリングし、その結果ツリー構造であるTree1が得られる。次に、各Ｓ_ｉ内部において、Ｓ_ｉを細分するセグメント集合の階層的クラスタリングを行う。例えば、Ｓ_ｉ内部においては、セグメント集合Ｓ_１１，Ｓ_１２，Ｓ_１３，Ｓ_１４の階層的クラスタリングを行う。各Ｓ_ｉ内部においてこの処理を行うことによりTree2が得られる。１つのＳ_ｉ内部におけるクラスタリングによって得られるツリーのルートノードは、Ｓ_ｉノードそのものとなる。

このようにすることにより、最初に得たセグメンテーション結果のセグメントよりもより粒度の高いセグメントをリーフとするツリー構造で精度の高いものを得ることが可能である。例えば、Ｓ_１が教育問題のトピックであり、Ｓ_２が医療問題のトピックで、Ｓ_１３とＳ_２３が共に「分かりました」という文だった場合、Level2のセグメンテーション結果を最初からクラスタリングすると、Ｓ_１３とＳ_２３は同一クラスタとなってしまい誤った構造が得られてしまう。これに対し、各Ｓ_ｉ内部において、Ｓ_ｉを細分するセグメント集合をクラスタリングすることにより、Ｓ_１３とＳ_２３が誤って同一クラスタに分類されることはなくなる。

制御部２８においては、Level3以降のトピックセグメンテーションを行い、各階層レベル毎のセグメンテーション結果の情報を保持したまま、セグメントクラスタリングの処理を同様に行うことも勿論可能である。トピックセグメンテーション過程におけるセグメンテーションは、指定した階層レベルのセグメンテーション結果を出力した段階、あるいは任意のセグメントが１文になった段階で停止する。このようにすることにより、例えば、テキスト中の各文をリーフとする精度の高いツリー構造を得ることも可能である。

また、制御部２８においては、これまで述べたようにトピックセグメンテーション過程で複数の階層レベルのセグメンテーション結果を出した後、セグメントクラスタリング過程に進むのではなく、１つの階層レベルのセグメンテーションとクラスタリングを行った後、再び、次の階層レベルのセグメンテーションとクラスタリングを行うようにすることも可能である。例えば、トピックセグメンテーション過程でLevel1のセグメンテーション結果Ｓ_１，Ｓ_２，Ｓ_３，Ｓ_４を得た後、セグメントクラスタリング過程でTree1を出し、次に、トピックセグメンテーション過程でLevel2のセグメンテーション結果を得た後、セグメントクラスタリング過程で、各Ｓ_ｉ内部において、Ｓ_ｉを細分するセグメント集合の階層的クラスタリングを行い、Tree2を出す。セグメンテーションとクラスタリングの処理を３回以上繰り返し行うことも勿論可能である。この処理は、トピックセグメンテーション過程において、指定した階層レベルのセグメンテーション結果を出力し、あるいは、任意のセグメントが１文になり、このセグメンテーション結果をセグメントクラスタリング過程で処理した時点で終了する。

なお、これまで述べた処理をプログラムとして構築し、該プログラムを通信回線または、記憶媒体からインストールし、ＣＰＵ等の手段で実施することも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

本発明は、会議の議事録を自動生成する技術に適用可能である。例えば、会議音声を収録し、それを音声認識して得られたテキストや書き起こして得られるテキストを入力として、議事録を生成するような処理に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明を適用することにより出力される話題構造の例である。本発明の一実施の形態における一連の動作を示すフローチャートである。本発明の一実施の形態における話題構造抽出装置の構成図である。本発明の一実施の形態における概念ベースの例である。本発明の一実施の形態における階層的クラスタリングアルゴリズムの出力するツリーの例である。本発明の一実施の形態におけるツリー変形アルゴリズムの出力するツリーの例である。本発明の一実施の形態における要約部が出力するツリーの例である。本発明の一実施の形態における制御手段による処理を説明するための図である。

符号の説明

２１形態素解析手段、形態素解析部
２２単語ベクトル取得手段、単語ベクトル取得部
２３トピックセグメンテーション手段、トピックセグメンテーション部
２４セグメントクラスタリング手段、セグメントクラスタリング部
２５要約手段、要約部
２６話題構造出力手段、話題構造出力部
２７概念ベース
２８制御手段、制御部

Claims

テキストを単語単位に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
前記概念ベースを検索することによって、前記形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
前記単語ベクトル取得手段で得られた単語ベクトルの系列から、前記テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
前記トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
要約対象のクラスタＣに含まれる各単語について、該クラスタＣ内の全ての単語ベクトルとの距離の自乗の和であるＴｗと、該クラスタＣと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるＵｗを求め、ＵｗをＴｗで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
前記セグメントクラスタリング手段で得られたツリーの上で、前記要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
を有することを特徴とする話題構造抽出装置。
テキストを単語単位に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
前記概念ベースを検索することによって、前記形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
前記単語ベクトル取得手段で得られた単語ベクトルの系列から、前記テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
前記トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
要約対象のクラスタＣに含まれる各単語について、該クラスタＣ内の単語ベクトルの重心との距離Ｔｗと、該クラスタＣと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Ｕｗを求め、ＵｗをＴｗで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
前記セグメントクラスタリング手段で得られたツリーの上で、前記要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
を有することを特徴とする話題構造抽出装置。
前記トピックセグメンテーション手段で得られた各セグメント毎に、該トピックセグメンテーション手段に該セグメントＳをより短い区間のセグメントの集合へ分割させる制御を行い、この結果得られた、該セグメントＳ内のセグメント集合を前記セグメントクラスタリング手段に階層的にクラスタリングさせる制御を行う制御手段を更に併せ持つ請求項１または２に記載の話題構造抽出装置。
請求項１乃至３の何れか１項に記載の話題構造抽出装置を構成する手段としてコンピュータを機能させるための話題構造抽出プログラム。
請求項４に記載の話題構造抽出プログラムを格納したコンピュータ読み取り可能な記憶媒体。