JP2007241902A

JP2007241902A - テキストデータの分割システム及びテキストデータの分割及び階層化方法

Info

Publication number: JP2007241902A
Application number: JP2006066716A
Authority: JP
Inventors: Atsushi Fujii; 敦藤井; Kazuyo Tanaka; 和世田中; Kei Uchiumi; 慶内海
Original assignee: University of Tsukuba NUC
Current assignee: University of Tsukuba NUC
Priority date: 2006-03-10
Filing date: 2006-03-10
Publication date: 2007-09-20

Abstract

【課題】分析区間の長さに拘束されない複数の分割パターンに区分けされた各テキスト間の拘束性又は類似性を判断することにより、高精度の分割を可能とするテキストデータの分割及び階層化システムを提供する。
【解決手段】分割対象のテキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段と、前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段と、隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段と、前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備える。
【選択図】図１

Description

本発明は、複数のトピック又はテーマを含むテキストデータを当該複数のトピック又はテーマ毎に複数の境界に分割するテキストデータ分割システムに関し、さらに、分割されたテキストデータを複数のトピック又はテーマ毎に階層化させる階層化させるテキストデータの階層化システムに関する。

ＴＶ、ラジオ、新聞、雑誌等のマスメディアを介して、日々様々な情報が提供される。また、インターネットのウェブ上には膨大な量の情報が溢れている。これらの情報は、インターネットを介して直接テキストデータの形で入手できることもあるが、放送された音声データや出版された活字データを音声認識装置や文字認識装置を利用することにより、テキストデータに変換して入手することが可能である。

このようにして入手したテキストデータの中から、所望のテーマ（題目）又はトピック（話題）（以下、本願においては適宜「トピック」という）に応じて必要な部分だけを取得できれば、これらの膨大な情報を種々の目的のために有効利用することができるので大変便利である。また、複数のトピック等を包含する大きなボリュームのテキストデータをトピック毎に区分けすることができれば、膨大な情報をトピック毎に分類して格納しておき、必要なトピック毎に検索することができ多くの人が利用できることとなる。

このため、従来から、テキストデータをコンピュータを利用して分割する技術が知られている。特開平０６−１９９６２号公報は、機械翻訳、文章要約、キーワード抽出などの言語処理に付するために行うテキスト分割装置に関して、テキストに含まれる区切り文字と、テキストのフォーマットとからテキストの分割位置を検出するための分割位置検出手段と、分割位置検出手段により検出された分割位置にてテキストを区切って出力するための出力手段とにより、分割位置として区切り文字のみでなく、テキストのフォーマットをも用いて検出処理を行えるようにしたテキスト分割装置を開示している。

そして、従来は、このようにして分割されたテキストに含まれるテーマやトピック等のキーワードに基づいて、各分割されたテキストを人為的に又は機械的に分割していたのである。

一方、テキストデータに含まれる情報の抽出では、テキスト内に混在する個々のトピックを特定することで抽出精度が向上する。また、会話や人間が作成する文章では、トピックが変わると使用される単語が変化することに着目し、使用される単語やキーワードの変化に基づいて、予め一定の長さを持つ分析区間に区分けされたテキスト間の結束性を判断してテキストの分類を行うことが考えられている。
特開平０６−１９９６２号公報

しかし、テキストを一定の長さを持つ分析区間の単位に分割し、分析区間毎の結束性を判断しても、分析区間の長さが最適でないと種々の問題が生じることとなる。すなわち、分析区間が短いと、分析区間どうしで共通する単語等が少なくなる過分割の問題が生じる。また、分割区間が長いと、トピックの境界が分割区間に内包されてしまい、検索漏れが生じてしまうこととなる。

このため、本発明は、分析区間の長さに拘束されないように複数の分割パターンを生じさせ、当該複数の分割パターンに区分けされた各テキスト間の拘束性又は類似性を判断することにより、高精度の分割を可能とするテキストデータの分割及び階層化システムの提供を目的とする。

このため、本発明は、複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割システムであって、前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段と、前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段と、隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段と、
前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備え、前記分析区間作成手段は、前記テキストデータを構成する文を１文ずつ移動した分析区間を作成し、前記トピックベクトル作成手段は、当該移動した分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段が、当該移動した分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、ことを特徴とするテキストデータ分割システムを提供するものである。

ここで、前記分析区間作成手段は、前記分析区間の長さを１つずつ増加させた分析区間を作成し、前記トピックベクトル作成手段は、当該増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段が、当該増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、ことにより分析区間長を可変としたのである。

そして、本テキストデータ分割システムは、前記境界位置検出手段が検出した前記複数の境界位置の確かさを予め設定された閾値に基づいて計算する投票手段をさらに備え、当該投票手段によって前記テキストデータの最終的な境界位置を確定させるのである。

そして、本システムは、このようにして得られたテキストデータの境界位置に基づいて、このテキストデータを階層化するようにしている。その第１の手法は、前記した投票手段において設定される閾値を複数段階設定し、前記境界位置検出手段が検出した前記複数の境界位置を、当該閾値の高い値から低い値に変化させながら確定させるのである。また、その第２の手法は、前記分析区間作成手段は、前記境界位置検出手段による前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定し、前記トピックベクトル作成手段は、当該トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段は、トピック毎の分析区間のトピックベクトルの類似度を計算し、前記トピックベクトル作成手段は、前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、前記境界位置検出手段は、前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算することにより、分析区間の階層化を行うのである。

ここで、前記トピックベクトル作成手段は、前記結合した分析区間が２つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、前記境界位置検出手段は、前記新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するようにしている。

ところで、前記内容語の重要度を示すトピックベクトルは、数１「ｉ（ｔ_ｋ、ｗ_ｉ）×ＴＦＩＤＦ」で表される。

また、前記トピックベクトルの類似度は、数２のｃｏｓθで表される。

そして、前記境界位置検出手段は、前記分析区間のトピックベクトルの類似度の変化における極小点を検出することにより、前記複数のトピックの境界位置を検出するのである。

本発明は、また、複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、（ａ）前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、（ｂ）前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、（ｃ）隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、（ｄ）前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、（ｅ）前記境界位置の確かさを計算するステップと、（ｆ）前記テキストデータを構成する文を１文ずつ移動した分析区間を作成するステップと、（ｇ）前記１文ずつ移動した分析区間内について前記ステップ（ｂ）乃至（ｆ）を繰り返すステップと、の各ステップを有することを特徴とするテキストデータ分割方法を提供するものである。さらに、（ｈ）前記ステップ（ａ）において区分けされた分析区間の長さを１つずつ増加させた分析区間を作成するステップと、（ｉ）前記ステップ（ｂ）乃至（ｇ）を繰り返すステップと、の各ステップを、さらに有することにより分析区間長を可変とするのである。

本発明は、さらに、複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、（ａ）前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、（ｂ）前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、（ｃ）隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、（ｄ）前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、（ｅ）前記境界位置の確かさを計算するステップと、（ｆ）前記テキストデータを構成する文を１文ずつ移動した分析区間を作成するステップと、（ｇ）前記１文ずつ移動した分析区間内について前記ステップ（ｂ）乃至（ｆ）を繰り返すステップと、（ｈ）前記作成された分析区間に基づく前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定するステップと、（ｉ）前記トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、（ｊ）前記トピック毎の分析区間のトピックベクトルの類似度を計算するステップと、（ｋ）前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成するステップと、（ｌ）前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するステップと、の各ステップを有することを特徴とするテキストデータの分割及び階層化方法を提供するものである。

このように、本発明においては、分析区間の長さに拘束されないように複数の分割パターンを生じさせ、当該複数の分割パターンに区分けされた各テキスト間の拘束性又は類似性を判断することにより、高精度の分割と階層化を実現したのである。

以下、本発明に係るテキストデータ分割システム及び階層化システムについて説明する。

図１は、本発明のテキストデータ分割システム及び階層化システム１０の全体構成とその機能ブロックの例を示すものである。図１に示すように、本発明のテキストデータ分割システム及び階層化システム１０には、最初に、分割処理するべきテキストデータが入力される。本システム１０は、この入力されたテキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段１１と、このようにして得られた分析区間に含まれる複数の単語や動詞等の内容語に基づいて分析区間の特徴を表している語を抽出して当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段１２と、隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段１３と、各分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段１４とを備える。

そして、本システムにおいては、テキストデータを構成する文を１文ずつ移動した分析区間が作成され、この移動した分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、この移動した分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出するようにする。これにより、一つの分析区間に隣接する文を含んだ分析区間の類似度に基づいて検出する境界位置の妥当性が図られるのである。

さらに、本テキスト分割システムにおいては、前記分析区間の長さを１つずつ増加させた分析区間を作成して、当該増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、この増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出するようにしている。このように、本システムにおいては、分析区間の長さに拘束されないように複数の分割パターンを生じさせ、この複数の分割パターンに区分けされた各テキスト間の拘束性又は類似性を判断することにより、高精度の分割を可能としているのである。

本テキストデータ分割システムは、さらに、後に詳しく説明するように、境界位置検出手段１４が検出した複数の境界位置の確かさを計算する投票手段１５を備え、テキストデータの最終的な境界位置を確定させるのである。

次に、本システム１０におけるテキストデータの階層化について説明する。図１において、テキストデータの階層化のための処理フローは点線により示されている。

ところで、本システム１０は、このようにして得られたテキストデータの境界位置に基づいて、このテキストデータを階層化するようにしている。

その第１の手法は、前記した投票手段において設定される閾値を複数段階設定し、境界位置検出手段１４が検出した複数の境界位置を、当該閾値の高い値から低い値に変化させながら確定させるのである。

そして、その第２の手法は、各分析区間の内容の類似性に基づくものである。このため、上記した処理フロー（図１の実線表示）により分割されたテキストデータは、さらに、その内容の類似性に基づいて階層化する処理に付される。このため、分析区間作成手段１１は、境界位置検出手段１４によるテキストデータの分割結果に基づいてトピック毎の分析区間を設定し、トピックベクトル作成手段１２は、当該トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成する。これを受けて、境界位置検出手段１４は、トピック毎の分析区間のトピックベクトルの類似度を計算するのである。そして、この類似度が予め設定された閾値以上である場合には分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、この結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算する。

ここで、トピックベクトル作成手段１２は、前記結合した分析区間が２つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、境界位置検出手段１４は、新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するようにしている。このようにして、本システム１０においては、分割されたテキストデータをその内容の類似度に基づいて階層化するのである。

以下、上記に概説した本システムの個々の構成手段の詳細について説明する。本システム１０においては、「文」を分析区間の最小単位とし、テキストデータ内のトピック（以下、適宜「話題」という）の境界は、文と文の間に存在するとする。従って、本システム１０におけるテキストデータ分割処理の初期状態では、全ての文と文の間が境界候補である。

本システム１０によるテキストデータの分割手順は、以下のように進められる。図２は、本システム１０により処理されるテキストデータにおいて、可変長の分析区間を作成する際の概念図を示す。

テキストデータの分割の手順の概要は、次の通りである。
（ａ）図２に示すように各境界候補（ａからｄ）から前後Ｎ文までを分析区間とする。図２においてＡからＥは、文である。図２は、分析区間長をＮ＝１、２とした時に境界候補点をずらしながら分析区間を作成する様子を表している。
（ｂ）分析区間に含まれる単語の重要度を計算し、分析区間のベクトル（トピックベクトル）を作成する。
（ｃ）２つの分析区間についてトピックベクトルの類似度を計算する。
（ｄ）境界候補を１文ずつズラしながら、全ての境界候補について上記手順（ａ）乃至（ｃ）の処理を繰り返す。
（ｅ）手順（ｃ）で計算した類似度の変化に基づいて話題の境界位置を検出する。
（ｆ）分析区間の長さＮを１から１つずつ増やしながら、手順（ａ）乃至（ｅ）を繰り返す。
（ｇ）図３のように、各境界候補について、上記（ｆ）までで得られた各分析区間長の分割パターンを用いて投票を行う。

図３で、「○」は境界候補（ａからｄ）が境界として検出されたことを示し、「×」は、境界候補が境界として検出されなかったことを示す。例えば、候補ｂは、３つの分割パターンから支持されており、他の候補よりも境界としての尤度が高い。このため、ある境界候補が得た票数が閾値を越えた場合、その境界候補を境界と決定する。

本発明では、上記した手順（ａ）乃至（ｆ）において分析区間の長さを変化させて複数の分割パターンを得ている点と、得られた複数の分割パターンに対して手順（ｇ）で投票を行って結果を統合する点である。

Ａ．分析区間の作成
以下、分析区間の作成について述べる。分析区間は、文と文の間から前後N文を含むように構成する。基準となる文と文の間が境界候補である。基準点をずらしながら全ての境界候補について前後にＮ文の長さの分析区間を作成する。Ｎの値は１から始まり、事前に設定した上限まで１ずつ増やす。

Ｂ．トピックベクトルの作成
トピックベクトルは、作成された分析区間に含まれる内容語から、分析区間の特徴を現している語を抽出して作成する。以下、トピックベクトルの作成手順を示す。
（ａ）作成した分析区間に対して形態素解析を行い、内容語（名詞、動詞）を抽出する。
（ｂ）分析区間ごとに内容語の重要度を求める。
（ｃ）各分析区間を表すベクトルにおいて、テキストの異なり語数を次元とし、分析区間に含まれる内容語の単語重要度を要素にする。

トピックベクトルの作成方法は、図４に示すように、分析区間をずらしながら分析区間毎に単語の頻度分布を求める。次に、単語の頻度分布を基に単語重要度を決定する。

単語重要度は、数１のＴＦＩＤＦを考慮した相互情報量で計算されるＰ（ｔ_ｋ，ｗ_ｉ）は、文書ｔ_ｋにおける索引語ｗ_ｉの確率を、Ｐ（ｔ_ｋ），Ｐ（ｗ_ｉ）は文書ｔ_ｋ、索引語ｗ_ｉのそれぞれの確率を表す。

最後に、重要度を閾値処理して、閾値より高い重要度を持つ単語だけでベクトルを作る。このベクトルをトピックベクトルと呼ぶ。

Ｃ．トピックベクトル間の類似度の計算
それぞれの分析区間は、重要度計算によって抽出された単語を成分とするトピックベクトルで表されている。従って、このトピックベクトル同士の内積は、分析区間同士の単語のオーバーラップ率を表し、隣接する２つの分析区間の類似度を表す。よって、トピックベクトル間の類似度は数２で表される。

ここで、ｘ_ｉｋｃ，ｘ_ｉｌｃはそれぞれ分析区間ｔ_ｋにおける分析区間ｔ_ｋおよび分析区間ｔ_ｌに共通に出現した単語の重要度、分析区間ｔ_ｌにおける分析区間ｔ_ｋおよび分析区間ｔ_ｌに共通に出現した単語の重要度を表す。ｘ_ｉｋ，ｘ_ｉｌはそれぞれ分析区間ｔ_ｋに出現した単語の重要度分析区間ｔ_ｌに出現した単語の重要度を表す。

ｃｏｓθが１に近ければ近いほどトピックベクトル間の類似度は高くなる。そして、作成した類似度グラフから。境界位置を検出する。

Ｄ．境界検出
図８のような類似度グラフから境界を検出する方法として２つの手法が取られている。その第１の手法は、類似度が閾値以下となる点を境界として検出する方法であり、その第２の手法は、類似度が極小となる点を境界とする方法である。本発明では、各分析区間長での境界検出に、この２つの手法のどちらか、又は２つの組み合わせを用いるか決めるために、それぞれの方法による境界検出性能を比較する。

Ｅ．投票
投票は、複数の分析区間長の結果を統合し、検出された境界の確かさを計算する作業である。表１に投票の例を示す。

表１は、各分析区間長での「分割パターン」を並べたものである。表２における「○」は、その分析区間長において、その境界候補位置が境界として検出されたことを意味する。「ｘ」は、その逆で、その分析区間長においてその境界候補位置が境界として検出されなかったことを意味する。表２において、多くの「分割パターン」で支持される境界位置は、より正しい境界位置である可能性が高い。

本発明では、定めた票数の閾値を越える境界候補位置を境界として検出する。投票方式を導入することで、より確かな境界位置を判別できると共に、ある特定の分析区間長のみで検出される検出誤りを除去し、精度を上げる効果が期待できる。実際の投票には、表２のように、どの分割パターンでも一律で１票とするのではなく、分割パターンごとに１票の重みを変える。重みは、実験によって最適なものを求める。また、決定した重みを用いた投票方式による境界検出の精度の評価を行う。

Ｆ．階層構築
トピックには、章、節、項というように階層が存在する。この階層は、大きなトピックの中に、さらに複数のサブトピックが含まれていることを意味する。

従来の手法では、トピックの階層はテキスト分割において考慮されていないか、あるいは講義音声のように教科書が存在するものについては、テキスト分割結果と教科書の章、節、項のそれぞれの類似度を計算して割り振るという手法が行われている。

本発明では、トピックの階層構造を構築する手法として２つの手法を有する。第１の手法は、本発明の境界検出で用いる投票の閾値を変化させることでトピックの階層構築を行う。話題には粒度が存在する、投票による境界検出では、閾値を大きくするとより粒度の高い話題の境界のみが検出される。閾値を小さくしていくと、粒度の大きい話題の中から、さらに細かい粒度で話題の境界を検出することが出来る、すなわち、話題の粒度を変更しながらテキスト分割を行うことで話題の階層構築も行うことが出来る。この手法の特長は、テキスト分割と同時に階層の構築が可能なことである。

以下、この手法の階層構築手順を示す。
（ａ）投票の閾値を複数段階用意する。
（ｂ）投票の閾値の高い値から低い値へ変化させながら境界検出を行う。
（ｃ）閾値の高い時に検出された境界を上位の階層の境界とする。
（ｄ）閾値を低くした時に検出された境界を上位の階層に含まれる下位の階層の境界とする。

本発明における階層化の第２の手法は、テキスト分割したセグメント間の類似度を計算し、閾値によってクラスタリングを行うことで、この階層構造の構築を試みる。この手法では、トピックの階層決定に、もともと階層を持った正解のテキストデータを必要とせず、そのため、講義音声の転記のように教科書が存在しないデータについても適用できる。
階層構築の手順は以下の通りである。
（ａ）テキスト分割結果からトピックの境界位置を読み込む。
（ｂ）読み込んだトピックの境界位置からトピックごとで分析区間を設ける。
（ｃ）分析区間ごとにＴＦＩＤＦで単語重要度の計算を行い、分析区間を表すトピックベクトルを作成する。
（ｄ）隣接するトピックベクトル間で類似度を計算する。
（ｅ）類似度が閾値以上である場合には分析区間を結合し、新たにトピックベクトルを作成する。
（ｆ）結合した分析区間とその隣の分析区間でトピックベクトル間の類似度を計算する。
（ｇ）それ以上結合が行われないか、分析区間の数が２つ以下になるまで上記手順（ｅ）及び（ｆ）を繰り返す。

Ｇ．本システムの実験
（１）実験条件
ここでは、実験結果から最良な境界検出手法を求め、各分析区間長の境界検出性能と、投票方式の境界検出性能の比較には、実験で求めた境界検出手法を用いる。また、投票に用いる重みとしては、どのようなパラメータが良いか評価実験を行う。このほか、作成したテキスト分割システムで、自動音声認識による転記と人手による転記のテキスト分割を行い、２つの比較を行う。テキスト分割の評価には、再現率、精度、Ｆ値を用いる。
「実験データ」
実験には、放送大学の講義音声を人手で転記した１８件と音声認識で自動的に転記した５件を使用した。また、放送大学の教科書２３件を使用した。尚、１件とは、１回分（約４５分）の放送に対応する。

評価に用いる正解の境界として、教科書は章と節を用いた。転記と音声認識結果には、人手で境界を付与した。音声認識では、話者適用と言語モデルの適応を行った。

（２）境界検出方法の比較
分析区間どうしの類似度グラフから、境界位置を検出する方法として、以下の３つについて実験を行い比較する。
ａ）類似度を閾値処理して検出する。
ｂ）極小点で検出する。
ｃ）上記２つを組み合わせて使用する。

（３）類似度を閾値処理して検出
分析区間の長さが変化すると類似度も変わる。そのため、本発明では、複数の長さの分析区間を用意するために、閾値を一定の値に固定すると言うことは出来ない。そこで、各分析区間ごとの平均類似度に全分析区間長共通の係数をかけたものを閾値とした。係数の値を０１〜１０まで変化させて、各分析区間長の精度（Ｐｒｅｃｉｓｉｏｎ：以下Ｐ）、再現率（Ｒｅｃａｌｌ：以下Ｒ）、Ｆ−ｍｅａｓｕｒｅ（以下Ｆ）の値の変化を調べる。結果を表３から表１１に示す。

尚、本発明では、検出した境界位置が、正解の境界の前後1文以内であれば正解とした。

（４）極小点で検出
トピックが変化する場所では、分析区間どうしの類似度は小さくなり、トピックが変化した後では、徐々に類似度が高くなる。最終的に類似度グラフは、１つのトピックで１つの山を描く。

しかし、実際の類似度の変化を見ると、トピックが変化する場所では必ずしも極小点となるわけではなく、類似度がいくつかの境界候補の点で低い状態が続くことがある。これは、トピックが徐々に変化する場合には２つの異なるトピックの混在する区間があるためと考えられる。

そこで本発明では単純に極小点となる場所だけを境界として検出するのではなく、次の２つのパターンを境界として検出する。Ｓ_ｉは境界候補ｉについてその前後の分析区間どうしで計算した類似度である。Ｓ_ｉ−１，Ｓ_ｉ＋１は、境界候補ｉ−１，ｉ＋１について同様の計算を行った類似度である。

上記のパターンで、各分析区間の境界検出を行った結果を表１２に示す。

（５）極小点と類似度の閾値処理の組み合わせで検出
次に、上記２つを組み合わせて境界の検出を行う。組み合わせた条件は、次の通りである。

係数の値を０１〜１０まで変化させ、各分析区間の境界検出性能を評価した。結果を表１３〜２２までに示す。

（６）最適な境界検出条件
表２から表２の結果を見ると、全ての分析区間長で、極小点のみで境界を検出した場合が最も良いテキスト分割性能となることが分かった。

類似度による閾値処理では閾値を変化させても、精度は最大で０３３２であった。また、閾値の係数の０１と１０の位置で比較しても、精度の差は０１前後である。

閾値を低くしてもまた高くしても精度に差が見られないことから境界検出の条件として類似度の閾値は適切ではないと言える。

類似度による閾値処理と極小点での検出を組み合わせた場合でも、極小点のみで検出した場合に比べてテキスト分割性能が低下している。これより１つ前のトピックとその次のトピックが内容的に近い場合には、類似度は一時的に下がり極小点は存在するものの類似度そのものは文書全体の平均より高い場合があることを意味している。

実験に使ったデータは放送大学の転記および教科書である１つのテーマ（ここでは教科書の章など）に沿って話されている。このような文書からトピックの境界を検出する場合、トピックどうしが内容的に近く、類似度が全体的に高くなってしまうことが考えられる。そのため類似度による閾値処理は実験で使用したデータに対し適切ではなく極小点で検出する方法がベストであると言える。

Ｈ．投票方式の境界検出性能
各分析区間の境界検出の結果から投票によってさらに境界を絞り込む。本発明の投票では、各分析区間長ごとで票に重みをつける。この重みは各分析区間長で検出された境界の確かさを表すように設定する。すなわち境界検出性能の高い分析区間長で検出された境界位置はより多くの票として逆に境界検出性能の低い分析区間長で検出された境界位置は少ない票として計算される。

票の重みに用いられるパラメータとして次のつが考えられる。
その第１は、各分析区間長のＦ−ｍｅａｓｕｒｅであり、その第２は、各分析区間長の精度である。

この２つのパラメータのうち、どちらのパラメータが適切であるか、以下で実験的に求める。各分析区間長の精度Ｆ−ｍｅａｓｕｒｅは極小点による境界検出方法で求める。

（１）投票方式の境界検出性能
投票に用いる重みに各分析区間長のＦ値を用いて実験を行う。評価方法にはテストデータに偏りがあった場合に起こる結果の誤りを防止するために交差検定を用いる。

まず教科書２３件を１１件と１２件の２つに分け、一方をテストデータ、他方を訓練データとする。訓練データで境界検出を行った時のＦ値を投票の重みとして、テストデータで学習した重みによる境界検出を行う。次にテストデータと訓練データを入れ替えてもう一度実験を行い２回の実験結果の平均を取って教科書データを対象とした時の投票による境界検出の評価とする。教科書と同様に転記についても９件ずつに分け交差検定を行う。

実験に使用する分析区間長は１〜１０までの１０通りである。閾値は各分析区間の数（１０）×係数とした。係数は０１〜１０の範囲で変化させる。境界検出は各境界候補ごとに集まった票数が閾値を超えたものを正しい境界として検出する。

教科書についての実験結果を表２３転記についての実験結果を表２４に示す。

（２）精度を重みに用いた場合
次に投票に用いる重みを各分析区間長の精度に変更して（１）と同様の交差検定を行う。教科書データでの実験結果を表２５に転記データでの実験結果を表２６に示す。

（３）投票方式の評価
表２３、２５を基に教科書のデータに対して重み付けをＦ値とした場合と精度とした場合のそれぞれで
閾値を変化させながら境界検出を行った時の再現率と精度の変化を図４に示す
表２４、表２６を基に転記のデータに対して重み付けをＦ値とした場合と精度とした場合のそれぞれで、閾値を変化させながら境界検出を行った時の再現率と精度の変化を図５に示す。

図６及び図７を見ると、投票の閾値を変化させることで、界検出の精度と再現率を調整できると言うことが分かる。

表２の類似度による閾値処理での境界検出では閾値を変化させても精度の上昇は投票による手法に比べ小さい。また極小点による検出ではそもそも閾値のように変化させられるパラメータがないため、精度と再現率の調整というようなことは行えない。

最適な重みについては重みとしてＦ値を使った場合と精度を使った場合とで大きな差は見られなかった。表１２を見ると精度は分析区間長が１の時最も低くなり、分析区間長が大きくなるにつれて精度が上がっている。一方Ｆ値については分析区間長が変化すると、精度と再現率でトレードオフが起こるため
分析区間長が１から１０まで変化してもＦ値の変化は精度と比べ小さい。そのためＦ値を重みに用いた場合、各分析区間長ごとで票に差が生まれなくなる可能性がある。

一方で表１２では精度は分析区間長が大きくなるほど高くなっている。よって、分析区間長が長い時に検出した境界はより正解である可能性が高いと考えられる。

今回の実験では分析区間長を１０までと限定したために分析区間長の大きさが十分ではなかったと考えられそれによって２つの重み付けで差が見られなかったと考えられる。

テキストの話題には詳細度があるニュース番組における個々のニュースは明らかに話題がことなる。それに大して放送大学のような講義ではより細かな単位で話題が徐々に変化する。本手法は
投票に用いる閾値の設定によって分割すべき話題の詳細度に対応することが可能である。

（４）音声認識と人手による転記の比較
音声認識と人手による転記に対して投票によるテキスト分割を行った場合のＦ値を表２７に示す。実験では音声認識と転記それぞれに最適な閾値を与えた。表２７では転記のＦ値が００５〜０１５ほど高くなった。しかし単語誤り率とＦ値の変化には特に関連がなかった。

音声認識結果の５件と同講義の転記5件それぞれについて投票を行わなかった場合と行った場合の再現率、精度、Ｆ値を表２８と表２９に示す。「投票なし」と「投票あり」の手法は表１と同じである。

表２８と表２９で、「投票なし」と「投票あり」を比較すると「投票なし」の方がＦ値が００５ほど高くなった。また、「投票なし」と「投票あり」で、表２８と表２９を比較すると、どちらも表２９の方がＦ値が０１１ほど高くなった。このことから、投票方式は音声認識の結果に対しては有効でなかった。ただし、投票方式は音声認識結果に対して分析区間長を固定した場合のテキスト分割と同程度の頑健さを持つことが分かった。

Ｉ．テキスト分割実験の考察
表２３乃至２６では、閾値を一定幅で変化させた時に表１２のＦ値を上回る場所は転記の係数０３、０４の位置だけであった。これは投票の境界検出に用いる閾値を全文書共通としたことが原因で実際の閾値の最適値は文書ごとで最適な閾値が異なっていることが考えられる。そこで各文書ごとに人手で最適な投票の閾値を求め再度テキスト分割実験を行った。

最適な閾値の実験では票の重みに各分析区間長の境界検出精度を用いた。最適な重み付けも文書ごとに異なるためここでは重みには各文書ごとでの精度を与えた。また、投票における境界検出の閾値も同様に文書ごとで個別に最適な値を与えた。その時の投票による境界検出の精度、再現率、Ｆ値を表３０に示す。

表３０を見ると投票による重み付けにおいて文書ごとで最適な重みと最適な閾値が設定された場合では教科書転記それぞれで表１２のどの分析区間長よりも高いＦ値となっていることが分かる。これより最適な閾値と重み付けを与えることで分析区間長の可変長化と投票による境界検出方法の組み合わせは従来問題であった分析区間の長さを決定すると言う点を解決するだけではなく、話題の境界検出においても投票が有効であると言える。

音声認識と人手による転記に対して投票によるテキスト分割を行った場合では人手による転記の方がＦ値が高くなった。しかし単語誤り率とＦ値の変化には関連が見られなかった。これについては今後実験データを増やしてさらに検討する必要がある。

Ｊ．階層構築実験
分割されたテキストから分割セグメント間の類似度を基に階層構造を構築できるか実験を行った。実験のアルゴリズムは、クラスタリング手法のとおりである。階層構築の評価としてテキスト分割の性能を考慮せずに階層構築の性能を見るため正解の境界位置が与えられた場合での階層構築実験とテキスト分割処理で検出した境界位置を利用した場合の階層構築実験を行う。階層構築の評価は精度、再現率、Ｆ値で示す。

（１）正解の境界位置を与えた場合の階層構築実験
構築した階層の精度と再現率、Ｆ値を求めた。表３１に教科書データを対象とした場合における階層構築実験の精度と再現率、Ｆ値を、表３２に転記データを対象とした場合における階層構築実験の精度と再現率、Ｆ値を示す。表の階層は数字の小さいものほど上位の階層であり、数字の大きなものは上位の話題に含まれる下位の話題である。精度と再現率、およびＦ値は検出した境界位置を基に分割したセグメントに対してクラスタリング処理を行い、そこで作成されたツリー構造の各ノードと話題の階層を対応づけて各階層の話題の境界位置と正解の階層の境界位置で計算した。

（２）システムの検出した境界位置を使用した階層構築実験
テキスト分割で検出された境界位置を用いて階層構築実験を行った。表３３に教科書データを対象とした場合における階層構築実験の精度と再現率、Ｆ値を表３４に転記データを対象とした場合における階層構築実験の精度と再現率、Ｆ値を示す。

（３）階層構築の考察
表２８から表３１を見ると、テキスト分割処理での境界検出誤りのない境界情報を用いた場合と、境界検出誤りを持つテキスト分割処理の結果を用いた場合とではＦ値で０１から０３ほどの差が見られた。

教科書を対象とした場合と転記を対象とした場合では全体的に教科書を対象とした場合の方がＦ値が高い。教科書と転記では階層の深さが異なることから階層構築では深い階層を持つデータも正しい階層構築を行うことが難しいと言える。

また教科書、転記どちらを対象とした場合でも、階層１のＦ値は０１〜０２程度となった。全体的に見ても階層が低いものに比べて階層が上位になるとＦ値が落ちている。これより、階層が上位になるほど検出が難しいと言える。

以上詳しく説明したように、本発明に係るテキストデータ分割及び階層化システムは、分割対象のテキストデータの入力を受けて、当該テキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段１１と、この分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段１２と、隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段１３と、前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段１４と、を備え、前記テキストデータを構成する文を１文ずつ移動した分析区間に含まれる内容語の重要度を示すトピックベクトルを作成し、当該移動した分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するようにしたのである。そして、前記分析区間の長さを１つずつ増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段が、当該増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出するようにしたのである。

これにより、本システムは、テキストデータ内のトピックの内容に高精度に対応したテキストデータの分割及び階層化システムを可能にしたのである。

本発明は、複数のトピック又はテーマを含むテキストデータを当該複数のトピック又はテーマ毎に複数の境界に分割しその内容に応じて階層化するようにしたコンピュータを用いたテキストデータ分割システムに関するものであり、産業上の利用可能性を有する。

本発明のテキストデータ分割システムにおける可変長の分析区間を作成する概念図を示す。可変長の分析区間を作成する例を示す。投票による境界検出の例を示す。トピックベクトルの作成過程の例を示す。各区間長毎の類似度グラフの例を示す。教科書データを対象とした境界検出の精度と再現率の例を示す。転記データを対象とした境界検出の精度と再現率の例を示す。

符号の説明

１０：本テキストデータ分割及び階層化システム
１１：分析区間作成手段
１２：トピックベクトル作成手段
１３：類似度計算手段
１４：境界位置検出手段
１５：投書手段

Claims

複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割システムであって、
前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段と、
前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段と、
隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段と、
前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備え、
前記分析区間作成手段は、前記テキストデータを構成する文を１文ずつ移動した分析区間を作成し、
前記トピックベクトル作成手段は、当該移動した分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
前記境界位置検出手段が、当該移動した分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、ことを特徴とするテキストデータ分割システム。
前記分析区間作成手段は、前記分析区間の長さを１つずつ増加させた分析区間を作成し、
前記トピックベクトル作成手段は、当該増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
前記境界位置検出手段が、当該増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、
ようにした分析区間長を可変としたことを特徴とする請求項１に記載のテキストデータ分割システム。
前記境界位置検出手段が検出した前記複数の境界位置の確かさを予め設定された閾値に基づいて計算する投票手段をさらに備え、当該投票手段によって前記テキストデータの最終的な境界位置を確定させることを特徴とする請求項１又は２に記載のテキストデータ分割システム。
前記投票手段は、前記閾値を複数段階設定し、前記境界位置検出手段が検出した前記複数の境界位置を、当該閾値の高い値から低い値に変化させながら確定させることにより、前記テキストデータの分析区間の階層化を行うことを特徴とする請求項１乃至３の何れかの項に記載のテキストデータ分割システム。
前記分析区間作成手段は、前記境界位置検出手段による前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定し、
前記トピックベクトル作成手段は、当該トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
前記境界位置検出手段は、トピック毎の分析区間のトピックベクトルの類似度を計算し、
前記トピックベクトル作成手段は、前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、
前記境界位置検出手段は、前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算する、
ことにより、前記テキストデータの分析区間の階層化を行うことを特徴とする請求項１乃至３の何れかの項に記載のテキストデータ分割システム。
前記トピックベクトル作成手段は、前記結合した分析区間が２つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、
前記境界位置検出手段は、前記新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算する、
ことを特徴とする請求項５に記載のテキストデータ分割システム。
前記内容語の重要度を示すトピックベクトルは、数１

における「ｉ（ｔ_ｋ、ｗ_ｉ）×ＴＦＩＤＦ」で表されることを特徴とする請求項１に記載のテキストデータ分割システム。
但し、Ｐ（ｔ_ｋ、ｗ_ｉ）は、テキスト（ｔ_ｋ）中に内容語（ｗ_ｉ）が現れる確率、Ｐ（ｔ_ｋ）はテキスト（ｔ_ｋ）の確率を、Ｐ（ｗ_ｉ）は内容語（ｗ_ｉ）の確率を、それぞれ示す。
前記トピックベクトルの類似度は、数２

のｃｏｓθで表されることを特徴とする請求項７に記載のテキストデータ分割システム。
前記境界位置検出手段は、前記分析区間のトピックベクトルの類似度の変化における極小点を検出することにより、前記複数のトピックの境界位置を検出することを特徴とする請求項１又は８に記載のテキストデータ分割システム。
複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、
（ａ）前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、
（ｂ）前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
（ｃ）隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、
（ｄ）前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、
（ｅ）前記境界位置の確かさを計算するステップと、
（ｆ）前記テキストデータを構成する文を１文ずつ移動した分析区間を作成するステップと、
（ｇ）前記１文ずつ移動した分析区間内について前記ステップ（ｂ）乃至（ｆ）を繰り返すステップと、
の各ステップを有することを特徴とするテキストデータ分割方法。
（ｈ）前記ステップ（ａ）において区分けされた分析区間の長さを１つずつ増加させた分析区間を作成するステップと、
（ｉ）前記ステップ（ｂ）乃至（ｇ）を繰り返すステップと、
の各ステップを、さらに有する分析区間長を可変としたことを特徴とする請求項１０に記載のテキストデータ分割方法。
複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、
（ａ）前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、
（ｂ）前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
（ｃ）隣接する２つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、
（ｄ）前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、
（ｅ）前記境界位置の確かさを計算するステップと、
（ｆ）前記テキストデータを構成する文を１文ずつ移動した分析区間を作成するステップと、
（ｇ）前記１文ずつ移動した分析区間内について前記ステップ（ｂ）乃至（ｆ）を繰り返すステップと、
（ｈ）前記作成された分析区間に基づく前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定するステップと、
（ｉ）前記トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
（ｊ）前記トピック毎の分析区間のトピックベクトルの類似度を計算するステップと、
（ｋ）前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成するステップと、
（ｌ）前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するステップと、
の各ステップを有することを特徴とするテキストデータの分割及び階層化方法。
（ｍ）前記ステップ（ｋ）において前記分析区間を結合した分析区間が２つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成する手段と、
（ｎ）新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するステップと、
の各ステップをさらに有することを特徴とする請求項１２に記載のテキストデータ分割及び階層化方法。
前記内容語の重要度を示すトピックベクトルは、数１

における「ｉ（ｔ_ｋ、ｗ_ｉ）×ＴＦＩＤＦ」で表されることを特徴とする請求項９に記載のテキストデータ分割方法又は請求項１２に記載のテキストデータ分割及び階層化方法。
但し、Ｐ（ｔ_ｋ、ｗ_ｉ）は、テキスト（ｔ_ｋ）中に内容語（ｗ_ｉ）が現れる確率、Ｐ（ｔ_ｋ）はテキスト（ｔ_ｋ）の確率を、Ｐ（ｗ_ｉ）は内容語（ｗ_ｉ）の確率を、それぞれ示す。
前記トピックベクトルの類似度は、数２

のｃｏｓθで表されることを特徴とする請求項１４に記載のテキストデータ分割方及び階層化方法。
前記ステップ（ｄ）における前記テキストデータにおける前記複数のトピックの境界位置を検出は、前記分析区間のトピックベクトルの類似度の変化における極小点を検出することにより行われることを特徴とする請求項９に記載のテキストデータ分割方法又は請求項１２に記載のテキストデータ分割及び階層化方法。