JP2006251553A

JP2006251553A - トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Info

Publication number: JP2006251553A
Application number: JP2005069912A
Authority: JP
Inventors: Takeshi Sadohara; 健佐土原
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2005-03-11
Filing date: 2005-03-11
Publication date: 2006-09-21

Abstract

【課題】
音声を音素よりも粒度の細かい音素片として認識した上で直接トピックのセグメンテーションを行い、コンテンツを意味的に等質な部分に分割する。
【課題を解決するための手段】
トピック分割処理方法は、音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化過程と、部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成過程と、分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング過程との処理をコンピュータにより実行し、マルチメディアコンテンツに含まれる音声によりコンテンツを意味的に等質な部分に分割する。
【選択図】図１

Description

本発明は、マルチメディアコンテンツに含まれる音声を手がかりとして、コンテンツを意味的に等質な部分に分割するため、音声を音素よりも粒度の細かい音素片として認識した上で直接トピックのセグメンテーションを行うトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムに関する。

今日、デジタル技術、大容量記憶装置技術の進歩により、一個人においてさえも、テキスト、音声そして画像等の情報が大量に蓄積可能になった。こうした情報を資源として有効に活用するためには、欲しい情報に素早く到達するための索引化や、情報の概要を素早く把握するための構造化等を行う必要があるが、情報量の多さ故に、このような処理を人手で行うことは困難であり、計算機を用いて自動的に情報の資源化を行うための技術が切実に求められている。

このような技術の中でも、ある音声区間のトピックを推定したり、音声区間をトピック単位に分割したりする技術は、マルチメディアコンテンツを対象に、検索、分類、要約等のより高次の情報資源化処理を行うための基礎的技術として、これまでにも多くの研究開発がなされてきた。

トピック同定に関する従来の技術（特許文献１、非特許文献１参照）では、音声は、音声認識により、単語やフレーズ等の音声イベントの列に変換された後、一定幅の任意の分析区間に含まれるイベントの頻度が計算される。そして、事前にトピックラベルが付与された訓練データから学習されたトピックモデルに対して、分析区間のイベント頻度パターンを照合することにより、分析区間のトピック推定を行う。

このようなトピック推定技術を用いると、音声区間をトピック単位に分割することが可能になるが、トピックモデルを得るために、あらかじめトピックラベルが付与されたデータを必要とするという意味で、このような手法は、教師ありトピック分割とも呼ばれる。一方、このような教師信号付きのデータを必要としない、教師なしのトピック分割手法も提案されている。

教師なしのトピック分割法（特許文献２、非特許文献２参照）においては、音声は、音声認識により、単語やフレーズ等の音声イベントの列に変換された後、一定幅の任意の分析区間を、その区間に含まれるイベントの頻度等を成分とするベクトルで表現する。そして、任意の分析区間の意味的な類似性を、例えば、ベクトルの余弦により測定することにより判定し、所定の閾値よりも大きい類似性を持つ複数の分析区間が意味的に等質な部分としてまとめられる。

この種のマルチメディアコンテンツのトピック分割に関係する従来の技術の文献として次のような各文献が参照できる。
特表平８−５１２１４８号公報特開２００４−１５７３３７号公報特開２００２−２２１９８４号公報Ｋ．Ｏｈｔｓｕｋｉｅｔａｌ．：ＴｏｐｉｃＥｘｔｒａｃｔｉｏｎＢａｓｅｄｏｎＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｉｎＢｒｏａｄｃａｓｔＮｅｗｓＳｐｅｅｃｈ，ＩＥＩＣＥＴＲＡＮＳ．ＩＮＦ．＆ＳＹＳＴ．，Ｖｏｌ．Ｅ８５Ｄ，Ｎｏ．７，２００２．鷹尾誠一他：ニュース音声に対するトピックセグメンテーションと分類、情報処理学会研究報告、２４、ｐｐ．５５−６２、１９９８．Ｂ．Ｓｃｈｏｌｋｏｐｈｅｔａｌ．：Ｎｏｎｌｉｎｅａｒｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓａｓａｋｅｒｎｅｌｅｉｇｅｎｖａｌｕｅｐｒｏｂｌｅｍ，ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，Ｖｏｌ．１０，Ｎｏ．５，ｐｐ．１２９９−１３１９，２００４．Ｊ．Ｓｈａｗｅ−ＴａｙｌｏｒａｎｄＮ．Ｃｒｉｓｔｉａｎｉｎｉ：Ｋｅｒｎｅｌｍｅｔｈｏｄｓｆｏｒｐａｔｔｅｒｎａｎａｌｙｓｉｓ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２００４．Ｓｈｉ−ｗｏｏｋＬｅｅｅｔａｌ．：Ｒｏｂｕｓｔｓｐｏｋｅｎｄｏｃｕｍｅｎｔｒｅｔｒｉｅｖａｌｂａｓｅｄｏｎｍｕｌｔｉｌｉｎｇｕａｌｓｕｂｐｈｏｎｅｔｉｃｓｅｇｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ，Ｐｒｏｃ．ｏｆＩＣＥＩＳ，ｐｐ．１３４−１３９，２００４．Ｎ．Ｃｒｉｓｔｉａｎｉｎｉ，Ｊ．Ｓｈａｗｅ−Ｔａｙｌｏｒ：Ａｎｉｎｔｒｏｄｕｃｔｉｏｎｔｏｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２０００．

上述したように、教師あり／教師なしのいずれの従来の技術も、音声イベントを抽出するために、単語、フレーズあるいは文を認識する音声認識を用いており、このため、トピック分割の性能は、音声認識の認識性能に強く依存している。近年においては、音声認識の性能は向上しているが、それは、単語辞書や言語モデル等の言語的知識の積極的な利用によるところが大きい。しかし、逆に言えば、語彙や文法に関する十分な知識をあらかじめ与えておかなければ、十分な認識精度を実現できない。例えば、辞書に登録されていない個人名、製品の型番、省略語等を認識することができない。

従って、例えば、ある特定の個人について話されている音声区間を抽出する場合、その個人の名前が発声されているかどうかが重要な判断基準となり得るが、個人名が辞書に登録されていない場合、個人名は認識されず、このような音声区間の抽出は困難になる。このような未登録語の問題は、ニュース放送等の公開なコンテンツよりも、ホームビデオや内輪の会議のアーカイブ等の、語彙統制のない非公開なコンテンツにおいて、より深刻な問題となる。

本発明は、上記のような問題を解決するためになされたものであり、本発明の目的は、語彙や文法に関する言語的知識（登録語・辞書データ）の欠如による音声認識性能の低下がトピック分割の性能を劣化させてしまうことをなくし、マルチメディアコンテンツに含まれる音声を手がかりとして、コンテンツを意味的に等質な部分に分割するため、音声を音素よりも粒度の細かい音素片として認識した上で直接トピックのセグメンテーションを行うトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムを提供することにある。

上記のような目的を達成するため、本発明は、第１の態様として、本発明によるトピック分割処理方法が、マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割するためのトピック分割処理方法であって、音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化過程と、部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成過程と、分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング過程との処理をコンピュータにより実行することを特徴とするものである。

また、前記音声符号化過程においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識することを特徴とする。

また、本発明は、第２の態様として、本発明によるトピック分割処理装置が、マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割するトピック分割処理装置であって、音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化手段と、部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成手段と、分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング手段とを備えることを特徴とするものである。

この場合において、前記音声符号化手段においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識することを特徴とするものである。

また、本発明は、第３の態様として、本発明によるトピック分割処理プロクラムは、マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割する処理をコンピュータにより実行させるトピック分割プログラムであって、音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化ステップと、部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成ステップと、分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリングステップの処理をコンピュータに実行させることを特徴とするものである。

この場合において、音声符号化ステップの処理においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識する処理を行うことを特徴とするものである。

このような特徴を有する本発明のトピック分割処理方法またはトピック分割処理装置によれば、音声を、音節、音素あるいは音素片等のサブワードユニットの列として認識することで得られた符号列に対して、カーネル主成分分析を適用して、任意の部分文字列の相関を考慮した低次元のベクトルとして分析区間を表現した上でクラスタリングを行うので、語彙制約がなく、認識誤りに対して頑健なトピック分割が可能になる。

以下、本発明を実施する場合の一形態について図面を参照して説明する。図１は、本発明に係るトピック分割処理方法の処理フローの一例を示すフローチャートである。本発明によるトピック分割処理方法においては、前述したように、音声認識を用いて単語を認識することなく、音声を、単語よりも粒度の細かい音節、音素あるいは音素片等のサブワードユニットの列として認識し、その列を意味的に等質な部分に直接分割する。これにより、語彙や文法等の言語的な知識を必要としないで、マルチメディアコンテンツに含まれるトピックの直接のセグメンテーションを行うことができる。

図１を参照して、本発明によるトピック分割処理の原理について説明する。本発明のトピック分割処理においては、基本的な処理として、入力された音声を、音節、音素あるいは音素片等のサブワードユニットの系列として認識する音声符号化過程（Ｓ１）と、符号列を一定幅の分析区間に切り分けた後、各分析区間を、その区間に含まれる符号を分析することにより得られるベクトルで表現する分析区間ベクトル生成過程（Ｓ２）と、分析区間ベクトルの類似性（例えばベクトルの余弦）に基づいて類似したベクトルのクラスターを生成するクラスタリング過程（Ｓ３）の各処理を行う。

更に詳細に説明する。トピック分割処理の処理を実行する場合に、まず、音声符号化過程（Ｓ１）によって、符号をひとつの文字とする文字列に変換し、変換された音声のデータを、分析区間ベクトル生成過程（Ｓ２）において、複数の分析区間ｓに分割する。

サブワードユニットの系列としての認識では、分割された各分析区間ｓに含まれる長さｐ以下の任意の部分文字列ｗの頻度を数え、この頻度に基づいて、部分文字列ｗがこの区間においてどの程度特徴的であるかを表す指標ｆ（ｗ，ｓ）を計算する。

分析区間ｓは、任意の部分文字列ｗに対して計算された指標ｆ（ｗ，ｓ）を成分とするベクトルＸｓとして表現することも可能であるが、このベクトルの次元は、長さｐ以下の任意の文字列の数と等しいので、非常に高次元であり、時間・領域の計算量的な問題で、引き続くクラスタリング過程（Ｓ３）の入力とするには適さない。

さらに、このような表現では、部分文字列ｗの認識誤りが十分に補正されないという問題もある。例えば、同じ単語を発声したとしても、全く同一の文字列として認識される可能性は低く、ある分析区間では文字列ｗ１と認識されたにもかかわらず、別の区間では一部が異なる文字列ｗ２と認識されるという可能性が高い。このような場合には、次のクラスタリング過程（Ｓ３）における分析区間の類似性の計算に悪影響を及ぼす恐れがある。そのため、このような認識誤りを補正するためには、相関のある文字列ｗ１と文字列ｗ２を線形結合して得られる合成変量ａ１・ｆ（ｗ１，ｓ）＋ａ２・ｆ（ｗ２，ｓ）を用いる。

本発明においては、このような合成変量の生成を自動化するために、主成分分析の手法を用いる。ただし、指標ｆ（ｗ，ｓ）の変量の数が非常に多いため、通常の主成分分析を適用するには計算量的な問題が生じる。そこで、本発明では、カーネル主成分分析（非特許文献３参照）とよばれる分析法を用いる。

通常の主成分分析では、変量の数をＭとするとき、Ｍ行Ｍ列の共分散行列の対角化を行う必要があるのに対して、カーネル主成分分析においては、Ｎ個の入力ベクトルから計算されるＮ行Ｎ列のカーネル行列を対角化することで、主成分分析を行うことができる。ここで、カーネル行列とは、そのｉ行ｊ列の要素が、ｉ番目のベクトルＸｉとｊ番目のベクトルＸｊの内積であるような行列のことである。なお、「非特許文献３」で説明されているとおり、データの平均が零ベクトルになるように、カーネル行列に補正を加える必要がある場合もある。

さらに、今、ベクトルＸｉを、指標ｆ（ｗ，ｓ）を成分とするＭ次元のベクトルとすると、カーネル主成分分析においては、ベクトルＸｉとベクトルＸｊの内積だけを計算することにより、高次元のベクトルＸｉを陽に計算し、保持する必要がない。実際、ストリングカーネルと呼ばれる手法（非特許文献４参照）を用いると、二つの分析区間ｓおよび分析区間ｔの文字列から、ベクトルＸｓとベクトルＸｔの内積を、陽にベクトルＸｓとベクトルＸｔを計算することなく直接計算することができる。

カーネル行列Ｋの対角化によりｋ（ｋ≦Ｎ）個の非負の固有値λ_１≧ … ≧λ_ｋ＞０と、それに対応する固有ベクトルＶ_１，…，Ｖ_ｋを求める。そして、これら固有値と固有ベクトルを用いると、入力ベクトルＸｉを第１主成分から第ｋ主成分を用いて以下のＸ’ｉのように表現することが可能になり、これを分析区間ベクトルとする。なお、このようにして計算されるベクトルに、正規化等の補正を加えたものを分析区間ベクトルとすることも可能である。

ただし、λ_ｉ（Ｖ_ｉ・Ｖ_ｉ）＝１，ｉ＝１，…，ｋ

このようにして得られた分析区間ベクトルは、クラスタリング過程（Ｓ３）において、例えば階層的クラスタリングのような公知のクラスタリング手法を用いて、類似したベクトルを１つのクラスターにまとめる。これにより、トピック分割が可能になる。

図２は、本発明によるトピック分割処理装置の構成を説明する図である。図２に示すように、本発明によるトピック分割処理装置は、音声分離手段１０１、音声符号化手段１０２、分析区間ベクトル生成手段１０３、クラスタリング手段１０４から構成され、マルチメディアコンテンツのデータを入力し、その中の音声のデータに基づいてトピックの分割処理を行い、最終的に分割したトピックの構造情報を得る。得られたトピック構造情報は、図示しない手表示処理手段により利用者の希望する形態で表示される。

音声分離手段１０１には、マルチメディアコンテンツのデータが入力され、コンテンツから音声を分離する。音声分離手段１０１により分離された音声は、音声符号化手段１０２に入力されて、音節、音素、あるいは音素片に符号化される。分析区間ベクトル生成手段１０３は、音声符号化手段１０２によって得られた音声の符号列から、分析区間ベクトルを生成する。そして、クラスタリング手段１０４により、分析区間ベクトルをクラスタリングすることによりトピック分割を行い、クラスター境界の時刻情報を含むトピック構造情報を出力する。

図３は、本発明によるトピック分割処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。この処理では、図３に示すように、コンテンツを読み込むステップ（Ｐ１）と、コンテンツから音声を分離するステップ（Ｐ２）と、音声を符号化するステップ（Ｐ３）と、符号化された音声から分析区間を切り出すステップ（Ｐ４）と、各分析区間に対応する分析区間ベクトルを計算するステップ（Ｐ５）と、分析区間ベクトルをクラスタリングするステップ（Ｐ６）と、クラスター境界の時刻情報を含むトピック構造情報を出力するステップ（Ｐ７）との各ステップの処理をコンピュータにより実行させるものである。このプログラムがインストールされたコンピュータは、各ステップの処理を実行することにより、コンテンツ読込手段、音声分離手段、音声符号化手段、分析区間切出し手段、分析区間ベクトル計算手段、クラスタリング手段、トピック構造情報出力手段として機能するトピック分割処理装置を構成する。

本発明においては、前述したように、語彙制約がなく、認識誤りに対して頑健なトピック分割を可能にするために、通常の音素よりも粒度の細かいＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号（特許文献３参照）と呼ばれる符合の列に変換された音声を手がかりにして、コンテンツをトピック単位に分割している。このように、ＳＰＳ符号を用いる場合におけるトピック分割処理装置について、次に説明する。

図４は、本発明によるトピック分割処理装置を別の態様で実施する構成例を説明するブロック図である。このトピック分割処理装置は、図４に示すように、映像音声分離部２０１、ＳＰＳ符号化部２０２、トピック構造情報生成部２０３、構造化コンテンツ提示部２０４、およびトピックデータベース２０５から構成されている。

このトピック分割処理装置において、映像音声分離部２０１は、映像と音声を含むマルチメディアコンテンツから、映像と音声を分離する。映像音声分離部２０１により分離された音声は、ＳＰＳ符号化部２０２に入力される。ＳＰＳ符号化部２０２では、音声からＳＰＳ符号列を生成する。ＳＰＳ符号化部２０２により生成されたＳＰＳ符号列は、トピック構造情報生成部２０３に入力される。トピック構造情報生成部２０３では、ＳＰＳ符号列に対してカーネル主成分分析を適用し、得られた主成分を要素とするベクトルとして分析区間を表現した上でクラスタリングを行い、トピック境界の時刻情報と、クラスターの階層関係に関する情報を含むトピック構造情報を生成する。この場合にトピックデータベース２０５が参照される。トピック構造情報生成部２０３により生成されたトピック構造情報は、構造化コンテンツ提示部２０４に入力されて、トピック構造情報に従って、マルチメディアコンテンツを構造化した上で提示される。

ＳＰＳ符号化部２０２は、特許文献３で説明されているとおり、音声のデータからＳＰＳ符号列を生成するものである。ここでのＳＰＳ符号とは、通常の音素よりも粒度の細かい符号系であり、具体例で説明すると、例えば、日本の駅名「神戸」は、標準的な音素記号系ＸＳＡＭＰＡで「koobe」と表記されるのに対して、ＳＰＳ符号系では、「#kcl kk ko ooo ob bcl bb be ee e#」のように表記される。このように、ＳＰＳ符号は、通常の音素よりも粒度が細かいため、例え数箇所の誤認識があったとしても、通常の音素よりもより多くの情報が残ることになる。非特許文献５においては、ＳＰＳ符号を用いることにより、認識誤りに対して頑健な音声による情報検索が可能であることが示されている。さらに、単語辞書を用いないというＳＰＳ符号を用いる認識処理の特徴により、語彙制約のない検索が可能である。

図５は、トピック構造情報生成部２０３の構成を説明するブロック図である。前述したように、トピック構造情報生成部２０３では、ＳＰＳ符号列に対してカーネル主成分分析を適用し、得られた主成分を要素とするベクトルとして分析区間を表現した上でクラスタリングを行い、トピック境界の時刻情報と、クラスターの階層関係に関する情報を含むトピック構造情報を生成する。

図５に示すように、トピック構造情報生成部２０３において、ＳＰＳ符号列は、分析区間抽出部３０１に入力される。分析区間抽出部３０１では、ＳＰＳ符号列の分析区間が切り出される。分析区間が切り出された後、カーネル主成分分析部３０２において、カーネル主成分分析が適用され、多くとも分析区間の数と同じ数の主成分が抽出される。ことのき、ある部分符号列ｗが、ある分析区間ｓにおいて、どの程度特徴的かを表す指標が必要となるが、この指標ｆ（ｗ，ｓ）として次の関数を用いることができる。

ただし、Ｎ（ｗ，ｓ）は、分析区間ｓにおけるｗの頻度を、ｄはｗの長さを表す。また、Ｎ（ｗ，Ｓ）は全区間におけるｗの頻度を表している。

図６は、本発明のトピック分割処理装置の分析区間ベクトル生成部およびトピックモデル生成部で用いられるストリングカーネルの計算手続きを説明する図である。カーネル行列の計算には、図６に示すようなストリングカーネルの計算アルゴリズムを用いる。

分析区間ベクトル生成部３０３では、カーネル主成分分析部３０２で得られた固有値と固有ベクトルから分析区間ベクトルを計算し、これにより、各分析区間は、主成分を要素とするベクトルで表現される。こうして得られた分析区間ベクトルに対して、教師なし／教師ありの二種類のクラスタリング手法を用いてトピック分割が行われる。

教師なしトピック分割部３０４では、公知の階層的クラスタリング法を用いて、階層的なトピックの構造を生成する。階層的クラスタリング法は、クラスター間に定められた距離ｄに基づいて、ボトムアップに、距離の近いクラスターをまとめ上げていく。クラスター間の距離として以下のようなベクトルの余弦に基づく距離が用いられる。

ここで、Ｃ_ｉは分析区間ベクトルの集合であり、｜Ｃ_ｉ｜は、その要素数を表す。また、＜ｓ_ｉ・ｓ_ｊ＞は、分析区間ベクトルｓ_ｉと分析区間ベクトルｓ_ｊの内積を表している。

教師ありトピック分割部３０６では、各分析区間ベクトルｓを、あらかじめ構築したトピックモデルと照合し、与えられたｔ個のトピックに対して、トピック信頼度Ｔ_ｓ ^１，…，Ｔ_ｓ ^ｔを計算する。各トピックＴ^ｉに対して、分析区間を動かすことで、トピック信頼度の時間変化が得られるが、ある閾値よりも大きな信頼度を持つ区間をトピックＴ^ｉとすることで、トピックの推定を行うことができる。

トピックモデルは、トピックデータベース２０５から分析区間ベクトル生成部３０３とトピックモデル生成部３０５により構築される。トピックデータベース２０５は、トピックラベルが付与された音声区間の集合
｛（Ｔ，Ｓ）｜Ｔはトピックラベル、ＳはＳＰＳ符号列｝
のデータベースである。

トピックデータベース２０５の中の全てのあるいは一部のＳＰＳ符号列は、分析区間ベクトル生成部３０３においては、分析区間ベクトルと同じ主成分を用いたベクトルに変換される。その後、トピックモデル生成部３０５によって、公知のサポートベクトルマシン（非特許文献６参照）により各トピックを判別する二分分類器から構成されるトピックモデルが構築される。なお、その際に、用いられるカーネル関数の計算には、図６で示された手続きが利用できる。また、教師ありトピック分割部３０６で用いられるトピック信頼度は、この二分分類器の出力値を用いることができる。

教師なしトピック分割部３０４と教師ありトピック分割部３０６で計算されたトピック構造情報は、トピック構造情報統合部３０７で統合される。具体的には、教師ありトピック分割部３０６で計算された信頼度の高いトピック区間を優先して採用し、これ以外の区間のトピック分割と、この区間内の部分トピックの分割を行う際に、教師なしトピック分割部３０４により計算したトピック構造情報を用いる。

このようにしてトピック構造情報が得られると、構造化コンテンツ提示部２０４（図４）は、トピック構造情報生成部２０３で計算されたトピック構造情報に基づいて、コンテンツを構造化してユーザーに提示する。

図７は、トピック構造情を報提示する構造化コンテンツ提示部２０４の装置構成を説明する図である。コンテンツを蓄積するためのコンテンツ蓄積装置４０１と、コンテンツのトピック構造情報を計算するトピック情報計算装置４０２と、構造化コンテンツ提示装置４０３から構成される。構造化コンテンツ提示装置４０３は、例えば、ビデオディスプレイ、キーボード、マウスを有するコンピュータ装置により構成され、ビデオディスプレイに、構造化されたコンテンツを、グラフィカルユーザーインタフェースを用いて、ユーザーに提示する。

図８は、構造化コンテンツ提示装置４０３のビデオディスプレイ上に提示される表示画面の一例を例示する図である。図８に示されるように、ここでの表示画面は、階層表示部４３１とコンテンツ再生部４３２のウィンドウ表示領域から構成される。

階層表示部４３１のウィンドウ表示領域には、トピック構造情報に基づいて、コンテンツに含まれるトピックが階層的に表示される。このとき、教師ありトピック分割により得られたトピックには、トピック名が同時に表示される。表示される階層の深さは、スライダーで選択可能であり、選択された階層の深さの中で、最下層のトピックには、コンテンツの該当する区間の中から選ばれた静止画が表示される。

また、ユーザーは、マウスの操作指示により、階層表示部４３１に表示されているウィンドウ表示領域の内の任意の階層のウィンドウを選択することができ、選択した階層のウィンドウにトピック名をつけることができる。選択された階層に対応する音声区間とユーザーから付与されたトピック名は、トピックデータベース２０５に蓄積され、後に、トピック分割を行う際には、新たなトピックによる「教師ありトピック分割」が可能になる。

さらに、ユーザーが、ある階層を選択すると、コンテンツ再生部４３２のウィンドウ表示処理を行うユーザインタフェース処理部では、トピック構造情報から選択された階層に対応する開始時刻と終了時刻を読み出し、コンテンツの該当部分をロードする。そして、区間再生ボタンが押されると、該当部分の再生を行う。

また、コンテンツ再生部４３２のウィンドウ表示を行うユーザインタフェース処理部においては、フレーズ再生ボタンが押されると、その区間を特徴付けるフレーズが再生される。このようなフレーズは、ＳＰＳ符号列ｗが分析区間ｓにおいてどの程度特徴的であるかを表す指標ｆ（ｗ，ｓ）に基づいて抽出され、例えば、特徴的なフレーズ上位３箇所がフレーズ再生ボタン１〜３に関連付けられる。そして、フレーズ再生ボタン１が押されると、最も特徴的なフレーズが再生され、フレーズ再生ボタン２が押されると、２番目に特徴的なフレーズが再生され、フレーズ再生ボタン３が押されると、３番目に特徴的なフレーズが再生される。

以上に説明したように、本発明によるトピック分割処理装置によれば、マルチメディアコンテンツを、音声を手がかりに、トピック単位に構造化した上で、構造化コンテンツ提示装置を用いて、任意のトピックの特徴的なフレーズだけを再生することにより、例えば１時間のコンテンツの概要を数分で把握することが可能になり、要約機能を備えたマルチメディアコンテンツのインタフェース装置として利用される。

本発明に係るトピック分割処理方法の処理フローの一例を示すフローチャートである。本発明によるトピック分割処理装置の構成を説明する図である。本発明によるトピック分割処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。本発明によるトピック分割処理装置を別の態様で実施する構成例を説明するブロック図である。トピック構造情報生成部２０３の構成を説明するブロック図である。本発明のトピック分割処理装置の分析区間ベクトル生成部およびトピックモデル生成部で用いられるストリングカーネルの計算手続きを説明する図である。トピック構造情を報提示する構造化コンテンツ提示部２０４の装置構成を説明する図である。構造化コンテンツ提示装置４０３のビデオディスプレイ上に提示される表示画面の一例を例示する図である。

符号の説明

１０１音声分離手段
１０２音声符号化手段
１０３分析区間ベクトル生成手段
１０４クラスタリング手段
２０１映像音声分離部
２０１ＳＰＳ符号化部
２０３トピック構造情報生成部
２０４構造化コンテンツ提示部
２０５トピックデータベース
３０１分析区間抽出部
３０２カーネル主成分分析部
３０３分析区間ベクトル生成部
３０４教師なしトピック分割部
３０５トピックモデル生成部
３０６教師ありトピック分割部
３０７トピック構造情報統合部
４０１コンテンツ蓄積装置
４０２トピック情報計算装置
４０３構造化コンテンツ提示装置
４３１階層表示部
４３２コンテンツ再生部

Claims

マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割するためのトピック分割処理方法であって、
音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化過程と、
部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成過程と、
分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング過程と
の処理をコンピュータにより実行することを特徴とするトピック分割処理方法。
請求項１に記載のトピック分割処理方法において、
前記音声符号化過程においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識する
ことを特徴とするトピック分割処理方法。
マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割するトピック分割処理装置であって、
音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化手段と、
部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成手段と、
分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング手段と
を備えることを特徴とするトピック分割処理装置。
請求項３に記載のトピック分割処理装置において、
前記音声符号化手段は、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識することを特徴とするものであるトピック分割処理装置。
マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割する処理をコンピュータにより実行させるトピック分割プログラムであって、
音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化ステップと、
部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成ステップと、
分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリングステップとの処理をコンピュータに実行させることを特徴とするトピック分割処理プロクラム。
請求項５に記載のトピック分割処理プログラムにおいて、
音声符号化ステップの処理においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識する処理を行う
ことを特徴とするものであるトピック分割処理プログラム。