JP2007316323A

JP2007316323A - トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Info

Publication number: JP2007316323A
Application number: JP2006145654A
Authority: JP
Inventors: Takeshi Sadohara; 健佐土原
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2006-05-25
Filing date: 2006-05-25
Publication date: 2007-12-06

Abstract

【課題】音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、符号列を直接分析して音声の意味的な階層化を行う。
【解決手段】トピック分割処理方法は、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するため、音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化過程と、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成過程と、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化過程との処理を実行する。
【選択図】図１

Description

本発明は、マルチメディアコンテンツに含まれる音声を手がかりとして、コンテンツを意味的に等質な部分に分割するため、大語彙連続音声認識システムを用いて音声をテキストに変換することなく、音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、この符号列を直接分析して音声の意味的な階層化を行うトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムに関する。

今日、デジタル技術、大容量記憶装置技術の進歩により、一個人においてさえも、テキスト、音声そして画像等の情報が大量に蓄積可能になった。こうした情報を資源として有効に活用するためには、欲しい情報に素早く到達するための索引化や、情報の概要を素早く把握するための構造化等を行う必要があるが、情報量の多さ故に、このような処理を人手で行うことは困難であり、計算機を用いて自動的に情報の資源化を行うための技術が切実に求められている。

このような技術の中でも、ある音声区間のトピックを推定したり、音声区間をトピック単位に分割したりする技術は、マルチメディアコンテンツを対象に、検索、分類、要約等のより高次の情報資源化処理を行うための基礎的技術として、これまでにも多くの研究開発がなされてきた。

トピック同定に関する従来の技術（特許文献１、非特許文献１参照）では、音声は、音声認識により、単語やフレーズ等の音声イベントの列に変換された後、一定幅の任意の分析区間に含まれるイベントの頻度が計算される。そして、事前にトピックラベルが付与された訓練データから学習されたトピックモデルに対して、分析区間のイベント頻度パターンを照合することにより、分析区間のトピック推定を行う。

このようなトピック推定技術を用いると、音声区間をトピック単位に分割することが可能になるが、トピックモデルを得るために、予めトピックラベルが付与されたデータを必要とする。このような手法は、教師ありトピック分割とも呼ばれる。一方、このような教師信号付きのデータを必要としない、教師なしのトピック分割手法も提案されている。

教師なしのトピック分割法（特許文献２、非特許文献２参照）においては、音声は、音声認識により、単語やフレーズ等の音声イベントの列に変換された後、一定幅の任意の分析区間を、その区間に含まれるイベントの頻度等を成分とするベクトルで表現する。そして、任意の分析区間の意味的な類似性を、例えば、ベクトルの余弦により測定することにより判定し、所定の閾値よりも大きい類似性を持つ複数の分析区間が意味的に等質な部分としてまとめられる。

また、最近、教師なしトピック分割の１手法として、大語彙連続音声認識を用いることなく、音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、この符号列をカーネル主成分分析を用いて分析して、音声の意味的な階層化を行うトピック分割処理方法が提案されている（非特許文献６）。

この種のマルチメディアコンテンツのトピック分割に関係する従来技術の文献として次のような各文献が参照できる。
特表平８−５１２１４８号公報特開２００４−１５７３３７号公報特開２００２−２２１９８４号公報Ｋ．Ｏｈｔｓｕｋｉｅｔａｌ．：ＴｏｐｉｃＥｘｔｒａｃｔｉｏｎＢａｓｅｄｏｎＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｉｎＢｒｏａｄｃａｓｔＮｅｗｓＳｐｅｅｃｈ，ＩＥＩＣＥＴＲＡＮＳ．ＩＮＦ．＆ＳＹＳＴ．，Ｖｏｌ．Ｅ８５Ｄ，Ｎｏ．７，２００２．鷹尾誠一他：ニュース音声に対するトピックセグメンテーションと分類、情報処理学会研究報告、２４、ｐｐ．５５−６２、１９９８．Ｂ．Ｓｃｈｏｌｋｏｐｈｅｔａｌ．：Ｎｏｎｌｉｎｅａｒｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓａｓａｋｅｒｎｅｌｅｉｇｅｎｖａｌｕｅｐｒｏｂｌｅｍ，ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，Ｖｏｌ．１０，Ｎｏ．５，ｐｐ．１２９９−１３１９，２００４．Ｊ．Ｓｈａｗｅ−ＴａｙｌｏｒａｎｄＮ．Ｃｒｉｓｔｉａｎｉｎｉ：Ｋｅｒｎｅｌｍｅｔｈｏｄｓｆｏｒｐａｔｔｅｒｎａｎａｌｙｓｉｓ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２００４．Ｓｈｉ−ｗｏｏｋＬｅｅｅｔａｌ．：Ｒｏｂｕｓｔｓｐｏｋｅｎｄｏｃｕｍｅｎｔｒｅｔｒｉｅｖａｌｂａｓｅｄｏｎｍｕｌｔｉｌｉｎｇｕａｌｓｕｂｐｈｏｎｅｔｉｃｓｅｇｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ，Ｐｒｏｃ．ｏｆＩＣＥＩＳ，ｐｐ．１３４−１３９，２００４．佐土原健他：音素片のカーネル主成分分析を用いたトピックセグメンテーション、電子情報通信学会技術研究報告、１０４巻７２６号、ｐｐ．３７−４１、２００５．

上述したように、ほとんどの従来技術は、大語彙連続音声認識システムを使って得られるテキストを、トピック分割のための重要な手がかりとして用いている。このため、従来技術のトピック分割の性能は、音声認識システムの認識性能に強く依存する。近年においては、音声認識の性能は向上しているが、それは、言語モデルを介した言語的知識の積極的な利用によるところが大きい。しかし、逆に言えば、適用するタスクや分野に適した語彙や文法に関する知識を予め与えておかなければ、十分な認識精度を実現できないということ意味している。したがって、予めタスクや分野を限定できない場合には、大語彙連続音声認識システムを利用したトピック分割法は十分な性能を発揮できない。

例えば、個人が記録したホームビデオや、会社における日常的な小規模会議の記録等の非公開なコンテンツにおいては、辞書に登録されていない個人名、製品の型番、省略語等が頻繁に現れると同時に、文法的に正しくない発話が顕著に見られる。このような場合の大語彙連続音声認識システムの認識率は実用に耐える水準に達しておらず、したがって、音声認識システムが出力するテキストを手がかりとするトピック分割の性能も劣化してしまうという問題がある。

本発明は、上記のような問題を解決するためになされたものであり、本発明の目的は、大語彙連続音声認識システムを用いて音声をテキストに変換することなく、音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、この符号列を直接分析して音声の意味的な階層化を行うトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムを提供することにある。

本発明者によってなされた同様な技術として、非特許文献６で示された技術が存在するが、本発明により、これらの技術によるトピック分割性能をさらに改良した新規なトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムが提供される。

上記のような目的を達成するため、本発明は、第１の態様として、本発明によるトピック分割処理方法が、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するトピック分割処理方法であって、音声区間を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化過程と、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成過程と、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化過程との処理をコンピュータにより実行することを特徴とするものである。

また、前記音声符号化過程においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列として認識することを特徴とする。

また、本発明は、第２の態様として、本発明によるトピック分割処理装置が、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するトピック分割処理装置であって、音声区間を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化手段と、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成手段と、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化手段を備えることを特徴とするものである。

この場合において、前記音声符号化手段においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列として認識することを特徴とするものである。

また、本発明は、第３の態様として、本発明によるトピック分割処理プログラムは、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理を実行し、コンテンツを意味的に等質な部分に分割する処理をコンピュータにより実行させるトピック分割プログラムであって、音声区間を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化ステップと、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成ステップと、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化ステップの処理をコンピュータに実行させることを特徴とするものである。

この場合において、音声符号化ステップの処理においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列として認識する処理を行うことを特徴とするものである。

このような特徴を有する本発明のトピック分割処理方法またはトピック分割処理装置によれば、大語彙連続音声認識システムを用いることなく、音声を、音節、音素あるいは音素片等のサブワードユニットの列として認識することで得られた符号列を直接分析して、音声の意味的な階層化を行うことが可能となり、タスクや適用分野に関する事前知識を必要せず、しかも、既に発明者によりなされた同様な技術（非特許文献６）よりも高性能のトピック分割処理を実現することができる。

以下、本発明を実施する場合の一形態について図面を参照して説明する。図１は、本発明に係るトピック分割処理方法の処理フローの一例を示すフローチャートである。本発明によるトピック分割処理方法においては、前述したように、大語彙連続音声認識システムを用いて単語を認識することなく、音声を、単語よりも粒度の細かい音節、音素あるいは音素片等のサブワードユニットの符号列として認識し、符号列の出現パターンを分析することにより、音声を意味的に等質な部分に直接分割する。これにより、タスクや適用分野に関わる語彙や文法等の言語的な知識を用いることなしに、マルチメディアコンテンツのトピック分割処理を行うことができる。

図１を参照して、本発明によるトピック分割処理の原理について説明する。本発明のトピック分割処理においては、基本的な処理として、入力された複数の音声区間を、音節、音素あるいは音素片等のサブワードユニットの符号列として認識する音声符号化過程（Ｓ１）と、符号列に基づいて各音声区間の類似性を計算し、具体的には文字カーネルを用いて類似性を計算して、類似性行列を生成する類似性行列生成過程（Ｓ２）と、生成された類似性行列に基づいて隣接する音声区間のうち最も類似した音声区間を併合することを繰り返して音声区間を階層化する階層化過程（Ｓ３）の各処理を行う。

更に詳細に説明する。トピック分割処理を実行する場合に、まず、入力音声は、発話境界の同定、ノイズ除去等の前処理を行った後、例えば、無音区間を判別することにより、または所定の時間毎に区間を区切って、複数の音声区間に分割される。そして、各音声区間は、音声符号化過程（Ｓ１）によって、サブワードユニットを一つの文字とする文字列（符号列）に変換される。

次に、類似性行列生成過程（Ｓ２）において、任意の二つの音声区間の類似性を要素とする行列が生成される。音声区間の類似性は、文字列カーネルを用いて計算する。非特許文献４で解説されているとおり、文字列カーネルは、文字列に含まれる部分文字列の頻度情報に基づいた文字列の類似性を効率良く計算するための技法であり、例えば、図５で示されている計算手続きを用いることができる。

次に、図５で示された計算手続きの要点を説明する。符号化された、ある音声区間をｓとし、ｓに含まれる長さD以下の任意の部分符号列ｗに関する指標ｆ（ｗ，ｓ）を成分とするベクトルとしてｓを表現する。このとき、この計算手続きは、二つの音声区間の類似性を、それぞれの表現ベクトルの内積として計算する。ただし、このベクトルは非常に高次元であるので、各成分の積和をとる素朴な方法で内積を計算することは、計算量的に困難であるので、この計算手続きは、一般にトライと呼ばれるデータ構造を用いることで、ベクトルの次元に依存しない計算量で内積を効率良く計算することができる。

指標ｆ（ｗ，ｓ）としては、次の数式を用いることができる。

ただし、Ｎ（ｗ，ｓ）は、音声区間ｓにおけるｗの頻度を表し、Ｎ（ｗ）は全区間におけるｗの頻度を表している。また、｜ｗ｜はｗの文字数、Ｃ（Ｌ，ｓ）は音声区間ｓにおける長さＬの部分文字列の数、Ｃ（Ｌ）は全区間における長さＬの部分文字列の数を表している。

このようにして、任意の二つの音声区間の類似性を計算し、これを要素とする行列Ｋを生成する。すなわち、ｉ番目とｊ番目の音声区間を、上述した指標を成分とするベクトル
Ｖ_ｉ、Ｖ_ｊと表現するとき、Ｋのｉ行ｊ列はその内積＜Ｖ_ｉ・Ｖ_ｊ＞を表している。

類似性行列Ｋに基づいて、階層化過程（Ｓ３）において、音声区間の階層化を行う。例えば、図６のような計算手続きを用いると、二分木を用いた音声区間の階層化を行うことができる。以下、図６の計算手続きについて説明する。

まず、d行d列の類似性行列Ｋに対して、次のような行列Ｍを計算する。

ただし、Ｕはｄ×ｄ行列で、全ての要素が１／ｄとする。

全ての音声区間ベクトルの重心をｍとするとき、すなわち、ｍ＝１／ｄΣ^ｄ _ｉ＝１Ｖ_ｉとするとき、行列Ｍのｉ行ｊ列は、内積＜Ｖ_ｉ−ｍ・Ｖ_ｊ−ｍ＞を表している。すなわち、行列Ｍは、任意の二つの音声区間の表現ベクトルをセンタリングした後の内積を格納した行列となっている。以降、音声区間の階層化には、類似性行列Ｋの代わりに行列Ｍを用いる。

このように計算した行列Ｍを用いて、各音声区間をボトムアップに併合していく。まず、ｄ個の音声区間に対して、それぞれを要素とするクラスタＣ_ｉ＝｛ｉ｝（ｉ＝１，…，ｄ）を考える。次に、隣接するクラスタの間で類似性を計算し、最も類似性の高いクラスタ対Ｃ_ｉ，Ｃ_ｉ＋１を併合して新クラスタＣ’を生成し、Ｃ_ｉとＣ_ｉ＋１を取り除く代わりにＣ’を挿入する。

クラスタ間の類似性には以下の式を用いることができる。

ただし、Ｍ_ｍ，_ｎは、行列Ｍのｍ行ｎ列の要素を表している。このようなクラスタ間の類似性の計算は、各クラスタを、クラスタに含まれる音声区間の表現ベクトルの和と考えた上で、それらの内積を計算することに相当する。

あるいは、以下の式を用いて、内積の代わりにクラスタの表現ベクトルの余弦を用いることもできる。

いずれの場合でも、実際には、センタリングの計算を含め、一連の計算において、音声区間の表現ベクトルを陽に用いていないことに注意されたい。全ての計算は、最初に生成された類似性行列Ｋとそれから派生する行列Ｍのみを用いて計算することができる。表現ベクトルの次元は一般に非常に高次元になるので、そのような高次元ベクトルを陽に計算しないことは計算の大幅な効率化に寄与している。この意味で、本発明は、非特許文献４で解説されているカーネル法の一種であり、計算アルゴリズムの観点における本発明の新規性の一面を示している。

このようなクラスタの併合を繰り返すことで、クラスタを節とする二分木を得ることができる。

図２は、本発明によるトピック分割処理装置の構成を説明する図である。図２に示すように、本発明によるトピック分割処理装置は、コンテンツ読み込み手段１０１、音声区間抽出手段１０２、音声符号化手段１０３、類似性行列生成手段１０４、階層化手段１０５、トピック構造情報出力手段１０６から構成されており、マルチメディアコンテンツを入力とし、その中の音声のデータに基づいてトピック分割処理を行い、最終的に分割したトピックの構造情報を出力する。

コンテンツ読込手段１０１は、マルチメディアコンテンツを入力とし、コンテンツから音声を分離した上で、主記憶上に波形データとして展開する。次の音声区間抽出手段１０２は、波形データに基づいて、発話区間の切り出し、雑音除去等の前処理を行って、複数の音声区間を抽出すると同時に、音声区間の開始・終了時刻情報をテーブルに記録する。音声区間抽出手段１０２により抽出された各音声区間は、次の音声符号化手段１０３に入力されて、音節、音素、あるいは音素片の系列（符号列）に符号化される。類似性行列生成手段１０４は、音声符号化手段１０３によって得られた音声の符号列を参照して、任意の二つの音声区間の類似性を計算して（文字列カーネルを用いる計算）、テーブルに記録する。これにより、テーブルには類似性行列が生成される。そして、階層化手段１０５により、テーブルに記憶された音声区間の類似性（類似性行列）に基づいて、音声区間の階層化が行われる。トピック構造情報出力手段１０６は、音声区間の階層情報、開始・終了時刻の情報を参照して、トピック境界の時刻情報を含むトピック構造情報を出力する。

図３は、本発明によるトピック分割処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。この処理では、図３に示すように、コンテンツを読み込むステップ（Ｐ１）と、コンテンツから音声区間を抽出するステップ（Ｐ２）と、音声を符号化するステップ（Ｐ３）と、符号化された音声に基づいて音声区間の類似性を計算して類似性行列を生成する類似性行列生成ステップ（Ｐ４）と、音声区間の類似性に基づいて音声区間の階層化を行う階層化ステップ（Ｐ５）と、トピック境界の時刻情報を含むトピック構造情報を出力するステップ（Ｐ６）との各ステップの処理をコンピュータにより実行させるものである。このプログラムがインストールされたコンピュータは、各ステップの処理を実行することにより、コンテンツ読込手段、音声区間抽出手段、音声符号化手段、類似性行列生成手段、階層化手段、トピック構造情報出力手段として機能するトピック分割処理装置を構成する。

本発明においては、前述したように、音声を手がかりにマルチメディアコンテンツを意味的に構造化することにより、コンテンツの概要を素早く理解することが可能となるユーザインタフェースの実現を一つの目的としている。しかも、タスクや分野に依存しない手法を実現するために、大語彙連続音声認識システムを用いて単語を認識することなしに、音声を、通常の音素よりも粒度の細かいＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号（特許文献３参照）と呼ばれる符合の列に変換した上で、この符号列を直接トピック分割する。このように、ＳＰＳ符号を用いた場合におけるコンテンツの意味的構造提示を目的としたトピック分割処理装置について、次に説明する。

図４は、本発明によるトピック分割処理装置を別の態様で実施する構成例を説明するブロック図である。このトピック分割処理装置は、図４に示すように、映像音声分離部２０１、音声区間抽出部２０２、ＳＰＳ符号化部２０３、類似性行列生成部２０４、音声区間階層化部２０５、トピック構造情報生成部２０６、構造化コンテンツ提示部２０７から構成されている。

このトピック分割処理装置において、映像音声分離部２０１は、映像と音声を含むマルチメディアコンテンツから、映像と音声を分離する。音声区間抽出部２０２は、分離された音声に対して、発話区間の切り出し、雑音除去等の前処理を行い、複数の音声区間を抽出すると同時に、音声区間の開始・終了時刻情報をテーブルに記録する。ＳＰＳ符号化部２０３は、抽出された音声区間をＳＰＳ符号列に変換する。類似性行列生成部２０４は、符号化された音声区間に基づいて、任意の二つの音声区間の類似性が計算されて、テーブルに格納される。このテーブルに基づいて、音声区間階層化部２０５がデータ処理を行うことにより、音声区間の階層化が行われ、トピック構造情報生成部２０６は、階層情報と共に、音声区間の時刻情報を参照して、トピック構造情報を生成する。構造化コンテンツ提示部２０７は、生成されたトピック構造情報に基づいて、マルチメディアコンテンツに含まれる音声や画像等の情報を構造化した上でユーザに提示する。

ＳＰＳ符号化部２０３は、特許文献３で説明されているとおり、音声のデータからＳＰＳ符号列を生成するものである。ここでのＳＰＳ符号とは、通常の音素よりも粒度の細かい符号系であり、具体例で説明すると、例えば、日本の駅名「神戸」は、標準的な音素記号系ＸＳＡＭＰＡで「koobe」と表記されるのに対して、ＳＰＳ符号系では、「#kcl kk ko ooo ob bcl bb be ee e#」のように表記される。通常の音素と比較すると、時間方向と特徴空間方向の両方に関して細分化した認識単位を用いており、例えば、音素間のわたりの部分も独立した単位として扱っている。単語辞書を利用する従来の音声認識システムにおいては、時間方向の細分化は必ずしも性能の向上に直結しないが、辞書を用いないサブワード単位の情報処理を行うにあたっては、このような細分化が性能の向上に寄与することが期待される。何故ならば、局所的な誤認識の影響が、単語全体や単語間に波及することが少ないため、広範囲に情報を失う可能性が少ないからである。実際、非特許文献５で示されているとおり、音声検索に音素片を適用することで、高精度の検索が可能であることが分かっている。しかも、単語辞書を利用しないので、語彙制約のない音声検索が可能であることが示されている。このようなＳＰＳ符号系の利点は、トピック分割処理においても効果的であり、大語彙連続音声認識システムを用いることなしに、語彙制約のない頑健なトピック分割処理が実現可能になる。

図７は、トピック構造情報を提示する構造化コンテンツ提示部２０４の装置構成を説明する図である。コンテンツを蓄積するためのコンテンツ蓄積装置４０１と、コンテンツのトピック構造情報を計算するトピック情報計算装置４０２と、構造化コンテンツ提示装置４０３から構成される。構造化コンテンツ提示装置４０３は、例えば、ビデオディスプレイ、キーボード、マウスを有するコンピュータ装置により構成され、ビデオディスプレイに、構造化されたコンテンツを、グラフィカルユーザインタフェースを用いて、ユーザに提示する。

図８は、構造化コンテンツ提示装置４０３のビデオディスプレイ上に提示される表示画面の一例を例示する図である。図８に示されるように、ここでの表示画面は、階層表示部４３１とコンテンツ再生部４３２のウィンドウ表示領域から構成される。

階層表示部４３１のウィンドウ表示領域には、トピック構造情報に基づいて、コンテンツに含まれるトピックが階層的に表示される。表示される階層の深さは、スライダーで選択可能であり、最下層のトピックには、コンテンツの該当する区間の中から選ばれた静止画が表示される。

ユーザは、マウスの操作指示により、階層表示部４３１に表示されているウィンドウ表示領域の内の任意の階層のウィンドウを選択することができる。ユーザが、ある階層を選択すると、コンテンツ再生部４３２のウィンドウ表示処理を行うユーザインタフェース処理部では、トピック構造情報から選択された階層に対応する開始時刻と終了時刻を読み出し、コンテンツの該当部分をロードする。そして、区間再生ボタンが押されると、該当部分の再生を行う。

また、コンテンツ再生部４３２のウィンドウ表示を行うユーザインタフェース処理部においては、フレーズ再生ボタンが押されると、その区間を特徴付けるフレーズが再生される。このようなフレーズは、ＳＰＳ符号列ｗが分析区間ｓにおいてどの程度特徴的であるかを表す指標ｆ（ｗ，ｓ）に基づいて抽出され、例えば、特徴的なフレーズ上位３箇所がフレーズ再生ボタン１〜３に関連付けられる。そして、フレーズ再生ボタン１が押されると、最も特徴的なフレーズが再生され、フレーズ再生ボタン２が押されると、２番目に特徴的なフレーズが再生され、フレーズ再生ボタン３が押されると、３番目に特徴的なフレーズが再生される。

以上に説明したように、本発明によるトピック分割処理装置によれば、マルチメディアコンテンツを、音声を手がかりに、トピック単位に構造化した上で、構造化コンテンツ提示装置を用いて、任意のトピックの特徴的なフレーズだけを再生することにより、例えば１時間のコンテンツの概要を数分で把握することが可能になり、要約機能を備えたマルチメディアコンテンツのインタフェース装置として利用される。

本発明に係るトピック分割処理方法の処理フローの一例を示すフローチャートである。本発明によるトピック分割処理装置の構成を説明する図である。本発明によるトピック分割処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。本発明によるトピック分割処理装置を別の態様で実施する構成例を説明するブロック図である。本発明のトピック分割処理装置の類似性行列生成部で用いられる文字列カーネルの計算手続きを説明する図である。本発明のトピック分割処理装置の階層化部で用いられる音声区間の階層化を行うための計算手続きを説明する図である。トピック構造情報を提示する構造化コンテンツ提示部２０４の装置構成を説明する図である。構造化コンテンツ提示装置４０３のビデオディスプレイ上に提示される表示画面の一例を例示する図である。

符号の説明

１０１コンテンツ読込手段
１０２音声区間抽出手段
１０３音声符号化手段
１０４類似性行列生成手段
１０５階層化手段
１０６トピック構造情報出力手段
２０１映像音声分離部
２０２音声区間抽出部
２０３ＳＰＳ符号化部
２０４類似性行列生成部
２０５音声区間階層化部
２０６トピック構造情報生成部
２０７構造化コンテンツ提示部
４０１コンテンツ蓄積装置
４０２トピック情報計算装置
４０３構造化コンテンツ提示装置
４３１階層表示部
４３２コンテンツ再生部

Claims

マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するトピック分割処理方法であって、
音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化過程と、
前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成過程と、
類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化過程と
の処理をコンピュータにより実行することを特徴とするトピック分割処理方法。
請求項１に記載のトピック分割処理方法において、
前記音声符号化過程においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列として認識することを特徴とするトピック分割処理方法。
マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するトピック分割処理装置であって、
音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化手段と、
前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成手段と、
類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化手段
を備えることを特徴とするトピック分割処理装置。
請求項３に記載のトピック分割処理装置において、
前記音声符号化手段は、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列として認識することを特徴とするものであるトピック分割処理装置。
マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理を実行し、コンテンツを意味的に等質な部分に分割する処理をコンピュータにより実行させるトピック分割プログラムであって、
音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化ステップと、
前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成ステップと、
類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化ステップと
の処理をコンピュータに実行させることを特徴とするトピック分割処理プログラム。
請求項５に記載のトピック分割処理プログラムにおいて、
音声符号化ステップの処理においては、音声をＳＰＳ（Ｓｕｂ−ＰｈｏｎｅｔｉｃＳｅｇｍｅｎｔ）符号列として認識する処理を行う
ことを特徴とするものであるトピック分割処理プログラム。