JP2007316323A - トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。 - Google Patents

トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。 Download PDF

Info

Publication number
JP2007316323A
JP2007316323A JP2006145654A JP2006145654A JP2007316323A JP 2007316323 A JP2007316323 A JP 2007316323A JP 2006145654 A JP2006145654 A JP 2006145654A JP 2006145654 A JP2006145654 A JP 2006145654A JP 2007316323 A JP2007316323 A JP 2007316323A
Authority
JP
Japan
Prior art keywords
speech
topic
similarity
hierarchization
code string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006145654A
Other languages
English (en)
Inventor
Takeshi Sadohara
健 佐土原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2006145654A priority Critical patent/JP2007316323A/ja
Publication of JP2007316323A publication Critical patent/JP2007316323A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、符号列を直接分析して音声の意味的な階層化を行う。
【解決手段】 トピック分割処理方法は、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するため、音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化過程と、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成過程と、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化過程との処理を実行する。
【選択図】 図1

Description

本発明は、マルチメディアコンテンツに含まれる音声を手がかりとして、コンテンツを意味的に等質な部分に分割するため、大語彙連続音声認識システムを用いて音声をテキストに変換することなく、音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、この符号列を直接分析して音声の意味的な階層化を行うトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムに関する。
今日、デジタル技術、大容量記憶装置技術の進歩により、一個人においてさえも、テキスト、音声そして画像等の情報が大量に蓄積可能になった。こうした情報を資源として有効に活用するためには、欲しい情報に素早く到達するための索引化や、情報の概要を素早く把握するための構造化等を行う必要があるが、情報量の多さ故に、このような処理を人手で行うことは困難であり、計算機を用いて自動的に情報の資源化を行うための技術が切実に求められている。
このような技術の中でも、ある音声区間のトピックを推定したり、音声区間をトピック単位に分割したりする技術は、マルチメディアコンテンツを対象に、検索、分類、要約等のより高次の情報資源化処理を行うための基礎的技術として、これまでにも多くの研究開発がなされてきた。
トピック同定に関する従来の技術(特許文献1、非特許文献1参照)では、音声は、音声認識により、単語やフレーズ等の音声イベントの列に変換された後、一定幅の任意の分析区間に含まれるイベントの頻度が計算される。そして、事前にトピックラベルが付与された訓練データから学習されたトピックモデルに対して、分析区間のイベント頻度パターンを照合することにより、分析区間のトピック推定を行う。
このようなトピック推定技術を用いると、音声区間をトピック単位に分割することが可能になるが、トピックモデルを得るために、予めトピックラベルが付与されたデータを必要とする。このような手法は、教師ありトピック分割とも呼ばれる。一方、このような教師信号付きのデータを必要としない、教師なしのトピック分割手法も提案されている。
教師なしのトピック分割法(特許文献2、非特許文献2参照)においては、音声は、音声認識により、単語やフレーズ等の音声イベントの列に変換された後、一定幅の任意の分析区間を、その区間に含まれるイベントの頻度等を成分とするベクトルで表現する。そして、任意の分析区間の意味的な類似性を、例えば、ベクトルの余弦により測定することにより判定し、所定の閾値よりも大きい類似性を持つ複数の分析区間が意味的に等質な部分としてまとめられる。
また、最近、教師なしトピック分割の1手法として、大語彙連続音声認識を用いることなく、音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、この符号列をカーネル主成分分析を用いて分析して、音声の意味的な階層化を行うトピック分割処理方法が提案されている(非特許文献6)。
この種のマルチメディアコンテンツのトピック分割に関係する従来技術の文献として次のような各文献が参照できる。
特表平8−512148号公報 特開2004−157337号公報 特開2002−221984号公報 K.Ohtsuki et al. :Topic Extraction Based on Continuous Speech Recognition in Broadcast News Speech, IEICE TRANS. INF. & SYST., Vol. E85D, No.7, 2002. 鷹尾誠一 他:ニュース音声に対するトピックセグメンテーションと分類、情報処理学会研究報告、24、pp.55−62、1998. B.Scholkoph et al.:Nonlinear component analysis as a kernel eigenvalue problem, Neural Computation, Vol.10, No.5,pp. 1299−1319, 2004. J.Shawe−Taylor and N.Cristianini: Kernel methods for pattern analysis, Cambridge University Press, 2004. Shi−wook Lee et al.:Robust spoken document retrieval based on multilingual subphonetic segment recognition, Proc. of ICEIS, pp.134−139, 2004. 佐土原健 他:音素片のカーネル主成分分析を用いたトピックセグメンテーション、電子情報通信学会技術研究報告、104巻726号、pp.37−41、2005.
上述したように、ほとんどの従来技術は、大語彙連続音声認識システムを使って得られるテキストを、トピック分割のための重要な手がかりとして用いている。このため、従来技術のトピック分割の性能は、音声認識システムの認識性能に強く依存する。近年においては、音声認識の性能は向上しているが、それは、言語モデルを介した言語的知識の積極的な利用によるところが大きい。しかし、逆に言えば、適用するタスクや分野に適した語彙や文法に関する知識を予め与えておかなければ、十分な認識精度を実現できないということ意味している。したがって、予めタスクや分野を限定できない場合には、大語彙連続音声認識システムを利用したトピック分割法は十分な性能を発揮できない。
例えば、個人が記録したホームビデオや、会社における日常的な小規模会議の記録等の非公開なコンテンツにおいては、辞書に登録されていない個人名、製品の型番、省略語等が頻繁に現れると同時に、文法的に正しくない発話が顕著に見られる。このような場合の大語彙連続音声認識システムの認識率は実用に耐える水準に達しておらず、したがって、音声認識システムが出力するテキストを手がかりとするトピック分割の性能も劣化してしまうという問題がある。
本発明は、上記のような問題を解決するためになされたものであり、本発明の目的は、大語彙連続音声認識システムを用いて音声をテキストに変換することなく、音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、この符号列を直接分析して音声の意味的な階層化を行うトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムを提供することにある。
本発明者によってなされた同様な技術として、非特許文献6で示された技術が存在するが、本発明により、これらの技術によるトピック分割性能をさらに改良した新規なトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムが提供される。
上記のような目的を達成するため、本発明は、第1の態様として、本発明によるトピック分割処理方法が、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するトピック分割処理方法であって、音声区間を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化過程と、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成過程と、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化過程との処理をコンピュータにより実行することを特徴とするものである。
また、前記音声符号化過程においては、音声をSPS(Sub−Phonetic Segment)符号列として認識することを特徴とする。
また、本発明は、第2の態様として、本発明によるトピック分割処理装置が、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するトピック分割処理装置であって、音声区間を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化手段と、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成手段と、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化手段を備えることを特徴とするものである。
この場合において、前記音声符号化手段においては、音声をSPS(Sub−Phonetic Segment)符号列として認識することを特徴とするものである。
また、本発明は、第3の態様として、本発明によるトピック分割処理プログラムは、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理を実行し、コンテンツを意味的に等質な部分に分割する処理をコンピュータにより実行させるトピック分割プログラムであって、音声区間を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化ステップと、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成ステップと、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化ステップの処理をコンピュータに実行させることを特徴とするものである。
この場合において、音声符号化ステップの処理においては、音声をSPS(Sub−Phonetic Segment)符号列として認識する処理を行うことを特徴とするものである。
このような特徴を有する本発明のトピック分割処理方法またはトピック分割処理装置によれば、大語彙連続音声認識システムを用いることなく、音声を、音節、音素あるいは音素片等のサブワードユニットの列として認識することで得られた符号列を直接分析して、音声の意味的な階層化を行うことが可能となり、タスクや適用分野に関する事前知識を必要せず、しかも、既に発明者によりなされた同様な技術(非特許文献6)よりも高性能のトピック分割処理を実現することができる。
以下、本発明を実施する場合の一形態について図面を参照して説明する。図1は、本発明に係るトピック分割処理方法の処理フローの一例を示すフローチャートである。本発明によるトピック分割処理方法においては、前述したように、大語彙連続音声認識システムを用いて単語を認識することなく、音声を、単語よりも粒度の細かい音節、音素あるいは音素片等のサブワードユニットの符号列として認識し、符号列の出現パターンを分析することにより、音声を意味的に等質な部分に直接分割する。これにより、タスクや適用分野に関わる語彙や文法等の言語的な知識を用いることなしに、マルチメディアコンテンツのトピック分割処理を行うことができる。
図1を参照して、本発明によるトピック分割処理の原理について説明する。本発明のトピック分割処理においては、基本的な処理として、入力された複数の音声区間を、音節、音素あるいは音素片等のサブワードユニットの符号列として認識する音声符号化過程(S1)と、符号列に基づいて各音声区間の類似性を計算し、具体的には文字カーネルを用いて類似性を計算して、類似性行列を生成する類似性行列生成過程(S2)と、生成された類似性行列に基づいて隣接する音声区間のうち最も類似した音声区間を併合することを繰り返して音声区間を階層化する階層化過程(S3)の各処理を行う。
更に詳細に説明する。トピック分割処理を実行する場合に、まず、入力音声は、発話境界の同定、ノイズ除去等の前処理を行った後、例えば、無音区間を判別することにより、または所定の時間毎に区間を区切って、複数の音声区間に分割される。そして、各音声区間は、音声符号化過程(S1)によって、サブワードユニットを一つの文字とする文字列(符号列)に変換される。
次に、類似性行列生成過程(S2)において、任意の二つの音声区間の類似性を要素とする行列が生成される。音声区間の類似性は、文字列カーネルを用いて計算する。非特許文献4で解説されているとおり、文字列カーネルは、文字列に含まれる部分文字列の頻度情報に基づいた文字列の類似性を効率良く計算するための技法であり、例えば、図5で示されている計算手続きを用いることができる。
次に、図5で示された計算手続きの要点を説明する。符号化された、ある音声区間をsとし、sに含まれる長さD以下の任意の部分符号列wに関する指標f(w,s)を成分とするベクトルとしてsを表現する。このとき、この計算手続きは、二つの音声区間の類似性を、それぞれの表現ベクトルの内積として計算する。ただし、このベクトルは非常に高次元であるので、各成分の積和をとる素朴な方法で内積を計算することは、計算量的に困難であるので、この計算手続きは、一般にトライと呼ばれるデータ構造を用いることで、ベクトルの次元に依存しない計算量で内積を効率良く計算することができる。
指標f(w,s)としては、次の数式を用いることができる。
Figure 2007316323
ただし、N(w,s)は、音声区間sにおけるwの頻度を表し、N(w)は全区間におけるwの頻度を表している。また、|w|はwの文字数、C(L,s)は音声区間sにおける長さLの部分文字列の数、C(L)は全区間における長さLの部分文字列の数を表している。
このようにして、任意の二つの音声区間の類似性を計算し、これを要素とする行列Kを生成する。すなわち、i番目とj番目の音声区間を、上述した指標を成分とするベクトル
、Vと表現するとき、Kのi行j列はその内積<V・V>を表している。
類似性行列Kに基づいて、階層化過程(S3)において、音声区間の階層化を行う。例えば、図6のような計算手続きを用いると、二分木を用いた音声区間の階層化を行うことができる。以下、図6の計算手続きについて説明する。
まず、d行d列の類似性行列Kに対して、次のような行列Mを計算する。
Figure 2007316323
ただし、Uはd×d行列で、全ての要素が1/dとする。
全ての音声区間ベクトルの重心をmとするとき、すなわち、m=1/dΣ i=1とするとき、行列Mのi行j列は、内積<V−m・V−m>を表している。すなわち、行列Mは、任意の二つの音声区間の表現ベクトルをセンタリングした後の内積を格納した行列となっている。以降、音声区間の階層化には、類似性行列Kの代わりに行列Mを用いる。
このように計算した行列Mを用いて、各音声区間をボトムアップに併合していく。まず、d個の音声区間に対して、それぞれを要素とするクラスタC={i}(i=1,…,d)を考える。次に、隣接するクラスタの間で類似性を計算し、最も類似性の高いクラスタ対C,Ci+1を併合して新クラスタC’を生成し、CとCi+1を取り除く代わりにC’を挿入する。
クラスタ間の類似性には以下の式を用いることができる。
Figure 2007316323
ただし、Mは、行列Mのm行n列の要素を表している。このようなクラスタ間の類似性の計算は、各クラスタを、クラスタに含まれる音声区間の表現ベクトルの和と考えた上で、それらの内積を計算することに相当する。
あるいは、以下の式を用いて、内積の代わりにクラスタの表現ベクトルの余弦を用いることもできる。
Figure 2007316323
いずれの場合でも、実際には、センタリングの計算を含め、一連の計算において、音声区間の表現ベクトルを陽に用いていないことに注意されたい。全ての計算は、最初に生成された類似性行列Kとそれから派生する行列Mのみを用いて計算することができる。表現ベクトルの次元は一般に非常に高次元になるので、そのような高次元ベクトルを陽に計算しないことは計算の大幅な効率化に寄与している。この意味で、本発明は、非特許文献4で解説されているカーネル法の一種であり、計算アルゴリズムの観点における本発明の新規性の一面を示している。
このようなクラスタの併合を繰り返すことで、クラスタを節とする二分木を得ることができる。
図2は、本発明によるトピック分割処理装置の構成を説明する図である。図2に示すように、本発明によるトピック分割処理装置は、コンテンツ読み込み手段101、音声区間抽出手段102、音声符号化手段103、類似性行列生成手段104、階層化手段105、トピック構造情報出力手段106から構成されており、マルチメディアコンテンツを入力とし、その中の音声のデータに基づいてトピック分割処理を行い、最終的に分割したトピックの構造情報を出力する。
コンテンツ読込手段101は、マルチメディアコンテンツを入力とし、コンテンツから音声を分離した上で、主記憶上に波形データとして展開する。次の音声区間抽出手段102は、波形データに基づいて、発話区間の切り出し、雑音除去等の前処理を行って、複数の音声区間を抽出すると同時に、音声区間の開始・終了時刻情報をテーブルに記録する。音声区間抽出手段102により抽出された各音声区間は、次の音声符号化手段103に入力されて、音節、音素、あるいは音素片の系列(符号列)に符号化される。類似性行列生成手段104は、音声符号化手段103によって得られた音声の符号列を参照して、任意の二つの音声区間の類似性を計算して(文字列カーネルを用いる計算)、テーブルに記録する。これにより、テーブルには類似性行列が生成される。そして、階層化手段105により、テーブルに記憶された音声区間の類似性(類似性行列)に基づいて、音声区間の階層化が行われる。トピック構造情報出力手段106は、音声区間の階層情報、開始・終了時刻の情報を参照して、トピック境界の時刻情報を含むトピック構造情報を出力する。
図3は、本発明によるトピック分割処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。この処理では、図3に示すように、コンテンツを読み込むステップ(P1)と、コンテンツから音声区間を抽出するステップ(P2)と、音声を符号化するステップ(P3)と、符号化された音声に基づいて音声区間の類似性を計算して類似性行列を生成する類似性行列生成ステップ(P4)と、音声区間の類似性に基づいて音声区間の階層化を行う階層化ステップ(P5)と、トピック境界の時刻情報を含むトピック構造情報を出力するステップ(P6)との各ステップの処理をコンピュータにより実行させるものである。このプログラムがインストールされたコンピュータは、各ステップの処理を実行することにより、コンテンツ読込手段、音声区間抽出手段、音声符号化手段、類似性行列生成手段、階層化手段、トピック構造情報出力手段として機能するトピック分割処理装置を構成する。
本発明においては、前述したように、音声を手がかりにマルチメディアコンテンツを意味的に構造化することにより、コンテンツの概要を素早く理解することが可能となるユーザインタフェースの実現を一つの目的としている。しかも、タスクや分野に依存しない手法を実現するために、大語彙連続音声認識システムを用いて単語を認識することなしに、音声を、通常の音素よりも粒度の細かいSPS(Sub−Phonetic Segment)符号(特許文献3参照)と呼ばれる符合の列に変換した上で、この符号列を直接トピック分割する。このように、SPS符号を用いた場合におけるコンテンツの意味的構造提示を目的としたトピック分割処理装置について、次に説明する。
図4は、本発明によるトピック分割処理装置を別の態様で実施する構成例を説明するブロック図である。このトピック分割処理装置は、図4に示すように、映像音声分離部201、音声区間抽出部202、SPS符号化部203、類似性行列生成部204、音声区間階層化部205、トピック構造情報生成部206、構造化コンテンツ提示部207から構成されている。
このトピック分割処理装置において、映像音声分離部201は、映像と音声を含むマルチメディアコンテンツから、映像と音声を分離する。音声区間抽出部202は、分離された音声に対して、発話区間の切り出し、雑音除去等の前処理を行い、複数の音声区間を抽出すると同時に、音声区間の開始・終了時刻情報をテーブルに記録する。SPS符号化部203は、抽出された音声区間をSPS符号列に変換する。類似性行列生成部204は、符号化された音声区間に基づいて、任意の二つの音声区間の類似性が計算されて、テーブルに格納される。このテーブルに基づいて、音声区間階層化部205がデータ処理を行うことにより、音声区間の階層化が行われ、トピック構造情報生成部206は、階層情報と共に、音声区間の時刻情報を参照して、トピック構造情報を生成する。構造化コンテンツ提示部207は、生成されたトピック構造情報に基づいて、マルチメディアコンテンツに含まれる音声や画像等の情報を構造化した上でユーザに提示する。
SPS符号化部203は、特許文献3で説明されているとおり、音声のデータからSPS符号列を生成するものである。ここでのSPS符号とは、通常の音素よりも粒度の細かい符号系であり、具体例で説明すると、例えば、日本の駅名「神戸」は、標準的な音素記号系XSAMPAで「koobe」と表記されるのに対して、SPS符号系では、「#kcl kk ko ooo ob bcl bb be ee e#」のように表記される。通常の音素と比較すると、時間方向と特徴空間方向の両方に関して細分化した認識単位を用いており、例えば、音素間のわたりの部分も独立した単位として扱っている。単語辞書を利用する従来の音声認識システムにおいては、時間方向の細分化は必ずしも性能の向上に直結しないが、辞書を用いないサブワード単位の情報処理を行うにあたっては、このような細分化が性能の向上に寄与することが期待される。何故ならば、局所的な誤認識の影響が、単語全体や単語間に波及することが少ないため、広範囲に情報を失う可能性が少ないからである。実際、非特許文献5で示されているとおり、音声検索に音素片を適用することで、高精度の検索が可能であることが分かっている。しかも、単語辞書を利用しないので、語彙制約のない音声検索が可能であることが示されている。このようなSPS符号系の利点は、トピック分割処理においても効果的であり、大語彙連続音声認識システムを用いることなしに、語彙制約のない頑健なトピック分割処理が実現可能になる。
図7は、トピック構造情報を提示する構造化コンテンツ提示部204の装置構成を説明する図である。コンテンツを蓄積するためのコンテンツ蓄積装置401と、コンテンツのトピック構造情報を計算するトピック情報計算装置402と、構造化コンテンツ提示装置403から構成される。構造化コンテンツ提示装置403は、例えば、ビデオディスプレイ、キーボード、マウスを有するコンピュータ装置により構成され、ビデオディスプレイに、構造化されたコンテンツを、グラフィカルユーザインタフェースを用いて、ユーザに提示する。
図8は、構造化コンテンツ提示装置403のビデオディスプレイ上に提示される表示画面の一例を例示する図である。図8に示されるように、ここでの表示画面は、階層表示部431とコンテンツ再生部432のウィンドウ表示領域から構成される。
階層表示部431のウィンドウ表示領域には、トピック構造情報に基づいて、コンテンツに含まれるトピックが階層的に表示される。表示される階層の深さは、スライダーで選択可能であり、最下層のトピックには、コンテンツの該当する区間の中から選ばれた静止画が表示される。
ユーザは、マウスの操作指示により、階層表示部431に表示されているウィンドウ表示領域の内の任意の階層のウィンドウを選択することができる。ユーザが、ある階層を選択すると、コンテンツ再生部432のウィンドウ表示処理を行うユーザインタフェース処理部では、トピック構造情報から選択された階層に対応する開始時刻と終了時刻を読み出し、コンテンツの該当部分をロードする。そして、区間再生ボタンが押されると、該当部分の再生を行う。
また、コンテンツ再生部432のウィンドウ表示を行うユーザインタフェース処理部においては、フレーズ再生ボタンが押されると、その区間を特徴付けるフレーズが再生される。このようなフレーズは、SPS符号列wが分析区間sにおいてどの程度特徴的であるかを表す指標f(w,s)に基づいて抽出され、例えば、特徴的なフレーズ上位3箇所がフレーズ再生ボタン1〜3に関連付けられる。そして、フレーズ再生ボタン1が押されると、最も特徴的なフレーズが再生され、フレーズ再生ボタン2が押されると、2番目に特徴的なフレーズが再生され、フレーズ再生ボタン3が押されると、3番目に特徴的なフレーズが再生される。
以上に説明したように、本発明によるトピック分割処理装置によれば、マルチメディアコンテンツを、音声を手がかりに、トピック単位に構造化した上で、構造化コンテンツ提示装置を用いて、任意のトピックの特徴的なフレーズだけを再生することにより、例えば1時間のコンテンツの概要を数分で把握することが可能になり、要約機能を備えたマルチメディアコンテンツのインタフェース装置として利用される。
本発明に係るトピック分割処理方法の処理フローの一例を示すフローチャートである。 本発明によるトピック分割処理装置の構成を説明する図である。 本発明によるトピック分割処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。 本発明によるトピック分割処理装置を別の態様で実施する構成例を説明するブロック図である。 本発明のトピック分割処理装置の類似性行列生成部で用いられる文字列カーネルの計算手続きを説明する図である。 本発明のトピック分割処理装置の階層化部で用いられる音声区間の階層化を行うための計算手続きを説明する図である。 トピック構造情報を提示する構造化コンテンツ提示部204の装置構成を説明する図である。 構造化コンテンツ提示装置403のビデオディスプレイ上に提示される表示画面の一例を例示する図である。
符号の説明
101 コンテンツ読込手段
102 音声区間抽出手段
103 音声符号化手段
104 類似性行列生成手段
105 階層化手段
106 トピック構造情報出力手段
201 映像音声分離部
202 音声区間抽出部
203 SPS符号化部
204 類似性行列生成部
205 音声区間階層化部
206 トピック構造情報生成部
207 構造化コンテンツ提示部
401 コンテンツ蓄積装置
402 トピック情報計算装置
403 構造化コンテンツ提示装置
431 階層表示部
432 コンテンツ再生部

Claims (6)

  1. マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するトピック分割処理方法であって、
    音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化過程と、
    前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成過程と、
    類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化過程と
    の処理をコンピュータにより実行することを特徴とするトピック分割処理方法。
  2. 請求項1に記載のトピック分割処理方法において、
    前記音声符号化過程においては、音声をSPS(Sub−Phonetic Segment)符号列として認識することを特徴とするトピック分割処理方法。
  3. マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するトピック分割処理装置であって、
    音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化手段と、
    前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成手段と、
    類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化手段
    を備えることを特徴とするトピック分割処理装置。
  4. 請求項3に記載のトピック分割処理装置において、
    前記音声符号化手段は、音声をSPS(Sub−Phonetic Segment)符号列として認識することを特徴とするものであるトピック分割処理装置。
  5. マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理を実行し、コンテンツを意味的に等質な部分に分割する処理をコンピュータにより実行させるトピック分割プログラムであって、
    音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化ステップと、
    前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成ステップと、
    類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化ステップと
    の処理をコンピュータに実行させることを特徴とするトピック分割処理プログラム。
  6. 請求項5に記載のトピック分割処理プログラムにおいて、
    音声符号化ステップの処理においては、音声をSPS(Sub−Phonetic Segment)符号列として認識する処理を行う
    ことを特徴とするものであるトピック分割処理プログラム。
JP2006145654A 2006-05-25 2006-05-25 トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。 Pending JP2007316323A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006145654A JP2007316323A (ja) 2006-05-25 2006-05-25 トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006145654A JP2007316323A (ja) 2006-05-25 2006-05-25 トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Publications (1)

Publication Number Publication Date
JP2007316323A true JP2007316323A (ja) 2007-12-06

Family

ID=38850239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006145654A Pending JP2007316323A (ja) 2006-05-25 2006-05-25 トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Country Status (1)

Country Link
JP (1) JP2007316323A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175349A (ja) * 2010-02-23 2011-09-08 National Institute Of Advanced Industrial Science & Technology コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム
JP2014067148A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 手書き文書処理装置、方法およびプログラム
JP5515737B2 (ja) * 2007-06-13 2014-06-11 日本電気株式会社 画像表示装置、画像表示方法、及びその表示プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157337A (ja) * 2002-11-06 2004-06-03 Nippon Telegr & Teleph Corp <Ntt> トピック境界決定方法及び装置及びトピック境界決定プログラム
JP2006251553A (ja) * 2005-03-11 2006-09-21 National Institute Of Advanced Industrial & Technology トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157337A (ja) * 2002-11-06 2004-06-03 Nippon Telegr & Teleph Corp <Ntt> トピック境界決定方法及び装置及びトピック境界決定プログラム
JP2006251553A (ja) * 2005-03-11 2006-09-21 National Institute Of Advanced Industrial & Technology トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5515737B2 (ja) * 2007-06-13 2014-06-11 日本電気株式会社 画像表示装置、画像表示方法、及びその表示プログラム
JP2011175349A (ja) * 2010-02-23 2011-09-08 National Institute Of Advanced Industrial Science & Technology コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム
JP2014067148A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 手書き文書処理装置、方法およびプログラム

Similar Documents

Publication Publication Date Title
CN108986186B (zh) 文字转化视频的方法和系统
JP3848319B2 (ja) 情報処理方法及び情報処理装置
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
US7966173B2 (en) System and method for diacritization of text
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US10783314B2 (en) Emphasizing key points in a speech file and structuring an associated transcription
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
Mamyrbayev et al. End-to-end speech recognition in agglutinative languages
CN114547370A (zh) 一种视频摘要提取方法及系统
CN106550268B (zh) 视频处理方法和视频处理装置
CN113628610B (zh) 一种语音合成方法和装置、电子设备
JP2007316323A (ja) トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
CN117349427A (zh) 一种面向舆情事件应对的人工智能多模态内容生成系统
CN116524915A (zh) 一种基于语义交互的弱监督语音-视频定位方法和系统
JP2006251553A (ja) トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
Kanwal et al. Feature selection enhancement and feature space visualization for speech-based emotion recognition
Jitaru et al. Lrro: a lip reading data set for the under-resourced romanian language
Hernandez et al. Multimodal corpus analysis of autoblog 2020: lecture videos in machine learning
Roy et al. Multimodal sentiment analysis of human speech using deep learning
US20170270949A1 (en) Summary generating device, summary generating method, and computer program product
Hukkeri et al. Erratic navigation in lecture videos using hybrid text based index point generation
JP5392780B2 (ja) コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム
Gomes Jr et al. Framework for knowledge discovery in educational video repositories
JP2013061402A (ja) 音声言語評価装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110405