JP2006251553A - トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。 - Google Patents

トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。 Download PDF

Info

Publication number
JP2006251553A
JP2006251553A JP2005069912A JP2005069912A JP2006251553A JP 2006251553 A JP2006251553 A JP 2006251553A JP 2005069912 A JP2005069912 A JP 2005069912A JP 2005069912 A JP2005069912 A JP 2005069912A JP 2006251553 A JP2006251553 A JP 2006251553A
Authority
JP
Japan
Prior art keywords
topic
speech
phonemes
analysis
analysis interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005069912A
Other languages
English (en)
Inventor
Takeshi Sadohara
健 佐土原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2005069912A priority Critical patent/JP2006251553A/ja
Publication of JP2006251553A publication Critical patent/JP2006251553A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】
音声を音素よりも粒度の細かい音素片として認識した上で直接トピックのセグメンテーションを行い、コンテンツを意味的に等質な部分に分割する。
【課題を解決するための手段】
トピック分割処理方法は、音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化過程と、部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成過程と、分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング過程との処理をコンピュータにより実行し、マルチメディアコンテンツに含まれる音声によりコンテンツを意味的に等質な部分に分割する。
【選択図】 図1

Description

本発明は、マルチメディアコンテンツに含まれる音声を手がかりとして、コンテンツを意味的に等質な部分に分割するため、音声を音素よりも粒度の細かい音素片として認識した上で直接トピックのセグメンテーションを行うトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムに関する。
今日、デジタル技術、大容量記憶装置技術の進歩により、一個人においてさえも、テキスト、音声そして画像等の情報が大量に蓄積可能になった。こうした情報を資源として有効に活用するためには、欲しい情報に素早く到達するための索引化や、情報の概要を素早く把握するための構造化等を行う必要があるが、情報量の多さ故に、このような処理を人手で行うことは困難であり、計算機を用いて自動的に情報の資源化を行うための技術が切実に求められている。
このような技術の中でも、ある音声区間のトピックを推定したり、音声区間をトピック単位に分割したりする技術は、マルチメディアコンテンツを対象に、検索、分類、要約等のより高次の情報資源化処理を行うための基礎的技術として、これまでにも多くの研究開発がなされてきた。
トピック同定に関する従来の技術(特許文献1、非特許文献1参照)では、音声は、音声認識により、単語やフレーズ等の音声イベントの列に変換された後、一定幅の任意の分析区間に含まれるイベントの頻度が計算される。そして、事前にトピックラベルが付与された訓練データから学習されたトピックモデルに対して、分析区間のイベント頻度パターンを照合することにより、分析区間のトピック推定を行う。
このようなトピック推定技術を用いると、音声区間をトピック単位に分割することが可能になるが、トピックモデルを得るために、あらかじめトピックラベルが付与されたデータを必要とするという意味で、このような手法は、教師ありトピック分割とも呼ばれる。一方、このような教師信号付きのデータを必要としない、教師なしのトピック分割手法も提案されている。
教師なしのトピック分割法(特許文献2、非特許文献2参照)においては、音声は、音声認識により、単語やフレーズ等の音声イベントの列に変換された後、一定幅の任意の分析区間を、その区間に含まれるイベントの頻度等を成分とするベクトルで表現する。そして、任意の分析区間の意味的な類似性を、例えば、ベクトルの余弦により測定することにより判定し、所定の閾値よりも大きい類似性を持つ複数の分析区間が意味的に等質な部分としてまとめられる。
この種のマルチメディアコンテンツのトピック分割に関係する従来の技術の文献として次のような各文献が参照できる。
特表平8−512148号公報 特開2004−157337号公報 特開2002−221984号公報 K.Ohtsuki et al. :Topic Extraction Based on Continuous Speech Recognition in Broadcast News Speech, IEICE TRANS. INF. & SYST., Vol. E85D, No.7, 2002. 鷹尾誠一 他:ニュース音声に対するトピックセグメンテーションと分類、情報処理学会研究報告、24、pp.55−62、1998. B.Scholkoph et al.:Nonlinear component analysis as a kernel eigenvalue problem, Neural Computation, Vol.10, No.5,pp. 1299−1319, 2004. J.Shawe−Taylor and N.Cristianini: Kernel methods for pattern analysis, Cambridge University Press, 2004. Shi−wook Lee et al.:Robust spoken document retrieval based on multilingual subphonetic segment recognition, Proc. of ICEIS, pp.134−139, 2004. N.Cristianini, J.Shawe−Taylor:An introduction to support vector machines, Cambridge University Press, 2000.
上述したように、教師あり/教師なしのいずれの従来の技術も、音声イベントを抽出するために、単語、フレーズあるいは文を認識する音声認識を用いており、このため、トピック分割の性能は、音声認識の認識性能に強く依存している。近年においては、音声認識の性能は向上しているが、それは、単語辞書や言語モデル等の言語的知識の積極的な利用によるところが大きい。しかし、逆に言えば、語彙や文法に関する十分な知識をあらかじめ与えておかなければ、十分な認識精度を実現できない。例えば、辞書に登録されていない個人名、製品の型番、省略語等を認識することができない。
従って、例えば、ある特定の個人について話されている音声区間を抽出する場合、その個人の名前が発声されているかどうかが重要な判断基準となり得るが、個人名が辞書に登録されていない場合、個人名は認識されず、このような音声区間の抽出は困難になる。このような未登録語の問題は、ニュース放送等の公開なコンテンツよりも、ホームビデオや内輪の会議のアーカイブ等の、語彙統制のない非公開なコンテンツにおいて、より深刻な問題となる。
本発明は、上記のような問題を解決するためになされたものであり、本発明の目的は、語彙や文法に関する言語的知識(登録語・辞書データ)の欠如による音声認識性能の低下がトピック分割の性能を劣化させてしまうことをなくし、マルチメディアコンテンツに含まれる音声を手がかりとして、コンテンツを意味的に等質な部分に分割するため、音声を音素よりも粒度の細かい音素片として認識した上で直接トピックのセグメンテーションを行うトピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラムを提供することにある。
上記のような目的を達成するため、本発明は、第1の態様として、本発明によるトピック分割処理方法が、マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割するためのトピック分割処理方法であって、音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化過程と、部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成過程と、分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング過程との処理をコンピュータにより実行することを特徴とするものである。
また、前記音声符号化過程においては、音声をSPS(Sub−Phonetic Segment)符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識することを特徴とする。
また、本発明は、第2の態様として、本発明によるトピック分割処理装置が、マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割するトピック分割処理装置であって、音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化手段と、部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成手段と、分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング手段とを備えることを特徴とするものである。
この場合において、前記音声符号化手段においては、音声をSPS(Sub−Phonetic Segment)符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識することを特徴とするものである。
また、本発明は、第3の態様として、本発明によるトピック分割処理プロクラムは、マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割する処理をコンピュータにより実行させるトピック分割プログラムであって、音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化ステップと、部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成ステップと、分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリングステップの処理をコンピュータに実行させることを特徴とするものである。
この場合において、音声符号化ステップの処理においては、音声をSPS(Sub−Phonetic Segment)符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識する処理を行うことを特徴とするものである。
このような特徴を有する本発明のトピック分割処理方法またはトピック分割処理装置によれば、音声を、音節、音素あるいは音素片等のサブワードユニットの列として認識することで得られた符号列に対して、カーネル主成分分析を適用して、任意の部分文字列の相関を考慮した低次元のベクトルとして分析区間を表現した上でクラスタリングを行うので、語彙制約がなく、認識誤りに対して頑健なトピック分割が可能になる。
以下、本発明を実施する場合の一形態について図面を参照して説明する。図1は、本発明に係るトピック分割処理方法の処理フローの一例を示すフローチャートである。本発明によるトピック分割処理方法においては、前述したように、音声認識を用いて単語を認識することなく、音声を、単語よりも粒度の細かい音節、音素あるいは音素片等のサブワードユニットの列として認識し、その列を意味的に等質な部分に直接分割する。これにより、語彙や文法等の言語的な知識を必要としないで、マルチメディアコンテンツに含まれるトピックの直接のセグメンテーションを行うことができる。
図1を参照して、本発明によるトピック分割処理の原理について説明する。本発明のトピック分割処理においては、基本的な処理として、入力された音声を、音節、音素あるいは音素片等のサブワードユニットの系列として認識する音声符号化過程(S1)と、符号列を一定幅の分析区間に切り分けた後、各分析区間を、その区間に含まれる符号を分析することにより得られるベクトルで表現する分析区間ベクトル生成過程(S2)と、分析区間ベクトルの類似性(例えばベクトルの余弦)に基づいて類似したベクトルのクラスターを生成するクラスタリング過程(S3)の各処理を行う。
更に詳細に説明する。トピック分割処理の処理を実行する場合に、まず、音声符号化過程(S1)によって、符号をひとつの文字とする文字列に変換し、変換された音声のデータを、分析区間ベクトル生成過程(S2)において、複数の分析区間sに分割する。
サブワードユニットの系列としての認識では、分割された各分析区間sに含まれる長さp以下の任意の部分文字列wの頻度を数え、この頻度に基づいて、部分文字列wがこの区間においてどの程度特徴的であるかを表す指標f(w,s)を計算する。
分析区間sは、任意の部分文字列wに対して計算された指標f(w,s)を成分とするベクトルXsとして表現することも可能であるが、このベクトルの次元は、長さp以下の任意の文字列の数と等しいので、非常に高次元であり、時間・領域の計算量的な問題で、引き続くクラスタリング過程(S3)の入力とするには適さない。
さらに、このような表現では、部分文字列wの認識誤りが十分に補正されないという問題もある。例えば、同じ単語を発声したとしても、全く同一の文字列として認識される可能性は低く、ある分析区間では文字列w1と認識されたにもかかわらず、別の区間では一部が異なる文字列w2と認識されるという可能性が高い。このような場合には、次のクラスタリング過程(S3)における分析区間の類似性の計算に悪影響を及ぼす恐れがある。そのため、このような認識誤りを補正するためには、相関のある文字列w1と文字列w2を線形結合して得られる合成変量a1・f(w1,s)+a2・f(w2,s)を用いる。
本発明においては、このような合成変量の生成を自動化するために、主成分分析の手法を用いる。ただし、指標f(w,s)の変量の数が非常に多いため、通常の主成分分析を適用するには計算量的な問題が生じる。そこで、本発明では、カーネル主成分分析(非特許文献3参照)とよばれる分析法を用いる。
通常の主成分分析では、変量の数をMとするとき、M行M列の共分散行列の対角化を行う必要があるのに対して、カーネル主成分分析においては、N個の入力ベクトルから計算されるN行N列のカーネル行列を対角化することで、主成分分析を行うことができる。ここで、カーネル行列とは、そのi行j列の要素が、i番目のベクトルXiとj番目のベクトルXjの内積であるような行列のことである。なお、「非特許文献3」で説明されているとおり、データの平均が零ベクトルになるように、カーネル行列に補正を加える必要がある場合もある。
さらに、今、ベクトルXiを、指標f(w,s)を成分とするM次元のベクトルとすると、カーネル主成分分析においては、ベクトルXiとベクトルXjの内積だけを計算することにより、高次元のベクトルXiを陽に計算し、保持する必要がない。実際、ストリングカーネルと呼ばれる手法(非特許文献4参照)を用いると、二つの分析区間sおよび分析区間tの文字列から、ベクトルXsとベクトルXtの内積を、陽にベクトルXsとベクトルXtを計算することなく直接計算することができる。
カーネル行列Kの対角化によりk(k≦N)個の非負の固有値λ≧ … ≧λ>0と、それに対応する固有ベクトルV,…,Vを求める。そして、これら固有値と固有ベクトルを用いると、入力ベクトルXiを第1主成分から第k主成分を用いて以下のX’iのように表現することが可能になり、これを分析区間ベクトルとする。なお、このようにして計算されるベクトルに、正規化等の補正を加えたものを分析区間ベクトルとすることも可能である。
Figure 2006251553
ただし、λ(V・V)=1, i=1,…,k
このようにして得られた分析区間ベクトルは、クラスタリング過程(S3)において、例えば階層的クラスタリングのような公知のクラスタリング手法を用いて、類似したベクトルを1つのクラスターにまとめる。これにより、トピック分割が可能になる。
図2は、本発明によるトピック分割処理装置の構成を説明する図である。図2に示すように、本発明によるトピック分割処理装置は、音声分離手段101、音声符号化手段102、分析区間ベクトル生成手段103、クラスタリング手段104から構成され、マルチメディアコンテンツのデータを入力し、その中の音声のデータに基づいてトピックの分割処理を行い、最終的に分割したトピックの構造情報を得る。得られたトピック構造情報は、図示しない手表示処理手段により利用者の希望する形態で表示される。
音声分離手段101には、マルチメディアコンテンツのデータが入力され、コンテンツから音声を分離する。音声分離手段101により分離された音声は、音声符号化手段102に入力されて、音節、音素、あるいは音素片に符号化される。分析区間ベクトル生成手段103は、音声符号化手段102によって得られた音声の符号列から、分析区間ベクトルを生成する。そして、クラスタリング手段104により、分析区間ベクトルをクラスタリングすることによりトピック分割を行い、クラスター境界の時刻情報を含むトピック構造情報を出力する。
図3は、本発明によるトピック分割処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。この処理では、図3に示すように、コンテンツを読み込むステップ(P1)と、コンテンツから音声を分離するステップ(P2)と、音声を符号化するステップ(P3)と、符号化された音声から分析区間を切り出すステップ(P4)と、各分析区間に対応する分析区間ベクトルを計算するステップ(P5)と、分析区間ベクトルをクラスタリングするステップ(P6)と、クラスター境界の時刻情報を含むトピック構造情報を出力するステップ(P7)との各ステップの処理をコンピュータにより実行させるものである。このプログラムがインストールされたコンピュータは、各ステップの処理を実行することにより、コンテンツ読込手段、音声分離手段、音声符号化手段、分析区間切出し手段、分析区間ベクトル計算手段、クラスタリング手段、トピック構造情報出力手段として機能するトピック分割処理装置を構成する。
本発明においては、前述したように、語彙制約がなく、認識誤りに対して頑健なトピック分割を可能にするために、通常の音素よりも粒度の細かいSPS(Sub−Phonetic Segment)符号(特許文献3参照)と呼ばれる符合の列に変換された音声を手がかりにして、コンテンツをトピック単位に分割している。このように、SPS符号を用いる場合におけるトピック分割処理装置について、次に説明する。
図4は、本発明によるトピック分割処理装置を別の態様で実施する構成例を説明するブロック図である。このトピック分割処理装置は、図4に示すように、映像音声分離部201、SPS符号化部202、トピック構造情報生成部203、構造化コンテンツ提示部204、およびトピックデータベース205から構成されている。
このトピック分割処理装置において、映像音声分離部201は、映像と音声を含むマルチメディアコンテンツから、映像と音声を分離する。映像音声分離部201により分離された音声は、SPS符号化部202に入力される。SPS符号化部202では、音声からSPS符号列を生成する。SPS符号化部202により生成されたSPS符号列は、トピック構造情報生成部203に入力される。トピック構造情報生成部203では、SPS符号列に対してカーネル主成分分析を適用し、得られた主成分を要素とするベクトルとして分析区間を表現した上でクラスタリングを行い、トピック境界の時刻情報と、クラスターの階層関係に関する情報を含むトピック構造情報を生成する。この場合にトピックデータベース205が参照される。トピック構造情報生成部203により生成されたトピック構造情報は、構造化コンテンツ提示部204に入力されて、トピック構造情報に従って、マルチメディアコンテンツを構造化した上で提示される。
SPS符号化部202は、特許文献3で説明されているとおり、音声のデータからSPS符号列を生成するものである。ここでのSPS符号とは、通常の音素よりも粒度の細かい符号系であり、具体例で説明すると、例えば、日本の駅名「神戸」は、標準的な音素記号系XSAMPAで「koobe」と表記されるのに対して、SPS符号系では、「#kcl kk ko ooo ob bcl bb be ee e#」のように表記される。このように、SPS符号は、通常の音素よりも粒度が細かいため、例え数箇所の誤認識があったとしても、通常の音素よりもより多くの情報が残ることになる。非特許文献5においては、SPS符号を用いることにより、認識誤りに対して頑健な音声による情報検索が可能であることが示されている。さらに、単語辞書を用いないというSPS符号を用いる認識処理の特徴により、語彙制約のない検索が可能である。
図5は、トピック構造情報生成部203の構成を説明するブロック図である。前述したように、トピック構造情報生成部203では、SPS符号列に対してカーネル主成分分析を適用し、得られた主成分を要素とするベクトルとして分析区間を表現した上でクラスタリングを行い、トピック境界の時刻情報と、クラスターの階層関係に関する情報を含むトピック構造情報を生成する。
図5に示すように、トピック構造情報生成部203において、SPS符号列は、分析区間抽出部301に入力される。分析区間抽出部301では、SPS符号列の分析区間が切り出される。分析区間が切り出された後、カーネル主成分分析部302において、カーネル主成分分析が適用され、多くとも分析区間の数と同じ数の主成分が抽出される。ことのき、ある部分符号列wが、ある分析区間sにおいて、どの程度特徴的かを表す指標が必要となるが、この指標f(w,s)として次の関数を用いることができる。
Figure 2006251553
ただし、N(w,s)は、分析区間sにおけるwの頻度を、dはwの長さを表す。また、N(w,S)は全区間におけるwの頻度を表している。
図6は、本発明のトピック分割処理装置の分析区間ベクトル生成部およびトピックモデル生成部で用いられるストリングカーネルの計算手続きを説明する図である。カーネル行列の計算には、図6に示すようなストリングカーネルの計算アルゴリズムを用いる。
分析区間ベクトル生成部303では、カーネル主成分分析部302で得られた固有値と固有ベクトルから分析区間ベクトルを計算し、これにより、各分析区間は、主成分を要素とするベクトルで表現される。こうして得られた分析区間ベクトルに対して、教師なし/教師ありの二種類のクラスタリング手法を用いてトピック分割が行われる。
教師なしトピック分割部304では、公知の階層的クラスタリング法を用いて、階層的なトピックの構造を生成する。階層的クラスタリング法は、クラスター間に定められた距離dに基づいて、ボトムアップに、距離の近いクラスターをまとめ上げていく。クラスター間の距離として以下のようなベクトルの余弦に基づく距離が用いられる。
Figure 2006251553
ここで、Cは分析区間ベクトルの集合であり、|C|は、その要素数を表す。また、<s・s>は、分析区間ベクトルsと分析区間ベクトルsの内積を表している。
教師ありトピック分割部306では、各分析区間ベクトルsを、あらかじめ構築したトピックモデルと照合し、与えられたt個のトピックに対して、トピック信頼度T ,…,T を計算する。各トピックTに対して、分析区間を動かすことで、トピック信頼度の時間変化が得られるが、ある閾値よりも大きな信頼度を持つ区間をトピックTとすることで、トピックの推定を行うことができる。
トピックモデルは、トピックデータベース205から分析区間ベクトル生成部303とトピックモデル生成部305により構築される。トピックデータベース205は、トピックラベルが付与された音声区間の集合
{(T,S)|Tはトピックラベル、SはSPS符号列}
のデータベースである。
トピックデータベース205の中の全てのあるいは一部のSPS符号列は、分析区間ベクトル生成部303においては、分析区間ベクトルと同じ主成分を用いたベクトルに変換される。その後、トピックモデル生成部305によって、公知のサポートベクトルマシン(非特許文献6参照)により各トピックを判別する二分分類器から構成されるトピックモデルが構築される。なお、その際に、用いられるカーネル関数の計算には、図6で示された手続きが利用できる。また、教師ありトピック分割部306で用いられるトピック信頼度は、この二分分類器の出力値を用いることができる。
教師なしトピック分割部304と教師ありトピック分割部306で計算されたトピック構造情報は、トピック構造情報統合部307で統合される。具体的には、教師ありトピック分割部306で計算された信頼度の高いトピック区間を優先して採用し、これ以外の区間のトピック分割と、この区間内の部分トピックの分割を行う際に、教師なしトピック分割部304により計算したトピック構造情報を用いる。
このようにしてトピック構造情報が得られると、構造化コンテンツ提示部204(図4)は、トピック構造情報生成部203で計算されたトピック構造情報に基づいて、コンテンツを構造化してユーザーに提示する。
図7は、トピック構造情を報提示する構造化コンテンツ提示部204の装置構成を説明する図である。コンテンツを蓄積するためのコンテンツ蓄積装置401と、コンテンツのトピック構造情報を計算するトピック情報計算装置402と、構造化コンテンツ提示装置403から構成される。構造化コンテンツ提示装置403は、例えば、ビデオディスプレイ、キーボード、マウスを有するコンピュータ装置により構成され、ビデオディスプレイに、構造化されたコンテンツを、グラフィカルユーザーインタフェースを用いて、ユーザーに提示する。
図8は、構造化コンテンツ提示装置403のビデオディスプレイ上に提示される表示画面の一例を例示する図である。図8に示されるように、ここでの表示画面は、階層表示部431とコンテンツ再生部432のウィンドウ表示領域から構成される。
階層表示部431のウィンドウ表示領域には、トピック構造情報に基づいて、コンテンツに含まれるトピックが階層的に表示される。このとき、教師ありトピック分割により得られたトピックには、トピック名が同時に表示される。表示される階層の深さは、スライダーで選択可能であり、選択された階層の深さの中で、最下層のトピックには、コンテンツの該当する区間の中から選ばれた静止画が表示される。
また、ユーザーは、マウスの操作指示により、階層表示部431に表示されているウィンドウ表示領域の内の任意の階層のウィンドウを選択することができ、選択した階層のウィンドウにトピック名をつけることができる。選択された階層に対応する音声区間とユーザーから付与されたトピック名は、トピックデータベース205に蓄積され、後に、トピック分割を行う際には、新たなトピックによる「教師ありトピック分割」が可能になる。
さらに、ユーザーが、ある階層を選択すると、コンテンツ再生部432のウィンドウ表示処理を行うユーザインタフェース処理部では、トピック構造情報から選択された階層に対応する開始時刻と終了時刻を読み出し、コンテンツの該当部分をロードする。そして、区間再生ボタンが押されると、該当部分の再生を行う。
また、コンテンツ再生部432のウィンドウ表示を行うユーザインタフェース処理部においては、フレーズ再生ボタンが押されると、その区間を特徴付けるフレーズが再生される。このようなフレーズは、SPS符号列wが分析区間sにおいてどの程度特徴的であるかを表す指標f(w,s)に基づいて抽出され、例えば、特徴的なフレーズ上位3箇所がフレーズ再生ボタン1〜3に関連付けられる。そして、フレーズ再生ボタン1が押されると、最も特徴的なフレーズが再生され、フレーズ再生ボタン2が押されると、2番目に特徴的なフレーズが再生され、フレーズ再生ボタン3が押されると、3番目に特徴的なフレーズが再生される。
以上に説明したように、本発明によるトピック分割処理装置によれば、マルチメディアコンテンツを、音声を手がかりに、トピック単位に構造化した上で、構造化コンテンツ提示装置を用いて、任意のトピックの特徴的なフレーズだけを再生することにより、例えば1時間のコンテンツの概要を数分で把握することが可能になり、要約機能を備えたマルチメディアコンテンツのインタフェース装置として利用される。
本発明に係るトピック分割処理方法の処理フローの一例を示すフローチャートである。 本発明によるトピック分割処理装置の構成を説明する図である。 本発明によるトピック分割処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。 本発明によるトピック分割処理装置を別の態様で実施する構成例を説明するブロック図である。 トピック構造情報生成部203の構成を説明するブロック図である。 本発明のトピック分割処理装置の分析区間ベクトル生成部およびトピックモデル生成部で用いられるストリングカーネルの計算手続きを説明する図である。 トピック構造情を報提示する構造化コンテンツ提示部204の装置構成を説明する図である。 構造化コンテンツ提示装置403のビデオディスプレイ上に提示される表示画面の一例を例示する図である。
符号の説明
101 音声分離手段
102 音声符号化手段
103 分析区間ベクトル生成手段
104 クラスタリング手段
201 映像音声分離部
201 SPS符号化部
203 トピック構造情報生成部
204 構造化コンテンツ提示部
205 トピックデータベース
301 分析区間抽出部
302 カーネル主成分分析部
303 分析区間ベクトル生成部
304 教師なしトピック分割部
305 トピックモデル生成部
306 教師ありトピック分割部
307 トピック構造情報統合部
401 コンテンツ蓄積装置
402 トピック情報計算装置
403 構造化コンテンツ提示装置
431 階層表示部
432 コンテンツ再生部

Claims (6)

  1. マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割するためのトピック分割処理方法であって、
    音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化過程と、
    部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成過程と、
    分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング過程と
    の処理をコンピュータにより実行することを特徴とするトピック分割処理方法。
  2. 請求項1に記載のトピック分割処理方法において、
    前記音声符号化過程においては、音声をSPS(Sub−Phonetic Segment)符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識する
    ことを特徴とするトピック分割処理方法。
  3. マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割するトピック分割処理装置であって、
    音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化手段と、
    部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成手段と、
    分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリング手段と
    を備えることを特徴とするトピック分割処理装置。
  4. 請求項3に記載のトピック分割処理装置において、
    前記音声符号化手段は、音声をSPS(Sub−Phonetic Segment)符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識することを特徴とするものであるトピック分割処理装置。
  5. マルチメディアコンテンツに含まれる音声を用いて、コンテンツを意味的に等質な部分に分割する処理をコンピュータにより実行させるトピック分割プログラムであって、
    音声を音節や音素や音素片等のサブワードユニットの列として認識する音声符号化ステップと、
    部分符号列を分析区間として切り出しカーネル主成分分析を用いて分析区間ベクトルを生成する分析区間ベクトル生成ステップと、
    分析区間ベクトルをクラスタリングしてトピック分割を行うクラスタリングステップとの処理をコンピュータに実行させることを特徴とするトピック分割処理プロクラム。
  6. 請求項5に記載のトピック分割処理プログラムにおいて、
    音声符号化ステップの処理においては、音声をSPS(Sub−Phonetic Segment)符号列に変換して、音声を音節や音素や音素片等のサブワードユニットの列として認識する処理を行う
    ことを特徴とするものであるトピック分割処理プログラム。
JP2005069912A 2005-03-11 2005-03-11 トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。 Pending JP2006251553A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005069912A JP2006251553A (ja) 2005-03-11 2005-03-11 トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005069912A JP2006251553A (ja) 2005-03-11 2005-03-11 トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Publications (1)

Publication Number Publication Date
JP2006251553A true JP2006251553A (ja) 2006-09-21

Family

ID=37092094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005069912A Pending JP2006251553A (ja) 2005-03-11 2005-03-11 トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。

Country Status (1)

Country Link
JP (1) JP2006251553A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316323A (ja) * 2006-05-25 2007-12-06 National Institute Of Advanced Industrial & Technology トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
KR101408902B1 (ko) 2013-03-28 2014-06-19 한국과학기술원 뇌의 음성신호처리에 기반한 잡음 강인성 음성인식 방법
KR101434592B1 (ko) * 2013-03-28 2014-08-27 한국과학기술원 뇌의 음향처리에 기반한 음성신호 프레임 분할 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004229283A (ja) * 2003-01-17 2004-08-12 Mitsubishi Electric Research Laboratories Inc ニュースビデオにおいてニュース司会者の遷移を識別する方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004229283A (ja) * 2003-01-17 2004-08-12 Mitsubishi Electric Research Laboratories Inc ニュースビデオにおいてニュース司会者の遷移を識別する方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316323A (ja) * 2006-05-25 2007-12-06 National Institute Of Advanced Industrial & Technology トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
KR101408902B1 (ko) 2013-03-28 2014-06-19 한국과학기술원 뇌의 음성신호처리에 기반한 잡음 강인성 음성인식 방법
KR101434592B1 (ko) * 2013-03-28 2014-08-27 한국과학기술원 뇌의 음향처리에 기반한 음성신호 프레임 분할 방법

Similar Documents

Publication Publication Date Title
CN110534095B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN107315737B (zh) 一种语义逻辑处理方法及系统
JP3848319B2 (ja) 情報処理方法及び情報処理装置
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US7424427B2 (en) Systems and methods for classifying audio into broad phoneme classes
US7966173B2 (en) System and method for diacritization of text
US9336769B2 (en) Relative semantic confidence measure for error detection in ASR
US8065149B2 (en) Unsupervised lexicon acquisition from speech and text
WO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
US8688725B2 (en) Search apparatus, search method, and program
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
CN113766314B (zh) 视频切分方法、装置、设备、系统及存储介质
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
Dufour et al. Characterizing and detecting spontaneous speech: Application to speaker role recognition
CN114547370A (zh) 一种视频摘要提取方法及系统
CN114817465A (zh) 一种用于多语言语义理解的实体纠错方法及智能设备
Kaushik et al. Automatic audio sentiment extraction using keyword spotting.
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
JP2006251553A (ja) トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
CN116524915A (zh) 一种基于语义交互的弱监督语音-视频定位方法和系统
Zhang et al. Active learning with semi-automatic annotation for extractive speech summarization
Ghannay et al. A study of continuous space word and sentence representations applied to ASR error detection
JP2007316323A (ja) トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
Jitaru et al. Lrro: a lip reading data set for the under-resourced romanian language
JP5544575B2 (ja) 音声言語評価装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111128

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111208