JP6039577B2 - 音声処理装置、音声処理方法、プログラムおよび集積回路 - Google Patents
音声処理装置、音声処理方法、プログラムおよび集積回路 Download PDFInfo
- Publication number
- JP6039577B2 JP6039577B2 JP2013548126A JP2013548126A JP6039577B2 JP 6039577 B2 JP6039577 B2 JP 6039577B2 JP 2013548126 A JP2013548126 A JP 2013548126A JP 2013548126 A JP2013548126 A JP 2013548126A JP 6039577 B2 JP6039577 B2 JP 6039577B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- section
- boundary
- vector
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 130
- 238000003672 processing method Methods 0.000 title description 2
- 239000013598 vector Substances 0.000 claims description 243
- 238000004364 calculation method Methods 0.000 claims description 155
- 230000005236 sound signal Effects 0.000 claims description 96
- 238000000034 method Methods 0.000 claims description 50
- 238000003860 storage Methods 0.000 claims description 45
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 26
- 238000009826 distribution Methods 0.000 description 18
- 238000000605 extraction Methods 0.000 description 14
- 238000013500 data storage Methods 0.000 description 10
- 230000001052 transient effect Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 235000012054 meals Nutrition 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229930091051 Arenine Natural products 0.000 description 1
- 240000006829 Ficus sundaica Species 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/147—Scene change detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stereophonic System (AREA)
Description
AVコンテンツは、シーンを捉える粒度により様々な長さの区間から構成される。例えば、AVコンテンツが、パーティを撮影したものであり、図1(a)に示すシーンで構成されているとする。そして、図1(b)は、そのシーンにおけるオーディオ信号を表現しているとする。図に示すように、パーティには、乾杯のシーン10およびそれに続く食事のシーン20が存在し、食事のシーン20は、さらに、おもに食事をしているシーン21、および、おもに歓談をしているシーン22から構成される。シーン20は、おもに食事をしているシーン21からおもに歓談しているシーン22へ移り変わっていく過渡シーンである。
<実施の形態1>
<1−1.概要>
本発明の一の実施の形態に係る音声処理装置の概要を示す。
<1−2.データ>
ここで、本実施の形態に係る音声処理装置で使用するデータについて説明する。
<動画ファイル>
動画ファイルは、オーディオ信号X(t)と複数の画像データとから構成される。オーディオ信号X(t)は、振幅値の時系列データであり、図2(a)に示すような波形で表現することができる。図2(a)は、横軸に時間、縦軸に振幅をとった、オーディオ信号の波形例である。
<特徴量ベクトル>
特徴量ベクトルMは、オーディオ信号X(t)の特徴を表現するものであり、本実施の形態では、特徴量ベクトルMを示すものとして、第1単位区間毎に分割されたオーディオ信号のメル周波数ケプストラム係数MFCC(Mel-Frequency Cepstrum Coefficients)を用いる。ここで、第1単位区間は、オーディオ信号X(t)の時間軸における所定の長さ(例えば、10msec)の区間であり、図2(a)における時刻TnからTn+1までの区間である。
<アンカーモデル>
アンカーモデルAr(r=1,2,…,K)は、複数種類のサウンド素片となる音声データから生成される特徴量ベクトルを用いて作成される確率モデルであり、各種サウンド素片それぞれの特徴を表現するものである。即ち、アンカーモデルは各種サウンド素片に対応して作成される。本実施の形態では、混合正規分布モデル(GMM, Gaussian Mixture Model)を採用し、各アンカーモデルArは、正規分布を規定するパラメータで構成される。
<尤度ベクトル>
尤度ベクトルFは、上記アンカーモデルArに基づいて算出されるオーディオ信号X(t)の複数種類のサウンド素片それぞれに対する尤度Lrを成分とするベクトルである。
頻度ベクトルNFは、オーディオ信号の第2単位区間毎の特徴を表現するベクトルであり、特に、オーディオ信号の第2単位区間に係る各サウンド素片の出現頻度を表現するベクトルである。ここで、第2単位区間は、オーディオ信号X(t)の時間軸における所定の長さ(例えば、1sec)の区間であり、図6に示すように、複数個の連続する第1単位区間の長さに相当する。
境界情報は、オーディオ信号の第2単位区間毎に計算される当該第2単位区間と頻度ベクトルが類似する類似区間の境界に関する情報である。本実施の形態の音声処理装置は、境界情報として、類似区間の始端の時刻および類似区間の終端の時刻を計算する。図8は、本実施の形態で計算する境界情報の一例である。例えば、0番目の第2単位区間(時刻0〜1sの間の区間)からは、始端時刻として0s、終端時刻として10sを示す境界情報が算出されたことを示している。
上述したように、境界度は、同一の時刻を示す境界情報の数である。例えば、図8において、始端時刻または終端時刻で0sを示す境界情報は、0番目の第2単位区間(時刻0〜1sの間の区間)、1番目の第2単位区間(時刻1〜2sの間の区間)、および、2番目の第2単位区間(時刻2〜3sの間の区間)から計算される境界情報の3つであるから、時刻0sの境界度は3となる。図9は、横軸に時刻、縦軸に計算された境界度を示したグラフの一例である。
以下、本実施の形態に係る音声処理装置104を備える映像視聴装置100の機能構成について説明する。
図10は、映像視聴装置100の機能構成例を示すブロック図である。図に示すように、映像視聴装置100は、入力装置101、コンテンツ記憶装置102、音声抽出装置103、音声処理装置104、インデクス記憶装置105、出力装置106、アンカーモデル作成装置107、音声データ蓄積装置108およびインタフェース装置109を備える。
入力装置101は、ディスクドライブ装置などで実現され、記録媒体120が装着されると、記録媒体120から動画ファイルを読み込んで、取得した動画ファイルをコンテンツ記憶装置102に格納する。なお、記録媒体120は、各種データを記憶する機能を有する媒体であり、例えば、光ディスクや、フレキシブルディスク、SDカード、フラッシュメモリなどである。
コンテンツ記憶装置102は、例えば、ハードディスク装置などで実現され、入力装置101が記録媒体120から取得した動画ファイルを格納している。動画ファイルは、動画ファイルそれぞれに固有のIDが付されて格納される。
音声抽出装置103は、コンテンツ記憶装置102に格納されている動画ファイルからオーディオ信号を抽出し、抽出したオーディオ信号を音声処理装置104に入力する。なお、音声抽出装置103は、符号化されているオーディオ信号に対して復号化処理を行って、図2(a)に示すようなオーディオ信号X(t)を生成する。なお、音声抽出装置103は、例えば、プログラムを実行するプロセッサ等により実現される。
音声処理装置104は、音声抽出装置103から入力されるオーディオ信号X(t)に基づいてシーン変化点の検出を行い、検出したシーン変化点からなるインデクス情報をインデクス記憶装置105に格納する。音声処理装置104の機能構成の詳細については後述する。
インデクス記憶装置105は、例えば、ハードディスク装置などから実現され、音声処理装置104から入力されるインデクス情報を記憶する。インデクス情報は、動画ファイルのIDおよび動画ファイルにおける時刻(シーン変化点の時刻)からなる。
出力装置106は、インデクス記憶装置105からインデクス情報を取得し、取得したインデクス情報に対応する映像データ(コンテンツ記憶装置102に格納されている動画ファイルの一部)を表示装置130に出力する。出力装置106は、表示装置130に出力される映像データに、例えば、インデクス情報に対応する時刻に目印を付けたプログレスバーなどのユーザインタフェース(UI:User Interface)に関する情報を付与し、インタフェース装置109に入力されるユーザからの操作に応じて、スキップなどの再生制御を行う。
アンカーモデル作成装置107は、音声データ蓄積装置108に記憶されているオーディオ信号に基づいてアンカーモデルArを作成し、作成したアンカーモデルArを音声処理装置104に出力する。アンカーモデル作成装置107の機能構成の詳細については後述する。
音声データ蓄積装置108は、例えば、ハードディスク装置などで実現され、アンカーモデル作成装置107がアンカーモデルArを作成するときに用いられる音声データをあらかじめ記憶している。
インタフェース装置109は、キーボードなどの操作部(図示せず)を備え、ユーザからの入力操作を受け付けて、プログレスバーの操作情報などを出力装置106に、作成すべきアンカーモデルの個数Kをアンカーモデル作成装置107に通知する。
音声処理装置104は、メモリ(図示せず)およびプロセッサ(図示せず)から構成され、プロセッサがメモリに書き込まれたプログラムを実行することにより、図11に示す構成を実現している。
特徴量ベクトル生成部201は、音声抽出装置103から入力されたオーディオ信号X(t)に基づいて、第1単位区間毎に、特徴量ベクトルMを生成する。
アンカーモデル蓄積部209は、メモリの一部の領域により構成され、アンカーモデル作成装置107により作成されたアンカーモデルArを記憶している。本実施の形態では、アンカーモデル蓄積部209は、音声処理装置104の各処理の実行前に、あらかじめアンカーモデルArを記憶している。
尤度ベクトル生成部202は、特徴量ベクトル生成部201により生成される特徴量ベクトルMおよびアンカーモデル蓄積部209に蓄積されているアンカーモデルArを用いて、オーディオ信号X(t)の、サウンド素片それぞれに対する尤度Lrを算出し、各尤度を成分とする尤度ベクトルFを第1単位区間毎に生成する。
尤度ベクトルバッファ203は、メモリの一部の領域により構成され、尤度ベクトル生成部202により生成される尤度ベクトルFを記憶する。
頻度ベクトル生成部204は、尤度ベクトルバッファ203で記憶されている尤度ベクトルFに基づいて、第2単位区間毎に頻度ベクトルNFを生成する。
頻度ベクトルバッファ205は、メモリの一部の領域により構成され、頻度ベクトル生成部204により生成される頻度ベクトルNFを記憶する。
区間伸長基準指標計算部206は、第2単位区間それぞれに対して、後述する区間伸長処理の基準指標となる基準区間、基準ベクトルS及びしきい値Rthを算出する。
図11に戻り、境界情報計算部207は、第2単位区間に対して、頻度ベクトルの類似する区間からなる類似区間を算出し、類似区間の始端の時刻および終端の時刻を特定する。境界情報計算部207は、頻度ベクトルバッファ205に記憶されている頻度ベクトルNF、処理対象の第2単位区間、および、区間伸長基準指標計算部206により算出された基準指標(基準区間、基準ベクトルSとしきい値Rth)を入力とし、特定した始端の時刻および終端の時刻を境界情報としてインデクス生成部208へ出力する。
インデクス生成部208は、境界情報計算部207で算出された境界情報に基づいて、シーン変化点を検出し、検出したシーン変化点をインデクス化したインデクス情報をインデクス記憶装置105に出力する。図15は、インデクス生成部208の機能構成例を示すブロック図である。図15に示すように、インデクス生成部208は、投票部301、閾値計算部302および境界判定部303を備える。以下、各構成について説明する。
投票部301は、境界情報計算部207で計算された境界情報の示す時刻ごとに、同一時刻を示す境界情報の数を境界度として算出する。投票部301は、境界情報計算部207から入力される境界情報それぞれに対して、入力された境界情報の示す時刻に投票(時刻iに対応する境界度KKiに1を加算)することにより、境界度を算出する。なお、投票部301は、1つの境界情報で指定される始端の時刻および終端の時刻の両方に投票を行う。
閾値計算部302は、投票部301により算出された時刻ごとの境界度の平均μおよび標準偏差σを用いて、閾値Thを算出する。境界情報の示す時刻がTi(i=1,2,3,…,N)、それに対応する境界度がKKi(i=1,2,3,…,N)であった場合、平均値μ、標準偏差σおよび閾値THは、以下の式(1)、(2)および(3)で与えられる。
境界判定部303は、投票部301で算出された時刻ごとの境界度KKiおよび閾値計算部302で算出された閾値THを用いて、以下の式(4)の条件を満たす時刻をシーン変化点と判定し、インデクス情報としてインデクス記憶装置105に出力する。
アンカーモデル作成装置107は、メモリ(図示せず)およびプロセッサ(図示せず)から構成され、プロセッサがメモリに書き込まれたプログラムを実行することにより、図16に示す構成を実現している。
特徴量ベクトル生成部401は、音声データ蓄積装置108に記憶されている音声データに基づいて、第1単位区間毎に、特徴量ベクトルMを生成する。
特徴量ベクトル分類部402は、特徴量ベクトル生成部401により生成された特徴量ベクトルを、クラスタリング(分類)する。
アンカーモデル生成部403は、特徴量ベクトル分類部402により分類されたK個のクラスタそれぞれの平均および分散を算出し、アンカーモデルAr(r=1,2,…,K)としてアンカーモデル蓄積部209に記憶する。
以下、本実施の形態に係る音声処理装置104の動作について図面を参照しながら説明する。
図17は、音声処理装置104の動作を示すフローチャートである。図に示すように、音声処理装置はオーディオ信号を入力とする(ステップS1701)。
図18は、図17におけるステップS1703の区間伸長基準指標計算部206で実行される基準指標計算処理の詳細を示すフローチャートである。図18に示すように、基準指標計算処理において、区間伸長基準指標計算部206は、処理対象の第2単位区間および頻度ベクトルバッファ205で保持する頻度ベクトルを入力とする(ステップS1801)。
図19は、図17におけるステップS1704の境界情報計算部207で実行される境界情報計算処理の詳細を示すフローチャートである。図19に示すように、境界情報計算処理において、境界情報計算部207は、処理対象の第2単位区間、区間伸長基準指標計算部206で算出される基準指標、あらかじめ設定される類似区間の長さの上限および頻度ベクトルバッファ205で保持する頻度ベクトルを入力とする(ステップS1901)。
図20は、図17におけるステップS1705のインデクス生成部208で実行されるインデクス生成処理の動作を示すフローチャートである。図20に示すように、インデクス生成処理において、インデクス生成部208は、境界情報計算部207で計算される境界情報を入力とする(ステップS2001)。
本実施の形態の音声処理装置は、オーディオ信号の所定時間長の単位区間ごとに、オーディオ信号の単位区間における特徴を示す区間特徴(特徴量ベクトル、尤度ベクトルおよび頻度ベクトル)を算出し、算出した区間特徴の類似する区間からなる類似区間の境界からシーン変化点を検出する。
実施の形態2では、実施の形態1と比較して、2つの点で異なっている。
図21は、実施の形態2に係る音声処理装置110の機能構成例を示すブロック図である。音声処理装置110は、実施の形態1の音声処理装置104と比較して、境界情報計算部207の代わりに境界情報計算部211を備え、インデクス生成部208の代わりにインデクス生成部212を備える。
境界情報計算部211は、境界情報計算部207の機能に加え、境界情報として、さらに、処理対象の第2単位区間近傍におけるオーディオ信号の特徴と、類似区間の境界におけるオーディオ信号の特徴の変化の度合いを示す境界変化度、および、類似区間における代表的な音環境を示す音環境情報を計算する機能を有する。
同様に、境界情報計算部211は、終端変化度Dout(類似区間の始端における境界変化度)として、基準ベクトルSと類似区間直後の第2単位区間の頻度ベクトルNFとのユークリッド距離を用いる。
図23は、インデクス生成部212の機能構成例を示すブロック図である。インデクス生成部212は、実施の形態1のインデクス生成部208と比較して、投票部301の代わりに境界度計算部311を備え、さらに、音環境分類部312が、境界判定部303とインデクス記憶装置105の間に挿入される。
境界度計算部311は、境界情報計算部211で計算された境界情報の示す時刻ごとに、境界情報の境界変化度の最大値を境界度として算出する。より具体的には、境界度計算部311は、時刻Tiの境界度として、始端の時刻がTiの境界情報における始端変化度および終端の時刻がTiの境界情報における終端変化度の最大値を算出する。
音環境分類部312は、境界判定部303で、シーン変化点と判定された時刻に対応付けられた音環境情報を、例えば、K−means法を用いて複数のグループ(例えば、3グループ)に分類する。音環境分類部312は、分類結果の分類情報をインデクス情報に付与し、分類情報付のインデクス情報をインデクス記憶装置105に出力する。図24に、分類情報の付与されたインデクス情報の具体例を示す。
本実施の形態の音声処理装置は、境界度として、類似区間内におけるオーディオ信号の特徴の変化の度合いを示す境界変化度の最大値を用いている。オーディオ信号の特徴の変化は、動画ファイルにおける被写体に動きに伴って出現することが多い。つまり、本実施の形態の音声処理装置は、境界度として境界変化度の最大値を用いることで、被写体に動きあるシーンを優先して検出することが可能である。
上記実施の形態に従って、本発明に係る音声処理装置について説明してきたが、本発明はこれに限られるものではない。以下、本発明の思想として含まれる各種変形例について説明する。
<6−2.補足>
以下、更に本発明の一実施形態としての音声処理装置の構成及びその変形例と効果について説明する。
101 入力装置
102 コンテンツ記憶装置
103 音声抽出装置
104 音声処理装置
105 インデクス記憶装置
106 出力装置
107 アンカーモデル作成装置
108 音声データ蓄積装置
109 インタフェース装置
201 特徴量ベクトル生成部
202 尤度ベクトル生成部
203 尤度ベクトルバッファ
204 頻度ベクトル生成部
205 頻度ベクトルバッファ
206 区間伸長基準指標計算部
207,211 境界情報計算部
208,212 インデクス生成部
209 アンカーモデル蓄積部
301 投票部
302 閾値計算部
303 境界判定部
311 境界度計算部
312 音環境分類部
401 特徴量ベクトル生成部
402 特徴量ベクトル分類部
403 アンカーモデル生成部
Claims (14)
- 入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算手段と、
複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算手段と、
前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定手段と
を備え、
前記境界計算手段は、前記境界情報として、前記類似区間の始端の時刻または終端の時刻の少なくとも一方を計算し、
前記単位区間を第2単位区間とし、前記第2単位区間は、複数の連続する第1単位区間からなり、
さらに、複数種類のサウンド素片それぞれの特徴を表現する確率モデルをあらかじめ記憶しているモデル記憶手段と、
前記確率モデルを用いて、前記オーディオ信号の前記サウンド素片それぞれに対する尤度を成分とする尤度ベクトルを、前記第1単位区間ごとに生成する尤度ベクトル生成手段とを備え、
前記区間特徴は、前記第2単位区間に含まれる複数の第1単位区間の尤度ベクトルを用いて生成され、前記サウンド素片それぞれの出現頻度を示す頻度ベクトルである
ことを特徴とする音声処理装置。 - 前記判定手段は、前記境界の前記優先度として、当該境界と同一の時刻を示す境界情報の数を計算する
ことを特徴とする請求項1記載の音声処理装置。 - 前記境界計算手段は、前記境界情報として、さらに、前記類似区間と他の区間との間のオーディオ信号の特徴の変化の度合いを示す変化度を計算し、
前記判定手段は、前記境界の前記優先度として、当該境界と同一の時刻を示す境界情報の前記変化度の累積値を計算する
ことを特徴とする請求項1記載の音声処理装置。 - 前記境界計算手段は、前記境界情報として、さらに、前記類似区間と他の区間との間のオーディオ信号の特徴の変化の度合いを示す変化度を計算し、
前記判定手段は、前記境界の前記優先度として、当該境界と同一の時刻を示す境界情報の前記変化度の最大値を計算する
ことを特徴とする請求項1記載の音声処理装置。 - 前記境界計算手段は、前記境界情報として、さらに、前記類似区間に含まれる前記単位区間の区間特徴を用いて、当該類似区間の音環境を表現する音環境情報を計算し、
さらに、前記音環境情報を用いて、前記シーン変化点を分類し、分類結果の分類情報を前記シーン変化点に付与する分類手段
を備えることを特徴とする請求項4記載の音声処理装置。 - さらに、前記優先度の平均及び標準偏差を用いて、閾値を計算する閾値計算手段を備え、
前記判定手段は、前記閾値を超える優先度の境界の時刻を前記シーン変化点として検出する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記判定手段は、前記優先度の高い順に、所定数の前記境界を前記シーン変化点として検出する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記判定手段は、前記所定数を前記オーディオ信号の長さに応じて決定する
ことを特徴とする請求項7に記載の音声処理装置。 - 前記境界計算手段は、前記オーディオ信号の全単位区間に対して、前記境界情報を計算する
ことを特徴とする請求項1記載の音声処理装置。 - さらに、オーディオ信号の前記第1単位区間における周波数特性を示す特徴量ベクトルを算出する特徴量ベクトル生成手段を備え、
前記尤度ベクトル生成手段は、前記特徴量ベクトルおよび前記確率モデルを用いて前記尤度ベクトルを生成する
ことを特徴とする請求項1記載の音声処理装置。 - 入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算手段と、
複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算手段と、
前記境界情報の示す境界の中から、前記オーディオ信号によって表現されるシーンに含まれる第1のシーンの境界と、当該第1のシーンに含まれる第2のシーンの境界とを検出するシーン構造推定手段と
を備え、
前記境界計算手段は、前記境界情報として、前記類似区間の始端の時刻または終端の時刻の少なくとも一方を計算し、
前記単位区間を第2単位区間とし、前記第2単位区間は、複数の連続する第1単位区間からなり、
さらに、複数種類のサウンド素片それぞれの特徴を表現する確率モデルをあらかじめ記憶しているモデル記憶手段と、
前記確率モデルを用いて、前記オーディオ信号の前記サウンド素片それぞれに対する尤度を成分とする尤度ベクトルを、前記第1単位区間ごとに生成する尤度ベクトル生成手段とを備え、
前記区間特徴は、前記第2単位区間に含まれる複数の第1単位区間の尤度ベクトルを用いて生成され、前記サウンド素片それぞれの出現頻度を示す頻度ベクトルである
ことを特徴とする音声処理装置。 - 入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算ステップと、
複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算ステップと、
前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定ステップと
を含み、
前記境界計算ステップでは、前記境界情報として、前記類似区間の始端の時刻または終端の時刻の少なくとも一方を計算し、
前記単位区間を第2単位区間とし、前記第2単位区間は、複数の連続する第1単位区間からなり、
さらに、複数種類のサウンド素片それぞれの特徴を表現する確率モデルをあらかじめ記憶するモデル記憶ステップと、
前記確率モデルを用いて、前記オーディオ信号の前記サウンド素片それぞれに対する尤度を成分とする尤度ベクトルを、前記第1単位区間ごとに生成する尤度ベクトル生成ステップとを含み、
前記区間特徴は、前記第2単位区間に含まれる複数の第1単位区間の尤度ベクトルを用いて生成され、前記サウンド素片それぞれの出現頻度を示す頻度ベクトルである
ことを特徴とする音声処理方法。 - コンピュータ読取可能な非一時的な記録媒体に記録され、オーディオ信号からシーン変化点を検出するシーン変化点検出処理を実行するプログラムであって、
前記シーン変化点検出処理は、
入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算ステップと、
複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算ステップと、
前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定ステップと
を含み、
前記境界計算ステップでは、前記境界情報として、前記類似区間の始端の時刻または終端の時刻の少なくとも一方を計算し、
前記単位区間を第2単位区間とし、前記第2単位区間は、複数の連続する第1単位区間からなり、
さらに、複数種類のサウンド素片それぞれの特徴を表現する確率モデルをあらかじめ記憶するモデル記憶ステップと、
前記確率モデルを用いて、前記オーディオ信号の前記サウンド素片それぞれに対する尤度を成分とする尤度ベクトルを、前記第1単位区間ごとに生成する尤度ベクトル生成ステップとを含み、
前記区間特徴は、前記第2単位区間に含まれる複数の第1単位区間の尤度ベクトルを用いて生成され、前記サウンド素片それぞれの出現頻度を示す頻度ベクトルである
ことを特徴とするプログラム。 - 入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算部と、
複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算部と、
前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定部と
を備え、
前記境界計算部は、前記境界情報として、前記類似区間の始端の時刻または終端の時刻の少なくとも一方を計算し、
前記単位区間を第2単位区間とし、前記第2単位区間は、複数の連続する第1単位区間からなり、
さらに、複数種類のサウンド素片それぞれの特徴を表現する確率モデルをあらかじめ記憶するモデル記憶部と、
前記確率モデルを用いて、前記オーディオ信号の前記サウンド素片それぞれに対する尤度を成分とする尤度ベクトルを、前記第1単位区間ごとに生成する尤度ベクトル生成部とを備え、
前記区間特徴は、前記第2単位区間に含まれる複数の第1単位区間の尤度ベクトルを用いて生成され、前記サウンド素片それぞれの出現頻度を示す頻度ベクトルである
ことを特徴とする集積回路。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012096332 | 2012-04-20 | ||
JP2012096332 | 2012-04-20 | ||
PCT/JP2013/001568 WO2013157190A1 (ja) | 2012-04-20 | 2013-03-11 | 音声処理装置、音声処理方法、プログラムおよび集積回路 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013157190A1 JPWO2013157190A1 (ja) | 2015-12-21 |
JP6039577B2 true JP6039577B2 (ja) | 2016-12-07 |
Family
ID=49383165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013548126A Active JP6039577B2 (ja) | 2012-04-20 | 2013-03-11 | 音声処理装置、音声処理方法、プログラムおよび集積回路 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8930190B2 (ja) |
JP (1) | JP6039577B2 (ja) |
CN (1) | CN103534755B (ja) |
WO (1) | WO2013157190A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6003972B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN104469487B (zh) * | 2014-12-31 | 2019-02-12 | 优酷网络技术(北京)有限公司 | 一种场景切换点的检测方法及装置 |
US10922551B2 (en) | 2017-10-06 | 2021-02-16 | The Nielsen Company (Us), Llc | Scene frame matching for automatic content recognition |
CN109981970B (zh) * | 2017-12-28 | 2021-07-27 | 深圳市优必选科技有限公司 | 一种确定拍摄场景的方法、装置和机器人 |
EP3570186B1 (en) * | 2018-05-17 | 2021-11-17 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Device and method for detecting partial matches between a first time varying signal and a second time varying signal |
US11475887B2 (en) * | 2018-10-29 | 2022-10-18 | Spotify Ab | Systems and methods for aligning lyrics using a neural network |
CN110136735B (zh) * | 2019-05-13 | 2021-09-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频修复方法、设备及可读存储介质 |
EP3944100A1 (en) * | 2020-07-20 | 2022-01-26 | Mimi Hearing Technologies GmbH | Method of selecting a suitable content for subjective preference judgement |
US11144764B1 (en) * | 2020-09-30 | 2021-10-12 | Cbs Interactive Inc. | Systems, methods, and storage media for selecting video portions for a video synopsis of streaming video content |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0520367A (ja) | 1991-07-15 | 1993-01-29 | Hitachi Ltd | インデツクス作成方式 |
EP1073272B1 (en) * | 1999-02-15 | 2011-09-07 | Sony Corporation | Signal processing method and video/audio processing device |
JP3757719B2 (ja) * | 1999-11-19 | 2006-03-22 | 松下電器産業株式会社 | 音響データ分析方法及びその装置 |
JP2004056739A (ja) | 2002-07-24 | 2004-02-19 | Fuji Photo Film Co Ltd | ディジタルカメラ |
DE60320414T2 (de) * | 2003-11-12 | 2009-05-20 | Sony Deutschland Gmbh | Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen |
EP2136358A4 (en) * | 2007-03-16 | 2011-01-19 | Panasonic Corp | LANGUAGE ANALYSIS DEVICE, LANGUAGE ANALYSIS PROCEDURE, LANGUAGE ANALYSIS PROGRAM AND SYSTEM INTEGRATION CIRCUIT |
WO2008143345A1 (ja) * | 2007-05-23 | 2008-11-27 | Nec Corporation | コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム |
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
JP5356527B2 (ja) | 2009-09-19 | 2013-12-04 | 株式会社東芝 | 信号分類装置 |
WO2011145249A1 (ja) | 2010-05-17 | 2011-11-24 | パナソニック株式会社 | 音声分類装置、方法、プログラム及び集積回路 |
-
2013
- 2013-03-11 WO PCT/JP2013/001568 patent/WO2013157190A1/ja active Application Filing
- 2013-03-11 JP JP2013548126A patent/JP6039577B2/ja active Active
- 2013-03-11 CN CN201380001357.5A patent/CN103534755B/zh active Active
- 2013-03-11 US US14/113,481 patent/US8930190B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8930190B2 (en) | 2015-01-06 |
JPWO2013157190A1 (ja) | 2015-12-21 |
WO2013157190A1 (ja) | 2013-10-24 |
CN103534755A (zh) | 2014-01-22 |
CN103534755B (zh) | 2017-03-01 |
US20140043543A1 (en) | 2014-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6039577B2 (ja) | 音声処理装置、音声処理方法、プログラムおよび集積回路 | |
US11483268B2 (en) | Content navigation with automated curation | |
CN108140032B (zh) | 用于自动视频概括的设备和方法 | |
JP6419830B2 (ja) | 画像検索のためのシステム、方法、および装置 | |
RU2693906C2 (ru) | Основанный на правилах анализ важности видео | |
US11810597B2 (en) | Video ingestion and clip creation | |
US8583647B2 (en) | Data processing device for automatically classifying a plurality of images into predetermined categories | |
US20120039539A1 (en) | Method and system for classifying one or more images | |
KR20180120146A (ko) | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 | |
JP5723446B2 (ja) | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 | |
US20120136823A1 (en) | Audio classification device, method, program and integrated circuit | |
US9275483B2 (en) | Method and system for analyzing sequential data based on sparsity and sequential adjacency | |
US9549162B2 (en) | Image processing apparatus, image processing method, and program | |
JP5658285B2 (ja) | 興味区間抽出装置、興味区間抽出方法 | |
JP5620474B2 (ja) | アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム | |
JP6274114B2 (ja) | 制御方法、制御プログラム、および制御装置 | |
JP5908924B2 (ja) | 音声処理装置、方法、プログラムおよび集積回路 | |
JP2014067333A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP6583285B2 (ja) | 情報処理方法、映像処理装置及びプログラム | |
KR101804679B1 (ko) | 스토리에 기초하는 멀티미디어 콘텐츠 개발 장치 및 방법 | |
KR101969230B1 (ko) | 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체 | |
JP5254900B2 (ja) | 映像再構成方法、映像再構成装置および映像再構成プログラム | |
JP2014002336A (ja) | コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム | |
US20230274549A1 (en) | Systems and Methods for Video Event Segmentation Derived from Simultaneously Recorded Sensor Data | |
EP3038108A1 (en) | Method and system for generating a video album |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6039577 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |