JP2011075935A - 音声処理装置、プログラム、音声処理方法および録画装置 - Google Patents
音声処理装置、プログラム、音声処理方法および録画装置 Download PDFInfo
- Publication number
- JP2011075935A JP2011075935A JP2009228931A JP2009228931A JP2011075935A JP 2011075935 A JP2011075935 A JP 2011075935A JP 2009228931 A JP2009228931 A JP 2009228931A JP 2009228931 A JP2009228931 A JP 2009228931A JP 2011075935 A JP2011075935 A JP 2011075935A
- Authority
- JP
- Japan
- Prior art keywords
- section
- audio
- silent
- feature amount
- volume
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】音声データ中の無音区間の検出処理に係る演算数を減らすことができる音声処理装置、プログラム、音声処理方法および録画装置を提供する。
【解決手段】デジタルテレビ録画再生装置は、複数の音声サンプルの集合である音声信号を出力し、出力された音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別し、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された区間を無音区間として検出する。
【選択図】 図2
【解決手段】デジタルテレビ録画再生装置は、複数の音声サンプルの集合である音声信号を出力し、出力された音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別し、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された区間を無音区間として検出する。
【選択図】 図2
Description
本発明は、デジタル音声を処理する音声処理装置、プログラム、音声処理方法および録画装置に関する。
デジタルテレビ放送や携帯電話通信等の音声データ中には、音声が非常に小さい無音区間が存在し、この無音区間の検出に基づいた様々な技術が存在する。例えばテレビ番組のCM区間の前後には数百ミリ秒程度の無音区間があり、この無音区間を検出することでCM区間の判別が可能である。また携帯電話通信では、無音区間を検出したのち該区間をゼロマスクすることにより、送信エネルギーやデータ転送帯域を節約できる。
ここで、音声データ中の無音区間を検出する手法としては、例えば音声信号のパワー値と閾値とを比較して閾値以下のパワー値を持つ区間を無音区間と判定する手法がある(例えば、特許文献1)。特許文献1には、音声信号をブロック化して1フレームのパワーを検出し、連続したmフレームの平均パワーを出力し、有音/無音区間を判定するために平均パワー値と閾値を比較し結果を出力する装置が開示されている。
近年、デジタルテレビ等の情報処理装置の多機能化に伴い、演算装置に対する処理負荷が増大している。そこで、演算装置に対して低負荷な無音区間検出が望まれている。しかしながら特許文献1記載の技術は、無音区間の検出に際して1フレームのパワーを検出した後に連続したmフレームの平均パワーを算出する必要があるため、演算数が多くなる可能性がある。
そこで本発明では、音声データ中の無音区間の検出処理に係る演算数を減らすことができる音声処理装置、プログラム、音声処理方法および録画装置の提供を目的とする。
上記の課題を解決するために、本発明の音声処理装置は、複数の音声サンプルの集合である音声信号を出力する出力手段と、前記出力手段から出力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出する無音区間検出手段とを備えることを特徴とする。
また、本発明のプログラムは、情報処理装置を、複数の音声サンプルの集合である音声信号を入力する入力手段と、入力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出する無音区間検出手段として働かせる。
また、本発明の音声処理方法は、複数の音声サンプルの集合である音声信号を入力するステップと、入力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別するステップと、前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出するステップとを備えることを特徴とする。
また、本発明の録画装置は、映像信号と音声信号を含むコンテンツデータのうち、少なくとも音声信号を入力する入力手段と、入力された前記音声信号のサンプルのうち、一定間隔のサンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、音量レベルが一定の音量範囲内であると一定回数連続して判別された区間と、次に音量レベルが一定の音量範囲内であると一定回数連続して判別された区間との間隔が一定時間長の整数倍である場合に、前記コンテンツデータを区切る手段とを備えることを特徴とする。
本発明の音声処理装置、プログラム、音声処理方法および録画装置によれば、音声データ中の無音区間の検出処理に係る演算数を減らすことができる。
以下、図面を参照して、本発明の実施形態を説明する。
(第1実施形態)
まず、図1を参照して、本発明の第1実施形態に係る音声処理装置のシステム構成を説明する。この音声処理装置は、例えばデジタルテレビ録画再生装置10として実現されている。本デジタルテレビ録画再生装置10は、テレビ放送の番組内に挿入されるCMの前後に存在する数百ミリ秒の無音区間を検出することで、CM区間の位置を検出することができる。
(第1実施形態)
まず、図1を参照して、本発明の第1実施形態に係る音声処理装置のシステム構成を説明する。この音声処理装置は、例えばデジタルテレビ録画再生装置10として実現されている。本デジタルテレビ録画再生装置10は、テレビ放送の番組内に挿入されるCMの前後に存在する数百ミリ秒の無音区間を検出することで、CM区間の位置を検出することができる。
本デジタルテレビ録画再生装置10は、受信部101、TS分離部102、CAS制御部103、B−CASカード104、デスクランブラ部105、録画再生制御部106、映像記録部107、音声/画像分離部108、音声デコード部109、音声出力部110、リサンプリング部111、無音区間判定部112、特徴量検出部113、CM区間判定部114、特徴量登録部115、区間登録部116、ユーザ入力処理部120等を備えている。
受信部101は、テレビ放送波受信アンテナ(非図示)と接続され、テレビ放送を受信する。アンテナで受信されたテレビ放送波の信号が受信部101に入力されると、受信部101は入力されたテレビ放送信号を復調し、TS分離部102へ出力する。
TS分離部102は、受信部101から入力された放送信号のTS(Transport Stream)を、符号化された音声データや画像データであるES(Elementary Stream)や、暗号化情報であるECM(Entitilement Control Message)等に分離する。そしてTS分離部102は、ESをデスクランブラ部105に、ECMをCAS制御部103に出力する。
CAS制御部103は、TS分離部102から出力された暗号化情報ECMを入力する。そしてCAS制御部103は、CASカード104に記憶されている放送事業者毎に設定されるワーク鍵(Kw)を用いてECMの暗号を復号し、ECM内のその番組に関する属性情報とB−CASカード104に記憶されている契約情報とを比較して、視聴可否の判定を行う。そしてCAS制御部103は、視聴可能である場合にスクランブル鍵(Ks)を復号してデスクランブラ部105に出力する。
デスクランブラ部105は、TS分離部102から入力された、音声データや画像データであるESのスクランブル処理を解除する。デスクランブラ部105は、CAS制御部103から入力した前記スクランブル鍵(Ks)を用いて音声データや画像データのスクランブル処理を解除し、スクランブル解除した音声データや画像データを録画再生制御部106に出力する。
録画再生制御部106は、録画処理および再生処理を制御する。録画処理において録画再生制御部106は、音声データや画像データをコンテンツごとの一つのTSに纏めて記録媒体部107に記録するとともに、音声/画像分離部108にコンテンツのTSを出力する。また録画処理において録画再生制御部106は、後述する区間登録部116から入力された区切り情報と動画コンテンツ等とを対応付けて記録部107に記録することができる。あるいは、該区切り情報に基づいて、動画コンテンツ等の特定時間区間をカットして記録することも可能である。
また、録画再生制御部106は、映像記録部107に記録されたコンテンツの再生処理を制御する。そのとき録画再生制御部106は、映像記録部107からコンテンツのTSをロードして、該TSを音声/画像分離部108に出力する。
音声/画像分離部108は、録画再生制御部から出力されたTSから、音声信号と画像信号を分離する。そして音声/画像分離部108は、分離した音声信号を音声デコード部109に、画像信号を画像デコード部(非図示)に出力する。
音声デコード部109は、音声/画像分離部108から出力された音声信号をデコードする。ここで音声信号は、例えばPCM等のフォーマットにデコードされる。そしてデコード部109は、録画処理においては、デコードした音声信号をリサンプリング部111に出力し、再生処理においては、デコードした音声信号を音声出力部110に出力する。
リサンプリング部111は、デコード部109から入力された音声信号のサンプリング周波数を変換する再サンプリング処理を行う。例えば、デジタル放送における音声信号のサンプリング周波数は48KHzであるが、リサンプリング部111はこの音声信号を更に低い周波数にて再サンプリングして、例えばサンプリング周波数が12KHzの音声信号に変換する。
ここで、再サンプリングの際には、リサンプリング部111は、再サンプリング前の音声サンプルから一定の周波数以上の音声成分を削る処理を行ったのち、再サンプリング処理を行う。このとき、再サンプリング処理の方法については、公知の技術を利用できる。そしてリサンプリング部111は、再サンプリングされた音声信号を無音区間判定部112および特徴量算出部113に出力する。
無音区間判定部112は、入力した音声信号の音声サンプルのうち、一定間隔の音声サンプルに対して音量レベルが所定の範囲内か否かを判別し、音量レベルが所定の範囲内であると一定回数連続して判別された区間を無音区間として検出する。そして無音区間判定部112は、無音区間を検出すると、特徴量算出部113およびCM区間判定部114に無音区間検出を通知する。
特徴量算出部113は、無音区間判定部112から無音区間検出通知を受け取った後、音声信号の音声サンプルのうち、連続する所定数の音声サンプルに対して特徴量を算出する。ここで、特徴量算出部113は、無音区間判定部112から無音区間検出通知を受け取った所定時間後、例えば該通知の1秒後に特徴量を算出する。
尚、特徴量算出部113は、CM区間における音声信号サンプルの特徴量を算出することを目的としている。一般的に、CM区間の長さは15秒以上である。つまり、特徴量を算出するタイミングは、無音区間検出通知を受け取った後、0秒以上15秒未満であれば良い。また、同一CM区間内において特徴量の算出を複数回行ってもよい。そして特徴量算出部111は、算出した特徴量のデータをCM区間判定部114に出力する。
CM区間判定部114は、無音区間判定部112から出力された無音区間検出通知に基づいて、音声信号中におけるCM区間を判定する。テレビ放送中に挿入されるCMの前後に数百ミリ秒の無音区間が存在し、またCM区間の時間長は、15、30秒、45秒、60秒等の15秒の整数倍となっている。
そこでCM区間判定部114は、入力される無音区間検出通知と、次に入力される無音区間検出通知との時間間隔が15秒の整数倍である場合、該無音区間検出通知の間に相当する区間をCM区間であると判定する。なお、ここでCM区間と判定される時間間隔は、厳密に15秒の整数倍でなくても、数百ミリ秒程度の誤差を含んでいても良い。
また、CM区間判定部114は、特徴量算出部113において算出された特徴量を入力する。この時、CM区間判定部114は、ある区間がCM区間であると判定された場合、該区間内の音声サンプルに対して算出された特徴量と、該区間の時間長とを対応付けて特徴量登録部114に出力する。
また、CM区間判定部114は、特徴量算出部113から特徴量を入力した時に、該特徴量と特徴量登録部115に登録された特徴量とが一致するか否かを判別する。なお、ここでの一致とは、厳密な一致ではなく所定の誤差を許容するものであってもよい。特徴量算出部113から入力した特徴量と、特徴量登録部114に登録された特徴量とが一致する場合、CM区間判定部114は、登録された特徴量に対応付けられたCM区間の時間長を参照し、該時間長に対応する区間をCM区間として検出する。そしてCM判定部114は、CM区間検出通知を区間登録部116に出力する。
特徴量登録部115は、CM区間判定部から出力された、CM区間内の音声サンプルに対して算出された特徴量と、該CM区間の時間長とを対応付けて登録する。そして特徴量登録部115は、CM区間が検出される都度、該CM区間の音声サンプルに対して算出された特徴量と該CM区間の時間長とを対応付けて登録する。
区間登録部116は、CM区間判定部114から入力されたCM区間検出通知に基づいて、音声信号中におけるCM区間の区切り情報を生成/登録する。ここで、音声信号に対して区切り情報を生成する際、区間登録部116は、CM区間検出通知を入力した時間に基づいて音声信号中におけるCM区間の位置を決定して区切り情報を生成してもよいし、該CM区間検出通知にCM区間内の音声サンプルのサンプル番号やフレーム番号等の位置情報等を付加させて、該位置情報に基づいて区切り情報を生成してもよい。そして区間登録部116は、生成した区切り情報を録画再生制御部106に出力する。
次に、図2を参照して、無音区間検出に係る処理動作のフローを説明する。まず無音区間判定部112は1フレーム分の音声サンプルを読み込む(S201)。フレームとは、音声信号の音声サンプルを複数個まとめたものであり、例えば1000個の音声サンプルが1フレームにまとめられて無音区間判定部112に読み込まれる。
続いて無音区間判定部112は、読み込んだ音声サンプルのうち1番目の音声サンプルに対して、音量レベルが所定の範囲内であるか否かを判別する旨を無音区間判定部112へ指示する(S202)。そして無音区間判定部112は、指示された音声サンプルに対して、音量レベルが所定の範囲内であるか否かを判別する(S203)。ここで、音声サンプルの音量レベルが所定の範囲内である場合(S203のYes)、無音区間判定部112は、連続無音判定回数に1回を加える(S204)。
そして無音区間判定部112は、連続無音判定回数がm回(mは1以上の整数)であるか否かを判別し(S205)、連続無音判定回数がm回でない場合(S205のNo)、S203において直近に音量レベルを判定した音声サンプルのサンプル番号にkを加えた番号の音声サンプルに対して音量レベルを判定する旨を指示する(S206)。ここでkとは、音量を判定する対象となる音声サンプル同士の間隔であり、2以上の整数である。kの詳細については、図3を参照して後述する。
このように、読み込んだ音声信号のサンプルに対して音量レベルを判定する際、一定間隔のサンプルを判定の対象とすることで、該判定処理に係る演算数を減らすことができる。
そして、S201にて読み込んだ音声サンプルのうち音量レベルが所定の範囲内か否かが判別されていない音声サンプルがある場合(S207のNo)、無音区間判定部112は再びS203の処理を行う。
ここで、無音区間検出に係る処理フローにおいて、音量レベルか所定範囲内である音声サンプルが連続する場合、無音区間判定部112はS203〜S207の処理を繰り返し、連続無音判定回数がm回になった場合に(S205のYes)、無音区間検出通知をCM区間判定部114および特徴量算出部113に出力する(S209)。そして無音区間判定部112は、連続無音判定回数を0回に設定し(S210)、S206の処理を行う。
一方S203において、音声サンプルの音量レベルが所定の範囲内でない場合(S203のNo)、無音区間判定部112は、連続無音判定回数を0回に設定し(S204)、S206の処理を行う。
そして、読み込んだ1フレーム分の全ての音声サンプルに対して音量レベル判定が終了した場合(S207のYes)、無音区間判定部112は全フレームの処理が完了したか否かを判別する(S211)。音量レベルを判定していないフレームが残っている場合(S211のNo)、無音区間判定部112はS201の処理を行い、新たなフレームを読み込む。一方、全フレームの処理が完了した場合(S211のYes)、無音区間検出に係る処理フローは終了する。
図3は、無音区間判定を行う音声信号のサンプリング周波数と、無音区間判定部112が音量レベルを判定する対象となる音声サンプルのサンプル間隔との関係を示すグラフである。ここで、例えばサンプリング周波数が12KHzである場合、kは2である。つまり、サンプリング周波数が12KHzの音声サンプルに対して音量レベルを判定する場合は、1個おきの音声サンプルに対して音量レベルを判定すればよい。また同様に、サンプリング周波数が48KHzの音声サンプルに対して音量レベルを判定する場合には、8音声サンプルのうちの1音声サンプルに対して音量を判定すればよい。
一方、図3のグラフが示す音声サンプル間隔よりも大きな間隔にて音声サンプルの音量の判定を行うと、音量を判定されない音声サンプルの数が多くなり、無音区間の誤検出が発生する可能性がある。しかし、このように、音声信号のサンプリング周波数に応じたサンプル間隔にて、無音区間検出に係る処理を行うことで、無音区間の誤検出を防ぎつつ演算数を減らすことができる。
次に図4を参照して、入力した音声信号サンプルに対する無音区間判定部112の処理動作について説明する。
図4は、音声信号サンプルの音量レベル/時間の波形と、該音声信号サンプルに対する無音区間判定部112の処理動作を示す図である。横軸が時間、縦軸が音量レベルである。また、斜線で塗られた棒が音量を判定される音声サンプルを、黒枠のみの棒が音量を判定されない音声サンプルを示している。ここで例えば、無音と判定する音量レベルの範囲を−40から40、音量レベルを判定するサンプル間隔であるkを2、無音区間と判定する連続無音判定回数であるm=2400回であるとする。
図4は、音声信号サンプルの音量レベル/時間の波形と、該音声信号サンプルに対する無音区間判定部112の処理動作を示す図である。横軸が時間、縦軸が音量レベルである。また、斜線で塗られた棒が音量を判定される音声サンプルを、黒枠のみの棒が音量を判定されない音声サンプルを示している。ここで例えば、無音と判定する音量レベルの範囲を−40から40、音量レベルを判定するサンプル間隔であるkを2、無音区間と判定する連続無音判定回数であるm=2400回であるとする。
このとき無音区間判定部112は、A1で示される音声サンプルを無音であると判定する。しかしサンプルA1の次に音量レベルが判定されるサンプルA2は、無音と判定される範囲外の音量レベルであるため、連続無音判定回数は0回に設定される。同様に無音区間判定部112は、サンプルA3およびサンプルA4の音声サンプルを無音と判定するが、サンプルA5の音声サンプルの音量レベルが所定範囲の外にあるため、連続無音判定回数を0回に設定する。
続いて無音区間判定部112は、サンプルA6を無音であると判定する。そして、サンプルA6に後続する音声サンプルも音量レベルが所定範囲内であるため、無音区間判定部112は連続無音判定回数を加算していく。そして、音量レベルが所定の範囲内であると判定される音声サンプルの回数が2400回連続すると、無音区間判定部112は該区間を無音区間として検出し、無音区間検出通知を特徴量検出部113およびCM区間判定部114に出力する。
図5は、本実施例におけるCM区間登録に係る処理のフローチャートである。
この処理では、無音区間判定部112が無音区間検出通知を出力すると(S501のYes)、特徴量算出部113およびCM区間判定部114は無音区間検出通知を受け取る。そして特徴量算出部113は、無音区間検出通知を受け取った後、例えば1秒後に所定数の音声サンプルの特徴量を算出し、算出した特徴量をCM区間判定部114に出力する(S502)。このとき、特徴量を算出するタイミングは、無音区間検出通知の後、CMの長さである0秒以上15秒未満であればよい。また、特徴量の算出を無音区間検出通知の後に複数回行ってもよい。
この処理では、無音区間判定部112が無音区間検出通知を出力すると(S501のYes)、特徴量算出部113およびCM区間判定部114は無音区間検出通知を受け取る。そして特徴量算出部113は、無音区間検出通知を受け取った後、例えば1秒後に所定数の音声サンプルの特徴量を算出し、算出した特徴量をCM区間判定部114に出力する(S502)。このとき、特徴量を算出するタイミングは、無音区間検出通知の後、CMの長さである0秒以上15秒未満であればよい。また、特徴量の算出を無音区間検出通知の後に複数回行ってもよい。
続いてCM区間判定部114は、特徴量算出部113から入力された特徴量と、特徴量登録部114に登録された特徴量とが一致するか否か判別する(S503)。S503〜S505における処理動作の詳細は後述する。
特徴量算出部113から入力された特徴量と登録された特徴量とが一致しない場合(S503のNo)、CM区間判定部114は、S501にて受け取った無音区間検出通知と、次に受け取った無音区間検出通知との時間間隔が、15秒の倍数であるか否かを判別する(S505)。一般的に、テレビ放送の番組内に挿入されるCMの時間長は15秒の倍数に設定されており、それゆえ、無音区間と次の無音区間の時間間隔が15秒の倍数であれば、該無音区間間をCM区間であると判別することができる。
このように、無音区間と次の無音区間との時間間隔に応じて、該無音区間間がCM区間であるか否か判別することにより、複雑な処理を行うことなくCM区間を検出することが可能となる。
無音区間間の時間間隔が15秒の倍数である場合(S505のYes)、CM区間判定部114は、S502にて特徴量算出手段112から入力された特徴量を、CM区間における特徴量として特徴量登録部114に登録するとともに、該特徴量と該無音区間間の時間長を対応付ける(S506)。一方、無音区間間の時間間隔が15秒の倍数で無い場合(S505のNo)、CM区間判定部114は該無音区間間をCM区間でないと判定し、S508の処理を行う。
ここで無音区間間の時間間隔を算出する手法としては、CM区間判定部114に入力される無音区間検出通知の入力時間の差から算出する方法や、あるいは無音区間の検出通知に、該無音区間内の音声サンプルのサンプル番号やフレーム番号等の情報を付加し、これらの情報に基づいて2つの無音区間検出通知の時間間隔を算出する方法などが挙げられる。
そしてCM区間判定部114は、区間登録部116に対してCM区間検出を通知し、区間登録部116は、該通知に基づいて、音声信号中におけるCM区間を示す区切り情報を生成/登録する(S507)。
ここでS503〜S505の処理動作について説明する。CM区間判定部114は、S503において特徴量算出部113から入力された特徴量と、特徴量登録部114に登録された特徴量とが一致するか否かを判別する。特徴量登録部114は、CM区間の音声サンプルに対して算出された特徴量を登録している。そこで、登録された特徴量と特徴量算出部113から入力された特徴量とが一致する場合(S503のYes)、CM区間判定部114は、該登録された特徴量に対応付けられたCM区間の時間長を参照し(S504)、参照された時間長に対応する区間をCM区間として検出する(S505)。
このように特徴量算出部112は、無音区間検出通知を入力した場合に特徴量を算出すればよいため、不要な特徴量算出の処理を省くことができる。また、算出した特徴量と登録された特徴量とが一致するか否かによってCM区間の判定を行うことにより、例えばCM区間の途中で録画が中断された場合等であっても、特徴量に基づいてCM区間を検出することができる。
次にCM区間判定部114は、区間登録部116に対してCM区間検出通知を出力し、区間登録部116は、該通知に基づいて区切り情報を生成/登録する(S507)。
そして全ての音声データに対する処理が完了すると(S508のYes)、CM区間登録に係る処理フローは終了する。
続いて、図6を参照して、本実施形態においてテレビジョン録画再生装置がCM区間を判定する過程を説明する。図6は、複数の無音区間が存在するテレビ放送の時間区間に対するCM区間検出処理動作を示す図である。
続いて、図6を参照して、本実施形態においてテレビジョン録画再生装置がCM区間を判定する過程を説明する。図6は、複数の無音区間が存在するテレビ放送の時間区間に対するCM区間検出処理動作を示す図である。
無音区間判定部112が無音区間検出通知B1を特徴量算出部113とCM区間判定部114に出力すると、特徴量算出部113は無音区間通知B1を入力した後、所定時間後に音声サンプルの特徴量C1を算出する。続いて無音区間検出部112が無音区間検出通知B2を出力すると、CM区間判定部114は無音区間検出通知B1とB2との時間間隔が15秒の倍数であるか否かを判別する。
このとき、B1とB2の間隔は15秒であるため、CM区間判定部114は区間2をCM区間として検出する。区間2がCM区間として検出されると、特徴量登録部114は、区間2の音声サンプルに対して算出された特徴量C1を登録するとともに、区間2の時間長と特徴量C1とを対応付ける。
続いて無音区間検出通知B3が出力されると、CM区間判定部114は、無音区間検出通知B2とB3との時間間隔を算出する。このとき、B2とB3の時間間隔は15秒の倍数でないため、CM区間判定部114は区間3をCM区間でないと判別する。また、無音区間判定部112が無音区間検出通知B3を出力すると、続いて特徴量検出部は特徴量C3を算出する。
そしてCM区間判定部114は、特徴量登録部114に登録された特徴量と、特徴量C3とが一致するか否かを判別する。このとき、例えば特徴量C3が、登録された特徴量C1と一致する場合、CM区間判定部114は、特徴量C1に対応付けられた時間長を参照し、無音区間検出通知B3を開始点として、該時間長に対応する区間をCM区間として検出する。なお、ここでCM区間を検出する際、厳密に無音区間検出通知をCM区間の開始点とするのではなく、該無音区間検出通知の前後に数百ミリ秒程度の誤差を含んでいてもよい。そしてCM判定部114は、CM区間として判定した区間の時間位置情報等を区間登録部116に出力する。
本実施例によれば、デジタルテレビ録画再生装置10は、読み込んだ音声信号のサンプルに対して音量レベルを判定する際に、一定間隔のサンプルを判定の対象とすることで、該判定処理に係る演算数を減らすことができる。また、音声信号のサンプリング周波数に応じたサンプル間隔にて無音区間検出に係る処理を行うことで、無音区間の誤検出を防ぎつつ演算数を減らすこともできる。さらにデジタルテレビ録画再生装置10は、無音区間と次の無音区間との時間間隔に応じてCM区間を検出することができ、複雑な処理なしにCM区間を検出することが可能である。
(第2実施形態)
図7を参照して、第2実施形態の無音区間検出処理に係る動作処理について説明する。第1実施例においては、音声サンプルの音量レベルが所定範囲内であるとm回連続して判定される区間を無音区間であると判定していたが、本実施形態では、音量が所定範囲内であるとm回以上連続して判別される該区間を無音区間と判定して無音区間検出通知を出力する。
図7を参照して、第2実施形態の無音区間検出処理に係る動作処理について説明する。第1実施例においては、音声サンプルの音量レベルが所定範囲内であるとm回連続して判定される区間を無音区間であると判定していたが、本実施形態では、音量が所定範囲内であるとm回以上連続して判別される該区間を無音区間と判定して無音区間検出通知を出力する。
本実施形態の無音区間検出に係る処理フローにおいて、無音区間判定部112は、1フレーム分の音声サンプルを読み込み(S701)、読み込んだ音声サンプルのうち、1番目の音声サンプルの判定を指示する(S702)。そして1番目の音声サンプルに対して、音声サンプルの音量レベルが所定の範囲内か否かを判別する(S703)。このとき、音量レベルが所定の範囲内である場合、無音区間判定部112は、連続無音判定回数にk回を加え(S704)、直近に音量判定を行った音声サンプルの音声サンプル番号にkを加えた番号の音声サンプルの音量判定を指示する(S705)。
そして、読み込んだフレームの音声サンプルのうち、音量レベルを判定していない音声サンプルがある場合(S706のNo)、無音区間判定部112は、再びS703の処理を行う。このとき、判定を行った音声サンプルの音量レベルが所定の範囲内でない場合(S703のNo)、続いて無音区間判定部112は連続無音判定回数がm回未満であるか否かを判定する(S707)。連続無音判定回数がm回未満である場合(S707のYes)、無音区間判定部112は連続無音判定回数を0に設定し、S705の処理を行う。一方、連続無音判定回数がm回以上である場合(S707のNo)、無音区間判定部112は、無音区間検出を通知し(S709)、連続無音判定回数を0回に設定し(S710)、S705の処理を行う。ここで、無音区間検出通知は、無音区間検出時の連続無音判定回数を含むものであっても良い。これにより、無音区間検出通知を元に無音区間の時間長を算出することができる。
そして、無音区間検出に係る処理フローは、読み込んだフレームの全て音声サンプルに対して音量レベルを判定し(S706のYes)、全てのフレームの処理が完了した場合(S711のYes)に終了する。
この第2の実施例に拠れば、デジタルテレビ録画再生装置10は音声信号中に存在する無音区間を少ない演算量で検出できるだけでなく、無音区間の時間長を検出することができる。そのため、例えばデジタルテレビ放送のCM前後に存在する無音区間の時間長が厳密に設定されている場合、無音区間と無音区間の時間間隔だけでなく、無音区間の時間長をも判断材料として、CM区間を検出することができ、より精度の高いCM区間の検出が可能となる。
なお、本発明は、上記の実施形態そのままに限定されるものではなく、その要旨を逸脱しない範囲で構成要素を変形して実施することができる。
10:デジタルテレビ録画再生装置
101:受信部
102:TS分離部
103:CAS制御部
104:B−CASカード
105:デスクランブラ部
106:録画再生制御部
107:映像記録部
108:音声/画像分離部
109:音声デコード部
110:音声出力部
111:リサンプリング部
112:無音区間判定部
113:特徴量算出部
114:CM区間判定部
115:特徴量登録部
116:区間登録部
120:ユーザ入力処理部
101:受信部
102:TS分離部
103:CAS制御部
104:B−CASカード
105:デスクランブラ部
106:録画再生制御部
107:映像記録部
108:音声/画像分離部
109:音声デコード部
110:音声出力部
111:リサンプリング部
112:無音区間判定部
113:特徴量算出部
114:CM区間判定部
115:特徴量登録部
116:区間登録部
120:ユーザ入力処理部
Claims (7)
- 複数の音声サンプルの集合である音声信号を出力する出力手段と、
前記出力手段から出力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、
前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出する無音区間検出手段と
を備えることを特徴とする音声処理装置。 - 前記無音区間と次の無音区間との間の長さが一定時間長の整数倍である場合に、当該無音区間間の時間区間を通知する通知手段
を更に備えることを特徴とする請求項1記載の音声処理装置。 - 前記出力手段は、前記音声信号の音声サンプルを、元の周波数より低い周波数で再サンプリングした音声信号を出力し、
前記無音区間の検出後に、再サンプリングされた前記音声信号の音声サンプルの内、前記無音区間に後続する1以上の音声サンプルの特徴量を算出する特徴量算出手段と、
前記無音区間と次の無音区間との間の長さが一定時間長の整数倍である場合に、算出された前記特徴量と当該無音区間間の時間長とを対応付けて登録する特徴量登録手段と、
前記特徴量と前記無音区間間の時間長が登録された後、当該登録後に算出された前記特徴量と登録された前記特徴量とが一致する場合に、前記無音区間に後続する音声信号の音声サンプルの内、前記特徴量に対応付けられた時間長の時間区間を通知する第2の通知手段と
を更に備えることを特徴とする請求項2記載の音声処理装置。 - 前記音量判別手段は、前記出力手段から出力された前記音声信号のサンプリング周波数に応じて、前記一定間隔を変化させる
ことを特徴とする請求項1記載の音声処理装置。 - 情報処理装置を、
複数の音声サンプルの集合である音声信号を入力する入力手段と、
入力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、
前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出する無音区間検出手段と
として働かせるためのプログラム。 - 複数の音声サンプルの集合である音声信号を入力するステップと、
入力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別するステップと、
前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出するステップと
を備えることを特徴とする音声処理方法。 - 映像信号と音声信号を含むコンテンツデータのうち、少なくとも音声信号を入力する入力手段と、
入力された前記音声信号のサンプルのうち、一定間隔のサンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、
音量レベルが一定の音量範囲内であると一定回数連続して判別された区間と、次に音量レベルが一定の音量範囲内であると一定回数連続して判別された区間との間隔が一定時間長の整数倍である場合に、前記コンテンツデータを区切る手段と
を備えることを特徴とする録画装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009228931A JP2011075935A (ja) | 2009-09-30 | 2009-09-30 | 音声処理装置、プログラム、音声処理方法および録画装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009228931A JP2011075935A (ja) | 2009-09-30 | 2009-09-30 | 音声処理装置、プログラム、音声処理方法および録画装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011075935A true JP2011075935A (ja) | 2011-04-14 |
Family
ID=44019974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009228931A Pending JP2011075935A (ja) | 2009-09-30 | 2009-09-30 | 音声処理装置、プログラム、音声処理方法および録画装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011075935A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2642408A1 (en) | 2012-03-22 | 2013-09-25 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
JP2021533405A (ja) * | 2018-07-30 | 2021-12-02 | スーズ,インコーポレイテッド | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
-
2009
- 2009-09-30 JP JP2009228931A patent/JP2011075935A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2642408A1 (en) | 2012-03-22 | 2013-09-25 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
JP2021533405A (ja) * | 2018-07-30 | 2021-12-02 | スーズ,インコーポレイテッド | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
JP7541972B2 (ja) | 2018-07-30 | 2024-08-29 | スタッツ エルエルシー | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4899416B2 (ja) | ネットワーク接続装置 | |
JP4644108B2 (ja) | 移動通信端末機、移動通信端末機の動画検索装置及び動画像検索方法 | |
JP4660275B2 (ja) | 音響信号に対する情報の埋め込み装置および方法 | |
JP4839775B2 (ja) | 音響信号に対する情報の埋め込み装置、方法、プログラム | |
CN101809999B (zh) | 声音信号控制装置 | |
CN100379291C (zh) | 用于对广播/备用内容编码/解码的装置和方法 | |
JP4629495B2 (ja) | 音響信号に対する情報の埋め込み装置および方法 | |
JP2011170282A (ja) | 再生装置および再生方法 | |
JP4770194B2 (ja) | 音響信号に対する情報の埋め込み装置および方法 | |
JP2011075935A (ja) | 音声処理装置、プログラム、音声処理方法および録画装置 | |
US8176507B2 (en) | Advertisement-section detecting apparatus and advertisement-section detecting program | |
JP2006195061A (ja) | 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置および音響信号再生装置 | |
JP2010074823A (ja) | 録画編集装置 | |
JP4713180B2 (ja) | 音響信号からの情報の抽出装置 | |
JP5242826B1 (ja) | 情報処理装置及び情報処理方法 | |
US20040267985A1 (en) | Information processor, method therefor, program therefor, recording medium storing the program and reproducing device | |
JP4713181B2 (ja) | 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置、および音響信号再生装置 | |
KR20130137824A (ko) | 단말기의 볼륨조절 장치 및 방법 | |
JP2008089755A (ja) | 文字データ再生装置 | |
JP2008053991A (ja) | デジタル放送受信装置 | |
JP4799484B2 (ja) | コマーシャル判別装置、方法及びプログラム並びにデジタル放送記録装置、方法及びプログラム | |
US20080130760A1 (en) | Decoder device, receiver device, and medium reproduction device | |
JP2011085643A (ja) | デコーダ、情報処理装置及び音声圧縮フォーマット判定方法 | |
Modegi | Construction of ubiquitous acoustic spaces using audio watermark technology and mobile terminals | |
JP2009021762A (ja) | コマーシャル判別装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111205 |