JP2011075935A

JP2011075935A - 音声処理装置、プログラム、音声処理方法および録画装置

Info

Publication number: JP2011075935A
Application number: JP2009228931A
Authority: JP
Inventors: Takeshi Tateno; 剛舘野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-09-30
Filing date: 2009-09-30
Publication date: 2011-04-14

Abstract

【課題】音声データ中の無音区間の検出処理に係る演算数を減らすことができる音声処理装置、プログラム、音声処理方法および録画装置を提供する。
【解決手段】デジタルテレビ録画再生装置は、複数の音声サンプルの集合である音声信号を出力し、出力された音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別し、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された区間を無音区間として検出する。
【選択図】図２

Description

本発明は、デジタル音声を処理する音声処理装置、プログラム、音声処理方法および録画装置に関する。

デジタルテレビ放送や携帯電話通信等の音声データ中には、音声が非常に小さい無音区間が存在し、この無音区間の検出に基づいた様々な技術が存在する。例えばテレビ番組のＣＭ区間の前後には数百ミリ秒程度の無音区間があり、この無音区間を検出することでＣＭ区間の判別が可能である。また携帯電話通信では、無音区間を検出したのち該区間をゼロマスクすることにより、送信エネルギーやデータ転送帯域を節約できる。

ここで、音声データ中の無音区間を検出する手法としては、例えば音声信号のパワー値と閾値とを比較して閾値以下のパワー値を持つ区間を無音区間と判定する手法がある（例えば、特許文献１）。特許文献１には、音声信号をブロック化して１フレームのパワーを検出し、連続したｍフレームの平均パワーを出力し、有音／無音区間を判定するために平均パワー値と閾値を比較し結果を出力する装置が開示されている。

特開平７−２８４８６号公報

近年、デジタルテレビ等の情報処理装置の多機能化に伴い、演算装置に対する処理負荷が増大している。そこで、演算装置に対して低負荷な無音区間検出が望まれている。しかしながら特許文献１記載の技術は、無音区間の検出に際して１フレームのパワーを検出した後に連続したｍフレームの平均パワーを算出する必要があるため、演算数が多くなる可能性がある。

そこで本発明では、音声データ中の無音区間の検出処理に係る演算数を減らすことができる音声処理装置、プログラム、音声処理方法および録画装置の提供を目的とする。

上記の課題を解決するために、本発明の音声処理装置は、複数の音声サンプルの集合である音声信号を出力する出力手段と、前記出力手段から出力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出する無音区間検出手段とを備えることを特徴とする。

また、本発明のプログラムは、情報処理装置を、複数の音声サンプルの集合である音声信号を入力する入力手段と、入力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出する無音区間検出手段として働かせる。

また、本発明の音声処理方法は、複数の音声サンプルの集合である音声信号を入力するステップと、入力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別するステップと、前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出するステップとを備えることを特徴とする。

また、本発明の録画装置は、映像信号と音声信号を含むコンテンツデータのうち、少なくとも音声信号を入力する入力手段と、入力された前記音声信号のサンプルのうち、一定間隔のサンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、音量レベルが一定の音量範囲内であると一定回数連続して判別された区間と、次に音量レベルが一定の音量範囲内であると一定回数連続して判別された区間との間隔が一定時間長の整数倍である場合に、前記コンテンツデータを区切る手段とを備えることを特徴とする。

本発明の音声処理装置、プログラム、音声処理方法および録画装置によれば、音声データ中の無音区間の検出処理に係る演算数を減らすことができる。

本発明の第１の実施形態に係る音声処理装置の構成を示す図。本発明の第１の実施形態に係る無音区間検出処理の処理手順を示すフローチャート。本発明の第１の実施形態に係る、音声信号のサンプリング周波数と、音量判定対象となるサンプルのサンプル間隔との対応関係を示す図。本発明の第１の実施形態に係る、音声信号サンプルに対する音声処理装置の処理動作を示す図。本発明の第１の実施形態に係るＣＭ区間登録処理の処理手順を示すフローチャート。本発明の第１の実施形態に係る、音声信号中の無音区間に対する音声処理装置の処理動作を示す図。本発明の第２の実施形態に係る、音声信号サンプルに対する音声処理装置の処理動作を示す図。

以下、図面を参照して、本発明の実施形態を説明する。
（第１実施形態）
まず、図１を参照して、本発明の第１実施形態に係る音声処理装置のシステム構成を説明する。この音声処理装置は、例えばデジタルテレビ録画再生装置１０として実現されている。本デジタルテレビ録画再生装置１０は、テレビ放送の番組内に挿入されるＣＭの前後に存在する数百ミリ秒の無音区間を検出することで、ＣＭ区間の位置を検出することができる。

本デジタルテレビ録画再生装置１０は、受信部１０１、ＴＳ分離部１０２、ＣＡＳ制御部１０３、Ｂ−ＣＡＳカード１０４、デスクランブラ部１０５、録画再生制御部１０６、映像記録部１０７、音声／画像分離部１０８、音声デコード部１０９、音声出力部１１０、リサンプリング部１１１、無音区間判定部１１２、特徴量検出部１１３、ＣＭ区間判定部１１４、特徴量登録部１１５、区間登録部１１６、ユーザ入力処理部１２０等を備えている。

受信部１０１は、テレビ放送波受信アンテナ（非図示）と接続され、テレビ放送を受信する。アンテナで受信されたテレビ放送波の信号が受信部１０１に入力されると、受信部１０１は入力されたテレビ放送信号を復調し、ＴＳ分離部１０２へ出力する。

ＴＳ分離部１０２は、受信部１０１から入力された放送信号のＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）を、符号化された音声データや画像データであるＥＳ（ＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ）や、暗号化情報であるＥＣＭ（ＥｎｔｉｔｉｌｅｍｅｎｔＣｏｎｔｒｏｌＭｅｓｓａｇｅ）等に分離する。そしてＴＳ分離部１０２は、ＥＳをデスクランブラ部１０５に、ＥＣＭをＣＡＳ制御部１０３に出力する。

ＣＡＳ制御部１０３は、ＴＳ分離部１０２から出力された暗号化情報ＥＣＭを入力する。そしてＣＡＳ制御部１０３は、ＣＡＳカード１０４に記憶されている放送事業者毎に設定されるワーク鍵（Ｋｗ）を用いてＥＣＭの暗号を復号し、ＥＣＭ内のその番組に関する属性情報とＢ−ＣＡＳカード１０４に記憶されている契約情報とを比較して、視聴可否の判定を行う。そしてＣＡＳ制御部１０３は、視聴可能である場合にスクランブル鍵（Ｋｓ）を復号してデスクランブラ部１０５に出力する。

デスクランブラ部１０５は、ＴＳ分離部１０２から入力された、音声データや画像データであるＥＳのスクランブル処理を解除する。デスクランブラ部１０５は、ＣＡＳ制御部１０３から入力した前記スクランブル鍵（Ｋｓ）を用いて音声データや画像データのスクランブル処理を解除し、スクランブル解除した音声データや画像データを録画再生制御部１０６に出力する。

録画再生制御部１０６は、録画処理および再生処理を制御する。録画処理において録画再生制御部１０６は、音声データや画像データをコンテンツごとの一つのＴＳに纏めて記録媒体部１０７に記録するとともに、音声／画像分離部１０８にコンテンツのＴＳを出力する。また録画処理において録画再生制御部１０６は、後述する区間登録部１１６から入力された区切り情報と動画コンテンツ等とを対応付けて記録部１０７に記録することができる。あるいは、該区切り情報に基づいて、動画コンテンツ等の特定時間区間をカットして記録することも可能である。

また、録画再生制御部１０６は、映像記録部１０７に記録されたコンテンツの再生処理を制御する。そのとき録画再生制御部１０６は、映像記録部１０７からコンテンツのＴＳをロードして、該ＴＳを音声／画像分離部１０８に出力する。

音声／画像分離部１０８は、録画再生制御部から出力されたＴＳから、音声信号と画像信号を分離する。そして音声／画像分離部１０８は、分離した音声信号を音声デコード部１０９に、画像信号を画像デコード部（非図示）に出力する。

音声デコード部１０９は、音声／画像分離部１０８から出力された音声信号をデコードする。ここで音声信号は、例えばＰＣＭ等のフォーマットにデコードされる。そしてデコード部１０９は、録画処理においては、デコードした音声信号をリサンプリング部１１１に出力し、再生処理においては、デコードした音声信号を音声出力部１１０に出力する。

リサンプリング部１１１は、デコード部１０９から入力された音声信号のサンプリング周波数を変換する再サンプリング処理を行う。例えば、デジタル放送における音声信号のサンプリング周波数は４８ＫＨｚであるが、リサンプリング部１１１はこの音声信号を更に低い周波数にて再サンプリングして、例えばサンプリング周波数が１２ＫＨｚの音声信号に変換する。

ここで、再サンプリングの際には、リサンプリング部１１１は、再サンプリング前の音声サンプルから一定の周波数以上の音声成分を削る処理を行ったのち、再サンプリング処理を行う。このとき、再サンプリング処理の方法については、公知の技術を利用できる。そしてリサンプリング部１１１は、再サンプリングされた音声信号を無音区間判定部１１２および特徴量算出部１１３に出力する。

無音区間判定部１１２は、入力した音声信号の音声サンプルのうち、一定間隔の音声サンプルに対して音量レベルが所定の範囲内か否かを判別し、音量レベルが所定の範囲内であると一定回数連続して判別された区間を無音区間として検出する。そして無音区間判定部１１２は、無音区間を検出すると、特徴量算出部１１３およびＣＭ区間判定部１１４に無音区間検出を通知する。

特徴量算出部１１３は、無音区間判定部１１２から無音区間検出通知を受け取った後、音声信号の音声サンプルのうち、連続する所定数の音声サンプルに対して特徴量を算出する。ここで、特徴量算出部１１３は、無音区間判定部１１２から無音区間検出通知を受け取った所定時間後、例えば該通知の１秒後に特徴量を算出する。

尚、特徴量算出部１１３は、ＣＭ区間における音声信号サンプルの特徴量を算出することを目的としている。一般的に、ＣＭ区間の長さは１５秒以上である。つまり、特徴量を算出するタイミングは、無音区間検出通知を受け取った後、０秒以上１５秒未満であれば良い。また、同一ＣＭ区間内において特徴量の算出を複数回行ってもよい。そして特徴量算出部１１１は、算出した特徴量のデータをＣＭ区間判定部１１４に出力する。

ＣＭ区間判定部１１４は、無音区間判定部１１２から出力された無音区間検出通知に基づいて、音声信号中におけるＣＭ区間を判定する。テレビ放送中に挿入されるＣＭの前後に数百ミリ秒の無音区間が存在し、またＣＭ区間の時間長は、１５、３０秒、４５秒、６０秒等の１５秒の整数倍となっている。

そこでＣＭ区間判定部１１４は、入力される無音区間検出通知と、次に入力される無音区間検出通知との時間間隔が１５秒の整数倍である場合、該無音区間検出通知の間に相当する区間をＣＭ区間であると判定する。なお、ここでＣＭ区間と判定される時間間隔は、厳密に１５秒の整数倍でなくても、数百ミリ秒程度の誤差を含んでいても良い。

また、ＣＭ区間判定部１１４は、特徴量算出部１１３において算出された特徴量を入力する。この時、ＣＭ区間判定部１１４は、ある区間がＣＭ区間であると判定された場合、該区間内の音声サンプルに対して算出された特徴量と、該区間の時間長とを対応付けて特徴量登録部１１４に出力する。

また、ＣＭ区間判定部１１４は、特徴量算出部１１３から特徴量を入力した時に、該特徴量と特徴量登録部１１５に登録された特徴量とが一致するか否かを判別する。なお、ここでの一致とは、厳密な一致ではなく所定の誤差を許容するものであってもよい。特徴量算出部１１３から入力した特徴量と、特徴量登録部１１４に登録された特徴量とが一致する場合、ＣＭ区間判定部１１４は、登録された特徴量に対応付けられたＣＭ区間の時間長を参照し、該時間長に対応する区間をＣＭ区間として検出する。そしてＣＭ判定部１１４は、ＣＭ区間検出通知を区間登録部１１６に出力する。

特徴量登録部１１５は、ＣＭ区間判定部から出力された、ＣＭ区間内の音声サンプルに対して算出された特徴量と、該ＣＭ区間の時間長とを対応付けて登録する。そして特徴量登録部１１５は、ＣＭ区間が検出される都度、該ＣＭ区間の音声サンプルに対して算出された特徴量と該ＣＭ区間の時間長とを対応付けて登録する。

区間登録部１１６は、ＣＭ区間判定部１１４から入力されたＣＭ区間検出通知に基づいて、音声信号中におけるＣＭ区間の区切り情報を生成／登録する。ここで、音声信号に対して区切り情報を生成する際、区間登録部１１６は、ＣＭ区間検出通知を入力した時間に基づいて音声信号中におけるＣＭ区間の位置を決定して区切り情報を生成してもよいし、該ＣＭ区間検出通知にＣＭ区間内の音声サンプルのサンプル番号やフレーム番号等の位置情報等を付加させて、該位置情報に基づいて区切り情報を生成してもよい。そして区間登録部１１６は、生成した区切り情報を録画再生制御部１０６に出力する。

次に、図２を参照して、無音区間検出に係る処理動作のフローを説明する。まず無音区間判定部１１２は１フレーム分の音声サンプルを読み込む（Ｓ２０１）。フレームとは、音声信号の音声サンプルを複数個まとめたものであり、例えば１０００個の音声サンプルが１フレームにまとめられて無音区間判定部１１２に読み込まれる。

続いて無音区間判定部１１２は、読み込んだ音声サンプルのうち１番目の音声サンプルに対して、音量レベルが所定の範囲内であるか否かを判別する旨を無音区間判定部１１２へ指示する（Ｓ２０２）。そして無音区間判定部１１２は、指示された音声サンプルに対して、音量レベルが所定の範囲内であるか否かを判別する（Ｓ２０３）。ここで、音声サンプルの音量レベルが所定の範囲内である場合（Ｓ２０３のＹｅｓ）、無音区間判定部１１２は、連続無音判定回数に１回を加える（Ｓ２０４）。

そして無音区間判定部１１２は、連続無音判定回数がｍ回（ｍは１以上の整数）であるか否かを判別し（Ｓ２０５）、連続無音判定回数がｍ回でない場合（Ｓ２０５のＮｏ）、Ｓ２０３において直近に音量レベルを判定した音声サンプルのサンプル番号にｋを加えた番号の音声サンプルに対して音量レベルを判定する旨を指示する（Ｓ２０６）。ここでｋとは、音量を判定する対象となる音声サンプル同士の間隔であり、２以上の整数である。ｋの詳細については、図３を参照して後述する。

このように、読み込んだ音声信号のサンプルに対して音量レベルを判定する際、一定間隔のサンプルを判定の対象とすることで、該判定処理に係る演算数を減らすことができる。

そして、Ｓ２０１にて読み込んだ音声サンプルのうち音量レベルが所定の範囲内か否かが判別されていない音声サンプルがある場合（Ｓ２０７のＮｏ）、無音区間判定部１１２は再びＳ２０３の処理を行う。

ここで、無音区間検出に係る処理フローにおいて、音量レベルか所定範囲内である音声サンプルが連続する場合、無音区間判定部１１２はＳ２０３〜Ｓ２０７の処理を繰り返し、連続無音判定回数がｍ回になった場合に（Ｓ２０５のＹｅｓ）、無音区間検出通知をＣＭ区間判定部１１４および特徴量算出部１１３に出力する（Ｓ２０９）。そして無音区間判定部１１２は、連続無音判定回数を０回に設定し（Ｓ２１０）、Ｓ２０６の処理を行う。

一方Ｓ２０３において、音声サンプルの音量レベルが所定の範囲内でない場合（Ｓ２０３のＮｏ）、無音区間判定部１１２は、連続無音判定回数を０回に設定し（Ｓ２０４）、Ｓ２０６の処理を行う。

そして、読み込んだ１フレーム分の全ての音声サンプルに対して音量レベル判定が終了した場合（Ｓ２０７のＹｅｓ）、無音区間判定部１１２は全フレームの処理が完了したか否かを判別する（Ｓ２１１）。音量レベルを判定していないフレームが残っている場合（Ｓ２１１のＮｏ）、無音区間判定部１１２はＳ２０１の処理を行い、新たなフレームを読み込む。一方、全フレームの処理が完了した場合（Ｓ２１１のＹｅｓ）、無音区間検出に係る処理フローは終了する。

図３は、無音区間判定を行う音声信号のサンプリング周波数と、無音区間判定部１１２が音量レベルを判定する対象となる音声サンプルのサンプル間隔との関係を示すグラフである。ここで、例えばサンプリング周波数が１２ＫＨｚである場合、ｋは２である。つまり、サンプリング周波数が１２ＫＨｚの音声サンプルに対して音量レベルを判定する場合は、１個おきの音声サンプルに対して音量レベルを判定すればよい。また同様に、サンプリング周波数が４８ＫＨｚの音声サンプルに対して音量レベルを判定する場合には、８音声サンプルのうちの１音声サンプルに対して音量を判定すればよい。

一方、図３のグラフが示す音声サンプル間隔よりも大きな間隔にて音声サンプルの音量の判定を行うと、音量を判定されない音声サンプルの数が多くなり、無音区間の誤検出が発生する可能性がある。しかし、このように、音声信号のサンプリング周波数に応じたサンプル間隔にて、無音区間検出に係る処理を行うことで、無音区間の誤検出を防ぎつつ演算数を減らすことができる。

次に図４を参照して、入力した音声信号サンプルに対する無音区間判定部１１２の処理動作について説明する。
図４は、音声信号サンプルの音量レベル／時間の波形と、該音声信号サンプルに対する無音区間判定部１１２の処理動作を示す図である。横軸が時間、縦軸が音量レベルである。また、斜線で塗られた棒が音量を判定される音声サンプルを、黒枠のみの棒が音量を判定されない音声サンプルを示している。ここで例えば、無音と判定する音量レベルの範囲を−４０から４０、音量レベルを判定するサンプル間隔であるｋを２、無音区間と判定する連続無音判定回数であるｍ＝２４００回であるとする。

このとき無音区間判定部１１２は、Ａ１で示される音声サンプルを無音であると判定する。しかしサンプルＡ１の次に音量レベルが判定されるサンプルＡ２は、無音と判定される範囲外の音量レベルであるため、連続無音判定回数は０回に設定される。同様に無音区間判定部１１２は、サンプルＡ３およびサンプルＡ４の音声サンプルを無音と判定するが、サンプルＡ５の音声サンプルの音量レベルが所定範囲の外にあるため、連続無音判定回数を０回に設定する。

続いて無音区間判定部１１２は、サンプルＡ６を無音であると判定する。そして、サンプルＡ６に後続する音声サンプルも音量レベルが所定範囲内であるため、無音区間判定部１１２は連続無音判定回数を加算していく。そして、音量レベルが所定の範囲内であると判定される音声サンプルの回数が２４００回連続すると、無音区間判定部１１２は該区間を無音区間として検出し、無音区間検出通知を特徴量検出部１１３およびＣＭ区間判定部１１４に出力する。

図５は、本実施例におけるＣＭ区間登録に係る処理のフローチャートである。
この処理では、無音区間判定部１１２が無音区間検出通知を出力すると（Ｓ５０１のＹｅｓ）、特徴量算出部１１３およびＣＭ区間判定部１１４は無音区間検出通知を受け取る。そして特徴量算出部１１３は、無音区間検出通知を受け取った後、例えば１秒後に所定数の音声サンプルの特徴量を算出し、算出した特徴量をＣＭ区間判定部１１４に出力する（Ｓ５０２）。このとき、特徴量を算出するタイミングは、無音区間検出通知の後、ＣＭの長さである０秒以上１５秒未満であればよい。また、特徴量の算出を無音区間検出通知の後に複数回行ってもよい。

続いてＣＭ区間判定部１１４は、特徴量算出部１１３から入力された特徴量と、特徴量登録部１１４に登録された特徴量とが一致するか否か判別する（Ｓ５０３）。Ｓ５０３〜Ｓ５０５における処理動作の詳細は後述する。

特徴量算出部１１３から入力された特徴量と登録された特徴量とが一致しない場合（Ｓ５０３のＮｏ）、ＣＭ区間判定部１１４は、Ｓ５０１にて受け取った無音区間検出通知と、次に受け取った無音区間検出通知との時間間隔が、１５秒の倍数であるか否かを判別する（Ｓ５０５）。一般的に、テレビ放送の番組内に挿入されるＣＭの時間長は１５秒の倍数に設定されており、それゆえ、無音区間と次の無音区間の時間間隔が１５秒の倍数であれば、該無音区間間をＣＭ区間であると判別することができる。

このように、無音区間と次の無音区間との時間間隔に応じて、該無音区間間がＣＭ区間であるか否か判別することにより、複雑な処理を行うことなくＣＭ区間を検出することが可能となる。

無音区間間の時間間隔が１５秒の倍数である場合（Ｓ５０５のＹｅｓ）、ＣＭ区間判定部１１４は、Ｓ５０２にて特徴量算出手段１１２から入力された特徴量を、ＣＭ区間における特徴量として特徴量登録部１１４に登録するとともに、該特徴量と該無音区間間の時間長を対応付ける（Ｓ５０６）。一方、無音区間間の時間間隔が１５秒の倍数で無い場合（Ｓ５０５のＮｏ）、ＣＭ区間判定部１１４は該無音区間間をＣＭ区間でないと判定し、Ｓ５０８の処理を行う。

ここで無音区間間の時間間隔を算出する手法としては、ＣＭ区間判定部１１４に入力される無音区間検出通知の入力時間の差から算出する方法や、あるいは無音区間の検出通知に、該無音区間内の音声サンプルのサンプル番号やフレーム番号等の情報を付加し、これらの情報に基づいて２つの無音区間検出通知の時間間隔を算出する方法などが挙げられる。

そしてＣＭ区間判定部１１４は、区間登録部１１６に対してＣＭ区間検出を通知し、区間登録部１１６は、該通知に基づいて、音声信号中におけるＣＭ区間を示す区切り情報を生成／登録する（Ｓ５０７）。

ここでＳ５０３〜Ｓ５０５の処理動作について説明する。ＣＭ区間判定部１１４は、Ｓ５０３において特徴量算出部１１３から入力された特徴量と、特徴量登録部１１４に登録された特徴量とが一致するか否かを判別する。特徴量登録部１１４は、ＣＭ区間の音声サンプルに対して算出された特徴量を登録している。そこで、登録された特徴量と特徴量算出部１１３から入力された特徴量とが一致する場合（Ｓ５０３のＹｅｓ）、ＣＭ区間判定部１１４は、該登録された特徴量に対応付けられたＣＭ区間の時間長を参照し（Ｓ５０４）、参照された時間長に対応する区間をＣＭ区間として検出する（Ｓ５０５）。

このように特徴量算出部１１２は、無音区間検出通知を入力した場合に特徴量を算出すればよいため、不要な特徴量算出の処理を省くことができる。また、算出した特徴量と登録された特徴量とが一致するか否かによってＣＭ区間の判定を行うことにより、例えばＣＭ区間の途中で録画が中断された場合等であっても、特徴量に基づいてＣＭ区間を検出することができる。

次にＣＭ区間判定部１１４は、区間登録部１１６に対してＣＭ区間検出通知を出力し、区間登録部１１６は、該通知に基づいて区切り情報を生成／登録する（Ｓ５０７）。

そして全ての音声データに対する処理が完了すると（Ｓ５０８のＹｅｓ）、ＣＭ区間登録に係る処理フローは終了する。
続いて、図６を参照して、本実施形態においてテレビジョン録画再生装置がＣＭ区間を判定する過程を説明する。図６は、複数の無音区間が存在するテレビ放送の時間区間に対するＣＭ区間検出処理動作を示す図である。

無音区間判定部１１２が無音区間検出通知Ｂ１を特徴量算出部１１３とＣＭ区間判定部１１４に出力すると、特徴量算出部１１３は無音区間通知Ｂ１を入力した後、所定時間後に音声サンプルの特徴量Ｃ１を算出する。続いて無音区間検出部１１２が無音区間検出通知Ｂ２を出力すると、ＣＭ区間判定部１１４は無音区間検出通知Ｂ１とＢ２との時間間隔が１５秒の倍数であるか否かを判別する。

このとき、Ｂ１とＢ２の間隔は１５秒であるため、ＣＭ区間判定部１１４は区間２をＣＭ区間として検出する。区間２がＣＭ区間として検出されると、特徴量登録部１１４は、区間２の音声サンプルに対して算出された特徴量Ｃ１を登録するとともに、区間２の時間長と特徴量Ｃ１とを対応付ける。

続いて無音区間検出通知Ｂ３が出力されると、ＣＭ区間判定部１１４は、無音区間検出通知Ｂ２とＢ３との時間間隔を算出する。このとき、Ｂ２とＢ３の時間間隔は１５秒の倍数でないため、ＣＭ区間判定部１１４は区間３をＣＭ区間でないと判別する。また、無音区間判定部１１２が無音区間検出通知Ｂ３を出力すると、続いて特徴量検出部は特徴量Ｃ３を算出する。

そしてＣＭ区間判定部１１４は、特徴量登録部１１４に登録された特徴量と、特徴量Ｃ３とが一致するか否かを判別する。このとき、例えば特徴量Ｃ３が、登録された特徴量Ｃ１と一致する場合、ＣＭ区間判定部１１４は、特徴量Ｃ１に対応付けられた時間長を参照し、無音区間検出通知Ｂ３を開始点として、該時間長に対応する区間をＣＭ区間として検出する。なお、ここでＣＭ区間を検出する際、厳密に無音区間検出通知をＣＭ区間の開始点とするのではなく、該無音区間検出通知の前後に数百ミリ秒程度の誤差を含んでいてもよい。そしてＣＭ判定部１１４は、ＣＭ区間として判定した区間の時間位置情報等を区間登録部１１６に出力する。

本実施例によれば、デジタルテレビ録画再生装置１０は、読み込んだ音声信号のサンプルに対して音量レベルを判定する際に、一定間隔のサンプルを判定の対象とすることで、該判定処理に係る演算数を減らすことができる。また、音声信号のサンプリング周波数に応じたサンプル間隔にて無音区間検出に係る処理を行うことで、無音区間の誤検出を防ぎつつ演算数を減らすこともできる。さらにデジタルテレビ録画再生装置１０は、無音区間と次の無音区間との時間間隔に応じてＣＭ区間を検出することができ、複雑な処理なしにＣＭ区間を検出することが可能である。

（第２実施形態）
図７を参照して、第２実施形態の無音区間検出処理に係る動作処理について説明する。第１実施例においては、音声サンプルの音量レベルが所定範囲内であるとｍ回連続して判定される区間を無音区間であると判定していたが、本実施形態では、音量が所定範囲内であるとｍ回以上連続して判別される該区間を無音区間と判定して無音区間検出通知を出力する。

本実施形態の無音区間検出に係る処理フローにおいて、無音区間判定部１１２は、１フレーム分の音声サンプルを読み込み（Ｓ７０１）、読み込んだ音声サンプルのうち、１番目の音声サンプルの判定を指示する（Ｓ７０２）。そして１番目の音声サンプルに対して、音声サンプルの音量レベルが所定の範囲内か否かを判別する（Ｓ７０３）。このとき、音量レベルが所定の範囲内である場合、無音区間判定部１１２は、連続無音判定回数にｋ回を加え（Ｓ７０４）、直近に音量判定を行った音声サンプルの音声サンプル番号にｋを加えた番号の音声サンプルの音量判定を指示する（Ｓ７０５）。

そして、読み込んだフレームの音声サンプルのうち、音量レベルを判定していない音声サンプルがある場合（Ｓ７０６のＮｏ）、無音区間判定部１１２は、再びＳ７０３の処理を行う。このとき、判定を行った音声サンプルの音量レベルが所定の範囲内でない場合（Ｓ７０３のＮｏ）、続いて無音区間判定部１１２は連続無音判定回数がｍ回未満であるか否かを判定する（Ｓ７０７）。連続無音判定回数がｍ回未満である場合（Ｓ７０７のＹｅｓ）、無音区間判定部１１２は連続無音判定回数を０に設定し、Ｓ７０５の処理を行う。一方、連続無音判定回数がｍ回以上である場合（Ｓ７０７のＮｏ）、無音区間判定部１１２は、無音区間検出を通知し（Ｓ７０９）、連続無音判定回数を０回に設定し（Ｓ７１０）、Ｓ７０５の処理を行う。ここで、無音区間検出通知は、無音区間検出時の連続無音判定回数を含むものであっても良い。これにより、無音区間検出通知を元に無音区間の時間長を算出することができる。

そして、無音区間検出に係る処理フローは、読み込んだフレームの全て音声サンプルに対して音量レベルを判定し（Ｓ７０６のＹｅｓ）、全てのフレームの処理が完了した場合（Ｓ７１１のＹｅｓ）に終了する。

この第２の実施例に拠れば、デジタルテレビ録画再生装置１０は音声信号中に存在する無音区間を少ない演算量で検出できるだけでなく、無音区間の時間長を検出することができる。そのため、例えばデジタルテレビ放送のＣＭ前後に存在する無音区間の時間長が厳密に設定されている場合、無音区間と無音区間の時間間隔だけでなく、無音区間の時間長をも判断材料として、ＣＭ区間を検出することができ、より精度の高いＣＭ区間の検出が可能となる。

なお、本発明は、上記の実施形態そのままに限定されるものではなく、その要旨を逸脱しない範囲で構成要素を変形して実施することができる。

１０：デジタルテレビ録画再生装置
１０１：受信部
１０２：ＴＳ分離部
１０３：ＣＡＳ制御部
１０４：Ｂ−ＣＡＳカード
１０５：デスクランブラ部
１０６：録画再生制御部
１０７：映像記録部
１０８：音声／画像分離部
１０９：音声デコード部
１１０：音声出力部
１１１：リサンプリング部
１１２：無音区間判定部
１１３：特徴量算出部
１１４：ＣＭ区間判定部
１１５：特徴量登録部
１１６：区間登録部
１２０：ユーザ入力処理部

Claims

複数の音声サンプルの集合である音声信号を出力する出力手段と、
前記出力手段から出力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、
前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出する無音区間検出手段と
を備えることを特徴とする音声処理装置。
前記無音区間と次の無音区間との間の長さが一定時間長の整数倍である場合に、当該無音区間間の時間区間を通知する通知手段
を更に備えることを特徴とする請求項１記載の音声処理装置。
前記出力手段は、前記音声信号の音声サンプルを、元の周波数より低い周波数で再サンプリングした音声信号を出力し、
前記無音区間の検出後に、再サンプリングされた前記音声信号の音声サンプルの内、前記無音区間に後続する１以上の音声サンプルの特徴量を算出する特徴量算出手段と、
前記無音区間と次の無音区間との間の長さが一定時間長の整数倍である場合に、算出された前記特徴量と当該無音区間間の時間長とを対応付けて登録する特徴量登録手段と、
前記特徴量と前記無音区間間の時間長が登録された後、当該登録後に算出された前記特徴量と登録された前記特徴量とが一致する場合に、前記無音区間に後続する音声信号の音声サンプルの内、前記特徴量に対応付けられた時間長の時間区間を通知する第２の通知手段と
を更に備えることを特徴とする請求項２記載の音声処理装置。
前記音量判別手段は、前記出力手段から出力された前記音声信号のサンプリング周波数に応じて、前記一定間隔を変化させる
ことを特徴とする請求項１記載の音声処理装置。
情報処理装置を、
複数の音声サンプルの集合である音声信号を入力する入力手段と、
入力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、
前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出する無音区間検出手段と
として働かせるためのプログラム。
複数の音声サンプルの集合である音声信号を入力するステップと、
入力された前記音声信号の音声サンプルの内、一定間隔の音声サンプルに対して音量レベルが一定の音量範囲内か否かを判別するステップと、
前記音量判別手段により、音量レベルが一定の音量範囲内であると少なくとも一定回数連続して判別された無音区間を検出するステップと
を備えることを特徴とする音声処理方法。
映像信号と音声信号を含むコンテンツデータのうち、少なくとも音声信号を入力する入力手段と、
入力された前記音声信号のサンプルのうち、一定間隔のサンプルに対して音量レベルが一定の音量範囲内か否かを判別する音量判別手段と、
音量レベルが一定の音量範囲内であると一定回数連続して判別された区間と、次に音量レベルが一定の音量範囲内であると一定回数連続して判別された区間との間隔が一定時間長の整数倍である場合に、前記コンテンツデータを区切る手段と
を備えることを特徴とする録画装置。