JP2022017740A - 無音区間検出装置および無音区間検出方法 - Google Patents

無音区間検出装置および無音区間検出方法 Download PDF

Info

Publication number
JP2022017740A
JP2022017740A JP2020120453A JP2020120453A JP2022017740A JP 2022017740 A JP2022017740 A JP 2022017740A JP 2020120453 A JP2020120453 A JP 2020120453A JP 2020120453 A JP2020120453 A JP 2020120453A JP 2022017740 A JP2022017740 A JP 2022017740A
Authority
JP
Japan
Prior art keywords
data
section
unit
silent section
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020120453A
Other languages
English (en)
Other versions
JP7518681B2 (ja
Inventor
康之 冨森
Yasuyuki Tomimori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2020120453A priority Critical patent/JP7518681B2/ja
Publication of JP2022017740A publication Critical patent/JP2022017740A/ja
Application granted granted Critical
Publication of JP7518681B2 publication Critical patent/JP7518681B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出する。【解決手段】無音区間検出装置は、音声データが圧縮された圧縮音声データを取得する取得部と、前記取得部により取得された前記圧縮音声データの所定の時間ごとのデータ量を算出する算出部と、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する検出部と、を備える。【選択図】図1

Description

本発明は、無音区間検出装置および無音区間検出方法に関する。
コンテンツの音声信号の出力に基づいて無音区間を検出するとともに、該無音区間の開始位置あるいは終了位置を検出する映像再生装置が知られている(例えば、特許文献1参照)。
特開2007-265460号公報
従来技術において、映像再生装置は、テレビジョン(テレビ)放送等の圧縮音声データを音声デコーダにより復号した音声信号の無音区間から、コマーシャル(Commercial Message(CM))を検出している。そのため、例えば、映像再生装置に音声デコーダが1つしかなく、当該音声デコーダをテレビ放送以外の別のコンテンツを再生するために使用している場合など、音声デコーダが不足している場合は、復号したテレビ放送の音声信号が得られないため、無音区間を検出することができない。それにより、従来、音声デコーダが不足している場合は、テレビ放送のCMの検出を行うことができないという問題がある。
本発明の一態様は、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することを目的とする。
本発明の一態様に係る無音区間検出装置は、音声データが圧縮された圧縮音声データを取得する取得部と、前記取得部により取得された前記圧縮音声データの所定の時間ごとのデータ量を算出する算出部と、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する検出部と、を備える。
本発明の一態様に係る無音区間検出装置は、音声データが圧縮された圧縮音声データを取得する取得部と、前記取得部により取得された前記圧縮音声データから特定パターンのデータを除去する除去部と、前記特定パターンのデータが除去された前記圧縮音声データの所定の時間ごとのデータ量を算出する算出部と、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する検出部と、を備える。
本発明の一態様に係る無音区間検出装置は、音声データが圧縮された圧縮音声データを含むPESパケットが分割されて格納された複数のTSパケットを取得する取得部と、前記複数のTSパケットのうち前記PESパケットの先頭が含まれるTSパケットを検出する先頭検出部と、前記PESパケットの先頭が含まれるTSパケットに含まれる特定パターンのデータを検出するパディングデータ検出部と、前記パディングデータ検出部による前記特定パターンのデータの検出結果に基づいて、前記音声データの無音区間を検出する検出部と、を備える。
本発明の一態様に係る無音区間検出方法は、音声データが圧縮された圧縮音声データを取得し、前記圧縮音声データの所定の時間ごとのデータ量を算出し、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する、処理を備える。
本発明の一態様に係る無音区間検出方法は、音声データが圧縮された圧縮音声データを取得し、前記圧縮音声データから特定パターンのデータを除去し、前記特定パターンのデータが除去された前記圧縮音声データの所定の時間ごとのデータ量を算出し、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する、処理を備える。
本発明の一態様に係る無音区間検出方法は、音声データが圧縮された圧縮音声データを含むPESパケットが分割されて格納された複数のTSパケットを取得し、前記複数のTSパケットのうち前記PESパケットの先頭が含まれるTSパケットを検出し、前記PESパケットの先頭が含まれるTSパケットに含まれる特定パターンのデータを検出し、前記特定パターンのデータの検出結果に基づいて、前記音声データの無音区間を検出する、処理を備える。
第1の実施の形態に係るCM検出装置の構成図の一例である。 実施の形態に係るCM区間の検出を説明する図である。 第1の実施の形態に係る圧縮音声データのデータ量のグラフの一例である。 第2の実施の形態に係るCM検出装置の構成図の一例である。 第2の実施の形態に係る圧縮音声データのデータ量のグラフの一例である。 第3の実施の形態に係るCM検出装置の構成図の一例である。 第3の実施の形態に係る無音区間検出装置の処理の一例を示す図である。 第4の実施の形態に係るCM検出装置の構成図の一例である。 第5の実施の形態に係るCM検出装置の構成図の一例である。
以下、実施の形態について、図面を参照しつつ説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。
(第1の実施の形態)
図1は、第1の実施の形態に係るCM検出装置の構成図の一例である。
CM検出装置101は、放送受信部111、デスクランブル部121、デマックス部131、無音区間検出装置141、CM区間検出部151、および記憶部161を有する。CM検出装置101は、例えば、テレビ受像機、映像録画装置、またはPC(Personal Computer)等のコンピュータである。
放送受信部111は、アンテナ(不図示)で受信したテレビ放送(例えば、地上デジタルテレビ放送)の信号を復調し、スクランブルされたMPEG-2 TS(Moving Picture Experts Group phase 2 Transport Stream)のTSパケットをデスクランブル部121に出力する。尚、テレビ放送がスクランブル放送でない場合、放送受信部111は、復調により得られたTSパケットをデマックス部131に出力してもよい。また、テレビ放送は、コンテンツの本編の間にCMが挟まれて放送されている。放送受信部111は、例えば、チューナーである。
デスクランブル部121は、スクランブルされたTSパケットのデスクランブル処理を行い、デスクランブルされたTSパケットをデマックス部131に出力する。尚、TSパケットには、テレビ放送の映像データが圧縮符号化された圧縮映像データを含む映像パケット、またはテレビ放送の音声データが圧縮符号化された圧縮音声データを含む音声パケットなどが含まれる。
デマックス部131は、TSパケットを映像パケットと音声パケットに分離し、映像パケットおよび音声パケットを記憶部161に出力し、映像パケットおよび音声パケットを記憶部161に記憶する。さらに、デマックス部131は、音声パケットを無音区間検出装置141に出力する。
無音区間検出装置141は、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。無音区間情報は、例えば、無音区間の開始時間である。また、無音区間情報は、例えば、無音区間の終了時間、または無音区間の開始時間および終了時間であってもよい。尚、無音区間検出装置141の詳細については後述する。
CM区間検出部151は、複数の無音区間それぞれの複数の無音区間情報に基づいて、1以上のCMが連続して存在する区間(CM区間)を検出し、検出したCM区間を示すCM区間情報を記憶部161に記憶する。CM区間情報は、例えば、1以上のCMが連続して存在する区間の開始時間と終了時間である。
記憶部161は、CM検出装置101で利用されるデータやプログラム等を記憶する記憶装置である。記憶部161は、例えば、HDD(Hard Disk Drive)またはフラッシュメモリ等である。記憶部161は、デマックス部131から入力される映像パケットおよび音声パケットを記憶する。また、記憶部161は、1以上のCMが連続して存在する区間を示すCM区間情報を記憶する。
ここで、CM区間の検出について図2を用いて説明する。
図2は、実施の形態に係るCM区間の検出を説明する図である。
図2は、テレビ放送のコンテンツの時間的な構成を示し、コンテンツ本編の間にそれぞれ15秒のCMが3つ放送されている態様を示す。また、図2において、無音区間を示す無音区間情報の時間を黒丸(●)で示す。
通常、テレビ放送のCMでは、CMの開始部分と終了部分それぞれにおいて、0.5秒の音声がない無音区間が存在する。これは、広告会社などからテレビ社にCM素材が搬入される際の留意事項が記載された「テレビCM素材搬入基準」に基づいている。
図2において、本編の間の最初のCMの開始部分と終了部分、2番目のCMの終了部分、および3番目のCMの終了部分で無音区間が検出される。尚、2番目のCMの開始部分は、最初のCMの終了部分と連続しているため、2番目のCMの開始部分に相当する無音区間は、最初のCMの終了部分に相当する無音区間とまとめて検出されている。3番目のCMの開始部分に相当する無音区間についても同様である。
一般的に、1つのCMの長さは、例えば15秒または30秒のように、15秒の所定の整数倍(例えば、1~6倍)となっている。すなわち、一般的に、1つCMの長さは、例えば、15秒、30秒、45秒、60秒、75秒、または90秒となっている。上記の所定の整数は一例であり、90秒よりも長いCMがある場合には、適宜変更してもよい。
CM区間検出部151は、無音区間検出装置141により検出された第1の無音区間と、第1の無音区間に次に検出された第2無音区間との間の時間間隔が15秒の所定の整数倍である所定の秒数(例えば、15秒、30秒、45秒、60秒、75秒、または90秒)となっているか判定し、時間間隔が所定の秒数となっている場合、第1の無音区間と第2の無音区間との間の区間はCMであると判定する。具体的には、例えば、図2において、時間t1の第1の無音区間と時間t2の第2の無音区間との間の区間(第1区間)、時間t2の第2の無音区間と時間t3の第3の無音区間との間の区間(第2区間)、および時間t3の第3の無音区間と時間t4の第4の無音区間との間の区間(第3区間)はそれぞれCMと判定される。
そして、CM区間検出部151は、1以上の連続してCMと判定された区間をCM区間として検出し、CMが放送されている区間であるCM区間を示すCM区間情報を出力し、記憶部161に記憶する。CM区間情報は、例えば、CM区間の最初の無音区間の時間と最後の無音区間の時間である。具体的には、例えば、図2において、連続する第1区間~第3区間はそれぞれCMと判定されているので、CM区間検出部151は、第1区間~第3区間をCM区間として検出し、CM区間を示す時間t1と時間t4をCM区間情報として出力し、記憶部161に記憶する。
次に、無音区間検出装置141の処理の詳細について図1および図3を用いて説明する。
無音区間検出装置141は、圧縮音声データ取得部142、データ量算出部143、および無音区間検出部144を有する。
圧縮音声データ取得部142は、デマックス部131から音声パケットを受信し、音声パケットに含まれる圧縮音声データを取得する。圧縮音声データの形式は、例えば、MPEG-2 AACである。
データ量算出部143は、取得した圧縮音声データの所定時間(例えば、数十ミリ秒~数百ミリ秒)毎の所定時間当たりのデータ量を算出する。所定時間毎の所定時間当たりのデータ量をグラフで示すと、例えば、図3に示すようなグラフが得られる。
図3は、第1の実施の形態に係る圧縮音声データのデータ量のグラフの一例である。図3において、縦軸はデータ量、横軸は圧縮音声データの再生時間を示し、データ量は、所定時間毎の所定時間当たりの圧縮音声データのデータ量である。例えば、地上デジタル放送では、圧縮音声データは、適当な塊に区切られて、PESパケットに格納され、PESパケットは分割されて複数のTSパケットに格納されて送信される。圧縮音声データの再生時間は、例えば、PESパケットに含まれる受信側での再生時刻を示すPTS(Presentation Time Stamp)から得られる。
音声データの圧縮符号化の際に、無音区間は圧縮率が高くなり、圧縮符号化後の無音区間に相当する圧縮音声データはデータ量が小さくなる。無音区間検出部144は、下記のように、データ量に基づいて無音区間を検出する。
無音区間検出部144は、算出した所定時間当たりのデータ量に基づいて、無音区間を検出する。具体的には、例えば、無音区間検出部144は、算出した所定時間当たりのデータ量を閾値と比較し、データ量が閾値以下の区間(時間)を無音として判定し、無音区間として検出する。尚、閾値は、予め定められており、例えば、CM検出装置101のメモリ(不図示)に記憶されている。閾値は、例えば、所定時間が20ミリ秒の場合50バイト、または所定時間が400ミリ秒の場合1000バイト等である。
例えば、図3において、時間t11におけるデータ量(すなわち、時間t11から所定時間後までのデータ量)は、閾値よりも小さいので、時間t11は無音と判定される。同様に、時間t11から所定時間後の次の区間も無音と判定され、さらに所定時間経過後の時間t12の区間も無音と判定され、無音区間として検出される。同様に、図3において、時間t21から時間t22のそれぞれの区間も無音と判定され無音区間として検出される。
無音区間検出部144は、検出した無音区間を示す無音区間情報をCM区間検出部151に出力する。無音区間情報は、例えば、無音区間の開始時間である。また、無音区間が連続する場合は、連続する無音区間の最初の無音区間の時間(時刻)を無音区間情報とする。
例えば、図3において、無音区間検出部144は、時間t11と時間t21を無音区間情報としてCM区間検出部151に出力する。
無音区間検出装置141は、圧縮音声データの所定時間当たりのデータ量から無音区間を算出している。このように無音区間検出装置141は、音声デコーダによる復号後の音声信号を用いることなく、無音区間を算出している。
第1の実施の形態のCM検出装置によれば、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することができ、CM区間を検出することができる。
(第2の実施の形態)
図4は、第2の実施の形態に係るCM検出装置の構成図の一例である。
CM検出装置201は、放送受信部111、デスクランブル部121、デマックス部131、無音区間検出装置241、CM区間検出部151、および記憶部161を有する。CM検出装置201は、例えば、テレビ受像機、映像録画装置、またはPC等のコンピュータである。
放送受信部111、デスクランブル部121、デマックス部131、CM区間検出部151、および記憶部161の機能は、第1の実施の形態で説明したものと同様であるため、説明は省略する。
次に、無音区間検出装置241の処理の詳細について図4および図5を用いて説明する。
無音区間検出装置241は、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。
無音区間検出装置241は、圧縮データ取得部242、パディングデータ除去部243、データ量算出部244、無音区間検出部245を有する。
圧縮音声データ取得部242は、デマックス部131から音声パケットを受信し、音声パケットに含まれる圧縮音声データを取得する。圧縮音声データの形式は、例えば、MPEG-2 AACである。
ここで、パディングデータについて説明する。パディングデータは、意味を持たないデータであり、無意味なことを示す特定のパターンのデータである。音声データを固定ビットレートで圧縮符号化する際に、圧縮された音声データ(圧縮音声データ)のサイズが小さく、圧縮音声データのビットレートが目標ビットレートに満たない場合、ビットレートが目標ビットレートになるように意味を持たないデータ(パディングデータ)が付加される。よって、圧縮音声データ取得部142が取得した圧縮音声データには、パディングデータが含まれている場合がある。
パディングデータ除去部243は、圧縮音声データからパディングデータである特定のパターンを検出し、圧縮音声データからパディングデータを除去する。
データ量算出部244は、パディングデータが除去された圧縮音声データの所定時間(例えば、数十ミリ秒~数百ミリ秒)毎の所定時間当たりのデータ量を算出する。所定時間毎の所定時間当たりのデータ量をグラフで示すと、例えば、図5に示すようなグラフが得られる。
図5は、第2の実施の形態に係る圧縮音声データのデータ量のグラフの一例である。図5において、縦軸はデータ量、横軸は圧縮音声データの再生時間を示し、黒色で示される各データ量は、パディングデータが除去された圧縮音声データの所定時間毎の所定時間当たりのデータ量である。また、図5において、参考として、パディングデータの所定時間毎の所定時間当たりのデータ量を斜線で示す。
無音区間検出部245は、算出した所定時間当たりのデータ量を閾値と比較し、所定時間当たりのデータ量が閾値以下である区間を無音区間と判定し、検出する。尚、閾値は、予め定められており、例えば、CM検出装置101のメモリ(不図示)に記憶されている。閾値は、例えば、所定時間が20ミリ秒の場合50バイト、または所定時間が400ミリ秒の場合1000バイト等である。
例えば、図5において、時間t11におけるパディングデータが除去された圧縮音声データのデータ量(すなわち、時間t11から所定時間後までのデータ量)は、閾値よりも小さいので、時間t11は無音と判定される。同様に、時間t11から所定時間後の次の区間も無音と判定され、さらに所定時間経過後の時間t12の区間も無音と判定され、無音区間として検出される。同様に、図5において、時間t21から時間t22のそれぞれの区間も無音と判定され無音区間として検出される。
無音区間検出部245は、検出した無音区間を示す無音区間情報をCM区間検出部151に出力する。無音区間情報は、例えば、無音区間の開始時間である。また、無音区間が連続する場合は、連続する無音区間の最初の無音区間の時間(時刻)を無音区間情報とする。
例えば、図5において、無音区間検出部245は、時間t11と時間t21を無音区間情報としてCM区間検出部151に出力する。
図5に示すように、音声データが固定ビットレートで圧縮されている場合は、単位時間当たりのパディングデータとパディングデータが除去された圧縮音声データの合計のデータ量は一定となる。
パディングデータを除去しない場合、音声データが固定ビットレートで圧縮符号化されていると、所定時間当たりのデータ量は一定であるため、無音区間を検出することができない。第2の実施の形態の無音区間検出装置241は、パディングデータを除去することで、無音区間のデータ量が小さくなるため、無音区間を検出することができる。
無音区間検出装置241は、パディングデータを除去した圧縮音声データの所定時間当たりのデータ量から無音区間を算出している。このように無音区間検出装置241は、音声デコーダによる復号後の音声信号を用いることなく、無音区間を算出している。
第2の実施の形態のCM検出装置によれば、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することができ、CM区間を検出することができる。また、第2の実施の形態のCM検出装置によれば、固定ビットレートで圧縮符号化されている場合、すなわち圧縮音声データにパディングデータが付加されている場合でも、無音区間を検出することができる。
(第3の実施の形態)
図6は、第3の実施の形態に係るCM検出装置の構成図の一例である。
CM検出装置301は、放送受信部111、デスクランブル部121、デマックス部131、無音区間検出装置341、CM区間検出部151、および記憶部161を有する。CM検出装置301は、例えば、テレビ受像機、映像録画装置、またはPC等のコンピュータである。
放送受信部111、デスクランブル部121、デマックス部131、CM区間検出部151、および記憶部161の機能は、第1の実施の形態で説明したものと同様であるため、説明は省略する。
ここで、地上デジタル放送で用いられているパケットの形式について簡単に説明する。
地上デジタル放送で用いられているMPEG-2 TS(Moving Picture Experts Group phase 2 Transport Stream)の規格におけるTSパケットは、TSパケットヘッダと、ペイロードから構成される。TSパケットヘッダは、当該TSパケットに関する様々な制御情報を含む。ペイロードは、圧縮された映像データや圧縮された音声データを含むPES(Packetized Elementary Stream)パケット、各種サービス情報等を含むセクションデータ、時間情報を含むアダプテーションフィールド等を有する。
圧縮音声データは、適当な塊に区切られて、PESパケットに格納される。そして、PESパケットは分割され、複数のTSパケットに格納される。TSパケットのTSパケットヘッダは、PESパケットの先頭が含まれるか否かを示すペイロードユニットスタートインジケータを含む。PESパケットの先頭が含まれるTSパケットのペイロードユニットスタートインジケータの値は「1」に設定される。
次に、無音区間検出装置341の処理の詳細について図6および図7を用いて説明する。
図7は、第3の実施の形態に係る無音区間検出装置の処理の一例を示す図である。
無音区間検出装置341は、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。
無音区間検出装置341は、圧縮データ取得部342、ユニットスタートインジケータ検出部343、パディングデータ検出部344、無音区間検出部345を有する。
圧縮音声データ取得部342は、デマックス部131から圧縮音声データが含まれるTSパケット(音声パケット)を受信する。それにより、圧縮音声データ取得部342は、圧縮音声データを取得する。圧縮音声データ取得部342は、受信したTSパケットをユニットスタートインジケータ検出部343に出力する。圧縮音声データの形式は、例えば、MPEG-2 AACである。
例えば、図7に示すように、圧縮音声データ取得部342は、TSパケット711~713、721~723を受信し、ユニットスタートインジケータ検出部343に出力する。TSパケット711~713、721~723は、それぞれTSパケットヘッダおよびペイロードとして分割されたPESパケットを含む。TSパケット711~713は、圧縮音声データが格納されたPESパケット#1が分割されたPESパケット#1-1~#1-3をそれぞれ含む。TSパケット721~723は、圧縮音声データが格納されたPESパケット#2が分割されたPESパケット#2-1~#2-3をそれぞれ含む。PESパケット#1-1は、PESパケット#1の先頭を含み、PESパケット#2-1は、PESパケット#2の先頭を含む。よって、TSパケット711,721それぞれのペイロードユニットスタートインジケータの値は「1」である。
ユニットスタートインジケータ検出部(先頭検出部)343は、PESパケットの先頭を含むTSパケットを検出する。具体的には、ユニットスタートインジケータ検出部343は、TSパケットのペイロードユニットスタートインジケータの値が1であるTSパケットを検出する。そして、ユニットスタートインジケータ検出部343は、検出したPESパケットの先頭を含むTSパケットをパディングデータ検出部344に出力する。
例えば、図7に示すように、ユニットスタートインジケータ検出部343は、TSパケット711~713、721~723のうち、PESパケットの先頭を含むTSパケットを検出する。具体的には、TSパケット711~713、721~723のうち、ペイロードユニットスタートインジケータの値が1であるTSパケットを検出する。上述のように、TSパケット711,721それぞれのペイロードユニットスタートインジケータの値は「1」であるので、TSパケット711,721が検出される。
パディングデータ検出部344は、TSパケットに含まれるPESパケットの所定位置(例えば、PESパケットの先頭から50バイトの位置)にパディングデータである特定のパターンがあるか否か検出し、特定のパターンを検出したか否かを示す検出結果を無音区間検出部345に出力する。さらに、パディングデータ検出部344は、特定のパターンを検出した場合、当該特定のパターンを検出したPESパケットの再生時刻(例えば、PESパケットのヘッダに含まれる再生時刻の情報であるPTS(Presentation Time Stamp))を無音区間検出部345に出力する。
例えば、図7は、PESパケット#1-1、#2-1がパディングデータ(特定のパターン)を含んでいる場合を示し、パディングデータ検出部344は、TSパケット711,721に対して特定のパターンを検出したことを示す検出結果とPESパケット#1、#2の再生時刻を無音区間検出部345に出力する。
無音区間検出部345は、パディングデータ検出部344による検出結果に基づいて、無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。具体的には、例えば、無音区間検出部345は、特定のパターンを検出したことを示す検出結果を一定回数連続して受信した場合、無音と判定し、連続した特定のパターンを検出したことを示す検出結果のうちの最初の検出結果に対応するPESパケットの再生時刻から、連続した特定のパターンを検出したことを示す検出結果のうちの最後の検出結果に対応するPESパケットの再生時刻までを無音区間として検出する。
無音区間検出部345は、例えば、連続した特定のパターンを検出したことを示す検出結果のうちの最初の検出結果に対応するPESパケットの再生時刻を無音区間情報として出力する。
現行の地上デジタル放送では、圧縮音声データが格納される音声PESパケットは1パケットのサイズが100~1000バイト程度で、約20ミリ秒に1回の頻度で送出されている。
上述のように音声PESパケットは188バイトのTSパケットに格納されて伝送される。1つのPESパケットは、例えば、1~6個程度のTSパケットに分割される。
無音区間の音声PESパケットでは音声圧縮データは数十バイトであり、残りはパディングデータである。よって、分割されたPESパケットの先頭部分(例えば先頭から50バイトの位置)のパディングデータの有無を検出するだけで無音検出が可能である。例えば、CMの開始部分と終了部分それぞれの無音区間が500ミリ秒とすると、約20回連続でPESパケットのパディングデータが検出される。
第3の実施の形態のCM検出装置によれば、先頭のPESパケットが含まれるTSパケットの指定位置のパディングデータの有無を検出するだけで無音区間を検出できるので、簡易な演算で無音区間を検出でき、無音区間検出装置の負荷が軽減される。
(第4の実施の形態)
次に、2つのチャンネルを同時に録画しながら、当該2つのチャンネルのうちの1つのチャンネルを視聴する第4の実施形態について説明する。
図8は、第4の実施の形態に係るCM検出装置の構成図の一例である。
CM検出装置401は、放送受信部111-i(i=1,2)、デスクランブル部121-i、デマックス部131-i、無音区間検出装置441-i、CM区間検出部151-i、記憶部161、ビデオデコーダ171、および音声デコーダ181を有する。
放送受信部111-i、デスクランブル部121-i、デマックス部131-i、CM区間検出部151-i、および記憶部161のそれぞれの機能は、第1の実施の形態で説明した放送受信部111、デスクランブル部121、デマックス部131は、CM区間検出部151、および記憶部161のそれぞれの機能と同様であるため、説明は省略する。また、放送受信部111-1と放送受信部111-2は、互いに異なるチャンネルのテレビ放送を受信する。例えば、放送受信部111-1は、第1のチャンネルのテレビ放送を受信し、放送受信部111-2は、第2のチャンネルのテレビ放送を受信する。
デマックス部131-1は、さらに映像パケットをビデオデコーダ171に出力し、音声パケットを音声デコーダ181に出力する。
無音区間検出装置441-iは、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151―iに出力する。無音区間検出装置441-iは、例えば、第1~3の実施の形態の無音区間検出装置141、241、341のいずれかと同様の機能および構成を有する。
音声デコーダ171は、音声パケットに含まれる圧縮音声データを復号し、復号された音声データ(音声信号)をスピーカー等の音声出力部(不図示)に出力する。それにより、放送受信部111-1で受信された第1のチャンネルのテレビ放送の音声が出力される。
ビデオデコーダ171は、映像パケットに含まれる圧縮映像データを復号し、復号された映像データ(映像信号)をディスプレイ等の表示装置(不図示)に出力する。それにより、放送受信部111-1で受信された第1のチャンネルのテレビ放送の映像が表示される。
CM検出装置401は、第1のチャンネルのテレビ放送のCM区間を無音区間に基づいて検出しつつ記憶部161に記憶しながら、第1のチャンネルのテレビ放送の映像パケットと音声パケットをビデオデコーダ171および音声デコーダ181でそれぞれ復号し、同時に第2のチャンネルのテレビ放送のCM区間を無音区間に基づいて検出しつつ記憶部161に記憶している。すなわち、ユーザは、2つのチャンネルのテレビ放送を同時に録画しながら、同時に当該2つのチャンネルのうちの1つのチャンネルのテレビ放送を視聴することができる。
第4の実施の形態のCM検出装置によれば、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することができ、CM区間を検出することができる。それにより、音声デコーダが1つしかない場合でも、第1のチャンネルのテレビ放送を音声デコーダを用いて出力しながら、同時に第1のチャンネルのテレビ放送のCM区間を無音区間に基づいて検出しつつ録画し、さらに第2のチャンネルのテレビ放送のCM区間を無音区間に基づいて検出しつつ録画することができる。
(第5の実施の形態)
次に、テレビ放送のCM区間を検出しつつ録画しながら、当該録画しているテレビ放送以外の録画済みのコンテンツを同時に再生視聴する第5の実施形態について説明する。
図9は、第5の実施の形態に係るCM検出装置の構成図の一例である。
CM検出装置501は、放送受信部111、デスクランブル部121、デマックス部131、無音区間検出装置541、CM区間検出部151、記憶部161、ビデオデコーダ171、音声デコーダ181、および再生制御部191を有する。
放送受信部111、デスクランブル部121、デマックス部131、CM区間検出部151、および記憶部161の機能は、第1の実施の形態で説明したものと同様であるため、説明は省略する。ビデオデコーダ171および音声デコーダ181は、第4の実施の形態で説明したものと同様であるため、説明は省略する。
無音区間検出装置541は、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。無音区間検出装置541は、例えば、第1~3の実施の形態の無音区間検出装置141、241、341のいずれかと同様の機能および構成を有する。
再生制御部191は、記憶部191から録画済みのコンテンツ(例えば、以前に録画したテレビ放送の番組)を読み出し、再生する。具体的には、再生制御部191は、記憶部191に記憶(録画)されているコンテンツの映像パケットと音声パケットを読み出し、映像パケットをビデオデコーダ171に出力し、音声パケットを音声デコーダ181に出力する。尚、再生制御部191が読み出すコンテンツは、放送受信部111でテレビ放送を受信中である場合、当該受信中であり記憶部161に録画中のテレビ放送(コンテンツ)とは異なるコンテンツである。
また、再生制御部191は、記憶部191から録画済みのコンテンツに対応付けられたCM区間情報を読み出し、録画済みのコンテンツの再生時に、ユーザの指示または予め設定された再生時の動作設定情報に従って、CM区間情報で示されるCM区間をスキップするように、コンテンツを再生してもよい。
第5の実施の形態のCM検出装置によれば、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することができ、CM区間を検出することができる。それにより、音声デコーダが1つしかない場合でも、録画済みのコンテンツを音声デコーダを用いて再生しながら、同時にテレビ放送のCM区間を無音区間に基づいて検出しつつ録画することができる。
(ソフトウェアによる実現例)
CM検出装置101、201、301、401、501の制御ブロック(特に、デスクランブル部121、デマックス部131、無音区間検出装置141、241、341、441、541、CM区間検出部151、ビデオデコーダ171、音声デコーダ181、および再生制御部191)は、集積回路(IC(Integrated Circuit)チップ)等に形成された論理回路(ハードウェア)によって実現可能であり、またCPU(Central Processing Unit)等のプロセッサを用いてソフトウェアによって実現してもよい。後者の場合、例えば、コンピュータであるCM検出装置101、201、301、401、501は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROMまたは記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM等を備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、デスクランブル部121、デマックス部131、無音区間検出装置141、241、341、441、541、CM区間検出部151、ビデオデコーダ171、音声デコーダ181、および再生制御部191として動作し、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、伝送可能な任意の伝送媒体を介して上記コンピュータに供給されてよい。
なお、本発明は、上述した実施の形態に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。
101,201,301,401,501 CM検出装置
111 放送受信部
121 デスクランブル部
131 デマックス部
141,241,341,441,541 無音区間検出装置
151 CM区間検出部
161 記憶部
171 ビデオデコーダ
181 音声デコーダ
191 再生制御部

Claims (8)

  1. 音声データが圧縮された圧縮音声データを取得する取得部と、
    前記取得部により取得された前記圧縮音声データの所定の時間ごとのデータ量を算出する算出部と、
    前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する検出部と、
    を備える無音区間検出装置。
  2. 音声データが圧縮された圧縮音声データを取得する取得部と、
    前記取得部により取得された前記圧縮音声データから特定パターンのデータを除去する除去部と、
    前記特定パターンのデータが除去された前記圧縮音声データの所定の時間ごとのデータ量を算出する算出部と、
    前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する検出部と、
    を備える無音区間検出装置。
  3. 前記検出部は、前記所定の時間ごとのデータ量のうち、データ量が閾値以下の区間を無音区間として検出する請求項1または2に記載の無音区間検出装置。
  4. 音声データが圧縮された圧縮音声データを含むPESパケットが分割されて格納された複数のTSパケットを取得する取得部と、
    前記複数のTSパケットのうち前記PESパケットの先頭が含まれるTSパケットを検出する先頭検出部と、
    前記PESパケットの先頭が含まれるTSパケットに含まれる特定パターンのデータを検出するパディングデータ検出部と、
    前記パディングデータ検出部による前記特定パターンのデータの検出結果に基づいて、前記音声データの無音区間を検出する無音区間検出部と、
    を備える無音区間検出装置。
  5. 前記圧縮音声データは、コマーシャルを含むテレビジョン放送の圧縮された音声データであり、
    請求項1から4のいずれか1項に記載の無音区間検出装置と、
    前記無音区間検出装置により検出された複数の無音区間の間の時間間隔に基づいて、前記テレビジョン放送の前記コマーシャルの区間を検出するCM区間検出部と、
    を備えるCM検出装置。
  6. 音声データが圧縮された圧縮音声データを取得し、
    前記圧縮音声データの所定の時間ごとのデータ量を算出し、
    前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する、
    処理を備える無音区間検出方法。
  7. 音声データが圧縮された圧縮音声データを取得し、
    前記圧縮音声データから特定パターンのデータを除去し、
    前記特定パターンのデータが除去された前記圧縮音声データの所定の時間ごとのデータ量を算出し、
    前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する、
    処理を備える無音区間検出方法。
  8. 音声データが圧縮された圧縮音声データを含むPESパケットが分割されて格納された複数のTSパケットを取得し、
    前記複数のTSパケットのうち前記PESパケットの先頭が含まれるTSパケットを検出し、
    前記PESパケットの先頭が含まれるTSパケットに含まれる特定パターンのデータを検出し、
    前記特定パターンのデータの検出結果に基づいて、前記音声データの無音区間を検出する、
    処理を備える無音区間検出方法。
JP2020120453A 2020-07-14 2020-07-14 無音区間検出装置および無音区間検出方法 Active JP7518681B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020120453A JP7518681B2 (ja) 2020-07-14 2020-07-14 無音区間検出装置および無音区間検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020120453A JP7518681B2 (ja) 2020-07-14 2020-07-14 無音区間検出装置および無音区間検出方法

Publications (2)

Publication Number Publication Date
JP2022017740A true JP2022017740A (ja) 2022-01-26
JP7518681B2 JP7518681B2 (ja) 2024-07-18

Family

ID=80186163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020120453A Active JP7518681B2 (ja) 2020-07-14 2020-07-14 無音区間検出装置および無音区間検出方法

Country Status (1)

Country Link
JP (1) JP7518681B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116417015A (zh) * 2023-04-03 2023-07-11 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002271391A (ja) 2001-03-08 2002-09-20 Nec Eng Ltd ダイナミック・ジッタ・バッファ制御方法
JPWO2007013407A1 (ja) 2005-07-27 2009-02-05 パナソニック株式会社 ダイジェスト生成装置、ダイジェスト生成方法、ダイジェスト生成プログラムを格納した記録媒体、およびダイジェスト生成装置に用いる集積回路
JP2007282164A (ja) 2006-04-12 2007-10-25 Alpine Electronics Inc 画像送信装置及びその送信方法
JP2010074823A (ja) 2008-08-22 2010-04-02 Panasonic Corp 録画編集装置
JP4861456B2 (ja) 2009-07-15 2012-01-25 富士通株式会社 データレート調整装置、データ配信システム、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116417015A (zh) * 2023-04-03 2023-07-11 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Also Published As

Publication number Publication date
JP7518681B2 (ja) 2024-07-18

Similar Documents

Publication Publication Date Title
JP4226873B2 (ja) デジタル放送プログラムの記録方法,及びデジタル放送受信機
US20120213363A1 (en) Device for and a method of processing a data stream
KR20010007374A (ko) 디지털방송시스템 및 디지털비디오 기록재생장치
JP2005039308A6 (ja) デジタル放送プログラムの記録方法,再生方法,及びデジタル放送受信機
US20050008336A1 (en) Signal recording apparatus and method and signal reproduction apparatus and method
US20110135286A1 (en) Apparatus and method for extracting key frames and apparatus and method for recording broadcast signals using the same
CN100379291C (zh) 用于对广播/备用内容编码/解码的装置和方法
KR101142379B1 (ko) 디지털 방송 재생 방법 및 장치, 디지털 방송 녹화 방법
US20070196077A1 (en) Apparatus and method for synchronizing reproduction time of time-shifted content with reproduction time of real-time content
JP2022017740A (ja) 無音区間検出装置および無音区間検出方法
JP2006309819A (ja) 録画再生装置
US20030081936A1 (en) Device and method for automatic disposal of radio disturbed section in PVR
JP4791422B2 (ja) コマーシャル判別装置、方法及びプログラム
JP2007096896A (ja) 放送記録装置、放送記録再生装置、及び放送記録再生プログラム
JP4763589B2 (ja) 再生装置、および、その再生方法
JPWO2006075457A1 (ja) 記録装置
JP4649900B2 (ja) 番組表示装置
JP2005295576A (ja) 放送受信装置及び放送受信記録装置
JP2002033712A (ja) パケット処理装置及びそのパケット出力方法
JP5016335B2 (ja) 再生装置、および、再生方法
US20080104656A1 (en) Method of storing and reproducing interactive digital broadcast signals and apparatus therefor
JP2004120476A (ja) 記録再生機能付き放送受信装置
JP5191294B2 (ja) 情報処理装置及びプログラム
US8249432B2 (en) Video and audio playback apparatus and video and audio playback method
KR100539731B1 (ko) 전송스트림저장장치및방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240705

R150 Certificate of patent or registration of utility model

Ref document number: 7518681

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150