JP2012182618A - 映像音声処理装置および映像音声処理方法 - Google Patents

映像音声処理装置および映像音声処理方法 Download PDF

Info

Publication number
JP2012182618A
JP2012182618A JP2011043686A JP2011043686A JP2012182618A JP 2012182618 A JP2012182618 A JP 2012182618A JP 2011043686 A JP2011043686 A JP 2011043686A JP 2011043686 A JP2011043686 A JP 2011043686A JP 2012182618 A JP2012182618 A JP 2012182618A
Authority
JP
Japan
Prior art keywords
audio
video
input
signal
stream data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011043686A
Other languages
English (en)
Other versions
JP5741064B2 (ja
Inventor
Daisuke Sato
大介 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011043686A priority Critical patent/JP5741064B2/ja
Publication of JP2012182618A publication Critical patent/JP2012182618A/ja
Application granted granted Critical
Publication of JP5741064B2 publication Critical patent/JP5741064B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

【課題】音声ストリームの符号化遅延を短縮する。
【解決手段】映像音声処理装置は、映像符号化部501、映像ストリームデータ・音声ストリームデータ多重化部502、音声処理部503、を備える。音声処理部503は、入力映像信号に基づいて映像パケットのヘッダーを生成する手段601と、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントする手段602と、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合のフレームの音声サンプルを予測する手段603と、入力音声信号のステータス情報と予測した音声サンプル数に基づいて、音声のデジタル化データのサイズ情報を計算し、計算したサイズ情報を含む音声パケットのヘッダーを生成する手段604と、入力音声信号を音声のデジタル化データに変換する手段605と、を備える。
【選択図】図5

Description

本発明は、映像符号化装置におけるリアルタイムエンコーダーに関し、特に、符号化遅延が1フレーム未満の低遅延符号化装置における非圧縮音声の符号化回路に関する。
映像信号と同期している音声信号では、映像のフレーム周波数が29.97Hzであり音声のサンプリング周波数が48kHzである場合、映像1フレームに対する音声サンプル数が整数倍にならない。
SMPTE302M規格では、映像ストリームに多重化する非圧縮の音声ストリームを、映像フレーム単位でPES化するものと定められている。また、SMPTE302M規格では、AES3ヘッダーは、AES3ヘッダーに続けて配置されるAES3ペイロードデータのサイズ(以下、AES3ペイロードサイズと称する場合がある。)を示すものと規定されている。
非圧縮の入力音声信号を処理する回路では、映像1フレーム期間に入力された音声のサンプル数をカウントして、AES3ペイロードサイズを求める。非圧縮音声処理回路は、非圧縮音声ストリームの構造上、AES3ペイロードデータをAES3ヘッダーの後に配置して出力する。このため、AES3ペイロードサイズを確定するためには、1フレーム以上の遅延が必要となる。
一方で、映像符号化に関しては、H.264方式などに従って1フレーム未満での映像符号化遅延を実現する処理回路が使用されていることから、非圧縮の音声ストリームの遅延を1フレーム未満に抑える必要がある。
なお、本発明に関連する技術としては、例えば、特許文献1乃至3に開示される技術がある。
特開2003−134479号公報 特開平11−219564号公報 特開平11−252058号公報
図6に、本発明に関連する映像音声処理装置の構成例を示す。図6に例示するように、映像音声処理装置は、入力映像信号を低遅延で符号化する映像符号化装置401と、映像ストリームデータと音声ストリームデータを多重化する映像ストリームデータ・音声ストリームデータ多重化部402と、PESヘッダーを生成するPESヘッダー生成部403入力音声信号からAES3ペイロードデータを3生成するAES3ペイロード生成部404と、入力音声信号のサンプル数をカウントするサンプル数カウンタ405と、カウントした音声サンプル数を反映してAES3ヘッダーを生成するAES3ヘッダー生成部406と、生成したPESヘッダーの遅延を調整するPESヘッダー遅延メモリ407と、生成したAES3ペイロードデータの遅延を調整するAES3ペイロード遅延メモリ408と、PESヘッダー、AES3ヘッダー、AES3ペイロードデータからなる音声ストリームデータを生成する音声ストリームデータ生成部409と、生成した音声ストリームデータの遅延を調整する遅延メモリ410と、を備えている。
図6に例示した構成の映像音声処理装置では、低遅延符号化を1フレーム未満で行うことができるものの、SMPTE302M規格に準拠した非圧縮の音声ストリームの処理に関しては、PES化に使用した1フレーム内の音声サンプル数に基づいてAES3ペイロードサイズを求め、その求めたAES3ペイロードサイズを、AES3ヘッダーに含ませる必要がある。
しかし、AES3ヘッダーは、ストリームのAES3ペイロードデータよりも前に配置されるため、入力音声信号の音声サンプル数をカウントした後にAES3ヘッダーを生成する回路では、1フレームの音声信号の入力が終わるまでの間はAES3ヘッダーを生成することができない。そのため、少なくとも1フレーム分の音声信号の遅延が必要になるという問題があった。
そこで本発明の目的は、これらの課題を解決し、音声ストリームの符号化遅延を短縮することが可能な映像音声処理装置および映像音声処理方法を提供することである。
本発明の第1の態様にかかる映像音声処理装置は、所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備え、前記音声処理部は、前記入力映像信号に基づいて前記映像パケットのヘッダーを生成する手段と、前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントする手段と、前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段と、前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成する手段と、前記入力音声信号を前記音声のデジタル化データに変換する手段と、を備える。
本発明の第2の態様にかかる映像音声処理方法は、所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備える映像音声処理装置における映像音声処理方法である。映像音声処理方法は、前記入力映像信号に基づいて前記映像パケットのヘッダーを生成するステップと、前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントするステップと、前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測するステップと、前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成するステップと、前記入力音声信号を前記音声のデジタル化データに変換するステップと、を含む。
本発明によれば、音声ストリームの符号化遅延を短縮することが可能な映像音声処理装置および映像音声処理方法を提供することができる。
実施の形態1に係る映像音声処理装置の構成図である。 実施の形態1に係る映像音声処理装置の動作例を示す図である。 各フレームで発生しうる音声サンプル数のパターンと、予測サンプル数と、の関係を例示する表である。 実施の形態2に係る映像音声処理装置の構成図である。 本発明の原理を説明するための図である。 本発明に関連する技術を説明するための図である。
まず、本発明の実施の形態について説明するのに先立ち、図5を参照して本発明の原理について説明する。図5に示すように、本発明にかかる映像音声処理装置は、映像符号化部501と、映像ストリームデータ・音声ストリームデータ多重化部502と、音声処理部503と、を備えている。
映像符号化部501は、所定のフォーマット(H.264フォーマット)に従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する。映像ストリームデータ・音声ストリームデータ多重化部502は、所定のフォーマット(MPEG2−TSフォーマット)に従って、映像ストリームデータと音声ストリームデータを多重化して出力する。
音声処理部503は、入力映像信号の符号化を開始する場合に、入力映像信号の先頭フレームのタイミングで、入力映像信号と入力音声信号に基づいて、パケットのヘッダー(PESヘッダー)と、音声パケットのヘッダー(AES3ヘッダー)と、音声のデジタル化データ(AES3ペイロードデータ)と、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、映像ストリームデータのタイミングに合うように遅延させて出力する。
音声処理部503は、入力映像信号に基づいて映像パケットのヘッダーを生成する手段601と、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントする手段602と、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段603と、入力音声信号のステータス情報と、予測した音声サンプル数と、に基づいて、音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む音声パケットのヘッダーを生成する手段604と、入力音声信号を音声のデジタル化データに変換する手段605と、を備えている。
本発明によれば、非圧縮の音声ストリームのPESパケット生成におけるAES3ペイロードサイズを、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントして、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測し、この予測した音声サンプル数に基づいて、音声のデジタル化データのサイズ情報を計算して音声パケットのヘッダーを生成することで、音声ストリームの符号化遅延の短縮化を図ることができる。
実施の形態1.
以下、図1乃至図3を参照して、本実施の形態について説明する。図1乃至図3では、本実施の形態に係る映像符号化装置において、映像ストリームデータと非圧縮の音声ストリームデータを1フレーム未満の符号化遅延で出力する例を示す。
図1は、本実施の形態に係る映像音声処理装置の構成図である。図に示す様に、映像音声処理装置は、映像符号化部201と、映像ストリームデータ・音声ストリームデータ多重化部202と、PESヘッダー生成部203と、AES3ペイロード生成部204と、AES3ヘッダー生成部205と、非圧縮音声ストリームデータ生成部206と、遅延メモリ207と、プリカウンタ部208と、サンプル数予測部209と、を備えている。映像ストリームデータ・音声ストリームデータ多重化部202などを含む部分で、映像符号化部201を除いた部分が、音声処理部に相当する。
映像符号化部201は、H.264フォーマットに従って、入力映像信号21を、映像ストリームデータ22に低遅延で圧縮符号化する。また、映像符号化部201は、入力映像信号21のフレーム周期に基づいて、映像フレームタイミング信号23を出力する。ここでは、入力映像信号21は、フレーム周波数29.97Hzの映像信号である。また、映像フレームタイミング信号23は、29.97Hzの映像フレームタイミング信号である。
映像ストリームデータ・音声ストリームデータ多重化部202は、入力される映像ストリームデータ22と音声ストリームデータ31を、MPEG2−TSフォーマットに多重化する。映像ストリームデータ・音声ストリームデータ多重化部202は、映像ストリームデータ22と音声ストリームデータ31を、TSパケットサイズで多重化したMPEG−2TSストリームデータ32として出力する。
PESヘッダー生成部203は、入力映像信号21のフレーム単位で、音声ストリームデータ30に含まれるSMPTE302M規格のPESヘッダー28を生成する。PESヘッダー生成部203は、入力される映像フレームタイミング信号23に基づいて、入力映像信号21のフレームの開始タイミングで、PESヘッダー28を生成する。
AES3ペイロード生成部204は、入力音声信号24から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびZフラグを抽出してデジタル化し、SMPTE302M規格で定められるAES3ペイロードデータ27を生成する。AES3ペイロード生成部204は、入力される映像フレームタイミング信号23に基づいて、入力映像信号21のフレームの開始タイミングで、AES3ペイロードデータ27の生成を開始する。
AES3ヘッダー生成部205は、入力音声信号24のステータス情報と、次の映像1フレーム中での予測される音声サンプル数26と、に基づいて、AES3ペイロードサイズを計算し、計算したペイロードサイズを含むAES3ヘッダー29を生成する。
非圧縮音声ストリームデータ生成部206は、PESヘッダー生成部203で生成したPESヘッダー28と、AES3ペイロード生成部204で生成したAES3ヘッダー29と、AES3ヘッダー生成部205で生成したAES3ペイロードデータ27と、が入力されて、PESヘッダー28、AES3ヘッダー29、AES3ペイロードデータ27の順で選択し、非圧縮の音声ストリームデータ30として出力する。ここで、音声ストリームデータ30は、SMPTE302M規格に規定されるMPEG−2 PESパケットの形式である。
遅延メモリ207は、入力される音声ストリームデータ30を一時的に保持し、映像ストリームデータ22の符号化遅延に合わせて遅延調整する。
プリカウンタ部208は、入力映像信号21の1フレームに対応する入力音声信号24の1フレーム中のサンプル数を、所定のフレーム分連続でカウントする。プリカウンタ部208は、入力される映像フレームタイミング信号23に基づいて、映像信号のフレームのタイミングで、直前フレームで入力音声信号24のサンプル数をカウントし、カウントしたプリカウンタ値25を出力する。ここでは、プリカウンタ部208は、入力音声信号24について、1フレーム中のサンプル数を、映像5フレーム分連続でカウントする。
サンプル数予測部209は、1フレーム中の音声サンプル数を所定のフレーム分取り込み、取り込んだ音声サンプル数のパターンに基づいて、次のフレームの音声サンプル数を予測する。サンプル数予測部209は、所定のフレーム単位で取り込んだプリカウンタ値25に基づいて次のフレームの音声サンプル数を予測し、予測音声サンプル数26を出力する。ここでは、サンプル数予測部209は、1フレーム中の音声サンプル数を、5回分(5フレーム分)取り込み、次のフレームの音声サンプル数を予測する。
図2は、本実施の形態に係る映像音声処理装置の動作例を示す図である。
映像符号化部201は、フレーム周波数29.97Hzの入力映像信号21を受け、1フレーム未満(例えば10ms)の符号化遅延で符号化処理して、H.264フォーマットの映像ストリームデータ22を出力する。また、映像符号化部201は、入力映像信号21のフレーム周期を、映像フレームタイミング信号23として出力する。
プリカウンタ部208は、映像フレームタイミング信号23に従って、映像フレーム中の入力音声信号24のサンプル数をカウントして、直前フレームにおける入力音声信号24のサンプル数をプリカウンタ値25として出力する。
サンプル数予測部209は、直前の連続5フレームのプリカウンタ値25を収集し、入力映像信号21の符号化を開始する場合における、次の映像フレームのサンプル数を予測する(すなわち、現在これから処理すべき映像フレームに対応する、AES3ペイロードデータ27に含まれる音声サンプル数の予測サンプル数26を求める)。
ここで、予測サンプル数26の算出方法をより具体的に説明する。
まず、映像信号と音声信号の同期に関して、フレーム周波数29.97Hzの映像信号と、サンプリング周波数48kHzの音声信号と、が同期している場合には、次に示すように、映像1フレーム中の音声サンプル数には端数が存在することになる。
映像1フレーム中の音声サンプル数
=(1/29.97Hz)÷(1/48kHz)=1601.6サンプル
しかし、次に示すように、映像フレームを5フレーム単位とすることで、音声サンプル数が整数倍となるため、同期関係として扱うことができる。
映像5フレームの音声サンプル数=8008サンプル
そして、映像フレームについて、連続5フレームのうちの各フレームのサンプル数を、整数で切り捨てると、例えば次に示すパターンでサンプル数が取得されることになり、任意の連続5フレームの合計サンプル数は、8008サンプルになる。
1602、1601、1602、1601、1602、・・・・(以下繰り返し)
図3は、各フレームで発生しうる音声サンプル数のパターンと、予測サンプル数と、の関係を例示する表である。図3では、連続5フレームについて、第1フレームから第5フレームそれぞれの音声サンプル数と、次の映像フレームでの予測音声サンプル数26との関係を表形式で例示している。各パターンと予測サンプル数は映像信号のフレーム周波数と、音声信号のサンプリング周波数の関係から生成される値であり、図3は映像信号のフレーム周波数が29.97Hzと音声サンプリング周波数が48kHzの場合の関係を表すものである。サンプル数予測部209は、取り込んだ音声サンプル数のパターンに基づいて、次のフレームの音声サンプル数を予測する。
図2に戻って説明を続ける。
AES3ヘッダー生成部205は、サンプル数予測部209が予測した音声サンプル数26と、入力音声信号24のステータス情報と、に基づいて、現在の映像フレームにおいて生成されるAES3ペイロードサイズを計算し、計算したAES3ペイロードサイズを含むSMPTE302M規格のAES3ヘッダー29を生成する。
PESヘッダー生成部203は、入力映像信号21について符号化を開始する場合に、映像フレームの開始タイミングで、SMPTE302M規格のPESヘッダー28を生成する。
AES3ペイロード生成部204は、入力音声信号24から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびZフラグを抽出して、SMPTE302M規格のAES3ペイロードデータ27を生成する。
音声ストリームデータ生成部206は、PESヘッダー28、AES3ヘッダー29、AES3ペイロードデータ27を受け、PESヘッダー28、AES3ヘッダー29、AES3ペイロードデータ27の順に、MPEG−2 PESパケット形式の非圧縮の音声ストリームデータ30を出力する。
遅延メモリ207は、映像ストリームデータ22の符号化遅延と同じ遅延になるように音声ストリームデータ30を調整して、音声ストリームデータ31として出力する。例えば、映像符号化遅延が10ms、音声ストリームデータ30の遅延が4msである場合、遅延メモリ207を用いて6msの遅延を付加して、10ms遅延の音声ストリームデータ31を出力する。
映像ストリームデータ・音声ストリームデータ多重化部202は、映像ストリームデータ22と音声ストリームデータ31を、TSパケットサイズにそれぞれ分割して多重化を行い、MPEG−2 TSストリーム形式のMPEG−2TSストリームデータ32として出力する。
以上説明したように、本実施の形態によれば、SMPTE302M規格に準拠した非圧縮の音声ストリームに関して、非圧縮の音声ストリームのPESパケット生成におけるAES3ペイロードサイズを、映像フレームの前方5フレーム期間の音声サンプル数と、サンプル数の出現パターンと、に基づいて推測して、この推測したAES3ペイロードサイズに基づいて、PES化フレームの開始時点においてAES3ヘッダーを生成することで、音声ストリームの符号化遅延の短縮化を図ることができる。
映像符号化の圧縮方式としてH.264を使用する場合には、符号化遅延に関して、これまでのMPEG−2と同等に符号化遅延を数百ms(例えば300msから1秒)で行う方法の他に、符号化遅延を1フレーム未満(例えば10ms)の低遅延符号化とすることが可能である。しかし、音声の符号化遅延に1フレームを要した場合には、受信機側で音声の再生が映像の再生より遅れてしまうことになり、映像と音声のリップシンクにずれが生じる。そこで、本実施の形態では、低遅延での映像符号化部と、音声の符号化遅延を映像の符号化遅延よりも短くし、かつ、遅延メモリを用いて映像符号化の遅延に合わせた調整を可能とする音声符号化回路と、を組み合わせた装置として実現することで、映像と音声のリップシンクにずれが生じない、低遅延符号化装置を実現することができる。
実施の形態2.
上述した実施の形態1と比較して、本実施の形態にかかる映像音声処理装置は、映像フレーム中の入力音声信号の異常を検出した場合に、異常に対する処置を可能とするものである。上述した実施の形態1と比較して、本実施の形態では、音声入力監視部およびMUTE回路を更に備えることを特徴する。なお、その他の基本的な構成は実施の形態1と同じであるため、以下では、相違点を中心に説明し、共通点についてはその詳細な説明を省略する。
図4は、本実施の形態に係る映像音声処理装置の構成図である。図4に示す映像音声処理装置は、フレーム周波数29.97Hzの映像信号と、映像信号に同期したサンプリング周波数48kHzの音声信号と、が入力されて、H.264フォーマットで映像信号の低遅延符号化を行い、SMPTE302M形式のPESデータに音声信号の非圧縮符号化を行う回路の例である。
図4に示す様に、映像音声処理装置は、映像符号化部301と、映像ストリームデータ・音声ストリームデータ多重化部302と、PESヘッダー生成部303と、AES3ペイロード生成部304と、AES3ヘッダー生成部305と、非圧縮音声ストリームデータ生成部306と、遅延メモリ307と、プリカウンタ部308と、サンプル数予測部309と、音声入力監視部310と、MUTE回路311と、を備えている。
映像符号化部301は、入力映像信号41を、H.264フォーマットに従って、入力映像信号41を、映像ストリームデータ42に低遅延で圧縮符号化する。また、映像符号化部301は、入力映像信号41のフレーム周期に基づいて、映像フレームタイミング信号43を出力する。
映像ストリームデータ・音声ストリームデータ多重化部302は、入力される映像ストリームデータ42と音声ストリームデータ51を、MPEG2−TSフォーマットに多重化する。
PESヘッダー生成部303は、映像信号のフレーム単位で、音声ストリームデータのSMPTE302M規格のPESヘッダー48を生成する。
AES3ペイロード生成部304は、入力音声信号44から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびZフラグを抽出して、SMPTE302M規格のAES3ペイロードデータ47を生成する。
AES3ヘッダー生成部305は、入力音声信号44のステータス情報と、映像1フレーム中の音声サンプル数46と、に基づいてAES3ペイロードサイズを計算し、計算したペイロードサイズを含むAES3ヘッダー49を生成する。
非圧縮音声ストリームデータ生成部306は、PESヘッダー生成部303で生成したPESヘッダー48と、AES3ペイロード生成部304で生成したAES3ヘッダー49と、AES3ヘッダー生成部305で生成したAES3ペイロードデータ47と、が入力されて、PESヘッダー48、AES3ヘッダー49、AES3ペイロードデータ47の順で選択し、非圧縮の音声ストリームデータ50として出力する。ここで、音声ストリームデータ50は、SMPTE302M規格で定められるMPEG−2 PESパケットの形式である。
遅延メモリ307は、入力される音声ストリームデータ50を一時的に保持し、映像ストリームデータ42の符号化遅延に合わせて遅延調整する。
プリカウンタ部308は、入力音声信号34について、1フレーム中のサンプル数を、所定のフレーム分連続でカウントする。プリカウンタ部308は、入力される映像フレームタイミング信号43に基づいて、映像信号のフレームのタイミングで、直前フレームで入力音声信号34のサンプル数をカウントし、カウントしたプリカウンタ値45を出力する。ここでは、プリカウンタ部308は、入力音声信号44について、1フレーム中のサンプル数を、映像5フレーム分連続でカウントする。
サンプル数予測部309は、1フレーム中の音声サンプル数を所定のフレーム分取り込み、次のフレームの音声サンプル数を予測する。サンプル数予測部309は、プリカウンタ値45に基づいて次のフレームの音声サンプル数を予測し、予測音声サンプル数46を出力する。ここでは、サンプル数予測部309は、1フレーム中の音声サンプル数を、5回分(5フレーム分)取り込み、次のフレームの音声サンプル数を予測する。
音声入力監視部310は、映像フレーム中の入力音声信号44の異常を検出し、異常を検出した場合には、次の映像フレームまでの間、アラーム信号53を出力し続ける。音声入力監視部310は、入力音声信号44を監視し、入力音声信号44が不連続であるとの異常を検出した場合には、次の映像フレームまでの間異常であるとの判定を継続し、アラーム信号53を出力し続ける。
MUTE回路311は、アラーム信号53を受けている間、AES3ペイロードデータ47をダミーデータに置き換える。MUTE回路311は、AES3ペイロードデータ47に関して、アラーム信号53によりアラームが発生したタイミングから、そのタイミングのAES3ペイロードデータ47の最後のデータまでを、ダミーデータ(例えば'0'データ)に置き換え、異常パケットを出力しないように処置する。
本実施の形態によれば、音声入力監視部310およびMUTE回路311を更に備えることで、入力音声信号44に異常を検出した場合には、異常パケットを出力しないように処置することが可能となる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
201、301、501 映像符号化部、
202、302、502 映像ストリームデータ・音声ストリームデータ多重化部、
203、303 PESヘッダー生成部、
204、304 AES3ペイロード生成部、
205、305 AES3ヘッダー生成部、
206、306 非圧縮音声ストリームデータ生成部、
207、307 遅延メモリ、
208、308 プリカウンタ部、
209、309 サンプル数予測部、
310 音声入力監視部、
311 MUTE回路、
503 音声処理部、
601 映像パケットのヘッダーを生成する手段、
602 音声サンプル数をカウントする手段、
603 音声サンプルを予測する手段、
604 音声パケットのヘッダーを生成する手段、
605 音声のデジタルデータに変換する手段、

21、41 入力映像信号、
22、42 映像ストリームデータ、
23、43 映像フレームタイミング信号、
24、44 入力音声信号、
25、45 プリカウンタ値、
26、46 予測音声サンプル数、
27、47 AES3ペイロードデータ、
28、48 PESヘッダー、
29、49 AES3ヘッダー、
30、50 音声ストリームデータ、
31、51 音声ストリームデータ、
32、52 MPEG−2TSストリームデータ、
53 アラーム信号、

Claims (6)

  1. 所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、
    前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、
    所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備え、
    前記音声処理部は、
    前記入力映像信号に基づいて前記映像パケットのヘッダーを生成する手段と、
    前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントする手段と、
    前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段と、
    前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成する手段と、
    前記入力音声信号を前記音声のデジタル化データに変換する手段と、
    を備える映像音声処理装置。
  2. 前記音声処理部は、
    前記入力音声信号の異常を検出した場合に、次の前記入力映像信号の次の映像フレームまでの間、アラーム信号を出力し続ける手段と、
    前記アラーム信号を受けている間、前記音声のデジタル化データをダミーデータに置き換えて出力する手段と、を更に備える
    ことを特徴とする請求項1に記載の映像音声処理装置。
  3. 前記音声処理部は、
    前記映像ストリームデータのタイミングに合うように前記音声ストリームデータを遅延させて出力する遅延メモリを更に備える
    ことを特徴とする請求項1又は2に記載の映像音声処理装置。
  4. 所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、
    前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、
    所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備える映像音声処理装置における映像音声処理方法であって、
    前記入力映像信号に基づいて前記映像パケットのヘッダーを生成するステップと、
    前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントするステップと、
    前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測するステップと、
    前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成するステップと、
    前記入力音声信号を前記音声のデジタル化データに変換するステップと、
    を含む映像音声処理方法。
  5. 前記入力音声信号の異常を検出した場合に、次の前記入力映像信号の次の映像フレームまでの間、アラーム信号を出力し続けるステップと、
    前記アラーム信号を受けている間、前記音声のデジタル化データをダミーデータに置き換えて出力するステップと、
    を更に含むことを特徴とする請求項4に記載の映像音声処理方法。
  6. 遅延メモリを用いて、前記映像ストリームデータのタイミングに合うように前記音声ストリームデータを遅延させて出力するステップ
    を更に含むことを特徴とする請求項4又は5に記載の映像音声処理方法。
JP2011043686A 2011-03-01 2011-03-01 映像音声処理装置および映像音声処理方法 Active JP5741064B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011043686A JP5741064B2 (ja) 2011-03-01 2011-03-01 映像音声処理装置および映像音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011043686A JP5741064B2 (ja) 2011-03-01 2011-03-01 映像音声処理装置および映像音声処理方法

Publications (2)

Publication Number Publication Date
JP2012182618A true JP2012182618A (ja) 2012-09-20
JP5741064B2 JP5741064B2 (ja) 2015-07-01

Family

ID=47013448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011043686A Active JP5741064B2 (ja) 2011-03-01 2011-03-01 映像音声処理装置および映像音声処理方法

Country Status (1)

Country Link
JP (1) JP5741064B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118016080A (zh) * 2024-04-09 2024-05-10 腾讯科技(深圳)有限公司 一种音频处理方法、音频处理器及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000064156A1 (fr) * 1999-04-16 2000-10-26 Sony Corporation Procede de transmission de donnees et emetteur de donnees
JP2000347695A (ja) * 1999-06-08 2000-12-15 Matsushita Electric Ind Co Ltd 音声制御方法及び音声制御装置
JP2009302961A (ja) * 2008-06-13 2009-12-24 Panasonic Corp 記録装置、ファイル送信方法、プログラム及びカメラ
JP2010034760A (ja) * 2008-07-28 2010-02-12 Sony Corp 映像音声信号処理装置と映像音声信号処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000064156A1 (fr) * 1999-04-16 2000-10-26 Sony Corporation Procede de transmission de donnees et emetteur de donnees
JP2000347695A (ja) * 1999-06-08 2000-12-15 Matsushita Electric Ind Co Ltd 音声制御方法及び音声制御装置
JP2009302961A (ja) * 2008-06-13 2009-12-24 Panasonic Corp 記録装置、ファイル送信方法、プログラム及びカメラ
JP2010034760A (ja) * 2008-07-28 2010-02-12 Sony Corp 映像音声信号処理装置と映像音声信号処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118016080A (zh) * 2024-04-09 2024-05-10 腾讯科技(深圳)有限公司 一种音频处理方法、音频处理器及相关装置

Also Published As

Publication number Publication date
JP5741064B2 (ja) 2015-07-01

Similar Documents

Publication Publication Date Title
US9489980B2 (en) Video/audio synchronization apparatus and video/audio synchronization method
JP4983923B2 (ja) デコーダ装置、およびデコード方法
US9407387B2 (en) Apparatus and method for synchronized transmission of multimedia content over an asynchronous network
JP3976759B2 (ja) 音声信号と映像信号を同期させる装置
WO2017067489A1 (zh) 机顶盒音视频同步的方法及装置、存储介质
US20150088528A1 (en) Decoding apparatus and method, audio signal processing apparatus and method, and program
JP2007124044A (ja) 基準クロック再生回路及びデータ受信装置
JP2014207498A (ja) 符号化装置、復号化装置、符号化方法、復号化方法およびプログラム
JP5741064B2 (ja) 映像音声処理装置および映像音声処理方法
JP5632711B2 (ja) 送信装置、受信装置及び伝送システム
JP5642319B2 (ja) デジタルデータ配信装置及び方法、及びデジタルデータ再生装置及び方法、同期再生システム、プログラム、並びに記録媒体
JPWO2013145225A1 (ja) エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム
JP5434390B2 (ja) 電子会議システム、多地点接続装置、データ通信方法、プログラム、記録媒体及び通信装置
JP2008278323A (ja) ネットワークカメラ
JP2010028642A (ja) 画像伝送システム
KR0154005B1 (ko) 시스템 부호화기를 위한 재생시간정보 발생장치
JP2011239009A (ja) 伝送装置
JP2010233119A (ja) ビデオエンコーダ装置及び該ビデオエンコーダ装置に用いられる符号化データ出力方法
US10531136B2 (en) Data processing device, data processing method, and program
JP2012109655A (ja) メディア受信装置
JP2008153945A (ja) 映像/音声同期化装置
JP6229597B2 (ja) データ復号装置及びデータ復号方法
JP6335775B2 (ja) メディア受信装置
JP2005027007A (ja) データ伝送装置
JP2005142612A (ja) 画像符号化装置及び画像符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150413

R150 Certificate of patent or registration of utility model

Ref document number: 5741064

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150