JP2012182618A

JP2012182618A - 映像音声処理装置および映像音声処理方法

Info

Publication number: JP2012182618A
Application number: JP2011043686A
Authority: JP
Inventors: Daisuke Sato; 大介佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-03-01
Filing date: 2011-03-01
Publication date: 2012-09-20
Anticipated expiration: 2031-03-01
Also published as: JP5741064B2

Abstract

【課題】音声ストリームの符号化遅延を短縮する。
【解決手段】映像音声処理装置は、映像符号化部５０１、映像ストリームデータ・音声ストリームデータ多重化部５０２、音声処理部５０３、を備える。音声処理部５０３は、入力映像信号に基づいて映像パケットのヘッダーを生成する手段６０１と、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントする手段６０２と、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合のフレームの音声サンプルを予測する手段６０３と、入力音声信号のステータス情報と予測した音声サンプル数に基づいて、音声のデジタル化データのサイズ情報を計算し、計算したサイズ情報を含む音声パケットのヘッダーを生成する手段６０４と、入力音声信号を音声のデジタル化データに変換する手段６０５と、を備える。
【選択図】図５

Description

本発明は、映像符号化装置におけるリアルタイムエンコーダーに関し、特に、符号化遅延が１フレーム未満の低遅延符号化装置における非圧縮音声の符号化回路に関する。

映像信号と同期している音声信号では、映像のフレーム周波数が２９．９７Ｈｚであり音声のサンプリング周波数が４８ｋＨｚである場合、映像１フレームに対する音声サンプル数が整数倍にならない。

ＳＭＰＴＥ３０２Ｍ規格では、映像ストリームに多重化する非圧縮の音声ストリームを、映像フレーム単位でＰＥＳ化するものと定められている。また、ＳＭＰＴＥ３０２Ｍ規格では、ＡＥＳ３ヘッダーは、ＡＥＳ３ヘッダーに続けて配置されるＡＥＳ３ペイロードデータのサイズ（以下、ＡＥＳ３ペイロードサイズと称する場合がある。）を示すものと規定されている。

非圧縮の入力音声信号を処理する回路では、映像１フレーム期間に入力された音声のサンプル数をカウントして、ＡＥＳ３ペイロードサイズを求める。非圧縮音声処理回路は、非圧縮音声ストリームの構造上、ＡＥＳ３ペイロードデータをＡＥＳ３ヘッダーの後に配置して出力する。このため、ＡＥＳ３ペイロードサイズを確定するためには、1フレーム以上の遅延が必要となる。

一方で、映像符号化に関しては、Ｈ．２６４方式などに従って１フレーム未満での映像符号化遅延を実現する処理回路が使用されていることから、非圧縮の音声ストリームの遅延を１フレーム未満に抑える必要がある。

なお、本発明に関連する技術としては、例えば、特許文献１乃至３に開示される技術がある。

特開２００３−１３４４７９号公報特開平１１−２１９５６４号公報特開平１１−２５２０５８号公報

図６に、本発明に関連する映像音声処理装置の構成例を示す。図６に例示するように、映像音声処理装置は、入力映像信号を低遅延で符号化する映像符号化装置４０１と、映像ストリームデータと音声ストリームデータを多重化する映像ストリームデータ・音声ストリームデータ多重化部４０２と、ＰＥＳヘッダーを生成するＰＥＳヘッダー生成部４０３入力音声信号からＡＥＳ３ペイロードデータを３生成するＡＥＳ３ペイロード生成部４０４と、入力音声信号のサンプル数をカウントするサンプル数カウンタ４０５と、カウントした音声サンプル数を反映してＡＥＳ３ヘッダーを生成するＡＥＳ３ヘッダー生成部４０６と、生成したＰＥＳヘッダーの遅延を調整するＰＥＳヘッダー遅延メモリ４０７と、生成したＡＥＳ３ペイロードデータの遅延を調整するＡＥＳ３ペイロード遅延メモリ４０８と、ＰＥＳヘッダー、ＡＥＳ３ヘッダー、ＡＥＳ３ペイロードデータからなる音声ストリームデータを生成する音声ストリームデータ生成部４０９と、生成した音声ストリームデータの遅延を調整する遅延メモリ４１０と、を備えている。

図６に例示した構成の映像音声処理装置では、低遅延符号化を１フレーム未満で行うことができるものの、ＳＭＰＴＥ３０２Ｍ規格に準拠した非圧縮の音声ストリームの処理に関しては、ＰＥＳ化に使用した１フレーム内の音声サンプル数に基づいてＡＥＳ３ペイロードサイズを求め、その求めたＡＥＳ３ペイロードサイズを、ＡＥＳ３ヘッダーに含ませる必要がある。

しかし、ＡＥＳ３ヘッダーは、ストリームのＡＥＳ３ペイロードデータよりも前に配置されるため、入力音声信号の音声サンプル数をカウントした後にＡＥＳ３ヘッダーを生成する回路では、１フレームの音声信号の入力が終わるまでの間はＡＥＳ３ヘッダーを生成することができない。そのため、少なくとも１フレーム分の音声信号の遅延が必要になるという問題があった。

そこで本発明の目的は、これらの課題を解決し、音声ストリームの符号化遅延を短縮することが可能な映像音声処理装置および映像音声処理方法を提供することである。

本発明の第１の態様にかかる映像音声処理装置は、所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備え、前記音声処理部は、前記入力映像信号に基づいて前記映像パケットのヘッダーを生成する手段と、前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントする手段と、前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段と、前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成する手段と、前記入力音声信号を前記音声のデジタル化データに変換する手段と、を備える。

本発明の第２の態様にかかる映像音声処理方法は、所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備える映像音声処理装置における映像音声処理方法である。映像音声処理方法は、前記入力映像信号に基づいて前記映像パケットのヘッダーを生成するステップと、前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントするステップと、前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測するステップと、前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成するステップと、前記入力音声信号を前記音声のデジタル化データに変換するステップと、を含む。

本発明によれば、音声ストリームの符号化遅延を短縮することが可能な映像音声処理装置および映像音声処理方法を提供することができる。

実施の形態１に係る映像音声処理装置の構成図である。実施の形態１に係る映像音声処理装置の動作例を示す図である。各フレームで発生しうる音声サンプル数のパターンと、予測サンプル数と、の関係を例示する表である。実施の形態２に係る映像音声処理装置の構成図である。本発明の原理を説明するための図である。本発明に関連する技術を説明するための図である。

まず、本発明の実施の形態について説明するのに先立ち、図５を参照して本発明の原理について説明する。図５に示すように、本発明にかかる映像音声処理装置は、映像符号化部５０１と、映像ストリームデータ・音声ストリームデータ多重化部５０２と、音声処理部５０３と、を備えている。

映像符号化部５０１は、所定のフォーマット（Ｈ．２６４フォーマット）に従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する。映像ストリームデータ・音声ストリームデータ多重化部５０２は、所定のフォーマット（ＭＰＥＧ２−ＴＳフォーマット）に従って、映像ストリームデータと音声ストリームデータを多重化して出力する。

音声処理部５０３は、入力映像信号の符号化を開始する場合に、入力映像信号の先頭フレームのタイミングで、入力映像信号と入力音声信号に基づいて、パケットのヘッダー（ＰＥＳヘッダー）と、音声パケットのヘッダー（ＡＥＳ３ヘッダー）と、音声のデジタル化データ（ＡＥＳ３ペイロードデータ）と、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、映像ストリームデータのタイミングに合うように遅延させて出力する。

音声処理部５０３は、入力映像信号に基づいて映像パケットのヘッダーを生成する手段６０１と、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントする手段６０２と、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段６０３と、入力音声信号のステータス情報と、予測した音声サンプル数と、に基づいて、音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む音声パケットのヘッダーを生成する手段６０４と、入力音声信号を音声のデジタル化データに変換する手段６０５と、を備えている。

本発明によれば、非圧縮の音声ストリームのＰＥＳパケット生成におけるＡＥＳ３ペイロードサイズを、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントして、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測し、この予測した音声サンプル数に基づいて、音声のデジタル化データのサイズ情報を計算して音声パケットのヘッダーを生成することで、音声ストリームの符号化遅延の短縮化を図ることができる。

実施の形態１．
以下、図１乃至図３を参照して、本実施の形態について説明する。図１乃至図３では、本実施の形態に係る映像符号化装置において、映像ストリームデータと非圧縮の音声ストリームデータを１フレーム未満の符号化遅延で出力する例を示す。

図１は、本実施の形態に係る映像音声処理装置の構成図である。図に示す様に、映像音声処理装置は、映像符号化部２０１と、映像ストリームデータ・音声ストリームデータ多重化部２０２と、ＰＥＳヘッダー生成部２０３と、ＡＥＳ３ペイロード生成部２０４と、ＡＥＳ３ヘッダー生成部２０５と、非圧縮音声ストリームデータ生成部２０６と、遅延メモリ２０７と、プリカウンタ部２０８と、サンプル数予測部２０９と、を備えている。映像ストリームデータ・音声ストリームデータ多重化部２０２などを含む部分で、映像符号化部２０１を除いた部分が、音声処理部に相当する。

映像符号化部２０１は、Ｈ．２６４フォーマットに従って、入力映像信号２１を、映像ストリームデータ２２に低遅延で圧縮符号化する。また、映像符号化部２０１は、入力映像信号２１のフレーム周期に基づいて、映像フレームタイミング信号２３を出力する。ここでは、入力映像信号２１は、フレーム周波数２９．９７Ｈｚの映像信号である。また、映像フレームタイミング信号２３は、２９．９７Ｈｚの映像フレームタイミング信号である。

映像ストリームデータ・音声ストリームデータ多重化部２０２は、入力される映像ストリームデータ２２と音声ストリームデータ３１を、ＭＰＥＧ２−ＴＳフォーマットに多重化する。映像ストリームデータ・音声ストリームデータ多重化部２０２は、映像ストリームデータ２２と音声ストリームデータ３１を、ＴＳパケットサイズで多重化したＭＰＥＧ−２ＴＳストリームデータ３２として出力する。

ＰＥＳヘッダー生成部２０３は、入力映像信号２１のフレーム単位で、音声ストリームデータ３０に含まれるＳＭＰＴＥ３０２Ｍ規格のＰＥＳヘッダー２８を生成する。ＰＥＳヘッダー生成部２０３は、入力される映像フレームタイミング信号２３に基づいて、入力映像信号２１のフレームの開始タイミングで、ＰＥＳヘッダー２８を生成する。

ＡＥＳ３ペイロード生成部２０４は、入力音声信号２４から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびＺフラグを抽出してデジタル化し、ＳＭＰＴＥ３０２Ｍ規格で定められるＡＥＳ３ペイロードデータ２７を生成する。ＡＥＳ３ペイロード生成部２０４は、入力される映像フレームタイミング信号２３に基づいて、入力映像信号２１のフレームの開始タイミングで、ＡＥＳ３ペイロードデータ２７の生成を開始する。

ＡＥＳ３ヘッダー生成部２０５は、入力音声信号２４のステータス情報と、次の映像１フレーム中での予測される音声サンプル数２６と、に基づいて、ＡＥＳ３ペイロードサイズを計算し、計算したペイロードサイズを含むＡＥＳ３ヘッダー２９を生成する。

非圧縮音声ストリームデータ生成部２０６は、ＰＥＳヘッダー生成部２０３で生成したＰＥＳヘッダー２８と、ＡＥＳ３ペイロード生成部２０４で生成したＡＥＳ３ヘッダー２９と、ＡＥＳ３ヘッダー生成部２０５で生成したＡＥＳ３ペイロードデータ２７と、が入力されて、ＰＥＳヘッダー２８、ＡＥＳ３ヘッダー２９、ＡＥＳ３ペイロードデータ２７の順で選択し、非圧縮の音声ストリームデータ３０として出力する。ここで、音声ストリームデータ３０は、ＳＭＰＴＥ３０２Ｍ規格に規定されるＭＰＥＧ−２ＰＥＳパケットの形式である。

遅延メモリ２０７は、入力される音声ストリームデータ３０を一時的に保持し、映像ストリームデータ２２の符号化遅延に合わせて遅延調整する。

プリカウンタ部２０８は、入力映像信号２１の１フレームに対応する入力音声信号２４の１フレーム中のサンプル数を、所定のフレーム分連続でカウントする。プリカウンタ部２０８は、入力される映像フレームタイミング信号２３に基づいて、映像信号のフレームのタイミングで、直前フレームで入力音声信号２４のサンプル数をカウントし、カウントしたプリカウンタ値２５を出力する。ここでは、プリカウンタ部２０８は、入力音声信号２４について、１フレーム中のサンプル数を、映像５フレーム分連続でカウントする。

サンプル数予測部２０９は、１フレーム中の音声サンプル数を所定のフレーム分取り込み、取り込んだ音声サンプル数のパターンに基づいて、次のフレームの音声サンプル数を予測する。サンプル数予測部２０９は、所定のフレーム単位で取り込んだプリカウンタ値２５に基づいて次のフレームの音声サンプル数を予測し、予測音声サンプル数２６を出力する。ここでは、サンプル数予測部２０９は、１フレーム中の音声サンプル数を、５回分（５フレーム分）取り込み、次のフレームの音声サンプル数を予測する。

図２は、本実施の形態に係る映像音声処理装置の動作例を示す図である。
映像符号化部２０１は、フレーム周波数２９．９７Ｈｚの入力映像信号２１を受け、１フレーム未満（例えば１０ｍｓ）の符号化遅延で符号化処理して、Ｈ．２６４フォーマットの映像ストリームデータ２２を出力する。また、映像符号化部２０１は、入力映像信号２１のフレーム周期を、映像フレームタイミング信号２３として出力する。

プリカウンタ部２０８は、映像フレームタイミング信号２３に従って、映像フレーム中の入力音声信号２４のサンプル数をカウントして、直前フレームにおける入力音声信号２４のサンプル数をプリカウンタ値２５として出力する。

サンプル数予測部２０９は、直前の連続５フレームのプリカウンタ値２５を収集し、入力映像信号２１の符号化を開始する場合における、次の映像フレームのサンプル数を予測する（すなわち、現在これから処理すべき映像フレームに対応する、ＡＥＳ３ペイロードデータ２７に含まれる音声サンプル数の予測サンプル数２６を求める）。

ここで、予測サンプル数２６の算出方法をより具体的に説明する。
まず、映像信号と音声信号の同期に関して、フレーム周波数２９．９７Ｈｚの映像信号と、サンプリング周波数４８ｋＨｚの音声信号と、が同期している場合には、次に示すように、映像１フレーム中の音声サンプル数には端数が存在することになる。
映像１フレーム中の音声サンプル数
＝（１／２９．９７Ｈｚ）÷（１／４８ｋＨｚ）＝１６０１．６サンプル

しかし、次に示すように、映像フレームを５フレーム単位とすることで、音声サンプル数が整数倍となるため、同期関係として扱うことができる。
映像５フレームの音声サンプル数＝８００８サンプル

そして、映像フレームについて、連続５フレームのうちの各フレームのサンプル数を、整数で切り捨てると、例えば次に示すパターンでサンプル数が取得されることになり、任意の連続５フレームの合計サンプル数は、８００８サンプルになる。
１６０２、１６０１、１６０２、１６０１、１６０２、・・・・(以下繰り返し)

図３は、各フレームで発生しうる音声サンプル数のパターンと、予測サンプル数と、の関係を例示する表である。図３では、連続５フレームについて、第１フレームから第５フレームそれぞれの音声サンプル数と、次の映像フレームでの予測音声サンプル数２６との関係を表形式で例示している。各パターンと予測サンプル数は映像信号のフレーム周波数と、音声信号のサンプリング周波数の関係から生成される値であり、図３は映像信号のフレーム周波数が２９．９７Ｈｚと音声サンプリング周波数が４８ｋＨｚの場合の関係を表すものである。サンプル数予測部２０９は、取り込んだ音声サンプル数のパターンに基づいて、次のフレームの音声サンプル数を予測する。

図２に戻って説明を続ける。
ＡＥＳ３ヘッダー生成部２０５は、サンプル数予測部２０９が予測した音声サンプル数２６と、入力音声信号２４のステータス情報と、に基づいて、現在の映像フレームにおいて生成されるＡＥＳ３ペイロードサイズを計算し、計算したＡＥＳ３ペイロードサイズを含むＳＭＰＴＥ３０２Ｍ規格のＡＥＳ３ヘッダー２９を生成する。

ＰＥＳヘッダー生成部２０３は、入力映像信号２１について符号化を開始する場合に、映像フレームの開始タイミングで、ＳＭＰＴＥ３０２Ｍ規格のＰＥＳヘッダー２８を生成する。

ＡＥＳ３ペイロード生成部２０４は、入力音声信号２４から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびＺフラグを抽出して、ＳＭＰＴＥ３０２Ｍ規格のＡＥＳ３ペイロードデータ２７を生成する。

音声ストリームデータ生成部２０６は、ＰＥＳヘッダー２８、ＡＥＳ３ヘッダー２９、ＡＥＳ３ペイロードデータ２７を受け、ＰＥＳヘッダー２８、ＡＥＳ３ヘッダー２９、ＡＥＳ３ペイロードデータ２７の順に、ＭＰＥＧ−２ＰＥＳパケット形式の非圧縮の音声ストリームデータ３０を出力する。

遅延メモリ２０７は、映像ストリームデータ２２の符号化遅延と同じ遅延になるように音声ストリームデータ３０を調整して、音声ストリームデータ３１として出力する。例えば、映像符号化遅延が１０ｍｓ、音声ストリームデータ３０の遅延が４ｍｓである場合、遅延メモリ２０７を用いて６ｍｓの遅延を付加して、１０ｍｓ遅延の音声ストリームデータ３１を出力する。

映像ストリームデータ・音声ストリームデータ多重化部２０２は、映像ストリームデータ２２と音声ストリームデータ３１を、ＴＳパケットサイズにそれぞれ分割して多重化を行い、ＭＰＥＧ−２ＴＳストリーム形式のＭＰＥＧ−２ＴＳストリームデータ３２として出力する。

以上説明したように、本実施の形態によれば、ＳＭＰＴＥ３０２Ｍ規格に準拠した非圧縮の音声ストリームに関して、非圧縮の音声ストリームのＰＥＳパケット生成におけるＡＥＳ３ペイロードサイズを、映像フレームの前方５フレーム期間の音声サンプル数と、サンプル数の出現パターンと、に基づいて推測して、この推測したＡＥＳ３ペイロードサイズに基づいて、ＰＥＳ化フレームの開始時点においてＡＥＳ３ヘッダーを生成することで、音声ストリームの符号化遅延の短縮化を図ることができる。

映像符号化の圧縮方式としてＨ．２６４を使用する場合には、符号化遅延に関して、これまでのＭＰＥＧ−２と同等に符号化遅延を数百ｍｓ（例えば３００ｍｓから１秒）で行う方法の他に、符号化遅延を１フレーム未満（例えば１０ｍｓ）の低遅延符号化とすることが可能である。しかし、音声の符号化遅延に１フレームを要した場合には、受信機側で音声の再生が映像の再生より遅れてしまうことになり、映像と音声のリップシンクにずれが生じる。そこで、本実施の形態では、低遅延での映像符号化部と、音声の符号化遅延を映像の符号化遅延よりも短くし、かつ、遅延メモリを用いて映像符号化の遅延に合わせた調整を可能とする音声符号化回路と、を組み合わせた装置として実現することで、映像と音声のリップシンクにずれが生じない、低遅延符号化装置を実現することができる。

実施の形態２．
上述した実施の形態１と比較して、本実施の形態にかかる映像音声処理装置は、映像フレーム中の入力音声信号の異常を検出した場合に、異常に対する処置を可能とするものである。上述した実施の形態１と比較して、本実施の形態では、音声入力監視部およびＭＵＴＥ回路を更に備えることを特徴する。なお、その他の基本的な構成は実施の形態１と同じであるため、以下では、相違点を中心に説明し、共通点についてはその詳細な説明を省略する。

図４は、本実施の形態に係る映像音声処理装置の構成図である。図４に示す映像音声処理装置は、フレーム周波数２９．９７Ｈｚの映像信号と、映像信号に同期したサンプリング周波数４８ｋＨｚの音声信号と、が入力されて、Ｈ．２６４フォーマットで映像信号の低遅延符号化を行い、ＳＭＰＴＥ３０２Ｍ形式のＰＥＳデータに音声信号の非圧縮符号化を行う回路の例である。

図４に示す様に、映像音声処理装置は、映像符号化部３０１と、映像ストリームデータ・音声ストリームデータ多重化部３０２と、ＰＥＳヘッダー生成部３０３と、ＡＥＳ３ペイロード生成部３０４と、ＡＥＳ３ヘッダー生成部３０５と、非圧縮音声ストリームデータ生成部３０６と、遅延メモリ３０７と、プリカウンタ部３０８と、サンプル数予測部３０９と、音声入力監視部３１０と、ＭＵＴＥ回路３１１と、を備えている。

映像符号化部３０１は、入力映像信号４１を、Ｈ．２６４フォーマットに従って、入力映像信号４１を、映像ストリームデータ４２に低遅延で圧縮符号化する。また、映像符号化部３０１は、入力映像信号４１のフレーム周期に基づいて、映像フレームタイミング信号４３を出力する。

映像ストリームデータ・音声ストリームデータ多重化部３０２は、入力される映像ストリームデータ４２と音声ストリームデータ５１を、ＭＰＥＧ２−ＴＳフォーマットに多重化する。

ＰＥＳヘッダー生成部３０３は、映像信号のフレーム単位で、音声ストリームデータのＳＭＰＴＥ３０２Ｍ規格のＰＥＳヘッダー４８を生成する。

ＡＥＳ３ペイロード生成部３０４は、入力音声信号４４から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびＺフラグを抽出して、ＳＭＰＴＥ３０２Ｍ規格のＡＥＳ３ペイロードデータ４７を生成する。

ＡＥＳ３ヘッダー生成部３０５は、入力音声信号４４のステータス情報と、映像１フレーム中の音声サンプル数４６と、に基づいてＡＥＳ３ペイロードサイズを計算し、計算したペイロードサイズを含むＡＥＳ３ヘッダー４９を生成する。

非圧縮音声ストリームデータ生成部３０６は、ＰＥＳヘッダー生成部３０３で生成したＰＥＳヘッダー４８と、ＡＥＳ３ペイロード生成部３０４で生成したＡＥＳ３ヘッダー４９と、ＡＥＳ３ヘッダー生成部３０５で生成したＡＥＳ３ペイロードデータ４７と、が入力されて、ＰＥＳヘッダー４８、ＡＥＳ３ヘッダー４９、ＡＥＳ３ペイロードデータ４７の順で選択し、非圧縮の音声ストリームデータ５０として出力する。ここで、音声ストリームデータ５０は、ＳＭＰＴＥ３０２Ｍ規格で定められるＭＰＥＧ−２ＰＥＳパケットの形式である。

遅延メモリ３０７は、入力される音声ストリームデータ５０を一時的に保持し、映像ストリームデータ４２の符号化遅延に合わせて遅延調整する。

プリカウンタ部３０８は、入力音声信号３４について、１フレーム中のサンプル数を、所定のフレーム分連続でカウントする。プリカウンタ部３０８は、入力される映像フレームタイミング信号４３に基づいて、映像信号のフレームのタイミングで、直前フレームで入力音声信号３４のサンプル数をカウントし、カウントしたプリカウンタ値４５を出力する。ここでは、プリカウンタ部３０８は、入力音声信号４４について、１フレーム中のサンプル数を、映像５フレーム分連続でカウントする。

サンプル数予測部３０９は、１フレーム中の音声サンプル数を所定のフレーム分取り込み、次のフレームの音声サンプル数を予測する。サンプル数予測部３０９は、プリカウンタ値４５に基づいて次のフレームの音声サンプル数を予測し、予測音声サンプル数４６を出力する。ここでは、サンプル数予測部３０９は、１フレーム中の音声サンプル数を、５回分（５フレーム分）取り込み、次のフレームの音声サンプル数を予測する。

音声入力監視部３１０は、映像フレーム中の入力音声信号４４の異常を検出し、異常を検出した場合には、次の映像フレームまでの間、アラーム信号５３を出力し続ける。音声入力監視部３１０は、入力音声信号４４を監視し、入力音声信号４４が不連続であるとの異常を検出した場合には、次の映像フレームまでの間異常であるとの判定を継続し、アラーム信号５３を出力し続ける。

ＭＵＴＥ回路３１１は、アラーム信号５３を受けている間、ＡＥＳ３ペイロードデータ４７をダミーデータに置き換える。ＭＵＴＥ回路３１１は、ＡＥＳ３ペイロードデータ４７に関して、アラーム信号５３によりアラームが発生したタイミングから、そのタイミングのＡＥＳ３ペイロードデータ４７の最後のデータまでを、ダミーデータ（例えば'０'データ）に置き換え、異常パケットを出力しないように処置する。

本実施の形態によれば、音声入力監視部３１０およびＭＵＴＥ回路３１１を更に備えることで、入力音声信号４４に異常を検出した場合には、異常パケットを出力しないように処置することが可能となる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

２０１、３０１、５０１映像符号化部、
２０２、３０２、５０２映像ストリームデータ・音声ストリームデータ多重化部、
２０３、３０３ＰＥＳヘッダー生成部、
２０４、３０４ＡＥＳ３ペイロード生成部、
２０５、３０５ＡＥＳ３ヘッダー生成部、
２０６、３０６非圧縮音声ストリームデータ生成部、
２０７、３０７遅延メモリ、
２０８、３０８プリカウンタ部、
２０９、３０９サンプル数予測部、
３１０音声入力監視部、
３１１ＭＵＴＥ回路、
５０３音声処理部、
６０１映像パケットのヘッダーを生成する手段、
６０２音声サンプル数をカウントする手段、
６０３音声サンプルを予測する手段、
６０４音声パケットのヘッダーを生成する手段、
６０５音声のデジタルデータに変換する手段、

２１、４１入力映像信号、
２２、４２映像ストリームデータ、
２３、４３映像フレームタイミング信号、
２４、４４入力音声信号、
２５、４５プリカウンタ値、
２６、４６予測音声サンプル数、
２７、４７ＡＥＳ３ペイロードデータ、
２８、４８ＰＥＳヘッダー、
２９、４９ＡＥＳ３ヘッダー、
３０、５０音声ストリームデータ、
３１、５１音声ストリームデータ、
３２、５２ＭＰＥＧ−２ＴＳストリームデータ、
５３アラーム信号、

Claims

所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、
前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、
所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備え、
前記音声処理部は、
前記入力映像信号に基づいて前記映像パケットのヘッダーを生成する手段と、
前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントする手段と、
前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段と、
前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成する手段と、
前記入力音声信号を前記音声のデジタル化データに変換する手段と、
を備える映像音声処理装置。
前記音声処理部は、
前記入力音声信号の異常を検出した場合に、次の前記入力映像信号の次の映像フレームまでの間、アラーム信号を出力し続ける手段と、
前記アラーム信号を受けている間、前記音声のデジタル化データをダミーデータに置き換えて出力する手段と、を更に備える
ことを特徴とする請求項１に記載の映像音声処理装置。
前記音声処理部は、
前記映像ストリームデータのタイミングに合うように前記音声ストリームデータを遅延させて出力する遅延メモリを更に備える
ことを特徴とする請求項１又は２に記載の映像音声処理装置。
所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、
前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、
所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備える映像音声処理装置における映像音声処理方法であって、
前記入力映像信号に基づいて前記映像パケットのヘッダーを生成するステップと、
前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントするステップと、
前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測するステップと、
前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成するステップと、
前記入力音声信号を前記音声のデジタル化データに変換するステップと、
を含む映像音声処理方法。
前記入力音声信号の異常を検出した場合に、次の前記入力映像信号の次の映像フレームまでの間、アラーム信号を出力し続けるステップと、
前記アラーム信号を受けている間、前記音声のデジタル化データをダミーデータに置き換えて出力するステップと、
を更に含むことを特徴とする請求項４に記載の映像音声処理方法。
遅延メモリを用いて、前記映像ストリームデータのタイミングに合うように前記音声ストリームデータを遅延させて出力するステップ
を更に含むことを特徴とする請求項４又は５に記載の映像音声処理方法。