JP2005234122A

JP2005234122A - 画像符号化装置

Info

Publication number: JP2005234122A
Application number: JP2004041776A
Authority: JP
Inventors: Hiroshi Segawa; 浩瀬川; Yoshinori Matsuura; 慶典松浦
Original assignee: Renesas Technology Corp
Current assignee: Renesas Technology Corp
Priority date: 2004-02-18
Filing date: 2004-02-18
Publication date: 2005-09-02

Abstract

【課題】再生不能な不正フレームが含まれたオーディオストリームを正常に再生することが可能な画像符号化装置を提供する。
【解決手段】不正フレームが含まれていないときには、不正検出回路１０によってマルチプレクサ１１はオーディオストリーム側に入力を切り換え、外部から入力されるオーディオストリームをシステム多重化装置８に出力する。不正フレームが含まれるときは、不正フレームが外部から送られる間、不正検出回路１０によってマルチプレクサ１１はオーディオ圧縮装置９側に入力を切り換え、マルチプレクサ１２は無音のオーディオ信号側に入力を切り換える。オーディオ圧縮装置９は、無音のオーディオ信号を圧縮して無音フレームを出力し、不正フレームが無音フレームに変換されたオーディオストリームがシステム多重化装置８に出力される。
【選択図】図５

Description

本発明は画像符号化装置に関するものであり、特に再生不能なフレームが含まれるオーディオストリームが入力された場合に正常に再生されるよう変換処理を行なう画像符号化装置に関するものである。

近年、デジタルＡＶ機器に多く用いられる画像符号化装置として、国際標準画像圧縮規格であるＭＰＥＧ（Moving Picture Experts Group）２に準拠した画像符号化装置がある。

ＭＰＥＧ２規格に準じた画像符号化処理は、ビデオ圧縮処理と、オーディオ圧縮処理と、システム多重化処理の３つの階層（レイヤ）から構成される。画像符号化装置とは、ビデオ圧縮装置、オーディオ圧縮薮置、システム多重化装置から構成される装置の総称である。

図１６は、画像符号化装置の構成の一例を示すブロック図である。図１６を参照して、画像符号化装置１０１は、デジタル化されたビデオ信号を圧縮してビデオストリームを出力するビデオ圧縮装置１０２と、デジタル化されたオーディオ信号を圧縮してオーディオストリームを出力するオーディオ圧縮装置１０３と、ビデオストリームとオーディオストリームとを多重化して多重化ストリームを出力するシステム多重化装置１０４とを備える。

ＭＰＥＧ２規格では、ＭＰＥＧ２規格で定めた以外のオーディオ圧縮の方式も許容される。よって、ＭＰＥＧ２規格に対応したデジタルＡＶ機器の多くは、ＭＰＥＧ２規格の方式を採用せず、ＭＰＥＧ１（ｌａｙｅｒ２）やＤＯＬＢＹＡＣ−３（Ｒ）（以後、ＡＣ−３と称する）やリニアＰＣＭ（以後、ＬＰＣＭと称する）といった方式を採用している。

画像符号化処理は、信号圧縮やシステム多重化に膨大な処理能力を費やす。よって、画像符号化処理装置の有する機能は予め制限される場合が多い。特に、オーディオ圧縮処理について、多くの画像符号化装置は、通常の再生で必要な２チャネル分のオーディオデータの圧縮のみ対応し、拡張的な機能である多チャネルのオーディオデータの圧縮処理は対応していない。

ただし、画像符号化装置の利用形態が将来的に拡張されることが予想される。よって、画像符号化装置は、圧縮された多チャネルのオーディオデータも出力できなくてはならない。このような要請への対応のため、画像符号化装置は外部装置から受けた多チャネルのオーディオストリームを、そのまま出力する。

図１７は、機能を拡張した画像符号化装置の構成の一例を示すブロック図である。図１７を参照して、画像符号化装置１０１は、ビデオ圧縮装置１０２と、オーディオ圧縮装置１０３と、システム多重化装置１０４と、外部からオーディオ入力モード信号を受けて、オーディオ圧縮装置１０３から受けたオーディオストリームを出力するか、外部から受けたオーディオストリームをそのまま出力するかを選択するマルチプレクサ１０７とを備える。

ビデオストリームとオーディオストリームとを多重化して多重化ストリームを出力する装置の例として、特開平１１−１１２９４４号公報（特許文献１）では受信データを複数のデータに分離して他のデータと結合する際に、分離されたそれぞれのデータの処理単位が異なることによって生じるギャップを補完してデータの連続性を確保することが可能な情報処理装置が開示される。
特開平１１−１１２９４４号公報

衛星放送受信機のセットトップボックスは、電波として受信した多重化ストリームを分離してオーディオストリームを取り出し、伸張処理によってオーディオ信号に復号する機能を備えている。

ただし、セットトップボックスで伸張処理が可能なオーディオ圧縮方式は限定される場合がある。たとえば、セットトップボックスで伸張処理未対応な多チャネルのストリームが入力されると、オーディオストリームは外部端子からそのまま出力される。

従来の画像符号化装置は、特定の外部オーディオ圧縮装置と接続されていたので、入力されるオーディオストリームの圧縮方式や設定モードはあらかじめ決定されていた。よって、従来の画像符号化装置は定められた圧縮方式や設定モードに従って、オーディオストリームにシステム多重化処理を行なっていた。

しかし、従来の画像符号化装置にセットトップボックスを接続した場合には、以下に示すような課題がある。

まず、画像符号化装置には想定外の種別のオーディオストリームが画像符号化装置に入力されたときの対応がなされていないという課題がある。セットトップボックスからはＡＣ−３、ＬＰＣＭ、ＭＰＥＧ、ＤＴＳ（Digital Theater System) （Ｒ）といった種別のオーディオストリームが入力される。また、同一のオーディオストリームの種別であってもビットレートやチャネルといったモードが異なる場合がある。

次に、セットトップボックスから受けるオーディオストリームの種別やモードが受信途中で変化することにより、画像符号化装置から出力される多重化ストリームが再生装置において伸張できなくなるという課題がある。オーディオストリームの種別やモードが受信途中で変化する場合とは、たとえば放送受信中に番組を切り換えたような場合である。この場合、特に、記録途中でオーディオストリームの種別やモードが変化することが禁止されるＤＶＤでは記録内容が再生できないという課題が生じる。

さらに、電波障害によって破壊されたデータを含むオーディオストリームが画像符号化装置に入力される場合がある。この場合も、想定外の種別のオーディオストリームが画像符号化装置に入力された場合と同様に、画像符号化装置の対応がなされていないという課題がある。

以後において、このようなオーディオストリームの入力中にストリーム種別やモードが変化して規格違反のフォーマットとなる多重化ストリームが生成される場合、または電波障害等で破壊されたデータを含むオーディオストリームが入力された場合を不正ストリームが入力された場合と定義する。

従来の画像符号化装置は、入力されたストリームが不正ストリームであるときの処理は考慮されていない。よって特許文献１には、このような不正ストリームが入力されたときの処理は開示されていない。

本発明は上記の問題点を解決するためになされたものであって、その目的は、オーディオストリームを外部から入力することができるような画像符号化装置において、上記のような不正ストリームが入力された場合においても正常な多重化ストリームあるいは再生動作上問題ない多重化ストリームを生成することを可能とすることである。

本発明は要約すれば画像符号化装置であって、ビデオストリーム生成手段と、オーディオストリーム生成手段と、多重化手段とを備える。

ビデオストリーム生成手段は、ビデオ信号が圧縮されたビデオストリームを出力する。

オーディオストリーム生成手段は、受けたオーディオストリームが正常フレームと音声が再生されない不正フレームとを含む不正オーディオストリームであった場合は不正フレームを無音に再生される無音フレームに変換して出力し、オーディオストリームが正常フレームのみを含む正常オーディオストリームであった場合はオーディオストリームをそのまま出力する。

多重化手段は、ビデオストリームとオーディオストリームとを受けて多重化ストリームを生成する。

本発明の画像符号化装置は、不正ストリームが入力された場合においても正常な多重化ストリームあるいは再生動作上問題ない多重化ストリームを生成することができる。

以下において、本発明の実施の形態について図面を参照して詳しく説明する。なお、図中同一符号は同一または相当部分を示す。

［実施の形態１］
図１は、本発明の画像符号化装置の応用例を示すブロック図である。図１を参照して、画像符号化装置１は、セットトップボックス２から送られるビデオ信号と、オーディオ信号かオーディオストリームのいずれかを受けて多重化ストリームを出力する。セットトップボックス２は、アンテナ３によって受信された多重化ストリームを分離する機能と、分離されたストリームを伸長する機能を備える。

セットトップボックス２は、受信した多重化ストリームをビデオストリームとオーディオストリームとに分離する。各々のストリームは、伸長処理が行われてアナログ信号として出力される。出力されたアナログ形式のビデオ信号およびオーディオ信号は、Ａ／Ｄ変換器４，５によってデジタル形式の信号に変換される。デジタル信号に変換されたオーディオ信号とビデオ信号は画像符号化装置１に送られる。

セットトップボックス２は、受信した多重化ストリームに対応していない圧縮方式のオーディオストリームが含まれる場合には、オーディオストリームを画像符号化装置１に直接送る。

セットトップボックス２は、さらに、オーディオ信号を出力したかオーディオストリームを出力したかを知らせる入力モード信号を画像符号化装置１に送る。

図２は、本発明の画像符号化装置において生成される多重化ストリームの模式図である。図２を参照して、まず、画像符号化装置１にデジタル形式のオーディオ信号とデジタル形式のビデオ信号が入力される。ビデオ信号とオーディオ信号は、フレームと称される圧縮処理の単位ごとに生成されたデータを複数備える。図２では、ビデオ信号はフレームＶ１〜Ｖ８を含み、オーディオ信号はフレームＡ１〜Ａ４を含む。

次に、画像符号化装置１は、フレーム単位にビデオ信号を圧縮してビデオストリームを生成する。また、画像符号化装置１は、同様にフレーム単位にオーディオ信号を圧縮してオーディオストリームを生成する。

続いて、ビデオストリームとオーディオストリームとが時分割多重化されて多重化ストリームが生成される。

図３は、本発明の画像符号化装置によるストリーム変換処理を示す模式図である。図３を参照して、オーディオストリームは８個のフレームを含む。図３において、「フレーム変換前」と示されるオーディオストリームＡ０１は、伸張処理後に音声が正しく再生されないフレームＢ１を含む。セットトップボックス２からこのようなフレームを含むオーディオストリームが入力されると、本発明の画像符号化装置１は、該当のフレームを再生時に無音で再生されるフレームに変換する。

図３において、「フレーム変換後」と示されるオーディオストリームＡ０２は、無音で再生されるフレームＣ１を含む。フレームＣ１は、画像符号化装置１によってフレームＢ１が変換されたフレームである。

なお、説明の便宜のため以後においては、伸張処理後に音声が正しく再生されないフレームは「不正フレーム」と称され、再生時に無音で再生されるフレームは「無音フレーム」と称される。

図４は、ＭＰＥＧ方式のオーディオフレームの構成を示す図である。図４を参照して、オーディオストリームは、複数のＡＡＵ（Audio Access Unit、オーディオ復号単位）と称されるフレームから構成される。ＡＡＵは、圧縮されたデータをオーディオ信号に復号できる最小の単位のデータである。ＡＡＵは、ヘッダと、データのエラーをチェックするＣＲＣ（Cyclic Redundancy Check、巡回冗長検査）コードと、オーディオデータと、オーディオ以外の任意のデータが含まれる外部データとから構成される。

ＣＲＣコードは、オーディオデータから生成される１６ビットのコードである。元のデータが変更されると、生成されるＣＲＣコードは元のＣＲＣコードと異なる。この特徴を利用して予めＡＡＵに含まれるＣＲＣコードと、受信したフレームに含まれるオーディオデータから生成したＣＲＣコードを比較して、フレームが正常かどうかが判断される。

図５は、実施の形態１の画像符号化装置の構成の一例を示すブロック図である。図５を参照して、画像符号化装置１は、デジタル形式のビデオ信号を圧縮してビデオストリームを出力するビデオ圧縮装置６と、オーディオ信号あるいはオーディオストリームのいずれかを受けてオーディオストリームを出力するオーディオストリーム生成部７と、ビデオ圧縮装置６から出力されたビデオストリームと、オーディオストリーム生成部７から出力されたオーディオストリームとを受けて多重化ストリームを出力するシステム多重化装置８とを備える。

オーディオストリーム生成部７は、デジタル形式のオーディオ信号を受けてオーディオ信号を圧縮してオーディオストリームを生成するオーディオ圧縮装置９と、外部からオーディオ入力モード信号を受けてオーディオストリーム入力が指示されると入力されたオーディオストリームを解析し、圧縮方式やフレームに誤りがないかを検出する不正検出回路１０と、不正検出回路から送られる選択信号１を受けてオーディオ圧縮装置９が生成したオーディオストリームか、外部から入力されたオーディオストリームかのいずれかを出力するよう選択するマルチプレクサ１１を含む。

オーディオストリーム生成部７は、さらに、不正検出回路１０から送られる選択信号２を受けて、外部から受けたオーディオ信号か、画像符号化装置１の図示しない内部で生成される無音のオーディオ信号をオーディオ圧縮装置９に送るかを選択するマルチプレクサ１２を含む。なお、無音のオーディオ信号は、図中では“０”と示される。

図１の画像符号化装置１のオーディオストリーム変換処理について説明する。不正検出回路１０はオーディオストリームを受けて、オーディオストリームに不正フレームが含まれていないかどうかを検知する。不正フレームが含まれていないときには、不正検出回路１０によってマルチプレクサ１１はオーディオストリーム側に入力を切り換え、外部から入力されるオーディオストリームをシステム多重化装置８に出力する。不正フレームが含まれるときは、不正フレームが外部から送られる間、不正検出回路１０によってマルチプレクサ１１はオーディオ圧縮装置９側に入力を切り換え、マルチプレクサ１２は無音のオーディオ信号側に入力を切り換える。オーディオ圧縮装置９は、無音のオーディオ信号を圧縮して無音フレームを出力し、不正フレームが無音フレームに変換されたオーディオストリームがシステム多重化装置８に出力される。

なお、無音のオーディオ信号とはデジタルの値が「０」の信号である。したがって無音のオーディオ信号は、さまざまな方法によって生成される。たとえば、不正検出回路１０から信号出力の指示を受けてＬレベルの信号を発生させる、図示されない信号発生回路によって無音のオーディオ信号が生成することが可能である。

また、オーディオ圧縮装置９は不正検出回路１０から、ビットレートやチャネルモード等に関する情報を示すモード信号を受けて、モードごとに異なる無音フレームを出力する。不正検出回路１０は、図４に示される、入力されるオーディオストリームのヘッダを解析する機能を備える。この機能によって圧縮方式やモード（ビットレートやチャネルモードなど）の変化を検出し、入力されるオーディオストリームが不正か否かを判断する。

図６は、実施の形態１の画像符号化装置の変形例を示すブロック図である。

図６を参照して、画像符号化装置１Ａは、ビデオ圧縮装置６と、オーディオストリーム生成部７Ａと、システム多重化装置８とを備える。これらの各部の機能は、図５における各部の機能と同様であるので説明は繰り返さない。

オーディオストリーム生成部７Ａは、オーディオ圧縮装置９と、不正検出回路１０と、マルチプレクサ１１とを含む。これらの各部の機能は図５における各部の機能と同様であるので説明は繰り返さない。

なお、マルチプレクサ１１は外部からオーディオ入力モード信号を直接受けて、オーディオ圧縮装置９が生成したオーディオストリームか、外部から入力されたオーディオストリームかのいずれかを出力するよう選択する。図６ではオーディオ入力モード信号は選択信号１と表わされる。

オーディオストリーム生成部７Ａは、さらに、不正フレームを含むオーディオストリームが入力されると不正フレームを無音フレームに変換して、オーディオストリームを出力するストリーム変換部１３を含む。

ストリーム変換部１３は、圧縮方式ごとに各々対応する無音フレームを保持するＲＯＭ１４と、不正検出回路１０から選択信号２を受けて、入力されるオーディオストリームが正常であれば入力されたオーディオストリームをそのまま出力し、不正フレームが含まれるオーディオストリームが入力されると、ＲＯＭ１４によって不正フレームが無音フレームに変換されたオーディオストリームを出力するよう選択するマルチプレクサ１５を含む。

なお、ＲＯＭ１４は、不正検出回路１０から圧縮方式に関する情報を示すモード信号を受けて、圧縮方式ごとに異なる無音フレームを出力する。また、ＲＯＭ１４に保持される無音フレームは、予めコンピュータ等で生成されてＲＯＭ１４に書込まれる。

図７は、実施の形態１の画像符号化装置の別の変形例を示すブロック図である。

図７を参照して、画像符号化装置１Ｂは、ビデオ圧縮装置６と、オーディオストリーム生成部７Ｂと、システム多重化装置８とを備える。これらの各部の機能は、図５における各部の機能と同様であるので説明は繰り返さない。

オーディオストリーム生成部７Ｂは、オーディオ圧縮装置９と、不正検出回路１０と、マルチプレクサ１１とを含む。これらの各部の機能は、図６における各部の機能と同様であるので説明は繰り返さない。

オーディオストリーム生成部７Ｂは、さらに、不正フレームを含むオーディオストリームが入力されると、不正検出回路１０から変更指示を受けて該当のフレームに含まれるＣＲＣコードを書換えるＣＲＣコード変更回路１６を含む。

オーディオストリームを再生する伸長装置は、ＣＲＣコードエラーのフレームがオーディオストリームに含まれる場合、該当のフレームが無音で出力されるよう処理を行なう。したがってＣＲＣコードが書き換えられたフレームは無音フレームになる。

図６のＲＯＭ１４は不正フレームを無音フレームに変換するため、複数の再生モードにそれぞれ応じた複数の無音フレームを保持するだけの記憶容量を有する必要がある。一方、図７のＣＲＣコード変更回路１６は不正フレームに含まれるＣＲＣコードを、たとえば１ビット書き換えることで不正フレームを無音フレームに変換できる。よって、図７のＣＲＣコード変更回路１６は、図６のＲＯＭ１４よりも小規模の回路で構成することが可能である。

図８は、実施の形態１の画像符号化装置のさらに別の変形例を示すブロック図である。図８を参照して、画像符号化装置１Ｃは、ビデオ圧縮装置６と、オーディオストリーム生成部７Ｃと、システム多重化装置８とを備える。これらの各部の機能は、図５における各部の機能と同様であるので説明は繰り返さない。

オーディオストリーム生成部７Ｃは、オーディオ圧縮装置９と、不正検出回路１０と、マルチプレクサ１１とを含む。これらの各部の機能は、図６における各部の機能と同様であるので説明は繰り返さない。

オーディオストリーム生成部７Ｃは、さらに、不正なフレームを含むオーディオストリームが入力されたときに不正なフレームを無音で再生されるフレームに置き換えるストリーム変換部１３を含む。

ストリーム変換部１３は、不正フレームを受けてフレームに含まれるデータをダミーデータに変換するダミーデータ生成回路１７と、不正検出回路１０から選択信号２を受けて、入力されるオーディオストリームが正常であれば入力されたオーディオストリームをそのまま出力し、不正フレームが含まれるオーディオストリームが入力されると、不正フレームがダミーデータ生成回路によって無音フレームに変換されたオーディオストリームを出力するよう選択するマルチプレクサ１５を含む。

図８の画像符号化装置１Ｃのオーディオストリーム変換処理について説明する。不正フレームを含むオーディオストリームが入力されると、ダミーデータ生成回路１７は、不正検出回路１０から再生モードに関する情報を示すモード信号を受けて、ダミーデータを含むフレームを出力する。ダミーデータは、フレームがＣＲＣコードチェックでエラーとなるように生成される。

ダミーデータ生成回路１７から出力されるフレームは、たとえば、不正フレームに含まれるオーディオデータがすべてデジタルの「０」となるダミーデータに変換されたフレームである。また、たとえばダミーデータ生成回路１７に予め保持されるヘッダと上述のダミーデータを合わせたフレームが、ダミーデータ生成回路１７から出力されるフレームの別の例として考えられる。

図８の画像符号化装置のダミーデータ生成回路１７は、図７におけるＣＲＣコード変更回路１６と同様に、図６のＲＯＭ１４よりも小規模の回路で構成することが可能であるという利点を有する。

図９は、実施の形態１の画像符号化装置のさらに別の変形例を示すブロック図である。図９を参照して、画像符号化装置１Ｄは、ビデオ圧縮装置６と、オーディオストリーム生成部７Ｄと、システム多重化装置８とを備える。これらの各部の機能は、図５における各部の機能と同様であるので説明は繰り返さない。

オーディオストリーム生成部７Ｄは、オーディオ圧縮装置９と、不正検出回路１０と、マルチプレクサ１１とを含む。これらの各部の機能は、図６における各部の機能と同様であるので説明は繰り返さない。

オーディオストリーム生成部７Ｄは、さらに、不正なフレームを含むオーディオストリームが入力されたときに不正なフレームを無音で再生されるフレームに置き換えるストリーム変換部１３を含む。

ストリーム変換部１３は、オーディオストリームを一旦保持するバッファ２１と、不正検出回路１０から選択信号３を受けて、入力されるオーディオストリームが正常であれば入力されたオーディオストリームをそのまま出力し、入力されるオーディオストリームに不正フレームが含まれる場合には、フレーム変換処理を行なうようオーディオストリームの出力先を切り換えるセレクタ２２と、セレクタ２２から受けるオーディオストリームを所定の再生モードのオーディオストリームに変換する音声復号部２３と、不正検出回路１０から通知信号を受けて音声復号部２３で変換されたオーディオストリームの不正フレームを所定の圧縮方式の無音フレームに変換する音声符号部２４とを含む。なお、音声復号部２３と音声符号部２４とは音声修正部を構成する。

ストリーム変換部１３は、さらに、マルチプレクサ１５を含む。図９におけるマルチプレクサ１５の機能は、図６におけるマルチプレクサ１５の機能と同様であるので以後の説明は繰り返さない。

図９の画像符号化装置１Ｄのオーディオストリーム変換処理について説明する。正常なオーディオストリームはバッファ２１からセレクタ２２に送られ、マルチプレクサ１５とマルチプレクサ１１とを経由してシステム多重化装置８に出力される。不正フレームを含むオーディオストリームのうち正しいフレームは、音声復号部２３で所定の圧縮方式に従い、オーディオ信号に変換されて、音声符号部２４に送られる。音声符号部２４では不正フレームは無音フレームに変換される。

オーディオストリームに不正フレームが一定数以上連続して含まれる場合には、連続する不正フレームは、ビットレートがより低い圧縮方式の無音フレームに変換される。不正フレームがビットレートのより低い無音フレームに変換されることにより、たとえばＤＶＤなどの記録メディアに多重化ストリームをより長時間記録することができる。

音声符号部２４による不正フレームのビットレートの変換例には、たとえばＬＰＣＭ（ビットレート１５３６Ｋｂｐｓ）方式から、ＡＣ−３（ビットレート２５６Ｋｂｐｓ）方式への変換がある。また、音声符号部２４では圧縮方式を変えずにビットレートを下げることも行なわれる。再生モードを変えずにビットレートを下げた変換例には、たとえば、ＡＣ−３（ビットレート２５６Ｋｂｐｓ）方式からＡＣ−３（ビットレート６４Ｋｂｐｓ）方式への変換がある。

図１０は、図９の画像符号化装置によって処理されるオーディオストリームの模式図である。図１０を参照して、「入力ストリーム」と示されるＬＰＣＭ方式のオーディオストリームＡ１０は、不正フレームＢ１０，Ｂ１１を含む。不正フレームＢ１０は再生時間が所定の時間未満となるフレームであり、不正フレームＢ１１は再生時間が所定の再生時間以上となるフレームである。

所定の再生時間は、たとえば１ＧＯＰ（Group of Picture）の再生時間に設定される。ＧＯＰとはビデオストリームに含まれるピクチャデータが一定数（たとえば１５枚）まとめられた、画像再生の１単位を示す。１ＧＯＰの再生時間は約０．５秒である。

図１０において、「フレーム変換後ストリーム」と示されるオーディオストリームＡ１１は、不正フレームが音声符号部２４によって無音フレームに変換された後のオーディオストリームを示す。不正フレームＢ１０は同一の圧縮方式、すなわちＬＰＣＭ方式の無音フレームＣ１０に変換される。不正フレームＢ１１は、よりビットレートの低い圧縮方式、たとえば、ＡＣ−３方式の無音フレームＣ１１に変換される。

音声再生時における無音状態は情報量を必要としていない。したがってデータを高圧縮することが可能となる。すなわち、オーディオストリームＡ１０と比較するとオーディオストリームＡ１１のデータ長は短くなる。よって、記録メディアにより長時間の多重化ストリームを記録することができる。

図１１は、図９の画像符号化装置１Ｄによるフレーム変換処理を示すフローチャートである。フレーム変換処理は、たとえば、ソフトウェアがコンピュータに実行させることで実現される。

図１１を参照して、まず処理が開始されるとステップＳ１ではオーディオ信号が入力されるかオーディオストリームが入力されるかを示す選択信号１が画像符号化装置１Ｄに入力される。

続いてステップＳ２では、マルチプレクサ１１によって選択信号１がオーディオ信号の入力を示すかオーディオストリームの入力を示すかが判断される。ステップＳ２において、選択信号１がオーディオ信号の入力を示す場合はステップＳ３に進む。

ステップＳ３では、オーディオ信号の入力を示す選択信号１を受けたマルチプレクサ１１が、オーディオ圧縮装置９からオーディオストリームを受けるよう設定される。ステップＳ３に続いてステップＳ１２では、オーディオ信号がオーディオ圧縮装置９によって圧縮され、オーディオ圧縮装置９からオーディオストリームが出力される。ステップＳ１２においてオーディオ圧縮装置９によるオーディオ信号圧縮処理が行なわれると後述するステップＳ１５に進む。

一方、ステップＳ２において選択信号１がオーディオストリームの入力を示す場合はステップＳ４に進む。ステップＳ４では、オーディオストリームの入力を示す選択信号１を受けたマルチプレクサ１１が、ストリーム変換部１３から出力されるオーディオストリームを受けるよう設定される。続いてステップＳ５では、外部から入力されるオーディオストリームが正常であるか、すなわち不正フレームを含まないかどうかが不正検出回路１０によって検知される。

ステップＳ５において、オーディオストリームが正常、すなわち不正フレームを含まないと不正検出回路１０によって検知される場合はステップＳ６に進む。

ステップＳ６では、セレクタ２２は不正検出回路１０から選択信号３を受けてバッファ２１から受けるオーディオストリームの出力先をマルチプレクサ１５に選択する。ステップＳ６に続いてステップＳ８では、マルチプレクサ１５は選択信号２を受けてセレクタ２２からオーディオストリームを受けるよう設定される。

ステップＳ８に続いてステップＳ１４では、外部から入力されたオーディオストリームがバッファ２１とセレクタ２２を経由してマルチプレクサ１５から出力される。ステップＳ１４においてマルチプレクサ１５からオーディオストリームが出力されると、後述するステップＳ１５に進む。

ステップＳ５において、オーディオストリームが不正フレームを含むと不正検出回路１０によって検知される場合は、ステップＳ７に進む。

ステップＳ７では、セレクタ２２は不正検出回路１０から選択信号３を受けてバッファ２１から受けるオーディオストリームの出力先を音声復号部２３に選択する。ステップＳ７に続いてステップＳ９では、マルチプレクサ１５は選択信号２を受けて音声符号部２４からオーディオストリームを受けるよう設定される。

ステップＳ９に続いてステップＳ１０では、不正検出回路１０によって不正フレームの再生時間が所定時間以上連続するかかどうかが判断される。再生時間の基準は、たとえば上述の１ＧＯＰに設定される。

ステップＳ１０において、不正フレームの再生時間が所定時間以上連続すると判断されると、ステップＳ１１に進む。ステップＳ１１では、不正フレームはストリーム変換部１３によって、ビットレートのより低い圧縮方式のフレームに変換される。ステップＳ１１で不正フレームが変換されると、ステップＳ１３に進む。

また、ステップＳ１０において、不正フレームの再生時間が所定時間未満であると判断されると、ステップＳ１１と同様にステップＳ１３に進む。

ステップＳ１３では、不正フレームは音声符号部２４によって無音フレームに変換される。ステップＳ１３で不正フレームが無音フレームに変換されると、続いてステップＳ１４に進む。

ステップＳ１４では、音声符号部２４によってビットレートの低い無音フレームに変換された不正フレームを含むオーディオストリームがマルチプレクサ１５から出力される。ステップＳ１４においてマルチプレクサ１５からオーディオストリームが出力されると、ステップＳ１５に進む。

ステップＳ１５では、マルチプレクサ１１がオーディオストリームを出力する。マルチプレクサ１１は、ステップＳ１２においてオーディオ圧縮装置９から出力されるオーディオストリームか、ステップＳ１４においてマルチプレクサ１５から出力されるオーディオストリームかのいずれかのオーディオストリームを出力する。

ステップＳ１５でオーディオストリームが出力されると処理が終了する。

図１２は、ストリーム変換部１３の変形例を示す図である。図１２を参照して、ストリーム変換部１３は、バッファ２１と、セレクタ２２と、マルチプレクサ１５とを含む。これらの各部の機能は図９における各部の機能と同様であるので説明は繰り返さない。

ストリーム変換部１３は、さらに、ＬＰＣＭ方式の無音フレームを生成するＬＰＣＭデータ生成部３１と、ＡＣ−３方式の無音フレームのデータを生成するＡＣ−３データ生成部３２とを含む。ＬＰＣＭデータ生成部３１やＡＣ−３データ生成部３２は、たとえばＲＯＭから構成される。

セレクタ２２は、不正検出回路１０から選択信号３を受けて、不正フレームをＬＰＣＭデータ生成部３１かＡＣ−３データ生成部３２のいずれかに出力するよう選択する。ＬＰＣＭデータ生成部３１とＡＣ−３データ生成部３２は不正検出回路１０から通知信号を受けて、不正フレームと同一の圧縮方式でよりビットレートの低い無音フレームや、不正フレームの圧縮方式よりもビットレートの低い圧縮方式の無音フレームを出力する。

図１３は、ストリーム変換部１３のさらに別の変形例を示す図である。不正フレームを単純に無音のフレームに置き換えただけでは切り換え前後で再生音が不連続となりノイズが発生する。図１３のストリーム変換部１３はこのような問題を解決する。

図１３を参照して、ストリーム変換部１３は、バッファ２１と、セレクタ２２と、マルチプレクサ１５とを含む。これらの各部の機能は図９における各部の機能と同様であるので説明は繰り返さない。

ストリーム変換部は、さらに、該当の不正フレームの直後のフレームにフェードイン処理を施すフェードイン回路４１と、該当の不正フレームの直前のフレームにフェードアウト処理を施すフェードアウト回路４２とを含む。フェードイン処理とは再生音の音量を時間経過とともに増加させる処理である。フェードアウト処理とは再生音の音量を時間経過とともに減衰させる処理である。

図１３のストリーム変換部１３について、特に不正フレームを含むオーディオストリームが入力された場合の動作を説明する。不正検出回路１０によってオーディオストリームに含まれる不正フレームが検出されると、不正フレームの直前のフレームがフェードアウト処理の対象としてバッファ２１から出力される。バッファから出力された不正フレームの直前のフレームおよび不正フレームのオーディオデータはフェードアウト回路４２によってフェードアウト処理がなされる。不正フレームの出力が終了すると、直後のフレームに対してフェードイン回路４１によるフェードイン処理がなされる。

なお、不正フレームの直前のフレームはフェードアウト回路４２によってオーディオデータの一部が無音化される。続いて不正フレームに含まれるオーディオデータはフェードアウト回路４２によって、すべて無音化される。

図１４は、図１３のストリーム変換部１３の処理を示す模式図である。図１４を参照して、まず、時刻ｔ２において不正フレームが検出されると、ストリーム変換部１３は不正フレームの直前のフレームに対してフェードアウト処理を行なうため、バッファ２１に蓄積されたデータから直前のフレームを取り出す。

次に、フェードアウト回路４２によって、所定のフェードアウト時間に相当するデータに対してフェードアウト処理が行なわれる。なお、フェードインやフェードアウトの時間はさまざまに設定されるが、一例としては５〜１０ミリ秒に設定される。

時刻ｔ１から時刻ｔ２までにフェードアウト回路４２に入力される再生処理前のデータ、および時刻ｔ５から時刻ｔ６までにフェードイン回路４１に入力される再生処理前のデータの再生音量ＶＬ２はほぼ一定である。

時刻ｔ１〜ｔ２にフェードアウト回路４２に入力されるデータは、時刻ｔ３〜ｔ４においてフェードアウト回路４２から出力される。フェードアウト回路４２から出力される再生処理後のデータの再生音量は時刻ｔ３〜ｔ４において再生音量ＶＬ４から再生音量ＶＬ３に減衰する。

次に、時刻ｔ５〜ｔ６にフェードイン回路４１に入力されるデータは、時刻ｔ７〜ｔ８においてフェードイン回路４１から出力される。フェードイン回路４１から出力される再生処理後のデータの再生音量は時刻ｔ７〜ｔ８において再生音量ＶＬ３から再生音量ＶＬ４へと増加する。

図１５は、図１３のストリーム変換部１３の別の変形例を示す図である。図１５を参照して、ストリーム変換部１３は、バッファ２１と、セレクタ２２と、マルチプレクサ１５と、音声復号部２３と、音声符号部２４とを含む。これらの各部の機能は図９における各部の機能と同様であるので説明は繰り返さない。

ストリーム変換部は、さらに、フェードアウト回路４２と、フェードイン回路４１と、セレクタ４３と、マルチプレクサ４４とを含む。フェードアウト回路４２、フェードイン回路４１の機能は図１３における各々の機能と同様であるので説明は繰り返さない。

セレクタ４３の機能は、図１３におけるセレクタ２２の機能と同様である。また、マルチプレクサ４４の図１３におけるマルチプレクサ１５の機能と同様である。よって以後の説明は繰り返さない。

図１５のストリーム変換部１３について説明する。音声復号部２３は入力されるオーディオストリームの圧縮方式を解析し、所定の圧縮方式のオーディオストリームに変換する。音声復号部２３による圧縮方式の変換例としては、たとえば、ＡＣ−３方式からＬＰＣＭ方式への変換である。なお、所定の圧縮方式と同一方式のオーディオストリームが音声復号部２３に入力された場合、オーディオストリームは圧縮方式を変えずに出力される。

次に、オーディオストリームが不正フレームを含む場合には、フェードアウト回路４２によって不正フレームの直前のフレームにフェードアウト処理がなされ、フェードイン回路４１によって不正フレームの直後のフレームにフェードイン処理がなされる。フェードアウト処理とフェードイン処理は、図１３における処理と各々同様であるので説明は繰り返さない。

続いて、音声符号部２４によって不正フレームがビットレートのより低い無音フレームに変換されて出力される。

図１３のストリーム変換部１３は、単一の圧縮方式（たとえばＬＰＣＭ）のオーディオストリームに対応可能である。これに対し、図１５のストリーム変換部１３は種々の圧縮方式のオーディオストリームに対応可能であるという利点を有する。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の画像符号化装置の応用例を示すブロック図である。本発明の画像符号化装置において生成される多重化ストリームの模式図である。本発明の画像符号化装置によるストリーム変換処理を示す模式図である。ＭＰＥＧ方式のオーディオフレームの構成を示す図である。実施の形態１の画像符号化装置の構成の一例を示すブロック図である。実施の形態１の画像符号化装置の変形例を示すブロック図である。実施の形態１の画像符号化装置の別の変形例を示すブロック図である。実施の形態１の画像符号化装置のさらに別の変形例を示すブロック図である。実施の形態１の画像符号化装置のさらに別の変形例を示すブロック図である。図９の画像符号化装置によって処理されるオーディオストリームの模式図である。図９の画像符号化装置１Ｄによるフレーム変換処理を示すフローチャートである。ストリーム変換部１３の変形例を示す図である。ストリーム変換部１３のさらに別の変形例を示す図である。図１３のストリーム変換部１３の処理を示す模式図である。図１３のストリーム変換部１３の別の変形例を示す図である。画像符号化装置の構成の一例を示すブロック図である。機能を拡張した画像符号化装置の構成の一例を示すブロック図である。

符号の説明

１，１Ａ，１Ｂ，１Ｃ，１Ｄ，１０１画像符号化装置、２，セットトップボックス、３アンテナ、４，５Ａ／Ｄ変換器、６，１０２ビデオ圧縮装置、７，７Ａ，７Ｂ，７Ｃ，７Ｄ，オーディオストリーム生成部、８，１０４システム多重化装置、９，１０３オーディオ圧縮装置、１０不正検出回路、１１，１０７マルチプレクサ、１２マルチプレクサ、１３ストリーム変換部、１４ＲＯＭ、１５マルチプレクサ、１６ＣＲＣコード変更回路、１７ダミーデータ生成回路、２１バッファ、２２セレクタ、２３音声復号部、２４音声符号部、３１ＬＰＣＭデータ生成部、３２ＡＣ−３データ生成部、４１フェードイン回路、４２フェードアウト回路、４３セレクタ、４４マルチプレクサ、Ａ０１，Ａ０２，Ａ１０，Ａ１１オーディオストリーム、Ｂ１，Ｃ１フレーム、Ｂ１０，Ｂ１１不正フレーム、Ｃ１０，Ｃ１１無音フレーム、Ｓ１〜Ｓ１５ステップ、ＶＬ２〜ＶＬ４再生音量。

Claims

ビデオ信号が圧縮されたビデオストリームを出力するビデオストリーム生成手段と、
受けたオーディオストリームが正常フレームと音声が再生されない不正フレームとを含む不正オーディオストリームであった場合は前記不正フレームを無音に再生される無音フレームに変換して出力し、前記オーディオストリームが正常フレームのみを含む正常オーディオストリームであった場合は前記オーディオストリームをそのまま出力するオーディオストリーム生成手段と、
前記ビデオストリームと前記オーディオストリームとを受けて多重化ストリームを生成する多重化手段とを備える、画像符号化装置。
前記オーディオストリーム生成手段は、
前記オーディオストリームを受けて前記正常オーディオストリームか前記不正オーディオストリームかを検知する検知手段と、
前記検知手段の指示を受けて無音のオーディオ信号を圧縮して前記無音フレームを生成するオーディオ圧縮手段と、
前記検知手段の指示を受けて前記オーディオストリームと前記オーディオ圧縮手段の出力のいずれか一方を選択して出力する選択手段とを含む、請求項１に記載の画像符号化装置。
前記オーディオ圧縮手段は、
前記検知手段の指示を受けて通常のオーディオ信号の入力と前記無音のオーディオ信号の入力とを選択するセレクタと、
前記セレクタから出力されるオーディオ信号を圧縮してフレームを出力するオーディオ圧縮部とを有する、請求項２に記載の画像符号化装置。
前記オーディオストリーム生成手段は、
前記オーディオストリームを受けて前記正常オーディオストリームか前記不正オーディオストリームかを検知する検知手段と、
オーディオ信号を圧縮して第１のオーディオストリームを生成するオーディオ圧縮手段と、
前記オーディオストリームを受けて第２のオーディオストリームを出力するストリーム変換部と、
前記検知手段の指示を受けて前記第１のオーディオストリームと前記第２のオーディオストリームのいずれか一方を選択して出力する選択手段とを含む、請求項１に記載の画像符号化装置。
前記ストリーム変換部は、圧縮方式に応じた前記無音フレームを不揮発的に保持し、前記不正フレームを前記無音フレームに置き換えて前記第２のオーディオストリームを出力するフレーム記憶部を有する、請求項４に記載の画像符号化装置。
前記ストリーム変換部は、前記不正フレームが有する巡回冗長検査コードを書き換えて前記第２のオーディオストリームを出力するコード変更回路を有する、請求項４に記載の画像符号化装置。
前記ストリーム変換部は、前記不正フレームが有するデータから生成される巡回冗長検査コードが前記巡回冗長検査コードと一致しないように前記データを書き換えて前記第２のオーディオストリームを出力するデータ変換回路を有する、請求項４に記載の画像符号化装置。
前記ストリーム変換部は、前記不正フレームの再生時間が所定時間以上連続する場合には前記不正フレームをビットレートのより低い圧縮形式の前記無音フレームに変換し、前記不正フレームの再生時間が前記所定時間未満であれば前記不正フレームと同一の圧縮形式でビットレートのより低い前記無音フレームに変換して前記第２のオーディオストリームを出力する音声修正部を有する、請求項４に記載の画像符号化装置。
前記ストリーム変換部は、
前記不正フレームの直前のフレームのデータに時間経過とともに再生音量が減衰するフェードアウト処理を行なうフェードアウト回路と、
前記不正フレームの直後のフレームに時間経過とともに再生音量が増加するフェードイン処理を行なうフェードイン回路とを有する、請求項４に記載の画像符号化装置。