JPH11205750A

JPH11205750A - 映像音声多重化装置、及び映像と音声の多重化方法、並びに映像と音声を多重化するプログラムを記録した記録媒体

Info

Publication number: JPH11205750A
Application number: JP10005633A
Authority: JP
Inventors: Hideki Taniguchi; 秀樹谷口
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-01-14
Filing date: 1998-01-14
Publication date: 1999-07-30
Anticipated expiration: 2018-01-14
Also published as: JP3384311B2

Abstract

(57)【要約】【課題】従来の方法では多国語対応などで複数の音声
をするためには、蓄積メディアの蓄積容量が大きくな
る、伝送時の伝送帯域を大きくなる、複雑な演算処理が
必要になる等のいづれかの課題があった。【解決手段】複数の音声データを一つのデフォルト音
声データと、一つ以上のオプション音声データとして用
意し、デフォルト音声データと映像データを多重化して
多重化データを構成し、オプション音声データが選択さ
れた時には多重化データ中のデフォルト音声データとオ
プション音声データを入れ換える構成とすることにより
複数の音声に対応する構成とした多国語対応の可能な多
重化装置を提供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、映像と音声の多重
化を同期時間情報の参照なしに実現する構成とした映像
・音声多重化装置と方法、等に関するものである。

【０００２】

【従来の技術】従来、例えば映画の多国語対応などのよ
うに、一つの映像データに、何種類かの音声データを同
期させて多重化するための方法及び装置としては、大き
く以下の三つの方法があった。各々の方法の説明を図１
１、１２、１３の従来のブロック構成図及び図１０を用
いて説明する。

【０００３】従来の第一の方法は、一つの映像データと
一つ音声データを多重化した多重化データを必要な音声
データの数だけ予め作成・蓄積しておき、多重化データ
を選択して出力する方法である。

【０００４】図１１において、１は音声データ１００を
生成する音声データ作成手段、２は音声データ１００を
蓄積・保存するための音声データ記憶手段、３は２の音
声データ記憶手段より、音声データを取り出すための音
声データ入力手段、一方、４は映像データ１０１を生成
する映像データ作成手段、５は映像データ１０１を蓄積
・保存するための映像データ記憶手段、６は５の映像デ
ータ記憶手段より、映像データ１０１を取り出すための
映像データ入力手段である。

【０００５】７は音声データ入力手段３、映像データ入
力手段６から入力される音声データ１００と映像データ
１０１を重畳・多重化して多重化データ１０２を生成す
る多重化データ生成手段、８は７で生成された多重化デ
ータ１０２を蓄積するための多重化データ記憶手段、１
２は音声指示情報１０３を出力する音声情報指示手段、
２２は８の多重化データ記憶手段より、１２の音声情報
指示手段からの音声指示情報１０３に従って所望の音声
データが多重化された多重化データを出力するための多
重化データ選択出力手段である。

【０００６】従来の第一の方法では、音声データの数だ
けそれぞれの音声データと映像データを多重化した多重
化データを作成し、８の多重化データ作成手段に蓄積す
る。そして出力時に多重化データ選択出力手段によって
所望の音声データを重畳した多重化データのみを選択し
て出力する構成となる。

【０００７】次に動作について、一例として、ＭＰＥＧ
(Moving Picture Expert Group)規規格のフォーマット
で圧縮した一つの映像データと、ＭＰＥＧ規格のフォー
マットで圧縮した日本語、英語、フランス語の３カ国語
用の三つの音声データの中から、英語を重畳したプログ
ラムストリームを多重化データとして出力する例を図１
０の(a)を併用して説明する。

【０００８】音声データ作成手段１は音声データ１００
を生成するブロックであり、例えばＭＰＥＧ１やＭＰＥ
Ｇ２のオーディオエンコーダあるいはドルビーAC-３等
エンコーダにより例えばＭＰＥＧ１レイヤー２のエレメ
ンタリーオーディオストリームとして音声データを作成
する。本実施の形態のように日本語、英語、フランス語
の３カ国語に対応するためには日本語、英語、フランス
語それぞれの音声データを例えば図１０の(a)のｉ)、i
i)、iii)のようなエレメンタリーオーディオストリーム
として作成する。

【０００９】音声データ記憶手段２は音声データ１００
を蓄積・保存するためのブロックであり、例えばハード
ディスクドライブ、半導体記憶素子、光ディスク等の記
憶媒体により構成されている。本実施の形態では例えば
ＨＤＤに日本語、英語、フランス語それぞれのエレメン
タリーオーディオストリームをファイルとして記憶す
る。

【００１０】音声データ入力手段３は２の音声データ記
憶手段より、音声データを取り出すためのブロックであ
り、例えば、ＨＤＤに記録されたエレメンタリーオーデ
ィオストリームのファイルの中から、例えば最初に日本
語のファイルを取り出して７の多重化データ作成手段に
送り、次に英語のファイルを送り、最後にフランス語の
ファイルを送る。

【００１１】一方、映像データ作成手段４は映像データ
１０１を生成するブロックであり、例えばＭＰＥＧ１や
ＭＰＥＧ２のビデオエンコーダ等エンコーダにより例え
ばＭＰＥＧ２のエレメンタリービデオストリームとして
映像データを作成する。本実施の形態の場合例えば図１
０の(a)のiv)のようなPALのエレメンタリービデオスト
リームとして作成する。

【００１２】映像データ記憶手段５は映像データ１０１
を蓄積・保存するためのブロックであり、例えばハード
ディスクドライブ、半導体記憶素子、光ディスク等の記
憶媒体により構成されている。本実施の形態では例えば
ＨＤＤにPALのエレメンタリービデオストリームをファ
イルとして記憶する。

【００１３】映像データ入力手段６は５の映像データ記
憶手段より、映像データを取り出すためのブロックであ
り、例えば、ＨＤＤに記録されたエレメンタリービデオ
ストリームのファイルの中からPAL版のエレメンタリー
ビデオファイルを取り出して７の多重化データ作成手段
に送る。

【００１４】多重化データ作成手段７は、音声データ入
力手段３、映像データ入力手段６から入力される音声デ
ータ１００と映像データ１０１を重畳・多重化して多重
化データ１０２を生成するブロックであり、例えばオー
ディオとビデオのエレメンタリーからＭＰＥＧ１のシス
テムストリームあるいはＭＰＥＧ２のプログラムストリ
ームを生成する。

【００１５】多重化の処理手順の一例を図５を併用して
説明する。まず最初に、図５（ｄ）に示すように例えば
ＭＰＥＧ規格でのＳＣＲのような基準時刻情報等を付加
してパックヘッダ作成する。次にオーディオあるいはビ
デオエレメンタリーストリームのいづれかを、例えば切
り出し単位となるPESパケットデータサイズに分離して
切り出す。そしてどちらのストリームかを識別するスト
リームＩＤ（例えばオーディオであれば０ｘＣ０、ビデ
オであれば０ｘＥ０）を付加し、そのストリームを解析
してたとえばＤＴＳ等の適切な解凍時刻情報、ＰＴＳ等
の表示時刻情報をタイムスタンプとして付加してパケッ
トヘッダを作成する。

【００１６】パックヘッダとパケットヘッダを結合して
図５（ｃ）のヘッダを構成し、切り出したエレメンタリ
ーストリームを付加して図５(b)のパック構造を作成す
る。エレメンタリーストリームを切り出し、パック構造
にしたものを、再生系のバッファ容量、ストリームの再
生時刻等を考慮して適切な順序で配置し連結させること
により図５（ａ）のプログラムストリーム構造を作成で
きる。この一連の処理のためにはエレメンタリーストリ
ームを全て解析することが必要となり、実時間で処理を
完了するには高速な処理装置が必要となるため、必ずし
も実時間で重畳・多重化されない。

【００１７】図１０(a)の例では、まず日本語のエレメ
ンタリーオーディオストリームとPALのエレメンタリー
ビデオストリームをファイルのビットストリームを解析
しながら例えばＳＣＲ，ＰＴＳ，ＤＴＳといった時刻情
報を付加しながら多重化データ１０２として例えばＭＰ
ＥＧ２のプログラムストリームを出力する。図１０の
(a)の例ではv)のような日本語音声が重畳されたプログ
ラムストリームを生成する。

【００１８】同様に音声データを英語であるii),フラン
ス語であるiii)として重畳することでvi),vii)の英語、
フランス語が重畳されたプログラムストリームを多重化
データ１０２として生成する。

【００１９】多重化データ記憶手段８は７で生成された
多重化データ１０２を蓄積するためのブロックであり、
例えばハードディスクドライブ、半導体記憶素子、光デ
ィスク等の記憶媒体により構成されている。本実施の形
態では、図１０の(a)のv),vi),vii)のような３つのプロ
グラムストリームとして例えばＨＤＤに蓄積される。

【００２０】音声情報指示手段１２は音声指示情報を出
力するブロックであり、例えばＨＤＤのファイルを指定
するコマンドとして入力される。本実施の形態では英語
の音声を選択するためにvi)のファイルの出力をＨＤＤ
に指示する。

【００２１】多重化データ出力手段２２は８の多重化デ
ータ記憶手段より、１２の音声情報指示手段からの音声
指示情報に従って所望の音声データが多重化された多重
化データを出力するブロックであり、例えばＭＰＥＧ２
のプログラムストリームファイルをビットストリームと
して例えばイーサネットで構成されたLAN等に出力す
る。HDDよりvi)の英語の音声データが重畳されたＭＰＥ
Ｇ２プログラムストリームファイルを出力する。

【００２２】従来の第二の方法は、映像データと音声デ
ータを個別に蓄積し、出力時に実時間で多重化処理しな
がら出力する方法である。

【００２３】図１２において、従来の第一の方法と同じ
構成である部分には同一符号を付して詳細な説明は省略
する。

【００２４】図１２において、従１は音声データ１００
を生成する音声データ作成手段、２は音声データ１００
を蓄積・保存するための音声データ記憶手段、３は２の
音声データ記憶手段より、音声データを取り出すための
音声データ入力手段、４は映像データ１０１を生成する
映像データ作成手段、５は映像データ１０１を蓄積・保
存するための映像データ記憶手段、６は５の映像データ
記憶手段より、映像データ１０１を取り出すための映像
データ入力手段、２３は音声データ１００と映像データ
１０１を実時間で重畳・多重化して多重化データ１０２
を生成する実時間多重化データ作成・出力手段である。

【００２５】従来の第二の方法では、音声データ入力手
段３、映像データ入力手段６から、同期をあわせて多重
化する音声データ１００と映像データ１０１を、同時に
実時間多重化データ作成・出力手段２３に入力し、実時
間で重畳・多重化処理をして一つの多重化データとし、
実時間で送出する構成となる。

【００２６】次に動作について説明する。実時間多重化
データ作成・出力手段２３は音声データ１００と映像デ
ータ１０１を実時間で重畳・多重化して多重化データ１
０２を生成するブロックであり、例えば高速な汎用ある
いは専用ＣＰＵとして構成され、ソフトウエア制御によ
ってエレメンタリーストリームの解析、多重化データの
生成を行う。本実施の形態では図１０の(b)のように、
音声データ記憶手段より、英語のエレメンタリーオーデ
ィオストリームのファイルであるii)を、映像データ記
憶手段より、PALのエレメンタリービデオストリームの
ファイルであるiv)を入力し、実時間で多重化しながらv
i)の英語の音声データが重畳されたＭＰＥＧ２プログラ
ムストリームとして出力する。

【００２７】従来の第三の方法は、一つの映像データに
複数の音声データを重畳させて一つの多重化データを作
成し、出力する方法である。

【００２８】図１３において、従来第一の方法と同じ構
成である部分には同一符号を付して詳細な説明は省略す
る。

【００２９】図１３において、１は音声データ１００を
生成する音声データ作成手段、２は音声データ１００を
蓄積・保存するための音声データ記憶手段、１９は２の
音声データ記憶手段より、複数の音声データを取り出す
ための複数音声データ入力手段、４は映像データ１０１
を生成する映像データ作成手段、５は映像データ１０１
を蓄積・保存するための映像データ記憶手段、６は５の
映像データ記憶手段より、映像データ１０１を取り出す
ための映像データ入力手段である。

【００３０】２４は映像データ作成手段４からの映像デ
ータ１０１と、複数音声データ入力手段１９を介して入
力される複数の音声データ１００とを重畳・多重化して
複数音声多重化データ１１５を生成する複数音声多重化
データ生成手段、８は２４で生成された複数音声多重化
データ１１５を蓄積するための多重化データ記憶手段、
１１は８の多重化データ記憶手段より、複数音声多重化
データを出力するための多重化データ出力手段である。

【００３１】従来の第三の方法では、予め複数の音声デ
ータ１０１を音声データ作成手段１で作成して音声デー
タ記憶手段３に蓄積しておく。そして複数音声データ入
力手段１９より複数の音声データを複数音声多重化デー
タ作成手段へ入力し、複数の音声データと、映像データ
とを重畳・多重化した一つの複数音声多重化データを生
成する構成となる。

【００３２】次に動作について説明する。図１３におい
て、複数音声データ入力手段１９は２の音声データ記憶
手段より、音声データを取り出すためのブロックであ
り、例えば、ＨＤＤに記録されたエレメンタリーオーデ
ィオストリームのファイルの中から例えば日本語、英
語、フランス語の３つのエレメンタリーストリームファ
イルを取り出して２４の複数音声多重化データ作成手段
に送る。

【００３３】複数音声多重化データ作成手段２４は複数
の音声データ１００と映像データ１０１を重畳・多重化
して複数音声多重化データ１１５を生成するブロックで
あり、例えば汎用ＣＰＵあるいはＤＳＰとソフトウエア
モジュールとして構成され、エレメンタリーストリーム
の多重化処理を行う。本実施の形態では図１０の(c)の
ように、音声データ記憶手段より、日本語のエレメンタ
リーオーディオストリームのファイルi)、英語のエレメ
ンタリーオーディオストリームのファイルii)、フラン
ス語のエレメンタリーオーディオストリームのファイル
iii)を取り出して入力し、映像データ記憶手段より、PA
Lのエレメンタリービデオストリームのファイルであるi
v)を入力し、複数音声多重化データ作成手段で多重化し
ながらviii)の英語の音声データが重畳された複数音声
多重化データであるＭＰＥＧ２プログラムストリームと
して出力する。

【００３４】

【発明が解決しようとする課題】従来の第一の方法で
は、例えば一つの映像に対して３カ国語の音声データを
同期させて多重化する場合、３種類の多重化データを作
成し、多重化データ蓄積手段で蓄積する。この場合ま
ず、３種類の多重化データを作成するのに、多重化を３
回する必要があり、演算時間が３倍必要となるという問
題があった。また、この３種類の多重化データに重畳さ
れる映像データは全て同じであるにも関わらず、音声デ
ータ毎に重畳しなくてはならず、同期を取る音声データ
の種類が多くなるほど多重化データ蓄積手段の蓄積効率
が悪くなるという問題があった。一般に音声データより
映像データの方がデータがサイズが大きいため、この蓄
積効率の悪さは蓄積装置等のコストに大きく影響してい
た。

【００３５】また、従来の第二の方法では、例えば一つ
の映像に対して３カ国語の音声データを同期させて多重
化する場合でも、多重化の処理は出力時に一回で済む長
所がある。しかし、同期をとるために音声と映像のデー
タの同期時間情報を実時間で作成しなくてはならないと
いう問題があり、全ての同期合わせの処理を多重化デー
タ作成手段で行ないつつ実時間で処理を完了させるため
には高機能な汎用演算装置を利用するか専用の装置を用
いる必要があり、演算処理装置が高価になってしまうと
いう問題があった。

【００３６】また、従来の第三の方法では、例えば一つ
の映像に対して３カ国語の音声データを同期させて多重
化した場合、多重化された音声データの内実際に再生時
に必要なデータは一つだけであり、他に重畳されたデー
タについては多重化されて出力はするが再生時には破棄
される。そのため出力を伝送する場合、伝送の帯域が２
カ国分余計に必要となり伝送コストに影響するという問
題等があった。また、重畳できる音声データの数には伝
送帯域による制限が発生するという問題もあった。

【００３７】本発明は、このような従来の問題点に鑑み
てなされたものであって、蓄積メディアの蓄積容量と伝
送容量を大きくすることなく、少ない演算処理により複
数の音声データと映像データを同期しつつ重畳・多重化
する映像・音声多重化方法、その装置、並びにそのプロ
グラムを記録した媒体を提供することを目的としてい
る。これにより、蓄積コスト、伝送コスト、演算コスト
を低減させることを可能とする。

【００３８】

【課題を解決するための手段】本願の第１の発明は、複
数の音声データを一つのデフォルト音声データと、一つ
以上のオプション音声データとして用意し、デフォルト
音声データと映像データを多重化して多重化データを構
成し、オプション音声データが選択された時には多重化
データ中のデフォルト音声データとオプション音声デー
タを入れ換える構成とすることにより複数の音声に対応
することを特徴とし、これにより、重畳すべき音声デー
タの時間情報の計算、バッファ量の計算によるインター
リーブ順序の制御、内包するデータに関するヘッダ情報
の生成をすることなく、一つの映像データに対して複数
の音声データを対応させた多重化データの生成が可能と
なる。

【００３９】本願の第２の発明は、第１の発明において
デフォルト多重化データ中のデフォルト音声データ長を
解析して、音声データ記憶手段から取り出すオプション
音声データの長さに反映させる構成としたことを特徴と
し、これにより、可変ビットレートの音声データ等の多
重化データ中の音声データのサイズが多重化される時刻
によって動的に変化するような多重化データに対しても
複数の音声データに対応した多重化が可能となる。

【００４０】本願の第３の発明は、音声データ作成手段
において、デフォルト音声データと再生時間は同一で、
開始時刻が、開始時刻を含む一定の関係を満たす範囲内
となるようにオプション音声データを作成し、多重化デ
ータ再構成手段ではデフォルト音声データの開始時間と
オプション音声データの開始時間の差を検出して、入れ
換えるオプション音声データに付与される全ての時間情
報を変更する構成としたことを特徴とし、これにより、
多重化データに重畳された音声データと入れ替える音声
データに時間的な差があっても、時間情報の補正を多重
化データの再構成手段において実施することが可能とな
る。

【００４１】本願の第４の発明は、複数の音声データを
同じストリームの参照時間情報と同じ再生時間情報を付
加したパックとして連続して配置しながら映像データと
多重化して多重化データを構成し、多重化データ出力手
段において選択された音声データ以外の音声パックを出
力しない構成とすることにより複数の音声に対応するこ
とを特徴とし、これにより、多重化データの音声データ
を入れ替える際にデータを入れ替えることなく、データ
の廃棄処理だけで請求項１の効果を得ることができる。

【００４２】

【発明の実施の形態】本発明の映像音声多重化装置及び
映像音声多重化方法、並びに映像と音声を多重化するプ
ログラムを記録した記録媒体の実施の形態について、以
下、図面を参照しながら説明する。

【００４３】（実施の形態１）本願第１の発明の一実施
の形態を図１、図２、図３、図５〜９の図面を参照しつ
つ説明する。

【００４４】図１は実施の形態１を示す構成図であり、
１は音声データ１００を生成する音声データ作成手段、
２は音声データ１００を蓄積・保存するための音声デー
タ記憶手段、３は２の音声データ記憶手段より、音声デ
ータを取り出すための音声データ入力手段、一方、４は
映像データ１０１を生成する映像データ作成手段、５は
映像データ１０１を蓄積・保存するための映像データ記
憶手段、６は５の映像データ記憶手段より、映像データ
１０１を取り出すための映像データ入力手段である。

【００４５】７は音声データ入力手段３、映像データ入
力手段６から入力される音声データ１００と映像データ
１０１を重畳・多重化して多重化データ１０２を生成す
る多重化データ生成手段、８は７で生成された多重化デ
ータ１０２を蓄積するための多重化データ記憶手段、９
は８の多重化データ記憶手段より、多重化データを取り
出すための多重化データ入力手段、１２は音声指示情報
を出力する音声情報指示手段、１０は９の多重化データ
入力手段からの多重化データ１０２に重畳されている音
声データを３の音声データ入力手段からの音声データ１
００に入れ替えて出力多重化データを作成する音声デー
タ入れ替え手段、１１は１０の音声データ入れ替え手段
からの出力多重化データを出力するための多重化データ
出力手段で構成される。

【００４６】次に動作について説明する。一例として、
ＭＰＥＧのフォーマットでエンコードされた一つの映像
データと日本語の音声データを重畳された多重化ストリ
ームを、英語、フランス語、の音声データの内英語の音
声データと入れ替えることにより英語に対応する例を図
７を併用しながら説明する。

【００４７】従来の構成と同じ構成である部分には同一
符号を付して詳細な説明は省略する。

【００４８】図１において、多重化データ作成手段７
は、音声情報入力手段によって指示されて音声データ入
力手段より出力された音声データと映像データとを同期
させて多重化した多重化データ３００を蓄積するブロッ
クであり、例えば汎用ＣＰＵあるいはＤＳＰとソフトウ
エアモジュールとして構成され、エレメンタリーストリ
ームの多重化処理を行う。

【００４９】例えば、ビデオ編集を完了した完全パッケ
ージ（以下、完パケと呼ぶ）上でタイムコード０１:０
０:００:００から始まり、０１:３０:００:００で終了
する３０分の長さの映像を４ＭbpsのＭＰＥＧ２ビデオ
エレメンタリーストリームとした映像データ１０１と、
音声情報指示手段が日本語ファイルの出力をＨＤＤに指
示した場合、同じく完パケ上でタイムコード０１:００:
００:００から始まり、０１:３０:００:００で終了する
３０分の長さの日本語の音声を２２４ＫbpsのＭＰＥＧ
１オーディオエレメンタリーストリームとした音声デー
タ１００を、それぞれの記憶手段である例えばＨＤＤよ
り取り出し、従来例において図５を用いて説明した手順
によって映像と音声の同期をとりつつ重畳・多重化した
ＭＰＥＧ２のプログラムストリームを多重化データ１０
２として作成する。

【００５０】この場合、０１:００:００:００時点で映
像と音声の同期を確保し、以降適切な時刻情報を付与し
つつ多重化すれば全ての時間上で完全に同期の取れた多
重化データを構成することができる。多重化データ１０
２の構成例を図６の（a）に示す。

【００５１】音声データ入れ替え手段１０は、９の多重
化データ入力手段からの多重化データ１０２に重畳され
ている音声データを３の音声データ入力手段からの音声
データ１００に入れ替えて出力多重化データを作成する
ブロックであり、例えば汎用ＣＰＵあるいはＤＳＰとソ
フトウエアモジュールとして構成される。

【００５２】例えば音声データ入れ替え手段に入力され
た多重化データが図５(a)、図６(a)のようなＭＰＥＧの
プログラムストリームである場合、解析する単位長とな
るパックという単位でデータを取り出す。例えば多重化
データを１パックには１パケットで構成する場合、解析
するパックは図５(b)(Ｃ)に示すように１パケット分の
ストリームデータであるＰＥＳパケットデータ、パケッ
トヘッダ、パックヘッダで構成される。

【００５３】例えば１パック長が２０４４バイトでパケ
ット長が２０１５バイトであるような１パック長、パケ
ットデータ長が固定である場合、パケットデータの種類
を判別するためのストリームＩＤは図５の（ｄ）に示す
ように必ずパックの先頭から例えば１８バイト位置から
１バイト長であるため、この１８バイト目の１バイトの
情報だけを取得し、解析することにより格納されている
パケットデータの種類が例えばオーディオであるかその
他か判別できる。ストリームＩＤが例えば０ｘＥ０（以
降１６進表記の場合０ｘを付加してその旨を明記す
る。）であり映像データがＰＥＳパケットデータとして
格納されているパックであることが判別された場合、図
６(a),(c)に示したようにパック構造をそのまま出力多
重化データとして多重化データ出力手段へ送出する。図
６（ｉ）。

【００５４】ストリームＩＤが例えば０ｘＣ０であり音
声データがＰＥＳパケットデータとして格納されている
パックであることが判別された場合、音声データ入力手
段より入力された英語の音声データファイルからパケッ
トデータ長と同一の２０４４バイト固定長のデータを切
り出し、日本語の音声データが格納されているＰＥＳパ
ケットデータと入れ替える。（図６の場合例えばＡＵ１
１の日本語データをＡＵ２１の英語データと入れ替え
る。図６(ii)）その他のパックヘッダとパケットヘッダ
は元のままを利用して、１パック分のデータを入れ替え
る。再構成されたパックをビットストリームに接続させ
る。図６(iii)。以上の操作を入力された全ての多重化
データに対して行うことにより日本語の音声データを英
語の音声データに置き換えた出力多重化データであるＭ
ＰＥＧ２プログラムストリームが作成できる。図６
（ｃ）。

【００５５】多重化データ出力手段１１は８の多重化デ
ータ記憶手段より、１２の音声情報指示手段からの音声
指示情報に従って所望の音声データが多重化された多重
化データを出力するブロックであり、例えばＭＰＥＧ２
のプログラムストリームファイルをビットストリームと
して例えばイーサネットで構成されたLAN等に出力す
る。

【００５６】（実施の形態２）図２は本願第２の発明の
一実施の形態を示す構成図であり、１は音声データ１０
０を生成する音声データ作成手段、２は音声データ１０
０を蓄積・保存するための音声データ記憶手段、１３は
２の音声データ記憶手段より、可変長のデータサイズで
音声データを取り出すための可変長音声データ入力手
段、一方、４は映像データ１０１を生成する映像データ
作成手段、５は映像データ１０１を蓄積・保存するため
の映像データ記憶手段、６は５の映像データ記憶手段よ
り、映像データ１０１を取り出すための映像データ入力
手段である。

【００５７】７は音声データ入力手段３、映像データ入
力手段６から入力される音声データ１００と映像データ
１０１を重畳・多重化して多重化データ１０２を生成す
る多重化データ生成手段、８は７で生成された多重化デ
ータ１０２を蓄積するための多重化データ記憶手段、９
は８の多重化データ記憶手段より、多重化データを取り
出すための多重化データ入力手段、１２は音声指示情報
を出力する音声情報指示手段、１４は９の多重化データ
入力手段からの多重化データ１０２に重畳されている音
声データを３の音声データ入力手段からの可変長の音声
データ１００に入れ替えて出力多重化データを作成する
可変長音声データ入れ替え手段、１１は１０の音声デー
タ入れ替え手段からの出力多重化データを出力するため
の多重化データ出力手段で構成される。

【００５８】次に動作について説明する。図１の場合と
同様に、ＭＰＥＧのフォーマットでエンコードされた一
つの映像データと日本語の音声データを重畳された多重
化ストリームを、英語、フランス語、の音声データの内
英語の音声データと入れ替えることにより英語に対応す
る例を図７を併用しながら説明する。従来の構成及び図
１と同じ構成である部分には同一符号を付して詳細な説
明は省略する。

【００５９】可変長音声データ入力手段１３は、２の音
声データ記憶手段より、可変長のデータサイズで音声デ
ータを取り出すためブロックであり、例えばＨＤＤ上の
ファイルとして配置されているエレメンタリーオーディ
オストリームファイルから、例えば、可変長音声データ
入れ替え手段からのデータサイズ情報に基づいて、２０
４４バイトや１８７９バイト、あるいは３０００バイト
というように切り出しデータサイズを可変にして送出で
きるよう構成する。

【００６０】可変長音声データ入れ替え手段１４は、９
の多重化データ入力手段からの多重化データ１０２に重
畳されている音声データを１３の可変長音声データ入力
手段からの音声データ１００に入れ替えて出力多重化デ
ータを作成するブロックであり、例えば汎用ＣＰＵある
いはＤＳＰとソフトウエアモジュールとして構成され
る。

【００６１】例えば音声データ入れ替え手段に入力され
た多重化データがＭＰＥＧのプログラムストリームであ
る場合図５(a)、図６(a)、解析する単位長となるパック
という単位でデータを取り出す。例えば多重化データを
１パックには１パケットで構成する場合、音声データを
内包したパックのパケット長が可変である場合でも、パ
ケットデータ長が固定である場合と同様に、パケットデ
ータの種類を判別するためのストリームＩＤは先頭から
１８バイト目の１バイトの情報だけを解析することによ
り判別できる。ストリームＩＤが例えば０ｘＥ０（以降
１６進表記の場合０ｘを付加してその旨を明記する。）
であり映像データがＰＥＳパケットデータとして格納さ
れているパックであることが判別された場合、図７
(a)、(c)に示したようにパック構造をそのまま出力多重
化データとして多重化データ出力手段へ送出する。図６
（ｉ）。

【００６２】ストリームＩＤが例えば０ｘＣ０であり音
声データがＰＥＳパケットデータとして格納されている
パックであることが判別された場合、パケットヘッダの
packet_lengthを参照し、ＰＥＳパケットデータ長を調
べてそのデータ長だけの音声データの切り出し要求をデ
ータ長情報１０４として音声データ入力手段に送り、音
声データ入力手段より入力された英語の音声データファ
イルからパケットデータ長と同一の例えば２０１３バイ
ト、あるいは２０１６バイトといったデータ長のデータ
を切り出し、日本語の音声データが格納されているＰＥ
Ｓパケットデータと入れ替える。（図７の場合例えば図
７(a)のＡＵ１１の日本語データを図７（ｂ）のＡＵ２
１の英語データと入れ替える。図７(ii)）その他のパッ
クヘッダとパケットヘッダは元のままを利用して、１パ
ック分のデータを入れ替える。再構成されたパックをビ
ットストリームに接続させる。図６(iii)。以上の操作
を入力された全ての多重化データに対して行うことによ
り日本語の音声データを英語の音声データに置き換えた
出力多重化データであるＭＰＥＧ２プログラムストリー
ムが作成できる。図７（ｃ）。

【００６３】多重化データ出力手段１１は８の多重化デ
ータ記憶手段より、１２の音声情報指示手段からの音声
指示情報に従って所望の音声データが多重化された多重
化データを出力するブロックであり、例えばＭＰＥＧ２
のプログラムストリームファイルをビットストリームと
して例えばイーサネットで構成されたLAN等に出力す
る。

【００６４】（実施の形態３）図３は本願第３の発明の
一実施の形態を示す構成図であり、１５は時間差音声デ
ータ１０５を生成し、その開始時間情報１０６を生成す
る音声データ作成手段、２は時間差音声データ１０５を
蓄積・保存するための音声データ記憶手段、３は２の音
声データ記憶手段より、音声情報入力手段から指示され
た時間差音声データ１０５を取り出すための音声データ
入力手段、１７は開始時間情報１０６を記憶する開始時
間情報記憶手段、１８は音声情報入力手段から指示され
た時間差音声データの開始時間情報１０６を１７の開始
時間情報記憶手段より取り出すための開始時間情報入力
手段、一方、４は映像データ１０１を生成する映像デー
タ作成手段、５は映像データ１０１を蓄積・保存するた
めの映像データ記憶手段、６は５の映像データ記憶手段
より、映像データ１０１を取り出すための映像データ入
力手段である。

【００６５】７は音声データ入力手段３、映像データ入
力手段６から入力される音声データ１００と映像データ
１０１を重畳・多重化して多重化データ１０２を生成す
る多重化データ生成手段、８は７で生成された多重化デ
ータ１０２を蓄積するための多重化データ記憶手段、９
は８の多重化データ記憶手段より、多重化データを取り
出すための多重化データ入力手段、１２は音声指示情報
を出力する音声情報指示手段、１６は９の多重化データ
入力手段からの多重化データ１０２に重畳されている音
声データを３の音声データ入力手段からの音声データ１
００に入れ替え、１８の開始時間情報入力手段からの開
始時間情報１０６に基づいて音声データの時刻情報も変
更して出力多重化データを作成する音声データ・時刻情
報入れ替え手段、１１は１０の音声データ入れ替え手段
からの出力多重化データを出力するための多重化データ
出力手段で構成される。

【００６６】次に動作について説明する。図１の場合と
同様に、ＭＰＥＧのフォーマットでエンコードされた一
つの映像データと日本語の音声データを重畳された多重
化ストリームを、英語、フランス語、の音声データの内
英語の音声データと入れ替えることにより英語に対応す
る例を図８を併用しながら説明する。

【００６７】従来の構成及び図１、２と同じ構成である
部分には同一符号を付して詳細な説明は省略する。

【００６８】時間差音声データ作成手段１５は、時間差
音声データ１０５を生成し、その開始時間情報１０６を
生成するブロックであり、例えばＭＰＥＧオーディオエ
ンコーダとして構成される。時間差音声データ作成手段
では再生時間、ビットレート、圧縮形式は同一で音声の
開始時刻のみがことなる時間差音声データを生成する。

【００６９】例えば、完パケ上でタイムコード０１:０
０:００:００から始まり、０１:３０:００:００で終了
する３０分の長さの映像を４ＭbpsのＭＰＥＧ２ビデオ
エレメンタリーストリームとした映像データ１０１に対
して、完パケ上でタイムコード０１:００:００:００か
ら始まり、０１:３０:００:００で終了する３０分の長
さで２２４ＫbpsのＭＰＥＧ１オーディオエレメンタリ
ーストリームとしたの日本語のデータと、完パケ上でタ
イムコード０１:００:００:０３から始まり、０１:３
０:００:０３で終了する３０分の長さの英語、フランス
語のデータ、完パケ上でタイムコード０１:００:００:
１０から始まり、０１:３０:００:１０で終了する３０
分の長さのフランス語のデータを時間差音声データ１０
５として出力する。この時同時に映像データの開始時刻
０１:００:００:００に対する時間差音声データの開始
時刻の差を開始時間情報１０６として出力する。例えば
本実施の形態では日本語データの開始時間情報は０、英
語データの開始時間情報は３、フランス語データの開始
時間情報は１０となる。

【００７０】開始時間情報記憶手段１７は開始時間情報
１０６を蓄積・保存するためのブロックであり、例えば
ハードディスクドライブ、半導体記憶素子、光ディスク
等の記憶媒体により構成されている。本実施の形態では
例えばＨＤＤに日本語、英語、フランス語それぞれの開
始時間情報１０６の値０、３、１０をテキストファイル
として記憶する。

【００７１】開始時間情報入力手段１８は２の開始時間
情報記憶手段より、開始時間情報を取り出すためのブロ
ックであり、例えば、ＨＤＤに記録された開始時間情報
のファイルの中から例えば音声情報入力手段から英語の
開始時間情報を出力するように指示が来れば英語のファ
イルを取り出して１６の音声データ・時間情報入れ替え
手段に送る。

【００７２】音声データ・時間情報入れ替え手段１６
は、９の多重化データ入力手段からの多重化データ１０
２に重畳されている音声データを３の音声データ入力手
段からの時間差音声データ１０５に入れ替え、１８の開
始時間情報入力手段からの開始時間情報１０６にもとづ
いて時刻情報を入れ替えて出力時間差多重化データ１１
２を作成するブロックであり、例えば汎用ＣＰＵあるい
はＤＳＰとソフトウエアモジュールとして構成される。

【００７３】例えば音声データ・時刻情報入れ替え手段
に入力された多重化データがＭＰＥＧのプログラムスト
リームである場合図８(a)、解析する単位長となるパッ
クという単位でデータを取り出す。例えば多重化データ
を１パックには１パケットで構成する場合、音声データ
を内包したパックのパケット長が可変である場合でも、
パケットデータ長が固定である場合と同様に、パケット
データの種類を判別するためのストリームＩＤは先頭か
ら１８バイト目の１バイトの情報だけを解析することに
より判別できる。ストリームＩＤが例えば０ｘＥ０（以
降１６進表記の場合０ｘを付加してその旨を明記す
る。）であり映像データがＰＥＳパケットデータとして
格納されているパックであることが判別された場合、図
８(a),(c)に示したようにパック構造をそのまま出力多
重化データとして多重化データ出力手段へ送出する。

【００７４】ストリームＩＤが例えば０ｘＣ０であり音
声データがＰＥＳパケットデータとして格納されている
パックであることが判別された場合、音声データ入力手
段より入力された英語の音声データファイルからパケッ
トデータ長と同一の２０４４バイト固定長のデータを切
り出し、日本語の音声データが格納されているＰＥＳパ
ケットデータと入れ替える。（図８の場合例えば図８
(a)のＡＵ１１の日本語データを図８（ｂ）ＡＵ２１の
英語データと入れ替える。図８(ii)）また、本実施の形
態では英語データの開始時間情報は３であるのでオーデ
ィオパックのＰＴＳ，ＤＴＳという時刻情報を３の値だ
け補正する。例えばＡＵ１１の時刻情報が３０、ＡＵ１
２の時刻情報が７０であるから、それぞれ３３、７３に
補正する。（図８（ｉ））その他パックヘッダとパケッ
トヘッダの内容は元のままを利用して、１パック分のデ
ータを入れ替える。再構成されたパックをビットストリ
ームに接続させる。以上の操作を入力された全ての多重
化データに対して行うことにより日本語の音声データを
英語の音声データに置き換え、時刻情報を補正した時間
差出力多重化データであるＭＰＥＧ２プログラムストリ
ームが作成できる。図８（ｃ）。

【００７５】（実施の形態４）図４は本願第４の発明の
一実施の形態を示す構成図であり、１は音声データ１０
０を生成する音声データ作成手段、２は音声データ１０
０を蓄積・保存するための音声データ記憶手段、１９は
２の音声データ記憶手段より、複数の音声データを取り
出すための複数音声データ入力手段、一方、４は映像デ
ータ１０１を生成する映像データ作成手段、５は映像デ
ータ１０１を蓄積・保存するための映像データ記憶手
段、６は５の映像データ記憶手段より、映像データ１０
１を取り出すための映像データ入力手段である。

【００７６】２０は複数音声データ入力手段１９、映像
データ入力手段６から入力される複数の音声データ１０
０と映像データ１０１を重畳・多重化して複数音声重畳
多重化データ１０２を生成する複数音声重畳多重化デー
タ生成手段、８は７で生成された複数音声重畳多重化デ
ータ１０２を蓄積するための多重化データ記憶手段、１
２は音声指示情報を出力する音声情報指示手段、２１は
８の多重化データ記憶手段より、１２の音声情報指示手
段からの音声指示情報に従って所望の音声データ以外の
音声データを欠落させた出力複数音声重畳多重化データ
１１４を出力するための多重化データ解析・分離出力手
段である。

【００７７】次に動作について説明する。図１の場合と
同様に、ＭＰＥＧのフォーマットでエンコードされた一
つの映像データと日本語の音声データを重畳された多重
化ストリームを、英語、フランス語、の音声データの内
英語の音声データと入れ替えることにより英語に対応す
る例を図９(a),(b)を併用しながら説明する。

【００７８】従来の構成及び図１、２、３と同じ構成で
ある部分には同一符号を付して詳細な説明は省略する。

【００７９】複数音声重畳多重化データ生成手段２０は
複数音声データ入力手段１９、映像データ入力手段６か
ら入力される複数の音声データ１００と映像データ１０
１を重畳・多重化して複数音声重畳多重化データ１０２
を生成するブロックであり、多重化データ解析・分離出
力手段２１は８の多重化データ記憶手段より、１２の音
声情報指示手段からの音声指示情報に従って所望の音声
データ以外の音声データを欠落させた出力複数音声重畳
多重化データ１１４を出力するブロックであり、それぞ
れ例えば汎用ＣＰＵあるいはＤＳＰとソフトウエアモジ
ュールとして構成される。

【００８０】本実施の形態では図９の(a)のように、複
数音声重畳多重化データ生成手段において複数音声デー
タ入力手段より、日本語のエレメンタリーオーディオス
トリームのファイルi)、英語のエレメンタリーオーディ
オストリームのファイルii)、フランス語のエレメンタ
リーオーディオストリームのファイルiii)を取り出して
入力し、映像データ入力手段より、PALのエレメンタリ
ービデオストリームのファイルであるiv)を入力し、複
数音声重畳多重化データ作成手段で多重化しながてv)の
複数音声重畳多重化データであるＭＰＥＧ２プログラム
ストリームを作成する。このＭＰＥＧ２プログラムスト
リームでは図９(a)のv）に示したように同時刻に表示さ
れるべき音声データではＰＴＳ，ＤＴＳの表示時刻のみ
ならずＳＣＲという時刻情報も全て同一に構成すること
が特徴である。

【００８１】また、多重化データ解析・分離出力手段に
おいて、例えば音声情報入力手段より英語の音声データ
を選択する指示があった場合、入力された複数音声重畳
多重化データのストリームＩＤが例えば０ｘＥ０であり
映像データがＰＥＳパケットデータとして格納されてい
るパックであることが判別された場合、図９(ｂ)に示し
たようにパック構造をそのまま送出する。

【００８２】一方でオーディオのストリームＩＤは日本
語、英語、フランス語でそれぞれ例えば０ｘＣ０、０ｘ
Ｃ１、０ｘＣ２というようにストリームＩＤによって区
別が可能であるため。ストリームＩＤが例えば０ｘＣ
０、０ｘＣ１、０ｘＣ２であり音声データがＰＥＳパケ
ットデータとして格納されているパックであることが判
別された場合、本実施の形態では英語を選択するように
指示されているため０ｘＣ１の音声データのみを図９
(ｂ)に示したようにパック構造をそのまま送出し、０ｘ
Ｃ０、０ｘＣ２の音声データの場合そのパックを廃棄す
る。このように英語の音声データのみが重畳された出力
複数音声重畳多重化データであるＭＰＥＧ２プログラム
ストリームとして出力する。

【００８３】なお、音声を多重化する例を示したが、複
数の映像データを入れ替えるような場合に対しても本装
置により同様の効果が得られる。

【００８４】また、上記の実施の形態１〜４で示した各
動作は、いずれもＣＰＵと、上記の各動作を実現するた
めのソフトウェアによって実現可能である。このため、
上記の各動作を実現させるためのプログラムを記録した
磁気記録媒体や光記録媒体などの記録媒体を作成し、こ
れを利用してＣＰＵを動作させても、上記の各実施の形
態と同様の効果を得ることが可能である。

【００８５】

【発明の効果】以上述べてきたように、本願発明によれ
ば、出力時に動的に多重化・重畳処理したり、時間情報
を算出して付加するための高速な演算装置を必要とした
り、複数の音声データを映像データと共に多重化するこ
とで、多重化データの伝送帯域を増やしたり、各音声デ
ータに対応した多重化データを用意することによる記憶
装置の大容量化させることなく、複数の音声に対応でき
る。

【００８６】その結果、本願第１の発明では、蓄積コス
トや伝送コストを低く抑えたまま、多重化データを作成
する際に必要であった複雑な演算操作をすることなく多
重化データを得ることが可能となり、演算コストを低く
する事ができる。

【００８７】本願第２の発明では、可変ビットレート等
の音声データに対しても蓄積コストや伝送コストを低く
抑えたまま、多重化データを作成する際に必要であった
複雑な演算操作をすることなく多重化データを得ること
が可能となり、演算コストを低くする事ができる。

【００８８】本願第３の発明では、入れ替えるための音
声データと元の多重化データに重畳されている音声デー
タとの間に時間的な差があっても、データ部分の入れ替
え時に時間情報部分の入れ替えを同時にすることによ
り、音声データと映像データの同期の補正を可能として
本願第１の発明と同様の効果を得る事ができる。

【００８９】本願第４の発明では、データ部分の入れ替
え操作を必要とせず、パックの廃棄処理だけで請求項１
の効果を得る事ができる。

【図面の簡単な説明】

【図１】実施の形態１の構成を示すブロック図

【図２】実施の形態２の構成を示すブロック図

【図３】実施の形態３の構成を示すブロック図

【図４】実施の形態４の構成を示すブロック図

【図５】ＭＰＥＧのプログラムストリームの構造の一例
の図

【図６】実施の形態１のストリームの入れ替え、作成過
程を示すストリーム構成図

【図７】実施の形態２のストリームの入れ替え、作成過
程を示すストリーム構成図

【図８】実施の形態３のストリームの入れ替え、作成過
程を示すストリーム構成図

【図９】実施の形態４のストリームの入れ替え、作成過
程を示すストリーム構成図

【図１０】従来のストリームの作成過程を示すストリー
ム構成図

【図１１】従来の構成（第一の方法）を示すブロック図

【図１２】従来の構成（第二の方法）を示すブロック図

【図１３】従来の構成（第三の方法）を示すブロック図

【符号の説明】

１音声データ作成手段２音声データ記憶手段３音声データ入力手段４映像データ作成手段５映像データ記憶手段６映像データ入力手段７多重化データ作成手段８多重化データ記憶手段９多重化データ入力手段１０音声データ入れ替え手段１１多重化データ出力手段１２音声情報指示手段１３可変長音声データ入力手段１４可変長音声データ入れ替え手段１５時間差音声データ作成手段１６音声データ・時刻情報入れ替え手段１７開始時間情報記憶手段１８開始時間情報入力手段１９複数音声データ入力手段２０複数音声重畳多重化データ作成手段２１多重化データ解析・分離出力手段２２多重化データ選択出力手段２３実時間多重化データ作成・出力手段１００音声データ１０１映像データ１０２多重化データ１０３音声指示情報１０４データ長情報１０５時間差音声データ１０６開始時刻情報１０７可変長音声データ１１０出力多重化データ１１１出力音声可変長多重化データ１１２出力時間差音声多重化データ１１３数音声重畳多重化データ１１４出力複数音声重畳多重化データ１１５複数音声多重化データ

Claims

【特許請求の範囲】

【請求項１】映像データと音声データとの同期を合わ
せ、一つのストリームとして重畳・多重化する多重化装
置であって、音声データを作成する音声データ作成手段と、複数の音声データを記憶する音声データ記憶手段と、音声指示情報を出力する音声情報指示手段と、前記音声データ記憶手段に蓄積されている音声データの
中から音声指示情報で指示された一つの音声データを取
り出して次の手段へ出力する音声データ入力手段と、映像データを作成する映像データ作成手段と、映像データを記憶する映像データ記憶手段と、前記映像データ記憶手段に蓄積されている映像データを
取り出して次の手段へ出力する映像データ入力手段と、映像データと音声データを一つのストリームとして多重
化した多重化データを作成する多重化データ作成手段
と、多重化データを記憶する多重化データ記憶手段と、前記多重化データ記憶手段に蓄積されている多重化デー
タを取り出して出力する多重化データ入力手段と、前記多重化データ入力手段より入力される多重化データ
と前記音声データ出力手段より入力される音声データか
ら出力多重化データを出力する音声データ入れ替え手段
と、前記音声データ入れ替え手段からの出力多重化データを
出力する多重化データ出力手段を備え、前記音声データ入れ替え手段において、前記多重化デー
タ入力手段より入力される多重化データに内包されてい
る音声データを、前記音声データ入力手段より入力され
た音声データと入れ換え、かつ映像データと多重化した
出力多重化データを生成する映像音声多重化装置。
【請求項２】音声データを作成する音声データ作成手
段と、複数の音声データを記憶する音声データ記憶手段と、音声指示情報を出力する音声情報指示手段と、前記音声データ記憶手段に蓄積されている音声データの
中から音声指示情報で指示された一つの音声データをデ
ータ長情報で指示されたデータ長に切り出して次の手段
へ出力する可変長音声データ入力手段と、映像データを作成する映像データ作成手段と、映像データを記憶する映像データ記憶手段と、前記映像データ記憶手段に蓄積されている映像データを
取り出して次の手段へ出力する映像データ入力手段と、映像データと音声データを一つのストリームとして多重
化した多重化データを作成する多重化データ作成手段
と、多重化データを記憶する多重化データ記憶手段と、前記多重化データ記憶手段に蓄積されている多重化デー
タを取り出して次の手段へ出力する多重化データ入力手
段と、前記音声データ入力手段にデータ長情報を指示すること
で入力される可変長音声データと、前記多重化データ入
力手段より入力される多重化データを入力し、多重化デ
ータを出力する可変長音声データ入れ替え手段と、前記可変長音声データ入れ替え手段からの多重化データ
を出力する多重化データ出力手段を備え、多重化データ入力手段から入力される多重化データに内
包されている音声データの長さが、パケットの単位毎に
異なるような多重化データに対しても、多重化データ中
の音声データ長を可変長音声データ入力手段に指示する
ことで、取り出す音声データ長に反映し、入れ替える音
声データを可変にできるような構成とした映像音声多重
化装置。
【請求項３】開始時間の異なる時間差音声データと開
始時間情報を作成する時間差音声データ作成手段と、複数の時間差音声データを記憶する音声データ記憶手段
と、音声指示情報を出力する音声情報指示手段と、前記音声データ記憶手段に蓄積されている時間差音声デ
ータの中から音声指示情報で指示された一つの時間差音
声データを取り出して次の手段へ出力する音声データ入
力手段と、映像データを作成する映像データ作成手段と、映像データを記憶する映像データ記憶手段と、前記映像データ記憶手段に蓄積されている映像データを
取り出して次の手段へ出力する映像データ入力手段と、映像データと時間差音声データを一つのストリームとし
て多重化した多重化データを作成する多重化データ作成
手段と、多重化データを記憶する多重化データ記憶手段と、前記多重化データ記憶手段に蓄積されている多重化デー
タを取り出して次の手段へ出力する多重化データ入力手
段と、前記時間差音声データ作成手段で作成される時間差音声
データの開始時間情報を記憶する開始時間情報記憶手段
と、前記開始時間情報記憶手段に蓄積されている開始時間情
報の中から音声指示情報で指示された一つの時間差音声
データの開始時間情報を取り出して次の手段へ出力する
開始時間情報入力手段と、前記音声データ入力手段より入力される時間差音声デー
タと、前記多重化データ入力手段より入力される多重化
データと、前記開始時間情報入力手段からの開始時間情
報から、多重化データを出力する音声データ・時刻情報
入れ替え手段と、前記音声データ・時刻情報入れ替え手段からの出力時間
差多重化データを出力する多重化データ出力手段を備
え、前記時間差音声データ作成手段では、作成されるデータ
の開始時間と前記映像データの映像開始時間との時間差
が一定の範囲内であり、その再生時間が全て同一である
時間差音声データを作成する構成とし、前記音声データ・時刻情報入れ替え手段は、音声データ
の入れ替えと同時に音声データの表示時間情報も入れ替
える構成とした映像音声多重化装置。
【請求項４】音声データを作成する音声データ作成手
段と、複数の音声データを記憶する音声データ記憶手段と、音声指示情報を出力する音声情報指示手段と、前記音声データ記憶手段に蓄積されている音声データの
中から音声指示情報で指示された複数の音声データを取
り出して次の手段へ出力する複数音声データ入力手段
と、映像データを作成する映像データ作成手段と、映像データを記憶する映像データ記憶手段と、前記映像データ記憶手段に蓄積されている映像データを
取り出して次の手段へ出力する映像データ入力手段と、映像データと複数の音声データを一つのストリームとし
て多重化した複数音声重畳多重化データを作成する複数
音声重畳多重化データ作成手段と、複数音声重畳多重化データを記憶する多重化データ記憶
手段と、複数音声重畳多重化データを出力する際に映像データと
音声指示情報で指示さた音声データを出力する多重化デ
ータ解析・分離出力手段を備え、前記複数音声重畳多重化データ作成手段において、多重
化される同一の表示時刻である複数の音声データの時間
情報は全て同一にする構成とし、前記多重化データ解析
・分離出力手段において多重化データを取り出して出力
する際に音声指示情報で指示された以外の音声データを
廃棄し、映像データと音声指示情報で指示さた音声デー
タのみを出力する構成とした映像音声多重化装置。
【請求項５】映像データ、音声データ及び多重化デー
タがＭＰＥＧ(MovingPicture Expert Group)規格に準じ
て符号化されていることを特徴とする請求項１、２、３
または４記載の映像音声多重化装置。
【請求項６】映像データと音声データとの同期を合わ
せ、一つのストリームとして重畳・多重化する多重化す
るための方法であって、音声データを作成する音声データ作成手順と、複数の音声データを記憶する音声データ記憶手順と、音声指示情報を出力する音声情報指示手順と、前記音声データ記憶手順において蓄積された音声データ
の中から音声指示情報で指示された一つの音声データを
取り出して次の手順へ出力する音声データ入力手順と、映像データを作成する映像データ作成手順と、映像データを記憶する映像データ記憶手順と、前記映像データ記憶手順に蓄積されている映像データを
取り出して次の手順へ出力する映像データ入力手順と、映像データと音声データを一つのストリームとして多重
化した多重化データを作成する多重化データ作成手順
と、多重化データを記憶する多重化データ記憶手順と、前記多重化データ記憶手順に蓄積されている多重化デー
タを取り出して次の手順へ出力する多重化データ入力手
順と、前記多重化データ入力手順より入力される多重化データ
と前記音声データ出力手順より入力される音声データか
ら出力多重化データを出力する音声データ入れ替え手順
と、前記音声データ入れ替え手順からの出力多重化データを
出力する多重化データ出力手順を備え、前記音声データ入れ替え手順において、前記多重化デー
タ入力手順より入力される多重化データに内包されてい
る音声データを、前記音声データ入力手順より入力され
た音声データと入れ換え、かつ映像データと多重化した
出力多重化データを生成可能とした映像と音声の多重化
方法。
【請求項７】音声データを作成する音声データ作成手
順と、複数の音声データを記憶する音声データ記憶手順と、音声指示情報を出力する音声情報指示手順と、前記音声データ記憶手順に蓄積されている音声データの
中から音声指示情報で指示された一つの音声データをデ
ータ長情報で指示されたデータ長に切り出して次の手順
へ出力する可変長音声データ入力手順と、映像データを作成する映像データ作成手順と、映像データを記憶する映像データ記憶手順と、前記映像データ記憶手順に蓄積されている映像データを
取り出して次の手順へ出力する映像データ入力手順と、映像データと音声データを一つのストリームとして多重
化した多重化データを作成する多重化データ作成手順
と、多重化データを記憶する多重化データ記憶手順と、前記多重化データ記憶手順に蓄積されている多重化デー
タを取り出して次の手順へ出力する多重化データ入力手
順と、前記音声データ入力手順にデータ長情報を指示すること
で入力される可変長音声データと、前記多重化データ入
力手順より入力される多重化データを入力し、多重化デ
ータを出力する可変長音声データ入れ替え手順と、前記可変長音声データ入れ替え手順からの多重化データ
を出力する多重化データ出力手順を備え、多重化データ入力手順から入力される多重化データに内
包されている音声データの長さが、パケット単位毎に異
なるような多重化データに対しても、多重化データ中の
音声データ長を可変長音声データ入力手順に指示するこ
とで、取り出す音声データ長に反映し、入れ替える音声
データを可変にできるような構成とした映像と音声の多
重化方法。
【請求項８】開始時間の異なる時間差音声データと開
始時間情報を作成する時間差音声データ作成手順と、複数の時間差音声データを記憶する音声データ記憶手順
と、音声指示情報を出力する音声情報指示手順と、前記音声データ記憶手順に蓄積されている時間差音声デ
ータの中から音声指示情報で指示された一つの時間差音
声データを取り出して次の手順へ出力する音声データ入
力手順と、映像データを作成する映像データ作成手順と、映像データを記憶する映像データ記憶手順と、前記映像データ記憶手順に蓄積されている映像データを
取り出して次の手順へ出力する映像データ入力手順と、映像データと時間差音声データを一つのストリームとし
て多重化した多重化データを作成する多重化データ作成
手順と、多重化データを記憶する多重化データ記憶手順と、前記多重化データ記憶手順に蓄積されている多重化デー
タを取り出して次の手順へ出力する多重化データ入力手
順と、前記時間差音声データ作成手順で作成される時間差音声
データの開始時間情報を記憶する開始時間情報記憶手順
と、前記開始時間情報記憶手順に蓄積されている開始時間情
報の中から音声指示情報で指示された一つの時間差音声
データの開始時間情報を取り出して次の手順へ出力する
開始時間情報入力手順と、前記音声データ入力手順より入力される時間差音声デー
タと、前記多重化データ入力手順より入力される多重化
データと、前記開始時間情報入力手順からの開始時間情
報から、多重化データを出力する音声データ・時刻情報
入れ替え手順と、前記音声データ・時刻情報入れ替え手順からの出力時間
差多重化データを出力する多重化データ出力手順を備
え、前記時間差音声データ作成手順では、作成されるデータ
の開始時間と前記映像データの映像開始時間との時間差
が一定の範囲内であり、その再生時間が全て同一である
時間差音声データを作成する構成とし、前記音声データ・時刻情報入れ替え手順は、音声データ
の入れ替えと同時に音声データの表示時間情報も入れ替
える構成とした映像と音声の多重化方法。
【請求項９】音声データを作成する音声データ作成手
順と、複数の音声データを記憶する音声データ記憶手順と、音声指示情報を出力する音声情報指示手順と、前記音声データ記憶手順に蓄積されている音声データの
中から音声指示情報で指示された複数の音声データを取
り出して次の手順へ出力する複数音声データ入力手順
と、映像データを作成する映像データ作成手順と、映像データを記憶する映像データ記憶手順と、前記映像データ記憶手順に蓄積されている映像データを
取り出して次の手順へ出力する映像データ入力手順と、映像データと複数の音声データを一つのストリームとし
て多重化した複数音声重畳多重化データを作成する複数
音声重畳多重化データ作成手順と、複数音声重畳多重化データを記憶する多重化データ記憶
手順と、複数音声重畳多重化データを出力する際に映像データと
音声指示情報で指示さた音声データを出力する多重化デ
ータ解析・分離出力手順を備え、前記複数音声重畳多重化データ作成手順において、多重
化される同一の表示時刻である複数の音声データの時間
情報は全て同一にする構成とし、前記多重化データ解析
・分離出力手順において多重化データを取り出して出力
する際に音声指示情報で指示された以外の音声データを
廃棄し、映像データと音声指示情報で指示さた音声デー
タのみを出力する構成とした映像と音声の多重化方法。
【請求項１０】映像データ、音声データ及び多重化デ
ータがＭＰＥＧ規格に準じて符号化されていることを特
徴とする、請求項６、７、８または９記載の映像と音声
の多重化方法。
【請求項１１】映像データと音声データとの同期を確
立し、一つのストリームとして重畳・多重化する多重化
するためのプログラムを記録する媒体であって、音声データを作成する音声データ作成手順と、複数の音声データを記憶する音声データ記憶手順と、音声指示情報を出力する音声情報指示手順と、前記音声データ記憶手順に蓄積されている音声データの
中から音声指示情報で指示された一つの音声データを取
り出して次の手順へ出力する音声データ入力手順と、映像データを作成する映像データ作成手順と、映像データを記憶する映像データ記憶手順と、前記映像データ記憶手順に蓄積されている映像データを
取り出して次の手順へ出力する映像データ入力手順と、映像データと音声データを一つのストリームとして多重
化した多重化データを作成する多重化データ作成手順
と、多重化データを記憶する多重化データ記憶手順と、前記多重化データ記憶手順に蓄積されている多重化デー
タを取り出して次の手順へ出力する多重化データ入力手
順と、前記多重化データ入力手順より入力される多重化データ
と前記音声データ出力手順より入力される音声データか
ら出力多重化データを出力する音声データ入れ替え手順
と、前記音声データ入れ替え手順からの出力多重化データを
出力する多重化データ出力手順を備え、前記音声データ入れ替え手順において、前記多重化デー
タ入力手順より入力される多重化データに内包されてい
る音声データを、前記音声データ入力手順より入力され
た音声データと入れ換え、かつ映像データと多重化した
出力多重化データを生成可能とした映像と音声の多重化
をするプログラムを記録した媒体。
【請求項１２】音声データを作成する音声データ作成
手順と、複数の音声データを記憶する音声データ記憶手順と、音声指示情報を出力する音声情報指示手順と、前記音声データ記憶手順に蓄積されている音声データの
中から音声指示情報で指示された一つの音声データをデ
ータ長情報で指示されたデータ長に切り出して次の手順
へ出力する可変長音声データ入力手順と、映像データを作成する映像データ作成手順と、映像データを記憶する映像データ記憶手順と、前記映像データ記憶手順に蓄積されている映像データを
取り出して次の手順へ出力する映像データ入力手順と、映像データと音声データを一つのストリームとして多重
化した多重化データを作成する多重化データ作成手順
と、多重化データを記憶する多重化データ記憶手順と、前記多重化データ記憶手順に蓄積されている多重化デー
タを取り出して次の手順へ出力する多重化データ入力手
順と、前記音声データ入力手順にデータ長情報を指示すること
で入力される可変長音声データと、前記多重化データ入
力手順より入力される多重化データを入力し、多重化デ
ータを出力する可変長音声データ入れ替え手順と、前記可変長音声データ入れ替え手順からの多重化データ
を出力する多重化データ出力手順を備え、多重化データ入力手順から入力される多重化データに内
包されている音声データの長さが、パケット単位毎に異
なるような多重化データに対しても、多重化データ中の
音声データ長を可変長音声データ入力手順に指示するこ
とで、取り出す音声データ長に反映し、入れ替える音声
データを可変にできるような構成とした映像と音声の多
重化をするプログラムを記録した媒体。
【請求項１３】開始時間の異なる時間差音声データと
開始時間情報を作成する時間差音声データ作成手順と、複数の時間差音声データを記憶する音声データ記憶手順
と、音声指示情報を出力する音声情報指示手順と、前記音声データ記憶手順に蓄積されている時間差音声デ
ータの中から音声指示情報で指示された一つの時間差音
声データを取り出して次の手順へ出力する音声データ入
力手順と、映像データを作成する映像データ作成手順と、映像データを記憶する映像データ記憶手順と、前記映像データ記憶手順に蓄積されている映像データを
取り出して次の手順へ出力する映像データ入力手順と、映像データと時間差音声データを一つのストリームとし
て多重化した多重化データを作成する多重化データ作成
手順と、多重化データを記憶する多重化データ記憶手順と、前記多重化データ記憶手順に蓄積されている多重化デー
タを取り出して次の手順へ出力する多重化データ入力手
順と、前記時間差音声データ作成手順で作成される時間差音声
データの開始時間情報を記憶する開始時間情報記憶手順
と、前記開始時間情報記憶手順に蓄積されている開始時間情
報の中から音声指示情報で指示された一つの時間差音声
データの開始時間情報を取り出して次の手順へ出力する
開始時間情報入力手順と、前記音声データ入力手順より入力される時間差音声デー
タと、前記多重化データ入力手順より入力される多重化
データと、前記開始時間情報入力手順からの開始時間情
報から、多重化データを出力する音声データ・時刻情報
入れ替え手順と、前記音声データ・時刻情報入れ替え手順からの出力時間
差多重化データを出力する多重化データ出力手順を備
え、前記時間差音声データ作成手順では、作成されるデータ
の開始時間と前記映像データの映像開始時間との時間差
が一定の範囲内であり、その再生時間が全て同一である
時間差音声データを作成する構成とし、前記音声データ・時刻情報入れ替え手順は、音声データ
の入れ替えと同時に音声データの表示時間情報も入れ替
える構成とした映像と音声の多重化をするプログラムを
記録した媒体。
【請求項１４】音声データを作成する音声データ作成
手順と、複数の音声データを記憶する音声データ記憶手順と、音声指示情報を出力する音声情報指示手順と、前記音声データ記憶手順に蓄積されている音声データの
中から音声指示情報で指示された複数の音声データを取
り出して次の手順へ出力する複数音声データ入力手順
と、映像データを作成する映像データ作成手順と、映像データを記憶する映像データ記憶手順と、前記映像データ記憶手順に蓄積されている映像データを
取り出して次の手順へ出力する映像データ入力手順と、映像データと複数の音声データを一つのストリームとし
て多重化した複数音声重畳多重化データを作成する複数
音声重畳多重化データ作成手順と、複数音声重畳多重化データを記憶する多重化データ記憶
手順と、複数音声重畳多重化データを出力する際に映像データと
音声指示情報で指示さた音声データを出力する多重化デ
ータ解析・分離出力手順を備え、前記複数音声重畳多重化データ作成手順において、多重
化される同一の表示時刻である複数の音声データの時間
情報は全て同一にする構成とし、前記多重化データ解析
・分離出力手順において多重化データを取り出して出力
する際に音声指示情報で指示された以外の音声データを
廃棄し、映像データと音声指示情報で指示さた音声デー
タのみを出力する構成とした映像と音声の多重化をする
プログラムを記録した媒体。
【請求項１５】映像データ、音声データ及び多重化デ
ータがＭＰＥＧ規格に準じて符号化されていることを特
徴とする、請求項１１、１２、１３または１４記載の映
像と音声の多重化をするプログラムを記録した媒体。