JP2007159092A

JP2007159092A - 映像音声処理本体装置およびその制御方法、音声処理端末装置およびその制御方法、音声処理本体装置、映像音声処理システム、映像音声処理本体装置制御プログラム、音声処理端末装置制御プログラム、ならびに該プログラムを記録した記録媒体

Info

Publication number: JP2007159092A
Application number: JP2006228386A
Authority: JP
Inventors: Yusuke Miki; 裕介三木; Masahiro Otani; 昌弘大谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2005-11-11
Filing date: 2006-08-24
Publication date: 2007-06-21
Anticipated expiration: 2026-08-24
Also published as: US7746904B2; US20070110110A1; JP4184397B2

Abstract

【課題】帯域の無駄を抑えることができるホームシアターを提供する。
【解決手段】ホームシアター１０は、本体部１１０と１または複数のスピーカ部３１０とを備える。本体部１１０は、ＡＶストリーム伝送装置６１０から通信ネットワーク７１０を介してＡＶストリームを受信する通信部１２０と、ＡＶストリームを映像ストリームと音声ストリームとに分離するデマックス部１５０と、映像ストリームを処理して映像信号を生成する映像処理部１６０と、音声ストリームを処理して音声信号を生成する音声処理部１７０と、ＡＶストリームに含まれる音声の一部または全部を含む音声ストリームを取り出す音声取出部１８０とを備える。通信部１２０は、音声取出部１８０が取り出した音声ストリームを、通信ネットワーク７１０を介してスピーカ部３１０に送信する。
【選択図】図１

Description

本発明は、映像および音声に対する処理を行う映像音声処理本体装置およびその制御方法、音声に対する処理を行う音声処理端末装置およびその制御方法、音声に対する処理を行う音声処理本体装置、映像音声処理システム、映像音声処理本体装置制御プログラム、音声処理端末装置制御プログラム、ならびに該プログラムを記録した記録媒体に関するものである。

具体的には、本発明は、例えば、ホームシアター本体と１または複数のスピーカとを備えるホームシアターシステムに関するものである。

ホームシアターの最も一般的な形態は、ホームシアター本体からディスプレイと複数のスピーカとまでを、ネットワーク用ではない有線で接続するものである。ホームシアター本体と複数のスピーカとをそれぞれアナログ音声用の伝送線で接続するため、接続の配線が多数かつ複雑になる。特に、ホームシアター本体がユーザの前側に配置される場合、ユーザの後側に配置されるスピーカ（リアスピーカ）からホームシアター本体までの距離が遠く、家庭内等では長い配線が邪魔になる。

これを解決するため、全てあるいは一部のスピーカが、無線または有線のネットワーク技術を利用してネットワークを形成し、該ネットワーク上で音声信号を伝送する方法がある。ネットワーク用の伝送線でホームシアター本体および複数のスピーカ間を相互接続する有線ネットワークの場合、ホームシアター本体と各スピーカとをアナログ音声用の伝送線で接続する場合に比べて、配線を簡素化できる。

例えば、５．１チャンネルの音声信号を利用するホームシアターの場合、スピーカは少なくとも６台設置されることになる。このため、ネットワークを利用しない場合には、少なくとも６本のアナログ音声用の伝送線がホームシアター本体からスピーカまで設置されることになる。一方、ＬＡＮ（Local Area Network）等の有線ネットワークを利用する場合、既存のネットワーク網を使うことが可能になり、ホームシアター本体およびスピーカからは、１本のネットワーク用の伝送線のみがネットワーク網のポートに接続されることになる。

音声信号をネットワーク上で伝送する場合、アナログの音声信号を例えばＦＭ（Frequency Modulation）やＡＭ（Amplitude Modulation）で変調して伝送することができる。しかしながら、アナログ信号をそのまま変調して伝送する場合、信号が劣化してしまう問題がある。

一方、音声信号をデジタル化して伝送する場合、赤外線、電波などの無線を用いて音声信号を伝送することができる（例えば特許文献１を参照）。しかしながら、赤外線の場合、例えば人間が送信機と受信機との間を横断したときのように、送信機と受信機との間に障害物があると伝送ができなくなり、ＡＶ（Audio Visual）機器の品質が低下する。

また、２．４ＧＨｚの帯域を用いたＢｌｕｅｔｏｏｔｈなどの場合、電子レンジと同じ帯域であるため、電子レンジを使っている時にＢｌｕｅｔｏｏｔｈで音声信号の伝送を行うと、音声信号が正しく伝送されない可能性があり、音声の品質、つまりＡＶ機器の品質が低下する。したがって、実時間（リアルタイム）性が必要な映像や音声の無線伝送を行う場合、赤外線や２．４ＧＨｚ帯を避けることが品質の上で重要である。

以上は、音声信号のみをネットワーク上で伝送することにより、ホームシアターの配線を簡素化する事例である。一方、近年のインターネットの普及に伴い、インターネット上のサイトにあるコンテンツを、該サイトと別の場所に存在するパソコン、ＰＤＡ（Personal Digital Assistant）、携帯電話等の情報通信端末で楽しめるようになっている。

また、今後、家電製品でも上記サイトにあるコンテンツを楽しむ用途への期待が大きい。この場合、複数メーカの家電製品の相互接続性を保つことが重要であり、このための規格としては、ＤＬＮＡ（Digital Living Network Alliance）が挙げられる。

図８は、ＤＬＮＡに基づいて、ＡＶソース機器からテレビジョン受像機（以下「テレビ」と略称する。）にＡＶ信号を伝送する例を示している。図示の場合、ＡＶソース機器１００１およびテレビ１００２は、両方がＤＬＮＡ対応であれば、それぞれが異なるメーカであっても問題なく接続が可能になる。ここで、ＡＶソース機器１００１の汎用性を高めるためには、ＡＶソース機器１００１が伝送するＤＬＮＡ対応ＡＶ信号をテレビ１００２だけではなく、ホームシアターでも受信できるようにすることが望ましい。

なお、ＡＶソース機器１００１は、ＤＶＤ（Digital Versatile Disk）／Ｂｌｕ−ｒａｙＤｉｓｃプレイヤーやＤＶＤ／Ｂｌｕ−ｒａｙＤｉｓｃレコーダ、ＨＤＤ（hard disk drive）レコーダなどの動画再生装置や、ＢＳ（Broadcasting Satellite）／ＣＳ（Communications Satellite）チューナなどの放送受信装置などによって構成されるものである。

以上のように、ホームシアターからもネットワーク上にあるコンテンツを再生できるようにすることが重要であり、そのためには音声信号だけではなく映像信号もネットワーク上で伝送されることが必要になる。

ところで、再生する音声および映像に対する要求としてリップシンク（lip synchronization）がある。リップシンクとは、テレビに写る映像上の動きと、スピーカから出力される音声とを合わせるこという。リップシンクからのずれが大きすぎる場合、映像と音声とが対応しなくなる。非特許文献１ではリップシンクからのずれの最大値を約５ｍｓとしている。つまり、５ｍｓ以上のずれが生じると、人間はリップシンクからのずれを認識できるということである。よって、ＡＶ機器はリップシンクに対応した設計を行う必要がある。

これに対し、音声信号および映像信号をネットワーク上に伝送する場合、ネットワークの伝送に伴う遅延がさらに生じてしまう。よって、ネットワークに対応した高品質なＡＶ機器を設計するためにはネットワークで生じる遅延をも補う必要がある。

また、非特許文献１では、ステレオ音声に対する要求として両方のスピーカの音声のずれを最大±１１μｓの範囲としている。よって、複数のスピーカがそれぞれ独立した通信装置を用いている場合、それぞれの通信装置のずれを±１１μｓ以下に抑える必要がある。なお、非特許文献１ではステレオ音声のずれに対する要求を±１１μｓとしているが、２つ以上のスピーカの場合でも、スピーカ同士の音声のずれに対する要求は同じ±１１μｓである。

特許文献２では、音声信号および映像信号をネットワーク上に伝送し、さらにリップシンクの要求に対応した伝送装置が提案されている。この伝送装置は、無線送信機、音声受信機（スピーカ等）、および映像受信機（テレビ等）から構成されている。無線送信機は、一般のＡＶ機器の出力に直接接続する機器である。ここで、ＡＶ機器が出力する音声信号と映像信号とは、それぞれ、無線送信機における音声信号符号化部と映像信号符号化部とに別々に入力されて別々に処理され、音声受信機と映像受信機とに別々に伝送される構成になっている。
特開２００４−３２０６５３号公報（２００４年１１月１１日公開）特開２００４−２８２６６７号公報（２００４年１０月７日公開） R. Steinmetz, "Human Perception of Jitter and Media Synchronization", IEEE Journal On Selected Areas In Communications, Vol.14, No.1, pp.61-72, January 1996

しかしながら、ＭＰＥＧ２等のストリームには、通常、映像と音声との両方が含まれている。このため、ＤＬＮＡ対応に開発されている送信機および受信機も、ＭＰＥＧ２ストリームには音声と映像との両方が含まれていることを想定している。よって、例え特許文献２が提案しているアーキテクチャが、その音声信号と映像信号とがＤＬＮＡ対応であったとしても、音声と映像とがそれぞれ別々のストリームに伝送されるため、映像と音声とを同じストリームで伝送する一般のネットワークＡＶ機器（以下、このような機器を「ＡＶストリームソース機器」と称する。）との直接的な相互接続性を有さない。

なお、特許文献２のアーキテクチャは、ＡＶストリームソース機器との間接的な相互接続性を有することができる。これは、同文献のアーキテクチャは、外部のＡＶ機器に接続する構成になっているためである。このため、同文献のアーキテクチャに接続するＡＶ機器の入力が、ＡＶストリームソース機器との相互接続性を有していれば良い。この場合、上記ＡＶ機器は、映像と音声とを含んだ１つのストリームをＡＶストリームソース機器から受信し、次に音声と映像とを分離して、音声と映像とを別々に同文献のアーキテクチャに出力すればよい。

しかしながら、この場合、上記ＡＶ機器から特許文献２のアーキテクチャに音声と映像とを伝送し、同文献のアーキテクチャが音声受信機と映像受信機とに音声と映像とをそれぞれ伝送することになる。すなわち、音声と映像とを２回伝送することになり、帯域の無駄になる。

例えば、ＨＤＴＶ（High Definition Television）対応のＭＰＥＧ２の場合、ストリームは２０Ｍｂｐｓ以上であり、特許文献２のアーキテクチャが入力されたストリームの伝送レートを変換しない場合、２回の伝送の合計は４０Ｍｂｐｓ以上になる。これらの伝送を無線で行う場合、現在のＩＥＥＥ（The Institute of Electrical and Electronics Engineers）８０２．１１ａに準拠したＷＬＡＮ（Wireless LAN）モジュールのＭＡＣ−ＳＡＰ（Media Access Control Service Access Point）上の性能は３５Ｍｂｐｓ以下であり、４０Ｍｂｐｓ以上の伝送は不可能である。

現在規格化中の次世代高速無線ＬＡＮのＩＥＥＥ８０２．１１ｎの場合では、ＭＡＣ−ＳＡＰ上で１００Ｍｂｐｓ以上が期待されているが、これは近距離の性能であり、例えば家庭内の場合は全体で５０Ｍｂｐｓ以下と思われる。この場合、ギリギリで上記の４０Ｍｂｐｓを伝送できる可能性はあるが、このときの伝送路に対する負荷が著しく大きいので、他のデータ伝送に影響を及ぼすことになる。

例えば、ＩＥＥＥ８０２．１１ｎでは複数のＨＤＴＶの伝送が期待されている。１つのＨＤＴＶの伝送で２つ分の伝送を使ってしまうと、複数のＨＤＴＶに対応できなくなる虞がある。また、例えば今後、家庭内では映像だけではなく、通常のメールやインターネットブラウザのデータ、または家庭内のネットワークを用いてＶｏＩＰ（Voice Over Internet Protocol）で電話をすることや、インターネットゲームを楽しむことなどが期待されている。そこで、これらの用途のために帯域を確保することが重要であり、帯域を無駄に使うことはこれらのサービスの品質を劣化させることになる。

なお、特許文献２のアーキテクチャが入力されたストリームの伝送レートをより高い伝送レートに変換した場合、以上の帯域問題はさらに悪化する。これとは反対に、同文献のアーキテクチャが、入力されたストリームの伝送レートをより低くする場合、伝送する音声と映像との品質が悪化する。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、帯域の無駄を抑えることができる映像音声処理本体装置、音声処理端末装置などを提供することにある。

本発明に係る映像音声処理本体装置は、映像および音声に対する処理を行う映像音声処理本体装置であって、上記課題を解決するために、前記映像および音声を含むＡＶストリームを、外部装置から通信ネットワークを介して受信する受信手段と、前記ＡＶストリームを、前記映像を含む映像ストリームと、前記音声を含む音声ストリームとに分離するデマックス手段と、前記映像ストリームを処理して映像信号を生成する映像処理手段と、前記受信手段が受信したＡＶストリームから音声の一部または全部を含む音声ストリームを取り出す音声取出手段と、該音声取出手段が取り出した音声ストリームを、通信ネットワークを介して１または複数の外部装置に送信する送信手段とを備えることを特徴としている。

なお、本願では、「音声」という用語は、声だけでなく、音楽、音響など、種々の音の総称として使用している。また、音声と映像とを含むＡＶストリームを送信する外部装置の一例としては、ＡＶストリームのサーバなどが挙げられる。また、映像音声処理本体装置が送信した音声ストリームを受信する外部装置の一例としては、スピーカ用通信装置、ネットワーク対応スピーカなどが挙げられる。

上記の構成によれば、映像および音声を含むＡＶストリームを受信し、受信したＡＶストリームを映像ストリームと音声ストリームとに分離し、分離した映像ストリームを処理して映像信号を生成している。また、受信したＡＶストリームに含まれる音声の一部または全部を含む音声ストリームを取り出して１または複数の外部装置に送信している。

したがって、本発明の装置を、例えばホームシアターなどの映像音声処理システムに適用すると、ＡＶストリームを送信する一般のネットワークＡＶ機器と直接的な相互接続性を有すると共に、従来よりも映像および音声の伝送回数を減らして帯域の無駄を抑えることができる。

例えば、２０ＭｂｐｓのＨＤＴＶ用ＡＶストリームの場合、音声が５．１チャンネルであるＤＴＳ（Digital Theater System）形式の音声ストリームは、最大１５３６Ｋｂｐｓであり、映像ストリームは約１８．５Ｍｂｐｓになる。よって、本発明での帯域は約２１．５Ｍｂｐｓに抑えることができ、ＩＥＥＥ８０２．１１ａに準拠した無線ＬＡＮ（ＷＬＡＮ）モジュールで伝送可能である。なお、他の形式の５．１チャンネル音声ストリームは、最大伝送レートが、ＤｏｌｂｙＤｉｇｉｔａｌで４４８ｋｂｐｓであり、ＡＡＣ（Advanced Audio Coding）で９１２ｋｂｐｓである。したがって、他の形式の音声ストリームでも無線ＬＡＮモジュールで伝送可能である。

また、上記の構成によれば、音声取出手段が取り出した音声ストリームを、送信手段が通信ネットワークを介して１または複数の外部装置に送信できる。したがって、映像音声処理本体装置と外部装置との構成や配置を柔軟に変更できる。

ここで、映像音声処理本体装置の一例であるホームシアター本体と、外部装置の一例であるスピーカ用通信装置とについて具体的に説明する。例えば、２台のリアスピーカのみに音声ストリームをネットワーク伝送したい場合、２つの方法がある。

１つは、上記２台のリアスピーカがお互いにあまり離れていない場合、音声取出手段が取り出した音声ストリームを１台のスピーカ用通信装置に送り、上記２台のリアスピーカを上記スピーカ用通信装置に接続する方法である。この場合、スピーカ用通信装置をホームシアター本体から遠くに配置することができ、リアスピーカはスピーカ用通信装置の近くに配置することができる。よって、ホームシアター本体とスピーカ用通信装置との間の配線を簡素化できる。

もう１つは、上記２台のリアスピーカがお互いに離れている場合であり、音声取出手段が取り出した音声ストリームを２台のスピーカ用通信装置に送る方法である。この場合、上記２台のスピーカ用通信装置を２台のスピーカにそれぞれ内臓することができる。よって、ホームシアター本体と２台のスピーカとの間の配線を簡素化できる。以上は２台のリアスピーカの事例であったが、より多くのスピーカを利用する場合も同様にできる。

本発明に係る映像音声処理本体装置では、音声を出力するタイミングを決定するための時刻を示す音声時計手段と、前記音声取出手段が取り出した音声ストリームに同期するように、前記音声時計手段を調整する調整手段とをさらに備えることもできる。

上記の構成によれば、上記取り出した音声ストリームに同期している音声時計手段を用いることにより、ホームシアター本体などの映像音声処理本体装置と、上記取り出した音声ストリームが伝送されるスピーカなどの外部装置とのリップシンクや、スピーカ同士の音声のずれに対する要求を満たすことができる。

本発明に係る映像音声処理本体装置では、前記音声時計手段の時刻をサンプリングするサンプリング手段をさらに備えており、前記送信手段は、前記サンプリング手段がサンプリングした時刻の情報を、通信ネットワークを介して１または複数の前記外部装置に送信することもできる。

上記の構成によれば、音声時計手段の時刻をサンプリングし、サンプリングした時刻の情報を１または複数の外部装置に送信している。したがって、スピーカなどの外部装置が音声を出力するタイミングを決定するために備える音声時計手段は、上記のサンプリングした時刻を基に調整されることにより、ホームシアター本体などの映像音声処理本体装置の音声時計手段に、より正確に同期することができる。実施例では、１００ｎｓオーダで同期を達成することができた。この値は、リップシンクやスピーカ同士の音声のずれに対する要求（１〜１０μｓオーダ）よりも１桁低い。したがって、上記要求よりも精度の高い同期を実現できる。

本発明に係る映像音声処理本体装置では、前記ＡＶストリームはストリーム出力時刻の情報を含んでおり、前記受信手段が受信したＡＶストリームを一時記憶するストリームバッファと、前記ＡＶストリームを出力するタイミングを決定するための時刻を示すＡＶ時計手段と、前記ＡＶストリームに同期するように、前記ＡＶ時計手段を調整する調整手段と、前記ＡＶストリームのＡＶストリーム出力時刻が、前記ＡＶ時計手段が示す時刻に比べて等しいまたは遅い場合、対応するＡＶストリームの全部または一部を前記デマックス手段に送信する比較手段とをさらに備えることもできる。

上記の構成によれば、ストリーム出力時刻を基準にしてＡＶストリームの全部または一部をデマックス手段に出力することにより、ＭＰＥＧ２−ＴＳが要求する同期精度を達成することができる。なお、よい同期精度が達成できる理由は、通常のＭＰＥＧ２デコーダ内ではデコーダの時計手段が用いられ、この時計手段をＭＰＥＧ２ストリームに同期させる必要があるためである。ＭＰＥＧ２デコーダに入力されるＭＰＥＧ２−ＴＳの信号を上記の方法で同期させておくことにより、ＭＰＥＧ２デコーダ内部の時計手段の同期を高い精度にすることができる。つまり、ＭＰＥＧ２デコーダ内部の時計手段は２回同期されることになる。

本発明に係る映像音声処理本体装置では、前記受信手段は、受信するＡＶストリームに同期した時計調整用時刻の情報をさらに受信しており、前記調整手段は、前記時計調整用時刻を基に前記ＡＶ時計手段を調整することもできる。

上記の構成によれば、ＡＶストリームに同期した時計調整用時刻を用いてＡＶ時計手段を調整することにより、ＭＰＥＧ２−ＴＳが要求する精度またはさらに良好な精度の同期を達成することができる。

本発明に係る映像音声処理本体装置では、前記音声取出手段は、前記ＡＶストリームを前記受信手段が送信してから前記ストリームバッファが受信するまでの間に、前記ＡＶストリームから、前記音声の一部または全部を含む音声ストリームを取り出すこともできる。さらに、前記音声取出手段が取り出した音声ストリームは、前記ＡＶストリーム出力時刻の情報を含むこともできる。

上記の構成によれば、ストリーム出力時刻の情報を含む音声ストリームを、ホームシアター本体などの映像音声処理本体装置からスピーカなどの外部装置に送信できる。これにより、外部装置が備える上記音声時計手段は、上記ストリーム出力時刻を基に調整されることにより、映像音声処理本体装置の音声時計手段に同期することができる。したがって、映像音声処理本体装置および外部装置は、ストリーム出力時刻を基に映像と音声との処理を行うため、簡単にリップシンクを達成することができる。

本発明に係る映像音声処理本体装置では、前記ＡＶ時計手段の時刻をサンプリングするサンプリング手段をさらに備えており、前記送信手段は、前記サンプリング手段がサンプリングした時刻の情報を、通信ネットワークを介して１または複数の前記外部装置に送信することもできる。

上記の構成によれば、映像音声処理本体装置のＡＶ時計手段と音声時計手段とを１つにまとめることができるので、映像音声処理本体装置のアーキテクチャを縮小できる。

本発明に係る映像音声処理本体装置は、前記音声ストリームを処理して音声信号を生成する音声処理手段をさらに備えることを特徴としている。

上記の構成によれば、分離した音声ストリームを処理してさらに音声信号を生成している。したがって、本発明の映像音声処理本体装置は、映像信号を生成することに加え、音声信号も生成することができる。

なお、音声取出手段は、前記ＡＶストリームを前記受信手段が送信してから、前記音声処理手段が前記音声信号を送信するまでの間に、前記ＡＶストリームに含まれる音声の一部または全部を含む音声ストリームを取り出せばよい。

本発明に係る映像音声処理本体装置では、前記音声取出手段は、前記音声処理手段から、前記音声の一部または全部を含む音声ストリームを取り出すこともできる。

通常、映像処理手段と音声処理手段とは同じ半導体チップの一部であり、該半導体チップは音声信号を出力している。このため、上記の構成によれば、音声取出手段が、音声処理手段が出力した音声信号を取り出して音声ストリームとすることができ、音声の取出しが容易となる。

本発明に係る映像音声処理本体装置では、前記音声処理手段が出力する音声信号を遅延させる音声遅延手段をさらに備えることもできる。また、本発明に係る映像音声処理本体装置では、前記映像処理手段が出力する映像信号を遅延させる映像遅延手段をさらに備えることもできる。

ところで、音声取出手段が取り出した音声ストリームは、音声処理手段が処理した後の音声ストリームであり、この音声ストリームは、映像音声処理本体装置から外部装置に伝送されてから外部装置の音声処理手段でさらに処理されることになる。このため、映像音声処理本体装置から出力される映像および音声と、外部装置から出力される音声とは、ネットワーク伝送の時間分と外部装置の音声処理の時間分とによるずれが生じる。

そこで、上記の構成によれば、音声遅延手段および映像遅延手段を用いて映像音声処理本体装置からの音声および映像を遅延させることにより、映像音声処理本体装置からの映像および音声と外部装置からの音声との同期を取ることができる。したがって、映像音声処理本体装置と外部装置とのリップシンクに対する要求を満たすことができる。

本発明に係る映像音声処理本体装置では、前記ＡＶストリームは、映像処理開始時刻、映像表示時刻、音声処理開始時刻、および音声表示時刻のうちの少なくとも１つの時刻の情報を含んでおり、前記ＡＶストリームに含まれる前記時刻を調整する時刻調整手段をさらに備えることもできる。

ところで、映像処理手段が出力する映像は非圧縮の映像であり、映像の解像度と映像のフレームレートにより、映像遅延手段が必要とするメモリ容量が膨大になることもある。これに対し、上記の構成によれば、ＡＶストリームの映像処理開始時刻または映像表示時刻を調整して遅延させることにより、ＡＶストリームは圧縮されているストリームであるため、映像遅延手段が必要とするメモリ容量を抑えることができる。したがって、小さいアーキテクチャによりリップシンク要求を簡単に満たすことができる。なお、音声についても同様のことがいえる。

本発明に係る映像音声処理本体装置では、音声を出力するタイミングを決定するための時刻を示す音声時計手段と、前記音声取出手段が取り出した音声ストリームに同期するように、前記時計手段を調整する調整手段とをさらに備えることもできる。

ところで、デマックス手段、映像処理手段、および音声処理手段はＭＰＥＧ２−ＴＳの処理に含まれる。また、デマックス手段に入力されるＡＶストリームは５００ｎｓ以内で同期している方が良いという要求がある。一方、映像処理および音声処理後の復号されたＭＰＥＧ２−ＴＳの映像は２ｎｓ以内で同期していて、音声も同等なレベルで同期されている。よって、ＭＰＥＧ２−ＴＳに入力されたストリームは５００ｎｓ以内の同期から２ｎｓ程度までに小さくなる。よって、特に取り出した音声ストリームがＰＣＭやＳＰＤＩＦの場合、このストリームは高い精度で同期している。

これに対し、ＡＶ時計手段と音声時計手段とは５００ｎｓで同期している。このため、ＡＶ時計手段と音声時計手段とを同じにすれば、音声時計手段と、音声取出手段が取り出した音声ストリームとの同期の精度も５００ｎｓレベルの低いものになってしまう。

そこで、本発明の上記の構成によれば、ＡＶ時計手段と音声時計手段を別にすることにより、音声時計手段をより高い精度で取り出した音声ストリームと同期させることができる。また、音声取出手段が取り出した音声ストリームに同期するように音声時計手段を調整することにより、音声時計手段をさらに高い精度で同期させることができる。

本発明に係る映像音声処理本体装置では、前記音声取出手段が前記音声ストリームを取り出した時に、前記音声時計手段の時刻をサンプリングする取出時サンプリング手段とをさらに備えており、該取出時サンプリング手段は、サンプリングした時刻に最大音声伝送時間分を加算してストリーム出力時刻とし、前記送信手段は、前記ストリーム出力時刻の情報を含む前記音声ストリームを、通信ネットワークを介して１または複数の前記外部装置に送信することもできる。

上記の構成によれば、映像音声処理本体装置からの映像および音声と、外部装置からの音声とを、より確実に同期させることができる。

本発明に係る映像音声処理本体装置では、前記音声取出手段が取り出した音声ストリームは、固定ビットレートの連続ビットストリームであり、かつ同期を取るための同期ヘッダを含んでおり、前記調整手段は、前記同期ヘッダを認識して前記音声時計手段の調整を行うこともできる。

上記の構成によれば、例えばＳ／ＰＤＩＦ（Sony/Philips Digital Interface Format）のようにＳ／ＰＤＩＦ信号を同期するための同期ヘッダ（Preamble）が含まれている場合、音声時計手段の同期を音声ストリーム（Ｓ／ＰＤＩＦ）に簡単に合わせることができる。

本発明に係る音声処理本体装置は、音声に対する処理を行うと共に音声ストリームを送信する音声処理本体装置であって、上記課題を解決するために、少なくとも音声を含む音声ストリームを取得する取得手段と、取得した音声ストリームに対し音声処理を行って音声信号を出力する音声処理手段と、前記音声ストリームから、前記音声の一部または全部を含む音声ストリームを取り出す音声取出手段と、音声を出力するタイミングを決定するための時刻を示す音声時計手段と、前記音声取出手段が取り出した音声ストリームに同期するように、前記音声時計手段を調整する調整手段と、前記音声時計手段の時刻をサンプリングするサンプリング手段と、該音声取出手段が取り出した音声ストリームと、前記サンプリング手段がサンプリングした時刻の情報とを、通信ネットワークを介して１または複数の外部装置に送信する送信手段とを備えることを特徴としている。

上記の構成によれば、少なくとも音声を含む音声ストリームを取得し、取得した音声ストリームを処理して音声信号を生成する一方、音声取出手段が取り出した音声ストリームを、送信手段が通信ネットワークを介して１または複数の外部装置に送信している。したがって、上述と同様に、音声処理本体装置と外部装置との構成や配置を柔軟に変更できる。

また、上記取り出した音声ストリームに同期している音声時計手段を用いることにより、音声処理本体装置と外部装置とにおける音声のずれに対する要求を満たすことができる。

さらに、音声時計手段の時刻をサンプリングし、サンプリングした時刻の情報を１または複数の外部装置に送信している。したがって、外部装置が音声を出力するタイミングを決定するために備える音声時計手段は、上記のサンプリングした時刻を基に調整されることにより、音声処理本体装置の音声時計手段に、より正確に同期することができる。その結果、上記要求よりも精度の高い同期を実現できる。

なお、上記送信手段は、上記音声取出手段が取り出した音声ストリームと、上記サンプリング手段がサンプリングした時刻の情報とを、一体として送信してもよいし、別々に送信してもよい。

本発明に係る音声処理端末装置は、上記課題を解決するために、前記音声を含む音声ストリームを、外部装置から通信ネットワークを介して受信する受信手段と、前記音声ストリームを処理して音声信号を生成する音声処理手段と、音声を出力するタイミングを決定するための時刻を示す音声時計手段と、前記音声ストリームに同期するように、前記音声時計手段を調整する調整手段とを備えることを特徴としている。

上記の構成によれば、音声を含む音声ストリームを受信し、受信した音声ストリームを処理して音声信号を生成する一方、受信した音声ストリームに同期している音声時計手段を用いて、音声を出力するタイミングを決定している。これにより、外部装置（映像音声処理本体装置、音声処理本体装置）と音声処理端末装置とにおける音声のずれに対する要求を満たすことができる。また、上記の構成によれば、一般のネットワークＡＶ機器が伝送したＡＶストリームに対応したネットワークホームシアターに対応できるネットワークスピーカの構築が可能となる。

本発明に係る音声処理端末装置では、前記受信手段は、受信した音声ストリームに対応する音声を前記外部装置が出力するタイミングを示す時刻の情報を受信し、前記調整手段は、前記時刻の情報を基に前記音声時計手段を調整することもできる。

上記の構成によれば、受信した音声ストリームに対応する音声を前記外部装置が出力するタイミングを示す時刻の情報を受信し、この時刻の情報を基に音声時計手段を調整している。これにより、音声処理本体装置の音声時計手段に、より正確に同期することができる。その結果、上記要求よりも精度の高い同期を実現できる。

本発明に係る音声処理端末装置では、前記受信手段は、受信した音声ストリームに同期した時計調整用時刻の情報を受信し、前記調整手段は、前記時計調整用時刻を基に前記音声時計手段を調整することもできる。

上記の構成によれば、受信した音声ストリームに同期した時計調整用時刻の情報を受信し、この時計調整用時刻を基に音声時計手段を調整している。これにより、音声処理本体装置の音声時計手段に、より正確に同期することができる。その結果、上記要求よりも精度の高い同期を実現できる。

本発明に係る音声処理端末装置では、前記音声ストリームはストリーム出力時刻の情報を含んでおり、前記受信手段が受信した音声ストリームを一時記憶するストリームバッファと、前記音声ストリームのストリーム出力時刻が、前記音声時計手段が示す時刻に比べて等しいまたは遅い場合、対応する音声ストリームの全部または一部を前記音声処理手段に送信する比較手段とをさらに備えることもできる。

上記の構成によれば、ストリーム出力時刻を基準にして音声ストリームを音声処理手段に出力することにより、上述のように、ＭＰＥＧ２−ＴＳが要求する同期精度を達成することができる。

なお、上記構成の映像音声処理本体装置と、該映像音声処理本体装置から通信ネットワークを介して音声ストリームを受信する上記構成の音声処理端末装置とを備える映像音声処理システムであれば、上記と同様の効果を奏することができる。

本発明に係る映像音声処理本体装置の制御方法は、映像および音声に対する処理を行う映像音声処理本体装置の制御方法であって、上記課題を解決するために、前記映像および音声を含むＡＶストリームを、外部装置から通信ネットワークを介して受信し、受信したＡＶストリームから音声の一部または全部を含む音声ストリームを取り出し、取り出した音声ストリームを、通信ネットワークを介して１または複数の外部装置に送信することを特徴としている。

上記の方法によれば、映像および音声を含むＡＶストリームを受信し、受信したＡＶストリームに含まれる音声の一部または全部を含む音声ストリームを取り出して１または複数の外部装置に送信している。

したがって、本発明の方法を、例えばホームシアターなどの映像音声処理システムに適用すると、ＡＶストリームを送信する一般のネットワークＡＶ機器と直接的な相互接続性を有すると共に、従来よりも映像および音声の伝送回数を減らして帯域の無駄を抑えることができる。また、取り出した音声ストリームを、通信ネットワークを介して１または複数の外部装置に送信するので、映像音声処理本体装置と外部装置との構成や配置を柔軟に変更できる。

本発明に係る音声処理端末装置の制御方法は、音声に対する処理を行う音声処理端末装置であって、音声を出力するタイミングを決定するための時刻を示す音声時計手段を備える音声処理端末装置の制御方法であって、上記課題を解決するために、前記音声を含む音声ストリームを、外部装置から通信ネットワークを介して受信すると、前記音声ストリームに同期するように、前記音声時計手段を調整し、調整された前記音声時計手段が示す時刻を基に、前記音声ストリームを処理して音声信号を生成することを特徴としている。

上記の方法によれば、音声を含む音声ストリームを受信し、受信した音声ストリームを処理して音声信号を生成する一方、受信した音声ストリームに同期している音声時計手段を用いて、音声を出力するタイミングを決定している。これにより、外部装置（映像音声処理本体装置、音声処理本体装置）と音声処理端末装置とにおける音声のずれに対する要求を満たすことができる。

なお、上記映像音声処理本体装置における各手段を映像音声処理本体装置制御プログラムによりコンピュータ上で実行させることができる。また、上記音声処理端末装置における各手段を音声処理端末装置制御プログラムによりコンピュータ上で実行させることができる。

さらに、上記映像音声処理本体装置制御プログラム、および／または、上記音声処理端末装置制御プログラムをコンピュータ読取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記映像音声処理本体装置制御プログラム、および／または、上記音声処理端末装置制御プログラムを実行させることができる。

以上のように、本発明に係る映像音声処理本体装置は、映像および音声を含むＡＶストリームを受信し、受信したＡＶストリームから音声の一部または全部を含む音声ストリームを取り出して１または複数の外部装置に送信するので、ＡＶストリームを送信する一般のネットワークＡＶ機器と直接的な相互接続性を有すると共に、従来よりも映像および音声の伝送回数を減らして帯域の無駄を抑える効果を奏する。

〔実施の形態１〕
本発明の一実施形態について図１〜図３に基づいて説明すると以下の通りである。図１は、本実施形態のＡＶストリーム伝送システムの概略構成を示している。図示のように、ＡＶストリーム伝送システム１は、ＡＶストリーム伝送装置６１０とホームシアター１０とがネットワーク７１０を介して通信可能に接続した構成である。

ＡＶストリーム伝送装置６１０は、ＡＶストリームを伝送するものである。ＡＶストリーム伝送装置６１０は、例えばＡＶサーバ、ネットワーク対応のＤＶＤ・ＨＤＤ・ＣＤ等のプレイヤーやチューナなどである。

ＡＶストリーム伝送装置６１０が伝送したＡＶストリームは、ネットワーク７１０を介してホームシアター１０で受信する。なお、ＡＶストリーム伝送装置６１０が伝送した上記のＡＶストリームは、ホームシアター１０だけではなく、ネットワーク化された通常のテレビ受像機でも受信可能である。

ＡＶストリームは、例えばＭＰＥＧ２−ＴＳ（Transport Stream）、ＭＰＥＧ２−ＰＳ（Program Stream）、ＭＰＥＧ４、Ｈ．３２４、Ｈ．２６４、ＷＭＶ（Windows(登録商標) Media Video）など、任意のＡＶ形式であってもよい。

なお、ネットワーク７１０としては、特に限定されず、例えば、インターネット、ＬＡＮ、移動体通信網、衛星通信網等が利用可能である。

図１に示されるように、ホームシアター１０は、本体部１１０とスピーカ部３１０とから構成される。本体部１１０は、通信部１２０、ストリーム変換部１３０、ストリーム同期部１４０、デマックス部１５０、映像処理部１６０、音声処理部１７０、音声取出部１８０、サンプリング部１９０、音声時計部２００、調整部２１０、映像アンプ２４０、および音声アンプ２７０を備える構成である。

まず、本体部１１０の通信部１２０は、ＡＶストリーム伝送装置６１０が伝送したＡＶストリームを、ネットワーク７１０を介して受信してストリーム変換部１３０に渡す。ストリーム変換部１３０は、入力されたＡＶストリームの形式を、本体部１１０の映像処理部１６０と音声処理部１７０とが処理できる形式に変換し、変換したＡＶストリームをストリーム同期部１４０に渡す。例えば、映像処理部１６０と音声処理部１７０とがＭＰＥＧ２−ＰＳ形式に対応しており、入力されたＡＶストリームがＭＰＥＧ４形式であった場合、ストリーム変換部１３０はＭＰＥＧ４形式からＭＰＥＧ２−ＰＳ形式に変換する。

なお、ＡＶストリーム伝送装置６１０からのＡＶストリームの形式が、映像処理部１６０と音声処理部１７０とにおいて処理可能な形式である場合、ストリーム変換部１３０は不要となる。この場合、通信部１２０が出力するＡＶストリームは、ストリーム同期部１４０に入力されることになる。

ストリーム同期部１４０は、例えばストリーム同期部１４０に入力されたＡＶストリームがＭＰＥＧ２−ＴＳ形式であった場合のように、ＡＶストリームをＡＶ処理部（映像処理部１６０と音声処理部１７０）に渡す時刻を表すストリーム出力時刻（ＴＳ時報）がＡＶストリームに含まれている場合に用いる。

なお、ストリーム同期部１４０が行う処理は、ＭＰＥＧ２−ＴＳがＴＳ時報について行う処理と同じである。そこで、ストリーム同期部１４０の詳細について説明する前に、ＭＰＥＧ２−ＴＳについて説明する。

ＭＰＥＧ２−ＴＳは、トランスポートストリーム形式のＭＰＥＧ２をインターネット上で伝送するためのＡＶストリーム形式である。図７は、送信側端末装置から受信側端末装置へのＭＰＥＧ２−ＴＳストリームのデータ転送の流れを示している。送信側端末装置１０７１は、ＭＰＥＧ２−ＴＳエンコーダ（以下、単に「エンコーダ」と称する。）１０６１、送信側上位層１０９１、および送信側通信部１０８１を備える構成である。また、受信側端末装置１０７２は、ＭＰＥＧ２−ＴＳデコーダ（以下、単に「デコーダ」と称する。）１０６２、受信側上位層１０９２、受信側通信部１０８２を備える構成である。

エンコーダ１０６１は、ＡＶストリームを１８８バイトのパケットに分割して、送信側上位層に出力する。このパケットは、送信側上位層１０９１と送信側通信部１０８１とにおいて処理され、通信路ｒを介して、受信側端末装置１０７２にて受信される。

一方、受信側端末装置１０７２では、送信側端末装置１０７１からのパケットを、受信側通信部１０８２と受信側上位層１０９２とにおいてこの順序で処理される。受信側上位層１０９２が出力するパケットは、エンコーダ１０６１が出力した１８８バイトのパケットと同じである。デコーダ１０６２は、受信側上位層１０９２が出力するパケットを受信し、受信したパケットをＡＶストリームに変換して出力する。

ここで、映像が滑らかに出力されるために、エンコーダ１０６１が出力するパケットの間隔と、デコーダ１０６２に入力されるパケットの間隔とが同じであるという条件を満たす必要がある。図９は、この条件をタイムチャートで示している。図示のように、エンコーダ１０６１が出力するパケット１とパケット２との時間差がｔ１である場合、同じパケット１とパケット２とがデコーダ１０６２に入力される時間差ｔ１’もｔ１’＝ｔ１でなければならない。もし、ｔ１’≠ｔ１であれば、デコーダ１０６２に入力されるパケットは、正しいタイミングで入力されなくなり、映像も滑らかに出力されなくなる。

そこで、上記の条件を満たすため、送信側上位層１０９１は、図７に示されるように、エンコーダ１０６１からのパケットに対する最初の処理として、ＭＰＥＧ２−ＴＳのパケットｐ（１８８バイト）に、ＴＳ用の時報（ＴＳ時報）を含んだヘッダｈ（４バイト）を追加したパケット１０５０を生成する。

また、図７に示されるように、送信側上位層１０９１と受信側上位層１０９２とには、それぞれ同期している送信側時計１０５１と受信側時計１０５２とを有する。そして、ヘッダｈに含まれるＴＳ時報は、［エンコーダ１０６１から入力された時刻］＋ｄｅｌａｙ１（ｄｅｌａｙ１は固定値）である。ここで、エンコーダ１０６１から入力された時刻は、送信側時計１０５１が示す時刻をサンプリングしたものである。送信側上位層１０９１が生成したパケット１０５０は、送信側上位層１０９１にてその他の処理が行われ、送信側通信部１０８１から受信側端末装置１０７２に伝送される。

一方、受信側端末装置１０７２では、送信側端末装置１０７１から伝送されるパケットが、受信側通信部８２で受信され、受信側上位層１０９２でまずその他の処理が行われることにより、送信側上位層１０９１が生成したパケット１０５０と同じパケット１０５０’が復元される。このパケット１０５０’は、バッファ１０９６に一時記憶される。

ここで、受信側上位層１０９２は、パケット１０５０’に含まれるＭＰＥＧ２−ＴＳパケットｐを適切な時刻にデコーダ１０６２に出力することが重要である。このため、パケット１０５０’に含まれるＴＳ時報を、［受信側時計１０５２が示す時刻］＋ｄｅｌａｙ２（ｄｅｌａｙ２は固定値）と比較器１０９５にて比較し、一致した場合に、スイッチ１０９７を入れて、パケット１０５０’におけるＭＰＥＧ２−ＴＳパケットｐをデコーダ１０６２に出力する。以上のように、ＴＳ時報をＭＰＥＧ２−ＴＳパケットに追加することにより、エンコーダ１０６１が出力するパケットの間隔と、デコーダ１０６２に入力されるパケットの間隔とを同じにすることができる。

なお、ＴＳ時報をＭＰＥＧ２−ＴＳに用いる事例として、ＤＬＮＡとＩＥＥＥ１３９４がある。ＤＬＮＡの場合、送信側時計１０５１はＭＰＥＧ２エンコーダ内部の時計に同期される。ＩＥＥＥ１３９４の場合、送信側時計１０５１はＩＥＥＥ１３９４の時計に同期される。よって、ＤＬＮＡおよびＩＥＥＥ１３９４のいずれにしても、送信側時計１０５１、受信側時計１０５２、およびＭＰＥＧ２−ＴＳストリームはお互いに同期している。

次に、ストリーム同期部１４０の詳細について説明する。図２は、ストリーム同期部１４０の概略構成を示している。図示のように、ストリーム同期部１４０は、ストリームバッファ１４２、調整部１４５、時計部１４６、および比較部１４８を備える構成である。時計部１４６が、図７に示される受信側時計１０５２に対応する。

まず、ＡＶストリームはストリームバッファ１４２に格納される。ここで、時計部１４６は、調整部１４５によってＡＶストリームに同期される。なお、調整部１４５の調整方法の例としては、ストリームバッファ１４２の残量を参照して調整を行う、ストリームバッファ１４２のＡＶストリームのストリーム出力時刻を参照して調整を行う、外部のＡＶストリーム伝送装置６１０が同期用情報を送信し、通信部１２０がこの同期用情報を受信して調整を行うことなどが考えられる。また、調整部１４５に利用される回路例としては、ＰＬＬ（Phase Locked Loop）が挙げられる。

比較部１４８は、ＡＶストリームのストリーム出力時刻と時計部１４６の時刻とを比較し、ストリーム出力時刻が時計部１４６の時刻に等しいあるいは大きい場合、ＡＶストリームをデマックス部１５０に出力する。なお、ここで出力されるＡＶストリームは、ストリーム出力時刻を含まないものであっても良い。

なお、ＡＶストリーム伝送装置６１０から受信するＡＶストリームが、例えばＭＰＥＧ２−ＰＳのように、ストリーム出力時刻を含まない場合、ストリーム変換部１３０または通信部１２０が出力するＡＶストリームは、直接デマックス部１５０に渡しても良い。

デマックス部１５０は、ＡＶストリームから映像と音声とを分離し、映像ストリームと音声ストリームとをそれぞれ映像処理部１６０と音声処理部１７０とに渡す。映像処理部１６０は、受け取った映像ストリームの復号を行い、復号した映像信号を映像アンプ２４０に渡す。映像アンプ２４０は、受け取った映像信号を増幅してテレビ８１０に出力する。

一方、音声処理部１７０は、受け取った音声ストリームの復号を行い、復号した音声信号を音声アンプ２７０に渡す。音声アンプ２７０は、受け取った音声信号を増幅してスピーカ８２０に出力する。なお、デマックス部１５０、映像処理部１６０、および音声処理部１７０は、例えばＭＰＥＧ２ストリームの場合、通常１つの半導体チップに含まれる。

音声取出部１８０は、通信部１２０から音声処理部１７０の後までの処理中に特定の部分から音声ストリームを取り出す。取り出された音声ストリームは、通信部１２０とネットワーク７１０とを介して、スピーカ部３１０に伝送される。

音声時計部２００は、音声取出部１８０が取り出した音声ストリームに対し、調整部２１０によって同期される。なお、スピーカ部３１０の音声時計部３４６は本体部１１０の音声時計部２００に同期している。また、音声時計部２００の調整方法は後述する。

なお、取り出した音声ストリームがＭＰＥＧ２に対応している場合、この音声ストリームはＭＰＥＧ２のアダプテーションフィールド（Adaptation Field）やＰＳＩ（Program Specific Information）テーブルなどを含んでも良い。

サンプリング部１９０は、通信部１２０と音声時計部２００との間に設けられ、音声時計部２００の時刻（以下、この時刻を「同期用時報」と称する。）をサンプリングする。サンプリングされた同期用時報は、通信部１２０とネットワーク７１０とを介して、スピーカ部３１０に伝送される。なお、サンプリング部１９０がサンプリングした同期用時報を、スピーカ部３１０が利用しない場合も考えられる。この場合、サンプリング部１９０を設ける必要はなく、上記同期用時報をスピーカ部３１０に伝送する必要もない。

なお、図１の例では、スピーカ部３１０は２つであるが、１つでも良いし、３つ以上でも良い。また、複数のスピーカ部３１０は、複数のスピーカ部３１０に別々のチャネルの音声を出力しても良い。

スピーカ部３１０は、通信部３２０、音声変換部３３０、音声同期部３４０、デマックス部３５０、音声処理部３７０、および音声アンプ４７０を備える構成である。

まず、スピーカ部３１０の通信部３２０は、本体部１１０が伝送した音声ストリームを、ネットワーク７１０を介して受信して音声変換部３３０に渡す。音声変換部３３０は、入力された音声ストリームの形式を、スピーカ部３１０の音声処理部３７０が処理できる形式に変換し、変換した音声ストリームを音声同期部３４０に渡す。例えば、音声処理部３７０がＡＡＣ形式に対応しており、入力された音声ストリームがＤＴＳ形式であった場合、音声変換部３３０はＤＴＳ形式からＡＡＣ形式に変換する。

なお、本体部１１０からの音声ストリームの形式が、音声処理部３７０とにおいて処理可能な形式である場合、音声変換部３３０は不要となる。この場合、通信部３２０が出力する音声ストリームは、音声同期部３４０に入力されることになる。

音声同期部３４０は、例えば音声同期部３４０に入力された音声ストリームがＭＰＥＧ２−ＴＳ形式であった場合のように、音声ストリームを音声処理部３７０に渡す時刻を表すストリーム出力時刻（ＴＳ時報）が音声ストリームに含まれている場合に用いる。なお、音声同期部３４０が行う処理は、ＭＰＥＧ２−ＴＳがＴＳ時報について行う上述の処理と同じである。

図３は、音声同期部３４０の概略構成を示している。図示のように、音声同期部３４０は、ストリームバッファ３４２、調整部３４５、音声時計部３４６、および比較部３４８を備える構成である。

まず、音声ストリームはストリームバッファ３４２に格納される。ここで、音声時計部３４６は、調整部３４５によって音声ストリーム、つまり本体部１１０の時計部１４６に同期される。なお、調整部３４５の調整方法の例としては、ストリームバッファ３４２の残量を参照して調整を行う、ストリームバッファ３４２の音声ストリームのストリーム出力時刻を参照して調整を行う、本体部１１０が送信した同期用時報の時刻情報を用いて調整を行うことなどが考えられる。また、調整部３４５に利用される回路例としては、ＰＬＬが挙げられる。

比較部３４８は、音声ストリームのストリーム出力時刻と音声時計部３４６の時刻とを比較し、ストリーム出力時刻が音声時計部３４６の時刻に等しいあるいは大きい場合、音声ストリームをデマックス部３５０に出力する。なお、ここで出力される音声ストリームは、ストリーム出力時刻を含まないものでも良い。

なお、本体部１１０から受信する音声ストリームが、例えばＭＰＥＧ２−ＰＳのように、ストリーム出力時刻を含まない場合、音声変換部３３０または通信部３２０が出力する音声ストリームは、直接デマックス部３５０に渡しても良い。

デマックス部３５０は、音声ストリームを音声処理部３７０に渡す。デマックス部３５０は通常不要であるが、例えば音声処理部３７０に通常の映像処理も行えるＭＰＥＧ２の半導体チップなど用いた場合、デマックス部３５０が含まれている場合がある。音声処理部３７０は、受け取った音声ストリームの復号を行い、復号した音声信号を音声アンプ４７０に渡す。音声アンプ４７０は、受け取った音声信号を増幅してスピーカ８３０に出力する。

なお、サンプリング部１９０がサンプリングした音声時計部２００の時刻は、本体部１１０からスピーカ部３１０にマルチキャストまたはブロードキャストで伝送されても良い。上記時刻をマルチキャストあるいはブロードキャストすることにより、帯域を効率よく利用できる。

同様に、音声ストリームは、本体部１１０からスピーカ部３１０にマルチキャストまたはブロードキャストでストリーム伝送されても良い。音声ストリームをマルチキャストあるいはブロードキャストすることにより、帯域を効率よく利用できる。

また、サンプリング部１９０がサンプリングした音声時計部２００の時刻は、本体部１１０からスピーカ部３１０にユニキャストで伝送されても良い。サンプリングされた時刻を再送可能なユニキャストで伝送することにより、伝送をより確実に行うことができる。

同様に、音声ストリームは、本体部１１０からスピーカ部３１０にユニキャストで伝送されても良い。音声ストリームを再送可能なユニキャストで伝送することにより、伝送をより確実に行うことができる。

また、本体部１１０およびスピーカ部３１０は、受信するストリームが例えば著作権保護されている場合、暗号化の解読を行う暗号化処理部を含んでも良い。この場合、暗号化処理部は映像処理部１６０および音声処理部１７０・３７０の上流側に設けられる。

また、本体部１１０は、スピーカ部３１０に伝送する音声ストリームに対し著作権保護のために暗号化処理を行う暗号化処理部を含んでも良い。この場合、暗号化処理部は音声取出部１８０の下流側に設けられる。

また、ＡＶストリーム伝送装置６１０、本体部１１０、およびスピーカ部３１０における通信手段は、例えばＩＥＥＥ８０２．１１系の無線ＬＡＮ（ＷＬＡＮ）に対応してもよい。通信ネットワークをＷＬＡＮにすることにより、ホームシアター本体とネットワークスピーカとの間に配線を使う必要がなくなり、より簡単にホームシアターを設定することができ、配線状況が簡素化される。また、ＷＬＡＮで５ＧＨｚ帯域を用いると、赤外線や２．４ＧＨｚで発生する問題を回避することができる。

また、ＡＶストリーム伝送装置６１０、本体部１１０、およびスピーカ部３１０における通信手段は、例えばＰＬＣ（電力線搬送通信）に対応してもよい。通信ネットワークをＰＬＣにすることにより、ホームシアター本体とネットワークスピーカとの間に既存の電力線を使うことができ、より簡単にホームシアターを設定することができ、配線状況が簡素化される。

〔実施の形態２〕
次に、本発明の別の実施形態について、図４を参照しつつ以下に説明する。本実施形態では、音声取出部１８０は、ストリーム同期部１４０に入力される前のＡＶストリームから音声ストリームを取り出している。また、本実施形態では、ＡＶストリームは、例えばＭＰＥＧ２−ＴＳのように、ＡＶストリームをＡＶ処理部（映像処理部１６０および音声処理部１７０）に渡す時刻を示すストリーム出力時刻（ＴＳ時報）がＡＶストリームに含まれている。

図４は、本実施形態において、ＡＶストリーム伝送装置６１０から本体部１１０とスピーカ部３１０とに伝送されるＡＶストリームの流れを時系列的に示している。図示において、横軸が時間軸であり、ストリームの移動方向を表している。また、ＡＶストリームの映像と音声とは、それぞれ図示の黒い箱と白い箱とで表されている。なお、図示の構成では、図１に示される構成に比べて、ストリーム変換部１３０と音声変換部３３０とが省略されているが、必要に応じて設けても良い。

本実施形態では、まず、本体部１１０において、時計部１４６（図２参照）と音声時計部２００とは同じとする。この場合、調整部１４５と調整部２１０も同じである。また、本体部１１０の時計部１４６とスピーカ部３３０の音声時計部３４６（図３参照）とは同期がとれているとする。

ＡＶストリームは、ＡＶストリーム伝送装置６１０から伝送され、本体部１１０の通信部１２０で受信される。通信部１２０が処理した後、ＡＶストリームは、ストリーム同期部１４０内部のストリームバッファ１４２に渡され、かつ音声取出部１８０により音声ストリームが取り出される。図４の例では、音声ストリームａ７が、ストリームバッファ１４２に入力されようとしていると共に、音声取出部１８０にて取り出されている。

音声取出部１８０が取り出した音声ストリームは、通信部１２０がスピーカ部３１０に伝送する。スピーカ部３１０の通信部３２０は、音声ストリームを受信してストリームバッファ３４２に渡す。なお、本体部１１０の通信部１２０からスピーカ部３１０の通信部３２０までの間には複数の音声ストリームが存在する。図４の例では、音声ストリームａ４〜ａ７が存在する。

したがって、スピーカ部３１０の音声ストリームは、本体部１１０のＡＶストリームにおける音声ストリームに比べて遅延することになる。この遅延を吸収することがストリームバッファ３４２の一機能である。なお、この遅延は、例えば、本体部１１０からスピーカ部３１０に音声ストリームを転送することによる。よって、本体部１１０のストリームバッファ１４２は、上記転送が終わるまで、対応するＡＶストリームを保存しておく。

次に、本体部１１０では、ストリームバッファ１４２のＡＶストリームのストリーム出力時刻と、時計部１４６の時刻とが、比較部１４８で比較される。同時に、スピーカ部３１０では、ストリームバッファ３４２の音声ストリームのストリーム出力時刻と、時計部３４６の時刻とが、比較部３４８で比較される。両方の時計部１４６・３４６は同期しているため、本体部１１０とスピーカ部３１０との両方の音声ストリームは、それぞれ同時にストリームバッファ１４２・３４２からデマックス部１５０・３５０に渡される。図４の例では、ストリームバッファ１４２・３４２からデマックス部１５０・３５０に渡される音声ストリームは、音声ストリームａ１である。

本体部１１０では、ＡＶストリームは、デマックス部１５０を介して映像処理部１６０と音声処理部１７０とに渡される。一方、スピーカ部３１０では、音声ストリームは、デマックス部３５０を介して音声処理部３７０に渡される。

以上のように、本体部１１０とスピーカ部３１０とでは、対応するストリームは同時に音声処理が行われるため、ストリーム同期部１４０に入力される前のＡＶストリームから音声ストリームを取り出すだけで簡単にリップシンクを達成することができる。

なお、スピーカ部３１０では、例えばデマックス部３５０を用いないなどの理由から、スピーカ部３１０の比較部３４８と本体部１１０の比較部１４８との処理以降で多少固定の遅延が生じる可能性がある。この場合、本体部１１０の比較部１４８とスピーカ部３１０の比較部３４８との何れかの入力（時計部の時刻、またはストリーム出力時刻）に対応するオフセット値を加算すれば良い。

なお、本実施形態では、ＭＰＥＧ２−ＴＳなどのストリームに対応した事例であるが、本実施形態の手法を用いてＭＰＥＧ２−ＰＳなどに対応するためには、図１のようにストリーム変換部１３０を用いれば良い。

〔実施の形態３〕
次に、本発明のさらに別の実施形態について、図５を参照しつつ以下に説明する。本実施形態のホームシアターは、図４に示されるホームシアター１０に比べて、音声取出部１８０が音声処理部１７０から音声ストリームを取り出し、かつ映像処理部１６０が出力した映像を遅延させる点が異なり、その他の構成は同様である。なお、上記実施形態で説明した構成と同様の機能を有する構成には同一の符号を付して、その説明を省略する。

図５は、本実施形態において、ＡＶストリーム伝送装置６１０から本体部１１０とスピーカ部３１０とに伝送されるＡＶストリームの流れを時系列的に示している。図示において、横軸が時間軸であり、ストリームの移動方向を表している。また、ＡＶストリームの映像と音声とは、それぞれ図示の黒い箱と白い箱とで表されている。なお、図示の構成では、図１に示される構成に比べて、ストリーム変換部１３０と音声変換部３３０とが省略されているが、必要に応じて設けても良い。

本実施形態では、図１に示される構成に比べて、映像遅延部２２０と音声遅延部２３０とが追加されている。また、本実施形態では、映像処理部１６０と音声処理部１７０とは、任意のＡＶストリーム形式に対応できる。但し、例えばＭＰＥＧ２−ＴＳ形式のＡＶストリームのように、ストリーム出力時刻（ＴＳ時報）がＡＶストリームに含まれている場合、ストリーム同期部１４０を映像処理部１６０と音声処理部１７０との上流側に設ける必要がある。この場合、ストリーム同期部１４０の時計部１４６と音声時計部２００とは別々に設ける方が望ましい。その理由は、音声処理部１７０では入力されたＡＶストリームの同期精度をさらに向上させて音声ストリームを出力するためである。

よって、取り出した音声ストリームに基づいて音声時計部２００の時刻を作成する方がより高い精度になる。このため、調整部２１０は、音声ストリームを基に音声時計部２００の調整を行う。これは、例えば音声ストリームがＳ／ＰＤＩＦ形式である場合、Ｓ／ＰＤＩＦのデータには特定の固定長の同期ヘッダ（Preamble）が付随するので、この同期ヘッダを認識することにより音声時計部２００の微調整を行うことができる。また、本体部１１０の時計部２００とスピーカ部３３０の音声時計部３４６とは同期がとれているとする。

ＡＶストリームは、ＡＶストリーム伝送装置６１０から伝送され、本体部１１０の通信部１２０で受信され、前述の処理を行った後、映像処理部１６０と音声処理部１７０とから映像と音声とがそれぞれ映像遅延部２２０と音声遅延部２３０とに出力される。

このとき、音声取出部１８０は、音声処理部１６０の処理結果、または途中結果の音声ストリームを取り出す。処理結果の例として、完全に復号されたＰＣＭ（Pulse Code Modulation）信号が挙げられ、途中結果の例としては、圧縮されたＳ／ＰＤＩＦ信号が挙げられる。

圧縮されたＳ／ＰＤＩＦ信号を出力するためには、それほど時間を必要としないため、対応するＰＣＭ信号より早く出力することができる。この場合、例えば図５の音声遅延部２３０に出力される音声信号がＰＣＭ信号であり、音声取出部１８０が取り出す信号が圧縮されたＳ／ＰＤＩＦ信号である場合、ＰＣＭ信号が音声遅延部２３０に出力された時、対応する圧縮されたＳ／ＰＤＩＦ信号はすでに取り出されて通信部１２０で処理されている（図５の符号ｂ２）。

一方、音声取出部１８０が取り出す信号がＰＣＭ信号である場合、音声取出部１８０がＰＣＭ信号を取り出す時刻と、音声処理部１７０がＰＣＭ信号を音声遅延部２３０に出力する時刻とが同じとなる。なお、音声取出部１８０が取り出す信号がＰＣＭ信号以外の音声信号である場合でも、音声取出部１８０が上記音声信号を取り出す時刻と、音声処理部１７０がＰＣＭ信号を音声遅延部２３０に出力する時刻とが同じとが同じであれば同様である。

音声取出部１８０が音声ストリームを取り出すと、サンプリング部１９０は音声時計部２００の時刻をサンプリングし、所定時間ｄｅｌａｙ１を加算して、ストリーム出力時刻として音声ストリームに追加する。ここで、所定時間ｄｅｌａｙ１は、図５に示されるように、音声取出部１８０が音声ストリームを取り出した時刻から、該音声ストリームに対する音声処理をスピーカ部３１０の音声処理部３７０が開始する時刻までの期間である。すなわち、所定時間ｄｅｌａｙ１は、音声ストリームが本体部１１０からスピーカ部３１０に送信されるまで、再送の時間などを考慮した十分な時間に相当する。

よって、取り出された音声ストリームには、ストリーム出力時刻が追加されて通信部１２０に渡される。通信部１２０は、この音声ストリームをスピーカ部３１０に伝送し、スピーカ部３１０は、通信部３２０で音声ストリームを受信してストリームバッファ３４２に渡す。

次に、比較部３４８は、音声時計部３４６の時刻と、ストリームバッファ３４２に一時記憶された音声ストリームのストリーム出力時刻とを比較し、ストリーム出力時刻が音声時計部３４６の時刻に等しいあるいは大きい場合、音声ストリームは音声処理部３７０に出力される。なお、音声処理部３７０に出力される音声ストリームはストリーム出力時刻を含む必要はない。

一方、映像遅延部２２０と音声遅延部２３０とは、所定時間ｄｅｌａｙ２の遅延を行う。所定時間ｄｅｌａｙ２は、図５に示されるように、音声が音声遅延部２３０に入力された時刻から、対応する音声がスピーカ部３１０の音声処理部３７０から出力されるまでの期間である。

以上のように、音声取出部１８０が音声ストリームを取り出した時刻から所定時間ｄｅｌａｙ１経過後に、上記音声ストリームの処理をスピーカ部３１０の音声処理部３７０が開始する一方、本体部１１０では、対応する音声ストリームを所定時間ｄｅｌａｙ２分遅延させることにより、リップシンクを達成することができる。

なお、本実施形態は、簡単に実装できるが、特に映像の解像度が小さい場合に適している。解像度が大きい場合、映像遅延部２２０に格納する映像は非圧縮の映像のため、大容量のメモリが必要となる。

また、音声処理部１７０が音声遅延部２３０に出力する信号が、圧縮されたＳ／ＰＤＩＦ信号である場合も考えられる。この場合、音声遅延部２３０の出力側に、圧縮されたＳ／ＰＤＩＦ信号をデコードする第２の音声処理部が必要になる。また、この場合、音声遅延部２３０で音声ストリームを遅延する遅延量を、所定時間ｄｅｌａｙ３とすればよい。ここで、所定時間ｄｅｌａｙ３は、本体部１１０の上記第２の音声処理部が音声を出力する時刻を、対応する音声をスピーカ部３１０の音声処理部３７０が出力する時刻と同じになるように設定すればよい。

〔実施の形態４〕
次に、本発明の他の実施形態について、図６を参照しつつ以下に説明する。本実施形態のホームシアターは、図５に示されるホームシアター１０に比べて、音声取出部１８０が音声処理部１７０から音声ストリームを取り出し、かつ映像処理部１６０に入力する前の圧縮された映像を遅延させる点が異なり、その他の構成は同様である。なお、上記実施形態で説明した構成と同様の機能を有する構成には同一の符号を付して、その説明を省略する。

図６は、本実施形態において、ＡＶストリーム伝送装置６１０から本体部１１０とスピーカ部３１０とに伝送されるＡＶストリームの流れを時系列的に示している。図示において、横軸が時間軸であり、ストリームの移動方向を表している。また、ＡＶストリームの映像と音声とは、それぞれ図示の黒い箱と白い箱とで表されている。なお、図示の構成では、図１に示される構成に比べて、ストリーム変換部１３０と音声変換部３３０とが省略されているが、必要に応じて設けても良い。

本実施形態の本体部１１０は、図５に示される本体部１１０と比べて、映像遅延部２２０が省略されている点と、映像処理部１６０と音声処理部１７０との上流側に、時刻調整部１３５、映像バッファ１３６、および音声バッファ１３７が設けられている点が異なり、その他の構成は同様である。

まず、ＡＶストリームは、映像処理開始時刻または映像表示時刻と、音声処理開始時刻または音声表示時刻とを含むとする。映像処理開始時刻と音声処理開始時刻とは、映像処理部１６０と音声処理部１７０とでそれぞれ映像ストリームと音声ストリームとの処理を開始する時刻である。これらは、ＭＰＥＧ２の映像と音声のＤＴＳ（Decoding Time Stamp）に対応する。

一方、映像表示時刻と音声表示時刻とは、対応する映像と音声との処理を映像処理部１６０と音声処理部１７０とが完了した後、それぞれが映像と音声とを出力する時刻である。これらはＭＰＥＧ２の映像と音声とのＰＴＳ（Presentation Time Stamp）に対応する。

ここで、映像処理開始時刻と映像表示時刻とを時刻調整部１３５が所定時間ｄｅｌａｙ２分調整することにより、映像ストリームの処理を所定時間ｄｅｌａｙ２分遅延させることができる。遅延させるための映像バッファ１３６は、圧縮された映像を格納するため、比較的小さいメモリ容量で映像を遅延させてリップシンクを達成することができる。なお、時刻調整部１３５の下流側には、図６に示されるように、音声バッファ１３７を設けても良い。

なお、時刻調整部１３５は、映像処理部１６０と音声処理部１７０との上流側に設ければ良い。

また、映像バッファ１３６と音声バッファ１３７とは、例えば別途用意したバッファ、あるいはストリームバッファ１４２を利用しても良い。あるいは、通常のＭＰＥＧ２などの半導体チップでは、デマックス部１５０と映像処理部１６０と音声処理部１７０との間にバッファが存在する場合があり、このバッファを映像バッファ１３６と音声バッファ１３７として利用しても良い。

なお、通常のＭＰＥＧ２などの半導体チップでは、音声処理部１７０の下流側に音声表示時刻に合わせて音声を出力するためのバッファが存在する場合がある。この場合、上記バッファを音声遅延部２３０として利用しても良い。但し、この場合、音声表示時刻を所定時間ｄｅｌａｙ２分、時刻調整部１３５で調整する必要がある。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

例えば、ホームシアター本体部１１０をテレビ８１０に内蔵して構成しても良い。この場合、ネットワーク化されていないスピーカ８２０は、テレビ８１０に内蔵しても良いし、テレビ８１０の外付け装置としてテレビ８１０とセットの製品として構成しても良い。

また、ホームシアター本体部１１０とテレビ８１０とをセットの製品として構成しても良い。この場合、ネットワーク化されていないスピーカ８２０は、テレビ８１０に内蔵しても良いし、テレビ８１０の外付け装置としてテレビ８１０とセットの製品として構成しても良い。

また、上記実施形態では、ホームシアター本体部１１０とスピーカ部３１０とを、ホームシアター１０というセットの製品として構成しているが、それぞれ別々の製品として構成しても良い。

また、スピーカ部３１０とスピーカ８３０とを１つの筐体に内蔵して構成しても良い。また、複数のスピーカ８３０が存在する場合、複数のスピーカ８３０の何れか１つを上記筐体としても良いし、各スピーカ８３０を上記筐体としても良い。

また、スピーカ部３１０とスピーカ８３０とをセットの製品として構成しても良い。この場合、スピーカ８３０は１個であっても良いし、複数個であっても良い。

最後に、ホームシアター１０の各ブロック、特にストリーム同期部１４０、音声取出部１８０、および音声同期部３４０は、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、ホームシアター１０は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアであるホームシアター１０の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記ホームシアター１０に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、ホームシアター１０を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明に係る映像音声処理本体装置は、ホームシアターの本体部以外にも、携帯電話機、ＰＤＡ、ノート型ＰＣ、デスクトップ型ＰＣ、ネットワーク対応型表示装置、ネットワーク対応型家電製品など、映像表示機能、および音声出力機能を有する任意の情報通信装置に適用可能である。また、本発明に係る音声処理端末装置は、ホームシアターのスピーカ部以外にも、音声出力機能を有する任意の情報通信装置に適用可能である。

本発明の一実施形態であるＡＶストリーム伝送システムの概略構成を示すブロック図である。上記ＡＶストリーム伝送システムの本体部におけるストリーム同期部の概略構成を示すブロック図である。上記ＡＶストリーム伝送システムのスピーカ部における音声同期部の概略構成を示すブロック図である。本発明の別の実施形態であるＡＶストリーム伝送システムにおいて、ＡＶストリーム伝送装置から本体部とスピーカ部とに伝送されるＡＶストリームの流れを時系列的に示すブロック図である。本発明のさらに別の実施形態であるＡＶストリーム伝送システムにおいて、ＡＶストリーム伝送装置から本体部とスピーカ部とに伝送されるＡＶストリームの流れを時系列的に示すブロック図である。本発明の他の実施形態であるＡＶストリーム伝送システムにおいて、ＡＶストリーム伝送装置から本体部とスピーカ部とに伝送されるＡＶストリームの流れを時系列的に示すブロック図である。送信側端末装置から受信側端末装置へのＭＰＥＧ２−ＴＳストリームのデータ転送の流れを示すブロック図である。ＤＬＮＡに基づいて、ＡＶソース機器からテレビにＡＶ信号を伝送する構成例を示すブロック図である。映像を滑らかに出力するための条件を示すタイムチャートである。

符号の説明

１ＡＶストリーム伝送システム
１０ホームシアター（映像音声処理システム）
１１０本体部（映像音声処理本体装置、音声処理本体装置）
１２０通信部（受信手段、送信手段、取得手段）
１３５時刻調整部（時刻調整手段）
１４２ストリームバッファ
１４５調整部（調整手段）
１４６時計部（ＡＶ時計手段）
１４８比較部（比較手段）
１５０デマックス部（デマックス手段）
１６０映像処理部（映像処理手段）
１７０音声処理部（音声処理手段）
１８０音声取出部（音声取出手段）
１９０サンプリング部（サンプリング手段、取出時サンプリング手段）
２００音声時計部（音声時計手段）
２１０調整部（調整手段）
２２０映像遅延部（映像遅延手段）
２３０音声遅延部（音声遅延手段）
３１０スピーカ部（音声処理端末装置）
３２０通信部（受信手段）
３４２ストリームバッファ
３４５調整部（調整手段）
３４６音声時計部（音声時計手段）
３４８比較部（比較手段）
３７０音声処理部（音声処理手段）
６１０ＡＶストリーム伝送装置（外部装置）
７１０通信ネットワーク

Claims

映像および音声に対する処理を行う映像音声処理本体装置であって、
前記映像および音声を含むＡＶストリームを、外部装置から通信ネットワークを介して受信する受信手段と、
前記ＡＶストリームを、前記映像を含む映像ストリームと、前記音声を含む音声ストリームとに分離するデマックス手段と、
前記映像ストリームを処理して映像信号を生成する映像処理手段と、
前記受信手段が受信したＡＶストリームから音声の一部または全部を含む音声ストリームを取り出す音声取出手段と、
該音声取出手段が取り出した音声ストリームを、通信ネットワークを介して１または複数の外部装置に送信する送信手段とを備えることを特徴とする映像音声処理本体装置。
音声を出力するタイミングを決定するための時刻を示す音声時計手段と、
前記音声取出手段が取り出した音声ストリームに同期するように、前記音声時計手段を調整する調整手段とをさらに備えることを特徴とする請求項１に記載の映像音声処理本体装置。
前記音声時計手段の時刻をサンプリングするサンプリング手段をさらに備えており、
前記送信手段は、前記サンプリング手段がサンプリングした時刻の情報を、通信ネットワークを介して１または複数の前記外部装置に送信することを特徴とする請求項２に記載の映像音声処理本体装置。
前記ＡＶストリームはストリーム出力時刻の情報を含んでおり、
前記受信手段が受信したＡＶストリームを一時記憶するストリームバッファと、
前記ＡＶストリームを出力するタイミングを決定するための時刻を示すＡＶ時計手段と、
前記ＡＶストリームに同期するように、前記ＡＶ時計手段を調整する調整手段と、
前記ＡＶストリームのＡＶストリーム出力時刻が、前記ＡＶ時計手段が示す時刻に比べて等しいまたは遅い場合、対応するＡＶストリームの全部または一部を前記デマックス手段に送信する比較手段とをさらに備えることを特徴とする請求項１に記載の映像音声処理本体装置。
前記受信手段は、受信するＡＶストリームに同期した時計調整用時刻の情報をさらに受信しており、
前記調整手段は、前記時計調整用時刻を基に前記ＡＶ時計手段を調整することを特徴とする請求項４に記載の映像音声処理本体装置。
前記音声取出手段は、前記ＡＶストリームを前記受信手段が送信してから前記ストリームバッファが受信するまでの間に、前記ＡＶストリームから、前記音声の一部または全部を含む音声ストリームを取り出すことを特徴とする請求項４記載の映像音声処理本体装置。
前記音声取出手段が取り出した音声ストリームは、前記ＡＶストリーム出力時刻の情報を含むことを特徴とする請求項６記載の映像音声処理本体装置。
前記ＡＶ時計手段の時刻をサンプリングするサンプリング手段をさらに備えており、
前記送信手段は、前記サンプリング手段がサンプリングした時刻の情報を、通信ネットワークを介して１または複数の前記外部装置に送信することを特徴とする請求項６に記載の映像音声処理本体装置。
前記音声ストリームを処理して音声信号を生成する音声処理手段をさらに備えることを特徴とする請求項１に記載の映像音声処理本体装置。
前記音声取出手段は、前記音声処理手段から、前記音声の一部または全部を含む音声ストリームを取り出すことを特徴とする請求項９記載の映像音声処理本体装置。
前記音声処理手段が出力する音声信号を遅延させる音声遅延手段をさらに備えることを特徴とする請求項１０記載の映像音声処理本体装置。
前記映像処理手段が出力する映像信号を遅延させる映像遅延手段をさらに備えることを特徴とする請求項１０記載の映像音声処理本体装置。
前記ＡＶストリームは、映像処理開始時刻、映像表示時刻、音声処理開始時刻、および音声表示時刻のうちの少なくとも１つの時刻の情報を含んでおり、
前記ＡＶストリームに含まれる前記時刻を調整する時刻調整手段をさらに備えることを特徴とする請求項１０に記載の映像音声処理本体装置。
音声を出力するタイミングを決定するための時刻を示す音声時計手段と、
前記音声取出手段が取り出した音声ストリームに同期するように、前記時計手段を調整する調整手段とをさらに備えることを特徴とする請求項１０に記載の映像音声処理本体装置。
前記音声取出手段が前記音声ストリームを取り出した時に、前記音声時計手段の時刻をサンプリングする取出時サンプリング手段とをさらに備えており、
該取出時サンプリング手段は、サンプリングした時刻に最大音声伝送時間分を加算してストリーム出力時刻とし、
前記送信手段は、前記ストリーム出力時刻の情報を含む前記音声ストリームを、通信ネットワークを介して１または複数の前記外部装置に送信することを特徴とする請求項１４に記載の映像音声処理本体装置。
前記音声取出手段が取り出した音声ストリームは、固定ビットレートの連続ビットストリームであり、かつ同期を取るための同期ヘッダを含んでおり、
前記調整手段は、前記同期ヘッダを認識して前記音声時計手段の調整を行うことを特徴とする請求項１４記載の映像音声処理本体装置。
音声に対する処理を行うと共に音声ストリームを送信する音声処理本体装置であって、
少なくとも音声を含む音声ストリームを取得する取得手段と、
取得した音声ストリームに対し音声処理を行って音声信号を出力する音声処理手段と、
前記音声ストリームから、前記音声の一部または全部を含む音声ストリームを取り出す音声取出手段と、
音声を出力するタイミングを決定するための時刻を示す音声時計手段と、
前記音声取出手段が取り出した音声ストリームに同期するように、前記音声時計手段を調整する調整手段と、
前記音声時計手段の時刻をサンプリングするサンプリング手段と、
該音声取出手段が取り出した音声ストリームと、前記サンプリング手段がサンプリングした時刻の情報とを、通信ネットワークを介して１または複数の外部装置に送信する送信手段とを備えることを特徴とする音声処理本体装置。
前記音声を含む音声ストリームを、外部装置から通信ネットワークを介して受信する受信手段と、
前記音声ストリームを処理して音声信号を生成する音声処理手段と、
音声を出力するタイミングを決定するための時刻を示す音声時計手段と、
前記音声ストリームに同期するように、前記音声時計手段を調整する調整手段とを備えることを特徴とする音声処理端末装置。
前記受信手段は、受信した音声ストリームに対応する音声を前記外部装置が出力するタイミングを示す時刻の情報を受信し、
前記調整手段は、前記時刻の情報を基に前記音声時計手段を調整することを特徴とする請求項１８に記載の音声処理端末装置。
前記受信手段は、受信した音声ストリームに同期した時計調整用時刻の情報を受信し、
前記調整手段は、前記時計調整用時刻を基に前記音声時計手段を調整することを特徴とする請求項１８に記載の音声処理端末装置。
前記音声ストリームはストリーム出力時刻の情報を含んでおり、
前記受信手段が受信した音声ストリームを一時記憶するストリームバッファと、
前記音声ストリームのストリーム出力時刻が、前記音声時計手段が示す時刻に比べて等しいまたは遅い場合、対応する音声ストリームの全部または一部を前記音声処理手段に送信する比較手段とをさらに備えることを特徴とする請求項１８に記載の音声処理端末装置。
請求項１ないし１６の何れか１項に記載の映像音声処理本体装置と、該映像音声処理本体装置から通信ネットワークを介して音声ストリームを受信する請求項１８ないし２１の何れか１項に記載の音声処理端末装置とを備えることを特徴とする映像音声処理システム。
映像および音声に対する処理を行う映像音声処理本体装置の制御方法であって、
前記映像および音声を含むＡＶストリームを、外部装置から通信ネットワークを介して受信し、受信したＡＶストリームから音声の一部または全部を含む音声ストリームを取り出し、
取り出した音声ストリームを、通信ネットワークを介して１または複数の外部装置に送信することを特徴とする映像音声処理本体装置の制御方法。
音声に対する処理を行う音声処理端末装置であって、音声を出力するタイミングを決定するための時刻を示す音声時計手段を備える音声処理端末装置の制御方法であって、
前記音声を含む音声ストリームを、外部装置から通信ネットワークを介して受信すると、
前記音声ストリームに同期するように、前記音声時計手段を調整し、
調整された前記音声時計手段が示す時刻を基に、前記音声ストリームを処理して音声信号を生成することを特徴とする音声処理端末装置の制御方法。
請求項１ないし１６の何れか１項に記載の映像音声処理本体装置における各手段をコンピュータに実行させることを特徴とする映像音声処理本体装置制御プログラム。
請求項１８ないし２１の何れか１項に記載の音声処理端末装置における各手段をコンピュータに実行させることを特徴とする音声処理端末装置制御プログラム。
請求項２５に記載の映像音声処理本体装置制御プログラム、および／または、請求項２６に記載の音声処理端末装置制御プログラムを記録したことを特徴とするコンピュータ読取り可能な記録媒体。