JP2010072364A

JP2010072364A - オーディオデータ補間装置及びオーディオデータ補間方法

Info

Publication number: JP2010072364A
Application number: JP2008239975A
Authority: JP
Inventors: Takanobu Mukaide; 隆信向出
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-18
Filing date: 2008-09-18
Publication date: 2010-04-02
Also published as: US20100070812A1

Abstract

【課題】オーディオデータエラー耐性に優れたオーディオデータ補間装置を提供すること。
【解決手段】オーディオデータ補間装置は、コンテンツデータを受信する受信手段と、前記コンテンツデータから第１オーディオデータ及びこの第１オーディオデータに対応する第２オーディオデータを抽出する抽出手段と、前記第１オーディオデータのエラーデータを検出し、前記第２オーディオデータから前記エラーデータに対応する補間データを検出する補間データ検出手段と、前記第１オーディオデータを出力するとともに、前記第１オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する出力手段と、を備えている。
【選択図】図１

Description

本発明は、例えばストリーミング再生中におけるオーディオデータの欠落等を補間するオーディオデータ補間装置及びオーディオデータ補間方法に関する。

近年、ストリーミング再生技術を利用したコンテンツ配信が開始されている。即ち、ストリーミング再生装置が、配信サーバーから転送されるコンテンツデータを受信しながら、このコンテンツデータを再生する。これにより、大容量コンテンツであっても、少ない待ち時間で、コンテンツの視聴を開始することができる。

配信サーバーから転送されるコンテンツデータからエラーが検出された場合には、接続方式により、次のようなエラー対応が適用される。例えば、TCP/IP接続の場合には、一部データの再送信によるエラー対応が適用される。また、UDP接続の場合には、FEC（Forward Error Correction）等の冗長データによるエラー対応が適用される。

また、このような冗長データを利用しバーストエラーに対応する送信装置及び受信装置が提案されている（特許文献１参照）。即ち、送信装置は、ビデオデータＮとオーディオデータｎとを同時伝送する際に、オーディオデータｎを複製して、同一内容のオーディオデータｎが時間的に所定時間以上離れた位置に配置した伝送データを生成し、この伝送データを伝送する。受信装置が、伝送エラーにより一方のオーディオデータｎの破損を検出した場合には、他方のオーディオデータｎを用いてオーディオデータｎを復元する。
特開２００５−９４６６１

しかしながら、再送信によりエラーに対応する場合、再送信データの転送が発生し、これによりコンテンツデータの転送効率が低下し、ストリーミング再生装置側でバッファアンダーフローが発生する可能性が高くなる。バッファアンダーフローが発生してしまうと、ストリーミング再生装置は、バッファに再生用データが溜まるまで、再生を一時中断する。

また、冗長データによりエラーに対応する場合、配信サーバー及びストリーミング再生装置の両方が、この冗長データに対応する必要がある。つまり、配信サーバーは、冗長データを埋め込んだコンテンツデータを送信しなければならず、またストリーミング再生装置は冗長データによりエラーを訂正する能力を持たなければならない。

本発明の目的は、オーディオデータエラー耐性に優れたオーディオデータ補間装置及びオーディオデータ補間方法を提供することにある。

この発明の一実施形態に係るオーディオデータ補間装置は、コンテンツデータを受信する受信手段と、前記コンテンツデータから第１オーディオデータ及びこの第１オーディオデータに対応する第２オーディオデータを抽出する抽出手段と、前記第１オーディオデータのエラーデータを検出し、前記第２オーディオデータから前記エラーデータに対応する補間データを検出する補間データ検出手段と、前記第１オーディオデータを出力するとともに、前記第１オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する出力手段と、を備えている。

この発明の一実施形態に係るオーディオデータ補間方法は、コンテンツデータを受信し、前記コンテンツデータから第１オーディオデータ及びこの第１オーディオデータに対応する第２オーディオデータを抽出し、前記第１オーディオデータのエラーデータを検出し、前記第２オーディオデータから前記エラーデータに対応する補間データを検出し、前記第１オーディオデータを出力するとともに、前記第１オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する。

本発明によれば、オーディオデータエラー耐性に優れたオーディオデータ補間装置及びオーディオデータ補間方法を提供できる。

以下、図面を参照し、本発明の実施形態について説明する。

図１は、本発明の第１実施形態に係るストリーミング再生システムの概略構成を示す図である。

図１に示すように、例えば、ストリーミング再生システムは、ストリーミング再生端末１００、配信サーバー２００、ディスプレイ３００、ＡＶアンプ４００、スピーカ５００により構成される。

ストリーミング再生端末１００は、制御モジュール１０１、操作入力モジュール１０２、言語情報解析モジュール１０３、音声選択モジュール１０４、Ｄｅｍｕｘモジュール１０５、ビデオデータ処理モジュール１０６、第１オーディオデータ処理モジュール１０７、データ解析モジュール１０８、補間用オーディオデータ処理モジュール１０９、第２オーディオデータ処理モジュール１１０、第２データ解析モジュール１１１、選択モジュール１１２、圧縮オーディオ出力データ作成モジュール１１３、デコードモジュール１１４、データ挿入モジュール１１５、再エンコードモジュール１１６、ズレ補正モジュール１１７を備えている。

ストリーミング再生端末１００は、ネットワークを介して配信サーバー２００と接続される。つまり、ストリーミング再生端末１００は、ネットワーク経由で映像音声コンテンツを配信するビデオ・オン・デマンドサービスを受けることができる。例えば、ディスプレイ３００には、ビデオ・オン・デマンドサービスのメニュー画面が表示される。ユーザは、操作モジュール１０２を介して、メニュー画面の中から希望のコンテンツを選択する。操作モジュール１０２は、リモートコントローラ又はストリーミング再生端末１００に取り付けられた操作パネルである。

ストリーミング再生端末１００（制御モジュール１０１）は、配信サーバー２００に対して、選択されたコンテンツの提供を要求する。これに対応して、配信サーバー２００は、ストリーミング再生端末１００に対してコンテンツを配信する。コンテンツデータを構成する言語情報（メタデータ）は、言語情報解析モジュール１０３に入力される。コンテンツデータを構成するオーディオビデオストリームデータは、Ｄｅｍｕｘモジュール１０５に入力される。

言語情報解析モジュール１０３は、言語情報の解析結果を音声選択モジュール１０４へ提供する。音声選択モジュール１０４は、言語情報の解析結果に基づき、音声選択指示をＤｅｍｕｘモジュール１０７へ通知する。例えば、コンテンツデータが第１オーディオデータ及び第２オーディオデータを含み、第１オーディオデータは日本語と英語の両音声を含む音声多重データ（２チャンネルデータ）であり、第２オーディオデータは日本語マルチチャンネルオーディオデータ（５．１チャンネルデータ）であるとする。一般的に、第１オーディオデータに含まれる日本語音声と、第２オーディオデータに含まれる日本語音声はチャンネル数の違いはあるものの同じ音声である。この場合、言語情報は、第１オーディオデータが日本語と英語の両音声を含む音声多重データであることを示す情報と、及び第２オーディオデータが日本語マルチチャンネルオーディオデータであることを示す情報とを含む。

例えば、ユーザが、操作モジュール１０２を介して、音声多重データの日本語を選択すると、制御モジュール１０１が、この選択を音声選択モジュール１０４へ通知する。これにより、音声選択モジュール１０４は、第１オーディオデータに含まれる日本語の選択指示をＤｅｍｕｘモジュール１０７へ通知する。或いは、ユーザが、操作モジュール１０２を介して、音声多重データの英語を選択すると、制御モジュール１０１が、この選択を音声選択モジュール１０４へ通知する。これにより、音声選択モジュール１０４は、第１オーディオデータに含まれる英語の選択指示をＤｅｍｕｘモジュール１０７へ通知する。或いは、ユーザが、操作モジュール１０２を介して、マルチチャンネルの日本語を選択すると、制御モジュール１０１が、この選択を音声選択モジュール１０４へ通知する。これにより、音声選択モジュール１０４は、第２オーディオデータの選択指示をＤｅｍｕｘモジュール１０７へ出力する。

Ｄｅｍｕｘモジュール１０５は、オーディオビデオストリームデータを受信し、ビデオデータ、第１オーディオデータ、及び第２オーディオデータに分離する。分離されたビデオデータは、ビデオデータ処理モジュール１０６へ入力される。ビデオデータ処理モジュール１０６は、ビデオデータをデコードし、ディスプレイ３００の解像度等に基づきデコードされたビデオデータを加工し、加工されたビデオデータをディスプレイ３００へ出力する。これにより、ディスプレイ３００にビデオデータが表示される。

例えば、ユーザが、操作モジュール１０２を介して、音声多重データの日本語を選択したケースについて説明すると、分離された第１オーディオデータ（音声多重データの日本語）は、第１オーディオデータ処理モジュール１０７へ入力され、第１オーディオデータ処理モジュール１０７から第１データ解析モジュール１０８へ入力され、また、分離された第２オーディオデータ（マルチチャンネルデータの日本語）は、第２オーディオデータ処理モジュール１１０へ入力され、第２オーディオデータ処理モジュール１０７から第２データ解析モジュール１１１へ入力される。

第１データ解析モジュール１０８は、第１オーディオデータに含まれるエラーデータを検出し、エラーデータを検知した場合には、エラーを各部へ通知する。選択モジュール１１２は、第１データ解析モジュール１０８からのエラー通知がない場合には、第１データ解析モジュール１０８と第２データ解析モジュール１１１のうちの第１データ解析モジュール１０８を選択する。つまり、第１データ解析モジュール１０８から出力される第１オーディオデータが、デコードモジュール１１４へ入力される。デコードモジュール１１４は、第１オーディオデータをデコードし、スピーカ５００へ出力する。これにより、スピーカ５００は、第１オーディオデータ（音声多重データの日本語）を出力する。

また、第１データ解析モジュール１０８から出力される第１オーディオデータは、圧縮オーディオ出力データ作成モジュール１１３へも入力される。圧縮オーディオ出力データ作成モジュール１１３は、第１オーディオデータに基づき、圧縮オーディオ出力データを作成し、圧縮オーディオ出力データをＡＶアンプ４００へ出力する。

上記したように、ストリーミング再生端末１００は、配信サーバー２００から配信されるコンテンツを受信し、受信したコンテンツを光ディスクやＨＤＤ等の不揮発性メモリに蓄積せずに、逐一再生することができる。

ところで、配信サーバー２００から転送されたオーディオビデオデータからエラーが検出された場合には、エラー対策処理が必要となる。例えば、配信サーバ２００に対して一部データの再送信を要求したり、エラー訂正処理を行ったりする。

しかし、再送信によりエラーに対応しようとすると、再送信データの転送が発生し、これによりコンテンツデータの転送効率が低下し、ストリーミング再生装置側でバッファアンダーフローが発生する可能性が高くなる。バッファアンダーフローが発生してしまうと、ストリーミング再生が一時中断されてしまう。このような再生の一時中断は、視聴者にとっては不快なものである。

一方、エラー訂正処理によりエラーに対応しようとすると、配信サーバー２００とストリーミング再生端末１００の両方に、エラー訂正のための冗長データに対応する機能が必要となってしまう。配信サーバー２００とストリーミング再生端末１００のどちらか一方がエラー訂正処理に未対応であると、エラーに対応することはできなくなってしまう。エラーに対応できなければ、再生音声が一部欠落(一部無音)してしまう。

そこで、ストリーミング再生端末１００は、エラー対策として、一部データの再送信を要求したり、エラー訂正処理をしたりすることなく、ストリーミング再生端末１００が単独でエラーにより欠落等したオーディオデータを復元する。オーディオデータの復元には、配信されるオーディオビデオコンテンツに含まれる複数のオーディオデータ（マルチトラック）を利用する。つまり、第１オーディオデータを再生しているときのエラーの発生に対しては、第２オーディオデータを利用する。

なお、ストリーミング再生中のエラーは、大量のデータが破損するようなエラーではなく、ビデオデータと複数のオーディオデータのうちの、あるオーディオデータの一部だけが破損するようなケースが考えられる。本実施形態で説明するデータ補間処理は、このようなあるオーディオデータの一部だけの破損に対して特に有効に働く。

次に、図５に示すフローチャートを参照し、オーディオデータ補間処理の第１例について説明する。

上記したように、言語情報解析モジュール１０３が、言語情報を取得する（ＳＴ５０１）。音声選択モジュール１０４は、言語情報の解析結果に基づき、音声選択指示をＤｅｍｕｘモジュール１０７へ通知する。Ｄｅｍｕｘモジュール１０７は、オーディオビデオストリームデータを、ビデオデータ、第１オーディオデータ、及び第２オーディオデータへ分離し、第１オーディオデータ及び第２オーディオデータのうちの一方を再生用音声として選択し、第１オーディオデータ及び第２オーディオデータのうちの他方を補間用音声として選択する（ＳＴ５０２、ＳＴ５０３）。

例えば、ユーザが、操作モジュール１０２を介して、音声多重データの日本語を選択している場合、つまり、第１オーディオデータの再生を希望している場合、Ｄｅｍｕｘモジュール１０７は、再生用音声として第１オーディオデータを選択し、補間用音声として第２オーディオデータを選択する。

再生用音声として選択された第１オーディオデータは、第１オーディオデータ処理モジュール１０７へ入力され、第１オーディオデータ処理モジュール１０７から第１データ解析モジュール１０８へ入力され、再生が開始される（ＳＴ５０４）。補間用音声として選択された第２オーディオデータは、第２オーディオデータ処理モジュール１１０へ入力され、第２オーディオデータ処理モジュール１１０から第２データ解析モジュール１１１へ入力される。

第１データ解析モジュール１０８により、第１オーディオデータからエラーデータが検出されなければ（ＳＴ５０６、ＮＯ）、選択モジュール１１２は、再生用音声として第１オーディオデータをデコードモジュール１１４へ入力し（ＳＴ５０７）、デコードモジュール１１４は、第１オーディオデータをデコードし（ＳＴ５０８）、デコードされた第１オーディオデータはスピーカ５００へ出力される（ＳＴ５０９）。

第１データ解析モジュール１０８が、第１オーディオデータのエラーデータを検出すると、次のようなオーディオデータ補間処理が実行される。図３に示すように、第１データ解析モジュール１０８は、第１オーディオデータのエラーデータの出力開始時間PTS1-1及び出力終了時間PTS1-2を検出し（ＳＴ５１０）、出力開始時間PTS1を第２データ解析モジュール１１１へ通知する。この間、デコードモジュール１１４は、第１オーディオデータをデコードし続け、ズレ補正モジュール１１７には、デコードされた第１オーディオデータが蓄積される。

第２データ解析モジュール１１１は、第２オーディオデータ（補間用音声）から、出力開始時間PTS1-1より前の出力開始時間PTS2-1を検出し（ＳＴ５１１）、出力開始時間PTS2-1を第１データ解析モジュール１０８へ通知する。第１データ解析モジュール１０８は、第２オーディオデータのうちの出力開始時間PTS2-1以降のデータがデコードモジュール１１４へ入力されるように、選択モジュール１１４を制御する。これにより、デコードモジュール１１４は、第２オーディオデータのうちの出力開始時間PTS2-1以降のデータをデコードする（ＳＴ５１２）。

また、第１データ解析モジュール１０８は、出力開始時間PTS1-1及び出力開始時間PTS2-1に基づき、第１オーディオデータと第２オーディオデータの時間ズレを算出し（ＳＴ５１３）、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2をズレ補正モジュール１１７へ通知する。なお、第１オーディオデータと第２オーディオデータとはビットレートが違うなどの理由から時間ズレが生じている。ズレ補正モジュール１１７は、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2に基づき、第１オーディオデータのうちの出力開始時間PTS1-1と出力終了時間PTS1-2の間のエラーデータに対応する、第２オーディオデータのうちの補間データを抽出し（ＳＴ５１４）、第１オーディオデータのうちのエラーデータに替えて補間データを挿入し（ＳＴ５１５）、補間データにより補間された第１オーディオデータを出力する（ＳＴ５０９）。

なお、第１データ解析モジュール１０８は、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2に基づき、エラーデータのデコード完了後に、再び、第１オーディオデータがデコードモジュール１１４へ入力されるように、選択モジュール１１４を制御する。これにより、デコードモジュール１１４は、再び、第１オーディオデータをデコードする。

ここで、図３を参照して、第１オーディオデータと第２オーディオデータの時間ズレ算出の詳細について説明する。

まず、以下の通り定義する。

PTS1-1：音声欠落が始まる時間[単位：90kHz精度]
PTS2-1：PTS1-1の直前の補間用音声が始まる時間[単位：90kHz精度]
fs ：補間用音声のサンプリング周波数[単位：Hz]
ズレ時間ΔPTS = ("PTS1-1" - "PTS2-1") / 90000 [単位：秒]
音声データ量 N [単位：サンプル]に相当する時間ΔTは、下記式で表すことができる。

ΔT = N / fs [単位：秒]
ΔPTS = ΔTの関係を満たすNサンプルのデータが、切り捨てデータとなる。つまり、第２オーディオデータのPTS2-1からNサンプルのデータが、切り捨てデータとなり、第２オーディオデータの切り捨てデータの後続のデータが補間データとなる。Nサンプルのデータは、下記のように算出できる。

N / fs = ("PTS1-1" - "PTS2-1") / 90000
N = (("PTS1-1" - "PTS2-1") / 90000) * fs
以下、具体例を示す。つまり、PTS1-1、PTS2-1、fsを以下のように定義すると、Nサンプルのデータは、下記のように算出できる。

PTS1-1 = 1960
PTS2-1 = 1000
fs = 48000
N = ((1960 - 1000) / 90000) * 48000 = 512
従って、PTS2-1から512サンプルのPCM音声データが、切り捨てデータとなる。

以上により、ストリーミング再生端末１００は、オーディオデータの再生中にエラーが発生しても、データ再送信要求又はエラー訂正処理を必要とせずに、エラーに対応することができる。つまり、ストリーミング再生端末１００は、オーディオデータの再生中にエラーが発生しても、コンテンツデータの安定供給を受けつつ、コンテンツデータの再生一時停止という事態を回避することができ、しかも音声欠落による無音状態も回避することができる。

次に、図６に示すフローチャートを参照し、オーディオデータ補間処理の第２例について説明する。

オーディオデータ補間処理の第１例では、スピーカ等へ、補間データにより補間されたオーディオデータを出力するケースについて説明した。これに対して、オーディオデータ補間処理の第２例では、ＡＶアンプ等へ、補間データにより補間されたオーディオデータ（圧縮オーディオデータ）を出力するケースについて説明する。

例えば、ユーザが、操作モジュール１０２を介して、音声多重データの日本語を選択している場合、つまり、第１オーディオデータの再生を希望している場合について説明する。この場合、再生用音声として選択された第１オーディオデータは、第１オーディオデータ処理モジュール１０７へ入力され、第１オーディオデータ処理モジュール１０７から第１データ解析モジュール１０８へ入力され、再生が開始される（ＳＴ６０１〜ＳＴ６０４）。また、補間用音声として選択された第２オーディオデータは、第２オーディオデータ処理モジュール１１０へ入力され、第２オーディオデータ処理モジュール１１０から第２データ解析モジュール１１１へ入力される。

第１データ解析モジュール１０８により、第１オーディオデータからエラーデータが検出されなければ（ＳＴ６０６、ＮＯ）、圧縮オーディオ出力データ作成モジュール１１３は、第１オーディオデータから圧縮オーディオ出力データを作成し（ＳＴ６０８）、ＡＶアンプ４００へ出力する（ＳＴ６０９）。

第１データ解析モジュール１０８が、第１オーディオデータのエラーデータを検出すると、次のようなオーディオデータ補間処理が実行される。図４に示すように、第１データ解析モジュール１０８は、第１オーディオデータのエラーデータの出力開始時間PTS1-1及び出力終了時間PTS1-2を検出し（ＳＴ６１０）、出力開始時間PTS1を第２データ解析モジュール１１１へ通知する。この間、デコードモジュール１１４は、第１オーディオデータをデコードし続け、ズレ補正モジュール１１７には、デコードされた第１オーディオデータが蓄積される。

第２データ解析モジュール１１１は、第２オーディオデータ（補間用音声）から、出力開始時間PTS1-1より前の出力開始時間PTS2-1を検出し（ＳＴ６１１）、出力開始時間PTS2-1を第１データ解析モジュール１０８へ通知する。第１データ解析モジュール１０８は、第２オーディオデータのうちの出力開始時間PTS2-1以降のデータがデコードモジュール１１４へ入力されるように、選択モジュール１１４を制御する。これにより、デコードモジュール１１４は、第２オーディオデータのうちの出力開始時間PTS2-1以降のデータをデコードする（ＳＴ６１２）。

また、第１データ解析モジュール１０８は、出力開始時間PTS1-1及び出力開始時間PTS2-1に基づき、第１オーディオデータと第２オーディオデータの時間ズレを算出し（ＳＴ６１３）、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2をズレ補正モジュール１１７へ通知する。ズレ補正モジュール１１７は、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2に基づき、第１オーディオデータのうちの出力開始時間PTS1-1と出力終了時間PTS1-2の間のエラーデータに対応する、第２オーディオデータのうちの補間データを抽出する（ＳＴ６１４）。再エンコードモジュール１１６は、補間データをエンコードする（ＳＴ６１５）。なお、再エンコードモジュール１１６による圧縮方式・ビットレート・チャンネル数と、圧縮オーディオ出力データ作成モジュール１１３による圧縮方式・ビットレート・チャンネル数とは同一である。データ挿入モジュールは、第１オーディオデータ（圧縮オーディオ出力データ）のうちのエラーデータに替えて、エンコードされた補間データ（補間ＥＳ）を挿入し（ＳＴ６１６）、エンコードされた補間データにより補間された第１オーディオデータ（圧縮オーディオ出力データ）をＡＶアンプ４００へ出力する（ＳＴ６０９）。

次に、図２及び図７を参照し、オーディオデータ補間処理の第３例について説明する。図２は、本発明の第２実施形態に係るストリーミング再生システムの概略構成を示す図である。図１に示すストリーミング再生端末１００がズレ補正モジュール１１７を備えているのに対して、図２に示すストリーミング再生端末１００はセリフ除去＆ズレ補正モジュール１１７’を備えている。これ以外には、基本的に、図１に示すストリーミング再生端末１００の構成と図２に示すストリーミング再生端末１００の構成とは同じであり、図２に示すストリーミング再生端末１００の詳細説明は省略する。

図７は、オーディオデータ補間処理の第３例を示すフローチャートである。オーディオデータ補間処理の第１例及び第２例では、第１オーディオデータは日本語と英語の両音声を含む音声多重データであり、第２オーディオデータは日本語マルチチャンネルオーディオデータであり、ユーザが第１オーディオデータ（日本語）の再生を指定したケースについて説明した。従って、第１オーディオデータ（日本語）にエラーが発生しても、第２オーディオデータをそのまま補間データとして使ってエラーを補間することができた。

オーディオデータ補間処理の第３例では、ユーザが第１オーディオデータ（英語）の再生を指定したケースについて説明する。つまり、再生される第１オーディオデータの言語と、補間用の第２オーディオデータの言語とが異なるケースについて説明する。この場合、第２オーディオデータをそのまま補間データとして使うと、日本語で再生中に、英語に切り替わってしまうという不具合が生じてしまう。

例えば、ユーザが、操作モジュール１０２を介して、音声多重データの英語を選択している場合、つまり、第１オーディオデータ（英語）の再生を希望している場合について説明する。この場合、再生用音声として選択された第１オーディオデータは、第１オーディオデータ処理モジュール１０７へ入力され、第１オーディオデータ処理モジュール１０７から第１データ解析モジュール１０８へ入力され、再生が開始される（ＳＴ７０１〜ＳＴ７０４）。また、補間用音声として選択された第２オーディオデータは、第２オーディオデータ処理モジュール１１０へ入力され、第２オーディオデータ処理モジュール１１０から第２データ解析モジュール１１１へ入力される。

なお、第１データ解析モジュール１０８は、第１オーディオデータ（英語）の再生を検出し、第２データ解析モジュール１１１は、第２オーディオデータ（日本語）を検出し、第１データ解析モジュール１０８は、セリフ除去＆ズレ補正モジュール１１７’に対して、言語の違いからセリフ除去を指示する。

第１データ解析モジュール１０８により、第１オーディオデータからエラーデータが検出されなければ（ＳＴ７０６、ＮＯ）、選択モジュール１１２は、再生用音声として第１オーディオデータをデコードモジュール１１４へ入力し（ＳＴ７０７）、デコードモジュール１１４は、第１オーディオデータをデコードし（ＳＴ７０８）、デコードされた第１オーディオデータはスピーカ５００へ出力される（ＳＴ７０９）。

第１データ解析モジュール１０８が、第１オーディオデータのエラーデータを検出すると、次のようなオーディオデータ補間処理が実行される。図３に示すように、第１データ解析モジュール１０８は、第１オーディオデータのエラーデータの出力開始時間PTS1-1及び出力終了時間PTS1-2を検出し（ＳＴ７１０）、出力開始時間PTS1を第２データ解析モジュール１１１へ通知する。この間、デコードモジュール１１４は、第１オーディオデータをデコードし続け、ズレ補正モジュール１１７には、デコードされた第１オーディオデータが蓄積される。

第２データ解析モジュール１１１は、第２オーディオデータ（補間用音声）から、出力開始時間PTS1-1より前の出力開始時間PTS2-1を検出し（ＳＴ７１１）、出力開始時間PTS2-1を第１データ解析モジュール１０８へ通知する。第１データ解析モジュール１０８は、第２オーディオデータのうちの出力開始時間PTS2-1以降のデータがデコードモジュール１１４へ入力されるように、選択モジュール１１４を制御する。これにより、デコードモジュール１１４は、第２オーディオデータのうちの出力開始時間PTS2-1以降のデータをデコードする（ＳＴ７１２）。

また、第１データ解析モジュール１０８は、出力開始時間PTS1-1及び出力開始時間PTS2-1に基づき、第１オーディオデータと第２オーディオデータの時間ズレを算出し（ＳＴ７１３）、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2をズレ補正モジュール１１７へ通知する。ズレ補正モジュール１１７は、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2に基づき、第１オーディオデータのうちの出力開始時間PTS1-1と出力終了時間PTS1-2の間のエラーデータに対応する、第２オーディオデータのうちの補間データを抽出し（ＳＴ７１４）、再生中の第１オーディオデータと補間用の第２オーディオデータとの間で言語の違いがなければ（ＳＴ７１５、ＮＯ）、第１オーディオデータのうちのエラーデータに替えて補間データを挿入し（ＳＴ７１６）、補間データにより補間された第１オーディオデータを出力する（ＳＴ７０９）。

ところが、このケースでは、再生中の第１オーディオデータ（英語）と補間用の第２オーディオデータ（日本語）との間で言語に違いがあるため（ＳＴ７１５、ＹＥＳ）、セリフ除去＆ズレ補正モジュール１１７’は、補間データ中のセリフ音声を除去し（ＳＴ７１７）、第１オーディオデータのうちのエラーデータに替えてセリフ音声が除去された補間データを挿入し（ＳＴ７１６）、セリフ音声が除去された補間データにより補間された第１オーディオデータを出力する（ＳＴ７０９）。

ここで、セリフ音声の除去方法について説明する。例えば、セリフ除去＆ズレ補正モジュール１１７’は、第２オーディオデータ（日本語マルチチャンネル音声）のデコード結果から、センターチャンネルに出力される音声を除去し、残りのチャンネルに出力される音声(セリフ以外のバックグラウンド音声)を補間データとする。もし、第２オーディオデータが、マルチチャンネルオーディオデータでない場合には、第２オーディオデータのデコード結果から、レフト（Ｌ）／ライト（Ｒ）チャンネルの同位相成分（セリフ）を除去し、残りの音声を(セリフ以外のバックグラウンド音声)を補間データとする。

以上により、ストリーミング再生端末１００は、同一言語の音声データが存在しない場合であっても、視聴者にとって不快となる音声欠落(無音)を回避することができる。

オーディオデータ補間処理の第１例、第２例、第３例で説明したように、ストリーミング再生端末１００は、ストリーミング再生において、一方のオーディオデータの再生中にエラーが発生しても、他方のオーディオデータを利用してエラーを補間することができる。つまり、ストリーミング再生端末１００は、データ再送信要求又はエラー訂正処理を必要とせずに、エラーに対応することができる。これにより、再生一時中断或いは音声欠落(無音)状態を回避することができる。

なお、上記説明では、ネットワークを介して受信したストリーミングデータの再生中のエラーに対応するための補間処理について説明したが、本実施形態はこれに限定されるものではない。例えば、上記説明した補間処理は、放送を受信し受信した放送の再生中のエラーに対応することもできる。

なお、上記したモジュールとは、ハードウェアで実現するものであっても良いし、ＣＰＵ等を使ってソフトウェアで実現するものであってもよい。

なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

本発明の第１実施形態に係るストリーミング再生システムの概略構成を示す図である。本発明の第２実施形態に係るストリーミング再生システムの概略構成を示す図である。第１オーディオデータと第２オーディオデータのズレ時間検出を説明するための図である。再エンコードされた補間データを含む圧縮オーディオ出力データの一例を示す図である。オーディオデータ補間処理の第１例を説明するための図である。オーディオデータ補間処理の第２例を説明するための図である。オーディオデータ補間処理の第３例を説明するための図である。

符号の説明

１００…ストリーミング再生端末、１０１…制御モジュール、１０２…操作入力モジュール、１０３…言語情報解析モジュール、１０４…音声選択モジュール、１０５…Ｄｅｍｕｘモジュール、１０６…ビデオデータ処理モジュール、１０７…第１オーディオデータ処理モジュール、１０８…データ解析モジュール、１０９…補間用オーディオデータ処理モジュール、１１０…第２オーディオデータ処理モジュール、１１１…第２データ解析モジュール、１１２…選択モジュール、１１３…圧縮オーディオ出力データ作成モジュール、１１４…デコードモジュール、１１５…データ挿入モジュール、１１６…再エンコードモジュール、１１７…ズレ補正モジュール、２００…配信サーバー、３００…ディスプレイ、４００…ＡＶアンプ、５００…スピーカ

Claims

コンテンツデータを受信する受信手段と、
前記コンテンツデータから第１オーディオデータ及びこの第１オーディオデータに対応する第２オーディオデータを抽出する抽出手段と、
前記第１オーディオデータのエラーデータを検出し、前記第２オーディオデータから前記エラーデータに対応する補間データを検出する補間データ検出手段と、
前記第１オーディオデータを出力するとともに、前記第１オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する出力手段と、
を備えたことを特徴とするオーディオデータ補間装置。
前記出力手段は、前記第１オーディオデータをデコードして出力するとともに、前記第１オーディオデータに含まれた前記エラーデータに替えて前記補間データをデコードして出力する、
ことを特徴とする請求項１に記載のオーディオデータ補間装置。
前記出力手段は、デコードされた前記補間データをエンコードし、エンコードされた前記第１オーディオデータを出力するとともに、前記第１オーディオデータに含まれた前記エラーデータに替えてエンコードされた前記補間データを出力する、
ことを特徴とする請求項２に記載のオーディオデータ補間装置。
前記抽出手段は、同一言語の前記第１オーディオデータと前記第２オーディオデータを抽出することを特徴とする請求項１に記載のオーディオデータ補間装置。
前記出力手段は、前記第１オーディオデータと前記第２オーディオデータとの言語の相違に基づき、前記補間データに含まれるセリフデータを除去し、前記エラーデータに替えて前記セリフデータが除去された前記補間データを出力することを特徴とする請求項１に記載のオーディオデータ補間装置。
コンテンツデータを受信し、
前記コンテンツデータから第１オーディオデータ及びこの第１オーディオデータに対応する第２オーディオデータを抽出し、
前記第１オーディオデータのエラーデータを検出し、前記第２オーディオデータから前記エラーデータに対応する補間データを検出し、
前記第１オーディオデータを出力するとともに、前記第１オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する、
ことを特徴とするオーディオデータ補間方法。