JP2010072364A - オーディオデータ補間装置及びオーディオデータ補間方法 - Google Patents

オーディオデータ補間装置及びオーディオデータ補間方法 Download PDF

Info

Publication number
JP2010072364A
JP2010072364A JP2008239975A JP2008239975A JP2010072364A JP 2010072364 A JP2010072364 A JP 2010072364A JP 2008239975 A JP2008239975 A JP 2008239975A JP 2008239975 A JP2008239975 A JP 2008239975A JP 2010072364 A JP2010072364 A JP 2010072364A
Authority
JP
Japan
Prior art keywords
data
audio data
audio
module
interpolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008239975A
Other languages
English (en)
Inventor
Takanobu Mukaide
隆信 向出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008239975A priority Critical patent/JP2010072364A/ja
Priority to US12/421,508 priority patent/US20100070812A1/en
Publication of JP2010072364A publication Critical patent/JP2010072364A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

【課題】オーディオデータエラー耐性に優れたオーディオデータ補間装置を提供すること。
【解決手段】オーディオデータ補間装置は、コンテンツデータを受信する受信手段と、前記コンテンツデータから第1オーディオデータ及びこの第1オーディオデータに対応する第2オーディオデータを抽出する抽出手段と、前記第1オーディオデータのエラーデータを検出し、前記第2オーディオデータから前記エラーデータに対応する補間データを検出する補間データ検出手段と、前記第1オーディオデータを出力するとともに、前記第1オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する出力手段と、を備えている。
【選択図】 図1

Description

本発明は、例えばストリーミング再生中におけるオーディオデータの欠落等を補間するオーディオデータ補間装置及びオーディオデータ補間方法に関する。
近年、ストリーミング再生技術を利用したコンテンツ配信が開始されている。即ち、ストリーミング再生装置が、配信サーバーから転送されるコンテンツデータを受信しながら、このコンテンツデータを再生する。これにより、大容量コンテンツであっても、少ない待ち時間で、コンテンツの視聴を開始することができる。
配信サーバーから転送されるコンテンツデータからエラーが検出された場合には、接続方式により、次のようなエラー対応が適用される。例えば、TCP/IP接続の場合には、一部データの再送信によるエラー対応が適用される。また、UDP接続の場合には、FEC(Forward Error Correction)等の冗長データによるエラー対応が適用される。
また、このような冗長データを利用しバーストエラーに対応する送信装置及び受信装置が提案されている(特許文献1参照)。即ち、送信装置は、ビデオデータNとオーディオデータnとを同時伝送する際に、オーディオデータnを複製して、同一内容のオーディオデータnが時間的に所定時間以上離れた位置に配置した伝送データを生成し、この伝送データを伝送する。受信装置が、伝送エラーにより一方のオーディオデータnの破損を検出した場合には、他方のオーディオデータnを用いてオーディオデータnを復元する。
特開2005−94661
しかしながら、再送信によりエラーに対応する場合、再送信データの転送が発生し、これによりコンテンツデータの転送効率が低下し、ストリーミング再生装置側でバッファアンダーフローが発生する可能性が高くなる。バッファアンダーフローが発生してしまうと、ストリーミング再生装置は、バッファに再生用データが溜まるまで、再生を一時中断する。
また、冗長データによりエラーに対応する場合、配信サーバー及びストリーミング再生装置の両方が、この冗長データに対応する必要がある。つまり、配信サーバーは、冗長データを埋め込んだコンテンツデータを送信しなければならず、またストリーミング再生装置は冗長データによりエラーを訂正する能力を持たなければならない。
本発明の目的は、オーディオデータエラー耐性に優れたオーディオデータ補間装置及びオーディオデータ補間方法を提供することにある。
この発明の一実施形態に係るオーディオデータ補間装置は、コンテンツデータを受信する受信手段と、前記コンテンツデータから第1オーディオデータ及びこの第1オーディオデータに対応する第2オーディオデータを抽出する抽出手段と、前記第1オーディオデータのエラーデータを検出し、前記第2オーディオデータから前記エラーデータに対応する補間データを検出する補間データ検出手段と、前記第1オーディオデータを出力するとともに、前記第1オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する出力手段と、を備えている。
この発明の一実施形態に係るオーディオデータ補間方法は、コンテンツデータを受信し、前記コンテンツデータから第1オーディオデータ及びこの第1オーディオデータに対応する第2オーディオデータを抽出し、前記第1オーディオデータのエラーデータを検出し、前記第2オーディオデータから前記エラーデータに対応する補間データを検出し、前記第1オーディオデータを出力するとともに、前記第1オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する。
本発明によれば、オーディオデータエラー耐性に優れたオーディオデータ補間装置及びオーディオデータ補間方法を提供できる。
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の第1実施形態に係るストリーミング再生システムの概略構成を示す図である。
図1に示すように、例えば、ストリーミング再生システムは、ストリーミング再生端末100、配信サーバー200、ディスプレイ300、AVアンプ400、スピーカ500により構成される。
ストリーミング再生端末100は、制御モジュール101、操作入力モジュール102、言語情報解析モジュール103、音声選択モジュール104、Demuxモジュール105、ビデオデータ処理モジュール106、第1オーディオデータ処理モジュール107、データ解析モジュール108、補間用オーディオデータ処理モジュール109、第2オーディオデータ処理モジュール110、第2データ解析モジュール111、選択モジュール112、圧縮オーディオ出力データ作成モジュール113、デコードモジュール114、データ挿入モジュール115、再エンコードモジュール116、ズレ補正モジュール117を備えている。
ストリーミング再生端末100は、ネットワークを介して配信サーバー200と接続される。つまり、ストリーミング再生端末100は、ネットワーク経由で映像音声コンテンツを配信するビデオ・オン・デマンドサービスを受けることができる。例えば、ディスプレイ300には、ビデオ・オン・デマンドサービスのメニュー画面が表示される。ユーザは、操作モジュール102を介して、メニュー画面の中から希望のコンテンツを選択する。操作モジュール102は、リモートコントローラ又はストリーミング再生端末100に取り付けられた操作パネルである。
ストリーミング再生端末100(制御モジュール101)は、配信サーバー200に対して、選択されたコンテンツの提供を要求する。これに対応して、配信サーバー200は、ストリーミング再生端末100に対してコンテンツを配信する。コンテンツデータを構成する言語情報(メタデータ)は、言語情報解析モジュール103に入力される。コンテンツデータを構成するオーディオビデオストリームデータは、Demuxモジュール105に入力される。
言語情報解析モジュール103は、言語情報の解析結果を音声選択モジュール104へ提供する。音声選択モジュール104は、言語情報の解析結果に基づき、音声選択指示をDemuxモジュール107へ通知する。例えば、コンテンツデータが第1オーディオデータ及び第2オーディオデータを含み、第1オーディオデータは日本語と英語の両音声を含む音声多重データ(2チャンネルデータ)であり、第2オーディオデータは日本語マルチチャンネルオーディオデータ(5.1チャンネルデータ)であるとする。一般的に、第1オーディオデータに含まれる日本語音声と、第2オーディオデータに含まれる日本語音声はチャンネル数の違いはあるものの同じ音声である。この場合、言語情報は、第1オーディオデータが日本語と英語の両音声を含む音声多重データであることを示す情報と、及び第2オーディオデータが日本語マルチチャンネルオーディオデータであることを示す情報とを含む。
例えば、ユーザが、操作モジュール102を介して、音声多重データの日本語を選択すると、制御モジュール101が、この選択を音声選択モジュール104へ通知する。これにより、音声選択モジュール104は、第1オーディオデータに含まれる日本語の選択指示をDemuxモジュール107へ通知する。或いは、ユーザが、操作モジュール102を介して、音声多重データの英語を選択すると、制御モジュール101が、この選択を音声選択モジュール104へ通知する。これにより、音声選択モジュール104は、第1オーディオデータに含まれる英語の選択指示をDemuxモジュール107へ通知する。或いは、ユーザが、操作モジュール102を介して、マルチチャンネルの日本語を選択すると、制御モジュール101が、この選択を音声選択モジュール104へ通知する。これにより、音声選択モジュール104は、第2オーディオデータの選択指示をDemuxモジュール107へ出力する。
Demuxモジュール105は、オーディオビデオストリームデータを受信し、ビデオデータ、第1オーディオデータ、及び第2オーディオデータに分離する。分離されたビデオデータは、ビデオデータ処理モジュール106へ入力される。ビデオデータ処理モジュール106は、ビデオデータをデコードし、ディスプレイ300の解像度等に基づきデコードされたビデオデータを加工し、加工されたビデオデータをディスプレイ300へ出力する。これにより、ディスプレイ300にビデオデータが表示される。
例えば、ユーザが、操作モジュール102を介して、音声多重データの日本語を選択したケースについて説明すると、分離された第1オーディオデータ(音声多重データの日本語)は、第1オーディオデータ処理モジュール107へ入力され、第1オーディオデータ処理モジュール107から第1データ解析モジュール108へ入力され、また、分離された第2オーディオデータ(マルチチャンネルデータの日本語)は、第2オーディオデータ処理モジュール110へ入力され、第2オーディオデータ処理モジュール107から第2データ解析モジュール111へ入力される。
第1データ解析モジュール108は、第1オーディオデータに含まれるエラーデータを検出し、エラーデータを検知した場合には、エラーを各部へ通知する。選択モジュール112は、第1データ解析モジュール108からのエラー通知がない場合には、第1データ解析モジュール108と第2データ解析モジュール111のうちの第1データ解析モジュール108を選択する。つまり、第1データ解析モジュール108から出力される第1オーディオデータが、デコードモジュール114へ入力される。デコードモジュール114は、第1オーディオデータをデコードし、スピーカ500へ出力する。これにより、スピーカ500は、第1オーディオデータ(音声多重データの日本語)を出力する。
また、第1データ解析モジュール108から出力される第1オーディオデータは、圧縮オーディオ出力データ作成モジュール113へも入力される。圧縮オーディオ出力データ作成モジュール113は、第1オーディオデータに基づき、圧縮オーディオ出力データを作成し、圧縮オーディオ出力データをAVアンプ400へ出力する。
上記したように、ストリーミング再生端末100は、配信サーバー200から配信されるコンテンツを受信し、受信したコンテンツを光ディスクやHDD等の不揮発性メモリに蓄積せずに、逐一再生することができる。
ところで、配信サーバー200から転送されたオーディオビデオデータからエラーが検出された場合には、エラー対策処理が必要となる。例えば、配信サーバ200に対して一部データの再送信を要求したり、エラー訂正処理を行ったりする。
しかし、再送信によりエラーに対応しようとすると、再送信データの転送が発生し、これによりコンテンツデータの転送効率が低下し、ストリーミング再生装置側でバッファアンダーフローが発生する可能性が高くなる。バッファアンダーフローが発生してしまうと、ストリーミング再生が一時中断されてしまう。このような再生の一時中断は、視聴者にとっては不快なものである。
一方、エラー訂正処理によりエラーに対応しようとすると、配信サーバー200とストリーミング再生端末100の両方に、エラー訂正のための冗長データに対応する機能が必要となってしまう。配信サーバー200とストリーミング再生端末100のどちらか一方がエラー訂正処理に未対応であると、エラーに対応することはできなくなってしまう。エラーに対応できなければ、再生音声が一部欠落(一部無音)してしまう。
そこで、ストリーミング再生端末100は、エラー対策として、一部データの再送信を要求したり、エラー訂正処理をしたりすることなく、ストリーミング再生端末100が単独でエラーにより欠落等したオーディオデータを復元する。オーディオデータの復元には、配信されるオーディオビデオコンテンツに含まれる複数のオーディオデータ(マルチトラック)を利用する。つまり、第1オーディオデータを再生しているときのエラーの発生に対しては、第2オーディオデータを利用する。
なお、ストリーミング再生中のエラーは、大量のデータが破損するようなエラーではなく、ビデオデータと複数のオーディオデータのうちの、あるオーディオデータの一部だけが破損するようなケースが考えられる。本実施形態で説明するデータ補間処理は、このようなあるオーディオデータの一部だけの破損に対して特に有効に働く。
次に、図5に示すフローチャートを参照し、オーディオデータ補間処理の第1例について説明する。
上記したように、言語情報解析モジュール103が、言語情報を取得する(ST501)。音声選択モジュール104は、言語情報の解析結果に基づき、音声選択指示をDemuxモジュール107へ通知する。Demuxモジュール107は、オーディオビデオストリームデータを、ビデオデータ、第1オーディオデータ、及び第2オーディオデータへ分離し、第1オーディオデータ及び第2オーディオデータのうちの一方を再生用音声として選択し、第1オーディオデータ及び第2オーディオデータのうちの他方を補間用音声として選択する(ST502、ST503)。
例えば、ユーザが、操作モジュール102を介して、音声多重データの日本語を選択している場合、つまり、第1オーディオデータの再生を希望している場合、Demuxモジュール107は、再生用音声として第1オーディオデータを選択し、補間用音声として第2オーディオデータを選択する。
再生用音声として選択された第1オーディオデータは、第1オーディオデータ処理モジュール107へ入力され、第1オーディオデータ処理モジュール107から第1データ解析モジュール108へ入力され、再生が開始される(ST504)。補間用音声として選択された第2オーディオデータは、第2オーディオデータ処理モジュール110へ入力され、第2オーディオデータ処理モジュール110から第2データ解析モジュール111へ入力される。
第1データ解析モジュール108により、第1オーディオデータからエラーデータが検出されなければ(ST506、NO)、選択モジュール112は、再生用音声として第1オーディオデータをデコードモジュール114へ入力し(ST507)、デコードモジュール114は、第1オーディオデータをデコードし(ST508)、デコードされた第1オーディオデータはスピーカ500へ出力される(ST509)。
第1データ解析モジュール108が、第1オーディオデータのエラーデータを検出すると、次のようなオーディオデータ補間処理が実行される。図3に示すように、第1データ解析モジュール108は、第1オーディオデータのエラーデータの出力開始時間PTS1-1及び出力終了時間PTS1-2を検出し(ST510)、出力開始時間PTS1を第2データ解析モジュール111へ通知する。この間、デコードモジュール114は、第1オーディオデータをデコードし続け、ズレ補正モジュール117には、デコードされた第1オーディオデータが蓄積される。
第2データ解析モジュール111は、第2オーディオデータ(補間用音声)から、出力開始時間PTS1-1より前の出力開始時間PTS2-1を検出し(ST511)、出力開始時間PTS2-1を第1データ解析モジュール108へ通知する。第1データ解析モジュール108は、第2オーディオデータのうちの出力開始時間PTS2-1以降のデータがデコードモジュール114へ入力されるように、選択モジュール114を制御する。これにより、デコードモジュール114は、第2オーディオデータのうちの出力開始時間PTS2-1以降のデータをデコードする(ST512)。
また、第1データ解析モジュール108は、出力開始時間PTS1-1及び出力開始時間PTS2-1に基づき、第1オーディオデータと第2オーディオデータの時間ズレを算出し(ST513)、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2をズレ補正モジュール117へ通知する。なお、第1オーディオデータと第2オーディオデータとはビットレートが違うなどの理由から時間ズレが生じている。ズレ補正モジュール117は、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2に基づき、第1オーディオデータのうちの出力開始時間PTS1-1と出力終了時間PTS1-2の間のエラーデータに対応する、第2オーディオデータのうちの補間データを抽出し(ST514)、第1オーディオデータのうちのエラーデータに替えて補間データを挿入し(ST515)、補間データにより補間された第1オーディオデータを出力する(ST509)。
なお、第1データ解析モジュール108は、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2に基づき、エラーデータのデコード完了後に、再び、第1オーディオデータがデコードモジュール114へ入力されるように、選択モジュール114を制御する。これにより、デコードモジュール114は、再び、第1オーディオデータをデコードする。
ここで、図3を参照して、第1オーディオデータと第2オーディオデータの時間ズレ算出の詳細について説明する。
まず、以下の通り定義する。
PTS1-1:音声欠落が始まる時間[単位:90kHz精度]
PTS2-1:PTS1-1の直前の補間用音声が始まる時間[単位:90kHz精度]
fs :補間用音声のサンプリング周波数[単位:Hz]
ズレ時間ΔPTS = ("PTS1-1" - "PTS2-1") / 90000 [単位:秒]
音声データ量 N [単位:サンプル]に相当する時間ΔTは、下記式で表すことができる。
ΔT = N / fs [単位:秒]
ΔPTS = ΔTの関係を満たすNサンプルのデータが、切り捨てデータとなる。つまり、第2オーディオデータのPTS2-1からNサンプルのデータが、切り捨てデータとなり、第2オーディオデータの切り捨てデータの後続のデータが補間データとなる。Nサンプルのデータは、下記のように算出できる。
N / fs = ("PTS1-1" - "PTS2-1") / 90000
N = (("PTS1-1" - "PTS2-1") / 90000) * fs
以下、具体例を示す。つまり、PTS1-1、PTS2-1、fsを以下のように定義すると、Nサンプルのデータは、下記のように算出できる。
PTS1-1 = 1960
PTS2-1 = 1000
fs = 48000
N = ((1960 - 1000) / 90000) * 48000 = 512
従って、PTS2-1から512サンプルのPCM音声データが、切り捨てデータとなる。
以上により、ストリーミング再生端末100は、オーディオデータの再生中にエラーが発生しても、データ再送信要求又はエラー訂正処理を必要とせずに、エラーに対応することができる。つまり、ストリーミング再生端末100は、オーディオデータの再生中にエラーが発生しても、コンテンツデータの安定供給を受けつつ、コンテンツデータの再生一時停止という事態を回避することができ、しかも音声欠落による無音状態も回避することができる。
次に、図6に示すフローチャートを参照し、オーディオデータ補間処理の第2例について説明する。
オーディオデータ補間処理の第1例では、スピーカ等へ、補間データにより補間されたオーディオデータを出力するケースについて説明した。これに対して、オーディオデータ補間処理の第2例では、AVアンプ等へ、補間データにより補間されたオーディオデータ(圧縮オーディオデータ)を出力するケースについて説明する。
例えば、ユーザが、操作モジュール102を介して、音声多重データの日本語を選択している場合、つまり、第1オーディオデータの再生を希望している場合について説明する。この場合、再生用音声として選択された第1オーディオデータは、第1オーディオデータ処理モジュール107へ入力され、第1オーディオデータ処理モジュール107から第1データ解析モジュール108へ入力され、再生が開始される(ST601〜ST604)。また、補間用音声として選択された第2オーディオデータは、第2オーディオデータ処理モジュール110へ入力され、第2オーディオデータ処理モジュール110から第2データ解析モジュール111へ入力される。
第1データ解析モジュール108により、第1オーディオデータからエラーデータが検出されなければ(ST606、NO)、圧縮オーディオ出力データ作成モジュール113は、第1オーディオデータから圧縮オーディオ出力データを作成し(ST608)、AVアンプ400へ出力する(ST609)。
第1データ解析モジュール108が、第1オーディオデータのエラーデータを検出すると、次のようなオーディオデータ補間処理が実行される。図4に示すように、第1データ解析モジュール108は、第1オーディオデータのエラーデータの出力開始時間PTS1-1及び出力終了時間PTS1-2を検出し(ST610)、出力開始時間PTS1を第2データ解析モジュール111へ通知する。この間、デコードモジュール114は、第1オーディオデータをデコードし続け、ズレ補正モジュール117には、デコードされた第1オーディオデータが蓄積される。
第2データ解析モジュール111は、第2オーディオデータ(補間用音声)から、出力開始時間PTS1-1より前の出力開始時間PTS2-1を検出し(ST611)、出力開始時間PTS2-1を第1データ解析モジュール108へ通知する。第1データ解析モジュール108は、第2オーディオデータのうちの出力開始時間PTS2-1以降のデータがデコードモジュール114へ入力されるように、選択モジュール114を制御する。これにより、デコードモジュール114は、第2オーディオデータのうちの出力開始時間PTS2-1以降のデータをデコードする(ST612)。
また、第1データ解析モジュール108は、出力開始時間PTS1-1及び出力開始時間PTS2-1に基づき、第1オーディオデータと第2オーディオデータの時間ズレを算出し(ST613)、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2をズレ補正モジュール117へ通知する。ズレ補正モジュール117は、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2に基づき、第1オーディオデータのうちの出力開始時間PTS1-1と出力終了時間PTS1-2の間のエラーデータに対応する、第2オーディオデータのうちの補間データを抽出する(ST614)。再エンコードモジュール116は、補間データをエンコードする(ST615)。なお、再エンコードモジュール116による圧縮方式・ビットレート・チャンネル数と、圧縮オーディオ出力データ作成モジュール113による圧縮方式・ビットレート・チャンネル数とは同一である。データ挿入モジュールは、第1オーディオデータ(圧縮オーディオ出力データ)のうちのエラーデータに替えて、エンコードされた補間データ(補間ES)を挿入し(ST616)、エンコードされた補間データにより補間された第1オーディオデータ(圧縮オーディオ出力データ)をAVアンプ400へ出力する(ST609)。
以上により、ストリーミング再生端末100は、オーディオデータの再生中にエラーが発生しても、データ再送信要求又はエラー訂正処理を必要とせずに、エラーに対応することができる。つまり、ストリーミング再生端末100は、オーディオデータの再生中にエラーが発生しても、コンテンツデータの安定供給を受けつつ、コンテンツデータの再生一時停止という事態を回避することができ、しかも音声欠落による無音状態も回避することができる。
次に、図2及び図7を参照し、オーディオデータ補間処理の第3例について説明する。図2は、本発明の第2実施形態に係るストリーミング再生システムの概略構成を示す図である。図1に示すストリーミング再生端末100がズレ補正モジュール117を備えているのに対して、図2に示すストリーミング再生端末100はセリフ除去&ズレ補正モジュール117’を備えている。これ以外には、基本的に、図1に示すストリーミング再生端末100の構成と図2に示すストリーミング再生端末100の構成とは同じであり、図2に示すストリーミング再生端末100の詳細説明は省略する。
図7は、オーディオデータ補間処理の第3例を示すフローチャートである。オーディオデータ補間処理の第1例及び第2例では、第1オーディオデータは日本語と英語の両音声を含む音声多重データであり、第2オーディオデータは日本語マルチチャンネルオーディオデータであり、ユーザが第1オーディオデータ(日本語)の再生を指定したケースについて説明した。従って、第1オーディオデータ(日本語)にエラーが発生しても、第2オーディオデータをそのまま補間データとして使ってエラーを補間することができた。
オーディオデータ補間処理の第3例では、ユーザが第1オーディオデータ(英語)の再生を指定したケースについて説明する。つまり、再生される第1オーディオデータの言語と、補間用の第2オーディオデータの言語とが異なるケースについて説明する。この場合、第2オーディオデータをそのまま補間データとして使うと、日本語で再生中に、英語に切り替わってしまうという不具合が生じてしまう。
例えば、ユーザが、操作モジュール102を介して、音声多重データの英語を選択している場合、つまり、第1オーディオデータ(英語)の再生を希望している場合について説明する。この場合、再生用音声として選択された第1オーディオデータは、第1オーディオデータ処理モジュール107へ入力され、第1オーディオデータ処理モジュール107から第1データ解析モジュール108へ入力され、再生が開始される(ST701〜ST704)。また、補間用音声として選択された第2オーディオデータは、第2オーディオデータ処理モジュール110へ入力され、第2オーディオデータ処理モジュール110から第2データ解析モジュール111へ入力される。
なお、第1データ解析モジュール108は、第1オーディオデータ(英語)の再生を検出し、第2データ解析モジュール111は、第2オーディオデータ(日本語)を検出し、第1データ解析モジュール108は、セリフ除去&ズレ補正モジュール117’に対して、言語の違いからセリフ除去を指示する。
第1データ解析モジュール108により、第1オーディオデータからエラーデータが検出されなければ(ST706、NO)、選択モジュール112は、再生用音声として第1オーディオデータをデコードモジュール114へ入力し(ST707)、デコードモジュール114は、第1オーディオデータをデコードし(ST708)、デコードされた第1オーディオデータはスピーカ500へ出力される(ST709)。
第1データ解析モジュール108が、第1オーディオデータのエラーデータを検出すると、次のようなオーディオデータ補間処理が実行される。図3に示すように、第1データ解析モジュール108は、第1オーディオデータのエラーデータの出力開始時間PTS1-1及び出力終了時間PTS1-2を検出し(ST710)、出力開始時間PTS1を第2データ解析モジュール111へ通知する。この間、デコードモジュール114は、第1オーディオデータをデコードし続け、ズレ補正モジュール117には、デコードされた第1オーディオデータが蓄積される。
第2データ解析モジュール111は、第2オーディオデータ(補間用音声)から、出力開始時間PTS1-1より前の出力開始時間PTS2-1を検出し(ST711)、出力開始時間PTS2-1を第1データ解析モジュール108へ通知する。第1データ解析モジュール108は、第2オーディオデータのうちの出力開始時間PTS2-1以降のデータがデコードモジュール114へ入力されるように、選択モジュール114を制御する。これにより、デコードモジュール114は、第2オーディオデータのうちの出力開始時間PTS2-1以降のデータをデコードする(ST712)。
また、第1データ解析モジュール108は、出力開始時間PTS1-1及び出力開始時間PTS2-1に基づき、第1オーディオデータと第2オーディオデータの時間ズレを算出し(ST713)、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2をズレ補正モジュール117へ通知する。ズレ補正モジュール117は、時間ズレ、出力開始時間PTS1-1、及び出力終了時間PTS1-2に基づき、第1オーディオデータのうちの出力開始時間PTS1-1と出力終了時間PTS1-2の間のエラーデータに対応する、第2オーディオデータのうちの補間データを抽出し(ST714)、再生中の第1オーディオデータと補間用の第2オーディオデータとの間で言語の違いがなければ(ST715、NO)、第1オーディオデータのうちのエラーデータに替えて補間データを挿入し(ST716)、補間データにより補間された第1オーディオデータを出力する(ST709)。
ところが、このケースでは、再生中の第1オーディオデータ(英語)と補間用の第2オーディオデータ(日本語)との間で言語に違いがあるため(ST715、YES)、セリフ除去&ズレ補正モジュール117’は、補間データ中のセリフ音声を除去し(ST717)、第1オーディオデータのうちのエラーデータに替えてセリフ音声が除去された補間データを挿入し(ST716)、セリフ音声が除去された補間データにより補間された第1オーディオデータを出力する(ST709)。
ここで、セリフ音声の除去方法について説明する。例えば、セリフ除去&ズレ補正モジュール117’は、第2オーディオデータ(日本語マルチチャンネル音声)のデコード結果から、センターチャンネルに出力される音声を除去し、残りのチャンネルに出力される音声(セリフ以外のバックグラウンド音声)を補間データとする。もし、第2オーディオデータが、マルチチャンネルオーディオデータでない場合には、第2オーディオデータのデコード結果から、レフト(L)/ライト(R)チャンネルの同位相成分(セリフ)を除去し、残りの音声を(セリフ以外のバックグラウンド音声)を補間データとする。
以上により、ストリーミング再生端末100は、同一言語の音声データが存在しない場合であっても、視聴者にとって不快となる音声欠落(無音)を回避することができる。
オーディオデータ補間処理の第1例、第2例、第3例で説明したように、ストリーミング再生端末100は、ストリーミング再生において、一方のオーディオデータの再生中にエラーが発生しても、他方のオーディオデータを利用してエラーを補間することができる。つまり、ストリーミング再生端末100は、データ再送信要求又はエラー訂正処理を必要とせずに、エラーに対応することができる。これにより、再生一時中断或いは音声欠落(無音)状態を回避することができる。
なお、上記説明では、ネットワークを介して受信したストリーミングデータの再生中のエラーに対応するための補間処理について説明したが、本実施形態はこれに限定されるものではない。例えば、上記説明した補間処理は、放送を受信し受信した放送の再生中のエラーに対応することもできる。
なお、上記したモジュールとは、ハードウェアで実現するものであっても良いし、CPU等を使ってソフトウェアで実現するものであってもよい。
なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
本発明の第1実施形態に係るストリーミング再生システムの概略構成を示す図である。 本発明の第2実施形態に係るストリーミング再生システムの概略構成を示す図である。 第1オーディオデータと第2オーディオデータのズレ時間検出を説明するための図である。 再エンコードされた補間データを含む圧縮オーディオ出力データの一例を示す図である。 オーディオデータ補間処理の第1例を説明するための図である。 オーディオデータ補間処理の第2例を説明するための図である。 オーディオデータ補間処理の第3例を説明するための図である。
符号の説明
100…ストリーミング再生端末、101…制御モジュール、102…操作入力モジュール、103…言語情報解析モジュール、104…音声選択モジュール、105…Demuxモジュール、106…ビデオデータ処理モジュール、107…第1オーディオデータ処理モジュール、108…データ解析モジュール、109…補間用オーディオデータ処理モジュール、110…第2オーディオデータ処理モジュール、111…第2データ解析モジュール、112…選択モジュール、113…圧縮オーディオ出力データ作成モジュール、114…デコードモジュール、115…データ挿入モジュール、116…再エンコードモジュール、117…ズレ補正モジュール、200…配信サーバー、300…ディスプレイ、400…AVアンプ、500…スピーカ

Claims (6)

  1. コンテンツデータを受信する受信手段と、
    前記コンテンツデータから第1オーディオデータ及びこの第1オーディオデータに対応する第2オーディオデータを抽出する抽出手段と、
    前記第1オーディオデータのエラーデータを検出し、前記第2オーディオデータから前記エラーデータに対応する補間データを検出する補間データ検出手段と、
    前記第1オーディオデータを出力するとともに、前記第1オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する出力手段と、
    を備えたことを特徴とするオーディオデータ補間装置。
  2. 前記出力手段は、前記第1オーディオデータをデコードして出力するとともに、前記第1オーディオデータに含まれた前記エラーデータに替えて前記補間データをデコードして出力する、
    ことを特徴とする請求項1に記載のオーディオデータ補間装置。
  3. 前記出力手段は、デコードされた前記補間データをエンコードし、エンコードされた前記第1オーディオデータを出力するとともに、前記第1オーディオデータに含まれた前記エラーデータに替えてエンコードされた前記補間データを出力する、
    ことを特徴とする請求項2に記載のオーディオデータ補間装置。
  4. 前記抽出手段は、同一言語の前記第1オーディオデータと前記第2オーディオデータを抽出することを特徴とする請求項1に記載のオーディオデータ補間装置。
  5. 前記出力手段は、前記第1オーディオデータと前記第2オーディオデータとの言語の相違に基づき、前記補間データに含まれるセリフデータを除去し、前記エラーデータに替えて前記セリフデータが除去された前記補間データを出力することを特徴とする請求項1に記載のオーディオデータ補間装置。
  6. コンテンツデータを受信し、
    前記コンテンツデータから第1オーディオデータ及びこの第1オーディオデータに対応する第2オーディオデータを抽出し、
    前記第1オーディオデータのエラーデータを検出し、前記第2オーディオデータから前記エラーデータに対応する補間データを検出し、
    前記第1オーディオデータを出力するとともに、前記第1オーディオデータに含まれた前記エラーデータに替えて前記補間データを出力する、
    ことを特徴とするオーディオデータ補間方法。
JP2008239975A 2008-09-18 2008-09-18 オーディオデータ補間装置及びオーディオデータ補間方法 Pending JP2010072364A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008239975A JP2010072364A (ja) 2008-09-18 2008-09-18 オーディオデータ補間装置及びオーディオデータ補間方法
US12/421,508 US20100070812A1 (en) 2008-09-18 2009-04-09 Audio data interpolating device and audio data interpolating method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008239975A JP2010072364A (ja) 2008-09-18 2008-09-18 オーディオデータ補間装置及びオーディオデータ補間方法

Publications (1)

Publication Number Publication Date
JP2010072364A true JP2010072364A (ja) 2010-04-02

Family

ID=42008304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008239975A Pending JP2010072364A (ja) 2008-09-18 2008-09-18 オーディオデータ補間装置及びオーディオデータ補間方法

Country Status (2)

Country Link
US (1) US20100070812A1 (ja)
JP (1) JP2010072364A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012029224A (ja) * 2010-07-27 2012-02-09 Yamaha Corp 音響データ通信装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH053558A (ja) * 1991-06-24 1993-01-08 Sharp Corp テレビジヨン受像機
JPH10327116A (ja) * 1997-05-22 1998-12-08 Tadayoshi Kato タイムダイバシティシステム
JP2001144733A (ja) * 1999-11-15 2001-05-25 Nec Corp 音声伝送装置及び音声伝送方法
JP2004140505A (ja) * 2002-10-16 2004-05-13 Sharp Corp 放送番組の提供方法および受信装置および送信装置
JP2004280994A (ja) * 2003-03-18 2004-10-07 Matsushita Electric Ind Co Ltd データ作成方法及びデータ記録装置
WO2005119950A1 (ja) * 2004-06-02 2005-12-15 Matsushita Electric Industrial Co., Ltd. 音声データ送信/受信装置および音声データ送信/受信方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815636A (en) * 1993-03-29 1998-09-29 Canon Kabushiki Kaisha Image reproducing apparatus
JPH0991887A (ja) * 1995-09-21 1997-04-04 Sony Corp ディジタル信号処理方法及び装置
JP4016709B2 (ja) * 2002-04-26 2007-12-05 日本電気株式会社 オーディオデータの符号変換伝送方法と符号変換受信方法及び装置とシステムならびにプログラム
JP2006033356A (ja) * 2004-07-15 2006-02-02 Renesas Technology Corp 音声データ処理装置
TWI326433B (en) * 2006-09-19 2010-06-21 Ind Tech Res Inst Method for saving interpolation data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH053558A (ja) * 1991-06-24 1993-01-08 Sharp Corp テレビジヨン受像機
JPH10327116A (ja) * 1997-05-22 1998-12-08 Tadayoshi Kato タイムダイバシティシステム
JP2001144733A (ja) * 1999-11-15 2001-05-25 Nec Corp 音声伝送装置及び音声伝送方法
JP2004140505A (ja) * 2002-10-16 2004-05-13 Sharp Corp 放送番組の提供方法および受信装置および送信装置
JP2004280994A (ja) * 2003-03-18 2004-10-07 Matsushita Electric Ind Co Ltd データ作成方法及びデータ記録装置
WO2005119950A1 (ja) * 2004-06-02 2005-12-15 Matsushita Electric Industrial Co., Ltd. 音声データ送信/受信装置および音声データ送信/受信方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012029224A (ja) * 2010-07-27 2012-02-09 Yamaha Corp 音響データ通信装置

Also Published As

Publication number Publication date
US20100070812A1 (en) 2010-03-18

Similar Documents

Publication Publication Date Title
JP5207860B2 (ja) 映像音声再生装置、及び映像音声再生方法
JP2009158055A (ja) 音声データ処理装置および音声データ処理方法
JP2008005254A (ja) サーバ装置、クライアント装置、コンテンツ再生システム、コンテンツ処理方法及びプログラム
JP2009164655A (ja) 字幕情報送出装置、字幕情報処理装置およびこれら装置の連携方法
JP2006012225A (ja) 情報処理装置
JP4525673B2 (ja) 録画装置
KR101590913B1 (ko) 콘텐츠 다운로드 제어 장치 및 방법
JP2010072364A (ja) オーディオデータ補間装置及びオーディオデータ補間方法
KR20060032191A (ko) 방송 콘텐츠를 디지털적으로 기록하기 위한 방법 및 시스템
JP4746693B2 (ja) 情報送信装置
JP5111134B2 (ja) 録画再生装置
JP2011175717A (ja) コンテンツ記録処理システム
WO2005104125A1 (ja) 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム
JP4314149B2 (ja) トランスレート記録および追いかけ再生に対応したav情報処理システム
JP2005123947A (ja) 受信装置
JP2010273025A (ja) 電子機器、コンテンツ転送システム、コンテンツ転送方法及びプログラム
JP2008187253A (ja) 再生装置
KR20150017225A (ko) 영상재생장치, 서버 및 그 영상재생방법
JP2005184858A (ja) 映像・音声受信装置及びテレビジョン受像機
JP5566947B2 (ja) 情報送信装置
JP4321713B2 (ja) 情報記録方法及び装置
JP2006174065A (ja) 信号出力装置及び信号出力方法
KR101181775B1 (ko) 데이터방송서비스 알림 방법과 그를 위한 단말기
CN115942021A (zh) 音视频流同步播放方法、装置、电子设备及存储介质
JP2007336071A (ja) 記録再生装置及び代替表示方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100803