JP2013005423A

JP2013005423A - 映像再生装置、映像再生方法およびプログラム

Info

Publication number: JP2013005423A
Application number: JP2011138208A
Authority: JP
Inventors: Osamu Shimada; 修嶋田
Original assignee: NEC Casio Mobile Communications Ltd
Current assignee: NEC Casio Mobile Communications Ltd
Priority date: 2011-06-22
Filing date: 2011-06-22
Publication date: 2013-01-07

Abstract

【課題】短時間の再生期間においても、確実にリップシングを行うことができる映像再生装置を提供する。
【解決手段】映像再生装置は、映像データおよび音声データがそれぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけられて格納されたデータ格納手段１００と、上記音声データに基づく音を再生する音再生手段１０１と、上記音の上記再生位置を示す音声時間情報を取得する音声時間情報取得手段１０２と、音声時間情報取得手段１０２が取得した上記音声時間情報に対応する映像データをデータ格納手段１００から検索する映像検索手段１０３と、映像検索手段１０３が検索した上記対応する映像データに基づく映像を再生する映像再生手段１０４と、を有する。
【選択図】図１０

Description

本発明は、映像および音声を同期して再生する映像再生装置に関する。

最近の映像再生装置には、指定された再生速度で音声を再生することができる話速変換機能を備えたものがある。この話速変換機能は、再生速度を変化させることで、音声のピッチを維持したまま、早聞きや遅聞きを可能とする機能である。

映像と音声を同期させて再生する場合に、話速変換を行うと、再生された音声と再生された映像との間で時間的なずれ（遅延）が生じる。

話速変換後の音声に同期させて映像を再生する技術として、特許文献１に記載の話速変換装置がある。この話速変換装置は、音声Ａ／Ｄ変換器、話速変換処理部、音声メモリ部、話速設定部、音声Ｄ／Ａ変換器、画像Ａ／Ｄ変換器、画像フレームメモリ部、画像フレーム読み出し制御部、および画像Ｄ／Ａ変換器を有する。

音声Ａ／Ｄ変換器は、アナログ音声信号をデジタル音声信号に変換する。話速設定部は、話速変換率を設定する。

話速変換処理部は、音声Ａ／Ｄ変換器からのデジタル音声信号に対して、話速設定部で設定された話速変換率に基づく話速変換処理を施す。この話速変換処理では、音声メモリ部を利用して、デジタル音声信号の無音区間を縮小する。

音声Ｄ／Ａ変換器は、話速変換処理部で話速変換されたデジタル音声信号をアナログ音声信号に変換する。

画像Ａ／Ｄ変換器は、アナログ画像信号をデジタル画像信号に変換する。画像フレームメモリ部は、画像Ａ／Ｄ変換器からのデジタル画像信号をフレーム毎に格納する。

画像フレーム読み出し制御部は、話速設定部で設定された話速変換率と、話速変換処理部で無音区間が縮小されたデジタル音声信号の再生に要した時間とに基づいて、再生すべき画像のフレーム数を決定し、その決定したフレーム数に対応する回数だけ、画像フレームメモリ部から同じ画像データを読み出す。

上記の他、特許文献２に記載された、原音と話速変換後の音声との時間的な差を検出し、その差に基づいて画速を調整する技術もある。画素調整では、検出した時間的な差に応じて任意のフィールド数の映像を挿入する。

また、特許文献３には、有音区間において、有音データを設定された伸長率で伸長し、その伸長処理のために音声と映像の間で時間的なずれが生じた場合は、伸長された音声をその音声に対応する映像より早いタイミングで再生する技術が記載されている。

特開２００６−４１６６０号公報特開平１１−８８８４４号公報特開２００７−４７３１２号公報

特許文献１においては、例えば、「きのうわたしは」というフレーズを再生する場合に、その再生期間中に、同じ画像データを繰り返し読み出して再生するため、映像中の話者の口の動きに同期させて音声を再生する、いわゆるリップシングを行うことは困難であり、視聴に違和感を生じる。

特許文献２においても、音声と映像の時間的なずれを調整するために任意のフィールド数の映像を挿入するため、上記と同様、短時間の再生期間におけるリップシングを行うことは困難である。

特許文献３においては、有音区間の開始位置と終了位置のそれぞれで映像との時間的なずれが生じるため、視聴に違和感を生じる。

本発明の目的は、上記問題を解決し、短時間の再生期間においても、確実にリップシングを行うことができる、映像再生装置、映像再生方法およびプログラムを提供することにある。

上記目的を達成するため、本発明の映像再生装置は、映像データおよび音声データがそれぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけられて格納されたデータ格納手段と、前記音声データに基づく音を再生する音再生手段と、前記音の前記再生位置を示す音声時間情報を取得する音声時間情報取得手段と、前記音声時間情報取得手段が取得した前記音声時間情報に対応する映像データを前記データ格納手段から検索する映像検索手段と、前記映像検索手段が検索した前記対応する映像データに基づく映像を再生する映像再生手段と、を有する。

本発明の映像再生方法は、データ格納手段が、映像データおよび音声データを、それぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけて格納し、音再生手段が、前記音声データに基づく音を再生し、音声時間情報取得手段が、前記音の前記再生位置を示す音声時間情報を取得し、映像検索手段が、前記音声時間情報取得手段が取得した前記音声時間情報に対応する映像データを前記データ格納手段から取得し、映像再生手段が、前記映像検索手段が取得した前記対応する映像データに基づく映像を再生することを含む。

本発明のプログラムは、映像データおよび音声データを、それぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけてデータ格納手段に格納させる処理と、前記音声データに基づく音を再生する処理と、前記音の前記再生位置を示す音声時間情報を取得する処理と、前記取得した音声時間情報に対応する映像データを前記データ格納手段から取得する処理と、前記対応する映像データに基づく映像を再生する処理と、をコンピュータに実行させる。

本発明によれば、音声の早聞きや遅聞きの話速変換を行った場合で、短時間での音声の再生速度（例えば、フレーム毎の再生速度）が一定でない場合でも、映像と音声の再生の同期がずれることはない。よって、視聴者が快適に視聴することができる。

本発明の第１の実施形態である映像再生装置の主要部を示すブロック図である。図１に示す映像再生装置における音声時間情報を生成する方法の原理を説明するための図である。図１に示す映像再生装置のＤｅＭｕｘの構成を示すブロック図である。図１に示す映像再生装置における制御情報を用いた映像および音声の同期再生の手順を説明するための図である。図１に示す映像再生装置における制御情報を用いて指示される制御の状態遷移を示す模式図である。図５に示す第１から第４の状態それぞれにおいて行われる処理を説明するための図である。図５に示す第１から第４の状態それぞれから他の状態への遷移条件に用いられる閾値の定義を説明するための図である。本発明の第２の実施形態である映像再生装置における制御情報を用いて指示される制御の状態遷移を示す模式図である。図９に示す第１から第５の状態それぞれにおいて行われる処理を説明するための図である。本発明の他の実施形態である映像再生装置の主要部を示すブロック図である。

次に、本発明の実施形態について図面を参照して説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態である映像再生装置の主要部を示すブロック図である。

図１を参照すると、映像再生装置は、映像音声制御部１、映像デコーダ２、音声／オーディオデコーダ３および話速変換部４を有する。

音声情報および映像情報を含むコンテンツ情報１ａが映像音声制御部１に供給される。コンテンツ情報１ａは、例えば、トランスポートストリーム（ＴＳ）として供給されてもよく、ＭＰＥＧ−４ファイルフォーマット等の映像・音声情報が多重化されたファイルとして供給されてもよい。

話速変換のための音声の再生速度を指定した値である再生速度指定値１ｂが映像音声制御部１および話速変換部４に供給される。例えば不図示の入力操作部上で、音声の再生速度を指定するための入力操作が行われると、不図示の制御部が、その入力操作を通じて再生速度の指定値を受け付け、その受け付けた指定値を再生速度指定値１ｂとして映像音声制御部１および話速変換部４に供給する。

映像音声制御部１は、コンテンツ情報１ａから音声情報および映像情報を分離し、映像情報に基づく映像データを映像デコーダ２に供給し、音声情報に基づく音声データを音声／オーディオデコーダ３に供給する。

映像デコーダ２は、映像音声制御部１から供給された映像データを復号し、復号映像信号を生成する。復号映像信号は、再生用映像信号として映像デコーダ２から不図示の表示装置に供給される。表示装置は、再生用映像信号に基づく映像を表示する。

音声／オーディオデコーダ３は、映像音声制御部１から供給された音声データを復号し、復号音声信号を生成する。復号音声信号は、音声／オーディオデコーダ３から話速変換部４に供給される。

話速変換部４は、入力された再生速度指定値１ｂが示す再生速度になるように、復号音声信号に話速変換を施し、話速変換後の音声信号を再生用音声信号として出力する。例えば、話速変換部４は、指定された再生速度になるように、復号音声信号のピッチ等を変えずに、フレーム毎に、話速変換のための処理を行う。

上記の話速変換処理において、各フレームで、常に、指定された再生速度になるように話速変換処理を行うのではなく、復号音声信号の特徴に応じて、フレーム毎に、再生速度を調整してもよい。この場合、指定された再生速度よりも早い再生速度で処理をするフレームや、指定された再生速度よりも遅い再生速度で処理をするフレームがあってもよい。ただし、所定時間にわたって音声を再生した場合の平均再生速度が、指定された再生速度になるように制御する。

例えば、再生速度を早くする場合、無音状態を検出し、その部分は指定された再生速度より早くなるように処理し、その他の有音部分は、指定された再生速度よりも遅くなるように処理することで、有音の音声部分を聞き取り易くすることができる。このように、復号音声信号の特徴を分析し、その分析結果に応じて、フレーム毎の再生速度を調整する。

上記の場合、再生用音声信号として出力される音声信号の時間間隔が一定でなくなるため、話速変換部４は、話速変換後の音声信号の再生位置時間を示す音声時間情報１ｃを生成し、その生成した音声時間情報１ｃを映像音声制御部１に供給する。例えば、音声時間情報１ｃは、処理開始時を０として、処理した再生速度に基づいてカウントアップした値を用いることができる。

図２に、音声時間情報１ｃを生成する方法の原理を示す。図２おいて、横軸は再生開始からの経過時間を示す。等倍再生、０．５倍再生、２倍再生のそれぞれの再生されたフレーム番号が示されている。なお、説明の簡略化のため、図２の例では、復号音声信号の特徴に応じた再生速度の調整は行われていない。

例えば、再生開始から３秒経過した時点において、等倍再生時の再生位置時間は「３」、０．５倍再生時の再生位置時間は「１」、２倍再生時の再生位置時間は「７」である。ここで、再生位置時間「３」、「１」、「７」は、再生開始から３秒経過した時点で再生されているフレームの番号を示す。なお、再生速度は、０．５倍再生や２倍再生に限定されず、これら以外の再生速度であってもよい。

再生開始を再生用音声信号の送信開始と見做すと、フレームの再生タイミングをフレームの送信タイミングと規定することができる。話速変換部４は、送信開始時点からの経過時間を測定するためのカウンタを備え、このカウンタの計測結果に基づいて、所定の経過時間毎に、再生速度指定値１ｂが示す再生速度に基づいて音声を再生した場合の再生位置時間（フレーム番号）を取得し、この取得した再生位置時間を音声時間情報１ｃとして映像音声制御部１に供給する。

話速変換部４から出力された再生用音声信号は、ＤＡ変換された後、ヘッドホンやスピーカ等の出力装置（不図示）に供給される。出力装置は、再生用音声信号に基づく音声を出力する。

ここで、再生用映像信号が生成されてから画面等に表示されるまでの時間（遅延）、及び、再生用音声信号が生成されてから出力装置から出力されるまでの時間（遅延）は一定である。これら遅延を補正する処理は本発明の本質ではないため、ここでは、その詳細な説は省略する。

映像音声制御部１は、音声時間情報と映像時間情報から映像と音声のずれ量を計算し、ずれ量をできる限り小さくするように、映像デコーダ２への映像データの供給を制御する。ここで、映像時間情報は、映像デコーダ２に供給される映像データの再生位置時間を示す時間情報である。一方、音声時間情報は、音声/オーディオデコーダ３に供給される音声データの再生位置時間を示す時間情報ではなく、話速変換部４から供給された音声時間情報１ｃである。

以下、映像音声制御部１の構成を詳細に説明する。

映像音声制御部１は、デマルチプレクサ（ＤｅＭｕｘ）１０および同期制御部２０を有する。

図３に、ＤｅＭｕｘ１０の構成を示す。

図３を参照すると、ＤｅＭｕｘ１０は、制御部１１、入力部１２、バッファ１３、映像時間情報取得部１４、音声データ出力部１５および映像データ出力部１６を有する。バッファ１３は、音声バッファ１３ａ、映像バッファ１３ｂおよび時間情報バッファ１３ｃを有する。

入力部１２は、コンテンツ情報１ａから音声情報および映像情報を分離し、分離した音声情報を音声バッファ１３ａに格納し、分離した映像情報を映像バッファ１３ｂに格納する。ここで、音声情報および映像情報はElementary Streamに相当する。

また、入力部１２は、音声バッファ１３ａに格納した音声情報の再生時間に関する音声時間情報および映像バッファ１３ｂにした映像情報の再生時間に関する映像時間情報をそれぞれコンテンツ情報１ａから取得し、取得した音声時間情報および映像時間情報を時間情報バッファ１３ｃに格納する。具体的には、音声時間情報および映像時間情報として、音声情報のフレーム番号と映像情報のフレーム番号とそれらの再生時間情報とが紐づけられて時間情報バッファ１３ｃに格納される。時間情報バッファ１３ｃに格納した音声時間情報および映像時間情報に基づいて、任意の時間における復号および再生すべき音声情報と映像情報を決定することができる。

制御部１１は、図１に示した同期制御部２０からの制御情報１ｅと時間情報バッファ１３ｃに格納した音声時間情報および映像時間情報とに基づいて、復号すべき音声データおよび復号すべき映像データをそれぞれ決定する。音声データ出力部１５は、制御部１１で決定した復号すべき音声データを音声バッファ１３ａから取得し、その取得した音声データを音声／オーディオデコーダ３に供給する。映像データ出力部１６は、制御部１１で決定した復号すべき映像データを映像バッファ１３ｂから取得し、その取得した映像データを映像デコーダ２に供給する。

具体的には、制御部１１は、制御情報１ｅに基づいて、復号すべき音声および映像のフレーム番号をそれぞれ算出するとともに映像データの読み出し速度を決定する。そして、制御部１１は、算出した復号すべき音声データのフレーム番号を音声データ出力部１５に供給し、算出した復号すべき映像データのフレーム番号および決定した読み出し速度を映像データ出力部１６に供給する。

音声データ出力部１５は、制御部１１から供給されたフレーム番号に基づいて音声バッファ１３ａから該当する音声データを取得し、その取得した音声データを音声／オーディオデコーダ３に供給する。

映像データ出力部１６は、制御部１１から供給されたフレーム番号に基づいて映像バッファ１３ｂから該当する映像データを、決定した読み出し速度で読み出し、その読み出した映像データを映像デコーダ２に供給する。

また、制御部１１は、復号すべき音声データおよび復号すべき映像データを算出した際に、復号すべき映像データと紐づけられている時間情報を映像時間情報取得部１４に出力する。

映像時間情報取得部１４は、制御部１１から供給された時間情報に、映像デコーダ２の処理にて生じる遅延を補正するための補正値を付与し、それを映像時間情報１ｄとして同期制御部２０へ出力する。

図１に示した同期制御部２０は、話速変換部４からの音声時間情報１ｃと映像時間情報取得部１４からの映像時間情報１ｄとに基づいて、現在、再生されている映像と音声の時間的なずれ量を計算し、そのずれ量ができる限り小さくなるように制御情報１ｅを生成する。

図４に、制御情報１ｅを用いた映像および音声の同期再生の手順を示す。

まず、同期制御部２０は、最初のフレームの映像及び音声データをデコーダに渡すための制御信号をＤｅＭｕｘ１０に供給する（ステップＳ１０）。ＤｅＭｕｘ１０は、制御信号に従って、最初のフレームの映像データを映像デコーダ２に供給し、最初のフレームの音声データを音声／オーディオデコーダ３に供給する。

次に、同期制御部２０は、再生速度指定値１ｂが示す再生速度に基づいて、次の音声フレームもしくは次の映像フレームをデコーダに渡すタイミングを取得し、そのタイミングで、話速変換４から音声時間情報１ｃを取得するとともにＤｅＭｕｘ１０から映像時間情報１ｄを取得する（ステップＳ１１）。

次に、同期制御部２０は、ステップＳ１１で取得した音声時間情報１ｃおよび映像時間情報１ｄに基づいて、音声及び映像の時間的なずれ量を算出する（ステップＳ１２）。例えば、ずれ量は、音声時間情報１ｃが示す音声の再生位置時間から映像時間情報１ｄが示す映像の再生位置時間を差し引いた値である。ここで、ずれ量の値が正である場合は音声より映像が遅いことを示し、ずれ量の値が負である場合は音声より映像が速いことを示す。

次に、同期制御部２０は、ステップＳ１２で算出したずれ量が減少するように、そのずれ量に応じた制御情報１ｅを生成し、その制御情報１ｅをＤｅＭｕｘ１０に供給する（ステップＳ１３）。

ＤｅＭｕｘ１０では、制御部１１が、制御情報１ｅに基づいて、該当する音声と映像のフレーム番号をそれぞれ算出するとともに、映像データの読み出し速度を決定する。次いで、制御部１１は、算出した音声データのフレーム番号を音声データ出力部１５に供給するとともに、算出した映像データのフレーム番号および決定した読み出し速度を映像データ出力部１６に供給する。

続いて、音声データ出力部１５が、制御部１１から供給されたフレーム番号に基づいて音声バッファ１３ａから該当する音声データを取得し、その取得した音声データを音声／オーディオデコーダ３に供給する。この動作と平行して、映像データ出力部１６が、制御部１１から供給されたフレーム番号に基づいて映像バッファ１３ｂから該当する映像データを、決定された読み出し速度で読み出し、その読みだした映像データを映像デコーダ２に供給する。

次に、ステップＳ１３でのずれ量に応じた制御情報１ｅの生成について具体的に説明する。

図５は、制御情報１ｅを用いて指示される制御の状態遷移を表した状態図である。制御状態は、第１から第４の状態を含み、ずれ量Ｘ（Ｘ＝（音声の再生位置時間）−（映像の再生位置時間））に基づいて第１から第４の状態のいずれかが制御情報１ｅとして設定される。

図６に、第１から第４の状態それぞれにおいて行われる処理を示し、図７に、第１から第４の状態それぞれから他の状態への遷移条件に用いられる閾値の定義を示す。

図６に示すように、第１の状態は、初期状態であって、音声および映像ともに特別な処理は行われない。第２の状態は、音声が映像よりも遅く再生される場合であり、画像の更新を停止して、音声の再生が映像の再生に追いつくようにする。

第３の状態は、音声が映像よりも早く再生される場合であり、音声の再生処理はそのまま続け、映像の再生処理を早めることで、映像の再生が音声の再生に追いつくようにする。

第４の状態は、第３の状態で映像の再生を早めても音声の再生に追いつかない場合であり、数秒先のある映像データまでスキップする。例えば、ＭＰＥＧ-２やＭＰＥＧ-４などの映像データにおいては、前後フレームを用いないで復号することができるIntraフレームが数秒毎に挿入されていることが一般的である。この場合、第４の状態において、次のIntraフレームまでスキップする処理を実行する。

図７に示すように、第１の閾値は、映像の再生が音声の再生より早いと判定する場合の閾値である。

第２の閾値は正常時の下限閾値であり、第３の閾値は正常時の上限値である。ここで、正常時は、映像の再生と音声の再生との時間的なずれ量が所定の範囲内にあることを示す。所定の範囲は、映像と音声が違和感なく再生されている状態と見做すことができる範囲である。

第４の閾値は、映像の再生が音声の再生より遅いと判定する場合の下限閾値である。第５の閾値は、映像の再生が音声の再生より遅いと判定する場合の上限閾値である。

第１から第５の閾値は、第１の閾値＜第２の閾値＜第３の閾値＜第４の閾値＜第５の閾値の大小関係を満たす。

ずれ量Ｘが第１から第５の閾値に基づく遷移条件のいずれを満たすかの判定が行われ、その判定結果に基づいて、第１から第４の状態のいずれかに遷移するための制御情報１ｅが生成される。ずれ量Ｘがいずれの遷移条件にも該当しない場合は、現在の状態を維持するための制御情報１ｅが生成される。

以下に、遷移条件に基づく状態の遷移を、図５を参照して具体的に説明する。

遷移条件は第１から第４の遷移条件を含む。第１の遷移条件は、Ｘ＜第１の閾値である。第２の遷移条件は、第２の閾値≦Ｘ≦第３の閾値である。第３の遷移条件は、第４の閾値＜Ｘ≦第５の閾値である。第４の遷移条件は、Ｘ＜第５の閾値である。

第１の状態において、第１の遷移条件または第３の遷移条件を満たすか否かの判定が行われる。第１の遷移条件を満たす場合は、第１の状態から第２の状態へ遷移し、第３の遷移条件を満たす場合は、第１の状態から第２の状態へ遷移する。図５において、第１の状態から第２の状態への遷移は、実線の矢印で示されており、第１の状態から第３の状態への遷移は、破線の矢印で示されている。

第２の状態において、第２から第４の遷移条件のうちのいずれかの条件を満たすか否かの判定が行われる。第２の遷移条件を満たす場合は、第２の状態から第１の状態へ遷移し、第３の遷移条件を満たす場合は、第２の状態から第３の状態へ遷移し、第４の遷移条件を満たす場合は、第２の状態から第４の状態へ遷移する。図５において、第２の状態から第１の状態への遷移は、一点鎖線の矢印で示され、第２の状態から第３の状態への遷移は、破線の矢印で示され、第２の状態から第４の状態への遷移は、点線の矢印で示されている。

第３の状態において、第１、第２、第４の遷移条件のうちのいずれかの条件を満たすか否かの判定が行われる。第１の遷移条件を満たす場合は、第３の状態から第２の状態へ遷移し、第２の遷移条件を満たす場合は、第３の状態から第１の状態へ遷移し、第４の遷移条件を満たす場合は、第３の状態から第４の状態へ遷移する。図５において、第３の状態から第２の状態への遷移は、実線の矢印で示され、第３の状態から第１の状態への遷移は、一点鎖線の矢印で示され、第３の状態から第４の状態への遷移は、点線の矢印で示されている。

第４の状態において、第２の遷移条件を満たすか否かの判定が行われる。第２の遷移条件を満たす場合は、第４の状態から第１の状態へ遷移する。図５において、第４の状態から第１の状態への遷移は、一点鎖線の矢印で示されている。

以上の状態遷移によれば、第１の状態において、ずれ量Ｘが第１の閾値を下回った場合（音声が映像に対して遅れた場合）は、第２の状態に遷移する。第２の状態では、画像の更新が停止されるので、話速変換後の再生速度がさほど早くない場合は、ずれ量Ｘは徐々に増大する。第２の状態において、ずれ量Ｘが第２の閾値に達すると、第２の状態から第１の状態へ遷移する。

なお、第２の状態において、ずれ量Ｘが増大する度合いは、話速変換後の再生速度によって決まる。速変換後の再生速度が速い場合は、ずれ量Ｘが急激に増大する。この場合は、第３または第４の遷移条件の判定が行われる。第３の遷移条件を満たす場合は、第２の状態から第３の状態へ遷移し、第４の条件を満たす場合は第２の状態から第４の状態へ遷移する。

一方、第１の状態において、ずれ量Ｘが第４の閾値を超えた場合（映像が音声に対して遅れた場合）は、第１の状態から第３の状態に遷移する。第３の状態では、画像は最速で処理されるので、話速変換後の再生速度がさほど早くない場合は、ずれ量Ｘは徐々に減少する。第３の状態において、ずれ量Ｘが第３の閾値に達すると、第３の状態から第１の状態へ遷移する。

なお、第３の状態において、ずれ量Ｘが減少する度合いは、話速変換後の再生速度によって決まる。速変換後の再生速度が遅い場合は、ずれ量Ｘが急激に減少し、その場合は、第１の遷移条件の判定が行われる。第１の遷移条件を満たす場合は、第３の状態から第２の状態へ遷移する。また、速変換後の再生速度が速い場合は、画像を最速で処理してもずれ量Ｘが増大する場合がある。この場合は、第４の遷移条件の判定が行われる。第４の遷移条件を満たす場合は、第３の状態から第２の状態へ遷移する。

また、第１の状態において、速変換後の再生速度が速い場合には、ずれ量Ｘが急激に増大して、ずれ量Ｘが第５の閾値を超える場合がある。この場合は、第４の遷移条件の判定が行われる。第４の線条件を満たす場合は、第１の状態から第４の状態へ遷移する。

以上の状態遷移の動作では、第１の閾値が第２の閾値より小さくなるように設定されている。これは、以下の理由による。

例えば、第１の閾値を−１００ｍｓ、第２の閾値を−５０ｍｓと仮定する。この場合は、第１の状態において、ずれ量Ｘが−１００ｍｓを下回った場合に、第１の状態から第２の状態に遷移する。第２の状態において、ずれ量Ｘが徐々に増大して−５０ｍｓに達すると、第２の状態から第１の状態へ遷移する。

一方、第１および第２の閾値をともに−１００ｍｓに設定すると、第１の状態から第２の状態へ遷移した場合に、直ぐに、第２の状態から第１の状態へ遷移することになる。この第１の状態から第２の状態への遷移とその逆の遷移とが短時間に繰り返し実行されると、制御部（ＣＰＵ）に対する処理の負荷が増大することになる。

第３および第４の閾値についても、上記の第１および第２の閾値の関係と同じことが言える。

図１に示した同期制御部２０は、再生速度指定値１ｂが示す再生速度と、ＤｅＭｕｘ１０から供給された映像時間情報１ｄと、話速変換部４から供給された音声時間情報１ｃとに基づいて、上述したような第１から第４の状態のいずれかへの遷移を示す制御情報１ｅを生成する。

以上説明した本実施形態の映像再生装置によれば、一定時間毎（例えばフレーム毎）に、音声の再生位置と対応する映像データを映像バッファ１３ｂから読み出して再生するので、音声の早聞きや遅聞きの話速変換を行った場合で、短時間での音声の再生速度（例えば、フレーム毎の再生速度）が一定でない場合でも、映像と音声の再生の同期がずれることはない。よって、視聴者が快適に視聴することができる。

また、復号すべき映像データの映像時間情報（再生位置）と話速変換後の再生音声の音声時間情報（再生位置）との差に基づいて取得したずれ量が減少するように、映像バッファ１３ｂからの映像データの読み出し速度を制御するので、映像と音声の同期ずれをさらに抑制することができる。

加えて、音声データは常に出力されるので、音切れ等が発生せず、違和感なく視聴することができる（音声の再生をとめることが無いので、音切れが発生しない。）。

本実施形態の映像再生装置において、映像音声制御部１は、プログラムに従って動作するコンピュータ（ＣＰＵ：Central Processing unit）を用いて構成されてもよい。プログラムは、少なくとも、映像音声制御部１の処理や、映像デコーダ２、音声／オーディオデコーダ、および話速変換部４を制御する処理を、コンピュータに実行させることが可能なものである。プログラムは、記録媒体を用いて提供されてもよく、通信網（例えばインターネット）を介して提供されてもよい。

（第２の実施形態）
本実施形態の映像再生装置は、第１の実施形態の映像再生装置と同様の構成を有するが、同期制御部２０における制御情報１ｅの生成動作の一部が異なる。

図８に、制御情報１ｅを用いて指示される制御の状態遷移を示す。制御状態は、第１から第５の状態を含み、ずれ量に基づいて第１から第５の状態のいずれかが制御情報１ｅとして設定される。図８において、第１から第５の閾値は図７に示したものと同じである。

図９に、第１から第５の状態それぞれにおいて行われる処理を示す。図９において、第１から第４の状態については、第１の実施形態で説明したとおりである。本実施形態では、第５の状態が追加されている。

第４の状態は、映像が音声より遅延して再生されている状態であって、映像デコーダ２を最速で動かしても、映像の再生が音声の再生に追いつくことができないために、次のIntraフレームまでスキップする処理を行う。この第４の状態において、次のIntraフレームが時間的に相当離れていると、映像を次のIntraフレームまで進めると、再生した音声が再生した映像と合致しない場合がある。

上記のような状態を避けるために、第４の状態において、ある定められた時間内にIntraフレームが有るか否かを判定し、Intraフレームが無い場合は、第４の状態から第５の状態に遷移する。図８において、第４の状態から第５の状態への遷移は、二点鎖線の矢印で示されている。

第５の状態では、音声／オーディオデコーダ３を止めた状態にするために無音フレームを出力し、映像の再生処理を早めることで、映像の再生が音声の再生に追いつくようにする。

第５の状態において、第２の遷移条件（ずれ量Ｘが第２の閾値以上、第３の閾値以下である。）の判定を行う。第２の遷移条件を満たす場合は、第５の状態から第１の状態へ遷移する。図８において、第５の状態から第１の状態への遷移は、一点鎖線の矢印で示されている。

同期制御部２０は、再生速度指定値１ｂが示す再生速度と、ＤｅＭｕｘ１０から供給された映像時間情報１ｄと、話速変換部４から供給された音声時間情報１ｃとに基づいて、上述したような第１から第５の状態のいずれかへの遷移を示す制御情報１ｅを生成する。

本実施形態の映像再生装置によれば、第１の実施形態の場合と同様の効果を奏することに加え、以下のような効果も奏する。

第４の状態において、スキップすべきIntraフレームが時間的に相当離れている場合に、第５の状態へ遷移する。この処理において、映像の再生が音声の再生に追いつき、再生した音声が再生した映像と合致する。

本実施形態の映像再生装置においても、第１の実施形態と同様、映像音声制御部１は、プログラムに従って動作するコンピュータを用いて構成されてもよい。

（他の実施形態）
図１０は、本発明の他の実施形態である映像再生装置の構成を示すブロック図である。

本実施形態の映像再生装置は、映像データおよび音声データがそれぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけられて格納されたデータ格納手段１００と、音声データに基づく音を再生する音再生手段１０１と、音の再生位置を示す音声時間情報を取得する音声時間情報取得手段１０２と、音声時間情報取得手段１０２が取得した音声時間情報に対応する映像データをデータ格納手段１００から検索する映像検索手段１０３と、映像検索手段１０３が検索した映像データに基づく映像を再生する映像再生手段１０４と、を有する。

上記の映像再生装置において、音声時間情報取得手段１０２は、指定された再生速度で音を再生するための処理を実行し、該処理後の音の再生位置を示す時間情報を音声時間情報として映像検索手段１０３に供給する話速変換部を有してもよい。この場合、映像検索手段１０３が、データ格納手段１００から検索した映像データに基づく映像の再生位置を示す時間情報と、話速変換部から供給された音声時間情報とから、映像の再生と音の再生との間の時間的なずれ量を算出し、該ずれ量が減少するようにデータ格納手段１０からの映像データの読み出し速度を制御してもよい。

上記の場合、映像検索手段１０３が、ずれ量に基づいて、音声が映像よりも遅く再生されている状態であると判断した場合は、データ格納手段１００からの映像データの読み出しを停止してもよい。

また、映像検索手段１０３が、ずれ量に基づいて、音声が映像よりも速く再生されていると判断した場合は、データ格納手段１００からの映像データの読み出しの速度を早めてもよい。

さらに、映像検索手段１０３が、ずれ量に基づいて、音声が映像よりも速く再生されている状態であり、映像データの読み出しの速度を早めても映像の再生が音声の再生に追いつかないと判断した場合は、データ格納手段１００から読み出す映像データを、上記の対応する映像データから特定のフレームの映像データまでスキップしてもよい。

さらに、映像検索手段１０３が、ずれ量に基づいて、音声が映像よりも速く再生されている状態であり、映像データの読み出しの速度を早めても映像の再生が音声の再生に追いつかないと判断した場合で、対応する映像データと特定のフレームの映像データとの間の再生位置の差が所定時間を超える場合に、データ格納手段１００からの音声データの読み出しを停止して無音を示す音声データを音再生手段１０１に供給するとともに、データ格納手段１００からの映像データの読み出しの速度を早めてもよい。

本実施形態の映像再生装置において、データ格納手段１００は、図３に示した入力部１２およびバッファ１３に対応する。音再生手段１０１および映像再生手段１０４はそれぞれ、図１に示した音声／オーディオデコーダ３および映像デコーダ２に対応する。音声時間情報取得手段１０２は、図１に示した話速変換部４に対応する。映像検索手段１０３は、図３に示した制御部１１に対応する。

本実施形態の映像再生装置においても、第１の実施形態と同様の作用効果を奏する。

以上説明した本発明の映像再生装置は、映像および音声の同期再生が行われる映像機器全般に適用することができる。例えば、本発明の映像再生装置は、携帯電話機、スマートフォン、ゲーム機、タブレット端末、パーソナルコンピュータ（デスクトップ型やノート型を含む）などに適用することができる。

１００データ格納手段
１０１音再生手段
１０２音声時間情報取得手段
１０３映像検索手段
１０４映像再生手段

Claims

映像データおよび音声データがそれぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけられて格納されたデータ格納手段と、
前記音声データに基づく音を再生する音再生手段と、
前記音の前記再生位置を示す音声時間情報を取得する音声時間情報取得手段と、
前記音声時間情報取得手段が取得した前記音声時間情報に対応する映像データを前記データ格納手段から検索する映像検索手段と、
前記映像検索手段が検索した前記対応する映像データに基づく映像を再生する映像再生手段と、を有する、映像再生装置。
前記音声時間情報取得手段は、指定された再生速度で前記音を再生するための処理を実行し、該処理後の音の前記再生位置を示す時間情報を前記音声時間情報として前記映像検索手段に供給する話速変換部を有し、
前記映像検索手段は、前記データ格納手段から取得した前記映像データに基づく映像の前記再生位置を示す時間情報と、前記話速変換部から供給された前記音声時間情報とから、前記映像の再生と前記音の再生との間の時間的なずれ量を算出し、該ずれ量が減少するように前記データ格納手段からの前記映像データの読み出し速度を制御する、請求項１に記載の映像再生装置。
前記映像検索手段は、前記ずれ量に基づいて、前記音声が前記映像よりも遅く再生されている状態であると判断した場合は、前記データ格納手段からの前記映像データの読み出しを停止する、請求項２に記載の映像再生装置。
前記映像検索手段は、前記ずれ量に基づいて、前記音声が前記映像よりも速く再生されていると判断した場合は、前記データ格納手段からの前記映像データの読み出しの速度を早める、請求項２または３に記載の映像再生装置。
前記映像検索手段は、前記ずれ量に基づいて、前記音声が前記映像よりも速く再生されている状態であり、前記映像データの読み出しの速度を早めても前記映像の再生が前記音声の再生に追いつかないと判断した場合は、前記データ格納手段から読み出す映像データを、前記対応する映像データから特定のフレームの映像データまでスキップする、請求項２から４のいずれか１項に記載の映像再生装置。
前記映像検索手段は、前記ずれ量に基づいて、前記音声が前記映像よりも速く再生されている状態であり、前記映像データの読み出しの速度を早めても前記映像の再生が前記音声の再生に追いつかないと判断した場合で、前記対応する映像データと前記特定のフレームの映像データとの間の前記再生時間の差が所定時間を超える場合に、前記データ格納手段からの前記音声データの読み出しを停止して無音を示す音声データを前記音再生手段に供給するとともに、前記データ格納手段からの前記映像データの読み出しの速度を早める、請求項５に記載の映像再生装置。
データ格納手段が、映像データおよび音声データを、それぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけて格納し、
音再生手段が、前記音声データに基づく音を再生し、
音声時間情報取得手段が、前記音の前記再生位置を示す音声時間情報を取得し、
映像検索手段が、前記音声時間情報取得手段が取得した前記音声時間情報に対応する映像データを前記データ格納手段から取得し、
映像再生手段が、前記映像検索手段が取得した前記対応する映像データに基づく映像を再生する、映像再生方法。
映像データおよび音声データを、それぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけてデータ格納手段に格納させる処理と、
前記音声データに基づく音を再生する処理と、
前記音の前記再生位置を示す音声時間情報を取得する処理と、
前記取得した音声時間情報に対応する映像データを前記データ格納手段から取得する処理と、
前記対応する映像データに基づく映像を再生する処理と、をコンピュータに実行させるプログラム。