JP6349977B2

JP6349977B2 - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP6349977B2
Application number: JP2014115406A
Authority: JP
Inventors: 高橋　秀介; 秀介高橋; 井上　晃; 晃井上; 西口　正之; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-10-21
Filing date: 2014-06-04
Publication date: 2018-07-04
Anticipated expiration: 2034-06-04
Also published as: TW201532429A; CN105684085B; WO2015059891A1; US20210377582A1; KR20210014755A; KR102212926B1; US11115694B2; TWI695620B; RU2675192C2; KR20160074475A; RU2016114565A3; JP2015149705A; US20160269762A1; RU2016114565A; US10484728B2; US20200053402A1; CN110751963A; TW201907733A; EP3061094A1; KR102325743B1

Description

本技術は情報処理装置および方法、並びにプログラムに関し、特に、異なる経路で取得した複数のコンテンツを同期させることができるようにした情報処理装置および方法、並びにプログラムに関する。

近年、多機能型携帯電話機やタブレット型端末装置など、ネットワーク接続を前提とし、様々なメディアコンテンツを再生できる機器が増加してきている。さらに、従来から存在しているテレビジョン受像機なども含め、ネットワーク機能を用いた複数機器の連携による利活用が求められている。

例えば複数機器の連携では、以下に示す（Ａ１）乃至（Ａ４）などの時間同期関係を有する複数のメディアコンテンツを、放送やインターネットなどを通じて複数機器で受信し、それらのコンテンツを同期して再生するというアプリケーションプログラムが想定される。

（Ａ１）メインの映像・音声コンテンツに対する外国語音声コンテンツ、解説音声コンテンツ、クローズドキャプションと文字情報
（Ａ２）ある楽曲を楽器毎に演奏、撮影した複数の映像・音声コンテンツ
（Ａ３）１つのシーンを複数の角度から撮影した映像・音声コンテンツ
（Ａ４）メインの映像・音声コンテンツとその高解像版の映像・音声コンテンツ

このような複数のコンテンツは、再生時には同期が保たれた状態で再生させる必要がある。例えば、複数のコンテンツを同期させる技術として、異なる複数の撮影装置で同時刻に撮影された各コンテンツから特徴量を抽出し、それらの特徴量の類似度を計算することで、複数のコンテンツを同期させる技術が開示されている（例えば、特許文献１参照）。

特開２０１３−１７４７６５号公報

ところで、実際には、上記のようなメディアコンテンツを、複数の機器がそれぞれ異なる経路で受信しようとする場合、伝送遅延や、送出および受信の処理遅延、受信機器の動作クロックの違いなどの要因により、同期を保ってコンテンツを再生することが困難である。また、特許文献１に記載の技術では、同期をとって再生しようとするコンテンツ同士が類似した特徴を有していない場合には、それらのコンテンツの同期をとることができなかった。

本技術は、このような状況に鑑みてなされたものであり、異なる経路で取得した複数のコンテンツを同期させることができるようにするものである。

本技術の第１の側面の情報処理装置は、第１のコンテンツの音声信号から特徴量を抽出する特徴量計算部と、前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算部とを備え、前記同期計算部は、取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算部により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する。

前記特徴量計算部には、再生された前記第１のコンテンツの音声を収音することで得られた前記音声信号から前記特徴量を抽出させることができる。

情報処理装置には、前記第２のコンテンツと、前記第２のコンテンツに同期がとれた状態で前記第２のコンテンツに対応付けられている前記特徴量とを取得する第１の入力部をさらに設けることができる。

前記第２のコンテンツおよび前記特徴量は、前記第１のコンテンツとの到着時間差が考慮されたタイミングで前記情報処理装置に送信されるようにすることができる。

前記第１の入力部には、前記第２のコンテンツおよび前記特徴量の送信を要求させ、その要求に応じて送信されてきた前記第２のコンテンツおよび前記特徴量を受信させることができる。

情報処理装置には、前記第１のコンテンツの送信を要求し、その要求に応じて送信されてきた前記第１のコンテンツを受信する第２の入力部をさらに設けることができる。

前記特徴量計算部には、再生された１つの前記第１のコンテンツについて、前記音声信号から前記特徴量を抽出させ、前記同期計算部には、前記第２のコンテンツと対応付けられている複数の前記第１のコンテンツの前記特徴量のそれぞれと、前記特徴量計算部により抽出された前記特徴量とを比較することで、再生された前記第１のコンテンツを特定させ、特定された前記第１のコンテンツと前記第２のコンテンツを同期して再生するための前記音声特徴量に基づく同期補正情報を生成させることができる。

情報処理装置には、前記第２のコンテンツの再生を制御する再生処理部をさらに設けることができる。

前記再生処理部には、前記音声特徴量に基づく同期補正情報に基づいて前記第２のコンテンツの再生位置を補正させることができる。

情報処理装置には、前記第１のコンテンツの提示時刻情報を取得する取得部と、前記第１のコンテンツの前記提示時刻情報と、前記第２のコンテンツの前記提示時刻情報とを比較して、提示時刻情報に基づく同期補正情報を生成する比較部とをさらに設け、前記同期計算部には、取得された前記特徴量の系列のうちの前記提示時刻情報に基づく同期補正情報により示される範囲に含まれる前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較して前記音声特徴量に基づく同期補正情報を生成させることができる。

本技術の第１の側面の情報処理方法またはプログラムは、第１のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップとを含み、前記同期計算ステップにおいて、取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算ステップの処理により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する。

本技術の第１の側面においては、第１のコンテンツの音声信号から特徴量が抽出され、前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報が生成される。また、前記特徴量の比較時には、取得された前記特徴量と、抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または抽出された前記特徴量の少なくとも一方に対してフレームレート変換が行われてから前記特徴量が比較される。

本技術の第２の側面の情報処理装置は、第１のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算部と、前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する第１の出力部とを備える。

情報処理装置には、前記第１のコンテンツを出力する第２の出力部をさらに設けることができる。

前記第１の出力部には、前記第１のコンテンツとの到着時間差が考慮されたタイミングで前記第２のコンテンツおよび前記ダウンサンプルされた前記特徴量を出力させることができる。

前記第１の出力部には、前記第２のコンテンツおよび前記ダウンサンプルされた前記特徴量の送信が要求された場合、その要求に応じて前記第２のコンテンツおよび前記ダウンサンプルされた前記特徴量を出力させることができる。

前記第２の出力部には、前記第１のコンテンツの送信が要求された場合、その要求に応じて前記第１のコンテンツを出力させることができる。

前記特徴量計算部には、複数の前記第１のコンテンツについて、前記音声信号から前記特徴量を抽出させ、前記第１の出力部には、複数の前記第１のコンテンツの前記ダウンサンプルされた前記特徴量を前記第２のコンテンツに対応付けて出力させることができる。

本技術の第２の側面の情報処理方法またはプログラムは、第１のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算ステップと、前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する出力ステップとを含む。

本技術の第２の側面においては、第１のコンテンツの音声信号から特徴量が抽出され、抽出された前記特徴量がダウンサンプルされ、前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とが出力される。

本技術の第１の側面および第２の側面によれば、異なる経路で取得した複数のコンテンツを同期させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

提供装置の構成例を示す図である。音声同期用特徴量計算部の構成例を示す図である。音声同期用特徴量のダウンサンプルについて説明する図である。コンテンツ再生システムの構成例を示す図である。音声同期用特徴量計算部の構成例を示す図である。同期計算部の構成例を示す図である。音声同期用特徴量の同期計算について説明する図である。音声同期用特徴量の同期計算について説明する図である。音声同期用特徴量の同期計算について説明する図である。類似度の計算の対象とするブロックについて説明する図である。類似度の計算について説明する図である。送信処理を説明するフローチャートである。サブチャンネル信号と音声同期用特徴量の多重化について説明する図である。音声同期用特徴量算出処理を説明するフローチャートである。メインコンテンツ再生処理を説明するフローチャートである。サブコンテンツ再生処理を説明するフローチャートである。音声同期用特徴量算出処理を説明するフローチャートである。同期補正情報生成処理を説明するフローチャートである。本技術の適用例を示す図である。本技術の適用例を示す図である。本技術の適用例を示す図である。提供装置の構成例を示す図である。コンテンツ再生システムの構成例を示す図である。送信処理を説明するフローチャートである。メインコンテンツ再生処理を説明するフローチャートである。サブコンテンツ再生処理を説明するフローチャートである。同期補正情報生成処理を説明するフローチャートである。類似度の計算の対象とするブロックについて説明する図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術の特徴〉
まず、本技術の特徴について説明する。

本技術は、特に以下の特徴Ｂ１乃至特徴Ｂ６を有している。

（特徴Ｂ１）
本技術によれば、内容の異なる複数のメディアコンテンツを異なる伝送路経由で送信し、異なる複数の機器で受信する際に音声を使って自動同期を行う下記の構成を有する方法および装置を実現することができる。
（１）メディアコンテンツは映像、音声、画像、文字情報などを多重化したデータストリームとされている
（２）伝送対象とする複数メディアコンテンツは、上述した（Ａ１）乃至（Ａ４）に示した例のように時間同期関係を有する
（３）送出対象とする複数のメディアコンテンツのうちの少なくとも１つをメインチャンネル信号と定め、その音声信号から音声同期用特徴量を算出し、システムが規定する伝送フォーマットによりメインチャンネル信号からメイン送出信号を生成する
（４）残りの各メディアコンテンツ（サブチャンネル信号）とメインチャンネル信号の時間同期関係が符合するように、システムが規定する伝送フォーマットによりメインチャンネル信号の音声同期用特徴量とサブチャンネル信号の多重化処理を行い、サブ送出信号を生成する
（５）メイン送出信号を受信するメイン受信機器では、メインチャンネル信号の再生時において、その音声信号をスピーカなどにより出力する
（６）メインチャンネル信号の音声同期用特徴量を含むサブ送出信号を受信するサブ受信機器は、メイン受信機器がスピーカ出力したメインチャンネル信号の音声をマイクロホンなどにより収音して、音声同期用特徴量を計算し、受信したメインチャンネル信号の音声同期用特徴量との自動同期計算を行い、音声特徴量に基づく同期補正情報（時間差情報）を算出する
（７）上記音声特徴量に基づく同期補正情報に基づき、サブ受信機器は受信したサブチャンネル信号に対してメインチャンネル信号との同期補正処理を行い再生する

なお、上記の（１）のデータストリームの伝送としては、放送波、インターネットなどのネットワークにおけるメディアコンテンツの伝送を想定し、多重化データストリームが占有する論理伝送路を伝送路と呼ぶこととする。

また、上記にある「音声同期用特徴量の算出」と「自動同期計算」は、例えば特開２０１３−１７４７６５号公報に記載されている技術により実現される。なお、音声同期用特徴量を伝送前にダウンサンプルしたり、音声同期用特徴量を利用した自動同期計算時に、必要に応じて音声同期用特徴量のフレームレート変換を行うようにすることもできる。

このような技術を用いることにより、メインチャンネル信号の音声をサブ受信機器が収音する際に、雑音や騒音があるような悪環境であってもロバストに自動同期計算を行うことができる。なお、必ずしもこの技術を用いる必要はない。

（特徴Ｂ２）
上記の（特徴Ｂ１）において、送出側システムがメイン送出信号とサブ送出信号を各々メイン受信機器、サブ受信機器に対して一方的に送出する。

この場合、サブ送出信号はメイン送出信号に先んじて送出する必要がある。

（特徴Ｂ３）
上記の（特徴Ｂ１）において、送出側システムがメイン送出信号をメイン受信機器に対して一方的に送出し、サブ受信機器は自身のタイミングによりネットワーク経由などでサブ送出信号を取得して自動同期計算を行い、サブチャンネル信号の同期再生を行う。

この構成の利点としては、ネットワークの伝送遅延などを加味してサブ受信機器が自身の都合によりサブ送出信号の取得を制御できる。

（特徴Ｂ４）
上記の（特徴Ｂ１）において、メイン受信機器は、自身のタイミングによりネットワーク経由などでメイン送出信号を取得して、メインチャンネル信号の再生を行い、サブ受信機器も自身のタイミングによりネットワーク経由などでサブ送出信号を取得して自動同期計算を行い、サブチャンネル信号の同期再生を行う。

（特徴Ｂ５）
上記の（特徴Ｂ１）において、メインチャンネル信号の音声信号が複数系統ある。

例えば複数系統のメインチャンネル信号は、２か国語放送の主音声と副音声などとされる。全ての系統の音声信号に対して音声同期用特徴量が算出され、サブチャンネル信号と多重化されて送出される。サブ受信機器では、収音した音声と受信した全ての音声同期用特徴量との同期計算を行う際に、メインチャンネル信号のどの音声が再生されているかが判別される。メイン受信機器が出力する音声信号の切り替えも上記同期計算により検出される。

（特徴Ｂ６）
上記の（特徴Ｂ１）において、サブ受信機器における自動同期計算において「同期ずれ」を検出し、サブ受信機器側でリアルタイム補正処理を行う。

メイン受信機器とサブ受信機器は独立して動作するため、オーディオクロックが異なり同期ずれが発生する。そこで、その同期ずれを検出して補正することで、同期を保ったまま複数のコンテンツを再生することが可能となる。

〈提供装置の構成例〉
次に、本技術を適用した具体的な実施の形態について説明する。

まず、上述した（Ａ１）乃至（Ａ４）に示した例のように時間同期関係を有するコンテンツを提供する提供装置の構成例について説明する。

図１は、提供装置の構成例を示す図である。この提供装置１１には、主となるコンテンツ（以下、メインコンテンツと称する）を再生するための信号であるメインチャンネル信号と、メインコンテンツと内容的な関連性を有するコンテンツ（以下、サブコンテンツと称する）を再生するための信号であるサブチャンネル信号とが供給される。

ここで、メインコンテンツとサブコンテンツは、少なくとも映像と音声の何れかからなり、互いに時間同期関係を有するコンテンツである。つまり、再生時には、メインコンテンツとサブコンテンツが同期した状態で再生されることが望ましい。

なお、以下では、メインコンテンツおよびサブコンテンツは、それぞれ映像を再生する画像信号と、その画像信号に付随する音声信号とからなるものとして説明を続ける。したがって、この例ではメインチャンネル信号とサブチャンネル信号は、それぞれ画像信号と音声信号から構成されている。

提供装置１１は、変換部２１、出力部２２、音声同期用特徴量計算部２３、多重化処理部２４、および出力部２５を有している。

変換部２１は、供給されたメインチャンネル信号を、所定の放送規格などで定められたフォーマットに変換し、その結果得られたメイン送出信号を出力部２２に供給する。出力部２２は、変換部２１から供給されたメイン送出信号を、例えば放送波により送信したり、インターネットなどの通信網を介して送信したりする。

音声同期用特徴量計算部２３は、供給されたメインチャンネル信号を構成する音声信号から、音声同期用特徴量を抽出し、多重化処理部２４に供給する。ここで、音声同期用特徴量は、メインコンテンツとサブコンテンツとの再生時に、サブコンテンツをメインコンテンツに同期させて再生させるために用いられる特徴量である。

多重化処理部２４は、供給されたメインチャンネル信号を用いて、音声同期用特徴量計算部２３からの音声同期用特徴量と、供給されたサブチャンネル信号との時間同期関係を調整する。すなわち、提供装置１１では、予めメインチャンネル信号とサブチャンネル信号とは同期がとれた状態となっているので、多重化処理部２４は、メインチャンネル信号を用いて、時間同期関係において音声同期用特徴量とサブチャンネル信号とが同期した状態で、音声同期用特徴量をサブチャンネル信号に対応付ける。例えばMPEG-4 System において、オーディオ信号、ビデオ信号などはそれぞれ１つのメディアオブジェクト(ES(Elementary Stream))として扱われ、多重化される。ESを分割して得られるAccess Unit(AU)と呼ばれる最小単位毎に時間属性が定義されるので、音声同期用特徴量も時間属性情報を有する１つのメディアオブジェクトとして扱うことにより、サブチャンネル信号であるメディアオブジェクトと容易に多重化を行うことができる。

また、多重化処理部２４は、時間的に同期がとれた状態で音声同期用特徴量とサブチャンネル信号とを多重化した後、必要に応じてフォーマット変換を行って、その結果得られたサブ送出信号を出力部２５に供給する。

出力部２５は、多重化処理部２４から供給されたサブ送出信号を、例えば放送波により送信したり、インターネットなどの通信網を介して送信したりする。ここで、メイン送出信号とサブ送出信号とは、互いに異なる伝送路を介してコンテンツの再生側のシステムに送信される。

なお、図１の例では、提供装置１１は、１つの装置により構成されているが、提供装置１１が複数の装置により構成されてもよいし、各処理がクラウドコンピューティングにより実行されるようにしてもよい。

〈音声同期用特徴量計算部の構成例〉
また、図１に示した音声同期用特徴量計算部２３は、より詳細には例えば図２に示すように構成される。

音声同期用特徴量計算部２３は、周波数帯域分割部５１、周期性検出部５２−１乃至周期性検出部５２−４、周期性強度検出部５３−１乃至周期性強度検出部５３−４、周期性情報統合部５４、ピーク検出部５５、およびダウンサンプル部５６を有している。

周波数帯域分割部５１は、供給されたメインチャンネル信号を構成する音声信号を、窓関数を用いて数10msec乃至100msec程度の時間区間に分割する。

ここで、周波数帯域分割部５１からピーク検出部５５までの間で行われる処理は、１つの時間区間に対して行われる。このとき窓関数を適用する時間位置を数msec乃至100msec程度後にシフトさせることで時間方向に連続した複数の時間区間（時間フレーム）を得ることができる。これに対してダウンサンプル部５６では、連続した複数の時間区間の結果が１つに統合され、統合後の新たな時間区間に対する特徴量が算出される。

周波数帯域分割部５１は、複数のバンドパスフィルタを用いて、時間区間ごとの音声信号を４つの周波数帯域に分割し、各周波数帯域の音声信号を、周期性検出部５２−１乃至周期性検出部５２−４のそれぞれに供給する。

なお、バンドパスフィルタとしては、例えばオクターブバンドフィルタなどの、高い周波数ほど通過周波数帯域幅が広くなるフィルタを用いると効果的である。

周期性検出部５２−１乃至周期性検出部５２−４は、周波数帯域分割部５１から供給された所定の周波数帯域の時間区間ごとの音声信号の自己相関関数を計算することにより、時間区間ごとの周期性を表す周期性情報を抽出する。

なお、ここでは、周期性情報として、インデックスがｂである周波数帯域の、インデックスがτである時間遅れの音声信号の自己相関関数ｘ（ｂ，τ）そのものを用いるが、自己相関関数ｘ（ｂ，τ）をｘ（ｂ，０）で除算した値を用いることもできる。また、自己相関関数ｘ（ｂ，τ）の計算方法としては、所定の周波数帯域の音声信号に対して離散フーリエ変換を行うことにより得られるスペクトルのピークを用いた方法などを用いることができる。

周期性検出部５２−１乃至周期性検出部５２−４は、抽出された時間区間ごとの周期性情報を周期性強度検出部５３−１乃至周期性強度検出部５３−４と周期性情報統合部５４に供給する。なお、以下、周期性検出部５２−１乃至周期性検出部５２−４を特に区別する必要がない場合、単に周期性検出部５２と称することとする。

周期性強度検出部５３−１乃至周期性強度検出部５３−４は、周期性検出部５２−１乃至周期性検出部５２−４から供給される時間区間ごとの周期性情報に基づいて、時間区間ごとの周期性の強度を計算する。具体的には、τ＝０近傍以外のτにおける周期性情報である自己相関関数ｘ（ｂ，τ）の最大値が周期性の強度として計算される。この周期性の強度が大きいほど、処理対象の音声信号の周期性が強く、周期性の強度が小さいほど、処理対象の音声信号の周期性がノイズらしくなる。

周期性強度検出部５３−１乃至周期性強度検出部５３−４は、時間区間ごとの周期性の強度を、閾値を超えたか否かにより２値化し、時間区間ごとの周期性強度情報とする。すなわち、時間区間ごとに、周期性の強度が所定の閾値を超えた場合、周期性強度情報は１とされ、周期性の強度が所定の閾値以下である場合、周期性強度情報は０とされる。周期性強度検出部５３−１乃至周期性強度検出部５３−４は、時間区間ごとの周期性強度情報を周期性情報統合部５４に供給する。

なお、以下、周期性強度検出部５３−１乃至周期性強度検出部５３−４を特に区別する必要がない場合、単に周期性強度検出部５３とも称する。

周期性情報統合部５４は、周期性検出部５２から供給された時間区間ごとの周期性情報と、周期性強度検出部５３から供給された時間区間ごとの周期性強度情報とに基づいて、時間区間ごとの周期性情報を統合する周期性統合処理を行う。具体的には、周期性情報統合部５４は、次式（１）を用いて時間区間ごとに周期性情報である自己相関関数ｘ（ｂ，τ）の総和を求める。

なお、式（１）において、N_bは周波数帯域の総数を表し、p(b)は周期性強度情報を表す。また、N_pは周期性強度情報p(b)が１となる周波数帯域の数を表す。

周期性情報統合部５４は、周期性統合処理の結果得られる時間区間ごとの周期性情報の総和Ｓ（τ）をピーク検出部５５に供給する。

ピーク検出部５５は、時間区間ごとに、周期性情報統合部５４から供給された周期性情報の総和Ｓ（τ）に対してピーク検出を行い、ピーク位置τ_ｐの値が１となり、ピーク位置τ_ｐ以外の値が０となるピーク情報Ｐ（τ）を生成する。ピーク検出方法としては、例えば、周期性情報の総和Ｓ（τ）の微分値が正から負に変わるときのインデックスτを、ピーク位置τ_ｐとして検出する方法がある。

なお、ピーク検出部５５は、ピーク位置τ_ｐの周期性情報の総和Ｓ（τ_ｐ）が、所定の閾値より小さい場合、そのピーク位置τ_ｐのピーク情報Ｐ（τ_ｐ）を０とするようにしてもよい。これにより、ピーク情報Ｐ（τ_ｐ）のノイズを低減することができる。また、ピーク情報は、周期性情報の総和Ｓ（τ）そのものであってもよい。

ピーク検出部５５は、時間区間ごとのピーク情報Ｐ（τ）を、時間区間ごとの音声同期用特徴量の時系列データとしてダウンサンプル部５６に供給する。

ダウンサンプル部５６は、ピーク検出部５５から供給された複数の時間区間の音声同期用特徴量、つまり複数の時間区間のピーク情報Ｐ（τ）を新たな１つの時間区間の情報として統合し、最終的な音声同期用特徴量としてのピーク情報Ｐ’_ｉ（τ）を生成する。換言すれば、ダウンサンプル部５６は、ピーク情報Ｐ（τ）をダウンサンプルすることでピーク情報Ｐ’_ｉ（τ）を生成する。

なお、Ｐ’_ｉ（τ）においてτは時間遅れを示すインデックスであり、ｉは時間区間を示すインデックスである。ダウンサンプル部５６は、このようにして得られた時間区間ごとのピーク情報Ｐ’_ｉ（τ）を、時間区間ごとの音声同期用特徴量の時系列データとして多重化処理部２４に供給する。

ここで、図３を参照してピーク情報Ｐ’_ｉ（τ）の生成について説明する。なお、図３において、縦軸は時間遅れを示すインデックスτを示しており、横軸は時間、すなわち時間区間を示すインデックスｉを示している。

この例では図中、上側にはピーク情報Ｐ（τ）の系列が示されており、図中、下側にはピーク情報Ｐ’_ｉ（τ）の系列が示されている。特に、図３では時間遅れがτであり、インデックスｉにより特定される時間区間のピーク情報Ｐ（τ）がＰ_ｉ（τ）で表されている。また、各四角形は１つの時間区間のピーク情報を表している。特に、白色の四角形は、その四角形により表されるピーク情報が０であることを表しており、黒色の四角形は、その四角形により表されるピーク情報が１であることを表している。

図中、上側に示されるピーク情報Ｐ_ｉ（τ）の時間区間の長さは8msecとされている。つまり、ピーク情報Ｐ_ｉ（τ）は8msecの時間間隔で算出されている。そして、ここでは時間遅れτが同じであり、時間方向（時間区間方向）に隣接する４つのピーク情報Ｐ_ｉ（τ）が１つに統合され、１つのピーク情報Ｐ’_ｉ（τ）とされる。したがって、１つのピーク情報Ｐ’_ｉ（τ）の時間区間は32msecとなる。

例えばダウンサンプル部５６は、次式（２）を計算することでピーク情報Ｐ_ｉ（τ）を統合（ダウンサンプル）し、ピーク情報Ｐ’_ｉ（τ）とする。

この式（２）の計算では、統合される４つの連続するピーク情報Ｐ_ｉ（τ）のうち、１つでも値が「１」であるピーク情報Ｐ_ｉ（τ）がある場合、統合により得られたピーク情報Ｐ’_ｉ（τ）の値は「１」とされる。逆に、統合される４つの連続するピーク情報Ｐ_ｉ（τ）の値が全て「０」である場合に、統合により得られたピーク情報Ｐ’_ｉ（τ）の値は「０」とされる。

このように時間区間方向に連続して並ぶピーク情報Ｐ_ｉ（τ）の論理和を求めてダウンサンプルを行うことで、時間方向に並ぶピーク情報の系列に含まれているピーク位置に関する情報がダウンサンプルにより除去されてしまうことがなくなる。これにより、ダウンサンプル後においても、時間遅れ方向においてピーク位置に関する情報がどのように遷移していくかを保持することが可能となる。

例えば、ピーク情報Ｐ_ｉ（τ）をダウンサンプルする際に、単純に複数の時間区間のピーク情報Ｐ_ｉ（τ）のうちの１つのピーク情報Ｐ_ｉ（τ）の値を、ダウンサンプル後のピーク情報Ｐ’_ｉ（τ）の値として採用した場合、情報量が欠落し、同期計算の精度が低下する。つまり性能が劣化する。

具体的には、例えば４つの時間区間にわたってピーク位置が遷移している場合、単純にピーク情報Ｐ_ｉ（τ）を間引いてピーク情報Ｐ’_ｉ（τ）とすると、遷移途中の１つの時間区間のピーク情報Ｐ_ｉ（τ）のみが最終的な特徴量として採用され、ピーク位置が遷移した情報は失われてしまう。

一方、上述したようにダウンサンプルの際に複数の時間区間のピーク情報Ｐ_ｉ（τ）に基づいて適切な値をピーク情報Ｐ’_ｉ（τ）として出力する手法では、ダウンサンプル後の時間区間の中で遷移が発生しているという情報を、ダウンサンプル後の１時間区間内に保持することができる。結果として、ダウンサンプル処理を行っても検出性能を保持することができる。

しかも、このようなダウンサンプル処理を行うことで、音声同期用特徴量を伝送する際の伝送量を削減することができる。また計算済み音声同期用特徴量をメモリやストレージに保持する際に、必要な容量を削減することができる。

さらに、２つの音声同期用特徴量間の同期処理を行う際の演算量を削減することができる。同期処理は入力特徴量の長さがｎ倍になると、その演算量がｎ^２倍となるため、ダウンサンプル処理の効果は大きい。一方、単純に間引き処理を行っただけでは、同期の検出性能が劣化してしまうため、ダウンサンプル部５６によるダウンサンプル方法のように、必要な情報を保持したままでダウンサンプルを行う処理が必要となる。

なお、図３では、音声同期用特徴量としてのピーク情報を1/4にダウンサンプルする例について説明したが、1/2や1/8など、他のどのようなレートで変換（ダウンサンプル）することも可能である。

また、ピーク情報のダウンサンプルの際には、上述した式（２）の計算方法以外の方法を用いることもできる。

例えば、４つの時間区間のうちの２つの時間区間以上、ピーク情報Ｐ_ｉ（τ）の値が「１」である場合にダウンサンプル後のピーク情報Ｐ’_ｉ（τ）の値を「１」としてもよい。また、３つの時間区間以上、ピーク情報Ｐ_ｉ（τ）の値が「１」である場合にダウンサンプル後のピーク情報Ｐ’_ｉ（τ）の値を「１」としてもよいし、４つの全ての時間区間のピーク情報Ｐ_ｉ（τ）の値が「１」である場合にダウンサンプル後のピーク情報Ｐ’_ｉ（τ）の値を「１」としてもよい

さらに、ダウンサンプル前の４つの時間区間において２つの時間区間以上、連続してピーク情報Ｐ_ｉ（τ）の値が「１」である場合にダウンサンプル後のピーク情報Ｐ’_ｉ（τ）の値を「１」としてもよいし、３つの時間区間以上、連続してピーク情報Ｐ_ｉ（τ）の値が「１」である場合にダウンサンプル後のピーク情報Ｐ’_ｉ（τ）の値を「１」としてもよい。

また、以上においては時間軸方向（時間区間方向）にピーク情報Ｐ_ｉ（τ）をダウンサンプルする方法について説明したが、ピーク情報Ｐ_ｉ（τ）を時間遅れτ方向にダウンサンプルするようにしてもよい。

そのような場合、ダウンサンプル部５６は例えば次式（３）を計算することでピーク情報Ｐ_ｉ（τ）をダウンサンプルし、ピーク情報Ｐ’_ｉ（τ）とする。

式（３）の計算では、時間遅れτ方向に連続して並ぶ、同じ時間区間の４つのピーク情報Ｐ_ｉ（τ）が統合されて１つのピーク情報Ｐ’_ｉ（τ）とされる。

このとき、統合される４つの連続するピーク情報Ｐ_ｉ（τ）のうち、１つでも値が「１」であるピーク情報Ｐ_ｉ（τ）がある場合、統合により得られたピーク情報Ｐ’_ｉ（τ）の値は「１」とされる。逆に、統合される４つの連続するピーク情報Ｐ_ｉ（τ）の値が全て「０」である場合に、統合により得られたピーク情報Ｐ’_ｉ（τ）の値は「０」とされる。

さらに、ピーク情報Ｐ_ｉ（τ）を時間区間ｉ方向および時間遅れτ方向の両方向にダウンサンプルするようにしてもよい。

そのような場合、ダウンサンプル部５６は例えば次式（４）を計算することでピーク情報Ｐ_ｉ（τ）をダウンサンプルし、ピーク情報Ｐ’_ｉ（τ）とする。

式（４）の計算では、時間区間ｉ方向に連続して並ぶ、同じ時間遅れτの２つのピーク情報Ｐ_ｉ（τ）と、それらの２つのピーク情報Ｐ_ｉ（τ）に対して時間遅れτ方向に隣接して並ぶ２つのピーク情報Ｐ_ｉ（τ）とからなる合計４つのピーク情報Ｐ_ｉ（τ）が統合されて１つのピーク情報Ｐ’_ｉ（τ）とされる。

このとき、統合される４つのピーク情報Ｐ_ｉ（τ）のうち、１つでも値が「１」であるピーク情報Ｐ_ｉ（τ）がある場合、統合により得られたピーク情報Ｐ’_ｉ（τ）の値は「１」とされる。逆に、統合される４つのピーク情報Ｐ_ｉ（τ）の値が全て「０」である場合に、統合により得られたピーク情報Ｐ’_ｉ（τ）の値は「０」とされる。

以上のようにしてダウンサンプル部５６は、ピーク情報Ｐ（τ）をダウンサンプルしてピーク情報Ｐ’_ｉ（τ）を求めると、得られた新たな時間区間ごとのピーク情報Ｐ’_ｉ（τ）を、時間区間ごとの音声同期用特徴量の時系列データとして多重化処理部２４に供給する。

〈コンテンツ再生システムの構成例〉
次に、提供装置１１から送信されるメイン送出信号とサブ送出信号を、それぞれメイン受信信号およびサブ受信信号として受信してメインコンテンツとサブコンテンツを再生するコンテンツ再生システムの構成について説明する。このようなコンテンツ再生システムは、例えば図４に示すように構成される。

図４に示すコンテンツ再生システムは、メイン受信機器８１、表示部８２、スピーカ８３、マイクロホン８４、サブ受信機器８５、表示部８６、およびスピーカ８７を有している。なお、ここでは、コンテンツ再生システムが複数の装置から構成される場合を例として示しているが、コンテンツ再生システムは１つの装置から構成されるようにしてもよい。

メイン受信機器８１は、提供装置１１から送信されたメイン受信信号を受信し、メイン受信信号から得られるメインコンテンツの再生を制御する。

メイン受信機器８１は、入力部１１１および再生処理部１１２を備えている。

入力部１１１は、提供装置１１から送信されたメイン送出信号を、メイン受信信号として受信して再生処理部１１２に供給する。再生処理部１１２は、入力部１１１から供給されたメイン受信信号に含まれているメインコンテンツの画像信号と音声信号を抽出し、画像信号を表示部８２に供給して再生させるとともに、音声信号をスピーカ８３に供給して再生させる。すなわち、再生処理部１１２は、メインコンテンツの再生を制御する。

表示部８２は、例えば液晶表示装置などからなり、再生処理部１１２から供給された画像信号に基づいて、メインコンテンツの画像（映像）を表示させる。スピーカ８３は、音声再生装置であり、再生処理部１１２から供給された音声信号に基づいて、メインコンテンツの音声を出力する。

マイクロホン８４は、スピーカ８３から出力されたメインコンテンツの音声を収音し、その結果得られた音声信号をサブ受信機器８５に供給する。

サブ受信機器８５は、提供装置１１から送信されたサブ送出信号を、サブ受信信号として受信し、サブ受信信号から得られるサブコンテンツの再生を制御する。

サブ受信機器８５は、音声同期用特徴量計算部１２１、バッファ１２２、入力部１２３、分離処理部１２４、バッファ１２５、同期計算部１２６、および再生処理部１２７を備えている。

音声同期用特徴量計算部１２１は、マイクロホン８４から供給された音声信号から、音声同期用特徴量を算出し、バッファ１２２に供給する。バッファ１２２は、音声同期用特徴量計算部１２１から供給された音声同期用特徴量を一時的に記録する。

入力部１２３は、提供装置１１から送信されたサブ受信信号を受信して分離処理部１２４に供給する。分離処理部１２４は、入力部１２３から供給されたサブ受信信号を、音声同期用特徴量とサブチャンネル信号とに分離させて、バッファ１２５に供給する。バッファ１２５は、分離処理部１２４から供給された音声同期用特徴量とサブチャンネル信号を一時的に記録する。

同期計算部１２６は、バッファ１２２に記録されている音声同期用特徴量と、バッファ１２５に記録されている音声同期用特徴量とに基づいて、メインコンテンツとサブコンテンツとを同期させるための音声特徴量に基づく同期補正情報を生成し、再生処理部１２７に供給する。すなわち、同期計算部１２６は、収音して得られた音声信号から抽出した音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とのマッチング処理により、メインコンテンツとサブコンテンツとの再生時刻のずれを検出し、そのずれを示す音声特徴量に基づく同期補正情報を生成する。

再生処理部１２７は、同期計算部１２６から供給された同期補正情報に基づいて、バッファ１２５に記録されているサブチャンネル信号の再生タイミング（時刻）を補正し、サブチャンネル信号としての画像信号と音声信号を、それぞれ表示部８６およびスピーカ８７に供給する。すなわち、再生処理部１２７は、サブコンテンツの再生を制御する。例えばMPEG-4 Systemを用いて、音声同期用特徴量を１つのメディアオブジェクトとして扱い、サブチャンネル信号のメディアオブジェクトと同期および多重化している場合に、各メディアオブジェクトの最小単位であるAccess Unit(AU)にはそれぞれ時間属性が定義されているので、上記の同期補正情報からサブチャンネル信号のメディアオブジェクトの適切な再生タイミング(時刻)を算出することができる。

表示部８６は、例えば液晶表示装置などからなり、再生処理部１２７から供給された画像信号に基づいて、サブコンテンツの画像（映像）を表示させる。スピーカ８７は、音声再生装置であり、再生処理部１２７から供給された音声信号に基づいて、サブコンテンツの音声を出力する。

〈音声同期用特徴量計算部の構成例〉
また、図４に示した音声同期用特徴量計算部１２１は、より詳細には例えば図５に示すように構成される。

音声同期用特徴量計算部１２１は、周波数帯域分割部１５１、周期性検出部１５２−１乃至周期性検出部１５２−４、周期性強度検出部１５３−１乃至周期性強度検出部１５３−４、周期性情報統合部１５４、およびピーク検出部１５５を有している。

なお、これらの周波数帯域分割部１５１乃至ピーク検出部１５５は、図２に示した周波数帯域分割部５１乃至ピーク検出部５５と同様であるので、その説明は省略する。但し、周波数帯域分割部１５１と周波数帯域分割部５１とでは、窓関数のシフト時間を異なった値に設定することも可能である。例えばサブ受信機器８５の演算リソースが豊富な場合に、周波数帯域分割部１５１において、より短いシフト時間を用いることで、より細かい粒度での音声同期用特徴量の抽出が可能になる。

また、以下、周期性検出部１５２−１乃至周期性検出部１５２−４を特に区別する必要のない場合、単に周期性検出部１５２とも称し、周期性強度検出部１５３−１乃至周期性強度検出部１５３−４を特に区別する必要のない場合、周期性強度検出部１５３とも称する。

〈同期計算部の構成例〉
さらに、図４に示した同期計算部１２６は、より詳細には例えば図６に示すように構成される。

図６の同期計算部１２６は、フレームレート変換部１８１、フレームレート変換部１８２、ブロック統合部１８３、ブロック統合部１８４、類似度計算部１８５、および最適パス検索部１８６を有している。

フレームレート変換部１８１はバッファ１２２からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出し、音声同期用特徴量のフレームレートを変換してブロック統合部１８３に供給する。ここでいうフレームレートとは、音声同期用特徴量の時系列データにおける単位時間当たりの時間区間数、つまり時間区間の長さをいう。

フレームレート変換部１８２はバッファ１２５からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出し、音声同期用特徴量のフレームレートを変換してブロック統合部１８４に供給する。

バッファ１２２およびバッファ１２５にそれぞれ保持されている音声同期用特徴量はフレームレート、つまり時間区間の長さが異なる場合がある。

例えば提供装置１１から提供されるサブコンテンツ（サブ送出信号）の転送ビットレートを削減するため、サブ送出信号に含まれている音声同期用特徴量が低レートに設定されている一方で、マイクロホン８４で収音された音声から計算される音声同期用特徴量は、伝送の必要がないため高いレートに設定されている場合が考えられる。

このような場合、例えば図７に示すように、マイクロホン８４で収音された音声から計算される音声同期用特徴量をダウンサンプル部５６と同じ手法を用いてダウンサンプルすることが考えられる。なお、図７において各矢印Ｑ１１乃至矢印Ｑ１４に示される音声同期用特徴量としてのピーク情報の縦軸は時間遅れτを示しており、横軸は時間区間ｉを示している。また、１つの四角形は１つの時間区間におけるピーク情報を表している。

この例では、提供装置１１側では、矢印Ｑ１１に示すように音声同期用特徴量としてのピーク情報が求められた後、そのピーク情報がダウンサンプルされ、矢印Ｑ１２に示す、より時間区間が長いピーク情報とされてサブ受信機器８５へと伝送される。ここでは、8msecの時間区間のピーク情報が、32msecの時間区間のピーク情報へとフレームレート変換（ダウンサンプル）されている。

一方、サブ受信機器８５の音声同期用特徴量計算部１２１では、メイン受信機器８１で再生されたメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量が算出され、その結果、矢印Ｑ１３に示すピーク情報が音声同期用特徴量として得られる。ここでは矢印Ｑ１３に示すピーク情報は、8msecの時間区間ごとに算出されている。

このようにして音声同期用特徴量計算部１２１で得られた音声同期用特徴量と、提供装置１１から受信した音声同期用特徴量とでは時間区間の長さ、つまりフレームレートが異なる。そこで、フレームレート変換部１８１は、それらの音声同期用特徴量のフレームレートが一致するように、音声同期用特徴量計算部１２１で得られた音声同期用特徴量に対してフレームレート変換としてダウンサンプルを行い、矢印Ｑ１４に示す音声同期用特徴量としてのピーク情報を得る。矢印Ｑ１４に示す音声同期用特徴量は、32msecの時間区間のピーク情報となっている。

このようにしてフレームレート（時間区間の長さ）が揃えられた後、音声同期用特徴量が用いられて同期計算が行われる。このようにサブ受信機器８５側において音声同期用特徴量のダウンサンプルを行うことで、任意のフレームレート（ビットレート）に対応することができる。

また、サブ受信機器８５に伝送されてくる音声同期用特徴量は高レートであるが、マイクロホン８４で収音された音声から計算される音声同期用特徴量は低いレートになるケースもある。例えばサブ受信機器８５の演算リソースが潤沢ではなく、音声同期用特徴量の計算に必要な演算量を削減するために、フレームシフト量を大きくするケースなどである。

そのような場合、例えば図８の矢印Ｑ２１に示す、サブ送出信号に含まれている音声同期用特徴量のフレームレートがダウンサンプル部５６と同じ手法が用いられてフレームレート変換部１８２によってダウンサンプルされ、矢印Ｑ２２に示す音声同期用特徴量が得られる。なお、図８において各矢印Ｑ２１乃至矢印Ｑ２３に示される音声同期用特徴量としてのピーク情報の縦軸は時間遅れτを示しており、横軸は時間区間ｉを示している。また、１つの四角形は１つの時間区間におけるピーク情報を表している。

この例では、8msecの時間区間のピーク情報が、32msecの時間区間のピーク情報へとフレームレート変換（ダウンサンプル）されている。

また、サブ受信機器８５の音声同期用特徴量計算部１２１では、メイン受信機器８１で再生されたメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量が算出され、その結果、矢印Ｑ２３に示すピーク情報が音声同期用特徴量として得られる。ここでは矢印Ｑ２３に示すピーク情報は、32msecの時間区間ごとに算出されている。

このようにサブ送出信号に含まれている音声同期用特徴量をダウンサンプルして、サブ送出信号に含まれている音声同期用特徴量のフレームレートと、サブ受信機器８５で算出される音声同期用特徴量のフレームレートとを一致させるようにしてもよい。

さらに、上記説明ではよりフレームレートが高い音声同期用特徴量をダウンサンプルすることでフレームレートを一致させたが、よりフレームレートが低い音声同期用特徴量をアップサンプルすることでフレームレートを一致させてもよい。

そのような場合、例えば図９に示すようにサブ送出信号に含まれている音声同期用特徴量のフレームレートがフレームレート変換部１８２によってアップサンプルされる。なお、図９において各矢印Ｑ３１乃至矢印Ｑ３４に示される音声同期用特徴量としてのピーク情報の縦軸は時間遅れτを示しており、横軸は時間区間ｉを示している。また、１つの四角形は１つの時間区間におけるピーク情報を表している。

この例では、提供装置１１側では、矢印Ｑ３１に示すように音声同期用特徴量としてのピーク情報が求められた後、ダウンサンプルが行われて矢印Ｑ３２に示す、より時間区間が長いピーク情報とされてサブ受信機器８５へと伝送される。ここでは、8msecの時間区間のピーク情報が、32msecの時間区間のピーク情報へとフレームレート変換（ダウンサンプル）されている。

一方、サブ受信機器８５の音声同期用特徴量計算部１２１では、メイン受信機器８１で再生されたメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量が算出され、その結果、矢印Ｑ３３に示すピーク情報が音声同期用特徴量として得られる。ここでは矢印Ｑ３３に示すピーク情報は、8msecの時間区間ごとに算出されている。

この例では、音声同期用特徴量計算部１２１により算出された音声同期用特徴量と、提供装置１１から受信した音声同期用特徴量とではフレームレートが一致していない状態となっている。

そこで、フレームレート変換部１８２は、提供装置１１から受信した音声同期用特徴量としてのピーク情報をアップサンプルし、矢印Ｑ３４に示す8msecの時間区間のピーク情報を算出することで、同期計算に用いる音声同期用特徴量の時間同期の粒度を揃える。例えばフレームレート変換部１８２は、次式（５）を計算することで、ピーク情報をアップサンプルする。

式（５）の計算では、時間遅れτが同じであり、時間方向（時間区間方向）に隣接するアップサンプル後の４つのピーク情報Ｐｉ（τ）と同じ位置関係にあるアップサンプル前の１つのピーク情報Ｐ’ｉ（τ）の値が、そのままアップサンプル後の４つの各ピーク情報Ｐｉ（τ）の値とされている。

このように同期計算に用いる音声同期用特徴量を、より高いフレームレートに合わせて適宜アップサンプルすることで、疑似的に高分解能な同期精度を実現することができる。

さらに、サブ受信機器８５での演算リソース削減のため、サブ送出信号に含まれている音声同期用特徴量と、音声同期用特徴量計算部１２１で算出された音声同期用特徴量との両方をダウンサンプルすることも可能である。

以上のようにフレームレート変換部１８１およびフレームレート変換部１８２を有することで、異なるフレームレートの音声同期用特徴量間の同期を行うことができるようになる。また、演算リソースや伝送帯域などに応じて様々なフレームレートを指定できるようになり、システムの柔軟性を高めることができる。

図６の説明に戻り、ブロック統合部１８３は、フレームレート変換部１８１からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受け、連続した複数（例えば64個）の時間区間を１ブロックとして、ブロック単位で統合する。ブロック統合部１８３は、ブロック単位の音声同期用特徴量の時系列データを類似度計算部１８５に供給する。

ブロック統合部１８４は、フレームレート変換部１８２からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受け、連続した複数（例えば64個）の時間区間を１ブロックとして、ブロック単位で統合する。ブロック統合部１８４は、ブロック単位の音声同期用特徴量の時系列データを類似度計算部１８５に供給する。

なお、ブロックを構成する複数の時間区間は、連続していなくてもよい。例えば、複数の偶数番目の時間区間を１ブロックとしたり、複数の奇数番目の時間区間を１ブロックとしたりすることもできる。この場合、時間区間ごとの音声同期用特徴量の時系列データに対して間引き処理を行うことができるので、演算量を削減することができる。

類似度計算部１８５は、ブロック統合部１８３とブロック統合部１８４のそれぞれから供給されたブロック単位の音声同期用特徴量の時系列データ同士の類似度を計算し、各ブロック間の類似度を表す類似度マトリックスを生成する。類似度計算部１８５は、類似度マトリックスを最適パス検索部１８６に供給する。

最適パス検索部１８６は、類似度計算部１８５から供給された類似度マトリックスから最適な類似度のパスを検索し、そのパス上の類似度に対応する２つのブロックの時間差を表す情報を音声特徴量に基づく同期補正情報として生成する。そして、最適パス検索部１８６は、音声特徴量に基づく同期補正情報を再生処理部１２７に供給する。

以上のように、同期計算部１２６は、音声信号のピッチ情報に基づいて、音声特徴量に基づく同期補正情報を生成する。したがって、音声信号ごとに異なるノイズが含まれる場合などにおいても、ロバストに音声特徴量に基づく同期補正情報を生成することができる。

すなわち、人間は、周波数特性を有する複数の音を聞いた場合、共通成分として、同一の基本周波数を有する音、つまりピッチが同一である音を知覚することにより、ノイズ音が含まれている場合であっても、共通成分を容易に知覚することができる。本技術は、このことを考慮して、ピッチ情報に基づいて同期補正情報を生成することにより、ノイズ音に対してロバストに同期補正情報を生成する。

〈類似度の計算と最適な類似度のパスの検索について〉
ここで、類似度の計算と最適な類似度のパスの検索について説明する。

図１０は、類似度の計算の対象とするブロックを説明する図である。

なお、図１０においてｉは、音声同期用特徴量計算部１２１で得られた音声同期用特徴量のブロックのインデックスであり、ｊは、サブ受信信号に含まれている音声同期用特徴量のブロックのインデックスである。なお、より詳細には、これらの音声同期用特徴量は、適宜、フレームレート変換部１８１やフレームレート変換部１８２によりフレームレート変換されるが、ここでは説明を簡単にするため、フレームレート変換は行われないものとして類似度の計算についての説明を続ける。

また、X(i)は、音声同期用特徴量計算部１２１で得られた音声同期用特徴量のうちのインデックスｉのブロックの音声同期用特徴量の時系列データを表し、Y(j)は、サブ受信信号に含まれている音声同期用特徴量のうちのインデックスｊのブロックの音声同期用特徴量の時系列データを表す。

図１０に示すように、類似度の計算の対象は、ｎ個のX(i)のそれぞれと、ｍ個のY(j)のそれぞれとの、ｎ×ｍ個の組み合わせである。

図１１は、類似度の計算方法を説明する図である。

なお、図１１のマトリックスでは、横軸が、ブロック内の時間区間の先頭からの個数を表すブロック内時間区間番号を表し、縦軸がインデックスτを表している。また、白色の正方形は、対応するブロック内時間区間番号の時間区間のインデックスτの音声同期用特徴量の時系列データＰ（τ）が０であることを表し、黒色の正方形は、その時系列データＰ（τ）が１であることを表している。さらに、図１１の例では、ブロックを構成する時間区間の個数が４個であり、τが０乃至３であるものとする。

図１１に示すように、X(i)とY(j)の類似度を計算する場合、まず、X(i)とY(j)の論理積X(i)∩Y(j)が計算され、次に、X(i)とY(j)の論理和X(i)∪Y(j)が計算される。例えば、図１１に示すように、９個の０と７個の１からなるX(i)とY(j)の類似度を計算する場合、まず、１２個の０と４個の１からなる論理積X(i)∩Y(j)が計算され、６個の０と１０個の１からなる論理和X(i)∪Y(j)が計算される。

そして、次式（６）により、論理積X(i)∩Y(j)の１の数であるNumber（X(i)∩Y(j)）と論理和の１の数であるNumber（X(i)∪Y(j)）に基づいて、X(i)とY(j)の類似度A(i,j)が計算される。

図１１の例では、Number(X(i)∩Y(j))が４であり、Number（X(i)∪Y(j)）が１０であるので、類似度A(i,j)は０．４となる。

なお、音声同期用特徴量の時系列データとして、周期性情報の総和S(τ)を採用した場合には、類似度の計算方法としてコサイン距離を用いて類似度を計算する方法などを採用することができる。

また、類似度マトリックスは、例えば横軸がインデックスｊとされ、縦軸がインデックスｉとされた、インデックスｉとインデックスｊに対応する各点の類似度A(i,j)を示す情報である。

最適パス検索部１８６は、動的計画法を用いて、類似度マトリックス上のパスの類似度の積算値が最大となるパスを最適な類似度のパスとして検索する。最適パス検索部１８６は、最適な類似度のパス上の類似度に対応するインデックスの差分ｉ−ｊを、音声特徴量に基づく同期補正情報として生成する。

〈送信処理の説明〉
続いて、提供装置１１の動作について説明する。

提供装置１１は、互いに時間同期がとれているメインチャンネル信号とサブチャンネル信号が供給されると、送信処理を行って、メイン送出信号およびサブ送出信号を送信する。以下、図１２のフローチャートを参照して、提供装置１１による送信処理について説明する。

ステップＳ１１において、音声同期用特徴量計算部２３は、音声同期用特徴量算出処理を行って、供給されたメインチャンネル信号を構成する音声信号から、音声同期用特徴量を計算し、多重化処理部２４に供給する。

なお、音声同期用特徴量算出処理の詳細は後述する。

ステップＳ１２において、変換部２１は、供給されたメインチャンネル信号を、システムが規定する所定の伝送フォーマットの信号に変換することでメイン送出信号を生成し、得られたメイン送出信号を出力部２２に供給する。

ステップＳ１３において、出力部２２は、変換部２１から供給されたメイン送出信号を送信する。

ステップＳ１４において、多重化処理部２４は、音声同期用特徴量とサブチャンネル信号との多重化処理を行い、その結果得られたサブ送出信号を出力部２５に供給する。

例えば多重化処理部２４は、供給されたメインチャンネル信号を用いて、音声同期用特徴量計算部２３からの音声同期用特徴量と、供給されたサブチャンネル信号との時間同期関係が符合するように、システムが規定する伝送フォーマットにより音声同期用特徴量とサブチャンネル信号を多重化する。

これにより、例えば図１３に示すサブ送出信号が得られる。

図１３の例では、サブ送出信号としてのビットストリームにおける区間Ｔ１１と区間Ｔ１２には、それぞれ１フレーム分の画像信号、音声信号、および音声同期用特徴量が含まれている。

例えば、区間Ｔ１１に含まれる画像信号と音声信号は、１フレーム分のサブチャンネル信号であり、区間Ｔ１１に含まれる音声同期用特徴量は、そのサブチャンネル信号に時間的に対応するフレームのメインチャンネル信号から抽出された、音声同期用特徴量である。このように、サブ送出信号では、同じフレームのサブチャンネル信号と音声同期用特徴量とが対応付けられて多重化されており、サブ送出信号の受信側では、各フレームのサブチャンネル信号に対応付けられた音声同期用特徴量が特定できるようになされている。

図１２のフローチャートの説明に戻り、ステップＳ１５において、出力部２５は、多重化処理部２４から供給されたサブ送出信号を送信し、送信処理は終了する。

以上のようにして、提供装置１１は、メインチャンネル信号から得られた音声同期用特徴量と、サブチャンネル信号とを対応付けて多重化することでサブ送出信号を生成し、サブ送出信号とメイン送出信号を送信する。

このようにサブチャンネル信号に音声同期用特徴量を対応付けて送信することで、受信側においては、メインチャンネル信号とサブチャンネル信号を、異なる伝送路を介して複数の異なる機器で受信した場合においても、音声同期用特徴量を用いて、メインコンテンツとサブコンテンツを、同期を保って再生することができるようになる。

〈音声同期用特徴量算出処理の説明〉
次に、図１４のフローチャートを参照して、図１２のステップＳ１１の処理に対応する音声同期用特徴量算出処理について説明する。

ステップＳ４１において、周波数帯域分割部５１は、供給された音声信号を、窓関数を用いて、数10msec乃至100msec程度の時間区間に分割する。

ステップＳ４２において、周波数帯域分割部５１は、複数のバンドパスフィルタを用いて、時間区間ごとの音声信号を４つの周波数帯域に分割する。周波数帯域分割部５１は、各周波数帯域の音声信号を、周期性検出部５２−１乃至周期性検出部５２−４のそれぞれに供給する。

ステップＳ４３において、周期性検出部５２は、周波数帯域分割部５１から供給された所定の周波数帯域の時間区間ごとの音声信号の自己相関関数ｘ（ｂ，τ）を計算することにより、時間区間ごとの周期性情報を抽出し、周期性強度検出部５３および周期性情報統合部５４に供給する。なお、ステップＳ４３の処理は、周期性検出部５２ごとに行われる。

ステップＳ４４において、周期性強度検出部５３は、周期性検出部５２から供給された時間区間ごとの周期性情報に基づいて、時間区間ごとの周期性の強度を計算する。そして、周期性強度検出部５３は、時間区間ごとの周期性の強度を、閾値を超えたかどうかで２値化することにより、時間区間ごとの周期性強度情報を生成し、周期性情報統合部５４に供給する。なお、ステップＳ４４の処理は、周期性強度検出部５３ごとに行われる。

ステップＳ４５において、周期性情報統合部５４は、周期性検出部５２から供給された時間区間ごとの周期性情報と、周期性強度検出部５３から供給される時間区間ごとの周期性強度情報とに基づいて、上述した式（１）を用いて周期性統合処理を行う。周期性情報統合部５４は、周期性統合処理の結果得られる時間区間ごとの周期性情報の総和Ｓ（τ）をピーク検出部５５に供給する。

ステップＳ４６において、ピーク検出部５５は、時間区間ごとに、周期性情報統合部５４から供給された周期性情報の総和Ｓ（τ）に対してピーク検出を行い、ピーク情報Ｐ（τ）を生成し、ダウンサンプル部５６に供給する。

ステップＳ４７において、ダウンサンプル部５６は、ピーク検出部５５から供給された複数の時間区間におけるピーク情報Ｐ（τ）を１つの時間区間に統合することで、ピーク情報のダウンサンプル処理を行う。

ダウンサンプル部５６は、このようにして得られた時間区間ごとのピーク情報を、時間区間ごとの音声同期用特徴量の時系列データとして多重化処理部２４に供給し、音声同期用特徴量算出処理は終了する。音声同期用特徴量算出処理が終了すると、その後、処理は図１２のステップＳ１２へと進む。

音声同期用特徴量計算部２３では、以上のようにして周期性情報に基づいて音声同期用特徴量を算出するので、音声同期用特徴量をロバストに生成することができる。

〈メインコンテンツ再生処理の説明〉
また、提供装置１１からメイン送出信号が送信されると、コンテンツ再生システムは、そのメイン送出信号を、メイン受信信号として取得して、メインコンテンツを再生する。以下、図１５のフローチャートを参照して、コンテンツ再生システムによるメインコンテンツ再生処理について説明する。

ステップＳ７１において、入力部１１１は、メイン受信信号を取得して再生処理部１１２に供給する。例えば入力部１１１は、提供装置１１から送信されたメイン受信信号を受信することで、メイン受信信号を取得する。

ステップＳ７２において、再生処理部１１２は、入力部１１１から供給されたメイン受信信号に基づいてメインコンテンツを再生させ、メインコンテンツ再生処理は終了する。

例えば、再生処理部１１２は、メイン受信信号から、メインコンテンツの画像信号と音声信号を抽出し、画像信号を表示部８２に供給して再生させるとともに、音声信号をスピーカ８３に供給して再生させる。これにより、メインコンテンツが再生される。

以上のようにして、コンテンツ再生システムは、メイン受信信号を取得してメインコンテンツを再生する。

〈サブコンテンツ再生処理の説明〉
また、メインコンテンツの再生と同期して、コンテンツ再生システムは、サブ受信信号を取得して、サブコンテンツを再生する。以下、図１６のフローチャートを参照して、コンテンツ再生システムによるサブコンテンツ再生処理について説明する。

ステップＳ１０１において、入力部１２３は、サブ受信信号を取得して分離処理部１２４に供給する。例えば入力部１２３は、提供装置１１から送信されたサブ送出信号を、サブ受信信号として受信することで、サブ受信信号を取得する。

ステップＳ１０２において、分離処理部１２４は、入力部１２３から供給されたサブ受信信号を、サブチャンネル信号と音声同期用特徴量とに分離させ、分離されたサブチャンネル信号と音声同期用特徴量をバッファ１２５に供給して記録させる。

ステップＳ１０３において、マイクロホン８４は、スピーカ８３から出力されたメインコンテンツの音声を収音し、その結果得られた音声信号を音声同期用特徴量計算部１２１に供給する。例えばステップＳ１０３では、図１５のステップＳ７２の処理で再生されたメインコンテンツの音声が収音される。

ステップＳ１０４において、音声同期用特徴量計算部１２１は、音声同期用特徴量算出処理を行って、マイクロホン８４から供給された音声信号から音声同期用特徴量を計算し、バッファ１２２に供給して記録させる。

なお、音声同期用特徴量算出処理として、図１７のフローチャートに示すステップＳ１３１乃至ステップＳ１３６の処理が行われるが、これらの処理は図１４のステップＳ４１乃至ステップＳ４６の処理と同様であるので、その説明は省略する。但し、図１７に示す音声同期用特徴量算出処理では、マイクロホン８４から供給された音声信号から音声同期用特徴量が計算され、バッファ１２２に蓄積される。また、音声同期用特徴量計算部１２１では、ピーク検出部１５５で得られたピーク情報が音声同期用特徴量とされる。

図１６のフローチャートの説明に戻り、ステップＳ１０５において、同期計算部１２６は、同期補正情報生成処理を行って、音声特徴量に基づく同期補正情報を生成し、再生処理部１２７に供給する。なお、同期補正情報生成処理の詳細は後述するが、この処理では、バッファ１２２に記録されている音声同期用特徴量と、バッファ１２５に記録されている音声同期用特徴量とを比較することで、メインコンテンツとサブコンテンツとを同期させるための音声特徴量に基づく同期補正情報が生成される。

ステップＳ１０６において、再生処理部１２７は、同期計算部１２６から供給された音声特徴量に基づく同期補正情報に基づいて、バッファ１２５に記録されているサブチャンネル信号の再生タイミングを補正し、補正後のサブチャンネル信号に基づいてサブコンテンツを再生させる。

すなわち、再生処理部１２７は、サブチャンネル信号を構成する画像信号と音声信号を、音声特徴量に基づく同期補正情報により示される時間だけ遅くまたは早く表示部８６とスピーカ８７に供給し、再生させる。換言すれば、音声特徴量に基づく同期補正情報から特定される、現在時刻において再生されているメインコンテンツの部分と対応する再生時刻のサブコンテンツの部分が再生される。

例えば、サブコンテンツをメインコンテンツと同期させるための再生位置の調整（補正）は、サブコンテンツやメインコンテンツの無音区間で行われる。

表示部８６は、再生処理部１２７から供給された画像信号に基づいて、サブコンテンツの画像を表示し、スピーカ８７は、再生処理部１２７から供給された音声信号に基づいて、サブコンテンツの音声を出力する。

このようにして、メインコンテンツと同期してサブコンテンツが再生されると、サブコンテンツ再生処理は終了する。

以上のようにして、コンテンツ再生システムは、再生されているメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量を計算し、得られた音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基く同期補正情報を計算する。また、コンテンツ再生システムは、得られた同期補正情報を用いてサブコンテンツを、メインコンテンツと同期させて再生する。

このように、収音して得られた音声信号から抽出された音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基づく同期補正情報を計算することで、メインコンテンツとサブコンテンツとの伝送経路が異なる場合であっても、それらのコンテンツを同期して再生することができる。

なお、この例では、音声同期用特徴量の同期計算、つまりマッチング処理は、毎フレーム行われるが、音声同期用特徴量の同期計算は、必ずしも時間的に連続して行われる必要はなく、間欠的に行われるようにしてもよい。但し、同期計算を連続的に行った方がサブコンテンツの再生時刻（再生位置）の補正時に、違和感なく補正を行うことができる。

〈同期補正情報生成処理の説明〉
さらに、図１８のフローチャートを参照して、図１６のステップＳ１０５の処理に対応する同期補正情報生成処理について説明する。

ステップＳ１６１において、フレームレート変換部１８１およびフレームレート変換部１８２は、必要に応じてフレームレート変換処理を行う。

すなわち、フレームレート変換部１８１は、バッファ１２２からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出して、必要に応じて音声同期用特徴量をフレームレート変換、つまりダウンサンプルし、ブロック統合部１８３に供給する。また、フレームレート変換部１８２は、バッファ１２５からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出して、必要に応じて音声同期用特徴量をフレームレート変換、つまりダウンサンプルまたはアップサンプルし、ブロック統合部１８４に供給する。

ステップＳ１６２において、ブロック統合部１８３およびブロック統合部１８４は、音声同期用特徴量の時系列データを統合する。

具体的には、ブロック統合部１８３は、フレームレート変換部１８１からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受ける。そして、ブロック統合部１８３は、連続した複数（例えば64個）の時間区間を１ブロックとして、ブロック単位で、供給された時間区間ごとの音声同期用特徴量の時系列データを統合し、類似度計算部１８５に供給する。

また、ブロック統合部１８４は、フレームレート変換部１８２からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受ける。そして、ブロック統合部１８４は、連続した複数（例えば64個）の時間区間を１ブロックとして、ブロック単位で、供給された時間区間ごとの音声同期用特徴量の時系列データを統合し、類似度計算部１８５に供給する。

ステップＳ１６３において、類似度計算部１８５は、ブロック統合部１８３とブロック統合部１８４のそれぞれから供給されたブロック単位の音声同期用特徴量の時系列データ同士の類似度を計算し、各ブロック間の類似度を表す類似度マトリックスを生成する。類似度計算部１８５は、類似度マトリックスを最適パス検索部１８６に供給する。

ステップＳ１６４において、最適パス検索部１８６は、類似度計算部１８５から供給された類似度マトリックスから最適な類似度のパスを検索し、音声特徴量に基づく同期補正情報を生成する。そして、最適パス検索部１８６は、音声特徴量に基づく同期補正情報を再生処理部１２７に供給して、同期補正情報生成処理は終了する。

以上のようにして、コンテンツ再生システムは、周期性情報に基づいて音声特徴量に基づく同期補正情報を生成するので、同期補正情報をロバストに生成することができる。

なお、以上においては、メインコンテンツが１つである場合について説明したが、メインコンテンツが複数あってもよい。

そのような場合、提供装置１１の音声同期用特徴量計算部２３は、複数のメインコンテンツごとに音声同期用特徴量を計算し、多重化処理部２４は、１つのサブコンテンツのサブチャンネル信号と、複数のメインコンテンツの音声同期用特徴量とを多重化し、サブ送出信号とする。また、出力部２２は、複数のメインコンテンツのメインチャンネル信号から得られたメイン送出信号を送信する。

さらに、この場合、図４に示したコンテンツ再生システムでは、再生処理部１１２は、複数のメインコンテンツのうちの１つを選択して再生する。また、入力部１２３は、１つのサブチャンネル信号に対して、複数のメインコンテンツの音声同期用特徴量が対応付けられているサブ受信信号を受信する。

そして、同期計算部１２６は、入力部１２３で取得された各メインコンテンツの音声同期用特徴量と、音声同期用特徴量計算部１２１で得られた音声同期用特徴量とを比較して類似度を計算し、スピーカ８３で再生されているメインコンテンツを特定する。例えば、音声同期用特徴量とのマッチングの結果、最も類似度の高い音声同期用特徴量のメインコンテンツが、再生されているメインコンテンツであるとされる。

再生されているメインコンテンツが特定されると、特定されたメインコンテンツの音声同期用特徴量について得られた同期補正情報に基づいて、サブコンテンツの再生位置が補正される。すなわち、同期計算部１２６は、特定されたメインコンテンツと、サブコンテンツとを同期させるための音声特徴量に基づく同期補正情報を生成する。

〈本技術の適用例１〉
また、以上において説明した本技術は、様々な形態のシステムに適用することができる。

例えば、本技術は図１９に示すシステムに適用可能である。

図１９に示すシステムでは、例えば放送局などの提供装置２１１が、図１の提供装置１１に対応する。提供装置２１１は、メインコンテンツとサブコンテンツとを提供する。

この例では、提供装置２１１は、メインコンテンツのメイン送出信号を、例えば放送波により放送することで、メイン受信機器２１２にメイン送出信号を送信する。そして、メイン受信機器２１２は、放送波により送信されたメイン送出信号を、メイン受信信号として受信してメインコンテンツを再生する。このとき、メイン受信機器２１２は、メインコンテンツの音声を、メイン受信機器２１２に備えられたスピーカ２１３から出力する。

したがって、この例ではメイン受信機器２１２は、図４に示したメイン受信機器８１、表示部８２、およびスピーカ８３から構成されることになる。この場合、入力部１１１が、放送波により放送されたメイン受信信号を受信する。また、スピーカ２１３が、図４のスピーカ８３に対応することになる。

例えば、メイン受信機器２１２は、テレビジョン受像機などとされ、ユーザはメイン受信機器２１２で再生されるメインコンテンツを視聴する。

一方、提供装置２１１からは、サブ送出信号も送信される。この例では提供装置２１１はサブ送出信号を、例えばインターネットなどの通信網２１４を介して、ストリーミング配信等によりサブ受信機器２１５に送信する。ここでは、サブ送信信号は、いわゆるプッシュ型の通信により送信される。

また、サブ受信機器２１５は、例えばタブレット型の端末装置などからなり、通信網２１４を介して送信されてきたサブ送信信号を、サブ受信信号として受信して、サブコンテンツを再生する。すなわち、サブ受信機器２１５は、内蔵する表示部にサブコンテンツの画像を表示させるとともに、内蔵するスピーカからサブコンテンツの音声を出力させる。

このとき、サブ受信機器２１５は、スピーカ２１３から出力されたメインコンテンツの音声を収音して音声同期用特徴量を計算し、得られた音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基づく同期補正情報を生成する。そして、サブ受信機器２１５は、音声特徴量に基づく同期補正情報を用いてサブコンテンツを、メインコンテンツと同期させて再生させる。

これにより、メイン受信機器２１２で再生されるメインコンテンツと、サブ受信機器２１５で再生されるサブコンテンツとが同期した状態で再生されることになり、ユーザは、適宜、サブコンテンツを見聞きしながら、メインコンテンツを視聴することができる。つまり、サブコンテンツを、例えばメインコンテンツの補助情報として活用しながら、メインコンテンツを楽しむことができる。

この例では、サブコンテンツのサブチャンネル信号は、例えばメインコンテンツの映像とは別アングルの映像の画像信号や、メインコンテンツに対するコメンタリー音声の音声信号、メインコンテンツに関連する文字情報などとされる。

この場合、サブ受信機器２１５は、例えば図４に示したマイクロホン８４、サブ受信機器８５、表示部８６、およびスピーカ８７から構成されることになる。したがって、入力部１２３は、通信網２１４を介して送信されてきたサブ送信信号を、サブ受信信号として受信することになる。

以上のように、図１９の例では、プッシュ型の通信で、互いに異なる伝送経路で送信されたメインコンテンツとサブコンテンツを、受信側において簡単かつ高精度に同期させて再生することができる。なお、この例では、サブ送出信号は、メイン送出信号に先んじて送出される必要がある。すなわち、メイン送出信号のメイン受信機器２１２への到着時刻と、サブ送出信号のサブ受信機器２１５への到着時刻の差（到着時間差）を考慮した時間差で、メイン送出信号とサブ送出信号の送信が行われる必要がある。

〈本技術の適用例２〉
また、本技術は、例えば図２０に示すシステムにも適用可能である。なお、図２０において、図１９における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

図２０の例では、図１９の例と同様に、提供装置２１１から放送波により、つまりプッシュ型の通信によりメイン送出信号がメイン受信機器２１２に送信される。

これに対して、サブ送出信号は、サーバ２４１により通信網２１４を介してサブ受信機器２１５に送信される。なお、サーバ２４１は、何らかの方法により、予めサブ送出信号を提供装置２１１等から取得して記録している。

この例では、サブ送出信号は、いわゆるプル型の通信により送信される。したがって、サーバ２４１は、サブ受信機器２１５からサブ送出信号の送信要求があったとき、通信網２１４を介して、サブ送出信号をサブ受信機器２１５に送信する。

すなわち、サブ受信機器２１５に対応する図４のサブ受信機器８５の入力部１２３は、サーバ２４１にサブ送出信号の送信要求を送信するとともに、その送信要求に応じてサーバ２４１から送信されてきたサブ送出信号を、サブ受信信号として受信する。

この場合、サブ受信機器２１５は、メインコンテンツの放送前に予めサブ送出信号を受信して記録しておくことができる。したがって、予めサブ送出信号を受信して記録しておけば、メインコンテンツの放送時に、通信網２１４の状態等によってサブコンテンツをメインコンテンツと同期して再生させることができないなどの事態を防止することができる。

サブ受信機器２１５は、メイン受信機器２１２でのメインコンテンツの再生が開始されると、スピーカ２１３から出力されたメインコンテンツの音声を収音して音声同期用特徴量を計算する。そして、サブ受信機器２１５は、得られた音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基づく同期補正情報を生成し、同期補正情報を用いてサブコンテンツを、メインコンテンツと同期させて再生させる。

このように図２０の例では、サブ受信機器２１５が自身に都合のよいタイミングでサブ受信信号を取得することができる。

〈本技術の適用例３〉
また、本技術は、例えば図２１に示すシステムにも適用可能である。なお、図２１において、図２０における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

図２１の例では、メインコンテンツ、つまりメイン送出信号は、サーバ２４１とは異なるサーバ２７１により提供される。すなわち、サーバ２７１はメイン受信機器２１２から要求があったとき、通信網２７２を介して、記録しているメイン送出信号をメイン受信機器２１２に送信する。つまり、この例ではメイン送出信号はプル型の通信により送信される。

具体的には、メイン受信機器２１２に対応する図４のメイン受信機器８１の入力部１１１は、サーバ２７１にメイン送出信号の送信要求を送信するとともに、その送信要求に応じてサーバ２７１から送信されてきたメイン送出信号を、メイン受信信号として受信する。

この場合、メイン受信機器２１２は、予めメイン送出信号を受信して記録しておくことができる。したがって、予めメイン送出信号を受信して記録しておけば、メインコンテンツの再生時に通信網２７２の状態等によってメインコンテンツの再生が途中で途切れたり、停止したりするなどの事態を防止することができる。

また、サブ送出信号は図２０の例と同様に、サーバ２４１によってプル型の通信により送信される。

このように図２１の例では、メイン受信機器２１２とサブ受信機器２１５が、それぞれ自身に都合のよいタイミングでメイン受信信号とサブ受信信号を取得することができる。

なお、仮に通信網２７２が通信網２１４と同一の通信網であったとしても、メイン送信信号とサブ送信信号の送信タイミングや受信する機器等が異なれば、通常、これらのメイン送信信号とサブ送信信号の伝送経路は異なる経路となる。

〈第２の実施の形態〉
〈本技術の特徴〉
ところで、上述した（Ａ１）乃至（Ａ４）に示した例のように時間同期関係を有する複数のメディアコンテンツを、放送やIP（Internet Protocol）網などを通じて複数機器で受信し、受信したメディアコンテンツを同期して再生するというアプリケーションプログラムが想定される。

このような機能性の実現のために、Hybridcastのように放送でコンテンツを配信すると同時に、IP網により個別に追加コンテンツを配信し、コンテンツ受信機では、放送により配信されたコンテンツと、IP網により配信された追加コンテンツを時間的に同期させて同時に出力するという放送通信連携サービスに向けたシステムの研究開発がされている。

例えば、Hybridcastについては「松村欣司、鹿喰善明、Michael J Evans，「インターネット配信情報との連動による放送番組パーソナライズシステムの検討」、映像情報メディア学会年次大会講演予稿集、２００９年８月２６日、ｐ．３−８」（以下、非特許文献１とも称する）に記載されている。

また、「日本放送協会，「HybridcastTMの概要と技術」，NHK技研R&D，no.124, p.10-17, 2010年11月，日本放送出版協会,http://www.nhk.or.jp/strl/publica/rd/rd124/PDF/P10-17.pdf」（以下、非特許文献２とも称する）や、「日本放送協会，「HybridcastTMを支える技術」，NHK技研R&D，no.133, p.20-27, 2012年5月，日本放送出版協会,http://www.nhk.or.jp/strl/publica/rd/rd133/PDF/P20-27.pdf」（以下、非特許文献３とも称する）などにもHybridcastについて記載されている。

Hybridcastでは、放送ストリームの基準クロック（PCR（Program Clock Reference））に基づく提示時間情報（PTS（Presentation Time Stamp））を付加した追加コンテンツを放送コンテンツの送出と同時、あるいは少し先んじてストリーミング配信し、受信機で、通信コンテンツの遅延と変動を吸収するために十分な量のバッファを持ち、放送コンテンツを遅らせ、両者のタイムスタンプを比較することで同期をとることを基本原理としている。

例えば、非特許文献２によれば、両受信機が同一機器内にある試作環境において１映像フレーム内（33ms）程度の精度で同期がとれることが確認できている。

追加コンテンツを受信する機器は、IP網に無線接続されるスマートホンやタブレット型のパーソナルコンピュータといった放送コンテンツの受信機と独立な機器でもよい。そのような場合には、放送コンテンツ受信機は、追加コンテンツを受信する機器に対して、提示時刻情報（タイムスタンプ）を提供する必要がある。これは通常IP網を介して連携される。

また、放送でなくともIP網などのネットワーク経由のみで複数コンテンツを配信して、協定世界時（UTC（Coordinated Universal Time））を基準クロックとしてタイムスタンプを付加し、受信機側で同期を行い、出力するシステムの実現も容易に想像できる。

実際、上記のような放送通信連携サービスを独立した受信機で利用する場合、タイムスタンプの比較による方法では、以下の２つの要因により厳密な同期をとることが困難である。

まず、第１に、放送コンテンツ受信機と追加コンテンツ受信機は独立した電子機器である以上、システムクロックに差異があり、時間の経過とともに同期ずれが発生する。

また、第２に、ユーザはテレビジョン受像機などの放送コンテンツ受信機からある程度距離をおき、スマートホンやタブレット型パーソナルコンピュータなどの追加コンテンツ受信機を手元に持ち、IP網経由で配信される追加コンテンツを楽しむという使用形態が想定される。この使用形態で放送コンテンツ、および追加コンテンツに音声信号が含まれる場合、ユーザの視聴位置で厳密な同期を取ることが困難になる。

例えば、ユーザが放送コンテンツ受信機から10m離れている場合、放送コンテンツ受信機から出力された音声信号がユーザ位置に到達するには10(m)/340(m/s)＝約30(ms)の時間を要することになる。ここで、音速は約340(m/s)である。

また、第１の実施の形態では、放送コンテンツ受信機が出力する音声を追加コンテンツ受信機が収音し、音声同期用特徴量を計算して、IP網で配信されてくる放送コンテンツの音声同期用特徴量と同期計算を行う手法となっている。しかし、IP網の伝送遅延や、ゆらぎなどが大きい場合には、広範囲にわたり同期位置のサーチを行う必要があり、処理量が多くなってしまう。

そこで、上述した提供装置とコンテンツ再生システムが、以下の特徴Ｂ１１乃至特徴Ｂ２０を有するようにすることで、異なる経路で取得した複数のコンテンツを、さらに少ない処理量で同期させることができるようになる。

（特徴Ｂ１１）
メディアコンテンツは映像、音声、画像、文字情報などを多重化したデータストリームとされている。

なお、この（特徴Ｂ１１）のデータストリームの伝送としては、放送波、インターネットなどのネットワークにおけるメディアコンテンツの伝送を想定し、多重化データストリームが占有する論理伝送路を伝送路と呼ぶこととする。

（特徴Ｂ１２）
伝送対象とする複数メディアコンテンツは時間同期関係を有する。

（特徴Ｂ１３）
送出対象とする複数のメディアコンテンツのうち少なくとも１つをメインチャンネル信号と定め、残りの各メディアコンテンツをサブチャンネル信号とする。

（特徴Ｂ１４）
基準時刻信号からメインチャンネル信号、およびサブチャンネル信号のそれぞれについて提示時刻情報（PTC）を生成する。

ここで、基準時刻信号は放送ストリームの基準クロック（PCR）または協定世界時（UTC）などが用いられる。

（特徴Ｂ１５）
メインチャンネル信号の提示時刻情報をメインチャンネル信号と多重化し、メイン送出信号を生成して伝送する。一方、メインチャンネル信号の音声信号から音声同期用特徴量も算出しておく。

（特徴Ｂ１６）
メインチャンネル信号とサブチャンネル信号の時間同期関係が符合するようにし、システムが規定する伝送フォーマットにより、サブチャンネル信号の提示時刻情報とメインチャンネル信号の音声同期用特徴量とサブチャンネル信号の多重化処理を行い、サブ送出信号を生成する。

（特徴Ｂ１７）
メイン受信機器はメイン受信信号を取得して分離し、メインチャンネル信号の再生時において、その音声信号に基づく音声をスピーカなどにより出力する。同時にメイン受信機器は、受信したメインチャンネル信号の提示時刻情報を外部より参照したり、取得したりできるよう提示する。

例えばメインチャンネル信号の提示時刻情報はソフトウェアのAPI（Application Programing Interface）によりその取得手段が提供され、無線通信によるIP網接続経由などで外部から参照できるようにしておく。

（特徴Ｂ１８）
サブ受信機器は、サブ受信信号を取得して分離し、受信したサブチャンネル信号の提示時刻情報とメイン受信機器から取得したメインチャンネル信号の提示時刻情報を比較し、提示時刻情報に基づく同期補正情報を生成する。

（特徴Ｂ１９）
サブ受信機器は、メイン受信機器がスピーカから出力したメインチャンネル信号の音声をマイクロホンなどにより収音して、音声同期用特徴量を計算し、（特徴Ｂ１８）で生成された提示時刻情報に基づく同期補正情報を考慮して、受信したメインチャンネル信号の音声同期用特徴量との自動同期計算を行い、音声特徴量に基づく同期補正情報（時間差情報）を算出する。

提示時刻情報の比較で得られる提示時刻情報に基づく同期補正情報から、おおまかな同期位置が分かるので、後段の音声同期用特徴量による自動同期計算処理に要する処理量も少なくて済む。

（特徴Ｂ２０）
上記音声特徴量に基づく同期補正情報に基づき、サブ受信機器は受信したサブチャンネル信号に対してメインチャンネル信号との同期補正処理を行い再生する。

〈提供装置の構成例〉
次に、以上において説明した特徴Ｂ１１乃至特徴Ｂ２０を有する提供装置とコンテンツ再生システムの具体的な実施の形態について説明する。

図２２は、上述した（Ａ１）乃至（Ａ４）に示した例のように時間同期関係を有するコンテンツを提供する提供装置の構成例を示す図である。なお、図２２において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

提供装置３０１は、基準時刻信号生成部３１１、多重化処理部３１２、出力部２２、音声同期用特徴量計算部２３、多重化処理部２４、および出力部２５を有している。

提供装置３０１の構成は、提供装置１１の変換部２１が多重化処理部３１２に置き換えられ、さらに新たに基準時刻信号生成部３１１が設けられている点で、提供装置１１の構成と異なっている。

基準時刻信号生成部３１１は、PCRやUTCに基づいて、メインチャンネル信号とサブチャンネル信号のコンテンツ提示のタイミングを示す提示時刻情報を生成し、多重化処理部３１２および多重化処理部２４に供給する。例えば、提示時刻情報はPTSなどとされ、この提示時刻情報は再生側において、メインチャンネル信号とサブチャンネル信号の同期をとるために利用される。

多重化処理部３１２は、供給されたメインチャンネル信号を、所定の放送規格などで定められたフォーマットに変換する。また、多重化処理部３１２は、フォーマット変換されたメインチャンネル信号と、基準時刻信号生成部３１１から供給された提示時刻情報とを多重化することでメイン送出信号を生成し、出力部２２に供給する。メイン送出信号に含まれている提示時刻情報は、メインチャンネル信号の提示時刻情報である。

また、多重化処理部２４は、時間的に同期がとれた状態で、音声同期用特徴量計算部２３から供給された音声同期用特徴量、供給されたサブチャンネル信号、および基準時刻信号生成部３１１から供給された提示時刻情報を多重化した後、必要に応じてフォーマット変換を行ってサブ送出信号を生成する。多重化処理部２４は、得られたサブ送出信号を出力部２５に供給する。サブ送出信号に含まれている提示時刻情報は、サブチャンネル信号の提示時刻情報である。

なお、提供装置１１における場合と同様に、多重化処理部２４がメインチャンネル信号を用いて、音声同期用特徴量、サブチャンネル信号、および提示時刻情報の時間同期関係を調整してもよい。

〈コンテンツ再生システムの構成例〉
また、提供装置３０１から送信されるメイン送出信号とサブ送出信号を、それぞれメイン受信信号およびサブ受信信号として受信してメインコンテンツとサブコンテンツを再生するコンテンツ再生システムは、例えば図２３に示すように構成される。なお、図２３において、図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２３に示すコンテンツ再生システムは、メイン受信機器３４１、表示部８２、スピーカ８３、マイクロホン８４、サブ受信機器３４２、表示部８６、およびスピーカ８７を有している。

メイン受信機器３４１は、提供装置３０１から送信されたメイン受信信号を受信し、メイン受信信号から得られるメインコンテンツの再生を制御する。

メイン受信機器３４１は、入力部１１１、分離処理部３５１、提示部３５２、および再生処理部１１２を備えている。このメイン受信機器３４１の構成は、新たに分離処理部３５１と提示部３５２が設けられている点で、メイン受信機器８１の構成と異なる。

分離処理部３５１は、入力部１１１から供給されたメイン受信信号を、メインチャンネル信号と、そのメインチャンネル信号の提示時刻情報とに分離し、メインチャンネル信号を再生処理部１１２に供給するとともに、提示時刻情報を提示部３５２に供給する。

提示部３５２は、分離処理部３５１から供給された提示時刻情報を、インターネットなどの有線の通信網や、無線通信網を介してサブ受信機器３４２に提示する。すなわち、通信相手からの要求に応じて提示時刻情報が送信される。

また、サブ受信機器３４２は、提供装置３０１から送信されたサブ送出信号を、サブ受信信号として受信し、サブ受信信号から得られるサブコンテンツの再生を制御する。

サブ受信機器３４２は、取得部３６１、提示時刻情報比較部３６２、音声同期用特徴量計算部１２１、バッファ１２２、入力部１２３、分離処理部１２４、バッファ１２５、同期計算部１２６、および再生処理部１２７を備えている。

サブ受信機器３４２の構成は、新たに取得部３６１、および提示時刻情報比較部３６２が設けられている点で、サブ受信機器８５の構成と異なる。

取得部３６１は、APIなどを利用して、提示部３５２により提示された提示時刻情報を、有線または無線の通信網を介して取得し、提示時刻情報比較部３６２に供給する。すなわち、取得部３６１は、提示部３５２により送信された提示時刻情報を受信する。

分離処理部１２４は、入力部１２３から供給されたサブ受信信号を、音声同期用特徴量、サブチャンネル信号、および提示時刻情報に分離させ、提示時刻情報を提示時刻情報比較部３６２に供給するとともに、音声同期用特徴量およびサブチャンネル信号をバッファ１２５に供給する。

提示時刻情報比較部３６２は、分離処理部１２４から供給された提示時刻情報と、取得部３６１から供給された提示時刻情報とを比較して、メインチャンネル信号とサブチャンネル信号とを同期させるための提示時刻情報に基づく同期補正情報を生成し、同期計算部１２６に供給する。

この提示時刻情報に基づく同期補正情報は、それ自体でメインチャンネル信号とサブチャンネル信号とのずれを補正し、同期させることができるものである。しかし、この例では、より高精度にそれらの信号を同期させるため、提示時刻情報に基づく同期補正情報は、同期計算部１２６において、バッファ１２５から読み出す音声同期用特徴量の範囲を定めるために用いられる。換言すれば、バッファ１２５に記録されている音声同期用特徴量と、バッファ１２２に記録されている音声同期用特徴量との大まかな同期をとるために利用される。このように、提示時刻情報に基づく同期補正情報を用いることで、より少ない処理量で音声同期用特徴量のマッチング処理を行うことができるようになる。

〈送信処理の説明〉
続いて、以上において説明した提供装置３０１とコンテンツ再生システムの具体的な動作について説明する。

まず、図２４のフローチャートを参照して、提供装置３０１により行われる送信処理について説明する。

ステップＳ１９１において、基準時刻信号生成部３１１は、メインチャンネル信号とサブチャンネル信号の提示時刻情報を生成し、多重化処理部３１２および多重化処理部２４に供給する。

ステップＳ１９２において、音声同期用特徴量計算部２３は、音声同期用特徴量算出処理を行って、供給されたメインチャンネル信号を構成する音声信号から、音声同期用特徴量を計算し、多重化処理部２４に供給する。なお、ステップＳ１９２において行われる音声同期用特徴量算出処理は、図１４を参照して説明した音声同期用特徴量算出処理と同様であるので、その説明は省略する。

ステップＳ１９３において、多重化処理部３１２は、供給されたメインチャンネル信号と、基準時刻信号生成部３１１から供給された提示時刻情報とを多重化することでメイン送出信号を生成し、出力部２２に供給する。また、このとき多重化処理部３１２は、必要に応じて、メインチャンネル信号のフォーマット変換を行う。

ステップＳ１９４において、出力部２２は、多重化処理部３１２から供給されたメイン送出信号を送信する。

ステップＳ１９５において、多重化処理部２４は、音声同期用特徴量、サブチャンネル信号、および提示時刻情報を多重化してサブ送出信号を生成し、出力部２５に供給する。

すなわち、多重化処理部２４は、音声同期用特徴量計算部２３からの音声同期用特徴量、供給されたサブチャンネル信号、および基準時刻信号生成部３１１から供給された提示時刻情報を多重化してサブ送出信号とする。

ステップＳ１９６において、出力部２５は、多重化処理部２４から供給されたサブ送出信号を送信し、送信処理は終了する。

以上のようにして、提供装置３０１は、メインチャンネル信号とサブチャンネル信号とで共通して用いられる提示時刻情報を生成し、提示時刻情報が含まれるメイン送出信号とサブ送出信号を生成する。

これにより、コンテンツの再生側において、提示時刻情報を利用して、より少ない処理量で、メインコンテンツとサブコンテンツを同期させることができるようになる。

〈メインコンテンツ再生処理の説明〉
また、提供装置３０１からメイン送出信号が送信されると、コンテンツ再生システムは、そのメイン送出信号を、メイン受信信号として取得して、メインコンテンツを再生する。以下、図２５のフローチャートを参照して、コンテンツ再生システムによるメインコンテンツ再生処理について説明する。

ステップＳ２２１において、入力部１１１は、メイン受信信号を取得して分離処理部３５１に供給する。例えば入力部１１１は、提供装置３０１から送信されたメイン受信信号を受信することで、メイン受信信号を取得する。

ステップＳ２２２において、分離処理部３５１は、入力部１１１から供給されたメイン受信信号を、メインチャンネル信号と提示時刻情報とに分離する。分離処理部３５１は、分離されたメインチャンネル信号を再生処理部１１２に供給するとともに、提示時刻情報を提示部３５２に供給する。

ステップＳ２２３において、再生処理部１１２は、分離処理部３５１から供給されたメインチャンネル信号に基づいてメインコンテンツを再生させる。なお、ステップＳ２２３では、図１５のステップＳ７２の処理と同様の処理が行われる。

ステップＳ２２４において、提示部３５２は、分離処理部３５１から供給された提示時刻情報を提示して、メインコンテンツ再生処理は終了する。例えば、提示時刻情報は、メインコンテンツの再生と同期した状態で、無線等によりサブ受信機器３４２に送信される。

以上のようにして、コンテンツ再生システムは、メイン受信信号を取得してメインコンテンツを再生するとともに、メインコンテンツ、すなわちメインチャンネル信号の提示時刻情報の提示を行う。

このようにメインコンテンツの再生とともに、そのメインコンテンツの提示時刻情報を提示することで、その提示時刻情報を取得するサブ受信機器３４２は、より少ない処理量で、音声同期用特徴量を用いた同期計算を行うことができるようになる。

〈サブコンテンツ再生処理の説明〉
また、メインコンテンツの再生と同期して、コンテンツ再生システムは、サブ受信信号を取得して、サブコンテンツを再生する。以下、図２６のフローチャートを参照して、コンテンツ再生システムによるサブコンテンツ再生処理について説明する。

なお、ステップＳ２５１の処理は、図１６のステップＳ１０１の処理と同様であるので、その説明は省略する。

ステップＳ２５２において、分離処理部１２４は、入力部１２３から供給されたサブ受信信号を、サブチャンネル信号、音声同期用特徴量、および提示時刻情報に分離させる。そして分離処理部１２４は、サブチャンネル信号と音声同期用特徴量をバッファ１２５に供給して記録させるとともに、サブチャンネル信号の提示時刻情報を提示時刻情報比較部３６２に供給する。

ステップＳ２５３において、取得部３６１は、提示部３５２により送信された提示時刻情報を受信することで、メインチャンネル信号の提示時刻情報を取得し、提示時刻情報比較部３６２に供給する。

ステップＳ２５４において、提示時刻情報比較部３６２は、分離処理部１２４から供給された提示時刻情報と、取得部３６１から供給された提示時刻情報とを比較して提示時刻情報に基づく同期補正情報を生成し、同期計算部１２６に供給する。

例えば提示時刻情報に基づく同期補正情報は、バッファ１２５に時系列に並べられて記録されている各時刻の音声同期用特徴量の系列のうち、同期計算部１２６での同期計算の対象とされる範囲（以下、探索範囲とも称する）を示す情報とされる。

この探索範囲は、現時点において再生されているメインコンテンツ、つまり取得部３６１により取得された最新の提示時刻情報と同じ時刻を示しているサブチャンネル信号の提示時刻情報に対応付けられている音声同期用特徴量を含む、所定長の音声同期用特徴量系列とされる。

提示時刻が同じであるメインチャンネル信号とサブチャンネル信号の位置は、互いに同期する信号位置、つまり同時に再生すべき再生位置（フレーム位置）である。したがって、提示時刻情報を比較して、メインチャンネル信号と同じ提示時刻情報を有するサブチャンネル信号の位置を検出することで、再生中のメインコンテンツと大まかに同期がとれたサブコンテンツの再生位置を特定することができる。

提示時刻情報が比較されて提示時刻情報に基づく同期補正情報が生成されると、その後、ステップＳ２５５およびステップＳ２５６の処理が行われるが、これらの処理は図１６のステップＳ１０３およびステップＳ１０４の処理と同様であるので、その説明は省略する。なお、これらの処理では、メインコンテンツの音声が収音され、その音声から音声同期用特徴量が算出される。

ステップＳ２５７において、同期計算部１２６は、同期補正情報生成処理を行って、音声特徴量に基づく同期補正情報を生成し、再生処理部１２７に供給する。なお、同期補正情報生成処理の詳細は後述するが、この処理では、提示時刻情報に基づく同期補正情報が用いられて、バッファ１２２に記録されている音声同期用特徴量と、バッファ１２５に記録されている音声同期用特徴量とが比較され、音声特徴量に基づく同期補正情報が生成される。

ステップＳ２５８において、再生処理部１２７は、同期計算部１２６から供給された音声特徴量に基づく同期補正情報に基づいて、バッファ１２５に記録されているサブチャンネル信号の再生タイミングを補正し、補正後のサブチャンネル信号に基づいてサブコンテンツを再生させる。ステップＳ２５８では、図１６のステップＳ１０６と同様の処理が行われる。

以上のようにして、コンテンツ再生システムは、メインコンテンツの提示時刻情報を取得して、サブ受信信号に含まれているサブコンテンツの提示時刻情報と比較することで、提示時刻情報に基づく同期補正情報を生成する。そして、コンテンツ再生システムは、提示時刻情報に基づく同期補正情報により示される探索範囲に含まれる音声同期用特徴量を対象としてマッチング処理を行い、音声特徴量に基づく同期補正情報を算出する。

これにより、メインコンテンツとサブコンテンツとの伝送経路が異なる場合であっても、より少ない処理量で同期補正情報を算出し、それらのコンテンツを同期して再生させることができる。

すなわち、コンテンツ再生システムでは、サブ受信機器３４２は、まず提示時刻情報によりメインチャンネル信号とサブチャンネル信号の大まかな同期をとり、さらにメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量を計算する。

そして、サブ受信機器３４２は、受信したメインチャンネル信号の音声同期用特徴量との自動同期計算を行うことで、サブ受信機器３４２により再生されるサブコンテンツを視聴するユーザの視聴位置での高精度なコンテンツ同期が可能となる。実際に、提示時刻情報が用いられておおよその同期位置の範囲が絞られているので、音声同期用特徴量による自動同期計算処理に要する処理量も少なくて済む。

例えば、コンテンツ再生システムにおいて表示部８２およびスピーカ８３と、表示部８６およびスピーカ８７とが離れた位置に配置されており、ユーザが表示部８６およびスピーカ８７の近傍でコンテンツを視聴しているとする。そのような場合、スピーカ８３から出力された音声がユーザの視聴位置に到達するまでには、ある程度の時間を要する。

したがって、そのような場合には、提示時刻情報を比較するだけでは、ユーザの視聴位置において、メインコンテンツとサブコンテンツの再生を高精度に同期させることは困難である。すなわち、例えばほぼ同じ時刻でスピーカ８３とスピーカ８７とで、メインコンテンツの音声と、サブコンテンツの音声とがそれぞれ再生されることになるので、メインコンテンツの音声がユーザに到達するまでに時間がかかってしまうと、ユーザには、メインコンテンツの音声とサブコンテンツの音声とがずれて聞こえてしまうことになる。

これに対して、本技術を適用したコンテンツ再生システムでは、サブ受信機器３４２に接続され、サブ受信機器３４２近傍に配置されたマイクロホン８４によりメインコンテンツの音声が収音されて同期計算が行われる。そのため、コンテンツ再生システムでは、ユーザの視聴位置において同期がとれた状態でメインコンテンツとサブコンテンツを再生することができる。しかも、コンテンツ再生システムでは、提示時刻情報を比較して提示時刻情報に基づく同期補正情報を生成し、マッチング処理の探索範囲を限定することで、より少ない処理量でコンテンツを同期させることができる。

〈同期補正情報生成処理の説明〉
さらに、図２７のフローチャートを参照して、図２６のステップＳ２５７の処理に対応する同期補正情報生成処理について説明する。

ステップＳ２８１において、フレームレート変換部１８１およびフレームレート変換部１８２は、必要に応じてフレームレート変換処理を行う。

すなわち、フレームレート変換部１８１は、バッファ１２２からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出して、必要に応じて音声同期用特徴量をフレームレート変換、つまりダウンサンプルし、ブロック統合部１８３に供給する。

また、フレームレート変換部１８２は、バッファ１２５に記録されている音声同期用特徴量の時系列データのうち、提示時刻情報比較部３６２から供給された提示時刻情報に基づく同期補正情報により示される探索範囲に含まれている時系列データのみを読み出す。

そして、フレームレート変換部１８２は、読み出した音声同期用特徴量を必要に応じてフレームレート変換、つまりダウンサンプルまたはアップサンプルし、ブロック統合部１８４に供給する。

ステップＳ２８２において、ブロック統合部１８３およびブロック統合部１８４は、音声同期用特徴量の時系列データを統合する。

例えば、図２８の矢印Ａ１１に示すように、図１８のステップＳ１６２の処理では、バッファ１２２に記録されているｎ個の各ブロックX(i)と、バッファ１２５に記録されているｍ個の各ブロックY(j)とが処理対象とされていた。つまり、探索対象となる音声同期用特徴量のブロックの組み合わせは、ｎ×ｍ通りとされていた。なお、より詳細には、音声同期用特徴量に対して適宜、フレームレート変換が行われるが、図２８では説明を簡単にするため、フレームレート変換は行われないものとして説明を続ける。

ここで、マッチング処理の対象とされるブロックY(j)は、バッファ１２５に記録されている全てのブロック、または十分に広い範囲のブロックとされる。

なお、図２８において、ｉは、音声同期用特徴量計算部１２１で得られた音声同期用特徴量のブロックのインデックスであり、ｊは、サブ受信信号に含まれている音声同期用特徴量のブロックのインデックスである。

一方、ステップＳ２８２では、矢印Ａ１２に示すように、バッファ１２５に記録されているｍ個の各ブロックのうち、提示時刻情報に基づく同期補正情報により示される探索範囲に含まれているｍ’個のブロックのみがマッチング処理の対象とされる。すなわち、類似度計算部１８５での類似度計算の対象とされる。

この例では、PTS_iは提示時刻情報を表しており、この提示時刻情報により示される位置が、現時点で再生されているメインコンテンツの位置となっている。そして、そのメインコンテンツの提示時刻情報と同じ時刻のサブコンテンツの提示時刻情報に対応する位置を含む所定長の範囲、つまりｍ’個のブロックからなる範囲が探索範囲とされている。したがって、探索対象となる音声同期用特徴量のブロックの組み合わせは、ｎ×ｍ’通りとなる。

このように、提示時刻情報を比較して得られる提示時刻情報に基づく同期補正情報を用いれば、マッチング処理の対象とされる音声同期用特徴量の範囲を必要最小限に限定することができるので、類似度計算の探索に要する処理時間を大幅に低減させることができる。

図２７のフローチャートの説明に戻り、音声同期用特徴量の時系列データが統合されると、その後、処理はステップＳ２８３に進む。そして、ステップＳ２８３およびステップＳ２８４の処理が行われて同期補正情報生成処理は終了するが、これらの処理は図１８のステップＳ１６３およびステップＳ１６４の処理と同様であるので、その説明は省略する。同期補正情報生成処理が終了すると、その後、処理は図２６のステップＳ２５８へと進む。

以上のようにして、コンテンツ再生システムは、提示時刻情報に基づく同期補正情報により示される探索範囲の音声同期用特徴量を用いて、音声特徴量に基づく同期補正情報を生成する。これにより、より少ない処理量で、同期補正情報をロバストに生成することができる。

また、図２２に示した提供装置３０１と図２３に示したコンテンツ再生システムも、図１９乃至図２１に示した各システムに適用可能である。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

図２９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１，ＲＯＭ（Read Only Memory）５０２，ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

さらに、本技術は、以下の構成とすることも可能である。

（１）
第１のコンテンツの音声信号から特徴量を抽出する特徴量計算部と、
前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算部と
を備える情報処理装置。
（２）
前記特徴量計算部は、再生された前記第１のコンテンツの音声を収音することで得られた前記音声信号から前記特徴量を抽出する
（１）に記載の情報処理装置。
（３）
前記第２のコンテンツと、前記第２のコンテンツに同期がとれた状態で前記第２のコンテンツに対応付けられている前記特徴量とを取得する第１の入力部をさらに備える
（１）または（２）に記載の情報処理装置。
（４）
前記第２のコンテンツおよび前記特徴量は、前記第１のコンテンツとの到着時間差が考慮されたタイミングで前記情報処理装置に送信される
（３）に記載の情報処理装置。
（５）
前記第１の入力部は、前記第２のコンテンツおよび前記特徴量の送信を要求し、その要求に応じて送信されてきた前記第２のコンテンツおよび前記特徴量を受信する
（３）に記載の情報処理装置。
（６）
前記第１のコンテンツの送信を要求し、その要求に応じて送信されてきた前記第１のコンテンツを受信する第２の入力部をさらに備える
（５）に記載の情報処理装置。
（７）
前記特徴量計算部は、再生された１つの前記第１のコンテンツについて、前記音声信号から前記特徴量を抽出し、
前記同期計算部は、前記第２のコンテンツと対応付けられている複数の前記第１のコンテンツの前記特徴量のそれぞれと、前記特徴量計算部により抽出された前記特徴量とを比較することで、再生された前記第１のコンテンツを特定し、特定された前記第１のコンテンツと前記第２のコンテンツを同期して再生するための前記音声特徴量に基づく同期補正情報を生成する
（２）乃至（６）の何れか一項に記載の情報処理装置。
（８）
前記第２のコンテンツの再生を制御する再生処理部をさらに備える
（２）乃至（７）の何れか一項に記載の情報処理装置。
（９）
前記再生処理部は、前記音声特徴量に基づく同期補正情報に基づいて前記第２のコンテンツの再生位置を補正する
（８）に記載の情報処理装置。
（１０）
前記第１のコンテンツの提示時刻情報を取得する取得部と、
前記第１のコンテンツの前記提示時刻情報と、前記第２のコンテンツの前記提示時刻情報とを比較して、提示時刻情報に基づく同期補正情報を生成する比較部と
をさらに備え、
前記同期計算部は、取得された前記特徴量の系列のうちの前記提示時刻情報に基づく同期補正情報により示される範囲に含まれる前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較して前記音声特徴量に基づく同期補正情報を生成する
（１）乃至（９）の何れか一項に記載の情報処理装置。
（１１）
前記同期計算部は、取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算部により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する
（１）乃至（１０）の何れか一項に記載の情報処理装置。
（１２）
第１のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップと
を含む情報処理方法。
（１３）
第１のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップと
を含む処理をコンピュータに実行させるプログラム。
（１４）
第１のコンテンツの音声信号から特徴量を抽出する特徴量計算部と、
前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた前記特徴量とを出力する第１の出力部と
を備える情報処理装置。
（１５）
前記第１のコンテンツを出力する第２の出力部をさらに備える
（１４）に記載の情報処理装置。
（１６）
前記第１の出力部は、前記第１のコンテンツとの到着時間差が考慮されたタイミングで前記第２のコンテンツおよび前記特徴量を出力する
（１５）に記載の情報処理装置。
（１７）
前記第１の出力部は、前記第２のコンテンツおよび前記特徴量の送信が要求された場合、その要求に応じて前記第２のコンテンツおよび前記特徴量を出力する
（１５）に記載の情報処理装置。
（１８）
前記第２の出力部は、前記第１のコンテンツの送信が要求された場合、その要求に応じて前記第１のコンテンツを出力する
（１７）に記載の情報処理装置。
（１９）
前記特徴量計算部は、複数の前記第１のコンテンツについて、前記音声信号から前記特徴量を抽出し、
前記第１の出力部は、複数の前記第１のコンテンツの前記特徴量を前記第２のコンテンツに対応付けて出力する
（１４）乃至（１８）の何れか一項に記載の情報処理装置。
（２０）
前記特徴量計算部は前記特徴量をダウンサンプルし、
前記第１の出力部は、前記第２のコンテンツと、ダウンサンプルされた前記特徴量とを出力する
（１４）乃至（１９）の何れか一項に記載の情報処理装置。
（２１）
第１のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた前記特徴量とを出力する出力ステップと
を含む情報処理方法。
（２２）
第１のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた前記特徴量とを出力する出力ステップと
を含む処理をコンピュータに実行させるプログラム。

１１提供装置，２２出力部，２３音声同期用特徴量計算部，２４多重化処理部，２５出力部，８１メイン受信機器，８５サブ受信機器，１１１入力部，１１２再生処理部，１２１音声同期用特徴量計算部，１２３入力部，１２６同期計算部，１２７再生処理部，３１１基準時刻信号生成部，３５２提示部，３６１取得部，３６２提示時刻情報比較部

Claims

第１のコンテンツの音声信号から特徴量を抽出する特徴量計算部と、
前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算部と
を備え、
前記同期計算部は、取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算部により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する
情報処理装置。
前記特徴量計算部は、再生された前記第１のコンテンツの音声を収音することで得られた前記音声信号から前記特徴量を抽出する
請求項１に記載の情報処理装置。
前記第２のコンテンツと、前記第２のコンテンツに同期がとれた状態で前記第２のコンテンツに対応付けられている前記特徴量とを取得する第１の入力部をさらに備える
請求項１または請求項２に記載の情報処理装置。
前記第２のコンテンツおよび前記特徴量は、前記第１のコンテンツとの到着時間差が考慮されたタイミングで前記情報処理装置に送信される
請求項３に記載の情報処理装置。
前記第１の入力部は、前記第２のコンテンツおよび前記特徴量の送信を要求し、その要求に応じて送信されてきた前記第２のコンテンツおよび前記特徴量を受信する
請求項３に記載の情報処理装置。
前記第１のコンテンツの送信を要求し、その要求に応じて送信されてきた前記第１のコンテンツを受信する第２の入力部をさらに備える
請求項５に記載の情報処理装置。
前記特徴量計算部は、再生された１つの前記第１のコンテンツについて、前記音声信号から前記特徴量を抽出し、
前記同期計算部は、前記第２のコンテンツと対応付けられている複数の前記第１のコンテンツの前記特徴量のそれぞれと、前記特徴量計算部により抽出された前記特徴量とを比較することで、再生された前記第１のコンテンツを特定し、特定された前記第１のコンテンツと前記第２のコンテンツを同期して再生するための前記音声特徴量に基づく同期補正情報を生成する
請求項２乃至請求項６の何れか一項に記載の情報処理装置。
前記第２のコンテンツの再生を制御する再生処理部をさらに備える
請求項２乃至請求項７の何れか一項に記載の情報処理装置。
前記再生処理部は、前記音声特徴量に基づく同期補正情報に基づいて前記第２のコンテンツの再生位置を補正する
請求項８に記載の情報処理装置。
前記第１のコンテンツの提示時刻情報を取得する取得部と、
前記第１のコンテンツの前記提示時刻情報と、前記第２のコンテンツの前記提示時刻情報とを比較して、提示時刻情報に基づく同期補正情報を生成する比較部と
をさらに備え、
前記同期計算部は、取得された前記特徴量の系列のうちの前記提示時刻情報に基づく同期補正情報により示される範囲に含まれる前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較して前記音声特徴量に基づく同期補正情報を生成する
請求項１乃至請求項９の何れか一項に記載の情報処理装置。
第１のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップと
を含み、
前記同期計算ステップにおいて、取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算ステップの処理により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する
情報処理方法。
第１のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第１のコンテンツと時間同期関係を有する第２のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第２のコンテンツを前記第１のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップと
を含む処理をコンピュータに実行させ、
前記同期計算ステップにおいて、取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算ステップの処理により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する
プログラム。
第１のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算部と、
前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する第１の出力部と
を備える情報処理装置。
前記第１のコンテンツを出力する第２の出力部をさらに備える
請求項１３に記載の情報処理装置。
前記第１の出力部は、前記第１のコンテンツとの到着時間差が考慮されたタイミングで前記第２のコンテンツおよび前記ダウンサンプルされた前記特徴量を出力する
請求項１４に記載の情報処理装置。
前記第１の出力部は、前記第２のコンテンツおよび前記ダウンサンプルされた前記特徴量の送信が要求された場合、その要求に応じて前記第２のコンテンツおよび前記ダウンサンプルされた前記特徴量を出力する
請求項１４に記載の情報処理装置。
前記第２の出力部は、前記第１のコンテンツの送信が要求された場合、その要求に応じて前記第１のコンテンツを出力する
請求項１６に記載の情報処理装置。
前記特徴量計算部は、複数の前記第１のコンテンツについて、前記音声信号から前記特徴量を抽出し、
前記第１の出力部は、複数の前記第１のコンテンツの前記ダウンサンプルされた前記特徴量を前記第２のコンテンツに対応付けて出力する
請求項１３乃至請求項１７の何れか一項に記載の情報処理装置。
第１のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算ステップと、
前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する出力ステップと
を含む情報処理方法。
第１のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算ステップと、
前記第１のコンテンツに対して時間同期関係を有する第２のコンテンツと、前記第２のコンテンツに対して同期がとれた状態で、前記第２のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する出力ステップと
を含む処理をコンピュータに実行させるプログラム。