JP6349977B2 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP6349977B2
JP6349977B2 JP2014115406A JP2014115406A JP6349977B2 JP 6349977 B2 JP6349977 B2 JP 6349977B2 JP 2014115406 A JP2014115406 A JP 2014115406A JP 2014115406 A JP2014115406 A JP 2014115406A JP 6349977 B2 JP6349977 B2 JP 6349977B2
Authority
JP
Japan
Prior art keywords
content
feature amount
synchronization
unit
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014115406A
Other languages
English (en)
Other versions
JP2015149705A (ja
JP2015149705A5 (ja
Inventor
高橋 秀介
秀介 高橋
井上 晃
晃 井上
西口 正之
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2014115406A priority Critical patent/JP6349977B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN201480056387.0A priority patent/CN105684085B/zh
Priority to PCT/JP2014/005186 priority patent/WO2015059891A1/en
Priority to RU2016114565A priority patent/RU2675192C2/ru
Priority to KR1020217003061A priority patent/KR102325743B1/ko
Priority to EP14793631.4A priority patent/EP3061094A1/en
Priority to US15/029,600 priority patent/US10484728B2/en
Priority to KR1020167009295A priority patent/KR102212926B1/ko
Priority to CN201910948977.9A priority patent/CN110751963B/zh
Priority to TW107136795A priority patent/TWI695620B/zh
Priority to TW103135375A priority patent/TWI646830B/zh
Publication of JP2015149705A publication Critical patent/JP2015149705A/ja
Publication of JP2015149705A5 publication Critical patent/JP2015149705A5/ja
Application granted granted Critical
Publication of JP6349977B2 publication Critical patent/JP6349977B2/ja
Priority to US16/656,487 priority patent/US11115694B2/en
Priority to US17/404,793 priority patent/US20210377582A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23602Multiplexing isochronously with the video sync, e.g. according to bit-parallel or bit-serial interface formats, as SDI
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4122Peripherals receiving signals from specially adapted client devices additional display device, e.g. video projector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4342Demultiplexing isochronously with video sync, e.g. according to bit-parallel or bit-serial interface formats, as SDI
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Description

本技術は情報処理装置および方法、並びにプログラムに関し、特に、異なる経路で取得した複数のコンテンツを同期させることができるようにした情報処理装置および方法、並びにプログラムに関する。
近年、多機能型携帯電話機やタブレット型端末装置など、ネットワーク接続を前提とし、様々なメディアコンテンツを再生できる機器が増加してきている。さらに、従来から存在しているテレビジョン受像機なども含め、ネットワーク機能を用いた複数機器の連携による利活用が求められている。
例えば複数機器の連携では、以下に示す(A1)乃至(A4)などの時間同期関係を有する複数のメディアコンテンツを、放送やインターネットなどを通じて複数機器で受信し、それらのコンテンツを同期して再生するというアプリケーションプログラムが想定される。
(A1)メインの映像・音声コンテンツに対する外国語音声コンテンツ、解説音声コンテンツ、クローズドキャプションと文字情報
(A2)ある楽曲を楽器毎に演奏、撮影した複数の映像・音声コンテンツ
(A3)1つのシーンを複数の角度から撮影した映像・音声コンテンツ
(A4)メインの映像・音声コンテンツとその高解像版の映像・音声コンテンツ
このような複数のコンテンツは、再生時には同期が保たれた状態で再生させる必要がある。例えば、複数のコンテンツを同期させる技術として、異なる複数の撮影装置で同時刻に撮影された各コンテンツから特徴量を抽出し、それらの特徴量の類似度を計算することで、複数のコンテンツを同期させる技術が開示されている(例えば、特許文献1参照)。
特開2013−174765号公報
ところで、実際には、上記のようなメディアコンテンツを、複数の機器がそれぞれ異なる経路で受信しようとする場合、伝送遅延や、送出および受信の処理遅延、受信機器の動作クロックの違いなどの要因により、同期を保ってコンテンツを再生することが困難である。また、特許文献1に記載の技術では、同期をとって再生しようとするコンテンツ同士が類似した特徴を有していない場合には、それらのコンテンツの同期をとることができなかった。
本技術は、このような状況に鑑みてなされたものであり、異なる経路で取得した複数のコンテンツを同期させることができるようにするものである。
本技術の第1の側面の情報処理装置は、第1のコンテンツの音声信号から特徴量を抽出する特徴量計算部と、前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算部とを備え、前記同期計算部は、取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算部により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する。
前記特徴量計算部には、再生された前記第1のコンテンツの音声を収音することで得られた前記音声信号から前記特徴量を抽出させることができる。
情報処理装置には、前記第2のコンテンツと、前記第2のコンテンツに同期がとれた状態で前記第2のコンテンツに対応付けられている前記特徴量とを取得する第1の入力部をさらに設けることができる。
前記第2のコンテンツおよび前記特徴量は、前記第1のコンテンツとの到着時間差が考慮されたタイミングで前記情報処理装置に送信されるようにすることができる。
前記第1の入力部には、前記第2のコンテンツおよび前記特徴量の送信を要求させ、その要求に応じて送信されてきた前記第2のコンテンツおよび前記特徴量を受信させることができる。
情報処理装置には、前記第1のコンテンツの送信を要求し、その要求に応じて送信されてきた前記第1のコンテンツを受信する第2の入力部をさらに設けることができる。
前記特徴量計算部には、再生された1つの前記第1のコンテンツについて、前記音声信号から前記特徴量を抽出させ、前記同期計算部には、前記第2のコンテンツと対応付けられている複数の前記第1のコンテンツの前記特徴量のそれぞれと、前記特徴量計算部により抽出された前記特徴量とを比較することで、再生された前記第1のコンテンツを特定させ、特定された前記第1のコンテンツと前記第2のコンテンツを同期して再生するための前記音声特徴量に基づく同期補正情報を生成させることができる。
情報処理装置には、前記第2のコンテンツの再生を制御する再生処理部をさらに設けることができる。
前記再生処理部には、前記音声特徴量に基づく同期補正情報に基づいて前記第2のコンテンツの再生位置を補正させることができる。
情報処理装置には、前記第1のコンテンツの提示時刻情報を取得する取得部と、前記第1のコンテンツの前記提示時刻情報と、前記第2のコンテンツの前記提示時刻情報とを比較して、提示時刻情報に基づく同期補正情報を生成する比較部とをさらに設け、前記同期計算部には、取得された前記特徴量の系列のうちの前記提示時刻情報に基づく同期補正情報により示される範囲に含まれる前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較して前記音声特徴量に基づく同期補正情報を生成させることができる。
本技術の第1の側面の情報処理方法またはプログラムは、第1のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップとを含み、前記同期計算ステップにおいて、取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算ステップの処理により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する。
本技術の第1の側面においては、第1のコンテンツの音声信号から特徴量が抽出され、前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報が生成される。また、前記特徴量の比較時には、取得された前記特徴量と、抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または抽出された前記特徴量の少なくとも一方に対してフレームレート変換が行われてから前記特徴量が比較される。
本技術の第2の側面の情報処理装置は、第1のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算部と、前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する第1の出力部とを備える。
情報処理装置には、前記第1のコンテンツを出力する第2の出力部をさらに設けることができる。
前記第1の出力部には、前記第1のコンテンツとの到着時間差が考慮されたタイミングで前記第2のコンテンツおよび前記ダウンサンプルされた前記特徴量を出力させることができる。
前記第1の出力部には、前記第2のコンテンツおよび前記ダウンサンプルされた前記特徴量の送信が要求された場合、その要求に応じて前記第2のコンテンツおよび前記ダウンサンプルされた前記特徴量を出力させることができる。
前記第2の出力部には、前記第1のコンテンツの送信が要求された場合、その要求に応じて前記第1のコンテンツを出力させることができる。
前記特徴量計算部には、複数の前記第1のコンテンツについて、前記音声信号から前記特徴量を抽出させ、前記第1の出力部には、複数の前記第1のコンテンツの前記ダウンサンプルされた前記特徴量を前記第2のコンテンツに対応付けて出力させることができる。
本技術の第2の側面の情報処理方法またはプログラムは、第1のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算ステップと、前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する出力ステップとを含む。
本技術の第2の側面においては、第1のコンテンツの音声信号から特徴量が抽出され、抽出された前記特徴量がダウンサンプルされ、前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とが出力される。
本技術の第1の側面および第2の側面によれば、異なる経路で取得した複数のコンテンツを同期させることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
提供装置の構成例を示す図である。 音声同期用特徴量計算部の構成例を示す図である。 音声同期用特徴量のダウンサンプルについて説明する図である。 コンテンツ再生システムの構成例を示す図である。 音声同期用特徴量計算部の構成例を示す図である。 同期計算部の構成例を示す図である。 音声同期用特徴量の同期計算について説明する図である。 音声同期用特徴量の同期計算について説明する図である。 音声同期用特徴量の同期計算について説明する図である。 類似度の計算の対象とするブロックについて説明する図である。 類似度の計算について説明する図である。 送信処理を説明するフローチャートである。 サブチャンネル信号と音声同期用特徴量の多重化について説明する図である。 音声同期用特徴量算出処理を説明するフローチャートである。 メインコンテンツ再生処理を説明するフローチャートである。 サブコンテンツ再生処理を説明するフローチャートである。 音声同期用特徴量算出処理を説明するフローチャートである。 同期補正情報生成処理を説明するフローチャートである。 本技術の適用例を示す図である。 本技術の適用例を示す図である。 本技術の適用例を示す図である。 提供装置の構成例を示す図である。 コンテンツ再生システムの構成例を示す図である。 送信処理を説明するフローチャートである。 メインコンテンツ再生処理を説明するフローチャートである。 サブコンテンツ再生処理を説明するフローチャートである。 同期補正情報生成処理を説明するフローチャートである。 類似度の計算の対象とするブロックについて説明する図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術の特徴〉
まず、本技術の特徴について説明する。
本技術は、特に以下の特徴B1乃至特徴B6を有している。
(特徴B1)
本技術によれば、内容の異なる複数のメディアコンテンツを異なる伝送路経由で送信し、異なる複数の機器で受信する際に音声を使って自動同期を行う下記の構成を有する方法および装置を実現することができる。
(1)メディアコンテンツは映像、音声、画像、文字情報などを多重化したデータストリームとされている
(2)伝送対象とする複数メディアコンテンツは、上述した(A1)乃至(A4)に示した例のように時間同期関係を有する
(3)送出対象とする複数のメディアコンテンツのうちの少なくとも1つをメインチャンネル信号と定め、その音声信号から音声同期用特徴量を算出し、システムが規定する伝送フォーマットによりメインチャンネル信号からメイン送出信号を生成する
(4)残りの各メディアコンテンツ(サブチャンネル信号)とメインチャンネル信号の時間同期関係が符合するように、システムが規定する伝送フォーマットによりメインチャンネル信号の音声同期用特徴量とサブチャンネル信号の多重化処理を行い、サブ送出信号を生成する
(5)メイン送出信号を受信するメイン受信機器では、メインチャンネル信号の再生時において、その音声信号をスピーカなどにより出力する
(6)メインチャンネル信号の音声同期用特徴量を含むサブ送出信号を受信するサブ受信機器は、メイン受信機器がスピーカ出力したメインチャンネル信号の音声をマイクロホンなどにより収音して、音声同期用特徴量を計算し、受信したメインチャンネル信号の音声同期用特徴量との自動同期計算を行い、音声特徴量に基づく同期補正情報(時間差情報)を算出する
(7)上記音声特徴量に基づく同期補正情報に基づき、サブ受信機器は受信したサブチャンネル信号に対してメインチャンネル信号との同期補正処理を行い再生する
なお、上記の(1)のデータストリームの伝送としては、放送波、インターネットなどのネットワークにおけるメディアコンテンツの伝送を想定し、多重化データストリームが占有する論理伝送路を伝送路と呼ぶこととする。
また、上記にある「音声同期用特徴量の算出」と「自動同期計算」は、例えば特開2013−174765号公報に記載されている技術により実現される。なお、音声同期用特徴量を伝送前にダウンサンプルしたり、音声同期用特徴量を利用した自動同期計算時に、必要に応じて音声同期用特徴量のフレームレート変換を行うようにすることもできる。
このような技術を用いることにより、メインチャンネル信号の音声をサブ受信機器が収音する際に、雑音や騒音があるような悪環境であってもロバストに自動同期計算を行うことができる。なお、必ずしもこの技術を用いる必要はない。
(特徴B2)
上記の(特徴B1)において、送出側システムがメイン送出信号とサブ送出信号を各々メイン受信機器、サブ受信機器に対して一方的に送出する。
この場合、サブ送出信号はメイン送出信号に先んじて送出する必要がある。
(特徴B3)
上記の(特徴B1)において、送出側システムがメイン送出信号をメイン受信機器に対して一方的に送出し、サブ受信機器は自身のタイミングによりネットワーク経由などでサブ送出信号を取得して自動同期計算を行い、サブチャンネル信号の同期再生を行う。
この構成の利点としては、ネットワークの伝送遅延などを加味してサブ受信機器が自身の都合によりサブ送出信号の取得を制御できる。
(特徴B4)
上記の(特徴B1)において、メイン受信機器は、自身のタイミングによりネットワーク経由などでメイン送出信号を取得して、メインチャンネル信号の再生を行い、サブ受信機器も自身のタイミングによりネットワーク経由などでサブ送出信号を取得して自動同期計算を行い、サブチャンネル信号の同期再生を行う。
この構成の利点としては、ネットワークの伝送遅延などを加味してサブ受信機器が自身の都合によりサブ送出信号の取得を制御できる。
(特徴B5)
上記の(特徴B1)において、メインチャンネル信号の音声信号が複数系統ある。
例えば複数系統のメインチャンネル信号は、2か国語放送の主音声と副音声などとされる。全ての系統の音声信号に対して音声同期用特徴量が算出され、サブチャンネル信号と多重化されて送出される。サブ受信機器では、収音した音声と受信した全ての音声同期用特徴量との同期計算を行う際に、メインチャンネル信号のどの音声が再生されているかが判別される。メイン受信機器が出力する音声信号の切り替えも上記同期計算により検出される。
(特徴B6)
上記の(特徴B1)において、サブ受信機器における自動同期計算において「同期ずれ」を検出し、サブ受信機器側でリアルタイム補正処理を行う。
メイン受信機器とサブ受信機器は独立して動作するため、オーディオクロックが異なり同期ずれが発生する。そこで、その同期ずれを検出して補正することで、同期を保ったまま複数のコンテンツを再生することが可能となる。
〈提供装置の構成例〉
次に、本技術を適用した具体的な実施の形態について説明する。
まず、上述した(A1)乃至(A4)に示した例のように時間同期関係を有するコンテンツを提供する提供装置の構成例について説明する。
図1は、提供装置の構成例を示す図である。この提供装置11には、主となるコンテンツ(以下、メインコンテンツと称する)を再生するための信号であるメインチャンネル信号と、メインコンテンツと内容的な関連性を有するコンテンツ(以下、サブコンテンツと称する)を再生するための信号であるサブチャンネル信号とが供給される。
ここで、メインコンテンツとサブコンテンツは、少なくとも映像と音声の何れかからなり、互いに時間同期関係を有するコンテンツである。つまり、再生時には、メインコンテンツとサブコンテンツが同期した状態で再生されることが望ましい。
なお、以下では、メインコンテンツおよびサブコンテンツは、それぞれ映像を再生する画像信号と、その画像信号に付随する音声信号とからなるものとして説明を続ける。したがって、この例ではメインチャンネル信号とサブチャンネル信号は、それぞれ画像信号と音声信号から構成されている。
提供装置11は、変換部21、出力部22、音声同期用特徴量計算部23、多重化処理部24、および出力部25を有している。
変換部21は、供給されたメインチャンネル信号を、所定の放送規格などで定められたフォーマットに変換し、その結果得られたメイン送出信号を出力部22に供給する。出力部22は、変換部21から供給されたメイン送出信号を、例えば放送波により送信したり、インターネットなどの通信網を介して送信したりする。
音声同期用特徴量計算部23は、供給されたメインチャンネル信号を構成する音声信号から、音声同期用特徴量を抽出し、多重化処理部24に供給する。ここで、音声同期用特徴量は、メインコンテンツとサブコンテンツとの再生時に、サブコンテンツをメインコンテンツに同期させて再生させるために用いられる特徴量である。
多重化処理部24は、供給されたメインチャンネル信号を用いて、音声同期用特徴量計算部23からの音声同期用特徴量と、供給されたサブチャンネル信号との時間同期関係を調整する。すなわち、提供装置11では、予めメインチャンネル信号とサブチャンネル信号とは同期がとれた状態となっているので、多重化処理部24は、メインチャンネル信号を用いて、時間同期関係において音声同期用特徴量とサブチャンネル信号とが同期した状態で、音声同期用特徴量をサブチャンネル信号に対応付ける。例えばMPEG-4 System において、オーディオ信号、ビデオ信号などはそれぞれ1つのメディアオブジェクト(ES(Elementary Stream))として扱われ、多重化される。ESを分割して得られるAccess Unit(AU)と呼ばれる最小単位毎に時間属性が定義されるので、音声同期用特徴量も時間属性情報を有する1つのメディアオブジェクトとして扱うことにより、サブチャンネル信号であるメディアオブジェクトと容易に多重化を行うことができる。
また、多重化処理部24は、時間的に同期がとれた状態で音声同期用特徴量とサブチャンネル信号とを多重化した後、必要に応じてフォーマット変換を行って、その結果得られたサブ送出信号を出力部25に供給する。
出力部25は、多重化処理部24から供給されたサブ送出信号を、例えば放送波により送信したり、インターネットなどの通信網を介して送信したりする。ここで、メイン送出信号とサブ送出信号とは、互いに異なる伝送路を介してコンテンツの再生側のシステムに送信される。
なお、図1の例では、提供装置11は、1つの装置により構成されているが、提供装置11が複数の装置により構成されてもよいし、各処理がクラウドコンピューティングにより実行されるようにしてもよい。
〈音声同期用特徴量計算部の構成例〉
また、図1に示した音声同期用特徴量計算部23は、より詳細には例えば図2に示すように構成される。
音声同期用特徴量計算部23は、周波数帯域分割部51、周期性検出部52−1乃至周期性検出部52−4、周期性強度検出部53−1乃至周期性強度検出部53−4、周期性情報統合部54、ピーク検出部55、およびダウンサンプル部56を有している。
周波数帯域分割部51は、供給されたメインチャンネル信号を構成する音声信号を、窓関数を用いて数10msec乃至100msec程度の時間区間に分割する。
ここで、周波数帯域分割部51からピーク検出部55までの間で行われる処理は、1つの時間区間に対して行われる。このとき窓関数を適用する時間位置を数msec乃至100msec程度後にシフトさせることで時間方向に連続した複数の時間区間(時間フレーム)を得ることができる。これに対してダウンサンプル部56では、連続した複数の時間区間の結果が1つに統合され、統合後の新たな時間区間に対する特徴量が算出される。
周波数帯域分割部51は、複数のバンドパスフィルタを用いて、時間区間ごとの音声信号を4つの周波数帯域に分割し、各周波数帯域の音声信号を、周期性検出部52−1乃至周期性検出部52−4のそれぞれに供給する。
なお、バンドパスフィルタとしては、例えばオクターブバンドフィルタなどの、高い周波数ほど通過周波数帯域幅が広くなるフィルタを用いると効果的である。
周期性検出部52−1乃至周期性検出部52−4は、周波数帯域分割部51から供給された所定の周波数帯域の時間区間ごとの音声信号の自己相関関数を計算することにより、時間区間ごとの周期性を表す周期性情報を抽出する。
なお、ここでは、周期性情報として、インデックスがbである周波数帯域の、インデックスがτである時間遅れの音声信号の自己相関関数x(b,τ)そのものを用いるが、自己相関関数x(b,τ)をx(b,0)で除算した値を用いることもできる。また、自己相関関数x(b,τ)の計算方法としては、所定の周波数帯域の音声信号に対して離散フーリエ変換を行うことにより得られるスペクトルのピークを用いた方法などを用いることができる。
周期性検出部52−1乃至周期性検出部52−4は、抽出された時間区間ごとの周期性情報を周期性強度検出部53−1乃至周期性強度検出部53−4と周期性情報統合部54に供給する。なお、以下、周期性検出部52−1乃至周期性検出部52−4を特に区別する必要がない場合、単に周期性検出部52と称することとする。
周期性強度検出部53−1乃至周期性強度検出部53−4は、周期性検出部52−1乃至周期性検出部52−4から供給される時間区間ごとの周期性情報に基づいて、時間区間ごとの周期性の強度を計算する。具体的には、τ=0近傍以外のτにおける周期性情報である自己相関関数x(b,τ)の最大値が周期性の強度として計算される。この周期性の強度が大きいほど、処理対象の音声信号の周期性が強く、周期性の強度が小さいほど、処理対象の音声信号の周期性がノイズらしくなる。
周期性強度検出部53−1乃至周期性強度検出部53−4は、時間区間ごとの周期性の強度を、閾値を超えたか否かにより2値化し、時間区間ごとの周期性強度情報とする。すなわち、時間区間ごとに、周期性の強度が所定の閾値を超えた場合、周期性強度情報は1とされ、周期性の強度が所定の閾値以下である場合、周期性強度情報は0とされる。周期性強度検出部53−1乃至周期性強度検出部53−4は、時間区間ごとの周期性強度情報を周期性情報統合部54に供給する。
なお、以下、周期性強度検出部53−1乃至周期性強度検出部53−4を特に区別する必要がない場合、単に周期性強度検出部53とも称する。
周期性情報統合部54は、周期性検出部52から供給された時間区間ごとの周期性情報と、周期性強度検出部53から供給された時間区間ごとの周期性強度情報とに基づいて、時間区間ごとの周期性情報を統合する周期性統合処理を行う。具体的には、周期性情報統合部54は、次式(1)を用いて時間区間ごとに周期性情報である自己相関関数x(b,τ)の総和を求める。
Figure 0006349977
なお、式(1)において、Nbは周波数帯域の総数を表し、p(b)は周期性強度情報を表す。また、Npは周期性強度情報p(b)が1となる周波数帯域の数を表す。
周期性情報統合部54は、周期性統合処理の結果得られる時間区間ごとの周期性情報の総和S(τ)をピーク検出部55に供給する。
ピーク検出部55は、時間区間ごとに、周期性情報統合部54から供給された周期性情報の総和S(τ)に対してピーク検出を行い、ピーク位置τの値が1となり、ピーク位置τ以外の値が0となるピーク情報P(τ)を生成する。ピーク検出方法としては、例えば、周期性情報の総和S(τ)の微分値が正から負に変わるときのインデックスτを、ピーク位置τとして検出する方法がある。
なお、ピーク検出部55は、ピーク位置τの周期性情報の総和S(τ)が、所定の閾値より小さい場合、そのピーク位置τのピーク情報P(τ)を0とするようにしてもよい。これにより、ピーク情報P(τ)のノイズを低減することができる。また、ピーク情報は、周期性情報の総和S(τ)そのものであってもよい。
ピーク検出部55は、時間区間ごとのピーク情報P(τ)を、時間区間ごとの音声同期用特徴量の時系列データとしてダウンサンプル部56に供給する。
ダウンサンプル部56は、ピーク検出部55から供給された複数の時間区間の音声同期用特徴量、つまり複数の時間区間のピーク情報P(τ)を新たな1つの時間区間の情報として統合し、最終的な音声同期用特徴量としてのピーク情報P’(τ)を生成する。換言すれば、ダウンサンプル部56は、ピーク情報P(τ)をダウンサンプルすることでピーク情報P’(τ)を生成する。
なお、P’(τ)においてτは時間遅れを示すインデックスであり、iは時間区間を示すインデックスである。ダウンサンプル部56は、このようにして得られた時間区間ごとのピーク情報P’(τ)を、時間区間ごとの音声同期用特徴量の時系列データとして多重化処理部24に供給する。
ここで、図3を参照してピーク情報P’(τ)の生成について説明する。なお、図3において、縦軸は時間遅れを示すインデックスτを示しており、横軸は時間、すなわち時間区間を示すインデックスiを示している。
この例では図中、上側にはピーク情報P(τ)の系列が示されており、図中、下側にはピーク情報P’(τ)の系列が示されている。特に、図3では時間遅れがτであり、インデックスiにより特定される時間区間のピーク情報P(τ)がP(τ)で表されている。また、各四角形は1つの時間区間のピーク情報を表している。特に、白色の四角形は、その四角形により表されるピーク情報が0であることを表しており、黒色の四角形は、その四角形により表されるピーク情報が1であることを表している。
図中、上側に示されるピーク情報P(τ)の時間区間の長さは8msecとされている。つまり、ピーク情報P(τ)は8msecの時間間隔で算出されている。そして、ここでは時間遅れτが同じであり、時間方向(時間区間方向)に隣接する4つのピーク情報P(τ)が1つに統合され、1つのピーク情報P’(τ)とされる。したがって、1つのピーク情報P’(τ)の時間区間は32msecとなる。
例えばダウンサンプル部56は、次式(2)を計算することでピーク情報P(τ)を統合(ダウンサンプル)し、ピーク情報P’(τ)とする。
Figure 0006349977
この式(2)の計算では、統合される4つの連続するピーク情報P(τ)のうち、1つでも値が「1」であるピーク情報P(τ)がある場合、統合により得られたピーク情報P’(τ)の値は「1」とされる。逆に、統合される4つの連続するピーク情報P(τ)の値が全て「0」である場合に、統合により得られたピーク情報P’(τ)の値は「0」とされる。
このように時間区間方向に連続して並ぶピーク情報P(τ)の論理和を求めてダウンサンプルを行うことで、時間方向に並ぶピーク情報の系列に含まれているピーク位置に関する情報がダウンサンプルにより除去されてしまうことがなくなる。これにより、ダウンサンプル後においても、時間遅れ方向においてピーク位置に関する情報がどのように遷移していくかを保持することが可能となる。
例えば、ピーク情報P(τ)をダウンサンプルする際に、単純に複数の時間区間のピーク情報P(τ)のうちの1つのピーク情報P(τ)の値を、ダウンサンプル後のピーク情報P’(τ)の値として採用した場合、情報量が欠落し、同期計算の精度が低下する。つまり性能が劣化する。
具体的には、例えば4つの時間区間にわたってピーク位置が遷移している場合、単純にピーク情報P(τ)を間引いてピーク情報P’(τ)とすると、遷移途中の1つの時間区間のピーク情報P(τ)のみが最終的な特徴量として採用され、ピーク位置が遷移した情報は失われてしまう。
一方、上述したようにダウンサンプルの際に複数の時間区間のピーク情報P(τ)に基づいて適切な値をピーク情報P’(τ)として出力する手法では、ダウンサンプル後の時間区間の中で遷移が発生しているという情報を、ダウンサンプル後の1時間区間内に保持することができる。結果として、ダウンサンプル処理を行っても検出性能を保持することができる。
しかも、このようなダウンサンプル処理を行うことで、音声同期用特徴量を伝送する際の伝送量を削減することができる。また計算済み音声同期用特徴量をメモリやストレージに保持する際に、必要な容量を削減することができる。
さらに、2つの音声同期用特徴量間の同期処理を行う際の演算量を削減することができる。同期処理は入力特徴量の長さがn倍になると、その演算量がn倍となるため、ダウンサンプル処理の効果は大きい。一方、単純に間引き処理を行っただけでは、同期の検出性能が劣化してしまうため、ダウンサンプル部56によるダウンサンプル方法のように、必要な情報を保持したままでダウンサンプルを行う処理が必要となる。
なお、図3では、音声同期用特徴量としてのピーク情報を1/4にダウンサンプルする例について説明したが、1/2や1/8など、他のどのようなレートで変換(ダウンサンプル)することも可能である。
また、ピーク情報のダウンサンプルの際には、上述した式(2)の計算方法以外の方法を用いることもできる。
例えば、4つの時間区間のうちの2つの時間区間以上、ピーク情報P(τ)の値が「1」である場合にダウンサンプル後のピーク情報P’(τ)の値を「1」としてもよい。また、3つの時間区間以上、ピーク情報P(τ)の値が「1」である場合にダウンサンプル後のピーク情報P’(τ)の値を「1」としてもよいし、4つの全ての時間区間のピーク情報P(τ)の値が「1」である場合にダウンサンプル後のピーク情報P’(τ)の値を「1」としてもよい
さらに、ダウンサンプル前の4つの時間区間において2つの時間区間以上、連続してピーク情報P(τ)の値が「1」である場合にダウンサンプル後のピーク情報P’(τ)の値を「1」としてもよいし、3つの時間区間以上、連続してピーク情報P(τ)の値が「1」である場合にダウンサンプル後のピーク情報P’(τ)の値を「1」としてもよい。
また、以上においては時間軸方向(時間区間方向)にピーク情報P(τ)をダウンサンプルする方法について説明したが、ピーク情報P(τ)を時間遅れτ方向にダウンサンプルするようにしてもよい。
そのような場合、ダウンサンプル部56は例えば次式(3)を計算することでピーク情報P(τ)をダウンサンプルし、ピーク情報P’(τ)とする。
Figure 0006349977
式(3)の計算では、時間遅れτ方向に連続して並ぶ、同じ時間区間の4つのピーク情報P(τ)が統合されて1つのピーク情報P’(τ)とされる。
このとき、統合される4つの連続するピーク情報P(τ)のうち、1つでも値が「1」であるピーク情報P(τ)がある場合、統合により得られたピーク情報P’(τ)の値は「1」とされる。逆に、統合される4つの連続するピーク情報P(τ)の値が全て「0」である場合に、統合により得られたピーク情報P’(τ)の値は「0」とされる。
さらに、ピーク情報P(τ)を時間区間i方向および時間遅れτ方向の両方向にダウンサンプルするようにしてもよい。
そのような場合、ダウンサンプル部56は例えば次式(4)を計算することでピーク情報P(τ)をダウンサンプルし、ピーク情報P’(τ)とする。
Figure 0006349977
式(4)の計算では、時間区間i方向に連続して並ぶ、同じ時間遅れτの2つのピーク情報P(τ)と、それらの2つのピーク情報P(τ)に対して時間遅れτ方向に隣接して並ぶ2つのピーク情報P(τ)とからなる合計4つのピーク情報P(τ)が統合されて1つのピーク情報P’(τ)とされる。
このとき、統合される4つのピーク情報P(τ)のうち、1つでも値が「1」であるピーク情報P(τ)がある場合、統合により得られたピーク情報P’(τ)の値は「1」とされる。逆に、統合される4つのピーク情報P(τ)の値が全て「0」である場合に、統合により得られたピーク情報P’(τ)の値は「0」とされる。
以上のようにしてダウンサンプル部56は、ピーク情報P(τ)をダウンサンプルしてピーク情報P’(τ)を求めると、得られた新たな時間区間ごとのピーク情報P’(τ)を、時間区間ごとの音声同期用特徴量の時系列データとして多重化処理部24に供給する。
〈コンテンツ再生システムの構成例〉
次に、提供装置11から送信されるメイン送出信号とサブ送出信号を、それぞれメイン受信信号およびサブ受信信号として受信してメインコンテンツとサブコンテンツを再生するコンテンツ再生システムの構成について説明する。このようなコンテンツ再生システムは、例えば図4に示すように構成される。
図4に示すコンテンツ再生システムは、メイン受信機器81、表示部82、スピーカ83、マイクロホン84、サブ受信機器85、表示部86、およびスピーカ87を有している。なお、ここでは、コンテンツ再生システムが複数の装置から構成される場合を例として示しているが、コンテンツ再生システムは1つの装置から構成されるようにしてもよい。
メイン受信機器81は、提供装置11から送信されたメイン受信信号を受信し、メイン受信信号から得られるメインコンテンツの再生を制御する。
メイン受信機器81は、入力部111および再生処理部112を備えている。
入力部111は、提供装置11から送信されたメイン送出信号を、メイン受信信号として受信して再生処理部112に供給する。再生処理部112は、入力部111から供給されたメイン受信信号に含まれているメインコンテンツの画像信号と音声信号を抽出し、画像信号を表示部82に供給して再生させるとともに、音声信号をスピーカ83に供給して再生させる。すなわち、再生処理部112は、メインコンテンツの再生を制御する。
表示部82は、例えば液晶表示装置などからなり、再生処理部112から供給された画像信号に基づいて、メインコンテンツの画像(映像)を表示させる。スピーカ83は、音声再生装置であり、再生処理部112から供給された音声信号に基づいて、メインコンテンツの音声を出力する。
マイクロホン84は、スピーカ83から出力されたメインコンテンツの音声を収音し、その結果得られた音声信号をサブ受信機器85に供給する。
サブ受信機器85は、提供装置11から送信されたサブ送出信号を、サブ受信信号として受信し、サブ受信信号から得られるサブコンテンツの再生を制御する。
サブ受信機器85は、音声同期用特徴量計算部121、バッファ122、入力部123、分離処理部124、バッファ125、同期計算部126、および再生処理部127を備えている。
音声同期用特徴量計算部121は、マイクロホン84から供給された音声信号から、音声同期用特徴量を算出し、バッファ122に供給する。バッファ122は、音声同期用特徴量計算部121から供給された音声同期用特徴量を一時的に記録する。
入力部123は、提供装置11から送信されたサブ受信信号を受信して分離処理部124に供給する。分離処理部124は、入力部123から供給されたサブ受信信号を、音声同期用特徴量とサブチャンネル信号とに分離させて、バッファ125に供給する。バッファ125は、分離処理部124から供給された音声同期用特徴量とサブチャンネル信号を一時的に記録する。
同期計算部126は、バッファ122に記録されている音声同期用特徴量と、バッファ125に記録されている音声同期用特徴量とに基づいて、メインコンテンツとサブコンテンツとを同期させるための音声特徴量に基づく同期補正情報を生成し、再生処理部127に供給する。すなわち、同期計算部126は、収音して得られた音声信号から抽出した音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とのマッチング処理により、メインコンテンツとサブコンテンツとの再生時刻のずれを検出し、そのずれを示す音声特徴量に基づく同期補正情報を生成する。
再生処理部127は、同期計算部126から供給された同期補正情報に基づいて、バッファ125に記録されているサブチャンネル信号の再生タイミング(時刻)を補正し、サブチャンネル信号としての画像信号と音声信号を、それぞれ表示部86およびスピーカ87に供給する。すなわち、再生処理部127は、サブコンテンツの再生を制御する。例えばMPEG-4 Systemを用いて、音声同期用特徴量を1つのメディアオブジェクトとして扱い、サブチャンネル信号のメディアオブジェクトと同期および多重化している場合に、各メディアオブジェクトの最小単位であるAccess Unit(AU)にはそれぞれ時間属性が定義されているので、上記の同期補正情報からサブチャンネル信号のメディアオブジェクトの適切な再生タイミング(時刻)を算出することができる。
表示部86は、例えば液晶表示装置などからなり、再生処理部127から供給された画像信号に基づいて、サブコンテンツの画像(映像)を表示させる。スピーカ87は、音声再生装置であり、再生処理部127から供給された音声信号に基づいて、サブコンテンツの音声を出力する。
〈音声同期用特徴量計算部の構成例〉
また、図4に示した音声同期用特徴量計算部121は、より詳細には例えば図5に示すように構成される。
音声同期用特徴量計算部121は、周波数帯域分割部151、周期性検出部152−1乃至周期性検出部152−4、周期性強度検出部153−1乃至周期性強度検出部153−4、周期性情報統合部154、およびピーク検出部155を有している。
なお、これらの周波数帯域分割部151乃至ピーク検出部155は、図2に示した周波数帯域分割部51乃至ピーク検出部55と同様であるので、その説明は省略する。但し、周波数帯域分割部151と周波数帯域分割部51とでは、窓関数のシフト時間を異なった値に設定することも可能である。例えばサブ受信機器85の演算リソースが豊富な場合に、周波数帯域分割部151において、より短いシフト時間を用いることで、より細かい粒度での音声同期用特徴量の抽出が可能になる。
また、以下、周期性検出部152−1乃至周期性検出部152−4を特に区別する必要のない場合、単に周期性検出部152とも称し、周期性強度検出部153−1乃至周期性強度検出部153−4を特に区別する必要のない場合、周期性強度検出部153とも称する。
〈同期計算部の構成例〉
さらに、図4に示した同期計算部126は、より詳細には例えば図6に示すように構成される。
図6の同期計算部126は、フレームレート変換部181、フレームレート変換部182、ブロック統合部183、ブロック統合部184、類似度計算部185、および最適パス検索部186を有している。
フレームレート変換部181はバッファ122からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出し、音声同期用特徴量のフレームレートを変換してブロック統合部183に供給する。ここでいうフレームレートとは、音声同期用特徴量の時系列データにおける単位時間当たりの時間区間数、つまり時間区間の長さをいう。
フレームレート変換部182はバッファ125からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出し、音声同期用特徴量のフレームレートを変換してブロック統合部184に供給する。
バッファ122およびバッファ125にそれぞれ保持されている音声同期用特徴量はフレームレート、つまり時間区間の長さが異なる場合がある。
例えば提供装置11から提供されるサブコンテンツ(サブ送出信号)の転送ビットレートを削減するため、サブ送出信号に含まれている音声同期用特徴量が低レートに設定されている一方で、マイクロホン84で収音された音声から計算される音声同期用特徴量は、伝送の必要がないため高いレートに設定されている場合が考えられる。
このような場合、例えば図7に示すように、マイクロホン84で収音された音声から計算される音声同期用特徴量をダウンサンプル部56と同じ手法を用いてダウンサンプルすることが考えられる。なお、図7において各矢印Q11乃至矢印Q14に示される音声同期用特徴量としてのピーク情報の縦軸は時間遅れτを示しており、横軸は時間区間iを示している。また、1つの四角形は1つの時間区間におけるピーク情報を表している。
この例では、提供装置11側では、矢印Q11に示すように音声同期用特徴量としてのピーク情報が求められた後、そのピーク情報がダウンサンプルされ、矢印Q12に示す、より時間区間が長いピーク情報とされてサブ受信機器85へと伝送される。ここでは、8msecの時間区間のピーク情報が、32msecの時間区間のピーク情報へとフレームレート変換(ダウンサンプル)されている。
一方、サブ受信機器85の音声同期用特徴量計算部121では、メイン受信機器81で再生されたメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量が算出され、その結果、矢印Q13に示すピーク情報が音声同期用特徴量として得られる。ここでは矢印Q13に示すピーク情報は、8msecの時間区間ごとに算出されている。
このようにして音声同期用特徴量計算部121で得られた音声同期用特徴量と、提供装置11から受信した音声同期用特徴量とでは時間区間の長さ、つまりフレームレートが異なる。そこで、フレームレート変換部181は、それらの音声同期用特徴量のフレームレートが一致するように、音声同期用特徴量計算部121で得られた音声同期用特徴量に対してフレームレート変換としてダウンサンプルを行い、矢印Q14に示す音声同期用特徴量としてのピーク情報を得る。矢印Q14に示す音声同期用特徴量は、32msecの時間区間のピーク情報となっている。
このようにしてフレームレート(時間区間の長さ)が揃えられた後、音声同期用特徴量が用いられて同期計算が行われる。このようにサブ受信機器85側において音声同期用特徴量のダウンサンプルを行うことで、任意のフレームレート(ビットレート)に対応することができる。
また、サブ受信機器85に伝送されてくる音声同期用特徴量は高レートであるが、マイクロホン84で収音された音声から計算される音声同期用特徴量は低いレートになるケースもある。例えばサブ受信機器85の演算リソースが潤沢ではなく、音声同期用特徴量の計算に必要な演算量を削減するために、フレームシフト量を大きくするケースなどである。
そのような場合、例えば図8の矢印Q21に示す、サブ送出信号に含まれている音声同期用特徴量のフレームレートがダウンサンプル部56と同じ手法が用いられてフレームレート変換部182によってダウンサンプルされ、矢印Q22に示す音声同期用特徴量が得られる。なお、図8において各矢印Q21乃至矢印Q23に示される音声同期用特徴量としてのピーク情報の縦軸は時間遅れτを示しており、横軸は時間区間iを示している。また、1つの四角形は1つの時間区間におけるピーク情報を表している。
この例では、8msecの時間区間のピーク情報が、32msecの時間区間のピーク情報へとフレームレート変換(ダウンサンプル)されている。
また、サブ受信機器85の音声同期用特徴量計算部121では、メイン受信機器81で再生されたメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量が算出され、その結果、矢印Q23に示すピーク情報が音声同期用特徴量として得られる。ここでは矢印Q23に示すピーク情報は、32msecの時間区間ごとに算出されている。
このようにサブ送出信号に含まれている音声同期用特徴量をダウンサンプルして、サブ送出信号に含まれている音声同期用特徴量のフレームレートと、サブ受信機器85で算出される音声同期用特徴量のフレームレートとを一致させるようにしてもよい。
さらに、上記説明ではよりフレームレートが高い音声同期用特徴量をダウンサンプルすることでフレームレートを一致させたが、よりフレームレートが低い音声同期用特徴量をアップサンプルすることでフレームレートを一致させてもよい。
そのような場合、例えば図9に示すようにサブ送出信号に含まれている音声同期用特徴量のフレームレートがフレームレート変換部182によってアップサンプルされる。なお、図9において各矢印Q31乃至矢印Q34に示される音声同期用特徴量としてのピーク情報の縦軸は時間遅れτを示しており、横軸は時間区間iを示している。また、1つの四角形は1つの時間区間におけるピーク情報を表している。
この例では、提供装置11側では、矢印Q31に示すように音声同期用特徴量としてのピーク情報が求められた後、ダウンサンプルが行われて矢印Q32に示す、より時間区間が長いピーク情報とされてサブ受信機器85へと伝送される。ここでは、8msecの時間区間のピーク情報が、32msecの時間区間のピーク情報へとフレームレート変換(ダウンサンプル)されている。
一方、サブ受信機器85の音声同期用特徴量計算部121では、メイン受信機器81で再生されたメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量が算出され、その結果、矢印Q33に示すピーク情報が音声同期用特徴量として得られる。ここでは矢印Q33に示すピーク情報は、8msecの時間区間ごとに算出されている。
この例では、音声同期用特徴量計算部121により算出された音声同期用特徴量と、提供装置11から受信した音声同期用特徴量とではフレームレートが一致していない状態となっている。
そこで、フレームレート変換部182は、提供装置11から受信した音声同期用特徴量としてのピーク情報をアップサンプルし、矢印Q34に示す8msecの時間区間のピーク情報を算出することで、同期計算に用いる音声同期用特徴量の時間同期の粒度を揃える。例えばフレームレート変換部182は、次式(5)を計算することで、ピーク情報をアップサンプルする。
Figure 0006349977
式(5)の計算では、時間遅れτが同じであり、時間方向(時間区間方向)に隣接するアップサンプル後の4つのピーク情報Pi(τ)と同じ位置関係にあるアップサンプル前の1つのピーク情報P’i(τ)の値が、そのままアップサンプル後の4つの各ピーク情報Pi(τ)の値とされている。
このように同期計算に用いる音声同期用特徴量を、より高いフレームレートに合わせて適宜アップサンプルすることで、疑似的に高分解能な同期精度を実現することができる。
さらに、サブ受信機器85での演算リソース削減のため、サブ送出信号に含まれている音声同期用特徴量と、音声同期用特徴量計算部121で算出された音声同期用特徴量との両方をダウンサンプルすることも可能である。
以上のようにフレームレート変換部181およびフレームレート変換部182を有することで、異なるフレームレートの音声同期用特徴量間の同期を行うことができるようになる。また、演算リソースや伝送帯域などに応じて様々なフレームレートを指定できるようになり、システムの柔軟性を高めることができる。
図6の説明に戻り、ブロック統合部183は、フレームレート変換部181からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受け、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位で統合する。ブロック統合部183は、ブロック単位の音声同期用特徴量の時系列データを類似度計算部185に供給する。
ブロック統合部184は、フレームレート変換部182からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受け、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位で統合する。ブロック統合部184は、ブロック単位の音声同期用特徴量の時系列データを類似度計算部185に供給する。
なお、ブロックを構成する複数の時間区間は、連続していなくてもよい。例えば、複数の偶数番目の時間区間を1ブロックとしたり、複数の奇数番目の時間区間を1ブロックとしたりすることもできる。この場合、時間区間ごとの音声同期用特徴量の時系列データに対して間引き処理を行うことができるので、演算量を削減することができる。
類似度計算部185は、ブロック統合部183とブロック統合部184のそれぞれから供給されたブロック単位の音声同期用特徴量の時系列データ同士の類似度を計算し、各ブロック間の類似度を表す類似度マトリックスを生成する。類似度計算部185は、類似度マトリックスを最適パス検索部186に供給する。
最適パス検索部186は、類似度計算部185から供給された類似度マトリックスから最適な類似度のパスを検索し、そのパス上の類似度に対応する2つのブロックの時間差を表す情報を音声特徴量に基づく同期補正情報として生成する。そして、最適パス検索部186は、音声特徴量に基づく同期補正情報を再生処理部127に供給する。
以上のように、同期計算部126は、音声信号のピッチ情報に基づいて、音声特徴量に基づく同期補正情報を生成する。したがって、音声信号ごとに異なるノイズが含まれる場合などにおいても、ロバストに音声特徴量に基づく同期補正情報を生成することができる。
すなわち、人間は、周波数特性を有する複数の音を聞いた場合、共通成分として、同一の基本周波数を有する音、つまりピッチが同一である音を知覚することにより、ノイズ音が含まれている場合であっても、共通成分を容易に知覚することができる。本技術は、このことを考慮して、ピッチ情報に基づいて同期補正情報を生成することにより、ノイズ音に対してロバストに同期補正情報を生成する。
〈類似度の計算と最適な類似度のパスの検索について〉
ここで、類似度の計算と最適な類似度のパスの検索について説明する。
図10は、類似度の計算の対象とするブロックを説明する図である。
なお、図10においてiは、音声同期用特徴量計算部121で得られた音声同期用特徴量のブロックのインデックスであり、jは、サブ受信信号に含まれている音声同期用特徴量のブロックのインデックスである。なお、より詳細には、これらの音声同期用特徴量は、適宜、フレームレート変換部181やフレームレート変換部182によりフレームレート変換されるが、ここでは説明を簡単にするため、フレームレート変換は行われないものとして類似度の計算についての説明を続ける。
また、X(i)は、音声同期用特徴量計算部121で得られた音声同期用特徴量のうちのインデックスiのブロックの音声同期用特徴量の時系列データを表し、Y(j)は、サブ受信信号に含まれている音声同期用特徴量のうちのインデックスjのブロックの音声同期用特徴量の時系列データを表す。
図10に示すように、類似度の計算の対象は、n個のX(i)のそれぞれと、m個のY(j)のそれぞれとの、n×m個の組み合わせである。
図11は、類似度の計算方法を説明する図である。
なお、図11のマトリックスでは、横軸が、ブロック内の時間区間の先頭からの個数を表すブロック内時間区間番号を表し、縦軸がインデックスτを表している。また、白色の正方形は、対応するブロック内時間区間番号の時間区間のインデックスτの音声同期用特徴量の時系列データP(τ)が0であることを表し、黒色の正方形は、その時系列データP(τ)が1であることを表している。さらに、図11の例では、ブロックを構成する時間区間の個数が4個であり、τが0乃至3であるものとする。
図11に示すように、X(i)とY(j)の類似度を計算する場合、まず、X(i)とY(j)の論理積X(i)∩Y(j)が計算され、次に、X(i)とY(j)の論理和X(i)∪Y(j)が計算される。例えば、図11に示すように、9個の0と7個の1からなるX(i)とY(j)の類似度を計算する場合、まず、12個の0と4個の1からなる論理積X(i)∩Y(j)が計算され、6個の0と10個の1からなる論理和X(i)∪Y(j)が計算される。
そして、次式(6)により、論理積X(i)∩Y(j)の1の数であるNumber(X(i)∩Y(j))と論理和の1の数であるNumber(X(i)∪Y(j))に基づいて、X(i)とY(j)の類似度A(i,j)が計算される。
Figure 0006349977
図11の例では、Number(X(i)∩Y(j))が4であり、Number(X(i)∪Y(j))が10であるので、類似度A(i,j)は0.4となる。
なお、音声同期用特徴量の時系列データとして、周期性情報の総和S(τ)を採用した場合には、類似度の計算方法としてコサイン距離を用いて類似度を計算する方法などを採用することができる。
また、類似度マトリックスは、例えば横軸がインデックスjとされ、縦軸がインデックスiとされた、インデックスiとインデックスjに対応する各点の類似度A(i,j)を示す情報である。
最適パス検索部186は、動的計画法を用いて、類似度マトリックス上のパスの類似度の積算値が最大となるパスを最適な類似度のパスとして検索する。最適パス検索部186は、最適な類似度のパス上の類似度に対応するインデックスの差分i−jを、音声特徴量に基づく同期補正情報として生成する。
〈送信処理の説明〉
続いて、提供装置11の動作について説明する。
提供装置11は、互いに時間同期がとれているメインチャンネル信号とサブチャンネル信号が供給されると、送信処理を行って、メイン送出信号およびサブ送出信号を送信する。以下、図12のフローチャートを参照して、提供装置11による送信処理について説明する。
ステップS11において、音声同期用特徴量計算部23は、音声同期用特徴量算出処理を行って、供給されたメインチャンネル信号を構成する音声信号から、音声同期用特徴量を計算し、多重化処理部24に供給する。
なお、音声同期用特徴量算出処理の詳細は後述する。
ステップS12において、変換部21は、供給されたメインチャンネル信号を、システムが規定する所定の伝送フォーマットの信号に変換することでメイン送出信号を生成し、得られたメイン送出信号を出力部22に供給する。
ステップS13において、出力部22は、変換部21から供給されたメイン送出信号を送信する。
ステップS14において、多重化処理部24は、音声同期用特徴量とサブチャンネル信号との多重化処理を行い、その結果得られたサブ送出信号を出力部25に供給する。
例えば多重化処理部24は、供給されたメインチャンネル信号を用いて、音声同期用特徴量計算部23からの音声同期用特徴量と、供給されたサブチャンネル信号との時間同期関係が符合するように、システムが規定する伝送フォーマットにより音声同期用特徴量とサブチャンネル信号を多重化する。
これにより、例えば図13に示すサブ送出信号が得られる。
図13の例では、サブ送出信号としてのビットストリームにおける区間T11と区間T12には、それぞれ1フレーム分の画像信号、音声信号、および音声同期用特徴量が含まれている。
例えば、区間T11に含まれる画像信号と音声信号は、1フレーム分のサブチャンネル信号であり、区間T11に含まれる音声同期用特徴量は、そのサブチャンネル信号に時間的に対応するフレームのメインチャンネル信号から抽出された、音声同期用特徴量である。このように、サブ送出信号では、同じフレームのサブチャンネル信号と音声同期用特徴量とが対応付けられて多重化されており、サブ送出信号の受信側では、各フレームのサブチャンネル信号に対応付けられた音声同期用特徴量が特定できるようになされている。
図12のフローチャートの説明に戻り、ステップS15において、出力部25は、多重化処理部24から供給されたサブ送出信号を送信し、送信処理は終了する。
以上のようにして、提供装置11は、メインチャンネル信号から得られた音声同期用特徴量と、サブチャンネル信号とを対応付けて多重化することでサブ送出信号を生成し、サブ送出信号とメイン送出信号を送信する。
このようにサブチャンネル信号に音声同期用特徴量を対応付けて送信することで、受信側においては、メインチャンネル信号とサブチャンネル信号を、異なる伝送路を介して複数の異なる機器で受信した場合においても、音声同期用特徴量を用いて、メインコンテンツとサブコンテンツを、同期を保って再生することができるようになる。
〈音声同期用特徴量算出処理の説明〉
次に、図14のフローチャートを参照して、図12のステップS11の処理に対応する音声同期用特徴量算出処理について説明する。
ステップS41において、周波数帯域分割部51は、供給された音声信号を、窓関数を用いて、数10msec乃至100msec程度の時間区間に分割する。
ステップS42において、周波数帯域分割部51は、複数のバンドパスフィルタを用いて、時間区間ごとの音声信号を4つの周波数帯域に分割する。周波数帯域分割部51は、各周波数帯域の音声信号を、周期性検出部52−1乃至周期性検出部52−4のそれぞれに供給する。
ステップS43において、周期性検出部52は、周波数帯域分割部51から供給された所定の周波数帯域の時間区間ごとの音声信号の自己相関関数x(b,τ)を計算することにより、時間区間ごとの周期性情報を抽出し、周期性強度検出部53および周期性情報統合部54に供給する。なお、ステップS43の処理は、周期性検出部52ごとに行われる。
ステップS44において、周期性強度検出部53は、周期性検出部52から供給された時間区間ごとの周期性情報に基づいて、時間区間ごとの周期性の強度を計算する。そして、周期性強度検出部53は、時間区間ごとの周期性の強度を、閾値を超えたかどうかで2値化することにより、時間区間ごとの周期性強度情報を生成し、周期性情報統合部54に供給する。なお、ステップS44の処理は、周期性強度検出部53ごとに行われる。
ステップS45において、周期性情報統合部54は、周期性検出部52から供給された時間区間ごとの周期性情報と、周期性強度検出部53から供給される時間区間ごとの周期性強度情報とに基づいて、上述した式(1)を用いて周期性統合処理を行う。周期性情報統合部54は、周期性統合処理の結果得られる時間区間ごとの周期性情報の総和S(τ)をピーク検出部55に供給する。
ステップS46において、ピーク検出部55は、時間区間ごとに、周期性情報統合部54から供給された周期性情報の総和S(τ)に対してピーク検出を行い、ピーク情報P(τ)を生成し、ダウンサンプル部56に供給する。
ステップS47において、ダウンサンプル部56は、ピーク検出部55から供給された複数の時間区間におけるピーク情報P(τ)を1つの時間区間に統合することで、ピーク情報のダウンサンプル処理を行う。
ダウンサンプル部56は、このようにして得られた時間区間ごとのピーク情報を、時間区間ごとの音声同期用特徴量の時系列データとして多重化処理部24に供給し、音声同期用特徴量算出処理は終了する。音声同期用特徴量算出処理が終了すると、その後、処理は図12のステップS12へと進む。
音声同期用特徴量計算部23では、以上のようにして周期性情報に基づいて音声同期用特徴量を算出するので、音声同期用特徴量をロバストに生成することができる。
〈メインコンテンツ再生処理の説明〉
また、提供装置11からメイン送出信号が送信されると、コンテンツ再生システムは、そのメイン送出信号を、メイン受信信号として取得して、メインコンテンツを再生する。以下、図15のフローチャートを参照して、コンテンツ再生システムによるメインコンテンツ再生処理について説明する。
ステップS71において、入力部111は、メイン受信信号を取得して再生処理部112に供給する。例えば入力部111は、提供装置11から送信されたメイン受信信号を受信することで、メイン受信信号を取得する。
ステップS72において、再生処理部112は、入力部111から供給されたメイン受信信号に基づいてメインコンテンツを再生させ、メインコンテンツ再生処理は終了する。
例えば、再生処理部112は、メイン受信信号から、メインコンテンツの画像信号と音声信号を抽出し、画像信号を表示部82に供給して再生させるとともに、音声信号をスピーカ83に供給して再生させる。これにより、メインコンテンツが再生される。
以上のようにして、コンテンツ再生システムは、メイン受信信号を取得してメインコンテンツを再生する。
〈サブコンテンツ再生処理の説明〉
また、メインコンテンツの再生と同期して、コンテンツ再生システムは、サブ受信信号を取得して、サブコンテンツを再生する。以下、図16のフローチャートを参照して、コンテンツ再生システムによるサブコンテンツ再生処理について説明する。
ステップS101において、入力部123は、サブ受信信号を取得して分離処理部124に供給する。例えば入力部123は、提供装置11から送信されたサブ送出信号を、サブ受信信号として受信することで、サブ受信信号を取得する。
ステップS102において、分離処理部124は、入力部123から供給されたサブ受信信号を、サブチャンネル信号と音声同期用特徴量とに分離させ、分離されたサブチャンネル信号と音声同期用特徴量をバッファ125に供給して記録させる。
ステップS103において、マイクロホン84は、スピーカ83から出力されたメインコンテンツの音声を収音し、その結果得られた音声信号を音声同期用特徴量計算部121に供給する。例えばステップS103では、図15のステップS72の処理で再生されたメインコンテンツの音声が収音される。
ステップS104において、音声同期用特徴量計算部121は、音声同期用特徴量算出処理を行って、マイクロホン84から供給された音声信号から音声同期用特徴量を計算し、バッファ122に供給して記録させる。
なお、音声同期用特徴量算出処理として、図17のフローチャートに示すステップS131乃至ステップS136の処理が行われるが、これらの処理は図14のステップS41乃至ステップS46の処理と同様であるので、その説明は省略する。但し、図17に示す音声同期用特徴量算出処理では、マイクロホン84から供給された音声信号から音声同期用特徴量が計算され、バッファ122に蓄積される。また、音声同期用特徴量計算部121では、ピーク検出部155で得られたピーク情報が音声同期用特徴量とされる。
図16のフローチャートの説明に戻り、ステップS105において、同期計算部126は、同期補正情報生成処理を行って、音声特徴量に基づく同期補正情報を生成し、再生処理部127に供給する。なお、同期補正情報生成処理の詳細は後述するが、この処理では、バッファ122に記録されている音声同期用特徴量と、バッファ125に記録されている音声同期用特徴量とを比較することで、メインコンテンツとサブコンテンツとを同期させるための音声特徴量に基づく同期補正情報が生成される。
ステップS106において、再生処理部127は、同期計算部126から供給された音声特徴量に基づく同期補正情報に基づいて、バッファ125に記録されているサブチャンネル信号の再生タイミングを補正し、補正後のサブチャンネル信号に基づいてサブコンテンツを再生させる。
すなわち、再生処理部127は、サブチャンネル信号を構成する画像信号と音声信号を、音声特徴量に基づく同期補正情報により示される時間だけ遅くまたは早く表示部86とスピーカ87に供給し、再生させる。換言すれば、音声特徴量に基づく同期補正情報から特定される、現在時刻において再生されているメインコンテンツの部分と対応する再生時刻のサブコンテンツの部分が再生される。
例えば、サブコンテンツをメインコンテンツと同期させるための再生位置の調整(補正)は、サブコンテンツやメインコンテンツの無音区間で行われる。
表示部86は、再生処理部127から供給された画像信号に基づいて、サブコンテンツの画像を表示し、スピーカ87は、再生処理部127から供給された音声信号に基づいて、サブコンテンツの音声を出力する。
このようにして、メインコンテンツと同期してサブコンテンツが再生されると、サブコンテンツ再生処理は終了する。
以上のようにして、コンテンツ再生システムは、再生されているメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量を計算し、得られた音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基く同期補正情報を計算する。また、コンテンツ再生システムは、得られた同期補正情報を用いてサブコンテンツを、メインコンテンツと同期させて再生する。
このように、収音して得られた音声信号から抽出された音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基づく同期補正情報を計算することで、メインコンテンツとサブコンテンツとの伝送経路が異なる場合であっても、それらのコンテンツを同期して再生することができる。
なお、この例では、音声同期用特徴量の同期計算、つまりマッチング処理は、毎フレーム行われるが、音声同期用特徴量の同期計算は、必ずしも時間的に連続して行われる必要はなく、間欠的に行われるようにしてもよい。但し、同期計算を連続的に行った方がサブコンテンツの再生時刻(再生位置)の補正時に、違和感なく補正を行うことができる。
〈同期補正情報生成処理の説明〉
さらに、図18のフローチャートを参照して、図16のステップS105の処理に対応する同期補正情報生成処理について説明する。
ステップS161において、フレームレート変換部181およびフレームレート変換部182は、必要に応じてフレームレート変換処理を行う。
すなわち、フレームレート変換部181は、バッファ122からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出して、必要に応じて音声同期用特徴量をフレームレート変換、つまりダウンサンプルし、ブロック統合部183に供給する。また、フレームレート変換部182は、バッファ125からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出して、必要に応じて音声同期用特徴量をフレームレート変換、つまりダウンサンプルまたはアップサンプルし、ブロック統合部184に供給する。
ステップS162において、ブロック統合部183およびブロック統合部184は、音声同期用特徴量の時系列データを統合する。
具体的には、ブロック統合部183は、フレームレート変換部181からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受ける。そして、ブロック統合部183は、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位で、供給された時間区間ごとの音声同期用特徴量の時系列データを統合し、類似度計算部185に供給する。
また、ブロック統合部184は、フレームレート変換部182からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受ける。そして、ブロック統合部184は、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位で、供給された時間区間ごとの音声同期用特徴量の時系列データを統合し、類似度計算部185に供給する。
ステップS163において、類似度計算部185は、ブロック統合部183とブロック統合部184のそれぞれから供給されたブロック単位の音声同期用特徴量の時系列データ同士の類似度を計算し、各ブロック間の類似度を表す類似度マトリックスを生成する。類似度計算部185は、類似度マトリックスを最適パス検索部186に供給する。
ステップS164において、最適パス検索部186は、類似度計算部185から供給された類似度マトリックスから最適な類似度のパスを検索し、音声特徴量に基づく同期補正情報を生成する。そして、最適パス検索部186は、音声特徴量に基づく同期補正情報を再生処理部127に供給して、同期補正情報生成処理は終了する。
以上のようにして、コンテンツ再生システムは、周期性情報に基づいて音声特徴量に基づく同期補正情報を生成するので、同期補正情報をロバストに生成することができる。
なお、以上においては、メインコンテンツが1つである場合について説明したが、メインコンテンツが複数あってもよい。
そのような場合、提供装置11の音声同期用特徴量計算部23は、複数のメインコンテンツごとに音声同期用特徴量を計算し、多重化処理部24は、1つのサブコンテンツのサブチャンネル信号と、複数のメインコンテンツの音声同期用特徴量とを多重化し、サブ送出信号とする。また、出力部22は、複数のメインコンテンツのメインチャンネル信号から得られたメイン送出信号を送信する。
さらに、この場合、図4に示したコンテンツ再生システムでは、再生処理部112は、複数のメインコンテンツのうちの1つを選択して再生する。また、入力部123は、1つのサブチャンネル信号に対して、複数のメインコンテンツの音声同期用特徴量が対応付けられているサブ受信信号を受信する。
そして、同期計算部126は、入力部123で取得された各メインコンテンツの音声同期用特徴量と、音声同期用特徴量計算部121で得られた音声同期用特徴量とを比較して類似度を計算し、スピーカ83で再生されているメインコンテンツを特定する。例えば、音声同期用特徴量とのマッチングの結果、最も類似度の高い音声同期用特徴量のメインコンテンツが、再生されているメインコンテンツであるとされる。
再生されているメインコンテンツが特定されると、特定されたメインコンテンツの音声同期用特徴量について得られた同期補正情報に基づいて、サブコンテンツの再生位置が補正される。すなわち、同期計算部126は、特定されたメインコンテンツと、サブコンテンツとを同期させるための音声特徴量に基づく同期補正情報を生成する。
〈本技術の適用例1〉
また、以上において説明した本技術は、様々な形態のシステムに適用することができる。
例えば、本技術は図19に示すシステムに適用可能である。
図19に示すシステムでは、例えば放送局などの提供装置211が、図1の提供装置11に対応する。提供装置211は、メインコンテンツとサブコンテンツとを提供する。
この例では、提供装置211は、メインコンテンツのメイン送出信号を、例えば放送波により放送することで、メイン受信機器212にメイン送出信号を送信する。そして、メイン受信機器212は、放送波により送信されたメイン送出信号を、メイン受信信号として受信してメインコンテンツを再生する。このとき、メイン受信機器212は、メインコンテンツの音声を、メイン受信機器212に備えられたスピーカ213から出力する。
したがって、この例ではメイン受信機器212は、図4に示したメイン受信機器81、表示部82、およびスピーカ83から構成されることになる。この場合、入力部111が、放送波により放送されたメイン受信信号を受信する。また、スピーカ213が、図4のスピーカ83に対応することになる。
例えば、メイン受信機器212は、テレビジョン受像機などとされ、ユーザはメイン受信機器212で再生されるメインコンテンツを視聴する。
一方、提供装置211からは、サブ送出信号も送信される。この例では提供装置211はサブ送出信号を、例えばインターネットなどの通信網214を介して、ストリーミング配信等によりサブ受信機器215に送信する。ここでは、サブ送信信号は、いわゆるプッシュ型の通信により送信される。
また、サブ受信機器215は、例えばタブレット型の端末装置などからなり、通信網214を介して送信されてきたサブ送信信号を、サブ受信信号として受信して、サブコンテンツを再生する。すなわち、サブ受信機器215は、内蔵する表示部にサブコンテンツの画像を表示させるとともに、内蔵するスピーカからサブコンテンツの音声を出力させる。
このとき、サブ受信機器215は、スピーカ213から出力されたメインコンテンツの音声を収音して音声同期用特徴量を計算し、得られた音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基づく同期補正情報を生成する。そして、サブ受信機器215は、音声特徴量に基づく同期補正情報を用いてサブコンテンツを、メインコンテンツと同期させて再生させる。
これにより、メイン受信機器212で再生されるメインコンテンツと、サブ受信機器215で再生されるサブコンテンツとが同期した状態で再生されることになり、ユーザは、適宜、サブコンテンツを見聞きしながら、メインコンテンツを視聴することができる。つまり、サブコンテンツを、例えばメインコンテンツの補助情報として活用しながら、メインコンテンツを楽しむことができる。
この例では、サブコンテンツのサブチャンネル信号は、例えばメインコンテンツの映像とは別アングルの映像の画像信号や、メインコンテンツに対するコメンタリー音声の音声信号、メインコンテンツに関連する文字情報などとされる。
この場合、サブ受信機器215は、例えば図4に示したマイクロホン84、サブ受信機器85、表示部86、およびスピーカ87から構成されることになる。したがって、入力部123は、通信網214を介して送信されてきたサブ送信信号を、サブ受信信号として受信することになる。
以上のように、図19の例では、プッシュ型の通信で、互いに異なる伝送経路で送信されたメインコンテンツとサブコンテンツを、受信側において簡単かつ高精度に同期させて再生することができる。なお、この例では、サブ送出信号は、メイン送出信号に先んじて送出される必要がある。すなわち、メイン送出信号のメイン受信機器212への到着時刻と、サブ送出信号のサブ受信機器215への到着時刻の差(到着時間差)を考慮した時間差で、メイン送出信号とサブ送出信号の送信が行われる必要がある。
〈本技術の適用例2〉
また、本技術は、例えば図20に示すシステムにも適用可能である。なお、図20において、図19における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図20の例では、図19の例と同様に、提供装置211から放送波により、つまりプッシュ型の通信によりメイン送出信号がメイン受信機器212に送信される。
これに対して、サブ送出信号は、サーバ241により通信網214を介してサブ受信機器215に送信される。なお、サーバ241は、何らかの方法により、予めサブ送出信号を提供装置211等から取得して記録している。
この例では、サブ送出信号は、いわゆるプル型の通信により送信される。したがって、サーバ241は、サブ受信機器215からサブ送出信号の送信要求があったとき、通信網214を介して、サブ送出信号をサブ受信機器215に送信する。
すなわち、サブ受信機器215に対応する図4のサブ受信機器85の入力部123は、サーバ241にサブ送出信号の送信要求を送信するとともに、その送信要求に応じてサーバ241から送信されてきたサブ送出信号を、サブ受信信号として受信する。
この場合、サブ受信機器215は、メインコンテンツの放送前に予めサブ送出信号を受信して記録しておくことができる。したがって、予めサブ送出信号を受信して記録しておけば、メインコンテンツの放送時に、通信網214の状態等によってサブコンテンツをメインコンテンツと同期して再生させることができないなどの事態を防止することができる。
サブ受信機器215は、メイン受信機器212でのメインコンテンツの再生が開始されると、スピーカ213から出力されたメインコンテンツの音声を収音して音声同期用特徴量を計算する。そして、サブ受信機器215は、得られた音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基づく同期補正情報を生成し、同期補正情報を用いてサブコンテンツを、メインコンテンツと同期させて再生させる。
このように図20の例では、サブ受信機器215が自身に都合のよいタイミングでサブ受信信号を取得することができる。
〈本技術の適用例3〉
また、本技術は、例えば図21に示すシステムにも適用可能である。なお、図21において、図20における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図21の例では、メインコンテンツ、つまりメイン送出信号は、サーバ241とは異なるサーバ271により提供される。すなわち、サーバ271はメイン受信機器212から要求があったとき、通信網272を介して、記録しているメイン送出信号をメイン受信機器212に送信する。つまり、この例ではメイン送出信号はプル型の通信により送信される。
具体的には、メイン受信機器212に対応する図4のメイン受信機器81の入力部111は、サーバ271にメイン送出信号の送信要求を送信するとともに、その送信要求に応じてサーバ271から送信されてきたメイン送出信号を、メイン受信信号として受信する。
この場合、メイン受信機器212は、予めメイン送出信号を受信して記録しておくことができる。したがって、予めメイン送出信号を受信して記録しておけば、メインコンテンツの再生時に通信網272の状態等によってメインコンテンツの再生が途中で途切れたり、停止したりするなどの事態を防止することができる。
また、サブ送出信号は図20の例と同様に、サーバ241によってプル型の通信により送信される。
サブ受信機器215は、メイン受信機器212でのメインコンテンツの再生が開始されると、スピーカ213から出力されたメインコンテンツの音声を収音して音声同期用特徴量を計算する。そして、サブ受信機器215は、得られた音声同期用特徴量と、サブ受信信号に含まれている音声同期用特徴量とを用いて音声特徴量に基づく同期補正情報を生成し、同期補正情報を用いてサブコンテンツを、メインコンテンツと同期させて再生させる。
このように図21の例では、メイン受信機器212とサブ受信機器215が、それぞれ自身に都合のよいタイミングでメイン受信信号とサブ受信信号を取得することができる。
なお、仮に通信網272が通信網214と同一の通信網であったとしても、メイン送信信号とサブ送信信号の送信タイミングや受信する機器等が異なれば、通常、これらのメイン送信信号とサブ送信信号の伝送経路は異なる経路となる。
〈第2の実施の形態〉
〈本技術の特徴〉
ところで、上述した(A1)乃至(A4)に示した例のように時間同期関係を有する複数のメディアコンテンツを、放送やIP(Internet Protocol)網などを通じて複数機器で受信し、受信したメディアコンテンツを同期して再生するというアプリケーションプログラムが想定される。
このような機能性の実現のために、Hybridcastのように放送でコンテンツを配信すると同時に、IP網により個別に追加コンテンツを配信し、コンテンツ受信機では、放送により配信されたコンテンツと、IP網により配信された追加コンテンツを時間的に同期させて同時に出力するという放送通信連携サービスに向けたシステムの研究開発がされている。
例えば、Hybridcastについては「松村欣司、鹿喰善明、Michael J Evans,「インターネット配信情報との連動による放送番組パーソナライズシステムの検討」、映像情報メディア学会年次大会講演予稿集、2009年8月26日、p.3−8」(以下、非特許文献1とも称する)に記載されている。
また、「日本放送協会,「HybridcastTMの概要と技術」,NHK技研R&D,no.124, p.10-17, 2010年11月,日本放送出版協会,http://www.nhk.or.jp/strl/publica/rd/rd124/PDF/P10-17.pdf」(以下、非特許文献2とも称する)や、「日本放送協会,「HybridcastTMを支える技術」,NHK技研R&D,no.133, p.20-27, 2012年5月,日本放送出版協会,http://www.nhk.or.jp/strl/publica/rd/rd133/PDF/P20-27.pdf」(以下、非特許文献3とも称する)などにもHybridcastについて記載されている。
Hybridcastでは、放送ストリームの基準クロック(PCR(Program Clock Reference))に基づく提示時間情報(PTS(Presentation Time Stamp))を付加した追加コンテンツを放送コンテンツの送出と同時、あるいは少し先んじてストリーミング配信し、受信機で、通信コンテンツの遅延と変動を吸収するために十分な量のバッファを持ち、放送コンテンツを遅らせ、両者のタイムスタンプを比較することで同期をとることを基本原理としている。
例えば、非特許文献2によれば、両受信機が同一機器内にある試作環境において1映像フレーム内(33ms)程度の精度で同期がとれることが確認できている。
追加コンテンツを受信する機器は、IP網に無線接続されるスマートホンやタブレット型のパーソナルコンピュータといった放送コンテンツの受信機と独立な機器でもよい。そのような場合には、放送コンテンツ受信機は、追加コンテンツを受信する機器に対して、提示時刻情報(タイムスタンプ)を提供する必要がある。これは通常IP網を介して連携される。
また、放送でなくともIP網などのネットワーク経由のみで複数コンテンツを配信して、協定世界時(UTC(Coordinated Universal Time))を基準クロックとしてタイムスタンプを付加し、受信機側で同期を行い、出力するシステムの実現も容易に想像できる。
実際、上記のような放送通信連携サービスを独立した受信機で利用する場合、タイムスタンプの比較による方法では、以下の2つの要因により厳密な同期をとることが困難である。
まず、第1に、放送コンテンツ受信機と追加コンテンツ受信機は独立した電子機器である以上、システムクロックに差異があり、時間の経過とともに同期ずれが発生する。
また、第2に、ユーザはテレビジョン受像機などの放送コンテンツ受信機からある程度距離をおき、スマートホンやタブレット型パーソナルコンピュータなどの追加コンテンツ受信機を手元に持ち、IP網経由で配信される追加コンテンツを楽しむという使用形態が想定される。この使用形態で放送コンテンツ、および追加コンテンツに音声信号が含まれる場合、ユーザの視聴位置で厳密な同期を取ることが困難になる。
例えば、ユーザが放送コンテンツ受信機から10m離れている場合、放送コンテンツ受信機から出力された音声信号がユーザ位置に到達するには10(m)/340(m/s)=約30(ms)の時間を要することになる。ここで、音速は約340(m/s)である。
また、第1の実施の形態では、放送コンテンツ受信機が出力する音声を追加コンテンツ受信機が収音し、音声同期用特徴量を計算して、IP網で配信されてくる放送コンテンツの音声同期用特徴量と同期計算を行う手法となっている。しかし、IP網の伝送遅延や、ゆらぎなどが大きい場合には、広範囲にわたり同期位置のサーチを行う必要があり、処理量が多くなってしまう。
そこで、上述した提供装置とコンテンツ再生システムが、以下の特徴B11乃至特徴B20を有するようにすることで、異なる経路で取得した複数のコンテンツを、さらに少ない処理量で同期させることができるようになる。
(特徴B11)
メディアコンテンツは映像、音声、画像、文字情報などを多重化したデータストリームとされている。
なお、この(特徴B11)のデータストリームの伝送としては、放送波、インターネットなどのネットワークにおけるメディアコンテンツの伝送を想定し、多重化データストリームが占有する論理伝送路を伝送路と呼ぶこととする。
(特徴B12)
伝送対象とする複数メディアコンテンツは時間同期関係を有する。
(特徴B13)
送出対象とする複数のメディアコンテンツのうち少なくとも1つをメインチャンネル信号と定め、残りの各メディアコンテンツをサブチャンネル信号とする。
(特徴B14)
基準時刻信号からメインチャンネル信号、およびサブチャンネル信号のそれぞれについて提示時刻情報(PTC)を生成する。
ここで、基準時刻信号は放送ストリームの基準クロック(PCR)または協定世界時(UTC)などが用いられる。
(特徴B15)
メインチャンネル信号の提示時刻情報をメインチャンネル信号と多重化し、メイン送出信号を生成して伝送する。一方、メインチャンネル信号の音声信号から音声同期用特徴量も算出しておく。
(特徴B16)
メインチャンネル信号とサブチャンネル信号の時間同期関係が符合するようにし、システムが規定する伝送フォーマットにより、サブチャンネル信号の提示時刻情報とメインチャンネル信号の音声同期用特徴量とサブチャンネル信号の多重化処理を行い、サブ送出信号を生成する。
(特徴B17)
メイン受信機器はメイン受信信号を取得して分離し、メインチャンネル信号の再生時において、その音声信号に基づく音声をスピーカなどにより出力する。同時にメイン受信機器は、受信したメインチャンネル信号の提示時刻情報を外部より参照したり、取得したりできるよう提示する。
例えばメインチャンネル信号の提示時刻情報はソフトウェアのAPI(Application Programing Interface)によりその取得手段が提供され、無線通信によるIP網接続経由などで外部から参照できるようにしておく。
(特徴B18)
サブ受信機器は、サブ受信信号を取得して分離し、受信したサブチャンネル信号の提示時刻情報とメイン受信機器から取得したメインチャンネル信号の提示時刻情報を比較し、提示時刻情報に基づく同期補正情報を生成する。
(特徴B19)
サブ受信機器は、メイン受信機器がスピーカから出力したメインチャンネル信号の音声をマイクロホンなどにより収音して、音声同期用特徴量を計算し、(特徴B18)で生成された提示時刻情報に基づく同期補正情報を考慮して、受信したメインチャンネル信号の音声同期用特徴量との自動同期計算を行い、音声特徴量に基づく同期補正情報(時間差情報)を算出する。
提示時刻情報の比較で得られる提示時刻情報に基づく同期補正情報から、おおまかな同期位置が分かるので、後段の音声同期用特徴量による自動同期計算処理に要する処理量も少なくて済む。
(特徴B20)
上記音声特徴量に基づく同期補正情報に基づき、サブ受信機器は受信したサブチャンネル信号に対してメインチャンネル信号との同期補正処理を行い再生する。
〈提供装置の構成例〉
次に、以上において説明した特徴B11乃至特徴B20を有する提供装置とコンテンツ再生システムの具体的な実施の形態について説明する。
図22は、上述した(A1)乃至(A4)に示した例のように時間同期関係を有するコンテンツを提供する提供装置の構成例を示す図である。なお、図22において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
提供装置301は、基準時刻信号生成部311、多重化処理部312、出力部22、音声同期用特徴量計算部23、多重化処理部24、および出力部25を有している。
提供装置301の構成は、提供装置11の変換部21が多重化処理部312に置き換えられ、さらに新たに基準時刻信号生成部311が設けられている点で、提供装置11の構成と異なっている。
基準時刻信号生成部311は、PCRやUTCに基づいて、メインチャンネル信号とサブチャンネル信号のコンテンツ提示のタイミングを示す提示時刻情報を生成し、多重化処理部312および多重化処理部24に供給する。例えば、提示時刻情報はPTSなどとされ、この提示時刻情報は再生側において、メインチャンネル信号とサブチャンネル信号の同期をとるために利用される。
多重化処理部312は、供給されたメインチャンネル信号を、所定の放送規格などで定められたフォーマットに変換する。また、多重化処理部312は、フォーマット変換されたメインチャンネル信号と、基準時刻信号生成部311から供給された提示時刻情報とを多重化することでメイン送出信号を生成し、出力部22に供給する。メイン送出信号に含まれている提示時刻情報は、メインチャンネル信号の提示時刻情報である。
また、多重化処理部24は、時間的に同期がとれた状態で、音声同期用特徴量計算部23から供給された音声同期用特徴量、供給されたサブチャンネル信号、および基準時刻信号生成部311から供給された提示時刻情報を多重化した後、必要に応じてフォーマット変換を行ってサブ送出信号を生成する。多重化処理部24は、得られたサブ送出信号を出力部25に供給する。サブ送出信号に含まれている提示時刻情報は、サブチャンネル信号の提示時刻情報である。
なお、提供装置11における場合と同様に、多重化処理部24がメインチャンネル信号を用いて、音声同期用特徴量、サブチャンネル信号、および提示時刻情報の時間同期関係を調整してもよい。
〈コンテンツ再生システムの構成例〉
また、提供装置301から送信されるメイン送出信号とサブ送出信号を、それぞれメイン受信信号およびサブ受信信号として受信してメインコンテンツとサブコンテンツを再生するコンテンツ再生システムは、例えば図23に示すように構成される。なお、図23において、図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図23に示すコンテンツ再生システムは、メイン受信機器341、表示部82、スピーカ83、マイクロホン84、サブ受信機器342、表示部86、およびスピーカ87を有している。
メイン受信機器341は、提供装置301から送信されたメイン受信信号を受信し、メイン受信信号から得られるメインコンテンツの再生を制御する。
メイン受信機器341は、入力部111、分離処理部351、提示部352、および再生処理部112を備えている。このメイン受信機器341の構成は、新たに分離処理部351と提示部352が設けられている点で、メイン受信機器81の構成と異なる。
分離処理部351は、入力部111から供給されたメイン受信信号を、メインチャンネル信号と、そのメインチャンネル信号の提示時刻情報とに分離し、メインチャンネル信号を再生処理部112に供給するとともに、提示時刻情報を提示部352に供給する。
提示部352は、分離処理部351から供給された提示時刻情報を、インターネットなどの有線の通信網や、無線通信網を介してサブ受信機器342に提示する。すなわち、通信相手からの要求に応じて提示時刻情報が送信される。
また、サブ受信機器342は、提供装置301から送信されたサブ送出信号を、サブ受信信号として受信し、サブ受信信号から得られるサブコンテンツの再生を制御する。
サブ受信機器342は、取得部361、提示時刻情報比較部362、音声同期用特徴量計算部121、バッファ122、入力部123、分離処理部124、バッファ125、同期計算部126、および再生処理部127を備えている。
サブ受信機器342の構成は、新たに取得部361、および提示時刻情報比較部362が設けられている点で、サブ受信機器85の構成と異なる。
取得部361は、APIなどを利用して、提示部352により提示された提示時刻情報を、有線または無線の通信網を介して取得し、提示時刻情報比較部362に供給する。すなわち、取得部361は、提示部352により送信された提示時刻情報を受信する。
分離処理部124は、入力部123から供給されたサブ受信信号を、音声同期用特徴量、サブチャンネル信号、および提示時刻情報に分離させ、提示時刻情報を提示時刻情報比較部362に供給するとともに、音声同期用特徴量およびサブチャンネル信号をバッファ125に供給する。
提示時刻情報比較部362は、分離処理部124から供給された提示時刻情報と、取得部361から供給された提示時刻情報とを比較して、メインチャンネル信号とサブチャンネル信号とを同期させるための提示時刻情報に基づく同期補正情報を生成し、同期計算部126に供給する。
この提示時刻情報に基づく同期補正情報は、それ自体でメインチャンネル信号とサブチャンネル信号とのずれを補正し、同期させることができるものである。しかし、この例では、より高精度にそれらの信号を同期させるため、提示時刻情報に基づく同期補正情報は、同期計算部126において、バッファ125から読み出す音声同期用特徴量の範囲を定めるために用いられる。換言すれば、バッファ125に記録されている音声同期用特徴量と、バッファ122に記録されている音声同期用特徴量との大まかな同期をとるために利用される。このように、提示時刻情報に基づく同期補正情報を用いることで、より少ない処理量で音声同期用特徴量のマッチング処理を行うことができるようになる。
〈送信処理の説明〉
続いて、以上において説明した提供装置301とコンテンツ再生システムの具体的な動作について説明する。
まず、図24のフローチャートを参照して、提供装置301により行われる送信処理について説明する。
ステップS191において、基準時刻信号生成部311は、メインチャンネル信号とサブチャンネル信号の提示時刻情報を生成し、多重化処理部312および多重化処理部24に供給する。
ステップS192において、音声同期用特徴量計算部23は、音声同期用特徴量算出処理を行って、供給されたメインチャンネル信号を構成する音声信号から、音声同期用特徴量を計算し、多重化処理部24に供給する。なお、ステップS192において行われる音声同期用特徴量算出処理は、図14を参照して説明した音声同期用特徴量算出処理と同様であるので、その説明は省略する。
ステップS193において、多重化処理部312は、供給されたメインチャンネル信号と、基準時刻信号生成部311から供給された提示時刻情報とを多重化することでメイン送出信号を生成し、出力部22に供給する。また、このとき多重化処理部312は、必要に応じて、メインチャンネル信号のフォーマット変換を行う。
ステップS194において、出力部22は、多重化処理部312から供給されたメイン送出信号を送信する。
ステップS195において、多重化処理部24は、音声同期用特徴量、サブチャンネル信号、および提示時刻情報を多重化してサブ送出信号を生成し、出力部25に供給する。
すなわち、多重化処理部24は、音声同期用特徴量計算部23からの音声同期用特徴量、供給されたサブチャンネル信号、および基準時刻信号生成部311から供給された提示時刻情報を多重化してサブ送出信号とする。
ステップS196において、出力部25は、多重化処理部24から供給されたサブ送出信号を送信し、送信処理は終了する。
以上のようにして、提供装置301は、メインチャンネル信号とサブチャンネル信号とで共通して用いられる提示時刻情報を生成し、提示時刻情報が含まれるメイン送出信号とサブ送出信号を生成する。
これにより、コンテンツの再生側において、提示時刻情報を利用して、より少ない処理量で、メインコンテンツとサブコンテンツを同期させることができるようになる。
〈メインコンテンツ再生処理の説明〉
また、提供装置301からメイン送出信号が送信されると、コンテンツ再生システムは、そのメイン送出信号を、メイン受信信号として取得して、メインコンテンツを再生する。以下、図25のフローチャートを参照して、コンテンツ再生システムによるメインコンテンツ再生処理について説明する。
ステップS221において、入力部111は、メイン受信信号を取得して分離処理部351に供給する。例えば入力部111は、提供装置301から送信されたメイン受信信号を受信することで、メイン受信信号を取得する。
ステップS222において、分離処理部351は、入力部111から供給されたメイン受信信号を、メインチャンネル信号と提示時刻情報とに分離する。分離処理部351は、分離されたメインチャンネル信号を再生処理部112に供給するとともに、提示時刻情報を提示部352に供給する。
ステップS223において、再生処理部112は、分離処理部351から供給されたメインチャンネル信号に基づいてメインコンテンツを再生させる。なお、ステップS223では、図15のステップS72の処理と同様の処理が行われる。
ステップS224において、提示部352は、分離処理部351から供給された提示時刻情報を提示して、メインコンテンツ再生処理は終了する。例えば、提示時刻情報は、メインコンテンツの再生と同期した状態で、無線等によりサブ受信機器342に送信される。
以上のようにして、コンテンツ再生システムは、メイン受信信号を取得してメインコンテンツを再生するとともに、メインコンテンツ、すなわちメインチャンネル信号の提示時刻情報の提示を行う。
このようにメインコンテンツの再生とともに、そのメインコンテンツの提示時刻情報を提示することで、その提示時刻情報を取得するサブ受信機器342は、より少ない処理量で、音声同期用特徴量を用いた同期計算を行うことができるようになる。
〈サブコンテンツ再生処理の説明〉
また、メインコンテンツの再生と同期して、コンテンツ再生システムは、サブ受信信号を取得して、サブコンテンツを再生する。以下、図26のフローチャートを参照して、コンテンツ再生システムによるサブコンテンツ再生処理について説明する。
なお、ステップS251の処理は、図16のステップS101の処理と同様であるので、その説明は省略する。
ステップS252において、分離処理部124は、入力部123から供給されたサブ受信信号を、サブチャンネル信号、音声同期用特徴量、および提示時刻情報に分離させる。そして分離処理部124は、サブチャンネル信号と音声同期用特徴量をバッファ125に供給して記録させるとともに、サブチャンネル信号の提示時刻情報を提示時刻情報比較部362に供給する。
ステップS253において、取得部361は、提示部352により送信された提示時刻情報を受信することで、メインチャンネル信号の提示時刻情報を取得し、提示時刻情報比較部362に供給する。
ステップS254において、提示時刻情報比較部362は、分離処理部124から供給された提示時刻情報と、取得部361から供給された提示時刻情報とを比較して提示時刻情報に基づく同期補正情報を生成し、同期計算部126に供給する。
例えば提示時刻情報に基づく同期補正情報は、バッファ125に時系列に並べられて記録されている各時刻の音声同期用特徴量の系列のうち、同期計算部126での同期計算の対象とされる範囲(以下、探索範囲とも称する)を示す情報とされる。
この探索範囲は、現時点において再生されているメインコンテンツ、つまり取得部361により取得された最新の提示時刻情報と同じ時刻を示しているサブチャンネル信号の提示時刻情報に対応付けられている音声同期用特徴量を含む、所定長の音声同期用特徴量系列とされる。
提示時刻が同じであるメインチャンネル信号とサブチャンネル信号の位置は、互いに同期する信号位置、つまり同時に再生すべき再生位置(フレーム位置)である。したがって、提示時刻情報を比較して、メインチャンネル信号と同じ提示時刻情報を有するサブチャンネル信号の位置を検出することで、再生中のメインコンテンツと大まかに同期がとれたサブコンテンツの再生位置を特定することができる。
提示時刻情報が比較されて提示時刻情報に基づく同期補正情報が生成されると、その後、ステップS255およびステップS256の処理が行われるが、これらの処理は図16のステップS103およびステップS104の処理と同様であるので、その説明は省略する。なお、これらの処理では、メインコンテンツの音声が収音され、その音声から音声同期用特徴量が算出される。
ステップS257において、同期計算部126は、同期補正情報生成処理を行って、音声特徴量に基づく同期補正情報を生成し、再生処理部127に供給する。なお、同期補正情報生成処理の詳細は後述するが、この処理では、提示時刻情報に基づく同期補正情報が用いられて、バッファ122に記録されている音声同期用特徴量と、バッファ125に記録されている音声同期用特徴量とが比較され、音声特徴量に基づく同期補正情報が生成される。
ステップS258において、再生処理部127は、同期計算部126から供給された音声特徴量に基づく同期補正情報に基づいて、バッファ125に記録されているサブチャンネル信号の再生タイミングを補正し、補正後のサブチャンネル信号に基づいてサブコンテンツを再生させる。ステップS258では、図16のステップS106と同様の処理が行われる。
このようにして、メインコンテンツと同期してサブコンテンツが再生されると、サブコンテンツ再生処理は終了する。
以上のようにして、コンテンツ再生システムは、メインコンテンツの提示時刻情報を取得して、サブ受信信号に含まれているサブコンテンツの提示時刻情報と比較することで、提示時刻情報に基づく同期補正情報を生成する。そして、コンテンツ再生システムは、提示時刻情報に基づく同期補正情報により示される探索範囲に含まれる音声同期用特徴量を対象としてマッチング処理を行い、音声特徴量に基づく同期補正情報を算出する。
これにより、メインコンテンツとサブコンテンツとの伝送経路が異なる場合であっても、より少ない処理量で同期補正情報を算出し、それらのコンテンツを同期して再生させることができる。
すなわち、コンテンツ再生システムでは、サブ受信機器342は、まず提示時刻情報によりメインチャンネル信号とサブチャンネル信号の大まかな同期をとり、さらにメインコンテンツの音声を収音して得られた音声信号から音声同期用特徴量を計算する。
そして、サブ受信機器342は、受信したメインチャンネル信号の音声同期用特徴量との自動同期計算を行うことで、サブ受信機器342により再生されるサブコンテンツを視聴するユーザの視聴位置での高精度なコンテンツ同期が可能となる。実際に、提示時刻情報が用いられておおよその同期位置の範囲が絞られているので、音声同期用特徴量による自動同期計算処理に要する処理量も少なくて済む。
例えば、コンテンツ再生システムにおいて表示部82およびスピーカ83と、表示部86およびスピーカ87とが離れた位置に配置されており、ユーザが表示部86およびスピーカ87の近傍でコンテンツを視聴しているとする。そのような場合、スピーカ83から出力された音声がユーザの視聴位置に到達するまでには、ある程度の時間を要する。
したがって、そのような場合には、提示時刻情報を比較するだけでは、ユーザの視聴位置において、メインコンテンツとサブコンテンツの再生を高精度に同期させることは困難である。すなわち、例えばほぼ同じ時刻でスピーカ83とスピーカ87とで、メインコンテンツの音声と、サブコンテンツの音声とがそれぞれ再生されることになるので、メインコンテンツの音声がユーザに到達するまでに時間がかかってしまうと、ユーザには、メインコンテンツの音声とサブコンテンツの音声とがずれて聞こえてしまうことになる。
これに対して、本技術を適用したコンテンツ再生システムでは、サブ受信機器342に接続され、サブ受信機器342近傍に配置されたマイクロホン84によりメインコンテンツの音声が収音されて同期計算が行われる。そのため、コンテンツ再生システムでは、ユーザの視聴位置において同期がとれた状態でメインコンテンツとサブコンテンツを再生することができる。しかも、コンテンツ再生システムでは、提示時刻情報を比較して提示時刻情報に基づく同期補正情報を生成し、マッチング処理の探索範囲を限定することで、より少ない処理量でコンテンツを同期させることができる。
〈同期補正情報生成処理の説明〉
さらに、図27のフローチャートを参照して、図26のステップS257の処理に対応する同期補正情報生成処理について説明する。
ステップS281において、フレームレート変換部181およびフレームレート変換部182は、必要に応じてフレームレート変換処理を行う。
すなわち、フレームレート変換部181は、バッファ122からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データを読み出して、必要に応じて音声同期用特徴量をフレームレート変換、つまりダウンサンプルし、ブロック統合部183に供給する。
また、フレームレート変換部182は、バッファ125に記録されている音声同期用特徴量の時系列データのうち、提示時刻情報比較部362から供給された提示時刻情報に基づく同期補正情報により示される探索範囲に含まれている時系列データのみを読み出す。
そして、フレームレート変換部182は、読み出した音声同期用特徴量を必要に応じてフレームレート変換、つまりダウンサンプルまたはアップサンプルし、ブロック統合部184に供給する。
ステップS282において、ブロック統合部183およびブロック統合部184は、音声同期用特徴量の時系列データを統合する。
具体的には、ブロック統合部183は、フレームレート変換部181からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受ける。そして、ブロック統合部183は、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位で、供給された時間区間ごとの音声同期用特徴量の時系列データを統合し、類似度計算部185に供給する。
また、ブロック統合部184は、フレームレート変換部182からメインコンテンツの時間区間ごとの音声同期用特徴量の時系列データの供給を受ける。そして、ブロック統合部184は、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位で、供給された時間区間ごとの音声同期用特徴量の時系列データを統合し、類似度計算部185に供給する。
例えば、図28の矢印A11に示すように、図18のステップS162の処理では、バッファ122に記録されているn個の各ブロックX(i)と、バッファ125に記録されているm個の各ブロックY(j)とが処理対象とされていた。つまり、探索対象となる音声同期用特徴量のブロックの組み合わせは、n×m通りとされていた。なお、より詳細には、音声同期用特徴量に対して適宜、フレームレート変換が行われるが、図28では説明を簡単にするため、フレームレート変換は行われないものとして説明を続ける。
ここで、マッチング処理の対象とされるブロックY(j)は、バッファ125に記録されている全てのブロック、または十分に広い範囲のブロックとされる。
なお、図28において、iは、音声同期用特徴量計算部121で得られた音声同期用特徴量のブロックのインデックスであり、jは、サブ受信信号に含まれている音声同期用特徴量のブロックのインデックスである。
また、X(i)は、音声同期用特徴量計算部121で得られた音声同期用特徴量のうちのインデックスiのブロックの音声同期用特徴量の時系列データを表し、Y(j)は、サブ受信信号に含まれている音声同期用特徴量のうちのインデックスjのブロックの音声同期用特徴量の時系列データを表す。
一方、ステップS282では、矢印A12に示すように、バッファ125に記録されているm個の各ブロックのうち、提示時刻情報に基づく同期補正情報により示される探索範囲に含まれているm’個のブロックのみがマッチング処理の対象とされる。すなわち、類似度計算部185での類似度計算の対象とされる。
この例では、PTSiは提示時刻情報を表しており、この提示時刻情報により示される位置が、現時点で再生されているメインコンテンツの位置となっている。そして、そのメインコンテンツの提示時刻情報と同じ時刻のサブコンテンツの提示時刻情報に対応する位置を含む所定長の範囲、つまりm’個のブロックからなる範囲が探索範囲とされている。したがって、探索対象となる音声同期用特徴量のブロックの組み合わせは、n×m’通りとなる。
このように、提示時刻情報を比較して得られる提示時刻情報に基づく同期補正情報を用いれば、マッチング処理の対象とされる音声同期用特徴量の範囲を必要最小限に限定することができるので、類似度計算の探索に要する処理時間を大幅に低減させることができる。
図27のフローチャートの説明に戻り、音声同期用特徴量の時系列データが統合されると、その後、処理はステップS283に進む。そして、ステップS283およびステップS284の処理が行われて同期補正情報生成処理は終了するが、これらの処理は図18のステップS163およびステップS164の処理と同様であるので、その説明は省略する。同期補正情報生成処理が終了すると、その後、処理は図26のステップS258へと進む。
以上のようにして、コンテンツ再生システムは、提示時刻情報に基づく同期補正情報により示される探索範囲の音声同期用特徴量を用いて、音声特徴量に基づく同期補正情報を生成する。これにより、より少ない処理量で、同期補正情報をロバストに生成することができる。
また、図22に示した提供装置301と図23に示したコンテンツ再生システムも、図19乃至図21に示した各システムに適用可能である。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
図29は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は、以下の構成とすることも可能である。
(1)
第1のコンテンツの音声信号から特徴量を抽出する特徴量計算部と、
前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算部と
を備える情報処理装置。
(2)
前記特徴量計算部は、再生された前記第1のコンテンツの音声を収音することで得られた前記音声信号から前記特徴量を抽出する
(1)に記載の情報処理装置。
(3)
前記第2のコンテンツと、前記第2のコンテンツに同期がとれた状態で前記第2のコンテンツに対応付けられている前記特徴量とを取得する第1の入力部をさらに備える
(1)または(2)に記載の情報処理装置。
(4)
前記第2のコンテンツおよび前記特徴量は、前記第1のコンテンツとの到着時間差が考慮されたタイミングで前記情報処理装置に送信される
(3)に記載の情報処理装置。
(5)
前記第1の入力部は、前記第2のコンテンツおよび前記特徴量の送信を要求し、その要求に応じて送信されてきた前記第2のコンテンツおよび前記特徴量を受信する
(3)に記載の情報処理装置。
(6)
前記第1のコンテンツの送信を要求し、その要求に応じて送信されてきた前記第1のコンテンツを受信する第2の入力部をさらに備える
(5)に記載の情報処理装置。
(7)
前記特徴量計算部は、再生された1つの前記第1のコンテンツについて、前記音声信号から前記特徴量を抽出し、
前記同期計算部は、前記第2のコンテンツと対応付けられている複数の前記第1のコンテンツの前記特徴量のそれぞれと、前記特徴量計算部により抽出された前記特徴量とを比較することで、再生された前記第1のコンテンツを特定し、特定された前記第1のコンテンツと前記第2のコンテンツを同期して再生するための前記音声特徴量に基づく同期補正情報を生成する
(2)乃至(6)の何れか一項に記載の情報処理装置。
(8)
前記第2のコンテンツの再生を制御する再生処理部をさらに備える
(2)乃至(7)の何れか一項に記載の情報処理装置。
(9)
前記再生処理部は、前記音声特徴量に基づく同期補正情報に基づいて前記第2のコンテンツの再生位置を補正する
(8)に記載の情報処理装置。
(10)
前記第1のコンテンツの提示時刻情報を取得する取得部と、
前記第1のコンテンツの前記提示時刻情報と、前記第2のコンテンツの前記提示時刻情報とを比較して、提示時刻情報に基づく同期補正情報を生成する比較部と
をさらに備え、
前記同期計算部は、取得された前記特徴量の系列のうちの前記提示時刻情報に基づく同期補正情報により示される範囲に含まれる前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較して前記音声特徴量に基づく同期補正情報を生成する
(1)乃至(9)の何れか一項に記載の情報処理装置。
(11)
前記同期計算部は、取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算部により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する
(1)乃至(10)の何れか一項に記載の情報処理装置。
(12)
第1のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップと
を含む情報処理方法。
(13)
第1のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップと
を含む処理をコンピュータに実行させるプログラム。
(14)
第1のコンテンツの音声信号から特徴量を抽出する特徴量計算部と、
前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた前記特徴量とを出力する第1の出力部と
を備える情報処理装置。
(15)
前記第1のコンテンツを出力する第2の出力部をさらに備える
(14)に記載の情報処理装置。
(16)
前記第1の出力部は、前記第1のコンテンツとの到着時間差が考慮されたタイミングで前記第2のコンテンツおよび前記特徴量を出力する
(15)に記載の情報処理装置。
(17)
前記第1の出力部は、前記第2のコンテンツおよび前記特徴量の送信が要求された場合、その要求に応じて前記第2のコンテンツおよび前記特徴量を出力する
(15)に記載の情報処理装置。
(18)
前記第2の出力部は、前記第1のコンテンツの送信が要求された場合、その要求に応じて前記第1のコンテンツを出力する
(17)に記載の情報処理装置。
(19)
前記特徴量計算部は、複数の前記第1のコンテンツについて、前記音声信号から前記特徴量を抽出し、
前記第1の出力部は、複数の前記第1のコンテンツの前記特徴量を前記第2のコンテンツに対応付けて出力する
(14)乃至(18)の何れか一項に記載の情報処理装置。
(20)
前記特徴量計算部は前記特徴量をダウンサンプルし、
前記第1の出力部は、前記第2のコンテンツと、ダウンサンプルされた前記特徴量とを出力する
(14)乃至(19)の何れか一項に記載の情報処理装置。
(21)
第1のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた前記特徴量とを出力する出力ステップと
を含む情報処理方法。
(22)
第1のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた前記特徴量とを出力する出力ステップと
を含む処理をコンピュータに実行させるプログラム。
11 提供装置, 22 出力部, 23 音声同期用特徴量計算部, 24 多重化処理部, 25 出力部, 81 メイン受信機器, 85 サブ受信機器, 111 入力部, 112 再生処理部, 121 音声同期用特徴量計算部, 123 入力部, 126 同期計算部, 127 再生処理部, 311 基準時刻信号生成部, 352 提示部, 361 取得部, 362 提示時刻情報比較部

Claims (20)

  1. 第1のコンテンツの音声信号から特徴量を抽出する特徴量計算部と、
    前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算部と
    を備え、
    前記同期計算部は、取得された前記特徴量と、前記特徴量計算部により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算部により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する
    情報処理装置。
  2. 前記特徴量計算部は、再生された前記第1のコンテンツの音声を収音することで得られた前記音声信号から前記特徴量を抽出する
    請求項1に記載の情報処理装置。
  3. 前記第2のコンテンツと、前記第2のコンテンツに同期がとれた状態で前記第2のコンテンツに対応付けられている前記特徴量とを取得する第1の入力部をさらに備える
    請求項1または請求項2に記載の情報処理装置。
  4. 前記第2のコンテンツおよび前記特徴量は、前記第1のコンテンツとの到着時間差が考慮されたタイミングで前記情報処理装置に送信される
    請求項3に記載の情報処理装置。
  5. 前記第1の入力部は、前記第2のコンテンツおよび前記特徴量の送信を要求し、その要求に応じて送信されてきた前記第2のコンテンツおよび前記特徴量を受信する
    請求項3に記載の情報処理装置。
  6. 前記第1のコンテンツの送信を要求し、その要求に応じて送信されてきた前記第1のコンテンツを受信する第2の入力部をさらに備える
    請求項5に記載の情報処理装置。
  7. 前記特徴量計算部は、再生された1つの前記第1のコンテンツについて、前記音声信号から前記特徴量を抽出し、
    前記同期計算部は、前記第2のコンテンツと対応付けられている複数の前記第1のコンテンツの前記特徴量のそれぞれと、前記特徴量計算部により抽出された前記特徴量とを比較することで、再生された前記第1のコンテンツを特定し、特定された前記第1のコンテンツと前記第2のコンテンツを同期して再生するための前記音声特徴量に基づく同期補正情報を生成する
    請求項2乃至請求項6の何れか一項に記載の情報処理装置。
  8. 前記第2のコンテンツの再生を制御する再生処理部をさらに備える
    請求項2乃至請求項7の何れか一項に記載の情報処理装置。
  9. 前記再生処理部は、前記音声特徴量に基づく同期補正情報に基づいて前記第2のコンテンツの再生位置を補正する
    請求項8に記載の情報処理装置。
  10. 前記第1のコンテンツの提示時刻情報を取得する取得部と、
    前記第1のコンテンツの前記提示時刻情報と、前記第2のコンテンツの前記提示時刻情報とを比較して、提示時刻情報に基づく同期補正情報を生成する比較部と
    をさらに備え、
    前記同期計算部は、取得された前記特徴量の系列のうちの前記提示時刻情報に基づく同期補正情報により示される範囲に含まれる前記特徴量と、前記特徴量計算部により抽出された前記特徴量とを比較して前記音声特徴量に基づく同期補正情報を生成する
    請求項1乃至請求項9の何れか一項に記載の情報処理装置。
  11. 第1のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
    前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップと
    を含み、
    前記同期計算ステップにおいて、取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算ステップの処理により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する
    情報処理方法。
  12. 第1のコンテンツの音声信号から特徴量を抽出する特徴量計算ステップと、
    前記第1のコンテンツと時間同期関係を有する第2のコンテンツに対して同期がとれた状態で取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とを比較することで、前記第2のコンテンツを前記第1のコンテンツと同期して再生するための音声特徴量に基づく同期補正情報を生成する同期計算ステップと
    を含む処理をコンピュータに実行させ、
    前記同期計算ステップにおいて、取得された前記特徴量と、前記特徴量計算ステップの処理により抽出された前記特徴量とのフレームレートが一致するように、取得された前記特徴量、または前記特徴量計算ステップの処理により抽出された前記特徴量の少なくとも一方に対してフレームレート変換を行ってから前記特徴量を比較する
    プログラム。
  13. 第1のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算部と、
    前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する第1の出力部と
    を備える情報処理装置。
  14. 前記第1のコンテンツを出力する第2の出力部をさらに備える
    請求項13に記載の情報処理装置。
  15. 前記第1の出力部は、前記第1のコンテンツとの到着時間差が考慮されたタイミングで前記第2のコンテンツおよび前記ダウンサンプルされた前記特徴量を出力する
    請求項14に記載の情報処理装置。
  16. 前記第1の出力部は、前記第2のコンテンツおよび前記ダウンサンプルされた前記特徴量の送信が要求された場合、その要求に応じて前記第2のコンテンツおよび前記ダウンサンプルされた前記特徴量を出力する
    請求項14に記載の情報処理装置。
  17. 前記第2の出力部は、前記第1のコンテンツの送信が要求された場合、その要求に応じて前記第1のコンテンツを出力する
    請求項16に記載の情報処理装置。
  18. 前記特徴量計算部は、複数の前記第1のコンテンツについて、前記音声信号から前記特徴量を抽出し、
    前記第1の出力部は、複数の前記第1のコンテンツの前記ダウンサンプルされた前記特徴量を前記第2のコンテンツに対応付けて出力する
    請求項13乃至請求項17の何れか一項に記載の情報処理装置。
  19. 第1のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算ステップと、
    前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する出力ステップと
    を含む情報処理方法。
  20. 第1のコンテンツの音声信号から特徴量を抽出し、抽出された前記特徴量をダウンサンプルする特徴量計算ステップと、
    前記第1のコンテンツに対して時間同期関係を有する第2のコンテンツと、前記第2のコンテンツに対して同期がとれた状態で、前記第2のコンテンツに対応付けられた、前記ダウンサンプルされた前記特徴量とを出力する出力ステップと
    を含む処理をコンピュータに実行させるプログラム。
JP2014115406A 2013-10-21 2014-06-04 情報処理装置および方法、並びにプログラム Active JP6349977B2 (ja)

Priority Applications (13)

Application Number Priority Date Filing Date Title
JP2014115406A JP6349977B2 (ja) 2013-10-21 2014-06-04 情報処理装置および方法、並びにプログラム
PCT/JP2014/005186 WO2015059891A1 (en) 2013-10-21 2014-10-10 Information processing apparatus, method, and program
RU2016114565A RU2675192C2 (ru) 2013-10-21 2014-10-10 Устройство обработки информации, способ и программа
KR1020217003061A KR102325743B1 (ko) 2013-10-21 2014-10-10 정보 처리 장치, 방법, 및 프로그램
EP14793631.4A EP3061094A1 (en) 2013-10-21 2014-10-10 Information processing apparatus, method, and program
US15/029,600 US10484728B2 (en) 2013-10-21 2014-10-10 Information processing apparatus, method, and program
KR1020167009295A KR102212926B1 (ko) 2013-10-21 2014-10-10 정보 처리 장치, 방법, 및 프로그램
CN201910948977.9A CN110751963B (zh) 2013-10-21 2014-10-10 信号处理设备、方法
CN201480056387.0A CN105684085B (zh) 2013-10-21 2014-10-10 信息处理设备、方法及程序
TW107136795A TWI695620B (zh) 2013-10-21 2014-10-13 資訊處理設備、方法以及程式
TW103135375A TWI646830B (zh) 2013-10-21 2014-10-13 資訊處理設備、方法以及程式
US16/656,487 US11115694B2 (en) 2013-10-21 2019-10-17 Information processing apparatus, method, and program
US17/404,793 US20210377582A1 (en) 2013-10-21 2021-08-17 Information processing apparatus, method, and program

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2013218267 2013-10-21
JP2013218267 2013-10-21
JP2013257508 2013-12-12
JP2013257508 2013-12-12
JP2014000831 2014-01-07
JP2014000831 2014-01-07
JP2014115406A JP6349977B2 (ja) 2013-10-21 2014-06-04 情報処理装置および方法、並びにプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018109373A Division JP6471923B2 (ja) 2013-10-21 2018-06-07 信号処理装置および方法、並びにプログラム

Publications (3)

Publication Number Publication Date
JP2015149705A JP2015149705A (ja) 2015-08-20
JP2015149705A5 JP2015149705A5 (ja) 2017-03-02
JP6349977B2 true JP6349977B2 (ja) 2018-07-04

Family

ID=51862494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014115406A Active JP6349977B2 (ja) 2013-10-21 2014-06-04 情報処理装置および方法、並びにプログラム

Country Status (8)

Country Link
US (3) US10484728B2 (ja)
EP (1) EP3061094A1 (ja)
JP (1) JP6349977B2 (ja)
KR (2) KR102325743B1 (ja)
CN (2) CN105684085B (ja)
RU (1) RU2675192C2 (ja)
TW (2) TWI695620B (ja)
WO (1) WO2015059891A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6349977B2 (ja) 2013-10-21 2018-07-04 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP6310109B2 (ja) * 2016-03-31 2018-04-11 株式会社インフォシティ 放送サービス再送信システムおよび視聴用携帯端末
JP6163680B1 (ja) * 2016-10-27 2017-07-19 エヴィクサー株式会社 コンテンツ再生プログラム及びコンテンツ再生装置
JP6789761B2 (ja) * 2016-11-01 2020-11-25 日本放送協会 受信端末及びプログラム
US10061677B2 (en) * 2016-11-16 2018-08-28 Anodot Ltd. Fast automated detection of seasonal patterns in time series data without prior knowledge of seasonal periodicity
CN107230474B (zh) * 2017-04-18 2020-06-09 福建天泉教育科技有限公司 一种合成音频数据的方法及系统
US10034029B1 (en) * 2017-04-25 2018-07-24 Sprint Communications Company L.P. Systems and methods for audio object delivery based on audible frequency analysis
JP7102826B2 (ja) * 2018-03-23 2022-07-20 ヤマハ株式会社 情報処理方法および情報処理装置
CN108769559B (zh) * 2018-05-25 2020-12-01 数据堂(北京)科技股份有限公司 多媒体文件的同步方法及装置
WO2020251430A1 (en) * 2019-06-11 2020-12-17 Telefonaktiebolaget Lm Ericsson (Publ) Method, ue and network node for handling synchronization of sound
CN110751955B (zh) * 2019-09-23 2022-03-01 山东大学 基于时频矩阵动态选择的声音事件分类方法及系统
KR20220111552A (ko) * 2021-02-02 2022-08-09 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0204057D0 (en) * 2002-02-21 2002-04-10 Tecteon Plc Echo detector having correlator with preprocessing
US7697591B2 (en) * 2002-08-26 2010-04-13 Texas Instruments Incorporated Crest factor reduction processor for wireless communications
JP2005198179A (ja) * 2004-01-09 2005-07-21 Sanyo Electric Co Ltd 信号処理装置、信号処理方法及び信号処理プログラム
JP2006005390A (ja) * 2004-06-15 2006-01-05 Hitachi Ltd 同期捕捉方法、同期信号生成方法および通信装置
US20060062398A1 (en) * 2004-09-23 2006-03-23 Mckee Cooper Joel C Speaker distance measurement using downsampled adaptive filter
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
US7907212B2 (en) * 2006-03-20 2011-03-15 Vixs Systems, Inc. Multiple path audio video synchronization
JP2007306363A (ja) * 2006-05-12 2007-11-22 Pioneer Electronic Corp デジタル放送受信装置
JP2008131341A (ja) * 2006-11-21 2008-06-05 Seiko Epson Corp 映像音声再生システムと映像再生装置
JP4948147B2 (ja) * 2006-12-15 2012-06-06 富士通株式会社 複合コンテンツファイルの編集方法および装置
US8194865B2 (en) * 2007-02-22 2012-06-05 Personics Holdings Inc. Method and device for sound detection and audio control
FR2929960B1 (fr) * 2008-04-11 2011-05-13 Apollon Solar Procede de fabrication de silicium cristallin de qualite photovoltaique par ajout d'impuretes dopantes
US8400566B2 (en) * 2008-08-21 2013-03-19 Dolby Laboratories Licensing Corporation Feature optimization and reliability for audio and video signature generation and detection
WO2010106075A1 (en) * 2009-03-16 2010-09-23 Koninklijke Kpn N.V. Modified stream synchronization
US20110063503A1 (en) * 2009-07-06 2011-03-17 Brand Steven M Synchronizing secondary content to a multimedia presentation
US20110026125A1 (en) * 2009-07-29 2011-02-03 Cheng-Chieh Chang Transparent conductive film structure and display device
KR20120103750A (ko) * 2010-01-27 2012-09-19 네덜란제 오르가니자티에 포오르 토에게파스트-나투우르베텐샤펠리즈크 온데르조에크 테엔오 미디어 스트림의 동기화를 위한 방법, 시스템 및 장치
US20110307786A1 (en) * 2010-06-11 2011-12-15 Brian Shuster Method and apparatus for bookmarking and retrieval of video content
JP2012244413A (ja) * 2011-05-19 2012-12-10 Nippon Hoso Kyokai <Nhk> 信号監視装置およびプログラム、信号補正装置およびプログラム
JP2013085139A (ja) * 2011-10-11 2013-05-09 Toshiba Corp コンテンツ再生装置、サーバおよびコンテンツ再生方法
JP5284451B2 (ja) * 2011-11-30 2013-09-11 株式会社東芝 電子機器及び音声出力方法
JP2013135309A (ja) * 2011-12-26 2013-07-08 Sony Corp 信号処理装置、信号処理方法、プログラム、および記録媒体、並びに、信号処理システム
JP6003083B2 (ja) * 2012-02-27 2016-10-05 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法
JP6349977B2 (ja) 2013-10-21 2018-07-04 ソニー株式会社 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
TW201532429A (zh) 2015-08-16
CN105684085B (zh) 2019-11-05
WO2015059891A1 (en) 2015-04-30
US20210377582A1 (en) 2021-12-02
KR20210014755A (ko) 2021-02-09
KR102212926B1 (ko) 2021-02-04
US11115694B2 (en) 2021-09-07
TWI695620B (zh) 2020-06-01
RU2675192C2 (ru) 2018-12-17
KR20160074475A (ko) 2016-06-28
RU2016114565A3 (ja) 2018-05-30
JP2015149705A (ja) 2015-08-20
US20160269762A1 (en) 2016-09-15
RU2016114565A (ru) 2017-10-19
US10484728B2 (en) 2019-11-19
US20200053402A1 (en) 2020-02-13
CN110751963A (zh) 2020-02-04
TW201907733A (zh) 2019-02-16
EP3061094A1 (en) 2016-08-31
KR102325743B1 (ko) 2021-11-15
CN105684085A (zh) 2016-06-15
CN110751963B (zh) 2021-09-07
TWI646830B (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
JP6349977B2 (ja) 情報処理装置および方法、並びにプログラム
US20210151069A1 (en) Data Driven Radio Enhancement
CN112400325A (zh) 数据驱动的音频增强
US9877066B2 (en) Synchronization of multimedia streams
US20180336930A1 (en) Recorded data processing method, terminal device, and editing device
JP5879169B2 (ja) 字幕同期再生装置およびそのプログラム
US20150310869A1 (en) Apparatus aligning audio signals in a shared audio scene
JP6471923B2 (ja) 信号処理装置および方法、並びにプログラム
JP6003083B2 (ja) 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法
JP2016092772A (ja) 信号処理装置及びその信号処理方法、並びにプログラム
US20210297731A1 (en) Video distribution system, video generation method, and reproduction device
JP6343171B2 (ja) 受信装置
KR102184131B1 (ko) 입체 오디오를 제공하는 다채널 전송 시스템 및 이의 제어 방법
US20220261436A1 (en) Method and a system for determining a 3-dimensional data structure of an audio file, and a playback position in the audio file for synchronization
JP2018157385A (ja) データ同期方法
KR20170060202A (ko) 동기화된 폐쇄 자막을 생성하는 시스템 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180521

R151 Written notification of patent or utility model registration

Ref document number: 6349977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151