JP7198303B2

JP7198303B2 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP7198303B2
Application number: JP2021046314A
Authority: JP
Inventors: 秀仁五味; 孝太坪内; 照彦寺岡
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-12-28
Anticipated expiration: 2041-03-19
Also published as: JP2022145065A

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

従来、ユビキタス社会を実現するためのコンテキストアウェアネス・プラットフォームを提供する技術が提案されている（例えば、特許文献１参照）。かかる技術は、コンピュータを含む、実空間に偏在する各種のセンサデバイスによって取得される多様なコンテキストデータを共有するためのものである。

特表２０１７－５０３３７１号公報

しかしながら、上記の従来技術には、各センサデバイスによって同時期に取得されたコンテキストデータを同期させるうえで、更なる改善の余地がある。

具体的には、上記した実空間に偏在する各種のセンサデバイスは多種多様である。したがって、ハードウェア特性の違いなどもあり、各センサデバイスが取得するコンテキストデータも例えばタイムスタンプやサンプリング周期などが異なる場合が多く、各コンテキストデータを一つのコンテキストを示すものとして同期させることが難しかった。

本願は、上記に鑑みてなされたものであって、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。

本願に係る情報処理装置は、取得部と、比較部と、タイミング制御部とを備える。前記取得部は、第１センサによって取得された第１センサデータ、および、前記第１センサとは異なる第２センサによって前記第１センサデータと同時期に取得された第２センサデータを取得する。前記比較部は、前記第１センサデータおよび前記第２センサデータがそれぞれ示すコンテキストを比較する。前記タイミング制御部は、前記比較部による比較結果に基づいて、前記コンテキストが一致するように前記第１センサデータおよび前記第２センサデータのタイミングを制御する。

実施形態の一態様によれば、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができるという効果を奏する。

図１は、実施形態に係る情報処理の一例を示す図である。図２は、実施形態に係る情報処理システムの構成例を示す図である。図３は、実施形態に係る端末装置の構成例を示すブロック図である。図４は、実施形態に係る解析処理の処理説明図（その１）である。図５は、実施形態に係る解析処理の処理説明図（その２）である。図６は、実施形態に係る端末装置が実行する処理手順を示すフローチャートである。図７は、実施形態の変形例に係る情報処理の一例を示す図である。図８は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報処理の一例〕
まず、実施形態に係る情報処理の一例について、図１を用いて説明する。図１は、実施形態に係る情報処理の一例を示す図である。

図１では、実施形態に係る情報処理システム１に含まれる情報処理装置の一例である端末装置１０－１が、第１センサによって取得された第１センサデータ、および、第１センサとは異なる第２センサによって第１センサデータと同時期に取得された第２センサデータを取得し、第１センサデータおよび第２センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第１センサデータおよび第２センサデータのタイミングを制御する処理を実行する例を示す。

図１に示すように、実施形態に係る情報処理システム１は、端末装置１０－１，１０－２，１０－３を含む。端末装置１０－１，１０－２，１０－３は、コンテキスト環境であるアドホックネットワークＡＮを形成しており、ピア・ツー・ピアでの無線通信が可能に設けられている。なお、以下では、端末装置１０－１，１０－２，１０－３を特に区別する必要がない場合には、適宜「端末装置１０」と記載する。

端末装置１０は、各種のセンサを有するセンサデバイスの一例である。例えば、端末装置１０－１は、Ｇセンサ、ジャイロセンサ、ＧＰＳ（Global Positioning System）センサ等を有し、ＨＭＩ（Human Machine Interface）を介して、ユーザによって各種の情報処理のために利用される端末装置である。

かかる場合、端末装置１０－１は、例えば、スマートフォンを含む携帯電話機や、タブレット端末や、デスクトップ型ＰＣや、ノート型ＰＣや、ＰＤＡ（Personal Digital Assistant）等の情報処理装置である。また、端末装置１０－１には、眼鏡型や時計型の情報処理装置であるウェアラブルデバイス（wearable device）も含まれる。サーバやワークステーションなどの計算機も含まれる。また、端末装置１０－１は、いわゆるすれちがい通信（登録商標）が可能なゲーム機などであってもよい。

端末装置１０－２は、映像センサであるカメラを有し、アドホックネットワークＡＮにおけるコンテキストデータとして映像データを取得する端末装置である。コンテキストデータは、「センサデータ」の一例に相当する。また、カメラは、「第１センサ」の一例に相当する。また、かかるカメラによって取得される映像データは、「第１センサデータ」の一例に相当する。

端末装置１０－３は、音声センサであるマイクＭを有し、アドホックネットワークＡＮにおけるコンテキストデータとして音声データを取得する端末装置である。マイクＭは、「第２センサ」の一例に相当する。音声データは、かかるマイクＭによって取得される「第２センサデータ」の一例に相当する。なお、第２センサは、第１センサとは異なる１以上のセンサを指す。したがって、第２センサデータは、１種類以上であってもよい。

なお、端末装置１０－１，１０－２，１０－３は、あくまで一例であって、情報処理システム１における端末装置１０の台数を限定するものではない。また、端末装置１０には、これら端末装置１０－１，１０－２，１０－３の他にも、温度、湿度、気圧、生体情報等をセンシングする各種のセンサデバイスが含まれてもよい。

ここで、端末装置１０－２によって取得された映像データ、および、端末装置１０－３によって取得された音声データを、端末装置１０－１が再生する場合について考える。

図１に示すように、端末装置１０－２は、アドホックネットワークＡＮにおける被写体Ｓを含む映像データを取得したものとする。また、端末装置１０－３は、被写体Ｓが発する音声データを取得したものとする。

これらのデータを再生する場合、端末装置１０－１は、端末装置１０－２から映像データを、端末装置１０－３から音声データをそれぞれ取得するが、これらのデータは、それぞれ異なるセンサデバイスによってコンテキストデータとして取得されたものである。

そして、センサデバイスが異なる場合、例えばタイムスタンプやサンプリング周期などが異なる場合が多い。したがって、こうした映像データおよび音声データを再生する場合、これらを一つのコンテキストを示すものとして同期させる必要がある。

そこで、実施形態に係る情報処理方法では、第１センサによって取得された第１センサデータ、および、第１センサとは異なる第２センサによって第１センサデータと同時期に取得された第２センサデータを取得し、第１センサデータおよび第２センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第１センサデータおよび第２センサデータのタイミングを制御することとした。

具体的には、図１に示すように、端末装置１０－１は、端末装置１０－２から取得した映像データ、および、これと同時期に端末装置１０－３から取得した音声データが示す各コンテンツを比較する（ステップＳ１）。

すると、同図に示すように、映像データおよび音声データのそれぞれにおいては、端末装置１０－２，１０－３のハードウェア特性の違いなどもあり、例えば実時間上のある時点Ｔ１，Ｔ２を示すタイムスタンプなどが異なる場合が存在する。

そこで、端末装置１０－１は、かかる場合に、コンテキストが一致するように再生タイミングを制御する（ステップＳ２）。例えば、端末装置１０－１は、映像データにおける被写体Ｓの口の動きを解析し、かかる動きが示す発話内容と音声データを照合することによって、コンテキストが一致するように再生タイミングを制御する。その詳細については、図４および図５を用いた説明で後述する。

また、図１を用いた説明では、端末装置１０－１が実施形態に係る情報処理を行うこととしたが、情報処理システム１がサーバ装置１００をさらに含み、サーバ装置１００が実施形態に係る情報処理を行うこととしてもよい。その詳細については、図７を用いた説明で後述する。

上述したように、実施形態に係る情報処理方法では、第１センサによって取得された第１センサデータ、および、第１センサとは異なる第２センサによって第１センサデータと同時期に取得された第２センサデータを取得し、第１センサデータおよび第２センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第１センサデータおよび第２センサデータのタイミングを制御する。

したがって、実施形態に係る情報処理方法によれば、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができる。

以下、上記のような情報処理を行う情報処理装置を含む情報処理システム１について詳細に説明する。

〔２．情報処理システム１の構成〕
図２は、実施形態に係る情報処理システム１の構成例を示す図である。図２に例示するように、実施形態に係る情報処理システム１は、複数の端末装置１０－１，１０－２，１０－３…と、サーバ装置１００と、を含む。

これらの各種装置は、ネットワークＮを介して、有線または無線により通信可能に接続される。ネットワークＮは、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、電話網（携帯電話網、固定電話網等）、地域ＩＰ（Internet Protocol）網、インターネット等の通信ネットワークである。ネットワークＮには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。

また、上記したが、図２では破線の矢印で示すように、端末装置１０－１，１０－２，１０－３…は、ピア・ツー・ピアでの無線通信が可能に設けられている。端末装置１０については説明済みのため、ここでの詳細な説明は省略する。

サーバ装置１００は、各種サービスをユーザへ提供する情報処理装置である。サーバ装置１００が提供するサービスは、例えば、端末装置１０にインストールされた各種アプリやブラウザを介して各種情報を提供するサービスである。提供されるサービスには、検索サービスの他、例えば、ニュース提供サービスや、オークションサービス、天気予報サービス、ショッピングサービス、金融取引（株取引等）サービス、路線検索サービス、地図提供サービス、旅行サービス、飲食店紹介サービス、ブログサービス等が含まれてもよい。

また、サーバ装置１００は、端末装置１０を同定および認証し、該当の端末装置１０が存在するアドホックネットワークＡＮ、すなわちコンテキスト環境に応じた各種サービスを提供することが可能である。

〔３．端末装置１０〕
次に、図３を用いて、端末装置１０の構成例について説明する。図３は、実施形態に係る端末装置１０の構成例を示すブロック図である。なお、図３では、端末装置１０の説明に必要となる構成要素のみを示しており、一般的な構成要素についての記載を省略している。また、図３に示す端末装置１０は、主に上記した「端末装置１０－１」を想定している。

図３に示すように、端末装置１０は、通信部１１と、ＨＭＩ部１２と、センサ部１３と、記憶部１４と、制御部１５とを有する。

（通信部１１について）
通信部１１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１は、ネットワークＮと有線または無線で接続され、ネットワークＮを介して、サーバ装置１００との間で情報の送受信を行う。

また、通信部１１は、他の端末装置１０とピア・ツー・ピアで無線通信可能に接続され、他の端末装置１０との間で情報の送受信を行う。なお、無線通信方式としては、Ｗｉ－Ｆｉ（登録商標）や、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＵＷＢ（Ultra Wide Band）や、ＮＦＣ（Near Field Communication）等を用いることができる。

（ＨＭＩ部１２について）
ＨＭＩ部１２は、端末装置１０を利用するユーザ等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、表示情報を表示するための表示部（例えば、液晶ディスプレイ等）、音声情報を出力するためのスピーカ部等を含む。

（センサ部１３について）
センサ部１３は、端末装置１０に搭載され、端末装置１０が存在する空間における各種のコンテキストを示すセンシングデータを取得する１以上のセンサを含む。

（記憶部１４について）
記憶部１４は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、図３の例では、記憶部１４は、解析モデル記憶部１４ａを有する。

（解析モデル記憶部１４ａ）
解析モデル記憶部１４ａは、後述する解析部１５ｂによって実行される解析処理に用いられる各種の解析モデルを記憶する。解析モデルは、例えば、画像に写った被写体Ｓの口の動きから発話内容を識別するように学習されたＤＮＮ（Deep Neural Network）等である。

（制御部１５について）
制御部１５は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、端末装置１０内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１５は、例えば、コントローラであり、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図３に示すように、制御部１５は、取得部１５ａと、解析部１５ｂと、比較部１５ｃと、タイミング制御部１５ｄと、出力制御部１５ｅとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１５の内部構成は、図３に示した構成に限られず、後述する情報処理を行うことができる構成であれば他の構成であってもよい。また、制御部１５が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

制御部１５は、第１センサによって取得された第１センサデータ、および、第１センサとは異なる第２センサによって第１センサデータと同時期に取得された第２センサデータを取得し、第１センサデータおよび第２センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第１センサデータおよび第２センサデータのタイミングを制御する。

（取得部１５ａについて）
取得部１５ａは、通信部１１を介し、他の端末装置１０が取得したコンテキストデータ（例えば、本実施形態では、端末装置１０－２，１０－３が取得した映像データおよび音声データ）を取得する。

（解析部１５ｂについて）
解析部１５ｂは、取得部１５ａによって取得されたコンテキストデータを解析する。ここで、解析部１５ｂが実行する解析処理について、図４および図５を用いて説明する。図４は、実施形態に係る解析処理の処理説明図（その１）である。また、図５は、実施形態に係る解析処理の処理説明図（その２）である。

図４に示すように、映像データについては、例えば解析部１５ｂは、映像データの各フレーム中の被写体Ｓの口の動きを、解析モデル記憶部１４ａに記憶された画像解析モデルによって解析し、その解析結果の連続量を推定される「フレーズ」として抽出する。

また、図５に示すように、音声データについては、例えば解析部１５ｂは、音声データの音声信号を、解析モデル記憶部１４ａに記憶された言語解析モデルによって解析し、その解析結果の連続量を推定される「フレーズ」として抽出する。

そして、後述するタイミング制御部１５ｄは、図４および図５において抽出された同一のフレーズが一致するように、再生タイミングのタイミング制御を行うこととなる。

なお、ここでは、映像データおよび音声データの双方から解析モデルによってフレーズを抽出する例を挙げたが、この限りではなく、例えば映像データから抽出したフレーズを音声信号に変換し、これと音声データとを照合するようにしてもよい。

（比較部１５ｃについて）
図３の説明に戻る。比較部１５ｃは、解析部１５ｂによって解析された解析結果を比較する。例えば、比較部１５ｃは、図４および図５で抽出された同一のフレーズ同士を対応付ける。また、比較部１５ｃは、比較した比較結果、すなわち映像データおよび音声データの対応結果をタイミング制御部１５ｄへ通知する。

（タイミング制御部１５ｄについて）
タイミング制御部１５ｄは、比較部１５ｃによる比較結果に基づいて、映像データおよび音声データの再生タイミングのタイミング制御を行う。具体的には、タイミング制御部１５ｄは、映像データおよび音声データそれぞれのデータ長や、再生開始位置、再生速度（音声データの場合はピッチに対応）等を制御することによって、映像データおよび音声データを同期させる。

また、タイミング制御部１５ｄは、同期させた映像データおよび音声データを、出力制御部１５ｅに出力させる。

（出力制御部１５ｅについて）
出力制御部１５ｅは、ＨＭＩ部１２に対し、タイミング制御部１５ｄによって同期するように制御された映像データおよび音声データを出力させる。

〔４．端末装置１０の処理手順〕
次に、実施形態に係る端末装置１０が実行する処理手順について説明する。図６は、実施形態に係る端末装置１０が実行する処理手順を示すフローチャートである。

図６に示すように、まず取得部１５ａが、映像データと音声データとを取得する（ステップＳ１０１）。そして、解析部１５ｂが、映像データおよび音声データがそれぞれ示すコンテキストを解析する（ステップＳ１０２）。

そして、比較部１５ｃが、解析された各コンテキストを比較する（ステップＳ１０３）。そして、タイミング制御部１５ｄが、比較部１５ｃの比較結果に基づいて、コンテキストが一致するように再生タイミングを制御する（ステップＳ１０４）。そして、処理を終了する。

〔５．サーバ装置１００が実施形態に係る情報処理装置の一例となる変形例〕
ところで、これまでは、端末装置１０が、実施形態に係る情報処理を実行する情報処理装置の一例である場合について説明してきたが、端末装置１０をサーバ装置１００に置き換えてもよい。

図７は、実施形態の変形例に係る情報処理の一例を示す図である。図７に示すように、サーバ装置１００が、これまで説明した実施形態に係る情報処理を実行してもよい。具体的には、サーバ装置１００は、複数のアドホックネットワークＡＮ１，ＡＮ２，ＡＮ３…から各コンテキスト環境におけるコンテキストデータを取得する。サーバ装置１００は、例えば周期的なクローリングによってコンテキストデータを取得する。

そして、サーバ装置１００は、取得した各データが示すコンテキストを比較し（ステップＳ１１）、コンテキストが一致するように再生タイミングを制御したマルチメディアデータを生成する（ステップＳ１２）。

そして、サーバ装置１００は、生成したマルチメディアデータを保管しておき、必要に応じて適宜、各端末装置１０へ配信する。

かかる情報処理を実現するにあたり、サーバ装置１００は、少なくとも、図３に示した通信部１１、記憶部１４および制御部１５にそれぞれ相当する各構成要素を有する。また、制御部１５に相当する構成要素は、少なくとも、図３に示した取得部１５ａ、解析部１５ｂ、比較部１５ｃおよびタイミング制御部１５ｄにそれぞれ相当する各処理部を有する。

また、サーバ装置１００は、図３に示した出力制御部１５ｅに替えて、図７のステップＳ１２においてマルチメディアデータを生成する生成部を有することとなる。これにより、サーバ装置１００は、図７に示した情報処理を実行することが可能となる。

〔６．ハードウェア構成〕
上述してきた実施形態に係る端末装置１０やサーバ装置１００は、例えば図８に示すような構成のコンピュータ１０００によって実現される。以下、端末装置１０を例に挙げて説明する。図８は、実施形態に係る端末装置１０の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ（Central Processing Unit）１１００、ＲＡＭ（Random Access Memory）１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、およびメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラムおよび当該プログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５００（図２に示したネットワークＮやピア・ツー・ピア通信に対応）を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５００を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、当該プログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る端末装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１５の各機能を実現する。また、ＨＤＤ１４００には、記憶部１４内のデータが記憶される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを、記録媒体１８００から読み取って実行するが、他の例として、他の装置から、通信網５００を介してこれらのプログラムを取得してもよい。

〔７．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、図３に示した解析部１５ｂと比較部１５ｃとは、統合されてもよい。また、例えば、タイミング制御部１５ｄと出力制御部１５ｅとは、統合されてもよい。また、例えば、記憶部１４に記憶される情報は、ネットワークＮを介して、外部に備えられた所定の記憶装置に記憶されてもよい。

また、上記実施形態では、映像データおよび音声データの２つのセンサデータを同期させるためにこれらの再生タイミングを制御する例を挙げたが、無論、センサデータの種別を限定するものではない。

例えば、音声データと位置情報データとを同期させて、音像が定位するタイミングを制御するようにしてもよい。また、例えば、画像（映像を含む）データと位置情報データとを同期させて、撮影されたタイムスタンプと位置情報が一致するように、地図情報に画像をリアルタイムに合成するタイミングを制御するようにしてもよい。

また、例えば、映像データとＧセンサデータを同期させてもよい。かかる場合、例えば走者がＧセンサを装着した１００ｍ走の映像データにおいて、走者の腕の振りや足の運びなどに応じて、加速度や速度の推移を合成するタイミングを制御するようにしてもよい。すなわち、制御されるタイミングは、再生タイミングに限られず、合成タイミングや、加工タイミングなど、様々な態様のタイミングであってもよい。

また、上記した通り、第２センサは、第１センサとは異なる１以上のセンサであるので、同期させるセンサデータは、３以上であってもよい。

また、上記実施形態のように、複数のセンサデータの同期を実現することで、例えば部分的に欠損したコンテキストデータを、かかる部分に欠損のない他のコンテキストデータにより補完することができるという効果を奏することができる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔８．効果〕
実施形態に係る情報処理装置は、取得部１５ａと、比較部１５ｃと、タイミング制御部１５ｄとを備える。取得部１５ａは、端末装置１０－２（「第１センサ」の一例に相当）によって取得された第１センサデータ、および、端末装置１０－２とは異なる端末装置１０－３（「第２センサ」の一例に相当）によって第１センサデータと同時期に取得された第２センサデータを取得する。比較部１５ｃは、第１センサデータおよび第２センサデータがそれぞれ示すコンテキストを比較する。タイミング制御部１５ｄは、比較部１５ｃによる比較結果に基づいて、コンテキストが一致するように第１センサデータおよび第２センサデータのタイミングを制御する。

したがって、実施形態に係る情報処理装置によれば、各センサデバイスによって同時期に取得されたコンテキストデータの再生タイミングや合成タイミングなどを同期させることができる。

また、第１センサデータは映像データであり、第２センサデータは音声データであって、タイミング制御部１５ｄは、コンテキストが一致するように映像データおよび音声データが再生されるタイミングを制御する。

したがって、実施形態に係る情報処理装置によれば、各センサデバイスによって同時期に取得された映像データおよび音声データの再生タイミングを同期させることができる。

また、比較部１５ｃは、映像データに写る被写体Ｓの口の動きから発話内容を推定し、タイミング制御部１５ｄは、発話内容と音声データを照合することによって、映像データおよび音声データが再生されるタイミングを制御する。

したがって、実施形態に係る情報処理装置によれば、映像データに写る被写体Ｓの口の動きから推定されるフレーズに基づいて、映像データおよび音声データを同期させることができる。

また、比較部１５ｃはさらに、音声データから発話内容を推定し、タイミング制御部１５ｄは、同一の発話内容が一致するように映像データおよび音声データが再生されるタイミングを制御する。

したがって、実施形態に係る情報処理装置によれば、映像データに写る被写体Ｓの口の動きから推定されるフレーズ、および、音声データから推定されるフレーズにおいて、同一のフレーズ同士を一致させることによって、映像データおよび音声データを同期させることができる。

また、実施形態に係る情報処理装置は、タイミング制御部１５ｄによって再生されるタイミングが制御された映像データおよび音声データに基づくマルチメディアデータを生成する生成部をさらに備える。

したがって、実施形態に係る情報処理装置によれば、同期した同一の環境コンテキストを示すマルチメディアデータを生成し、提供することが可能となる。

以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理システム
１０端末装置
１１通信部
１２ＨＭＩ部
１３センサ部
１４記憶部
１４ａ解析モデル記憶部
１５制御部
１５ａ取得部
１５ｂ解析部
１５ｃ比較部
１５ｄタイミング制御部
１５ｅ出力制御部
１００サーバ装置

Claims

第１センサによって取得された第１センサデータ、および、前記第１センサとは異なる第２センサによって前記第１センサデータと同時期に取得された第２センサデータを取得する取得部と、
前記第１センサデータおよび前記第２センサデータがそれぞれ示すコンテキストを比較する比較部と、
前記比較部による比較結果に基づいて、前記コンテキストが一致するように前記第１センサデータおよび前記第２センサデータのタイミングを制御するタイミング制御部と
を備えることを特徴とする情報処理装置。
前記第１センサデータは映像データであり、前記第２センサデータは音声データであって、
前記タイミング制御部は、
前記コンテキストが一致するように前記映像データおよび前記音声データが再生されるタイミングを制御する
ことを特徴とする請求項１に記載の情報処理装置。
前記比較部は、
前記映像データに写る被写体の口の動きから発話内容を推定し、
前記タイミング制御部は、
前記発話内容と前記音声データを照合することによって、前記映像データおよび前記音声データが再生されるタイミングを制御する
ことを特徴とする請求項２に記載の情報処理装置。
前記比較部はさらに、
前記音声データから前記発話内容を推定し、
前記タイミング制御部は、
同一の前記発話内容が一致するように前記映像データおよび前記音声データが再生されるタイミングを制御する
ことを特徴とする請求項３に記載の情報処理装置。
前記タイミング制御部によって再生されるタイミングが制御された前記映像データおよび前記音声データに基づくマルチメディアデータを生成する生成部
をさらに備えることを特徴とする請求項２、３または４に記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
第１センサによって取得された第１センサデータ、および、前記第１センサとは異なる第２センサによって前記第１センサデータと同時期に取得された第２センサデータを取得する取得工程と、
前記第１センサデータおよび前記第２センサデータがそれぞれ示すコンテキストを比較する比較工程と、
前記比較工程における比較結果に基づいて、前記コンテキストが一致するように前記第１センサデータおよび前記第２センサデータのタイミングを制御するタイミング制御工程と
を含むことを特徴とする情報処理方法。
第１センサによって取得された第１センサデータ、および、前記第１センサとは異なる第２センサによって前記第１センサデータと同時期に取得された第２センサデータを取得する取得手順と、
前記第１センサデータおよび前記第２センサデータがそれぞれ示すコンテキストを比較する比較手順と、
前記比較手順による比較結果に基づいて、前記コンテキストが一致するように前記第１センサデータおよび前記第２センサデータのタイミングを制御するタイミング制御手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。