JP7198303B2 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
JP7198303B2
JP7198303B2 JP2021046314A JP2021046314A JP7198303B2 JP 7198303 B2 JP7198303 B2 JP 7198303B2 JP 2021046314 A JP2021046314 A JP 2021046314A JP 2021046314 A JP2021046314 A JP 2021046314A JP 7198303 B2 JP7198303 B2 JP 7198303B2
Authority
JP
Japan
Prior art keywords
sensor
data
sensor data
information processing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021046314A
Other languages
English (en)
Other versions
JP2022145065A (ja
Inventor
秀仁 五味
孝太 坪内
照彦 寺岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2021046314A priority Critical patent/JP7198303B2/ja
Publication of JP2022145065A publication Critical patent/JP2022145065A/ja
Application granted granted Critical
Publication of JP7198303B2 publication Critical patent/JP7198303B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
従来、ユビキタス社会を実現するためのコンテキストアウェアネス・プラットフォームを提供する技術が提案されている(例えば、特許文献1参照)。かかる技術は、コンピュータを含む、実空間に偏在する各種のセンサデバイスによって取得される多様なコンテキストデータを共有するためのものである。
特表2017-503371号公報
しかしながら、上記の従来技術には、各センサデバイスによって同時期に取得されたコンテキストデータを同期させるうえで、更なる改善の余地がある。
具体的には、上記した実空間に偏在する各種のセンサデバイスは多種多様である。したがって、ハードウェア特性の違いなどもあり、各センサデバイスが取得するコンテキストデータも例えばタイムスタンプやサンプリング周期などが異なる場合が多く、各コンテキストデータを一つのコンテキストを示すものとして同期させることが難しかった。
本願は、上記に鑑みてなされたものであって、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
本願に係る情報処理装置は、取得部と、比較部と、タイミング制御部とを備える。前記取得部は、第1センサによって取得された第1センサデータ、および、前記第1センサとは異なる第2センサによって前記第1センサデータと同時期に取得された第2センサデータを取得する。前記比較部は、前記第1センサデータおよび前記第2センサデータがそれぞれ示すコンテキストを比較する。前記タイミング制御部は、前記比較部による比較結果に基づいて、前記コンテキストが一致するように前記第1センサデータおよび前記第2センサデータのタイミングを制御する。
実施形態の一態様によれば、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができるという効果を奏する。
図1は、実施形態に係る情報処理の一例を示す図である。 図2は、実施形態に係る情報処理システムの構成例を示す図である。 図3は、実施形態に係る端末装置の構成例を示すブロック図である。 図4は、実施形態に係る解析処理の処理説明図(その1)である。 図5は、実施形態に係る解析処理の処理説明図(その2)である。 図6は、実施形態に係る端末装置が実行する処理手順を示すフローチャートである。 図7は、実施形態の変形例に係る情報処理の一例を示す図である。 図8は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報処理の一例〕
まず、実施形態に係る情報処理の一例について、図1を用いて説明する。図1は、実施形態に係る情報処理の一例を示す図である。
図1では、実施形態に係る情報処理システム1に含まれる情報処理装置の一例である端末装置10-1が、第1センサによって取得された第1センサデータ、および、第1センサとは異なる第2センサによって第1センサデータと同時期に取得された第2センサデータを取得し、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御する処理を実行する例を示す。
図1に示すように、実施形態に係る情報処理システム1は、端末装置10-1,10-2,10-3を含む。端末装置10-1,10-2,10-3は、コンテキスト環境であるアドホックネットワークANを形成しており、ピア・ツー・ピアでの無線通信が可能に設けられている。なお、以下では、端末装置10-1,10-2,10-3を特に区別する必要がない場合には、適宜「端末装置10」と記載する。
端末装置10は、各種のセンサを有するセンサデバイスの一例である。例えば、端末装置10-1は、Gセンサ、ジャイロセンサ、GPS(Global Positioning System)センサ等を有し、HMI(Human Machine Interface)を介して、ユーザによって各種の情報処理のために利用される端末装置である。
かかる場合、端末装置10-1は、例えば、スマートフォンを含む携帯電話機や、タブレット端末や、デスクトップ型PCや、ノート型PCや、PDA(Personal Digital Assistant)等の情報処理装置である。また、端末装置10-1には、眼鏡型や時計型の情報処理装置であるウェアラブルデバイス(wearable device)も含まれる。サーバやワークステーションなどの計算機も含まれる。また、端末装置10-1は、いわゆるすれちがい通信(登録商標)が可能なゲーム機などであってもよい。
端末装置10-2は、映像センサであるカメラを有し、アドホックネットワークANにおけるコンテキストデータとして映像データを取得する端末装置である。コンテキストデータは、「センサデータ」の一例に相当する。また、カメラは、「第1センサ」の一例に相当する。また、かかるカメラによって取得される映像データは、「第1センサデータ」の一例に相当する。
端末装置10-3は、音声センサであるマイクMを有し、アドホックネットワークANにおけるコンテキストデータとして音声データを取得する端末装置である。マイクMは、「第2センサ」の一例に相当する。音声データは、かかるマイクMによって取得される「第2センサデータ」の一例に相当する。なお、第2センサは、第1センサとは異なる1以上のセンサを指す。したがって、第2センサデータは、1種類以上であってもよい。
なお、端末装置10-1,10-2,10-3は、あくまで一例であって、情報処理システム1における端末装置10の台数を限定するものではない。また、端末装置10には、これら端末装置10-1,10-2,10-3の他にも、温度、湿度、気圧、生体情報等をセンシングする各種のセンサデバイスが含まれてもよい。
ここで、端末装置10-2によって取得された映像データ、および、端末装置10-3によって取得された音声データを、端末装置10-1が再生する場合について考える。
図1に示すように、端末装置10-2は、アドホックネットワークANにおける被写体Sを含む映像データを取得したものとする。また、端末装置10-3は、被写体Sが発する音声データを取得したものとする。
これらのデータを再生する場合、端末装置10-1は、端末装置10-2から映像データを、端末装置10-3から音声データをそれぞれ取得するが、これらのデータは、それぞれ異なるセンサデバイスによってコンテキストデータとして取得されたものである。
そして、センサデバイスが異なる場合、例えばタイムスタンプやサンプリング周期などが異なる場合が多い。したがって、こうした映像データおよび音声データを再生する場合、これらを一つのコンテキストを示すものとして同期させる必要がある。
そこで、実施形態に係る情報処理方法では、第1センサによって取得された第1センサデータ、および、第1センサとは異なる第2センサによって第1センサデータと同時期に取得された第2センサデータを取得し、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御することとした。
具体的には、図1に示すように、端末装置10-1は、端末装置10-2から取得した映像データ、および、これと同時期に端末装置10-3から取得した音声データが示す各コンテンツを比較する(ステップS1)。
すると、同図に示すように、映像データおよび音声データのそれぞれにおいては、端末装置10-2,10-3のハードウェア特性の違いなどもあり、例えば実時間上のある時点T1,T2を示すタイムスタンプなどが異なる場合が存在する。
そこで、端末装置10-1は、かかる場合に、コンテキストが一致するように再生タイミングを制御する(ステップS2)。例えば、端末装置10-1は、映像データにおける被写体Sの口の動きを解析し、かかる動きが示す発話内容と音声データを照合することによって、コンテキストが一致するように再生タイミングを制御する。その詳細については、図4および図5を用いた説明で後述する。
また、図1を用いた説明では、端末装置10-1が実施形態に係る情報処理を行うこととしたが、情報処理システム1がサーバ装置100をさらに含み、サーバ装置100が実施形態に係る情報処理を行うこととしてもよい。その詳細については、図7を用いた説明で後述する。
上述したように、実施形態に係る情報処理方法では、第1センサによって取得された第1センサデータ、および、第1センサとは異なる第2センサによって第1センサデータと同時期に取得された第2センサデータを取得し、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御する。
したがって、実施形態に係る情報処理方法によれば、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができる。
以下、上記のような情報処理を行う情報処理装置を含む情報処理システム1について詳細に説明する。
〔2.情報処理システム1の構成〕
図2は、実施形態に係る情報処理システム1の構成例を示す図である。図2に例示するように、実施形態に係る情報処理システム1は、複数の端末装置10-1,10-2,10-3…と、サーバ装置100と、を含む。
これらの各種装置は、ネットワークNを介して、有線または無線により通信可能に接続される。ネットワークNは、LAN(Local Area Network)、WAN(Wide Area Network)、電話網(携帯電話網、固定電話網等)、地域IP(Internet Protocol)網、インターネット等の通信ネットワークである。ネットワークNには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。
また、上記したが、図2では破線の矢印で示すように、端末装置10-1,10-2,10-3…は、ピア・ツー・ピアでの無線通信が可能に設けられている。端末装置10については説明済みのため、ここでの詳細な説明は省略する。
サーバ装置100は、各種サービスをユーザへ提供する情報処理装置である。サーバ装置100が提供するサービスは、例えば、端末装置10にインストールされた各種アプリやブラウザを介して各種情報を提供するサービスである。提供されるサービスには、検索サービスの他、例えば、ニュース提供サービスや、オークションサービス、天気予報サービス、ショッピングサービス、金融取引(株取引等)サービス、路線検索サービス、地図提供サービス、旅行サービス、飲食店紹介サービス、ブログサービス等が含まれてもよい。
また、サーバ装置100は、端末装置10を同定および認証し、該当の端末装置10が存在するアドホックネットワークAN、すなわちコンテキスト環境に応じた各種サービスを提供することが可能である。
〔3.端末装置10〕
次に、図3を用いて、端末装置10の構成例について説明する。図3は、実施形態に係る端末装置10の構成例を示すブロック図である。なお、図3では、端末装置10の説明に必要となる構成要素のみを示しており、一般的な構成要素についての記載を省略している。また、図3に示す端末装置10は、主に上記した「端末装置10-1」を想定している。
図3に示すように、端末装置10は、通信部11と、HMI部12と、センサ部13と、記憶部14と、制御部15とを有する。
(通信部11について)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。通信部11は、ネットワークNと有線または無線で接続され、ネットワークNを介して、サーバ装置100との間で情報の送受信を行う。
また、通信部11は、他の端末装置10とピア・ツー・ピアで無線通信可能に接続され、他の端末装置10との間で情報の送受信を行う。なお、無線通信方式としては、Wi-Fi(登録商標)や、Bluetooth(登録商標)、UWB(Ultra Wide Band)や、NFC(Near Field Communication)等を用いることができる。
(HMI部12について)
HMI部12は、端末装置10を利用するユーザ等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、表示情報を表示するための表示部(例えば、液晶ディスプレイ等)、音声情報を出力するためのスピーカ部等を含む。
(センサ部13について)
センサ部13は、端末装置10に搭載され、端末装置10が存在する空間における各種のコンテキストを示すセンシングデータを取得する1以上のセンサを含む。
(記憶部14について)
記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、図3の例では、記憶部14は、解析モデル記憶部14aを有する。
(解析モデル記憶部14a)
解析モデル記憶部14aは、後述する解析部15bによって実行される解析処理に用いられる各種の解析モデルを記憶する。解析モデルは、例えば、画像に写った被写体Sの口の動きから発話内容を識別するように学習されたDNN(Deep Neural Network)等である。
(制御部15について)
制御部15は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、端末装置10内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部15は、例えば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部15は、取得部15aと、解析部15bと、比較部15cと、タイミング制御部15dと、出力制御部15eとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図3に示した構成に限られず、後述する情報処理を行うことができる構成であれば他の構成であってもよい。また、制御部15が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
制御部15は、第1センサによって取得された第1センサデータ、および、第1センサとは異なる第2センサによって第1センサデータと同時期に取得された第2センサデータを取得し、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御する。
(取得部15aについて)
取得部15aは、通信部11を介し、他の端末装置10が取得したコンテキストデータ(例えば、本実施形態では、端末装置10-2,10-3が取得した映像データおよび音声データ)を取得する。
(解析部15bについて)
解析部15bは、取得部15aによって取得されたコンテキストデータを解析する。ここで、解析部15bが実行する解析処理について、図4および図5を用いて説明する。図4は、実施形態に係る解析処理の処理説明図(その1)である。また、図5は、実施形態に係る解析処理の処理説明図(その2)である。
図4に示すように、映像データについては、例えば解析部15bは、映像データの各フレーム中の被写体Sの口の動きを、解析モデル記憶部14aに記憶された画像解析モデルによって解析し、その解析結果の連続量を推定される「フレーズ」として抽出する。
また、図5に示すように、音声データについては、例えば解析部15bは、音声データの音声信号を、解析モデル記憶部14aに記憶された言語解析モデルによって解析し、その解析結果の連続量を推定される「フレーズ」として抽出する。
そして、後述するタイミング制御部15dは、図4および図5において抽出された同一のフレーズが一致するように、再生タイミングのタイミング制御を行うこととなる。
なお、ここでは、映像データおよび音声データの双方から解析モデルによってフレーズを抽出する例を挙げたが、この限りではなく、例えば映像データから抽出したフレーズを音声信号に変換し、これと音声データとを照合するようにしてもよい。
(比較部15cについて)
図3の説明に戻る。比較部15cは、解析部15bによって解析された解析結果を比較する。例えば、比較部15cは、図4および図5で抽出された同一のフレーズ同士を対応付ける。また、比較部15cは、比較した比較結果、すなわち映像データおよび音声データの対応結果をタイミング制御部15dへ通知する。
(タイミング制御部15dについて)
タイミング制御部15dは、比較部15cによる比較結果に基づいて、映像データおよび音声データの再生タイミングのタイミング制御を行う。具体的には、タイミング制御部15dは、映像データおよび音声データそれぞれのデータ長や、再生開始位置、再生速度(音声データの場合はピッチに対応)等を制御することによって、映像データおよび音声データを同期させる。
また、タイミング制御部15dは、同期させた映像データおよび音声データを、出力制御部15eに出力させる。
(出力制御部15eについて)
出力制御部15eは、HMI部12に対し、タイミング制御部15dによって同期するように制御された映像データおよび音声データを出力させる。
〔4.端末装置10の処理手順〕
次に、実施形態に係る端末装置10が実行する処理手順について説明する。図6は、実施形態に係る端末装置10が実行する処理手順を示すフローチャートである。
図6に示すように、まず取得部15aが、映像データと音声データとを取得する(ステップS101)。そして、解析部15bが、映像データおよび音声データがそれぞれ示すコンテキストを解析する(ステップS102)。
そして、比較部15cが、解析された各コンテキストを比較する(ステップS103)。そして、タイミング制御部15dが、比較部15cの比較結果に基づいて、コンテキストが一致するように再生タイミングを制御する(ステップS104)。そして、処理を終了する。
〔5.サーバ装置100が実施形態に係る情報処理装置の一例となる変形例〕
ところで、これまでは、端末装置10が、実施形態に係る情報処理を実行する情報処理装置の一例である場合について説明してきたが、端末装置10をサーバ装置100に置き換えてもよい。
図7は、実施形態の変形例に係る情報処理の一例を示す図である。図7に示すように、サーバ装置100が、これまで説明した実施形態に係る情報処理を実行してもよい。具体的には、サーバ装置100は、複数のアドホックネットワークAN1,AN2,AN3…から各コンテキスト環境におけるコンテキストデータを取得する。サーバ装置100は、例えば周期的なクローリングによってコンテキストデータを取得する。
そして、サーバ装置100は、取得した各データが示すコンテキストを比較し(ステップS11)、コンテキストが一致するように再生タイミングを制御したマルチメディアデータを生成する(ステップS12)。
そして、サーバ装置100は、生成したマルチメディアデータを保管しておき、必要に応じて適宜、各端末装置10へ配信する。
かかる情報処理を実現するにあたり、サーバ装置100は、少なくとも、図3に示した通信部11、記憶部14および制御部15にそれぞれ相当する各構成要素を有する。また、制御部15に相当する構成要素は、少なくとも、図3に示した取得部15a、解析部15b、比較部15cおよびタイミング制御部15dにそれぞれ相当する各処理部を有する。
また、サーバ装置100は、図3に示した出力制御部15eに替えて、図7のステップS12においてマルチメディアデータを生成する生成部を有することとなる。これにより、サーバ装置100は、図7に示した情報処理を実行することが可能となる。
〔6.ハードウェア構成〕
上述してきた実施形態に係る端末装置10やサーバ装置100は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、端末装置10を例に挙げて説明する。図8は、実施形態に係る端末装置10の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU(Central Processing Unit)1100、RAM(Random Access Memory)1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を備える。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラムおよび当該プログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、通信網500(図2に示したネットワークNやピア・ツー・ピア通信に対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、当該プログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る端末装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部15の各機能を実現する。また、HDD1400には、記憶部14内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを、記録媒体1800から読み取って実行するが、他の例として、他の装置から、通信網500を介してこれらのプログラムを取得してもよい。
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図3に示した解析部15bと比較部15cとは、統合されてもよい。また、例えば、タイミング制御部15dと出力制御部15eとは、統合されてもよい。また、例えば、記憶部14に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
また、上記実施形態では、映像データおよび音声データの2つのセンサデータを同期させるためにこれらの再生タイミングを制御する例を挙げたが、無論、センサデータの種別を限定するものではない。
例えば、音声データと位置情報データとを同期させて、音像が定位するタイミングを制御するようにしてもよい。また、例えば、画像(映像を含む)データと位置情報データとを同期させて、撮影されたタイムスタンプと位置情報が一致するように、地図情報に画像をリアルタイムに合成するタイミングを制御するようにしてもよい。
また、例えば、映像データとGセンサデータを同期させてもよい。かかる場合、例えば走者がGセンサを装着した100m走の映像データにおいて、走者の腕の振りや足の運びなどに応じて、加速度や速度の推移を合成するタイミングを制御するようにしてもよい。すなわち、制御されるタイミングは、再生タイミングに限られず、合成タイミングや、加工タイミングなど、様々な態様のタイミングであってもよい。
また、上記した通り、第2センサは、第1センサとは異なる1以上のセンサであるので、同期させるセンサデータは、3以上であってもよい。
また、上記実施形態のように、複数のセンサデータの同期を実現することで、例えば部分的に欠損したコンテキストデータを、かかる部分に欠損のない他のコンテキストデータにより補完することができるという効果を奏することができる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔8.効果〕
実施形態に係る情報処理装置は、取得部15aと、比較部15cと、タイミング制御部15dとを備える。取得部15aは、端末装置10-2(「第1センサ」の一例に相当)によって取得された第1センサデータ、および、端末装置10-2とは異なる端末装置10-3(「第2センサ」の一例に相当)によって第1センサデータと同時期に取得された第2センサデータを取得する。比較部15cは、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較する。タイミング制御部15dは、比較部15cによる比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御する。
したがって、実施形態に係る情報処理装置によれば、各センサデバイスによって同時期に取得されたコンテキストデータの再生タイミングや合成タイミングなどを同期させることができる。
また、第1センサデータは映像データであり、第2センサデータは音声データであって、タイミング制御部15dは、コンテキストが一致するように映像データおよび音声データが再生されるタイミングを制御する。
したがって、実施形態に係る情報処理装置によれば、各センサデバイスによって同時期に取得された映像データおよび音声データの再生タイミングを同期させることができる。
また、比較部15cは、映像データに写る被写体Sの口の動きから発話内容を推定し、タイミング制御部15dは、発話内容と音声データを照合することによって、映像データおよび音声データが再生されるタイミングを制御する。
したがって、実施形態に係る情報処理装置によれば、映像データに写る被写体Sの口の動きから推定されるフレーズに基づいて、映像データおよび音声データを同期させることができる。
また、比較部15cはさらに、音声データから発話内容を推定し、タイミング制御部15dは、同一の発話内容が一致するように映像データおよび音声データが再生されるタイミングを制御する。
したがって、実施形態に係る情報処理装置によれば、映像データに写る被写体Sの口の動きから推定されるフレーズ、および、音声データから推定されるフレーズにおいて、同一のフレーズ同士を一致させることによって、映像データおよび音声データを同期させることができる。
また、実施形態に係る情報処理装置は、タイミング制御部15dによって再生されるタイミングが制御された映像データおよび音声データに基づくマルチメディアデータを生成する生成部をさらに備える。
したがって、実施形態に係る情報処理装置によれば、同期した同一の環境コンテキストを示すマルチメディアデータを生成し、提供することが可能となる。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 情報処理システム
10 端末装置
11 通信部
12 HMI部
13 センサ部
14 記憶部
14a 解析モデル記憶部
15 制御部
15a 取得部
15b 解析部
15c 比較部
15d タイミング制御部
15e 出力制御部
100 サーバ装置

Claims (7)

  1. 第1センサによって取得された第1センサデータ、および、前記第1センサとは異なる第2センサによって前記第1センサデータと同時期に取得された第2センサデータを取得する取得部と、
    前記第1センサデータおよび前記第2センサデータがそれぞれ示すコンテキストを比較する比較部と、
    前記比較部による比較結果に基づいて、前記コンテキストが一致するように前記第1センサデータおよび前記第2センサデータのタイミングを制御するタイミング制御部と
    を備えることを特徴とする情報処理装置。
  2. 前記第1センサデータは映像データであり、前記第2センサデータは音声データであって、
    前記タイミング制御部は、
    前記コンテキストが一致するように前記映像データおよび前記音声データが再生されるタイミングを制御する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記比較部は、
    前記映像データに写る被写体の口の動きから発話内容を推定し、
    前記タイミング制御部は、
    前記発話内容と前記音声データを照合することによって、前記映像データおよび前記音声データが再生されるタイミングを制御する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記比較部はさらに、
    前記音声データから前記発話内容を推定し、
    前記タイミング制御部は、
    同一の前記発話内容が一致するように前記映像データおよび前記音声データが再生されるタイミングを制御する
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記タイミング制御部によって再生されるタイミングが制御された前記映像データおよび前記音声データに基づくマルチメディアデータを生成する生成部
    をさらに備えることを特徴とする請求項2、3または4に記載の情報処理装置。
  6. コンピュータが実行する情報処理方法であって、
    第1センサによって取得された第1センサデータ、および、前記第1センサとは異なる第2センサによって前記第1センサデータと同時期に取得された第2センサデータを取得する取得工程と、
    前記第1センサデータおよび前記第2センサデータがそれぞれ示すコンテキストを比較する比較工程と、
    前記比較工程における比較結果に基づいて、前記コンテキストが一致するように前記第1センサデータおよび前記第2センサデータのタイミングを制御するタイミング制御工程と
    を含むことを特徴とする情報処理方法。
  7. 第1センサによって取得された第1センサデータ、および、前記第1センサとは異なる第2センサによって前記第1センサデータと同時期に取得された第2センサデータを取得する取得手順と、
    前記第1センサデータおよび前記第2センサデータがそれぞれ示すコンテキストを比較する比較手順と、
    前記比較手順による比較結果に基づいて、前記コンテキストが一致するように前記第1センサデータおよび前記第2センサデータのタイミングを制御するタイミング制御手順と
    をコンピュータに実行させることを特徴とする情報処理プログラム。
JP2021046314A 2021-03-19 2021-03-19 情報処理装置、情報処理方法および情報処理プログラム Active JP7198303B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021046314A JP7198303B2 (ja) 2021-03-19 2021-03-19 情報処理装置、情報処理方法および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021046314A JP7198303B2 (ja) 2021-03-19 2021-03-19 情報処理装置、情報処理方法および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2022145065A JP2022145065A (ja) 2022-10-03
JP7198303B2 true JP7198303B2 (ja) 2022-12-28

Family

ID=83454332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021046314A Active JP7198303B2 (ja) 2021-03-19 2021-03-19 情報処理装置、情報処理方法および情報処理プログラム

Country Status (1)

Country Link
JP (1) JP7198303B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012182762A (ja) 2011-03-03 2012-09-20 Nikon Corp 撮像装置
JP2015012557A (ja) 2013-07-02 2015-01-19 日本電気株式会社 映像音声処理装置、映像音声処理システム、映像音声同期方法、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009092457A (ja) * 2007-10-05 2009-04-30 Sony Corp 撮像装置、撮像装置における距離測定方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012182762A (ja) 2011-03-03 2012-09-20 Nikon Corp 撮像装置
JP2015012557A (ja) 2013-07-02 2015-01-19 日本電気株式会社 映像音声処理装置、映像音声処理システム、映像音声同期方法、プログラム

Also Published As

Publication number Publication date
JP2022145065A (ja) 2022-10-03

Similar Documents

Publication Publication Date Title
US20200234478A1 (en) Method and Apparatus for Processing Information
JP6505117B2 (ja) 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア
JP2023539820A (ja) インタラクティブ情報処理方法、装置、機器、及び媒体
CN109697992A (zh) 设备之间封装和同步状态的相互作用
US20170062010A1 (en) Computerized system and method for formatted transcription of multimedia content
US9288594B1 (en) Auditory environment recognition
US11869508B2 (en) Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements
KR20210040882A (ko) 동영상을 생성하기 위한 방법 및 장치
CN111919249A (zh) 词语的连续检测和相关的用户体验
CN110534085B (zh) 用于生成信息的方法和装置
KR20160106075A (ko) 오디오 스트림에서 음악 작품을 식별하기 위한 방법 및 디바이스
KR20200045852A (ko) 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법
CN112153460A (zh) 一种视频的配乐方法、装置、电子设备和存储介质
US20220301572A1 (en) Determining musical style using a variational autoencoder
US20240205515A1 (en) Information processing system, information processing method, and storage medium
US11308943B2 (en) Systems and methods for aligning lyrics using a neural network
US20220391440A1 (en) Content providing system, content providing method, and storage medium
JP7198303B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN111862933A (zh) 用于生成合成语音的方法、装置、设备和介质
US20190066676A1 (en) Information processing apparatus
US11475887B2 (en) Systems and methods for aligning lyrics using a neural network
WO2020110744A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
US11335326B2 (en) Systems and methods for generating audible versions of text sentences from audio snippets
US20240038271A1 (en) System and method for generating video in target language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221216

R150 Certificate of patent or registration of utility model

Ref document number: 7198303

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350