JP6997733B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP6997733B2
JP6997733B2 JP2019028144A JP2019028144A JP6997733B2 JP 6997733 B2 JP6997733 B2 JP 6997733B2 JP 2019028144 A JP2019028144 A JP 2019028144A JP 2019028144 A JP2019028144 A JP 2019028144A JP 6997733 B2 JP6997733 B2 JP 6997733B2
Authority
JP
Japan
Prior art keywords
time variation
data
feature amount
features
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019028144A
Other languages
English (en)
Other versions
JP2020135424A (ja
Inventor
一郎 馬田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019028144A priority Critical patent/JP6997733B2/ja
Publication of JP2020135424A publication Critical patent/JP2020135424A/ja
Application granted granted Critical
Publication of JP6997733B2 publication Critical patent/JP6997733B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は情報処理装置、情報処理方法、及びプログラムに関し、特に、会議等のインタラクションで発生したイベントを抽出する技術に関する。
従来、会議シーン等におけるマルチモーダルデータを用いたインタラクションイベントの推定やデータサマリー、ユーザ支援において、例えば、音声と動画のデータ両方を用いた機械学習の活用が提案されている(例えば、特許文献1を参照)。
Ren, Z., Pandit, V., Qian, K., Yang, Z., Zhang, Z., & Schuller, B.W. "Deep Sequential Image Features for Acoustic Scene Classification.", Detection and Classification of Acoustic Scenes and Events 2017.
上記のような技術を用いると、異なるモダリティから抽出された特徴量を最終的に統合して機械学習を行うことにより、学習精度を高めることが可能となっている。しかしながら、各モダリティからの特徴量を全て統合してから学習を行うには、大量のデータが必要となる。
本発明はこれらの点に鑑みてなされたものであり、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することを目的とする。
本発明の第1の態様は、情報処理装置である。この装置は、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するデータ取得部と、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する特徴量抽出部と、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする組分け部と、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する学習部と、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する統合部と、を備える。
前記組分け部は、前記複数の特徴量の時間変動を、前記マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けしてもよい。
前記組分け部は、前記複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けしてもよい。
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持つ特徴量について、当該周期に基づいて前記特徴量の時間変動を組分けしてもよい。
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの共起パターンに基づいて前記特徴量の時間変動を組分けしてもよい。
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの間隔に基づいて前記特徴量の時間変動を組分けしてもよい。
本発明の第2の態様は、情報処理方法である。この方法において、プロセッサが、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するステップと、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出するステップと、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けするステップと、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成するステップと、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力するステップと、を実行する。
本発明の第3の態様は、プログラムである。このプログラムは、コンピュータに、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する機能と、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する機能と、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする機能と、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する機能と、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する機能と、を実現させる。
本発明によれば、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することができる。
実施の形態の概要を説明するための図である。 実施の形態に係る情報処理装置の機能構成を模式的に示す図である。 実施の形態に係る組分け部による第1の組分け手法を説明するための図である。 実施の形態に係る組分け部による第2の組分け手法を説明するための図である。 実施の形態に係る組分け部による第3の組分け手法を説明するための図である。 実施の形態に係る情報処理装置における組分け、学習、及び統合の流れを模式的に示す図である。 実施の形態に係る情報処理装置が実行する情報処理の処理フローを説明するためのフローチャートである。
<実施の形態の概要>
実施の形態に係る情報処理装置は、会議や講演等、発話を軸とするインタラクションを記録したマルチモーダルデータを解析することにより、そのマルチモーダルデータが、インタラクションにおいて発生したイベントを含むデータであるか否かを示す情報を出力する。
実施の形態に係る情報処理装置は、インタラクションにおける話し手と聞き手との役割が明確となっている演説等ではなく、聞き手も話し手と同様に発言する機会が与えられている会議、典型的にはブレインストーミングのような会議を解析対象のインタラクションとする。以下本明細書においては、話し手と聞き手とを特に区別する場合を除いて、コミュニケーションの参加者を「参与者」と記載する。参与者は、あるときは話し手となり、他の参与者が話し手となっているときは聞き手となる。
また、「インタラクションにおいて発生したイベント」とは、意見やアイデアの評価、検討、創出、承認、あるいは議論の展開や停滞等、複数の参与者が関与するインタラクションにおいて、何らかの動きが発生することを意味する。したがって、「インタラクションにおいて発生したイベント」は1種類に限らず、複数種類の動きを含みうる。以下本明細書において、「インタラクションにおいて発生したイベント」を「インタラクションイベント」と記載することがある。
図1は、実施の形態の概要を説明するための図であり、4人の参与者P(第1参与者P1、第2参与者P2、第3参与者P3、及び第4参与者P4)が参加している会議の様子を示している。図1に示す会議では第1参与者P1が主な話し手であるが、第2参与者P2、第3参与者P3、及び第4参与者P4も自由に発言することができる。
図1に示す例では、各参与者Pの動きを取得するために、可視光カメラ又は赤外カメラであるカメラCによって各参与者Pを被写体に含む画像データが生成されている。また、各参与者Pにはマイクロフォン等の音声入力装置Sが取り付けられており、各参与者Pの発話を音声データに変換することができる。図1に図示はしていないが、各参与者Pは各自の動きを計測するためのモーションキャプチャー等も備えており、速度や加速度、角加速度も計測される。
マルチモーダルデータを用いたインタラクションイベントの推定やデータサマリー、ユーザ支援において、例えば、音声のデータと動画のデータとの両方を用いた機械学習が広く活用されている。このような場合、発話音声や環境音響のデータをスペクトログラムに変換して画像データとして扱う手法も提案されている。こうして、異なるモダリティのデータから抽出された特徴量を最終的に統合して機械学習を行うことにより、学習精度を高めることが可能となっている。しかしながら、各モダリティのデータからの特徴量を全て統合してから学習を行うには、一般に大量のデータが必要である。
一方で、各モダリティについて個別に機械学習を行い、最終的にそれらの結果を統合するという手法も、以前より行われている。この場合、上述の手法に比べ、学習に必要なデータ量を抑えることは可能であるが、モダリティを横断した特徴量の関連については直接学習結果に反映することが困難となる。例えば、画像データ中で人物の「頷き」に対応するような特徴量群は、音声データでの相槌に相当するような特徴量群と深い関連を示すことは容易に推察できるが、各モダリティで閉じた学習を行なっている場合、この関連性を機械学習結果に直接反映することは困難である。
また、このような関連が想定される特徴量群について、設計者が個別にグルーピングして学習する手法も行われているが、設計者が大量のマルチモーダルデータから有効な特徴量の組み合わせを手作業で見出していくには限界があると考えられる。
そこで、実施の形態に係る情報処理装置は、音声データや画像データ等を含むインタラクションに関するマルチモーダルデータの機械学習において、まず、マルチモーダルデータそれぞれについてモダリティ毎に、複数の異なる特徴量の時間変動を抽出する。続いて、実施の形態に係る情報処理装置は、各特徴量の時間変動のパターンの類似性を用いて、モダリティを横断して特徴量を自動で組分けする。実施の形態に係る情報処理装置は、組分けされた特徴量毎に機械学習を行なった結果を統合処理することにより、学習に必要なデータ量を抑えつつ精度の高い結果を出力する。これにより、実施の形態に係る情報処理装置は、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑えることができる。
<実施の形態に係る情報処理装置1の機能構成>
図2は、実施の形態に係る情報処理装置1の機能構成を模式的に示す図である。情報処理装置1は、記憶部2と制御部3とを備える。図2において、矢印は主なデータの流れを示しており、図2に示していないデータの流れがあってもよい。図2において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
記憶部2は、情報処理装置1を実現するコンピュータのBIOS(Basic Input Output System)等を格納するROM(Read Only Memory)や情報処理装置1の作業領域となるRAM(Random Access Memory)、OS(Operating System)やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置である。
制御部3は、情報処理装置1のCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサであり、記憶部2に記憶されたプログラムを実行することによってデータ取得部30、特徴量抽出部31、組分け部32、学習部33、及び統合部34として機能する。
なお、図2は、情報処理装置1が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置1は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部3を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。
データ取得部30は、複数人でのインタラクションに関するマルチモーダルデータであって、インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する。各モダリティとは、例えば、インタラクションの参与者を撮像した可視光カメラ又は赤外カメラ、各参与者Pが備えるマイクロフォン、加速度センサ、圧力センサ、各参与者の生体情報を計測するための各種センサ(例えば、心拍センサ、脈拍センサ、脳波センサ)である。データ取得部30は、各モダリティそれぞれが測定したデータをマルチモーダルデータとして取得する。なお、マルチモーダルデータは、各モダリティで時間同期を取り、モダリティ間で相互に関連づけが容易な周期設定で収録するのが好ましい。
特徴量抽出部31は、マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する。例えば、特徴量抽出部31は、マイクロフォンが計測した参与者Pの音声データに対して短時間の分析ウィンドウ(例えば20~30ミリ秒程度、身体動作データ等、他のモダリティからのデータのリフレッシュレートと同期可能な周期)毎にスペクトログラムを生成し特徴量とする。
特徴量抽出部31は、カメラが参与者Pを撮像した画像データに対しては、例えば参与者Pの視線の動きや体のパーツ(例えばあごの位置や手首)の速さを取得して特徴量とする。特徴量抽出部31は、画像データが複数のフレームから構成される同画像データである場合には、隣り合うフレーム間の差分画像を生成し、その画素値の絶対値の総和を特徴量としてもよい。いずれにしても、特徴量抽出部31は、マルチモーダルデータを既知の信号解析手法を用いて解析し、異なる複数の特徴量それぞれの時間変動を抽出する。
組分け部32は、特徴量抽出部31が抽出したマルチモーダルデータのそれぞれに関する複数の特徴量それぞれの時間変動のパターンに基づいて、複数の特徴量の時間変動を複数の組に組分けする。この結果、組分け部32が組分けした各組には、異なるモダリティのデータから抽出された特徴量が含まれ得る。なお、組分け部32による特徴量の組分けの詳細は後述する。
学習部33は、組分け部32が組分けした組を構成する特徴量の時間変動を教師データとして、既知の機械学習(例えばニューラルネットワークやサポートベクタマシン)を実行し学習モデルを生成する。具体的には、学習部33は、生成する学習モデルにマルチモーダルデータから抽出された特徴量の時間変動の組を入力した場合、その学習モデルの出力が、入力された組が組分け部32によって組分けされた各組に該当する蓋然性を示す指標となるような学習モデルを、複数の組それぞれについて生成する。したがって、学習部33は、組分け部32が組分けした組の個数と同数の学習モデルを生成することになる。異なるモダリティのデータから抽出された特徴量を含む組を学習データとして生成された学習モデルは、異なるモダリティのデータ間における関連性を学習に直接反映することができる。
なお、学習部33は、教師データとしてインタラクションイベントを含まないマルチモーダルデータから抽出された特徴量を加えてもよい。この場合、インタラクションイベントを含むマルチモーダルデータから抽出された特徴量が「正」の教師データ、インタラクションイベントを含まないマルチモーダルデータから抽出された特徴量が「負」の教師データとなる。教師データとしてインタラクションイベントを含まないマルチモーダルデータから抽出された特徴量を用いるか否かによらず、教師データには、インタラクションイベントを含むマルチモーダルデータから抽出された特徴量が含まれる。また、マルチモーダルデータに複数種類のインタラクションイベントが含まれる場合には、学習部33はいわゆる「多クラス識別」の学習モデルを生成する。
統合部34は、複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来するマルチモーダルデータがインタラクションイベントを含むデータか否かを示す情報を出力する。具体的には、統合部34は、学習部33が生成した複数の学習モデルそれぞれの出力を統合して、マルチモーダルデータがインタラクションイベントを含むデータか否かを示す1つの情報を出力する。なお、統合部34は、学習部33が生成した複数の学習モデルそれぞれの出力をルールベースで統合して1つの情報を出力してもよいし、既知の機械学習を用いて学習することにより1つの情報を出力するようにしてもよい。
このように、実施の形態に係る情報処理装置1は、特徴量の時間変動のパターンに基づいてマルチモーダルデータをあらかじめ組分けして学習する。これにより、情報処理装置1は、各モダリティからの特徴量を全て統合してから学習を行う場合と比較して、少ない学習データでも異なるモダリティのデータ間における関連性を効果的に学習に反映させることができる。結果として、情報処理装置1は、マルチモーダルデータの機械学習において、学習データ量を抑えることができる。
ここで、組分け部32は、複数の特徴量の時間変動を、異なるモダリティのデータから抽出された特徴量を含むように組分けする。言い換えると組分け部32は、複数の特徴量の時間変動を、マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けする。これにより、組分け部32は、学習部33が生成する各学習モデルに、異なるモダリティのデータ間における関連性を反映させることができる。
以下、組分け部32による特徴量の組分け手法について具体的に説明する。
[時間変化の相関を利用した組分け]
図3は、実施の形態に係る組分け部32による第1の組分け手法を説明するための図である。図3において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図3において、第1矩形W1は所定の時間幅を示すウィンドウであり、第2矩形W2も、第1矩形W1と同じ時間幅を示すウィンドウである。
組分け部32は、複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けする。図3において、第1矩形W1及び第2矩形W2は、特徴量の相関値の関連性を検出するためにあらかじめ設定された時間幅を示している。
例えば、第1特徴量が参与者Pに取り付けられた音声入力装置Sが取得した音声データの音量であり、第2特徴量が参与者Pのあごの速度の絶対値であるとする。インタラクションの中で参与者Pが納得をした場合、参与者Pは「なるほど!」と発声しつつ首を縦に振って頷いたとする。このとき、音量の増加と、あごの速度の増加とは、おおむね同時期に発生すると考えられる。
図3において、第1矩形W1が示す範囲において第1特徴量及び第2特徴量は、それぞれ破線の円で示す位置において値の変動が見られる。同様に、第2矩形W2が示す範囲においても第1特徴量及び第2特徴量は、それぞれ破線の円で示す位置において値の変動が見られる。このような場合、組分け部32は、第1特徴量と第2特徴量とを同一の組に組分けする。組分け部32は、他の特徴量の組についても同様の処理を実行することにより、時間変化の相関を利用した特徴量群から構成される組を生成する。
[時間変化の周期性を利用した組分け]
図4は、実施の形態に係る組分け部32による第2の組分け手法を説明するための図である。図4において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図4において、間隔T1は第1特徴量の時間変動の周期を示しており、間隔T2は、第2特徴量の時間変動の周期を示している。図4に示す例では、第1特徴量の時間変動の周期であるT1は、第2特徴量の時間変動の周期であるT2の2倍となっている。
組分け部32は、複数の特徴量のうち時間変動が周期性を持つ特徴量について、その周期に基づいて特徴量の時間変動を組分けする。具体的には、組分け部32は、特徴量の時間変動の周期パターンに関連のある(例えば、周期が定数倍の関係にある)特徴量同士を同一の組に組分けする。組分け部32は、他の特徴量の組についても同様の処理を実行することにより、時間変化の周期性に関連のある特徴量群から構成される組を生成する。
[時間変化の局所ピークの共起パターンを利用した組分け]
図5は、実施の形態に係る組分け部32による第3の組分け手法を説明するための図である。図5において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図5において、第1特徴量の時間変動及び第2特徴量の時間変動は、ともに周期性を有していない。
図5において、破線の矩形B(B1、B2、及びB3)は、いずれも第1特徴量の時間変動と第2特徴量の時間変動とが、所定の時間幅αの範囲内で局所ピークが発生していること、すなわち「共起」していることを示している。ここで「局所ピーク」とは、特徴量の時間変動の局所的な最大値又は最小値を意味する。図5において、符号C1及びC3を付した円は、それぞれ第1特徴量の時間変動における局所的な最大値を示し、符号C2及びC4を付した円は、それぞれ第1特徴量の時間変動における局所的な最小値を示している。同様に、符号C5及びC6を付した円は、それぞれ第2特徴量の時間変動における局所的な最大値を示し、符号C7を付した円は、第2特徴量の時間変動における局所的な最小値を示している。
矩形B1において、円C1で示す局所的な極大値と円C5で示す局所的な極大値とが、時間幅αの範囲内で発生している。また、矩形B2においては、円C2で示す局所的な極小値と円C6で示す局所的な極大値とが、時間幅αの範囲内で発生している。同様に、矩形B3においては、円C3で示す局所的な極大値と円C7示す局所的な極小値とが、時間幅αの範囲内で発生している。
組分け部32は、第1特徴量の時間変動における局所ピークと第2特徴量の時間変動における局所ピークとが時間幅αの範囲内で発生する事象が、所定の設定閾値β%以上の頻度である特徴量同士を同一の組にする。この際、組分け部32は、βを全てのマルチモーダルデータについて設定してもよいし、組分け対象とする特徴量のいずれかに限定して設定してもよい。
例えば、組分け部32は、第1特徴量の時間変動における局所ピーク数が、第2特徴量の時間変動における局所ピーク数の半数以下であった場合に、第1特徴量の時間変動における局所ピークが第2特徴量の時間変動における局所ピークに対して設定閾値β%以上の頻度で共起していれば、第1特徴量と第2特徴量とを同一の組に組分けする。なお、時間幅α及び設定閾値βの具体的な値は、特徴量の性質等を勘案して実験により定めればよい。
このように、組分け部32は、複数の特徴量のうち時間変動が周期性を持たない特徴量については、変動値の局所ピークの共起パターンに基づいて特徴量の時間変動を組分けする。
[時間変化の局所的最大値と最小値の時間間隔を利用した組分け]
組分け部32は、複数の特徴量のうち時間変動が周期性を持たない特徴量について、特徴量の時間変動の局所的最大値と最小値との間隔iに基づいて組分けをしてもよい。例えば、組分け部32は、間隔iの平均値が近いもの、あるいは第1特徴量の間隔i1の平均値が、第2特徴量の間隔i2の平均の倍数に近い場合に、第1特徴量と第2特徴量とを同一の組に組分けしてもよい。
組分け部32は、特徴量の時間変動に微細な変動とグローバルで大きな変動との両方がみられる場合、特徴量の時間変動をスムーシングすることにより、上述した組分け手法を実行してもよい。このように。組分け部32は、複数の特徴量の時間変動を、マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けすることができる。これにより、情報処理装置1は、異なるモダリティのデータから抽出された特徴量を含む組を学習データとして生成することができる。
図6は、実施の形態に係る情報処理装置1における組分け、学習、及び統合までの流れを模式的に示す図である。図6において、マルチモーダルデータは、第1モダリティが計測したデータと、第2モダリティが計測したデータと、第3モダリティが計測したデータとを含んでいる。また、図6は、第1モダリティが計測したデータからは、特徴量f1から特徴量f5までの5つの特徴量が抽出され、第2モダリティが計測したデータからは、特徴量g1から特徴量g4までの4つの特徴量が抽出され、第3モダリティが計測したデータからは、特徴量h1から特徴量h3までの3つの特徴量が抽出されたことを示している。
図6において、組分け部32は、上述した組分け手法を実行することにより、特徴量f1、特徴量g1、及び特徴量h1を含む組と、特徴量f2、特徴量g2、及び特徴量g3を含む組と、特徴量h2、特徴量f3、特徴量f4、及び特徴量f5を含む組と、特徴量g5及び特徴量h3を含む組との4つの組に各特徴量を組分けしたことを示している。また、図6において、学習部33は、組分け部32が組分けをした4つの組に含まれる特徴量をそれぞれ学習データとして機械学習することにより、4つの学習モデルを生成したことを示している。
学習部33が生成した各学習モデルは、それぞれマルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が組分けされた組に該当する蓋然性を示す指標を出力する。図6において、統合部34は、4つの学習モデルの出力を統合することにより、入力されたマルチモーダルがインタラクションイベントを含むデータか否かを示す情報を出力する。以上より、全体としてみると、情報処理装置1にマルチモーダルデータを入力すると、情報処理装置1は、そのマルチモーダルデータがインタラクションイベントを含むデータか否かを示す1つの情報を出力することになる。
<情報処理装置1が実行する情報処理方法の処理フロー>
図7は、実施の形態に係る情報処理装置1が実行する情報処理の処理フローを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置1が起動したときに開始する。
データ取得部30は、複数人でのインタラクションに関するマルチモーダルデータであって、インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する(S2)。
特徴量抽出部31は、マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する(S4)。組分け部32は、マルチモーダルデータのそれぞれに関する複数の特徴量それぞれの時間変動のパターンに基づいて、複数の特徴量の時間変動を複数の組に組分けする(S6)。
学習部33は、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、複数の組それぞれについて生成する(S8)。
統合部34は、複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来するマルチモーダルデータがインタラクションイベントを含むデータか否かを示す情報を出力する(S10)。
<実施の形態に係る情報処理装置1が奏する効果>
以上説明したように、実施の形態に係る情報処理装置1によれば、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。
1・・・情報処理装置
2・・・記憶部
3・・・制御部
30・・・データ取得部
31・・・特徴量抽出部
32・・・組分け部
33・・・学習部
34・・・統合部

Claims (8)

  1. 複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するデータ取得部と、
    前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する特徴量抽出部と、
    前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする組分け部と、
    組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する学習部と、
    前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する統合部と、
    を備える情報処理装置。
  2. 前記組分け部は、前記複数の特徴量の時間変動を、前記マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けする、
    請求項1に記載の情報処理装置。
  3. 前記組分け部は、前記複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けする、
    請求項1又は2に記載の情報処理装置。
  4. 前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持つ特徴量について、当該周期に基づいて前記特徴量の時間変動を組分けする、
    請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの共起パターンに基づいて前記特徴量の時間変動を組分けする、
    請求項1から4のいずれか1項に記載の情報処理装置。
  6. 前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの間隔に基づいて前記特徴量の時間変動を組分けする、
    請求項1から5のいずれか1項に記載の情報処理装置。
  7. プロセッサが、
    複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するステップと、
    前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出するステップと、
    前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けするステップと、
    組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成するステップと、
    前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力するステップと、
    を実行する情報処理方法。
  8. コンピュータに、
    複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する機能と、
    前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する機能と、
    前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする機能と、
    組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する機能と、
    前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する機能と、
    を実現させるプログラム。
JP2019028144A 2019-02-20 2019-02-20 情報処理装置、情報処理方法、及びプログラム Active JP6997733B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019028144A JP6997733B2 (ja) 2019-02-20 2019-02-20 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019028144A JP6997733B2 (ja) 2019-02-20 2019-02-20 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020135424A JP2020135424A (ja) 2020-08-31
JP6997733B2 true JP6997733B2 (ja) 2022-01-18

Family

ID=72278716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019028144A Active JP6997733B2 (ja) 2019-02-20 2019-02-20 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6997733B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023105673A1 (ja) * 2021-12-08 2023-06-15 日本電信電話株式会社 学習装置、推定装置、学習方法、推定方法及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279111A (ja) 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
WO2007043679A1 (ja) 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
WO2013186958A1 (ja) 2012-06-13 2013-12-19 日本電気株式会社 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体
US20140212854A1 (en) 2013-01-31 2014-07-31 Sri International Multi-modal modeling of temporal interaction sequences
US20170127021A1 (en) 2015-10-30 2017-05-04 Konica Minolta Laboratory U.S.A., Inc. Method and system of group interaction by user state detection
JP2019505011A (ja) 2015-12-07 2019-02-21 エスアールアイ インターナショナルSRI International 統合化された物体認識および顔表情認識を伴うvpa

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279111A (ja) 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
WO2007043679A1 (ja) 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
WO2013186958A1 (ja) 2012-06-13 2013-12-19 日本電気株式会社 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体
US20140212854A1 (en) 2013-01-31 2014-07-31 Sri International Multi-modal modeling of temporal interaction sequences
US20170127021A1 (en) 2015-10-30 2017-05-04 Konica Minolta Laboratory U.S.A., Inc. Method and system of group interaction by user state detection
JP2017123149A (ja) 2015-10-30 2017-07-13 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド ユーザー状態検出による集団相互作用の方法及びシステム
JP2019505011A (ja) 2015-12-07 2019-02-21 エスアールアイ インターナショナルSRI International 統合化された物体認識および顔表情認識を伴うvpa

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
上嶋 勇祐、外3名,GMM-SupervectorとSVMを用いた映像からのイベント検出,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2012年02月02日,第111巻,第431号,p.195-200

Also Published As

Publication number Publication date
JP2020135424A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
Tzirakis et al. End-to-end multimodal emotion recognition using deep neural networks
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
Katsaggelos et al. Audiovisual fusion: Challenges and new approaches
Wöllmer et al. LSTM-modeling of continuous emotions in an audiovisual affect recognition framework
JP2022529783A (ja) 発話認識エンジンのための入力の識別
WO2008069519A1 (en) Gesture/speech integrated recognition system and method
WO2014209262A1 (en) Speech detection based upon facial movements
JP2010256391A (ja) 音声情報処理装置
Yargıç et al. A lip reading application on MS Kinect camera
US7257538B2 (en) Generating animation from visual and audio input
EP3928222A1 (en) Rating interface for behavioral impact assessment during interpersonal interactions
Eskimez et al. Noise-resilient training method for face landmark generation from speech
KR20200085696A (ko) 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
Zlatintsi et al. Multimodal signal processing and learning aspects of human-robot interaction for an assistive bathing robot
Abdulsalam et al. Emotion recognition system based on hybrid techniques
Lu et al. Double-dcccae: Estimation of body gestures from speech waveform
JP6997733B2 (ja) 情報処理装置、情報処理方法、及びプログラム
RU2005100267A (ru) Способ и система автоматической проверки присутствия живого лица человека в биометрических системах безопасности
Ronzhin et al. Speaker turn detection based on multimodal situation analysis
Sui et al. A 3D audio-visual corpus for speech recognition
CN111950480A (zh) 一种基于人工智能的英语发音自检方法和自检系统
Billones et al. Intelligent operating architecture for audio-visual breast self-examination multimedia training system
JP2007018006A (ja) 音声合成システム、音声合成方法、音声合成プログラム
Sharma et al. Real Time Online Visual End Point Detection Using Unidirectional LSTM.
Khaki et al. Agreement and disagreement classification of dyadic interactions using vocal and gestural cues

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211217

R150 Certificate of patent or registration of utility model

Ref document number: 6997733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150