JP2020135424A

JP2020135424A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2020135424A
Application number: JP2019028144A
Authority: JP
Inventors: 一郎馬田; Ichiro Umada
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2020-08-31
Anticipated expiration: 2039-02-20
Also published as: JP6997733B2

Abstract

【課題】インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供する。【解決手段】データ取得部３０は、インタラクションイベントを含むマルチモーダルデータを各モダリティから取得する。特徴量抽出部３１は、マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する。組分け部３２は、複数の特徴量の時間変動のパターンに基づいて、複数の特徴量の時間変動を複数の組に組分けする。学習部３３は、組分けされた組を構成する特徴量の時間変動を教師データとして、入力された組が組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、複数の組それぞれについて生成する。統合部３４は、複数の学習モデルが出力した指標を入力したときに、入力された指標に由来するマルチモーダルデータがインタラクションイベントを含むデータか否かを示す情報を出力する。【選択図】図２

Description

本発明は情報処理装置、情報処理方法、及びプログラムに関し、特に、会議等のインタラクションで発生したイベントを抽出する技術に関する。

従来、会議シーン等におけるマルチモーダルデータを用いたインタラクションイベントの推定やデータサマリー、ユーザ支援において、例えば、音声と動画のデータ両方を用いた機械学習の活用が提案されている（例えば、特許文献１を参照）。

Ren, Z., Pandit, V., Qian, K., Yang, Z., Zhang, Z., & Schuller, B.W. "Deep Sequential Image Features for Acoustic Scene Classification.", Detection and Classification of Acoustic Scenes and Events 2017.

上記のような技術を用いると、異なるモダリティから抽出された特徴量を最終的に統合して機械学習を行うことにより、学習精度を高めることが可能となっている。しかしながら、各モダリティからの特徴量を全て統合してから学習を行うには、大量のデータが必要となる。

本発明はこれらの点に鑑みてなされたものであり、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することを目的とする。

本発明の第１の態様は、情報処理装置である。この装置は、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するデータ取得部と、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する特徴量抽出部と、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする組分け部と、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する学習部と、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する統合部と、を備える。

前記組分け部は、前記複数の特徴量の時間変動を、前記マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けしてもよい。

前記組分け部は、前記複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けしてもよい。

前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持つ特徴量について、当該周期に基づいて前記特徴量の時間変動を組分けしてもよい。

前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの共起パターンに基づいて前記特徴量の時間変動を組分けしてもよい。

前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの間隔に基づいて前記特徴量の時間変動を組分けしてもよい。

本発明の第２の態様は、情報処理方法である。この方法において、プロセッサが、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するステップと、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出するステップと、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けするステップと、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成するステップと、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力するステップと、を実行する。

本発明の第３の態様は、プログラムである。このプログラムは、コンピュータに、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する機能と、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する機能と、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする機能と、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する機能と、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する機能と、を実現させる。

本発明によれば、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することができる。

実施の形態の概要を説明するための図である。実施の形態に係る情報処理装置の機能構成を模式的に示す図である。実施の形態に係る組分け部による第１の組分け手法を説明するための図である。実施の形態に係る組分け部による第２の組分け手法を説明するための図である。実施の形態に係る組分け部による第３の組分け手法を説明するための図である。実施の形態に係る情報処理装置における組分け、学習、及び統合の流れを模式的に示す図である。実施の形態に係る情報処理装置が実行する情報処理の処理フローを説明するためのフローチャートである。

＜実施の形態の概要＞
実施の形態に係る情報処理装置は、会議や講演等、発話を軸とするインタラクションを記録したマルチモーダルデータを解析することにより、そのマルチモーダルデータが、インタラクションにおいて発生したイベントを含むデータであるか否かを示す情報を出力する。

実施の形態に係る情報処理装置は、インタラクションにおける話し手と聞き手との役割が明確となっている演説等ではなく、聞き手も話し手と同様に発言する機会が与えられている会議、典型的にはブレインストーミングのような会議を解析対象のインタラクションとする。以下本明細書においては、話し手と聞き手とを特に区別する場合を除いて、コミュニケーションの参加者を「参与者」と記載する。参与者は、あるときは話し手となり、他の参与者が話し手となっているときは聞き手となる。

また、「インタラクションにおいて発生したイベント」とは、意見やアイデアの評価、検討、創出、承認、あるいは議論の展開や停滞等、複数の参与者が関与するインタラクションにおいて、何らかの動きが発生することを意味する。したがって、「インタラクションにおいて発生したイベント」は１種類に限らず、複数種類の動きを含みうる。以下本明細書において、「インタラクションにおいて発生したイベント」を「インタラクションイベント」と記載することがある。

図１は、実施の形態の概要を説明するための図であり、４人の参与者Ｐ（第１参与者Ｐ１、第２参与者Ｐ２、第３参与者Ｐ３、及び第４参与者Ｐ４）が参加している会議の様子を示している。図１に示す会議では第１参与者Ｐ１が主な話し手であるが、第２参与者Ｐ２、第３参与者Ｐ３、及び第４参与者Ｐ４も自由に発言することができる。

図１に示す例では、各参与者Ｐの動きを取得するために、可視光カメラ又は赤外カメラであるカメラＣによって各参与者Ｐを被写体に含む画像データが生成されている。また、各参与者Ｐにはマイクロフォン等の音声入力装置Ｓが取り付けられており、各参与者Ｐの発話を音声データに変換することができる。図１に図示はしていないが、各参与者Ｐは各自の動きを計測するためのモーションキャプチャー等も備えており、速度や加速度、角加速度も計測される。

マルチモーダルデータを用いたインタラクションイベントの推定やデータサマリー、ユーザ支援において、例えば、音声のデータと動画のデータとの両方を用いた機械学習が広く活用されている。このような場合、発話音声や環境音響のデータをスペクトログラムに変換して画像データとして扱う手法も提案されている。こうして、異なるモダリティのデータから抽出された特徴量を最終的に統合して機械学習を行うことにより、学習精度を高めることが可能となっている。しかしながら、各モダリティのデータからの特徴量を全て統合してから学習を行うには、一般に大量のデータが必要である。

一方で、各モダリティについて個別に機械学習を行い、最終的にそれらの結果を統合するという手法も、以前より行われている。この場合、上述の手法に比べ、学習に必要なデータ量を抑えることは可能であるが、モダリティを横断した特徴量の関連については直接学習結果に反映することが困難となる。例えば、画像データ中で人物の「頷き」に対応するような特徴量群は、音声データでの相槌に相当するような特徴量群と深い関連を示すことは容易に推察できるが、各モダリティで閉じた学習を行なっている場合、この関連性を機械学習結果に直接反映することは困難である。

また、このような関連が想定される特徴量群について、設計者が個別にグルーピングして学習する手法も行われているが、設計者が大量のマルチモーダルデータから有効な特徴量の組み合わせを手作業で見出していくには限界があると考えられる。

そこで、実施の形態に係る情報処理装置は、音声データや画像データ等を含むインタラクションに関するマルチモーダルデータの機械学習において、まず、マルチモーダルデータそれぞれについてモダリティ毎に、複数の異なる特徴量の時間変動を抽出する。続いて、実施の形態に係る情報処理装置は、各特徴量の時間変動のパターンの類似性を用いて、モダリティを横断して特徴量を自動で組分けする。実施の形態に係る情報処理装置は、組分けされた特徴量毎に機械学習を行なった結果を統合処理することにより、学習に必要なデータ量を抑えつつ精度の高い結果を出力する。これにより、実施の形態に係る情報処理装置は、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑えることができる。

＜実施の形態に係る情報処理装置１の機能構成＞
図２は、実施の形態に係る情報処理装置１の機能構成を模式的に示す図である。情報処理装置１は、記憶部２と制御部３とを備える。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってもよい。図２において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

記憶部２は、情報処理装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や情報処理装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置である。

制御部３は、情報処理装置１のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサであり、記憶部２に記憶されたプログラムを実行することによってデータ取得部３０、特徴量抽出部３１、組分け部３２、学習部３３、及び統合部３４として機能する。

なお、図２は、情報処理装置１が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置１は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部３を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

データ取得部３０は、複数人でのインタラクションに関するマルチモーダルデータであって、インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する。各モダリティとは、例えば、インタラクションの参与者を撮像した可視光カメラ又は赤外カメラ、各参与者Ｐが備えるマイクロフォン、加速度センサ、圧力センサ、各参与者の生体情報を計測するための各種センサ（例えば、心拍センサ、脈拍センサ、脳波センサ）である。データ取得部３０は、各モダリティそれぞれが測定したデータをマルチモーダルデータとして取得する。なお、マルチモーダルデータは、各モダリティで時間同期を取り、モダリティ間で相互に関連づけが容易な周期設定で収録するのが好ましい。

特徴量抽出部３１は、マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する。例えば、特徴量抽出部３１は、マイクロフォンが計測した参与者Ｐの音声データに対して短時間の分析ウィンドウ（例えば２０〜３０ミリ秒程度、身体動作データ等、他のモダリティからのデータのリフレッシュレートと同期可能な周期）毎にスペクトログラムを生成し特徴量とする。

特徴量抽出部３１は、カメラが参与者Ｐを撮像した画像データに対しては、例えば参与者Ｐの視線の動きや体のパーツ（例えばあごの位置や手首）の速さを取得して特徴量とする。特徴量抽出部３１は、画像データが複数のフレームから構成される同画像データである場合には、隣り合うフレーム間の差分画像を生成し、その画素値の絶対値の総和を特徴量としてもよい。いずれにしても、特徴量抽出部３１は、マルチモーダルデータを既知の信号解析手法を用いて解析し、異なる複数の特徴量それぞれの時間変動を抽出する。

組分け部３２は、特徴量抽出部３１が抽出したマルチモーダルデータのそれぞれに関する複数の特徴量それぞれの時間変動のパターンに基づいて、複数の特徴量の時間変動を複数の組に組分けする。この結果、組分け部３２が組分けした各組には、異なるモダリティのデータから抽出された特徴量が含まれ得る。なお、組分け部３２による特徴量の組分けの詳細は後述する。

学習部３３は、組分け部３２が組分けした組を構成する特徴量の時間変動を教師データとして、既知の機械学習（例えばニューラルネットワークやサポートベクタマシン）を実行し学習モデルを生成する。具体的には、学習部３３は、生成する学習モデルにマルチモーダルデータから抽出された特徴量の時間変動の組を入力した場合、その学習モデルの出力が、入力された組が組分け部３２によって組分けされた各組に該当する蓋然性を示す指標となるような学習モデルを、複数の組それぞれについて生成する。したがって、学習部３３は、組分け部３２が組分けした組の個数と同数の学習モデルを生成することになる。異なるモダリティのデータから抽出された特徴量を含む組を学習データとして生成された学習モデルは、異なるモダリティのデータ間における関連性を学習に直接反映することができる。

なお、学習部３３は、教師データとしてインタラクションイベントを含まないマルチモーダルデータから抽出された特徴量を加えてもよい。この場合、インタラクションイベントを含むマルチモーダルデータから抽出された特徴量が「正」の教師データ、インタラクションイベントを含まないマルチモーダルデータから抽出された特徴量が「負」の教師データとなる。教師データとしてインタラクションイベントを含まないマルチモーダルデータから抽出された特徴量を用いるか否かによらず、教師データには、インタラクションイベントを含むマルチモーダルデータから抽出された特徴量が含まれる。また、マルチモーダルデータに複数種類のインタラクションイベントが含まれる場合には、学習部３３はいわゆる「多クラス識別」の学習モデルを生成する。

統合部３４は、複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来するマルチモーダルデータがインタラクションイベントを含むデータか否かを示す情報を出力する。具体的には、統合部３４は、学習部３３が生成した複数の学習モデルそれぞれの出力を統合して、マルチモーダルデータがインタラクションイベントを含むデータか否かを示す１つの情報を出力する。なお、統合部３４は、学習部３３が生成した複数の学習モデルそれぞれの出力をルールベースで統合して１つの情報を出力してもよいし、既知の機械学習を用いて学習することにより１つの情報を出力するようにしてもよい。

このように、実施の形態に係る情報処理装置１は、特徴量の時間変動のパターンに基づいてマルチモーダルデータをあらかじめ組分けして学習する。これにより、情報処理装置１は、各モダリティからの特徴量を全て統合してから学習を行う場合と比較して、少ない学習データでも異なるモダリティのデータ間における関連性を効果的に学習に反映させることができる。結果として、情報処理装置１は、マルチモーダルデータの機械学習において、学習データ量を抑えることができる。

ここで、組分け部３２は、複数の特徴量の時間変動を、異なるモダリティのデータから抽出された特徴量を含むように組分けする。言い換えると組分け部３２は、複数の特徴量の時間変動を、マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けする。これにより、組分け部３２は、学習部３３が生成する各学習モデルに、異なるモダリティのデータ間における関連性を反映させることができる。

以下、組分け部３２による特徴量の組分け手法について具体的に説明する。

［時間変化の相関を利用した組分け］
図３は、実施の形態に係る組分け部３２による第１の組分け手法を説明するための図である。図３において、実線は第１特徴量の時間変動を模式的に示しており、一点鎖線は第１特徴量とは異なる第２特徴量の時間変動を模式的に示している。図３において、第１矩形Ｗ１は所定の時間幅を示すウィンドウであり、第２矩形Ｗ２も、第１矩形Ｗ１と同じ時間幅を示すウィンドウである。

組分け部３２は、複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けする。図３において、第１矩形Ｗ１及び第２矩形Ｗ２は、特徴量の相関値の関連性を検出するためにあらかじめ設定された時間幅を示している。

例えば、第１特徴量が参与者Ｐに取り付けられた音声入力装置Ｓが取得した音声データの音量であり、第２特徴量が参与者Ｐのあごの速度の絶対値であるとする。インタラクションの中で参与者Ｐが納得をした場合、参与者Ｐは「なるほど！」と発声しつつ首を縦に振って頷いたとする。このとき、音量の増加と、あごの速度の増加とは、おおむね同時期に発生すると考えられる。

図３において、第１矩形Ｗ１が示す範囲において第１特徴量及び第２特徴量は、それぞれ破線の円で示す位置において値の変動が見られる。同様に、第２矩形Ｗ２が示す範囲においても第１特徴量及び第２特徴量は、それぞれ破線の円で示す位置において値の変動が見られる。このような場合、組分け部３２は、第１特徴量と第２特徴量とを同一の組に組分けする。組分け部３２は、他の特徴量の組についても同様の処理を実行することにより、時間変化の相関を利用した特徴量群から構成される組を生成する。

［時間変化の周期性を利用した組分け］
図４は、実施の形態に係る組分け部３２による第２の組分け手法を説明するための図である。図４において、実線は第１特徴量の時間変動を模式的に示しており、一点鎖線は第１特徴量とは異なる第２特徴量の時間変動を模式的に示している。図４において、間隔Ｔ１は第１特徴量の時間変動の周期を示しており、間隔Ｔ２は、第２特徴量の時間変動の周期を示している。図４に示す例では、第１特徴量の時間変動の周期であるＴ１は、第２特徴量の時間変動の周期であるＴ２の２倍となっている。

組分け部３２は、複数の特徴量のうち時間変動が周期性を持つ特徴量について、その周期に基づいて特徴量の時間変動を組分けする。具体的には、組分け部３２は、特徴量の時間変動の周期パターンに関連のある（例えば、周期が定数倍の関係にある）特徴量同士を同一の組に組分けする。組分け部３２は、他の特徴量の組についても同様の処理を実行することにより、時間変化の周期性に関連のある特徴量群から構成される組を生成する。

［時間変化の局所ピークの共起パターンを利用した組分け］
図５は、実施の形態に係る組分け部３２による第３の組分け手法を説明するための図である。図５において、実線は第１特徴量の時間変動を模式的に示しており、一点鎖線は第１特徴量とは異なる第２特徴量の時間変動を模式的に示している。図５において、第１特徴量の時間変動及び第２特徴量の時間変動は、ともに周期性を有していない。

図５において、破線の矩形Ｂ（Ｂ１、Ｂ２、及びＢ３）は、いずれも第１特徴量の時間変動と第２特徴量の時間変動とが、所定の時間幅αの範囲内で局所ピークが発生していること、すなわち「共起」していることを示している。ここで「局所ピーク」とは、特徴量の時間変動の局所的な最大値又は最小値を意味する。図５において、符号Ｃ１及びＣ３を付した円は、それぞれ第１特徴量の時間変動における局所的な最大値を示し、符号Ｃ２及びＣ４を付した円は、それぞれ第１特徴量の時間変動における局所的な最小値を示している。同様に、符号Ｃ５及びＣ６を付した円は、それぞれ第２特徴量の時間変動における局所的な最大値を示し、符号Ｃ７を付した円は、第２特徴量の時間変動における局所的な最小値を示している。

矩形Ｂ１において、円Ｃ１で示す局所的な極大値と円Ｃ５で示す局所的な極大値とが、時間幅αの範囲内で発生している。また、矩形Ｂ２においては、円Ｃ２で示す局所的な極小値と円Ｃ６で示す局所的な極大値とが、時間幅αの範囲内で発生している。同様に、矩形Ｂ３においては、円Ｃ３で示す局所的な極大値と円Ｃ７示す局所的な極小値とが、時間幅αの範囲内で発生している。

組分け部３２は、第１特徴量の時間変動における局所ピークと第２特徴量の時間変動における局所ピークとが時間幅αの範囲内で発生する事象が、所定の設定閾値β％以上の頻度である特徴量同士を同一の組にする。この際、組分け部３２は、βを全てのマルチモーダルデータについて設定してもよいし、組分け対象とする特徴量のいずれかに限定して設定してもよい。

例えば、組分け部３２は、第１特徴量の時間変動における局所ピーク数が、第２特徴量の時間変動における局所ピーク数の半数以下であった場合に、第１特徴量の時間変動における局所ピークが第２特徴量の時間変動における局所ピークに対して設定閾値β％以上の頻度で共起していれば、第１特徴量と第２特徴量とを同一の組に組分けする。なお、時間幅α及び設定閾値βの具体的な値は、特徴量の性質等を勘案して実験により定めればよい。

このように、組分け部３２は、複数の特徴量のうち時間変動が周期性を持たない特徴量については、変動値の局所ピークの共起パターンに基づいて特徴量の時間変動を組分けする。

［時間変化の局所的最大値と最小値の時間間隔を利用した組分け］
組分け部３２は、複数の特徴量のうち時間変動が周期性を持たない特徴量について、特徴量の時間変動の局所的最大値と最小値との間隔ｉに基づいて組分けをしてもよい。例えば、組分け部３２は、間隔ｉの平均値が近いもの、あるいは第１特徴量の間隔ｉ１の平均値が、第２特徴量の間隔ｉ２の平均の倍数に近い場合に、第１特徴量と第２特徴量とを同一の組に組分けしてもよい。

組分け部３２は、特徴量の時間変動に微細な変動とグローバルで大きな変動との両方がみられる場合、特徴量の時間変動をスムーシングすることにより、上述した組分け手法を実行してもよい。このように。組分け部３２は、複数の特徴量の時間変動を、マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けすることができる。これにより、情報処理装置１は、異なるモダリティのデータから抽出された特徴量を含む組を学習データとして生成することができる。

図６は、実施の形態に係る情報処理装置１における組分け、学習、及び統合までの流れを模式的に示す図である。図６において、マルチモーダルデータは、第１モダリティが計測したデータと、第２モダリティが計測したデータと、第３モダリティが計測したデータとを含んでいる。また、図６は、第１モダリティが計測したデータからは、特徴量ｆ１から特徴量ｆ５までの５つの特徴量が抽出され、第２モダリティが計測したデータからは、特徴量ｇ１から特徴量ｇ４までの４つの特徴量が抽出され、第３モダリティが計測したデータからは、特徴量ｈ１から特徴量ｈ３までの３つの特徴量が抽出されたことを示している。

図６において、組分け部３２は、上述した組分け手法を実行することにより、特徴量ｆ１、特徴量ｇ１、及び特徴量ｈ１を含む組と、特徴量ｆ２、特徴量ｇ２、及び特徴量ｇ３を含む組と、特徴量ｈ２、特徴量ｆ３、特徴量ｆ４、及び特徴量ｆ５を含む組と、特徴量ｇ５及び特徴量ｈ３を含む組との４つの組に各特徴量を組分けしたことを示している。また、図６において、学習部３３は、組分け部３２が組分けをした４つの組に含まれる特徴量をそれぞれ学習データとして機械学習することにより、４つの学習モデルを生成したことを示している。

学習部３３が生成した各学習モデルは、それぞれマルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が組分けされた組に該当する蓋然性を示す指標を出力する。図６において、統合部３４は、４つの学習モデルの出力を統合することにより、入力されたマルチモーダルがインタラクションイベントを含むデータか否かを示す情報を出力する。以上より、全体としてみると、情報処理装置１にマルチモーダルデータを入力すると、情報処理装置１は、そのマルチモーダルデータがインタラクションイベントを含むデータか否かを示す１つの情報を出力することになる。

＜情報処理装置１が実行する情報処理方法の処理フロー＞
図７は、実施の形態に係る情報処理装置１が実行する情報処理の処理フローを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置１が起動したときに開始する。

データ取得部３０は、複数人でのインタラクションに関するマルチモーダルデータであって、インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する（Ｓ２）。

特徴量抽出部３１は、マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する（Ｓ４）。組分け部３２は、マルチモーダルデータのそれぞれに関する複数の特徴量それぞれの時間変動のパターンに基づいて、複数の特徴量の時間変動を複数の組に組分けする（Ｓ６）。

学習部３３は、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、複数の組それぞれについて生成する（Ｓ８）。

統合部３４は、複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来するマルチモーダルデータがインタラクションイベントを含むデータか否かを示す情報を出力する（Ｓ１０）。

＜実施の形態に係る情報処理装置１が奏する効果＞
以上説明したように、実施の形態に係る情報処理装置１によれば、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。

１・・・情報処理装置
２・・・記憶部
３・・・制御部
３０・・・データ取得部
３１・・・特徴量抽出部
３２・・・組分け部
３３・・・学習部
３４・・・統合部

Claims

複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するデータ取得部と、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する特徴量抽出部と、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする組分け部と、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する学習部と、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する統合部と、
を備える情報処理装置。
前記組分け部は、前記複数の特徴量の時間変動を、前記マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けする、
請求項１に記載の情報処理装置。
前記組分け部は、前記複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けする、
請求項１又は２に記載の情報処理装置。
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持つ特徴量について、当該周期に基づいて前記特徴量の時間変動を組分けする、
請求項１から３のいずれか１項に記載の情報処理装置。
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの共起パターンに基づいて前記特徴量の時間変動を組分けする、
請求項１から４のいずれか１項に記載の情報処理装置。
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの間隔に基づいて前記特徴量の時間変動を組分けする、
請求項１から５のいずれか１項に記載の情報処理装置。
プロセッサが、
複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するステップと、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出するステップと、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けするステップと、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成するステップと、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力するステップと、
を実行する情報処理方法。
コンピュータに、
複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する機能と、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する機能と、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする機能と、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する機能と、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する機能と、
を実現させるプログラム。