JP7041093B2

JP7041093B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7041093B2
Application number: JP2019088449A
Authority: JP
Inventors: 一郎馬田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2022-03-23
Anticipated expiration: 2039-05-08
Also published as: JP2020184212A

Description

本発明は情報処理装置、情報処理方法、及びプログラムに関する。

従来、会議シーン等におけるマルチモーダルデータを用いたインタラクションイベントの推定やデータサマリー、ユーザ支援において、例えば、音声と動画のデータ両方を用いた機械学習の活用が提案されている（例えば、特許文献１を参照）。

Ren, Z., Pandit, V., Qian, K., Yang, Z., Zhang, Z., & Schuller, B.W. "Deep Sequential Image Features for Acoustic Scene Classification.", Detection and Classification of Acoustic Scenes and Events 2017.

異なるモダリティから得られた学習データから特徴量を抽出することにより特徴量のバリエーションが増える。これらの特徴量の中には、学習精度を高めることに貢献する特徴量も存在すると考えられる。上記のような技術は、異なるモダリティから抽出された学習精度の向上に寄与する特徴量を統合して機械学習を行うことにより、学習精度を高めることが可能となっている。

しかしながら、一般に、既知の機械学習は膨大な学習データを統計的に処理することで学習モデルを生成するため、いずれの学習データ、又はいずれの特徴量が学習精度の向上に貢献しているかを把握することは難しい。このことは、機械学習によって得られた学習モデルは、処理結果の導出理由を説明することが難しいことにつながる。

本発明はこれらの点に鑑みてなされたものであり、機械学習モデルの出力結果の根拠を提示することができる技術を提供することを目的とする。

本発明の第１の態様は、情報処理装置である。この装置は、事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得する学習データ取得部と、前記マルチモーダルデータから複数の異なる特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が抽出したすべての特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する学習部と、前記複数の特徴量から１又は複数の特徴量を選択する特徴量選択部と、前記複数の特徴量から前記特徴量選択部が選択した特徴量を除いた特徴量である部分特徴量群を生成する部分特徴量生成部と、を備える。前記学習部は、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する。前記情報処理装置は、前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出する距離算出部と、前記距離と、前記特徴量選択部が選択した特徴量を示す情報とを通知する通知部と、をさらに備える。

前記特徴量選択部は、複数の異なるパターンで前記特徴量を選択してもよく、前記部分特徴量生成部は、前記特徴量選択部が選択した複数の異なるパターンの特徴量それぞれを前記複数の特徴量から除いた複数の異なる部分特徴量群を生成してもよく、前記学習部は、前記複数の異なる部分特徴量群を用いて複数の異なる参照用学習モデルを生成してもよく、前記距離算出部は、前記基準学習モデルが出力した注目事象と、前記複数の異なる参照用学習モデルが出力した注目事象それぞれとの距離を算出してもよく、前記通知部は、前記距離算出部が算出した距離それぞれと、前記特徴量選択部が選択した複数の異なるパターンの特徴量それぞれとを対応づけて通知してもよい。

前記特徴量選択部は、前記基準学習モデルが出力した注目事象との距離が最長となる注目事象を出力した参照用学習モデルの生成に用いた部分特徴量群から除外されている特徴量が２以上の特徴量を含む場合、当該除外されている特徴量から１又は複数の特徴量を再度選択してもよく、前記部分特徴量生成部は、前記特徴量抽出部が抽出したすべての特徴量から前記特徴量選択部が再度選択した特徴量を除いた部分特徴量群を生成してもよく、前記学習部は、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成してもよい。

前記マルチモーダルデータを構成するデータの入力ソース毎に複数の異なる特徴量を分類する特徴量分類部をさらに備えてもよく、前記特徴量選択部は、前記特徴量分類部が分類した特徴量を単位として特徴量を選択してもよい。

前記概念体系は、前記事象において定義された複数の注目事象に関する木構造で表現されていてもよく、前記距離算出部は、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象とのそれぞれの注目事象に対応する前記木構造の位置に基づいて、前記距離を算出してもよい。

本発明の第２の態様は、情報処理方法である。この方法において、プロセッサが、事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得するステップと、前記マルチモーダルデータから複数の異なる特徴量を抽出するステップと、抽出したすべての前記特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成するステップと、前記複数の特徴量から１又は複数の特徴量を選択するステップと、選択した前記特徴量を前記複数の特徴量から除いた特徴量である部分特徴量群を生成するステップと、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成するステップと、前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出するステップと、前記距離と、前記特徴量を選択するステップで選択された特徴量を示す情報とを通知するステップと、を実行する。

本発明の第３の態様は、プログラムである。このプログラムは、コンピュータに、事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得する機能と、前記マルチモーダルデータから複数の異なる特徴量を抽出する機能と、抽出したすべての前記特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する機能と、前記複数の特徴量から１又は複数の特徴量を選択する機能と、選択した前記特徴量を前記複数の特徴量から除いた特徴量である部分特徴量群を生成する機能と、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する機能と、前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出する機能と、前記距離と、前記特徴量を選択する機能が選択した特徴量を示す情報とを通知する機能と、を実現させる。

このプログラムを提供するため、あるいはプログラムの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、機械学習モデルの出力結果の根拠を提示することができる。

実施の形態の概要を説明するための図である。実施の形態に係る情報処理装置の機能構成を模式的に示す図である。基準学習モデルと参照用学習モデルとの差異を説明するための模式図である。実施の形態に係る特徴量選択部による特徴量の抽出処理を説明するための図である。事象において定義された複数の注目事象に関する木構造で表現された概念体系の一例を模式的に示す図である。実施の形態に係る情報処理装置が実行する情報処理の流れを説明するためのフローチャートである。

＜実施の形態の概要＞
実施の形態に係る情報処理装置は、会議や講演等、発話を軸とするインタラクションを記録したマルチモーダルデータを入力とし、そのマルチモーダルデータが、インタラクションにおいてあらかじめ定義された事象を含むデータであるか否かを示す情報を出力する。このため、実施の形態に係る情報処理装置は、インタラクションで発生した事象と、そのときのマルチモーダルデータとのセットを教師データとして機械学習を実行することにより、マルチモーダルデータを入力とし、事象を出力とする機械学習モデルを生成する。

実施の形態に係る情報処理装置は、インタラクションにおける話し手と聞き手との役割が明確となっている演説等ではなく、聞き手も話し手と同様に発言する機会が与えられている会議、典型的にはブレインストーミングのような会議を解析対象のインタラクションとする。以下本明細書においては、話し手と聞き手とを特に区別する場合を除いて、コミュニケーションの参加者を「参与者」と記載する。参与者は、あるときは話し手となり、他の参与者が話し手となっているときは聞き手となる。

ここで、「事象」とは認識対象としての出来事や事柄であり、インタラクションにおける事象は、参与者の発話、身体の動作、その動作に伴って発生した音（例えば椅子の背もたれがきしむ音や、手をたたく音等）を含む。さらに、インタラクションにおける事象には、インタラクション自体とは直接関係のない事象（例えば、エアコンの送風音、緊急車両のサイレンの音、照明のちらつき等）も含まれる。

実施の形態に係る情報処理装置は、インタラクションにおける事象のうち、あらかじめ特に注目すべき注目事象が特定されたマルチモーダルデータを学習データに含んでいる。ここで、「注目事象」とは、インタラクションにおける意見やアイデアの評価、検討、創出、承認、あるいは議論の展開や停滞等、複数の参与者が関与するインタラクションにおいて、何らかの動きが発生することを示す事象を意味する。したがって、注目事象は１種類に限らず、複数種類が存在し得る。

図１は、実施の形態の概要を説明するための図であり、４人の参与者Ｐ（第１参与者Ｐ１、第２参与者Ｐ２、第３参与者Ｐ３、及び第４参与者Ｐ４）が参加している会議の様子を示している。図１に示す会議では第１参与者Ｐ１が主な話し手であるが、第２参与者Ｐ２、第３参与者Ｐ３、及び第４参与者Ｐ４も自由に発言することができる。

図１に示す例では、各参与者Ｐの動きを取得するために、可視光カメラ又は赤外カメラであるカメラＣによって各参与者Ｐを被写体に含む画像データが生成されている。また、各参与者Ｐにはマイクロフォン等の音声入力装置Ｖが取り付けられており、各参与者Ｐの発話を音声データに変換することができる。図１に図示はしていないが、各参与者Ｐは各自の動きを計測するためのモーションキャプチャー等も備えており、速度や加速度、角加速度も計測される。これらのカメラＣ、音声入力装置Ｖ、モーションキャプチャー等によって得られたデータがマルチモーダルデータとなる。

マルチモーダルデータを用いた注目事象（インタラクション状態推定やデータサマリー、ユーザ行動推定、ユーザ支援等）において、音声・画像・熱・圧力・加速度・動作・位置などに関するデータ、ネットから取得されたデータや携帯端末からのユーザ行動履歴データ等、幅広いソースからのデータを用いた機械学習システムが活用されている。

近年、このような多様な入力ソースからのデータを深層学習等の既知の機械学習手法を用いて学習し推定することにより、システムの精度を高めることが可能となっている。一方で、これらの機械学習によって得られた学習モデルの処理結果には、結果を導出するまでの根拠が提示されない。このため、これらの学習モデルを利用するユーザは結果の信憑性に疑問を持ったとしても導出理由を知ることができず、ユーザ支援の観点から利用しやすい技術であるとは必ずしもいえないという問題が生じている。

そこで、実施の形態に係る情報処理装置は、このような複合的な情報源からのデータ入力を想定し、機械学習に用いる各データとそのデータが学習結果に及ぼす影響について、入力データのカテゴリ情報と処理結果出力の概念距離情報を活用してユーザに提示する。これにより、実施の形態に係る情報処理装置は、機械学習モデルの出力結果の根拠を提示することができる。

＜実施の形態に係る情報処理装置１の機能構成＞
図２は、実施の形態に係る情報処理装置１の機能構成を模式的に示す図である。情報処理装置１は、記憶部２と制御部３とを備える。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってもよい。図２において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

記憶部２は、情報処理装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や情報処理装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置である。

制御部３は、情報処理装置１のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサであり、記憶部２に記憶されたプログラムを実行することによって、学習データ取得部３０、特徴量抽出部３１、学習部３２、特徴量選択部３３、部分特徴量生成部３４、距離算出部３５、通知部３６、及び特徴量分類部３７として機能する。

なお、図２は、情報処理装置１が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置１は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部３を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

学習データ取得部３０は、事象を観測して得られたマルチモーダルデータと、事象において定義された複数の注目事象とを含む学習データを取得する。マルチモーダルデータは、例えば音声データやビデオデータ等の時間の流れにしたがって変化する時系列データであり、注目事象が発生した時刻と、注目事象の種類とがあらかじめ関連付けられている。マルチモーダルデータは記憶部２又は図示しないデータサーバ等の記憶装置に格納されており、学習データ取得部３０は記憶装置からマルチモーダルデータを読み出して取得する。

特徴量抽出部３１は、学習データ取得部３０が取得したマルチモーダルデータから複数の異なる特徴量を抽出する。例えば、情報処理装置１が利用する機械学習がＣＮＮ（Convolutional Neural Networks；畳み込みニューラルネットワーク）の場合には、各畳み込みフィルタをマルチモーダルデータに適用して得られた出力が特徴量となる。

学習部３２は、特徴量抽出部３１が抽出したすべての特徴量を入力したときに、その特徴量が複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する。すなわち、基準学習モデルは、入力されたマルチモーダルデータが、あらかじめ定められた複数の注目事象のうちいずれの注目事象を観測して得られたマルチモーダルデータであるかを示す蓋然性を、すべての特徴量を用いて算出する学習モデルである。

特徴量選択部３３は、特徴量抽出部３１が抽出した複数の特徴量の中から１又は複数の特徴量を選択する。部分特徴量生成部３４は、特徴量抽出部３１が抽出した複数の特徴量から、特徴量選択部３３が選択した特徴量を除いた特徴量である部分特徴量群を生成する。

学習部３２は、部分特徴量生成部３４が生成した部分特徴量群を構成する特徴量を入力したときに、その特徴量が複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する。具体的には、学習部３２は、特徴量選択部３３が選択した特徴量を除いた特徴量で機械学習を実行し、参照用学習モデルを生成する。すなわち、参照用学習モデルは、入力されたマルチモーダルデータが、あらかじめ定められた複数の注目事象のうちいずれの注目事象を観測して得られたマルチモーダルデータであるかを示す蓋然性を、部分特徴量群を構成する特徴量のみを用いて算出する学習モデルである。

図３は、基準学習モデルと参照用学習モデルとの差異を説明するための模式図である。図３において、全特徴量Ｆは特徴量抽出部３１が抽出したすべての特徴量を示しており、部分特徴量群Ｓは部分特徴量生成部３４が生成した部分特徴量群を示している。説明の便宜のため、図３においては特徴量１から特徴量５までの５つの特徴量のみを図示しているが、一般には特徴量の数は５より多い。

図３に示すように、学習部３２は、特徴量抽出部３１が抽出したすべての特徴量を用いて機械学習を実行することにより、基準学習モデルを生成する。同様に、学習部３２は、部分特徴量生成部３４が生成した部分特徴量群Ｓのみを用いて機械学習を実行することにより、参照用学習モデルを生成する。図３は、特徴量抽出部３１が特徴量４を選択し、部分特徴量生成部３４は５つの特徴量から特徴量４を除いた特徴量群を部分特徴量群Ｓとして生成した場合の例を示している。すなわち、参照用学習モデルは、基準学習モデルと比較すると、特徴量４が機械学習に用いられていない点で異なる。このため、基準学習モデルの出力結果と参照用学習モデルの出力結果とに差異がある場合、その差異は特徴量４の有無によるものと推定できる。

図２の説明に戻る。距離算出部３５は、複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象との距離を算出する。なお、注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系の詳細は後述するが、異なる注目事象間の相違を数値化するための体系である。

距離算出部３５が算出した距離が短いことは、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象とが類似すると、すなわち、基準学習モデルと参照用学習モデルとが似た性質であることを意味する。このことは、特徴量選択部３３が選択した特徴量（すなわち、参照用学習モデルの生成に用いられなかった特徴量）が学習モデルの出力に与える影響が小さいことを意味する。反対に、距離算出部３５が算出した距離が長いことは、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象とが異なること、すなわち、特徴量選択部３３が選択した特徴量が学習モデルの出力に与える影響が大きいことを意味する。

このように、距離算出部３５は、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象との距離を算出することにより、特徴量選択部３３が選択した特徴量が学習モデルの出力に与える影響の大小を数値化することができる。

通知部３６は、距離算出部３５が算出した距離と、特徴量選択部３３が選択した特徴量を示す情報とを情報処理装置１のユーザに通知する。具体的には、通知部３６は、情報処理装置１の表示部（不図示）に、距離算出部３５が算出した距離と、特徴量選択部３３が選択した特徴量を示す情報とを表示させる。これにより、情報処理装置１は、特徴量選択部３３が選択した特徴量が学習モデルの与える影響度、すなわち、機械学習モデルの出力結果が変動した根拠を情報処理装置１のユーザに提示することができる。

ここで、特徴量選択部３３は、複数の異なるパターンで特徴量を選択してもよい。例えば、図３に示す例では特徴量選択部３３は特徴量４を選択しているが、特徴量選択部３３は他の特徴量を選択してもよいし、例えば特徴量１と特徴量２との両方を選択する等、特徴量の組み合わせを選択してもよい。

特徴量選択部３３が複数の異なるパターンで特徴量を選択する場合、部分特徴量生成部３４は、特徴量選択部３３が選択した複数の異なるパターンの特徴量それぞれを特徴量抽出部３１が抽出したすべての特徴量から除いた複数の異なる部分特徴量群を生成する。すなわち、部分特徴量生成部３４が生成する複数の異なる特徴量群は、それぞれ特徴量抽出部３１が抽出したすべての特徴量のうち、除かれた特徴量のパターンが異なる特徴量群である。学習部３２は、部分特徴量生成部３４が生成した複数の異なる部分特徴量群それぞれを用いて機械学習を実行することにより、複数の異なる参照用学習モデルを生成する。

距離算出部３５は、基準学習モデルが出力した注目事象と、複数の異なる参照用学習モデルが出力した注目事象それぞれとの距離を算出する。通知部３６は、距離算出部３５が算出した距離それぞれと、特徴量選択部３３が選択した複数の異なるパターンの特徴量それぞれとを対応づけて情報処理装置１のユーザに通知する。これにより、情報処理装置１のユーザは、学習モデルの出力結果に大きな影響を与える特徴量又は特徴量の組み合わせを把握することができる。情報処理装置１のユーザは、例えば学習モデルの出力に与える影響が少ない特徴量の抽出に用いたマルチモーダルデータを学習データから削除することにより、学習モデルの軽量化及びモデル適用の高速化を図ることができる。

学習モデルの出力結果に大きな影響を与える特徴量のパターンに複数の特徴量が含まれる場合、そのパターンを構成する複数の特徴量の中でも、学習モデルの出力結果に与える影響の大きさは異なると考えられる。そこで、特徴量選択部３３は、基準学習モデルが出力した注目事象との距離が大きくなる注目事象（典型的には、距離が最長となる注目事象）を出力した参照用学習モデルの生成に用いた部分特徴量群から除外されている特徴量が２以上の特徴量を含む場合、除外されている特徴量から１又は複数の特徴量を再度選択する。

部分特徴量生成部３４は、特徴量抽出部３１が抽出したすべての特徴量から特徴量選択部３３が再度選択した特徴量を除いた部分特徴量群を生成する。学習部３２は、部分特徴量群を構成する特徴量を入力したときに、その特徴量が複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する。通知部３６は、距離算出部３５が算出した距離それぞれと、特徴量選択部３３が選択した複数の異なるパターンの特徴量それぞれとを対応づけて情報処理装置１のユーザに通知する。

一般に、基準学習モデルが出力した注目事象と参照用学習モデルが出力した注目事象との距離が大きくなることは、その参照用学習モデルの学習に用いた部分特徴量群の生成時に除外された特徴量が出力結果に大きな影響を与える重要特徴量であることを意味する。

図４は、実施の形態に係る特徴量選択部３３による特徴量の抽出処理を説明するための図である。図４は、特徴量選択部３３が３つの段階に分けて特徴量を徐々に分解しながら選択している様子を示している。具体的には、第１段階においては、特徴量選択部３３が選択した特徴量群２が、学習モデルの出力に最も大きな影響を与える特徴量群であった。そこで、特徴量選択部３３は、特徴量群２を構成する複数の特徴量を、さらにＭ種類のサブ特徴量群に分割した。

第２段階においては、特徴量選択部３３が選択したサブ特徴量群Ｍが、学習モデルの出力に最も大きな影響を与える特徴量群であった。サブ特徴量群ＭはＺ個の特徴量から構成されているため、第３段階において、特徴量選択部３３はサブ特徴量群Ｍを構成するＺ個の特徴量をそれぞれ選択した。このように、特徴量選択部３３が段階的に特徴量を選択することにより、情報処理装置１は、学習モデルの出力結果に大きな影響を与える特徴量を段階的に絞ることができる。

上述したように、実施の形態に係る学習部３２が機械学習に用いる学習データはマルチモーダルデータである。マルチモーダルデータは、同一の事象を複数の異なるモダリティ（例えば、図１におけるカメラＣや音声入力装置Ｖ等）で測定して得られたデータ群である。マルチモーダルデータを構成する各データは、そのデータを測定したモダリティを入力ソースとしているため、マルチモーダルデータは複数の異なる入力ソースを備えていることになる。

そこで、特徴量分類部３７は、マルチモーダルデータを構成するデータの入力ソース毎に、特徴量抽出部３１が抽出した複数の異なる特徴量を分類する。特徴量選択部３３は、図４に示す第１段階として、特徴量分類部３７が分類した特徴量を単位として特徴量を選択してもよい。これにより、情報処理装置１は、マルチモーダルデータを生成した複数のモダリティのうち、いずれのモダリティが生成したデータが、学習モデルの出力結果に大きな影響を与えるデータであるかをユーザに示すことができる。これにより、マルチモーダルデータを変更して学習モデルの性能が変化したときに、ユーザは、変化の要因となったデータを測定したモダリティを知ることができる。

続いて、注目事象間の距離を定めるための概念体系について説明する。

注目事象間の距離を定めるための概念体系は、学習部３２が生成する学習モデルが出力する情報の形式にも依存する。例えばコミュニケーションにおけるインタラクションの活性度指標のように、一次元の数値で表される指標値であってもよいし、より複雑な場合としては、インタラクションの状態に関する人手による分類やルールベースで作成されたオントロジでもよい。また、結果出力候補における何らかの特徴量に基づいたクラスタリングなどによって作成してもよい。

学習部３２が生成する学習モデルが、例えば、事象に対応するベクトルを出力する場合、注目事象間の距離を定めるための概念体系としてベクトル空間を採用することもできる。概念体系がベクトル空間である場合、注目事象間の距離は、例えば既知のユークリッド距離やコサイン距離を用いて定義できる。また、注目事象間の距離を定めるための概念体が、例えば事象をノードとし、関連する事象同士をエッジで結んで構成されるグラフ構造である場合、注目事象間の距離は事象間を結ぶ最小のエッジ数（いわゆるホップ数）を用いて定義することができる。

さらに別の概念体系の例として、事象において定義された複数の注目事象に関する木構造があげられる。図５は、事象において定義された複数の注目事象に関する木構造Ｔで表現された概念体系の一例を模式的に示す図である。

概念体系が木構造Ｔで表現されている場合、距離算出部３５は、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象とのそれぞれの注目事象に対応する木構造の位置に基づいて、距離を算出する。

具体的には、概念体系が木構造Ｔで表現されている場合における事象間の距離は、木構造Ｔ上で一方の事象から他方の事象に移動するまでの間に通過する木構造Ｔ中の分岐点の数で表してもよい。例えば、図５において、「出力結果ｒ_ａｌｌ」は、基準学習モデルの出力結果を示している。また、「出力結果ｒ_ｘ」は、ある参照用学習モデルの出力結果を示している。このとき、木構造Ｔにおいて出力結果ｒ_ａｌｌから出力結果ｒ_ｘに移動するまでの間に通過する分岐点は、図５中黒丸で示す分岐点のみである。したがって、距離算出部３５は、「出力結果ｒ_ａｌｌ」と「出力結果ｒ_ｘ」との間の距離を「１」と出力する。

同様に、図５に示す木構造Ｔにおいて、出力結果ｒ_ａｌｌから出力結果ｒ_ｙに移動するまでの間に通過する分岐点の数は、図中黒丸で示す１つの分岐点と、白丸で示す６つの分岐点との合計７つである。したがって、距離算出部３５は、「出力結果ｒ_ａｌｌ」と「出力結果ｒ_ｙ」との間の距離を「７」と出力する。「出力結果ｒ_ａｌｌ」と「出力結果ｒ_ｙ」との距離の方が、「出力結果ｒ_ａｌｌ」と「出力結果ｒ_ｘ」との距離よりも遠いことを示しているが、これは、出力結果ｒ_ｙを出力した参照用学習モデルの生成に用いた部分特徴量群から除外された特徴量の方が、出力結果ｒ_ｘを出力した参照用学習モデルの生成に用いた部分特徴量群から除外された特徴量よりも、出力結果に大きな影響を与える特徴量であることを示している。

なお、上述の木構造Ｔにおける距離の算定アルゴリズムは一例であり、事象間の距離が数値化できれば他のアルゴリズムを採用してもよい。

＜情報処理装置１が実行する情報処理方法の処理フロー＞
図６は、実施の形態に係る情報処理装置１が実行する情報処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置１が起動したときに開始する。

学習データ取得部３０は、事象を観測して得られたマルチモーダルデータと、事象において定義された複数の注目事象とを含む学習データを記憶装置から読み出して取得する（Ｓ２）。特徴量抽出部３１は、マルチモーダルデータから複数の異なる特徴量を抽出する（Ｓ４）。学習部３２は、特徴量抽出部３１が抽出したすべての特徴量を用いて機械学習することによって基準学習モデルを生成する（Ｓ６）。

特徴量選択部３３は、特徴量抽出部３１が抽出したすべての特徴量の中から１又は複数の特徴量から構成される特徴量の一部を選択する（Ｓ８）。部分特徴量生成部３４は、特徴量抽出部３１が抽出したすべての複数の特徴量から特徴量選択部３３が選択した特徴量を除いた特徴量である部分特徴量群を生成する（Ｓ１０）。学習部３２は、部分特徴量生成部３４が生成した部分特徴量群を用いて機械学習することによって参照用学習モデルを生成する（Ｓ１２）。

距離算出部３５は、複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象との間の距離を算出する（Ｓ１４）。通知部３６は、特徴量選択部３３が選択した特徴量に関する情報として、距離算出部３５が算出した距離と特徴量選択部３３が選択した特徴量とを示す情報を情報処理装置１のユーザに通知する（Ｓ１６）。

距離算出部３５が特徴量に関する情報を情報処理装置１のユーザに通知すると、本フローチャートにおける処理は終了する。情報処理装置１は、特徴量選択部３３が複数の異なるパターンで特徴量を選択する毎に、特徴量選択部３３が選択した特徴量に関する情報を情報処理装置１のユーザに通知する。

＜実施の形態に係る情報処理装置１が奏する効果＞
以上説明したように、実施の形態に係る情報処理装置１によれば、機械学習モデルの出力結果の根拠を提示することができる技術を提供できる。これにより、例えばブレインストーミングなどのインタラクションにおける活性度推定において、「活性化している」という推定結果が言語行動の同調に基づくものなのか、身体動作の同調に基づくものなのか、という「根拠」をユーザに理解しやすい形で提示することができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。

＜変形例＞
上記では、学習モデルが、会議や講演等、発話を軸とするインタラクションを記録したマルチモーダルデータを入力とし、そのマルチモーダルデータが、インタラクションにおいてあらかじめ定義された事象を含むデータであるか否かを示す情報を出力する場合について説明した。しかしながら、情報処理装置１が処理対象とする学習モデルは上記に限られない。学習モデルが入力に応じて複数の異なる事象を出力するものであり、異なる事象間に距離を定義可能であればどのような学習モデルであってもよい。

このような学習モデルの一例として、マルチモーダルデータとして、天気、気温、湿度、環境音の音量、照度、ユーザの健康状態等に関する情報を入力として、ユーザが実行すべきタスクを出力する行動レコメンドモデルがあげられる。行動レコメンドモデルが出力するタスクが上述した事象に相当し、例えば、家の掃除、買い物、野外での運動、休息等である。このとき、例えば、マルチモーダルデータに天気に関する情報を含むか否かは、環境音の音量に関する情報を含むか否かよりも、学習モデルが出力する行動レコメンドに影響が大きいと考えられる。情報処理装置１を用いることで、行動レコメンドモデルにおける各入力ソースの影響度の大きさを定量化することができる。

１・・・情報処理装置
２・・・記憶部
３・・・制御部
３０・・・学習データ取得部
３１・・・特徴量抽出部
３２・・・学習部
３３・・・特徴量選択部
３４・・・部分特徴量生成部
３５・・・距離算出部
３６・・・通知部
３７・・・特徴量分類部

Claims

情報処理装置であって、
事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得する学習データ取得部と、
前記マルチモーダルデータから複数の異なる特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部が抽出したすべての特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する学習部と、
前記複数の特徴量から１又は複数の特徴量を選択する特徴量選択部と、
前記複数の特徴量から前記特徴量選択部が選択した特徴量を除いた特徴量である部分特徴量群を生成する部分特徴量生成部と、を備え、
前記学習部は、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成し、
前記情報処理装置は、
前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出する距離算出部と、
前記距離と、前記特徴量選択部が選択した特徴量を示す情報とを通知する通知部と、
をさらに備える情報処理装置。
前記特徴量選択部は、複数の異なるパターンで前記特徴量を選択し、
前記部分特徴量生成部は、前記特徴量選択部が選択した複数の異なるパターンの特徴量それぞれを前記複数の特徴量から除いた複数の異なる部分特徴量群を生成し、
前記学習部は、前記複数の異なる部分特徴量群を用いて複数の異なる参照用学習モデルを生成し、
前記距離算出部は、前記基準学習モデルが出力した注目事象と、前記複数の異なる参照用学習モデルが出力した注目事象それぞれとの距離を算出し、
前記通知部は、前記距離算出部が算出した距離それぞれと、前記特徴量選択部が選択した複数の異なるパターンの特徴量それぞれとを対応づけて通知する、
請求項１に記載の情報処理装置。
前記特徴量選択部は、前記基準学習モデルが出力した注目事象との距離が最長となる注目事象を出力した参照用学習モデルの生成に用いた部分特徴量群から除外されている特徴量が２以上の特徴量を含む場合、当該除外されている特徴量から１又は複数の特徴量を再度選択し、
前記部分特徴量生成部は、前記特徴量抽出部が抽出したすべての特徴量から前記特徴量選択部が再度選択した特徴量を除いた部分特徴量群を生成し、
前記学習部は、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する、
請求項２に記載の情報処理装置。
前記マルチモーダルデータを構成するデータの入力ソース毎に複数の異なる特徴量を分類する特徴量分類部をさらに備え、
前記特徴量選択部は、前記特徴量分類部が分類した特徴量を単位として特徴量を選択する、
請求項１から３のいずれか１項に記載の情報処理装置。
前記概念体系は、前記事象において定義された複数の注目事象に関する木構造で表現されており、
前記距離算出部は、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象とのそれぞれの注目事象に対応する前記木構造の位置に基づいて、前記距離を算出する、
請求項１から４のいずれか１項に記載の情報処理装置。
プロセッサが、
事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得するステップと、
前記マルチモーダルデータから複数の異なる特徴量を抽出するステップと、
抽出したすべての前記特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成するステップと、
前記複数の特徴量から１又は複数の特徴量を選択するステップと、
選択した前記特徴量を前記複数の特徴量から除いた特徴量である部分特徴量群を生成するステップと、
前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成するステップと、
前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出するステップと、
前記距離と、前記特徴量を選択するステップで選択された特徴量を示す情報とを通知するステップと、
を実行する情報処理方法。
コンピュータに、
事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得する機能と、
前記マルチモーダルデータから複数の異なる特徴量を抽出する機能と、
抽出したすべての前記特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する機能と、
前記複数の特徴量から１又は複数の特徴量を選択する機能と、
選択した前記特徴量を前記複数の特徴量から除いた特徴量である部分特徴量群を生成する機能と、
前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する機能と、
前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出する機能と、
前記距離と、前記特徴量を選択する機能が選択した特徴量を示す情報とを通知する機能と、
を実現させるプログラム。