JP7041093B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP7041093B2
JP7041093B2 JP2019088449A JP2019088449A JP7041093B2 JP 7041093 B2 JP7041093 B2 JP 7041093B2 JP 2019088449 A JP2019088449 A JP 2019088449A JP 2019088449 A JP2019088449 A JP 2019088449A JP 7041093 B2 JP7041093 B2 JP 7041093B2
Authority
JP
Japan
Prior art keywords
feature amount
feature
learning model
event
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019088449A
Other languages
English (en)
Other versions
JP2020184212A (ja
Inventor
一郎 馬田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019088449A priority Critical patent/JP7041093B2/ja
Publication of JP2020184212A publication Critical patent/JP2020184212A/ja
Application granted granted Critical
Publication of JP7041093B2 publication Critical patent/JP7041093B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は情報処理装置、情報処理方法、及びプログラムに関する。
従来、会議シーン等におけるマルチモーダルデータを用いたインタラクションイベントの推定やデータサマリー、ユーザ支援において、例えば、音声と動画のデータ両方を用いた機械学習の活用が提案されている(例えば、特許文献1を参照)。
Ren, Z., Pandit, V., Qian, K., Yang, Z., Zhang, Z., & Schuller, B.W. "Deep Sequential Image Features for Acoustic Scene Classification.", Detection and Classification of Acoustic Scenes and Events 2017.
異なるモダリティから得られた学習データから特徴量を抽出することにより特徴量のバリエーションが増える。これらの特徴量の中には、学習精度を高めることに貢献する特徴量も存在すると考えられる。上記のような技術は、異なるモダリティから抽出された学習精度の向上に寄与する特徴量を統合して機械学習を行うことにより、学習精度を高めることが可能となっている。
しかしながら、一般に、既知の機械学習は膨大な学習データを統計的に処理することで学習モデルを生成するため、いずれの学習データ、又はいずれの特徴量が学習精度の向上に貢献しているかを把握することは難しい。このことは、機械学習によって得られた学習モデルは、処理結果の導出理由を説明することが難しいことにつながる。
本発明はこれらの点に鑑みてなされたものであり、機械学習モデルの出力結果の根拠を提示することができる技術を提供することを目的とする。
本発明の第1の態様は、情報処理装置である。この装置は、事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得する学習データ取得部と、前記マルチモーダルデータから複数の異なる特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が抽出したすべての特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する学習部と、前記複数の特徴量から1又は複数の特徴量を選択する特徴量選択部と、前記複数の特徴量から前記特徴量選択部が選択した特徴量を除いた特徴量である部分特徴量群を生成する部分特徴量生成部と、を備える。前記学習部は、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する。前記情報処理装置は、前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出する距離算出部と、前記距離と、前記特徴量選択部が選択した特徴量を示す情報とを通知する通知部と、をさらに備える。
前記特徴量選択部は、複数の異なるパターンで前記特徴量を選択してもよく、前記部分特徴量生成部は、前記特徴量選択部が選択した複数の異なるパターンの特徴量それぞれを前記複数の特徴量から除いた複数の異なる部分特徴量群を生成してもよく、前記学習部は、前記複数の異なる部分特徴量群を用いて複数の異なる参照用学習モデルを生成してもよく、前記距離算出部は、前記基準学習モデルが出力した注目事象と、前記複数の異なる参照用学習モデルが出力した注目事象それぞれとの距離を算出してもよく、前記通知部は、前記距離算出部が算出した距離それぞれと、前記特徴量選択部が選択した複数の異なるパターンの特徴量それぞれとを対応づけて通知してもよい。
前記特徴量選択部は、前記基準学習モデルが出力した注目事象との距離が最長となる注目事象を出力した参照用学習モデルの生成に用いた部分特徴量群から除外されている特徴量が2以上の特徴量を含む場合、当該除外されている特徴量から1又は複数の特徴量を再度選択してもよく、前記部分特徴量生成部は、前記特徴量抽出部が抽出したすべての特徴量から前記特徴量選択部が再度選択した特徴量を除いた部分特徴量群を生成してもよく、前記学習部は、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成してもよい。
前記マルチモーダルデータを構成するデータの入力ソース毎に複数の異なる特徴量を分類する特徴量分類部をさらに備えてもよく、前記特徴量選択部は、前記特徴量分類部が分類した特徴量を単位として特徴量を選択してもよい。
前記概念体系は、前記事象において定義された複数の注目事象に関する木構造で表現されていてもよく、前記距離算出部は、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象とのそれぞれの注目事象に対応する前記木構造の位置に基づいて、前記距離を算出してもよい。
本発明の第2の態様は、情報処理方法である。この方法において、プロセッサが、事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得するステップと、前記マルチモーダルデータから複数の異なる特徴量を抽出するステップと、抽出したすべての前記特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成するステップと、前記複数の特徴量から1又は複数の特徴量を選択するステップと、選択した前記特徴量を前記複数の特徴量から除いた特徴量である部分特徴量群を生成するステップと、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成するステップと、前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出するステップと、前記距離と、前記特徴量を選択するステップで選択された特徴量を示す情報とを通知するステップと、を実行する。
本発明の第3の態様は、プログラムである。このプログラムは、コンピュータに、事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得する機能と、前記マルチモーダルデータから複数の異なる特徴量を抽出する機能と、抽出したすべての前記特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する機能と、前記複数の特徴量から1又は複数の特徴量を選択する機能と、選択した前記特徴量を前記複数の特徴量から除いた特徴量である部分特徴量群を生成する機能と、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する機能と、前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出する機能と、前記距離と、前記特徴量を選択する機能が選択した特徴量を示す情報とを通知する機能と、を実現させる。
このプログラムを提供するため、あるいはプログラムの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、機械学習モデルの出力結果の根拠を提示することができる。
実施の形態の概要を説明するための図である。 実施の形態に係る情報処理装置の機能構成を模式的に示す図である。 基準学習モデルと参照用学習モデルとの差異を説明するための模式図である。 実施の形態に係る特徴量選択部による特徴量の抽出処理を説明するための図である。 事象において定義された複数の注目事象に関する木構造で表現された概念体系の一例を模式的に示す図である。 実施の形態に係る情報処理装置が実行する情報処理の流れを説明するためのフローチャートである。
<実施の形態の概要>
実施の形態に係る情報処理装置は、会議や講演等、発話を軸とするインタラクションを記録したマルチモーダルデータを入力とし、そのマルチモーダルデータが、インタラクションにおいてあらかじめ定義された事象を含むデータであるか否かを示す情報を出力する。このため、実施の形態に係る情報処理装置は、インタラクションで発生した事象と、そのときのマルチモーダルデータとのセットを教師データとして機械学習を実行することにより、マルチモーダルデータを入力とし、事象を出力とする機械学習モデルを生成する。
実施の形態に係る情報処理装置は、インタラクションにおける話し手と聞き手との役割が明確となっている演説等ではなく、聞き手も話し手と同様に発言する機会が与えられている会議、典型的にはブレインストーミングのような会議を解析対象のインタラクションとする。以下本明細書においては、話し手と聞き手とを特に区別する場合を除いて、コミュニケーションの参加者を「参与者」と記載する。参与者は、あるときは話し手となり、他の参与者が話し手となっているときは聞き手となる。
ここで、「事象」とは認識対象としての出来事や事柄であり、インタラクションにおける事象は、参与者の発話、身体の動作、その動作に伴って発生した音(例えば椅子の背もたれがきしむ音や、手をたたく音等)を含む。さらに、インタラクションにおける事象には、インタラクション自体とは直接関係のない事象(例えば、エアコンの送風音、緊急車両のサイレンの音、照明のちらつき等)も含まれる。
実施の形態に係る情報処理装置は、インタラクションにおける事象のうち、あらかじめ特に注目すべき注目事象が特定されたマルチモーダルデータを学習データに含んでいる。ここで、「注目事象」とは、インタラクションにおける意見やアイデアの評価、検討、創出、承認、あるいは議論の展開や停滞等、複数の参与者が関与するインタラクションにおいて、何らかの動きが発生することを示す事象を意味する。したがって、注目事象は1種類に限らず、複数種類が存在し得る。
図1は、実施の形態の概要を説明するための図であり、4人の参与者P(第1参与者P1、第2参与者P2、第3参与者P3、及び第4参与者P4)が参加している会議の様子を示している。図1に示す会議では第1参与者P1が主な話し手であるが、第2参与者P2、第3参与者P3、及び第4参与者P4も自由に発言することができる。
図1に示す例では、各参与者Pの動きを取得するために、可視光カメラ又は赤外カメラであるカメラCによって各参与者Pを被写体に含む画像データが生成されている。また、各参与者Pにはマイクロフォン等の音声入力装置Vが取り付けられており、各参与者Pの発話を音声データに変換することができる。図1に図示はしていないが、各参与者Pは各自の動きを計測するためのモーションキャプチャー等も備えており、速度や加速度、角加速度も計測される。これらのカメラC、音声入力装置V、モーションキャプチャー等によって得られたデータがマルチモーダルデータとなる。
マルチモーダルデータを用いた注目事象(インタラクション状態推定やデータサマリー、ユーザ行動推定、ユーザ支援等)において、音声・画像・熱・圧力・加速度・動作・位置などに関するデータ、ネットから取得されたデータや携帯端末からのユーザ行動履歴データ等、幅広いソースからのデータを用いた機械学習システムが活用されている。
近年、このような多様な入力ソースからのデータを深層学習等の既知の機械学習手法を用いて学習し推定することにより、システムの精度を高めることが可能となっている。一方で、これらの機械学習によって得られた学習モデルの処理結果には、結果を導出するまでの根拠が提示されない。このため、これらの学習モデルを利用するユーザは結果の信憑性に疑問を持ったとしても導出理由を知ることができず、ユーザ支援の観点から利用しやすい技術であるとは必ずしもいえないという問題が生じている。
そこで、実施の形態に係る情報処理装置は、このような複合的な情報源からのデータ入力を想定し、機械学習に用いる各データとそのデータが学習結果に及ぼす影響について、入力データのカテゴリ情報と処理結果出力の概念距離情報を活用してユーザに提示する。これにより、実施の形態に係る情報処理装置は、機械学習モデルの出力結果の根拠を提示することができる。
<実施の形態に係る情報処理装置1の機能構成>
図2は、実施の形態に係る情報処理装置1の機能構成を模式的に示す図である。情報処理装置1は、記憶部2と制御部3とを備える。図2において、矢印は主なデータの流れを示しており、図2に示していないデータの流れがあってもよい。図2において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
記憶部2は、情報処理装置1を実現するコンピュータのBIOS(Basic Input Output System)等を格納するROM(Read Only Memory)や情報処理装置1の作業領域となるRAM(Random Access Memory)、OS(Operating System)やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置である。
制御部3は、情報処理装置1のCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサであり、記憶部2に記憶されたプログラムを実行することによって、学習データ取得部30、特徴量抽出部31、学習部32、特徴量選択部33、部分特徴量生成部34、距離算出部35、通知部36、及び特徴量分類部37として機能する。
なお、図2は、情報処理装置1が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置1は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部3を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。
学習データ取得部30は、事象を観測して得られたマルチモーダルデータと、事象において定義された複数の注目事象とを含む学習データを取得する。マルチモーダルデータは、例えば音声データやビデオデータ等の時間の流れにしたがって変化する時系列データであり、注目事象が発生した時刻と、注目事象の種類とがあらかじめ関連付けられている。マルチモーダルデータは記憶部2又は図示しないデータサーバ等の記憶装置に格納されており、学習データ取得部30は記憶装置からマルチモーダルデータを読み出して取得する。
特徴量抽出部31は、学習データ取得部30が取得したマルチモーダルデータから複数の異なる特徴量を抽出する。例えば、情報処理装置1が利用する機械学習がCNN(Convolutional Neural Networks;畳み込みニューラルネットワーク)の場合には、各畳み込みフィルタをマルチモーダルデータに適用して得られた出力が特徴量となる。
学習部32は、特徴量抽出部31が抽出したすべての特徴量を入力したときに、その特徴量が複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する。すなわち、基準学習モデルは、入力されたマルチモーダルデータが、あらかじめ定められた複数の注目事象のうちいずれの注目事象を観測して得られたマルチモーダルデータであるかを示す蓋然性を、すべての特徴量を用いて算出する学習モデルである。
特徴量選択部33は、特徴量抽出部31が抽出した複数の特徴量の中から1又は複数の特徴量を選択する。部分特徴量生成部34は、特徴量抽出部31が抽出した複数の特徴量から、特徴量選択部33が選択した特徴量を除いた特徴量である部分特徴量群を生成する。
学習部32は、部分特徴量生成部34が生成した部分特徴量群を構成する特徴量を入力したときに、その特徴量が複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する。具体的には、学習部32は、特徴量選択部33が選択した特徴量を除いた特徴量で機械学習を実行し、参照用学習モデルを生成する。すなわち、参照用学習モデルは、入力されたマルチモーダルデータが、あらかじめ定められた複数の注目事象のうちいずれの注目事象を観測して得られたマルチモーダルデータであるかを示す蓋然性を、部分特徴量群を構成する特徴量のみを用いて算出する学習モデルである。
図3は、基準学習モデルと参照用学習モデルとの差異を説明するための模式図である。図3において、全特徴量Fは特徴量抽出部31が抽出したすべての特徴量を示しており、部分特徴量群Sは部分特徴量生成部34が生成した部分特徴量群を示している。説明の便宜のため、図3においては特徴量1から特徴量5までの5つの特徴量のみを図示しているが、一般には特徴量の数は5より多い。
図3に示すように、学習部32は、特徴量抽出部31が抽出したすべての特徴量を用いて機械学習を実行することにより、基準学習モデルを生成する。同様に、学習部32は、部分特徴量生成部34が生成した部分特徴量群Sのみを用いて機械学習を実行することにより、参照用学習モデルを生成する。図3は、特徴量抽出部31が特徴量4を選択し、部分特徴量生成部34は5つの特徴量から特徴量4を除いた特徴量群を部分特徴量群Sとして生成した場合の例を示している。すなわち、参照用学習モデルは、基準学習モデルと比較すると、特徴量4が機械学習に用いられていない点で異なる。このため、基準学習モデルの出力結果と参照用学習モデルの出力結果とに差異がある場合、その差異は特徴量4の有無によるものと推定できる。
図2の説明に戻る。距離算出部35は、複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象との距離を算出する。なお、注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系の詳細は後述するが、異なる注目事象間の相違を数値化するための体系である。
距離算出部35が算出した距離が短いことは、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象とが類似すると、すなわち、基準学習モデルと参照用学習モデルとが似た性質であることを意味する。このことは、特徴量選択部33が選択した特徴量(すなわち、参照用学習モデルの生成に用いられなかった特徴量)が学習モデルの出力に与える影響が小さいことを意味する。反対に、距離算出部35が算出した距離が長いことは、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象とが異なること、すなわち、特徴量選択部33が選択した特徴量が学習モデルの出力に与える影響が大きいことを意味する。
このように、距離算出部35は、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象との距離を算出することにより、特徴量選択部33が選択した特徴量が学習モデルの出力に与える影響の大小を数値化することができる。
通知部36は、距離算出部35が算出した距離と、特徴量選択部33が選択した特徴量を示す情報とを情報処理装置1のユーザに通知する。具体的には、通知部36は、情報処理装置1の表示部(不図示)に、距離算出部35が算出した距離と、特徴量選択部33が選択した特徴量を示す情報とを表示させる。これにより、情報処理装置1は、特徴量選択部33が選択した特徴量が学習モデルの与える影響度、すなわち、機械学習モデルの出力結果が変動した根拠を情報処理装置1のユーザに提示することができる。
ここで、特徴量選択部33は、複数の異なるパターンで特徴量を選択してもよい。例えば、図3に示す例では特徴量選択部33は特徴量4を選択しているが、特徴量選択部33は他の特徴量を選択してもよいし、例えば特徴量1と特徴量2との両方を選択する等、特徴量の組み合わせを選択してもよい。
特徴量選択部33が複数の異なるパターンで特徴量を選択する場合、部分特徴量生成部34は、特徴量選択部33が選択した複数の異なるパターンの特徴量それぞれを特徴量抽出部31が抽出したすべての特徴量から除いた複数の異なる部分特徴量群を生成する。すなわち、部分特徴量生成部34が生成する複数の異なる特徴量群は、それぞれ特徴量抽出部31が抽出したすべての特徴量のうち、除かれた特徴量のパターンが異なる特徴量群である。学習部32は、部分特徴量生成部34が生成した複数の異なる部分特徴量群それぞれを用いて機械学習を実行することにより、複数の異なる参照用学習モデルを生成する。
距離算出部35は、基準学習モデルが出力した注目事象と、複数の異なる参照用学習モデルが出力した注目事象それぞれとの距離を算出する。通知部36は、距離算出部35が算出した距離それぞれと、特徴量選択部33が選択した複数の異なるパターンの特徴量それぞれとを対応づけて情報処理装置1のユーザに通知する。これにより、情報処理装置1のユーザは、学習モデルの出力結果に大きな影響を与える特徴量又は特徴量の組み合わせを把握することができる。情報処理装置1のユーザは、例えば学習モデルの出力に与える影響が少ない特徴量の抽出に用いたマルチモーダルデータを学習データから削除することにより、学習モデルの軽量化及びモデル適用の高速化を図ることができる。
学習モデルの出力結果に大きな影響を与える特徴量のパターンに複数の特徴量が含まれる場合、そのパターンを構成する複数の特徴量の中でも、学習モデルの出力結果に与える影響の大きさは異なると考えられる。そこで、特徴量選択部33は、基準学習モデルが出力した注目事象との距離が大きくなる注目事象(典型的には、距離が最長となる注目事象)を出力した参照用学習モデルの生成に用いた部分特徴量群から除外されている特徴量が2以上の特徴量を含む場合、除外されている特徴量から1又は複数の特徴量を再度選択する。
部分特徴量生成部34は、特徴量抽出部31が抽出したすべての特徴量から特徴量選択部33が再度選択した特徴量を除いた部分特徴量群を生成する。学習部32は、部分特徴量群を構成する特徴量を入力したときに、その特徴量が複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する。通知部36は、距離算出部35が算出した距離それぞれと、特徴量選択部33が選択した複数の異なるパターンの特徴量それぞれとを対応づけて情報処理装置1のユーザに通知する。
一般に、基準学習モデルが出力した注目事象と参照用学習モデルが出力した注目事象との距離が大きくなることは、その参照用学習モデルの学習に用いた部分特徴量群の生成時に除外された特徴量が出力結果に大きな影響を与える重要特徴量であることを意味する。
図4は、実施の形態に係る特徴量選択部33による特徴量の抽出処理を説明するための図である。図4は、特徴量選択部33が3つの段階に分けて特徴量を徐々に分解しながら選択している様子を示している。具体的には、第1段階においては、特徴量選択部33が選択した特徴量群2が、学習モデルの出力に最も大きな影響を与える特徴量群であった。そこで、特徴量選択部33は、特徴量群2を構成する複数の特徴量を、さらにM種類のサブ特徴量群に分割した。
第2段階においては、特徴量選択部33が選択したサブ特徴量群Mが、学習モデルの出力に最も大きな影響を与える特徴量群であった。サブ特徴量群MはZ個の特徴量から構成されているため、第3段階において、特徴量選択部33はサブ特徴量群Mを構成するZ個の特徴量をそれぞれ選択した。このように、特徴量選択部33が段階的に特徴量を選択することにより、情報処理装置1は、学習モデルの出力結果に大きな影響を与える特徴量を段階的に絞ることができる。
上述したように、実施の形態に係る学習部32が機械学習に用いる学習データはマルチモーダルデータである。マルチモーダルデータは、同一の事象を複数の異なるモダリティ(例えば、図1におけるカメラCや音声入力装置V等)で測定して得られたデータ群である。マルチモーダルデータを構成する各データは、そのデータを測定したモダリティを入力ソースとしているため、マルチモーダルデータは複数の異なる入力ソースを備えていることになる。
そこで、特徴量分類部37は、マルチモーダルデータを構成するデータの入力ソース毎に、特徴量抽出部31が抽出した複数の異なる特徴量を分類する。特徴量選択部33は、図4に示す第1段階として、特徴量分類部37が分類した特徴量を単位として特徴量を選択してもよい。これにより、情報処理装置1は、マルチモーダルデータを生成した複数のモダリティのうち、いずれのモダリティが生成したデータが、学習モデルの出力結果に大きな影響を与えるデータであるかをユーザに示すことができる。これにより、マルチモーダルデータを変更して学習モデルの性能が変化したときに、ユーザは、変化の要因となったデータを測定したモダリティを知ることができる。
続いて、注目事象間の距離を定めるための概念体系について説明する。
注目事象間の距離を定めるための概念体系は、学習部32が生成する学習モデルが出力する情報の形式にも依存する。例えばコミュニケーションにおけるインタラクションの活性度指標のように、一次元の数値で表される指標値であってもよいし、より複雑な場合としては、インタラクションの状態に関する人手による分類やルールベースで作成されたオントロジでもよい。また、結果出力候補における何らかの特徴量に基づいたクラスタリングなどによって作成してもよい。
学習部32が生成する学習モデルが、例えば、事象に対応するベクトルを出力する場合、注目事象間の距離を定めるための概念体系としてベクトル空間を採用することもできる。概念体系がベクトル空間である場合、注目事象間の距離は、例えば既知のユークリッド距離やコサイン距離を用いて定義できる。また、注目事象間の距離を定めるための概念体が、例えば事象をノードとし、関連する事象同士をエッジで結んで構成されるグラフ構造である場合、注目事象間の距離は事象間を結ぶ最小のエッジ数(いわゆるホップ数)を用いて定義することができる。
さらに別の概念体系の例として、事象において定義された複数の注目事象に関する木構造があげられる。図5は、事象において定義された複数の注目事象に関する木構造Tで表現された概念体系の一例を模式的に示す図である。
概念体系が木構造Tで表現されている場合、距離算出部35は、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象とのそれぞれの注目事象に対応する木構造の位置に基づいて、距離を算出する。
具体的には、概念体系が木構造Tで表現されている場合における事象間の距離は、木構造T上で一方の事象から他方の事象に移動するまでの間に通過する木構造T中の分岐点の数で表してもよい。例えば、図5において、「出力結果rall」は、基準学習モデルの出力結果を示している。また、「出力結果r」は、ある参照用学習モデルの出力結果を示している。このとき、木構造Tにおいて出力結果rallから出力結果rに移動するまでの間に通過する分岐点は、図5中黒丸で示す分岐点のみである。したがって、距離算出部35は、「出力結果rall」と「出力結果r」との間の距離を「1」と出力する。
同様に、図5に示す木構造Tにおいて、出力結果rallから出力結果rに移動するまでの間に通過する分岐点の数は、図中黒丸で示す1つの分岐点と、白丸で示す6つの分岐点との合計7つである。したがって、距離算出部35は、「出力結果rall」と「出力結果r」との間の距離を「7」と出力する。「出力結果rall」と「出力結果r」との距離の方が、「出力結果rall」と「出力結果r」との距離よりも遠いことを示しているが、これは、出力結果rを出力した参照用学習モデルの生成に用いた部分特徴量群から除外された特徴量の方が、出力結果rを出力した参照用学習モデルの生成に用いた部分特徴量群から除外された特徴量よりも、出力結果に大きな影響を与える特徴量であることを示している。
なお、上述の木構造Tにおける距離の算定アルゴリズムは一例であり、事象間の距離が数値化できれば他のアルゴリズムを採用してもよい。
<情報処理装置1が実行する情報処理方法の処理フロー>
図6は、実施の形態に係る情報処理装置1が実行する情報処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置1が起動したときに開始する。
学習データ取得部30は、事象を観測して得られたマルチモーダルデータと、事象において定義された複数の注目事象とを含む学習データを記憶装置から読み出して取得する(S2)。特徴量抽出部31は、マルチモーダルデータから複数の異なる特徴量を抽出する(S4)。学習部32は、特徴量抽出部31が抽出したすべての特徴量を用いて機械学習することによって基準学習モデルを生成する(S6)。
特徴量選択部33は、特徴量抽出部31が抽出したすべての特徴量の中から1又は複数の特徴量から構成される特徴量の一部を選択する(S8)。部分特徴量生成部34は、特徴量抽出部31が抽出したすべての複数の特徴量から特徴量選択部33が選択した特徴量を除いた特徴量である部分特徴量群を生成する(S10)。学習部32は、部分特徴量生成部34が生成した部分特徴量群を用いて機械学習することによって参照用学習モデルを生成する(S12)。
距離算出部35は、複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、基準学習モデルが出力した指標が示す注目事象と、参照用学習モデルが出力した指標が示す注目事象との間の距離を算出する(S14)。通知部36は、特徴量選択部33が選択した特徴量に関する情報として、距離算出部35が算出した距離と特徴量選択部33が選択した特徴量とを示す情報を情報処理装置1のユーザに通知する(S16)。
距離算出部35が特徴量に関する情報を情報処理装置1のユーザに通知すると、本フローチャートにおける処理は終了する。情報処理装置1は、特徴量選択部33が複数の異なるパターンで特徴量を選択する毎に、特徴量選択部33が選択した特徴量に関する情報を情報処理装置1のユーザに通知する。
<実施の形態に係る情報処理装置1が奏する効果>
以上説明したように、実施の形態に係る情報処理装置1によれば、機械学習モデルの出力結果の根拠を提示することができる技術を提供できる。これにより、例えばブレインストーミングなどのインタラクションにおける活性度推定において、「活性化している」という推定結果が言語行動の同調に基づくものなのか、身体動作の同調に基づくものなのか、という「根拠」をユーザに理解しやすい形で提示することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。
<変形例>
上記では、学習モデルが、会議や講演等、発話を軸とするインタラクションを記録したマルチモーダルデータを入力とし、そのマルチモーダルデータが、インタラクションにおいてあらかじめ定義された事象を含むデータであるか否かを示す情報を出力する場合について説明した。しかしながら、情報処理装置1が処理対象とする学習モデルは上記に限られない。学習モデルが入力に応じて複数の異なる事象を出力するものであり、異なる事象間に距離を定義可能であればどのような学習モデルであってもよい。
このような学習モデルの一例として、マルチモーダルデータとして、天気、気温、湿度、環境音の音量、照度、ユーザの健康状態等に関する情報を入力として、ユーザが実行すべきタスクを出力する行動レコメンドモデルがあげられる。行動レコメンドモデルが出力するタスクが上述した事象に相当し、例えば、家の掃除、買い物、野外での運動、休息等である。このとき、例えば、マルチモーダルデータに天気に関する情報を含むか否かは、環境音の音量に関する情報を含むか否かよりも、学習モデルが出力する行動レコメンドに影響が大きいと考えられる。情報処理装置1を用いることで、行動レコメンドモデルにおける各入力ソースの影響度の大きさを定量化することができる。
1・・・情報処理装置
2・・・記憶部
3・・・制御部
30・・・学習データ取得部
31・・・特徴量抽出部
32・・・学習部
33・・・特徴量選択部
34・・・部分特徴量生成部
35・・・距離算出部
36・・・通知部
37・・・特徴量分類部

Claims (7)

  1. 情報処理装置であって、
    事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得する学習データ取得部と、
    前記マルチモーダルデータから複数の異なる特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部が抽出したすべての特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する学習部と、
    前記複数の特徴量から1又は複数の特徴量を選択する特徴量選択部と、
    前記複数の特徴量から前記特徴量選択部が選択した特徴量を除いた特徴量である部分特徴量群を生成する部分特徴量生成部と、を備え、
    前記学習部は、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成し、
    前記情報処理装置は、
    前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出する距離算出部と、
    前記距離と、前記特徴量選択部が選択した特徴量を示す情報とを通知する通知部と、
    をさらに備える情報処理装置。
  2. 前記特徴量選択部は、複数の異なるパターンで前記特徴量を選択し、
    前記部分特徴量生成部は、前記特徴量選択部が選択した複数の異なるパターンの特徴量それぞれを前記複数の特徴量から除いた複数の異なる部分特徴量群を生成し、
    前記学習部は、前記複数の異なる部分特徴量群を用いて複数の異なる参照用学習モデルを生成し、
    前記距離算出部は、前記基準学習モデルが出力した注目事象と、前記複数の異なる参照用学習モデルが出力した注目事象それぞれとの距離を算出し、
    前記通知部は、前記距離算出部が算出した距離それぞれと、前記特徴量選択部が選択した複数の異なるパターンの特徴量それぞれとを対応づけて通知する、
    請求項1に記載の情報処理装置。
  3. 前記特徴量選択部は、前記基準学習モデルが出力した注目事象との距離が最長となる注目事象を出力した参照用学習モデルの生成に用いた部分特徴量群から除外されている特徴量が2以上の特徴量を含む場合、当該除外されている特徴量から1又は複数の特徴量を再度選択し、
    前記部分特徴量生成部は、前記特徴量抽出部が抽出したすべての特徴量から前記特徴量選択部が再度選択した特徴量を除いた部分特徴量群を生成し、
    前記学習部は、前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する、
    請求項2に記載の情報処理装置。
  4. 前記マルチモーダルデータを構成するデータの入力ソース毎に複数の異なる特徴量を分類する特徴量分類部をさらに備え、
    前記特徴量選択部は、前記特徴量分類部が分類した特徴量を単位として特徴量を選択する、
    請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記概念体系は、前記事象において定義された複数の注目事象に関する木構造で表現されており、
    前記距離算出部は、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象とのそれぞれの注目事象に対応する前記木構造の位置に基づいて、前記距離を算出する、
    請求項1から4のいずれか1項に記載の情報処理装置。
  6. プロセッサが、
    事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得するステップと、
    前記マルチモーダルデータから複数の異なる特徴量を抽出するステップと、
    抽出したすべての前記特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成するステップと、
    前記複数の特徴量から1又は複数の特徴量を選択するステップと、
    選択した前記特徴量を前記複数の特徴量から除いた特徴量である部分特徴量群を生成するステップと、
    前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成するステップと、
    前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出するステップと、
    前記距離と、前記特徴量を選択するステップで選択された特徴量を示す情報とを通知するステップと、
    を実行する情報処理方法。
  7. コンピュータに、
    事象を観測して得られたマルチモーダルデータと、前記事象において定義された複数の注目事象とを含む学習データを取得する機能と、
    前記マルチモーダルデータから複数の異なる特徴量を抽出する機能と、
    抽出したすべての前記特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちのいずれの注目事象に関するマルチモーダルデータから抽出されたかを出力する基準学習モデルを生成する機能と、
    前記複数の特徴量から1又は複数の特徴量を選択する機能と、
    選択した前記特徴量を前記複数の特徴量から除いた特徴量である部分特徴量群を生成する機能と、
    前記部分特徴量群を構成する特徴量を入力したときに、当該特徴量が前記複数の注目事象のうちどの注目事象に関するマルチモーダルデータから抽出されたかを示す指標を出力する参照用学習モデルを生成する機能と、
    前記複数の注目事象それぞれの間の距離を定めるためにあらかじめ定義された概念体系に基づいて、前記基準学習モデルが出力した指標が示す注目事象と、前記参照用学習モデルが出力した指標が示す注目事象との距離を算出する機能と、
    前記距離と、前記特徴量を選択する機能が選択した特徴量を示す情報とを通知する機能と、
    を実現させるプログラム。
JP2019088449A 2019-05-08 2019-05-08 情報処理装置、情報処理方法、及びプログラム Active JP7041093B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019088449A JP7041093B2 (ja) 2019-05-08 2019-05-08 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019088449A JP7041093B2 (ja) 2019-05-08 2019-05-08 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020184212A JP2020184212A (ja) 2020-11-12
JP7041093B2 true JP7041093B2 (ja) 2022-03-23

Family

ID=73044594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019088449A Active JP7041093B2 (ja) 2019-05-08 2019-05-08 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7041093B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142597A1 (ja) 2018-01-19 2019-07-25 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142597A1 (ja) 2018-01-19 2019-07-25 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
張 翔,マイクロブログにおいて論争化する議論の予測,第11回データ工学と情報マネジメントに関するフォーラム (第17回日本データベース学会年次大会) [online] ,日本,2019年03月06日,Internet<URL:http://db-event.jpn.org/deim2019/post/papers/452.pdf>,特に「6.2実験結果」を参照

Also Published As

Publication number Publication date
JP2020184212A (ja) 2020-11-12

Similar Documents

Publication Publication Date Title
Khalid et al. Evaluation of an audio-video multimodal deepfake dataset using unimodal and multimodal detectors
US10755463B1 (en) Audio-based face tracking and lip syncing for natural facial animation and lip movement
US10685236B2 (en) Multi-model techniques to generate video metadata
JP2008262046A (ja) 会議可視化システム、会議可視化方法、及び集計処理サーバ
CN116484318B (zh) 一种演讲训练反馈方法、装置及存储介质
CN112969065B (zh) 一种评估视频会议质量的方法、装置及计算机可读介质
US20210298647A1 (en) Automatically aiding individuals with developing auditory attention abilities
CN106205611A (zh) 一种基于多模态历史响应结果的人机交互方法及系统
JP2019149057A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN115225829A (zh) 一种视频生成方法及装置、计算机可读存储介质
KR20170107868A (ko) 사용자 맥락, 추천 음악, 이용 행태로 구성된 데이터베이스를 활용한 음악 콘텐츠 추천 방법 및 시스템
JP2019016267A (ja) ライフログ活用システム、方法及びプログラム
TWI823055B (zh) 電子資源推送方法及系統
Maj et al. Cross-modal perception for customer service
JP7041093B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Hou et al. AI-based soundscape analysis: Jointly identifying sound sources and predicting annoyance
US20230049015A1 (en) Selecting and Reporting Objects Based on Events
Ouhaichi et al. Mbox: Designing a flexible iot multimodal learning analytics system
JP6997733B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Shevchyk et al. Privacy preserving synthetic respiratory sounds for class incremental learning
Brambilla et al. Measurements and Techniques in Soundscape Research
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
US20210350819A1 (en) Techniques for training a multitask learning model to assess perceived audio quality
CN114399821B (zh) 策略推荐方法、装置、存储介质
WO2023238721A1 (ja) 情報作成方法、及び情報作成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220310

R150 Certificate of patent or registration of utility model

Ref document number: 7041093

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150