JP2020135424A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2020135424A JP2020135424A JP2019028144A JP2019028144A JP2020135424A JP 2020135424 A JP2020135424 A JP 2020135424A JP 2019028144 A JP2019028144 A JP 2019028144A JP 2019028144 A JP2019028144 A JP 2019028144A JP 2020135424 A JP2020135424 A JP 2020135424A
- Authority
- JP
- Japan
- Prior art keywords
- time variation
- data
- feature amount
- interaction
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
実施の形態に係る情報処理装置は、会議や講演等、発話を軸とするインタラクションを記録したマルチモーダルデータを解析することにより、そのマルチモーダルデータが、インタラクションにおいて発生したイベントを含むデータであるか否かを示す情報を出力する。
図2は、実施の形態に係る情報処理装置1の機能構成を模式的に示す図である。情報処理装置1は、記憶部2と制御部3とを備える。図2において、矢印は主なデータの流れを示しており、図2に示していないデータの流れがあってもよい。図2において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
図3は、実施の形態に係る組分け部32による第1の組分け手法を説明するための図である。図3において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図3において、第1矩形W1は所定の時間幅を示すウィンドウであり、第2矩形W2も、第1矩形W1と同じ時間幅を示すウィンドウである。
図4は、実施の形態に係る組分け部32による第2の組分け手法を説明するための図である。図4において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図4において、間隔T1は第1特徴量の時間変動の周期を示しており、間隔T2は、第2特徴量の時間変動の周期を示している。図4に示す例では、第1特徴量の時間変動の周期であるT1は、第2特徴量の時間変動の周期であるT2の2倍となっている。
図5は、実施の形態に係る組分け部32による第3の組分け手法を説明するための図である。図5において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図5において、第1特徴量の時間変動及び第2特徴量の時間変動は、ともに周期性を有していない。
組分け部32は、複数の特徴量のうち時間変動が周期性を持たない特徴量について、特徴量の時間変動の局所的最大値と最小値との間隔iに基づいて組分けをしてもよい。例えば、組分け部32は、間隔iの平均値が近いもの、あるいは第1特徴量の間隔i1の平均値が、第2特徴量の間隔i2の平均の倍数に近い場合に、第1特徴量と第2特徴量とを同一の組に組分けしてもよい。
図7は、実施の形態に係る情報処理装置1が実行する情報処理の処理フローを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置1が起動したときに開始する。
以上説明したように、実施の形態に係る情報処理装置1によれば、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することができる。
2・・・記憶部
3・・・制御部
30・・・データ取得部
31・・・特徴量抽出部
32・・・組分け部
33・・・学習部
34・・・統合部
Claims (8)
- 複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するデータ取得部と、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する特徴量抽出部と、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする組分け部と、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する学習部と、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する統合部と、
を備える情報処理装置。 - 前記組分け部は、前記複数の特徴量の時間変動を、前記マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けする、
請求項1に記載の情報処理装置。 - 前記組分け部は、前記複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けする、
請求項1又は2に記載の情報処理装置。 - 前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持つ特徴量について、当該周期に基づいて前記特徴量の時間変動を組分けする、
請求項1から3のいずれか1項に記載の情報処理装置。 - 前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの共起パターンに基づいて前記特徴量の時間変動を組分けする、
請求項1から4のいずれか1項に記載の情報処理装置。 - 前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの間隔に基づいて前記特徴量の時間変動を組分けする、
請求項1から5のいずれか1項に記載の情報処理装置。 - プロセッサが、
複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するステップと、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出するステップと、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けするステップと、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成するステップと、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力するステップと、
を実行する情報処理方法。 - コンピュータに、
複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する機能と、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する機能と、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする機能と、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する機能と、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する機能と、
を実現させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019028144A JP6997733B2 (ja) | 2019-02-20 | 2019-02-20 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019028144A JP6997733B2 (ja) | 2019-02-20 | 2019-02-20 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020135424A true JP2020135424A (ja) | 2020-08-31 |
JP6997733B2 JP6997733B2 (ja) | 2022-01-18 |
Family
ID=72278716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019028144A Active JP6997733B2 (ja) | 2019-02-20 | 2019-02-20 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6997733B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023105673A1 (ja) * | 2021-12-08 | 2023-06-15 | 日本電信電話株式会社 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173297A (ja) * | 1997-08-29 | 1999-03-16 | Hitachi Ltd | 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法 |
JP2006279111A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法およびプログラム |
WO2007043679A1 (ja) * | 2005-10-14 | 2007-04-19 | Sharp Kabushiki Kaisha | 情報処理装置およびプログラム |
WO2013186958A1 (ja) * | 2012-06-13 | 2013-12-19 | 日本電気株式会社 | 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体 |
US20140212854A1 (en) * | 2013-01-31 | 2014-07-31 | Sri International | Multi-modal modeling of temporal interaction sequences |
US20170127021A1 (en) * | 2015-10-30 | 2017-05-04 | Konica Minolta Laboratory U.S.A., Inc. | Method and system of group interaction by user state detection |
JP2019505011A (ja) * | 2015-12-07 | 2019-02-21 | エスアールアイ インターナショナルSRI International | 統合化された物体認識および顔表情認識を伴うvpa |
-
2019
- 2019-02-20 JP JP2019028144A patent/JP6997733B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173297A (ja) * | 1997-08-29 | 1999-03-16 | Hitachi Ltd | 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法 |
JP2006279111A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法およびプログラム |
WO2007043679A1 (ja) * | 2005-10-14 | 2007-04-19 | Sharp Kabushiki Kaisha | 情報処理装置およびプログラム |
WO2013186958A1 (ja) * | 2012-06-13 | 2013-12-19 | 日本電気株式会社 | 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体 |
US20140212854A1 (en) * | 2013-01-31 | 2014-07-31 | Sri International | Multi-modal modeling of temporal interaction sequences |
US20170127021A1 (en) * | 2015-10-30 | 2017-05-04 | Konica Minolta Laboratory U.S.A., Inc. | Method and system of group interaction by user state detection |
JP2017123149A (ja) * | 2015-10-30 | 2017-07-13 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | ユーザー状態検出による集団相互作用の方法及びシステム |
JP2019505011A (ja) * | 2015-12-07 | 2019-02-21 | エスアールアイ インターナショナルSRI International | 統合化された物体認識および顔表情認識を伴うvpa |
Non-Patent Citations (1)
Title |
---|
上嶋 勇祐、外3名: "GMM−SupervectorとSVMを用いた映像からのイベント検出", 電子情報通信学会技術研究報告, vol. 第111巻,第431号, JPN6021048397, 2 February 2012 (2012-02-02), JP, pages 195 - 200, ISSN: 0004656668 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023105673A1 (ja) * | 2021-12-08 | 2023-06-15 | 日本電信電話株式会社 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6997733B2 (ja) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tzirakis et al. | End-to-end multimodal emotion recognition using deep neural networks | |
Chen et al. | Lip movements generation at a glance | |
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
Katsaggelos et al. | Audiovisual fusion: Challenges and new approaches | |
US9875445B2 (en) | Dynamic hybrid models for multimodal analysis | |
Wöllmer et al. | LSTM-modeling of continuous emotions in an audiovisual affect recognition framework | |
Kaya et al. | Predicting depression and emotions in the cross-roads of cultures, para-linguistics, and non-linguistics | |
JP2018014094A (ja) | 仮想ロボットのインタラクション方法、システム及びロボット | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
US11216648B2 (en) | Method and device for facial image recognition | |
US7257538B2 (en) | Generating animation from visual and audio input | |
Abdulsalam et al. | Emotion recognition system based on hybrid techniques | |
CN114463827A (zh) | 一种基于ds证据理论的多模态实时情绪识别方法及系统 | |
Agrawal et al. | Multimodal personality recognition using cross-attention transformer and behaviour encoding | |
Dweik et al. | Read my lips: Artificial intelligence word-level arabic lipreading system | |
JP6997733B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2005141437A (ja) | パターン認識装置及びその方法 | |
JP7370050B2 (ja) | 読唇装置及び読唇方法 | |
CN111950480A (zh) | 一种基于人工智能的英语发音自检方法和自检系统 | |
JP6762973B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Billones et al. | Intelligent operating architecture for audio-visual breast self-examination multimedia training system | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
Khaki et al. | Agreement and disagreement classification of dyadic interactions using vocal and gestural cues | |
Eckes et al. | Towards sociable virtual humans: Multimodal recognition of human input and behavior | |
Kheldoun et al. | Algsl89: An algerian sign language dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6997733 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |