JP2022143650A - 情報処理装置、非言語情報変換システム、情報処理方法およびプログラム - Google Patents

情報処理装置、非言語情報変換システム、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2022143650A
JP2022143650A JP2021044286A JP2021044286A JP2022143650A JP 2022143650 A JP2022143650 A JP 2022143650A JP 2021044286 A JP2021044286 A JP 2021044286A JP 2021044286 A JP2021044286 A JP 2021044286A JP 2022143650 A JP2022143650 A JP 2022143650A
Authority
JP
Japan
Prior art keywords
information
verbal
intention
conversion
linguistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021044286A
Other languages
English (en)
Inventor
伶実 田中
Satomi Tanaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2021044286A priority Critical patent/JP2022143650A/ja
Priority to US17/653,933 priority patent/US12026979B2/en
Priority to EP22161901.8A priority patent/EP4059673A1/en
Publication of JP2022143650A publication Critical patent/JP2022143650A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022143650000001
【課題】対話コミュニケーションにおいて、伝えたい意図を相手にわかりやすく伝えるための非言語情報の変換を行う情報処理装置、非言語情報変換システム、情報処理方法およびプログラムを提供する。
【解決手段】非言語情報変換システム1において、非言語情報の変換を行う情報処理装置10は、第1のユーザ(送信者)の非言語情報である第1の非言語情報の特徴量及び第1の非言語情報と意図との関係を示す非言語表現モデル(送信者の非言語表現モデル)に基づいて、第1の非言語情報に示される意図を推定し、推定された意図および設定された非言語情報の変換ルールに基づいて、第1の非言語情報を、第2のユーザ(受信者)へ出力する第2の非言語情報へ変換する。
【選択図】図1

Description

本開示内容は、情報処理装置、非言語情報変換システム、情報処理方法およびプログラムに関する。
近年、DeepLearningの発展とともに、ビデオ映像から人物の視線や表情等の非言語情報を精度よくリアルタイムに認識できるようになってきており、監視カメラ映像の自動解析や健康状態モニタリングなど様々なアプリケーションへ応用されている。また、非言語情報の認識技術と併せて発展した非言語情報の変換技術が近年注目を集めており、これらの技術を使うことにより、ビデオ通話等を用いた対話において相手に対して所望の印象を与えることができる。
ここで、非言語情報を正しく表現および認識することが、対話によるコミュニケーションにおいては重要である。一方で、非言語情報を正しく扱えない場合や両者の非言語の解釈違いにより、対話において問題が生じる場合がある。そのような問題の解決策として、例えば、特許文献1には、音声から感情を推定し、相手にその感情が伝わりやすいようなキャラクタ映像を生成して表示する内容が開示されている。
特開2006―330958号公報
Tabas Baltrusaitis, et al.,"OpenFace: an open source facial behavior analysis toolkit",ICCV 2016. A. Pumarola,et al.,"Ganimation: Anatomically-aware facial animation from a single image",ECCV,2018.
しかしながら、非言語情報の認識や表現には個人差や文化による差があるため、個人個人に適した推定や表現を行う必要があるが、従来の方法では、非言語情報の表現や認識に個性があることを考慮した非言語情報の変換を行うためには改善の余地があるという課題があった。
上述した課題を解決すべく、請求項1に係る発明は、非言語情報の変換を行う情報処理装置であって第1のユーザの非言語情報である第1の非言語情報の特徴量、および前記第1の非言語情報と意図との関係を示す非言語表現モデルに基づいて、前記第1の非言語情報に示される意図を推定する意図推定手段と、推定された前記意図および設定された前記非言語情報の変換ルールに基づいて、前記第1の非言語情報を、第2のユーザへ出力する第2の非言語情報へ変換する非言語情報変換手段と、を備える情報処理装置である。
本発明によれば、対話コミュニケーションにおいて、伝えたい意図を相手にわかりやすく伝えるための非言語情報の変換を行うことができるという効果を奏する。
非言語情報変換システムの全体構成の一例を示す図である。 コンピュータのハードウエア構成の一例を示す図である。 情報処理装置の機能構成の一例を示す図である。 第1の実施形態に係る非言語情報変換システムの一例を示す概略図である。 非言語情報変換処理の一例を示すフローチャートである。 非言語情報の特徴量の抽出処理の一例を示すフローチャートである。 送信者の意図の推定処理の一例を示すフローチャートである。 非言語表現モデルに対応する意図-特徴量データベースの一例を示す概念図である。 特徴量の変換処理の一例を示すフローチャートである。 (A)は、入力される非言語情報の特徴量のパラメータの一例を示す図であり、(B)は、変換後の非言語情報の特徴量のパラメータの一例を示す図である。 映像データの変換処理の一例を示すフローチャートである。 第2の実施形態に係る非言語情報変換システムの一例を示す概略図である。 (A)は、入力される非言語情報の特徴量のパラメータの一例を示す図であり、(B)は、変換後の非言語情報の特徴量のパラメータの一例を示す図である。 第3の実施形態に係る非言語情報変換システムの一例を示す概略図である。 第4の実施形態に係る非言語情報変換システムの一例を示す概略図である。 第4の実施形態における特徴量の変換処理の一例を示すフローチャートである。
以下、図面を参照しながら、発明を実施するための形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。
●実施形態●
●非言語情報変換システムの概略
まず、図1を用いて、実施形態に係る非言語情報変換システムの構成の概略について説明する。図1は、非言語情報変換システムの全体構成の一例を示す図である。図1に示されている非言語情報変換システム1は、ビデオ通信等を用いた対話コミュニケーションにおいてやり取りされる非言語情報の変換を行うシステムである。
図1に示されているように、非言語情報変換システム1は、非言語情報の変換を行う情報処理装置10、非言語情報の送信者が使用する送信装置70および非言語情報の受信者が使用する受信装置90を含む。非言語情報変換システム1を構成する情報処理装置10、送信装置70および受信装置90は、通信ネットワークを介して通信することができる。通信ネットワークは、インターネット、移動体通信網、LAN(Local Area Network)等によって構築されている。なお、通信ネットワークには、有線通信だけでなく、3G(3rd Generation)、4G(4th Generation)、5G(5th Generation)、Wi-Fi(Wireless Fidelity)(登録商標)、WiMAX(Worldwide Interoperability for Microwave Access)またはLTE(Long Term Evolution)等の無線通信によるネットワークが含まれてもよい。
情報処理装置10は、送信者である第1のユーザの意図が受信者である第2のユーザにわかりやすく伝わるように非言語情報の変換を行うコンピュータである。情報処理装置10は、送信者の非言語情報を含むデータを取得し、送信者の意図が受信者にわかりやすく伝わるように非言語情報が変換を行い、取得されたデータに対して非言語情報が変換された変換データを出力する。
ここで、非言語情報は、ユーザの視線、表情、上肢の姿勢、手の形状、腕や足の形状もしくは姿勢、または音声のトーンもしくは抑揚等の特徴量を含む。また、送信者の意図は、送信者の状態(快、集中または活発等)もしくは送信者の感情(喜怒哀楽、困惑または嫌悪等)、および送信者の意思(命令、拒否または要望等)のうち、送信者が受信者に伝えたいと所望するものを含む。
また、非言語情報変換システム1は、非言語情報の変換精度を向上させるため、ユーザごとに構築された非言語表現モデルおよび非言語認識モデルを有している。非言語表現モデルは、ユーザの非言語表現と意図の関係を記憶したものであり、ユーザの非言語表現における個性を学習するモデルである。非言語認識モデルは、ユーザの非言語認識と表現の関係を記憶したものであり、ユーザの非言語認識における個性を学習するモデルである。
非言語情報変換システム1は、ユーザごとに学習された非言語表現モデルおよび非言語認識モデルを非言語情報の変換に用いることで、非言語情報の表現や認識に個性があることを考慮した非言語情報の変換を行うことができる。情報処理装置10は、例えば、図1に示されているように、送信者の非言語表現モデルと受信者の非言語認識モデルを読み込んで、取得された送信者の非言語情報を含むデータを、受信者が認識しやすい非言語情報へ変換する。
なお、情報処理装置10は、一台のコンピュータによって構成されてもよく、複数のコンピュータによって構成されてもよい。また、情報処理装置10は、クラウド環境に存在するコンピュータであってもよいし、オンプレミス環境に存在するコンピュータであってもよい。
送信装置70および受信装置90は、それぞれ送信者および受信者が対話コミュニケーションで使用するノートPC(Personal Computer)等のコンピュータである。送信装置70は、例えば、送信者を正面から撮影した映像データを、情報処理装置10へ送信する。受信装置90は、情報処理装置10によって変換された送信者が写る映像データ(変換データ)を、ディスプレイに表示させる。なお、送信装置70および受信装置90は、ノートPCに限られず、例えば、スマートフォン、タブレット端末、ウェアラブル端末またはデスクトップPC等であってもよい。また、図1は、二人の人物の対話コミュニケーションの例を示すが、非言語情報変換システム1は、三人以上の人物の対話コミュニケーションにおいても適用可能である。さらに、対話コミュニケーションにおいて、送信者および受信者は、互いに送信者と受信者の両方の役割を担う構成であってもよい。
対話コミュニケーションにおける非言語情報の変換において、カメラで撮影されたユーザの表情、または性別もしくは年齢等のユーザの属性をリアルタイムに変換させたり、相手に与える印象を変えるために機械音声の抑揚およびトーンを調整したりする技術が知られている。非言語情報は言語情報よりも印象に与える影響が強く、これらの技術を使うことにより、相手に対して所望の印象を与えることが可能になると考えられる。
また、対話コミュニケーションにおいては、非言語情報を正しく表現および認識することが重要であり、非言語情報を正しく扱えない場合や両者の非言語の解釈違いにより、対話において問題が生じる場合がある。特に、介護や養護教育の現場では、非言語情報を上手く扱えない人物と職員との間でトラブルが生じやすい。そのような場面では、伝えたい意図と非言語の表現に乖離があったり、両者の間で非言語の表現と認識のルールに相違があったりすることが多い。このような場面において、例えば、手話表現を会得していない送信者が音声を入力するだけで、相手に伝わりやすい手話映像を合成させたり、視覚障碍者または弱視の人向けに視覚情報を見やすく変換したりする技術が知られている。
しかしながら、非言語情報の認識や表現には個人差や文化による差があるため、個人個人に適した推定や表現を行うべきである。そのため、上述した従来の方法では、非言語情報の表現や認識に個性があることを考慮した非言語情報の変換を行うためには改善の余地があった。
そこで、非言語情報変換システム1は、送信者の非言語情報を示す映像データを入力として、情報処理装置10によって送信者の非言語表現モデルに基づいて送信者の意図を推定する。また、情報処理装置10は、推定した意図および設定された変換ルール(例えば、受信者の非言語認識モデルに基づく変換ルール)に基づいて、送信者の非言語情報の変換を行う。そして、情報処理装置は、変換データである変換された非言語情報を示す映像データを受信者へ出力する。これにより、非言語情報変換システム1は、送信者と受信者の対話において、送信者が伝えたい意図を受信者にわかりやすく伝えることができる。
●ハードウエア構成
続いて、図2を用いて、実施形態に係る非言語情報変換システムを構成する各装置のハードウエア構成を説明する。非言語情報変換システム1を構成する各装置は、一般的なコンピュータの構成を有する。ここでは、一般的なコンピュータのハードウエア構成例について説明する。
図2は、コンピュータのハードウエア構成の一例を示す図である。なお、図2に示すコンピュータのハードウエア構成は、各実施形態において同様の構成を有していてもよく、必要に応じて構成要素が追加または削除されてもよい。コンピュータは、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HD(Hard Disk)104、HDD(Hard Disk Drive)コントローラ105、ディスプレイ106、外部機器接続I/F(Interface)107、通信I/F108、バスライン110、キーボード111、ポインティングデバイス112、音入出力I/F113、マイク114、スピーカ115、カメラ116、DVD-RW(Digital Versatile Disk Rewritable)ドライブ117、およびメディアI/F119を備えている。
これらのうち、CPU101は、コンピュータ全体の動作を制御する。ROM102は、IPL等のCPU101の駆動に用いられるプログラムを記憶する。RAM103は、CPU101のワークエリアとして使用される。HD104は、プログラム等の各種データを記憶する。HDDコントローラ105は、CPU101の制御にしたがってHD104に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ106は、カーソル、メニュー、ウィンドウ、文字、または画像等の各種情報を表示する表示手段の一種である。なお、ディスプレイ106は、入力手段を備えたタッチパネルディスプレイであってもよい。外部機器接続I/F107は、各種の外部機器を接続するためのインターフェースである。通信I/F108は、他のコンピュータや電子機器等とデータの送受信を行うためのインターフェースである。通信I/F108は、例えば、有線または無線LAN等の通信インターフェースである。また、通信I/F108は、3G、4G、5GもしくはLTE等の移動体(モバイル)通信、Wi-Fi、WiMAX等の通信インターフェースを備えてもよい。バスライン110は、図2に示されているCPU101等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
また、キーボード111は、文字、数値、各種指示等の入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス112は、各種指示の選択や実行、処理対象の選択、カーソルの移動等を行う入力手段の一種である。なお、入力手段は、キーボード111およびポインティングデバイス112のみならず、タッチパネルまたは音声入力装置等であってもよい。また、ディスプレイ106等の表示手段、並びにキーボード111およびポインティングデバイス112等の入力手段は、コンピュータの外部のUI(User Interface)であってもよい。音入出力I/F113は、CPU101の制御に従ってマイク114およびスピーカ115との間で音信号の入出力を処理する回路である。マイク114は、音声を入力する内蔵型の集音手段の一種である。スピーカ115は、音声信号を出力する内蔵型の出力手段の一種である。カメラ116は、被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、マイク114、スピーカ115およびカメラ116は、コンピュータの内蔵型ではなく、外付けの装置であってもよい。DVD-RWドライブ117は、着脱可能な記録媒体の一例としてのDVD-RW118に対する各種データの読み出しまたは書き込みを制御する。なお、DVD-RWに限らず、DVD-RやBlu-ray(登録商標) Disc(ブルーレイディスク)等であってもよい。メディアI/F119は、フラッシュメモリ等の記録メディア121に対するデータの読み出しまたは書き込み(記憶)を制御する。
なお、上記各プログラムは、インストール可能な形式または実行可能な形式のファイルで、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。記録媒体の例として、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、Blu-ray Disc、SDカードまたはUSBメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内または国外へ提供されることができる。例えば、情報処理装置10は、本発明に係るプログラムが実行されることで本発明に係る情報処理方法を実現する。
●機能構成
続いて、図3を用いて、実施形態に係る非言語情報変換システムの機能構成について説明する。図3は、情報処理装置の機能構成の一例を示す図である。情報処理装置10は、データ取得部11、非言語情報処理部12およびデータ出力部13を有している。これら各部は、図2に示されている各構成要素のいずれかが、RAM103上に展開された情報処理装置用プログラムに従ったCPU101からの命令によって動作することで実現される機能、または機能する手段である。
データ取得部11は、主に、通信I/F108または外部機器接続I/F107に対するCPU101の処理によって実現され、送信装置70から送信される各種データを取得する。
非言語情報処理部12は、主に、CPU101の処理によって実現され、データ取得部11によって取得されたデータに示されている非言語情報の変換を行う。
データ出力部13は、主に、主に、通信I/F108または外部機器接続I/F107に対するCPU101の処理によって実現され、非言語情報処理部12によって処理された各種データを、受信装置90に対して出力する。
ここで、非言語情報処理部12の構成について詳細に説明する。非言語情報処理部12は、特徴量抽出部21、意図推定部22、特徴量変換部23、変換ルール設定部24、映像変換部25、モデル学習部26、データ格納部31、意図格納部32、合成情報格納部33および記憶・読出部29を有している。また、非言語情報処理部12は、図2に示されているROM102、HD104または記録メディア121によって構築される記憶部2000を有している。
特徴量抽出部21は、所定の人物の映像を入力として、映像に示されている非言語情報の特徴量を抽出する。
意図推定部22は、データ取得部11によって取得されたデータに示されている送信者の非言語情報および送信者の非言語表現モデルに基づいて、送信者の意図を推定する。
特徴量変換部23は、意図推定部22によって推定された意図、および変換ルール設定部24によって設定された変換ルールに基づいて、データ取得部11によって取得されたデータに示されている送信者の非言語情報の特徴量の変換を行う。
変換ルール設定部24は、送信者の非言語情報の特徴量の変換を行うための変換ルールの設定を行う。
映像変換部25は、データ取得部11によって取得された映像データを、特徴量変換部23によって変換された特徴量に基づいて変換する。
モデル学習部26は、非言語情報の変換に用いる各種学習モデル(非言語表現モデル210、非言語認識モデル220、特徴量抽出モデル230および変換モデル240)の学習を行う。
データ格納部31は、非言語情報の変換に用いる各種データを格納する。意図格納部32は、意図推定部22によって推定された送信者の意図を格納する。合成情報格納部33は、映像変換部25によって変換された変換データである送信者の映像に対応する合成情報を格納する。
記憶・読出部29は、記憶部2000に、各種データ(または情報)を記憶したり、記憶部2000から各種データ(または情報)を読み出したりする。記憶部2000は、非言語情報の変換処理によって構築され、モデル学習部26によって学習された非言語表現モデル210、非言語認識モデル220、特徴量抽出モデル230および変換モデル240が記憶されている。このうち、非言語表現モデル210および非言語認識モデル220は、人物に依存するため、ユーザごとに異なるモデルが記憶されている。非言語表現モデル210および非言語認識モデル220のモデルパラメータは、例えば、抽出された特徴量のパラメータに基づいて、所望の非言語表現の認識および非言語認識の変換を行うために調整することができる。また、非言語表現モデル210および非言語認識モデル220のモデルパラメータは、例えば、抽出された特徴量のパラメータに基づく送信者と受信者の関係性に応じて調整することができる。一方で、特徴量抽出モデル230および変換モデル240は、人物に依存しないため、それぞれ一つのモデルが記憶されている。なお、各種学習モデルが記憶されている記憶部2000は、情報処理装置10の外部の記憶装置に構築されている構成であってもよい。
●第1の実施形態
○概略○
続いて、図4乃至図11を用いて、第1の実施形態に係る非言語情報変換システムについて説明する。図4は、第1の実施形態に係る非言語情報変換システムの一例を示す概略図である。第1の実施形態に係る非言語情報変換システム1Aは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルと人物Aの非言語表現モデルを用いた非言語情報の変換を行うシステムである。人物Aは、送信者および受信者とは異なる人物であり、送信者より好印象を与える振る舞いを実践する人物である。人物Aは、第3のユーザの一例である。
まず、情報処理装置10は、送信者が写る映像データを取得し、非言語情報処理部12のデータ格納部31へ格納する。次に、非言語情報処理部12は、送信者の非言語表現モデルを読み込み、データ格納部31に格納された送信者の映像データから読み込んだ送信者の非言語表現モデルを用いて、送信者の意図を推定する。そして、非言語情報処理部12は、推定した送信者の意図を示す情報を、意図格納部32へ格納する。
次に、非言語情報処理部12は、人物Aの非言語表現モデルを読み込み、意図格納部32に格納された送信者の意図から読み込んだ人物Aの非言語表現モデルを用いて、送信者の映像データに示されている非言語情報の特徴量の変換を行う。また、非言語情報処理部12は、変換した特徴量に基づき、送信者の映像データを変換し、映像とラベル情報が合成された合成情報となる変換データを生成する。非言語情報処理部12は、変換された変換データである合成情報を、合成情報格納部33へ格納する。そして、情報処理装置10は、非言語情報処理部12の合成情報格納部33に格納された合成情報が示す変換後の非言語情報を受信者へ出力する。
このように、第1の実施形態に係る非言語情報変換システム1Aは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルとともに、非言語表現が上手い人物Aの非言語表現モデルを用いて非言語情報の変換を行うことで、非言語情報の変換精度を向上させることができる。
○第1の実施形態の処理または動作○
次に、図5乃至図11を用いて、第1の実施形態に係る非言語情報変換システムの処理または動作について説明する。まず、図5を用いて、非言語情報変換システム1Aによって実行される非言語情報変換処理の全体の流れについて説明する。図5は、非言語情報変換処理の一例を示すフローチャートである。
まず、情報処理装置10のデータ取得部11は、第1のユーザである送信者が撮影された映像データを取得する(ステップS1)。具体的には、送信者が使用する送信装置70がカメラ116を用いて送信者を撮影し、撮影した映像データを情報処理装置10へ送信する。そして、情報処理装置10のデータ取得部11は、送信装置70から送信された映像データを取得する。送信者の映像は、例えば、送信者が日常のコミュニケーションにおいて行う動作を撮影したものを主とする。データ取得部11は、取得した映像データを、非言語情報処理部12のデータ格納部31に格納する。
次に、情報処理装置10の非言語情報処理部12は、ステップS1で取得した映像データを特徴量抽出モデル230へ入力し、非言語情報の特徴量を抽出する(ステップS2)。非言語情報の特徴量は、人物の顔ランドマークの位置、Action Unit(AU)、両目の各視線角度、骨格ランドマークの位置、頭部回転角度または距離等のパラメータを含む。
次に、情報処理装置10の非言語情報処理部12は、ステップS2で抽出された特徴量を非言語表現モデル210へ入力し、送信者の意図を推定する。非言語情報処理部12は、例えば、抽出された特徴量が入力された非言語表現モデル210を用いて、送信者の意図を示す意図ラベル情報を取得する。意図ラベル情報は、「喜び(happy)、怒り(angry)、悲しみ(sad)、驚き(surprised)、嫌悪(disgusted)、困惑(composed)」の基本6感情に加えて、「Neutral,Deny,Accept,Arousal,Interested」の強度が「0~1」で表された情報を含む。
次に、情報処理装置10の非言語情報処理部12は、ステップS3で推定された意図を、変換ルール設定部24で設定された変換ルールに入力して特徴量の変換を行い、所望の特徴量を取得する(ステップS4)。
次に、情報処理装置10の非言語情報処理部12は、ステップS4で変換された特徴量を、変換モデル240に入力し、ステップS1で取得された映像データの変換を行い、変換データとして変換後の映像を取得する(ステップS5)。
そして、情報処理装置10のデータ出力部13は、ステップS5で変換された変換データである変換後の映像を、第2のユーザである受信者へ出力する(ステップS6)。具体的には、データ出力部13は、変換後の映像を、受信者が使用する受信装置90へ送信し、受信装置90は、情報処理装置10から送信(出力)された変換後の映像を、ディスプレイ106に表示する。
○特徴量抽出処理
ここで、図6乃至図11を用いて、図5に示されている各処理の詳細をそれぞれ説明する。まず、図6を用いて、ステップS2において情報処理装置10の非言語情報処理部12によって実行される特徴量抽出処理について説明する。図6は、非言語情報の特徴量の抽出処理の一例を示すフローチャートである。
まず、特徴量抽出部21は、送信者または人物Aとは無関係な人物が撮影された映像である一般人物映像を入力する(ステップS21)。一般人物映像は、送信者、人物Aおよび受信者とは異なる第三者の人物(一般人物)が撮影された映像である。また、一般人物映像は、一般人物が表情、体もしくは頭部の向き、視線の向きまたはカメラとの距離等を様々に変更している動作が撮影された映像である。次に、特徴量抽出部21は、ステップS21で入力された一般人物映像を用いたアノテート処理を実行する(ステップS22)。特徴量抽出部21は、例えば、アノテータのキーボード111等の入力操作によって、ラベル情報として非言語情報の特徴量を定義する。これにより、特徴量抽出部21は、特徴量抽出処理に用いるデータセットを作成する。特徴量抽出部21は、作成したデータセットをデータ格納部31に格納する。
次に、特徴量抽出部21は、特徴量の抽出に用いる特徴量抽出モデル230を構築する(ステップS23)。特徴量抽出モデル230は、入力層、CNN(Convolutional Neural Network)層、LSTM(Long short-term memory)層、推定層の階層によって構成される。特徴量抽出モデル230は、CNN層によって、入力映像の各フレームの画像の特徴量がそれぞれ抽出される。また、特徴量抽出モデル230は、LSTM層により、入力映像における複数のフレーム画像の特徴量を入力として、各フレームにおける非言語情報の特徴量および状態情報が抽出される。ここで、各フレームにおける状態情報は、LSTMにおける処理において、次のセルに伝達する記憶情報に該当し、文章解析を行うLSTMにおける文脈情報を表している。状態情報は、例えば、静止中または動作中等の人物の状態を表している。特徴量抽出モデル230は、CNN層とLSTM層を組み合わせることで、各フレーム画像の解析および時系列情報の解析を同時に行うことができる。
次に、特徴量抽出部21は、ステップS21,S22の処理によって作成したデータセットを、特徴量抽出モデル230の学習用に読み込む(ステップS24)。これにより、モデル学習部26は、特徴量の抽出に用いる特徴量抽出モデル230の学習を行う。なお、入力映像からの非言語情報の特徴量の抽出は、人物の違いによっては変わらないため、特徴量抽出モデル230の学習は、一度だけ行えばよく、学習済の特徴量抽出モデル230が存在する場合は、ステップS23,S24の処理は行われなくてもよい。
次に、特徴量抽出部21は、ステップS1で取得した映像データを、ステップS23,S24の処理で学習した特徴量抽出モデル230へ入力する(ステップS25)。そして、特徴量抽出部21は、ステップS1で取得した映像データが示す非言語情報の特徴量を取得する(ステップS26)。
なお、非特許文献1に記載のOpenFace等のリアルタイムで特徴量の取得を行うことが可能な公知の技術を用いることで、上述のステップS21乃至ステップS25の処理は、省略可能である。
○意図推定処理
次に、図7および図8を用いて、ステップS3において情報処理装置10の非言語情報処理部12によって実行される意図推定処理について説明する。図7は、送信者の意図の推定処理の一例を示すフローチャートである。
まず、意図推定部22は、ステップS1で取得された送信者の映像データを入力する(ステップS31)。そして、意図推定部22は、ステップS21で入力された映像データを用いたアノテート処理を実行する(ステップS32)。意図推定部22は、例えば、アノテータのキーボード111等の入力操作によって、意図ラベル情報として送信者の映像に対応する意図を定義する。この意図ラベル情報Lの一例を以下(式1)に示す。
意図ラベル情報L={angry;0.1, composed;0.2, disgusted;0.2, happy;0.8, sad;0.4, surprised;0.6, neutral;0.2, deny;0.3, accept;0.3, arousal;0.7, interested;0.8}・・・(式1)
また、ステップS32におけるアノテートは、送信者自身(アノテータ=送信者)が行うものとし、(式1)に示されているような意図の種類と強度を定義する。アノテータは、例えば、ステップS31で入力された映像データを再生し、映像の各フレームにおける意図の強度の数値を入力する。また、アノテートは、例えば、専用のアプリケーションを使用して、ポインティングデバイス112等の入力手段を用いたドラッグ操作によって各フレームにおける意図の強度の数値を指定させることで、アノテート処理に要する負担を軽減することができる。また、アノテートは、ポインティングデバイス112等の入力手段を用いたドラッグ操作等によって意図の強度に限られず、意図の種類または確信度等の多種類・多次元の情報を指定する構成であってもよい。これにより、意図推定部22は、意図推定処理に用いるデータセットを作成する。意図推定部22は、作成したデータセットをデータ格納部31に格納する。
次に、意図推定部22は、意図の推定に用いる送信者用の非言語表現モデル210を構築する(ステップS33)。ここで、非言語情報の特徴量から意図の表現は、人物に依存するため、意図推定部22は、送信者用の非言語表現モデル210を構築する。非言語表現モデル210の構造は、人物に依らずに同一であり、入力層、LSTM層、推定層の階層によって構成される。意図推定部22は、前処理として、ステップS26で抽出された非言語情報の特徴量を、非言語表現モデル210へ入力する。意図推定部22は、非言語表現モデルのLSTM層により、入力映像における複数のフレーム画像の特徴量を入力として、各フレームにおける意図およびフレーム番号を出力する。フレーム番号は、意図を示す複数フレームのうち、入力フレームが何番目に該当するかを表す。
ここで、非言語表現モデル210は、意図と非言語情報の特徴量の関連性を示す学習モデルであり、例えば、データベースのような構造を有している。ここでは、便宜上、意図-特徴量データベースと称する。図8は、非言語表現モデルに対応する意図-特徴量データベースの一例を示す概念図である。図8に示されているように、非言語情報の特徴量は、各意図の強度(ここでは、1.0,0.8,0.5)に対して、それぞれ時系列の値を有している。さらに、非言語情報の特徴量(図8に示されている(1)~(7))には、各意図の強度に対して、起こりうる時系列の値が確立的に四つずつ存在する(発生確率;0.3,0.25,0.25,0.2)。
例えば、AU1(ActionUnit1)に対応するパラメータ(1)は、下記(式2)のように表される。パラメータ(1)は、(式2)に示されているように、四つの発生確率ごとに、Nフレーム分(例えば、N=10)の値を含む。他のパラメータ(2)~(7)も、パラメータ(1)と同様に、(式2)のように表される。これにより、例えば、パラメータ(1)~(7)について、発生確率0.3の1フレーム分のみを抽出すると、以下(式3)のようになる。
(1)={{0.3,0.3,0.2,…}0.3,{0.3,0.3,0.1,…}0.25,{0.3,0.1,0.2,…}0.25,{0.3,0.3,0.0,…}0.2}・・・(式2)
{(1),(2),(3),(4),(5),(6),(7)}={0.3,0.2,0.6,0.1,0.1,0.5,0.5}・・・(式3)
次に、意図推定部22は、ステップS31,S32の処理によって作成したデータセットを、非言語表現モデル210の学習用に読み込む(ステップS34)。これにより、モデル学習部26は、意図の推定に用いる非言語表現モデル210の学習を行う。非言語情報の特徴量から意図の表現は、人物に依存するため、非言語表現モデル210の学習は、人物ごとに行う。
次に、意図推定部22は、非言語情報の特徴量から意図の表現が人物依存であるため、ステップS33,S34で学習した送信者用の非言語表現モデル210を読み込む(ステップS35)。そして、意図推定部22は、ステップS1で取得された映像データが示す非言語情報に基づく送信者の意図を推定する(ステップS36)。推定される意図には、その意図の種類、強度または確信度等の多次元も情報を含む。意図推定部22は、例えば、送信者の映像データを、送信者用の非言語表現モデル210へ入力して得られる意図の推定値となる意図ラベル情報を取得する。意図推定部22は、推定した意図の情報を意図格納部32に格納する。
このように、意図推定部22は、送信者の映像データおよび送信者用の非言語表現モデルに基づいて送信者の意図を推定することで、非言語情報の表現の個人差や文化の違いによる差を考慮した意図の推定を行うことができる。
○特徴量変換処理
次に、図9および図10を用いて、ステップS4において情報処理装置10の非言語情報処理部12によって実行される特徴量変換処理について説明する。図9は、特徴量の変換処理の一例を示すフローチャートである。
まず、変換ルール設定部24は、非言語情報の変換における変換ルールを設定する(ステップS41)。変換ルール設定部24によって設定される変換ルールは、変換項目、変換割合、変換先および変換先の非言語表現モデル210に対応する意図-特徴量データベース(図8参照)の項目を含む。
このうち、変換項目は、変換する非言語情報の特徴量の種類を示す。非言語情報の特徴量の種類は、例えば、姿勢情報、視線情報、感情ごとの表情の強度および頭部回転角度を含む。ここでの姿勢情報は、非言語情報の特徴量の骨格ランドマークのうちの背骨に該当する位置のみを意味する。変換項目に顔ランドマークおよび骨格ランドマークの全てを含まないことによって、背筋および視線を変換しつつ、顔および体格の個人差を維持することができる。
また、変換割合は、変換先にどの程度似せて変換するかを示す割合であり、「0~1」の値で定義される。例えば、人物Aに似せる場合は「1」、変換前の状態を維持する場合は「0」を選択する。
さらに、変換先は、変換先となる人物を示す。ここでは、例えば、送信者より好印象を与える振る舞いを実践する人物Aが設定される。そして、非言語表現モデル210に対応する意図-特徴量データベースとして、人物Aの意図と非言語情報の特徴量の関連性を定義する。定義の方法は、図7に示されている処理と同様に、人物Aの非言語表現モデル210を構築・学習することによって行われる。定義の方法は、例えば、ステップS31,S32におけるデータセットの作成と同様に、人物Aの映像を入力し、入力した映像の各フレームに対応する意図を、人物Aにアノテートさせることによって行われる。なお、人物Aの非言語表現モデル210に対応する意図-特徴量データベースの構造は、図8に示されている例と同様であり、送信者の非言語表現モデルとはパラメータが異なる。
そして、特徴量変換部23は、ステップS42~S44の処理によって、ステップS41で設定された変換ルールを適用し、特徴量の変換を行う。具体的には、特徴量変換部23は、ステップS3の処理によって推定された送信者の意図を選択する(ステップS42)。特徴量変換部23は、推定された意図によって、送信者の映像データから意図の種類、強度およびフレーム番号を選択する。特徴量変換部23は、例えば、意図の強度が最大のものを、そのフレームの意図として選択する。上述の(式1)のように、最大値となる意図が複数ある場合、その両方を選択し、後述の線形補間により、両者の中間の非言語情報の特徴量を算出する。この場合、、比率は両方とも0.5とする。特徴量変換部23は、図8に示されている非言語表現モデルの中から該当する意図の行(レコード)を選択し、該当する行(レコード)の中から該当するフレーム番号の非言語情報の特徴量を選択する。
次に、特徴量変換部23は、上述の(式2)に示されているような起こりうる四つの時系列値の中から、確率的に一つを選択(確率的選択)する(ステップS43)。そして、特徴量変換部23は、ステップS41で設定された変換ルールに示されている変換割合に応じて、下記(式4)を用いた送信者と変換先の非言語情報の特徴量の線形補間を行う(ステップS44)。ここで、(式4)におけるX1は、送信者の非言語情報の特徴量を示し、X2は、変換先の非言語情報の特徴量を示し、αは、変換割合を示す。
X=α×X1+(1-α)×X2・・・(式4)
図10(A)は、入力される非言語情報の特徴量のパラメータの一例を示す図である。図10(A)は、変換前の送信者の映像データから抽出された非言語情報の特徴量のパラメータの一部と、そこから推定されたフレーム番号の例を示す。特徴量変換部23は、例えば、図10(A)に示されているパラメータを入力として、図8に示されている非言語表現モデルに対応する意図-特徴量データベースに基づいて特徴量の変換を行う。
特徴量変換部23は、例えば、ステップS42で{Nutral,1.0}を送信者の意図として選択し、ステップS43で時系列値{}0.3を確立的選択したものとする。また、設定された変換ルールに示されている変換項目は、図8に示されている(4)~(7)のみであり、変換割合は、α=1.0とする。この場合の変換後の非言語情報の特徴量のパラメータの一例を、図10(B)に示す。図10(B)に示されているように、(4)~(7)のパラメータは、図10(A)のパラメータから変換されているが、(1)~(3)のパラメータは、変換前のままである。すなわち、特徴量変換部23は、送信者の表情を変えないまま、姿勢と視線方向の値だけを変換している。
このように、特徴量変換部23は、意図推定部22で推定された意図の推定値および変換ルール設定部24で設定された変換ルールに基づいて、送信者の意図が受信者に正しく伝わる確率が高まるように、非言語情報の特徴量のパラメータを変換する。
○映像データ変換処理
次に、図11を用いて、ステップS5において情報処理装置10の非言語情報処理部12によって実行される映像データ変換処理について説明する。図11は、映像データの変換処理の一例を示すフローチャートである。
まず、映像変換部25は、一般人物映像および一般人物映像に対応する非言語情報の特徴量を入力する(ステップS51)。ここで入力される一般人物映像は、一般人物が非言語情報の特徴量だけを様々に変更する動作を撮影したものを主とする。特徴量だけを変更する動作は、例えば、視線の方向を変えたり、頭部方向を変えたりする動作である。なお、この場合、ラベル情報は不要である。これにより、映像変換部25は、映像データの変換処理を行うためのデータセットを作成する。映像変換部25は、作成したデータセットをデータ格納部31に格納する。
次に、映像変換部25は、映像データを変換するための変換モデル240を構築する(ステップS52)。変換モデル240は、非特許文献2に記載のGANimationの手法を、顔の表情だけでなく、人物の姿勢および視線情報まで拡張したものである。GANimationとは、画像生成ネットワークに入力映像だけでなく、表情ラベルであるAU特徴量の強度群を併せて入力することで、所望の表情ラベルを有する映像に変換する技術である。変換モデル240は、GANimationの手法を、AU特徴量以外の非言語情報の特徴量へ拡張することで実現させる。
映像変換部25は、「変換前の映像、変換前の非言語情報の特徴量、変換後の所望の非言語情報の特徴量」のセットを変換モデル240へ入力し、「変換後の映像、変換後の非言語情報の特徴量」のセットを出力する。一般的なGAN(Generative Adversarial Network)とは、変換後の所望のラベル情報も併せて入力する点が異なる。損失関数は、変換後の映像および変換後の非言語情報の特徴量と、所望の映像および非言語情報の特徴量との間の平均二乗誤差で算出する。
次に、映像変換部25は、ステップS51の処理によって作成したデータセットを、変換モデル240の学習用に読み込む(ステップS53)。これにより、モデル学習部26は、映像データの変換に用いる変換モデル240の学習を行う。なお、映像データの変換は、人物の違いによっては変わらないため、変換モデル240の学習は、一度だけ行えばよく、学習済の変換モデル240が存在する場合は、ステップS52,S53の処理は行われなくてもよい。
次に、映像変換部25は、ステップS53で読み込んだ変換モデルに基づいて、ステップS1で取得した映像データの変換を実行する(ステップS54)。映像変換部25は、映像データの変換をフレームごとに行う。映像変換部25は、映像と意図ラベル情報とが合成された合成情報となる変換データを、合成情報格納部33へ格納する。
このように、映像変換部25は、意図推定部22で推定された意図の推定値が、非言語表現モデル210に基づいて受信者に正しく伝わる確率が高まるように、送信者の映像データの変換を行う。
以上により、第1の実施形態に係る非言語情報変換システム1Aは、送信者の映像データおよび送信者用の非言語表現モデルに基づいて送信者の意図を推定し、推定した送信者の意図および非言語表現の上手い人物の非言語表現モデルに基づく変換ルールに基づいて、送信者の映像データの変換を行う。これにより、第1の実施形態に係る非言語情報変換システム1Aは、送信者と受信者の対話において、送信者が伝えたい意図を受信者にわかりやすく伝えるための非言語情報の変換精度を向上させることができる。
●第2の実施形態
続いて、図12および図13を用いて、第2の実施形態に係る非言語情報変換システムについて説明する。なお、上述の実施形態と同一構成および同一機能は、同一の符号を付して、その説明を省略する。図12は、第2の実施形態に係る非言語情報変換システムの一例を示す概略図である。第2の実施形態に係る非言語情報変換システム1Bは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルと変換に用いる具体的な修正値を用いて非言語情報の変換を行う点が、第1の実施形態に係る非言語情報変換システム1Aと異なる。第2の実施形態に係る非言語情報変換システム1Bは、ステップS4における特徴量の変換を行う場合に、変換先として具体的な人物像を選択するのではなく、修正する項目および修正目安値を直接指定することによって変換ルールを設定する。
ここで、第2の実施形態において、第1の実施形態と異なるステップS4の特徴量変換処理について説明する。第2の実施形態において、ステップS41における変換ルール設定部24によって設定される変換ルールは、変換項目とその値、および変換割合を含む。このうち、変換項目は、変更する非言語情報特徴量の種類を示し、変換項目の値として修正目安値の値を示す。変更項目と修正目安値は、例えば、姿勢情報(0.0,0.0)、視線情報(0.0,0.0)である。
また、変換割合は、変換先にどの程度似せて変換するかを示す割合であり、映像変換を滑らかに行うために、小さめの値が定義される。変換割合は、例えば、「0.5」である。
また、第2の実施形態において、ステップS41で設定された変換ルールが適用された例を、図13に示す。図13(A)は、入力される非言語情報の特徴量のパラメータの一例を示す図であり、図13(B)は、変換後の非言語情報の特徴量のパラメータの一例を示す図である。特徴量変換部23は、例えば、図13(A)に示されているパラメータを入力として、ステップS41で設定された変換ルールに基づく特徴量の変換を行う。
図13(B)に示されているように、(4)~(7)のパラメータは、図13(A)のパラメータから変換ルールに示されている修正目安値に近づいているが、(1)~(3)のパラメータは、変換前のままである。すなわち、特徴量変換部23は、例えば、意図に依らず、常に姿勢と視線を修正目安値に近づける変換を行うことができる。
このように、第2の実施形態に係る非言語情報変換システム1Bは、推定した送信者の意図および変換項目の修正目安値を用いた変換ルールに基づいて、送信者の映像データの変換を行う。これにより、第2の実施形態に係る非言語情報変換システム1Bは、変換したい項目の具体的な数値を指定して非言語情報の変換を行うことで、非言語情報の意図に縛られずに非言語情報の変換を行うことができる。
●第3の実施形態
続いて、図14を用いて、第3の実施形態に係る非言語情報変換システムについて説明する。なお、上述の実施形態と同一構成および同一機能は、同一の符号を付して、その説明を省略する。図14は、第3の実施形態に係る非言語情報変換システムの一例を示す概略図である。第3の実施形態に係る非言語情報変換システム1Cは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルと一般的人物の非言語表現モデルを用いて非言語情報の変換を行う点が、第1の実施形態に係る非言語情報変換システム1Aと異なる。第3の実施形態に係る非言語情報変換システム1Cは、ステップS4における特徴量の変換を行う場合に、変換先として一般的人物を指定することによって変換ルールを設定する。一般的人物とは、平均的な非言語表現モデルに対応する意図-特徴量データベースを有する人物のことである。
ここで、第3の実施形態において、第1の実施形態と異なるステップS4の特徴量変換処理について説明する。第3の実施形態において、ステップS41における変換ルール設定部24によって設定される変換ルールは、変換項目、変換割合、変換先および変換先の非言語表現モデル210に対応する意図-特徴量データベース(図8参照)の項目を含む。このうち、変換項目は、変換する非言語情報の特徴量の種類を示す。非言語情報の特徴量の種類は、例えば、姿勢情報、視線情報、感情ごとの表情の強度および頭部回転角度を含む。
また、変換割合は、変換先にどの程度似せて変換するかを示す割合であり、「0~1」の値で定義される。例えば、変換先の人物に似せる場合は「1」、変換前の状態を維持する場合は「0」を選択する。ここでは、変換割合は、例えば、一般的人物に似せるため、「1」が定義される。
さらに、変換先は、変換先となる人物を示す。ここでは、変換先は、一般的人物が設定される。そして、変換ルール設定部24は、非言語表現モデル210に対応する意図-特徴量データベースとして、一般的人物の意図と非言語情報の特徴量の関連性を定義する。定義の方法は、図7に示されている処理と同様に、一般的人物の非言語表現モデル210を構築・学習することによって行われる。定義の方法は、例えば、ステップS31,S32におけるデータセットの作成と同様に、任意の人物の映像を入力し、入力した映像の各フレームに対応する意図を、本人にアノテートさせることで行われる。非言語情報処理部12は、この定義の方法を複数回実施、各特徴量の平均を取ったものを、一般的人物の非言語表現モデル210に対応する意図-特徴量データベースとして作成する。特徴量変換部23は、このような変換ルール設定部24で設定された変換ルールを適用して特徴量の変換を行う。以降の処理は、第1の実施形態におけるステップS42~S44の処理と同様である。
このように、第3の実施形態に係る非言語情報変換システム1Cは、推定した送信者の意図および一般的人物の非言語表現モデルに基づく変換ルールに基づいて送信者の映像データの変換を行う場合においても、送信者が伝えたい意図を受信者にわかりやすく伝えることができる。
●第4の実施形態
続いて、図15および図16を用いて、第4の実施形態に係る非言語情報変換システムについて説明する。なお、上述の実施形態と同一構成および同一機能は、同一の符号を付して、その説明を省略する。図15は、第4の実施形態に係る非言語情報変換システムの一例を示す概略図である。第4の実施形態に係る非言語情報変換システム1Dは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルと受信者の非言語認識モデルを用いて非言語情報の変換を行う点が、第1の実施形態に係る非言語情報変換システム1Aと異なる。第4の実施形態に係る非言語情報変換システム1Dは、ステップS4における特徴量の変換を行う場合に、受信者の非言語認識モデルを用いることで、受信者に認識されやすいように、送信者の非言語情報の特徴量の変換を行う。
ここで、第4の実施形態において、第1の実施形態と異なるステップS4の特徴量変換処理について詳細に説明する。図16は、第4の実施形態における特徴量の変換処理の一例を示すフローチャートである。
まず、特徴量変換部23は、送信者および受信者とは無関係な人物が撮影された映像である一般人物映像を入力する(ステップS101)。一般人物映像は、送信者および受信者とは異なる第三者の人物(一般人物)が撮影された映像である。また、一般人物映像は、一般人物が日常のコミュニケーション時に行う動作を撮影したものを主とする。次に、特徴量変換部23は、ステップS101で入力された一般人物映像を用いたアノテート処理を実行する(ステップS102)。特徴量変換部23は、例えば、アノテータのキーボード111等の入力操作によって、意図ラベル情報として一般人物映像に対応する意図を定義する。この意図ラベル情報は、上述の(式1)に示されている例と同様である。
また、ステップS102におけるアノテートは、受信者(アノテータ=受信者)が行うものとし、(式1)に示されているような意図の種類と強度を定義する。アノテータは、例えば、ステップS101で入力された映像データを再生し、映像の各フレームにおける意図の強度の数値を入力する。また、アノテートは、例えば、専用のアプリケーションを使用して、ポインティングデバイス112等の入力手段を用いたドラッグ操作によって各フレームにおける意図の強度の数値を指定させることで、アノテート処理に要する負担を軽減することができる。また、アノテートは、ポインティングデバイス112等の入力手段を用いたドラッグ操作等によって意図の強度に限られず、意図の種類または確信度等の多種類・多次元の情報を指定する構成であってもよい。これにより、特徴量変換部23は、特徴量抽出処理に用いるデータセットを作成する。特徴量変換部23は、作成したデータセットをデータ格納部31に格納する。
次に、特徴量変換部23は、特徴量の変換に用いる受信者用の非言語認識モデル220を構築する(ステップS103)。ここで、非言語情報の特徴量から意図の認識は、人物に依存するため、特徴量変換部23は、受信者用の非言語認識モデル220を構築する。非言語認識モデル220の構造は、人物に依らずに同一であり、入力層、LSTM層、推定層の階層によって構成される。特徴量変換部23は、前処理として、ステップS26で抽出された非言語情報の特徴量を、非言語認識モデル220へ入力する。特徴量変換部23は、非言語認識モデル220のLSTM層により、入力映像における複数のフレーム画像の特徴量を入力として、各フレームにおける意図およびフレーム番号を出力する。フレーム番号は、意図を示す複数フレームのうち、入力フレームが何番目に該当するかを表す。
ここで、非言語認識モデル220は、非言語認識と表現との関連性を示す学習モデルであり、例えば、データベースのような構造を有している。ここでは、便宜上、意図-特徴量データベースと称し、非言語認識モデル220に対応する意図-特徴量データベースの構造は、図8に示されている非言語表現モデル210の意図-特徴量データベースの構造と同様である。
次に、特徴量変換部23は、ステップS101,S102の処理によって作成したデータセットを、非言語認識モデル220の学習用に読み込む(ステップS104)。これにより、モデル学習部26は、特徴量の変換に用いる非言語認識モデル220の学習を行う。非言語情報の特徴量から意図の認識は、人物に依存するため、非言語認識モデル220の学習は、人物ごとに行う。次に、特徴量変換部23は、非言語情報の特徴量から意図の認識が人物依存であるため、ステップS103,S104で学習した受信者用の非言語認識モデル220を読み込む(ステップS105)。
次に、変換ルール設定部24は、非言語情報の変換における変換ルールを設定する(ステップS106)。変換ルール設定部24によって設定される変換ルールは、変換項目、変換割合および変換先の非言語認識モデル220に対応する意図-特徴量データベース(図8参照)の項目を含む。
このうち、変換項目および変換割合は、変換する非言語情報の特徴量の種類を示す。非言語情報の特徴量の種類は、例えば、姿勢情報、視線情報、感情ごとの表情の強度および頭部回転角度を含む。また、変換割合は、変換先にどの程度似せて変換するかを示す割合であり、「0~1」の値で定義される。例えば、受信者に似せる場合は、1、変換前の状態を維持する場合は、0を選択する。さらに、ステップS101~ステップS105の処理によって構築された非言語認識モデル220に対応する意図-特徴量データベースとして、受信者が認識しやすい意図と非言語情報の特徴量の関連性を定義する。
そして、特徴量変換部23は、ステップS107~S109の処理によって、ステップS106で設定された変換ルールを適用して特徴量の変換を行う。なお、ステップS107~S109の処理は、それぞれ図9におけるステップS42~S44の処理と同様であるため、説明を省略する。
このように、第4の実施形態に係る非言語情報変換システム1Dは、推定した送信者の意図および受信者の非言語認識モデルに基づく変換ルールに基づいて、送信者の映像データの変換を行う。これにより、第4の実施形態に係る非言語情報変換システム1Dは、送信者が伝えたい意図と受信者の非言語表現の認識の双方を用いることで、送信者が伝えたい意図を受信者にわかりやすく伝えるため非言語情報の変換精度を向上させることができる。
●実施形態の効果
以上説明したように、非言語情報変換システム1(1A,1B,1C,1D)は、人物ごとに異なる非言語表現モデルおよび非言語認識モデルを用いて送信者の映像データに示されている非言語情報の変換を行うことで、非言語情報の表現や認識に個性があることを考慮した非言語情報の変換を行うことができる。そして、非言語情報変換システム1(1A,1B,1C,1D)は、対話コミュニケーションにおいて、人物ごとの個性を考慮した非言語情報の変換を行うことで、送信者が伝えたい意図を受信者にわかりやすく伝えることができる。
●補足●
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本実施形態における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたプロセッサ、並びに上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)、SOC(System on a chip)、GPU(Graphics Processing Unit)および従来の回路モジュール等のデバイスを含むものとする。
これまで本発明の一実施形態に係る情報処理装置、非言語情報変換システム、情報処理方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
1(1A,1B,1C,1D) 非言語情報変換システム
10 情報処理装置
11 データ取得部(取得手段の一例)
12 非言語情報処理部
13 データ出力部(出力手段の一例)
21 特徴量抽出部(特徴量抽出手段の一例)
22 意図推定部(意図推定手段の一例)
23 特徴量変換部(非言語情報変換手段の一例)
24 変換ルール設定部
25 映像変換部(非言語情報変換手段の一例)
70 送信装置
90 受信装置
210 非言語表現モデル
220 非言語認識モデル
230 特徴量抽出モデル
240 変換モデル

Claims (15)

  1. 非言語情報の変換を行う情報処理装置であって、
    第1のユーザの非言語情報である第1の非言語情報の特徴量、および前記第1の非言語情報と意図との関係を示す非言語表現モデルに基づいて、前記第1の非言語情報に示される意図を推定する意図推定手段と、
    推定された前記意図および設定された前記非言語情報の変換ルールに基づいて、前記第1の非言語情報を、第2のユーザへ出力する第2の非言語情報へ変換する非言語情報変換手段と、
    を備える情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記第1のユーザが撮影された映像データを取得する取得手段と、
    取得された前記映像データが変換された変換データを出力する出力手段と、を備え、
    前記意図推定手段は、前記映像データに示されている前記第1の非言語情報に基づいて、前記意図を推定し、
    前記非言語情報変換手段は、前記第1の非言語情報を示す前記映像データを、前記第2の非言語情報を示す前記変換データに変換し、
    前記出力手段は、前記変換データに係る映像を、前記第2のユーザが使用する受信装置へ出力する情報処理装置。
  3. 前記非言語表現モデルは、前記第1のユーザの非言語表現における個性を学習するモデルであり、
    前記意図推定手段は、前記取得手段によって取得された映像データを、前記非言語表現モデルに入力して得られる前記意図の推定値を算出する請求項2に記載の情報処理装置。
  4. 前記変換ルールは、第2のユーザの非言語認識と表現との関係を示す非言語認識モデルに基づいて設定される請求項3に記載の情報処理装置。
  5. 前記非言語認識モデルは、第2のユーザの非言語認識における個性を学習するモデルであり、
    前記非言語情報変換手段は、算出された前記意図の推定値が、前記非言語認識モデルに基づき第2のユーザに正しく伝わる確率が高まるように、取得された前記映像データの変換を行う請求項4に記載の情報処理装置。
  6. 請求項4または5に記載の情報処理装置であって、
    前記非言語情報の特徴量を抽出する特徴量抽出手段を備え、
    前記非言語表現モデルおよび前記非言語認識モデルは、抽出された前記特徴量のパラメータに基づいて、所望の非言語表現の認識および非言語認識の変換を行うために調整される情報処理装置。
  7. 請求項6に記載の情報処理装置であって、
    前記非言語表現モデルおよび前記非言語認識モデルは、抽出された前記特徴量のパラメータに基づく前記第1のユーザおよび前記第2のユーザの関係性に応じて調整される情報処理装置。
  8. 前記変換ルールは、前記第1のユーザより好印象を与える振る舞いを実践する第3のユーザの非言語表現モデルに基づいて設定される請求項1乃至3のいずれか一項に記載の情報処理装置。
  9. 前記変換ルールは、前記第1のユーザおよび前記第2のユーザとは無関係の一般人物の非言語表現モデルに基づいて設定される請求項1乃至3のいずれか一項に記載の情報処理装置。
  10. 前記非言語情報は、視線もしくは表情、手、腕もしくは足の形状、並びに姿勢のうち少なくとも一つの特徴量を含む請求項1乃至9のいずれか一項に記載の情報処理装置。
  11. 前記意図は、第1のユーザが第2のユーザに伝達したい感情または意思を示す請求項1乃至10のいずれか一項に記載の情報処理装置。
  12. 前記意図は、前記感情の種類もしくは強度、または前記第1のユーザの視線もしくは姿勢等の特徴量を含む請求項11に記載の情報処理装置。
  13. 非言語情報の変換を行う非言語情報変換システムであって、
    第1のユーザの非言語情報である第1の非言語情報の特徴量、および前記第1の非言語情報と意図との関係を示す非言語表現モデルに基づいて、前記第1の非言語情報に示される意図を推定する意図推定手段と、
    推定された前記意図および設定された前記非言語情報の変換ルールに基づいて、前記第1の非言語情報を、第2のユーザへ出力する第2の非言語情報へ変換する非言語情報変換手段と、
    を備える非言語情報変換システム。
  14. 非言語情報の変換を行う情報処理装置が実行する情報処理方法であって、
    第1のユーザの非言語情報である第1の非言語情報の特徴量、および前記第1の非言語情報と意図との関係を示す非言語表現モデルに基づいて、前記第1の非言語情報に示される意図を推定する意図推定ステップと、
    推定された前記意図および設定された前記非言語情報の変換ルールに基づいて、前記第1の非言語情報を、第2のユーザへ出力する第2の非言語情報へ変換する非言語情報変換ステップと、
    を実行する情報処理方法。
  15. コンピュータに、請求項14に記載の情報処理方法を実行させるプログラム。
JP2021044286A 2021-03-18 2021-03-18 情報処理装置、非言語情報変換システム、情報処理方法およびプログラム Pending JP2022143650A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021044286A JP2022143650A (ja) 2021-03-18 2021-03-18 情報処理装置、非言語情報変換システム、情報処理方法およびプログラム
US17/653,933 US12026979B2 (en) 2021-03-18 2022-03-08 Information processing apparatus, nonverbal information conversion system, and information processing method
EP22161901.8A EP4059673A1 (en) 2021-03-18 2022-03-14 Information processing apparatus, nonverbal information conversion system, information processing method, and carrier means

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021044286A JP2022143650A (ja) 2021-03-18 2021-03-18 情報処理装置、非言語情報変換システム、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2022143650A true JP2022143650A (ja) 2022-10-03

Family

ID=80739090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021044286A Pending JP2022143650A (ja) 2021-03-18 2021-03-18 情報処理装置、非言語情報変換システム、情報処理方法およびプログラム

Country Status (2)

Country Link
EP (1) EP4059673A1 (ja)
JP (1) JP2022143650A (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330958A (ja) 2005-05-25 2006-12-07 Oki Electric Ind Co Ltd 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ
EP2109302B1 (en) * 2008-04-07 2010-09-22 NTT DoCoMo, Inc. Emotion recognition message system and message storage server therefor
KR101189053B1 (ko) * 2009-09-05 2012-10-10 에스케이플래닛 주식회사 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기
US20220150285A1 (en) * 2019-04-01 2022-05-12 Sumitomo Electric Industries, Ltd. Communication assistance system, communication assistance method, communication assistance program, and image control program

Also Published As

Publication number Publication date
US20220301347A1 (en) 2022-09-22
EP4059673A1 (en) 2022-09-21

Similar Documents

Publication Publication Date Title
WO2022116977A1 (zh) 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
US20220150285A1 (en) Communication assistance system, communication assistance method, communication assistance program, and image control program
US20180089880A1 (en) Transmission of avatar data
JP6656447B1 (ja) 動画出力システム
JP6019108B2 (ja) 文字に基づく映像生成
US20180077095A1 (en) Augmentation of Communications with Emotional Data
WO2017168870A1 (ja) 情報処理装置及び情報処理方法
JP2018072876A (ja) 感情推定システム、感情推定モデル生成システム
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
JP7292782B2 (ja) 遠隔会議システム、遠隔会議のための方法、およびコンピュータ・プログラム
JP2017167779A (ja) 画像処理装置、表示装置、アニメーション生成方法、アニメーション表示方法及びプログラム
JP6843409B1 (ja) 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
US20220405994A1 (en) Communication assistance system and communication assistance program
KR20230103665A (ko) 텍스트 기반 아바타 생성 기능을 제공하는 메타버스 공간 장치, 방법, 및 프로그램
Rastgoo et al. A survey on recent advances in Sign Language Production
CN113395569A (zh) 视频生成方法及装置
KR102247481B1 (ko) 나이 변환된 얼굴을 갖는 직업영상 생성 장치 및 방법
JP7205646B2 (ja) 出力方法、出力プログラム、および出力装置
JP2022143650A (ja) 情報処理装置、非言語情報変換システム、情報処理方法およびプログラム
US20220301346A1 (en) Learning apparatus, learning system, and nonverbal information learning method
WO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US12026979B2 (en) Information processing apparatus, nonverbal information conversion system, and information processing method
WO2023208090A1 (en) Method and system for personal identifiable information removal and data processing of human multimedia

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20231023

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240119