JP2022143650A

JP2022143650A - 情報処理装置、非言語情報変換システム、情報処理方法およびプログラム

Info

Publication number: JP2022143650A
Application number: JP2021044286A
Authority: JP
Inventors: 伶実田中; Satomi Tanaka
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2022-10-03
Also published as: US20220301347A1; EP4059673A1

Abstract

【課題】対話コミュニケーションにおいて、伝えたい意図を相手にわかりやすく伝えるための非言語情報の変換を行う情報処理装置、非言語情報変換システム、情報処理方法およびプログラムを提供する。
【解決手段】非言語情報変換システム１において、非言語情報の変換を行う情報処理装置１０は、第１のユーザ（送信者）の非言語情報である第１の非言語情報の特徴量及び第１の非言語情報と意図との関係を示す非言語表現モデル（送信者の非言語表現モデル）に基づいて、第１の非言語情報に示される意図を推定し、推定された意図および設定された非言語情報の変換ルールに基づいて、第１の非言語情報を、第２のユーザ（受信者）へ出力する第２の非言語情報へ変換する。
【選択図】図１

Description

本開示内容は、情報処理装置、非言語情報変換システム、情報処理方法およびプログラムに関する。

近年、ＤｅｅｐＬｅａｒｎｉｎｇの発展とともに、ビデオ映像から人物の視線や表情等の非言語情報を精度よくリアルタイムに認識できるようになってきており、監視カメラ映像の自動解析や健康状態モニタリングなど様々なアプリケーションへ応用されている。また、非言語情報の認識技術と併せて発展した非言語情報の変換技術が近年注目を集めており、これらの技術を使うことにより、ビデオ通話等を用いた対話において相手に対して所望の印象を与えることができる。

ここで、非言語情報を正しく表現および認識することが、対話によるコミュニケーションにおいては重要である。一方で、非言語情報を正しく扱えない場合や両者の非言語の解釈違いにより、対話において問題が生じる場合がある。そのような問題の解決策として、例えば、特許文献１には、音声から感情を推定し、相手にその感情が伝わりやすいようなキャラクタ映像を生成して表示する内容が開示されている。

特開２００６―３３０９５８号公報

Tabas Baltrusaitis, et al.，"OpenFace: an open source facial behavior analysis toolkit"，ICCV 2016. A. Pumarola，et al.，"Ganimation: Anatomically-aware facial animation from a single image"，ECCV，2018.

しかしながら、非言語情報の認識や表現には個人差や文化による差があるため、個人個人に適した推定や表現を行う必要があるが、従来の方法では、非言語情報の表現や認識に個性があることを考慮した非言語情報の変換を行うためには改善の余地があるという課題があった。

上述した課題を解決すべく、請求項１に係る発明は、非言語情報の変換を行う情報処理装置であって第１のユーザの非言語情報である第１の非言語情報の特徴量、および前記第１の非言語情報と意図との関係を示す非言語表現モデルに基づいて、前記第１の非言語情報に示される意図を推定する意図推定手段と、推定された前記意図および設定された前記非言語情報の変換ルールに基づいて、前記第１の非言語情報を、第２のユーザへ出力する第２の非言語情報へ変換する非言語情報変換手段と、を備える情報処理装置である。

本発明によれば、対話コミュニケーションにおいて、伝えたい意図を相手にわかりやすく伝えるための非言語情報の変換を行うことができるという効果を奏する。

非言語情報変換システムの全体構成の一例を示す図である。コンピュータのハードウエア構成の一例を示す図である。情報処理装置の機能構成の一例を示す図である。第１の実施形態に係る非言語情報変換システムの一例を示す概略図である。非言語情報変換処理の一例を示すフローチャートである。非言語情報の特徴量の抽出処理の一例を示すフローチャートである。送信者の意図の推定処理の一例を示すフローチャートである。非言語表現モデルに対応する意図－特徴量データベースの一例を示す概念図である。特徴量の変換処理の一例を示すフローチャートである。（Ａ）は、入力される非言語情報の特徴量のパラメータの一例を示す図であり、（Ｂ）は、変換後の非言語情報の特徴量のパラメータの一例を示す図である。映像データの変換処理の一例を示すフローチャートである。第２の実施形態に係る非言語情報変換システムの一例を示す概略図である。（Ａ）は、入力される非言語情報の特徴量のパラメータの一例を示す図であり、（Ｂ）は、変換後の非言語情報の特徴量のパラメータの一例を示す図である。第３の実施形態に係る非言語情報変換システムの一例を示す概略図である。第４の実施形態に係る非言語情報変換システムの一例を示す概略図である。第４の実施形態における特徴量の変換処理の一例を示すフローチャートである。

以下、図面を参照しながら、発明を実施するための形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。

●実施形態●
●非言語情報変換システムの概略
まず、図１を用いて、実施形態に係る非言語情報変換システムの構成の概略について説明する。図１は、非言語情報変換システムの全体構成の一例を示す図である。図１に示されている非言語情報変換システム１は、ビデオ通信等を用いた対話コミュニケーションにおいてやり取りされる非言語情報の変換を行うシステムである。

図１に示されているように、非言語情報変換システム１は、非言語情報の変換を行う情報処理装置１０、非言語情報の送信者が使用する送信装置７０および非言語情報の受信者が使用する受信装置９０を含む。非言語情報変換システム１を構成する情報処理装置１０、送信装置７０および受信装置９０は、通信ネットワークを介して通信することができる。通信ネットワークは、インターネット、移動体通信網、ＬＡＮ(Local Area Network)等によって構築されている。なお、通信ネットワークには、有線通信だけでなく、３Ｇ(3rd Generation)、４Ｇ(4th Generation)、５Ｇ（5th Generation）、Ｗｉ－Ｆｉ(Wireless Fidelity)（登録商標）、ＷｉＭＡＸ(Worldwide Interoperability for Microwave Access)またはＬＴＥ(Long Term Evolution)等の無線通信によるネットワークが含まれてもよい。

情報処理装置１０は、送信者である第１のユーザの意図が受信者である第２のユーザにわかりやすく伝わるように非言語情報の変換を行うコンピュータである。情報処理装置１０は、送信者の非言語情報を含むデータを取得し、送信者の意図が受信者にわかりやすく伝わるように非言語情報が変換を行い、取得されたデータに対して非言語情報が変換された変換データを出力する。

ここで、非言語情報は、ユーザの視線、表情、上肢の姿勢、手の形状、腕や足の形状もしくは姿勢、または音声のトーンもしくは抑揚等の特徴量を含む。また、送信者の意図は、送信者の状態（快、集中または活発等）もしくは送信者の感情（喜怒哀楽、困惑または嫌悪等）、および送信者の意思（命令、拒否または要望等）のうち、送信者が受信者に伝えたいと所望するものを含む。

また、非言語情報変換システム１は、非言語情報の変換精度を向上させるため、ユーザごとに構築された非言語表現モデルおよび非言語認識モデルを有している。非言語表現モデルは、ユーザの非言語表現と意図の関係を記憶したものであり、ユーザの非言語表現における個性を学習するモデルである。非言語認識モデルは、ユーザの非言語認識と表現の関係を記憶したものであり、ユーザの非言語認識における個性を学習するモデルである。

非言語情報変換システム１は、ユーザごとに学習された非言語表現モデルおよび非言語認識モデルを非言語情報の変換に用いることで、非言語情報の表現や認識に個性があることを考慮した非言語情報の変換を行うことができる。情報処理装置１０は、例えば、図１に示されているように、送信者の非言語表現モデルと受信者の非言語認識モデルを読み込んで、取得された送信者の非言語情報を含むデータを、受信者が認識しやすい非言語情報へ変換する。

なお、情報処理装置１０は、一台のコンピュータによって構成されてもよく、複数のコンピュータによって構成されてもよい。また、情報処理装置１０は、クラウド環境に存在するコンピュータであってもよいし、オンプレミス環境に存在するコンピュータであってもよい。

送信装置７０および受信装置９０は、それぞれ送信者および受信者が対話コミュニケーションで使用するノートＰＣ(Personal Computer)等のコンピュータである。送信装置７０は、例えば、送信者を正面から撮影した映像データを、情報処理装置１０へ送信する。受信装置９０は、情報処理装置１０によって変換された送信者が写る映像データ（変換データ）を、ディスプレイに表示させる。なお、送信装置７０および受信装置９０は、ノートＰＣに限られず、例えば、スマートフォン、タブレット端末、ウェアラブル端末またはデスクトップＰＣ等であってもよい。また、図１は、二人の人物の対話コミュニケーションの例を示すが、非言語情報変換システム１は、三人以上の人物の対話コミュニケーションにおいても適用可能である。さらに、対話コミュニケーションにおいて、送信者および受信者は、互いに送信者と受信者の両方の役割を担う構成であってもよい。

対話コミュニケーションにおける非言語情報の変換において、カメラで撮影されたユーザの表情、または性別もしくは年齢等のユーザの属性をリアルタイムに変換させたり、相手に与える印象を変えるために機械音声の抑揚およびトーンを調整したりする技術が知られている。非言語情報は言語情報よりも印象に与える影響が強く、これらの技術を使うことにより、相手に対して所望の印象を与えることが可能になると考えられる。

また、対話コミュニケーションにおいては、非言語情報を正しく表現および認識することが重要であり、非言語情報を正しく扱えない場合や両者の非言語の解釈違いにより、対話において問題が生じる場合がある。特に、介護や養護教育の現場では、非言語情報を上手く扱えない人物と職員との間でトラブルが生じやすい。そのような場面では、伝えたい意図と非言語の表現に乖離があったり、両者の間で非言語の表現と認識のルールに相違があったりすることが多い。このような場面において、例えば、手話表現を会得していない送信者が音声を入力するだけで、相手に伝わりやすい手話映像を合成させたり、視覚障碍者または弱視の人向けに視覚情報を見やすく変換したりする技術が知られている。

しかしながら、非言語情報の認識や表現には個人差や文化による差があるため、個人個人に適した推定や表現を行うべきである。そのため、上述した従来の方法では、非言語情報の表現や認識に個性があることを考慮した非言語情報の変換を行うためには改善の余地があった。

そこで、非言語情報変換システム１は、送信者の非言語情報を示す映像データを入力として、情報処理装置１０によって送信者の非言語表現モデルに基づいて送信者の意図を推定する。また、情報処理装置１０は、推定した意図および設定された変換ルール（例えば、受信者の非言語認識モデルに基づく変換ルール）に基づいて、送信者の非言語情報の変換を行う。そして、情報処理装置は、変換データである変換された非言語情報を示す映像データを受信者へ出力する。これにより、非言語情報変換システム１は、送信者と受信者の対話において、送信者が伝えたい意図を受信者にわかりやすく伝えることができる。

●ハードウエア構成
続いて、図２を用いて、実施形態に係る非言語情報変換システムを構成する各装置のハードウエア構成を説明する。非言語情報変換システム１を構成する各装置は、一般的なコンピュータの構成を有する。ここでは、一般的なコンピュータのハードウエア構成例について説明する。

図２は、コンピュータのハードウエア構成の一例を示す図である。なお、図２に示すコンピュータのハードウエア構成は、各実施形態において同様の構成を有していてもよく、必要に応じて構成要素が追加または削除されてもよい。コンピュータは、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、ＨＤ(Hard Disk)１０４、ＨＤＤ(Hard Disk Drive)コントローラ１０５、ディスプレイ１０６、外部機器接続Ｉ／Ｆ(Interface)１０７、通信Ｉ／Ｆ１０８、バスライン１１０、キーボード１１１、ポインティングデバイス１１２、音入出力Ｉ／Ｆ１１３、マイク１１４、スピーカ１１５、カメラ１１６、ＤＶＤ－ＲＷ(Digital Versatile Disk Rewritable)ドライブ１１７、およびメディアＩ／Ｆ１１９を備えている。

これらのうち、ＣＰＵ１０１は、コンピュータ全体の動作を制御する。ＲＯＭ１０２は、ＩＰＬ等のＣＰＵ１０１の駆動に用いられるプログラムを記憶する。ＲＡＭ１０３は、ＣＰＵ１０１のワークエリアとして使用される。ＨＤ１０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ１０５は、ＣＰＵ１０１の制御にしたがってＨＤ１０４に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ１０６は、カーソル、メニュー、ウィンドウ、文字、または画像等の各種情報を表示する表示手段の一種である。なお、ディスプレイ１０６は、入力手段を備えたタッチパネルディスプレイであってもよい。外部機器接続Ｉ／Ｆ１０７は、各種の外部機器を接続するためのインターフェースである。通信Ｉ／Ｆ１０８は、他のコンピュータや電子機器等とデータの送受信を行うためのインターフェースである。通信Ｉ／Ｆ１０８は、例えば、有線または無線ＬＡＮ等の通信インターフェースである。また、通信Ｉ／Ｆ１０８は、３Ｇ、４Ｇ、５ＧもしくはＬＴＥ等の移動体（モバイル）通信、Ｗｉ－Ｆｉ、ＷｉＭＡＸ等の通信インターフェースを備えてもよい。バスライン１１０は、図２に示されているＣＰＵ１０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

また、キーボード１１１は、文字、数値、各種指示等の入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス１１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動等を行う入力手段の一種である。なお、入力手段は、キーボード１１１およびポインティングデバイス１１２のみならず、タッチパネルまたは音声入力装置等であってもよい。また、ディスプレイ１０６等の表示手段、並びにキーボード１１１およびポインティングデバイス１１２等の入力手段は、コンピュータの外部のＵＩ(User Interface）であってもよい。音入出力Ｉ／Ｆ１１３は、ＣＰＵ１０１の制御に従ってマイク１１４およびスピーカ１１５との間で音信号の入出力を処理する回路である。マイク１１４は、音声を入力する内蔵型の集音手段の一種である。スピーカ１１５は、音声信号を出力する内蔵型の出力手段の一種である。カメラ１１６は、被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、マイク１１４、スピーカ１１５およびカメラ１１６は、コンピュータの内蔵型ではなく、外付けの装置であってもよい。ＤＶＤ－ＲＷドライブ１１７は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ１１８に対する各種データの読み出しまたは書き込みを制御する。なお、ＤＶＤ－ＲＷに限らず、ＤＶＤ－ＲやＢｌｕ-ｒａｙ（登録商標）Ｄｉｓｃ（ブルーレイディスク）等であってもよい。メディアＩ／Ｆ１１９は、フラッシュメモリ等の記録メディア１２１に対するデータの読み出しまたは書き込み（記憶）を制御する。

なお、上記各プログラムは、インストール可能な形式または実行可能な形式のファイルで、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。記録媒体の例として、ＣＤ－Ｒ(Compact Disc Recordable)、ＤＶＤ(Digital Versatile Disk)、Ｂｌｕ-ｒａｙＤｉｓｃ、ＳＤカードまたはＵＳＢメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内または国外へ提供されることができる。例えば、情報処理装置１０は、本発明に係るプログラムが実行されることで本発明に係る情報処理方法を実現する。

●機能構成
続いて、図３を用いて、実施形態に係る非言語情報変換システムの機能構成について説明する。図３は、情報処理装置の機能構成の一例を示す図である。情報処理装置１０は、データ取得部１１、非言語情報処理部１２およびデータ出力部１３を有している。これら各部は、図２に示されている各構成要素のいずれかが、ＲＡＭ１０３上に展開された情報処理装置用プログラムに従ったＣＰＵ１０１からの命令によって動作することで実現される機能、または機能する手段である。

データ取得部１１は、主に、通信Ｉ／Ｆ１０８または外部機器接続Ｉ／Ｆ１０７に対するＣＰＵ１０１の処理によって実現され、送信装置７０から送信される各種データを取得する。

非言語情報処理部１２は、主に、ＣＰＵ１０１の処理によって実現され、データ取得部１１によって取得されたデータに示されている非言語情報の変換を行う。

データ出力部１３は、主に、主に、通信Ｉ／Ｆ１０８または外部機器接続Ｉ／Ｆ１０７に対するＣＰＵ１０１の処理によって実現され、非言語情報処理部１２によって処理された各種データを、受信装置９０に対して出力する。

ここで、非言語情報処理部１２の構成について詳細に説明する。非言語情報処理部１２は、特徴量抽出部２１、意図推定部２２、特徴量変換部２３、変換ルール設定部２４、映像変換部２５、モデル学習部２６、データ格納部３１、意図格納部３２、合成情報格納部３３および記憶・読出部２９を有している。また、非言語情報処理部１２は、図２に示されているＲＯＭ１０２、ＨＤ１０４または記録メディア１２１によって構築される記憶部２０００を有している。

特徴量抽出部２１は、所定の人物の映像を入力として、映像に示されている非言語情報の特徴量を抽出する。

意図推定部２２は、データ取得部１１によって取得されたデータに示されている送信者の非言語情報および送信者の非言語表現モデルに基づいて、送信者の意図を推定する。

特徴量変換部２３は、意図推定部２２によって推定された意図、および変換ルール設定部２４によって設定された変換ルールに基づいて、データ取得部１１によって取得されたデータに示されている送信者の非言語情報の特徴量の変換を行う。

変換ルール設定部２４は、送信者の非言語情報の特徴量の変換を行うための変換ルールの設定を行う。

映像変換部２５は、データ取得部１１によって取得された映像データを、特徴量変換部２３によって変換された特徴量に基づいて変換する。

モデル学習部２６は、非言語情報の変換に用いる各種学習モデル（非言語表現モデル２１０、非言語認識モデル２２０、特徴量抽出モデル２３０および変換モデル２４０）の学習を行う。

データ格納部３１は、非言語情報の変換に用いる各種データを格納する。意図格納部３２は、意図推定部２２によって推定された送信者の意図を格納する。合成情報格納部３３は、映像変換部２５によって変換された変換データである送信者の映像に対応する合成情報を格納する。

記憶・読出部２９は、記憶部２０００に、各種データ（または情報）を記憶したり、記憶部２０００から各種データ（または情報）を読み出したりする。記憶部２０００は、非言語情報の変換処理によって構築され、モデル学習部２６によって学習された非言語表現モデル２１０、非言語認識モデル２２０、特徴量抽出モデル２３０および変換モデル２４０が記憶されている。このうち、非言語表現モデル２１０および非言語認識モデル２２０は、人物に依存するため、ユーザごとに異なるモデルが記憶されている。非言語表現モデル２１０および非言語認識モデル２２０のモデルパラメータは、例えば、抽出された特徴量のパラメータに基づいて、所望の非言語表現の認識および非言語認識の変換を行うために調整することができる。また、非言語表現モデル２１０および非言語認識モデル２２０のモデルパラメータは、例えば、抽出された特徴量のパラメータに基づく送信者と受信者の関係性に応じて調整することができる。一方で、特徴量抽出モデル２３０および変換モデル２４０は、人物に依存しないため、それぞれ一つのモデルが記憶されている。なお、各種学習モデルが記憶されている記憶部２０００は、情報処理装置１０の外部の記憶装置に構築されている構成であってもよい。

●第１の実施形態
○概略○
続いて、図４乃至図１１を用いて、第１の実施形態に係る非言語情報変換システムについて説明する。図４は、第１の実施形態に係る非言語情報変換システムの一例を示す概略図である。第１の実施形態に係る非言語情報変換システム１Ａは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルと人物Ａの非言語表現モデルを用いた非言語情報の変換を行うシステムである。人物Ａは、送信者および受信者とは異なる人物であり、送信者より好印象を与える振る舞いを実践する人物である。人物Ａは、第３のユーザの一例である。

まず、情報処理装置１０は、送信者が写る映像データを取得し、非言語情報処理部１２のデータ格納部３１へ格納する。次に、非言語情報処理部１２は、送信者の非言語表現モデルを読み込み、データ格納部３１に格納された送信者の映像データから読み込んだ送信者の非言語表現モデルを用いて、送信者の意図を推定する。そして、非言語情報処理部１２は、推定した送信者の意図を示す情報を、意図格納部３２へ格納する。

次に、非言語情報処理部１２は、人物Ａの非言語表現モデルを読み込み、意図格納部３２に格納された送信者の意図から読み込んだ人物Ａの非言語表現モデルを用いて、送信者の映像データに示されている非言語情報の特徴量の変換を行う。また、非言語情報処理部１２は、変換した特徴量に基づき、送信者の映像データを変換し、映像とラベル情報が合成された合成情報となる変換データを生成する。非言語情報処理部１２は、変換された変換データである合成情報を、合成情報格納部３３へ格納する。そして、情報処理装置１０は、非言語情報処理部１２の合成情報格納部３３に格納された合成情報が示す変換後の非言語情報を受信者へ出力する。

このように、第１の実施形態に係る非言語情報変換システム１Ａは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルとともに、非言語表現が上手い人物Ａの非言語表現モデルを用いて非言語情報の変換を行うことで、非言語情報の変換精度を向上させることができる。

○第１の実施形態の処理または動作○
次に、図５乃至図１１を用いて、第１の実施形態に係る非言語情報変換システムの処理または動作について説明する。まず、図５を用いて、非言語情報変換システム１Ａによって実行される非言語情報変換処理の全体の流れについて説明する。図５は、非言語情報変換処理の一例を示すフローチャートである。

まず、情報処理装置１０のデータ取得部１１は、第１のユーザである送信者が撮影された映像データを取得する（ステップＳ１）。具体的には、送信者が使用する送信装置７０がカメラ１１６を用いて送信者を撮影し、撮影した映像データを情報処理装置１０へ送信する。そして、情報処理装置１０のデータ取得部１１は、送信装置７０から送信された映像データを取得する。送信者の映像は、例えば、送信者が日常のコミュニケーションにおいて行う動作を撮影したものを主とする。データ取得部１１は、取得した映像データを、非言語情報処理部１２のデータ格納部３１に格納する。

次に、情報処理装置１０の非言語情報処理部１２は、ステップＳ１で取得した映像データを特徴量抽出モデル２３０へ入力し、非言語情報の特徴量を抽出する（ステップＳ２）。非言語情報の特徴量は、人物の顔ランドマークの位置、Action Unit(AU)、両目の各視線角度、骨格ランドマークの位置、頭部回転角度または距離等のパラメータを含む。

次に、情報処理装置１０の非言語情報処理部１２は、ステップＳ２で抽出された特徴量を非言語表現モデル２１０へ入力し、送信者の意図を推定する。非言語情報処理部１２は、例えば、抽出された特徴量が入力された非言語表現モデル２１０を用いて、送信者の意図を示す意図ラベル情報を取得する。意図ラベル情報は、「喜び(happy)、怒り(angry)、悲しみ(sad)、驚き(surprised)、嫌悪(disgusted)、困惑(composed)」の基本６感情に加えて、「Neutral，Deny，Accept，Arousal，Interested」の強度が「０～１」で表された情報を含む。

次に、情報処理装置１０の非言語情報処理部１２は、ステップＳ３で推定された意図を、変換ルール設定部２４で設定された変換ルールに入力して特徴量の変換を行い、所望の特徴量を取得する（ステップＳ４）。

次に、情報処理装置１０の非言語情報処理部１２は、ステップＳ４で変換された特徴量を、変換モデル２４０に入力し、ステップＳ１で取得された映像データの変換を行い、変換データとして変換後の映像を取得する（ステップＳ５）。

そして、情報処理装置１０のデータ出力部１３は、ステップＳ５で変換された変換データである変換後の映像を、第２のユーザである受信者へ出力する（ステップＳ６）。具体的には、データ出力部１３は、変換後の映像を、受信者が使用する受信装置９０へ送信し、受信装置９０は、情報処理装置１０から送信（出力）された変換後の映像を、ディスプレイ１０６に表示する。

○特徴量抽出処理
ここで、図６乃至図１１を用いて、図５に示されている各処理の詳細をそれぞれ説明する。まず、図６を用いて、ステップＳ２において情報処理装置１０の非言語情報処理部１２によって実行される特徴量抽出処理について説明する。図６は、非言語情報の特徴量の抽出処理の一例を示すフローチャートである。

まず、特徴量抽出部２１は、送信者または人物Ａとは無関係な人物が撮影された映像である一般人物映像を入力する（ステップＳ２１）。一般人物映像は、送信者、人物Ａおよび受信者とは異なる第三者の人物（一般人物）が撮影された映像である。また、一般人物映像は、一般人物が表情、体もしくは頭部の向き、視線の向きまたはカメラとの距離等を様々に変更している動作が撮影された映像である。次に、特徴量抽出部２１は、ステップＳ２１で入力された一般人物映像を用いたアノテート処理を実行する（ステップＳ２２）。特徴量抽出部２１は、例えば、アノテータのキーボード１１１等の入力操作によって、ラベル情報として非言語情報の特徴量を定義する。これにより、特徴量抽出部２１は、特徴量抽出処理に用いるデータセットを作成する。特徴量抽出部２１は、作成したデータセットをデータ格納部３１に格納する。

次に、特徴量抽出部２１は、特徴量の抽出に用いる特徴量抽出モデル２３０を構築する（ステップＳ２３）。特徴量抽出モデル２３０は、入力層、ＣＮＮ(Convolutional Neural Network)層、ＬＳＴＭ(Long short-term memory)層、推定層の階層によって構成される。特徴量抽出モデル２３０は、ＣＮＮ層によって、入力映像の各フレームの画像の特徴量がそれぞれ抽出される。また、特徴量抽出モデル２３０は、ＬＳＴＭ層により、入力映像における複数のフレーム画像の特徴量を入力として、各フレームにおける非言語情報の特徴量および状態情報が抽出される。ここで、各フレームにおける状態情報は、ＬＳＴＭにおける処理において、次のセルに伝達する記憶情報に該当し、文章解析を行うＬＳＴＭにおける文脈情報を表している。状態情報は、例えば、静止中または動作中等の人物の状態を表している。特徴量抽出モデル２３０は、ＣＮＮ層とＬＳＴＭ層を組み合わせることで、各フレーム画像の解析および時系列情報の解析を同時に行うことができる。

次に、特徴量抽出部２１は、ステップＳ２１,Ｓ２２の処理によって作成したデータセットを、特徴量抽出モデル２３０の学習用に読み込む（ステップＳ２４）。これにより、モデル学習部２６は、特徴量の抽出に用いる特徴量抽出モデル２３０の学習を行う。なお、入力映像からの非言語情報の特徴量の抽出は、人物の違いによっては変わらないため、特徴量抽出モデル２３０の学習は、一度だけ行えばよく、学習済の特徴量抽出モデル２３０が存在する場合は、ステップＳ２３,Ｓ２４の処理は行われなくてもよい。

次に、特徴量抽出部２１は、ステップＳ１で取得した映像データを、ステップＳ２３,Ｓ２４の処理で学習した特徴量抽出モデル２３０へ入力する（ステップＳ２５）。そして、特徴量抽出部２１は、ステップＳ１で取得した映像データが示す非言語情報の特徴量を取得する（ステップＳ２６）。

なお、非特許文献１に記載のOpenFace等のリアルタイムで特徴量の取得を行うことが可能な公知の技術を用いることで、上述のステップＳ２１乃至ステップＳ２５の処理は、省略可能である。

○意図推定処理
次に、図７および図８を用いて、ステップＳ３において情報処理装置１０の非言語情報処理部１２によって実行される意図推定処理について説明する。図７は、送信者の意図の推定処理の一例を示すフローチャートである。

まず、意図推定部２２は、ステップＳ１で取得された送信者の映像データを入力する（ステップＳ３１）。そして、意図推定部２２は、ステップＳ２１で入力された映像データを用いたアノテート処理を実行する（ステップＳ３２）。意図推定部２２は、例えば、アノテータのキーボード１１１等の入力操作によって、意図ラベル情報として送信者の映像に対応する意図を定義する。この意図ラベル情報Ｌの一例を以下（式１）に示す。

意図ラベル情報Ｌ＝{angry;0.1, composed;0.2, disgusted;0.2, happy;0.8, sad;0.4, surprised;0.6, neutral;0.2, deny;0.3, accept;0.3, arousal;0.7, interested;0.8}・・・(式１)

また、ステップＳ３２におけるアノテートは、送信者自身（アノテータ＝送信者）が行うものとし、（式１）に示されているような意図の種類と強度を定義する。アノテータは、例えば、ステップＳ３１で入力された映像データを再生し、映像の各フレームにおける意図の強度の数値を入力する。また、アノテートは、例えば、専用のアプリケーションを使用して、ポインティングデバイス１１２等の入力手段を用いたドラッグ操作によって各フレームにおける意図の強度の数値を指定させることで、アノテート処理に要する負担を軽減することができる。また、アノテートは、ポインティングデバイス１１２等の入力手段を用いたドラッグ操作等によって意図の強度に限られず、意図の種類または確信度等の多種類・多次元の情報を指定する構成であってもよい。これにより、意図推定部２２は、意図推定処理に用いるデータセットを作成する。意図推定部２２は、作成したデータセットをデータ格納部３１に格納する。

次に、意図推定部２２は、意図の推定に用いる送信者用の非言語表現モデル２１０を構築する（ステップＳ３３）。ここで、非言語情報の特徴量から意図の表現は、人物に依存するため、意図推定部２２は、送信者用の非言語表現モデル２１０を構築する。非言語表現モデル２１０の構造は、人物に依らずに同一であり、入力層、ＬＳＴＭ層、推定層の階層によって構成される。意図推定部２２は、前処理として、ステップＳ２６で抽出された非言語情報の特徴量を、非言語表現モデル２１０へ入力する。意図推定部２２は、非言語表現モデルのＬＳＴＭ層により、入力映像における複数のフレーム画像の特徴量を入力として、各フレームにおける意図およびフレーム番号を出力する。フレーム番号は、意図を示す複数フレームのうち、入力フレームが何番目に該当するかを表す。

ここで、非言語表現モデル２１０は、意図と非言語情報の特徴量の関連性を示す学習モデルであり、例えば、データベースのような構造を有している。ここでは、便宜上、意図－特徴量データベースと称する。図８は、非言語表現モデルに対応する意図－特徴量データベースの一例を示す概念図である。図８に示されているように、非言語情報の特徴量は、各意図の強度（ここでは、1.0,0.8,0.5）に対して、それぞれ時系列の値を有している。さらに、非言語情報の特徴量（図８に示されている(1)～(7)）には、各意図の強度に対して、起こりうる時系列の値が確立的に四つずつ存在する（発生確率；0.3,0.25,0.25,0.2）。

例えば、ＡＵ１（ActionUnit1）に対応するパラメータ(1)は、下記（式２）のように表される。パラメータ(1)は、（式２）に示されているように、四つの発生確率ごとに、Ｎフレーム分（例えば、Ｎ＝１０）の値を含む。他のパラメータ(2)～(7)も、パラメータ(1)と同様に、(式２)のように表される。これにより、例えば、パラメータ(1)～(7)について、発生確率０．３の１フレーム分のみを抽出すると、以下（式３）のようになる。

(1)＝{{0.3,0.3,0.2,…}_0.3,{0.3,0.3,0.1,…}_0.25,{0.3,0.1,0.2,…}_0.25,{0.3,0.3,0.0,…}_0.2}・・・（式２）

｛(1),(2),(3),(4),(5),(6),(7)｝＝{0.3,0.2,0.6,0.1,0.1,0.5,0.5}・・・（式３）

次に、意図推定部２２は、ステップＳ３１,Ｓ３２の処理によって作成したデータセットを、非言語表現モデル２１０の学習用に読み込む（ステップＳ３４）。これにより、モデル学習部２６は、意図の推定に用いる非言語表現モデル２１０の学習を行う。非言語情報の特徴量から意図の表現は、人物に依存するため、非言語表現モデル２１０の学習は、人物ごとに行う。

次に、意図推定部２２は、非言語情報の特徴量から意図の表現が人物依存であるため、ステップＳ３３,Ｓ３４で学習した送信者用の非言語表現モデル２１０を読み込む（ステップＳ３５）。そして、意図推定部２２は、ステップＳ１で取得された映像データが示す非言語情報に基づく送信者の意図を推定する（ステップＳ３６）。推定される意図には、その意図の種類、強度または確信度等の多次元も情報を含む。意図推定部２２は、例えば、送信者の映像データを、送信者用の非言語表現モデル２１０へ入力して得られる意図の推定値となる意図ラベル情報を取得する。意図推定部２２は、推定した意図の情報を意図格納部３２に格納する。

このように、意図推定部２２は、送信者の映像データおよび送信者用の非言語表現モデルに基づいて送信者の意図を推定することで、非言語情報の表現の個人差や文化の違いによる差を考慮した意図の推定を行うことができる。

○特徴量変換処理
次に、図９および図１０を用いて、ステップＳ４において情報処理装置１０の非言語情報処理部１２によって実行される特徴量変換処理について説明する。図９は、特徴量の変換処理の一例を示すフローチャートである。

まず、変換ルール設定部２４は、非言語情報の変換における変換ルールを設定する（ステップＳ４１）。変換ルール設定部２４によって設定される変換ルールは、変換項目、変換割合、変換先および変換先の非言語表現モデル２１０に対応する意図－特徴量データベース（図８参照）の項目を含む。

このうち、変換項目は、変換する非言語情報の特徴量の種類を示す。非言語情報の特徴量の種類は、例えば、姿勢情報、視線情報、感情ごとの表情の強度および頭部回転角度を含む。ここでの姿勢情報は、非言語情報の特徴量の骨格ランドマークのうちの背骨に該当する位置のみを意味する。変換項目に顔ランドマークおよび骨格ランドマークの全てを含まないことによって、背筋および視線を変換しつつ、顔および体格の個人差を維持することができる。

また、変換割合は、変換先にどの程度似せて変換するかを示す割合であり、「０～１」の値で定義される。例えば、人物Ａに似せる場合は「１」、変換前の状態を維持する場合は「０」を選択する。

さらに、変換先は、変換先となる人物を示す。ここでは、例えば、送信者より好印象を与える振る舞いを実践する人物Ａが設定される。そして、非言語表現モデル２１０に対応する意図－特徴量データベースとして、人物Ａの意図と非言語情報の特徴量の関連性を定義する。定義の方法は、図７に示されている処理と同様に、人物Ａの非言語表現モデル２１０を構築・学習することによって行われる。定義の方法は、例えば、ステップＳ３１,Ｓ３２におけるデータセットの作成と同様に、人物Ａの映像を入力し、入力した映像の各フレームに対応する意図を、人物Ａにアノテートさせることによって行われる。なお、人物Ａの非言語表現モデル２１０に対応する意図－特徴量データベースの構造は、図８に示されている例と同様であり、送信者の非言語表現モデルとはパラメータが異なる。

そして、特徴量変換部２３は、ステップＳ４２～Ｓ４４の処理によって、ステップＳ４１で設定された変換ルールを適用し、特徴量の変換を行う。具体的には、特徴量変換部２３は、ステップＳ３の処理によって推定された送信者の意図を選択する（ステップＳ４２）。特徴量変換部２３は、推定された意図によって、送信者の映像データから意図の種類、強度およびフレーム番号を選択する。特徴量変換部２３は、例えば、意図の強度が最大のものを、そのフレームの意図として選択する。上述の(式1)のように、最大値となる意図が複数ある場合、その両方を選択し、後述の線形補間により、両者の中間の非言語情報の特徴量を算出する。この場合、、比率は両方とも0.5とする。特徴量変換部２３は、図８に示されている非言語表現モデルの中から該当する意図の行（レコード）を選択し、該当する行（レコード）の中から該当するフレーム番号の非言語情報の特徴量を選択する。

次に、特徴量変換部２３は、上述の(式２)に示されているような起こりうる四つの時系列値の中から、確率的に一つを選択（確率的選択）する（ステップＳ４３）。そして、特徴量変換部２３は、ステップＳ４１で設定された変換ルールに示されている変換割合に応じて、下記（式４）を用いた送信者と変換先の非言語情報の特徴量の線形補間を行う（ステップＳ４４）。ここで、（式４）におけるＸ１は、送信者の非言語情報の特徴量を示し、Ｘ２は、変換先の非言語情報の特徴量を示し、αは、変換割合を示す。

Ｘ＝α×Ｘ１＋(１－α)×Ｘ２・・・（式４）

図１０（Ａ）は、入力される非言語情報の特徴量のパラメータの一例を示す図である。図１０（Ａ）は、変換前の送信者の映像データから抽出された非言語情報の特徴量のパラメータの一部と、そこから推定されたフレーム番号の例を示す。特徴量変換部２３は、例えば、図１０（Ａ）に示されているパラメータを入力として、図８に示されている非言語表現モデルに対応する意図－特徴量データベースに基づいて特徴量の変換を行う。

特徴量変換部２３は、例えば、ステップＳ４２で{Nutral,1.0}を送信者の意図として選択し、ステップＳ４３で時系列値{}_0.3を確立的選択したものとする。また、設定された変換ルールに示されている変換項目は、図８に示されている(4)～(7)のみであり、変換割合は、α＝1.0とする。この場合の変換後の非言語情報の特徴量のパラメータの一例を、図１０（Ｂ）に示す。図１０（Ｂ）に示されているように、(4)～(7)のパラメータは、図１０（Ａ）のパラメータから変換されているが、(1)～(3)のパラメータは、変換前のままである。すなわち、特徴量変換部２３は、送信者の表情を変えないまま、姿勢と視線方向の値だけを変換している。

このように、特徴量変換部２３は、意図推定部２２で推定された意図の推定値および変換ルール設定部２４で設定された変換ルールに基づいて、送信者の意図が受信者に正しく伝わる確率が高まるように、非言語情報の特徴量のパラメータを変換する。

○映像データ変換処理
次に、図１１を用いて、ステップＳ５において情報処理装置１０の非言語情報処理部１２によって実行される映像データ変換処理について説明する。図１１は、映像データの変換処理の一例を示すフローチャートである。

まず、映像変換部２５は、一般人物映像および一般人物映像に対応する非言語情報の特徴量を入力する（ステップＳ５１）。ここで入力される一般人物映像は、一般人物が非言語情報の特徴量だけを様々に変更する動作を撮影したものを主とする。特徴量だけを変更する動作は、例えば、視線の方向を変えたり、頭部方向を変えたりする動作である。なお、この場合、ラベル情報は不要である。これにより、映像変換部２５は、映像データの変換処理を行うためのデータセットを作成する。映像変換部２５は、作成したデータセットをデータ格納部３１に格納する。

次に、映像変換部２５は、映像データを変換するための変換モデル２４０を構築する（ステップＳ５２）。変換モデル２４０は、非特許文献２に記載のGANimationの手法を、顔の表情だけでなく、人物の姿勢および視線情報まで拡張したものである。GANimationとは、画像生成ネットワークに入力映像だけでなく、表情ラベルであるＡＵ特徴量の強度群を併せて入力することで、所望の表情ラベルを有する映像に変換する技術である。変換モデル２４０は、GANimationの手法を、AU特徴量以外の非言語情報の特徴量へ拡張することで実現させる。

映像変換部２５は、「変換前の映像、変換前の非言語情報の特徴量、変換後の所望の非言語情報の特徴量」のセットを変換モデル２４０へ入力し、「変換後の映像、変換後の非言語情報の特徴量」のセットを出力する。一般的なGAN(Generative Adversarial Network)とは、変換後の所望のラベル情報も併せて入力する点が異なる。損失関数は、変換後の映像および変換後の非言語情報の特徴量と、所望の映像および非言語情報の特徴量との間の平均二乗誤差で算出する。

次に、映像変換部２５は、ステップＳ５１の処理によって作成したデータセットを、変換モデル２４０の学習用に読み込む（ステップＳ５３）。これにより、モデル学習部２６は、映像データの変換に用いる変換モデル２４０の学習を行う。なお、映像データの変換は、人物の違いによっては変わらないため、変換モデル２４０の学習は、一度だけ行えばよく、学習済の変換モデル２４０が存在する場合は、ステップＳ５２,Ｓ５３の処理は行われなくてもよい。

次に、映像変換部２５は、ステップＳ５３で読み込んだ変換モデルに基づいて、ステップＳ１で取得した映像データの変換を実行する（ステップＳ５４）。映像変換部２５は、映像データの変換をフレームごとに行う。映像変換部２５は、映像と意図ラベル情報とが合成された合成情報となる変換データを、合成情報格納部３３へ格納する。

このように、映像変換部２５は、意図推定部２２で推定された意図の推定値が、非言語表現モデル２１０に基づいて受信者に正しく伝わる確率が高まるように、送信者の映像データの変換を行う。

以上により、第１の実施形態に係る非言語情報変換システム１Ａは、送信者の映像データおよび送信者用の非言語表現モデルに基づいて送信者の意図を推定し、推定した送信者の意図および非言語表現の上手い人物の非言語表現モデルに基づく変換ルールに基づいて、送信者の映像データの変換を行う。これにより、第１の実施形態に係る非言語情報変換システム１Ａは、送信者と受信者の対話において、送信者が伝えたい意図を受信者にわかりやすく伝えるための非言語情報の変換精度を向上させることができる。

●第２の実施形態
続いて、図１２および図１３を用いて、第２の実施形態に係る非言語情報変換システムについて説明する。なお、上述の実施形態と同一構成および同一機能は、同一の符号を付して、その説明を省略する。図１２は、第２の実施形態に係る非言語情報変換システムの一例を示す概略図である。第２の実施形態に係る非言語情報変換システム１Ｂは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルと変換に用いる具体的な修正値を用いて非言語情報の変換を行う点が、第１の実施形態に係る非言語情報変換システム１Ａと異なる。第２の実施形態に係る非言語情報変換システム１Ｂは、ステップＳ４における特徴量の変換を行う場合に、変換先として具体的な人物像を選択するのではなく、修正する項目および修正目安値を直接指定することによって変換ルールを設定する。

ここで、第２の実施形態において、第１の実施形態と異なるステップＳ４の特徴量変換処理について説明する。第２の実施形態において、ステップＳ４１における変換ルール設定部２４によって設定される変換ルールは、変換項目とその値、および変換割合を含む。このうち、変換項目は、変更する非言語情報特徴量の種類を示し、変換項目の値として修正目安値の値を示す。変更項目と修正目安値は、例えば、姿勢情報(0.0,0.0)、視線情報(0.0,0.0)である。

また、変換割合は、変換先にどの程度似せて変換するかを示す割合であり、映像変換を滑らかに行うために、小さめの値が定義される。変換割合は、例えば、「０．５」である。

また、第２の実施形態において、ステップＳ４１で設定された変換ルールが適用された例を、図１３に示す。図１３（Ａ）は、入力される非言語情報の特徴量のパラメータの一例を示す図であり、図１３（Ｂ）は、変換後の非言語情報の特徴量のパラメータの一例を示す図である。特徴量変換部２３は、例えば、図１３（Ａ）に示されているパラメータを入力として、ステップＳ４１で設定された変換ルールに基づく特徴量の変換を行う。

図１３（Ｂ）に示されているように、(4)～(7)のパラメータは、図１３（Ａ）のパラメータから変換ルールに示されている修正目安値に近づいているが、(1)～(3)のパラメータは、変換前のままである。すなわち、特徴量変換部２３は、例えば、意図に依らず、常に姿勢と視線を修正目安値に近づける変換を行うことができる。

このように、第２の実施形態に係る非言語情報変換システム１Ｂは、推定した送信者の意図および変換項目の修正目安値を用いた変換ルールに基づいて、送信者の映像データの変換を行う。これにより、第２の実施形態に係る非言語情報変換システム１Ｂは、変換したい項目の具体的な数値を指定して非言語情報の変換を行うことで、非言語情報の意図に縛られずに非言語情報の変換を行うことができる。

●第３の実施形態
続いて、図１４を用いて、第３の実施形態に係る非言語情報変換システムについて説明する。なお、上述の実施形態と同一構成および同一機能は、同一の符号を付して、その説明を省略する。図１４は、第３の実施形態に係る非言語情報変換システムの一例を示す概略図である。第３の実施形態に係る非言語情報変換システム１Ｃは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルと一般的人物の非言語表現モデルを用いて非言語情報の変換を行う点が、第１の実施形態に係る非言語情報変換システム１Ａと異なる。第３の実施形態に係る非言語情報変換システム１Ｃは、ステップＳ４における特徴量の変換を行う場合に、変換先として一般的人物を指定することによって変換ルールを設定する。一般的人物とは、平均的な非言語表現モデルに対応する意図－特徴量データベースを有する人物のことである。

ここで、第３の実施形態において、第１の実施形態と異なるステップＳ４の特徴量変換処理について説明する。第３の実施形態において、ステップＳ４１における変換ルール設定部２４によって設定される変換ルールは、変換項目、変換割合、変換先および変換先の非言語表現モデル２１０に対応する意図－特徴量データベース（図８参照）の項目を含む。このうち、変換項目は、変換する非言語情報の特徴量の種類を示す。非言語情報の特徴量の種類は、例えば、姿勢情報、視線情報、感情ごとの表情の強度および頭部回転角度を含む。

また、変換割合は、変換先にどの程度似せて変換するかを示す割合であり、「０～１」の値で定義される。例えば、変換先の人物に似せる場合は「１」、変換前の状態を維持する場合は「０」を選択する。ここでは、変換割合は、例えば、一般的人物に似せるため、「１」が定義される。

さらに、変換先は、変換先となる人物を示す。ここでは、変換先は、一般的人物が設定される。そして、変換ルール設定部２４は、非言語表現モデル２１０に対応する意図－特徴量データベースとして、一般的人物の意図と非言語情報の特徴量の関連性を定義する。定義の方法は、図７に示されている処理と同様に、一般的人物の非言語表現モデル２１０を構築・学習することによって行われる。定義の方法は、例えば、ステップＳ３１,Ｓ３２におけるデータセットの作成と同様に、任意の人物の映像を入力し、入力した映像の各フレームに対応する意図を、本人にアノテートさせることで行われる。非言語情報処理部１２は、この定義の方法を複数回実施、各特徴量の平均を取ったものを、一般的人物の非言語表現モデル２１０に対応する意図－特徴量データベースとして作成する。特徴量変換部２３は、このような変換ルール設定部２４で設定された変換ルールを適用して特徴量の変換を行う。以降の処理は、第１の実施形態におけるステップＳ４２～Ｓ４４の処理と同様である。

このように、第３の実施形態に係る非言語情報変換システム１Ｃは、推定した送信者の意図および一般的人物の非言語表現モデルに基づく変換ルールに基づいて送信者の映像データの変換を行う場合においても、送信者が伝えたい意図を受信者にわかりやすく伝えることができる。

●第４の実施形態
続いて、図１５および図１６を用いて、第４の実施形態に係る非言語情報変換システムについて説明する。なお、上述の実施形態と同一構成および同一機能は、同一の符号を付して、その説明を省略する。図１５は、第４の実施形態に係る非言語情報変換システムの一例を示す概略図である。第４の実施形態に係る非言語情報変換システム１Ｄは、送信者と受信者の対話コミュニケーションにおいて、送信者の非言語表現モデルと受信者の非言語認識モデルを用いて非言語情報の変換を行う点が、第１の実施形態に係る非言語情報変換システム１Ａと異なる。第４の実施形態に係る非言語情報変換システム１Ｄは、ステップＳ４における特徴量の変換を行う場合に、受信者の非言語認識モデルを用いることで、受信者に認識されやすいように、送信者の非言語情報の特徴量の変換を行う。

ここで、第４の実施形態において、第１の実施形態と異なるステップＳ４の特徴量変換処理について詳細に説明する。図１６は、第４の実施形態における特徴量の変換処理の一例を示すフローチャートである。

まず、特徴量変換部２３は、送信者および受信者とは無関係な人物が撮影された映像である一般人物映像を入力する（ステップＳ１０１）。一般人物映像は、送信者および受信者とは異なる第三者の人物（一般人物）が撮影された映像である。また、一般人物映像は、一般人物が日常のコミュニケーション時に行う動作を撮影したものを主とする。次に、特徴量変換部２３は、ステップＳ１０１で入力された一般人物映像を用いたアノテート処理を実行する（ステップＳ１０２）。特徴量変換部２３は、例えば、アノテータのキーボード１１１等の入力操作によって、意図ラベル情報として一般人物映像に対応する意図を定義する。この意図ラベル情報は、上述の（式１）に示されている例と同様である。

また、ステップＳ１０２におけるアノテートは、受信者（アノテータ＝受信者）が行うものとし、（式１）に示されているような意図の種類と強度を定義する。アノテータは、例えば、ステップＳ１０１で入力された映像データを再生し、映像の各フレームにおける意図の強度の数値を入力する。また、アノテートは、例えば、専用のアプリケーションを使用して、ポインティングデバイス１１２等の入力手段を用いたドラッグ操作によって各フレームにおける意図の強度の数値を指定させることで、アノテート処理に要する負担を軽減することができる。また、アノテートは、ポインティングデバイス１１２等の入力手段を用いたドラッグ操作等によって意図の強度に限られず、意図の種類または確信度等の多種類・多次元の情報を指定する構成であってもよい。これにより、特徴量変換部２３は、特徴量抽出処理に用いるデータセットを作成する。特徴量変換部２３は、作成したデータセットをデータ格納部３１に格納する。

次に、特徴量変換部２３は、特徴量の変換に用いる受信者用の非言語認識モデル２２０を構築する（ステップＳ１０３）。ここで、非言語情報の特徴量から意図の認識は、人物に依存するため、特徴量変換部２３は、受信者用の非言語認識モデル２２０を構築する。非言語認識モデル２２０の構造は、人物に依らずに同一であり、入力層、ＬＳＴＭ層、推定層の階層によって構成される。特徴量変換部２３は、前処理として、ステップＳ２６で抽出された非言語情報の特徴量を、非言語認識モデル２２０へ入力する。特徴量変換部２３は、非言語認識モデル２２０のＬＳＴＭ層により、入力映像における複数のフレーム画像の特徴量を入力として、各フレームにおける意図およびフレーム番号を出力する。フレーム番号は、意図を示す複数フレームのうち、入力フレームが何番目に該当するかを表す。

ここで、非言語認識モデル２２０は、非言語認識と表現との関連性を示す学習モデルであり、例えば、データベースのような構造を有している。ここでは、便宜上、意図－特徴量データベースと称し、非言語認識モデル２２０に対応する意図－特徴量データベースの構造は、図８に示されている非言語表現モデル２１０の意図－特徴量データベースの構造と同様である。

次に、特徴量変換部２３は、ステップＳ１０１,Ｓ１０２の処理によって作成したデータセットを、非言語認識モデル２２０の学習用に読み込む（ステップＳ１０４）。これにより、モデル学習部２６は、特徴量の変換に用いる非言語認識モデル２２０の学習を行う。非言語情報の特徴量から意図の認識は、人物に依存するため、非言語認識モデル２２０の学習は、人物ごとに行う。次に、特徴量変換部２３は、非言語情報の特徴量から意図の認識が人物依存であるため、ステップＳ１０３,Ｓ１０４で学習した受信者用の非言語認識モデル２２０を読み込む（ステップＳ１０５）。

次に、変換ルール設定部２４は、非言語情報の変換における変換ルールを設定する（ステップＳ１０６）。変換ルール設定部２４によって設定される変換ルールは、変換項目、変換割合および変換先の非言語認識モデル２２０に対応する意図－特徴量データベース（図８参照）の項目を含む。

このうち、変換項目および変換割合は、変換する非言語情報の特徴量の種類を示す。非言語情報の特徴量の種類は、例えば、姿勢情報、視線情報、感情ごとの表情の強度および頭部回転角度を含む。また、変換割合は、変換先にどの程度似せて変換するかを示す割合であり、「０～１」の値で定義される。例えば、受信者に似せる場合は、１、変換前の状態を維持する場合は、０を選択する。さらに、ステップＳ１０１～ステップＳ１０５の処理によって構築された非言語認識モデル２２０に対応する意図－特徴量データベースとして、受信者が認識しやすい意図と非言語情報の特徴量の関連性を定義する。

そして、特徴量変換部２３は、ステップＳ１０７～Ｓ１０９の処理によって、ステップＳ１０６で設定された変換ルールを適用して特徴量の変換を行う。なお、ステップＳ１０７～Ｓ１０９の処理は、それぞれ図９におけるステップＳ４２～Ｓ４４の処理と同様であるため、説明を省略する。

このように、第４の実施形態に係る非言語情報変換システム１Ｄは、推定した送信者の意図および受信者の非言語認識モデルに基づく変換ルールに基づいて、送信者の映像データの変換を行う。これにより、第４の実施形態に係る非言語情報変換システム１Ｄは、送信者が伝えたい意図と受信者の非言語表現の認識の双方を用いることで、送信者が伝えたい意図を受信者にわかりやすく伝えるため非言語情報の変換精度を向上させることができる。

●実施形態の効果
以上説明したように、非言語情報変換システム１（１Ａ,１Ｂ,１Ｃ,１Ｄ）は、人物ごとに異なる非言語表現モデルおよび非言語認識モデルを用いて送信者の映像データに示されている非言語情報の変換を行うことで、非言語情報の表現や認識に個性があることを考慮した非言語情報の変換を行うことができる。そして、非言語情報変換システム１（１Ａ,１Ｂ,１Ｃ,１Ｄ）は、対話コミュニケーションにおいて、人物ごとの個性を考慮した非言語情報の変換を行うことで、送信者が伝えたい意図を受信者にわかりやすく伝えることができる。

●補足●
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本実施形態における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたプロセッサ、並びに上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）、SOC(System on a chip)、GPU(Graphics Processing Unit)および従来の回路モジュール等のデバイスを含むものとする。

これまで本発明の一実施形態に係る情報処理装置、非言語情報変換システム、情報処理方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

１（１Ａ,１Ｂ,１Ｃ,１Ｄ）非言語情報変換システム
１０情報処理装置
１１データ取得部（取得手段の一例）
１２非言語情報処理部
１３データ出力部（出力手段の一例）
２１特徴量抽出部（特徴量抽出手段の一例）
２２意図推定部（意図推定手段の一例）
２３特徴量変換部（非言語情報変換手段の一例）
２４変換ルール設定部
２５映像変換部（非言語情報変換手段の一例）
７０送信装置
９０受信装置
２１０非言語表現モデル
２２０非言語認識モデル
２３０特徴量抽出モデル
２４０変換モデル

Claims

非言語情報の変換を行う情報処理装置であって、
第１のユーザの非言語情報である第１の非言語情報の特徴量、および前記第１の非言語情報と意図との関係を示す非言語表現モデルに基づいて、前記第１の非言語情報に示される意図を推定する意図推定手段と、
推定された前記意図および設定された前記非言語情報の変換ルールに基づいて、前記第１の非言語情報を、第２のユーザへ出力する第２の非言語情報へ変換する非言語情報変換手段と、
を備える情報処理装置。
請求項１に記載の情報処理装置であって、
前記第１のユーザが撮影された映像データを取得する取得手段と、
取得された前記映像データが変換された変換データを出力する出力手段と、を備え、
前記意図推定手段は、前記映像データに示されている前記第１の非言語情報に基づいて、前記意図を推定し、
前記非言語情報変換手段は、前記第１の非言語情報を示す前記映像データを、前記第２の非言語情報を示す前記変換データに変換し、
前記出力手段は、前記変換データに係る映像を、前記第２のユーザが使用する受信装置へ出力する情報処理装置。
前記非言語表現モデルは、前記第１のユーザの非言語表現における個性を学習するモデルであり、
前記意図推定手段は、前記取得手段によって取得された映像データを、前記非言語表現モデルに入力して得られる前記意図の推定値を算出する請求項２に記載の情報処理装置。
前記変換ルールは、第２のユーザの非言語認識と表現との関係を示す非言語認識モデルに基づいて設定される請求項３に記載の情報処理装置。
前記非言語認識モデルは、第２のユーザの非言語認識における個性を学習するモデルであり、
前記非言語情報変換手段は、算出された前記意図の推定値が、前記非言語認識モデルに基づき第２のユーザに正しく伝わる確率が高まるように、取得された前記映像データの変換を行う請求項４に記載の情報処理装置。
請求項４または５に記載の情報処理装置であって、
前記非言語情報の特徴量を抽出する特徴量抽出手段を備え、
前記非言語表現モデルおよび前記非言語認識モデルは、抽出された前記特徴量のパラメータに基づいて、所望の非言語表現の認識および非言語認識の変換を行うために調整される情報処理装置。
請求項６に記載の情報処理装置であって、
前記非言語表現モデルおよび前記非言語認識モデルは、抽出された前記特徴量のパラメータに基づく前記第１のユーザおよび前記第２のユーザの関係性に応じて調整される情報処理装置。
前記変換ルールは、前記第１のユーザより好印象を与える振る舞いを実践する第３のユーザの非言語表現モデルに基づいて設定される請求項１乃至３のいずれか一項に記載の情報処理装置。
前記変換ルールは、前記第１のユーザおよび前記第２のユーザとは無関係の一般人物の非言語表現モデルに基づいて設定される請求項１乃至３のいずれか一項に記載の情報処理装置。
前記非言語情報は、視線もしくは表情、手、腕もしくは足の形状、並びに姿勢のうち少なくとも一つの特徴量を含む請求項１乃至９のいずれか一項に記載の情報処理装置。
前記意図は、第１のユーザが第２のユーザに伝達したい感情または意思を示す請求項１乃至１０のいずれか一項に記載の情報処理装置。
前記意図は、前記感情の種類もしくは強度、または前記第１のユーザの視線もしくは姿勢等の特徴量を含む請求項１１に記載の情報処理装置。
非言語情報の変換を行う非言語情報変換システムであって、
第１のユーザの非言語情報である第１の非言語情報の特徴量、および前記第１の非言語情報と意図との関係を示す非言語表現モデルに基づいて、前記第１の非言語情報に示される意図を推定する意図推定手段と、
推定された前記意図および設定された前記非言語情報の変換ルールに基づいて、前記第１の非言語情報を、第２のユーザへ出力する第２の非言語情報へ変換する非言語情報変換手段と、
を備える非言語情報変換システム。
非言語情報の変換を行う情報処理装置が実行する情報処理方法であって、
第１のユーザの非言語情報である第１の非言語情報の特徴量、および前記第１の非言語情報と意図との関係を示す非言語表現モデルに基づいて、前記第１の非言語情報に示される意図を推定する意図推定ステップと、
推定された前記意図および設定された前記非言語情報の変換ルールに基づいて、前記第１の非言語情報を、第２のユーザへ出力する第２の非言語情報へ変換する非言語情報変換ステップと、
を実行する情報処理方法。
コンピュータに、請求項１４に記載の情報処理方法を実行させるプログラム。