JP2021124642A

JP2021124642A - 情報処理装置、車両、プログラム、及び情報処理方法

Info

Publication number: JP2021124642A
Application number: JP2020019021A
Authority: JP
Inventors: 遠超李; Yuanchao Li
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2021-08-30
Anticipated expiration: 2040-02-06
Also published as: JP7413055B2; US20210249034A1; CN113221933B; CN113221933A; US11710499B2

Abstract

【課題】乗員の感情をより適切に推定する。
【解決手段】情報処理装置は、ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する第１特徴量情報取得部と、ユーザの顔画像から抽出された画像特徴量ベクトルを取得する第２特徴量情報取得部と、を備える。さらに、音響特徴量ベクトルから生成された第１ベクトルＶ１及び画像特徴量ベクトルから生成された第２ベクトルＶ２を入力とする第１アテンションレイヤ２４１と、第１アテンションレイヤからの第１出力ベクトルとＶ４言語特徴量ベクトルから生成された第３ベクトルＶ３とを入力とする第２アテンションレイヤ２４２と、を有する学習済みモデルを有し、第２アテンションレイヤからの第２出力ベクトルＶ５に基づいて、ユーザの感情を推定する感情推定部を備える。
【選択図】図２

Description

本発明は、情報処理装置、車両、プログラム、及び情報処理方法に関する。

非特許文献１には、画像特徴量、動き特徴量及び音声特徴量を用いたアテンション機構が記載されている。非特許文献１には、画像の特徴量、動きの特徴量及び音声の特徴量を入力とするアテンション機構が記載されている。非特許文献２には、音声の特徴量及びテキストの特徴量を入力とするアテンション機構が記載されている。
［先行技術文献］
［特許文献］
［非特許文献１］ Chiori Hori, Takaaki Hori, Teng-Yok Lee, Ziming Zhang, Bret Harsham, John R Hershey, Tim K Marks, and Kazuhiko Sumi, "Attention-based multimodal fusion for video description", Proceedings of the IEEE international conference on computer vision, 2017年10月, p. 4193-4202
［非特許文献２］ Haiyang Xu, Hui Zhang, Kun Han, Yun Wang, Yiping Peng, and Xiangang Li, "Learning Alignment for Multimodal Emotion Recognition from Speech"、INTERSPEECH 2019、International Speech Communication Association, 2019年9月

本発明の第１の態様においては、情報処理装置が提供される。情報処理装置は、ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する第１特徴量情報取得部を備える。情報処理装置は、ユーザの顔画像から抽出された画像特徴量ベクトルを取得する第２特徴量情報取得部を備える。情報処理装置は、音響特徴量ベクトルと画像特徴量ベクトルに基づいて第１出力ベクトルを生成する第１アテンションレイヤと、第１出力ベクトルと言語特徴量ベクトルとに基づいて第２出力ベクトルを生成する第２アテンションレイヤと、を有する学習済みモデルを有し、第２出力ベクトルに基づいて、ユーザの感情を推定する感情推定部を備える。

音響特徴量ベクトルは、音の高さの特徴量ベクトル、発話速度の特徴量ベクトル、及び音声強度の特徴量ベクトルの少なくとも一つを含んでよい。

学習済みモデルは、人物の発話音声から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、人物の顔画像から抽出された画像特徴量ベクトルと、人物の感情を示す情報とを教師データとする機械学習によって得られたニューラルネットワークモデルであってよい。

学習済みモデルは、第１の再帰型ニューラルネットワークレイヤを有し、音響特徴量ベクトルを入力とし第１ベクトルを出力する第１ニューラルネットワークレイヤを有してよい。学習済みモデルは、第２の再帰型ニューラルネットワークレイヤを有し、画像特徴量ベクトルを入力とし第２ベクトルを出力する第２ニューラルネットワークレイヤを有してよい。学習済みモデルは、第３の再帰型ニューラルネットワークレイヤを有し、言語特徴量ベクトルを入力とし第３ベクトルを出力する第３ニューラルネットワークレイヤを有してよい。第１アテンションレイヤは、第１ベクトルと第２ベクトルとに基づいて第１出力ベクトルを出力してよい。第２アテンションレイヤは、第１出力ベクトルと第３ベクトルとに基づいて第２出力ベクトルを出力してよい。

第１の再帰型ニューラルネットワークレイヤ、第２の再帰型ニューラルネットワークレイヤ、及び第３の再帰型ニューラルネットワークレイヤは、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）レイヤ又はＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔ−ｔｅｒｍｍｅｍｏｒｙ）レイヤであってよい。

情報処理装置は、ユーザの発話音声を取得する音声取得部を備えてよい。情報処理装置は、ユーザの画像を取得する画像取得部を備えてよい。情報処理装置は、感情推定部によって推定されたユーザの感情に基づいて、機器を制御する機器制御部を備えてよい。

機器は、ユーザに音声を出力する音声出力装置であってよい。機器制御部は、感情推定部によって推定されたユーザの感情に基づいて、音声出力装置から出力される音声データを生成してよい。

本発明の第２の態様においては、車両が提供される。車両は、上記情報処理装置を備える。

本発明の第３の態様においては、プログラムが提供される。プログラムは、コンピュータを上記の情報処理装置として機能させる。

本発明の第３の態様においては、情報処理方法が提供される。情報処理方法は、ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する段階を備える。情報処理方法は、ユーザの顔画像から抽出された画像特徴量ベクトルを取得する段階を備える。情報処理方法は、音響特徴量ベクトルと画像特徴量ベクトルとに基づいて第１出力ベクトルを生成する第１アテンションレイヤと、第１出力ベクトルと言語特徴量ベクトルとに基づいて第２出力ベクトルを生成する第２アテンションレイヤと、を有する学習済みモデルを用い、第２出力ベクトルに基づいて、ユーザの感情を推定する段階を備える。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

車両１０が備える構成を概略的に示す。情報処理装置１４、センサ１６、及び機器１２を備えるシステムの構成を示す。学習済みモデル２３０の構成を概略的に示す。情報処理装置１４が実行する情報処理方法に係るフローチャートを示す。コンピュータ２０００の例を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、車両１０が備える構成を概略的に示す。車両１０は、例えば自動車等の輸送機器である。乗員８０は、車両１０の運転者であってよい。乗員８０は、車両１０の運転者以外の人物であってよい。乗員８０は「ユーザ」の一例である。

車両１０は、情報処理装置１４、センサ１６及び機器１２を備える。機器１２は、情報処理装置１４により制御される機器である。情報処理装置１４は、車両１０の乗員８０の感情を推定する。情報処理装置１４は、推定した乗員８０の感情に基づいて機器１２を制御する。例えば、機器１２は、車両１０の乗員８０と会話を行う機器である。情報処理装置１４は、乗員８０の感情に基づいて、機器１２が乗員８０と会話を行うときの会話音声の韻律や単語を制御する。

センサ１６は、乗員８０の情報を取得する。例えば、センサ１６は、乗員８０の音声を取得するマイクと、乗員８０の画像情報を取得するカメラを備える。情報処理装置１４は、センサ１６が取得した乗員８０の音声情報や画像情報に基づいて、乗員８０の感情を推定する。例えば、情報処理装置１４は、センサ１６が取得した乗員８０の音声情報から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、乗員８０の画像情報のうち顔領域の画像から抽出された画像特徴量ベクトルに基づいて、機械学習によって生成された学習済みのニューラルネットワークを用いて、乗員８０の感情を推定する。

例えば、情報処理装置１４は、乗員８０が車両１０内で「おはよう。」が発話した場合に、乗員８０が「おはよう。」と発話したときの音声情報から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、乗員８０が「おはよう。」と発話したときの画像情報から抽出した画像特徴量ベクトルとを取得する。情報処理装置１４は、音響特徴量ベクトル、言語特徴量ベクトル、及び画像特徴量ベクトルに基づいて、乗員８０が「喜び」の感情が高いという推定結果が得られると、「おはようございます。今日はいいドライブ日和ですね！」という文章の出力テキストを生成するとともに、その出力テキストを話す明るい韻律の出力音声データを生成して、機器１２に再生させる。

図２は、情報処理装置１４、センサ１６、及び機器１２を備えるシステムの構成を示す。センサ１６は、マイク２９２及びカメラ２９４を備える。マイク２９２は、乗員８０の発話音声を取得する音声取得部の一例である。カメラ２９４は、乗員８０の画像を取得する画像取得部の一例である。マイク２９２は、乗員８０が発する音声に基づいて音声情報を生成する。カメラ２９４は、車両１０内の乗員８０を撮像して乗員８０の画像情報を生成する。乗員８０は、車両１０に乗車している人物である。乗員８０は、車両１０の運転者であってよく、車両１０の運転者以外の人物であってよい。

情報処理装置１４は、処理部２００と、記憶部２８０とを備える。処理部２００は、例えば、プロセッサを含む演算処理装置により実現される。記憶部２８０は、不揮発性の記憶媒体を備えて実現される。記憶部２８０は、機械学習によって生成された学習済みのニューラルネットワークのデータを記憶する。処理部２００は、記憶部２８０に格納された情報を用いて処理を行う。

処理部２００は、第１特徴量情報取得部２１０、第２特徴量情報取得部２２０、感情推定部２４０、及び制御部２７０を備える。

第１特徴量情報取得部２１０は、乗員８０の発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する。例えば、第１特徴量情報取得部２１０は、マイク２９２によって生成された音声情報から、音響特徴量ベクトル及び言語特徴量ベクトルを抽出する。音響特徴量ベクトルは、音の高さの特徴量ベクトル、発話速度の特徴量ベクトル、及び音声強度の特徴量ベクトルの少なくとも一つを含んでよい。

具体的には、第１特徴量情報取得部２１０は、音響特徴量取得部２０１と、言語特徴量取得部２０３とを備える。言語特徴量取得部２０３は、マイク２９２によって生成された音声情報を、音声認識によってテキストデータに変換する。言語特徴量取得部２０３は、音声情報から変換したテキストデータに基づいて、特徴量ベクトルを生成する。例えば、言語特徴量取得部２０３は、単語をベクトルに写像するワードエンベディング（ｗｏｒｄｅｍｂｅｄｄｉｎｇ）によって、テキストデータに含まれる単語をベクトルに変換してよい。言語特徴量取得部２０３は、当該ベクトルを、言語特徴量ベクトルとして生成してよい。

なお、第１特徴量情報取得部２１０は、マイク２９２によって生成された音声情報を外部の音声処理サーバに送信して、外部の音声処理サーバに音声認識を実行させてよい。言語特徴量取得部２０３は、外部の音声処理サーバから受信したテキストデータに基づいて、言語特徴量ベクトルを生成してよい。外部の音声処理サーバが言語特徴量ベクトルを抽出する機能を有する場合、言語特徴量取得部２０３は、外部の音声処理サーバから言語特徴量ベクトルを取得してもよい。

音響特徴量取得部２０１は、マイク２９２によって生成された音声情報から、音響特徴量を抽出して、抽出した音響特徴量をベクトル形式に変換することにより、音響特徴量ベクトルを生成する。音響特徴量は、音声信号の基本周波数、音声信号の強度、音声信号の各音の継続長等の韻律的特徴量を含んでよい。

なお、第１特徴量情報取得部２１０は、マイク２９２によって生成された音声情報を外部の音声処理サーバに送信して、外部の音声処理サーバに音響特徴量を抽出させてよい。音響特徴量取得部２０１は、外部の音声処理サーバから受信した音響特徴量に基づいて、音響特徴量ベクトルを生成してよい。

第２特徴量情報取得部２２０は、乗員８０の顔画像から抽出された画像特徴量ベクトルを取得する。第２特徴量情報取得部２２０は、画像特徴量抽出部２０２を備える。画像特徴量抽出部２０２は、カメラ２９４により取得された画像情報から画像特徴量を抽出する。例えば、画像特徴量抽出部２０２は、カメラ２９４により取得された画像情報から乗員８０の顔の領域を特定して、特定した顔の領域の画像情報から画像特徴量を抽出する。画像特徴量抽出部２０２は、抽出した画像特徴量をベクトル形式に変換することにより、画像特徴量ベクトルを生成する。画像特徴量は、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴量や、ＬＢＰ−ＴＯＰ特徴量等を含んでよい。

なお、第２特徴量情報取得部２２０は、カメラ２９４によって生成された画像情報を外部の画像処理サーバに送信して、外部の画像処理サーバに画像特徴量を抽出させてよい。言語特徴量取得部２０３は、外部の音声処理サーバから受信した画像特徴量に基づいて、画像特徴量ベクトルを生成してよい。

感情推定部２４０は、第１特徴量情報取得部２１０が取得した言語特徴量ベクトル及び音響特徴量ベクトルと、第２特徴量情報取得部２２０が取得した画像特徴量ベクトルを取得する。感情推定部２４０は、第１ＢＧＲＵレイヤ２３１、第２ＢＧＲＵレイヤ２３２、第３ＢＧＲＵレイヤ２３３、第１アテンションレイヤ２４１、第２アテンションレイヤ２４２、及び出力レイヤ２４４を有する学習済みモデル２３０を有する。学習済みモデル２３０は、人物の音声情報から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、人物の顔画像から抽出された画像特徴量ベクトルと、人物の感情を示す情報とを教師データとする機械学習によって得られたニューラルネットワークモデルであってよい。学習済みモデル２３０のデータは、記憶部２８０に記憶され、処理部２００が感情を推定する場合に感情推定部２４０に読み込まれる。

第１アテンションレイヤ２４１は、音響特徴量ベクトルと画像特徴量ベクトルとに基づいて第１出力ベクトルＶ４を生成する。具体的には、第１アテンションレイヤ２４１は、音響特徴量ベクトルから生成された第１ベクトルＶ１と顔特徴量ベクトルから生成された第２ベクトルＶ２とに基づいて第１出力ベクトルＶ４を生成する。より具体的には、第１アテンションレイヤ２４１は、音響特徴量ベクトルから生成された第１ベクトルＶ１と第２ベクトルＶ２とを入力とし、第１出力ベクトルＶ４を出力とするアテンションレイヤである。

第２アテンションレイヤ２４２は、第１出力ベクトルＶ４と言語特徴量ベクトルとに基づいて第２出力ベクトルＶ５を生成する。具体的には、第２アテンションレイヤ２４２は、第１出力ベクトルＶ４と言語特徴量ベクトルから生成された第３ベクトルＶ３とに基づいて第２出力ベクトルＶ５を生成する。より具体的には、第２アテンションレイヤ２４２は、第１出力ベクトルＶ４と第３ベクトルＶ３とを入力とし、第２出力ベクトルＶ５を出力とするアテンションレイヤである。なお、第１アテンションレイヤ２４１と第２アテンションレイヤ２４２との間に、第１出力ベクトルＶ４に対して任意の演算を行う演算ユニットを備え、第２アテンションレイヤ２４２が当該演算ユニットの出力と第３ベクトルＶ３とを入力する形態等を採用し得る。

第１ＢＧＲＵレイヤ２３１は、音響特徴量ベクトルを入力とし、第１アテンションレイヤ２４１に入力される第１ベクトルＶ１を出力する。第２ＢＧＲＵレイヤ２３２は、画像特徴量ベクトルを入力とし、第１アテンションレイヤ２４１に入力される第２ベクトルＶ２を出力する。第３ＢＧＲＵレイヤ２３３は、言語特徴量ベクトルを入力とし、第２アテンションレイヤ２４２に入力される第３ベクトルを出力する。なお、ＢＧＲＵレイヤは、双方向ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）である。ＢＧＲＵレイヤは、ＧＲＵレイヤの一種である。ＧＲＵレイヤは、再帰型ニューラルネットワークレイヤの一例である。なお、ＢＧＲＵレイヤに代えて、ＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔ−ｔｅｒｍｍｅｍｏｒｙ）レイヤを適用してよい。

なお、第１ＢＧＲＵレイヤ２３１は、第１ニューラルネットワークレイヤの一例である。第１ニューラルネットワークレイヤは、第１ＢＧＲＵレイヤ２３１が行う演算以外の任意の演算を行う演算ユニットを備えてもよい。第２ＢＧＲＵレイヤ２３２は、第２ニューラルネットワークレイヤの一例である。第２ニューラルネットワークレイヤは、第２ＢＧＲＵレイヤ２３２が行う演算以外の任意の演算を行う演算ユニットを備えてもよい。第３ＢＧＲＵレイヤ２３３は、第３ニューラルネットワークレイヤの一例である。第３ニューラルネットワークレイヤは、第３ＢＧＲＵレイヤ２３３が行う演算以外の任意の演算を行う演算ユニットを備えてもよい。

出力レイヤ２４４は、第２アテンションレイヤ２４２からの第２出力ベクトルＶ５に基づいて、感情を示す情報を生成する。出力レイヤ２４４は、予め定められた複数の種類の感情のそれぞれの確率を示す情報を出力してよい。例えば、出力レイヤ２４４は、プーリングレイヤ、全結合レイヤ、ソフトマックスレイヤ等を有し、予め定められた複数の種類の感情のそれぞれの確率を示す情報を出力してよい。このように、感情推定部２４０は、第２出力ベクトルＶ５に基づいて、乗員８０の感情を推定する。感情推定部２４０は、出力レイヤ２４４の出力を、乗員８０の感情を示す情報として制御部２７０に出力する。制御部２７０は、感情推定部２４０によって推定された乗員８０の感情に基づいて、機器１２を制御する。

機器１２は、乗員８０に対して音声を出力する音声出力装置であってよい。制御部２７０は、感情推定部２４０によって推定された乗員８０の感情に基づいて、機器１２から出力される音声データを生成してよい。例えば、制御部２７０は、乗員８０の感情に応じた韻律の音声データを生成して機器１２に出力させてよい。制御部２７０は、乗員８０の感情に基づいて機器１２に発話させるテキストデータを生成して、機器１２に出力させてよい。例えば、乗員８０が喜びの感情を持つ可能性が高い場合、制御部２７０は、高音成分が大きい音声データを生成して機器１２に出力させてよい。乗員８０が驚きの感情を持つ可能性が高い場合、制御部２７０は、落ち着きのある韻律の音声データを生成して機器１２に出力してよい。また、制御部２７０は、乗員８０の感情に基づいて決定した音楽を機器１２に出力させてもよい。機器１２は、画像を出力する画像出力装置であってよい。制御部２７０は、例えば、乗員８０の感情に応じて決定した画像を生成して機器１２に出力してよい。

なお、機器１２は、車両１０の走行を制御する機器であってよい。制御部２７０は、感情推定部２４０によって推定された乗員８０の感情に基づいて、車両１０の走行を制御する機器１２を制御してもよい。例えば、制御部２７０は、車両１０が非自動運転中に、乗員８０の不安の感情を持つ可能性が予め定められた値より高いと判断した場合に、車両１０の運転モードを手動運転から自動運転モードに切り替える旨を落ち着きのある音声で再生するとともに、車両１０の走行を制御する機器１２に、運転モードを自動運転モードに切り替えるよう指示してよい。記憶部２８０は、乗員８０の感情を示す情報に対応づけて、機器１２に対する制御内容を示す情報を記憶してよい。制御部２７０は、乗員８０の感情に基づいて記憶部２８０に記憶されている制御内容に従って、機器１２を制御してよい。

人が感情を表現するとき、その感情は、人の声に表れるより前に、顔の表情等に表れる場合が多い。例えば、顔に感情が表れるタイミングは、音声に感情が表れるタイミングより、百ミリ秒程度先行する場合が多い。また、人物が会話するときには、例えば肯定的な感情を持つ声色で否定的な言葉を発話する場合もあれば、否定的な感情の声色で肯定的な言葉を発話する場合もある。このように、人物は、抱いている感情とは反対の内容の言葉を発する場合がある。

感情推定部２４０においては、まず、第１アテンションレイヤ２４１が、画像特徴量ベクトルに基づく第１ベクトルと音響特徴量ベクトルに基づく第２ベクトルとのセットを処理する。これにより、関連性が強い画像特徴量ベクトルと音響特徴量ベクトルとの組み合わせに基づいて、出力ベクトルを生成することができる。また、画像特徴量ベクトルに基づく第１ベクトルを音響特徴量ベクトルに基づく第２ベクトルとの関連性の強さに応じてアライメントすることができる。これにより、感情が顔に表れるタイミングと感情が音声に表れるタイミングとのズレを考慮した出力ベクトルを生成することができる。そして、第２アテンションレイヤ２４２が、第１アテンションレイヤ２４１の出力ベクトルと言語特徴量ベクトルに基づく第３ベクトルとを処理する。これにより、人が発した言葉の内容を、第２アテンションレイヤ２４２の出力ベクトルにある程度反映することが可能になる。そのため、例えば人物が抱いている感情とは反対の内容の言葉が発せられた場合でも、人物の感情をよりロバストに推定することができる可能性が高くなる。

図３は、学習済みモデル２３０の構成を概略的に示す。第１ＢＧＲＵレイヤ２３１には、音響特徴量ベクトルの集合［ａ_１，ａ_２，・・・ａ_Ｍ］が入力される。ここで、ｉを１からＭまでの整数として、ａ_ｉは、音声データを予め定められた時間で区分けすることによって得られる複数の音声フレームのうちのｉ番目の音声フレームから抽出される音響特徴量ベクトルである。Ｍは入力対象となる音声フレームの個数である。

第２ＢＧＲＵレイヤ２３２には、画像特徴量ベクトルの集合［ｆ_１，ｆ_２，・・・ｆ_Ｐ］が入力される。ここで、ｊを１からＰまでの整数として、ｆ_ｊは、カメラ２９４により生成された動画データ情報に含まれる複数の画像フレームのうちのｊ番目の画像フレームから抽出される画像特徴量ベクトルである。Ｐは入力対象となる画像フレームの個数である。

第３ＢＧＲＵレイヤ２３３には、言語特徴量ベクトルの集合［ｌ_１，ｌ_２，・・・ｌ_Ｎ］が入力される。ここで、ｋを１からＮまでの整数として、ｌ_ｋは、発話内容のテキストに含まれる複数の単語のうちのｋ番目の単語をベクトルに変換することによって得られた言語特徴量ベクトルである。Ｎは入力対象となる単語の個数である。

第１ＢＧＲＵレイヤ２３１、第２ＢＧＲＵレイヤ２３２、及び第３ＢＧＲＵレイヤ２３３は、以下の式（１）、式（２）及び式（３）で表される演算を行う。

式（１）〜（３）において、ｘ_ｔは、時刻ｔにおいて、第１ＢＧＲＵレイヤ２３１、第２ＢＧＲＵレイヤ２３２、及び第３ＢＧＲＵレイヤ２３３にそれぞれ入力される特徴量ベクトルを表す。具体的には、第１ＢＧＲＵレイヤ２３１におけるｘ_ｔはａ_ｉであり、第２ＢＧＲＵレイヤ２３２におけるｘ_ｔはｆ_ｊであり、第３ＢＧＲＵレイヤ２３３におけるｘ_ｔはｌ_ｋである。式（１）〜（３）のｈ_ｔは、時刻ｔにおける各ＧＲＵの隠れ状態ベクトルである。

なお、式（１）〜（３）におけるｘ_ｔ及びｈ_ｔに付されたベクトルの方向は、ＢＧＲＵレイヤにおける順方向ＧＲＵの情報であるか逆方向ＧＲＵの情報であるかを表す。右方向ベクトルは、順方向ＧＲＵの入力ベクトル又は隠れ状態ベクトルであることを示し、左方向ベクトルは、逆方向ＧＲＵの入力ベクトル又は隠れ状態ベクトルであることを示す。また、式（３）の右辺は、順方向ＧＲＵの隠れ状態ベクトルと逆方向ＧＲＵの隠れ状態ベクトルとを連結することを示す。

第１アテンションレイヤ２４１は、以下の式（４）、式（５）及び式（６）で表される演算を行う。

式（４）〜（６）において、ω^Ｔ、Ｗ、Ｕ、及びｂは、機械学習によって決定されたパラメータである。ｈ_ｉ ^ａは、第１ＢＧＲＵレイヤ２３１から出力されるｉ番目の隠れ状態ベクトルを表す。ｈ_ｊ ^ｆは、第２ＢＧＲＵレイヤ２３２から出力されるｊ番目の隠れ状態ベクトルを表す。ｅ_ｉ，ｊは、ｈ_ｉ ^ａ及びｈ_ｊ ^ｆの成分を引数とするスコア関数から算出されるアラインメントスコアである。式（４）は、スコア関数として、tanh関数を適用したものである。α_ｉ，ｊは、ｉ番目の出力ベクトルに対するｈ_ｊ ^ｆへのアテンションの重み係数である。

第２アテンションレイヤ２４２は、以下の式（７）、式（８）及び式（９）で表される演算を行う。

式（７）〜（９）において、ω^'Ｔ、Ｗ^'、Ｕ^'、及びｂ^'は、機械学習によって決定されたパラメータである。ｈ_ｉは、第１アテンションレイヤ２４１のｉ番目の出力ベクトルでを表す。ｈ_ｋ ^ｌは、第３ＢＧＲＵレイヤ２３３から出力されるｋ番目の隠れ状態ベクトルを表す。ｅ^' _ｉ，ｋは、ｈ_ｉ及びｈ_ｋ ^ｌの成分を引数とするスコア関数から算出されるアラインメントスコアである。式（７）は、スコア関数として、tanh関数を適用したものである。α^' _ｉ，ｋは、ｉ番目の出力ベクトルに対するｈ_ｋ ^ｌへのアテンションの重み係数である。

出力レイヤ２４４は、第２アテンションレイヤ２４２の第５出力ベクトルｈ'_ｉに基づいて、予め定められた複数の種類の感情のそれぞれの確率を示す情報を出力する。出力レイヤ２４４は、プーリングレイヤ、全結合レイヤ、ソフトマックスレイヤ等を含み、ニューラルネットワークを含んでよい。出力レイヤ２４４は、推定対象となる予め定められた複数の感情の種類に対応する出力ユニットを持つニューラルネットワークを含んでよい。

図４は、情報処理装置１４が実行する情報処理方法に係るフローチャートを示す。Ｓ４０２において、音響特徴量取得部２０１は、マイク２９２から出力された音声情報に基づいて、音響特徴量ベクトルａ_ｉの集合を取得する。また、言語特徴量取得部２０３は、マイク２９２から出力された音声情報に基づいて、言語特徴量ベクトルｌ_ｋの集合を取得する。Ｓ４０４において、画像特徴量抽出部２０２は、カメラ２９４から出力された画像情報から、画像特徴量ベクトルｆ_ｊの集合を取得する。Ｓ４０２及びＳ４０４の処理は並行して行われてよい。

Ｓ４０６において、第１ＢＧＲＵレイヤ２３１は、音響特徴量ベクトルａ_ｉの集合から第１ベクトルｈ_ｉ ^ａの集合を算出する。Ｓ４０８において、第３ＢＧＲＵレイヤ２３３は、音響特徴量ベクトルａ_ｉの集合から第３ベクトルｈ_ｋ ^ｌの集合を算出する。Ｓ４１０において、第２ＢＧＲＵレイヤ２３２は、画像特徴量ベクトルｆ_ｊの集合から第２ベクトルｈ_ｊ ^ｆの集合を算出する。

Ｓ４１２において、第１アテンションレイヤ２４１は、第１ベクトルｈ_ｉ ^ａの集合及び第２ベクトルｈ_ｊ ^ｆの集合から、出力ベクトルｈ_ｉの集合を算出する。Ｓ４１４において、第２アテンションレイヤ２４２は、出力クトルｈ_ｉの集合及び第３ベクトルｈ_ｋ ^ｌの集合から、出力ベクトルｈ^' _ｉの集合を算出する。

Ｓ４１６において、感情推定部２４０は、出力ベクトルｈ^' _ｉの集合に基づいて乗員８０の感情を推定する。例えば、出力レイヤ２４４は、出力ベクトルｈ^' _ｉの集合を入力とし、予め定められた複数の感情の種類に対応する出力値を生成してよい。例えば、出力レイヤ２４４は、複数の種類の感情のそれぞれの確率を示す情報を出力値として生成してよい。感情推定部２４０は、確率が最も高い種類の感情を、乗員８０の感情として推定してよい。感情推定部２４０は、確率が予め定められた値より高い複数の種類の感情を、乗員８０の感情として推定してよい。Ｓ４１８において、制御部２７０は、感情推定部２４０によって推定された乗員８０の感情に基づいて、機器１２を制御する。例えば、制御部２７０は、乗員８０との会話用の音声データを生成して、音声出力装置としての機器１２に再生させる。

なお、処理部２００は、センサ１６から逐次出力される音声情報及び画像情報を用いて、Ｓ４０２からＳ４１８に示す処理を、逐次繰り返して実行する。

以上に説明したように、情報処理装置１４によれば、第１アテンションレイヤ２４１が、画像特徴量ベクトルに基づく第１ベクトルと音響特徴量ベクトルに基づく第２ベクトルとのセットを処理し、第２アテンションレイヤ２４２が、第１アテンションレイヤ２４１の出力ベクトルと言語特徴量ベクトルに基づく第３ベクトルとを処理する。これにより、乗員８０の感情をより適切に推定することができる。

なお、車両１０は、輸送機器の一例である。輸送機器は、乗用車やバス等の自動車の他に、電車、船舶、航空機等を含む。輸送機器は、移動体の一例である。

図５は、本発明の複数の実施形態が全体的又は部分的に具現化され得るコンピュータ２０００の例を示す。コンピュータ２０００にインストールされたプログラムは、コンピュータ２０００に、実施形態に係る情報処理装置１４等の装置又は当該装置の各部として機能させる、当該装置又は当該装置の各部に関連付けられるオペレーションを実行させる、及び／又は、実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ２０００に、本明細書に記載の処理手順及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、ＣＰＵ２０１２によって実行されてよい。

本実施形態によるコンピュータ２０００は、ＣＰＵ２０１２、及びＲＡＭ２０１４を含み、それらはホストコントローラ２０１０によって相互に接続されている。コンピュータ２０００はまた、ＲＯＭ２０２６、フラッシュメモリ２０２４、通信インタフェース２０２２、及び入力／出力チップ２０４０を含む。ＲＯＭ２０２６、フラッシュメモリ２０２４、通信インタフェース２０２２、及び入力／出力チップ２０４０は、入力／出力コントローラ２０２０を介してホストコントローラ２０１０に接続されている。

ＣＰＵ２０１２は、ＲＯＭ２０２６及びＲＡＭ２０１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。

通信インタフェース２０２２は、ネットワークを介して他の電子デバイスと通信する。フラッシュメモリ２０２４は、コンピュータ２０００内のＣＰＵ２０１２によって使用されるプログラム及びデータを格納する。ＲＯＭ２０２６は、アクティブ化時にコンピュータ２０００によって実行されるブートプログラム等、及び／又はコンピュータ２０００のハードウエアに依存するプログラムを格納する。入力／出力チップ２０４０はまた、キーボード、マウス及びモニタ等の様々な入力／出力ユニットをシリアルポート、パラレルポート、キーボードポート、マウスポート、モニタポート、ＵＳＢポート、ＨＤＭＩ（登録商標）ポート等の入力／出力ポートを介して、入力／出力コントローラ２０２０に接続してよい。

プログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、又はメモリカードのようなコンピュータ可読媒体又はネットワークを介して提供される。ＲＡＭ２０１４、ＲＯＭ２０２６、又はフラッシュメモリ２０２４は、コンピュータ可読媒体の例である。プログラムは、フラッシュメモリ２０２４、ＲＡＭ２０１４、又はＲＯＭ２０２６にインストールされ、ＣＰＵ２０１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ２０００に読み取られ、プログラムと上記様々なタイプのハードウエアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ２０００の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。

例えば、コンピュータ２０００及び外部デバイス間で通信が実行される場合、ＣＰＵ２０１２は、ＲＡＭ２０１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース２０２２に対し、通信処理を命令してよい。通信インタフェース２０２２は、ＣＰＵ２０１２の制御下、ＲＡＭ２０１４及びフラッシュメモリ２０２４のような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取った送信データをネットワークに送信し、ネットワークから受信された受信データを、記録媒体上に提供される受信バッファ処理領域等に書き込む。

また、ＣＰＵ２０１２は、フラッシュメモリ２０２４等のような記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がＲＡＭ２０１４に読み取られるようにし、ＲＡＭ２０１４上のデータに対し様々な種類の処理を実行してよい。ＣＰＵ２０１２は次に、処理されたデータを記録媒体にライトバックする。

様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理にかけられてよい。ＣＰＵ２０１２は、ＲＡＭ２０１４から読み取られたデータに対し、本明細書に記載され、プログラムの命令シーケンスによって指定される様々な種類のオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々な種類の処理を実行してよく、結果をＲＡＭ２０１４にライトバックする。また、ＣＰＵ２０１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ２０１２は、第１の属性の属性値が指定されている、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラム又はソフトウェアモジュールは、コンピュータ２０００上又はコンピュータ２０００近傍のコンピュータ可読媒体に格納されてよい。専用通信ネットワーク又はインターネットに接続されたサーバーシステム内に提供されるハードディスク又はＲＡＭのような記録媒体が、コンピュータ可読媒体として使用可能である。コンピュータ可読媒体に格納されたプログラムを、ネットワークを介してコンピュータ２０００に提供してよい。

コンピュータ２０００にインストールされ、コンピュータ２０００を情報処理装置１４として機能させるプログラムは、ＣＰＵ２０１２等に働きかけて、コンピュータ２０００を、情報処理装置１４の各部としてそれぞれ機能させてよい。これらのプログラムに記述された情報処理は、コンピュータ２０００に読込まれることにより、ソフトウエアと上述した各種のハードウエア資源とが協働した具体的手段である情報処理装置１４の各部として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ２０００の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の情報処理装置１４が構築される。

様々な実施形態が、ブロック図等を参照して説明された。ブロック図において各ブロックは、（１）オペレーションが実行されるプロセスの段階又は（２）オペレーションを実行する役割を持つ装置の各部を表わしてよい。特定の段階及び各部が、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び／又はコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び／又はアナログハードウエア回路を含んでよく、集積回路（ＩＣ）及び／又はディスクリート回路を含んでよい。プログラマブル回路は、論理ＡＮＤ、論理ＯＲ、論理ＸＯＲ、論理ＮＡＮＤ、論理ＮＯＲ、及び他の論理オペレーション、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）等のようなメモリ要素等を含む、再構成可能なハードウエア回路を含んでよい。

コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、処理手順又はブロック図で指定されたオペレーションを実行するための手段をもたらすべく実行され得る命令を含む製品の少なくとも一部を構成する。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ-ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（ＲＴＭ）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ又はプログラマブル回路に対し、ローカルに又はローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して提供され、説明された処理手順又はブロック図で指定されたオペレーションを実行するための手段をもたらすべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０車両
１２機器
１４情報処理装置
１６センサ
８０乗員
２００処理部
２０１音響特徴量取得部
２０２画像特徴量抽出部
２０３言語特徴量取得部
２１０第１特徴量情報取得部
２２０第２特徴量情報取得部
２３０モデル
２３１第１ＢＧＲＵレイヤ
２３２第２ＢＧＲＵレイヤ
２３３第３ＢＧＲＵレイヤ
２４０感情推定部
２４１第１アテンションレイヤ
２４２第２アテンションレイヤ
２４４出力レイヤ
２７０制御部
２８０記憶部
２９２マイク
２９４カメラ
２０００コンピュータ
２０１０ホストコントローラ
２０１２ＣＰＵ
２０１４ＲＡＭ
２０２０入力／出力コントローラ
２０２２通信インタフェース
２０２４フラッシュメモリ
２０２６ＲＯＭ
２０４０入力／出力チップ

Claims

ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する第１特徴量情報取得部と、
前記ユーザの顔画像から抽出された画像特徴量ベクトルを取得する第２特徴量情報取得部と、
前記音響特徴量ベクトルと前記画像特徴量ベクトルとに基づいて第１出力ベクトルを生成する第１アテンションレイヤと、前記第１出力ベクトルと前記言語特徴量ベクトルとに基づいて第２出力ベクトルを生成する第２アテンションレイヤと、を有する学習済みモデルを有し、前記第２出力ベクトルに基づいて、前記ユーザの感情を推定する感情推定部と
を備える情報処理装置。
前記音響特徴量ベクトルは、音の高さの特徴量ベクトル、発話速度の特徴量ベクトル、及び音声強度の特徴量ベクトルの少なくとも一つを含む
請求項１に記載の情報処理装置。
前記学習済みモデルは、人物の発話音声から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、人物の顔画像から抽出された画像特徴量ベクトルと、人物の感情を示す情報とを教師データとする機械学習によって得られたニューラルネットワークモデルである
請求項１又は２に記載の情報処理装置。
前記学習済みモデルは、
第１の再帰型ニューラルネットワークレイヤを有し、前記音響特徴量ベクトルを入力とし第１ベクトルを出力する第１ニューラルネットワークレイヤと、
第２の再帰型ニューラルネットワークレイヤを有し、前記画像特徴量ベクトルを入力とし第２ベクトルを出力する第２ニューラルネットワークレイヤと、
第３の再帰型ニューラルネットワークレイヤを有し、前記言語特徴量ベクトルを入力とし第３ベクトルを出力する第３ニューラルネットワークレイヤと
を有し、
前記第１アテンションレイヤは、前記第１ベクトルと前記第２ベクトルとに基づいて前記第１出力ベクトルを出力し、
前記第２アテンションレイヤは、前記第１出力ベクトルと前記第３ベクトルとに基づいて前記第２出力ベクトルを出力する
請求項３に記載の情報処理装置。
前記第１の再帰型ニューラルネットワークレイヤ、前記第２の再帰型ニューラルネットワークレイヤ、及び前記第３の再帰型ニューラルネットワークレイヤは、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）レイヤ又はＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔ−ｔｅｒｍｍｅｍｏｒｙ）レイヤである
請求項４に記載の情報処理装置。
前記ユーザの発話音声を取得する音声取得部と、
前記ユーザの画像を取得する画像取得部と、
前記感情推定部によって推定された前記ユーザの感情に基づいて、機器を制御する機器制御部と
をさらに備える請求項１から５のいずれか一項に記載の情報処理装置。
前記機器は、前記ユーザに音声を出力する音声出力装置であり、
前記機器制御部は、前記感情推定部によって推定された前記ユーザの感情に基づいて、前記音声出力装置から出力される音声データを生成する
請求項６に記載の情報処理装置。
請求項１から７のいずれか一項に記載の情報処理装置を備える車両。
請求項１から７いずれか一項に記載の情報処理装置として機能させるためのプログラム。
ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する段階と、
前記ユーザの顔画像から抽出された画像特徴量ベクトルを取得する段階と、
前記音響特徴量ベクトル及び前記画像特徴量ベクトルに基づいて第１出力ベクトルを生成する第１アテンションレイヤと、前記第１出力ベクトル及び前記言語特徴量ベクトルに基づいて第２出力ベクトルを生成する第２アテンションレイヤと、を有する学習済みモデルを用い、前記第２出力ベクトルに基づいて、前記ユーザの感情を推定する段階と
を備える情報処理方法。