JP2021124642A - 情報処理装置、車両、プログラム、及び情報処理方法 - Google Patents

情報処理装置、車両、プログラム、及び情報処理方法 Download PDF

Info

Publication number
JP2021124642A
JP2021124642A JP2020019021A JP2020019021A JP2021124642A JP 2021124642 A JP2021124642 A JP 2021124642A JP 2020019021 A JP2020019021 A JP 2020019021A JP 2020019021 A JP2020019021 A JP 2020019021A JP 2021124642 A JP2021124642 A JP 2021124642A
Authority
JP
Japan
Prior art keywords
vector
feature amount
output
layer
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020019021A
Other languages
English (en)
Other versions
JP7413055B2 (ja
Inventor
遠超 李
Yuanchao Li
遠超 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2020019021A priority Critical patent/JP7413055B2/ja
Priority to CN202110040937.1A priority patent/CN113221933B/zh
Priority to US17/165,947 priority patent/US11710499B2/en
Publication of JP2021124642A publication Critical patent/JP2021124642A/ja
Application granted granted Critical
Publication of JP7413055B2 publication Critical patent/JP7413055B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】乗員の感情をより適切に推定する。
【解決手段】情報処理装置は、ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する第1特徴量情報取得部と、ユーザの顔画像から抽出された画像特徴量ベクトルを取得する第2特徴量情報取得部と、を備える。さらに、音響特徴量ベクトルから生成された第1ベクトルV1及び画像特徴量ベクトルから生成された第2ベクトルV2を入力とする第1アテンションレイヤ241と、第1アテンションレイヤからの第1出力ベクトルとV4言語特徴量ベクトルから生成された第3ベクトルV3とを入力とする第2アテンションレイヤ242と、を有する学習済みモデルを有し、第2アテンションレイヤからの第2出力ベクトルV5に基づいて、ユーザの感情を推定する感情推定部を備える。
【選択図】図2

Description

本発明は、情報処理装置、車両、プログラム、及び情報処理方法に関する。
非特許文献1には、画像特徴量、動き特徴量及び音声特徴量を用いたアテンション機構が記載されている。非特許文献1には、画像の特徴量、動きの特徴量及び音声の特徴量を入力とするアテンション機構が記載されている。非特許文献2には、音声の特徴量及びテキストの特徴量を入力とするアテンション機構が記載されている。
[先行技術文献]
[特許文献]
[非特許文献1] Chiori Hori, Takaaki Hori, Teng-Yok Lee, Ziming Zhang, Bret Harsham, John R Hershey, Tim K Marks, and Kazuhiko Sumi, "Attention-based multimodal fusion for video description", Proceedings of the IEEE international conference on computer vision, 2017年10月, p. 4193-4202
[非特許文献2] Haiyang Xu, Hui Zhang, Kun Han, Yun Wang, Yiping Peng, and Xiangang Li, "Learning Alignment for Multimodal Emotion Recognition from Speech"、INTERSPEECH 2019、International Speech Communication Association, 2019年9月
本発明の第1の態様においては、情報処理装置が提供される。情報処理装置は、ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する第1特徴量情報取得部を備える。情報処理装置は、ユーザの顔画像から抽出された画像特徴量ベクトルを取得する第2特徴量情報取得部を備える。情報処理装置は、音響特徴量ベクトルと画像特徴量ベクトルに基づいて第1出力ベクトルを生成する第1アテンションレイヤと、第1出力ベクトルと言語特徴量ベクトルとに基づいて第2出力ベクトルを生成する第2アテンションレイヤと、を有する学習済みモデルを有し、第2出力ベクトルに基づいて、ユーザの感情を推定する感情推定部を備える。
音響特徴量ベクトルは、音の高さの特徴量ベクトル、発話速度の特徴量ベクトル、及び音声強度の特徴量ベクトルの少なくとも一つを含んでよい。
学習済みモデルは、人物の発話音声から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、人物の顔画像から抽出された画像特徴量ベクトルと、人物の感情を示す情報とを教師データとする機械学習によって得られたニューラルネットワークモデルであってよい。
学習済みモデルは、第1の再帰型ニューラルネットワークレイヤを有し、音響特徴量ベクトルを入力とし第1ベクトルを出力する第1ニューラルネットワークレイヤを有してよい。学習済みモデルは、第2の再帰型ニューラルネットワークレイヤを有し、画像特徴量ベクトルを入力とし第2ベクトルを出力する第2ニューラルネットワークレイヤを有してよい。学習済みモデルは、第3の再帰型ニューラルネットワークレイヤを有し、言語特徴量ベクトルを入力とし第3ベクトルを出力する第3ニューラルネットワークレイヤを有してよい。第1アテンションレイヤは、第1ベクトルと第2ベクトルとに基づいて第1出力ベクトルを出力してよい。第2アテンションレイヤは、第1出力ベクトルと第3ベクトルとに基づいて第2出力ベクトルを出力してよい。
第1の再帰型ニューラルネットワークレイヤ、第2の再帰型ニューラルネットワークレイヤ、及び第3の再帰型ニューラルネットワークレイヤは、GRU(Gated Recurrent Unit)レイヤ又はLSTM(Long short−term memory)レイヤであってよい。
情報処理装置は、ユーザの発話音声を取得する音声取得部を備えてよい。情報処理装置は、ユーザの画像を取得する画像取得部を備えてよい。情報処理装置は、感情推定部によって推定されたユーザの感情に基づいて、機器を制御する機器制御部を備えてよい。
機器は、ユーザに音声を出力する音声出力装置であってよい。機器制御部は、感情推定部によって推定されたユーザの感情に基づいて、音声出力装置から出力される音声データを生成してよい。
本発明の第2の態様においては、車両が提供される。車両は、上記情報処理装置を備える。
本発明の第3の態様においては、プログラムが提供される。プログラムは、コンピュータを上記の情報処理装置として機能させる。
本発明の第3の態様においては、情報処理方法が提供される。情報処理方法は、ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する段階を備える。情報処理方法は、ユーザの顔画像から抽出された画像特徴量ベクトルを取得する段階を備える。情報処理方法は、音響特徴量ベクトルと画像特徴量ベクトルとに基づいて第1出力ベクトルを生成する第1アテンションレイヤと、第1出力ベクトルと言語特徴量ベクトルとに基づいて第2出力ベクトルを生成する第2アテンションレイヤと、を有する学習済みモデルを用い、第2出力ベクトルに基づいて、ユーザの感情を推定する段階を備える。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
車両10が備える構成を概略的に示す。 情報処理装置14、センサ16、及び機器12を備えるシステムの構成を示す。 学習済みモデル230の構成を概略的に示す。 情報処理装置14が実行する情報処理方法に係るフローチャートを示す。 コンピュータ2000の例を示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、車両10が備える構成を概略的に示す。車両10は、例えば自動車等の輸送機器である。乗員80は、車両10の運転者であってよい。乗員80は、車両10の運転者以外の人物であってよい。乗員80は「ユーザ」の一例である。
車両10は、情報処理装置14、センサ16及び機器12を備える。機器12は、情報処理装置14により制御される機器である。情報処理装置14は、車両10の乗員80の感情を推定する。情報処理装置14は、推定した乗員80の感情に基づいて機器12を制御する。例えば、機器12は、車両10の乗員80と会話を行う機器である。情報処理装置14は、乗員80の感情に基づいて、機器12が乗員80と会話を行うときの会話音声の韻律や単語を制御する。
センサ16は、乗員80の情報を取得する。例えば、センサ16は、乗員80の音声を取得するマイクと、乗員80の画像情報を取得するカメラを備える。情報処理装置14は、センサ16が取得した乗員80の音声情報や画像情報に基づいて、乗員80の感情を推定する。例えば、情報処理装置14は、センサ16が取得した乗員80の音声情報から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、乗員80の画像情報のうち顔領域の画像から抽出された画像特徴量ベクトルに基づいて、機械学習によって生成された学習済みのニューラルネットワークを用いて、乗員80の感情を推定する。
例えば、情報処理装置14は、乗員80が車両10内で「おはよう。」が発話した場合に、乗員80が「おはよう。」と発話したときの音声情報から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、乗員80が「おはよう。」と発話したときの画像情報から抽出した画像特徴量ベクトルとを取得する。情報処理装置14は、音響特徴量ベクトル、言語特徴量ベクトル、及び画像特徴量ベクトルに基づいて、乗員80が「喜び」の感情が高いという推定結果が得られると、「おはようございます。今日はいいドライブ日和ですね!」という文章の出力テキストを生成するとともに、その出力テキストを話す明るい韻律の出力音声データを生成して、機器12に再生させる。
図2は、情報処理装置14、センサ16、及び機器12を備えるシステムの構成を示す。センサ16は、マイク292及びカメラ294を備える。マイク292は、乗員80の発話音声を取得する音声取得部の一例である。カメラ294は、乗員80の画像を取得する画像取得部の一例である。マイク292は、乗員80が発する音声に基づいて音声情報を生成する。カメラ294は、車両10内の乗員80を撮像して乗員80の画像情報を生成する。乗員80は、車両10に乗車している人物である。乗員80は、車両10の運転者であってよく、車両10の運転者以外の人物であってよい。
情報処理装置14は、処理部200と、記憶部280とを備える。処理部200は、例えば、プロセッサを含む演算処理装置により実現される。記憶部280は、不揮発性の記憶媒体を備えて実現される。記憶部280は、機械学習によって生成された学習済みのニューラルネットワークのデータを記憶する。処理部200は、記憶部280に格納された情報を用いて処理を行う。
処理部200は、第1特徴量情報取得部210、第2特徴量情報取得部220、感情推定部240、及び制御部270を備える。
第1特徴量情報取得部210は、乗員80の発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する。例えば、第1特徴量情報取得部210は、マイク292によって生成された音声情報から、音響特徴量ベクトル及び言語特徴量ベクトルを抽出する。音響特徴量ベクトルは、音の高さの特徴量ベクトル、発話速度の特徴量ベクトル、及び音声強度の特徴量ベクトルの少なくとも一つを含んでよい。
具体的には、第1特徴量情報取得部210は、音響特徴量取得部201と、言語特徴量取得部203とを備える。言語特徴量取得部203は、マイク292によって生成された音声情報を、音声認識によってテキストデータに変換する。言語特徴量取得部203は、音声情報から変換したテキストデータに基づいて、特徴量ベクトルを生成する。例えば、言語特徴量取得部203は、単語をベクトルに写像するワードエンベディング(word embedding)によって、テキストデータに含まれる単語をベクトルに変換してよい。言語特徴量取得部203は、当該ベクトルを、言語特徴量ベクトルとして生成してよい。
なお、第1特徴量情報取得部210は、マイク292によって生成された音声情報を外部の音声処理サーバに送信して、外部の音声処理サーバに音声認識を実行させてよい。言語特徴量取得部203は、外部の音声処理サーバから受信したテキストデータに基づいて、言語特徴量ベクトルを生成してよい。外部の音声処理サーバが言語特徴量ベクトルを抽出する機能を有する場合、言語特徴量取得部203は、外部の音声処理サーバから言語特徴量ベクトルを取得してもよい。
音響特徴量取得部201は、マイク292によって生成された音声情報から、音響特徴量を抽出して、抽出した音響特徴量をベクトル形式に変換することにより、音響特徴量ベクトルを生成する。音響特徴量は、音声信号の基本周波数、音声信号の強度、音声信号の各音の継続長等の韻律的特徴量を含んでよい。
なお、第1特徴量情報取得部210は、マイク292によって生成された音声情報を外部の音声処理サーバに送信して、外部の音声処理サーバに音響特徴量を抽出させてよい。音響特徴量取得部201は、外部の音声処理サーバから受信した音響特徴量に基づいて、音響特徴量ベクトルを生成してよい。
第2特徴量情報取得部220は、乗員80の顔画像から抽出された画像特徴量ベクトルを取得する。第2特徴量情報取得部220は、画像特徴量抽出部202を備える。画像特徴量抽出部202は、カメラ294により取得された画像情報から画像特徴量を抽出する。例えば、画像特徴量抽出部202は、カメラ294により取得された画像情報から乗員80の顔の領域を特定して、特定した顔の領域の画像情報から画像特徴量を抽出する。画像特徴量抽出部202は、抽出した画像特徴量をベクトル形式に変換することにより、画像特徴量ベクトルを生成する。画像特徴量は、LBP(Local Binary Pattern)特徴量や、LBP−TOP特徴量等を含んでよい。
なお、第2特徴量情報取得部220は、カメラ294によって生成された画像情報を外部の画像処理サーバに送信して、外部の画像処理サーバに画像特徴量を抽出させてよい。言語特徴量取得部203は、外部の音声処理サーバから受信した画像特徴量に基づいて、画像特徴量ベクトルを生成してよい。
感情推定部240は、第1特徴量情報取得部210が取得した言語特徴量ベクトル及び音響特徴量ベクトルと、第2特徴量情報取得部220が取得した画像特徴量ベクトルを取得する。感情推定部240は、第1BGRUレイヤ231、第2BGRUレイヤ232、第3BGRUレイヤ233、第1アテンションレイヤ241、第2アテンションレイヤ242、及び出力レイヤ244を有する学習済みモデル230を有する。学習済みモデル230は、人物の音声情報から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、人物の顔画像から抽出された画像特徴量ベクトルと、人物の感情を示す情報とを教師データとする機械学習によって得られたニューラルネットワークモデルであってよい。学習済みモデル230のデータは、記憶部280に記憶され、処理部200が感情を推定する場合に感情推定部240に読み込まれる。
第1アテンションレイヤ241は、音響特徴量ベクトルと画像特徴量ベクトルとに基づいて第1出力ベクトルV4を生成する。具体的には、第1アテンションレイヤ241は、音響特徴量ベクトルから生成された第1ベクトルV1と顔特徴量ベクトルから生成された第2ベクトルV2とに基づいて第1出力ベクトルV4を生成する。より具体的には、第1アテンションレイヤ241は、音響特徴量ベクトルから生成された第1ベクトルV1と第2ベクトルV2とを入力とし、第1出力ベクトルV4を出力とするアテンションレイヤである。
第2アテンションレイヤ242は、第1出力ベクトルV4と言語特徴量ベクトルとに基づいて第2出力ベクトルV5を生成する。具体的には、第2アテンションレイヤ242は、第1出力ベクトルV4と言語特徴量ベクトルから生成された第3ベクトルV3とに基づいて第2出力ベクトルV5を生成する。より具体的には、第2アテンションレイヤ242は、第1出力ベクトルV4と第3ベクトルV3とを入力とし、第2出力ベクトルV5を出力とするアテンションレイヤである。なお、第1アテンションレイヤ241と第2アテンションレイヤ242との間に、第1出力ベクトルV4に対して任意の演算を行う演算ユニットを備え、第2アテンションレイヤ242が当該演算ユニットの出力と第3ベクトルV3とを入力する形態等を採用し得る。
第1BGRUレイヤ231は、音響特徴量ベクトルを入力とし、第1アテンションレイヤ241に入力される第1ベクトルV1を出力する。第2BGRUレイヤ232は、画像特徴量ベクトルを入力とし、第1アテンションレイヤ241に入力される第2ベクトルV2を出力する。第3BGRUレイヤ233は、言語特徴量ベクトルを入力とし、第2アテンションレイヤ242に入力される第3ベクトルを出力する。なお、BGRUレイヤは、双方向GRU(Gated Recurrent Unit)である。BGRUレイヤは、GRUレイヤの一種である。GRUレイヤは、再帰型ニューラルネットワークレイヤの一例である。なお、BGRUレイヤに代えて、LSTM(Long short−term memory)レイヤを適用してよい。
なお、第1BGRUレイヤ231は、第1ニューラルネットワークレイヤの一例である。第1ニューラルネットワークレイヤは、第1BGRUレイヤ231が行う演算以外の任意の演算を行う演算ユニットを備えてもよい。第2BGRUレイヤ232は、第2ニューラルネットワークレイヤの一例である。第2ニューラルネットワークレイヤは、第2BGRUレイヤ232が行う演算以外の任意の演算を行う演算ユニットを備えてもよい。第3BGRUレイヤ233は、第3ニューラルネットワークレイヤの一例である。第3ニューラルネットワークレイヤは、第3BGRUレイヤ233が行う演算以外の任意の演算を行う演算ユニットを備えてもよい。
出力レイヤ244は、第2アテンションレイヤ242からの第2出力ベクトルV5に基づいて、感情を示す情報を生成する。出力レイヤ244は、予め定められた複数の種類の感情のそれぞれの確率を示す情報を出力してよい。例えば、出力レイヤ244は、プーリングレイヤ、全結合レイヤ、ソフトマックスレイヤ等を有し、予め定められた複数の種類の感情のそれぞれの確率を示す情報を出力してよい。このように、感情推定部240は、第2出力ベクトルV5に基づいて、乗員80の感情を推定する。感情推定部240は、出力レイヤ244の出力を、乗員80の感情を示す情報として制御部270に出力する。制御部270は、感情推定部240によって推定された乗員80の感情に基づいて、機器12を制御する。
機器12は、乗員80に対して音声を出力する音声出力装置であってよい。制御部270は、感情推定部240によって推定された乗員80の感情に基づいて、機器12から出力される音声データを生成してよい。例えば、制御部270は、乗員80の感情に応じた韻律の音声データを生成して機器12に出力させてよい。制御部270は、乗員80の感情に基づいて機器12に発話させるテキストデータを生成して、機器12に出力させてよい。例えば、乗員80が喜びの感情を持つ可能性が高い場合、制御部270は、高音成分が大きい音声データを生成して機器12に出力させてよい。乗員80が驚きの感情を持つ可能性が高い場合、制御部270は、落ち着きのある韻律の音声データを生成して機器12に出力してよい。また、制御部270は、乗員80の感情に基づいて決定した音楽を機器12に出力させてもよい。機器12は、画像を出力する画像出力装置であってよい。制御部270は、例えば、乗員80の感情に応じて決定した画像を生成して機器12に出力してよい。
なお、機器12は、車両10の走行を制御する機器であってよい。制御部270は、感情推定部240によって推定された乗員80の感情に基づいて、車両10の走行を制御する機器12を制御してもよい。例えば、制御部270は、車両10が非自動運転中に、乗員80の不安の感情を持つ可能性が予め定められた値より高いと判断した場合に、車両10の運転モードを手動運転から自動運転モードに切り替える旨を落ち着きのある音声で再生するとともに、車両10の走行を制御する機器12に、運転モードを自動運転モードに切り替えるよう指示してよい。記憶部280は、乗員80の感情を示す情報に対応づけて、機器12に対する制御内容を示す情報を記憶してよい。制御部270は、乗員80の感情に基づいて記憶部280に記憶されている制御内容に従って、機器12を制御してよい。
人が感情を表現するとき、その感情は、人の声に表れるより前に、顔の表情等に表れる場合が多い。例えば、顔に感情が表れるタイミングは、音声に感情が表れるタイミングより、百ミリ秒程度先行する場合が多い。また、人物が会話するときには、例えば肯定的な感情を持つ声色で否定的な言葉を発話する場合もあれば、否定的な感情の声色で肯定的な言葉を発話する場合もある。このように、人物は、抱いている感情とは反対の内容の言葉を発する場合がある。
感情推定部240においては、まず、第1アテンションレイヤ241が、画像特徴量ベクトルに基づく第1ベクトルと音響特徴量ベクトルに基づく第2ベクトルとのセットを処理する。これにより、関連性が強い画像特徴量ベクトルと音響特徴量ベクトルとの組み合わせに基づいて、出力ベクトルを生成することができる。また、画像特徴量ベクトルに基づく第1ベクトルを音響特徴量ベクトルに基づく第2ベクトルとの関連性の強さに応じてアライメントすることができる。これにより、感情が顔に表れるタイミングと感情が音声に表れるタイミングとのズレを考慮した出力ベクトルを生成することができる。そして、第2アテンションレイヤ242が、第1アテンションレイヤ241の出力ベクトルと言語特徴量ベクトルに基づく第3ベクトルとを処理する。これにより、人が発した言葉の内容を、第2アテンションレイヤ242の出力ベクトルにある程度反映することが可能になる。そのため、例えば人物が抱いている感情とは反対の内容の言葉が発せられた場合でも、人物の感情をよりロバストに推定することができる可能性が高くなる。
図3は、学習済みモデル230の構成を概略的に示す。第1BGRUレイヤ231には、音響特徴量ベクトルの集合[a,a,・・・a]が入力される。ここで、iを1からMまでの整数として、aは、音声データを予め定められた時間で区分けすることによって得られる複数の音声フレームのうちのi番目の音声フレームから抽出される音響特徴量ベクトルである。Mは入力対象となる音声フレームの個数である。
第2BGRUレイヤ232には、画像特徴量ベクトルの集合[f,f,・・・f]が入力される。ここで、jを1からPまでの整数として、fは、カメラ294により生成された動画データ情報に含まれる複数の画像フレームのうちのj番目の画像フレームから抽出される画像特徴量ベクトルである。Pは入力対象となる画像フレームの個数である。
第3BGRUレイヤ233には、言語特徴量ベクトルの集合[l,l,・・・l]が入力される。ここで、kを1からNまでの整数として、lは、発話内容のテキストに含まれる複数の単語のうちのk番目の単語をベクトルに変換することによって得られた言語特徴量ベクトルである。Nは入力対象となる単語の個数である。
第1BGRUレイヤ231、第2BGRUレイヤ232、及び第3BGRUレイヤ233は、以下の式(1)、式(2)及び式(3)で表される演算を行う。
Figure 2021124642
式(1)〜(3)において、xは、時刻tにおいて、第1BGRUレイヤ231、第2BGRUレイヤ232、及び第3BGRUレイヤ233にそれぞれ入力される特徴量ベクトルを表す。具体的には、第1BGRUレイヤ231におけるxはaであり、第2BGRUレイヤ232におけるxはfであり、第3BGRUレイヤ233におけるxはlである。式(1)〜(3)のhは、時刻tにおける各GRUの隠れ状態ベクトルである。
なお、式(1)〜(3)におけるx及びhに付されたベクトルの方向は、BGRUレイヤにおける順方向GRUの情報であるか逆方向GRUの情報であるかを表す。右方向ベクトルは、順方向GRUの入力ベクトル又は隠れ状態ベクトルであることを示し、左方向ベクトルは、逆方向GRUの入力ベクトル又は隠れ状態ベクトルであることを示す。また、式(3)の右辺は、順方向GRUの隠れ状態ベクトルと逆方向GRUの隠れ状態ベクトルとを連結することを示す。
第1アテンションレイヤ241は、以下の式(4)、式(5)及び式(6)で表される演算を行う。
Figure 2021124642
式(4)〜(6)において、ω、W、U、及びbは、機械学習によって決定されたパラメータである。h は、第1BGRUレイヤ231から出力されるi番目の隠れ状態ベクトルを表す。h は、第2BGRUレイヤ232から出力されるj番目の隠れ状態ベクトルを表す。ei,jは、h 及びh の成分を引数とするスコア関数から算出されるアラインメントスコアである。式(4)は、スコア関数として、tanh関数を適用したものである。αi,jは、i番目の出力ベクトルに対するh へのアテンションの重み係数である。
第2アテンションレイヤ242は、以下の式(7)、式(8)及び式(9)で表される演算を行う。
Figure 2021124642
式(7)〜(9)において、ω'T、W'、U'、及びb'は、機械学習によって決定されたパラメータである。hは、第1アテンションレイヤ241のi番目の出力ベクトルでを表す。h は、第3BGRUレイヤ233から出力されるk番目の隠れ状態ベクトルを表す。e' i,kは、h及びh の成分を引数とするスコア関数から算出されるアラインメントスコアである。式(7)は、スコア関数として、tanh関数を適用したものである。α' i,kは、i番目の出力ベクトルに対するh へのアテンションの重み係数である。
出力レイヤ244は、第2アテンションレイヤ242の第5出力ベクトルh'に基づいて、予め定められた複数の種類の感情のそれぞれの確率を示す情報を出力する。出力レイヤ244は、プーリングレイヤ、全結合レイヤ、ソフトマックスレイヤ等を含み、ニューラルネットワークを含んでよい。出力レイヤ244は、推定対象となる予め定められた複数の感情の種類に対応する出力ユニットを持つニューラルネットワークを含んでよい。
図4は、情報処理装置14が実行する情報処理方法に係るフローチャートを示す。S402において、音響特徴量取得部201は、マイク292から出力された音声情報に基づいて、音響特徴量ベクトルaの集合を取得する。また、言語特徴量取得部203は、マイク292から出力された音声情報に基づいて、言語特徴量ベクトルlの集合を取得する。S404において、画像特徴量抽出部202は、カメラ294から出力された画像情報から、画像特徴量ベクトルfの集合を取得する。S402及びS404の処理は並行して行われてよい。
S406において、第1BGRUレイヤ231は、音響特徴量ベクトルaの集合から第1ベクトルh の集合を算出する。S408において、第3BGRUレイヤ233は、音響特徴量ベクトルaの集合から第3ベクトルh の集合を算出する。S410において、第2BGRUレイヤ232は、画像特徴量ベクトルfの集合から第2ベクトルh の集合を算出する。
S412において、第1アテンションレイヤ241は、第1ベクトルh の集合及び第2ベクトルh の集合から、出力ベクトルhの集合を算出する。S414において、第2アテンションレイヤ242は、出力クトルhの集合及び第3ベクトルh の集合から、出力ベクトルh' の集合を算出する。
S416において、感情推定部240は、出力ベクトルh' の集合に基づいて乗員80の感情を推定する。例えば、出力レイヤ244は、出力ベクトルh' の集合を入力とし、予め定められた複数の感情の種類に対応する出力値を生成してよい。例えば、出力レイヤ244は、複数の種類の感情のそれぞれの確率を示す情報を出力値として生成してよい。感情推定部240は、確率が最も高い種類の感情を、乗員80の感情として推定してよい。感情推定部240は、確率が予め定められた値より高い複数の種類の感情を、乗員80の感情として推定してよい。S418において、制御部270は、感情推定部240によって推定された乗員80の感情に基づいて、機器12を制御する。例えば、制御部270は、乗員80との会話用の音声データを生成して、音声出力装置としての機器12に再生させる。
なお、処理部200は、センサ16から逐次出力される音声情報及び画像情報を用いて、S402からS418に示す処理を、逐次繰り返して実行する。
以上に説明したように、情報処理装置14によれば、第1アテンションレイヤ241が、画像特徴量ベクトルに基づく第1ベクトルと音響特徴量ベクトルに基づく第2ベクトルとのセットを処理し、第2アテンションレイヤ242が、第1アテンションレイヤ241の出力ベクトルと言語特徴量ベクトルに基づく第3ベクトルとを処理する。これにより、乗員80の感情をより適切に推定することができる。
なお、車両10は、輸送機器の一例である。輸送機器は、乗用車やバス等の自動車の他に、電車、船舶、航空機等を含む。輸送機器は、移動体の一例である。
図5は、本発明の複数の実施形態が全体的又は部分的に具現化され得るコンピュータ2000の例を示す。コンピュータ2000にインストールされたプログラムは、コンピュータ2000に、実施形態に係る情報処理装置14等の装置又は当該装置の各部として機能させる、当該装置又は当該装置の各部に関連付けられるオペレーションを実行させる、及び/又は、実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ2000に、本明細書に記載の処理手順及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU2012によって実行されてよい。
本実施形態によるコンピュータ2000は、CPU2012、及びRAM2014を含み、それらはホストコントローラ2010によって相互に接続されている。コンピュータ2000はまた、ROM2026、フラッシュメモリ2024、通信インタフェース2022、及び入力/出力チップ2040を含む。ROM2026、フラッシュメモリ2024、通信インタフェース2022、及び入力/出力チップ2040は、入力/出力コントローラ2020を介してホストコントローラ2010に接続されている。
CPU2012は、ROM2026及びRAM2014内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。
通信インタフェース2022は、ネットワークを介して他の電子デバイスと通信する。フラッシュメモリ2024は、コンピュータ2000内のCPU2012によって使用されるプログラム及びデータを格納する。ROM2026は、アクティブ化時にコンピュータ2000によって実行されるブートプログラム等、及び/又はコンピュータ2000のハードウエアに依存するプログラムを格納する。入力/出力チップ2040はまた、キーボード、マウス及びモニタ等の様々な入力/出力ユニットをシリアルポート、パラレルポート、キーボードポート、マウスポート、モニタポート、USBポート、HDMI(登録商標)ポート等の入力/出力ポートを介して、入力/出力コントローラ2020に接続してよい。
プログラムは、CD−ROM、DVD−ROM、又はメモリカードのようなコンピュータ可読媒体又はネットワークを介して提供される。RAM2014、ROM2026、又はフラッシュメモリ2024は、コンピュータ可読媒体の例である。プログラムは、フラッシュメモリ2024、RAM2014、又はROM2026にインストールされ、CPU2012によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ2000に読み取られ、プログラムと上記様々なタイプのハードウエアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ2000の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
例えば、コンピュータ2000及び外部デバイス間で通信が実行される場合、CPU2012は、RAM2014にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース2022に対し、通信処理を命令してよい。通信インタフェース2022は、CPU2012の制御下、RAM2014及びフラッシュメモリ2024のような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取った送信データをネットワークに送信し、ネットワークから受信された受信データを、記録媒体上に提供される受信バッファ処理領域等に書き込む。
また、CPU2012は、フラッシュメモリ2024等のような記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM2014に読み取られるようにし、RAM2014上のデータに対し様々な種類の処理を実行してよい。CPU2012は次に、処理されたデータを記録媒体にライトバックする。
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理にかけられてよい。CPU2012は、RAM2014から読み取られたデータに対し、本明細書に記載され、プログラムの命令シーケンスによって指定される様々な種類のオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々な種類の処理を実行してよく、結果をRAM2014にライトバックする。また、CPU2012は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU2012は、第1の属性の属性値が指定されている、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
上で説明したプログラム又はソフトウェアモジュールは、コンピュータ2000上又はコンピュータ2000近傍のコンピュータ可読媒体に格納されてよい。専用通信ネットワーク又はインターネットに接続されたサーバーシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読媒体として使用可能である。コンピュータ可読媒体に格納されたプログラムを、ネットワークを介してコンピュータ2000に提供してよい。
コンピュータ2000にインストールされ、コンピュータ2000を情報処理装置14として機能させるプログラムは、CPU2012等に働きかけて、コンピュータ2000を、情報処理装置14の各部としてそれぞれ機能させてよい。これらのプログラムに記述された情報処理は、コンピュータ2000に読込まれることにより、ソフトウエアと上述した各種のハードウエア資源とが協働した具体的手段である情報処理装置14の各部として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ2000の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の情報処理装置14が構築される。
様々な実施形態が、ブロック図等を参照して説明された。ブロック図において各ブロックは、(1)オペレーションが実行されるプロセスの段階又は(2)オペレーションを実行する役割を持つ装置の各部を表わしてよい。特定の段階及び各部が、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウエア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、論理AND、論理OR、論理XOR、論理NAND、論理NOR、及び他の論理オペレーション、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックアレイ(PLA)等のようなメモリ要素等を含む、再構成可能なハードウエア回路を含んでよい。
コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、処理手順又はブロック図で指定されたオペレーションを実行するための手段をもたらすべく実行され得る命令を含む製品の少なくとも一部を構成する。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(RTM)ディスク、メモリスティック、集積回路カード等が含まれてよい。
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ又はプログラマブル回路に対し、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して提供され、説明された処理手順又はブロック図で指定されたオペレーションを実行するための手段をもたらすべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10 車両
12 機器
14 情報処理装置
16 センサ
80 乗員
200 処理部
201 音響特徴量取得部
202 画像特徴量抽出部
203 言語特徴量取得部
210 第1特徴量情報取得部
220 第2特徴量情報取得部
230 モデル
231 第1BGRUレイヤ
232 第2BGRUレイヤ
233 第3BGRUレイヤ
240 感情推定部
241 第1アテンションレイヤ
242 第2アテンションレイヤ
244 出力レイヤ
270 制御部
280 記憶部
292 マイク
294 カメラ
2000 コンピュータ
2010 ホストコントローラ
2012 CPU
2014 RAM
2020 入力/出力コントローラ
2022 通信インタフェース
2024 フラッシュメモリ
2026 ROM
2040 入力/出力チップ

Claims (10)

  1. ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する第1特徴量情報取得部と、
    前記ユーザの顔画像から抽出された画像特徴量ベクトルを取得する第2特徴量情報取得部と、
    前記音響特徴量ベクトルと前記画像特徴量ベクトルとに基づいて第1出力ベクトルを生成する第1アテンションレイヤと、前記第1出力ベクトルと前記言語特徴量ベクトルとに基づいて第2出力ベクトルを生成する第2アテンションレイヤと、を有する学習済みモデルを有し、前記第2出力ベクトルに基づいて、前記ユーザの感情を推定する感情推定部と
    を備える情報処理装置。
  2. 前記音響特徴量ベクトルは、音の高さの特徴量ベクトル、発話速度の特徴量ベクトル、及び音声強度の特徴量ベクトルの少なくとも一つを含む
    請求項1に記載の情報処理装置。
  3. 前記学習済みモデルは、人物の発話音声から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、人物の顔画像から抽出された画像特徴量ベクトルと、人物の感情を示す情報とを教師データとする機械学習によって得られたニューラルネットワークモデルである
    請求項1又は2に記載の情報処理装置。
  4. 前記学習済みモデルは、
    第1の再帰型ニューラルネットワークレイヤを有し、前記音響特徴量ベクトルを入力とし第1ベクトルを出力する第1ニューラルネットワークレイヤと、
    第2の再帰型ニューラルネットワークレイヤを有し、前記画像特徴量ベクトルを入力とし第2ベクトルを出力する第2ニューラルネットワークレイヤと、
    第3の再帰型ニューラルネットワークレイヤを有し、前記言語特徴量ベクトルを入力とし第3ベクトルを出力する第3ニューラルネットワークレイヤと
    を有し、
    前記第1アテンションレイヤは、前記第1ベクトルと前記第2ベクトルとに基づいて前記第1出力ベクトルを出力し、
    前記第2アテンションレイヤは、前記第1出力ベクトルと前記第3ベクトルとに基づいて前記第2出力ベクトルを出力する
    請求項3に記載の情報処理装置。
  5. 前記第1の再帰型ニューラルネットワークレイヤ、前記第2の再帰型ニューラルネットワークレイヤ、及び前記第3の再帰型ニューラルネットワークレイヤは、GRU(Gated Recurrent Unit)レイヤ又はLSTM(Long short−term memory)レイヤである
    請求項4に記載の情報処理装置。
  6. 前記ユーザの発話音声を取得する音声取得部と、
    前記ユーザの画像を取得する画像取得部と、
    前記感情推定部によって推定された前記ユーザの感情に基づいて、機器を制御する機器制御部と
    をさらに備える請求項1から5のいずれか一項に記載の情報処理装置。
  7. 前記機器は、前記ユーザに音声を出力する音声出力装置であり、
    前記機器制御部は、前記感情推定部によって推定された前記ユーザの感情に基づいて、前記音声出力装置から出力される音声データを生成する
    請求項6に記載の情報処理装置。
  8. 請求項1から7のいずれか一項に記載の情報処理装置を備える車両。
  9. 請求項1から7いずれか一項に記載の情報処理装置として機能させるためのプログラム。
  10. ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する段階と、
    前記ユーザの顔画像から抽出された画像特徴量ベクトルを取得する段階と、
    前記音響特徴量ベクトル及び前記画像特徴量ベクトルに基づいて第1出力ベクトルを生成する第1アテンションレイヤと、前記第1出力ベクトル及び前記言語特徴量ベクトルに基づいて第2出力ベクトルを生成する第2アテンションレイヤと、を有する学習済みモデルを用い、前記第2出力ベクトルに基づいて、前記ユーザの感情を推定する段階と
    を備える情報処理方法。
JP2020019021A 2020-02-06 2020-02-06 情報処理装置、車両、プログラム、及び情報処理方法 Active JP7413055B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020019021A JP7413055B2 (ja) 2020-02-06 2020-02-06 情報処理装置、車両、プログラム、及び情報処理方法
CN202110040937.1A CN113221933B (zh) 2020-02-06 2021-01-13 信息处理装置、车辆、计算机可读存储介质以及信息处理方法
US17/165,947 US11710499B2 (en) 2020-02-06 2021-02-03 Information-processing device, vehicle, computer-readable storage medium, and information-processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020019021A JP7413055B2 (ja) 2020-02-06 2020-02-06 情報処理装置、車両、プログラム、及び情報処理方法

Publications (2)

Publication Number Publication Date
JP2021124642A true JP2021124642A (ja) 2021-08-30
JP7413055B2 JP7413055B2 (ja) 2024-01-15

Family

ID=77083666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020019021A Active JP7413055B2 (ja) 2020-02-06 2020-02-06 情報処理装置、車両、プログラム、及び情報処理方法

Country Status (3)

Country Link
US (1) US11710499B2 (ja)
JP (1) JP7413055B2 (ja)
CN (1) CN113221933B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023158060A1 (ko) * 2022-02-18 2023-08-24 경북대학교 산학협력단 다중 센서 융합기반 운전자 모니터링 장치 및 방법
KR20230124837A (ko) * 2022-02-18 2023-08-28 경북대학교 산학협력단 다중 센서 융합기반 운전자 모니터링 장치 및 방법
JP2023171101A (ja) * 2022-05-20 2023-12-01 エヌ・ティ・ティ レゾナント株式会社 学習装置、推定装置、学習方法、推定方法及びプログラム
JP2023171107A (ja) * 2022-05-20 2023-12-01 エヌ・ティ・ティ レゾナント株式会社 学習装置、推定装置、学習方法、推定方法及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230267726A1 (en) * 2022-02-18 2023-08-24 Adobe Inc. Systems and methods for image processing using natural language
CN117649141A (zh) * 2023-11-28 2024-03-05 广州方舟信息科技有限公司 一种客服服务质量评估方法、装置、设备及存储介质
CN117409780B (zh) * 2023-12-14 2024-02-27 浙江宇宙奇点科技有限公司 一种应用于ai数字人语音交互方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140112556A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
JP2018189720A (ja) * 2017-04-28 2018-11-29 パナソニックIpマネジメント株式会社 情報出力制御装置、情報出力制御方法、情報出力システム、およびプログラム
WO2019102884A1 (ja) * 2017-11-21 2019-05-31 日本電信電話株式会社 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
WO2019144542A1 (en) * 2018-01-26 2019-08-01 Institute Of Software Chinese Academy Of Sciences Affective interaction systems, devices, and methods based on affective computing user interface

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105609117A (zh) * 2016-02-19 2016-05-25 郑洪亮 一种识别语音情感的装置和方法
CN107516511B (zh) * 2016-06-13 2021-05-25 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
CN108549720A (zh) * 2018-04-24 2018-09-18 京东方科技集团股份有限公司 一种基于情绪识别的安抚方法、装置及设备、存储介质
US11955026B2 (en) * 2019-09-26 2024-04-09 International Business Machines Corporation Multimodal neural network for public speaking guidance
US11386712B2 (en) * 2019-12-31 2022-07-12 Wipro Limited Method and system for multimodal analysis based emotion recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140112556A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
JP2018189720A (ja) * 2017-04-28 2018-11-29 パナソニックIpマネジメント株式会社 情報出力制御装置、情報出力制御方法、情報出力システム、およびプログラム
WO2019102884A1 (ja) * 2017-11-21 2019-05-31 日本電信電話株式会社 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
WO2019144542A1 (en) * 2018-01-26 2019-08-01 Institute Of Software Chinese Academy Of Sciences Affective interaction systems, devices, and methods based on affective computing user interface

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANUPAMA RAY, ET AL.: "Multi-level Attention network using text, audio and video for Depression Prediction", [ONLINE], JPN7023003460, 3 September 2019 (2019-09-03), ISSN: 0005153598 *
GHOSAL, DEEPANWAY ET AL.: "Contextual Inter-modal Attention for Multi-modal Sentiment Analysis", PROCEEDINGS OF THE 2018 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PRECESSING, JPN6023051514, 31 October 2018 (2018-10-31), pages 3454 - 3466, ISSN: 0005221174 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023158060A1 (ko) * 2022-02-18 2023-08-24 경북대학교 산학협력단 다중 센서 융합기반 운전자 모니터링 장치 및 방법
KR20230124837A (ko) * 2022-02-18 2023-08-28 경북대학교 산학협력단 다중 센서 융합기반 운전자 모니터링 장치 및 방법
KR102596957B1 (ko) * 2022-02-18 2023-11-03 경북대학교 산학협력단 다중 센서 융합기반 운전자 모니터링 장치 및 방법
JP2023171101A (ja) * 2022-05-20 2023-12-01 エヌ・ティ・ティ レゾナント株式会社 学習装置、推定装置、学習方法、推定方法及びプログラム
JP2023171107A (ja) * 2022-05-20 2023-12-01 エヌ・ティ・ティ レゾナント株式会社 学習装置、推定装置、学習方法、推定方法及びプログラム
JP7411149B2 (ja) 2022-05-20 2024-01-11 株式会社Nttドコモ 学習装置、推定装置、学習方法、推定方法及びプログラム
JP7419615B2 (ja) 2022-05-20 2024-01-23 株式会社Nttドコモ 学習装置、推定装置、学習方法、推定方法及びプログラム

Also Published As

Publication number Publication date
JP7413055B2 (ja) 2024-01-15
US20210249034A1 (en) 2021-08-12
CN113221933B (zh) 2024-06-28
CN113221933A (zh) 2021-08-06
US11710499B2 (en) 2023-07-25

Similar Documents

Publication Publication Date Title
JP2021124642A (ja) 情報処理装置、車両、プログラム、及び情報処理方法
JP6743300B2 (ja) ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法
US20210358496A1 (en) A voice assistant system for a vehicle cockpit system
US20150325240A1 (en) Method and system for speech input
JP4729902B2 (ja) 音声対話システム
CN113643693B (zh) 以声音特征为条件的声学模型
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JP2019020684A (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
JP2013205842A (ja) プロミネンスを使用した音声対話システム
JP7178394B2 (ja) 音声信号を処理するための方法、装置、機器、および媒体
JP2003114696A (ja) 音声認識装置、プログラム及びナビゲーションシステム
JP2003280686A (ja) 音声認識装置、その音声認識方法及びプログラム
JP7420211B2 (ja) 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
WO2021166207A1 (ja) 認識装置、学習装置、それらの方法、およびプログラム
US11545135B2 (en) Acoustic model learning device, voice synthesis device, and program
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JPWO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
CN115113739A (zh) 用于生成表情符号的装置、车辆和用于生成表情符号的方法
KR20220071523A (ko) 문자들의 시퀀스를 분할하는 방법 및 음성 합성 시스템
Talai et al. Remote spoken Arabic digits recognition using CNN
Schuller et al. Speech communication and multimodal interfaces
Abdelaziz Improving acoustic modeling using audio-visual speech
US20230223039A1 (en) Emotion modeling method and apparatus thereof
JP2020101778A (ja) 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231227

R150 Certificate of patent or registration of utility model

Ref document number: 7413055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150