JP2019105711A

JP2019105711A - 音声出力装置

Info

Publication number: JP2019105711A
Application number: JP2017237523A
Authority: JP
Inventors: 池田　淳; Atsushi Ikeda; 淳池田; 真規塚本; Masaki Tsukamoto; 英男長谷川; Hideo Hasegawa; 有紀也山根; Yukiya Yamane
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2019-06-27

Abstract

【課題】第１話者の発話に対する応答に第２話者の感情を反映させることができる音声出力装置を得る。【解決手段】第１話者による発話に対する応答を音声により出力する音声出力装置が、第１話者とは異なる第２話者により発話された音声から第２話者の感情を推定し、第２話者に関する第１話者による発話に対する応答を音声により出力する場合に、第２話者の感情に応じた単語を含む応答を示す出力情報を音声出力部に出力する。【選択図】図７

Description

本発明は、音声出力装置に関する。

特許文献１には、ユーザが確保している施設内に設置された音声出力装置を有する音声システムが開示されている。この音声システムでは、音声出力装置が、音楽及びオーディオブック等の複数のオーディオコンテンツを再生する。

米国特許出願公開第２０１６／１８０８５３号明細書

ところで、例えば、ＡＩ（Artificial Intelligence）スピーカー等の音声出力装置に対して話者が発話を行うと、音声出力装置は、発話に対応したアプリケーションを実行し、実行結果を音声により出力する。しかしながら、この音声による出力処理は、発話に対応して予め定められたアプリケーションの実行結果であることが一般的である。

これに対し、第１話者が音声出力装置に対し、第１話者とは異なる第２話者に関する発話を行った場合に、その発話に対する応答に第２話者の感情を反映させることができると、第１話者と第２話者との人間関係を円滑にするうえで好ましい。

本発明は、以上の事実を考慮して成されたもので、第１話者の発話に対する応答に第２話者の感情を反映させることを目的とする。

上記目的を達成するために、請求項１に記載の発明は、第１話者による発話に対する応答を音声出力部から音声により出力する音声出力装置であって、前記第１話者とは異なる第２話者により発話された音声から前記第２話者の感情を推定する推定部と、前記第２話者に関する前記第１話者による発話に対する応答を音声により出力する場合に、前記第２話者の感情に応じた単語を含む応答を示す出力情報を前記音声出力部に出力する出力部と、を備えている。

請求項１に記載の発明によれば、第２話者に関する第１話者による発話に対する応答を音声により出力する場合に、第２話者の感情に応じた単語を含む応答が音声出力部により出力される。従って、第１話者の発話に対する応答に第２話者の感情を反映させることができる。

本発明によれば、第１話者の発話に対する応答に第２話者の感情を反映させることができる、という効果が得られる。

実施形態に係る音声出力システムの構成の一例を示す図である。実施形態に係る車両内の音声出力装置のハードウェア構成の一例を示すブロック図である。実施形態に係る家屋内の音声出力装置のハードウェア構成の一例を示すブロック図である。実施形態に係る教師データの一例を示す図である。実施形態に係る２つの音声出力装置の機能的な構成の一例を示すブロック図である。実施形態に係る発話記憶処理の一例を示すフローチャートである。実施形態に係る音声応答処理の一例を示すシーケンス図である。

以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。

まず、図１を参照して、本実施形態に係る音声出力システム１０の構成を説明する。図１に示すように、本実施形態に係る音声出力システム１０は、話者による発話を受け付け、受け付けた発話に対応するアプリケーションを実行し、実行結果を音声により応答する音声出力装置１２、１４を含む。本実施形態では、音声出力装置１２は、第１話者（例えば、夫）により車両内に持ち込まれ、音声出力装置１４は、第１話者とは異なる第２話者（例えば、妻）により家屋内に設置されている。

音声出力装置１２及び音声出力装置１４は、それぞれネットワークＮに無線通信によって接続される。従って、音声出力装置１２と音声出力装置１４とは、ネットワークＮを介して通信が可能とされる。

次に、図２を参照して、音声出力装置１２のハードウェア構成を説明する。図２に示すように、音声出力装置１２は、ＣＰＵ（Central Processing Unit）２１、一時記憶領域としてのメモリ２２、及び不揮発性の記憶部２３を含む。また、音声出力装置１２は、外部装置との通信を行う際に用いられる通信Ｉ／Ｆ（InterFace）２４、液晶ディスプレイ等の表示部２５、マイク等の音声入力部２６、及びスピーカー等の情報を音声により出力する音声出力部２７を含む。ＣＰＵ２１、メモリ２２、記憶部２３、通信Ｉ／Ｆ２４、表示部２５、音声入力部２６、及び音声出力部２７は、バス２８に接続される。記憶部２３には、音声応答プログラム３０が記憶される。なお、音声出力装置１２の例としては、ＡＩスピーカーが挙げられる。

次に、図３を参照して、音声出力装置１４のハードウェア構成を説明する。図３に示すように、音声出力装置１４は、ＣＰＵ４１、一時記憶領域としてのメモリ４２、及び不揮発性の記憶部４３を含む。また、音声出力装置１４は、外部装置との通信を行う際に用いられる通信Ｉ／Ｆ４４、液晶ディスプレイ等の表示部４５、マイク等の音声入力部４６、及びスピーカー等の情報を音声により出力する音声出力部４７を含む。ＣＰＵ４１、メモリ４２、記憶部４３、通信Ｉ／Ｆ４４、表示部４５、音声入力部４６、及び音声出力部４７は、バス４８に接続される。なお、音声出力装置１４の例としては、ＡＩスピーカーが挙げられる。

記憶部４３には、推定モデル５０及び推定プログラム５２が記憶される。本実施形態に係る推定モデル５０は、第２話者の感情を入力とし、入力された感情に対応する単語を出力とした学習済みモデルである。推定モデル５０は、例えば、図４に示すように、第２話者が発話した単語と、その単語を発話した際の第２話者の感情との複数の組み合わせを含む教師データを用いた機械学習によって予め構築される。この教師データは、例えば、音声出力装置１４が第２話者の発話を、音声入力部４６を介して取得し、取得した発話から単語を抽出する処理を行い、かつ取得した発話の音声情報から第２話者の感情を推定することによって収集される。

なお、本実施形態では、図４に示すように、第２話者の感情として、「怒り」、「平静」、及び「喜び」の３段階の感情を適用した場合について説明するが、これに限定されない。例えば、第２話者の感情として、喜怒哀楽の４種類の感情を適用してもよい。また、例えば、第２話者の感情として、第２話者の機嫌の良し悪しを表す機嫌度を適用してもよい。この場合、機嫌が良いほど機嫌度の値を高い値とする形態が例示される。

次に、図５を参照して、本実施形態に係る音声出力装置１２及び音声出力装置１４の機能的な構成を説明する。図５に示すように、音声出力装置１２は、受付部６０、送信部６２、受信部６４、及び出力部６６を含む。また、音声出力装置１４は、受付部７０、受信部７２、推定部７４、及び送信部７６を含む。

音声出力装置１２のＣＰＵ２１が記憶部２３に記憶された音声応答プログラム３０を実行することにより、図５に示す受付部６０、送信部６２、受信部６４、及び出力部６６として機能する。また、音声出力装置１４のＣＰＵ４１が記憶部４３に記憶された推定プログラム５２を実行することにより、図５に示す受付部７０、受信部７２、推定部７４、及び送信部７６として機能する。

音声出力装置１２の受付部６０は、第１話者による第２話者に関する発話を、音声入力部２６を介して受け付ける。送信部６２は、受付部６０により受け付けられた発話を示す発話情報を、通信Ｉ／Ｆ２４を介して音声出力装置１４に送信する。

受信部６４は、後述する音声出力装置１４の送信部７６により送信された、第１話者への応答に用いられる出力情報を、通信Ｉ／Ｆ２４を介して受信する。出力部６６は、受信部６４により受信された出力情報を音声出力部２７に出力する。

音声出力装置１４の受付部７０は、第２話者による発話を、音声入力部４６を介して受け付ける。そして、受付部７０は、受け付けた発話を示す発話情報を記憶部４３に記憶する。受信部７２は、音声出力装置１２により送信された発話情報を、通信Ｉ／Ｆ４４を介して受信する。

推定部７４は、受信部７２により第２話者に関する発話を含む発話情報が受信されると、第２話者の現在の感情を推定する。具体的には、推定部７４は、受付部７０により受け付けられ、記憶部４３に記憶された直近の所定期間内の第２話者による発話を示す発話情報を取得する。また、推定部７４は、取得した発話情報の音声情報を分析することによって、第２話者の現在の感情を推定する。

また、推定部７４は、推定した第２話者の現在の感情に対応する第２話者の機嫌度が、機嫌が悪い度合いとして予め定められた度合いである場合に、第２話者の現在の感情と第２話者の現在の感情に応じた単語とを含む出力情報を生成する。具体的には、推定部７４は、推定した第２話者の現在の感情が「怒り」である場合、第２話者の機嫌が良くなると推定される感情（本実施形態では、「喜び」）を推定モデル５０に入力し、推定モデル５０から出力された単語を取得する。そして、この場合、推定部７４は、推定した第２話者の現在の感情と取得した単語とを含む出力情報を生成する。

一方、推定部７４は、推定した第２話者の現在の感情に対応する第２話者の機嫌度が、機嫌が普通又は良い度合いとして予め定められた度合いである場合に、第２話者の現在の感情を含む出力情報を生成する。具体的には、推定部７４は、推定した第２話者の現在の感情が「平静」又は「喜び」である場合、第２話者の現在の感情を含む出力情報を生成する。

なお、推定部７４は、推定した第２話者の現在の感情が「平静」である場合に、第２話者の機嫌が良くなると推定される感情（この場合は、「喜び」）を推定モデル５０に入力し、推定モデル５０から出力された単語を取得してもよい。そして、この場合、推定部７４は、推定した第２話者の現在の感情と取得した単語とを含む出力情報を生成する。

送信部７６は、推定部７４により生成された出力情報を、通信Ｉ／Ｆ４４を介して音声出力装置１２に送信する。

次に、図６及び図７を参照して、本実施形態に係る音声出力システム１０の作用について説明する。なお、図６は、本実施形態に係る音声出力装置１４のＣＰＵ４１で実行される発話記憶処理の流れの一例を示すフローチャートである。また、本実施形態では、図６に示す発話記憶処理は、記憶部４３に予め記憶された推定プログラム５２をＣＰＵ４１が実行することにより実行される。また、図６に示す発話記憶処理は、例えば、第２話者による発話が音声出力装置１４に入力された場合に実行される。

また、図７は、本実施形態に係る音声出力装置１２のＣＰＵ２１及び音声出力装置１４のＣＰＵ４１で実行される音声応答処理の流れの一例を示すシーケンス図である。また、本実施形態では、図７に示す音声応答処理における音声出力装置１２による処理は、記憶部２３に予め記憶された音声応答プログラム３０をＣＰＵ２１が実行することにより実行される。図７に示す音声応答処理における音声出力装置１４による処理は、記憶部４３に予め記憶された推定プログラム５２をＣＰＵ４１が実行することにより実行される。また、図７に示す音声応答処理は、例えば、第１話者による発話が音声出力装置１２に入力された場合に実行される。

図６のステップＳ１０で、受付部７０は、第２話者による発話を、音声入力部４６を介して受け付ける。ステップＳ１２で、受付部７０は、ステップＳ１０の処理により受け付けた発話を示す発話情報を記憶部４３に記憶する。ステップＳ１２の処理が終了すると、発話記憶処理が終了する。

図７のステップＳ２０で、音声出力装置１２の受付部６０は、第１話者による第２話者に関する発話を、音声入力部２６を介して受け付ける。例えば、受付部６０は、第１話者による「妻の機嫌」といった発話を、音声入力部２６を介して受け付ける。ステップＳ２２で、音声出力装置１２の送信部６２は、ステップＳ２０の処理により受け付けられた発話を示す発話情報を、通信Ｉ／Ｆ２４を介して音声出力装置１４に送信する。

ステップＳ２４で、音声出力装置１４の受信部７２は、ステップＳ２２の処理により音声出力装置１２から送信された発話情報を、通信Ｉ／Ｆ４４を介して受信する。ステップＳ２６で、音声出力装置１４の推定部７４は、前述したように、記憶部４３に記憶された直近の所定期間内の第２話者による発話を示す発話情報を取得する。そして、推定部７４は、取得した発話情報の音声情報を分析することによって、第２話者の現在の感情を推定する。

ステップＳ２８で、音声出力装置１４の推定部７４は、前述したように、ステップＳ２６の処理により推定された第２話者の現在の感情に対応する第２話者の機嫌度が、機嫌が悪い度合いとして予め定められた度合いである場合、以下に示す出力情報を生成する。すなわち、この場合、推定部７４は、推定モデル５０を用いて、第２話者の現在の感情に応じた単語を取得し、第２話者の現在の感情と取得した単語とを含む出力情報を生成する。

また、推定部７４は、前述したように、ステップＳ２６の処理により推定された第２話者の現在の感情に対応する第２話者の機嫌度が、機嫌が普通又は良い度合いとして予め定められた度合いである場合、第２話者の現在の感情を含む出力情報を生成する。

ステップＳ３０で、音声出力装置１４の送信部７６は、ステップＳ２８の処理により生成された出力情報を、通信Ｉ／Ｆ４４を介して音声出力装置１２に送信する。

ステップＳ３２で、音声出力装置１２の受信部６４は、ステップＳ３０の処理により音声出力装置１４から送信された出力情報を、通信Ｉ／Ｆ２４を介して受信する。ステップＳ３４で、音声出力装置１２の出力部６６は、ステップＳ３２の処理により受信された出力情報を音声出力部２７に出力する。ステップＳ３４の処理により、音声出力部２７から出力情報に応じた音声が出力される。例えば、「妻の機嫌」という第１話者による第２話者に関する発話に対する応答として、「妻の感情は怒りです。ケーキを買って帰ってはいかがでしょう。」という音声が音声出力部２７から出力される。ステップＳ３４の処理が終了すると、音声応答処理が終了する。

以上説明したように、本実施形態によれば、第２話者の感情に応じた単語を含む応答が音声により出力される。従って、第１話者の発話に対する応答に第２話者の感情を反映させることができる。この結果、第１話者と第２話者との人間関係を円滑にすることができる。

なお、上記実施形態では、音声出力装置１２が第１話者により車両内に持ち込まれ、音声出力装置１４が第２話者により家屋内に設置されている場合について説明したが、これに限定されない。例えば、音声出力装置１２及び音声出力装置１４が、それぞれ同じ家屋内の異なる部屋に設置されている形態としてもよい。また、例えば、音声出力装置１４が第２話者により車両内に持ち込まれ、音声出力装置１２が第１話者により家屋内に設置されている形態としてもよい。

また、例えば、音声出力装置１４が車両内に存在する場合、第２話者により発話された音声に加えて、第２話者による車両の運転の仕方も用いて、第２話者の感情を推定する形態としてもよい。この場合、ステアリングの操舵角を検出する操舵角センサ、車両の加速度を検出する加速度センサ、及びアクセルの開度を検出するアクセル開度センサの少なくとも一つの出力を用いて、第２話者による車両の運転の仕方を導出する形態が例示される。

また、上記実施形態では、第２話者により発話された音声から第２話者の感情を推定する場合について説明したが、これに限定されない。例えば、第２話者により発話された音声と第２話者の心拍数及び血圧等の生体データとから第２話者の感情を推定する形態としてもよい。この場合、音声出力装置１４が、第２話者が身に着けているウェラブルデバイスから第２話者の生体データを取得する形態が例示される。

また、上記実施形態において、音声出力装置１２が、カーナビゲーションシステムを制御し、出力情報に含まれる単語に応じた位置を目的地に設定する形態としてもよい。例えば、出力情報に含まれる単語が「ケーキ」であった場合、車両の現在位置の周辺に存在するケーキが買える店舗を目的地として設定する形態が例示される。

また、上記実施形態では、機械学習により得られた学習済みモデルである推定モデル５０を用いて、第２話者の現在の感情に応じた単語を取得する場合について説明したが、これに限定されない。予め第２話者の感情と単語とを対応付けたテーブル等の対応付け情報を音声出力装置１２の記憶部２３に記憶しておき、この対応付け情報を用いて、第２話者の現在の感情に応じた単語を取得する形態としてもよい。

また、上記実施形態において、第２話者の現在の感情に応じた帰宅時刻を出力情報に含める形態としてもよい。

また、上記実施形態におけるＣＰＵ２１、４１により行われる処理は、プログラムを実行することにより行われるソフトウェア処理として説明したが、ハードウェアで行われる処理としてもよい。また、ＣＰＵ２１、４１により行われる処理は、ソフトウェア及びハードウェアの双方を組み合わせて行われる処理としてもよい。また、記憶部２３に記憶される音声応答プログラム３０、及び記憶部４３に記憶される推定プログラム５２は、各種記憶媒体に記憶して流通させてもよい。

また、本発明は、上記の形態例に限定されるものではなく、上記の形態例以外にも、その主旨を逸脱しない範囲内において種々変形して実施可能であることは勿論である。

１０音声出力システム
１２、１４音声出力装置
２１、４１ＣＰＵ（推定部、出力部）
２２、４２メモリ
２３、４３記憶部
２６、４６音声入力部
２７、４７音声出力部
３０音声応答プログラム
５０推定モデル
５２推定プログラム
６０、７０受付部
６２、７６送信部
６４、７２受信部
６６出力部
７４推定部

Claims

第１話者による発話に対する応答を音声出力部から音声により出力する音声出力装置であって、
前記第１話者とは異なる第２話者により発話された音声から前記第２話者の感情を推定する推定部と、
前記第２話者に関する前記第１話者による発話に対する応答を音声により出力する場合に、前記第２話者の感情に応じた単語を含む応答を示す出力情報を前記音声出力部に出力する出力部と、
を備えた音声出力装置。