JP2019105711A - 音声出力装置 - Google Patents

音声出力装置 Download PDF

Info

Publication number
JP2019105711A
JP2019105711A JP2017237523A JP2017237523A JP2019105711A JP 2019105711 A JP2019105711 A JP 2019105711A JP 2017237523 A JP2017237523 A JP 2017237523A JP 2017237523 A JP2017237523 A JP 2017237523A JP 2019105711 A JP2019105711 A JP 2019105711A
Authority
JP
Japan
Prior art keywords
speaker
voice
unit
output device
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017237523A
Other languages
English (en)
Inventor
池田 淳
Atsushi Ikeda
淳 池田
真規 塚本
Masaki Tsukamoto
真規 塚本
英男 長谷川
Hideo Hasegawa
英男 長谷川
有紀也 山根
Yukiya Yamane
有紀也 山根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017237523A priority Critical patent/JP2019105711A/ja
Publication of JP2019105711A publication Critical patent/JP2019105711A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】第1話者の発話に対する応答に第2話者の感情を反映させることができる音声出力装置を得る。【解決手段】第1話者による発話に対する応答を音声により出力する音声出力装置が、第1話者とは異なる第2話者により発話された音声から第2話者の感情を推定し、第2話者に関する第1話者による発話に対する応答を音声により出力する場合に、第2話者の感情に応じた単語を含む応答を示す出力情報を音声出力部に出力する。【選択図】図7

Description

本発明は、音声出力装置に関する。
特許文献1には、ユーザが確保している施設内に設置された音声出力装置を有する音声システムが開示されている。この音声システムでは、音声出力装置が、音楽及びオーディオブック等の複数のオーディオコンテンツを再生する。
米国特許出願公開第2016/180853号明細書
ところで、例えば、AI(Artificial Intelligence)スピーカー等の音声出力装置に対して話者が発話を行うと、音声出力装置は、発話に対応したアプリケーションを実行し、実行結果を音声により出力する。しかしながら、この音声による出力処理は、発話に対応して予め定められたアプリケーションの実行結果であることが一般的である。
これに対し、第1話者が音声出力装置に対し、第1話者とは異なる第2話者に関する発話を行った場合に、その発話に対する応答に第2話者の感情を反映させることができると、第1話者と第2話者との人間関係を円滑にするうえで好ましい。
本発明は、以上の事実を考慮して成されたもので、第1話者の発話に対する応答に第2話者の感情を反映させることを目的とする。
上記目的を達成するために、請求項1に記載の発明は、第1話者による発話に対する応答を音声出力部から音声により出力する音声出力装置であって、前記第1話者とは異なる第2話者により発話された音声から前記第2話者の感情を推定する推定部と、前記第2話者に関する前記第1話者による発話に対する応答を音声により出力する場合に、前記第2話者の感情に応じた単語を含む応答を示す出力情報を前記音声出力部に出力する出力部と、を備えている。
請求項1に記載の発明によれば、第2話者に関する第1話者による発話に対する応答を音声により出力する場合に、第2話者の感情に応じた単語を含む応答が音声出力部により出力される。従って、第1話者の発話に対する応答に第2話者の感情を反映させることができる。
本発明によれば、第1話者の発話に対する応答に第2話者の感情を反映させることができる、という効果が得られる。
実施形態に係る音声出力システムの構成の一例を示す図である。 実施形態に係る車両内の音声出力装置のハードウェア構成の一例を示すブロック図である。 実施形態に係る家屋内の音声出力装置のハードウェア構成の一例を示すブロック図である。 実施形態に係る教師データの一例を示す図である。 実施形態に係る2つの音声出力装置の機能的な構成の一例を示すブロック図である。 実施形態に係る発話記憶処理の一例を示すフローチャートである。 実施形態に係る音声応答処理の一例を示すシーケンス図である。
以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。
まず、図1を参照して、本実施形態に係る音声出力システム10の構成を説明する。図1に示すように、本実施形態に係る音声出力システム10は、話者による発話を受け付け、受け付けた発話に対応するアプリケーションを実行し、実行結果を音声により応答する音声出力装置12、14を含む。本実施形態では、音声出力装置12は、第1話者(例えば、夫)により車両内に持ち込まれ、音声出力装置14は、第1話者とは異なる第2話者(例えば、妻)により家屋内に設置されている。
音声出力装置12及び音声出力装置14は、それぞれネットワークNに無線通信によって接続される。従って、音声出力装置12と音声出力装置14とは、ネットワークNを介して通信が可能とされる。
次に、図2を参照して、音声出力装置12のハードウェア構成を説明する。図2に示すように、音声出力装置12は、CPU(Central Processing Unit)21、一時記憶領域としてのメモリ22、及び不揮発性の記憶部23を含む。また、音声出力装置12は、外部装置との通信を行う際に用いられる通信I/F(InterFace)24、液晶ディスプレイ等の表示部25、マイク等の音声入力部26、及びスピーカー等の情報を音声により出力する音声出力部27を含む。CPU21、メモリ22、記憶部23、通信I/F24、表示部25、音声入力部26、及び音声出力部27は、バス28に接続される。記憶部23には、音声応答プログラム30が記憶される。なお、音声出力装置12の例としては、AIスピーカーが挙げられる。
次に、図3を参照して、音声出力装置14のハードウェア構成を説明する。図3に示すように、音声出力装置14は、CPU41、一時記憶領域としてのメモリ42、及び不揮発性の記憶部43を含む。また、音声出力装置14は、外部装置との通信を行う際に用いられる通信I/F44、液晶ディスプレイ等の表示部45、マイク等の音声入力部46、及びスピーカー等の情報を音声により出力する音声出力部47を含む。CPU41、メモリ42、記憶部43、通信I/F44、表示部45、音声入力部46、及び音声出力部47は、バス48に接続される。なお、音声出力装置14の例としては、AIスピーカーが挙げられる。
記憶部43には、推定モデル50及び推定プログラム52が記憶される。本実施形態に係る推定モデル50は、第2話者の感情を入力とし、入力された感情に対応する単語を出力とした学習済みモデルである。推定モデル50は、例えば、図4に示すように、第2話者が発話した単語と、その単語を発話した際の第2話者の感情との複数の組み合わせを含む教師データを用いた機械学習によって予め構築される。この教師データは、例えば、音声出力装置14が第2話者の発話を、音声入力部46を介して取得し、取得した発話から単語を抽出する処理を行い、かつ取得した発話の音声情報から第2話者の感情を推定することによって収集される。
なお、本実施形態では、図4に示すように、第2話者の感情として、「怒り」、「平静」、及び「喜び」の3段階の感情を適用した場合について説明するが、これに限定されない。例えば、第2話者の感情として、喜怒哀楽の4種類の感情を適用してもよい。また、例えば、第2話者の感情として、第2話者の機嫌の良し悪しを表す機嫌度を適用してもよい。この場合、機嫌が良いほど機嫌度の値を高い値とする形態が例示される。
次に、図5を参照して、本実施形態に係る音声出力装置12及び音声出力装置14の機能的な構成を説明する。図5に示すように、音声出力装置12は、受付部60、送信部62、受信部64、及び出力部66を含む。また、音声出力装置14は、受付部70、受信部72、推定部74、及び送信部76を含む。
音声出力装置12のCPU21が記憶部23に記憶された音声応答プログラム30を実行することにより、図5に示す受付部60、送信部62、受信部64、及び出力部66として機能する。また、音声出力装置14のCPU41が記憶部43に記憶された推定プログラム52を実行することにより、図5に示す受付部70、受信部72、推定部74、及び送信部76として機能する。
音声出力装置12の受付部60は、第1話者による第2話者に関する発話を、音声入力部26を介して受け付ける。送信部62は、受付部60により受け付けられた発話を示す発話情報を、通信I/F24を介して音声出力装置14に送信する。
受信部64は、後述する音声出力装置14の送信部76により送信された、第1話者への応答に用いられる出力情報を、通信I/F24を介して受信する。出力部66は、受信部64により受信された出力情報を音声出力部27に出力する。
音声出力装置14の受付部70は、第2話者による発話を、音声入力部46を介して受け付ける。そして、受付部70は、受け付けた発話を示す発話情報を記憶部43に記憶する。受信部72は、音声出力装置12により送信された発話情報を、通信I/F44を介して受信する。
推定部74は、受信部72により第2話者に関する発話を含む発話情報が受信されると、第2話者の現在の感情を推定する。具体的には、推定部74は、受付部70により受け付けられ、記憶部43に記憶された直近の所定期間内の第2話者による発話を示す発話情報を取得する。また、推定部74は、取得した発話情報の音声情報を分析することによって、第2話者の現在の感情を推定する。
また、推定部74は、推定した第2話者の現在の感情に対応する第2話者の機嫌度が、機嫌が悪い度合いとして予め定められた度合いである場合に、第2話者の現在の感情と第2話者の現在の感情に応じた単語とを含む出力情報を生成する。具体的には、推定部74は、推定した第2話者の現在の感情が「怒り」である場合、第2話者の機嫌が良くなると推定される感情(本実施形態では、「喜び」)を推定モデル50に入力し、推定モデル50から出力された単語を取得する。そして、この場合、推定部74は、推定した第2話者の現在の感情と取得した単語とを含む出力情報を生成する。
一方、推定部74は、推定した第2話者の現在の感情に対応する第2話者の機嫌度が、機嫌が普通又は良い度合いとして予め定められた度合いである場合に、第2話者の現在の感情を含む出力情報を生成する。具体的には、推定部74は、推定した第2話者の現在の感情が「平静」又は「喜び」である場合、第2話者の現在の感情を含む出力情報を生成する。
なお、推定部74は、推定した第2話者の現在の感情が「平静」である場合に、第2話者の機嫌が良くなると推定される感情(この場合は、「喜び」)を推定モデル50に入力し、推定モデル50から出力された単語を取得してもよい。そして、この場合、推定部74は、推定した第2話者の現在の感情と取得した単語とを含む出力情報を生成する。
送信部76は、推定部74により生成された出力情報を、通信I/F44を介して音声出力装置12に送信する。
次に、図6及び図7を参照して、本実施形態に係る音声出力システム10の作用について説明する。なお、図6は、本実施形態に係る音声出力装置14のCPU41で実行される発話記憶処理の流れの一例を示すフローチャートである。また、本実施形態では、図6に示す発話記憶処理は、記憶部43に予め記憶された推定プログラム52をCPU41が実行することにより実行される。また、図6に示す発話記憶処理は、例えば、第2話者による発話が音声出力装置14に入力された場合に実行される。
また、図7は、本実施形態に係る音声出力装置12のCPU21及び音声出力装置14のCPU41で実行される音声応答処理の流れの一例を示すシーケンス図である。また、本実施形態では、図7に示す音声応答処理における音声出力装置12による処理は、記憶部23に予め記憶された音声応答プログラム30をCPU21が実行することにより実行される。図7に示す音声応答処理における音声出力装置14による処理は、記憶部43に予め記憶された推定プログラム52をCPU41が実行することにより実行される。また、図7に示す音声応答処理は、例えば、第1話者による発話が音声出力装置12に入力された場合に実行される。
図6のステップS10で、受付部70は、第2話者による発話を、音声入力部46を介して受け付ける。ステップS12で、受付部70は、ステップS10の処理により受け付けた発話を示す発話情報を記憶部43に記憶する。ステップS12の処理が終了すると、発話記憶処理が終了する。
図7のステップS20で、音声出力装置12の受付部60は、第1話者による第2話者に関する発話を、音声入力部26を介して受け付ける。例えば、受付部60は、第1話者による「妻の機嫌」といった発話を、音声入力部26を介して受け付ける。ステップS22で、音声出力装置12の送信部62は、ステップS20の処理により受け付けられた発話を示す発話情報を、通信I/F24を介して音声出力装置14に送信する。
ステップS24で、音声出力装置14の受信部72は、ステップS22の処理により音声出力装置12から送信された発話情報を、通信I/F44を介して受信する。ステップS26で、音声出力装置14の推定部74は、前述したように、記憶部43に記憶された直近の所定期間内の第2話者による発話を示す発話情報を取得する。そして、推定部74は、取得した発話情報の音声情報を分析することによって、第2話者の現在の感情を推定する。
ステップS28で、音声出力装置14の推定部74は、前述したように、ステップS26の処理により推定された第2話者の現在の感情に対応する第2話者の機嫌度が、機嫌が悪い度合いとして予め定められた度合いである場合、以下に示す出力情報を生成する。すなわち、この場合、推定部74は、推定モデル50を用いて、第2話者の現在の感情に応じた単語を取得し、第2話者の現在の感情と取得した単語とを含む出力情報を生成する。
また、推定部74は、前述したように、ステップS26の処理により推定された第2話者の現在の感情に対応する第2話者の機嫌度が、機嫌が普通又は良い度合いとして予め定められた度合いである場合、第2話者の現在の感情を含む出力情報を生成する。
ステップS30で、音声出力装置14の送信部76は、ステップS28の処理により生成された出力情報を、通信I/F44を介して音声出力装置12に送信する。
ステップS32で、音声出力装置12の受信部64は、ステップS30の処理により音声出力装置14から送信された出力情報を、通信I/F24を介して受信する。ステップS34で、音声出力装置12の出力部66は、ステップS32の処理により受信された出力情報を音声出力部27に出力する。ステップS34の処理により、音声出力部27から出力情報に応じた音声が出力される。例えば、「妻の機嫌」という第1話者による第2話者に関する発話に対する応答として、「妻の感情は怒りです。ケーキを買って帰ってはいかがでしょう。」という音声が音声出力部27から出力される。ステップS34の処理が終了すると、音声応答処理が終了する。
以上説明したように、本実施形態によれば、第2話者の感情に応じた単語を含む応答が音声により出力される。従って、第1話者の発話に対する応答に第2話者の感情を反映させることができる。この結果、第1話者と第2話者との人間関係を円滑にすることができる。
なお、上記実施形態では、音声出力装置12が第1話者により車両内に持ち込まれ、音声出力装置14が第2話者により家屋内に設置されている場合について説明したが、これに限定されない。例えば、音声出力装置12及び音声出力装置14が、それぞれ同じ家屋内の異なる部屋に設置されている形態としてもよい。また、例えば、音声出力装置14が第2話者により車両内に持ち込まれ、音声出力装置12が第1話者により家屋内に設置されている形態としてもよい。
また、例えば、音声出力装置14が車両内に存在する場合、第2話者により発話された音声に加えて、第2話者による車両の運転の仕方も用いて、第2話者の感情を推定する形態としてもよい。この場合、ステアリングの操舵角を検出する操舵角センサ、車両の加速度を検出する加速度センサ、及びアクセルの開度を検出するアクセル開度センサの少なくとも一つの出力を用いて、第2話者による車両の運転の仕方を導出する形態が例示される。
また、上記実施形態では、第2話者により発話された音声から第2話者の感情を推定する場合について説明したが、これに限定されない。例えば、第2話者により発話された音声と第2話者の心拍数及び血圧等の生体データとから第2話者の感情を推定する形態としてもよい。この場合、音声出力装置14が、第2話者が身に着けているウェラブルデバイスから第2話者の生体データを取得する形態が例示される。
また、上記実施形態において、音声出力装置12が、カーナビゲーションシステムを制御し、出力情報に含まれる単語に応じた位置を目的地に設定する形態としてもよい。例えば、出力情報に含まれる単語が「ケーキ」であった場合、車両の現在位置の周辺に存在するケーキが買える店舗を目的地として設定する形態が例示される。
また、上記実施形態では、機械学習により得られた学習済みモデルである推定モデル50を用いて、第2話者の現在の感情に応じた単語を取得する場合について説明したが、これに限定されない。予め第2話者の感情と単語とを対応付けたテーブル等の対応付け情報を音声出力装置12の記憶部23に記憶しておき、この対応付け情報を用いて、第2話者の現在の感情に応じた単語を取得する形態としてもよい。
また、上記実施形態において、第2話者の現在の感情に応じた帰宅時刻を出力情報に含める形態としてもよい。
また、上記実施形態におけるCPU21、41により行われる処理は、プログラムを実行することにより行われるソフトウェア処理として説明したが、ハードウェアで行われる処理としてもよい。また、CPU21、41により行われる処理は、ソフトウェア及びハードウェアの双方を組み合わせて行われる処理としてもよい。また、記憶部23に記憶される音声応答プログラム30、及び記憶部43に記憶される推定プログラム52は、各種記憶媒体に記憶して流通させてもよい。
また、本発明は、上記の形態例に限定されるものではなく、上記の形態例以外にも、その主旨を逸脱しない範囲内において種々変形して実施可能であることは勿論である。
10 音声出力システム
12、14 音声出力装置
21、41 CPU(推定部、出力部)
22、42 メモリ
23、43 記憶部
26、46 音声入力部
27、47 音声出力部
30 音声応答プログラム
50 推定モデル
52 推定プログラム
60、70 受付部
62、76 送信部
64、72 受信部
66 出力部
74 推定部

Claims (1)

  1. 第1話者による発話に対する応答を音声出力部から音声により出力する音声出力装置であって、
    前記第1話者とは異なる第2話者により発話された音声から前記第2話者の感情を推定する推定部と、
    前記第2話者に関する前記第1話者による発話に対する応答を音声により出力する場合に、前記第2話者の感情に応じた単語を含む応答を示す出力情報を前記音声出力部に出力する出力部と、
    を備えた音声出力装置。
JP2017237523A 2017-12-12 2017-12-12 音声出力装置 Pending JP2019105711A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017237523A JP2019105711A (ja) 2017-12-12 2017-12-12 音声出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017237523A JP2019105711A (ja) 2017-12-12 2017-12-12 音声出力装置

Publications (1)

Publication Number Publication Date
JP2019105711A true JP2019105711A (ja) 2019-06-27

Family

ID=67061229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017237523A Pending JP2019105711A (ja) 2017-12-12 2017-12-12 音声出力装置

Country Status (1)

Country Link
JP (1) JP2019105711A (ja)

Similar Documents

Publication Publication Date Title
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
EP3248189B1 (en) Environment adjusted speaker identification
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
US20200027455A1 (en) Dialog system, dialog method, dialog apparatus and program
US11222633B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
Hwang et al. TalkBetter: family-driven mobile intervention care for children with language delay
JP6719741B2 (ja) 対話方法、対話装置、及びプログラム
US20210287655A1 (en) Information processing apparatus and information processing method
US10964323B2 (en) Acquisition method, generation method, system therefor and program for enabling a dialog between a computer and a human using natural language
JP7416295B2 (ja) ロボット、対話システム、情報処理方法及びプログラム
JP2008125815A (ja) 会話ロボットシステム
JP2019105711A (ja) 音声出力装置
JP2008107673A (ja) 会話ロボット
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
Moritz et al. Ambient voice control for a personal activity and household assistant
JP2020042074A (ja) 音声対話装置、音声対話方法および音声対話プログラム
JP6657048B2 (ja) 処理結果異常検出装置、処理結果異常検出プログラム、処理結果異常検出方法及び移動体
Aicher et al. Towards building a spoken dialogue system for argument exploration
JP2021114004A (ja) 情報処理装置及び情報処理方法
WO2021064947A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
KR20210073461A (ko) 에이전트 관리 장치, 프로그램, 및 에이전트 관리 방법
KR102147835B1 (ko) 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법
JPWO2017200075A1 (ja) 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム
JP2022054671A (ja) 音声対話装置、音声対話システム、および、音声対話方法