JP2019105711A - 音声出力装置 - Google Patents
音声出力装置 Download PDFInfo
- Publication number
- JP2019105711A JP2019105711A JP2017237523A JP2017237523A JP2019105711A JP 2019105711 A JP2019105711 A JP 2019105711A JP 2017237523 A JP2017237523 A JP 2017237523A JP 2017237523 A JP2017237523 A JP 2017237523A JP 2019105711 A JP2019105711 A JP 2019105711A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- unit
- output device
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】第1話者の発話に対する応答に第2話者の感情を反映させることができる音声出力装置を得る。【解決手段】第1話者による発話に対する応答を音声により出力する音声出力装置が、第1話者とは異なる第2話者により発話された音声から第2話者の感情を推定し、第2話者に関する第1話者による発話に対する応答を音声により出力する場合に、第2話者の感情に応じた単語を含む応答を示す出力情報を音声出力部に出力する。【選択図】図7
Description
本発明は、音声出力装置に関する。
特許文献1には、ユーザが確保している施設内に設置された音声出力装置を有する音声システムが開示されている。この音声システムでは、音声出力装置が、音楽及びオーディオブック等の複数のオーディオコンテンツを再生する。
ところで、例えば、AI(Artificial Intelligence)スピーカー等の音声出力装置に対して話者が発話を行うと、音声出力装置は、発話に対応したアプリケーションを実行し、実行結果を音声により出力する。しかしながら、この音声による出力処理は、発話に対応して予め定められたアプリケーションの実行結果であることが一般的である。
これに対し、第1話者が音声出力装置に対し、第1話者とは異なる第2話者に関する発話を行った場合に、その発話に対する応答に第2話者の感情を反映させることができると、第1話者と第2話者との人間関係を円滑にするうえで好ましい。
本発明は、以上の事実を考慮して成されたもので、第1話者の発話に対する応答に第2話者の感情を反映させることを目的とする。
上記目的を達成するために、請求項1に記載の発明は、第1話者による発話に対する応答を音声出力部から音声により出力する音声出力装置であって、前記第1話者とは異なる第2話者により発話された音声から前記第2話者の感情を推定する推定部と、前記第2話者に関する前記第1話者による発話に対する応答を音声により出力する場合に、前記第2話者の感情に応じた単語を含む応答を示す出力情報を前記音声出力部に出力する出力部と、を備えている。
請求項1に記載の発明によれば、第2話者に関する第1話者による発話に対する応答を音声により出力する場合に、第2話者の感情に応じた単語を含む応答が音声出力部により出力される。従って、第1話者の発話に対する応答に第2話者の感情を反映させることができる。
本発明によれば、第1話者の発話に対する応答に第2話者の感情を反映させることができる、という効果が得られる。
以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。
まず、図1を参照して、本実施形態に係る音声出力システム10の構成を説明する。図1に示すように、本実施形態に係る音声出力システム10は、話者による発話を受け付け、受け付けた発話に対応するアプリケーションを実行し、実行結果を音声により応答する音声出力装置12、14を含む。本実施形態では、音声出力装置12は、第1話者(例えば、夫)により車両内に持ち込まれ、音声出力装置14は、第1話者とは異なる第2話者(例えば、妻)により家屋内に設置されている。
音声出力装置12及び音声出力装置14は、それぞれネットワークNに無線通信によって接続される。従って、音声出力装置12と音声出力装置14とは、ネットワークNを介して通信が可能とされる。
次に、図2を参照して、音声出力装置12のハードウェア構成を説明する。図2に示すように、音声出力装置12は、CPU(Central Processing Unit)21、一時記憶領域としてのメモリ22、及び不揮発性の記憶部23を含む。また、音声出力装置12は、外部装置との通信を行う際に用いられる通信I/F(InterFace)24、液晶ディスプレイ等の表示部25、マイク等の音声入力部26、及びスピーカー等の情報を音声により出力する音声出力部27を含む。CPU21、メモリ22、記憶部23、通信I/F24、表示部25、音声入力部26、及び音声出力部27は、バス28に接続される。記憶部23には、音声応答プログラム30が記憶される。なお、音声出力装置12の例としては、AIスピーカーが挙げられる。
次に、図3を参照して、音声出力装置14のハードウェア構成を説明する。図3に示すように、音声出力装置14は、CPU41、一時記憶領域としてのメモリ42、及び不揮発性の記憶部43を含む。また、音声出力装置14は、外部装置との通信を行う際に用いられる通信I/F44、液晶ディスプレイ等の表示部45、マイク等の音声入力部46、及びスピーカー等の情報を音声により出力する音声出力部47を含む。CPU41、メモリ42、記憶部43、通信I/F44、表示部45、音声入力部46、及び音声出力部47は、バス48に接続される。なお、音声出力装置14の例としては、AIスピーカーが挙げられる。
記憶部43には、推定モデル50及び推定プログラム52が記憶される。本実施形態に係る推定モデル50は、第2話者の感情を入力とし、入力された感情に対応する単語を出力とした学習済みモデルである。推定モデル50は、例えば、図4に示すように、第2話者が発話した単語と、その単語を発話した際の第2話者の感情との複数の組み合わせを含む教師データを用いた機械学習によって予め構築される。この教師データは、例えば、音声出力装置14が第2話者の発話を、音声入力部46を介して取得し、取得した発話から単語を抽出する処理を行い、かつ取得した発話の音声情報から第2話者の感情を推定することによって収集される。
なお、本実施形態では、図4に示すように、第2話者の感情として、「怒り」、「平静」、及び「喜び」の3段階の感情を適用した場合について説明するが、これに限定されない。例えば、第2話者の感情として、喜怒哀楽の4種類の感情を適用してもよい。また、例えば、第2話者の感情として、第2話者の機嫌の良し悪しを表す機嫌度を適用してもよい。この場合、機嫌が良いほど機嫌度の値を高い値とする形態が例示される。
次に、図5を参照して、本実施形態に係る音声出力装置12及び音声出力装置14の機能的な構成を説明する。図5に示すように、音声出力装置12は、受付部60、送信部62、受信部64、及び出力部66を含む。また、音声出力装置14は、受付部70、受信部72、推定部74、及び送信部76を含む。
音声出力装置12のCPU21が記憶部23に記憶された音声応答プログラム30を実行することにより、図5に示す受付部60、送信部62、受信部64、及び出力部66として機能する。また、音声出力装置14のCPU41が記憶部43に記憶された推定プログラム52を実行することにより、図5に示す受付部70、受信部72、推定部74、及び送信部76として機能する。
音声出力装置12の受付部60は、第1話者による第2話者に関する発話を、音声入力部26を介して受け付ける。送信部62は、受付部60により受け付けられた発話を示す発話情報を、通信I/F24を介して音声出力装置14に送信する。
受信部64は、後述する音声出力装置14の送信部76により送信された、第1話者への応答に用いられる出力情報を、通信I/F24を介して受信する。出力部66は、受信部64により受信された出力情報を音声出力部27に出力する。
音声出力装置14の受付部70は、第2話者による発話を、音声入力部46を介して受け付ける。そして、受付部70は、受け付けた発話を示す発話情報を記憶部43に記憶する。受信部72は、音声出力装置12により送信された発話情報を、通信I/F44を介して受信する。
推定部74は、受信部72により第2話者に関する発話を含む発話情報が受信されると、第2話者の現在の感情を推定する。具体的には、推定部74は、受付部70により受け付けられ、記憶部43に記憶された直近の所定期間内の第2話者による発話を示す発話情報を取得する。また、推定部74は、取得した発話情報の音声情報を分析することによって、第2話者の現在の感情を推定する。
また、推定部74は、推定した第2話者の現在の感情に対応する第2話者の機嫌度が、機嫌が悪い度合いとして予め定められた度合いである場合に、第2話者の現在の感情と第2話者の現在の感情に応じた単語とを含む出力情報を生成する。具体的には、推定部74は、推定した第2話者の現在の感情が「怒り」である場合、第2話者の機嫌が良くなると推定される感情(本実施形態では、「喜び」)を推定モデル50に入力し、推定モデル50から出力された単語を取得する。そして、この場合、推定部74は、推定した第2話者の現在の感情と取得した単語とを含む出力情報を生成する。
一方、推定部74は、推定した第2話者の現在の感情に対応する第2話者の機嫌度が、機嫌が普通又は良い度合いとして予め定められた度合いである場合に、第2話者の現在の感情を含む出力情報を生成する。具体的には、推定部74は、推定した第2話者の現在の感情が「平静」又は「喜び」である場合、第2話者の現在の感情を含む出力情報を生成する。
なお、推定部74は、推定した第2話者の現在の感情が「平静」である場合に、第2話者の機嫌が良くなると推定される感情(この場合は、「喜び」)を推定モデル50に入力し、推定モデル50から出力された単語を取得してもよい。そして、この場合、推定部74は、推定した第2話者の現在の感情と取得した単語とを含む出力情報を生成する。
送信部76は、推定部74により生成された出力情報を、通信I/F44を介して音声出力装置12に送信する。
次に、図6及び図7を参照して、本実施形態に係る音声出力システム10の作用について説明する。なお、図6は、本実施形態に係る音声出力装置14のCPU41で実行される発話記憶処理の流れの一例を示すフローチャートである。また、本実施形態では、図6に示す発話記憶処理は、記憶部43に予め記憶された推定プログラム52をCPU41が実行することにより実行される。また、図6に示す発話記憶処理は、例えば、第2話者による発話が音声出力装置14に入力された場合に実行される。
また、図7は、本実施形態に係る音声出力装置12のCPU21及び音声出力装置14のCPU41で実行される音声応答処理の流れの一例を示すシーケンス図である。また、本実施形態では、図7に示す音声応答処理における音声出力装置12による処理は、記憶部23に予め記憶された音声応答プログラム30をCPU21が実行することにより実行される。図7に示す音声応答処理における音声出力装置14による処理は、記憶部43に予め記憶された推定プログラム52をCPU41が実行することにより実行される。また、図7に示す音声応答処理は、例えば、第1話者による発話が音声出力装置12に入力された場合に実行される。
図6のステップS10で、受付部70は、第2話者による発話を、音声入力部46を介して受け付ける。ステップS12で、受付部70は、ステップS10の処理により受け付けた発話を示す発話情報を記憶部43に記憶する。ステップS12の処理が終了すると、発話記憶処理が終了する。
図7のステップS20で、音声出力装置12の受付部60は、第1話者による第2話者に関する発話を、音声入力部26を介して受け付ける。例えば、受付部60は、第1話者による「妻の機嫌」といった発話を、音声入力部26を介して受け付ける。ステップS22で、音声出力装置12の送信部62は、ステップS20の処理により受け付けられた発話を示す発話情報を、通信I/F24を介して音声出力装置14に送信する。
ステップS24で、音声出力装置14の受信部72は、ステップS22の処理により音声出力装置12から送信された発話情報を、通信I/F44を介して受信する。ステップS26で、音声出力装置14の推定部74は、前述したように、記憶部43に記憶された直近の所定期間内の第2話者による発話を示す発話情報を取得する。そして、推定部74は、取得した発話情報の音声情報を分析することによって、第2話者の現在の感情を推定する。
ステップS28で、音声出力装置14の推定部74は、前述したように、ステップS26の処理により推定された第2話者の現在の感情に対応する第2話者の機嫌度が、機嫌が悪い度合いとして予め定められた度合いである場合、以下に示す出力情報を生成する。すなわち、この場合、推定部74は、推定モデル50を用いて、第2話者の現在の感情に応じた単語を取得し、第2話者の現在の感情と取得した単語とを含む出力情報を生成する。
また、推定部74は、前述したように、ステップS26の処理により推定された第2話者の現在の感情に対応する第2話者の機嫌度が、機嫌が普通又は良い度合いとして予め定められた度合いである場合、第2話者の現在の感情を含む出力情報を生成する。
ステップS30で、音声出力装置14の送信部76は、ステップS28の処理により生成された出力情報を、通信I/F44を介して音声出力装置12に送信する。
ステップS32で、音声出力装置12の受信部64は、ステップS30の処理により音声出力装置14から送信された出力情報を、通信I/F24を介して受信する。ステップS34で、音声出力装置12の出力部66は、ステップS32の処理により受信された出力情報を音声出力部27に出力する。ステップS34の処理により、音声出力部27から出力情報に応じた音声が出力される。例えば、「妻の機嫌」という第1話者による第2話者に関する発話に対する応答として、「妻の感情は怒りです。ケーキを買って帰ってはいかがでしょう。」という音声が音声出力部27から出力される。ステップS34の処理が終了すると、音声応答処理が終了する。
以上説明したように、本実施形態によれば、第2話者の感情に応じた単語を含む応答が音声により出力される。従って、第1話者の発話に対する応答に第2話者の感情を反映させることができる。この結果、第1話者と第2話者との人間関係を円滑にすることができる。
なお、上記実施形態では、音声出力装置12が第1話者により車両内に持ち込まれ、音声出力装置14が第2話者により家屋内に設置されている場合について説明したが、これに限定されない。例えば、音声出力装置12及び音声出力装置14が、それぞれ同じ家屋内の異なる部屋に設置されている形態としてもよい。また、例えば、音声出力装置14が第2話者により車両内に持ち込まれ、音声出力装置12が第1話者により家屋内に設置されている形態としてもよい。
また、例えば、音声出力装置14が車両内に存在する場合、第2話者により発話された音声に加えて、第2話者による車両の運転の仕方も用いて、第2話者の感情を推定する形態としてもよい。この場合、ステアリングの操舵角を検出する操舵角センサ、車両の加速度を検出する加速度センサ、及びアクセルの開度を検出するアクセル開度センサの少なくとも一つの出力を用いて、第2話者による車両の運転の仕方を導出する形態が例示される。
また、上記実施形態では、第2話者により発話された音声から第2話者の感情を推定する場合について説明したが、これに限定されない。例えば、第2話者により発話された音声と第2話者の心拍数及び血圧等の生体データとから第2話者の感情を推定する形態としてもよい。この場合、音声出力装置14が、第2話者が身に着けているウェラブルデバイスから第2話者の生体データを取得する形態が例示される。
また、上記実施形態において、音声出力装置12が、カーナビゲーションシステムを制御し、出力情報に含まれる単語に応じた位置を目的地に設定する形態としてもよい。例えば、出力情報に含まれる単語が「ケーキ」であった場合、車両の現在位置の周辺に存在するケーキが買える店舗を目的地として設定する形態が例示される。
また、上記実施形態では、機械学習により得られた学習済みモデルである推定モデル50を用いて、第2話者の現在の感情に応じた単語を取得する場合について説明したが、これに限定されない。予め第2話者の感情と単語とを対応付けたテーブル等の対応付け情報を音声出力装置12の記憶部23に記憶しておき、この対応付け情報を用いて、第2話者の現在の感情に応じた単語を取得する形態としてもよい。
また、上記実施形態において、第2話者の現在の感情に応じた帰宅時刻を出力情報に含める形態としてもよい。
また、上記実施形態におけるCPU21、41により行われる処理は、プログラムを実行することにより行われるソフトウェア処理として説明したが、ハードウェアで行われる処理としてもよい。また、CPU21、41により行われる処理は、ソフトウェア及びハードウェアの双方を組み合わせて行われる処理としてもよい。また、記憶部23に記憶される音声応答プログラム30、及び記憶部43に記憶される推定プログラム52は、各種記憶媒体に記憶して流通させてもよい。
また、本発明は、上記の形態例に限定されるものではなく、上記の形態例以外にも、その主旨を逸脱しない範囲内において種々変形して実施可能であることは勿論である。
10 音声出力システム
12、14 音声出力装置
21、41 CPU(推定部、出力部)
22、42 メモリ
23、43 記憶部
26、46 音声入力部
27、47 音声出力部
30 音声応答プログラム
50 推定モデル
52 推定プログラム
60、70 受付部
62、76 送信部
64、72 受信部
66 出力部
74 推定部
12、14 音声出力装置
21、41 CPU(推定部、出力部)
22、42 メモリ
23、43 記憶部
26、46 音声入力部
27、47 音声出力部
30 音声応答プログラム
50 推定モデル
52 推定プログラム
60、70 受付部
62、76 送信部
64、72 受信部
66 出力部
74 推定部
Claims (1)
- 第1話者による発話に対する応答を音声出力部から音声により出力する音声出力装置であって、
前記第1話者とは異なる第2話者により発話された音声から前記第2話者の感情を推定する推定部と、
前記第2話者に関する前記第1話者による発話に対する応答を音声により出力する場合に、前記第2話者の感情に応じた単語を含む応答を示す出力情報を前記音声出力部に出力する出力部と、
を備えた音声出力装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017237523A JP2019105711A (ja) | 2017-12-12 | 2017-12-12 | 音声出力装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017237523A JP2019105711A (ja) | 2017-12-12 | 2017-12-12 | 音声出力装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019105711A true JP2019105711A (ja) | 2019-06-27 |
Family
ID=67061229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017237523A Pending JP2019105711A (ja) | 2017-12-12 | 2017-12-12 | 音声出力装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019105711A (ja) |
-
2017
- 2017-12-12 JP JP2017237523A patent/JP2019105711A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854527B2 (en) | Electronic device and method of controlling speech recognition by electronic device | |
EP3248189B1 (en) | Environment adjusted speaker identification | |
US11183187B2 (en) | Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog | |
US20200027455A1 (en) | Dialog system, dialog method, dialog apparatus and program | |
US11222633B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
Hwang et al. | TalkBetter: family-driven mobile intervention care for children with language delay | |
JP6719741B2 (ja) | 対話方法、対話装置、及びプログラム | |
US20210287655A1 (en) | Information processing apparatus and information processing method | |
US10964323B2 (en) | Acquisition method, generation method, system therefor and program for enabling a dialog between a computer and a human using natural language | |
JP7416295B2 (ja) | ロボット、対話システム、情報処理方法及びプログラム | |
JP2008125815A (ja) | 会話ロボットシステム | |
JP2019105711A (ja) | 音声出力装置 | |
JP2008107673A (ja) | 会話ロボット | |
JP6647636B2 (ja) | 対話方法、対話システム、対話装置、及びプログラム | |
Moritz et al. | Ambient voice control for a personal activity and household assistant | |
JP2020042074A (ja) | 音声対話装置、音声対話方法および音声対話プログラム | |
JP6657048B2 (ja) | 処理結果異常検出装置、処理結果異常検出プログラム、処理結果異常検出方法及び移動体 | |
Aicher et al. | Towards building a spoken dialogue system for argument exploration | |
JP2021114004A (ja) | 情報処理装置及び情報処理方法 | |
WO2021064947A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP7286303B2 (ja) | 会議支援システム及び会議用ロボット | |
KR20210073461A (ko) | 에이전트 관리 장치, 프로그램, 및 에이전트 관리 방법 | |
KR102147835B1 (ko) | 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법 | |
JPWO2017200075A1 (ja) | 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム | |
JP2022054671A (ja) | 音声対話装置、音声対話システム、および、音声対話方法 |