JP2014219617A - 音声案内システム及び音声案内方法 - Google Patents

音声案内システム及び音声案内方法 Download PDF

Info

Publication number
JP2014219617A
JP2014219617A JP2013100016A JP2013100016A JP2014219617A JP 2014219617 A JP2014219617 A JP 2014219617A JP 2013100016 A JP2013100016 A JP 2013100016A JP 2013100016 A JP2013100016 A JP 2013100016A JP 2014219617 A JP2014219617 A JP 2014219617A
Authority
JP
Japan
Prior art keywords
voice
information
communication
guidance
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013100016A
Other languages
English (en)
Inventor
大介 廣木
Daisuke Hiroki
大介 廣木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2013100016A priority Critical patent/JP2014219617A/ja
Publication of JP2014219617A publication Critical patent/JP2014219617A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

【課題】音声案内の変化に起因するユーザの違和感を緩和することのできる音声案内システム、及び、音声案内方法を提供する。【解決手段】音声案内システムは、入力される案内情報に対応して音声を提供出力する音声合成部16と、音声合成部16に入力される案内情報を生成するとともに、その生成した案内情報を通信回線を介して音声合成部16に送信するセンター対話処理部21とを備える。音声案内システムは、通信回線の通信状態を監視し、通信状態が変化した旨を音声合成部16に提供する通信監視部15を備え、音声合成部16は、通信監視部15から提供される通信状態が変化した旨の通知を、通信回線の通信状態の変化に対応する品質による音声を通じて行う。【選択図】図1

Description

本発明は、通信回線を介して提供される各種情報を音声にて案内する音声案内システム、及び、音声案内方法に関する。
周知のように、移動体に搭載されている装置などを含む多種多様な装置には、ユーザに対する各種の案内情報を音声を通じて提供するシステムが採用されていることも少なくない。そして、このような音声案内の元になる案内情報は、その作成が容易な、もしくは限られた情報であれば、移動体に設置されている装置が状況に応じて自動作成、もしくは記憶されている情報を選択して提供されることが多い。一方、情報作成に高い処理能力が必要とされる案内情報は、高い処理能力を有する情報処理センターなどによって作成され、その作成された情報が通信回線を介して提供されていることが多い。
ところで、情報処理センターから提供される案内情報は、その案内情報の伝達に用いられる通信回線の通信状態が悪化することによって、その提供が途絶えてしまう可能がある。特に、携帯電話回線などの無線通信による通信回線を介して情報処理センターから移動体に提供される案内情報は、移動体の移動に伴う環境の変化、例えばトンネル内や地下道、あるいはビルの陰になるなどにより通信状態が悪化すると、案内情報の伝達が途絶えることも避けられない。そこで、情報処理センターからの案内情報の提供が通信状態の悪化、例えば切断によって途絶えてもそのような状況に対応することのできるシステムの一例が特許文献1に記載されている。
特許文献1に記載のシステムは、音声対話中に通信回線が切断されても、簡単且つ短時間でその音声対話の切断された位置から音声対話を再開させることのできるシステムである。つまりこのシステムは、双方向通信による対話フローに従って音声対話を行う車載端末とサーバとを備え、車載端末には対話フロー中の対話開始位置をサーバに送信する制御手段を設け、サーバには車載端末から受信した対話開始位置から音声対話を開始させる対話制御手段を設けている。
特開2005−250379号公報
ところで近年は、音声案内技術の向上に伴い、装置による音声発話もより自然に感じられるようになってきている。すなわち、音声案内に対するユーザの違和感も低減されつつある。一方、自然に感じられる音声案内ほど、その音声の発話を処理している装置等の存在そのものをユーザに意識させないようにしているため、通信状態の悪化等により音声案内が突然中断されるようなことがあると、ユーザにとっては戸惑いや不安などの違和感も避けられない。つまり、特許文献1に記載のシステムなどのように、中断された対話の再開が適切になされるとしても、音声案内の中断によりユーザが感じるであろう違和感までは軽減することができない。
なお、こうした音声案内に関するユーザにとっての戸惑いや不安などの違和感は、音声案内が中断されるときに限らず、音声案内の状態に変化が生じるとき、例えば中断された音声案内が復帰されるようなときも同様に避けがたい。
本発明は、このような実情に鑑みなされたものであって、その目的は、音声案内の変化に起因するユーザの違和感を緩和することのできる音声案内システム、及び、音声案内方法を提供することにある。
以下、上記課題を解決するための手段及びその作用効果を記載する。
上記課題を解決する音声案内システムは、入力される案内情報に対応して音声を提供出力する音声提供装置と、前記音声提供装置に入力される案内情報を生成するとともに、その生成した案内情報を通信回線を介して前記音声提供装置に送信する情報生成装置とを備える音声案内システムであって、前記通信回線の通信状態を監視し、通信状態が変化した旨を前記音声提供装置に提供する通信監視部を備え、前記音声提供装置は、前記通信監視部から提供される通信状態が変化した旨の通知を、前記通信回線の通信状態の変化に対応する品質による音声を通じて行うことを要旨とする。
上記課題を解決する音声案内方法は、入力される案内情報に対応して音声を提供出力する音声提供装置と、前記音声提供装置に入力される案内情報を生成するとともに、その生成した案内情報を通信回線を介して前記音声提供装置に送信する情報生成装置とを備えるシステムを通じて音声案内する音声案内方法であって、前記通信回線の通信状態を監視する装置を通じて通信状態を監視し、通信状態が変化した旨を当該装置から前記音声提供装置に提供する工程と、前記提供される通信状態が変化した旨の通知を前記音声提供装置から前記通信回線の通信状態の変化に対応する品質による音声を通じて行う工程とを備えることを要旨とする。
このような構成もしくは方法によれば、通信回線の通信状態が変化したとき、その旨が通信回線の変化に対応する品質による音声で通知されるため、運転者などのユーザがその音声を通じて、通信状態の変化を認知することができるようになる。特に、通信回線の切断も含む通信状態の悪化による音声案内の中断は、ユーザに違和感を与えるおそれがあるが、そうした中断の原因となる通信状態の悪化を、対応する品質による音声として通知し、ユーザに認知させることによって、ユーザの違和感も緩和されるようになる。
また、通信回線は有線通信回線であってもよいが、このように音声案内が中断するなどの現象は無線通信回線にあってより顕著であり、上記違和感の緩和効果も高い。
好ましい構成として、前記音声提供装置及び前記通信監視部は移動体に搭載されたものであり、前記情報生成装置は前記移動体の外部に設置されたものである。
このような構成によれば、移動体と、その外部に設置されている情報生成装置と間の通信回線の通信状態は、移動体の移動によって変化する可能性が高い。この点、このような構成により、移動体を利用するユーザにおいても通信状態の変化に基づく案内情報の変化に対して生じる違和感が抑制されるようになる。
好ましい構成として、前記通信監視部は、前記通信回線の通信状態の変化として通信状態が悪化した旨を前記音声提供装置に提供するものであり、前記音声提供装置は、前記通信回線の通信状態の悪化に対応する品質による音声として、通常の音声案内で使用する音声品質よりも低い品質の音声を用いる。
このような構成によれば、音声の品質を通常の音声案内で使用する品質より低下させることにより、通信状態の悪化を違和感なくユーザに認知させることができるようになる。
なお、通信状態の悪化とは、所定の時間間隔で所定のデータ量の情報を通信することができなくなる状態を示し、これには時間間隔が延びたり、時間当たりのデータ量が減少したりすることや、通信そのものができなくなる通信回線の切断等も含まれる。
好ましい構成として、前記音声提供装置は、前記通常の音声案内で使用する音声品質よりも低い品質の音声として、音調の変化を抑制した音声を用いる。
このような構成によれば、音調の変化を抑制した音声、いわゆる棒読みのような音声を用いることによって、ユーザに音声案内の調子、すなわち通信状態の調子がよくないことを認知させることができるようになる。
好ましい構成として、前記音声提供装置は、前記通信回線の通信状態の変化に対応する品質による音声として、通信状態の変化を表す語句を含む音声を用いる。
このような構成によれば、通信状態の変化に対応する品質による音声が、通信状態の変化を表す語句を含む音声を通じて行われるため、ユーザにとっても違和感のない受け入れやすいものとなる。
好ましい構成として、音声案内システムは、発話による音声情報を検知するとともに、この検知した音声情報を前記通信回線を介して前記情報生成装置に送信する音声情報送信装置を備え、前記情報生成装置は、前記送信された音声情報を音声認識処理し、該認識処理した音声情報に対応する案内情報を生成するものであり、前記通信監視部は、前記通信回線を介して前記音声情報送信装置が前記情報生成装置へ前記音声情報を送信するときの通信状態の変化を含むかたちで前記通信回線の通信状態を監視する。
このような構成によれば、音声案内を受けるとき、その音声案内を要求する指示そのものがユーザの音声によることも多い。その点、このような構成によれば、通信監視部による通信回線の通信状態の変化に、音声情報送信装置から情報生成装置への音声情報の通信状態の変化が含まれるようになる。これにより、音声による指示が情報生成装置に伝達されないことにより案内情報が生成されない場合を含めて、ユーザの違和感が緩和されるようになる。
好ましい構成として、前記通信監視部は、前記音声情報送信装置が送信した音声情報に対応する案内情報が受信される状態である対話状態を、前記音声情報送信装置が前記情報生成装置へ音声情報を送信してからその音声情報に対応する案内情報が受信されるまでの間隔と、対話を正常に行うことのできる最長の間隔である対話可能間隔との比較により監視するとともに、対話状態が変化した旨を前記音声提供装置にさらに提供するものであり、前記音声提供装置は、前記通信監視部から提供される対話状態の変化についても対応する品質による音声を通じて通知を行う。
このような構成によれば、対話状態の変化に対応する通知も音声を通じて行われるようになるため、対話として不自然な間隔が生じるような場合にも、ユーザの違和感が緩和されるようになる。
好ましい構成として、音声案内システムは、前記情報生成装置が生成する案内情報よりも限られた情報からなる案内情報を生成もしくは記憶するとともに、その生成もしくは記憶した案内情報を前記音声提供装置に入力することのできる限定情報発生装置をさらに備え、前記音声提供装置は、前記通信監視部から状態が変化したことが提供されることを条件に、入力する案内情報を前記限定情報発生装置から入力される案内情報に切り換える。
このような構成によれば、通信状態の悪化等によって情報生成装置から案内情報が得られなくなり、音声案内の継続が困難になったとしても、案内情報の入力先を情報生成装置から限定情報発生装置に切り換えることにより、限られた案内情報ではあるものの、その限られた案内情報に基づいて音声案内が継続されるようになる。また、通信状態の変化が通知されてから案内情報が切り換えられるため、音声案内からの案内情報の内容が通常よりも、限られていたり、精度が低かったりしても、ユーザは違和感なく案内情報が切り換えられたことを認知することができるようになる。
好ましい構成として、前記音声提供装置は、入力する案内情報を前記限定情報発生装置から入力される案内情報に切り換える際、案内情報の入力源が前記情報生成装置から前記限定情報発生装置に切り換えられることを表す語句を音声に含めて通知する。
このような構成によれば、情報生成装置から限定情報発生装置への切換がその旨を示す語句を通じて通知されるため、こうした切り換えにかかる違和感の低減効果がより助長されるようになる。
音声案内システムの第1の実施形態について、その概略構成を示すブロック図。 同音声案内システムにおける音声合成部の概略構成を示すブロック図。 同音声案内システムの対話開始処理を示すシーケンス図。 同音声案内システムの通常対話処理を示すシーケンス図。 同音声案内システムの回線切断処理を示すシーケンス図。 同音声案内システムの回線状態悪化時処理を示すシーケンス図。 音声案内システムの第2の実施形態について、その概略構成を示すブロック図。 同音声案内システムの回線切断処理を示すシーケンス図。 同音声案内システムの代理応答処理を示すシーケンス図。 同音声案内システムの通常対話復帰処理を示すシーケンス図。
(第1の実施形態)
音声案内システムを具体化した第1の実施形態について、図1〜6に従って説明する。
図1に示すように、音声案内システムは、移動体としての車両10と、車両10に音声案内用の案内情報を送信する情報処理センター20とを備えている。
情報処理センター20は、車両10の外部に設置されている。情報処理センター20は、車両10との間で行う音声対話に基づいて車両10に案内情報を提供するものであって、車両10から音声に基づく要求を受けるとともに、受けた要求に対応する案内情報を車両10が音声で提供出力可能な情報として出力する。
情報処理センター20は、車両10との間で相互のデータ通信を行うことができる通信部(図示略)と、車両10に提供する案内情報を生成する情報生成装置及び入力源としてのセンター対話処理部21とを備えている。
通信部は、情報処理センター20と車両10との間に通信回線を確保することによって、当該通信回線を介して情報処理センター20と車両10との間でデータの送受信が行えるようにする。本実施形態では、通信部により確保される通信回線は、無線通信を含み構成されているが、有線通信のみにより構成されていてもよい。
センター対話処理部21は、車両10に対して音声対話に基づく案内情報の提供を行う。センター対話処理部21は、車両10から入力した音声に基づく送信信号を音声認識処理してその音声に含まれる単語を抽出し、当該抽出された単語に基づいて入力した音声の内容を解釈する。また、センター対話処理部21は、解釈した音声内容に対応する適切な応答内容からなる案内情報を生成するための各種処理を行う。例えば、センター対話処理部21は、解釈した音声内容が「現在位置に近い飲食店の検索」であれば、地図情報やインターネット等の情報の検索結果に基づいて現在位置に近い飲食店に関する情報からなる案内情報を生成する。また例えば、センター対話処理部21は、解釈した音声内容が「車両10の操作に関する質問」であれば、その質問への答えとなる操作についての操作手順などの情報を、車両10の車種情報などに基づいて検索したデータベースから取得し、その取得した情報からなる案内情報を生成する。また例えば、センター対話処理部21は、解釈した音声内容には、案内情報の生成に必要な情報が不足していると判断した場合、その足りない情報を車両10のユーザに問い合わせるための質問からなる案内情報を生成する。
センター対話処理部21は、案内情報を、音声データ、テキストデータ及びコマンド等のデータの少なくとも1つからなるデータとして生成する。音声データは、オーディオ機能を利用して再生可能なデータであり、例えばMP3フォーマットのデータなどである。テキストデータは、音声合成により読み上げ可能なテキスト情報からなるデータなどである。コマンド等のデータは、そのプログラムやコマンドに基づいて音声合成処理をすることのできるデータである。
センター対話処理部21には、繰り返し利用されることの多い語句や文が音声データとして予め記憶されており、それらの語句や文が案内情報として利用される際、その記憶されている音声データが選択される。なお、音声データは、自然な発音の音声を録音して作成されたデータであって、提供される音声は自然な音声となる。
センター対話処理部21は、利用頻度の少ない語句や文などの音声データとして記憶されていない語句や文については、案内情報として必要とされる都度、テキストデータとして生成する。なお、音声データが記憶されていたとしてもテキストデータを生成してもよい。通常、テキストデータは音声データよりもデータ量が少ないため、案内情報のデータ量を減らすことができる。また、テキストデータは、音声の抑揚やアクセントなどの情報を含まないため、音声合成により生成される音声には、通常、音声データにより提供される音声と比較して不自然な感じが残る。
センター対話処理部21は、車両10に記憶されている語句や定型文を用いるなど、車両10に搭載されている機能を用いて文を生成させるとき、その文を生成させるためのプログラムやコマンドなどを生成する。なお、車両10にて生成することのできる文は、車両10に搭載されている機能に依存する。
なお、案内情報として提供される情報に含まれる複数の語句や文には、センター対話処理部21に音声データとして記憶されている語句や文や、記憶されていない語句や文や、車両10にて生成可能な語句や文が組み合わされて含まれていることもある。そのため、センター対話処理部21は案内情報を、音声データ、テキストデータ及びコマンド等のデータの少なくとも2つを組み合わせた情報として生成することができる。
図1に示すように、車両10は、乗用車や、バス、トラックなど、道路を走行する各種車両、いわゆる自動車である。車両10は、ユーザである乗員の音声に対応するものとして生成された案内情報を音声案内としてユーザに提供することができる。車両10は、ユーザの音声に基づく送信信号を情報処理センター20へ送信するとともに、その送信した送信信号に対応する案内情報を該情報処理センター20から受信して音声に変換し、音声案内としてユーザへ提供する。
車両10は、送信信号を情報処理センター20へ出力する音声情報送信装置としての送信部13と、案内情報を該情報処理センター20から受信する受信部14とを備える。つまり、車両10は送信部13と情報処理センター20の通信部との間に確保される送信用の通信回線を介して送信信号を送信し、情報処理センター20の通信部と受信部14との間に確保される受信用の通信回線を介して案内情報を受信する。上述のように、送信用の通信回線及び受信用の通信回線には無線通信が含まれる。また、送信用の通信回線及び受信用の通信回線は、送受信に共用される一つの通信回線から構成されていても、送受信の別に設けられる通信回線から構成されていてもよい。
車両10は、ユーザの音声が入力される音声入力部11と、音声入力部11に入力された音声を通信回線に送信可能な送信信号に変換して送信部13へ出力する音声処理部12とを備えている。また、車両10は、受信部14から案内情報が入力されるとともに、入力された案内情報を出力信号に変換する音声提供装置としての音声合成部16と、音声合成部16により変換された出力信号を音声に変換して出力する音声出力部17とを備えている。また車両10は、送信用の通信回線の通信状態、及び受信用の通信回線の通信状態を監視する通信監視部15を備える。
通信監視部15は、送信部13による送信信号の送信状態を監視することによって送信用の通信回線の通信状態を監視するとともに、受信部14による受信信号の受信状態を監視することによって受信用の通信回線の通信状態を監視する。通信監視部15は、送信部13の送信状態や受信部14の受信状態が正常であるとき、通信状態は「正常な状態」である旨を検出する一方、送信部13の送信状態又は受信部14の受信状態が「正常な状態」ではないとき、通信状態は「悪い状態」である旨を検出する。つまり、通信監視部15は、通信状態が「正常な状態」から「悪い状態」への変化や、通信状態が「悪い状態」から「正常な状態」への変化を検出することができる。なお、通信状態が「悪い状態」である旨は、通常、通信装置が通信のために行う通信回線に対する監視機能によって検出することが可能であり、例えば、回線の通信レートが低下していることや、送受信のやり直しが頻発していることや、回線が切断されていることなどに基づいて検出される。また、通信状態の「悪い状態」のレベルを、通信レートの値や、送受信のやり直し回数などに応じて多段階に区分することもできる。
また、本実施形態では、通信監視部15は、車両10と情報処理センター20との間の音声対話の状況である対話状態についても監視する。通信監視部15は、送信部13から送信した出力信号に対応した応答である案内情報が受信部14から得られたとき、その出力信号が送信されてから対応する案内情報が受信されるまでの時間を応答間隔として検出する。また、通信監視部15は、正常に対話が成立する最長の応答間隔を対話可能間隔として保持している。対話可能間隔は、実験等によって予め定められている。そして、通信監視部15は、応答間隔が対話可能間隔以下の間隔であるとき、対話状態は「正常な状態」であると検出する一方、応答間隔が対話可能間隔より長い間隔であるとき、対話状態は「悪い状態」であると検出する。「悪い状態」は、例えば、通信回線の混雑、センターの処理負荷の増大、応答時間の遅延など、対話が成立する応答時間の保証ができなくなったとき検出される。つまり、通信監視部15は、対話状態の「正常な状態」から「悪い状態」への変化や、対話状態の「悪い状態」から「正常な状態」への変化を検出することができる。なお、応答間隔が対話可能間隔よりも長くなる要因に通信状態の「悪い状態」が含まれるか否かは必ずしも特定できないため、通信監視部15は、通信状態が「悪い状態」を含むかたちで、対話状態が「悪い状態」になったことを検出する。
通信監視部15は、音声対話が行われているとき、対話状態の監視を行うことが有効である。そこで通信監視部15は、音声対話が行われているとき、音声対話を監視する対話時監視モードに移行するとともに、対話時監視モードに移行することで対話準備が完了した旨をセンター対話処理部21へ送信するようにしてもよい。また通信監視部15は、音声対話が行われていない判断したとき、音声対話を監視しないモードである通常監視モードに移行するとともに、通常監視モードに移行したこと、つまり対話準備をしていない旨をセンター対話処理部21へ送信するようにしてもよい。
通信監視部15は、接続されている音声合成部16へ、通信回線の通信状態や対話状態のそのときの状態や、「正常な状態」から「悪い状態」に変化した旨や、「悪い状態」から「正常な状態」へ変化した旨などを通知する。本実施形態では、通信監視部15は、2つの状態、つまり「悪い状態」と「正常な状態」とを通知される場合について説明する。また、本実施形態では、「悪い状態」は、通信回線が切断されたときや、応答遅延が生じて応答間隔が、対話が可能な間隔より長い間隔になったときに通知される。なお、通信監視部15は、通信回線の通信状態や対話状態を多段階のレベルに区分して音声合成部16に通知してもよいが、3段階以上のレベルに区分された場合についての説明については割愛する。
音声出力部17は、いわゆるオーディオ機能を有する装置であって、入力された出力信号をスピーカなどからユーザが認知可能な音声として提供出力する。
音声入力部11は、車内のマイクなどの音声入力装置を含み構成されており、そのマイクに入力された運転者などを含むユーザの音声が音声信号に変換されて音声処理部12へ出力される。
音声処理部12は、音声入力部11から入力された音声信号を、送信用の通信回線を介して送信する送信信号に変換して送信部13へ出力する。音声処理部12は、送信信号を、音声信号をそのまま送信用のフォーマットに乗せるように生成してもよいし、音声信号を音声認識処理してテキストデータに変換してから送信用のフォーマットに乗せるように生成してもよい。また、音声処理部12は、送信信号を、音声信号を音声認識処理した結果のうちの一部のテキストデータのみから生成してもよいし、音声認識処理できた部分のテキストデータと音声認識処理のできなかった部分の音声信号との組み合わせとして生成してもよい。なお、音声処理部12において音声信号の音声認識処理が可能であったとしても車両10に搭載されているという制約の下では、情報処理センター20にて行われる音声認識処理よりもその認識精度や処理速度などが低いもとなることは避けられない。
音声合成部16は、情報処理センター20から入力された案内情報を受信部14から入力され、この入力された案内情報に対応する音声データを、録音音声や音声合成による合成音声などを用いて生成する。そして音声合成部16は、生成した音声データを所定の品質に調整し、この品質の調整された音声データを出力信号として音声出力部17へ出力する。また音声合成部16は、通信監視部15に接続されており、通信監視部15から通信回線の通信状態や対話状態の監視結果として、通信状態や対話状態が「悪い状態」である旨、又は、通信状態や対話状態が「正常な状態」である旨が通知される。そして、通知された状態に対応する音声データについても生成することができるとともに、その音声データの音声の品質(音質)も調整することができる。
図2に示すように、音声合成部16は、音声案内用の音声データを生成する録音音声再生部161と、音声対話用の音声データを録音音声から生成する録音音声再生部162と、テキスト情報から音声データを合成音声により生成するテキスト読み上げ(TTS)処理部163とが備えられている。
録音音声再生部161は、音声案内用の音声として再生することができる定型文の録音音声を複数有しており、それらの選択を指示する情報処理センター20から入力された案内情報に含まれているコマンド等に基づいて対応する音声データを生成する。なお、音声案内用の音声とは、ユーザへの案内通知に用いられる表現などからなる音声である。
録音音声再生部162は、音声対話用の音声として再生することができる定型文の録音音声を複数有しており、それらの選択を指示する情報処理センター20から入力された案内情報に含まれているコマンド等に基づいて対応する音声データを生成する。なお、音声対話用の音声とは、ユーザとの対話に用いられる表現などからなる音声である。
録音音声再生部161,162によって生成される音声データは、録音された音声に基づく音声データであるため、ユーザに自然な音声として提供することができる。
録音音声は、車両操作やナビゲーション装置の操作/ルート案内などで頻繁に利用される音声に用いられることが多い文に対応する音声である。つまり多用されることから、ユーザに違和感の少ない自然な音声として出力することができるようになっている。
本実施形態では、録音音声再生部161,162には定型文として、音声対話が開始されたことに対応する「音声対話を開始します。」との語句からなる音声などが記憶されている。また、音声対話が終了されたことに対応する「通信を終了します。」との語句からなる音声などが記憶されている。また、「悪い状態」に対応する「通信回線が切断されたため、応答できなくなりました。」や「通信が悪化しました。」との語句からなる音声などが記憶されている。また、「正常な状態」に対応する「通信が正常になりました。」との語句からなる音声などが記憶されている。
テキスト読み上げ(TTS)処理部163は、テキストに対応する音素を有しており、情報処理センター20から入力された案内情報に含まれているテキストデータに対応する音声データを生成(合成)することができる。TTS処理部163は、テキストを音声データにするため、音声データを生成する文の内容には制約がない一方、生成された音声データからは再生される音声はユーザに多少の違和感を与える音声となる。なお、近年では、録音音声の品質には及ばないものの、TTS処理部163により生成される音声データから再生される音声の品質も向上してきている。なお、音声合成は、周知の方法が適用されており、例えばテキストツースピーチ(TTS)ソフトウェアの演算処理により行われる。
よって音声合成部16は、案内情報に含まれている音声案内用の定型文の部分は録音音声再生部161により音声データを生成し、音声対話用の定型文の部分は録音音声再生部162により音声データを生成する。また音声合成部16は、案内情報に含まれているテキストデータの部分はTTS処理部163により音声データを生成する。なお音声合成部16は、案内情報に音声データが含まれている場合、その音声データを必要最小限の処理を施して利用し、音声データを生成する。また、音声合成部16は、通信監視部15より入力された通信状態や対話状態に対応するように、音声データを生成する処理や音声の品質の調整する処理を行うことができる。
本実施形態では、音声合成部16は、音声の品質が「通常の音声」又は「状態の悪い音声」になるように音声データを調整する。「通常の音声」に品質が調整された音声データは、ユーザに大きな違和感を持たせない音声として音声出力部17から出力される一方、「状態の悪い音声」に品質が調整された音声データは、ユーザに何らかの状態の悪化を感じさせる音声として音声出力部17から出力される。本実施形態では、音声合成部16は、音声データの品質を「通常の音声」又は「状態の悪い音声」の2つに調整する場合について説明するが、これに限らず、音声データの品質は3つ以上に調整されてもよい。
「通常の音声」は、ユーザが安心して聞くことのできる音声の品質を有し、音声案内一般に用いられているような音声である。「状態の悪い音声」は、「通常の音声」に対して声色やアクセントなどの音調が異なる音声の品質からなる音声である。
「悪い状態」に対応する品質とされる「状態の悪い音声」は、対話が困難であることを容易にユーザに理解させるような品質に調整される。つまり「状態の悪い音声」の品質としては、発話速度が遅い音声品質や、音声データの情報量が少ない音声品質や、ノイズが加えられた音声品質や、モノラル出力の音声品質や、抑揚が少ない音声品質や、音の高さが低い音声品質や、それら音声品質のうちの少なくとも2つが組み合わされた音声品質などが挙げられる。これにより、通信状態や対話状態が「悪い状態」に対応する「状態の悪い音声」を、あえて、抑揚を平坦に、人間的ではなく、機械的な音声などとして出力させることができるようになる。例えば、「状態の悪い音声」の態様には、音調の変化を抑制した音声、いわゆる棒読みのような音声が含まれる。なお、「状態の悪い音声」の音声品質は、「悪い状態」に対応付けられる品質として実験や、理論により得られる音調に対応する音声品質であれば、その音声品質であってもよい。
逆に「正常な状態」に対応する「通常の音声」の品質としては、発話速度が通常の音声品質や、音声データの情報量が多い音声品質や、ノイズの無い音声品質や、ステレオ出力の音声品質や、自然な抑揚の音声品質や、音の高さによる音声品質や、それら音声品質のうちの少なくとも2つが組み合わされた音声品質などが挙げられる。これにより、通信状態や対話状態が通常な状態に対応する「通常の音声」を、自然な抑揚を有し、人間的な音声として出力させることができるようになる。
なお、音声の品質は、男性又は女性を想起させる音声品質や、様々な発話速度の音声品質や、様々なビットレートの音声品質や、ノイズ等の他の音を加えた音声品質や、ステレオ出力又はモノラル出力の音声品質や、様々な抑揚の音声品質に調整することができる。またこうした音声品質は、それらの音声品質のうちの少なくとも2つが組み合わされた音声品質に調整されるものであってもよい。これにより、音声データを、「通常の音声」や「状態の悪い音声」を含む、その他、様々な感じのうちの1つを与える音調を有する音声に調整することができる。
これにより、音声合成部16は、生成した音声データを、通信監視部15から通知された通信状態や対話状態としての「悪い状態」又は「正常な状態」に対応する品質の音声に調整し、その調整された音声データを出力信号として音声出力部17へ提供出力することができる。
次に、この音声案内システムによる音声対話処理の動作について説明する。音声対話処理は、対話開始処理と、通常対話処理と、回線切断時処理と、回線状態悪化時処理とを含む。音声対話処理は、車両10において音声入力部11に音声が入力されることに応じて開始される。
図3を参照して、対話開始処理について説明する。対話開始処理では、ユーザMの発話音声に応じて車両10とセンター対話処理部21との間の対話処理が開始される。
車両10では、ユーザMの発話した音声が音声入力部11に入力される(ステップS10)。車両10は、音声入力部11から入力した音声信号を音声処理部12の音声認識処理によって送信信号に変換し(ステップS11)、この変換した送信信号を音声処理部12から送信部13へ伝達させる(ステップS12)とともに、送信部13から情報処理センター20のセンター対話処理部21へ送信させる(ステップS13)。なお、車両10は、送信部13から情報処理センター20への送信信号の通信状態を、通信監視部15により通常の監視モードで監視している(ステップS14)。なお、通信監視部15による通信状態の監視は、音声対話が行われていないときは通信状態の良否を監視する通常の監視モード(通常監視モード)で行われ、音声対話が行われているときは通信状態及び対話状態の良否を音声対話を監視するモード(対話時監視モード)で行われる。これら監視モードでは、適宜、それぞれの状態を監視することに適した所定の周期や所定の条件に従って各状態の監視が行なわれる。
センター対話処理部21は、車両10から受信した送信信号の内容を解析し、この送信信号に含まれている内容への応答となる案内情報を作成する(ステップS15)。また、センター対話処理部21は、送信信号の受信に応じて、車両10に音声対話を開始した旨を応答し(ステップS16)、車両10では、この応答がこれを受信した受信部14から通信監視部15に伝達されて(ステップS17)、通信監視部15の監視モードが対話時監視モードに移行される(ステップS18)。対話時監視モードへ移行されると、車両10は、対話準備が完了した旨の応答をセンター対話処理部21へ送信する(ステップS19)。
対話準備が完了した旨が受信されると、送信信号に対応する回答等として、センター対話処理部21は入力した送信信号の内容に対応して生成した案内情報を車両10に送信する(ステップS20)。案内情報を受信した車両10は、対話開始通知の音声データ及び案内情報に基づく音声データを生成するとともに、この音声データの品質を調整してから出力信号として音声出力部17へ出力する(ステップS21)。なお、このとき通信状態及び対話状態は「正常な状態」であることから、音声は「通常の音声」の品質に調整される。そして出力信号が入力された音声出力部17から、出力信号に基づく品質の音声にて音声が出力されることによって対話開始通知の内容と案内情報の内容とがユーザMに音声にて提供される(ステップS22)。
続いて、図4を参照し、通常対話処理について説明する。通常対話処理では、ユーザMの発話音声が車両10からセンター対話処理部21へ送信され、センター対話処理部21はユーザMの発話音声への回答等である案内情報を車両10へ送信する。
車両10は、ユーザMの発話した音声を音声入力部11を介して音声処理部12に入力させて送信信号に変換させるとともに、その変換させた送信信号を送信部13から情報処理センター20のセンター対話処理部21へ送信させる(ステップS30〜33)。なお、車両10では、監視モードを対話時監視モードに設定された通信監視部15によって、通信回線の送信状態及び対話状態が監視される(ステップS34)。そしてこのとき通信監視部15は、通信回線の通信状態及び対話状態とも「正常な状態」であるものと検出する。
センター対話処理部21は、車両10からの送信信号の内容解析に基づいてその内容への回答等として案内情報を生成し(ステップS35)、その生成した案内情報を車両10に送信する(ステップS36)。
案内情報を受信した車両10は、音声合成部16にて案内情報に基づく音声データを生成し(ステップS37)、その音声データの音声の品質を調整してから出力信号として音声出力部17へ出力する(ステップS38)。なお、音声合成部16は、受信した案内情報のデータが圧縮されていたようなとき、データを展開させてから利用できるようになっていてもよい。また、このとき通信状態及び対話状態は「正常な状態」であることから、音声は「通常の音声」の品質に調整される。そして出力信号が入力された音声出力部17は、「通常の音声」の品質に調整された音声データを音声として出力することによって、音声対話の応答音声をユーザMに提供する(ステップS39)。
また、図5を参照し、回線切断時処理について説明する。回線切断時処理では、通信状態が悪化したことを要因として、車両10とセンター対話処理部21との対話が不可能になったことが、対話が不可能になったことを表す語句容及び音声の品質を通じてユーザに通知される。
車両10では、送信部13又は受信部14から通信監視部15に通信回線が切断された旨の通知される(ステップS40)とともに、通信監視部15は音声合成部16に通信状態が「悪い状態」であることを通知する(ステップS41)。つまり、通信状態が「悪い状態」であることの通知が対話不可能発話要求に対応する。通信状態が「悪い状態」であることが通知されると、音声合成部16は、対話が不可能であることを表す語句に対応する音声データを生成するとともに、当該音声データの品質を「悪い状態」に対応する品質である「状態の悪い音声」に調整する(ステップS42)。すなわち音声合成部16は、通信状態が「悪い状態」であることに応じて、音声データの品質を、通信状態が「正常な状態」に対応する「通常の音声」から「悪い状態」に対応する「状態の悪い音声」に切り換える。そして、音声合成部16は、「状態の悪い音声」に品質が調整された音声データを出力信号として音声出力部17へ出力し(ステップS43)、音声出力部17は、出力信号に基づく音声を「状態の悪い音声」の品質の音声として出力する(ステップS44)。これにより、対話が不可能であることを表す音声、及びその音声の品質が「状態の悪い音声」に変化することによって、ユーザMに、車両10とセンター対話処理部21との対話が不可能になったことを容易に感じさせることができる。また、車両10とセンター対話処理部21との対話を意識していなかったようなユーザMに対して、今まで対話していたシステムとの対話が困難になったこと、及び、対話が不可能になったことが、その対話していたシステムとは別のシステムが通知してきたと感じさせることが期待される。これにより、ユーザが、対話しているシステムから突然「対話が不可能」であると通知されたものと誤解して生じる戸惑いや違和感が緩和されるようになる。
また、図6を参照し、回線状態悪化時処理について説明する。回線状態悪化時処理では、対話状態が「悪い状態」であることを要因として、車両10とセンター対話処理部21との対話が不可能になった旨が音声を通じてユーザに通知される。
車両10は、ユーザMの発話した音声を音声入力部11を介して音声処理部12に入力させて送信信号に変換させるとともに、その変換させた送信信号を送信部13から情報処理センター20のセンター対話処理部21へ送信させる(ステップS30〜S33)。なお、車両10では、監視モードを対話時監視モードに設定された通信監視部15によって、通信回線の送信状態及び対話状態が監視される(ステップS34)。
ところで、センター対話処理部21は、車両10からの送信信号の内容解析に基づいてその内容への回答等となる案内情報を生成するが(ステップS35)、何らかの理由でその生成した案内情報が、好適に対話をすることのできる間隔である対話可能間隔よりも長い間隔をあけて車両10に送信される(ステップS50)。
このとき通信監視部15は、送信信号に対応する案内情報を対話可能間隔以内で検出することができないため、センター対話処理部21とは対話不可能な状態であって対話状態が「悪い状態」であると判断する(ステップS51)。そして、通信監視部15は、音声合成部16に対話状態が「悪い状態」であることを伝達する(ステップS52)。つまり、通信監視部15は、「悪い状態」が伝達された音声合成部16に、対話が不可能であることを表す語句及び音声の品質を通じてユーザに通知することを要求する。
対話状態として「悪い状態」である旨が伝達されると、音声合成部16は、対話が不可能であることを表す語句に対応する音声データを生成するとともに、当該音声データの品質を「悪い状態」に対応する品質である「状態の悪い音声」に調整する。すなわち音声合成部16は、通信状態が「悪い状態」であることに応じて、音声データの品質を対話状態が「正常な状態」に対応する「通常の音声」から同対話状態が「悪い状態」に対応する「状態の悪い音声」に切り換える。そして、音声合成部16は、「状態の悪い音声」に品質が調整された音声データを出力信号として音声出力部17へ出力し(ステップS53)、音声出力部17は、出力信号に基づく音声を「状態の悪い音声」の品質の音声として出力する(ステップS54)。
これにより、音声案内の中断や応答間隔の変動など、その変化に起因するユーザの違和感を緩和することのできる音声案内システムを提供することができるようになる。
以上説明したように、本実施形態に係る音声案内システムは、以下に列記する効果を有する。
(1)音声案内システムは、通信回線の通信状態が変化したとき、その旨を通信回線の変化に対応する品質による音声で通知するため、運転者などのユーザはその音声を通じて、通信状態の変化を認知することができる。特に、通信回線の切断も含む通信状態の悪化による音声案内の中断は、ユーザに違和感を与えるおそれがあるが、そうした中断の原因となる通信状態の悪化を、対応する品質による音声として通知し、ユーザに認知させることによって、ユーザの違和感も緩和されるようになる。
また、通信回線は有線通信回線であってもよいが、このように音声案内が中断するなどの現象は送信部13や受信部14が確保する無線通信回線にあってより顕著であり、上記違和感の緩和効果も高い。
(2)車両10と、その外部に設置されているセンター対話処理部21との間の通信回線の通信状態は、車両10の移動によって変化する可能性が高い。この点、本実施形態では、車両10を利用するユーザにおいても通信状態の変化に基づく案内情報の変化に対して生じる違和感が抑制されるようになる。
(3)音声の品質を通常の音声案内で使用する品質より低下させることにより、通信状態の悪化(「悪い状態」)を違和感なくユーザに認知させることができるようになる。
なお、通信状態の悪化とは、所定の時間間隔で所定のデータ量の情報を通信することができなくなる状態を示し、これには時間間隔が延びたり、時間当たりのデータ量が減少したりすることや、通信そのものができなくなる通信回線の切断等も含まれる。
(4)音調の変化を抑制した音声、いわゆる棒読みのような音声を用いることによって、ユーザに音声案内の調子、すなわち通信状態の調子がよくないことを認知させることができるようになる。
(5)通信状態の変化に対応する品質による音声が、通信状態の変化を表す語句を含む音声を通じて行われるため、ユーザにとっても違和感のない受け入れやすいものとなる。
(6)音声案内を受けるとき、その音声案内を要求する指示そのものがユーザの音声によることも多い。その点、本実施形態では、通信監視部15による通信回線の通信状態の変化に、送信部13からセンター対話処理部21への音声情報の通信状態の変化が含まれるようになる。これにより、音声による指示がセンター対話処理部21に伝達されないことにより案内情報が生成されない場合を含めて、ユーザの違和感が緩和されるようになる。
(7)対話状態の変化に対応する通知も音声を通じて行われるようになるため、対話として不自然な間隔が生じるような場合にも、ユーザの違和感が緩和されるようになる。
(第2の実施形態)
次に、本発明にかかる音声案内システムの第2の実施形態について、図7〜図10を参照して説明する。
本実施形態では、通信状態や対話状態が悪化したとき車両10に搭載された限定情報発生装置及び入力源としての車載対話処理部18にて対話を継続する構成であることが第1の実施形態における構成と相違するが、それ以外の構成は同様である。そこで、以下では、第1の実施形態と相違する構成について説明し、説明の便宜上、同様の構成については同一の符合を付し、その詳細な説明を割愛する。
図7に示すように、車両10は、送信部13と受信部14とから通信状態などを得ることのできる通信監視部15Aと、音声処理部12の送信信号が入力される限定情報発生装置としての車載対話処理部18とを備えている。
まず本実施形態では、録音音声再生部161,162には、第1の実施形態で示した定型文の他に、代理応答が行われることに対応する「この音声にて案内を継続します。」、「案内をこの音声に変更します。」、「この案内がローカルモードに変更されました。」との語句からなる音声などが記憶されている。また、代理応答が行われることに対応する「音声認識の精度が低下する場合があります。」「案内精度が低下する場合があります。」との語句からなる音声などが記憶されている。
通信監視部15Aは、第1の実施形態の通信監視部15と同様に、通信回線の通信状態及び対話状態を監視する。通信監視部15Aは、監視結果を、音声合成部16及び車載対話処理部18へ伝達する。また、通信監視部15Aは、車載対話処理部18から対話処理中であるか否かの信号が入力される。通信監視部15Aは、車載対話処理部18が対話処理中ではない場合、監視モードを対話時監視モードにするとともに、車載対話処理部18が対話処理中である場合、監視モードを対話時監視モード(ローカル音声認識)にする。対話時監視モードでは、車両10と情報処理センター20との音声対話を監視する。一方、対話時監視モード(ローカル音声認識)では、車両10と情報処理センター20との音声対話が可能であるか否かを監視する。
車載対話処理部18は、車両10に対して音声対話に基づく案内情報の提供を行うことができる。車載対話処理部18は、音声処理部12から入力した送信信号を音声認識処理してその音声に含まれる単語を抽出し、当該抽出された単語に基づいて入力された音声の内容を解釈する。また、車載対話処理部18は、解釈した音声内容に対応する適切な応答内容からなる案内情報を生成するための各種処理を行う。例えば、車両10や搭載された機器に対する基本的な取り扱い手順に関する情報や、車両10に搭載されているナビゲーション装置の地図情報から取得できる情報を含む案内情報を生成することができる。
また車載対話処理部18は、通信監視部15Aから通信状態又は対話状態が「悪い状態」であることが通知されることを条件に、案内情報を生成するとともに、その生成した案内情報を音声合成部16へ提供する。つまり、車載対話処理部18は、車両10がセンター対話処理部21から案内情報を取得できなくなったときにのみ、センター対話処理部21に代わって案内情報を音声合成部16に提供する。これは、車載対話処理部18は、車両10に搭載されていることから、その演算処理能力や情報記憶容量、他のサーバとの通信速度などに多くの制約があり、生成することのできる案内情報の内容が、情報処理センター20により生成される案内情報よりも限られたものになるためである。
詳述すると、車載対話処理部18は、音声処理部12から入力された出力信号を音声認識処理して音声の内容を特定するものの、限られた処理能力及び時間(対話可能間隔)ではその音声認識の精度が情報処理センター20の音声認識の精度よりも低下することが避けられない。また車載対話処理部18は、音声内容に対応する案内情報を生成するものの、限られた処理能力及び時間(対話可能間隔)では情報を検索することのできる範囲及び処理できる情報量が限られるため、やはり情報処理センター20の生成する案内情報よりもその内容や精度が低下することが避けられない。そこで、センター対話処理部21による案内情報が得られないことを条件に車載対話処理部18が代理応答することで、たとえ通信状態や対話状態が「悪い状態」になったり、「悪い状態」であったとしても、ユーザが情報を必要とする案内情報を可能な範囲で音声にて提供するようにしている。これにより、情報を必要とするときの、ユーザの利便性が確保されるようにしている。
次に、この音声案内システムによる音声対話処理の動作について説明する。なおここでは音声対話処理のうち、第1の実施形態とは相違する処理を含む回線切断時処理と、第1の実施形態に含まれていない処理である代理応答処理及び通常対話復帰処理について説明する。
図8を参照し、回線切断時処理について説明する。回線切断時処理は、車両10とセンター対話処理部21との間で行われている通常対話処理の途中で通信状態が「悪い状態」になることにより実行される。回線切断時処理では、通信状態が「悪い状態」になると、車両10とセンター対話処理部21との通信が不可能になったこと、及び、車載対話処理部18が代理応答することが音声を通じてユーザに通知される。
車両10では、送信部13又は受信部14から通信監視部15Aに通信回線が切断された旨が通知される(ステップS60)ことによって、通信監視部15Aは音声合成部16及び車載対話処理部18に通信状態が「悪い状態」であることを通知する(ステップS61)。通信状態が「悪い状態」であることが通知されると、音声合成部16は、対話が不可能であることを表す語句に対応する音声、及び、代理応答が行われることを表す語句に対応する音声データを生成するとともに、当該音声データの品質を「悪い状態」に対応する品質である「状態の悪い音声」に調整する(ステップS62)。そして、音声合成部16は、「状態の悪い音声」に品質が調整された音声データを出力信号として音声出力部17へ出力し(ステップS63)、音声出力部17は、出力信号に基づく音声を「状態の悪い音声」の品質の音声として出力する(ステップS64)。これにより音声出力部17から対話が不可能になり代理応答が行われることを表す語句が「状態の悪い音声」である音声品質による音声が通知されることによって、ユーザMは、今まで対話していたシステムとの対話が他のシステムとの対話に切り替えられたと感じることが期待される。これにより、音声案内に使用される案内情報の生成がセンター対話処理部21から車載対話処理部18に変更されたにもかかわらず同じ品質の音声出力によって「対話が不可能」であることを通知したり、精度の低下した案内情報を提供したりすることでユーザに与える戸惑いや、違和感などを緩和させることができるようになる。
続いて、代理応答処理が行われる。この代理応答処理では、ユーザMとの対話が車載対話処理部18との間で行われるようになる。
図9に示すように、車両10は、ユーザMの発話した音声を音声入力部11を介して音声処理部12に入力させて送信信号に変換させるとともに、その変換させた送信信号を車載対話処理部18に入力させる(ステップS70,S71)。車載対話処理部18は、代理応答を開始した旨を通信監視部15Aに伝達することで、通信監視部15Aの監視モードを対話時監視モード(ローカル音声認識)に移行させる(ステップS72,S78)。なお、このときも引き続き、通信監視部15Aは、通信回線の通信状態又は対話状態が「悪い状態」であるものと検出する。
車載対話処理部18は、送信信号を音声認識処理して内容を解析し、その解析された内容に適合する応答である案内情報を限られた情報処理能力及び情報の下で限定情報として生成する(ステップS73)。そして、車載対話処理部18は、生成した案内情報(限定情報)を音声合成部16に伝達する(ステップS74)。
案内情報(限定情報)が伝達された音声合成部16は、案内情報(限定情報)に基づく音声データを生成し、その生成した音声データの音声を「状態の悪い音声」の品質に調整してから出力信号として音声出力部17へ出力する(ステップS75)。そして出力信号が入力された音声出力部17は、「状態の悪い音声」の品質に調整された音声データを音声として出力することによって、音声対話の応答音声をユーザMに提供する(ステップS76)。これにより、音声案内システムは、案内情報を生成する対話先が通常の装置(センター対話処理部21)とは異なる装置(車載対話処理部18)になったことをユーザMに認識させることができるようになるため、対話の内容に生じる相違に対するユーザMの違和感を緩和させることができるようになる。
なお、車載対話処理部18は、対話を終了したとき、対話が終了した旨を通信監視部15Aに伝達することで、通信監視部15Aの対話時監視モード(ローカル音声認識)を終了させて通常監視モードに移行させる(ステップS79)。
次に、通常対話復帰処理について説明する。通常対話復帰処理は、代理応答処理が行われている途中で通信回線の通信状態や対話状態が回復した場合に行われる。なお一旦、代理応答処理が開始されると、その対話が終了するまで車載対話処理部18による代理応答が続けられるようにしている。
図10に示すように、車両10では、代理応答処理が行われているものとする(ステップS70〜S77)。このとき、通信監視部15は、送信部13又は受信部14から通信回線が復帰した旨が通知されると(ステップS80)、監視モードが対話時監視モード(ローカル音声認識)であることに基づいて、音声合成部16や車載対話処理部18にその回線が復帰した旨を通知しない(ステップS81)。これにより、ユーザMと車載対話処理部18との間で対話が行われている途中で対話処理が車載対話処理部18からセンター対話処理部21へ切り換えられることを防いでいる。なお、一旦、対話が終了されれば、次回の対話は、通常通り、車両10とセンター対話処理部21との間での対話開始処理に基づいて行われるようになる。
以上説明したように、本実施形態に係る音声案内システムによれば、先の第1の実施形態で記載した効果(1)〜(7)に加え、以下に列記するような効果が得られるようになる。
(8)通信状態の悪化等によって情報生成装置から案内情報が得られなくなり、音声案内の継続が困難になったとしても、案内情報の入力先をセンター対話処理部21から車載対話処理部18に切り換えることにより、限られた案内情報ではあるものの、その限られた案内情報に基づいて音声案内が継続されるようになる。また、通信状態の変化が通知されてから案内情報が切り換えられるため、音声案内からの案内情報の内容が通常よりも、限られていたり、精度が低かったりしても、ユーザは違和感なく案内情報が切り換えられたことを認知することができるようになる。
(9)センター対話処理部21から車載対話処理部18への切換がその旨を示す語句を通じて通知されるため、こうした切り換えにかかる違和感の低減効果がより助長されるようになる。
(その他の実施形態)
なお上記各実施形態は、以下の態様で実施することもできる。
・上記各実施形態では、音声入力部11、音声処理部12、送信部13、受信部14、通信監視部15、音声合成部16及び音声出力部17が格別の構成である場合について例示した。しかしこれに限らず、これら各部は、その機能が維持されるのであれば、それらの一部または全部が一つの構成にまとめられてもよい。また、それら各部の一部や全部が、車両制御装置や運転支援装置、又はスマートフォンなどの携帯可能な情報処理装置などの機器に設けてもよい。なお、音声対話処理部についても同様に、他の各部にまとめられてもよい。これにより、音声案内システムの設計自由度の向上が図られるようになる。
・上記第2の実施形態では、車載対話処理部18にて音声認識処理が行われる場合について例示した。しかしこれに限らず、車載対話処理部は、音声認識処理された認識結果が入力されてもよい。例えばこのとき、音声処理装置が音声認識処理を行うとともに、その認識結果を車載対話処理部に入力させてもよい。これにより、音声案内システムの設計自由度の拡大が図られるようになる。
・上記第2の実施形態では、案内情報がセンター対話処理部21から車載対話処理部18に切り換えられるとき、切り換えられる旨が、切換を表す語句と「状態の悪い音声」を示す音声品質により通知される場合について例示した。しかしこれに限らず、案内情報がセンター対話処理部から車載対話処理部に切り換えられるとき、切り換えられる旨が「状態の悪い音声」を示す音声品質のみにより通知されてもよい。これにより、音声案内システムの設計自由度の拡大が図られるようになる。
・上記各実施形態では、通信状態又は対話状態の変化に応じて、「正常な状態」や「悪い状態」を判断する場合について例示した。しかしこれに限らず、通信状態及び対話状態の変化に応じて「正常な状態」や「悪い状態」を判断してもよい。これにより、状態の変化をより正確に判断することができる容易になる。
・上記各実施形態では、通信監視部15は、通信状態及び対話状態の変化を検出できる場合について例示した。しかしこれに限らず、通信監視部は、通信状態又は対話状態のいずれか一方を検出できるものであってもよい。このときであれ、検出される通信状態、又は対話状態に対応する「正常な状態」や「悪い状態」を判断することができる。これにより、音声案内システムの設計自由度の向上が図られるようになる。
・上記各実施形態では、通信監視部15は、送信部13及び受信部14を通じて通信状態を監視する場合について例示した。しかしこれに限らず、通信監視部は、送信部又は受信部のみを通じて通信状態を監視するようにしてもよい。これによっても、通信状態の一部についてその変化を検出することができる。
・上記各実施形態では、通信状態が変化した旨の通知が、通信状態が変化した旨を表す語句と、その状態に対応する音声品質とに行われる場合について例示した。しかしこれに限らず、通信状態が変化した旨の通知は、通信状態が変化した旨を表す語句、及び、その状態に対応する音声品質のいずれか一方にて行われてもよい。これによっても、ユーザに注意が喚起されるようになる。
・上記各実施形態では、「状態の悪い音声」を品質の低い音声とする場合について例示した。しかしこれに限らず、「状態の悪い音声」の品質は、対話が不可能又は困難になることを表すことのできる品質であれば、「通常の音声」と同程度の品質や、それよりも高い品質であってもよい。例えば、「状態の悪い音声」をリアルに表すために品質を高くするようなことがあってもよい。これにより、音声案内システムの設計自由度の拡大が図られるようになる。
・上記各実施形態では、車両10は自動車である場合について例示した。しかしこれに限らず、通信システムは自動車の車両以外の移動体、例えば船舶、鉄道、産業機械やロボットなどに設けられていてもよい。これにより、音声案内システムの適用範囲の拡大が図られるようになる。
・上記第2の実施形態では、代理応答の開始後、通信や対話が可能になったとしても対話先が車載対話処理部18からセンター対話処理部21に変更されない場合について例示した。しかしこれに限らず、代理応答の開始後、通信や対話が可能になった場合、対話先を車載対話処理部からセンター対話処理部に変更してもよい。このときにも、通信状態や対話状態が「正常な状態」に回復された旨を、対応する語句及び「正常な状態」に対応する「通常の音声」の音質からなる音声により通知してもよい。これにより、音声案内システムの適用範囲の拡大が図られるようになる。
・上記各実施形態では、通信状態又は対話状態が「悪い状態」であることが、「悪い状態」に対応する音声によりユーザに通知される場合について例示した。しかしこれに限らず、通信状態又は対話状態が「悪い状態」以外の状態、がその状態に対応する音声、例えば、「正常な状態」とき、「正常な状態」に対応する「通常の音声」の音質からなる音声を通じてユーザに通知してもよい。これにより、音声案内システムの設計自由度の拡大が図られるようになる。
・上記各実施形態では、生成された音声データは、音声合成部16により音声の品質が調整される場合について例示した。しかしこれに限らず、音声品質の調整された音声データは、音声合成部が、通信状態や対話状態に対応する品質に調整されている音声を、記憶部等に保持されている音声品質の調整された音声のうちから選択することで、生成されるようにしてもよい。これにより、音声案内システムの設計自由度の拡大が図られるようになる。
・上記各実施形態では、対話が不可能なとき、又は不能になるとき、通信状態や対話状態の「悪い状態」がユーザに通知される場合について例示した。しかしこれに限らず、対話が可能であっても、通信状態や対話状態が悪化したときに、通信状態や対話状態が「悪い状態」をユーザに通知してもよい。これにより、音声案内システムの設計自由度の拡大が図られるようになる。
・上記各実施形態では、音声データは、対話が不可能なことを示す語句を含み通知される場合について例示した。しかしこれに限らず、情報処理センターからまだ案内情報を得ることができるレベルにおける通信状態の悪化や、通信は不可能になったもののこれから出力する案内情報がまだ残っている場合、その案内情報に対応して生成される音声データを利用しつつ、その音声データの音声品質を「悪い状態」に対応する音声品質に調整するようにしてもよい。これにより、音声案内システムは、案内情報に含まれる情報を提供しつつ、通信状態や対話状態が「悪い状態」になったことをユーザに通知することができる。
・上記各実施形態では、通信状態又は対話状態が「正常な状態」又は「悪い状態」である場合について例示した。しかしこれに限らず、通信状態又は対話状態が3段階以上のレベルに区分されていてもよい。状態が多段階のレベルに区分されている場合、音声合成部は、それらレベルの別に対応する語句及び音声音質に基づいて音声データを生成するようにすればよい。これにより、音声案内システムの設計自由度の拡大が図られるようになる。
・上記各実施形態では、通信回線に無線通信を含む場合について例示した。しかしこれに限らず、通信回線に無線通信が含まれなくてもよい。無線通信を含まない通信回線であっても、通信状態や対話状態が変化するような状況が生じるおそれがあれば、このような音声案内システムを用いてユーザの違和感を軽減することができるようになる。
・上記各実施形態では、音声にて入力された情報に対して案内情報の提供が行われる場合について例示した。しかしこれに限らず、音声入力された以外の情報、例えば、ユーザのボタン操作や車両の運転支援装置からの出力などに対して案内情報の提供が行われてもよい。また、車両からの情報へ応答するのみならず、センター対話処理部にて予め定められた条件が成立したことなどに基づいて案内情報の提供が行われてもよい。これにより、音声案内システムの適用範囲の拡大が図られるようになる。
10…車両、11…音声入力部、12…音声処理部、13…送信部、14…受信部、15,15A…通信監視部、16…音声合成部、17…音声出力部、18…車載対話処理部、20…情報処理センター、21…センター対話処理部、161,162…録音音声再生部、163…テキスト読み上げ(TTS)処理部、M…ユーザ。

Claims (10)

  1. 入力される案内情報に対応して音声を提供出力する音声提供装置と、前記音声提供装置に入力される案内情報を生成するとともに、その生成した案内情報を通信回線を介して前記音声提供装置に送信する情報生成装置とを備える音声案内システムであって、
    前記通信回線の通信状態を監視し、通信状態が変化した旨を前記音声提供装置に提供する通信監視部を備え、
    前記音声提供装置は、前記通信監視部から提供される通信状態が変化した旨の通知を、前記通信回線の通信状態の変化に対応する品質による音声を通じて行う
    ことを特徴とする音声案内システム。
  2. 前記音声提供装置及び前記通信監視部は移動体に搭載されたものであり、
    前記情報生成装置は前記移動体の外部に設置されたものである
    請求項1に記載の音声案内システム。
  3. 前記通信監視部は、前記通信回線の通信状態の変化として通信状態が悪化した旨を前記音声提供装置に提供するものであり、
    前記音声提供装置は、前記通信回線の通信状態の悪化に対応する品質による音声として、通常の音声案内で使用する音声品質よりも低い品質の音声を用いる
    請求項1又は2に記載の音声案内システム。
  4. 前記音声提供装置は、前記通常の音声案内で使用する音声品質よりも低い品質の音声として、音調の変化を抑制した音声を用いる
    請求項3に記載の音声案内システム。
  5. 前記音声提供装置は、前記通信回線の通信状態の変化に対応する品質による音声として、通信状態の変化を表す語句を含む音声を用いる
    請求項1〜4のいずれか一項に記載の音声案内システム。
  6. 請求項1〜5のいずれか一項に記載の音声案内システムにおいて、
    発話による音声情報を検知するとともに、この検知した音声情報を前記通信回線を介して前記情報生成装置に送信する音声情報送信装置を備え、
    前記情報生成装置は、前記送信された音声情報を音声認識処理し、該認識処理した音声情報に対応する案内情報を生成するものであり、
    前記通信監視部は、前記通信回線を介して前記音声情報送信装置が前記情報生成装置へ前記音声情報を送信するときの通信状態の変化を含むかたちで前記通信回線の通信状態を監視する
    ことを特徴とする音声案内システム。
  7. 前記通信監視部は、前記音声情報送信装置が送信した音声情報に対応する案内情報が受信される状態である対話状態を、前記音声情報送信装置が前記情報生成装置へ音声情報を送信してからその音声情報に対応する案内情報が受信されるまでの間隔と、対話を正常に行うことのできる最長の間隔である対話可能間隔との比較により監視するとともに、対話状態が変化した旨を前記音声提供装置にさらに提供するものであり、
    前記音声提供装置は、前記通信監視部から提供される対話状態の変化についても対応する品質による音声を通じて通知を行う
    請求項6に記載の音声案内システム。
  8. 請求項1〜7のいずれか一項に記載の音声案内システムにあって、
    前記情報生成装置が生成する案内情報よりも限られた情報からなる案内情報を生成もしくは記憶するとともに、その生成もしくは記憶した案内情報を前記音声提供装置に入力することのできる限定情報発生装置をさらに備え、
    前記音声提供装置は、前記通信監視部から状態が変化したことが提供されることを条件に、入力する案内情報を前記限定情報発生装置から入力される案内情報に切り換える
    ことを特徴とする音声案内システム。
  9. 前記音声提供装置は、入力する案内情報を前記限定情報発生装置から入力される案内情報に切り換える際、案内情報の入力源が前記情報生成装置から前記限定情報発生装置に切り換えられることを表す語句を音声に含めて通知する
    請求項8に記載の音声案内システム。
  10. 入力される案内情報に対応して音声を提供出力する音声提供装置と、前記音声提供装置に入力される案内情報を生成するとともに、その生成した案内情報を通信回線を介して前記音声提供装置に送信する情報生成装置とを備えるシステムを通じて音声案内する音声案内方法であって、
    前記通信回線の通信状態を監視する装置を通じて通信状態を監視し、通信状態が変化した旨を当該装置から前記音声提供装置に提供する工程と、
    前記提供される通信状態が変化した旨の通知を前記音声提供装置から前記通信回線の通信状態の変化に対応する品質による音声を通じて行う工程とを備える
    ことを特徴とする音声案内方法。
JP2013100016A 2013-05-10 2013-05-10 音声案内システム及び音声案内方法 Pending JP2014219617A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013100016A JP2014219617A (ja) 2013-05-10 2013-05-10 音声案内システム及び音声案内方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013100016A JP2014219617A (ja) 2013-05-10 2013-05-10 音声案内システム及び音声案内方法

Publications (1)

Publication Number Publication Date
JP2014219617A true JP2014219617A (ja) 2014-11-20

Family

ID=51938070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013100016A Pending JP2014219617A (ja) 2013-05-10 2013-05-10 音声案内システム及び音声案内方法

Country Status (1)

Country Link
JP (1) JP2014219617A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392720A (zh) * 2014-12-01 2015-03-04 江西洪都航空工业集团有限责任公司 一种智能服务机器人语音交互方法
CN106094593A (zh) * 2016-07-06 2016-11-09 詹姆斯·小兵·尹 一种智能机器宠物小秘书及其智能控制方法
JP2017043190A (ja) * 2015-08-26 2017-03-02 株式会社日立システムズ 運転許可装置、車両制御装置、運転許可システム、運転許可方法、及びプログラム
JP2017140195A (ja) * 2016-02-09 2017-08-17 シャープ株式会社 制御装置、制御装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2017167199A (ja) * 2016-03-14 2017-09-21 三菱自動車工業株式会社 運転支援システム
JP2020160135A (ja) * 2019-03-25 2020-10-01 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392720A (zh) * 2014-12-01 2015-03-04 江西洪都航空工业集团有限责任公司 一种智能服务机器人语音交互方法
JP2017043190A (ja) * 2015-08-26 2017-03-02 株式会社日立システムズ 運転許可装置、車両制御装置、運転許可システム、運転許可方法、及びプログラム
JP2017140195A (ja) * 2016-02-09 2017-08-17 シャープ株式会社 制御装置、制御装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2017167199A (ja) * 2016-03-14 2017-09-21 三菱自動車工業株式会社 運転支援システム
CN106094593A (zh) * 2016-07-06 2016-11-09 詹姆斯·小兵·尹 一种智能机器宠物小秘书及其智能控制方法
JP2020160135A (ja) * 2019-03-25 2020-10-01 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
JP7274903B2 (ja) 2019-03-25 2023-05-17 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP6118838B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
JP2014219617A (ja) 音声案内システム及び音声案内方法
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP5652913B2 (ja) 車載端末装置
US20060143012A1 (en) Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium
JP6052610B2 (ja) 情報通信端末、およびその対話方法
JP2009300537A (ja) 音声作動システム、音声作動方法および車載装置
JPWO2018051570A1 (ja) 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
JP6984420B2 (ja) 対話装置
JP2018097029A (ja) 音声認識装置および音声認識方法
JP2012027070A (ja) 車室内通信システム、車載端末、および携帯端末
JP2017138536A (ja) 音声処理装置
JP2012173702A (ja) 音声案内システム
JP2020113150A (ja) 音声翻訳対話システム
US11646034B2 (en) Information processing system, information processing apparatus, and computer readable recording medium
JP2019117324A (ja) 音声出力装置、音声出力方法、及び音声出力プログラム
EP3855305A1 (en) Agent system, agent server, and agent program
JP2019159559A (ja) 情報提供装置
CN111369972B (zh) 引导声音输出控制系统及引导声音输出控制方法
JP2007286376A (ja) 音声案内システム
JP2006090988A (ja) ナビゲーション装置
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2015111256A1 (ja) 音声調整システム、サーバ及び車載装置
JP2019212168A (ja) 音声認識システムおよび情報処理装置