JP2003150194A - 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム - Google Patents

音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム

Info

Publication number
JP2003150194A
JP2003150194A JP2001349109A JP2001349109A JP2003150194A JP 2003150194 A JP2003150194 A JP 2003150194A JP 2001349109 A JP2001349109 A JP 2001349109A JP 2001349109 A JP2001349109 A JP 2001349109A JP 2003150194 A JP2003150194 A JP 2003150194A
Authority
JP
Japan
Prior art keywords
user
voice
volume
utterance
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001349109A
Other languages
English (en)
Other versions
JP2003150194A5 (ja
Inventor
Hiroshi Hasegawa
浩 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001349109A priority Critical patent/JP2003150194A/ja
Publication of JP2003150194A publication Critical patent/JP2003150194A/ja
Publication of JP2003150194A5 publication Critical patent/JP2003150194A5/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声対話装置においてユーザの発話した音声の
認識率を上げるために、認識しやすいような発話を行っ
てもらうようにシステム側で誘導する。 【解決手段】入力音声を処理して、発話速度・音量・発
話内容を取得する入力音声処理部1と、この入力音声処
理部1で取得された発話速度・音量・発話内容に応じて
出力音声の発話速度・音量・発話内容を決定する出力音
声決定部2と、この出力音声決定部2で決定された発話
速度・音量・発話内容に基づいた出力音声を生成する音
声出力処理部3を有する。たとえば、ユーザの発話が早
口過ぎる場合には、システム側からはゆっくりした口調
で応答し、適正な発話速度で発話するようにユーザを誘
導する。また、発話速度だけでなく、音量についても同
様に適正な音量で発話するようにユーザを誘導し、ま
た、間違いにくい単語を使用するような誘導を行い、さ
らに、言い回しの丁寧さについても適切となるような誘
導を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザとシステム
が音声によって情報のやりとりを行う音声対話装置およ
び音声対話装置における入力音声最適化方法ならびに音
声対話装置における入力音声最適化処理プログラムに関
する。
【0002】
【従来の技術】音声をシステムに入力するとシステム側
では入力された音声を認識して、その認識結果に対する
応答を行うといった音声対話装置が多数提案され実用化
されている。
【0003】このような音声対話装置をより使いやすい
ものとするためには、入力される音声を適切に認識でき
ることが必要であり、そのためには、システム側の音声
認識性能の向上が不可欠であることは言うまでもない
が、システム側の音声認識性能だけではなく、システム
が認識し易いようにユーザに発話してもらうことも重要
である。また、その認識結果に対する応答を行う際、シ
ステム側で生成される再生音声がユーザに理解し易い音
声となるような音声出力性能の向上を図ることも重要で
ある。
【0004】一方、ユーザにとっては人間同志が対話す
るような自然な話し方でシステムと対話できることも使
い勝手の良さを決定づける要件の1つであるといえる。
【0005】このように、人間同志が対話するような自
然な話し方でシステムと対話できるようにする従来技術
としては、たとえば、特公昭62−050850号公報
「音声入出力システム」がある。
【0006】この従来技術は、入力音声(ユーザの発話
した音声)の発話速度に応じてシステム側からユーザに
対して出力される出力音声の速度を制御することによっ
て、システム側からの出力音声をユーザが理解し易くす
るとともに、ユーザ側からみれば人間同士と対話してい
る雰囲気を味わうことができるようにして、より自然な
対話を実現しようとするものである。
【0007】これは、一般に人間同志が対話を行う際、
対話をしているうちに、発話速度が相手の発話速度に段
々合ってくるという現象があることが知られており、そ
の考え方を利用したものであると考えられる。
【0008】つまり、この従来技術では、ユーザがシス
テムに対して発話する際、その発話速度に応じてシステ
ム側からの出力音声の速度を制御することによって、発
話者とシステムとの間の対話を、より人間同士の対話に
近づけようとしている。
【0009】
【発明が解決しようとする課題】しかし、上述したよう
な現象(対話をしているうちに、発話速度が相手の発話
速度に段々合ってくるという現象)をそのまま利用する
と、ユーザの発話速度が極端に速かったり、極端に遅か
ったりした場合、システム側からの応答音声をそれに近
づけるような制御を行うと、返って自然さを損なった理
解しにくい発話となってしまうことにもなる。
【0010】一方、前述したように、この種の音声対話
装置をより使いやすいものとするためには、ユーザから
の音声を適切に認識できることが必要であり、そのため
には、システムが認識し易いようにユーザに発話しても
らうことも重要であり、また、その認識結果に対する応
答を行う際、システム側で生成される再生音声がユーザ
に理解し易い音声となるようにすることも重要である。
【0011】特に、システム側が音声認識する際の認識
のし易さは、ユーザの発話速度だけではなく、音量や発
話内容(語彙や言い回しなどを含む)などにも大きく左
右されるので、ユーザの発話速度、音量、発話内容など
がそのシステムにとって認識し易くなるようにユーザの
発話を誘導するような制御を行うことも重要である。
【0012】そこで本発明は、ユーザの発話速度・音量
・発話内容がそのシステムにとって最適になるようにユ
ーザの発話を自然に誘導することで、認識率を高め、そ
れによって、ユーザとの対話を円滑かつ正確に行うこと
ができるようにすることを目的としている。
【0013】
【課題を解決するための手段】上述した目的を達成する
ために本発明の音声対話装置は、ユーザとの情報のやり
とりを音声によって行う音声対話装置において、ユーザ
の発話した音声を処理して、その音声の認識結果として
の発話内容を取得するとともに、その発話速度と音量を
取得する入力音声処理手段と、この入力音声処理手段で
取得された前記入力音声の発話速度・音量・発話内容に
応じて、前記ユーザに対する出力音声の発話速度・音量
・発話内容を決定する出力音声決定手段と、この出力音
声決定部で決定された発話速度・音量・発話内容に基づ
いた出力音声を生成する音声出力処理手段とを有した構
成としている。
【0014】また、本発明の音声対話装置における入力
音声最適化方法は、ユーザの発話した音声を音声認識処
理する上で適切な認識処理を可能とするようにユーザの
発話する音声を最適化制御する音声対話装置における入
力音声最適化方法であって、その入力音声最適化方法
は、ユーザの発話した音声を処理して、その音声の認識
結果としての発話内容を取得するとともに、その発話速
度と音量を取得し、それによって取得された前記入力音
声の発話速度・音量・発話内容に応じて、前記ユーザに
対する出力音声の発話速度・音量・発話内容を決定し、
それによって決定された発話速度・音量・発話内容に基
づいた出力音声を生成するようにしている。
【0015】また、本発明の音声対話装置における入力
音声最適化処理プログラムは、ユーザの発話した音声を
音声認識処理する上で適切な認識処理を可能とするよう
にユーザの発話する音声を最適化制御する音声対話装置
における入力音声最適化処理プログラムであって、その
入力音声最適化処理プログラムは、ユーザの発話した音
声を処理して、その音声の認識結果としての発話内容を
取得するとともに、その発話速度と音量を取得する手順
と、それによって取得された前記入力音声の発話速度・
音量・発話内容に応じて、前記ユーザに対する出力音声
の発話速度・音量・発話内容を決定する手順と、それに
よって決定された発話速度・音量・発話内容に基づいた
出力音声を生成する手順とを含むものである。
【0016】これら各発明において、前記ユーザに対す
る出力音声の発話速度を決定する処理は、前記ユーザの
発話した音声の発話速度がある基準となる発話速度より
速い場合には、音声認識し易い発話速度を前記ユーザに
示唆するために、前記ユーザに対する出力音声の発話速
度を前記ユーザの発話速度よりも遅い速度に設定し、前
記ユーザの発話した音声の発話速度がある基準となる発
話速度より遅い場合には、音声認識し易い発話速度を前
記ユーザに示唆するために、前記ユーザに対する出力音
声の発話速度を前記ユーザの発話速度よりも速い速度に
設定するようにしている。
【0017】また、前記ユーザに対する出力音声の音量
を決定する処理は、前記ユーザの発話した音声の音量が
ある基準となる音量より大きい場合には、音声認識し易
い音量を前記ユーザに示唆するために、前記ユーザに対
する出力音声の音量を前記ユーザの音量よりも小さい音
量に設定し、前記ユーザの発話した音声の音量がある基
準となる音量より小さい場合には、音声認識し易い音量
を前記ユーザに示唆するために、前記ユーザに対する出
力音声の音量を前記ユーザの音量よりも大きい音量に設
定するようにしている。
【0018】また、前記ユーザに対する出力音声の発話
内容を決定する際、前記ユーザの発話した音声に、他の
単語と間違える可能性のある単語が存在しているか否か
を判断し、他の単語と間違える可能性のある単語が存在
している場合には、その単語が他の単語に置き換え可能
であるか否かを判断し、置き換え可能であれば、当該単
語を他の単語に置き換えて出力するようにしている。
【0019】また、前記ユーザに対する出力音声の発話
内容を決定する際、前記ユーザの発話した発話内容の丁
寧さの度合いを判断する処理を行い、丁寧さの度合いが
ある基準より高い場合には、音声認識し易い丁寧さの度
合いを前記ユーザに示唆するために、前記ユーザに対す
る発話内容の丁寧さの度合いを前記ユーザの丁寧さの度
合いよりも低く設定する処理を行い、丁寧さの度合いが
ある基準より低い場合には、音声認識し易い丁寧さの度
合いを前記ユーザに示唆するために、前記ユーザに対す
る発話内容の丁寧さの度合いを前記ユーザの丁寧さの度
合いよりも高く設定する処理を行うようにしている。
【0020】このように本発明によれば、ユーザの発話
した音声の発話速度・音量・発話内容に応じて、ユーザ
に対する出力音声の発話速度・音量・発話内容を決定し
て、その決定された発話速度・音量・発話内容に基づい
た出力音声を生成してそれをユーザに出力するようにし
ている。このように、ユーザの発話した音声の発話速度
・音量・発話内容に応じて、ユーザに対する出力音声の
発話速度・音量・発話内容を変えてユーザに応答すると
いった処理を繰り返すことで、ユーザの発話速度・音量
・発話内容がそのシステムにとって最適になるようにユ
ーザを自然に誘導することができ、それによって、認識
率を高めることができ、ユーザとの対話を円滑かつ正確
に行うことができるようになる。
【0021】具体的には、ユーザの発話の発話速度が速
すぎる場合は、システム側からの認識結果に基づく確認
の発話をユーザの発話速度に比べてゆっくりした口調で
行うことにより、ユーザに対し、もっとゆっくりした口
調で発話するように自然に誘導する結果となる。これに
よって、たとえば、ユーザの発話の速度が速すぎて誤認
識された場合、ユーザは誤認識の原因が発話速度が速す
ぎることにあるのではないかと気づいて、今度はシステ
ム側からの口調に合わせたゆっくりした口調、すなわ
ち、認識されやすい発話速度で発話する可能性が高くな
り、それによって、認識率の向上を図ることができる。
【0022】逆に、ユーザの発話速度が遅すぎる場合
は、システム側からの認識結果に基づく確認の発話をユ
ーザの発話速度に比べて速い口調(適正な口調)で発話
することにより、ユーザに対し、適正な速さで発話する
ように自然に誘導する結果となる。これによって、たと
えば、ユーザの発話の発話速度が遅すぎて誤認識された
場合、ユーザは誤認識の原因が発話速度が遅すぎること
にあるのではないかと気づいて、今度はシステム側から
の口調に合わせた適正な口調、すなわち、認識されやす
い速度で発話する可能性が高くなり、それによって、認
識率の向上を図ることができる。また、ユーザの発話の
音量が小さすぎる場合は、システム側からの認識結果に
基づく確認の発話をユーザの音量に比べて大きくはっき
りした口調で行うことにより、ユーザに対し、もっと大
きくはっきりした口調で発話するように自然に誘導する
結果となる。これによって、たとえば、ユーザの発話の
音量が小さすぎて誤認識された場合、ユーザは誤認識の
原因が小さな音量で発話したことにあるのではないかと
気づいて、今度はシステム側からの口調に合わせた大き
くはっきりとした口調、すなわち、認識しやすい音量で
発話する可能性が高くなり、それによって、認識率の向
上を図ることができる。
【0023】逆に、ユーザの発話の音量が大きすぎる場
合は、システム側からの認識結果に基づく確認の発話を
ユーザの音量に比べて小さな口調で行うことにより、ユ
ーザに対し、もっと大きくはっきりした口調で発話する
ように自然に誘導する結果となる。これによって、たと
えば、ユーザの発話の音量が大きすぎて誤認識された場
合、ユーザは誤認識の原因が大きすぎる音量で発話した
ことにあるのではないかと気づいて、今度はシステム側
からの口調に合わせた適正な口調、すなわち、認識しや
すい音量で発話する可能性が高くなり、それによって、
認識率の向上を図ることができる。
【0024】また、出力音声決定手段は、ユーザの発話
した音声に他の単語と間違える可能性のある単語が存在
しているか否かを判断し、他の単語と誤認識の可能性の
ある単語が存在している場合には、その単語が他の単語
に置き換え可能であるか否かを判断し、置き換え可能で
あれば、当該単語を他の単語に置き換えて出力するよう
にしている。
【0025】このように、システム側ではユーザの発話
した間違いやすい単語を他の単語に置き換えてユーザに
対する発話を行うことで、ユーザは自分の発話した単語
は間違いやすい単語であることに気づき、以降はその間
違いやすい単語を、他の間違いにくい単語に置き換えて
発話するようになるので、誤認識されることが少なくな
り、システム間との対話を円滑に行うことができる。
【0026】また、本発明はユーザの発話した発話内容
の丁寧さの度合いを判断し、丁寧さの度合いがある基準
より大きい場合には、前記ユーザに対して出力する発話
内容の丁寧さの度合いをより小さくし、前記丁寧さの度
合いがある基準より小さい場合には、当該ユーザに対し
て出力する発話内容の丁寧さの度合いをより大きくする
ようにしている。
【0027】具体的には、ユーザの発話の丁寧さの度合
いが高すぎる場合は、システム側からユーザに対して出
力される発話をユーザの丁寧さの度合いよりも低くした
普通の言い回しで行うことにより、ユーザに対し、もっ
と普通の丁寧さで発話するように自然に誘導する結果と
なる。これによって、たとえば、ユーザの発話が誤認識
された場合、ユーザは誤認識の原因が自分の発話の仕方
が丁寧すぎることにあるのではないかと気づいて、今度
はシステム側からの口調に合わせ普通の丁寧さ、すなわ
ち、認識しやすい丁寧さで発話する可能性が高くなり、
それによって、認識率の向上を図ることができる。
【0028】逆に、ユーザの発話の丁寧さの度合いが低
すぎる場合は、システム側からユーザに対して出力され
る発話をユーザの丁寧さの度合いよりも高くした普通の
言い回しで行うことにより、ユーザに対し、もっと普通
の丁寧さで発話するように自然に誘導する結果となる。
これによって、たとえば、ユーザの発話が誤認識された
場合、ユーザは誤認識の原因が自分の発話の仕方(丁寧
さ)に問題があるのではないかと気づいて、今度はシス
テム側からの口調に合わせ普通の丁寧さ、すなわち、認
識しやすい丁寧さで発話する可能性が高くなり、それに
よって、認識率の向上を図ることができる。
【0029】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、この実施の形態で説明する内容は、
本発明の音声対話装置および音声対話装置における入力
音声最適化方法についての説明であるとともに、本発明
の音声対話装置における入力音声最適化処理プログラム
の具体的な処理内容についての説明を含むものである。
【0030】図1は本発明の音声対話装置の全体的な構
成図であり、ユーザの発話した音声を信号処理して、入
力された音声の認識結果としての発話内容(語彙や言い
回しなどに対するテキスト)を取得するとともに、その
発話速度・音量を取得する入力音声処理部1、この入力
音声処理部1で取得された発話速度・音量・発話内容に
応じて、ユーザに対する出力音声の発話速度・音量・発
話内容(語彙や言い回しなど)を決定する出力音声決定
部2と、この出力音声決定部2で決定された音量、発話
速度、発話内容に応じて出力音声を生成する音声出力処
理部3とを有した構成となっている。
【0031】このように、本発明はユーザの発話した入
力音声の発話速度だけではなく、音量や発話内容(語彙
や言い回しなど)にも着目し、これらユーザの発話した
発話速度・音量・発話内容に応じた応答音声を生成する
ようにし、ユーザとシステムが対話を行っているうち
に、システムが認識するのに都合の良い話し方となるよ
うにユーザの発話の仕方(発話速度・音量・発話内容)
を誘導して行くものである。以下に具体例を参照しなが
ら詳細に説明する。
【0032】図2は図1で示した構成要件のうちの入力
音声処理部1の構成を示すもので、この入力音声処理部
1は、音響信号処理部11、音声認識部12、音声認識
を行う際に用いる言語モデル13と音響モデル14を有
している。
【0033】音響信号処理部11はユーザの発話した音
声信号を入力して音声認識に必要なデータを取得し、そ
のデータを音声認識部12に渡す。音声認識部12は音
響信号処理部11から渡されたデータを基に言語モデル
13や音響モデル14を用いてユーザの発話内容を音声
認識し、その認識結果としてのテキスト15を出力す
る。
【0034】また、この音響信号処理部11ではユーザ
の発話した音声信号から音量16を取り出すとともに、
ユーザの発話した音声信号と音声認識部12から出力さ
れたテキストとから発話速度17を取り出す。そして、
これらテキスト15と音量16と発話速度17を出力音
声決定部2に渡す。
【0035】出力音声決定部2は、図3に示すように、
ユーザに対して発話を行う際の発話内容を決定する発話
内容決定部21、ユーザに対して発話を行う際の音量を
決定する音量決定部22、ユーザに対して発話を行う際
の発話速度を決定する発話速度決定部23を有してい
る。
【0036】発話内容決定部21は入力音声処理部1か
ら渡された認識結果としてのテキスト15に対し、ユー
ザにどのような発話を行うかの発話内容を決定してそれ
を出力テキスト24として出力する。
【0037】音量決定部22は入力音声処理部1から渡
された音量16に対し、どのような音量とするかを決定
しそれを出力音量25として出力する。
【0038】また、発話速度決定部23は入力音声処理
部1から渡された発話速度17に対し、どのような発話
速度とするかを決定しそれを出力発話速度26として出
力する。
【0039】そして、これら出力テキスト24、出力音
量25、出力発話速度26は音声出力処理部3に渡され
る。
【0040】なお、この出力音声決定部2において、認
識結果に対してどのような発話内容とするかや、それを
どのような発話速度と音量で出力するかについての具体
的な例については後述する。
【0041】図4は音声出力処理部3の構成を示すもの
で、この音声出力処理部3は、音声合成部31、音声合
成辞書32、音声出力部33を有し、出力音声決定部2
から渡されたユーザに対する発話内容を示す出力テキス
ト24、出力音量25、出力発話速度26を受け取る
と、音声合成部31はこれら出力テキスト24、出力音
量25、出力発話速度26を用い、音声合成辞書32を
参照して規則合成を行い、その合成結果を音声出力部3
3から出力する。
【0042】ここで、具体例を用いて本発明の実施の形
態を説明する。ここでは本発明の音声対話装置を鉄道の
乗車券販売窓口に適用した場合の実施の形態について説
明する。
【0043】たとえば、ユーザが乗車券販売窓口で乗車
券を買おうとしたとき、乗車券販売窓口に設置されてい
る乗車券販売システム(以下、システムという)側がユ
ーザに対して、「ご利用区間を教えてください」と発話
し、それに対して、ユーザがかなり速い発話速度(早
口)で「新宿から渋谷まで」と発話したとする。
【0044】このようなユーザの発話はこのシステムに
用いられている本発明の音声対話装置の入力音声処理部
1に入力される。そして、そのユーザの発話した音声信
号は、音響信号処理部11で信号処理されて、音声認識
に必要なデータを音声認識部12に渡し、音声認識部1
2ではそのデータに基づいた音声認識処理を行う。
【0045】これによって、ユーザの発話が音声認識さ
れるが、この場合、ユーザが早口で発話したので、正し
く認識されずに、この場合の認識結果は、「しんじゅく
からしずおかまで」と誤認識されたとする。つまり、こ
の場合、ユーザの発話した発話内容のうち、「しぶや」
の部分が「しずおか」と誤認識された例である。なお、
入力音声処理部1の音声認識部12による認識結果「し
んじゅくからしずおかまで」はテキスト15として出力
される。
【0046】さらに、この音響信号処理部11からはユ
ーザの発話した音声信号から得られる音量16と、ユー
ザの発話した音声信号と上述の認識結果とを用いて求め
られるユーザの発話速度17が出力される。
【0047】これら認識結果としてのテキスト15
(「しんじゅくからしずおかまで」)と音量16と発話
速度17は、それぞれ出力音声決定部2に渡される。
【0048】出力音声決定部2は、入力音声処理部1か
ら渡された認識結果としてのテキスト15(「しんじゅ
くからしずおかですか」)に対しては発話内容決定部2
1がユーザに対しどのような発話内容とするかを決定し
てそれを出力テキスト24とし、音量16に対しては音
量決定部22がどのような音量とするかを決定してそれ
を出力音量25とし、発話速度17に対しては発話速度
決定部23がどのような発話速度26とするかを決定し
てそれを出力発話速度とする。つまり、ユーザに対して
どのような発話内容をどのような発話速度と音量で出力
するかを決定する。
【0049】なお、ユーザに対してどのような発話内容
とするかは認識結果に応じて予め決めておくことができ
る。たとえば、この例では、乗車券販売システムである
ので、ユーザが希望乗車区間を発話したら、その希望乗
車区間を認識して、その希望乗車区間を確認するような
発話内容とする。
【0050】つまり、この場合は、ユーザが「新宿から
渋谷まで」と発話したので、本来は、「しんじゅくから
からしぶやですか」と応答すべきであるが、ここでは、
ユーザが早口であったため、「しぶや」を「しずおか」
と誤認識したので、「しんじゅくからしずおかですか」
という出力テキスト24となる。
【0051】また、出力音量25と出力発話速度26の
決定については、入力音声処理部1から渡された音量1
6と発話速度17に応じて次のように決定する。
【0052】まず、出力発話速度を決定する処理手順に
ついて図5のフローチャートを参照しながら説明する。
入力音声処理部1から渡されたユーザの発話速度(これ
をvで表す)が予め設定した基準範囲内に入っているか
否かを調べる(ステップs1)。もし、ユーザの発話速
度vが基準範囲内に入っていれば、出力する発話速度は
そのままで良いと判断し、その発話速度vをそのまま出
力発話速度26とする(ステップs2)。
【0053】また、ユーザの発話速度vが基準範囲内か
ら外れているとすれば、発話速度vをkeyに発話速度テ
ーブル231(この発話速度テーブル231は図3の発
話速度決定部23内に設けられているが図3では図示が
省略されている)を参照して、それに対応して設定され
た発話速度V(v)を取得し(ステップs3)、その取得
した発話速度V(v)を出力発話速度26とする(ステッ
プs4)。
【0054】なお、この発話速度テーブル231には、
ユーザの発話速度vが基準範囲内より小さい場合あるい
は大きい場合のユーザのそれぞれの発話速度vに対して
設定された出力発話速度V(v)が記述されている。
【0055】たとえば、ユーザの発話速度vが基準範囲
内より小さい方に外れていた場合(発話速度が遅すぎる
場合)には、そのときのユーザの発話速度vをkeyとし
て、この発話速度テーブル231を参照すると、そのと
きのユーザの発話速度vに対応して設定された発話速度
V(v)が取得される。なお、このとき取得される発話速
度V(v)は、ユーザの発話速度vよりも速い発話速度で
あるが、システムが認識しやすい適度な速さの発話速度
とするのが好ましい。
【0056】逆にユーザの発話速度vが基準範囲内より
大きい方に外れていた場合(発話速度が速すぎる場合)
には、そのときのユーザの発話速度に対応して設定され
た発話速度V(v)が取得される。なお、このとき取得さ
れる発話速度V(v)は、ユーザの発話速度vよりも遅い
発話速度であるが、この場合も、システムが認識しやす
い適度な速さの発話速度とするのが好ましい。
【0057】ところで、ここでの実施の形態では、ユー
ザが基準範囲を外れた速い発話速度vで「新宿から渋谷
まで」と発話した例であるため、図5のフローチャート
においては、そのユーザの発話速度vをkeyに発話速度
テーブル231を参照する処理を行い、それによって、
そのときのユーザの発話速度vに対応して設定された発
話速度V(v)を取得する。この取得された発話速度V
(v)は、ユーザの発話速度vに比べるとゆっくりした発
話速度であり、その発話速度V(v)が音声出力処理部3
に渡される。
【0058】次に音量を決定する処理手順について図6
のフローチャートを参照しながら説明する。入力音声処
理部1から渡されたユーザの音量(これをaで表す)
が、予め設定した基準範囲内に入っているか否かを調べ
る(ステップs11)。もし、ユーザの音量aが基準範
囲内に入っていれば、出力する音量はそのままで良いと
判断し、その音量aをそのまま出力音量25とする(ス
テップs12)。
【0059】また、ユーザの音量aが基準範囲内から外
れているとすれば、音量aをkeyに音量テーブル221
(この音量テーブル221は図3の音量決定部22内に
設けられているが図3では図示を省略してある)を参照
して、それに対応して設定された音量A(a)を取得し
(ステップs13)、その取得した音量A(a)を出力音
量25とする(ステップs14)。
【0060】なお、この音量テーブル221には、ユー
ザの音量が基準範囲内より小さい場合あるいは大きい場
合のユーザのそれぞれの音量aに対する出力音量A(a)
が記述されている。
【0061】たとえば、ユーザの音量a1が基準範囲内
より小さい方に外れていた場合(発話の音量が小さすぎ
る場合)には、そのときのユーザの発話速度aをkeyと
して、この音量テーブル221を参照すると、そのとき
のユーザの音量aに対応して設定された音量A(a) が取
得される。なお、このとき取得される音量A(a)は、ユ
ーザの音量aよりも大きい音量であるが、この場合も、
システムが認識しやすい適度な音量とするのが好まし
い。
【0062】逆にユーザの音量aが基準範囲内より大き
い方に外れていた場合(発話の音量が大きすぎる場合)
には、そのときのユーザの音量に対応して設定された音
量A(a) が取得される。なお、このとき取得される音量
A(a)は、ユーザの音量aよりも小さい音量であるが、
この場合も、システムが認識しやすい適度な音量とする
のが好ましい。
【0063】なお、ここでの例は、ユーザの発話速度は
速すぎるが音量は基準範囲内であるとして考える。した
がって、図6におけるフローチャートにおいては、その
ユーザの音量aはその音量で良いと判断されて、ユーザ
の音量aをそのまま出力音量25とする(ステップs1
1,s12)。
【0064】以上のようにして出力音声決定部2では、
ユーザの発話した発話内容・発話速度・音量に応じて、
システム側からはどのような発話内容をどのような発話
速度と音量で出力するかが決定され、その発話内容に対
する出力テキスト24と、その出力音量25、出力発話
速度26が音声出力処理部3に渡される。
【0065】この例では、出力音声決定部2から音声出
力処理部3に渡される認識結果に基づく出力テキスト
は、「しんじゅくからしずおかですか」であり、出力発
話速度26は発話速度テーブル231を参照して取得さ
れた発話速度V(v)つまりユーザの発話した発話速度v
よりもゆっくりした発話速度であり、出力音量はユーザ
の発話した音量aである。
【0066】出力音声処理部3はこれらのデータが出力
音声決定部2から渡されると、音声合成部31では、こ
れらのデータに基づき音声合成辞書32を参照して音声
合成処理を行い、その音声合成結果である合成音声を音
声出力部33から出力する。
【0067】この音声出力部33から出力される合成音
声はこの例では、「しんじゅくからしずおかですか」と
いった発話内容が、ユーザの発話した「新宿から渋谷ま
で」に比べてゆっくりした発話速度V(v)で発話され
る。なお、音量はユーザの発話した音量aと同様の音量
である。
【0068】このようなシステム側とユーザ側の一連の
対話内容を図7に示す。図7(a)はシステム側の発話
内容であり、その発話内容は乗車券を購入しようとする
ユーザに対し、「ご利用区間を教えてください」であ
る。
【0069】これに対して、ユーザは図7(b)に示す
ように、速い発話速度で「新宿から渋谷まで」と発話
し、それをシステム側の入力音声処理部1が音声認識処
理し、出力音声決定部2がその認識結果に基づいてユー
ザの発話内容の確認を行うための出力テキスト24を決
定するとともに、出力発話速度26と出力音量25決定
し、これらのデータを音声出力処理部3に渡す。
【0070】これによって、音声出力処理部3では、こ
の場合、図7(c)に示すように、「しんじゅくからし
ずおかですか」とゆっくりした発話速度(ただし、この
例では音量はユーザの音量と同様)で発話する。この図
7(c)における下線を施した部分がゆっくりした発話
速度となっている部分である。
【0071】このように、システム側からは、ユーザに
対しユーザの発話した発話速度vに比べてゆっくりした
発話速度V(v)でユーザの乗車券購入区間の確認を示す
発話内容が出力されるが、この例では、誤った認識がな
されているので、ユーザはそれを訂正する発話を行うこ
とになる。このとき、システム側からの発話がゆっくり
した口調であるので、ユーザは誤認識となった原因が自
分が早口で発話したことにあるのではないかといったこ
とに気づいて、今度はシステム側からの口調に合わせた
ゆっくりした速度で図7(d)に示すように、「しんじ
ゅくからしぶやまで」と発話する。この図7(d)にお
いて下線を施した部分がゆっくりした発話速度となって
いることを示す。
【0072】このように、ユーザの発話がこの場合、早
口過ぎて誤認識された例であり、その場合、システム側
からの認識結果に基づく確認の発話内容(上述の例では
「しんじゅくからしずおかですか」)をユーザの発話速
度vに比べてゆっくりした発話速度で行うことにより、
ユーザに対し、もっとゆっくりした認識し易い発話速度
で発話するように自然に誘導する結果となる。
【0073】これによって、ユーザは上述したように、
誤認識の原因が早口で発話したことにあるのではないか
と気づいて、今度はシステム側からの口調に合わせたゆ
っくりした発話速度、すなわち、システムが認識しやす
い発話速度で発話する可能性が高くなり、それによっ
て、認識率の向上を図ることができる。
【0074】また、ユーザの発話速度が基準範囲から外
れるほど遅すぎる場合も同様に考えることができる。こ
の場合のユーザの発話速度をvとすれば、図5のフロー
チャートにおいて、ユーザの発話速度vをkeyに発話速
度テーブル231を参照してそれに対応した発話速度V
(v)を取得する。この取得された発話速度V(v)は、ユー
ザのゆっくり過ぎる発話速度vに比べると、より速い発
話速度である。
【0075】このように、ユーザの発話速度vが基準範
囲から外れるほど遅すぎる場合は、ユーザの発話速度v
に比べるとより速い発話速度V(v)が取得され、その発
話速度V(v)が音声出力処理部3に渡される。それ以外
の処理は、上述のユーザの発話速度vが基準範囲から外
れるほど速すぎる場合の処理に準じて行うことができる
ので、ここではその説明は省略する。
【0076】この場合は、システム側からはユーザのゆ
っくり過ぎる発話速度よりも速い発話速度(たとえば、
システムが認識処理する上で都合のよい発話速度)での
発話がなされるので、ユーザはそのシステム側から発話
される音声を聞くことによって、このシステムはその程
度の発話速度が最適であることを知る。これによって、
ユーザは以降にこのシステムを利用するときにはその発
話速度を念頭に置いて発話するようになることが期待で
きる。
【0077】なお、上述した例では、ユーザの発話速度
が基準範囲から外れることによって誤認識された場合に
ついての説明であったが、ユーザの発話の発話速度が基
準範囲から外れても正しく認識される場合もある。その
場合は、その正しく認識された結果に対してユーザに出
力される発話内容(この例では「しんじゅくからしぶや
ですか」)が、ユーザの発話速度が速すぎる場合にはそ
れよりもゆっくしりした発話速度(上述したように、た
とえば、システムが認識処理する上で都合のよい発話速
度)で出力され、また、ユーザの発話速度が遅すぎる場
合にはそれよりも速い発話速度(上述したように、たと
えば、システムが認識処理する上で都合のよい発話速
度)で出力されることになる。
【0078】このように、ユーザの発話内容が正しく認
識されたか誤認識されたかに係わらず、ユーザの発話内
容が基準範囲から外れた場合には、その認識結果に対し
てシステム側からユーザに出力される発話内容は、たと
えば、システムが認識処理する上で都合のよい発話速度
で出力されることになる。
【0079】ユーザはシステム側から発話される音声の
発話速度を聞くことによって、このシステムはその程度
の発話速度が最適であることを知ることができる。つま
り、システム側はユーザに対してシステムが認識処理す
る上で都合の良い発話速度を示唆するすものとなり、そ
れによって、ユーザは以降にこのシステムを利用すると
きにはその発話速度を念頭に置いて発話するようになる
ことが期待できる。
【0080】以上の説明は、ユーザの発話速度が基準範
囲を外れるほど速すぎたり遅すぎたりした例であった
が、ユーザの発話する音量が基準範囲を外れるほど大き
く過ぎたり小さすぎたりした場合についても同様に考え
ることができる。
【0081】この音量については図6のフローチャート
で説明したように、ユーザの発話する音量aが基準範囲
を外れるほど大きすぎる場合には、そのときのユーザの
音量aに対応して設定された音量A(a) が取得される。
なお、このとき取得される音量A(a)は、ユーザの音量
aよりも小さい音量であり、その取得した音量A(a)で
ユーザに対する出力テキスト24を音声合成部31処理
してユーザに対する発話内容を出力する。
【0082】この合成音声を聞いたユーザは、システム
側からの発話が自分の発話した音量よりも小さな音量と
なっているので、そのシステム側から発話される音声を
聞くことによって、このシステムはその程度の音量が最
適であることを知ることができる。これによって、ユー
ザは以降にこのシステムを利用するときにはその音量を
念頭に置いて発話するようになることが期待できる。
【0083】また、音量が基準範囲を外れるほど小さす
ぎる場合には、そのときのユーザの音量aに対応して設
定された音量A(a) が取得される。なお、このとき取得
される音量A(a)は、ユーザの音量aよりも大きい音量
であり、その取得した音量A(a)でユーザに対する出力
テキスト24を音声合成部31処理してユーザに対する
発話内容を出力する。
【0084】この音声合成処理された発話内容を聞いた
ユーザは、システム側からの発話が自分の発話した音量
よりも大きな音量となっているので、そのシステム側か
ら発話される音声を聞くことによって、このシステムは
その程度の大きさの音量が最適であることを知ることが
できる。これによって、ユーザは以降にこのシステムを
利用するときにはその音量を念頭に置いて発話するよう
になることが期待できる。
【0085】図8はユーザの発話の音量が小さ過ぎて誤
認識された場合のシステム側とユーザ側の対話内容を示
すもので、図8(a)に示すようにシステム側がユーザ
に対し、「ご利用区間を教えてください」と発話したと
き、ユーザは図8(b)に示すように、基準を外れるほ
ど小さな音量で「新宿から渋谷まで」と発話したとす
る。このユーザの発話はシステム側の入力音声処理部1
に入力されて音声認識処理される。
【0086】そして、出力音声決定部2がその認識結果
に基づいてユーザの発話内容の確認を行うための出力テ
キスト24を決定するとともに、それをどのような発話
速度と音量とするかを示す出力発話速度26と出力音量
25決定し、これらのデータを音声出力処理部3に渡
す。これによって、音声出力処理部3では、図8(c)
に示すように、「しんじゅくからしずおかですか」と大
きな音量で発話する。この図8(c)における太線部分
が大きな音量となっている部分である。
【0087】このように、システム側からは、ユーザに
対しユーザの発話した音量aに比べて大きな音量A(a)
でユーザの乗車券購入区間の確認を示す発話内容が発話
されるが、この例では、誤った認識がなされているの
で、ユーザはそれを訂正する発話を行うことになる。
【0088】このとき、システム側からの発話が大きな
音量でなされているので、ユーザは誤認識となった原因
が自分が小さな音量で発話したことにあるのではないか
といったことに気づいて、今度はシステム側からの音量
に合わせた大きな音量で図8(d)に示すように、「し
んじゅくからしぶやまで」と再度発話する。この図8
(d)における太線部分が大きな音量となっていること
を示す。
【0089】このように、ユーザの発話がこの場合、音
量が小さすぎて誤認識された例であり、その場合、シス
テム側からの認識結果に基づく確認の発話内容(上述の
例では「しんじゅくからしずおかですか」)をユーザの
音量aに比べて大きな音量で行うことにより、ユーザに
対し、もっと大きな音量で発話するように自然に誘導す
る結果となる。
【0090】これによって、ユーザは上述したように、
誤認識の原因が小さな音量で発話したことにあるのでは
ないかと気づいて、今度はシステム側からの口調に合わ
せた大きくはっきりとした口調、すなわち、認識しやす
い音量で発話する可能性が高くなり、それによって、認
識率の向上を図ることができる。
【0091】なお、上述した例において、話者の発話の
発話速度が速すぎて、かつ、音が小さすぎる場合、話者
の発話の発話速度が速すぎて、かつ、音が大きすぎる場
合、話者の発話の発話速度が遅すぎて、かつ、音が小さ
すぎる場合、話者の発話の発話速度が遅すぎて、かつ、
音が大きすぎる場合などのように、発話速度と音量の両
方が基準範囲を外れるような場合の制御も前述同様に行
うことができることは勿論であるが、これについての説
明は省略する。
【0092】また、上述した発話速度や音量の制御(図
7(c)や図8(c))は、それぞれの単語やセンテンスごと
に行うことが可能である。たとえば、図7(c)の例で
は、「しんじゅくからしずおかですか」という発話内容
において、アンダラインを施した部分つまり、「しんじ
ゅく」と「しずおか」の部分だけを、この図7(c)の
場合、ゆっくりした発話速度に設定しているが、「か
ら」や「ですか」の部分に対しても発話速度を所定の速
度に設定することも可能である。また、音量についても
発話速度の場合と同様にそれぞれの単語やセンテンスご
とに所定の音量を設定することが可能である。
【0093】次に、ユーザの発話した音声に間違いやす
い単語が存在する場合、その間違いやすい単語を他の間
違いにくい単語に置き換えることができれば、その間違
いにくい単語に置き換えてシステム側から出力する例に
ついて前述と同じく乗車券販売システムの例で説明す
る。
【0094】たとえば、システム側がユーザに対して
「何時の列車がご希望ですか」と聞いて、ユーザが「し
ちじ(7時)」と発話した場合、それをシステム側で音
声認識し、それが正しく認識された場合、システム側か
らは「しちじ(7時)でよろしいでしょうか」と発話す
るのではなく、「しちじ」の部分を「ななじ(7時)」
に置き換えて、「ななじ(7時)でよろしいでしょう
か」と発話する例が考えられる。
【0095】この場合、もし、認識結果をそのまま用い
て「しちじでよろしいでしょうか」と発話すると、それ
を聞くユーザ側では、7時か1時かどちらか確認しにく
い場合もあり、本当に「7時」として認識されたのか不
安になる。これを防ぐため、システム側では、間違いや
すい単語については、その単語を他の間違いにくい単語
に置き換ることができる場合には、その間違いにくい単
語に置き換えて発話する。
【0096】これを実現するには、出力音声決定部2が
入力音声処理部1から認識結果としてのテキスト15を
受け取ると、その認識結果が間違いやすい単語であるか
否かを判断し、間違いやすい単語であれば、その間違い
やすい単語を他の単語に置き換え可能かどうかを判断す
る。そして、他の単語に置き換えられれば、その置き換
えられる単語を取得して、それを用いた出力テキストを
作成してそれを音声出力処理部3に渡す。
【0097】これは、そのシステムが取り扱う単語の中
で、どのような単語が間違いやすいかを予め調べておく
とともに、その間違いやすい単語が他の単語に置き換え
られるかを調べ、間違いやすいとされるそれぞれの単語
対応に置き換え後の単語が記述されたテーブルを持つこ
とで実現できる。
【0098】たとえば、上述したように、認識結果に
「しちじ」が含まれるような場合、その「しちじ」は間
違いやすい単語として判断され、その間違いやすい「し
ちじ」が他の単語に置き換えできるかをテーブル参照に
よって判断すると、この場合、「しちじ」は「ななじ」
に置き換えられることがわかり、認識結果の「しちじ」
の部分を「ななじ」に置き換える。
【0099】このように、間違いやすい単語は、その単
語を他の単語で置き換えが可能であれば、他の単語に置
き換えることで、ユーザに正しい情報を伝達することが
できる。また、システム側からこのような間違いやすい
単語を他の単語に置き換えることで、ユーザも以降はそ
のような単語は、間違いを起こしにくい単語を用いて発
話することが期待できるので、システム間との対話を円
滑に行うことができる。
【0100】次に、ユーザの発話内容の丁寧さの度合い
に応じて、システム側からユーザに対して出力する発話
内容の丁寧さの度合いを制御して、システムが認識しや
すい丁寧さの度合いでユーザに発話してもらうように誘
導する例について説明する。
【0101】ユーザによっては用いる丁寧さの度合いは
様々であり、認識側からすると、基準範囲を外れた丁寧
さの度合い、つまり、あまりにも砕けた言い回しや、あ
まりにも丁寧さの度合いの高い言い回しは認識率が悪
い。これに対処するために、ユーザの発話内容を認識
し、その認識結果を構文解析し、認識結果として得られ
たユーザの発話した発話内容に存在する語彙や言い回し
などから、丁寧さの度合いを判断し、その丁寧さの度合
いに応じてシステム側からユーザに対して行う発話内容
の丁寧さを変える。
【0102】この丁寧さの度合いを判断し、その丁寧さ
の度合いに応じてシステム側からの応答出力の丁寧さを
変える処理は、前述の音量や発話速度と同様の考え方で
実現することができる。
【0103】すなわち、出力音声決定部2では、予め基
準範囲となる丁寧さの度合いを設定しておき、ユーザの
発話内容を音声認識して得られたテキストの中にその基
準範囲を外れる言い回しなどがあるか否かを判断し、丁
寧さの度合いの基準範囲を外れる語彙や言い回しなどに
ついては、より適切な語彙や言い回しなどに変えた内容
として音声出力処理部3に渡す。
【0104】これによって、音声出力処理部3からは適
切な丁寧さの度合いを有した発話内容をユーザに出力す
るので、ユーザは以降はシステム側から出力される丁寧
さのの度合いに合わせた言い回しで発話するようにな
り、認識率の向上を図ることができる。
【0105】なお、以上の説明では、システムが認識し
やすい適切な音量への誘導、システムが認識しやすい適
切な発話速度への誘導、間違いにくい単語の使用への誘
導、適切な丁寧さの度合いへの誘導をそれぞれ個別に説
明したが、これらは、それぞれを組み合わせて、より適
切な音量、発話速度、間違いにくい単語の使用、適切な
丁寧さの度合いとなるようにユーザの発話を誘導して行
くことで、システム側では認識率が向上し、効率よく適
切な音声対話が可能となる。
【0106】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の実施の形態では、システム側から出力する音声は、
出力音声決定部2から渡された出力テキストや出力音
量、出力発話速度を用いて規則合成処理することによっ
て生成するようにしたが、予め録音してある音声データ
を再生するような方式であってもよい。
【0107】その場合、出力音声決定部2の発話内容決
定部21は、入力音声処理部1から渡された認識結果と
してのテキスト15の内容に応じて、どのような発話内
容を出力するかを指示する発話内容指示番号を出力する
機能を有し、この発話内容指示番号と、音量決定部22
で決定された出力音量25と、発話速度決定部23で決
定された出力発話速度26とを音声出力処理部3に渡す
ようにする。
【0108】この場合、音声出力生成部3は図9のよう
に構成され、話速変換部34が出力音声決定部2からの
発話内容指示番号(これに符号27を付す)、出力音量
25、出力発話速度26を受け取り、その発話内容指示
番号27に対応する音声録音データを音声録音データテ
ーブル35から取得し、取得した音声録音データに対
し、出力音声決定部2から渡された出力発話速度を用い
て話速変換するとともに音量25を用いて所定の音量と
し、それを音声出力部33に渡し、この音声出力部33
では話速変換された音声を出力音声決定部2から録音再
生音声として出力する。
【0109】このように、システム側から出力する音声
の生成は規則合成による処理だけに限られるものではな
く、録音された音声を選択し、その選択された音声を出
力音声決定部2で決定された出力発話速度に話速変換す
るとともに、出力音声決定部2で決定された出力音量に
して出力するようにしてもよい。
【0110】この方式は、システム側から出力する発話
内容の種類があまり多くないような場合には有効であ
る。
【0111】また、前述の実施の形態では、本発明を乗
車券販売システムに適用した例について説明したが、本
発明はこれに限られるものではなく、ユーザとシステム
とが音声によって情報をやりとりするシステムに広く適
用することができる。
【0112】また、本発明は、以上説明した本発明を実
現するための処理手順が記述された処理プログラムを作
成し、その処理プログラムをフロッピィディスク、光デ
ィスク、ハードディスクなどの記録媒体に記録させてお
くことができ、本発明はその処理プログラムが記録され
た記録媒体をも含むものである。また、ネットワークか
ら当該処理プログラムを得るようにしてもよい。
【0113】
【発明の効果】以上説明したように本発明によれば、ユ
ーザの発話した音声の発話速度・音量・発話内容に応じ
て、ユーザに対する出力音声の発話速度・音量・発話内
容を決定して、その決定された発話速度・音量・発話内
容に基づいた出力音声を生成してそれをユーザに出力す
るようにしている。このように、ユーザの発話した音声
の発話速度・音量・発話内容に応じて、ユーザに対する
出力音声の発話速度・音量・発話内容を変えてユーザに
応答するといった処理を繰り返すことで、ユーザの発話
速度・音量・発話内容がそのシステムにとって最適にな
るようにユーザを自然に誘導することができ、それによ
って、認識率を高めることができ、ユーザとの対話を円
滑かつ正確に行うことができるようになる。
【0114】具体的には、ユーザの発話の発話速度が速
すぎる場合は、システム側からの認識結果に基づく確認
の発話をユーザの発話速度に比べてゆっくりした口調で
行い、逆に、ユーザの発話の発話速度が遅すぎる場合
は、システム側からの認識結果に基づく確認の発話をユ
ーザの発話速度に比べて速い口調で行うことにより、ユ
ーザに対し、適正な発話速度で発話するように自然に誘
導することができる。
【0115】同様に、ユーザの発話の音量が大きすぎる
場合は、システム側からの認識結果に基づく確認の発話
をユーザの音量に比べて小さくし、逆に、ユーザの発話
の音量が小さすぎる場合は、システム側からの認識結果
に基づく確認の発話をユーザの音量に比べて大きくする
ことにより、ユーザに対し、適正な音量で発話するよう
に自然に誘導することができる。また、ユーザの発話の
丁寧さの度合いが高すぎる場合は、システム側からの認
識結果に基づく確認の発話をユーザの丁寧さの度合いに
比べて引くくし、逆に、ユーザの発話の丁寧さの度合い
が低すぎる場合は、システム側からの認識結果に基づく
確認の発話をユーザの丁寧さの度合いに比べて高くする
ことにより、ユーザに対し、適正な丁寧さで発話するよ
うに自然に誘導することができる。
【0116】さらに、ユーザの発話内容に間違いやすい
単語があって、その単語が他の単語に置き換え可能であ
るときは、他の単語に置き換えてユーザに出力すること
によって、そのような単語については間違いにくい単語
を使用するように誘導することもでる。
【0117】このように、本発明はシステムが処理する
上で都合のよい発話速度、音量、発話内容(語彙や言い
回しなど)を用いて発話するように、ユーザを自然に誘
導することができるので、ユーザの発話内容をシステム
側が適切に認識できるようになり、システムとユーザと
の音声対話を円滑に行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に用いられる音声対話装置
の全体的な構成図である。
【図2】図1で示した音声対話装置における入力音声処
理部1の構成を説明する図である。
【図3】図1で示した音声対話装置における出力音声決
定部2の構成を説明する図である。
【図4】図1で示した音声対話装置における音声出力処
理部3の構成を説明する図である。
【図5】図3で示した出力音声決定部2における発話速
度決定部23の発話速度を決定する処理手順を説明する
フローチャートである。
【図6】図3で示した出力音声決定部2における音量決
定部22の音量を決定する処理手順を説明するフローチ
ャートである。
【図7】システム側とユーザとの対話の一例を示す図で
あり、ユーザが速い発話速度で発話し、それに対してシ
ステム側からゆっくりした発話速度で応答する例を示す
図である。
【図8】システム側とユーザとの対話の一例を示す図で
あり、ユーザが小さい音量で発話し、それに対してシス
テム側から大きな音量で応答する例を示す図である。
【図9】本発明の他の実施の形態を説明する図であり、
システム側からユーザに対して出力する音声を録音音声
を選択して再生する場合の音声出力処理部3の構成を示
す図である。
【符号の説明】
1 入力音声処理部 2 出力音声決定部 3 音声出力処理部 11 音響信号処理部 12 音声認識部 15 テキスト 16 音量 17 発話速度 21 発話内容決定部 22 音量決定部 23 発話速度決定部 24 出力テキスト 25 出力音量 26 出力発話速度 31 音声合成部 32 音声合成辞書 33 音声出力部 34 話速変換部 35 音声録音データテーブル 221 音量テーブル 231 発話速度テーブル
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 561E

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 ユーザとの情報のやりとりを音声によっ
    て行う音声対話装置において、 ユーザの発話した音声を処理して、その音声の認識結果
    としての発話内容を取得するとともに、その発話速度と
    音量を取得する入力音声処理手段と、 この入力音声処理手段で取得された前記入力音声の発話
    速度・音量・発話内容に応じて、前記ユーザに対する出
    力音声の発話速度・音量・発話内容を決定する出力音声
    決定手段と、 この出力音声決定部で決定された発話速度・音量・発話
    内容に基づいた出力音声を生成する音声出力処理手段
    と、 を有したことを特徴とする音声対話装置。
  2. 【請求項2】 前記出力音声決定手段が行うユーザに対
    する出力音声の発話速度を決定する処理は、 前記ユーザの発話した音声の発話速度がある基準となる
    発話速度より速い場合には、音声認識し易い発話速度を
    前記ユーザに示唆するために、前記ユーザに対する出力
    音声の発話速度を前記ユーザの発話速度よりも遅い速度
    に設定し、 前記ユーザの発話した音声の発話速度がある基準となる
    発話速度より遅い場合には、音声認識し易い発話速度を
    前記ユーザに示唆するために、前記ユーザに対する出力
    音声の発話速度を前記ユーザの発話速度よりも速い速度
    に設定することを特徴とする請求項1記載の音声対話装
    置。
  3. 【請求項3】 前記出力音声決定手段が行うユーザに対
    する出力音声の音量を決定する処理は、 前記ユーザの発話した音声の音量がある基準となる音量
    より大きい場合には、音声認識し易い音量を前記ユーザ
    に示唆するために、前記ユーザに対する出力音声の音量
    を前記ユーザの音量よりも小さい音量に設定し、 前記ユーザの発話した音声の音量がある基準となる音量
    より小さい場合には、音声認識し易い音量を前記ユーザ
    に示唆するために、前記ユーザに対する出力音声の音量
    を前記ユーザの音量よりも大きい音量に設定することを
    特徴とする請求項1または2に記載の音声対話装置。
  4. 【請求項4】 前記出力音声決定手段がユーザに対する
    出力音声の発話内容を決定する際、前記ユーザの発話し
    た音声に、他の単語と間違える可能性のある単語が存在
    しているか否かを判断し、他の単語と間違える可能性の
    ある単語が存在している場合には、その単語が他の単語
    に置き換え可能であるか否かを判断し、置き換え可能で
    あれば、当該単語を他の単語に置き換えて出力すること
    を特徴とする請求項1から3のいすれかに記載の音声対
    話装置。
  5. 【請求項5】 前記出力音声決定手段がユーザに対する
    出力音声の発話内容を決定する際、前記ユーザの発話し
    た発話内容の丁寧さの度合いを判断する処理を行い、 丁寧さの度合いがある基準より高い場合には、音声認識
    し易い丁寧さの度合いを前記ユーザに示唆するために、
    前記ユーザに対する発話内容の丁寧さの度合いを前記ユ
    ーザの丁寧さの度合いよりも低く設定する処理を行い、 丁寧さの度合いがある基準より低い場合には、音声認識
    し易い丁寧さの度合いを前記ユーザに示唆するために、
    前記ユーザに対する発話内容の丁寧さの度合いを前記ユ
    ーザの丁寧さの度合いよりも高く設定する処理を行うこ
    とを特徴とする請求項1から4のいずれかに記載の音声
    対話装置。
  6. 【請求項6】 ユーザの発話した音声を音声認識処理す
    る上で適切な認識処理を可能とするようにユーザの発話
    する音声を最適化する音声対話装置における入力音声最
    適化方法であって、その入力音声最適化方法は、 ユーザの発話した音声を処理して、その音声の認識結果
    としての発話内容を取得するとともに、その発話速度と
    音量を取得し、 それによって取得された前記入力音声の発話速度・音量
    ・発話内容に応じて、前記ユーザに対する出力音声の発
    話速度・音量・発話内容を決定し、 それによって決定された発話速度・音量・発話内容に基
    づいた出力音声を生成することを特徴とする音声対話装
    置における入力音声最適化方法。
  7. 【請求項7】 前記ユーザに対する出力音声の発話速度
    を決定する処理は、 前記ユーザの発話した音声の発話速度がある基準となる
    発話速度より速い場合には、音声認識し易い発話速度を
    前記ユーザに示唆するために、前記ユーザに対する出力
    音声の発話速度を前記ユーザの発話速度よりも遅い速度
    に設定し、 前記ユーザの発話した音声の発話速度がある基準となる
    発話速度より遅い場合には、音声認識し易い発話速度を
    前記ユーザに示唆するために、前記ユーザに対する出力
    音声の発話速度を前記ユーザの発話速度よりも速い速度
    に設定することを特徴とする請求項6記載の音声対話装
    置における入力音声最適化方法。
  8. 【請求項8】 前記ユーザに対する出力音声の音量を決
    定する処理は、 前記ユーザの発話した音声の音量がある基準となる音量
    より大きい場合には、音声認識し易い音量を前記ユーザ
    に示唆するために、前記ユーザに対する出力音声の音量
    を前記ユーザの音量よりも小さい音量に設定し、 前記ユーザの発話した音声の音量がある基準となる音量
    より小さい場合には、音声認識し易い音量を前記ユーザ
    に示唆するために、前記ユーザに対する出力音声の音量
    を前記ユーザの音量よりも大きい音量に設定することを
    特徴とする請求項6または7記載の音声対話装置におけ
    る入力音声最適化方法。
  9. 【請求項9】 前記ユーザに対する出力音声の発話内容
    を決定する際、前記ユーザの発話した音声に、他の単語
    と間違える可能性のある単語が存在しているか否かを判
    断し、他の単語と間違える可能性のある単語が存在して
    いる場合には、その単語が他の単語に置き換え可能であ
    るか否かを判断し、置き換え可能であれば、当該単語を
    他の単語に置き換えて出力することを特徴とする請求項
    6から8のいずれかに記載の音声対話装置における入力
    音声最適化方法。
  10. 【請求項10】 前記ユーザに対する出力音声の発話内
    容を決定する際、前記ユーザの発話した発話内容の丁寧
    さの度合いを判断する処理を行い、 丁寧さの度合いがある基準より高い場合には、音声認識
    し易い丁寧さの度合いを前記ユーザに示唆するために、
    前記ユーザに対する発話内容の丁寧さの度合いを前記ユ
    ーザの丁寧さの度合いよりも低く設定する処理を行い、 丁寧さの度合いがある基準より低い場合には、音声認識
    し易い丁寧さの度合いを前記ユーザに示唆するために、
    前記ユーザに対する発話内容の丁寧さの度合いを前記ユ
    ーザの丁寧さの度合いよりも高く設定する処理を行うこ
    とを特徴とする請求項6から9のいずれかに記載の音声
    対話装置における入力音声最適化方法。
  11. 【請求項11】 ユーザの発話した音声を音声認識処理
    する上で適切な認識処理を可能とするようにユーザの発
    話する音声を最適化制御する音声対話装置における入力
    音声最適化処理プログラムであって、その入力音声最適
    化処理プログラムは、 ユーザの発話した音声を処理して、その音声の認識結果
    としての発話内容を取得するとともに、その発話速度と
    音量を取得する手順と、 それによって取得された前記入力音声の発話速度・音量
    ・発話内容に応じて、前記ユーザに対する出力音声の発
    話速度・音量・発話内容を決定する手順と、 それによって決定された発話速度・音量・発話内容に基
    づいた出力音声を生成する手順と、 を含むことを特徴とする音声対話装置における入力音声
    最適化処理プログラム。
  12. 【請求項12】 前記ユーザに対する出力音声の発話速
    度を決定する処理は、 前記ユーザの発話した音声の発話速度がある基準となる
    発話速度より速い場合には、音声認識し易い発話速度を
    前記ユーザに示唆するために、前記ユーザに対する出力
    音声の発話速度を前記ユーザの発話速度よりも遅い速度
    に設定し、 前記ユーザの発話した音声の発話速度がある基準となる
    発話速度より遅い場合には、音声認識し易い発話速度を
    前記ユーザに示唆するために、前記ユーザに対する出力
    音声の発話速度を前記ユーザの発話速度よりも速い速度
    に設定することを特徴とする請求項11記載の音声対話
    装置における入力音声最適化処理プログラム。
  13. 【請求項13】 前記ユーザに対する出力音声の音量を
    決定する処理は、 前記ユーザの発話した音声の音量がある基準となる音量
    より大きい場合には、音声認識し易い音量を前記ユーザ
    に示唆するために、前記ユーザに対する出力音声の音量
    を前記ユーザの音量よりも小さい音量に設定し、 前記ユーザの発話した音声の音量がある基準となる音量
    より小さい場合には、音声認識し易い音量を前記ユーザ
    に示唆するために、前記ユーザに対する出力音声の音量
    を前記ユーザの音量よりも大きい音量に設定することを
    特徴とする請求項11または12記載の音声対話装置に
    おける入力音声最適化処理プログラム。
  14. 【請求項14】 前記ユーザに対する出力音声の発話内
    容を決定する際、前記ユーザの発話した音声に、他の単
    語と間違える可能性のある単語が存在しているか否かを
    判断し、他の単語と間違える可能性のある単語が存在し
    ている場合には、その単語が他の単語に置き換え可能で
    あるか否かを判断し、置き換え可能であれば、当該単語
    を他の単語に置き換えて出力することを特徴とする請求
    項11から13のいずれかに記載の音声対話装置におけ
    る入力音声最適化処理プログラム。
  15. 【請求項15】 前記ユーザに対する出力音声の発話内
    容を決定する際、前記ユーザの発話した発話内容の丁寧
    さの度合いを判断する処理を行い、 丁寧さの度合いがある基準より高い場合には、音声認識
    し易い丁寧さの度合いを前記ユーザに示唆するために、
    前記ユーザに対する発話内容の丁寧さの度合いを前記ユ
    ーザの丁寧さの度合いよりも低く設定する処理を行い、 丁寧さの度合いがある基準より低い場合には、音声認識
    し易い丁寧さの度合いを前記ユーザに示唆するために、
    前記ユーザに対する発話内容の丁寧さの度合いを前記ユ
    ーザの丁寧さの度合いよりも高く設定する処理を行うこ
    とを特徴とする請求項11から14のいずれかに記載の
    音声対話装置における入力音声最適化処理プログラム。
JP2001349109A 2001-11-14 2001-11-14 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム Withdrawn JP2003150194A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001349109A JP2003150194A (ja) 2001-11-14 2001-11-14 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001349109A JP2003150194A (ja) 2001-11-14 2001-11-14 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム

Publications (2)

Publication Number Publication Date
JP2003150194A true JP2003150194A (ja) 2003-05-23
JP2003150194A5 JP2003150194A5 (ja) 2005-07-07

Family

ID=19161830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001349109A Withdrawn JP2003150194A (ja) 2001-11-14 2001-11-14 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム

Country Status (1)

Country Link
JP (1) JP2003150194A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084590A (ja) * 2003-09-11 2005-03-31 Nissan Motor Co Ltd 音声認識装置
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法
JP2005266020A (ja) * 2004-03-17 2005-09-29 Advanced Telecommunication Research Institute International 音声認識装置
JP2006251061A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 音声対話装置および音声対話方法
US7805306B2 (en) 2004-07-22 2010-09-28 Denso Corporation Voice guidance device and navigation device with the same
US8185395B2 (en) 2004-09-14 2012-05-22 Honda Motor Co., Ltd. Information transmission device
JP2015087649A (ja) * 2013-10-31 2015-05-07 シャープ株式会社 発話制御装置、方法、発話システム、プログラム、及び発話装置
JP2015172622A (ja) * 2014-03-11 2015-10-01 日本電気株式会社 音声出力装置および音声出力方法
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2018016139A1 (ja) * 2016-07-19 2018-01-25 ソニー株式会社 情報処理装置、および情報処理方法
JP2019060921A (ja) * 2017-09-25 2019-04-18 富士ゼロックス株式会社 情報処理装置、及びプログラム
CN112349299A (zh) * 2020-10-28 2021-02-09 维沃移动通信有限公司 语音播放方法、装置及电子设备
KR20210157621A (ko) * 2020-06-22 2021-12-29 주식회사 이엠텍 인터랙티브 프로세스를 이용한 청음 보조 장치의 음성 대화 방법

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084590A (ja) * 2003-09-11 2005-03-31 Nissan Motor Co Ltd 音声認識装置
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法
JPWO2005076258A1 (ja) * 2004-02-03 2007-10-18 松下電器産業株式会社 ユーザ適応型装置およびその制御方法
US7684977B2 (en) 2004-02-03 2010-03-23 Panasonic Corporation User adaptive system and control method thereof
JP2005266020A (ja) * 2004-03-17 2005-09-29 Advanced Telecommunication Research Institute International 音声認識装置
US7805306B2 (en) 2004-07-22 2010-09-28 Denso Corporation Voice guidance device and navigation device with the same
US8185395B2 (en) 2004-09-14 2012-05-22 Honda Motor Co., Ltd. Information transmission device
JP2006251061A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2015087649A (ja) * 2013-10-31 2015-05-07 シャープ株式会社 発話制御装置、方法、発話システム、プログラム、及び発話装置
JP2015172622A (ja) * 2014-03-11 2015-10-01 日本電気株式会社 音声出力装置および音声出力方法
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2017168936A1 (ja) * 2016-03-31 2019-02-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US11462213B2 (en) 2016-03-31 2022-10-04 Sony Corporation Information processing apparatus, information processing method, and program
WO2018016139A1 (ja) * 2016-07-19 2018-01-25 ソニー株式会社 情報処理装置、および情報処理方法
JPWO2018016139A1 (ja) * 2016-07-19 2019-05-09 ソニー株式会社 情報処理装置、および情報処理方法
JP7014163B2 (ja) 2016-07-19 2022-02-01 ソニーグループ株式会社 情報処理装置、および情報処理方法
JP2019060921A (ja) * 2017-09-25 2019-04-18 富士ゼロックス株式会社 情報処理装置、及びプログラム
JP7021488B2 (ja) 2017-09-25 2022-02-17 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びプログラム
KR20210157621A (ko) * 2020-06-22 2021-12-29 주식회사 이엠텍 인터랙티브 프로세스를 이용한 청음 보조 장치의 음성 대화 방법
KR102355182B1 (ko) 2020-06-22 2022-01-25 주식회사 이엠텍 인터랙티브 프로세스를 이용한 청음 보조 장치의 음성 대화 방법
CN112349299A (zh) * 2020-10-28 2021-02-09 维沃移动通信有限公司 语音播放方法、装置及电子设备

Similar Documents

Publication Publication Date Title
EP2126900B1 (en) Method and system for creating entries in a speech recognition lexicon
KR100383353B1 (ko) 음성인식장치및음성인식장치용어휘발생방법
EP0965978B9 (en) Non-interactive enrollment in speech recognition
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
JP2007233412A (ja) ユーザが定義したフレーズの話者に依存しない認識方法及びシステム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH11506845A (ja) 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
WO2006068123A1 (ja) 音声による選択装置、及び選択方法
US20020184035A1 (en) Voice spelling in an audio-only interface
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP2003150194A (ja) 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP5301037B2 (ja) 音声認識装置
JP2003241797A (ja) 音声対話システム
JP2007072331A (ja) 音声対話方法および音声対話システム
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2005338454A (ja) 音声対話装置
JPH08263092A (ja) 応答音声生成方法および音声対話システム
JP3277579B2 (ja) 音声認識方法および装置
Atal et al. Speech research directions
US10854196B1 (en) Functional prerequisites and acknowledgments
JP4979336B2 (ja) 音声出力装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070202