JP2001272991A

JP2001272991A - 音声対話方法及び音声対話装置

Info

Publication number: JP2001272991A
Application number: JP2000084948A
Authority: JP
Inventors: Makoto Hashimoto; 誠橋本
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2000-03-24
Filing date: 2000-03-24
Publication date: 2001-10-05

Abstract

(57)【要約】【課題】カーナビゲーション装置やテレビゲームなど
音声対話機能搭載機器が登場しているが、音声対話の進
行状況に応じて出力音声の声質や口調を変えるものはな
く、同じ声質及び口調の合成音声が出力されるため、ユ
ーザーが機械操作に飽きるという問題があった。【解決手段】入力音声の速度又は抑揚等を分析するこ
とによって話者の感情をカテゴリー化し、そのカテゴリ
ーに対応させて応答音声をもカテゴリー化して感情を持
った応答をさせるようにしたので、単調さが無くなり、
あたかも人間と会話している様なユーザーフレンドリー
な音声対話システムの構築が可能となる。さらに、入力
頻度の高いキーワードに対応する応答単語ついては、入
力頻度の低いキーワードに対応する応答単語よりも、強
調して応答音声を出力させるようにしたので、話者は応
答音声中重要なポイントを的確に聞くことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、人間とコンピュー
タとの間の情報伝達を円滑に行うための音声対話方法及
び音声対話装置に関する。

【０００２】

【従来の技術】音声を用いてコンピュータと対話を行い
ながら制御を行う音声対話装置は、カーナビゲーション
装置又はゲーム機に採用されておりその用途は拡大して
いる。

【０００３】従来の音声対話装置として特開平７−２１
０１９３号が公知であるが、出力される合成音声は単調
で、声質、速度、口調又は抑揚等を変えるものではない
ため、ユーザが機械操作に飽きるという問題があった。
また、特開平６−１１０６５０号公報には、入力音声の
一部を記憶しておき、音声出力の際はその記憶している
音声の速度を変える音声対話装置が開示されている。し
かしながらこれらいずれの音声対話装置も話者の感情又
は対話の進行状況等を考慮して応答音声を出力するもの
ではなくユーザーフレンドリなものとはいえなかった。
例えばカーナビゲーション装置に内蔵されている音声対
話装置を使用している場合、ユーザが目的地をうまく見
つけることができず次第にいらいらしてくる、又は渋滞
により予定時刻に遅れて落胆する等、話者の感情は状況
に応じて変化するにも拘わらず従来の音声対話装置はい
つも同じ口調で応答するだけであった。

【０００４】また、従来の出力音声は、メリハリが無く
一定の口調でなされるため、重要なポイントの把握が困
難であるという問題があった。たとえば、走行中にレス
トランを検索している場合、まず音声対話装置は「３Ｋ
ｍ先左側にＡすし店があります。」と応答したとする。
そして、ユーザは「他には? 」と音声入力すると、従来
のカーナビゲーション装置は同じ声質、速度、口調及び
抑揚等で「５Ｋｍ先右側にＢファミリーレストランがあ
ります。」と応答する。この場合、重要な情報は入力音
声「他に」に対応する「Ｂファミリーレストラン」であ
るが、他の情報（「５Ｋｍ」、「先」、「右側」及び
「あります」）についても同じ口調で応答するため、重
要な情報を把握しづらいという問題があった。特に、音
声対話装置と人間との間で交わされる会話内容が長くな
ると、出力される情報も複雑となり、かかる弊害は顕著
になるといえる。

【０００５】

【発明が解決しようとする課題】本発明は斯かる事情に
鑑みてなされたものでありその目的とするところは、会
話中の重要なポイントを明確化及び話者の感情を認識し
て応答するユーザーフレンドリな音声対話方法及び音声
対話装置を提供することにある。

【０００６】また本発明の他の目的は、対話の進行状況
に応じてめまぐるしく変化する話者の感情に柔軟に対応
して応答することができるユーザーフレンドリな音声対
話方法及び音声対話装置を提供することにある。

【０００７】さらに本発明の他の目的は、出力される応
答文中、重要なポイントをユーザが認識しやすいユーザ
ーフレンドリな音声対話方法及び音声対話装置を提供す
ることにある。

【０００８】

【課題を解決するための手段】第１発明に係る音声対話
方法は、入力された音声に対して応答文を作成して音声
出力する音声対話方法において、入力音声を音声信号に
変換するステップと、該音声信号を音声特徴情報に変換
するステップと、該音声特徴情報に基づいて所定のカテ
ゴリ群から入力音声のカテゴリを決定するステップと、
前記入力音声のカテゴリに応じて所定の応答カテゴリを
決定するステップと、該応答カテゴリに応じて出力応答
文の音声特徴情報を決定する特徴情報決定ステップと、
該特徴情報決定ステップにより決定した音声特徴情報に
基づいて出力応答文の音声を合成するステップとを備え
ることを特徴とする。

【０００９】第２発明に係る音声対話方法は、請求項１
に記載の音声対話方法において、カテゴリを決定した回
数をカテゴリ毎に計数するステップを更に備え、前記特
徴情報決定ステップは、前記応答カテゴリ及び前記ステ
ップで計数した回数に応じて決定することを特徴とす
る。

【００１０】第３発明に係る音声対話方法は、請求項２
に記載の音声対話方法において、カテゴリを決定した時
刻をカテゴリ毎に記憶するステップを更に備え、前記特
徴決定ステップは、前記応答カテゴリ、前記ステップで
計数した回数及び前記ステップで記憶した時刻に応じて
決定することを特徴とする。

【００１１】第４発明に係る音声対話方法は、入力され
た音声に対して応答文を作成して音声出力する音声対話
方法において、入力音声を音声信号に変換するステップ
と、該音声信号を音声特徴情報に変換するステップと、
該音声特徴情報に基づいて所定のキーワード及び音素群
から入力音声のキーワード及び音素を決定するステップ
と、同一キーワードが入力された回数を計数するステッ
プと、入力されたキーワード及び音素に基づいて応答文
を作成するステップと、作成した応答文のうち前記キー
ワードに対応して作成した応答単語について、キーワー
ド入力回数に応じて出力する応答文中の各応答単語の韻
律又はスペクトルを決定するステップと、前記決定した
出力応答文中の応答単語の韻律又はスペクトルに基づい
て出力応答文の音声を合成するステップとを備えること
を特徴とする。

【００１２】第５発明に係る音声対話方法は、入力され
た音声に対して応答文を作成して音声出力する音声対話
方法において、入力信号を音声信号に変換するステップ
と、該音声信号を音声特徴情報に変換するステップと、
該音声特徴情報に基づいて所定のキーワード及び音素群
から入力音声のキーワード及び音素を決定するステップ
と、同一キーワードが入力された回数を計数するステッ
プと、入力されたキーワード及び音素に基づいて応答文
を作成するステップと、作成した応答文のうち前記キー
ワードに対応して作成した応答単語について、キーワー
ド入力回数に応じて出力する応答文中の各応答単語の韻
律又はスペクトルを決定するステップと、前記音声特徴
情報に基づいて所定のカテゴリ群から入力音声のカテゴ
リを決定するステップと、カテゴリを決定した回数をカ
テゴリ毎に計数するステップと、カテゴリを決定した時
刻をカテゴリ毎に記憶するステップと、前記入力音声の
カテゴリに応じて所定の応答カテゴリを決定するステッ
プと、前記応答カテゴリ、カテゴリを決定した前記ステ
ップで計数した回数及び前記ステップで記憶した時刻に
応じて出力応答文の音声特徴情報を決定するステップ
と、該決定した出力応答文の音声特徴情報及び前記決定
した出力応答文中の応答単語の韻律又はスペクトルに基
づいて出力応答文の音声を合成するステップとを備える
ことを特徴とする。

【００１３】第６発明に係る音声対話装置は、入力され
た音声に対して応答文を作成して音声出力する音声対話
装置において、入力された音声信号を音声特徴情報に変
換する音声変換手段と、該音声変換手段から出力される
音声特徴情報に基づいて予め記憶しているカテゴリ群か
ら入力音声のカテゴリを決定するカテゴリ化手段と、該
カテゴリ化手段によりカテゴリ化した入力音声のカテゴ
リに応じて予め記憶している応答カテゴリを決定する応
答カテゴリ決定手段と、該応答カテゴリ決定手段により
決定した応答カテゴリに応じて出力応答文の音声特徴情
報を決定する特徴決定手段と、該特徴決定手段により決
定した音声特徴情報に基づいて出力応答文の音声を合成
する音声合成手段とを備えることを特徴とする。

【００１４】第７発明に係る音声対話装置は、請求項６
に記載の音声対話装置において、カテゴリ化手段により
カテゴリ化した回数をカテゴリ毎に計数するカテゴリ化
計数手段を更に備え、前記特徴決定手段は、応答カテゴ
リ決定手段により決定した前記応答カテゴリ及びカテゴ
リ化計数手段において計数した回数に応じて出力応答文
の音声特徴情報を決定する構成としてあることを特徴と
する。

【００１５】第８発明に係る音声対話装置は、請求項７
に記載の音声対話装置において、カテゴリ化手段により
カテゴリ化した時刻をカテゴリ毎に記憶する時刻記憶手
段を更に備え、前記特徴決定手段は、応答カテゴリ決定
手段により決定した前記応答カテゴリ、カテゴリ化計数
手段において計数した回数及び時刻記憶手段に記憶して
いる時刻に応じて出力応答文の音声特徴情報を決定する
構成としてあることを特徴とする。

【００１６】第９発明に係る音声対話装置は、入力され
た音声に対して応答文を作成して音声出力する音声対話
装置において、入力された音声信号を音声特徴情報に変
換する音声変換手段と、該音声変換手段により出力され
る音声特徴情報に基づいて予め記憶しているキーワード
及び音素群から入力音声のキーワード及び音素を決定す
るキーワード決定手段と、該キーワード決定手段におい
て同一キーワードが入力された回数を計数するキーワー
ド計数手段と、入力されたキーワード及び音素に基づい
て応答文を作成する応答文作成手段と、該応答文作成手
段により作成した応答文のうち前記キーワードに対応し
て作成した応答単語について、キーワードの入力回数に
応じて出力される応答文中の各応答単語の韻律又はスペ
クトルを決定する韻律スペクトル決定手段と、該韻律ス
ペクトル決定手段により決定した韻律又はスペクトルに
基づいて出力応答文の音声を合成する音声合成手段とを
備えることを特徴とする。

【００１７】第１０発明に係る音声対話装置は、入力さ
れた音声に対して応答文を作成して音声出力する音声対
話装置において、入力される音声信号を音声特徴情報に
変換する音声変換手段と、該音声変換手段により出力さ
れる音声特徴情報に基づいて予め記憶しているキーワー
ド及び音素群から入力音声のキーワード及び音素を決定
するキーワード決定手段と、該キーワード決定手段にお
いて同一キーワードが入力された回数を計数するキーワ
ード計数手段と、入力されたキーワード及び音素に基づ
いて応答文を作成する応答文作成手段と、該応答文作成
手段により作成した応答文のうち前記キーワードに対応
して作成した応答単語について、キーワード入力回数に
応じて出力される応答文中の各応答単語の韻律又はスペ
クトルを決定する韻律スペクトル決定手段と、前記音声
変換手段から出力される音声特徴情報に基づいて予め記
憶しているカテゴリ群から入力音声のカテゴリを決定す
るカテゴリ化手段と、前記カテゴリ化手段によりカテゴ
リ化した回数をカテゴリ毎に計数するカテゴリ化計数手
段と、前記カテゴリ化手段によりカテゴリ化した時刻を
カテゴリ毎に記憶する時刻記憶手段と、前記カテゴリ化
手段によりカテゴリ化した入力音声のカテゴリに応じて
予め記憶している応答カテゴリを決定する応答カテゴリ
決定手段と、該応答カテゴリ決定手段により決定した前
記応答カテゴリ、カテゴリ化計数手段により計数した回
数及び時刻記憶手段に記憶している時刻に応じて出力応
答文の音声特徴情報を決定する特徴決定手段と該特徴決
定手段により決定した音声特徴情報及び前記韻律スペク
トル決定手段により決定した韻律又はスペクトルに基づ
いて出力応答文の音声を合成する音声合成手段とを備え
ることを特徴とする。

【００１８】第１発明及び第６発明にあっては、入力音
声の速度、抑揚、パワー及びスペクトル等の音声特徴情
報を抽出する。そして、「疑問」、「落胆」又は「いら
だち」等のカテゴリ毎に記憶している音声特徴情報群と
入力音声の音声特徴情報とを比較する。比較した結果、
最も近似する音声特徴情報に対応するカテゴリを入力音
声のカテゴリと決定する。さらに、「親切な応答」、
「速い応答」又は「丁寧な応答」等の応答カテゴリ群を
予め記憶しておき入力音声のカテゴリに応じて適切な一
の応答カテゴリを決定する。そして、応答カテゴリの種
類に応じて出力応答文の音声速度、抑揚、パワー及びス
ペクトル等の音声特徴情報を合成するようにしたので、
例えば、話者が急いで問いかければ速い速度で応答する
といったことが可能となり単調さが無く、あたかも人間
と会話している様なユーザーフレンドリな音声対話シス
テムの構築が可能となる。

【００１９】第２発明及び第７発明にあっては、カテゴ
リ化した回数を計数し、その回数に応じて出力応答文の
音声速度、抑揚、パワー及びスペクトル等の音声特徴情
報を合成するようにしたので、より単調さが無くなり、
対話の中で刻々と変化する話者の感情をも考慮したユー
ザーフレンドリな音声対話システムの構築が可能とな
る。

【００２０】第３発明及び第８発明にあっては、カテゴ
リ化した回数及び時刻を記憶しておきそのカテゴリ化回
数及び時刻に応じて、出力応答文の音声速度、抑揚、パ
ワー及びスペクトル等の音声特徴情報を合成するように
したので、さらに単調さが無くなり、話者の心境変化を
経時的に考慮したよりユーザーフレンドリな音声対話シ
ステムの構築が可能となる。

【００２１】第４発明及び第９発明にあっては、同じキ
ーワードが入力される回数を計数する。そして入力頻度
の高いキーワードに対応する応答単語ついては、韻律又
はスペクトルを変更する。例えば入力頻度の高いキーワ
ードに対応する応答単語については、入力頻度の低いキ
ーワードに対応する応答単語よりも、音量を大きくして
出力させるようにしたので、話者は応答音声中重要なポ
イントを的確に聞くことが可能となる。

【００２２】第５発明及び第１０発明にあっては、同じ
キーワードが入力される回数を計数する。また、入力音
声カテゴリに対する応答カテゴリを決定すると共に、カ
テゴリ化した回数を計数、及びカテゴリ化した時刻を記
憶する。そして、応答カテゴリ、カテゴリ化した回数、
カテゴリ化した時刻及びキーワード入力回数に基づい
て、出力応答文の音声特徴情報及び出力応答文中の各応
答単語の韻律又はスペクトルを合成するようにしたの
で、単調さが無く、また出力音声の重要なポイントを聞
き取りやすいユーザーフレンドリな音声対話システムを
構築することができる。

【００２３】

【発明の実施の形態】以下本発明をその実施の形態を示
す図面に基づいて詳述する。図１は本発明の音声対話装
置Ｄを示すブロック図である。図において１はマイクロ
フォンであり、入力音声を電気的な音声信号に変換す
る。この音声信号はＡ／Ｄ変換器４によりデジタル化さ
れ、デジタル化された音声信号はＭＰＵ２で音声信号か
ら音声特徴情報への変換、キーワード又は音素の検出、
応答文の作成及びカテゴリの決定等の各処理が行われ
る。また、ＭＰＵ２内部は時計部７を備える。なおＭＰ
Ｕ２の処理については後述する。

【００２４】また、ＭＰＵ２にはハードディスク等の記
憶装置３が接続されておりキーワードデータ、音素デー
タ、カテゴリーデータ等の各種情報が記憶されている。
音声対話装置Ｄと図示しないカーナビゲーション装置又
はゲーム装置等とはＩ／Ｏ部８において制御信号、距離
情報データ又は渋滞情報テキストファイル等の各種情報
を送受信する。ＭＰＵ２で生成された応答文データ、音
量データ、音声特徴情報等の各データはＤ／Ａ変換器５
により電気信号に変換される。そうすると、電気信号は
スピーカ６から音声として出力されることになる。

【００２５】図２は、ＭＰＵ２の処理手順を示すフロー
チャートである。まず、Ａ／Ｄ変換器４から出力された
デジタルの音声信号を速度、抑揚、パワーまたはＦＦＴ
による周波数スペクトル等の音声特徴情報に変換する
（ステップＳ２１）。ステップＳ２１によって処理され
た音声特徴情報は、キーワード等を検出して応答文等を
作成するキーワード処理と話者の感情カテゴリを検出す
るカテゴリ処理とを実行する。

【００２６】まず、カテゴリ処理について以下に説明す
る。記憶装置３におけるカテゴリデータベース３ｄには
カテゴリ毎（疑問、確認又はいらだち等）に音声特徴情
報（例えば入力音声の速度、抑揚又は周波数スペクトル
等）が記憶されている。まず、ステップＳ２１において
変換された音声特徴情報に基づき入力音声のカテゴリを
決定する（ステップＳ２２）。入力音声のカテゴリ決定
にあっては入力音声の音声特徴情報とカテゴリデータベ
ース３ｄに記憶している音声特徴情報とを比較し、一致
又は最も近似する音声特徴情報に対応するカテゴリを入
力音声（話者）のカテゴリとして決定する（ステップＳ
２２）。

【００２７】そして、ステップＳ２２においてカテゴリ
化したカテゴリ毎にカウンタを設けておき同一カテゴリ
が入力されるとカウンタをインクリメントする（ステッ
プＳ２３）。また、ステップＳ２３においてカテゴリ化
した時刻をカテゴリ毎に逐次記憶する（ステップＳ２
４）。時刻の記憶は、時計部７からの信号に基づいて行
われ、ステップＳ２２においてカテゴリ化するたびに逐
次記憶する。記憶装置３における応答カテゴリデータベ
ース３ｅには、入力音声のカテゴリに対応する応答カテ
ゴリ群が予め記憶されている。この応答カテゴリデータ
ベース３ｅを参酌して、ステップＳ２２においてカテゴ
リ化した入力音声のカテゴリに対応する応答カテゴリを
決定する（ステップＳ２５）。記憶装置３における音調
データベース３ｆには応答カテゴリに対応する音声特徴
情報が記憶されている。この音調データベース３ｆを参
照して、ステップ２５において決定した応答カテゴリに
対する音声特徴情報を決定する（ステップＳ２６）。

【００２８】次に、キーワード処理について説明する。
記憶装置３のキーワードデータベース３ａにはキーワー
ド毎に音声特徴情報が記憶されており、同様に記憶装置
３の音素データベース３ｂには音素毎に音声特徴情報が
記憶されている。まず、ステップＳ２１によって処理さ
れた音声特徴情報とキーワードデータベース３ａ及び音
素データベース３ｂに記憶している音声特徴情報とを対
比し、一致する音声特徴情報に対応するキーワード及び
音素を決定する（ステップＳ２７）。

【００２９】続いて、ステップ２７において、キーワー
ド毎にカウンタを設けておき、同一キーワードが入力さ
れるとカウンタをインクリメントする（ステップＳ２
８）。そして、ステップＳ２７により決定したキーワー
ド及び音素に基づいて応答文を作成する（ステップＳ２
９）。記憶装置３の辞書データベース３ｃにはキーワー
ド及び音素の発音記号及び意味内容が記憶されており、
応答文作成処理（ステップＳ２９）では辞書データベー
ス３ｃを参照しながらする応答文を作成する。そして、
ステップＳ２８においてキーワードを計数した回数に応
じて、ステップＳ２９において作成した応答文中のキー
ワードに対応する応答単語毎に韻律又はスペクトルを決
定する（ステップＳ２１０）。なお、韻律とは音の高
さ、速さ又は強さ等をいう。

【００３０】上述のキーワード処理及びカテゴリ処理手
順が終了した場合はこれら２つの処理結果を応答文の音
声に反映させる。つまり、ステップＳ２９において作成
した応答文の音声をステップＳ２６において決定した音
声特徴情報及びステップＳ２１０で決定したキーワード
に対応する各応答単語の韻律又はスペクトル情報に基づ
いて合成する（ステップＳ２１１）のである。以下に各
処理内容について詳述する。なお、キーワード処理及び
カテゴリ処理についてはどちらを先に処理しても良い。

【００３１】図３はカテゴリ化処理の手順を表す説明図
である。図において、カテゴリデータベース３ｄはカテ
ゴリに毎に音声特徴情報が既定値として記憶されてい
る。音声特徴情報は例えば、速度、抑揚、パワー及びス
ペクトルである。例えば、「疑問」カテゴリであれば、
語尾が上がっているというような情報が記憶されてい
る。

【００３２】カテゴリ化処理（ステップＳ２２）では、
入力された音声の音声特徴情報とカテゴリデータベース
３ｄのカテゴリ毎に既定値として記憶されている音声特
徴情報とをパターンマッチング等の手法により比較す
る。比較した結果、一致又は最も近似する音声特徴情報
に対応してカテゴリデータベース３ｄに記憶しているカ
テゴリを音声入力のカテゴリとして決定する。なお、カ
テゴリ決定の精度を向上させるために、ユーザがディク
テーションを行い、その結果をカテゴリデータベース３
ｄに記憶している音声特徴情報を適宜更新するようにし
ても良い。さらに、この本発明に係る音声対話装置を複
数人で利用する場合は、ユーザ毎のディクテーション結
果を分別して記憶するようにする。

【００３３】図４はカテゴリ化処理手順を示すフローチ
ャートである。まず、ステップＳ２１で変換された入力
された音声の音声特徴情報とカテゴリデータベース３ｄ
のカテゴリ毎に既定値として記憶されている音声特徴情
報とを比較する（ステップＳ４１）。そして、カテゴリ
データベース３ｄの音声特徴群から最適な一の音声特徴
情報を決定する（ステップＳ４２）。それから、係る音
声特徴情報に対応するカテゴリを入力音声のカテゴリと
して決定する（ステップＳ４３）。

【００３４】図５は応答カテゴリ決定の処理手順を示す
説明図である。応答カテゴリデータベース３ｅには入力
カテゴリに対する応答カテゴリがそれぞれ記憶されてい
る。例えば、入力音声カテゴリが「急ぎ」である場合、
出力される音声もきびきびと出力した方がよいので、こ
れに対応する応答カテゴリは「速い応答」となるように
記憶されている。また、入力音声カテゴリが「落胆」で
ある場合、ユーザを落ち着かせる出力音声が好ましいの
で、これに対応する応答カテゴリは「励ます応答」が記
憶されている。応答カテゴリ決定処理（ステップＳ２
５）では、応答カテゴリデータベース３ｅに記憶してい
る情報を基に、カテゴリ化処理（ステップＳ２２）にお
いて決定したカテゴリに対応する応答カテゴリを決定す
る処理を行う。

【００３５】音調データベース３ｆには、応答カテゴリ
毎に応答音声の音声特徴情報が記憶されている。例え
ば、「速い応答」であれば音声特徴情報の一つである既
定速度「Ｃ（やや速いスピード）」が選択され、さら
に、既定抑揚「ハ（一定の抑揚）」及び既定パワー
「ｃ」が選択される。この音声特徴情報はユーザの設定
により既定値を変更することもできる。特徴決定処理
（ステップＳ２６）では、音調データベース３ｆを参照
して、応答カテゴリ決定処理（ステップＳ２５）により
決定した応答カテゴリに基づいて出力される音声の音声
特徴情報を決定する処理を行う。

【００３６】図６はカテゴリ化計数処理及び特徴決定処
理の手順を示す説明図である。カテゴリ化計数処理（ス
テップＳ２３）においてはカテゴリ化処理（ステップＳ
２２）でカテゴリ化した回数をカテゴリ毎に記憶する処
理を行う。図の例であれば、「疑問」カテゴリが「１」
回、「いらだち」カテゴリが「３」回及び「急ぎ」カテ
ゴリが「２」回とそれぞれ記憶されている。応答カテゴ
リ決定処理（ステップＳ２５）においては、入力カテゴ
リに対する応答カテゴリが決定されるが、同様に入力カ
テゴリ化回数に対する応答カテゴリの回数も計数する。
図の例であれば、入力カテゴリ「疑問」に対する応答カ
テゴリ「親切な応答」が「１」回、入力カテゴリ「いら
だち」に対する応答カテゴリ「丁寧な応答」が「３」回
及び入力カテゴリ「急ぎ」に対する応答カテゴリ「速い
応答」が「２」回とそれぞれ計数されている。

【００３７】特徴決定処理（ステップＳ２６）において
は、ステップＳ２５において決定した応答カテゴリ及び
回数を考慮して音声特徴情報を決定する処理を行う。例
えば、「親切な応答」を連続して行う場合は、１回目よ
りも２回目の方が「より親切な応答」になるように制御
し、あるいは、「丁寧な応答」が続いているような場合
は、「より丁寧な応答」になるように応答音声の音声特
徴を制御する。あるいは、同一応答カテゴリが連続して
いない場合でも、カウントされた回数に応じて、柔軟に
制御を行う。

【００３８】図７は時刻記憶処理の手順を示す説明図で
ある。時刻記憶処理（ステップＳ２４）においては、カ
テゴリ化処理（ステップＳ２２）においてカテゴリ化し
た時刻をカテゴリ毎に逐次記憶する処理を行う。そし
て、記憶した時刻を考慮して音声特徴情報を決定する。
例えば、カテゴリが「いらだち」と決定した後、次に入
力された音声のカテゴリが「落胆」であるとする。この
場合、時系列的に入力音声は「いらだち」から「落胆」
というカテゴリに変化したことを考慮し、応答カテゴリ
として「丁寧かつ励ましの応答」等といったカテゴリを
選択する。これを受けて特徴決定処理（ステップＳ２
６）においては、上述のカテゴリ化計数処理（ステップ
Ｓ２３）と同じ手法により音声特徴情報を決定する。そ
うすると、経時的要素をも考慮した応答音声が出力され
ることになる。

【００３９】カテゴリ化計数処理（ステップＳ２３）に
おける計数回数及び時刻記憶処理（ステップＳ２４）に
より記憶している時刻は、図示しない音声対話装置の制
御部からリセット要求があるまで随時更新される。例え
ばカーナビゲーション装置においては、一つのタスクが
終了するまで（例えば、目的地を検索している場合はそ
の検索が終了するまで）、音声対話が連続して行われる
ことになるため、その間は回数及び時刻をクリアしない
でおく。逆に、他のタスクへ移行（例えば、目的地の検
索が終了して渋滞情報の案内へ移行）する場合は、対話
内容が異なるので回数及び時刻をクリアして初期化す
る。このように回数及び時刻を「０」に更新する要求が
ある場合は回数及び時刻を「０」にクリアする。

【００４０】図８はカテゴリ化回数及び時刻の更新処理
手順を示すフローチャートである。まず、カテゴリを決
定、カテゴリ化した回数を計数、及びカテゴリ化した時
刻を記憶する（ステップＳ８１）。そして、入力音声カ
テゴリに基づいて応答カテゴリを決定する（ステップＳ
８２）。ついで、応答カテゴリ、カテゴリ化回数及びカ
テゴリ化時刻に基づいて音声特徴情報を決定する（ステ
ップＳ８３）。そして、図示しない制御部から回数及び
時刻のクリア要求がない場合は（ステップＳ８４でＮ
ｏ）、ステップＳ８１へ戻る。

【００４１】そして、再度音声が入力されカテゴリ化し
た場合は、カテゴリに応じて計数している回数をインク
リメントする（ステップＳ８１）。同時に、カテゴリ化
した時刻もカテゴリ毎に逐次追加記憶する（ステップＳ
８１）。このとき、計数値及び記憶時刻に応じて重み付
けをして、音声特徴情報を決定する（ステップＳ８
３）。一方、図示しない制御部から回数及び時刻のクリ
ア要求がある場合は（ステップＳ８４でＹｅｓ）、カテ
ゴリ化回数を「０」にすると共に、記憶している時刻を
全て消去する（ステップＳ８５）。

【００４２】図９は本発明のキーワード処理の手順を示
す説明図である。キーワード決定処理（ステップＳ２
７）では、キーワードを検出するたびにキーワード毎に
計数する処理を行う（ステップＳ２８）。例えば、カー
ナビゲーション装置において、ユーザがコンビニエンス
ストアを検索する場合に、ユーザが「コンビニ」と発声
すると、キーワード「コンビニ」を「１」と計数する。
なお、キーワード計数回数についてもカテゴリ回数と同
様に、図示しない制御部からクリア要求があるまで、回
数を蓄積する。

【００４３】応答文作成処理（ステップＳ２９）では、
キーワードに基づいて、辞書データベース３ｃ及び図示
しないカーナビゲーション装置の地図データベースへア
クセスしてコンビニを検索し応答文を作成する処理を行
う。そして「３Ｋｍ先右側にハイソンがあります。」と
いう応答文を作成する。韻律スペクトル決定処理（ステ
ップＳ２１０）では、応答文中、キーワード「コンビ
ニ」に対応する応答単語「ハイソン」をキーワードの計
数回数に基づいて「１」と重み付けする。一方、他の応
答単語「３Ｋｍ先右側に」及び「があります。」につい
てはキーワードの計数回数は「０」なので、重みを
「０」とする処理を行う。そして、この重みに基づいて
韻律又はスペクトルを決定する処理を行う。例えば、応
答単語「３Ｋｍ先右側に」及び「があります。」は音量
を通常の音量とし、応答単語「ハイソン」は通常の音量
よりも高い音量となるよう決定する。

【００４４】更に対話が継続するのであれば、入力され
るキーワードを更に計数する。具体的に示すと、続いて
「他は? 」と入力されるとキーワード「他は? 」が
「１」と計数される。そして、応答文が「他は近くにあ
りません。」であるとすると、キーワード「コンビニ」
及び「他は? 」について回数は共に「１」と計数されて
いるので、キーワード「他は? 」に対応する応答単語
「他は」及びキーワード「コンビニ」に対応する応答単
語「ありません。」を同じ重みとし、応答単語「他は」
及び「ありません」を同じ音量で出力する。一方、他の
応答単語「近くに」は計数回数が「０」つまり重みが
「０」であるので、応答単語「他は」及び「ありませ
ん」よりも低い音量となるよう設定する。

【００４５】さらにユーザが「他は? どこ? 」と発声し
たとする。すると、キーワードは「コンビニ」が「１」
回、「他は? 」が「２」回、「どこ? 」が「１」回とそ
れぞれ計数される。この場合応答文が「ハイソンの他
は、１０Ｋｍ先左側にセブンがあります。それ以外は１
０Ｋｍ以上離れていますねぇ。」であるとする。そうす
ると、検出回数が多いものから順に、キーワード「他は
? 」の応答単語「の他は」の重みが「２」に、キーワー
ド「コンビニ」の応答単語「ハイソン」及び「セブン」
の重みが「１」に、これと同じ計数回数であるキーワー
ド「どこ? 」の応答単語「１０Ｋｍ先左側」及び「１０
Ｋｍ以上離れて」が重み「１」に、そしてそれ以外の応
答単語「に」、「があります。それ以外は」及び「いま
すねぇ。」の重みは「０」とそれぞれ計数回数に応じて
重み付けされる。これにより、かかる重みに基づいて、
重量順に音量を決定する。

【００４６】図１０は、音声合成処理手順を示す説明図
である。上記例で、従来の音声対話装置では、何の強
調、抑揚、感情等もなく一律に作成された応答文「ハイ
ソンの他は、１０Ｋｍ先左側にセブンがあります。それ
以外は１０Ｋｍ以上離れていますねぇ。」を出力するも
のであった。これに対し本発明は、韻律スペクトル決定
処理（ステップＳ２１０）により前記重みに基づいて応
答単語毎に韻律又はスペクトルを決定する処理を行う。
一方、応答カテゴリ決定処理（ステップＳ２５）により
決定した応答カテゴリ（図の例では「親切な応答」）に
対応する音声特徴情報を特徴決定処理（ステップＳ２
６）により決定する（図の例では速度「ゆっくり」及び
抑揚「語尾下げる」と決定する）。そうすると、韻律ス
ペクトル決定処理（ステップＳ２１０）で決定した韻律
又はスペクトル及び特徴決定処理（ステップＳ２６）で
決定した音声特徴情報を基に、応答文作成処理（ステッ
プＳ２９）で作成した応答文の音声データに、音声特徴
情報及び韻律又はスペクトル情報が付加する処理が行わ
れ（音声合成処理ステップＳ２１１）、重要なポイント
を聞き取りやすく、しかも感情を持ったような応答音声
が出力されることになる。

【００４７】

【発明の効果】以上詳述した如く第１発明及び第６発明
にあっては、入力音声の速度、抑揚、パワー及びスペク
トル等の音声特徴情報を抽出する。そして、「疑問」、
「落胆」又は「いらだち」等のカテゴリ毎に記憶してい
る音声特徴情報群と入力音声の音声特徴情報とを比較す
る。比較した結果、最も近似する音声特徴情報に対応す
るカテゴリを入力音声のカテゴリと決定する。さらに、
「親切な応答」、「速い応答」又は「丁寧な応答」等の
応答カテゴリ群を予め記憶しておき入力音声のカテゴリ
に応じて適切な一の応答カテゴリを決定する。そして、
応答カテゴリの種類に応じて出力応答文の音声速度、抑
揚、パワー及びスペクトル等の音声特徴情報を合成する
ようにしたので、例えば、話者が急いで問いかければ速
い速度で応答するといったことが可能となり単調さが無
く、あたかも人間と会話している様なユーザーフレンド
リな音声対話システムの構築が可能となる。

【００４８】また、第２発明及び第７発明にあっては、
カテゴリ化した回数を計数し、その回数に応じて出力応
答文の音声速度、抑揚、パワー及びスペクトル等の音声
特徴情報を合成するようにしたので、より単調さが無く
なり、対話の中で刻々と変化する話者の感情をも考慮し
たユーザーフレンドリな音声対話システムの構築が可能
となる。

【００４９】また、第３発明及び第８発明にあっては、
カテゴリ化した回数及び時刻を記憶しておきそのカテゴ
リ化回数及び時刻に応じて、出力応答文の音声速度、抑
揚、パワー及びスペクトル等の音声特徴情報を合成する
ようにしたので、さらに単調さが無くなり、話者の心境
変化を経時的に考慮したよりユーザーフレンドリな音声
対話システムの構築が可能となる。

【００５０】また、第４発明及び第９発明にあっては、
同じキーワードが入力される回数を計数する。そして入
力頻度の高いキーワードに対応する応答単語ついては韻
律又はスペクトルを変化、例えば入力頻度の低いキーワ
ードに対応する応答単語よりも、音量を大きくして出力
させるようにしたので、話者は応答音声中重要なポイン
トを的確に聞くことが可能となる。

【００５１】さらに、第５発明及び第１０発明にあって
は、同じキーワードが入力される回数を計数する。ま
た、入力音声カテゴリに対する応答カテゴリを決定する
と共に、カテゴリ化した回数を計数、及びカテゴリ化し
た時刻を記憶する。そして、応答カテゴリ、カテゴリ化
した回数、カテゴリ化した時刻及びキーワード入力回数
に基づいて、出力応答文の音声特徴情報及び出力応答文
中の各応答単語の韻律又はスペクトルを合成するように
したので、単調さが無く、また出力音声の重要なポイン
トを聞き取りやすいユーザーフレンドリな音声対話シス
テムを構築することができる。

【図面の簡単な説明】

【図１】本発明の音声対話装置を示すブロック図であ
る。

【図２】ＭＰＵの処理手順を示すフローチャートであ
る。

【図３】カテゴリ化処理の手順を表す説明図である。

【図４】カテゴリ化処理手順を示すフローチャートであ
る。

【図５】応答カテゴリ決定の処理手順を示す説明図であ
る。

【図６】カテゴリ化計数処理及び音調決定処理の手順を
示す説明図である。

【図７】時刻記憶処理の手順を示す説明図である。

【図８】カテゴリ化回数及び時刻の更新処理手順を示す
フローチャートである。

【図９】本発明のキーワード処理の手順を示す説明図で
ある。

【図１０】音声合成処理手順を示す説明図である。

【符号の説明】

Ｄ音声対話装置１マイクロフォン２ＭＰＵ３記憶装置３ａキーワードデータベース３ｂ音素データベース３ｃ辞書データベース３ｄカテゴリデータベース３ｅ応答カテゴリデータベース３ｆ音調データベース６スピーカ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22

Claims

【特許請求の範囲】

【請求項１】入力された音声に対して応答文を作成し
て音声出力する音声対話方法において、入力音声を音声信号に変換するステップと、該音声信号を音声特徴情報に変換するステップと、該音声特徴情報に基づいて所定のカテゴリ群から入力音
声のカテゴリを決定するステップと、前記入力音声のカテゴリに応じて所定の応答カテゴリを
決定するステップと、該応答カテゴリに応じて出力応答文の音声特徴情報を決
定する特徴情報決定ステップと、該特徴情報決定ステップにより決定した音声特徴情報に
基づいて出力応答文の音声を合成するステップとを備え
ることを特徴とする音声対話方法。
【請求項２】カテゴリを決定した回数をカテゴリ毎に
計数するステップを更に備え、前記特徴情報決定ステップは、前記応答カテゴリ及び前
記ステップで計数した回数に応じて決定することを特徴
とする請求項１に記載の音声対話方法。
【請求項３】カテゴリを決定した時刻をカテゴリ毎に
記憶するステップを更に備え、前記特徴決定ステップは、前記応答カテゴリ、前記ステ
ップで計数した回数及び前記ステップで記憶した時刻に
応じて決定することを特徴とする請求項２に記載の音声
対話方法。
【請求項４】入力された音声に対して応答文を作成し
て音声出力する音声対話方法において、入力音声を音声信号に変換するステップと、該音声信号を音声特徴情報に変換するステップと、該音声特徴情報に基づいて所定のキーワード及び音素群
から入力音声のキーワード及び音素を決定するステップ
と、同一キーワードが入力された回数を計数するステップ
と、入力されたキーワード及び音素に基づいて応答文を作成
するステップと、作成した応答文のうち前記キーワードに対応して作成し
た応答単語について、キーワード入力回数に応じて出力
する応答文中の各応答単語の韻律又はスペクトルを決定
するステップと、前記決定した出力応答文中の応答単語の韻律又はスペク
トルに基づいて出力応答文の音声を合成するステップと
を備えることを特徴とする音声対話方法。
【請求項５】入力された音声に対して応答文を作成し
て音声出力する音声対話方法において、入力信号を音声信号に変換するステップと、該音声信号を音声特徴情報に変換するステップと、該音声特徴情報に基づいて所定のキーワード及び音素群
から入力音声のキーワード及び音素を決定するステップ
と、同一キーワードが入力された回数を計数するステップ
と、入力されたキーワード及び音素に基づいて応答文を作成
するステップと、作成した応答文のうち前記キーワードに対応して作成し
た応答単語について、キーワード入力回数に応じて出力
する応答文中の各応答単語の韻律又はスペクトルを決定
するステップと、前記音声特徴情報に基づいて所定のカテゴリ群から入力
音声のカテゴリを決定するステップと、カテゴリを決定した回数をカテゴリ毎に計数するステッ
プと、カテゴリを決定した時刻をカテゴリ毎に記憶するステッ
プと、前記入力音声のカテゴリに応じて所定の応答カテゴリを
決定するステップと、前記応答カテゴリ、カテゴリを決定した前記ステップで
計数した回数及び前記ステップで記憶した時刻に応じて
出力応答文の音声特徴情報を決定するステップと、該決定した出力応答文の音声特徴情報及び前記決定した
出力応答文中の応答単語の韻律又はスペクトルに基づい
て出力応答文の音声を合成するステップとを備えること
を特徴とする音声対話方法。
【請求項６】入力された音声に対して応答文を作成し
て音声出力する音声対話装置において、入力された音声信号を音声特徴情報に変換する音声変換
手段と、該音声変換手段から出力される音声特徴情報に基づいて
予め記憶しているカテゴリ群から入力音声のカテゴリを
決定するカテゴリ化手段と、該カテゴリ化手段によりカテゴリ化した入力音声のカテ
ゴリに応じて予め記憶している応答カテゴリを決定する
応答カテゴリ決定手段と、該応答カテゴリ決定手段により決定した応答カテゴリに
応じて出力応答文の音声特徴情報を決定する特徴決定手
段と、該特徴決定手段により決定した音声特徴情報に基づいて
出力応答文の音声を合成する音声合成手段とを備えるこ
とを特徴とする音声対話装置。
【請求項７】カテゴリ化手段によりカテゴリ化した回
数をカテゴリ毎に計数するカテゴリ化計数手段を更に備
え、前記特徴決定手段は、応答カテゴリ決定手段により決定
した前記応答カテゴリ及びカテゴリ化計数手段において
計数した回数に応じて出力応答文の音声特徴情報を決定
する構成としてあることを特徴とする請求項６に記載の
音声対話装置。
【請求項８】カテゴリ化手段によりカテゴリ化した時
刻をカテゴリ毎に記憶する時刻記憶手段を更に備え、前記特徴決定手段は、応答カテゴリ決定手段により決定
した前記応答カテゴリ、カテゴリ化計数手段において計
数した回数及び時刻記憶手段に記憶している時刻に応じ
て出力応答文の音声特徴情報を決定する構成としてある
ことを特徴とする請求項７に記載の音声対話装置。
【請求項９】入力された音声に対して応答文を作成し
て音声出力する音声対話装置において、入力された音声信号を音声特徴情報に変換する音声変換
手段と、該音声変換手段により出力される音声特徴情報に基づい
て予め記憶しているキーワード及び音素群から入力音声
のキーワード及び音素を決定するキーワード決定手段
と、該キーワード決定手段において同一キーワードが入力さ
れた回数を計数するキーワード計数手段と、入力されたキーワード及び音素に基づいて応答文を作成
する応答文作成手段と、該応答文作成手段により作成した応答文のうち前記キー
ワードに対応して作成した応答単語について、キーワー
ドの入力回数に応じて出力される応答文中の各応答単語
の韻律又はスペクトルを決定する韻律スペクトル決定手
段と、該韻律スペクトル決定手段により決定した韻律又はスペ
クトルに基づいて出力応答文の音声を合成する音声合成
手段とを備えることを特徴とする音声対話装置。
【請求項１０】入力された音声に対して応答文を作成
して音声出力する音声対話装置において、入力される音声信号を音声特徴情報に変換する音声変換
手段と、該音声変換手段により出力される音声特徴情報に基づい
て予め記憶しているキーワード及び音素群から入力音声
のキーワード及び音素を決定するキーワード決定手段
と、該キーワード決定手段において同一キーワードが入力さ
れた回数を計数するキーワード計数手段と、入力されたキーワード及び音素に基づいて応答文を作成
する応答文作成手段と、該応答文作成手段により作成し
た応答文のうち前記キーワードに対応して作成した応答
単語について、キーワード入力回数に応じて出力される
応答文中の各応答単語の韻律又はスペクトルを決定する
韻律スペクトル決定手段と、前記音声変換手段から出力される音声特徴情報に基づい
て予め記憶しているカテゴリ群から入力音声のカテゴリ
を決定するカテゴリ化手段と、前記カテゴリ化手段によりカテゴリ化した回数をカテゴ
リ毎に計数するカテゴリ化計数手段と、前記カテゴリ化手段によりカテゴリ化した時刻をカテゴ
リ毎に記憶する時刻記憶手段と、前記カテゴリ化手段によりカテゴリ化した入力音声のカ
テゴリに応じて予め記憶している応答カテゴリを決定す
る応答カテゴリ決定手段と、該応答カテゴリ決定手段により決定した前記応答カテゴ
リ、カテゴリ化計数手段により計数した回数及び時刻記
憶手段に記憶している時刻に応じて出力応答文の音声特
徴情報を決定する特徴決定手段と、該特徴決定手段により決定した音声特徴情報及び前記韻
律スペクトル決定手段により決定した韻律又はスペクト
ルに基づいて出力応答文の音声を合成する音声合成手段
とを備えることを特徴とする音声対話装置。