JP2004163541A

JP2004163541A - 音声応答装置

Info

Publication number: JP2004163541A
Application number: JP2002327344A
Authority: JP
Inventors: Jun Ishii; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-11-11
Filing date: 2002-11-11
Publication date: 2004-06-10

Abstract

【課題】ユーザが異なる場合でも常に同一の音声認識処理が実施される。即ち、如何なるユーザの音声を認識する場合でも、予め用意された標準パタン、文法及び認識対象単語辞書を使用して音声の認識処理を実施する。そのため、ユーザによっては標準パタン、文法及び認識対象単語辞書の不整合が発生して音声の認識率が低下することがある課題があった。
【解決手段】ユーザのタイプを識別するタイプ識別手段１を設け、そのタイプ識別手段１から出力された識別情報に応じて音声認識方法，対話制御方法及び音声合成方法を選定する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、人間が発声する音声を認識し、その音声に対する応答メッセージを出力する音声応答装置に関するものである。
【０００２】
【従来の技術】
音声応答装置は、人間（ユーザ）と機械が音声によって対話するシステムであり、予約受付の自動化など実用性が高い。
従来の音声応答装置は、ユーザが音声を発すると、音声認識手段がユーザの音声を入力して、その音声を認識する。
そして、対話制御手段が音声認識手段の音声認識結果に対応する応答テキストを生成し、音声合成手段が当該応答テキストを応答音声に変換して出力する。
【０００３】
【非特許文献１】
「音声認識の基礎」（上・下）Ｌ．ＲＡＢＩＮＥＲ、Ｂ．Ｈ．ＪＵＡＮＧ、古井貞煕監訳、１９９５年１１月ＮＴＴアドバンステクノロジ発行
【非特許文献２】
「小特集−音声対話システムの実力と課題−」中川聖一他、日本音響学会誌、ＶＯＬ．５４、ＮＯ．１１、ｐｐ．７８３−８２２、１９９８年１１月、（社）日本音響学会発行
【０００４】
【発明が解決しようとする課題】
従来の音声応答装置は以上のように構成されているので、ユーザが異なる場合でも常に同一の音声認識処理が実施される。即ち、如何なるユーザの音声を認識する場合でも、予め用意された標準パタン、文法及び認識対象単語辞書を使用して音声の認識処理を実施する。そのため、ユーザによっては標準パタン、文法及び認識対象単語辞書の不整合が発生して音声の認識率が低下することがある課題があった。
また、ユーザが異なる場合でも常に同一の対話制御方法（対話フロー）が使用されるため、初めて音声応答装置を利用するユーザと、音声応答装置の利用経験があるユーザが同様に扱われ、音声応答装置の利用経験があるユーザにとって煩わしい対話が繰り返されることがある課題があった。
さらに、応答音声の出力速度が常に一定であるため、急いでいるユーザにはもっと情報を速く伝えてもらいたいという要求が生じる一方、反対に高齢者などには速くて応答音声を聞き取れないことがあるなどの課題もあった。
【０００５】
この発明は上記のような課題を解決するためになされたもので、利用するユーザに適する音声認識方法，対話制御方法及び音声合成方法を用いることができる音声応答装置を得ることを目的とする。
【０００６】
【課題を解決するための手段】
この発明に係る音声応答装置は、ユーザのタイプを識別するタイプ識別手段を設け、そのタイプ識別手段から出力された識別情報に応じて音声認識方法，対話制御方法及び音声合成方法を選定するようにしたものである。
【０００７】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１による音声応答装置を示す構成図であり、図において、タイプ識別手段１はユーザのタイプを識別して、その識別情報を出力する。音声認識手段２はタイプ識別手段１から出力された識別情報に応じて音声認識方法を選定し、その音声認識方法にしたがってユーザから発せられた音声を認識する。
対話制御手段３はタイプ識別手段１から出力された識別情報に応じて対話制御方法を選定し、その対話制御方法にしたがって音声認識手段２の音声認識結果に対応する応答テキストを生成する。データベース４は対話制御手段３が応答テキストを生成する際に参照する応答データが蓄積され、例えば、音声応答装置が天気予報の情報提供サービスを行う場合には、各地の天気予報のデータが蓄積されている。
【０００８】
音声合成手段５はタイプ識別手段１から出力された識別情報に応じて音声合成方法を選定し、その音声合成方法にしたがって対話制御手段３により生成された応答テキストを応答音声に変換して出力する。
図２はこの発明の実施の形態１による音声応答装置の処理内容を示すフローチャートである。
なお、この実施の形態１では、タイプ識別手段１、音声認識手段２、対話制御手段３及び音声合成手段５をハードウェアで構成してもよいが、各手段の処理内容を記述した音声応答プログラムを作成し、コンピュータが当該音声応答プログラムを実行するようにしてもよい。
【０００９】
次に動作について説明する。
まず、タイプ識別手段１は、音声応答装置を利用するユーザのタイプを識別して、その識別情報を出力する（ステップＳＴ１）。
即ち、タイプ識別手段１は、ユーザが音声応答装置を利用する前に、予めユーザの個人情報（例えば、性別、年齢、個人ＩＤ）の入力を受け付けることにより、ユーザの性別や年齢など示す識別情報を出力する。なお、ユーザの性別や年齢は、ユーザの音声や顔画像を解析することにより推定してもよい。この場合には、性別や年齢の入力は不要になる。
また、タイプ識別手段１は、ユーザの個人ＩＤを管理することにより、ユーザの装置利用回数をカウントし、ユーザの装置利用回数も識別情報に含めるようにする。
【００１０】
音声認識手段２は、タイプ識別手段１から識別情報を受けると、その識別情報に応じて音声認識方法を選定する（ステップＳＴ２）。
例えば、識別情報に含まれているユーザの性別を参照し、ユーザの性別が男性であれば、音声認識に用いる標準パタン（単語や文の認識対象の標準パタン）として男性専用標準パタンを選定し、ユーザの性別が女性であれば、音声認識に用いる標準パタンとして女性専用標準パタンを選定する。
【００１１】
対話制御手段３は、タイプ識別手段１から識別情報を受けると、その識別情報に応じて対話制御方法を選定する（ステップＳＴ２）。
例えば、識別情報に含まれているユーザの装置利用回数を参照し、当該ユーザが初めての利用であれば、音声応答装置の利用方法などを説明するガイダンスの応答テキストを最初に出力してから音声対話を行う対話制御方法を選定し、当該ユーザが利用経験者であれば、上記のようなガイダンスの応答テキストを最初に出力せずに、音声対話を行う対話制御方法を選定する。
【００１２】
音声合成手段５は、タイプ識別手段１から識別情報を受けると、その識別情報に応じて音声合成方法を選定する（ステップＳＴ２）。
例えば、識別情報に含まれているユーザの年齢を参照し、ユーザが６０歳以上の高齢者であれば、通常時よりも応答音声の出力速度が遅くなり、かつ、応答音声の出力レベルが大きくなる音声合成方法を選定する。さらに、高齢者に応答音声が聞き取り易いようにするため、応答音声の高周波数領域を強調するような音声合成方法を選定する。
【００１３】
音声認識手段２は、上記のようにして音声認識方法を選定し、ユーザから発せられた音声を入力すると、その音声認識方法にしたがってユーザから発せられた音声を認識する（ステップＳＴ３）。
即ち、ユーザから発せられた音声から音声特徴量を抽出し、その音声特徴量や上記音声認識方法に係る標準パタン（例えば、男性専用標準パタン）を用いて照合処理を実施することにより音声認識し、その音声認識結果をテキストで出力する。
なお、音声認識の手法の代表的なものとしては、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）がある。ＨＭＭを用いた音声認識については、例えば、「音声情報処理」古井貞煕著、１９９８年６月、森北出版株式会社発行などに詳細が記述されている。
【００１４】
対話制御手段３は、上記のようにして対話制御方法を選定し、音声認識手段２から音声認識結果を受けると、その対話制御方法にしたがってデータベース４から適切な応答を選択して、音声認識手段２の音声認識結果に対応する応答テキストを生成する（ステップＳＴ４）。
例えば、当該ユーザが初めての利用であれば、音声応答装置の利用方法などを説明するガイダンスが先頭にある応答テキストを生成し、当該ユーザが利用経験者であれば、上記のようなガイダンスを含まない応答テキストを生成する。
【００１５】
音声合成手段５は、上記のようにして音声合成方法を選定し、対話制御手段３から応答テキストを受けると、その音声合成方法にしたがって応答テキストを応答音声に変換して出力する（ステップＳＴ５）。
なお、音声合成手段５は、応答テキストを応答音声に変換する際、例えば、ユーザが６０歳以上の高齢者であれば、通常時よりも応答音声の出力速度を遅くするとともに、応答音声の出力レベルを大きくする。
これにより、音声応答装置の一連の処理が終了するが、ユーザが発声を継続する場合には、ステップＳＴ３の処理戻り、音声の認識処理を再開する（ステップＳＴ６）。
【００１６】
以上で明らかなように、この実施の形態１によれば、ユーザのタイプを識別するタイプ識別手段１を設け、そのタイプ識別手段１から出力された識別情報に応じて音声認識方法，対話制御方法及び音声合成方法を選定するように構成したので、利用するユーザに適する音声認識方法，対話制御方法及び音声合成方法を用いることができる結果、ユーザにとって快適で効率的な音声応答を実現することができる効果を奏する。
【００１７】
また、この実施の形態１によれば、タイプ識別手段１から出力された識別情報を参照してユーザの装置利用回数を調査し、その装置利用回数に応じて対話制御方法を選定するように構成したので、例えば、音声応答装置の利用経験があるユーザにとって煩わしい対話の繰り返しを防止することができる効果を奏する。
また、この実施の形態１によれば、タイプ識別手段１から出力された識別情報に応じて応答音声の出力速度、出力レベル、周波数特性などを設定するように構成したので、ユーザの要求を満たす応答音声を生成することができる効果を奏する。
さらに、この実施の形態１によれば、ユーザの音声や顔画像からタイプを識別するように構成したので、ユーザの性別や年齢等の入力を省略することができる効果を奏する。
【００１８】
なお、この実施の形態１では、タイプ識別手段１がユーザの装置利用回数を識別情報に含めるものについて示したが、その装置利用回数から装置習熟度を判定し、その装置習熟度を識別情報に含めるようにしてもよい。この場合も、対話制御手段３は上記と同様にして対話制御方法を選定することができる。
また、この実施の形態１では、音声合成手段５がタイプ識別手段１から出力された識別情報に応じて応答音声の出力速度等を設定するものについて示したが、これに限るものではなく、例えば、タイプ識別手段１から出力された識別情報に応じて性別を設定し、その性別に見合う応答音声に変換するようにしてもよい。例えば、ユーザが男性であれば、応答音声を女性の声で生成するようにする。これにより、ユーザの快適性を高めることができる効果を奏する。
【００１９】
実施の形態２．
図３はこの発明の実施の形態２による音声応答装置の音声認識手段２を示す構成図であり、図において、音響分析部１１はユーザから発せられた音声を音響分析して音響特徴量を出力し、文法選択部１３は予め用意されている複数の文法１２の中から、タイプ識別手段１から出力された識別情報にしたがって最適な文法を選択する。
認識対象単語標準パタン生成部１６は予め用意されている認識対象単語辞書１４と標準パタン１５を参照して認識対象単語標準パタンを生成し、照合部１７は音響分析部１１から出力された音響特徴量と文法選択部１３により選択された文法と認識対象単語標準パタン生成部１６により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する。
図４はこの発明の実施の形態２による音声応答装置の音声認識手段２の処理内容を示すフローチャートである。
【００２０】
次に動作について説明する。
ただし、音声認識手段２以外は上記実施の形態１と同様であるため説明を省略する。
音声認識手段２の音響分析部１１は、ユーザから発せられた音声を入力すると、その音声を音響分析して音響特徴量を出力する（ステップＳＴ１１）。
即ち、ユーザから発せられた音声の信号をＡ／Ｄ変換し、Ａ／Ｄ変換後の信号を５ミリ秒〜２０ミリ秒程度の一定時間間隔のフレームで切り出し、音響分析を行って音声特徴量ベクトルＯ＝［ｏ（１），ｏ（２），・・・，ｏ（Ｔ）］（Ｔは総フレーム数）を抽出する。
ここで、音声特徴量とは、少ない情報量で音声の特徴を表現するものであり、例えば、ケプストラム及びケプストラムの動的特徴を物理量で構成する特徴量ベクトルである。
【００２１】
文法選択部１３は、タイプ識別手段１から識別情報を受けると、予め用意されている複数の文法１２の中から、その識別情報にしたがって最適な文法を選択する（ステップＳＴ１２）。
複数の文法１２は、ユーザ個人毎、または、ユーザのタイプ毎に用意された文法であり、各文法には認識対象単語辞書１４に格納されている認識対象の単語の接続ルールが格納されている。単語の接続ルールは、例えば、「確率的言語モデル」北研二、１９９９年１１月、東京大学出版会発行で紹介されているＮ−ｇｒａｍや隠れマルコフモデルのような確率的言語モデルで表現されている。
【００２２】
ここで、識別情報にしたがって最適な文法を選択する例を説明する。
複数の文法１２は、単語を区切って発声する離散単語認識の文法と、単語を連続に発声できる連続単語音声認識の２つの文法で構成されているとする。そして識別情報にはユーザの装置利用回数が含まれているものとする。
例えば、ユーザの装置利用回数が２回以上、即ち、過去に音声応答装置を利用したことがある場合は、ユーザが発声の仕方を知っていると判断し、連続単語音声認識の文法を選択する。
一方、ユーザの装置利用回数が１回、即ち、過去に音声応答装置を利用したことがない場合は、発声の仕方を知らず連続的に発声することができないと判断して、離散単語認識の文法を選択する。
【００２３】
上記の例では、ユーザの装置利用回数からユーザの習熟度を判定しているが、応答音声終了からユーザが発声を開始するまでの間隔に基づいて習熟度を判定してもよい。間隔が定めた時間より短い場合は、音声応答装置に慣れたユーザであるとして習熟度が高いと判定し、間隔が定めた時間より長い場合は音声応答装置に不慣れなユーザであるとして習熟度が低いと判定する。
【００２４】
認識対象単語標準パタン生成部１６は、予め用意されている認識対象単語辞書１４と標準パタン１５を参照して認識対象単語標準パタンを生成する（ステップＳＴ１３）。
認識対象単語辞書１４には予め定められた認識対象単語の表記と読みが格納されている。表記とは漢字や仮名や数字などで表されるテキストのことである。また、読みとは漢字や仮名や数字を読み上げる場合の発音を意味し、音素記号等で表されている。例えば、表記が「神奈川」の場合、その読みとして“ｋａｎａｇａｗａ”を格納している。
また、標準パタン１５には音声認識における音響的なスコアを求めるための標準的なパタンが格納されている。標準パタン１５は、例えば、多数話者の音声データでパラメータ学習を行った、サブワード音声単位のＨＭＭ［λ_ｌ１，λ_ｌ２，・・・，λ_ｌＭ］（ｌ１，ｌ２，・・・，ｌＭはラベル名、Ｍは総ラベル数）を用いる。
【００２５】
ここで、サブワード音声単位（音素や音節などの音声片単位）の標準パタンを用いて認識対象単語標準パタンを生成する方法を説明する。
認識対象単語標準パタン生成部１６は、認識対象単語辞書１４に設定されている認識対象単語の読み［ｗｒ（１），ｗｒ（２），・・・，ｗｒ（Ｎ）］（括弧内は単語番号）をサブワード音声単位のラベル表記へ変換し、標準パタン１５に格納されている標準パタンからラベルに対応したサブワード音声単位の標準パタンを選択して連結することにより、認識対象単語標準パタン［Λ（１），Λ（２），・・・，Λ（Ｎ）］（括弧内は単語番号）を生成する。
【００２６】
単語標準パタンΛ（ｎ）の生成方法について前後環境依存の音素をサブワード音声単位とした標準パタンの場合で説明する。
認識対象単語辞書１４のｎ番目に「明日（ａｓｕ）」が存在し、「明日」の前後に単語が接続する連続単語音声認識の場合においては、「明日」は音素系列で／＄ａｓｕ＊／と表される。ただし、ここで、＄は先行単語の最後の音素、＊は後続単語の先頭音素である。
【００２７】
サブワード音声単位のラベルは、中心音素が／ａ／であり、先行音素が先行単語の最後の音素＄、後続音素が／ｓ／のラベル｛＄ａｓ｝と、中心音素が／ｓ／であり、先行音素が／ａ／、後続音素が／ｕ／であるラベル｛ａｓｕ｝と、中心音素が／ｕ／であり、先行音素が／ｓ／、後続音素が後続単語の先頭音素／＊／であるラベル｛ｓｕ＊｝となる。このサブワード音声単位ラベルに対応する標準パタンλ＄ａｓ、λａｓｕ、λｓｕ＊を標準パタン１５から抽出し、これらを連結した標準パタンΛ（ｎ）が単語「明日」の標準パタンとなる。最近では前後音素環境依存の音素のサブワード音声単位標準パタンを用い、認識対象単語が数万単語以上の音声認識システムの検討が行われている。
【００２８】
照合部１７は、音響分析部１１から出力された音響特徴量と、文法選択部１３により選択された文法と、認識対象単語標準パタン生成部１６により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識し、その音声認識結果をテキストで出力する（ステップＳＴ１４）。
【００２９】
ここで、照合の方法について説明する。
照合部１７は、音響分析部１１から出力された音響特徴量ベクトルＯに対して下記の式（１）を演算して、音声認識結果である単語系列Ｗ’を抽出する。
【数１】

式（１）において、第一項のＰ（Ｏ｜Ｗ）は音響的な確率である。この確率は、認識対象単語標準パタン［Λ（１），Λ（２），・・・，Λ（Ｎ）］（括弧内は単語番号）をステップＳＴ１２で選択された文法で定められている単語連鎖のルールにしたがって単語系列Ｗを仮定して計算する。最近では音響的な確率を計算するためにＨＭＭを用いることが多い。
また、第二項のＰ（Ｗ）は仮定された単語系列Ｗの確率を表すものであり、言語的な確率である。最近では言語的な確率を求めるために、単語連鎖の確率を与える統計的言語モデルを用いることが多い。照合部１７では、式（１）によって得られた単語系列Ｗ’のテキスト表記を音声認識結果として出力する。
【００３０】
以上で明らかなように、この実施の形態２によれば、予め用意されている複数の文法１２の中から、タイプ識別手段１から出力された識別情報にしたがって最適な文法を選択するように構成したので、音声の認識率を高めることができる効果を奏する。
【００３１】
実施の形態３．
図５はこの発明の実施の形態３による音声応答装置の音声認識手段２を示す構成図であり、図において、図３と同一符号は同一または相当部分を示すので説明を省略する。
辞書選択部１９は予め用意されている複数の認識対象単語辞書１８の中から、タイプ識別手段１から出力された識別情報にしたがって最適な認識対象単語辞書を選択する。
図６はこの発明の実施の形態３による音声応答装置の音声認識手段２の処理内容を示すフローチャートである。
【００３２】
次に動作について説明する。
ただし、辞書選択部１９が設けられている点以外は、上記実施の形態２と同様であるため、辞書選択部１９の動作のみを説明する。
辞書選択部１９は、タイプ識別手段１から識別情報を受けると、予め用意されている複数の認識対象単語辞書１８の中から、その識別情報にしたがって最適な認識対象単語辞書を選択する（ステップＳＴ２１）。
【００３３】
複数の認識対象単語辞書１８は、ユーザ個人毎、または、ユーザのタイプ毎に用意された認識対象単語辞書であり、例えば、複数の認識対象単語辞書１８は、各地域の方言毎に用意されているとする。そして、識別情報としてユーザの住んでいる地域が得られた場合、辞書選択部１９がユーザの住んでいる地域の方言を含む認識対象単語辞書を選択する。
【００３４】
以上で明らかなように、この実施の形態３によれば、予め用意されている複数の認識対象単語辞書１８の中から、タイプ識別手段１から出力された識別情報にしたがって最適な認識対象単語辞書を選択するように構成したので、音声の認識率を高めることができる効果を奏する。
【００３５】
実施の形態４．
図７はこの発明の実施の形態４による音声応答装置の音声認識手段２を示す構成図であり、図において、図３と同一符号は同一または相当部分を示すので説明を省略する。
標準パタン選択部２２は予め用意されている複数の標準パタン２１の中から、タイプ識別手段１から出力された識別情報にしたがって最適な標準パタンを選択する。なお、２０は予め用意されている文法である。
図８はこの発明の実施の形態４による音声応答装置の音声認識手段２の処理内容を示すフローチャートである。
【００３６】
次に動作について説明する。
ただし、標準パタン選択部２２が設けられている点以外は、上記実施の形態２とほぼ同様であるため、標準パタン選択部２２の動作のみを説明する。
標準パタン選択部２２は、タイプ識別手段１から識別情報を受けると、予め用意されている複数の標準パタン２１の中から、その識別情報にしたがって最適な標準パタンを選択する（ステップＳＴ３１）。
【００３７】
複数の標準パタン２１は、ユーザ個人毎、または、ユーザのタイプ毎に用意された標準パタンであり、例えば、複数の標準パタン２１は、男性、女性、さらに年齢に依存した標準パタンであるとする。そして、識別情報として性別、年齢が得られた場合、標準パタン選択部２２がユーザの性別、年齢に依存した標準パタンを選択する。
また、他の例として、上記実施の形態２のように識別情報としてユーザの習熟度が得られる場合は、複数の標準パタン２１として、ゆっくりとした発声用の標準パタンと、早口用の標準パタンを用意する。そして、習熟度が低いユーザの場合はゆっくりとした発声用の標準パタンを選択する。反対に習熟度が高いユーザの場合は早口用の標準パタンを選択する。
【００３８】
以上で明らかなように、この実施の形態４によれば、予め用意されている複数の標準パタン２１の中から、タイプ識別手段１から出力された識別情報にしたがって最適な標準パタンを選択するように構成したので、音声の認識率を高めることができる効果を奏する。
【００３９】
実施の形態５．
図９はこの発明の実施の形態５による音声応答装置の音声認識手段２を示す構成図であり、図において、図３等と同一符号は同一または相当部分を示すので説明を省略する。
背景騒音学習部２３は音響分析部１１から出力された音響特徴量と予め用意されている標準パタン１５を参照して背景騒音を学習し、複数の背景騒音学習標準パタン２４を生成する。背景騒音学習標準パタン選択部２５は背景騒音学習部２３により生成された複数の背景騒音学習標準パタン２４の中から、タイプ識別手段１から出力された識別情報にしたがって最適な背景騒音学習標準パタンを選択する。認識対象単語標準パタン生成部２６は予め用意されている認識対象単語辞書１４と背景騒音学習標準パタン選択部２５により選択された背景騒音学習標準パタンを参照して認識対象単語標準パタンを生成する。
図１０はこの発明の実施の形態５による音声応答装置の音声認識手段２の処理内容を示すフローチャートである。
【００４０】
次に動作について説明する。
まず、音響分析部１１が上記実施の形態２と同様にして、入力された音声を音響分析して音響特徴量を出力する（ステップＳＴ１１）。
一方、背景騒音学習標準パタン選択部２５は、タイプ識別手段１から識別情報を受けると、複数の背景騒音学習標準パタン２４の中から、その識別情報にしたがって最適な背景騒音学習標準パタンを選択する（ステップＳＴ４１）。
複数の背景騒音学習標準パタン２４は、ユーザ個人毎、または、ユーザのタイプ毎に学習された背景騒音の学習標準パタンである。
【００４１】
認識対象単語標準パタン生成部２６は、予め用意されている認識対象単語辞書１４と背景騒音学習標準パタン選択部２５により選択された背景騒音学習標準パタンを参照して認識対象単語標準パタンを生成する（ステップＳＴ４２）。
照合部１７は、上記実施の形態４と同様に、音響分析部１１から出力された音響特徴量と、予め用意されている文法２０と、認識対象単語標準パタン生成部２６により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識し、その音声認識結果をテキストで出力する（ステップＳＴ１４）。
【００４２】
背景騒音学習部２３は、音響分析部１１から音響特徴量を受けると、その音響特徴量（音声区間以外の部分）と予め用意されている標準パタン１５を参照して背景騒音を学習し、複数の背景騒音学習標準パタン２４を生成する（ステップＳＴ４３）。
なお、複数の背景騒音学習標準パタン２４は、ユーザ個人毎、または、ユーザのタイプ毎に学習されており、例えば、標準パタンがＨＭＭであるならば、ＨＭＭ合成法によって生成することができる。
【００４３】
以上で明らかなように、この実施の形態５によれば、背景騒音学習部２３により生成された複数の背景騒音学習標準パタン２４の中から、タイプ識別手段１から出力された識別情報にしたがって最適な背景騒音学習標準パタンを選択するように構成したので、音声の認識率を高めることができる効果を奏する。
【００４４】
実施の形態６．
図１１はこの発明の実施の形態６による音声応答装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
バージイン判定手段６は音声合成手段９により変換された応答音声が出力されている途中でユーザから音声が発せられると、タイプ識別手段１から出力された識別情報を参照して当該応答音声の出力を中断するか否かを判定し、その出力を中断する場合には中断指令を音声合成手段９に出力して、音声の認識要求を音声認識手段７に出力する。
【００４５】
音声認識手段７は予め用意された音声認識方法にしたがってユーザから発せられた音声を認識する。対話制御手段８は予め用意された対話制御方法にしたがって音声認識手段７の音声認識結果に対応する応答テキストを生成する。音声合成手段９は予め用意された音声合成方法にしたがって対話制御手段８により生成された応答テキストを応答音声に変換する。
【００４６】
図１２はこの発明の実施の形態６による音声応答装置の処理内容を示すフローチャートである。
なお、この実施の形態６では、タイプ識別手段１、バージイン判定手段６、音声認識手段７、対話制御手段８及び音声合成手段９をハードウェアで構成してもよいが、各手段の処理内容を記述した音声応答プログラムを作成し、コンピュータが当該音声応答プログラムを実行するようにしてもよい。
【００４７】
次に動作について説明する。
まず、バージイン判定手段６は、音声合成手段９により変換された応答音声が出力されている途中で、ユーザが発声しているか否かを判定する（ステップＳＴ５１）。
バージイン判定手段６は、応答音声が出力されている途中でユーザが発声している場合、タイプ識別手段１から出力された識別情報を参照してバージインを実施するか否かを判定し、バージインを実施するときはバージイン信号を音声認識手段７及び音声合成手段９に出力する（ステップＳＴ５２）。
【００４８】
ここで、バージインとは、応答音声の出力を中断して、ユーザの音声の認識処理を再開することである。
なお、バージインを実施するか否かは、例えば、ユーザの習熟度によって判定する。ユーザが音声応答装置に慣れていて応答音声の内容を既に知っており、最後まで聞く必要がない場合は、途中で発声して次のシーケンスに進みたいという欲求がある。したがって、ユーザの習熟度が高い場合はバージインを実施する。これにより短時間でユーザが目的を達成できる。
一方、ユーザの習熟度が低い場合は、応答音声を最後まで聞いて、発声する内容を確認しながら使用するのでバージインを実施しない。習熟度が低い話者は応答音声を合成している途中で、不要な言葉を発声してしまうことがある。この場合、バージインを実施してしまうと不要な言葉は認識できず、誤動作を起こすことがある。ユーザの習熟度が低い場合は、バージインを実施しないので、不要語による誤動作を防ぐこともできる。
【００４９】
ユーザの音声応答装置への習熟度は、例えば、ユーザの装置利用回数から得られるので、バージイン判定手段６は、タイプ識別手段１から識別情報を受けると、その識別情報に含まれている装置利用回数を参照し、ユーザが過去に音声応答装置を利用したことがなければ、バージインを実施せず、ユーザが過去に音声応答装置を利用したことがあれば、バージインを実施する。
【００５０】
音声合成手段９は、バージイン判定手段６からバージイン信号を受けると、応答音声の出力を途中で中断し、音声認識手段７は、ユーザの音声を入力し、その音声の認識処理を開始する（ステップＳＴ５３，ＳＴ５４）。
一方、バージイン判定手段６からバージイン信号が出力されなければ、音声合成手段９は、応答音声の出力を中断せず、音声認識手段７は、応答音声の出力が完了した後、ユーザの音声を入力して、その音声の認識処理を開始する（ステップＳＴ５３，ＳＴ５５）。
【００５１】
対話制御手段８は、音声認識手段２から音声認識結果を受けると、予め用意された対話制御方法にしたがってデータベース４から適切な応答を選択して、音声認識手段７の音声認識結果に対応する応答テキストを生成する（ステップＳＴ５６）。
音声合成手段９は、対話制御手段８から応答テキストを受けると、予め用意された音声合成方法にしたがって応答テキストを応答音声に変換して出力する（ステップＳＴ５７）。
これにより、音声応答装置の一連の処理が終了するが、ユーザが発声を継続する場合には、ステップＳＴ５１の処理戻り、上記の処理を再開する（ステップＳＴ５８）。
【００５２】
以上で明らかなように、この実施の形態６によれば、音声合成手段９により変換された応答音声が出力されている途中でユーザから音声が発せられると、タイプ識別手段１から出力された識別情報を参照して当該応答音声の出力を中断するか否かを判定し、その出力を中断する場合には中断指令を音声合成手段９に出力して、音声の認識要求を音声認識手段７に出力するように構成したので、ユーザにとって快適で効率的な音声応答を実現することができる効果を奏する。
【００５３】
【発明の効果】
以上のように、この発明によれば、ユーザのタイプを識別するタイプ識別手段を設け、そのタイプ識別手段から出力された識別情報に応じて音声認識方法，対話制御方法及び音声合成方法を選定するように構成したので、利用するユーザに適する音声認識方法，対話制御方法及び音声合成方法を用いることができる結果、ユーザにとって快適で効率的な音声応答を実現することができる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声応答装置を示す構成図である。
【図２】この発明の実施の形態１による音声応答装置の処理内容を示すフローチャートである。
【図３】この発明の実施の形態２による音声応答装置の音声認識手段を示す構成図である。
【図４】この発明の実施の形態２による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【図５】この発明の実施の形態３による音声応答装置の音声認識手段を示す構成図である。
【図６】この発明の実施の形態３による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【図７】この発明の実施の形態４による音声応答装置の音声認識手段を示す構成図である。
【図８】この発明の実施の形態４による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【図９】この発明の実施の形態５による音声応答装置の音声認識手段を示す構成図である。
【図１０】この発明の実施の形態５による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【図１１】この発明の実施の形態６による音声応答装置の音声認識手段を示す構成図である。
【図１２】この発明の実施の形態６による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【符号の説明】
１タイプ識別手段、２音声認識手段、３対話制御手段、４データベース、５音声合成手段、６バージイン判定手段、７音声認識手段、８対話制御手段、９音声合成手段、１１音響分析部、１２複数の文法、１３文法選択部、１４認識対象単語辞書、１５標準パタン、１６認識対象単語標準パタン生成部、１７照合部、１８複数の認識対象単語辞書、１９辞書選択部、２０文法、２１複数の標準パタン、２２標準パタン選択部、２３背景騒音学習部、２４複数の背景騒音学習標準パタン、２５背景騒音学習標準パタン選択部、２６認識対象単語標準パタン生成部。

Claims

ユーザのタイプを識別し、その識別情報を出力するタイプ識別手段と、上記タイプ識別手段から出力された識別情報に応じて音声認識方法を選定し、その音声認識方法にしたがってユーザから発せられた音声を認識する音声認識手段と、上記タイプ識別手段から出力された識別情報に応じて対話制御方法を選定し、その対話制御方法にしたがって上記音声認識手段の音声認識結果に対応する応答テキストを生成する対話制御手段と、上記タイプ識別手段から出力された識別情報に応じて音声合成方法を選定し、その音声合成方法にしたがって上記対話制御手段により生成された応答テキストを応答音声に変換する音声合成手段とを備えた音声応答装置。
ユーザから発せられた音声を音響分析して音響特徴量を出力する音響分析部と、予め用意されている複数の文法の中から、タイプ識別手段から出力された識別情報にしたがって最適な文法を選択する文法選択部と、予め用意されている認識対象単語辞書と標準パタンを参照して認識対象単語標準パタンを生成する認識対象単語標準パタン生成部と、上記音響分析部から出力された音響特徴量と上記文法選択部により選択された文法と上記認識対象単語標準パタン生成部により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する照合部とから音声認識手段を構成することを特徴とする請求項１記載の音声応答装置。
ユーザから発せられた音声を音響分析して音響特徴量を出力する音響分析部と、予め用意されている複数の文法の中から、タイプ識別手段から出力された識別情報にしたがって最適な文法を選択する文法選択部と、予め用意されている複数の認識対象単語辞書の中から、上記タイプ識別手段から出力された識別情報にしたがって最適な認識対象単語辞書を選択する辞書選択部と、上記辞書選択部により選択された認識対象単語辞書と予め用意されている標準パタンを参照して認識対象単語標準パタンを生成する認識対象単語標準パタン生成部と、上記音響分析部から出力された音響特徴量と上記文法選択部により選択された文法と上記認識対象単語標準パタン生成部により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する照合部とから音声認識手段を構成することを特徴とする請求項１記載の音声応答装置。
ユーザから発せられた音声を音響分析して音響特徴量を出力する音響分析部と、予め用意されている複数の標準パタンの中から、タイプ識別手段から出力された識別情報にしたがって最適な標準パタンを選択する標準パタン選択部と、予め用意されている認識対象単語辞書と上記標準パタン選択部により選択された標準パタンを参照して認識対象単語標準パタンを生成する認識対象単語標準パタン生成部と、上記音響分析部から出力された音響特徴量と予め用意されている文法と上記認識対象単語標準パタン生成部により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する照合部とから音声認識手段を構成することを特徴とする請求項１記載の音声応答装置。
ユーザから発せられた音声を音響分析して音響特徴量を出力する音響分析部と、上記音響分析部から出力された音響特徴量と予め用意されている標準パタンを参照して背景騒音を学習し、複数の背景騒音学習標準パタンを生成する背景騒音学習部と、上記背景騒音学習部により生成された複数の背景騒音学習標準パタンの中から、タイプ識別手段から出力された識別情報にしたがって最適な背景騒音学習標準パタンを選択する背景騒音学習標準パタン選択部と、予め用意されている認識対象単語辞書と上記背景騒音学習標準パタン選択部により選択された背景騒音学習標準パタンを参照して認識対象単語標準パタンを生成する認識対象単語標準パタン生成部と、上記音響分析部から出力された音響特徴量と予め用意されている文法と上記認識対象単語標準パタン生成部により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する照合部とから音声認識手段を構成することを特徴とする請求項１記載の音声応答装置。
対話制御手段は、タイプ識別手段から出力された識別情報を参照してユーザの装置利用回数を調査し、その装置利用回数に応じて対話制御方法を選定することを特徴とする請求項１から請求項５のうちのいずれか１項記載の音声応答装置。
音声合成手段は、タイプ識別手段から出力された識別情報に応じて応答音声の出力速度を設定することを特徴とする請求項１から請求項６のうちのいずれか１項記載の音声応答装置。
音声合成手段は、タイプ識別手段から出力された識別情報に応じて応答音声の出力レベルを設定することを特徴とする請求項１から請求項６のうちのいずれか１項記載の音声応答装置。
音声合成手段は、タイプ識別手段から出力された識別情報に応じて応答音声の周波数特性を設定することを特徴とする請求項１から請求項６のうちのいずれか１項記載の音声応答装置。
音声合成手段は、タイプ識別手段から出力された識別情報に応じて性別を設定し、その性別に見合う応答音声に変換することを特徴とする請求項１から請求項６のうちのいずれか１項記載の音声応答装置。
ユーザから発せられた音声を認識する音声認識手段と、上記音声認識手段の音声認識結果に対応する応答テキストを生成する対話制御手段と、上記対話制御手段により生成された応答テキストを応答音声に変換する音声合成手段とを備えた音声応答装置において、
ユーザのタイプを識別し、その識別情報を出力するタイプ識別手段と、上記音声合成手段により変換された応答音声が出力されている途中でユーザから音声が発せられると、上記タイプ識別手段から出力された識別情報を参照して当該応答音声の出力を中断するか否かを判定し、その出力を中断する場合には中断指令を上記音声合成手段に出力して、音声の認識要求を上記音声認識手段に出力するバージイン判定手段とを設けたことを特徴とする音声応答装置。
タイプ識別手段は、ユーザの音声からタイプを識別することを特徴とする請求項１から請求項１１のうちのいずれか１項記載の音声応答装置。
タイプ識別手段は、ユーザの顔画像からタイプを識別することを特徴とする請求項１から請求項１１のうちのいずれか１項記載の音声応答装置。
タイプ識別手段は、ユーザの性別又は年齢を示す識別情報を出力することを特徴とする請求項１から請求項１１のうちのいずれか１項記載の音声応答装置。
タイプ識別手段は、ユーザの装置習熟度を示す識別情報を出力することを特徴とする請求項１から請求項１１のうちのいずれか１項記載の音声応答装置。