JP2004163541A - 音声応答装置 - Google Patents
音声応答装置 Download PDFInfo
- Publication number
- JP2004163541A JP2004163541A JP2002327344A JP2002327344A JP2004163541A JP 2004163541 A JP2004163541 A JP 2004163541A JP 2002327344 A JP2002327344 A JP 2002327344A JP 2002327344 A JP2002327344 A JP 2002327344A JP 2004163541 A JP2004163541 A JP 2004163541A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- standard pattern
- user
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Abstract
【解決手段】ユーザのタイプを識別するタイプ識別手段1を設け、そのタイプ識別手段1から出力された識別情報に応じて音声認識方法,対話制御方法及び音声合成方法を選定する。
【選択図】 図1
Description
【発明の属する技術分野】
この発明は、人間が発声する音声を認識し、その音声に対する応答メッセージを出力する音声応答装置に関するものである。
【0002】
【従来の技術】
音声応答装置は、人間(ユーザ)と機械が音声によって対話するシステムであり、予約受付の自動化など実用性が高い。
従来の音声応答装置は、ユーザが音声を発すると、音声認識手段がユーザの音声を入力して、その音声を認識する。
そして、対話制御手段が音声認識手段の音声認識結果に対応する応答テキストを生成し、音声合成手段が当該応答テキストを応答音声に変換して出力する。
【0003】
【非特許文献1】
「音声認識の基礎」(上・下)L.RABINER、B.H.JUANG、古井貞煕 監訳、1995年11月 NTTアドバンステクノロジ発行
【非特許文献2】
「小特集−音声対話システムの実力と課題−」中川聖一他、日本音響学会誌、VOL.54、NO.11、pp.783−822、1998年11月、(社)日本音響学会発行
【0004】
【発明が解決しようとする課題】
従来の音声応答装置は以上のように構成されているので、ユーザが異なる場合でも常に同一の音声認識処理が実施される。即ち、如何なるユーザの音声を認識する場合でも、予め用意された標準パタン、文法及び認識対象単語辞書を使用して音声の認識処理を実施する。そのため、ユーザによっては標準パタン、文法及び認識対象単語辞書の不整合が発生して音声の認識率が低下することがある課題があった。
また、ユーザが異なる場合でも常に同一の対話制御方法(対話フロー)が使用されるため、初めて音声応答装置を利用するユーザと、音声応答装置の利用経験があるユーザが同様に扱われ、音声応答装置の利用経験があるユーザにとって煩わしい対話が繰り返されることがある課題があった。
さらに、応答音声の出力速度が常に一定であるため、急いでいるユーザにはもっと情報を速く伝えてもらいたいという要求が生じる一方、反対に高齢者などには速くて応答音声を聞き取れないことがあるなどの課題もあった。
【0005】
この発明は上記のような課題を解決するためになされたもので、利用するユーザに適する音声認識方法,対話制御方法及び音声合成方法を用いることができる音声応答装置を得ることを目的とする。
【0006】
【課題を解決するための手段】
この発明に係る音声応答装置は、ユーザのタイプを識別するタイプ識別手段を設け、そのタイプ識別手段から出力された識別情報に応じて音声認識方法,対話制御方法及び音声合成方法を選定するようにしたものである。
【0007】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声応答装置を示す構成図であり、図において、タイプ識別手段1はユーザのタイプを識別して、その識別情報を出力する。音声認識手段2はタイプ識別手段1から出力された識別情報に応じて音声認識方法を選定し、その音声認識方法にしたがってユーザから発せられた音声を認識する。
対話制御手段3はタイプ識別手段1から出力された識別情報に応じて対話制御方法を選定し、その対話制御方法にしたがって音声認識手段2の音声認識結果に対応する応答テキストを生成する。データベース4は対話制御手段3が応答テキストを生成する際に参照する応答データが蓄積され、例えば、音声応答装置が天気予報の情報提供サービスを行う場合には、各地の天気予報のデータが蓄積されている。
【0008】
音声合成手段5はタイプ識別手段1から出力された識別情報に応じて音声合成方法を選定し、その音声合成方法にしたがって対話制御手段3により生成された応答テキストを応答音声に変換して出力する。
図2はこの発明の実施の形態1による音声応答装置の処理内容を示すフローチャートである。
なお、この実施の形態1では、タイプ識別手段1、音声認識手段2、対話制御手段3及び音声合成手段5をハードウェアで構成してもよいが、各手段の処理内容を記述した音声応答プログラムを作成し、コンピュータが当該音声応答プログラムを実行するようにしてもよい。
【0009】
次に動作について説明する。
まず、タイプ識別手段1は、音声応答装置を利用するユーザのタイプを識別して、その識別情報を出力する(ステップST1)。
即ち、タイプ識別手段1は、ユーザが音声応答装置を利用する前に、予めユーザの個人情報(例えば、性別、年齢、個人ID)の入力を受け付けることにより、ユーザの性別や年齢など示す識別情報を出力する。なお、ユーザの性別や年齢は、ユーザの音声や顔画像を解析することにより推定してもよい。この場合には、性別や年齢の入力は不要になる。
また、タイプ識別手段1は、ユーザの個人IDを管理することにより、ユーザの装置利用回数をカウントし、ユーザの装置利用回数も識別情報に含めるようにする。
【0010】
音声認識手段2は、タイプ識別手段1から識別情報を受けると、その識別情報に応じて音声認識方法を選定する(ステップST2)。
例えば、識別情報に含まれているユーザの性別を参照し、ユーザの性別が男性であれば、音声認識に用いる標準パタン(単語や文の認識対象の標準パタン)として男性専用標準パタンを選定し、ユーザの性別が女性であれば、音声認識に用いる標準パタンとして女性専用標準パタンを選定する。
【0011】
対話制御手段3は、タイプ識別手段1から識別情報を受けると、その識別情報に応じて対話制御方法を選定する(ステップST2)。
例えば、識別情報に含まれているユーザの装置利用回数を参照し、当該ユーザが初めての利用であれば、音声応答装置の利用方法などを説明するガイダンスの応答テキストを最初に出力してから音声対話を行う対話制御方法を選定し、当該ユーザが利用経験者であれば、上記のようなガイダンスの応答テキストを最初に出力せずに、音声対話を行う対話制御方法を選定する。
【0012】
音声合成手段5は、タイプ識別手段1から識別情報を受けると、その識別情報に応じて音声合成方法を選定する(ステップST2)。
例えば、識別情報に含まれているユーザの年齢を参照し、ユーザが60歳以上の高齢者であれば、通常時よりも応答音声の出力速度が遅くなり、かつ、応答音声の出力レベルが大きくなる音声合成方法を選定する。さらに、高齢者に応答音声が聞き取り易いようにするため、応答音声の高周波数領域を強調するような音声合成方法を選定する。
【0013】
音声認識手段2は、上記のようにして音声認識方法を選定し、ユーザから発せられた音声を入力すると、その音声認識方法にしたがってユーザから発せられた音声を認識する(ステップST3)。
即ち、ユーザから発せられた音声から音声特徴量を抽出し、その音声特徴量や上記音声認識方法に係る標準パタン(例えば、男性専用標準パタン)を用いて照合処理を実施することにより音声認識し、その音声認識結果をテキストで出力する。
なお、音声認識の手法の代表的なものとしては、HMM(Hidden Markov Model)がある。HMMを用いた音声認識については、例えば、「音声情報処理」古井貞煕著、1998年6月、森北出版株式会社発行などに詳細が記述されている。
【0014】
対話制御手段3は、上記のようにして対話制御方法を選定し、音声認識手段2から音声認識結果を受けると、その対話制御方法にしたがってデータベース4から適切な応答を選択して、音声認識手段2の音声認識結果に対応する応答テキストを生成する(ステップST4)。
例えば、当該ユーザが初めての利用であれば、音声応答装置の利用方法などを説明するガイダンスが先頭にある応答テキストを生成し、当該ユーザが利用経験者であれば、上記のようなガイダンスを含まない応答テキストを生成する。
【0015】
音声合成手段5は、上記のようにして音声合成方法を選定し、対話制御手段3から応答テキストを受けると、その音声合成方法にしたがって応答テキストを応答音声に変換して出力する(ステップST5)。
なお、音声合成手段5は、応答テキストを応答音声に変換する際、例えば、ユーザが60歳以上の高齢者であれば、通常時よりも応答音声の出力速度を遅くするとともに、応答音声の出力レベルを大きくする。
これにより、音声応答装置の一連の処理が終了するが、ユーザが発声を継続する場合には、ステップST3の処理戻り、音声の認識処理を再開する(ステップST6)。
【0016】
以上で明らかなように、この実施の形態1によれば、ユーザのタイプを識別するタイプ識別手段1を設け、そのタイプ識別手段1から出力された識別情報に応じて音声認識方法,対話制御方法及び音声合成方法を選定するように構成したので、利用するユーザに適する音声認識方法,対話制御方法及び音声合成方法を用いることができる結果、ユーザにとって快適で効率的な音声応答を実現することができる効果を奏する。
【0017】
また、この実施の形態1によれば、タイプ識別手段1から出力された識別情報を参照してユーザの装置利用回数を調査し、その装置利用回数に応じて対話制御方法を選定するように構成したので、例えば、音声応答装置の利用経験があるユーザにとって煩わしい対話の繰り返しを防止することができる効果を奏する。
また、この実施の形態1によれば、タイプ識別手段1から出力された識別情報に応じて応答音声の出力速度、出力レベル、周波数特性などを設定するように構成したので、ユーザの要求を満たす応答音声を生成することができる効果を奏する。
さらに、この実施の形態1によれば、ユーザの音声や顔画像からタイプを識別するように構成したので、ユーザの性別や年齢等の入力を省略することができる効果を奏する。
【0018】
なお、この実施の形態1では、タイプ識別手段1がユーザの装置利用回数を識別情報に含めるものについて示したが、その装置利用回数から装置習熟度を判定し、その装置習熟度を識別情報に含めるようにしてもよい。この場合も、対話制御手段3は上記と同様にして対話制御方法を選定することができる。
また、この実施の形態1では、音声合成手段5がタイプ識別手段1から出力された識別情報に応じて応答音声の出力速度等を設定するものについて示したが、これに限るものではなく、例えば、タイプ識別手段1から出力された識別情報に応じて性別を設定し、その性別に見合う応答音声に変換するようにしてもよい。例えば、ユーザが男性であれば、応答音声を女性の声で生成するようにする。これにより、ユーザの快適性を高めることができる効果を奏する。
【0019】
実施の形態2.
図3はこの発明の実施の形態2による音声応答装置の音声認識手段2を示す構成図であり、図において、音響分析部11はユーザから発せられた音声を音響分析して音響特徴量を出力し、文法選択部13は予め用意されている複数の文法12の中から、タイプ識別手段1から出力された識別情報にしたがって最適な文法を選択する。
認識対象単語標準パタン生成部16は予め用意されている認識対象単語辞書14と標準パタン15を参照して認識対象単語標準パタンを生成し、照合部17は音響分析部11から出力された音響特徴量と文法選択部13により選択された文法と認識対象単語標準パタン生成部16により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する。
図4はこの発明の実施の形態2による音声応答装置の音声認識手段2の処理内容を示すフローチャートである。
【0020】
次に動作について説明する。
ただし、音声認識手段2以外は上記実施の形態1と同様であるため説明を省略する。
音声認識手段2の音響分析部11は、ユーザから発せられた音声を入力すると、その音声を音響分析して音響特徴量を出力する(ステップST11)。
即ち、ユーザから発せられた音声の信号をA/D変換し、A/D変換後の信号を5ミリ秒〜20ミリ秒程度の一定時間間隔のフレームで切り出し、音響分析を行って音声特徴量ベクトルO=[o(1),o(2),・・・,o(T)](Tは総フレーム数)を抽出する。
ここで、音声特徴量とは、少ない情報量で音声の特徴を表現するものであり、例えば、ケプストラム及びケプストラムの動的特徴を物理量で構成する特徴量ベクトルである。
【0021】
文法選択部13は、タイプ識別手段1から識別情報を受けると、予め用意されている複数の文法12の中から、その識別情報にしたがって最適な文法を選択する(ステップST12)。
複数の文法12は、ユーザ個人毎、または、ユーザのタイプ毎に用意された文法であり、各文法には認識対象単語辞書14に格納されている認識対象の単語の接続ルールが格納されている。単語の接続ルールは、例えば、「確率的言語モデル」北研二、1999年11月、東京大学出版会発行で紹介されているN−gramや隠れマルコフモデルのような確率的言語モデルで表現されている。
【0022】
ここで、識別情報にしたがって最適な文法を選択する例を説明する。
複数の文法12は、単語を区切って発声する離散単語認識の文法と、単語を連続に発声できる連続単語音声認識の2つの文法で構成されているとする。そして識別情報にはユーザの装置利用回数が含まれているものとする。
例えば、ユーザの装置利用回数が2回以上、即ち、過去に音声応答装置を利用したことがある場合は、ユーザが発声の仕方を知っていると判断し、連続単語音声認識の文法を選択する。
一方、ユーザの装置利用回数が1回、即ち、過去に音声応答装置を利用したことがない場合は、発声の仕方を知らず連続的に発声することができないと判断して、離散単語認識の文法を選択する。
【0023】
上記の例では、ユーザの装置利用回数からユーザの習熟度を判定しているが、応答音声終了からユーザが発声を開始するまでの間隔に基づいて習熟度を判定してもよい。間隔が定めた時間より短い場合は、音声応答装置に慣れたユーザであるとして習熟度が高いと判定し、間隔が定めた時間より長い場合は音声応答装置に不慣れなユーザであるとして習熟度が低いと判定する。
【0024】
認識対象単語標準パタン生成部16は、予め用意されている認識対象単語辞書14と標準パタン15を参照して認識対象単語標準パタンを生成する(ステップST13)。
認識対象単語辞書14には予め定められた認識対象単語の表記と読みが格納されている。表記とは漢字や仮名や数字などで表されるテキストのことである。また、読みとは漢字や仮名や数字を読み上げる場合の発音を意味し、音素記号等で表されている。例えば、表記が「神奈川」の場合、その読みとして“kanagawa”を格納している。
また、標準パタン15には音声認識における音響的なスコアを求めるための標準的なパタンが格納されている。標準パタン15は、例えば、多数話者の音声データでパラメータ学習を行った、サブワード音声単位のHMM[λl1,λl2,・・・,λlM](l1,l2,・・・,lMはラベル名、Mは総ラベル数)を用いる。
【0025】
ここで、サブワード音声単位(音素や音節などの音声片単位)の標準パタンを用いて認識対象単語標準パタンを生成する方法を説明する。
認識対象単語標準パタン生成部16は、認識対象単語辞書14に設定されている認識対象単語の読み[wr(1),wr(2),・・・,wr(N)](括弧内は単語番号)をサブワード音声単位のラベル表記へ変換し、標準パタン15に格納されている標準パタンからラベルに対応したサブワード音声単位の標準パタンを選択して連結することにより、認識対象単語標準パタン[Λ(1),Λ(2),・・・,Λ(N)](括弧内は単語番号)を生成する。
【0026】
単語標準パタンΛ(n)の生成方法について前後環境依存の音素をサブワード音声単位とした標準パタンの場合で説明する。
認識対象単語辞書14のn番目に「明日(asu)」が存在し、「明日」の前後に単語が接続する連続単語音声認識の場合においては、「明日」は音素系列で/$asu*/と表される。ただし、ここで、$は先行単語の最後の音素、*は後続単語の先頭音素である。
【0027】
サブワード音声単位のラベルは、中心音素が/a/であり、先行音素が先行単語の最後の音素$、後続音素が/s/のラベル{$as}と、中心音素が/s/であり、先行音素が/a/、後続音素が/u/であるラベル{asu}と、中心音素が/u/であり、先行音素が/s/、後続音素が後続単語の先頭音素/*/であるラベル{su*}となる。このサブワード音声単位ラベルに対応する標準パタンλ$as、λasu、λsu* を標準パタン15から抽出し、これらを連結した標準パタンΛ(n)が単語「明日」の標準パタンとなる。最近では前後音素環境依存の音素のサブワード音声単位標準パタンを用い、認識対象単語が数万単語以上の音声認識システムの検討が行われている。
【0028】
照合部17は、音響分析部11から出力された音響特徴量と、文法選択部13により選択された文法と、認識対象単語標準パタン生成部16により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識し、その音声認識結果をテキストで出力する(ステップST14)。
【0029】
ここで、照合の方法について説明する。
照合部17は、音響分析部11から出力された音響特徴量ベクトルOに対して下記の式(1)を演算して、音声認識結果である単語系列W’を抽出する。
【数1】
式(1)において、第一項のP(O|W)は音響的な確率である。この確率は、認識対象単語標準パタン[Λ(1),Λ(2),・・・,Λ(N)](括弧内は単語番号)をステップST12で選択された文法で定められている単語連鎖のルールにしたがって単語系列Wを仮定して計算する。最近では音響的な確率を計算するためにHMMを用いることが多い。
また、第二項のP(W)は仮定された単語系列Wの確率を表すものであり、言語的な確率である。最近では言語的な確率を求めるために、単語連鎖の確率を与える統計的言語モデルを用いることが多い。照合部17では、式(1)によって得られた単語系列W’のテキスト表記を音声認識結果として出力する。
【0030】
以上で明らかなように、この実施の形態2によれば、予め用意されている複数の文法12の中から、タイプ識別手段1から出力された識別情報にしたがって最適な文法を選択するように構成したので、音声の認識率を高めることができる効果を奏する。
【0031】
実施の形態3.
図5はこの発明の実施の形態3による音声応答装置の音声認識手段2を示す構成図であり、図において、図3と同一符号は同一または相当部分を示すので説明を省略する。
辞書選択部19は予め用意されている複数の認識対象単語辞書18の中から、タイプ識別手段1から出力された識別情報にしたがって最適な認識対象単語辞書を選択する。
図6はこの発明の実施の形態3による音声応答装置の音声認識手段2の処理内容を示すフローチャートである。
【0032】
次に動作について説明する。
ただし、辞書選択部19が設けられている点以外は、上記実施の形態2と同様であるため、辞書選択部19の動作のみを説明する。
辞書選択部19は、タイプ識別手段1から識別情報を受けると、予め用意されている複数の認識対象単語辞書18の中から、その識別情報にしたがって最適な認識対象単語辞書を選択する(ステップST21)。
【0033】
複数の認識対象単語辞書18は、ユーザ個人毎、または、ユーザのタイプ毎に用意された認識対象単語辞書であり、例えば、複数の認識対象単語辞書18は、各地域の方言毎に用意されているとする。そして、識別情報としてユーザの住んでいる地域が得られた場合、辞書選択部19がユーザの住んでいる地域の方言を含む認識対象単語辞書を選択する。
【0034】
以上で明らかなように、この実施の形態3によれば、予め用意されている複数の認識対象単語辞書18の中から、タイプ識別手段1から出力された識別情報にしたがって最適な認識対象単語辞書を選択するように構成したので、音声の認識率を高めることができる効果を奏する。
【0035】
実施の形態4.
図7はこの発明の実施の形態4による音声応答装置の音声認識手段2を示す構成図であり、図において、図3と同一符号は同一または相当部分を示すので説明を省略する。
標準パタン選択部22は予め用意されている複数の標準パタン21の中から、タイプ識別手段1から出力された識別情報にしたがって最適な標準パタンを選択する。なお、20は予め用意されている文法である。
図8はこの発明の実施の形態4による音声応答装置の音声認識手段2の処理内容を示すフローチャートである。
【0036】
次に動作について説明する。
ただし、標準パタン選択部22が設けられている点以外は、上記実施の形態2とほぼ同様であるため、標準パタン選択部22の動作のみを説明する。
標準パタン選択部22は、タイプ識別手段1から識別情報を受けると、予め用意されている複数の標準パタン21の中から、その識別情報にしたがって最適な標準パタンを選択する(ステップST31)。
【0037】
複数の標準パタン21は、ユーザ個人毎、または、ユーザのタイプ毎に用意された標準パタンであり、例えば、複数の標準パタン21は、男性、女性、さらに年齢に依存した標準パタンであるとする。そして、識別情報として性別、年齢が得られた場合、標準パタン選択部22がユーザの性別、年齢に依存した標準パタンを選択する。
また、他の例として、上記実施の形態2のように識別情報としてユーザの習熟度が得られる場合は、複数の標準パタン21として、ゆっくりとした発声用の標準パタンと、早口用の標準パタンを用意する。そして、習熟度が低いユーザの場合はゆっくりとした発声用の標準パタンを選択する。反対に習熟度が高いユーザの場合は早口用の標準パタンを選択する。
【0038】
以上で明らかなように、この実施の形態4によれば、予め用意されている複数の標準パタン21の中から、タイプ識別手段1から出力された識別情報にしたがって最適な標準パタンを選択するように構成したので、音声の認識率を高めることができる効果を奏する。
【0039】
実施の形態5.
図9はこの発明の実施の形態5による音声応答装置の音声認識手段2を示す構成図であり、図において、図3等と同一符号は同一または相当部分を示すので説明を省略する。
背景騒音学習部23は音響分析部11から出力された音響特徴量と予め用意されている標準パタン15を参照して背景騒音を学習し、複数の背景騒音学習標準パタン24を生成する。背景騒音学習標準パタン選択部25は背景騒音学習部23により生成された複数の背景騒音学習標準パタン24の中から、タイプ識別手段1から出力された識別情報にしたがって最適な背景騒音学習標準パタンを選択する。認識対象単語標準パタン生成部26は予め用意されている認識対象単語辞書14と背景騒音学習標準パタン選択部25により選択された背景騒音学習標準パタンを参照して認識対象単語標準パタンを生成する。
図10はこの発明の実施の形態5による音声応答装置の音声認識手段2の処理内容を示すフローチャートである。
【0040】
次に動作について説明する。
まず、音響分析部11が上記実施の形態2と同様にして、入力された音声を音響分析して音響特徴量を出力する(ステップST11)。
一方、背景騒音学習標準パタン選択部25は、タイプ識別手段1から識別情報を受けると、複数の背景騒音学習標準パタン24の中から、その識別情報にしたがって最適な背景騒音学習標準パタンを選択する(ステップST41)。
複数の背景騒音学習標準パタン24は、ユーザ個人毎、または、ユーザのタイプ毎に学習された背景騒音の学習標準パタンである。
【0041】
認識対象単語標準パタン生成部26は、予め用意されている認識対象単語辞書14と背景騒音学習標準パタン選択部25により選択された背景騒音学習標準パタンを参照して認識対象単語標準パタンを生成する(ステップST42)。
照合部17は、上記実施の形態4と同様に、音響分析部11から出力された音響特徴量と、予め用意されている文法20と、認識対象単語標準パタン生成部26により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識し、その音声認識結果をテキストで出力する(ステップST14)。
【0042】
背景騒音学習部23は、音響分析部11から音響特徴量を受けると、その音響特徴量(音声区間以外の部分)と予め用意されている標準パタン15を参照して背景騒音を学習し、複数の背景騒音学習標準パタン24を生成する(ステップST43)。
なお、複数の背景騒音学習標準パタン24は、ユーザ個人毎、または、ユーザのタイプ毎に学習されており、例えば、標準パタンがHMMであるならば、HMM合成法によって生成することができる。
【0043】
以上で明らかなように、この実施の形態5によれば、背景騒音学習部23により生成された複数の背景騒音学習標準パタン24の中から、タイプ識別手段1から出力された識別情報にしたがって最適な背景騒音学習標準パタンを選択するように構成したので、音声の認識率を高めることができる効果を奏する。
【0044】
実施の形態6.
図11はこの発明の実施の形態6による音声応答装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
バージイン判定手段6は音声合成手段9により変換された応答音声が出力されている途中でユーザから音声が発せられると、タイプ識別手段1から出力された識別情報を参照して当該応答音声の出力を中断するか否かを判定し、その出力を中断する場合には中断指令を音声合成手段9に出力して、音声の認識要求を音声認識手段7に出力する。
【0045】
音声認識手段7は予め用意された音声認識方法にしたがってユーザから発せられた音声を認識する。対話制御手段8は予め用意された対話制御方法にしたがって音声認識手段7の音声認識結果に対応する応答テキストを生成する。音声合成手段9は予め用意された音声合成方法にしたがって対話制御手段8により生成された応答テキストを応答音声に変換する。
【0046】
図12はこの発明の実施の形態6による音声応答装置の処理内容を示すフローチャートである。
なお、この実施の形態6では、タイプ識別手段1、バージイン判定手段6、音声認識手段7、対話制御手段8及び音声合成手段9をハードウェアで構成してもよいが、各手段の処理内容を記述した音声応答プログラムを作成し、コンピュータが当該音声応答プログラムを実行するようにしてもよい。
【0047】
次に動作について説明する。
まず、バージイン判定手段6は、音声合成手段9により変換された応答音声が出力されている途中で、ユーザが発声しているか否かを判定する(ステップST51)。
バージイン判定手段6は、応答音声が出力されている途中でユーザが発声している場合、タイプ識別手段1から出力された識別情報を参照してバージインを実施するか否かを判定し、バージインを実施するときはバージイン信号を音声認識手段7及び音声合成手段9に出力する(ステップST52)。
【0048】
ここで、バージインとは、応答音声の出力を中断して、ユーザの音声の認識処理を再開することである。
なお、バージインを実施するか否かは、例えば、ユーザの習熟度によって判定する。ユーザが音声応答装置に慣れていて応答音声の内容を既に知っており、最後まで聞く必要がない場合は、途中で発声して次のシーケンスに進みたいという欲求がある。したがって、ユーザの習熟度が高い場合はバージインを実施する。これにより短時間でユーザが目的を達成できる。
一方、ユーザの習熟度が低い場合は、応答音声を最後まで聞いて、発声する内容を確認しながら使用するのでバージインを実施しない。習熟度が低い話者は応答音声を合成している途中で、不要な言葉を発声してしまうことがある。この場合、バージインを実施してしまうと不要な言葉は認識できず、誤動作を起こすことがある。ユーザの習熟度が低い場合は、バージインを実施しないので、不要語による誤動作を防ぐこともできる。
【0049】
ユーザの音声応答装置への習熟度は、例えば、ユーザの装置利用回数から得られるので、バージイン判定手段6は、タイプ識別手段1から識別情報を受けると、その識別情報に含まれている装置利用回数を参照し、ユーザが過去に音声応答装置を利用したことがなければ、バージインを実施せず、ユーザが過去に音声応答装置を利用したことがあれば、バージインを実施する。
【0050】
音声合成手段9は、バージイン判定手段6からバージイン信号を受けると、応答音声の出力を途中で中断し、音声認識手段7は、ユーザの音声を入力し、その音声の認識処理を開始する(ステップST53,ST54)。
一方、バージイン判定手段6からバージイン信号が出力されなければ、音声合成手段9は、応答音声の出力を中断せず、音声認識手段7は、応答音声の出力が完了した後、ユーザの音声を入力して、その音声の認識処理を開始する(ステップST53,ST55)。
【0051】
対話制御手段8は、音声認識手段2から音声認識結果を受けると、予め用意された対話制御方法にしたがってデータベース4から適切な応答を選択して、音声認識手段7の音声認識結果に対応する応答テキストを生成する(ステップST56)。
音声合成手段9は、対話制御手段8から応答テキストを受けると、予め用意された音声合成方法にしたがって応答テキストを応答音声に変換して出力する(ステップST57)。
これにより、音声応答装置の一連の処理が終了するが、ユーザが発声を継続する場合には、ステップST51の処理戻り、上記の処理を再開する(ステップST58)。
【0052】
以上で明らかなように、この実施の形態6によれば、音声合成手段9により変換された応答音声が出力されている途中でユーザから音声が発せられると、タイプ識別手段1から出力された識別情報を参照して当該応答音声の出力を中断するか否かを判定し、その出力を中断する場合には中断指令を音声合成手段9に出力して、音声の認識要求を音声認識手段7に出力するように構成したので、ユーザにとって快適で効率的な音声応答を実現することができる効果を奏する。
【0053】
【発明の効果】
以上のように、この発明によれば、ユーザのタイプを識別するタイプ識別手段を設け、そのタイプ識別手段から出力された識別情報に応じて音声認識方法,対話制御方法及び音声合成方法を選定するように構成したので、利用するユーザに適する音声認識方法,対話制御方法及び音声合成方法を用いることができる結果、ユーザにとって快適で効率的な音声応答を実現することができる効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1による音声応答装置を示す構成図である。
【図2】この発明の実施の形態1による音声応答装置の処理内容を示すフローチャートである。
【図3】この発明の実施の形態2による音声応答装置の音声認識手段を示す構成図である。
【図4】この発明の実施の形態2による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【図5】この発明の実施の形態3による音声応答装置の音声認識手段を示す構成図である。
【図6】この発明の実施の形態3による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【図7】この発明の実施の形態4による音声応答装置の音声認識手段を示す構成図である。
【図8】この発明の実施の形態4による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【図9】この発明の実施の形態5による音声応答装置の音声認識手段を示す構成図である。
【図10】この発明の実施の形態5による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【図11】この発明の実施の形態6による音声応答装置の音声認識手段を示す構成図である。
【図12】この発明の実施の形態6による音声応答装置の音声認識手段の処理内容を示すフローチャートである。
【符号の説明】
1 タイプ識別手段、2 音声認識手段、3 対話制御手段、4 データベース、5 音声合成手段、6 バージイン判定手段、7 音声認識手段、8 対話制御手段、9 音声合成手段、11 音響分析部、12 複数の文法、13 文法選択部、14 認識対象単語辞書、15 標準パタン、16 認識対象単語標準パタン生成部、17 照合部、18 複数の認識対象単語辞書、19 辞書選択部、20 文法、21 複数の標準パタン、22 標準パタン選択部、23 背景騒音学習部、24 複数の背景騒音学習標準パタン、25 背景騒音学習標準パタン選択部、26 認識対象単語標準パタン生成部。
Claims (15)
- ユーザのタイプを識別し、その識別情報を出力するタイプ識別手段と、上記タイプ識別手段から出力された識別情報に応じて音声認識方法を選定し、その音声認識方法にしたがってユーザから発せられた音声を認識する音声認識手段と、上記タイプ識別手段から出力された識別情報に応じて対話制御方法を選定し、その対話制御方法にしたがって上記音声認識手段の音声認識結果に対応する応答テキストを生成する対話制御手段と、上記タイプ識別手段から出力された識別情報に応じて音声合成方法を選定し、その音声合成方法にしたがって上記対話制御手段により生成された応答テキストを応答音声に変換する音声合成手段とを備えた音声応答装置。
- ユーザから発せられた音声を音響分析して音響特徴量を出力する音響分析部と、予め用意されている複数の文法の中から、タイプ識別手段から出力された識別情報にしたがって最適な文法を選択する文法選択部と、予め用意されている認識対象単語辞書と標準パタンを参照して認識対象単語標準パタンを生成する認識対象単語標準パタン生成部と、上記音響分析部から出力された音響特徴量と上記文法選択部により選択された文法と上記認識対象単語標準パタン生成部により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する照合部とから音声認識手段を構成することを特徴とする請求項1記載の音声応答装置。
- ユーザから発せられた音声を音響分析して音響特徴量を出力する音響分析部と、予め用意されている複数の文法の中から、タイプ識別手段から出力された識別情報にしたがって最適な文法を選択する文法選択部と、予め用意されている複数の認識対象単語辞書の中から、上記タイプ識別手段から出力された識別情報にしたがって最適な認識対象単語辞書を選択する辞書選択部と、上記辞書選択部により選択された認識対象単語辞書と予め用意されている標準パタンを参照して認識対象単語標準パタンを生成する認識対象単語標準パタン生成部と、上記音響分析部から出力された音響特徴量と上記文法選択部により選択された文法と上記認識対象単語標準パタン生成部により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する照合部とから音声認識手段を構成することを特徴とする請求項1記載の音声応答装置。
- ユーザから発せられた音声を音響分析して音響特徴量を出力する音響分析部と、予め用意されている複数の標準パタンの中から、タイプ識別手段から出力された識別情報にしたがって最適な標準パタンを選択する標準パタン選択部と、予め用意されている認識対象単語辞書と上記標準パタン選択部により選択された標準パタンを参照して認識対象単語標準パタンを生成する認識対象単語標準パタン生成部と、上記音響分析部から出力された音響特徴量と予め用意されている文法と上記認識対象単語標準パタン生成部により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する照合部とから音声認識手段を構成することを特徴とする請求項1記載の音声応答装置。
- ユーザから発せられた音声を音響分析して音響特徴量を出力する音響分析部と、上記音響分析部から出力された音響特徴量と予め用意されている標準パタンを参照して背景騒音を学習し、複数の背景騒音学習標準パタンを生成する背景騒音学習部と、上記背景騒音学習部により生成された複数の背景騒音学習標準パタンの中から、タイプ識別手段から出力された識別情報にしたがって最適な背景騒音学習標準パタンを選択する背景騒音学習標準パタン選択部と、予め用意されている認識対象単語辞書と上記背景騒音学習標準パタン選択部により選択された背景騒音学習標準パタンを参照して認識対象単語標準パタンを生成する認識対象単語標準パタン生成部と、上記音響分析部から出力された音響特徴量と予め用意されている文法と上記認識対象単語標準パタン生成部により生成された認識対象単語標準パタンとを用いて照合処理を実施して、ユーザから発せられた音声を認識する照合部とから音声認識手段を構成することを特徴とする請求項1記載の音声応答装置。
- 対話制御手段は、タイプ識別手段から出力された識別情報を参照してユーザの装置利用回数を調査し、その装置利用回数に応じて対話制御方法を選定することを特徴とする請求項1から請求項5のうちのいずれか1項記載の音声応答装置。
- 音声合成手段は、タイプ識別手段から出力された識別情報に応じて応答音声の出力速度を設定することを特徴とする請求項1から請求項6のうちのいずれか1項記載の音声応答装置。
- 音声合成手段は、タイプ識別手段から出力された識別情報に応じて応答音声の出力レベルを設定することを特徴とする請求項1から請求項6のうちのいずれか1項記載の音声応答装置。
- 音声合成手段は、タイプ識別手段から出力された識別情報に応じて応答音声の周波数特性を設定することを特徴とする請求項1から請求項6のうちのいずれか1項記載の音声応答装置。
- 音声合成手段は、タイプ識別手段から出力された識別情報に応じて性別を設定し、その性別に見合う応答音声に変換することを特徴とする請求項1から請求項6のうちのいずれか1項記載の音声応答装置。
- ユーザから発せられた音声を認識する音声認識手段と、上記音声認識手段の音声認識結果に対応する応答テキストを生成する対話制御手段と、上記対話制御手段により生成された応答テキストを応答音声に変換する音声合成手段とを備えた音声応答装置において、
ユーザのタイプを識別し、その識別情報を出力するタイプ識別手段と、上記音声合成手段により変換された応答音声が出力されている途中でユーザから音声が発せられると、上記タイプ識別手段から出力された識別情報を参照して当該応答音声の出力を中断するか否かを判定し、その出力を中断する場合には中断指令を上記音声合成手段に出力して、音声の認識要求を上記音声認識手段に出力するバージイン判定手段とを設けたことを特徴とする音声応答装置。 - タイプ識別手段は、ユーザの音声からタイプを識別することを特徴とする請求項1から請求項11のうちのいずれか1項記載の音声応答装置。
- タイプ識別手段は、ユーザの顔画像からタイプを識別することを特徴とする請求項1から請求項11のうちのいずれか1項記載の音声応答装置。
- タイプ識別手段は、ユーザの性別又は年齢を示す識別情報を出力することを特徴とする請求項1から請求項11のうちのいずれか1項記載の音声応答装置。
- タイプ識別手段は、ユーザの装置習熟度を示す識別情報を出力することを特徴とする請求項1から請求項11のうちのいずれか1項記載の音声応答装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002327344A JP2004163541A (ja) | 2002-11-11 | 2002-11-11 | 音声応答装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002327344A JP2004163541A (ja) | 2002-11-11 | 2002-11-11 | 音声応答装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004163541A true JP2004163541A (ja) | 2004-06-10 |
Family
ID=32806017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002327344A Abandoned JP2004163541A (ja) | 2002-11-11 | 2002-11-11 | 音声応答装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004163541A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005124738A1 (ja) * | 2004-06-16 | 2005-12-29 | Matsushita Electric Industrial Co., Ltd. | 音声対話システム及び音声対話方法 |
JP2007233149A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2008089825A (ja) * | 2006-09-29 | 2008-04-17 | Fujitsu Ltd | 音声認識装置、および音声認識プログラム |
JPWO2014024751A1 (ja) * | 2012-08-10 | 2016-07-25 | エイディシーテクノロジー株式会社 | 音声応答装置 |
JP2016212331A (ja) * | 2015-05-13 | 2016-12-15 | 株式会社国際電気通信基礎技術研究所 | 発音評定サーバ装置、発音評定方法、およびプログラム |
JP2020008635A (ja) * | 2018-07-04 | 2020-01-16 | 株式会社日立製作所 | 音声対話システム、音声対話装置および音声対話方法 |
CN110930998A (zh) * | 2018-09-19 | 2020-03-27 | 上海博泰悦臻电子设备制造有限公司 | 语音互动方法、装置及车辆 |
JP2020119271A (ja) * | 2019-01-24 | 2020-08-06 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
WO2020208972A1 (ja) * | 2019-04-08 | 2020-10-15 | ソニー株式会社 | 応答生成装置及び応答生成方法 |
JP2020181183A (ja) * | 2019-04-24 | 2020-11-05 | 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. | 音声対話方法、装置、スマートロボット及びコンピュータ可読記憶媒体 |
CN111968632A (zh) * | 2020-07-14 | 2020-11-20 | 招联消费金融有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
CN116030788A (zh) * | 2023-02-23 | 2023-04-28 | 福建博士通信息股份有限公司 | 一种智能语音交互方法及装置 |
CN111968632B (zh) * | 2020-07-14 | 2024-05-10 | 招联消费金融股份有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
-
2002
- 2002-11-11 JP JP2002327344A patent/JP2004163541A/ja not_active Abandoned
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005124738A1 (ja) * | 2004-06-16 | 2005-12-29 | Matsushita Electric Industrial Co., Ltd. | 音声対話システム及び音声対話方法 |
JP2007233149A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP4700522B2 (ja) * | 2006-03-02 | 2011-06-15 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
JP2008089825A (ja) * | 2006-09-29 | 2008-04-17 | Fujitsu Ltd | 音声認識装置、および音声認識プログラム |
JP4715704B2 (ja) * | 2006-09-29 | 2011-07-06 | 富士通株式会社 | 音声認識装置、および音声認識プログラム |
JPWO2014024751A1 (ja) * | 2012-08-10 | 2016-07-25 | エイディシーテクノロジー株式会社 | 音声応答装置 |
JP2016212331A (ja) * | 2015-05-13 | 2016-12-15 | 株式会社国際電気通信基礎技術研究所 | 発音評定サーバ装置、発音評定方法、およびプログラム |
JP7068077B2 (ja) | 2018-07-04 | 2022-05-16 | 株式会社日立製作所 | 音声対話システム、音声対話装置および音声対話方法 |
JP2020008635A (ja) * | 2018-07-04 | 2020-01-16 | 株式会社日立製作所 | 音声対話システム、音声対話装置および音声対話方法 |
CN110930998A (zh) * | 2018-09-19 | 2020-03-27 | 上海博泰悦臻电子设备制造有限公司 | 语音互动方法、装置及车辆 |
JP2020119271A (ja) * | 2019-01-24 | 2020-08-06 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
JP7211103B2 (ja) | 2019-01-24 | 2023-01-24 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
WO2020208972A1 (ja) * | 2019-04-08 | 2020-10-15 | ソニー株式会社 | 応答生成装置及び応答生成方法 |
JP2020181183A (ja) * | 2019-04-24 | 2020-11-05 | 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. | 音声対話方法、装置、スマートロボット及びコンピュータ可読記憶媒体 |
CN111968632A (zh) * | 2020-07-14 | 2020-11-20 | 招联消费金融有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
CN111968632B (zh) * | 2020-07-14 | 2024-05-10 | 招联消费金融股份有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
CN116030788A (zh) * | 2023-02-23 | 2023-04-28 | 福建博士通信息股份有限公司 | 一种智能语音交互方法及装置 |
CN116030788B (zh) * | 2023-02-23 | 2023-06-09 | 福建博士通信息股份有限公司 | 一种智能语音交互方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11496582B2 (en) | Generation of automated message responses | |
US11594215B2 (en) | Contextual voice user interface | |
US11270685B2 (en) | Speech based user recognition | |
US11170776B1 (en) | Speech-processing system | |
US9972318B1 (en) | Interpreting voice commands | |
US9484030B1 (en) | Audio triggered commands | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US10713289B1 (en) | Question answering system | |
US10832668B1 (en) | Dynamic speech processing | |
US10515637B1 (en) | Dynamic speech processing | |
US10565989B1 (en) | Ingesting device specific content | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
US11935525B1 (en) | Speech processing optimizations based on microphone array | |
US11715472B2 (en) | Speech-processing system | |
JP2001188781A (ja) | 会話処理装置および方法、並びに記録媒体 | |
US20240071385A1 (en) | Speech-processing system | |
WO2004047075A1 (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
JP2004163541A (ja) | 音声応答装置 | |
US11282495B2 (en) | Speech processing using embedding data | |
US11735178B1 (en) | Speech-processing system | |
US11564194B1 (en) | Device communication | |
US11393451B1 (en) | Linked content in voice user interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071026 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071026 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20080623 |