JP3695168B2 - 音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体 - Google Patents
音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体 Download PDFInfo
- Publication number
- JP3695168B2 JP3695168B2 JP25442198A JP25442198A JP3695168B2 JP 3695168 B2 JP3695168 B2 JP 3695168B2 JP 25442198 A JP25442198 A JP 25442198A JP 25442198 A JP25442198 A JP 25442198A JP 3695168 B2 JP3695168 B2 JP 3695168B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- mode
- input
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体に関する。
【0002】
【従来の技術】
近年、音声認識技術を利用した電子機器が様々な分野で用いられ、その一つとして、音声時計と呼ばれる時計がある。この音声時計は、音声によって現在時刻の設定やアラーム時刻の設定が可能であり、また、装置側からは現在時刻を音声によって知らせることができるようになっている。
【0003】
このような音声時計は、実用品としてだけではなく、子供向けの玩具として用いられることも多く、装置自体のコストをできるだけ低く押さえることが望まれる。このため、使用するCPUの処理能力やメモリの容量などには大きな制約があり、その制約のもとで如何に高性能な機能を持たせるかが重要な課題の一つとなっている。
【0004】
このような音声時計にあって、現在時刻やアラーム時刻などの時刻設定は話者の発話する音声によって行うことができるとともに、簡単な会話ができるようになっているものがある。たとえば、現在時刻として、午前1時20分を設定しようとする際、「午前」、「1時」、「20分」と発話することにより、それを認識させ、その認識結果に基づいた時刻設定を行う。また、簡単な会話としては、話者が「おはよう」と問いかけると、装置側からはそれに対応した何らかの応答が音声によって発せられる。
【0005】
【発明が解決しようとする課題】
しかし、このように様々な音声の認識が可能な装置にあっては、認識可能な音声の中で、音声の特徴量が複数の単語間で相互に類似していて、誤認識されやすい単語が存在する。たとえば、時刻情報を例にとれば、「1時」と「7時」などは誤認識されやすい例の1つである。しかも、これらの単語は、装置が音声時計であることを考えれば、現在時刻やアラーム時刻の設定上、正しく認識されることが要求される。
【0006】
したがって、このような誤認識される可能性のある音声が入力される場面にあっては、その音声の入力の仕方も重要となってくる。つまり、誤認識される可能性のある音声を入力する際は、話者に対し、はっきりとした口調での発話を行わせ、しかも、マイクロホンに対して適正な距離で発話させることが重要となってくる。このように、はっきりとした口調での発話を行わせ、しかも、マイクロホンに対して適正な距離で発話させる必要の状況は、誤認識される可能性のある音声が入力される状況だけではなく、その他に、登録単語を登録する際、登録すべき単語に対する音声を入力する状況や、話者学習を行う状況なども同様である。
【0007】
しかし、全ての音声に対してもこのような一定の枠にはめた発話を行わせる必要もない。たとえば、前述したような「おはよう」といった装置に対して呼びかけるような場面について考えたとき、この場面において、入力される単語の種類が「おはよう」を含めて数種類と少なく、しかも、これらの単語間で誤認識される可能性が低いとすれば、話者の発話した「おはよう」は高い認識率で認識される可能性が高いといえる。
【0008】
したがって、このような音声については、装置からある程度離れた位置からでも、話者が気軽に装置に対して呼びかけられるようにして使い勝手を高めることも必要である。
【0009】
このように、使い勝手を高めるために、装置から離れた位置からでも音声入力を可能とするには、音声入力部を構成する音声入力用アンプの音声入力ゲインを大きく設定しておけばよいが、音声入力ゲインを大きく固定的に設定されていると、S/N比が悪くなって、前述の誤認識される可能性の高い音声などに対しての認識率に悪影響を及ぼす問題が生じる。
【0010】
そこで本発明は、認識可能な様々な音声が発話される際、装置に対してその時点でどのような種類の音声が入力される場面であるかを判断し、その場面に応じてゲインを切り替えて音声入力を行うようにし、誤認識される可能性の高い音声や登録単語入力や話者学習を行う際の音声については、その認識率を高めるような音声入力ゲインに設定し、ある単語に対する音声は装置から離れたところからも入力できるような音声入力ゲインに設定することで、認識性能の向上と使い勝手の良さを兼ね備えることを可能とすることを目的としている。
【0011】
【課題を解決するための手段】
本発明の音声認識装置は、登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置であって、前記モード切替スイッチによって登録モードに切り替えられた場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知することを特徴とする。
【0012】
本発明の音声認識装置において、前記通知は、発話の仕方や前記音声入力部に対する音声入力の仕方についての通知であることが好ましい。
【0013】
本発明の音声入力ゲイン設定方法は、登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置における音声入力ゲイン設定方法であって、前記モード切替スイッチによって登録モードに切り替えられた場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知することを特徴とする。
【0014】
本発明の音声入力ゲイン設定処理プログラムを記録した記憶媒体は、登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置における音声入力ゲイン設定処理プログラムを記録した記憶媒体であって、前記モード切替スイッチによって登録モードと認識モードとのうちいずれのモードに切り替えられているかを判断する手順と、前記モード切替スイッチによって登録モードに切り替えられていると判断した場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知する手順とを含むことを特徴とする。
【0026】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。なお、この実施の形態では、音声認識装置の1つの例として、音声時計装置を例にして説明する。この音声時計装置(以下では単に装置と表現する場合もある)は、現在時刻やアラーム時刻の設定を話者の発話する音声によって行うことが可能で、かつ、装置側からの時刻の告知も音声によって行うことができ、さらに、話者との間で簡単な内容の会話をも可能とする玩具的な要素の強い装置であるとする。
【0027】
図1は本発明の実施の形態である音声時計装置を構成するに必要な各構成要素を示すブロック図である。まず、図1に示される構成を概略的に説明し、そのあとで、本発明の実施の形態を説明する上で特に必要な部分について詳細に説明する。
【0028】
この音声時計装置は、大きく分けると、音声入力部としてのマイクロホン1と音声入力用アンプ(マイクアンプという)2、A/D変換部3、音声分析部4、各種処理を行う制御部(CPU)5、D/A変換部6、音声出力部としての音声出力用アンプ7とスピーカ8、第1の記憶手段としてのROM9、第2の記憶手段としてのRAM10、ユーザが装置に対して各種の設定を行うための操作部11、時刻信号を発生する計時手段12などから構成されている。
【0029】
音声分析部4は、A/D変換された音声信号を演算機を用いて短時間ごとに分析し、ピッチ周期などを得るとともに、音声の特徴を表す特徴データ(LPCケプストラム係数が一般的)を時系列データとして出力する。
【0030】
制御部5は、音声認識、学習、登録、音声出力など以下に説明する各種の処理を行うもので、これらの処理については、のちに行う動作説明のなかで順次説明する。
【0031】
ROM9は、出力音声データ91、特定話者群音声モデルデータ92、この特定話者群音声モデルデータ92を基にして作成されたコードブック(特定話者群コードブックという)93、さらにはユニバーサルコードブック94などを格納する。
【0032】
前記出力音声データ91は装置側から話者に対しての応答や問いかけを行うための発話内容に対する音声データであり、この具体的な内容についても後述する動作例のなかで説明する。
【0033】
また、特定話者群音声モデルデータ92は、ある範囲に絞られた認識対象話者に対する標準話者音声モデルデータである。たとえば、認識対象話者を子供に絞った場合は、不特定多数の子供の音声データから作成された標準話者音声モデルデータである。
【0034】
ただし、この実施の形態では、成人男性、成人女性、子供の3つの話者群を設定し、成人男性を話者群A、成人女性を話者群B、子供を話者群Cというように区分する。そして、話者群Aに属する不特定多数の成人男性の音声データから作成した第1の特定話者群音声モデルデータMD1、話者群Bに属する不特定多数の成人女性の音声データから作成した第2の特定話者群音声モデルデータMD2、話者群Cに属する不特定多数の子供の音声データから作成した第3の特定話者群音声モデルデータMD3を有しているものとする。
【0035】
そして、これら第1〜第3の特定話者群音声モデルデータMD1,MD2,MD3は、予め定められた認識可能単語からなる幾つかの単語セットw1,w2,w3,・・・からなっており、単語セットw1に格納されている特定話者群音声モデルデータは、装置との間で交わされる会話のなかで、特に使用される頻度の高いと思われる単語(この場合、「おはよう」、「ただいま」、「こんにちは」、「おやすみ」、「何時」、「アラーム」といった単語であるとする)に対する特定話者群音声モデルデータである。この単語セットw1内のそれぞれの単語に対する特定話者群音声モデルデータは、のちに説明する話者学習処理を行うためとしても用いられる。
【0036】
単語セットw2に格納されている特定話者群音声モデルデータは、ここでは、「1時」、「2時」、「3時」、・・・、「12時」といった時間の単位を表す単語に対する特定話者群音声モデルデータでり、また、単語セットw3に格納されている特定話者群音声モデルデータは、ここでは、「1分」、「2分」、「3分」、・・・、「59分」といった分の単位を表す単語に対する特定話者群音声モデルデータであるとする。
【0037】
この他、「はい」や「いいえ」といった肯定・否定を表す単語や、話者と装置との間で会話を行うに必要な単語に対する特定話者群音声モデルデータなどもここでは図示されていない単語セットとして設けられている。
【0038】
また、特定話者群コードブック93は、第1の特定話者群音声モデルデータMD1に基づいて作成された第1の特定話者群コードブックCB1、第2の特定話者群音声モデルデータMD2に基づいて作成された第2の特定話者群コードブックCB2、第3の特定話者群音声モデルデータMD3に基づいて作成された第3の特定話者群コードブックCB3を有している。
【0039】
ところで、前述の単語セットw1に属する「おはよう」、「ただいま」、「こんにちは」、「おやすみ」、「何時」、「アラーム」といった単語は、ここでは、登録単語としても用いられ、認識対象話者、つまり、この装置を使用するそれぞれの話者(ここでは、話者#1、話者#2、話者#3の3人の話者とする)が、上述の登録単語を発話することによって、それぞれの特徴データを登録単語データ101としてRAM10に保存することができるようになっている。
【0040】
この登録単語データ101は、話者#1用の登録単語データRD1、話者#2用の登録単語データRD2、話者#3用の登録単語データRD3というように、その装置を使用すると思われる各話者ごとに保存される。
【0041】
なお、このように、装置を使用すると思われる各話者ごとに、幾つかの単語について登録単語データを作成する機能は、ユーザによって任意に行うことができる。したがって、その機能を用いて登録単語データを作成して保存することも可能であるが、必ずしも、その機能を用いる必要はない。この機能を実行するには操作部11によって所定のモード設定を行って登録するが、その登録方法などについてはのちに説明する。
【0042】
RAM10にはこの他に、話者#1用として作成された量子化後の入力話者コードブックVQ1、話者#2用として作成された量子化後の入力話者コードブックVQ2、話者#3用として作成された量子化後の入力話者コードブックVQ3が格納されるが、これらの各コードブックについてはのちに説明する。
【0043】
本発明の実施の形態における装置の特徴の一つとして、装置を使用する使用者をある範囲に絞り、その範囲内に属する不特定多数の話者の音声データから作った特定話者群音声モデルデータを作成し、その特定話者群音声モデルデータを用いて装置の使用者の発する音声を認識処理するということが挙げられる。
【0044】
これを実現するために、この実施の形態では、使用者を話者群A(成人男性)、話者群B(成人女性)、話者群C(子供)に分けて、それぞれの話者群に属する不特定多数の話者の音声データから作った第1〜第3の特定話者群音声モデルデータMD1,MD2,MD3を有している。
【0045】
このように、装置を使用する使用者をある範囲に絞って、その範囲に属する不特定多数の話者の音声データから作った標準話者音声モデルデータ(この実施の形態では第1〜第3の特定話者群音声モデルデータMD1,MD2,MD3)を用いることにより、あらゆる話者を想定した不特定話者用の標準話者音声モデルデータを持つ場合に比べて標準話者音声モデルデータの規模を大幅に小さくすることができ、ROM9のメモリサイズを小さくすることができ、また、制御部(CPU)5の処理負担を小さくすることができる。
【0046】
しかも、それぞれの話者群に対応した特定話者群音声モデルデータ(第1〜第3の特定話者群音声モデルデータMD1,MD2,MD3)を用いての音声認識を行うので、あらゆる話者を想定した不特定話者用の標準話者音声モデルデータを用いた場合に比べて高い認識率が得られる。
【0047】
なお、その時点で発話する話者に対してどの特定話者群音声モデルデータを選択するかは、たとえば、操作部11に話者群を指定するためのボタンを用意し、装置の使用者がたとえば子供であれば、話者群Cを指定するためのボタンを操作してから音声の入力を行うようにすることもできる。
【0048】
このように、話者群の指定操作がなされると、制御部5がそれを判断して、対応する特定話者群音声モデルデータを用いて音声認識を行うようにする。たとえば、話者群Cを指定するためのボタンが操作された場合には、制御部5がそれを判断して、特定話者群音声モデルデータMD3を用いて音声認識を行うようにする。
【0049】
また、これとは別に、装置の使用者が話者群の設定操作を行うことなく、入力された音声のピッチ周期情報(音声分析部4が音声分析する際に得られるピッチ周期情報)を基に、制御部5が入力音声の話者群を判定して、その判定結果に基づいて対応する特定話者群音声モデルデータを用いて音声認識を行うようにすることも可能である。
【0050】
図2はこのように話者に応じた音声モデルデータを用いて音声認識処理を行うフローチャートを示すもので、話者の発話した音声の入力を行い(ステップs1)、音声入力があるか否かを判断し(ステップs2)、音声入力があれば、音声分析部4によって、入力音声に対して音声分析を行う(ステップs3)。そして、その分析結果に基づき制御部5によって、その音声がどの話者群に属するかを判定し(ステップs4)、判定された話者群に対応する音声モデルデータを選択して(ステップs5)、音声認識処理を行う(ステップs6)。そして、その認識結果に基づく所定の処理を行う(ステップs7)。この所定の処理というのは、時刻設定やアラーム設定などその装置の行うべき様々な処理である。
【0051】
また、この実施の形態では、ある特定の単語については、その装置を使用する使用者がその特定の単語を発話してその音声データを登録し、この登録データと前述の特定話者群音声モデルデータを用いて話者学習処理を行うことも可能としている。以下、これについて説明する。
【0052】
この話者学習処理を行うために、この実施の形態では、特定の単語として、「おはよう」、「ただいま」、「こんにちは」、「おやすみ」、「何時」、「アラーム」といった前述の単語セットw1に属する単語(これらの単語を登録単語という)を、使用者(話者)に発話してもらい、話者の発話して得られた各登録単語に対する音声データによって登録単語データを作成しそれをRAM10に登録する。このとき、たとえば、その装置を1つの家族で使用するような場合は、その家族(たとえば、父親、母親、その子供)が一人ずつ複数の登録単語について順次発話して得られたそれぞれの音声データによって登録単語データを作成してそれぞれ登録する。
【0053】
具体的には、たとえば、父親(話者#1とする)が発話して得られた各登録単語に対するそれぞれの音声データによって作成された各登録単語対応の登録単語データは、話者#1用の登録単語データRD1として保存され、母親(話者#2とする)が発話して得られた各登録単語に対する音声データによって作成された各登録単語対応の登録単語データは、話者#2用の登録単語データRD2として保存され、子供(話者#3とする)が発話して得られた各登録単語に対するそれぞれの音声データによって作成された各登録単語対応の登録単語データは、話者#3用の登録単語データRD3として保存される。この登録は次のようにして行う。
【0054】
まず、操作部11によって登録単語を登録するためのモード設定を行う。そして、話者#1の指定を行い、話者#1が前述したそれぞれの登録単語を順次発話する。そして、この話者#1が発話して得られた各登録単語に対する音声データによって各登録単語対応の登録単語データRD1を作成する。そして、この登録単語データRD1と特定話者群音声モデルデータ(この場合は、特定話者群音声モデルデータMD1)に基づいて、話者#1に対する写像関数を作成する。
【0055】
続いて、話者#2の指定を行い、話者#2が前述したそれぞれの登録単語を順次発話する。そして、この話者#2が発話して得られた各登録単語に対する音声データによって、各登録単語対応の登録単語データRD2を作成する。そして、この登録単語データRD2と特定話者群音声モデルデータ(この場合は、特定話者群音声モデルデータMD2)に基づいて、話者#2に対する写像関数を作成する。
【0056】
さらに、続いて、話者#3の指定を行い、話者#3が前述したそれぞれの登録単語を順次発話する。そして、この話者#3が発話して得られた各登録単語に対する音声データによって各登録単語対応の登録単語データRD1を作成する。そして、この登録単語データRD3と特定話者群音声モデルデータ(この場合は、特定話者群音声モデルデータMD3)に基づいて、話者#3に対する写像関数を作成する。
【0057】
このようにして、登録すべき話者の音声データの登録が終了する。そして、それぞれの写像関数と第1〜第3の特定話者群コードブックCB1,CB2,CB3(コードブックサイズはそれぞれ256サイズとする)を用いて、話者#1、話者#2、話者#3それぞれの入力話者コードブックを作成する。このようにして入力話者コードブックを作成する方法をコードブックマッピングと呼ぶ。
【0058】
この場合、話者#1は父親、話者#2は母親、話者#3はその子供であるので、父親用の入力話者コードブック、母親用の入力話者コードブック、子供用の入力話者コードブックが作成されることになる。なお、この実施の形態では、さらにこれら入力話者コードブックのデータ量を少なくするために、予め用意されたユニバーサルコードブック94を使用してベクトル量子化を行う。
【0059】
このユニバーサルコードブック94は、大人から子供まで全ての話者を含むような幅広い層の話者から得られたコードブックであり、たとえば、1024あるいは2048といった大きなサイズを有しており、このユニバーサルコードブック94でベクトル量子化し、そのユニバーサルコードブック94のコード番号のみによるコードブック(256サイズ)を作成する。
【0060】
このように、ユニバーサルコードブック94のコード番号のみによるコードブックとすることにより、大幅にデータ量の削減が図れる。
【0061】
ちなみに、装置に使用されるRAM10として32キロバイト程度のRAMを使うとすると、前述の入力話者コードブックでは、1つのコードブックについて、256×10(この10はLPCケプストラム係数の次元数であって、ここでは10次元とした場合である)で、2560個の係数を保存する必要があり、1つの係数をショート型で保存した場合、2バイト×2560の合計約5キロバイトが必要となる。
【0062】
したがって、このコードブックを仮りに4つ作るとなると、それだけで約20キロバイトの容量を必要とすることになり、RAM10の多くを占有してしまい、その他の処理に支障をきたすことになる。
【0063】
これに対処するために、前述したように、ユニバーサルコードブック94でベクトル量子化して、そのユニバーサルコードブック94のコード番号のみによるベクトル量子化された入力話者コードブックを作成する。なお、以下では、このベクトル量子化された入力話者コードブックを量子化コードブックと呼び、話者#1に対応する量子化されたコードブックを量子化コードブックVQ1、話者#2に対応する量子化された入力話者コードブックを量子化コードブックVQ2、話者#3に対応する量子化された入力話者コードブックを量子化コードブックVQ3と呼ぶことにする。
【0064】
これによって、ある一人の話者に対する量子化入力話者コードブック(たとえば、量子化入力話者コードブックVQ1)は、256個のコード番号を保存すればよく、各コード番号をショート型で保存させたばあい、2バイト×256の合計約0.5キロバイトの容量で済むため、コードブックとして必要なメモリ容量は、前述した量子化前の入力話者コードブックに比べて1/10となる。
【0065】
なお、このユニバーサルコードブック94は、前述した各入力話者ごとの登録単語データRD1,RD2,RD3の量子化にも用いることができる。
【0066】
図3はこの実施の形態である音声時計装置の外観構成を示すものである。前述したようにこの実施の形態における音声時計装置は、玩具的な要素の強いものであり、実際には、その外観は人気アニメーションのキャラクタなどが用いられるが、その外観は本発明とは直接関係しないので、ここでは、単純な形状のもので説明を行う。
【0067】
図3において、音声時計装置の筺体50には、図1で示されたマイクロホン1、スピーカ8、装置に対して様々な設定を行ったり、何らかの動作を行うためにその都度操作される各種操作ボタン(詳細は後述する)を有する操作部11が設けられる。
【0068】
この操作部11は、たとえば、電源スイッチSW、話者群指定ボタンBT1,BT2,BT3、話者指定ボタンBT11,BT12,BT13、認識モードか登録モードかを切り替えるモード切替スイッチ(機能については後述する)MSW、装置側からの問いかけに対して話者がボタンの操作で肯定(「はい」)または否定(「いいえ」)の入力が可能な肯定ボタンBT21と否定ボタンBT22(これの具体的な動作例についてはのちに説明する)、音量調節スイッチVSWなどが設けられている。
【0069】
なお、話者群指定ボタンBT1,BT2,BT3は、その装置を使用する使用者の話者群を指定するもので、話者群指定ボタンBT1は話者群として成人男性(話者群A)を指定し、話者群指定ボタンBT2は話者群として成人女性(話者群B)を指定し、話者群指定ボタンBT3は話者群として子供(話者群C)を指定するものである。
【0070】
また、話者指定ボタンBT11,BT12,BT13は、その装置を使用する使用者を話者として指定するもので、ここでは、3人の使用者(話者#1、話者#2、話者#3)を指定できるようになっている。
【0071】
なお、図3で示される操作部11には上述したような各種スイッチや、各種操作ボタンが設けられるが、これは、この実施の形態を説明する上で必要なスイッチ類や操作ボタンをすべて設けた例であるが、これらは全て設ける必要はなく、装置の有する機能などに応じて適宜必要なスイッチや操作ボタンのみを設ければよい。また、電源スイッチswなどのスイッチ類は、操作部11内ではなく、操作ボタン類とは別にして設けるようにしてもよい。
【0072】
また、この図3で示される構成は説明を行う上での一例であって、マイクロホン1やスピーカ8、操作部11の配置、さらには、操作部11内の各種スイッチ類や操作ボタンなどの配置もこれに限られるものではない。
【0073】
ここで、登録モードと認識モードについての説明を行う。この登録モードと認識モードのいずれかのモード設定は、モード切替スイッチMSWによって行う。
【0074】
登録モードは、その装置を使用する各話者(この場合、話者#1,#2,#3)が予め決められた複数の登録単語を発話し、それぞれの音声データから作成した登録単語データを登録単語データRD1,RD2,RD3として登録するとともに、この登録単語データRD1,RD2,RD3を用いて話者学習処理を行い、最終的に話者#1用の量子化コードブックVQ1、話者#2用の量子化コードブックVQ2、話者#3用の量子化コードブックVQ3の作成を行う。
【0075】
登録モードとした場合の具体的な処理について説明する。ここでは、前述したように、父親(話者#1)、母親(話者#2)、その子供(話者#3)がそれぞれの登録単語を発話して得られた登録単語データを登録するものとする。
【0076】
まず、操作部11の話者指定ボタンBT11を操作し、話者#1の登録モードとして、話者#1(父親)が前述した登録単語を順次発話する。これにより、話者#1に対する登録単語の登録データRD1が作成されるとともに、写像関数が作成され、さらに、ユニバーサルコードブック94でベクトル量子化され、そのユニバーサルコードブック94のコード番号による話者#1の量子化入力話者コードブックVQ1が作成される。
【0077】
続いて、操作部11の話者指定ボタンBT12を操作し、話者#2の登録モードとして、話者#2(母親)が前述した登録単語を順次発話する。これにより、話者#2に対する登録単語の登録データRD2が作成されるとともに、写像関数が作成され、さらに、ユニバーサルコードブック94でベクトル量子化され、そのユニバーサルコードブック94のコード番号による話者#2の量子化入力話者コードブックVQ2が作成される。
【0078】
さらに続いて、話者指定ボタンBT13を操作し、話者#3の登録モードとして、話者#3(子供)が前述した登録単語を順次発話する。これにより、話者#3に対する登録単語の登録データRD3が作成されるとともに、写像関数が作成され、さらに、ユニバーサルコードブック94でベクトル量子化され、そのユニバーサルコードブック94のコード番号による話者#3の量子化入力話者コードブックVQ3が作成される。
【0079】
なお、このとき、登録単語データRD1,RD2,RD3もこのユニバーサルコードブック94を用いてベクトル量子化され、以下では、登録単語データRD1,RD2,RD3も量子化されたデータであるとする。
【0080】
次に認識モードについて説明する。この認識モードは、この場合、第1〜第3の特定話者群音声モデルデータMD1,MD2,MD3、話者#1〜話者#3用の登録単語データRD1,RD2,RD3、話者#1〜話者#3用の量子化コードブックVQ1,VQ2,VQ3のいずれかを、状況に応じて用いて音声認識するモードである。
【0081】
たとえば、モード切替スイッチMSWを認識モードとした場合、まず、使用する話者がどの話者群であるかの設定を行う。たとえば、使用する話者がたとえば話者#3(子供)であれば、話者群Cを指定するための話者群指定ボタンBT3を操作してから音声の入力を行う。これにより、制御部5では第3の特定話者群音声モデルデータMD3を用いて音声認識を行う。
【0082】
このように、使用する話者によって話者群の指定操作がなされると、制御部5がそれを判断して、対応する特定話者群音声モデルデータを用いて音声認識を行うことができる。
【0083】
このように、使用者をある特定の話者群に絞り、その話者群に属する話者の音声データから作った特定話者群音声モデルデータを用いて音声認識することにより、あらゆる話者を想定した大規模な標準話者音声モデルデータを用いて音声認識を行う場合に比べて、高い認識率での音声認識が可能となる。また、幾つかの話者群だけの特定話者群音声モデルデータを持てばよいので、音声モデルデータそのものの規模を大幅に小さくすることができ、ROM9のメモリサイズを小さくすることができ、また、制御部(CPU)5にかかる処理負担を小さくすることができる。
【0084】
また、話者がどの話者群であるかの判定は、入力音声を音声分析して得られるピッチ周期情報により装置側で自動的に知ることが可能であり、さらに、入力された音声データと登録単語データとのマッチングをとることにより得られる類似度を用いて話者がどの話者群であるかの判定を行う方法もある。なお、ここでは、ピッチ周期情報のみにより話者群を判定する場合について述べる。
【0085】
つまり、父親、母親、子供の3人の話者で考えたとき、子供のピッチ周期が最も短く、次に母親が短く、父親のピッチ周期はこの3人の中では最も長くなるのが普通であり、そのピッチ周期情報から、その入力話者が話者#1、話者#2、話者#3のうちのどの話者であるかを特定することができる。
【0086】
このようにして、たとえば、入力話者が話者#1であると判定された場合には、その話者#1に対応する登録単語データRD1や、話者学習処理によって作成された量子化入力話者コードブックVQ1を用いて音声認識を行う。つまり、話者#1の発話した単語が登録単語である場合には、話者#1に対応する登録単語データRD1によって音声認識され、それ以外の単語については、量子化入力話者コードブックVQ1を用いて音声認識される。また、登録単語データが作成されてなく、話者学習処理がなされていない場合には、 特定話者群音声モデルデータ92を用いて音声認識する。
【0087】
なお、本発明では、装置と話者の間で行われる会話の手順として、最初に、話者が前述した登録単語のうちいずれかの登録単語を発話するようにしている。つまり、装置側では、最初に、単語セットw1に属する登録単語を認識するような会話手順が設定されている。このように、本発明では、装置側はその時点の動作場面に応じ、現時点ではどの単語セットの単語を入力する場面かを把握している。そして、そのときの場面にて入力された単語の認識処理を行う。
【0088】
したがって、会話の始まりとして、装置に対し、たとえば、話者#1がまず登録単語の一つとしての「アラーム」と発話したとすると、その「アラーム」についての音声分析を行い、それによって得られるピッチ周期情報により装置側では話者の特定を行う。この場合は、入力話者は話者#1であると判定し、入力音声に対し話者#1用の登録単語データRD1を用いて音声認識処理することにより、発話された音声が「アラーム」であったことが認識される。
【0089】
このようにして、入力話者が登録単語を入力することにより、装置側では、その入力話者がどの話者であるかを判定し、その登録単語についての認識を行う。そして、それ以降に入力される音声が登録単語以外の単語(単語セットw1以外の単語)である場合は、話者判定を行うことなく音声認識動作を行う。
【0090】
たとえば、現在の装置側の動作場面が登録単語を認識する場面であって、この場面において登録単語の認識処理が終了したあと、次の場面として、単語セットw2やw3などを(単語セットw2とする)認識する場面に移るというように設定されていたとすれば、その単語セットw2の認識は、話者適応による音声認識処理として、話者#1用の量子化コードブックVQ1と第1の特定話者群コードブックCB1と第1の特定話者群音声モデルデータMD1(単語セットw2に対応する音声モデルデータ)を用いて行いての音声認識処理を行う。
【0091】
図4はこれまで説明した話者学習処理を可能とした音声認識処理の全体的な処理手順を説明するフローチャートである。なお、この図4で示されるフローチャートは、話者をある一人の話者に限定した場合の処理手順を示すものである。
【0092】
図4において、まず、認識モードか登録モードかを判定し(ステップs11)、登録モードである場合には、話者の発話した登録単語に対する音声入力を行い(ステップs12)、音声入力があるか否かを判断し(ステップs13)、音声入力があれば、入力された音声の音声分析を行い(ステップs14)、入力音声データを登録単語データとして登録する(ステップs15)。
【0093】
そして、登録すべき単語についての音声データの入力が終了したか否かを判断し(ステップs16)、終了していれば、入力された音声に対する音声データがどの話者群に属するかを判断し(ステップs17)、前述したような話者学習処理(入力話者コードブックを作成し、最終的には量子化コードブックの作成)を行う(ステップs18)。
【0094】
一方、ステップs11において認識モードであると判定した場合には、話者の発話した音声入力を行い(ステップs19)、音声入力があるか否かを判断し(ステップs20)、音声入力があれば、入力された音声の音声区間を検出して音声分析を行う(ステップs21)。
【0095】
そして、話者学習処理が行われているか否かを判定し(ステップs22)、話者学習処理が行われていなければ不特定話者音声認識(この実施の形態では特定話者群音声モデルデータ92、このときの入力話者に対応して用意された特定話者群音声モデルデータであり、入力話者が話者#1であれば第1の特定話者群音声モデルデータ)よる音声認識処理を行い(ステップs23)、話者学習処理が行われていればステップs24以降の処理を行う。
【0096】
ステップs24では入力された音声に対する音声データが登録単語データであるか否かを判定し、登録単語データである場合には登録型の音声認識処理としてここでは登録単語データ101(このときの入力話者の音声により作成された登録単語データであり、入力話者が話者#1であれば話者#1用の登録単語データRD1)を使用しての音声認識処理を行う(ステップs25)。
【0097】
また、登録単語データでない場合には話者適応型の音声認識処理として、ここでは当該入力話者の音声に基づいて作成された量子化コードブック(入力話者が話者#1であれば話者#1用の量子化コードブックVQ1)と特定話者群コードブック(入力話者が話者#1であれば第1の特定話者群コードブックCB1)と特定話者群音声モデルデータ(入力話者が話者#1であれば第1の特定話者群音声モデルデータMD1)を使用しての音声認識処理を行う(ステップs26)。
【0098】
ところで、この装置の場合、認識可能な単語は、前述したように、単語セットw1,w2,w3というように複数の単語セットからなり、前述したように、装置側では、現在、どの単語セットが入力される場面であるかを把握している。たとえば、単語セットw1(登録単語)を入力する場面が終わって、現在は、単語セットw2(「1時」、「2時」など時の単位)を入力する場面であるというように、現在、どのような場面であるかを把握している。
【0099】
したがって、前述のステップs24において、入力された音声に対する音声データが登録単語データであるか否かの判定は、現在、どのような場面であるかにより、登録単語が入力される場面であれば、入力される単語データは登録単語データであるとして、それに対応した処理を行う。
【0100】
そして、このように音声認識処理が終了するとその認識結果に基づく所定の処理を行う(ステップs27)。
【0101】
なお、図4で示した処理はある特定の一人の話者についての処理であったが、たとえば、前述したように話者#1、話者#2、話者#3というように複数の話者が存在する場合には、図5のフローチャートで示されるように、登録モード時においては、音声入力のステップs1の前段に話者指定(たとえば、話者#1、話者#2、話者#3の指定)を行うステップs28を追加する。したがって、この場合は、登録単語データは、図1に示されるように、話者#1〜#3用の登録単語データRD1,RD2,RD3が作成され、量子化コードブックも話者#1〜#3用の量子化コードブックVQ1,VQ2,VQ3が作成される。
【0102】
一方、認識モード時においては、ステップs21の音声分析処理の後段に、入力話者がたとえば、話者#1、話者#2、話者#3のどの話者であるかを判定する話者判定処理(ステップs29)を追加する。
【0103】
そして、このときの音声認識処理は、登録単語の場合には、話者#1、話者#2、話者#3の音声データを基に作成された話者#1、話者#2、話者#3用の登録単語データRD1,RD2,RD3のいずれかを用いて音声認識し、登録単語でない場合には、話者#1用の量子化コードブックVQ1と第1の特定話者群コードブックCB1と第1の特定話者群音声モデルデータMD1、話者#2用の量子化コードブックVQ2と第2の特定話者群コードブックCB2と第2の特定話者群音声モデルデータMD2、話者#3用の量子化コードブックVQ3と第3の特定話者群コードブックCB3と第3の特定話者群音声モデルデータMD3のいずれかの組を用いて音声認識する。
【0104】
なお、以上説明した認識モードにおける処理は、登録単語を登録した場合の処理であるが、登録単語の登録を行わない状態でも同様に認識処理が可能となる。この場合は、登録単語データRD101が作成されないので、特定話者群音声モデルデータ92を使用しての音声認識となる。
【0105】
次に、アラーム時刻の設定を行う際の装置と話者との会話例を、図6の状態遷移図を参照しながら説明する。なお、図6において、括弧内の発話内容は装置を使用する話者の発話する内容である。まず、装置側からは、「アラーム時刻を、午前、7時、30分というように発話して下さい」というように、発話する内容の一例を挙げて話者に発話を促す(ステップs31)。これにより、話者(ここでは話者#1)が、設定したい時刻として「午前」、「1時」、「20分」と発話したとする(ステップs32)。
【0106】
ここでの発話内容は、「午前」、「1時」、「20分」というように、3つの単語を1つのセットとして、各単語間にわずかな間をおいて連続的な発話がなされる。そして、装置側では、それぞれの単語について連続的に音声認識を行う。その認識結果として、装置側から、「午前、1時、20分ですか? ハイかイイエで答えて下さい」というように応答する(ステップs33)。
【0107】
この認識結果が正しければ、話者#1は「はい」と応答し(ステップs34)、装置側からは、「アラーム時刻を午前1時20分にセットしました」というような発話内容を発する(ステップs35)。一方、認識結果が間違っていれば、話者#1は「いいえ」と応答し(ステップs36)、装置側からは、「それでは順番に聞きます」というような内容の発話を行う(ステップs37)。
【0108】
そして、まず、「午前ですか?」というように「午前」か「午後」かを確かめる内容を発話する(ステップs38)。
【0109】
それに対して、話者#1は、午前でよければ、「はい」と応答し(ステップs39)、間違っていれば(午前でなければ)、「いいえ」と応答する(ステップs40)。この「午前」と「午後」の場合は、二者択一であるので、もし、話者#1側の応答が「いいえ」であった場合には、もう一方の単語で確定することができる。つまり、装置側による最初の問いかけが「午前」であって、話者側が「いいえ」と応答した場合には、「午後」が確定される。
【0110】
なお、「午前」と「午後」の他に、たとえば、「正午」が加わって、「午前」、「午後」、「正午」の3つのうち、いずれかを確定する場合に、たとえば、装置側「午前ですか」、話者側「いいえ」、装置側「午後ですか」、話者側「いいえ」となって、「正午」が確定されることになる。このように、3単語程度であれば、話者側からの「はい」または「いいえ」の応答を2〜3回繰り返すことで、短時間に所望の単語の確定を行うことができる。
【0111】
このようにして、「午前」か「午後」かの確定が行われると、次に、「時」の単位の確定を行う。この場合、話者#1の入力した単語は「1時」である。これに対して、装置側から、たとえば、「1時」に対する認識候補の第1位から第n位までのうち、ステップs41にて第1位候補として「1時ですか」が発話されたとすれば、話者#1は「はい」と応答し(ステップs42)、「1時」が確定し、分の単位の確認処理(ステップs51)に入る。
【0112】
しかし、ステップs41にて装置側から第1位候補として、たとえば、「7時」が出力されたとすれば、話者#1は「いいえ」と応答する(ステップs43)。これにより、装置側から、第2位候補が出力され(ステップs44)、その第2位候補として、たとえば、「8時」が出力されたとすると、それが正しければ、話者#1は「はい」と応答し(ステップs45)、間違っていれば、「いいえ」と応答する(ステップs46)。
【0113】
ここでは、「いいえ」であるので、さらに、装置側からは第3位候補として、たとえば、「1時」が出力されたとする(ステップs47)。それが正しければ、話者#1は「はい」と応答し(ステップs48)、間違っていれば、「いいえ」と応答する(ステップs49)。ここでは、話者#1は「はい」と応答するので、その時点で「1時」が確定し、分の単位の確認処理(ステップs51)に入る。
【0114】
また、もし、第3位候補でも、「いいえ」であった場合には、装置側から話者#1に対して、たとえば、「もう一度、何時か言ってください」というように、再度、「時」の単位の音声入力を促すようにする(ステップs50)。これによって、話者#1は再度、時の単位の発話(この場合「1時」)を行い、ステップ41に戻る。
【0115】
なお、再度、「時」の単位について音声入力を行ってそれを認識するとき、すでに、「いいえ」で否定された単語(前述の場合、「7時」、「8時」など)は、認識候補から外すようにする。
【0116】
また、「分」の単位についても「時」の単位で説明したステップs31〜s50と同様の処理にて行うことができる。そして、最終的に確定したら、装置側からは「アラーム時刻を午前1時20分にセットしました」というような発話がなされる(ステップs35)。
【0117】
このような処理は、アラーム設定だけではなく、現在時刻の設定も同様の処理で行える。
【0118】
なお、前述の処理のなかで第1候補が話者によって否定された場合、装置側からは、第2候補、第3候補、・・・というように認識候補順に発話するのではなく、たとえば、「1時」が否定された場合には、「2時」、「3時」、・・・というように認識候補順とは無関係に時刻を表す数字の順番に従って発話することもできる。
【0119】
このような処理を行うことにより、時刻設定などを行う際、話者は「午前」、「何時」、「何分」を1まとまりの音声として連続的に発話することができ、これにより、時刻設定のための音声入力操作が簡単なものとなる。しかも、これらの一連の音声が正しく音声認識されれば、その時点で時刻設定が終了し、もし、間違っていた場合は、一つ一つの単語ごとに正否を確かめながら、正しく認識されるまで、認識動作が行われるので、最終的には確実に正しい時刻の設定が行え、利便性と確実性の両方を兼ね備えた時刻設定が行える。
【0120】
このような連続した単語を認識する処理は、時刻だけではなく、複数の単語から構成されていてそれぞれの単語間にわずかな間をおいて連続的に発話されるような音声を認識する場合に広く適用できる。
【0121】
図7は、複数の単語として第1番目〜第n番目までのn個の単語から構成され、それぞれの単語間にわずかな間をおいて連続的に発話されるような音声を認識(ここでは連続単語認識という)する際の処理手順を説明するフローチャートである。この図7に示す処理手順について簡単に説明する。なお、ここでは、n個からなる連続単語として、3つの単語(第1番目の単語、第2番目の単語、第3番目の単語という)から構成されているものとする。また、これら第1番目の単語、第2番目の単語、第3番目の単語それぞれの認識を行う際、認識候補は第m位までの認識候補を出力するが、ここでは、mは1から3までの値をとるものとする。
【0122】
図7において、まず、話者の発話した複数の単語からなる連続単語について認識を行う(ステップs61)。そして、認識結果を出力し(ステップs62)、その認識結果に対する話者からの「はい」または「いいえ」の認識を行う(ステップs63)。ここで、話者の応答が「はい」であれば(ステップs64)、その認識結果を連続単語全体として確定し(ステップs65)、その時点で認識処理は終了する。
【0123】
一方、話者の応答が「いいえ」であれば、第1番目の単語の認識処理に入る。この第1番目の単語の認識処理は、まず、第m位候補(ここではm=1)を出力し(ステップs66)、それに対する話者の「はい」または「いいえ」を認識する(ステップs67)。ここで、話者の応答が「はい」であれば(ステップs68)、その第1位候補を第1番目の単語として確定し(ステップs69)、第2番目の単語についての処理に入る(ステップs70)。
【0124】
一方、話者の応答が「いいえ」であれば、mが設定値(この場合は、設定値はm=3)であるか否かを判断する(ステップs71)。ここでは、まだ、設定値でないので、ステップs66に処理が戻り、今度は、m=2として第2位の候補を出力する。
【0125】
そして、それに対する話者の「はい」または「いいえ」を認識する(ステップs67)。ここで、話者の応答が「はい」であれば(ステップs68)、第2位候補を第1番目の単語として確定し(ステップs69)、第2番目の単語についての処理に入る(ステップs70)。また、話者の応答が「いいえ」であれば、ステップs71の判断を行う。
【0126】
このように、話者の応答が「はい」であればその時点における認識候補によって第1番目の単語が確定されるが、話者の応答が「いいえ」であれば、次の認識候補について同様の処理を行う。そして、この場合、第3位の候補でも正しく認識されなかった場合は、その第1番目の単語をもう一度発話してもらうように話者に対して要求する(ステップs72)。そして、話者が、再度、その第1番目の単語を発話した内容について、同様の動作を繰り返す。
【0127】
なお、前述の図6の例で説明したように、話者が再度、第1番目の単語を発話してその音声入力を行い、それを認識するとき、すでに、「いいえ」で否定された単語は、認識候補から外すようにする。
【0128】
このようにして、第1番目の単語についての認識処理が終了すると、次は、第2番目の単語についての認識処理(ステップs70)に入り、この第2番目の単語についての認識処理が終了すると、次は、第3番目の単語についての認識処理(ステップs73)に入る。なお、これら、第2番目と第3番目の単語についての認識処理は、第1番目の単語の認識処理と同様であるので、その説明は省略する。
【0129】
ところで、以上のような音声入力操作を行う際、話者と装置側の音声入力部(マイクロホン)との距離は、認識性能という面から考えると重要な要素となる。そこで、この実施の形態では、話者の音声入力操作の状況に応じて、音声入力部の音声入力ゲイン、つまり、マイクアンプ2の音声入力ゲインを切り替える制御を行う。この制御は、前述した各種処理の制御とともに制御部5で行う。以下、これについて説明する。
【0130】
このマイクアンプ2の音声入力ゲイン(以下では、単にゲインという)制御は、音声入力を行う場面がどのような場面であるかを判断して、その場面に応じてゲインを大きくしたり小さくしたりする制御である。
【0131】
たとえば、装置が動作をなす上で特に高い認識率を要求される音声が入力される場面か、それ以外の音声の入力される場面かを判断して、装置が動作をなす上で特に高い認識率を要求される音声が入力される場面である場合には、それ以外の音声が入力される場面に比べて、音声入力ゲインを小さくするというような制御を行う。
【0132】
具体的には、音声の特徴量が複数の単語間で相互に類似していて誤認識されやすい単語に対する音声が入力される場面、単語登録を行う場面、話者学習を行う場面などが考えられ、このような場面では、音声入力ゲインを小さくするような制御を行う。
【0133】
誤認識されやすい単語に対する音声が入力される場面というのは、この装置の場合、アラーム時刻や現在時刻の設定時において、時刻入力(午前、何時、何分)を行う場面が考えられる。このような時刻設定は、たとえば、「1時」と「7時」などのように、音声の特徴量が類似していて誤認識され易い音声が多く、しかも、時刻設定は正確になされることが要求される。
【0134】
したがって、このような音声入力を行う際は、マイクアンプ2のゲインを小さくして、話者にマイクに近づいて発話してもらう。
【0135】
一方、装置に対して呼びかけを行ったりする場面では、ゲインを大きくして、話者が装置から離れたところから音声の入力を可能とする。これは、装置に対して少し距離を置いた状態で、装置との会話を行うような場合に便利なものとするためである。
【0136】
このゲインを大きくする場面は、たとえば、「おはよう」、「ただいま」、「おやすみ」、「何時」、「アラーム」といった登録されている単語(単語セットw1に属する単語)などを入力するような場面であり、このような場面において入力されるこの種の単語は、前述の時刻情報(単語セットw2やw1)に比べると、同じ単語セットw1に属する他の単語間で誤認識されにくく、認識対象単語数も、この場合、数単語であるためそれほど多くはない。また、装置に対して気軽に呼びかけるような内容であることから、ゲインを高くして装置から離れた位置からでも入力できる法が好ましいものとなる。
【0137】
このように、どのような単語が入力される場面であるかによって、それに適した音声入力ゲインを設定する。
【0138】
前述したように、誤認識されやすい単語に対する音声が入力される場面、単語登録を行う場面、話者学習を行う場面などでは、マイクアンプ2のゲインを小さくし、話者にマイクロホン1の近くで発話させることによって、話者の口元とマイクロホン1の距離は、話者によってあまり大きくは変化しないで、ほぼ同じような距離となることが多い。これにより、S/N比がよくなるとともに、ダイナミックレンジが小さくなり、この状況での発話内容は高い認識率で認識される。
【0139】
このように、音声入力を行うときの状況によって、マイクアンプ2のゲインを制御し、それに応じた音声入力を行うようにするために、装置側から何らかの通知を行う。その通知内容としては、たとえば、「もう少しマイクロホンに近づいて話して下さい」とか「もう少し大きな声で話して下さい」、あるいは、「もう少し小さな声で話して下さい」といった内容であり、これらの内容を装置側から出力するようにする。
【0140】
制御部5は、現在の音声入力がどのような状況での音声入力であるか(たとえば、話者が単に装置に呼びかけを行っているのか、登録単語を入力しているのか、時刻設定を行っているのかなど)を把握することができるので、それに応じて、マイクアンプ2のゲインを切り替え制御するとともに、話者に対してマイクアンプ2のゲインに応じた発話を行わせるような内容を出力することが可能となる。
【0141】
たとえば、誤認識されやすい単語に対する音声が入力される場面、単語登録を行う場面、話者学習を行う場面などでは、マイクアンプ2のゲインを小さくするとともに、装置側から、「もう少しマイクロホンに近づいて話して下さい」といった内容を出力する。これにより、話者は自然にマイクロホンに近づいて発話するようになり、これによってS/N比が良くなるとともに、ダイナミックレンジが小さくなるので、認識性能を高めることができる。
【0142】
図8は以上説明した話者の音声入力操作の状況に応じてマイクアンプ2のゲインを切り替える制御を行う例を説明するフローチャートであり、ここでは、前述の図4の処理を行う際にゲインを切り替える例について説明する。
【0143】
図8において、認識モードであるか登録モードであるかの判定を行う(ステップs81)。この判定において、登録モードである場合、マイクアンプ2のゲインを小さくするようにゲイン切り替えを行い(ステップs82)、切り替えられたゲインによって音声入力を行う(ステップs83)。この音声入力を行うステップs83から話者学習処理までのステップs89は、図4の音声入力を行うステップs12から話者学習処理までのステップs18と同じであるので、ここではその説明は省略する。
【0144】
一方、認識モードである場合には、場面に応じてマイクアンプ2のゲインを切り替える。その切り替えは、音声入力を行う場面がゲインを大きくする場面であるか否かを判定し(ステップs90)、ゲインを大きくする場面であれば、マイクアンプ2のゲインを大きくするようにゲイン切り替えを行い(ステップs91)、ゲインを小さくする場面であれば、マイクアンプ2のゲインを小さくするようにゲイン切り替えを行う(ステップs92)。
【0145】
なお、ステップs90におけるゲインを大きくする場面というのは、前述したように、呼びかけを行うような音声入力を行う場面であり、これに対して、ゲインを小さくする場面というのは、登録単語を入力する際や、アラーム時刻や現在時刻の設定時において、時刻入力(午前、何時、何分)を行うような誤認識される可能性が高かったり、特に高い認識率を得ようとする場合などである。
【0146】
そして、このように、そのときの場面に応じてゲインの設定を行って音声入力を行う(ステップs93)。この音声入力(ステップs93)から所定の処理(ステップs101)までは、図4の音声入力(ステップs19)から所定の処理(ステップ27)までと同じであるので、ここではその説明は省略する。
【0147】
また、このような音声によるコマンドを装置が受け付けて、そのコマンドに応じた動作を行うものにあって、個々の話者の声質や話し方の特徴によって良好に認識される話者と認識率が低い話者が存在することが多い。
【0148】
このように、特に認識率の悪い話者のために、装置側からは質問形式の発話内容を出力し、話者はそれを聞いて、肯定する場合は肯定を意味するボタンを操作し、否定する場合は否定を意味するボタンを操作することにより、「はい」または「いいえ」を認識させるのと同等の動作を行うことを可能とする。
【0149】
すなわち、話者が装置に対して設定したい情報(設定情報という)に対し、装置側から質問形式でその設定情報としての候補を1つ1つ順番に出力し、1つの候補が出力される都度、出力された候補について肯定を意味するボタンまたは否定を意味するボタンのいずれかのボタン入力を受け付け、肯定を意味するボタン入力を受け付けたときは、当該候補を前記設定情報として確定し、否定を意味するボタン入力を受け付けたときは、次の候補を出力する。
【0150】
このボタン操作による肯定または否定の入力を可能とするのは、認識率の悪い話者に対しての助けとするためであり、これをここではヘルプモードという。以下、このヘルプモードについて説明する。
【0151】
装置側の操作部11には、肯定を意味する肯定ボタンBT21と否定を意味する否定ボタンBT22を設ける。つまり、話者によって肯定ボタンBT21が押されると、制御部5では肯定であると判断し、否定ボタンBT22が押されると制御部5では否定であると判断する。
【0152】
そして、ヘルプモードとするには、これまで説明してきた通常の認識モードにおいて、たとえば、肯定ボタンBT21と否定ボタンBT22が同時に数秒(2秒程度)以上押されることにより、制御部5がそれを検出してヘルプモードの設定がなされたと判定し、ヘルプモードへの移行を行う。なお、このヘルプモードへの移行は、肯定ボタンBT21と否定ボタンBT22が同時に数秒以上押されるという条件に限られるものではなく、他の方法でもよい。
【0153】
このようにして、ヘルプモードに入ると、装置側では音声認識動作は行わず、話者によって、肯定ボタンBT21か否定ボタンBT22のいずれかが押されたことを検知して、それに応じて処理を進行して行く。
【0154】
図9はこのヘルプモードを備えた場合の認識処理を説明するフローチャートである。図9において、M1は通常の認識モード時における処理手順、M2はヘルプモード時における処理手順であり、通常の認識モードM1からヘルプモードM2への移行は肯定ボタンBT21と否定ボタンBT22が同時に数秒(2秒程度)以上押されるボタン割り込み(ステップs110)によって移行する。なお、この図9に示される通常の認識モードM1における音声入力(ステップs121)から所定の処理(ステップs127)まで処理は、図2で示したステップs1〜s7までの処理と同様であるのでここではその説明は省略する。
【0155】
今、通常の認識モードにより認識を行っているとし、この通常の認識モードにおいて、肯定ボタンBT21と否定ボタンBT22による割り込みが発生したとする(ステップs110)。
【0156】
これにより、ヘルプモードの設定がなされたか否かを判断し(ステップs111)、ヘルプモードの設定であれば、ヘルプモードであることを話者に通知する(ステップs112)。なお、ステップs112によるヘルプモードの設定か否かは、ここでは、肯定ボタンBT21と否定ボタンBT22が同時に数秒(2秒程度)以上押されたか否かによって判断する。
【0157】
このようにして、ヘルプモードM2への移行がなされると、肯定ボタンBT21または否定ボタンBT22の入力待ち状態となり(ステップs113)、肯定ボタンBT21または否定ボタンBT22のいずれかが押されたか否かを判断し(ステップs114)、押されたボタンが肯定ボタンBT21または否定ボタンBT22のいずれかであるか、あるいは、押された状態がどの程度継続しているかなどの判断を行い(ステップs115)、それに対する所定の処理を行う(ステップs116)。
【0158】
たとえば、話者が装置に対して設定したい情報としての候補を、それでよいかどうかを話者に問いかける質問形式で装置側から1つ1つ出力し、1つの候補が出力される都度、出力された候補について肯定ボタンBT21または否定ボタンBT22のいずれかのボタン入力を受け付け、肯定ボタンBT21の入力を受け付けたときは、当該候補を前記設定情報として確定し、否定ボタンBT22の入力を受け付けたときは、次の候補を出力する。なお、この具体的な処理内容についてはのちに説明する。
【0159】
そして、ヘルプモードが終了かどうかを判断し(ステップs117)、終了していなければステップs113に戻り、終了していれば、通常の認識モードM1に戻る。
【0160】
以下に具体的な操作例について図10の状態遷移図を参照しながら説明する。なお、図10において、括弧内の操作は話者の行う操作である。
【0161】
装置側からは、まず、「ヘルプモードとなりました」というように、ヘルプモードとなったことを話者に知らせる(ステップs131)。つづいて、装置側からは、「現在時刻の設定ですか」というように、話者が装置に対して設定したい情報を発話する(ステップs132)。この発話内容を話者が肯定する場合は、肯定ボタンBT21を押し(ステップs133)、それによって、現在時刻設定モードに入る(ステップs134)。
【0162】
また、現在時刻設定でなければ、否定ボタンBT22を押す(ステップs135)。これにより、装置側からは、「アラーム時刻の設定ですか」というような内容を発話する(ステップs136)。この発話内容を話者が肯定する場合は、肯定ボタンBT21を押し(ステップs137)、それによって、アラーム時刻設定モードに入る(ステップs138)。また、アラーム時刻設定でなければ、否定ボタンBT22を押す(ステップs139)。
【0163】
このように、装置側からの1つ1つの質問について、話者は「はい」または「いいえ」と応答する代わりに、肯定ボタンBT21または否定ボタンBT22を押す。これにより、装置側では、そのボタン操作に応じて処理を進めて行く。質問内容は、以上の2つだけではなく、その他にも、たとえば、「登録単語入力を行いますか」などがあるが、この図10ではこれらの処理についての図示は省略されている。
【0164】
また、肯定ボタンBT21と否定ボタンBT22を誤って操作したときは、肯定ボタンBT21と否定ボタンBT22を瞬間的に同時操作することによって、1つ前の質問に戻れるようにする。
【0165】
前述した現在時刻設定モード(ステップs134)について簡単に説明する。肯定ボタンBT21または否定ボタンBT22を用いての現在時刻設定は、まず、装置側から、「午前」か否かを質問する。これに対して、話者が肯定ボタンBT21を押せば午前が確定し、否定ボタンBT22を押せば「午後」が確定する。
【0166】
午前または午後が確定した後は、装置側からは、まず、「1時ですか」と質問し、話者の設定したい時刻の時間の単位が「1時」であれば、肯定ボタンBT21を押し、これにより、1時が確定する。また、1時でなければ否定ボタンBT22を押す。これにより、装置側から「2時ですか」と質問し、話者の設定したい時刻の時間の単位が「2時」であれば、肯定ボタンBT21を押し、これにより、2時が確定する。また、2時でなければ否定ボタンBT22を押す。
【0167】
このような手順は時間の単位が確定するまで行われる。そして、時間の単位が確定すると、次に、分の単位の処理に入る。
【0168】
分の単位の動作も基本的には、前述した時の単位の動作と同じであるのでここではその説明は省略する。ただし、分の単位は、1分から始まって1分刻みに59分まですべて発話するのは操作が面倒であるし、多くの時間がかかる。特に、話者の設定したい分単位に時刻が分台の終わりの方(たとえば、59分)であると、多くの時間がかかる。
【0169】
そこで、分の単位の設定モード時おいては、否定ボタンBT22が押され続けた場合には、装置側からは、たとえば、「10分」、(1秒おいて)、「20分」、(1秒おいて)、「30分」、・・・というように、1秒ごとに、10分単位で音声出力し、装置側から「50分」と発話したところで、話者が否定ボタンBT22の操作をやめると50分を基点に、通常の動作に戻り、装置側が「51分」と発話すると、否定ボタンBT22を押して、次に「52分」と発話すると、否定ボタンBT22を押すという動作を行って、「59分」で肯定ボタンBT21を押して、59分を設定するというような設定方法としてもよい。
【0170】
以上のように、時刻設定は、設定に多くの時間を要する場合もあり、少しでも設定に要する時間を短縮するために、装置側から音声の出力中にも肯定ボタンBT21、否定ボタンBT22の入力を受け付けるようにする。その他、使い勝手をよくするために、肯定ボタンBT21、否定ボタンBT22の押し方(連続押し、同時押しなど)でそれに対応した機能をなすような設定としておき、装置側から、音声による使い方の説明などを行うようにすることもできる。
【0171】
このように、話者が装置に対して設定したい情報(設定情報)を発話したときその設定情報が装置側で正しく認識されない場合には、ヘルプモードの設定を可能とすることによって、装置側から質問形式で前記設定情報としての候補を1つ1つ順番に出力し、1つの候補が出力される都度、肯定ボタンBT21の入力を受け付けたときは、当該候補を前記設定情報として確定し、否定ボタンBT22の入力を受け付けたときは、次の候補を出力することで、話者が装置に対して設定したい情報をボタン操作で設定することができる。
【0172】
これにより、個々の話者の声質や話し方の特徴によって良好に認識されない場合でも、時刻設定などある程度の情報設定は十分可能となる。また、話すことが不自由な人でも時刻設定などを容易に行うことができる。
【0173】
ところで、これまで説明したこの実施の形態における音声時計装置は、現在時刻が話者の設定したアラーム時刻になったとき、話者が鳴り止めを行うまで、装置側からは現在時刻を出力し続けるようにする。たとえば、設定されたアラームが、午前1時20分であるとし、その時刻に到達すると、装置側からは、「午前1時20分です」と発話し、その1分経過後に、「午前1時21分です」と発話し、さらに、1分経過後に、「午前1時22分です」というように、1分刻みで現在時刻を発話する。これを話者が鳴り止め操作を行うまで続ける。なお、1分刻みでなくてもよく、たとえば10秒ごとに現在時刻を発話するようにしてもよい。
【0174】
さらに、このアラームを発するとき、時刻だけではなく「早くおきなさい」といった言葉や、言葉と音楽を合成して出力することも可能である。
【0175】
また、話者からの鳴り止め操作としては、装置から前述したような時刻の発話があったあと、話者が何らかの音声を発することにより行う方法や、ボタンを操作する方法などがある。
【0176】
話者が何らかの音声を発することにより鳴り止めさせるには、話者の入力した音声のレベルが一定以上あり、しかも、その一定以上のレベルが一定の長さの場合に鳴り止めとする。なお、このときは、音声認識は行わない。また、これとは別に、話者が予め決めたある特定の単語を発話し、それを装置側で認識した場合にのみ鳴り止めとするということもできる。また、音声を入力する代わりにボタン操作で鳴り止めを行う際は、専用のボタンを設けることも可能であるが、前述した肯定ボタンBT21や否定ボタンBT22で代用することもできる。
【0177】
さらに、音量調節スイッチVSWが設けられている場合には、その音量調節スイッチVSWをオフとすることによって鳴り止めとすることもできる。
【0178】
この音量調節スイッチVSWは、装置側からの出力音声の音量を調整するスイッチであり、操作部11によってこの音量調節スイッチVSWを調節することにより音声出力用アンプ7が制御され、出力音声の大きさを設定できる。この音量調節の具体例としては、たとえば、出力音声を「大」、「中」、「小」というように切替設定することが可能であり、さらに、音声の全く出ない状態とする「オフ」とすることもできるようになっている。
【0179】
このような音声認識機能を有した装置を家庭内で使用する場合、テレビジョンから発せられる音声、家庭内の人間の会話などにより、音声時計がいちいち反応して、不用意に音声を発するのを防止する役目を果たしている。なお、音量調節スイッチVSWをオフした場合、消費電力を少なくするために、アンプなど周辺回路への電源供給を停止して、制御部(CPU)5をスリープ状態とする。そして、音量調節スイッチVSWがオンとなると、CPU割り込みでCPUを動作させ、周辺回路への電力供給を行う。
【0180】
さらに、本発明の実施の形態では、話者の入力する音声に対する応答内容は、複数用意し、それをランダムに変えて出力することも可能としている。これは、ユーザを飽きさせないための配慮であり、たとえば、、話者が「おはよう」と入力したときの装置側からの応答内容を複数用意しておき、「おはよう」に対する複数の応答内容のなかからランダムに応答内容を選択して出力するようにする。
【0181】
これにより、ユーザはその装置を長期間使用していても飽きることが少なくなる。
【0182】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。
【0183】
その1つとして、認識可能な複数の単語のうち、幾つかの単語を登録単語として選び、それぞれの登録単語を認識対象話者が発話し、その音声データから各登録単語ごとの登録単語データを作成して保存し、前記認識対象話者から当該登録単語が発話された場合には、当該登録単語データを用いて音声認識し、それ以外の認識可能な単語が発話された場合には、前記標準話者音声モデルデータを用いて音声認識する処理を実現する際、前述の実施の形態では、図1に示すように、前記認識対象話者を、年齢や性別などに基づいて予め設定した範囲に絞り込み、当該範囲に属する不特定多数話者の音声データから特定話者群音声モデルデータ92(第1〜第3の特定話者群音声モデルデータMD1,MC2,MD3からなっている)を作成して、それを前記標準話者音声モデルデータとして保存した場合の例で説明したが、これに限られることなく、図11に示すように、従来から用いられているあらゆる範囲の話者に対応できる標準話者音声モデルデータそのものを用いた場合にも適用できる。
【0184】
この図11の例で示される標準話者音声モデルデータ95は、前述したように、特定話者群に対応した音声モデルデータではなく、あらゆる範囲の話者に対応できる標準話者音声モデルデータである。これに伴い、図1で示された第1〜第3の特定話者群コードブックCB1,CB2,CB3も、この場合は、標準話者音声モデルデータ95に基づいて作成された標準話者コードブック96となる。
【0185】
その他の処理手順については図1の場合と同じであるので、ここではその説明は省略する。
【0186】
このような構成であっても、本発明が行おうとする基本的な処理は可能となる。すなわち、認識可能な複数の単語のうち、幾つかの単語を登録単語として選び、それぞれの登録単語を認識対象話者が発話し、その音声データから各登録単語ごとの登録単語データRD1,RD2,RD3を作成してRAM10に保存し、前記認識対象話者から当該登録単語が発話された場合には、当該登録単語データRD1,RD2,RD3を用いて音声認識し、それ以外の認識可能な単語が発話された場合には、前記標準話者音声モデルデータ95を用いて音声認識する。
【0187】
また、前述の実施の形態で示した音声時計は、前述の実施の形態で説明したような様々な機能を有したものとすることも勿論可能であるが、これらの機能は、すべて必要なものではない。したがって、操作部11に設けられる各種のスイッチや操作用のボタンなども、その機能を働かせるに必要なボタンのみを設ければよい。また、前述の実施の形態で説明した各種処理内容は、実施の形態で説明された内容に限られるものではない。たとえば、話者学習処理としては、前述の実施の形態では、ユニバーサルコードブック94を用いて量子化コードブックVQ1,VQ2,VQ3を作成し、認識時にはこの量子化コードブックを用いて話者適応するようにしたが、これに限らず、登録単語データRD1,RD2,RD3と第1〜第3の特定話者群者音声モデルデータMD1,MD2.MD3から作成した写像関数を用いて話者適応することもでき、また、この写像関数と第1〜第3の特定話者群コードブックCB1,CB2,CB3により作成された入力話者コードブック(ユニバーサルコードブック94を用いてベクトル量子化する前のコードブック)を用いて話者適応することも可能である。
【0188】
さらに、前述の実施の形態では、複数の話者群に属する話者(話者#1、#2、#3)が1つの装置を使用することを想定した例であるため、特定話者群音声モデルデータもそれに対応して第1〜第3の特定話者群音声モデルデータMD1,MD2.MD3を設けたが、装置の種類によっては、使用者をある1つの話者群に属する話者(たとえば子供)のみを対象とできる場合もあり、このような場合には、特定話者群音声モデルデータもそれに対応して1つの特定話者群音声モデルデータのみを持てばよく、これによれば、ROM9の容量をより一層小さくすることができ、制御部5の処理能力も小さいもので済み、その他、RAM10の容量も小さいもの出よく、装置全体のコストを大幅に小さく押さえることが可能となる。
【0189】
さらに、前述の実施に形態では、各種のモード設定などを操作部に設けられた各種ボタンによって行う例を示したが、ボタンは全く設けずに、全て音声によって設定可能とすることもできる。
【0190】
また、以上説明した本発明の処理を行う処理プログラムは、フロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその記録媒体をも含むものである。また、ネットワークから処理プログラムを得るようにしてもよい。
【0191】
【発明の効果】
以上説明したように本発明は、装置に対してその時点でどのような種類の音声が入力される場面であるかによって、音声入力部の音声入力ゲインを切り替えるようにしたので、そのときの場面に応じた適切な音声入力ゲインでの音声入力が可能となる。
【0192】
ここでいうその時点の場面とは、装置が動作をなす上で特に高い認識率を要求される音声が入力される場面か、それ以外の音声の入力される場面かであって、前記装置が動作をなす上で特に高い認識率を要求される音声が入力される場面とは、具体的には、音声の特徴量が複数の単語間で相互に類似していて誤認識されやすい単語に対する音声が入力される場面、単語登録を行う場面、話者学習を行う場面の少なくとも1つであり、このような場面である場合には、音声入力ゲインを小さくするようにしている。
【0193】
このように、誤認識されやすい単語に対する音声が入力される場面や、単語登録を行う際の登録すべき単語に対する音声が入力される場面、さらには、話者学習を行う場面においては、音声入力ゲインを小さくすることで、S/N比を良くすることができ、高い認識率を得ることができる。
【0194】
これに対して、それ以外の音声が入力される場面として、たとえば、誤認識される可能性の低い音声が入力される場面では、音声入力ゲインをある程度大きくしておくことにより、装置から離れた位置からでも音声入力が可能となる。具体例として、装置に対しての呼びかけを行うような音声の場合には、遠いところから音声入力が行えた方が使い勝手という面から好ましいものとなるので、音声入力ゲインはある程度大きくしておいた方がよい結果が得られる。
【0195】
これらの点を考慮して、音声入力の状況に基づいて音声入力部の音声入力ゲインを切り替えることで、認識性能と使い勝手の両方を兼ね備えたものとすることができる。
【0196】
そして、音声入力ゲインを小さくする場合には、装置側から話者に対して通知するようにし、その内容としては、たとえば、装置側から、「もう少し大きな声で発話して下さい」といった内容や「マイクに近づいて発話して下さい」というような内容である。これにより話者の発話する音声が適切な状態で入力され、認識率の向上につながる。特に、話者の口元がマイクロホンに近づくことにより、話者の口元とマイクロホンとの間の距離が話者間でバラツキが少なくなり、ダイナミックレンジが小さくなって認識率のより一層の向上が期待できる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の実施の形態を説明するブロック図。
【図2】話者に対応した音声モデルデータ(特定話者群音声モデルデータ)を用いて音声認識処理を行う例を説明するフローチャート。
【図3】本発明の実施の形態である音声時計装置の外観を概略的に示す図。
【図4】話者学習処理を可能とした音声認識処理の全体的な処理手順を説明するフローチャートであり、特定の一人の話者に対する処理手順を説明するフローチャートである。
【図5】話者学習処理を可能とした音声認識処理の全体的な処理手順を説明するフローチャートであり、複数の話者に対する処理手順を説明するフローチャートである。
【図6】本発明の実施の形態における連続した3単語(「午前」、「1時」、「20分」)の認識処理を説明する状態遷移図。
【図7】図7で示した3単語の認識処理を一般的な連続単語認識処理として適用する場合の処理手順を説明するフローチャート。
【図8】話者の音声入力操作の状況に応じてマイクアンプのゲイン切り替えを含む処理手順を説明するフローチャート。
【図9】ヘルプモードを備えた音声認識処理手順を説明するフローチャート。
【図10】音声認識処理について本発明の実施の形態におけるヘルプモード(肯定ボタンと否定ボタンによる「はい」または「いいえ」の入力モード)を説明する状態遷移図。
【図11】本発明の音声認識装置の他の実施の形態の構成を説明するブロック図である。
【符号の説明】
1 マイクロホン
2 音声入力用アンプ(マイクアンプ)
3 A/D変換部
4 音声分析部
5 制御部(CPU)
6 D/A変換部
7 音声出力用アンプ
8 スピーカ
9 ROM
10 RAM
11 操作部
12 計時手段
91 出力音声データ
92 特定話者群者音声モデルデータ
93 特定話者群コードブック
94 ユニバーサルコードブック
95 標準話者音声モデルデータ
93 標準話者コードブック
101 登録単語データ
MD1,MD2,MD3 第1〜第3の特定話者群音声モデルデータ
CB1,CB2,CB3 第1〜第3の特定話者群コードブック
RD1,RD2,RD3 話者#1〜話者#3用の登録単語データ
VQ1,VQ2,VQ3 話者#1〜話者#3用の量子化コードブック
Claims (4)
- 登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置であって、
前記モード切替スイッチによって登録モードに切り替えられた場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記通知は、発話の仕方や前記音声入力部に対する音声入力の仕方についての通知であることを特徴とする音声認識装置。 - 登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置における音声入力ゲイン設定方法であって、
前記モード切替スイッチによって登録モードに切り替えられた場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知することを特徴とする音声入力ゲイン設定方法。 - 登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置における音声入力ゲイン設定処理プログラムを記録した記憶媒体であって、
前記モード切替スイッチによって登録モードと認識モードとのうちいずれのモードに切り替えられているかを判断する手順と、
前記モード切替スイッチによって登録モードに切り替えられていると判断した場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知する手順とを含む音声入力ゲイン設定処理プログラムを記録した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25442198A JP3695168B2 (ja) | 1998-09-08 | 1998-09-08 | 音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25442198A JP3695168B2 (ja) | 1998-09-08 | 1998-09-08 | 音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000089798A JP2000089798A (ja) | 2000-03-31 |
JP3695168B2 true JP3695168B2 (ja) | 2005-09-14 |
Family
ID=17264754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25442198A Expired - Fee Related JP3695168B2 (ja) | 1998-09-08 | 1998-09-08 | 音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3695168B2 (ja) |
-
1998
- 1998-09-08 JP JP25442198A patent/JP3695168B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000089798A (ja) | 2000-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3000999B1 (ja) | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 | |
US10943606B2 (en) | Context-based detection of end-point of utterance | |
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
CN105765650B (zh) | 带有多向解码的语音辨识器 | |
US20210295833A1 (en) | Device-directed utterance detection | |
US9443527B1 (en) | Speech recognition capability generation and control | |
US5960393A (en) | User selectable multiple threshold criteria for voice recognition | |
JP2019117623A (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
JPH0962293A (ja) | 音声認識対話装置および音声認識対話処理方法 | |
US10652286B1 (en) | Constraint based communication sessions | |
CN113168832A (zh) | 交替响应生成 | |
CN115428066A (zh) | 合成语音处理 | |
US10629199B1 (en) | Architectures and topologies for vehicle-based, voice-controlled devices | |
WO2023109129A1 (zh) | 语音数据的处理方法及装置 | |
CN109166572A (zh) | 机器人阅读的方法和阅读机器人 | |
JP2000089780A (ja) | 音声認識方法および音声認識装置 | |
JP3001000B1 (ja) | 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体 | |
JP3695168B2 (ja) | 音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体 | |
JP3050232B2 (ja) | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 | |
KR20050015585A (ko) | 향상된 음성인식 장치 및 방법 | |
JP3045169B2 (ja) | 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体 | |
JP2000020089A (ja) | 音声認識方法及びその装置、並びに音声制御システム | |
JP2000089790A (ja) | 音声認識装置における話者入力情報設定方法および音声認識装置における話者入力情報設定処理プログラムを記録した記録媒体 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP2003058184A (ja) | 機器制御システム、音声認識装置及び方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050620 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080708 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090708 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100708 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110708 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110708 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120708 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120708 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130708 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |