JP2000089781A

JP2000089781A - 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体

Info

Publication number: JP2000089781A
Application number: JP10254419A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢; Mitsuhiro Inazumi; 満広稲積; Hiroshi Hasegawa; 浩長谷川; Masahisa Ikejiri; 昌久池尻
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1998-09-08
Filing date: 1998-09-08
Publication date: 2000-03-31
Anticipated expiration: 2018-09-08
Also published as: US6446039B1; JP3000999B1

Abstract

(57)【要約】【課題】メモリ容量やＣＰＵの処理能力に大きな制約
のあるなかで、高い認識性能を得るようにする。【解決手段】認識可能な複数の単語のうち、幾つかの
単語を登録単語として選び、それぞれの登録単語を認識
対象話者が発話し、その音声データから各登録単語ごと
の登録単語データ１０１を作成してＲＡＭ１０に保存
し、前記認識対象話者から当該登録単語が発話された場
合には、当該登録単語データ１０１を用いて音声認識
し、それ以外の認識可能な単語が発話された場合には、
特定話者群音声モデルデータ９２を用いて音声認識す
る。さらに、前記登録単語データと前記特定話者群音声
モデルデータとを用いて話者学習処理を行い、前記登録
単語以外の認識可能単語を認識する際は、話者学習後の
データを用い話者適応して音声認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、認識可能な単語の
うち特定の単語については話者が登録可能として話者適
応処理を可能とすることで認識性能の向上を図った音声
認識方法および音声認識装置並びに音声認識処理プログ
ラムを記録した記録媒体に関する。

【０００２】

【従来の技術】近年、音声認識技術を利用した電子機器
が様々な分野で用いられ、その一つとして、音声時計と
呼ばれる時計がある。この音声時計は、音声によって現
在時刻の設定やアラーム時刻の設定が可能であり、ま
た、装置側からは現在時刻を音声によって知らせること
ができるようになっている。

【０００３】このような音声時計は、実用品としてだけ
ではなく、子供向けの玩具として用いられることも多
く、装置自体のコストをできるだけ低く押さえることが
望まれる。このため、使用するＣＰＵの処理能力やメモ
リの容量などには大きな制約があり、その制約のもとで
如何に高性能な機能を持たせるかが重要な課題の一つと
なっている。

【０００４】従来、この種の音声認識を用いた装置は、
不特定話者を対象とした音声認識を可能とするものも多
いが、この不特定話者を対象とした音声認識を可能とす
るには、規模の大きい標準話者音声モデルデータが必要
となり、大容量のＲＯＭを必要としたり、処理能力の高
いＣＰＵが必要となって、結局はコストの高いものとな
ってしまうのが実情であった。

【０００５】また、不特定話者を対象とするといって
も、装置の種類によっては、実際に使用する年代や男女
の性別などは、ある程度は限られたものとなることも多
く、結果的には、ある範囲に限られた標準話者モデルデ
ータがあれば済むということにもなる。このため、規模
の大きな標準話者音声モデルデータを持っていても無駄
が多く、また、広い範囲の不特定話者に対応できるとい
うことは、逆に言えば、それぞれの範囲の話者に対して
平均的に対応できるということでもあり、認識率の面で
も問題があった。

【０００６】これに対応するものとして、あらかじめ用
意された複数の認識可能単語について不特定話者認識を
可能とするとともに、特定話者に対してはその特定話者
の音声を登録して登録型の音声認識を可能とする機能を
有する比較的安価な音声認識用ＬＳ１も存在する。

【０００７】このような音声認識用ＬＳＩは、確かに、
不特定話者の音声に対しても予め用意された単語につい
ては認識を可能とし、しかも、ある特定の話者に対して
はその特定話者の音声データを登録することができるの
で、幅広い話者に対しての高性能な音声認識が実現可能
となると思われる。

【０００８】

【発明が解決しようとする課題】しかし、このような従
来の音声認識用のＬＳＩは、登録された特定話者に対す
る音声認識は、高い認識率での認識が可能となるが、不
特定話者に対する音声認識は、話者の男女の性別や年齢
が幅広いと、認識率は大きく低下するのが一般的であ
る。

【０００９】また、不特定話者に対しての認識率を向上
させるために、話者に数１０単語程度を発話してもら
い、その音声データに基づいて話者適応を行う機能を有
するものもある。

【００１０】しかし、この話者適応機能は、一般には、
大容量のメモリや処理能力の高いＣＰＵを有した装置に
適用されることが多く、玩具や、日用品などのように、
低価格が強く要求され、メモリの容量やＣＰＵの処理能
力に大きな制約のある装置への適用は困難な場合が多
い。

【００１１】そこで本発明は、特定の単語についてはそ
の装置を使用する話者がその特定の単語を発話して得ら
れた音声データを登録するとともに、この登録データと
前記標準話者音声モデルデータを用いて話者適応を行う
ことで、装置を使用する話者（認識対象話者）に対する
音声認識率を大幅に向上させることを目的としている。

【００１２】

【課題を解決するための手段】前述した目的を達成する
ために、本発明の音声認識方法は、不特定複数話者の音
声データから作成された標準話者音声モデルデータを有
し、予め定められた複数の単語を認識可能とする音声認
識方法において、前記認識可能な複数の単語のうち、幾
つかの単語を登録単語として選び、それぞれの登録単語
を認識対象話者が発話し、その音声データから各登録単
語ごとの登録単語データを作成して保存し、前記認識対
象話者から当該登録単語が発話された場合には、当該登
録単語データを用いて音声認識し、それ以外の認識可能
な単語が発話された場合には、前記標準話者音声モデル
データを用いて音声認識するようにしている。

【００１３】また、前記認識可能な複数の単語は、それ
ぞれ単語の種類に応じて複数に区分され、それぞれの区
分対応の単語セットとして用意されており、装置側はそ
の時点の動作場面においてどの単語セットに属する単語
を認識するかが設定されていて、現時点ではどの単語セ
ットに属する単語が入力される場面かを判断し、その判
断結果に基づき当該場面にて入力された単語の認識を行
うようにしている。

【００１４】また、前記認識対象話者を、年齢や性別な
どに基づいて予め設定した範囲に絞り込み、当該範囲に
属する不特定複数話者の音声データから特定話者群音声
モデルデータを作成し、これを前記標準話者群音声モデ
ルデータとして保存するようにしてもよい。

【００１５】さらに、前記認識対象話者は、音声の特徴
に基づく複数の話者群から構成され、前記特定話者群音
声モデルデータは、それぞれの話者群に属する不特定複
数話者の音声データから作成された前記複数の話者群対
応の特定話者群音声モデルデータから構成されたものと
してもよい。

【００１６】また、前記登録単語データと前記標準話者
音声モデルデータまたは前記特定話者群音声モデルデー
タとを用いて話者学習処理を行い、前記登録単語以外の
認識可能単語を認識する際は、前記話者学習後のデータ
を用い適応処理して音声認識するようにしている。

【００１７】さらに、その話者学習処理は、前記標準話
者音声モデルデータまたは前記特定話者群音声モデルデ
ータに基づいて作成されたいずれかのコードブックとコ
ードブックマッピング法とにより入力話者用のコードブ
ックを作成し、さらに、その入力話者コードブックをユ
ニバーサルコードブックを用いてベクトル量子化して量
子化入力話者コードブックを作成するようにしてもよ
い。

【００１８】また、本発明の音声認識装置は、不特定複
数話者の音声データから作成された標準話者音声モデル
データを有し、予め定められた複数の単語を認識可能と
する音声認識装置において、少なくとも、話者の発話し
て得られた音声を分析する音声分析手段と、前記認識可
能な複数の単語のうち、幾つかの単語を登録単語として
選び、それぞれの登録単語を認識対象話者が発話して得
られた音声データから各登録単語ごとに作成された登録
単語データと、前記認識対象話者から当該登録単語が発
話された場合には、当該登録単語データを用いて音声認
識し、それ以外の認識可能な単語が発話された場合に
は、前記標準話者音声モデルデータを用いて音声認識す
る制御部とを有する構成としている。

【００１９】このような音声認識装置において、前記認
識可能な複数の単語は、それぞれ単語の種類に応じて複
数に区分され、それぞれの区分対応の単語セットとして
用意されており、装置側はその時点の動作場面において
どの単語セットに属する単語を認識するかが設定されて
いて、現時点ではどの単語セットに属する単語が入力さ
れる場面かを判断し、その判断結果に基づき当該場面に
て入力された単語の認識を行うようにしている。

【００２０】また、前記認識対象話者を、年齢や性別な
どに基づいて予め設定した範囲に絞り込み、当該範囲に
属する不特定複数話者の音声データから特定話者群音声
モデルデータを作成し、これを前記標準話者群音声モデ
ルデータとして保存するようにしてもよい。

【００２１】さらに、前記認識対象話者は、音声の特徴
に基づく複数の話者群から構成され、前記特定話者群音
声モデルデータは、それぞれの話者群に属する不特定複
数話者の音声データから作成された前記複数の話者群対
応の特定話者群音声モデルデータから構成されるように
してもよい。

【００２２】また、本発明の音声認識装置において、前
記登録単語データと前記標準話者音声モデルデータまた
は前記特定話者群音声モデルデータとを用いて話者学習
処理を行い、前記登録単語以外の認識可能単語を認識す
る際は、前記話者学習後のデータを用い話者適応して音
声認識するようにしている。

【００２３】そして、その話者適学習理は、前記標準話
者音声モデルデータまたは前記特定話者群音声モデルデ
ータに基づいて作成されたいずれかのコードブックとコ
ードブックマッピング法により作成された入力話者用の
コードブックを作成し、さらに、その入力話者コードブ
ックをユニバーサルコードブックを用いてベクトル量子
化して量子化入力話者コードブックを作成するようにし
てもよい。

【００２４】また、本発明の音声認識処理プログラムを
記録した記録媒体は、不特定複数話者の音声データから
作成された標準話者音声モデルデータを有し、予め定め
られた複数の単語を認識可能とする音声認識処理プログ
ラムを記録した記録媒体であって、その処理プログラム
は、前記認識可能な複数の単語のうち登録単語として選
ばれた幾つかの単語について、認識対象話者が発話して
得られた音声データから各登録単語ごとの登録単語デー
タを作成して保存する手順と、前記認識対象話者から当
該登録単語が発話された場合には、当該登録単語データ
を用いて音声認識し、それ以外の認識可能な単語が発話
された場合には、前記標準話者音声モデルデータを用い
て音声認識する手順とを含むものである。

【００２５】そして、前記認識可能な複数の単語は、そ
れぞれ単語の種類に応じて複数に区分され、それぞれの
区分対応の単語セットとして用意されており、装置側は
その時点の動作場面においてどの単語セットに属する単
語を認識するかが設定されていて、現時点ではどの単語
セットに属する単語が入力される場面かを判断し、その
判断結果に基づき当該場面にて入力された単語の認識を
行うようにしている。

【００２６】また、前記認識対象話者を年齢や性別など
に基づいて予め設定した範囲に絞り込み、当該範囲に属
する不特定複数話者の音声データから特定話者群音声モ
デルデータを作成し、これを前記標準話者群音声モデル
データとして保存する手順を含むようにしてもよい。

【００２７】そして、前記特定話者群音声モデルデータ
を作成し、これを前記標準話者群音声モデルデータとし
て保存する手順において、認識対象話者は、音声の特徴
に基づく複数の話者群から構成され、前記特定話者群音
声モデルデータは、それぞれの話者群に属する不特定複
数話者の音声データから前記複数の話者群対応の特定話
者群音声モデルデータを作成するようにしてもよい。

【００２８】さらに、前記登録単語データと前記標準話
者音声モデルデータまたは前記特定話者群音声モデルデ
ータとを用いて話者学習処理を行う手順を有し、前記登
録単語以外の認識可能単語を認識する際は、前記話者学
習後のデータを用い話者適応して音声認識するようにし
ている。

【００２９】そして、その話者学習処理は、前記標準話
者音声モデルデータまたは前記特定話者群音声モデルデ
ータに基づいて作成されたいずれかのコードブックとコ
ードブックマッピング法により入力話者用のコードブッ
クを作成し、さらに、その入力話者コードブックをユニ
バーサルコードブックを用いてベクトル量子化して量子
化入力話者コードブックを作成する処理を含むようにし
てもよい。

【００３０】このように本発明は、予め用意された認識
可能な複数の単語のうち、幾つかの単語を登録単語とし
て選び、それぞれの登録単語を認識対象となる話者が発
話し、その音声データから各登録単語ごとの登録単語デ
ータを作成して保存するようにしている。この登録単語
は主として使用頻度の高い単語が選ばれる。使用頻度の
高い単語は、様々な状況で発話される可能性が高く、た
とえば、装置に対し離れた位置から入力されるようなこ
とも多い。このように、装置から離れた位置から入力し
た場合でも、確実に認識されることが要求される。

【００３１】そこで、認識可能な複数のうちの幾つかの
単語として、たとえば、使用頻度の高い単語を登録単語
としておけば、これらの単語に対しての認識性能を向上
させることができ、認識可能単語全体から見た認識率の
向上にもつながり、使い勝手のよいものとなる。

【００３２】なお、本発明では、装置側はその時点の動
作場面に応じ、現時点ではどの単語セットの単語を入力
する場面かを判断し、その判断結果に基づき当該場面に
て入力された単語の認識を行うようにしている。したが
って、たとえば、複数の登録単語は同じ単語セットに属
し、この単語セットに属する単語は、これらの単語が入
力される場面が決められているので、その単語セット内
の単語だけの認識処理を行えばよいので、高い認識率が
得られる。

【００３３】さらに、このように幾つかの単語を登録単
語とし、話者対応の登録単語データを作成することによ
り、この登録単語データと標準話者音声モデルデータま
たは特定話者群者音声モデルデータとを用いて話者学習
処理を行うことができる。これにより、登録単語以外の
認識可能単語についても、認識時には話者学習後のデー
タを用い話者適応して音声認識することが可能となり、
登録単語のみならず認識可能単語全体について認識率を
大幅に向上させることができる。

【００３４】さらに、本発明の話者適応処理は、標準話
者音声モデルデータまたは特定話者群者音声モデルデー
タに基づいて作成されたいずれかのコードブックとコー
ドブックマッピング法におり入力話者用コードブックを
作成し、さらに、その入力話者コードブックを、広い範
囲の話者から作成されたユニバーサルコードブックを用
いてベクトル量子化して量子化入力話者コードブックを
作成する処理を含み、認識時には、この量子化入力話者
コードブックを用いて話者学習処理を行うようにしてい
る。

【００３５】このように、データ量を大幅に削減された
量子化入力話者コードブックを用いて話者適応処理が可
能となるので、これらを保存する記憶手段（ＲＡＭ）を
小規模なものとすることができ、また、認識処理に必要
な演算量を大幅に少なくすることができるので、制御部
（ＣＰＵ）にかかる処理負担を大幅に減らすことがで
き、小さな処理能力のＣＰＵで対応することができるよ
うになる。

【００３６】また、本発明では、認識対象とする話者
を、年齢や性別などに基づいて予め設定した範囲に絞り
込み、当該範囲に属する不特定複数話者の音声データか
ら特定話者群音声モデルデータを作成して保存し、この
特定話者群音声モデルデータを用いて前記認識対象とす
る話者の入力した音声を認識するようにしている。

【００３７】これは、装置の使用者が、たとえば、主に
子供であるとか、主に女性であるというようにある範囲
に限られている場合に効果を発揮する。

【００３８】このように認識対象とする話者をある範囲
に絞ることができる場合には、あらゆる範囲の話者に対
応できる標準話者音声モデルデータを用いても無駄が多
く、認識率もあまり期待できない。そこで、不特定特定
話者のうち認識対象とする話者を年齢や性別などに基づ
いて予め設定した範囲に絞り込み、その範囲に属する複
数の話者の音声データから特定話者群音声モデルデータ
として作成し、この特定話者群音声モデルデータを用い
て前記音声認識対象とする話者の入力した音声を認識す
るようにしている。

【００３９】これにより、ある範囲の話者群に対応する
特定話者群音声モデルデータを持てばよいので、従来の
あらゆる話者に対応できるように作成された標準話者音
声モデルデータに比べると、データ量を大幅に少なくす
ることができる。これにより、それを保存する記憶手段
の記憶容量は小さいもので済み、また、ＣＰＵにかかる
認識処理の負担も少なくすることができる。しかも、特
定の話者群に対応した音声モデルデータであるので、認
識性能も大幅に向上する。

【００４０】また、このようなある範囲の話者群に対応
する特定話者群音声モデルデータを、幾つか用意するこ
ともできる。たとえば、成人男性用、成人女性用、子供
用など幾つかの話者群に対応して用意することも可能で
ある。これによれば、１つの装置を家族で使用するよう
な場合にも対応できる。

【００４１】このように、幾つかの話者群対応の特定話
者群音声モデルデータを持ったとしても、それがある範
囲内に限定されていれば、あらゆる範囲の話者に対応で
きるように作成された標準話者音声モデルデータを持つ
よりは、音声モデルデータの規模をを小さくでき、しか
も、それぞれの話者群に対応した特定話者群音声モデル
データであるので、認識性能も大幅に向上する。

【００４２】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら説明する。なお、この実施の形態では、
音声認識装置の１つの例として、音声時計装置を例にし
て説明する。この音声時計装置（以下では単に装置と表
現する場合もある）は、現在時刻やアラーム時刻の設定
を話者の発話する音声によって行うことが可能で、か
つ、装置側からの時刻の告知も音声によって行うことが
でき、さらに、話者との間で簡単な内容の会話をも可能
とする玩具的な要素の強い装置であるとする。

【００４３】図１は本発明の実施の形態である音声時計
装置を構成するに必要な各構成要素を示すブロック図で
ある。まず、図１に示される構成を概略的に説明し、そ
のあとで、本発明の実施の形態を説明する上で特に必要
な部分について詳細に説明する。

【００４４】この音声時計装置は、大きく分けると、音
声入力部としてのマイクロホン１と音声入力用アンプ
（マイクアンプという）２、Ａ／Ｄ変換部３、音声分析
部４、各種処理を行う制御部（ＣＰＵ）５、Ｄ／Ａ変換
部６、音声出力部としての音声出力用アンプ７とスピー
カ８、第１の記憶手段としてのＲＯＭ９、第２の記憶手
段としてのＲＡＭ１０、ユーザが装置に対して各種の設
定を行うための操作部１１、時刻信号を発生する計時手
段１２などから構成されている。

【００４５】音声分析部４は、Ａ／Ｄ変換された音声信
号を演算機を用いて短時間ごとに分析し、ピッチ周期な
どを得るとともに、音声の特徴を表す特徴データ（ＬＰ
Ｃケプストラム係数が一般的）を時系列データとして出
力する。

【００４６】制御部５は、音声認識、学習、登録、音声
出力など以下に説明する各種の処理を行うもので、これ
らの処理については、のちに行う動作説明のなかで順次
説明する。

【００４７】ＲＯＭ９は、出力音声データ９１、特定話
者群音声モデルデータ９２、この特定話者群音声モデル
データ９２を基にして作成されたコードブック（特定話
者群コードブックという）９３、さらにはユニバーサル
コードブック９４などを格納する。

【００４８】前記出力音声データ９１は装置側から話者
に対しての応答や問いかけを行うための発話内容に対す
る音声データであり、この具体的な内容についても後述
する動作例のなかで説明する。

【００４９】また、特定話者群音声モデルデータ９２
は、ある範囲に絞られた認識対象話者に対する標準話者
音声モデルデータである。たとえば、認識対象話者を子
供に絞った場合は、不特定多数の子供の音声データから
作成された標準話者音声モデルデータである。

【００５０】ただし、この実施の形態では、成人男性、
成人女性、子供の３つの話者群を設定し、成人男性を話
者群Ａ、成人女性を話者群Ｂ、子供を話者群Ｃというよ
うに区分する。そして、話者群Ａに属する不特定多数の
成人男性の音声データから作成した第１の特定話者群音
声モデルデータＭＤ１、話者群Ｂに属する不特定多数の
成人女性の音声データから作成した第２の特定話者群音
声モデルデータＭＤ２、話者群Ｃに属する不特定多数の
子供の音声データから作成した第３の特定話者群音声モ
デルデータＭＤ３を有しているものとする。

【００５１】そして、これら第１〜第３の特定話者群音
声モデルデータＭＤ１，ＭＤ２，ＭＤ３は、予め定めら
れた認識可能単語からなる幾つかの単語セットｗ１，ｗ
２，ｗ３，・・・からなっており、単語セットｗ１に格
納されている特定話者群音声モデルデータは、装置との
間で交わされる会話のなかで、特に使用される頻度の高
いと思われる単語（この場合、「おはよう」、「ただい
ま」、「こんにちは」、「おやすみ」、「何時」、「ア
ラーム」といった単語であるとする）に対する特定話者
群音声モデルデータである。この単語セットｗ１内のそ
れぞれの単語に対する特定話者群音声モデルデータは、
のちに説明する話者学習処理を行うためとしても用いら
れる。

【００５２】単語セットｗ２に格納されている特定話者
群音声モデルデータは、ここでは、「１時」、「２
時」、「３時」、・・・、「１２時」といった時間の単
位を表す単語に対する特定話者群音声モデルデータで
り、また、単語セットｗ３に格納されている特定話者群
音声モデルデータは、ここでは、「１分」、「２分」、
「３分」、・・・、「５９分」といった分の単位を表す
単語に対する特定話者群音声モデルデータであるとす
る。

【００５３】この他、「はい」や「いいえ」といった肯
定・否定を表す単語や、話者と装置との間で会話を行う
に必要な単語に対する特定話者群音声モデルデータなど
もここでは図示されていない単語セットとして設けられ
ている。

【００５４】また、特定話者群コードブック９３は、第
１の特定話者群音声モデルデータＭＤ１に基づいて作成
された第１の特定話者群コードブックＣＢ１、第２の特
定話者群音声モデルデータＭＤ２に基づいて作成された
第２の特定話者群コードブックＣＢ２、第３の特定話者
群音声モデルデータＭＤ３に基づいて作成された第３の
特定話者群コードブックＣＢ３を有している。

【００５５】ところで、前述の単語セットｗ１に属する
「おはよう」、「ただいま」、「こんにちは」、「おや
すみ」、「何時」、「アラーム」といった単語は、ここ
では、登録単語としても用いられ、認識対象話者、つま
り、この装置を使用するそれぞれの話者（ここでは、話
者＃１、話者＃２、話者＃３の３人の話者とする）が、
上述の登録単語を発話することによって、それぞれの特
徴データを登録単語データ１０１としてＲＡＭ１０に保
存することができるようになっている。

【００５６】この登録単語データ１０１は、話者＃１用
の登録単語データＲＤ１、話者＃２用の登録単語データ
ＲＤ２、話者＃３用の登録単語データＲＤ３というよう
に、その装置を使用すると思われる各話者ごとに保存さ
れる。

【００５７】なお、このように、装置を使用すると思わ
れる各話者ごとに、幾つかの単語について登録単語デー
タを作成する機能は、ユーザによって任意に行うことが
できる。したがって、その機能を用いて登録単語データ
を作成して保存することも可能であるが、必ずしも、そ
の機能を用いる必要はない。この機能を実行するには操
作部１１によって所定のモード設定を行って登録する
が、その登録方法などについてはのちに説明する。

【００５８】ＲＡＭ１０にはこの他に、話者＃１用とし
て作成された量子化後の入力話者コードブックＶＱ１、
話者＃２用として作成された量子化後の入力話者コード
ブックＶＱ２、話者＃３用として作成された量子化後の
入力話者コードブックＶＱ３が格納されるが、これらの
各コードブックについてはのちに説明する。

【００５９】本発明の実施の形態における装置の特徴の
一つとして、装置を使用する使用者をある範囲に絞り、
その範囲内に属する不特定多数の話者の音声データから
作った特定話者群音声モデルデータを作成し、その特定
話者群音声モデルデータを用いて装置の使用者の発する
音声を認識処理するということが挙げられる。

【００６０】これを実現するために、この実施の形態で
は、使用者を話者群Ａ（成人男性）、話者群Ｂ（成人女
性）、話者群Ｃ（子供）に分けて、それぞれの話者群に
属する不特定多数の話者の音声データから作った第１〜
第３の特定話者群音声モデルデータＭＤ１，ＭＤ２，Ｍ
Ｄ３を有している。

【００６１】このように、装置を使用する使用者をある
範囲に絞って、その範囲に属する不特定多数の話者の音
声データから作った標準話者音声モデルデータ（この実
施の形態では第１〜第３の特定話者群音声モデルデータ
ＭＤ１，ＭＤ２，ＭＤ３）を用いることにより、あらゆ
る話者を想定した不特定話者用の標準話者音声モデルデ
ータを持つ場合に比べて標準話者音声モデルデータの規
模を大幅に小さくすることができ、ＲＯＭ９のメモリサ
イズを小さくすることができ、また、制御部（ＣＰＵ）
５の処理負担を小さくすることができる。

【００６２】しかも、それぞれの話者群に対応した特定
話者群音声モデルデータ（第１〜第３の特定話者群音声
モデルデータＭＤ１，ＭＤ２，ＭＤ３）を用いての音声
認識を行うので、あらゆる話者を想定した不特定話者用
の標準話者音声モデルデータを用いた場合に比べて高い
認識率が得られる。

【００６３】なお、その時点で発話する話者に対してど
の特定話者群音声モデルデータを選択するかは、たとえ
ば、操作部１１に話者群を指定するためのボタンを用意
し、装置の使用者がたとえば子供であれば、話者群Ｃを
指定するためのボタンを操作してから音声の入力を行う
ようにすることもできる。

【００６４】このように、話者群の指定操作がなされる
と、制御部５がそれを判断して、対応する特定話者群音
声モデルデータを用いて音声認識を行うようにする。た
とえば、話者群Ｃを指定するためのボタンが操作された
場合には、制御部５がそれを判断して、特定話者群音声
モデルデータＭＤ３を用いて音声認識を行うようにす
る。

【００６５】また、これとは別に、装置の使用者が話者
群の設定操作を行うことなく、入力された音声のピッチ
周期情報（音声分析部４が音声分析する際に得られるピ
ッチ周期情報）を基に、制御部５が入力音声の話者群を
判定して、その判定結果に基づいて対応する特定話者群
音声モデルデータを用いて音声認識を行うようにするこ
とも可能である。

【００６６】図２はこのように話者に応じた音声モデル
データを用いて音声認識処理を行うフローチャートを示
すもので、話者の発話した音声の入力を行い（ステップ
ｓ１）、音声入力があるか否かを判断し（ステップｓ
２）、音声入力があれば、音声分析部４によって、入力
音声に対して音声分析を行う（ステップｓ３）。そし
て、その分析結果に基づき制御部５によって、その音声
がどの話者群に属するかを判定し（ステップｓ４）、判
定された話者群に対応する音声モデルデータを選択して
（ステップｓ５）、音声認識処理を行う（ステップｓ
６）。そして、その認識結果に基づく所定の処理を行う
（ステップｓ７）。この所定の処理というのは、時刻設
定やアラーム設定などその装置の行うべき様々な処理で
ある。

【００６７】また、この実施の形態では、ある特定の単
語については、その装置を使用する使用者がその特定の
単語を発話してその音声データを登録し、この登録デー
タと前述の特定話者群音声モデルデータを用いて話者学
習処理を行うことも可能としている。以下、これについ
て説明する。

【００６８】この話者学習処理を行うために、この実施
の形態では、特定の単語として、「おはよう」、「ただ
いま」、「こんにちは」、「おやすみ」、「何時」、
「アラーム」といった前述の単語セットｗ１に属する単
語（これらの単語を登録単語という）を、使用者（話
者）に発話してもらい、話者の発話して得られた各登録
単語に対する音声データによって登録単語データを作成
しそれをＲＡＭ１０に登録する。このとき、たとえば、
その装置を１つの家族で使用するような場合は、その家
族（たとえば、父親、母親、その子供）が一人ずつ複数
の登録単語について順次発話して得られたそれぞれの音
声データによって登録単語データを作成してそれぞれ登
録する。

【００６９】具体的には、たとえば、父親（話者＃１と
する）が発話して得られた各登録単語に対するそれぞれ
の音声データによって作成された各登録単語対応の登録
単語データは、話者＃１用の登録単語データＲＤ１とし
て保存され、母親（話者＃２とする）が発話して得られ
た各登録単語に対する音声データによって作成された各
登録単語対応の登録単語データは、話者＃２用の登録単
語データＲＤ２として保存され、子供（話者＃３とす
る）が発話して得られた各登録単語に対するそれぞれの
音声データによって作成された各登録単語対応の登録単
語データは、話者＃３用の登録単語データＲＤ３として
保存される。この登録は次のようにして行う。

【００７０】まず、操作部１１によって登録単語を登録
するためのモード設定を行う。そして、話者＃１の指定
を行い、話者＃１が前述したそれぞれの登録単語を順次
発話する。そして、この話者＃１が発話して得られた各
登録単語に対する音声データによって各登録単語対応の
登録単語データＲＤ１を作成する。そして、この登録単
語データＲＤ１と特定話者群音声モデルデータ（この場
合は、特定話者群音声モデルデータＭＤ１）に基づい
て、話者＃１に対する写像関数を作成する。

【００７１】続いて、話者＃２の指定を行い、話者＃２
が前述したそれぞれの登録単語を順次発話する。そし
て、この話者＃２が発話して得られた各登録単語に対す
る音声データによって、各登録単語対応の登録単語デー
タＲＤ２を作成する。そして、この登録単語データＲＤ
２と特定話者群音声モデルデータ（この場合は、特定話
者群音声モデルデータＭＤ２）に基づいて、話者＃２に
対する写像関数を作成する。

【００７２】さらに、続いて、話者＃３の指定を行い、
話者＃３が前述したそれぞれの登録単語を順次発話す
る。そして、この話者＃３が発話して得られた各登録単
語に対する音声データによって各登録単語対応の登録単
語データＲＤ１を作成する。そして、この登録単語デー
タＲＤ３と特定話者群音声モデルデータ（この場合は、
特定話者群音声モデルデータＭＤ３）に基づいて、話者
＃３に対する写像関数を作成する。

【００７３】このようにして、登録すべき話者の音声デ
ータの登録が終了する。そして、それぞれの写像関数と
第１〜第３の特定話者群コードブックＣＢ１，ＣＢ２，
ＣＢ３（コードブックサイズはそれぞれ２５６サイズと
する）を用いて、話者＃１、話者＃２、話者＃３それぞ
れの入力話者コードブックを作成する。このようにして
入力話者コードブックを作成する方法をコードブックマ
ッピングと呼ぶ。

【００７４】この場合、話者＃１は父親、話者＃２は母
親、話者＃３はその子供であるので、父親用の入力話者
コードブック、母親用の入力話者コードブック、子供用
の入力話者コードブックが作成されることになる。な
お、この実施の形態では、さらにこれら入力話者コード
ブックのデータ量を少なくするために、予め用意された
ユニバーサルコードブック９４を使用してベクトル量子
化を行う。

【００７５】このユニバーサルコードブック９４は、大
人から子供まで全ての話者を含むような幅広い層の話者
から得られたコードブックであり、たとえば、１０２４
あるいは２０４８といった大きなサイズを有しており、
このユニバーサルコードブック９４でベクトル量子化
し、そのユニバーサルコードブック９４のコード番号の
みによるコードブック（２５６サイズ）を作成する。

【００７６】このように、ユニバーサルコードブック９
４のコード番号のみによるコードブックとすることによ
り、大幅にデータ量の削減が図れる。

【００７７】ちなみに、装置に使用されるＲＡＭ１０と
して３２キロバイト程度のＲＡＭを使うとすると、前述
の入力話者コードブックでは、１つのコードブックにつ
いて、２５６×１０（この１０はＬＰＣケプストラム係
数の次元数であって、ここでは１０次元とした場合であ
る）で、２５６０個の係数を保存する必要があり、１つ
の係数をショート型で保存した場合、2バイト×２５６
０の合計約５キロバイトが必要となる。

【００７８】したがって、このコードブックを仮りに４
つ作るとなると、それだけで約２０キロバイトの容量を
必要とすることになり、ＲＡＭ１０の多くを占有してし
まい、その他の処理に支障をきたすことになる。

【００７９】これに対処するために、前述したように、
ユニバーサルコードブック９４でベクトル量子化して、
そのユニバーサルコードブック９４のコード番号のみに
よるベクトル量子化された入力話者コードブックを作成
する。なお、以下では、このベクトル量子化された入力
話者コードブックを量子化コードブックと呼び、話者＃
１に対応する量子化されたコードブックを量子化コード
ブックＶＱ１、話者＃２に対応する量子化された入力話
者コードブックを量子化コードブックＶＱ２、話者＃３
に対応する量子化された入力話者コードブックを量子化
コードブックＶＱ３と呼ぶことにする。

【００８０】これによって、ある一人の話者に対する量
子化入力話者コードブック（たとえば、量子化入力話者
コードブックＶＱ１）は、２５６個のコード番号を保存
すればよく、各コード番号をショート型で保存させたば
あい、２バイト×２５６の合計約0.5キロバイトの容量
で済むため、コードブックとして必要なメモリ容量は、
前述した量子化前の入力話者コードブックに比べて１／
１０となる。

【００８１】なお、このユニバーサルコードブック９４
は、前述した各入力話者ごとの登録単語データＲＤ１，
ＲＤ２，ＲＤ３の量子化にも用いることができる。

【００８２】図３はこの実施の形態である音声時計装置
の外観構成を示すものである。前述したようにこの実施
の形態における音声時計装置は、玩具的な要素の強いも
のであり、実際には、その外観は人気アニメーションの
キャラクタなどが用いられるが、その外観は本発明とは
直接関係しないので、ここでは、単純な形状のもので説
明を行う。

【００８３】図３において、音声時計装置の筺体５０に
は、図１で示されたマイクロホン１、スピーカ８、装置
に対して様々な設定を行ったり、何らかの動作を行うた
めにその都度操作される各種操作ボタン（詳細は後述す
る）を有する操作部１１が設けられる。

【００８４】この操作部１１は、たとえば、電源スイッ
チＳＷ、話者群指定ボタンＢＴ１，ＢＴ２，ＢＴ３、話
者指定ボタンＢＴ１１，ＢＴ１２，ＢＴ１３、認識モー
ドか登録モードかを切り替えるモード切替スイッチ（機
能については後述する）ＭＳＷ、装置側からの問いかけ
に対して話者がボタンの操作で肯定（「はい」）または
否定（「いいえ」）の入力が可能な肯定ボタンＢＴ２１
と否定ボタンＢＴ２２（これの具体的な動作例について
はのちに説明する）、音量調節スイッチＶＳＷなどが設
けられている。

【００８５】なお、話者群指定ボタンＢＴ１，ＢＴ２，
ＢＴ３は、その装置を使用する使用者の話者群を指定す
るもので、話者群指定ボタンＢＴ１は話者群として成人
男性（話者群Ａ）を指定し、話者群指定ボタンＢＴ２は
話者群として成人女性（話者群Ｂ）を指定し、話者群指
定ボタンＢＴ３は話者群として子供（話者群Ｃ）を指定
するものである。

【００８６】また、話者指定ボタンＢＴ１１，ＢＴ１
２，ＢＴ１３は、その装置を使用する使用者を話者とし
て指定するもので、ここでは、３人の使用者（話者＃
１、話者＃２、話者＃３）を指定できるようになってい
る。

【００８７】なお、図３で示される操作部１１には上述
したような各種スイッチや、各種操作ボタンが設けられ
るが、これは、この実施の形態を説明する上で必要なス
イッチ類や操作ボタンをすべて設けた例であるが、これ
らは全て設ける必要はなく、装置の有する機能などに応
じて適宜必要なスイッチや操作ボタンのみを設ければよ
い。また、電源スイッチｓｗなどのスイッチ類は、操作
部１１内ではなく、操作ボタン類とは別にして設けるよ
うにしてもよい。

【００８８】また、この図３で示される構成は説明を行
う上での一例であって、マイクロホン１やスピーカ８、
操作部１１の配置、さらには、操作部１１内の各種スイ
ッチ類や操作ボタンなどの配置もこれに限られるもので
はない。

【００８９】ここで、登録モードと認識モードについて
の説明を行う。この登録モードと認識モードのいずれか
のモード設定は、モード切替スイッチＭＳＷによって行
う。

【００９０】登録モードは、その装置を使用する各話者
（この場合、話者＃１，＃２，＃３）が予め決められた
複数の登録単語を発話し、それぞれの音声データから作
成した登録単語データを登録単語データＲＤ１，ＲＤ
２，ＲＤ３として登録するとともに、この登録単語デー
タＲＤ１，ＲＤ２，ＲＤ３を用いて話者学習処理を行
い、最終的に話者＃１用の量子化コードブックＶＱ１、
話者＃２用の量子化コードブックＶＱ２、話者＃３用の
量子化コードブックＶＱ３の作成を行う。

【００９１】登録モードとした場合の具体的な処理につ
いて説明する。ここでは、前述したように、父親（話者
＃１）、母親（話者＃２）、その子供（話者＃３）がそ
れぞれの登録単語を発話して得られた登録単語データを
登録するものとする。

【００９２】まず、操作部１１の話者指定ボタンＢＴ１
１を操作し、話者＃１の登録モードとして、話者＃１
（父親）が前述した登録単語を順次発話する。これによ
り、話者＃１に対する登録単語の登録データＲＤ１が作
成されるとともに、写像関数が作成され、さらに、ユニ
バーサルコードブック９４でベクトル量子化され、その
ユニバーサルコードブック９４のコード番号による話者
＃１の量子化入力話者コードブックＶＱ１が作成され
る。

【００９３】続いて、操作部１１の話者指定ボタンＢＴ
１２を操作し、話者＃２の登録モードとして、話者＃２
（母親）が前述した登録単語を順次発話する。これによ
り、話者＃２に対する登録単語の登録データＲＤ２が作
成されるとともに、写像関数が作成され、さらに、ユニ
バーサルコードブック９４でベクトル量子化され、その
ユニバーサルコードブック９４のコード番号による話者
＃２の量子化入力話者コードブックＶＱ２が作成され
る。

【００９４】さらに続いて、話者指定ボタンＢＴ１３を
操作し、話者＃３の登録モードとして、話者＃３（子
供）が前述した登録単語を順次発話する。これにより、
話者＃３に対する登録単語の登録データＲＤ３が作成さ
れるとともに、写像関数が作成され、さらに、ユニバー
サルコードブック９４でベクトル量子化され、そのユニ
バーサルコードブック９４のコード番号による話者＃３
の量子化入力話者コードブックＶＱ３が作成される。

【００９５】なお、このとき、登録単語データＲＤ１，
ＲＤ２，ＲＤ３もこのユニバーサルコードブック９４を
用いてベクトル量子化され、以下では、登録単語データ
ＲＤ１，ＲＤ２，ＲＤ３も量子化されたデータであると
する。

【００９６】次に認識モードについて説明する。この認
識モードは、この場合、第１〜第３の特定話者群音声モ
デルデータＭＤ１，ＭＤ２，ＭＤ３、話者＃１〜話者＃
３用の登録単語データＲＤ１，ＲＤ２，ＲＤ３、話者＃
１〜話者＃３用の量子化コードブックＶＱ１，ＶＱ２，
ＶＱ３のいずれかを、状況に応じて用いて音声認識する
モードである。

【００９７】たとえば、モード切替スイッチＭＳＷを認
識モードとした場合、まず、使用する話者がどの話者群
であるかの設定を行う。たとえば、使用する話者がたと
えば話者＃３（子供）であれば、話者群Ｃを指定するた
めの話者群指定ボタンＢＴ３を操作してから音声の入力
を行う。これにより、制御部５では第３の特定話者群音
声モデルデータＭＤ３を用いて音声認識を行う。

【００９８】このように、使用する話者によって話者群
の指定操作がなされると、制御部５がそれを判断して、
対応する特定話者群音声モデルデータを用いて音声認識
を行うことができる。

【００９９】このように、使用者をある特定の話者群に
絞り、その話者群に属する話者の音声データから作った
特定話者群音声モデルデータを用いて音声認識すること
により、あらゆる話者を想定した大規模な標準話者音声
モデルデータを用いて音声認識を行う場合に比べて、高
い認識率での音声認識が可能となる。また、幾つかの話
者群だけの特定話者群音声モデルデータを持てばよいの
で、音声モデルデータそのものの規模を大幅に小さくす
ることができ、ＲＯＭ９のメモリサイズを小さくするこ
とができ、また、制御部（ＣＰＵ）５にかかる処理負担
を小さくすることができる。

【０１００】また、話者がどの話者群であるかの判定
は、入力音声を音声分析して得られるピッチ周期情報に
より装置側で自動的に知ることが可能であり、さらに、
入力された音声データと登録単語データとのマッチング
をとることにより得られる類似度を用いて話者がどの話
者群であるかの判定を行う方法もある。なお、ここで
は、ピッチ周期情報のみにより話者群を判定する場合に
ついて述べる。

【０１０１】つまり、父親、母親、子供の３人の話者で
考えたとき、子供のピッチ周期が最も短く、次に母親が
短く、父親のピッチ周期はこの３人の中では最も長くな
るのが普通であり、そのピッチ周期情報から、その入力
話者が話者＃１、話者＃２、話者＃３のうちのどの話者
であるかを特定することができる。

【０１０２】このようにして、たとえば、入力話者が話
者＃１であると判定された場合には、その話者＃１に対
応する登録単語データＲＤ１や、話者学習処理によって
作成された量子化入力話者コードブックＶＱ１を用いて
音声認識を行う。つまり、話者＃１の発話した単語が登
録単語である場合には、話者＃１に対応する登録単語デ
ータＲＤ１によって音声認識され、それ以外の単語につ
いては、量子化入力話者コードブックＶＱ１を用いて音
声認識される。また、登録単語データが作成されてな
く、話者学習処理がなされていない場合には、特定話
者群音声モデルデータ９２を用いて音声認識する。

【０１０３】なお、本発明では、装置と話者の間で行わ
れる会話の手順として、最初に、話者が前述した登録単
語のうちいずれかの登録単語を発話するようにしてい
る。つまり、装置側では、最初に、単語セットｗ１に属
する登録単語を認識するような会話手順が設定されてい
る。このように、本発明では、装置側はその時点の動作
場面に応じ、現時点ではどの単語セットの単語を入力す
る場面かを把握している。そして、そのときの場面にて
入力された単語の認識処理を行う。

【０１０４】したがって、会話の始まりとして、装置に
対し、たとえば、話者＃１がまず登録単語の一つとして
の「アラーム」と発話したとすると、その「アラーム」
についての音声分析を行い、それによって得られるピッ
チ周期情報により装置側では話者の特定を行う。この場
合は、入力話者は話者＃１であると判定し、入力音声に
対し話者＃１用の登録単語データＲＤ１を用いて音声認
識処理することにより、発話された音声が「アラーム」
であったことが認識される。

【０１０５】このようにして、入力話者が登録単語を入
力することにより、装置側では、その入力話者がどの話
者であるかを判定し、その登録単語についての認識を行
う。そして、それ以降に入力される音声が登録単語以外
の単語（単語セットｗ１以外の単語）である場合は、話
者判定を行うことなく音声認識動作を行う。

【０１０６】たとえば、現在の装置側の動作場面が登録
単語を認識する場面であって、この場面において登録単
語の認識処理が終了したあと、次の場面として、単語セ
ットｗ２やｗ３などを（単語セットｗ２とする）認識す
る場面に移るというように設定されていたとすれば、そ
の単語セットｗ２の認識は、話者適応による音声認識処
理として、話者＃１用の量子化コードブックＶＱ１と第
１の特定話者群コードブックＣＢ１と第１の特定話者群
音声モデルデータＭＤ１（単語セットｗ２に対応する音
声モデルデータ）を用いて行いての音声認識処理を行
う。

【０１０７】図４はこれまで説明した話者学習処理を可
能とした音声認識処理の全体的な処理手順を説明するフ
ローチャートである。なお、この図４で示されるフロー
チャートは、話者をある一人の話者に限定した場合の処
理手順を示すものである。

【０１０８】図４において、まず、認識モードか登録モ
ードかを判定し（ステップｓ１１）、登録モードである
場合には、話者の発話した登録単語に対する音声入力を
行い（ステップｓ１２）、音声入力があるか否かを判断
し（ステップｓ１３）、音声入力があれば、入力された
音声の音声分析を行い（ステップｓ１４）、入力音声デ
ータを登録単語データとして登録する（ステップｓ１
５）。

【０１０９】そして、登録すべき単語についての音声デ
ータの入力が終了したか否かを判断し（ステップｓ１
６）、終了していれば、入力された音声に対する音声デ
ータがどの話者群に属するかを判断し（ステップｓ１
７）、前述したような話者学習処理（入力話者コードブ
ックを作成し、最終的には量子化コードブックの作成）
を行う（ステップｓ１８）。

【０１１０】一方、ステップｓ１１において認識モード
であると判定した場合には、話者の発話した音声入力を
行い（ステップｓ１９）、音声入力があるか否かを判断
し（ステップｓ２０）、音声入力があれば、入力された
音声の音声区間を検出して音声分析を行う（ステップｓ
２１）。

【０１１１】そして、話者学習処理が行われているか否
かを判定し（ステップｓ２２）、話者学習処理が行われ
ていなければ不特定話者音声認識（この実施の形態では
特定話者群音声モデルデータ９２（このときの入力話者
に対応して用意された特定話者群音声モデルデータであ
り、入力話者が話者＃１であれば第１の特定話者群音声
モデルデータ）よる音声認識処理を行い（ステップｓ２
３）、話者学習処理が行われていればステップｓ２４以
降の処理を行う。

【０１１２】ステップｓ２４では入力された音声に対す
る音声データが登録単語データであるか否かを判定し、
登録単語データである場合には登録型の音声認識処理と
してここでは登録単語データ１０１（このときの入力話
者の音声により作成された登録単語データであり、入力
話者が話者＃１であれば話者＃１用の登録単語データＲ
Ｄ１）を使用しての音声認識処理を行う（ステップｓ２
５）。

【０１１３】また、登録単語データでない場合には話者
適応型の音声認識処理として、ここでは当該入力話者の
音声に基づいて作成された量子化コードブック（入力話
者が話者＃１であれば話者＃１用の量子化コードブック
ＶＱ１）と特定話者群コードブック（入力話者が話者＃
１であれば第１の特定話者群コードブックＣＢ１）と特
定話者群音声モデルデータ（入力話者が話者＃１であれ
ば第１の特定話者群音声モデルデータＭＤ１）を使用し
ての音声認識処理を行う（ステップｓ２６）。

【０１１４】ところで、この装置の場合、認識可能な単
語は、前述したように、単語セットｗ１，ｗ２，ｗ３と
いうように複数の単語セットからなり、前述したよう
に、装置側では、現在、どの単語セットが入力される場
面であるかを把握している。たとえば、単語セットｗ１
（登録単語）を入力する場面が終わって、現在は、単語
セットｗ２（「１時」、「２時」など時の単位）を入力
する場面であるというように、現在、どのような場面で
あるかを把握している。

【０１１５】したがって、前述のステップｓ２４におい
て、入力された音声に対する音声データが登録単語デー
タであるか否かの判定は、現在、どのような場面である
かにより、登録単語が入力される場面であれば、入力さ
れる単語データは登録単語データであるとして、それに
対応した処理を行う。

【０１１６】そして、このように音声認識処理が終了す
るとその認識結果に基づく所定の処理を行う（ステップ
ｓ２７）。

【０１１７】なお、図４で示した処理はある特定の一人
の話者についての処理であったが、たとえば、前述した
ように話者＃１、話者＃２、話者＃３というように複数
の話者が存在する場合には、図５のフローチャートで示
されるように、登録モード時においては、音声入力のス
テップｓ１の前段に話者指定（たとえば、話者＃１、話
者＃２、話者＃３の指定）を行うステップｓ２８を追加
する。したがって、この場合は、登録単語データは、図
１に示されるように、話者＃１〜＃３用の登録単語デー
タＲＤ１，ＲＤ２，ＲＤ３が作成され、量子化コードブ
ックも話者＃１〜＃３用の量子化コードブックＶＱ１，
ＶＱ２，ＶＱ３が作成される。

【０１１８】一方、認識モード時においては、ステップ
ｓ２１の音声分析処理の後段に、入力話者がたとえば、
話者＃１、話者＃２、話者＃３のどの話者であるかを判
定する話者判定処理（ステップｓ２９）を追加する。

【０１１９】そして、このときの音声認識処理は、登録
単語の場合には、話者＃１、話者＃２、話者＃３の音声
データを基に作成された話者＃１、話者＃２、話者＃３
用の登録単語データＲＤ１，ＲＤ２，ＲＤ３のいずれか
を用いて音声認識し、登録単語でない場合には、話者＃
１用の量子化コードブックＶＱ１と第１の特定話者群コ
ードブックＣＢ１と第１の特定話者群音声モデルデータ
ＭＤ１、話者＃２用の量子化コードブックＶＱ２と第２
の特定話者群コードブックＣＢ２と第２の特定話者群音
声モデルデータＭＤ２、話者＃３用の量子化コードブッ
クＶＱ３と第３の特定話者群コードブックＣＢ３と第３
の特定話者群音声モデルデータＭＤ３のいずれかの組を
用いて音声認識する。

【０１２０】なお、以上説明した認識モードにおける処
理は、登録単語を登録した場合の処理であるが、登録単
語の登録を行わない状態でも同様に認識処理が可能とな
る。この場合は、登録単語データＲＤ１０１が作成され
ないので、特定話者群音声モデルデータ９２を使用して
の音声認識となる。

【０１２１】次に、アラーム時刻の設定を行う際の装置
と話者との会話例を、図６の状態遷移図を参照しながら
説明する。なお、図６において、括弧内の発話内容は装
置を使用する話者の発話する内容である。まず、装置側
からは、「アラーム時刻を、午前、７時、３０分という
ように発話して下さい」というように、発話する内容の
一例を挙げて話者に発話を促す（ステップｓ３１）。こ
れにより、話者（ここでは話者＃１）が、設定したい時
刻として「午前」、「１時」、「２０分」と発話したと
する（ステップｓ３２）。

【０１２２】ここでの発話内容は、「午前」、「１
時」、「２０分」というように、３つの単語を１つのセ
ットとして、各単語間にわずかな間をおいて連続的な発
話がなされる。そして、装置側では、それぞれの単語に
ついて連続的に音声認識を行う。その認識結果として、
装置側から、「午前、１時、２０分ですか？ハイかイ
イエで答えて下さい」というように応答する（ステップ
ｓ３３）。

【０１２３】この認識結果が正しければ、話者＃１は
「はい」と応答し（ステップｓ３４）、装置側からは、
「アラーム時刻を午前１時２０分にセットしました」と
いうような発話内容を発する（ステップｓ３５）。一
方、認識結果が間違っていれば、話者＃１は「いいえ」
と応答し（ステップｓ３６）、装置側からは、「それで
は順番に聞きます」というような内容の発話を行う（ス
テップｓ３７）。

【０１２４】そして、まず、「午前ですか？」というよ
うに「午前」か「午後」かを確かめる内容を発話する
（ステップｓ３８）。

【０１２５】それに対して、話者＃１は、午前でよけれ
ば、「はい」と応答し（ステップｓ３９）、間違ってい
れば（午前でなければ）、「いいえ」と応答する（ステ
ップｓ４０）。この「午前」と「午後」の場合は、二者
択一であるので、もし、話者＃１側の応答が「いいえ」
であった場合には、もう一方の単語で確定することがで
きる。つまり、装置側による最初の問いかけが「午前」
であって、話者側が「いいえ」と応答した場合には、
「午後」が確定される。

【０１２６】なお、「午前」と「午後」の他に、たとえ
ば、「正午」が加わって、「午前」、「午後」、「正
午」の３つのうち、いずれかを確定する場合に、たとえ
ば、装置側「午前ですか」、話者側「いいえ」、装置側
「午後ですか」、話者側「いいえ」となって、「正午」
が確定されることになる。このように、３単語程度であ
れば、話者側からの「はい」または「いいえ」の応答を
２〜３回繰り返すことで、短時間に所望の単語の確定を
行うことができる。

【０１２７】このようにして、「午前」か「午後」かの
確定が行われると、次に、「時」の単位の確定を行う。
この場合、話者＃１の入力した単語は「１時」である。
これに対して、装置側から、たとえば、「１時」に対す
る認識候補の第１位から第ｎ位までのうち、ステップｓ
４１にて第１位候補として「１時ですか」が発話された
とすれば、話者＃１は「はい」と応答し（ステップｓ４
２）、「１時」が確定し、分の単位の確認処理（ステッ
プｓ５１）に入る。

【０１２８】しかし、ステップｓ４１にて装置側から第
１位候補として、たとえば、「７時」が出力されたとす
れば、話者＃１は「いいえ」と応答する（ステップｓ４
３）。これにより、装置側から、第２位候補が出力され
（ステップｓ４４）、その第２位候補として、たとえ
ば、「８時」が出力されたとすると、それが正しけれ
ば、話者＃１は「はい」と応答し（ステップｓ４５）、
間違っていれば、「いいえ」と応答する（ステップｓ４
６）。

【０１２９】ここでは、「いいえ」であるので、さら
に、装置側からは第３位候補として、たとえば、「１
時」が出力されたとする（ステップｓ４７）。それが正
しければ、話者＃１は「はい」と応答し（ステップｓ４
８）、間違っていれば、「いいえ」と応答する（ステッ
プｓ４９）。ここでは、話者＃１は「はい」と応答する
ので、その時点で「１時」が確定し、分の単位の確認処
理（ステップｓ５１）に入る。

【０１３０】また、もし、第３位候補でも、「いいえ」
であった場合には、装置側から話者＃１に対して、たと
えば、「もう一度、何時か言ってください」というよう
に、再度、「時」の単位の音声入力を促すようにする
（ステップｓ５０）。これによって、話者＃１は再度、
時の単位の発話（この場合「１時」）を行い、ステップ
４１に戻る。

【０１３１】なお、再度、「時」の単位について音声入
力を行ってそれを認識するとき、すでに、「いいえ」で
否定された単語（前述の場合、「７時」、「８時」な
ど）は、認識候補から外すようにする。

【０１３２】また、「分」の単位についても「時」の単
位で説明したステップｓ３１〜ｓ５０と同様の処理にて
行うことができる。そして、最終的に確定したら、装置
側からは「アラーム時刻を午前１時２０分にセットしま
した」というような発話がなされる（ステップｓ３
５）。

【０１３３】このような処理は、アラーム設定だけでは
なく、現在時刻の設定も同様の処理で行える。

【０１３４】なお、前述の処理のなかで第１候補が話者
によって否定された場合、装置側からは、第２候補、第
３候補、・・・というように認識候補順に発話するので
はなく、たとえば、「１時」が否定された場合には、
「２時」、「３時」、・・・というように認識候補順と
は無関係に時刻を表す数字の順番に従って発話すること
もできる。

【０１３５】このような処理を行うことにより、時刻設
定などを行う際、話者は「午前」、「何時」、「何分」
を１まとまりの音声として連続的に発話することがで
き、これにより、時刻設定のための音声入力操作が簡単
なものとなる。しかも、これらの一連の音声が正しく音
声認識されれば、その時点で時刻設定が終了し、もし、
間違っていた場合は、一つ一つの単語ごとに正否を確か
めながら、正しく認識されるまで、認識動作が行われる
ので、最終的には確実に正しい時刻の設定が行え、利便
性と確実性の両方を兼ね備えた時刻設定が行える。

【０１３６】このような連続した単語を認識する処理
は、時刻だけではなく、複数の単語から構成されていて
それぞれの単語間にわずかな間をおいて連続的に発話さ
れるような音声を認識する場合に広く適用できる。

【０１３７】図７は、複数の単語として第１番目〜第ｎ
番目までのｎ個の単語から構成され、それぞれの単語間
にわずかな間をおいて連続的に発話されるような音声を
認識（ここでは連続単語認識という）する際の処理手順
を説明するフローチャートである。この図７に示す処理
手順について簡単に説明する。なお、ここでは、ｎ個か
らなる連続単語として、３つの単語（第１番目の単語、
第２番目の単語、第３番目の単語という）から構成され
ているものとする。また、これら第１番目の単語、第２
番目の単語、第３番目の単語それぞれの認識を行う際、
認識候補は第ｍ位までの認識候補を出力するが、ここで
は、ｍは１から３までの値をとるものとする。

【０１３８】図７において、まず、話者の発話した複数
の単語からなる連続単語について認識を行う（ステップ
ｓ６１）。そして、認識結果を出力し（ステップｓ６
２）、その認識結果に対する話者からの「はい」または
「いいえ」の認識を行う（ステップｓ６３）。ここで、
話者の応答が「はい」であれば（ステップｓ６４）、そ
の認識結果を連続単語全体として確定し（ステップｓ６
５）、その時点で認識処理は終了する。

【０１３９】一方、話者の応答が「いいえ」であれば、
第１番目の単語の認識処理に入る。この第１番目の単語
の認識処理は、まず、第ｍ位候補（ここではｍ＝１）を
出力し（ステップｓ６６）、それに対する話者の「は
い」または「いいえ」を認識する（ステップｓ６７）。
ここで、話者の応答が「はい」であれば（ステップｓ６
８）、その第１位候補を第１番目の単語として確定し
（ステップｓ６９）、第２番目の単語についての処理に
入る（ステップｓ７０）。

【０１４０】一方、話者の応答が「いいえ」であれば、
ｍが設定値（この場合は、設定値はｍ＝３）であるか否
かを判断する（ステップｓ７１）。ここでは、まだ、設
定値でないので、ステップｓ６６に処理が戻り、今度
は、ｍ＝２として第２位の候補を出力する。

【０１４１】そして、それに対する話者の「はい」また
は「いいえ」を認識する（ステップｓ６７）。ここで、
話者の応答が「はい」であれば（ステップｓ６８）、第
２位候補を第１番目の単語として確定し（ステップｓ６
９）、第２番目の単語についての処理に入る（ステップ
ｓ７０）。また、話者の応答が「いいえ」であれば、ス
テップｓ７１の判断を行う。

【０１４２】このように、話者の応答が「はい」であれ
ばその時点における認識候補によって第１番目の単語が
確定されるが、話者の応答が「いいえ」であれば、次の
認識候補について同様の処理を行う。そして、この場
合、第３位の候補でも正しく認識されなかった場合は、
その第１番目の単語をもう一度発話してもらうように話
者に対して要求する（ステップｓ７２）。そして、話者
が、再度、その第１番目の単語を発話した内容につい
て、同様の動作を繰り返す。

【０１４３】なお、前述の図６の例で説明したように、
話者が再度、第１番目の単語を発話してその音声入力を
行い、それを認識するとき、すでに、「いいえ」で否定
された単語は、認識候補から外すようにする。

【０１４４】このようにして、第１番目の単語について
の認識処理が終了すると、次は、第２番目の単語につい
ての認識処理（ステップｓ７０）に入り、この第２番目
の単語についての認識処理が終了すると、次は、第３番
目の単語についての認識処理（ステップｓ７３）に入
る。なお、これら、第２番目と第３番目の単語について
の認識処理は、第１番目の単語の認識処理と同様である
ので、その説明は省略する。

【０１４５】ところで、以上のような音声入力操作を行
う際、話者と装置側の音声入力部（マイクロホン）との
距離は、認識性能という面から考えると重要な要素とな
る。そこで、この実施の形態では、話者の音声入力操作
の状況に応じて、音声入力部の音声入力ゲイン、つま
り、マイクアンプ２の音声入力ゲインを切り替える制御
を行う。この制御は、前述した各種処理の制御とともに
制御部５で行う。以下、これについて説明する。

【０１４６】このマイクアンプ２の音声入力ゲイン（以
下では、単にゲインという）制御は、音声入力を行う場
面がどのような場面であるかを判断して、その場面に応
じてゲインを大きくしたり小さくしたりする制御であ
る。

【０１４７】たとえば、装置が動作をなす上で特に高い
認識率を要求される音声が入力される場面か、それ以外
の音声の入力される場面かを判断して、装置が動作をな
す上で特に高い認識率を要求される音声が入力される場
面である場合には、それ以外の音声が入力される場面に
比べて、音声入力ゲインを小さくするというような制御
を行う。

【０１４８】具体的には、音声の特徴量が複数の単語間
で相互に類似していて誤認識されやすい単語に対する音
声が入力される場面、単語登録を行う場面、話者学習を
行う場面などが考えられ、このような場面では、音声入
力ゲインを小さくするような制御を行う。

【０１４９】誤認識されやすい単語に対する音声が入力
される場面というのは、この装置の場合、アラーム時刻
や現在時刻の設定時において、時刻入力（午前、何時、
何分）を行う場面が考えられる。このような時刻設定
は、たとえば、「１時」と「７時」などのように、音声
の特徴量が類似していて誤認識され易い音声が多く、し
かも、時刻設定は正確になされることが要求される。

【０１５０】したがって、このような音声入力を行う際
は、マイクアンプ２のゲインを小さくして、話者にマイ
クに近づいて発話してもらう。

【０１５１】一方、装置に対して呼びかけを行ったりす
る場面では、ゲインを大きくして、話者が装置から離れ
たところから音声の入力を可能とする。これは、装置に
対して少し距離を置いた状態で、装置との会話を行うよ
うな場合に便利なものとするためである。

【０１５２】このゲインを大きくする場面は、たとえ
ば、「おはよう」、「ただいま」、「おやすみ」、「何
時」、「アラーム」といった登録されている単語（単語
セットｗ１に属する単語）などを入力するような場面で
あり、このような場面において入力されるこの種の単語
は、前述の時刻情報（単語セットｗ２やｗ１）に比べる
と、同じ単語セットｗ１に属する他の単語間で誤認識さ
れにくく、認識対象単語数も、この場合、数単語である
ためそれほど多くはない。また、装置に対して気軽に呼
びかけるような内容であることから、ゲインを高くして
装置から離れた位置からでも入力できる法が好ましいも
のとなる。

【０１５３】このように、どのような単語が入力される
場面であるかによって、それに適した音声入力ゲインを
設定する。

【０１５４】前述したように、誤認識されやすい単語に
対する音声が入力される場面、単語登録を行う場面、話
者学習を行う場面などでは、マイクアンプ２のゲインを
小さくし、話者にマイクロホン１の近くで発話させるこ
とによって、話者の口元とマイクロホン１の距離は、話
者によってあまり大きくは変化しないで、ほぼ同じよう
な距離となることが多い。これにより、Ｓ／Ｎ比がよく
なるとともに、ダイナミックレンジが小さくなり、この
状況での発話内容は高い認識率で認識される。

【０１５５】このように、音声入力を行うときの状況に
よって、マイクアンプ２のゲインを制御し、それに応じ
た音声入力を行うようにするために、装置側から何らか
の通知を行う。その通知内容としては、たとえば、「も
う少しマイクロホンに近づいて話して下さい」とか「も
う少し大きな声で話して下さい」、あるいは、「もう少
し小さな声で話して下さい」といった内容であり、これ
らの内容を装置側から出力するようにする。

【０１５６】制御部５は、現在の音声入力がどのような
状況での音声入力であるか（たとえば、話者が単に装置
に呼びかけを行っているのか、登録単語を入力している
のか、時刻設定を行っているのかなど）を把握すること
ができるので、それに応じて、マイクアンプ２のゲイン
を切り替え制御するとともに、話者に対してマイクアン
プ２のゲインに応じた発話を行わせるような内容を出力
することが可能となる。

【０１５７】たとえば、誤認識されやすい単語に対する
音声が入力される場面、単語登録を行う場面、話者学習
を行う場面などでは、マイクアンプ２のゲインを小さく
するとともに、装置側から、「もう少しマイクロホンに
近づいて話して下さい」といった内容を出力する。これ
により、話者は自然にマイクロホンに近づいて発話する
ようになり、これによってＳ／Ｎ比が良くなるととも
に、ダイナミックレンジが小さくなるので、認識性能を
高めることができる。

【０１５８】図８は以上説明した話者の音声入力操作の
状況に応じてマイクアンプ２のゲインを切り替える制御
を行う例を説明するフローチャートであり、ここでは、
前述の図４の処理を行う際にゲインを切り替える例につ
いて説明する。

【０１５９】図８において、認識モードであるか登録モ
ードであるかの判定を行う（ステップｓ８１）。この判
定において、登録モードである場合、マイクアンプ２の
ゲインを小さくするようにゲイン切り替えを行い（ステ
ップｓ８２）、切り替えられたゲインによって音声入力
を行う（ステップｓ８３）。この音声入力を行うステッ
プｓ８３から話者学習処理までのステップｓ８９は、図
４の音声入力を行うステップｓ１２から話者学習処理ま
でのステップｓ１８と同じであるので、ここではその説
明は省略する。

【０１６０】一方、認識モードである場合には、場面に
応じてマイクアンプ２のゲインを切り替える。その切り
替えは、音声入力を行う場面がゲインを大きくする場面
であるか否かを判定し（ステップｓ９０）、ゲインを大
きくする場面であれば、マイクアンプ２のゲインを大き
くするようにゲイン切り替えを行い（ステップｓ９
１）、ゲインを小さくする場面であれば、マイクアンプ
２のゲインを小さくするようにゲイン切り替えを行う
（ステップｓ９２）。

【０１６１】なお、ステップｓ９０におけるゲインを大
きくする場面というのは、前述したように、呼びかけを
行うような音声入力を行う場面であり、これに対して、
ゲインを小さくする場面というのは、登録単語を入力す
る際や、アラーム時刻や現在時刻の設定時において、時
刻入力（午前、何時、何分）を行うような誤認識される
可能性が高かったり、特に高い認識率を得ようとする場
合などである。

【０１６２】そして、このように、そのときの場面に応
じてゲインの設定を行って音声入力を行う（ステップｓ
９３）。この音声入力（ステップｓ９３）から所定の処
理（ステップｓ１０１）までは、図４の音声入力（ステ
ップｓ１９）から所定の処理（ステップ２７）までと同
じであるので、ここではその説明は省略する。

【０１６３】また、このような音声によるコマンドを装
置が受け付けて、そのコマンドに応じた動作を行うもの
にあって、個々の話者の声質や話し方の特徴によって良
好に認識される話者と認識率が低い話者が存在すること
が多い。

【０１６４】このように、特に認識率の悪い話者のため
に、装置側からは質問形式の発話内容を出力し、話者は
それを聞いて、肯定する場合は肯定を意味するボタンを
操作し、否定する場合は否定を意味するボタンを操作す
ることにより、「はい」または「いいえ」を認識させる
のと同等の動作を行うことを可能とする。

【０１６５】すなわち、話者が装置に対して設定したい
情報（設定情報という）に対し、装置側から質問形式で
その設定情報としての候補を１つ１つ順番に出力し、１
つの候補が出力される都度、出力された候補について肯
定を意味するボタンまたは否定を意味するボタンのいず
れかのボタン入力を受け付け、肯定を意味するボタン入
力を受け付けたときは、当該候補を前記設定情報として
確定し、否定を意味するボタン入力を受け付けたとき
は、次の候補を出力する。

【０１６６】このボタン操作による肯定または否定の入
力を可能とするのは、認識率の悪い話者に対しての助け
とするためであり、これをここではヘルプモードとい
う。以下、このヘルプモードについて説明する。

【０１６７】装置側の操作部１１には、肯定を意味する
肯定ボタンＢＴ２１と否定を意味する否定ボタンＢＴ２
２を設ける。つまり、話者によって肯定ボタンＢＴ２１
が押されると、制御部５では肯定であると判断し、否定
ボタンＢＴ２２が押されると制御部５では否定であると
判断する。

【０１６８】そして、ヘルプモードとするには、これま
で説明してきた通常の認識モードにおいて、たとえば、
肯定ボタンＢＴ２１と否定ボタンＢＴ２２が同時に数秒
（２秒程度）以上押されることにより、制御部５がそれ
を検出してヘルプモードの設定がなされたと判定し、ヘ
ルプモードへの移行を行う。なお、このヘルプモードへ
の移行は、肯定ボタンＢＴ２１と否定ボタンＢＴ２２が
同時に数秒以上押されるという条件に限られるものでは
なく、他の方法でもよい。

【０１６９】このようにして、ヘルプモードに入ると、
装置側では音声認識動作は行わず、話者によって、肯定
ボタンＢＴ２１か否定ボタンＢＴ２２のいずれかが押さ
れたことを検知して、それに応じて処理を進行して行
く。

【０１７０】図９はこのヘルプモードを備えた場合の認
識処理を説明するフローチャートである。図９におい
て、Ｍ１は通常の認識モード時における処理手順、Ｍ２
はヘルプモード時における処理手順であり、通常の認識
モードＭ１からヘルプモードＭ２への移行は肯定ボタン
ＢＴ２１と否定ボタンＢＴ２２が同時に数秒（２秒程
度）以上押されるボタン割り込み（ステップｓ１１０）
によって移行する。なお、この図９に示される通常の認
識モードＭ１における音声入力（ステップｓ１２１）か
ら所定の処理（ステップｓ１２７）まで処理は、図２で
示したステップｓ１〜ｓ７までの処理と同様であるので
ここではその説明は省略する。

【０１７１】今、通常の認識モードにより認識を行って
いるとし、この通常の認識モードにおいて、肯定ボタン
ＢＴ２１と否定ボタンＢＴ２２による割り込みが発生し
たとする（ステップｓ１１０）。

【０１７２】これにより、ヘルプモードの設定がなされ
たか否かを判断し（ステップｓ１１１）、ヘルプモード
の設定であれば、ヘルプモードであることを話者に通知
する（ステップｓ１１２）。なお、ステップｓ１１２に
よるヘルプモードの設定か否かは、ここでは、肯定ボタ
ンＢＴ２１と否定ボタンＢＴ２２が同時に数秒（２秒程
度）以上押されたか否かによって判断する。

【０１７３】このようにして、ヘルプモードＭ２への移
行がなされると、肯定ボタンＢＴ２１または否定ボタン
ＢＴ２２の入力待ち状態となり（ステップｓ１１３）、
肯定ボタンＢＴ２１または否定ボタンＢＴ２２のいずれ
かが押されたか否かを判断し（ステップｓ１１４）、押
されたボタンが肯定ボタンＢＴ２１または否定ボタンＢ
Ｔ２２のいずれかであるか、あるいは、押された状態が
どの程度継続しているかなどの判断を行い（ステップｓ
１１５）、それに対する所定の処理を行う（ステップｓ
１１６）。

【０１７４】たとえば、話者が装置に対して設定したい
情報としての候補を、それでよいかどうかを話者に問い
かける質問形式で装置側から１つ１つ出力し、１つの候
補が出力される都度、出力された候補について肯定ボタ
ンＢＴ２１または否定ボタンＢＴ２２のいずれかのボタ
ン入力を受け付け、肯定ボタンＢＴ２１の入力を受け付
けたときは、当該候補を前記設定情報として確定し、否
定ボタンＢＴ２２の入力を受け付けたときは、次の候補
を出力する。なお、この具体的な処理内容についてはの
ちに説明する。

【０１７５】そして、ヘルプモードが終了かどうかを判
断し（ステップｓ１１７）、終了していなければステッ
プｓ１１３に戻り、終了していれば、通常の認識モード
Ｍ１に戻る。

【０１７６】以下に具体的な操作例について図１０の状
態遷移図を参照しながら説明する。なお、図１０におい
て、括弧内の操作は話者の行う操作である。

【０１７７】装置側からは、まず、「ヘルプモードとな
りました」というように、ヘルプモードとなったことを
話者に知らせる（ステップｓ１３１）。つづいて、装置
側からは、「現在時刻の設定ですか」というように、話
者が装置に対して設定したい情報を発話する（ステップ
ｓ１３２）。この発話内容を話者が肯定する場合は、肯
定ボタンＢＴ２１を押し（ステップｓ１３３）、それに
よって、現在時刻設定モードに入る（ステップｓ１３
４）。

【０１７８】また、現在時刻設定でなければ、否定ボタ
ンＢＴ２２を押す（ステップｓ１３５）。これにより、
装置側からは、「アラーム時刻の設定ですか」というよ
うな内容を発話する（ステップｓ１３６）。この発話内
容を話者が肯定する場合は、肯定ボタンＢＴ２１を押し
（ステップｓ１３７）、それによって、アラーム時刻設
定モードに入る（ステップｓ１３８）。また、アラーム
時刻設定でなければ、否定ボタンＢＴ２２を押す（ステ
ップｓ１３９）。

【０１７９】このように、装置側からの１つ１つの質問
について、話者は「はい」または「いいえ」と応答する
代わりに、肯定ボタンＢＴ２１または否定ボタンＢＴ２
２を押す。これにより、装置側では、そのボタン操作に
応じて処理を進めて行く。質問内容は、以上の２つだけ
ではなく、その他にも、たとえば、「登録単語入力を行
いますか」などがあるが、この図１０ではこれらの処理
についての図示は省略されている。

【０１８０】また、肯定ボタンＢＴ２１と否定ボタンＢ
Ｔ２２を誤って操作したときは、肯定ボタンＢＴ２１と
否定ボタンＢＴ２２を瞬間的に同時操作することによっ
て、１つ前の質問に戻れるようにする。

【０１８１】前述した現在時刻設定モード（ステップｓ
１３４）について簡単に説明する。肯定ボタンＢＴ２１
または否定ボタンＢＴ２２を用いての現在時刻設定は、
まず、装置側から、「午前」か否かを質問する。これに
対して、話者が肯定ボタンＢＴ２１を押せば午前が確定
し、否定ボタンＢＴ２２を押せば「午後」が確定する。

【０１８２】午前または午後が確定した後は、装置側か
らは、まず、「１時ですか」と質問し、話者の設定した
い時刻の時間の単位が「１時」であれば、肯定ボタンＢ
Ｔ２１を押し、これにより、１時が確定する。また、１
時でなければ否定ボタンＢＴ２２を押す。これにより、
装置側から「２時ですか」と質問し、話者の設定したい
時刻の時間の単位が「２時」であれば、肯定ボタンＢＴ
２１を押し、これにより、２時が確定する。また、２時
でなければ否定ボタンＢＴ２２を押す。

【０１８３】このような手順は時間の単位が確定するま
で行われる。そして、時間の単位が確定すると、次に、
分の単位の処理に入る。

【０１８４】分の単位の動作も基本的には、前述した時
の単位の動作と同じであるのでここではその説明は省略
する。ただし、分の単位は、１分から始まって１分刻み
に５９分まですべて発話するのは操作が面倒であるし、
多くの時間がかかる。特に、話者の設定したい分単位に
時刻が分台の終わりの方（たとえば、５９分）である
と、多くの時間がかかる。

【０１８５】そこで、分の単位の設定モード時おいて
は、否定ボタンＢＴ２２が押され続けた場合には、装置
側からは、たとえば、「１０分」、（１秒おいて）、
「２０分」、（１秒おいて）、「３０分」、・・・とい
うように、１秒ごとに、１０分単位で音声出力し、装置
側から「５０分」と発話したところで、話者が否定ボタ
ンＢＴ２２の操作をやめると５０分を基点に、通常の動
作に戻り、装置側が「５１分」と発話すると、否定ボタ
ンＢＴ２２を押して、次に「５２分」と発話すると、否
定ボタンＢＴ２２を押すという動作を行って、「５９
分」で肯定ボタンＢＴ２１を押して、５９分を設定する
というような設定方法としてもよい。

【０１８６】以上のように、時刻設定は、設定に多くの
時間を要する場合もあり、少しでも設定に要する時間を
短縮するために、装置側から音声の出力中にも肯定ボタ
ンＢＴ２１、否定ボタンＢＴ２２の入力を受け付けるよ
うにする。その他、使い勝手をよくするために、肯定ボ
タンＢＴ２１、否定ボタンＢＴ２２の押し方（連続押
し、同時押しなど）でそれに対応した機能をなすような
設定としておき、装置側から、音声による使い方の説明
などを行うようにすることもできる。

【０１８７】このように、話者が装置に対して設定した
い情報（設定情報）を発話したときその設定情報が装置
側で正しく認識されない場合には、ヘルプモードの設定
を可能とすることによって、装置側から質問形式で前記
設定情報としての候補を１つ１つ順番に出力し、１つの
候補が出力される都度、肯定ボタンＢＴ２１の入力を受
け付けたときは、当該候補を前記設定情報として確定
し、否定ボタンＢＴ２２の入力を受け付けたときは、次
の候補を出力することで、話者が装置に対して設定した
い情報をボタン操作で設定することができる。

【０１８８】これにより、個々の話者の声質や話し方の
特徴によって良好に認識されない場合でも、時刻設定な
どある程度の情報設定は十分可能となる。また、話すこ
とが不自由な人でも時刻設定などを容易に行うことがで
きる。

【０１８９】ところで、これまで説明したこの実施の形
態における音声時計装置は、現在時刻が話者の設定した
アラーム時刻になったとき、話者が鳴り止めを行うま
で、装置側からは現在時刻を出力し続けるようにする。
たとえば、設定されたアラームが、午前１時２０分であ
るとし、その時刻に到達すると、装置側からは、「午前
１時２０分です」と発話し、その１分経過後に、「午前
１時２１分です」と発話し、さらに、１分経過後に、
「午前１時２２分です」というように、１分刻みで現在
時刻を発話する。これを話者が鳴り止め操作を行うまで
続ける。なお、１分刻みでなくてもよく、たとえば１０
秒ごとに現在時刻を発話するようにしてもよい。

【０１９０】さらに、このアラームを発するとき、時刻
だけではなく「早くおきなさい」といった言葉や、言葉
と音楽を合成して出力することも可能である。

【０１９１】また、話者からの鳴り止め操作としては、
装置から前述したような時刻の発話があったあと、話者
が何らかの音声を発することにより行う方法や、ボタン
を操作する方法などがある。

【０１９２】話者が何らかの音声を発することにより鳴
り止めさせるには、話者の入力した音声のレベルが一定
以上あり、しかも、その一定以上のレベルが一定の長さ
の場合に鳴り止めとする。なお、このときは、音声認識
は行わない。また、これとは別に、話者が予め決めたあ
る特定の単語を発話し、それを装置側で認識した場合に
のみ鳴り止めとするということもできる。また、音声を
入力する代わりにボタン操作で鳴り止めを行う際は、専
用のボタンを設けることも可能であるが、前述した肯定
ボタンＢＴ２１や否定ボタンＢＴ２２で代用することも
できる。

【０１９３】さらに、音量調節スイッチＶＳＷが設けら
れている場合には、その音量調節スイッチＶＳＷをオフ
とすることによって鳴り止めとすることもできる。

【０１９４】この音量調節スイッチＶＳＷは、装置側か
らの出力音声の音量を調整するスイッチであり、操作部
１１によってこの音量調節スイッチＶＳＷを調節するこ
とにより音声出力用アンプ７が制御され、出力音声の大
きさを設定できる。この音量調節の具体例としては、た
とえば、出力音声を「大」、「中」、「小」というよう
に切替設定することが可能であり、さらに、音声の全く
出ない状態とする「オフ」とすることもできるようにな
っている。

【０１９５】このような音声認識機能を有した装置を家
庭内で使用する場合、テレビジョンから発せられる音
声、家庭内の人間の会話などにより、音声時計がいちい
ち反応して、不用意に音声を発するのを防止する役目を
果たしている。なお、音量調節スイッチＶＳＷをオフし
た場合、消費電力を少なくするために、アンプなど周辺
回路への電源供給を停止して、制御部（ＣＰＵ）５をス
リープ状態とする。そして、音量調節スイッチＶＳＷが
オンとなると、ＣＰＵ割り込みでＣＰＵを動作させ、周
辺回路への電力供給を行う。

【０１９６】さらに、本発明の実施の形態では、話者の
入力する音声に対する応答内容は、複数用意し、それを
ランダムに変えて出力することも可能としている。これ
は、ユーザを飽きさせないための配慮であり、たとえ
ば、、話者が「おはよう」と入力したときの装置側から
の応答内容を複数用意しておき、「おはよう」に対する
複数の応答内容のなかからランダムに応答内容を選択し
て出力するようにする。

【０１９７】これにより、ユーザはその装置を長期間使
用していても飽きることが少なくなる。

【０１９８】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。

【０１９９】その１つとして、認識可能な複数の単語の
うち、幾つかの単語を登録単語として選び、それぞれの
登録単語を認識対象話者が発話し、その音声データから
各登録単語ごとの登録単語データを作成して保存し、前
記認識対象話者から当該登録単語が発話された場合に
は、当該登録単語データを用いて音声認識し、それ以外
の認識可能な単語が発話された場合には、前記標準話者
音声モデルデータを用いて音声認識する処理を実現する
際、前述の実施の形態では、図１に示すように、前記認
識対象話者を、年齢や性別などに基づいて予め設定した
範囲に絞り込み、当該範囲に属する不特定多数話者の音
声データから特定話者群音声モデルデータ９２（第１〜
第３の特定話者群音声モデルデータＭＤ１，ＭＣ２，Ｍ
Ｄ３からなっている）を作成して、それを前記標準話者
音声モデルデータとして保存した場合の例で説明した
が、これに限られることなく、図１１に示すように、従
来から用いられているあらゆる範囲の話者に対応できる
標準話者音声モデルデータそのものを用いた場合にも適
用できる。

【０２００】この図１１の例で示される標準話者音声モ
デルデータ９５は、前述したように、特定話者群に対応
した音声モデルデータではなく、あらゆる範囲の話者に
対応できる標準話者音声モデルデータである。これに伴
い、図１で示された第１〜第３の特定話者群コードブッ
クＣＢ１，ＣＢ２，ＣＢ３も、この場合は、標準話者音
声モデルデータ９５に基づいて作成された標準話者コー
ドブック９６となる。

【０２０１】その他の処理手順については図１の場合と
同じであるので、ここではその説明は省略する。

【０２０２】このような構成であっても、本発明が行お
うとする基本的な処理は可能となる。すなわち、認識可
能な複数の単語のうち、幾つかの単語を登録単語として
選び、それぞれの登録単語を認識対象話者が発話し、そ
の音声データから各登録単語ごとの登録単語データＲＤ
１，ＲＤ２，ＲＤ３を作成してＲＡＭ１０に保存し、前
記認識対象話者から当該登録単語が発話された場合に
は、当該登録単語データＲＤ１，ＲＤ２，ＲＤ３を用い
て音声認識し、それ以外の認識可能な単語が発話された
場合には、前記標準話者音声モデルデータ９５を用いて
音声認識する。

【０２０３】また、前述の実施の形態で示した音声時計
は、前述の実施の形態で説明したような様々な機能を有
したものとすることも勿論可能であるが、これらの機能
は、すべて必要なものではない。したがって、操作部１
１に設けられる各種のスイッチや操作用のボタンなど
も、その機能を働かせるに必要なボタンのみを設ければ
よい。また、前述の実施の形態で説明した各種処理内容
は、実施の形態で説明された内容に限られるものではな
い。たとえば、話者学習処理としては、前述の実施の形
態では、ユニバーサルコードブック９４を用いて量子化
コードブックＶＱ１，ＶＱ２，ＶＱ３を作成し、認識時
にはこの量子化コードブックを用いて話者適応するよう
にしたが、これに限らず、登録単語データＲＤ１，ＲＤ
２，ＲＤ３と第１〜第３の特定話者群者音声モデルデー
タＭＤ１，ＭＤ２．ＭＤ３から作成した写像関数を用い
て話者適応することもでき、また、この写像関数と第１
〜第３の特定話者群コードブックＣＢ１，ＣＢ２，ＣＢ
３により作成された入力話者コードブック（ユニバーサ
ルコードブック９４を用いてベクトル量子化する前のコ
ードブック）を用いて話者適応することも可能である。

【０２０４】さらに、前述の実施の形態では、複数の話
者群に属する話者（話者＃１、＃２、＃３）が１つの装
置を使用することを想定した例であるため、特定話者群
音声モデルデータもそれに対応して第１〜第３の特定話
者群音声モデルデータＭＤ１，ＭＤ２．ＭＤ３を設けた
が、装置の種類によっては、使用者をある１つの話者群
に属する話者（たとえば子供）のみを対象とできる場合
もあり、このような場合には、特定話者群音声モデルデ
ータもそれに対応して１つの特定話者群音声モデルデー
タのみを持てばよく、これによれば、ＲＯＭ９の容量を
より一層小さくすることができ、制御部５の処理能力も
小さいもので済み、その他、ＲＡＭ１０の容量も小さい
もの出よく、装置全体のコストを大幅に小さく押さえる
ことが可能となる。

【０２０５】さらに、前述の実施に形態では、各種のモ
ード設定などを操作部に設けられた各種ボタンによって
行う例を示したが、ボタンは全く設けずに、全て音声に
よって設定可能とすることもできる。

【０２０６】また、以上説明した本発明の処理を行う処
理プログラムは、フロッピィディスク、光ディスク、ハ
ードディスクなどの記録媒体に記録させておくことがで
き、本発明はその記録媒体をも含むものである。また、
ネットワークから処理プログラムを得るようにしてもよ
い。

【０２０７】

【発明の効果】以上説明したように本発明では、予め用
意された認識可能な複数の単語のうち、幾つかの単語を
登録単語として選び、それぞれの登録単語を認識対象と
なる話者が発話し、その音声データから各登録単語ごと
の登録単語データを作成して保存するようにしている。
特に、登録単語として使用頻度の高い単語を選ぶことに
より、これらの単語に対しての認識性能を向上させるこ
とができ、認識可能単語全体から見た認識率の向上にも
つながり、使い勝手のよいものとなる。

【０２０８】さらに、このように幾つかの単語を登録単
語として話者が対応の登録単語データを作成することに
より、この登録単語データと標準話者音声モデルデータ
または特定話者群音声モデルデータとを用いて話者学習
処理を行うことができる。これにより、登録単語以外の
認識可能単語についても、話者学習されたデータを用い
話者適応による音声認識が可能となり、登録単語のみな
らず認識可能単語全体について認識率を大幅に向上させ
ることができる。

【０２０９】また、標準話者音声モデルデータまたは特
定話者群音声モデルデータに基づいて作成されたいずれ
かのコードブックにコードマッピングして作成された入
力話者用コードブックを作成し、さらに、その入力話者
コードブックを、広い範囲の話者から作成されたユニバ
ーサルコードブックを用いてベクトル量子化して量子化
入力話者コードブックを作成して、認識時にはこの量子
化入力話者コードブックを用いて話者適応による認識処
理を行うようにしている。このように、データ量を大幅
に削減された量子化入力話者コードブックを用いて話者
適応による認識処理が可能となるので、これらを保存す
る記憶手段（ＲＡＭ）を小規模なものとすることがで
き、また、認識処理に必要な演算量を大幅に少なくする
ことができるので、制御部（ＣＰＵ）にかかる処理負担
を大幅に減らすことができ、小さな処理能力のＣＰＵで
対応することができるようになる。

【０２１０】また、本発明では、認識対象とする話者
を、年齢や性別などに基づいて予め設定した範囲に絞り
込み、当該範囲に属する不特定多数話者の音声データか
ら特定話者群音声モデルデータを作成して保存し、この
特定話者群音声モデルデータを用いて前記認識対象とす
る話者の入力した音声を認識するようにしている。これ
により、ある範囲の話者群に対応する特定話者群音声モ
デルデータのみを持てばよいので、従来のあらゆる範囲
の話者に対応できるように作成された標準話者音声モデ
ルデータに比べると、そのデータ量を大幅に少なくする
ことができる。したがって、その特定話者群音声モデル
データを保存するメモリ（ＲＯＭ）の記憶容量は小さい
もので済み、また、ＣＰＵにかかる認識処理の負担も少
なくすることができ、メモリの容量やＣＰＵの処理能力
に大きな制約のある安価な製品に適した音声認識技術で
あるといえる。しかも、特定の話者群に対応した特定話
者群音声モデルデータであるので、認識性能も大幅に向
上する。

【０２１１】また、本発明は、このようなある特定の範
囲の話者群に対応する特定話者群音声モデルデータを、
幾つか用意することもできる。たとえば、成人男性用、
成人女性用、子供用など幾つかの話者群に対応して用意
することも可能である。これによれば、１つの装置を家
族で使用するような場合にも対応できる。このように、
幾つかの話者群対応の特定話者群音声モデルデータを持
ったとしても、あらゆる範囲の話者に対応できるように
作成された標準話者音声モデルデータを持つよりは、音
声モデルデータの規模をを小さくでき、しかも、それぞ
れの話者群に対応した音声モデルデータであるので、認
識性能も大幅に向上する。

【図面の簡単な説明】

【図１】本発明の音声認識装置の実施の形態を説明する
ブロック図。

【図２】話者に対応した音声モデルデータ（特定話者群
音声モデルデータ）を用いて音声認識処理を行う例を説
明するフローチャート。

【図３】本発明の実施の形態である音声時計装置の外観
を概略的に示す図。

【図４】話者学習処理を可能とした音声認識処理の全体
的な処理手順を説明するフローチャートであり、特定の
一人の話者に対する処理手順を説明するフローチャート
である。

【図５】話者学習処理を可能とした音声認識処理の全体
的な処理手順を説明するフローチャートであり、複数の
話者に対する処理手順を説明するフローチャートであ
る。

【図６】本発明の実施の形態における連続した３単語
（「午前」、「１時」、「２０分」）の認識処理を説明
する状態遷移図。

【図７】図７で示した３単語の認識処理を一般的な連続
単語認識処理として適用する場合の処理手順を説明する
フローチャート。

【図８】話者の音声入力操作の状況に応じてマイクアン
プのゲイン切り替えを含む処理手順を説明するフローチ
ャート。

【図９】ヘルプモードを備えた音声認識処理手順を説明
するフローチャート。

【図１０】音声認識処理について本発明の実施の形態に
おけるヘルプモード（肯定ボタンと否定ボタンによる
「はい」または「いいえ」の入力モード）を説明する状
態遷移図。

【図１１】本発明の音声認識装置の他の実施の形態の構
成を説明するブロック図である。

【符号の説明】

１マイクロホン２音声入力用アンプ（マイクアンプ）３Ａ／Ｄ変換部４音声分析部５制御部（ＣＰＵ）６Ｄ／Ａ変換部７音声出力用アンプ８スピーカ９ＲＯＭ１０ＲＡＭ１１操作部１２計時手段９１出力音声データ９２特定話者群者音声モデルデータ９３特定話者群コードブック９４ユニバーサルコードブック９５標準話者音声モデルデータ９３標準話者コードブック１０１登録単語データＭＤ１，ＭＤ２，ＭＤ３第１〜第３の特定話者群音声
モデルデータＣＢ１，ＣＢ２，ＣＢ３第１〜第３の特定話者群コー
ドブックＲＤ１，ＲＤ２，ＲＤ３話者＃１〜話者＃３用の登録
単語データＶＱ１，ＶＱ２，ＶＱ３話者＃１〜話者＃３用の量子
化コードブック

【手続補正書】

【提出日】平成１１年９月１３日（１９９９．９．１
３）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００１２

【補正方法】変更

【補正内容】

【００１２】

【課題を解決するための手段】本願発明の音声認識方法
は、不特定複数話者の音声データから作成された標準話
者音声モデルデータを有し、予め定められた複数の単語
を認識可能とする音声認識方法において、前記認識可能
な複数の単語のうち、幾つかの単語を登録単語として選
び、それぞれの登録単語を認識対象話者が発話し、その
音声データから各登録単語ごとの登録単語データを作成
して保存し、かつ、その登録単語データと前記標準話者
音声モデルデータまたは年齢や性別など予め設定された
範囲に属する不特定複数話者の音声データから作成され
た特定話者音声モデルデータとを用いて話者学習処理を
行い、前記認識対象話者から前記登録単語が発話された
場合には、前記登録単語データを用いて音声認識し、前
記登録単語以外の認識可能単語を認識する際は、前記話
者学習処理後のデータを用い話者適応して音声認識し、
前記話者学習処理は、前記標準話者音声モデルデータま
たは前記特定話者音声モデルデータに基づいて作成され
たいずれかのコードブックとコードブックマッピング法
によって入力話者用のコードブックを作成し、さらに、
その入力話者コードブックをユニバーサルコードブック
を用いてベクトル量子化して量子化入力話者コードブッ
クを作成する処理を含むことを特徴としている。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００１３

【補正方法】変更

【補正内容】

【００１３】また、本発明の音声認識装置は、不特定複
数話者の音声データから作成された標準話者音声モデル
データを有し、予め定められた複数の単語を認識可能と
する音声認識装置において、少なくとも、話者の発話し
て得られた音声を分析する音声分析手段と、前記認識可
能な複数の単語のうち、幾つかの単語を登録単語として
選び、それぞれの登録単語を認識対象話者が発話して得
られた音声データから各登録単語ごとに作成された登録
単語データと、その登録単語データと前記標準話者音声
モデルデータまたは年齢や性別など予め設定された範囲
に属する不特定複数話者の音声データから作成された特
定話者音声モデルデータとを用いて話者学習処理を行
い、前記認識対象話者から当該登録単語が発話された場
合には、前記登録単語データを用いて音声認識し、前記
登録単語以外の認識可能単語を認識する際は、前記話者
学習処理後のデータを用い話者適応して音声認識する制
御部とを有し、前記話者学習処理は、前記標準話者音声
モデルデータまたは前記特定話者音声モデルデータに基
づいて作成されたいずれかのコードブックとコードブッ
クマッピング法によって入力話者用のコードブックを作
成し、さらに、その入力話者コードブックをユニバーサ
ルコードブックを用いてベクトル量子化して量子化入力
話者コードブックを作成する処理を含むことを特徴とし
ている。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００１４

【補正方法】変更

【補正内容】

【００１４】また、本発明の音声認識処理プログラムを
記録した記録媒体は、不特定複数話者の音声データから
作成された標準話者音声モデルデータを有し、予め定め
られた複数の単語を認識可能とする音声認識処理プログ
ラムを記録した記録媒体であって、その処理プログラム
は、前記認識可能な複数の単語のうち登録単語として選
ばれた幾つかの単語について、認識対象話者が発話して
得られた音声データから各登録単語ごとの登録単語デー
タを作成して保存する手順と、その登録単語データと前
記標準話者音声モデルデータまたは年齢や性別など予め
設定された範囲に属する不特定複数話者の音声データか
ら作成された特定話者音声モデルデータとを用いて話者
学習処理を行う手順と、前記認識対象話者から当該登録
単語が発話された場合には、前記登録単語データを用い
て音声認識し、前記登録単語以外の認識可能単語を認識
する際は、前記話者学習処理後のデータを用い話者適応
して音声認識する手順とを含み、前記話者学習処理は、
前記標準話者音声モデルデータまたは前記特定話者音声
モデルデータに基づいて作成されたいずれかのコードブ
ックとコードブックマッピング法によって入力話者用の
コードブックを作成し、さらに、その入力話者コードブ
ックをユニバーサルコードブックを用いてベクトル量子
化して量子化入力話者コードブックを作成する処理を含
むことを特徴としている。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００１５

【補正方法】削除

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００１６

【補正方法】削除

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００１７

【補正方法】削除

【手続補正８】

【補正対象書類名】明細書

【補正対象項目名】００１８

【補正方法】削除

【手続補正９】

【補正対象書類名】明細書

【補正対象項目名】００１９

【補正方法】削除

【手続補正１０】

【補正対象書類名】明細書

【補正対象項目名】００２０

【補正方法】削除

【手続補正１１】

【補正対象書類名】明細書

【補正対象項目名】００２１

【補正方法】削除

【手続補正１２】

【補正対象書類名】明細書

【補正対象項目名】００２２

【補正方法】削除

【手続補正１３】

【補正対象書類名】明細書

【補正対象項目名】００２３

【補正方法】削除

【手続補正１４】

【補正対象書類名】明細書

【補正対象項目名】００２４

【補正方法】削除

【手続補正１５】

【補正対象書類名】明細書

【補正対象項目名】００２５

【補正方法】削除

【手続補正１６】

【補正対象書類名】明細書

【補正対象項目名】００２６

【補正方法】削除

【手続補正１７】

【補正対象書類名】明細書

【補正対象項目名】００２７

【補正方法】削除

【手続補正１８】

【補正対象書類名】明細書

【補正対象項目名】００２８

【補正方法】削除

【手続補正１９】

【補正対象書類名】明細書

【補正対象項目名】００２９

【補正方法】削除

───────────────────────────────────────────────────── フロントページの続き (72)発明者長谷川浩長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内 (72)発明者池尻昌久長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内Ｆターム(参考） 5D015 AA02 BB01 FF05 GG01 GG06 LL10

Claims

【特許請求の範囲】

【請求項１】不特定複数話者の音声データから作成さ
れた標準話者音声モデルデータを有し、予め定められた
複数の単語を認識可能とする音声認識方法において、前記認識可能な複数の単語のうち、幾つかの単語を登録
単語として選び、それぞれの登録単語を認識対象話者が
発話し、その音声データから各登録単語ごとの登録単語
データを作成して保存し、前記認識対象話者から当該登
録単語が発話された場合には、当該登録単語データを用
いて音声認識し、それ以外の認識可能な単語が発話され
た場合には、前記標準話者音声モデルデータを用いて音
声認識することを特徴とする音声認識方法。
【請求項２】前記認識可能な複数の単語は、それぞれ
単語の種類に応じて複数に区分され、それぞれの区分対
応の単語セットとして用意されており、装置側はその時
点の動作場面においてどの単語セットに属する単語を認
識するかが設定されていて、現時点ではどの単語セット
に属する単語が入力される場面かを判断し、その判断結
果に基づき当該場面にて入力された単語の認識を行うこ
とを特徴とする請求項１記載の音声認識方法。
【請求項３】前記認識対象話者を、年齢や性別などに
基づいて予め設定した範囲に絞り込み、当該範囲に属す
る不特定複数話者の音声データから特定話者群音声モデ
ルデータを作成し、これを前記標準話者群音声モデルデ
ータとして保存することを特徴とする請求項１または２
に記載の音声認識方法。
【請求項４】前記認識対象話者は、音声の特徴に基づ
く複数の話者群から構成され、前記特定話者群音声モデ
ルデータは、それぞれの話者群に属する不特定複数話者
の音声データから作成された前記複数の話者群対応の特
定話者群音声モデルデータからなることを特徴とする請
求項３記載の音声認識方法。
【請求項５】前記登録単語データと前記標準話者音声
モデルデータまたは前記特定話者群音声モデルデータと
を用いて話者学習処理を行い、前記登録単語以外の認識
可能単語を認識する際は、前記話者学習後のデータを用
い話者適応して音声認識することを特徴とする請求項１
から４のいずれかに記載の音声認識方法。
【請求項６】前記話者学習処理は、前記標準話者音声
モデルデータまたは前記特定話者群音声モデルデータに
基づいて作成されたいずれかのコードブックとコードブ
ックマッピング法によって入力話者用のコードブックを
作成し、さらに、その入力話者コードブックをユニバー
サルコードブックを用いてベクトル量子化して量子化入
力話者コードブックを作成する処理を含むことを特徴と
する請求項５載の音声認識方法。
【請求項７】不特定複数話者の音声データから作成さ
れた標準話者音声モデルデータを有し、予め定められた
複数の単語を認識可能とする音声認識装置において、少
なくとも、話者の発話して得られた音声を分析する音声分析手段
と、前記認識可能な複数の単語のうち、幾つかの単語を登録
単語として選び、それぞれの登録単語を認識対象話者が
発話して得られた音声データから各登録単語ごとに作成
された登録単語データと、前記認識対象話者から当該登録単語が発話された場合に
は、当該登録単語データを用いて音声認識し、それ以外
の認識可能な単語が発話された場合には、前記標準話者
音声モデルデータを用いて音声認識する制御部と、を有することを特徴とする音声認識装置。
【請求項８】前記認識可能な複数の単語は、それぞれ
単語の種類に応じて複数に区分され、それぞれの区分対
応の単語セットとして用意されており、装置側はその時
点の動作場面においてどの単語セットに属する単語を認
識するかが設定されていて、現時点ではどの単語セット
に属する単語が入力される場面かを判断し、その判断結
果に基づき当該場面にて入力された単語の認識を行うこ
とを特徴とする請求項７記載の音声認識装置。
【請求項９】前記認識対象話者を、年齢や性別などに
基づいて予め設定した範囲に絞り込み、当該範囲に属す
る不特定複数話者の音声データから特定話者群音声モデ
ルデータを作成し、これを前記標準話者群音声モデルデ
ータとして保存することを特徴とする請求項７または８
に記載の音声認識装置。
【請求項１０】前記認識対象話者は、音声の特徴に基
づく複数の話者群から構成され、前記特定話者群音声モ
デルデータは、それぞれの話者群に属する不特定複数話
者の音声データから作成された前記複数の話者群対応の
特定話者群音声モデルデータからなることを特徴とする
請求項９記載の音声認識装置。
【請求項１１】前記登録単語データと前記標準話者音
声モデルデータまたは前記特定話者群音声モデルデータ
とを用いて話者学習処理を行い、前記登録単語以外の認
識可能単語を認識する際は、前記話者学習後のデータを
用い話者適応して音声認識することを特徴とする請求項
７から１０のいずれかに記載の音声認識装置。
【請求項１２】前記話者学習処理は、前記標準話者音
声モデルデータまたは前記特定話者群音声モデルデータ
に基づいて作成されたいずれかのコードブックとコード
ブックマッピング法によって入力話者用のコードブック
を作成し、さらに、その入力話者コードブックをユニバ
ーサルコードブックを用いてベクトル量子化して量子化
入力話者コードブックを作成する処理を含むことを特徴
とする請求項１１載の音声認識装置。
【請求項１３】不特定複数話者の音声データから作成
された標準話者音声モデルデータを有し、予め定められ
た複数の単語を認識可能とする音声認識処理プログラム
を記録した記録媒体であって、その処理プログラムは、前記認識可能な複数の単語のうち登録単語として選ばれ
た幾つかの単語について、認識対象話者が発話して得ら
れた音声データから各登録単語ごとの登録単語データを
作成して保存する手順と、前記認識対象話者から当該登録単語が発話された場合に
は、当該登録単語データを用いて音声認識し、それ以外
の認識可能な単語が発話された場合には、前記標準話者
音声モデルデータを用いて音声認識する手順と、を含むことを特徴とする音声認識処理プログラムを記録
した記録媒体。
【請求項１４】前記認識可能な複数の単語は、それぞ
れ単語の種類に応じて複数に区分され、それぞれの区分
対応の単語セットとして用意されており、装置側はその
時点の動作場面においてどの単語セットに属する単語を
認識するかが設定されていて、現時点ではどの単語セッ
トに属する単語が入力される場面かを判断し、その判断
結果に基づき当該場面にて入力された単語の認識を行う
ことを特徴とする請求項１３記載の音声認識処理プログ
ラムを記録した記録媒体。
【請求項１５】さらに、前記認識対象話者を、年齢や
性別などに基づいて予め設定した範囲に絞り込み、当該
範囲に属する不特定複数話者の音声データから特定話者
群音声モデルデータを作成し、これを前記標準話者群音
声モデルデータとして保存する手順を含むことを特徴と
する請求項１３または１４に記載の音声認識処理プログ
ラムを記録した記録媒体。
【請求項１６】前記特定話者群音声モデルデータを作
成し、これを前記標準話者群音声モデルデータとして保
存する手順において、認識対象話者は、音声の特徴に基
づく複数の話者群から構成され、前記特定話者群音声モ
デルデータは、それぞれの話者群に属する不特定複数話
者の音声データから前記複数の話者群対応の特定話者群
音声モデルデータを作成することを特徴とする請求項１
５に記載の音声認識処理プログラムを記録した記録媒
体。
【請求項１７】さらに、前記登録単語データと前記標
準話者音声モデルデータまたは前記特定話者群音声モデ
ルデータとを用いて話者学習処理を行う手順を有し、前
記登録単語以外の認識可能単語を認識する際は、前記話
者学習後のデータを用い話者適応して音声認識すること
を特徴とする請求項１３から１６のいずれかに記載の音
声認識処理プログラムを記録した記録媒体。
【請求項１８】前記話者学習処理は、前記標準話者音
声モデルデータまたは前記特定話者群音声モデルデータ
に基づいて作成されたいずれかのコードブックとコード
ブックマッピング法により入力話者用のコードブックを
作成し、さらに、その入力話者コードブックをユニバー
サルコードブックを用いてベクトル量子化して量子化入
力話者コードブックを作成する処理を含むことを特徴と
する請求項１７に記載の音声認識処理プログラムを記録
した記録媒体。