JPH09212186A

JPH09212186A - 音声認識方法およびこの方法を実施する装置

Info

Publication number: JPH09212186A
Application number: JP8014869A
Authority: JP
Inventors: Kiyoshi Sugimoto; 清杉本; Yoshio Nakadai; 芳夫中台; Yutaka Nishino; 豊西野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-01-31
Filing date: 1996-01-31
Publication date: 1997-08-15

Abstract

(57)【要約】【課題】操作を単純にし、使用者の操作負担を軽減す
ると共に発声パターンの変化に柔軟に対応する音声認識
方法およびこの方法を実施する装置を提供する。【解決手段】入力された音声信号について特徴パター
ンを抽出し、標準パターンが過去に１個も入力されてい
ない未登録である場合この入力した音声の特徴パターン
を直接に標準パターンとして登録し、現在入力した音声
の特徴パターンと過去に入力した音声の特徴パターンと
の間のマッチングをとり、マッチング結果の特徴パター
ンと両特徴パターンの類似の度合を示す尤度とを出力
し、現在入力した音声の特徴パターンを標準パターンと
して登録する音声認識方法。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声認識方法お
よびこの方法を実施する装置に関し、特に、入力された
音声パターンは標準パターンとして全て登録し、登録内
容を、逐次、最新のパターンに更新し或は標準パターン
の内容に未だ登録されていない入力パターンを追加登録
することにより、使用者或は発声者の発声パターンの変
化に柔軟に対応する音声認識方法およびこの方法を実施
する装置に関する。

【０００２】

【従来の技術】従来例を図５を参照して説明する。発声
者は、音声入力部１を介して音声認識装置に音声を入力
する。音声入力部１は音声を音声信号に変換するもので
あり、電話機においてはハンドセットの送話器がこれに
相当する。この音声入力部１は電話機以外の他の装置の
一部であっても良く、対象とする音声はデジタル信号に
置き換えたものでも良い。

【０００３】音声認識部２は、次の２つの機能を有す
る。その内の１つとして、音声入力部１を介して受信し
た音声について音声区間を検出し、検出された音声区間
に対する音声スペクトルの特徴を表す時系列パラメータ
である入力パターンを抽出する機能を有する。そして、
特徴抽出した入力パターンと標準パターン登録部３に内
蔵される標準パターンとの間のマッチング処理を行う機
能を有する。

【０００４】標準パターン登録部３は、音声認識部２の
マッチング処理に使用する標準パターンのデータを格納
する部位である。なお、個々の標準パターンを判別する
ラベルは、登録操作部４により付与されて標準パターン
のデータの一部となる。音声区間検出の方法としては、
例えば、短時間スペクトル分析により得られる音声の短
時間パワーの大小により検出する方法があり、入力パタ
ーンの特徴抽出方法としては、例えば、ＬＰＣケプスト
ラム分析方法がある。マッチング処理の方法としては、
例えば、時間伸縮を許したマッチング方法として良く知
られているＤＰマッチング法がある。更に、入力音声と
標準パターンがどの程度類似しているかを示す尤度の評
価尺度としては、例えば、入力パターンと標準パターン
との間のＬＰＣケプストラムのユークリッド距離の累積
値を選択することが行なわれており、この場合に距離値
が小さい程尤度が高いことを示している。音声認識部２
はマッチング処理の結果、第１位の認識結果とその尤度
を出力するか、或は複数の候補についてその尤度の順に
認識結果を出力する。音声認識部２は、登録操作部４、
認識操作部５の操作により動作するものとする。

【０００５】登録操作部４は標準パターン登録部３に標
準パターンの登録を行なうに際して操作される部位であ
り、１回の操作につき単語１語の登録を行なう。使用者
或は発声者が認識操作部５を操作し、音声を発声して音
声入力部１を介して音声信号を入力すると、音声認識部
２は入力された音声信号をパターン化して、これを標準
パターン登録部３に出力する。ここで、標準パターン登
録部３は入力された音声パターンを標準パターンとして
登録する。

【０００６】認識操作部５は音声認識を開始し、これを
操作することにより音声認識が実行される。即ち、使用
者或は発声者が認識操作部５を操作し、音声を発声して
音声入力部１を介して音声信号を入力すると、音声認識
部２は入力された音声をパターン化し、標準パターン登
録部３に登録された標準パターンとの間においてマッチ
ング処理を行ない、認識結果を出力する。なお、標準パ
ターン登録部３に標準パターンが登録されていない場
合、操作は無効となる。

【０００７】

【発明が解決しようとする課題】上述した音声認識処理
はＤＰマッチング（ダイナミックプログラミングマッチ
ング）と称されているが、これを音声認識技術に利用す
ることにより、低コストの音声認識装置を構築すること
ができる反面、以下の如き問題を生ずる。音声認識を行
なうに先だって登録操作部４を操作し、認識対象の語彙
を標準パターンとして登録する作業を予め実施しておく
必要があり、使用者は音声認識をするに際してこの登録
操作作業をすることを余分に強いられることになる。認
識対象とする登録認識語彙数を増やそうとすると、使用
者の登録操作の負担はこの語彙数に応じて大きくなる。

【０００８】そして、音声認識装置のその後の認識性能
は登録された標準パターンの品質により大きく左右され
る。同一話者の同一語彙の音声についても、発声内容の
ばらつき或は登録後の時間経過により変化が生ずるが、
これら発声の多様性は認識率を低下させることとなる。
また、入力パターンデータはマッチング処理に使用され
た後は直ちに破棄されて、それ以外に何等の用途にも供
されることはなかった。

【０００９】この発明は、予め登録作業を必要とする音
声認識装置の音声入力において、音声認識装置の操作に
関する使用者の負担を軽減する一方、標準パターンの内
容を逐次、最新のパターンに更新し或は標準パターンの
内容に未だ登録されていない入力パターンを追加登録す
ることにより、使用者或は発声者の発声パターンの変化
に柔軟に対応する音声認識方法およびこの方法を実施す
る装置を提供するものである。

【００１０】

【課題を解決するための手段】入力された音声信号につ
いて特徴パターンを抽出し、標準パターンが過去に１個
も入力されていない未登録である場合この入力した音声
の特徴パターンを直接に標準パターンとして登録し、現
在入力した音声の特徴パターンと過去に入力した音声の
特徴パターンとの間のマッチングをとり、マッチング結
果の特徴パターンと両特徴パターンの類似の度合を示す
尤度とを出力し、現在入力した音声の特徴パターンを標
準パターンとして登録する音声認識方法を構成した。

【００１１】そして、登録される標準パターンについて
同一ラベル或は近似パターンによるグループ分けを行な
い、グループ内の標準パターンの同時登録可能数を設定
する音声認識方法を構成した。また、標準パターンの記
憶容量限界時の標準パターン登録において登録される標
準パターンの内の最古の標準パターンを削除して新標準
パターン登録の記憶容量を確保する音声認識方法を構成
した。

【００１２】更に、設定した数の標準パターン数が登録
されたグループに新たに標準パターンを登録するに際し
て同グループ内の最古の標準パターンを削除して新標準
パターン登録の記憶容量を確保する音声認識方法を構成
した。また、先の音声認識方法において、登録操作内容
或は入力音声の認識結果に基づいた情報を外部に出力す
る音声認識方法を構成した。

【００１３】そして、使用者に対して音声認識の発声タ
イミングおよび入力操作タイミングをガイダンスするこ
とを特徴とする音声認識方法を構成した。ここで、入力
音声を音声信号に変換する音声入力部１を具備し、音声
信号について特徴パターンを抽出し、現在入力した音声
と過去に入力した複数の音声との間において特徴パター
ンのマッチングを行なってマッチング結果と尤度とを出
力すると共に、マッチング結果が得られない旨出力する
音声認識部２を具備し、音声認識部２の抽出した特徴パ
ターンを標準パターンとして登録する標準パターン登録
部３を具備し、音声認識部２の出力情報に含まれる認識
結果の尤度について閾値判定して当該標準パターンのラ
ベルを出力する閾値判定部７、新しく登録する入力パタ
ーンのラベル付与を閾値判定部７の閾値判定結果に基づ
いて実施するラベル設定部８、および標準パターン登録
部の標準パターン登録状況を監視更新する標準パターン
更新部９より成る認識登録制御部６を具備し、認識登録
制御部６を入力操作して入力情報を出力する操作部１２
を具備する音声認識装置を構成した。

【００１４】そして、認識登録制御部６の閾値判定部７
から出力される情報、或は操作部１２を介した操作内容
を外部に出力する情報送出部１０を具備する音声認識装
置を構成した。また、発声者に対して音声認識の発声タ
イミングおよび操作部の入力タイミングを指示するガイ
ダンスを出力するガイダンス出力部１１を具備する音声
認識装置を構成した。

【００１５】

【発明の実施の形態】発明の実施の形態を図１を参照し
て説明する。発声者は、図５におけると同様に、音声入
力部１を介して音声認識装置に音声を入力する。音声入
力部１は音声を音声信号に変換するものであり、電話機
においてはハンドセットの送話器がこれに相当する。こ
の音声入力部位は電話機以外の他の装置の一部であって
も良く、対象とする音声はデジタル信号に置き換えたも
のでも良い。

【００１６】音声認識部２は、ハンドセットである音声
入力部１をオフフックすることにより動作を開始する。
音声区間検出、入力パターンの特徴抽出、およびマッチ
ング処理の手法は、図５の従来例と同様の手法を採用す
るものとする。マッチング処理に関しては、第１位の認
識結果とその尤度を出力する。ここで、認識結果につい
ては、標準パターンに対応するラベルを出力するものと
する。尤度についてはＬＰＣケプストラムのユークリッ
ド距離の累積値とし、以下、これを距離値Ｄと定義す
る。音声認識部２は、音声信号の入力を受け付けると特
徴パターンを抽出し、結果を標準パターン登録部３に出
力する。ここで、標準パターン登録部３に標準パターン
が過去に１個も入力されていない未登録の場合、後で説
明される認識登録制御部６にマッチング結果が得られな
い旨出力し、マッチング処理は省略して抽出した特徴パ
ターンはそのまま標準パターン登録部３に登録される。
標準パターン登録部３に標準パターンが１個でも登録さ
れている場合、標準パターン登録部３の標準パターンと
の間のマッチング処理を実行する。音声認識部２におい
て抽出した特徴パターンは、パターンマッチング処理後
標準パターン登録部３に出力される。これは、音声認識
後に認識対象となった入力パターンを破棄することなく
標準パターンとして登録するためである。マッチング処
理の結果は、更に認識登録制御部６にも出力される。

【００１７】標準パターン登録部３は図５の同名の構成
要素と同様であるが、標準パターンのラベルは、操作部
１２から入力された情報に基づいてラベル設定部８によ
り付与する。なお、この実施例においては、ラベルとし
て電話番号を使用する。音声認識において操作を行なう
機器の動作内容は操作部１２を介して指定される。この
実施例においては、ラベル情報である電話番号を入力す
る部位であり、通常のダイヤルボタンとしての役割をも
兼ねている。説明を簡単にするために、操作部１２を電
話機のダイヤルボタンとしたがボタン、キーボード以外
の形態の操作部であっても制御情報を作成する機能を発
揮するものでありさえすればこれを使用することができ
る。例えば、ボタン入力の代わりに数桁の数字の音声認
識装置に置き換えることができる。また、例えば、ＮＴ
Ｔのホームテレホンのテレコンコンセントの様に家電機
器の電源のオン、オフを制御する制御装置をも採用する
ことができる。

【００１８】認識登録制御部６は標準パターン登録部３
の標準パターンの登録／更新を制御する部位であり、閾
値判定部７、ラベル設定部８、および標準パターン更新
部９より成る。閾値判定部７は音声認識部２から入力す
る出力情報に含まれる認識結果の距離値について閾値判
定を行なう。閾値をεと定義する。閾値判定の結果、Ｄ
＜εであれば認識結果を正解と見なし、当該標準パター
ンのラベルの電話番号を情報送出部１０に出力させる。

【００１９】ラベル設定部８は、新しく登録しようとす
る入力パターンのラベル付与の手順を閾値判定部７の閾
値判定の結果に基づいて、以下の様に選択する。閾値判
定の結果がＤ≦εであれば、ラベルを認識結果の標準パ
ターンと同一とする。閾値判定の結果がＤ＞εであれ
ば、ラベルを新たに操作部１２より入力するものとす
る。

【００２０】そして、音声認識部２から標準パターンが
過去に１個も入力されていない未登録であってマッチン
グ結果が得られない旨の通知を受けた場合、ラベルを新
たに操作部１２より入力するものとする。標準パターン
更新部９は、標準パターン登録部３の標準パターン登録
状況を監視し、標準パターン登録時に標準パターン登録
部３の記憶容量がいっぱいであれば、過去に登録された
標準パターンを古い順に削除する。

【００２１】また、同種の標準パターンが偏って登録さ
れない様にラベル或は距離値により標準パターンをグル
ープ分けし、１グループに登録することができる標準パ
ターンの数を制約して古い標準パターンの削除を行な
う。ここで、距離値Ｄの判定には、音声認識部２の標準
パターンとの間のマッチング処理の結果に対する閾値判
定を使用する。例えば、標準パターン登録部３に登録す
る複数の標準パターンの内の共通するラベルを有するも
の同志をグループとし、登録することができる標準パタ
ーンの数を３に制約すると、標準パターンの更新は次の
様に行なわれる。

【００２２】即ち、標準パターン更新部９は、新しく登
録される標準パターンを認識結果のラベルのグループに
分類する。対象となるグループに既に３つの標準パター
ンを登録している場合、同グループの内の最も古い標準
パターンを標準パターン登録部３から削除する。標準パ
ターン登録部３の空き記憶容量が不足していて同一グル
ープ内の削除だけでは標準パターンの更新ができない場
合は、更に標準パターン登録部３内の標準パターン全体
の内から古い順に削除する。

【００２３】また、過去に登録されたラベルでも閾値判
定部７においてＤ＜εと判定された場合、独立したグル
ープを新しく作成する様にグループの設定条件を拡張す
ることもできる。情報送出部１０は、認識登録制御部６
の閾値判定部７から出力される情報、或は操作部を介し
た使用者の操作内容を外部に出力するものであり、この
実施例においては、これはダイヤル情報を電話網へ送出
するＤＴＭＦ信号発生器に相当する。

【００２４】ガイダンス出力部１１は、発声者に番号入
力のタイミングを指示するガイダンスを出力するもので
あり、例えば、発光ダイオード、液晶ディスプレイ、或
は録音音声或は合成音声によるガイダンスを出力するス
ピーカであるものとすることができる。以下、この発明
の音声認識装置の実施例を電話の発信操作に利用した場
合について説明する。

【００２５】（第１）この音声認識装置を最初に使用
する場合、標準パターン登録部３には何等の語彙も登録
されていない。この様に、標準パターン登録部３に標準
パターンが過去に１個も入力されていない未登録の場
合、音声入力部１を介して入力された音声信号について
マッチング処理は行なわれず、抽出特徴パターンは標準
パターン登録部３に直接、標準パターンとして登録され
る。

【００２６】図２ないし図４の動作フローを参照する
に、発声者が音声入力部１をオフフックし、例えば「鈴
木さん」という音声を発声したとする（ＳＴＥＰ１）。
音声認識部２は音声入力部１から音声信号を取り込んで
パターン化処理し、標準パターン登録部３に出力する。
標準パターン登録部３の入力パターンをＡ１とする（Ｓ
ＴＥＰ２）。

【００２７】続いて、標準パターン登録部３に標準パタ
ーンが過去に１個も入力されていない未登録の場合、音
声認識部２はマッチング結果が得られないことを示すＮ
Ｏを認識登録制御部６に通知する（ＳＴＥＰ３）。ラベ
ル設定部８は、このＮＯの通知を受けて、これから登録
しようとする入力パターンのラベルを操作部１２を操作
して入力する手順を選択する。ガイダンス出力部１１は
この選択の結果に応答し、発声者に番号入力のタイミン
グを指示するガイダンスを出力する。ガイダンスの内容
は、発声者に対して操作部１２の操作、例えばボタン入
力操作を促すものである。この操作は、標準パターン登
録部３に登録する標準パターンにラベルを付与する操作
であり、この実施例においては電話をかける操作に相当
する。入力された電話番号がラベルとなる。ガイダンス
出力部１１が液晶ディスプレイの様に文字を表示するも
のである場合、例えば「番号を入力してください」とい
う文字を液晶表示する。また、ＩＣ録再ユニットの様に
予め録音した音声を出力するもの或は合成音声装置であ
る場合は、「番号を入力してください」という音声或は
「ピッ」という信号音を出力する（ＳＴＥＰ４）。

【００２８】発声者は操作部１２により電話番号を入力
する。入力された電話番号を１２−３４５６とする（Ｓ
ＴＥＰ５）。標準パターン登録部３は、入力パターンＡ
１を電話番号１２−３４５６をラベルとする標準パター
ンとして登録する（ＳＴＥＰ６）。なお、一回の番号入
力は、網の接続状態を示すリングバックトーン或はビジ
ートーンを検出した時点において終了したものとみな
す。この検出の方法にはＮＣＵを使用し、また、音声入
力部１のオンフックをもって終了とみなすこともでき
る。

【００２９】標準パターン更新部９は、登録した標準パ
ターンをそのラベルに基づいてグループに分類するが、
入力パターンＡ１は初めて登録した標準パターンである
ので既存のグループは存在しない。ここで、入力パター
ンＡ１のラベル番号１２−３４５６に基づく１番目のグ
ループを作成する。このグループをＧ１とする。入力パ
ターンＡ１は、グループＧ１に属する初めての標準パタ
ーンとなる。

【００３０】以上の如くして、標準パターン登録部３に
音声パターンが１つでも登録されると、音声認識部２は
入力される音声に対して以下の説明の通りのマッチング
処理を行なう。（第２）標準パターン登録部３に１個以上の標準パタ
ーンが登録されている状態において、発声者が音声入力
部１に対して再び「鈴木さん」と発声したものとする。
音声認識部２は発声された音声をパターン化し、これを
標準パターン登録部３に出力してＹＥＳを送り返された
ところで、標準パターン登録部３に登録されている全て
の標準パターンとの間においてマッチング処理を行な
う。この時の入力パターンをＡ２とする（ＳＴＥＰ１、
２、３、７）。

【００３１】音声認識部２の認識結果がＡ１であり、閾
値判定部７における閾値判定の結果がＤ≦εであれば、
音声パターンＡ１のラベルである電話番号１２−３４５
６を情報送出部１０に出力する（ＳＴＥＰ８、９）。情
報送出部１０は電話網に向けてこの番号を発信する（Ｓ
ＴＥＰ１０）。ラベル設定部８は、閾値判定部７の閾値
判定結果がＤ≦εであることに基づいて標準パターン登
録部３に新しく登録する入力パターンＡ２のラベルを認
識結果の標準パターンＡ１と同じラベル番号１２−３４
５６とする。標準パターン更新部９は入力パターンＡ２
を標準パターンＡ１が属するグループＧ１と同じグルー
プに区分けする（ＳＴＥＰ１１、１２）。

【００３２】グループＧ１は、１２−３４５６と同じラ
ベル番号を有する標準パターンの集合である。標準パタ
ーンＡ２を標準パターン登録部３に登録するに際して、
グループＧ１に区分けされた標準パターンがＡ１をも含
めて既に３個ある場合、標準パターン更新部９は３個の
内の最も古い標準パターンであるＡ１を削除する（ＳＴ
ＥＰ１３、１４）。

【００３３】標準パターン登録部３の空き記憶容量が残
り少なく、１つの標準パターンの削除だけでは新しい標
準パターンを登録することができない場合、標準パター
ン更新部９は当該標準パターンを登録することができる
空き記憶容量が確保されるまで標準パターン登録部３の
標準パターンの全体の内から古いもの順に削除する。グ
ループＧ１に区分けされた標準パターンが２つ以内で空
き記憶容量が足りない場合も同様の削除を行う。標準パ
ターン登録部３に当該標準パターンを登録する空き記憶
容量が充分ある場合は削除は行わない。この様にして標
準パターン登録部３は入力パターンＡ２を標準パターン
Ａ１と同じ電話番号１２−３４５６をラベルとする標準
パターンとして新たに登録する（ＳＴＥＰ１５、１６、
１７）。

【００３４】（第３．１）次に、発声者が別の音声を
発声したとして、この時の入力パターンをＡ３とする
（ＳＴＥＰ１、２、３、７）。この時、音声認識部２の
認識結果について、閾値判定部７の閾値判定の結果がＤ
＞εであるものとする（ＳＴＥＰ８）。ラベル設定部８
はこの閾値判定結果に基づいてこれから登録しようとす
る入力パターンのラベルを新たに操作部１２により入力
する手順を選択する。これによりガイダンス出力部１１
は発声者に番号入力のタイミングを指示するガイダンス
を出力する（ＳＴＥＰ１８）。

【００３５】ここで、発声者が１２−３４５６を操作部
１２により入力すると、標準パターン更新部９は入力パ
ターンＡ３をグループＧ１と同じグループに区分けする
（ＳＴＥＰ１９）。入力パターンＡ３を標準パターン登
録部３に登録する際の標準パターン更新部９による標準
パターン削除の仕方は上述された削除の仕方と同様であ
る。標準パターン登録部３は、入力パターンＡ３をグル
ープＧ１の標準パターンと同じ電話番号１２−３４５６
をラベルとする標準パターンとして新たに登録する（Ｓ
ＴＥＰ２０、２１、２２、１２）。

【００３６】（第３．２）ところで、発声者が入力し
た番号が１２−３４５６ではなくして６５−４３２１で
あり、標準パターン更新部９がこの６５−４３２１のラ
ベルのグループを過去に作成していなかったものとする
と、標準パターン更新部９は新しいグループを作成す
る。このグループをＧ２とする。入力パターンＡ３はグ
ループＧ２に分類される初めての標準パターンとなる。
標準パターン登録部３は入力パターンＡ３を電話番号６
５−４３２１をラベルとする標準パターンとして新たに
登録する（ＳＴＥＰ１９、２０、２１、２３、１５）。

【００３７】なお、以上においては１つのラベルグルー
プに対して３つの標準パターンを標準パターン登録部３
に登録する例について説明してきたが、同一のラベルに
対して標準パターン登録部３に登録することができる標
準パターンの数に制約を設けない場合についても、１つ
のラベルに対してパターンの追加が標準パターン登録部
３の記憶容量が続く限り継続される点を除けば、以上と
同様の手順である（ＳＴＥＰ１１、２０）。

【００３８】（第４）更に、以下に説明される通り、
標準パターン更新部９のグループ設定を拡張することが
できる。音声認識部２の認識結果について、閾値判定部
７の閾値判定がＤ＞εの場合、操作部１２を介して入力
されたラベルのグループが存在してもこれとは別に新し
いグループを作成する。これは、先の実施例においては
同一ラベルのグループを１つとしていたのに対して、距
離値の違いによる複数のグループ作成を許容するもので
ある。以下、これについて説明するに、発声者が或る音
声を発声したとして、この時の入力パターンをＡ４とす
る（ＳＴＥＰ１、２、３、７）。

【００３９】この時、音声認識部２の認識結果につい
て、閾値判定部７の閾値判定の結果はＤ＞εであったと
する（ＳＴＥＰ８）。ラベル設定部８はこの閾値判定結
果に基づいて、これから登録しようとする入力パターン
のラベルを新たに操作部１２により入力する手順を選択
する。これによりガイダンス出力部１１は発声者に番号
入力のタイミングを指示するガイダンスを出力する（Ｓ
ＴＥＰ１８）。

【００４０】発声者が１２−３４５６を操作部１２を介
して入力すると、標準パターン更新部９は新しいグルー
プを作成する（ＳＴＥＰ１９、２０、２１、２４）。こ
のグループをＧ３とする。グループＧ３は、グループＧ
１と同一のラベル１２−３４５６を有するが、Ｇ１とは
別のグループとなる。入力パターンＡ４は、グループＧ
３に分類される初めての標準パターンとなる。標準パタ
ーン登録部３は入力パターンＡ４を電話番号１２−３４
５６をラベルとする標準パターンとして新たに登録する
ことになる（ＳＴＥＰ１５）。

【００４１】先の実施例と異なるところは、同一ラベル
電話番号１２−３４５６のグループＧ１が既に存在する
にもかかわらず、これとは別に距離値が閾値以上離れた
別のグループＧ３を作成するところである。なお、グル
ープに標準パターンが３つ登録されている場合および標
準パターン登録部３の空き記憶容量が残り少ない場合の
標準パターンの削除の仕方は上述と同様である。

【００４２】この発明は、以上の様にすることにより、
音声の特徴パターンの登録操作と音声認識操作は統一さ
れて、これら両操作の大半は共通するに到る。これによ
り、音声認識装置の操作を単純明快にし、これは登録操
作の大部分を自動化することを容易にし、使用者の操作
負担を軽減する。そして、従来、入力音声の特徴パター
ンは、過去に入力した音声の特徴パターンとの間におい
てマッチング処理された後に破棄されていたのである
が、この発明はこれを標準パターンとして登録し、次回
から実施されるマッチング処理に活用する。

【００４３】また、１つのラベルに対して複数の標準パ
ターンの登録を許容することにより発声者の発声パター
ンの変化に柔軟に対応することができ、発声のゆらぎに
殆ど影響されない音声認識をすることができる。更に、
入力パターンと標準パターンの間のマッチング処理の結
果について尤度の評価尺度となる距離値に閾値を与える
ことにより、標準パターン登録時のラベル入力作業を自
動化することができる。即ち、入力パターンと尤度が最
も高い標準パターンについてその距離値が閾値以下の場
合、入力パターンに当該標準パターンと同一のラベルを
付与し、標準パターン登録する。距離値が閾値より大き
い入力パターンに対してはラベル入力を要求し、標準パ
ターン登録とする。標準パターン登録部の記憶容量が限
界を超えた場合、新標準パターン登録の記憶容量が確保
できるまでこの登録部における古い標準パターンを古い
順から削除して新標準パターンを登録する。標準パター
ン登録部に登録した標準パターンをラベル或は類似度に
着目してグループ分けし、同一グループで登録するる標
準パターンの数を制約する。この場合、制約した標準パ
ターンが登録されたグループに新たに標準パターンを登
録しようとする場合、同グループ中の最古の標準パター
ンを削除して新標準パターンを登録する。これらは、標
準パターン登録時のラベル入力作業を自動化し、標準パ
ターン登録のための記憶容量を効率よく配分することに
有利に動作する。

【００４４】

【発明の効果】以上の通りであって、この発明は、音声
の特徴パターンの登録操作と音声認識操作は統一され
て、これら両操作の大半は共通するに到る。これによ
り、音声認識装置の操作を単純明快にし、これは登録操
作の大部分を自動化することを容易にし、使用者の操作
負担を軽減することができる。

【００４５】そして、標準パターン登録部の登録内容を
逐次更新することにより常に最新の標準パターンを登録
することができるので、時間経過に起因するる話者の発
声パターンの変化に柔軟に対応することができる。ま
た、ラベルを共通とする標準パターンを複数記憶するこ
とにより、同一話者の同一言語の発声パターンの多様性
に柔軟に対応することができる。

【００４６】更に、同一のラベルを有する別々の音声を
記憶させることにより、別々の音声を同一の目的に使用
し、或は複数の話者の言い方による使い分けをすること
ができる。

【図面の簡単な説明】

【図１】実施例を説明するブロック図。

【図２】実施例の動作フロー図。

【図３】図２の続き

【図４】図２の続き

【図５】従来例を説明するブロック図。

【符号の説明】

１音声入力部２音声認識部３標準パターン登録部４登録操作部５認識操作部６認識登録制御部７閾値判定部８ラベル設定部９標準パターン更新部１０情報送出部１１ガイダンス出力部１２操作部

Claims

【特許請求の範囲】

【請求項１】入力された音声信号について特徴パター
ンを抽出し、標準パターンが過去に１個も入力されてい
ない未登録である場合この入力した音声の特徴パターン
を直接に標準パターンとして登録し、現在入力した音声
の特徴パターンと過去に入力した音声の特徴パターンと
の間のマッチングをとり、マッチング結果の特徴パター
ンと両特徴パターンの類似の度合を示す尤度とを出力
し、現在入力した音声の特徴パターンを標準パターンと
して登録することを特徴とする音声認識方法。
【請求項２】請求項１に記載される音声認識方法にお
いて、登録される標準パターンについて同一ラベル或は近似パ
ターンによるグループ分けを行ない、グループ内の標準
パターンの同時登録可能数を設定することを特徴とする
音声認識方法。
【請求項３】請求項１に記載される音声認識方法にお
いて、標準パターンの記憶容量限界時の標準パターン登録にお
いて登録される標準パターンの内の最古の標準パターン
を削除して新標準パターン登録の記憶容量を確保するこ
とを特徴とする音声認識方法。
【請求項４】請求項２に記載される音声認識方法にお
いて、設定した数の標準パターン数が登録されたグループに新
たに標準パターンを登録するに際して同グループ内の最
古の標準パターンを削除して新標準パターン登録の記憶
容量を確保することを特徴とする音声認識方法。
【請求項５】請求項１ないし請求項４の内の何れかに
記載される音声認識方法において、登録操作内容或は入力音声の認識結果に基づいた情報を
外部に出力することを特徴とする音声認識方法。
【請求項６】請求項１ないし請求項５の内の何れかに
記載される音声認識方法において、使用者に対して音声認識の発声タイミングおよび入力操
作タイミングをガイダンスすることを特徴とする音声認
識方法。
【請求項７】入力音声を音声信号に変換する音声入力
部を具備し、音声信号について特徴パターンを抽出し、現在入力した
音声と過去に入力した複数の音声との間において特徴パ
ターンのマッチングを行なってマッチング結果と尤度と
を出力すると共に、マッチング結果が得られない旨出力
する音声認識部を具備し、音声認識部の抽出した特徴パターンを標準パターンとし
て登録する標準パターン登録部を具備し、音声認識部の出力情報に含まれる認識結果の尤度につい
て閾値判定して当該標準パターンのラベルを出力する閾
値判定部、新しく登録する入力パターンのラベル付与を
閾値判定部の閾値判定結果に基づいて実施するラベル設
定部、および標準パターン登録部の標準パターン登録状
況を監視更新する標準パターン更新部より成る認識登録
制御部を具備し、認識登録制御部を入力操作して入力情報を出力する操作
部を具備することを特徴とする音声認識装置。
【請求項８】請求項７に記載される音声認識装置にお
いて、認識登録制御部の閾値判定部から出力される情報、或は
操作部を介した操作内容を外部に出力する情報送出部を
具備することを特徴とする音声認識装置。
【請求項９】請求項７および請求項８の何れかに記載
される音声認識装置において、発声者に対して音声認識の発声タイミングおよび操作部
の入力タイミングを指示するガイダンスを出力するガイ
ダンス出力部を具備することを特徴とする音声認識装
置。