JPH09212186A - 音声認識方法およびこの方法を実施する装置 - Google Patents

音声認識方法およびこの方法を実施する装置

Info

Publication number
JPH09212186A
JPH09212186A JP8014869A JP1486996A JPH09212186A JP H09212186 A JPH09212186 A JP H09212186A JP 8014869 A JP8014869 A JP 8014869A JP 1486996 A JP1486996 A JP 1486996A JP H09212186 A JPH09212186 A JP H09212186A
Authority
JP
Japan
Prior art keywords
pattern
unit
voice
input
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8014869A
Other languages
English (en)
Inventor
Kiyoshi Sugimoto
清 杉本
Yoshio Nakadai
芳夫 中台
Yutaka Nishino
豊 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8014869A priority Critical patent/JPH09212186A/ja
Publication of JPH09212186A publication Critical patent/JPH09212186A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 操作を単純にし、使用者の操作負担を軽減す
ると共に発声パターンの変化に柔軟に対応する音声認識
方法およびこの方法を実施する装置を提供する。 【解決手段】 入力された音声信号について特徴パター
ンを抽出し、標準パターンが過去に1個も入力されてい
ない未登録である場合この入力した音声の特徴パターン
を直接に標準パターンとして登録し、現在入力した音声
の特徴パターンと過去に入力した音声の特徴パターンと
の間のマッチングをとり、マッチング結果の特徴パター
ンと両特徴パターンの類似の度合を示す尤度とを出力
し、現在入力した音声の特徴パターンを標準パターンと
して登録する音声認識方法。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識方法お
よびこの方法を実施する装置に関し、特に、入力された
音声パターンは標準パターンとして全て登録し、登録内
容を、逐次、最新のパターンに更新し或は標準パターン
の内容に未だ登録されていない入力パターンを追加登録
することにより、使用者或は発声者の発声パターンの変
化に柔軟に対応する音声認識方法およびこの方法を実施
する装置に関する。
【0002】
【従来の技術】従来例を図5を参照して説明する。発声
者は、音声入力部1を介して音声認識装置に音声を入力
する。音声入力部1は音声を音声信号に変換するもので
あり、電話機においてはハンドセットの送話器がこれに
相当する。この音声入力部1は電話機以外の他の装置の
一部であっても良く、対象とする音声はデジタル信号に
置き換えたものでも良い。
【0003】音声認識部2は、次の2つの機能を有す
る。その内の1つとして、音声入力部1を介して受信し
た音声について音声区間を検出し、検出された音声区間
に対する音声スペクトルの特徴を表す時系列パラメータ
である入力パターンを抽出する機能を有する。そして、
特徴抽出した入力パターンと標準パターン登録部3に内
蔵される標準パターンとの間のマッチング処理を行う機
能を有する。
【0004】標準パターン登録部3は、音声認識部2の
マッチング処理に使用する標準パターンのデータを格納
する部位である。なお、個々の標準パターンを判別する
ラベルは、登録操作部4により付与されて標準パターン
のデータの一部となる。音声区間検出の方法としては、
例えば、短時間スペクトル分析により得られる音声の短
時間パワーの大小により検出する方法があり、入力パタ
ーンの特徴抽出方法としては、例えば、LPCケプスト
ラム分析方法がある。マッチング処理の方法としては、
例えば、時間伸縮を許したマッチング方法として良く知
られているDPマッチング法がある。更に、入力音声と
標準パターンがどの程度類似しているかを示す尤度の評
価尺度としては、例えば、入力パターンと標準パターン
との間のLPCケプストラムのユークリッド距離の累積
値を選択することが行なわれており、この場合に距離値
が小さい程尤度が高いことを示している。音声認識部2
はマッチング処理の結果、第1位の認識結果とその尤度
を出力するか、或は複数の候補についてその尤度の順に
認識結果を出力する。音声認識部2は、登録操作部4、
認識操作部5の操作により動作するものとする。
【0005】登録操作部4は標準パターン登録部3に標
準パターンの登録を行なうに際して操作される部位であ
り、1回の操作につき単語1語の登録を行なう。使用者
或は発声者が認識操作部5を操作し、音声を発声して音
声入力部1を介して音声信号を入力すると、音声認識部
2は入力された音声信号をパターン化して、これを標準
パターン登録部3に出力する。ここで、標準パターン登
録部3は入力された音声パターンを標準パターンとして
登録する。
【0006】認識操作部5は音声認識を開始し、これを
操作することにより音声認識が実行される。即ち、使用
者或は発声者が認識操作部5を操作し、音声を発声して
音声入力部1を介して音声信号を入力すると、音声認識
部2は入力された音声をパターン化し、標準パターン登
録部3に登録された標準パターンとの間においてマッチ
ング処理を行ない、認識結果を出力する。なお、標準パ
ターン登録部3に標準パターンが登録されていない場
合、操作は無効となる。
【0007】
【発明が解決しようとする課題】上述した音声認識処理
はDPマッチング(ダイナミックプログラミングマッチ
ング)と称されているが、これを音声認識技術に利用す
ることにより、低コストの音声認識装置を構築すること
ができる反面、以下の如き問題を生ずる。音声認識を行
なうに先だって登録操作部4を操作し、認識対象の語彙
を標準パターンとして登録する作業を予め実施しておく
必要があり、使用者は音声認識をするに際してこの登録
操作作業をすることを余分に強いられることになる。認
識対象とする登録認識語彙数を増やそうとすると、使用
者の登録操作の負担はこの語彙数に応じて大きくなる。
【0008】そして、音声認識装置のその後の認識性能
は登録された標準パターンの品質により大きく左右され
る。同一話者の同一語彙の音声についても、発声内容の
ばらつき或は登録後の時間経過により変化が生ずるが、
これら発声の多様性は認識率を低下させることとなる。
また、入力パターンデータはマッチング処理に使用され
た後は直ちに破棄されて、それ以外に何等の用途にも供
されることはなかった。
【0009】この発明は、予め登録作業を必要とする音
声認識装置の音声入力において、音声認識装置の操作に
関する使用者の負担を軽減する一方、標準パターンの内
容を逐次、最新のパターンに更新し或は標準パターンの
内容に未だ登録されていない入力パターンを追加登録す
ることにより、使用者或は発声者の発声パターンの変化
に柔軟に対応する音声認識方法およびこの方法を実施す
る装置を提供するものである。
【0010】
【課題を解決するための手段】入力された音声信号につ
いて特徴パターンを抽出し、標準パターンが過去に1個
も入力されていない未登録である場合この入力した音声
の特徴パターンを直接に標準パターンとして登録し、現
在入力した音声の特徴パターンと過去に入力した音声の
特徴パターンとの間のマッチングをとり、マッチング結
果の特徴パターンと両特徴パターンの類似の度合を示す
尤度とを出力し、現在入力した音声の特徴パターンを標
準パターンとして登録する音声認識方法を構成した。
【0011】そして、登録される標準パターンについて
同一ラベル或は近似パターンによるグループ分けを行な
い、グループ内の標準パターンの同時登録可能数を設定
する音声認識方法を構成した。また、標準パターンの記
憶容量限界時の標準パターン登録において登録される標
準パターンの内の最古の標準パターンを削除して新標準
パターン登録の記憶容量を確保する音声認識方法を構成
した。
【0012】更に、設定した数の標準パターン数が登録
されたグループに新たに標準パターンを登録するに際し
て同グループ内の最古の標準パターンを削除して新標準
パターン登録の記憶容量を確保する音声認識方法を構成
した。また、先の音声認識方法において、登録操作内容
或は入力音声の認識結果に基づいた情報を外部に出力す
る音声認識方法を構成した。
【0013】そして、使用者に対して音声認識の発声タ
イミングおよび入力操作タイミングをガイダンスするこ
とを特徴とする音声認識方法を構成した。ここで、入力
音声を音声信号に変換する音声入力部1を具備し、音声
信号について特徴パターンを抽出し、現在入力した音声
と過去に入力した複数の音声との間において特徴パター
ンのマッチングを行なってマッチング結果と尤度とを出
力すると共に、マッチング結果が得られない旨出力する
音声認識部2を具備し、音声認識部2の抽出した特徴パ
ターンを標準パターンとして登録する標準パターン登録
部3を具備し、音声認識部2の出力情報に含まれる認識
結果の尤度について閾値判定して当該標準パターンのラ
ベルを出力する閾値判定部7、新しく登録する入力パタ
ーンのラベル付与を閾値判定部7の閾値判定結果に基づ
いて実施するラベル設定部8、および標準パターン登録
部の標準パターン登録状況を監視更新する標準パターン
更新部9より成る認識登録制御部6を具備し、認識登録
制御部6を入力操作して入力情報を出力する操作部12
を具備する音声認識装置を構成した。
【0014】そして、認識登録制御部6の閾値判定部7
から出力される情報、或は操作部12を介した操作内容
を外部に出力する情報送出部10を具備する音声認識装
置を構成した。また、発声者に対して音声認識の発声タ
イミングおよび操作部の入力タイミングを指示するガイ
ダンスを出力するガイダンス出力部11を具備する音声
認識装置を構成した。
【0015】
【発明の実施の形態】発明の実施の形態を図1を参照し
て説明する。発声者は、図5におけると同様に、音声入
力部1を介して音声認識装置に音声を入力する。音声入
力部1は音声を音声信号に変換するものであり、電話機
においてはハンドセットの送話器がこれに相当する。こ
の音声入力部位は電話機以外の他の装置の一部であって
も良く、対象とする音声はデジタル信号に置き換えたも
のでも良い。
【0016】音声認識部2は、ハンドセットである音声
入力部1をオフフックすることにより動作を開始する。
音声区間検出、入力パターンの特徴抽出、およびマッチ
ング処理の手法は、図5の従来例と同様の手法を採用す
るものとする。マッチング処理に関しては、第1位の認
識結果とその尤度を出力する。ここで、認識結果につい
ては、標準パターンに対応するラベルを出力するものと
する。尤度についてはLPCケプストラムのユークリッ
ド距離の累積値とし、以下、これを距離値Dと定義す
る。音声認識部2は、音声信号の入力を受け付けると特
徴パターンを抽出し、結果を標準パターン登録部3に出
力する。ここで、標準パターン登録部3に標準パターン
が過去に1個も入力されていない未登録の場合、後で説
明される認識登録制御部6にマッチング結果が得られな
い旨出力し、マッチング処理は省略して抽出した特徴パ
ターンはそのまま標準パターン登録部3に登録される。
標準パターン登録部3に標準パターンが1個でも登録さ
れている場合、標準パターン登録部3の標準パターンと
の間のマッチング処理を実行する。音声認識部2におい
て抽出した特徴パターンは、パターンマッチング処理後
標準パターン登録部3に出力される。これは、音声認識
後に認識対象となった入力パターンを破棄することなく
標準パターンとして登録するためである。マッチング処
理の結果は、更に認識登録制御部6にも出力される。
【0017】標準パターン登録部3は図5の同名の構成
要素と同様であるが、標準パターンのラベルは、操作部
12から入力された情報に基づいてラベル設定部8によ
り付与する。なお、この実施例においては、ラベルとし
て電話番号を使用する。音声認識において操作を行なう
機器の動作内容は操作部12を介して指定される。この
実施例においては、ラベル情報である電話番号を入力す
る部位であり、通常のダイヤルボタンとしての役割をも
兼ねている。説明を簡単にするために、操作部12を電
話機のダイヤルボタンとしたがボタン、キーボード以外
の形態の操作部であっても制御情報を作成する機能を発
揮するものでありさえすればこれを使用することができ
る。例えば、ボタン入力の代わりに数桁の数字の音声認
識装置に置き換えることができる。また、例えば、NT
Tのホームテレホンのテレコンコンセントの様に家電機
器の電源のオン、オフを制御する制御装置をも採用する
ことができる。
【0018】認識登録制御部6は標準パターン登録部3
の標準パターンの登録/更新を制御する部位であり、閾
値判定部7、ラベル設定部8、および標準パターン更新
部9より成る。閾値判定部7は音声認識部2から入力す
る出力情報に含まれる認識結果の距離値について閾値判
定を行なう。閾値をεと定義する。閾値判定の結果、D
<εであれば認識結果を正解と見なし、当該標準パター
ンのラベルの電話番号を情報送出部10に出力させる。
【0019】ラベル設定部8は、新しく登録しようとす
る入力パターンのラベル付与の手順を閾値判定部7の閾
値判定の結果に基づいて、以下の様に選択する。閾値判
定の結果がD≦εであれば、ラベルを認識結果の標準パ
ターンと同一とする。閾値判定の結果がD>εであれ
ば、ラベルを新たに操作部12より入力するものとす
る。
【0020】そして、音声認識部2から標準パターンが
過去に1個も入力されていない未登録であってマッチン
グ結果が得られない旨の通知を受けた場合、ラベルを新
たに操作部12より入力するものとする。標準パターン
更新部9は、標準パターン登録部3の標準パターン登録
状況を監視し、標準パターン登録時に標準パターン登録
部3の記憶容量がいっぱいであれば、過去に登録された
標準パターンを古い順に削除する。
【0021】また、同種の標準パターンが偏って登録さ
れない様にラベル或は距離値により標準パターンをグル
ープ分けし、1グループに登録することができる標準パ
ターンの数を制約して古い標準パターンの削除を行な
う。ここで、距離値Dの判定には、音声認識部2の標準
パターンとの間のマッチング処理の結果に対する閾値判
定を使用する。例えば、標準パターン登録部3に登録す
る複数の標準パターンの内の共通するラベルを有するも
の同志をグループとし、登録することができる標準パタ
ーンの数を3に制約すると、標準パターンの更新は次の
様に行なわれる。
【0022】即ち、標準パターン更新部9は、新しく登
録される標準パターンを認識結果のラベルのグループに
分類する。対象となるグループに既に3つの標準パター
ンを登録している場合、同グループの内の最も古い標準
パターンを標準パターン登録部3から削除する。標準パ
ターン登録部3の空き記憶容量が不足していて同一グル
ープ内の削除だけでは標準パターンの更新ができない場
合は、更に標準パターン登録部3内の標準パターン全体
の内から古い順に削除する。
【0023】また、過去に登録されたラベルでも閾値判
定部7においてD<εと判定された場合、独立したグル
ープを新しく作成する様にグループの設定条件を拡張す
ることもできる。情報送出部10は、認識登録制御部6
の閾値判定部7から出力される情報、或は操作部を介し
た使用者の操作内容を外部に出力するものであり、この
実施例においては、これはダイヤル情報を電話網へ送出
するDTMF信号発生器に相当する。
【0024】ガイダンス出力部11は、発声者に番号入
力のタイミングを指示するガイダンスを出力するもので
あり、例えば、発光ダイオード、液晶ディスプレイ、或
は録音音声或は合成音声によるガイダンスを出力するス
ピーカであるものとすることができる。以下、この発明
の音声認識装置の実施例を電話の発信操作に利用した場
合について説明する。
【0025】(第1) この音声認識装置を最初に使用
する場合、標準パターン登録部3には何等の語彙も登録
されていない。この様に、標準パターン登録部3に標準
パターンが過去に1個も入力されていない未登録の場
合、音声入力部1を介して入力された音声信号について
マッチング処理は行なわれず、抽出特徴パターンは標準
パターン登録部3に直接、標準パターンとして登録され
る。
【0026】図2ないし図4の動作フローを参照する
に、発声者が音声入力部1をオフフックし、例えば「鈴
木さん」という音声を発声したとする(STEP1)。
音声認識部2は音声入力部1から音声信号を取り込んで
パターン化処理し、標準パターン登録部3に出力する。
標準パターン登録部3の入力パターンをA1とする(S
TEP2)。
【0027】続いて、標準パターン登録部3に標準パタ
ーンが過去に1個も入力されていない未登録の場合、音
声認識部2はマッチング結果が得られないことを示すN
Oを認識登録制御部6に通知する(STEP3)。ラベ
ル設定部8は、このNOの通知を受けて、これから登録
しようとする入力パターンのラベルを操作部12を操作
して入力する手順を選択する。ガイダンス出力部11は
この選択の結果に応答し、発声者に番号入力のタイミン
グを指示するガイダンスを出力する。ガイダンスの内容
は、発声者に対して操作部12の操作、例えばボタン入
力操作を促すものである。この操作は、標準パターン登
録部3に登録する標準パターンにラベルを付与する操作
であり、この実施例においては電話をかける操作に相当
する。入力された電話番号がラベルとなる。ガイダンス
出力部11が液晶ディスプレイの様に文字を表示するも
のである場合、例えば「番号を入力してください」とい
う文字を液晶表示する。また、IC録再ユニットの様に
予め録音した音声を出力するもの或は合成音声装置であ
る場合は、「番号を入力してください」という音声或は
「ピッ」という信号音を出力する(STEP4)。
【0028】発声者は操作部12により電話番号を入力
する。入力された電話番号を12−3456とする(S
TEP5)。標準パターン登録部3は、入力パターンA
1を電話番号12−3456をラベルとする標準パター
ンとして登録する(STEP6)。なお、一回の番号入
力は、網の接続状態を示すリングバックトーン或はビジ
ートーンを検出した時点において終了したものとみな
す。この検出の方法にはNCUを使用し、また、音声入
力部1のオンフックをもって終了とみなすこともでき
る。
【0029】標準パターン更新部9は、登録した標準パ
ターンをそのラベルに基づいてグループに分類するが、
入力パターンA1は初めて登録した標準パターンである
ので既存のグループは存在しない。ここで、入力パター
ンA1のラベル番号12−3456に基づく1番目のグ
ループを作成する。このグループをG1とする。入力パ
ターンA1は、グループG1に属する初めての標準パタ
ーンとなる。
【0030】以上の如くして、標準パターン登録部3に
音声パターンが1つでも登録されると、音声認識部2は
入力される音声に対して以下の説明の通りのマッチング
処理を行なう。 (第2) 標準パターン登録部3に1個以上の標準パタ
ーンが登録されている状態において、発声者が音声入力
部1に対して再び「鈴木さん」と発声したものとする。
音声認識部2は発声された音声をパターン化し、これを
標準パターン登録部3に出力してYESを送り返された
ところで、標準パターン登録部3に登録されている全て
の標準パターンとの間においてマッチング処理を行な
う。この時の入力パターンをA2とする(STEP1、
2、3、7)。
【0031】音声認識部2の認識結果がA1であり、閾
値判定部7における閾値判定の結果がD≦εであれば、
音声パターンA1のラベルである電話番号12−345
6を情報送出部10に出力する(STEP8、9)。情
報送出部10は電話網に向けてこの番号を発信する(S
TEP10)。ラベル設定部8は、閾値判定部7の閾値
判定結果がD≦εであることに基づいて標準パターン登
録部3に新しく登録する入力パターンA2のラベルを認
識結果の標準パターンA1と同じラベル番号12−34
56とする。標準パターン更新部9は入力パターンA2
を標準パターンA1が属するグループG1と同じグルー
プに区分けする(STEP11、12)。
【0032】グループG1は、12−3456と同じラ
ベル番号を有する標準パターンの集合である。標準パタ
ーンA2を標準パターン登録部3に登録するに際して、
グループG1に区分けされた標準パターンがA1をも含
めて既に3個ある場合、標準パターン更新部9は3個の
内の最も古い標準パターンであるA1を削除する(ST
EP13、14)。
【0033】標準パターン登録部3の空き記憶容量が残
り少なく、1つの標準パターンの削除だけでは新しい標
準パターンを登録することができない場合、標準パター
ン更新部9は当該標準パターンを登録することができる
空き記憶容量が確保されるまで標準パターン登録部3の
標準パターンの全体の内から古いもの順に削除する。グ
ループG1に区分けされた標準パターンが2つ以内で空
き記憶容量が足りない場合も同様の削除を行う。標準パ
ターン登録部3に当該標準パターンを登録する空き記憶
容量が充分ある場合は削除は行わない。この様にして標
準パターン登録部3は入力パターンA2を標準パターン
A1と同じ電話番号12−3456をラベルとする標準
パターンとして新たに登録する(STEP15、16、
17)。
【0034】(第3.1) 次に、発声者が別の音声を
発声したとして、この時の入力パターンをA3とする
(STEP1、2、3、7)。この時、音声認識部2の
認識結果について、閾値判定部7の閾値判定の結果がD
>εであるものとする(STEP8)。ラベル設定部8
はこの閾値判定結果に基づいてこれから登録しようとす
る入力パターンのラベルを新たに操作部12により入力
する手順を選択する。これによりガイダンス出力部11
は発声者に番号入力のタイミングを指示するガイダンス
を出力する(STEP18)。
【0035】ここで、発声者が12−3456を操作部
12により入力すると、標準パターン更新部9は入力パ
ターンA3をグループG1と同じグループに区分けする
(STEP19)。入力パターンA3を標準パターン登
録部3に登録する際の標準パターン更新部9による標準
パターン削除の仕方は上述された削除の仕方と同様であ
る。標準パターン登録部3は、入力パターンA3をグル
ープG1の標準パターンと同じ電話番号12−3456
をラベルとする標準パターンとして新たに登録する(S
TEP20、21、22、12)。
【0036】(第3.2) ところで、発声者が入力し
た番号が12−3456ではなくして65−4321で
あり、標準パターン更新部9がこの65−4321のラ
ベルのグループを過去に作成していなかったものとする
と、標準パターン更新部9は新しいグループを作成す
る。このグループをG2とする。入力パターンA3はグ
ループG2に分類される初めての標準パターンとなる。
標準パターン登録部3は入力パターンA3を電話番号6
5−4321をラベルとする標準パターンとして新たに
登録する(STEP19、20、21、23、15)。
【0037】なお、以上においては1つのラベルグルー
プに対して3つの標準パターンを標準パターン登録部3
に登録する例について説明してきたが、同一のラベルに
対して標準パターン登録部3に登録することができる標
準パターンの数に制約を設けない場合についても、1つ
のラベルに対してパターンの追加が標準パターン登録部
3の記憶容量が続く限り継続される点を除けば、以上と
同様の手順である(STEP11、20)。
【0038】(第4) 更に、以下に説明される通り、
標準パターン更新部9のグループ設定を拡張することが
できる。音声認識部2の認識結果について、閾値判定部
7の閾値判定がD>εの場合、操作部12を介して入力
されたラベルのグループが存在してもこれとは別に新し
いグループを作成する。これは、先の実施例においては
同一ラベルのグループを1つとしていたのに対して、距
離値の違いによる複数のグループ作成を許容するもので
ある。以下、これについて説明するに、発声者が或る音
声を発声したとして、この時の入力パターンをA4とす
る(STEP1、2、3、7)。
【0039】この時、音声認識部2の認識結果につい
て、閾値判定部7の閾値判定の結果はD>εであったと
する(STEP8)。ラベル設定部8はこの閾値判定結
果に基づいて、これから登録しようとする入力パターン
のラベルを新たに操作部12により入力する手順を選択
する。これによりガイダンス出力部11は発声者に番号
入力のタイミングを指示するガイダンスを出力する(S
TEP18)。
【0040】発声者が12−3456を操作部12を介
して入力すると、標準パターン更新部9は新しいグルー
プを作成する(STEP19、20、21、24)。こ
のグループをG3とする。グループG3は、グループG
1と同一のラベル12−3456を有するが、G1とは
別のグループとなる。入力パターンA4は、グループG
3に分類される初めての標準パターンとなる。標準パタ
ーン登録部3は入力パターンA4を電話番号12−34
56をラベルとする標準パターンとして新たに登録する
ことになる(STEP15)。
【0041】先の実施例と異なるところは、同一ラベル
電話番号12−3456のグループG1が既に存在する
にもかかわらず、これとは別に距離値が閾値以上離れた
別のグループG3を作成するところである。なお、グル
ープに標準パターンが3つ登録されている場合および標
準パターン登録部3の空き記憶容量が残り少ない場合の
標準パターンの削除の仕方は上述と同様である。
【0042】この発明は、以上の様にすることにより、
音声の特徴パターンの登録操作と音声認識操作は統一さ
れて、これら両操作の大半は共通するに到る。これによ
り、音声認識装置の操作を単純明快にし、これは登録操
作の大部分を自動化することを容易にし、使用者の操作
負担を軽減する。そして、従来、入力音声の特徴パター
ンは、過去に入力した音声の特徴パターンとの間におい
てマッチング処理された後に破棄されていたのである
が、この発明はこれを標準パターンとして登録し、次回
から実施されるマッチング処理に活用する。
【0043】また、1つのラベルに対して複数の標準パ
ターンの登録を許容することにより発声者の発声パター
ンの変化に柔軟に対応することができ、発声のゆらぎに
殆ど影響されない音声認識をすることができる。更に、
入力パターンと標準パターンの間のマッチング処理の結
果について尤度の評価尺度となる距離値に閾値を与える
ことにより、標準パターン登録時のラベル入力作業を自
動化することができる。即ち、入力パターンと尤度が最
も高い標準パターンについてその距離値が閾値以下の場
合、入力パターンに当該標準パターンと同一のラベルを
付与し、標準パターン登録する。距離値が閾値より大き
い入力パターンに対してはラベル入力を要求し、標準パ
ターン登録とする。標準パターン登録部の記憶容量が限
界を超えた場合、新標準パターン登録の記憶容量が確保
できるまでこの登録部における古い標準パターンを古い
順から削除して新標準パターンを登録する。標準パター
ン登録部に登録した標準パターンをラベル或は類似度に
着目してグループ分けし、同一グループで登録するる標
準パターンの数を制約する。この場合、制約した標準パ
ターンが登録されたグループに新たに標準パターンを登
録しようとする場合、同グループ中の最古の標準パター
ンを削除して新標準パターンを登録する。これらは、標
準パターン登録時のラベル入力作業を自動化し、標準パ
ターン登録のための記憶容量を効率よく配分することに
有利に動作する。
【0044】
【発明の効果】以上の通りであって、この発明は、音声
の特徴パターンの登録操作と音声認識操作は統一され
て、これら両操作の大半は共通するに到る。これによ
り、音声認識装置の操作を単純明快にし、これは登録操
作の大部分を自動化することを容易にし、使用者の操作
負担を軽減することができる。
【0045】そして、標準パターン登録部の登録内容を
逐次更新することにより常に最新の標準パターンを登録
することができるので、時間経過に起因するる話者の発
声パターンの変化に柔軟に対応することができる。ま
た、ラベルを共通とする標準パターンを複数記憶するこ
とにより、同一話者の同一言語の発声パターンの多様性
に柔軟に対応することができる。
【0046】更に、同一のラベルを有する別々の音声を
記憶させることにより、別々の音声を同一の目的に使用
し、或は複数の話者の言い方による使い分けをすること
ができる。
【図面の簡単な説明】
【図1】実施例を説明するブロック図。
【図2】実施例の動作フロー図。
【図3】図2の続き
【図4】図2の続き
【図5】従来例を説明するブロック図。
【符号の説明】
1 音声入力部 2 音声認識部 3 標準パターン登録部 4 登録操作部 5 認識操作部 6 認識登録制御部 7 閾値判定部 8 ラベル設定部 9 標準パターン更新部 10 情報送出部 11 ガイダンス出力部 12 操作部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声信号について特徴パター
    ンを抽出し、標準パターンが過去に1個も入力されてい
    ない未登録である場合この入力した音声の特徴パターン
    を直接に標準パターンとして登録し、現在入力した音声
    の特徴パターンと過去に入力した音声の特徴パターンと
    の間のマッチングをとり、マッチング結果の特徴パター
    ンと両特徴パターンの類似の度合を示す尤度とを出力
    し、現在入力した音声の特徴パターンを標準パターンと
    して登録することを特徴とする音声認識方法。
  2. 【請求項2】 請求項1に記載される音声認識方法にお
    いて、 登録される標準パターンについて同一ラベル或は近似パ
    ターンによるグループ分けを行ない、グループ内の標準
    パターンの同時登録可能数を設定することを特徴とする
    音声認識方法。
  3. 【請求項3】 請求項1に記載される音声認識方法にお
    いて、 標準パターンの記憶容量限界時の標準パターン登録にお
    いて登録される標準パターンの内の最古の標準パターン
    を削除して新標準パターン登録の記憶容量を確保するこ
    とを特徴とする音声認識方法。
  4. 【請求項4】 請求項2に記載される音声認識方法にお
    いて、 設定した数の標準パターン数が登録されたグループに新
    たに標準パターンを登録するに際して同グループ内の最
    古の標準パターンを削除して新標準パターン登録の記憶
    容量を確保することを特徴とする音声認識方法。
  5. 【請求項5】 請求項1ないし請求項4の内の何れかに
    記載される音声認識方法において、 登録操作内容或は入力音声の認識結果に基づいた情報を
    外部に出力することを特徴とする音声認識方法。
  6. 【請求項6】 請求項1ないし請求項5の内の何れかに
    記載される音声認識方法において、 使用者に対して音声認識の発声タイミングおよび入力操
    作タイミングをガイダンスすることを特徴とする音声認
    識方法。
  7. 【請求項7】 入力音声を音声信号に変換する音声入力
    部を具備し、 音声信号について特徴パターンを抽出し、現在入力した
    音声と過去に入力した複数の音声との間において特徴パ
    ターンのマッチングを行なってマッチング結果と尤度と
    を出力すると共に、マッチング結果が得られない旨出力
    する音声認識部を具備し、 音声認識部の抽出した特徴パターンを標準パターンとし
    て登録する標準パターン登録部を具備し、 音声認識部の出力情報に含まれる認識結果の尤度につい
    て閾値判定して当該標準パターンのラベルを出力する閾
    値判定部、新しく登録する入力パターンのラベル付与を
    閾値判定部の閾値判定結果に基づいて実施するラベル設
    定部、および標準パターン登録部の標準パターン登録状
    況を監視更新する標準パターン更新部より成る認識登録
    制御部を具備し、 認識登録制御部を入力操作して入力情報を出力する操作
    部を具備することを特徴とする音声認識装置。
  8. 【請求項8】 請求項7に記載される音声認識装置にお
    いて、 認識登録制御部の閾値判定部から出力される情報、或は
    操作部を介した操作内容を外部に出力する情報送出部を
    具備することを特徴とする音声認識装置。
  9. 【請求項9】 請求項7および請求項8の何れかに記載
    される音声認識装置において、 発声者に対して音声認識の発声タイミングおよび操作部
    の入力タイミングを指示するガイダンスを出力するガイ
    ダンス出力部を具備することを特徴とする音声認識装
    置。
JP8014869A 1996-01-31 1996-01-31 音声認識方法およびこの方法を実施する装置 Pending JPH09212186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8014869A JPH09212186A (ja) 1996-01-31 1996-01-31 音声認識方法およびこの方法を実施する装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8014869A JPH09212186A (ja) 1996-01-31 1996-01-31 音声認識方法およびこの方法を実施する装置

Publications (1)

Publication Number Publication Date
JPH09212186A true JPH09212186A (ja) 1997-08-15

Family

ID=11873036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8014869A Pending JPH09212186A (ja) 1996-01-31 1996-01-31 音声認識方法およびこの方法を実施する装置

Country Status (1)

Country Link
JP (1) JPH09212186A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010526349A (ja) * 2007-05-03 2010-07-29 マイクロソフト コーポレーション 自動案内システムの文法調整

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010526349A (ja) * 2007-05-03 2010-07-29 マイクロソフト コーポレーション 自動案内システムの文法調整

Similar Documents

Publication Publication Date Title
US5583965A (en) Methods and apparatus for training and operating voice recognition systems
JP4558074B2 (ja) 電話通信端末
US5960393A (en) User selectable multiple threshold criteria for voice recognition
US6385304B1 (en) Speech-responsive voice messaging system and method
CN1783213B (zh) 用于自动语音识别的方法和装置
US5832063A (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US6687673B2 (en) Speech recognition system
EP1378886A1 (en) Speech recognition device
US6671668B2 (en) Speech recognition system including manner discrimination
EP0661690A1 (en) Speech recognition
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JPS603699A (ja) 適応性自動離散音声認識方法
US5752230A (en) Method and apparatus for identifying names with a speech recognition program
JPH10503033A (ja) 新ワードのモデル化に基づく音声認識方法及びその装置
JPH0876785A (ja) 音声認識装置
JP2005534983A (ja) 自動音声認識の方法
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
JP2006507530A (ja) 音声認識装置及び方法
US7110948B1 (en) Method and a system for voice dialling
US6845356B1 (en) Processing dual tone multi-frequency signals for use with a natural language understanding system
JPH09212186A (ja) 音声認識方法およびこの方法を実施する装置
JP4486235B2 (ja) 音声認識装置
KR100827074B1 (ko) 이동 통신 단말기의 자동 다이얼링 장치 및 방법
JPH09127975A (ja) 話者認識システムおよび情報管理方法
JPH1063295A (ja) 認識結果を自動訂正する単語音声認識方法およびこの方法を実施する装置