JPH06274197A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06274197A
JPH06274197A JP5058103A JP5810393A JPH06274197A JP H06274197 A JPH06274197 A JP H06274197A JP 5058103 A JP5058103 A JP 5058103A JP 5810393 A JP5810393 A JP 5810393A JP H06274197 A JPH06274197 A JP H06274197A
Authority
JP
Japan
Prior art keywords
voice
phoneme
reference vector
word
detecting means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5058103A
Other languages
English (en)
Other versions
JP3410756B2 (ja
Inventor
Satoru Nakamura
哲 中村
Kazuhiko Miyata
和彦 宮田
Toshio Akaha
俊夫 赤羽
Seiji Hamaguchi
清治 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP05810393A priority Critical patent/JP3410756B2/ja
Publication of JPH06274197A publication Critical patent/JPH06274197A/ja
Application granted granted Critical
Publication of JP3410756B2 publication Critical patent/JP3410756B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 動的計画法の計算量を削減でき効率よくパタ
ーン認識を行うことができる音声認識装置を提供するこ
とにある。 【構成】 入力音声の特徴的な部位を抽出する複数の音
声イベント検出ニューラウネットワークと、複数の音声
イベント検出ニューラルネットワークの出力に基づいて
単語の尤度を求める単語検出ニューラルネットワークと
を備えており、入力音声に対して認識対象単語の特徴に
応じて連結された音声イベント検出ニューラルネットワ
ークを時間軸上にそれぞれ独立に走査して各音声イベン
ト検出ニューラルネットワーク及び単語検出ニューラル
ネットワークの出力に基づいて入力音声を認識する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、任意の単語を認識でき
る音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置は、任意の語彙を認
識するために単音節や音素の特徴系列を単位とし、これ
らの組合せで認識を行なっていた。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声認識装置では、照合における標準パターン
としては、これらの単位に相当する時系列全体を対象と
して標準パターンが構成されており、このため発声毎の
時間構造の異なりを正規化するための時間正規化マッチ
ングを動的計画法(DP)などで行なう必要があり、構
成が複雑になってしまうという問題点があった。。更
に、上述した従来の音声認識装置では、音素などに対応
する標準パターンは、自らの音素カテゴリーへの尤度し
か計算できずパターン識別の性能が低いという問題点が
あった。
【0004】従って、上述した従来の音声認識装置で
は、認識単位の効率的なとり方、音素特徴の自動走査、
動的計画法の計算量の削減、認識単位と標準パターンの
学習法に関する問題点があった。
【0005】本発明の目的は、上述した従来の音声認識
装置における問題点に鑑み、動的計画法の計算量を削減
でき効率よくパターン認識を行うことができる音声認識
装置を提供することにある。
【0006】
【課題を解決するための手段】本発明の目的は、入力音
声の特徴的な部位を抽出する複数の音声イベント検出手
段と、複数の音声イベント検出手段の出力に基づいて単
語の尤度を求める単語検出手段とを備えており、入力音
声に対して認識対象単語の特徴に応じて連結された音声
イベント検出手段を時間軸上にそれぞれ独立に走査して
各音声イベント検出手段及び単語検出手段の出力に基づ
いて入力音声を認識する音声認識装置によって達成され
る。
【0007】本発明の音声認識装置は、入力音声の特徴
的な部位に対応する正参照ベクトルと特徴的な部位に対
応しない反参照ベクトルとの尤度に基づいて入力音声を
認識するように構成してもよい。
【0008】本発明の音声認識装置は、特定の音素を対
象とする音声イベント検出手段の学習を行なうときに、
該当する音素と同じ音素の学習データに対して正参照ベ
クトルを学習データに近付くように修正し、該当する音
素と異なる音素の学習データに対して反参照ベクトルを
近付けるように修正するように構成してもよい。
【0009】本発明の音声認識装置は、特定の音素を対
象とする音声イベント検出手段の学習を行なうときに、
該当する音素と同じ音素の学習データに対しては正参照
ベクトルを学習データに近付くようにかつ反参照ベクト
ルを遠ざけるように修正し、該当する音素と異なる音素
の学習データに対しては正参照ベクトルを学習データか
ら遠ざけるようにかつ反参照ベクトルを近付けるように
修正するように構成してもよい。
【0010】本発明の音声認識装置は、正参照ベクトル
及び反参照ベクトルで構成された参照ベクトルの出力の
最大値から反参照ベクトルの出力の最大値を減じること
により音声イベント検出手段の出力を求めるように構成
してもよい。
【0011】本発明の音声認識装置は、認識すべき音声
を含む音響信号に対し各音声イベント検出手段を走査し
各時刻において単語照合の終端を仮定して単語検出手段
からの出力を求めて出力の時系列の極大値に基づいて該
当する単語を検出して連続的に認識を行なうように構成
してもよい。
【0012】
【作用】本発明の音声認識装置では、複数の音声イベン
ト検出手段は、入力音声の特徴的な部位を抽出し、単語
検出手段は、複数の音声イベント検出手段の出力に基づ
いて単語の尤度を求めて、入力音声に対して認識対象単
語の特徴に応じて連結された音声イベント検出手段を時
間軸上にそれぞれ独立に走査して各音声イベント検出手
段及び単語検出手段の出力に基づいて入力音声を認識す
る。
【0013】本発明の音声認識装置では、入力音声の特
徴的な部位に対応する正参照ベクトルと特徴的な部位に
対応しない反参照ベクトルとの尤度に基づいて入力音声
を認識する。
【0014】本発明の音声認識装置では、特定の音素を
対象とする音声イベント検出手段の学習を行なうとき
に、該当する音素と同じ音素の学習データに対して正参
照ベクトルを学習データに近付くように修正し、該当す
る音素と異なる音素の学習データに対して反参照ベクト
ルを近付けるように修正する。
【0015】本発明の音声認識装置では、特定の音素を
対象とする音声イベント検出手段の学習を行なうとき
に、該当する音素と同じ音素の学習データに対しては正
参照ベクトルを学習データに近付くようにかつ反参照ベ
クトルを遠ざけるように修正し、該当する音素と異なる
音素の学習データに対しては正参照ベクトルを学習デー
タから遠ざけるようにかつ反参照ベクトルを近付けるよ
うに修正する。
【0016】本発明の音声認識装置では、正参照ベクト
ル及び反参照ベクトルで構成された参照ベクトルの出力
の最大値から反参照ベクトルの出力の最大値を減じるこ
とにより音声イベント検出手段の出力を求める。
【0017】本発明の音声認識装置では、認識すべき音
声を含む音響信号に対し各音声イベント検出手段を走査
し各時刻において単語照合の終端を仮定して単語検出手
段からの出力を求めて出力の時系列の極大値に基づいて
該当する単語を検出して連続的に認識を行なう。
【0018】
【実施例】以下、図面を参照して、本発明の音声認識装
置の実施例を詳細に説明する。
【0019】図1は、本発明の音声認識装置の一実施例
の構成を示すブロック図である。
【0020】図1の音声認識装置は、マイクロホン1
1、マイクロホン11に接続されたアナログ/デジタル
(A/D)変換器12、A/D変換器12に接続された
マイクロプロセッサ13、マイクロプロセッサ13に接
続されており音声イベント検出手段及び単語検出手段を
構成しているリード・オンリー・メモリ(ROM)1
4、マイクロプロセッサ13に接続されたランダム・ア
クセス・メモリ(RAM)15、マイクロプロセッサ1
3に接続された外部インタフェース16によって構成さ
れている。
【0021】次に、図1の音声認識装置の動作を説明す
る。
【0022】入力音声は、マイクロホン11で集音され
て電気信号に変換され、低域通過フィルターをかけた
後、A/D変換器12でアナログ信号からデジタル信号
に変換される。
【0023】A/D変換器12でデジタル信号に変換さ
れた音声信号は、バスを経てマイクロプロセッサ13に
転送される。
【0024】マイクロプロセッサ13は、ROM14に
格納されている音声認識プログラムにより、同じくRO
M14に格納されている認識単語音素列と対応するニュ
ーラルネットを呼び出し、ワーキングエリアをRAM1
5としてデータを一時的に格納しながら認識処理を行な
い、認識結果を外部インタフェース16を通じて外部に
出力する。
【0025】図2に音声波形の一例を示す。図2は、無
声破裂音/k/の一例であるが、破裂部分が雑音の中に
現れている。この破裂時刻は発声の試行によりいろいろ
変わり得る。このように、音声の特徴を表す音声イベン
トは、ある程度決まった特徴時系列が時間軸上で揺らぎ
ながら生じていると考えることができる。
【0026】本発明では、音声イベントをとらえるため
Lフレームの特徴時系列を用いて、この特徴時系列に基
づいてニューラルネットを構成するものとする。
【0027】ニューラルネットは、図3に示すような層
状のパーセプトロン型のニューラルネットかあるいは、
図4に示すような学習ベクトル量子化(LVQ(Learni
ng Vector Quantization))型のニューラルネットのい
ずれでもよいが、ここでは図4のLVQ型ニューラルネ
ットについて説明する。
【0028】LVQ型ニューラルネットでは、複数の参
照ベクトルがあり、それらとのベクトルの距離や内積を
基にニューラルネットワークの出力を計算する。また、
層状ニューラルネットワークとの対比として各参照ベク
トル自体を出力ユニット、参照ベクトルの値をユニット
の重み、これらとの内積を出力ユニットからの出力と呼
ぶ。また、音素イベントに対応して学習された参照ベク
トル群と内積演算を含めて音素イベントニューラルネッ
トワークと呼ぶ。なお、LVQ型はニューラルネットワ
ークかどうかについて議論があるが、現状ではニューラ
ルネットワークの一種とされている。
【0029】音声の認識の単位として簡単のため音素を
例に説明する。LVQ型ニューラルネットでは、図5に
示すようにある音素のカテゴリーkを示すために参照ベ
クトルVki{i=0,..,N}を用意し、このカテ
ゴリーにはいる学習データが提示されると参照ベクトル
をそのベクトルの方向に移動し、異なるカテゴリーに入
ると遠ざけるように学習を行なう。
【0030】しかし、該当カテゴリーに属すことを示す
正参照ベクトルだけでは充分な識別ができないため、本
発明ではそのカテゴリーでないことを示す反参照ベクト
ルUkj{j=0,..,M}を用意する。従って、該
当カテゴリーに属す学習データが提示されると参照ベク
トルVkiは学習データの方向に移動され、反参照ベク
トルUkjは遠ざかるように移動される。また、逆に該
当カテゴリーに属さない学習データが提示されると参照
ベクトルVkiは遠ざける方向に、反参照ベクトルUk
jは近付く方向に訂正される。
【0031】認識すべき入力が与えられるとこれらの正
反参照ベクトルとの内積を計算し、次式のようにそのカ
テゴリーとの尤度を計算する。
【0032】D(l,k)=h(f(d(Xl,V
k))−g(d(Xl,Uk))) ls<l<le ここで、Xlは、認識すべき入力音声の1フレーム目を
開始点とする時系列パターンであり、lsは照合開始時
刻、leは照合終了時刻である。また、関数d(Xl,
Vk)はXlとカテゴリーkの正参照ベクトルとの類似
度、関数d(Xl,Uk)はXlとカテゴリーkの反参
照ベクトルとの類似度である。
【0033】例えば、関数dによって求まる正参照ベク
トルへの類似度は各正参照ベクトルへの出力の最大値関
数、反参照ベクトルへの類似度は反参照ベクトルの出力
の最大値関数でそれぞれ構成できる。
【0034】fは入力と各正参照ベクトル群とそのカテ
ゴリーへの尤度を求める関数、gは入力と各反参照ベク
トル群とそのカテゴリーへの反尤度を求める関数、例え
ばmaxである。
【0035】hは、対象区間lsからle間で走査した
ときの最適位置決め関数である。この関数としては、同
様にmaxが考えられる。
【0036】図6は、実際の各参照ベクトルとの距離を
示す。対象とする音素のイベント位置になると正参照ベ
クトルとの類似度が増大し、反参照ベクトルとの類似度
が減少する。
【0037】離散単語認識の場合は、認識対象語彙の音
素列に対応する音素イベントニューラルネットワークを
連結しそれぞれのネットワークが時間拘束を考慮しなが
ら時間軸を走査して最大値を求めた後、単語検出ニュー
ラルネットワークで重みつきの和を求め認識結果を得
る。単語検出ニューラルネットワークの構造は図4に示
されている。その認識対象単語において信頼できる音素
イベントに重みがかかるように学習される。
【0038】次に音素イベントニューラルネットワーク
の学習について説明する。
【0039】まず、各音素イベントニューラルネットワ
ークは、一定量のラベル付けを行なった音声データベー
スから初期学習を行なう。
【0040】音素毎に特徴点を人間が指示してその部位
の学習を行なう。学習は先に述べたLVQ学習とする。
【0041】次に、図7に示すように、この音素イベン
トニューラルネットワークを用いて学習単語を認識す
る。認識を行なったときに各音素イベントニューラルネ
ットワークが時間軸上を走査して求まった音素イベント
の位置において各音素イベントニューラルネットワーク
の再学習を行ない最適化を行なう。これを最適化学習と
呼ぶ。
【0042】次に、この音素イベントニューラルネット
ワークを用いて単語検出ニューラルネットワークの学習
を行なう。単語検出ニューラルネットワークは、本実施
例では各音素イベントニューラルネットワークの和とし
て構成しているが、LVQ型の参照ベクトルの集合によ
り構成し、学習単語のデータを用いて学習してもよい。
これは、対象単語内での各音素イベントニューラルネッ
トワークの出力のパターンを記憶する働きを持つ。
【0043】上記各処理手順を、図8〜図14を参照し
て説明する。
【0044】図8は、初期学習の動作を示すフローチャ
ートである。
【0045】まず、初期設定を行ない(ステップS
1)、ニューラルネットに用いる学習データをあらかじ
め付与されている音素ラベル情報で分類し音声の特徴パ
ラメータ系列を求める(ステップS2)。上記ステップ
S2の処理については、図9を参照して後述する。ラベ
ル毎に分類され分析された学習データのパラメータ系列
を用いてLVQ型ニューラルネットの正反参照ベクトル
の学習を行なう(ステップS3〜S7)。この学習をあ
らかじめ決められた繰り返し終了条件(一定の回数など
を満たすなど)まで繰り返す。
【0046】学習では、学習データの提示順序により学
習が偏らないように学習データの提示順序を音素ラベル
を乱数により決定した後(ステップS4)、その学習デ
ータを読み込み(ステップS6)、正反参照ベクトルの
学習を行なう(ステップS7)。この学習をステップS
5のループで全ての学習データに対して行なう。上記ス
テップS7の正反参照ベクトルの学習については、図1
0を参照して後述する。
【0047】上記ステップS3で一定の条件を満たすま
で繰り返しが行なわれて学習された参照ベクトルと音素
平均長を格納して(ステップS8)、処理を終了する。
【0048】次に、図9を用いて上記ステップS2の処
理を説明する。
【0049】初期設定を行なった後(ステップS20
1)、ラベルファイルを指定した後(ステップS20
2)、ラベルファイルの読み込みを行なう(ステップS
203)。次に、ラベルファイル内の最初の音素を指定
し(ステップS204)、更に学習音素を指定した後
(ステップS205)、上記ステップS203で読み込
まれた学習データのラベルと現在の学習音素の比較を行
なう(ステップS206)。比較の結果、同一の音素で
あった場合(ステップS207)、そのラベルファイル
の音素位置に相当する音声データのパラメータを読み込
み(ステップS208)、ラベル情報を基にあらかじめ
与えた位置を決定し(ステップS209)、学習データ
バッファに格納する(ステップS210)。
【0050】上述した処理を上記ステップS204で一
つのラベルファイル内の全ての音素に対して行なう。更
に、上記ステップS202で上記ステップS203以降
の処理を全てのラベルファイルに対して行なう。
【0051】次に、図10を参照して、図8のステップ
S7の正反参照ベクトルの学習について説明する。
【0052】まず、音素の学習順によって影響されない
ように、乱数により音素の学習順を決定する(ステップ
S701)。次に、学習音素を指定して学習データ音素
ラベルと学習音素との比較を行なう(ステップS70
3)。もし一致するときは(ステップS704)、正参
照ベクトルの学習を行なう(ステップS705)。ここ
で、入力ベクトルをXlとすると、正参照ベクトルVk
iと反参照ベクトルUkjは次のようになる。
【0053】Vki=Vki+α(Xl−Vki) Ukj=Ukj−α(Xl−Ukj) また、上記ステップS704で一致しない場合は、反参
照ベクトルの学習を行なう(ステップS706)。ここ
で、入力ベクトルをXlとすると、正参照ベクトルVk
iと反参照ベクトルUkjは次のようになる。
【0054】Vki=Vki−α(Xl−Vki) Ukj=Ukj+α(Xl−Ukj) 次に、図11を参照して、図4のLVQ型ニューラルネ
ットの認識部である出力層における処理を説明する。
【0055】まず、初期設定を行なった後(ステップT
1)、全音素のユニット重み、即ち正反参照ベクトルを
読み込み(ステップT2)、認識対象の単語の音素列か
ら構成される単語辞書を読み込み(ステップT3)、入
力音声を1フレーム読み込み(ステップT4)、音声検
出済みフラグをチェックして(ステップT5)、確認済
みの場合には処理を終了し、未検出の場合には、入力音
声の分析とノルムの計算、正規化を行なう(ステップT
6)。ステップT7からのループでは、順に各音素の参
照ベクトルとの照合を行なうと同時に単語検出の確認を
行なう。各音素の参照ベクトルとの尤度を求め発火閾値
との比較を行ない(ステップT8)、発火していなけれ
ば(ステップT9)、次の音素との照合に移る。他方、
上記ステップT9で発火閾値を越えている場合には、発
火時刻、発火レベルを適当な大きさを持った先入れ先出
し(FIFO)メモリに格納する(ステップT10)。
この発火に対して単語辞書を確認し、どれかの単語の終
端音素でない場合(ステップT11)、次の音素の照合
に移り、終端音素の場合、単語ネットの出力確認を行な
う(ステップT12)。
【0056】次に、図12を参照して、図11のステッ
プT12における単語ネット出力確認処理を説明する。
【0057】初期設定を行なった後(ステップT10
1)、認識対象単語全体との照合処理をステップT10
2〜ステップT107のループで行なう。
【0058】まず、1つの認識単語を指定し(ステップ
T102)、その単語の終端音素が発火しているかを確
認し(ステップT103)、発火していない場合、次の
単語との照合を行なう。発火している場合、終端音素の
発火している時刻から時間逆向きに辞書の音素が発火し
ている時刻を調べ、各発火時点が継続長による許容範囲
に入っているかを調べる(ステップT105,T10
6)。継続長による許容範囲は、例えば音素の平均継続
長の0.75倍〜1.5倍を満たしていれば良いとする
が、学習データから学習することも可能である。
【0059】許容範囲にはいっている場合、その音素の
発火値PをOwに加算して次の辞書中の音素を調べる
(ステップT107)。上記ステップT102で全単語
との照合が終了すると、各単語に対する尤度をソートし
単語検出フラグをオン(ON)し(ステップT10
8)、上位M個の結果を出力する(ステップT10
9)。
【0060】次に、図13を参照して、図4のLVQ型
ニューラルネットの最適化学習について説明する。
【0061】最適化学習は、認識のアルゴリズムに応じ
た最適な学習を行なうための処理であり認識性能改善に
大きな効果がある。
【0062】まず、初期設定を行なった後(ステップV
1)、初期学習済みの全音素のユニット重み、即ち参照
ベクトルを読み込み(ステップV2)、認識対象となる
単語の音素列を読み込む(ステップV3)。最適化学習
はステップV4であらかじめ決められた繰り返し条件、
例えば一定の繰り返し数などに達するまでの繰り返しを
行なう。
【0063】更に、ステップV5のループでは学習単語
全体に対し各音素の参照ベクトルの更新を行なう。
【0064】まず、一つの学習単語を指定しそのデータ
をその単語に対応して音素を連結し認識処理を行なう
(ステップV6)。これにより、認識処理で決定される
各音素イベント位置が求まる。この結果求まった単語ネ
ットの出力値が閾値以下の場合には学習しないように判
断を行なう(ステップV7)。これは、あまりに精度が
悪い単語に対しては学習に使用しないようにするもの
で、学習が進むにつれて閾値を上回るので最終的には全
単語が学習に使われるように設定される。学習速度を改
善する効果がある。上記ステップV7で閾値を越えてい
た単語に対しては、単語Wの最適化学習を行なう(ステ
ップV8)。この処理を全単語に対して行ない全音素の
参照ベクトルの更新を行なって、さらに繰り返しを行な
うことで認識部と学習部の最適化がはかれる。一定の学
習が終了するとユニット重み、即ち参照ベクトル、音素
平均長が格納されて(ステップV9)、処理を終了す
る。
【0065】次に、図14を参照して、図13のステッ
プV8である単語Wの最適化学習方法について説明す
る。
【0066】初期設定を行なった後(ステップV80
1)、ステップV802〜ステップV808のループで
は学習対象となっている単語内の音素の順に学習する。
【0067】まず、語頭から順に音素を指定してその音
素の発火位置を読み込む(ステップV803)。ステッ
プV804からのループでは、全ての音素を順に参照し
て正参照ベクトルと反参照ベクトルの学習を行なう。
【0068】まず、最初の学習音素を指定して認識デー
タ音素と学習音素との比較を行ない(ステップV80
6)。上記ステップV806で一致している場合には正
参照ベクトルの学習を行ない(ステップV807)、一
致していない場合には反参照ベクトルの学習を行なう
(ステップV808)。ここでの正反参照ベクトルの学
習は、図10のステップS705、S706におけるも
のと同一である。上記ステップV802で単語中に含ま
れる全音素の学習を終了した後処理を終了する。
【0069】連続音声認識やワードスポッティングの場
合は、連続照合が必要になるがこれは各音素検出ニュー
ラルネットの出力を基に、図15に示すように、連続動
的計画法(連続DP)マッチングなどを用いて各時刻を
終点と仮説して、そのときの単語全体の尤度がある閾値
を越えて最大になる点をもって検出できたとする。この
場合、各音素イベントニューラルネットはそれぞれある
一定の閾値以上の尤度がないと対象にしないことにすれ
ば、連続DPの演算量を減らすことができる。
【0070】音声の特徴は、時間系列上で音声の特徴と
なる音声イベントが位置的に変動しながら発生する形態
となっており、認識単位とする音素など全体を対象にす
ることはかえって不要な部分を含める場合がある。従っ
て、この音声イベント部分の特徴をニューラルネットワ
ークにより学習し、時間上で走査して音声系列を求め
て、認識単位となる音響パラメータ全ての時間を対象と
して認識することにより、メモリ量、計算量、認識精度
を向上することができる。
【0071】更に、ある一定の尤度より大きい出力を有
する部分しか対象にしないので、最適音素列を求める場
合に用いる動的計画法(DP)の計算量も削減すること
ができる。
【0072】従来の方法では入力音声と標準パターン
(モデル)との一致を距離や類似度のみで測定していた
が、本発明の音声認識装置では、類似度を測定する正参
照ベクトルとの距離に加えて相違度を求めるための反参
照ベクトルを学習しておき、この両者から本来の尤度を
計算することにより精度よく識別できる。また、音声イ
ベントのニューラルネットの学習法として目視などによ
り求めたラベル情報を基に初期学習を行ない、これを連
結して学習単語のモデルを構成し、学習単語を認識した
後、各音声イベントニューラルネットが検出した音声イ
ベントの位置で音声イベントニューラルネットを再学習
最適化することにより、認識すべき音声イベントに最も
適したニューラルネットを構成する。
【0073】
【発明の効果】本発明の音声認識装置は、入力音声の特
徴的な部位を抽出する複数の音声イベント検出手段と、
複数の音声イベント検出手段の出力に基づいて単語の尤
度を求める単語検出手段とを備えており、入力音声に対
して認識対象単語の特徴に応じて連結された音声イベン
ト検出手段を時間軸上にそれぞれ独立に走査して各音声
イベント検出手段及び単語検出手段の出力に基づいて入
力音声を認識するので、任意の単語を効率よくかつ高い
精度で認識できる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。
【図2】音声及び音声イベントの説明図である。
【図3】層状ニューラルネットワークの一構成例を示す
説明図である。
【図4】LVQ型ニューラルネットワークの一構成例を
示す説明図である。
【図5】参照ベクトルの配置の説明図である。
【図6】各音素イベントニューラルネットの出力の説明
図である。
【図7】最適化学習位置の説明図である。
【図8】初期学習を説明するためのフローチャートであ
る。
【図9】初期学習を説明するためのフローチャートであ
る。
【図10】初期学習を説明するためのフローチャートで
ある。
【図11】認識部の動作を説明するためのフローチャー
トである。
【図12】認識部の動作を説明するためのフローチャー
トである。
【図13】最適化学習を説明するためのフローチャート
である。
【図14】最適化学習を説明するためのフローチャート
である。
【図15】ワードスポッティング応用の説明図である。
【符号の説明】
11 マイクロホン 12 A/D変換器 13 マイクロプロセッサ 14 ROM 15 RAM 16 外部インタフェース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 濱口 清治 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の特徴的な部位を抽出する複数
    の音声イベント検出手段と、該複数の音声イベント検出
    手段の出力に基づいて単語の尤度を求める単語検出手段
    とを備えており、該入力音声に対して認識対象単語の特
    徴に応じて連結された該音声イベント検出手段を時間軸
    上にそれぞれ独立に走査して各該音声イベント検出手段
    及び該単語検出手段の出力に基づいて該入力音声を認識
    することを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置であっ
    て、前記入力音声の特徴的な部位に対応する正参照ベク
    トルと当該特徴的な部位に対応しない反参照ベクトルと
    の尤度に基づいて前記入力音声を認識することを特徴と
    する音声認識装置。
  3. 【請求項3】 請求項2に記載の音声認識装置であっ
    て、特定の音素を対象とする前記音声イベント検出手段
    の学習を行なうときに、該当する音素と同じ音素の学習
    データに対して前記正参照ベクトルを学習データに近付
    くように修正し、該当する音素と異なる音素の学習デー
    タに対して前記反参照ベクトルを近付けるように修正す
    ることを特徴とする音声認識装置。
  4. 【請求項4】 請求項2に記載の音声認識装置であっ
    て、特定の音素を対象とする前記音声イベント検出手段
    の学習を行なうときに、該当する音素と同じ音素の学習
    データに対しては前記正参照ベクトルを学習データに近
    付くようにかつ前記反参照ベクトルを遠ざけるように修
    正し、該当する音素と異なる音素の学習データに対して
    は前記正参照ベクトルを学習データから遠ざけるように
    かつ前記反参照ベクトルを近付けるように修正すること
    を特徴とする音声認識装置。
  5. 【請求項5】 請求項2に記載の音声認識装置であっ
    て、前記正参照ベクトル及び前記反参照ベクトルで構成
    された参照ベクトルの出力の最大値から該反参照ベクト
    ルの出力の最大値を減じることにより前記音声イベント
    検出手段の出力を求めることを特徴とする音声認識装
    置。
  6. 【請求項6】 請求項2に記載の音声認識装置であっ
    て、認識すべき音声を含む音響信号に対し各前記音声イ
    ベント検出手段を走査し各時刻において単語照合の終端
    を仮定して前記単語検出手段からの出力を求めて当該出
    力の時系列の極大値に基づいて該当する単語を検出して
    連続的に認識を行なうことを特徴とする音声認識装置。
JP05810393A 1993-03-18 1993-03-18 音声認識装置 Expired - Fee Related JP3410756B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05810393A JP3410756B2 (ja) 1993-03-18 1993-03-18 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05810393A JP3410756B2 (ja) 1993-03-18 1993-03-18 音声認識装置

Publications (2)

Publication Number Publication Date
JPH06274197A true JPH06274197A (ja) 1994-09-30
JP3410756B2 JP3410756B2 (ja) 2003-05-26

Family

ID=13074630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05810393A Expired - Fee Related JP3410756B2 (ja) 1993-03-18 1993-03-18 音声認識装置

Country Status (1)

Country Link
JP (1) JP3410756B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019078567A1 (ko) * 2017-10-17 2019-04-25 서울대학교 산학협력단 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6481999A (en) * 1987-09-24 1989-03-28 Nec Corp Phoneme string conversion system
JPH01116869A (ja) * 1987-10-30 1989-05-09 Nec Corp ダイナミックプログラミング機能を有するニューラルネットワーク
JPH01204099A (ja) * 1988-02-09 1989-08-16 Nec Corp 音声認識装置
JPH02170265A (ja) * 1988-12-22 1990-07-02 Nec Corp 学習方法
JPH03269500A (ja) * 1990-03-19 1991-12-02 Sharp Corp 音声認識装置
JPH05334276A (ja) * 1990-12-27 1993-12-17 Toshiba Corp 学習機械の学習法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6481999A (en) * 1987-09-24 1989-03-28 Nec Corp Phoneme string conversion system
JPH01116869A (ja) * 1987-10-30 1989-05-09 Nec Corp ダイナミックプログラミング機能を有するニューラルネットワーク
JPH01204099A (ja) * 1988-02-09 1989-08-16 Nec Corp 音声認識装置
JPH02170265A (ja) * 1988-12-22 1990-07-02 Nec Corp 学習方法
JPH03269500A (ja) * 1990-03-19 1991-12-02 Sharp Corp 音声認識装置
JPH05334276A (ja) * 1990-12-27 1993-12-17 Toshiba Corp 学習機械の学習法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019078567A1 (ko) * 2017-10-17 2019-04-25 서울대학교 산학협력단 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치

Also Published As

Publication number Publication date
JP3410756B2 (ja) 2003-05-26

Similar Documents

Publication Publication Date Title
EP0380297B1 (en) Method and apparatus for speech recognition
US5404422A (en) Speech recognition system with neural network
JP3168779B2 (ja) 音声認識装置及び方法
US20050021330A1 (en) Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
EP0109190B1 (en) Monosyllable recognition apparatus
KR19980702723A (ko) 음성 인식 방법 및 장치
JP3410756B2 (ja) 音声認識装置
JP3467556B2 (ja) 音声認識装置
JP3914709B2 (ja) 音声認識方法およびシステム
JP3091537B2 (ja) 音声パターン作成方法
JP4424023B2 (ja) 素片接続型音声合成装置
JPH0823758B2 (ja) 話者適応形音声認識装置
JPH08166796A (ja) 連続音声認識のためのアクセント句境界検出装置
JPH0247758B2 (ja)
JP3484559B2 (ja) 音声認識装置および音声認識方法
KR100316776B1 (ko) 연속 숫자음 인식 장치 및 그 방법
JPH01185599A (ja) 音声認識装置
JPH10214096A (ja) 話者認識装置
JP3092384B2 (ja) パターン照合装置
CN113178205A (zh) 语音分离方法、装置、计算机设备及存储介质
JPH0449719B2 (ja)
JP2005091709A (ja) 音声認識装置
KR19990056312A (ko) 음성인식시스템에서의 단어 학습 및 인식 방법
JP2001242879A (ja) 音声検出装置
JPS6131878B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees