JPH03201161A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03201161A
JPH03201161A JP1344045A JP34404589A JPH03201161A JP H03201161 A JPH03201161 A JP H03201161A JP 1344045 A JP1344045 A JP 1344045A JP 34404589 A JP34404589 A JP 34404589A JP H03201161 A JPH03201161 A JP H03201161A
Authority
JP
Japan
Prior art keywords
input
net
word
output
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1344045A
Other languages
English (en)
Inventor
Kenji Sakamoto
憲治 坂本
Koichi Yamaguchi
耕市 山口
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1344045A priority Critical patent/JPH03201161A/ja
Priority to EP90125562A priority patent/EP0435282B1/en
Priority to DE69030561T priority patent/DE69030561T2/de
Publication of JPH03201161A publication Critical patent/JPH03201161A/ja
Priority to US08/024,853 priority patent/US5404422A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、不特定話者の発声する言葉を認識し得るニュ
ーラルネットワークを用いた音声認識装置に関する。
[従来の技術] 従来の音声認識方法には、次のような方法がある。
一つの方法は、入力音声を音響分析し、各フレーム毎に
特徴ベクトルを抽出し、抽出した特徴ベクトルを時系列
の2次元パターンとしてニューラルネットワークの入力
層に入力して、入力音声を識別できるような教師信号を
出力層に与え、多層パーセプトロン型ニューラルネット
ワークを利用した誤差逆伝播法により各結合の重み係数
を求める学習を行って、学習されたニューラルネットワ
ークに入力音声の特徴量を入力することにより、出力層
からの出力値に応じて入力音声を認識するもう一つの方
法は、入力音声の特徴ベクトル系列のうち代表的な特徴
ベクトルを、フラスタリング等の方法によって選出し、
選出された特徴ベクトルを標準パターンとして記憶して
おき、入力音声の特徴ベクトル系列との間でDPマツチ
ング等を行い、両方のパターン間の距離を計算し、最も
近い標準パターンの音声を認識結果とする。
[発明が解決しようとする問題点] 従来のニューラルネットワークを用いた音声認識装置に
は、話者及び発声の変化により、音声の各音韻の継続時
間等が変化し、ニューラルネットワークの入力層に入力
される特徴量が変化してしまうために、安定した重み係
数を求めることができず、入力層のユニット数に時間軸
を適合するように時間軸を伸縮した場合、入力音声の特
徴ベクトルを圧縮し、音声の識別に必要となる情報を欠
落させてしまうと共に、単語中の各音韻の局所的な継続
時間のずれを吸収できないという問題点がある。
また、標準パターンとして、特徴ベクトルの時系列をも
っておき、時間軸の非線形な伸縮を正規化して、入カバ
ターンと標準パターンとの距離を計算するDPマツチン
グの手法は、計算量が多く、処理に時間がかかってしま
う。さらに、不特定話者に対応するために標準パターン
を複数個もつことが考えられるが、どのパターンを標準
パターンにするかなど、その作成方法が難しかった。
本発明の目的は、安定した重み係数を求め得ると共に、
発声された単語中の各音韻の局所的な継続時間のずれを
吸収し得るニューラルネットワークを用いた音声認識装
置を提供することにある。
[課題を解決するための手段] 本発明によれば、前記目的は、入力音声を音響分析して
得られた特徴量を多層パーセプトロン型ニューラルネッ
トワークの入力層の各ユニットに入力し、出力層の各ユ
ニットからの出力値に応じて音声認識を行う音声認識装
置であって、入力音声に対して、認識対象語索のうち特
定の単語の部分音韻系列との類似度に相当する値を出力
する複数のイベントネットと、前記イベントネットに接
続されており、当該イベントネットからの出力の全てを
入力し、前記入力音声に対して前記特定の単語との類似
度に相当する値を出力するワードネットとを有し、前記
イベントネットと前記ワードネットとが接続されたネッ
トワークが認識語素数あり、前記ワードネットに接続さ
れたおり、当該ワードネットからの出力の全てを入力し
、前記入力音声の属する認識分類に応じた値を出力する
スーパーネットとを備えており、前記入力音声を各フレ
ーム毎に音響分析して得られた特徴量を時間的に移動し
、当該移動された特徴量の中で、前記類似度に相当する
前記複数のイベントネットの夫々の出力値が最大になる
ように入力フレームを選択して音声認識を行うことを特
徴とする音声認識装置によって達成される。
[作 用] 本発明の音声認識装置によれば、複数のイベントネット
が入力音声に対して、認識対象語索のうち特定の単語の
部分音韻系列との類似度に相当する値を出力し、ワード
ネットがイベントネットからの出力の全てを入力し、入
力音声に対して特定の単語との類似度に相当する値を出
力し、スーパーネットがワードネットからの出力の全て
を入力し、入力音声の属する認識分類に応じた値を出力
するが故に、入力音声を各フレーム毎に音響分析して得
られた特徴量を時間的に移動し得、移動された特徴量の
中で、類似度に相当する複数のイベントネットの夫々の
出力値が最大になるように入力フレームを選択し得、そ
の結果入力音声を認識し得る。
[実施例] 以下、本発明を図面に示す一実施例により詳細に説明す
る。
第1図は、本実施例による音声認識装置の構成を示す。
第2図を参照して詳述すると、マイクロホン101から
入力された音声は、アンプ102によって増幅され、A
/D変換器103でアナログからディジタルに変換され
た後、音響分析部104に入力される。音響分析部10
4では、帯域濾波器(以下、BPFという) 105を
用いて入力された音声を音響分析し、フレーム毎に各B
 P F 105の出力パワーの値を出力する。また、
ネットワークの規模を小さくするために、特徴ベクトル
をに−L変換を用いて圧縮部106で圧縮し、入力音声
の特徴ベクトルの次元を減少させる。
入力音声の特徴ベクトルは、複数のイベントネット10
?から構成されているイベントネット群114 (第1
図を参照)に入力され、各イベントネット群114から
の出力が各ワードネット108にそれぞれ入力される。
イベントネット群114とワードネット108との組の
数は認識対象語量のカテゴリー数に対応しており、それ
ぞれのワードネット108の出力はスーパーネット10
9に入力される。
再び第1図を参照して詳述すると、入力音声の特徴ベク
トル11Gの特定の位置におけるイベントネット107
の入力層の入力フレーム111に相当する範囲が、イベ
ントネット107の入力層に入力され、特定の認識対象
の単語について入力層に入力する入力フレーム111を
時間軸方向にずらしたものが5つある。イベントネット
107は、それぞれ入力された入力フレーム111の特
徴ベクトル110とイベントネット107が識別する特
定の単語の部分音韻系列との類似度に相当する値を出力
する。
ワードネット10gは、入力音声とワードネット108
が識別する特定の単語との類似度に相当する値を出力す
べき認識対象語素数に等しい数だけ備えられており、そ
の出力すべてがスーパーネット109の入力層に入力さ
れる。
スーパーネット109の出力層には、認識対象の分類番
号に対応する30個のユニットと、リジェクトを表す1
個のユニットとを備えている。スーパーネッ) 109
は、入力音声が認識対象語量の中にあるなら、その分類
番号に対応する出力層のユニットの出力値が、他のユニ
ットに比べ最大になるように各結合の重み係数を決定す
る。
入力音声が認識対象語量でない場合、リジェクトに対応
する出力層のユニットの出力値が他のユニットに比べ最
大になる。
スーパーネット109の出力は、認識結果判定部112
に入力される。認識結果判定部112では、スーパーネ
ット109の出力層において最大の出力を出しているユ
ニットのユニット番号を検索して出力する。出力された
ユニット番号の値が結果出力部1!3に入力され、認識
結果が表示される。
音響分析部104から認識結果判定部112までをディ
ジタルシグナルプロセッサ(以下、DSPと略称)上に
構成することが可能である。
次に、各ニューラルネットワークの結合の重み係数を求
める方法、即ち学習方法について詳述する。
(A)イベントネットの学習方法 本実施例においてイベントネット107は、第2図に示
す3層構造の多層パーセプトロン型ニューラルネットワ
ークにより構成されている。
第3図(r)は、入力層ユニット201 、中間層ユニ
ット202、及び出力層ユニット203の結合状態を示
す。入力層ユニット201は、特徴ベクトル方向(第3
図O)では紙面に対して垂直方向)に特徴ベクトルの次
元数に等しい数だけ配列されている。音声認識において
は、隣接するフレーム間の相関が高く、複数のフレーム
をまとめて圧縮した方が効率がよいので、本実施例では
、16チヤンネルのBPFの2つのフレーム分の出力パ
ワー値をに−L変換で6次元に圧縮したデータとフレー
ム毎のパワーに相当する値とから構成された7次元の特
徴ベクトルを用いており、入力層ユニット201は7つ
の特徴ベクトル方向に並列に配置されている。また、入
力音声の分析周期がlQm sで、2つのフレームを1
フレームに圧縮しているため、時間軸方向(第3図O)
では紙面に対して横方向)の入力層ユニット201の各
ユニット間の時間差は20m sに相当する。
中間層ユニット202も5つのユニットが特徴ベクトル
方向に並列に配置されている。
第3図で、各中間層ユニット202は全ての入力層ユニ
ット201と互いに接続されている。同様に、出力層ユ
ニット203も2つのユニットが特徴ベクトル方向に並
列に配置されている。
各出力層ユニット203は全ての中間層ユニット202
と互いに接続されている。
中間層ユニット202及び出力層ユニット203の入出
力特性を表す関数としてシグンモイド(sigmoid
)関数が用いられている。
第3図(b)は、イベントネットlotの規模を小型化
し、処理を高速にするために、中間層ユニット202と
入力層ユニット201との間の結線を減少して、相互接
続を制限している場合を示す。
音声の場合、互いに離れた特徴ベクトル同士が、局所的
にはあまり影響を及ぼさないために、このような接続が
可能である。
次に学習時の操作について述べる。まず、入力音声の特
徴ベクトルをスペクトログラムにより、音韻に応じて表
1に示すラベルの種類に分類する。上記ラベル付けされ
た特徴ベクトルのうち、ある認識対象語彙のカテゴリー
に含まれる単語のn番目の特徴ベクトルにおいて、その
単語のに番目のラベルLkと、(k+1)番目のラベル
Lk+、との境界の生起時刻、即ち語頭を時刻0とした
場合のラベルL カ咄現する時刻をt S、 (a) 
、単に 語長(全体の継続時間)をW(1)とし、学習に用いる
同一カテゴリー内の単語数をNcとすると、ラベルL 
とラベルL   の境界の平均生起時k      k
+1 刻t、は、式(1)で与えられる。
界を、ラベルの標準パターンと呼ぶ。
第4図(0に単語/1chi/のラベルの標準パターン
を示す。第4図(0において矢印は、イベントネットl
O7に入力すべき特徴ベクトル110の中心フレーム(
イベントネットlO7の入力層は7フレームに相当する
ので、7フレームの内の先頭から4フレーム目のこと)
を示す。
入力すべき特徴ベクトル110の中心フレームは、1つ
目から5つ目のイベントネット107の夫々の中心フレ
ームが等間隔に並ぶよう決定される。
第4図(b)を参照すると、学習時において個々のイベ
ントネット107の中心フレームは、標準パターンと単
語のラベルパターンとを比較することで同じ部分音韻系
列の特徴量が入力される位置に決定され得る。
上述のように中心フレームが決定された位置から、音声
の特徴ベクトル110をイベントネット107の入力層
に入力すると、発声の変動で音韻の時系列が非線形に伸
縮していても、常に一定の部分音韻系列の特徴ベクトル
110が入力される。
認識対象語彙のi番目の分類を認識する1番目のイベン
トネット107の名称をE、、とすると、イ口 ベントネットE6.の出力層には2つのユニットC1 ij”ijがある。認識すべき認−識対象の部分音韻系
列が入力された場合、 (c、、、c、)= (1,0)   ・・・・・・(
2)11   11 という教師信号を与え、 上記の部分音韻系列以外のものが入力された場合、 (c、1. c、) = (0,1)  ・・・・・・
(3)と11    +1 いう教師信号を与えて学習を行う。
学習時の高速化をはかるため、教師信号のうち、1を0
.9に0を0.1として学習を行ってもよい。また、教
師信号を簡単に作成するために、認識すべき単語が入力
された場合、 (col、 c、) = (1,O)  ・・・・・・
(4)を11    11 、その他の単語が入力されたら、 (cl、 c、) = (0,1)  ・・・・・・(
5)を11    1J 教師信号として用いてもよい。
このようにして、イベントネットE1.の各結合1 の重み係数を求める。
イベントネットE、、が、認識すべき単語以外の1 単語を学習する場合、夫々のイベントネットE、。
J の中心フレームは、標準パターンで中心フレームを決定
したときと同様の方法、即ち各イベントネットE9.を
等間隔に配置する方法で決定され得る1 学習を行ったイベントネットE1.は、認識すべ+1 暮単語の部分音韻が入力された場合には、C1,の+1 ユニットの出力値が最大に、「買のユニットの出力値が
最小に、逆にその他の部分音韻が入力されたときにC,
、のユニットの出力値が最小に、C1゜目      
                 11のユニットが
最大になる。
イベントネットE9.の数は、5つに限定する必1 要はなく、認識する単語毎に可変としてもよい。
例えば、(単語の音節数)+2個としてもよい。
(B)  ワードネットの学習 実際の認識時には、イベントネットE1.を適当4 な位置に決めて、入力音声の特徴ベクトル110を入力
しなければならないが、イベントネットE、。
1 の夫々の位置は、各イベントネットE1.の出力層1 のユニットの出力c1.の値が最大になる位置とすlす る。
本実施例では、イベントネットE9.の中心フレI −ムを決定する際に、イベントネットE0.を時間J 軸方向にシフトさせ、出力層のユニットからの出力値を
比較する回数を3回としているが、比較回数は計算量と
の兼ね合いで決定すればよい。
以下、各イベントネットE1.の配置を容易に求1 めるために5X3=15個のイベントネットE、。
+4 を等間隔に配置した場合を考える。
イベントネットE0.のラベルの標準パターンでII 、イベントネットE、の中心フレームを決定した方法に
よって、シフト分のイベントネットE0.を1 含めて各イベントネットE1.を配置する。
目 まず、それぞれのイベントネットE1.を、+4 E、    E、    E・  、    、、E、
    Ell−1ゝ 11−21 +1−3’−°l
5−1ゝ15−2、” 15−3、と呼ぶことにする。
そして、Eil−2を入力単語の語頭から後20m5の
ところに中心フレームが来るように配置し、” 15−
2を語尾から前20m sのところに中心フレームが来
るように配置し、その間をEit−3から”15−1の
イベントネットE1.を等間隔で配置する。これと同じ
間隔でEll if−1と” 15−3とを配置し、すべてのイベント
ネットE、、が等間隔に並ぶように配置する。
IJ 上述のようにして、各イベントネットE2.の配置】 置を行い、1つのイベントネットE1.について、!」 E、、   E、、   E、、  の出力値を夫々求
めc、−+ 1−1ゝ IJ−21I J−31Jの出
力値が最大になっているイベントネットE、。
+4 の出力層のユニットからの出力値だけをワードネット1
08の入力層のユニットに入力にする。これを5つのイ
ベントネットE0.すべてについて行う1 第5図は、16チヤンネルBPFの出力パワー301の
時系列とイベントネットE6.に入力する入力1 フレームH1との間の関係を示す図である。16チヤン
ネルBPFの出力パワー301の部分は、縦方向がBP
Fのチャンネル番号で、各BPFの出力値を線で結んで
表現している。また、横方向が時間方向である。
第5図では、イベントネットEi2を時間的にシフトす
る場合を示している。夫々のイベントネットE1.に図
示した入力フレーム111を入力し、出1」 六層のユニットからの出力C1の値が夫々、J22 、c、−−1c、−−−とすると、そのうち最212 大の値を出力しているイベントネットE、の出力層のユ
ニットの出力値をワードネット108の入力層のユニッ
トに入力する。
ワードネット10gは、第6図(0に示す3層パーセプ
トロン型ニューラルネットワークにより構成されている
入力層のユニット501は各イベントネットE、。
1 の出力層のユニット203からの出力を入力するために
10ユニツト、中間層のユニット502は5ユニツト、
出力層のユニット503は2ユニツトとする。また、出
力層のユニット503をc、、c、と呼N ぶ。
ネットワークの規模を小型化し、処理を高速に行うため
に第6 図(b)のように271パーセプトロン型ニユ
ーラルネツトワークを構成してもよい。
この場合、学習を始めるときの各結合の重み係数をci
及びCIIの結合と、ci及びC++の結合とにおける
重み係数は正に、c、及びcl、の結合と0 、Ci及びC(jの結合とにおける重み係数は負に、夫
々設定することにより、重み係数を速く収束し得る。
ワードネット!08の学習時には、認識すべき認識対象
の単語が入力された場合、 (c 、、  c −)’ = (1,0)  ・・・
・・・(6)1 という教師信号を与えて学習を行い、その他の単語が入
力された場合、 (c in c 1) = (0,1)  ・・・・・
・(7)という教師信号を与えて学習を行う。
ワードネット108を学習する時は、イベントネットE
8.の各結合の重み係数の値は固定しておくJ 。上記の方法で、ワードネット108の各結合の重み係
数の値が十分に収束するまで学習を行う。。
これで、イベントネットE0.とワードネット10g1 との学習が終了する。
更に、認識の精度を上げるために次のような方法を実行
する。まず、イベントネットE0.とワー1 ドネット108とを連結して、4層または5層のパーセ
プトロン型ニューラルネットワークを構成する。この構
成されたネットワークにおいて、学習時の各結合の重み
係数の初期値としては、前述した方法で求めた値を夫々
用いる。この方法で学習することにより、単独でイベン
トネットE0.を学11  。
習させた時よりも更に細かい重み係数の調整が可能にな
る。また、イベントネットE8.を学習させ+3 る際には、特定の部分音韻について教師データを考えな
ければならず、音韻レベルでは曖昧性及び矛盾性を含ん
でいたが、これら曖昧性及び矛盾性が補正され得る。
(C)スーパーネットの学習 第7図に示すように、スーパーネット109は、3層の
パーセプトロン型ニューラルネットワークから構成され
ている。本実施例では、認識対象の語彙数が30個なの
で、入力層のユニット601のユニット数は60個とな
る。入力層のユニット601にはそれぞれのワードネッ
ト108の出力値が入力される。中間層のユニット60
2のユニット数は30個とする。出力層のユニット60
3は、認識対象の踏量のカテゴリ一番号に対応するユニ
ット30個と、リジェクトを表すユニット1個との合計
31個のユニットを備えている。
(0人力音声が認識し得る語彙に含まれる場合そのカテ
ゴリ一番号をIとすると、出力層のユニットCC、、C
31に、 1′   2′ (c    c    、     、c)=1’2’
I・    31 (0,0,,1,,0)   ・・・(8)として、■
番目のユニットだけが1の値を有し、その他のユニット
が0になるような教師信号を与えて学習する。
(b)入力音声が認識し得る踏量に含まれない場合出力
層の各ユニットに、 (CC、、* C30,C31) ” 1′2′ (0,0,、、、0,1)  ・・・(9)として、C
31のユニットだけが1の値を有し、その他のユニット
が0になるような教師信号を与えて学習する。
以上のようにして、各ネットワークの各結合の重み係数
を求めておく。
次に、認識時には、入力音声の特徴ベクトルtiOが入
力されると、パワーしきい値切り出しなどの方法で、入
力音声の語頭、語尾のフレームを抽出し、各イベントネ
ットEijの特徴ベクトル110を入力する中心フレー
ムの位置をワードネット108の学習時に用いたのと同
様の方法によって決定し、1つのイベントネットE1、
について、3回シ、+1 フトを行い、イベントネットE、、の出力層のユニ1 ットの出力値C0,が3回の内で最大になる位置を1 選択する。これを5つのイベントネットE1.全て+1 について行う。これを認識語素数の組だけあるすべての
イベントネット群について行う。
イベントネットE1.の配置が決まると、イベン目 トネットE9.の入力層のユニットに入力された特J 微ベクトル110の値から最終的にスーパーネット10
9の出力層のユニットからの出力値を得る。スーパーネ
ット109の出力は、認識結果判定部112に送られて
、認識結果が得られる。この時の判定アルゴリズムを第
2図に示す。第1図において、θはスーパーネット10
9の各出力層のユニットからの出力値の最大値が所定の
値よりも小さい場合に、リジェクトするか否かを決定す
るしきい値であり、本実施例ではθ=0.5である。
[発明の効果] 本発明の音声認識装置によれば、入力音声を各フレーム
毎に音響分析して得られた特徴量を時間的に移動し得、
移動された特徴量の中で、類似度に相当する複数のイベ
ントネットの夫々の出力値が最大になるように入力フレ
ームを選択し得、その結果入力音声を認識し得る。
【図面の簡単な説明】
第1図は本発明の一実施例における構成図、第2図は本
発明の一実施例を示すブロック図、第3図(1)及び第
3図(b)は本発明の一実施例におけるイベントネット
の構成図、第4図0)及び第4図(b)は本発明の一実
施例におけるラベルとイベントネットの中心フレームと
の関係を示す図、第5図はBPF出力パワーとイベント
ネットの入力フレームとの関係を示す図、第6図0)及
び第6図(b)は本発明の一実施例におけるワードネッ
トの構成図、第7図はスーパーネットの構成図、第8図
は認識結果判定部の判定アルゴリズムを示す図。 101・・・マイク、102・・・アンプ、103・・
・A/D変換器、104・・・音響分析部、105・・
・帯域濾波器、106・・・圧縮部、107・・・イベ
ントネット、108・・・ワードネット、109・・・
スーパーネット、11G・・・特徴ベクトル系列、11
1・・・入力フレーム、!12・・・認識結果判定部、
113・・・結果出力部、li 4・・・イベントネッ
ト群。 第1表 (a) (b) 第3図 第4図 1 C1 (a) Ci+ Ci+ ci2ζ+2Ct3e+3CI4ζi
4 C15ζ15(b) 第6図 第7図

Claims (1)

    【特許請求の範囲】
  1. 入力音声を音響分析して得られた特徴量を多層パーセプ
    トロン型ニューラルネットワークの入力層の各ユニット
    に入力し、出力層の各ユニットからの出力値に応じて音
    声認識を行う音声認識装置であって、入力音声に対して
    、認識対象語彙のうち特定の単語の部分音韻系列との類
    似度に相当する値を出力する複数のイベントネットと、
    前記イベントネットに接続されており、当該イベントネ
    ットからの出力の全てを入力し、前記入力音声に対して
    前記特定の単語との類似度に相当する値を出力するワー
    ドネットとを有し、前記イベントネットと前記ワードネ
    ットとが接続されたネットワークが認識語彙数あり、前
    記ワードネットに接続されたおり、当該ワードネットか
    らの出力の全てを入力し、前記入力音声の属する認識分
    類に応じた値を出力するスーパーネットとを備えており
    、前記入力音声を各フレーム毎に音響分析して得られた
    特徴量を時間的に移動し、当該移動された特徴量の中で
    、前記類似度に相当する前記複数のイベントネットの夫
    々の出力値が最大になるように入力フレームを選択して
    音声認識を行うことを特徴とする音声認識装置。
JP1344045A 1989-12-28 1989-12-28 音声認識装置 Pending JPH03201161A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1344045A JPH03201161A (ja) 1989-12-28 1989-12-28 音声認識装置
EP90125562A EP0435282B1 (en) 1989-12-28 1990-12-27 Voice recognition apparatus
DE69030561T DE69030561T2 (de) 1989-12-28 1990-12-27 Spracherkennungseinrichtung
US08/024,853 US5404422A (en) 1989-12-28 1993-02-26 Speech recognition system with neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1344045A JPH03201161A (ja) 1989-12-28 1989-12-28 音声認識装置

Publications (1)

Publication Number Publication Date
JPH03201161A true JPH03201161A (ja) 1991-09-03

Family

ID=18366236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1344045A Pending JPH03201161A (ja) 1989-12-28 1989-12-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPH03201161A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000352994A (ja) * 1992-03-30 2000-12-19 Seiko Epson Corp 神経細胞素子、ニューラルネットワークを用いた認識装置およびその学習方法
JP2004264856A (ja) * 2003-02-28 2004-09-24 Samsung Electronics Co Ltd 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000352994A (ja) * 1992-03-30 2000-12-19 Seiko Epson Corp 神経細胞素子、ニューラルネットワークを用いた認識装置およびその学習方法
JP2004264856A (ja) * 2003-02-28 2004-09-24 Samsung Electronics Co Ltd 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置
JP4545456B2 (ja) * 2003-02-28 2010-09-15 三星電子株式会社 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置

Similar Documents

Publication Publication Date Title
EP3469582B1 (en) Neural network-based voiceprint information extraction method and apparatus
JP2764277B2 (ja) 音声認識装置
JP3453456B2 (ja) 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP6437581B2 (ja) 話者適応型の音声認識
Takashima et al. End-to-end dysarthric speech recognition using multiple databases
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
Mahmood et al. Speech recognition based on convolutional neural networks and MFCC algorithm
CN111862952B (zh) 一种去混响模型训练方法及装置
JPH03201079A (ja) パターンマッチング装置
JPH0540497A (ja) 話者適応音声認識装置
JPH03201161A (ja) 音声認識装置
Jati et al. An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings Using Recurrent Neural Networks.
CA2203649A1 (en) Decision tree classifier designed using hidden markov models
JPH064097A (ja) 話者認識方法
KR102159988B1 (ko) 음성 몽타주 생성 방법 및 시스템
Poddar et al. Data capturing and modeling by speech recognition: roles demonstrated by artificial intelligence, A survey
Safie Spoken Digit Recognition Using Convolutional Neural Network
Utomo et al. Spoken word and speaker recognition using MFCC and multiple recurrent neural networks
JPS58223193A (ja) 多数単語音声認識方式
JPH05204399A (ja) 不特定話者音素認識方法
JP2792709B2 (ja) 音声認識装置
JP2991752B2 (ja) 音声認識装置
Rashmi et al. Feed forward multilayer neural network models for speech recognition
Shanmugapriya et al. Implementation of speaker verification system using fuzzy wavelet network
JP2000338989A (ja) 音声認識方法および装置