JP2991752B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2991752B2
JP2991752B2 JP2208749A JP20874990A JP2991752B2 JP 2991752 B2 JP2991752 B2 JP 2991752B2 JP 2208749 A JP2208749 A JP 2208749A JP 20874990 A JP20874990 A JP 20874990A JP 2991752 B2 JP2991752 B2 JP 2991752B2
Authority
JP
Japan
Prior art keywords
input
word
net
output
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2208749A
Other languages
English (en)
Other versions
JPH0494000A (ja
Inventor
憲治 坂本
耕市 山口
好司 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP2208749A priority Critical patent/JP2991752B2/ja
Priority to EP90125562A priority patent/EP0435282B1/en
Priority to DE69030561T priority patent/DE69030561T2/de
Publication of JPH0494000A publication Critical patent/JPH0494000A/ja
Priority to US08/024,853 priority patent/US5404422A/en
Application granted granted Critical
Publication of JP2991752B2 publication Critical patent/JP2991752B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、不特定話者の発生する言葉を認識すること
ができるニューラルネットワークを用いた音声認識装置
に関する。
[従来の技術] 従来のニューラルネットワークを用いた音声認識装置
としては、特願平1−344045号に開示されている音声認
識装置がある。
上述の従来の音声認識装置は、多層パーセプトロン型
ニューラルネットワークにより構成された複数のイベン
トネット、ワードネット及びスーパーネットにより構成
させている。
各イベントネットは、入力音声を各フレーム毎に音響
分析して得られた特徴量を時間的に移動し、移動された
特徴量の中で、複数のイベントネットの各々の出力値が
最大になるように入力フレームを選択して、入力音声に
対して認識対象語彙のうち特定の単語の部分音韻系列と
の類似度に相当する値を出力する。
ワードネットは、イベントネットに接続されておりイ
ベントネットからの出力の全てを入力して入力音声に対
して特定の単語との類似度に相当する値を出力する。
スーパーネットは、ワードネットに接続されており、
ワードネットからの出力の全てを入力して入力音声の属
する認識分類に応じた値を出力して音声認識を行なう。
なお、ワードネットは認識語彙数に対応した数量分だけ
配置されている。各ワードネットはイベントネットの出
力値により学習され、スーパーネットはワードネットの
出力値により学習される。
[発明が解決しようとする課題] 上述の従来の音声認識装置には、各ワードネットは認
識対象及び認識対象外の全ての部分音韻系列に対する各
イベントネットの出力値に対して予め学習されていなけ
ればならず、あらゆる部分音韻系列の組み合わせを含む
発声を全て網羅することが困難であると共に、学習に際
しても各イベントネットの出力値を逐次算出するので多
大な計算時間が必要であり、スーパーネットは認識対象
及び認識対象外の全ての単語に対する各ワードネットの
出力値に対して学習されているのが望ましいが、全ての
単語を網羅するのは不可能であり、学習するに際しても
各ワードネットの出力値を逐次算出するので多大な計算
時間が必要であるという問題点がある。
本発明の目的は、上述の問題点に鑑み、学習に際して
イベントネット及びワードネットの出力値を逐次算出せ
ずに特定の単語を識別できるニューラルネットワークを
用いた音声認識装置を提供することにある。
[課題を解決するための手段] 本発明の上述の目的は、特定の条件を満足する入力デ
ータ及び教師データを用いて初期学習を行なって特定の
単語と他の単語とを識別できる各層間の接続係数を算出
し、算出された接続係数を初期値として入力音声に対す
るイベントネットからの出力値を用いて学習することに
より入力音声に対する該接続係数を算出するように構成
されているワードネットと、他の特定の条件を満足する
入力データ及び教師データを用いて初期学習を行って入
力音声が属する認識分類を識別できる各層間の接続係数
を算出し、算出された接続係数を初期値として入力音声
に対するワードネットからの出力値を用いて学習するこ
とにより入力音声に対応する接続係数を算出するように
構成されているスーパーネットとを備えている音声認識
装置によって達成される。
[作用] ワードネットは、特定の条件を満足する入力データ及
び教師データで初期学習を行なって特定の単語と他の単
語とを識別できる各層間の接続係数を算出し、算出され
た接続係数を初期値として実際の入力音声に対して得ら
れる各イベントネットからの出力値を用いて学習するこ
とにより入力音声に対する各層間の接続係数を算出し、
スーパーネットは、他の特定の条件を満足する入力デー
タ及び教師データで初期学習を行って入力音声が属する
認識分類を識別できる各層間の接続係数を算出し、算出
された接続係数を初期値として実際の入力音声に対して
得られる各ワードネットからの出力値を用いて学習する
ことより入力音声に対応する各層間の接続係数を算出す
る。
[実施例] 以下、本発明の音声認識装置における一実施例を図面
を参照して詳細に説明する。
れる。
第1図は、本実施例の音声認識装置におけるワードネ
ットの構成を示す。
ワードネット11は3層のパーセプトロン型ニューラル
ネットワークであり、入力層12のユニット13の数が5
つ、中間層14のユニット15の数が5つ、出力層16のユニ
ット17の数が1つである。なお、中間層14のユニット15
の数は分割する領域の複雑さに応じて増減する。
中間層14の各ユニット15及び出力層16のユニット17
は、接続されているユニットの出力値にそのユニットと
の接続係数を掛けて総和を算出してシグモイド(sigmoi
d)関数により変換した値を出力する。
以下、ワードネット11の初期学習の方法について詳述
する。
(A)ワードネットの初期学習 a.第1の学習方法 1つのイベントネット群33(第11図参照)のイベント
ネット32(第11図参照)の数を5つとする。各イベント
ネット32の出力層には1つのユニットがある。
各イベントネット32の出力層のユニットは、識別すべ
き部分音韻系列がイベントネット32に入力されたときに
は1つの値を、また識別すべき部分音韻系列以外がイベ
ントネット32に入力されたときには0の値を出力するよ
うに学習されている。
ワードネット11は、上述のイベントネット32の出力層
からの出力を入力し、識別すべき対象の単語が入力され
たか否かを判定し、識別すべき対象の単語が入力された
ときに出力値として1を出力し、識別すべき対象外の単
語が入力されたときに出力値として0を出力するように
構成されている。
入力系列として(1,1,1,1,1)が入力されたときに
は、出力値とて1を出力すればよく、その他の入力系
列、即ち(0,0,0,0,0),(0,0,0,0,1),…,(1,1,1,
1,0)のように入力系列に少なくとも1つは0を含んで
いるような入力系列が入力されたときには、出力値とし
て0を出力すればよい。
従って、入力層12に(1,1,1,1,1)が入力されたとの
教師信号として出力層16に1を与え、その他の系列が入
力層12に入力されたときは出力層16に0を教師信号とし
て与えて学習させ、1つの層のユニットと他の層のユニ
ットとの間の接続係数を求める。
第2図に示すフローチャートを参照して説明すれば、
ワードネットの初期学習における第1の学習方法は、
{0,1}の入力系列を生成する(ステップS11)。イベン
トネット32の出力値として[0,1]の値を許しているの
で、入力系列中の0に対して[0,dθ]の値を、1に
対して[dθ1,1]の値を乱数で割り当て、入力層12に
入力する(ステップS11′)。入力ユニット13に入力さ
れる値が、全て[dθ1,1]かどうかが判定される(ス
テップS12)。全て[dθ1,1]の値が入力されたときに
出力層16に1を教師信号として与える(ステップS1
3)。その他の場合は、出力層16に0を教師信号として
与える(ステップS14)。そして、層間の接続係数、即
ち1つの層のユニットと他の層のユニットとの間の接続
係数を誤差逆伝播法で修正を行っていく(ステップS1
5)。それを係数が収束するまで続ける(ステップS1
5′)。
第3図は上記第1の学習方法におけるワードネット20
の入力空間を示す。これは、ワードネットの入力が2つ
の場合を示している。この学習方法では、領域Iを教師
信号=1で学習し、領域IIを教師信号=0で学習する。
また、領域IIIは学習されない。
b.第2の学習方法 第4図のフローチャートを参照して、更に識別能力の
高い認識装置を構成するためのワードネット11における
第2の学習方法を説明する。
入力系列{ai}を乱数で生成し、入力層12に入力する
(ステップS16)。入力系列{ai}に対して、 (但し0≦ai≦1)を算出し(ステップS17)、下記の
関係を判定する(ステップS18): d<dθのとき 教師信号=1(ステップS19) d>dθのとき 教師信号=0(ステップS20) dθ≦d≦dθのとき 学習対象から除く として学習を行い、各層間の接合係数を誤差逆伝播法で
修正を行っていく(ステップS22)。それを係数が収束
するまで続ける(ステップS22′)。
上記のdθ1,dθ2,dθ3,dθは、ワードネット11の
入力層12のユニット数、イベントネット32の出力値の分
布等から求められる定数であって、この例ではdθ
0.75,dθ=0.25,dθ=0.25,dθ=0.75にそれぞれ
設定されている。
第5図は上記の第2の学習方法におけるワードネット
11の入力空間を示す。これはワードネットの入力が2つ
の場合を示している。
図中、領域Iは上記の式〔1〕におけるの場合、領
域IIはの場合は、領域IIIはの場合をそれぞれ示し
ている。
次に、第6図にスーパーネットの構成を示す。
図に示すようにスーパーネット18は、3層のパーセプ
トロン型ニューラルネットワークであり、入力層19のユ
ニット20の数は30、中間層21のユニット22の数は30、出
力層23のユニット24の数は31である。
なお、中間層21のユニット22の数は、分割する領域の
複雑さに応じて増減する。
中間層21の各ユニット22及び出力層23の各ユニット24
は、接続されているユニットの出力値にそのユニットと
の接続係数を掛けて総和を算出してシグモイド関数によ
り変換した値を出力する。
次にスーパーネット18の初期学習の方法について詳述
する。
(B)スーパーネットの初期学習 a.第3の学習方法 認識すべき対象の単語の語彙数を30とすると、スーパ
ーネット18の入力層19のユニット20の数は、ワードネッ
ト11の数に対応して30である。
スーパーネット18の出力層23のユニット24の番号は、
認識対象の単語が属する分類番号と対応している。即
ち、i番目(iを正の整数とする)の分類に属する単語
が入力されたときに、出力層23のi番目のユニットの出
力値が最大になる。
出力層23の第31番目のユニットは、認識対象の単語以
外の単語が入力されたときに、出力値が最大になるユニ
ットである。
スーパーネット18を学習させるためには、i番目のみ
を1とする入力系列(0,0,…,0,1[i番],0,…,0)に
対して、i番目のみを1とする(0,0,…,0,1[i番],
0,…,0,0)を教師信号として出力層23に与える。
全てを0とする入力系列(0,0,…,0)、又は、2つ以
上を1とする(0,…,0,1,0,…,0,1,0,…)に対して、31
番目のみを1とする(0,0,…,0,1)を教師信号(以後、
リジェクト教師信号と称する)として出力層23に与えて
学習させて1つの層のユニットと他の層のユニットとの
接続係数を求める。
第7図に示すフローチャートを参照して第3の学習方
法を以下に説明する。
{0,1}の入力系列を生成する(ステップS23)。ワー
ドネット11の出力値として[0,1]の値を許しているの
で、入力系列中の0に対して[0,dθ]の値を、1に
対して[dθ6,1]の値を乱数で割り当て、入力層19に
入力する(ステップS24)。入力系列がi番目のみを1
とする入力系列(0,…,0,1,0,…0)であるか否かを判
定し(ステップS25)、判定の結果、i番目のみを1と
する入力系列(0,…,0,1,0,…0)に対して、i番目の
みを1とする(0,…,0,1,0,…0)を教師信号として出
力層23に与える(ステップS26)。また、全てを0とす
る入力系列(0,…,0,…0)、または2つ以上を1とす
る入力系列、例えば(0,…0,1,0,…,0,1,0,…,0)に対
して、出力ユニット24の31番目のみを1とする(0,…,
0,…,0,1)をリジェクト教師信号として出力層23に与え
て(ステップS27)、層間の接続係数を、誤差逆伝播法
で修正を行っていく(ステップS28)。それを係数が収
束するまで続ける(ステップS28′)。
第8図は第3の学習方法おけるスーパーネット18の入
力空間を示す。これは、スーパーネットの入力が2つの
場合を示している。
この学習方法では、領域Iをi番目のみを1とする教
師信号=(0,0,…,1,0,0)により学習させ、領域IIを31
番目のみを1とする教師信号=(0,0,…,0,…,0,1)に
より学習させることを示している。
b.第4の学習方法 第9図のフローチャートを参照して、更にリジェクト
能力の高い認識装置を構成するためスーパーネットにお
ける第4の学習方法を説明する。
入力係列{ai}を乱数で生成し、入力層19に入力する
(ステップS29′)。入力係列{ai}に対して、 (但し0≦ai≦1}を算出し(ステップS29)、下記の
関係を判定する(ステップS30): di<dθを満たすiがただ1つ存在するとき 教師信号=(0,…,0,1,0,…,0,0) 即ち、i番目のみ1(ステップS31) 全てのiに対してdi>dθのとき 教師信号=(0,…,0,0,0,…,0,1) 即ち、31番目のみ1(ステップS32) その他のとき 学習対象から除く として学習を行い、各層間の接続係数を誤差逆伝播法で
修正を行っていく(ステップS34)。それを係数が収束
するまで続ける(ステップS34′)。ここで、dθ5,dθ
6,dθ7,dθはスーパーネット18の入力層19のユニット
20の数、ワードネット11の出力値の分布等から求められ
る定数であって、この例では、dθ=0.25,dθ=0.
75,dθ=0.25,dθ=0.75として設定されている。
第10図は上記の第4の学習方法におけるスーパーネッ
ト18入力空間を示す。これは、スーパーネットの入力が
2つの場合を示してる。
図中、領域Iは上記の式〔2〕におけるの場合、領
域IIはの場合、領域IIIはの場合をそれぞれ示して
いる。
上述の方法により求めたワードネット11及びスーパー
ネット18における各層間のユニットの接続係数を、その
ままワードネット11における各層間のユニットの接続係
数及びスーパーネット18における各層間のユニットの接
続係数として用いてもよい。しかし、音声認識を更に精
度良く行うためには、上述の方法により得られた接続係
数を初期値として、実際の入力音声に対するイベントネ
ット32の出力値でワードネット11を学習させると共に、
実際の入力音声に対するワードネット11の出力値でスー
パーネット18を学習させて得られた接続係数を用いて音
声認識を行った方が良い。
なお、上記の学習方法は、音声認識装置に限らず文字
認識などの一般のパターン認識にも利用できる。
第11図は、上述のワードネット11及びスーパーネット
18を備えた音声認識装置の一構成例を示す。
第11図の音声認識装置は、マイクロホン25、マイクロ
ホン25に接続されたアンプ26、アンプ26に接続されたア
ナログ/ディジタル変換器(以後、A/D変換器と称す
る)27、A/D変換器27に接続されており、複数の帯域ろ
波器(以後、BPFと称する)28が並列に配置されている
音響分析部29、音響分析部29に接続された圧縮部30、圧
縮部30に接続された音声区間切り出し部31、音声区間切
り出し部17に接続されており複数のイベントネット32が
並列に配置された複数のイベントネット群33、各イベン
トネット群33に接続された複数のワードネット11、各ワ
ードネット11に接続されたスーパーネット18、スーパー
ネット18に接続された認識結果判定部34、そして認識結
果判定部34に接続された結果出力部35により構成されて
いる。
以下、上述の音声認識装置の動作を説明する。
マイクロホン25から入力された音声は、アンプ26によ
って増幅され、A/D変換器27でアナログからディジタル
に変換された後、音響分析部29に入力される。音響分析
部29では、帯域ろ波器(以下、BPFという)28を用いて
入力された音声を音響分析し、フレーム毎に各BPF28の
出力パワーの値を出力する。
ネットワークの規模を小さくするために、K−L変換
を用いて入力音声の特徴ベクトルの次元を減少させる。
入力音声の特徴ベクトルの次元を減少させるため、特徴
ベクトルをK−L変換を用いて圧縮部30で圧縮する。
圧縮されたデータは音声区間切り出し部31に入力さ
れ、入力音声から音声区間が決定される。音声区間に含
まれる特徴ベクトルは、各イベントネット32に入力され
る。
イベントネット32は複数個あり(この例では5つとす
る)、各イベントネット32に入力すべきフレームを時間
的にある決められた割合で、ある決められた範囲で、移
動し、その内でイベントネット32の出力値、すなわち、
特定の単語の部分音韻系列との類似度が最大になる入力
フレームが決定される。
各イベントネット32の出力の最大値が各ワードネット
11にそれぞれ入力される。1つのワードネット11に接続
されている複数のイベントネット32をイベントネット群
33とう。イベントネット群33とワードネット11との組み
の数は、認識対象語彙の分類数に対応している。
ワードネット11の出力はスーパーネット18に入力され
る。スーパーネット18の出力は、認識結果判定部34に入
力される。
認識結果判定部34では、スーパーネット18の出力層23
において最大の出力を呈しているユニット番号を検索し
て出力する。出力されたユニット番号の値が結果出力部
35に入力され、認識結果が表示される。
[発明の効果] 特定の条件を満足する入力データ及び教師データを用
いて初期学習を行なって特定の単語と他の単語とを識別
できる各層間の接続係数を算出し、算出された接続係数
を初期値として入力音声に対するイベントネットからの
出力値を用いて学習することにより入力音声に対する接
続係数を算出するように構成されているワードネット
と、他の特定の条件を満足する入力データ及び教師デー
タを用いて初期学習を行って入力音声が属する認識分類
を識別できる各層間の接続係数を算出し、算出された接
続係数を初期値として入力音声に対するワードネットか
らの出力値を用いて学習することにより入力音声に対応
する接続係数を算出するように構成されているスーパー
ネットとを備えているので、学習に際してイベントネッ
ト及びワードネットの出力値を逐次算出せずに特定の単
語を識別でき、その結果、認識対象外の入力音声に対し
てリジェクト能力が高く識別精度の良い音声認識装置を
得ることができる。
【図面の簡単な説明】
第1図は本実施例の音声認識装置におけるワードネット
の一構成例を示す図、第2図は第1図のワードネットに
おける学習方法の一例を示すフローチャート、第3図は
第2図の学習方法によるワードネットの入力パターンを
示す図、第4図は第1図のワードネットにおける学習方
法の他の一例を示すフローチャート、第5図は第4図の
学習方法によるワードネットの入力パターンを示す図、
第6図は本実施例の音声認識装置におけるスーパーネッ
トの一構成例を示す図、第7図は第6図のスーパーネッ
トにおける学習方法の一例を示すフローチャート、第8
図は第7図の学習方法によるスーパーネットの入力パタ
ーンを示す図、第9図は第6図のスーパーネットにおけ
る学習方法の他の一例を示すフローチャート、第10図は
第9図の学習方法によるスーパーネットの入力パターン
を示す図、第11図は本実施例の音声認識装置における一
構成例を示す図である。 11……ワードネット、12,19……入力層、13,20……入力
層のユニット、14,21……中間層、15,22……中間層のユ
ニット、16,23……出力層、17,24……出力層のユニッ
ト、18……スーパーネット、25……マイク、26……アン
プ、27……A/D変換器、28……帯域ろ波器、29……音響
分析部、30……圧縮部、31……音声区間切り出し部、32
……イベントネット、33……イベントネット群、34……
結果判定部、35……結果表示部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−201161(JP,A) 特開 平2−183300(JP,A) 特許2792709(JP,B2) 特許2792720(JP,B2) (58)調査した分野(Int.Cl.6,DB名) G06F 15/18 520 G06F 15/18 560 G10L 3/00 539 G10L 9/10 301 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】特定の条件を満足する入力データ及び教師
    データを用いて初期学習を行なって特定の単語と他の単
    語とを識別できる各層間の接続係数を算出し、当該算出
    された接続係数を初期値として入力音声に対するイベン
    トネットからの出力値を用いて学習することにより該入
    力音声に対する該接続係数を算出するように構成されて
    いるワードネットと、他の特定の条件を満足する入力デ
    ータ及び教師データを用いて初期学習を行って前記入力
    音声が属する認識分類を識別できる各層間の接続係数を
    算出し、当該算出された接続係数を初期値として前記入
    力音声に対する前記ワードネットからの出力値を用いて
    学習することにより該入力音声に対応する該接続係数を
    算出するように構成されているスーパーネットとを備え
    ていることを特徴とする音声認識装置。
JP2208749A 1989-12-28 1990-08-07 音声認識装置 Expired - Fee Related JP2991752B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2208749A JP2991752B2 (ja) 1990-08-07 1990-08-07 音声認識装置
EP90125562A EP0435282B1 (en) 1989-12-28 1990-12-27 Voice recognition apparatus
DE69030561T DE69030561T2 (de) 1989-12-28 1990-12-27 Spracherkennungseinrichtung
US08/024,853 US5404422A (en) 1989-12-28 1993-02-26 Speech recognition system with neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2208749A JP2991752B2 (ja) 1990-08-07 1990-08-07 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0494000A JPH0494000A (ja) 1992-03-26
JP2991752B2 true JP2991752B2 (ja) 1999-12-20

Family

ID=16561446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2208749A Expired - Fee Related JP2991752B2 (ja) 1989-12-28 1990-08-07 音声認識装置

Country Status (1)

Country Link
JP (1) JP2991752B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4404494B2 (ja) * 2001-02-19 2010-01-27 株式会社奥村組 コンクリート締固め判定方法、及び装置
KR100486735B1 (ko) * 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2792709B2 (ja) 1990-03-19 1998-09-03 シャープ株式会社 音声認識装置
JP2792720B2 (ja) 1990-06-27 1998-09-03 シャープ株式会社 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2792709B2 (ja) 1990-03-19 1998-09-03 シャープ株式会社 音声認識装置
JP2792720B2 (ja) 1990-06-27 1998-09-03 シャープ株式会社 音声認識装置

Also Published As

Publication number Publication date
JPH0494000A (ja) 1992-03-26

Similar Documents

Publication Publication Date Title
JP2764277B2 (ja) 音声認識装置
JP3168779B2 (ja) 音声認識装置及び方法
JPH02160298A (ja) 雑音除去方法、それに用いるニューラルネットワークの学習方法
US5181256A (en) Pattern recognition device using a neural network
KR100729316B1 (ko) 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체
Sadeghi et al. Optimal MFCC features extraction by differential evolution algorithm for speaker recognition
US5864807A (en) Method and apparatus for training a speaker recognition system
US5721807A (en) Method and neural network for speech recognition using a correlogram as input
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
JP2991752B2 (ja) 音声認識装置
Watanabe et al. Recovering system of the distorted speech using interactive genetic algorithms
CN112259086A (zh) 一种基于语谱图合成的语音转换方法
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
JPH0462599A (ja) 雑音除去装置
CN113593537A (zh) 基于互补特征学习框架的语音情感识别方法及装置
EP0369485B1 (en) Speaker recognition system
Safie Spoken Digit Recognition Using Convolutional Neural Network
JP4340939B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2655902B2 (ja) 音声の特徴抽出装置
JPH0442299A (ja) 音声区間検出装置
JP2996417B2 (ja) 音声認識方法
JPH05204399A (ja) 不特定話者音素認識方法
JP2792709B2 (ja) 音声認識装置
Nijhawan et al. A comparative study of two different neural models for speaker recognition systems
WO2020218597A1 (ja) 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees