JPH11265197A - 可変入力神経網を利用した音声認識方法 - Google Patents

可変入力神経網を利用した音声認識方法

Info

Publication number
JPH11265197A
JPH11265197A JP10355168A JP35516898A JPH11265197A JP H11265197 A JPH11265197 A JP H11265197A JP 10355168 A JP10355168 A JP 10355168A JP 35516898 A JP35516898 A JP 35516898A JP H11265197 A JPH11265197 A JP H11265197A
Authority
JP
Japan
Prior art keywords
layer
neural network
input
error
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10355168A
Other languages
English (en)
Inventor
Hoyu Ri
奉祐 李
Goichi Ken
五一 權
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Hynix Inc
Original Assignee
Hyundai Electronics Industries Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Electronics Industries Co Ltd filed Critical Hyundai Electronics Industries Co Ltd
Publication of JPH11265197A publication Critical patent/JPH11265197A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 入力単語の特徴ベクトルの長さにより神経網
入力層のニューロン数を異ならせ、入力層と隠匿層間の
加重値を可変的に割当し、情報の損失を減少し高揚でき
る可変入力神経網を利用した音声認識方法。 【解決手段】 神経網の隠匿層と出力層間の加重値を同
一なもので固定し、神経網の入力層と隠匿層の加重値を
入力単語の特徴ベクトルの長さにより複数個の異なるも
ので決定し、誤差逆伝搬方式による神経網学習を通じ、
該入力層と隠匿層の複数個の加重値と隠匿層と出力層間
の一つの加重値を最適化するようにアップデートし、実
際の神経網の出力と願う出力との誤差が使用者が設定し
た臨界値以下に低下時まで全体の特徴ベクトルに対する
神経網学習過程を反復遂行し、以後誤差が臨界値以下に
低下すると神経網学習を完了し最適化された加重値を抽
出後、該抽出された神経網の複数個の最適化加重値を利
用し入力単語の特徴ベクトルから音声認識遂行可能であ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は神経網(Neural net
work)を利用した音声認識方法において、入力される単
語の特徴ベクトル長さにより入力層のニューロン(Neur
on)数を異なりにして入力層と隠匿層の加重値を可変的
に割当してやることによって音声認識時の情報の損失を
減少させ、認識率を高揚することができるようにした可
変入力神経網を利用した音声認識方法に関するものであ
る。
【0002】
【従来の技術】一般的に、人間の一般化能力を象るため
に作った神経網を利用して音声認識を遂行しているが、
このような神経網は図1に図示のようにそれぞれI個、
J個、K個の神経細胞モデルZ1 〜ZI 、Y1 〜YJ
1 〜OK 、即ちニューロンを有する入力層(Input La
yer)1と隠匿層(Hidden Layer) 2および出力層(Outp
ut Layer)3の構造とからなる。
【0003】前記各層のニューロン間には加重値(Weig
ht) に連結されており、Vjiは隠匿層2のj番目のニュ
ーロンと入力層1のi番目のニューロンとの間の加重値
であり、Wkjは出力層3のk番目のニューロンと隠匿層
2のj番目のニューロンとの間の加重値である。
【0004】前記のような構造の神経網においては初め
の神経網構成時に加重値を−1と+1との間のランダム
な値に設定するので、使用者が願う方向に動作しないよ
うになっており、これにより音声認識のための最適化
(optimization)された加重値を抽出するためには加重
値アップデート(update)過程を遂行しなければならな
い。
【0005】前記加重値アップデート過程、即ち神経網
学習過程のための方法としては誤差逆伝搬方式(Error
Back-Propagation Method )が主に使用されており、こ
れは賦課された入力データとそのデータが賦課されたと
き願う出力を一緒に賦課して実際神経網の出力と前記願
う出力との誤差の二乗合を最小とする方向に入力層1と
隠匿層2および出力層3との間の加重値をアップデート
する。
【0006】前記のような方法によって実際神経網の出
力と願う出力との誤差が使用者が設定した値以下に低下
されるまですべての入力データに対して神経網学習過程
を反復遂行した後、前記誤差が使用者が設定した値以下
に低下されると神経網学習を完了し最適化された加重値
を抽出する。
【0007】では、前記のように抽出された神経網の最
適化加重値を利用して入力される単語の特徴ベクトルか
ら音声認識を遂行する。
【0008】前記説明においてのような神経網は任意の
典型的な学習データに充分に良好に学習されたとしたら
実際適用において入力データに若干の歪曲があるとか学
習されないデータが入力として入力されたとしても神経
網内部から加重値の組合を通じて願う方向に出力するこ
とができることにより非線型的なシステムのモデリング
にたくさんに適用されているばかりではなく、マニピュ
レータ(manipulator)制御、パターン認識(pattern re
cognition)、非線型システムの識別(identification o
f nonlinear system)等にも適用可能である。
【0009】特に、単語を発音することにおいて話者に
より、または同一話者であっても数次発音するとき毎に
音の高低、発音する時間等のその特徴が異られる音声認
識の場合には神経網の一般化特性を利用して入力される
単語の特徴ベクトルの長さを固定された入力層1のニュ
ーロン数に一致させて加重値をアップデートする神経網
学習を遂行することによって最適化された加重値を描出
し、この抽出された最適化加重値を通じて音声認識を遂
行する。
【0010】即ち、従来の神経網を利用した音声認識に
おいては、入力層1のニューロン数が固定されているの
で、入力される単語の特徴ベクトルの長さがお互に異な
りにも不拘し、特徴ベクトルの長さを入力層1のニュー
ロン数と一致させるように特徴ベクトルの長さ、即ち入
力データを修正した。
【0011】普通4個の文字からなる一単語当りの特徴
ベクトルの長さが20〜30個に、もし入力層1のニュ
ーロン数が平均長さの25個に固定されているとした
ら、25個未満である特徴ベクトルに対しては任意のデ
ータを挿入する外挿(extrapolation )の過程を通じて
25個に拡張し、反対に25個以上である特徴ベクトル
に対しては正規化(Normalization )過程を通じて25
個のデータに圧縮する前処理過程を遂行する。
【0012】しかし、前記のような従来の神経網からの
前処理過程はデータ拡張時に人為的にデータを挿入する
場合、或時にも誤謬のデータを挿入するとか、またはデ
ータ圧縮時に純粋情報そのままではないので、データの
損失を誘発するようになって神経網の誤謬動作を招来す
るようになる問題点があった。
【0013】したがって、前期のような神経網の誤謬動
作に因って音声をそのままに認識することができないよ
うになる。
【0014】一方、神経網が独立的に存在するモジュー
ラネットワーク(Modular Network)からの音声認識にお
いてはすべての神経網に対して加重値に対するメモリー
割当を別途に賦課しなければならない。
【0015】もし、入力層と隠匿層および出力層のニュ
ーロン数がすべて同じn個のモジューラネットワークを
構成する場合には入力層と隠匿層との間の加重値と隠匿
層と出力層との間の加重値をそれぞれn個に割当するの
で、音声認識のための約2n個のメモリー空間が必要に
なり、これは結局メモリーの増加を通じて製品の単価を
上昇させる要因になる。
【0016】
【発明が解決しようとする課題】本発明は前記のような
問題点を解決するために案出したもので、その目的は神
経網の隠匿層と出力層の加重値は一つの同一なもので固
定して使用し入力層と隠匿層の加重値は入力される単語
の特徴ベクトルの長さにより可変的に割当した後、神経
網学習を通じて最適化された加重値を抽出して音声認識
を遂行することによって神経網の前処理過程から発生す
る情報損失を防止し音声認識率を高揚して神経網の性能
を向上させることができるようにした可変入力神経網を
利用した音声認織方法を提供することにある。
【0017】
【課題を解決するための手段】このような目的を達成す
るための本発明の可変入力神経網を利用した音声認識方
法は、神経網の隠匿層と出力層の加重値を一つの同一な
もので固定し、単語から抽出された特徴ベクトルを入力
してこの特徴ベクトルの長さにより神経網の入力層と隠
匿層の加重値を複数個のお互に異なるもので決定し、続
いて誤差逆伝搬方式による神経網学習を通じて前記決定
された入力層と隠匿層との間の複数個の加重値と隠匿層
と出力層との間の一つの加重値を最適化させるようにア
ップデートし、このとき実際の神経網の出力と願う出力
との誤差が使用者が設定した臨界値以下に低下されると
きまで全体の特徴ベクトルに対する神経網学習過程を反
復遂行するようにし、以後前記誤差が臨界値以下に低下
されると神経網学習を完了し最適化された加重値を抽出
した後、この抽出された神経網の複数個の最適化加重値
を利用して入力される単語の特徴ベクトルから音声認識
を遂行するようにしたことを特徴とする。
【0018】
【発明の実施の形態】以下、添付の図面を参考して本発
明による可変入力神経網を利用した音声認識方法を詳細
に説明する。
【0019】神経網からの加重値、即ち入力層1と隠匿
層2との間の加重値と隠匿層2と出力層3との間の加重
値は神経網の性能を決定する要因として、加重値の最適
化が神経網学習の目標になる。
【0020】本発明においては、まず神経網の入力層1
と隠匿層2との間の加重値と隠匿層2と出力層3との間
の加重値をそれぞれ−1と+1間のランダムな値に設定
し、学習データである全体の特徴ベクトルの個数と認識
しようとする単語の個数を設定する(S1)。
【0021】このとき、前記出力層3のニューロン数は
前記段階S1から設定された認識しようとする単語の個
数と同一である。
【0022】続いて、神経網の隠匿層2と出力層3との
間の加重値を一つの同一なもので固定してから(S
2)、神経網の入力層1から多数個の単語から抽出され
たそれぞれの特徴ベクトルを順次的に入力する(S
3)。
【0023】そして、前記段階S3から入力されるそれ
ぞれの特徴ベクトルの長さにより入力層1と隠匿層2と
の間の加重値を複数個決定する(S4)。
【0024】前記のように神経網の入力層1と隠匿層2
との間の復数個の加重値と神経網の隠匿層2と出力層3
との間の一つの加重値が決定されると、このような加重
値を最適化するために誤差逆伝搬方式による加重値アッ
プデート過程、即ち神経網学習過程を始作する(S
5)。
【0025】前記段階S5の神経網学習過程のため、ま
ず入力される特徴ベクトルに対する実際の神経網の出力
と願う出力との誤差を計算し、この誤差が使用者が設定
した臨界値以下に低下されるときまでアップデートする
(S6)。
【0026】以後、誤差逆伝搬方式による神経網学習を
通じて前記段階S6からアップデートされた使用者が設
定した臨界値を比較して(S7)前記誤差が臨界値以下
に低下されるときまで前記段階S2から固定された隠匿
層2と出力層3との間の一つの加重値は勿論のこと前記
段階S6から決定された入力層1と隠匿層2との間の複
数個の加重値を最適化するようにアップデートする(S
5)。
【0027】即ち、実際の神経網の出力と願う出力との
誤差が使用者が設定した臨界値以下に低下されるときま
で全体の特徴ベクトルに対する神経網学習過程を反復遂
行して前記誤差が臨界値以下に低下されるときまで神経
網学習を遂行するようにする。
【0028】以後、前記段階S7から前記誤差が臨界値
以下に低下されるとそのときの隠匿層2と出力層3との
間の加重値および入力層1と隠匿層2との間の加重値を
最適化された加重値として認識してこれらを抽出する
(S8)。
【0029】これにより、神経網を利用した音声認識過
程においては入力される単語から特徴ベクトルを抽出し
た後、この抽出された特徴ベクトルと前記段階S8から
抽出された最適化された加重値を利用して入力単語を認
識して一番類似な単語に出力する(S9)。
【0030】前記のように本発明から神経網の隠匿層2
と出力層3との間の加重値はすべての入力データに対し
て学習するようになる反面、入力される特徴ベクトルの
長さにより定められる神経網の入力層1と隠匿層2との
間の加重値は特定の長さの入力データに対してのみ学習
するので、その加重値が適応しなければならない入力の
個数が減少される。
【0031】
【発明の効果】以上の説明からのように本発明は入力さ
れる特徴ベクトルの長さによりお互に異なる加重値を割
当して使用することによって神経網の前処理過程を省略
することができ、神経網の入力層と隠匿層との間の加重
値が学習しなければならない入力の個数を減少させるこ
とにより演算過程の縮小と神経網全体の性能を向上させ
ることができるようになる効果がある。
【0032】また、本発明の神経網構造から入力層と隠
匿層との間の加重値n個と隠匿層と出力層との間の加重
値1個に最大n+1個のメモリーを使用することができ
るので、モジューラネットワークよりメモリー空間が節
約される長所がある。
【図面の簡単な説明】
【図1】一般的な音声認識のための神経網構造を図示し
た図である。
【図2】本発明による可変入力神経網を利用した音声認
識方法を図示した動作流れ図である。
【符号の説明】
1:入力層 2:隠匿層 3:出力層

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力層1と隠匿層2および出力層3の構造
    を有する神経網を利用した音声認識方法において、 神経網の入力層1と隠匿層2との間の加重値と隠匿層2
    と出力層3との間の加重値をランダムな値に設定し、全
    体の特徴ベクトルの個数と認識しようとする単語の個数
    を設定する第1段階と、前記第1段階遂行後、隠匿層2
    と出力層3との間の加重値を一つの同一なもので固定し
    てから多数個の単語から抽出されたそれぞれの特徴ベク
    トルを順次的に入力する第2段階と、前記第2段階から
    入力された特徴ベクトルの長さにより神経網の入力層1
    と隠匿層2との間の加重値を複数個決定する第3段階
    と、前記第2段階と第3段階から決定された加重値を最
    適化するために誤差逆伝搬方式を利用して神経網学習過
    程を遂行する第4段階と、前記第4段階の神経網学習の
    ため第2段階から入力された特徴ベクトルに対する実際
    神経網の出力と願う出力との誤差を計算し、この誤差が
    使用者が設定した臨界値以下に減少されるときまでアッ
    プデートする第5段階と、前記第5段階からアップデー
    トされた誤差が使用者が設定した臨界値以下であるかを
    判断する第6段階と、前記第6段階の判断結果、前記第
    5段階からアップデートされた誤差が使用者が設定した
    臨界値より大きな場合、誤差が臨界値以下に低下される
    ときまで全体の特徴ベクトルに対して前記第4段階の神
    経網学習を反復遂行する第7段階と、前記第6段階の判
    断結果、前記第5段階からアップデートされた誤差が臨
    界値以下に小さくなるとそのときの隠匿層2と出力層3
    との間の加重値および入力層1と隠匿層2との間の加重
    値を最適化された加重値として認識して抽出する第8段
    階と、前記第8段階から抽出された神経網の最適化加重
    値を通じて入力単語を認識して一番類似な単語に出力す
    ることによって音声認識を遂行する第9段階とからなる
    ことを特徴とする可変入力神経網を利用した音声認識方
    法。
JP10355168A 1997-12-13 1998-12-14 可変入力神経網を利用した音声認識方法 Pending JPH11265197A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1019970068447A KR19990049492A (ko) 1997-12-13 1997-12-13 가변 입력 신경망을 이용한 음성 인식방법
KR97-68447 1997-12-13

Publications (1)

Publication Number Publication Date
JPH11265197A true JPH11265197A (ja) 1999-09-28

Family

ID=19527247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10355168A Pending JPH11265197A (ja) 1997-12-13 1998-12-14 可変入力神経網を利用した音声認識方法

Country Status (2)

Country Link
JP (1) JPH11265197A (ja)
KR (1) KR19990049492A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104569035A (zh) * 2015-02-04 2015-04-29 神华集团有限责任公司 用于煤液化油临界性质参数的获取方法
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
KR102653745B1 (ko) * 2023-06-02 2024-04-02 라이프앤사이언스주식회사 최적화된 연산속도를 가지는 교육용 로봇제어기

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104569035A (zh) * 2015-02-04 2015-04-29 神华集团有限责任公司 用于煤液化油临界性质参数的获取方法
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
CN106297773B (zh) * 2015-05-29 2019-11-19 中国科学院声学研究所 一种神经网络声学模型训练方法
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置

Also Published As

Publication number Publication date
KR19990049492A (ko) 1999-07-05

Similar Documents

Publication Publication Date Title
EP0342630B1 (en) Speech recognition with speaker adaptation by learning
EP0314170B1 (en) Multi-layer neural network to which dynamic programming techniques are applicable
JP3003276B2 (ja) 信号解析装置
EP0333798B1 (en) Apparatus for pattern recognition
CN112365885B (zh) 唤醒模型的训练方法、装置和计算机设备
KR20200116225A (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
KR100306848B1 (ko) 신경회로망을 이용한 선택적 주의집중 방법
JP3521429B2 (ja) ニューラルネットワークを用いた音声認識装置およびその学習方法
JPH06161496A (ja) 家電製品のリモコン命令語を認識するための音声認識システム
JPH11265197A (ja) 可変入力神経網を利用した音声認識方法
CN113808581A (zh) 一种声学和语言模型训练及联合优化的中文语音识别方法
JP3374476B2 (ja) ニューラルネットワーク構築方法
CN112750466A (zh) 用于视频面试的语音情感识别方法
US6016384A (en) Method for speeding up the convergence of the back-propagation algorithm applied to realize the learning process in a neural network of the multilayer perceptron type
JP2736361B2 (ja) ニューラルネット構成方法
Gemello et al. Recurrent network automata for speech recognition: A summary of recent work
Mohanty et al. Recognition of voice signals for Oriya language using wavelet neural network
Zaki et al. CNN: a speaker recognition system using a cascaded neural network
JP2654686B2 (ja) ニューラルネットワーク
Castro et al. The use of multilayer perceptrons in isolated word recognition
Makino et al. Recognition of phonemes in continuous speech using a modified LVQ2 method
JPH01241667A (ja) 学習機構を有するダイナミック・ニユーラル・ネットワーク
Tabarabaee et al. Isolated word recognition using a hybrid neural network
JP3521844B2 (ja) ニューラルネットワークを用いた認識装置
JPH09138786A (ja) ニューラルネットワークの学習装置