JPH11352982A - 音声認識システムにおける単語学習および認識方法 - Google Patents

音声認識システムにおける単語学習および認識方法

Info

Publication number
JPH11352982A
JPH11352982A JP10367759A JP36775998A JPH11352982A JP H11352982 A JPH11352982 A JP H11352982A JP 10367759 A JP10367759 A JP 10367759A JP 36775998 A JP36775998 A JP 36775998A JP H11352982 A JPH11352982 A JP H11352982A
Authority
JP
Japan
Prior art keywords
word
section
model
word model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10367759A
Other languages
English (en)
Inventor
Nanko Tei
南鎬 鄭
Goichi Ken
五一 權
Seiki Boku
星熹 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Hynix Inc
Original Assignee
Hyundai Electronics Industries Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Electronics Industries Co Ltd filed Critical Hyundai Electronics Industries Co Ltd
Publication of JPH11352982A publication Critical patent/JPH11352982A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 音声区間のセクション長さを可変的に設定し
て単語モデルを作り、該単語モデルと入力音声パターン
との最適経路を求めて一番類似な単語モデルに入力され
る音声を認識可能にした音声認識システムにおける単語
学習および認識方法。 【解決手段】 学習データのセクションを等分割後にコ
ードブックと各セクションの平均長さを利用して単語モ
デルを作り、該単語モデルが以前のモデルと同一になる
までパターンマッチングを遂行し学習パターンのセクシ
ョンを再分割しセクション長さが可変的な単語モデルを
データベースに貯蔵し以後DPのような非線型的なパタ
ーンマッチングを遂行するVMSVQ技法を利用し入力
音声パターンとデータベースに貯蔵の単語モデルとの最
適経路を計算して、最適経路が一番短い単語モデルに入
力音声を認識可能にし、話者独立システムと話者従属シ
ステムにおける音声認識率を高揚できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は人間の音声を認識す
るための音声認識システムにおいて、音声区間のセクシ
ョン長さを可変的に設定して単語モデルを作り、この単
語モデルと入力される音声パターンとの最適経路を求め
て一番類似な単語モデルに入力される音声を認識するこ
とができるようにした音声認識システムにおける単語学
習および認識方法に関するものである。
【0002】
【従来の技術】一般的に、音声認識という人聞の音声か
ら特徴パターンを抜取し、これを比較認識して人間が発
声した音声を機械が認知するように作る総体的な作業を
意味する。
【0003】認識を遂行するためには、まず認識用単語
または命令を選定し、この単語を多数の人間に発声させ
てからそのデータを綜合、分析して各単語から同じ発声
音内からは(すべての発声話者)共通的であり、他の単
語とは区別される或るパターンをまず捜さなければなら
ない。
【0004】このパターンが捜さればこれをシステム内
に貯蔵して置き使用者がマイクロ或る特定単語を入力さ
せると、この音声からやはり同一な方式によって或る比
較パターンを抜取してから既存に貯蔵して置いた各単語
のパターンと比較して一番近接される単語を認識された
と見る。
【0005】認識が遂行されると各種車輌用電気製品が
認知することができるディジタルプロトコルを出力さ
せ、車輌用電気製品(例えばエアコン、車輌用オーディ
オ等)はこの命令プロトコルにより自動に作動される。
【0006】マイクロ入力される音声、制御命令の例を
上げると“ボリュームアップ" は車輌用オーディオシス
テムの全体ボリュームを一段階ずつ上げてやる命令であ
り、“FM" は車輌用オーディオのモードをFMに合わ
せてやる命令である。
【0007】
【発明が解決しようとする課題】従来音声認識システム
において、音声認識部分は音声認識システムの核心とい
うことができ、代表的な音声認識アルゴリズムとしては
HMM、VQ(Vector Quantization )、DTW (Dyna
mic Time Warpng)、 神経網(Neural Network)等があ
る。
【0008】この中で一番広範囲に使用されているHM
Mは話者独立音声認識から一番良好な結果を見せている
が、その特性上多量の学習データを必要とするので、話
者従属システムには適用することが困難である。
【0009】反面、DTWの場合、話者従属システムに
おいてはどのぐらい性能を示すが、話者独立にまでは発
展しないし、音声区間を固定された大きさのセクション
に強制分割するVQや神経網は独自的に使用されること
よりは他のアルゴリズムと結合されて使用される。
【0010】したがって、上述のように従来音声認識ア
ルゴリズムは話者独立システムと話者従属システムのす
べてから効果的でない問題点があった。
【0011】本発明は前記のような問題点を解決するた
めに案出したもので、その目的は音声区間のセクション
長さを可変的に設定して単語モデルを作り、DP(Dyna
micPrograming)のような非線型的なパターンマッチン
グを遂行するVMSVQ(Variable Multi-Section Vec
tor Quantization)技法を利用して単語モデルと入力さ
れる音声パターンとの最適経路を求めて一番類似な単語
モデルに入力される音声を認識することができるように
して話者独立システムと話者従属システムにおける音声
認識率を高揚することができるようにした音声認識シス
テムにおける単語学習および認識方法を提供することに
ある。
【0012】すなわち、本発明の目的は、音声の区間を
固定された大きさのセクションに強制分割する既存のV
Q技法とは異なりに音声区間を可変的に設定することに
よって母音のようにその特性が重複される場合やパター
ンの一部が変わる場合に効果的に対応することができる
ようにしたものである。
【0013】
【課題を解決するための手段】このような目的を達成す
るための本発明の音声認識システムにおける単語学習お
よび認識方法は、学習時には学習データのセクションを
等分割した後にコードブックと各セクションの平均長さ
を利用して単語モデルを作り、この単語モデルが以前の
モデルと同一であるときまでパターンマッチングを結果
から遂行し学習パターンのセクションを再分割してセク
ション長さが他の単語モデルをデータベースに貯蔵し、
認識時にはDPのような非線型的なパターンマッチング
を遂行するVMSVQ技法を利用して入力される音声パ
ターンとデータベースに貯蔵された単語モデルとの最適
経路を計算して、最適経路が一番短い単語モデルに入力
される音声を認識することができるようにすることを特
徴とする。
【0014】
【発明の実施の形態】以下、添付の図面を参考して本発
明による音声認識システムにおける単語学習および認識
方法を詳細に説明する。
【0015】図1は本発明に該当される音声認識システ
ムのブロック図であって、外部マイクを利用した外部か
ら伝達されてくる音を電気的な信号に変換させる音声入
力部1と、前記音声入力部1を通じて入力された信号か
ら雑音やその他の音声以外の必要のなし信号を濾過して
やるLPF(Low Pass Filter )2と、前記LPF2を
通じて濾過された電気的なアナログ信号をディジタル信
号に変換させるA/Dコンバーター3と音声認識遂行前
に、前記A/Dコンバーター3を通じて入力される信号
から機械が判別し難しい部分は最小限に抑制し機械が判
別し易い部分のみ存置させる適当な信号処理を遂行する
フリ−プロセッシング部4と、前記フリ−プロセッシン
グ部4の出力から機械が認知するのに簡便な音声の時間
−周波数的な特徴を抜取する役割を遂行する特徴抽出部
5と、各単語別にデータベースを作成して貯蔵して置く
データベース部6と、前記特徴抽出部5から抽出された
音声の特徴と前記データベースに貯蔵された基準パター
ンを比較して比較値を作成する音声認識部7と、前記音
声認識部7によって比較値が作成されるとパターンが一
番類似な単語モデルを決定して入力された音声がこの単
語モデルであると判断して認識単語を出力する後処理部
8とから構成されたものである。
【0016】このような音声認識システムの内部作動順
序を観察して見ると、まず音声入力部1からは外部マイ
クを利用して外部から伝達されてくる空気の振動を電気
的な信号に変換してやり、LPF2から入力された信号
から雑音やその他の音声以外の必要のない信号を濾過し
てやり、このように濾過された電気的なアナログ信号を
A/Dコンバーター3からディジタル信号に変換させて
やる。
【0017】では、フリ−プロセッシング部4からは音
声認識を遂行する前に、この音声信号から機械が判別し
難しい部分は最小限に抑制し機械が判別し易い部分のみ
存置して置く適当な信号処理を遂行する前処理を遂行
し、特徴抽出部5を通じて音声から機械が認知するのに
簡便な音声の時間−周波数的な特徴を抜取し、音声認識
部7から抽出された音声の特徴を既存に各単語別にデー
タベース部6に作成して置く基準パターンと比較してパ
ターンが一番類似な単語モデルが決定され、音声認識シ
ステムにおいては入力された音声が単語モデルであると
判断する。
【0018】そして単語が決定されると認識システムは
該当単語が遂行される電気製品に該当プロトコルを伝達
しこれにより電気製品が作動する。
【0019】図2は本発明による単語学習方法に対する
動作流れ図であって、まず学習しようとするデータをN
個のセクションに等分割する(S10)。
【0020】続いて、各セクションに対して同一のセク
ションのベクトルを一つの空間に順序のなしに入れて集
団化し(S11)、コードワードを計算してコードブッ
クを作成し、各セクションの平均長さを計算して単語モ
デルを作る(S12)。
【0021】このとき、コードブック作成過程は図3に
図示のように、音声データが入力されると(S20)、
音声区間(Endpoint)およびMFCC(Mel Frequency
Cepstrum Coefficient)を順序的に抽出し(S21、S
22)、MKM(Modify K-Means)のクラスタリング
(Clustering)を通じてコードブックを生成する(S2
3、S24)。
【0022】このとき、前記図2の段階S12から作ら
れた単語モデルWi は図4に図示のように多数のセクシ
ョンCi1、Ci2、Ci3…CiNに構成され、一つのセクシ
ョンaは各セクションを代表する値C1 i3、C2 i3、…
S i3であるコードワードbとlijのセクション長さc
とから構成される。
【0023】すなわち、本発明においては一つのセクシ
ョンの長さが可変的に設定されるので、各セクションに
セクション長さの情報を一緒に置いて単語モデルを表現
する。
【0024】それから、前記段階S12から作られた単
語モデルが以前のモデルと同一であるかを比較して(S
13)以前のモデルと同一であると作られた単語モデル
をデータベースに貯蔵し(S14)、以前のモデルと同
一ではないと新たなモデル学習パターン間にパターンマ
ッチングを遂行し(S16)学習パターンのセクション
を再分割して(S17)以前の単語モデルと同一になる
まで反復遂行するようにして(S16)以前のモデルと
同一になった単語モデルをデータベース部6に貯蔵す
る。
【0025】しかし、臨界値以上にパターンマッチング
とセクション再分割を遂行したにも以前の単語モデルと
もっと以上に同一にならないと単語モデルをそのままに
データベースに貯蔵する。
【0026】前記のような学習方法を通じてセクション
の長さがお互に異なる単語モデルを作ってデータベース
に貯蔵すると、入力される音声パターンを前記データベ
ースに貯蔵された単語モデルと比較して一番類似な単語
モデルを通じて認識することができるようになる。
【0027】すなわち、本発明による単語認識方法を図
4の流れ図を参照して説明すると次のようである。
【0028】任意の音声パターンを入力して(S3
0)、下記の数4式を利用して入力音声パターンX=x
1 2 …xI (Iはフレーム数)に対する単語モデルW
i との最適距離を計算する(S31)。
【0029】
【数4】
【0030】ここで、mi は入力音声ベクトルのセクシ
ョン境界として、m0 =0 であり、mN =Iである。
【0031】入力音声のi番目のセクション区間はm
i-1 +1 からmi 間のベクトルである。
【0032】このとき、前記DC(j)は入力音声パタ
ーンのj番目のセクションベクトルと単語モデルj番目
のセクションのコードワードとの最小距離として、下記
数5式のように表現される。
【0033】
【数5】
【0034】ここで、dist1 はベクトル距離である。
【0035】そして、前記DL(j)は入力音声ベクト
ルのj番目のセグメント長さと単語モデルj番目のセク
ション長さとの距離として、下記の数6式のように表現
される。
【0036】
【数6】
【0037】ここで、dist2 はスカラー距離であり、W
j はセクションjの0または量の重さの常数である。
【0038】一方、前記DTot を効果的に計算するため
にDP技法を利用して単語モデルの第一番目のセクショ
ンと入力音声の第一番目のベクトルから単語モデルのi
番目のセクションと入力音声のj番目のベクトルまでの
最適経路に対する累積距離D(i, j)を下記の数7式
によって計算する。
【0039】
【数7】
【0040】以後、前記数式によって求められた入力音
声パターンと単語モデルとの最適経路から距離が一番短
い最適経路を有する単語モデルを利用して入力される音
声を認識するようにする(S32)。
【0041】
【発明の効果】以上の説明のように本発明はVMSVQ
技法を利用して可変のセクション長さを有する単語モデ
ルと入力音声パターンとの最適経路を求めて一番類似な
単語モデルに入力される音声を認識することができて話
者独立システムと話者従属システムにおける音声認識率
を高揚させることができるようになる効果がある。
【0042】特に、音声区間を可変的に設定することに
よって母音のようにその特徴が重複される場合やパター
ンの一部が変わる場合に効果的に対応することができる
効果がある。
【図面の簡単な説明】
【図1】一般的な音声認識システムのブロック構成図で
ある。
【図2】本発明による単語学習方法を図示した動作流れ
図である。
【図3】本発明からコードブック作成過程を図示した動
作流れ図である。
【図4】本発明による単語学習により作られた単語モデ
ルを図示した図面である。
【図5】本発明による単語認識方法を図示した動作流れ
図である。
【符号の説明】
1:音声入力部 2:LPF 3:A/Dコンバーター 4:フリ−プロセッシング部 5:特徴抽出部 6:データベース部 7:音声認識部 8:後処理部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】学習データをセクションに等分割する第1
    段階と、 前記第1段階から分割された各セクションに対して同一
    なセクションのベクトルを集団化する第2段階と、 前記第2段階遂行後、コードワードを計算してコ一ドブ
    ックを作成し各セクションの平均長さを計算して単語モ
    デルを作る第3段階と、 前記第3段階から作られた単語モデルが以前のモデルと
    同一であるかを比較して以前のモデルと同一であるとき
    まで新たなモデル学習パターン間にパターンマッチング
    を遂行し学習パターンのセクションを再分割して単語モ
    デルをデータベースに貯蔵する第4段階とからなること
    を特徴とする音声認識システムにおける単語学習方法。
  2. 【請求項2】前記単語モデルが、 コードワードとセクション長さとからなる多数のセクシ
    ョンに構成されることを特徴とする請求項1記載の音声
    認識システムにおける単語学習方法。
  3. 【請求項3】入力される音声パターンに対してデータベ
    ースに貯蔵された単語モデルとの最適経路を求める第1
    段階と、 前記第1段階から求めた入力音声パターンと単語モデル
    との最適経路から計算する第2段階と、 一番短い最適経路を有する単語モデルに音声を認識する
    第3段階とからなることを特徴とする音声認識システム
    における単語認識方法。
  4. 【請求項4】前記最適経路が、下記式によって求められ
    ることを特徴とする請求項3記載の音声認識システムに
    おける単語認識方法。 【数1】
  5. 【請求項5】前記DC(j)が、下記式によって求めら
    れることを特徴とする請求項4記載の音声認識システム
    における単語認識方法。 【数2】
  6. 【請求項6】前記DL(j)が、下記式によって求めら
    れることを特徴とする請求項4記載の音声認識システム
    における単語認識方法。 【数3】
JP10367759A 1997-12-29 1998-12-24 音声認識システムにおける単語学習および認識方法 Pending JPH11352982A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1019970076306A KR100301596B1 (en) 1997-12-29 1997-12-29 Method of studying and recognizing word in voice recognition system
KR97-76306 1997-12-29

Publications (1)

Publication Number Publication Date
JPH11352982A true JPH11352982A (ja) 1999-12-24

Family

ID=19529205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10367759A Pending JPH11352982A (ja) 1997-12-29 1998-12-24 音声認識システムにおける単語学習および認識方法

Country Status (2)

Country Link
JP (1) JPH11352982A (ja)
KR (1) KR100301596B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101556594B1 (ko) 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법

Also Published As

Publication number Publication date
KR19990056312A (ko) 1999-07-15
KR100301596B1 (en) 2001-06-26

Similar Documents

Publication Publication Date Title
KR100699622B1 (ko) 음성 신호를 구분 및 인식하기 위한 시스템 및 방법
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
EP1301922A1 (en) System and method for voice recognition with a plurality of voice recognition engines
JPH096386A (ja) 状態遷移モデルの設計方法及び該状態遷移モデルを用いた音声認識装置
CN101578659A (zh) 音质转换装置及音质转换方法
JPH08123484A (ja) 信号合成方法および信号合成装置
JP2002536691A (ja) 音声認識除去方式
Beritelli et al. A pattern recognition system for environmental sound classification based on MFCCs and neural networks
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2003005785A (ja) 音源の分離方法および分離装置
JPH11352982A (ja) 音声認識システムにおける単語学習および認識方法
KR100480506B1 (ko) 음성 인식 방법
JPH02232696A (ja) 音声認識装置
JPH11311994A (ja) 情報処理装置および方法、並びに提供媒体
JPH04324499A (ja) 音声認識装置
JPH08248975A (ja) 標準パターン学習装置およびこの装置を使用した音声認識装置
Orphanidou et al. Voice morphing using the generative topographic mapping
JP3357752B2 (ja) パターンマッチング装置
JPH0194398A (ja) 音声標準パターンの作成方法
JPH05508242A (ja) 話者認識方法
JPH09160585A (ja) 音声認識装置および音声認識方法
JPH04271397A (ja) 音声認識装置
JPH0323920B2 (ja)
JPH06175678A (ja) 音声認識装置
JPH04181298A (ja) 参照ベクトル更新方法