JPH067344B2 - ベクトル量子化を用いた音声認識方式 - Google Patents

ベクトル量子化を用いた音声認識方式

Info

Publication number
JPH067344B2
JPH067344B2 JP62156959A JP15695987A JPH067344B2 JP H067344 B2 JPH067344 B2 JP H067344B2 JP 62156959 A JP62156959 A JP 62156959A JP 15695987 A JP15695987 A JP 15695987A JP H067344 B2 JPH067344 B2 JP H067344B2
Authority
JP
Japan
Prior art keywords
power
codebook
vector quantization
spectrum
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62156959A
Other languages
English (en)
Other versions
JPH01996A (ja
JPS64996A (en
Inventor
哲 中村
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR JIDO HONYAKU DENWA
Original Assignee
ATR JIDO HONYAKU DENWA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR JIDO HONYAKU DENWA filed Critical ATR JIDO HONYAKU DENWA
Priority to JP62156959A priority Critical patent/JPH067344B2/ja
Publication of JPH01996A publication Critical patent/JPH01996A/ja
Publication of JPS64996A publication Critical patent/JPS64996A/ja
Publication of JPH067344B2 publication Critical patent/JPH067344B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野屋] この発明はベクトル量子化を用いた音声認識方式に関
し、特に、ベクトル量子化を用いたテンプレートマッチ
ングによる音声認識方式に関する。
[従来の技術および発明が解決しようとする問題点] 音声認識として、従来よりベクトル量子化を用いる手法
が考えられている。従来のベクトル量子化を用いた音声
認識では、計算量およびメモリの増加を抑えて認識性能
を向上させるべく、ベクトル量子化に用いるスペクトル
歪み尺度の改良が行なわれ、種々の特徴の組合わせの複
合スペクトル歪み尺度が提案されている。この方法で
は、スペクトル歪み尺度に多種の特徴量を混在させ、そ
れらの間の依存関係を拘束条件として用い、より認識性
能の良い空間へ特徴を写像するところに意味があった。
しかし、この方法では、次に述べるような大な2つの問
題点があった。
各特徴量間の依存関係がベクトル量子化のコードブッ
ク内で統計的に妥当性を持つためには、非常に多くのラ
ーニングサンプルとこのための膨大な計算時間が必要で
ある。
コードブックサイズで見た場合、各特徴に必要なコー
ドブックサイズは特徴間の依存関係を拘束条件にするこ
とで減少する。しかし、それでも全体のコードブックサ
イズは各特徴に必要なコードブックサイズの積になっ
て、非常に大きくなってしまい、膨大なメモリが必要で
あった。
それゆえに、この発明の主たる目的は、ベクトル量子化
として各特徴ごとに別々にコードブックを生成し、別々
のベクトル量子化を行なうセパレートベクトル量子化を
用いることにより、従来の問題点を解消し得るベクトル
量子化を用いた音声認識方式を提供することである。
[問題点を解決するための手段] この発明は、入力音声をベクトル量子化し、ベクトル量
子化による符号列として格納されている標準パターンと
照合することにより認識を行なう音声認識方式におい
て、入力音声の特徴の種類を判別するステップと、入力
音声の特徴がパワーであることが判別されたことに応じ
てパワーのコードブックを生成して記憶するステップ
と、入力音声の特徴がスペクトルであることが判別され
たことに応じてスペクトルのコードブックを生成して記
憶するステップと、各コードブックについてベクトル量
子化を行ない、パワーとスペクトルとのコード列を生成
するステップと、生成されたパワーとスペクトルのコー
ド列と予め生成されている標準パターンおよび複合距離
尺度とに基づいて認識を行なうステップを含む。
[作用] この発明に係るベクトル量子化を用いた音声認識方式で
は、入力音声の特徴の種類を判別し、その特徴がパワー
であればパワーのコードブックを生成して記憶し、特徴
がスペクトルであればスペクトルのコードブックを生成
して記憶し、各コードブックについてベクトル量子化を
行なってパワーとスペクトルのコード列を生成し、生成
されたパワーとスペクトルのコード列と予め生成されて
いる標準パターンおよび複合距離尺度とに基づいて認識
を行なうことにより、コードブックサイズは各特徴に必
要なコードブックサイズの和となり、全体のコードブッ
クサイズを軽減できる。
[発明の実施例] 次に、図面を参照して、この発明の実施例についてより
具体的に説明する。
第1図はこの発明の音声認識装置の概略ブロック図であ
る。
第1図において、音声認識装置はアンプ1とローパスフ
ィルタ2とA/D変換器3と処理装置4とから構成され
る。アンプ1は入力された音声信号を増幅するものであ
り、ローパスフィルタ2は増幅された音声信号から折返
し雑音を除去するものである。A/D変換器3は音声信
号を12kHzのサンプリング信号により、16ビットの
ディジタル信号に変換するものである。処理装置4はコ
ンピュータ5と磁気ディスク6と端末類7とプリンタ8
とを含む。コンピュータ5はA/D変換器3から入力さ
れた音声のディジタル信号に基づいて音声認識を行なう
ものである。
第2図はこの発明の一実施例の音声信号の入力から認識
結果を出力するまでの全体の流れを示すフロー図であ
り、第3図はセパレートベクトル量子化の動作を説明す
るためのフロー図であり、第4図はマッチング動作を説
明するためのフロー図である。
次に、第1図ないし第4図を参照して、この発明の一実
施例の動作について説明する。入力された音声信号はア
ンプ1で増幅され、ローパスフィルタ2によって折返し
雑音が除去された後、第2図に示すステップ(図示では
SPと略称する)SP1において、A/D変換器3が入
力された音声信号を16ビットのディジタル信号に変換
する。処理装置4のコンピュータ5はステップSP2に
おいて、ディジタル信号に変換された音声の特徴抽出を
行なう。この特徴抽出では、たとえば線形予測分析(L
PC分析)などの手法を用いて行なわれる。
ステップSP3において、抽出された音声の特徴がセパ
レートコードブックを参照して、セパレートベクトル量
子化される。セパレートコードブックはステップSP4
において、特定話者認識の場合は個人用として、不特定
話者の場合は全話者共通のコードブックとして予め準備
されている。セパレートベクトル量子化により生成され
た特徴ごとのコード列はステップSP5において、既に
ステップSP6でコード列として磁気ディスク6に格納
されている標準パターンと照合され、Double S
plit法によるマッチングが行なわれ、そのマッチン
グ距離がステップSP7における結果判定部7に送られ
る。なお、ステップSP6における標準パターンは、不
特定話者認識の場合は予め使用者が認識単語を発声する
ことにより作成し、不特定話者認識の場合は、多数の話
者が発声した音声データベースを分析して、代表パター
ンをマルチテンプレートとして作成され、磁気ディスク
6に格納されている。ステップSP7における結果判定
部では、認識候補に対して、結果が適切かどうかの判断
を行ない、認識結果を出力する。
次に、第3図を参照して、前述の第2図に示した特徴抽
出およびセパレートベクトル量子化の動作についてより
詳細に説明する。特徴抽出では、ステップSP11にお
いて、16ビットのディジタル信号に変換された音声信
号に対して、14次の自己相関分析によるLPC分析を
行ない、入力音声の特徴であるパワーと自己相関係数,
LPCケプストラム係数を抽出する。ステップSP12
において、パワーのコードブック生成であるか否かを判
別し、パワーのコードブック生成であれば、ステップS
P13において、入力音声のパワーをスカラー量子化す
る。スカラー量子化では、不均一量子化の手法を用い
て、パワーコードを生成し、ステップSP14におい
て、生成したパワーコードブックを磁気ディスク6に格
納する。
パワーコードブックの生成でないとき、すなわち、量子
化時には、ステップSP14におけるパワーコードブッ
クを用いて、SP15において量子化を行ない、パワー
に関するコード列を出力する。
一方、ステップSP16において、LPC相関係数およ
びLPCケプストラム係数のコードブック生成であるこ
とが判別されると、ステップSP17において、LBG
アルゴリズムにより、WLR尺度に基づいてコードブッ
クが生成され、ステップSP18において生成されたコ
ードブックが磁気ディスク6に格納される。ここで、L
BGアルゴリズムについては、Linde,Buzo,
Gray:“An algorithm for Ve
ctor Quantization Design”
IEEE COM−28(1980−01)に記載され
ている。また、WLR尺度は、音声の特徴を強調する尺
度であり、単語音声の認識において高い性能を示すもの
であり、杉山,鹿野による“ピークに重みをおいたLP
Cスペクトルマッチング尺度”電子通信学会論文(A)
J64−A5(1981−05)に記載されている。
なお、LPC相関係数およびLPCケプストラム係数の
コードブック生成でないとき、すなわち、量子化時には
入力音声の自己相関係数とLPCケプストラム係数に対
し、ステップSP18におけるスペクトルコードブック
を用いて、ステップSP19においてベクトル量子化を
行ない、スペクトル情報に関するコード列を出力する。
ここで、コードブック生成,量子化に用いたスペクトル
歪み尺度は次のものである。
dpower=P/P′+P′/P−2 …(1) dspectrum=Σ(C(n)-C′(n))(R(n)-R′(n)) …(2) dpower :パワー項の歪み尺度 dspectrum:スペクトル歪み尺度 R(n) :コードブックのn次の自己相関係数 R′(n) :入力のn次の自己相関係数 C(n) :コードブックのn次の LPCケプストラム係数 C′(n) :入力のn次の LPCケプストラム係数 P:コードブックのパワー P′:入力のパワー 前述したように、標準パターン作成時には、このコード
列を標準パターンとして格納し、認識時には標準パター
ンのコード列とのマッチングを行なう。
次に、第4図を参照して、マッチング方法について説明
する。セパレートベクトル量子化により、パワーとスペ
クトルとを別々にベクトル量子化して生成されたコード
列と、コード列として格納されている標準パターンとに
基づいて、ステップSP21において、Double
Split法によるマッチングが行なわれる。ステップ
SP22における標準パターンには、セパレートベクト
ル量子化によりコード化されたパワーおよびスペクトル
の標準パターンが格納されている。そして、ステップS
P21におけるマッチングにおいては、コード間の距離
はステップSP23において予め距離マトリクスを作成
しておき、この表びきを行なうことで行なわれる。この
ようにして、順番に標準パターンとマッチングして求め
た入力音声と標準パターンとの距離がステップSP24
において出力される。
ここで、上述のマッチング方法について説明する。従来
のマッチングでは、入力の標準パターンの1つの特徴列
あるいはコード列であったが、セパレートベクトル量子
化では、一般に複数のコード列により構成される。この
実施例では、パワーコード列とスペクトルコード列の2
系列のマッチング手法を用いている。パワーとスペクト
ルの両方の情報を考えた場合の距離尺度として、PWL
R尺度がある。これは次の第(3)式で示されるもので
ある。
dPWLR=Σ(C(n)-C′1(n))(R(n)-R′(n)) +a・(P/P′+P′/P−2) …(3) a=0.01 従来のDouble Split法によるコード列のマ
ッチングでは、前述のようにすべての空間がベクトル量
子化され、有限個の点で代表されていることを利用し
て、予めすべての代表点間の距離を求めて距離マトリク
スに格納しておく。したがって、 dPWLR(i,j)=DL(A(i),B(j)) DL(A(i),B(j)) =Σ(CK(n)-CL(n))(RK(n)-RL(n)) +a・(PK/PL+PL/PK-2) A(j)は、入力音声のiフレーム目のコード番号 B(j)は、標準パターンのjフレーム目のコード番号 DL(K,L)は、コードK,L間の距離を距離マトリク
スから表びきで求めたもの K,Lは、A(j),B(j)のコード番号 しかし、セパレートベクトル量子化では、2つの系列を
有するので次のような距離を求める。
d[p][WLR](i,j) =DLspect(Aspect(i),Bspect(j)) +a・DLpower(Apower(i),Bpower(j)) ここで、 DLspect (Aspect(i),Bspect(j)) =Σ(CK(n)−CL(n))(RK(n)−RL(n)) DLpower(Apower(i),Bpower(j)) =PK′/PL′+PL′/PK′-2 K,Lは、Aspect(i),Bspect(j)のコード番号 K′,l′は、Apower(i),Bpower(j)のコード番号 である。これは、PWLR尺度の第1項と第2項とを別
にコード化して距離を計算し、和を求めたものである。
この局部距離の尺度を用いてDP(dynamic p
rogramming:動的計画法)マッチングにより
距離を求める。これによって、非常に高性能なベクトル
量子化を用いた音声認識を実現することができる。
[発明の効果] 以上のように、この発明によれば入力音声の特徴である
パワーとスペクトルの各コードブックを生成し、各コー
ドブックについてベクトル量子化を行ない、求められた
各コード列と予め定められている標準パターンおよび複
合距離尺度とに基づいて認識を行なうようにしたので、
各特徴の依存項を無視でき、ラーニングサンプルも少な
くてすみ、計算量を減少できる。ただし、セパレートす
ることにより、別のベクトル量子化系を構成するので、
この分だけ計算量が多少増加するが、ラーニングサンプ
ルが少ないので、十分計算量を減少できる。また、コー
ドブックサイズはセパートベクトル量子化では、各特徴
に必要なコードブックサイズの和になるので、全体のコ
ードブックサイズを激減することができる。
【図面の簡単な説明】
第1図はこの発明の音声認識装置の概略ブロック図であ
る。第2図はDouble Split法による音声認
識の全体の流れを示すフロー図である。第3図はセパレ
ートベクトル量子化の動作を説明するためのフロー図で
ある。第4図はマッチング動作を説明するためのフロー
図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換機、4は処理装置、5はコンピュータ、6は
磁気ディスク、7は端末類、8はプリンタを示す。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭59−99500(JP,A) 特開 昭64−997(JP,A) 特公 平3−23920(JP,B2) 日本音響学会講演論文集 昭和55年10月 1−1−21 P399−400 日本音響学会講演論文集 昭和56年5月 3−1−17 P553−554 日本音響学会講演論文集 昭和57年10月 2−7−12 P113−114 電子通信学会音声研究会資料 S80−61 P480−486(1980/12/15) 電子通信学会論文誌 Vol.J64−A No.5(1981/5) P409−415

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力音声をベクトル量子化し、ベクトル量
    子化による符号列として格納されている標準パターンと
    照合することにより認識を行なう音声認識方式におい
    て、 前記入力音声の特徴の種類を判別するステップ、 前記入力音声の特徴がパワーであることが判別されたこ
    とに応じて、パワーのコードブックを生成して記憶する
    ステップ、 前記入力音声の特徴がスペクトルであることが判別され
    たことに応じて、スペクトルのコードブックを生成して
    記憶するステップ、 前記各コードブックについてベクトル量子化を行ない、
    パワーとスペクトルのコード列を生成するステップ、お
    よび 前記生成されたパワーとスペクトルのコード列とを予め
    生成されている標準パターンおよび複合距離尺度とに基
    づいて認識を行なうステップを含む、ベクトル量子化を
    用いた音声認識方式。
JP62156959A 1987-06-24 1987-06-24 ベクトル量子化を用いた音声認識方式 Expired - Fee Related JPH067344B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62156959A JPH067344B2 (ja) 1987-06-24 1987-06-24 ベクトル量子化を用いた音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62156959A JPH067344B2 (ja) 1987-06-24 1987-06-24 ベクトル量子化を用いた音声認識方式

Publications (3)

Publication Number Publication Date
JPH01996A JPH01996A (ja) 1989-01-05
JPS64996A JPS64996A (en) 1989-01-05
JPH067344B2 true JPH067344B2 (ja) 1994-01-26

Family

ID=15639057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62156959A Expired - Fee Related JPH067344B2 (ja) 1987-06-24 1987-06-24 ベクトル量子化を用いた音声認識方式

Country Status (1)

Country Link
JP (1) JPH067344B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01239600A (ja) * 1988-03-22 1989-09-25 Nippon Telegr & Teleph Corp <Ntt> セグメント符号化方法
JP4925569B2 (ja) * 2004-07-08 2012-04-25 ローム株式会社 有機エレクトロルミネッセント素子
KR100784957B1 (ko) * 2006-04-24 2007-12-11 주식회사 케이티앤지 수삼의 비중 측정 방법 및 측정 장치
KR100805889B1 (ko) * 2006-06-14 2008-02-25 배재대학교 산학협력단 죽절초의 조기 결실을 위한 번식방법
KR100788789B1 (ko) * 2006-08-29 2007-12-27 고려대학교 산학협력단 포름알데히드 노출 여부 진단용 바이오 마커 단백질
KR100799334B1 (ko) * 2006-10-18 2008-01-30 한국철도기술연구원 철도차량 차축압입부위의 결함 탐상장치
KR100849954B1 (ko) * 2006-12-29 2008-08-01 인제대학교 산학협력단 Katp 채널의 과발현 검출을 위한 프라이머 세트, 이를포함하는 검출 키트 및 동정 방법
KR100846836B1 (ko) * 2007-01-15 2008-07-17 한스바이오메드 주식회사 골재생촉진 조성물
KR100852496B1 (ko) * 2007-01-24 2008-08-18 한양대학교 산학협력단 산소 플라즈마와 급속 열처리를 이용한 산화 티타늄광촉매의 제조방법
KR100840487B1 (ko) * 2007-02-08 2008-06-20 주식회사 동원에프앤비 저온 초고압 처리에 의한 약용식물의 가공방법
KR100858605B1 (ko) * 2007-03-09 2008-09-17 김평원 퍼지기반 보정을 이용한 메타 평가 시스템
KR100833470B1 (ko) * 2007-05-02 2008-06-02 연세대학교 산학협력단 식물의 엽록체 및 미토콘드리아 발달에 관여하는NbBTF3유전자
CN105917305B (zh) 2013-08-02 2020-06-26 埃莫蒂安特公司 基于图像情感内容的过滤和快门拍摄
CN104849496B (zh) * 2015-04-27 2018-04-24 哈尔滨工业大学深圳研究生院 一种基于电晕放电原理的高冲击加速度检测方法及传感器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57177198A (en) * 1981-04-24 1982-10-30 Fujitsu Ltd Recognizing treating device for sound
JPS5999500A (ja) * 1982-11-29 1984-06-08 日本電信電話株式会社 音声認識方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集昭和55年10月1−1−21P399−400
日本音響学会講演論文集昭和56年5月3−1−17P553−554
日本音響学会講演論文集昭和57年10月2−7−12P113−114
電子通信学会論文誌Vol.J64−ANo.5(1981/5)P409−415
電子通信学会音声研究会資料S80−61P480−486(1980/12/15)

Also Published As

Publication number Publication date
JPS64996A (en) 1989-01-05

Similar Documents

Publication Publication Date Title
JPH067345B2 (ja) ベクトル量子化を用いた音声認識方式
CN111415667B (zh) 一种流式端到端语音识别模型训练和解码方法
CN112017644B (zh) 一种声音变换系统、方法及应用
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
JPH067344B2 (ja) ベクトル量子化を用いた音声認識方式
JPH01997A (ja) ベクトル量子化を用いた音声認識方式
CN112233646A (zh) 基于神经网络的语音克隆方法、系统、设备及存储介质
JP2709386B2 (ja) スペクトログラムの正規化方法
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
JPH01996A (ja) ベクトル量子化を用いた音声認識方式
JPH07110695A (ja) 音声符号化装置および方法
JPH01998A (ja) スペクトログラムの正規化方法
Syiem et al. Comparison of Khasi speech representations with different spectral features and hidden Markov states
JP2898568B2 (ja) 声質変換音声合成装置
Davidson et al. Multiple-stage vector excitation coding of speech waveforms
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
JP3531342B2 (ja) 音声処理装置および音声処理方法
JP2912579B2 (ja) 声質変換音声合成装置
JPH0197997A (ja) 声質変換方法
JP3228389B2 (ja) 利得形状ベクトル量子化装置
JP3252285B2 (ja) 音声帯域信号符号化方法
JP2001290494A (ja) 登録単語辞書作成方法及びその装置、並びに音声認識方法及びその装置
Raghudathesh et al. Review of Toolkit to Build Automatic Speech Recognition Models
JPH07248791A (ja) 話者照合方法及び装置
JPH01211799A (ja) 多言語を扱う音声の規則合成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees