JPS5999500A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS5999500A
JPS5999500A JP57210433A JP21043382A JPS5999500A JP S5999500 A JPS5999500 A JP S5999500A JP 57210433 A JP57210433 A JP 57210433A JP 21043382 A JP21043382 A JP 21043382A JP S5999500 A JPS5999500 A JP S5999500A
Authority
JP
Japan
Prior art keywords
distance
speech
input
feature vector
representative feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57210433A
Other languages
English (en)
Inventor
鹿野清宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP57210433A priority Critical patent/JPS5999500A/ja
Publication of JPS5999500A publication Critical patent/JPS5999500A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明は、特徴時系列のマツチングに基づく音声認識
方法に関し、特に標準ノくターンと入力音声との2つの
時系列間の距離計算量を大幅に減らそうとするものであ
る。
〈従来技術〉 入力音声と音声標準ノくターンの時系列をそのままマツ
チングする方式(以後、直接マツチング法と呼ぶ)によ
る音声認識方式が広く用いられている。この方式では、
2つの時系列のフレーム間の距離計算量が膨大、となる
ため、通常100単語以下の特定話者の認識方式に用い
られるに過ぎない。
またこの方式では、フレーム間の距離計算量カニ音声標
準パターン数に比例して増大するため、大語いを特徴と
する特定話者音声認識方式や、単語単位のマルチテンプ
レート法による不特定話者単語音声認識方式には適して
いない。
音声標準パターンを有限個の音韻または擬音韻(ベクト
ルと呼ぶ)の番号系列で表しておき、入力音声の時系列
のフレームと上記のベクトルとの間の距離を計算するこ
とによね、距離計算量を肖1j滅する方式(SPLIT
法と呼ぶ)がある。この方式は音声標準パターンのフレ
ームだけを有限個のベクトルで表わしくこの手法をベク
トル量子化と呼ぶ)、入力音声に対してはフレームをそ
のまま用いる手法である。この方式では入力音声のフレ
ーム数をMとし、ベクトルの数をNとすると、距離計算
の量はIVI X N回必要となる。また、入力音声に
対してはベクトル量子化せず、一方、音声標準パターン
に対してはベクトル量子化をするため、入力音声と音声
標準パターンとの取り扱いが対称ではないという問題点
ももっている。
〈発明の概要〉 この発明は入力音声も音声標準パターンもベクトル量子
化することによシ、入力音声と音声標準パターンの取シ
扱いが対称になり、かつ、距離計算の量を従来の方法よ
シも減らすことができ、更に入力音声をフレームごとに
、ベクトルのどれかに強制的に割シ当てることによシ、
ある種のスペクトル歪の正規化効果をもつようにするも
のである。
〈実施例〉 第1図はこの発明による音声認識方法の実施例を示し、
入力端子11よシ入力された音声信号は特徴パラメータ
抽出部12で8KH2ごとにディジタル信号に変換され
、更に一定のフレーム周期(例えば16m5ec)ごと
にディジタルフィルタによ、るバンドパスエネルギーを
計算したり、LPC分析を行ったシする。これら各フレ
ームごとの抽出さ′れた特徴パラメータはベクトル督、
予信による符号化部13で、そのフレームのスペクトル
に近いベクトルに符号化される。この符号化方法として
は入力音声の各フレームごとの特徴ベクトルと、予め用
意されたすべての代表ベクトルとの距離を計算して符号
化する全数探索符号化法(FullSearch Co
ding、F S C法と記す)や、2分岐水による符
号化法(Binary Tree Coding + 
B T C法と記す)などが存在する。これらの手法に
ついては例えば米国雑誌IEEE、C0M−28,pp
84−95(1980−01) 、 Y 、 Lind
e等の” An Algorithmfor Vect
or Quantizer Design”を参照され
たい。
BTC法の場合には、ベクトル量子化による符号化部1
3での入力音声のフレームあたりの距離計算回数は、ベ
クトル数を2 個とすると、2m回となり、5PLIT
法の2回よシ大幅に減らすことができる。まだ、符号化
部13にスペクトル歪の正規化機能を加えることも可能
である。
これら入力音声のベクトル量子化部の一実施例を第2図
に示す。この実施例では距離尺度としてLPC分析に基
づ< W L R(Weighted Likelih
−od Ratio )尺度を用い、ベクトル量子化の
手法として全数探索符号化を取シあげる。入力音声はA
D変換部14で、高域強調された後、4KHzの低域通
過フィルタに通し、更に8KHzでサンプリングされて
ディジタル信号に変換される。このディジタル信号は自
己相関分析部15で16’m5ecをフレーム周期とし
、32m5ecのハミング窓をかけ、10次の自己相関
分析が行われる。その後LPC分析部16で前記自己相
関係数から10次のLPC分析を行い、線型予測係数が
求められる。この線型予測係数から16次までのLP、
Cヶプヌトラム係数及び16次までのLPC相関係数が
特徴パラメータ計算部17で計算される。
このフレームごとに計算されたLPCケプストラム係数
とLPC相関係数は入力音声の特徴ベクトルとして、こ
れと記憶部18にあらがじめ蓄えられている代表特徴ベ
クトルとの距離がWI、R尺度で距離計算部19で計算
される。これら代表層徴ベクトルもLPCケプストラム
係数とLPC相関係数の形で蓄えられている。代表特徴
ベクトルのうちWLR尺度で入力ベクトルにもっとも近
い代表特徴ベクトル番号が最小距離ベクトル抽出部21
から出力される。
第1図の説明に戻ってDPマツチング部22では、距離
マトリックス記憶部23にあらかじめ蓄エラれている代
表特徴ベクトル間の距離マトリックス[)=(dij)
を用いて入力音声の代表特徴ベクトル番号(i)と、標
準パターン記憶部24に記憶すしている標準パターンの
代表特徴ベクトル番号(j)とのWLR尺度の距離di
jをそのたびごとに計算することなしに、距離マトリッ
クスDの要素(’+J)を検索してdijを求め、この
距離値dijを用いてDPマツチングを実行し、入力音
声と標準パターンとの距離を計算する。
つまシ従来においては単語入力音声の特徴ベクトルの時
系列と、単語標準音声の特徴ベクトルの時系列との時間
正規化パターンマツチングを、これら両時系列の特徴ベ
クトル間の距離を要素とする距離マトリックスを作って
行っていた。しかしこの発明では入力音声の特徴ベクト
ルの時系列は代表特徴ベクトル番号に変換され、標準音
声も代表特徴ベクトル番号として記憶されてあシ、代表
特徴ベクトルは有限個、例えば512個であシ、この5
12個の特徴ベクトル間の各距離を予め計算して、例え
ば読出し専用メモリの距離マトリックス記憶部23に記
憶しておく。従ってDPマツチング部22での入力音声
特徴ベクトル番号系列と、標準音声特徴ベクトル番号系
列との距離マトリックスの各要素を、距離マトリックス
記憶部23を索引することによシ、いちいち計算するこ
となく直ちに得ることができる。
このDPマツチング部22で入力音声とすべての標準音
声との距離が計算され、その最小のものが単語決定部2
5で決定され、対応する標準音声の単語名が出力端子2
6に出力される。
上記の実施例ではLPC分析に基づいてWLR尺度及び
全数探索符号化法によシベクトル量子化を行ったが、距
離尺度としてLPCケプストラム距離、最大スペクトル
距離、相関距離を用いても同様に実施できる。また、L
PC分析のかわシにバンドパスフィルターの出力を用い
ても同様にして実行できることは言うまでもない。また
、入力音声のベクトル符号化の手法として全数探索符号
化法(FSC)のかわシに2分岐木による符号化法(B
TC)を用いても同様に実現できる。更に例えば512
個の代表特徴ベクトルに対し、32個の中間ベクトルを
選定し、各代表特徴ベクトルに対し、第1番目に近い中
間ベクトルと第2番目に近い中間ベクトルを求めて、こ
れら二つの中間ベクトルのラベル格報を各代表特徴ベク
トルに付けておき、入力特徴ベクトルと前記各中間ベク
トルとの距離を計算し、最も近い中間ベクトルを求め、
その中間ベクトルのラベルが与えられているすべての代
表特徴ベクトルと入力特徴ベクトルとの距離を計算し、
その最も小さいものの代表特徴ベクトルの番号を入力特
徴ベクトルの符号化出力とすることもできる。この場合
は計算量をFSC法よシも大幅に減少でき、かつ歪の値
をFSC法にはソ等しくすることができる。
〈効 果〉 この発明の認識方法を、前述の5PLIT法及びFul
l Matching法を取シあげ、単語音声認識実験
による評価を行う。認識対象′は、男性4名が発声した
日本の641都市名音声データである。距離を計算する
ために、WLR尺度及びPWLR尺度〔電子通信学会部
門別全国大会sa−6(1982−08)相用等”ベク
トル量子化と音声認識への適用″′参照〕を取υ上げる
。DPマツチングの手法としては、Staggered
 Array D P 〔日本音響学会音声研究会資料
S 82−15 (1982−06)鹿野等” Sta
ggered Array D P マツチング″参照
〕を用いる。この発明のベクトル量子化による符号化法
として、FSC法とBTC法をとD’6げる。これらの
方式の入力音声1フレーム当りの距離計算の回数を表1
に示す。
これらの方式の認識性能を表2に示す。
表    2 この実験からも、BTC法を用いたこの発明の方法では
、5PLIT法に比べて距離計算の量が、16/256
〜1 s、、”s 12に減シ、認識性能もそれ嫌ど劣
化しないことがわかる。
以上述べたように、この発明によればスペクトル間の距
離計算量を減らすことができ、認識装置の計算量を減ら
すことができる。かつ、比較的高い認識性能も達成する
ことができる。
なお第1図及び第2図における各ブロックは機能的に表
わしたものであって、これらをハードウェアとして構成
してもよく、一部又は全部を電子計算機で処理する構成
としてもよい。
【図面の簡単な説明】
第1図はこの発明による音声認識方法の実施例を示すブ
ロック図、第2図は例えばWLR尺度と全数探索符号化
を用いた場合の入力音声をベクトル量子化する構成例を
示すブロック図である。 11:入力端子、12:特徴パラメータ抽出部、13:
ベクトル量子化による符号化部、22:DPマツチング
部、23:距離マトリックス記憶部、24:単語音声標
準パターン記憶部、25:単語決定部。 特許出願人  日本電信電話公社 代理人 草野 卓

Claims (1)

    【特許請求の範囲】
  1. (1)認識対象単語の音声標準パターンを、それぞれ代
    表特徴ベクトル番号の時系列として記憶する標準パター
    ン記憶部と、上記すべての代表特徴ベクトル間の距離を
    表わす距離マトリックスを記憶する距離マトリックス記
    憶部とを用い、入力音声時系列を表わす各特徴ベクトル
    を、有限個の代表特徴ベクトル間 代表特徴ベクトル番号の時系列に変換するステップと、
    その変換された入力音声の代表特徴ベクトル番号の時系
    列と上記標準パターン記憶部の標準パターンの代表特徴
    ベクトル番号の時系列との距離を、上記距離マトリック
    スを用いて計算するステップと、その計算された入力音
    声及び標準パターン間の距離をもとにその入力音声の単
    語を決定するステップとを有する音声認識方法。
JP57210433A 1982-11-29 1982-11-29 音声認識方法 Pending JPS5999500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57210433A JPS5999500A (ja) 1982-11-29 1982-11-29 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57210433A JPS5999500A (ja) 1982-11-29 1982-11-29 音声認識方法

Publications (1)

Publication Number Publication Date
JPS5999500A true JPS5999500A (ja) 1984-06-08

Family

ID=16589237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57210433A Pending JPS5999500A (ja) 1982-11-29 1982-11-29 音声認識方法

Country Status (1)

Country Link
JP (1) JPS5999500A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60237496A (ja) * 1984-05-10 1985-11-26 株式会社リコー 音声認識方法及びその装置
JPS64996A (en) * 1987-06-24 1989-01-05 A T R Jido Honyaku Denwa Kenkyusho:Kk Voice recognition system using vector quantization
WO2007015489A1 (ja) * 2005-08-01 2007-02-08 Kyushu Institute Of Technology 音声検索装置及び音声検索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60237496A (ja) * 1984-05-10 1985-11-26 株式会社リコー 音声認識方法及びその装置
JPS64996A (en) * 1987-06-24 1989-01-05 A T R Jido Honyaku Denwa Kenkyusho:Kk Voice recognition system using vector quantization
WO2007015489A1 (ja) * 2005-08-01 2007-02-08 Kyushu Institute Of Technology 音声検索装置及び音声検索方法
JP4961565B2 (ja) * 2005-08-01 2012-06-27 国立大学法人九州工業大学 音声検索装置及び音声検索方法

Similar Documents

Publication Publication Date Title
US4720863A (en) Method and apparatus for text-independent speaker recognition
US5056150A (en) Method and apparatus for real time speech recognition with and without speaker dependency
Buzo et al. Speech coding based upon vector quantization
US5353408A (en) Noise suppressor
AU5958599A (en) Automatic speech/speaker recognition over digital wireless channels
KR100298300B1 (ko) 포만트유사도측정에의한피솔라를이용한음성파형부호화방식
JPS634200B2 (ja)
JP2004523788A (ja) 音声認識モデルの効率的な記憶のためのシステムおよび方法
JPH01997A (ja) ベクトル量子化を用いた音声認識方式
Yuan et al. Binary quantization of feature vectors for robust text-independent speaker identification
US5943647A (en) Speech recognition based on HMMs
JP2006171751A (ja) 音声符号化装置及び方法
JPH01996A (ja) ベクトル量子化を用いた音声認識方式
JPH01998A (ja) スペクトログラムの正規化方法
US7298783B2 (en) Method of compressing sounds in mobile terminals
JPS5999500A (ja) 音声認識方法
KR100901640B1 (ko) 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
JP3088163B2 (ja) Lsp係数の量子化方法
JP2709926B2 (ja) 声質変換方法
JPH10254473A (ja) 音声変換方法及び音声変換装置
JPH07111456A (ja) 音声圧縮方法および装置
JPH04369698A (ja) 音声認識方式
JPS5999496A (ja) ベクトル量子化法
JPH08123490A (ja) スペクトル包絡量子化装置
KR100701253B1 (ko) 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치