JPH0221597B2 - - Google Patents

Info

Publication number
JPH0221597B2
JPH0221597B2 JP57136601A JP13660182A JPH0221597B2 JP H0221597 B2 JPH0221597 B2 JP H0221597B2 JP 57136601 A JP57136601 A JP 57136601A JP 13660182 A JP13660182 A JP 13660182A JP H0221597 B2 JPH0221597 B2 JP H0221597B2
Authority
JP
Japan
Prior art keywords
speech
frame
power
spectrum
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57136601A
Other languages
English (en)
Other versions
JPS5926798A (ja
Inventor
Kyoaki Aikawa
Kyohiro Kano
Masahide Sugyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP57136601A priority Critical patent/JPS5926798A/ja
Publication of JPS5926798A publication Critical patent/JPS5926798A/ja
Publication of JPH0221597B2 publication Critical patent/JPH0221597B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 この発明は入力音声の特徴量ベクトルの時系列
と、標準パタンの特徴量ベクトルの時系列との類
似度を、これらの時系列の要素間の距離に基づき
時間正規化マツチングにより求める音声認識装置
に関するものである。
<背 景> 音声のパワーとスペクトルを用いて単語音声認
識を行なうと、スペクトルを用いて認識を行なう
場合に比べて良好な認識率が得られる(例えば相
川、鹿野、古井、日本音響学会、音声研究会資料
S81−59、1981年12月22日参照)。従来の音声認
識装置では、音声のパワーとスペクトルが互いに
関連を持つにもかかわらず、音声の特徴量ベクト
ルのテンプレートは、スペクトルに関するもの
と、パワーに関するものを別個に取扱つていたた
め、効率の良い情報圧縮ができず、多くの標準パ
タン記憶容量及び処理時間を必要とした。
<発明の概要> この発明はこれらの欠点を除去するために、パ
ワー、スペクトル等を込みにしてベクトル量子化
により、ベクトルのテンプレートの抽出を行なう
ことにより、認識率を低下させることなく記憶容
量の削減及び認識処理速度の向上を可能とするも
のである。以下図面について詳細に説明する。
<実施例> 図はこの発明による音声認識装置の一例を機能
的に分解して示したものである。
この装置の動作は3段階から成つている。第1
段階はフレームテンプレートの作成であつて
LPC分析部5の出力側はスイツチSW1によりフ
レームサンプル抽出部8側に接続され、スイツチ
SW3は開放とされる。なおこゝでフレームは音
声時系列の要素でありベクトルとして表わされ
る。第2段階は単語辞書の作成であつて、スイツ
チSW1によりLPC分析部5の出力側は距離計算
部17側に接続され、距離計算部17の出力側は
スイツチSW2により単語辞書記憶部20側に接
続され、フレームテンプレート記憶部13の出力
側はオンとされたスイツチSW3により距離計算
部17に接続される。第3段階は認識動作であつ
て、スイツチSW1,SW3は第2段階と同一と
され、スイツチSW2は距離計算部17の出力を
類似度計算部23側に接続する。またスイツチ
SW4をオンとして単語辞書記憶部20を類似度
計算部23に接続する。
次に各部の動作を詳細に説明する。まず第1〜
第3の各段階に共通な部分について説明する。入
力端子1から入力された音声信号はA/D変換部
2で例えば8KHzで標本化され、12bits/サンプ
ルのデイジタル信号に変換される。そのデイジタ
ル音声信号は自己相関分析部3において16msご
とに幅32msのハミングウインドウにより切出さ
れ、自己相関係数とパワーとに変換される。この
単位がフレームである。これら自己相関係数及び
パワーは必要に応じてフイルタ4で伝送特性が例
えば(1−Z-1)のフイルタによりプリエンフア
シスをかけたあと、伝送特性が(1+0.3Z-1)の
フイルタで低域強調が行なわれる。フイルタ4の
出力はLPC分析部5で各フレームごとに10次の
予測係数が求められ、16次のLPCケプストラム
とLPC相関係数とが計算される。これらはスペ
クトルを表わすパラメータとなる。なお、パワー
は単語内最大値が1になるように正規化される。
フレームテンプレートの作成 次に第1段階のフレームテンプレートの作成の
説明に移る。フレームサンプル抽出部8では
LPC分析部5の出力中の多数のフレームサンプ
ルから5000個程度の代表的なサンプルを選ぶ。フ
レームテンプレート抽出部12では全フレームサ
ンプルをあらかじめ指定された数のグループに分
けたとき、その各グループ内のセントロイド
(Centroid:中心)と各点間の距離の和が最小と
なるようにグループ化を行ない。各グループのセ
ントロイドをフレームテンプレートとしてフレー
ムテンプレート記憶部13に記録する。セントロ
イドの抽出法は基本的にはグレイ(Gray)らの
方法(Linde、Buzo、Gray IEEE COM28)と
同じだが距離尺度としてパワーとスペクトルとの
両要因を同時に考慮できるパワー重み付け距離を
用いる。
パワー重み付け距離の例としてはパワー重み付
けWLR距離がある。フレームiとフレームjと
の距離dijは、 dij=16 〓 〓K=1 (Cik−Cjk)(rik−rjk)+Kp(Pi/Pj+Pj/Pi−
2) Cik:k次LPCケプストラム rik:k次LPC相関係数 Pi:音声のパワー Kp:パワーの重みで0.01程度が適当であ
る。
として表わされる。
こゝでグレイらのベクトル量子化法について説
明する。
まずベクトルのサンプルを多数用意する。
次にこのセントロイドCを求め、このセントロイ
ドから最も距離の遠いサンプルAと、そのAから
最も距離の遠いサンプルBとを抽出する。その
AとCとを1:2の重み付けしてセントロイドD
と、BとCとを1:2の重み付けしてセントロイ
ドEとを求め、これらを仮セントロイドとし、全
フレームをグループ化する。(各サンプルから距
離の近い仮セントロイドに属させる)。各グル
ープのセントロイドを計算する。サンプルを
で生じたセントロイドのうち最も近いものに属さ
せる。各サンプルから最も近いセントロイドへ
の距離の和の減少が一定値以下かどうかをチエツ
クする。その距離の和の減少が一定値以上なら
、、をくり返し、一定値以下ならセント
ロイド数が指定数になつたかどうかをチエツクす
る。そのセントロイド数が指定数以下ならに
移り、セントロイド数を2倍に増加し、〜の
演算を行なう。セントロイド数が指定数に達し
た場合は生成されたセントロイドをベクトルテン
プレートとする。これによりにおける距離の和
が最小となるテンプレートが生成できる。
単語辞書の作成 次に第2段階の説明に移る。第2段階では標準
パタンとなる単語辞書を作成して単語辞書記憶部
20に記憶する。単語辞書はフレームテンプレー
トの系列として表わされる。これを作成するには
標準パタンとなる音声を入力し、距離計算部17
においてこの音声の各フレームと、フレームテン
プレート記憶部13に記憶されているフレームテ
ンプレートとの距離を計算し、最も距離の近いフ
レームテンプレートの番号を割当てるという方法
をとる。
認識動作 以上により認識に必要な準備ができ、第3段階
の音声認識が可能となる。第3段階では入力音声
は第2段階と同様に各フレームとフレームテンプ
レートとの距離計算が距離計算部17で行なわ
れ、最も距離の近いフレームテンプレートの番号
を割当てフレームテンプレートの系列で表わす。
単語辞書部20内の標準パタンはフレームテンプ
レートの系列で表わされているので、入力音声を
行方向、標準パタンを列方向にとつた距離マトリ
ツクスが作成できる。これを用いて類似度計算部
23において時間正規化マツチング法(DPマツ
チング法)(例えば相川、鹿野、音響学会講演論
文集1982.3)により類似度計算を行なえば、入力
音声と標準パタンとの類似度が計算できる。これ
を単語辞書記憶部20に記憶されている標準パタ
ンのすべてについて行ない、類似度比較部24に
おいて類似度の比較を行ない、認識結果を類似度
の良い順に認識結果出力部25に例えば上位2つ
を出力する。
パワーの量子化レベルをN通りスペクトルの量
子化レベルをM通りとすると、パワーとスペクト
ルとを組合わせたテンプレート総数は、パワーと
スペクトルが独立ならN×M通り出てくるが、パ
ワーとスペクトルが関連があればN×Mより少な
いテンプレートで等価な組合せを表現できる。こ
の発明ではパワー重み付け距離尺度を用い、パワ
ーとスペクトルを統一的に扱うことにより、パワ
ー、スペクトル共に類似したフレームを、同一の
グループに属させることができるため、フレーム
テンプレート抽出時に、スペクトルとパワーが関
連を持つ場合には、より少ないフレームテンプレ
ートで等価なベクトル量子化を実現できる。この
ためフレームテンプレート記憶部13におけるフ
レームテンプレートの記憶容量を削減でき、かつ
距離計算部17における距離計算の数を減らすこ
とができる。なおフレームテンプレートは512程
度で良いことがわかつている。
<効 果> 以上説明したようにこの発明によれば、パワー
重み付け距離を用いてフレームテンプレートの抽
出を行なうことにより、パワーとスペクトルが関
連を持つ場合にはフレームテンプレートの情報圧
縮が可能であり、高い認識率を持ちながら処理速
度が高く、記憶容量が少なくて済む音声認識装置
を実現できる。また、パワー重み付け距離はスペ
クトルの歪みに強い尺度であるため、この発明は
不特定話者音声認識装置、電話機入力のための音
声認識装置に応用できる。
なお、前記実施例において、異話者の標準パ
タンを用い、テンプレート数を256にした場合、
4人の話者についての641都市名音声認識実験
の結果、平均認識率88.1%を得、量子化を行なわ
ない場合の88.2%とほゞ同等の値となり、しかも
記憶情報量としては従来の認識方法の場合の約
2.6%に過ぎなかつた。
【図面の簡単な説明】
図はこの発明による音声認識装置の一例の機能
的構成を示すブロツク図である。 1:音声信号入力端子、2:A/D変換部、
3:自己相関分析部、4:フイルタ、5:LPC
分析部、8:フレームサンプル抽出部、9:グル
ープ化部、10:セントロイド計算部、11:距
離計算部、12:フレームテンプレート作成部、
13:フレームテンプレート記憶部、14:くり
返し演算、17:距離計算部、20:単語辞書記
憶部、23:類似度計算部、24:類似度比較
部、25:認識結果出力部。

Claims (1)

    【特許請求の範囲】
  1. 1 音声をパワーとスペクトルを表わす特徴パラ
    メータから成るベクトルの時系列として生成する
    特徴抽出手段と、音声の要素となる上記ベクトル
    の多数のサンプルから、パワーとスペクトルを込
    みにしたベクトル量子化の手法により求められた
    ベクトルテンプレートの時系列として音声の標準
    パタンを記憶する記憶手段と、上記特徴抽出手段
    により得られる入力音声の特徴パラメータベクト
    ルの時系列と上記記憶手段により記憶されている
    標準パタンのベクトルテンプレートの時系列との
    類似度を時間正規化マツチング法により求め認識
    を行なう手段とを有する音声認識装置。
JP57136601A 1982-08-04 1982-08-04 音声認識装置 Granted JPS5926798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57136601A JPS5926798A (ja) 1982-08-04 1982-08-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57136601A JPS5926798A (ja) 1982-08-04 1982-08-04 音声認識装置

Publications (2)

Publication Number Publication Date
JPS5926798A JPS5926798A (ja) 1984-02-13
JPH0221597B2 true JPH0221597B2 (ja) 1990-05-15

Family

ID=15179108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57136601A Granted JPS5926798A (ja) 1982-08-04 1982-08-04 音声認識装置

Country Status (1)

Country Link
JP (1) JPS5926798A (ja)

Also Published As

Publication number Publication date
JPS5926798A (ja) 1984-02-13

Similar Documents

Publication Publication Date Title
US4624010A (en) Speech recognition apparatus
US4715004A (en) Pattern recognition system
JPH0612089A (ja) 音声認識方法
JPH01997A (ja) ベクトル量子化を用いた音声認識方式
US5864807A (en) Method and apparatus for training a speaker recognition system
Davidson et al. Multiple-stage vector excitation coding of speech waveforms
JPH0221597B2 (ja)
Malewadi et al. Development of Speech recognition technique for Marathi numerals using MFCC & LFZI algorithm
CA1277034C (en) Formant pattern matching vocoder
JPH0197997A (ja) 声質変換方法
JP2973805B2 (ja) 標準パターン作成装置
JP2989231B2 (ja) 音声認識装置
JPH0323920B2 (ja)
JP3346200B2 (ja) 音声認識装置
JP3065088B2 (ja) 音声認識装置
JPS6126680B2 (ja)
JPH0311478B2 (ja)
JPH054679B2 (ja)
Leis et al. Speech compression with preservation of speaker identity
Brown Segmentation for data reduction in isolated word recognition
JPH0311479B2 (ja)
JPS63212998A (ja) 音声認識装置
Nakano et al. Evaluation of various parameters in spoken digits recognition
JPS63109500A (ja) パタ−ン認識装置
JPH0490217A (ja) ベクトル量子化法および音声符号化復合化装置