JP3012994B2 - 音韻識別方法 - Google Patents

音韻識別方法

Info

Publication number
JP3012994B2
JP3012994B2 JP2242897A JP24289790A JP3012994B2 JP 3012994 B2 JP3012994 B2 JP 3012994B2 JP 2242897 A JP2242897 A JP 2242897A JP 24289790 A JP24289790 A JP 24289790A JP 3012994 B2 JP3012994 B2 JP 3012994B2
Authority
JP
Japan
Prior art keywords
power
vector
input
code
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2242897A
Other languages
English (en)
Other versions
JPH04122999A (ja
Inventor
敬 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2242897A priority Critical patent/JP3012994B2/ja
Priority to EP91308334A priority patent/EP0475759B1/en
Priority to US07/757,964 priority patent/US5202926A/en
Priority to DE69128582T priority patent/DE69128582T2/de
Publication of JPH04122999A publication Critical patent/JPH04122999A/ja
Application granted granted Critical
Publication of JP3012994B2 publication Critical patent/JP3012994B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音韻識別方法に関するものである。
〔従来技術〕
従来この種の技術としては、“相互情報量を基準とす
るフレーム単位の音韻情報の評価”電子情報通信学会
音声研究会 SP−103(1988)に開示されたものがあ
る。
音声認識の分野で現在最も精力的に研究されている手
法の1つに音韻識別処理を用いた認識手法がある。音韻
識別処理とは入力された音声を音韻の系列(ほぼ発音記
号に等しい)に変換するものである。このように音声を
音韻系列に変換した後は、例えば単語辞書や文法規則等
を用いて最も適切と思われる文字列(文章)に変換して
いく。
音韻識別を行なう利点は、音響レベルの処理と文字列
の処理を切り離すことで語彙の拡張、認識対象文型の拡
張が自在にできることにある。
第8図は従来の音声識別法を実施する装置の構成を示
すブロック図である。同図において、201は音声入力端
子、202は分析部、203はパワーベクトル算出部、204は
パワーベクトルVQ部、205はパワーベクトル符号帳、206
は特徴ベクトルVQ部、207は特徴ベクトル符号帳、209は
音韻変換部、210は音韻テーブルである。
音声入力端子201から入力された音声は分析部202にお
いて、特徴を表わす特徴ベクトルに変換される。特徴ベ
クトルiとしては、中心周波数の異なるJ個のバンドパ
スフィルタ群によって抽出された帯域内周波数成分をフ
レームと呼ばれる小時間毎に取り出したものを使用す
る。
ここでiはフレーム番号、jはバンドパスフィルタの番
号である。
更に、分析部202ではフレーム毎のパワーPiも同時に
算出する。ここで説明を簡単にするため、音声始端のフ
レーム番号を0、音声の終端のフレーム番号をIとする
(i=…−2,−1,0,1,2,…,I,I+1,I+2,…)。
パワーベクトル算出部203では隣接フレームのパワーP
iを結合して得られるパワーベクトル を算出する。
ここで、nは隣接フレームの幅である。
パワーベクトルVQ部204ではパワーベクトル符号帳205
を参照して、ベクトル量子化(VQ)し、パワーコードCi
を求める。
ここで、 はベクトルiとベクトル との距離を表わす。
パワーベクトル量子化処理は、入力音声をパワー形状
で大分類するものであり、大分類結果がパワーコードCi
となる。
はパワーコードベクトル、mはパワーコード番号であ
る。
ここでMはパワーベクトル符号帳サイズである。
特徴ベクトルVQ部206では特徴ベクトル符号帳207に基
づいて特徴ベクトルiのベクトル量子化を行なう。ま
た、特徴ベクトル符号帳207にはパワーコード別に符号
帳が格納されている。言い換えるとパワーベクトル符号
帳サイズM個分の符号帳があることになる。
特徴ベクトル量子化処理は、パワーベクトル量子化処
理の大分類とは逆に音声の細かな特徴に基づいた詳細分
類を行なうものである。
先ず、パワーコードCiに対した特徴ベクトル符号帳を
特徴ベクトル符号帳207から選択する。このことは言い
換えると大分類結果を考慮して、詳細識別用辞書を適切
なものに切り替えることに相当する。この選択された符
号帳を使って量子化(VQ)を行なう。今c=Ciとする
と、特徴コードZiは次式であらわされる。
ここで はパワーコードcに対応する特徴コードベクトル、rは
特徴ベクトルコードである。
R(c)はパワーコードcに対応する特徴ベクトル符号
サイズである。
音韻変換部209では、このCi、Ziから音韻記号Liに変
換する。この処理について種々の方法が考えられるが、
ここでは最も簡単なテーブルルックアップ方式について
説明する。先ず音韻テーブル210の構成例を第9図に示
す。パワーコードCi=1,特徴コードZi=1の時はこの表
より音韻記号Liはaとなる。また、Ci=2,Zi=3ではLi
=eと変換される。
このようにして入力音声から音韻記号列に変換され
る。
〔発明が解決しようとする課題〕
音韻識別処理では音声の種々のキーを効果的に捉えて
識別しなければ、高い識別能力が得られない。人間が音
声を聞き分ける場合、音声の静的情報、即ちある瞬間の
音の強さ、音色(スペクトル)の違いはもちろんのこ
と、音声の動的情報、音の強さやスペクトルの時間的変
化が重要なキーとなねることは種々の実験でも実証され
ている。上述した従来の音韻識別方法では、パワーベク
トル なる特徴量を用いて音韻識別のキーの1つであるパワー
の変化を捉えている。またスペクトルの静的な情報も特
徴ベクトル (即ちスペクトル)を考慮している。
しかしながら、上記従来の音韻識別方法においては、
類似した音韻を識別する最大のキーである音声のスペク
トルの変化を全く考慮しておらずこのため十分な音韻識
別能力が得られないという問題があった。
本発明は上述の点に鑑みてなされたもので、類似して
音韻を識別する最大のキーである音声のスペクトルの変
化を考慮して高い識別性能が得られる音韻識別方法を提
供することを目的とする。
〔課題を解決するための手段〕
上記課題を解決するため本発明の音韻識別方法は、下
記の(a)乃至(g)の手段を採るようにした。
(a)入力音声を周波数分析し、該入力音声の周波数成
分のベクトルである特徴ベクトルと該入力音声の強さを
表わすパワーを、フレームと称する一定時間間隔で算出
する分析と、 (b)隣接フレームの前記音声パワーを結合して得られ
るパワーベクトルを算出する処理と、 (c)隣接フレームの前記特徴ベクトルを結合して得ら
れた時系列特徴ベクトルを算出する処理と、 (d)識別しようとする入力音声に対して前記(a)か
ら(c)までの処理により、入力パワーパタン及び入力
時系列特徴パターンを作成する処理と、 (e)前記入力パワーパタンに対して、予め多数の音声
データを作成しておいたパワーベクトル符号帳を用いて
ベクトル量子化し、入力パワーコードを求める処理と、 (f)前記入力時系列特徴パタンに対して、対応するフ
レームの入力パワーコードに応じた時系列特徴のベクト
ル符号帳を用いてベクトル量子化し、入力時系列特徴コ
ードを求める処理と、 (g)前記入力パワーコード及び入力時系列特徴コード
からフレーム毎に音韻の尤度を求める処理。
〔作用〕
本発明によれば、音声の静的情報、即ちある瞬間の音
のパワー、スペクトルの違いはもちろんのこと、音声の
静的情報、パワー変化をパワーベクトルで、スペクトル
の変化は時系列特徴ベクトルで捉える。更に、これらの
両特徴をパワーベクトルを1段目に、時系列特徴ベクト
ルを2段目に用いる階層的識別を行なうことにより、各
々の特徴量を別々に用いるよりも効率的でしかも高い音
韻識別性能を得ることができる。
〔実施例〕
以下、本発明の実施例を図面に基づいて説明する。
第1図は本発明の音韻識別方法を実施する装置構成を
示すブロツク図である。同図において、101は音声入力
端子、102は分析部、103はパワーベクトル算出部、104
はパワーベクトルVQ部、105はパワーベクトル符号帳、1
06は時系列特徴ベクトル生成部、107は時系列特徴ベク
トルVQ部、108は時系列特徴ベクトル符号帳、109は音韻
変換部、110は音韻テーブルである。
第2図は入力音声信号パワー例を示す図、第3図は入
力音声信号パタン例を示す図、第4図は周波数スペクト
ルの時間的変化例を示す図、第5図はスペクトルの時系
列パターン例を示す図、第6図はパワーベクトル符号帳
例を示す図、第7図は時系列特徴ベクトル符号帳例を示
す図である。
第1図の音声入力端子101から、入力される音声信号
は分析部102において特徴を表わす特徴ベクトルの時系
列に変換される。特徴ベクトル導出方法には、中心周波
数が少しずつ異なる複数のバンドパスフィルタ群を用い
る方法や、FFT(高速フーリェ変換)によるスペクトル
分析を用いるもの等々が考えられるが、ここではバンド
パスフィルタ群を使用する方法を例に挙げる。特徴ベク
トル としては、中心周波数の異なるJ個のバンドパスフィル
タ群によって抽出した帯域内周波数成分を対数変換し、
フレームと呼ばれる小時間毎に取り出したものを使用す
る。
ここでiはフレーム番号Jはバンドパスフィルタ番号で
ある。更に分析部102ではフレーム毎のパワーPiも同時
に算出する。パワーPi次式で計算される。
ここで簡単にするため、音声始端のフレーム番号を0、
音声の終端のフレーム番号をIとする。(i=…−2,−
1,0,1,2,…I,I+1,I+2,…) パワーベクトル算出部103では隣接フレームのパワーP
iを結合してパワーベクトル を算出する。
ここでnは隣接するフレーム幅である。
パワーベクトルVQ部104では、第5図に示すようなパ
ワーベクトル符号帳105を参照して、ベクトル量子化(V
Q)し、パワーコードCiを求める。
ここで はベクトルiとベクトル との距離を表わす。パワーベクトル量子化処理は、入力
音声を第2図に示すようなパワー形状で大分類するもの
であり、大分類結果が第3図示すようなパワーコードCi
となる。ymはパワーコードベクトル、mはパワーコード
番号である。
ここでMはパワーベクトル符号帳サイズである。
時系列特徴ベクトル生成部106では隣接フレームの特
徴ベクトル を結合して得れる時系列特徴ベクトルiを生成する。
ここでkは隣接フレーム幅である。
時系列特徴ベクトルVQ部107では第7図に示すような
時系列特徴ベクトル符号帳108に基づいて時系列特徴ベ
クトル のベクトル量子化(VQ)を行なう。また、時系列特徴ベ
クトル符号帳108にはパワーコード別に符号帳が格納さ
れている。言い換えるとパワーベクトル符号帳サイズM
個分の符号帳があることになる。時系列特徴ベクトル量
子化処理は、上記パワーベクトル量子化処理とは逆に、
音声の細かな特徴、そしてその変化に基づいた詳細分類
を行なうものである。
先ずパワーコードCiに対応した時系列特徴ベクトル符
号帳を時系列特徴ベクトル符号帳108から選択する。こ
のことを言い換えると大分類結果を考慮して、詳細識別
辞書を適切なものに切り替えることに相当する。この選
択された符号帳を使って量子化(VQ)を行なう。
今、c=Ciとすると、特徴コードZiは次式で表わされ
る。
ここで(c)はパワーコードcに対する時系列特徴コ
ード番号である。
R(c)はパワーコードcに対応する時系列特徴ベクト
ル符号帳サイズである。
音韻変換部109では、このパワーコードCi、特徴コー
ドZiから音韻記号Liに変換する。この処理につていは種
々の方法が考えられるが、ここでは最も簡単なテーブル
ルックアップ方式について説明する。第9図に示す音韻
テーブル110において、パワーコードCi=1、特徴コー
ドZi=1の時は、音韻記号Liはaとなる。また、パワー
コードCi=2、特徴コードZi=2の時は音韻記号Liはe
となる。
このようにして入力音声から音韻記号列に変換され
る。
なお、音韻テーブル110の作成方法は種々考えられる
が、その1手法を簡単に箇条書で説明する。
(a)予め多数の音声データに対して、パワーベクトル
と時系列特徴ベクトルを算出し、各々パワーベクトルデ
ータ、時系列特徴データとして記憶する。
(b)パワーベクトルデータをクラスタリングし、パワ
ーベクトル符号帳を作成する。
(c)パワーベクトルデータをパワーベクトル符号帳を
用いてベクトル量子化し、パワーコードデータを作成す
る。
(d)パワーコードデータ中、同一パワーコード番号が
付けられたフレームに対応する時系列特徴ベクトルデー
タをクラスタリングし、時系列特徴符号帳を作成する処
理をパワーコードの数だけ繰り返す。
(e)時系列特徴ベクトルデータに対して、対応するパ
ワーコードから定まる時系列特徴ベクトル符号帳を用い
てベクトル量子化し、時系列特徴コードデータを求め
る。
(f)音声データに予め視察等で与えておいた音韻コー
ドデータと、時系列特徴データから両コード間の対応関
係をあらわす音韻テーブル110を作成する。
〔発明の効果〕
以上説明したように本発明によれば、音声の静的情
報、即ちある瞬間の音のパワー、スペクトルの違いはも
ちろんのこと、音声の静的情報、パワー変化をパワーベ
クトルで、スペクトルの変化は時系列特徴ベクトルで捉
え、更に、これらの両特徴をパワーベクトルを1段目
に、時系列特徴ベクトルを2段目に用いる階層的識別を
行なうことにより、各々の特徴量を別々に用いるよりも
効率的でしかも高い音韻識別性能を得ることができると
いう優れた効果が得られる。
【図面の簡単な説明】
第1図は本発明の音韻識別方法を実施する装置の構成を
示すブロツク図、第2図は入力音声信号パワー例を示す
図、第3図は入力音声信号パタン例を示す図、第4図は
周波数スペクトルの時間的変化例を示す図、第5図はス
ペクトルの時系列パターン例を示す図、第6図はパワー
ベクトル符号帳例を示す図、第7図は時系列特徴ベクト
ル符号帳例を示す図、第8図は従来の音韻識別方法を実
施する装置の構成を示すブロツク図、第9図は音韻テー
ブル例を示す図である。 図中、101……音声入力端子、102……分析部、103……
パワーベクトル算出部、104……パワーベクトルVQ部、1
05……パワーベクトル符号帳、106……時系列特徴ベク
トル生成部、107……時系列特徴ベクトルVQ部、108……
時系列特徴ベクトル符号帳、109……音韻変換部、110…
…音韻テーブル。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI H03M 7/30 B (56)参考文献 特開 昭64−997(JP,A) 特開 昭62−72000(JP,A) 特開 昭63−40200(JP,A) 特開 昭62−254197(JP,A) 特開 昭60−19199(JP,A) 特開 昭59−17200(JP,A) 電子通信学会技術研究報告 SP86− 77(1986−12−19)「大語彙単語音声認 識におけるスペクトル動特性を用いた単 語予備選択」p.49−56 IEEE Transactions on Acoustics,Spee ch,and Signal Proc essing,Vol.ASSP−34, No.1,Feburary 1986," Speaker−Independen t Isolated Word Re cognition Using Dy namic Features of Speech Sepctrum”, p.52−59 日本音響学会講演論文集(昭和61年10 月)1−3−17 p.33−34 電子通信学会論文誌’85/3,Vo l.J68−D No.3「パワーとスペ クトルの一括ベクトル量子化による単語 音声認識」p.316−322 (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 - 9/20 H03M 7/30 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】(a)入力音声を周波数分析し、該入力音
    声の周波数成分のベクトルである特徴ベクトルと該入力
    音声の強さを表わすパワーを、フレームと称する一定時
    間間隔で算出する分析と、 (b)隣接フレームの前記音声パワーを結合して得られ
    るパワーベクトルを算出する処理と、 (c)隣接フレームの前記特徴ベクトルを結合して得ら
    れた時系列特徴ベクトルを算出する処理と、 (d)識別しようとする入力音声に対して前記(a)及
    び(c)の処理により、入力パワーパタン及び入力時系
    列特徴パターンを作成する処理と、 (e)前記入力パワーパタンに対して、予め多数の音声
    データを作成しておいたパワーベクトル符号帳を用いて
    ベクトル量子化し、入力パワーコードを求める処理と、 (f)前記入力時系列特徴パタンに対して、対応するフ
    レームの入力パワーコードに応じた時系列特徴のベクト
    ル符号帳を用いてベクトル量子化し、入力時系列特徴コ
    ードを求める処理と、 (g)前記入力パワーコード及び入力時系列特徴コード
    からフレーム毎に音韻の尤度を求めることを特徴とする
    音韻識別方法。
JP2242897A 1990-09-13 1990-09-13 音韻識別方法 Expired - Fee Related JP3012994B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2242897A JP3012994B2 (ja) 1990-09-13 1990-09-13 音韻識別方法
EP91308334A EP0475759B1 (en) 1990-09-13 1991-09-12 Phoneme discrimination method
US07/757,964 US5202926A (en) 1990-09-13 1991-09-12 Phoneme discrimination method
DE69128582T DE69128582T2 (de) 1990-09-13 1991-09-12 Methode zur Phonemunterscheidung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2242897A JP3012994B2 (ja) 1990-09-13 1990-09-13 音韻識別方法

Publications (2)

Publication Number Publication Date
JPH04122999A JPH04122999A (ja) 1992-04-23
JP3012994B2 true JP3012994B2 (ja) 2000-02-28

Family

ID=17095846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2242897A Expired - Fee Related JP3012994B2 (ja) 1990-09-13 1990-09-13 音韻識別方法

Country Status (1)

Country Link
JP (1) JP3012994B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
IEEE Transactions on Acoustics,Speech,and Signal Processing,Vol.ASSP−34,No.1,Feburary 1986,"Speaker−Independent Isolated Word Recognition Using Dynamic Features of Speech Sepctrum",p.52−59
日本音響学会講演論文集(昭和61年10月)1−3−17 p.33−34
電子通信学会技術研究報告 SP86−77(1986−12−19)「大語彙単語音声認識におけるスペクトル動特性を用いた単語予備選択」p.49−56
電子通信学会論文誌’85/3,Vol.J68−D No.3「パワーとスペクトルの一括ベクトル量子化による単語音声認識」p.316−322

Also Published As

Publication number Publication date
JPH04122999A (ja) 1992-04-23

Similar Documents

Publication Publication Date Title
JP2597791B2 (ja) 音声認識装置及び方法
Biswas et al. Admissible wavelet packet features based on human inner ear frequency response for Hindi consonant recognition
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
JPH036517B2 (ja)
Shaikh Naziya et al. Speech recognition system—a review
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
EP0292929B1 (en) Method of feature extraction and recognition of voice and recognition apparatus
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Deiv et al. Automatic gender identification for hindi speech recognition
JP3012994B2 (ja) 音韻識別方法
Kim et al. Speaker recognition using MPEG-7 descriptors.
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Rahman et al. Continuous bangla speech segmentation, classification and feature extraction
Jalalvand et al. A classifier combination approach for Farsi accents recognition
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
Kaur et al. Speech based retrieval system for Punjabi language
Anggrayni et al. HMM-based speech synthesis system with expressive Indonesian speech corpus
Deshwal et al. Language Identification Performance Evaluation Using Spectral Processing
JP2658426B2 (ja) 音声認識方法
Shukurov et al. The Effectiveness of the Implementation of Speech Command Recognition Algorithms in Embedded Systems
JPH0323920B2 (ja)
Yamamoto et al. Speech recognition under noisy environments using segmental unit input HMM

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees