JPH0619497A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH0619497A
JPH0619497A JP3338102A JP33810291A JPH0619497A JP H0619497 A JPH0619497 A JP H0619497A JP 3338102 A JP3338102 A JP 3338102A JP 33810291 A JP33810291 A JP 33810291A JP H0619497 A JPH0619497 A JP H0619497A
Authority
JP
Japan
Prior art keywords
similarity
dictionary
dimensional
speech
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3338102A
Other languages
English (en)
Other versions
JPH07113838B2 (ja
Inventor
Akira Ishida
明 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3338102A priority Critical patent/JPH07113838B2/ja
Publication of JPH0619497A publication Critical patent/JPH0619497A/ja
Publication of JPH07113838B2 publication Critical patent/JPH07113838B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 モデル音声認識方法において、類似度と回帰
係数の2種類の特徴量を有効なものだけに絞り込む事に
より、高い認識率を保持したままで、計算量と認識単語
辞書の容量とを削減し、ハードウェアを小型化する。 【構成】 各フレーム毎にn種類の音素あるいは音節に
対応する類似度と、n種類の音素あるいは音節に対応す
る類似度の時間変化量から求まる回帰係数とから、それ
ぞれ有効なものだけを選びN次元とM次元に減少させて
辞書を作成し、認識する。

Description

【発明の詳細な説明】
【産業上の利用分野】本発明は、不特定話者の音声認識
を行うための音声認識方法に関するものである。
【従来の技術】従来から、不特定話者の音声認識を行う
ための標準パターンを作成するには、あらかじめ多くの
話者が認識対象単語をを発声したデータを用い、人間が
目視などで音声区間を切り出して、それらを統計的に処
理してきた。この方法では、不特定話者用の認識単語辞
書を作成するために、実際に数百名の話者の発声した音
声データを使用している。最近は、不特定話者の音声認
識を行うための標準パターンの作成に、一人ないし数名
の話者が認識対象単語を発声したデータを用いて作成で
きるようになってきた。たとえば、「少数話者の発声で
単語音声の動的特徴をモデル化した不特定話者音声認識
法」(電子通信情報学会 SP91−20)に記載され
た構成が知られている。図7は、この手法の構成図であ
る。図7において、1は音響分析部、2は特徴パラメー
タ抽出部、3は類似度計算部、4は標準パターン格納
部、5は回帰係数計算部、6はパラメータ系列作成部、
7は認識部、8は辞書格納部である。標準パターン格納
部4は、あらかじめ多くの話者が発声したデータに対し
て、n個の各音素毎に、その音素の特徴を最も良く表現
する時間的位置(特徴フレーム)を求め、この特徴フレ
ームを中心とした特徴パラメータの時間パターンを使用
して作成された音素標準パターンを格納している。時間
パターンとしては、特徴フレームの前後数フレームに対
してLPCケプストラム係数(C0〜C8)を計算し、
これらを1次元に並べたパラメータ系列を求め、このパ
ラメータ系列の各要素の平均値ベクトルと要素間の共分
散行列を求め標準パターンとして格納される。辞書格納
部8には、あらかじめ一人あるいは二人以上の話者が発
声した認識対象音声を分析して上記のn個の標準パター
ンとフレーム毎に類似度計算を行なった結果得られる類
似度ベクトルの時系列と、フレーム毎に類似度ベクトル
の傾きとして求まるやはりn次元の回帰係数ベクトルの
時系列を全て辞書として登録してある。実際に音声が入
力されると音響分析部1で音響分析を行い、特徴パラメ
ータ抽出部2でLPCケプストラム係数を計算し、類似
度計算部3で標準パターン格納部4の標準パターンとの
類似度を計算し、回帰係数計算部5で各フレーム毎の類
似度の変化から回帰係数を計算し、得られた類似度及び
回帰係数をパラメータ系列作成部6のパラメータ系列作
成部で1次元の時系列にし、認識部7で辞書格納部8の
辞書を用いて認識を行う。認識においては、DPマッチ
ングと呼ばれる照合の方法を用いている。DPマッチン
グを行なう漸化式の例を(数1)に示す。ここで、辞書
の長さをJフレーム、入力の長さをIフレーム、第iフ
レームと、第jフレームの距離の関数をl(i,j)、累積類
似度をg(i,j)とする。
【数1】 DPマッチングでは、辞書と入力のすべてのフレームに
対して積和計算を行なうので、計算回数が非常に多くな
る。
【発明が解決しようとする課題】このように、上述した
従来の方法では照合のための計算回数が多いので時間が
かかり、また、辞書を格納しておく記憶領域が大きいと
いう課題を有していた。本発明は、上記課題を解決する
ものであり、高認識率を保ったまま認識単語辞書に登録
してあるパラメータ系列の個数を減少させることで、辞
書の記憶領域と認識における演算回数の両方を共に削減
し、高速な認識処理を可能にし、ハードウェア化を容易
にすることを目的とする。
【課題を解決するための手段】この目的を達成するため
に、本発明は、認識対象音声を、1名から数名の少数の
話者が発声し、分析時間(フレーム)毎に得られるm個
(mは整数)の特徴パラメータと、あらかじめ多数の話
者より作成したn種類(nは整数)の標準パターンとの
マッチングを行い、n個の類似度をフレーム毎に求め、
このn次元の類似度ベクトルで作成した時系列パターン
の中からnより小さいN個(Nは整数)を選び単語辞書
として登録し、認識させたい入力音声も同様に分析して
得られるm個の特徴パラメータと、n種類の標準パター
ンとのマッチングを行ない、n次元の類似度ベクトルの
時系列を求めて辞書に登録されているN次元の類似度ベ
クトルの時系列と照合することによって、認識対象音声
を登録した話者およびその他の入力音声を認識するよう
に構成されている。
【作用】本発明は上記構成により、1名から数名の少数
の話者が発声した音声を分析して得られる特徴パラメー
タに対して多数の話者で作成したn種類の音素や音節な
どの標準パターンとの類似度をフレーム毎に求める。こ
のn個の類似度からnより小さい数Nに減少させること
で、また、類似度の変化量として求まる回帰係数をn個
からnより小さい数Mに減少させることで、認識で最も
時間のかかる照合部分の計算回数がそれだけ減少させる
ことができ、辞書格納部の容量についても類似度がn個
からN個に、回帰係数も同様にn個からM個に減少した
分だけ小さくすることができる。
【実施例】以下、本発明の一実施例について説明する
が、その前に本発明の概略について説明する。1名から
数名の話者が発声した認識対象音声を分析して得られる
特徴パラメータと、あらかじめ多数の話者から作成した
n種類の標準パターンと分析時間(1フレーム)毎にマ
ッチングを行ない、得られるn次元の類似度ベクトルの
時系列から、さらに、有効な特徴量をN個決め、これを
辞書として登録しておく。認識させたい入力音声は、や
はり、n種類の標準パターンとマッチングを行ない、得
られるn次元の類似度ベクトルの時系列を求め、求めた
時系列の中から辞書のN個の類似度の特徴量のみと照合
を行なう。また、類似度の時間変化量として求まる回帰
係数もn個から有効な特徴量M個を選んで用いる。この
ようにして不特定話者の音声認識を行なうことで、1フ
レーム1単語あたり2×n回あった照合の計算をN+M
回に減らす事ができる。例えば、「かさ」(kasa)
と発声するような場合、/a/の部分では、/a/や/
o/などの母音部分の類似度は大きくなるが、逆に、/
k/、/t/、/s/などの子音部分の類似度は極端に
小さくなり、/a/の類似度に比べて、無視できるくら
い小さい値をとる。つまり、入力音声に対して、フレー
ム毎に多数の話者で作成したn種類の音素や音節などの
標準パターンとの類似度を求めたとき、入力とは異なる
音素や音節との類似度は極端に小さい値をとり、実際の
認識には余り貢献していないといえる。従って、類似度
の小さい要素、即ち、認識に関与しない要素を辞書の構
成要素として登録しておく必要がない。このようにする
ことで、認識で一番時間のかかる照合部分の計算回数が
少なくなり、辞書格納部の容量についても類似度および
回帰係数が減少した分だけ小さくなる。以下、本発明の
一実施例を図1と共に説明する。図1において、9は音
響分析部、10は特徴パラメータ抽出部、11は類似度
計算部、12は標準パターン格納部、13は回帰係数計
算部、14はパラメータ系列作成部、15はパラメータ
選別部、16は認識部、17は辞書格納部である。ま
た、図2はマッチングの方法を説明する概念図で、18
はインデックス部、19は類似度格納部、20は回帰係
数格納部である。パラメータ選別部15は、辞書格納部
17に入れる辞書を作成する際に、有効なものだけを選
別する。本実施例では、後述する23種類の音素に対応
する類似度の中から、その値の大きいものからN個だけ
選別して類似度部19に格納する。また、回帰係数格納
部20に格納する辞書についても、23種類の音素に対
応する回帰係数の中から絶対値の大きいものから順にM
個だけを選別して作成する。辞書格納部17において、
従来は図5および図6に示すように類似度あるいは類似
度と回帰係数のみを辞書に格納していたが、本発明では
図2および図3に示すようにインデックス部18を新た
に設け、どの音素に対応する類似度あるいは回帰係数を
残し、登録したかを記憶しておく。そして、図2のよう
に、インデックス部18からどの音素と照合の計算を行
うかを決め、インデックス部18に登録されている音素
に限って照合計算を行うことにする。そして、類似度格
納部19の類似度と回帰係数格納部20の回帰係数とを
用いて照合を行い認識する。回帰係数は類似度の時間変
化量であり、図4に示される直線の傾きで表わされる。
標準パターン格納部12には、あらかじめ多くの話者が
発声したデータから作成した23種類の音素標準パター
ンを格納している。本実施例では、/a/、/o/、/
u/、/i/、/e/、/j/、/jv/、/ju/、
/w/、/m/、/n/、/s/、/hv/、/hu
/、/p/、/t/、/k/、/c/、/b/、/d
/、/r/、/
【外1】 /、/z/の23種類の音素標準パターンを使用する。
ただし、音素/hv/は有声の/h/、音素/hu/は
無声の/h/、音素/jv/は有声子音後続の拗音、音
素/ju/は無声子音後続の拗音であるとする。音素標
準パターンは、各音素の特徴部(その音素の特徴を最も
良く表現する時間的な位置)を目視によって正確に検出
し、この特徴フレームを中心とした特徴パラメータの時
間パターンを使用して作成する。以上、本実施例の構成
を用いて212単語を発声した20名のデータに対して
認識実験を行った。20名のうちの男女各1名を212
単語を発声した辞書として登録し、残りの18名の発声
した単語を認識する。23音素の中から類似度の大きい
方から5個だけ残し、また、回帰係数についても絶対値
の大きい方から5個だけ残して作成した辞書を用いて、
認識を行ったところ95.35%の認識率が得られた。
まったく削減を行わない23音素全てを使用して作成し
た辞書を用いた認識の結果が95.64%であるから、
わずかに0.3%程度認識率が低下したことになる。こ
れに対して、辞書の記憶容量は、1フレームあたり類似
度、回帰係数ともに、23音素に対応する23種類あっ
たのに対し、各々これが5個に減り、インデックスが各
々5個追加されるので、10/23になる。そして、認
識に要する時間についても、1フレームあたりの照合回
数が減り半分以下になる。また、類似度、回帰係数とも
5個からさらに4個だけ残して同様の認識実験を行って
も、95.30%の高認識率が保持される。但し、本実
施例では、音響的パラメータとしてLPCケプストラム
のC0〜C8を、標準パターンとして23個の音素を用
いて認識を行ったときの例について説明したが、LPC
ケプストラムの次数や音素の個数を変化させても問題は
ない。さらに、標準パターンに音素の代わりに音節やV
C/CV等の音声片、VCV等の半音節を用いることも
可能である。
【発明の効果】以上のように本発明は、1名から数名の
少数の話者が発声した認識単語音声を分析して得られた
特徴パラメータに対して、あらかじめ多くの話者で作成
したn種類の標準パターンとの類似度計算を行なって類
似度を求め、n次元の類似度ベクトルのなかのN次元と
n次元回帰係数ベクトルのなかのM次元を音声認識のた
めの特徴パラメータとして辞書を登録・作成しても、不
特定話者の音声を精度良く認識することが可能となる。
また、これによって辞書は今までの半分以下の記憶容量
で済み、かつ、計算量も極めて少なくなり、そして認識
率の低下はほとんどない。このように本発明は不特定話
者用音声認識装置の実用化技術の向上に対して極めて大
きく貢献する。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識方法のブロ
ック構成図。
【図2】同実施例におけるマッチングの方法を説明する
概念図。
【図3】同実施例における辞書と入力を説明する概念
図。
【図4】同実施例における回帰係数を説明する特性図。
【図5】従来の音声認識方法における類似度ベクトルの
時系列を説明する概念図。
【図6】従来の音声認識方法における辞書と入力を説明
する概念図。
【図7】従来の音声認識方法を説明するブロック構成
図。
【符号の説明】
9 音響分析部 10 特徴パラメータ抽出部 11 類似度計算部 12 標準パターン格納部 13 回帰係数計算部 14 パラメータ系列作成部 15 パラメータ選別部 16 認識部 17 辞書格納部 18 インデックス部 19 類似度格納部 20 回帰係数格納部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 認識対象音声を、1名から数名の少数の
    話者が発声し、分析時間(フレーム)毎に得られるm個
    (mは整数)の音響的特徴パラメータと、あらかじめ多
    数の話者より作成したn種類(nは整数)の標準パター
    ンとのマッチングを行い、n個の類似度をフレーム毎に
    求め、このn次元の類似度ベクトルで作成した時系列パ
    ターンの中からnより小さいN個(Nは整数)を選び単
    語辞書として登録し、認識させたい入力音声も同様に分
    析して得られるm個の特徴パラメータと、前記n種類の
    標準パターンとのマッチングを行ない、n次元の類似度
    ベクトルの時系列を求めて辞書に登録されているN次元
    の類似度ベクトルの時系列と照合することによって、認
    識対象音声を登録した話者およびその他の入力音声を認
    識することを特徴とする音声認識方法。
  2. 【請求項2】 n種類の各類似度の時系列それぞれに対
    して類似度の時間変化量をフレーム毎に求め、この類似
    度の時間変化量のn次元ベクトルの中からnより小さい
    M個(Mは整数)を選び辞書として登録した単語辞書
    と、類似度のN次元ベクトルとを併用し認識することを
    特徴とする請求項1記載の音声認識方法。
  3. 【請求項3】 n次元の類似度ベクトルの中からN次元
    に減らす際に、値の大きい方からN個選ぶことを特徴と
    する請求項1記載の音声認識方法。
  4. 【請求項4】 n次元の類似度の時間変化量のベクトル
    の中からM次元に減らす際に、値の絶対値の大きい方か
    らM個選ぶ事を特徴とする請求項1乃至2記載の音声認
    識方法。
JP3338102A 1991-12-20 1991-12-20 音声認識方法 Expired - Fee Related JPH07113838B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3338102A JPH07113838B2 (ja) 1991-12-20 1991-12-20 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3338102A JPH07113838B2 (ja) 1991-12-20 1991-12-20 音声認識方法

Publications (2)

Publication Number Publication Date
JPH0619497A true JPH0619497A (ja) 1994-01-28
JPH07113838B2 JPH07113838B2 (ja) 1995-12-06

Family

ID=18314935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3338102A Expired - Fee Related JPH07113838B2 (ja) 1991-12-20 1991-12-20 音声認識方法

Country Status (1)

Country Link
JP (1) JPH07113838B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6154265A (en) * 1996-06-18 2000-11-28 Canon Kabushiki Kaisha Liquid crystal device and production process thereof
US6252641B1 (en) 1996-06-17 2001-06-26 Canon Kabushiki Kaisha Liquid crystal device and liquid crystal apparatus
WO2016129930A1 (en) * 2015-02-11 2016-08-18 Samsung Electronics Co., Ltd. Operating method for voice function and electronic device supporting the same

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6252641B1 (en) 1996-06-17 2001-06-26 Canon Kabushiki Kaisha Liquid crystal device and liquid crystal apparatus
US6154265A (en) * 1996-06-18 2000-11-28 Canon Kabushiki Kaisha Liquid crystal device and production process thereof
WO2016129930A1 (en) * 2015-02-11 2016-08-18 Samsung Electronics Co., Ltd. Operating method for voice function and electronic device supporting the same
US10733978B2 (en) 2015-02-11 2020-08-04 Samsung Electronics Co., Ltd. Operating method for voice function and electronic device supporting the same

Also Published As

Publication number Publication date
JPH07113838B2 (ja) 1995-12-06

Similar Documents

Publication Publication Date Title
US6236964B1 (en) Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
EP0380297B1 (en) Method and apparatus for speech recognition
US6553342B1 (en) Tone based speech recognition
US20050021330A1 (en) Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
JP2815579B2 (ja) 音声認識における単語候補削減装置
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
JPS62235998A (ja) 音節識別方式
JPH07146699A (ja) 音声認識方法
JP2955297B2 (ja) 音声認識システム
JP3444108B2 (ja) 音声認識装置
Abdo et al. Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal
Dharun et al. Voice and speech recognition for tamil words and numerals
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JPH0619497A (ja) 音声認識方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3378547B2 (ja) 音声認識方法及び装置
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP3277522B2 (ja) 音声認識方法
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP2862306B2 (ja) 音声認識装置
JP2943473B2 (ja) 音声認識方法
JP2943445B2 (ja) 音声認識方法
JP2658426B2 (ja) 音声認識方法
JP2827590B2 (ja) 音声認識装置
JPH1055195A (ja) 音声認識による話者特徴判別方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071206

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081206

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees