JPH05303391A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05303391A
JPH05303391A JP4106895A JP10689592A JPH05303391A JP H05303391 A JPH05303391 A JP H05303391A JP 4106895 A JP4106895 A JP 4106895A JP 10689592 A JP10689592 A JP 10689592A JP H05303391 A JPH05303391 A JP H05303391A
Authority
JP
Japan
Prior art keywords
phoneme
frame
similarity
unit
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4106895A
Other languages
English (en)
Inventor
Hiroshi Hasegawa
浩 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP4106895A priority Critical patent/JPH05303391A/ja
Publication of JPH05303391A publication Critical patent/JPH05303391A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力音声から特徴パラメータを計算する際、
各音韻の継続時間長の違いを反映させることにより、音
韻識別率の向上をはかる。 【構成】 特徴パラメータを計算するための単位時間
(フレーム)を複数個用意する、あるいは各音韻毎に用
意し、各フレーム長毎に特徴パラメータ時系列を計算
し、そのそれぞれに対して音韻照合を行い、最適なもの
を選ぶ。 【効果】 各音韻にとっての最適なフレーム長を用いる
ことによって、音韻認識率が向上する。また、複数のフ
レーム長によって特徴パラメータを計算することによっ
て、入力音声の時間的変動に対しても誤認識が少ない。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音韻単位の認識に基づく
音声認識装置に関するものである。
【0002】
【従来の技術】現在考案されている音声認識装置は、そ
のほとんどが音声を特徴量の時系列に変換し、その時系
列をあらかじめもっている標準パターンの時系列と比較
して認識を行うというものである(図1、図2)。特徴
量を計算する場合、通常数ミリ秒から数十ミリ秒を単位
時間(これをフレームという)とし、1フレームの時間
内では特徴量すなわち音声の波の構造は定常状態にある
と近似して、LPCケプストラム等の特徴パラメータを
計算する。そしてフレームをある時間だけずらして(こ
れをフレームシフトという)、ふたたび特徴パラメータ
を計算する。これを繰り返すことによって特徴パラメー
タの時系列が得られ、これを標準パターンと比較、類似
度を計算することによって認識が行われる。(たとえば
特開昭61-238099)しかし音声信号は本来動的な性質を
もっており、刻々とその状態は変化している。そのため
1フレームの時間長(これをフレーム長という)が長す
ぎると、例えば/p//t//k/といった短い継続時
間の子音の特徴をとらえることが難しくなる。逆にフレ
ーム長が短いと、データ数が少なくなるため特徴パラメ
ータの推定の精度が悪くなったり、音声にとって重要な
波長の長い波の成分が見えにくくなったりする、という
問題が生じてくる。
【0003】この問題を解決するために、フレーム毎の
特徴パラメータの差分ベクトルを特徴量に加え、場合に
よって差分ベクトルの方を重視する(特開平03-14516
7)等の工夫がなされているが、同じフレーム長で母音
・子音の特徴パラメータをとらえているため、子音に関
してはフレーム長が長すぎるため特徴量が隠され、母音
に関してはフレーム長が短かすぎるためパラメータの短
時間のゆらぎ等による誤認識がおこる可能性があった。
これらの問題は特徴量の差分ベクトルを用いるだけでは
解決できなかった。
【0004】
【発明が解決しようとする課題】本発明の課題は、音韻
認識率を大きく左右する特徴パラメータの計算方法を改
善し、各音韻の認識率を向上することである。
【0005】
【課題を解決するための手段】上記課題を解決するた
め、本発明の音声認識装置は、入力された音声データか
ら、単位時間(1フレーム)分のデータごとに特徴パラ
メータを計算し、その特徴パラメータ時系列と、音韻辞
書部における各音韻の標準パターンとの類似度を認識部
で求め、類似度の高い音韻を認識結果とする音声認識装
置において、あらかじめ特徴パラメータを計算するため
の単位時間長(フレーム長)を複数個(N個)備え、そ
れぞれの音韻毎に、フレーム長L1により作成した標準
パターンP(1)から、フレーム長LNにより作成した
標準パターンP(N)までのN個ずつの標準パターンを
持つ音韻辞書部を備え、入力された未知音声から、前記
のN個のフレーム長L1〜Lnを用いてN個の特徴パラメ
ータ時系列S(1)〜S(N)を計算する特徴パラメー
タ計算部と、各音韻毎に、N個すべての特徴時系列に対
して、時系列S(i)と前記標準パターンP(i)の類
似度を計算し、得られたN個の類似度の最大値をその音
韻の類似度として出力する類似度計算部と、前記類似度
計算部で出力された各音韻ごとの類似度を比較し、最も
類似度の高い音韻を認識結果として出力する音韻認識部
と、を備えることを特徴とする。
【0006】また、入力された音声データから、単位時
間(1フレーム)分のデータごとに特徴パラメータを計
算し、その特徴パラメータ時系列と、音韻辞書部におけ
る音韻の標準パターンとの類似度を音韻認識部で求め、
類似度の高い音韻を認識結果とし、前記音韻認識結果か
ら音韻系列を生成し、前記音韻系列と語彙辞書の内容の
類似度を求めて単語や文節を認識する音声認識装置にお
いて、あらかじめ各音韻ごとに異なる長さの単位時間長
(フレーム長)のデータから計算される特徴パラメータ
によって作成された音韻辞書部を備え、各音韻毎に最適
なフレーム長およびフレームをシフトさせる時間幅を用
いて特徴パラメータを計算する特徴パラメータ計算部
を、各音韻毎に備えることを特徴とする。
【0007】また音韻を、その継続時間長により複数の
グループに分け、個々のグループ毎に異なる長さの単位
時間長(フレーム長)のデータから計算される特徴パラ
メータによって作成された音韻辞書部を備え、各音韻グ
ループ毎に異なるフレーム長およびフレームをシフトさ
せる時間幅を用いて特徴パラメータを計算する特徴パラ
メータ計算部を備えることを特徴とする。
【0008】
【作用】本発明は以上の構成を有するので、子音に対し
ては短いフレーム長で、また母音に対しては長いフレー
ム長で計算された特徴パラメータ用いて認識を行うこと
が可能となる。
【0009】
【実施例】
(実施例1)以下本発明を実施例に基づいて詳述する。
【0010】音韻認識をおこなう場合、それぞれの音韻
の平均継続時間長が問題となる。音韻の特徴は、おおき
く「語頭(前の音韻の影響をうける部分)」「語中(そ
の音韻固有の部分)」「語尾(後の音韻の影響をうける
部分)」の3つに分けられる。文献(音響学会講論集1-
2-14(1988-03))によると、特に短い/t//r/など
の子音は語頭・語中・語尾の平均継続時間長は15ミリ
秒程度しかないのに対し、母音の方はそれぞれ100ミ
リ秒を越える平均時間長をもつ。このように継続時間長
に大きなばらつきがある様々な音素を認識するため、本
発明ではあらかじめ特徴パラメータを計算するためのフ
レーム長を複数用意することで対処する。
【0011】図3は本発明の構成を示す図である。サン
プリング周波数20kHzで16ビットで量子化された
入力音声(301)から、特徴パラメータ計算部(30
3)において、特徴パラメータを計算する。特徴パラメ
ータ計算部(303)は、あらかじめ用意されているN
個のフレーム長Li(i=1...N)が記述されているフレーム
長テーブル(302)に従って、N個の特徴パラメータ
時系列S(1)〜S(N)を生成する。この手順を説明したの
が図2である。201はデジタル化された入力音声信号
である。まずこの入力信号の先頭からフレーム長L
i(203)分のデータに注目し、この中のデータを定
常状態にあるとみなして特徴パラメータを計算する。本
実施例においては12次の線形予測係数LPCから16
次のLPCケプストラム係数を計算して16次元の特徴
ベクトル(202)とした。次にフレームをシフト(2
04)させ、同様に特徴ベクトルを計算する。この操作
を入力信号のおわりまでくりかえすことによって、フレ
ーム長Liを用いた計算した特徴パラメータ時系列S(i)
が得られる。これを全てのフレーム長に関して同様に求
める。その結果N個のパラメータ時系列S(1)からS(N)
が得られる。本実施例においてはN=5とし、L1=3.2,
2=6.4,L3=12.8,L4=25.6,L5=51.2(いずれもミリ
秒)とした。
【0012】一方あらかじめ個々の音韻モデルに関し
て、L1からLNのフレーム長から計算した特徴パラメー
タを用いて、N個の標準パターンを作成しておく。これ
は、あらかじめ発話内容と音韻の区間が既知の音声デー
タベースを用い、それぞれのフレーム長毎に計算した特
徴パラメータ時系列を、個別の隠れマルコフモデル(H
MM)P(1)〜P(N)を用意してトレーニングすることに
よって作成した。こうして得られた音韻数M×モデル数
NのHMMモデルにより、音韻辞書部(304)を構成
した。
【0013】音韻類似度計算部(305)においては、
まず各音韻毎に特徴パラメータ時系列S(1)は標準パタ
ーンP(1)を用い、S(2)にはP(2)を用い、以下同様に
S(N)にはP(N)を用いて音韻照合を行う。そして、あら
かじめ定めたしきい値を上回る存在確率をもつもののみ
を、音韻認識部(306)に出力する。
【0014】音韻認識部(306)では、音韻類似度計
算部(305)から出力されたすべての音韻の存在位置
・存在確率を調べ、存在位置が重なっているものに関し
ては存在確率の大きなもののみを残す。こうして得られ
た音韻列を認識結果(307)として出力する。
【0015】本発明により、フレーム長を固定した場合
の音韻認識率と比較して、認識率の向上が認められた。
【0016】(実施例2)図4は本発明の構成を示す図
である。402は、各音韻を認識する場合最も適当なフ
レーム長およびフレームシフトの時間長を記述した表で
ある。この表の値は以下のような実験によりあらかじめ
求めておく。
【0017】ここでは音韻/a/に関して説明する。音
声データベースから音韻/a/の発話区間を切り出し、
これを様々なフレーム長・フレームシフト時間長(N
個)から計算した特徴量パラメータで、N個の標準パタ
ーンを作成する。ここではHMM音韻モデルをそれぞれ
の標準パターン毎に作成した。そののち、それぞれのH
MM音韻モデルを用いて、音韻/a/の認識率および/
a/以外の音韻を/a/以外の音韻を/a/として認識
した誤認識率を調べ、音韻/a/の識別率が最も高いも
のを音韻/a/の最適フレーム長・フレームシフトとし
た。以下全ての音韻に関して同様の実験を行い、音韻最
適フレーム長テーブル(402)を作成した。
【0018】このようにして作成された最適フレーム長
テーブル(402)を用いて、サンプリング周波数20
kHzで16ビットで量子化された入力音声(401)
から、特徴パラメータ計算部(403)において、各音
韻毎に特徴パラメータを計算する。一般に最適フレーム
長・シフトは音韻毎に異なるため、/a/の認識のため
に作成された特徴パラメータ時系列からは、音韻/a/
だけが照合の対象となる。音韻認識部(405)では、
音韻/a/のために計算された特徴パラメータ時系列か
ら音韻/a/を照合し、同様に音韻/i/のための特徴
パラメータ時系列から音韻/i/を照合し、以下同様に
全ての音韻を、それぞれ別々に計算された特徴パラメー
タ時系列から照合する。こうして照合された音韻が、認
識結果(406)として出力される。
【0019】本発明により、従来方法と比較して演算時
間をほとんど増加させることなく、音韻認識率を向上す
ることができた。
【0020】(実施例3)また、豊富なデータから厳密
な実験を行えば、最適なフレーム長・シフトは各音韻毎
に異なるが、一般には音韻を、その継続時間長に応じて
3ないし4つのグループに分けて、それぞれのグループ
毎に共通のフレーム長・シフトを用いれば、期待した効
果が十分得られることが多い。実施例3として、音韻を
「母音」「半母音・拗音」「破裂音」「その他の子音」
の4グループにわけ、それぞれについてはフレーム長・
シフトを共通の値とした。これにより認識率をほとんど
保ったまま、演算時間を若干短縮することができた。
【0021】
【発明の効果】本発明は複数のフレーム長から特徴パラ
メータ時系列をそれぞれ計算し、そのそれぞれから音韻
照合を行う。音声認識装置に対する入力音声は発声速
度、話者の違い等により同じ音韻でもその時間的特徴は
様々に変化する。従来はこういった入力に対してまず同
一フレーム長を用いて特徴量を計算し、その後の処理で
入力音声のばらつきを吸収するという方法がとられてい
る。これに対し本発明では特徴量を計算する段階で様々
なフレーム長を用い、その結果最適なものを音韻ごとに
選択して用いる、という手法を用いるものである。この
ため従来の方法と比較して入力音声の時間的特徴がばら
ついても、高い認識率を維持することが可能となる。
【0022】さらに、あらかじめ各音韻にとって最適な
フレーム長・フレームシフト時間長を実験によって求
め、その値を用いて音韻認識をすることによって、従来
方法と比較してより正確な音韻認識を行うことが可能で
ある。
【0023】また、最適フレーム長・フレームシフト時
間長が類似した音韻をグループ化することによって、本
手法を高速化することが可能である。
【0024】また、本発明は音声認識のデータの前処理
の部分に関するものであるため、隠れマルコフモデル
(HMM)等の公知のマッチング技術と組み合わせるこ
とによって、従来よりも高い認識率が得られる。
【図面の簡単な説明】
【図1】 従来の音声認識の処理を説明する図。
【図2】 特徴パラメータ抽出部の処理を説明する図。
【図3】 本発明の処理を説明する図。
【図4】 本発明の処理を説明する図。
【符号の説明】
201 入力音声 202 特徴パラメータベクトル 203 フレーム長 204 フレームシフト 301 入力音声 302 フレーム長の表 303 特徴パラメータ計算部 304 音韻辞書部 305 音韻類似度計算部 306 音韻認識部 307 認識結果 401 入力音声 402 音韻最適フレーム長テーブル 403 特徴パラメータ計算部 404 音韻辞書部 405 音韻認識部 406 認識結果

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声データから、単位時間
    (1フレーム)分のデータごとに特徴パラメータを計算
    し、その特徴パラメータ時系列と、音韻辞書部における
    各音韻の標準パターンとの類似度を認識部で求め、類似
    度の高い音韻を認識結果とする音声認識装置において、 あらかじめ特徴パラメータを計算するための単位時間長
    (フレーム長)を複数個(N個)備え、それぞれの音韻
    毎に、フレーム長L1により作成した標準パターンP
    (1)から、フレーム長LNにより作成した標準パター
    ンP(N)までのN個ずつの標準パターンを持つ音韻辞
    書部を備え、 入力された未知音声から、前記のN個のフレーム長L1
    〜Lnを用いてN個の特徴パラメータ時系列S(1)〜
    S(N)を計算する特徴パラメータ計算部と、 各音韻毎に、N個すべての特徴時系列に対して、時系列
    S(i)と前記標準パターンP(i)の類似度を計算
    し、得られたN個の類似度の最大値をその音韻の類似度
    として出力する類似度計算部と、 前記類似度計算部で出力された各音韻ごとの類似度を比
    較し、最も類似度の高い音韻を認識結果として出力する
    音韻認識部と、 を備えることを特徴とする音声認識装置。
  2. 【請求項2】 入力された音声データから、単位時間
    (1フレーム)分のデータごとに特徴パラメータを計算
    し、その特徴パラメータ時系列と、音韻辞書部における
    音韻の標準パターンとの類似度を音韻認識部で求め、類
    似度の高い音韻を認識結果とし、前記音韻認識結果から
    音韻系列を生成し、前記音韻系列と語彙辞書の内容の類
    似度を求めて単語や文節を認識する音声認識装置におい
    て、 あらかじめ各音韻ごとに異なる長さの単位時間長(フレ
    ーム長)のデータから計算される特徴パラメータによっ
    て作成された音韻辞書部を備え、各音韻毎に最適なフレ
    ーム長およびフレームをシフトさせる時間幅を用いて特
    徴パラメータを計算する特徴パラメータ計算部を、各音
    韻毎に備えることを特徴とする音声認識装置。
  3. 【請求項3】 音韻を、その継続時間長により複数のグ
    ループに分け、個々のグループ毎に異なる長さの単位時
    間長(フレーム長)のデータから計算される特徴パラメ
    ータによって作成された音韻辞書部を備え、各音韻グル
    ープ毎に異なるフレーム長およびフレームをシフトさせ
    る時間幅を用いて特徴パラメータを計算する特徴パラメ
    ータ計算部を備えることを特徴とする音声認識装置。
JP4106895A 1992-04-24 1992-04-24 音声認識装置 Pending JPH05303391A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4106895A JPH05303391A (ja) 1992-04-24 1992-04-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4106895A JPH05303391A (ja) 1992-04-24 1992-04-24 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05303391A true JPH05303391A (ja) 1993-11-16

Family

ID=14445211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4106895A Pending JPH05303391A (ja) 1992-04-24 1992-04-24 音声認識装置

Country Status (1)

Country Link
JP (1) JPH05303391A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002003378A1 (fr) * 2000-07-05 2002-01-10 Nec Corporation Dispositif et procede de reconnaissance vocale, et support d'enregistrement
JP2010510850A (ja) * 2006-12-01 2010-04-08 オックスフォード バイオシグナルズ リミテッド 改良された自動セグメント分割を含む生物医学信号解析方法
JP2014206642A (ja) * 2013-04-12 2014-10-30 株式会社レイトロン 音声認識装置および音声認識プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002003378A1 (fr) * 2000-07-05 2002-01-10 Nec Corporation Dispositif et procede de reconnaissance vocale, et support d'enregistrement
JP2010510850A (ja) * 2006-12-01 2010-04-08 オックスフォード バイオシグナルズ リミテッド 改良された自動セグメント分割を含む生物医学信号解析方法
JP2014206642A (ja) * 2013-04-12 2014-10-30 株式会社レイトロン 音声認識装置および音声認識プログラム

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6553342B1 (en) Tone based speech recognition
US20050021330A1 (en) Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
WO1992000585A1 (en) Continuous speech processing system
JPH0372999B2 (ja)
US6148284A (en) Method and apparatus for automatic speech recognition using Markov processes on curves
US20110218802A1 (en) Continuous Speech Recognition
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US5764851A (en) Fast speech recognition method for mandarin words
GB2240203A (en) Automated speech recognition system
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JPH05303391A (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
Ishaq Voice activity detection and garbage modelling for a mobile automatic speech recognition application
JP2766393B2 (ja) 音声認識方式
JP3291073B2 (ja) 音声認識方式
Somervuo Speech recognition using context vectors and multiple feature streams
JP2994443B2 (ja) 音声認識方式
JPH08110797A (ja) パターンマッチング装置
JPH03228100A (ja) 音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A02 Decision of refusal

Effective date: 20040727

Free format text: JAPANESE INTERMEDIATE CODE: A02