JP3115016B2 - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JP3115016B2
JP3115016B2 JP03071187A JP7118791A JP3115016B2 JP 3115016 B2 JP3115016 B2 JP 3115016B2 JP 03071187 A JP03071187 A JP 03071187A JP 7118791 A JP7118791 A JP 7118791A JP 3115016 B2 JP3115016 B2 JP 3115016B2
Authority
JP
Japan
Prior art keywords
code
probability
voice
vector
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03071187A
Other languages
English (en)
Other versions
JPH04305699A (ja
Inventor
井 利 幸 森
見 昌 克 星
勝 行 二矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP03071187A priority Critical patent/JP3115016B2/ja
Publication of JPH04305699A publication Critical patent/JPH04305699A/ja
Application granted granted Critical
Publication of JP3115016B2 publication Critical patent/JP3115016B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、不特定話者が発声した
単語音声を認識するための方法および装置に関する。
【0002】
【従来の技術】不特定話者を対象とした従来の音声認識
技術については、たとえば、「ワードスポッティング手
法を用いた不特定話者・少数語向け音声認識装置」(電
子通信情報学会 SP88−18)に記載された方法が
一般的である。
【0003】この方法では、入力された音声をまず音響
分析し、音声の特徴パラメータの時系列に変換する。一
方、あらかじめ認識装置側には、認識する単語毎にその
単語の音声の特徴を示す単語標準パターンが用意されて
いる。そして、話者の発声スピードを考慮して入力の特
徴パラメータ列を時間的に伸縮しながら、ベイズ判定に
基づく統計的距離尺度で単語標準パターンとのマッチン
グを行ない、最も距離が近いとされる単語を認識結果と
する。この単語標準パターンは、その単語の平均的な特
徴パラメータの時系列と、その分散行列によって構成さ
れている。この分散行列によって話者の声の違いを吸収
し、どんな話者の声でも認識することが可能となる。
【0004】上記の単語標準パターンの作成は以下の手
順で行なう。 (1)認識する単語集合(上記文献では10数字)につ
いて、330名が発声した単語音声データを収録し、音
声データベースを作成する。 (2)1つ1つの単語音声データに対して、スペクトル
波形などのディスプレイ表示により、人間が目視で音声
区間を検出し、単語の部分のみを切り出す。 (3)切り出された区間を音響分析し、特徴パラメータ
(LPCケプストラム係数)の時系列を求め、さらに時
間的間引きを行ない同じ時間長にする。これを単語パタ
ーンと呼ぶ。 (4)得られた単語パターンを各単語毎に集め、各パラ
メータ列の平均と共分散行列とを求める。
【0005】このベイズ判定に基づく距離計算を行なう
ための標準パターンを作成するためには、上記のような
多次元正規分布を仮定した統計分析が必要である。した
がって、この構成の標準パターンは、数百名程度の多く
の話者の音声を統計処理しなくては得られない。上記文
献の例では、単語標準パターンを作成するために、33
0名の話者が発声した単語音声データを使用している。
したがって、そのデータ作成には多大な労力が必要とな
る。
【0006】また、上記以外の不特定話者用音声認識の
既存の方法としては、マルチ標準パターンを用いる方法
が挙げられる。これは、1つの単語の標準パターンを代
表的な単語パターン複数個により構成し、認識時には、
この複数の単語パターンと入力パターンとの照合を行な
うというものである。この方法は、複数のパターンを用
いることによって不特定話者の音声を認識しようとする
ものであるが、この複数のパターンを選択するために
は、上記統計的距離尺度に基づく標準パターン作成時と
同様に、多くの音声データと膨大な作業量とを必要とす
る。
【0007】
【発明が解決しようとする課題】このように、既存の認
識方法では、認識対象の音声の標準パターン作成に、音
声データ収集や音声区間切り出し等のために多大な作業
量を必要とする。したがって、認識対象の単語や文章を
変更するのは大変困難であり、これは、語彙数が大きく
なればなるほど深刻な問題となる。
【0008】本発明は、このような従来の問題を解決す
るものであり、1名から数名の少数話者が発声した認識
対象音声を用いて不特定話者の音声認識を可能にすると
ともに、認識対象音声を容易に変更できる音声認識方法
および装置を提供することを目的とする。
【0009】
【課題を解決するための手段】本発明は、上記目的を達
成するために、入力声を分析して得られる特徴パラメー
タの時系列である特徴ベクトルに対して、あらかじめ多
数の話者で作成したパラメータ符号帳を用いて符号化を
行ない、同様に符号列に変換された少数話者の音声パタ
ーンと符号間確率テーブルの符号間の確率値を用いてマ
ッチングを行なうようにしたものである。
【0010】
【作用】本発明は、上記構成により、まず入力音声を分
析して得られる特徴ベクトルに対して、多数の話者で作
成したパラメータ符号帳を用いて符号化を行ない、分析
単位時間(以下、フレームと呼ぶ。)毎に求めた符号を
並べて符号列を作成する。そして、1名から数名の少数
話者が発生した音声を同様に符号列に変換したものを基
に作成した標準パターンとのマッチングを行ない、類似
度を計算する。その際に用いられる符号間確率テーブル
に格納された類似度(確率値)は、多数の話者で作成し
た汎用性のある値であるので、個人性の影響を受けにく
い。したがって、この確率値を基に単語の類似度を求め
ることによって不特定話者の音声を認識することができ
る。
【0011】また、どのような言葉も音素や音節の組合
せで記述できるので、上記のパラメータ符号帳と符号間
確率テーブルは1度作成しておけば十分であり、認識対
象音声を変更しても常に同じものが使用できる。従っ
て、不特定話者用の音声認識を行なうのに必要なもの
は、少数話者が発声した認識対象単語の音声データのみ
である。
【0012】以上により、簡単な手続で不特定話者用の
音声認識が可能であり、かつ、語彙の変更に対して柔軟
性のある認識装置の実現が可能になる。
【0013】
【実施例】以下、本発明の実施例について説明するが、
その前に本発明の基本的な考え方の背景について説明す
る。
【0014】人の声は有声音と無声音の2つに分類され
る。有声音は、声帯の振動として発せられた振動音が、
調音器官と呼ばれる喉頭、咽頭、舌、あご、唇などで形
成される声道を通る間に様々な変調を受けて、口から音
声として出力されるという過程で発声される。すなわ
ち、「あ」、「い」、「う」等の音韻性は声道の形状に
より与えられるのである。また、無声音は、音源が声帯
でない場合もあるが、音韻性は有声音と同様に声道の形
状によって決定される。しかし、声道を形成する喉、
舌、歯、あご、唇等の形状や寸法は人毎に異なっている
し、声帯の大きさも性別や年齢で異なる。このために、
人毎に声の違いが生じることになる。つまり、人の違い
による声の差異は調音器官の違いによるところが大き
い。
【0015】一方、声が「あ」、「い」、「う」等の音
韻としてでなく、単語や文として発せられるときは、声
道の形は時間的に変化し、その変化によって言葉が形成
される。たとえば、「赤い」(akai)と発声する場
合、声道は、あごが開き舌の後方に狭めのある/a/の
発声から、喉頭部の閉鎖と急激な開放を伴う/k/に移
り、更に再び/a/の形状に戻ってから徐々に舌を唇側
に移動し、口を閉じた/i/に移る。このような声道の
変化パターンは発声しようとしている言葉によって決る
ものであり、人の違いによる差異は少ないと考えられ
る。このように言葉としての音声を静的な声道の形状の
違いとその時間的な変化に分離して考えると、前者は話
者によってかなり異なるが、後者は比較的小さいと見る
ことが出来る。したがって、静的な声道の違いに基づく
差異を何等かの方法で正規化できれば、不特定話者の音
声認識が可能になる。
【0016】ところで、声道の形状の違いは、発せられ
た音声信号中では、周波数スペクトルの違いとして表現
される。周波数スペクトルを話者間で正規化する最も単
純な方法は、音素や音節などの短時間の音声標準パター
ンとのマッチングを行なって、発声された音声を音素や
音節などの記号列にしてしまうことである。つまり、不
特定話者用として作成された汎用の音素や音節の標準パ
ターンを用いれば、話者の違いに大きく左右されずに、
各音素や音節のどれに近いかという類似度情報を得るこ
とができるのである。言換えると、周波数スペクトルを
パターンマッチングによって音素や音節の類似度に変換
することによって、話者の静的な声道の違いに基づく差
異を正規化することができるということである。そし
て、この正規化ができれば、声道の時間的変化は話者に
よる差異が少ないのであるから、声道の変化パターン
は、1人ないし数人分の音声データを上記正規化して得
られる類似度の時間パターンにより作成することができ
る。したがって、少数話者の単語や文節の発声により、
不特定話者用の音声標準パターンが得られる。
【0017】このような考え方に基づき、本発明は次の
ように構成される。すなわち、予め多くの話者が発声し
た音声を分析して、話者が発声する音全体の特徴パラメ
ータの時系列である特徴ベクトルのセントロイド(重
心)の集合を作成し、各セントロイドに番号を付けてパ
ラメータ符号帳とする。また、その音声データに付加さ
れた音素位置のデータ(ラベルデータ)を利用して、上
記パラメータ符号帳内の各セントロイドが各音素である
確率を求めて、さらにその音素数の次元を持つ確率列か
ら各々のセントロイドがお互いに同じ音素である確率を
求めて、符号間確率テーブルを作成する。このテーブル
に書かれた確率値は、話者の静的な声道の違いに基づく
差異を受けにくい値である。標準パターンは、1名から
数名の話者が発声した認識対象音声を分析して得られる
特徴ベクトルを上記パラメータ符号帳を用いて符号化
し、セントロイドの番号の時系列(符号列)に変換する
ことにより得られる。認識時には、入力音声に対して音
響分析を行ない特徴ベクトルに変換した後、上記パラメ
ータ符号帳によって符号化し符号列を求める。そして、
標準パターンとしての符号列と照合を行なう。この際、
符号間の距離は、上記符号間確率テーブルを参照するこ
とにより求められる。
【0018】以下、本発明の一実施例について図面を参
照して説明する。図1は本発明の一実施例の構成を示す
ものである。図1において、1は音響分析部、2はベク
トル探索部、3はパラメータ符号帳、4は符号列作成
部、5は辞書格納部、6はマッチング部、7は符号間確
率テーブルである。
【0019】次に本実施例の動作について、最初に1名
の話者の音声を辞書に登録する場合について説明する。
図1において、まず入力音声に対して音響分析部1で1
フレーム(本実施例では1フレーム=10msec)毎
に線形予測分析(LPC分析)を行ない、特徴パラメー
タとしてLPCケプストラム係数(C0〜C8 まで9
個、C0 は正規化残差パワー項で対数変換しておく。)
を求める。
【0020】次に、ベクトル探索部2において、各フレ
ームを中心とした特徴パラメータの時系列すなわち特徴
ベクトルとパラメータ符号帳3に格納されている各セン
トロイド(重心)とのユークリッド距離の計算を以下の
(数1)を用いて行ない、最も距離の近いセントロイド
の番号を求める。特徴ベクトルは、本実施例では中心フ
レームから前4、後4フレームの計9フレーム分のLP
Cケプストラム係数(C0 〜C8 )を1次元に並べたV
ector x=(Co(1) ,C1 (1) ,・・・,C8
(1) ,C0 (2) ,C1 (2) ,・・・,C8 (2) ,・・・
8 (9) )を意味する。
【0021】
【数1】
【0022】図2はこのベクトル探索部2における探索
の様子を示したものである。この図2の場合は、入力音
声の特徴ベクトルに距離dが一番近い符号「1」に符号
化される。そして、符号列作成部4において、各フレー
ム毎の番号を並べて符号列を作成する。
【0023】ここで、ベクトル探索部2において使用さ
れるパラメータ符号帳3の作成方法について説明する。
まず、多くの話者について、音韻バランスのとれた音声
データを収録する。本実施例では多数の単語の音声デー
タを使用している。次に、その音声の音声区間全てにつ
いて上記と同様の音響分析を行ない、各フレームの特徴
ベクトルを求める。そして、それら全ての特徴ベクトル
を集めて特徴ベクトルの母集団を作成し、さらに、この
母集団に対してユークリッド距離に基づくクラスタリン
グを行ない、セントロイドを求めてパラメータ符号帳3
を作成する。このクラスタリングは、母集団に対してサ
ンプルとセントロイド(重心)間のユークリッド距離が
最小になるようなグループ分けを行ない、作成しようと
する符号帳サイズの数のグループにわけて、そのグルー
プのセントロイド(重心)で符号帳を作成する。
【0024】クラスタリングには幾つかの方法があり、
本実施例に用いたクラスタリング・アルゴリズムは細胞
分裂型のアルゴリズムである。このアルゴリズムを以下
に順に示す。 (1) K=1 (2) K個のグループのセントロイドを単純平均によ
り求める。そして、それぞれのグループに属する全ての
サンプルとセントロイドとのユークリッド距離を求め、
その最大値をそのグループの歪とする。 (3) K個のグループの中で最も歪の大きいグループ
のセントロイドの附近に2つのセントロイドを作る(細
胞分裂の核になる。)。 (4) K+1個のセントロイドを基にグループ分けを
行ない、セントロイドを求め直す。 (5) 空のグループがあればそのセントロイドを抹消
して(3)へ戻る。 (6) K+1個のグループの歪を(2)と同様に求
め、その総和の変化量があらかじめ設定した微小なしき
い値以下であれば(7)へ進み、しきい値より大きい場
合は(4)へ戻る。 (7) K+1が目標のグループ数に達していなければ
K=K+1として(2)へ戻り、達していれば(8)へ
進む。 (8) すべてのグループのセントロイドを求め、符号
帳を作成する。
【0025】なお、上記アルゴリズムにおいて、本実施
例におけるパラメータ符号帳3に格納されたセントロイ
ドの数は全部で920個であり、収束検知に用いたしき
い値は0.0001である。
【0026】ここで再び図1の実施例の説明に戻る。符
号列作成部4において、各フレーム毎のセントロイドの
番号を並べて符号列を作成した後、マッチング部6にお
いて、辞書格納部5に格納されている音声パターンとし
ての符号列とのマッチングを、符号間確率テーブル7と
DPマッチングを用いて行ない、各音声の類似度を求め
る。そして、各類似度を比較し、最も高いものを認識結
果として出力する。この辞書格納部5、マッチング部
6、符号間確率テーブル7について、以下に説明する。
【0027】まず、辞書格納部5に格納される音声パタ
ーンの作成手順を述べる。最初に認識対象音声について
1人の話者の音声を収録する。次に、認識時と同様に音
響分析を行ない、特徴ベクトルを求める。さらに、認識
時と同様にパラメータ符号帳を用いて符号化を行ない、
各音声の符号列を求める。そして、この符号列を音声の
パターンとして辞書格納部5に格納する。
【0028】次に、マッチング部6について述べる。入
力音声1から得られる符号列と辞書格納部5に格納され
ている音声パターンは、一般にその長さが異なってい
る。そこで、このマッチングをDPマッチングを用いて
行なう。本実施例で用いた漸化式の例を(数2)に示
す。
【0029】
【数2】
【0030】ここで、辞書側のフレーム番号がj、入力
のフレーム番号がi、第iフレームと第jフレームの類
似度がl(i,j)、累積類似度がg(i,j)であ
る。類似度l(i,j)は、辞書側のj番目にある符号
と、入力のi番目の符号(セントロイドの番号)を基
に、符号間確率テーブル7を参照して求める。
【0031】符号間確率テーブル7は、図3に示すよう
に、各符号間の類似度(同じである確率で、図3には生
の値を記しているが、実際には対数をとってある。)が
入っており、マッチングの際には、比較する符号を縦横
に見てその間の確率値を類似度として用いる。この値
は、2つのフレームが同じである確率であり、このDP
マッチングの結果得られる累積類似度は、マッチングパ
スにおいて対応する全てのフレームが同じである確率に
なることに注意すべきである。この「2つのフレームが
同じである確率」については、以下の符号間確率テーブ
ル7についての説明の中でその意味を述べる。
【0032】次に、符号間確率テーブル7について、そ
の考え方と作成法について説明する。ベクトル探索部2
において求められる符号は、特徴ベクトルのベクトル空
間(ユークリッド空間)上における大まかな位置を示す
ものである。また、上記課題を解決するための手段の項
で述べたように、少数の話者の音声データを不特定話者
用の標準パターンに変換するためには、多数話者の音声
データから作成した音素や音節の標準パターンとマッチ
ングを行なう必要がある。そこで、本実施例では音素を
基本単位とした統計分析により、その符号に符号化され
る特徴ベクトルが各音素に属する確率を求める。
【0033】まず、音素の位置(始端と終端)がラベル
付けされている音声データを上記認識時と同様に音響分
析して、各フレームの特徴ベクトルを求めた後、上記パ
ラメータ符号帳3によって符号化し(最も近いセントロ
イドの番号を求める。)、各フレームの符号(セントロ
イドの番号)を求める。次に、ラベルを参照することに
より、そのフレームが何の音素に属しているかがわかる
ので、各セントロイド毎にその音素数分のエリアを用意
し、そのセントロイド番号になった特徴ベクトルの音素
番号のエリアに加算していく。その結果、図4のよう
に、各セントロイド番号のエリアには、その符号になっ
た特徴ベクトルが各音素であった個数が入っている。た
とえば、図4の符号「3」を例としてみると、多数話者
の全ての音声から得られた多くの特徴ベクトルのうち、
「3」に符号化されたものは全部で1200個あり、こ
のうち31個が/a/の音素であり、また、40個が/
o/、935個が/u/であったことを示している。そ
こで、この個数を全体で割れば、その番号に符号化され
た特徴ベクトルが各音素になる確率が得られる。これを
確率列と呼ぶ。例えば、この例では、「3」に符号化さ
れた特徴ベクトルが/a/である確率は0.0258で
あり、/u/である確率は0.779である。この値は
いづれも多数話者から求めた汎用性のある確率であるか
ら、音声をこの確率列に変換することによって、話者の
声道の違いに基づく差異を正規化できる。したがって、
入力音声の特徴パラメータとしてこの確率列を用いるこ
とは、個人性に影響されにくいという点で大変有効であ
る。
【0034】そして、さらにこの確率列を用いて2つの
符号の類似度を求める。符号iが音素jに属する確率を
Pijとすると、符号mと符号nが同じ音素である確率D
mnは次の(数3)によって求めることができる。
【0035】
【数3】
【0036】最後に、このDmnをマトリックスに表現し
て図3のような符号間確率テーブルを作成する。このD
mnは、人の違いによらず、その符号と符号が音素として
どれだけ似ているかという程度をあらわす値である。し
たがって、上記した辞書格納部5の説明文中における
「同じである確率」とは、この「同じ音素である確率」
に相当する。
【0037】なお、本実施例における音素とは、/a
/,/o/,/u/,/i/,/e/,/j/,/w
/,/m/,/n/,/
【0038】
【外1】
【0039】/(語中),/b/,/d/,/g/(語
頭),/r/,/z/,/h/,/s/,/c/,/p
/,/t/,/k/,Q(促音),/=/(撥音)の2
3音素とした。
【0040】以上が、本実施例における1人の話者の音
声パターンを標準パターンとする音声認識方法である。
次に、複数の話者で標準パターンをつくる方法は2つあ
る。1つは、一人一人の音声パターンをそのままマルチ
パターンとしてマッチングに用いる方法で、この場合は
認識時の計算量はモデルとする話者数に比例して増加す
るが、より話者に適応した認識を行なうことができ、認
識性能を向上させることができる。2つ目は、それぞれ
の音声パターンの長さをDPマッチングを用いて正規化
してから平均化する方法である。この場合、平均化する
段階は、特徴ベクトルの段階と確率列の段階の2種類が
あり、どちらにしても、より安定した標準パターンを得
ることができ、認識性能を向上させることができる。
【0041】ここで、本発明の有効性を検証するため
に、本実施例を用いて単語認識実験を行なった。単語数
は212個である。音素位置のラベル付けがなされた2
0人(男女各10人)の話者の音声データを用いて、パ
ラメータ符号帳と符号間確率テーブルを作成し、この内
の1人(男性話者)の212単語の単語音声を用いて音
声の標準パターンを作成した。認識対象は上記話者以外
の話者20人(男女各10人)の212単語音声であ
る。実験の結果、平均90.1%(男性89.39%、
女性90.81%)という高い単語認識率が得られた。
男性の音声パターンを用いているが、男女の認識率の差
はほとんど無い。したがって、ベクトル探索と符号間確
率による距離計算により、声の個人性が吸収されてお
り、1人の話者でも不特定用の標準パターンが得られる
ことが検証できた。
【0042】このように、本実施例では、入力音声を音
響分析することによって得られる特徴パラメータの時系
列である特徴ベクトルを用い、そのままその空間上でマ
ッチングするのでなく、その特徴ベクトルを多数話者で
作成したパラメータ符号帳で符号化し、マッチングの際
に符号間確率テーブルを参照して符号間類似度を求める
ことにより、少数話者が発声した音声を登録するだけで
不特定話者の音声を精度良く認識することができるよう
になる。
【0043】
【発明の効果】以上のように、本発明は、入力声を分析
して得られる特徴パラメータの時系列である特徴ベクト
ルに対して、あらかじめ多数の話者で作成したパラメー
タ符号帳を用いて符号化を行ない、同様に符号列に変換
された少数話者の音声パターンと符号間確率テーブルの
符号間の確率値を用いてマッチングを行なうことによっ
て、1人から数名の少数話者が発声した認識対象単語を
辞書として登録するだけで辞書が更新でき、また、高い
音声認識率を得ることができる。
【0044】このように、本発明は、不特定話者用音声
認識装置の性能向上および様々な用途に適用するため
に、標準パターンを作成するための労力削減に対して極
めて大きく貢献することができる。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識装置の構成
を示すブロック図
【図2】同実施例におけるベクトル探索部の機能を説明
するための模式図
【図3】同実施例における符号間確率テーブルの一例を
示す説明図
【図4】同実施例における各セントロイドが各音素であ
った個数を示す説明図
【符号の説明】
1 音響分析部 2 ベクトル探索部 3 パラメータ符号帳 4 符号列作成部 5 辞書格納部 6 マッチング部 7 符号間確率テーブル
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−83598(JP,A) 特開 昭62−232000(JP,A) 特開 平2−141800(JP,A) 特開 昭59−99500(JP,A) 特開 昭62−70898(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 予め多数の話者から得られた音声から音
    響分析で得られた特徴ベクトルの空間の代表ベクトルを
    パラメータ符号帳として格納する工程と、予め音素また
    は音節位置のラベリングされた多数の話者の音声から特
    徴ベクトルを求め、その特徴ベクトルから前記パラメー
    タ符号帳を用いて生成した符号列と前記ラベリング情報
    から各符号が各音素または音節に属する確率列を求め、
    さらにその確率列を用いて2つの符号が同じ音素または
    音節である確率値を符号間確率テーブルとして格納する
    工程と、予め少なくとも1名の話者から得られた認識対
    象音声に対して音響分析を行ない得られた特徴ベクトル
    を前記パラメータ符号帳を用いて符号化し、各音声の符
    号列を求め、この符号列を音声の標準パターンとして辞
    書に格納する工程と、入力音声に対して音響分析を行な
    い、特徴パラメータの時系列である特徴ベクトルと前記
    代表ベクトルとの距離を求め最も近い代表ベクトルの符
    号を求める工程と、前記代表ベクトルの符号を各フレー
    ム毎の番号に並べて符号列を作成する工程と、前記辞書
    に格納されている符号列と前記入力音声から得られた符
    号列とを前記符号間確率テーブルの符号間の確率値を用
    いてマッチングを行なう工程とを具備することを特徴と
    する音声認識方法。
  2. 【請求項2】 予め多数の話者から得られた音声から音
    響分析で得られた特徴ベクトルの空間の代表ベクトルを
    パラメータ符号帳として格納するパラメータ符号帳記憶
    手段と、予め音素または音節位置のラベリングされた多
    数の話者の音声から特徴ベクトルを求め、その特徴ベク
    トルから前記パラメータ符号帳を用いて生成した符号列
    と前記ラベリング情報から各符号が各音素または音節に
    属する確率列を求め、さらにその確率列を用いて2つの
    符号が同じ音素または音節である確率値を符号間確率テ
    ーブルとして格納する符号間確率テーブル格納手段と、
    予め少なくとも1名の話者から得られた認識対象音声に
    対して音響分析を行ない得られた特徴ベクトルを前記パ
    ラメータ符号帳を用いて符号化し、各音声の符号列を求
    め、この符号列を音声の標準パターンとして辞書に格納
    する辞書格納手段と、入力音声に対して音響分析を行な
    い、特徴パラメータの時系列である特徴ベクトルと前記
    代表ベクトルとの距離を求め最も近い代表ベクトルの符
    号を求めるベクトル探索手段と、前記代表ベクトルの符
    号を各フレーム毎の番号に並べて符号列を作成する符号
    列作成手段と、前記辞書に格納されている符号列と前記
    入力音声から得られた符号列とを前記符号間確率テーブ
    ルの符号間の確率値を用いてマッチングを行なうマッチ
    ング手段とを具備することを特徴とする音声認識装置。
JP03071187A 1991-04-03 1991-04-03 音声認識方法および装置 Expired - Fee Related JP3115016B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03071187A JP3115016B2 (ja) 1991-04-03 1991-04-03 音声認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03071187A JP3115016B2 (ja) 1991-04-03 1991-04-03 音声認識方法および装置

Publications (2)

Publication Number Publication Date
JPH04305699A JPH04305699A (ja) 1992-10-28
JP3115016B2 true JP3115016B2 (ja) 2000-12-04

Family

ID=13453408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03071187A Expired - Fee Related JP3115016B2 (ja) 1991-04-03 1991-04-03 音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP3115016B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6183598A (ja) * 1984-10-01 1986-04-28 株式会社リコー 音声パタ−ンマツチング方式
JPS6270898A (ja) * 1985-09-24 1987-04-01 株式会社リコー 音声認識装置

Also Published As

Publication number Publication date
JPH04305699A (ja) 1992-10-28

Similar Documents

Publication Publication Date Title
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Unnibhavi et al. LPC based speech recognition for Kannada vowels
JP3444108B2 (ja) 音声認識装置
JP3115016B2 (ja) 音声認識方法および装置
JP2943473B2 (ja) 音声認識方法
JP2010072446A (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Pandey et al. Fusion of spectral and prosodic information using combined error optimization for keyword spotting
JP2943445B2 (ja) 音声認識方法
JP2879989B2 (ja) 音声認識方法
Shafie et al. Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR
JP3277522B2 (ja) 音声認識方法
JP3289670B2 (ja) 音声認識方法および音声認識装置
JP2574557B2 (ja) 音声認識方法
Angkititrakul et al. Use of trajectory models for automatic accent classification.
Manjunath et al. Improvement of phone recognition accuracy using source and system features
JP2692382B2 (ja) 音声認識方法
Pradeep et al. Manner of articulation based split lattices for phoneme recognition
Bhattachajee et al. An experimental analysis of speech features for tone speech recognition
JP2862306B2 (ja) 音声認識装置
Shen Continuous Mandarin speech recognition for Chinese language with large vocabulary based on segmental probability model
Abida Fuzzy gmm-based confidence measure towards keywords spotting application

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees