JP2001255886A - 音声認識方法および音声認識装置 - Google Patents

音声認識方法および音声認識装置

Info

Publication number
JP2001255886A
JP2001255886A JP2000064919A JP2000064919A JP2001255886A JP 2001255886 A JP2001255886 A JP 2001255886A JP 2000064919 A JP2000064919 A JP 2000064919A JP 2000064919 A JP2000064919 A JP 2000064919A JP 2001255886 A JP2001255886 A JP 2001255886A
Authority
JP
Japan
Prior art keywords
frequency axis
axis conversion
transform coefficient
conversion coefficient
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000064919A
Other languages
English (en)
Other versions
JP2001255886A5 (ja
JP4461557B2 (ja
Inventor
Satoru Suzuki
哲 鈴木
Takeo Oono
剛男 大野
Tatsuya Kimura
達也 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000064919A priority Critical patent/JP4461557B2/ja
Publication of JP2001255886A publication Critical patent/JP2001255886A/ja
Publication of JP2001255886A5 publication Critical patent/JP2001255886A5/ja
Application granted granted Critical
Publication of JP4461557B2 publication Critical patent/JP4461557B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 利用者に対して一定内容の発声を促す必要性
が無い、オンライン「教師なし」で話者の個人性特徴に
すばやく正規化できる話者正規化処理を用いる音声認識
装置を提供する。 【解決手段】 A/D変換を行ってデジタル化された音
声を入力信号として、LPCケプストラム係数等の特徴
量を抽出し(S10)、発声者の声道長の個人性に起因
する影響を正規化するために、LPCケプストラム等の
特徴量に周波数軸の変換を施し(S30)、周波数軸変
換を施された入力音声の特徴量と予め複数話者から学習
した音響モデル特徴量とのマッチングを行なう(S5
0)。その後、S50において算出された認識結果をも
とに入力発声を教師信号として最適な変換係数を求め
(S60)、話者や音韻によるばらつきを吸収するため
変換係数平滑化を行い、新たな周波数軸変換係数を更新
する(S70)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、不特定話者の音声を音
声認識させる分野等に利用される音声認識方法および音
声認識装置に関する。
【0002】
【従来の技術】人の音声の音響的特徴は、主に音を発声
させる喉つまり音源と、その音が反響しながら伝播する
声道およびその形状とで構成される発声器官によって決
定される。つまり話者の音響的特徴の違いは、これら話
者の発声器官の特徴が主に起因して生じていると考える
事ができる。
【0003】そのため、特に不特定話者を対象とした音
声認識装置において、音響モデルで表現される話者集団
の発声器官の特徴と比較して特異な特徴を持つ話者の認
識率が低下することがあると指摘されていた。
【0004】そこで、この発声器官の特徴つまり個人性
を要因とした認識率の低下を防ぎ、かつ高い認識率を保
持することを目的として、話者適応化手法あるいは話者
正規化手法が提案されてきた。
【0005】従来提案されてきた話者適応化、話者正規
化手法としては、音響モデルパラメータを既知の音響モ
デルパラメータを用いて再評価することにより音響モデ
ル自身を話者にあわせて更新あるいは選択する話者適応
方法と、個々の話者の特徴空間を変換して音響モデル学
習話者から表現される特徴空間にマッピングする話者正
規化方法との2つに大別できる。
【0006】前者は、たとえば電子通信情報学会SP92―
16(1992年)に紹介されたベクトル場平滑化法のように、
適応化音声の量が増すに従い、話者適応システム性能は
話者依存での学習時の性能に近づくという特徴を持つた
め格段の認識性能の向上が期待できるものの、適応の効
果が現れるのに十分な学習音声量を獲得するまでに時間
を要するという欠点がある。
【0007】後者は、たとえば論文「Frequency Warpin
gによる話者の正規化、松本、脇田、日本音響学会音声
研究会資料S79‐25,1979-7」においては、周波数正規
化スペクトルによって声道長正規化に効果があると主張
しており、さらに、論文「LPC距離尺度における周波
数正規化に関する検討、小林、松本、日本音響学会講演
論文集1-1-5、昭和58年10月」においては、LPCスペ
クトルの周波数軸を伸縮する方法として一次の全域通過
フィルターを用いた方法を提案している。
【0008】この後者の方法は、変換係数の変更により
話者の個人性を正規化できるという特徴を持つことか
ら、オンラインの話者適応化・正規化方法としては前者
に比べて、必要とする音声量がより少ない点で実用上有
効であると考えられる。さらに、話者正規化手法とし
て、特開平6−214596号公報において、声帯音源
特性に関する音声スペクトル傾斜の変動と、声道特性
(例えば声道長)に関する音声スペクトルの周波数軸方
向の伸縮という個人性を同時に正規化する方法が提案さ
れている。
【0009】以下、この従来例の音声認識装置について
図9を用いて説明する。
【0010】図9の音声認識装置は、入力された音声信
号の周波数特性を補正する周波数特性補正部10と、入
力音声信号のケプストラム係数を入力音声特徴量として
抽出する特徴量抽出部20と、入力音声信号に対し周波
数軸の変換を施す周波数軸変換部30と、入力された音
声信号の区間を検出する音声区間検出部40と、標準音
声信号の特徴量が標準音声特徴量として予め記憶されて
いる標準音声記憶部50と、入力音声信号に対し周波数
特性補正部10、特徴量抽出部20、周波数軸変換部3
0により得られた入力音声特徴量と標準音声記憶部50
に記憶されている標準音声特徴量との照合(マッチン
グ)を行なうマッチング部60とから構成されている。
【0011】ところで、この音声認識装置では、不特定
話者の音声をも良好に認識させることを目的として、実
際の音声認識処理とその音声認識処理の開始に先立って
話者適応学習処理がなされる。この2種類の処理を1つ
の装置で行なわせるため、図9の装置には、この装置の
動作、機能を話者適応フェーズと音声認識フェーズとの
いずれかに切換えるためのフェーズ選択部90がさらに
設けられている。
【0012】また、これと関連させて、標準音声記憶部
50には、話者適応処理用の標準音声特徴量と音声認識
用の標準音声特徴量とが記憶されている。また、周波数
特性補正部10には、話者適応学習用に、互いに異なる
複数の周波数特性補正係数が予め用意され、また、周波
数軸変換部30には、話者適応学習用に、互いに異なる
複数の周波数軸変換係数が用意されている。
【0013】次に、話者適応フェーズについて説明す
る。話者適応フェーズにおいては、未知話者に既知の発
声内容を発声させるようになっており、周波数特性補正
部10、周波数軸変換部30では、この音声信号に対し
て、各々、複数の周波数特性補正係数、複数の周波数軸
変換係数を順次に変えて処理を行ない、マッチング部6
0は、それぞれの場合について、周波数特性補正部1
0、特徴量抽出部20、周波数軸変換部30により得ら
れた入力音声特徴量を標準音声記憶部50に記憶されて
いる話者適応処理用の標準音声特徴量とマッチングし
て、各入力音声特徴量と標準音声特徴量との尤度を求
め、そのうち最大尤度を与える周波数特性補正係数と周
波数軸変換係数とを選択し決定するようになっている。
【0014】次に、音声認識フェーズについて説明す
る。音声認識フェーズにおいては、未知話者(実際に
は、話者適応フェーズで入力を行なった話者)の未知の
発声内容の音声信号に対して、周波数特性補正部10、
周波数軸変換部30では、上記話者適応フェーズにおい
て選択、決定された周波数特性補正係数と周波数軸変換
係数とに基づいて処理を行ない、マッチング部60は、
このようにして周波数特性補正部10、特徴量抽出部2
0、周波数軸変換部30により得られた入力音声特徴量
を標準音声記憶部50に記憶されている音声認識用の標
準音声特徴量とマッチングして、最大尤度を与える標準
音声特徴量に対応した語を認識結果候補として出力する
ようになっている。
【0015】
【発明が解決しようとする課題】この方法は、上記のよ
うに話者に発声内容を指定して発声を行わせることによ
り話者の個人性特徴を正規化させる最適な変換係数を推
定する話者適応フェーズと、話者適応フェーズにおいて
推定された変換係数を用いて未知内容の発声を認識する
音声認識フェーズからなり、2つのフェーズを切り替え
て使用するように構成されている。
【0016】しかしながら、「教師あり条件」での話者
正規化手法であるこの従来法は、事前に未知話者に対し
発声語彙を指定し学習データとして収録する必要がある
ため利用者への負担増を招いている。そこで、この負担
を取り除くために、話者に事前に発声を要求しない「教
師なし」条件で、かつ即効性のある方法での話者正規化
方法の確立が必要である。
【0017】本発明では、発声者の発声器官の特徴つま
り個人性を正規化することにより、ここでは声道長差に
起因する影響を除去するために周波数軸変換を用いた
「教師なし」条件での話者正規化を行う手法を述べる。
具体的には、未知話者による内容未知の発声を用いて、
周波数軸変換係数の精度よい推定方法を確立すること
で、教師なし条件の話者正規化方法を実現するものであ
る。以下手法を実現するために生じる課題について述べ
る。
【0018】従来法などでは、声道長の違いは音声スペ
クトルが伸縮する形で現れることに着目して、入力音声
スペクトルの周波数軸を変換し、音響モデルなどの標準
となる音声スペクトルとの差を吸収する周波数軸変換を
用いた話者正規化は効果があることを提示している。こ
のとき、周波数軸変換の際に与える周波数軸変換係数
が、声道長の違いに相当するともいえる。これを声道長
正規化と呼ぶ。
【0019】一方、音声は、声道の形を変えることによ
って音韻の特徴を作り出されているため、同一話者であ
っても、発声される音韻によって声道長は異なってお
り、声道長推定値も一定の範囲で変化することが知られ
ている「音声認識における個人差の学習法について、古
井、日本音響学会音声研究会資料S75−25、1975-1
1」。つまり、発声される音韻によって、異なる話者で
はもちろんのこと同一話者内でも変動するものと考えら
れる。
【0020】したがって、声道長差に起因する音声スペ
クトルへの影響を除去するために、入力音声の周波数軸
変換を行うにあたり、最適な周波数軸変換係数も、音韻
によって変動していると考えられる。
【0021】そのため、最適な周波数軸変換係数を推定
し次回の発声に利用できるように「教師なし」条件での
話者正規化を考えた場合、今回発声された音韻と次回発
声される未知の音韻の違いによって、今回推定された最
適な周波数軸変換係数が必ずしも次回の発声には最適と
はいえず、このことが未知の発声内容に対応して正規化
を行うことを難しくする要因となっている。したがっ
て、個人性の特徴の一つである声道長正規化を行うにあ
たって、未知話者による発声内容が未知の入力音声を教
師信号として用いて オンライン「教師なし」話者正規
化を行うためには、周波数軸変換係数の推定精度をより
高める推定方法の確立が必要となる。
【0022】また、この従来法では、音声スペクトルに
対して周波数軸を伸縮することによって、声道特性に関
する個人性正規化を行うにあたって、この際入力音声区
間全体に一律の変換係数を用いている。そのため、声道
特徴に無関係な無声音の区間に対しても周波数軸変換を
行うと、特徴量としての性質を失う原因になりかねず、
認識結果に悪影響を及ぼすことも考えられる。そこで、
入力音声区間全体に一律の変換係数を用いるのではな
く、有声音区間に限って周波数軸変換を行うことによ
り、精度よく周波数軸変換係数の推定を行うことができ
ると考えられる。
【0023】本発明の目的は、上記の問題点を解決し、
利用者に対して 予め発声を要求せず、発声ごとに話者
の音声から個人性を精度よく推定することにより、未知
話者による発声内容が未知の入力音声にすばやく話者正
規化できる話者正規化方法を備えた音声認識装置を提供
することである。
【0024】
【発明が解決するための手段】本発明による音声認識方
法および音声認識装置は、声道長差に起因するスペクト
ルの伸縮の影響を除去するため、入力音声のスペクトル
に対して周波数軸変換を行なうことによる話者正規化方
式を用いる。未知話者による発声内容が未知の入力音声
を教師信号として、最尤推定により最適な周波数軸変換
係数を決定した上で、音韻の違いによる周波数軸変換係
数のばらつきを吸収するために、過去の周波数軸最適変
換係数との平滑化を行うものである。さらに推定した周
波数軸変換係数と過去の周波数軸最適変換係数とを比較
することによって、話者が交代した場合とみなして平滑
化を行うこともできる。
【0025】同一話者内での声道長の変動には限界があ
るため、未知話者による発声内容が未知の入力音声を教
師信号として推定された周波数軸変換係数は、ばらつき
はあっても一定の範囲内に収束することが期待できる。
しかしこのとき、次のような問題が考えられる。(1)
周波数軸変換係数を変化させた場合に、高い尤度をかせ
ぐ周波数軸変換係数の範囲と、マッチング処理によって
出力される認識結果候補が発声内容と合致するつまり認
識正解する周波数軸変換係数の範囲とは必ずしも一致し
ない。(2)発声内容によって高い尤度をかせぐ周波数
軸変換係数の範囲の分布が異なる。(3)マッチング処
理によって出力される認識結果候補が発声内容と異なっ
ている場合つまり誤認識した場合には、誤った内容に対
して推定を行うことになってしまうため、マッチング処
理によって出力される認識結果候補が発声内容として正
しい場合つまり認識正解した場合に比べて、推定される
周波数軸変換係数が異なる値になることがありうる。
【0026】そこで、過去の発声より求めた周波数軸変
換係数との平均して平滑化することにより、推定された
周波数軸変換係数のばらつきを吸収して、現在の話者へ
の最適周波数軸変換係数が求められるものと考える。
【0027】さらに、話者が交代した場合には、前回の
発声から推定した最適周波数軸変換係数と今回の発声か
ら推定した最適周波数軸変換係数との差が大きくなるこ
とが考えられる。このことを利用して話者が交代した場
合には、平滑化処理を初期化するなどのこれに対処を行
うことが可能である。
【0028】また、最適な周波数軸変換係数推定時に
は、音声区間検出手段から出力された無声音/有声音区
間情報に同期して、周波数軸変換を行う。このため周波
数軸変換係数推定にとって有効な音声区間あるいは音韻
にのみ周波数軸変換を行うことから、精度よく周波数軸
変換係数を推定できる。
【0029】以上より、発声内容によらず、事前の発声
を必要としないオンライン「教師なし」話者正規化方法
を実現することが可能な高性能な音声認識装置を提供す
ることができる。
【0030】
【発明の実施の形態】本発明の請求項1に記載の発明
は、入力音声の特徴量を抽出する特徴量抽出ステップ
と、前記入力音声の特徴量の周波数軸を少なくとも1つ
の周波数軸変換係数から構成される周波数軸変換係数列
を用いて変換する周波数軸変換ステップと、前記周波数
軸変換を施した入力音声の特徴量と予め複数の話者から
学習した音響モデル特徴量とをマッチングし、認識結果
候補を出力するマッチングステップと、前記認識結果候
補のうち少なくとも1つから表現される音素系列に対し
て少なくとも1つの周波数軸変換係数から構成される最
適な周波数軸変換係数列を推定する最適変換係数推定ス
テップと、前記求められた最適な周波数軸変換係数列と
保持された過去に求められた周波数軸変換係数列とを平
滑化し、新たな周波数軸変換係数列を更新・保持する変
換係数平滑化ステップとを有するもので、発声者の音声
特徴量から周波数軸上に現れる個人性を吸収することに
より、認識率の向上させる作用を有する。
【0031】請求項2に記載の発明は、変換係数平滑化
ステップは、少なくとも1つの周波数軸変換係数から構
成される最新の周波数軸変換係数列と、保持された過去
に求められた少なくとも1つの周波数軸変換係数から構
成される周波数軸変換係数列とを比較することによって
話者の交代を検知することを特徴とするもので、話者交
代を検出した際には交代前話者の推定周波数変換係数の
影響を受けないように周波数軸変換係数を初期化するな
どによって、交代後話者への最適な周波数軸変換係数を
新たに求め、話者間の周波数軸変換係数の差異による、
認識率の低下を防ぐ作用を有する。
【0032】請求項3に記載の発明は、入力音声の特徴
量を抽出する特徴量抽出ステップと、前記入力音声から
無声音/有声音区間を弁別検出する音声区間検出ステッ
プと、前記入力音声の特徴量の周波数軸を前記無声音/
有声音区間情報に応じて周波数軸変換係数列を用いて変
換する周波数軸変換ステップと、前記周波数軸変換を施
した入力音声の特徴量と予め複数の話者から学習した音
響モデル特徴量とをマッチングし、認識結果候補を出力
するマッチングステップと、前記認識結果候補のうち少
なくとも1つから表現される音素系列に対して少なくと
も1つの周波数軸変換係数から構成される最適な周波数
軸変換係数列を推定する最適変換係数推定ステップと、
前記求められた最適な周波数軸変換係数列と保持された
過去に求められた周波数軸変換係数列とを平滑化し、新
たな周波数軸変換係数列を更新・保持する変換係数平滑
化ステップとを有することを特徴とするもので、発声内
容によって変動する推定変換係数のばらつきを抑えるこ
とにより、周波数軸変換を用いた話者正規化のより高い
効果を与える作用を有する。
【0033】請求項4に記載の発明は、最適変換係数推
定ステップは、前記認識結果候補を求めた際に使用した
少なくとも1つの周波数軸変換係数から構成される周波
数軸変換係数列を基に複数の周波数軸変換係数列候補を
設定し、それぞれの周波数軸変換係数毎に、前記マッチ
ングステップの認識結果候補のうち少なくとも1つから
表現される音素系列に対して、周波数軸変換を施して得
られた入力音声特徴量と予め複数の話者から学習した音
響モデル特徴量とマッチングにより尤度を求め、求めた
尤度のうちで最大尤度を与える少なくとも1つの周波数
軸変換係数から構成される周波数軸変換係数列を選択す
ることを特徴とするもので、事前に発声を行い話者の個
人性を学習する適応フェイズなどを設ずに、認識時の発
声そのものから学習を行う「教師なし」話者正規化を実
現する作用を有する。
【0034】請求項5に記載の発明は、変換係数平滑化
ステップは、未知話者に最適な周波数軸変換係数を平滑
化する際に、保持された過去に求められた周波数軸変換
係数の平均値と最新の周波数軸変換係数との距離を求
め、所定の距離を満たす場合にのみ最新の係数として採
用し、新たな周波数軸変換係数として出力することを特
徴とするもので、発声内容によって変動する推定変換係
数のばらつきを抑えることにより、周波数軸変換を用い
た話者正規化のより高い効果を与える作用を有する。
【0035】請求項6に記載の発明は、変換係数平滑化
ステップは、未知話者に最適な周波数軸変換係数を平滑
化する際に、保持された過去に求められた周波数軸変換
係数の平均値と最新の周波数軸変換係数との距離を求
め、所定の距離を満たさない場合には、過去の周波数軸
変換係数を任意の初期値を与えることによって初期化を
行うことを特徴とするもので、発声内容によって変動す
る推定変換係数のばらつきを抑えることにより、周波数
軸変換を用いた話者正規化のより高い効果を与える作用
を有する。
【0036】請求項7に記載の発明は、入力音声の特徴
量を抽出する特徴量抽出手段と、前記入力音声の特徴量
の周波数軸を周波数軸変換係数列を用いて変換する周波
数軸変換手段と、前記周波数軸変換を施した入力音声の
特徴量と予め複数の話者から学習した音響モデル特徴量
とをマッチングし、認識結果候補を出力するマッチング
手段と、前記認識結果候補のうち少なくとも1つから表
現される音素系列に対して、少なくとも1つの周波数軸
変換係数から構成される最適な周波数軸変換係数列を推
定する最適変換係数推定手段と、前記求められた最適な
周波数軸変換係数列と保持された過去に求められた周波
数軸変換係数列とを平滑化し、新たな周波数軸変換係数
列を更新・保持する変換係数平滑化手段とを有すること
を特徴とするもので、話者の音声特徴量から周波数軸上
に現れる個人性を吸収する話者正規化によって、認識率
の向上させる作用を有する。
【0037】請求項8に記載の発明は、変換係数平滑化
手段は、少なくとも1つの周波数軸変換係数から構成さ
れる最新の周波数軸変換係数列と、保持された過去に求
められた少なくとも1つの周波数軸変換係数から構成さ
れる周波数軸変換係数列とを比較することによって話者
の交代を検知することを特徴とするもので、話者交代を
検出した際には交代前話者の推定周波数変換係数の影響
を受けないように周波数軸変換係数を初期化するなどに
よって、交代後話者への最適な周波数軸変換係数を新た
に求め、話者間の周波数軸変換係数の差異による、認識
率の低下を防ぐ作用を有する。
【0038】請求項9に記載の発明は、入力音声の特徴
量を抽出する特徴量抽出手段と、前記入力音声から無声
音/有声音区間を弁別検出する音声区間検出手段と、前
記入力音声の特徴量の周波数軸を前記無声音/有声音区
間情報に応じて周波数軸変換係数列を用いて変換する周
波数軸変換手段と、前記周波数軸変換を施した入力音声
の特徴量と予め複数の話者から学習した音響モデル特徴
量とをマッチングし、認識結果候補を出力するマッチン
グ手段と、前記認識結果候補のうち少なくとも1つから
表現される音素系列に対して、少なくとも1つの周波数
軸変換係数から構成される最適な周波数軸変換係数列を
推定する最適変換係数推定手段と、前記求められた最適
な周波数軸変換係数列と保持された過去に求められた周
波数軸変換係数列とを平滑化し、新たな周波数軸変換係
数列を更新・保持する変換係数平滑化手段とを有するこ
とを特徴とするもので、発声内容によって変動する推定
変換係数のばらつきを抑えることにより、周波数軸変換
を用いた話者正規化のより高い効果を与える作用を有す
る。
【0039】以下、本発明の実施の形態について図を用
いて説明する。
【0040】(実施の形態1)図1は、本発明の実施の
形態1における音声認識装置のブロック図である。図1
において、1は入力音声に対してA/D変換処理などを
行う音声取り込み手段、2は音声の音響的特徴をモデル
化した音響モデル、3は単語系列における単語間の関係
をモデル化した言語モデル、4はデータやプログラム装
置に入力する入力手段、5はデータやプログラムを記録
するメモリ、6はプログラムにしたがってデータを処理
したり装置全体を制御するCPU、7は認識結果候補を
出力する出力手段である。
【0041】図2は、本発明の音声認識装置の処理手順
を示すフローチャートであり、この図を用いて音声認識
装置の処理手順を説明する。
【0042】入力音声の特徴量抽出が行われるS10で
は、マイクロフォン等から取りこまれた音声にA/D変
換を行ってデジタル化された音声を入力信号として、一
定フレーム周期毎にLPCメルケプストラム係数を出力
する。具体的には、文献「音声認識、今井著、共立出
版、1995年11月25日」などに示されているこの
方法を利用して、プリエンファシス:1−z-1、窓周
期:20ms、フレーム周期:10ms、LPC分析次
数:10次、ケプストラム分析次数:10次としてLP
Cメルケプストラム係数を出力する。入力音声はここで
は、8kHzサンプリングされるものとする。
【0043】音声区間検出処理が行われるS20では、
無声音/有声音区間などの検出を行なう。たとえば、入
力音声信号のフレームパワーを求め、入力開始数フレー
ムでの平均値を求めておき、その平均値に比べ、フレー
ムパワーが2倍になったフレーム区間を有声音区間とす
る方法などを用いることにより、有声音区間とすること
もできる。あるいは、入力音声に1500Hz-3400Hz通過高
域フィルタを掛けて、同様にして高域音声入力が有った
ことを示す高域区間を求めておき、これを利用すること
により、有声音区間、無声音区間の判定を大まかな判定
をすることができる。
【0044】周波数軸変換処理が行われるS30では、
声道長の個人差に起因するスペクトルを伸縮することに
よって声道長正規化を行う周波数軸変換を施す。具体的
には、入力音声のスペクトルを表現しているLPCメル
ケプストラム係数に対して、例えば(数1)で表わされ
る1次の全域透過フィルタH(z)を作用させて、周波
数軸の変換を行なう。この周波数軸変換の手法は、論文
「LPC距離尺度における周波数正規化に関する検討、小
林 松本 熊田、1983、日本音響学会音声研究会資料S83-
47,1983 Dec. 22」に示されているものである。
【0045】
【数1】
【0046】また、実際に(数1)を用いて周波数軸を
変換によって、スペクトル伸縮による周波数軸変換後の
LPCメルケプストラム係数の算出方法としては、たと
えば、論文「Discrete representation of signals, Op
penheim and Johnson, Proc.IEEE,60,pp681-691,June19
72」で示されている手法を用いる。
【0047】なお、本実施例では、LPCメルケプスト
ラムの次数を例えば10次としたメル周波数変換の処理
も同時に行なう。メル尺度を最も良く近似する周波数軸
変換係数αの値は、サンプリング周波数8kHzの場合、
αb=0.315付近とされており、この値をαの値を基
準として α=αb+0.05、α=αb-0.05などと指定してス
ペクトルを伸縮させる。ここで指定する周波数軸変換係
数の値は、変換係数平滑化処理が行われるS70から算
出された値を用いる。
【0048】このとき、周波数軸変換係数の推定にとっ
て有効な区間あるいは音韻のみ周波数軸変換を行うこと
によって、精度よく変換係数を推定させるため、音声区
間検出処理から出力された無声音/有声音区間情報に同
期して周波数軸変換を行う。たとえば、音声区間検出処
理の行われるS20より得た有声音区間のフレームにの
み、周波数軸変換を実施する。
【0049】マッチング処理が行われるS50では、S
30において周波数軸変換された入力音声特徴量と予め
複数の話者から学習した音響モデル特徴量とを、言語モ
デルとして表現される単語辞書等を用いてマッチングを
行い、少なくとも1つの認識結果候補を出力する。な
お、このマッチングは、例えば、端点フリーDP(ダイ
ナミック・プログラミング)マッチング法によりなされ
る。
【0050】最適変換係数推定処理が行われるS60で
は、マッチングにより出力される認識結果候補のうち少
なくとも1つから表現される音素系列に対して、複数の
周波数軸変換係数候補を設けて、それぞれの周波数軸変
換係数毎に、周波数軸変換された入力音声の特徴量と予
め複数の話者から学習した音響モデル特徴量とのマッチ
ングを行い尤度を求めて、最尤推定により最大尤度を与
える周波数軸変換係数を最適な周波数軸変換係数αn
して決定し、平滑バッファに登録する。
【0051】この時、最適変換係数推定処理が行われる
S60で推定される最適な周波数軸変換係数は発声内容
によってばらつきが生じたり、不正解の音素系列に対し
て推定を行った場合には、必ずしも最適でない場合もあ
りうることが問題となる。
【0052】そこで、変換係数平滑化処理が行われるS
70では、推定した最適な周波数軸変換係数のばらつき
を吸収するために、最適変換係数推定処理S60で求め
られた周波数軸変換係数αnと過去の周波数軸変換係数
を記憶した平滑化バッファより読み出された、たとえば
過去10回の周波数軸変換係数の平均により平滑化された
周波数軸変換係数を算出し、新たな周波数軸変換係数α
0として更新・記憶する。
【0053】次に、最適変換係数推定処理について、図
3(a)(b)を用いて詳細に説明する。図3(a)で
示されるように、変換係数候補の値として、認識結果候
補を求めた際用いた周波数軸変換係数α0に対して、α0
-0.05、α0、α0+0.05の3点を設定し(S101)、そ
れぞれ周波数軸変換を施した入力音声特徴量と認識結果
候補第一位r(1)の単語の音素系列で表現される音響モデ
ル特徴量系列とから尤度を求める(S102)。たとえ
ば、周波数軸変換係数候補を、x0=α0 -0.05、x1=α0
x2=α0 +0.05 を設定し、それぞれ得られる尤度をy0,
y1, y2とする。
【0054】
【数2】
【0055】周波数変換係数およびその尤度からなる3
点を用いて二次曲線に近似すると、その二次近似曲線が
ピークをとる周波数変換係数αxは、次のようにあらわ
される(S103)。
【0056】
【数3】
【0057】さらに、前記3点同様に周波数軸変換係数
αxに対する尤度を求め(S104)、4点の中から最大
尤度を与える周波数軸変換係数αnを採用する(S10
5)ものである。
【0058】次に、尤度距離の計算処理を図3(b)の
処理フローチャートを用いて説明する。
【0059】変換係数候補の値として設定された周波数
軸変換係数に対して、入力音声の特徴量に周波数軸変換
を施す(S106)。前記の周波数軸変換を施した入力
音声の特徴量と、認識結果候補第1位r(1)の単語の音素
系列から表現される音響モデル特徴量の系列とから尤度
を求める(S107)。
【0060】なお、これまで最適変換係数推定の説明に
おいて、認識結果候補のうち第一位の候補r(1)のみを
用いたが、これを認識結果候補r(n)をn位まで利用し
て、最大尤度を与える周波数軸変換係数を採用すること
もできる。
【0061】また、上記の特徴量を周波数軸変換する際
に、音声区間検出処理が行われるS20で算出される無
声音/有声音などの音声区間情報に同期して、複数の周
波数軸変換係数を用いることもできる。たとえば、無声
音の区間にのみ周波数軸変換を適応したり、逆に有声音
の区間にのみ周波数軸変換を適応したり、音声パワーの
同じ区間ごとに異なる周波数軸変換係数を用いることも
できる。
【0062】なお、変換係数平滑化処理において、最適
変換係数推定処理S60で算出された周波数軸変換係数
を平滑化バッファに登録する際に、発声される音韻によ
る声道長の変動に伴う最適な周波数軸変換係数のばらつ
きを吸収するため、さらには推定精度の低下を防ぐた
め、今回の発声に対して推定された最適な周波数軸変換
係数を評価し、平滑バッファに登録するか否かを判断す
る。その詳細について、図4を用いて説明する。
【0063】前記の認識結果候補を求めた際用いた周波
数軸変換係数α0つまり前回までの発声に対して推定さ
れた最適な周波数軸変換係数α0と、 今回の発声に対し
て推定された最適な周波数軸変換係数αnを比較するに
あたって、たとえば、 |α0n|< 0.100 という評価
関数(S110、S111)を用いて、この条件を満す
場合にのみ今回の発声に対して推定された周波数軸変換
係数αnを採用・登録し、平滑化バッファ内の周波数軸
変換係数を平均化し、周波数軸変換係数α0を更新する
(S112)。この周波数軸変換係数α0は、次回の発
声に対して、図2のS30などでの周波数軸変換に用い
られることになる。
【0064】このように評価関数を用いることにより、
推定された周波数軸変換係数のばらつきを抑える事がで
きることから、平滑化された周波数軸変換係数を精度よ
く求めることができるため、周波数軸変換を用いた話者
正規化による効果をより高めることが可能となる。
【0065】(実施の形態2)上記実施の形態1の音声
認識装置は、一人の話者が発声していることを前提とし
ているため、現在の発声話者に対して最適な周波数軸変
換係数が推定され、この変換係数を用いて次回の発声に
対して話者正規化が実施される。一方、家庭など複数の
話者が交代で利用することが想定される場でこの音声認
識装置を用いると、交代前話者に対して推定された周波
数軸変換係数を用いて、交代後の話者に対して話者正規
化が行われることになる。この時、交代直後に推定され
る周波数変換係数は 交代後の話者にとって必ずしも最
適な値とは限らず、認識率を低下させる原因にもなり兼
ねない。
【0066】そこで、本発明の実施の形態2では、この
ように複数の話者が交代するような状況においては、話
者交代を検出することによって、交代前話者の推定周波
数変換係数の影響を受けずに、交代後話者に対して最適
な周波数軸変換係数を求めることを可能とするものであ
る。
【0067】本実施の形態の音声認識装置における話者
交代を検知する実施形態について、図6のフローチャー
トを用いて説明する。本実施形態は、実施の形態1の図
2で説明した実施例に加えて、話者交代を検知する手段
を有することを特徴としているもので、実施の形態1と
説明の重複を省くために異なる部分のみを説明する。
【0068】図2同様、S60にて今回の発声に対して
推定された最適な周波数軸変換係数に対して、過去所定
回数の発声に対して推定された最適な周波数軸変換係数
から算出される現話者に対して推定された最適な周波数
軸変換係数とを比較して、今回の周波数軸変換係数を評
価することにより話者の交代を検知し、話者交代を検知
した場合には、前回までの発声に対して推定された最適
な周波数軸変換係数保持している平滑化バッファを初期
化し、新しい話者の周波数軸変換係数の登録を行う(S
80)。最後の処理として、図2同様に、現話者に対し
て推定された最適な周波数軸変換係数を算出する(S7
0)。
【0069】ここで、S80における話者交代検出話者
の処理の詳細について、図5を用いて説明する。話者の
交代の検出は、前回の発声に対して推定された周波数軸
変換係数αn-1 と 今回の発声に対して推定された周波
数軸変換係数αnを比較して行い、たとえば |αn - α
n-1|< 0.150という評価関数(S120、S121)を
用いる。この条件を満たさない場合には、話者の交代を
検出したとみなし、平滑化バッファの初期化を行うこと
により(S122)、新しい話者に対する現話者に対し
て推定された最適な周波数軸変換係数αnを出力する。
【0070】このようにして、話者が交代しても認識率
を低下させず、しかも従来法のように指定された単語の
発声を促すこともなく、話者正規化を進めることが可能
となる。
【0071】(実施の形態3)次に、本発明の実施の形
態3の音声認識装置について説明する。
【0072】実施の形態1または実施の形態2では、一
段階のマッチング法を用いたが、実施の形態3では2段
階の認識方式について説明する。
【0073】本発明の実施の形態3における音声認識装
置の動作フローチャートを図7に示すが、実施の形態1
または実施の形態2と異なる部分についてのみ説明する
ものとする。
【0074】1段目の予備マッチングを行い(S50)、
出力される認識結果候補のうち少なくとも1つから表現
される音素系列に対して最適な周波数軸変換係数を推定
した後(S60)、話者交代を考慮して(S80)、現話者
に対して推定された最適な周波数軸変換係数を算出する
(S70)。さらにS70にて求めた最適な周波数軸変
換係数を用いて周波数軸変換を施した(S31)特徴量
を用いて、2段目の精密マッチング(S51)を行う実施
形態も可能である。
【0075】(実施例)以上、本実施例の構成を用い
て、100単語を発声した男女50名の音声データの認
識実験を行った。まず、オンライン「教師なし」話者正
規化を実現するために、変換係数平滑化の効果を調べる
実験を行った。この実験においては、あらかじめ話者正
規化を行わない条件で男女50名について認識率を算出
して、その結果認識性能の悪い10話者を対象とした。
【0076】図8に示す実験結果より、話者正規化学習
は、評価発声データを7単語以上ではその効果がほぼ飽
和していることから、評価発声データ10単語を単位と
すれば、オンライン「教師なし」話者正規化には十分効
果があることが分かる。
【0077】次に、音声区間情報に同期して周波数軸変
換を行う効果について男女50名について調べる実験を
行った。なお、変換係数平滑化のためのオンライン学習
データ数は10とした。その結果(表1)に示すよう
に、話者正規化を行う前は93.76%であったのに対
し、音声区間情報を用いずに話者正規化を一律に行った
場合、94.78%、本実施例に基づく有声音区間のみ
に話者正規化を行った場合は、95.44%に認識率が
改善され、誤り率もそれぞれ約16.0%、約26.9%、改善
された。
【0078】
【表1】
【0079】また、50名の中で認識率の悪い10名につい
ても効果が認められ、最低話者についても77%から、83
%、87%と大幅に改善された。このことから、音声区間
情報に同期して周波数軸変換を行なうことによる効果が
認められる。
【0080】なお、本実施例においては、単語マッチン
グ方法として端点フリーのDPマッチング法を用いた
が、HMM(隠れマルコフモデル)での実施も可能であ
る。
【0081】なお、本実施例においては、単語マッチン
グ時の距離尺度として共分散行列を共通化したマハラノ
ビス距離を用いたが、共分散行列を共通化しないマハラ
ノビス距離や、HMMから構成される音素モデルからを
用いて計算することもできる。
【0082】また、本実施例においては、認識対象を単
語としたが、これを連続発声認識する際に利用すること
も可能である。
【0083】なお、本実施例においては、音響的特徴を
表現する特徴量としてLPCメルケプストラム係数を用
いたが、LPCケプストラム係数、メルケプストラム係
数、ケプストラム係数での実施も可能である。
【0084】なお、本実施例においては、入力される音
声は、8kHzでサンプリングされたデータを用いたが、他
のサンプリング周波数についても実施可能である.な
お、本実施例においては、マッチングの際に音声区間情
報は用いなかったが、音声区間情報を用いて、音声の始
端を制限したマッチングなどを行うこともできる.
【0085】
【発明の効果】本発明によれば、声道長差に起因するス
ペクトルの伸縮の影響を除去するため、入力音声のスペ
クトルに対して周波数軸変換を行なうにあたり、過去所
定回数の発声から推定した変換係数の平均値を用いて、
推定された周波数軸変換係数のばらつきの影響を抑える
ことにより、オンライン「教師なし」条件で話者正規化
を実現し、高性能な音声認識装置を提供できるという効
果を得る。さらに、有声音/無声音などの音声区間情報
を利用して、声道特性に無関係な区間に対しては周波数
軸変換を行わず 有声音区間にのみ周波数軸変換を行う
ことにより、周波数軸変換係数の推定をより精度のよく
行なうことができるため認識率の向上を図ることが可能
である。
【図面の簡単な説明】
【図1】本発明の実施の形態における音声認識装置のブ
ロック図
【図2】本発明の実施の形態1における音声認識装置の
処理フローチャート
【図3】(a)最適変換係数推定処理のフローチャート (b)尤度計算処理フローチャート
【図4】変換係数平滑化処理のフローチャート
【図5】話者交代検出処理のフローチャート
【図6】本発明の実施の形態2における音声認識装置の
話者交代検出処理のフローチャート
【図7】本発明の実施の形態3における音声認識装置の
2段階認識処理のフローチャート
【図8】変換係数学習データバッファの大きさと認識率
を示す図
【図9】従来例の音声認識装置の処理フローチャート
【符号の説明】
1 音声取り込み手段 2 音響モデル 3 言語モデル 4 入力手段 5 メモリ 6 CPU 7 出力手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G10L 101:16 (72)発明者 木村 達也 神奈川県川崎市多摩区東三田3丁目10番1 号 松下技研株式会社内 Fターム(参考) 5D015 AA02 BB02 FF07 9A001 BB06 EE05 GG01 HH16 HH17

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の特徴量を抽出する特徴量抽出
    ステップと、前記入力音声の特徴量の周波数軸を少なく
    とも1つの周波数軸変換係数から構成される周波数軸変
    換係数列を用いて変換する周波数軸変換ステップと、前
    記周波数軸変換を施した入力音声の特徴量と予め複数の
    話者から学習した音響モデル特徴量とをマッチングし、
    認識結果候補を出力するマッチングステップと、前記認
    識結果候補のうち少なくとも1つから表現される音素系
    列に対して少なくとも1つの周波数軸変換係数から構成
    される最適な周波数軸変換係数列を推定する最適変換係
    数推定ステップと、前記求められた最適な周波数軸変換
    係数列と保持された過去に求められた周波数軸変換係数
    列とを平滑化し、新たな周波数軸変換係数列を更新・保
    持する変換係数平滑化ステップとを有することを特徴と
    する音声認識方法。
  2. 【請求項2】 変換係数平滑化ステップは、少なくとも
    1つの周波数軸変換係数から構成される最新の周波数軸
    変換係数列と、保持された過去に求められた少なくとも
    1つの周波数軸変換係数から構成される周波数軸変換係
    数列とを比較することによって話者の交代を検知するこ
    とを特徴とする請求項1記載の音声認識方法。
  3. 【請求項3】 入力音声の特徴量を抽出する特徴量抽出
    ステップと、前記入力音声から無声音/有声音区間を弁
    別検出する音声区間検出ステップと、前記入力音声の特
    徴量の周波数軸を前記無声音/有声音区間情報に応じて
    周波数軸変換係数列を用いて変換する周波数軸変換ステ
    ップと、前記周波数軸変換を施した入力音声の特徴量と
    予め複数の話者から学習した音響モデル特徴量とをマッ
    チングし、認識結果候補を出力するマッチングステップ
    と、前記認識結果候補のうち少なくとも1つから表現さ
    れる音素系列に対して少なくとも1つの周波数軸変換係
    数から構成される最適な周波数軸変換係数列を推定する
    最適変換係数推定ステップと、前記求められた最適な周
    波数軸変換係数列と保持された過去に求められた周波数
    軸変換係数列とを平滑化し、新たな周波数軸変換係数列
    を更新・保持する変換係数平滑化ステップとを有するこ
    とを特徴とする音声認識方法。
  4. 【請求項4】 最適変換係数推定ステップは、前記認識
    結果候補を求めた際に使用した少なくとも1つの周波数
    軸変換係数から構成される周波数軸変換係数列を基に複
    数の周波数軸変換係数列候補を設定し、それぞれの周波
    数軸変換係数毎に、前記マッチングステップの認識結果
    候補のうち少なくとも1つから表現される音素系列に対
    して、周波数軸変換を施して得られた入力音声特徴量と
    予め複数の話者から学習した音響モデル特徴量とマッチ
    ングにより尤度を求め、求めた尤度のうちで最大尤度を
    与える少なくとも1つの周波数軸変換係数から構成され
    る周波数軸変換係数列を選択することを特徴とする請求
    項1から3のいずれかに記載の音声認識方法。
  5. 【請求項5】 変換係数平滑化ステップは、未知話者に
    最適な周波数軸変換係数を平滑化する際に、保持された
    過去に求められた周波数軸変換係数の平均値と最新の周
    波数軸変換係数との距離を求め、所定の距離を満たす場
    合にのみ最新の係数として採用し、新たな周波数軸変換
    係数として出力することを特徴とする請求項1から4の
    いずれかに記載の音声認識方法。
  6. 【請求項6】 変換係数平滑化ステップは、未知話者に
    最適な周波数軸変換係数を平滑化する際に、保持された
    過去に求められた周波数軸変換係数の平均値と最新の周
    波数軸変換係数との距離を求め、所定の距離を満たさな
    い場合には、過去の周波数軸変換係数を任意の初期値を
    与えることによって初期化を行うことを特徴とする請求
    項2記載の音声認識方法。
  7. 【請求項7】 入力音声の特徴量を抽出する特徴量抽出
    手段と、前記入力音声の特徴量の周波数軸を周波数軸変
    換係数列を用いて変換する周波数軸変換手段と、前記周
    波数軸変換を施した入力音声の特徴量と予め複数の話者
    から学習した音響モデル特徴量とをマッチングし、認識
    結果候補を出力するマッチング手段と、前記認識結果候
    補のうち少なくとも1つから表現される音素系列に対し
    て少なくとも1つの周波数軸変換係数から構成される最
    適な周波数軸変換係数列を推定する最適変換係数推定手
    段と、前記求められた最適な周波数軸変換係数列と保持
    された過去に求められた周波数軸変換係数列とを平滑化
    し、新たな周波数軸変換係数列を更新・保持する変換係
    数平滑化手段とを有することを特徴とする音声認識装
    置。
  8. 【請求項8】 変換係数平滑化手段は、少なくとも1つ
    の周波数軸変換係数から構成される最新の周波数軸変換
    係数列と、保持された過去に求められた少なくとも1つ
    の周波数軸変換係数から構成される周波数軸変換係数列
    とを比較することによって話者の交代を検知することを
    特徴とする請求項7記載の音声認識装置。
  9. 【請求項9】 入力音声の特徴量を抽出する特徴量抽出
    手段と、前記入力音声から無声音/有声音区間を弁別検
    出する音声区間検出手段と、前記入力音声の特徴量の周
    波数軸を前記無声音/有声音区間情報に応じて周波数軸
    変換係数列を用いて変換する周波数軸変換手段と、前記
    周波数軸変換を施した入力音声の特徴量と予め複数の話
    者から学習した音響モデル特徴量とをマッチングし、認
    識結果候補を出力するマッチング手段と、前記認識結果
    候補のうち少なくとも1つから表現される音素系列に対
    して少なくとも1つの周波数軸変換係数から構成される
    最適な周波数軸変換係数列を推定する最適変換係数推定
    手段と、前記求められた最適な周波数軸変換係数列と保
    持された過去に求められた周波数軸変換係数列とを平滑
    化し、新たな周波数軸変換係数列を更新・保持する変換
    係数平滑化手段とを有することを特徴とする音声認識装
    置。
JP2000064919A 2000-03-09 2000-03-09 音声認識方法および音声認識装置 Expired - Lifetime JP4461557B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000064919A JP4461557B2 (ja) 2000-03-09 2000-03-09 音声認識方法および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000064919A JP4461557B2 (ja) 2000-03-09 2000-03-09 音声認識方法および音声認識装置

Publications (3)

Publication Number Publication Date
JP2001255886A true JP2001255886A (ja) 2001-09-21
JP2001255886A5 JP2001255886A5 (ja) 2007-03-08
JP4461557B2 JP4461557B2 (ja) 2010-05-12

Family

ID=18584540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000064919A Expired - Lifetime JP4461557B2 (ja) 2000-03-09 2000-03-09 音声認識方法および音声認識装置

Country Status (1)

Country Link
JP (1) JP4461557B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002101719A1 (en) * 2001-06-08 2002-12-19 Sony Corporation Voice recognition apparatus and voice recognition method
JP2006524359A (ja) * 2003-04-24 2006-10-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータで表示された時間特性の分析
JP2007010822A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
JP2007309979A (ja) * 2006-05-16 2007-11-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2008139747A (ja) * 2006-12-05 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP2009300837A (ja) * 2008-06-16 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体
JP2010096808A (ja) * 2008-10-14 2010-04-30 Nippon Telegr & Teleph Corp <Ntt> 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002101719A1 (en) * 2001-06-08 2002-12-19 Sony Corporation Voice recognition apparatus and voice recognition method
US7219055B2 (en) 2001-06-08 2007-05-15 Sony Corporation Speech recognition apparatus and method adapting best transformation function to transform one of the input speech and acoustic model
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
JP2006524359A (ja) * 2003-04-24 2006-10-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータで表示された時間特性の分析
JP4795934B2 (ja) * 2003-04-24 2011-10-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータで表示された時間特性の分析
JP2007010822A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
JP4550674B2 (ja) * 2005-06-29 2010-09-22 株式会社東芝 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
JP2007309979A (ja) * 2006-05-16 2007-11-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2008139747A (ja) * 2006-12-05 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP2009300837A (ja) * 2008-06-16 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体
JP2010096808A (ja) * 2008-10-14 2010-04-30 Nippon Telegr & Teleph Corp <Ntt> 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体

Also Published As

Publication number Publication date
JP4461557B2 (ja) 2010-05-12

Similar Documents

Publication Publication Date Title
EP0938727B1 (en) Speech processing system
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
TW514867B (en) Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JPH075892A (ja) 音声認識方法
KR20010102549A (ko) 화자 인식 방법 및 장치
JP4818556B2 (ja) 確率論的ロバスト音声処理
Eringis et al. Improving speech recognition rate through analysis parameters
CN110570842B (zh) 基于音素近似度和发音标准度的语音识别方法及系统
Herbig et al. Self-learning speaker identification for enhanced speech recognition
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP4696418B2 (ja) 情報検出装置及び方法
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2003330484A (ja) 音声認識装置及び音声認識方法
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP4244524B2 (ja) 音声認証装置、音声認証方法、及びプログラム
JP4655184B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP2976795B2 (ja) 話者適応化方式
JP3868798B2 (ja) 音声認識装置
JP5678912B2 (ja) 発声特定装置、プログラム
JP2506730B2 (ja) 音声認識方法
JP3754614B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070118

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091020

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20091119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4461557

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term