JP4901657B2 - 音声認識装置、その方法、そのプログラム、その記録媒体 - Google Patents
音声認識装置、その方法、そのプログラム、その記録媒体 Download PDFInfo
- Publication number
- JP4901657B2 JP4901657B2 JP2007230795A JP2007230795A JP4901657B2 JP 4901657 B2 JP4901657 B2 JP 4901657B2 JP 2007230795 A JP2007230795 A JP 2007230795A JP 2007230795 A JP2007230795 A JP 2007230795A JP 4901657 B2 JP4901657 B2 JP 4901657B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- trajectory
- function
- likelihood function
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
Xt+1=AXt+Nt (1)
上述のように、SはHMMの状態番号、Kはガウス分布の番号を表している。Xtは、トラジェクトリ時系列を5フレーム分まとめたものであり、Xt=[xt+2 xt+1 xt xt−1 xt―2]Qと表すことができる。xtは時刻tの時のトラジェクトリを示し、「Q」は転置を表す。また、行列C、A、M、Nについては、「発明を実施するための最良の形態」で詳細に説明する。式(1)からも理解できるように、1つの状態がS個の状態からなる混合ガウス分布において、1つずつの混合ガウス分布を状態方程式、観測方程式に変換し、S個の線形動的システムを作成する。また、スイッチング線形動的システムとは、複数の状態方程式と観測方程式とが時間とともに、線形動的システムが切り替わるモデルである。トラジェクトリ合成部14は、スイッチング線形動的システムデータベース12に保存されたスイッチング線形動的システムと特徴量抽出部2よりの静的特徴量と動的特徴量から、スイッチングカルマンフィルタを用いてトラジェクトリを求める。この処理では、まずスイッチングカルマンフィルタがスイッチング線形動的システムデータベース中の式(1)に示す状態方程式と観測方程式を使って、個々にカルマンフィルタを動作させる。
Y.Minami,E,McDermott,A Nakamura,and S,Katagiri,"A recognition method using synthesis-scoring that incorporates direct relations between static and dynamic feature vector time series "Workshop for Consistent & Reliable Acoustic Cues for Sound Analysis 2001. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A recognition method with parametric trajectory synthesized using direct relations between static and dynamic feature vector time eries,"Proc.ICASSP,pp.957-960,2002. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A Theoretical Analysis of Speech Recognition based on Feature Trajectory Models," in Proc ICSLP,vol.I,2004. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A recognition method with parametric generated from mixture distoribution HMMs,"Proc.ICASSP,pp.124-127 2003.
まず、学習用音声が入力されると、特徴量抽出部2は、静的特徴量、動的特徴量、を抽出する(ステップS102)。ここで、動的特徴量とは、例えば、静的特徴量(y)の一次微分成分(Δ成分)と二次微分成分(ΔΔ成分)のような、静的特徴量の時間変化を表すパラメータ(Δy、ΔΔy)である。
Xt+1=AXt+Nt (1)
ただし、tは時間を表し、Xtは、トラジェクトリ時系列を5フレーム分まとめたものであり、Xt=[xt+2 xt+1 xt xt−1 xt―2]Qと表すことができる。xtは時刻tの時のトラジェクトリを示し、「Q」は転置を表す。そして、行列AとCに関して、ここでは、以下のような行列を用いる。
分散がΣSK=diag[σSK 2 ΔσSK 2 ΔΔσSK 2]であるガウス分布に従う確率変数である。ここで、diagは[]内を対角要素にもつ対角行列を作成する関数である。MSKには次のようにHMMの平均値が代入される。
MSK=[uSK ΔuSK ΔΔuSK]Q
次に、図6と図7と図9を用いて、音声認識装置300による認識モードについて説明する。特徴量抽出部2は、入力音声の静的特徴量ytと動的特徴量(Δyt、ΔΔyt)を抽出する(ステップS202)。トラジェクトリ合成部104は、線形動的システムデータベース102よりの線形動的システムを参照することで、辞書データベース16に保存されている音素、単語、あるいは文章の候補から可能な全てのトラジェクトリを合成する(ステップS204)。また、必要に応じて、モデル変換部8が、HMMデータベース6に記憶されている音響モデルを線形動的システムに変換して、線形動的システムデータベースに記憶させてもよい。線形動的システムデータベース102が既に得られている場合は、モデル変換部8はなくてもよい。
Yt=[yt、Δyt、ΔΔyt]Q
Y1:T=Y1,Y2,...,YT
次に音声認識装置300の変形例1である音声認識装置300−1について説明する。HMMの状態数が多い場合には、式(3)において、可能な全てのトラジェクトリを生成し、入力音声と比較しなければならないので、実現できない。
次に音声認識装置300の変形例2である音声認識装置300−2について説明する。近似尤度関数P’(Y1:T)では、以下に示すHMMによる最大状態系列と分布系列以外のトラジェクトリの尤度を無視していることになり、高精度な認識をできない。そこで、尤度関数計算114は、更に、補正手段116を持たせる。補正手段116などの機能構成例を図10に示す。補正手段116は誤差近似手段1168と加算手段1170とで構成されている。誤差近似手段1168は、近似尤度関数P’(Y1:T)と尤度関数P(Y1:T)との誤差eをHMMの尤度を用いて近似することで、近似誤差e’を生成する。まず、誤差eは以下の式(7)で表すことができる。誤差eはe=│P(Y1:T)−P’(Y1:T)│で表すことができる。
次に、本発明の音声認識装置と、従来技術4の音声認識装置と、HMMを用いた音声認識装置と、を比較した実験結果を説明する。実験では、話者独立、タスク独立の認識を行った。サンプリングレートを16kHzとし、フレームシフトを10msとし、各状態のガウス分布数が2もしくは3である環境依存HMMを学習した。学習データとして、JNASデータの全ての男性話者を用いた。利用したデータは20078文章である。評価データとして、学習データと同条件で分析した男性75人による100都市発声を用いた。相発声数は、7198である。認識実験においては、ひとつの条件下では、誤差によって偶然性能が良くなるという可能性がある。この点を排除するために、作成する状態数を変化させて、複数の実験を行った。図11に混合ガウス分布数が2の場合の単語誤認識率の結果を示し、図12に混合ガウス分布数が3の場合の単語誤認識率の結果を示す。また、混合ガウス分布数が2の場合は、作成HMMの状態数を2589、1992、1611の3種類を用い、混合ガウス分布数が3の場合は、作成HMMの状態数を1992の1種類を用いた。図11、図12より、作成HMMの状態数がどの場合であっても、本発明の音声認識装置が、従来技術4の音声認識装置やHMMを用いた音声認識装置よりも認識精度が向上していることが分かる。
Claims (6)
- 入力音声から静的特徴量と動的特徴量を抽出する特徴量抽出部と、
音響モデルを記憶するHMMデータベースと、
前記線形動的システムを記憶する線形動的システムデータベースと、
線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリを合成するトラジェクトリ合成部と、
最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する尤度関数生成部と、
前記音響モデルの尤度を用いて、前記尤度関数を近似して近似尤度関数を生成する近似手段と、前記近似尤度関数と前記尤度関数との誤差を前記音響モデルの尤度を用いて近似することで近似誤差を生成し、前記近似尤度関数と前記近似誤差とを加算することで前記尤度関数を補正し補正尤度関数を生成する補正手段とを備え、当該補正尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算する尤度計算部と、
を備えることを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記トラジェクトリ合成部は、状態方程式と観測方程式を用いて、前記トラジェクトリを合成するものであることを特徴とする音声認識装置。 - 請求項1又は2に記載の音声認識装置において、
前記トラジェクトリ合成部は、カルマンフィルタを用いて前記トラジェクトリを合成するものであることを特徴とする音声認識装置。 - 入力音声から静的特徴量と動的特徴量を抽出する特徴量抽出過程と、
線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリを合成するトラジェクトリ合成過程と、
最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する尤度関数生成過程と、
前記音響モデルの尤度を用いて、前記尤度関数を近似して近似尤度関数を生成する近似ステップと、前記近似尤度関数と前記尤度関数との誤差を前記音響モデルの尤度を用いて近似することで近似誤差を生成し、前記近似尤度関数と前記近似誤差とを加算することで前記尤度関数を補正し補正尤度関数を生成する補正ステップとを含み、当該補正尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算する尤度計算過程と、
を有することを特徴とする音声認識方法。 - 請求項1〜3に記載の音声認識装置の各処理をコンピュータに実行させるための音声認識プログラム。
- 請求項5記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007230795A JP4901657B2 (ja) | 2007-09-05 | 2007-09-05 | 音声認識装置、その方法、そのプログラム、その記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007230795A JP4901657B2 (ja) | 2007-09-05 | 2007-09-05 | 音声認識装置、その方法、そのプログラム、その記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009063773A JP2009063773A (ja) | 2009-03-26 |
JP4901657B2 true JP4901657B2 (ja) | 2012-03-21 |
Family
ID=40558401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007230795A Active JP4901657B2 (ja) | 2007-09-05 | 2007-09-05 | 音声認識装置、その方法、そのプログラム、その記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4901657B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204391A (ja) * | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号モデル化方法、信号認識装置及び方法、パラメータ学習装置及び方法、特徴量生成装置及び方法並びにプログラム |
CN102483916B (zh) * | 2009-08-28 | 2014-08-06 | 国际商业机器公司 | 声音特征量提取装置和声音特征量提取方法 |
CN109545229B (zh) * | 2019-01-11 | 2023-04-21 | 华南理工大学 | 一种基于语音样本特征空间轨迹的说话人识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271185A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
JP2006171020A (ja) * | 2004-12-10 | 2006-06-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、音声特徴学習方法、それらの方法を用いた装置、プログラムおよびプログラムを記録した記録媒体 |
-
2007
- 2007-09-05 JP JP2007230795A patent/JP4901657B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009063773A (ja) | 2009-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4548646B2 (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
JP4245617B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
Huang et al. | An investigation of augmenting speaker representations to improve speaker normalisation for dnn-based speech recognition | |
US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
JP5242782B2 (ja) | 音声認識方法 | |
JP2007279444A (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP2008203469A (ja) | 音声認識装置及び方法 | |
Diakoloukas et al. | Maximum-likelihood stochastic-transformation adaptation of hidden Markov models | |
EP1457968A1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP4512848B2 (ja) | 雑音抑圧装置及び音声認識システム | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
JP4901657B2 (ja) | 音声認識装置、その方法、そのプログラム、その記録媒体 | |
Saheer et al. | VTLN adaptation for statistical speech synthesis | |
Lu et al. | Joint uncertainty decoding for noise robust subspace Gaussian mixture models | |
Zhang et al. | Minimum phoneme error based heteroscedastic linear discriminant analysis for speech recognition | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
US20120330664A1 (en) | Method and apparatus for computing gaussian likelihoods | |
JP4233831B2 (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
Miao et al. | Learning discriminative basis coefficients for eigenspace MLLR unsupervised adaptation | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
JP5694976B2 (ja) | 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110809 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111220 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4901657 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150113 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |