JP2008107408A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2008107408A
JP2008107408A JP2006287803A JP2006287803A JP2008107408A JP 2008107408 A JP2008107408 A JP 2008107408A JP 2006287803 A JP2006287803 A JP 2006287803A JP 2006287803 A JP2006287803 A JP 2006287803A JP 2008107408 A JP2008107408 A JP 2008107408A
Authority
JP
Japan
Prior art keywords
acoustic
score
standard pattern
word
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006287803A
Other languages
English (en)
Other versions
JP4749990B2 (ja
Inventor
Jun Ishii
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006287803A priority Critical patent/JP4749990B2/ja
Publication of JP2008107408A publication Critical patent/JP2008107408A/ja
Application granted granted Critical
Publication of JP4749990B2 publication Critical patent/JP4749990B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】騒音が大きい場合や周波数特性が異なる場合でも、高い音声認識率を保持することができる音声認識装置を得ることを目的とする。
【解決手段】音声認識装置の使用環境を表す指標として、音声信号のSNRを計算するSNR計算部8と、SNR計算部8により計算されたSNRに応じて音響スコアと継続時間長スコアの重み係数αを計算する重み係数計算部9とを設ける。これにより、騒音が大きい場合でも高い音声認識率を保持することができる。
【選択図】図1

Description

この発明は、人間から発声された音声を認識して、その発声内容を出力する音声認識装置に関するものであり、特に音響スコアと音声片単位の継続時間長スコアを用いて音声を認識する音声認識装置に関するものである。
音声認識装置は、ユーザである人間から発声された音声の内容を認識する機械であり、例えば、音声による機器操作や電話の自動応答システムなどに実用されている。
従来の音声認識装置の構成は、例えば、以下の非特許文献1,2に詳細に開示されているが、音声を認識する際に用いる音響スコアと継続時間長スコアの寄与度は、予め定められた比率としている。
「確率モデルによる音声認識」中川聖一著、1988年、コロナ社出版 「デジタル音声処理」古井貞煕著、1985年、東海大学出版
従来の音声認識装置は以上のように構成されているので、音声を認識する際に用いる音響スコアと継続時間長スコアの寄与度が適正であれば、精度よく音声を認識することができる。しかし、入力音声に周囲騒音が混入すると音響スコアが低下するため、音響スコアと継続時間長スコアの寄与度のバランスが悪くなり、音声の認識率が低下することがある課題があった。
また、マイクやA/D変換器の周波数特性が、音響標準パタンを作成する際に使用された音声信号の周波数特性と異なる場合には音響スコアが低下するため、音響スコアと継続時間長スコアの寄与度のバランスが悪くなり、音声の認識率が低下することがある課題があった。
この発明は上記のような課題を解決するためになされたもので、騒音が大きい場合や周波数特性が異なる場合でも、高い音声認識率を保持することができる音声認識装置を得ることを目的とする。
この発明に係る音声認識装置は、使用環境に適する音響スコアと継続時間長スコアの重み係数を算出する重み係数算出手段を設け、照合手段が重み係数算出手段により算出された重み係数と標準パタン作成手段により作成された標準パタンを用いて、音響分析手段により抽出された音声区間の音響特徴量と単語辞書に格納されている各単語を照合し、各単語の照合スコアを算出するようにしたものである。
この発明によれば、使用環境に適する音響スコアと継続時間長スコアの重み係数を算出する重み係数算出手段を設け、照合手段が重み係数算出手段により算出された重み係数と標準パタン作成手段により作成された標準パタンを用いて、音響分析手段により抽出された音声区間の音響特徴量と単語辞書に格納されている各単語を照合し、各単語の照合スコアを算出するように構成したので、騒音が大きい場合や周波数特性が異なる場合でも、高い音声認識率を保持することができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置を示す構成図であり、図において、音声区間検出部1はユーザから発声された音声を含む音声信号(入力信号)を入力すると、その音声信号の中に含まれている音声を検出して、その音声信号における音声区間(音声が含まれている区間)を検出する処理を実施する。なお、音声区間検出部1は音声区間検出手段を構成している。
音響分析部2は入力した音声信号のうち、音声区間検出部1により検出された音声区間の音声信号に対する音響分析を実施して、その音声区間の音響特徴量を抽出する処理を実施する。なお、音響分析部2は音響分析手段を構成している。
単語辞書3は音声認識対象の単語のテキスト表記[W(1),W(2),・・・,W(N)](括弧内は単語番号、Nは総単語数)を格納している。
継続時間長標準パタン格納部4は短い音声片単位の継続時間長の標準パタンである継続時間長標準パタンを格納しているメモリである。
「継続時間長標準パタン」は、照合処理部10が後述する照合処理を実施したとき、音声片単位の継続時間の妥当性が高い場合には、高い照合スコアを出力させる標準パタンである。
また、「音声片」は、例えば、音節や音素であり、音響標準パタンにHMM(Hidden Markov Model)を用いる場合には1状態の単位の音声である。
音響標準パタン格納部5は音声片単位の音響標準パタンを格納しているメモリである。
単語継続時間長標準パタン作成部6は継続時間長標準パタン格納部4に格納されている継続時間長標準パタンを参照して、単語辞書3に格納されている各単語に対応する単語継続時間長標準パタンを作成する処理を実施する。
単語音響標準パタン作成部7は音響標準パタン格納部5に格納されている音響標準パタンを参照して、単語辞書3に格納されている各単語に対応する単語音響標準パタンを作成する処理を実施する。
なお、継続時間長標準パタン格納部4、音響標準パタン格納部5、単語継続時間長標準パタン作成部6及び単語音響標準パタン作成部7から標準パタン作成手段が構成されている。
SNR計算部8は音声認識装置の使用環境を表す指標として、音声信号のSNR(Signal to Noise Ratio:信号対雑音比)を計算する処理を実施する。
重み係数計算部9はSNR計算部8により計算されたSNRに応じて音響スコアと継続時間長スコアの重み係数αを計算する処理を実施する。
なお、SNR計算部8及び重み係数計算部9から重み係数算出手段が構成されている。
照合処理部10は重み係数計算部9により計算された重み係数αと、単語継続時間長標準パタン作成部6により作成された単語継続時間長標準パタン及び単語音響標準パタン作成部7により作成された単語音響標準パタンとを用いて、音響分析部2により抽出された音声区間の音響特徴量と単語辞書3に格納されている各単語を照合し、各単語の照合スコアを算出する処理を実施する。なお、照合処理部10は照合手段を構成している。
認識結果出力部11は照合処理部10により算出された照合スコアが高い上位数個の単語を音声認識結果として出力する処理を実施する。なお、認識結果出力部11は認識結果出力手段を構成している。
図1では、音声認識装置の構成要素である音声区間検出部1、音響分析部2、単語継続時間長標準パタン作成部6、単語音響標準パタン作成部7、SNR計算部8、重み係数計算部9、照合処理部10及び認識結果出力部11が専用のハードウェア(例えば、MPUなどを実装している半導体集積回路基板)で構成されていることを想定しているが、音声区間検出部1、音響分析部2、単語継続時間長標準パタン作成部6、単語音響標準パタン作成部7、SNR計算部8、重み係数計算部9、照合処理部10及び認識結果出力部11の処理内容を記述している音声認識プログラムを音声認識装置のメモリに格納し、音声認識装置のCPUが当該メモリに格納されている音声認識プログラムを実行するようにしてもよい。
図2はこの発明の実施の形態1による音声認識装置の処理内容を示すフローチャートである。
次に動作について説明する。
音声区間検出部1は、ユーザから発声された音声を含む音声信号を入力すると(ステップST1)、その音声信号の中に含まれている音声を検出して、その音声信号における音声区間(音声が含まれている区間)を検出する(ステップST2)。
ここで、音声信号は、ユーザから発声された音声を含む信号がデジタル化されたものである。
音声信号のデジタル化には、例えば、サンプリング周波数が16KHz、量子化ビット数が16ビットのPCM(Pulse Code Modulation)符号化が用いられる。
なお、音声区間検出部1における音声区間の検出処理は、例えば、非特許文献2の8.2節に開示されている方法を利用すればよいので、詳細な処理内容は省略する。
SNR計算部8は、音声区間検出部1が音声信号における音声区間を検出すると、音声認識装置の使用環境を表す指標として、音声信号のSNRを計算する(ステップST3)。
ここで、SNRは、音声のパワーと、周囲の騒音のパワーとのパワー比である。SNRが高い場合には、相対的に音声パワーが大きく品質の良い音声であると言える。一方、SNRが低い場合には、相対的に騒音パワーが大きく品質の悪い音声と言える。
具体的には、下記の式(1)を用いて、音声信号のSNRを計算する。
Figure 2008107408
ただし、Sigは音声区間の平均パワー、Noiは非音声区間(音声区間以外の区間)の平均パワーである。
SNR計算部8は、音声区間の開始フレームをTs、終了フレームをTeとして、下記の式(2)を用いて、音声区間の平均パワーSigを計算する。
Figure 2008107408
ただし、xt(m)はフレームtのサンプル番号mの信号の値であり、Fは1フレーム当りのサンプル数である。
また、SNR計算部8は、上述したように、Noiは非音声区間の平均パワーであるので、下記の式(3)に示すように、例えば、音声区間の開始フレームTsのKフレーム前から1フレーム前までの区間で計算している。
Figure 2008107408
重み係数計算部9は、SNR計算部8がSNRを計算すると、そのSNRに応じて音響スコアと継続時間長スコアの重み係数αを計算する(ステップST4)。
以下、重み係数αの計算方法について説明する。
まず、音響スコアと継続時間長スコアを用いる音声の認識処理においては、認識対象単語i(iは単語番号)を仮定する場合のスコアLiは、下記の式(4)で表される。
i=Ai+Di (4)
ただし、Aiは単語iを仮定する場合の音響スコア、Diは単語iを仮定する場合の継続時間長スコアである。
音響スコアAiは、後述する単語音響標準パタン作成部7により作成される単語音響標準パタンと、音響分析部2により抽出される音響特徴量との音響的な類似度を表すものである。主に、スペクトル情報の類似度によってスコアが計算される。
また、継続時間長スコアDiは、単語iを構成する音声片(音素、音節、HMMの状態など)毎の継続時間を求め、後述する単語継続時間長標準パタン作成部6により作成される単語継続時間長標準パタンを用いて計算する継続時間長の妥当性を表すスコアである。
重み係数計算部9が上記の式(4)によってスコアLiを計算するとき、周囲に騒音が存在する場合には、周囲騒音が音声信号に混入し、騒音が無い場合と比べて音響スコアAiが低い値になる。
その理由は、音響標準パタン格納部5に格納されている音響標準パタン(照合処理部10が照合に用いる音響標準パタン)が、周囲に騒音が無い状況で発声した音声から作成されているので、騒音が混入している音声信号と不整合が生じるからである。
一方、継続時間長スコアDiは、周囲の騒音の影響によってスコアが低下することが無い。
したがって、音響スコアと継続時間長スコアの重み係数αが従来のように固定値であるとすると、周囲に騒音が存在する場合は、音響スコアAiの低下に伴ってスコアLiに占める音響スコアAiの比率が低くなり、誤認識を引き起こす可能性が高くなる。
そこで、重み係数計算部9は、周囲に騒音が存在する場合の誤認識を防止するため、SNR計算部8により計算されたSNRに応じて音響スコアと継続時間長スコアの重み係数αを変更するようにしている。
即ち、重み係数計算部9は、下記の式(5)に示すように、周囲の騒音が大きくなり、SNRが悪くなるほど、重み係数αを小さな値に設定する。
これにより、騒音の影響で音響スコアAiが低下しても、継続時間長スコアとの寄与度のバランスを適正に保つことが可能になり、誤認識を減らすことができる。
α=y+SNR×z (5)
ただし、yは定数、zは正の定数である。
ここでは、重み係数計算部9が、SNRが悪くなるほど、重み係数αを小さな値に設定するものについて示したが、SNRが予め定められた値以上の場合や、騒音パワーNoiが予め定められた値以下の静かな環境の場合、重み係数αを固定値にしてもよい。
また、重み係数αの上限値と下限値を予め設定して、重み係数αの変動範囲を制限してもよい。
以上の説明においては、音響標準パタン格納部5に格納されている音響標準パタン(照合処理部10が照合に用いる音響標準パタン)が、周囲に騒音が無い状況で発声した音声から作成されているものとして説明したが、周囲に騒音が有る状況で作成されて、騒音が音響標準パタンに混入している場合でも実現可能である。
この場合、音響標準パタン格納部5に格納されている音響標準パタンを作成したときのSNRと、SNR計算部8により計算されたSNRとの差が大きくなると、不整合により音響スコアAiが低下する。
したがって、音響標準パタン格納部5に格納されている音響標準パタンを作成したときのSNRと、SNR計算部8により計算されたSNRとの差が小さい場合には、音響スコアAiと継続時間長スコアDiの重み係数αを大きな値に設定する。
一方、音響標準パタン格納部5に格納されている音響標準パタンを作成したときのSNRと、SNR計算部8により計算されたSNRとの差が大きい場合には、音響スコアAiと継続時間長スコアDiの重み係数αを小さな値に設定する。
これにより、音響スコアAiと継続時間長スコアDiの比率のバランスが適正に保たれて認識率が向上する。
次に、音響分析部2は、音声信号を入力し、音声区間検出部1が音声区間を検出すると、音声区間の音声信号に対する音響分析を実施して、その音声区間の音響特徴量を抽出する(ステップST5)。
音響特徴量は、音声信号を5ミリ秒〜20ミリ秒程度の一定時間間隔のフレームで切り出し、そのフレームに対する音響分析を実施して得られる音響特徴量ベクトルの時系列O=[o(1),o(2),・・・,o(T)](Tは総フレーム数)である。
なお、音響特徴量は、少ない情報量で音声の特徴を表現することができるものであり、例えば、ケプストラムの1次から12次元、ケプストラムの1次から12次元の動的特徴及び対数パワーの動的特徴の物理量で構成する特徴量ベクトルである。
次に、単語継続時間長標準パタン作成部6は、継続時間長標準パタン格納部4に格納されている継続時間長標準パタンを参照して、単語辞書3に格納されている各単語に対応する単語継続時間長標準パタンを作成する(ステップST6)。
単語辞書3には、音声認識の対象となる単語のテキスト表記[W(1),W(2),・・・,W(N)](括弧内は単語番号、Nは総単語数)が格納されている。
例えば、認識対象が地名の場合には、W(1)が「よこはま」、W(2)が「かまくら」、W(3)が「ふじさわ」・・・として、単語辞書3に格納されている。
継続時間長標準パタン格納部4に格納されている継続時間長標準パタンは、短い音声片単位の継続時間長の標準パタンである。
後述する照合処理部10が照合処理を実施したとき、音声片単位の継続時間の妥当性が高い場合には、高いスコアを出力する標準パタンである。
ここで、音声片は、例えば、音節や音素であり、音響標準パタンにHMMを用いる場合には1状態の単位の音声である。
以下、音声片単位をHMMの1状態とする場合の継続時間長標準パタン[ψ(1),ψ(2),・・・,ψ(M)](括弧内は状態番号、Mは総状態数)を用いて、単語継続時間長標準パタン[Ψ(1),Ψ(2),・・・,Ψ(N)](括弧内は単語番号、Nは総単語数)を作成する方法について説明する。
状態s(n)(nは状態番号)の継続時間長標準パタンψ(n)は、照合処理を実施したとき、状態s(n)に連続して割り当てられるフレーム数を継続時間長として、その妥当性をスコアとして出力する。
状態s(n)において、τフレーム連続した場合の継続時間長スコアdn(τ)は、例えば、下記の式(6)に示すような確率値で与えることができる。
n(τ)=P(τ|Ψ(n)) (6)
ただし、P(τ|Ψ(n))は、多数の単語や文が発声された音声を用いて求めるものとする。
単語や文をHMMで構成した際に含まれる状態s(n)の個数がC(s(n))、τフレーム連続した回数がC(τ,s(n))とすると、P(τ|Ψ(n))は、下記のように求められる。
P(τ|Ψ(n))=C(τ,s(n))/C(s(n)) (7)
その他、継続時間長の平均値と分散を求め、ガウス分布を仮定した確率密度関数を利用して、P(τ|Ψ(n))を求めるようにしてもよい。
単語iの単語継続時間長標準パタンは、音節と状態系列の対応を予め定義しておき、単語辞書3に登録されている単語のテキスト表記W(i)にしたがって継続時間長標準パタンを連結することにより作成する。
例えば、音節と状態系列の対応が図3のような場合には、単語iのテキスト表記が「よこはま」であれば、音節「よ」に対応する継続時間長標準パタンの系列ψ(76)、ψ(92)、ψ(104)、音節「こ」に対応する継続時間長標準パタンの系列ψ(4)、ψ(9)、ψ(5)、音節「は」に対応する継続時間長標準パタンの系列ψ(10)、ψ(30)、ψ(21)、音節「ま」に対応する継続時間長標準パタンの系列ψ(101)、ψ(200)、ψ(202)を並べたものが単語継続時間長標準パタンΨ(i)になる。
次に、単語音響標準パタン作成部7は、音響標準パタン格納部5に格納されている音響標準パタンを参照して、単語辞書3に格納されている各単語に対応する単語音響標準パタンを作成する(ステップST7)。
音響標準パタン格納部5に格納されている音響標準パタンは、音声片単位の音響標準パタンであり、音響分析部2により抽出される音響特徴量Oに対して音響的なスコアを計算するためのものである。
音響的なスコアを計算する方法としては、例えば、HMMを用いることができる。HMMについては、非特許文献1に詳細が記載されているので説明は省略する。
以下、音声片単位がHMMの1状態の場合を例にして、単語音響標準パタンの作成方法について説明する。
HMMの状態s(n)の音響標準パタンλ(n)は、音響分析部2により抽出される音響特徴量Oが、HMMの状態s(n)に音響的に近いときに、高いスコアを出すものである。
単語iの単語音響標準パタン[Λ(1),Λ(2),・・・,Λ(N)](括弧内は単語番号、Nは総単語数)は、音節と状態系列の対応を予め定義しておき、単語辞書3に登録されている単語のテキスト表記W(i)にしたがって音響標準パタンを連結することにより作成する。
例えば、音節と状態系列の対応が図3のような場合には、単語iのテキスト表記が「よこはま」であれば、音節「よ」に対応する音響標準パタンの系列λ(76)、λ(92)、λ(104)、音節「こ」に対応する音響標準パタンの系列λ(4)、λ(9)、λ(5)、音節「は」に対応する音響標準パタンの系列λ(10)、λ(30)、λ(21)、音節「ま」に対応する音響標準パタンの系列λ(101)、λ(200)、λ(202)を並べたものが単語音響標準パタンΛ(i)になる。
次に、照合処理部10は、重み係数計算部9により計算された重み係数αと、単語継続時間長標準パタン作成部6により作成された単語継続時間長標準パタンΨ(i)と、単語音響標準パタン作成部7により作成された単語音響標準パタンΛ(i)とを用いて、音響分析部2により抽出された音声区間の音響特徴量と単語辞書3に格納されている認識対象単語iを照合し、認識対象単語iの照合スコアLiを算出する(ステップST8)。
音声片がHMMの1状態に相当する場合には、認識対象単語iの照合スコアLiは、下記の式(8)で表される。
Figure 2008107408
式(8)において、Qは状態の時系列[q1,q2,・・・,qT](Tは音声区間の総フレーム数)であり、照合スコアLiが最大になる最適状態系列Qを求め、このときのスコアLiを単語iのスコアとするものである。
最適状態系列Qは、例えば、非特許文献1の3章で説明されているViterbiアルゴリズムで求めることが可能である。
logP(O,Q|Λ(i))は音響スコアに相当する。HMMを用いた音響スコア計算については、非特許文献1の3章に記載されている。
また、logP(Q|Ψ(i))は継続時間長スコアに相当し、継続時間長スコアは下記の式(9)によって求める。
Figure 2008107408
式(9)において、Kiは単語iの継続時間長標準パタンの総数である。また、τkはk番目の状態の継続時間長である。
図4はHMMを用いた照合の最適パスの一例を示す説明図である。
図4において、横軸はフレーム時刻、縦軸は状態である。S(i,k)は単語iのk番目の状態を示し、矢印が最適パスを表している。
図4の例では、状態S(i,1)に4フレーム、状態S(i,2)に1フレーム、状態S(i,3)に3フレーム、状態S(i,4)に1フレーム、状態S(i,5)に1フレームが継続時間になっている。この場合の継続時間長スコアは、下記の式(10)で表される。
Figure 2008107408
式(8)における音響スコアと継続時間長スコアの重み係数αは、SNRが高い場合は大きく、SNRが低い場合は小さく設定する重み係数である。したがって、周囲の騒音が大きくてSNRが低下し、音響スコアAiが低くなった場合には、重み係数αを小さく設定して、継続時間長スコアDiの比率が高くなり過ぎることを防ぐので誤認識が減る。
最後に、認識結果出力部11は、照合処理部10が認識対象単語iの照合スコアLiを算出すると、認識対象単語iの照合スコアLiを比較して、照合スコアLiが高い上位Nb個の単語を選択し、上位Nb個の単語を音声認識結果として出力する(ステップST9)。
以上で明らかなように、この実施の形態1によれば、音声認識装置の使用環境を表す指標として、音声信号のSNRを計算するSNR計算部8と、SNR計算部8により計算されたSNRに応じて音響スコアと継続時間長スコアの重み係数αを計算する重み係数計算部9とを設け、照合処理部10が重み係数計算部9により計算された重み係数αと、単語継続時間長標準パタン作成部6により作成された単語継続時間長標準パタンΨ(i)と、単語音響標準パタン作成部7により作成された単語音響標準パタンΛ(i)とを用いて、音響分析部2により抽出された音声区間の音響特徴量と単語辞書3に格納されている認識対象単語iを照合して、認識対象単語iの照合スコアLiを算出するように構成したので、周囲の騒音が大きくてSNRが低下しても、音響スコアと継続時間長スコアの比率を適正に保つことができるようになり、その結果、高い音声認識率を保持することができる効果を奏する。
実施の形態2.
図5はこの発明の実施の形態2による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
騒音パワー計算部21は音声認識装置の使用環境を表す指標として、音声区間検出部1により検出された音声区間ではない非音声区間のパワーから騒音パワーを計算する処理を実施する。
重み係数計算部22は騒音パワー計算部21により計算された騒音パワーに応じて音響スコアと継続時間長スコアの重み係数αを計算する処理を実施する。
なお、騒音パワー計算部21及び重み係数計算部22から重み係数算出手段が構成されている。
図5では、音声認識装置の構成要素である音声区間検出部1、音響分析部2、単語継続時間長標準パタン作成部6、単語音響標準パタン作成部7、騒音パワー計算部21、重み係数計算部22、照合処理部10及び認識結果出力部11が専用のハードウェア(例えば、MPUなどを実装している半導体集積回路基板)で構成されていることを想定しているが、音声区間検出部1、音響分析部2、単語継続時間長標準パタン作成部6、単語音響標準パタン作成部7、騒音パワー計算部21、重み係数計算部22、照合処理部10及び認識結果出力部11の処理内容を記述している音声認識プログラムを音声認識装置のメモリに格納し、音声認識装置のCPUが当該メモリに格納されている音声認識プログラムを実行するようにしてもよい。
図6はこの発明の実施の形態2による音声認識装置の処理内容を示すフローチャートである。
上記実施の形態1では、SNR計算部8が音声認識装置の使用環境を表す指標として、音声信号のSNRを計算し、重み係数計算部9がSNR計算部8により計算されたSNRに応じて音響スコアと継続時間長スコアの重み係数αを計算するものについて示したが、騒音パワー計算部21が音声認識装置の使用環境を表す指標として、音声区間検出部1により検出された音声区間ではない非音声区間のパワーから騒音パワーを計算し、重み係数計算部22が騒音パワー計算部21により計算された騒音パワーに応じて音響スコアと継続時間長スコアの重み係数αを計算するようにしてもよく、上記実施の形態1と同様の効果を奏することができる。
図5の音声認識装置では、SNR計算部8及び重み係数計算部9の代わりに、騒音パワー計算部21及び重み係数計算部22を実装している点以外は、図1の音声認識装置と同様であるため、ここでは、騒音パワー計算部21及び重み係数計算部22の処理内容のみを説明する。
騒音パワー計算部21は、音声区間検出部1が音声区間を検出すると、下記の式(11)に示すように、音声区間ではない非音声区間の平均パワーを計算し、その非音声区間の平均パワーを騒音パワーNoiとして重み係数計算部22に出力する(ステップST11)。
Figure 2008107408
なお、式(11)は、前述の式(3)と同じである。
重み係数計算部22は、騒音パワー計算部21が騒音パワーNoiを計算すると、その騒音パワーNoiに応じて音響スコアと継続時間長スコアの重み係数αを計算する(ステップST12)。
以下、重み係数αの計算方法について説明する。
まず、音響スコアと継続時間長スコアを用いる音声の認識処理においては、認識対象単語iを仮定する場合のスコアLiは、前述の式(4)で表される。
重み係数計算部22が上記の式(4)によってスコアLiを計算するとき、周囲に騒音が存在する場合には、周囲騒音が音声信号に混入し、騒音が無い場合と比べて音響スコアAiが低い値になる。
その理由は、上述したように、音響標準パタン格納部5に格納されている音響標準パタン(照合処理部10が照合に用いる音響標準パタン)が、周囲に騒音が無い状況で発声した音声から作成されているので、騒音が混入している音声信号と不整合が生じるからである。
一方、継続時間長スコアDiは、周囲の騒音の影響によってスコアが低下することが無い。
したがって、音響スコアと継続時間長スコアの重み係数αが従来のように固定値であるとすると、周囲に騒音が存在する場合は、音響スコアAiの低下に伴ってスコアLiに占める音響スコアAiの比率が低くなり、誤認識を引き起こす可能性が高くなる。
そこで、重み係数計算部22は、周囲に騒音が存在する場合の誤認識を防止するため、騒音パワー計算部21により計算された騒音パワーNoiに応じて音響スコアと継続時間長スコアの重み係数αを変更するようにしている。
即ち、重み係数計算部22は、下記の式(12)に示すように、周囲の騒音が大きくなり、騒音パワーNoiが大きくなるほど、重み係数αを小さな値に設定する。
これにより、騒音の影響で音響スコアAiが低下しても、継続時間長スコアとの寄与度のバランスを適正に保つことが可能になり、誤認識を減らすことができる。
α=y−Noi×z (12)
ただし、yは定数、zは正の定数である。
ここでは、重み係数計算部22が、騒音パワーNoiが大きくなるほど、重み係数αを小さな値に設定するものについて示したが、騒音パワーNoiが予め定められた値以下の静かな環境であるならば、重み係数αを固定値にしてもよい。
また、重み係数αの上限値と下限値を予め設定して、重み係数αの変動範囲を制限してもよい。
以上の説明においては、音響標準パタン格納部5に格納されている音響標準パタン(照合処理部10が照合に用いる音響標準パタン)が、周囲に騒音が無い状況で発声した音声から作成されているものとして説明したが、周囲に騒音が有る状況で作成されて、騒音が音響標準パタンに混入している場合でも実現可能である。
この場合、音響標準パタン格納部5に格納されている音響標準パタンを作成したときの騒音パワーと、騒音パワー計算部21により計算された騒音パワーとの差が大きくなると、不整合により音響スコアAiが低下する。
したがって、音響標準パタン格納部5に格納されている音響標準パタンを作成したときの騒音パワーと、騒音パワー計算部21により計算された騒音パワーとの差が小さい場合には、音響スコアAiと継続時間長スコアDiの重み係数αを大きな値に設定する。
一方、音響標準パタン格納部5に格納されている音響標準パタンを作成したときの騒音パワーと、騒音パワー計算部21により計算された騒音パワーとの差が大きい場合には、音響スコアAiと継続時間長スコアDiの重み係数αを小さな値に設定する。
これにより、音響スコアAiと継続時間長スコアDiの比率のバランスが適正に保たれて認識率が向上する。
以上で明らかなように、この実施の形態2によれば、音声認識装置の使用環境を表す指標として、騒音パワーを計算する騒音パワー計算部21と、騒音パワー計算部21により計算された騒音パワーに応じて音響スコアと継続時間長スコアの重み係数αを計算する重み係数計算部22とを設け、照合処理部10が重み係数計算部22により計算された重み係数αと、単語継続時間長標準パタン作成部6により作成された単語継続時間長標準パタンΨ(i)と、単語音響標準パタン作成部7により作成された単語音響標準パタンΛ(i)とを用いて、音響分析部2により抽出された音声区間の音響特徴量と単語辞書3に格納されている認識対象単語iを照合して、認識対象単語iの照合スコアLiを算出するように構成したので、周囲の騒音が大きくて音響スコアAiが低下しても、音響スコアAiと継続時間長スコアDiの比率を適正に保つことができるようになり、その結果、高い音声認識率を保持することができる効果を奏する。
実施の形態3.
図7はこの発明の実施の形態3による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
音節全接続辞書31は全ての音節が接続可能であることを表す辞書である。例えば、図9に示すように、音節がネットワーク状に接続されている言語制約が音節全接続辞書31である。
音節全接続音響標準パタン作成部32は音節全接続辞書31と音響標準パタン格納部5に格納されている音響標準パタンを参照して、音節全接続音響標準パタンを作成する処理を実施する。
音節全接続照合部33は音節全接続音響標準パタン作成部32により作成された音節全接続音響標準パタンと音響分析部2により抽出された音響特徴量Oを照合して照合スコアLsを算出する処理を実施する。
重み係数計算部34は音節全接続照合部33により算出された照合スコアLsに応じて音響スコアと継続時間長スコアの重み係数αを計算する処理を実施する。
なお、音節全接続辞書31、音節全接続音響標準パタン作成部32、音節全接続照合部33及び重み係数計算部34から重み係数算出手段が構成されている。
図7では、音声認識装置の構成要素である音声区間検出部1、音響分析部2、単語継続時間長標準パタン作成部6、単語音響標準パタン作成部7、音節全接続音響標準パタン作成部32、音節全接続照合部33、重み係数計算部34、照合処理部10及び認識結果出力部11が専用のハードウェア(例えば、MPUなどを実装している半導体集積回路基板)で構成されていることを想定しているが、音声区間検出部1、音響分析部2、単語継続時間長標準パタン作成部6、単語音響標準パタン作成部7、音節全接続音響標準パタン作成部32、音節全接続照合部33、重み係数計算部34、照合処理部10及び認識結果出力部11の処理内容を記述している音声認識プログラムを音声認識装置のメモリに格納し、音声認識装置のCPUが当該メモリに格納されている音声認識プログラムを実行するようにしてもよい。
図8はこの発明の実施の形態3による音声認識装置の処理内容を示すフローチャートである。
上記実施の形態1では、SNR計算部8が音声認識装置の使用環境を表す指標として、音声信号のSNRを計算し、重み係数計算部9がSNR計算部8により計算されたSNRに応じて音響スコアと継続時間長スコアの重み係数αを計算するものについて示したが、音節全接続照合部33が音節全接続音響標準パタン作成部32により作成された音節全接続音響標準パタンと音響分析部2により抽出された音響特徴量Oを照合して照合スコアLsを算出し、重み係数計算部34が音節全接続照合部33により算出された照合スコアLsに応じて音響スコアと継続時間長スコアの重み係数αを計算するようにしてもよい。
図7の音声認識装置では、SNR計算部8及び重み係数計算部9の代わりに、音節全接続辞書31、音節全接続音響標準パタン作成部32、音節全接続照合部33及び重み係数計算部34を実装している点以外は、図1の音声認識装置と同様であるため、ここでは、音節全接続辞書31、音節全接続音響標準パタン作成部32、音節全接続照合部33及び重み係数計算部34の処理内容のみを説明する。
音節全接続音響標準パタン作成部32は、音節全接続辞書31と音響標準パタン格納部5に格納されている音響標準パタンを参照して、音節全接続音響標準パタンを作成する(ステップST21)。
ここで、音節全接続辞書31は全ての音節が接続可能であることを表す辞書であり、例えば、図9に示すように、音節がネットワーク状に接続されている言語制約が音節全接続辞書31である。
音節全接続音響標準パタンには、音節標準パタンΛs(1)〜Λs(Ns)(Nsは音節数)と、全音素が接続可能であるという接続ルール情報が含まれる。
音節全接続照合部33は、音響分析部2が音響特徴量Oを抽出すると(ステップST5)、その音響特徴量Oと音節全接続音響標準パタン作成部32により作成された音節全接続音響標準パタンを照合して照合スコアLsを算出する(ステップST22)。
照合スコアLsは、下記の式(13)に示すように、音響分析部2により抽出された音響特徴量Oに対して、照合スコアLsが最大になる音節標準パタンの最適系列Λs(p1),Λs(p2),・・・,Λs(pM)(pjは最適系列のj番目の音節番号)を求めることで計算する。
Figure 2008107408
なお、音節標準パタンの最適系列は、例えば、非特許文献2の8.8節に示されている連続音声認識の手法を用いることによって抽出することができる。
ここでは、音節全接続標準パタンを用いることでスコアを計算したが、音素全接続標準パタンやHMMの状態全接続標準パタンでスコアを計算するようにしてもよい。
重み係数計算部34は、音節全接続照合部33が照合スコアLsを算出すると、その照合スコアLsに応じて音響スコアと継続時間長スコアの重み係数αを計算する(ステップST23)。
以下、重み係数αの計算方法について説明する。
音節全接続照合部33により算出される照合スコアLsは、音声信号が音響標準パタン格納部5に格納されている音響標準パタンを学習した音声と、周波数特性や背景騒音環境が異なる場合には低い値となる。
この場合には、照合処理部10が計算する認識対象単語iの音響スコアAiも低い値になる。
したがって、前述の式(4)の音響スコアAiと継続時間長スコアDiの重み係数αは、音節全接続照合スコアLsが低ければ小さく設定し、音節全接続照合スコアLsが高ければ大きく設定することで、音響スコアAiと継続時間長スコアDiのバランスを保ち、誤認識を減らすことができる。
例えば、下記の式(14)を用いることで、音節全接続照合スコアLsから重み係数αを求めることが可能である。
α=y+Ls×z (14)
ただし、yは定数、zは正の定数である。
なお、重み係数αの上限値と下限値を予め設定して、重み係数αの変動範囲を制限してもよい。
以上で明らかなように、この実施の形態3によれば、音節全接続照合部33が音節全接続音響標準パタン作成部32により作成された音節全接続音響標準パタンと音響分析部2により抽出された音響特徴量Oを照合して照合スコアLsを算出し、重み係数計算部34が音節全接続照合部33により算出された照合スコアLsに応じて音響スコアと継続時間長スコアの重み係数αを計算するように構成したので、音声信号が音響標準パタン格納部5に格納されている音響標準パタンを学習した音声と、周波数特性や背景騒音環境が異なることで、音響スコアAiが低くなる場合でも、音響スコアAiと継続時間長スコアDiの比率を適正に保つことができるようになり、その結果、高い音声認識率を保持することができる効果を奏する。
実施の形態4.
図10はこの発明の実施の形態4による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
騒音標準パタン格納部41は周囲の騒音が大きくてSNRが低い音声の音響特徴量が入力されると高いスコアを出力させる騒音標準パタンを格納している。
騒音音響スコア計算部42は音響分析部2により抽出された音声区間の音響特徴量Oと騒音標準パタン格納部41に格納されている騒音標準パタンを照合して、騒音音響スコアLnoを計算する処理を実施する。
重み係数計算部43は騒音音響スコア計算部42により計算された騒音音響スコアLnoに応じて音響スコアと継続時間長スコアの重み係数αを計算する処理を実施する。
なお、騒音標準パタン格納部41、騒音音響スコア計算部42及び重み係数計算部43から重み係数算出手段が構成されている。
図10では、音声認識装置の構成要素である音声区間検出部1、音響分析部2、単語継続時間長標準パタン作成部6、単語音響標準パタン作成部7、騒音音響スコア計算部42、重み係数計算部43、照合処理部10及び認識結果出力部11が専用のハードウェア(例えば、MPUなどを実装している半導体集積回路基板)で構成されていることを想定しているが、音声区間検出部1、音響分析部2、単語継続時間長標準パタン作成部6、単語音響標準パタン作成部7、騒音音響スコア計算部42、重み係数計算部43、照合処理部10及び認識結果出力部11の処理内容を記述している音声認識プログラムを音声認識装置のメモリに格納し、音声認識装置のCPUが当該メモリに格納されている音声認識プログラムを実行するようにしてもよい。
図11はこの発明の実施の形態4による音声認識装置の処理内容を示すフローチャートである。
上記実施の形態1では、SNR計算部8が音声認識装置の使用環境を表す指標として、音声信号のSNRを計算し、重み係数計算部9がSNR計算部8により計算されたSNRに応じて音響スコアと継続時間長スコアの重み係数αを計算するものについて示したが、騒音音響スコア計算部42が音響分析部2により抽出された音声区間の音響特徴量Oと騒音標準パタン格納部41に格納されている騒音標準パタンを照合して、騒音音響スコアLnoを計算し、重み係数計算部43が騒音音響スコア計算部42により計算された騒音音響スコアLnoに応じて音響スコアと継続時間長スコアの重み係数αを計算するようにしてもよく、上記実施の形態1と同様の効果を奏する。
図10の音声認識装置では、SNR計算部8及び重み係数計算部9の代わりに、騒音標準パタン格納部41、騒音音響スコア計算部42及び重み係数計算部43を実装している点以外は、図1の音声認識装置と同様であるため、ここでは、騒音標準パタン格納部41、騒音音響スコア計算部42及び重み係数計算部43の処理内容のみを説明する。
騒音音響スコア計算部42は、音響分析部2が音声区間の音響特徴量Oを抽出すると、音声区間の音響特徴量Oと騒音標準パタン格納部41に格納されている騒音標準パタンを照合して、騒音音響スコアLnoを計算する(ステップST31)。
騒音標準パタン格納部41に格納されている騒音標準パタンは、周囲の騒音が大きくて、SNRが低い音声の音響特徴量が入力されると、高いスコアを出力させる標準パタンである。騒音標準パタンは、例えば、色々な騒音データで学習した1状態のHMMで構成することができる。
騒音音響スコアLnoは、下記の式(15)によって計算することができる。
no=P(O|λno) (15)
ただし、λnoは騒音標準パタンである。
重み係数計算部43は、騒音音響スコア計算部42が騒音音響スコアLnoを計算すると、その騒音音響スコアLnoに応じて音響スコアと継続時間長スコアの重み係数αを計算する(ステップST32)。
以下、重み係数αの計算方法について説明する。
まず、音響スコアと継続時間長スコアを用いる音声の認識処理においては、認識対象単語iを仮定する場合のスコアLiは、前述の式(4)で表される。
重み係数計算部43が上記の式(4)によってスコアLiを計算するとき、周囲に騒音が存在する場合には、周囲騒音が音声信号に混入し、騒音が無い場合と比べて音響スコアAiが低い値になる。
一方、継続時間長スコアDiは、周囲の騒音の影響によってスコアが低下することが無い。
したがって、音響スコアと継続時間長スコアの重み係数αが従来のように固定値であるとすると、周囲に騒音が存在する場合は、音響スコアAiの低下に伴ってスコアLiに占める音響スコアAiの比率が低くなり、誤認識を引き起こす可能性が高くなる。
そこで、重み係数計算部43は、周囲に騒音が存在する場合の誤認識を防止するため、騒音音響スコア計算部42により計算された騒音音響スコアLnoに応じて音響スコアと継続時間長スコアの重み係数αを変更するようにしている。
即ち、重み係数計算部43は、下記の式(16)に示すように、騒音が存在してSNRが悪くなり、騒音音響スコアLnoが大きくなると、音響スコアAiが低下するので、重み係数αを小さな値に設定する。
これにより、騒音の影響で音響スコアAiが低下しても、継続時間長スコアとの寄与度のバランスを適正に保つことが可能になり、誤認識を減らすことができる。
α=y−Lno×z (16)
ただし、yは定数、zは正の定数である。
なお、重み係数αの上限値と下限値を予め設定して、重み係数αの変動範囲を制限してもよい。
以上で明らかなように、この実施の形態4によれば、騒音音響スコア計算部42が音響分析部2により抽出された音声区間の音響特徴量Oと騒音標準パタン格納部41に格納されている騒音標準パタンを照合して、騒音音響スコアLnoを計算し、重み係数計算部43が騒音音響スコア計算部42により計算された騒音音響スコアLnoに応じて音響スコアと継続時間長スコアの重み係数αを計算するように構成したので、周囲の騒音が大きく音響スコアAiが低下しても、音響スコアAiと継続時間長スコアDiの比率を適正に保つことができるようになり、その結果、高い音声認識率を保持することができる効果を奏する。
この発明の実施の形態1による音声認識装置を示す構成図である。 この発明の実施の形態1による音声認識装置の処理内容を示すフローチャートである。 音節と状態系列の対応関係を示す説明図である。 HMMを用いた照合の最適パスの一例を示す説明図である。 この発明の実施の形態2による音声認識装置を示す構成図である。 この発明の実施の形態2による音声認識装置の処理内容を示すフローチャートである。 この発明の実施の形態3による音声認識装置を示す構成図である。 この発明の実施の形態3による音声認識装置の処理内容を示すフローチャートである。 音節全接続辞書を示す説明図である。 この発明の実施の形態4による音声認識装置を示す構成図である。 この発明の実施の形態4による音声認識装置の処理内容を示すフローチャートである。
符号の説明
1 音声区間検出部(音声区間検出手段)、2 音響分析部(音響分析手段)、3 単語辞書、4 継続時間長標準パタン格納部(標準パタン作成手段)、5 音響標準パタン格納部(標準パタン作成手段)、6 単語継続時間長標準パタン作成部(標準パタン作成手段)、7 単語音響標準パタン作成部(標準パタン作成手段)、8 SNR計算部(重み係数算出手段)、9 重み係数計算部(重み係数算出手段)、10 照合処理部(照合手段)、11 認識結果出力部(認識結果出力手段)、21 騒音パワー計算部(重み係数算出手段)、22 重み係数計算部(重み係数算出手段)、31 音節全接続辞書(重み係数算出手段)、32 音節全接続音響標準パタン作成部(重み係数算出手段)、33 音節全接続照合部(重み係数算出手段)、34 重み係数計算部(重み係数算出手段)、41 騒音標準パタン格納部(重み係数算出手段)、42 騒音音響スコア計算部(重み係数算出手段)、43 重み係数計算部(重み係数算出手段)。

Claims (5)

  1. 入力信号の中に含まれている音声を検出して、上記入力信号における音声区間を検出する音声区間検出手段と、上記音声区間検出手段により検出された音声区間に対する音響分析を実施して、上記音声区間の音響特徴量を抽出する音響分析手段と、音声認識対象の単語を格納している単語辞書と、上記単語辞書に格納されている各単語に対応する継続時間長の標準パタン及び音響の標準パタンを作成する標準パタン作成手段と、使用環境に適する音響スコアと継続時間長スコアの重み係数を算出する重み係数算出手段と、上記重み係数算出手段により算出された重み係数と上記標準パタン作成手段により作成された標準パタンを用いて、上記音響分析手段により抽出された音声区間の音響特徴量と上記単語辞書に格納されている各単語を照合し、各単語の照合スコアを算出する照合手段と、上記照合手段により算出された照合スコアが高い上位数個の単語を音声認識結果として出力する認識結果出力手段とを備えた音声認識装置。
  2. 重み係数算出手段は、入力信号の信号対雑音比を算出し、上記信号対雑音比に応じて音響スコアと継続時間長スコアの重み係数を算出することを特徴とする請求項1記載の音声認識装置。
  3. 重み係数算出手段は、音声区間検出手段により検出された音声区間ではない非音声区間のパワーから騒音パワーを算出し、上記騒音パワーに応じて音響スコアと継続時間長スコアの重み係数を算出することを特徴とする請求項1記載の音声認識装置。
  4. 重み係数算出手段は、音節全接続辞書と音響標準パタンを参照して、音節全接続の音響標準パタンを作成し、上記音節全接続の音響標準パタンと音響分析手段により抽出された音声区間の音響特徴量を照合して照合スコアを算出し、上記照合スコアに応じて音響スコアと継続時間長スコアの重み係数を算出することを特徴とする請求項1記載の音声認識装置。
  5. 重み係数算出手段は、音響分析手段により抽出された音声区間の音響特徴量と騒音標準パタンを照合して照合スコアを算出し、上記照合スコアに応じて音響スコアと継続時間長スコアの重み係数を算出することを特徴とする請求項1記載の音声認識装置。
JP2006287803A 2006-10-23 2006-10-23 音声認識装置 Expired - Fee Related JP4749990B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006287803A JP4749990B2 (ja) 2006-10-23 2006-10-23 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006287803A JP4749990B2 (ja) 2006-10-23 2006-10-23 音声認識装置

Publications (2)

Publication Number Publication Date
JP2008107408A true JP2008107408A (ja) 2008-05-08
JP4749990B2 JP4749990B2 (ja) 2011-08-17

Family

ID=39440826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006287803A Expired - Fee Related JP4749990B2 (ja) 2006-10-23 2006-10-23 音声認識装置

Country Status (1)

Country Link
JP (1) JP4749990B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101240588B1 (ko) 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치
US9262694B2 (en) 2011-12-16 2016-02-16 Nec Corporation Dictionary learning device, pattern matching apparatus, method for learning dictionary and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08211897A (ja) * 1995-02-07 1996-08-20 Toyota Motor Corp 音声認識装置
JP2004184856A (ja) * 2002-12-05 2004-07-02 Toyota Motor Corp 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08211897A (ja) * 1995-02-07 1996-08-20 Toyota Motor Corp 音声認識装置
JP2004184856A (ja) * 2002-12-05 2004-07-02 Toyota Motor Corp 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262694B2 (en) 2011-12-16 2016-02-16 Nec Corporation Dictionary learning device, pattern matching apparatus, method for learning dictionary and storage medium
KR101240588B1 (ko) 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치

Also Published As

Publication number Publication date
JP4749990B2 (ja) 2011-08-17

Similar Documents

Publication Publication Date Title
US11514901B2 (en) Anchored speech detection and speech recognition
US11270685B2 (en) Speech based user recognition
US10755709B1 (en) User recognition for speech processing systems
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4274962B2 (ja) 音声認識システム
EP1936606B1 (en) Multi-stage speech recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
EP1701338B1 (en) Speech recognition method
CN111566729A (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
RU2393549C2 (ru) Способ и устройство для распознавания речи
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
US20070239444A1 (en) Voice signal perturbation for speech recognition
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
EP1734509A1 (en) Method and system for speech recognition
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Grewal et al. Isolated word recognition system for English language
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP4749990B2 (ja) 音声認識装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2002189487A (ja) 音声認識装置および音声認識方法
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법
JP3615088B2 (ja) 音声認識方法及び装置
JPH11338492A (ja) 話者認識装置
JP3698511B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080703

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110518

R150 Certificate of patent or registration of utility model

Ref document number: 4749990

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140527

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees