JP2011075973A - 音声認識装置とその方法と、プログラム - Google Patents

音声認識装置とその方法と、プログラム Download PDF

Info

Publication number
JP2011075973A
JP2011075973A JP2009229338A JP2009229338A JP2011075973A JP 2011075973 A JP2011075973 A JP 2011075973A JP 2009229338 A JP2009229338 A JP 2009229338A JP 2009229338 A JP2009229338 A JP 2009229338A JP 2011075973 A JP2011075973 A JP 2011075973A
Authority
JP
Japan
Prior art keywords
speech
phoneme
recognition
reliability
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009229338A
Other languages
English (en)
Other versions
JP4922377B2 (ja
Inventor
Satoru Kobashigawa
哲 小橋川
Taichi Asami
太一 浅見
Yoshikazu Yamaguchi
義和 山口
Hirokazu Masataki
浩和 政瀧
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009229338A priority Critical patent/JP4922377B2/ja
Publication of JP2011075973A publication Critical patent/JP2011075973A/ja
Application granted granted Critical
Publication of JP4922377B2 publication Critical patent/JP4922377B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識結果の信頼度計算の処理時間を削減する。
【解決手段】この発明の音声認識装置の音素認識部が、音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する。そして、事前信頼度計算部は、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する。音声認識処理部は、音声特徴量系列と事前信頼度を入力として、音声認識処理を行い音声認識結果と事前信頼度を出力する。
【選択図】図1

Description

この発明は、様々な音質の音声データを効率良く音声認識する音声認識装置とその方法と、プログラムに関する。
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する問題が発生する。
そこで、従来から音声認識結果に信頼度を付与することで、音声認識誤りに起因する不具合を抑制する方法が検討されている。図14に音声認識結果に信頼度を付与するようにした音声認識装置900の機能構成を示す。音声認識装置900は、音響分析部120、音響モデル格納部140、辞書・言語モデル格納部150、探索部160、信頼度計算部190、を備える。
音響分析部120は、入力音声信号110を、数十msのフレームと呼ばれる単位で例えばメル周波数ケプストラム係数(MFCC)分析して音響特徴パラメータ系列130を生成する。探索部160は、音響特徴パラメータ系列130について、音響モデル格納部140と辞書・言語モデル格納部150とを用いて認識結果候補の探索を行う。探索の結果、上位〜N位までのNベストの音声認識結果170と、そのスコア180が出力される。
信頼度計算部190は、音声認識結果170とスコア180に基づいて複数の音声認識結果170にそれぞれ対応する信頼度スコア200を計算して出力する。その信頼度スコア200は、例えば音声認識結果として得られたNベスト候補及びそれらのスコアの単純なスコア差と加算平均から求められる。
この信頼度スコア200を参照することで、その信頼度スコア200に対応する音声認識結果170を廃棄したり、発話者に対して認識結果を確認したりすることで、誤認識による不具合の発生を抑制していた。また、信頼度スコア200が所定の値以下の場合は、その音声データについて認識処理を行わないようにすることで、処理効率を上げていた。
特開2005−148342号公報
しかし、従来の音声認識装置900では、信頼度スコアを、音声認識処理を行った後のスコアから計算していた。したがって、信頼度スコアを得るのに音声認識処理の処理時間を必要としていた。そのため、例えばS/N比が悪い等の理由により誤認識ばかりで利用不能な音声データに余分な処理時間をかけてしまう場合がある。また、大量の音声ファイルに対して音声認識処理を行う場合に、音声認識精度の低い音声ファイルの処理に時間がかかり、他の音声認識精度の高い音声ファイルの処理が進まず、音声認識処理全体の処理効率を低下させる場合がある。また、言語モデルを用いた音声認識結果に基づく処理のため、信頼度スコアの値が言語モデルに依存してしまう課題もあった。
この発明は、このような問題点に鑑みてなされたものであり、音声認識処理の全てを行うこと無く短い処理時間で信頼度スコアが計算可能であり、言語モデルに依存しない信頼度スコアを出力する音声認識装置とその方法と、プログラムを提供することを目的とする。
この発明の音声認識装置は、特徴量分析部と、音素認識部と、事前信頼度計算部と、音声認識処理部と、を具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する。音素認識部は、音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する。事前信頼度計算部は、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する。音声認識処理部は、音声特徴量系列を入力として、音声認識処理を行い音声認識結果を出力する。
この発明の音声認識装置によれば、音素認識部がモノフォン音響モデルを用いた認識文法で音声特徴量系列の音素認識を行い、音素認識結果を出力する。そして、事前信頼度計算部が、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する。従って、音素の音響スコアから信頼度を求めるので、従来の音声認識装置よりも軽い処理で事前信頼度が求められる。また、音素単位の処理なので、言語モデルに依存しない事前信頼度を得ることが出来る。また、求められた事前信頼度の値に応じて音声認識処理を行うか否かの判断をすることで、事前信頼度が低く音声認識精度の低い音声ファイルの音声認識処理に時間がかかる課題も解決される。
この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 音素認識部30の機能構成例を示す図。 音素タイプライタ文法を概念的に示す図。 音素認識結果Nベストの例を示す図。 事前信頼度計算部40の機能構成例を示す図。 音声・非音声文法を概念的に示す図。 この発明の音声認識装置300の機能構成例を示す図。 認識処理制御部301の制御信号のビーム探索幅の設定方法を示す図。 この発明の音声認識装置400の機能構成例を示す図。 音声認識装置400の動作フローを示す図。 この発明の音声認識装置500の機能構成例を示す図。 音声認識装置500の動作フローを示す図。 特許文献1に開示された従来の音声認識装置900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、A/D変換部10と、特徴量分析部20と、音素認識部30と、事前信頼度計算部40と、音声認識処理部50と、音響モデルパラメータメモリ60と、言語モデルパラメータメモリ70と、を具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
A/D変換部10は、音声信号を、例えばサンプリング周波数16kHzで離散値化して音声ディジタル信号に変換する。なお、音声ディジタル信号が直接入力される場合は、A/D変換部10は不要である。
特徴量分析部20は、音声ディジタル信号を入力として、例えば320個の音声ディジタル信号を1フレーム(20ms)としたフレーム毎に、音声特徴量系列を出力する(ステップS20)。音声特徴量としては、例えば、MFCC(Mel-Frequenct Cepstrum Coefficient)の1〜12元と、その変化量であるΔMFCC等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化(CMN)等の処理を行っても良い。
音素認識部30は、音響モデルパラメータメモリ60に記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、上記音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する(ステップS30)。モノフォン音響モデルは、環境独立音素モデルのことであり、前後の音素環境に制約を持つ環境依存音素モデル(例えばトライホン)に対して、前後の音素の制約がなく、音素モデルの数も少ない。例えば、音素の数を30個とした場合、モノフォン音響モデル中の音素モデルの数は30個であるが、トライフォンの場合の数は30個(2700個)である。
ステップS20の特徴量分析過程と、ステップS30の音素認識過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。
事前信頼度計算部40は、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する(ステップS40)。
音声認識処理部50は、音響モデルパラメータメモリ60に記録された音響モデルと、言語モデルパラメータメモリ70に記録された言語モデルとを参照して、音声特徴量系列について音声認識処理を行い、その音声認識結果と事前信頼度を出力する(ステップS50)。なお、音声認識処理部50は、破線で示すように音声ファイルの事前信頼度の値に応じて音声認識処理の実行の有無を切り替えるようにしても良い。ステップS50の音声認識処理過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。
音声認識装置100によれば、音素認識部30が、モノフォン音響モデルを用いた認識文法で、上記音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する。そして、事前信頼度計算部40が、フレーム毎に信頼度を付与して音声ファイル単位で平均した事前信頼度を計算する。モノフォン音響モデルに基づいた事前信頼度は、モノフォン音響モデル中の音素モデルの数が少ないため従来の信頼度スコアを求める方法と比べて計算量が少なくて済む。また、複数の音声ファイルを処理する場合に、事前信頼度の値に応じて音声認識処理を行うか否かの判断をすることで、事前信頼度が低い、つまり音声認識精度が低い音声ファイルの音声認識処理に時間がかかる課題も解決される。次に、各部の具体的な構成例を示して更に詳しく音声認識装置100の動作を説明する。
〔音素認識部〕
図3に、音素認識部30の機能構成例を示す。音素認識部30は、モノフォン音響モデル抽出手段31と、音素タイプライタ文法作成手段32と、信頼度計算用認識処理手段33と、を備える。
モノフォン音響モデル抽出手段31は、音響モデルパラメータメモリ60に記録された音響モデルからモノフォン音響モデルを抽出する。ここで抽出とは、音響モデルパラメータメモリ60に記録されているモノフォン、バイフォン、トライフォンの各音響モデルからモノフォン音響モデルを選択することを意味する。
音素タイプライタ文法作成手段32は、モノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成する。音素タイプライタ文法とは、フレーム毎に与えられる音声特徴量に応じて、遷移するモノフォン音響モデルを変えて音声を表現する方法である。図4に音素タイプライタ文法を概念的に示す。ノード1と2の間に、例えば音素モデルa〜Nと、ポーズ(無音)モデルが配列されてモノフォン音響モデルが構成される。モノフォン音響モデルの−は左側依存、+は右側依存を表す。この図において、入力されるフレーム毎の音声特徴量に応じて、ノード1と2の間の状態遷移が繰り返される。なお、図4の音素タイプライタ文法は、例えば「ee」の長母音と、「e」の短母音を同じ音素として扱う例である。長母音と短母音を同じ音素として扱うことで信頼度が低くなってしまうのを回避することが出来る。
信頼度計算用認識処理手段33は、モノフォン音響モデルを入力音響モデル、音素タイプライタ文法を入力言語モデルとして、音声特徴量系列について音素認識処理を行い所定数の音素認識結果Nベストを出力する。
音素認識結果Nベストとは、音素モデルを参照して、ビーム探索アルゴリズムに基づいて複数の音素認識結果を出力するものである。ビーム探索アルゴリズムとは、フレーム毎に尤度の高い認識結果の存在をおおよそ保証できる所定数(ビーム幅)の音素認識結果候補を残しながら探索する手順である。
図5に音素認識結果Nベストの一例を示す。_はフレームを意味する。横方向に時間経過を表す。音素認識結果Nベストとは、N個の音素認識結果の時系列である。第1位とは、音響スコアの最も大きな音素認識結果を時系列に並べたものである。第2位とは、2番目に音響スコアの大きな音素認識結果を時系列に並べたものである。
なお、図3に破線で示すように予め信頼度計算用認識処理手段33が、音素タイプライタ文法を具備するようにしても良い。その場合、音素タイプライタ文法作成手段32は省略可能である。
図6に事前信頼度計算部40の機能構成例を示す。事前信頼度計算部40は、第2位以下の最尤音素検出手段42と、信頼度スコア算出手段43と、事前信頼度算出手段44と、を備える。
第2位以下の最尤音素検出手段42は、フレーム単位の時刻t毎に音素認識結果Nベストの中に異なる音素の認識結果がある場合に2番目に尤度の高い音素認識結果を検出する。その動作を図5を参照して説明する。時刻t=1〜4の範囲は、「ポーズ」の音素認識結果のみであり、時刻t=5,6では「ポーズ」と「s」が存在し、時刻t=7,8では「ポーズ」と「g」と「s」が存在する。時刻tにおいて複数の異なる音素認識結果がある場合に2番目に尤度の高い音素認識結果を検出する。第2位以下の音素認識結果として「g」と「s」の2つが存在する時刻t=7,8では、「s」よりも上位の「g」を選択する。
信頼度スコア算出手段43は、信頼度を式(1)で計算する。
Figure 2011075973
ここでASは音響スコアであり、AS(t,p1)は時刻tの第1位の音素認識結果p1の音響スコア、AS(t,p2)は時刻tのp1と異なる音素のうち最も尤度が高い音素p2の音響スコアである。
つまり、同一時刻に異なる音素認識結果が存在する場合に、当該フレームの信頼度C(t)は、第1位の音素認識結果の音響スコアと、異なる音素の最尤の音響スコアとの差として与えられる。同一時刻に異なる音素認識結果が存在しない場合は、そのフレームの信頼度は一定の高い信頼度スコア値C(t)=Cconstが与えられる。
事前信頼度算出手段44は、音声ファイル単位の事前信頼度Cを式(2)で計算する。
Figure 2011075973
ここでTは音声ファイルの継続時間長(総フレーム数)である。
このように、事前信頼度計算部40は、発話単位の信頼度を音声ファイルの全フレームで平均化することで音声ファイル単位の信頼度を事前信頼度として得る。音声ファイル単位の全体の信頼度を求めるので精緻な処理を必要としない。モノフォン音響モデルを使う認識文法を用いるので、言語モデル(語彙セット)に依存しない処理が行え高速である。なお、音素認識30で説明した長母音と短母音を同一音素として扱う処理を、事前信頼度計算部40で行っても良い。
また、音素認識部30は認識文法として音素タイプライタ文法を用い、音素認識結果として音素認識結果Nベストを出力する例で説明したが、他の方法も考えられる。認識文法として音声タイプライタ文法と音声・非音声文法の2つを備え、音声特徴量系列の音素認識を2つの文法でそれぞれ行いフレーム毎に2つの音素認識結果を出力するようにしても良い。
図7に音声・非音声文法を概念的に示す。ノード3と4の間に、音声GMM71と、非音声すなわちポーズGMM(無音GMM)72が配列されている。GMMは、混合正規分布モデル(Gaussian Mixture Model)である。
この図において、入力されるフレーム毎の音声特徴量に応じて、ノード3と4の間の状態遷移が繰り返される。つまり、フレーム毎に、音声か非音声かが判定され音声GMMとポーズGMMの音響スコアが付与される。
音声GMM71とポーズGMM72は、複数の正規分布を含む混合正規分布であるので、モノフォン音響モデルと比較すると分散が広く、その音響スコアの変化量は相対的に小さな値となる。よって、分散が狭いモノフォン音響モデルから求めた音響スコアと、分散が広いGMMから求めた音響スコアとの差で音素認識結果の信頼度を評価することが出来る。
つまり、音素タイプライタ文法で求めた音響スコアは、音声特徴量がモノフォン音響モデルにぴったり合うと高く、合致しないと低くなる。この変化量の大きな音響スコアと、GMMから求めた変化量の小さな音響スコアとの差を取ることで信頼度を求めることが出来る。
認識文法として音声タイプライタ文法と音声・非音声文法の2つを備えた音素認識部30′が出力する2つの音素認識結果が入力される事前信頼度計算部40′は、その2つの音響スコアの差を、当該フレームの信頼度として音声ファイル単位で平均して事前信頼度Cを計算する。
音声認識処理部50は、特徴量分析部20が出力する音声特徴量と事前信頼度Cを入力として、音声認識処理を行い音声認識結果を出力する。この時、事前信頼度Cを同時に出力しても良い。ここでの音声認識処理は、音響モデルパラメータメモリ60に記録された全ての音響モデルを用いた認識処理が行われる。音声認識処理部50は、事前信頼度Cの値に応じて音声認識処理の実行の有無を切り替えるようにしても良い。また、事前信頼度Cの値に応じて音声認識処理部50における探索ビーム幅を可変するようにしても良い。
図8にこの発明の音声認識装置300の機能構成例を示す。音声認識装置300は、認識処理制御部301を備える点で、音声認識装置100と異なる。認識処理制御部301は、事前信頼度Cが一定値Cth以下の場合に音声認識処理を停止させる制御信号を、音声認識処理部50に出力する。事前信頼度Cは音声ファイル毎に計算される値であるので、音声認識処理部50は音声ファイル単位で音声認識処理の実行の有無を切り替える。一定値Cthは、例えば、音響モデルの学習データに対する信頼度分布から算出する方法が考えられる。信頼度分布の平均値μ、標準偏差σとした場合に、例えばCth=μ−2σとする。また、式(1)に示した一定の高い信頼度スコア値Cconstは、Cconst=μ+2σ等としても良い。
また、認識処理制御部301は、制御信号としてビーム探索幅N(C)を出力するようにしても良い。その一例を式(3)に示す。
Figure 2011075973
図9に事前信頼度Cとビーム探索幅N(C)との関係を例示する。横軸は事前信頼度Cであり、縦軸はビーム探索幅N(C)である。
図9に示すように式(3)は、所定の範囲の事前信頼度C(Cmin〜Cmax)に対応するビーム探索幅N(C)(Nmin〜Nmax)を、事前信頼度Cの値で比例配分する考えである。ここでは、比例係数が負の値なので、事前信頼度Cが小でビーム探索幅N(C)が大であり、Cが大でN(C)が小となる関係である。もちろん、事前信頼度Cとビーム探索幅N(C)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(C)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
ここで、例えばCmax=μ+σ、Cmin=μ―σとして、Nmaxを通常用いるビーム幅の1.5倍、Nminを通常用いるビーム幅の半分等としても良い。また、平均音質が極端に悪い場合(例えばC<Cmin)には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばNminにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。また、音声認識処理を停止させる信号とビーム探索幅の制御信号を並存させても良い。
このように、認識処理制御部301を備えた音声認識装置300は、複数の音声ファイルの音声認識処理の効率化と、認識精度の向上を図ることが出来る。なお、認識処理制御部301の機能は、音声認識処理部50に持たせても良い。
図10にこの発明の音声認識装置400の機能構成例を示す。図11に動作フローを示す。音声認識装置400は、音声ファイル処理部401と、ソート音声認識処理部402と、を備える点で音声認識装置100,300と異なる。
音声ファイル処理部401は、複数の音声ファイルの事前信頼度Cの高い順番に複数の音声ファイルを並び替える(ステップS401)。ソート音声認識処理部402は、事前信頼度Cの高い順番に音声認識処理を行う(ステップS402)。
このように事前信頼度Cの大きさ順に音声認識処理を実行することで、複数の音声ファイルの音声認識処理を行う場合の処理効率を向上させることが出来る。例えば、全音声ファイルに対して音声認識処理を行う事が、計算機資源や処理時間の関係等によって難しい場合には、事前信頼度Cが小さい音声ファイルは音声認識処理が行われず、音声認識精度が高い事が期待される事前信頼度Cが大きな音声ファイルにのみ音声認識処理が行われることになり、高精度な音声認識結果を収集することが可能になる。なお、音声ファイル処理部401の機能は、ソート音声認識処理部402の機能に含めても良い。
図12にこの発明の音声認識装置500の機能構成例を示す。図13に動作フローを示す。音声認識装置500は、教師なし適応制御部501と、教師なし適応部502と、適応後音響モデルパラメータメモリ503と、第2認識処理部504とを備える点で音声認識装置100,300,400と異なる。なお、作図の都合でA/D変換部10は省略している。
教師なし適応制御部501は、事前信頼度Cを入力として、その事前信頼度Cの値が一定範囲内(例えばC>μ等)か否かを判定して教師なし適応制御信号を出力する(ステップS501)。事前信頼度Cの値が一定範囲内でない場合、その音声ファイルの処理を終了する(ステップS501のNO)。教師なし適応制御信号とは、音声認識処理部50が出力する音声認識結果を適応用ラベルとして用いるか否かを制御する信号である。
教師なし適応部502は、教師なし適応制御信号が、音声認識処理部50が出力する音声認識結果を適応用ラベルとして用いることを指示していた場合、音声認識結果を適応用ラベルとして音響モデルパラメータメモリ60に記録された音響モデルを学習して、適応後音響モデルを生成する(ステップS502)。適応後音響モデルは、適応後音響モデルパラメータメモリ503に記録される。
第2認識処理部504は、適応後音響モデルパラメータメモリ503に記録された適応後音響モデルを用いて音声特徴量系列の音声認識処理を行う(ステップS504)。
音声認識装置500は、事前信頼度Cの値が一定範囲内にある場合に限って、音声認識結果を適応用ラベルとして音響モデルを学習し、更に音声認識処理を行う。したがって、事前信頼度Cが低く音声ファイルの認識精度の低い音声認識結果が出力されることがない。また、事前信頼度Cが高く音声ファイルの認識精度の高い音声認識結果を適応用ラベルとして音響モデルを学習するので、音響モデルの精度を自動的に向上させることが出来る。
以上述べたように、この発明の音声認識装置によれば、モノフォン音響モデルに基づいた信頼度を求め、音声ファイル単位でその信頼度を平均した事前信頼度を計算する。従って、従来の音声認識装置よりも軽い処理で事前信頼度が求められる。また、音素単位の処理なので、言語モデルに依存しない事前信頼度を得ることが出来る。また、求められた事前信頼度の値に応じて音声認識処理を行うか否かの判断をすることで、例えばS/N比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
    音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、上記音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する音素認識部と、
    上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算部と、
    上記音声特徴量系列を入力として、音声認識処理を行い音声認識結果を出力する音声認識処理部と、
    を具備する音声認識装置。
  2. 請求項1に記載した音声認識装置において、
    上記音素認識部は、
    上記認識文法が音素タイプライタ文法であり、且つ、上記音素認識結果として所定数の音素認識結果Nベストを出力するものであり、
    上記事前信頼度計算部は、上記音素認識結果Nベストの中に、異なる音素の認識結果がある場合に、第1位の音素の音響スコアとその第1位の音素を除いた最尤の音素の音響スコアとの差をそのフレームの信頼度とし、異なる音素の認識結果がない場合にそのフレームに一定の高い信頼度を与え、上記信頼度を音声ファイル単位で平均して事前信頼度を計算するものである、
    ことを特徴とする音声認識装置。
  3. 請求項1に記載した音声認識装置において、
    上記音素認識部は、
    上記認識文法として、音素タイプライタ文法と音声・非音声文法を備え、上記音声特徴量系列の音素認識をそれぞれの文法で行い上記フレーム毎に2つの音素認識結果を出力するものであり、
    上記事前信頼度計算部は、上記2つの音素認識結果の音響スコアの差を、当該フレームの信頼度とし、その信頼度を音声ファイル単位で平均して事前信頼度を計算するものである、
    ことを特徴とする音声認識装置。
  4. 請求項1乃至3の何れかに記載した音声認識装置において、
    上記音声認識処理部は、上記事前信頼度の値に応じて探索ビーム幅を可変するものであることを特徴とする音声認識装置。
  5. 請求項1乃至4の何れかに記載した音声認識装置において、
    上記事前信頼度を入力として、音声認識処理を行う音声ファイルを選択する制御信号を生成して上記音声認識処理部に出力する認識処理制御部を、
    更に備えることを特徴とする音声認識装置。
  6. 請求項1乃至4の何れかに記載した音声認識装置において、
    複数の音声ファイルの上記事前信頼度から、事前信頼度の高い順番に上記複数の音声ファイルを並び替える音声ファイル処理部と、
    事前信頼度の高い順番で音声認識処理を行うソート音声認識処理部と、
    を更に備えることを特徴とする音声認識装置。
  7. 請求項1乃至3の何れかに記載した音声認識装置において、
    上記事前信頼度を入力として、その事前信頼度の値が一定範囲内か否かを判定して適応制御信号を出力する教師なし適応制御部と、
    上記音声認識結果と上記教師なし適応制御信号を入力として、上記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応部と、
    上記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて上記音声特徴量系列の音声認識処理を行う第2認識処理部と、
    を更に備えることを特徴とする音声認識装置。
  8. 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
    音素認識部が、音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、上記音声特徴量系列の音素認識を行い音素認識結果を出力する音素認識過程と、
    事前信頼度計算部が、上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均して事前信頼度を計算する事前信頼度計算過程と、
    音声認識処理部が、上記音声特徴量系列を入力として、音声認識処理を行い音声認識結果を出力する音声認識処理過程と、
    を備える音声認識方法。
  9. 請求項1乃至7の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
JP2009229338A 2009-10-01 2009-10-01 音声認識装置とその方法と、プログラム Active JP4922377B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009229338A JP4922377B2 (ja) 2009-10-01 2009-10-01 音声認識装置とその方法と、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009229338A JP4922377B2 (ja) 2009-10-01 2009-10-01 音声認識装置とその方法と、プログラム

Publications (2)

Publication Number Publication Date
JP2011075973A true JP2011075973A (ja) 2011-04-14
JP4922377B2 JP4922377B2 (ja) 2012-04-25

Family

ID=44020006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009229338A Active JP4922377B2 (ja) 2009-10-01 2009-10-01 音声認識装置とその方法と、プログラム

Country Status (1)

Country Link
JP (1) JP4922377B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011112963A (ja) * 2009-11-27 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013114202A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム
JP2021081713A (ja) * 2019-11-21 2021-05-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声信号を処理するための方法、装置、機器、および媒体

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042893A (ja) * 1999-08-03 2001-02-16 Olympus Optical Co Ltd 音声認識装置および音声認識処理をするための処理プログラムを記録した記録媒体
JP2001195082A (ja) * 2000-01-11 2001-07-19 Fujitsu Ltd 音声認識装置
JP2002202797A (ja) * 2000-11-16 2002-07-19 Sony Internatl Europ Gmbh 音声認識方法
JP2005091504A (ja) * 2003-09-12 2005-04-07 Chubu Electric Power Co Inc 音声認識装置
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2005241833A (ja) * 2004-02-25 2005-09-08 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2007248730A (ja) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2008083367A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声認識装置、音声認識方法及びプログラム
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042893A (ja) * 1999-08-03 2001-02-16 Olympus Optical Co Ltd 音声認識装置および音声認識処理をするための処理プログラムを記録した記録媒体
JP2001195082A (ja) * 2000-01-11 2001-07-19 Fujitsu Ltd 音声認識装置
JP2002202797A (ja) * 2000-11-16 2002-07-19 Sony Internatl Europ Gmbh 音声認識方法
JP2005091504A (ja) * 2003-09-12 2005-04-07 Chubu Electric Power Co Inc 音声認識装置
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2005241833A (ja) * 2004-02-25 2005-09-08 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2007248730A (ja) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2008083367A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声認識装置、音声認識方法及びプログラム
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011112963A (ja) * 2009-11-27 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013114202A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム
JP2021081713A (ja) * 2019-11-21 2021-05-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声信号を処理するための方法、装置、機器、および媒体
JP7178394B2 (ja) 2019-11-21 2022-11-25 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声信号を処理するための方法、装置、機器、および媒体

Also Published As

Publication number Publication date
JP4922377B2 (ja) 2012-04-25

Similar Documents

Publication Publication Date Title
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
US6317711B1 (en) Speech segment detection and word recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
EP1557822A1 (en) Automatic speech recognition adaptation using user corrections
US20080189106A1 (en) Multi-Stage Speech Recognition System
Brognaux et al. HMM-based speech segmentation: Improvements of fully automatic approaches
JP2006038895A (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
WO2018078885A1 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP4852129B2 (ja) 音声認識装置とその方法と、プログラム
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP5235849B2 (ja) 音声認識装置とその方法と、プログラム
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP6006674B2 (ja) 音響モデル選択装置とその方法とプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120203

R150 Certificate of patent or registration of utility model

Ref document number: 4922377

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350