JP2006106300A - 音声認識装置及びそのプログラム - Google Patents
音声認識装置及びそのプログラム Download PDFInfo
- Publication number
- JP2006106300A JP2006106300A JP2004292067A JP2004292067A JP2006106300A JP 2006106300 A JP2006106300 A JP 2006106300A JP 2004292067 A JP2004292067 A JP 2004292067A JP 2004292067 A JP2004292067 A JP 2004292067A JP 2006106300 A JP2006106300 A JP 2006106300A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- acoustic
- speech recognition
- ratio
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 連続する有音声区間の途中で背景騒音の種類が変動した場合であっても、それぞれの背景騒音の種類に対応する音響モデルを用いて高精度に音声認識処理を行う。
【解決手段】 入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置2において、
音声認識装置2が使用される使用状況を取得するセンサである使用状況検知部104と、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合部108とを備えた。
【選択図】 図1
【解決手段】 入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置2において、
音声認識装置2が使用される使用状況を取得するセンサである使用状況検知部104と、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合部108とを備えた。
【選択図】 図1
Description
この発明は、音声認識装置及びそのプログラムに係るものであり、特にさまざまな使用状況を想定して準備された複数の音響モデルから、使用状況に応じて適切な音響モデルを選択し音声認識を行う技術に関する。
音声認識は、入力音声から音声特徴量の時系列を抽出し、この音声特徴量の時系列と予め準備された音響モデルとの照合によって、候補語を算出することによって行われる。
しかし現実の使用環境で発話された音声には背景騒音が重畳しているため、音声認識の精度が劣化する。そこで背景騒音が重畳した入力音声の認識精度を向上するために、音声特徴量と照合する音響モデルのデータに背景騒音を重畳させておき、背景騒音を重畳させた音響モデルと入力音声とを照合させる方法が採用される。
このような技術においては、背景騒音の種類によって照合時の音響モデルの内容が異なることとなるが、入力音声の音声区間(有音声区間)から背景騒音の情報を抽出することは困難であるため、入力音声中の無音声区間などから背景騒音の種類を抽出する方法が採られる(例えば、特許文献1)。
従来技術は、有音声区間の合間の無音声区間から背景騒音の種類を抽出する必要がある。このため、有音声区間中に無音声区間が見いだせない場合に、有音声区間の途中で背景騒音の種類が変動してしまうと、背景騒音の種類が変化した後の区間に対して適切な音響モデルを準備若しくは選択することができない、という問題があった。この発明はかかる課題を解決することを目的としている。
このような問題を解決するため、この発明に係る音声認識装置は、
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
この音声認識装置が使用される使用状況を取得するセンサと、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えた。
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
この音声認識装置が使用される使用状況を取得するセンサと、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えた。
また、この発明に係る別の音声認識装置は、
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
上記入力音声のSN比を算出するSN比算出手段と、
上記SN比に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えた。
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
上記入力音声のSN比を算出するSN比算出手段と、
上記SN比に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えた。
この発明によれば、センサあるいは入力音声のSN比の変動に応じて異なる音響モデルを使用し、入力音声から抽出した音声特徴量と照合することとしたので、連続する有音声区間の途中で背景騒音の種類が変動しても、変動後の区間に適合する音響モデルと入力音声とを照合することが可能となり、結果として有音声区間の全区間に亘って音声認識精度を大幅に向上させることができるのである。
実施の形態.
図1は、この発明の実施の形態による音声認識システムの構成を示すブロック図である。この音声認識システムは、例えば自動車で移動中の話者が発話した音声を認識する目的のシステムである。
図1は、この発明の実施の形態による音声認識システムの構成を示すブロック図である。この音声認識システムは、例えば自動車で移動中の話者が発話した音声を認識する目的のシステムである。
図において、マイクロホン1は音声を収集する装置または部品であって、音声認識装置2は入力端3を介してマイクロホン1が収集した音声を照合して、認識結果4を出力する装置である。また入力端3は、オーディオ端子またはマイクロホン接続端子である。
音声認識装置2は、無音声区間判定部100、SN比算出部101、SN比記憶部102、平均SN比算出部103、使用状況検知部104、音響分析部105、音響モデル記憶部106、音響モデル選択部107、送信部108、受信部109、照合部108を備えている。
無音声区間判定部100は、入力音声に音声データが含まれているかどうかを判定する部位である。SN比算出部101は、SN比算出手段の一例であって、入力端3から入力された音声信号のパワーと背景騒音のパワー比を算出する部位である。SN比記憶部102は、SN比算出部101が算出したSN比の値を記憶する部位である。平均SN比算出部103は、SN比記憶部102が記憶するSN比の値の系列から平均SN比を算出する部位である。なおSN比算出手段としてはSN比記憶部102や平均SN比算出部103を含むように構成しても構わない。
使用状況検知部104は、音声認識装置2が設置されている環境条件を検出するセンサを備えている。このセンサは、マイクロホン1が取得する音声信号に重畳している騒音の種別に関する情報の取得を目的としている。そのために、使用状況検知部104は、マイクロホン1が設置されている環境における物理量やその変化量を検出又は取得する素子、または装置から構成される。なお使用状況検知部104は、検出量を適切な信号に変換して出力する素子又は装置を含んでもよい。
また、ここでいう物理量は、温度・圧力・流量・光・磁気の他、時間や位置、電磁波なども含む概念である。したがって、電波を用いて位置情報を取得するGPSもここでいうセンサに含まれる。また、必ずしも外界から何らかの信号を取得して物理量を検出するものである必要はなく、例えば内部クロックに基づいてマイクロホン1が設置されている地点の時刻を取得する回路も、ここでいうセンサに含まれる。
なお、以降の説明では、これらの物理量を総称して、センサ情報と呼ぶこととする。また一般に、センサはアナログ信号を出力するようになっており、出力されたアナログ信号をA/D変換器又は素子によって、ディジタル信号にサンプリングするのが通常の構成である。したがって、使用状況検知部104はこのようなA/D変換器又は素子を含むものであってもよい。さらに、複数種類のセンサ、例えば音声認識装置2が車載用ナビゲーションシステムの端末である場合には、速度センサやエンジンの回転数をモニタリングするセンサ、ワイパーの稼動状況をモニタリングするセンサ、ウインドウの開閉状況をモニタリングするセンサなど、複数のセンサを組み合わせても良い。
図2は、使用状況検知部104の詳細な構成の一例を示すブロック図である。図において、GPS301は位置情報を取得するセンサである。また速度センサ302は車速度を取得するセンサである。ワイパー状態センサ303はワイパーの稼動状態をモニタリングするセンサである。センサ情報統合部304はこれら3つのセンサ情報を統合しベクトル系列として出力する素子又は回路である。以降、使用状況検知部104はかかる構成を有するものとして説明することとする。
引き続き、図1のブロック図に基づいてこの発明の実施の形態の音声認識システムの構成について説明する。音響分析部105は、入力端3から入力された音声信号に基づいて音響分析を行い、音声特徴量を算出する部位である。音響モデル記憶部106は、音響モデルを記憶するための記憶素子又は回路である。
音響モデル記憶部106は、音響モデル記憶手段の一例であって、所定の使用環境を想定して学習した音響モデルを複数個記憶する記憶素子又は回路、記憶媒体などから構成される。ここで、音響モデルは、音声データと文字や単語、音節や音素など口述語の構成要素とを対応付けた音声認識照合用のデータである。音声データとしては、所定の使用環境下で実際に人に発話してもらって収集した音声データの他、クリーンな音声データに使用環境下で収集した環境騒音データを重畳して得た音声データなど、事前に学習されたデータが用いられる。
また、音響モデル記憶部106は、音響モデルと合わせて図5に示すように、使用環境特定データを音響モデルに対するインデックスとして保持している。
(1)音響モデル学習データ収集時のセンサ情報ベクトル βm
(2)音響モデル学習データのSN比 Rm
なお、上記においてmは音響モデルに付与された番号(一意に音響モデルを識別可能な値)である。
(1)音響モデル学習データ収集時のセンサ情報ベクトル βm
(2)音響モデル学習データのSN比 Rm
なお、上記においてmは音響モデルに付与された番号(一意に音響モデルを識別可能な値)である。
さらに、この構成の音響モデルについて特徴的なことは、所定の使用環境に特化した音響モデルを準備している点である。すなわち、ここで用いられる音響モデルは複数の環境に対応させる必要がなく、特定の環境で最高性能の照合が行えるようになっているので、音声認識の精度を高めることができるとともに、特定の環境のみの照合に対応できればよいので各音響モデルのデータ量を抑制することができるのである。
なお、音響モデルとしては複数種類のセンサ情報ベクトルだけでなく、異なる種類のSN比に対応するように音響モデルを準備しておく。ただし2種類のセンサ情報ベクトルについて、同一のSN比の組み合わせに対応した音響モデルを準備しておく必要は必ずしもない。例えばセンサ情報ベクトルAとセンサ情報ベクトルBがある場合に、センサ情報ベクトルAに対応する音響モデルが前提とするSN比と、センサ情報ベクトルBが対応する音響モデルが前提とするSN比が同一である必要はない。
音響モデル選択部107は、音響モデル選択手段の一例であって、入力された音声との照合に用いる音響モデルを選択する部位である。また音響モデル選択部107は音響モデルの選択に際し、平均SN比算出部103の算出結果や使用状況検知部104の検知結果を用いるようになっている。
なお、以降の説明では、平均SN比算出部103によって算出される平均SN比と使用状況検知部104によって検知結果として出力されるセンサ情報のベクトルとを一まとめにして、使用環境特定データと呼ぶこととする。
照合部108は、照合手段の一例であり、音響モデル選択部111が選択した音響モデルと、音響分析部105が出力した音響特徴量との尤度を算出し、この尤度に基づいて語彙を選択し、認識結果4として出力する部位である。
なお、音声認識装置2の構成要素のうち、無音声区間判定部100、SN比算出部101、SN比記憶部102、平均SN比算出部103、音響分析部105、音響モデル記憶部106、音響モデル選択部107、音響モデル照合部108はそれぞれ専用の回路により構成することになるが、DSP(Digital Signal Processor)などで構成した制御部を設けて、これらの構成要素により実現される機能を制御部で処理するようにしてもよい。また制御部を中央演算装置(CPU)とし、このCPUに各構成要素の機能に相当する処理を実行させるコンピュータプログラムとして実現することも容易である。
次に、音声認識装置2の動作について、図を参照しながら説明する。図3は音声認識装置2の処理のフローチャートである。図において、使用者がマイクロホン1から音声入力を行うと(ステップS101)、無音声区間判定部100は音声データが含まれているかどうかを判定する(ステップS102)。その結果、有音声区間と判定された場合にはステップS103に進む(ステップS102:Yes)。有音声区間でないと判定された場合(ステップS102:No)については後述する。
SN比算出部101は、マイクロホン1から入力された音声信号から音声のSN比を算出して算出結果のSN比をSN比記憶部102に記憶させる(ステップS103)。そのためにSN比算出部101は、まずマイクロホン1からアナログ信号である入力音声信号を所定の周期毎にサンプリングしてディジタルデータに変換する。そしてディジタル化された音声信号データから式(1)を用いてフレーム毎に入力音声のSN比を算出する。
なお、フレームとは、後述する音声特徴量ベクトル算出の基準となる一定時間のことである。また式(1)において、rtはフレームtに対するSN比である。さらに、Snはnサンプリング周期目(nは自然数)にサンプリングされたサンプルデータの値、spは入力音声区間の先頭のサンプル番号、Lspは1フレームに含まれるサンプルデータの数、Lshiftは1フレーム当たりにシフトするサンプル数、Lnsは音声区間前の無音区間のサンプル数である。
図4は、入力音声の信号波形とLsp、Lns及びLshiftとの関係を示した図である。
一方、音響分析部105は、SN比算出部101の処理と並行して、マイクロホン1から入力された音声の音響分析処理を行う(ステップS104)。具体的には、音響分析処理として、音響分析部105は、アナログ信号である入力音声をディジタルデータに変換し、一定時間毎に音声特徴量ベクトルαtを算出する。音声特徴量としては、例えばLPCケプストラム(Linear Predictive Coding Cepstrum)が用いられる。
なお、ディジタルデータへの変換処理はSN比算出部101でも行われるので、両者を共通化するような構成を採用してもよい。また、図3のフローチャートにおいて、ステップS104はステップS103の後に実行されるように記載しているが、両者の間には何ら依存関係のない独立した処理であるから、この順序を入れ替えても構わないし、並列に実行してもよい。
これとは別に平均SN比算出部103は、SN比記憶部102に記憶されているSN比rtの系列から平均SN比Rtを算出する(ステップS105)。平均SN比Rtの算出方法は、例えば式(2)を用いて算出する方法がある。ここで、KはSN比記憶部102が記憶するSN比系列のうち平均の算出に用いるSN比の総数である。
なお、環境騒音の騒音レベルがほぼ一定で、かつ使用者の口からマイクロホン1までの距離が変化しないことを想定される場合には、SN比記憶部102が記憶するすべてSN比から平均値を算出してもよい。一方、環境騒音の騒音レベルが随時変動している使用環境下やマイクロホン1との距離が変化するような使用環境下ではKを小さな値に設定することが望ましい。極端な場合には、K=0、すなわちRt=rtとしてRtを算出するようにしても構わない。
ステップS102〜ステップS105の処理に並行して、あるいはこれらのステップの処理に前後して、使用状況検知部104は音声認識装置2の設置された環境の情報をセンサ情報ベクトルβtとして出力する(ステップS106)。このような処理として、例えばGPS301は現在位置の緯度xtと経度ytを計測する。また速度センサ302は音声認識装置2が設置された車両の移動速度(車速)を計測する。ワイパー状態センサ303はワイパーの動作状況を計測する。最近の自動車のワイパーは稼働速度を選択することが可能となっている場合が多く、どのような状況で稼働しているのかを信号として出力するのである。その結果、センサ情報統合部304は各種のセンサからの信号をセンサ情報ベクトルβtとして統合し、出力する。この構成例の場合、1センサ情報ベクトルβtは式(3)で表されるような構成を有している。
音響モデル選択部107は、現在の使用環境に適合した音響モデルが音響モデル記憶部106に記憶されているかどうか判定する(ステップS107〜S108)。そのためにまず音響モデル選択部107は、音響モデル記憶部106に記憶されている各音響モデルのセンサ情報ベクトルβmと現在の使用環境を表す数値化したデータとしてセンサ情報ベクトルβtとの距離値D1を算出する(ステップS107)。
以降の説明において、音響モデル記憶部106が記憶している音響モデルの総数をMとする。また音響モデル記憶部106が記憶している各音響モデルに対して音響モデルを一意に識別しうるように、1からMまでのいずれかの整数によるインデックスを付与することとする。そしてこのインデックスを用いて、音響モデルを音響モデルm(mは1からMまでの整数インデックス)のように呼ぶこととし、音響モデルmの距離値D1を距離値D1(m)と表す。
距離値D1(m)は式(4)に基づいて算出される。ここでw1〜w4は各センサ情報に対する重み係数である。この構成ではセンサ情報が4つの場合(緯度、経度、速度、ワイパー動作状況)を例としているが、他のセンサ情報を用いる場合には、新たなセンサ情報に対応した項を式(4)の右辺に追加すればよい。
また重み係数については、音声照合に最も影響を与えるセンサ情報に対する重み係数を大きくし、そうでないセンサ情報に対する重み係数を小さくすることが望ましい。また、現実の構成で用いられるセンサの特性に合わせて適切な重み係数を付与するとよい。例えば、センサが速度センサであるときには、km/h単位で速度を出力する場合とmph(miles per hour)で速度を出力する場合では速度情報の寄与の仕方が異なってくるので、重み係数を都度適切に設定することでこれらの特性の差異を吸収するのである。
このようにして算出されたD1(m)のうち、最小となる距離値を音響モデル選択部107は選択し、最小の距離値が所定値以下となるかどうかを判定する(ステップS108)。そして最小の距離値が所定値以下となる場合(ステップS108:Yes)には、最小の距離値を与える音響モデルを選択する(ステップS109)。
一方、最小の距離値が所定値以下とはならなかった場合(ステップS108:No)は、現在の使用状況に適合する音響モデルが存在しないと判断できる。一般に音響モデルは一つあたり数百キロバイト程度のデータサイズに及ぶ場合があり、搭載可能な記憶容量の限られている小型の音声認識装置などでは、すべての使用状況に対応可能な音響モデルを準備できるとは限らない。したがって現在の使用状況が予め想定していた使用状況とある程度かけ離れてしまっている場合は、使用状況が近似する(センサの出力値の距離値が小さい)音響モデルを用いたとしても精度よく音声認識できるとは限らない。
そこでこのような場合には、単純に使用状況の近似性だけでは音響モデルを選択しないこととする。具体的には音響モデル選択部107はまず、各音響モデルについてSN比の距離値を算出する(ステップS110)。音響モデルmに関するSN比の距離値をD2(m)と表すならば、D2(m)は例えば式(5)に基づいて算出される。
次に音響モデル選択部107は、各音響モデルのうち距離値D2が最小となる音響モデルを選択する(ステップS111)。現在の使用状況と音響モデルについて想定していた使用状況が近似していなくても、SN比が大きい場合には背景騒音の影響が小さいので、SN比が類似する音響モデルを選択することで、音声認識処理の精度を向上することができるのである。
またこのように、センサ情報に基づいて判断した場合に適合する音響モデルが見いだせない場合であっても、SN比に基づいて音響モデルを選択することとした。この結果、使用状況としては代表的なもののみを選択してそれらの使用状況に対応する音響モデルを準備すれば足りるようになる。したがって音響モデルの学習に要するコストを低減することができる。
続いて、照合部108は、ステップS109あるいはステップS111で選択された音響モデルと音響分析部105が出力した音声特徴量ベクトルαtとの照合処理を行う(ステップS112)。ここでは、音響モデルとして記憶されている標準パターンと音声特徴量の時系列との間で最も距離値の小さい候補を認識結果とする。例えばDP(Dynamic Programming)マッチングによるパターンマッチングを行い、距離値が最小のものを認識結果4とする。また、DPの代わりにHMM(Hidden Markov Model)を用いても構わない。
ここで得られた認識結果は図示せぬメモリに記憶され、処理は再びステップS101に戻って次の入力音声を取得する(ステップS101)。入力された音声が有音声区間にある場合(ステップS102:Yes)は、すでに説明したような処理(ステップ103〜ステップS112)を繰り返すが、その際に特筆すべきことはセンサ情報ベクトルとSN比を都度算出し、算出したセンサ情報ベクトルとSN比に基づいてその時点の使用状況に適合した音響モデルを選択する、という点である。
このように構成することで、有音声区間の間に無音声区間がなくても、センサ情報やSN比に基づいてその時点で最適な音響モデルを選択することとしたので、背景騒音の種類の変動に対応して音響モデルを変更することができ、頻繁に背景騒音が変化するような環境における音声認識の精度が向上する。
これによって、例えば自動車の車内のようにロードノイズなど不定期の騒音が発生する環境下でも安定した音声認識処理を行うことができるのである。
またセンサとSN比の双方に基づいて音響モデルを選択することとしたので、センサの出力値の近似度が低い場合にSN比に基づいて使用状況に適合する音響モデルを選択することができる。これによって、すべての使用状況を想定する音響モデルを予め準備する必要がなくなるので、記憶容量の削減が可能となり、また音響モデル学習に要するコストを低減することができる。
なお、この発明の実施の形態の音声認識装置によれば、センサとSN比の双方を組み合わせて音響モデルを選択することとしたが、いずれか一方しか備えていない場合であっても使用状況の変動を検出することができるから、有音声区間の途中で背景騒音の種類が変動した場合に音響モデルを変更する、というこの発明の趣旨を達成することができることは明らかである。
また、この発明の実施の形態の音声認識装置によれば、音響モデル記憶部6を設けて予め準備した音響モデルを記憶しておくこととしているが、クリーンな音響モデルを1つだけ記憶し、使用状況に対応する背景騒音を音響モデルに重畳させることによっても同様の効果が得られる。この場合は音響モデルに重畳させる背景騒音の種類をセンサや入力音声のSN比に基づいて選択する構成となる。
この発明は、例えばカーナビゲーションシステムや携帯電話に搭載する音声認識インターフェースを実現する上で有用である。
101 SN比算出部、
102 SN比記憶部、
103 平均SN比算出部、
104 使用状況検知部、
106 音響モデル記憶部、
107 音響モデル選択部、
108 照合部。
102 SN比記憶部、
103 平均SN比算出部、
104 使用状況検知部、
106 音響モデル記憶部、
107 音響モデル選択部、
108 照合部。
Claims (8)
- 入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
この音声認識装置が使用される使用状況を取得するセンサと、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えたことを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
センサが取得する使用状況を想定して予め準備された複数の音響モデルを記憶する音響モデル記憶手段と、
上記音響モデル記憶手段が記憶する音響モデルから上記センサが取得した使用状況の変化に応じて異なる音響モデルを選択する音響モデル選択手段と、を備え、
照合手段は、上記音響モデル選択手段が選択した音響モデルと入力音声から抽出された音響特徴量とを照合する、
ことを特徴とする音声認識装置。 - 入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
上記入力音声のSN比を算出するSN比算出手段と、
上記SN比に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えたことを特徴とする音声認識装置。 - 請求項3に記載の音声認識装置において、
入力音声のSN比を想定して予め準備された複数の音響モデルを記憶する音響モデル記憶手段と、
上記音響モデル記憶手段が記憶する音響モデルからSN比算出手段により算出されたSN比の変化に応じて異なる音響モデルを選択する音響モデル選択手段と、を備え、
照合手段は、上記音響モデル選択手段が選択した音響モデルと入力音声から抽出された音響特徴量とを照合する、
ことを特徴とする音声認識装置。 - 請求項4に記載の音声認識装置において、
この音声認識装置が使用される使用状況を取得するセンサを備え、
音響モデル記憶手段は、センサが取得する使用状況と入力音声のSN比とを想定して予め準備された複数の音響モデルを記憶し、
音響モデル選択手段は、音響モデル記憶手段により記憶される音響モデルが想定する使用状況とSN比とを、センサが取得した使用状況とSN比算出手段が算出したSN比とに対比して音響モデルを選択する、
ことを特徴とする音声認識装置。 - 請求項5に記載の音声認識装置において、
音響モデル選択手段は、センサが取得した使用状況に適合する使用状況の音響モデルを音響モデル記憶手段が記憶していない場合に、SN比算出手段が算出したSN比に適合するSN比の音響モデルを選択する、
ことを特徴とする音声認識装置。 - 入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識処理をコンピュータに実行させる音声認識プログラムにおいて、
センサを用いて上記コンピュータが使用される使用状況を取得する使用状況取得ステップと、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合ステップと、
をコンピュータに逐次実行させることを特徴とする音声認識プログラム。 - 入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識処理をコンピュータに実行させる音声認識プログラムにおいて、
上記入力音声のSN比を算出するSN比算出ステップと、
上記SN比の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合ステップと、
をコンピュータに逐次実行させることを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004292067A JP2006106300A (ja) | 2004-10-05 | 2004-10-05 | 音声認識装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004292067A JP2006106300A (ja) | 2004-10-05 | 2004-10-05 | 音声認識装置及びそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006106300A true JP2006106300A (ja) | 2006-04-20 |
Family
ID=36376128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004292067A Pending JP2006106300A (ja) | 2004-10-05 | 2004-10-05 | 音声認識装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006106300A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204175A (ja) * | 2009-02-27 | 2010-09-16 | Nippon Hoso Kyokai <Nhk> | 音声学習装置及びプログラム |
US9842588B2 (en) | 2014-07-21 | 2017-12-12 | Samsung Electronics Co., Ltd. | Method and device for context-based voice recognition using voice recognition model |
JP2019095599A (ja) * | 2017-11-22 | 2019-06-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム |
WO2022249801A1 (ja) * | 2021-05-28 | 2022-12-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声認識装置、音声認識方法、及び音声認識プログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6242198A (ja) * | 1985-08-20 | 1987-02-24 | 松下電器産業株式会社 | 音声認識装置 |
JPH09127979A (ja) * | 1995-10-30 | 1997-05-16 | Toyota Motor Corp | 車両用音声認識装置 |
JP2000172291A (ja) * | 1998-12-02 | 2000-06-23 | Sony Corp | 音声認識装置 |
JP2000194392A (ja) * | 1998-12-25 | 2000-07-14 | Sharp Corp | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 |
JP2002132289A (ja) * | 2000-10-23 | 2002-05-09 | Seiko Epson Corp | 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置 |
JP2003280686A (ja) * | 2002-03-15 | 2003-10-02 | Internatl Business Mach Corp <Ibm> | 音声認識装置、その音声認識方法及びプログラム |
JP2004206063A (ja) * | 2002-10-31 | 2004-07-22 | Seiko Epson Corp | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
-
2004
- 2004-10-05 JP JP2004292067A patent/JP2006106300A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6242198A (ja) * | 1985-08-20 | 1987-02-24 | 松下電器産業株式会社 | 音声認識装置 |
JPH09127979A (ja) * | 1995-10-30 | 1997-05-16 | Toyota Motor Corp | 車両用音声認識装置 |
JP2000172291A (ja) * | 1998-12-02 | 2000-06-23 | Sony Corp | 音声認識装置 |
JP2000194392A (ja) * | 1998-12-25 | 2000-07-14 | Sharp Corp | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 |
JP2002132289A (ja) * | 2000-10-23 | 2002-05-09 | Seiko Epson Corp | 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置 |
JP2003280686A (ja) * | 2002-03-15 | 2003-10-02 | Internatl Business Mach Corp <Ibm> | 音声認識装置、その音声認識方法及びプログラム |
JP2004206063A (ja) * | 2002-10-31 | 2004-07-22 | Seiko Epson Corp | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204175A (ja) * | 2009-02-27 | 2010-09-16 | Nippon Hoso Kyokai <Nhk> | 音声学習装置及びプログラム |
US9842588B2 (en) | 2014-07-21 | 2017-12-12 | Samsung Electronics Co., Ltd. | Method and device for context-based voice recognition using voice recognition model |
JP2019095599A (ja) * | 2017-11-22 | 2019-06-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム |
WO2022249801A1 (ja) * | 2021-05-28 | 2022-12-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声認識装置、音声認識方法、及び音声認識プログラム |
EP4328903A4 (en) * | 2021-05-28 | 2024-07-17 | Panasonic Ip Corp America | SPEECH RECOGNITION DEVICE, SPEECH RECOGNITION METHOD AND SPEECH RECOGNITION PROGRAM |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
EP1058925B1 (en) | System and method for noise-compensated speech recognition | |
EP1936606B1 (en) | Multi-stage speech recognition | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
JP5957269B2 (ja) | 音声認識サーバ統合装置および音声認識サーバ統合方法 | |
JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
JP4868999B2 (ja) | 音声認識方法、音声認識装置及びコンピュータプログラム | |
CN109964270B (zh) | 用于关键短语识别的系统和方法 | |
US9711136B2 (en) | Speech recognition device and speech recognition method | |
CN106875936B (zh) | 语音识别方法及装置 | |
JP4357867B2 (ja) | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 | |
JP2004325979A (ja) | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 | |
US9431010B2 (en) | Speech-recognition device and speech-recognition method | |
JP2007114413A (ja) | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム | |
US20070038453A1 (en) | Speech recognition system | |
Akbacak et al. | Environmental sniffing: noise knowledge estimation for robust speech systems | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
US9159315B1 (en) | Environmentally aware speech recognition | |
US11056113B2 (en) | Conversation guidance method of speech recognition system | |
CN111312236A (zh) | 语音识别系统的域管理方法 | |
JP5988077B2 (ja) | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム | |
JP2006106300A (ja) | 音声認識装置及びそのプログラム | |
JPH08211897A (ja) | 音声認識装置 | |
JP5867199B2 (ja) | 雑音推定装置、雑音推定方法及び雑音推定用コンピュータプログラム | |
JP4749990B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101005 |