JP4291728B2 - 音声認識方法およびこの方法を実施する装置 - Google Patents

音声認識方法およびこの方法を実施する装置 Download PDF

Info

Publication number
JP4291728B2
JP4291728B2 JP2004119931A JP2004119931A JP4291728B2 JP 4291728 B2 JP4291728 B2 JP 4291728B2 JP 2004119931 A JP2004119931 A JP 2004119931A JP 2004119931 A JP2004119931 A JP 2004119931A JP 4291728 B2 JP4291728 B2 JP 4291728B2
Authority
JP
Japan
Prior art keywords
speech
model
speech model
recognition
transfer characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004119931A
Other languages
English (en)
Other versions
JP2005301097A (ja
Inventor
哲 小橋川
敏 高橋
義和 山口
厚徳 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004119931A priority Critical patent/JP4291728B2/ja
Publication of JP2005301097A publication Critical patent/JP2005301097A/ja
Application granted granted Critical
Publication of JP4291728B2 publication Critical patent/JP4291728B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は、音声認識方法およびこの方法を実施する装置に関し、特に、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて入力音声の認識を行う音声認識方法およびこの方法を実施する装置に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語の如き音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model、以下、HMM、と略記する)を用いてモデル化する方法は、認識性能が高く、現在の音声認識技術の主流となっている(非特許文献1 参照)。
図1はHMMを用いた音声認識装置を説明する図である。音声信号入力端子11から入力された音声信号は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部13において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したHMMをモデルパラメータメモリ14から読み出し、モデル照合尤度計算部15において、入力音声信号に対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果として認識結果出力部16より出力する。
中川聖一:"確率モデルによる音声認識"電子情報通信学会編。
上述の如き音声認識を実施する場合、或る環境で収録した音声の認識性能は、話者の口の位置およびマイクの位置が決まった場合、話者の口とマイクの間のインパルス応答(空間伝達特性)を測定し、測定したインパルス応答を畳み込んだ音声データから学習した音声モデルを構築することにより、これを向上することができる。しかし、測定したインパルス応答を畳み込んだ音声データから特定の環境に対応する音声モデルを新たに再学習する場合、膨大な計算時間とコストがかかることになる。そこで、例えば、接話マイクを利用して、伝達特性の影響の少ない収録環境で収録された音声から構築した既存の音声モデルから、インパルス応答の畳み込みを反映した音声モデルを合成することができると好都合である。
この発明は、収録環境の伝達特性に適応した音声モデルを非常に短時間に合成することができ、所望の収録環境において収録された音声の認識性能を向上させることができる音声認識方法およびこの方法を実施する装置を提供するものである。
請求項1:入力信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴
を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法
において、基準信号に対して、話者の口とマイクの間の伝達特性を畳み込んだ信号から
得られた長時間平均特徴パラメータと、前記伝達特性を畳み込まない長時間平均特徴パラ
メータとの間の差分を計算し、前記伝達特性が無い環境で構築された音声モデルに対して
計算した差分を前記音声モデルのパラメータに加算することによって、前記伝達特性を含
んだ音声モデルを合成し、合成した音声モデルによって音声認識を行う音声認識方法を構
成した。
そして、請求項2:請求項1に記載される音声認識方法において、基準信号に対して前記伝達特性を畳み込んだ信号から得られた長時間平均特徴パラメータと、前記伝達特性を畳み込まない長時間平均特徴パラメータとの間の差分を計算し、前記伝達特性が無い環境で構築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算することにより前記伝達特性を含んだ音声モデルを合成するか否かの判定処理を、前記伝達特性を分析して音声認識の分析フレーム外の時刻における反射波レベルの大きさに基づいてし、否と判定すると、前記伝達特性が畳み込まれた学習用音声データから伝達特性を含んだ音声モデルを再学習する音声認識方法を構成した。
また、請求項3:請求項1および請求項2の内の何れかに記載される音声認識方法において、前記伝達特性を含んだ音声モデルを合成した後、雑音モデルを用いて雑音適応をすることにより前記伝達特性に加え、雑音にも適応したモデルを合成した音声モデルによって音声認識を行う音声認識方法を構成した。
ここで、請求項4:入力信号から計算した特徴パラメータ系列に対して各認識結果候補
の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認
識装置において、基準信号に対して、話者の口とマイクの間の伝達特性を畳み込んだ信号
から得られた長時間平均特徴パラメータと前記伝達特性を畳み込まない長時間平均特徴パ
ラメータとの間の差分を計算する特徴量差分計算部26と、前記伝達特性が無い環境で構
築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算すること
により前記伝達特性を含んだ音声モデルを更新する音声モデル更新部27とを有する音声
モデル合成部20を具備し、合成した音声モデルによって音声認識を行う音声認識部を有
する音声認識装置を構成した。
そして、請求項5:請求項4に記載される音声認識装置において、前記伝達特性を分析し、音声認識の分析フレーム外の時刻における反射波レベルの大きさを判定して、音声モデル合成部20を用いるか否かを判定する分析フレーム外混入反射波レベル判定部41を音声モデル合成部20の前段に配置し、否と判定すると、前記伝達特性が畳み込まれた学習用音声データから伝達特性を含んだ音声モデルを再学習する音声認識装置を構成した。
また、請求項6:請求項4および請求項5の内の何れかに記載される音声認識装置において、雑音モデルを用いて雑音適応をする雑音適応部42を音声モデル更新部27の後段に配置し、前記伝達特性に加え、雑音にも適応したモデルを合成した音声モデルによって音声認識を行う音声認識装置を構成した。
この発明によれば、収録環境における伝達特性(インパルス応答)が既知の場合、音声モデルを作成するための音声データに対してインパルス応答を畳み込み、畳み込み処理後の音声で音声モデルを再学習するのでは無く、学習データと比較して短い基準信号から得た特徴パラメータの長時間平均と、基準信号に対してインパルス応答を畳み込み、畳み込み処理後の基準信号から得た特徴パラメータの長時間平均の差分を求め、求めた長時間平均特徴パラメータを用いて、伝達特性の無い環境で作成したモデルを伝達特性を含んだ環境で作成した音響モデルに変換することができる。これにより、収録環境の伝達特性に適応した音声モデルが、非常に短時間に合成することができ、所望の収録環境において収録された音声の認識性能を向上させることができる。
発明を実施するための最良の形態を図の実施例を参照して説明する。
図2を参照するに、20は音声モデル合成部であり、入力された伝達特性(インパルス応答)の畳み込み演算によって基準信号の長時間平均特徴パラメータの移動する量を計算し、この移動量に基づいて伝達特性を含まない元の音声モデルを更新する部位である。ここで、基準信号としては、一例として、或る話者が50文程度を発声して得られた音声信号を使用することができる。音声モデル合成部20により合成した音声モデルは、図1を参照して説明されたHMMを用いた音声認識装置におけるモデルパラメータメモリ14に格納して使用される。その後は、図1を参照して説明した処理と同様の処理が行われる。以下、具体的に説明する。
音声モデル合成部20において、22は畳み込み演算部であり、インパルス応答入力端子21に入力したインパルス応答を、基準信号メモリ24に格納されている基準信号に畳み込み演算を行う演算部である。23は長時間平均特徴パラメータ抽出部であり、畳み込み演算処理後の基準信号の長時間平均特徴パラメータを抽出する。その一方で、25は非畳み込み基準信号長時間平均特徴パラメータ抽出部25であり、基準信号メモリ24に格納されている基準信号に対して畳み込み演算を行っていない基準信号の長時間平均特徴パラメータを抽出する。この非畳み込み基準信号長時間平均特徴パラメータは、音声認識に際して、この特徴パラメータ抽出部25により抽出しながら特徴量差分計算部26に供給する他に、メモリにオフラインで抽出記憶しておいてこれを読み出して特徴量差分計算部26に供給する構成を採用することもできる。この特徴量差分計算部26は、畳み込み演算処理後の基準信号から抽出した長時間平均特徴パラメータと、畳み込み演算処理前の基準信号から抽出した長時間平均特徴パラメータとの間の特徴量の差分を計算する計算部である。27は音声モデル更新部であり、特徴量差分計算部26により得られた特徴量の差分情報を用いて、元音声モデルメモリ28に格納されている元音声モデルのパラメータを更新する更新部である。29は音声モデル出力部であり、更新した音声モデルを出力する。
次に、図3に示されるフローチャートを参照して、音声モデル合成部20の動作を説明する。
(ステップS31) 基準信号を読み込む。
(ステップS32) 畳み込むインパルス応答(伝達特性)を読み込む。
(ステップS33) 読み込んだ基準信号に対して、読み込んだインパルス応答を畳み込む演算を行う。
(ステップS34) 畳み込み演算処理後の基準信号に対して、特徴パラメータを抽出し、長時間平均の特徴パラメータを得る。
(ステップS35) 一方において、ステップS31で読み込んだ基準信号に対して、特徴パラメータを抽出し、長時間平均の特徴パラメータを得る。
(ステップS36) ステップS34とステップS35で抽出した長時間平均特徴パラメータの差分を計算する。
(ステップS37) 伝達特性の影響の少ない環境の元で作成された音声モデルを読み込む。
(ステップS38) 元音声モデルのモデルパラメータを、ステップS36で計算された長時間平均特徴量パラメータ差分を用いて更新する。
この更新の仕方としては、例えば、音声モデルに含まれる各分布の平均値に対して、ステップS36で得られた長時間平均特徴パラメータの差分を加算する。
(ステップS39) 最後に、ステップS38で更新された音声モデルを伝達特性合成モデルとして出力する。
図2を参照して請求項1に記載される発明の実施例を説明する。音声信号入力端子11から入力された入力音声信号からA/D変換部12、特徴パラメータ抽出部13を介して計算した特徴パラメータ系列に対して、各認識結果侯補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、インパルス応答入力端子21から入力したインパルス応答を、畳み込み演算部22において基準信号メモリ24から供給される基準信号に畳み込み、長時間平均特徴パラメータ抽出部23において畳み込み済み基準信号から特徴パラメータを抽出し、この畳み込み済み基準信号から抽出した特徴パラメータと、非畳み込み基準信号長時間平均特徴パラメータ抽出部25から抽出した特徴パラメータの差分から、伝達特性(インパルス応答)の影響による特徴パラメータの移動量を算出し、伝達特性がかかっていない環境で収録された音声から作成された音声モデルに対して、得られた特徴パラメータの移動量に基づくモデルパラメータの変換を行うことにより、畳み込み処理後の音声からモデルを再学習することなく、畳み込み処理後の音声から学習したモデルを、簡易的に合成することができる。
インパルス応答から得られる周波数上のフィルタ特性は、線形スペクトル領域では積の演算としてかかるので、対数スペクトル領域では和の演算としてかかる。音声認識に用いられているケプストラムをべ一スとした特徴量、例えば、MFCCは、対数スペクトルからの線形変換で求められるので、伝達特性は和の演算としてかかる。そこで、基準となる信号に対して、インパルス応答を畳み込む前と後で、特徴量の各次元がどれだけ変化するのかに着目し、その特徴量の各次元の移動量から、音声モデルのパラメータを線形移動することにより伝達特性を含んだ音声モデルを合成する。
図4および図5をも参照して請求項2、4および5に記載される発明の実施例を説明する。図4は、畳み込み演算部22の前に、インパルス応答を分析し、分析フレーム外の反射波レベルの大きさに基づいて、モデルパラメータを変換する方法を用いるか否かを判定する分析フレーム外混入反射波レベル判定部41を加えた実施例である。この実施例は、入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、測定したインパルス応答から直接波成分と非直接波成分を分離し、更に、非直接波成分を音声認識に用いる分析フレームの範囲内に入っているフレーム内成分、および分析フレームの範囲外に入っているフレーム外成分に分離する。直接波成分とフレーム外成分の比を、伝達特性による隣接フレームヘの影響度とし、この影響度に基づいて、請求項1の方法により伝達特性を含んだ音声モデルを合成するか、音声モデル学習用の音声データに対して伝達特性を畳み込み、畳み込み処理後の音声データから伝達特性を含んだ音声モデルを再学習するかを、分析フレーム外混入反射波レベル判定部41により判定する。
伝達特性の影響が音声認識の分析フレーム内に収まっている場合、伝達特性の影響は単なる周波数軸上のフィルタ特性として、線形スペクトル領域では積の演算、即ち、対数スペクトル領域では和の演算となるので、音声モデルのパラメータの線形移動で伝達特性畳み込み音声モデルを合成することができる。一方、フレーム内に収まらない場合は、伝達特性の影響は単なる周波数軸上のフィルタ特性では無く、隣接フレームにも影響してしまうので、単純な音声モデルのパラメータの線形移動だけでは伝達特性畳み込み音声モデルはできない。そこで、直接波のレベルを基準とした伝達特性のフレーム外のレベルを、フレーム外への影響度とし、この影響度に基づいて伝達特性畳み込み音声モデルをパラメータの線形移動で求めるか、畳み込み処理後の大量の音声データから再学習するかを判定する。
請求項5に記載される発明の実施例は、入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、測定したインパルス応答から直接波成分と非直接波成分を分離し、更に、非直接波成分を音声認識に用いる分析フレームの範囲内に入っているフレーム内成分、および分析フレームの範囲外に入っているフレーム外成分に分離する。直接波成分と、フレーム外成分の比を、伝達特性による隣接フレームヘの影響度として分析フレーム外混入反射波レベル判定部41により隣接フレーム影響度を計算し、この影響度に基づいて、請求項4に記載される装置におけると同様に伝達特性を含んだ音声モデルを合成するか、音声モデル学習用の音声データに対して伝達特性を畳み込み、畳み込み処理後の音声データから伝達特性を含んだ音声モデルを再学習するかを判定する。
伝達特性の影響が音声認識の分析フレーム内に収まるか否かは、請求項2の方法と同様の理由により、請求項4に記載される音声認識装置が効果的である否かに影響するので、伝達特性の影響が分析フレーム内で収まるか否かを判定する分析フレーム外混入反射波レベル判定部41を有する。
図5を参照して請求項3および請求項6に記載される発明の実施例を説明する。これは、音声モデル更新部27で更新された伝達特性を合成した音声モデルに対して、雑音適応処理を施す雑音適応部42を加えた実施例である。請求項3に記載される発明の実施例は、入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、請求項1および請求項2に記載される方法により、伝達特性を考慮した音声モデルを合成し、更に、背景雑音のデータから作成した雑音モデルと合成することにより、伝達特性と雑音の両方に適応したモデルを合成する。
実環境において収録される音声データは、先ず、話者の口とマイクの間の伝達特性が線形スペクトル軸上で積の演算としてかかり、更に、マイクに混入する背景雑音が和の演算としてかかる。そこで、音声モデルを伝達特性および背景雑音に適応させるには、先ず、伝達特性による影響を考慮したモデルを合成し、伝達特性適応音声モデルを作成する。そして、この伝達特性適応音声モデルと、背景雑音から作成した雑音モデルを合成することにより、伝達特性にも、背景雑音にも適応した音声モデルが作成される。音声モデルと雑音モデルの合成には、例えば、HMMの合成による雑音重畳音声の認識手法(例えば、F.Martin他:“Recognition of Noisy Speech by Composition of Hidden Markov Models,”電子情報通信学会技術研究報告SP 92-96, pp.9-16,1992)を用いる。請求項6に記載されるこの発明は、入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、請求項4および請求項5の内の何れかに記載される装置により、伝達特性を考慮した音声モデルを合成する伝達特性合成手段と、更に、背景雑音のデータから作成した雑音モデルと合成する雑音適応モデル合成手段を有することにより、伝達特性と雑音の両方に適応したモデルを合成することができる音声認識装置である。
最後に、この発明の実施例について、伝達特性環境下音声認識の実験例を説明し、その効果を明らかにする。音響モデルは、音素環境独立音素数30、3状態、4混合分布モデルを用いた。学習に用いるドライな環境で収録された(伝達特性無しの接話マイク環境で収録)音声データには、男性話者1名による接話マイクで収録した503文章発声を用いた。特徴パラメータは、12次元のMFCC、ΔMFCC、Δパワーである。サンプリング周波数は、16kHzである。評価用のドライな環境で収録された(伝達特性無しの接話マイク環境で収録)音声は、前記の学習データと同一の男性話者1名による接話マイクで収録した216単語発声である。この評価用のドライ音声に対してある環境で測定したインパルス応答を畳み込んだ音声を評価音声として認識実験を行った。ここで用いたインパルス応答は、自動車内において、話者の口(スピーカ)の位置を運転席のヘッドレストの前に置き、マイクの位置をバックミラー付近に置いた環境において測定したものである。
図6は上述の評価音声に対する各方法のの認識率を示す図である。このインパルス応答を畳み込んだ評価音声に対する認識性能を、先に説明したドライな音声データから学習した音声モデルで認識した場合の「ドライソースモデル」、ドライな音声データに対して実際に測定したインパルス応答を畳み込んだ音声データから学習した音声モデルで認識した場合の「畳み込みモデル」、学習に用いるドライな音声データの一部を用いて、畳み込み前後の特徴パラメータMFCCの1〜12次元の移動量を求め、求めた移動量に基づいて前述のドライソースモデル内の各分布のMFCC1〜12次元め平均を移動させた音声モデルで認識した場合の、この発明による「パラメータ移動モデル」について調べた。この発明は、インパルス応答の影響を考慮しないモデルで認識したドライソースモデルよりも勝っており、更に、実際にインパルス応答を畳み込んだ大量の音声データからモデルを学習した畳み込みモデルに近い高い性能を示している。この発明は、畳み込みモデルと比較して、モデルを作成するのにかかる時間も短く、有効であると言える。
HMMを用いた音声認識装置を説明する図。 実施例を説明する図。 音声モデル合成部の動作を説明するフローチャート。 他の実施例を説明する図。 更なる他の実施例を説明する図。 評価音声に対する各方法のの認識率を示す図。
符号の説明
11 音声信号入力端子 12 A/D変換部
13 特徴パラメータ抽出部 14 モデルパラメータメモリ
15 モデル照合尤度計算部 16 認識結果出力部
20 音声モデル合成部 21 インパルス応答入力端子
22 畳み込み演算部 23 長時間平均特徴パラメータ抽出部
25 非畳み込み基準信号長時間平均特徴パラメータ抽出部
24 基準信号メモリ 26 特徴量差分計算部
27 音声モデル更新部 28 元音声モデルメモリ
29 音声モデル出力部 41 分析フレーム外混入反射波レベル判定部
42 雑音適応部

Claims (6)

  1. 入力信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
    基準信号に対して、話者の口とマイクの間の伝達特性を畳み込んだ信号から得られた長時間平均特徴パラメータと、前記伝達特性を畳み込まない長時間平均特徴パラメータとの間の差分を計算し、前記伝達特性が無い環境で構築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算することによって、前記伝達特性を含んだ音声モデルを合成し、合成した音声モデルによって音声認識を行うことを特徴とする音声認識方法。
  2. 請求項1に記載される音声認識方法において、
    基準信号に対して前記伝達特性を畳み込んだ信号から得られた長時間平均特徴パラメータと、前記伝達特性を畳み込まない長時間平均特徴パラメータとの間の差分を計算し、前記伝達特性が無い環境で構築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算することにより前記伝達特性を含んだ音声モデルを合成するか否かの判定処理を、前記伝達特性を分析して音声認識の分析フレーム外の時刻における反射波レベルの大きさに基づいてし、
    否と判定すると、前記伝達特性が畳み込まれた学習用音声データから伝達特性を含んだ音声モデルを再学習することを特徴とする音声認識方法。
  3. 請求項1および請求項2の内の何れかに記載される音声認識方法において、
    前記伝達特性を含んだ音声モデルを合成した後、雑音モデルを用いて雑音適応をすることにより前記伝達特性に加え、雑音にも適応したモデルを合成した音声モデルによって音声認識を行うことを特徴とする音声認識方法。
  4. 入力信号から計算した特徴パラメータ系列に対して各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
    基準信号に対して、話者の口とマイクの間の伝達特性を畳み込んだ信号から得られた長時間平均特徴パラメータと前記伝達特性を畳み込まない長時間平均特徴パラメータとの間の差分を計算する特徴量差分計算部26と、前記伝達特性が無い環境で構築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算することにより前記伝達特性を含んだ音声モデルを更新する音声モデル更新部27とを有する音声モデル合成部20を具備し、合成した音声モデルによって音声認識を行う音声認識部を有することを特徴とする音声認識装置。
  5. 請求項4に記載される音声認識装置において、
    前記伝達特性を分析し、音声認識の分析フレーム外の時刻における反射波レベルの大きさを判定して、音声モデル合成部20を用いるか否かを判定する分析フレーム外混入反射波レベル判定部41を音声モデル合成部20の前段に配置し
    否と判定すると、前記伝達特性が畳み込まれた学習用音声データから伝達特性を含んだ音声モデルを再学習することを特徴とする音声認識装置。
  6. 請求項4および請求項5の内の何れかに記載される音声認識装置において、
    雑音モデルを用いて雑音適応をする雑音適応部42を音声モデル更新部27の後段に配置し、前記伝達特性に加え、雑音にも適応したモデルを合成した音声モデルによって音声認識を行うことを特徴とする音声認識装置。
JP2004119931A 2004-04-15 2004-04-15 音声認識方法およびこの方法を実施する装置 Expired - Fee Related JP4291728B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004119931A JP4291728B2 (ja) 2004-04-15 2004-04-15 音声認識方法およびこの方法を実施する装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004119931A JP4291728B2 (ja) 2004-04-15 2004-04-15 音声認識方法およびこの方法を実施する装置

Publications (2)

Publication Number Publication Date
JP2005301097A JP2005301097A (ja) 2005-10-27
JP4291728B2 true JP4291728B2 (ja) 2009-07-08

Family

ID=35332679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004119931A Expired - Fee Related JP4291728B2 (ja) 2004-04-15 2004-04-15 音声認識方法およびこの方法を実施する装置

Country Status (1)

Country Link
JP (1) JP4291728B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4353202B2 (ja) 2006-05-25 2009-10-28 ソニー株式会社 韻律識別装置及び方法、並びに音声認識装置及び方法
KR102413616B1 (ko) 2019-07-09 2022-06-27 구글 엘엘씨 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성
JP2021128297A (ja) * 2020-02-17 2021-09-02 ヤマハ株式会社 推定モデル構築方法、演奏解析方法、推定モデル構築装置、演奏解析装置、およびプログラム
JP7395446B2 (ja) 2020-09-08 2023-12-11 株式会社東芝 音声認識装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2005301097A (ja) 2005-10-27

Similar Documents

Publication Publication Date Title
JP5326892B2 (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP4246792B2 (ja) 声質変換装置および声質変換方法
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
CN106531150B (zh) 一种基于深度神经网络模型的情感合成方法
Boril et al. Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environments
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
JPH11327592A (ja) 話者正規化処理装置及び音声認識装置
US20100198577A1 (en) State mapping for cross-language speaker adaptation
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
JP5039865B2 (ja) 声質変換装置及びその方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JPH075892A (ja) 音声認識方法
JPH09160584A (ja) 音声適応化装置および音声認識装置
Stouten et al. Model-based feature enhancement with uncertainty decoding for noise robust ASR
Nanavare et al. Recognition of human emotions from speech processing
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
Grewal et al. Isolated word recognition system for English language
JP4291728B2 (ja) 音声認識方法およびこの方法を実施する装置
Liu Environmental adaptation for robust speech recognition
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JPH10254473A (ja) 音声変換方法及び音声変換装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090324

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090403

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120410

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130410

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140410

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees