JP4576612B2 - 音声認識方法および音声認識装置 - Google Patents

音声認識方法および音声認識装置 Download PDF

Info

Publication number
JP4576612B2
JP4576612B2 JP2005266130A JP2005266130A JP4576612B2 JP 4576612 B2 JP4576612 B2 JP 4576612B2 JP 2005266130 A JP2005266130 A JP 2005266130A JP 2005266130 A JP2005266130 A JP 2005266130A JP 4576612 B2 JP4576612 B2 JP 4576612B2
Authority
JP
Japan
Prior art keywords
time
speech
threshold
procedure
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005266130A
Other languages
English (en)
Other versions
JP2007079072A (ja
Inventor
晃 佐宗
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2005266130A priority Critical patent/JP4576612B2/ja
Publication of JP2007079072A publication Critical patent/JP2007079072A/ja
Application granted granted Critical
Publication of JP4576612B2 publication Critical patent/JP4576612B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、高基本周波数音声や長音化音声を含んだ音声の音声認識方法および音声認識装置に関する。
近年の音声認識技術は、大語彙の連続音声を高い精度で認識することを可能にしたが、その適用範囲はごく限られている。
例えば、背景雑音や残響などがある雑音環境下での音声認識、対話音声、感情音声、歌声などの様々な発話様式での音声認識、そして、子供、老人、障害者などの多様な話者の音声認識では、認識精度が著しく劣化する。
歌声や子供の音声、また、アニメなどの声優の音声など高基本周波数音声と長音化音声を含む音声を認識する場合(例えば、ARHMMを用いた音響信号のモデリングやパラメータ推定手法などについては、下記特許文献1、特許文献2、および、特許文献3、また、下記非特許文献1、非特許文献2、非特許文献3などで述べられている。)、以下の理由により、従来の音声認識手法では認識が困難となる。
即ち、高基本周波数音声は、周波数領域で調波構造が疎になるため、音声の特徴量として従来広く用いられているLPC(線形予測符号化)ケプストラム(対数スペクトルに逆フーリエ変換をしたもの)やMFCC(Mel−Frequency Cepstrum Coefficient:人間の感覚尺度を考慮して音声から抽出したスペクトル包絡を表す特徴量)などでは、音韻性を表すフォルマントの特徴を精度よく抽出できないという問題点がある。そして、新聞記事などを読み上げた音声から学習したHMM(隠れマルコフモデル)による音響モデルを用いて認識を行う従来のHMMベース認識システムでは、長音化した音声の継続時間とHMMの状態遷移確率がミスマッチとなり、認識精度が劣化するという問題点がある。
特開2003−5785号公報 特開2003−99085号公報 特開2004−287010号公報 佐宗 晃, 田中 和世, "HMMによる音源のモデリングと高基本周波数に頑健な声道特性抽出," 電子情報通信学会論文誌(D−II), Vol.J84−D−II, No.9, pp.1960−1969, Sep, 2001. Akira Sasou, Masataka Goto, Satoru Hayamizu, Kazuyo Tanaka, "Comparison of Auto−Regressive, Non−Stationary Excited Signal Parameter Estimation Methods," Proc. of IEEE Workshop on Machine Learning for Signal Processing (MLSP2004), pp.295−304, Sep. 2004. Akira Sasou, Masataka Goto, Satoru Hayamizu, Kazuyo Tanaka, "An Auto−Regressive, Non−Stationary Excited Signal Parameter Estimation Method and an Evaluation of a Singing−Voice Recognition", Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2005), vol.1, pp.237−240, Mar. 2005.
本発明の目的は、上記問題点に鑑み、ARHMMに基づいた音声分析手法で音声の特徴量を求め、更に、長音化した音声特徴量を除いて音声認識する音声認識方法および音声認識装置を提供することにある。
図1は本発明の音声認識方法を実行するように構成された音声認識装置のブロック図である。
以上の課題を解決するために、本発明は、図1に示す、ARHMM(Auto−Regressive Hidden Markov Model:自己回帰隠れマルコフモデル:HMM(かくれマルコフモデル)の出力をAR(自己回帰)フィルタに通す構成→観測時系列をARフィルタで逆フィルタリングした時系列をHMMで表現する:換言すると、HMMの出力をARフィルタに通しているので、連続的に変化する統計量で観測時系列を表現していることになる、更に言及すれば、観測時系列が一定の相関を持って変化している場合、その相関性をARフィルタで取り除くことで、単純な時系列に変換できる場合がある。)に基づいた音声の特徴抽出手順を実行するためのARHMMに基づいた音声の特徴抽出手段、長音補正処理手順を実行する長音補正処理手段および音声認識手順を実行する音声認識手段を順次組み合わせた音声認識方法およびその方法を実行する各手段からなる音声認識装置を用いる。
本発明は、歌声のような高基本周波数音声から特徴抽出するために、ARHMMに基づいた分析手法を採用する。
問題となる長音に対しては、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することで、長音による認識精度の劣化を改善する。提案方法は、音声特徴量の時系列信号に対して時間軸方向の回帰係数として求められるΔ係数を下記数9の式により求める。
Δc(n,i)は、フレーム時刻nにおける音声特徴量の第i番目要素のΔ係数をあらわす。このようにして求めたΔ係数は、音韻変動の少ない長音区間でゼロに近づくことを利用して、長音検出を行う。具体的な手順は以下の通りである。はじめに、Δ係数の自乗和の時系列s(n)を下記数10の式から求める。
次に、s(n)に対して、例えば、移動平均などによる平滑化処理を施した時系列l(n)を下記数11の式から求める。
上記のようにして求められる時系列l(n)に対して、閾値lthrを設け、ある時刻nから連続するN個の値が下記数12の式の閾値lthrを下回ったら
長音と判断し、時刻(n+N)からl(n)が閾値を下回り続ける限りその時刻の特徴量を削除する。
具体的には、以下の手段を採用する。
(1)音声認識方法は、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することを特徴とする。
(2)上記(1)記載の音声認識方法は、入力音声の長音区間を、各時刻のフレームから得られた音声特徴量からΔ係数を求め、各フレームのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手順を備えたことを特徴とする。
(3)上記(1)又は(2)記載の音声認識方法は、Auto−Regressive Hidden Markov Modelに基づいた音声分析により得られる音声特徴量に対して上記(1)又は(2)の手順を適用することを特徴とする。
(4)上記(3)記載の音声認識方法は、
(4−1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をARHMMに基づいて分析し、得られたフレーム時刻nにおけるAR(自己回帰)スペクトル振幅の対数値u(n)を下記数13の式により求める手順1、
式中NはFFTのサンプル数である。
(4−2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手順2、
(4−3)手順1で求めた前記対数値u(n)と手順2で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、ARHMMベースのMFCC(人間の感覚尺度を考慮して音声から抽出したスペクトル包絡を表す特徴量)とする手順3、
(4−4)フレーム時刻nにおけるΔ係数の自乗和の時系列s(n)を下記数14の式から求める手順4、
(4−5)次に、s(n)に対して、例えば、移動平均などによる平滑化処理を施した時系列l(n)を下記数15の式から求める手順5、
(4−6)上記のようにして求められる時系列l(n)に対して、閾値lthrを設け、ある時刻nから連続するN個の値が下記数16の式の閾値lthrを下回ったら
長音と判断し、時刻(n+N)からl(n)が閾値を下回り続ける限りその時刻の特徴量を削除した信号を得る手順6、
(4−7)上記手順6を実行して得た特徴量に基づき音声認識を行う手順7、
を実行することを特徴とする。
(5)音声認識装置は、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することを特徴とする。
(6)上記(5)記載の音声認識装置は、入力音声の長音区間を、各時刻のフレームから得られた音声特徴量からΔ係数を求め、各フレームのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手段を備えたことを特徴とする。
(7)上記(5)又は(6)記載の音声認識装置は、Auto−Regressive Hidden Markov Modelに基づいた音声分析により得られる音声特徴量に対して請求項5又は6の手段を適用することを特徴とする。
(8)上記(7)記載の音声認識装置は、
(8−1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をARHMMに基づいて分析し、得られたフレーム時刻nにおけるAR(自己回帰)スペクトル振幅の対数値u(n)を下記数17の式により求める手段1、
式中NはFFTのサンプル数である。
(8−2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手段2、
(8−3)手段1で求めた前記対数値u(n)と手段2で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、ARHMMベースのMFCCとする手段3、
(8−4)フレーム時刻nにおけるΔ係数の自乗和の時系列s(n)を下記数18の式から求める手段4、
(8−5)次に、s(n)に対して、例えば、移動平均などによる平滑化処理を施した時系列l(n)を下記数19の式から求める手段5、
(8−6)上記のようにして求められる時系列l(n)に対して、閾値lthrを設け、ある時刻nから連続するN個の値が下記数20の式の閾値lthrを下回ったら
長音と判断し、時刻(n+N)からl(n)が閾値を下回り続ける限りその時刻の特徴量を削除した信号を得る手段6、
(8−7)上記手段6の出力である特徴量に基づき音声認識を行う手段7、
からなることを特徴とする。
従来の音声認識システムは、例えば、新聞記事を読み上げた音声から学習した音響モデルを用いるため、歌声のように長音化音声を多く含むような音声では、特に状態遷移確率に関してミスマッチが生じる。また、従来の音韻に関する特徴抽出手法である線形予測法やメルフィルタバンク分析などは、高基本周波数音声を分析する場合、抽出精度が劣化する傾向がある。このため、音韻情報に関して音響モデルとミスマッチが生じる。これらの原因により、従来の音声認識システムで歌声などの音声を認識する場合、その認識精度が著しく劣化する。
本発明は、この問題を解決するために、長音区間の検出および削除をすることで、状態遷移確率のミスマッチを解消する。長音区間検出を精度良く行うには、歌声のような基本周波数の高い音声からでも音韻特徴を正しく抽出する必要がある。しかし、前述のように、従来の特徴抽出手法は、高基本周波数音声の場合に、精度が劣化する。このため、長音区間検出精度も劣化し、状態遷移確率に関するミスマッチが解消されない可能性がある。本発明は、既に開発してある、高基本周波数音声からでも精度よく音韻特徴抽出が可能なARHMMに基づいた手法と長音補正処理を組み合わせることで、音韻特徴抽出精度と長音区間検出精度が同時に改善され、高い認識精度を実現することができる。
本発明の実施の形態を図に基づいて詳細に説明する。
図1に示すように、本発明の音声認識方法を実行するように音声認識装置を構成する。
音声認識装置は、基本的に、少なくとも音声信号を取り込み、所定の演算結果を出力する入出力(I/O)装置、記憶装置(メモリ)、中央演算装置等を有し、所定のプログラムによって、所定の手順を実行する。音声認識装置は、例えば、パーソナルコンピュータで構成する。この場合、音声信号を取り込むための装置を備えていても良い。
本発明の音声認識方法を用いた歌声認識実験について、以下に述べる。
実験には、RWC研究用音楽データベースに収録されている日本のポピュラー音楽の中から英語表現の少ない12曲を選び、そのヴォーカルファイル(楽器演奏を含まないヴォーカルだけのデータ)を用いた。サンプリング周波数は16kHzである。認識には、大語彙連続音声認識システムJuliusと日本語の新聞記事を読み上げた音声から学習した音響モデルを用いた。音響モデルの学習に用いた特徴量はMFCC(人間の感覚尺度を考慮して音声から抽出したスペクトル包絡を表す特徴量)である。以上のように、この実験で用いている認識システムの音響モデルは、完全に歌声に関してオープンとなっている。単語辞書および言語モデルは、曲ごとに歌詞から生成した。
この実験では、以下の手順で、AR係数a(i)からARHMMベースMFCCを求める。
フローチャートで説明する。
はじめに(START)、
(1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をARHMMに基づいて分析し、得られたフレーム時刻nにおけるAR(自己回帰)スペクトル振幅の対数値u(n)を下記数21の式により求める(ステップS1)。
この処理は、通常のMFCCを求める手続きの中でFFT(ファーストフーリエ変換)の対数振幅を求める処理に相当する。式中NはFFTのサンプル数である。これ以降の手続きは通常のMFCCのそれと同じで、
(2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求め(ステップS2)、
(3)ステップ1で求めた前記対数値u(n)とステップ2で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、ARHMMベースのMFCCとする(ステップS3)。
次に、上記のようにして求めたARHMMベースMFCCの時間軸方向に沿って、回帰分析をしてΔ係数を求める。Δ係数から下記式(5)、(6)、(7)を用いて長音区間検出を行う。
長音に対しては、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することで、長音による認識精度の劣化を改善する。提案方法は、音声特徴量の時系列信号に対して時間軸方向の回帰係数などとして求められるΔ係数が、音韻変動の少ない長音区間でゼロに近づくことを利用して、長音検出を行う。
具体的には、
(5)次に、s(n)に対して、例えば、移動平均などによる平滑化処理を施した時系列l(n)を下記数23の式から求める(ステップS5)。
(6)上記のようにして求められる時系列l(n)に対して、閾値lthrを設け、ある時刻nから連続するN個の値が下記数24の式の閾値lthrを下回ったら
長音と判断し、時刻(n+N)からl(n)が閾値を下回り続ける限りその時刻の特徴量を削除した信号を得る(ステップS6)。
(7)上記ステップ6を実行して得た特徴量に基づき音声認識を行う(ステップS7)。
終了(END)。
上記ステップS1〜S3は、図1のARHMMに基づいた特徴抽出手順SA又は特徴抽出手段MAに相当し、上記ステップS4〜S6は、図1の長音補正処理手順SB又は長音補正処理手段MBに相当し、上記ステップS7は、図1の音声認識手順SC又は音声認識手段MCに相当する。
長音区間検出を行った例を図2に示す。
図2は本発明の音声認識装置の各部の出力信号図である。上から、歌声の音声波形(a)、音韻特徴の抽出結果(b)、ARHMMベースMFCCのデルタ特徴量に数11の式を適用した結果(c)、そして最下図は、数12の式によって評価された特徴量を削除するフレームの区間情報(d)を表している。この図のように、本発明により、音韻が一定になっている区間で正しく、特徴量が削除されることがわかる。図2(c)の縦軸は1メモリ5で0から40までのレンジになっている。
長音補正処理を行わないで、音声特徴量としてARHMMベースMFCCと従来のMFCCのそれぞれで歌声を認識したときの結果を、表1,2に示す。表1が単語正解率(Correct Word Rate[%])で表2が誤り率(Error Rate[%])を示している。単語正解率と誤り率の平均を見ると、従来のMFCCよりARHMMベースMFCCを特徴量として用いる方が、認識率が改善される。
次に、歌声から抽出したARHMMベースMFCCと従来のMFCCに対して、長音補正処理を行い、得られた特徴量を認識した結果を表3、4に示す。これより、従来のMFCCに対して長音補正処理する場合よりも、ARHMMベースMFCCに対して長音補正処理をする方が、より認識率の改善が実現されている。
長音補正処理なし(表1,2)と長音補正処理あり(表3,4)のMFCCの結果を比較することで、長音補正処理の有効性を確認することができる。また、長音補正処理なし(表1,2)のARHMMベースMFCCの結果を見ると改善は僅かであるが、ARHMMベースMFCCと長音補正処理を組み合わせた結果(表3,4のARHMM)をみると、音韻の特徴抽出精度とそれによる長音区間検出精度の両方が改善されるため、それぞれ単独で用いたときに得られる改善値を足し合わせた以上に、大きな改善が得られている。以上より、ARHMMベースMFCCと長音補正処理が最適な組み合わせあることがわかる。
産業上の利用の可能性
歌声を認識することで、歌手が曲のどの部分を歌っているのかを検出し、その情報に基づいて伴奏のスピードを制御するカラオケマシン。
歌声やアニメ音声を認識することで、歌詞や台詞のテロップ表示の自動化。
本発明の音声認識方法のフローチャート図である。 本発明の音声認識装置の各部の出力信号図である。
符号の説明
SA、MA ARHMMに基づいた特徴抽出手順SAおよび特徴抽出手段MA
SB、MB 長音補正処理手順SBおよび特徴抽出手段MB
SC、MC 音声認識手順SCおよび音声認識手段MC

Claims (2)

  1. 自己回帰隠れマルコフモデルに基づいた音声分析により得られる入力音声から得られた音声特徴量に対して、入力音声の長音区間を、各時刻のフレームで得られた前記音声特徴量からΔ係数を求め、そのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手順により、
    入力音声の音韻変動が何らかの閾値と比較して小さい区間を長音区間と判断し、その区間の前記音声特徴量の一部を削除し、残りの特徴量を認識する音声認識方法であって、
    (1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号を自己回帰隠れマルコフモデルに基づいて分析し、得られたフレーム時刻nにおけるAR(自己回帰)スペクトル振幅の対数値u(n)を下記数1の式により求める手順1、
    但し、式1中NはFFTのサンプル数に相当する、
    (2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手順2、 (3)それらに対して離散コサイン変換を行い、ARHMMベースのMFCCとする手順3、
    (4)フレーム時刻nにおけるΔ係数の自乗和の時系列s(n)を下記数2の式から求める手順4、
    (5)次に、s(n)に対して、例えば、移動平均などによる平滑化処理を施した時系列l(n)を下記数3の式から求める手順5、
    (6)上記のようにして求められる時系列l(n)に対して、閾値lthrを設け、ある時刻nから連続するN個の値が下記数4の式の閾値lthrを下回ったら
    長音と判断し、時刻(n+N)からl(n)が閾値を下回り続ける限りその時刻の特徴量を削除した信号を得る手順6、
    (7)上記手順6を実行して得た特徴量に基づき音声認識を行う手順7、
    からなることを特徴とする音声認識方法。
  2. 自己回帰隠れマルコフモデルに基づいた音声分析により得られる入力音声から得られた音声特徴量に対して、入力音声の長音区間を、各時刻のフレーム得られた前記音声特徴量からΔ係数を求め、そのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手段により、
    入力音声の音韻変動が何らかの閾値と比較して小さい区間を長音区間と判断し、その区間の前記音声特徴量の一部を削除し、
    残りの特徴量を認識する音声認識装置であって、
    (1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号を自己回帰隠
    れマルコフモデルに基づいて分析し、得られたフレーム時刻nにおける自己回帰スペクト
    ル振幅の対数値u(n)を下記数5の式により求める手段1、
    但し、式中NはFFTのサンプル数である、
    (2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手段2、
    (3)手順1で求めた前記対数値u(n)と手順2で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、自己回帰隠れマルコフモデルベースのMFCCとする手段
    3、
    (5)次に、s(n)に対して、平滑化処理を施した時系列l(n)を下記数7の式から求める手段5、
    (6)上記のようにして求められる時系列l(n)に対して、閾値lthrを設け、ある
    時刻nから連続するN個の値が下記数8の式の閾値lthrを下回ったら
    長音と判断し、時刻(n+N)からl(n)が閾値を下回り続ける限りその時刻の特
    徴量を削除した信号を得る手段6、
    (7)上記手段6の出力である特徴量に基づき音声認識を行う手順7、
    からなることを特徴とする音声認識装置。
JP2005266130A 2005-09-13 2005-09-13 音声認識方法および音声認識装置 Expired - Fee Related JP4576612B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005266130A JP4576612B2 (ja) 2005-09-13 2005-09-13 音声認識方法および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005266130A JP4576612B2 (ja) 2005-09-13 2005-09-13 音声認識方法および音声認識装置

Publications (2)

Publication Number Publication Date
JP2007079072A JP2007079072A (ja) 2007-03-29
JP4576612B2 true JP4576612B2 (ja) 2010-11-10

Family

ID=37939459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005266130A Expired - Fee Related JP4576612B2 (ja) 2005-09-13 2005-09-13 音声認識方法および音声認識装置

Country Status (1)

Country Link
JP (1) JP4576612B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445924B (zh) * 2020-03-18 2023-07-04 中山大学 基于自回归模型系数检测定位语音片段内平滑处理的方法
CN111914721B (zh) * 2020-07-27 2024-02-06 华中科技大学 一种基于线性回归及高斯阈值的加工状态识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60129796A (ja) * 1983-12-17 1985-07-11 電子計算機基本技術研究組合 音声入力装置
JPH04211299A (ja) * 1991-02-08 1992-08-03 Matsushita Electric Ind Co Ltd 単音節音声認識装置
JPH11250063A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 検索装置及び検索方法
JP2000099099A (ja) * 1998-09-22 2000-04-07 Sharp Corp データ再生装置
JP2002311981A (ja) * 2001-04-17 2002-10-25 Sony Corp 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2003005785A (ja) * 2001-06-26 2003-01-08 National Institute Of Advanced Industrial & Technology 音源の分離方法および分離装置
JP2004012883A (ja) * 2002-06-07 2004-01-15 Sharp Corp 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JP2004287010A (ja) * 2003-03-20 2004-10-14 National Institute Of Advanced Industrial & Technology 波形認識方法及び装置、並びにプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60129796A (ja) * 1983-12-17 1985-07-11 電子計算機基本技術研究組合 音声入力装置
JPH04211299A (ja) * 1991-02-08 1992-08-03 Matsushita Electric Ind Co Ltd 単音節音声認識装置
JPH11250063A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 検索装置及び検索方法
JP2000099099A (ja) * 1998-09-22 2000-04-07 Sharp Corp データ再生装置
JP2002311981A (ja) * 2001-04-17 2002-10-25 Sony Corp 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2003005785A (ja) * 2001-06-26 2003-01-08 National Institute Of Advanced Industrial & Technology 音源の分離方法および分離装置
JP2004012883A (ja) * 2002-06-07 2004-01-15 Sharp Corp 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JP2004287010A (ja) * 2003-03-20 2004-10-14 National Institute Of Advanced Industrial & Technology 波形認識方法及び装置、並びにプログラム

Also Published As

Publication number Publication date
JP2007079072A (ja) 2007-03-29

Similar Documents

Publication Publication Date Title
Shahnawazuddin et al. Creating speaker independent ASR system through prosody modification based data augmentation
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones
Wang et al. Speaker identification by combining MFCC and phase information in noisy environments
US8180636B2 (en) Pitch model for noise estimation
WO2004111996A1 (ja) 音響区間検出方法および装置
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Shahnawazuddin et al. Effect of prosody modification on children's ASR
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
CN108682432B (zh) 语音情感识别装置
Eringis et al. Improving speech recognition rate through analysis parameters
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
Alku et al. The linear predictive modeling of speech from higher-lag autocorrelation coefficients applied to noise-robust speaker recognition
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
Sinha et al. On the use of pitch normalization for improving children's speech recognition
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
Zolnay et al. Using multiple acoustic feature sets for speech recognition
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JP4576612B2 (ja) 音声認識方法および音声認識装置
Khonglah et al. Speech enhancement using source information for phoneme recognition of speech with background music
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
Morales-Cordovilla et al. On the use of asymmetric windows for robust speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100804

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees