JP2004347761A - 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 - Google Patents
音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 Download PDFInfo
- Publication number
- JP2004347761A JP2004347761A JP2003143224A JP2003143224A JP2004347761A JP 2004347761 A JP2004347761 A JP 2004347761A JP 2003143224 A JP2003143224 A JP 2003143224A JP 2003143224 A JP2003143224 A JP 2003143224A JP 2004347761 A JP2004347761 A JP 2004347761A
- Authority
- JP
- Japan
- Prior art keywords
- model data
- reverberation
- speech
- acoustic model
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Abstract
【解決手段】コンピュータを含んで構成され音声を認識するための音声認識装置であって、該音声認識装置は、音声信号から得られる特徴量をフレームごとに格納する手段20と、音響モデル・データおよび言語モデル・データを格納するための手段24、26と、その時点で処理するべき音声信号よりも前に取得された音声信号から残響音声モデル・データを生成し、残響音声モデル・データを使用して適合音響モデル・データを生成する手段18と、特徴量と適合音響モデル・データと言語モデル・データとを参照して音声信号の音声認識結果を与える手段16とを含む。
【選択図】 図5
Description
【発明の属する技術分野】
本発明は、コンピュータ装置による音声認識に関し、より詳細には、周囲環境からの残響がオリジナルの音声に重畳される場合であっても充分に、オリジナル音声を認識するための音声認識装置、音声認識方法、および該制御方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体に関する。
【0002】
【従来技術】
コンピュータ装置による周辺装置の制御性が向上したことにともない、マイクロフォンなどからの音声入力から入力された音声を、自動的に認識するシステムが使用されるようになってきている。上述した音声入力からの音声認識装置は、書類の口述筆記、会議議事録などの書起こし、ロボットとの対話など、外部機械の制御といった種々の用途において利用することができるものと想定することができる。上述した音声認識装置は、本質的には、入力された音声を解析して特徴量を取得し、取得された特徴量に基づいて音声に対応する単語を選択することにより、音声をコンピュータ装置に対して認識させるものである。音声認識を行う際には、周囲環境からの雑音などの影響を排除するために、種々の方法が提案されている。このための代表的な例としては、ユーザに対してハンド・マイクロフォンまたはヘッドセット型マイクロフォンの使用を義務づけ、収録される音声に重畳される残響やノイズを排除して、入力音声だけを取得する方式を挙げることができる。このような方法では、ユーザが音声収録を行う場合、通常では使用しない余分な機材の使用をユーザに対して要求する。
【0003】
上述したハンド・マイクロフォンや、ヘッドセット型マイクロフォンの使用をユーザに対して要求する理由としては、発話者がマイクロフォンから離れて発話すると、周囲からの雑音の影響の他にも、周囲環境に応じて生成してしまう残響を挙げることができる。残響がノイズの他に音声信号に重畳されると、音声認識で使用する音声単位の統計モデル:音響モデル(Hidden Markov Model)において、音声認識のミスマッチが生じ、結果的に認識効率の低下を招くことになる。
【0004】
図9には、音声認識を行う場合に雑音を考慮する代表的な方法を示す。図9に示すように、雑音が存在すると、入力される信号は、音声信号と、音声信号に雑音信号が重畳された出力確率分布を有することになる。多くの場合、雑音は突発的に発生するので、入力信号を取得するためのマイクロフォンと、雑音を取得するためのマイクロフォンとを使用し、いわゆる2チャネルの信号を使用して入力信号から音声信号と、雑音信号とを分離して取得する方法が使用されている。図9に示した従来の音声信号は第1のチャネルにより取得され、雑音信号は、第2のチャネルにより取得されており、2チャネルの信号を使用することによって、雑音のある環境下でも入力された音声信号から、オリジナルの音声信号を認識することが可能とされている。
【0005】
しかしながら、2チャネル分のデータを使用することにより音声認識装置のハードウエア資源が消費されることに加え、状況によっては2チャネルの入力が可能でない場合もあるので、常に効率的な認識を可能とするものではない。また都度2チャネルの情報を同時に必要とすることは、現実的な音声認識に対して大きな制限を加えてしまうと言った不都合もある。
【0006】
従来、音声の伝達経路による影響に対処する方法として、ケプストラム平均減算法(Cepstrum Mean Subtraction: CMS)が使われている。この手法は、例えば電話回線の影響などのように、伝達特性のインパルス応答が比較的短い場合(数msec−数十msec)には有効であるが、部屋の残響のように伝達特性のインパルス応答が長くなった場合(数百msec)には充分な性能が得られないという不都合が知られていた。この理由は、一般的に部屋の残響の伝達特性の長さが、音声認識に用いられる短区間分析の窓幅(10msec−40msec)よりも長くなり、分析区間内で安定したインパルス応答とならないためである。
【0007】
短区間分析を用いない残響抑制手法としては、複数のマイクロフォンを利用し逆フィルタを設計して音声信号から残響成分を除去する方法も提案されている(M. Miyoshi and Y. Kaneda, “Inverse Filtering of room acoustics,” IEEE Trans. on ASSP, Vol.36, pp.145−152, No.2, 1988)。この方法では、音響伝達特性のインパルス応答が最小位相とならない場合も生じてしまい、現実的な逆フィルタの設計は難しいという不都合がある。また使用環境下において、コストや物理的な配置状況により複数のマイクロフォンを設置できない場合も多い。
【0008】
また、残響への対応方法は、例えば特開2002−152093号公報に開示のエコー・キャンセラのように、種々の方法が提案されている。しかしながら、これらの方法は、音声を2チャネルで入力する必要があり、1チャネルの音声入力で残響に対応することができる方法ではない。さらに、エコー・キャンセラの技術として、特開平9−261133号公報に記載の方法および装置も知られている。しかしながら、特開平9−261133号公報において開示される残響処理方法については、同一の残響環境下における複数の場所における音声測定が必要とされる点で、汎用的な方法というわけではない。
【0009】
また、周囲からのノイズを考慮した音声認識に関しては、例えば共通の出願人に帰属される特許出願、特願2002−72456号明細書において開示された、フレーム単位で音響モデルを選択することによる、突発性雑音下での音声認識などの方法を使用して対処することも可能である。しかしながら、突発的に発生する雑音ではなく、環境に応じて発生してしまう、残響の特性を有効に利用する音声認識に関して有効な手法は、これまで知られていない。
【0010】
フレーム内伝達特性Hを予測して、音声認識にフィードバックする方法は、例えば、滝口ら(T. Takiguchi, et. al. “HMM−Separation−Based Speech Recognition for a Distant Moving Speaker,” IEEE Trans. on SAP, Vol.9, pp.127−140, No.2, 2001)により報告されている。この方法は、フレーム内における伝達特性Hを使用して残響の影響を反映させ、さらに、音声入力を参照信号としてヘッドセット型のマイクロフォンで入力し、これとは別に残響信号を測定する、2チャネルの測定結果に基づいて、残響を予測する残響予測係数であるαを取得するものである。上述した滝口らの方法を使用することによってもまったく残響の影響を考慮しない場合や、CMS法による処理に比較して充分に高い精度で音声認識を行うことが可能であることが示されているものの、ハンズフリーの環境下で測定された音声信号のみから音声認識を行うことを可能とする方法ではない。
【0011】
【発明が解決しようとする課題】
しかしながら、手が使用できないユーザや、ヘッドセット型マイクロフォンを携行または着用することができない環境に居るユーザであっても、音声認識を行なうことができれば、音声認識の利用性を大きく広げることができるものと考えられる。また、上述した既存技術はあるものの、既存技術と比較して、さらに音声認識精度を向上させることができれば、音声認識の利用性をさらに拡大することができる。例えば、上述した環境としては、例えば自動車といった車両、航空機などの運転または操縦中や、広い空間内で移動しながら音声認識に基づいて、処理を行う場合、ノート型・パーソナル・コンピュータへの音声入力、キオスク装置などにおいて離れた位置に配置されたマイクロフォンへの音声入力を行う場合などを挙げることができる。
【0012】
上述したように、従来の音声認識手法は、少なくともヘッドセット型マイクロフォンやハンド・マイクロフォンなどを使用することが前提とされたものである。しかしながら、コンピュータ装置の小型化や、音声認識の用途が拡大するにつれて、ますます残響を考慮しなければならない環境における音声認識手法が必要とされ、残響が発生する環境においてもハンズフリーでの音声認識機能を可能とする処理がますます要求されて来ている。本発明においては、用語「ハンズフリー」とは、発話者がマイクロフォンの位置に制約を受けず、自由な場所から発話を行うこととして参照する。
【0013】
【課題を解決するための手段】
本発明は、上述した従来の音声認識の不都合に鑑みてなされたものであり、本発明では、音声認識で使用している音響モデル(Hidden Markov Model)を残響環境下の音声信号に適応させることにより部屋の残響の影響に対処する方法を提案する。本発明では、1つのマイクロフォン(1チャネル)入力で観測された信号を用いて、短区間分析における残響成分の影響を推定する。この方法ではインパルス応答をあらかじめ測定する必要もなく、任意の場所から発話された音声信号のみを用いて、音響モデルを利用した最尤推定により残響成分を推定することを可能とする。
【0014】
本発明では、本質的に残響や、ノイズの重畳されていない音声信号(以下、本発明では、「フレーム内残響影響を受けた音声モデル」として参照する。)をヘッドセット型のマイクロフォンやハンド・マイクロフォンを使用して実測するのではなく、音声認識で使用している音響モデルを用いて表現し、さらに残響予測係数を尤度最大基準に基づいて推定することによっても、充分な音声認識行うことが可能である、という着想の下になされたものである。
【0015】
残響が重畳される場合には、入力される音声信号と、音響モデルとは残響の分だけ異なることになる。本発明においては、インパルス応答が長いことを考慮すれば、残響が、過去のフレームにおける音声信号O(ω;tp)に依存しつつ、その時点で判断している音声信号O(ω;t)に重畳されると仮定しても充分に残響をシミュレーションすることができることを見出すことによりなされたものである。本発明においては、残響とは、インパルス応答よりも長時間にわたり音声信号に対して影響を与える信号であり、なおかつ当該残響を与える信号が音声信号を与える話声である、音響的な信号として定義することができる。本発明においてさらに残響を明確に定義することを要するものではないものの、概ね残響は、使用される観測ウィンドウの時間幅との関連で言えば、観測ウィンドウの時間幅よりも長く影響を与える音響的な信号として定義することができる。
【0016】
ここで、音響モデルとして通常使用される音響モデル・データ(HMMパラメータなど)は、音声コーパスなどを使用して生成される音韻に関連する精度の高い基準信号として捉えることができる。一方で、フレーム内での伝達関数Hは、既存の技術に基づいて充分な精度で予測することができる。本発明では、音響モデルから従来では参照信号として別に入力されていた信号に相当する「フレーム内残響影響を受けた音声モデル」をケプストラムの加算性を使用して生成する。また、残響予測係数αは、選択された音声信号に対して最大尤度を与えるようにして推定することができる。この残響予測係数を使用してユーザに使用する環境に適合した適合音響モデルを生成し、音声認識を実行する。本発明によれば、参照信号としての音声入力を必要とせず、1チャネルからの音声信号のみを使用して音声認識を行うことが可能となる。また、本発明により、発話者がマイクロフォンから離れて発話した場合に問題となる残響の影響に対し、ロバストな音声認識装置および音声認識方法を提供することが可能となる。
【0017】
すなわち、本発明によれば、コンピュータを含んで構成され音声を認識するための音声認識装置であって、該音声認識装置は、
音声信号から得られる特徴量をフレームごとに格納する記憶領域と、
音響モデル・データおよび言語モデル・データをそれぞれ格納する格納部と、
その時点で処理するべき音声信号よりも前に取得された音声信号から残響音声モデル・データを生成し、残響音声モデル・データを使用して適合音響モデル・データを生成する残響適合モデル生成部と、
前記特徴量と前記適合音響モデル・データと前記言語モデル・データとを参照して音声信号の音声認識結果を与える認識処理手段と
を含む、音声認識装置が提供される。
【0018】
本発明における前記適合音響モデル生成手段は、ケプストラム音響モデル・データから線形スペクトル音響モデル・データへのモデル・データ領域変換部と、
前記線形スペクトル音響モデル・データに前記残響音声モデル・データを加算して尤度最大を与える残響予測係数を生成する残響予測係数算出部と
を含むことができる。
【0019】
本発明では、残響音声モデル・データを生成する加算部を含み、前記加算部は、前記音響モデルのケプストラム音響モデル・データおよびフレーム内伝達特性のケプストラム音響モデル・データを加算して「フレーム内残響影響を受けた音声モデル」を生成することができる。
【0020】
本発明における前記加算部は、生成された「フレーム内残響影響を受けた音声モデル」を前記モデル・データ領域変換部へと入力し、前記モデル・データ領域変換部に対して「フレーム内残響影響を受けた音声モデル」の線形スペクトル音響モデル・データを生成させることができる。
【0021】
本発明における前記残響予測係数算出部は、入力された音声信号から得られた少なくとも1つの音韻と、前記残響音声モデル・データとを使用して線形スペクトル音響モデル・データに基づいて残響予測係数の尤度を最大化させることができる。本発明における前記音声認識装置は、隠れマルコフ・モデルを使用して音声認識を実行することが好ましい。
【0022】
本発明によれば、コンピュータを含んで構成され音声を認識するための音声認識装置に対して音声認識を実行させるための方法であって、前記方法は、前記音声認識装置に対して、
音声信号から得られる特徴量をフレームごとに記憶領域に格納させるステップと、
その時点で処理するべき音声信号よりも前に取得された音声信号を前記格納部から読み出して残響音声モデル・データを生成し、格納部に格納された音響モデル・データを処理して適合音響モデル・データを生成して記憶領域に格納させるステップと、
前記特徴量と前記適合音響モデル・データと格納部に格納された言語モデル・データとを読み込んで音声信号の音声認識結果を生成させるステップと
を含む、音声認識方法が提供される。
【0023】
本発明によれば、前記適合音響モデル・データを生成するステップは、加算部により前記読み出された音声信号とフレーム内伝達特性値との合計値を算出するステップと、
前記加算部により算出された前記合計値をモデル・データ領域変換部に読み込ませ、ケプストラム音響モデル・データから線形スペクトル音響モデル・データへと変換させるステップと、を含むことができる。
【0024】
本発明においては、加算部に対して前記線形スペクトル音響モデル・データと前記残響音声モデル・データとを読み込ませ加算して、尤度最大を与える残響予測係数を生成させるステップと、を含むことができる。本発明においては、前記線形スペクトル音響モデル・データへと変換させるステップは、前記加算部に対して、前記音響モデル・データのケプストラム音響モデル・データおよびフレーム内伝達特性のケプストラム音響モデル・データを加算して「フレーム内残響影響を受けた音声モデル」を生成するステップを含むことができる。
【0025】
本発明における前記残響予測係数を生成させるステップは、前記加算部により生成された前記「フレーム内残響影響を受けた音声モデル」の線形スペクトル音響モデル・データと前記残響音声モデル・データとの合計値が音声信号から生成され格納された少なくとも1つの音韻に対して最大の尤度を与えるように残響予測係数を決定するステップを含むことができる。
【0026】
本発明においては、上記の音声認識方法をコンピュータに対して実行させるためのコンピュータ可読なプログラムおよびコンピュータ可読なプログラムを記憶した、コンピュータ可読な記憶媒体が提供される。
【0027】
【発明の実施の形態】
以下、本発明を図面に示した実施の形態をもって説明するが、本発明は、後述する実施の形態に限定されるものではない。
【0028】
A:隠れマルコフ・モデルを使用する音声認識の概説
図1には、本発明において使用する、隠れマルコフ・モデル(Hidden Markov Model:HMM)を使用した音声認識を概略的に説明する。音響モデルは、単語または文が、音韻(phoneme)の連続として構築されており、それぞれの音韻に対して、典型的には3状態を付与し、これらの状態間の遷移確率を規定することにより、音韻の連続する単語または文を検索するオートマトンとして考えることができる。図1に示した実施の形態は、説明のために3つの音韻S1〜S3が示されており、状態S1から状態S2への遷移確率Pr(S1|S0)は、0.5であり、また、状態S2から状態S3への遷移確率Pr(S3|S2)は、0.3であるものとして示されている。
【0029】
それぞれの状態S1〜S3には、例えば混合ガウス分布により与えられる音韻に関連して決定される出力確率が割り当てられており、図1に示した実施の形態では、状態S1から状態S3には、k1〜k3の混合要素が使用されているのが示されている。また、図1には、k1〜k3で示される状態S1に対応する混合ガウス分布の出力確率分布が示されている。それぞれの混合要素には、重みw1〜w3が与えられており、特定の話者に対して適切に適応させることができるようにされている。上述した音響モデルを使用すると、出力確率は、音声信号をアルファベットの「O」で表し、HMMパラメータのセットをλで表すと、Pr(O|λ)で与えられるものとして定義される。
【0030】
図2には、本発明における出力確率テーブルを生成するための処理を示す。図2に示した実施の形態では、例えば状態S1から状態S3までに至る出力確率は、音声信号から得られる特徴量系列{α β α}を使用して、図2のようなトレリスを構成させ、ビタビ・アルゴリズム、フォワード・アルゴリズム、ビームサーチ・アルゴリズムなどを使用して算出することができる。より一般的には、所定のフレームtでの音声信号Ot、状態s、およびHMMパラメータのセットλとすれば、音声信号に対して各状態に基づく出力確率は、出力確率テーブルとして与えられることになる。
【0031】
【数1】
HMMによる音声認識では、上述した出力確率テーブルを使用して、最尤の音韻列を検索することにより、出力結果である単語または文を決定する。それぞれの状態は、混合ガウス分布で記述されるものの、最初の音韻から最後の音韻までの間は、状態遷移確率による尤度によって決定されることになる。なお、一般的なHMMによる音声認識については、例えば鹿野ら、「音声・音情報のディジタル信号処理」、昭晃堂、ISBN4−7856−2014を参照することができる。
【0032】
B:本発明の音声認識方法における処理
図3には、本発明の音声認識方法の概略的な手順を示したフローチャートを示す。図3に示されるように、本発明の音声認識方法の処理は、ステップS10において音声信号の入力を受け取り、ステップS12において、音響モデル・データとフレーム内伝達特性とから残響のない場合の「フレーム内残響影響を受けた音声モデル」を生成する。ステップS14では、残響予測係数αと、過去の音声信号とを使用して残響音声モデル・データを生成する(α×O{ω;tp})。
【0033】
生成された残響音声モデル・データは、ステップS16においてステップS12で与えられた「フレーム内残響影響を受けた音声モデル」と線形スペクトル音響モデル・データとして加算された後、音声信号を処理して得られた選択された単語または文の音韻との間における最尤値が得られるように残響予測係数αを決定する。ステップS18では、決定された残響予測係数αおよび過去のフレームの音声信号O(ω;tp)とを使用して、残響の絶対値を取得し、フレーム内残響影響を受けた音声モデルの平均値ベクトルμに加算して、μ’=μ+α×O(ω;tp)を計算し、フレーム外の残響影響成分も含む音声モデルを生成させ、他のパラメータとセットとして格納させる。その後、ステップS20において、音声信号と、適合音響モデル・データとを使用して音声認識を実行させ、ステップS22において認識結果を出力させる。
【0034】
図4は、本発明の図3において説明した処理の概略的な処理を示した図である。まず、音響モデル・データおよびフレーム内伝達特性のケプストラムを加算して、「フレーム内残響影響を受けた音声モデル」のデータ(以下、本発明では、「フレーム内残響影響を受けた音声モデル」として参照する。)を作成する。生成された音声モデル・データに対して、離散フーリエ変換といった方法および指数化処理を施して線形スペクトル音響モデル・データに変換する。さらに、残響予測係数αは、変換後のスペクトル・データにおいて選択された音声信号に含まれる音韻の特徴量に対して尤度を最大とするように決定される。この際の設定としては、種々の方法を使用することができるものの、例えば、一定の単語や、一定の文を使用して、適宜決定することができる。決定された残響予測係数αは、元々音声認識装置が格納していた音響モデル・データとともに適合音響モデル・データを作成するために使用され、生成された線形スペクトル領域での音響モデル・データが対数変換および逆フーリエ変換を行うことによりケプストラムとされ、音声認識を実行させるために格納される。
【0035】
ここで、音声信号が残響を含む音声である場合について考える。残響が音声に重畳される場合に、その時点で観測される、周波数ω、フレーム番号tの音声信号O’(ω;t)は、過去のフレームの音声信号O(ω;tp)を使用して、下記式(2)で示されることが知られている(「中村、滝口、鹿野、「短区間スペクトル分析における残響補正に関する検討」、日本音響学会講演論文集、平成10年3月、3−6−11」)。
【0036】
【数2】
上記式中、Sは、本発明においては音声コーパスなどを使用して生成された標準的な音響モデルを使用することができ、これを本発明においてクリーン音声信号として参照する。Hは、同一フレーム内での伝達特性の予測値を使用する。また、αは、過去のフレームからその時点で評価するフレームへと重畳されることになる残響の割合を示す残響予測係数である。添え字のcepは、ケプストラムを意味している。
【0037】
従来では、本発明では、音声認識で使用している音響モデル・データを参照信号の代わりに使用する。さらにフレーム内伝達特性Hを予測値として取得し、残響予測係数を尤度最大基準に基づいて選択された音声信号を使用して決定することにより、適合音響モデル・データを生成する。
【0038】
残響が重畳される場合には、入力音声信号と、音響モデル・データとは残響の分だけ異なることになる。本発明においては、インパルス応答が長いことを考慮すれば、残響が、直前のフレームにおける音声信号O(ω;tp)に依存しつつ、その時点で判断している音声信号O(ω;t)に重畳されると仮定しても充分に残響をシミュレーションすることができることに着目した。すなわち上記式(2)を使用して、音声信号に対して所定の音響モデル・データとαとの値から尤度が最も高くなる音響モデル・データを決定することにより、対応する言語モデル・データを使用して、1チャネルからの音声信号のみを使用して音声認識を行うことが可能となる。
【0039】
また、音響モデル・データに対してフレーム内伝達特性Hの加算は、スペクトル領域では、コンボリューションにより得られるものの、ケプストラム領域に変換すれば加算条件が成立するので、他の方法によりフレーム内伝達特性Hの推定ができれば、容易に音響モデル・データとの加算性を使用して、容易かつ精度良くすでに登録されている音響モデル・データのケプストラム領域のデータとの加算によりフレーム内伝達特性Hを考慮した音響モデル・データを決定できる。
【0040】
以下、クリーン音声信号SのHMMにおけるパラメータの集合をλ(s),cep、フレーム内伝達特性HのHMMパラメータの集合をλ(h ’ ),cep、適応後の音響モデル・データのHMMパラメータの集合をλ(O),cepとする。本発明においては、音響モデル・データのうち、出力確率分布のみに注目するので、所定のHMMの状態jのk番目の出力確率分布の平均値をμj,k、分散をσ2 (S)j,k、重みをwj,kとした場合、λ(s)を、λ(s)={μj,k、σ2 (S)j,k、wj,k}で表わすものとする。通常、これらの音響モデル・データのHMMパラメータは、音声認識に最もよく適しているケプストラムとされて、音声認識に適用される。
【0041】
図3のステップS12におけるフレーム内伝達特性の推定は、例えば、本発明における特定の実施の形態では、T. Takiguchi, et. al. “HMM−Separation−Based Speech Recognition for a Distant Moving Speaker,”、IEEE Trans. on SAP, Vol.9, No.2, 2001に記載された方法において、便宜的に残響が存在しないものとしてα=0と設定して得られたフレーム内伝達関数Hを使用することができる。生成されたフレーム内伝達関数Hは、離散フーリエ変換(Discrete Fourie Transformation)および指数化処理を行って、ケプストラム領域に変換して、後述する記憶領域に適時的に格納させておくことができる。
【0042】
また、残響予測係数αを、尤度に基づいて算出する場合には、種々の方法を使用することができる。本発明において説明している特定の実施の形態では、EMアルゴリズム(“An inequality and associated maximization technique in statistical estimation of probabilistic function of a Markov process”, Inequalities, Vol. 3, pp. 1−8, 1972)を使用し、最大尤度の予測値であるα’を算出することができる。
EMアルゴリズムを使用する残響予測係数αの計算処理は、EMアルゴリズムのE−ステップと、M−ステップとを使用して実行される。まず、本発明においては、線形スペクトル領域に変換されたHMMパラメータのセットを使用して、E−ステップにおいて下記式(3)で示されるQ関数を計算する。
【0043】
【数3】
上記式中、pは、HMMパラメータのインデックス(例えば所定の音韻などを表す。)であり、Op,nは、音韻pに関連するn番目の観測系列とする。またsp,n、mp,nは、Op,nそれぞれに対する状態系列および混合要素の系列とする。λ(SH),linの音韻pの状態jのk番目の出力確率分布(混合ガウス分布)の平均値、分散、重みを下記式(4)とし、
【0044】
【数4】
各々の次元数をDとした場合、上記Q関数の出力確率分布のみに関する項に注目すると、Q関数は、下記式(5)で示される。
【0045】
【数5】
上記式中、tは、フレーム番号を表す。またγp,n,j,k,tは、下記式(6)で与えられる確率である。
【0046】
【数6】
次に、EMアルゴリズムにおけるM−step (Maximization)で、Q関数をα’に関して最大にする。
【0047】
【数7】
最大尤度のα’は、得られたQを、α’で偏微分して、極大値を求めることにより得ることができる。その結果、α’は、下記式(8)で与えられる。
【0048】
【数8】
本発明においては、音韻pごとにα’を推定することもでき、この場合には、下記式(9)で与えられるように、音韻pでの総和を算出する前の値を使用することで音韻ごとのα’を取得することもできる。
【0049】
【数9】
いずれの残響予測係数を使用するかについては、認識の効率や認識速度といった特定の装置および要求に応じて決定することができる。また、HMM状態ごとにα’を求めることも式(8)、式(9)と同様に可能である。上述した計算処理を実行させることにより、オリジナルの音響モデルのパラメータのみを使用して、発話者から離れた1チャネル入力の音声信号O(t)のみから、残響予測係数αを得ることができる。
【0050】
C:本発明の音声認識装置とその処理方法
図5には、本発明の音声認識装置の概略的なブロック図を示す。本発明の音声認識装置10は、概ね中央処理装置(CPU)を含むコンピュータを使用して構成されている。図5に示すように、本発明の音声認識装置10は、音声信号取得部12と、特徴量抽出部14と、認識処理部16と、適合音響モデル・データ生成部18とを含んで構成されている。音声信号取得部12は、図示しないマイクロフォンといった入力手段から入力される音声信号をA/Dコンバータなどによりディジタル信号とし、振幅を時間フレームと対応づけて適切な記憶領域20に格納させている。特徴量抽出部14は、モデル・データ領域変換部22を含んで構成されている。
【0051】
モデル・データ領域変換部22は、図示しないフーリエ変換手段と、指数化手段と、逆フーリエ変換手段とを含んで構成されており、記憶領域20に格納された音声信号を読み出して、音声信号のケプストラムを生成させ、記憶領域20の適切な領域に格納する。また、特徴量抽出部14は、生成された音声信号のケプストラムから特徴量系列を取得し、フレームに対応させて格納する。
【0052】
図5に示した本発明の音声認識装置10は、さらに、音声コーパスなどを使用して生成された、HMMに基づく音響モデル・データを格納する音響モデル・データ格納部24と、テキスト・コーパスなどから得られた言語モデル・データを格納する言語モデル・データ格納部26と、本発明により生成された適合音響モデル・データを格納する、適合音響モデル・データ生成部18とを含んで構成されている。
認識処理部16は、本発明においては、適合音響モデル・データを適合音響モデル・データ格納部28から読み出し、言語モデル・データを言語モデル・データ格納部26から読み出し、読み出された各データを、音声信号のケプストラムに基づき、尤度最大化を使用して音声認識を実行することができる構成とされている。
【0053】
本発明において使用することができる音響モデル・データ格納部24と、言語モデル・データ格納部26と、適合音響モデル・データ格納部28とは、それぞれハードディスクといった記憶装置に構築されたデータベースとすることができる。また、図5に示された適合音響モデル・データ生成部18は、本発明における上述の処理により適合音響モデル・データを作成して、適合音響モデル・データ格納部28へと格納させている。
【0054】
図6は、本発明において使用される適合音響モデル・データ生成部18の詳細な構成を示した図である。図6に示すように、本発明において使用する適合音響モデル・データ生成部18は、バッファ・メモリ30と、モデル・データ領域変換部32a、32bと、残響予測係数算出部34と、加算部36a、36bと、生成部38とを含んで構成されている。適合音響モデル・データ生成部18は、その時点で処理を行うフレームtよりも過去の所定の観測データを読み込んで、残響予測係数αを乗じてバッファ・メモリ30に一旦格納させる。同時に、音響モデル・データ格納部24から音響モデル・データを読み込み、予め計算しておいたフレーム内伝達特性Hのケプストラム音響モデル・データを、記憶領域20からバッファ・メモリ30へと読み込む。
【0055】
バッファ・メモリ30に格納された音響モデル・データと、フレーム内伝達特性のデータは、いずれもケプストラム音響モデル・データとされているので、これらのデータは、加算部36aへと読み込まれ、加算が実行され、「フレーム内残響影響を受けた音声モデル」が生成される。「フレーム内残響影響を受けた音声モデル」は、モデル・データ領域変換部32aへと送られ、線形スペクトル音響モデル・データに変換された後、加算部36bへと送られる。加算部36bは、さらに過去の観測データに残響予測係数を乗じたデータを読み込んで、「フレーム内残響影響を受けた音声モデル」の線形スペクトル音響モデル・データと加算を実行する。
【0056】
加算部36bにおいて生成された加算データは、予め選択された音韻などに対応する音響モデル・データを格納した残響予測係数算出部34へと送られ、EMアルゴリズムを使用して尤度最大となるように、残響予測係数αを決定する。決定された残響予測係数αは、線形スペクトル音響モデル・データに変換または線形スペクトルのまま格納された音響モデル・データと共に、生成部38へと渡され、適合音響モデル・データとして作成される。作成された適合音響モデル・データは、モデル・データ領域変換部32bへと送られ、線形スペクトル音響モデル・データからケプストラム音響モデル・データへと変換された後、適合音響モデル・データ格納部28へと格納される。
【0057】
図7は、本発明の音声認識装置により実行される音声認識方法の処理を示す概略的なフローチャートである。図7に示すように、本発明の音声認識装置が実行する認識処理は、ステップS30において、残響の重畳された音声信号をフレームごとに取得して、少なくともその時点で処理を実行させる処理フレームと、それ以前のフレームとを、適切な記憶領域に格納させる。ステップS32において音声信号から特徴量を抽出し、音響モデル・データおよび言語モデル・データによる音声信号の検索のために使用するデータを取得して、ケプストラム音響モデル・データとして適切な記憶領域に格納する。
【0058】
一方、ステップS34は、ステップS32と並列的に処理を行うことができ、過去のフレームの音声信号および音響モデル・データを適切な記憶領域から読み出し、ケプストラム領域への変換処理および線形スペクトル領域への変換処理を使用して、適合音響モデル・データを作成し、適切な記憶領域へと予め格納しておく。ステップS36において、適合音響モデル・データと、音声信号から得られた特徴量とを使用して最大尤度を与える音韻を決定し、ステップS38において決定された音韻に基づいて言語モデル・データを使用して、認識結果を生成し、適切な記憶領域に格納させる。同時に、その時点での尤度の合計を格納する。その後、ステップS40において、処理するべきフレームが残されているかを判断し、処理するべきフレームがない場合(no)には、ステップS42において尤度の和が最大の単語または文を認識結果として出力する。また、ステップS40の判断において処理するべきフレームが残されている場合(yes)には、ステップS44において、残されているフレームの観測データを読み込んで、特徴量を抽出し、ステップS36へと処理を戻し、処理を繰り返すことにより、単語または文の認識を完了させる。
【0059】
図8には、本発明の音声認識装置を、ノート型パーソナル・コンピュータ40として構成させた実施の形態を示す。ノート型パーソナル・コンピュータ40には、表示部上側に内蔵マイクロフォン42が配設されており、ユーザからの音声入力を受け取ることができる構成とされている。ユーザは、例えばオフィスや自宅などに設置されたマウスまたはタッチパッドといったポインタ手段44を使用して表示部に表示されたカーソルを移動させ種々の処理を実行させる。
【0060】
ここで、ユーザは、音声認識を使用する、例えばIBM社製のソフトウエア(ViaVoice:登録商標)を使用したワードプロセッサ・ソフトウエアにより、ディクテーションを行うことを希望するものとする。このときユーザが、例えばアプリケーションを起動するためのアプリケーション・アイコン46にマウス・カーソルを重ね合わせ、マウス44をクリックすると、ワードプロセッサ・ソフトウエアは、ViaVoiceソフトウエアと同時に起動される。本発明の特定の実施の形態では、ViaVoiceソフトウエアに対して本発明の音声認識プログラムがモジュールとして搭載されている。
【0061】
従来では、ユーザは、ヘッドセット型マイクロフォンや、ハンド・マイクロフォンを使用して、残響や周囲ノイズの影響を避けながら音声入力する。また、ユーザは、周囲ノイズや残響と入力音声とを別々に入力して、音声入力を行うことが要求されることになる。しかしながら、本発明の図8に示されたノート型パーソナル・コンピュータ40を使用した音声認識方法では、ユーザは、本発明にしたがい、内蔵マイクロフォン42により入力を行うだけで、音声認識を介したディクテーションを行うことが可能となる。
【0062】
図8は、本発明をノート型パーソナル・コンピュータに対して適用した実施の形態を示しているものの、本発明は、図8に示した以外にも、区画された比較的狭い部屋の中で音声対話式に処理を進めるためのキオスク装置や、乗用車、航空機などにおけるディクテーションや、コマンド認識など、周囲ノイズの常態的な重畳よりも残響の影響が大きな、比較的狭い空間内における音声対話型処理に適用することができる。また、本発明の音声認識装置は、ネットワークを介して、非音声処理を行う他のサーバ・コンピュータまたは音声処理対応型のサーバ・コンピュータとの通信を行うことも可能である。上述したネットワークとしては、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、光通信、ISDN、ADSLといった通信インフラ基盤を使用したインターネットなどを挙げることができる。
【0063】
本発明の音声認識方法では、時系列的に連続して入力される音声信号を使用するのみで、マイクロフォンを複数使用して別に参照信号を格納し、処理するための余分な処理ステップおよびそのためのハードウエア資源を必要としない。また、参照信号を「フレーム内残響影響を受けた音声モデル」として取得するためのヘッドセット型マイクロフォンやハンド・マイクロフォンを使用することなく、音声認識の利用性を拡大することを可能とする。
【0064】
これまで、本発明の図面に示した特定の実施の形態に基づいて説明してきたが、本発明は、説明した特定の実施の形態に限定されるものではなく、各機能部または機能手段は、コンピュータに対してプログラムを実行させることにより実現されるものであり、図面に示した機能ブロックごとの構成として必ずしも構成されなければならないものではない。また、本発明の音声認識装置を構成させるためのコンピュータ可読なプログラミング言語としては、アセンブラ語、FORTRAN、C言語、C++言語、Java(登録商標)などを挙げることができる。また、本発明の音声認識方法を実行させるためのコンピュータ実行可能なプログラムは、ROM、EEPROM、フラッシュ・メモリ、CD−ROM、DVD、フレキシブル・ディスク、ハードディスクなどに格納して頒布することができる。
【0065】
D:実施例
以下、本発明を具体的な実施例を使用して説明する。残響下での音声を作成するために、実際に部屋で測定したインパルス応答を使用した。実施例、参考例および比較例共に、残響時間としては300msecに対応するフレームの値を用いた。音源位置は、マイクからの距離を2mとし、正面方向からマイクロフォンに向かって話声を入力させた。信号分析条件は、サンプリング周波数12kHz、ウィンドウ幅32msec、分析周期8msecを使用した。音響特徴量としては、16次元のMFCC(Mel Frequency Cepstral Coefficient)を用いた。
【0066】
分析周期を8msecとしたので、ウィンドウ間で重なりが生じないように、4フレーム分ずらした過去の音声信号を、残響信号の処理のために使用した。実施例、参考例および比較例ともに、使用した入力音声信号は、55個の音韻から生成させた。また、残響予測係数αの算出は、入力した音声入力信号のうち、一単語分の音韻を使用して尤度最大を計算させ、得られた残響予測係数αを、すべての音声認識について適用した。以下に、500単語を認識させた場合の、認識成功率の結果を示す。
【0067】
【表1】
上記表1に示されるように、残響補正なしの場合(比較例2)では、54.8%の結果が得られた。一方で、本発明(実施例)によれば、認識成功率は、92.8%まで高めることができた。この結果は、滝口らの参考例(前掲:T. Takiguchi, et. al. “HMM−Separation−Based Speech Recognition for a Distant Moving Speaker,” IEEE Trans. on SAP, Vol.9, pp.127−140, No.2, 2001)により得られた、参照信号を使用する2チャネル・データを使用する場合よりも僅かに良好な結果が得られている。また比較例1としてCMS法(ケプストラム平均減算法)を使った場合では、認識成功率が86%と、本発明の実施例よりも低い結果が得られた。すなわち、本発明によれば、1チャネル・データを使用するにもかかわらず、従来よりも良好な認識成功率を提供できることが示された。
【図面の簡単な説明】
【図1】隠れマルコフ・モデル(Hidden Markov Model:HMM)を使用した音声認識を概略的に説明した図。
【図2】音声信号に対して各状態に基づく出力確率テーブルを形成するための処理を概略的に説明した図。
【図3】本発明の音声認識方法の概略的な手順を示したフローチャート。
【図4】図3において説明した処理の概略的な処理を示した図。
【図5】本発明の音声認識装置の概略的なブロック図。
【図6】本発明において使用される適合音響モデル・データ生成部の詳細な構成を示した図。
【図7】本発明の音声認識装置により実行される音声認識方法の処理を示す概略的なフローチャート。
【図8】本発明の音声認識装置を、ノート型パーソナル・コンピュータとして構成させた実施の形態を示した図。
【図9】音声認識を行う場合に雑音を考慮する代表的な方法を示した図。
【符号の説明】
10…音声認識装置、12…音声信号取得部、14…特徴量抽出部、16…認識処理部、18…適合音響モデル・データ生成部、20…記憶領域、22…モデル・データ領域変換部、24…音響モデル・データ格納部、26…言語モデル・データ格納部、28…適合音響モデル・データ格納部、30…バッファ・メモリ、32…モデル・データ領域変換部、34…残響予測係数算出部、36…加算部、38…生成部、40…ノート型パーソナル・コンピュータ、42…内蔵マイクロフォン、44…ポインタ手段、46…アプリケーション・アイコン
Claims (13)
- コンピュータを含んで構成され音声を認識するための音声認識装置であって、該音声認識装置は、
音声信号から得られる特徴量をフレームごとに格納する記憶領域と、
音響モデル・データおよび言語モデル・データをそれぞれ格納する格納部と、
その時点で処理するべき音声信号よりも前に取得された音声信号から残響音声モデル・データを生成し、残響音声モデル・データを使用して適合音響モデル・データを生成する残響適合モデル生成部と、
前記特徴量と前記適合音響モデル・データと前記言語モデル・データとを参照して音声信号の音声認識結果を与える認識処理手段と
を含む、音声認識装置。 - 前記適合音響モデル生成手段は、ケプストラム音響モデル・データから線形スペクトル音響モデル・データへのモデル・データ領域変換部と、
前記線形スペクトル音響モデル・データに前記残響音声モデル・データを加算して尤度最大を与える残響予測係数を生成する残響予測係数算出部と
を含む、請求項1に記載の音声認識装置。 - さらに残響音声モデル・データを生成する加算部を含み、前記加算部は、前記音響モデルのケプストラム音響モデル・データおよびフレーム内伝達特性のケプストラム音響モデル・データを加算してフレーム内残響影響を受けた音声モデルを生成する、請求項2に記載の音声認識装置。
- 前記加算部は、生成された前記フレーム内残響影響を受けた音声モデルを前記モデル・データ領域変換部へと入力し、前記モデル・データ領域変換部に対して前記フレーム内残響影響を受けた音声モデルの線形スペクトル音響モデル・データを生成させる、請求項3に記載の音声認識装置。
- 前記残響予測係数算出部は、入力された音声信号から得られた少なくとも1つの音韻と、前記残響音声モデル・データとを使用して線形スペクトル音響モデル・データに基づいて残響予測係数の尤度を最大化させる、請求項4に記載の音声認識装置。
- 前記音声認識装置は、隠れマルコフ・モデルを使用して音声認識を実行する、請求項5に記載の音声認識装置。
- コンピュータを含んで構成され音声を認識するための音声認識装置に対して音声認識を実行させるための方法であって、前記方法は、前記音声認識装置に対して、
音声信号から得られる特徴量をフレームごとに記憶領域に格納させるステップと、
その時点で処理するべき音声信号よりも前に取得された音声信号を前記格納部から読み出して残響音声モデル・データを生成し、格納部に格納された音響モデルを処理して適合音響モデル・データを生成して記憶領域に格納させるステップと、
前記特徴量と前記適合音響モデル・データと格納部に格納された言語モデル・データとを読み込んで音声信号の音声認識結果を生成させるステップと
を含む、音声認識方法。 - 前記適合音響モデル・データを生成するステップは、加算部により前記読み出された音声信号とフレーム内伝達特性値との合計値を算出するステップと、
前記加算部により算出された前記合計値をモデル・データ領域変換部に読み込ませ、ケプストラム音響モデル・データから線形スペクトル音響モデル・データへと変換させるステップと、を含む、請求項7に記載の音声認識方法。 - 加算部に対して前記線形スペクトル音響モデル・データと前記残響音声モデル・データとを読み込ませ加算して、尤度最大を与える残響予測係数を生成させるステップと
を含む、請求項8に記載の音声認識方法。 - 前記線形スペクトル音響モデル・データへと変換させるステップは、前記加算部に対して、前記音響モデルのケプストラム音響モデル・データおよびフレーム内伝達特性のケプストラム音響モデル・データを加算してフレーム内残響影響を受けた音声モデルを生成するステップを含む、請求項9に記載の音声認識方法。
- 前記残響予測係数を生成させるステップは、前記加算部により生成された前記フレーム内残響影響を受けた音声モデルの線形スペクトル音響モデル・データと前記残響音声モデル・データとの合計値が音声信号から生成され格納された少なくとも1つの音韻に対して最大の尤度を与えるように残響予測係数を決定するステップを含む、請求項10に記載の音声認識装置。
- 請求項7から請求項11のいずれか1項に記載された音声認識方法をコンピュータに対して実行させるためのコンピュータ可読なプログラム。
- 請求項7から請求項11のいずれか1項に記載された音声認識方法をコンピュータに対して実行させるためのコンピュータ可読なプログラムを記憶した、コンピュータ可読な記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003143224A JP3836815B2 (ja) | 2003-05-21 | 2003-05-21 | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
US10/849,724 US20050010410A1 (en) | 2003-05-21 | 2004-05-20 | Speech recognition device, speech recognition method, computer-executable program for causing computer to execute recognition method, and storage medium |
US12/476,650 US8024184B2 (en) | 2003-05-21 | 2009-06-02 | Speech recognition device, speech recognition method, computer-executable program for causing computer to execute recognition method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003143224A JP3836815B2 (ja) | 2003-05-21 | 2003-05-21 | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004347761A true JP2004347761A (ja) | 2004-12-09 |
JP3836815B2 JP3836815B2 (ja) | 2006-10-25 |
Family
ID=33531072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003143224A Expired - Fee Related JP3836815B2 (ja) | 2003-05-21 | 2003-05-21 | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US20050010410A1 (ja) |
JP (1) | JP3836815B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006201287A (ja) * | 2005-01-18 | 2006-08-03 | Advanced Telecommunication Research Institute International | 雑音抑圧装置及び音声認識システム |
JP2006243290A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
WO2007100137A1 (ja) * | 2006-03-03 | 2007-09-07 | Nippon Telegraph And Telephone Corporation | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
US7590526B2 (en) | 2006-09-04 | 2009-09-15 | Nuance Communications, Inc. | Method for processing speech signal data and finding a filter coefficient |
JP2009212599A (ja) * | 2008-02-29 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去装置とその方法と、そのプログラムと記録媒体 |
JP2009535674A (ja) * | 2006-05-01 | 2009-10-01 | 日本電信電話株式会社 | 音源と室内音響の確率モデルに基づく音声残響除去のための方法及び装置 |
US7856353B2 (en) | 2007-08-07 | 2010-12-21 | Nuance Communications, Inc. | Method for processing speech signal data with reverberation filtering |
JP2015019124A (ja) * | 2013-07-08 | 2015-01-29 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
JP2015064554A (ja) * | 2013-08-30 | 2015-04-09 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
CN107564527A (zh) * | 2017-09-01 | 2018-01-09 | 平顶山学院 | 嵌入式系统的汉英双语语音识别方法 |
CN111063342A (zh) * | 2020-01-02 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004017486A1 (de) * | 2004-04-08 | 2005-10-27 | Siemens Ag | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal |
EP1926087A1 (de) * | 2006-11-27 | 2008-05-28 | Siemens Audiologische Technik GmbH | Anpassung einer Hörvorrichtung an ein Sprachsignal |
US8180637B2 (en) * | 2007-12-03 | 2012-05-15 | Microsoft Corporation | High performance HMM adaptation with joint compensation of additive and convolutive distortions |
JP5642339B2 (ja) * | 2008-03-11 | 2014-12-17 | トヨタ自動車株式会社 | 信号分離装置及び信号分離方法 |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
US9373338B1 (en) * | 2012-06-25 | 2016-06-21 | Amazon Technologies, Inc. | Acoustic echo cancellation processing based on feedback from speech recognizer |
KR20160014625A (ko) * | 2013-05-28 | 2016-02-11 | 톰슨 라이센싱 | 가전 기기를 제어하는 음성 커맨드와 연관된 로케이션을 식별하는 방법 및 시스템 |
CN103578465B (zh) * | 2013-10-18 | 2016-08-17 | 威盛电子股份有限公司 | 语音辨识方法及电子装置 |
CN103632667B (zh) * | 2013-11-25 | 2017-08-04 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
KR20170048327A (ko) * | 2014-09-03 | 2017-05-08 | 인텔 코포레이션 | 내부의 자기층에 변형을 유도하기 위한 계면을 갖는 스핀 전달 토크 메모리 및 로직 디바이스 |
US9672821B2 (en) | 2015-06-05 | 2017-06-06 | Apple Inc. | Robust speech recognition in the presence of echo and noise using multiple signals for discrimination |
US10872602B2 (en) | 2018-05-24 | 2020-12-22 | Dolby Laboratories Licensing Corporation | Training of acoustic models for far-field vocalization processing systems |
US10810996B2 (en) * | 2018-07-31 | 2020-10-20 | Nuance Communications, Inc. | System and method for performing automatic speech recognition system parameter adjustment via machine learning |
CN110503970B (zh) * | 2018-11-23 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
US11257503B1 (en) * | 2021-03-10 | 2022-02-22 | Vikram Ramesh Lakkavalli | Speaker recognition using domain independent embedding |
CN113327584B (zh) * | 2021-05-28 | 2024-02-27 | 平安科技(深圳)有限公司 | 语种识别方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
JPH10161692A (ja) * | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
-
2003
- 2003-05-21 JP JP2003143224A patent/JP3836815B2/ja not_active Expired - Fee Related
-
2004
- 2004-05-20 US US10/849,724 patent/US20050010410A1/en not_active Abandoned
-
2009
- 2009-06-02 US US12/476,650 patent/US8024184B2/en not_active Expired - Fee Related
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4512848B2 (ja) * | 2005-01-18 | 2010-07-28 | 株式会社国際電気通信基礎技術研究所 | 雑音抑圧装置及び音声認識システム |
JP2006201287A (ja) * | 2005-01-18 | 2006-08-03 | Advanced Telecommunication Research Institute International | 雑音抑圧装置及び音声認識システム |
JP2006243290A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
JP4586577B2 (ja) * | 2005-03-02 | 2010-11-24 | 株式会社国際電気通信基礎技術研究所 | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
WO2007100137A1 (ja) * | 2006-03-03 | 2007-09-07 | Nippon Telegraph And Telephone Corporation | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
US8271277B2 (en) | 2006-03-03 | 2012-09-18 | Nippon Telegraph And Telephone Corporation | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium |
JP2009535674A (ja) * | 2006-05-01 | 2009-10-01 | 日本電信電話株式会社 | 音源と室内音響の確率モデルに基づく音声残響除去のための方法及び装置 |
JP4880036B2 (ja) * | 2006-05-01 | 2012-02-22 | 日本電信電話株式会社 | 音源と室内音響の確率モデルに基づく音声残響除去のための方法及び装置 |
US8290170B2 (en) | 2006-05-01 | 2012-10-16 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
US7590526B2 (en) | 2006-09-04 | 2009-09-15 | Nuance Communications, Inc. | Method for processing speech signal data and finding a filter coefficient |
US7856353B2 (en) | 2007-08-07 | 2010-12-21 | Nuance Communications, Inc. | Method for processing speech signal data with reverberation filtering |
JP2009212599A (ja) * | 2008-02-29 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去装置とその方法と、そのプログラムと記録媒体 |
US9646627B2 (en) | 2013-07-08 | 2017-05-09 | Honda Motor Co., Ltd. | Speech processing device, method, and program for correction of reverberation |
JP2015019124A (ja) * | 2013-07-08 | 2015-01-29 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
JP2015064554A (ja) * | 2013-08-30 | 2015-04-09 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
CN107564527A (zh) * | 2017-09-01 | 2018-01-09 | 平顶山学院 | 嵌入式系统的汉英双语语音识别方法 |
CN111063342A (zh) * | 2020-01-02 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN111063342B (zh) * | 2020-01-02 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111508498B (zh) * | 2020-04-09 | 2024-01-30 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US8024184B2 (en) | 2011-09-20 |
JP3836815B2 (ja) | 2006-10-25 |
US20090306977A1 (en) | 2009-12-10 |
US20050010410A1 (en) | 2005-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3836815B2 (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP6480644B1 (ja) | マルチチャネル音声認識のための適応的オーディオ強化 | |
Kumar et al. | A Hindi speech recognition system for connected words using HTK | |
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
JP2692581B2 (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
US10217456B2 (en) | Method, apparatus, and program for generating training speech data for target domain | |
US7272561B2 (en) | Speech recognition device and speech recognition method | |
US20020049587A1 (en) | Speech recognition method, storage medium storing speech recognition program, and speech recognition apparatus | |
JP2021503633A (ja) | 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 | |
JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
US8600744B2 (en) | System and method for improving robustness of speech recognition using vocal tract length normalization codebooks | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
JP6993376B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
JP5235187B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
Oh et al. | Improvement of speech detection using ERB feature extraction | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
JP6373621B2 (ja) | 話し方評価装置、話し方評価方法、プログラム | |
Loh et al. | Speech recognition interactive system for vehicle | |
JP2009145895A (ja) | ケプストラムノイズ減算を用いた音声認識システム及び方法 | |
US20160372132A1 (en) | Voice enhancement device and voice enhancement method | |
JP6791816B2 (ja) | 音声区間検出装置、音声区間検出方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060718 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20060718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060727 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100804 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100804 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110804 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110804 Year of fee payment: 5 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110804 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110804 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120804 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130804 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |