JP2005258068A - 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム - Google Patents

音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム Download PDF

Info

Publication number
JP2005258068A
JP2005258068A JP2004069436A JP2004069436A JP2005258068A JP 2005258068 A JP2005258068 A JP 2005258068A JP 2004069436 A JP2004069436 A JP 2004069436A JP 2004069436 A JP2004069436 A JP 2004069436A JP 2005258068 A JP2005258068 A JP 2005258068A
Authority
JP
Japan
Prior art keywords
signal
speech
synthesized
components
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004069436A
Other languages
English (en)
Other versions
JP4529492B2 (ja
Inventor
Shinichi Tamura
震一 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2004069436A priority Critical patent/JP4529492B2/ja
Priority to US11/073,922 priority patent/US7440892B2/en
Publication of JP2005258068A publication Critical patent/JP2005258068A/ja
Application granted granted Critical
Publication of JP4529492B2 publication Critical patent/JP4529492B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 複数のマイクロフォンを用いず、単一のマイクロフォンの音声信号から、適切に雑音成分を除去して音声成分を抽出可能な音声抽出装置を提供すること。
【解決手段】 信号分解部45では、互いに異なる周波数帯域の信号成分を通過させる複数のフィルタFL0,FL1,FL2を用い、単一のマイクロフォンから入力された音声信号から、互いに独立な信号成分y,y,yを抽出する。信号合成部47では、第一の規則に従って信号成分y,y,yを合成し、第一の合成信号Y1を生成すると共に、第二の規則に従って信号成分y,y,yを合成し、第二の合成信号Y2を生成する。尚、第一及び第二の規則は、合成信号Y1の確率密度関数p1(z)と、合成信号Y2の確率密度関数p2(z)との差異が最大となるように決定される。選択出力部49では、合成信号Y1,Y2の内、ガウス分布との差異の大きい合成信号を選択的に出力する。
【選択図】 図2

Description

本発明は、音声成分及び雑音成分からなるディジタル音声信号から、音声成分を選択的に抽出するための音声抽出方法及び音声抽出装置と、その音声抽出装置を備える音声認識装置と、音声抽出装置としての機能をコンピュータに実現させるためのプログラムと、に関する。
従来より、利用者が発した音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を利用者が発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれる。
音声認識装置の音声認識率は、マイクロフォンから入力される音声信号に含まれる雑音成分の量によって左右されることが知られているが、この点の問題を解消するために、音声認識装置には、マイクロフォンから入力される音声信号から、利用者の音声の特徴を表す音声成分のみを選択的に抽出するための音声抽出装置が設けられる。
周知の音声抽出方法としては、複数のマイクロフォンにて同一空間の音を収集し、それら複数のマイクロフォンからの入力信号に基づいて、音声成分と雑音成分とを分離し、音声成分を抽出する方法が知られている。この音声抽出方法では、マイクロフォンの入力信号に含まれる音声成分と雑音成分とが統計的に独立であることを利用して、独立成分分析(ICA)の手法を用い、音声成分を選択的に抽出する(例えば、非特許文献1参照)。
テ−ウォン・リー(Te-Won Lee),アンソニー・ジェイ・ベル( Anthony J. Bell), レインホールド・オーグルメイスター(Reinhold Orglmeister)著, 「実世界の源信号のブラインド分離(Blind Source Separation of Real World Signals)」, 「IEEE(米国電気電子技術者協会)主催神経回路網国際会議講演論論文集(Proceedings of IEEE International Conference Neural Networks)」,(米国),1997年6月,p.2129−2135
しかしながら、上述の従来技術には以下のような問題があった。
即ち、独立成分分析を用いた従来の音声抽出方法では、目的とする音声成分を抽出するために、音声信号に含まれる独立成分の数と等しい数(即ち、雑音成分の数に、抽出すべき音声成分として1を加えた数)、マイクロフォンを空間内に設けなければならないといった問題があった。また、マイクロフォンを複数設けて、従来の独立成分分析の手法を用い、音声成分を抽出しても、雑音成分の数(即ち、雑音源の数)が時々刻々と変化する場合などには、音声成分を適切に抽出することができないといった問題があった。
その他、複数のマイクロフォンからの入力信号を処理する場合には、ハードウェアの構造が煩雑になるといった問題があった。特に、マイクロフォンからの入力信号をディジタル的に処理する場合には、その入力信号(ディジタルデータ)を記憶しておくための大容量の記憶媒体(メモリ等)を用意する必要があり、製品コストがアップするといった問題があった。
本発明は、こうした問題に鑑みなされたものであり、複数のマイクロフォンを用いることなく、単一のマイクロフォンの音声信号から、適切に音声成分を抽出可能な音声抽出方法及び音声抽出装置と、その音声抽出装置を備える音声認識装置と、その音声抽出装置に用いられるプログラムと、を提供することを目的とする。
かかる目的を達成するためになされた本発明の音声抽出方法は、複数のフィルタを用いて、マイクロフォンから入力される音声信号を、複数種(異なる周波数帯域)の信号成分に分解すれば、音声成分と雑音成分とが異なったスペクトラムを有するので、それを、雑音成分を多く含む信号成分と、音声成分を多く含む信号成分とに分離することができ、それら信号成分を、所定の規則により合成すれば、音声成分を強調した合成信号を生成することができるといった原理に基づくものである。
請求項1記載の音声抽出方法では、複数のフィルタを用いて、ディジタル音声信号から複数種類の信号成分を抽出し(ステップ(a))、その各信号成分を、第一の規則に従って合成して、第一の合成信号を生成する。又、各信号成分を、第一の規則とは異なる第二の規則に従って合成し、第二の合成信号を生成する(ステップ(b))。そして、生成された第一及び第二の合成信号の内、音声成分の特徴が表れている合成信号を選択的に出力する(ステップ(c))ことで、ディジタル音声信号から音声成分を抽出する。
尚、上記第一及び第二の合成信号の生成に際しては、第一及び第二の合成信号の統計的特徴量に基づき、第一及び第二の規則を決定する。ここでは、前回生成した第一及び第二の合成信号の統計的特徴量に基づき、第一及び第二の規則を決定してもよいし、仮生成した第一及び第二の合成信号の統計的特徴量に基づいて、第一及び第二の規則を決定してもよいし、生成される第一及び第二の合成信号の統計的特徴量を数学的な手法で事前予測し、その結果に基づいて、第一及び第二の規則を決定してもよい。
このように本発明では、統計的特徴量に基づいて、音声成分の特徴を表す合成信号が生成されるように、第一及び第二の規則を決定し、ディジタル音声信号から音声成分を抽出するので、音源の数だけマイクロフォンが必要な従来の音声抽出方法とは異なり、単一のマイクロフォンで、良好に音声成分を抽出することができる。従って、本発明によれば、雑音成分(雑音源)の数が時々刻々と変化する環境下であっても、音声成分を適切に抽出することができる。
また、本発明によれば、複数のマイクロフォンからの入力信号を処理する必要がなく、単一のマイクロフォンからの入力信号を処理する程度で音声成分を抽出することができるので、高性能なコンピュータや、大容量のメモリ等を用いなくても良く、本方法を用いた音声抽出装置を安価に製造することができる。
尚、上記音声抽出方法では、固定のフィルタ特性を示す複数のフィルタを用いて、複数種の信号成分を抽出してもよいが、好ましくは、請求項2記載のように、各フィルタにより抽出される信号成分が相互に独立又は無相関となるように、複数のフィルタのインパルス応答を設定し、それら複数のフィルタを用いて、ディジタル音声信号から、互いに独立又は無相関な複数種類の信号成分を抽出するとよい。
音声成分を強調した合成信号を生成するためには、フィルタにより抽出される信号成分が、音声成分及び雑音成分の一方を多く含む必要があるが、雑音源が特定されない空間では、固定のフィルタ特性を示すフィルタを用いても、それら各フィルタを用いて、ディジタル音声信号から、各音源の信号成分を最適に分離することができない。このため、各フィルタの特性を一定の状態にして、上述のように合成信号を生成しても、固定したフィルタを用いて抽出した信号成分では、音声成分を強調した合成信号を最適に生成できない可能性がある。
これに対し、各フィルタにより抽出される信号成分が相互に独立又は無相関となるように、各フィルタのインパルス応答を設定すれば、音声成分と雑音成分とは近似的には独立又は無相関と見なせるため、フィルタにて、各音源の信号成分を概ね適切に分離抽出することができ、それらを合成することで、音声成分を選択的に強調した合成信号を生成することができる。
従って、各フィルタにより抽出される信号成分が相互に独立又は無相関となるように、複数のフィルタのインパルス応答を設定する請求項2記載の音声抽出方法によれば、より高精度にディジタル音声信号から所望の音声成分を抽出することができる。
尚、各フィルタにより抽出される信号成分が相互に無相関となるように、フィルタのインパルス応答を設定する場合には、各フィルタにより抽出される信号成分が相互に独立となるようにフィルタのインパルス応答を設定する場合と比較して、インパルス応答の導出にかかる演算量が少なくて済むといった利点がある。また、各フィルタにより抽出される信号成分が相互に独立となるようにフィルタのインパルス応答を設定する場合には、各フィルタにより抽出される信号成分が相互に無相関となるように、フィルタのインパルス応答を設定する場合と比較して、高精度に音声成分を抽出することができるといった利点がある。
また、上記フィルタとしては、請求項3記載のように、FIR(Finite Impulse Response)型又はIIR(Infinite Impulse Response)型のディジタルバンドパスフィルタを用いるとよい。IIRフィルタを用いる場合には、演算量が少なくて済むといった利点があり、FIRフィルタを用いる場合には、信号歪が少なく、高精度に所望の信号成分を抽出することができるといった利点がある。
その他、第一及び第二の規則を決定する際に用いる上記統計的特徴量としては、第一及び第二の合成信号の確率密度関数の差異を表す量(具体的には、後述の式(15)で表される量)や、第一及び第二の合成信号についての相互情報量(具体的には、後述の式(38)で表される量)を挙げることができる。
音声成分と雑音成分とでは確率密度関数が大きく異なるから、請求項4記載のように、第一及び第二の合成信号の確率密度関数の差異を表す量、が最大となるように、第一及び第二の規則を決定すれば、音声成分が適切に強調された合成信号を生成することができ、良好に音声成分を抽出することができる。
また、音声成分及び雑音成分は、近似的には相互に独立であるから、請求項5記載のように、第一及び第二の合成信号の相互情報量が最小となるように第一及び第二の規則を決定すれば、上記確率密度関数の差異を表す量を指標として第一及び第二の規則を決定する場合と同様に、音声成分が適切に強調された合成信号を生成することができ、良好に音声成分を抽出することができる。
その他、請求項6記載のように、第一及び第二の合成信号の確率密度関数の差異を表す量、及び、第一及び第二の合成信号についての相互情報量の両者を指標にして、第一及び第二の規則を決定すれば、一層良好に音声成分を強調して合成信号を生成することができ、音声成分の抽出性能が向上する。
また、上述した音声抽出方法では、請求項7記載のように、第一及び第二の規則として、ステップ(a)にて抽出された各信号成分の重み付けに関する規則を決定し、合成信号を生成するとよい。尚、合成の際には、各信号成分を、第一の規則で重み付け加算することで、第一の合成信号を生成し、各信号成分を、第二の規則で重み付け加算することで、第二の合成信号を生成すればよい。このように、各信号成分を重み付け加算することで合成信号を生成する手法を採用すれば、上述の条件に適合する合成信号を簡単且つ高速に生成することができる。
その他、第一及び第二の合成信号の一方を、出力対象の合成信号として選択する際には、請求項8記載のように、ステップ(b)で生成された第一の合成信号及び第二の合成信号の夫々について、ガウス分布との差異を評価し、ガウス分布との差異が最も大きく評価された合成信号を、音声成分の特徴が表れている合成信号として、選択すればよい。
周知のように、雑音成分は近似的にガウス分布をとる。従って、第一及び第二の合成信号の夫々について、ガウス分布との差異を評価すれば、両合成信号のいずれが最も音声成分の特徴を表すものであるのかを簡単且つ適切に判別することができる。
尚、上述の音声抽出方法に関する発明は、請求項9〜請求項16のようにして音声抽出装置に適用されるとよい。請求項9記載の音声抽出装置は、複数のフィルタと、抽出手段と、第一合成手段と、第二合成手段と、選択出力手段と、決定手段と、を備え、抽出手段にて、外部入力されたディジタル音声信号から複数種類の信号成分を複数のフィルタを用いて抽出する。
第一合成手段は、抽出手段にて抽出された各信号成分を、第一の規則に従って合成して、第一の合成信号を生成し、第二合成手段は、抽出手段にて抽出された各信号成分を、第一の規則とは異なる第二の規則に従って合成して、第二の合成信号を生成する。第一及び第二の規則は、第一合成手段で生成される第一の合成信号及び第二合成手段で生成される第二の合成信号の統計的特徴量に基づき、上記決定手段によって決定される。選択出力手段は、このようにして第一合成手段で生成された第一の合成信号及び第二合成手段で生成された第二の合成信号の内、音声成分の特徴が表れている合成信号を選択的に出力する。
請求項9記載の音声抽出装置によれば、請求項1記載の音声抽出方法と同様、統計的特徴量に基づき第一及び第二の規則を決定して、音声成分を強調した合成信号を生成し、ディジタル音声信号から音声成分を抽出するので、単一のマイクロフォンで、良好に音声成分を抽出することができ、雑音成分(雑音源)の数が時々刻々と変化する環境下であっても、音声成分を適切に抽出することができる。また、この発明によれば、複数のマイクロフォンを用いずに済み、単一のマイクロフォンからの入力信号を処理する程度で済むので、高性能なコンピュータや、大容量のメモリ等を音声抽出装置に搭載しなくて済み、製品を安価に製造することができる。
また、請求項10記載の音声抽出装置は、抽出手段が、各フィルタにより抽出される信号成分が相互に独立又は無相関となるように、上記複数のフィルタのインパルス応答を設定し、それら複数のフィルタを用いて、ディジタル音声信号から、相互に独立又は無相関な複数種類の信号成分を抽出する構成にされたものである。
この音声抽出装置によれば、請求項2記載の音声抽出方法と同様、雑音源の変化に対応して、適切な信号成分を抽出することができ、音声成分の特徴を良く表す合成信号を適切に生成・出力することができる。尚、上記音声抽出装置においては、請求項11記載のように、フィルタとして、FIR型又はIIR型のディジタルバンドパスフィルタを用いることができる。
また、請求項12記載の音声抽出装置は、決定手段が、第一及び第二の合成信号の確率密度関数の差異を表す量が最大となるように、第一及び第二の規則を決定する構成にされたものである。その他、請求項13記載の音声抽出装置は、決定手段が、第一及び第二の合成信号についての相互情報量が最小となるように、第一及び第二の規則を決定する構成にされたものである。請求項12,13記載の音声抽出装置のようにして、第一および第二の規則を決定すれば、請求項4,5記載の音声抽出方法と同様に、音声成分が適切に強調された合成信号を生成することができ、良好に音声成分を抽出することができる。
また、請求項14記載の音声抽出装置のように、上記決定手段を、第一及び第二の合成信号の確率密度関数の差異を表す量と、第一及び第二の合成信号についての相互情報量と、に基づき、第一及び第二の規則を決定する構成とすれば、一層良好に音声成分を抽出することができる。
その他、請求項15記載の音声抽出装置は、決定手段が、抽出手段にて抽出された各信号成分の重み付けに関する規則(第一及び第二の規則)を決定し、第一合成手段が、抽出手段にて抽出された各信号成分を、第一の規則で重み付け加算して第一の合成信号を生成し、第二合成手段が、抽出手段にて抽出された各信号成分を、第二の規則で重み付け加算して、第二の合成信号を生成する構成にされたものである。この音声抽出装置によれば、上述の条件に適合する合成信号を簡単且つ高速に生成することができる。
また、請求項16記載の音声抽出装置は、選択出力手段が、第一合成手段で生成された第一の合成信号及び第二合成手段で生成された第二の合成信号の夫々について、ガウス分布との差異を評価する評価手段、を有し、その評価手段によってガウス分布との差異が最も大きく評価された合成信号を、音声成分の特徴が表れている合成信号として、選択的に出力する構成にされたものである。請求項16記載の音声抽出装置によれば、両合成信号のいずれが最も音声成分の特徴を表すものであるのかを簡単且つ適切に評価することができる。
また、請求項17記載の音声認識装置は、請求項9〜請求項16記載の音声抽出装置の選択出力手段が出力する合成信号を用いて音声認識を行うものである。本発明の音声抽出装置では、選択出力手段から音声成分のみが選択的に強調された合成信号が出力されるので、その音声抽出装置から出力される信号を用いて音声認識を行う本発明の音声認識装置によれば、従来より高精度に音声認識を行うことができる。
尚、請求項9〜請求項16記載の音声抽出装置が備える上記フィルタ、抽出手段、第一合成手段、第二合成手段、選択出力手段、及び、決定手段としての機能は、コンピュータに実現させてもよい。
請求項18記載のプログラムは、上記フィルタ、抽出手段、第一合成手段、第二合成手段、選択出力手段、及び、決定手段としての機能を、コンピュータに実現させるためのプログラムである。このプログラムを、情報処理装置のCPUに実行させれば、その情報処理装置を、本発明の音声抽出装置として機能させることができる。尚、このプログラムは、CD−ROMやDVD、ハードディスク、半導体製メモリに格納して、利用者に提供されてもよい。
以下に本発明の実施例について、図面とともに説明する。図1は、本発明が適用されたナビゲーションシステム1の構成を表すブロック図である。本実施例のナビゲーションシステム1は、車両内に構築されており、位置検出装置11と、地図データ入力器13と、各種情報(地図等)を表示するための表示装置15と、音声出力を行うためのスピーカ17と、利用者が当該システムへ各種指令を入力するための操作スイッチ群19と、ナビ制御回路20と、音声認識装置30と、マイクロフォンMCとを備える。
位置検出装置11は、GPS衛星から送信されてくる衛星信号を受信して現在地の座標(緯度・経度等)を算出するGPS受信機11aや、周知のジャイロスコープ(図示せず)などの位置検出に必要な各種センサ類を備える。この位置検出装置11が備えるセンサ類の出力は夫々性質の異なる誤差を有するため、当該位置検出装置11は、それら各機器の複数を用いて、現在地を特定する構成にされている。尚、要求される位置検出精度によっては、上述したセンサ類の一部で位置検出装置11を構成してもよいし、地磁気センサ、ステアリングの回転センサや各転動輪の車輪センサ、車速センサ、路面の傾斜角を検出する傾斜センサ等を更に位置検出装置11に設けても良い。
地図データ入力器13は、位置補正のためのマップマッチング用データ、道路の接続を表す道路データ等を、それらを記憶する記憶媒体からナビ制御回路20に入力するものである。記憶媒体としては、CD−ROM、DVD、ハードディスク等が挙げられる。
また、表示装置15は、液晶ディスプレイ等からなるカラー表示装置であり、ナビ制御回路20から入力される映像信号に基づいて、画面上に、車両の現在位置や地図画像等を表示する。この他、スピーカ17は、ナビ制御回路20から入力される音声信号を再生するものであり、目的地までの経路を音声案内する際などに用いられる。
その他、ナビ制御回路20は、周知のマイクロコンピュータ等から構成されるものであり、操作スイッチ群19から入力される指令信号に従い、ナビゲーションに係る各種処理を実行する。例えば、ナビ制御回路20は、位置検出装置11で検出された現在地周囲の道路地図を、表示装置15に表示させると共に、その道路地図上に現在地を表すマークを表示させる。また、ナビ制御回路20は、目的地までの経路を探索して、車両の運転者がその経路に沿って車両を走行させることができるように、表示装置15に各種案内を表示させたり、スピーカ17を通じて、音声案内を行う。その他、ナビ制御回路20は、周辺施設案内や、表示装置15に表示させる道路地図の地域・スケール変更など、周知のカーナビゲーション装置が行う各種処理を実行する。
また、このナビ制御回路20は、音声認識装置30から入力される音声認識結果に従い、その音声認識装置30にて認識された音声に対応する各種処理を実行する。
音声認識装置30は、マイクロフォンMCから入力されるアナログ音声信号を、ディジタル信号(以下、「ディジタル音声信号」と表現する。)に変換するアナログ−ディジタル変換器31と、そのアナログ−ディジタル変換器31から入力されるディジタル音声信号から、音声成分を選択的に抽出して出力する音声抽出部33と、音声抽出部33から出力される信号に基づいて、利用者がマイクロフォンMCを通じて入力した音声を認識する認識部35と、を備える。
認識部35は、音声抽出部33の選択出力部49から出力される後述の合成信号Y1(u)又は合成信号Y2(u)を音響分析し、その信号の特徴量(例えばケプストラム)を、周知の手法で、音声辞書に登録された音声パターンと比較し、一致度の高い音声パターンに対応する語彙を、利用者が発声した語彙であると認識して、その認識結果をナビ制御回路20に入力するものである。
尚、この音声認識装置30には、CPU、RAMの他、CPUに音声抽出部33及び認識部35としての機能を実現させるためのプログラムを格納したROMを設けて、それらプログラムをCPUに適宜実行させることにより、音声認識部30内に、音声抽出部33及び認識部35を設けてもよいし、専用のLSIを設けてもよい。
図2(a)は、この音声認識装置30が備える音声抽出部33の構成を表す機能ブロック図であり、図2(b)は、音声抽出部33が備える信号分解部45の構成を表す機能ブロック図である。
音声抽出部33は、利用者が発した声の成分である音声成分と周囲雑音についての雑音成分とからなる上記ディジタル音声信号から、音声成分を選択的に抽出して出力するものであり、ディジタル音声信号を格納するためのメモリ(RAM)41と、アナログ−ディジタル変換器31から入力されるディジタル音声信号をメモリ41に書き込む信号記録部43と、そのディジタル音声信号から、複数種の信号成分を分離抽出する信号分解部45と、信号分解部45により分離抽出された複数の信号成分を、複数の規則で重み付けして合成し、それら各規則で合成した合成信号を夫々出力する信号合成部47と、信号合成部47から出力される合成信号の内、音声としての特徴を最もよく示す合成信号を選択し、それを上記音声成分の抽出信号として、出力する選択出力部49と、を備える。
信号記録部43は、アナログ−ディジタル変換器31から入力される各時点のディジタル音声信号mm(u)を順次メモリ41に格納するものである。具体的に、本実施例の信号記録部43は、現在時点から1秒遡った時点までのディジタル音声信号をメモリ41に記録する構成にされている。マイクロフォンMCから入力される音声信号が、サンプリング周波数N(Hz)(例えばN=10000)でサンプリングされる場合、この信号記録部43の動作により、メモリ41には、現在時点から過去N個分のディジタル音声信号mm(N−1),mm(N−2),mm(0)が常に格納された状態にされる。
一方、信号分解部45は、複数(具体的には三つ)のフィルタFL0,FL1,FL2と、それらフィルタFL0,FL1,FL2のインパルス応答(フィルタ係数)を設定するためのフィルタ学習部45aとを備える。フィルタFL0,FL1,FL2は、FIR(Finite Impulse Response)型のディジタルフィルタとして構成されており、フィルタFL0には、フィルタ係数{W00,W01,W02}が設定され、フィルタFL1には、フィルタ係数{W10,W11,W12}が設定され、フィルタFL2には、フィルタ係数{W20,W21,W22}が設定される。
これら各フィルタFL0,FL1,FL2は、メモリ41から読み出された時刻u,u−1,u−2でのディジタル音声信号mm(u),mm(u−1),mm(u−2)を用いて、ディジタル音声信号を濾波し、そのディジタル音声信号から複数種の信号成分y(u),y(u),y(u)を抽出する。尚、複数の信号成分y(u),y(u),y(u)と、ディジタル音声信号mm(u),mm(u−1),mm(u−2)との関係は、次式で表わされる。
Figure 2005258068
具体的に、フィルタFL0,FL1,FL2は、後述する信号分解処理によるインパルス応答(フィルタ係数)の更新により、夫々異なる周波数帯域の信号成分を抽出するバンドパスフィルタとして構成され、フィルタFL0は、信号成分y(u),y(u)とは独立な信号成分y(u)を、上記の式(3)のディジタル音声信号x(u)から抽出し出力する。また、フィルタFL1は、信号成分y(u),y(u)とは独立な信号成分y(u)を、ディジタル音声信号x(u)から抽出し出力する。その他、フィルタFL2は、信号成分y(u),y(u)とは独立な信号成分y(u)を、ディジタル音声信号x(u)から抽出し出力する。
尚、これらフィルタFL0,FL1,FL2及びフィルタ学習部45aとして機能は、信号分解部45が、図3に示す信号分解処理を実行することにより実現される。尚、図3は、信号分解部45が実行する信号分解処理を表すフローチャートである。この信号分解処理は、1秒毎に繰り返し実行される。
信号分解処理を実行すると、信号分解部45は、行列Wの各要素を初期値に設定すると共に(S110)、行列w0の各要素の値を初期値に設定する(S120)。尚、行列Wは3行3列の、w0は、3行1列の行列である。本実施例では、行列W及びw0の各要素の初期値として、一様乱数(例えば、−0.001から+0.001までの一様乱数)を設定する。この後、信号分解部45は、変数jを初期値j=1に設定すると共に(S130)、変数uを初期値u=2に設定し(S135)、フィルタ更新処理(S140)を実行する。
図3(b)は、信号分解部45が実行するフィルタ更新処理を表すフローチャートである。このフィルタ更新処理では、独立成分分析(ICA)の一手法として知られるinfomax法に基づいて、フィルタ係数W00,W01,W02,W10,W11,W12,W20,W21,W22を要素にもつ行列Wの各要素の値を更新し、信号成分y(u),y(u),y(u)が相互に独立となるようにする。
具体的に、フィルタ更新処理を実行すると、信号分解部45は、現在設定されている変数uについての値v(u)を次式に従い算出する(S210)。
Figure 2005258068
その後、値v(u)の各要素をシグモイド関数に代入して値c(u)を算出する(S220)。
Figure 2005258068
S220での処理を終えると、信号分解部45は、値c(u)を用いて、行列Wに代わる新しい行列W’を算出する(S230)。但し、ベクトルeは、各要素の値が1である3行1列のベクトルである。また、αは、学習レートを表す定数、tは転置である。
Figure 2005258068
その後、信号分解部45は、S230で算出した行列W’を行列Wと置き換えて、行列Wを、W=W’に更新する(S240)。S240での処理を終えると、信号分解部45は、値c(u)を用いて、行列w0に代わる新しい行列w0’を算出する(S250)。
Figure 2005258068
S250での処理を終えると、信号分解部45は、S250で算出した行列w0’を行列w0と置き換えて、行列w0を、w0=w0’に更新する(S260)。その後、当該フィルタ更新処理を終了する。
フィルタ更新処理を終了すると、信号分解部45は、変数uの値を1インクリメントし(S145)、その後に、変数uの値が、最大値(N−1)より大きいか否か判断する(S150)。ここで、変数uの値が、最大値(N−1)以下であると判断すると(S150でNo)、その変数uの値について、フィルタ更新処理を実行し(S140)、フィルタ更新処理の終了後、変数uを再び1インクリメントする(S145)。信号分解部45は、これらの動作(S140〜S150)を、変数uの値が最大値(N−1)を超えるまで繰り返す。
そして、変数uの値が、最大値(N−1)を超えたと判断すると(S150でYes)、変数jの値を1インクリメントする(S155)。この後、信号分解部45は、変数jの値が、予め設定された最大値Jより大きいか否か判断し(S160)、変数jの値が定数J以下であると判断すると(S160でNo)、S135に移行して、変数uを初期値u=2に設定し、上述したS140〜S155までの処理を実行する。尚、最大値Jは、行列Wが収束する速度を見込んで設定されるものであり、例えば、J=10に設定される。
一方、変数jの値が定数Jより大きいと判断すると(S160でYes)、信号分解部45は、変数uをu=2に設定し(S170)、S240で更新された最新の行列Wを用いて、式(1)に従い、信号成分y(u),y(u),y(u)を算出し(S180)、出力する(S185)。
この後、信号分解部45は、変数uの値を1インクリメントして(S190)、インクリメント後の変数uの値が最大値(N−1)より大きいか否か判断し(S195)、変数uの値が最大値(N−1)以下であると判断すると(S195でNo)、S180に移行して、インクリメント後の変数uについての信号成分y(u),y(u),y(u)を算出し、それを出力する(S185)。一方、インクリメント後の変数uの値が最大値(N−1)より大きいと判断すると(S195でYes)、信号分解処理を終了する。以上の動作により、信号分解部45からは、相互に独立な信号成分y(u),y(u),y(u)が出力される。
続いて、信号合成部47について説明する。この信号合成部47は、図4に示す合成処理を実行することによって、信号分解部45から出力される信号成分y(u),y(u),y(u)を、第一の規則で重み付けして合成し、第一の合成信号Y1(u)を生成すると共に、信号分解部45から出力される信号成分y(u),y(u),y(u)を、第一の規則とは異なる第二の規則で重み付けして合成し、第二の合成信号Y2(u)を生成する。尚、図4は、信号合成部47が実行する合成処理を表すフローチャートである。
合成処理を実行すると、信号合成部47は、変数rを初期値r=1に設定し(S310)、信号分解部45で信号成分y(u),y(u),y(u)が抽出された元の1秒間のディジタル音声信号mm(N−1),…,mm(0)における最大振幅値Amax及び最小振幅値Aminに基づき、値σを算出する(S320)。
Figure 2005258068
その後、信号合成部47は、変数a,a,aを初期値に設定し(S330)、u=2,3,…,N−2,N−1について、仮の第一の合成信号Y1(u)及び第二の合成信号Y2(u)を生成する(S340,S350)。尚、式(11)に示すように、s(a)は、変数a(i=0,1,2)のシグモイド関数である。
Figure 2005258068
合成信号Y1(u),Y2(u)を算出すると、信号合成部47は、合成信号Y1(u)の確率密度関数p1(z)と、合成信号Y2(u)の確率密度関数p2(z)との差異を表す量I(p1,p2)について、I(p1,p2)の傾き∂I/∂a(a=b(r)),∂I/∂a(a=b(r)),∂I/∂a(a=b(r))を算出する(S360)。尚、ここでは、変数r=1,2,…,R−1,Rであるときに、S340〜S360で変数aに設定されている値をb(r)と表記する。
次に、傾き∂I/∂a(a=b(r)),∂I/∂a(a=b(r)),∂I/∂a(a=b(r))の算出方法について説明する。まず、Parzen法を用いて、合成信号Y1(u)の確率密度関数p1(z)、及び、合成信号Y2(u)の確率密度関数p2(z)を、以下のように推定する。尚、Parzen法については、「Simon S.Haykin編,”Unsupervised Adaptive Filtering,Volume 1, Blind Source Separation”,Wiley」の273ページを参考にされたい。
Figure 2005258068
関数G(q,σ)は、式(14)に示すように、分散がσのガウス確率密度関数である。ここでは、q=z−Y1(u)又はq=z−Y2(u)とし、σとして、S320で求めた値σを用いる。
Figure 2005258068
一方、確率密度関数p1(z)と、確率密度関数p2(z)との差異を表す量I(p1,p2)は、確率密度関数p1(z)と、確率密度関数p2(z)との差を二乗して得られる二乗誤差を、変数zについて積分して得られる。
Figure 2005258068
式(20)に示す周知の関係式を用いて、式(15)を展開すると、I(p1,p2)は、式(16)で表すことができる。尚、式(20)に示す周知の関係式については、「Simon S.Haykin編,”Unsupervised Adaptive Filtering,Volume 1,Blind Source Separation”,Wiley」の290ページを参考にされたい。
Figure 2005258068
従って、I(p1,p2)の変数a(i=0,1,2)についての偏微分∂I/∂aは、式(21)で表すことができる。
Figure 2005258068
よって、式(21)〜式(29)の関係式におけるY1(u),Y2(u)(u=2,3,…,N−2,N−1)に、S340で求めた値及びS350で求めた値を代入し、y(u)(i=0,1,2)に、信号分解部45で算出された値を代入し、変数aに、現在の設定値b(r)を代入すれば、b(r)での傾き∂I/∂a(a=b(r)),∂I/∂a(a=b(r)),∂I/∂a(a=b(r))が求められる。
信号合成部47は、このような手法で現在の変数aに設定されている値b(r)での傾き∂I/∂a(a=b(r)),∂I/∂a(a=b(r)),∂I/∂a(a=b(r))を求め(S360)、その傾きに正の定数βを乗算した値と、現在設定されている変数aの値b(r)とを加算して、値b(r+1)を得る。その後、変数aの値をb(r+1)に更新する(S370)。
=b(r+1)
=b(r+1)
=b(r+1)
Figure 2005258068
この後、信号合成部47は、変数rの値を1インクリメントし(S380)、そのインクリメント後の変数rの値が、予め定められた定数Rより大きいか否か判断する(S390)。ここで、変数rが定数R以下であると判断すると(S390でNo)、信号合成部47は、S340に移行し、先にS370で変数aに設定された値を用いて、上述のS340〜S370の処理を行う。その後、S380で変数rの値を再び1インクリメントし、S390で、インクリメント後の変数rの値が定数Rより大きいか否か判断する。
そして、変数rの値が定数Rより大きいと判断すると(S390でYes)、信号合成部47は、最後にS370で変数aに設定された値b(R+1)を用いて、式(9)に従い、第一の合成信号Y1(u)を生成する(S400)。また、最後にS370で変数aに設定された値b(R+1)を用いて、式(10)に従い、第二の合成信号Y2(u)を生成する(S410)。即ち、信号合成部47は、S370で変数aに値b(R+1)を設定することで、確率密度関数の差異を表す量I(p1,p2)が最大となる重み付け規則(変数a)を決定し、S400及びS410で、確率密度関数の差異を表す量I(p1,p2)が最大となる合成信号Y1(u),Y2(u)を生成する。
この後、信号合成部47は、S400及びS410で生成した第一の合成信号Y1(u及び第二の合成信号Y2(u)を出力する(S420)。
続いて、この信号合成部47から合成信号Y1(u),Y2(u)が入力される選択出力部49の構成について説明する。図5は、選択出力部49が、合成信号Y1(u),Y2(u)を信号合成部47から取得すると実行する選択出力処理を表すフローチャートである。
選択出力部49は、図5に示す選択出力処理を実行すると、信号合成部47から取得した合成信号Y1(u),Y2(u)についてガウス分布との差異を評価するために、その合成信号Y1(u),Y2(u)をYa1(u),Ya2(u)に変換して、平均値がゼロとなるようにする(S510)。
Ya1(u)=Y1(u)−<Y1(u)> …(31)
Ya2(u)=Y2(u)−<Y2(u)> …(32)
但し、<Y1(u)>は、Y1(u)の平均値、即ち、Y1(2),Y1(3),…,Y1(N−2),Y1(N−1)の総和を、データ数(N−2)で除算した値である。同様に、<Y2(u)>は、Y2(u)の平均値、即ち、Y2(2),Y2(3),…,Y2(N−2),Y2(N−1)の総和を、データ数(N−2)で除算した値である。
また、選択出力部49は、Ya1(u),Ya2(u)を、Yb1(u),Yb2(u)に変換して、分散が1となるようにする(S520)。
Yb1(u)=Ya1(u)/<Ya1(u)1/2 …(33)
Yb2(u)=Ya2(u)/<Ya2(u)1/2 …(34)
但し、<Ya1(u)>は、Ya1(u)の平均値、即ち、Ya1(2),Ya1(3),…,Ya1(N−2),Ya1(N−1)の総和を、データ数(N−2)で除算した値である。同様に、<Ya2(u)>は、Ya2(u)の平均値である。
この後、選択出力部49は、S530に移行して、Yb1(u),Yb2(u)をガウス分布との差異を評価するための関数g(q(u))に代入し、その関数値g(Yb1(u)),g(Yb2(u))を得る。
Figure 2005258068
尚、関数g(q(u))は、変数q(u)のガウス分布からのズレの大きさを表す関数である。関数gについては、「A. Hyvarinen. “New Approximations of Differential Entropy for Independent Component Analysis and Projection Pursuit”, In Advances in Neural Information Processing Systems 10 (NIPS*97), pp. 273-279, MIT Press, 1998.」を参照されたい。
この関数g(q(u))は、変数q(u)についてガウス分布とのズレが大きいときに、大きな値を出力し、変数q(u)についてガウス分布とのズレが小さいときに、小さな値を出力する。周知のように、雑音はガウス分布を示す。従って、関数値g(Yb1(u))が関数値g(Yb2(u))より大きければ、合成信号Y2(u)の方が、合成信号Y1(u)に比べて雑音成分としての特徴を良く表しているということができる。換言すると、関数値g(Yb1(u))が関数値g(Yb2(u))より大きい場合には、合成信号Y1(u)の方が合成信号Y2(u)と比較して、音声成分としての特徴を良く表しているということができる。
従って、S530における関数値g(Yb1(u)),g(Yb2(u))算出の後には、関数値g(Yb1(u))が関数値g(Yb2(u))より大きいか否か判断し(S540)、関数値g(Yb1(u))が関数値g(Yb2(u))より大きいと判断すると(S540でYes)、合成信号Y1(u),Y2(u)のうち、第一の合成信号Y1(u)を、出力対象の信号として選択し(S550)、第一の合成信号Y1(u)を認識部35に向けて選択的に出力する(S560)。
一方、関数値g(Yb1(u))が関数値g(Yb2(u))以下であると判断すると(S540でNo)、選択出力部49は、合成信号Y2(u)を出力対象の信号として選択し(S570)、第二の合成信号Y2(u)を認識部35に向けて選択的に出力する(S580)。S560又はS580での処理を終了すると、選択出力部49は、当該選択出力処理を終了する。
以上、音声認識装置30及びナビゲーションシステム1の構成について説明したが、信号分解部45では、図3(a)に示す信号分解処理に代えて、図6に示す信号分解処理を実行することで、互いに無相関な複数の信号成分y(u),y(u),y(u)を抽出するようにしてもよい。
図6は、互いに無相関な複数の信号成分y(u),y(u),y(u)を抽出するために、信号分解部45が実行する変形例の信号分解処理を表すフローチャートである。この信号分解処理は、1秒毎に繰り返し実行されるものであり、主成分分析の手法を用いて、互いに無相関な信号成分y(u),y(u),y(u)を抽出するものである。
図6に示す信号分解処理を実行すると、信号分解部45は、1秒分のディジタル音声信号mm(N−1),mm(N−2),…,mm(1),mm(0)を用いて、次式で表される3行3列の行列X(所謂、分散マトリックス)を算出する(S610)。尚、ベクトルx(u)は、式(3)で示した構成のものである。
Figure 2005258068
その後、信号分解部45は、S610で算出した行列Xの固有ベクトルγ,γ,γを算出する(S620)。尚、固有ベクトルの算出方法は周知であるので、その説明をここでは省略する。
γ=(γ00 γ01 γ02
γ=(γ10 γ11 γ12
γ=(γ20 γ21 γ22
S620の処理後、信号分解部45は、S620で算出した固有ベクトルγ,γ,γを用いて、行列Γを生成する(S630)。
Figure 2005258068
その後、信号分解部45は、上記算出した行列Γを行列Wに設定(W=Γ)して(S635)、フィルタFL0,FL1,FL2に、互いに無相関な信号成分y(u),y(u),y(u)を抽出可能なインパルス応答(フィルタ係数)を設定し、後続の処理S640〜S665を実行することにより、ディジタル音声信号x(u)から、互いに無相関な信号成分y(u),y(u),y(u)を抽出する。
具体的に、信号分解部45は、変数uを初期値u=2に設定し(S640)、S635で設定された行列Wを用いて、式(1)に従い、信号成分y(u),y(u),y(u)を算出し(S650)、出力する(S655)。この後、信号分解部45は、変数uの値を1インクリメントして(S660)、インクリメント後の変数uの値が最大値(N−1)より大きいか否か判断し(S665)、変数uの値が最大値(N−1)以下であると判断すると(S665でNo)、S650に処理を戻して、インクリメント後の変数uについての信号成分y(u),y(u),y(u)を算出し、それを出力する(S655)。一方、インクリメント後の変数uの値が最大値(N−1)より大きいと判断すると(S665でYes)、当該信号分解処理を終了する。
その他、信号合成部47では、合成信号Y1(u),Y2(u)の相互情報量M(Y1,Y2)が最小となるように、変数a,a,aを設定して、出力対象の合成信号Y1(u),Y2(u)を生成してもよい(図7参照)。相互情報量M(Y1,Y2)を最小とするのは、音声成分及び雑音成分が、近似的には独立であると解釈することができるためである。即ち、相互情報量M(Y1,Y2)を最小とすれば、合成信号Y1(u),Y2(u)の一方を、音声成分を表す信号とすることができ、他方を雑音成分を表す信号とすることができる。
図7は、信号合成部47が実行する変形例の合成処理を表すフローチャートである。以下、変形例の合成処理について説明するが、まず始めに、変形例の合成処理の原理について簡単に説明する。周知のように、Y1(u),Y2(u)の相互情報量M(Y1,Y2)は、式(38)で表すことができる。
Figure 2005258068
ここで、p1(z)は、合成信号Y1(u)の確率密度関数であり、p2(z)は、合成信号Y2(u)の確率密度関数である(式(12)(13)参照)。また、H(Y1)は、Y1(u)のエントロピーであり、H(Y2)は、Y2(u)のエントロピーである。その他、H(Y1,Y2)は、複合事象Y1,Y2のエントロピーである。H(Y1,Y2)は、複合事象Y1,Y2のエントロピーであるため、元のディジタル音声信号のエントロピーと等しく、変数aについて一定である。
本実施例では、相互情報量M(Y1,Y2)が最小となる変数a,a,aを設定することが目的であるため、H(Y1,Y2)が一定であることを利用して、相互情報量M(Y1,Y2)と等価な量D(Y1,Y2)を以下のように定義する。
Figure 2005258068
量D(Y1,Y2)を以上のように定義すれば、D(Y1,Y2)が最大となる変数a,a,aを設定することで、相互情報量M(Y1,Y2)を最小にすることができる。従って、図7に示す合成処理では、D(Y1,Y2)が最大となるように変数a,a,aを設定して、選択出力部49に提供する合成信号Y1(u),Y2(u)を生成する。
図7に示す変形例の合成処理を実行すると、信号合成部47は、変数rを初期値r=1に設定し(S710)、信号分解部45で信号成分y(u),y(u),y(u)が抽出された元の1秒間のディジタル音声信号mm(N−1),…,mm(0)における最大振幅値Amax及び最小振幅値Aminに基づき、式(8)に従って値σを算出する(S720)。
その後、信号合成部47は、変数a,a,aを初期値に設定し(S730)、式(9)(10)に従い、u=2,3,…,N−2,N−1について、仮の第一の合成信号Y1(u)及び第二の合成信号Y2(u)を生成する(S740,S750)。
合成信号Y1(u),Y2(u)を生成すると、信号合成部47は、合成信号Y1(u)の確率密度関数p1(z)と、合成信号Y2(u)の確率密度関数p2(z)と、に基づき、合成信号Y1(u),Y2(u)の相互情報量M(Y1,Y2)に等価な量D(Y1,Y2)について、D(Y1,Y2)の傾き∂D/∂a(a=b(r)),∂D/∂a(a=b(r)),∂D/∂a(a=b(r))を算出する(S760)。尚、ここでは、変数r=1,2,…,R−1,Rであるときに、S740〜S760で変数aに設定されている値をb(r)と表記する。
具体的に、∂D/∂a(a=b(r)),∂D/∂a(a=b(r)),∂D/∂a(a=b(r))の算出に際しては、エントロピーH(Y1)を、Y1(u)が一様分布でありエントロピーH(Y1)が最大となるときの一様確率密度関数u(z)と、Y1(u)の確率密度関数p1(z)との差の二乗積分で近似する。同様に、エントロピーH(Y2)を、Y2(u)が一様分布でありエントロピーH(Y2)が最大となるときの一様確率密度関数u(z)と、Y2(u)の確率密度関数p2(z)との差の二乗積分で近似する。
Figure 2005258068
このようにエントロピーH(Y1),H(Y2)を近似することで、上述したI(p1,p2)と同様の手法で、∂D/∂a(a=b(r)),∂D/∂a(a=b(r)),∂D/∂a(a=b(r))を算出することができる。信号合成部47は、このような手法で現在の変数a(i=0,1,2)に設定されている値b(r)での傾き∂D/∂a(a=b(r)),∂D/∂a(a=b(r)),∂D/∂a(a=b(r))を求め(S760)、その傾きに正の定数βを乗算した値と、現在設定されている変数a(i=0,1,2)の値b(r)と、を加算して、値b(r+1)を得る。そして、変数aの値をb(r+1)に変更する(S770)。
Figure 2005258068
この後、信号合成部47は、変数rの値を1インクリメントし(S780)、そのインクリメント後の変数rの値が、予め定められた定数Rより大きいか否か判断する(S790)。ここで、変数rが定数R以下であると判断すると(S790でNo)、信号合成部47は、処理をS740に戻し、S770で変数aに設定された値を用いて、上述のS740〜S770の処理を行う。その後、変数rを再び1インクリメントし(S780)、S790で、インクリメント後の変数rの値が、定数Rより大きいか否か判断する。
そして、変数rの値が定数Rより大きいと判断すると(S790でYes)、信号合成部47は、S800に移行し、最後にS770で設定した変数aの値b(R+1)を用いて、式(9)に従い第一の合成信号Y1(u)を生成する(S800)。また、最後にS770で設定した変数aの値b(R+1)を用いて、式(10)に従い第二の合成信号Y2(u)を生成する(S810)。
即ち、信号合成部47は、S770で変数aに値b(R+1)を設定することで、量D(Y1,Y2)が最大、換言すると、相互情報量M(Y1,Y2)が最小となる重み付け規則(変数a)を決定し、S800及びS810で、相互情報量M(Y1,Y2)が最小となる合成信号Y1(u),Y2(u)を生成する。この後、信号合成部47は、S800及びS810で生成した第一の合成信号Y1(u)及び第二の合成信号Y2(u)を選択出力部49に向けて出力し(S820)、当該合成処理を終了する。
以上では、確率密度関数の差異を表す量I(p1,p2)に代えて、量D(Y1,Y2)を指標にして、変数aを設定する変形例の合成処理について説明したが、I(p1,p2)及びD(Y1,Y2)の両者を指標にして、変数aを設定するように合成処理を構成してもよい。図8は、I(p1,p2)及びD(Y1,Y2)の両者を指標にして、変数aを設定するように構成された第二変形例の合成処理を表すフローチャートである。
図8に示す第二変形例の合成処理では、量Fを、I(p1,p2)及びD(Y1,Y2)を用いて以下のように定義し、量Fが最大となる変数aを探索することで、確率密度関数の差異を表す量I(p1,p2)が大きく、相互情報量M(Y1,Y2)の小さい合成信号Y1(u),Y2(u)を生成する。尚、式(46)に示す定数εは、重み付け係数であり、ゼロより大きく1より小さい実数である。
Figure 2005258068
図8に示す合成処理を実行すると、信号合成部47は、上述したS710からS750までの処理を経て、仮の合成信号Y1(u),Y2(u)を生成する。その後、合成信号Y1(u)の確率密度関数p1(z)と、合成信号Y2(u)の確率密度関数p2(z)と、に基づき、量Fの傾き∂F/∂a(a=b(r)),∂F/∂a(a=b(r)),∂F/∂a(a=b(r))を算出する(S860)。尚、ここでは、変数r=1,2,…,R−1,Rであるときに、S740,S750,S860で変数aに設定されている値をb(r)と表記する。
Figure 2005258068
S860の処理後、信号合成部47は、S860で算出した値b(r)での傾き∂F/∂a(a=b(r)),∂F/∂a(a=b(r)),∂F/∂a(a=b(r))に正の定数βを乗算した値と、現在設定されている変数aの値b(r)と、を加算して、値b(r+1)を得る。そして、変数aの値をb(r+1)に変更する(S870)。
Figure 2005258068
この後、信号合成部47は、変数rの値を1インクリメントし(S880)、そのインクリメント後の変数rの値が定数Rより大きいか否か判断し(S890)、変数rが定数R以下であると判断すると(S890でNo)、処理をS740に戻し、変数rの値が定数Rより大きいと判断すると(S890でYes)、最後にS870で設定した変数aの値b(R+1)を用いて、式(9)に従い第一の合成信号Y1(u)を生成する(S900)。また、最後にS870で設定した変数aの値b(R+1)を用いて、式(10)に従い第二の合成信号Y2(u)を生成する(S910)。
即ち、信号合成部47は、S870で変数aに値b(R+1)を設定することで、量Fが最大となる重み付け規則(変数a)を決定し、S900及びS910で、量Fが最大、換言すると、相互情報量M(Y1,Y2)が小さく、確率密度関数の差異を表す量I(p1,p2)が大きい合成信号Y1(u),Y2(u)を生成する。この後、信号合成部47は、S900及びS910で生成した第一の合成信号Y1(u)及び第二の合成信号Y2(u)を選択出力部49に向けて出力し(S920)、当該合成処理を終了する。
以上、変形例を含む本実施例の音声認識装置30及びナビゲーションシステム1について説明したが、この音声認識装置30によれば、信号分解部45が、複数のフィルタFL0,FL1,FL2を用いて、ディジタル音声信号から、互いに独立又は無相関な複数種類の信号成分y(u),y(u),y(u)を抽出し、第一及び第二の合成信号Y1(u),Y2(u)の確率密度関数の差異を表す量I(p1,p2)が最大、又は、第一及び第二の合成信号Y1(u),Y2(u)についての相互情報量M(Y1,Y2)が最小、又は、確率密度関数の差異を表す量I(p1,p2)及び相互情報量M(Y1,Y2)と等価な量Dを加味した量Fが最大となるように、信号合成部47が変数aの値を決定する。
また、信号合成部47が、決定した変数aの値に基づき、各信号成分y(u),y(u),y(u)を、第一の規則である式(9)に従って重み付け加算し、第一の合成信号Y1(u)を生成すると共に、各信号成分y(u),y(u),y(u)を、第二の規則である式(10)に従って重み付け加算し、第二の合成信号Y2(u)を生成する。
その他、この音声認識装置30では、選択出力部49によって、第一の合成信号Y1(u)及び第二の合成信号Y2(u)の夫々について、式(35)の関数gに従いガウス分布との差異を評価し、第一及び第二の合成信号Y1(u),Y2(u)の内、関数値の高い合成信号を、音声成分の特徴が表れている合成信号として、選択的に出力する。以上の動作により、上記音声認識装置30は、マイクロフォンMCから入力された音声信号から利用者の発声音に関する音声成分のみを選択的に抽出・出力する。
このように本実施例の音声認識装置30では、フィルタFL0,FL1,FL2を用いてディジタル音声信号から複数種の信号成分y(u),y(u),y(u)を抽出し、確率密度関数の差異を表す量I(p1,p2)又は相互情報量M(Y1,Y2)に基づいて各信号成分y(u),y(u),y(u)を合成して、音声成分に該当する信号成分のみを強調した合成信号を生成するので、音源の数だけマイクロフォンが必要な従来技術とは異なり、単一のマイクロフォンで、良好に音声成分を抽出することができる。
また、本実施例によれば、単一のマイクロフォンからの入力信号を処理する程度で、音声成分を抽出することができるので、高性能なコンピュータや、大容量のメモリ等を用いることなく、音声抽出性能に優れた製品(音声認識装置30)を安価に製造することができる。
その他、量Fに基づいて変数aの値を決定する第二変形例によれば、第一及び第二の合成信号の確率密度関数の差異を表す量I(p1,p2)、及び、第一及び第二の合成信号についての相互情報量M(Y1,Y2)の両者を指標にして、合成信号Y1(u),Y2(u)を生成するので、確率密度関数の差異を表す量I(p1,p2)及び相互情報量M(Y1,Y2)のいずれか一方だけを指標にして、合成信号Y1(u),Y2(u)を生成する場合よりも、良好に音声成分を抽出することができる。
また、本実施例の音声認識装置30では、合成信号Y1(u),Y2(u)の夫々について、上述の関数gを用いてガウス分布との差異を評価し、音声成分の特徴を表す合成信号を選択するので、高速且つ良好に信号選択を行うことができる。
尚、本発明の抽出手段は、信号分解部45に相当する。また、第一合成手段は、信号合成部47が実行するS400,S800,S900の処理にて実現され、第二合成手段は、信号合成部47が実行するS410,S810,S910の処理にて実現されている。その他、選択出力手段は、選択出力部49に相当し、選択出力手段が備える評価手段は、選択出力部49が実行するS530の処理にて実現されている。また、決定手段は、信号合成部47が実行するS310〜S390の処理、図7に示すS710〜S790の処理、図8に示すS710〜S890の処理にて実現されている。
また、本発明の音声抽出方法、音声抽出装置、音声認識装置、及び、プログラムは、上記実施例に限定されるものではなく、種々の態様を採ることができる。
例えば、上記実施例では、フィルタFL0,FL1,FL2として、FIR型のディジタルフィルタを用いたが、IIR(Infinite Impulse Response)型のディジタルバンドパスフィルタを用いてもよい。尚、IIR型のディジタルフィルタを用いる場合には、周知の技法を用いて、インパルス応答をフィルタ学習部45aで更新して、信号成分y(u),y(u),y(u)が、互いに独立、若しくは、互いに無相関となるようにすればよい。
また、合成信号Y1(u),Y2(u)の選択出力に際しては、合成信号Y1(u),Y2(u)からLPCケプストラムを導出して、その結果に基づき、合成信号Y1(u),Y2(u)のいずれに、音声成分の特徴が表れているか評価してもよい。
ナビゲーションシステム1の構成を表すブロック図である。 音声認識装置30が備える音声抽出部33の構成を表す機能ブロック図(a)及び信号分解部45の構成を表す機能ブロック図(b)である。 信号分解部45が実行する信号分解処理を表すフローチャート(a)及び信号分解部45が実行するフィルタ更新処理を表すフローチャート(b)である。 信号合成部47が実行する合成処理を表すフローチャートである。 選択出力部49が実行する選択出力処理を表すフローチャートである。 信号分解部45が実行する変形例の信号分解処理を表すフローチャートである。 信号合成部47が実行する変形例の合成処理を表すフローチャートである。 信号合成部47が実行する第二変形例の合成処理を表すフローチャートである。
符号の説明
1…ナビゲーションシステム、11…位置検出装置、11a…GPS受信機、13…地図データ入力器、15…表示装置、17…スピーカ、19…操作スイッチ群、20…ナビ制御回路、30…音声認識装置、31…アナログ−ディジタル変換器、33…音声抽出部、35…認識部、41…メモリ、43…信号記録部、45…信号分解部、45a…フィルタ学習部、47…信号合成部、49…選択出力部、FL0,FL1,FL2…フィルタ、MC…マイクロフォン

Claims (18)

  1. 音声成分及び雑音成分からなるディジタル音声信号から、音声成分を選択的に抽出するための音声抽出方法であって、
    複数のフィルタを用いて、前記ディジタル音声信号から、複数種の信号成分を抽出するステップ(a)と、
    前記ステップ(a)にて抽出された各信号成分を、第一の規則に従って合成して、第一の合成信号を生成すると共に、前記ステップ(a)にて抽出された各信号成分を、第一の規則とは異なる第二の規則に従って合成し、第二の合成信号を生成するステップ(b)と、
    前記ステップ(b)にて生成された前記第一及び第二の合成信号の内、音声成分の特徴が表れている合成信号を選択的に出力するステップ(c)と、
    を有し、
    前記ステップ(b)では、第一及び第二の合成信号の統計的特徴量に基づき、第一及び第二の規則を決定すること
    を特徴とする音声抽出方法。
  2. 前記ステップ(a)では、各フィルタにより抽出される信号成分が相互に独立又は無相関となるように、前記複数のフィルタのインパルス応答を設定し、それら複数のフィルタを用いて、前記ディジタル音声信号から、前記複数種の信号成分を抽出することを特徴とする請求項1記載の音声抽出方法。
  3. 前記フィルタは、FIR型又はIIR型のディジタルバンドパスフィルタであることを特徴とする請求項1記載の音声抽出方法。
  4. 前記ステップ(b)では、前記統計的特徴量としての第一及び第二の合成信号の確率密度関数の差異を表す量、が最大となるように、前記第一及び第二の規則を決定することを特徴とする請求項1〜請求項3のいずれかに記載の音声抽出方法。
  5. 前記ステップ(b)では、前記統計的特徴量としての第一及び第二の合成信号についての相互情報量、が最小となるように、前記第一及び第二の規則を決定することを特徴とする請求項1〜請求項3のいずれかに記載の音声抽出方法。
  6. 前記ステップ(b)では、前記統計的特徴量としての第一及び第二の合成信号の確率密度関数の差異を表す量と、該第一及び第二の合成信号についての相互情報量と、に基づき、前記第一及び第二の規則を決定することを特徴とする請求項1〜請求項3のいずれかに記載の音声抽出方法。
  7. 前記ステップ(b)では、前記第一及び第二の規則として、前記ステップ(a)にて抽出された各信号成分の重み付けに関する規則を決定し、前記ステップ(a)にて抽出された各信号成分を、該第一の規則で重み付けして加算することで、前記第一の合成信号を生成し、前記ステップ(a)にて抽出された各信号成分を、前記第二の規則で重み付けして加算することで、前記第二の合成信号を生成することを特徴とする請求項1〜請求項6のいずれかに記載の音声抽出方法。
  8. 前記ステップ(c)では、前記ステップ(b)で生成された前記第一及び第二の合成信号の夫々について、ガウス分布との差異を評価し、ガウス分布との差異が最も大きく評価された合成信号を、前記音声成分の特徴が表れている合成信号として、選択的に出力することを特徴とする請求項1〜請求項7のいずれかに記載の音声抽出方法。
  9. 音声成分及び雑音成分からなるディジタル音声信号から、音声成分を選択的に抽出するための音声抽出装置であって、
    複数のフィルタと、
    前記複数のフィルタを用いて、外部入力されたディジタル音声信号から複数種の信号成分を抽出する抽出手段と、
    前記抽出手段にて抽出された各信号成分を、第一の規則に従って合成して、第一の合成信号を生成する第一合成手段と、
    前記抽出手段にて抽出された各信号成分を、前記第一の規則とは異なる第二の規則に従って合成して、第二の合成信号を生成する第二合成手段と、
    前記第一合成手段で生成された第一の合成信号及び前記第二合成手段で生成された第二の合成信号の内、音声成分の特徴が表れている合成信号を選択的に出力する選択出力手段と、
    前記第一合成手段で生成される第一の合成信号及び前記第二合成手段で生成される第二の合成信号の統計的特徴量に基づき、第一及び第二の規則を決定する決定手段と、
    を備えることを特徴とする音声抽出装置。
  10. 前記抽出手段は、前記各フィルタにより抽出される信号成分が相互に独立又は無相関となるように、前記複数のフィルタのインパルス応答を設定し、それら複数のフィルタを用いて、前記ディジタル音声信号から、複数種の信号成分を抽出することを特徴とする請求項9記載の音声抽出装置。
  11. 前記各フィルタは、FIR型又はIIR型のディジタルバンドパスフィルタであることを特徴とする請求項9記載の音声抽出装置。
  12. 前記決定手段は、前記統計的特徴量としての第一及び第二の合成信号の確率密度関数の差異を表す量、が最大となるように、前記第一及び第二の規則を決定することを特徴とする請求項9〜請求項11のいずれかに記載の音声抽出装置。
  13. 前記決定手段は、前記統計的特徴量としての第一及び第二の合成信号についての相互情報量、が最小となるように、前記第一及び第二の規則を決定することを特徴とする請求項9〜請求項11のいずれかに記載の音声抽出装置。
  14. 前記決定手段は、前記統計的特徴量としての第一及び第二の合成信号の確率密度関数の差異を表す量と、該第一及び第二の合成信号についての相互情報量と、に基づき、前記第一及び第二の規則を決定することを特徴とする請求項9〜請求項11のいずれかに記載の音声抽出装置。
  15. 前記決定手段は、前記第一及び第二の規則として、前記抽出手段にて抽出された各信号成分の重み付けに関する規則を決定し、
    前記第一合成手段は、前記抽出手段にて抽出された各信号成分を、前記第一の規則で重み付けして加算することで、前記第一の合成信号を生成し、
    前記第二合成手段は、前記抽出手段にて抽出された各信号成分を、前記第二の規則で重み付けして加算することで、前記第二の合成信号を生成することを特徴とする請求項9〜請求項14のいずれかに記載の音声抽出装置。
  16. 前記選択出力手段は、
    前記第一合成手段で生成された第一の合成信号及び前記第二合成手段で生成された前記第二の合成信号の夫々について、ガウス分布との差異を評価する評価手段、
    を備え、該評価手段によってガウス分布との差異が最も大きく評価された合成信号を、前記音声成分の特徴が表れている合成信号として、選択的に出力することを特徴とする請求項9〜請求項15のいずれかに記載の音声抽出装置。
  17. 請求項9〜請求項16のいずれかに記載の音声抽出装置を備え、該音声抽出装置の前記選択出力手段が出力する合成信号を用いて音声認識を行うことを特徴とする音声認識装置。
  18. コンピュータに、
    複数のフィルタと、
    前記複数のフィルタを用いて、外部入力された音声成分及び雑音成分からなるディジタル音声信号から複数種の信号成分を抽出する抽出手段と、
    前記抽出手段にて抽出された各信号成分を、第一の規則に従って合成して、第一の合成信号を生成する第一合成手段と、
    前記抽出手段にて抽出された各信号成分を、前記第一の規則とは異なる第二の規則に従って合成して、第二の合成信号を生成する第二合成手段と、
    前記第一合成手段で生成された第一の合成信号及び前記第二合成手段で生成された第二の合成信号の内、音声成分の特徴が表れている合成信号を選択的に出力する選択出力手段と、
    前記第一合成手段で生成される第一の合成信号及び前記第二合成手段で生成される第二の合成信号の統計的特徴量に基づき、第一及び第二の規則を決定する決定手段、
    としての機能を実現させるためのプログラム。
JP2004069436A 2004-03-11 2004-03-11 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム Expired - Fee Related JP4529492B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004069436A JP4529492B2 (ja) 2004-03-11 2004-03-11 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム
US11/073,922 US7440892B2 (en) 2004-03-11 2005-03-08 Method, device and program for extracting and recognizing voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004069436A JP4529492B2 (ja) 2004-03-11 2004-03-11 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2005258068A true JP2005258068A (ja) 2005-09-22
JP4529492B2 JP4529492B2 (ja) 2010-08-25

Family

ID=34918493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004069436A Expired - Fee Related JP4529492B2 (ja) 2004-03-11 2004-03-11 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム

Country Status (2)

Country Link
US (1) US7440892B2 (ja)
JP (1) JP4529492B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217063A (ja) * 2008-03-11 2009-09-24 Toyota Motor Corp 信号分離装置及び信号分離方法
JP2009540344A (ja) * 2006-06-05 2009-11-19 イーエックスオーディオ アクチボラゲット ブラインド信号抽出

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060031067A1 (en) * 2004-08-05 2006-02-09 Nissan Motor Co., Ltd. Sound input device
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
JP4225356B2 (ja) * 2007-04-09 2009-02-18 トヨタ自動車株式会社 車両用ナビゲーション装置
TWI467568B (zh) * 2007-07-13 2015-01-01 Dolby Lab Licensing Corp 使用位準時變評估機率密度之時變音訊信號位準
US8442099B1 (en) 2008-09-25 2013-05-14 Aquantia Corporation Crosstalk cancellation for a common-mode channel
US9912375B1 (en) 2008-09-25 2018-03-06 Aquantia Corp. Cancellation of alien interference in communication systems
US8625704B1 (en) 2008-09-25 2014-01-07 Aquantia Corporation Rejecting RF interference in communication systems
US9118469B2 (en) * 2010-05-28 2015-08-25 Aquantia Corp. Reducing electromagnetic interference in a received signal
US8724678B2 (en) 2010-05-28 2014-05-13 Aquantia Corporation Electromagnetic interference reduction in wireline applications using differential signal compensation
US8891595B1 (en) 2010-05-28 2014-11-18 Aquantia Corp. Electromagnetic interference reduction in wireline applications using differential signal compensation
US8792597B2 (en) 2010-06-18 2014-07-29 Aquantia Corporation Reducing electromagnetic interference in a receive signal with an analog correction signal
US8861663B1 (en) 2011-12-01 2014-10-14 Aquantia Corporation Correlated noise canceller for high-speed ethernet receivers
US8929468B1 (en) 2012-06-14 2015-01-06 Aquantia Corp. Common-mode detection with magnetic bypass
CN106463125B (zh) * 2014-04-25 2020-09-15 杜比实验室特许公司 基于空间元数据的音频分割
WO2018105614A1 (ja) * 2016-12-06 2018-06-14 日本電信電話株式会社 信号特徴抽出装置、信号特徴抽出方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09160590A (ja) * 1995-12-13 1997-06-20 Denso Corp 信号抽出装置
JP2005031524A (ja) * 2003-07-09 2005-02-03 Denso Corp 音声信号抽出方法および音声認識装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US5157215A (en) * 1989-09-20 1992-10-20 Casio Computer Co., Ltd. Electronic musical instrument for modulating musical tone signal with voice
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
US5642464A (en) * 1995-05-03 1997-06-24 Northern Telecom Limited Methods and apparatus for noise conditioning in digital speech compression systems using linear predictive coding
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
US6308155B1 (en) * 1999-01-20 2001-10-23 International Computer Science Institute Feature extraction for automatic speech recognition
JP2000242624A (ja) 1999-02-18 2000-09-08 Retsu Yamakawa 信号分離装置
US6947890B1 (en) * 1999-05-28 2005-09-20 Tetsuro Kitazoe Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
US7571095B2 (en) * 2001-08-15 2009-08-04 Sri International Method and apparatus for recognizing speech in a noisy environment
US7328151B2 (en) * 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
US7054454B2 (en) * 2002-03-29 2006-05-30 Everest Biomedical Instruments Company Fast wavelet estimation of weak bio-signals using novel algorithms for generating multiple additional data frames
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09160590A (ja) * 1995-12-13 1997-06-20 Denso Corp 信号抽出装置
JP2005031524A (ja) * 2003-07-09 2005-02-03 Denso Corp 音声信号抽出方法および音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009540344A (ja) * 2006-06-05 2009-11-19 イーエックスオーディオ アクチボラゲット ブラインド信号抽出
JP2009217063A (ja) * 2008-03-11 2009-09-24 Toyota Motor Corp 信号分離装置及び信号分離方法
US8452592B2 (en) 2008-03-11 2013-05-28 Toyota Jidosha Kabushiki Kaisha Signal separating apparatus and signal separating method

Also Published As

Publication number Publication date
US7440892B2 (en) 2008-10-21
JP4529492B2 (ja) 2010-08-25
US20050203744A1 (en) 2005-09-15

Similar Documents

Publication Publication Date Title
JP4529492B2 (ja) 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
KR100578260B1 (ko) 인식장치및인식방법과,학습장치및학습방법
US8370139B2 (en) Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
US20050159945A1 (en) Noise cancellation system, speech recognition system, and car navigation system
US10262678B2 (en) Signal processing system, signal processing method and storage medium
EP1505571A1 (en) Car navigation system and speech recognizing device thereof
WO2012073275A1 (ja) 音声認識装置及びナビゲーション装置
JP2007279349A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US20140078867A1 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
KR101704510B1 (ko) 사운드 신호 처리 방법, 사운드 신호 처리 장치 및 상기 사운드 신호 처리 장치가 설치된 차량
JP4996156B2 (ja) 音声信号変換装置
JP2002236497A (ja) ノイズリダクションシステム
CN110675890B (zh) 声音信号处理装置以及声音信号处理方法
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법
JP4244524B2 (ja) 音声認証装置、音声認証方法、及びプログラム
JP4611823B2 (ja) 音声認識候補文字列選択装置
JP2006084664A (ja) 音声認識装置および音声認識プログラム
JP2006106300A (ja) 音声認識装置及びそのプログラム
CN117012216A (zh) 一种篇章级别语音转换方法、电子设备及存储介质
JP3817784B2 (ja) 音声認識装置および音声認識方法
Droppo et al. Quadratic Time–Frequency Features for Speech Recognition
JP2000322079A (ja) 音声認識装置及び音声認識方法
JPH10133683A (ja) 音声認識・合成方法及び音声認識・合成装置
JPH11212587A (ja) 音声認識における雑音適応方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140618

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees