JPH05232986A

JPH05232986A - 音声信号用前処理方法

Info

Publication number: JPH05232986A
Application number: JP4034737A
Authority: JP
Inventors: Hiroshi Ichikawa; 熹市川; Akio Amano; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-02-21
Filing date: 1992-02-21
Publication date: 1993-09-10

Abstract

(57)【要約】【構成】１ないし２以上のマイクロフォン１０３〜１０
５と、このマイクロフォンからの信号ないしその信号を
変換した信号を入力とするニューラルネットワーク・タ
イプのフィルタと、音声区間を検出する手段と、ニュー
ラルネットワークの結合係数を学習するための学習入力
として、マイクロフォンからの信号ないしその信号を変
換した音声及び雑音信号を各々一旦格納しておくための
内部メモリ１０９〜１１１とを有し、結合係数の学習に
は、事前学習モードにおける結合係数のデフォルト値を
事前に学習する第一の学習ステップと、利用モードにお
ける利用時に大きく変化する雑音条件に基づいて結合係
数のデフォルト値を修正学習する第二の学習ステップと
をもつように構成する。【効果】利用時の音声入力の直前の雑音状態に対し短時
間での適応的学習が可能となり、利用時に雑音条件が大
きく変化する場合にも十分にＳ／Ｎ改善の効果を発揮す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声処理装置における入
力音声の信号対雑音比（Ｓ／Ｎ）を改善するための前処
理方法に関する。

【０００２】

【従来の技術】従来、音声の信号対雑音比（Ｓ／Ｎ）を
改善するには、予め雑音の周波数特性を調べ、その成分
を差し引く方法があったが、それらは雑音の定常性を仮
定していた。また、日本音響学会講演論文集３−ｐ−１
３，ｐｐ２５３−２５４（昭和６３年５月）において報
告されているように、ニューラルネットワークを用いた
手法が論じられている。更に、本発明の発明者により考
案された、複数マイクロフォンとニューラルネットワー
クを組み合わせた方法（特開平2−72398号公報）等があ
る。

【０００３】

【発明が解決しようとする課題】上記ニューラルネット
ワークを用いた従来技術は、それ迄のサブトラクション
法などの手法に比べ優れたＳ／Ｎ改善性能を示している
が、相当規模の事前学習をしておく必要があるため、雑
音条件が利用時に大きく変化する場合は十分に効果を発
揮する事ができなかった。

【０００４】本発明の目的は、ニューラルネットワーク
を用いた従来技術の利点を活かしながら、雑音条件が利
用時に大きく変化する場合にも十分に効果を発揮する方
法の提供にある。

【０００５】

【課題を解決するための手段】上記目的を達成するため
に、本発明は少なくとも、事前学習モードと利用モード
とを有し、更に、少なくとも、１ないし２以上のマイク
ロフォンと、前記マイクロフォンからの信号ないしその
信号を変換した信号を入力とするニューラルネットワー
ク・タイプのフィルタと、音声区間を検出する手段と、
前記ニューラルネットワークの結合係数を学習するため
の学習入力として、前記マイクロフォンからの信号ない
しその信号を変換した音声及び雑音信号を各々一旦格納
しておくための内部メモリとを有し、前記ニューラルネ
ットワーク結合係数の学習には、事前学習モードにおけ
るニューラルネットワーク結合係数のデフォルト値を事
前に学習する第一の学習ステップと、利用モードにおけ
る利用時に大きく変化する雑音条件に基づいてニューラ
ルネットワーク結合係数のデフォルト値を修正学習する
第二の学習ステップとを有するように構成した。

【０００６】また、事前学習モードにおけるニューラル
ネットワーク結合係数を学習するための学習入力とし
て、前記マイクロフォンからの信号ないしその信号を変
換した音声及び雑音信号を各々内部メモリに一旦格納し
た後、オフラインでニューラルネットワーク結合係数デ
フォルト値を事前に学習するように構成した。

【０００７】この事前学習モードにおけるニューラルネ
ットワーク結合係数デフォルト値の事前学習用入力は、
音声信号と雑音信号が別々に入力され、内部で両者を組
合せ、雑音付加された学習用信号を生成する手段を有す
るように構成した。

【０００８】更に、利用モードでは、音声区間を検出す
る手段により雑音区間と判定された入力信号を雑音用内
部メモリに取り込み、音声信号は、事前学習モードに於
いて取り込まれ、音声用内部メモリに格納されている音
声を用い、内部で両者を組合せ、雑音付加された修正学
習用信号を生成し、前記ニューラルネットワーク結合係
数デフォルト値を結合係数の初期値として、オンライン
でニューラルネットワーク結合係数デフォルト値を修正
学習するようにニューラルネットワーク結合係数修正学
習方法を構成した。

【０００９】

【作用】少なくとも、事前学習モードと利用モードとを
有し、更に、少なくとも、１ないし２以上のマイクロフ
ォンと、前記マイクロフォンからの信号ないしその信号
を変換した信号を入力とするニューラルネットワーク・
タイプのフィルタと、音声区間を検出する手段と、前記
ニューラルネットワークの結合係数を学習するための学
習入力として、前記マイクロフォンからの信号ないしそ
の信号を変換した音声及び雑音信号を各々一旦格納して
おくための内部メモリとを有し、前記ニューラルネット
ワーク結合係数の学習には、事前学習モードにおけるニ
ューラルネットワーク結合係数のデフォルト値を事前に
学習する第一の学習ステップと、利用モードにおける利
用時に大きく変化する雑音条件に基づいてニューラルネ
ットワーク結合係数のデフォルト値を修正学習する第二
の学習ステップとを有するように構成し、事前学習モー
ドにおけるニューラルネットワーク結合係数を学習する
ための学習入力として、音声信号と雑音信号が別々に入
力され、前記マイクロフォンからの信号ないしその信号
を変換した様々な種類の音声及び雑音信号を各々内部メ
モリに一旦格納した後、内部にて両者を様々な組合せと
Ｓ／Ｎ条件に相当するように組合せ、雑音付加された学
習用信号を生成し、オフラインでニューラルネットワー
ク結合係数デフォルト値を事前に学習するように構成す
ることによって、長時間の処理が必要なニューラルネッ
トワーク結合係数の学習の大部分が事前に行われる。

【００１０】また、利用モードでは、音声区間を検出す
る手段により雑音区間と判定された入力信号を雑音用内
部メモリに取り込み、音声信号としては、事前学習モー
ドに於いて取り込まれ、音声用内部メモリに格納されて
いる音声を用い、内部で両者を組合せ、雑音付加された
利用時点での雑音条件での修正学習用信号を生成し、前
記ニューラルネットワーク結合係数デフォルト値を結合
係数の初期値として、オンラインでニューラルネットワ
ーク結合係数デフォルト値を修正学習するようにニュー
ラルネットワーク結合係数修正学習方法を構成した事に
よって、変動している雑音環境を利用時の音声入力の直
前の雑音の状態で適応的に短時間で学習が行われる。

【００１１】

【実施例】以下、図を用いて本発明の一実施例を説明す
る。

【００１２】図１は本発明の中心となるニューラルネッ
トワークによるＳ／Ｎ改善用のフィルタの構成を説明す
る図、図２は本発明によるフィルタ及び学習用のシステ
ムの説明図である。

【００１３】図２において、入力音声信号１０１及び雑
音１０２はマイクロフォン群２０１及び多重型アナログ
／デジタル変換器（Ａ／Ｄ）２０２を経てデジタル化さ
れスイッチＳ／Ｗ２０３に送られる。学習時にはスイッ
チＳ／Ｗ２０３は内部バス２０４を経てマイクロプロセ
ッサ２０５の制御により、一旦、メモリ２０６に格納さ
れ、マイクロプロセッサ２０５中の予め設定された手順
によりニューラルネットワークを学習する。学習された
結果はニューラルネットワークの各素子間の結合の重み
係数として得られる。この重み係数は信号線２０７を経
て、ニューラルネットワーク型のＳ／Ｎ改善フィルタを
構成するデジタル信号処理プロセッサＤＳＰ２０８に送
られる。デジタル信号処理プロセッサＤＳＰ２０８は重
みが既学習のニューラルネットワーク型のＳ／Ｎ改善フ
ィルタとなる。

【００１４】Ｓ／Ｎ改善フィルタとしてシステムを用い
る場合は、入力音声信号１０１はマイクロフォン群２０
１及び多重型アナログ／デジタル変換器（Ａ／Ｄ）２０
２を経てデジタル化されスイッチＳ／Ｗ２０３を経て、
直接、ニューラルネットワーク型のＳ／Ｎ改善フィルタ
を構成するデジタル信号処理プロセッサＤＳＰ２０８に
送られ、Ｓ／Ｎ改善された出力２０９が出力される。

【００１５】尚、図１は処理の流れを説明しており、図
２との関係は、学習時には図１の各部はマイクロプロセ
ッサ２０５及びメモリ２０６の中に仮想的に実現され、
Ｓ／Ｎ改善フィルタとして動作させる場合にはニューラ
ルネットワーク型Ｓ／Ｎ改善フィルタの構造がデジタル
信号処理プロセッサＤＳＰ２０８の中に構成される。ま
た、マイクロフォン群２０１や多重型アナログ／デジタ
ル変換器２０２がデジタル回線により遠方に設置される
ような構成も当然ありうる。

【００１６】以下の説明では、説明を簡単にするために
入力系を二つとするが、１或いは３以上でも同様に構成
できることは言うまでもない。

【００１７】以下、先ず図１を用いてＳ／Ｎ改善フィル
タとしての動作を説明し、その後に学習に付いて説明を
行う。

【００１８】図１に於いて、第ｐ層の第ｑ番目のニュー
ロン素子の出力をＯ（ｐ，ｑ），第（ｐ−１）層のｒ番
目の素子の出力をＯ（ｐ−１，ｒ），第ｐ層の第ｑ番目
のニューロン素子と第（ｐ−１）層のｒ番目の素子との
結合係数をｗ（ｐ−１，ｑ，ｒ）とする。また、各素子
の入力ｘと出力ｙの間の特性を、説明を簡単にするため
にみな同じとし（同一である必要はない）(１)式とする
と、(２)，(３)式と記述する。

【００１９】

【数１】ｙ＝ｆ(ｘ) （１）

【００２０】

【数２】Ｉ(ｐ，ｑ)＝Σｗ(ｐ−１，ｑ，ｒ)・Ｏ(ｐ−１，ｒ) （２）

【００２１】

【数３】Ｏ(ｐ，ｑ)＝ｆ(Ｉ(ｐ，ｑ)）（３）上記（２）式が示すように、積和計算が中心であり、本
処理はいわゆるデジタル信号処理プロセッサＤＳＰが得
意とするものが主体となっていることが分かる。本実施
例のニューラルネットワークは、（３）式の特性を持つ
ニューロン素子を多数階層的に接続したものであるが、
特に、この特性のニューラルネットワークに限定するも
のではない。また本実施例では４層のものを示したが、
特に、４層に限定するものでもない。

【００２２】雑音１０２と入力音声信号１０１が混合し
た入力信号はマイク１０３及びマイク１０４を経てアナ
ログ／デジタル変換器１０６及びアナログ／デジタル変
換器１０７によりデジタル信号化され、その出力はシフ
トレジスタ１１２とシフトレジスタ１１３に各々加えら
れる。シフトレジスタ１１２とシフトレジスタ１１３及
び後に説明するシフトレジスタ１２４はアナログ／デジ
タル変換器のサンプリング周期に同期して、順次、デー
タをシフトすると共に、シフトレジスタの格段のデータ
を出力する機能を有する。シフトレジスタ１１２とシフ
トレジスタ113の格段の出力はニューラルネットワーク
第一層（入力層）１１４の入力層素子群１１５と入力層
素子群１１６に加えられる。

【００２３】入力層素子群１１５と入力層素子群１１６
の出力はニューラルネットワーク第二層１１７の素子群
１１８に式（２），式（３）の関係で結合されている。
ニューラルネットワーク第二層素子群１１８とニューラ
ルネットワーク第三層１１９の素子群１２０，ニューラ
ルネットワーク第三層１１９の素子群１２０とニューラ
ルネットワーク第四層１２１の素子群１２２の間も同様
である。かく素子の間を信号が式（２），式（３）の関
係で処理されていくと、ニューラルネットワーク第四層
１２１（本実施例では出力層に相当）の素子群１２２か
らの出力端子群１２３からＳ／Ｎの改善された出力信号
サンプル値群１２８が出力される。出力端子群１２３の
任意の一つの端子の出力を外部出力として取り出せばＳ
／Ｎの改善された音声信号２０９（図２参照）が得られ
る。

【００２４】次に本発明のフィルタを構成するニューラ
ルネットワークの学習手順を説明しよう。

【００２５】学習には、良く知られているバックプロパ
ゲーション法を用いることができる。バックプロパゲー
ション法については、例えば、公知の文献、エム・アイ
・テイ・プレス社出版の“パラレル・ディストリビュー
テッド・プロセッシング第１巻”（１９８６）第８章
３１８−３６２頁（M. I. T. Press, “ParallelDisdri
buted Processing”vol.１(１９８６),Chap．８，ｐ
ｐ．３１８−３６２)に詳しく記述されている。

【００２６】説明の簡単化のために幾つかの記号を導入
する。ニューラルネットワーク第四層素子群１２２の出
力信号サンプル値群１２８をＯ（４，ｉ），ニューラル
ネットワーク第三層素子群１２０の出力値をＯ（３，
ｊ），ニューラルネットワーク第二層素子群１１８の出
力値をＯ（２，ｋ），学習入力としてニューラルネット
ワーク第四層素子群１２２に与える目標出力サンプル値
群１２５をＴ（４，ｉ）とする。バックプロパゲーショ
ンの過程で各素子毎に求まる誤差信号値についても、ニ
ューラルネットワーク第四層素子群１２２に対してδ
（４，ｉ），ニューラルネットワーク第三層素子群１２
０に対してδ（３，ｊ），ニューラルネットワーク第二
層素子群１１８に対してδ（２，ｋ）等とする。ニュー
ラルネットワーク第四層素子群１２２のｉ番目の素子と
ニューラルネットワーク第三層素子群１２０のｊ番目の
素子の間の結合係数をｗ（３，ｉ，ｊ），ニューラルネ
ットワーク第三層素子群１２０のｊ番目の素子とニュー
ラルネットワーク第二層素子群１１８のｋ番目の素子の
間の結合係数をｗ（２，ｊ，ｋ）と記す。また、各層の
各素子の特性は皆同一とし（３）式で述べた関係で記述
されるものとする。更に、関係ｆを微分したものをｆ′
と記す事とする。

【００２７】先ず、事前学習モードにおけるニューラル
ネットワーク結合係数のデフォルト値を事前に学習する
第一の学習ステップについて、図１により説明する。

【００２８】学習用の各種の入力音声信号１０１はマイ
ク１０５から、各種の雑音１０２はマイク１０３とマイ
ク１０４から別々に入力される。マイク１０５から入力
される各種の入力音声信号１０１は目標出力サンプル値
群Ｔ（４，ｉ）１２５に用いるものであり、音声信号の
みである。マイク１０５から入力される各種の入力音声
信号１０１はアナログ／デジタル変換器１０８でデジタ
ル化されメモリ１１１に、マイク１０３とマイク１０４
から入力される各種の雑音１０２は各々アナログ／デジ
タル変換器１０６とアナログ／デジタル変換器１０７で
デジタル化され、メモリ１０９とメモリ１１０（図２の
メモリ２０６の中の領域として設定される）に格納され
る。

【００２９】尚、マイク１０５とアナログ／デジタル変
換器１０８はマイク１０３とアナログ／デジタル変換器
１０６またはマイク１０４とアナログ／デジタル変換器
107と兼用しても良い。

【００３０】メモリ１１１に格納された学習用の各種の
入力音声信号１０１とメモリ１０９に格納された各種の
雑音１０２は加算器１２９で加算され、又同時にメモリ
111に格納された学習用の各種の入力音声信号１０１と
メモリ１１０に格納された各種の雑音１０２は加算器１
３０で加算され、各々、学習用入力として用いられる雑
音の重畳した音声信号として合成され、シフトレジスタ
１１２とシフトレジスタ１１３に加えられる。この重畳
処理は実際には図２のマイクロプロセッサ205の演算機
能を用いて行われる。

【００３１】雑音の重畳の程度（Ｓ／Ｎ）や組合せは、
予想される様々な条件のものを繰返し作成し、学習用入
力として用いられる。発声者とマイクロフォンの位置関
係が一定の範囲に限定される場合は、そのような条件下
で学習用音声や雑音を入力したり、又、その状況を想定
したマイクロフォン間のレベルや位相差を想定した学習
信号を内部で合成するとＳ／Ｎ改善効果は大幅に向上す
る。発声者の位置にある程度の範囲を許容したい場合
は、学習音声入力をその条件に合うように選定したり内
部で合成することが望ましい。これらの条件は内部で合
成生成によっても音響工学の原理から当業者には容易に
実現できる（発声者とマイクロフォンの距離による音声
信号の到着の遅れによる位相のシフト及びレベルの自乗
則による減衰を考慮すればよい。）。

【００３２】目標出力サンプル値群Ｔ(４，ｉ)１２５は
各種の入力音声信号１０１の中から学習入力として合成
に用いられた対応する入力音声信号であり、Ｓ／Ｎ改善
の結果として、ありたいと思う学習音声１２６である。
目標出力サンプル値群Ｔ(４,ｉ）１２５は、学習音声１
２６がシフトレジスタ１２４に入力されたもののシフト
レジスタ１２４の格段の出力となっており、ニューラル
ネットワーク第四層素子群１２２の各目標出力値として
与えられる。

【００３３】ニューラルネットワーク第一層（入力層）
１１４の各素子である入力層素子群１１５と入力層素子
群１１６に合成された学習用入力が入力されると、
（２）式及び（３）式の関係により、各素子の出力が入
力層から出力層に向け、順次、求められていく。各素子
の出力が求まると、出力層（ニューラルネットワーク第
四層１２１）からニューラルネットワーク第一層（入力
層）１１４に向け、順次、誤差信号を求めていく。第ｐ
層と第（ｐ−１）層との間の結合係数の修正は第（ｐ＋
１）層における誤差信号と第ｐ層における出力値を用い
て行う。ここでは結合係数ｗ（３，ｉ，ｊ）とｗ（２，
ｊ，ｋ）の修正過程を説明する。層が増えた場合も以下
同様の処理を入力層まで繰り返せば良い。

【００３４】結合係数ｗ（３，ｉ，ｊ）とｗ（２，ｊ，
ｋ）の修正過程に於いて、ニューラルネットワーク第二
層素子群１１８のｋ番目の素子の出力値Ｏ（２，ｋ），
ニューラルネットワーク第三層素子群１２０のｊ番目の
素子の出力値Ｏ（３，ｊ），およびニューラルネットワ
ーク第三層素子群１２０のｊ番目の素子の誤差信号値δ
（３，ｊ），ニューラルネットワーク第四層素子群１２
２に対してδ(４，ｉ)が必要となる。Ｏ（２，ｋ）とＯ
（３，ｊ）の値は、前述のようにニューラルネットワー
ク第一層（入力層）１１４の各素子である入力層素子群
１１５と入力層素子群１１６に合成された学習用入力を
入力することによりフォワードな計算により求めること
ができる。一方、δ（３，ｊ）とδ（４，ｉ）は次式に
従って算出することができる。

【００３５】

【数４】

【００３６】

【数５】

【００３７】尚、結合係数ｗの初期値は乱数で与えてお
く。

【００３８】次に、結合係数ｗ（３，ｉ，ｊ）とｗ
（２，ｊ，ｋ）の修正であるが、この修正量をそれぞれ
Δｗ（３，ｉ，ｊ），Δｗ（２，ｊ，ｋ）と記すと、こ
の修正量は次式によって算出することができる。

【００３９】

【数６】 Δｗ(３，ｉ，ｊ)＝α・δ(４，ｉ)・Ｏ(３，ｊ) （６）

【００４０】

【数７】 Δｗ(２，ｊ，ｋ)＝α・δ(３，ｊ)・Ｏ(２，ｋ) （７）ここでα実験的に収束速度を調べながら設定してやれば
良い。以下同様である。

【００４１】以上により、全ての結合係数が１回修正さ
れることになる。雑音の重畳の程度（Ｓ／Ｎ）や組合せ
を変えた、予想される様々な条件のものを学習用入力と
して作成し、以上の結合係数の修正の過程を行うことを
繰り返す。この繰返し毎に次式に示す評価値

【００４２】

【数８】Ｅ＝Σ(Ｔ(４，ｉ)−Ｏ(４，ｉ))²（８）を求め、これを全ての学習サンプルについて平均する。
この値が予め定めた閾値より小さくなった段階で学習が
完了したものとして事前学習モードを終了すれば良い。

【００４３】尚、入力信号を複素フーリェ変換などを行
い、周波数領域などの情報形態でニューラルネットワー
クに入力する方式なども当然ありうる。この場合は入力
層は周波数スペクトル情報と位相スペクトル情報、又は
実部と虚部の二次元配列にすれば良い。出力は周波数領
域の場合は波形領域に逆変換することになる。これらの
方式では領域変換はフーリェ変換とその逆変換の処理等
を挿入する必要があることは言うまでもない。

【００４４】次に利用時におけるオンラインの学習に付
いて説明する。

【００４５】（４）式から（８）式までの学習手順は事
前学習モードの場合と同じである。各結合係数ｗの初期
値は事前学習モードで得られている各結合係数値を用い
る。又、学習用の各種の入力音声信号１０１は事前学習
モードで用いた音声データをそのまま用いて良い。雑音
１０２のみが利用時にオンラインで取り込まれ、そのま
ま用いられる。このモードでは各種入力音声信号１０１
とオンラインで取り込まれた雑音１０２はそのまま組み
合わされ、学習用入力として用いられ、Ｓ／Ｎ条件の変
更した組合せは行わないので、学習すべきデータの量は
少ない。オンラインで取り込む雑音１０２は通常の音声
認識装置等で用いられている音声区間検出手順で、音声
とは逆の部分を取り出せば良いから、当業者には容易に
実現可能である。

【００４６】各結合係数ｗの初期値が事前学習モードで
得られている事と、学習すべきデータの量が少ないた
め、学習が完了するための処理量は大幅に少なくなり、
オンラインでの学習が可能となる。

【００４７】本実施例により、例えば、図３に示すよう
なシステムでは、(ａ) 本発明の前処理装置を用いたフ
ィルタ３０１を音声認識装置３０２の前に置くことによ
り認識結果３０３の正解度が向上、(ｂ) 本発明の前処
理装置を用いたフィルタ３０１を音声符号化装置３０４
の前に置くことによりＳ／Ｎの良い聞きやすい符号化音
声３０５が得られ、高騒音下での音声通信が可能、(ｃ)
本発明の前処理装置を用いたフィルタ３０１を一般の
各種音声信号分析装置３０６の前に置くことにより、高
騒音下での音声の変形（ロンバート効果と呼ばれる。一
般に発声者自身が騒音に対向すべく努力して発声するた
め、音声が普通とは異なった力んだものとなる）の観測
の実現が可能、等の効果が得られる。

【００４８】

【発明の効果】本発明によれば、長時間の処理が必要な
ニューラルネットワーク結合係数の学習の大部分が事前
に行われ、変動している雑音環境を利用時の音声入力の
直前の雑音の状態で適応的に短時間での学習が可能とな
り、雑音条件が利用時に大きく変化する場合にも十分に
Ｓ／Ｎ改善の効果を発揮する方法が提供された。

【図面の簡単な説明】

【図１】本発明の一実施例の中心部となるＳ／Ｎ改善フ
ィルタの構成と学習を説明するための系統図。

【図２】本発明部分を実現する装置の説明図。

【図３】本発明の応用システムの構成例の説明図。

【符号の説明】

１０１…入力音声信号、１０２…雑音、１０３〜１０５
…マイク、１０６〜１０８…アナログ／デジタル変換
器、１０９〜１１１…メモリ、１１２，１１３，１２４
…シフトレジスタ、１１４…ニューラルネットワーク第
一層、１１５，１１６…入力層素子群、１１７…ニュー
ラルネットワーク第二層、１１８…ニューラルネットワ
ーク第二層素子群、１１９…ニューラルネットワーク第
三層、１２０…ニューラルネットワーク第三層素子群、
１２１…ニューラルネットワーク第四層、１２２…ニュ
ーラルネットワーク第四層素子群、１２３…出力端子
群、１２５…目標出力サンプル値群、１２６…学習音
声、１２７…結線。

Claims

【特許請求の範囲】

【請求項１】少なくとも、事前学習モードと、利用モー
ドと、を有し、更に、少なくとも、１ないし２以上のマ
イクロフォンと、前記マイクロフォンからの信号ないし
その信号を変換した信号を入力とするニューラルネット
ワーク・タイプのフィルタと、音声区間を検出する手段
と、前記ニューラルネットワークの結合係数を学習する
ための学習入力として、前記マイクロフォンからの信号ないしその信号を変換し
た音声及び雑音信号を各々一旦格納しておくための内部
メモリと、を有し、前記ニューラルネットワーク結合係数の学習には、事前
学習モードにおける、ニューラルネットワーク結合係数
のデフォルト値を事前に学習する第一の学習ステップ
と、利用モードにおける、利用時に大きく変化する雑音
条件に基づいてニューラルネットワーク結合係数のデフ
ォルト値を修正学習する第二の学習ステップとを有する
ことを特徴とする音声信号用前処理方法。
【請求項２】請求項１において、事前学習モードにおけ
るニューラルネットワーク結合係数を学習するための学
習入力として、前記マイクロフォンからの信号ないしそ
の信号を変換した音声及び雑音信号を各々内部メモリに
一旦格納した後、オフラインでニューラルネットワーク
結合係数デフォルト値を事前に学習するニューラルネッ
トワーク結合係数デフォルト値学習方法。
【請求項３】請求項２において、前記事前学習モードに
おけるニューラルネットワーク結合係数デフォルト値の
事前学習用入力は、音声信号と雑音信号が別々に入力さ
れ、内部で両者を組合せ、雑音付加された学習用信号を
生成する手段を有するニューラルネットワーク結合係数
デフォルト値学習方法。
【請求項４】請求項１において、利用モードの音声区間を検出する手段により雑音区間と
判定された入力信号を雑音用内部メモリに取り込み、音
声信号は、事前学習モードに於いて取り込まれ、音声用
内部メモリに格納されている音声を用い、内部で両者を
組合せ、雑音付加された修正学習用信号を生成し、前記
ニューラルネットワーク結合係数デフォルト値を結合係
数の初期値として、オンラインでニューラルネットワーク結合係数デフォル
ト値を修正学習するニューラルネットワーク結合係数修
正学習方法。