JPH04505372A - 波形の分析 - Google Patents

波形の分析

Info

Publication number
JPH04505372A
JPH04505372A JP2507984A JP50798490A JPH04505372A JP H04505372 A JPH04505372 A JP H04505372A JP 2507984 A JP2507984 A JP 2507984A JP 50798490 A JP50798490 A JP 50798490A JP H04505372 A JPH04505372 A JP H04505372A
Authority
JP
Japan
Prior art keywords
channel
threshold
output
amplitude
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2507984A
Other languages
English (en)
Inventor
パターソン ロイ ダンバー
ホールズワース ジョン ウィルフレッド
Original Assignee
メディカル リサーチ カウンシル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by メディカル リサーチ カウンシル filed Critical メディカル リサーチ カウンシル
Publication of JPH04505372A publication Critical patent/JPH04505372A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/35Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using translation techniques
    • H04R25/356Amplitude, e.g. amplitude shift or compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Otolaryngology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Holo Graphy (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 波形の分析 (技術分野) 本発明は波形の解析に関連し、さらに特定するとスペクトル的に分解された波形 の二次元適応閾値化(two dimensionaladaptjve th resholding)に関連し、またそのような装置、特に帯域通過チャネル 周波数フィルタバンクと共に使用する装置にも関連している。
(背景技術) 波形の分析は音波(sound wave) 、および補聴器(hearing aids)での分析や音声認識系の使用に特に適用可能である。いくつかの音波 プロセッサは音声波(speech wave)を個別周波数チャネルに分割す ることにより分析処理を開始し、それはフーリエ変換法の使用によるか、あるい は多少なりとも人間の聴覚系で遭遇するフィルタリングを模擬するフィルタバン クの使用のいずれかによっている。
フィルタバンクの使用で遭遇する主要な問題の1つは、フィルタバンクの出力が 入力音声波、すなわちソースの詳細を組み込むのみならず、フィルタバンクそれ 自身の特性である特徴も組み込むことである。フィルタバンクにより元来生起す るフィルタバンクの出力の特徴は、スペクトル的かつ時間的法がりと、入力に対 するスミアリングを含んでいる。
整合フィルタがフィルタバンクのすべての次元、すなわち時間とスペクトルの双 方で生起する効果を打ち消さなくても、フィルタバンクにより元来生起する効果 を打ち消す整合フィルタが知られている。さらに、整合フィルタはフィルタバン ク効果を複製するがそれを逆にし、かつフィルタバンクの出力のソースであるた め実際の情報に敏感でないかあるいはそれに応答しない。
最初に検出される不要な「雑音」がフィルタバンクの出力から制限されるかある いは除去され、かつ分析されている音声波のさらに重要な特徴が強調される有効 な音声分析もまた必要である。
フィルタバンクに存在する信号のダイナミックレンジは非常に大きい。その結果 として、分析の第2段階はダイナミックレンジの圧縮を共通的に含んでいる。た とえ圧縮がしばしば本質的であっても、それはさらに次の2つの問題、すなわち フィルタバンクの出力の特徴を広げ、かつ2つの隣接する特徴の間のコントラス トを低減するという問題を生起する。
(発明の開示) たとえ本発明が種々の波あるいは機械的振動に適用できても、本発明は音波の分 析に特に適している。本発明は音声の音楽的性質を表す音波の分析に適用可能で ある。音声の場合に、本発明は音声認識系に特に有用であり、そこでは低減され たダイナミックレンジの尖鋭化されたスペクトル的および時間的特徴の記録を生 成し、それは音声の発声部分を表す周期信号と、雑音であるかも知れない周期信 号との間の区別を助けよう。
従って本発明はフィルタバンクの出力の二次元適応閾値化の方法と、すべての次 元でフィルタバンクにより元来生起したフィルタバンクの出力のそれらの特徴を 同時に除去し、フィルタバンクの出力から不要な「雑音」を除去し、ソースであ るためにフィルタバンクの出力に現れる特殊な特徴を強調し、かつフィルタバン クの出力の圧縮のためにスミアリングを打ち消す装置を備えることを探求してい る。
本発明は複数の周波数チャネル出力に波形をスペクトル的に分解し、上記の出力 の振幅を検出し、かつ上記の振幅を各振幅検出に対する閾値と比較することを具 える波形の分析方法を備え、各チャネルに対する上記の閾値は(1)同じチャネ ルにおける以前の振幅検出と、(2)隣接周波数チャネルの振幅検出とに依存し て変化し、それにより上記の閾値に対する振幅検出を表す複数の出力信号を備え ている。
本発明は連続する振幅検出が各チャネルで実行され、各チャネルの閾値が以前の 検出における複数のチャネルから導かれた振幅値に依存して変化する方法をさら に備え、またもしも隣接チャネルが長い閾値を有するなら適応閾値を形成するよ う各チャネルの各閾値が増大される方法を備えている。さらに、本発明は各検出 の実行の後で、もし比較される閾値より検出値が大きいなら、訂正閾値を形成す るよ゛う各チャネルの各閾値が増大される方法を備えている。
本発明は各チャネルの各閾値が、周波数領域にわたりチャネルを横切る第1方向 と連続検出に従う第2方向で減衰するよう配設され、かつ波形がフィルタバンク の使用によりスペクトル的に分解され、上記の双方の方向での減衰率が上記のフ ィルタバンクの各周波数チャネルの出力の自然減衰率より小さいような方法を備 えていることが好ましい。
本発明の第2!Q様は、複数の周波数チャネル出力に波形をスペクトル的に分解 する分解手段(resolving means) ;上記の出力の振幅を検出 し、かつ上記の振幅を各振幅検出するための各閾値と比較する上記の分析手段に 連結された比較手段(comparative means) ;上記の分解手 段と上記の比較手段に連結された適応手段(adaptjve means)で あって、ここで上記の適応手段は(1)同じチャネルの以前の振幅検出と、(2 )隣接周波数チャネルの振幅検出に依存して各チャネルの上記の閾値を変更する もの:および上記の閾値に対して振幅検出を表す複数の出力信号を発生する発生 手段であって、ここで上記の発生手段は上記の分解手段と上記の適応手段とに連 結されているものとを具える波形分析装置を備えている。
本発明は、上記の比較手段が同じチャネルで検出された振幅から各チャネルの各 閾値を減算する減算デバイスであり、減算の結果が正の差であればいつでも上記 の発生手段が出力信号を発生する装置、および各チャネルで各閾値を隣接チャネ ルの閾値と比較し、かつもしも隣接チャネルが大きい閾値を有するなら適応閾値 を形成するよう各閾値を増大する第1セレクタを含む装置をさらに備えている。
本発明は、上記の適応手段が、各チャネルで各閾値を同じチャネルで検出された 振幅と比較し、かつもしも検出値が比較される閾値よりも検出振幅が大きいなら 、訂正閾値を形成するよう各閾値を増大する第2セレクタをさらに含んでいる。
本発明は音波を分析するための以前記述された装置を含む補聴器をさらに備え、 ここで出力音波を形成するよう各周波数チャネルの信号をお互いに結合する上記 の適応閾値装置に連結された結合手段がさらに備えられている。
本発明は補聴器をさらに備え、そこでは分解手段は各チャネルの2つの出力を備 え、それらは波形チャネル出力である第1出力と、波形チャネル出力の包絡線関 数である第2出力であり、かつ結合手段はゲートされた出力信号を形成するよう 各波形チャネル出力に各周波数チャネルの出力信号を印加するために、上記の適 応閾値装置と上記の分解手段に連結されたゲーティング手段;および出力音波を 形成するよう各周波数チャネルの上記のゲートされた入力信号を加算するために 、上記のゲートされた手段に連結された加算手段を備えている。補聴器デバイス が、上記の適応閾値装置、上記の分解手段および上記のゲートされた手段に連結 された開開手段をさらに備えることが好ましく、ここで出力音波の大きさの変動 量が開園できるように上記の各出力信号に対して各周波数チャネルの上記の包絡 線関数をスケーリングしている。
本発明は、音波の音声分析に使用する構文的(syntactic)かつ意味論 的(semantic)制限を与える構文・意味論プロセッサとともにチャネル 波形の分析からの聴覚特徴抽出(auditoryfeature extra ction)を備える手段とともに、これまで述べられた装置を含む音声認識装 置をさらに備えている。
本発明の実施例を、添付図面を参照して実例によって説明する。
(図面の簡単な説明) 第1図はフィルタバンクへの入力信号を示している。
第2図は第1図の入力信号に応答するフィルタバンクの1つのチャネルの出力を 示している。
第3図は本発明による動作変数の時間経過による第2図の圧縮出力を示している 。
第4図は本発明による第3図の適応出力を示している。
第5図はフィルタバンクへの入力信号を示している。
第6図は第5図の入力信号に応答するフィルタバンクのすべてのチャネルにわた る理想化された出力を示している。
第7図は本発明による動作ラインによる第5図の入力信号に応答するフィルタバ ンクのすべてのチャネルにわたる出力を示している。
第8図は本発明による第7図の適応出力を示している。
第9図は本発明による二次元適応閾値化方法の略図である。
第1θ図は第1図の入力信号に応答するフィルタバンクのすべとのチャネルの出 力の三次元面である。
第11図は圧縮後の第10図の出力の三次元面である。
第12および第14図は本発明による第11図の圧縮出力に応答する三次元動作 面である。
れの適応出力の三次元面である。
第16図は本発明による適応閾値装置の回路図である。
第17図は本発明による音声認識装置の略図である。
第18図は本発明による適応閾値装置を含む補聴器デバイスの略図である。
(実施例) フィルタバンクの出力の二次元適応閾値はフィルタバンクにより、およびフィル タバンクの出力の圧縮により元来生起した問題を除去ないし制限する。第1図か ら第8図までは、いかに出力信号がフィルタバンクにより変更され、かつ第1に 時間領域と、第2に周波数領域でそれぞれ圧縮により変更され、かついかに時間 領域と周波数領域でそれぞれ変更された信号の適応閾値が元の入力信号のさらに 正確な表現を生成するかを示している。
第1図では、時間と共にに進行する入力複合信号が示され、そこでは1つのイン パルスと共振を通過する1つのインパルスとが存在し、第2のものは第1のもの の20m5後で始まっている。
Y軸は波の振幅である。複合信号が1.0KHzに中心をおく帯域通過フィルタ を通過する場合、フィルタからの合成出力信号は第2図に示されている。複合信 号を形成する2つのインパルスが広げられ、その結果として2つのインパルスは それらの間を区別するのがずっと困難であることか分がろう。この広がりはフィ ルタのインパルス応答により生起し、かつフィルタバンクにより実行されたスペ クトル分解のプロセスの不可避な副産物である。第3図はフィルタの整流されか つ対数的に圧縮された出力を示し、Y軸はデシベルで示した波の振幅を与えてい る。
複合信号を形成する2つのインパルスは多分後続する圧縮があっても区別するの に再び困難である。
フィルタのインパルス応答の減衰率は負の指数的であり、かつ圧縮器がフィルタ の出力に対数関数的に適用されるから、合成減衰関数は負の傾斜を持つ直線であ る。共振器を通過した第2インパルスはフィルタバンク出力をもっとゆっくり減 衰させ。
かつ第1インパルスを第2インパルスから区別するのはこのもっとゆっくりした 減衰率である。適応閾値はフィルタのインパルス応答に対してフィルタの出力を 測定することにより2つのインパルス間を区別する。第4図はフィルタの出力の 適応閾値の結果を示しており、かつ2つのインパルス間の差は明確に見ることが できる。フィルタの出力の適応閾値化を達成するために、動作変数(worki ng variable)がフィルタの出力に応じて連続して変化し、かつフィ ルタ出力に対する動作変数の値は第3図の点線のように見ることができる。動作 変数のアレイは動作ライン(working 1ine)を形成し、その時間経 過は三次元の動作面(workjng 5urface)を形成する。
第5図では複合信号は時間的進行が示されているが、しかしツ この場合、信号 は一方が1000Hz、他方が2300Hzである2つの正弦波成分から構成さ れている。しかし後者の正弦波成分は前者よ/)24dBも弱く、従って高周波 成分が非常に小さいと言う理由で合成信号は本質的に1kHz正弦波である。第 6図は複合信号の長期(long−term)あるいは理想化されたスペクトル を示している。複合信号に対する1時点における全フィルタバンクの応答の包結 線が第7図に示され、かつそこから分かるように周波数スペクトルにわたるフィ ルタバンク出力は理想からずっと離れている。再び、周波数領域の尖頭値の広が りは合理的な時間応答を有し、かつ永久に積分できないフィルタバンクの不可避 な性質である。
適応閾値化装置はフィルタバンクの出力の周波数領域のスペクトル的特徴を検出 し、かつフィルタバンクのスミアリング効果を考慮する。第8図はフィルタバン クの出力の適応閾値化の後の合成信号を示し、かつそれから分かるように合成出 力はフィルタバンク出力よりも第6図の理想スペクトルにもっと近い。
第7図の点線はこの時点でフィルタバンクの出力に応答するフィルタバンクのチ ャネル毎の動作変数の値を示している。
その上、時間領域あるいは周波数領域あるいはその双方のいずれかのフィルタバ ンク出力に対するその応答が設定され、従ってフィルタバンクのチャネルにわた る減衰速度より動作変数の値が局部最大値からさらにゆっくりと落ちるように適 応閾値装置が配設できる。このことは抑制された大きな特徴の領域でフィルタバ ンク出力に現れる小さい特徴となる。このことは「雑音」がまたこのようなやり 方で抑制できることで有用である。
時間領域と周波数領域の双方での適応閾値装置の作用の同時。
結合により、二次元適応閾値化が達成される。
第9図はフィルタバンクからの出力を閾値化する方法の略図である。第9図はフ ィルタバンクの3つのチャネルを示している。フィルタバンクはそれらの中心周 波数で並べられたフィルタを存し、かつ各チャネルの帯域幅は500Hzにおけ る約70Hzから4.000Hzにおける約380Hzの中心周波数をもって増 大している。入力波形(1)は帯域通過フィルタバンク(2)に入力され、その 3つの隣接チャネルであるチャネルi、j、kが第9図に示されている。チャネ ルjを考慮すると、そのチャネルのフィルタバンクの出力は圧縮器(3)に入力 され、それはチャネルjのフィルタの出力に対数圧縮を遂行する。圧縮器(3) の出力は点線の矩形により第9図に描かれた適応閾値デバイス(4)への入力で ある。
適応閾値装置(4)は2つの出力を生成する。第1出力は入力波形(1)の分析 に使用できる適応されたか、あるいは&!値化された出力(5)である。第2出 力は動作変数あるいは閾値(6)であり、それはチャネルのフィルタ出力の適応 閾値化に使用される。各時点ですべてのチャネルからの閾値化出力の組は周波数 ベクトルを形成し、時間が経つと周波数ベクトルは出力面として参照される三次 元の面を発生する。同様に、各時点におけるすべてのチャネルからの動作変数の 組は周波数ベクトルを形成し、時間が経つと動作面として参照される三次元の面 を発生する。
適応閾値装置(4)は3つの入力(8,9,10)から最大値を選択する第1セ レクタ(7)を有している。第1セレクタ(7)はまた第4人力(11)を有し 、それはr雑音J出力に応答しかつそれを発生することから適応閾値装置(4) を防ぐよう領域摂界を入力する。第1セレクタ(7)からの適応閾値あるいは適 応動作変数の形をした出力は減算デバイス(12)と第2セレクタ(13)に別 々に入力される。圧縮器(3)の出力はまた減算デバイス(12)と第2セレク タ(13)にも入力される。
減算デバイス(12)は圧縮器(3)から受信された入力から、第1セレクタ( 7)より受信された入力を減算する。もし2つの入力の間に正の差が存在するな ら、減算デバイス(12)は2つの入力の間の差に等しい出力を発生する。減算 デバイス(12)からの出力は出力信号間値化出力(5)である。第2セレクタ (13)は訂正閾値の形をしたその出力として受信された2つの入力の最大値を 選択し、そして第2セレクタ(13)の出力は動作変数(6)である。
第2セレクタ(13)の出力である動作変数は遅延デバイス(14)に入力され る。遅延デバイス(14)は第1低減手段(reducing means)  (15)に連結され、かつ第1低減手段(15)は第1セレクタ(7)の入力( 10)に順次連結される。遅延デバイス(14)は1サンプリング期間だけ動作 変数の入力を第1セレクタ(7)に遅延し、従って第1セレクタ(7)が入力( 8) 、(9) 、(10)の間の最大値を選択する場合に入力(lO)は以前 のサンプルからの動作変数である。しかし、動作変数はまた第1セレクタ(7) の入力(lO)に入力される以前に第1低減手段(15)により低減される。
第1低減手段(15)は所定の率だけ動作変数を減少し、その率はフィルタバン クのインパルス応答により時間領域にフィルタバンクによって生成されたスミア リングに比例している。
第1セレクタ(7)の入力(8)と(9)はそれぞれ第2低減手段(16a)と (16b)に連結されている。2つの隣接チャネルiとjの第2セレクタ(13 )からの出力はそれぞれ第2低減手段(16a)と(16b)に入力される。第 2低減手段(16a)と(16b)への入力は周波数領域のフィルタバンクによ り生起されたスミアリング応答に比例している所定の率で減衰される。
同様に、第2セレクタ(13)からの出力である動作変数もまたチャネルiとk の対応第2低減手段に入力される。
動作において、第9図のフィルタバンク(2)への入力波形として第1図に示さ れた複合信号を考慮する。第1O図はフィルタバンクのチャネルのすべての出力 により発生された三次元面を時間の関数として示している。時間は面の左側縁部 から右側縁部に進行し、かつチャネル中心周波数は面の底部から頂部に進行する ように増大する。図面の底部に平行な面を通る各スライスは個別チャネルフィル タの出力を示している。例えば、複合信号の第2インパルスにより生成されたり ッジを通過する第10図の中心を通るスライスは第2図に示されたものと同じで ある。
時間的に非常によく規定されているインパルスがフィルタバンクを通過する場合 、その結果はあまりよく規定されないことを第1θ図の左側部分が示している。
これはスペクトル分析を実行するためにフィルタは時間にわたって積分しなけれ ばならず、かつフィルタ応答が減衰できる率を積分が制限するという事実の直接 の結果である。
フィルタバンク出力に応答するすべての圧縮器(3)の出力の応答が第11図に 示されている。第1インパルスに応答する圧縮器(3)の出力の応答は第11図 の左側部分に示され、ここで圧縮プロセスが時間的スミアリングに付加している ことが分かる。複合信号の第2インパルスは時間的によく規定される開始(on set)を有し、その上、周波数的によく規定され特徴を有し、そしてこの場合 に、信号の双方の悪様を同時に確認できることが希望される。第11図の右側部 分において、圧縮器がフィルタバンクにより導入されたスミアリング問題に付加 され、かつスミアリング問題が時間領域ならびに周波数領域にも存在することが 再び分かる。
二次元適応閾値化において、圧縮器(3)の出力は各チャネルに対する一組の動 作変数(6)を構成するのに使用される。
複合信号に応答するこれらの変数のアレイの時間経歴により生成された動作面は 第12図に示されている。それは系への入力の平滑化された変形であり、かつそ れはこの信号の二次元適応閾値であるこの面である。圧縮器(3)の出力がこの 閾値を越える場合に、減算デバイス(12)は出力を生成する。第13図は複合 信号の出力面を示している。インパルスに対する応答が時間的にさらに制約され 、かつ開始に対する応答と複合信号の第2インパルスの共振がまた時間的かつ周 波数的にそれぞれさらに良好に規定されることが分かる。
第13図において、複合信号の第2インパルス(第11図)に応答して圧縮器( 3)の出力の1つの高いチャネルに3つの小さい雑音成分を見ることができる。
これらの3つの雑音成分はフィルタにより導入され、かつそのチャネルの圧縮器 により増大された。適応閾値装置の圧力においてこれらの雑音成分はさらに増大 される。そのような小さい雑音特徴の増大を防ぐために、適応閾値装置が動作で きる範囲が制限されている。この制限の結果は第14図と第15図に示されてい る。第14図の動作面は本質的に第12図に示されたものと同じであるが、ただ し高周波チャネルが同じ程度で減衰しない点は別である。第15図において、一 度範囲制限が課せられるなら、雑音成分はもはや閾値を超過せず、従って出力面 に現れない。
第16図はフィルタバンクの出力の適応閾値化を遂行するのに必要な回路のタイ プの一例として適応閾値装置の回路を示している。前と同様に、第16図は適応 閾値装置の3つのチャネルを示している。各ケースで、圧縮器(3)を後続する 帯域通過フィルタ(2)と、動作変数 (6)を発生する回路およびこのチャネルの系出力(5)が存在する。アナログ 回路において、動作変数(6)は「動作電圧(working voltage ) Jとして参照された電圧である。
電流が各チャネルの非常に小さい抵抗(17)を流れる場合に出力が生成される 。これは前にも述べられたように動作変数が圧縮器(3)から到来する入力によ り上昇される場合に生成される出力に等価である。圧縮器(3)の丁度あと、か つ抵抗(17)の前でダイオード(I8)は圧縮器(3)からの入力が動作電圧 を上昇するだけであり、決して低下しないことを保証する。圧縮器(3)からの 入力が動作電圧より小さい場合、電圧はキャパシタ(19)による時間だけ維持 される。電圧は大きい抵抗器(20)を通してゆっ(りと消散しよう。前も参照 されたように、「雑音」に対する系の感度を限定するために使用される「範囲限 界」まで電圧が低下する。
隣接チャネルの動作電圧間の相互作用は低い抵抗(21)を通してチャネルを接 続することにより実行される。周波数領域のアナログ回路の動作は、もし第9図 のブロック線図が事実上実現されるなら達成されるものよりいくらか異なってい る。このブロック線図の場合には、周波数チャネルにわたって動作変数が降下で きる率は一定であり、すなわち、それはチャネル距離の関数として閾値の線形降 下を生成する。アナログ回路の場合には、動作変数が落ちる率は局部最大値から さらに進行するもののように減少する。関数の形状は破線によりwX7図に示さ れている。このようなやり方で計算された動作面はフィルタ応答に対して直線よ りも良好に整合する。
たとえ上の例において第1セレクタ(7)が隣接チャネルの゛みから第2低減手 段(16a)と(16b)を介して入力を受信したとしても、特定チャネルの第 1セレクタ(7)に動作変数を供給することは特定チャネルの周波数近傍内の2 つ以上のチャネルで可能である。このように、すべてのチャネルの動作変数は3 つ以上のチャネルのフィルタバンクチャネル出力により影響できる。
この方法と装置の使用の1つは音声波形の分析であろう。しかし、音楽、機械雑 音および他の複雑な波形の分析にも有用であろう。
さて第17図を参照すると、音声認識系の略図がそこに示されている。音声認識 装置は周囲の空間から音声を捕獲し、かつ音響波(acoustic wave )により伝えられた語の整列記録(ordered record)を生成する 系である。そのようなデバイスの主要成分は: (a)音響波を周波数チャネル に分割するフィルタバンク、(b)ピッチや他の音声の特徴を抽出するためにチ ャネルの情報を処理する一組のデバイス、および(C)何が元々言われたかを決 定する言語学的(liguistic)および(多分)意味論的知識と共に特徴 を分析する言語学的プロセスである。
音声認識を目的とする音声の最も重要な部分は音声の発声部分、特に母音である 。発声音は声帯の開閉による喉と口の空気柱(air column)の振動に より生成される。発声された合成音はその性質として周期的で、音のピッチは声 門振動の周波数である。各母音はまた4つのフォルマントの個別配列を有し、フ ォルマントは母音のピッチの優勢変調高調波(dominantmodulat ed harmonies )であり、かつ4つのフォルマントの相対周波数は 母音の特性であるのみならず、話し手の特性でもある。有効な音声認識系に対し て、発声音のピッチとフォルマントについての多くの情報が保留され、同時に他 の「雑音」がピッチとフォルマントの明確な切れ込み(1ndentffica tion)で干渉されないことを保証することが必要である。
第17図に示された音声認識系は帯域通過フィルタ(2)への入力である音声波 (1)を受信する。帯域通過フィルタのバンク(2)は24個の周波数チャネル を備え、それらは100Hzの低い周波数から3700Hzの高い周波数まで変 化する。もちろん周波数のもっと広いあるいは狭い範囲にわたるさらに多くのチ ャネルフィルタもまた使用できる。すべてのこれらのチャネルからの信号は適応 閾値装置 (22)のバンクに入力される。これらの適応閾値装置(22)は入 力情報を圧縮かつ整流し、かつまた入力情報の特性上の特徴を尖鋭にし、かつ「 雑音」の効果を低減する。適応閾値装置(22)により各チャネルに発生された 出力はフィルタバンク(2)の各チャネルにより伝送された波形の主要ピーク形 成についての情報を与える。するとこの情報は安定化影像発生器(23)のバン クにフィードされる。安定化影像発生器は入力パルス流の安定化表現あるいは影 像を生成するためにパルス流の形で情報のトリ°ガーされた積分により入来情報 を適応する。パルス流の安定化影像は安定化入力影像の周期性を検出する循環周 期性検出器(spiral periodicity detector)(2 4)のバンクに入力され、かつこの情報はピッチ抽出器(25)にフィードされ る。ピッチ抽出器(25)はやんせい波(1)のピッチを確立し、かつこの情報 を聴覚特徴抽出器(27)に入力する。安定化影像発生器(23)のバンクはま た音色抽出器(tfmbre extractor) (26)に入力される。
音色抽出器(26)はまた音声波(1)の音色に関する情報を聴覚特徴抽出器( 27)に人力する。その上、適応閾値デバイス(22)のバンクからの聴覚特徴 抽出器(27)への直接入力が存在しよう。聴覚特徴抽出器(27) 、構文プ ロセッサ(28)および意味論プロセッサ(29)の各々は語の整列記録の形で 順次圧力(31)を与える言語プロセッサ(liguistic proces sor) (30)への入力を備えている。
循環周期性検出器(24)は英国特許第2169719号に記載され、ここでは それ以上取り扱われないてあろう。聴覚特徴抽出器(27)は種々の音色アレイ のテンプレートを備えるメモリデバイスを統合している。それはまたピッチ抽出 器(25)により横比された周期性特徴の表示を受信する。聴覚特徴抽出器(2 7)への入力がスペクトル次元を有し、従って特徴抽出器が他の音声系のような フォルマント情誼に基づいて母音区域(vowe Idistriction) を作ることができる。同様に、特徴抽出器は準スペクトル基準(quasi−s pectral basis)に基づいて/f/や/ S /のような摩擦音の 間の区別ができる。現在の装置の1つの利点は、積分が起こる場合に時間情報が 周波数チャネルに保持されることである。
言語プロセッサ(30)は聴覚特徴抽出器(27)からの入力ならびに言語の規 則を蓄積し、かつあいまいさの回避の助けるために制限を課す構文プロセッサ( 28)からの入力を導く。プロセッサ(30)はまた文脈に依存して特定の解釈 の決定の助けとなるように文脈に依存して制限を課す意味論プロセッサ(29) からの入力を受信する。
上記の例において、ユニット(23)、(24)、(25)および(26)の各 々はプログラムに従ってパルス信号を処理するよう配設されたプログラムされた 計算デバイスを具えている。特徴抽出器(27)とプロセッサ(28)、(29 )、(30)および(31)の各々はプログラムされた計算機を具えるか、ある いは所望の構文規則もしくは意味論規則および音色抽出器で使用するテンプレー トを蓄積するメモリ手段を持つプログラムされた計算機を備えている。
この機構は一層の適用範囲を有している。波形の適応閾値化は元の信号より大き い信号対雑音比を存する理想化された信号の再合成を可能にする形をしているか ら、理想化された信号は聴覚が損なわれた人々にさらに理解可能であるべきであ る。このように、適応閾値装置は聴覚援助部分として使用できる。
適応閾値装置は多重チャネル、圧縮補聴器の性能の改蕾に使用できる。適応閾値 装置の各チャネルの出力はいつチャネルが潜在信号情報を有するかを表示する。
この信号情報はそのチャネルのフィルタ出力をゲートするために使用でき、その チャネルの雑音を押割するために編集波形を生成する。すべてのチャネルからの 編集された波形の組は信号情報の理想化されたバージョンを有する波形を生成す るよう再結合できる。信号のこの理想化されたバージョンは聴覚が損なわれた人 々にさらに理解可能であるべきである。
適応閾値装置を統合した補聴器デバイスが第18図にブロック線図として示され 、それは第9図に示されたものと同様な構造を有している。この場合、圧縮器( 3)に向かうフィルタバンク(2)の出力は波形それ自身よりはむしろフィルタ バンク信号の包絡線である。しかし帯域通過フィルタの出力波もまた適応閾値装 置(4)の先にある乗算器(32)に直接向かっている。
適応閾値装置(4)の入力である圧縮器(3)の出力もまた適応閾値装fit’ (4)を飛び越してスケーリングデバイス(33)に向かっている。スケーリン グデバイス(33)のスケーリング係数は生起する信号量の正規化の#御を備え ている。スケーリングデバイス(33)の出力は減算デバイス(34)により適 応閾値装置(4)の閾値出力から減算される。この動作の結果は逆対数デバイス (35)を通して拡大され、かつその結果は乗算器(32)への第2人力を形成 する。乗算器(32)の出力は信号の性質が増大された帯域通過フィルタ出力の ゲートされたバージョンである。すべてのチャネルの出力は、結合されたすべて のチャネルからの信号の性質を有する波形を形成するため加算デバイス(36) により一緒に加算され、そして補聴器デバイスの出力を形成するのはこの波形で ある。
FIG、17゜ 補正書の写しく翻訳文)提出書(特許法第184条の8)平成3年11月15日

Claims (24)

    【特許請求の範囲】
  1. 1.複数の周波数チャネル出力に波形をスペクトル的に分解し、上記のチャネル 出力の振幅を検出し、かつ上記の振幅を各振幅検出に対する各閾値と比較するこ とを具える波形の分析方法において、各チャネルに対する上記の閾値は(1)同 じチャネルにおける以前の振幅検出と、(2)隣接周波数チャネルの振幅検出と に依存して変化し、それにより上記の閾値に対する振幅検出を表す複数の出力信 号を備える方法。
  2. 2.連続する振幅検出が各チャネルで実行され、各チャネルの閾値が以前の検出 における複数のチャネルから導かれた振幅値に依存して変化する請求の範囲第1 項に記載の方法。
  3. 3.もし隣接チャネルが大きな閾値を有するなら、適応閾値を形成するよう各チ ャネルの各閾値が増大される請求の範囲第2項に記載の方法。
  4. 4.各検出の後で、もし検出値が比較される閾値より検出値が大きいなら、訂正 閾値を形成するよう各チャネルの各閾値が増大される請求の範囲第2項に記載の 方法。
  5. 5.各チャネルの各閾値が周波数領域にわたりチャネルを横切る第1方向と、連 続検出に従う第2方向で減衰するよう配設されている請求の範囲第1項に記載の 方法。
  6. 6.各チャネルの閾値が所定の限界以下に減衰することを防ぐ請求の範囲第5項 に記載の方法。
  7. 7.フイルタパンクの使用により波形がスペクトル的に分解され、かつ上記の双 方の方向での減衰率が上記のフイルタバンクの各周波数チャネルの出力の自然減 衰率より小さい請求の範囲第6項に記載の方法。
  8. 8.各チャネルの出力信号の振幅が、検出された振幅値と上記のチャネルの各閾 値との間の差に依存している請求の範囲第1項に記載の方法。
  9. 9.隣接周波数チャネルが上記の周波数チャネルのいずれかの側の直接の隣接周 波数チャネルである請求の範囲第1項に記載の方法。
  10. 10.隣接周波数チャネルが上記の周波数チャネルのいずれかの側の1つ以上の 隣接周波数チャネルを含む請求の範囲第9項に記載の方法。
  11. 11.複数の周波数チャネル出力にスペクトル的に分解する分解手段;上記のチ ャネル出力の振幅を検出し、かつ上記の振幅を各振幅検出するための各閾値と比 較する上記の分解手段に連結された比較手段;上記の分解手段と上記の比較手段 に連続された適応手段であって、上記の適応手段が(1)同じチャネルの以前の 振幅検出と、(2)隣接周波数チャネルの振幅検出に依存して各チャネルの上記 の閾値を変更するするもの;および上記の閾値に対して振幅検出を表す複数の出 力信号を発生する発生手段であって、上記の発生手段が上記の分解手段と上記の 適応手段とに結合されているものとを具える波形の分析装置。
  12. 12.上記の比較手段が、同じチャネルで検出された振幅から各チャネルで各閾 値を減算する減算デバイスであり、減算の結果が正の差であればいつでも上記の 発生手段が出力信号を発生する請求の範囲第11項に記載の装置。
  13. 13.上記の適応手段が、各チャネルの各閾値を隣接チャネルの閾値と比較し、 かつもしも隣接チャネルが大きい閾値を有するなら適応閾値を形成するよう各閾 値を増大する第1セレクタを含んでいる請求の範囲第11項に記載の装置。
  14. 14.上記の適応手段が、各チャネルの各閾値を同じチャネルで検出された振幅 と比較し、かつもしも検出値が比較される閾値よりも検出振幅が大きいなら、訂 正閾値を形成するよう各閾値を増大する第2セレクタをさらに含む請求の範囲第 13項に記載の装置。
  15. 15.上記の適応に連結された第1および第2低減手段がさらに備えられ、上記 の低減手段が、周波数領域にわたるチャネルを横切る第1方向と、同じチャネル の上記の出力の振幅の連続検出に従う第2方向で各チャネルの各閾値を減衰する 請求の範囲第11項に記載の装置。
  16. 16.分解手段が帯域通過フィルタバンクであり、かつ上記の双方の方向の減衰 率が上記のフィルタバンクの各局波数チャネルの出力の自然減衰率より小さい請 求の範囲第15項に記載の装置。
  17. 17.分解手段の周波数チャネルの出力に連結された圧縮器をさらに備える請求 の範囲第11項に記載の装置。
  18. 18.出力信号の安定化影像を形成するよう出力信号のトリガーされた積分のた めの安定化影像発生器をさらに備える音波を分析する請求の範囲第11項に記載 の装置。
  19. 19.音波から周期的特性を抽出する周期性検出器をさらに備える請求の範囲第 18項に記載の装置。
  20. 20.音波から音色特性を抽出する音色安定器をさらに備える請求の範囲第18 項に記載の装置。
  21. 21.チャネル波形の分析からの聴覚特徴抽出を備える手段とともに、音波の音 声分析に使用する構文的かつ意味論的制限を備える構文・意味論プロセッサを伴 う請求の範囲第11項に記載の装置を含む音車認識装置。
  22. 22.出力音波を形成するように各周波数チャネルの信号をお互いに結合する上 記の適応閾値装置に連結された結合手段をさらに備える音波を分析する請求の範 囲第11項に記載の装置を含む補聴器デバイス。
  23. 23.分解手段が各チャネルの2つの出力を備え、それらは波形チャネル出力で ある第1出力と、波形チャネル出力の包絡線関数である第2出力であり、かつ結 合手段はゲートされた出力信号を形成するよう各波形チャネル出力に各周波数チ ャネルの出力信号を印加するために、上記の適応閾値装置と上記の分解手段に連 結されたゲーティング手段;および出力音波を形成するよう各周波数チャネルの 上記のゲートされた入力信号を加算するために、上記のゲートされた手段に連結 された加算手段を含む請求の範囲第22項に記載の補聴器デバイス。
  24. 24.出力音波の大きさの変動量が製御できるように上記の各出力信号に対して 各周波数チャネルの上記の包絡線関数をスケーリングするために、上記の適応閾 値装置、上記の分解手段および上記のゲートされた手段に連結された制御手段を さらに備える請求の範囲第23項に記載の補聴器デバイス。
JP2507984A 1989-05-18 1990-05-17 波形の分析 Pending JPH04505372A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB8911376.5 1989-05-18
GB8911376A GB2234078B (en) 1989-05-18 1989-05-18 Analysis of waveforms

Publications (1)

Publication Number Publication Date
JPH04505372A true JPH04505372A (ja) 1992-09-17

Family

ID=10656928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2507984A Pending JPH04505372A (ja) 1989-05-18 1990-05-17 波形の分析

Country Status (7)

Country Link
US (1) US5483617A (ja)
EP (1) EP0473664B1 (ja)
JP (1) JPH04505372A (ja)
AT (1) ATE124834T1 (ja)
DE (1) DE69020736T2 (ja)
GB (1) GB2234078B (ja)
WO (1) WO1990014739A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法
JP2010200350A (ja) * 2001-08-07 2010-09-09 Emma Mixed Signal Cv 音響心理学的モデル及びオーバーサンプル型フィルタバンクを用いる音声明瞭度の向上

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2036450B1 (es) * 1991-06-11 1996-01-16 Jaro Juan Dominguez Audio-educador electronico.
US5776055A (en) * 1996-07-01 1998-07-07 Hayre; Harb S. Noninvasive measurement of physiological chemical impairment
US6421619B1 (en) * 1998-10-02 2002-07-16 International Business Machines Corporation Data processing system and method included within an oscilloscope for independently testing an input signal
US6675140B1 (en) 1999-01-28 2004-01-06 Seiko Epson Corporation Mellin-transform information extractor for vibration sources
DE10031832C2 (de) * 2000-06-30 2003-04-30 Cochlear Ltd Hörgerät zur Rehabilitation einer Hörstörung
US20030007657A1 (en) * 2001-07-09 2003-01-09 Topholm & Westermann Aps Hearing aid with sudden sound alert
US7127076B2 (en) * 2003-03-03 2006-10-24 Phonak Ag Method for manufacturing acoustical devices and for reducing especially wind disturbances
EP2254352A3 (en) * 2003-03-03 2012-06-13 Phonak AG Method for manufacturing acoustical devices and for reducing wind disturbances
US7643583B1 (en) 2004-08-06 2010-01-05 Marvell International Ltd. High-precision signal detection for high-speed receiver
EP1703494A1 (en) * 2005-03-17 2006-09-20 Emma Mixed Signal C.V. Listening device
GB2434876B (en) * 2006-02-01 2010-10-27 Thales Holdings Uk Plc Audio signal discriminator
US9313596B2 (en) * 2011-08-19 2016-04-12 D'amore Engineering Llc Audio signal distortion detection device

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
US3947636A (en) * 1974-08-12 1976-03-30 Edgar Albert D Transient noise filter employing crosscorrelation to detect noise and autocorrelation to replace the noisey segment
US4250471A (en) * 1978-05-01 1981-02-10 Duncan Michael G Circuit detector and compression-expansion networks utilizing same
FR2433800A1 (fr) * 1978-08-17 1980-03-14 Thomson Csf Discriminateur de parole et recepteur comportant un tel discriminateur
US4680798A (en) * 1984-07-23 1987-07-14 Analogic Corporation Audio signal processing circuit for use in a hearing aid and method for operating same
US4700360A (en) * 1984-12-19 1987-10-13 Extrema Systems International Corporation Extrema coding digitizing signal processing method and apparatus
US4802225A (en) * 1985-01-02 1989-01-31 Medical Research Council Analysis of non-sinusoidal waveforms
US4998280A (en) * 1986-12-12 1991-03-05 Hitachi, Ltd. Speech recognition apparatus capable of discriminating between similar acoustic features of speech
US4813417A (en) * 1987-03-13 1989-03-21 Minnesota Mining And Manufacturing Company Signal processor for and an auditory prosthesis utilizing channel dominance
US5092343A (en) * 1988-02-17 1992-03-03 Wayne State University Waveform analysis apparatus and method using neural network techniques

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010200350A (ja) * 2001-08-07 2010-09-09 Emma Mixed Signal Cv 音響心理学的モデル及びオーバーサンプル型フィルタバンクを用いる音声明瞭度の向上
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法

Also Published As

Publication number Publication date
US5483617A (en) 1996-01-09
GB2234078B (en) 1993-06-30
EP0473664A1 (en) 1992-03-11
ATE124834T1 (de) 1995-07-15
DE69020736D1 (de) 1995-08-10
GB8911376D0 (en) 1989-07-05
GB2234078A (en) 1991-01-23
DE69020736T2 (de) 1996-03-21
WO1990014739A1 (en) 1990-11-29
EP0473664B1 (en) 1995-07-05

Similar Documents

Publication Publication Date Title
Lim et al. Enhancement and bandwidth compression of noisy speech
Wang et al. Self-normalization and noise-robustness in early auditory representations
Tsoukalas et al. Speech enhancement based on audible noise suppression
Yegnanarayana et al. Enhancement of reverberant speech using LP residual signal
Bou-Ghazale et al. A comparative study of traditional and newly proposed features for recognition of speech under stress
Ibrahim Preprocessing technique in automatic speech recognition for human computer interaction: an overview
US5054085A (en) Preprocessing system for speech recognition
EP0637012B1 (en) Signal processing device
Kleinschmidt Methods for capturing spectro-temporal modulations in automatic speech recognition
CN108198545B (zh) 一种基于小波变换的语音识别方法
JPH04505372A (ja) 波形の分析
Nadeu et al. Filtering the time sequences of spectral parameters for speech recognition
Kamble et al. Novel energy separation based instantaneous frequency features for spoof speech detection
Abe et al. Sinusoidal model based on instantaneous frequency attractors
Janse et al. A comparative study between mfcc and dwt feature extraction technique
Bharath et al. New replay attack detection using iterative adaptive inverse filtering and high frequency band
Chang Warped discrete cosine transform-based noisy speech enhancement
Hsu et al. Voice activity detection based on frequency modulation of harmonics
Ghitza Auditory nerve representation criteria for speech analysis/synthesis
Singh et al. Bone conducted speech signal enhancement using LPC and MFCC
Malathi et al. Speech enhancement via smart larynx of variable frequency for laryngectomee patient for Tamil language syllables using RADWT algorithm
Hsu et al. Modulation Wiener filter for improving speech intelligibility
Wu et al. Robust target feature extraction based on modified cochlear filter analysis model
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Upadhyay et al. Single-Channel Speech Enhancement Using Critical-Band Rate Scale Based Improved Multi-Band Spectral Subtraction