JPH08509556A - 音響信号中の過渡状態を検出し生成する方法とシステム - Google Patents

音響信号中の過渡状態を検出し生成する方法とシステム

Info

Publication number
JPH08509556A
JPH08509556A JP6523762A JP52376294A JPH08509556A JP H08509556 A JPH08509556 A JP H08509556A JP 6523762 A JP6523762 A JP 6523762A JP 52376294 A JP52376294 A JP 52376294A JP H08509556 A JPH08509556 A JP H08509556A
Authority
JP
Japan
Prior art keywords
signal
transient
shape
pulse
leading edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6523762A
Other languages
English (en)
Other versions
JP3636460B2 (ja
Inventor
ウルダル レオンハード,フランク
Original Assignee
ウルダル レオンハード,フランク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウルダル レオンハード,フランク filed Critical ウルダル レオンハード,フランク
Publication of JPH08509556A publication Critical patent/JPH08509556A/ja
Application granted granted Critical
Publication of JP3636460B2 publication Critical patent/JP3636460B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Monitoring And Testing Of Nuclear Reactors (AREA)
  • Telephone Function (AREA)
  • Examining Or Testing Airtightness (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

(57)【要約】 音響信号のエネルギー変化の形状が、識別可能な音声像を表現する場合にヒトの耳に知覚される特徴を同定あるいは表現するのに用いられる。エネルギー変化の形状から情報を抽出するためには、その形状は信号の過渡パルスの形状によって表されていることが望ましい。過渡信号パルスを得るために包絡線検出が用いられることが望ましい。識別可能な音声像を表すエネルギー変化は音素または母音とすることができる。また本発明は、過渡パルスの形状として表すことのできる信号のエネルギー変化の形状を、識別可能な音声信号を表す予め定められたエネルギー変化形状と比較することにより、音響信号中のエネルギー変化を同定するための方法に関する。また本発明は、合成すべき一連の音素に対応する一連の過渡パルスを生成する話声合成の方法に関する。さらに本発明は、音響信号の過渡成分を抽出する手段と、過渡成分の包絡線を検出する手段を備える、信号の情報を実質的に保持しつつ信号の帯域幅を縮小するための音響信号処理システムに関する。そのようなシステムは、話声あるいは音声解析のための電気的システムにおいて、前処理システムとして用いることができる。本発明の方法とシステムは、話声認識、話声合成、狭帯域遠距離通信、補聴器、および音響製品の品質管理の分野において用いることができる。

Description

【発明の詳細な説明】 音響信号中の過渡状態を検出し生成する方法とシステム 本発明は信号処理のための方法とシステムに関し、その方法とシステムによっ て音響信号中の識別可能な音響像をあらわす特徴が音響信号中の過渡成分から抽 出される。この処理の結果は、音または話声信号の識別、またはラウドスピーカ ーや補聴器や遠距離通信システムなどの音響製品またはシステムの品質評価また は、音響条件の品質評価に用いられる。本発明の方法はまた、狭帯域遠距離通信 における話声の圧縮および復元に関連して用いることができる。 先行技術の音響信号の信号解析の方法においては、信号はある短時間のあいだ 定常状態であると考えられ、短時間スペクトル解析の形がこの仮定のもとで用い られている。 ヒトの耳は、同時に速い音声信号をとらえ、高い精度で音声周波数を検知し、 複雑な音声環境で音声信号を区別する能力を持っている。たとえば、音楽楽器の 伴奏のもとで歌手が歌っている内容を理解することができる。 先行技術の信号解析の方法および本発明の方法では、ヒトの耳中の蝸牛は、ヒ トの耳の周波数範囲において無数の帯域通過濾波器(バンドパスフィルタ)、I BPとみなし得ると仮定される。 励起による1つの帯域通過濾波器の時間応答f(t)は、過 渡応答ft(t)と定常状態応答fs(t)の2つの成分に分離することができ る。 (1)f(t)=ft(t)+fs(t) 伝統的な信号処理は定常状態応答fs(t)に基づいており、過渡応答ft(t )は非常に速く消え去り、知覚にとって重要ではないと仮定され、たとえば「回 路合成の原理」(マグローヒル、1959、エルネスト5.クーおよびドナルド オー.ペデルセン、12頁、9〜15を参照すると、そこには「強制応答のみ が考慮され、回路網(network)の初期状態に起因する応答は無視される。」と 述べられている。 このように、学生が信号解析の世界に案内される時、過渡応答すなわち回路網 の初期状態による応答は、非常に短い時間で消え去るので無視すべきであると、 非常に初期の段階で彼らは学ぶ。さらに、伝統的な線形解析法を用いてこれらの 過渡信号を解析することはなかなかむずかしい。 ヒトが、非常に短い音を聞き、同時に高い精度で周波数を検知する能力は、伝 統的な濾波器ベースのスペクトル解析と矛盾する。帯域通過濾波器の時間窓(ti me window)(立ち上がり時間の2倍)は帯域幅に逆比例する。 (2)tw=2/(fu−fl) ここでflは下側遮断周波数(cutoff frequency)で、fuは上側遮断周波数で ある。 このようにもし5msの立ち上がり時間が要求されるとき、結果としては、周波 数分解能が400Hz以下である。 これらの過渡成分の検知が、高周波数分解能と矛盾するので、ヒトの耳による これらの過渡成分の検知は、他の方法でなされるに違いない。ヒトの耳がこれら の信号をどのように検出することができるのかはまだ調べられていないが、蝸牛 は音を受信していないとき静止の位置にあり、そこでは蝸牛は非常に広帯域であ ろう。音声信号が受信されると、蝸牛はその信号中の周波数成分に固定され始め る。このように、蝸牛は開始時点では広帯域であるが、もし1つ以上の安定な周 波数が受信されると、蝸牛は高い精度でこの周波数に固定される。 蝸牛から発生した神経パルスは周波数が約1.4kHz未満の時、音調の周波 数に同期することが今日知られている。もし周波数が1.4kHzより大きい時 、パルスはその周波数1のサイクルあたり1未満の回数でランダムに生成される 。 濾波器バンクスペクトル解析に基づく信号解析が英国特許第2213623号に開示 されており、それは、音素認識のためのシステムを記述している。このシステム は音声信号の過渡的部分を検出する検出手段をそなえており、そこにおける過渡 検出の主要な目的は話声スペクトルが最も鋭く変化する点すなわちピーク点を検 出することである。ピーク点の検出はより正確な音素分割のために用いられる。 英国特許第2213623号の過渡解析は、スペクトル解析およびスペクトル変化に 基づいており、時間領域における直接の過渡検出に基づいた、本発明の過渡解析 とは相当異なっている。 本発明は、音響信号の解析のための知られているすべての方 法と原理的に異なるアプローチに基づいている。音響信号の同定に関連する信号 情報が信号の過渡成分に存在していることが、本発明により見出された。このよ うに本発明の方法は、過渡成分の分離または音響信号の応答と、過渡成分に対応 する過渡パルスの生成と、パルスの形状の解析を含む。音響信号において、対応 する過渡パルスは時間間隔をおいて繰り返され、これらの周期的過渡パルスの時 間間隔がふつうまた解析あるいは決定される。 実生活の場で、ヒトの耳は音素あるいは音響像を認識するため高周波数でのエ ネルギー変化に反応する。しかし本方法では、耳によって観察されるエネルギー 変化に対応する過渡パルスはこれらの高周波数において抽出され、その後過渡パ ルスは音響像または音素の個々の特性を保ちながら、低周波数範囲に変換される ことが望ましい。このように本発明の原理を用いて、変換された低周波数信号を 調べることにより音響信号中の個々の特性を得ることができる。 以下に述べる本発明の方法の説明から理解されるように、パルスの過渡波形あ るいは形状を抽出する概念は、現在使われている最良の設計よりずっと簡単な前 処理方法を用い、かつ同時に、音響入力信号に関してずっと価値のある情報を得 ることを可能にする。 本発明は、その最も広い観点によれば、識別可能な音響像を表すものとして、 ヒトの耳などの動物の耳により知覚され得る特徴を同定あるいは表現するための 、音響信号のエネルギー変 化の形状の利用に関する。 本発明の方法の特色のより詳細な説明にはいる前に、いくつかの定義が与えら れる。 短時間解析において、信号における過渡成分は定義の対象である。その発想は 信号エネルギーの急激な変化に対する蝸牛における応答に対応する応答を与える 表現を得ることにある。信号エネルギーにおける急激な変化は、音響信号におけ る過渡成分に対応する。そこで、この文脈では、「過渡成分」という用語は、音 響信号における急激なエネルギー変化に対応する何らかの信号を表す。過渡成分 は解析されるべき信号情報を保持しており、この情報を解析するため過渡成分は 異なる形状をもつ対応過渡パルスに変換できる。そこでこの明細書では、「過渡 パルス」という用語は、識別可能な形状を持ち、実質的に音響信号の過渡成分の 情報を保持し、それにより音響信号のエネルギーにおける急激な変化に対応する パルスを意味する。上述のように音響信号の過渡部分は時間間隔をおいて繰り返 される。そこで、この明細書では、「周期的」という用語は過渡成分、応答、ま たはパルスと組み合わせて用いられるときには、間隔をおいて繰り返される何ら かの過渡成分、応答またはパルスを表す。 「形状」という用語は、与えられた時間隔区間Tpの中で、その区間外の振幅 レベルと比べてはっきり異なった振幅レベルをもつ、(時間限定されたまたは時 間限定されていない)、何らかの時間的に変化する任意の関数を表す。このよう に、Tp は、形状関数が時間限定されているときはその形状関数の継続時間であり、そう でない時は、その時区間外の振幅レベルに比べてはっきり異なった振幅レベルを 持つ関数部分の継続時間である。理解されるように、パルスの形状の同定はパル スの時間軸にそったパルスの振幅を観察することにより、適切に行われる。 エネルギー変化の形状から情報を抽出するために、本発明の1つの広い観点は 、信号の過渡パルスの形状によってエネルギー変化の形状を表すことに関連する 。しかしながら、エネルギー変化に対応する過渡パルスを得るためにいくつかの 方法を適用することができるが、包絡線(envelope)検出法が用いられることが 望ましく、その際包絡線は音響信号のエネルギー変化の過渡応答から検出される ことが望ましい。 異なる音響像を表すエネルギー変化は、音響信号における急激なエネルギー変 化を与える音素あるいは母音その他の音であることが可能である。 また、本発明のある観点によれば、信号のエネルギー変化の形状を、識別可能 な音響像を表す予め設定されたエネルギー変化形状と比較することからなり、か つ識別可能な音響像を表すものとしてヒトの耳などの動物の耳に知覚されること のできるエネルギー変化を、音響信号中で同定するための方法が提供される。同 定のためには、エネルギー変化の形状が信号の過渡パルスの形状によって表され ることが望ましく、さらに過渡パルスの形状が、音響信号におけるエネルギー変 化の過渡応答の包 絡線検出によって得られることが望ましい。 またこの発明は、音響信号の過渡成分を抽出することと、過渡成分の包絡線を 検出することを含む、信号の情報を実質的に保持しながら信号の帯域を減らすた めに音響信号を処理する方法に関する。異なる音響像を表すものとして、ヒトの 耳などの動物の耳に知覚され得る信号の過渡パルス形状が同定されるこが望まし い。 パルス立ち上がり時間あるいは先導エッジの形、パルスの継続時間および立ち 下がり時間あるいは衰微エッジの形はすべて、パルスの同定のための重要な特性 であることに注目するべきである。発明の好ましい実施態様によれば、パルスの 先導エッジの形が同定され、さらに先導エッジの形の少なくとも一部の立ち上が り時間と勾配及び/又は勾配変動を決定することにより先導エッジの形が決定さ れることが望ましい。 発明の好ましい実施態様によれば、パルスの上方部分が必要な情報を含んでい るので、先導エッジの形の少なくとも頂上部分の立ち上がり時間と勾配及び/又 は勾配変動が測定される。頂上部分は、勾配が最大になる点から実質的に始まる 部分と定義してよい。頂上部分はまた、パルスの振幅の上方の50%に対応する 部分でもよい。 パルスの形状を決定するときに、いくつかの方法が用いられるが、望ましい実 施態様においては、先導エッジの立ち上がり時間と勾配及び/又は勾配変動が少 なくとも5つの試料を基として測定される。しかしながら試料の数は他の適当な 数であっ てもよい。また別の、先導エッジの形状の同定の望ましい方法は、参照ライブラ リとの比較を用いて実行される。ここで、比較する際の参照物は先導エッジの立 ち上がり時間を基にして選ぶことができる。 また、パルスの継続時間の同定が行われることが望ましい。ここでパルスの継 続時間は、所定の振幅における先導エッジから衰微エッジまでの距離として定め られる。 また、了解されることであるが、過渡パルスの衰微エッジの形状を同定するこ とが望ましい。 本発明の方法は、音響信号の過渡状態の表現を提供する。その方法は、ヒトの 耳の周波数範囲にある音響信号の帯域通過濾波(flltration)と低域通過濾波し た包絡線の検出を含む。包絡線は、その後公知の信号解析の方法で解析すること ができる。包絡線は信号の過渡部分の表現である。 包絡線解析に用いるべき公知の信号解析方法および選択すべき帯域通過濾波器 の特性は、解析の目的に依存する。その目的は、話声認識、オーディオ製品や音 響条件の品質測定、狭帯域遠距離通信などである。 本発明はまた、音響信号の過渡成分を抽出する手段と、過渡成分の包絡線を検 出する手段を備えており、信号の情報を実質的に保持しつつ信号の帯域幅を縮小 するための音響信号処理システムに関する。 実施例とシステムの詳細は、図面とそのシステムの実施例の数学的記述に関し てなされるシステムの実施例の詳細な議論と、 請求項から明らかになる。 以下、本発明をその原理の数学的記述および図面に関連して、さらに詳細に記 述する。 図1は、帯域通過濾波器F(ω)と低域通過濾波器H(ω)のスペクトルを示 す図である。 図2は、同一の帯域幅をもつ無数の帯域通過濾波器IBPに対する、s−平面 における零(zeros)および極(poles)を示す図である。 図3は、同一のQ値をもつ無数の帯域通過濾波器IBPに対する、s−平面に おける零および極を示す図である。 図4は、s−平面における種々の根部位(root locations)に対する衝撃応答 (impulse response)を示す図である。 図5は「linear prediction」という言葉に対するスペクトログラムを示す図 である。 図6は、無数の帯域通過濾波器IBPの和が、1回の帯域濾波によってなされ るかを示す図である。 図7は、本発明による過渡検出システムの原理を示す図である。 図8は、本発明による過渡検出システムのブロックダイアグラムを示す図であ る。 図9は、図8のシステムにおいて用いるべき望ましい高域通過濾波器の特性を 示す図である。 図10は、図8のシステムにおいて用いるべき望ましい低域通過濾波器の特性 を示す図である。 図11は、ヒトの耳の感度を示す図である。 /u(:)に対する、平均ホルマント(formant)周波数を示す図である。 図13は、図11の母音の第一過渡解析の実験結果を示す図である。 図14は、「heat」における母音「i」の処理後の曲線を示す図である。 図15は、「hop」における母音「o」に対する、図12と同様の曲線を示す 図である。 図16は、「heat」における母音「i」の処理後の曲線に対する、正規化した 時間窓を示す図である。 図17は、「hop」における母音「o」に対する、正規化した時間窓を示す図 である。 図18は、「have」における母音「a」に対する、正規化した時間窓を示す図 である。 図19は、本発明による話声認識システムのブロックダイアグラムを示す図で ある。 図20から25は、それぞれ「heat」における音素「i」、「hop」における 「o」、「ongaonga」における「o」、デンマーク語の単語「hus」における「 u」、デンマーク語の単語「φse」における「φ」、デンマーク語の単語「ly s」における「y」の話声合成のための過渡パルスを示す図である。 まず、本発明の原理の数学的説明が与えられる。 帯域通過濾波器は、時間領域において衝撃応答(インパルスレスポンス)によ り表され、次の式で表現される。 f(t)=h(t)cos(ωct) ここでh(t)は低域通過濾波器に対する衝撃応答であり、ωcは帯域通過濾波 器f(t)の中心周波数である。cos(ωct)の項は、中心周波数がωcの帯 域通過濾波器への低域通過濾波器の周波数偏移(shift)を表すものとみなされ る。 このことは図1に示され、F(ω)およびH(ω)はそれぞれf(t)および h(t)の対応周波数特性である。 IBP濾波器が、原点に零をもち複素s−平面の左半平面において2つの(相 補的)複素極をもつ単純帯域通過濾波器BPから構成されているとし、IBP濾 波器の極が一直線上に位置しているとすると、 1) もしIBP濾波器の全てについて帯域幅が同じであるとすると、立ち上が り時間と遅延時間は濾波器の全てについて同じになるが、Q=fc/(fu−f l)は中心周波数fcに逆比例する。零と極は図2に示されている。 2) もし濾波器の全てについてQ値が同じであるとすると、立ち上がり時間と 遅延時間は中心周波数に逆比例するが、帯域幅は中心周波数に比例する。零と極 は図3に示されている。 立ち上がり時間と遅延時間が、過渡状態の解析において対象となる周波数帯( range)の中のIBP濾波器について同じであると仮定する。もしそうでなけれ ば、脳がこれを補償するものと仮定する。その効果は、(もしQ値が同じなら) 周波数が 下がるにつれて、立ち上がり時間がより遅くなり、遅延時間がより長くなること だけである。過渡成分のリズムと形状は同じになる。 短時間解析において、信号中の過渡成分は定義の対象である。その考えは、信 号エネルギーにおける急激な変化に対する蝸牛内の応答に対応する応答を与える 表現を得ることにある。信号エネルギーにおける急激な変化は音響信号中の過渡 成分に対応する。 信号における過渡および定常状態成分の組成は、包絡線検出によって同定され る。ここで定常状態成分は検出した包絡線におけるDC成分であり、過渡成分は 包絡線のレベルにおける変化として同定される。 過渡応答は包絡線検出により同定される。 衝撃応答の包絡線は次の式で表現される。 (3)式を(4)式に代入することにより次の式が得られる。 ヒルベルト変換については、u(t)およびv(t)に対するスペクトルが重 なり合わない時、次の式が成り立つ。 したがって、h(t)に対するスペクトルが中心周波数ωcに重ならないとい う仮定のもとで次の式が成り立つ。 (7)ft(t)={[h(t)cos(ωcst)2+[h(t)sin(ωct)]21/2 したがって (8)ft(t)=|h(t)| この条件のもとで、衝撃応答の包絡線は中心周波数と独立である。このことは図 4に示されており、どのようにして異なる衝撃応答が同一の包絡線を生じるかを 示す。 (8)式の結果、IBP濾波器に対する全包絡線は、個々の帯域通過濾波器に 対する包絡線の和となる。 累積過渡応答ftt(t)は、このようにft(t)を加え合わせることによ り表現される。この和は次の式で表現される。 したがって (10)ftt(t)=|h(t)|(ωcu−ωcl) ここでωclは、低域IBP濾波器に対する中心周波数であり、ωcuは高域IBP 濾波器に対する中心周波数である。 図5は、ある男性によって発音された時の「linear prediction」という言葉 に対するスペクトログラムである。このスペクトログラムは、帯域幅が300H zで、中心周波数が約150Hzから約4kHzの間の範囲にある帯域濾波器に よって記録されている。縦軸座標は周波数で、横軸座標は時間であり、黒インク は信号エネルギーの程度である。水平方向の黒い帯状域は、話声の中の主たる周 波数帯であり、ホルマント(formant)と呼ばれる。縦の細い線は、信号の急激 なエネルギー変化 に相当し、したがって過渡成分に対応する。スペクトログラムは普通、ホルマン ト分析に用いられ、300Hzの帯域幅は過渡分析のためには十分でない。しか し線の形状の外見からすると、過渡信号は帯域通過濾波器の中心周波数と独立で あることが確認される。 前述の通り、蝸牛は無数の帯域通過濾波器をもつとみなされるが、多数の帯域 通過濾波器を使用せずに過渡信号を検出することができれば有利である。 図6は、どのようにして無数の帯域通過濾波器IBPの和が、低域および高域 IBP濾波器IBPlとIBPuの遮断周波数をカバーする帯域をもっている1つ の帯域通過濾波BPによってなされるかを示す図である。この帯域通過濾波器B Pは最大平坦遅延型のものが望ましい。なぜならこの型の濾波器は過渡状態の形 状を保存するのに非常に適しているからである。 実際上は、包絡線を検出するもっとも簡単な方法は、整流器と低域通過濾波器 を用いることである。たとえば、「通信システム:電気通信における信号とノイ ズ入門」マグローヒル好学社1968年、エー ブルース カールソンを参照の こと。等式(10)から、累積過渡成分は、包絡線検出の前に累積される必要の あるIBPの範囲をカバーする高域通過濾波BPを行うことにより検出されるこ とがわかる。包絡線検出は、帯域通過濾波器の中心周波数ωcによる、帯域通過 濾波器の帯域の半分をもつ低域通過濾波器への周波数変移に相当する。このこと は、低域通過濾波器の遮断周波数が、BPによってカバーされ るIBP全部の帯域を決定することを意味する。この原理は図7に示されている 。 図7において、デジタル化された音声信号S(t)が、帯域通過あるいは高域 通過濾波器BP10に入り、その帯域通過濾波器の出力が整流装置11への入力 となり、その出力が低域通過濾波器LP12への入力となる。低域通過濾波器1 2の出力はftt(t)と表され、包絡線の検出したがって音声信号S(t)の 過渡応答の検出を表す。 信号の過渡部分の数学的定義から、h(t)の極がs−平面の負の実軸上に位 置することが結論される。このことは衝撃応答が零のまわりに振動していないこ とを意味する。(過渡応答は非振動信号である。) 等式(10)からIBP濾波器の限界ωcuとωclは単にftt(t)の量の問題 であることがわかる。 帯域通過濾波BPはIBP濾波器の過渡応答の和に対する限界を定め、振幅特 性がIBP濾波器からの寄与に重みをつける。もしBPのかわりに低域通過濾波 器を用いると、h(t)のスペクトルと、低域IBP濾波器の中心周波数に重な りが生じる。帯域通過濾波器BPは少なくとも低域通過濾波器LPの遮断周波数 の2倍に等しい帯域幅をもつべきである。帯域幅と振幅特性は、本発明の方法を 用いる時いろいろな信号解析の最適化のため利用することができる。 原理的には、低域通過濾波器LPの極は、数学的過渡検出システムにおいて負 の実軸上に位置しているべきである。しかし ながら音響信号を取り扱う時、決定要因となるのは蝸牛の特性であるが、衝撃応 答の中に有意な振動がないことが望ましい。なぜならそれは音響信号の過渡状態 をより不鮮明にするからである。低域通過濾波器LPの遮断周波数は信号の過渡 状態に対する表現であり、この周波数は音響信号に関連して、蝸牛の立ち上がり 時間に対応する立ち上がり時間となって現れるべきである。遮断周波数は過渡成 分の指標とみなされる。ここで下側遮断周波数は立ち上がり時間の遅い信号要素 のみの過渡検出にとなってあらわれ、また上側遮断周波数は立ち上がり時間の早 い信号要素の過渡検出にとなってあらわれる。 耳からの神経パルスが約1.4kHz以下の周波数に同期しそれ以上の周波数 に同期しないという事実は、耳が1.4kHz以下においては音調(tone)指向 であり、1.4kHz以上においては過渡指向であることを示す。過渡指向領域 においては神経パルスは、信号における急激なエネルギー変化に対応する過渡成 分に同期する。 BPの遮断周波数は蝸牛の過渡感度領域に対応するべきである。(理論的には それは、耳の感度曲線に対応する振幅特性を持つべきである。) ヒトの聴覚の感度曲線は下側遮断周波数が約2kHzで、上側遮断周波数が約 5kHzであるはずだということを示す。BP濾波器の振幅特性は、個々のIB P濾波器からの寄与に重みをつける。 以上の議論から、本発明による過渡検出と分析システムは図 8のブロックダイアグラムに示されているように構成される。図8において、音 声信号はマイクロホン13に入力され、その出力は低域通過濾波器14を通過し 、A/D変換器15によってデジタル化される。A/D変換器の出力S(t)は 高域通過あるいは帯域通過濾波器BP10へ導かれ、帯域通過濾波器の出力は整 流装置11に入力され、その出力は低域通過濾波器LP12に入力される。図7 も参照のこと。低域通過濾波器12の出力はftt(t)と表され、入力信号の 過渡成分を表す。過渡成分を解析するために、低域通過濾波器12の出力信号は 信号解析や信号認識装置16の中へ導かれることが望ましい。 図9と図10は、図7あるいは図8のシステムにおいて用いるべき好ましい高 域通過濾波器および低域通過濾波器の特性を示す図である。図7あるいは図8に おいて高域通過濾波器10として用いられる帯域通過濾波器BPは、少なくとも 2000Hz、望ましくは約3000Hzの下側遮断周波数をもつべきである。 上側遮断周波数は4500から7000Hzの範囲に、望ましくは約6000H zにあるべきである。図9に示された特性は3014Hzの下側遮断周波数をも つ。図7あるいは図8において用いられる低域通過濾波器LPは、400から1 200Hzの範囲に、望ましくは約700Hzの上側遮断周波数をもつべきであ る。図10に示された特性は732Hzの上側遮断周波数をもつ。全波整流器を 用いて図7あるいは図8の過渡検出システムを構成することも可能である。しか しながら、図7あるいは図8において示されているように、一方向整流器 を用いることが望ましい。 図11において、ヒトの耳の感度が示され、音調の音響信号に対する蝸牛の応 答を示している。すでに述べたように、感覚は約1.4kHzまでは音調指向で あり、1.4kHz以上では過渡指向である。 すでに述べられ、図6に示されているように、IBP濾波器に対する全包絡線 は、個々の帯域通過濾波器の包絡線の和として求められ、無数のあるいは多数個 の帯域通過濾波器IBPの加算は1つの帯域通過濾波BPによって行うことがで きる。この原理が図7に示された図面に用いられている。しかしながら、いくつ かの帯域通過濾波器の加算はまた、いくつかの個々の帯域通過濾波器の包絡線が 検出され加算される濾波器バンクの方法を用いることによって実現することがで きる。このように、濾波器バンクの中の各部分は、特定の中心周波数をもつ帯域 通過濾波器と整流器と低域通過濾波器からなり、低域通過濾波器の出力は、全包 絡線を求めるため加算される。 ここで、図12および図13によって示されたいくつかの導入的実験について 論じる。 BPおよびLP濾波器の遮断周波数を評価し、この方法の話声認識に対する適 性を評価するため、2つの実験が行われた。 1、振幅変調信号を聞き取ることによる実験。 制御された条件のもとでLP濾波器の遮断周波数の第一の表示を得るため、聞 き取り試験が、耳に対する感度周波数範囲の 振幅変調信号を用いて実行された。通常その範囲においてこのように集中した信 号はないため、実験は幾分人工的であり、耳に対し非常に過酷であるため、この 実験を確かめることは勧められない。 搬送波周波数は3.5kHzに選ばれ、変調音調(modulation tone)は、数 Hzからはじめてだんだん上げていった。350ないし400Hzまでは、包絡 線信号は雑音として聞こえる。それ以降は、まずうつろな/u(:)/として聞 こえ、800Hzで鋭い/i(:)/のように聞こえる。800Hzをこえると 、包絡線信号を聞くことはできなかった。ある時点でさらに音調(tone)を増加 させると、いろいろな混合音調が聞こえる。 音声はもちろん搬送波周波数によって支配されていた。しかしLP濾波器に対 する遮断周波数はおそらく1ないし1.2kHz以下でなければならないことが 示された。 変調指数は約0.75であった。もしそれが1以上の時は、上音(overtones )の導入が認められる。 2、4つの母音に対する過渡信号の解析 図12は男性、女性、子供による、heed、had、hod、およ /、/a(:)/、および/u(:)/に対する平均ホルマント周波数を示す図 である。これらの母音は母音群のなかで良い分散を示すので、この実験に用いら れた。 母音は、普通のカセットレコーダを用いて男性、女性、および子供によって( デンマーク語のアクセントで)発音されたものを記録した。 実験準備 アナログTSD(過渡信号検出器)を図7に従い設計した。設計は操作増幅器 LM833をもとにした。 濾波器の種類は以下の通りであった。 BP濾波器は、1dbの脈動(ripple)をもつ4次のチェビシェフ濾波器であ った。上側遮断周波数は約6.5kHzであり、低い方は約550Hzから2. 6kHzまで調節可能である。 整流器は、負の信号を反転し正の信号に加える、全波整流器であった。 LP濾波器は1.5kHzに遮断周波数をもつように設計された2次のバター ワース濾波器であった。(3db遮断周波数を2.1kHzまで測定した。) 母音録音と過渡信号検出 男性、女性、および子供によって発音された4つの母音を、普通のラジオカセ ットレコーダにより録音した。過渡信号をTSDにより検出し、8ビットA/D 変換器により変換し、PC上に記憶させた。録音の時の標本化レートは10kH zであった。しかし録音したデータを解析する時には、1つとびの値だけを取り 上げたので、標本化レートは5kHzとなった。8 ビットA/D変換器はダイナミックレンジが悪く、したがって分離した(すなわ ち語中でない)状態で母音を録音することが必要であった。このことはより不確 実な発音を生み出す。 図13aから13pは、図12の母音の1つめの過渡解析の実験結果を示す図 である。 過渡信号を聞くことにより母音を同定することが可能である。結果の時間変化 の目視観察によれば、それぞれ男性、女性、および子供によって発音された同じ 母音は、基本的音調に違いが見られるものの、ほとんど同じ特性を持っているこ とが認められた。デンマーク語の単語「op」の母音/a(:)/を録音する際、 p−音も録音され、過渡信号の時間変化からはっきり見ることができる。 過渡信号の解析 過渡信号のパワーは母音によって非常に異なる。母音/a(:)/および/u (:)/の信号は非常に低く(特に男性の声)、ラジオカセットレコーダのボリ ュームを高いレベルにまで上げる必要があった。これは多量のノイズを発生させ た。 まず母音のいろいろな位置から始めて20msの継続時間で5kHzの標本化 レートでFFT解析をいくつかおこなった。スペクトルは大変きわだっており母 音全体を通じて同じであるように見える。このことは信号中に重要な情報が存在 することを強く示す。 共通の特徴を解析するために、20ms(101個の標本) が各母音からランダムに選ばれた。時間信号がハミング窓によって平滑化され、 FFTが計算された。図13aから13dには、パワースペクトルが示されてお り、3つの声が各母音について同じダイアグラムに表示されている。そして対応 する過渡信号が、女性によって発音された場合図13eから図13hに、男性に よって発音された場合図13iから図13lに、子供によって発音された場合図 13mから図13pに、別々に示されている。 スペクトルは次の特徴を持つことが期待されている。 3つの異なった声により発音された同じ母音のスペクトルは、母音に関して共 通ないくつかの特徴を備え、声に関連するいくつかの特徴を備える。 同一の声によって発音された違った母音のスペクトルは、その違う母音に関連 するいくつかの特徴を備え、声からのいくつかの共通の特徴を備える。 さらにスペクトルの形状が、絶対周波数よりも重要な役割を果たすことが期待 される必要がある。 パワースペクトルから次のことがわかる。 /i(:)/ (図13a) 最もめだった特徴は、3つの声全てからのスペクトルが、300から400H zの周波数範囲にきわだった頂上を有し、それらが50Hzの幅であること、そ して200から250Hzにきわだった割れ目を有することである。さらに50 Hzにおいて、1つの寄与がある。男性の声は150Hzに寄与があり、 低い声に起因するものと思われる。 女性と男性の声は350Hzにおいて際だった割れ目(50dbより深い)を 有する。今の場合、男性の声は150Hzにおいても寄与がある。子供の声はこ のパターンにあまりうまく当てはまらない。これはたぶん、不明確な発音による ものであろう。 /a(:)/ (図13c) 3つの声すべてに、頂上の250から300Hzがある。周波数範囲はやや低 く、/i(:)/の場合ほど際だってはいない。さらに3つの声すべてについて 、50Hz及びそれ以下で主要な寄与がある。 /u(:)/ (図13d) 子供と女性の声は本当によく似ており、300と350Hzにピークがあり、 100Hzに深くて幅の広い谷がある。男性の声にもピークがあり、谷は女性及 び子供の場合と同じぐらい幅広であるが深くはない。この理由は、低い声である ことと、ラジオカセットレコーダに起因する信号中の多量のノイズが存在するこ とによる可能性がある。 図13aからpの結果を導きだした実験は、初歩的であると 見られるかもしれないが、その結果は、特に多量のノイズとたった8ビットのA /D変換器のもとで用いられた単純な装置であることを考慮に入れると、非常に 興味深い。このことにもかかわらず、その結果は際だっている。結果を改良する ためのデータ選択は特になく、したがって疑いなく、過渡状態は話声認識にとっ て決定的重要性をもつ。 全ての情報が500Hz以下の周波数範囲に存在しているように見える。もし そうならば、標本化周波数に要求される条件は1.5kHz以下になり、より多 くの処理を平行して行いながら非常に集中的に話声信号を解析することが可能に なる。例えば5、20および40msのような、より多くの時間窓をもつことが でき、ある音素を検出するためにスペクトル解析(FFT、LPC、CEPST RUMなど)を用い、別の音素を検出するために時間解析(相関または方法)を 用いることができる。 帯域通過濾波された音素のエネルギーにおける変化を補償するため、AGC増 幅器を前増幅器(preamplifier)とし、BP濾波器の後に対数またはAGC増幅 器をもつ、より巧妙に設計されたTSDを用いることによって、非常によい結果 が得られ、話者に依存しないしっかりした話声認識が実現される可能性が高い。 もし8ビットA/D変換器の代わりに12ビットまたは16ビットA/D変換器 を用いれば、さらによい結果が得られるであろう。 図14から図18に示された、他の実験結果を以下に議論す る。 本発明による過渡信号成分の抽出方法は、音響入力信号の前処理(pre-proces s)であるとみなすこともできる。前処理のパラメータをより良き理解し及び/ 又は決定することができるように、ソフトウェアプログラムが開発され、それを 用いることにより、前処理の各処理段階の後で出力信号を提示し出力結果を聞く ことができるようになった。 図14と図15に示す話声信号の解析は、コンパック(Compaq)のデスクプロ (Deskpro)4/66iPC上で走るこのソフトウェアプログラムによって行っ た。この型のPCは、マイクロソフトウィンドウズサウンドシステムと、マイク ロホンと、アナログデバイス(Analog Devices)社からの符復号器(codec)チ ップ(AD1848)を備えている。符復号器チップは標本化と、アンチエイリアシン グ濾波と、A/D変換を実行する。 図14aと15aに示す話声信号はこのサウンドシステムによって録音されて いる。話声信号は、11025kHzで16ビット線形PCMによって標本化し ている。通過帯域はは4.9kHzよりも大きい。 前過渡信号が図14bと15bに示されている。これらの信号は、遮断周波数 が3.0kHzの3次IIRデジタル高域通過濾波器によって濾波された話声信 号である。濾波器は3次のバターワース濾波器の双線形変換である。 3.0kHzの遮断周波数は、蝸牛の最も感度の高い領域の範囲で帯域通過さ せるため選ばれた。この場合、これは3.0 kHzから4.9kHzを意味する。ここで4.9kHzは符復号器チップによ って決められた。高域通過または帯域通過濾波器は、もし等式(10)に従って 最大平坦遅延特性をもつならば、最適になる。 図14cおよび15cに示す過渡信号は、約700Hzに遮断周波数をもつ2 次のIIRデジタル低域通過濾波器によって整流され濾波される前過渡信号であ る。濾波器は2次のバターワース濾波器の双線形変換である。 低域通過濾波器は、蝸牛の過渡応答に対応する過渡パルスの形状を保存する。 したがってこれを実行できる濾波器は最適の濾波器になる。蝸牛の神経は約1. 4kHzまでの周波数の神経パルスを発生することができる。1.4kHzの過 渡指向領域にあるIBP濾波器の帯域幅は、包絡線検出により700Hzの低域 通過濾波器に対する遮断周波数に変換される。これが約700Hzの遮断周波数 が選ばれた理由である。 過渡信号は、信号におけるエネルギー変化の表現であるとみなすことができる 。 図14と図15に示された全ての信号は、最大信号レベルにまで正規化される 。これは最大信号絶対値が32766であることを意味する。図14と15にお ける横軸座標は50msの時間間隔を表し、図14aと15aおよび図14bと 15bにおける縦軸座標は対応する話声信号の音声圧力を表し、一方図14cと 15cの縦軸座標は対応過渡話声信号のエネルギーを表す。 それぞれ図14a、15a、14b、15b、14cおよび15cに対応する 話声、前過渡信号および過渡信号を聞くことが可能である。濾波器特性を選ぶ1 つの主たる必要条件は、前記の信号を聞くとき、もとの話声信号に近い音声を信 号が維持しなければならないということである。 図7に示されたシステムに関して、図14は男性によって発音されたときの「 heat」における母音「i」の曲線を示す。ここで(a)は図7におけるデジタル 化した入力信号S(t)に対応する濾波前の話声信号を示し、(b)は図7にお ける帯域通過濾波器10の出力信号に対応する高域通過濾波後の信号を示し、( c)は図7における低域通過濾波器12の出力信号に対応する整流および低域通 過濾波後の信号を示す。 図15は「hop」における母音「o」に対する図14と同様の曲線を示す。 過渡パルスの立ち上がり時間と立ち下がり時間および幅あるいは継続時間は、 母音における音声にとって大切であると思われる。図16から18は過渡パルス の測定例を示す。図16aに示される、男性により発音された時の「heat」にお ける母音「i」の時間窓が、図14cに示された処理後の信号に対応する。「he at」における母音「i」が子供により発音された時の、対応する時間窓が図16 bに示されている。図16aと16bから、最も主たるパルスの先導エッジと衰 微エッジは急峻で、立ち上がり時間と立ち下がり時間が約0.4ms以下であり 、主たるパルスの幅は、約50%のレベルで測定したとき約0. 8msであることがわかる。 図17aに示される、男性により発音された時の「hop」における母音「o」 の時間窓が、図15cに示された処理後の信号に対応する。「hop」における母 音「o」が子供により発音された時の、対応する時間窓が図17bに示されてい る。図17aと17bから、最も主たるパルスの先導エッジと衰微エッジは急峻 で、立ち上がり時間と立ち下がり時間が約0.5msであるが、主たるパルスの 幅は、約50%のレベルで測定したとき約1.5msであることがわかる。図1 7bの主たるパルスにおける溝は、知覚に影響を与えるほど深くはない。「hop 」における母音「o」は鋭い母音であり、もっと柔らかな母音であればもっとゆ っくりした衰微エッジをもつであろうということに注目すべきである。 図18は男性により発音された時の「have」における母音「a」の処理後の信 号の時間窓を示す。過渡パルスの形状が、図16から17に示されたパルスと比 較してより柔らかい先導エッジと衰微エッジをもつことがわかる。 このように上記の結果から、母音の知覚は過渡パルスの形状から与えられるこ とが結論できる。さらに、上述した信号処理の方法によって音響信号から抽出さ れた過渡成分あるいはパルスを解析することにより、話声信号の母音あるいは音 素が過渡パルス又はパルスの形状を同定することにより認識できることが結論で きる。 母音あるいは音素において、過渡パルスは繰り返され、その 反復周波数が音程(Pitch)の知覚を与える。図16において、2つの連続する パルスのの間の時間間隔は、男性の音程約170Hzに対応して約6msであり 、図16bにおいて、2つの連続するパルス間の時間間隔は、子供の音程約28 0Hzに対応して約3.5msである。 このようにまた、上述した信号処理の方法によって音響信号から抽出された過 渡成分あるいはパルスを解析することにより、話声信号の音程が過渡パルス間の 時間間隔を定量することにより測定できることが結論できる。 このように、本発明の好ましい実施態様によって音響信号を解析するとき、入 力信号の高域通過濾波とそれに続く整流と低域通過濾波を含む信号処理の間、音 声信号の同一性が保たれることが考慮される。 上記の議論から、本発明は話声認識に使用するのに非常に適した方法を提供す ることが理解されるべきである。 図19は本発明による話声認識システムのブロックダイアグラムを示す図であ る。このシステムには、図7の帯域通過濾波器10、整流回路11および低域通 過濾波器12を備えた前処理装置20が設けられている。このように本発明の方 法によれば、単一の集積回路またはチップに集積することが最も好都合であるこ の前処理装置は過渡成分検出装置である。システムはさらに、参照ライブラリ2 2に接続されたパターン認識装置21、音素測定装置23および単語/文章測定 装置24などのような、話声認識システムにおいて通常用いられる装置を備える 。 図19に示すシステムは、テンプレートマッチングを用いているが、代わりの手 段を認識システムにおいて用いてもよい。 図19の参照ライブラリ22は、前処理装置20によって発生することのでき る形状に対応するライブラリを記憶すべきである。 単一チップ前処理装置はまた、図8に示される低域通過濾波器14およびまた はA/D変換器15を備えていてもよいことが理解されるべきである。 本発明による前処理は、ラウドスピーカや補聴器や遠距離通信システムなどの 音響製品やシステムの品質測定や、音響条件の品質測定などのように、話声ある いは音声の解析、認識、符号化および/または復号化が必要とされる他の多くの 電気的システムにおいて用いることができることを理解すべきである。前処理は また、狭帯域遠距離通信における話声の圧縮および復元に関連して用いることが できる。 図10に示されているように、前処理装置に用いられる低域通過濾波器12の 遮断周波数は1kHz以下であることが望ましい。このように音響信号の全ての 必要な信号情報は、1kHzというかなり狭い周波数範囲のなかで表される。こ れは、話声信号の通信のためのGSM移動遠距離通信システムに用いられる、毎 秒約9000ビットの周波数帯と比較すべきである。本発明の前処理方法又は装 置を用いることにより、遠距離通信に用いられる周波数帯を毎秒約1000ビッ トにまで下げることが可能となり、この分野の通信において多大な節約となる。 このように、本方法は、狭帯域遠距離通信における帯域幅を最適化するのに非 常に適しており、遠距離通信システムにおいて音響信号を伝送する時、信号が、 伝送され受信機によって受信される前に、ここにおいて述べられた前処理を用い て処理されることは本発明の範囲に入ることが理解されるべきである。処理した 信号を伝送する前に信号をデジタル表現に符号化し、音響信号の識別可能な音声 像を表す場合にヒトの耳などの動物の耳に知覚される過渡パルス形状を再現する ため、符号化した信号を受信機で復号化することが望ましい。 上述のデジタル伝送の際、受信し復号化し再現する過渡パルスの品質に対する いろいろな必要条件を満たすため、帯域幅を選択する。このように最大で毎秒4 000ビットの帯域幅を選ぶことができるが、毎秒約2000ビットの帯域幅を 用いることにより、よい品質でパルスを再現することができる。しかしながら、 帯域幅は毎秒800から2000ビットの範囲にあることが望ましい。例えば、 軍事システムなどにおけるように、再現した信号の品質が高いことより、システ ム稼働性(performance)の高いことが望まれる遠距離通信システムにおいては 、毎秒約400ビットの帯域幅が選択されることに注目すべきである。 デジタル信号を伝送する時、デジタル情報が、処理した音響信号を表す過渡パ ルスの先導エッジと衰微エッジと継続時間についての情報を含んでいることが望 ましい。また一連の同一パルスにおいて第2および後続のパルスが、伝送された とき繰り 返しを指し示すデジタル符号(sign)によって表されることが望ましい。 また本発明のもう1つの目的は、話声合成において用いられる方法を提供する ことである。 図14から18の実験結果の議論から、各母音あるいは音素の音は、その音素 に特定的に対応する主たる過渡パルスの形状によってきまることが理解される。 実験から、図16から18の処理したパルスに類似した過渡パルスが、その音素 の音を発生するために必要な情報を保持していることが結論された。 図14から18に示された過渡解析のため開発されたソフトウェアを用いれば 、縦軸座標が振幅で横軸座標がmsで表した時間である座標系にいくつかの点を 置くことによって単純過渡信号を生成することができる。1つの過渡パルスは、 1つまたはいくつかの点を置きそれらの点の間に直線または正弦曲線で線を補間 し、時間間隔を規定することにより生成できる。信号は300msの間繰り返さ れ、信号は、符復号器チップのD/A変換器によって変換された時、聞くことが できる。 パルス立ち上がり時間あるいは先導エッジの形状、パルスの継続時間、および 立ち下がり時間あるいは衰微エッジの形状はすべて、話声認識及び/又は合成に 用いる過渡パルスの同定、表現及び/又は生成のための重要な特徴であることに 注目すべきである。これらの特徴はまた、話声圧縮に関連しても用いられる。 このことは図20から25に示され、話声合成あるいは同定 のため用いられる過渡パルスが、それぞれ「heat」における音素「i」、「hop 」における「o」、「ongaonga」におけるあるいはデンマーク語の単語「Ole」 における「o」、「who」における「u」、デンマーク語の単語「φse」にお ける「φ」、デンマーク語の単語「lys」における「y」の話声合成のためにい かに形成されるべきかを示している。パルスは5msの間繰り返される。 図20から、「heat」における音素「i」は、継続時間が0.3から1.1m sの範囲にあり、先導エッジの立ち上がり時間が0.3から0.5msの範囲に ある非常に短いパルスによって形成できることがわかる。衰微エッジの立ち下が り時間もまた0.3から0.5msの範囲にあるべきである。 同様に図21から、「hop」における音素「o」は、継続時間が1.3から1 .8msの範囲にあり、先導エッジの立ち上がり時間が0.3から0.5msの 範囲にあるパルスによって形成できることがわかる。衰微エッジの立ち下がり時 間は0.3から0.5msの範囲にあるべきである。 図22から、デンマーク語の単語「Ole」における音素「o」は、継続時間が パルスの上半分において1.3から1.8msの範囲にあり、先導エッジの立ち 上がり時間が0.3から0.5msの範囲にあるパルスによって形成できること がわかる。この音素に対する衰微エッジの立ち下がり時間は変わり得るが、1. 0から2.0msの範囲にあるべきである。 図23から、「who」における音素「u」は、正弦曲線補間 法により、継続時間を1.0から2.0msの範囲の値として過渡パルスを生成 することにより形成できることがわかる。望ましい継続時間は約1.5msであ る。 図24は、デンマーク語の単語「φse」における音素「φ」のパルスを示す 図である。ここで先導エッジは0.4から0.6msの範囲の立ち上がり時間と することができる。衰微エッジの立ち下がり時間は1.0から2.0msの範囲 にあるべきである。 図25は、デンマーク語の単語「lys」における音素「y」のパルスを示す図 である。ここで先導エッジは1.0から2.0msの範囲の立ち上がり時間とす ることができる。衰微エッジの立ち下がり時間もまた1.0から2.0msの範 囲にあるべきである。 本発明の前述の原理に従ってヒトの話声を合成する際には、合成すべき話声を 構成する一連の音素に対応する一連の過渡パルスを生成することが望ましい。さ らにこの一連の音素は、規則に基づく変換を用いて、一連の文字から規定される ことが望ましい。 本発明の原理はまた音響製品の品質測定にも用いることができることを理解す べきである。そのような測定において、きちんと規定された過渡信号が音響製品 に伝送されるべきであり、それにより応答のひずみを測定できる。ひずみは、図 7に示された原理に従って前処理を用いることにより測定できる。 本発明の原理はまた、補聴器において、話声信号のノイズ抑 制を改善するために用いることができる。 過渡パルスの固有形状を表す特性ライブラリは、話声信号を同定し話声信号を ノイズバックグラウンドから分離するために用いることかできる。 提示した実験は、認識し生成することが非常に簡単であるが、話声あるいは音 響信号の認識と生成の全分野において大きな意義を持ち得る、音素のいくつかの 共通特性を、初めて示した。 本発明の方法とシステムの実行は、時間領域において記述されている。しかし ながら、時間領域において記述された過渡信号、過渡成分及び/又は過渡パルス はまた、周波数領域においても対応して記述することができることを理解すべき であり、このことはもちろん本発明の範囲に入るであろう。 また上に記述した信号処理の方法は、デジタル的に、又はアナログ素子を用い て電気的に、又は機械的に、又はそれらのいかなる組合せによっても実行され得 るということに注目すべきである。そのような処理方法もまた本発明の範囲に入 るであろう。
【手続補正書】特許法第184条の8 【提出日】1995年4月18日 【補正内容】 請求の範囲 1.音響信号の急激なエネルギー変化が、音響信号から取り出された過渡信号中 の過渡パルスによって表される時最大で2msの立ち上がり時間をもち、かつ、 急激なエネルギー変化の形状が、過渡パルスの形状によって表される、 音響信号 の急激なエネルギー変化の形状の、識別可能な音声像を表すものとしてヒトの耳 のような動物の耳に知覚され得る特徴を同定あるいは表現することへの使用。2. 過渡パルスの形状が包絡線検出により得られる、請求の範囲第項記載の使 用。3. 異なる音声像が音素である、前記請求の範囲のいずれかに記載の使用。4.最大で2msの立ち上がり時間をもつ音響信号中の急激なエネルギー変化を 表す過渡パルスを含む過渡信号を音響信号から取り出し、信号中のこれらの過渡 パルスの主たるパルスを選択し、主たるパルスの形状を識別可能な音声像を表す 予め規定された過渡信号パルスと比較することからなる、 識別可能な音声像を表 す場合にヒトの耳のような動物の耳に知覚され得る急激なエネルギー変化を音響 信号において同定する方法。5. 過渡パルスの形状が音響信号におけるエネルギー変化の過渡応答の包絡線検 出により得られる、請求の範囲第項記載の方法。6.音響信号の急激なエネルギー変化に対応する過渡成分を抽出することを含み 、ひき続き過渡成分の包絡線の検出がなされ、前記包絡線検出が、最大で2ms の立ち上がり時間をもつ急激なエネルギー変化を表す過渡パルスを含む過渡信号 をその抽出した過渡成分から得るような方法で実行される、 信号の情報を実質的 に保持しながら信号の帯域幅を縮小するため音響信号を処理する方法。7. 識別可能な音声像を表す場合にヒトの耳などの動物の耳に知覚され得る信号 の過渡パルス形状が同定される、請求の範囲第項記載の方法。8. 識別可能な音声像が音素である、請求の範囲第項記載の方法。9. パルスの先導エッジの形状が同定される、請求の範囲第4項または第項記 載の方法。10. 先導エッジの形状が先導エッジの少なくとも一部分の立ち上がり時間、勾 配及び/又は勾配変動を決定することにより 決定される、請求の範囲第項記載の方法。11. 先導エッジの少なくとも頂上部分の立ち上がり時間、勾配及び/又は勾配 変動が決定される、請求の範囲第10項記載の方法。12. 頂上部分が、勾配が最大である点から実質的に始まる部分である、請求の 範囲第11項記載の方法。13. 少なくとも5つの試料に基づいて先導エッジの立ち上がり時間、勾配及び /又は勾配変動が決定される、請求の範囲第10項記載の方法。14. 先導エッジの形状の同定が参照ライブラリとの比較を用いて実行される、 請求の範囲第項から第13項までのいずれかに記載の方法。15. 比較がなされる参照物が先導エッジの立ち上がり時間に基づいて選択され る、請求の範囲第14項記載の方法。16. パルスの継続時間が同定される、請求の範囲第4または第項記載の方法 。17. パルスの継続時間が予め規定された振幅での先導エッジ から衰微エッジへの距離として決定される、請求の範囲第16項記載の方法。18. 予め規定された振幅がパルスの最大振幅の多くとも50%の振幅である、 請求の範囲第17項記載の方法。19. 動物の耳によって知覚され得ないパルスが同定から除外される、請求の範 囲第項から第18項までのいずれかに記載の方法。20. 先導エッジが先行パルスの振幅の50%未満の振幅をもち、立ち上がり時 間が3.5ms未満であるようなパルスが無視される、請求の範囲第19項記載 の方法。21. パルスの衰微エッジの形状が同定される、請求の範囲第項から第20項 までのいずれかに記載の方法。22. 衰微エッジの形状が先導エッジの少なくとも一部分の立ち下がり時間、勾 配及び/又は勾配変動を決定することにより決定される、請求の範囲第21項記 載の方法。23. 動物の耳によって知覚され得るパルスの先導エッジ間の時間間隔が決定さ れる、請求の範囲第項から第21項までのいずれかに記載の方法。24. 互いに少なくとも3msの距離をもつ先導エッジ間の時間間隔が決定され る、請求の範囲第23項記載の方法。25. 請求の範囲第から第24項までのいずれかに記載の方法によって信号を 処理し、処理した信号を伝送し、処理した信号を受信機で受信することを含む、 音響信号を遠距離通信する方法。26. 処理した信号の伝送の前に、信号がデジタル表現に符号化され、音響信号 の識別可能な音声像を表す場合にヒトの耳などの動物の耳に知覚される過渡パル ス形状を再現するため、符号化された信号が受信機において復号化される、請求 の範囲第25項記載の方法。27. デジタル伝送が最大で毎秒4000ビットの帯域幅で実行される、請求の 範囲第26項記載の方法。28. 帯域幅が最大で毎秒2000ビットである、請求の範囲第27項記載の方 法。29. 帯域幅が毎秒800から2000ビットの区間にある、請求の範囲第28 項記載の方法。30 .デジタル情報が先導エッジと衰微エッジと過渡パルスの継続時間について の情報を含む、請求の範囲第26から第29項までのいずれかに記載の方法。31. 一連の同一パルスにおいて第2および後続のパルスが繰り返しを指し示す デジタル符号によって表される、請求の範囲第26項から第30項までのいずれ かに記載の方法。32. 過渡成分の抽出が帯域通過濾波または高域通過濾波を含む、請求の範囲第 項から第24項までのいずれかに記載の方法。33. 包絡線検出が整流と低域通過濾波とを含む、請求の範囲第項から第24 項までと第32項のいずれかに記載の方法。34. 帯域通過濾波あるいは高域通過濾波の下側遮断周波数が例えば約3kHz のように、少なくとも2kHzである、請求の範囲第32項記載の方法。35. 上側遮断周波数が4.5から7kHzの範囲に、望ましくは約6kHzで ある、請求の範囲第32項または第34項記載の方法。36. 整流が一方向整流である、請求の範囲第33項記載の方 法。37. 低域通過濾波の遮断周波数が400から1000Hzの範囲に、望ましく は約700Hzである、請求の範囲第33項または第36項記載の方法。38. 包絡線検出が濾波器のバンクによる帯域通過濾波を含む、請求の範囲第 項から第24項までと請求の範囲第32項のいずれかに記載の方法。39. 先導エッジの立ち上がり時間が最大0.5msで継続時間が最大で1.1 msの過渡パルスを同定または生成することを含む、「heat」における音素「i 」を同定または表現する方法。40. 先導エッジの立ち上がり時間が最大で0.4ms、望ましくは最大で0. 3msである、請求の範囲第39項記載の方法。41. 継続時間が最大で1.0ms、望ましくは約0.8msである、請求の範 囲第39項または第40項記載の方法。42. 先導エッジの立ち上がり時間が最大0.5msで継続時間が1.3から1 .8msの過渡パルスを同定または生成する ことを含む、「hop」における音素「o」を同定または表現する方法。43. 先導エッジの立ち上がり時間が最大で0.4ms、望ましくは最大で0. 3msである、請求の範囲第42項記載の方法。44. 衰微エッジの立ち下がり時間が最大で0.5ms、望ましくは最大で0. 4ms、より望ましくは最大で0.3msである、請求の範囲第39項または第40 項記載の方法。45. 先導エッジの立ち上がり時間が最大0.5msで継続時間が1.3から1 .8msの過渡パルスを同定または生成することを含む、英語の単語「ongaonga 」あるいはデンマーク語の単語「Ole」における音素「o」を同定または表現す る方法。46. 正弦曲線補間法により継続時間が1.0から2.0ms、望ましくは約1 .5msの過渡パルスを同定または生成することを含む、英語の単語「who」に おける音素「u」を同定または表現する方法。47. 話声認識に用いられる時の、請求の範囲第1項から第24項までと請求の 範囲第29項から第46項までのいずれかに記載の方法。48. 話声圧縮に用いられる、請求の範囲第1項から第5項までと請求の範囲第39 項から第46項までのいずれかに記載の方法。49. 合成する話声を構成する一連の音素に対応する一連の過渡パルスを生成す ることを含む、ヒトの話声を合成するために用いられる時の、請求の範囲第1項 から第項までと請求の範囲第39項から第46項までのいずれかに記載の方法 。50. 一連の音素が、規則に基づく変換を用いて一連の文字から規定される、請 求の範囲第49項記載の方法。51. ラウドスピーカー、補聴器あるいは遠距離通信システムであることが望ま しい音響製品の品質測定に用いられる、請求の範囲第1項から第項までと請求 の範囲第39項から第46項までのいずれかに記載の方法。52. 室内あるいは屋外での音響条件の品質測定に用いられる、請求の範囲第1 項から第5項までと請求の範囲第39項から第46項までのいずれかに記載の方 法。53.音響信号の急激なエネルギー変化に対応する過渡成分を抽出する手段と、 過渡成分の包絡線を検出する手段とを備え、 前記包絡線検出手段が最大で2msの立ち上がり時間をもつ急激なエネルギー変 化を表す過渡パルスを含む過渡信号をその抽出した過渡成分から取り出すように 調整される、 信号の情報を実質的に保持しながら信号の帯域幅を縮小するため音 響信号を処理するシステム。54. 過渡パルスの形状に基づきエネルギー変化を同定あるいは表現する手段を さらに備える、請求の範囲第53項記載のシステム。55. 過渡成分抽出のための手段が帯域通過濾波器または高域通過濾波器を備え る、請求の範囲第53項または第54項記載のシステム。56. 包絡線検出手段が整流器と低域通過濾波器とを備える、請求の範囲第53 項から第55項までのいずれかに記載のシステム。57. 帯域通過濾波器あるいは高域通過濾波器の下側遮断周波数が例えば約3k Hzのように、少なくとも2kHzである、請求の範囲第55項または第56項 記載のシステム。58. 帯域通過濾波器の上側遮断周波数が4.5から7kHzの範囲に、望まし くは約6kHzである、請求の範囲第55項 から第57項までのいずれかに記載のシステム。59. 整流器が一方向整流器である、請求の範囲第56項から第58項までのい ずれかに記載のシステム。60. 低域通過濾波器の遮断周波数が400から1000Hzの範囲に、望まし くは約700Hzである、請求の範囲第56項から第59項までのいずれかに記 載のシステム。61. 包絡線検出手段が濾波器バンクを備える、請求の範囲第53項または第 項記載のシステム。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FR,GB,GR,IE,IT,LU,M C,NL,PT,SE),OA(BF,BJ,CF,CG ,CI,CM,GA,GN,ML,MR,NE,SN, TD,TG),AT,AU,BB,BG,BR,BY, CA,CH,CN,CZ,CZ,DE,DE,DK,D K,ES,FI,FI,GB,GE,HU,JP,KG ,KP,KR,KZ,LK,LU,LV,MD,MG, MN,MW,NL,NO,NZ,PL,PT,RO,R U,SD,SE,SI,SK,SK,TJ,TT,UA ,US,UZ,VN 【要約の続き】 システムとして用いることができる。本発明の方法とシ ステムは、話声認識、話声合成、狭帯域遠距離通信、補 聴器、および音響製品の品質管理の分野において用いる ことができる。

Claims (1)

  1. 【特許請求の範囲】 1.音響信号のエネルギー変化の形状の、識別可能な音声像を表すものとしてヒ トの耳のような動物の耳に知覚され得る特徴を同定あるいは表現することへの使 用。 2.音響信号のエネルギー変化の形状が信号の過渡パルスの形状によって表され る、請求の範囲第1項記載の使用。 3.過渡パルスの形状が包絡線検出により得られる、請求の範囲第2項記載の使 用。 4.異なる音声像が音素である、前記請求の範囲のいずれかに記載の使用。 5.信号のエネルギー変化の形状を識別可能な音声像を表す予め規定されたエネ ルギー変化形状と比較することからなり、識別可能な音声像を表すものとしてヒ トの耳のような動物の耳に知覚され得るエネルギー変化を音響信号において同定 する方法。 6.エネルギー変化の形状が信号の過渡パルスの形状で表される、請求の範囲第 5項記載の方法。 7.過渡パルスの形状が音響信号におけるエネルギー変化の過渡応答の包絡線検 出により得られる、請求の範囲第6項記載の方法。 8.音響信号の過渡成分を抽出することと過渡成分の包絡線を検出することをか らなる、信号の情報を実質的に保持しながら信号の帯域幅を縮小するため音響信 号を処理する方法。 9.識別可能な音声像を表す場合にヒトの耳のような動物の耳に知覚され得る信 号の過渡パルス形状が同定される、請求の範囲第8項記載の方法。 10.識別可能な音声像が音素である、請求の範囲第9項記載の方法。 11.パルスの先導エッジの形状が同定される、請求の範囲第6項または第9項 記載の方法。 12.先導エッジの形状が先導エッジの少なくとも一部分の立ち上がり時間、勾 配及び/又は勾配変動を決定することにより決定される、請求の範囲第11項記 載の方法。 13.先導エッジの少なくとも頂上部分の立ち上がり時間、勾配及び/又は勾配 変動が決定される、請求の範囲第12項記載 の方法。 14.頂上部分が、勾配が最大である点から実質的に始まる部分である、請求の 範囲第13項記載の方法。 15.少なくとも5つの試料に基づいて先導エッジの立ち上がり時間、勾配及び /又は勾配変動が決定される、請求の範囲第12項記載の方法。 16.先導エッジの形状の同定が参照ライブラリとの比較を用いて実行される、 請求の範囲第11項から15項までのいすれかに記載の方法。 17.比較がなされる参照物が先導エッジの立ち上がり時間に基づいて選択され る、請求の範囲第16項記載の方法。 18.パルスの継続時間が同定される、請求の範囲第6項または第9項記載の方 法。 19.パルスの継続時間が予め規定された振幅での先導エッジから衰微エッジへ の距離として決定される、請求の範囲第18項記載の方法。 20.予め規定された振幅がパルスの最大振幅の多くとも50 %の振幅である、請求の範囲第19項記載の方法。 21.動物の耳によって知覚され得ないパルスが同定から除外される、請求の範 囲第11項から第20項までのいずれかに記載の方法。 22.先導エッジが先行パルスの振幅の50%未満の振幅をもち、立ち上がり時 間が3.5ms未満であるようなパルスが無視される、請求の範囲第21項記載 の方法。 23.パルスの衰微エッジの形状が同定される、請求の範囲第11項から第22 項までのいずれかに記載の方法。 24.衰微エッジの形状が先導エッジの少なくとも一部分の立ち下がり時間、勾 配及び/又は勾配変動を決定することにより決定される、請求の範囲第23項記 載の方法。 25.動物の耳によって知覚され得るパルスの先導エッジ間の時間間隔が決定さ れる、請求の範囲第11項から第23項までのいずれかに記載の方法。 26.互いに少なくとも3msの距離をもつ先導エッジ間の時間間隔が決定され る、請求の範囲第25項記載の方法。 27.請求の範囲第8項から第26項までのいずれかに記載の方法によって信号 を処理し、処理した信号を伝送し、処理した信号を受信機で受信することを含む 、音響信号を遠距離通信する方法。 28.処理した信号の伝送の前に、信号がデジタル表現に符号化され、音響信号 の異なる音声像を表すものとしてヒトの耳などの動物の耳に知覚される過渡パル ス形状を再現するため、符号化された信号が受信機において復号化される、請求 の範囲第27項記載の方法。 29.デジタル伝送が最大で毎秒4000ビットの帯域幅で実行される、請求の 範囲第28項記載の方法。 30.帯域幅が最大で毎秒2000ビットである、請求の範囲第29項記載の方 法。 31.帯域幅が毎秒800から2000ビットの区間にある、請求の範囲第30 項記載の方法。 32.デジタル情報が先導エッジと衰微エッジと過渡パルスの継続時間について の情報を含む、請求の範囲第28項から第31項までのいずれかに記載の方法。 33.一連の同一パルスにおいて第2および後続のパルスが繰り返しを指し示す デジタル符号によって表される、請求の範囲第28項から第32項までのいずれ かに記載の方法。 34.過渡成分の抽出が帯域通過濾波または高域通過濾波を含む、請求の範囲第 8項から第26項までのいずれかに記載の方法。 35.包絡線検出が整流と低域通過濾波とを含む、請求の範囲第8項から第26 項までと請求の範囲第34項のいずれかに記載の方法。 36.帯域通過濾波あるいは高域通過濾波の下側遮断周波数が例えば約3kHz のように、少なくとも2kHzである、請求の範囲第34項記載の方法。 37.上側遮断周波数が4.5から7kHzの範囲に、望ましくは約6kHzで ある、請求の範囲第34項または第36項に記載の方法。 38.整流が一方向整流である、請求の範囲第35項記載の方法。 39.低域通過濾波の遮断周波数が400から1000Hzの 範囲に、望ましくは約700Hzである、請求の範囲第35項または第38項に 記載の方法。 40.包絡線検出が濾波器のバンクによる帯域通過濾波を含む、請求の範囲第8 項から第26項までと第34項のいずれかに記載の方法。 41.先導エッジの立ち上がり時間が最大0.5msで継続時間が最大で1.1 msの過渡パルスを同定または生成することを含む、「heat」における音素「i 」を同定または表現する方法。 42.先導エッジの立ち上がり時間が最大で0.4ms、望ましくは最大で0. 3msである、請求の範囲第41項記載の方法。 43.継続時間が最大で1.0ms、望ましくは約0.8msである、請求の範 囲第41項または第42項に記載の方法。 44.先導エッジの立ち上がり時間が最大0.5msで継続時間が1.3から1 .8msの過渡パルスを同定または生成することを含む、「hop」における音素 「o」を同定または表現する方法。 45.先導エッジの立ち上がり時間が最大で0.4ms、望ましくは最大で0. 3msである、請求の範囲第44項記載の方法。 46.衰微エッジの立ち下がり時間が最大で0.5ms、望ましくは最大で0. 4ms、より望ましくは最大で0.3msである、請求の範囲第41項または第 42項記載の方法。 47.先導エッジの立ち上がり時間が最大0.5msで継続時間が1.3から1 .8msの過渡パルスを同定または生成することを含む、英語の単語「ongaonga 」あるいはデンマーク語の単語「Ole」における音素「o」を同定または表現す る方法。 48.正弦曲線補間法により継続時間が1.0から2.0ms、望ましくは約1 .5msの過渡パルスを同定または生成することを含む、英語の単語「who」に おける音素「u」を同定または表現する方法。 49.話声認識に用いられる時の、請求の範囲第1項から第26項までと請求の 範囲第41項から第48項までのいずれかに記載の方法。 50.話声圧縮に用いられる、請求の範囲第1項から第7項までと請求の範囲第 41項から第48項までのいずれかに記載の方法。 51.合成する話声を構成する一連の音素に対応する一連の過渡パルスを生成す ることを含む、ヒトの話声を合成するために用いられる時の、請求の範囲第1項 から第7項までと請求の範囲第41項から第48項までのいずれかに記載の方法 。 52.一連の音素が、規則に基づく変換を用いて一連の文字から規定される、請 求の範囲第51項記載の方法。 53.ラウドスピーカー、補聴器あるいは遠距離通信システムであることが望ま しい音響製品の品質測定に用いられる、請求の範囲第1項から第7項までと請求 の範囲第41項から第48項までのいずれかに記載の方法。 54.室内あるいは屋外での音響条件の品質測定に用いられる、請求の範囲第1 項から第7項までと請求の範囲第41項から第48項までのいずれかに記載の方 法。 55.音響信号の過渡成分を抽出する手段と過渡成分の包絡線を検出する手段を 備える、信号の情報を実質的に保持しながら信号の帯域幅を縮小するため音響信 号を処理するシステム。 56.過渡パルスの形状に基づきエネルギー変化を同定あるいは表現する手段を さらに備える、請求の範囲第55項記載のシ ステム。 57.過渡成分抽出のための手段が帯域通過濾波器または高域通過濾波器を備え る、請求の範囲第55項または第56項記載のシステム。 58.包絡線検出手段が整流器と低域通過濾波器とを備える、請求の範囲第55 項から第57項までのいずれかに記載のシステム。 59.帯域通過濾波器あるいは高域通過濾波器の下側遮断周波数が例えば約3k Hzのように、少なくとも2kHzである、請求の範囲第57項または第58項 記載のシステム。 60.帯域通過濾波器の上側遮断周波数が4.5から7kHzの範囲に、望まし くは約6kHzである、請求の範囲第57項から第59項までのいずれかに記載 のシステム。 61.整流器が一方向整流器である、請求の範囲第58項から第60項までのい ずれかに記載のシステム。 62.低域通過濾波器の遮断周波数が400から1000Hzの範囲に、望まし くは約700Hzである、請求の範囲第58項から第61項までのいずれかに記 載のシステム。 63.包絡線検出手段が濾波器バンクを備える、請求の範囲第55項または第5 6項に記載のシステム。
JP52376294A 1993-04-22 1994-04-22 音響信号中の過渡状態を検出し生成する方法とシステム Expired - Fee Related JP3636460B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DK0464/93 1993-04-22
DK93464A DK46493D0 (da) 1993-04-22 1993-04-22 Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler
PCT/DK1994/000164 WO1994025958A2 (en) 1993-04-22 1994-04-22 Method and system for detecting and generating transient conditions in auditory signals

Publications (2)

Publication Number Publication Date
JPH08509556A true JPH08509556A (ja) 1996-10-08
JP3636460B2 JP3636460B2 (ja) 2005-04-06

Family

ID=8093848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52376294A Expired - Fee Related JP3636460B2 (ja) 1993-04-22 1994-04-22 音響信号中の過渡状態を検出し生成する方法とシステム

Country Status (11)

Country Link
US (1) US5884260A (ja)
EP (1) EP0737351B1 (ja)
JP (1) JP3636460B2 (ja)
KR (1) KR960702145A (ja)
CN (1) CN1158642C (ja)
AT (1) ATE178155T1 (ja)
AU (1) AU6535994A (ja)
DE (1) DE69417445T2 (ja)
DK (1) DK46493D0 (ja)
FI (1) FI955025A (ja)
WO (1) WO1994025958A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030083903A (ko) * 2002-04-23 2003-11-01 엘지전자 주식회사 텍스트/음성변환을 위한 음소 경계 조정방법

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6785696A (en) * 1995-09-05 1997-03-27 Frank Uldall Leonhard Method and system for processing auditory signals
US6424722B1 (en) * 1997-01-13 2002-07-23 Micro Ear Technology, Inc. Portable system for programming hearing aids
US7787647B2 (en) * 1997-01-13 2010-08-31 Micro Ear Technology, Inc. Portable system for programming hearing aids
US6366863B1 (en) * 1998-01-09 2002-04-02 Micro Ear Technology Inc. Portable hearing-related analysis system
WO1999048085A1 (en) * 1998-03-13 1999-09-23 Frank Uldall Leonhard A signal processing method to analyse transients of speech signals
AUPQ366799A0 (en) * 1999-10-26 1999-11-18 University Of Melbourne, The Emphasis of short-duration transient speech features
GB9928420D0 (en) * 1999-12-02 2000-01-26 Ibm Interactive voice response system
DK1252799T3 (da) * 2000-01-20 2012-01-23 Starkey Lab Inc Fremgangsmåde og apparat til tilpasning af høreapparater
KR100780561B1 (ko) * 2000-03-15 2007-11-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 라게르 함수를 이용한 오디오 코딩 장치 및 방법
DE10031832C2 (de) * 2000-06-30 2003-04-30 Cochlear Ltd Hörgerät zur Rehabilitation einer Hörstörung
AU2001289594A1 (en) * 2000-09-20 2002-04-02 Leonhard Research A/S A method of measuring the impulse response capability of a system
WO2002080618A1 (en) * 2001-03-30 2002-10-10 Leonhard Research A/S Noise suppression in measurement of a repetitive signal
ATE334556T1 (de) * 2001-04-18 2006-08-15 Koninkl Philips Electronics Nv Audiokodierung mit partieller enkryption
EP1280138A1 (de) * 2001-07-24 2003-01-29 Empire Interactive Europe Ltd. Verfahren zur Analyse von Audiosignalen
JP2003256265A (ja) * 2002-02-18 2003-09-10 Internatl Business Mach Corp <Ibm> 検索メモリ、メモリ検索用コントローラ、メモリ検索方法
JP2003256267A (ja) * 2002-02-28 2003-09-10 Internatl Business Mach Corp <Ibm> データ処理方法、これを用いたメモリ領域検索システム及びプログラム
DE10214407C1 (de) * 2002-03-30 2003-06-18 Klippel Gmbh Anordnung und Verfahren zur Messung, Bewertung und Störungserkennung von Systemen
CN100339886C (zh) * 2003-04-10 2007-09-26 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
US20050010413A1 (en) * 2003-05-23 2005-01-13 Norsworthy Jon Byron Voice emulation and synthesis process
ATE422696T1 (de) * 2003-08-06 2009-02-15 Frank Uldall Leonhard Verfahren zur analyse von impulsen enthaltenden signalen
US20050091060A1 (en) * 2003-10-23 2005-04-28 Wing Thomas W. Hearing aid for increasing voice recognition through voice frequency downshift and/or voice substitution
US7472827B2 (en) * 2004-05-17 2009-01-06 American Express Travel Related Services Company, Inc. Limited use PIN system and method
US20060112812A1 (en) * 2004-11-30 2006-06-01 Anand Venkataraman Method and apparatus for adapting original musical tracks for karaoke use
DE102005043314B4 (de) * 2005-09-12 2009-08-06 Siemens Audiologische Technik Gmbh Verfahren zum Dämpfen von Störschall und entsprechende Hörvorrichtung
DK1925185T3 (da) * 2005-09-12 2009-04-20 Siemens Audiologische Technik Fremgangsmåde til dæmpning af interfererende stöj og tilsvarende höreapparat
CA2601662A1 (en) 2006-09-18 2008-03-18 Matthias Mullenborn Wireless interface for programming hearing assistance devices
US8046218B2 (en) * 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features
EP2031581A1 (de) 2007-08-31 2009-03-04 Deutsche Thomson OHG Verfahren zum Erkennen eines akustischen Ereignisses in einem Audio-Signal
US8983832B2 (en) * 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US20110178799A1 (en) * 2008-07-25 2011-07-21 The Board Of Trustees Of The University Of Illinois Methods and systems for identifying speech sounds using multi-dimensional analysis
US8326625B2 (en) * 2009-11-10 2012-12-04 Research In Motion Limited System and method for low overhead time domain voice authentication
US8321209B2 (en) 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
US10129671B2 (en) * 2013-02-22 2018-11-13 Securboration, Inc. Hearing device adjustment based on categorical perception
EP2858381A1 (en) * 2013-10-03 2015-04-08 Oticon A/s Hearing aid specialised as a supplement to lip reading
US9498626B2 (en) * 2013-12-11 2016-11-22 Med-El Elektromedizinische Geraete Gmbh Automatic selection of reduction or enhancement of transient sounds
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DE102017212431A1 (de) * 2017-07-20 2019-01-24 Robert Bosch Gmbh Verfahren und Vorrichtung zur Verarbeitung eines Signals
CN110638465A (zh) * 2019-08-30 2020-01-03 南方医科大学 一种听觉反应的瞬态成分提取方法、系统及存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE143540C (ja) *
DE2109436A1 (de) * 1970-03-04 1972-08-03 Dreyfus J Amphtudenregler für elektrische Signale
DE2240557A1 (de) * 1971-08-18 1973-02-22 Jean Albert Dreyfus Spracherkennungsvorrichtung zum steuern von maschinen
US3919479A (en) * 1972-09-21 1975-11-11 First National Bank Of Boston Broadcast signal identification system
US3855418A (en) * 1972-12-01 1974-12-17 F Fuller Method and apparatus for phonation analysis leading to valid truth/lie decisions by vibratto component assessment
US3940565A (en) * 1973-07-27 1976-02-24 Klaus Wilhelm Lindenberg Time domain speech recognition system
SU591908A1 (ru) * 1976-09-02 1978-02-05 Киевское Высшее Инженерное Радиотехническое Училище Противоздушной Обороны Сегментатор речевых сигналов
DE2720666A1 (de) * 1977-05-07 1978-11-09 Philips Patentverwaltung Verfahren und anordnung zur geraeuschanalyse
SU898496A1 (ru) * 1980-05-20 1982-01-15 Львовский Государственный Университет Им.И.Франко Способ опознавани диктора
SE8106186L (sv) * 1981-10-20 1983-04-21 Hans Olof Kohler Forfarande och anordning for att bestemma en analyssignals overenstemmelse med minst en referenssignal
JPS5972494A (ja) * 1982-10-19 1984-04-24 株式会社東芝 規則合成方式
US4817155A (en) * 1983-05-05 1989-03-28 Briar Herman P Method and apparatus for speech analysis
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
US4701953A (en) * 1984-07-24 1987-10-20 The Regents Of The University Of California Signal compression system
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
GB2186160B (en) * 1986-01-24 1989-11-01 Racal Data Communications Inc Method and apparatus for processing speech signals
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
DE3683767D1 (de) * 1986-04-30 1992-03-12 Ibm Sprachkodierungsverfahren und einrichtung zur ausfuehrung dieses verfahrens.
DE3734446A1 (de) * 1987-10-12 1989-06-15 Telefonbau & Normalzeit Gmbh Verfahren und schaltungsanordnung zur stoergeraeuschkompensation fuer ein mikrofon
KR0136608B1 (ko) * 1987-12-08 1998-11-16 오오가 노리오 음성신호 검색용 음성인식 장치
JPH027099A (ja) * 1988-06-27 1990-01-11 Toshiba Corp 過大音声検出装置
JP2504171B2 (ja) * 1989-03-16 1996-06-05 日本電気株式会社 声門波形に基づく話者識別装置
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5035242A (en) * 1990-04-16 1991-07-30 David Franklin Method and apparatus for sound responsive tactile stimulation of deaf individuals
DE4203436A1 (de) * 1991-02-06 1992-08-13 Koenig Florian Datenreduzierte sprachkommunikation
DE4106346C2 (de) * 1991-02-28 1997-04-10 Philips Patentverwaltung Anordnung zur Erkennung von Wörtern in einem Sprachsignal
DE4106347A1 (de) * 1991-02-28 1992-09-03 Philips Patentverwaltung Anordnung zur erkennung der woerter in einem sprachsignal
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
AUPQ515000A0 (en) * 2000-01-19 2000-02-10 Grigg, Geoffrey Walter Treatment of uv induced immunosuppression

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030083903A (ko) * 2002-04-23 2003-11-01 엘지전자 주식회사 텍스트/음성변환을 위한 음소 경계 조정방법

Also Published As

Publication number Publication date
EP0737351A1 (en) 1996-10-16
US5884260A (en) 1999-03-16
WO1994025958A2 (en) 1994-11-10
CN1125010A (zh) 1996-06-19
DE69417445D1 (de) 1999-04-29
DK46493D0 (da) 1993-04-22
EP0737351B1 (en) 1999-03-24
FI955025A0 (fi) 1995-10-20
ATE178155T1 (de) 1999-04-15
AU6535994A (en) 1994-11-21
CN1158642C (zh) 2004-07-21
KR960702145A (ko) 1996-03-28
JP3636460B2 (ja) 2005-04-06
WO1994025958A3 (en) 1995-02-02
DE69417445T2 (de) 1999-11-25
FI955025A (fi) 1995-12-15

Similar Documents

Publication Publication Date Title
JPH08509556A (ja) 音響信号中の過渡状態を検出し生成する方法とシステム
Rabiner et al. A comparative performance study of several pitch detection algorithms
Slaney et al. A perceptual pitch detector
US4051331A (en) Speech coding hearing aid system utilizing formant frequency transformation
JP4177755B2 (ja) 発話特徴抽出システム
US4829574A (en) Signal processing
JP2005275410A (ja) ニューラルネットワークを利用してスピーチ信号を分離する。
US9640193B2 (en) Systems and methods for enhancing place-of-articulation features in frequency-lowered speech
Heinbach Aurally adequate signal representation: The part-tone-time-pattern
CN112863550B (zh) 基于注意力残差学习的哭声检测方法及系统
JPH05307399A (ja) 音声分析方式
CN116386589A (zh) 一种基于智能手机加速度传感器的深度学习语音重建方法
EP1293961B1 (en) A signal processing method to analyse transients of a speech signal
CN109272996A (zh) 一种降噪方法及系统
He et al. Time-frequency feature extraction from spectrograms and wavelet packets with application to automatic stress and emotion classification in speech
JPH0318720B2 (ja)
JPH0235994B2 (ja)
JPS635398A (ja) 音声分析方式
CN116682445A (zh) 基于特征识别的智能语音降噪系统及方法
Yoo et al. Relative energy and intelligibility of transient speech components
CN112397077A (zh) 一种音频风格转换方法和系统
CN118102544A (zh) 灯光控制方法、装置、电子设备及存储介质
Schauer Very low frequency characteristics of speech
JP2001013977A (ja) 音声スペクトルのホルマント強調装置
JPS62296198A (ja) 音声合成方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040616

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees