JP2002507776A - 音声信号の過渡現象を解析するための信号処理方法 - Google Patents

音声信号の過渡現象を解析するための信号処理方法

Info

Publication number
JP2002507776A
JP2002507776A JP2000537203A JP2000537203A JP2002507776A JP 2002507776 A JP2002507776 A JP 2002507776A JP 2000537203 A JP2000537203 A JP 2000537203A JP 2000537203 A JP2000537203 A JP 2000537203A JP 2002507776 A JP2002507776 A JP 2002507776A
Authority
JP
Japan
Prior art keywords
signal
parameters
transient
filter
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000537203A
Other languages
English (en)
Inventor
レオンハルト,フランク,ウルダル
Original Assignee
レオンハルト,フランク,ウルダル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by レオンハルト,フランク,ウルダル filed Critical レオンハルト,フランク,ウルダル
Publication of JP2002507776A publication Critical patent/JP2002507776A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Abstract

(57)【要約】 この発明は、パラメータに関する情報を含む信号を生成するシステムのバラメータを決定する方法と装置に関する。その方法は信号を短時間ラプラス変換する工程を備え、1つ以上の所定のパラメータにより、問題のシステムを、パラメータ値の所定範囲で規定した一組の所定の組の1つの組に分類するために用いられる。この発明はまた、信号を生成するシステムの特徴を認定又は表現するために信号のエネルギー変化の形状を使用することに関する。これは、例えばヒトの耳によって知覚可能な音声の特徴を、明白な音画を表すように認識するために適用される。例えば、音声認識に関連する信号情報は、音声信号の過渡部分に存在する。

Description

【発明の詳細な説明】 【0001】 この発明は、パラメータに関する情報を含む信号を生成するシステムのパラメ
ータ決定方法に関する。 音声認識におけるような音や音声の認定のために、又は拡声器,補聴器,遠距
離通信システムのような音響製品やシステムの特性測定のために、あるいは音響
条件の音質測定のために、この方法は用いられる。 この方法はまた、製造された装置からその作動中に発生する機械的振動を、例
えばその装置の故障の検出のために解析する場合にも用いられる。 【0002】 この方法はさらに、例えば、電気脳造影器,電気筋運動記録器等からの信号の
解析のような神経電気信号の解析用に、電気生物学において用いられる。 【0003】 発明の背景 信号処理の従来技術の方法は、信号の短時間フーリエ変換に基づくものであり
、その信号は定常状態の信号であると考えられている。定常状態解析においては
、信号が解析され定常状態スペクトルが演算される間、信号は変化しないものと
考えられている。 実生活においては、定常状態信号は生じないので、定常状態解析は、種々の科
学的および技術的分野における現象についての十分な情報を提供しない。例えば
、音声解析を考えてみよ。ヒトの耳は、複数の短時間の音響信号を同時に捕え、
それらの音響の周波数を非常に正確に検出し、複雑な音響環境の中で音響信号間
の差異を検出する能力を有している。例えば、楽器の伴奏で歌手が何を歌ってい
るか理解することができる。 【0004】 ヒトの耳の中の蝸牛は、ヒトの耳の周波数範囲内で多数の帯域フィルタを備え
ると見なすことができると考えられる。1つの帯域フィルタの励起による応答f
(t)は2つの要素,過渡応答ft(t)と定常状態応答fs(t)に分離でき、
f(t)=ft(t)+fs(t)である。 従来の信号処理は、定常状態の応答fs(t)に基づいており、過渡応答ft
t)は速く消滅するので知覚対象として重要ではないと考えられている。例えば
“Principles of Circuit Synthesis”(マグロウヒル1959年、アーネスト 5.クー,ドナルド・オー.ピダーソン著,第12頁、第9〜15行)を参照す
ると、そこには、「強い応答のみが考慮され、ネットワークの初期状態は無視さ
れる」と述べられている。 従って、学生が信号解析の世界に導かれるとき、彼らは過渡応答、つまりネッ
トワークの初期状態による応答は極めて短時間で消滅するので無視すべきである
と学ぶ。しかも、これらの過渡信号を従来の線形解析法で解析することは、むし
ろ困難である。 【0005】 非常に短い複数の音を聞いてそれらの周波数を非常に正確に検出するヒトの耳
の能力は、従来のフィルタに基づくスペクトル解析と矛盾する。帯域フィルタの
時間窓(立上り時間の2倍)は帯域幅に反比例し、tw=2/(fu−f1)であ
る。ここで、f1は下限カットオフ周波数,fuは上限カットオフ周波数である。
従って、5msの立上り時間を必要とする場合には、結果として周波数分解能は
400Hzより良くなることはない。 【0006】 これらの過渡現象の検出は高い周波数分解能と矛盾するので、これらの過渡現
象のヒトの耳による検出は、異なる方法で行われるに違いない。ヒトの耳がこれ
らの信号をどのようにして検出できるかについて今まで調査されたことはないが
、蝸牛は音を全く受けない場合には休息状態にあり、蝸牛は非常に広帯域になっ
ているという可能性がある。音響信号を受けると、蝸牛は周波数要素又は信号中
の要素に対して自らを固定し始める。従って、蝸牛はその開始時には広帯域にな
っているかも知れないが、1つ以上の安定した周波数を受取ると、蝸牛はこの又
はこれらの周波数に対して自らを高い精度で固定する。 【0007】 今日、蝸牛から発射される神経パルスは、周波数が約1.4kHzより小さい
場合には、音の周波数に同期することが知られている。周波数が1.4kHzよ
り高い場合には、パルスはランダムに、かつ、周波数の1サイクル当たり1回以
下で発射される。 フィルタバンクスペクトル解析に基づく信号処理は、GB2213623に開
示され、それは音素認識用システムを説明している。このシステムは、音声信号
の過渡部分を検出する検出手段を備えており、その過渡検出の主目的は音声スペ
クトルが最も鋭く変化するポイント、つまりピークポイントを検出することであ
る。そのピークポイントの検出は正確な音素分割のために用いられる。GB22
13623の過渡解析はスペクトル解析とスペクトルの変化に基づくものであり
、時間領域における直接的な過渡現象に基づくこの発明の過渡解析とは全く異な
る。 【0008】 発明の要旨 この発明は、信号処理の全ての公知の方法とは原理的に異なる取り組み方法を
提供するものである。実施する取り組み方法および得られる結果は、音声信号の
解析に関連した一例によって説明される。 【0009】 音声は、有声音の場合には声帯によって生成された短いパルスにより作られ、
無音声の場合には、声道の摩擦によって作られる。そのパルスは時間可変フィル
タとして働く声道により濾波される。出力応答は、ある程度定常状態にある期間
と過渡期間からなる。ある程度定常状態にある期間のみが次のパルスの生成前の
期間で若干減衰する。過渡期間は次のパルスが生成される前に十分に減衰する。 【0010】 音声信号は、通常20〜30msの期間又は時間窓では、ある程度定常状態の
期間のみを有するものと考えられることが多い。 フォルマント(formants)の配置は(フォルマントとは短時間パワースペクト
ルのエネルギーバンドである)、短時間スペクトル解析によって算出されるが、
従来は有声/無声検出、ピッチ、およびある程度定常状態のパワーと共に、音声
の明瞭度の決め手となるものと考えられてきた。しかしながら、聴覚認知の調査
の分野で行われてきた多くの観察結果は、従来の仮定に従うものではない。 【0011】 男性の声の高さより高いカットオフ周波数を有する通信経路を介して太く低い
男性の声を理解し認定できるのは何故なのか。 文字、イー(e),ビィー(b),ディー(d)の発音間の唯一の相違は、音
声信号の最初の1〜3msにあり、この情報は、解析が20〜30msの時間窓
を有する場合には見落とされる。 【0012】 これらのフォルマントの絶対的な配置を、それらの配置が異なる人々の間、特
に小さい子供と大きな男性とでは全く異なるのに、いかにして決定できるのか。 【0013】 奇数次倍音により支配されB級増幅器におけるクロスオーバひずみにより引起
こされるひずみが、偶数次倍音により支配されA級増幅器における増幅ひずみに
より引起こされるひずみよりも大きいのは何故なのか。 【0014】 短時間パワースペクトルは、音声信号が偽のフォルマントのように働くという
よりむしろ、周波数を、異なる音源および他の音源により生成される音調から識
別しない。 【0015】 母音用のフォルマントとして同じ周波数を有する3つの音調からなる信号が、
母音の最も微弱な知覚を全く与えないのは何故か。その信号は3つの分離した音
調のように聞こえる。 【0016】 耳は約1000Hzまでの信号の周波数変化に敏感で±3Hzの変化でも検出
できるのは何故か。1000Hz以上の周波数に対しては、その感受性ははるか
に低くなる。 【0017】 本願の出願人によって実行された調査によって、耳は約1.4〜1.6KHz
までの音調信号に支配され、それ以上では過渡信号に支配されるということが示
唆されるに至った。音調信号に支配されるとは、音調信号に対する応答として有
毛聴覚細胞から送出されるパルスが音調信号と同期するということである。過渡
信号に支配されるとは、ここでは、有毛聴覚細胞が通常、過渡パルスによって引
起こされる高々2msの立上りおよび立下り時間を有するエネルギー変化によっ
て活性化されるということである。 【0018】 音声信号に関して、ある程度定常状態にある期間が耳の音調支配間隔にあり、
過渡期間が過渡支配間隔にあると考えられる。過渡期間が音声の明瞭さに対して
非常に重要であると思われる。過渡期間は音声信号の過渡パルスとして見られる
。減衰する周波数のプロファイルの期間での過渡パルスの包絡線の立上り時間と
進みおよび遅れエッジの形状は、音画(sound picture)を描く。進みおよび遅 れエッジの形状、過渡パルスの動的変化と振幅変化,有声/無声検出,ピッチの
変化は、音声認識に対して明確な結果をもたらす。 【0019】 この発明の取り組み方法は、すでに述べた音声知覚観察結果の説明に関して、
多くの利点を備える。男性のピッチより高いカットオフ周波数を有する通信経路
を介しての太い男性の声を理解し認定することができる理由についての本来の説
明が与えられる。そのピッチは過渡パルス間の期間として検出される。 【0020】 フォルマントの絶対的配置は決定的ではない。過渡パルス包絡線の形状の減衰
する周波数のプロファイルは過渡期間の減衰する異なる周波数によって支配され
る。B級増幅器におけるクロスオーバひずみによって生じるひずみは、急激なエ
ネルギー変化(不要な過渡現象)を生成するが、そのエネルギー変化は同じよう
な急激なエネルギー変化を生成しないA級増幅器における振幅ひずみによって生
じるひずみより大きくなる。 【0021】 しっかりしたデータ又は遠距離の通信は変調に基づく。過渡パルスの包絡線は
一種の振幅変調、過渡又はインパルス応答変調であり、同じ利点を有する。 他の音源からの周波数が、音声の明瞭度に明確な結果をもたらす範囲の時定数
と形状を有するエネルギー変化を発する音声信号によって干渉パターンを生じる
ということはあり得ない。これは、過渡変調がノイズの多い環境や通信経路にお
いて強固であるということである。 【0022】 耳は、約1000Hzまでの周波数の変化に、多分非常に敏感であるが、それ
は神経パルスがその周波数に同期し、神経パルス間の期間がその周波数に対する
尺度となるからである。高い周波数範囲では、神経パルスは周波数に同期せず、
蝸牛内の周波数の配置のみが周波数の尺度となる。 【0023】 この発明によれば、例えば、音声認識に関連する信号情報は音声信号の過渡部
分に存在するということが見出された。従って、この発明の方法は、聴覚信号の
過渡部分の分離,過渡部分に対応する過渡パルスの生成,パルス形状の解析を含
むことができる。聴覚信号において、対応する過渡パルスは時間間隔でくり返さ
れ、これらの周期的な過渡パルスの時間間隔が、通常、解析されるか又は決定さ
れる。 【0024】 実生活において、ヒトの耳は高い周波数のエネルギー変化に反応して音素又は
音画を認識する。しかしこの発明の方法では、耳によって検出されるエネルギー
変化に対応する過渡パルスがこれらの高い周波数において抽出され、そのために
過渡パルスは、音画又は音素の明瞭な特徴を有する低い周波数範囲に好ましく変
換される。従って、この発明の原理を用いることにより、変換された低い周波数
信号を試験することにより、聴覚信号内の明白な特徴を得ることができる。 【0025】 この発明は、信号のエネルギー変化の形状を用い、例えばヒトの耳のような動
物の耳によって知覚され明瞭な音画の表現が決定される音声の特徴の認識におい
て、信号を生成するシステムの特徴を認定又は表現することに関する。 【0026】 この発明の方法は、聴覚信号の過渡状態についての表現を提供する。その方法
は、ヒトの耳の周波数範囲内の聴覚信号の帯域濾波と、低域濾波された包絡線の
検出からなり、その包絡線は信号解析の公知の方法で解析可能である。その包絡
線は信号の過渡部分の1つの表現である。 包絡線の解析時に用いる信号解析方法および選択する帯域フィルタの特性は、
解析の目的に依存する。その目的は、音声認識,音声製品や音響状態の音質測定
および狭帯域遠距離通信である。 【0027】 この発明はまた、信号を処理して信号の情報を実質的に維持しながら信号の帯
域を縮小するシステムに関する。そのシステムは聴覚信号の過渡成分を抽出する
手段をさらに備えることができ、過渡成分の包絡線を検出する手段を備えてもよ
い。 【0028】 励起パルス間の時間が、システム用のインパルス応答の時間に比べて十分に長
い場合には、信号は、その信号を生成したシステムにおける極と零によって生成
されたインパルス応答の合計に分離される。 【0029】 WO94/25958において、音声信号における過渡成分の包絡線はその認
識のために非常に重要であることが示され、さらに、インパルス応答の包絡線は
指数関数とインパルス応答によって規定される差の周波数を含むことが示されて
いる。 【0030】 減衰する湾曲関数に基づいて包絡線信号から重要な特徴を抽出する方法が記述
され、その方法を音声信号に用いる例によって、音声解析におけるその特徴の重
要性が示される。 【0031】 この発明の方法の特徴についての詳細な説明に入る前に、若干の定義を与える
。 【0032】 短時間解析において、信号の過渡成分は定義の問題である。聴覚信号に対して
、そのアイデアは、信号エネルギーの急激な変化に対して蝸牛内の応答に対応す
る応答を与える表現を得ることである。信号エネルギーの急激な変化は、聴覚信
号の過渡成分に対応する。従って、ここでは、「過渡成分」という言葉は、聴覚
信号の急激なエネルギー変化に対応するいずれの信号をも表わす。過渡成分は解
析すべき信号情報を保持し、この情報を解析するために過渡情報は独自の形状を
有する対応過渡パルスに変換される。従って、ここでは、「過渡パルス」という
言葉は、独特の形状を有し、聴覚信号の過渡成分の情報を実質的に保持し、かつ
、聴覚信号のエネルギーの急激な変化に対応するパルスにあてはまる。上述のよ
うに音声信号の過渡部分は時間間隔でくり返されるので、ここでは、「周期的」
という言葉は、過渡成分,応答又はパルスに結びつけて用いる時には、時間間隔
でくり返されるいずれの過渡成分,応答又はパルスをも表わす。 【0033】 「形状」という言葉は、いずれの任意の時間変化関数をも表わし、その関数は
、時間が限定されたものであってもなくてもよく、与えられた時間間隔Tp以内 では、その時間間隔外の振幅レベルに比較して明白に異なる振幅レベルを有する
。従って、Tpは、形状関数が時間限定されるときの形状関数の期間又はその時 間間隔外の振幅レベルに比較して明白に異なる振幅レベルを有する関数の一部の
期間である。エネルギー変化の形状から情報を抽出するために、この発明の1つ
の広い観点は、信号の過渡パルスの短時間ラプラス変換によって、エネルギー変
化の形状を表わすことに関する。しかしながら、エネルギー変化に対応する過渡
パルスを得るために種々の方法を適用することができるが、包絡線を検出する方
法を用いることが好ましく、その方法では包絡線が聴覚信号のエネルギー変化の
過渡応答から好適に検出される。 明確な音画を表わすエネルギー変化は、音素又は母音又は聴覚信号の急激なエ
ネルギー変化を与えるいずれかの他の音声である。 【0034】 この発明の1つの観点はまた、ヒトの耳のような動物の耳によって知覚され明
白な音画を表わすエネルギー変化を聴覚信号の中で認定する方法を提供すること
であり、その方法は、信号のエネルギー変化の形状を、明白な音画を表わす所定
のエネルギー変化形状と比較することからなる。その認定に関して、エネルギー
変化の形状は信号の過渡パルスの形状によって表わされることが好ましく、過渡
パルスの形状は聴覚信号のエネルギー変化の過渡応答の包絡線検出によって得ら
れることがさらに好ましい。 【0035】 この発明はまた、信号を処理して信号の情報を実質的に維持しながら信号の帯
域幅を減縮する方法に関し、その方法は信号の過渡部分を抽出することからなる
。その方法は信号の過渡部分の包絡線を検出することをさらに備えてもよい。信
号処理の公知の方法は、信号の短時間フーリエ変換に基づくものであり、信号は
定常状態信号であると考えられている。 【0036】 定常状態の解析では、信号は信号が解析される期間において定常であると仮定
され、定常状態のスペクトルが演算される。WO94/25958では、狭帯域
通信における音声の符号化と復号化、音声認識と合成、および音響製品(つまり
拡声器,増幅器および補聴器)の音質のために、過渡パルスが重要であることが
開示されている。 【0037】 過渡信号の重要な部分は、指数関数又は減衰比又は時定数である。減衰比が重
要な部分であるのは、インパルス応答が有限の期間を有するという理由からであ
る。過渡信号が聴覚に対して重要であるということは、有毛聴覚細胞からの応答
が時定数に依存することを示す。この場合には、神経細胞からの応答における減
衰比が一般に人の神経系統に重要であるという可能性がある。ロールベアリング
とギアボックスの欠陥からの衝撃によって生じる他の信号における過渡信号もま
た、多くの他の用途において重要である。過渡信号に基づいて、信号を生成する
システムの固有の時定数や周波数を決定することができる。さらに、システムの
励起パルスを決定することができる。 【0038】 図面の詳細な説明 信号の過渡部分の重要性は、信号解析において見落されてきた現象である。 インパルス又はステップ関数のいずれかに対する線形システムの応答は、その
過渡応答特性によって定義される。 図1に示す線系の時間不変システムの入出力間の関係は、入力信号とシステム
のインパルス応答とのたたみ込みとして書くことができる。 【0039】 【数3】 【0040】 システムが初期に緩和されて入力信号νi(t)がt<0に対して零である場 合には、式(1)の積分下限は零に置換えることができる。その場合、式(1)
は、システムによって実行される実際の信号処理の点から、インパルス応答によ
って果たされる重要な役割を示す。その式は、入力信号が瞬間毎にインパルス応
答により重み付けされるか、又はインパルス応答を掛け算され、時間的に特別な
点において出力が過去のすべての重み付けられた入力の合計又は積分となること
を示している。 【0041】 実際のシステムのインパルス応答は、有限の期間を有し、過渡応答は同じ期間
を有する。 図2は、次数3でカットオフ周波数700Hzのバターワース低域フィルタの
インパルス応答である。 図3は、t<0で緩和されたフィルタで、t≧0の入力として4000Hzの
音による応答を示す。 【0042】 多くの処理において、νi(t)は、次のパルスが生成される前には短期間で νi(t)≒0のパルスである。 信号ν(t)のラプラス変換は 【0043】 【数4】により定義される。 【0044】 ν(t)が2つの複素極をもつシステムのインパルス応答h(t)である場合
には、 【0045】 【数5】 であり、t<0で0、S≠(σ0±jω0)である。 ラプラス変換は、 【数6】 又は 【数7】 である。 【0046】 式(4)から、(σ,ω)→(−σ0,±ω0)のとき、H(σ,ω)→±∞と
なる。 これは公知の現像であり、これの論理的な意義は次の通りである。 解析された信号が、信号を生成するシステムのインパルス応答によって支配さ
れる場合には、そのシステムの固有の次定数と周波数を決定することが可能であ
る。 【0047】 図5は、ω=ω1、ω=ω2に対するH(σ,ω)を示す。 jω軸に沿うか又は平行に信号を解析することによって、与えられたσについ
て周波数プロファイルが得られる。 信号が特定の周波数に対して著しく変化する時定数プロファイルを有する場合
には、信号は過渡現象で特徴づけられる。逆に信号がいずれの周波数に対しても
さほど著しく変化しない場合には、その信号は定常状態によって特徴づけられる
。 【0048】 短時間ラプラス変換は、 【数8】 によって定義される。 ここで、νiは信号、Lは変換された信号、σは時定数、ωは角周波数である 。 【0049】 不連続な時間領域ではDFTと同じように短時間ラプラス変換を演算すること
はできない。それは、2つの任意の指数関数eatおよびebtは互いに直交してい
ないからである。アナログ時間領域における短時間フーリエ解析は、フィルタバ
ンク法に基づく。ここでは、同等の方法がラプラス変換について展開される。 【0050】 式(1)と式(3)から、 【数9】 ここでu*(t)はu(t)の複素共役であり、次式が得られる。 【0051】 【数10】 【0052】 式(6)と式(7)から、2つの複素極を持ったインパルス応答h(σ,ω,
t)を有するフィルタによって信号νi(t)を濾波することは、短時間L(σ ,ω,t)変換の実数部分を表すことが分かる。νi(t)を単一極のインパル ス応答に等しくすると、次式が得られる。 【0053】 【数11】 そして、式(7)から次式が得られる。 【数12】 式(9)は、(σ,ω)=(σ0,ω0)に対して定義されないが、この場合、
式(8)から次式が得られる。 【数13】 【0054】 そして、t→∞にすることによりν0(t)→0となる。式(9)は、ゲイン がσ−σ0とω−ω0との逆数に関連し、(σ,ω0)が(σ,ω)から離れるほ どexp(-σt)−exp(-σ0 t)は小さくなりν0(t)≒0になることを示
している。(σ0,ω0)←(σ,ω)に対して、ν0(t)はその限界として式 (10)を有する。式(9)が(σ0,ω0)←(σ,ω)に対して最大エネルギ
ーをもつか否かは、直ちには分からない。直流領域において、式(9)は次のよ
うに書くことができる。 【0055】 【数14】 ν0(t)の最大値は次のようにして見つけることができる。 【数15】 そして、式(11)はこの値に対して最大値をもつ。σ→σ0であるときtm
1/σ0となることが示される。 σ≒σ0のとき、t=1/σ0で、近似的な最大値が得られる。 【数16】 式(13)から、次のようになる。 【数17】 【0056】 式(11)において、exp(−σ0t)は、解析される信号を表し、exp (−σt)はフィルタを表す。表1はσ=100S-1を有するフィルタと、1か
ら10000S-1まで変化する信号による結果を示す。 【0057】 たたみ込みが低域フィルタとして働くことは、意外なことではない。重要なこ
とは、DC領域における指数関数が、周波数領域において周波数として働くとい
うことである。表1において、ν01(tm)は、信号が微分されるたたみ込みの 結果である。その結果は、期待通り、高域フィルタである。 【0058】 式(9a)において指数関数を除去すると、それは次のように書くことができ
る。 【数18】 ω→∞にすると、ν0→0となる。 【0059】 【表1】 【0060】 表1では、ν0(tm)は式(11,12)によって与えられσと2kにより正
規化される。ν01(tm)は信号が微分され2kによって正規化されるたたみ込 みである。 【0061】 ω≪ω0に対して、次式が得られる。 【数19】 ω→ω0に対して次式が得られる。 【数20】 【0062】 この結果は不安定であると考えられる。過渡解析においては、信号の始まりの
みに関心があるので、ω0≫1であれば、式(14)は帯域フィルタとして働く 。 音声処理は、声帯によって生成されるか、又は声道のインパルス応答により重
み付けられた声道の摩擦によって生成される短いエネルギーパルスに基づく。励
起パルスの立上がり時間はインパルス応答のエネルギーの立上がり時間よりも十
分に短くなければならない。 【0063】 エネルギーパルスの形状は音声における重要な特徴である。そのパルスが周期
的であれば、それは有声音の音声であり、そうでなければ無声音の音声である。
音素によっては、エネルギーパルスの急激な変化が重要となる。 WO94/25958から知られることであるが、エネルギーパルスの形状は
特に進みエッジが音声認識に重要である。 【0064】 次のように、特徴を抽出する方法が、包絡線検出に基づいて展開される。 式(9)で表されるたたみ込みは、インパルスによって生じた声道における2
つの極からの応答としてみなすことができる。σ0≒σであれば、式(9a)か ら次式を得る。 【0065】 【数21】 その包絡線は次のように定義される。 【数22】 ここで、 【数23】 はヒルバート変換である。 従って、式(17)の包絡線は、次式で表される。 【数24】 この近似が許されるのは、次式が成立するからである。 【数25】 【0066】 期待したように、包絡線は、2つの周波数の異なる周波数を有する成分を有す
る。結論は、過渡応答の包絡線において減衰する異なった周波数を見出すことが
期待できるということである。減衰する異なった周波数を検出するために、フィ
ルタバンクが用いられる。その特徴は、過渡パルスとフィルタのインパルス応答
との間のたたみ込みとして検出される。 一般的な形において、インパルス応答は次のように書くことができる。 【0067】 【数26】 ここでσ=λ、ω=f(λ)である。 次の解析において、f(λ)=1.5λ、k=ω=1.5λ、φ=0とすると
、次式が得られる。 【数27】 【0068】 ω=1.5σとすると、式(19)は周波数について低いQを有する帯域フィ
ルタとして働く。ω/σとして1.5以外の比が選択されてもよく、比(ω/σ
)は0.5〜2.5の範囲にあることが好ましい。指数関数は、信号が自然に減
衰することを保証する固有の時間窓のようにそれが働くことを向上させる。パラ
メータの値は重要な過渡パルスの上昇時間を検討することおよび実験することに
より選択される。 【0069】 図6は音声信号における過渡特性を示す。最も上の図は女性によって発音され
た「堅い調子」における「ア」の50msを示す。2番目の信号はその音声信号
を帯域フィルタで濾波したものである。帯域フィルタは6つの極と2150〜3
550Hzの帯域を有するバターワース・フィルタである。この周波数帯域は、
耳の敏感な周波数間隔における重要な過渡パルスを含む。3番目の信号は、帯域
フィルタで濾波された音声信号の過渡特性のエネルギー検出である。この検出は
、信号の整流と低域フィルタによる濾波によって行われた包絡線検出である。そ
のフィルタは、3つの極と700Hzのカットオフ周波数を有するバターワース
・フィルタである。 【0070】 WO97/09712において、進みエッジを自動的に検出する方法が開示さ
れている。その方法は参照値として進みエッジの最大傾斜を使用し、その傾斜が
与えられたしきい値(最大傾斜の10〜20%)より小さい、最大傾斜以前の点
で進みエッジの始点が定義されている。 【0071】 図6に示す過渡(包絡線)信号はDC成分を有し、そのDC成分は情報を含ん
でいない。従って、信号は例えば図13に示すフィルタバンクによって解析され
る前に微分されることが好ましい。 【0072】 図13において、入力および包絡線検出器の間に接続されたフィルタバンクの
中のフィルタ(h1(t),h2(t),…,hn(t)は、蝸牛の帯域フィルタ の帯域幅に対応する帯域幅を有し、1400〜6500Hzの範囲に中央周波数
を有する帯域フィルタである。 図13に示すフィルタバンクからの出力信号0ij(P)は次式により算出され
る。 【0073】 【数28】 【0074】 ここで、m=0,1,…,M−1であり、Mは出力と包絡線検出器との間に接
続されたフィルタバンクにおける低いQを有する帯域フィルタの数、P=0,1
,…、P−1はサンプル番号、t’は微分された過渡信号、λmはフィルタバン クのパラメータでありサンプリング周波数により正規化されている。 【0075】 解析において,Mは10に設定され、1500<λ’m<12000S-1,λ ’mは正規化されていない。これによって、1885<ωm<18850S-1又は
300<fm<3000Hzとなる。 この濾波処理は、蝸牛の中ではなく有毛聴覚細胞の中で行われるか、又は有毛
聴覚細胞の後の神経システムの中で行われる。 【0076】 図7〜図12は、女性および男性によって発音された「堅い音調」および「柔
らかい音調」における母音「ア」「オ」「イ」の過渡信号の処理出力を示す。さ
らに、これらの図は、対応するフィルタの時定数の関数としての出力信号の最大
値の図を示す。 【0077】 これらの図は、女性又は男性のいずれが発音したかに関係なく、最大の曲線が
同じ母音に対して非常によく似ている。テンプレートのライブラリおよび距離計
測によって、音画を認定することが可能であり、それは音声認識および狭帯粋通
信に用いることができる。従って、この発明によれば、パラメータに関する情報
を含む信号を生成するシステムのパラメータを決定するための方法と装置が提供
され、その方法と装置では、信号が実質的に次式によって短時間変換される。 【0078】 【数29】 【0079】 ここで、νiは信号、Lは変換された信号、σは時定数、ωは角周波数、ψは 位相である。また、他の変換によれば、L(σ,ω,t)がその最大値の10%
より大きいが短時間ラプラス変換によって与えられる結果と異なる時間間隔でL
’(σ,ω,t)を生じさせる。狭い帯域通信において、過渡パルスは認定され
て符号化されなければならず、復号器は過渡応答に対応するフィルタのライブラ
リを含む。復号器のライブラリもまた、過渡応答を含むことができる。 【0080】 この発明はまた、例えば作動中に機械的エネルギーを生じる冷蔵庫のコンプレ
ッサ、電動モータ、家庭機器、電気かみそり、燃焼エンジ等々のような装置を試
験する際における機械的な振動の測定に関する。 例えば、作動中に装置によって生じる振動又は装置から発する音の測定が装置
の故障の検出に役立つことができるということは、周知である。故障によっては
、認定可能な特定の性質の音又は振動が生じる。 【0081】 この発明の方法はまた、所定のパラメータによって被験装置を一組の所定の組
の1つの組に分類する分類工程を備える。所定の各組は、その方法により決定さ
れる特定のパラメータの上下限によって定義することができる。その場合、装置
は、その対応パラメータ値が組の上下限値内にあれば、その組に属するように分
類される。 【0082】 各組は装置の故障の特定のタイプに対応することができる。例えば、シャフト
のアンバランス、車輪のアンバランス、変形、歯車の歯の欠陥、堅い軸受け、緩
い軸受け等は、異なる独特の方法で装置を振動させ、それによって、故障の各タ
イプに対して独特の機械的振動が生じる。そのとき、装置の故障のタイプは、種
々の所定の組の対応するパラメータと、決定された装置パラメータとを比較する
ことによって検出できる。 【0083】 装置の特定の組の上下限は、その組に属する既知の一組の装置を試験すること
によって決定できる。例えば、上限は特定のパラメータ値の平均に標準偏差の3
倍を加えることにより決定できる。同様に下限はパラメータ値の平均から標準偏
差の3倍を減算することにより決定できる。 【図面の簡単な説明】 【図1】 線形時間不変システムの時間領域表示を示す。 【図2】 次数3でカットオフ周波数700Hzのバターワース低域フィルタのインパル
ス応答を示す。 【図3】 t<0で緩和されたフィルタによるt≧0で入力された4000Hzの音につ
いての応答を示す。 【図4】 H(σ,ω)に対する極と零を有するS平面を示す。 【図5】 σ軸に平行に解析されたω1とω2に対するH(σ,ω)を示す。 【図6】 音声信号における過渡特性を示す。 【図7】 処理された音声信号を示す。 【図8】 処理された音声信号を示す。 【図9】 処理された音声信号を示す。 【図10】 処理された音声信号を示す。 【図11】 処理された音声信号を示す。 【図12】 処理された音声信号を示す。 【図13】 この発明によるフィルタバンクの概略図を示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CU, CZ,DE,DK,EE,ES,FI,GB,GD,G E,GH,GM,HR,HU,ID,IL,IN,IS ,JP,KE,KG,KP,KR,KZ,LC,LK, LR,LS,LT,LU,LV,MD,MG,MK,M N,MW,MX,NO,NZ,PL,PT,RO,RU ,SD,SE,SG,SI,SK,SL,TJ,TM, TR,TT,UA,UG,US,UZ,VN,YU,Z W (71)出願人 Louisevej 13,DK−2800 L yngby DENMARK

Claims (1)

  1. 【特許請求の範囲】 【請求項1】 【数1】 (νiは信号、Lは変換された信号、σは時定数、ωは角周波数、ψは位相) に実質的に従って信号を短時間変換する工程からなる、パラメータに関する情報
    を含む信号を発生するシステムのパラメータ決定方法。 【請求項2】 変換する工程が、σ+jωtにおける極とσ−jωtにおけ
    る極とを有するフィルタで信号νiを濾波することからなる請求項1記載の方法 。 【請求項3】 複数組のσとω値に対して、信号νiを変換する工程を備え る請求項1又は2記載の方法。 【請求項4】 少なくとも1つの変換された信号L(σ,ω、t)の最大値
    を決定する工程をさらに備える前記請求項のいずれかに記載の方法。 【請求項5】 変換された信号Lを、対応する参照信号と比較して、システ
    ムのパラメータを決定する工程をさらに備える前記請求項のいずれかに記載の方
    法。 【請求項6】 短時間変換する工程の前に信号を前処理する工程をさらに備
    え、前記前処理は、濾波,整流,微分,積分および増幅を含むグループから選択
    される前記請求項のいずれかに記載の方法。 【請求項7】 前記請求項のいずれかに記載の方法によって信号を処理する
    工程を備え、決定されたパラメータ値を伝送する工程をさらに備える、信号を生
    成するシステムの1組のパラメータの情報を含む信号を伝送する方法。 【請求項8】 変換されたパラメータ値から信号のコピーを生成する工程を
    さらに備える請求項7記載の方法。 【請求項9】 前記請求項のいずれかに記載の方法により信号を処理する工
    程を備え、 信号を、所定の組のパラメータ値に対して生成された信号のライブラリィとシ
    ステムによって比較し、 その信号に最もよくマッチするライブラリィ関数を選択し、 そのマッチするライブラリィ関数を認定する認定信号を伝達する工程をさらに
    備える、信号生成システムの1組のパラメータの情報を含む信号を伝達する方法
    。 【請求項10】 認定信号を受取って、対応するライブラリィ信号を生成す
    る工程をさらに備える請求項9記載の方法。 【請求項11】 請求項1〜6のいずれかに記載の方法によって1つ以上の
    パラメータを決定する工程を備え、1つ以上の決定されたパラメータによりシス
    テムを、所定範囲の値のパラメータによって定義される一組の予め定義された組
    の1つの組に分類する工程をさらに備える、1つ以上のパラメータに関する信号
    を含む情報を生成するシステムの1つ以上のパラメータによってシステムを分類
    する方法。 【請求項12】 請求項1〜6のいずれかに記載の方法によって信号を処理
    し、処理した信号を伝達し、処理した信号を受信器で受取る工程を備える、聴覚
    信号通信方法。 【請求項13】 処理された信号を伝達する前に、信号がデジタル表現に符
    号化され、符号化された信号は受信器で復号化され、ヒトの耳のような動物の耳
    によって知覚されて聴覚信号の明白な音画を表わす過渡パルスの形状を再確立す
    る請求項12記載の方法。 【請求項14】 デジタル伝送が最大4000ビット/秒の帯域幅で行われ
    る請求項13記載の方法。 【請求項15】 帯域幅が最大2000ビット/秒である請求項14記載の
    方法。 【請求項16】 帯域幅が800〜2000ビット/秒の区間にある請求項
    15記載の方法。 【請求項17】 一連の認定パルスの第2およびそれ以上のパルスが、反復
    を示すデジタル値で表わされる請求項13〜16のいずれか1つに記載の方法。 【請求項18】 1400〜6500Hzの範囲の中央周波数を有するよう
    に並列に連結された複数の帯域フィルタを備えるフィルタバンクで符号νiを濾 波し、各帯域フィルタは、並列に結合され300〜3000Hzの範囲のカット
    オフ周波数および1500〜1200S-1の時定数を有する複数の低域フィルタ
    を備えるフィルタバンクと包絡線検出器とに直列接続されてなる請求項1〜6の
    いずれかに記載の方法。 【請求項19】 【数2】 (νiは信号、Lは変換された信号、σは時定数、ωは角周波数、ψは位相) に実質的に従って短時間変換するようにしたプロセッサを備えた、パラメータに
    関する情報を含む信号を生成するシステムのパラメータを決定する装置。 【請求項20】 プロセッサが信号νiを濾波し、σ+jωtにおける極と σ−jωtにおける極とを有するフィルタを備える請求項19記載の装置。 【請求項20】 プロセッサが信号νiを濾波する複数のフィルタを備え、 各フィルタが異なる組のσとω値を有する請求項19又は20記載の装置。 【請求項22】 装置が通信チャンネル送信機を備え、プロセッサがシステ
    ムの1つ又は複数のパラメータを決定し、その1つ又は複数のパラメータを無線
    又は有線通信チャンネルによって伝達するようになっている請求項19記載の装
    置。
JP2000537203A 1998-03-13 1999-03-12 音声信号の過渡現象を解析するための信号処理方法 Pending JP2002507776A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DK36198 1998-03-13
DK0361/98 1998-03-13
PCT/DK1999/000128 WO1999048085A1 (en) 1998-03-13 1999-03-12 A signal processing method to analyse transients of speech signals

Publications (1)

Publication Number Publication Date
JP2002507776A true JP2002507776A (ja) 2002-03-12

Family

ID=8092657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000537203A Pending JP2002507776A (ja) 1998-03-13 1999-03-12 音声信号の過渡現象を解析するための信号処理方法

Country Status (6)

Country Link
EP (2) EP1293961B1 (ja)
JP (1) JP2002507776A (ja)
AT (2) ATE229684T1 (ja)
AU (1) AU2714199A (ja)
DE (2) DE69922059D1 (ja)
WO (1) WO1999048085A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009519491A (ja) * 2005-12-13 2009-05-14 エヌエックスピー ビー ヴィ 音声データストリームを処理する装置および方法
JP2010134367A (ja) * 2008-12-08 2010-06-17 Mitsubishi Electric Corp 電気機器

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025997A1 (en) * 2000-09-20 2002-03-28 Leonhard Research A/S Quality control of electro-acoustic transducers
EP1652171B1 (en) 2003-08-06 2009-02-11 LEONHARD, Frank Uldall Method for analysing signals containing pulses
GB2434876B (en) * 2006-02-01 2010-10-27 Thales Holdings Uk Plc Audio signal discriminator
US10448161B2 (en) 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
WO2014168777A1 (en) * 2013-04-10 2014-10-16 Dolby Laboratories Licensing Corporation Speech dereverberation methods, devices and systems
US9403394B2 (en) 2013-07-25 2016-08-02 The Hillman Group, Inc. Modular sublimation transfer printing apparatus

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
AU612737B2 (en) * 1987-12-08 1991-07-18 Sony Corporation A phoneme recognition system
DK46493D0 (da) * 1993-04-22 1993-04-22 Frank Uldall Leonhard Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler
WO1997009712A2 (en) * 1995-09-05 1997-03-13 Frank Uldall Leonhard Method and system for processing auditory signals

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009519491A (ja) * 2005-12-13 2009-05-14 エヌエックスピー ビー ヴィ 音声データストリームを処理する装置および方法
JP4869352B2 (ja) * 2005-12-13 2012-02-08 エヌエックスピー ビー ヴィ 音声データストリームを処理する装置および方法
JP2010134367A (ja) * 2008-12-08 2010-06-17 Mitsubishi Electric Corp 電気機器

Also Published As

Publication number Publication date
EP1293961B1 (en) 2004-11-17
EP1062658A1 (en) 2000-12-27
EP1062658B1 (en) 2002-12-11
AU2714199A (en) 1999-10-11
DE69904453T2 (de) 2003-09-25
ATE282879T1 (de) 2004-12-15
DE69904453D1 (de) 2003-01-23
DE69922059D1 (de) 2004-12-23
ATE229684T1 (de) 2002-12-15
EP1293961A1 (en) 2003-03-19
WO1999048085A1 (en) 1999-09-23

Similar Documents

Publication Publication Date Title
EP0737351B1 (en) Method and system for detecting and generating transient conditions in auditory signals
US8972255B2 (en) Method and device for classifying background noise contained in an audio signal
Moore Temporal integration and context effects in hearing
JP4177755B2 (ja) 発話特徴抽出システム
Mittal et al. Effect of glottal dynamics in the production of shouted speech
US4829574A (en) Signal processing
CN107610715A (zh) 一种基于多种声音特征的相似度计算方法
Zhen et al. On the Importance of Components of the MFCC in Speech and Speaker Recognition
Mittal et al. Study of characteristics of aperiodicity in Noh voices
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
CN109473091A (zh) 一种语音样本生成方法及装置
WO2010032405A1 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
Payton et al. Comparison of a short-time speech-based intelligibility metric to the speech transmission index and intelligibility data
Zhu et al. Contribution of modulation spectral features on the perception of vocal-emotion using noise-vocoded speech
Virebrand Real-time monitoring of voice characteristics usingaccelerometer and microphone measurements
JP2002507776A (ja) 音声信号の過渡現象を解析するための信号処理方法
JP3205560B2 (ja) オーディオ信号の調性を決定するための方法および装置
Qi et al. Minimizing the effect of period determination on the computation of amplitude perturbation in voice
Ambikairajah Emerging features for speaker recognition
Noh et al. How does speaking clearly influence acoustic measures? A speech clarity study using long-term average speech spectra in Korean language
Kodukula Significance of excitation source information for speech analysis
Bapineedu et al. Analysis of Lombard speech using excitation source information.
Jørgensen Modeling speech intelligibility based on the signal-to-noise envelope power ratio
JP4166405B2 (ja) 駆動信号分析装置
Pourmand et al. Computational auditory models in predicting noise reduction performance for wideband telephony applications