JPH06222789A - 音声検出方法 - Google Patents

音声検出方法

Info

Publication number
JPH06222789A
JPH06222789A JP5285608A JP28560893A JPH06222789A JP H06222789 A JPH06222789 A JP H06222789A JP 5285608 A JP5285608 A JP 5285608A JP 28560893 A JP28560893 A JP 28560893A JP H06222789 A JPH06222789 A JP H06222789A
Authority
JP
Japan
Prior art keywords
noise
frame
voiced
signal
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5285608A
Other languages
English (en)
Inventor
Dominique Pastor
パストル ドミニク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales Avionics SAS
Original Assignee
Thales Avionics SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales Avionics SAS filed Critical Thales Avionics SAS
Publication of JPH06222789A publication Critical patent/JPH06222789A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Complex Calculations (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 【目的】 音声検出方法 【構成】 有声フレームを検出し、この有声フレームの
前のノイズフレームを検索し、ノイズの自己後退性モデ
ルとノイズの平均スペクトルを作り、有声音の前のフレ
ームをホワイトノイズ化し、有声フレームのノイズを消
去し、それらをパラメータ化し、音声の実際の終点を求
める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声(parole)の検出方法
に関するものである。
【0002】
【従来の技術】音声の実際の始めと終りを決定する方法
には下記を含めた種々の方法が考えられる: (1) 各瞬間の振幅を実験的に求めた閾値と比較し、有声
音(voisement) の存在で音声(parole)を検出する方法
(プチ(V.PETIT) とデュモン(F.DUMONT)の論文「音声−
騒音の識別法とその応用(La discrimination parole-br
uit et sesapplications)」、トムソン−セーエスエフ
技報(Revue Technique THOMSON-CSF) 」、第12巻、第4
号(1980年12月)参照) (2) 所定時間Tの間の全信号のエネルギを閾値 (これは
例えば局部ヒストグラム等を用いて実験的に求める) と
比較し、有声音の存在すなわち母音の最小エネルギーを
計算する方法 (母音の最小エネルギーを用いる方法はC
NRSのLIMSI研究所のゴーヴァン(J.L.GAUVIN)の
レポート「アマデウス版 1.0(AMADEUS Version 1.0) 」
に記載されている)
【0003】(3) 上記方法は有声音の存在は検出ができ
るが、有音声の実際の始点と終点の検出はできない。換
言すれば無声音の摩擦音(/F/, /S/, /CH/)と、無声音
の破裂音(/P/, /T/, /Q/ )の検出はできないため、こ
れら摩擦音の検出アルゴリズムを補う必要がある。その
ための第1の方法はパリ大学 (PARIS-SUD,Centre d'Ors
ay) のDEAに掲載のワクルニエ(P. WACRENIER)の論文
「付加ノイズの存在下での言葉の境界の検出の問題 (Pr
obleme de detection desfrontieres de mots en pres
ence de bruits additifs) 」で提案のように局部ヒス
トグラムを使用する方法である。
【0003】これと類似のその他の方法およびそれに比
較的近い方法は1991年のユーロスピーチ(EUROSPEECH)会
議でのジュンカ(J.C. JUNKA)、リーブス(B. REAVES) 及
びマック(B. MAK)の論文「不利な条件下での終点検出ア
ルゴリズムの研究、DTWおよびHMM認識装置での影
響 (A Study of Endpoint Detection Algorithms inAdv
erse Conditions: Incidence on a DTW and HMM Recogn
izer)」に記載されている。これらの方法は全て大部分
が発見的(heuristique) 手法で行われ、強力な理論的手
段はほとんど用いられていない。
【0004】上記方法と類似の音声のノイズ消去法に関
する研究は多数ある。特にリム(J.S.LIM) のプレンテ
ィス−ホール(Prentice-Hall) 信号処理シリーズの「音
声強化(Speech Enhancement)」、ボル(S.F. BOLL) の
"IEEE Transactions on Acoustics, speech, and signa
l processing"、第ASSP−27巻、第2号(1989年4
月)に記載の「スペクトル減算を用いた音声での音響ノ
イズの抑止(Suppressionof Acoustic Noise in Speech
Using Spectral Subtraction) 」およびユーロスピーチ
(EUROSPEECH) 91 に記載のロックウッド(P.LOCKWOOD)、
バアイラルギート(C.BAILLARGEAT) 、ジロ(J.M.GILLO
T)、ブーディ(J.BOUDY) 及びファーコン (G.FAUCON) の
「車内での音声を強化するためのノイズ低減法:非線形
スペクトル減算 (Noise Reduction For Speech Enhance
ment In Cars: Non-LinearSpectralSubtraction /カ
ルマンフィルタリング (Kalman Filtering) 」を挙げる
ことができる。スペクトル研究の分野ではノイズ消去法
のみしかない。また、「スペクトル」的ノイズ消去法は
曖昧言葉では使えない。
【0005】検出とノイズ消去との間の密接な関係は、
この問題の経験的な解決法を提案した上記論文「スペク
トル減算を用いた音声での音響ノイズの抑止」を除く
と、上記全ての研究で全く証明されていない。また、2
チャンネルの録音手段を用しないで音声のノイズを消去
するには音声で汚染されていない「純粋な」ノイズフレ
ームを使用する必要があるが、そのためにはノイズとノ
イズ+音声とを区別する検出手段が必要になる。
【0006】
【発明が解決しようとする課題】本発明の目的は、音声
の音(sons)の種類に関係なしに、音声の信号の実際の始
点と終点をできる限り確実に検出することができ、しか
も、これらの信号に影響するノイズの統計特性が大きく
変化した時でも、検出信号からノイズを最も有効に消去
することができる、音声の検出方法・ノイズ消去方法を
提供することにある。
【0007】
【課題を解決するための手段】本発明方法では、ノイズ
の少ない環境では、有声フレーム(trames voisees)の検
出を行い、信頼性のある間隔(intervalle de confianc
e) が与えられた声の核(noyau vocalique) を検出す
る。また、ノイズの有る環境では、有声フレームの検出
を少なくとも1回行った後に、この有声フレームの前の
ノイズフレームを探し、ノイズの自己後退性モデル(mod
ele autoregressif)およびノイズの平均スペクトルを作
り、拒絶フィルタによってホワイトノイズ化し且つ有声
音の前のフレームをスペクトルノイズ消去器(flitrage
rejecteur)によってノイズ消去し、ホワイトノイズ化し
たフレーム中で音声の実際の始点を探し、音声の実際の
始点と第1の有声フレームとの間のノイズ消去されたフ
レームから声の識別装置によって使用される音響ベクト
ルを抽出し、有声フレームの検出をし、それを識別のた
めにノイズ消去し且つパラメータ化し(すなわち、これ
らのフレームの識別に適した音響ベクトルを抽出し) 、
もはや有声フルムが検出されなくなった時に、音声の実
際の終点を探し、次に、最後の有声フレームと音声の実
際の終点との間のフレームをノイズ消去し且つパラメー
タ化する。
【0008】
【作用】フレームのパラメータ化(parametrisation de
trames) では、フレームから識別アルゴリズムを用いて
音響ベクトルを抽出する(または同様な方法で音響パラ
メータを抽出する)ということは理解できよう。音響パ
ラメータの例は音声処理の専門家に周知のケプストラム
(cepstraux) 係数である。
【0009】ホワイトノイズ化(blanchiment) とはノイ
ズの自己後退モデル(modele autoregressif)から計算し
たフィルタリング拒絶器(flitrage rejecteur)にかける
ことを意味し、ノイズ消去とはスペクトルノイズ消去器
にかけることを意味する。これらのホワイトノイズ化お
よびスペクトルノイズ消去は前後して行うのではなく、
並列に行われる。ホワイトノイズ化では非有声の音が検
出でき、ノイズ消去では認識すべき声の信号の品質を改
良することができる。
【0010】本発明方法の特徴は、検出の問題(有声音
および摩擦音)に広く適用可能な理論手段を用いた点に
ある。すなわち、本発明方法は単語に対する局所的方法
であり、ノイズの統計的特性が時間とともに進化して
も、本発明方法の構造は、それに適用することができ
る。本発明方法の別の特徴は、信号処理アルゴリズムの
結果で得られた検出値を鑑定 (expertiser、音声信号の
特定の性質を用いて検出時の誤りの警告数を最小にす
る)し、この音声検出にノイズ消去を組み合わせ、「リ
アルタイム」方法を採用し、しかも、下記の2つの異な
るノイズ消去器を用いて全ての分析レベルで音声信号の
他の処理方法との相乗作用を得る点にある: (a) 拒絶フィルタリング (ホワイトノイズ化特性の点
で、主として摩擦音の検出に用いられる) (b) 特にウィーナー(Wiener)フィルタリング (識別性の
点で、音声信号のノイズ消去で用いられる) 。スペクト
ル減算を用いることもできる。
【0011】本発明方法では、以下の3つの処理レベル
を区別しなければならない: (1) 上位レベルの全ての処理の基本要素となる信号を処
理するアルゴリズムで実施される「基本」レベル。すな
わち、有声音の検出の「基本」レベルは相関関数の計算
と閾値化のアルゴリズムである。この結果は上位レベル
で鑑定される。これらの処理は、例えば、DSP96000
型の信号処理プロセッサで実行される。 (2) 基本レベルから供給される「粗」検出結果から、有
声声および「有意」な音声(parole intelligentes)の始
点とを検出する中間鑑定のレベル。この鑑定では適当な
Prolog 型の情報言語を用いることができる。 (3) 音声信号の検出、ノイズ消去および分析の各アルゴ
リズムをユーザがリアルタイムで管理する「上位」レベ
ル。この管理の実行には例えばC言語が適している。
【0012】以下、本発明を下記の順番でさらに詳細に
説明する。先ず最初に、各種信号処理法と鑑定法とを連
結させるアルゴリズムについて説明する。概念階層の最
上位の処理レベルでは、必要且つ十分な全ての信号処理
アルゴリズムを備え、全ての鑑定が可能な信頼性の高い
検出・ノイズ消去方法を使用することが考えられる。従
って、これに関する説明は極めて一般的であり、以下で
説明する信号の鑑定・処理アルゴリズムと無関係であっ
てもよい。すなわち、以下で説明する方法は他の方法に
代えることができる。次に、幾つかの例を用いて基本レ
ベルのアルゴリズムを用いた有声音の始点と終点の検出
値の鑑定について説明する。さらに、音声の検出・ノイ
ズ消去で用いられる方法について説明する。上位処理レ
ベルでは、これらで得られる結果(有声音、無声音、・
・) が用いられる。
【0013】慣習と、使用語彙 基本の処理時間単位をフレームとよぶ。フレーム時間は
一般には 12.8 msであるが、別の値 (数学的言語での実
施) にすることもできる。処理は処理済み信号の発散フ
ーリエ(Fourier) 変換で行う。このフーリエ変換は連続
した2つのフレームで得られたサンプル全体で行い、従
って、25.8 ms でフーリエ変換することになる。2つの
フーリエ変換が時間的に連続して行われる場合には、変
換を4つの連続したフレームで行うのではなく、一つの
フレームを重ねて、連続した3つのフレームで計算す
る。これのことは〔式1〕に図示してある。
【0014】
【式1】
【0015】先ず、ユーザに最も近い概念レベルでのア
ルゴリズムの作用を説明する。本発明の好ましい実施方
法を、極めてノイズが高い航空電子工学の環境に由来す
る信号を分析する場合を参照して説明する。この場合に
は、パイロットが使用するマイクロ交代関数(Alternat)
である出発情報を用いることができ、この情報は処理す
べき信号に近い時間的区域(zone temprelle)を表す。こ
の交代関数は音声の実際の始点におおまかにしか近づけ
ることができないので、正確な検出をする場合には信頼
性が低い。従って、この一次情報から音声の実際の始点
を特定する必要がある。
【0016】第1の時間内でこの交代関数の輪郭(alent
ours) に配置された第1の有声フレームを探す。先ず、
この第1の有声フレームはこの交代関数より前のN1フ
レーム中で探される(N1=約30フレーム) 。有声フレ
ームがこれらN1フレーム内に見つからない時は、この
交代関数に続くフレームを示され、そのフレームで有声
音を探す。この方法で第1の有声フレームが見付かった
時にノイズ消去器がイニシャライズされる。そのために
はノイズのみで構成されたフレームを明らかにしなけれ
ばならない。このノイズのみで構成されたノイズフレー
ムは第1の有声フレームの前のN2フレーム(N2=約
40フレーム) 内で探される。各N2フレームは以下のい
ずれかである: (1) ノイズのみで構成されている。 (2) ノイズ+呼吸で構成されている。 (3) ノイズ+無声の摩擦音または閉鎖音で構成されてい
る。
【0017】ノイズのエネルギーは平均してノイズ+呼
吸のエネルギーより小さく、ノイズ+摩擦音のエネルギ
ーよりも小さいと仮定する。従って、N2フレーム内で
最もエネルギーの小さいフレームを考えると、このフレ
ームはノイズでのみ構成されている確立が高い。このフ
レームが分かったら、下記の「エネルギー間の互換性」
の項で説明する意味でこのフレームと互換性が2×2で
あるフレームを探す。
【0018】ノイズフレームの検出が終わったら、以下
の2つのノイズモデルを作る: (1) ノイズをホワイトノイズ化するフィルタリング拒絶
器を構成するためのノイズの自己後退性モデル (modele
autoregessif du bruit) (2) スペクトルノイズを消去するためのノイズの平均ス
ペクトルこれらのモデについては後で説明する。
【0019】ノイズのモデルが構成されたると、音声の
実際の始点を探そうとする有声音より前のN3フレーム
(N3=約30) をホワイトノイズ化し (フィルタリング
拒絶器で) 且つノイズ消去する。N3はN2より小さい
ことは言うまでもない。この検出は摩擦音の検出によっ
て実施される。それについて以下説明する。
【0020】音声の始点が分かっている場合には、音声
の始点と第1の有声フレームとの間の全てのフレームの
ノイズを消去し、次に、その識別のためこれらのフレー
ムをパラメータ化する。これらのフレームはノイズ消去
され、パラメータ化された後順次識別装置へ送られる。
音声の実際の始点は分かっているので、第1の有声フレ
ームに続くフレームを連続して処理することができる。
【0021】この場合、得られた各フレームはホワイト
ノイズ化されず、単にノイズ消去されて、識別のために
パラメータ化される。有声フレームの場合には、音響ベ
クトルが識別アルゴリズムへ送られる。有声フレームで
ない場合には、それが実際に進行中の母声の核の最後の
フレームであるかどうかを調べる。母音の核の最後のフ
レームではない時には、別のフレームを取って、最後の
有声フレームが見つかるまでプロセスを反復する。
【0022】最後の有声フレームが検出されると、この
最後の有声フレームに続くN4フレーム(N4=約30フ
レーム) をホワイトノイズ化し、次に、ホワイトノイズ
化されたN4フレームの中で音声の実際の終点を探す。
この検出法については後で説明する。音声の実際の終点
が検出された時には、有声音の終りとこの音声の終点と
の間に含まれるフレームのノイズを消去し、次にパラメ
ータ化し、母音識別装置へ送って処理する。最後の音声
フレームがノイズ消去され、パラメータ化され、識別装
置に送られた後に、次の発声処理のために全ての処理パ
ラメータは再初期化される。
【0023】以上の説明から分かるように、本発明の方
法では処理済みの発声に局限されている(換言すれば、
各フレーズまたは言葉の間に「空白」のない言葉の組を
処理する)ので、ノイズの自己後退性のモデル化に適し
たアルゴリズムや、かなり高度なノイズフレームの検出
および摩擦音の検出用理論モデルを使用すれば、ノイズ
の全ての統計的変化に極めて良く適合させることができ
る。交代関数(alternant) が無い場合には、有声音が検
出されると直ちに本発明の方法が開始される。
【0024】処理済みの信号にあまりノイズがない場合
には、上記の方法を単純化することができる。この場合
にはノイズ消去とホワイトノイズ化アルゴリズムを用い
る必要はない。ノイズレベルが無視できる場合(研究室
の雰囲気)にはこれらの操作はむしろ有害である。この
現象はノイズ消去の場合に良く知られていて、ほとんど
ノイズの無い信号をノイズ消去すると音声が変形して、
良好な識別ができなくなる。単純化は下記の場合に行
う: (1) 良好な識別に有害なノイズ消去で得られるノイズに
対する信号比のゲインを補正しないで、音声の変形を避
けるために、識別用スペクトルノイズ消去を除去する場
合 (2) ホワイトノイズ化フィルタを無くす場合(従って、
ノイズの自己後退性モデルの計算を無くし、ノイズの確
認モジュールも無くす) 。これはノイズがほとんどない
環境では必ずしも必要ではない。予備実験してこの必要
性を決定するのが好ましい。
【0025】次に、有声音検出および摩擦音の検出の鑑
定方法を詳細に説明する。この鑑定は、処理フレームが
有声か無声か、または無声の摩擦音フレームか無声の破
裂音フレームか等を大まか (粗に) 決定するオートメ化
された公知の信号検出装置および処理装置を用いて行う
ことができる。この鑑定は、上記装置で得られた各結果
からコヒーレント集合体、例えば母音核または無声の摩
擦音(破裂音)のブロックを作る。このプロセスを実施
する言語はPROLOGが好ましい。環境ノイズがあっ
てもなくても、上記プロセス以外は鑑定法は同じであ
る。
【0026】有声音の検出を鑑定するには、有声音を検
出する公知の方法を用いる。すなわち、所定のフレーム
に対してそのフレームが有声であるか無声であるかを決
定して、そのフレームに「ピッチ」の値を付ける。この
「ピッチ」は有声音の模様の反復周波数である。有声音
がない場合にはこのピッチ値はゼロであり、存在する時
はゼロ以外になる。この有声音の基本的な検出法では前
段のフレームで得られた結果を用いず、また、未来のフ
レームについての結果を予告することもなしに行われ
る。母音核は無声の空白で分離された複数の有声部分で
構成される場合もあるので有声音を有効化または無効化
するためには鑑定が必要である。
【0027】以下、鑑定の一般的規則を説明する。規則1 :連続または比較的少数のフレーム(約3または
4つのフレーム)で分離された2つの有声フレームの間
では、得られたピッチの値は一定のδ(約±20Hz、話者
に応じて変わる) 以上異なることはない。逆に、2つの
フレーム間の間隔が一定のフレーム数を越えた時には、
ピッチ値は極めて急速に変化する。規則2 :母音核は空白によって切断された有声フレーム
で構成されている。これらの空白は下記条件を満たさな
ければならない。すなわち、空白の寸法は話者および語
彙の関数である最大寸法を越えてはならない (約40フレ
ーム) 。核の寸法は有声フレームの数と核の空白の寸法
との合計である。規則3 :母音核の実際の始点は母音核の寸法が十分に大
きくなる (約4フレーム)と直ちに分かる。規則4 :母音核の終点は、母音核内の空白として許容さ
れる最大寸法を越える空白に続く最後の有声フレームで
決定される。
【0028】鑑定の展開 ピッチの値が計算された時に上記の規則を用いる。鑑定の第1の部分 :先行するフレームのピッチの値およ
びピッチがゼロではない最後の値、さらには実際に処理
するフレームを分離しているフレームの数およびゼロで
はない最後の値の関数で、計算したピッチの値を有効化
または無効化する。これは規則1に対応する。
【0029】鑑定の第2の部分:鑑定の第2の部分は異
なるケースに分けられる: ケース1:(第1フレームが有声) 核の可能寸法をインクリメントする。従って、1にな
る。従って、母音核の始点は現在のフレームでありえ
る。従って、母音核の終点は現在のフレームでありえ
る。
【0030】ケース2:(現在のフレームが前段のフレ
ームと同様に有声である) 従って、有声の部分を処理する。核の有声フレームの可
能な数をインクリメントする。核の可能な寸法をインク
リメントする。核の終点は現在のフレームであり得、セ
グメントの終点でもあり得る。核の寸法が十分に大きく
(上記のように約4フレーム)、しかも、母音核の実際
の始点が分かっていないならば、核の始点は有声として
検出される第1のフレームである。これは規則3に対応
する。
【0031】ケース3:(前段のフレームが有声で、現
在のフレームが有声ではない) 空白の第1のフレームの処理の途中である。空白の寸法
をインクリメントし、1にする。
【0032】ケース4:(現在のフレームが有声ではな
く、前段のフレームも有声ではない) 空白の寸法をインクリメントする。空白の寸法が母音核
の空白の許容最大寸法を越えた場合には、 (1) もし、有声音の実際の始点が分かっていれば、母音
核の終点はこの空白の前に測定された最後の有声フレー
ムである。鑑定を停止し、次の発声の処理のために全デ
ータを再初期化する(規則4を参照)。 (2) もし、音声の実際の始点が分かっていないならば、
前もって作ったパラメータは有効ではないので、使用す
る全てのパラメータを再初期化し、その後、続くフレー
ムについて鑑定を続行する。 空白の寸法が母音核の空白の許容最大寸法を越えない場
合には、その空白は有声の核の一部分であり、まだ最終
的な決定を下すことはできない。
【0033】ケース5: (現在のフレームは有声で、前
段のフレームが有声ではない) 空白を終了させ、新しい有声部分を始める。核の有声フ
レーム数をインクリメントする。核の寸法をインクリメ
ントする。もし、終了したばかりの空白が母音核の一部
分である場合(すなわち、その寸法が規則2によって核
の空白に許容された最大寸法より小さい時)には、核の
現在の寸法にこの空白の寸法を加える。無声の次のフレ
ームの処理のため、空白の寸法を再初期化する。もし、
有声音の実際の始点がまだ分かっていおらず、しかも、
核の寸法が十分な時(規則3)には、有声音の始点は終
了したばかりの空白の前の部分の始点である。もし、終
了したばかりの空白が母音核の一部分でない場合には、
その空白は母音核の一部分であることはできず、もし、
有声音の実際の始点が分かっているならば、母音核の終
点はこの空白の前に決定された最後の有声フレームであ
る。鑑定を停止して、次の発声の処理のために全データ
を再初期化する(規則4を参照)。もし、有声音の実際
の始点がまだ分かっていないならば、既に作ったパラメ
ータは有効ではないので、使用した全パラメータを再初
期化し、その後に次のフレームについて鑑定を続ける。
上記プロセスは各フレームで、このフレームと組み合わ
されたピッチの計算後に用いられる。
【0034】無声音声の検出鑑定 ここでは、それ自体公知の無声音声の検出方法を使用す
る。有声音の基本的検出は、前段のフレームでの結果を
使用せず、しかも、未来のフレームについての結果を予
告せずに実施される。発声の始点または終点に位置する
無声の音声信号は下記のようなもので構成されている: 「chaff 」の場合のような単一の摩擦音部分 「stop」の場合のような閉鎖音部分に続く摩擦音部分 「parole」の場合のような単一の閉鎖音部分
【0035】従って、無声フレームの組には空白が存在
する可能性がある。さらに、これら摩擦音ブロックはあ
まり大きすぎてはいけない。従って、これらの音響の検
出後の中間鑑定は必要である。また、誤った言葉では、
摩擦音の語は無声の摩擦音および無声の破裂音に近くな
る。
【0036】鑑定の一般規則 下記の鑑定は、上記の有声音の場合の鑑定に類似してい
る。違いは主として新しいパラメータすなわち母音核と
摩擦音ブロックとの間の距離および摩擦音ブロックの寸
法を考慮している点である。規則1 :母音核と検出した第1摩擦音フレームとの間の
間隔は、あまり大きすぎてはいけない(最大約15フレー
ム) 。規則2 :摩擦音ブロックのサイズは大き過ぎてはいけな
い。これは、同様に、母音核と摩擦音として検出された
最後のフレームの間の間隔があまり大きすぎてはいけな
い(最大約10フレーム) ことを意味する。規則3 :摩擦音ブロック間の空白のサウイズは最大サイ
ズを越えてはいけない(最大約15フレーム)。核の全体
のサイズは、有声フレームの数とこの核内の空白のサイ
ズの合計である。規則4 :摩擦音ブロックの実際の始まりは、セグメント
のサイズが十分になり、母音核とこの処理された摩擦音
セグメントの第1のフレーム間の間隔は、規則1に従っ
てあまり大きくない。摩擦音ブロックの実際の始まり
は、このセクントの第1のフレームに対応する。規則5 :摩擦音ブロックの終りは、母音核の空白のため
に許可された最大サイズを越える空白が続く摩擦音ブロ
ックの最後のフレームによって決定され、その時このよ
うに決定された摩擦音ブロックの最後のサイズは規則2
に従ってあまり大きくない。
【0037】鑑定の展開 この鑑定は、母音核に先行するまたはそれに続く摩擦音
ブロックを検出するために使用される。従って、この鑑
定で選択された基準は、母音核である。母音核に先行す
る摩擦音ブロックの検出の場合、その処理は、第1の有
声フレームから出発して、従って、時間を「遡って」実
施される。また、フレームiがフレームj(前もって処
理した)に続くらしい時、それによって、母音核のこの
第1のフレームに対して理解しなければならない。現実
には、フレームjは、時間的にフレームiの後である。
下記に記載する鑑定で摩擦音ブロックの始まりと呼ばれ
るものは、実際、このブロックの時間的な始まりであ
る。母音核と摩擦音として検出されたフレーム間の間隔
は、第1の有声ブロックフレームとこの摩擦音フレーム
間の間隔である。
【0038】母音核の後に位置する摩擦音ブロックの検
出の場合、処理は、最後の有声フレームの後に実施さ
れ、従って、自然の時間の順番に従う。鑑定の期間は換
算に適合している。 ケース1: (摩擦音の検出がない限り、母音核に続き、
摩擦音ブロックに先行する空白内にある) 有声セグメントと摩擦音ブロックとの間の間隔をインク
リメントする。このように計算された間隔は、摩擦音ブ
ロックと母音核との間の間隔の下界である。この間隔
は、第1の摩擦音フレームが検出されるとすぐに固定さ
れる。
【0039】ケース2: (第1の摩擦音検出、摩擦音セ
グメントの処理を開始する) 摩擦音ブロックのサイズを1で初期化する。有声ブロッ
クと摩擦音ブロックとの間の距離を固定する。もし、母
音核と摩擦音ブロックとの間の距離が大きすぎないなら
ば(規則2に従って)、摩擦音ブロックの始点は現在の
フレームであり得る。摩擦音ブロックの終点は現在のフ
レームであり得る。もし、摩擦音ブロックのサイズが十
分に大きく、しかも、摩擦音ブロックの実際の終点がま
だ分かっていないならば、核の始点が確認できる。もし
摩擦音ブロックの最小寸法がフレームを上回っている場
合には、このもし(「もし、摩擦音ブロックのサイズが
十分に大きい時」)は不要であることが分かるが、ノイ
ズがある環境内で閉鎖音を検出しようとする時、これら
の閉鎖音は唯一のフレームの期間上にしか現れない。従
って、その時、摩擦音ブロックの最小サイズを1に等し
くし、この条件を守らなければならない。もし、母音核
と摩擦音ブロックとの間の間隔が大き過ぎる時には(規
則2を参照)、許容可能な摩擦音ブロックはない。次の
発声の処理のために再初期化する。処理から離れる。母
音核と摩擦音ブロックとの間の間隔のテストを摩擦音の
第1の検出から実施するので、ここではこの間隔が大き
すぎるほど続くケースでは再生されず、この発声のため
のプロセスは停止される。
【0040】ケース3: (現在のフレームおよび前段の
フレームが2つとも摩擦音フレームでである) 許容可能な摩擦音セグメント(規則1に従って、母音核
の正確な間隔で位置する)中に位置するフレームの処理
中である。摩擦音ブロックの終点は現在のフレームであ
り得る。摩擦音ブロックのサイズをインクリメントす
る。もし、摩擦音ブロックのサイズが十分に大きく(規
則4を参照)、しかも、このブロックのサイズがあまり
大きくなく(規則2を参照)、しかも、摩擦音ブロック
の実際の始点がまだ分かっていないならば、核の始点は
この摩擦音セグメントの始点として確認できる。
【0041】ケース4: (現在のフレームが前段のフレ
ームと異なり破裂音ではない) 摩擦音ブロックの内部に位置する空白の第1のフレーム
の処理中である。空白の全体のサイズをインクリメント
する(1に等しくなる)。
【0042】ケース5: (現在のフレームも前段のフレ
ームの摩擦音フレームではない) 摩擦音ブロックの空白の真中に位置するフレームの処理
中である。空白の全体のサイズをインクリメントする。
もし、空白のサイズが大きくなった摩擦音ブロックの現
在のサイズが摩擦音ブロックの許可された最大サイズを
越えるか(規則2)、空白のサイズが大き過ぎるなら
ば、もし、摩擦音ブロックの始点が分かっているなら
ば、摩擦音ブロックの終点は摩擦音として検出された最
後のフレームである。次の発声を処理するように全デー
タを再初期化する。もし、摩擦音ブロックの始点が分か
っていないならば、前もって作られデータを含めて全デ
ータがもはや有効ではないので、全データを再初期化す
る。もし、そうでない場合には、この空白は摩擦音フレ
ームであり、最終的な決定をすることができない。
【0043】ケース6: (現在のフレームは前段のフレ
ームとは異なり、摩擦音フレームである) 空白の後に位置する摩擦音セグメントの第1のフレーム
を処理する。摩擦音ブロックのサイズをインクリメント
する。もし、前もって検出された空白のサイズが大きく
なった摩擦音ブロックの現在のサイズが摩擦音ブロック
にための許可最大サイズを越えるか、空白のサイズが大
き過ぎる場合には、もし、摩擦音ブロックの始点が分か
っている時には、摩擦音ブロックの終点は、その時摩擦
音として検出される最後のフレームである。次の発声を
処理するように、全データを再初期化する。もし、摩擦
音ブロックの始点が分かっていない時には、前もって作
ったデータを含めて全データがもはや有効ではないの
で、全データを再初期化する。この時は次のフレームを
処理する。もし、そうでない(空白が摩擦音セグメント
の一部分である時)には、摩擦音ブロックのサイズが空
白のサイズの分大きくなっている。空白のサイズが0で
再初期化される。もし、摩擦音ブロックのサイズが十分
に大きく且つこのサイズが大き過ぎず、しかも、摩擦音
ブロックの実際の始点が分かっていない時は、核の始ま
りが確認される。
【0044】ノイズのほとんどない環境での単純化 環境が上記の高度な処理を必要とするためにはノイズが
不十分であるとユーザが評価した場合、上記の鑑定を単
純化するばかりでなく、排除することさえ可能である。
この場合、音声の検出はフレーム数で示される信頼性の
ある間隔に付される母音核の単純な検出に縮小される。
これは、母音識別アルゴリズムの性能を向上させるため
に十分であることが分かっている。同様に、母音核の始
まりの前に約10さらに約15のフレームの識別を開始し、
母音核の後に約10、さらに約15のフレームの識別を終了
することが可能である。
【0047】信号処理アルゴリズム 下記の計算プロセスおよび方法は鑑定と管理アルゴリズ
ムで使用される構成要素である。これらの機能は好まし
くは信号プロセッサで実施され、使用される言語は好ま
しくはアセンブラである。ノイズのほとんどない環境で
の声の存在の検出のために重要な解決方法はAMDF(A
verage Magnitude Difference Function) の閾値化であ
る。その説明は例えばボワト(R. BOITE)及びクン(M. K
UNT)の著作「音声処理(Traitement de laparole) 」、
プレスポリテクニックロマン(Press Polytechniques Ro
mands)編に記載されている。AMDFは下記〔式2〕で
示される関数である。
【0048】
【式2】D(k)=Σn |x(n+k)−x(n)|
【0049】この関数は下記〔式3〕の相関関数で限定
される:
【0050】
【式3】D(k)≦2(ΓX(0) −ΓX(k))1/2
【0051】従って、この関数は下方に頂点を有し、従
って、相関関数として閾値化されなければならない。許
容可能な結果を得るための同様な信号スペクトル計算に
基づくのその他の方法も考えられる(上記の論文「音声
処理(Traitement de la Parole) 」) が、計算コストが
安いので、関数AMDFを使用することが重要である。
ノイズのある環境では、関数AMDFは、信号とその遅
延形との間の間隔である。しかし、この間隔は、組み合
わされたスカラー積を許容せず、従って、正射影の概念
を導入することができない間隔である。また、ノイズの
ある環境では、射影軸を良好に選択した時、ノイズの正
射影は零であり得る。従って、AMDFはノイズのある
環境では適切な解決法ではない。
【0052】相関関係はスカラー積であるので、本発明
は相関関係に基づいており、遅延さ形について信号の正
射影を実施する。この方法は、それ自体、AMDF等の
他の技術よりノイズに強い。実際、観察した信号は、x
(n) =s(n) +b(n) (ここで、b(n) は使用する信号
s(n) に無関係なホワイトノイズである)であると仮定
する。相関関数は下記の〔式4〕によって定義される:
【0053】
【式4】Γx (k) =E〔x(n) x(n−k)〕 従って、 Γx (k) =E〔s(n) s(n−k)〕+E〔b(n) b(n−k)〕 =Γs (k) +Γb (k) ノイズがホワイトなので、
【0054】
【式5】Γx(0)=Γs(0)+Γb(0)、 k≠0の時はΓx(k)=Γs(k)
【0055】ノイズのホワイトは実際には有効な仮定で
はない。しかし、ノイズの相関関数が急速に小さくなる
場合や、相関関数が基本サインで、従って、kが十分に
大きくなるとすぐに実際に0になるピンクノイズ(帯域
フィルタフィルタリングされたホワイトノイズ)の場合
には、結果は良好な近似値である。
【0056】下記にノイズのほとんどない環境と同様に
ノイズのある環境にも適用できるピッチの計算法とピッ
チの検出プロセスを説明する。x(n) (但し、n∈
{0,・・・,N−1})は処理される信号である。A
MDFの場合、下記〔式6〕になる。
【0057】
【式6】 r(k)=D(k)=Σn |x(n+k)−x(n)|
【0058】相関関係の場合、相関関数になることがで
きる期待値しか測定することができず、従って、関数r
(k)=下記〔式7〕で示される。
【0059】
【式7】 (但し、kは、較正定数である。)
【0060】どちらの場合も、下記のように処理して、
理論的にピッチの値が得られる。r(k)は、k=0で
最大である。もし、r(k)の第2番目に大きい値がk
=k0 で得られる時、その時、声の存在の値は、F0
e /k0 (但し、Fe はサンプリング周波数であ
) 。しかし、この理論値は、実際には修正しなければ
ならない。
【0061】実際、信号がサンプル0〜N−1について
しか知られていない時、その時、nがkより大きくない
限りx(n−k)は0である。従って、値kから他の値
への同数の計算点はない。例えば、ピッチ幅を [100Hz,
333Hz] に等しくすると、10KHz のサンプリング周波数
では、100Hz に対応する指数k1 は、k1 =Fe /F0
=10000/100 =100 であり、333Hz に対応するのは、k
2 =Fe /F0 =10000/333 =30である。従って、この
幅のピッチの計算は、k=30〜k=100 で実施される。
【0062】例えば、256 個のサンプル(10kHz でサン
プリングした12.8秒の2フレーム)を使用する時、r(3
0)の計算は、n=30からn=128 まで、すなわち、99個
の点について、及び、r(100) の計算をn= 100〜128
で、すわなち、29個の点に実施される。従って、これら
の計算は、互いに同質ではなく、同様な有効性を持たな
い。計算が正確であるためには、観察窓は、kが何であ
れ、同じでなければならない。従って、n−kが0より
小さい時、kが何であれ多数の点について関数r(k)
を計算することができるように、メモリに信号x(n)
の過去の値を保持していなければならない。定数Kはも
はや重要ではない。
【0063】この場合、計算に使用されるサンプルは有
声ではないフレームから得られ、従って、処理すべき信
号を示さないので、これは実際に有声の第1にフレーム
でしかピッチの計算に有害ではない。しかしながら、連
続した第3の有声フレーム以後、例えば、10kHz のサン
プリングされた128 個の点のフレームによって作業する
時、ピッチの計算は有効になる。これは、一般的に、声
の存在は最小で3×12.8秒続くと仮定される。これは、
現実的な仮説である。この仮説は、鑑定の時考慮しなけ
ればならず、有声のセグメントを有効化する最小期間
は、この同じ鑑定では3×12.8msになる。
【0064】この関数r(k)の計算後にそれを閾値化
することが重要である。閾値は処理された信号の力学に
よって経験的に選択される。このように、量化が16ビッ
トに実施され、サンプルの力学が±10,000を越えず、計
算がN=128 (10KHz のサンプリング周波数) について
実施される応用例では、閾値=750,000 を選択した。し
かし、この値は、特定の用途のための実施例として与え
られたものに過ぎず、他の用途のために変更しなければ
ならない。いずれにせよ、これは、上記に記載の方法を
全く変化させるものではない。
【0065】以下、ノイズフレームの検出方法を説明す
る。母音核の他に、遭遇することのある信号フレーム
は、下記の3種類である: (1) ノイズだけ (2) ノイズ+無声の摩擦音 (3) ノイズ+呼吸 検出アルゴリズムは、信号のホワイトノイズ化されたバ
ージョンから音声の始点と終点とを検出することを目的
とし、一方、ノイズ消去アルゴリズムはノイズの平均ス
ペクトルの知識を必要とする。以下で説明するように無
声の音の検出のため音声信号をホワイトノイズ化するこ
とができるノイズモデルを構築し、音声信号をノイズ消
去するためには、ノイズフレームを検出し、それをその
ものとして確認しなければならないことが明らかであ
る。このノイズフレームの検索は、ユーザがその用途の
ために一度に決定したフレーム数N1 (例えば、N1
40)の中にあり、これらのN1 フレームは母音核の前に
位置する。このアルゴリズムではノイズモデルを使用す
ることができるので、ユーザがノイズレベルを不十分で
あると判断する時は使用されない。
【0066】先ず、「正」のガウス確率変数を決定す
る。確率変数Xは、Pr {X<0}≪1である時、正で
あると言われる。X0 は、Xに組み合わされた標準化さ
れたセンタリング変数であるとする。下記〔式8〕が成
立する:
【0067】
【式8】Pr {X<0}=Pr{X0 <−m/σ} (但し、m=E[x]及びσ2 =E[(X−m)2 ]
【0068】m/σが十分に大きくなるとすぐに、Xは
正であるみなすことができる。Xがガウスである時、F
(x)は標準化法則の分布関数であり、従って、下記
〔式9〕が成立する。
【0069】
【式9】X∈N(m,σ2)の時、Pr {X<0}=F
(−m/σ)
【0070】直接重要な特性はN個の独立した正のガウ
ス変数Xi ∈N(m,σ2 )の合計Xが下記〔式10〕に
よって表される正のガウス変数のままであることであ
る:
【0071】
【式10】
【0072】基本的な結果:X=X1/X2 (但し、X
1 及びX2 は各々X1 ∈N(m1, σ1 2)及びX2∈N
(m2, σ2 2)等のガウス確率変数であり、m=m1
2 、α1 =m1 /σ1 、α2 =m2 /σ2 である。α
1 及びα2 が十分に大きく、X1 及びX2 が正であると
仮定できる時は、X=X1 /X2 の確率密度fX (x) は
下記〔式11〕で近似される:
【0073】
【式11】 (但し、U(u) は、R+ の誘導関数であり、x≦0の
時、U(u) =1、及び、x<0の時、U(u) =0)
【0074】次に、下記〔式12〕:
【0075】
【式12】
【0076】とすると、下記〔式13〕:
【0077】
【式13】fX (x) =f(x,m|α1, α2) U(u) は下記〔式14〕になる:
【0078】
【式14】
【0079】下記〔式15〕:
【0080】
【式15】 P(x,y|α,β)=F〔h(x,y|α,β)〕
【0081】とすると、下記〔式16〕及び〔式17〕にな
る:
【0082】
【式16】
【0083】
【式17】
【0084】α=βの特定の場合には、下記〔式18〕に
なる:
【0085】
【式18】
【0086】次に、以下の説明で使用可能な「正」のガ
ウス変数の基本モデルの幾つかを記載する。 (1) 決定論のエネルギーを備える信号:エネルギーが決
定論で一定の、または、決定論または一定のエネルギー
によって概算されるいずれかの信号のサンプルx
(0),・・・,x(N−1)である。従って、下記
〔式19〕が成り立つ。
【0087】
【式19】
【0088】例として、信号x(n)=Acos(n+θ)
(但し、θは [0,2π ]の間の等部分である)。Nが
十分に大きい時、下記〔式20〕が成り立つ。
【0089】
【式20】
【0090】Nが十分に大きい時、UはNA2 /2に類
似しており、従って、一定のエネルギーを有する。
【0091】(2) ガウスホワイトプロセス:下記〔式2
1〕のようにガウスホワイトプロセス x(n) である:
【0092】
【式21】σx 2=E[x(n)2]
【0093】Nが十分に大きい時、下記〔式22〕が成り
立つ:
【0094】
【式22】
【0095】パラメータαは、α=(N/2)1/2 であ
る。
【0096】(3) 狭い帯域のガウスプロセス:ノイズx
(n)は、プロセスx(t) のサンプリングから由来し、
そのx(t)はそれ自体フィルタ伝達関数h(t) が下記
〔式23〕:
【0097】
【式23】 H(f)=U[-fO-B/2,-fO+B/2](f) +U[fO-B/2,fO+B/2](f) (但し、Yは指数での間隔の特性関数を示し、f0 はフ
ィルタの中央周波数である)
【0098】であると仮定して、帯域フィルタh
(t):x(t)=(h*b)(t)によるガウスホワ
イトノイズb(t)のフィルタリングから由来する。従
って、下記〔式24〕が成り立つ。
【0099】
【式24】
【0100】パラメータαは、下記〔式25〕で示され
る:
【0101】
【式25】
【0102】ガウスプロセスの二次サンプリング化:こ
のモデルは理論より実際的である。相関関数が知られて
いない時でも下記〔式26〕は分かる:
【0103】
【式26】
【0104】従って、kが k>k0 などのように十分
に大きい時、相関関数は0になろうとする。また、一連
のサンプルx(0),・・・,x(N−1)を処理する
代わりに、二次サンプルx(0) ,x(k0),x(2k0)を処
理することができ、この組に組み合わされた変数は、中
央限界の定理による近似値を適用することができるよう
に十分な点のこの副次的な組内にある限り、正のガウス
確率変数である。
【0105】エネルギー間の互換性 下記〔式27〕と仮定する:
【0106】
【式27】 C1=N(m1,σ1 2 )及びC2=N(m2,σ2 2
【0107】m=m1 /m2 、α1 =m1 /σ1 及びα
2 =m2 /σ2 とする。α1 及びα2 はC1 及びC2
正の確率変数としてみなされるように十分に大きい。
(U,V)(但し、(U,V)は(C1UC2)X(C1
UC2)に属するものとする。上記のように、U及びV
は独立したものと仮定される。下記〔式28〕と仮定す
る。
【0108】
【式28】 U≡V ⇔(U,V)∈(C1XC1)U(C2UC2) (u,v)は、組(U,V)の値であるとする。x=u
/vとすると、xは確率変数X=U/Vの値である。s
>1とする。
【0109】
【式29】1/s<x<s⇔U≡V が真であると決定する。これは、D=D1 の決定であ
る。
【0110】
【式30】x<1/sまたはx>s⇔U≡V が偽であると決定する。これは、D=D2 の決定であ
る。
【0111】この決定規則は、従って、下記〔式31〕の
2つの仮説に組み合わされる。
【0112】
【式31】H1 ⇔ U≡Vは真である H2 ⇔ U≡Vは偽である
【0113】下記〔式32〕とする:
【式32】I= [1/s,s]
【0114】検出規則は下記〔式33〕で示される:
【0115】
【式33】X∈I ⇔ D=D1 , X∈R−I ⇔ D=D2
【0116】決定D=D1 が成り立つ時、uとvは互換
性であると言える。この決定規則によって、正確の決定
の蓋然性を許可することができ、従って、その表現は、
実際、確率の値Pr{H1}及びPr{H2}による。こ
れらの確率は、通常、実際に知られていない。この時、
下記〔式34〕:
【0117】
【式34】 Pfa=Pr{D1 |H2 } =P(s,m|α1,α2)−P(1/s,m|α1,α2
【0118】の誤った警告の確率について先験的にある
値に固定しようとして、決定規則は2つの仮説に帰着す
るので、ネイマン−ピアスン(Neyman-Pearson)型の方法
が好ましい。
【0119】信号及びノイズのモデルの選択は、α1
びα2を決定する。この時、mは、発見的手法で固定さ
れるノイズに対する信号の比に同一であると思われるこ
とが分かる。この時、閾値は、Pfaの値を確実にするよ
うに固定される。α1=α2=αの場合は、下記〔式35〕
が成り立つ:
【0120】
【式35】
【0121】値の組の互換性 正のガウス確率変数の値の組{u1 ,・・・,un }と
する。もし、および、もしui が互換性の2×2である
とすると、これらの値は互いに互換性であると言える。
【0123】本発明の方法で使用される信号及びノイズ
のモデル 上記の理論的な注意に対応するプロシージャを使用する
ために、ノイズ及び信号モデルを固定しなければならな
い。下記の例を使用する。このモデルは、下記の仮説に
よって支配される: 仮説1:その形態で有効な信号を知らないと仮定する
が、下記の仮説を立てる:∀はs(n)の値s(0),
・・・,s(NXI1)である。下記〔式36〕のエネル
ギー:
【0124】
【式36】
【0125】はμs 2 によって限られ、これは、Nが十
分に大きいほどそうである。従って、下記〔式37〕が成
り立つ。
【0126】
【式37】
【0127】仮説2:有効信号は、狭い帯域のガウスで
あると仮定されるx(n)の付加ノイズによって妨害さ
れる。処理されたx(n)の方法は、ガウスホワイトノ
イズの狭い帯域フィルタリングによって得られるものと
する。その時、このような方法の相関関数は、下記〔式
38〕によって示される:
【0128】
【式38】 Γx(k)=Γx(0)cos(2πkf0e)sinc(πkBTe)
【0129】このノイズのN個のサンプルを使用して、
下記〔式39〕:
【0130】
【式39】 gf0,B,Te(k) =cos(2πkf0e)sinc(πkBTe)
【0131】とすると、下記〔式40〕が成り立つ。
【0132】
【式40】
【0133】この変数のパラメータαは、下記〔式41〕
によって示される:
【0134】
【式41】
【0135】仮説3:この時、信号s(n) 及びx(n) は
無関係であると仮定される。s(n) 及びx(n) との間の
独立性は、言葉の時間的な意味での非相関を意味し、す
なわち下記〔式42〕で表される:
【0136】
【式42】
【0137】この相関係数は、方法がエルゴート的であ
る時下記〔式43〕:
【0138】
【式43】 E[s(n)x(n)] /(E[s(n)2]E[x(n)2])1/2
【0139】によって定義される空間相関関数の時間領
域での表現でしかない。u(n)=s(n) +x(n) 全体
の信号とし、Uは下記〔式44〕で示されるものとする。
【0140】
【式44】
【0141】この時、Uは下記〔式45〕によって概算で
きる:
【0142】
【式45】
【0143】下記〔式46〕が成り立つので:
【0144】
【式46】
【0145】:下記〔式47〕になる。
【0146】
【式47】
【0147】仮説4:信号が限定された平均エネルギー
を表すと仮定する。エネルギーμs 2を検出することが
できるアルゴリズムは、上のエネルギー信号を全て検出
することができるであろう。上記の仮説を考慮すると、
1 は有効信号が存在する時エネルギーの等級であると
定義される。仮説3により下記〔式48〕が成り立つ:
【0148】
【式48】 仮説4によると、下記〔式49〕:
【0149】
【式49】
【0150】のエネルギーが検出されると、また、全体
のエネルギーUが検出できる。仮説2によると、下記
〔式50〕が成り立つ:
【0151】
【式50】
【0152】従って、下記〔式51〕:
【0153】
【式51】
【0154】がなり、この変数のパラメータは下記〔下
記52〕である:
【0155】
【式52】 (但し、r=μs 2/σx 2は、ノイズ比である)。
【0156】C2 は、ノイズだけに対応するエネルギー
の等級である。仮説2 によると、ノイズのサンプルがx
(0),・・・,x(M−1)である時、下記〔式53〕
が成立する:
【0157】
【式53】
【0158】この変数のパラメータαは、下記〔式54〕
である:
【0159】
【式54】 従って、下記〔式55〕が成立する。
【0160】
【式55】
【0161】従って、下記〔式56〕が成立する。
【0162】
【式56】
【0163】下記のことが分かる:元のノイズがホワイ
トノイズでガウス数の時、上記の仮説はまだ有効であ
る。その時、gf0,B,Te (k)=δ0 (k)であることが分
かるのに十分である。上記の式は、下記〔式57〕のよう
に単純化される:
【0164】
【式57】 C1 =N(m1,σ1 2)及びC2 =N(m2,σ2 2) (但し、m1=Nμs 2+Nσx 2、m2=Mσx 2、σ1 2=2
Nσx 4及びσ2=2Mσx 4である)。
【0165】従って、下記〔式58〕が成立する:
【0166】
【式58】m=m1/m2=(N/M)(1+r) α1=m1/σ1=(1+r)(N/2)1/2 、及びα2
2/σ2=(M/2)1/2
【0167】ノイズを二次サンプリングして、k0 が下
記〔式59〕:
【0168】
【式59】
【0167】のようなk0 個のサンプルについてしたノ
イズのサンプルをとらず、そのうよなモデルの方に向か
うことが可能である。
【0168】エネルギー間の互換性の概念は、パラメー
タm、従って、ノイズ信号比rを先験的に知覚するとい
う条件付きでしか使用されない。これは、ノイズ確認ア
ルゴリズムによって検出しようとしない信号を示すノイ
ズ信号比の予備測定から発見的手法で固定されるか、ま
たは、断固として固定される。好ましくは、第2の解決
方法が使用される。実際、この処理の目的は、全てのノ
イズフレームではなく、ノイズでのみ構成されている可
能性が強い幾つかのフレームだけを明らかにすることで
ある。従って、アルゴリズムが極めて選択的であること
が重要である。この選択性は、確実にしようと決定し、
極めて小さく選択された偽の警告の可能性の値に作用し
て得られる(最大選択性は、PFA=0の場合設定され、
これは、閾値零になり、いかなるノイズも検出されな
い。これは、極端な絶対的な場合である。)。しかし、
この選択性は、また、rの選択によって得られる。大き
すぎるように選択すると、これは、例えば、rより小さ
いノイズ信号比を示す呼吸エネルギーであるのに、エネ
ルギーがノイズを示すものと考えられる恐れがある。反
対に、rが小さいすぎるように選択すると、PFAを接近
可能に制限するとができるが、大き過ぎて許容できな
い。
【0169】上記のモデルを考慮し、閾値計算を実施す
ると、その時、主に上記のように互換性の概念に基づく
下記のノイズ検出及び確認アルゴリズムを使用する。ノ
イズフレームの検索及び確認は、これらのフレームは、
母音核の前に位置するので、ユーザによってそのアプリ
ケーションに一度決定されたフレーム数N1(例えば、
1 =40) で実施される。下記の仮定が成り立つ。すな
わち、ノイズだけのフレームのエネルギーは平均してノ
イズ+呼吸及びノイズ信号のフレームのエネルギーより
小さい。従って、N1 個のフレームの中で最小のエネル
ギーを示すフレームは、ノイズだけで構成されていると
考えられる。この時、上記のモデルを使用して、上記に
記載した意味でこのフレームと互換性の全フレームを検
索する。
【0170】ノイズの検出アルゴリズムは、フレームT
1,・・・,Tnの組の中でノイズと見なされるフレーム
を検出しようとする。下記〔式60〕:
【0171】
【式60】 (但し、u(n)はフレームTi を構成するN個のサン
プルである)
【0172】の形態で計算された、これらのフレームエ
ネルギーをE(T1),・・・,E(Tn )とする。下記の仮
説を立てる。最も小さいエネルギーを示すフレームはノ
イズフレームであり、Tioとする:アルゴリズムは、下
記のように展開する: ノイズフレームの組を初期化する:ノイズ={Tio} iのために、{E(T1),・・・,E(Tn)}−{E(T
io)}を記述 実行 もしE(T1)がノイズの各要素と互換性ならば ノイズ=ノイズU{E(Ti)} 終了
【0173】ノイズの自己後退性モデル ノイズの確認アルゴリズムは極めて確率の高いノイズと
みなされることのできる複数のフレームを提供するの
で、時間サンプルのデータから、ノイズの自己後退性モ
デルを構成しようとする。x(n)がノイズのサンプル
を示すとき、x(n)を下記〔式61〕の形にモデル化す
る:
【0174】
【式61】 (但し、pはモデルの大きさであり,ai は決定すべき
モデルの係数であり、b(n)はモデル化ノイズであ
り、本当らしさの最大値による接近を行う時、ガウスホ
ワイトノイズであると仮定される。)
【0175】この種のモデル化は、特に、IEEEの
「紀要」第69巻、第11号、1981年11月に発表されたエ
ス. エム. カイ(S.M.KAY)及びエス. エル. マープル.
ジュニア(S.L.MARPLE)による文献「スペクトル分析−モ
ダンパースペクティブ(SpectrumAnalysis−A ModerN
Persepective) 」に記載されている。
【0176】モデル計算のアルゴリズムに関しては、多
数の方法が使用できる(ブルグ(Burg)、レヴィンソン−
ダーバン(Levinson-Durbin) 、カルマン(Kalman)、ファ
ースト カルマン(Fast Kalman) ) 。好ましくは、カル
マン(Kalman)及びファースト カルマン(Fast Kalman)
型の方法を使用する。雑誌「信号処理(Traitement du S
ignal)」第5巻、第3号、1988年に発表されたマッシ
(0.MACCHI) /ベランジェ (M.BELLANGER)の論文「横断
適合フィルタリング(Le Filtrage Adaptatif Transver
se) 」及びCNET-ENST コレクション (マッソン(Masso
n))に発表されたベランジェ (M.BELLANGER)の「信号分
析と適合数値フィルタリング(Analyse des signaux et
filtrage numeriqueadaptatif)を参照。これは極めて良
好なリアルタイム性能を示しているが、この選択が唯一
の可能性ではない。フィルタ大きさは、例えば、12に等
しく選択されるが、この値に限定されるものではない。
【0177】拒絶フィルタリング 全体の信号を音声s(n)及びノイズx(n)で構成さ
れている下記〔式62〕とする:
【0178】
【式62】u(n)=s(n)+x(n)
【0179】フィルタは、下記〔式63〕で示される:
【0180】
【式63】
【0181】信号U(z)に使用すると、H(z)U(z)
=H(z)S(z)+H(z)X(z)または、H(z)X(z)
=B(z) ⇒ H(z)U(z) =H(z)S(z)+B(z) 拒絶フィルタH(z)は、信号をホワイトノイズ化し、
従って、このフィルタから出力された信号は、通常ガウ
スホワイトノイズを付加された音声信号(フィルタリン
グされた、従って、変形された)である。⇒拒絶フィル
タは元の音声信号を変形するので、得られた信号は、実
際、識別に不適当である。しかし、得られたノイズは、
実際にガウスホワイトノイズによって妨害されているの
で、この信号は、上記に記載の理論によって信号s(n)
の検出をするために極めて重要であるということにな
る。それによると、得られた広い帯域の信号を保持し、
または、上記に記載のように摩擦音の帯域であらかじめ
それをフィルタリングする(摩擦音の検出を参照)。こ
のため、ノイズの自己後退性モデル化後、この拒絶フィ
ルタリングを使用する。
【0182】ノイズの平均スペクトル ノイズフレームとして確認された複数のフレームを用い
ることができるので、このノイズの平均スペクトルを計
算して、スペクトル減算またはウィーナー(WINENR)フィ
ルタリング型のスペクトルフィルタリングを実施するよ
うに、このノイズの平均スペクトルを計算することがで
きる。例えば、ウィーナー(WINENR)フィルタリングを選
択する。また、ノイズの平均スペクトルを示す下記〔式
65〕を計算する必要がある:
【0183】
【式65】Cxx(f)=E[|X(f)|2 ]
【0184】計算はデジタルなので、重み付け窓によっ
て重み付けたデジタル信号のFFTにしかアクセスでき
ない。さらに、空間平均は、近似値でしかない。これら
のFFTが適切なアポダイゼーション窓によって初期の
時間信号重み付けによって得られるので、X1(n),・
・・,XM(n)は、そのように確認された信号のノイズ
のM個のフレームのM+1 FFTである。 下記〔式66〕:
【0185】
【式66】Cxx(f)=E[|X(f)|2 ]
【0186】下記〔式67〕によって概算される:
【0187】
【式67】
【0188】この鑑定器の性能は、例えば、IEEEプ
レスに発表されたエル.ラビネー(L.RABINER) /シー.
エム.ラダー(C.M.RADER)の本「デジタル信号処理(Dig
ital signal processing) 」に記載されている。これが
ウィーナーフィルターの場合、下記の説明で、幾つかの
従来の結果、特に、ジェー.エス.リム(J.S.LIM)の
「スピーチ エンハンスメント(SpeechEnhancement)」
(プレンティス ホール信号処理シリーズ版(Editions
Prentice-Hall Signal Processing Series) )に記載さ
れたものを使用する。観察した全体の信号を下記〔式6
8〕とする:
【0189】
【式68】u(t)=s(t)+x(t) (但し、s(t)は(音声の)有効信号を示し、x
(t)はノイズを示す)。
【0190】周波数の領域では、下記〔式69〕が得られ
る:
【0191】
【式69】U(f)=S(f)+X(f) (但し、記号の意味は明らかである)
【0192】この時、フィルターH(f)を探し、従っ
て、下記〔式70〕:
【0193】
【式70】^S(f)=H(f)U(f)
【0194】は、規格L2 の意味でS(f)に最も近
い。従って、下記〔式71〕:
【0195】
【式71】E [|S(f)−^S(f)|2 ]
【0196】を最小にするH(f)を求める。この時、
下記〔式72〕が証明される:
【0197】
【式72】H(f)=1−(CXX(f)/CUU(f)) (但し、Cxx(f)=E [|X(f)|2 ] 及びC
UU(f)=E [|U(f)|2 ] )
【0196】この型のフィルタは、その表示が直接周波
数なので、パラメータ化がスペクトル計算に基づくとそ
の使用が特に重要である。
【0197】滑らかなコレログラムによる実施XX及びCUUはアクセスできない。それらを評価するこ
としかできない。CXX(f)の評価プロシージャは上記
に記載した。CUUは、単一のフレームでしか使用できな
い全体の信号u(n)の平均スペクトルである。また、
このフレームは、識別の過程で介入できるようにパラメ
ータ化されていなければならない。従って、音声信号が
特に非定常信号であるほど、信号u(n)の平均を実施
することは問題ではない。従って、u(n)のデータか
らCUU(n)の評価を構成しなければならない。この
時、滑らかなコレログラムを使用する。その時、下記
〔式73〕:
【0198】
【式73】 (但し、Fは下記のように構成された滑らかにする窓で
あり、NはFFTの計算を可能にする点の数であり、例
えば、N=256 点である)
【0199】によってCUU(n)を評価する。時間領域
で下記〔式74〕の滑らかにする窓を選択する:
【0200】
【式74】 f(n)=a0 +a1 cos(2πn/N)+a2 cos(4πn/N)
【0201】これらの窓は、IEEEの「紀要」第66
巻、第1号 (1978年1月)に発表されたエフ.ジェー.
ハリス(F.J.HARRIS)の論文「離散フーリエ変換によるハ
ミング分析のための窓の使用について(On the Use of W
indows for Hamming Anaklysiswith Discrete Fourier
Transform) 」にかなり記載されいてる。関数F(k)
は、単純にf(n)の離散フーリエ変換である。下記
〔式75〕:
【0202】
【式75】
【0203】F(k)及びV(k)=|X(k)2 |と
の間の離散合成積として表され、従って、下記〔式76〕
になる:
【0204】
【式76】^Cuu=F*V下記〔式77〕:
【0205】
【式77】^Cuu・^cuu(k)=f(k)v(k) (但し、v(k)は、V(k)のFFT-1である)
【0206】のFFT-1を^cuuとする。従って、下記
の滑らかなコレログラムのアルゴリズムによって^Cuu
(k)を計算する: (1) 下記〔式78〕:
【0207】
【式78】V(n)=|X(n)|2 の逆FFTによるv(k)の計算。 (2) 積f・vの計算 (3) ^Cuuに達する積f・vの計の離散FFT。
【0208】ノイズ及び全体の信号に同じ鑑定器を使用
するようにむしろ、本発明の方法はノイズMxx(n)の
平均スペクトルの前に滑らかなコレログラムのアルゴリ
ズムを使用する。従って、^Cxx(k)は、下記〔式7
9〕:
【0209】
【式79】 によって得られる。従って、ウィーナーフィルターH
(f) は下記〔式80〕の一連の式によって評価される:
【0210】
【式80】^H(n) =1−(^CXX(n) /^Cuu(n) ) ノイズ消去した信号のスペクトルは下記〔式81〕で表さ
れる:
【0211】
【式81】^S(n) =^H(n) U(n)
【0212】FFT-1でノイズ消去した時間信号を回収
することもできる。得られたノイズ消去スペクトル^S
(n)は、フレームの識別のためのパラメータ化に使用
されるスペクトルである。無声信号の検出を実行するた
めには、また、ノイズを表すエネルギーを使用するの
で、上記に記載のプロシージャ(さらに上記のノイズ検
出アルゴリズム)を使用する。
【0213】アクティブ化の検出 下記〔式82〕とする:
【0214】
【式82】C1=(m1,σ1 2)及びC2=(m2,σ2 2
【0215】等級C2(例えば)の同じ等級に属し、エ
ラー確率の極めて小さい、確率変数値を明らかにするこ
とができるアルゴリズムを使用するので、この時、Uが
等級C1または等級C2に属するかどうかを組U/Vの観
察によって決定することがかなり容易になる。従って、
下記〔式83〕の2つの可能な異なる仮説がある:
【0216】
【式83】H1 ⇔U∈C1 及びH2 ⇔U∈C2
【0217】これは、下記〔式84〕の2つの可能な異な
る決定に対応する:
【0218】
【式84】 D=D1 ⇔ 決定U∈C1 、”U∈C1 ”と表記 D=D2 ⇔ 決定U∈C2 、”U∈C2 ”と表記
【0219】最適決定 下記〔式85〕とする:
【0220】
【式85】 m=m1/m2 、α1=m1/σ1及びα2=m2/σ2
【0221】確率変数の組(U,V)(但し、V∈C2
及びU∈C1UC2 であるとする)とする。UとVは独
立しているものとする。変数X=U/Vを関節して、下
記の可能な2つのもの、すなわち、”C1XC2 ”、”
2XC2 の間で決定しようとする。従って、2つの下
記〔式86〕の2つの仮説がある。
【0222】
【式86】H1 ⇔U∈C1 及びH2 ⇔U∈C2
【0223】p=Pr{U∈C1 } とする。決定規則は、下記〔式87〕の形で表される:
【0224】
【式87】x>s⇔U∈C1 ,x<s⇔U∈C2
【0225】正確な決定確率Pc (s,m|α1 ,α2)
は下記〔式88〕になる:
【0226】
【式88】 Pc (s,m|α1,α2)= p[1−P(s,m|α1,α2)]+(1−p)P(s,1|α2, α2) (但し、p=Pr{U∈C1 })
【0227】最適閾値は、Pc (s,m|α1,α2)が
最大になるものである。従って、下記〔式89〕を解決す
る。
【0228】
【式89】
【0229】ネイマン−ピアソン(Neyman-Pearson) 型
方法 上記の方法では、確率pが知られていると仮定した。こ
の確率が知られていない時、ネイマン−ピアソン(Neym
an-Pearson) 型方法を使用することができる。下記〔式
90〕のように、非検出及び偽警報の確率を決定する:
【0230】
【式90】 Pnd={x<s|H1}及びPfa={x>s|H2 } 従って、下記〔式91〕になる:
【0231】
【式91】Pnd=P(s,1|α2,α2)及びPfa=1
−P(s,m|α1,α2
【0232】この時、PfaまたはPndを固定し、閾値を
決定する。音声の場合に上記に記載のようなアクティブ
化の検出を使用するために、上記に記載の方法の良好な
機能を支配する仮説と両立し得る無声信号のエネルギー
モデルを設定することが必要である。従って、無声の摩
擦音/F/、/S/、/CH/及び破裂音/P/、 /
T/、 /Q/のエネルギーモデルを求める。それによ
って、その静止法則がほとんどガウスのエネルギーが得
られる。
【0234】モデル1 音/F/、/S/、/CH/は、約4KHz から5KHz 以
上の範囲の周波数帯内にスペクトル的に広がっている。
音/P/、 /T/、 /Q/は、時間の短い現象とし
ては、より広い帯域に広がっている。選択した帯域で
は、これらの摩擦音のスペクトルは比較的平坦で、従っ
て、この帯域内の摩擦信号は狭い帯域の信号によってモ
デル化される。これは、実際のある場合には、上記に記
載のホワイトノイズ化を使用せずに実施することができ
る。しかしながら、大部分の場合、適切な狭い帯域のノ
イズのモデルを確実にするようにホワイトノイズ化され
た信号に作用することは適切である。
【0235】そのような狭い帯域のノイズモデルを受け
て、従って、上記の方法によって処理される2つのエネ
ルギーの比を処理する。s(n)は観察した帯域内の音
声信号であり、x(n)はこの同じ帯域内のノイズであ
るとする。信号s(n)及びx(n)は無関係である。
等級C1 はN個の点で観察した全体の信号のエネルギー
u(n)=s(n)+x(n)に対応し、等級C2 はM
個の点で関節されたノイズだけのエネルギーVに対応す
る。信号はガウスで、独立しており、u(n)はそれ自
体ガウスの信号であり、従って、下記〔式92〕が成り立
つ:
【0236】
【式92】
【0237】同様に下記〔式93〕が成り立つ:
【0238】
【式93】 (但し、y(n) は、u(n)を観察する時間区間と別の
区間のノイズx(n)の他の値である)
【0239】従って、下記〔式94〕とともに上記の理論
結果が得られる:
【0240】
【式94】
【0241】従って、m=(N/M)(1+r)(但
し、r=σs 2/σx 2)は、最終的にノイズに対する信号
比を示すことが分かる。この問題を完全に解決するため
に、ノイズの信号に対する比rと有効信号の存在の確率
pを知ることができなければならない。ここで、制限で
あると思われるものは、下記のように処理する2つの他
のモデルにも共通である。
【0242】モデル2 モデル1の場合と同様に、無声の摩擦音だけを検出しよ
うとし、従って、特定の帯域での信号を検出しようとす
る。ここでは、摩擦音の信号のモデルは上記と同じでは
ない。摩擦音は、例えば、実習によって知られている、
または、測定されている下記〔式95〕の最小エネルギー
を示すと仮定する:
【0243】
【式95】
【0244】有声の音は、こてでは、狭い帯域のガウス
であるノイズx(n)とは無関係である。y(n)(但
し、nは0〜M−1)が、全体の信号u(n)=s
(n)+x(n)を観察 した時間区間とは異なる区間
のノイズx(n)の値である時、下記〔式96〕が成り立
つ:
【0245】
【式96】 (但し、Cx,M は、M−uplet :t(y(0),・・
・,y(M−1)の相関行 列を示す。)
【0246】全体の信号の下記〔式97〕:
【0247】
【式97】
【0248】のエネルギーに関して、これは、下記〔式
98〕で表される:
【0249】
【式98】
【0250】この結果は、s(n)とx(n)間の無関
係性が、言葉の一時的な意味で比相関によって表され
る、すなわち、下記〔式99〕で表されると仮定して得ら
れる。
【0251】
【式99】
【0252】下記〔式100〕:
【0253】
【式100】 (但し、Cx,N はN−uplet :t(x(0),・・・,
x(N−1)の相関行列を示す。)
【0254】が成り立つので、その時、下記〔式101〕
が成り立つ。
【0255】
【式101】
【0256】従って、下記〔式102〕と共に上記の理論
上の結果を適用することができる:
【0257】
【式102】 C1 =M(Nμs 2+Nσx 2,2Tr(Cx,N 2)) C2 =N(Mσx 2,2Tr(Cx,M 2)) m=(N/M)(1+μs 2/σx 2) α1=N(μs 2+σx 2)/(2Tr(Cx,N 2))1/2 α2=Mσx 2/(2Tr(Cx,M 2))1/2
【0258】下記〔式103〕:
【0259】
【式103】m=(N/M)(1+r) (但し、r=μs 2/σx 2
【0260】は最終的にノイズに対する信号比を示す。
ノイズに対する信号比r及び有効信号の存在の確率pに
関して、モデル1と同様な指摘がここでも有効である。
【0261】モデル3 このモデルでは、ガウスホワイトノイズ仮説によって、
全ての無声の信号の検出を実行しようとする。従って、
上記で使用した狭い帯域のモデル信号はもはや有効では
ないので、最小エネルギーμs 2が知られている広い帯域
の信号に関係すると仮定することしかできない。従っ
て、下記〔式104〕になる:
【0262】
【式104】C1 =N(Nμs 2+Nσx 2,2Nσx 4) C2 =N(Mσx 2,2Mσx 4) m=(N/M)(1+r)(但し、r=μs 2/σx 2) α1=(1+r)(N/2)1/2 α2=(M/2)1/2
【0263】このモデルを使用するために、ノイズは、
ガウスホワイトノイズでなければならない。元のノイズ
がホワイトノイズでない時、実際、観察した信号を二次
サンプリングして、すなわち、2、3のサンプルしか考
慮せず、さらに、ノイズの自己相関関数に従って、及
び、このようにして二次サンプリングされた音声信号が
さらに検出可能なエネルギーを示すと仮定して、このモ
デルに接近することができる。しかし、また、好ましく
は、残留ノイズは大体ガウスホワイトノイズであるの
で、拒絶フィルタによってホワイトノイズ化された信号
についてこのアルゴリズネを使用すくことができる。
【0264】ノイズに対する信号の比及び有効信号の存
在の確率の先験的な値に関する上記の指摘は、ここでも
変わらず有効である。上記のモデルを使用して、下記に
無声音の2つの検出アルゴリズムを示す。
【0265】アルゴリズム1、ノイズを表すエネルギー
を用いて、これらのエネルギーを平均して、従って、ノ
イズの「参照エネルギー」を得る。E0 をこのエネルギ
ーとする。第1 の有声フレームの前のN3個のフレーム
1,・・・,Tnについて下記のように処理する。下記
〔式105〕:
【0266】
【式105】 (但し、u(n)はフレームTi を構成するN個のサン
プルである)
【0267】で計算したこれらのフレームのエネルギー
をE(T1),・・・,E(Tn)とする:E(Ti )に
ついて{E(T1),・・・,E(Tn)}を記述 実行 もし、E(Ti )がE0 と互換性ならば(値E(Ti
/E0 について決定)フレームTi について検出 終了
【0268】アルゴリズム2 このアルゴリズムは、上記の変形例である。E0 とし
て、ノイズとして検出されたフレームの平均エネルギー
またはノイズとして検出された全フレームの最小エネル
ギー値を使用する。次に、下記のように処理する。 E(Ti )について{E(T1),・・・,E(Tn)}
を記述 実行 もし、E(Ti )がE0 と互換性ならば(値E(Ti
/E0 について決定)フレームTi について検出 終了
【0269】ノイズに対する信号の比rは、アプリケー
ションの分野の特性であるように予め実験測定を実行す
る限り、選択した帯域での摩擦音が示すノイズに対する
信号比の大きさの順を決定するように発見的手法で評価
または固定される。無声の音声の存在の確率pは、それ
もまた、発見的データであり、ノイズに対する信号比と
同様に、アルゴリズムの選択性を調節する。このデータ
は、使用された語彙と無声音の検索が実施されるフレー
ム数によって評価される。
【0270】ノイズが小さい環境の場合の単純化 ノイズが小さく、ノイズモデルが決定されない環境の場
合、上記に提案した単純化によって、上記の理論は、ノ
イズに対する信号の比には全単射的には関係ないが、し
かし、全体として経験的に関係がある閾値の使用を公正
化している。ノイズが無視できる環境での重要な変更例
は、声の存在の検出だけで十分であり、その無声音の検
出を排除し、音声の始まりを母音核の終りの後の数フレ
ーム(約15フレーム)に固定することである。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 ノイズを含む信号中で有声フレームの検
    出を少なくとも1回行い、この有声フレームの前のノイ
    ズフレームを探し、ノイズの自己後退性モデルおよびノ
    イズの平均スペクトルを作り、有声音の前のフレームを
    拒絶フィルタによってホワイトノイズ化し且つスペクト
    ルノイズ消去器によってノイズ消去し、ホワイトノイズ
    化したフレーム中で音声の実際の始点を探し、音声の実
    際の始点と第1の有声フレームとの間のノイズ消去され
    たフレームから音声識別装置によって音響ベクトルを抽
    出し、有声フレームの検出をし、それを識別のためにノ
    イズ消去し且つパラメータ化し、もはや有声フルムが検
    出されない時に、音声の実際の終点を探し、次に、最後
    の有声フレームと音声の実際の終点との間のフレームを
    ノイズ消去し且つパラメータ化することを特徴とするノ
    イズを含む信号中の音声の検出方法。
  2. 【請求項2】 ホワイトノイズ化をノイズの自己後退性
    モデルから計算したフィルタリング拒絶器で行う請求項
    1に記載の方法。
  3. 【請求項3】 音声の最後のフレームがパラメータ化さ
    れた時に全ての処理パラメータを再初期化する請求項2
    に記載の方法。
  4. 【請求項4】 被処理信号フレームをフーリエ変換で処
    理し、2つの変換が時間的に連続した時には、それらを
    フレームの重なりを含む連続した3 つのフレームで計算
    する請求項1〜3のいずれか一項に記載の方法。
  5. 【請求項5】 各フレームで、そのフレームに特有な
    「ピッチ」値を用いて有声音の検出を行う請求項1〜4
    のいずれか一項に記載の方法。
  6. 【請求項6】 少なくとも3つの有声フレームを識別し
    た後、例えば3×12.8ms 後に、ピッチの計算を有効化
    する請求項5に記載の方法。
  7. 【請求項7】 信号とその遅延形との相関関係でピッチ
    の計算を行う請求項5または6に記載の方法。
  8. 【請求項8】 無声音の検出を閾値化で行う請求項5〜
    7のいずれか一項に記載の方法。
  9. 【請求項9】 無声音を検出する際に、母音核と摩擦音
    ブロックとの間の間隔と、摩擦音ブロックの大きさとを
    調べる請求項1〜8のいずれか一項に記載の方法。
  10. 【請求項10】 ノイズの平均スペクトルをウィーナー
    (Wiener)フィルタリングで得る請求項1〜9のいずれか
    一項に記載の方法。
  11. 【請求項11】 ノイズの平均スペクトルに滑らかなコ
    レログラムのアルゴリズムを用いる請求項10に記載の方
    法。
  12. 【請求項12】 ノイズがほとんどない環境では有声フ
    レームの検出および信頼性のある間隔が与えられた母音
    核の検出のみを行う請求項1に記載の方法。
JP5285608A 1992-10-21 1993-10-21 音声検出方法 Pending JPH06222789A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9212582 1992-10-21
FR9212582A FR2697101B1 (fr) 1992-10-21 1992-10-21 Procédé de détection de la parole.

Publications (1)

Publication Number Publication Date
JPH06222789A true JPH06222789A (ja) 1994-08-12

Family

ID=9434731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5285608A Pending JPH06222789A (ja) 1992-10-21 1993-10-21 音声検出方法

Country Status (5)

Country Link
US (1) US5572623A (ja)
EP (1) EP0594480B1 (ja)
JP (1) JPH06222789A (ja)
DE (1) DE69326044T2 (ja)
FR (1) FR2697101B1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100463657B1 (ko) * 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법
JP2006012082A (ja) * 2004-06-29 2006-01-12 Sony Corp 概念獲得装置及びその方法、並びにロボット装置及びその行動制御方法
KR100640865B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 품질 향상 방법 및 장치
JP2007094002A (ja) * 2005-09-29 2007-04-12 Konami Digital Entertainment:Kk 音声情報処理装置、音声情報処理方法、ならびに、プログラム
JPWO2009087923A1 (ja) * 2008-01-11 2011-05-26 日本電気株式会社 信号分析制御、信号分析、信号制御のシステム、装置、方法及びプログラム
US8665914B2 (en) 2008-03-14 2014-03-04 Nec Corporation Signal analysis/control system and method, signal control apparatus and method, and program
JP5773124B2 (ja) * 2008-04-21 2015-09-02 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
FR2744277B1 (fr) * 1996-01-26 1998-03-06 Sextant Avionique Procede de reconnaissance vocale en ambiance bruitee, et dispositif de mise en oeuvre
FR2765715B1 (fr) 1997-07-04 1999-09-17 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8175874B2 (en) * 2005-11-17 2012-05-08 Shaul Shimhi Personalized voice activity detection
US8417185B2 (en) * 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
FI20051294A0 (fi) * 2005-12-19 2005-12-19 Noveltech Solutions Oy Signaalinkäsittely
US7885419B2 (en) * 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) * 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
US9280982B1 (en) * 2011-03-29 2016-03-08 Google Technology Holdings LLC Nonstationary noise estimator (NNSE)
US8838445B1 (en) * 2011-10-10 2014-09-16 The Boeing Company Method of removing contamination in acoustic noise measurements
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
CN103325388B (zh) * 2013-05-24 2016-05-25 广州海格通信集团股份有限公司 基于最小能量小波框架的静音检测方法
DE102019102414B4 (de) * 2019-01-31 2022-01-20 Harmann Becker Automotive Systems Gmbh Verfahren und System zur Detektion von Reibelauten in Sprachsignalen

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
US4912764A (en) * 1985-08-28 1990-03-27 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder with different excitation types
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US4777649A (en) * 1985-10-22 1988-10-11 Speech Systems, Inc. Acoustic feedback control of microphone positioning and speaking volume
JP2884163B2 (ja) * 1987-02-20 1999-04-19 富士通株式会社 符号化伝送装置
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
BR8907308A (pt) * 1988-03-11 1991-03-19 British Telecomm Aparelho detector da atividade vocal,processo para a deteccao da atividade vocal,aparelho para a codificacao de sinais da fala e aparelho telefonico movel
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
EP0747879B1 (en) * 1990-05-28 2002-08-07 Matsushita Electric Industrial Co., Ltd. Voice signal coding system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100463657B1 (ko) * 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법
JP2006012082A (ja) * 2004-06-29 2006-01-12 Sony Corp 概念獲得装置及びその方法、並びにロボット装置及びその行動制御方法
JP4635486B2 (ja) * 2004-06-29 2011-02-23 ソニー株式会社 概念獲得装置及びその方法、並びにロボット装置及びその行動制御方法
KR100640865B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 품질 향상 방법 및 장치
US7590524B2 (en) 2004-09-07 2009-09-15 Lg Electronics Inc. Method of filtering speech signals to enhance quality of speech and apparatus thereof
JP2007094002A (ja) * 2005-09-29 2007-04-12 Konami Digital Entertainment:Kk 音声情報処理装置、音声情報処理方法、ならびに、プログラム
JP4722653B2 (ja) * 2005-09-29 2011-07-13 株式会社コナミデジタルエンタテインメント 音声情報処理装置、音声情報処理方法、ならびに、プログラム
JPWO2009087923A1 (ja) * 2008-01-11 2011-05-26 日本電気株式会社 信号分析制御、信号分析、信号制御のシステム、装置、方法及びプログラム
US8665914B2 (en) 2008-03-14 2014-03-04 Nec Corporation Signal analysis/control system and method, signal control apparatus and method, and program
JP5668923B2 (ja) * 2008-03-14 2015-02-12 日本電気株式会社 信号分析制御システム及びその方法と、信号制御装置及びその方法と、プログラム
JP5773124B2 (ja) * 2008-04-21 2015-09-02 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム

Also Published As

Publication number Publication date
FR2697101A1 (fr) 1994-04-22
US5572623A (en) 1996-11-05
DE69326044D1 (de) 1999-09-23
EP0594480A1 (fr) 1994-04-27
FR2697101B1 (fr) 1994-11-25
DE69326044T2 (de) 2000-07-06
EP0594480B1 (fr) 1999-08-18

Similar Documents

Publication Publication Date Title
JPH06222789A (ja) 音声検出方法
Sadjadi et al. Unsupervised speech activity detection using voicing measures and perceptual spectral flux
EP1210711B1 (en) Sound source classification
Jain et al. Event-based method for instantaneous fundamental frequency estimation from voiced speech based on eigenvalue decomposition of the Hankel matrix
US10783899B2 (en) Babble noise suppression
Xie et al. A family of MLP based nonlinear spectral estimators for noise reduction
Khoa Noise robust voice activity detection
Ishizuka et al. Study of noise robust voice activity detection based on periodic component to aperiodic component ratio.
Korkmaz et al. Unsupervised and supervised VAD systems using combination of time and frequency domain features
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
Thakare Voice activity detector and noise trackers for speech recognition system in noisy environment
Patil et al. Effectiveness of Teager energy operator for epoch detection from speech signals
JP2797861B2 (ja) 音声検出方法および音声検出装置
Jang et al. Evaluation of performance of several established pitch detection algorithms in pathological voices
US20030046069A1 (en) Noise reduction system and method
Yegnanarayana et al. Analysis of instantaneous f 0 contours from two speakers mixed signal using zero frequency filtering
Liu et al. Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments
Kodukula Significance of excitation source information for speech analysis
Solvang et al. Voice activity detection based on adjustable linear prediction and GARCH models
Byun et al. Noise Whitening‐Based Pitch Detection for Speech Highly Corrupted by Colored Noise
Ishizuka et al. A feature for voice activity detection derived from speech analysis with the exponential autoregressive model
Vikram et al. Epoch Extraction from Pathological Children Speech Using Single Pole Filtering Approach.
JPH05173592A (ja) 音声/非音声判別方法および判別装置
Krishnamoorthy et al. Application of combined temporal and spectral processing methods for speaker recognition under noisy, reverberant or multi-speaker environments
Ishizuka et al. Speech feature extraction method using subband-based periodicity and nonperiodicity decomposition

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030610