JP2002140096A - 信号処理システム - Google Patents

信号処理システム

Info

Publication number
JP2002140096A
JP2002140096A JP2001168802A JP2001168802A JP2002140096A JP 2002140096 A JP2002140096 A JP 2002140096A JP 2001168802 A JP2001168802 A JP 2001168802A JP 2001168802 A JP2001168802 A JP 2001168802A JP 2002140096 A JP2002140096 A JP 2002140096A
Authority
JP
Japan
Prior art keywords
signal
values
processing
parameter
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001168802A
Other languages
English (en)
Inventor
Jacob Rajan Jebb
ジェイコブ ラジャン ジェブ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB0013536A external-priority patent/GB0013536D0/en
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2002140096A publication Critical patent/JP2002140096A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 複数の信号源により発生される信号を受信す
る1つ以上の受信器を含む信号処理システムを提供す
る。 【解決手段】 システムは、1組の入力信号値に対し
て、受信信号値において信号を発生したと想定される対
応する信号モデルのパラメータに関わる確率密度を与え
る所定の関数を格納するメモリを有する。システムは1
組の受信信号値を格納されている関数に適用して確率密
度関数を生成し、その後、そこから複数のサンプルを取
り出す。次に、システムは取り出したサンプルを解析し
て、少なくとも1つの信号源からの信号を表現するパラ
メータ値を判定する。

Description

【発明の詳細な説明】
【0001】本発明は信号処理方法及び装置に関する。
特に、本発明は、複数の信号源により発生される信号に
応答して複数のセンサにより出力される信号の統計解析
に関する。本発明は音声認識及びその他の用途におい
て、複数の信号源により発生される信号を分離すること
を目的として受信信号を処理するために使用されても良
い。また、存在する信号源の数を識別するために本発明
を利用することも可能である。
【0002】複数の信号源により発生される信号に応答
して複数のセンサにより出力される信号を処理できるよ
うにする必要がある。信号源は、例えば、複数の異なる
話者であっても良く、センサはマイクロホンであっても
良い。現在の技法は、話者の1人からの音声を分離する
ために、マイクロホンのアレイと適応ビーム形成技法を
採用している。この種のビーム形成システムにはいくつ
かの問題がある。第1に、このシステムは空間的に全く
別個である信号源からの信号しか分離できない。第2
に、信号源が互いに相対的に近接している場合、使用す
るビームの分解能が限られているために機能しなくな
る。第3に、関心ある信号が到着する方向と、センサア
レイにおけるセンサの間隔とがわかっていなければなら
ない。更に、利用できるセンサの個数がN個である場
合、感知ゾーン内部ではN−1個の「ナル」しか作成で
きない。
【0003】本発明の目的は、複数の信号源から受信さ
れる信号に応答して複数のセンサから出力される信号を
処理するための従来に代わる技法を提供することであ
る。
【0004】1つの面によれば、本発明は、複数の信号
源により発生される信号を表現する1組の信号値を受信
する1つ以上の受信器と、各々が受信信号値により表現
される信号のそれぞれ1つを発生したと想定される対応
する信号モデルのパラメータに関わる確率密度関数を格
納するメモリと、受信信号値を確率密度関数に適用する
手段と、確率密度関数を適用されたそれらの値によって
処理して、確率密度関数からパラメータ値のサンプルを
取り出す処理手段と、取り出されたパラメータ値のサン
プルのいくつかを解析して、信号源の少なくとも1つに
より発生された信号を表現するパラメータ値を判定する
手段とを具備する信号処理装置を提供する。
【0005】本発明の実施形態はコンピュータハードウ
ェアで実現できるが、以下に説明する実施形態は、パー
ソナルコンピュータ、ワークステーション、写真複写
機、ファクシミリ装置などの処理ハードウェアと関連し
て実行されるソフトウェアにおいて実現される。
【0006】図1は、本発明の一実施形態を動作させる
ためにプログラムできるパーソナルコンピュータ(PC)
1を示す。キーボード3、指示装置5、2台のマイクロ
ホン7−1及び7−2並びに電話回線9はインタフェー
ス11を介してPC1に接続している。キーボード3と指
示装置5により、ユーザはシステムを制御できる。マイ
クロホン7は1人又は複数人のユーザの音響音声信号を
等価の電気信号に変換し、それらの信号をPC1に供給し
て処理させる。PC1が、例えば、遠隔コンピュータ又は
離れた場所にいるユーザと通信できるように、電話回線
9に内部モデム及び音声受信回路(図示せず)を接続し
ても良い。
【0007】PC1を本発明に従って動作させるプログラ
ム命令は既存のPC1と共に使用されるように、例えば、
磁気ディスク13などの記憶装置として供給されても良
いし、あるいはインターネット(図示せず)から内部モ
デム及び電話回線9を介してソフトウェアをダウンロー
ドすることにより供給されても良い。
【0008】複数の話者から発生される音声信号に応答
して複数のマイクロホンから出力される信号を受信する
音声認識システムの動作を説明する。しかし、このよう
な認識システムの動作を理解しやすくするために、ま
ず、図2から図9を参照して話者が1人、マイクロホン
が1台設置されている場合にマイクロホンから出力され
る信号について類似の解析を実行する音声認識システム
を説明する。
【0009】単一話者単一マイクロホン 図2に示すように、マイクロホン7からの入力音声を表
現する電気信号はフィルタ15に入力され、フィルタ1
5は入力信号の中の望ましくない周波数(この実施形態
においては8kHzを越える周波数)を除去する。フィル
タリングされた信号は、この後、(16kHzの速度で)
サンプリングされ、アナログ/デジタル変換器17によ
りデジタル化される。デジタル化音声サンプルはバッフ
ァ19に格納される。次に、バッファ19から音声サン
プルの逐次ブロック(又はフレーム)が統計解析装置2
1へ送信され、統計解析装置21は音声サンプルの各フ
レームの統計解析を実行して、特に、フレーム中の音声
を表現する1組の自動回帰(AR)係数を判定する。この
実施形態では、統計解析装置21により出力されるAR係
数は係数変換器23を介してケプストラル利用音声認識
装置25に入力される。従って、この実施形態において
は、係数変換器23は統計解析装置21により出力され
たAR係数をケプストラル係数に変換するのである。これ
は、例えば、Rabiner及びJuang著「Fundamentals of Sp
eech Recognition」の115ページ及び116ページに
記載されている変換技法を使用して実現できる。音声認
識装置25は音声の連続するフレームのケプストラル係
数を格納されている1組の音声モデル27と比較して、
認識結果を生成する。音声モデルはテンプレートに基づ
くものであっても良いし、あるいは隠れマルコフモデル
であっても良い。
【0010】統計解析装置−理論と概要 前述のように、統計解析装置21は入力音声信号の連続
するフレームの中の音声を解析する。多くの音声処理シ
ステムでは、フレームは互いに重なり合っているが、こ
の実施形態においては音声のフレームは重なっておら
ず、20msの持続時間を有する。アナログ/デジタル変
換器17のサンプリング速度が16kHzであるので、こ
の持続時間の場合、フレームサイズは320サンプルと
いうことになる。
【0011】それぞれのフレームに対して統計解析を実
行するために、統計解析装置21は、そのフレーム中に
各サンプルを発生させた基礎プロセスが存在すると仮定
する。この実施形態で使用されるプロセスのモデルを図
3に示す。図示されているように、プロセスは音声源3
1によりモデル化され、音声源31は時間t=nにおいて
生音声サンプルs(n)を生成する。音声調音体の動きに
は物理的な制約があるため、隣接する音声サンプルの間
には何らかの相関関係が成立している。従って、この実
施形態では、音声源31は自動回帰(AR)プロセスによ
りモデル化されている。言い換えれば、統計解析装置2
1は、最前の先行生信号サンプルの線形加重組み合わせ
から現在生音声サンプル(s(n))を判定できると想定
しているのである。
【0012】すなわち、
【0013】式中、a1,a2.....akは音声サンプル間の相
関の量を表すARフィルタ係数であり、kはARフィルタモ
デルオーダであり、e(n)は生音声サンプルの生成に関
連するランダムプロセス雑音を表す。音声処理の分野の
当業者には理解されるであろうが、これらのARフィルタ
係数は線形予測(LP)解析が異なる処理技法を使用する
にもかかわらず推定する係数と同じである。
【0014】図3に示すように、音声源により生成され
る生音声サンプルs(n)はチャネル33に入力される。チ
ャネル33は音声源31と、アナログ/デジタル変換器
17の出力端子との間の音声環境をモデル化している。
音声が音声源31からマイクロホン7まで進む間にチャ
ネル33は単純に音声を減衰させるのが理想的である
が、残響やその他の妨害効果によって、アナログ/デジ
タル変換器17により出力される信号(y(n))は現在
生音声サンプル(s(n))のみならず、先行生音声サン
プルによっても影響を受ける。従って、この実施形態で
は、統計解析装置21は移動平均(MA)フィルタによっ
てチャネル33をモデル化する。
【0015】 式中、y(n)は時間t=nにアナログ/デジタル変換器1
7により出力される信号サンプルを表し、h0,h1,h2....
hrはチャネル33内部のひずみの量を表すチャネルフィ
ルタ係数であり、rはチャネルフィルタモデルオーダで
あり、ε(n)はランダム加法的測定雑音成分を表す。
【0016】現在処理中の音声のフレームについて、音
声源とチャネル双方のフィルタ係数は一定であると想定
されるが、わかってはいない。従って、現在処理中のフ
レームの全てのN個のサンプル(N=320の場合)を考
えると、次のようになる。
【0017】
【0018】これをベクトル形式により次のように書き
表すことができる。
【0019】
【0020】式中、
【0021】以下の説明から明白になるであろうが、等
式(3)をランダム誤り成分(残差と呼ばれることが多
い)e(n)に関して書き直しても好都合である。
【0022】すなわち、
【0023】これをベクトル表記法により次のように書
き表すことができる。
【0024】式中、
【0025】同様に、等式(2)により定義されるチャ
ネルモデルを考えると、h0=1(この場合、より安定し
た解が得られる)のとき、
【0026】 となり(式中、q(n)=y(n)− s(n))、これをベ
クトル形態で書き表すと次のようになる。
【0027】
【0028】式中、
【0029】この実施形態では、統計解析装置21は、
特に、現在フレーム中の観測信号サンプル(y(n))を
最も良く表現するARフィルタ係数(a)の値を判定しよ
うとする。統計解析装置21は、アナログ/デジタル変
換器17から出力される観測信号サンプルが与えられた
とき、音声モデル、チャネルモデル、生音声サンプル及
び雑音統計値の同時確率密度情報を最大にするARフィル
タ係数(a)を判定することにより、すなわち、
【0030】 を判定することによりこれを実行する。式中、σe
びσε はそれぞれプロセス雑音統計値及び測定雑音統
計値を表す。当業者には理解されるであろうが、この関
数は、特定の音声モデル、チャネルモデル、生音声サン
プル及び雑音統計値がアナログ/デジタル変換器からの
音声サンプル(y(n))の観測フレームを発生した確率
を定義する。これを実行するため、統計解析装置21は
この関数がどのように見えるかを判定しなければならな
い。この問題は、この確率密度関数をベイズの法則を使
用して再配列することにより簡略化できる。すなわち、
【0031】 当業者には理解されるであろうが、アナログ/デジタル
変換器からの信号の確率はモデルのあらゆる選択肢に対
して一定であるので、等式(10)の分母を無視するこ
とができる。従って、等式(9)により定義される関数
を最大にするARフィルタ係数は等式(10)の分母も最
大にする。次に、等式(10)の分母における各々の項
を順次考えてみる。
【0032】p(s(n)|a,k,σe 2) この項は、ARフィルタ係数(a)、ARフィルタモデルオ
ーダ(k)及びプロセス雑音統計値(σe 2)が与えられ
たとき、1フレーム中の生音声サンプル(s(n))のベ
クトルを生成する同時確率密度関数を表す。先の等式
(6)により、生音声サンプルに関するこの同時確率密
度関数をプロセス雑音の同時確率密度関数から判定する
ことができる。すなわち、p(s(n)|a,k,σe 2)は次
のように表される。
【0033】
【0034】式中、p(e(n))は入力音声の1フレー
ム中のプロセス雑音の同時確率密度関数であり、右側の
第2項は変換のヤコビアンとして知られている。この場
合、行列 が三角形であるため、ヤコビアンは1である(先の等式
(6)を参照)。
【0035】この実施形態では、統計解析装置21は、
音声源31と関連するプロセス雑音は平均が0であり、
何らかの未知の分散σe 2を有するガウシアンであると想
定している。また、統計解析装置21は、ある1つの時
点におけるプロセス雑音は別の時点のプロセス雑音とは
無関係であると想定する。従って、入力音声の1フレー
ム中のプロセス雑音の同時確率密度変数(発生するプロ
セス雑音e(n)の所定のベクトルの確率を定義する)は
次のように表される。
【0036】
【0037】従って、ARフィルタ係数(a)、ARフィル
タモデルオーダ(k)及びプロセス雑音分散(σe 2)が
与えられたときの生音声サンプルのベクトルの同時確率
密度関数は次のように表される。
【0038】
【0039】p(y(n)|(n),h,r,σz 2) この項は、生音声サンプル(s(n))のベクトル、チャ
ネルフィルタ係数(h)、チャネルフィルタモデルオー
ダ(r)及び測定雑音統計値(σz 2)が与えられたとき
の、アナログ/デジタル変換器17から出力される音声
サンプル(y(n))のベクトルを生成する同時確率密度
関数を表す。等式(8)により、この同時確率密度関数
はプロセス雑音の同時確率密度関数から判定できる。す
なわち、p(y(n)|(n),h,r,σz 2)は次のよう
に表される。
【0040】
【0041】式中、p(ε(n))は入力音声の1フレー
ム中の測定雑音の同時確率密度関数であり、右側の第2
項は同様に1の値を有する変換のヤコビアンである。
【0042】この実施形態では、統計解析装置21は、
測定雑音は平均が0であり且つ何らかの未知の分散σz 2
を有するガウシアンであると想定している。また、統計
解析装置21は、ある1つの時点における測定雑音は別
の時点の測定雑音とは無関係であると想定する。従っ
て、入力音声の1フレームにおける測定雑音の同時確率
密度関数は、等式(12)で定義されているプロセス雑
音と同じ形態を有する。そのため、チャネルフィルタ係
数(h)、チャネルフィルタモデルオーダ(r)、測定雑
音統計値(σε 2)及び生音声サンプル(s(n))が与
えられたときの、アナログ/デジタル変換器17から出
力される音声サンプル(y(n))のベクトルの同時確率
密度関数は次のような形態を有する。
【0043】
【0044】当業者には理解されるように、この音声サ
ンプル(y(n))のベクトルの同時確率密度関数は変数
g(n)に関して定められているが、g(n)はy(n)及び
s(n)の関数であり且つs(n)はこの確率密度関数につ
いて与えられた変数(すなわち、既知の変数)であるの
で、それは全く問題にならない。
【0045】p(a|k) この項は、ARフィルタ係数(a)の先験的確率密度関数
を定義し、これにより、統計解析装置21はそれらの係
数がとると期待する値に関する知識を導入することがで
きる。この実施形態では、統計解析装置21はこの先験
的確率密度関数を未知の分散(σa 2)と、平均ベクトル
μ a)とを有するガウシアンによりモデル化する。す
なわち、
【0046】 新たな変数σa 2及びμ aを導入することにより、これら
の変数の先験的密度関数(p(σa 2)及びp(μ a))を
先に示した等式(10)の分母に加算しなければならな
くなる。まず、処理すべき音声の第1のフレームについ
て、平均ベクトル(μ a)を0に設定することができ、
処理すべき音声の第2のフレーム及びそれに続くフレー
ムについては、平均ベクトルを先行フレームの処理中に
得られた平均ベクトルに設定することができる。この場
合、p(μ a)はまさにμ aの現在値に位置するディラッ
クのデルタ関数であるので、無視できる。
【0047】ARフィルタ係数の分散の先験的確率密度関
数に関して、全ての分散が等しい確率を有することを示
唆するために、統計解析装置21はこれを何らかの定数
に設定することができるであろう。しかし、この項を使
用して、ARフィルタ係数の分散がどのようになると期待
されるかということに関する知識を導入することが可能
である。この実施形態では、分散は常に正であるので、
統計解析装置21はこの分散先験的確率密度関数をパラ
メータαa及びβaを有する逆ガンマ関数により、すなわ
ち、
【0048】 によりモデル化する。処理すべき音声の初めには、統計
解析装置21はARフィルタ係数の分散に関して多くの知
識を持っていない。従って、当初、統計解析装置21は
分散σa 2と、逆ガンマ関数のα及びβパラメータを、こ
の確率密度関数がほぼ平坦になるように、従って、情報
量が多いとは言えないような状態になるように設定す
る。しかし音声の第1のフレームが処理された後、これ
らのパラメータは、音声の次のフレームの処理中には、
音声の先行フレームの処理中に計算されたパラメータ値
を使用してより正確に設定できる。
【0049】p(h|r) この項は、チャネルモデル係数(h)の先験的確率密度
関数を表し、これにより、統計解析装置21は、これら
の係数がとると期待される値に関する知識を導入するこ
とができる。ARフィルタ係数の先験的確率密度関数の場
合と同様に、この実施形態では、この確率密度関数は未
知の分散(σh 2)及び平均ベクトル(μ h)を有するガ
ウシアンにより、すなわち、
【0050】 によりモデル化される。この場合にも同様に、これらの
新たな変数を導入することにより、先験的密度関数(p
(σh 2)及びp(μ h))を等式(10)の分母に加算し
なければならなくなる。また、平均ベクトルは当初は0
に設定でき、音声の第1のフレームが処理された後、後
続する処理すべき音声の全てのフレームについては、平
均ベクトルを先行フレームの処理中に得られた平均ベク
トルと等しくなるように設定できる。従って、p(μ h
μ hの現在値に位置するまさにディラックのデルタ関
数であるので、無視することができる。
【0051】チャネルフィルタ関数の分散の先験的確率
密度関数に関しても同様に、この実施形態では、これは
パラメータαh及びβhを有する逆ガンマ関数によりモデ
ル化される。同様に、分散(σh 2)と、逆ガンマ関数の
α及びβパラメータを、当初は、それらの密度が多くの
情報を含まず、従って、初期フレームのその後の処理に
ほとんど影響を及ぼさないように選択することができ
る。
【0052】p(σe 2)及びp(σε 2) これらの項は、プロセス雑音分散及び測定雑音分散の先
験的確率密度関数であり、これらの項により、統計解析
装置21は、これらの雑音分散がとると期待する値に関
する知識を導入することができる。この実施形態では、
統計解析装置21はパラメータαe、βe及びαε、βε
をそれぞれ有する逆ガンマ関数によりこれらをモデル化
する。同様に、当初、これらの分散及びガンマ関数パラ
メータを、多くの情報を含まず、初期フレームのその後
の計算にそれほど影響を及ぼさないように設定すること
ができる。
【0053】p(k)及びp(r) これらの項は、ARフィルタモデルオーダ(k)及びチ
ャネルモデルオーダ(r)のそれぞれに対する先験的確
率密度関数である。この実施形態では、これらは何らか
の最大オーダに至るまで一様分布によりモデル化され
る。このように、それらの事前定義済み最大値を越える
ことができないという点を除いて、モデル中の係数の数
に先験的変更が加わることはない。この実施形態では、
最大ARフィルタモデルオーダ(k)は30であり、最大
チャネルモデルオーダ(r)は150である。
【0054】従って、等式(10)の分母に関連する等
式を代入すると、p(a,k,h,r,σa 2,σh 2,σe 2
σε 2s(n)|y(n))に比例する次のような同時確率
密度関数が得られる。
【0055】
【0056】ギブスサンプラ この同時確率密度関数の形態を判定するために、統計解
析装置21は関数から「サンプルを取り出す」。この実
施形態では、サンプリングすべき同時確率密度関数は複
素多変量関数であるので、問題をより小さい次元性の確
率密度関数からサンプルを取り出す問題に分解するギブ
スサンプラを使用する。すなわち、ギブスサンプラは条
件付き密度から確率変量を次のように取り出すことによ
り動作を進行する。
【0057】第1の反復法
【0058】第2の反復法
【0059】式中、(h0,r0,(σe 20
(σε 20,(σa 20,(σh 20s(n)0)は先行
する音声のフレームの統計解析の結果から得られる初期
値であるが、先行フレームが存在しない場合、音声処理
の分野の当業者には良く知られている適切な値に設定で
きる。
【0060】当業者には理解されるであろうが、それら
の条件付き密度は与えられた(すなわち、既知の)変数
の現在値を等式(19)の密度関数の項に挿入すること
により得られる。条件付き密度p(a,k|...)の場
合、この結果、次のような等式が得られる。
【0061】
【0062】この等式を次のように簡単にすることがで
きる。
【0063】
【0064】これは、下記の共分散行列を有する標準ガ
ウス分布の形態である。
【0065】
【0066】aに関して等式(21)の指数を微分し、
指数の微分を0に等しくさせるaの値を判定することに
より、このガウス分布の平均値を判定できる。この結
果、平均値は次の値となる。
【0067】
【0068】次に、この標準ガウス分布から1つのサン
プルを取り出して、a gを求める(gはギブスサンプラのg
回目の繰り返しである)。尚、モデルオーダ(kg)は後
述するモデルオーダ選択装置により判定される。このガ
ウス分布からのサンプルの取り出しは、一様に分布する
乱数のベクトルを生成する乱数発生器を使用し、次に、
等式(22)及び(23)に示す共分散行列及び平均値
を使用して乱数を変換し、サンプルを生成することによ
り実行されれば良い。しかし、この実施形態では、平均
が0であり且つ分散は1であるガウス分布から乱数を生
成する乱数発生器を使用する。これにより、変換プロセ
スは等式(22)に示す平均値を使用する単純なスケー
リングと、等式(23)に示す平均値を使用するシフテ
ィングのプロセスに簡略化される。ガウス分布からサン
プルを取り出す技法は統計解析の分野では良く知られて
いるので、ここでは詳細な説明を省略する。詳細な説明
については、W.Press他著「Numerical Recipes in C」
(Cambridge UniversityPress,1992年)、特にそ
の第7章を参照のこと。
【0069】しかし、当業者には理解されるであろう
が、このガウス分布からサンプルを取り出せるようにな
る前に、行列S及びベクトルs(n)がわかるように生音
声サンプルの推定値が利用できる状態になっていなけれ
ばならない。この実施形態において生音声サンプルのそ
のような推定値を求める方法については後に説明する。
【0070】条件付き密度p(h,r|...)に関する同
様の解析により、これも標準ガウス分布であるが、その
共分散行列と平均値は次の通りであることが判明した。
【0071】
【0072】このガウス分布から先に説明した方法によ
h gのサンプルを取り出すことができ、チャネルモデル
オーダ(rg)は後述するモデルオーダ選択ルーチンを使
用して判定される。
【0073】条件付き密度p(σe 2|...)に関する同
様の解析により、
【0074】 であることがわかり、式中、
【0075】 である。
【0076】これを次のように簡略化することができ
る。
【0077】これも次のようなパラメータを有する逆ガ
ンマ分布である。
【0078】
【0079】次に、まず、一様分布から乱数を生成し、
その後、等式(27)に示すアルファパラメータ及びベ
ータパラメータを使用して乱数の変換を実行することに
より、この逆ガンマ分布からサンプルを取り出し、(σ
e 2gを求める。
【0080】条件付き密度p(σε 2|...)に関する
同様の解析により、これも次のパラメータを有する逆ガ
ンマ分布であることが判明した。
【0081】
【0082】式中、
【0083】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、(σε 2gを求め
る。
【0084】条件付き密度p(σa 2|...)に関する同
様の解析により、これも次のパラメータを有する逆ガン
マ分布であることが判明した。
【0085】
【0086】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、(σa 2gを求め
る。
【0087】同様に、条件付き密度p(σh 2|...)も
次のパラメータを有する逆ガンマ分布である。
【0088】
【0089】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、(σh 2gを求め
る。
【0090】当業者には理解されるであろうが、ギブス
サンプラは平衡状態(バーンインとして知られている)
に収束するまでに初期過渡期間を必要とする。最終的に
は、L回の繰り返しの後、サンプル(a L,kLh L,rL
(σe 2L,(σε 2L,(σ a 2L,(σh 2L,s
(n)L)は等式(19)に定義される同時確率密度関数
からのサンプルであると考えられる。この実施形態で
は、ギブスサンプラは入力音声のフレームごとに約15
0回の繰り返しを実行し、初めの50回の繰り返しから
のサンプルを廃棄して、残る繰り返しからのサンプルを
使用し、等式(19)で定義される同時確率密度関数が
どのように見えるかを表すピクチャ(1組のヒストグラ
ム)を生成する。それらのヒストグラムから、アナログ
/デジタル変換器17からの観測音声サンプル(y
(n))を最も良く表現する1組のAR係数(a)を判定す
る。また、ヒストグラムは、ギブスサンプラが音声の次
のフレームを処理するときにギブスサンプラの初期値と
して使用できる分散及びチャネルモデル係数(h)の適
切な値を判定する目的でも使用される。
【0091】モデルオーダ選択 先に述べた通り、ギブス繰り返しの間、ARフィルタのモ
デルオーダ(k)及びチャネルフィルタのモデルオーダ
(r)はモデルオーダ選択ルーチンを使用して更新され
る。この実施形態では、これは、Peter Greenの論文「R
eversiblejumpMarkov chain Monte Carlo Computation
and Bayesian model determination」(Biometrika、第
82巻、711~732ページ、1995年)の中で説
明されている「Reversiblejump Markov chain Monte Ca
rlo computation(可逆飛び越しマルコフ連鎖モンテカ
ルロ計算)」から派生した技法を使用して実行される。
【0092】図4は、ARフィルタモデルオーダ(k)に
ついてこのモデルオーダ選択ルーチンの間に実行される
処理ステップを示すフローチャートである。図示されて
いるように、ステップs1では、新たなモデルオーダ(k
2)を提案する。この実施形態では、通常、新たなモデ
ルオーダはk2=k1±1として提案されているが、まれに
k2=k1±2として提案され、更にごくまれにk2=k1±3
などとして提案される。これを実現するために、現在モ
デルオーダ(k1)を中心とする分散ラプラシアン密度関
数から、このラプラシアン密度関数の分散を要求される
モデルオーダスペースのサンプリングの程度に従って先
験的に選択して、サンプルを取り出す。
【0093】次に、処理はステップs3へ進み、モデル
オーダ変数(MO)を に等しく設定する。
【0094】式中、比の項は現在モデルオーダ(k1
と、提案された新たなモデルオーダ(k2)とについて
の、ギブスサンプラにより取り出された現在ARフィルタ
係数(a)に関して評価された等式(21)に示す条件
付き確率の比である。k2>k1であれば、まず、行列Sの
大きさを再設定しなければならず、次に、(新たな大き
さに設定された行列Sについて判定された)等式(2
2)及び(23)により定義される平均ベクトル及び共
分散行列を有するガウス分布から新たなサンプルを取り
出して、新たなモデルオーダ(k2)に対するARフィルタ
係数(a <1 :k2 )を求めなければならない。k2<k1
あれば、aベクトルから最後の(k1−k2)個のサンプル
を削除するだけで良い。等式(31)における比が1よ
り大きい場合、それは提案されたモデルオーダ(k2)が
現在モデルオーダより良いことを示唆し、逆に、比が1
より小さい場合には、それは現在モデルオーダが提案さ
れたモデルオーダより良いことを示唆している。しか
し、場合によってはそうでない場合もあるので、この実
施形態では、モデルオーダ変数(MO)を固定された閾値
1と比較することにより提案されたモデルオーダを受け
入れるか否かを決定するのではなく、ステップs5で、
モデルオーダ変数(MO)を0から1の間にある乱数と比
較する。モデルオーダ変数(MO)がこの乱数より大きけ
れば、処理はステップs7へ進み、モデルオーダを提案
されたモデルオーダ(k2)に設定し、且つk2の値と関連
するカウントを増分する。これに対し、モデルオーダ変
数(MO)が乱数より小さい場合には、処理はステップs
9へ進み、現在モデルオーダを維持し、且つ現在モデル
オーダ(k1)の値と関連するカウントを増分する、そこ
で処理は終了する。
【0095】このモデルオーダ選択ルーチンはARフィル
タモデルのモデルオーダと、チャネルフィルタモデルの
モデルオーダの双方について実行される。このルーチン
はギブス繰り返しのたびに実行されても良いが、それは
不可欠ではない。従って、この実施形態では、このモデ
ルオーダ更新ルーチンは3回のギブス繰り返しが終了す
るたびに実行される。
【0096】シミュレーションスムーザ 先に述べた通り、ギブスサンプラを使用してサンプルを
取り出せるようにするためには、ギブスサンプラで使用
されるs(n)、S及びYを生成するように生音声サンプル
の推定値が必要である。これらは条件付き確率密度関数
p(s(n)|...)から求めることができるであろう。
しかし、この実施形態では、S(n)の次元性が高いため
にこの方法は実行されない。従って、この実施形態で
は、生音声サンプルの必要な推定値を求めるために別の
技法を使用する。すなわち、この実施形態において、
「シミュレーションスムーザ」は、これらの推定値を求
めるために使用される。このシミュレーションスムーザ
は、Piet de Jongの論文「TheSimulation Smoother for
Time Series Models」(Biometrika(1995年)第
82巻2,339~350ページ)により提案されてい
た。当業者には理解されるであろうが、シミュレーショ
ンスムーザはギブスサンプラより前に動作される。ま
た、生音声サンプルの推定値を更新するためにギブス繰
り返し中にも再び動作される。この実施形態では、シミ
ュレーションスムーザはギブス繰り返しが4回実行され
るたびに動作される。
【0097】シミュレーションスムーザを動作させるた
めに、先に等式(4)及び(6)で定義したモデル等式
を次のように「状態空間」フォーマットに書き直さなけ
ればならない。
【0098】
【0099】式中、
【0100】この状態空間表現によって、生音声ベクト
ル(s^(n))及びプロセス雑音ベクトル(e^(n))の
次元性をN×1にする必要はなくなり、モデルオーダk及
びrのうち大きい方のモデルオーダと同じ大きさにする
だけで良い。通常、チャネルモデルオーダ(r)の方がA
Rフィルタモデルオーダ(k)より大きい。従って、生音
声サンプルのベクトル(s^(n))及びプロセス雑音の
ベクトル(e^(n))をr×1にするだけで良いので、行
列A~の次元性はr×rであれば良い。
【0101】シミュレーションスムーザは2つの段階、
すなわち、現在フレームの音声サンプルに対してカルマ
ンフィルタが動作される第1の段階と、現在フレームの
音声サンプルに対してカルマンフィルタ段階から得られ
たデータを使用して「平滑化」フィルタが動作される第
2の段階とを含む。図5は、シミュレーションスムーザ
により実行される処理ステップを示すフローチャートで
ある。図示されているように、ステップs21では、シ
ステムは時間変数tを1に等しくなるように初期設定す
る。カルマンフィルタ段階の間、現在処理すべきフレー
ム中のN個の音声サンプルを時間の順に処理するため
に、この時間変数はt=1からNまで変化される。ステッ
プs21の後、処理はステップs23へ進み、現在処理す
べき音声サンプル(y(t))について次のカルマンフィ
ルタ等式が計算される。
【0102】
【0103】式中、生音声サンプルの初期ベクトル(s^
(1))は、先行フレームの処理から得られた生音声サ
ンプルを含み(先行フレームが存在しない場合には、s
(i)はi<1に対して0に等しくなるように設定され
る)、P(1)はs^(1)の分散(先行フレームから求
められるか、又は当初はσe 2に設定できる)であり、
は先行フレームの処理から求められる現在のチャネルモ
デル係数の組であり(先行フレームが存在しない場合に
は、hの要素をその期待値、すなわち、0に設定でき
る)、y(t)は現在処理すべきフレームの現在音声サン
プルであり、Iは恒等行列である。次に、処理はステッ
プs25へ進み、r×r行列L(t)と共にスケーラ値w
(t)及びd(t)を格納する(あるいは、カルマンフィ
ルタ利得ベクトルkf(t)を格納し、そこからL(t)を
生成することもできるであろう)。その後、処理はステ
ップs27へ進み、システムは、現在フレームの全ての
音声サンプルを処理し終わったか否かを判定する。まだ
処理が終了していなければ、処理はステップs29へ進
み、現在フレームの次のサンプルが同様にして処理され
るように、時間変数tを1増分する。現在フレームのN個
のサンプルの全てがこのようにして処理され、対応する
値が格納されたならば、シミュレーションスムーザの第
1の段階は完了する。
【0104】次に処理はステップs31へ進み、シミュ
レーションスムーザの第2の段階が開始される。そこ
で、平滑化フィルタは現在フレームの音声サンプルを逆
の順序で処理する。図示されているように、ステップs
31では、システムは、現在処理すべき音声サンプルに
対して、現在処理すべき音声サンプルについて計算さ
れ、格納されているカルマンフィルタ変数と共に、下記
の平滑化等式を計算する。
【0105】
【0106】式中、η(t)は平均が0であり且つ共分
散行列C(t)を有するガウス分布から取り出されるサン
プルであり、初期ベクトルr(t=N)及び初期行列U(t
=N)は共に0に設定され、s(0)は先行フレームの処
理から求められる(先行フレームが存在しない場合に
は、0に等しくなるように設定できる)。次に処理はス
テップs33へ進み、現在処理すべき音声サンプルのプ
ロセス雑音の推定値(e~(t))及び現在処理すべき音
声サンプルの生音声サンプルの推定値(s^(t))を格
納する。その後、処理はステップs35へ進み、システ
ムは、現在フレームの全ての音声サンプルが処理され終
わったか否かを判定する。まだ処理が終了していなけれ
ば、処理はステップs37へ進み、現在フレームの先行
サンプルが同じようにして処理されるように時間変数t
を1減分する。現在フレームの全てのN個のサンプルが
すべてこのようにして処理され終わり、対応するプロセ
ス雑音及び生音声サンプルが格納されたならば、シミュ
レーションスムーザの第2の段階は完了し、s(n)の推
定値は生成されたことになる。
【0107】等式(4)及び(8)に示すように、行列
S及び行列Yはs(n)における生音声サンプルに加えて、
生音声サンプルs(n−N−1)からs(n−N−k+1)及
びs(n−N−1)からs(n−N−r+1)をそれぞれ要求
する。これらの追加の生音声サンプルは音声の先行フレ
ームの処理から得られ、先行フレームが存在しない場合
には、0に設定できる。これらの生音声サンプルの推定
値によって、上述の確率密度関数からサンプルを取り出
すためにギブスサンプラを動作させることができる。
【0108】統計解析装置−動作 以上、統計解析装置21の基礎を成す理論を説明した。
次に、図6から図8を参照して統計解析装置21の動作
を説明する。
【0109】図6は、この実施形態の統計解析装置21
の主な構成要素を示すブロック線図である。図示されて
いるように、統計解析装置21は先に説明したギブスサ
ンプラ41と、シミュレーションスムーザ43(カルマ
ンフィルタ43−1及び平滑化フィルタ43−2を含
む)と、モデルオーダ選択器45とを具備する。更に、
処理すべき現在フレームの音声サンプルを受け取るメモ
リ47と、ギブスサンプラ41及びモデルオーダ選択器
45により生成されたデータを処理するデータ解析装置
49と、統計解析装置21の動作を制御する制御装置5
0とを具備する。
【0110】図6に示すように、メモリ47は不揮発性
メモリエリア47−1と、作業用メモリエリア47−2
とを含む。不揮発性メモリエリア47−1は、ギブスサ
ンプラ41により使用されるべき、先の等式(19)に
示す同時確率密度関数、分散及び平均値に関する等式、
及び上述の条件付き確率密度関数に関する先の等式(2
2)から(24)及び(27)から(30)に示す逆ガ
ンマパラメータの等式を格納するために使用される。不
揮発性メモリエリア47−1は、更に、シミュレーショ
ンスムーザ43により使用されるべき、先の等式(3
3)に示すカルマンフィルタの等式と、先の等式(3
4)に示す平滑化フィルタの等式とを格納する。
【0111】図7は、作業用メモリエリア(RAM)47
−2に格納されるパラメータを示す概略図である。図示
されているように、RAMは、現在処理すべきフレーム
(f)についてアナログ/デジタル変換器17により出
力される音声サンプルyf(1)からyf(N)を格納する
ストア51を含む。先に述べた通り、これらの音声サン
プルはギブスサンプラ41とシミュレーションスムーザ
43の双方で使用される。RAM47−2は、モデルパラ
メータの初期推定値(g=0)と、現在処理すべきフレ
ームについてギブスサンプラ41により前述の条件付き
確率密度関数から取り出される各パラメータのM個のサ
ンプルg=1からM)とを格納するストア53を更に含
む。先に述べた通り、この実施形態では、ギブスサンプ
ラ41は初めの50個のサンプルを放棄して、入力音声
のフレームごとに150回の繰り返しを実行するので、
Mは100である。RAM47−2は、前記カルマンフィル
タ43−1により音声の現在フレームにおける音声サン
プルの処理中に計算される、t=1からNのときのW
(t)、d(t)及びL(t)を格納するストア55を更に
含む。RAM47−2は、生音声サンプル(s^f (t))の推
定値と、前述のように平滑化フィルタ43−2により発
生するプロセス雑音(e^f(t))の推定値とを格納するス
トア57を更に含む。RAM47−2は、ARフィルタモデ
ル及びチャネルモデルのモデルオーダが更新されるとき
にモデルオーダ選択器45により生成されるモデルオー
ダカウントを格納するストア59を更に含む。
【0112】図8は、この実施形態において、統計解析
装置21の処理動作を制御するために制御装置50によ
り使用される制御プログラムを示す流れ図である。図示
されているように、ステップs41では、制御装置50
は次に処理すべき音声サンプルのフレームをバッファ1
9から検索し、それらをメモリストア51に格納する。
処理は続いてステップs43へ進み、チャネルモデル、
生音声サンプル、プロセス雑音統計値及び測定雑音統計
値の初期推定値を設定し、ストア53に格納する。これ
らの初期推定値は先行する音声のフレームの処理中に得
られた値になるように設定されるか、又は先行する音声
のフレームが存在しない場合には、その期待値(0であ
っても良い)に設定される。その後、処理はステップs
45へ進み、先に説明したように生音声サンプルの推定
値を求めるようにシミュレーションスムーザ43が動作
される。次に処理はステップs47へ進み、ステップs4
5で得られた生音声サンプルを使用してチャネルモデ
ル、音声モデル、プロセス雑音統計値及び測定雑音統計
値を更新するために、ギブスサンプラ41の1回の繰り
返しが実行される。更新後のそれらのパラメータ値はメ
モリストア53に格納される。
【0113】次に、処理はステップs49へ進み、制御
装置50はARフィルタモデル及びチャネルモデルのモデ
ルオーダを更新すべきか否かを判定する。先に述べた通
り、この実施形態では、それらのモデルオーダは3度目
のギブズ繰り返しのたびに更新される。モデルオーダを
更新すべきである場合、処理はステップs51へ進み、
モデルオーダ選択器45を使用してARフィルタモデル及
びチャネルモデルのモデルオーダを前述のようにして更
新する。ステップs49で制御装置50がモデルオーダ
を更新すべきでないと判定した場合には、処理はステッ
プs51を飛び越してステップs53へ進む。ステップs
53では、制御装置50は次のギブス繰り返しを実行す
べきか否かを判定する。次の繰り返しを実行すべき場
合、処理は決定ブロックs55へ進み、制御装置50は
生音声サンプル(s(t))の推定値を更新すべきか否か
を決定する。生音声サンプルを更新すべきでない場合、
処理はステップs47に戻って、次のギブス繰り返しが
実行される。
【0114】先に述べた通り、この実施形態では、生音
声サンプルを更新するために、4度目のギブス繰り返し
のたびにシミュレーションスムーザ43が動作される。
従って、ステップs55で制御装置50が音声サンプル
の更新後に4度目のギブス繰り返しが行われたと判定し
た場合には、処理はステップs45に戻り、再びシミュ
レーションスムーザを動作させて、生音声サンプル(s
(t))の新たな推定値を提供する。制御装置50が要
求される150回のギブス繰り返しの実行が完了したと
判定したならば、制御装置50は処理をステップs57
へ進ませ、データ解析装置49はモデルオーダ選択器4
5により生成されたモデルオーダカウントを解析して、
現在処理すべき音声のフレームを最も良く表現するARフ
ィルタモデル及びチャネルモデルのモデルオーダを判定
する。次に、処理はステップs59へ進み、データ解析
装置49はギブスサンプラ41により条件付き密度から
取り出されたサンプルを解析して、現在処理すべき音声
のフレームを最も良く表現するARフィルタ係数(a
と、チャネルモデル係数(h)と、それらの係数の分散
と、プロセス雑音分散及び測定雑音分散とを判定する。
次に、処理はステップs61に進み、制御装置50は処
理すべき音声が更に存在するか否かを判定する。処理す
べき音声が他にも存在する場合には、処理はステップs
41に戻り、次の音声のフレームに対して上記のプロセ
スを繰り返す。全ての音声がこのようにして処理され終
わったならば、処理は終了する。
【0115】データ解析装置 次に、図9を参照してデータ解析装置49を更に詳細に
説明する。先に述べた通り、データ解析装置49は、ま
ず、ステップs57で、現在処理すべき音声のフレーム
を最も良く表現するARフィルタモデル及びチャネルモデ
ル双方のモデルオーダを判定する。データ解析装置49
は、モデルオーダ選択器45がステップs51で動作さ
れたときにモデルオーダ選択器45により生成されてい
たカウントを使用してこれを実行する。これらのカウン
トはRAM47−2のストア59に格納されている。この
実施形態では、最良のモデルオーダを判定するとき、デ
ータ解析装置49は最高のカウントを有するモデルオー
ダを識別する。図9aは、ARフィルタモデルのモデルオ
ーダ(k)について生成されたカウントの分布を示すヒ
ストグラムの一例である。従って、この例においては、
データ解析装置49はARフィルタモデルの最良のモデル
オーダを5として設定していると考えられる。データ解
析装置49はチャネルモデルのモデルオーダ(r)につ
いて生成されたカウントも同様にして解析し、チャネル
モデルの最良のモデルオーダを判定する。
【0116】データ解析装置49は、最良のモデルオー
ダ(k及びr)を判定した後、ギブスサンプラ41により
生成され、RAM47−2のストア53に格納されている
サンプルを解析して、それらのサンプルを最も良く表現
しているパラメータ値を判定する。データ解析装置49
は、各々のパラメータについてヒストグラムを判定し、
そこから最も良く表現しているパラメータ値を判定する
ことによりこれを実行する。ヒストグラムを生成するた
めに、データ解析装置49はギブズサンプラにより取り
出された最大サンプル値及び最小サンプル値を判定し、
この最小値と最大値との間のパラメータ値の範囲を所定
の数の部分範囲、すなわち、ビンに分割する。次に、デ
ータ解析装置49は各々のサンプル値を適切なビンに割
り当て、各ビンに割り当てられたサンプルの数をカウン
トする。次に、それらのカウントを使用してサンプルの
加重平均を計算し(サンプルごとに使用される重み付け
はそれに対応するビンのカウントによって決まる)、最
も良く表現しているパラメータ値(最大平均2乗推定値
(MMSE)として知られている)を判定する。図9bは、
プロセス雑音の分散(σe 2)について生成されるヒスト
グラムの一例を示し、そこからデータ解析装置49は、
サンプルを表現する分散は0.3149であると判定す
る。
【0117】ARフィルタ係数(i=1からkのときの
a)を判定する際、データ解析装置49は係数ごとに
サンプルのヒストグラムを個別に判定し、解析する。図
9cは、第3のARフィルタ係数(a3)について求められ
たヒストグラムの一例を示し、そこからデータ解析装置
49は、サンプルを表現する係数が−0.4977であ
ると判定する。
【0118】この実施形態では、データ解析装置49
は、図2に示す係数変換器23に供給されたARフィルタ
係数を出力するだけである。データ解析装置49により
判定されたその他のパラメータ値は、次の音声のフレー
ムの処理中に使用するため、RAM47−2に格納され
る。先に述べた通り、統計解析装置21により出力され
たARフィルタ係数は係数変換器23に入力され、係数変
換器23はそれらの係数を、後に認識結果を生成するた
めに音声認識装置25により格納されている音声モデル
と比較されるケプストラム係数に変換される。
【0119】当業者には理解されるであろうが、統計解
析技法を利用して、入力音声信号を表現する複数組のAR
フィルタ係数を判定する音声処理技法を説明してきた。
この技法は、ARフィルタ係数を判定するに際して最大尤
度推定装置を採用していた従来の技法と比較してより頑
丈であり且つ正確である。それは、各フレームの統計解
析で先行フレームの処理から得られた知識を使用するた
めである。更に、前述のように解析を実行する場合、AR
フィルタモデルのモデルオーダは一定であるとは想定さ
れず、フレームごとに変化しても差し支えない。このよ
うに、最適数のARフィルタ係数を使用して、各フレーム
内の音声を表現することができる。その結果、統計解析
装置21により出力されるARフィルタ係数は対応する入
力音声をより正確に表現するのである。また、使用され
る基礎プロセスモデルは音声源をチャネルから分離する
ので、判定されるARフィルタ係数は実際の音声をより良
く表現し、チャネルのひずみ効果を取り込みにくくなっ
ている。更に、各々のパラメータについて分散情報を利
用できるため、各々のパラメータ推定値の信頼性を指示
できる。これは、パラメータ値の点推定値を判定する最
大尤度方式及び線形最小予測解析などの最小2乗方式と
は対照的である。
【0120】複数話者複数マイクロホン 次に、各話者からの音声を分離し、モデル化するために
類似の統計解析を使用する複数話者複数マイクロホンシ
ステムについて説明する。この場合にも、理解を容易に
するため、まず、一般的な複数話者複数マイクロホンシ
ステムに話を広げる前に、話者が2人、マイクロホンが
2台のシステムを説明する。
【0121】図10は、本発明を具現化した統計解析装
置を採用する音声認識システムを示す概略ブロック線図
である。図示されているように、システムは、この実施
形態では2人の話者(図示せず)からの音声を等価の電
気信号に変換する2台のマイクロホン7−1及び7−2
を有する。電気信号はそれぞれ対応するフィルタ回路1
5−1及び15−2に供給される。この実施形態では、
フィルタリング後の信号は次にそれぞれ対応するアナロ
グ/デジタル変換器17−1及び17−2により16kH
zのサンプリング速度で対応するデジタル信号に変換さ
れるので、フィルタ回路15は8kHzを越える周波数を
除去する。アナログ/デジタル変換器17からのデジタ
ル化音声サンプルはバッファ19へ送られる。統計解析
装置21は、2台のマイクロホンからの入力音声信号の
連続するフレームの中の音声を解析する。この実施形態
では、マイクロホンは2台であるため、処理すべきフレ
ームの系列は2つである。この実施形態においては、時
間tにおけるマイクロホン7−1からの音声のフレーム
が時間tにマイクロホン7−2から受信された音声のフ
レームと共に処理されるように、2つのフレーム系列は
一緒に処理される。また、この実施形態でも、音声のフ
レームは重なり合っておらず、20msの持続時間を有す
る。アナログ/デジタル変換器17のサンプリング速度
が16kHzであるとき、フレームの持続時間が20msで
あると、統計解析装置21は640個のサンプル(サン
プル320個ずつの2つのフレームに相当する)のブロ
ックを処理することになる。
【0122】入力音声に対して統計解析を実行するため
に、統計解析装置21は、先に説明した単一話者単一マ
イクロホンシステムの基礎プロセスに類似する基礎プロ
セスがあると仮定する。この実施形態で使用する特定の
モデルを図11に示す。図示されているように、プロセ
スは2つの音声源31−1及び31−2によりモデル化
されており、これらの音声源は、時間t=nのとき、生音
声サンプルs1(n)及びs2(n)をそれぞれ生成する。同
様に、この実施形態においても、各々の音声源31は自
動回帰(AR)プロセスによりモデル化される。言い換え
れば、音声源31−1及び31−2ごとにそれぞれ対応
する等式(1)が存在し、それにより、各々が対応する
モデルオーダk1及びk2を有する2つの未知のARフィルタ
係数ベクトルa 1及びa 2を定義する。これらの音声源モデ
ルは更に対応するプロセス雑音成分e1(n)及びe2(n)
を有する。
【0123】図11に示すように、モデルは、更に、各
々の音声源31により生成される音声が双方のマイクロ
ホン7により受信されると想定する。従って、各音声源
31と各マイクロホン7との間にはそれぞれ対応するチ
ャネル33−11から33−22が存在している。ま
た、各マイクロホンにより受信される信号にはそれぞれ
対応する測定雑音成分ε(n)及びε2(n)が加算さ
れる。更に、この実施形態においても、統計解析装置2
1は各々のチャネルを移動平均(MA)フィルタによりモ
デル化する。従って、時間t=nにおいてマイクロホン7
−1から受信される信号は次のように表される。
【0124】
【0125】式中、例えば、h112は時間t=2における
第1の音声源31−1とマイクロホン7−1との間のチ
ャネルのチャネルフィルタ係数であり、r21は第2の音
声源31−2とマイクロホン7−1との間のチャネルの
モデルオーダである。他方のマイクロホン7−2から受
信される信号を表現するための類似の等式が存在する。
【0126】この実施形態では、統計解析装置21は2
つの音声源について、現在処理すべきフレームにおいて
2台のマイクロホンからの観測信号サンプルを最も良く
表現するARフィルタ係数の値を判定しようとする。統計
解析装置21は、2つのアナログ/デジタル変換器17
−1及び17−2から出力される観測信号サンプルが与
えられたときに、音声モデル、チャネルモデル、生音声
サンプル及び雑音統計値の同時確率密度関数を最大にす
るような2人の話者のARフィルタ係数(a 1及びa 2)を判
定することにより、すなわち、
【0127】 を判定することによりこれを実行する。
【0128】当業者には理解されるであろうが、これは
先に説明した単一話者単一マイクロホンシステムとほぼ
同じ問題であるが、より多くの数のパラメータを含む。
この場合にも、これを計算するために、ベイズの法則を
使用して上記の確率を再配列し、先の等式(10)に示
したものに類似する等式を求める。唯一の相違点は、分
母により多くの同時確率密度関数が存在することであ
る。すなわち、この実施形態において考慮する必要のあ
る同時確率密度関数は次のようになる。
【0129】
【0130】音声源とチャネルは互いに無関係であるの
で、これらの成分の大半は先に単一話者単一マイクロホ
ンシステムに関して示した確率密度関数と同一である。
しかし、アナログ/デジタル変換器17から出力される
音声サンプルのベクトル(y 1(n)及びy 2(n))に関し
ては、それらの信号が双方の音声源からの成分を含んで
いるために、これは当てはまらない。次に、アナログ/
デジタル変換器17−1から出力される音声サンプルの
同時確率密度関数を更に詳細に説明する。
【0131】p(y 1(n)|s 1(n),s 2(n),h 11
h 21,r11,r21,σε1 2)現在処理すべきフレームにお
いてアナログ/デジタル変換器17−1から出力される
全ての音声サンプルを考える(また、h110及びh210を1
に等しくなるように設定する)と、
【0132】 式中、
【0133】前述の単一話者単一マイクロホンシステム
の場合と同様に、アナログ/デジタル変換器17−1か
ら出力される音声サンプルの同時確率密度関数(y
1(n))は、先の等式(4)を使用して関連する測定雑
音(σε1 2)の同時確率密度関数から判定される。同
様に、ヤコビアンは1になり、その結果、同時確率密度
関数は次のような形態をとる。
【0134】
【0135】当業者には理解されるであろうが、これは
前述の場合と同じようにガウス分布である。この実施形
態では、統計解析装置21は、2つのチャネルを介して
マイクロホン7−1に至る生音声データは互いに無関係
であると想定する。これにより、対角成分Y1 TY2及びY2 T
Y1を0であると想定できるので、上記のガウス分布を簡
略化することができる。すなわち、
【0136】 となり、これはマイクロホン7−1に至る2つのチャネ
ルの各々に対して1つずつの2つのガウシアンの積であ
る。また、初期項 1(n)T 1(n)は定数であり、従
って、確率密度関数に対して対応するスケーリングファ
クタを生じる結果しか生まないため、この項は無視され
ていることに注意すべきである。この簡略化は、この実
施形態では、等式(38)により定義されるより大きな
ガウシアンからまとめて2つのチャネルの単一のサンプ
ルを取り出さなければならない場合より、等式(39)
に示される2つのガウシアンの各々から1つのサンプル
を個別に取り出すほうがより容易であるために実行され
るのである。
【0137】この後、ギブスサンプラを使用して、単一
話者単一マイクロホンシステムの場合と同じように組み
合わせ同時確率密度関数からサンプルを取り出す。ただ
し、この実施形態においては、パラメータの数が多くな
っているので、サンプリングすべき条件付き密度も多く
なる。同様に、モデルオーダ選択器を使用して、ギブス
繰り返しの間に各々のモデルオーダ(K1,K2及びr11−r
22)を調整する。先に説明した単一音声源システムと同
じように、ギブズサンプリングには双方の音声源31−
1及び31−2からの生音声サンプルの推定値が必要で
あり、それらはシミュレーションスムーザを使用して推
定される。2人の話者と2台のマイクロホンを含むシス
テムに関わる状態空間等式は単一話者単一マイクロホン
システムの等式とはわずかに異なるので、以下に再現す
る。
【0138】 式中、
【0139】式中、mはARフィルタモデルオーダとMAフ
ィルタモデルオーダのうち大きい方である。同様にこれ
により、わずかに複雑さを増したカルマンフィルタ等式
及び平滑化フィルタ等式が得られ、完璧を期するため、
それらを以下に示す。
【0140】カルマンフィルタ等式
【0141】平滑化フィルタ等式
【0142】この話者2人、マイクロホン2台のシステ
ムで統計解析装置21により実行される処理ステップ
は、先に図8及び図9を参照して説明した単一話者単一
マイクロホンシステムで使用されていた処理ステップと
同一であるので、ここでは繰り返して説明しない。
【0143】上記の話者2人、マイクロホン2台のシス
テムにおいては、システムは話者は2人であると想定し
ていた。一般のシステムでは、任意の時点における話者
の数は未知である。図12は、複数話者複数マイクロホ
ン音声認識システムを示すブロック線図である。図12
に示すように、システムは、各々が未知の数の音声源
(図示せず)から音声信号を受信する複数台のマイクロ
ホン7−1から7−jを具備する。マイクロホン7によ
り出力される対応する電気信号はそれぞれ対応するフィ
ルタ15を通過した後、対応するアナログ/デジタル変
換器17によりデジタル化される。各々のマイクロホン
7からのデジタル化音声信号は先の場合と同様にバッフ
ァ19に格納される。図12に示すように、バッファ1
9に格納されている音声は複数(m)の統計解析装置2
1へ送られる。各々の統計解析装置は音声サンプルの現
在フレームを下記の確率密度関数に適用し、次にそこか
ら先に説明した方式によりサンプルを取り出すようにプ
ログラムされている。
【0144】
【0145】式中、NSENはマイクロホン7の数であり、
Zは話者の人数(これは統計解析装置21ごとに異な
り、モデル比較装置64により設定される)である。こ
のように、各々の統計解析装置21は同じ入力データ
(マイクロホンからの音声サンプル)を使用して類似の
解析を実行するが、その入力データが異なる数の話者に
より生成されたと想定する。例えば、統計解析装置21
−1はその時点で話をしている話者が3人であると想定
し、統計解析装置21−2はその時点で話をしている話
者が5人であると想定するようにプログラムされても良
い。
【0146】統計解析装置21による音声の各フレーム
の処理中、ギブズサンプルにより取り出されるパラメー
タサンプルの一部はモデル比較装置64に供給され、そ
こで、モデル比較装置64は、現在処理すべきフレーム
において音声を最も良くモデル化する解析装置を識別す
ることができる。この実施形態では、ギブス繰り返しが
5回実行されるごとに、そこから取り出されたサンプル
はモデル比較装置64へ出力され、上記の判定が実行さ
れる。各々の統計解析装置は、上記の確率密度関数のサ
ンプリングを終了した後、先に説明したようにプログラ
ムされた数の話者について平均ARフィルタ係数を判定
し、それらの係数を選択装置62へ出力する。同時に、
モデル比較装置64は、最良の解析装置を判定した後、
選択装置62に制御信号を供給する。選択装置62はこ
の解析装置21により出力されたARフィルタ係数を音声
認識装置25に供給させ、そこで音声モデル27と比較
させる。この実施形態では、モデル比較装置64は、各
フレームの処理が完了した後に、各々の統計解析装置が
モデル化するようにプログラムされている話者の人数が
連続して適応されるように、各々の統計解析装置21を
再プログラムするように構成されている。このようにし
て、例えば、時間によって話をする参加者の人数がかな
り変動する可能性のある会議などでシステムを使用する
ことが可能になる。
【0147】図13は、この実施形態において各々の統
計解析装置21により実行される処理ステップを示す流
れ図である。図13と図8を比較するとわかるように、
採用されている処理ステップは、ステップS52、S54
及びS56が追加されている点を除いて上記の実施形態
の処理ステップとほぼ同じである。これらのステップに
ついての説明は、以下の通りである。図13に示すよう
に、ステップs54が次のギブス繰り返しを実行すべき
であると判定した場合、処理はステップs52へ進み、
各々の統計解析装置21−1は、最前のギブス繰り返し
から得られたパラメータサンプルをモデル比較装置64
へ送信すべきか否かを判定する。先に述べた通り、モデ
ル比較装置64は、ギブス繰り返しが5回実行されるた
びに統計解析装置により生成されたサンプルを比較す
る。従って、サンプルを比較すべき場合、処理はステッ
プS54へ進み、各々の統計解析装置21−1は現在パ
ラメータサンプルの組をモデル比較装置64へ送信す
る。次に、処理は前述のようにステップS55へ進む。
統計解析装置21が現在フレームについてサンプリング
動作を完了すると、処理はステップS56へ進み、各々
の統計解析装置21−1は、前述のようにステップs5
7へ進む前に現在フレームに関わるギブス繰り返しを完
了したことをモデル比較装置64に報知する。
【0148】次に、図14及び図15を参照して、この
実施形態においてモデル比較装置64により実行される
処理ステップを説明する。図示されているように、図1
4は、モデル比較装置64がギブス繰り返し中に各々の
統計解析装置21からサンプルを受信したときにモデル
比較装置64により実行される処理ステップを示すフロ
ーチャートである。図示されているように、ステップS
71では、モデル比較装置64は各々の統計解析装置2
1から受信したサンプルを使用して、等式(43)に示
される確率密度関数を評価する。次に、処理はステップ
S73へ進み、モデル比較装置64は評価された確率密
度関数を比較して、どの統計解析装置が最高の評価を与
えるかを判定する。次に、処理はステップS75へ進
み、モデル比較装置64は最高の評価を有する統計解析
装置21と関連するカウントを1増分する。そこで処理
は終了する。
【0149】全ての統計解析装置21が現在処理すべき
音声のフレームについて全てのギブズ繰り返しを実行し
終わったならば、モデル比較装置は図15に示す処理ス
テップを実行する。すなわち、ステップS81では、モ
デル比較装置64は各々の統計解析装置と関連する累積
カウントを解析して、最高のカウントを有する解析装置
を判定する。次に、処理はステップS83へ進み、モデ
ル比較装置64は、最高のカウントを有する統計解析装
置により生成されたARフィルタ係数を選択装置62を介
して音声認識装置25に供給するために、選択装置62
へ制御信号を出力する。次に、処理はステップS85へ
進み、モデル比較装置64は各々の統計解析装置21の
設定を調整する必要があるか否か、特に各々の統計解析
装置が音声の中に存在すると想定している話者の人数を
調整する必要があるか否かを判定する。
【0150】当業者には理解されるであろうが、複数話
者複数マイクロホン音声認識システムをここまで説明し
てきた。このシステムは、先に単一話者単一マイクロホ
ンシステムについて説明した利点を全て備えている。更
に、複数の音声源からの音声を同時に分離し、モデル化
できるという別の利点も有する。また、音声源の互いに
対する又はマイクロホンに対する物理的分離に制限がな
い。更に、システムはマイクロホン相互間の物理的分離
を知る必要がなく、マイクロホンの数が音声源の数より
少ない場合であっても、各音声源からの信号を分離する
ことが可能である。
【0151】他の実施形態 上記の実施形態では、入力音声を表現するAR係数を生成
するために音声認識システムのプリプロセッサとして統
計解析装置を使用していた。また、統計解析装置はその
他にもいくつかのパラメータ値(プロセス雑音分散及び
チャネルモデル係数など)を生成していたが、それらの
値は統計解析装置により出力されることがなかった。当
業者には理解されるであろうが、統計解析装置により計
算されるAR係数や、その他のパラメータの一部を他の目
的のために利用することも可能である。例えば、図16
は、音声認識装置25と音声モデル27がAR係数に基づ
いて動作するために係数変換器が設けられていないとい
う点を除いて図10に示す音声認識システムに類似する
音声認識システムを示す。図16に示す音声認識システ
ムは、追加の構成要素として、統計解析装置21により
生成されるARフィルタモデルオーダ(k)と共にARフィ
ルタ係数(a)を受信する音声検出装置61を更に有
し、音声検出装置61は、マイクロホン7から受信され
た信号の中に音声が存在する時点をそれらのARフィルタ
モデルオーダ及びARフィルタ係数から判定するように動
作可能である。ARフィルタモデルオーダ及びARフィルタ
係数値は、音声が存在している間、音声がないときに比
べて大きくなるため、音声検出装置はこの判定を実行す
ることができる。従って、ARフィルタモデルオーダ
(k)及び/又はARフィルタ係数値を適切な閾値と比較
することにより、音声検出装置61は入力信号の中に音
声が存在するか否かを判定することができるのである。
音声検出装置61は、音声の存在を検出すると、適切な
制御信号を音声認識装置25へ出力し、音声認識装置に
統計解析装置21から受信したAR係数の処理を開始させ
る。同様に、音声検出装置61は、音声の終わりを検出
すると、適切な制御信号を音声認識装置25へ出力し、
音声認識装置に統計解析装置21から受信したAR係数の
処理を停止させる。
【0152】上記の実施形態においては、音声認識シス
テムは、入力音声の統計解析を実行する特定の音声事前
処理フロントエンドを有するものとして説明されてい
た。当業者には理解されるであろうが、この事前処理は
音声認識システム以外の音声処理システムでも利用でき
る。例えば、図17に示すように、統計解析装置21は
話者照合システム65に対するフロントエンドを形成し
ても良い。この実施形態では、話者照合システム65は
統計解析装置21により出力される複数の異なる話者に
関するARフィルタ係数の系列をあらかじめ格納されてい
た話者モデル67と比較して、受信した音声が既知のユ
ーザに対応するか否かを判定する。
【0153】図18は、統計解析装置21の別の適用用
途を示す。すなわち、図18は音響分類システムを示
す。統計解析装置21は、先に説明したようにいくつか
の音響源(音声であっても良く、あるいは音声でなくと
も良い)のそれぞれについてARフィルタ係数を生成する
ために使用される。それらの係数は音響分類システム6
6に提供され、音響分類システム66は各音響源のAR係
数をあらかじめ格納されていた音響モデル68と比較し
て、分類結果を生成する。このようなシステムは、例え
ば、打楽器の音と、木管楽器の音と、金管楽器の音と、
音声とを区別し、識別する目的で使用されても良い。
【0154】図19は、統計解析装置21の別の適用用
途を示す。すなわち、図19は音声符号化送信システム
を示す。統計解析装置21は、先に説明したように話者
ごとのARフィルタ係数を生成するために使用される。
それらの係数はチャネル符号器に提供され、チャネル符
号器は、ARフィルタ係数が通信チャネルを介して送信
するのにより適した形態となるようにARフィルタ係数
の系列を符号化する。符号化されたARフィルタ係数は
送信器73へ送信され、送信器73では、符号化データ
を使用して搬送波信号を変調する。変調後の搬送波信号
は遠隔受信器75へ送信される。受信器75は受信した
信号を復調して符号化データを回復し、符号化データは
復号器76により復号される。復号器により出力された
ARフィルタ係数の系列は、それらのARフィルタ係数
の系列を格納されている基準モデル(図示せず)と比較
して認識結果を生成する音声認識装置77へ送信される
か、又は音声を再生し、それをスピーカ81を介して出
力する音声合成装置79へ送信される。図示されている
ように、音声合成装置79への印加に先立って、ARフ
ィルタ係数の系列はオプションの処理装置83(破線に
より示す)を通過しても良い。この処理装置は、合成さ
れる音声の特性を操作するために使用される。前述の統
計解析装置を使用することの重大な利点は、ARフィル
タモデルのモデルオーダが一定であるとは想定せず、フ
レームごとにARモデルオーダが変化するという点であ
る。このようにして、最適の数のARフィルタ係数を使
用して、各フレーム内で各話者からの音声を表現する。
これに対し、線形予測解析においては、ARフィルタ係
数の数は一定であると想定しているので、従来の技法
は、情報が失われないように保証するために音声を順次
過剰にパラメータ化する傾向にある。その結果、上述の
統計解析によれば、送信器から受信器へ送信されるべき
データの量は、ARフィルタモデルのサイズが一定であ
ると想定する従来のシステムと比べて少なくなる。
【0155】図20は、上述の統計解析装置21を使用
する別のシステムを示す。図20に示すシステムは、デ
ータファイルに追加するための音声注釈データを自動的
に生成する。このシステムは、例えば、何人かの参加者
が関連する会議の音声注釈データを生成するために使用
されても良く、この場合、データファイル91は会議の
記録音響データである。使用中、会議が進行するにつれ
て、統計解析装置21はマイクロホンから受信された音
声信号を処理して、各々の参加者からの音声信号を分離
する。次に、各参加者の音声に、話している人を識別す
る識別子によってタグ付けし、タグ付けされた音声は音
声認識装置97へ送信される。音声認識装置97は話者
ごとの語及び/又は音素データを生成する。この語及び
/又は音素データはデータファイル注釈装置99へ送信
され、データファイル注釈装置99はデータファイル9
1に語及び/又は音素データによって注釈付けして、注
釈付きデータファイルをデータベース101に格納す
る。このようにすれば、会議後、ユーザは会議中に特定
の参加者により論じられた特定の話題を求めてデータフ
ァイル91を探索することができる。
【0156】更に、この実施形態では、統計解析装置2
1は話者ごとのARフィルタ係数の分散を出力する。こ
の分散情報は音声品質アクセッサ93へ送信される。音
声品質アクセッサ93はこの分散データから各参加者の
音声の品質の尺度を判定する。当業者には理解されるで
あろうが、概して、入力音声が高品質である(すなわ
ち、高レベルの背景雑音により妨害されていない)場
合、この分散は小さく、高レベルの雑音が存在する場合
には、この分散は大きくなるはずである。音声品質アク
セッサ93は品質標識をデータファイル注釈装置99へ
出力し、データファイル注釈装置はデータファイル91
をこの音声品質情報によって注釈付けする。
【0157】当業者には理解されるであろうが、データ
ファイルと共に格納されるそれらの音声品質標識は後の
検索動作の際に有益である。すなわち、ユーザが(音声
問い合わせを使用して)データベース101からデータ
ファイル91を検索したいときに、検索性能に影響を及
ぼす、そのデータファイルに注釈付けするために使用さ
れた音声の品質及び/又はそのデータファイルを検索す
るために使用された音声検索問い合わせの品質を知って
いることは有益である。つまり、音声注釈が高品質であ
り且つユーザの検索問い合わせも高品質であれば、デー
タベース101の厳重な探索を実行できるので、偽識別
の量は減少する。これに対し、元の音声注釈が低品質で
あるか、又はユーザの検索問い合わせが低品質である場
合には、正しいデータファイル91を検索するチャンス
を広げるためにそれほど厳重でないデータベース101
の探索を実行することができる。
【0158】音声品質の標識としてARフィルタ係数の分
散を使用するのに加えて、プロセス雑音のエネルギーの
尺度であるプロセス雑音の分散(σe 2)も入力音声の品
質を適切に表す尺度である。従って、プロセス雑音の分
散をARフィルタ係数の分散と共に又はその代わりに使用
して、入力音声の品質を表す尺度を提供することも可能
である。
【0159】先に図16を参照して説明した実施形態に
おいて、統計解析装置21を音声検出装置61に情報を
提供する目的のためだけに使用し、音声認識装置25に
より使用されるべき入力音声をパラメータ化するために
は別個の音声プレプロセッサを使用しても良い。しか
し、そのように入力音声のパラメータ化を分離すると、
更に処理オーバヘッドが追加されてしまうため、好まし
い方法ではない。
【0160】上記の実施形態は、複数の話者により発生
された音声信号に応答して複数のマイクロホンから受信
された信号を処理するための統計解析技法を説明してい
た。当業者には理解されるであろうが、上述の統計解析
装置を音声及び/又は音響処理以外の分野で採用しても
差し支えない。例えば、データ通信、ソナーシステム、
レーダーシステムなどの分野でこのシステムを使用でき
るであろう。
【0161】先に説明した第1の実施形態では、第1の
実施形態で使用される音声認識装置はケプストラルに基
づくシステムであるため、統計解析装置21が出力する
ARフィルタ係数はケプストラル係数に変換されていた。
当業者には理解されるであろうが、音声認識システムが
他のスペクトル係数と共に機能するように設計されてい
る場合には、ARフィルタ係数を適切なスペクトルパラメ
ータに変換するように係数変換器23を構成すれば良
い。また、音声認識システムがAR係数に基づき動作する
ように設計されている場合には、係数変換器23は不要
である。
【0162】上記の実施形態では、等式(19)の様々
な従来の確率密度関数をモデル化するためにガウス分布
及び逆ガンマ分布を使用していた。統計解析の分野の当
業者には理解されるであろうが、それらの分布を選択し
た理由はそれらが互いに共役関係にあることである。す
なわち、ギブスサンプラで使用される条件付き確率密度
関数はそれぞれガウス関数であるか、又は逆ガンマ関数
であるかのいずれかである。従って、これにより、条件
付き確率密度からサンプルを取り出すというタスクが簡
略化される。しかし、これは不可欠ではない。ガウス分
布ではなく、ラプラシアン分布又はスチューデントのt
分布によって雑音確率密度関数をモデル化することも可
能であろう。同様に、分散の確率密度関数を逆ガンマ分
布以外の分布によりモデル化しても良い。例えば、レイ
リー分布又は常に正である他の何らかの分布により確率
密度関数をモデル化することができる。しかし、共役で
ない確率密度関数を使用すると、ギブスサンプルにより
条件付き密度からサンプルを取り出すタスクの複雑さが
増す結果に成る。
【0163】更に、等式(19)に示す確率密度関数か
らサンプルを取り出すためにギブスサンプラを使用して
いたが、他のサンプリングアルゴリズムを使用すること
も可能であろう。例えば、この確率密度をサンプリング
するために、メトロポリス−ヘイスティングスアルゴリ
ズム(このアルゴリズムは、R.Nealの論文「Probabili
stic inference using Markov chainMonte Carlo metho
ds」(TechnicalReport CRG−TR−93−1、Departmen
t of Computer Science、University of Toronto、19
93年)の中で他の技法と共に検討されている)を使用
しても良い。
【0164】上記の実施形態では、生音声サンプルの推
定値を生成するためにシミュレーションスムーザを使用
していた。このシミュレーションスムーザは、生音声サ
ンプルの推定値を生成するために、カルマンフィルタ段
と、平滑化フィルタ段とを含んでいた。別の実施形態に
おいては、カルマンフィルタ段が生音声の推定値を生成
する(等式(33)を参照)ことから、平滑化フィルタ
段を省略しても良い。しかし、平滑化フィルタにより生
成される音声サンプルはより正確で且つ頑丈であると考
えられるため、そのような生音声サンプルは無視されて
いた。これは、カルマンフィルタが本質的に生音声の同
時確率密度関数から音声サンプルの点推定値を生成する
のに対し、シミュレーションスムーザはこの確率密度関
数からサンプルを取り出すためである。
【0165】上記の実施形態では、生音声サンプルの推
定値を生成するためにシミュレーションスムーザを使用
していた。生音声サンプルを「攪乱母数」として扱い、
それらを等式(19)から積分することにより、生音声
サンプルを推定する必要をなくすことが可能である。し
かし、その結果として求められる積分は等式(19)に
定義するガウスと逆ガンマの混合よりはるかに複雑な形
態になってしまうため、これは好ましくない。そのよう
な複雑な形態は、等式(20)から(30)に対応する
条件付き確率も更に複雑にする。同様に、その他の攪乱
母数(係数分散又は逆ガンマ、アルファパラメータ及び
ベータパラメータのいずれかなど)を積分しても良い
が、その結果、ギブスサンプラを使用してサンプリング
されるべき密度関数の複雑さが増すために、それも好ま
しくない。攪乱母数を積分する技法は統計解析の分野で
は良く知られているので、ここでは詳細に説明しない。
【0166】上記の実施形態では、データ解析装置は、
モデルパラメータごとにヒストグラムを判定した後、対
応するビンにおけるサンプルの数に応じて重み付けを行
うことにより得られた、ギブスサンプラにより取り出さ
れたサンプルの加重平均を使用してモデルパラメータの
値を判定することにより、ギブスサンプラにより取り出
されたサンプルを解析していた。他の実施形態において
は、最高のカウントを有するモデルパラメータの値であ
るとして、ヒストグラムからモデルパラメータの値を判
定しても良い。あるいは、ヒストグラムに最も良く当て
はまる最大値を識別するために、所定の曲線(ベル曲線
など)をヒストグラムに当てはめることも可能であろ
う。
【0167】上記の実施形態では、統計解析装置は、音
声源モデル(ARフィルタ)とチャネルモデルを別個にし
て基礎音声生成プロセスをモデル化していた。これは好
ましいモデル構造であるが、チャネルモデルなしで基礎
音声生成プロセスをモデル化しても良い。その場合、カ
ルマンフィルタなどを使用して生音声サンプルの値を推
定する必要はないが、推定を実行することは可能であ
る。しかし、音声モデルは必然的にチャネルと音声両面
を表現するので、そのような基礎音声生成プロセスは好
ましくない。更に、前述の統計解析装置はARフィルタモ
デル及びチャネルモデルのモデルオーダを変化させるた
めにモデルオーダ選択ルーチンを機能させていたが、こ
れは不可欠ではない。すなわち、ARフィルタモデルとチ
ャネルモデルのモデルオーダをあらかじめ固定しておい
ても良いのであるが、その結果、必然的に表現に誤りが
導入されてしまうため、それは好ましくない。
【0168】上記の実施形態では、処理される音声をユ
ーザからマイクロホンを介して受信していた。当業者に
は理解されるであろうが、音声を電話回線から受信して
も良いし、記録媒体に格納しても良い。その場合、実際
に話された音声を表現するARフィルタ係数が重大な影響
を受けないように、チャネルモデルがこれを補正する。
【0169】上記の実施形態では、音声生成プロセスは
自動回帰(AR)プロセスとしてモデル化され、チャネル
は移動平均(MA)プロセスとしてモデル化されていた。
当業者には理解されるであろうが、他の信号モデルを使
用しても差し支えない。しかし、それらのモデルはモデ
ル化しようとする音声源とチャネルを適切に表現するの
で好ましい。
【0170】上記の実施形態では、モデルオーダ選択ル
ーチンの稼働中、所定のラプラシアン分布関数から確率
変数を取り出すことにより、新たなモデルオーダを提案
していた。当業者には理解されるであろうが、他の技法
を使用しても良い。例えば、モデルオーダスペースが十
分にサンプリングされるのであれば、決定的方法(すな
わち、所定の規則の下で)新たなモデルオーダを提案し
ても良い。
【図面の簡単な説明】
【図1】本発明の一実施形態に従って動作するようにプ
ログラムできるコンピュータの概略図である。
【図2】音声認識システムの主な構成要素を示すブロッ
ク線図である。
【図3】図2に示す音声認識システムの一部を形成する
統計解析装置により採用されるモデルを表すブロック線
図である。
【図4】図2に示す統計解析装置の一部を形成するモデ
ルオーダ選択装置により実行される処理ステップを示す
フローチャートである。
【図5】図2に示す統計解析装置の一部を形成するシミ
ュレーションスムーザにより採用される主な処理ステッ
プを示すフローチャートである。
【図6】図2に示す統計解析装置の主な処理要素を示す
ブロック線図である。
【図7】図2に示す統計解析装置の一部を形成するメモ
リに格納されるデータを示すメモリマップである。
【図8】図6に示す統計解析装置により実行される主な
処理ステップを示すフローチャートである。
【図9a】図3に示すモデルの一部を形成する自動回帰
フィルタモデルのモデルオーダを示すヒストグラムの図
である。
【図9b】図3に示すモデルによりモデル化されるプロ
セス雑音の分散を示すヒストグラムの図である。
【図9c】ARフィルタモデルの第3の係数を示すヒスト
グラムの図である。
【図10】本発明を具現化した音声認識システムの主な
構成要素を示すブロック線図である。
【図11】図10に示す音声認識システムの一部を形成
する統計解析装置により採用されるモデルを表すブロッ
ク線図である。
【図12】本発明を具現化した音声認識システムの主な
構成要素を示すブロック線図である。
【図13】図12に示す音声認識システムで使用される
統計解析装置により実行される主な処理ステップを示す
フローチャートである。
【図14】図12に示す統計解析装置による音声フレー
ムの処理中に、図12に示すシステムの一部を形成する
モデル比較装置により実行される処理ステップを示すフ
ローチャートである。
【図15】図12に示す統計解析装置により実行される
サンプリングルーチンが完了した後に、図12に示すモ
デル比較装置により実行される処理ステップを示すフロ
ーチャートである。
【図16】統計解析装置により出力されたデータを使用
して入力信号中の音声の始めと終わりを検出する他の音
声認識システムの主な構成要素を示すブロック線図であ
る。
【図17】話者照合システムの主な構成要素を示す概略
ブロック線図である。
【図18】音響分類システムの主な構成要素を示す概略
ブロック線図である。
【図19】音声符号化送信システムの主な構成要素を示
す概略ブロック線図である。
【図20】図6に示す統計解析装置を使用して、関連す
る注釈の音声データの品質を規定するデータファイル注
釈システムの主な構成要素を示すブロック線図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 21/02 G10L 9/16 301B 9/08 301A

Claims (76)

    【特許請求の範囲】
  1. 【請求項1】 複数の信号源により発生される信号を表
    現する1組の信号値を受信する1つ以上の受信器と、 与えられた1組の受信信号値に対して、各々が受信信号
    値により表現される信号のそれぞれ1つを発生したと想
    定される対応する信号モデルのパラメータに関わる確率
    密度を与える所定の関数を格納するメモリと、 1組の受信信号値を前記格納されている関数に適用し
    て、前記確率密度関数を生成する適用手段と、 前記確率密度関数を処理して、前記確率密度関数からパ
    ラメータ値のサンプルを取り出す処理手段と、 前記取り出されたパラメータ値のサンプルのうち少なく
    ともいくつかを解析して、前記信号源の少なくとも1つ
    により発生された信号を表現するパラメータ値を判定す
    る解析手段とを備える信号処理装置。
  2. 【請求項2】 前記処理手段は前記確立密度関数からパ
    ラメータ値のサンプルを取り出すように動作可能であ
    り、前記解析手段は、前記取り出されたサンプルを解析
    して、前記信号源の少なくとも1つにより発生された信
    号を表現する前記パラメータ値を判定するように動作可
    能である請求項1記載の信号処理装置。
  3. 【請求項3】 前記処理手段は、前記確立密度関数から
    繰り返しサンプルを取り出すように動作可能である請求
    項2記載の信号処理装置。
  4. 【請求項4】 前記処理手段はギブスサンプラである請
    求項2又は3記載の信号処理装置。
  5. 【請求項5】 前記解析手段は前記取り出されたサンプ
    ルのヒストグラムを判定するように動作可能であり、前
    記パラメータ値は前記ヒストグラムから判定される請求
    項1から4のいずれか1項に記載の信号処理装置。
  6. 【請求項6】 前記解析手段は、前記取り出されたサン
    プルの加重和を使用して前記パラメータ値を判定するよ
    うに動作可能であり、サンプルごとの重み付けは前記ヒ
    ストグラムから判定される請求項5記載の信号処理装
    置。
  7. 【請求項7】 前記受信手段は、前記複数の信号源によ
    り発生される信号を表現する複数組の信号値の系列を受
    信するように動作可能であり、前記適用手段、処理手段
    及び解析手段は、前記信号源の少なくとも1つにより発
    生される信号を表現するパラメータ値を判定するため
    に、各組の受信信号値に関してその機能を実行するよう
    に動作可能である請求項1から6のいずれか1項に記載
    の信号処理装置。
  8. 【請求項8】 前記処理手段は、先行する1組の信号値
    の処理中に得られたパラメータ値を現在処理すべき1組
    の信号値のパラメータ値の初期推定値として使用するよ
    うに動作可能である請求項7記載の信号処理装置。
  9. 【請求項9】 前記系列における前記複数組の信号値は
    互いに重なり合っていない請求項7又は8記載の信号処
    理装置。
  10. 【請求項10】 前記信号モデルは自動回帰プロセスモ
    デルであり、前記パラメータは自動回帰モデル係数を含
    む請求項1から9のいずれか1項に記載の信号処理装
    置。
  11. 【請求項11】 前記解析手段は、前記取り出されたパ
    ラメータ値のサンプルのうち少なくともいくつかを解析
    して、前記サンプルの分散の尺度を判定するように動作
    可能であり、前記信号処理装置は、前記判定された分散
    の尺度に応じて前記受信された1組の信号値の品質を示
    す信号を出力する手段を更に備える請求項1から10の
    いずれか1項に記載の信号処理装置。
  12. 【請求項12】 前記確率密度関数は前記分散の尺度に
    基づくものであり、前記処理手段は前記確立密度関数か
    ら前記分散の尺度のサンプルを取り出すように動作可能
    であり、前記解析手段は取り出された分散サンプルを解
    析するように動作可能である請求項11記載の信号処理
    装置。
  13. 【請求項13】 前記1組の受信信号値は、複数の信号
    源により発生された信号を、各信号源と、各受信器との
    間の対応する送信チャネルにより変調された信号として
    表し、前記所定の関数は、各々が前記信号源のうち対応
    する1つの信号源と関連し且つ各々が対応する信号源を
    モデル化する1組のパラメータを有する複数の第1の部
    分と、各々が前記信号源と前記1つ以上の受信器との間
    の前記送信チャネルのうち対応する1つのチャネルをモ
    デル化する複数の第2の部分とを含み、前記第2の部分
    は、それぞれ、対応するチャネルをモデル化する1組の
    パラメータを有し、前記処理手段は、前記確率密度関数
    から前記第1の部分のうち少なくとも1つと関連するパ
    ラメータの値を求めるように動作可能である請求項1か
    ら12のいずれか1項に記載の信号処理装置。
  14. 【請求項14】 前記関数は、前記送信チャネルにより
    変調される前の、前記信号源により発生された信号を表
    現する1組の生信号値に基づくものであり、前記信号処
    理装置は、1組の受信信号値を前記第1及び第2のパラ
    メータの初期推定値によって処理して、1組の受信信号
    値に対応する生信号値の推定値を生成する第2の処理手
    段を更に備え、前記適用手段は、前記1組の受信信号値
    に加えて前記推定された1組の生信号値を前記関数に適
    用するように動作可能である請求項13記載の信号処理
    装置。
  15. 【請求項15】 前記第2の処理手段はシミュレーショ
    ンスムーザである請求項14記載の信号処理装置。
  16. 【請求項16】 前記第2の処理手段はカルマンフィル
    タである請求項14又は15記載の信号処理装置。
  17. 【請求項17】 前記第2の部分のうち1つ以上は移動
    平均モデルであり、対応する第2のパラメータは移動平
    均モデル係数である請求項13から16のいずれか1項
    に記載の信号処理装置。
  18. 【請求項18】 前記信号モデルごとに異なる数のパラ
    メータ値について取り出された1つ以上のパラメータ値
    のサンプルを使用して、1組の受信信号値に関わる前記
    確率密度関数を評価し、所定の信号モデルがそれらの対
    応するパラメータ値を有するそれぞれの確率を判定する
    手段を更に備え、前記処理手段は、前記取り出されたパ
    ラメータ値のサンプルのうち少なくともいくつかと、前
    記評価された確率とを処理して、前記信号源の少なくと
    も1つにより発生された信号を表現する前記パラメータ
    値を判定するように動作可能である請求項1から17の
    いずれか1項に記載の信号処理装置。
  19. 【請求項19】 前記解析手段は、前記信号源により発
    生された信号の各々を表現する対応するパラメータ値を
    判定するように動作可能である請求項1から18のいず
    れか1項に記載の信号処理装置。
  20. 【請求項20】 前記格納されている所定の関数により
    表現される信号源の数を変化させるために、前記格納さ
    れている所定の関数を変化させる手段を更に備え、前記
    適用手段、処理手段及び解析手段は、信号源の数を判定
    するために、それぞれ異なる所定の関数に対してその機
    能を実行するように動作可能である請求項1から19の
    いずれか1項に記載の信号処理装置。
  21. 【請求項21】 前記メモリは、各々が与えられた1組
    の受信信号値に対して、受信信号値により表現される信
    号を発生したと想定されるそれぞれ異なる複数の信号モ
    デルのパラメータについて確率密度を与える複数の所定
    の関数を格納し、前記適用手段、処理手段及び解析手段
    は、前記格納された関数の各々に関してその機能を実行
    するように動作可能であり、前記信号処理装置は、前記
    関数の各々をそれぞれの関数の判定されたパラメータ値
    によって評価する評価手段と、評価された関数を比較し
    て、受信信号値を最も良く表現する信号源の数を判定す
    る手段とを更に備える請求項1から20のいずれか1項
    に記載の信号処理装置。
  22. 【請求項22】 複数の受信器を備える請求項1から2
    1のいずれか1項に記載の信号処理装置。
  23. 【請求項23】 前記1組の受信信号値は音響信号を表
    現する請求項1から22のいずれか1項に記載の信号処
    理装置。
  24. 【請求項24】 前記1組の受信信号値は音声信号を表
    現する請求項23記載の信号処理装置。
  25. 【請求項25】 前記判定されたパラメータ値をあらか
    じめ格納されているパラメータ値と比較して、比較結果
    を生成する手段を更に備える請求項1から24のいずれ
    か1項に記載の信号処理装置。
  26. 【請求項26】 前記判定されたパラメータ値をあらか
    じめ格納されている基準モデルと比較して、認識結果を
    生成する認識手段を更に備える請求項1から24のいず
    れか1項に記載の信号処理装置。
  27. 【請求項27】 前記判定されたパラメータ値をあらか
    じめ格納されている話者モデルと比較して、照合結果を
    生成する話者照合手段を更に備える請求項1から24の
    いずれか1項に記載の信号処理装置。
  28. 【請求項28】 前記判定されたパラメータ値を符号化
    する手段を更に備える請求項1から27のいずれか1項
    に記載の信号処理装置。
  29. 【請求項29】 前記符号化されたパラメータ値を送信
    する手段と、送信された符号化パラメータ値を受信する
    受信器とを更に備え、前記受信器は、符号化パラメータ
    値を復号する復号手段と、復号されたパラメータ値に従
    って出力信号を発生する処理手段とを含む請求項28記
    載の信号処理装置。
  30. 【請求項30】 前記受信器の前記処理手段は、復号さ
    れたパラメータ値を使用して音声を合成する手段を備え
    る請求項29記載の信号処理装置。
  31. 【請求項31】 前記受信器の前記処理手段は、前記復
    号されたパラメータ値の認識処理を実行して認識結果を
    生成する認識処理手段を備える請求項29又は30記載
    の信号処理装置。
  32. 【請求項32】 データファイルに注釈付けをするとき
    に使用するための注釈データを生成する装置であって、 複数の信号源により生成される音響信号を表現する音響
    注釈を受信する手段と、 前記信号源の少なくとも1つにより発生された信号を表
    現するパラメータ値を生成する請求項1から24のいず
    れか1項に記載の信号処理装置と、 前記判定されたパラメータ値を使用して注釈データを生
    成する手段とを備える装置。
  33. 【請求項33】 前記音響注釈は音声データを含み、前
    記装置は、音声データ中の語及び/又は音素を識別する
    ためにパラメータ値を処理する音声認識手段を更に備
    え、前記注釈データは前記語及び/又は音素データから
    構成される請求項32記載の装置。
  34. 【請求項34】 前記注釈データは音素と語の格子を定
    義する請求項33記載の装置。
  35. 【請求項35】 注釈データを含む複数の注釈から構成
    されるデータベースを探索する装置であって、 複数の音響源により発生される音響信号を表現する音響
    入力問い合わせを受信する手段と、 前記音響源の少なくとも1つにより発生される信号を表
    現するパラメータ値を判定する請求項1から24のいず
    れか1項に記載の信号処理装置と、 前記判定されたパラメータ値を表現するデータを前記注
    釈のうち1つ以上の注釈データと比較する比較手段とを
    備える装置。
  36. 【請求項36】 前記音響入力問い合わせは音声データ
    を含み、前記装置は、音声データの語及び/又は音素デ
    ータを識別するために音声データを処理する音声認識手
    段を更に備え、前記注釈データは語及び/又は音素デー
    タから構成され、前記比較手段は前記音響入力問い合わ
    せの前記語及び/又は音素データを前記注釈の前記語及
    び/又は音素データと比較する請求項35記載の装置。
  37. 【請求項37】 複数の信号源により発生された複数の
    信号を、各信号源と各受信手段との間の対応する送信チ
    ャネルによって変調された信号として表現する1組の信
    号値を受信する1つ以上の受信手段と、 各々が前記信号源のうち対応する1つの信号源と関連し
    且つ各々が対応する信号源をモデル化する1組のパラメ
    ータを有する複数の第1の部分と、各々が前記信号源と
    前記1つ以上の受信手段との間の前記送信チャネルのう
    ち対応する1つのチャネルをモデル化し、対応するチャ
    ネルをモデル化する対応する1組のパラメータを有する
    複数の第2の部分とを含む所定の信号モデルから取り出
    される所定の関数であって、前記パラメータによって表
    現される関数を格納し、且つ与えられる1組の受信信号
    値に対して、与えられる1組のパラメータについて、所
    定の信号モデルがその1組の受信信号値を発生したと想
    定した場合に所定の信号モデルがそれらのパラメータ値
    を有する確率を定義する確率密度関数を生成する手段
    と、 前記1組の受信信号値を前記関数に適用する手段と、 前記確率密度関数から前記第1の部分のうち少なくとも
    1つと関連するパラメータのサンプルを取り出すために
    適用された値によって前記関数を処理する手段と、 前記取り出されたサンプルのうち少なくともいくつかを
    解析して、前記少なくとも1つの第1の部分に対応する
    信号源により発生された信号が対応する送信チャネルに
    より変調される前を表現する、前記少なくとも1つの第
    1の部分の前記パラメータの値を判定する手段とを備え
    る信号処理装置。
  38. 【請求項38】 複数の信号源により発生される信号を
    表現する1組の信号値を1つ以上の受信器を使用して受
    信する工程と、 与えられる1組の受信信号値に対して、各々が受信信号
    値により表現される信号のそれぞれ1つを発生したと想
    定される、各信号モデルのパラメータの確率密度を与え
    る所定の関数を格納する工程と、 1組の受信信号値を前記格納された関数に適用して、前
    記確率密度関数を生成する工程と、 前記確率密度関数を処理して、前記確率密度関数からパ
    ラメータ値のサンプルを取り出す工程と、 前記取り出されたパラメータ値のサンプルのうち少なく
    ともいくつかを解析して、前記信号源の少なくとも1つ
    により発生された信号を表現するパラメータ値を判定す
    る工程とを備える信号処理方法。
  39. 【請求項39】 前記処理する工程は、前記確率密度関
    数からパラメータ値のサンプルを取り出し、前記解析す
    る工程は前記取り出されたサンプルを解析して、前記信
    号源の少なくとも1つにより発生された信号を表現する
    前記パラメータ値を判定する請求項38記載の方法。
  40. 【請求項40】 前記処理する工程は、前記確率密度関
    数から繰り返しサンプルを取り出す請求項39記載の方
    法。
  41. 【請求項41】 前記処理する工程はギブスサンプラを
    使用する請求項39又は40記載の方法。
  42. 【請求項42】 前記解析する工程は前記取り出された
    サンプルのヒストグラムを判定し、前記パラメータ値は
    前記ヒストグラムから判定される請求項38から40の
    いずれか1項に記載の方法。
  43. 【請求項43】 前記解析する工程は、前記取り出され
    たサンプルの加重和を使用して前記パラメータ値を判定
    し、サンプルごとの重み付けは前記ヒストグラムから判
    定される請求項42記載の方法。
  44. 【請求項44】 前記受信する工程は、前記複数の信号
    源により発生される信号を表現する複数組の信号値の系
    列を受信し、前記適用する工程、処理する工程及び解析
    する工程は、前記信号源の少なくとも1つにより発生さ
    れる信号を表現するパラメータ値を判定するために、各
    組の受信信号値ごとに実行される請求項38から43の
    いずれか1項に記載の方法。
  45. 【請求項45】 前記処理する工程は、先行する1組の
    信号値の処理中に得られたパラメータ値を現在処理すべ
    き1組の信号値のパラメータ値の初期推定値として使用
    する請求項44記載の方法。
  46. 【請求項46】 前記系列中の前記複数組の信号値は互
    いに重なり合っていない請求項44又は45記載の方
    法。
  47. 【請求項47】 前記信号モデルは自動回帰プロセスモ
    デルであり、且つ前記パラメータは自動回帰モデル係数
    を含む請求項38から46のいずれか1項に記載の方
    法。
  48. 【請求項48】 前記解析する工程は、前記取り出され
    たパラメータ値のサンプルのうち少なくともいくつかを
    解析して、前記サンプルの分散の尺度を判定し、方法
    は、前記判定された分散の尺度に従って前記1組の受信
    信号値の品質を示す信号を出力する工程を更に含む請求
    項38から47のいずれか1項に記載の方法。
  49. 【請求項49】 前記確率密度関数は前記分散の尺度に
    基づくものであり、前記処理する工程は前記確率密度関
    数から前記分散の尺度のサンプルを取り出し、前記解析
    する工程は取り出された分散サンプルを解析する請求項
    48記載の方法。
  50. 【請求項50】 前記1組の受信信号値は、複数の信号
    源により発生された信号を、各信号源と、各受信器との
    間の対応する送信チャネルにより変調された信号として
    表現し、前記所定の関数は、各々が前記信号源のうち対
    応する1つの信号源と関連し且つ各々が対応する信号源
    をモデル化する1組のパラメータを有する複数の第1の
    部分と、各々が前記信号源と前記1つ以上の受信器との
    間の前記送信チャネルのうち対応する1つのチャネルを
    モデル化する複数の第2の部分とを含み、前記第2の部
    分の各々は、対応する送信チャネルをモデル化する対応
    する1組のパラメータを有し、前記処理する工程は、前
    記確率密度関数から前記第1の部分のうち少なくとも1
    つと関連するパラメータの値を得る請求項38から49
    のいずれか1項に記載の方法
  51. 【請求項51】 前記関数は、前記送信チャネルにより
    変調される前の、前記信号源により発生された信号を表
    現する1組の生信号値に基づいており、方法は、1組の
    受信信号値を前記第1及び第2のパラメータの初期推定
    値によって処理して、1組の受信信号値に対応する生信
    号値の推定値を生成する第2の処理工程を更に含み、且
    つ前記適用する工程は、前記1組の受信信号値に加えて
    前記推定された1組の生信号値を前記関数に適用する請
    求項50記載の方法。
  52. 【請求項52】 前記第2の処理工程はシミュレーショ
    ンスムーザを使用する請求項51記載の方法。
  53. 【請求項53】 前記第2の処理工程はカルマンフィル
    タを使用する請求項51又は52記載の方法。
  54. 【請求項54】 前記第2の部分のうち1つ以上は移動
    平均モデルを含み、対応する第2のパラメータは移動平
    均モデル係数を含む請求項50から53のいずれか1項
    に記載の方法。
  55. 【請求項55】 前記信号モデルごとに異なる数のパラ
    メータ値について1つ以上の取り出されたパラメータ値
    のサンプルを使用して1組の受信信号値に対して前記確
    率密度関数を評価して、所定の信号モデルがそれらそれ
    ぞれのパラメータ値を有するそれぞれの確率を判定する
    工程を更に含み、前記処理する工程は前記取り出された
    パラメータ値のサンプルのうち少なくともいくつかと、
    前記評価された確率とを処理して、前記信号源の前記少
    なくとも1つにより発生された信号を表現する前記パラ
    メータ値を判定する請求項38から54のいずれか1項
    に記載の方法。
  56. 【請求項56】 前記解析する工程は、前記信号源によ
    り発生された信号の各々を表現するそれぞれのパラメー
    タ値を判定する請求項38から55のいずれか1項に記
    載の方法。
  57. 【請求項57】 前記格納されている所定の関数により
    表現される信号源の数を変化させるために前記格納され
    ている所定の関数を変化させる工程を更に含み、前記適
    用する工程、処理する工程及び解析する工程は、信号源
    の数を判定するためにそれぞれ異なる所定の関数につい
    て実行される請求項38から56のいずれか1項に記載
    の方法。
  58. 【請求項58】 各々が与えられる1組の受信信号値に
    対して、それらの受信信号値により表現される信号を発
    生したと想定されるそれぞれ異なる複数の信号モデルの
    パラメータについて確率密度を与える複数の所定の関数
    が格納されており、前記適用する工程、処理する工程及
    び解析する工程は前記格納されている関数の各々に関し
    て実行され、方法は、前記関数の各々をそれぞれの関数
    について判定されたパラメータ値によって評価し、評価
    された関数を比較して、受信信号値を最も良く表現する
    信号源の数を判定する工程を更に含む請求項38から5
    7のいずれか1項に記載の方法。
  59. 【請求項59】前記受信する工程は、前記信号値を受信
    するために複数の受信器を使用する請求項38から58
    のいずれか1項に記載の方法。
  60. 【請求項60】 前記1組の受信信号値は音響信号を表
    現する請求項38から59のいずれか1項に記載の方
    法。
  61. 【請求項61】 前記1組の受信信号値は音声信号を表
    現する請求項60記載の方法。
  62. 【請求項62】 前記判定されたパラメータ値をあらか
    じめ格納されているパラメータ値と比較して、比較結果
    を生成する工程を更に含む請求項38から61のいずれ
    か1項に記載の方法。
  63. 【請求項63】 認識プロセッサを使用して前記判定さ
    れたパラメータ値をあらかじめ格納されている基準モデ
    ルと比較して、認識結果を生成する工程を更に含む請求
    項38から61のいずれか1項に記載の方法。
  64. 【請求項64】 話者照合システムを使用して前記判定
    されたパラメータ値をあらかじめ格納されている話者モ
    デルと比較して、照合結果を生成する工程を更に含む請
    求項38から61のいずれか1項に記載の方法。
  65. 【請求項65】 前記判定されたパラメータ値を符号化
    する工程を更に含む請求項38から64のいずれか1項
    に記載の方法。
  66. 【請求項66】 前記符号化されたパラメータ値を送信
    し、送信された符号化パラメータ値を受信器において受
    信し、符号化パラメータ値を復号し、復号されたパラメ
    ータ値に従って出力信号を発生する工程を更に備える請
    求項65記載の方法。
  67. 【請求項67】 前記受信器における発生する工程は、
    符号化されたパラメータ値を使用して音声を合成する請
    求項66記載の方法。
  68. 【請求項68】 前記受信器における前記発生する工程
    は、前記復号されたパラメータ値の認識処理を実行して
    認識結果を生成することを備える請求項66又は67記
    載の方法。
  69. 【請求項69】 データファイルに注釈付けするときに
    使用するための注釈データを生成する方法であって、複
    数の信号源により発生される音響信号を表現する音響注
    釈を受信する工程と、前記信号源の少なくとも1つによ
    り発生される信号を表現するパラメータ値を生成するた
    めの請求項38から61のいずれか1項に記載の方法
    と、前記判定されたパラメータ値を使用して注釈データ
    を生成する工程とを備える方法。
  70. 【請求項70】 前記音響注釈は音声データを含み、前
    記方法は、音声認識システムを使用して、音声データ中
    の語及び/又は音素を識別するためにパラメータ値を処
    理する工程を更に含み、前記注釈データは前記語及び/
    又は音素データから構成される請求項69記載の方法。
  71. 【請求項71】 前記注釈データは音素と語の格子を定
    義する請求項70記載の方法。
  72. 【請求項72】 注釈データを含む複数の注釈から構成
    されるデータベースを探索する方法であって、 複数の音響源により発生される音響信号を表現する音響
    入力問い合わせを受信する工程と、 前記音響源の少なくとも1つにより発生される信号を表
    現するパラメータ値を判定するための請求項38から6
    1のいずれか1項に記載の方法と、 前記判定されたパラメータ値を表現するデータを前記注
    釈のうち1つ以上の注釈の注釈データと比較する工程と
    を備える方法。
  73. 【請求項73】 前記音響入力問い合わせは音声データ
    を備え、前記方法は、音声認識システムを使用して、音
    声データの語及び/又は音素データを識別するために音
    声データを処理する工程を更に含み、前記注釈データは
    語及び/又は音素データから構成され、前記比較する工
    程は、前記音響入力問い合わせの前記語及び/又は音素
    データを前記注釈の前記語及び/又は音素データと比較
    する請求項72記載の方法。
  74. 【請求項74】 1つ以上の受信器を使用して、複数の
    信号源により発生される複数の信号を各信号源と、各受
    信器との間の対応する送信チャネルにより変調された後
    の信号として表現する1組の信号値を受信する工程と、 各々が前記信号源のうち対応する1つの信号源と関連し
    且つ各々が対応する信号源をモデル化する1組のパラメ
    ータを有する複数の第1の部分と、各々が前記信号源と
    前記1つ以上の受信器との間の前記送信チャネルのうち
    対応する1つのチャネルをモデル化し且つ各々が対応す
    るチャネルをモデル化する対応する1組のパラメータを
    有する複数の第2の部分とを含む所定の信号モデルから
    取り出される所定の関数であって、前記パラメータに基
    づいている関数を定義し、与えられる1組の受信信号値
    に対して、所定の信号モデルが前記1組の受信信号値を
    発生したと想定される場合に与えられる1組のパラメー
    タについて所定の信号モデルがそれらのパラメータ値を
    有する確率を定義する確率密度関数を生成する工程と、 前記1組の受信信号値を前記関数に適用する工程と、 前記関数を適用されるそれらの値によって処理して、前
    記確率密度関数から前記第1の部分の少なくとも1つと
    関連するパラメータのサンプルを取り出す工程と、 前記取り出されたサンプルの少なくともいくつかを解析
    して、前記少なくとも1つの第1の部分に対応する信号
    源により発生された、対応する送信チャネルにより変調
    される前の信号を表現する、前記少なくとも1つの第1
    の部分の前記パラメータの値を判定する工程とを備える
    信号処理方法。
  75. 【請求項75】 請求項38から74のいずれか1項に
    記載の方法を実現するためにプロセッサを制御するため
    のプロセッサ実現可能な命令を格納する記憶媒体。
  76. 【請求項76】 請求項38から74のいずれか1項に
    記載の方法を実現するためにプロセッサを制御するため
    のプロセッサ実現可能な命令。
JP2001168802A 2000-06-02 2001-06-04 信号処理システム Withdrawn JP2002140096A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB0013536A GB0013536D0 (en) 2000-06-02 2000-06-02 Signal processing system
GB0020311A GB0020311D0 (en) 2000-06-02 2000-08-17 Signal processing system
GB0013536.8 2000-08-17
GB0020311.7 2000-08-17

Publications (1)

Publication Number Publication Date
JP2002140096A true JP2002140096A (ja) 2002-05-17

Family

ID=26244418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001168802A Withdrawn JP2002140096A (ja) 2000-06-02 2001-06-04 信号処理システム

Country Status (3)

Country Link
US (1) US6954745B2 (ja)
EP (1) EP1160772A3 (ja)
JP (1) JP2002140096A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001356795A (ja) * 2000-06-13 2001-12-26 Casio Comput Co Ltd 音声認識装置、及び音声認識方法
WO2006132249A1 (ja) * 2005-06-06 2006-12-14 Saga University 信号分離装置
JP2007514959A (ja) * 2003-07-01 2007-06-07 フランス テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP2008145923A (ja) * 2006-12-13 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
WO2009038013A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 雑音除去システム、雑音除去方法および雑音除去プログラム
JP2011043547A (ja) * 2009-08-19 2011-03-03 Nippon Telegr & Teleph Corp <Ntt> 残響抑圧装置とその方法と、プログラムと記録媒体
JP2012177949A (ja) * 2005-05-27 2012-09-13 Audience Inc オーディオ信号の分解および修正のためのシステムおよび方法
JP2017194670A (ja) * 2016-03-11 2017-10-26 ジーエヌ ヒアリング エー/エスGN Hearing A/S コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1343337B (zh) 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
US6532467B1 (en) * 2000-04-10 2003-03-11 Sas Institute Inc. Method for selecting node variables in a binary decision tree structure
FR2831741B1 (fr) * 2001-10-26 2003-12-19 Thales Sa Procedes et systemes d'enregistrement et lecture synchronisee de donnes provenant d'une pluralite d'equipements terminaux
US20030171900A1 (en) * 2002-03-11 2003-09-11 The Charles Stark Draper Laboratory, Inc. Non-Gaussian detection
US7319959B1 (en) * 2002-05-14 2008-01-15 Audience, Inc. Multi-source phoneme classification for noise-robust automatic speech recognition
US7346679B2 (en) 2002-08-30 2008-03-18 Microsoft Corporation Method and system for identifying lossy links in a computer network
US7421510B2 (en) * 2002-08-30 2008-09-02 Microsoft Corporation Method and system for identifying lossy links in a computer network
US20040044765A1 (en) * 2002-08-30 2004-03-04 Microsoft Corporation Method and system for identifying lossy links in a computer network
US20040117186A1 (en) * 2002-12-13 2004-06-17 Bhiksha Ramakrishnan Multi-channel transcription-based speaker separation
US7636651B2 (en) * 2003-11-28 2009-12-22 Microsoft Corporation Robust Bayesian mixture modeling
GB2412997A (en) * 2004-04-07 2005-10-12 Mitel Networks Corp Method and apparatus for hands-free speech recognition using a microphone array
GB0424737D0 (en) * 2004-11-09 2004-12-08 Isis Innovation Method,computer program and signal processing apparatus for determining statistical information of a signal
US7552154B2 (en) * 2005-02-10 2009-06-23 Netzer Moriya System and method for statistically separating and characterizing noise which is added to a signal of a machine or a system
US7171340B2 (en) * 2005-05-02 2007-01-30 Sas Institute Inc. Computer-implemented regression systems and methods for time series data analysis
JP2007249873A (ja) * 2006-03-17 2007-09-27 Toshiba Corp 分析モデル作成方法、分析モデル作成プログラムおよび分析モデル作成装置
TWI467568B (zh) * 2007-07-13 2015-01-01 Dolby Lab Licensing Corp 使用位準時變評估機率密度之時變音訊信號位準
JP5088030B2 (ja) * 2007-07-26 2012-12-05 ヤマハ株式会社 演奏音の類似度を評価する方法、装置およびプログラム
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
US8793717B2 (en) * 2008-10-31 2014-07-29 The Nielsen Company (Us), Llc Probabilistic methods and apparatus to determine the state of a media device
US8994536B2 (en) 2009-02-25 2015-03-31 Xanthia Global Limited Wireless physiology monitor
US8947237B2 (en) 2009-02-25 2015-02-03 Xanthia Global Limited Physiological data acquisition utilizing vibrational identification
US9035775B2 (en) * 2009-02-25 2015-05-19 Xanthia Global Limited Wireless physiology monitor
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US9692535B2 (en) 2012-02-20 2017-06-27 The Nielsen Company (Us), Llc Methods and apparatus for automatic TV on/off detection
HUP1200197A2 (hu) * 2012-04-03 2013-10-28 Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem Eljárás és elrendezés környezeti zaj valós idejû, forrásszelektív monitorozására és térképezésére
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
US9380387B2 (en) 2014-08-01 2016-06-28 Klipsch Group, Inc. Phase independent surround speaker
US9484033B2 (en) * 2014-12-11 2016-11-01 International Business Machines Corporation Processing and cross reference of realtime natural language dialog for live annotations
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US9743141B2 (en) 2015-06-12 2017-08-22 The Nielsen Company (Us), Llc Methods and apparatus to determine viewing condition probabilities
US10425730B2 (en) * 2016-04-14 2019-09-24 Harman International Industries, Incorporated Neural network-based loudspeaker modeling with a deconvolution filter
US10210459B2 (en) 2016-06-29 2019-02-19 The Nielsen Company (Us), Llc Methods and apparatus to determine a conditional probability based on audience member probability distributions for media audience measurement
CN112801065B (zh) * 2021-04-12 2021-06-25 中国空气动力研究与发展中心计算空气动力研究所 一种基于时空多特征信息的被动声纳目标探测方法及装置

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4386237A (en) 1980-12-22 1983-05-31 Intelsat NIC Processor using variable precision block quantization
GB2137052B (en) 1983-02-14 1986-07-23 Stowbell Improvements in or relating to the control of mobile radio communication systems
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
GB8608289D0 (en) 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
JPH0783315B2 (ja) 1988-09-26 1995-09-06 富士通株式会社 可変レート音声信号符号化方式
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
ES2225321T3 (es) 1991-06-11 2005-03-16 Qualcomm Incorporated Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.
JPH05346915A (ja) 1992-01-30 1993-12-27 Ricoh Co Ltd 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法
FI90477C (fi) 1992-03-23 1994-02-10 Nokia Mobile Phones Ltd Puhesignaalin laadun parannusmenetelmä lineaarista ennustusta käyttävään koodausjärjestelmään
US5315538A (en) * 1992-03-23 1994-05-24 Hughes Aircraft Company Signal processing incorporating signal, tracking, estimation, and removal processes using a maximum a posteriori algorithm, and sequential signal detection
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US5590242A (en) 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5884269A (en) 1995-04-17 1999-03-16 Merging Technologies Lossless compression/decompression of digital audio data
US6018317A (en) * 1995-06-02 2000-01-25 Trw Inc. Cochannel signal processing system
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US6708146B1 (en) * 1997-01-03 2004-03-16 Telecommunications Research Laboratories Voiceband signal classifier
US5784297A (en) * 1997-01-13 1998-07-21 The United States Of America As Represented By The Secretary Of The Navy Model identification and characterization of error structures in signal processing
US6104993A (en) 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
GB2332052B (en) 1997-12-04 2002-01-16 Olivetti Res Ltd Detection system for determining orientation information about objects
GB2332053B (en) 1997-12-04 2002-01-09 Olivetti Res Ltd Detection system for determinning positional and other information about objects
FR2765715B1 (fr) * 1997-07-04 1999-09-17 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
GB2332054B (en) 1997-12-04 2000-02-02 Olivetti Res Ltd Detection system for determining positional information about objects
GB2332055B (en) 1997-12-04 2000-02-02 Olivetti Res Ltd Detection system for determining positional information about objects
GB2336711B (en) 1998-04-20 2002-01-09 Olivetti Telemedia Spa Cables
AUPP340798A0 (en) * 1998-05-07 1998-05-28 Canon Kabushiki Kaisha Automated video interpretation system
GB9812635D0 (en) 1998-06-11 1998-08-12 Olivetti Telemedia Spa Location system
US6044336A (en) * 1998-07-13 2000-03-28 Multispec Corporation Method and apparatus for situationally adaptive processing in echo-location systems operating in non-Gaussian environments
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
JP3061039B2 (ja) 1998-10-20 2000-07-10 日本電気株式会社 無音圧縮符号復号化方法及びその装置
US6226613B1 (en) 1998-10-30 2001-05-01 At&T Corporation Decoding input symbols to input/output hidden markoff models
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
GB9901300D0 (en) 1999-01-22 1999-03-10 Olivetti Research Ltd A method of increasing the capacity and addressing rate of an Ultrasonic location system
WO2000045375A1 (en) 1999-01-27 2000-08-03 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
AU3229900A (en) * 1999-02-12 2000-08-29 Prange, Michael Uncertainty constrained subsurface modeling
CN1343337B (zh) 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
GB2349717A (en) 1999-05-04 2000-11-08 At & T Lab Cambridge Ltd Low latency network
GB2356314B (en) 1999-07-06 2003-12-31 At & T Lab Cambridge Ltd A thin multimedia communication device and method
KR100609128B1 (ko) 1999-07-12 2006-08-04 에스케이 텔레콤주식회사 이동 통신 시스템의 통화 품질 측정 장치 및 방법
GB2360670B (en) 2000-03-22 2004-02-04 At & T Lab Cambridge Ltd Power management system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
GB2363557A (en) 2000-06-16 2001-12-19 At & T Lab Cambridge Ltd Method of extracting a signal from a contaminated signal

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4560899B2 (ja) * 2000-06-13 2010-10-13 カシオ計算機株式会社 音声認識装置、及び音声認識方法
JP2001356795A (ja) * 2000-06-13 2001-12-26 Casio Comput Co Ltd 音声認識装置、及び音声認識方法
JP2007514959A (ja) * 2003-07-01 2007-06-07 フランス テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム
JP4652232B2 (ja) * 2003-07-01 2011-03-16 フランス・テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム
JP2012177949A (ja) * 2005-05-27 2012-09-13 Audience Inc オーディオ信号の分解および修正のためのシステムおよび方法
WO2006132249A1 (ja) * 2005-06-06 2006-12-14 Saga University 信号分離装置
JPWO2006132249A1 (ja) * 2005-06-06 2009-01-08 国立大学法人佐賀大学 信号分離装置
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP4673828B2 (ja) * 2006-12-13 2011-04-20 日本電信電話株式会社 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP2008145923A (ja) * 2006-12-13 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
WO2009038013A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 雑音除去システム、雑音除去方法および雑音除去プログラム
JP5344251B2 (ja) * 2007-09-21 2013-11-20 日本電気株式会社 雑音除去システム、雑音除去方法および雑音除去プログラム
JP2011043547A (ja) * 2009-08-19 2011-03-03 Nippon Telegr & Teleph Corp <Ntt> 残響抑圧装置とその方法と、プログラムと記録媒体
JP2017194670A (ja) * 2016-03-11 2017-10-26 ジーエヌ ヒアリング エー/エスGN Hearing A/S コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法

Also Published As

Publication number Publication date
EP1160772A2 (en) 2001-12-05
US6954745B2 (en) 2005-10-11
EP1160772A3 (en) 2004-01-14
US20020055913A1 (en) 2002-05-09

Similar Documents

Publication Publication Date Title
JP2002140096A (ja) 信号処理システム
JP2002140087A (ja) 音声処理システム
US7072833B2 (en) Speech processing system
CN101416237B (zh) 基于源和室内声学的概率模型的语音去混响方法和设备
Xu et al. An experimental study on speech enhancement based on deep neural networks
US5924065A (en) Environmently compensated speech processing
US7010483B2 (en) Speech processing system
KR20060082465A (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
CN100583235C (zh) 分析基频信息的方法以及实现所述分析方法的话音转换方法和系统
JPWO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラム
US5046100A (en) Adaptive multivariate estimating apparatus
JP3987927B2 (ja) 波形認識方法及び装置、並びにプログラム
JP4891805B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
US20020026253A1 (en) Speech processing apparatus
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP3541224B2 (ja) 音源の分離方法および分離装置
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
JP4755555B2 (ja) 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP2000075889A (ja) 音声認識システム及び音声認識方法
EP0308433B1 (en) An adaptive multivariate estimating apparatus
CN111354352B (zh) 一种用于音频检索的模板自动清洗方法及系统
GB2367729A (en) Speech processing system
JPH0580792A (ja) 確率演算装置及び確率演算方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080805