JP2002140096A

JP2002140096A - 信号処理システム

Info

Publication number: JP2002140096A
Application number: JP2001168802A
Authority: JP
Inventors: Jacob Rajan Jebb; ジェイコブラジャンジェブ
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-06-02
Filing date: 2001-06-04
Publication date: 2002-05-17
Also published as: EP1160772A2; US6954745B2; EP1160772A3; US20020055913A1

Abstract

(57)【要約】（修正有）【課題】複数の信号源により発生される信号を受信す
る１つ以上の受信器を含む信号処理システムを提供す
る。【解決手段】システムは、１組の入力信号値に対し
て、受信信号値において信号を発生したと想定される対
応する信号モデルのパラメータに関わる確率密度を与え
る所定の関数を格納するメモリを有する。システムは１
組の受信信号値を格納されている関数に適用して確率密
度関数を生成し、その後、そこから複数のサンプルを取
り出す。次に、システムは取り出したサンプルを解析し
て、少なくとも１つの信号源からの信号を表現するパラ
メータ値を判定する。

Description

【発明の詳細な説明】

【０００１】本発明は信号処理方法及び装置に関する。
特に、本発明は、複数の信号源により発生される信号に
応答して複数のセンサにより出力される信号の統計解析
に関する。本発明は音声認識及びその他の用途におい
て、複数の信号源により発生される信号を分離すること
を目的として受信信号を処理するために使用されても良
い。また、存在する信号源の数を識別するために本発明
を利用することも可能である。

【０００２】複数の信号源により発生される信号に応答
して複数のセンサにより出力される信号を処理できるよ
うにする必要がある。信号源は、例えば、複数の異なる
話者であっても良く、センサはマイクロホンであっても
良い。現在の技法は、話者の１人からの音声を分離する
ために、マイクロホンのアレイと適応ビーム形成技法を
採用している。この種のビーム形成システムにはいくつ
かの問題がある。第１に、このシステムは空間的に全く
別個である信号源からの信号しか分離できない。第２
に、信号源が互いに相対的に近接している場合、使用す
るビームの分解能が限られているために機能しなくな
る。第３に、関心ある信号が到着する方向と、センサア
レイにおけるセンサの間隔とがわかっていなければなら
ない。更に、利用できるセンサの個数がN個である場
合、感知ゾーン内部ではN−１個の「ナル」しか作成で
きない。

【０００３】本発明の目的は、複数の信号源から受信さ
れる信号に応答して複数のセンサから出力される信号を
処理するための従来に代わる技法を提供することであ
る。

【０００４】１つの面によれば、本発明は、複数の信号
源により発生される信号を表現する１組の信号値を受信
する１つ以上の受信器と、各々が受信信号値により表現
される信号のそれぞれ１つを発生したと想定される対応
する信号モデルのパラメータに関わる確率密度関数を格
納するメモリと、受信信号値を確率密度関数に適用する
手段と、確率密度関数を適用されたそれらの値によって
処理して、確率密度関数からパラメータ値のサンプルを
取り出す処理手段と、取り出されたパラメータ値のサン
プルのいくつかを解析して、信号源の少なくとも１つに
より発生された信号を表現するパラメータ値を判定する
手段とを具備する信号処理装置を提供する。

【０００５】本発明の実施形態はコンピュータハードウ
ェアで実現できるが、以下に説明する実施形態は、パー
ソナルコンピュータ、ワークステーション、写真複写
機、ファクシミリ装置などの処理ハードウェアと関連し
て実行されるソフトウェアにおいて実現される。

【０００６】図１は、本発明の一実施形態を動作させる
ためにプログラムできるパーソナルコンピュータ（PC）
１を示す。キーボード３、指示装置５、２台のマイクロ
ホン７−１及び７−２並びに電話回線９はインタフェー
ス１１を介してPC１に接続している。キーボード３と指
示装置５により、ユーザはシステムを制御できる。マイ
クロホン７は１人又は複数人のユーザの音響音声信号を
等価の電気信号に変換し、それらの信号をPC１に供給し
て処理させる。PC１が、例えば、遠隔コンピュータ又は
離れた場所にいるユーザと通信できるように、電話回線
９に内部モデム及び音声受信回路（図示せず）を接続し
ても良い。

【０００７】PC１を本発明に従って動作させるプログラ
ム命令は既存のPC１と共に使用されるように、例えば、
磁気ディスク１３などの記憶装置として供給されても良
いし、あるいはインターネット（図示せず）から内部モ
デム及び電話回線９を介してソフトウェアをダウンロー
ドすることにより供給されても良い。

【０００８】複数の話者から発生される音声信号に応答
して複数のマイクロホンから出力される信号を受信する
音声認識システムの動作を説明する。しかし、このよう
な認識システムの動作を理解しやすくするために、ま
ず、図２から図９を参照して話者が1人、マイクロホン
が１台設置されている場合にマイクロホンから出力され
る信号について類似の解析を実行する音声認識システム
を説明する。

【０００９】単一話者単一マイクロホン図２に示すように、マイクロホン７からの入力音声を表
現する電気信号はフィルタ１５に入力され、フィルタ１
５は入力信号の中の望ましくない周波数（この実施形態
においては８kHzを越える周波数）を除去する。フィル
タリングされた信号は、この後、（１６kHzの速度で）
サンプリングされ、アナログ／デジタル変換器１７によ
りデジタル化される。デジタル化音声サンプルはバッフ
ァ１９に格納される。次に、バッファ１９から音声サン
プルの逐次ブロック（又はフレーム）が統計解析装置２
１へ送信され、統計解析装置２１は音声サンプルの各フ
レームの統計解析を実行して、特に、フレーム中の音声
を表現する１組の自動回帰（AR）係数を判定する。この
実施形態では、統計解析装置２１により出力されるAR係
数は係数変換器２３を介してケプストラル利用音声認識
装置２５に入力される。従って、この実施形態において
は、係数変換器２３は統計解析装置２１により出力され
たAR係数をケプストラル係数に変換するのである。これ
は、例えば、Rabiner及びJuang著「Fundamentals of Sp
eech Recognition」の１１５ページ及び１１６ページに
記載されている変換技法を使用して実現できる。音声認
識装置２５は音声の連続するフレームのケプストラル係
数を格納されている１組の音声モデル２７と比較して、
認識結果を生成する。音声モデルはテンプレートに基づ
くものであっても良いし、あるいは隠れマルコフモデル
であっても良い。

【００１０】統計解析装置−理論と概要前述のように、統計解析装置２１は入力音声信号の連続
するフレームの中の音声を解析する。多くの音声処理シ
ステムでは、フレームは互いに重なり合っているが、こ
の実施形態においては音声のフレームは重なっておら
ず、２０msの持続時間を有する。アナログ／デジタル変
換器１７のサンプリング速度が１６kHzであるので、こ
の持続時間の場合、フレームサイズは３２０サンプルと
いうことになる。

【００１１】それぞれのフレームに対して統計解析を実
行するために、統計解析装置２１は、そのフレーム中に
各サンプルを発生させた基礎プロセスが存在すると仮定
する。この実施形態で使用されるプロセスのモデルを図
３に示す。図示されているように、プロセスは音声源３
１によりモデル化され、音声源３１は時間t＝nにおいて
生音声サンプルs（n）を生成する。音声調音体の動きに
は物理的な制約があるため、隣接する音声サンプルの間
には何らかの相関関係が成立している。従って、この実
施形態では、音声源３１は自動回帰（AR）プロセスによ
りモデル化されている。言い換えれば、統計解析装置２
１は、最前の先行生信号サンプルの線形加重組み合わせ
から現在生音声サンプル（s（n））を判定できると想定
しているのである。

【００１２】すなわち、

【００１３】式中、a₁,a₂.....a_kは音声サンプル間の相
関の量を表すARフィルタ係数であり、kはARフィルタモ
デルオーダであり、e（n）は生音声サンプルの生成に関
連するランダムプロセス雑音を表す。音声処理の分野の
当業者には理解されるであろうが、これらのARフィルタ
係数は線形予測（LP）解析が異なる処理技法を使用する
にもかかわらず推定する係数と同じである。

【００１４】図３に示すように、音声源により生成され
る生音声サンプルs（n）はチャネル33に入力される。チ
ャネル３３は音声源３１と、アナログ／デジタル変換器
１７の出力端子との間の音声環境をモデル化している。
音声が音声源３１からマイクロホン７まで進む間にチャ
ネル３３は単純に音声を減衰させるのが理想的である
が、残響やその他の妨害効果によって、アナログ／デジ
タル変換器１７により出力される信号（y（n））は現在
生音声サンプル（s（n））のみならず、先行生音声サン
プルによっても影響を受ける。従って、この実施形態で
は、統計解析装置２１は移動平均（MA）フィルタによっ
てチャネル３３をモデル化する。

【００１５】式中、y（n）は時間t＝nにアナログ／デジタル変換器１
７により出力される信号サンプルを表し、h₀,h₁,h₂....
h_rはチャネル３３内部のひずみの量を表すチャネルフィ
ルタ係数であり、rはチャネルフィルタモデルオーダで
あり、ε（n）はランダム加法的測定雑音成分を表す。

【００１６】現在処理中の音声のフレームについて、音
声源とチャネル双方のフィルタ係数は一定であると想定
されるが、わかってはいない。従って、現在処理中のフ
レームの全てのN個のサンプル（N＝３２０の場合）を考
えると、次のようになる。

【００１７】

【００１８】これをベクトル形式により次のように書き
表すことができる。

【００１９】

【００２０】式中、

【００２１】以下の説明から明白になるであろうが、等
式（３）をランダム誤り成分（残差と呼ばれることが多
い）e（n）に関して書き直しても好都合である。

【００２２】すなわち、

【００２３】これをベクトル表記法により次のように書
き表すことができる。

【００２４】式中、

【００２５】同様に、等式（２）により定義されるチャ
ネルモデルを考えると、h₀＝１（この場合、より安定し
た解が得られる）のとき、

【００２６】となり（式中、q（n）＝y（n）− s（n））、これをベ
クトル形態で書き表すと次のようになる。

【００２７】

【００２８】式中、

【００２９】この実施形態では、統計解析装置２１は、
特に、現在フレーム中の観測信号サンプル（y（n））を
最も良く表現するARフィルタ係数（a）の値を判定しよ
うとする。統計解析装置２１は、アナログ／デジタル変
換器１７から出力される観測信号サンプルが与えられた
とき、音声モデル、チャネルモデル、生音声サンプル及
び雑音統計値の同時確率密度情報を最大にするARフィル
タ係数（a）を判定することにより、すなわち、

【００３０】を判定することによりこれを実行する。式中、σ_e ^２及
びσ_ε ^２はそれぞれプロセス雑音統計値及び測定雑音統
計値を表す。当業者には理解されるであろうが、この関
数は、特定の音声モデル、チャネルモデル、生音声サン
プル及び雑音統計値がアナログ／デジタル変換器からの
音声サンプル（y（n））の観測フレームを発生した確率
を定義する。これを実行するため、統計解析装置２１は
この関数がどのように見えるかを判定しなければならな
い。この問題は、この確率密度関数をベイズの法則を使
用して再配列することにより簡略化できる。すなわち、

【００３１】当業者には理解されるであろうが、アナログ／デジタル
変換器からの信号の確率はモデルのあらゆる選択肢に対
して一定であるので、等式（１０）の分母を無視するこ
とができる。従って、等式（９）により定義される関数
を最大にするARフィルタ係数は等式（１０）の分母も最
大にする。次に、等式（１０）の分母における各々の項
を順次考えてみる。

【００３２】p（s（n）|a，k，σ_e ²）この項は、ARフィルタ係数（a）、ARフィルタモデルオ
ーダ（k）及びプロセス雑音統計値（σ_e ²）が与えられ
たとき、１フレーム中の生音声サンプル（s（n））のベ
クトルを生成する同時確率密度関数を表す。先の等式
（６）により、生音声サンプルに関するこの同時確率密
度関数をプロセス雑音の同時確率密度関数から判定する
ことができる。すなわち、p（s（n）|a，k，σ_e ²）は次
のように表される。

【００３３】

【００３４】式中、p（e（n））は入力音声の１フレー
ム中のプロセス雑音の同時確率密度関数であり、右側の
第２項は変換のヤコビアンとして知られている。この場
合、行列が三角形であるため、ヤコビアンは１である（先の等式
（６）を参照）。

【００３５】この実施形態では、統計解析装置２１は、
音声源３１と関連するプロセス雑音は平均が０であり、
何らかの未知の分散σ_e ²を有するガウシアンであると想
定している。また、統計解析装置２１は、ある１つの時
点におけるプロセス雑音は別の時点のプロセス雑音とは
無関係であると想定する。従って、入力音声の１フレー
ム中のプロセス雑音の同時確率密度変数（発生するプロ
セス雑音e（n）の所定のベクトルの確率を定義する）は
次のように表される。

【００３６】

【００３７】従って、ARフィルタ係数（a）、ARフィル
タモデルオーダ（k）及びプロセス雑音分散（σ_e ²）が
与えられたときの生音声サンプルのベクトルの同時確率
密度関数は次のように表される。

【００３８】

【００３９】p（y（n）|ｓ（n），h，r，σ_z ²）この項は、生音声サンプル（s（n））のベクトル、チャ
ネルフィルタ係数（h）、チャネルフィルタモデルオー
ダ（r）及び測定雑音統計値（σ_z ²）が与えられたとき
の、アナログ／デジタル変換器１７から出力される音声
サンプル（y（n））のベクトルを生成する同時確率密度
関数を表す。等式（８）により、この同時確率密度関数
はプロセス雑音の同時確率密度関数から判定できる。す
なわち、p（y（n）|ｓ（n），h，r，σ_z ²）は次のよう
に表される。

【００４０】

【００４１】式中、p（ε（n））は入力音声の１フレー
ム中の測定雑音の同時確率密度関数であり、右側の第２
項は同様に１の値を有する変換のヤコビアンである。

【００４２】この実施形態では、統計解析装置２１は、
測定雑音は平均が０であり且つ何らかの未知の分散σ_z ²
を有するガウシアンであると想定している。また、統計
解析装置２１は、ある１つの時点における測定雑音は別
の時点の測定雑音とは無関係であると想定する。従っ
て、入力音声の１フレームにおける測定雑音の同時確率
密度関数は、等式（１２）で定義されているプロセス雑
音と同じ形態を有する。そのため、チャネルフィルタ係
数（h）、チャネルフィルタモデルオーダ（r）、測定雑
音統計値（σ_ε ²）及び生音声サンプル（s（n））が与
えられたときの、アナログ／デジタル変換器１７から出
力される音声サンプル（y（n））のベクトルの同時確率
密度関数は次のような形態を有する。

【００４３】

【００４４】当業者には理解されるように、この音声サ
ンプル（y（n））のベクトルの同時確率密度関数は変数
g（n）に関して定められているが、g（n）はy（n）及び
s（n）の関数であり且つs（n）はこの確率密度関数につ
いて与えられた変数（すなわち、既知の変数）であるの
で、それは全く問題にならない。

【００４５】p（a|k）この項は、ARフィルタ係数（a）の先験的確率密度関数
を定義し、これにより、統計解析装置２１はそれらの係
数がとると期待する値に関する知識を導入することがで
きる。この実施形態では、統計解析装置２１はこの先験
的確率密度関数を未知の分散（σ_a ²）と、平均ベクトル
（μ _a）とを有するガウシアンによりモデル化する。す
なわち、

【００４６】新たな変数σ_a ²及びμ _aを導入することにより、これら
の変数の先験的密度関数（p（σ_a ²）及びp（μ _a））を
先に示した等式（１０）の分母に加算しなければならな
くなる。まず、処理すべき音声の第１のフレームについ
て、平均ベクトル（μ _a）を０に設定することができ、
処理すべき音声の第２のフレーム及びそれに続くフレー
ムについては、平均ベクトルを先行フレームの処理中に
得られた平均ベクトルに設定することができる。この場
合、p（μ _a）はまさにμ _aの現在値に位置するディラッ
クのデルタ関数であるので、無視できる。

【００４７】ARフィルタ係数の分散の先験的確率密度関
数に関して、全ての分散が等しい確率を有することを示
唆するために、統計解析装置２１はこれを何らかの定数
に設定することができるであろう。しかし、この項を使
用して、ARフィルタ係数の分散がどのようになると期待
されるかということに関する知識を導入することが可能
である。この実施形態では、分散は常に正であるので、
統計解析装置２１はこの分散先験的確率密度関数をパラ
メータα_a及びβ_aを有する逆ガンマ関数により、すなわ
ち、

【００４８】によりモデル化する。処理すべき音声の初めには、統計
解析装置２１はARフィルタ係数の分散に関して多くの知
識を持っていない。従って、当初、統計解析装置２１は
分散σ_a ²と、逆ガンマ関数のα及びβパラメータを、こ
の確率密度関数がほぼ平坦になるように、従って、情報
量が多いとは言えないような状態になるように設定す
る。しかし音声の第１のフレームが処理された後、これ
らのパラメータは、音声の次のフレームの処理中には、
音声の先行フレームの処理中に計算されたパラメータ値
を使用してより正確に設定できる。

【００４９】p（h|r）この項は、チャネルモデル係数（h）の先験的確率密度
関数を表し、これにより、統計解析装置２１は、これら
の係数がとると期待される値に関する知識を導入するこ
とができる。ARフィルタ係数の先験的確率密度関数の場
合と同様に、この実施形態では、この確率密度関数は未
知の分散（σ_h ²）及び平均ベクトル（μ _h）を有するガ
ウシアンにより、すなわち、

【００５０】によりモデル化される。この場合にも同様に、これらの
新たな変数を導入することにより、先験的密度関数（p
（σ_h ²）及びp（μ _h））を等式（１０）の分母に加算し
なければならなくなる。また、平均ベクトルは当初は０
に設定でき、音声の第１のフレームが処理された後、後
続する処理すべき音声の全てのフレームについては、平
均ベクトルを先行フレームの処理中に得られた平均ベク
トルと等しくなるように設定できる。従って、p（μ _h）
もμ _hの現在値に位置するまさにディラックのデルタ関
数であるので、無視することができる。

【００５１】チャネルフィルタ関数の分散の先験的確率
密度関数に関しても同様に、この実施形態では、これは
パラメータα_h及びβ_hを有する逆ガンマ関数によりモデ
ル化される。同様に、分散（σ_h ²）と、逆ガンマ関数の
α及びβパラメータを、当初は、それらの密度が多くの
情報を含まず、従って、初期フレームのその後の処理に
ほとんど影響を及ぼさないように選択することができ
る。

【００５２】p（σ_e ²）及びp（σ_ε ²）これらの項は、プロセス雑音分散及び測定雑音分散の先
験的確率密度関数であり、これらの項により、統計解析
装置２１は、これらの雑音分散がとると期待する値に関
する知識を導入することができる。この実施形態では、
統計解析装置２１はパラメータα_e、β_e及びα_ε、β_ε
をそれぞれ有する逆ガンマ関数によりこれらをモデル化
する。同様に、当初、これらの分散及びガンマ関数パラ
メータを、多くの情報を含まず、初期フレームのその後
の計算にそれほど影響を及ぼさないように設定すること
ができる。

【００５３】p（ｋ）及びp（ｒ）これらの項は、ＡＲフィルタモデルオーダ（ｋ）及びチ
ャネルモデルオーダ（ｒ）のそれぞれに対する先験的確
率密度関数である。この実施形態では、これらは何らか
の最大オーダに至るまで一様分布によりモデル化され
る。このように、それらの事前定義済み最大値を越える
ことができないという点を除いて、モデル中の係数の数
に先験的変更が加わることはない。この実施形態では、
最大ARフィルタモデルオーダ（k）は３０であり、最大
チャネルモデルオーダ（r）は１５０である。

【００５４】従って、等式（１０）の分母に関連する等
式を代入すると、p（a，k，h，r，σ_a ²，σ_h ²，σ_e ²，
σ_ε ²，s（n）|y（n））に比例する次のような同時確率
密度関数が得られる。

【００５５】

【００５６】ギブスサンプラこの同時確率密度関数の形態を判定するために、統計解
析装置２１は関数から「サンプルを取り出す」。この実
施形態では、サンプリングすべき同時確率密度関数は複
素多変量関数であるので、問題をより小さい次元性の確
率密度関数からサンプルを取り出す問題に分解するギブ
スサンプラを使用する。すなわち、ギブスサンプラは条
件付き密度から確率変量を次のように取り出すことによ
り動作を進行する。

【００５７】第１の反復法

【００５８】第２の反復法

【００５９】式中、（h⁰，r⁰，（σ_e ²）⁰，
（σ_ε ²）⁰，（σ_a ²）⁰，（σ_h ²）⁰，s（n）⁰）は先行
する音声のフレームの統計解析の結果から得られる初期
値であるが、先行フレームが存在しない場合、音声処理
の分野の当業者には良く知られている適切な値に設定で
きる。

【００６０】当業者には理解されるであろうが、それら
の条件付き密度は与えられた（すなわち、既知の）変数
の現在値を等式（１９）の密度関数の項に挿入すること
により得られる。条件付き密度p（a，k|．．．）の場
合、この結果、次のような等式が得られる。

【００６１】

【００６２】この等式を次のように簡単にすることがで
きる。

【００６３】

【００６４】これは、下記の共分散行列を有する標準ガ
ウス分布の形態である。

【００６５】

【００６６】aに関して等式（２１）の指数を微分し、
指数の微分を０に等しくさせるaの値を判定することに
より、このガウス分布の平均値を判定できる。この結
果、平均値は次の値となる。

【００６７】

【００６８】次に、この標準ガウス分布から１つのサン
プルを取り出して、a ^gを求める（gはギブスサンプラのg
回目の繰り返しである）。尚、モデルオーダ（k^g）は後
述するモデルオーダ選択装置により判定される。このガ
ウス分布からのサンプルの取り出しは、一様に分布する
乱数のベクトルを生成する乱数発生器を使用し、次に、
等式（２２）及び（２３）に示す共分散行列及び平均値
を使用して乱数を変換し、サンプルを生成することによ
り実行されれば良い。しかし、この実施形態では、平均
が０であり且つ分散は１であるガウス分布から乱数を生
成する乱数発生器を使用する。これにより、変換プロセ
スは等式（２２）に示す平均値を使用する単純なスケー
リングと、等式（２３）に示す平均値を使用するシフテ
ィングのプロセスに簡略化される。ガウス分布からサン
プルを取り出す技法は統計解析の分野では良く知られて
いるので、ここでは詳細な説明を省略する。詳細な説明
については、W．Press他著「Numerical Recipes in C」
（Cambridge UniversityPress，１９９２年）、特にそ
の第７章を参照のこと。

【００６９】しかし、当業者には理解されるであろう
が、このガウス分布からサンプルを取り出せるようにな
る前に、行列S及びベクトルs（n）がわかるように生音
声サンプルの推定値が利用できる状態になっていなけれ
ばならない。この実施形態において生音声サンプルのそ
のような推定値を求める方法については後に説明する。

【００７０】条件付き密度p（h，r|．．．）に関する同
様の解析により、これも標準ガウス分布であるが、その
共分散行列と平均値は次の通りであることが判明した。

【００７１】

【００７２】このガウス分布から先に説明した方法によ
りh ^gのサンプルを取り出すことができ、チャネルモデル
オーダ（r^g）は後述するモデルオーダ選択ルーチンを使
用して判定される。

【００７３】条件付き密度p（σ_e ²|．．．）に関する同
様の解析により、

【００７４】であることがわかり、式中、

【００７５】である。

【００７６】これを次のように簡略化することができ
る。

【００７７】これも次のようなパラメータを有する逆ガ
ンマ分布である。

【００７８】

【００７９】次に、まず、一様分布から乱数を生成し、
その後、等式（２７）に示すアルファパラメータ及びベ
ータパラメータを使用して乱数の変換を実行することに
より、この逆ガンマ分布からサンプルを取り出し、（σ
_e ²）^gを求める。

【００８０】条件付き密度p（σ_ε ²|．．．）に関する
同様の解析により、これも次のパラメータを有する逆ガ
ンマ分布であることが判明した。

【００８１】

【００８２】式中、

【００８３】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、（σ_ε ²）^gを求め
る。

【００８４】条件付き密度p（σ_a ²|．．．）に関する同
様の解析により、これも次のパラメータを有する逆ガン
マ分布であることが判明した。

【００８５】

【００８６】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、（σ_a ²）^gを求め
る。

【００８７】同様に、条件付き密度p（σ_h ²|．．．）も
次のパラメータを有する逆ガンマ分布である。

【００８８】

【００８９】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、（σ_h ²）^gを求め
る。

【００９０】当業者には理解されるであろうが、ギブス
サンプラは平衡状態（バーンインとして知られている）
に収束するまでに初期過渡期間を必要とする。最終的に
は、L回の繰り返しの後、サンプル（a ^L，k^L，h ^L，r^L，
（σ_e ²）^L，（σ_ε ²）^L，（σ _a ²）^L，（σ_h ²）^L，s
（n）^L）は等式（１９）に定義される同時確率密度関数
からのサンプルであると考えられる。この実施形態で
は、ギブスサンプラは入力音声のフレームごとに約１５
０回の繰り返しを実行し、初めの５０回の繰り返しから
のサンプルを廃棄して、残る繰り返しからのサンプルを
使用し、等式（１９）で定義される同時確率密度関数が
どのように見えるかを表すピクチャ（１組のヒストグラ
ム）を生成する。それらのヒストグラムから、アナログ
／デジタル変換器１７からの観測音声サンプル（y
（n））を最も良く表現する１組のAR係数（a）を判定す
る。また、ヒストグラムは、ギブスサンプラが音声の次
のフレームを処理するときにギブスサンプラの初期値と
して使用できる分散及びチャネルモデル係数（h）の適
切な値を判定する目的でも使用される。

【００９１】モデルオーダ選択先に述べた通り、ギブス繰り返しの間、ARフィルタのモ
デルオーダ（k）及びチャネルフィルタのモデルオーダ
（r）はモデルオーダ選択ルーチンを使用して更新され
る。この実施形態では、これは、Peter Greenの論文「R
eversiblejumpMarkov chain Monte Carlo Computation
and Bayesian model determination」（Biometrika、第
８２巻、７１１~７３２ページ、１９９５年）の中で説
明されている「Reversiblejump Markov chain Monte Ca
rlo computation（可逆飛び越しマルコフ連鎖モンテカ
ルロ計算）」から派生した技法を使用して実行される。

【００９２】図４は、ARフィルタモデルオーダ（k）に
ついてこのモデルオーダ選択ルーチンの間に実行される
処理ステップを示すフローチャートである。図示されて
いるように、ステップs１では、新たなモデルオーダ（k
₂）を提案する。この実施形態では、通常、新たなモデ
ルオーダはk₂＝k₁±１として提案されているが、まれに
k₂＝k₁±２として提案され、更にごくまれにk₂＝k₁±３
などとして提案される。これを実現するために、現在モ
デルオーダ（k₁）を中心とする分散ラプラシアン密度関
数から、このラプラシアン密度関数の分散を要求される
モデルオーダスペースのサンプリングの程度に従って先
験的に選択して、サンプルを取り出す。

【００９３】次に、処理はステップs３へ進み、モデル
オーダ変数（MO）をに等しく設定する。

【００９４】式中、比の項は現在モデルオーダ（k₁）
と、提案された新たなモデルオーダ（k₂）とについて
の、ギブスサンプラにより取り出された現在ARフィルタ
係数（a）に関して評価された等式（２１）に示す条件
付き確率の比である。k₂＞k₁であれば、まず、行列Sの
大きさを再設定しなければならず、次に、（新たな大き
さに設定された行列Sについて判定された）等式（２
２）及び（２３）により定義される平均ベクトル及び共
分散行列を有するガウス分布から新たなサンプルを取り
出して、新たなモデルオーダ（k₂）に対するARフィルタ
係数（a _＜1 _：k2 _＞）を求めなければならない。k₂＜k₁で
あれば、aベクトルから最後の（k₁−k₂）個のサンプル
を削除するだけで良い。等式（３１）における比が１よ
り大きい場合、それは提案されたモデルオーダ（k₂）が
現在モデルオーダより良いことを示唆し、逆に、比が1
より小さい場合には、それは現在モデルオーダが提案さ
れたモデルオーダより良いことを示唆している。しか
し、場合によってはそうでない場合もあるので、この実
施形態では、モデルオーダ変数（MO）を固定された閾値
１と比較することにより提案されたモデルオーダを受け
入れるか否かを決定するのではなく、ステップs５で、
モデルオーダ変数（MO）を０から１の間にある乱数と比
較する。モデルオーダ変数（MO）がこの乱数より大きけ
れば、処理はステップs７へ進み、モデルオーダを提案
されたモデルオーダ（k₂）に設定し、且つk₂の値と関連
するカウントを増分する。これに対し、モデルオーダ変
数（MO）が乱数より小さい場合には、処理はステップs
９へ進み、現在モデルオーダを維持し、且つ現在モデル
オーダ（k₁）の値と関連するカウントを増分する、そこ
で処理は終了する。

【００９５】このモデルオーダ選択ルーチンはARフィル
タモデルのモデルオーダと、チャネルフィルタモデルの
モデルオーダの双方について実行される。このルーチン
はギブス繰り返しのたびに実行されても良いが、それは
不可欠ではない。従って、この実施形態では、このモデ
ルオーダ更新ルーチンは３回のギブス繰り返しが終了す
るたびに実行される。

【００９６】シミュレーションスムーザ先に述べた通り、ギブスサンプラを使用してサンプルを
取り出せるようにするためには、ギブスサンプラで使用
されるs（n）、S及びYを生成するように生音声サンプル
の推定値が必要である。これらは条件付き確率密度関数
p（s（n）|．．．）から求めることができるであろう。
しかし、この実施形態では、S（n）の次元性が高いため
にこの方法は実行されない。従って、この実施形態で
は、生音声サンプルの必要な推定値を求めるために別の
技法を使用する。すなわち、この実施形態において、
「シミュレーションスムーザ」は、これらの推定値を求
めるために使用される。このシミュレーションスムーザ
は、Piet de Jongの論文「TheSimulation Smoother for
Time Series Models」（Biometrika（１９９５年）第
８２巻２，３３９~３５０ページ）により提案されてい
た。当業者には理解されるであろうが、シミュレーショ
ンスムーザはギブスサンプラより前に動作される。ま
た、生音声サンプルの推定値を更新するためにギブス繰
り返し中にも再び動作される。この実施形態では、シミ
ュレーションスムーザはギブス繰り返しが４回実行され
るたびに動作される。

【００９７】シミュレーションスムーザを動作させるた
めに、先に等式（４）及び（６）で定義したモデル等式
を次のように「状態空間」フォーマットに書き直さなけ
ればならない。

【００９８】

【００９９】式中、

【０１００】この状態空間表現によって、生音声ベクト
ル（s^（n））及びプロセス雑音ベクトル（e^（n））の
次元性をN×１にする必要はなくなり、モデルオーダk及
びrのうち大きい方のモデルオーダと同じ大きさにする
だけで良い。通常、チャネルモデルオーダ（r）の方がA
Rフィルタモデルオーダ（k）より大きい。従って、生音
声サンプルのベクトル（s^（n））及びプロセス雑音の
ベクトル（e^（n））をr×１にするだけで良いので、行
列A^~の次元性はr×rであれば良い。

【０１０１】シミュレーションスムーザは２つの段階、
すなわち、現在フレームの音声サンプルに対してカルマ
ンフィルタが動作される第１の段階と、現在フレームの
音声サンプルに対してカルマンフィルタ段階から得られ
たデータを使用して「平滑化」フィルタが動作される第
２の段階とを含む。図５は、シミュレーションスムーザ
により実行される処理ステップを示すフローチャートで
ある。図示されているように、ステップs２１では、シ
ステムは時間変数tを１に等しくなるように初期設定す
る。カルマンフィルタ段階の間、現在処理すべきフレー
ム中のN個の音声サンプルを時間の順に処理するため
に、この時間変数はt＝１からNまで変化される。ステッ
プs２１の後、処理はステップs２３へ進み、現在処理す
べき音声サンプル（y（t））について次のカルマンフィ
ルタ等式が計算される。

【０１０２】

【０１０３】式中、生音声サンプルの初期ベクトル（s^
（１））は、先行フレームの処理から得られた生音声サ
ンプルを含み（先行フレームが存在しない場合には、s
（ｉ）はｉ＜１に対して０に等しくなるように設定され
る）、P（１）はs^（１）の分散（先行フレームから求
められるか、又は当初はσ_e ²に設定できる）であり、ｈ
は先行フレームの処理から求められる現在のチャネルモ
デル係数の組であり（先行フレームが存在しない場合に
は、hの要素をその期待値、すなわち、０に設定でき
る）、y（t）は現在処理すべきフレームの現在音声サン
プルであり、Iは恒等行列である。次に、処理はステッ
プs２５へ進み、r×r行列L（t）と共にスケーラ値w
（t）及びd（t）を格納する（あるいは、カルマンフィ
ルタ利得ベクトルk_f（t）を格納し、そこからL（t）を
生成することもできるであろう）。その後、処理はステ
ップs２７へ進み、システムは、現在フレームの全ての
音声サンプルを処理し終わったか否かを判定する。まだ
処理が終了していなければ、処理はステップs２９へ進
み、現在フレームの次のサンプルが同様にして処理され
るように、時間変数tを１増分する。現在フレームのN個
のサンプルの全てがこのようにして処理され、対応する
値が格納されたならば、シミュレーションスムーザの第
１の段階は完了する。

【０１０４】次に処理はステップs３１へ進み、シミュ
レーションスムーザの第２の段階が開始される。そこ
で、平滑化フィルタは現在フレームの音声サンプルを逆
の順序で処理する。図示されているように、ステップs
３１では、システムは、現在処理すべき音声サンプルに
対して、現在処理すべき音声サンプルについて計算さ
れ、格納されているカルマンフィルタ変数と共に、下記
の平滑化等式を計算する。

【０１０５】

【０１０６】式中、η（t）は平均が０であり且つ共分
散行列C（t）を有するガウス分布から取り出されるサン
プルであり、初期ベクトルr（t＝N）及び初期行列U（t
＝N）は共に０に設定され、s（０）は先行フレームの処
理から求められる（先行フレームが存在しない場合に
は、０に等しくなるように設定できる）。次に処理はス
テップs３３へ進み、現在処理すべき音声サンプルのプ
ロセス雑音の推定値（e^~（t））及び現在処理すべき音
声サンプルの生音声サンプルの推定値（s^（t））を格
納する。その後、処理はステップs３５へ進み、システ
ムは、現在フレームの全ての音声サンプルが処理され終
わったか否かを判定する。まだ処理が終了していなけれ
ば、処理はステップs３７へ進み、現在フレームの先行
サンプルが同じようにして処理されるように時間変数t
を１減分する。現在フレームの全てのN個のサンプルが
すべてこのようにして処理され終わり、対応するプロセ
ス雑音及び生音声サンプルが格納されたならば、シミュ
レーションスムーザの第２の段階は完了し、s（n）の推
定値は生成されたことになる。

【０１０７】等式（４）及び（８）に示すように、行列
S及び行列Yはs（n）における生音声サンプルに加えて、
生音声サンプルs（n−N−１）からs（n−N−k＋１）及
びs（n−N−１）からs（n−N−r＋１）をそれぞれ要求
する。これらの追加の生音声サンプルは音声の先行フレ
ームの処理から得られ、先行フレームが存在しない場合
には、０に設定できる。これらの生音声サンプルの推定
値によって、上述の確率密度関数からサンプルを取り出
すためにギブスサンプラを動作させることができる。

【０１０８】統計解析装置−動作以上、統計解析装置２１の基礎を成す理論を説明した。
次に、図６から図８を参照して統計解析装置２１の動作
を説明する。

【０１０９】図６は、この実施形態の統計解析装置２１
の主な構成要素を示すブロック線図である。図示されて
いるように、統計解析装置２１は先に説明したギブスサ
ンプラ４１と、シミュレーションスムーザ４３（カルマ
ンフィルタ４３−１及び平滑化フィルタ４３−２を含
む）と、モデルオーダ選択器４５とを具備する。更に、
処理すべき現在フレームの音声サンプルを受け取るメモ
リ４７と、ギブスサンプラ４１及びモデルオーダ選択器
４５により生成されたデータを処理するデータ解析装置
４９と、統計解析装置２１の動作を制御する制御装置５
０とを具備する。

【０１１０】図６に示すように、メモリ４７は不揮発性
メモリエリア４７−１と、作業用メモリエリア４７−２
とを含む。不揮発性メモリエリア４７−１は、ギブスサ
ンプラ４１により使用されるべき、先の等式（１９）に
示す同時確率密度関数、分散及び平均値に関する等式、
及び上述の条件付き確率密度関数に関する先の等式（２
２）から（２４）及び（２７）から（３０）に示す逆ガ
ンマパラメータの等式を格納するために使用される。不
揮発性メモリエリア４７−１は、更に、シミュレーショ
ンスムーザ４３により使用されるべき、先の等式（３
３）に示すカルマンフィルタの等式と、先の等式（３
４）に示す平滑化フィルタの等式とを格納する。

【０１１１】図７は、作業用メモリエリア（RAM）４７
−２に格納されるパラメータを示す概略図である。図示
されているように、RAMは、現在処理すべきフレーム
（f）についてアナログ／デジタル変換器１７により出
力される音声サンプルy_f（１）からy_f（N）を格納する
ストア５１を含む。先に述べた通り、これらの音声サン
プルはギブスサンプラ４１とシミュレーションスムーザ
４３の双方で使用される。RAM４７−２は、モデルパラ
メータの初期推定値（g＝０）と、現在処理すべきフレ
ームについてギブスサンプラ４１により前述の条件付き
確率密度関数から取り出される各パラメータのM個のサ
ンプルg＝１からM）とを格納するストア５３を更に含
む。先に述べた通り、この実施形態では、ギブスサンプ
ラ４１は初めの５０個のサンプルを放棄して、入力音声
のフレームごとに１５０回の繰り返しを実行するので、
Mは１００である。RAM４７−２は、前記カルマンフィル
タ４３−１により音声の現在フレームにおける音声サン
プルの処理中に計算される、t＝１からNのときのＷ
（t）、d（t）及びL（t）を格納するストア５５を更に
含む。RAM４７−２は、生音声サンプル（s^_f (t)）の推
定値と、前述のように平滑化フィルタ４３−２により発
生するプロセス雑音（e^_f(t)）の推定値とを格納するス
トア５７を更に含む。RAM４７−２は、ARフィルタモデ
ル及びチャネルモデルのモデルオーダが更新されるとき
にモデルオーダ選択器４５により生成されるモデルオー
ダカウントを格納するストア５９を更に含む。

【０１１２】図８は、この実施形態において、統計解析
装置２１の処理動作を制御するために制御装置５０によ
り使用される制御プログラムを示す流れ図である。図示
されているように、ステップs４１では、制御装置５０
は次に処理すべき音声サンプルのフレームをバッファ１
９から検索し、それらをメモリストア５１に格納する。
処理は続いてステップs４３へ進み、チャネルモデル、
生音声サンプル、プロセス雑音統計値及び測定雑音統計
値の初期推定値を設定し、ストア５３に格納する。これ
らの初期推定値は先行する音声のフレームの処理中に得
られた値になるように設定されるか、又は先行する音声
のフレームが存在しない場合には、その期待値（０であ
っても良い）に設定される。その後、処理はステップs
４５へ進み、先に説明したように生音声サンプルの推定
値を求めるようにシミュレーションスムーザ４３が動作
される。次に処理はステップs４７へ進み、ステップs４
５で得られた生音声サンプルを使用してチャネルモデ
ル、音声モデル、プロセス雑音統計値及び測定雑音統計
値を更新するために、ギブスサンプラ４１の１回の繰り
返しが実行される。更新後のそれらのパラメータ値はメ
モリストア５３に格納される。

【０１１３】次に、処理はステップs４９へ進み、制御
装置５０はARフィルタモデル及びチャネルモデルのモデ
ルオーダを更新すべきか否かを判定する。先に述べた通
り、この実施形態では、それらのモデルオーダは３度目
のギブズ繰り返しのたびに更新される。モデルオーダを
更新すべきである場合、処理はステップs５１へ進み、
モデルオーダ選択器４５を使用してARフィルタモデル及
びチャネルモデルのモデルオーダを前述のようにして更
新する。ステップs４９で制御装置５０がモデルオーダ
を更新すべきでないと判定した場合には、処理はステッ
プs５１を飛び越してステップs５３へ進む。ステップs
５３では、制御装置５０は次のギブス繰り返しを実行す
べきか否かを判定する。次の繰り返しを実行すべき場
合、処理は決定ブロックs５５へ進み、制御装置５０は
生音声サンプル（s（t））の推定値を更新すべきか否か
を決定する。生音声サンプルを更新すべきでない場合、
処理はステップs４７に戻って、次のギブス繰り返しが
実行される。

【０１１４】先に述べた通り、この実施形態では、生音
声サンプルを更新するために、４度目のギブス繰り返し
のたびにシミュレーションスムーザ４３が動作される。
従って、ステップs５５で制御装置５０が音声サンプル
の更新後に４度目のギブス繰り返しが行われたと判定し
た場合には、処理はステップs４５に戻り、再びシミュ
レーションスムーザを動作させて、生音声サンプル（s
（t））の新たな推定値を提供する。制御装置５０が要
求される１５０回のギブス繰り返しの実行が完了したと
判定したならば、制御装置５０は処理をステップs５７
へ進ませ、データ解析装置４９はモデルオーダ選択器４
５により生成されたモデルオーダカウントを解析して、
現在処理すべき音声のフレームを最も良く表現するARフ
ィルタモデル及びチャネルモデルのモデルオーダを判定
する。次に、処理はステップs５９へ進み、データ解析
装置４９はギブスサンプラ４１により条件付き密度から
取り出されたサンプルを解析して、現在処理すべき音声
のフレームを最も良く表現するARフィルタ係数（a）
と、チャネルモデル係数（h）と、それらの係数の分散
と、プロセス雑音分散及び測定雑音分散とを判定する。
次に、処理はステップｓ６１に進み、制御装置５０は処
理すべき音声が更に存在するか否かを判定する。処理す
べき音声が他にも存在する場合には、処理はステップs
４１に戻り、次の音声のフレームに対して上記のプロセ
スを繰り返す。全ての音声がこのようにして処理され終
わったならば、処理は終了する。

【０１１５】データ解析装置次に、図９を参照してデータ解析装置４９を更に詳細に
説明する。先に述べた通り、データ解析装置４９は、ま
ず、ステップs５７で、現在処理すべき音声のフレーム
を最も良く表現するARフィルタモデル及びチャネルモデ
ル双方のモデルオーダを判定する。データ解析装置４９
は、モデルオーダ選択器４５がステップs５１で動作さ
れたときにモデルオーダ選択器４５により生成されてい
たカウントを使用してこれを実行する。これらのカウン
トはRAM４７−２のストア５９に格納されている。この
実施形態では、最良のモデルオーダを判定するとき、デ
ータ解析装置４９は最高のカウントを有するモデルオー
ダを識別する。図９ａは、ARフィルタモデルのモデルオ
ーダ（k）について生成されたカウントの分布を示すヒ
ストグラムの一例である。従って、この例においては、
データ解析装置４９はARフィルタモデルの最良のモデル
オーダを５として設定していると考えられる。データ解
析装置４９はチャネルモデルのモデルオーダ（r）につ
いて生成されたカウントも同様にして解析し、チャネル
モデルの最良のモデルオーダを判定する。

【０１１６】データ解析装置４９は、最良のモデルオー
ダ（k及びr）を判定した後、ギブスサンプラ４１により
生成され、RAM４７−２のストア５３に格納されている
サンプルを解析して、それらのサンプルを最も良く表現
しているパラメータ値を判定する。データ解析装置４９
は、各々のパラメータについてヒストグラムを判定し、
そこから最も良く表現しているパラメータ値を判定する
ことによりこれを実行する。ヒストグラムを生成するた
めに、データ解析装置４９はギブズサンプラにより取り
出された最大サンプル値及び最小サンプル値を判定し、
この最小値と最大値との間のパラメータ値の範囲を所定
の数の部分範囲、すなわち、ビンに分割する。次に、デ
ータ解析装置４９は各々のサンプル値を適切なビンに割
り当て、各ビンに割り当てられたサンプルの数をカウン
トする。次に、それらのカウントを使用してサンプルの
加重平均を計算し（サンプルごとに使用される重み付け
はそれに対応するビンのカウントによって決まる）、最
も良く表現しているパラメータ値（最大平均２乗推定値
（MMSE）として知られている）を判定する。図９ｂは、
プロセス雑音の分散（σ_e ²）について生成されるヒスト
グラムの一例を示し、そこからデータ解析装置４９は、
サンプルを表現する分散は０．３１４９であると判定す
る。

【０１１７】ARフィルタ係数（ｉ＝1からkのときの
a_ｉ）を判定する際、データ解析装置４９は係数ごとに
サンプルのヒストグラムを個別に判定し、解析する。図
９ｃは、第３のARフィルタ係数（a₃）について求められ
たヒストグラムの一例を示し、そこからデータ解析装置
４９は、サンプルを表現する係数が−０．４９７７であ
ると判定する。

【０１１８】この実施形態では、データ解析装置４９
は、図２に示す係数変換器２３に供給されたARフィルタ
係数を出力するだけである。データ解析装置４９により
判定されたその他のパラメータ値は、次の音声のフレー
ムの処理中に使用するため、RAM４７−２に格納され
る。先に述べた通り、統計解析装置２１により出力され
たARフィルタ係数は係数変換器２３に入力され、係数変
換器２３はそれらの係数を、後に認識結果を生成するた
めに音声認識装置２５により格納されている音声モデル
と比較されるケプストラム係数に変換される。

【０１１９】当業者には理解されるであろうが、統計解
析技法を利用して、入力音声信号を表現する複数組のAR
フィルタ係数を判定する音声処理技法を説明してきた。
この技法は、ARフィルタ係数を判定するに際して最大尤
度推定装置を採用していた従来の技法と比較してより頑
丈であり且つ正確である。それは、各フレームの統計解
析で先行フレームの処理から得られた知識を使用するた
めである。更に、前述のように解析を実行する場合、AR
フィルタモデルのモデルオーダは一定であるとは想定さ
れず、フレームごとに変化しても差し支えない。このよ
うに、最適数のARフィルタ係数を使用して、各フレーム
内の音声を表現することができる。その結果、統計解析
装置２１により出力されるARフィルタ係数は対応する入
力音声をより正確に表現するのである。また、使用され
る基礎プロセスモデルは音声源をチャネルから分離する
ので、判定されるARフィルタ係数は実際の音声をより良
く表現し、チャネルのひずみ効果を取り込みにくくなっ
ている。更に、各々のパラメータについて分散情報を利
用できるため、各々のパラメータ推定値の信頼性を指示
できる。これは、パラメータ値の点推定値を判定する最
大尤度方式及び線形最小予測解析などの最小２乗方式と
は対照的である。

【０１２０】複数話者複数マイクロホン次に、各話者からの音声を分離し、モデル化するために
類似の統計解析を使用する複数話者複数マイクロホンシ
ステムについて説明する。この場合にも、理解を容易に
するため、まず、一般的な複数話者複数マイクロホンシ
ステムに話を広げる前に、話者が２人、マイクロホンが
２台のシステムを説明する。

【０１２１】図１０は、本発明を具現化した統計解析装
置を採用する音声認識システムを示す概略ブロック線図
である。図示されているように、システムは、この実施
形態では２人の話者（図示せず）からの音声を等価の電
気信号に変換する２台のマイクロホン７−１及び７−２
を有する。電気信号はそれぞれ対応するフィルタ回路１
５−１及び１５−２に供給される。この実施形態では、
フィルタリング後の信号は次にそれぞれ対応するアナロ
グ／デジタル変換器１７−１及び１７−２により１６kH
zのサンプリング速度で対応するデジタル信号に変換さ
れるので、フィルタ回路１５は８kHzを越える周波数を
除去する。アナログ／デジタル変換器１７からのデジタ
ル化音声サンプルはバッファ１９へ送られる。統計解析
装置２１は、２台のマイクロホンからの入力音声信号の
連続するフレームの中の音声を解析する。この実施形態
では、マイクロホンは２台であるため、処理すべきフレ
ームの系列は２つである。この実施形態においては、時
間tにおけるマイクロホン７−１からの音声のフレーム
が時間tにマイクロホン７−２から受信された音声のフ
レームと共に処理されるように、２つのフレーム系列は
一緒に処理される。また、この実施形態でも、音声のフ
レームは重なり合っておらず、２０msの持続時間を有す
る。アナログ／デジタル変換器１７のサンプリング速度
が１６kHzであるとき、フレームの持続時間が２０msで
あると、統計解析装置２１は６４０個のサンプル（サン
プル３２０個ずつの２つのフレームに相当する）のブロ
ックを処理することになる。

【０１２２】入力音声に対して統計解析を実行するため
に、統計解析装置２１は、先に説明した単一話者単一マ
イクロホンシステムの基礎プロセスに類似する基礎プロ
セスがあると仮定する。この実施形態で使用する特定の
モデルを図１１に示す。図示されているように、プロセ
スは２つの音声源３１−１及び３１−２によりモデル化
されており、これらの音声源は、時間t＝nのとき、生音
声サンプルs¹（n）及びs²（n）をそれぞれ生成する。同
様に、この実施形態においても、各々の音声源３１は自
動回帰（AR）プロセスによりモデル化される。言い換え
れば、音声源３１−１及び３１−２ごとにそれぞれ対応
する等式（１）が存在し、それにより、各々が対応する
モデルオーダk¹及びk²を有する２つの未知のARフィルタ
係数ベクトルa ¹及びa ²を定義する。これらの音声源モデ
ルは更に対応するプロセス雑音成分e¹（n）及びe²（n）
を有する。

【０１２３】図１１に示すように、モデルは、更に、各
々の音声源３１により生成される音声が双方のマイクロ
ホン７により受信されると想定する。従って、各音声源
３１と各マイクロホン７との間にはそれぞれ対応するチ
ャネル３３−１１から３３−２２が存在している。ま
た、各マイクロホンにより受信される信号にはそれぞれ
対応する測定雑音成分ε^１（n）及びε²（n）が加算さ
れる。更に、この実施形態においても、統計解析装置２
１は各々のチャネルを移動平均（MA）フィルタによりモ
デル化する。従って、時間t＝nにおいてマイクロホン7
−1から受信される信号は次のように表される。

【０１２４】

【０１２５】式中、例えば、h₁₁₂は時間t＝２における
第１の音声源３１−１とマイクロホン７−１との間のチ
ャネルのチャネルフィルタ係数であり、r₂₁は第２の音
声源３１−２とマイクロホン７−１との間のチャネルの
モデルオーダである。他方のマイクロホン７−２から受
信される信号を表現するための類似の等式が存在する。

【０１２６】この実施形態では、統計解析装置２１は２
つの音声源について、現在処理すべきフレームにおいて
２台のマイクロホンからの観測信号サンプルを最も良く
表現するARフィルタ係数の値を判定しようとする。統計
解析装置２１は、２つのアナログ／デジタル変換器１７
−１及び１７−２から出力される観測信号サンプルが与
えられたときに、音声モデル、チャネルモデル、生音声
サンプル及び雑音統計値の同時確率密度関数を最大にす
るような２人の話者のARフィルタ係数（a ¹及びa ²）を判
定することにより、すなわち、

【０１２７】を判定することによりこれを実行する。

【０１２８】当業者には理解されるであろうが、これは
先に説明した単一話者単一マイクロホンシステムとほぼ
同じ問題であるが、より多くの数のパラメータを含む。
この場合にも、これを計算するために、ベイズの法則を
使用して上記の確率を再配列し、先の等式（１０）に示
したものに類似する等式を求める。唯一の相違点は、分
母により多くの同時確率密度関数が存在することであ
る。すなわち、この実施形態において考慮する必要のあ
る同時確率密度関数は次のようになる。

【０１２９】

【０１３０】音声源とチャネルは互いに無関係であるの
で、これらの成分の大半は先に単一話者単一マイクロホ
ンシステムに関して示した確率密度関数と同一である。
しかし、アナログ／デジタル変換器１７から出力される
音声サンプルのベクトル（y ¹（n）及びy ²（n））に関し
ては、それらの信号が双方の音声源からの成分を含んで
いるために、これは当てはまらない。次に、アナログ／
デジタル変換器１７−１から出力される音声サンプルの
同時確率密度関数を更に詳細に説明する。

【０１３１】p（y ¹（n）|s ¹（n），s ²（n），h ₁₁，
h ₂₁，r₁₁，r₂₁，σ_ε１ ²）現在処理すべきフレームにお
いてアナログ／デジタル変換器１７−１から出力される
全ての音声サンプルを考える（また、h₁₁₀及びh₂₁₀を１
に等しくなるように設定する）と、

【０１３２】式中、

【０１３３】前述の単一話者単一マイクロホンシステム
の場合と同様に、アナログ／デジタル変換器１７−１か
ら出力される音声サンプルの同時確率密度関数（y
¹（n））は、先の等式（４）を使用して関連する測定雑
音（σ_ε１ ²）の同時確率密度関数から判定される。同
様に、ヤコビアンは1になり、その結果、同時確率密度
関数は次のような形態をとる。

【０１３４】

【０１３５】当業者には理解されるであろうが、これは
前述の場合と同じようにガウス分布である。この実施形
態では、統計解析装置２１は、２つのチャネルを介して
マイクロホン７−１に至る生音声データは互いに無関係
であると想定する。これにより、対角成分Y₁ ^TY₂及びY₂ ^T
Y₁を０であると想定できるので、上記のガウス分布を簡
略化することができる。すなわち、

【０１３６】となり、これはマイクロホン７−１に至る２つのチャネ
ルの各々に対して１つずつの2つのガウシアンの積であ
る。また、初期項ｑ ¹（n）^T ｑ ¹（n）は定数であり、従
って、確率密度関数に対して対応するスケーリングファ
クタを生じる結果しか生まないため、この項は無視され
ていることに注意すべきである。この簡略化は、この実
施形態では、等式（３８）により定義されるより大きな
ガウシアンからまとめて2つのチャネルの単一のサンプ
ルを取り出さなければならない場合より、等式（３９）
に示される２つのガウシアンの各々から１つのサンプル
を個別に取り出すほうがより容易であるために実行され
るのである。

【０１３７】この後、ギブスサンプラを使用して、単一
話者単一マイクロホンシステムの場合と同じように組み
合わせ同時確率密度関数からサンプルを取り出す。ただ
し、この実施形態においては、パラメータの数が多くな
っているので、サンプリングすべき条件付き密度も多く
なる。同様に、モデルオーダ選択器を使用して、ギブス
繰り返しの間に各々のモデルオーダ（K¹，K²及びr₁₁−r
₂₂）を調整する。先に説明した単一音声源システムと同
じように、ギブズサンプリングには双方の音声源３１−
１及び３１−2からの生音声サンプルの推定値が必要で
あり、それらはシミュレーションスムーザを使用して推
定される。２人の話者と２台のマイクロホンを含むシス
テムに関わる状態空間等式は単一話者単一マイクロホン
システムの等式とはわずかに異なるので、以下に再現す
る。

【０１３８】式中、

【０１３９】式中、mはARフィルタモデルオーダとMAフ
ィルタモデルオーダのうち大きい方である。同様にこれ
により、わずかに複雑さを増したカルマンフィルタ等式
及び平滑化フィルタ等式が得られ、完璧を期するため、
それらを以下に示す。

【０１４０】カルマンフィルタ等式

【０１４１】平滑化フィルタ等式

【０１４２】この話者２人、マイクロホン２台のシステ
ムで統計解析装置２１により実行される処理ステップ
は、先に図８及び図９を参照して説明した単一話者単一
マイクロホンシステムで使用されていた処理ステップと
同一であるので、ここでは繰り返して説明しない。

【０１４３】上記の話者２人、マイクロホン２台のシス
テムにおいては、システムは話者は２人であると想定し
ていた。一般のシステムでは、任意の時点における話者
の数は未知である。図１２は、複数話者複数マイクロホ
ン音声認識システムを示すブロック線図である。図１２
に示すように、システムは、各々が未知の数の音声源
（図示せず）から音声信号を受信する複数台のマイクロ
ホン７−１から７−jを具備する。マイクロホン７によ
り出力される対応する電気信号はそれぞれ対応するフィ
ルタ１５を通過した後、対応するアナログ／デジタル変
換器１７によりデジタル化される。各々のマイクロホン
７からのデジタル化音声信号は先の場合と同様にバッフ
ァ１９に格納される。図１２に示すように、バッファ１
９に格納されている音声は複数（m）の統計解析装置２
１へ送られる。各々の統計解析装置は音声サンプルの現
在フレームを下記の確率密度関数に適用し、次にそこか
ら先に説明した方式によりサンプルを取り出すようにプ
ログラムされている。

【０１４４】

【０１４５】式中、N_SENはマイクロホン７の数であり、
Zは話者の人数（これは統計解析装置２１ごとに異な
り、モデル比較装置６４により設定される）である。こ
のように、各々の統計解析装置２１は同じ入力データ
（マイクロホンからの音声サンプル）を使用して類似の
解析を実行するが、その入力データが異なる数の話者に
より生成されたと想定する。例えば、統計解析装置２１
−１はその時点で話をしている話者が３人であると想定
し、統計解析装置２１−２はその時点で話をしている話
者が５人であると想定するようにプログラムされても良
い。

【０１４６】統計解析装置２１による音声の各フレーム
の処理中、ギブズサンプルにより取り出されるパラメー
タサンプルの一部はモデル比較装置６４に供給され、そ
こで、モデル比較装置６４は、現在処理すべきフレーム
において音声を最も良くモデル化する解析装置を識別す
ることができる。この実施形態では、ギブス繰り返しが
５回実行されるごとに、そこから取り出されたサンプル
はモデル比較装置６４へ出力され、上記の判定が実行さ
れる。各々の統計解析装置は、上記の確率密度関数のサ
ンプリングを終了した後、先に説明したようにプログラ
ムされた数の話者について平均ARフィルタ係数を判定
し、それらの係数を選択装置６２へ出力する。同時に、
モデル比較装置６４は、最良の解析装置を判定した後、
選択装置６２に制御信号を供給する。選択装置６２はこ
の解析装置２１により出力されたARフィルタ係数を音声
認識装置２５に供給させ、そこで音声モデル２７と比較
させる。この実施形態では、モデル比較装置６４は、各
フレームの処理が完了した後に、各々の統計解析装置が
モデル化するようにプログラムされている話者の人数が
連続して適応されるように、各々の統計解析装置２１を
再プログラムするように構成されている。このようにし
て、例えば、時間によって話をする参加者の人数がかな
り変動する可能性のある会議などでシステムを使用する
ことが可能になる。

【０１４７】図１３は、この実施形態において各々の統
計解析装置２１により実行される処理ステップを示す流
れ図である。図１３と図８を比較するとわかるように、
採用されている処理ステップは、ステップS５２、S５４
及びS５６が追加されている点を除いて上記の実施形態
の処理ステップとほぼ同じである。これらのステップに
ついての説明は、以下の通りである。図１３に示すよう
に、ステップs５４が次のギブス繰り返しを実行すべき
であると判定した場合、処理はステップs５２へ進み、
各々の統計解析装置２１−１は、最前のギブス繰り返し
から得られたパラメータサンプルをモデル比較装置６４
へ送信すべきか否かを判定する。先に述べた通り、モデ
ル比較装置６４は、ギブス繰り返しが５回実行されるた
びに統計解析装置により生成されたサンプルを比較す
る。従って、サンプルを比較すべき場合、処理はステッ
プS５４へ進み、各々の統計解析装置２１−１は現在パ
ラメータサンプルの組をモデル比較装置６４へ送信す
る。次に、処理は前述のようにステップS５５へ進む。
統計解析装置２１が現在フレームについてサンプリング
動作を完了すると、処理はステップS５６へ進み、各々
の統計解析装置２１−１は、前述のようにステップs５
７へ進む前に現在フレームに関わるギブス繰り返しを完
了したことをモデル比較装置６４に報知する。

【０１４８】次に、図１４及び図１５を参照して、この
実施形態においてモデル比較装置６４により実行される
処理ステップを説明する。図示されているように、図１
４は、モデル比較装置６４がギブス繰り返し中に各々の
統計解析装置２１からサンプルを受信したときにモデル
比較装置６４により実行される処理ステップを示すフロ
ーチャートである。図示されているように、ステップS
７１では、モデル比較装置６４は各々の統計解析装置２
１から受信したサンプルを使用して、等式（４３）に示
される確率密度関数を評価する。次に、処理はステップ
S７３へ進み、モデル比較装置６４は評価された確率密
度関数を比較して、どの統計解析装置が最高の評価を与
えるかを判定する。次に、処理はステップS７５へ進
み、モデル比較装置６４は最高の評価を有する統計解析
装置２１と関連するカウントを１増分する。そこで処理
は終了する。

【０１４９】全ての統計解析装置２１が現在処理すべき
音声のフレームについて全てのギブズ繰り返しを実行し
終わったならば、モデル比較装置は図１５に示す処理ス
テップを実行する。すなわち、ステップS８１では、モ
デル比較装置６４は各々の統計解析装置と関連する累積
カウントを解析して、最高のカウントを有する解析装置
を判定する。次に、処理はステップS８３へ進み、モデ
ル比較装置６４は、最高のカウントを有する統計解析装
置により生成されたARフィルタ係数を選択装置６２を介
して音声認識装置２５に供給するために、選択装置６２
へ制御信号を出力する。次に、処理はステップS８５へ
進み、モデル比較装置６４は各々の統計解析装置２１の
設定を調整する必要があるか否か、特に各々の統計解析
装置が音声の中に存在すると想定している話者の人数を
調整する必要があるか否かを判定する。

【０１５０】当業者には理解されるであろうが、複数話
者複数マイクロホン音声認識システムをここまで説明し
てきた。このシステムは、先に単一話者単一マイクロホ
ンシステムについて説明した利点を全て備えている。更
に、複数の音声源からの音声を同時に分離し、モデル化
できるという別の利点も有する。また、音声源の互いに
対する又はマイクロホンに対する物理的分離に制限がな
い。更に、システムはマイクロホン相互間の物理的分離
を知る必要がなく、マイクロホンの数が音声源の数より
少ない場合であっても、各音声源からの信号を分離する
ことが可能である。

【０１５１】他の実施形態上記の実施形態では、入力音声を表現するAR係数を生成
するために音声認識システムのプリプロセッサとして統
計解析装置を使用していた。また、統計解析装置はその
他にもいくつかのパラメータ値（プロセス雑音分散及び
チャネルモデル係数など）を生成していたが、それらの
値は統計解析装置により出力されることがなかった。当
業者には理解されるであろうが、統計解析装置により計
算されるAR係数や、その他のパラメータの一部を他の目
的のために利用することも可能である。例えば、図１６
は、音声認識装置２５と音声モデル２７がAR係数に基づ
いて動作するために係数変換器が設けられていないとい
う点を除いて図１０に示す音声認識システムに類似する
音声認識システムを示す。図１６に示す音声認識システ
ムは、追加の構成要素として、統計解析装置２１により
生成されるARフィルタモデルオーダ（k）と共にARフィ
ルタ係数（a）を受信する音声検出装置６１を更に有
し、音声検出装置６１は、マイクロホン７から受信され
た信号の中に音声が存在する時点をそれらのARフィルタ
モデルオーダ及びARフィルタ係数から判定するように動
作可能である。ARフィルタモデルオーダ及びARフィルタ
係数値は、音声が存在している間、音声がないときに比
べて大きくなるため、音声検出装置はこの判定を実行す
ることができる。従って、ARフィルタモデルオーダ
（k）及び／又はARフィルタ係数値を適切な閾値と比較
することにより、音声検出装置６１は入力信号の中に音
声が存在するか否かを判定することができるのである。
音声検出装置６１は、音声の存在を検出すると、適切な
制御信号を音声認識装置２５へ出力し、音声認識装置に
統計解析装置２１から受信したAR係数の処理を開始させ
る。同様に、音声検出装置６１は、音声の終わりを検出
すると、適切な制御信号を音声認識装置２５へ出力し、
音声認識装置に統計解析装置２１から受信したAR係数の
処理を停止させる。

【０１５２】上記の実施形態においては、音声認識シス
テムは、入力音声の統計解析を実行する特定の音声事前
処理フロントエンドを有するものとして説明されてい
た。当業者には理解されるであろうが、この事前処理は
音声認識システム以外の音声処理システムでも利用でき
る。例えば、図１７に示すように、統計解析装置２１は
話者照合システム６５に対するフロントエンドを形成し
ても良い。この実施形態では、話者照合システム６５は
統計解析装置２１により出力される複数の異なる話者に
関するARフィルタ係数の系列をあらかじめ格納されてい
た話者モデル６７と比較して、受信した音声が既知のユ
ーザに対応するか否かを判定する。

【０１５３】図１８は、統計解析装置２１の別の適用用
途を示す。すなわち、図１８は音響分類システムを示
す。統計解析装置２１は、先に説明したようにいくつか
の音響源（音声であっても良く、あるいは音声でなくと
も良い）のそれぞれについてARフィルタ係数を生成する
ために使用される。それらの係数は音響分類システム６
６に提供され、音響分類システム６６は各音響源のAR係
数をあらかじめ格納されていた音響モデル６８と比較し
て、分類結果を生成する。このようなシステムは、例え
ば、打楽器の音と、木管楽器の音と、金管楽器の音と、
音声とを区別し、識別する目的で使用されても良い。

【０１５４】図１９は、統計解析装置２１の別の適用用
途を示す。すなわち、図１９は音声符号化送信システム
を示す。統計解析装置２１は、先に説明したように話者
ごとのＡＲフィルタ係数を生成するために使用される。
それらの係数はチャネル符号器に提供され、チャネル符
号器は、ＡＲフィルタ係数が通信チャネルを介して送信
するのにより適した形態となるようにＡＲフィルタ係数
の系列を符号化する。符号化されたＡＲフィルタ係数は
送信器７３へ送信され、送信器７３では、符号化データ
を使用して搬送波信号を変調する。変調後の搬送波信号
は遠隔受信器７５へ送信される。受信器７５は受信した
信号を復調して符号化データを回復し、符号化データは
復号器７６により復号される。復号器により出力された
ＡＲフィルタ係数の系列は、それらのＡＲフィルタ係数
の系列を格納されている基準モデル（図示せず）と比較
して認識結果を生成する音声認識装置７７へ送信される
か、又は音声を再生し、それをスピーカ８１を介して出
力する音声合成装置７９へ送信される。図示されている
ように、音声合成装置７９への印加に先立って、ＡＲフ
ィルタ係数の系列はオプションの処理装置８３（破線に
より示す）を通過しても良い。この処理装置は、合成さ
れる音声の特性を操作するために使用される。前述の統
計解析装置を使用することの重大な利点は、ＡＲフィル
タモデルのモデルオーダが一定であるとは想定せず、フ
レームごとにＡＲモデルオーダが変化するという点であ
る。このようにして、最適の数のＡＲフィルタ係数を使
用して、各フレーム内で各話者からの音声を表現する。
これに対し、線形予測解析においては、ＡＲフィルタ係
数の数は一定であると想定しているので、従来の技法
は、情報が失われないように保証するために音声を順次
過剰にパラメータ化する傾向にある。その結果、上述の
統計解析によれば、送信器から受信器へ送信されるべき
データの量は、ＡＲフィルタモデルのサイズが一定であ
ると想定する従来のシステムと比べて少なくなる。

【０１５５】図２０は、上述の統計解析装置２１を使用
する別のシステムを示す。図２０に示すシステムは、デ
ータファイルに追加するための音声注釈データを自動的
に生成する。このシステムは、例えば、何人かの参加者
が関連する会議の音声注釈データを生成するために使用
されても良く、この場合、データファイル９１は会議の
記録音響データである。使用中、会議が進行するにつれ
て、統計解析装置２１はマイクロホンから受信された音
声信号を処理して、各々の参加者からの音声信号を分離
する。次に、各参加者の音声に、話している人を識別す
る識別子によってタグ付けし、タグ付けされた音声は音
声認識装置９７へ送信される。音声認識装置９７は話者
ごとの語及び／又は音素データを生成する。この語及び
／又は音素データはデータファイル注釈装置９９へ送信
され、データファイル注釈装置９９はデータファイル９
１に語及び／又は音素データによって注釈付けして、注
釈付きデータファイルをデータベース１０１に格納す
る。このようにすれば、会議後、ユーザは会議中に特定
の参加者により論じられた特定の話題を求めてデータフ
ァイル９１を探索することができる。

【０１５６】更に、この実施形態では、統計解析装置２
１は話者ごとのＡＲフィルタ係数の分散を出力する。こ
の分散情報は音声品質アクセッサ９３へ送信される。音
声品質アクセッサ９３はこの分散データから各参加者の
音声の品質の尺度を判定する。当業者には理解されるで
あろうが、概して、入力音声が高品質である（すなわ
ち、高レベルの背景雑音により妨害されていない）場
合、この分散は小さく、高レベルの雑音が存在する場合
には、この分散は大きくなるはずである。音声品質アク
セッサ９３は品質標識をデータファイル注釈装置９９へ
出力し、データファイル注釈装置はデータファイル９１
をこの音声品質情報によって注釈付けする。

【０１５７】当業者には理解されるであろうが、データ
ファイルと共に格納されるそれらの音声品質標識は後の
検索動作の際に有益である。すなわち、ユーザが（音声
問い合わせを使用して）データベース１０１からデータ
ファイル９１を検索したいときに、検索性能に影響を及
ぼす、そのデータファイルに注釈付けするために使用さ
れた音声の品質及び／又はそのデータファイルを検索す
るために使用された音声検索問い合わせの品質を知って
いることは有益である。つまり、音声注釈が高品質であ
り且つユーザの検索問い合わせも高品質であれば、デー
タベース１０１の厳重な探索を実行できるので、偽識別
の量は減少する。これに対し、元の音声注釈が低品質で
あるか、又はユーザの検索問い合わせが低品質である場
合には、正しいデータファイル９１を検索するチャンス
を広げるためにそれほど厳重でないデータベース１０１
の探索を実行することができる。

【０１５８】音声品質の標識としてARフィルタ係数の分
散を使用するのに加えて、プロセス雑音のエネルギーの
尺度であるプロセス雑音の分散（σ_e ²）も入力音声の品
質を適切に表す尺度である。従って、プロセス雑音の分
散をARフィルタ係数の分散と共に又はその代わりに使用
して、入力音声の品質を表す尺度を提供することも可能
である。

【０１５９】先に図１６を参照して説明した実施形態に
おいて、統計解析装置２１を音声検出装置６１に情報を
提供する目的のためだけに使用し、音声認識装置２５に
より使用されるべき入力音声をパラメータ化するために
は別個の音声プレプロセッサを使用しても良い。しか
し、そのように入力音声のパラメータ化を分離すると、
更に処理オーバヘッドが追加されてしまうため、好まし
い方法ではない。

【０１６０】上記の実施形態は、複数の話者により発生
された音声信号に応答して複数のマイクロホンから受信
された信号を処理するための統計解析技法を説明してい
た。当業者には理解されるであろうが、上述の統計解析
装置を音声及び／又は音響処理以外の分野で採用しても
差し支えない。例えば、データ通信、ソナーシステム、
レーダーシステムなどの分野でこのシステムを使用でき
るであろう。

【０１６１】先に説明した第１の実施形態では、第１の
実施形態で使用される音声認識装置はケプストラルに基
づくシステムであるため、統計解析装置２１が出力する
ARフィルタ係数はケプストラル係数に変換されていた。
当業者には理解されるであろうが、音声認識システムが
他のスペクトル係数と共に機能するように設計されてい
る場合には、ARフィルタ係数を適切なスペクトルパラメ
ータに変換するように係数変換器２３を構成すれば良
い。また、音声認識システムがAR係数に基づき動作する
ように設計されている場合には、係数変換器２３は不要
である。

【０１６２】上記の実施形態では、等式（１９）の様々
な従来の確率密度関数をモデル化するためにガウス分布
及び逆ガンマ分布を使用していた。統計解析の分野の当
業者には理解されるであろうが、それらの分布を選択し
た理由はそれらが互いに共役関係にあることである。す
なわち、ギブスサンプラで使用される条件付き確率密度
関数はそれぞれガウス関数であるか、又は逆ガンマ関数
であるかのいずれかである。従って、これにより、条件
付き確率密度からサンプルを取り出すというタスクが簡
略化される。しかし、これは不可欠ではない。ガウス分
布ではなく、ラプラシアン分布又はスチューデントのt
分布によって雑音確率密度関数をモデル化することも可
能であろう。同様に、分散の確率密度関数を逆ガンマ分
布以外の分布によりモデル化しても良い。例えば、レイ
リー分布又は常に正である他の何らかの分布により確率
密度関数をモデル化することができる。しかし、共役で
ない確率密度関数を使用すると、ギブスサンプルにより
条件付き密度からサンプルを取り出すタスクの複雑さが
増す結果に成る。

【０１６３】更に、等式（１９）に示す確率密度関数か
らサンプルを取り出すためにギブスサンプラを使用して
いたが、他のサンプリングアルゴリズムを使用すること
も可能であろう。例えば、この確率密度をサンプリング
するために、メトロポリス−ヘイスティングスアルゴリ
ズム（このアルゴリズムは、R．Nealの論文「Probabili
stic inference using Markov chainMonte Carlo metho
ds」（TechnicalReport CRG−TR−９３−１、Departmen
t of Computer Science、University of Toronto、１９
９３年）の中で他の技法と共に検討されている）を使用
しても良い。

【０１６４】上記の実施形態では、生音声サンプルの推
定値を生成するためにシミュレーションスムーザを使用
していた。このシミュレーションスムーザは、生音声サ
ンプルの推定値を生成するために、カルマンフィルタ段
と、平滑化フィルタ段とを含んでいた。別の実施形態に
おいては、カルマンフィルタ段が生音声の推定値を生成
する（等式（３３）を参照）ことから、平滑化フィルタ
段を省略しても良い。しかし、平滑化フィルタにより生
成される音声サンプルはより正確で且つ頑丈であると考
えられるため、そのような生音声サンプルは無視されて
いた。これは、カルマンフィルタが本質的に生音声の同
時確率密度関数から音声サンプルの点推定値を生成する
のに対し、シミュレーションスムーザはこの確率密度関
数からサンプルを取り出すためである。

【０１６５】上記の実施形態では、生音声サンプルの推
定値を生成するためにシミュレーションスムーザを使用
していた。生音声サンプルを「攪乱母数」として扱い、
それらを等式（１９）から積分することにより、生音声
サンプルを推定する必要をなくすことが可能である。し
かし、その結果として求められる積分は等式（１９）に
定義するガウスと逆ガンマの混合よりはるかに複雑な形
態になってしまうため、これは好ましくない。そのよう
な複雑な形態は、等式（２０）から（３０）に対応する
条件付き確率も更に複雑にする。同様に、その他の攪乱
母数（係数分散又は逆ガンマ、アルファパラメータ及び
ベータパラメータのいずれかなど）を積分しても良い
が、その結果、ギブスサンプラを使用してサンプリング
されるべき密度関数の複雑さが増すために、それも好ま
しくない。攪乱母数を積分する技法は統計解析の分野で
は良く知られているので、ここでは詳細に説明しない。

【０１６６】上記の実施形態では、データ解析装置は、
モデルパラメータごとにヒストグラムを判定した後、対
応するビンにおけるサンプルの数に応じて重み付けを行
うことにより得られた、ギブスサンプラにより取り出さ
れたサンプルの加重平均を使用してモデルパラメータの
値を判定することにより、ギブスサンプラにより取り出
されたサンプルを解析していた。他の実施形態において
は、最高のカウントを有するモデルパラメータの値であ
るとして、ヒストグラムからモデルパラメータの値を判
定しても良い。あるいは、ヒストグラムに最も良く当て
はまる最大値を識別するために、所定の曲線（ベル曲線
など）をヒストグラムに当てはめることも可能であろ
う。

【０１６７】上記の実施形態では、統計解析装置は、音
声源モデル（ARフィルタ）とチャネルモデルを別個にし
て基礎音声生成プロセスをモデル化していた。これは好
ましいモデル構造であるが、チャネルモデルなしで基礎
音声生成プロセスをモデル化しても良い。その場合、カ
ルマンフィルタなどを使用して生音声サンプルの値を推
定する必要はないが、推定を実行することは可能であ
る。しかし、音声モデルは必然的にチャネルと音声両面
を表現するので、そのような基礎音声生成プロセスは好
ましくない。更に、前述の統計解析装置はARフィルタモ
デル及びチャネルモデルのモデルオーダを変化させるた
めにモデルオーダ選択ルーチンを機能させていたが、こ
れは不可欠ではない。すなわち、ARフィルタモデルとチ
ャネルモデルのモデルオーダをあらかじめ固定しておい
ても良いのであるが、その結果、必然的に表現に誤りが
導入されてしまうため、それは好ましくない。

【０１６８】上記の実施形態では、処理される音声をユ
ーザからマイクロホンを介して受信していた。当業者に
は理解されるであろうが、音声を電話回線から受信して
も良いし、記録媒体に格納しても良い。その場合、実際
に話された音声を表現するARフィルタ係数が重大な影響
を受けないように、チャネルモデルがこれを補正する。

【０１６９】上記の実施形態では、音声生成プロセスは
自動回帰（AR）プロセスとしてモデル化され、チャネル
は移動平均（MA）プロセスとしてモデル化されていた。
当業者には理解されるであろうが、他の信号モデルを使
用しても差し支えない。しかし、それらのモデルはモデ
ル化しようとする音声源とチャネルを適切に表現するの
で好ましい。

【０１７０】上記の実施形態では、モデルオーダ選択ル
ーチンの稼働中、所定のラプラシアン分布関数から確率
変数を取り出すことにより、新たなモデルオーダを提案
していた。当業者には理解されるであろうが、他の技法
を使用しても良い。例えば、モデルオーダスペースが十
分にサンプリングされるのであれば、決定的方法（すな
わち、所定の規則の下で）新たなモデルオーダを提案し
ても良い。

【図面の簡単な説明】

【図１】本発明の一実施形態に従って動作するようにプ
ログラムできるコンピュータの概略図である。

【図２】音声認識システムの主な構成要素を示すブロッ
ク線図である。

【図３】図２に示す音声認識システムの一部を形成する
統計解析装置により採用されるモデルを表すブロック線
図である。

【図４】図２に示す統計解析装置の一部を形成するモデ
ルオーダ選択装置により実行される処理ステップを示す
フローチャートである。

【図５】図２に示す統計解析装置の一部を形成するシミ
ュレーションスムーザにより採用される主な処理ステッ
プを示すフローチャートである。

【図６】図２に示す統計解析装置の主な処理要素を示す
ブロック線図である。

【図７】図２に示す統計解析装置の一部を形成するメモ
リに格納されるデータを示すメモリマップである。

【図８】図６に示す統計解析装置により実行される主な
処理ステップを示すフローチャートである。

【図９ａ】図３に示すモデルの一部を形成する自動回帰
フィルタモデルのモデルオーダを示すヒストグラムの図
である。

【図９ｂ】図３に示すモデルによりモデル化されるプロ
セス雑音の分散を示すヒストグラムの図である。

【図９ｃ】ARフィルタモデルの第３の係数を示すヒスト
グラムの図である。

【図１０】本発明を具現化した音声認識システムの主な
構成要素を示すブロック線図である。

【図１１】図１０に示す音声認識システムの一部を形成
する統計解析装置により採用されるモデルを表すブロッ
ク線図である。

【図１２】本発明を具現化した音声認識システムの主な
構成要素を示すブロック線図である。

【図１３】図１２に示す音声認識システムで使用される
統計解析装置により実行される主な処理ステップを示す
フローチャートである。

【図１４】図１２に示す統計解析装置による音声フレー
ムの処理中に、図１２に示すシステムの一部を形成する
モデル比較装置により実行される処理ステップを示すフ
ローチャートである。

【図１５】図１２に示す統計解析装置により実行される
サンプリングルーチンが完了した後に、図１２に示すモ
デル比較装置により実行される処理ステップを示すフロ
ーチャートである。

【図１６】統計解析装置により出力されたデータを使用
して入力信号中の音声の始めと終わりを検出する他の音
声認識システムの主な構成要素を示すブロック線図であ
る。

【図１７】話者照合システムの主な構成要素を示す概略
ブロック線図である。

【図１８】音響分類システムの主な構成要素を示す概略
ブロック線図である。

【図１９】音声符号化送信システムの主な構成要素を示
す概略ブロック線図である。

【図２０】図６に示す統計解析装置を使用して、関連す
る注釈の音声データの品質を規定するデータファイル注
釈システムの主な構成要素を示すブロック線図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 21/02 Ｇ１０Ｌ 9/16 ３０１Ｂ 9/08 ３０１Ａ

Claims

【特許請求の範囲】

【請求項１】複数の信号源により発生される信号を表
現する１組の信号値を受信する１つ以上の受信器と、与えられた１組の受信信号値に対して、各々が受信信号
値により表現される信号のそれぞれ１つを発生したと想
定される対応する信号モデルのパラメータに関わる確率
密度を与える所定の関数を格納するメモリと、１組の受信信号値を前記格納されている関数に適用し
て、前記確率密度関数を生成する適用手段と、前記確率密度関数を処理して、前記確率密度関数からパ
ラメータ値のサンプルを取り出す処理手段と、前記取り出されたパラメータ値のサンプルのうち少なく
ともいくつかを解析して、前記信号源の少なくとも１つ
により発生された信号を表現するパラメータ値を判定す
る解析手段とを備える信号処理装置。
【請求項２】前記処理手段は前記確立密度関数からパ
ラメータ値のサンプルを取り出すように動作可能であ
り、前記解析手段は、前記取り出されたサンプルを解析
して、前記信号源の少なくとも１つにより発生された信
号を表現する前記パラメータ値を判定するように動作可
能である請求項１記載の信号処理装置。
【請求項３】前記処理手段は、前記確立密度関数から
繰り返しサンプルを取り出すように動作可能である請求
項２記載の信号処理装置。
【請求項４】前記処理手段はギブスサンプラである請
求項２又は３記載の信号処理装置。
【請求項５】前記解析手段は前記取り出されたサンプ
ルのヒストグラムを判定するように動作可能であり、前
記パラメータ値は前記ヒストグラムから判定される請求
項１から４のいずれか１項に記載の信号処理装置。
【請求項６】前記解析手段は、前記取り出されたサン
プルの加重和を使用して前記パラメータ値を判定するよ
うに動作可能であり、サンプルごとの重み付けは前記ヒ
ストグラムから判定される請求項５記載の信号処理装
置。
【請求項７】前記受信手段は、前記複数の信号源によ
り発生される信号を表現する複数組の信号値の系列を受
信するように動作可能であり、前記適用手段、処理手段
及び解析手段は、前記信号源の少なくとも１つにより発
生される信号を表現するパラメータ値を判定するため
に、各組の受信信号値に関してその機能を実行するよう
に動作可能である請求項１から６のいずれか１項に記載
の信号処理装置。
【請求項８】前記処理手段は、先行する１組の信号値
の処理中に得られたパラメータ値を現在処理すべき１組
の信号値のパラメータ値の初期推定値として使用するよ
うに動作可能である請求項７記載の信号処理装置。
【請求項９】前記系列における前記複数組の信号値は
互いに重なり合っていない請求項７又は８記載の信号処
理装置。
【請求項１０】前記信号モデルは自動回帰プロセスモ
デルであり、前記パラメータは自動回帰モデル係数を含
む請求項１から９のいずれか１項に記載の信号処理装
置。
【請求項１１】前記解析手段は、前記取り出されたパ
ラメータ値のサンプルのうち少なくともいくつかを解析
して、前記サンプルの分散の尺度を判定するように動作
可能であり、前記信号処理装置は、前記判定された分散
の尺度に応じて前記受信された１組の信号値の品質を示
す信号を出力する手段を更に備える請求項１から１０の
いずれか１項に記載の信号処理装置。
【請求項１２】前記確率密度関数は前記分散の尺度に
基づくものであり、前記処理手段は前記確立密度関数か
ら前記分散の尺度のサンプルを取り出すように動作可能
であり、前記解析手段は取り出された分散サンプルを解
析するように動作可能である請求項１１記載の信号処理
装置。
【請求項１３】前記１組の受信信号値は、複数の信号
源により発生された信号を、各信号源と、各受信器との
間の対応する送信チャネルにより変調された信号として
表し、前記所定の関数は、各々が前記信号源のうち対応
する１つの信号源と関連し且つ各々が対応する信号源を
モデル化する１組のパラメータを有する複数の第１の部
分と、各々が前記信号源と前記１つ以上の受信器との間
の前記送信チャネルのうち対応する１つのチャネルをモ
デル化する複数の第２の部分とを含み、前記第２の部分
は、それぞれ、対応するチャネルをモデル化する１組の
パラメータを有し、前記処理手段は、前記確率密度関数
から前記第１の部分のうち少なくとも１つと関連するパ
ラメータの値を求めるように動作可能である請求項１か
ら１２のいずれか１項に記載の信号処理装置。
【請求項１４】前記関数は、前記送信チャネルにより
変調される前の、前記信号源により発生された信号を表
現する１組の生信号値に基づくものであり、前記信号処
理装置は、１組の受信信号値を前記第１及び第２のパラ
メータの初期推定値によって処理して、１組の受信信号
値に対応する生信号値の推定値を生成する第２の処理手
段を更に備え、前記適用手段は、前記１組の受信信号値
に加えて前記推定された１組の生信号値を前記関数に適
用するように動作可能である請求項１３記載の信号処理
装置。
【請求項１５】前記第２の処理手段はシミュレーショ
ンスムーザである請求項１４記載の信号処理装置。
【請求項１６】前記第２の処理手段はカルマンフィル
タである請求項１４又は１５記載の信号処理装置。
【請求項１７】前記第２の部分のうち１つ以上は移動
平均モデルであり、対応する第２のパラメータは移動平
均モデル係数である請求項１３から１６のいずれか１項
に記載の信号処理装置。
【請求項１８】前記信号モデルごとに異なる数のパラ
メータ値について取り出された１つ以上のパラメータ値
のサンプルを使用して、１組の受信信号値に関わる前記
確率密度関数を評価し、所定の信号モデルがそれらの対
応するパラメータ値を有するそれぞれの確率を判定する
手段を更に備え、前記処理手段は、前記取り出されたパ
ラメータ値のサンプルのうち少なくともいくつかと、前
記評価された確率とを処理して、前記信号源の少なくと
も１つにより発生された信号を表現する前記パラメータ
値を判定するように動作可能である請求項１から１７の
いずれか１項に記載の信号処理装置。
【請求項１９】前記解析手段は、前記信号源により発
生された信号の各々を表現する対応するパラメータ値を
判定するように動作可能である請求項１から１８のいず
れか１項に記載の信号処理装置。
【請求項２０】前記格納されている所定の関数により
表現される信号源の数を変化させるために、前記格納さ
れている所定の関数を変化させる手段を更に備え、前記
適用手段、処理手段及び解析手段は、信号源の数を判定
するために、それぞれ異なる所定の関数に対してその機
能を実行するように動作可能である請求項１から１９の
いずれか１項に記載の信号処理装置。
【請求項２１】前記メモリは、各々が与えられた１組
の受信信号値に対して、受信信号値により表現される信
号を発生したと想定されるそれぞれ異なる複数の信号モ
デルのパラメータについて確率密度を与える複数の所定
の関数を格納し、前記適用手段、処理手段及び解析手段
は、前記格納された関数の各々に関してその機能を実行
するように動作可能であり、前記信号処理装置は、前記
関数の各々をそれぞれの関数の判定されたパラメータ値
によって評価する評価手段と、評価された関数を比較し
て、受信信号値を最も良く表現する信号源の数を判定す
る手段とを更に備える請求項１から２０のいずれか１項
に記載の信号処理装置。
【請求項２２】複数の受信器を備える請求項１から２
１のいずれか１項に記載の信号処理装置。
【請求項２３】前記１組の受信信号値は音響信号を表
現する請求項１から２２のいずれか１項に記載の信号処
理装置。
【請求項２４】前記１組の受信信号値は音声信号を表
現する請求項２３記載の信号処理装置。
【請求項２５】前記判定されたパラメータ値をあらか
じめ格納されているパラメータ値と比較して、比較結果
を生成する手段を更に備える請求項１から２４のいずれ
か１項に記載の信号処理装置。
【請求項２６】前記判定されたパラメータ値をあらか
じめ格納されている基準モデルと比較して、認識結果を
生成する認識手段を更に備える請求項１から２４のいず
れか１項に記載の信号処理装置。
【請求項２７】前記判定されたパラメータ値をあらか
じめ格納されている話者モデルと比較して、照合結果を
生成する話者照合手段を更に備える請求項１から２４の
いずれか１項に記載の信号処理装置。
【請求項２８】前記判定されたパラメータ値を符号化
する手段を更に備える請求項１から２７のいずれか１項
に記載の信号処理装置。
【請求項２９】前記符号化されたパラメータ値を送信
する手段と、送信された符号化パラメータ値を受信する
受信器とを更に備え、前記受信器は、符号化パラメータ
値を復号する復号手段と、復号されたパラメータ値に従
って出力信号を発生する処理手段とを含む請求項２８記
載の信号処理装置。
【請求項３０】前記受信器の前記処理手段は、復号さ
れたパラメータ値を使用して音声を合成する手段を備え
る請求項２９記載の信号処理装置。
【請求項３１】前記受信器の前記処理手段は、前記復
号されたパラメータ値の認識処理を実行して認識結果を
生成する認識処理手段を備える請求項２９又は３０記載
の信号処理装置。
【請求項３２】データファイルに注釈付けをするとき
に使用するための注釈データを生成する装置であって、複数の信号源により生成される音響信号を表現する音響
注釈を受信する手段と、前記信号源の少なくとも１つにより発生された信号を表
現するパラメータ値を生成する請求項１から２４のいず
れか１項に記載の信号処理装置と、前記判定されたパラメータ値を使用して注釈データを生
成する手段とを備える装置。
【請求項３３】前記音響注釈は音声データを含み、前
記装置は、音声データ中の語及び／又は音素を識別する
ためにパラメータ値を処理する音声認識手段を更に備
え、前記注釈データは前記語及び／又は音素データから
構成される請求項３２記載の装置。
【請求項３４】前記注釈データは音素と語の格子を定
義する請求項３３記載の装置。
【請求項３５】注釈データを含む複数の注釈から構成
されるデータベースを探索する装置であって、複数の音響源により発生される音響信号を表現する音響
入力問い合わせを受信する手段と、前記音響源の少なくとも１つにより発生される信号を表
現するパラメータ値を判定する請求項１から２４のいず
れか１項に記載の信号処理装置と、前記判定されたパラメータ値を表現するデータを前記注
釈のうち１つ以上の注釈データと比較する比較手段とを
備える装置。
【請求項３６】前記音響入力問い合わせは音声データ
を含み、前記装置は、音声データの語及び／又は音素デ
ータを識別するために音声データを処理する音声認識手
段を更に備え、前記注釈データは語及び／又は音素デー
タから構成され、前記比較手段は前記音響入力問い合わ
せの前記語及び／又は音素データを前記注釈の前記語及
び／又は音素データと比較する請求項３５記載の装置。
【請求項３７】複数の信号源により発生された複数の
信号を、各信号源と各受信手段との間の対応する送信チ
ャネルによって変調された信号として表現する１組の信
号値を受信する１つ以上の受信手段と、各々が前記信号源のうち対応する１つの信号源と関連し
且つ各々が対応する信号源をモデル化する１組のパラメ
ータを有する複数の第１の部分と、各々が前記信号源と
前記１つ以上の受信手段との間の前記送信チャネルのう
ち対応する１つのチャネルをモデル化し、対応するチャ
ネルをモデル化する対応する１組のパラメータを有する
複数の第２の部分とを含む所定の信号モデルから取り出
される所定の関数であって、前記パラメータによって表
現される関数を格納し、且つ与えられる１組の受信信号
値に対して、与えられる１組のパラメータについて、所
定の信号モデルがその１組の受信信号値を発生したと想
定した場合に所定の信号モデルがそれらのパラメータ値
を有する確率を定義する確率密度関数を生成する手段
と、前記１組の受信信号値を前記関数に適用する手段と、前記確率密度関数から前記第１の部分のうち少なくとも
１つと関連するパラメータのサンプルを取り出すために
適用された値によって前記関数を処理する手段と、前記取り出されたサンプルのうち少なくともいくつかを
解析して、前記少なくとも１つの第１の部分に対応する
信号源により発生された信号が対応する送信チャネルに
より変調される前を表現する、前記少なくとも１つの第
１の部分の前記パラメータの値を判定する手段とを備え
る信号処理装置。
【請求項３８】複数の信号源により発生される信号を
表現する１組の信号値を１つ以上の受信器を使用して受
信する工程と、与えられる１組の受信信号値に対して、各々が受信信号
値により表現される信号のそれぞれ１つを発生したと想
定される、各信号モデルのパラメータの確率密度を与え
る所定の関数を格納する工程と、１組の受信信号値を前記格納された関数に適用して、前
記確率密度関数を生成する工程と、前記確率密度関数を処理して、前記確率密度関数からパ
ラメータ値のサンプルを取り出す工程と、前記取り出されたパラメータ値のサンプルのうち少なく
ともいくつかを解析して、前記信号源の少なくとも１つ
により発生された信号を表現するパラメータ値を判定す
る工程とを備える信号処理方法。
【請求項３９】前記処理する工程は、前記確率密度関
数からパラメータ値のサンプルを取り出し、前記解析す
る工程は前記取り出されたサンプルを解析して、前記信
号源の少なくとも１つにより発生された信号を表現する
前記パラメータ値を判定する請求項３８記載の方法。
【請求項４０】前記処理する工程は、前記確率密度関
数から繰り返しサンプルを取り出す請求項３９記載の方
法。
【請求項４１】前記処理する工程はギブスサンプラを
使用する請求項３９又は４０記載の方法。
【請求項４２】前記解析する工程は前記取り出された
サンプルのヒストグラムを判定し、前記パラメータ値は
前記ヒストグラムから判定される請求項３８から４０の
いずれか１項に記載の方法。
【請求項４３】前記解析する工程は、前記取り出され
たサンプルの加重和を使用して前記パラメータ値を判定
し、サンプルごとの重み付けは前記ヒストグラムから判
定される請求項４２記載の方法。
【請求項４４】前記受信する工程は、前記複数の信号
源により発生される信号を表現する複数組の信号値の系
列を受信し、前記適用する工程、処理する工程及び解析
する工程は、前記信号源の少なくとも１つにより発生さ
れる信号を表現するパラメータ値を判定するために、各
組の受信信号値ごとに実行される請求項３８から４３の
いずれか１項に記載の方法。
【請求項４５】前記処理する工程は、先行する１組の
信号値の処理中に得られたパラメータ値を現在処理すべ
き１組の信号値のパラメータ値の初期推定値として使用
する請求項４４記載の方法。
【請求項４６】前記系列中の前記複数組の信号値は互
いに重なり合っていない請求項４４又は４５記載の方
法。
【請求項４７】前記信号モデルは自動回帰プロセスモ
デルであり、且つ前記パラメータは自動回帰モデル係数
を含む請求項３８から４６のいずれか１項に記載の方
法。
【請求項４８】前記解析する工程は、前記取り出され
たパラメータ値のサンプルのうち少なくともいくつかを
解析して、前記サンプルの分散の尺度を判定し、方法
は、前記判定された分散の尺度に従って前記１組の受信
信号値の品質を示す信号を出力する工程を更に含む請求
項３８から４７のいずれか１項に記載の方法。
【請求項４９】前記確率密度関数は前記分散の尺度に
基づくものであり、前記処理する工程は前記確率密度関
数から前記分散の尺度のサンプルを取り出し、前記解析
する工程は取り出された分散サンプルを解析する請求項
４８記載の方法。
【請求項５０】前記１組の受信信号値は、複数の信号
源により発生された信号を、各信号源と、各受信器との
間の対応する送信チャネルにより変調された信号として
表現し、前記所定の関数は、各々が前記信号源のうち対
応する１つの信号源と関連し且つ各々が対応する信号源
をモデル化する１組のパラメータを有する複数の第１の
部分と、各々が前記信号源と前記１つ以上の受信器との
間の前記送信チャネルのうち対応する１つのチャネルを
モデル化する複数の第２の部分とを含み、前記第２の部
分の各々は、対応する送信チャネルをモデル化する対応
する１組のパラメータを有し、前記処理する工程は、前
記確率密度関数から前記第１の部分のうち少なくとも１
つと関連するパラメータの値を得る請求項３８から４９
のいずれか１項に記載の方法
【請求項５１】前記関数は、前記送信チャネルにより
変調される前の、前記信号源により発生された信号を表
現する１組の生信号値に基づいており、方法は、１組の
受信信号値を前記第１及び第２のパラメータの初期推定
値によって処理して、１組の受信信号値に対応する生信
号値の推定値を生成する第２の処理工程を更に含み、且
つ前記適用する工程は、前記１組の受信信号値に加えて
前記推定された１組の生信号値を前記関数に適用する請
求項５０記載の方法。
【請求項５２】前記第２の処理工程はシミュレーショ
ンスムーザを使用する請求項５１記載の方法。
【請求項５３】前記第２の処理工程はカルマンフィル
タを使用する請求項５１又は５２記載の方法。
【請求項５４】前記第２の部分のうち１つ以上は移動
平均モデルを含み、対応する第２のパラメータは移動平
均モデル係数を含む請求項５０から５３のいずれか１項
に記載の方法。
【請求項５５】前記信号モデルごとに異なる数のパラ
メータ値について１つ以上の取り出されたパラメータ値
のサンプルを使用して１組の受信信号値に対して前記確
率密度関数を評価して、所定の信号モデルがそれらそれ
ぞれのパラメータ値を有するそれぞれの確率を判定する
工程を更に含み、前記処理する工程は前記取り出された
パラメータ値のサンプルのうち少なくともいくつかと、
前記評価された確率とを処理して、前記信号源の前記少
なくとも１つにより発生された信号を表現する前記パラ
メータ値を判定する請求項３８から５４のいずれか１項
に記載の方法。
【請求項５６】前記解析する工程は、前記信号源によ
り発生された信号の各々を表現するそれぞれのパラメー
タ値を判定する請求項３８から５５のいずれか１項に記
載の方法。
【請求項５７】前記格納されている所定の関数により
表現される信号源の数を変化させるために前記格納され
ている所定の関数を変化させる工程を更に含み、前記適
用する工程、処理する工程及び解析する工程は、信号源
の数を判定するためにそれぞれ異なる所定の関数につい
て実行される請求項３８から５６のいずれか１項に記載
の方法。
【請求項５８】各々が与えられる１組の受信信号値に
対して、それらの受信信号値により表現される信号を発
生したと想定されるそれぞれ異なる複数の信号モデルの
パラメータについて確率密度を与える複数の所定の関数
が格納されており、前記適用する工程、処理する工程及
び解析する工程は前記格納されている関数の各々に関し
て実行され、方法は、前記関数の各々をそれぞれの関数
について判定されたパラメータ値によって評価し、評価
された関数を比較して、受信信号値を最も良く表現する
信号源の数を判定する工程を更に含む請求項３８から５
７のいずれか１項に記載の方法。
【請求項５９】前記受信する工程は、前記信号値を受信
するために複数の受信器を使用する請求項３８から５８
のいずれか１項に記載の方法。
【請求項６０】前記１組の受信信号値は音響信号を表
現する請求項３８から５９のいずれか１項に記載の方
法。
【請求項６１】前記１組の受信信号値は音声信号を表
現する請求項６０記載の方法。
【請求項６２】前記判定されたパラメータ値をあらか
じめ格納されているパラメータ値と比較して、比較結果
を生成する工程を更に含む請求項３８から６１のいずれ
か１項に記載の方法。
【請求項６３】認識プロセッサを使用して前記判定さ
れたパラメータ値をあらかじめ格納されている基準モデ
ルと比較して、認識結果を生成する工程を更に含む請求
項３８から６１のいずれか１項に記載の方法。
【請求項６４】話者照合システムを使用して前記判定
されたパラメータ値をあらかじめ格納されている話者モ
デルと比較して、照合結果を生成する工程を更に含む請
求項３８から６１のいずれか１項に記載の方法。
【請求項６５】前記判定されたパラメータ値を符号化
する工程を更に含む請求項３８から６４のいずれか１項
に記載の方法。
【請求項６６】前記符号化されたパラメータ値を送信
し、送信された符号化パラメータ値を受信器において受
信し、符号化パラメータ値を復号し、復号されたパラメ
ータ値に従って出力信号を発生する工程を更に備える請
求項６５記載の方法。
【請求項６７】前記受信器における発生する工程は、
符号化されたパラメータ値を使用して音声を合成する請
求項６６記載の方法。
【請求項６８】前記受信器における前記発生する工程
は、前記復号されたパラメータ値の認識処理を実行して
認識結果を生成することを備える請求項６６又は６７記
載の方法。
【請求項６９】データファイルに注釈付けするときに
使用するための注釈データを生成する方法であって、複
数の信号源により発生される音響信号を表現する音響注
釈を受信する工程と、前記信号源の少なくとも１つによ
り発生される信号を表現するパラメータ値を生成するた
めの請求項３８から６１のいずれか１項に記載の方法
と、前記判定されたパラメータ値を使用して注釈データ
を生成する工程とを備える方法。
【請求項７０】前記音響注釈は音声データを含み、前
記方法は、音声認識システムを使用して、音声データ中
の語及び／又は音素を識別するためにパラメータ値を処
理する工程を更に含み、前記注釈データは前記語及び／
又は音素データから構成される請求項６９記載の方法。
【請求項７１】前記注釈データは音素と語の格子を定
義する請求項７０記載の方法。
【請求項７２】注釈データを含む複数の注釈から構成
されるデータベースを探索する方法であって、複数の音響源により発生される音響信号を表現する音響
入力問い合わせを受信する工程と、前記音響源の少なくとも１つにより発生される信号を表
現するパラメータ値を判定するための請求項３８から６
１のいずれか１項に記載の方法と、前記判定されたパラメータ値を表現するデータを前記注
釈のうち１つ以上の注釈の注釈データと比較する工程と
を備える方法。
【請求項７３】前記音響入力問い合わせは音声データ
を備え、前記方法は、音声認識システムを使用して、音
声データの語及び／又は音素データを識別するために音
声データを処理する工程を更に含み、前記注釈データは
語及び／又は音素データから構成され、前記比較する工
程は、前記音響入力問い合わせの前記語及び／又は音素
データを前記注釈の前記語及び／又は音素データと比較
する請求項７２記載の方法。
【請求項７４】１つ以上の受信器を使用して、複数の
信号源により発生される複数の信号を各信号源と、各受
信器との間の対応する送信チャネルにより変調された後
の信号として表現する１組の信号値を受信する工程と、各々が前記信号源のうち対応する１つの信号源と関連し
且つ各々が対応する信号源をモデル化する１組のパラメ
ータを有する複数の第１の部分と、各々が前記信号源と
前記１つ以上の受信器との間の前記送信チャネルのうち
対応する１つのチャネルをモデル化し且つ各々が対応す
るチャネルをモデル化する対応する１組のパラメータを
有する複数の第２の部分とを含む所定の信号モデルから
取り出される所定の関数であって、前記パラメータに基
づいている関数を定義し、与えられる１組の受信信号値
に対して、所定の信号モデルが前記１組の受信信号値を
発生したと想定される場合に与えられる１組のパラメー
タについて所定の信号モデルがそれらのパラメータ値を
有する確率を定義する確率密度関数を生成する工程と、前記１組の受信信号値を前記関数に適用する工程と、前記関数を適用されるそれらの値によって処理して、前
記確率密度関数から前記第１の部分の少なくとも１つと
関連するパラメータのサンプルを取り出す工程と、前記取り出されたサンプルの少なくともいくつかを解析
して、前記少なくとも１つの第１の部分に対応する信号
源により発生された、対応する送信チャネルにより変調
される前の信号を表現する、前記少なくとも１つの第１
の部分の前記パラメータの値を判定する工程とを備える
信号処理方法。
【請求項７５】請求項３８から７４のいずれか１項に
記載の方法を実現するためにプロセッサを制御するため
のプロセッサ実現可能な命令を格納する記憶媒体。
【請求項７６】請求項３８から７４のいずれか１項に
記載の方法を実現するためにプロセッサを制御するため
のプロセッサ実現可能な命令。