JP2002140087A - 音声処理システム - Google Patents

音声処理システム

Info

Publication number
JP2002140087A
JP2002140087A JP2001168803A JP2001168803A JP2002140087A JP 2002140087 A JP2002140087 A JP 2002140087A JP 2001168803 A JP2001168803 A JP 2001168803A JP 2001168803 A JP2001168803 A JP 2001168803A JP 2002140087 A JP2002140087 A JP 2002140087A
Authority
JP
Japan
Prior art keywords
parameter
values
model
signal
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001168803A
Other languages
English (en)
Inventor
Jacob Rajan Jebb
ジェイコブ ラジャン ジェブ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB0013541A external-priority patent/GB0013541D0/en
Priority claimed from GB0018965A external-priority patent/GB0018965D0/en
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2002140087A publication Critical patent/JP2002140087A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 認識処理等の音声処理システムにおいてエラ
ーのある傾向の前処理方法の代替技法を提供する。 【解決手段】 システムは、音声ソース31とチャンネ
ル33の両方をモデル化する信号モデルから派生される
所定の関数を定義し、確率密度関数を定義するデータを
格納する。ここで確率密度関数は、与えられたモデルパ
ラメータのセットに関して、信号モデルがその受信した
信号値のセットを生成したと仮定される場合に、信号モ
デルがそれらモデルパラメータを有する確率を与える。
システムは、現在の受信された信号値のセットを、格納
されている確率密度関数に適用して、ギブスサンプラを
用いてそこからサンプルを引き出す。そして、システム
は、そのサンプルを解析し、チャンネルによって歪まさ
れる前の音声信号を表すパラメータ値のセットを決定す
る。

Description

【発明の詳細な説明】
【0001】本発明は音声処理装置及び方法に関する。
本発明は、特に、音声を生成する音声生成システムを定
義するパラメータを導出するための、入力音声信号の統
計的な処理に関する。
【0002】音声認識システム、音声符号化システム、
話者照合システム等のほとんどの音声処理システムは、
すべて、信号処理フロントエンドを含んでいる。ここ
で、フロントエンドは、音声波形をパラメータ表現に変
換する。音声を表すために作り出される最も一般的なタ
イプのパラメータ(または、係数)の1つは、線形予測
(LP)係数である。入力音声信号の全体を表すため
に、音声は複数の時間フレームに分割される(通常、1
0−30ミリ秒の時間を有する)。そして、1セットの
LP係数が、それぞれの時間フレームの中の音声を表す
ために計算される。このLP解析は、k個の最新の音声
サンプルの線形加重された組合せから現在の音声サンプ
ルの値を予測することができると仮定する。このモデル
に基づいて、LP解析のタスクが、現在の音声サンプル
の実際の値と現在の音声サンプルの予測値の間の二乗誤
差の平均を最小とする重み(または、係数)の値を特定
することになる。
【0003】このLP解析の問題の1つは、各フレーム
内の音声の解析を、他のフレーム中の音声とは分離して
実行するということである。また、それは、同じ数の重
み或いは係数がそれぞれの時間フレームの中の音声を表
すと仮定する。その結果、エラーが取り込まれてしま
い、その後の認識処理等をエラーのある傾向にしてしま
う。
【0004】本発明の目的は、音声認識システム、音声
符号化システム、話者照合システム等において、その使
用前に音声を前処理するための代替技法を提供すること
にある。
【0005】本発明の実施例はコンピュータハードウェ
アで実現できるが、以下に説明する実施例は、パーソナ
ルコンピュータ、ワークステーション、写真複写機、フ
ァクシミリ装置などの処理ハードウェアと関連して実行
されるソフトウェアにおいて実現される。
【0006】図1は、本発明の一実施例を動作させるた
めにプログラムできるパーソナルコンピュータ(PC)1
を示す。キーボード3、指示装置5、マイクロホン7並
びに電話回線9はインタフェース11を介してPC1に接
続している。キーボード3と指示装置5により、ユーザ
はシステムを制御できる。マイクロホン7はユーザの音
響音声信号を等価の電気信号に変換し、その信号をPC1
に供給して処理させる。PC1が、例えば、遠隔コンピュ
ータ又は離れた場所にいるユーザと通信できるように、
電話回線9に内部モデム及び音声受信回路(図示せず)
を接続しても良い。
【0007】PC1を本発明に従って動作させるプログラ
ム命令は既存のPC1と共に使用されるように、例えば、
磁気ディスク13などの記憶装置として供給されても良
いし、あるいはインターネット(図示せず)から内部モ
デム及び電話回線9を介してソフトウェアをダウンロー
ドすることにより供給されても良い。
【0008】本発明の実施形態である音声認識システム
の動作を図2を参照して説明する。図2に示すように、
マイクロホン7からの入力音声を表現する電気信号はフ
ィルタ15に入力され、フィルタ15は入力信号の中の
望ましくない周波数(この実施例においては8kHzを越
える周波数)を除去する。フィルタリングされた信号
は、この後、(16kHzの速度で)サンプリングされ、
アナログ/デジタル変換器17によりデジタル化され
る。デジタル化音声サンプルはバッファ19に格納され
る。次に、バッファ19から音声サンプルの逐次ブロッ
ク(又はフレーム)が統計解析装置21へ送信され、統
計解析装置21は音声サンプルの各フレームの統計解析
を実行して、特に、フレーム中の音声を表現する1組の
自動回帰(AR)係数を判定する。この実施例では、統計
解析装置21により出力されるAR係数は係数変換器23
を介してケプストラル利用音声認識装置25に入力され
る。従って、この実施例においては、係数変換器23は
統計解析装置21により出力されたAR係数をケプストラ
ル係数に変換するのである。これは、例えば、Rabiner
及びJuang著「Fundamentals of Speech Recognition」
の115ページ及び116ページに記載されている変換
技法を使用して実現できる。音声認識装置25は音声の
連続するフレームのケプストラル係数を格納されている
1組の音声モデル27と比較して、認識結果を生成す
る。音声モデルはテンプレートに基づくものであっても
良いし、あるいは隠れマルコフモデルであっても良い。
【0009】統計解析装置−理論と概要 前述のように、統計解析装置21は入力音声信号の連続
するフレームの中の音声を解析する。多くの音声処理シ
ステムでは、フレームは互いに重なり合っているが、こ
の実施例においては音声のフレームは重なっておらず、
20msの持続時間を有する。アナログ/デジタル変換器
17のサンプリング速度が16kHzであるので、この持
続時間の場合、フレームサイズは320サンプルという
ことになる。
【0010】それぞれのフレームに対して統計解析を実
行するために、統計解析装置21は、そのフレーム中に
各サンプルを発生させた基礎プロセスが存在すると仮定
する。この実施例で使用されるプロセスのモデルを図3
に示す。図示されているように、プロセスは音声源31
によりモデル化され、音声源31は時間t=nにおいて生
音声サンプルs(n)を生成する。音声調音体の動きには
物理的な制約があるため、隣接する音声サンプルの間に
は何らかの相関関係が成立している。従って、この実施
例では、音声源31は自動回帰(AR)プロセスによりモ
デル化されている。言い換えれば、統計解析装置21
は、最前の先行生信号サンプルの線形加重組み合わせか
ら現在生音声サンプル(s(n))を判定できると想定し
ているのである。
【0011】すなわち、
【0012】式中、a1,a2.....akは音声サンプル間の相
関の量を表すARフィルタ係数であり、kはARフィルタモ
デルオーダであり、e(n)は生音声サンプルの生成に関
連するランダムプロセス雑音を表す。音声処理の分野の
当業者には理解されるであろうが、これらのARフィルタ
係数は線形予測(LP)解析が異なる処理技法を使用する
にもかかわらず推定する係数と同じである。
【0013】図3に示すように、音声源により生成され
る生音声サンプルs(n)はチャネル33に入力される。チ
ャネル33は音声源31と、アナログ/デジタル変換器
17の出力端子との間の音声環境をモデル化している。
音声が音声源31からマイクロホン7まで進む間にチャ
ネル33は単純に音声を減衰させるのが理想的である
が、残響やその他の妨害効果によって、アナログ/デジ
タル変換器17により出力される信号(y(n))は現在
生音声サンプル(s(n))のみならず、先行生音声サン
プルによっても影響を受ける。従って、この実施例で
は、統計解析装置21は移動平均(MA)フィルタによっ
てチャネル33をモデル化する。
【0014】
【0015】式中、y(n)は時間t=nにアナログ/デジ
タル変換器17により出力される信号サンプルを表し、
h0,h1,h2....hrはチャネル33内部のひずみの量を表す
チャネルフィルタ係数であり、rはチャネルフィルタモ
デルオーダであり、ε(n)はランダム加法的測定雑音
成分を表す。
【0016】現在処理中の音声のフレームについて、音
声源とチャネル双方のフィルタ係数は一定であると想定
されるが、わかってはいない。従って、現在処理中のフ
レームの全てのN個のサンプル(N=320の場合)を考
えると、次のようになる。
【0017】
【0018】これをベクトル形式により次のように書き
表すことができる。
【0019】
【0020】式中、
【0021】以下の説明から明白になるであろうが、等
式(3)をランダム誤り成分(残差と呼ばれることが多
い)e(n)に関して書き直しても好都合である。すなわ
ち、
【0022】
【0023】これをベクトル表記法により次のように書
き表すことができる。
【0024】式中、
【0025】同様に、等式(2)により定義されるチャ
ネルモデルを考えると、h0=1(この場合、より安定し
た解が得られる)のとき、
【0026】 となり(式中、q(n)=y(n)− s(n))、これをベ
クトル形態で書き表すと次のようになる。
【0027】
【0028】式中、
【0029】この実施例では、統計解析装置21は、特
に、現在フレーム中の観測信号サンプル(y(n))を最
も良く表現するARフィルタ係数(a)の値を判定しよう
とする。統計解析装置21は、アナログ/デジタル変換
器17から出力される観測信号サンプルが与えられたと
き、音声モデル、チャネルモデル、生音声サンプル及び
雑音統計値の同時確率密度情報を最大にするARフィルタ
係数(a)を判定することにより、すなわち、 を判定することによりこれを実行する。
【0030】式中、σe 及びσε はそれぞれプロセ
ス雑音統計値及び測定雑音統計値を表す。当業者には理
解されるであろうが、この関数は、特定の音声モデル、
チャネルモデル、生音声サンプル及び雑音統計値がアナ
ログ/デジタル変換器からの音声サンプル(y(n))の
観測フレームを発生した確率を定義する。これを実行す
るため、統計解析装置21はこの関数がどのように見え
るかを判定しなければならない。この問題は、この確率
密度関数をベイズの法則を使用して再配列することによ
り簡略化できる。すなわち、
【0031】当業者には理解されるであろうが、アナロ
グ/デジタル変換器からの信号の確率はモデルのあらゆ
る選択肢に対して一定であるので、等式(10)の分母
を無視することができる。従って、等式(9)により定
義される関数を最大にするARフィルタ係数は等式(1
0)の分母も最大にする。次に、等式(10)の分母に
おける各々の項を順次考えてみる。
【0032】p(s(n)|a,k,σe 2) この項は、ARフィルタ係数(a)、ARフィルタモデルオ
ーダ(k)及びプロセス雑音統計値(σe 2)が与えられ
たとき、1フレーム中の生音声サンプル(s(n))のベ
クトルを生成する同時確率密度関数を表す。先の等式
(6)により、生音声サンプルに関するこの同時確率密
度関数をプロセス雑音の同時確率密度関数から判定する
ことができる。すなわち、p(s(n)|a,k,σe 2)は次
のように表される。
【0033】
【0034】式中、p(e(n))は入力音声の1フレー
ム中のプロセス雑音の同時確率密度関数であり、右側の
第2項は変換のヤコビアンとして知られている。この場
合、行列 が三角形であるため、ヤコビアンは1である(先の等式
(6)を参照)。
【0035】この実施例では、統計解析装置21は、音
声源31と関連するプロセス雑音は平均が0であり、何
らかの未知の分散σe 2を有するガウシアンであると想定
している。また、統計解析装置21は、ある1つの時点
におけるプロセス雑音は別の時点のプロセス雑音とは無
関係であると想定する。従って、入力音声の1フレーム
中のプロセス雑音の同時確率密度変数(発生するプロセ
ス雑音e(n)の所定のベクトルの確率を定義する)は次
のように表される。
【0036】
【0037】従って、ARフィルタ係数(a)、ARフィル
タモデルオーダ(k)及びプロセス雑音分散(σe 2)が
与えられたときの生音声サンプルのベクトルの同時確率
密度関数は次のように表される。
【0038】
【0039】p(y(n)|(n),h,r,σz 2) この項は、生音声サンプル(s(n))のベクトル、チャ
ネルフィルタ係数(h)、チャネルフィルタモデルオー
ダ(r)及び測定雑音統計値(σz 2)が与えられたとき
の、アナログ/デジタル変換器17から出力される音声
サンプル(y(n))のベクトルを生成する同時確率密度
関数を表す。等式(8)により、この同時確率密度関数
はプロセス雑音の同時確率密度関数から判定できる。す
なわち、p(y(n)|(n),h,r,σz 2)は次のよう
に表される。
【0040】
【0041】式中、p(ε(n))は入力音声の1フレー
ム中の測定雑音の同時確率密度関数であり、右側の第2
項は同様に1の値を有する変換のヤコビアンである。
【0042】この実施例では、統計解析装置21は、測
定雑音は平均が0であり且つ何らかの未知の分散σz 2
有するガウシアンであると想定している。また、統計解
析装置21は、ある1つの時点における測定雑音は別の
時点の測定雑音とは無関係であると想定する。従って、
入力音声の1フレームにおける測定雑音の同時確率密度
関数は、等式(12)で定義されているプロセス雑音と
同じ形態を有する。そのため、チャネルフィルタ係数
h)、チャネルフィルタモデルオーダ(r)、測定雑音
統計値(σε 2)及び生音声サンプル(s(n))が与え
られたときの、アナログ/デジタル変換器17から出力
される音声サンプル(y(n))のベクトルの同時確率密
度関数は次のような形態を有する。
【0043】
【0044】当業者には理解されるように、この音声サ
ンプル(y(n))のベクトルの同時確率密度関数は変数
g(n)に関して定められているが、g(n)はy(n)及び
s(n)の関数であり且つs(n)はこの確率密度関数につ
いて与えられた変数(すなわち、既知の変数)であるの
で、それは全く問題にならない。
【0045】p(a|k) この項は、ARフィルタ係数(a)の先験的確率密度関数
を定義し、これにより、統計解析装置21はそれらの係
数がとると期待する値に関する知識を導入することがで
きる。この実施例では、統計解析装置21はこの先験的
確率密度関数を未知の分散(σa 2)と、平均ベクトル
μ a)とを有するガウシアンによりモデル化する。す
なわち、
【0046】 新たな変数σa 2及びμ aを導入することにより、これら
の変数の先験的密度関数(p(σa 2)及びp(μ a))を
先に示した等式(10)の分母に加算しなければならな
くなる。まず、処理すべき音声の第1のフレームについ
て、平均ベクトル(μ a)を0に設定することができ、
処理すべき音声の第2のフレーム及びそれに続くフレー
ムについては、平均ベクトルを先行フレームの処理中に
得られた平均ベクトルに設定することができる。この場
合、p(μ a)はまさにμ aの現在値に位置するディラッ
クのデルタ関数であるので、無視できる。
【0047】ARフィルタ係数の分散の先験的確率密度関
数に関して、全ての分散が等しい確率を有することを示
唆するために、統計解析装置21はこれを何らかの定数
に設定することができるであろう。しかし、この項を使
用して、ARフィルタ係数の分散がどのようになると期待
されるかということに関する知識を導入することが可能
である。この実施例では、分散は常に正であるので、統
計解析装置21はこの分散先験的確率密度関数をパラメ
ータαa及びβaを有する逆ガンマ関数により、すなわ
ち、
【0048】 によりモデル化する。処理すべき音声の初めには、統計
解析装置21はARフィルタ係数の分散に関して多くの知
識を持っていない。従って、当初、統計解析装置21は
分散σa 2と、逆ガンマ関数のα及びβパラメータを、こ
の確率密度関数がほぼ平坦になるように、従って、情報
量が多いとは言えないような状態になるように設定す
る。しかし音声の第1のフレームが処理された後、これ
らのパラメータは、音声の次のフレームの処理中には、
音声の先行フレームの処理中に計算されたパラメータ値
を使用してより正確に設定できる。
【0049】p(h|r) この項は、チャネルモデル係数(h)の先験的確率密度
関数を表し、これにより、統計解析装置21は、これら
の係数がとると期待される値に関する知識を導入するこ
とができる。ARフィルタ係数の先験的確率密度関数の場
合と同様に、この実施例では、この確率密度関数は未知
の分散(σh 2)及び平均ベクトル(μ h)を有するガウ
シアンにより、すなわち、
【0050】 によりモデル化される。この場合にも同様に、これらの
新たな変数を導入することにより、先験的密度関数(p
(σh 2)及びp(μ h))を等式(10)の分母に加算し
なければならなくなる。また、平均ベクトルは当初は0
に設定でき、音声の第1のフレームが処理された後、後
続する処理すべき音声の全てのフレームについては、平
均ベクトルを先行フレームの処理中に得られた平均ベク
トルと等しくなるように設定できる。従って、p(μ h
μ hの現在値に位置するまさにディラックのデルタ関
数であるので、無視することができる。
【0051】チャネルフィルタ関数の分散の先験的確率
密度関数に関しても同様に、この実施例では、これはパ
ラメータαh及びβhを有する逆ガンマ関数によりモデル
化される。同様に、分散(σh 2)と、逆ガンマ関数のα
及びβパラメータを、当初は、それらの密度が多くの情
報を含まず、従って、初期フレームのその後の処理にほ
とんど影響を及ぼさないように選択することができる。
【0052】p(σe 2)及びp(σε 2) これらの項は、プロセス雑音分散及び測定雑音分散の先
験的確率密度関数であり、これらの項により、統計解析
装置21は、これらの雑音分散がとると期待する値に関
する知識を導入することができる。この実施例では、統
計解析装置21はパラメータαe、βe及びαε、βε
それぞれ有する逆ガンマ関数によりこれらをモデル化す
る。同様に、当初、これらの分散及びガンマ関数パラメ
ータを、多くの情報を含まず、初期フレームのその後の
計算にそれほど影響を及ぼさないように設定することが
できる。
【0053】p(k)及びp(r) これらの項は、ARフィルタモデルオーダ(k)及びチ
ャネルモデルオーダ(r)のそれぞれに対する先験的確
率密度関数である。この実施例では、これらは何らかの
最大オーダに至るまで一様分布によりモデル化される。
このように、それらの事前定義済み最大値を越えること
ができないという点を除いて、モデル中の係数の数に先
験的変更が加わることはない。この実施例では、最大AR
フィルタモデルオーダ(k)は30であり、最大チャネ
ルモデルオーダ(r)は150である。
【0054】従って、等式(10)の分母に関連する等
式を代入すると、p(a,k,h,r,σa 2,σh 2,σe 2
σε 2s(n)|y(n))に比例する次のような同時確率
密度関数が得られる。
【0055】
【0056】ギブスサンプラ この同時確率密度関数の形態を判定するために、統計解
析装置21は関数から「サンプルを取り出す」。この実
施例では、サンプリングすべき同時確率密度関数は複素
多変量関数であるので、問題をより小さい次元性の確率
密度関数からサンプルを取り出す問題に分解するギブス
サンプラを使用する。すなわち、ギブスサンプラは条件
付き密度から確率変量を次のように取り出すことにより
動作を進行する。
【0057】第1の反復法
【0058】第2の反復法
【0059】式中、(h0,r0,(σe 20
(σε 20,(σa 20,(σh 20s(n)0)は先行
する音声のフレームの統計解析の結果から得られる初期
値であるが、先行フレームが存在しない場合、音声処理
の分野の当業者には良く知られている適切な値に設定で
きる。
【0060】当業者には理解されるであろうが、それら
の条件付き密度は与えられた(すなわち、既知の)変数
の現在値を等式(19)の密度関数の項に挿入すること
により得られる。条件付き密度p(a,k|...)の場
合、この結果、次のような等式が得られる。
【0061】
【0062】この等式を次のように簡単にすることがで
きる。
【0063】
【0064】これは、下記の共分散行列を有する標準ガ
ウス分布の形態である。
【0065】
【0066】aに関して等式(21)の指数を微分し、
指数の微分を0に等しくさせるaの値を判定することに
より、このガウス分布の平均値を判定できる。この結
果、平均値は次の値となる。
【0067】
【0068】次に、この標準ガウス分布から1つのサン
プルを取り出して、a gを求める(gはギブスサンプラのg
回目の繰り返しである)。尚、モデルオーダ(kg)は後
述するモデルオーダ選択装置により判定される。このガ
ウス分布からのサンプルの取り出しは、一様に分布する
乱数のベクトルを生成する乱数発生器を使用し、次に、
等式(22)及び(23)に示す共分散行列及び平均値
を使用して乱数を変換し、サンプルを生成することによ
り実行されれば良い。しかし、この実施例では、平均が
0であり且つ分散は1であるガウス分布から乱数を生成
する乱数発生器を使用する。これにより、変換プロセス
は等式(22)に示す平均値を使用する単純なスケーリ
ングと、等式(23)に示す平均値を使用するシフティ
ングのプロセスに簡略化される。ガウス分布からサンプ
ルを取り出す技法は統計解析の分野では良く知られてい
るので、ここでは詳細な説明を省略する。詳細な説明に
ついては、W.Press他著「Numerical Recipes in C」
(Cambridge University Press,1992年)、特にそ
の第7章を参照のこと。
【0069】しかし、当業者には理解されるであろう
が、このガウス分布からサンプルを取り出せるようにな
る前に、行列S及びベクトルs(n)がわかるように生音
声サンプルの推定値が利用できる状態になっていなけれ
ばならない。この実施例において生音声サンプルのその
ような推定値を求める方法については後に説明する。
【0070】条件付き密度p(h,r|...)に関する同
様の解析により、これも標準ガウス分布であるが、その
共分散行列と平均値は次の通りであることが判明した。
【0071】
【0072】このガウス分布から先に説明した方法によ
h gのサンプルを取り出すことができ、チャネルモデル
オーダ(rg)は後述するモデルオーダ選択ルーチンを使
用して判定される。
【0073】条件付き密度p(σe 2|...)に関する同
様の解析により、
【0074】 であることがわかり、式中、
【0075】 である。これを次のように簡略化することができる。
【0076】
【0077】これも次のようなパラメータを有する逆ガ
ンマ分布である。
【0078】
【0079】次に、まず、一様分布から乱数を生成し、
その後、等式(27)に示すアルファパラメータ及びベ
ータパラメータを使用して乱数の変換を実行することに
より、この逆ガンマ分布からサンプルを取り出し、(σ
e 2gを求める。
【0080】条件付き密度p(σε 2|...)に関する
同様の解析により、これも次のパラメータを有する逆ガ
ンマ分布であることが判明した。
【0081】
【0082】式中、
【0083】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、(σε 2gを求め
る。
【0084】条件付き密度p(σa 2|...)に関する同
様の解析により、これも次のパラメータを有する逆ガン
マ分布であることが判明した。
【0085】
【0086】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、(σa 2gを求め
る。
【0087】同様に、条件付き密度p(σh 2|...)も
次のパラメータを有する逆ガンマ分布である。
【0088】
【0089】次に、先に説明した方法によりこの逆ガン
マ分布からサンプルを取り出して、(σh 2gを求め
る。
【0090】当業者には理解されるであろうが、ギブス
サンプラは平衡状態(バーンインとして知られている)
に収束するまでに初期過渡期間を必要とする。最終的に
は、L回の繰り返しの後、サンプル(a L,kLh L,rL
(σe 2L,(σε 2L,(σ a 2L,(σh 2L,s
(n)L)は等式(19)に定義される同時確率密度関数
からのサンプルであると考えられる。この実施例では、
ギブスサンプラは入力音声のフレームごとに約150回
の繰り返しを実行し、初めの50回の繰り返しからのサ
ンプルを廃棄して、残る繰り返しからのサンプルを使用
し、等式(19)で定義される同時確率密度関数がどの
ように見えるかを表すピクチャ(1組のヒストグラム)
を生成する。それらのヒストグラムから、アナログ/デ
ジタル変換器17からの観測音声サンプル(y(n))を
最も良く表現する1組のAR係数(a)を判定する。ま
た、ヒストグラムは、ギブスサンプラが音声の次のフレ
ームを処理するときにギブスサンプラの初期値として使
用できる分散及びチャネルモデル係数(h)の適切な値
を判定する目的でも使用される。
【0091】モデルオーダ選択 先に述べた通り、ギブス繰り返しの間、ARフィルタのモ
デルオーダ(k)及びチャネルフィルタのモデルオーダ
(r)はモデルオーダ選択ルーチンを使用して更新され
る。この実施例では、これは、Peter Greenの論文「Rev
ersiblejump Markov chain Monte Carlo Computation a
nd Bayesian model determination」(Biometrika、第
82巻、711~732ページ、1995年)の中で説
明されている「Reversiblejump Markov chain Monte Ca
rlo computation(可逆飛び越しマルコフ連鎖モンテカ
ルロ計算)」から派生した技法を使用して実行される。
【0092】図4は、ARフィルタモデルオーダ(k)に
ついてこのモデルオーダ選択ルーチンの間に実行される
処理ステップを示すフローチャートである。図示されて
いるように、ステップs1では、新たなモデルオーダ(k
2)を提案する。この実施例では、通常、新たなモデル
オーダはk2=k1±1として提案されているが、まれにk2
=k1±2として提案され、更にごくまれにk2=k1±3な
どとして提案される。これを実現するために、現在モデ
ルオーダ(k1)を中心とする分散ラプラシアン密度関数
から、このラプラシアン密度関数の分散を要求されるモ
デルオーダスペースのサンプリングの程度に従って先験
的に選択して、サンプルを取り出す。
【0093】次に、処理はステップs3へ進み、モデル
オーダ変数(MO)を に等しく設定する。
【0094】式中、比の項は現在モデルオーダ(k1
と、提案された新たなモデルオーダ(k2)とについて
の、ギブスサンプラにより取り出された現在ARフィルタ
係数(a)に関して評価された等式(21)に示す条件
付き確率の比である。k2>k1であれば、まず、行列Sの
大きさを再設定しなければならず、次に、(新たな大き
さに設定された行列Sについて判定された)等式(2
2)及び(23)により定義される平均ベクトル及び共
分散行列を有するガウス分布から新たなサンプルを取り
出して、新たなモデルオーダ(k2)に対するARフィルタ
係数(a <1 :k2 )を求めなければならない。k2<k1
あれば、aベクトルから最後の(k1−k2)個のサンプル
を削除するだけで良い。等式(31)における比が1よ
り大きい場合、それは提案されたモデルオーダ(k2)が
現在モデルオーダより良いことを示唆し、逆に、比が1
より小さい場合には、それは現在モデルオーダが提案さ
れたモデルオーダより良いことを示唆している。しか
し、場合によってはそうでない場合もあるので、この実
施例では、モデルオーダ変数(MO)を固定された閾値1
と比較することにより提案されたモデルオーダを受け入
れるか否かを決定するのではなく、ステップs5で、モ
デルオーダ変数(MO)を0から1の間にある乱数と比較
する。モデルオーダ変数(MO)がこの乱数より大きけれ
ば、処理はステップs7へ進み、モデルオーダを提案さ
れたモデルオーダ(k2)に設定し、且つk2の値と関連す
るカウントを増分する。これに対し、モデルオーダ変数
(MO)が乱数より小さい場合には、処理はステップs9
へ進み、現在モデルオーダを維持し、且つ現在モデルオ
ーダ(k1)の値と関連するカウントを増分する、そこで
処理は終了する。
【0095】このモデルオーダ選択ルーチンはARフィル
タモデルのモデルオーダと、チャネルフィルタモデルの
モデルオーダの双方について実行される。このルーチン
はギブス繰り返しのたびに実行されても良いが、それは
不可欠ではない。従って、この実施例では、このモデル
オーダ更新ルーチンは3回のギブス繰り返しが終了する
たびに実行される。
【0096】シミュレーションスムーザ 先に述べた通り、ギブスサンプラを使用してサンプルを
取り出せるようにするためには、ギブスサンプラで使用
されるs(n)、S及びYを生成するように生音声サンプル
の推定値が必要である。これらは条件付き確率密度関数
p(s(n)|...)から求めることができるであろう。
しかし、この実施例では、S(n)の次元性が高いために
この方法は実行されない。従って、この実施例では、生
音声サンプルの必要な推定値を求めるために別の技法を
使用する。すなわち、この実施例において、「シミュレ
ーションスムーザ」は、これらの推定値を求めるために
使用される。このシミュレーションスムーザは、Piet d
e Jongの論文「TheSimulation Smoother for Time Seri
es Models」(Biometrika(1995年)第82巻2,
339~350ページ)により提案されていた。当業者
には理解されるであろうが、シミュレーションスムーザ
はギブスサンプラより前に動作される。また、生音声サ
ンプルの推定値を更新するためにギブス繰り返し中にも
再び動作される。この実施例では、シミュレーションス
ムーザはギブス繰り返しが4回実行されるたびに動作さ
れる。
【0097】シミュレーションスムーザを動作させるた
めに、先に等式(4)及び(6)で定義したモデル等式
を次のように「状態空間」フォーマットに書き直さなけ
ればならない。
【0098】
【0099】式中、
【0100】この状態空間表現によって、生音声ベクト
ル(s^(n))及びプロセス雑音ベクトル(e^(n))の
次元性をN×1にする必要はなくなり、モデルオーダk及
びrのうち大きい方のモデルオーダと同じ大きさにする
だけで良い。通常、チャネルモデルオーダ(r)の方がA
Rフィルタモデルオーダ(k)より大きい。従って、生音
声サンプルのベクトル(s^(n))及びプロセス雑音の
ベクトル(e^(n))をr×1にするだけで良いので、行
列A~の次元性はr×rであれば良い。シミュレーションス
ムーザは2つの段階、すなわち、現在フレームの音声サ
ンプルに対してカルマンフィルタが動作される第1の段
階と、現在フレームの音声サンプルに対してカルマンフ
ィルタ段階から得られたデータを使用して「平滑化」フ
ィルタが動作される第2の段階とを含む。図5は、シミ
ュレーションスムーザにより実行される処理ステップを
示すフローチャートである。図示されているように、ス
テップs21では、システムは時間変数tを1に等しくな
るように初期設定する。カルマンフィルタ段階の間、現
在処理すべきフレーム中のN個の音声サンプルを時間の
順に処理するために、この時間変数はt=1からNまで変
化される。ステップs21の後、処理はステップs23へ
進み、現在処理すべき音声サンプル(y(t))について
次のカルマンフィルタ等式が計算される。
【0101】
【0102】式中、生音声サンプルの初期ベクトル(s^
(1))は、先行フレームの処理から得られた生音声サ
ンプルを含み(先行フレームが存在しない場合には、s
(i)はi<1に対して0に等しくなるように設定され
る)、P(1)はs^(1)の分散(先行フレームから求
められるか、又は当初はσe 2に設定できる)であり、
は先行フレームの処理から求められる現在のチャネルモ
デル係数の組であり(先行フレームが存在しない場合に
は、hの要素をその期待値、すなわち、0に設定でき
る)、y(t)は現在処理すべきフレームの現在音声サン
プルであり、Iは恒等行列である。次に、処理はステッ
プs25へ進み、r×r行列L(t)と共にスケーラ値w
(t)及びd(t)を格納する(あるいは、カルマンフィ
ルタ利得ベクトルkf(t)を格納し、そこからL(t)を
生成することもできるであろう)。その後、処理はステ
ップs27へ進み、システムは、現在フレームの全ての
音声サンプルを処理し終わったか否かを判定する。まだ
処理が終了していなければ、処理はステップs29へ進
み、現在フレームの次のサンプルが同様にして処理され
るように、時間変数tを1増分する。現在フレームのN個
のサンプルの全てがこのようにして処理され、対応する
値が格納されたならば、シミュレーションスムーザの第
1の段階は完了する。
【0103】次に処理はステップs31へ進み、シミュ
レーションスムーザの第2の段階が開始される。そこ
で、平滑化フィルタは現在フレームの音声サンプルを逆
の順序で処理する。図示されているように、ステップs
31では、システムは、現在処理すべき音声サンプルに
対して、現在処理すべき音声サンプルについて計算さ
れ、格納されているカルマンフィルタ変数と共に、下記
の平滑化等式を計算する。
【0104】
【0105】式中、η(t)は平均が0であり且つ共分
散行列C(t)を有するガウス分布から取り出されるサン
プルであり、初期ベクトルr(t=N)及び初期行列U(t
=N)は共に0に設定され、s(0)は先行フレームの処
理から求められる(先行フレームが存在しない場合に
は、0に等しくなるように設定できる)。次に処理はス
テップs33へ進み、現在処理すべき音声サンプルのプ
ロセス雑音の推定値(e~(t))及び現在処理すべき音
声サンプルの生音声サンプルの推定値(s^(t))を格
納する。その後、処理はステップs35へ進み、システ
ムは、現在フレームの全ての音声サンプルが処理され終
わったか否かを判定する。まだ処理が終了していなけれ
ば、処理はステップs37へ進み、現在フレームの先行
サンプルが同じようにして処理されるように時間変数t
を1減分する。現在フレームの全てのN個のサンプルが
すべてこのようにして処理され終わり、対応するプロセ
ス雑音及び生音声サンプルが格納されたならば、シミュ
レーションスムーザの第2の段階は完了し、s(n)の推
定値は生成されたことになる。
【0106】等式(4)及び(8)に示すように、行列
S及び行列Yはs(n)における生音声サンプルに加えて、
生音声サンプルs(n−N−1)からs(n−N−k+1)及
びs(n−N−1)からs(n−N−r+1)をそれぞれ要求
する。これらの追加の生音声サンプルは音声の先行フレ
ームの処理から得られ、先行フレームが存在しない場合
には、0に設定できる。これらの生音声サンプルの推定
値によって、上述の確率密度関数からサンプルを取り出
すためにギブスサンプラを動作させることができる。
【0107】統計解析装置−動作 以上、統計解析装置21の基礎を成す理論を説明した。
次に、図6から図8を参照して統計解析装置21の動作
を説明する。
【0108】図6は、この実施例の統計解析装置21の
主な構成要素を示すブロック線図である。図示されてい
るように、統計解析装置21は先に説明したギブスサン
プラ41と、シミュレーションスムーザ43(カルマン
フィルタ43−1及び平滑化フィルタ43−2を含む)
と、モデルオーダ選択器45とを具備する。更に、処理
すべき現在フレームの音声サンプルを受け取るメモリ4
7と、ギブスサンプラ41及びモデルオーダ選択器45
により生成されたデータを処理するデータ解析装置49
と、統計解析装置21の動作を制御する制御装置50と
を具備する。
【0109】図6に示すように、メモリ47は不揮発性
メモリエリア47−1と、作業用メモリエリア47−2
とを含む。不揮発性メモリエリア47−1は、ギブスサ
ンプラ41により使用されるべき、先の等式(19)に
示す同時確率密度関数、分散及び平均値に関する等式、
及び上述の条件付き確率密度関数に関する先の等式(2
2)から(24)及び(27)から(30)に示す逆ガ
ンマパラメータの等式を格納するために使用される。不
揮発性メモリエリア47−1は、更に、シミュレーショ
ンスムーザ43により使用されるべき、先の等式(3
3)に示すカルマンフィルタの等式と、先の等式(3
4)に示す平滑化フィルタの等式とを格納する。
【0110】図7は、作業用メモリエリア(RAM)47
−2に格納されるパラメータを示す概略図である。図示
されているように、RAMは、現在処理すべきフレーム
(f)についてアナログ/デジタル変換器17により出
力される音声サンプルyf(1)からyf(N)を格納する
ストア51を含む。先に述べた通り、これらの音声サン
プルはギブスサンプラ41とシミュレーションスムーザ
43の双方で使用される。RAM47−2は、モデルパラ
メータの初期推定値(g=0)と、現在処理すべきフレ
ームについてギブスサンプラ41により前述の条件付き
確率密度関数から取り出される各パラメータのM個のサ
ンプルg=1からM)とを格納するストア53を更に含
む。先に述べた通り、この実施例では、ギブスサンプラ
41は初めの50個のサンプルを放棄して、入力音声の
フレームごとに150回の繰り返しを実行するので、M
は100である。RAM47−2は、前記カルマンフィル
タ43−1により音声の現在フレームにおける音声サン
プルの処理中に計算される、t=1からNのときのW
(t)、d(t)及びL(t)を格納するストア55を更に
含む。RAM47−2は、生音声サンプル(s^f (t))の推
定値と、前述のように平滑化フィルタ43−2により発
生するプロセス雑音(e^f(t))の推定値とを格納するス
トア57を更に含む。RAM47−2は、ARフィルタモデ
ル及びチャネルモデルのモデルオーダが更新されるとき
にモデルオーダ選択器45により生成されるモデルオー
ダカウントを格納するストア59を更に含む。
【0111】図8は、この実施例において、統計解析装
置21の処理動作を制御するために制御装置50により
使用される制御プログラムを示す流れ図である。図示さ
れているように、ステップs41では、制御装置50は
次に処理すべき音声サンプルのフレームをバッファ19
から検索し、それらをメモリストア51に格納する。処
理は続いてステップs43へ進み、チャネルモデル、生
音声サンプル、プロセス雑音統計値及び測定雑音統計値
の初期推定値を設定し、ストア53に格納する。これら
の初期推定値は先行する音声のフレームの処理中に得ら
れた値になるように設定されるか、又は先行する音声の
フレームが存在しない場合には、その期待値(0であっ
ても良い)に設定される。その後、処理はステップs4
5へ進み、先に説明したように生音声サンプルの推定値
を求めるようにシミュレーションスムーザ43が動作さ
れる。次に処理はステップs47へ進み、ステップs45
で得られた生音声サンプルを使用してチャネルモデル、
音声モデル、プロセス雑音統計値及び測定雑音統計値を
更新するために、ギブスサンプラ41の1回の繰り返し
が実行される。更新後のそれらのパラメータ値はメモリ
ストア53に格納される。
【0112】次に、処理はステップs49へ進み、制御
装置50はARフィルタモデル及びチャネルモデルのモデ
ルオーダを更新すべきか否かを判定する。先に述べた通
り、この実施例では、それらのモデルオーダは3度目の
ギブズ繰り返しのたびに更新される。モデルオーダを更
新すべきである場合、処理はステップs51へ進み、モ
デルオーダ選択器45を使用してARフィルタモデル及び
チャネルモデルのモデルオーダを前述のようにして更新
する。ステップs49で制御装置50がモデルオーダを
更新すべきでないと判定した場合には、処理はステップ
s51を飛び越してステップs53へ進む。ステップs5
3では、制御装置50は次のギブス繰り返しを実行すべ
きか否かを判定する。次の繰り返しを実行すべき場合、
処理は決定ブロックs55へ進み、制御装置50は生音
声サンプル(s(t))の推定値を更新すべきか否かを決
定する。生音声サンプルを更新すべきでない場合、処理
はステップs47に戻って、次のギブス繰り返しが実行
される。
【0113】先に述べた通り、この実施例では、生音声
サンプルを更新するために、4度目のギブス繰り返しの
たびにシミュレーションスムーザ43が動作される。従
って、ステップs55で制御装置50が音声サンプルの
更新後に4度目のギブス繰り返しが行われたと判定した
場合には、処理はステップs45に戻り、再びシミュレ
ーションスムーザを動作させて、生音声サンプル(s
(t))の新たな推定値を提供する。制御装置50が要
求される150回のギブス繰り返しの実行が完了したと
判定したならば、制御装置50は処理をステップs57
へ進ませ、データ解析装置49はモデルオーダ選択器4
5により生成されたモデルオーダカウントを解析して、
現在処理すべき音声のフレームを最も良く表現するARフ
ィルタモデル及びチャネルモデルのモデルオーダを判定
する。次に、処理はステップs59へ進み、データ解析
装置49はギブスサンプラ41により条件付き密度から
取り出されたサンプルを解析して、現在処理すべき音声
のフレームを最も良く表現するARフィルタ係数(a
と、チャネルモデル係数(h)と、それらの係数の分散
と、プロセス雑音分散及び測定雑音分散とを判定する。
次に、処理はステップs61に進み、制御装置50は処
理すべき音声が更に存在するか否かを判定する。処理す
べき音声が他にも存在する場合には、処理はステップs
41に戻り、次の音声のフレームに対して上記のプロセ
スを繰り返す。全ての音声がこのようにして処理され終
わったならば、処理は終了する。
【0114】データ解析装置 次に、図9を参照してデータ解析装置49を更に詳細に
説明する。先に述べた通り、データ解析装置49は、ま
ず、ステップs57で、現在処理すべき音声のフレーム
を最も良く表現するARフィルタモデル及びチャネルモデ
ル双方のモデルオーダを判定する。データ解析装置49
は、モデルオーダ選択器45がステップs51で動作さ
れたときにモデルオーダ選択器45により生成されてい
たカウントを使用してこれを実行する。これらのカウン
トはRAM47−2のストア59に格納されている。この
実施例では、最良のモデルオーダを判定するとき、デー
タ解析装置49は最高のカウントを有するモデルオーダ
を識別する。図9aは、ARフィルタモデルのモデルオー
ダ(k)について生成されたカウントの分布を示すヒス
トグラムの一例である。従って、この例においては、デ
ータ解析装置49はARフィルタモデルの最良のモデルオ
ーダを5として設定していると考えられる。データ解析
装置49はチャネルモデルのモデルオーダ(r)につい
て生成されたカウントも同様にして解析し、チャネルモ
デルの最良のモデルオーダを判定する。
【0115】データ解析装置49は、最良のモデルオー
ダ(k及びr)を判定した後、ギブスサンプラ41により
生成され、RAM47−2のストア53に格納されている
サンプルを解析して、それらのサンプルを最も良く表現
しているパラメータ値を判定する。データ解析装置49
は、各々のパラメータについてヒストグラムを判定し、
そこから最も良く表現しているパラメータ値を判定する
ことによりこれを実行する。ヒストグラムを生成するた
めに、データ解析装置49はギブズサンプラにより取り
出された最大サンプル値及び最小サンプル値を判定し、
この最小値と最大値との間のパラメータ値の範囲を所定
の数の部分範囲、すなわち、ビンに分割する。次に、デ
ータ解析装置49は各々のサンプル値を適切なビンに割
り当て、各ビンに割り当てられたサンプルの数をカウン
トする。次に、それらのカウントを使用してサンプルの
加重平均を計算し(サンプルごとに使用される重み付け
はそれに対応するビンのカウントによって決まる)、最
も良く表現しているパラメータ値(最大平均2乗推定値
(MMSE)として知られている)を判定する。図9bは、
プロセス雑音の分散(σe 2)について生成されるヒスト
グラムの一例を示し、そこからデータ解析装置49は、
サンプルを表現する分散は0.3149であると判定す
る。
【0116】ARフィルタ係数(i=1からkのときの
a)を判定する際、データ解析装置49は係数ごとに
サンプルのヒストグラムを個別に判定し、解析する。図
9cは、第3のARフィルタ係数(a3)について求められ
たヒストグラムの一例を示し、そこからデータ解析装置
49は、サンプルを表現する係数が−0.4977であ
ると判定する。
【0117】この実施例では、データ解析装置49は、
図2に示す係数変換器23に供給されたARフィルタ係数
を出力するだけである。データ解析装置49により判定
されたその他のパラメータ値は、次の音声のフレームの
処理中に使用するため、RAM47−2に格納される。先
に述べた通り、統計解析装置21により出力されたARフ
ィルタ係数は係数変換器23に入力され、係数変換器2
3はそれらの係数を、後に認識結果を生成するために音
声認識装置25により格納されている音声モデルと比較
されるケプストラム係数に変換される。
【0118】当業者には理解されるであろうが、統計解
析技法を利用して、入力音声信号を表現する複数組のAR
フィルタ係数を判定する音声処理技法を説明してきた。
この技法は、ARフィルタ係数を判定するに際して最大尤
度推定装置を採用していた従来の技法と比較してより頑
丈であり且つ正確である。それは、各フレームの統計解
析で先行フレームの処理から得られた知識を使用するた
めである。更に、前述のように解析を実行する場合、AR
フィルタモデルのモデルオーダは一定であるとは想定さ
れず、フレームごとに変化しても差し支えない。このよ
うに、最適数のARフィルタ係数を使用して、各フレーム
内の音声を表現することができる。その結果、統計解析
装置21により出力されるARフィルタ係数は対応する入
力音声をより正確に表現するのである。また、使用され
る基礎プロセスモデルは音声源をチャネルから分離する
ので、判定されるARフィルタ係数は実際の音声をより良
く表現し、チャネルのひずみ効果を取り込みにくくなっ
ている。更に、各々のパラメータについて分散情報を利
用できるため、各々のパラメータ推定値の信頼性を指示
できる。これは、パラメータ値の点推定値を判定する最
大尤度方式及び線形最小予測解析などの最小2乗方式と
は対照的である。
【0119】他の実施例 上記の実施例では、入力音声を表現するAR係数を生成す
るために音声認識システムのプリプロセッサとして統計
解析装置を使用していた。また、統計解析装置はその他
にもいくつかのパラメータ値(プロセス雑音分散及びチ
ャネルモデル係数など)を生成していたが、それらの値
は統計解析装置により出力されることがなかった。当業
者には理解されるであろうが、統計解析装置により計算
されるAR係数や、その他のパラメータの一部を他の目的
のために利用することも可能である。例えば、図10
は、音声認識装置25と音声モデル27がAR係数に基づ
いて動作するために係数変換器が設けられていないとい
う点を除いて図2に示す音声認識システムに類似する音
声認識システムを示す。図10に示す音声認識システム
は、追加の構成要素として、統計解析装置21により生
成されるARフィルタモデルオーダ(k)と共にARフィル
タ係数(a)を受信する音声検出装置61を更に有し、
音声検出装置61は、マイクロホン7から受信された信
号の中に音声が存在する時点をそれらのARフィルタモデ
ルオーダ及びARフィルタ係数から判定するように動作可
能である。ARフィルタモデルオーダ及びARフィルタ係数
値は、音声が存在している間、音声がないときに比べて
大きくなるため、音声検出装置はこの判定を実行するこ
とができる。従って、ARフィルタモデルオーダ(k)及
び/又はARフィルタ係数値を適切な閾値と比較すること
により、音声検出装置61は入力信号の中に音声が存在
するか否かを判定することができるのである。音声検出
装置61は、音声の存在を検出すると、適切な制御信号
を音声認識装置25へ出力し、音声認識装置に統計解析
装置21から受信したAR係数の処理を開始させる。同様
に、音声検出装置61は、音声の終わりを検出すると、
適切な制御信号を音声認識装置25へ出力し、音声認識
装置に統計解析装置21から受信したAR係数の処理を停
止させる。
【0120】上記の実施例においては、音声認識システ
ムは、入力音声の統計解析を実行する特定の音声事前処
理フロントエンドを有するものとして説明されていた。
当業者には理解されるであろうが、この事前処理は音声
認識システム以外の音声処理システムでも利用できる。
例えば、図11に示すように、統計解析装置21は話者
照合システム65に対するフロントエンドを形成しても
良い。この実施例では、話者照合システム65は統計解
析装置21により出力されるARフィルタ係数の系列をあ
らかじめ格納されていた話者モデル67と比較して、受
信した音声が既知のユーザに対応するか否かを判定す
る。
【0121】図12は、統計解析装置21の別の適用用
途を示す。すなわち、図12は音響分類システムを示
す。統計解析装置21は、先に説明したようにして入力
された音響信号(音声であっても良く、あるいは音声で
なくとも良い)についてARフィルタ係数を生成するため
に使用される。それらの係数は音響分類システム66に
提供され、音響分類システム66は、統計解析装置から
のAR係数をあらかじめ格納されていた音響モデル68と
比較して、分類結果を生成する。この分類システムは、
例えば、打楽器の音と、木管楽器の音と、金管楽器の音
と、音声等の種々の音を識別したり、分類(カテゴライ
ズ)する目的で使用されても良い。
【0122】図13は、統計解析装置21の別の適用用
途を示す。すなわち、図13は音声符号化送信システム
を示す。統計解析装置21は、先に説明したようにAR
フィルタ係数を生成するために使用される。これらAR
フィルタ係数はチャネル符号器に提供され、チャネル符
号器は、ARフィルタ係数が通信チャネルを介して送信
するのにより適した形態となるようにARフィルタ係数
の系列を符号化する。符号化されたARフィルタ係数は
送信器73へ送信され、送信器73では、符号化データ
を使用して搬送波信号を変調する。変調後の搬送波信号
は遠隔受信器75へ送信される。受信器75は受信した
信号を復調して符号化データを回復し、符号化データは
復号器76により復号される。復号器により出力された
ARフィルタ係数の系列は、それらのARフィルタ係数
の系列を格納されている基準モデル(図示せず)と比較
して認識結果を生成する音声認識装置77へ送信される
か、又は音声を再生し、それをスピーカ81を介して出
力する音声合成装置79へ送信される。図示されている
ように、音声合成装置79への印加に先立って、ARフ
ィルタ係数の系列はオプションの処理装置83(破線に
より示す)を通過しても良い。この処理装置は、合成さ
れる音声の特性を操作するために使用される。前述の統
計解析装置を使用することの重大な利点は、ARフィル
タモデルのモデルオーダが一定であるとは想定せず、フ
レームごとにARモデルオーダが変化するという点であ
る。このようにして、最適の数のARフィルタ係数を使
用して、各フレーム内で音声を表現する。これに対し、
線形予測解析においては、ARフィルタ係数の数は一定
であると想定しているので、従来の技法は、情報が失わ
れないように保証するために音声を順次過剰にパラメー
タ化する傾向にある。その結果、上述の統計解析によれ
ば、送信器から受信器へ送信されるべきデータの量は、
ARフィルタモデルのサイズが一定であると想定する従
来のシステムと比べて少なくなる。
【0123】図14は、上述した統計解析法装置21を
使用する別のシステムを示す。図14に示されるシステ
ムは、その後の声の検索動作において使用するためのデ
ータファイル91に、ユーザが声の注釈を追加すること
を可能とする。使用中に、ユーザは、注釈されるべきデ
ータファイル(それは写真等であってもよい)を選択す
る。次にユーザは声の注釈を発声する。そして、上述と
と同様に、マイクロホン7を通して受け取られた入力音
声は統計解析装置21によって処理される。ただし、そ
のデータ解析装置は、音声品質査定部93に渡される音
声の各フレームに関するARフィルタ係数の変化(σa 2
を出力するだけである。音声品質査定部93は、入力音
声の品質の指示としてこの変化の情報を使用する(な
お、これは他の要素にも依存する)。しかしながら、入
力音声が高品質(すなわち、高レベルの背景雑音で妨害
されない)のものであるときに、一般に、変化は小さく
あるべきである、そして、雑音が高レベルであるとき、
変化は大きくあるべきである。そして、音声品質査定部
93は入力された声の注釈が高品質のものであるか否か
を特定する信号を、データファイル注釈ユニット95へ
出力する。この実施形態において、入力音声は、また、
伝統的な音声プリプロセッサ95を経て、単語及び/又
は入力音声を代表する音素を生成する伝統的な音声認識
装置97へ提供されてもよい。そして、それら単語及び
/又は音素は、データファイル注釈装置99。データフ
ァイル注釈装置99は、次に、音声認識装置97のデー
タ出力と音声品質査定部93によるデータ出力で選択さ
れたデータファイル91に注釈を加え、注釈付データフ
ァイルをデータベース101に格納する。
【0124】当業者には理解されるであろうが、データ
ファイルと共に格納されるこの音声品質標識は後の検索
動作の際に有益である。すなわち、ユーザが(音声問い
合わせを使用して)データベース101からデータファ
イル91を検索したいときに、検索性能に影響を及ぼ
す、そのデータファイルに注釈付けするために使用され
た音声の品質及び/又はそのデータファイルを検索する
ために使用された音声検索問い合わせの品質を知ってい
ることは有益である。つまり、音声注釈が高品質であり
且つユーザの検索問い合わせも高品質であれば、データ
ベース101の厳重な探索を実行できるので、偽識別の
量は減少する。これに対し、元の音声注釈が低品質であ
るか、又はユーザの検索問い合わせが低品質である場合
には、正しいデータファイル91を検索するチャンスを
広げるためにそれほど厳重でないデータベース101の
探索を実行することができる。
【0125】音声品質の標識としてARフィルタ係数の分
散を使用するのに加えて、プロセス雑音のエネルギーの
尺度であるプロセス雑音の分散(σe 2)も入力音声の品
質を適切に表す尺度である。従って、プロセス雑音の分
散をARフィルタ係数の分散と共に又はその代わりに使用
して、入力音声の品質を表す尺度を提供することも可能
である。
【0126】上記実施形態において、分離されたプリプ
ロセッサ95は、音声認識装置97のためのフロントエ
ンドとして提供された。当業者には理解されるように、
統計解析装置21は音声認識装置97のプリプロセッサ
として動作してもよい。同様に、先に図10を参照して
説明した実施形態において、統計解析装置21を音声検
出装置61に情報を提供する目的のためだけに使用し、
音声認識装置25により使用されるべき入力音声をパラ
メータ化するためには別個の音声プリプロセッサを使用
しても良い。しかし、そのように入力音声のパラメータ
化を分離すると、更に処理オーバヘッドが追加されてし
まうため、好ましい方法ではない。
【0127】先に説明した第1の実施例では、第1の実
施例で使用される音声認識装置はケプストラルに基づく
システムであるため、統計解析装置21が出力するARフ
ィルタ係数はケプストラル係数に変換されていた。当業
者には理解されるであろうが、音声認識システムが他の
スペクトル係数と共に機能するように設計されている場
合には、ARフィルタ係数を適切なスペクトルパラメータ
に変換するように係数変換器23を構成すれば良い。ま
た、音声認識システムがAR係数に基づき動作するように
設計されている場合には、係数変換器23は不要であ
る。
【0128】上記の実施例では、等式(19)の様々な
従来の確率密度関数をモデル化するためにガウス分布及
び逆ガンマ分布を使用していた。統計解析の分野の当業
者には理解されるであろうが、それらの分布を選択した
理由はそれらが互いに共役関係にあることである。すな
わち、ギブスサンプラで使用される条件付き確率密度関
数はそれぞれガウス関数であるか、又は逆ガンマ関数で
あるかのいずれかである。従って、これにより、条件付
き確率密度からサンプルを取り出すというタスクが簡略
化される。しかし、これは不可欠ではない。ガウス分布
ではなく、ラプラシアン分布又はスチューデントのt分
布によって雑音確率密度関数をモデル化することも可能
であろう。同様に、分散の確率密度関数を逆ガンマ分布
以外の分布によりモデル化しても良い。例えば、レイリ
ー分布又は常に正である他の何らかの分布により確率密
度関数をモデル化することができる。しかし、共役でな
い確率密度関数を使用すると、ギブスサンプルにより条
件付き密度からサンプルを取り出すタスクの複雑さが増
す結果に成る。
【0129】更に、等式(19)に示す確率密度関数か
らサンプルを取り出すためにギブスサンプラを使用して
いたが、他のサンプリングアルゴリズムを使用すること
も可能であろう。例えば、この確率密度をサンプリング
するために、メトロポリス−ヘイスティングスアルゴリ
ズム(このアルゴリズムは、R.Nealの論文「Probabili
stic inference using Markov chainMonte Carlo metho
ds」(TechnicalReport CRG−TR−93−1、Departmen
t of Computer Science、University of Toronto、19
93年)の中で他の技法と共に検討されている)を使用
しても良い。
【0130】上記の実施例では、生音声サンプルの推定
値を生成するためにシミュレーションスムーザを使用し
ていた。このシミュレーションスムーザは、生音声サン
プルの推定値を生成するために、カルマンフィルタ段
と、平滑化フィルタ段とを含んでいた。別の実施例にお
いては、カルマンフィルタ段が生音声の推定値を生成す
る(等式(33)を参照)ことから、平滑化フィルタ段
を省略しても良い。しかし、平滑化フィルタにより生成
される音声サンプルはより正確で且つ頑丈であると考え
られるため、そのような生音声サンプルは無視されてい
た。これは、カルマンフィルタが本質的に同時確率密度
関数p(s(n)|a,k,σe 2)から音声サンプルの点推定値を生
成するのに対し、シミュレーションスムーザはこの確率
密度関数からサンプルを取り出すためである。
【0131】上記の実施例では、生音声サンプルの推定
値を生成するためにシミュレーションスムーザを使用し
ていた。生音声サンプルを「攪乱母数」として扱い、そ
れらを等式(19)から積分することにより、生音声サ
ンプルを推定する必要をなくすことが可能である。しか
し、その結果として求められる積分は等式(19)に定
義するガウスと逆ガンマの混合よりはるかに複雑な形態
になってしまうため、これは好ましくない。そのような
複雑な形態は、等式(20)から(30)に対応する条
件付き確率も更に複雑にする。同様に、その他の攪乱母
数(係数分散又は逆ガンマ、アルファパラメータ及びベ
ータパラメータのいずれかなど)を積分しても良いが、
その結果、ギブスサンプラを使用してサンプリングされ
るべき密度関数の複雑さが増すために、それも好ましく
ない。攪乱母数を積分する技法は統計解析の分野では良
く知られているので、ここでは詳細に説明しない。
【0132】上記の実施例では、データ解析装置は、モ
デルパラメータごとにヒストグラムを判定した後、対応
するビンにおけるサンプルの数に応じて重み付けを行う
ことにより得られた、ギブスサンプラにより取り出され
たサンプルの加重平均を使用してモデルパラメータの値
を判定することにより、ギブスサンプラにより取り出さ
れたサンプルを解析していた。他の実施例においては、
最高のカウントを有するモデルパラメータの値であると
して、ヒストグラムからモデルパラメータの値を判定し
ても良い。あるいは、ヒストグラムに最も良く当てはま
る最大値を識別するために、所定の曲線(ベル曲線な
ど)をヒストグラムに当てはめることも可能であろう。
【0133】上記の実施例では、統計解析装置は、音声
源モデル(ARフィルタ)とチャネルモデルを別個にして
基礎音声生成プロセスをモデル化していた。これは好ま
しいモデル構造であるが、チャネルモデルなしで基礎音
声生成プロセスをモデル化しても良い。その場合、カル
マンフィルタなどを使用して生音声サンプルの値を推定
する必要はないが、推定を実行することは可能である。
しかし、音声モデルは必然的にチャネルと音声両面を表
現するので、そのような基礎音声生成プロセスは好まし
くない。更に、前述の統計解析装置はARフィルタモデル
及びチャネルモデルのモデルオーダを変化させるために
モデルオーダ選択ルーチンを機能させていたが、これは
不可欠ではない。すなわち、ARフィルタモデルとチャネ
ルモデルのモデルオーダをあらかじめ固定しておいても
良いのであるが、その結果、必然的に表現に誤りが導入
されてしまうため、それは好ましくない。
【0134】上記の実施例では、処理される音声をユー
ザからマイクロホンを介して受信していた。当業者には
理解されるであろうが、音声を電話回線から受信しても
良いし、記録媒体に格納しても良い。その場合、実際に
話された音声を表現するARフィルタ係数が重大な影響を
受けないように、チャネルモデルがこれを補正する。
【0135】上記の実施例では、音声生成プロセスは自
動回帰(AR)プロセスとしてモデル化され、チャネルは
移動平均(MA)プロセスとしてモデル化されていた。当
業者には理解されるであろうが、他の信号モデルを使用
しても差し支えない。しかし、それらのモデルはモデル
化しようとする音声源とチャネルを適切に表現するので
好ましい。
【0136】上記の実施例では、モデルオーダ選択ルー
チンの稼働中、所定のラプラシアン分布関数から確率変
数を取り出すことにより、新たなモデルオーダを提案し
ていた。当業者には理解されるであろうが、他の技法を
使用しても良い。例えば、モデルオーダスペースが十分
にサンプリングされるのであれば、決定的方法(すなわ
ち、所定の規則の下で)新たなモデルオーダを提案して
も良い。
【図面の簡単な説明】
【図1】本発明の一実施例に従って動作するようにプロ
グラムできるコンピュータの概略図である。
【図2】音声認識システムの主な構成要素を示すブロッ
ク線図である。
【図3】図2に示す音声認識システムの一部を形成する
統計解析装置により採用されるモデルを表すブロック線
図である。
【図4】図2に示す統計解析装置の一部を形成するモデ
ルオーダ選択装置により実行される処理ステップを示す
フローチャートである。
【図5】図2に示す統計解析装置の一部を形成するシミ
ュレーションスムーザにより採用される主な処理ステッ
プを示すフローチャートである。
【図6】図2に示す統計解析装置の主な処理要素を示す
ブロック線図である。
【図7】図2に示す統計解析装置の一部を形成するメモ
リに格納されるデータを示すメモリマップである。
【図8】図6に示す統計解析装置により実行される主な
処理ステップを示すフローチャートである。
【図9a】図3に示すモデルの一部を形成する自動回帰
フィルタモデルのモデルオーダを示すヒストグラムの図
である。
【図9b】図3に示すモデルによりモデル化されるプロ
セス雑音の分散を示すヒストグラムの図である。
【図9c】ARフィルタモデルの第3の係数を示すヒスト
グラムの図である。
【図10】統計解析装置により出力されたデータを使用
して入力信号中の音声の始めと終わりを検出する他の音
声認識システムの主な構成要素を示すブロック線図であ
る。
【図11】話者照合システムの主な構成要素を示す概略
ブロック線図である。
【図12】音響分類システムの主な構成要素を示す概略
ブロック線図である。
【図13】音声符号化送信システムの主な構成要素を示
す概略ブロック線図である。
【図14】図6に示す統計解析装置を使用して、関連す
る注釈の音声データの品質を規定するデータファイル注
釈システムの主な構成要素を示すブロック線図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 19/00 G10L 9/16 301A 9/18 A 3/00 531F

Claims (57)

    【特許請求の範囲】
  1. 【請求項1】 音声ソースと受信手段との間の伝送チャ
    ンネルによって歪みを生じた音声ソースによって生成さ
    れる音声信号を表す信号値のセットを受信する手段と、 所定の信号モデルから派生される所定の関数を定義する
    データを格納するメモリと、該所定の信号モデルは前記
    ソースをモデル化する第1パラメータを有する第1パー
    トと、前記チャンネルをモデル化する第2パラメータを
    有する第2パートとを含み、前記関数は前記第1及び第
    2パラメータに関連するとともに信号値のセットに関連
    し、 前記受信された信号値のセットを前記格納された関数に
    適用する手段と、 前記伝送チャンネルによって歪む前の前記音声ソースに
    よって生成される前記音声を表す前記第1パラメータの
    値を得るために適用される値で、前記関数を処理する手
    段とを備えることを特徴とする音声処理装置。
  2. 【請求項2】 前記関数は与えられたセットの受信信号
    値に対する確率密度関数を生成し、該確率密度関数は、
    信号モデルが受信された信号値のセットを作り出したと
    の仮定のもとに、与えられた第1及び第2パラメータの
    セットに関して所定の信号モデルがそれらのパラメータ
    値を有する確率を定義し、前記処理手段は、前記確率密
    度関数からサンプルを引き出す手段と、引き出されたサ
    ンプルから音声を代表する前記第1パラメータの前記値
    を決定する手段とを含むことを特徴とする請求項1に記
    載の装置。
  3. 【請求項3】 異なる数のパラメータ値に対する前記引
    き出されたパラメータ値のサンプルの1つ以上を用い
    て、受信された信号値のセットに対する前記確率密度関
    数を評価し、所定の信号モデルの夫々がそれらのパラメ
    ータ値を有する確率を決定する手段を更に備え、前記処
    理手段は、前記伝送チャネルによって歪められる前の前
    記ソースによって生成された音声を表す前記第1パラメ
    ータの前記値を決定するために、前記引き出されたパラ
    メータ値のサンプルの少なくともいくつか及び前記評価
    された確率を処理するために動作可能であることを特徴
    とする請求項2に記載の装置。
  4. 【請求項4】 前記処理手段は、前記引き出されたサン
    プルのヒストグラムを決定するよう動作し、前記第1パ
    ラメータの前記値は該ヒストグラムより決定されること
    を特徴とする請求項2又は3に記載の装置。
  5. 【請求項5】 前記処理手段は、前記引き出されたサン
    プルの加重和を用いて前記第1パラメータの前記値を決
    定し、該加重は前記ヒストグラムより決定されることを
    特徴とする請求項4記載の装置。
  6. 【請求項6】 前記サンプリング手段は、前記確率密度
    関数から逐次的にサンプルを引き出すために動作可能で
    あることを特徴とする請求項2乃至4のいずれかに記載
    の装置。
  7. 【請求項7】 前記サンプリング手段は、前記第1及び
    第2パラメータの両方からサンプルを引き出し可能に動
    作することを特徴とする請求項2乃至6のいずれかに記
    載の装置。
  8. 【請求項8】 前記サンプリング手段は、ギブスサンプ
    ラを備えることを特徴とする請求項2乃至7のいずれか
    に記載の装置。
  9. 【請求項9】 前記処理手段は、前記サンプルの変化の
    尺度を決定するために前記引き出されたパラメータ値の
    サンプルの少なくともいくつかを分析する手段を備え、
    前記装置は、前記決定された変化の尺度に依存して、受
    信された信号値のセットの品質を表す信号を出力する手
    段を更に備えることを特徴とする請求項2乃至8のいず
    れかに記載の装置。
  10. 【請求項10】 前記確率密度関数は前記変化の尺度に
    関するものであり、前記解析手段は、前記確率密度関数
    より前記変化の尺度のサンプルを引き出すべく動作可能
    であることを特徴とする請求項9に記載の装置。
  11. 【請求項11】 前記関数は、前記伝送チャンネルによ
    って歪まされる前の前記ソースによって生成された音声
    を表す生音声信号値のセットに関連し、前記装置は、前
    記受信された信号値に対応する前記生音声信号の推定値
    を生成するために、受信された信号値のセットを前記第
    1及び第2パラメータの初期推定値で処理する第2処理
    手段を更に備え、前記適用手段は、前記受信された信号
    値のセットとともに、前記推定された生音声信号値のセ
    ットを前記関数に適用することを特徴とする請求項1乃
    至10のいずれかに記載の装置。
  12. 【請求項12】 前記第2処理手段はシミュレーション
    スムーザを備えることを特徴とする請求項11に記載の
    装置。
  13. 【請求項13】 前記第2処理手段はカルマンフィルタ
    を備えることを特徴とする請求項11又は12に記載の
    装置。
  14. 【請求項14】 前記受信手段は、前記伝送チャンネル
    によって歪まされた音声ソースによって生成された音声
    信号を表す信号値のセットのシーケンスを受信可能であ
    り、前記処理手段は、前記シーケンスにおける各信号値
    のセット内の音声に関して前記第1パラメータの値を取
    得可能であることを特徴とする請求項1乃至13のいず
    れかに記載の装置。
  15. 【請求項15】 前記処理手段は、先行する信号値のセ
    ットを処理する間に、処理中の現在の信号値のセットに
    対する前記第1パラメータの値に対する初期推定値とし
    て取得された前記第1パラメータの値を利用可能である
    ことを特徴とする請求項14に記載の装置。
  16. 【請求項16】 前記シーケンスにおける前記信号値の
    セットは、互いに重なり合わないことを特徴とする請求
    項14又は15に記載の装置。
  17. 【請求項17】 前記処理手段は、信号値の各セット内
    の音声信号を表すために用いられるパラメータ値の数を
    変更する手段を備えることを特徴とする請求項14乃至
    16のいずれかに記載の装置。
  18. 【請求項18】 前記第1パートは自動回帰モデルであ
    り、前記第1パラメータは自動回帰モデル係数を備える
    ことを特徴とする請求項1乃至17のいずれかに記載の
    装置。
  19. 【請求項19】 前記第2パートは移動平均モデルであ
    り、前記第2パラメータは移動平均モデル係数であるこ
    とを特徴とする請求項1乃至18のいずれかに記載の装
    置。
  20. 【請求項20】 前記決定された値を、予め格納された
    パラメータ値と比較し、比較結果を生成する手段を更に
    備えることを特徴とする請求項1乃至19のいずれかに
    記載の装置。
  21. 【請求項21】 前記決定されたパラメータ値と予め格
    納された参照モデルを比較し、比較結果を生成する手段
    を更に備えることを特徴とする請求項1乃至19のいす
    れかに記載の装置。
  22. 【請求項22】 前記決定されたパラメータ値と予め格
    納された話者モデルとを比較し、照合結果を生成する話
    者照合手段を更に備えることを特徴とする請求項1乃至
    19のいずれかに記載の装置。
  23. 【請求項23】 音声ソースと受信部との間の伝送チャ
    ンネルによって改変された音声ソースによって生成され
    る音声信号を表す信号値のセットを受信するステップ
    と、 所定の信号モデルから派生される所定の関数を定義する
    データを格納するステップと、該所定の信号モデルは前
    記ソースをモデル化する第1パラメータを有する第1パ
    ートと、前記チャンネルをモデル化する第2パラメータ
    を有する第2パートとを含み、前記関数は前記第1及び
    第2パラメータに関連し、前記関数は与えられたセット
    の受信信号値に関して確率密度関数を生成し、該確率密
    度関数は、信号モデルが受信された信号値のセットを作
    り出したとの仮定のもとに、与えられた第1及び第2パ
    ラメータのセットに関して所定の信号モデルがそれらの
    パラメータ値を有する確率を定義し、 前記受信された信号値のセットを前記関数に適用するス
    テップと、 前記確率密度関数から、少なくとも前記第1パラメータ
    のサンプルを派生するために適用される値で前記関数を
    処理するステップと、 前記伝送チャンネルによって改変される前の、前記ソー
    スによって生成された前記音声信号を表す前記第1パラ
    メータの値を決定するために、前記派生サンプルの少な
    くともいくつかを解析する手段とを備えることを特徴と
    する音声処理方法。
  24. 【請求項24】 前記関数は与えられたセットの受信信
    号値のために確率密度関数を生成し、該確率密度関数
    は、信号モデルが受信された信号値のセットを作り出し
    たとの仮定のもとに、与えられた第1及び第2パラメー
    タのセットに関して所定の信号モデルがそれらのパラメ
    ータ値を有する確率を定義し、前記処理ステップは、前
    記確率密度関数からサンプルを引き出すステップと、引
    き出されたサンプルから音声を表す前記第1パラメータ
    の前記値を決定するステップとを含むことを特徴とする
    請求項23に記載の方法。
  25. 【請求項25】 異なる数のパラメータ値に対する前記
    引き出されたパラメータ値のサンプルの1つ以上を用い
    て、受信された信号値のセットに対する前記確率密度関
    数を評価し、所定の信号モデルの夫々がそれらのパラメ
    ータ値を有する確率を決定するステップを更に備え、前
    記処理ステップは、前記伝送チャネルによって歪められ
    る前の前記ソースによって生成された音声を表す前記第
    1パラメータの前記値を決定するために、前記引き出さ
    れたパラメータ値のサンプルの少なくともいくつか及び
    前記評価された確率を処理することを特徴とする請求項
    24に記載の方法。
  26. 【請求項26】 前記処理ステップは、前記取り出され
    たサンプルのヒストグラムを決定し、前記第1パラメー
    タの前記値は該ヒストグラムより決定されることを特徴
    とする請求項24又は25に記載の方法。
  27. 【請求項27】 前記処理ステップは、前記取り出され
    たサンプルの加重和を用いて前記第1パラメータの前記
    値を決定し、該加重は前記ヒストグラムより決定される
    ことを特徴とする請求項26記載の方法。
  28. 【請求項28】 前記サンプリングステップは、前記確
    率密度関数から逐次的にサンプルを引き出すことを特徴
    とする請求項29乃至27のいずれかに記載の方法。
  29. 【請求項29】 前記サンプリングステップは、前記第
    1及び第2パラメータの両方からサンプルを取り出すこ
    とを特徴とする請求項24乃至28のいずれかに記載の
    方法。
  30. 【請求項30】 前記サンプリングステップは、ギブス
    サンプラを用いることを特徴とする請求項24乃至29
    のいずれかに記載の方法。
  31. 【請求項31】 前記処理ステップは、前記サンプルの
    変化の尺度を決定するために前記引き出されたパラメー
    タ値のサンプルの少なくともいくつかを分析するステッ
    プを備え、前記方法は、前記決定された変化の尺度に依
    存して、受信された信号値のセットの品質を表す信号を
    出力するステップを更に備えることを特徴とする請求項
    24乃至30のいずれかに記載の方法。
  32. 【請求項32】 前記確率密度関数は前記変化の尺度に
    関するものであり、前記解析ステップは、前記確率密度
    関数より前記変化の尺度のサンプルを引き出すことを特
    徴とする請求項31に記載の方法。
  33. 【請求項33】 前記関数は、前記伝送チャンネルによ
    って歪まされる前の前記ソースによって生成された音声
    を表す生音声信号値のセットに関連し、前記方法は、前
    記受信された信号値に対応する前記生音声信号値の推定
    値を生成するために、受信された信号値のセットを前記
    第1及び第2パラメータの初期推定値で処理する第2処
    理手段を更に備え、前記適用ステップは、前記受信され
    た信号値のセットとともに、前記推定された生音声信号
    値のセットを前記関数に適用することを特徴とする請求
    項23乃至32いずれかに記載の方法。
  34. 【請求項34】 前記第2処理ステップはシミュレーシ
    ョンスムーザを用いることを特徴とする請求項33に記
    載の方法。
  35. 【請求項35】 前記第2処理ステップはカルマンフィ
    ルタを用いることを特徴とする請求項33又は34に記
    載の方法。
  36. 【請求項36】 前記受信ステップは、前記伝送チャン
    ネルによって歪まされた音声ソースによって生成された
    音声信号を表す信号値のセットのシーケンスを受信し、
    前記処理ステップは、前記シーケンスにおける各信号値
    のセット内の音声に関して前記第1パラメータの値を取
    得することを特徴とする請求項23乃至35のいずれか
    に記載の方法。
  37. 【請求項37】 前記処理ステップは、先行する信号値
    のセットを処理する間に、処理中の現在の信号値のセッ
    トのための前記第1パラメータの値に対する初期推定値
    として取得された前記第1パラメータの値を利用するこ
    とを特徴とする請求項36に記載の方法。
  38. 【請求項38】 前記シーケンスにおける前記信号値の
    セットは、互いに重なり合わないことを特徴とする請求
    項36又は37に記載の方法。
  39. 【請求項39】 前記処理ステップは、信号値の各セッ
    ト内の音声信号を表すために用いられるパラメータ値の
    数を変更するステップを備えることを特徴とする請求項
    36乃至38のいずれかに記載の方法。
  40. 【請求項40】 前記第1パートは自動回帰モデルであ
    り、前記第1パラメータは自動回帰モデル係数を備える
    ことを特徴とする請求項23乃至39のいずれかに記載
    の方法。
  41. 【請求項41】 前記第2パートは移動平均モデルであ
    り、前記第2パラメータは移動平均モデル係数であるこ
    とを特徴とする請求項23乃至40のいずれかに記載の
    方法。
  42. 【請求項42】 前記決定された値を、予め格納された
    パラメータ値と比較し、比較結果を生成するステップを
    更に備えることを特徴とする請求項23乃至41のいず
    れかに記載の方法。
  43. 【請求項43】 前記決定されたパラメータ値と予め格
    納された参照モデルを比較し、比較結果を生成するステ
    ップを更に備えることを特徴とする請求項23乃至41
    のいずれかに記載の方法。
  44. 【請求項44】 前記決定されたパラメータ値と予め格
    納された話者モデルとを比較し、照合結果を生成する話
    者照合手段を更に備えることを特徴とする請求項23乃
    至41のいずれかに記載の方法。
  45. 【請求項45】 音声ソースと受信部との間の伝送チャ
    ンネルによって改変された音声ソースによって生成され
    る音声信号を表す信号値のセットを受信する手段と、 所定の信号モデルから派生される所定の関数を定義する
    データを格納するメモリと、該所定の信号モデルは前記
    ソースをモデル化する第1パラメータを有する第1パー
    トと、前記チャンネルをモデル化する第2パラメータを
    有する第2パートとを含み、前記関数は前記第1及び第
    2パラメータに関連し、前記関数は、信号モデルが受信
    された信号値のセットを作り出したとの仮定のもとに、
    与えられたセットの受信信号値に関して確率密度関数を
    生成し、該確率密度関数は与えられた第1及び第2パラ
    メータのセットに関して所定の信号モデルがそれらのパ
    ラメータ値を有する確率を定義し、 前記受信された信号値のセットを前記関数に適用する手
    段と、 前記確率密度関数から、少なくとも前記第1パラメータ
    のサンプルを派生するために適用される値で前記関数を
    処理し、 前記伝送チャンネルによって改変される前の、前記ソー
    スによって生成された前記音声信号を表す前記第1パラ
    メータの値を決定するために、前記派生サンプルの少な
    くともいくつかを解析する手段とを備えることを特徴と
    する音声処理装置。
  46. 【請求項46】 音声ソースと受信手段との間の伝送チ
    ャンネルによって歪まされた音声ソースによって生成さ
    れる音声信号を表す信号値のセットを受信する手段と、 所定の信号モデルから派生される所定の関数を定義する
    データをメモリに格納する手段と、該所定の信号モデル
    は前記ソースをモデル化する第1パラメータを有する第
    1パートと、前記チャンネルをモデル化する第2パラメ
    ータを有する第2パートとを含み、前記関数は前記第1
    及び第2パラメータに関連するとともに、前記伝送チャ
    ンネルによって歪まされる前の前記ソースによって生成
    される音声を表す生音声信号値のセットに関連し、 受信された信号値のセットに対応する生音声信号値の推
    定値を生成するために、前記受信された信号値のセット
    を前記第1及び第2パラメータの初期推定値で処理する
    手段と、 前記受信された信号値のセットと推定された生音声信号
    値のセットを前記関数に適用する手段と、 前記伝送チャンネルによって歪まされる前の前記音声ソ
    ースによって生成された前記音声信号を表す前記第1パ
    ラメータの値を取得するために適用された値で前記関数
    を処理する手段とを備えることを特徴とする音声処理装
    置。
  47. 【請求項47】 信号ソースと受信手段との間の伝送チ
    ャンネルによって改変された音声ソースによって生成さ
    れる音声信号を表す信号値のセットを受信する手段と、 所定の信号モデルから派生される所定の関数を定義する
    データを格納するメモリと、該所定の信号モデルは前記
    ソースをモデル化する第1パラメータを有する第1パー
    トと、前記チャンネルをモデル化する第2パラメータを
    有する第2パートとを含み、前記関数は前記第1及び第
    2パラメータに関連するとともに、前記伝送チャンネル
    によって歪まされる前の前記ソースによって生成される
    音声を表す生音声信号値のセットに関連し、前記関数は
    与えられた信号値のセットに対して確率密度関数を生成
    し、該確率密度関数は与えられた第1、第2パラメータ
    及び生音声信号値のセットに関して所定の信号モデルが
    それらのパラメータ値を有する確率を定義し、信号モデ
    ルが受信された信号値のセットを作り出したと仮定され
    た場合に前記生音声信号値を生成し、 前記第1及び第2パラメータの初期推定値で前記受信さ
    れた信号値のセットを処理し、受信された信号値のセッ
    トに対応する前記生音声信号値のセットの推定を生成す
    る手段と、 前記受信された信号値のセットと推定された生音声信号
    値のセットを前記関数に適用する手段と、 少なくとも前記確率密度関数からの前記第1パラメータ
    のサンプルを派生すべく適用された値で、前記関数を処
    理する手段と、 前記伝送チャンネルによって改変される前の、前記音声
    ソースによって生成される前記音声信号を表す前記第1
    パラメータの値を決定するために、前記派生サンプルの
    少なくともいくつかを解析する手段とを備えることを特
    徴とする音声処理装置。
  48. 【請求項48】 入力された音声信号を表すパラメータ
    値のセットを決定する装置であって、 入力音声信号を表す複数の音声信号値を受信する手段
    と、 前記複数の音声信号値を、音声信号値の連続するグルー
    プに分割する手段と、各グループにおいて前記音声信号
    値を表すパラメータ値のセットを決定する手段とを備
    え、 前記決定手段は、各グループの音声信号値を表すのに用
    いられるパラメータ値の数を変更する手段を備えること
    を特徴とする装置。
  49. 【請求項49】 入力された音声信号を表すパラメー
    タ値のセットを決定する装置であって、 入力音声信号を表す複数の音声信号値を受信する手段
    と、 前記複数の音声信号値を、音声信号値の連続するグルー
    プに分割する手段と、 グループの音声信号値を表すパラメータ値のセットを決
    定するために、各グループにおける音声信号値を処理す
    る手段とを備え、 前記処理手段は、 所定の関数を定義するデータを格納するメモリと、該所
    定の関数はグループの音声信号値のセットに関して所定
    の信号モデルのパラメータのための確率密度を与え、該
    信号モデルはそのグループにおいて音声信号値を生成し
    たと仮定され、該確率密度は、そのモデルがそのグルー
    プにおいて音声信号値を生成したと仮定される場合に、
    与えられたパラメータ値のセットに関して所定の信号モ
    デルがそれらのパラメータ値を有することの確率を定義
    し、 現在のグループのための前記モデルパラメータに対する
    確率密度を与えるために、その現在のグループの音声信
    号値のセットを前記格納された関数に適用する手段と、 前記現在のグループに対する前記確率密度よりパラメー
    タ値のサンプルを派生するために、前記関数を処理する
    手段と、 異なる数のパラメータ値に対し、前記派生されたパラメ
    ータ値のサンプルの1つ以上を用いて、前記現在のグル
    ープに関する確率密度を評価し、所定の信号モデルがそ
    れらのパラメータ値を有することの確率を決定する手段
    と、 前記パラメータ値の派生されたサンプルの少なくともい
    くつかと前起票化された確率を処理し、前記現在のグル
    ープにおける信号値のセットを表すモデルパラメータを
    決定する手段とを備えることを特徴とする装置。
  50. 【請求項50】 所定の関数を格納するメモリと、該所
    定の関数は与えられた音響信号値に関して所定の音響モ
    デルのパラメータに対する確率密度を与え、該音響モデ
    ルは音響信号値のセットを生成したと仮定され、該確率
    密度は、そのモデルが音響信号値のセットを生成したと
    仮定される場合に、モデルパラメータ値の与えられたセ
    ットに関して、それらのパラメータを所定の音響モデル
    がそれらのパラメータ値を有する確率を定義し、 入力された音響信号を表す音響信号値のセットを受信す
    る手段と、 受信された音響信号値のセットに対する前記モデルパラ
    メータに関する確率密度を与えるために、受信された音
    響信号値を、前記格納された関数に適用する手段と、 前記確率密度よりパラメータ値のサンプルを派生するた
    めに、前記受信され、適用された音響信号値のセットで
    前記関数を処理する手段と、 受信された音響信号値のセットを表すパラメータ値を決
    定するために、前記派生されたパラメータ値のサンプル
    の少なくともいくつかを解析する手段と、 前記決定されたパラメータ値を予め格納されたパラメー
    タ値と比較して、比較結果を生成する手段とを備えるこ
    とを特徴とする音響比較装置。
  51. 【請求項51】 請求項50に記載の音響比較装置を備
    えた音声認識システム。
  52. 【請求項52】 請求項50に記載の音響比較装置を備
    えた話者照合システム。
  53. 【請求項53】 請求項50に記載の音響比較装置を備
    えた音響分類システム。
  54. 【請求項54】 添付図面を参照して実質的に記述され
    た、或いは添付図面において実質的に示された音響処理
    システム。
  55. 【請求項55】 添付図面を参照して実質的に記述され
    た、或いは添付図面において実質的に示された音響処理
    方法。
  56. 【請求項56】 プログラマブルコンピュータ装置に請
    求項23乃至44のいずれかに記載の方法を実現させる
    ためのコンピュータによる実行が可能な処理ステップを
    格納するコンピュータ可読媒体。
  57. 【請求項57】 プログラマブルコンピュータに請求項
    23乃至44のいずれかに記載の方法を実現させるため
    の、プロセッサによる実行が可能な処理ステップ。
JP2001168803A 2000-06-02 2001-06-04 音声処理システム Withdrawn JP2002140087A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB0013541A GB0013541D0 (en) 2000-06-02 2000-06-02 Speech processing system
GB0013541.8 2000-06-02
GB0018965A GB0018965D0 (en) 2000-08-02 2000-08-02 Speech processing system
GB0018965.4 2000-08-02

Publications (1)

Publication Number Publication Date
JP2002140087A true JP2002140087A (ja) 2002-05-17

Family

ID=26244420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001168803A Withdrawn JP2002140087A (ja) 2000-06-02 2001-06-04 音声処理システム

Country Status (3)

Country Link
US (1) US7035790B2 (ja)
EP (1) EP1160768A3 (ja)
JP (1) JP2002140087A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007514959A (ja) * 2003-07-01 2007-06-07 フランス テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム
CN106328153A (zh) * 2016-08-24 2017-01-11 青岛歌尔声学科技有限公司 电子通信设备语音信号处理系统、方法和电子通信设备

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002539528A (ja) 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
GB0013541D0 (en) * 2000-06-02 2000-07-26 Canon Kk Speech processing system
US6990447B2 (en) * 2001-11-15 2006-01-24 Microsoft Corportion Method and apparatus for denoising and deverberation using variational inference and strong speech models
US20030171900A1 (en) * 2002-03-11 2003-09-11 The Charles Stark Draper Laboratory, Inc. Non-Gaussian detection
FI114358B (fi) * 2002-05-29 2004-09-30 Nokia Corp Menetelmä digitaalisessa verkkojärjestelmässä päätelaitteen lähetyksen ohjaamiseksi
WO2004049308A1 (en) * 2002-11-22 2004-06-10 Koninklijke Philips Electronics N.V. Speech recognition device and method
US7412383B1 (en) * 2003-04-04 2008-08-12 At&T Corp Reducing time for annotating speech data to develop a dialog application
JP4529492B2 (ja) * 2004-03-11 2010-08-25 株式会社デンソー 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム
US7904295B2 (en) * 2004-09-02 2011-03-08 Coelho Rosangela Fernandes Method for automatic speaker recognition with hurst parameter based features and method for speaker classification based on fractional brownian motion classifiers
WO2007089189A1 (en) * 2006-01-31 2007-08-09 Telefonaktiebolaget Lm Ericsson (Publ). Non-intrusive signal quality assessment
JP2007249873A (ja) * 2006-03-17 2007-09-27 Toshiba Corp 分析モデル作成方法、分析モデル作成プログラムおよび分析モデル作成装置
WO2009011826A2 (en) * 2007-07-13 2009-01-22 Dolby Laboratories Licensing Corporation Time-varying audio-signal level using a time-varying estimated probability density of the level
WO2009110578A1 (ja) * 2008-03-03 2009-09-11 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
US8527266B2 (en) * 2008-03-21 2013-09-03 Tokyo University Of Science Educational Foundation Administrative Organization Noise suppression device and noise suppression method
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8923523B2 (en) 2010-03-25 2014-12-30 King Fahd University Of Petroleum And Minerals Selective filtering earplugs
US20110235816A1 (en) * 2010-03-25 2011-09-29 Abdelhafid Bouhraoua Selective filtering earplugs
EP3311591B1 (en) * 2015-06-19 2021-10-06 Widex A/S Method of operating a hearing aid system and a hearing aid system

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4386237A (en) * 1980-12-22 1983-05-31 Intelsat NIC Processor using variable precision block quantization
GB2137052B (en) 1983-02-14 1986-07-23 Stowbell Improvements in or relating to the control of mobile radio communication systems
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
JPH0783315B2 (ja) 1988-09-26 1995-09-06 富士通株式会社 可変レート音声信号符号化方式
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
AU643727B2 (en) * 1989-12-07 1993-11-25 Commonwealth Of Australia, The Error rate monitor
CA2568984C (en) 1991-06-11 2007-07-10 Qualcomm Incorporated Variable rate vocoder
JPH05346915A (ja) 1992-01-30 1993-12-27 Ricoh Co Ltd 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法
US5315538A (en) * 1992-03-23 1994-05-24 Hughes Aircraft Company Signal processing incorporating signal, tracking, estimation, and removal processes using a maximum a posteriori algorithm, and sequential signal detection
FI90477C (fi) * 1992-03-23 1994-02-10 Nokia Mobile Phones Ltd Puhesignaalin laadun parannusmenetelmä lineaarista ennustusta käyttävään koodausjärjestelmään
US5507037A (en) * 1992-05-22 1996-04-09 Advanced Micro Devices, Inc. Apparatus and method for discriminating signal noise from saturated signals and from high amplitude signals
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US5590242A (en) 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
CA2171922C (en) * 1995-03-31 2001-12-11 Joseph Michael Nowack Decoder and method therefor
US5884269A (en) * 1995-04-17 1999-03-16 Merging Technologies Lossless compression/decompression of digital audio data
US6018317A (en) * 1995-06-02 2000-01-25 Trw Inc. Cochannel signal processing system
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US6708146B1 (en) * 1997-01-03 2004-03-16 Telecommunications Research Laboratories Voiceband signal classifier
US5784297A (en) * 1997-01-13 1998-07-21 The United States Of America As Represented By The Secretary Of The Navy Model identification and characterization of error structures in signal processing
US6104993A (en) 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
GB2332052B (en) 1997-12-04 2002-01-16 Olivetti Res Ltd Detection system for determining orientation information about objects
GB2332053B (en) 1997-12-04 2002-01-09 Olivetti Res Ltd Detection system for determinning positional and other information about objects
FR2765715B1 (fr) * 1997-07-04 1999-09-17 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
FR2766604B1 (fr) * 1997-07-22 1999-10-01 France Telecom Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique
GB2332054B (en) 1997-12-04 2000-02-02 Olivetti Res Ltd Detection system for determining positional information about objects
GB2332055B (en) 1997-12-04 2000-02-02 Olivetti Res Ltd Detection system for determining positional information about objects
GB2336711B (en) 1998-04-20 2002-01-09 Olivetti Telemedia Spa Cables
AUPP340798A0 (en) * 1998-05-07 1998-05-28 Canon Kabushiki Kaisha Automated video interpretation system
GB9812635D0 (en) 1998-06-11 1998-08-12 Olivetti Telemedia Spa Location system
US6044336A (en) * 1998-07-13 2000-03-28 Multispec Corporation Method and apparatus for situationally adaptive processing in echo-location systems operating in non-Gaussian environments
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
JP3061039B2 (ja) 1998-10-20 2000-07-10 日本電気株式会社 無音圧縮符号復号化方法及びその装置
US6226613B1 (en) * 1998-10-30 2001-05-01 At&T Corporation Decoding input symbols to input/output hidden markoff models
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
GB9901300D0 (en) 1999-01-22 1999-03-10 Olivetti Research Ltd A method of increasing the capacity and addressing rate of an Ultrasonic location system
WO2000045375A1 (en) 1999-01-27 2000-08-03 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
WO2000048022A1 (en) * 1999-02-12 2000-08-17 Schlumberger Limited Uncertainty constrained subsurface modeling
JP2002539528A (ja) 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
GB2349717A (en) 1999-05-04 2000-11-08 At & T Lab Cambridge Ltd Low latency network
EP1063807B1 (de) * 1999-06-18 2004-03-17 Alcatel Gemeinsame Quellen- und Kanalcodierung
US6374221B1 (en) * 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
GB2356314B (en) 1999-07-06 2003-12-31 At & T Lab Cambridge Ltd A thin multimedia communication device and method
KR100609128B1 (ko) 1999-07-12 2006-08-04 에스케이 텔레콤주식회사 이동 통신 시스템의 통화 품질 측정 장치 및 방법
GB2360670B (en) 2000-03-22 2004-02-04 At & T Lab Cambridge Ltd Power management system
US6760699B1 (en) * 2000-04-24 2004-07-06 Lucent Technologies Inc. Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
GB2363557A (en) 2000-06-16 2001-12-19 At & T Lab Cambridge Ltd Method of extracting a signal from a contaminated signal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007514959A (ja) * 2003-07-01 2007-06-07 フランス テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム
JP4652232B2 (ja) * 2003-07-01 2011-03-16 フランス・テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム
CN106328153A (zh) * 2016-08-24 2017-01-11 青岛歌尔声学科技有限公司 电子通信设备语音信号处理系统、方法和电子通信设备

Also Published As

Publication number Publication date
US20020059065A1 (en) 2002-05-16
EP1160768A3 (en) 2004-02-04
US7035790B2 (en) 2006-04-25
EP1160768A2 (en) 2001-12-05

Similar Documents

Publication Publication Date Title
US6954745B2 (en) Signal processing system
JP2002140087A (ja) 音声処理システム
US7072833B2 (en) Speech processing system
US7010483B2 (en) Speech processing system
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
US5924065A (en) Environmently compensated speech processing
EP1995723B1 (en) Neuroevolution training system
JP4824286B2 (ja) 漸進的ベイズ学習を使用する雑音推定の方法
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
CN101416237A (zh) 基于源和室内声学的概率模型的语音去混响方法和设备
JPH0850499A (ja) 信号識別方法
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
JP3632529B2 (ja) 音声認識装置及び方法ならびに記録媒体
JP3987927B2 (ja) 波形認識方法及び装置、並びにプログラム
US20020026253A1 (en) Speech processing apparatus
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP3541224B2 (ja) 音源の分離方法および分離装置
JP4755555B2 (ja) 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
CN111354352B (zh) 一种用于音频检索的模板自动清洗方法及系统
JPH06266386A (ja) ワードスポッティング方法
JP2734828B2 (ja) 確率演算装置及び確率演算方法
JP2007508577A (ja) 音声認識システムの環境的不整合への適応方法
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
GB2367729A (en) Speech processing system
JPH0822296A (ja) パターン認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080805