JP2003514260A

JP2003514260A - スピーチ認識のための音調特徴

Info

Publication number: JP2003514260A
Application number: JP2001537044A
Authority: JP
Inventors: シャン−ハンフアング; フランクセイデ
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-11-11
Filing date: 2000-11-10
Publication date: 2003-04-15
Also published as: WO2001035389A1; TW526467B; CN1343350A; US6829578B1; KR20010089811A; EP1145225A1; CN1160699C

Abstract

(57)【要約】【課題】スピーチ信号から音調特徴を抽出することを改良すること。【解決手段】適合型プルーニングによる基本周波数(F0)輪郭のオンライン・ルックアヘッド逆トレースを導入することで、強健な音響音調特徴が得られる。この基本周波数は、フロントエンドを処理する信号として機能する。その後、このF0輪郭は、F0輪郭の重み付け（母音をより強調する）最小二乗法と協力した、時変重み付け移動平均により、語彙音調効果、フレーズイントネーション効果、およびランダム効果に分解される。フレーズイントネーション効果は、有声のF0輪郭の長期傾向として定義され、F0輪郭の重み付け移動平均により、信号の周期性の程度に関連した重みを使って、近似することができる。これは、語彙音調効果とは無関係であるので、重ね合わせ仮定の下で、F0輪郭の減算により取り除かれる。音響の音調特徴は、2つの部分により定義される。第1の部分は、音節の平均長さに関連したウィンドウ寸法と信号の周期性の程度に対応する重みを使った、隣接フレームにわたるF0輪郭のイントネーション除去の二次の重み付け回帰の係数である。第2の部分は、自己相関の二次回帰の係数である信号の周期性の程度を取り扱う。これには、ルックアヘッド逆トレース手順からのピッチ推定値の逆数に対応する遅延が使われる。F0輪郭のイントネーション除去の二次重み付け回帰のこれらの重みは、半濁音子音についての有声ピッチ輪郭を保存するために、ピッチ輪郭の有声または無声セグメントを強調するかまたは強調を減少するように設計されている。この手法の利点は、例え、スピーチセグメント化にわずかな誤りがある場合でも、オンライン信号前処理フロントエンドとしてサーブされているF0輪郭についてのルックアヘッド適応型プルーニング逆トレースのための重みは、子音のピッチ輪郭のために母音のピッチ輪郭を保存するだろう。音調特徴のこの母音保存特性には、スピーチセグメント化に誤りがあるためモデルパラメータがバイアス推定されるのを妨げる能力がある。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】

本発明は、標準中国語(Mandarin Chinese)などの音調言語の自動認識に関する
。

【０００２】

【従来の技術】

大量語彙連続スピーチ認識システムなどのスピーチ認識システムは、通常、ス
ピーチ入力パターンを認識するために、音響／スピーチのモデルと言語モデルを
使用する。スピーチ信号を認識する前に、特徴の代表的ベクトル（観測ベクトル
、OV）を計算するため、その信号はスペクトルについてまたは時間的にあるいは
その両方について解析される。典型的には、スピーチ信号がデジタル化され（例
えば、6.67kHzの速度でサンプリングされる）、次に、例えば、プレエンファシ
スを加えることによる前処理が、行われる。連続したサンプルが、例えば、スピ
ーチ信号の20ないし32 ミリ秒について、フレームに分類される（ブロック化さ
れる）。連続したフレームは、例えば、10ないし16 ミリ秒にわたり、それぞれ
部分的に重なり合っている。しばしば、線形予測分析(Linear Predictive Codin
g; LPC)スペクトル解析法が使われ、各フレームについて、特徴の代表的ベクト
ル（観測ベクトル）が計算される。特徴ベクトルは、例えば、24、32または63の
構成成分を持つことができる。次に、観測ベクトルのシーケンスの確率が、音響
モデルを用いて、与えられた単語文字列について推定される。大量語彙システム
においては、これは、通常、観測ベクトルをスピーチ認識ユニット集の表にマッ
チングさせることにより、実行される。スピーチ認識ユニットは、音響基準のシ
ーケンスによって表される。一例として、1つの単語全体あるいは単語の一群さ
え、1つのスピーチ認識ユニットにより表すことが可能である。さらに、言語学
に基づくサブ単語ユニット、例えば、fenenesとfenonesなどの派生語ユニットは
もちろん、単音、複音、または音節なども、使用される。サブ単語に基づくシス
テムの場合、単語モデルは、語彙の1つの単語に関するサブ単語ユニットのシー
ケンスを説明する辞書、および該当するスピーチ認識ユニットの音響的基準のシ
ーケンスを説明するサブ単語モデルによって与えられる。（サブ）単語モデルは
、通常、推計学的にスピーチ信号をモデル化するのに広く使用される隠れマルコ
フモデル(Hidden Markov Model; HMM)に基づいている。観測ベクトルについては
、スピーチ認識ユニットのシーケンスのすべてに対してマッチングが行われ、ベ
クトルとシーケンスの間のマッチングの尤度が与えられる。サブ単語ユニットが
使用されるときは、辞書は、可能なサブ単語ユニットのシーケンスを辞書の中の
シーケンスに限定する。言語モデルは、調べられたパスが、その言語モデルによ
って特定された適切なシーケンスである単語シーケンスに対応するパスとなるよ
うに、マッチングにさらなる制約条件を置く。音響モデルの結果を言語モデルの
結果と結合することにより、認識文が生成される。

【０００３】ほとんどの既存のスピーチ認識システムは、もともとは英語や独語のような西
洋の言語のために開発されてきたものである。西洋の言語における単語の音調は
意味に影響を及ぼさないので、ピッチ輪郭に反映された音調の音響的実現は、ノ
イズとして考えられ、無視される。特徴ベクトルと音響モデルには、音調情報が
含まれない。中国語のような、いわゆる音調言語の場合、音調情報は発声の意味
に影響を及ぼす。語彙の音調発音は、漢字の正しい発音において役割を演じてお
り、ピッチ輪郭などの音響的証拠によって反映される。例えば、世界中で最も多
くの人に話されている言語である標準中国語は、（音節ピッチ輪郭の中で原型と
なる）5つの異なった音調を持っている。それらは、一般的には、「高い」（平
坦な基本周波数F0の輪郭）、「上昇」（上昇するF0輪郭）、「低い上昇」（平坦
か窪みがあるいずれかの低い輪郭）、「降下」（おそらくは高いF0から下降する
輪郭）、および「中立」（おそらく低いF0からの小さく短い下降輪郭により特徴
付けられる中立）により特徴づけられる。連続したスピーチの場合、低い上昇音
調は、ただの「低い」音調であるとみなされることがある。通常、音調が異なっ
て発音される同じ音節は、全く異なった意味を持つ。標準中国語の音調モデル化
は、人間は、有声基本周波数のパターンから、話された標準中国語漢字の語彙音
調を直接認識できるという事実に、直観的に基づいている。

【０００４】高精度の音調言語スピーチ認識装置を開発する際には、知識源の1つとして、
語彙音調情報を使用することが望まれている。音調モデル化を統合するために、
適切な諸特徴を、既存の音響モデルまたは追加的な音調モデルに取り入れられる
ように決定することが必要である。ピッチ（基本周波数、F₀）または対数ピッチ
を音調特徴ベクトルにおける成分として使用することは既に知られている。音調
特徴ベクトルには、ピッチの一次微分値（加えて、オプションであるが、二次微
分値）も含まれる。多重パスシステムでは、しばしばエネルギーおよび持続時間
情報も、音調特徴ベクトルに含まれる。ピッチの測定は、ここ何十年もの研究題
目で有り続けた。基本ピッチ検出アルゴリズム(PDA)の共通の問題は、多重／サ
ブ多重の総計ピッチ誤差の発生である。そのような誤差はピッチ輪郭を歪める。
標準中国語音調モデルに対する古典的な手法では、スピーチ信号を解析し、それ
が有声か無声を決定する。前処理フロントエンドは、多重／サブ多重ピッチ誤差
を導入することなく、ピッチを高信頼性で推定する必要がある。これは、ほとん
どの場合、多重ピッチ誤差とサブ多重ピッチ誤差の間のしきい値を微調整するか
、または可能なピッチ動きに局所的制約を課すかにより、行われる。通常、ピッ
チ推定値は、妥当なピッチ範囲と動きについての予めの知識と共に、例えば、メ
ジアンフィルタのような平滑化によって、多重／サブ多重ピッチ誤差に対して頑
強であるようにするために、スピーチ信号内における類似性を最大化することに
よって、改良される。認識されたあらゆる文字または音節の語彙音調が、確率論
的HMMによって独立に解読される。この手法には、多くの欠陥がある。語彙音調
は、漢字の有声セグメント上にのみ存在しており、このため、スピーチの有声セ
グメントについてピッチ輪郭を抽出することが求められている。しかし、周知の
ことだが、スピーチセグメントについて有声か発声されなかったかと言う判断を
行うことは、難しい。有声か発声されていないかの判断は、前処理フロントエン
ドのレベルでは確実に決定することはできない。さらなる短所は、平滑フィルタ
の平滑化係数（しきい値）は、各言語データにかなり依存していることである。
これに加え、このタイプの音調モデルのアーキテクチャは、現今、パソナルコン
ピュータ上で主に実行されている、実時間大量語彙聞き取りシステムに適用する
には複雑すぎる。多重／サブ多重ピッチ誤差を克服するために、動的プログラミ
ング(DP)技術も、ピッチ輪郭の連続性特性の知識と共に使用されてきた。しかし
、DPが発声に基づいているために、オンラインシステムにおける使用が妨げられ
ている。

【０００５】

【課題を解決するための手段】

本発明の目的は、スピーチ信号から音調特徴を抽出することの改良に関する。
本発明のさらなる目的は、音調言語の中で話されるスピーチの自動認識に適した
スピーチ特徴ベクトルのために、ピッチ以外の成分を定義付けすることである。

【０００６】音調特徴の抽出を改良するために、以下のアルゴリズムの改良が導入される。 − ピッチ抽出技術への2段階手法であって、 − 低い分解能では、ピッチ輪郭が、好ましくは周波数領域において決定され、 − 高い分解能では、微調が、好ましくは時間領域において行われる。これは、2つ以上の完全なピッチ周期を含む解析ウィンドウ中の疑似周期信号内の正規化された相関を最大化することにより行われる。 − 低分解能ピッチ輪郭の決定には、好ましくは、 − スピーチ信号内の類似性尺度に基づき、好ましくは周波数領域での分数調波累和計算に基づいて、ピッチ情報が決定されることと、 − 多重およびサブ多重ピッチ誤りを排除するために、動的プログラミング (DP)を使用することとが含まれ、動的プログラミングには、好ましくは − 効率のための適応型ビームプルーニング − 最大遅延を保証するための固定長の部分的な逆トレース、および、無声および無言セグメントのブリッジングが含まれる。これらの改良は、組み合わせて使っても、あるいは個々に従来の技術と組み合わ
せて使ってもよい。

【０００７】特徴ベクトルを改良するために、スピーチ特徴ベクトルには、特徴ベクトルが
関連するスピーチセグメントの推定された発声の程度を表す成分が含まれる。好
ましい実施例では、特徴ベクトルには、推定された発声の程度の一次および二次
微分値を表す成分も含まれる。実施例では、特徴ベクトルには、セグメントの推
定されたピッチの一次および二次微分値を表す成分が含まれる。実施例では、特
徴ベクトルには、セグメントのピッチを表す成分が含まれる。好ましくは、ピッ
チは、話者およびフレーズ効果を排除するために、平均隣接ピッチを減算するこ
とで、正規化される。正規化は、発声の程度を重み付け係数として使うことに基
づくのが有利である。ベクトル成分には、関連するパラメータ自体、あるいはそ
のパラメータについての適当な尺度、例えば、対数、を含ませても良く、その場
合は正当に評価されるであろう。

【０００８】簡易化された標準中国語音調モデルは、これまでにも使用されてきたことは、
留意すべきである。このようなモデルの場合、有声であるか無声であるかの決定
を信頼性高く決定することはできないので、疑似ピッチが、有声から無声へのセ
グメントの内挿や外挿により生成される。発声の程度についての知識は、これま
で実用に供されたことはなかった。発声の程度は、確かに認識を改良する知識の
源であるので、発声の程度の知識を無視することは望まれていない。例えば、ピ
ッチの動きは、有声セグメントにおいてはきわめて遅い（1％／1ミリ秒）が、有
声−無声セグメント、または無声−有声セグメントの場合では、急に変化する。
本発明によるシステムは、発声の程度についての知識を詳細に調査する。

【０００９】

【発明を実施するための形態】

本発明のこれらおよびその他の特徴は、図面中に示される実施例から明らかと
なり、またそれらを参照して説明される。

【００１０】本発明によるスピーチ処理システムは、従来のハードウェアを使用して実現す
ることができる。例えば、スピーチ認識システムは、PCなどのコンピュータ上で
実現することが出来る。その場合、スピーチ入力がマイクロホンを通して受け取
られ、従来のスピーチインターフェイスカードによってデジタル化される。付加
的な処理はすべて、CPUによって実行されるソフトウェアの手順の形式で行われ
る。とりわけ、スピーチは、電話接続を経由して、例えば、コンピュータにおけ
る従来のモデムを使用して、受信されるであろう。スピーチ処理は、例えば、DS
P（デジタルシグナルプロセッサ）の周囲に構築された専用ハードウェアを使っ
て実施されるであろう。スピーチ認識システムは一般に知られているので、ここ
では本発明に関連する詳細のみをより詳しく記述する。詳細は、標準中国語につ
いて主に与えられるが、当業者であれば、ここに示された技術を、他の音調言語
に容易に適合させることができる。

【００１１】図1は、スピーチ信号s(n)から観測ベクトルの音調特徴を抽出する3つの独立な処理段階を説明する。本発明は、3つの領域
すべてに改良を提供する。これらの改良を組合せで使用することが、好ましい。
しかしながら、それらを独立に使用することもでき、その場合他の段階について
は従来技術が使用される。第1の段階において、周期性尺度（ピッチ）が決定さ
れる。この目的のために、入来するスピーチ信号s(n)は、好ましくは10ミリ秒の
シフトでオバーラップするフレームに分解される。周波数fの範囲についての尺
度p(f, t)が、時間tのどのフレームについても、信号が周波数fについてどの程
度周期的であるかを表すことが決定される。以下に詳細に説明されるように、分
数調波累和計算(SHS)アルゴリズムを用いて、p(f, t)を決定することが好ましい
。第2の段階では、頑強性を増大させるために連続性制約条件が導入される。そ
の出力は、（発声の程度の尺度として、正規化された短時間自己相関法を、使う
ことが有利である）実際のピッチ推定値と対応する発声の程度からなる未加工のピッチ特徴ベクトルのシーケンスである。連続性制約条件は、
以下に詳細に説明されるように、動的プログラミング(DP)を使用して適用するこ
とが好ましい。第3の段階では、ラベル付きのFEAT、後処理、および正規化演算
が実行され、ベクトルo(t)の音調特徴の実際のシーケンスが導き出される。以下
に、詳細を述べる。

【００１２】《周期性尺度》図2は、ピッチ情報を決定する好ましい方法のフローチャートを示す。スピー
チ信号はアナログ形式で受信することが出来る。その場合には、A/D変換器が、
スピーチ信号をサンプリングされたデジタル信号に変換するために使用されるで
あろう。人間の声帯の物理的弾性振動の範囲内の可能な基本周波数F₀についての
ピッチ情報が、デジタル化されたスピーチ信号から抽出される。次に、周期性の
尺度が決定される。大部分のピッチ検出アルゴリズムは、予想されるF₀範囲にわ
たって、p(f, t)のような尺度を最大化することに基づいている。時間領域では
、通常、そのような尺度は、信号の自己相関関数か距離尺度（例えば、AMDF）に基づいている。本発明によれば、周波数領域で演
算を行い、かつ尺度として分数調波累計を提供する分数調波累和計算(SHS)アル
ゴリズムが使われる。デジタルサンプリングされたスピーチ信号は、頑強な音調
特徴抽出フロントエンドに送られ、そこで、サンプリングされたスピーチ信号は
、好ましくは、まず、1250Hz未満のカットオフ周波数でローパスフィルタリング
される。簡単な実現方法では、ローパスフィルタは、移動平均FIRフィルタリン
グとして具体化することができる。次に、その信号は、幅が等しく時間的にオバ
ーラップしている多数の解析ゲートにセグメント化される。どの解析ゲートも、
ハミングウィンドウまたは等価ウィンドウと呼ばれるスピーチ解析において一般
的に使用されるカーネルが乗算される（「ウィンドウをかけられる」）。その解
析ウィンドウは、少なくとも1つの完全なピッチ周期を含む必要がある。ピッチ
周期の妥当な範囲は、次式 2.86ms = 0.00286s = 1/350≦τ≦1/50 = 0.020s = 20ms の範囲中にある。したがって、好ましくは、ウィンドウ長さは少なくとも20ミリ
秒である。

【００１３】次に、解析ゲートにおいてサンプリングされたスピーチ信号の表現（セグメン
ト、またはフレームともいう）は、好ましくは高速フーリエ変換(FFT)を使って
、計算され、スペクトルが生成される。次に、そのスペクトルは2乗され、パワ
ースペクトルが生成される。好ましくは、振幅スペクトルのピークは、頑強さの
ために強調を受ける。次に、好ましくは、そのパワースペクトルは三角形のカー
ネルによって平滑化され（ローパスフィルタ係数1/4, 1/2, 1/4を使うのが得策
である）、平滑化された振幅スペクトルが生成される。次に、そのカーネルで円
滑化された振幅スペクトルに、複数のI_resolution点（好ましくは、低い周波数
分解能で、正しい経路を高速に見いだすために、1オクターブあたり16個以下の
等間隔な点）の3次スプライン内挿法を適応することが好ましい。スプライン内
挿補間されたパワースペクトルについての聴覚感度補償は、対数型周波数スケー
ル上の逆正接関数によって実行することが好ましい。人間の声帯の物理的振動の範囲における可能
な基本周波数F₀について、次に、分数調波累和計算が、適用されて、ピッチの情
報が生成される。ここで、P(log₂(f))=C(log₂(f)) * A(log₂(f))であり、この式に
おいてC(log2(f))は、FFTから得られたパワースペクトルであるS(log₂(f))から
スプライン内挿された値であり、cはノイズ補償係数である。マイクロフォン入
力については、c = 0.84、また電話入力については、c = 0.87とするのが有利で
あり、ここで、f はピッチ (Hz)で、 50≦f≦350である。SHSアルゴリズムは、D
. Hermes著「分数調波累計計算によるピッチの測定」、米国音響学会誌、1988年
1月83巻1号（参考文献として本出願に含まれているものとする）において説明さ
れている。ここでは、SHSについては概要のみを示す。s_t(n)が、フレームtでウ
ィンドウィングされた入来スピーチ信号を表し、St(f)が、そのフーリエ変換で
あるとする。理論的には、基本周波数は、fについて周期的な関数のサブ空間上へ投影されたs_t(n)のエネルギーE_fを計算し、fについて最大化する
ことにより、決定される。Hermesが説明した実際のSHS方法では、様々な改良が
導入されている。すなわち、ピーク強調された振幅スペクトルを使う代わりに、聴覚系の感度を表すフィルタW(f)により重み付けをし、さらに
重みh_iにより重み付けをすることにより低い調波項に強調をかけ、高速フーリエ
変換、内挿、および対数スケール上の重ね合わせにより、効率的に実現され、に到達することにより、それらの改良が導入されている。この式で、Nは調和項
の数を表す。

【００１４】《連続性制約条件》ピッチの直截な推定値は、により与えられる。しかし、フレームに渡って連続性制約条件がないことにか
ら、広帯域チャネルノイズにより通話用コーパスにおいて最も優勢である、いわ
ゆる多重およびサブ多重ピッチ誤差が生じやすい。本発明によれば、動的プログ
ラミングの原理を使って、（スピーチの有声セグメントにおいて）連続性が導入
される。そういうものとして、ピッチは分離して推定されない。代わりに、隣接
しているフレームを考慮することにより、ピッチが大域的な最小パス誤差で推定
される。スピーチの有声セグメントにおけるピッチの特徴的な連続性に基づき、
ピッチは、限定された範囲（約1％／ミリ秒）内で変動する。多重／サブ多重ピ
ッチ誤差を避けるために、この情報を利用することができる。動的プログラミン
グを使うことによって、ピッチ推定は、確実に正しい経路に従って行われる。ピ
ッチが、スピーチの有声と無声にまたがるセグメントにおいて劇的に変化すると
いうことは、理解されるべきである。さらに、特定のパス境界についての完全検
索方式は、時間がかかる（その不必要に長い処理遅延が原因）ので、主観的な高
い音調品質でピッチを追跡する実時間システムの中でこれを実現するのは、ほと
んど不可能になる。以下においてより詳細に説明されるように、これらの短所は
、解決される。

【００１５】《動的プログラミング》連続性制約条件は、ピッチ検出を次式として定式化することにより、包含させることができる。ここで、はピッチの急速な変化にペナルティを課すか、または禁じるものである。F₀を量
子化することにより、この判定基準を、動的プログラミング(DP)によって解くこ
とができる。

【００１６】多くのシステムで、ピッチの値は、無言領域や無声領域において0と設定され
る。これは、有声と無声の境界において分散がゼロであり微分値が定義されない
という問題を引き起こす。移動平均に向かってピットを指数関数的に減衰させる
ことによりこれらの領域を「ブリッジングすること」が知られている。DPは、無
声領域と無言領域にブリッジングする効果的な方法を提供するので、得策である
。これにより、その先頭の子音には時間的に逆行する、（音節の主要な母音中に
存在する）音節のピッチ輪郭の「外挿」が得られる。これは、付加的な有用情報
を認識装置に提供することが知られている。

【００１７】《部分的な逆トレース》式(1)が、ピッチ輪郭を決めることが可能となる前に、発声の全部のTフレーム
を処理することを要求するという事実のため、それをオンライン演算について適
用することは適切ではないものとなる。本発明によれば、DPのパス併合特性を利
用して、部分的な逆トレースが実行される。本来、逆トレーシングの技術は、ス
ピーチ認識の間のビタビ(Viterbi)復号法から周知である。したがって、ここで
はその詳細は述べない。最大遅延を保証する固定長の部分逆トレースを使い、各
フレームtごとに、局所的な最良パスを決定し、そしてΔT₁フレーム逆トレース
するのが好ましい。もし、ΔT₁が十分大きければ、このように決定されたピッチ
は、信頼できるものと期待することができる。実験によれば、遅延は150 ミリ秒
程度に限定することが可能であり、これは利用者が認識できるどんな遅延も回避
するだけ十分に短い。

【００１８】《ビームプルーニング》上の形態では、パス再結合がCPU動作の主たる部分を構成する。その動作を減
らすために、ビームプルーニングが使われる。本来、ビームプルーニングもスピ
ーチ認識から周知であるので、ここでその詳細を説明することは行わない。すべ
てのフレームについて、大域的な最適に至ることが確かであるパスの部分集合の
みが、考慮される。次の式、で表されるスコアsc(t)を有するパスは、停止される（sc_opt(τ)＝時刻τにおけ
る局所的な最良スコア）。

【００１９】効率が主な関心であるので、品質を損なわない出来るだけ大きいプルーニング
が、好まれる。動的なプログラミングステップでは、スピーチの有声−無声セグ
メントにおける動的プログラミング技術を適用した後でさえ、劇的な変化がピッ
チの推定において存在する。これは、完全な無言領域では、周期性の情報は存在
せず、すべての可能なピッチ値が同じ尤度を持つからである。理論的に、プルー
ニングはこの点では必要でない。一方、純粋なスピーチ領域では、多くの周期的
情報があり、ピッチ分布には、正しいピッチの多重／サブ多重の上に多くのピー
クが存在する。この点では、累積スコアが非常に低いいくつかのパスをプルーニ
ングすることが、適切である。また、好ましくは、プルーニング判断基準は無言
の効果も考慮するものである。約1.0秒を超える無言領域が文の始めに存在する
ならば、好ましくは、プルーニングは行われるべきでない。実験によれば、「こ
れまで」最高であった累積スコアの内、99.9％未満の「これまで」累積されたス
コアを持ついくつかのパスをプルーニングすることは、ピッチの正しい経路を失
う結果になるであろうことが示されている。一方、「0.50秒前からこれまで」最
高であった累積スコアの内、99.9％未満の「0.50秒前からこれまで」累積された
スコアを持ついくつかのパスをプルーニングすることは、正しい経路を保ち、か
つ全探索方式に比べて96.6％までのループ作業の消費を節約する結果になるであ
ろう。

【００２０】《分解能の減少》パス再結合の数は、DPの周波数分解能の2乗に比例する。DPにおいて周波数軸
の分解能を減少させることにより、有意の高速化を達成することができる。下側
の分解能限界は、1オクターブあたり約50量子化ステップにおいて観測される。
それ未満では、DPパスは不正確になる。各フレームのピッチ推定値を、DPの後に、大まかなパスの近傍で微調整するならば、限界値はさらに1/3に
低減させることが可能であることが判明している。これは、好ましくは、低い分
解能パスからの量子化ステップQ(t)の中で、高い分解能でv(f, t)を最大化する
こと、すなわちによって、達成される。

【００２１】図3は、本発明を使った適応型プルーニングで、F₀のルックアヘッドの局所的
な尤度を最大化する好ましい方法のフローチャートを示す。要約すれば、以下の
ステップが行われる。 − スピーチの有声セグメントにおけるすべての可能なピッチ動きの遷移スコアを計算すること。 − 最大分数調波累和計算の現在値と「これまでに」蓄積されたパスのスコアを計算すること。 − 「これまでの」最良のパスについてのある履歴（長さのMのルックバック）に基づいて適応型のプルーニングを決定すること、適合型のプルーニングしきい値を計算すること、そして、周期性の程度に基づいたパス延長と適合型プルーニングしきい値に基づいたプルーニングを行うこと。 − ある時間フレーム（長さNのルックアヘッド逆トレース）から現在時間のフレームまでの逆トレースを行うこと、および安定な粗いピッチ推定値として現在時間フレームのみを出力すること。 − 正確なピッチを推定するために安定な粗いピッチ推定値の隣接部で高分解能な精細探索を行い、かつルックアヘッド適応型プルーニング逆トレースの手順の最終結果として正確なピッチを出力すること。より詳細には、以下のことが行われる。ピッチの情報は、ピッチ動きがERBの聴
力感度スケール上で測定されるような、あらゆる可能なピッチ動きの遷移確率を
計算することによって、スピーチの有声セグメントにおいて、まず処理されるこ
とが好ましい。遷移スコアの計算は、以下のように行うことができる。ピッチ動
きスコア[k][j] = （1-（ピッチ動き／最大動き）×（ピッチ動き／最大動き）
）、ここで、ピッチ動きと最大動きはERB聴力感度スケールで測定される。ピッ
チの動きは、有声セグメント中で1％／1ミリ秒を超えず[5]、男性の話者につい
ては、F0は50〜120Hz程度、女性の話者については、F0は120〜220Hz程度で、F0
の平均は約127.5Hzである。 HzからErbまで: 最大動きMaxMove(Hz単位)は、10ミリ秒内で12.75Hz ←→ 10ミリ秒内で0.5Erbs である。

【００２２】次に、最大のサブ調和項合計の同時発生値が計算され、「これまで」（スピー
チ信号の始まりから同時発生時間フレームまでの）蓄積されたパススコアが求め
られる。次の再帰式蓄積されたスコア [j][frame-1] + ピッチ移動量 [k][j] ×現在のSHS [k][fram
e] を使用して、「これまで」蓄積されたパススコアを計算することができる。

【００２３】パス延長は、遷移確率が（好ましくは）0.6超であるときに、それらの可能な
ピッチ動きの際に発生するのみである。遷移確率スコアが0.6以下であるパス延
長は、スキップされる。好ましくは、適応型プルーニングは、（有利には）0.5
秒の履歴の中で蓄積されたパススコアに基づく。これは、基準累積スコアとして
表示される。その適合型パス延長は、0.6超の遷移スコアを持ったこれらの可能
なピッチ動きに対してパス延長が生じるのみであるという決定判定基準を使用す
ることが好ましい。遷移スコアが0.6以下であるパス延長は、スキップされる。
これに加え、あるいはこれに替えて、適合型プルーニングが発声の程度に基づく
ことも出来る。適応型プルーニングが、発声の程度に基づいた決定の判定基準を
使うことを特徴とする、請求項6に記載の方は、以下のことを行う。 − 例えば、0.5秒の履歴の中の累積パススコアが同一の履歴の中の最大累積パススコアの99.9％より小さく、かつ現在時間フレームでの周期性についてより多くの情報がある場合には、パス上でのプルーニングを強める。この条件を、式で述べれば、（累積スコア[j][frame-1] - 基準累積スコア）が（最大累積スコア[frame-1] - 基準累積スコア）の99.9％未満であり、かつ現在の時間フレームではより多くの周期性情報が存在する（例えば、現在のSHS[ j][frame]≧現在の最大SHS[frame]の80％）。 − 現在の時間フレームでは曖昧な情報がほとんどない場合には、パス上で緩いプルーニングが行われ、以前のパスを現在の最も可能性の高い、最大および最小ピッチ動きまで延長する。現在の時間フレームでは周期性がより少ない情報しかない場合には、緩いプルーニングが行われる。この理由は、文の始まりは大部分無言からなっているので、累積パススコアは小さすぎてきついプルーニングを行うことが出来ず、このことが、有声−無声セグメントに対する文の始まりとは異なっているからである。この場合、現在の時間フレームでは、ピッチのあいまいな情報はほとんどない。緩く行うプルーニングは、以前のパスを、現在の最も可能性が高い、最大および最小ピッチ動きに延長することにより、行われる。正確なピッチを推定するための、安定な粗いピッチの推定値の近傍での高分解能
の、精細ピッチの探索は、相関グラフに3次スプライン補間を使用する。これは
、F₀のルックアヘッド適応型プルーニング逆トレースにおける能動的状態を、精
度におけるトレードオフなしで、著しく減少させることができる。（高いピッチ
品質についての）高周波数分解能での高分解能の、精細ピッチ探索は、2つ以上
の完全なピッチ周期を含んだ解析ウィンドウにおいて、疑似周期的信号内部で正
規化された相関の最大化を使う。デフォルトウィンドウ長さは、最大完全ピッチ
周期の2倍である。 f₀≧ 50 Hz, ピッチ周期 ≦ 1/50 = 0.020 秒, ウィンドウ長さ = 2 * 0.020
秒 = 40 ミリ秒

【００２４】 F₀のルックアヘッド適応型プルーニング逆トレースを使用することには、ピー
ク検出則に基づく多くのピッチ検出アルゴリズム中に存在する、多重またはサブ
多重ピッチ誤りがほとんど無いという利点が有る。実験によると、自学自習的な
ピーク検出則と比べ、音調誤り率(TER)と文字誤り率(CER)の両方が著しく減少す
ることが判明した。これに加えて、それは、有声または無声であるかに関わらず
、0.20秒先をルックアヘッドし、かつピッチ情報に基づいた多くの不必要なパス
を適合的にプルーニングするので、効率におけるトレードオフなしに、精度の確
率を改良する。

【００２５】《標準中国語スピーチ認識のための諸特徴》 5つの標準中国語の語彙音調については、第1音調（高い）と第3音調（低い）
とは、主としてピッチレベルが異なっており、一方、ピッチ微分値はゼロに近い
。これに反して、第2音調（上昇）と第4音調（下降）は1ピッチ範囲にわたるが
、明確な正または負の微分値を有する。したがって、ピッチとその微分値の両方
が、音調認識のための候補特徴である。曲率情報（二次微分値）の可能性は、
明確さがより少ない。

【００２６】本発明によれば、発声の程度v(f; t)またはその微分値あるいはこれらの両者
が、特徴ベクトルで表される。発声の程度は、自己相関輪郭の二次回帰の回帰係
数により表される、（好ましくは）短時間自己相関の尺度で表されることが好ま
しい。これは、次式のように定義することが可能である。特徴として発声の程度を使うことは、音節
のセグメント化や、有声および無声子音の曖昧さを取り除く際の助けとなる。ス
ピーチ信号の最大相関が、ピッチ推定値の確実な尺度（次表参照）として、使う
ことができるということが確認された。これは、部分的には、最大の相関が周期
性の尺度であるという事実による。この特徴を含めることによって、それが信号
中の周期性の程度についての情報を提供することが出来、その結果、認識精度を
改善することができる。

【００２７】エネルギーとその微分値も音調特徴として考えて良いが、これらの成分はスペ
クトル特徴ベクトルで既に表されているので、これらの成分はここでこれ以上考
察しない。

【００２８】音調特徴は2つの部分により定義される。第1の部分は、隣接フレームにわたる
イントネーションが除去されたF0輪郭の二次重み付け回帰の回帰係数であり、こ
れは音節の平均長さに関連したウィンドウ寸法と信号周期性の程度に応じた重み
を用いて求められる。第2の部分は、信号の周期性の程度を取り扱う。それは、
音節の平均長に関連したウィンドウ寸法とルックアヘッド逆トレースの手順から
得られたピッチ推定値の逆数に対応する相関の遅延とを有する、自己相関輪郭の
二次回帰の回帰係数である。

【００２９】《長期ピッチ正規化》本来、音調特徴としてピッチを使用することは、実際上、認識性能を劣化させ
ることがある。これは、ピッチ輪郭が以下の重ね合わせであるという事実によっ
て生じる。 a) 話者の基本ピッチ b) 文レベルの韻律(prosody) c) 実際の音調、および d) 統計的偏差 (c)は、必要な情報であり、(d)は、HMMによって扱われ、(a)と(b)は音調認識に
は無関係であるが、それらの偏差は第1および第3音調の間の差異を超える。これ
は、863の男性によるテスト集合の話された文151を表すピッチ輪郭の例を示す、
図4に例示されている。この文では、第1および第3音調のピッチレベルは、文の
韻律のため、区別がつかない。文の中では、フレーズ成分は既に50Hzの範囲にわ
たっているが、成人話者のピッチは100から300Hzまで変化する。図4は、先頭の
ピッチ輪郭であり、ここで、点線は（推定された）フレーズ成分を示している。
太い線は0.6を超えた発声の程度を持つ領域を示している。図4の下側グラフは、
対応する発声の程度を示す。

【００３０】話者の性別に依存しないピッチ輪郭を得るために、「cepstral平均減算」を対
数ピッチに適用することが提案されている。これは話者バイアス(a)を有効に取
り除くが、フレーズ効果(b)は考慮しない。

【００３１】本発明によると、信号中に存在している語彙音調効果は、フレーズイントネー
ション効果とランダム効果を取り除くことにより、保つことが出来る。中国語の
場合、語彙音調効果は、中国語の音節中で特定される音調の語彙発音に関係する
。フレーズイントネーション効果は、多音節の中国語単語の音響的な実現によっ
て生じるピッチ輪郭中に存在するイントネーション効果に関係する。したがって
、本発明によれば、推定されたピッチは、話者およびフレーズ効果を減算することによって、正規化される。フレーズ
イントネーション効果は、tに隣接する輪郭の移動平均によって近似することができる、有声のF₀輪郭の長期間の傾向と
して定義される。その重みが信号の周期性の程度に関連していることが有利であ
る重み付け移動平均を使用することが、好ましい。フレーズイントネーション効
果は、重ね合わせの仮定の下では、輪郭から除去される。これは、実験により確認されている。これは、を与える。その最も簡単な形式では、移動平均はw(f; t)=1を使って推定され、
直截な移動平均を与える。重み付け移動平均を、計算することが好ましいが、そ
の際、その重みが発声の程度(w(f; t)=v(f; t))を表すことが有利である。この
後者の平均は、明確な有声領域に焦点を合わせることによって、わずかながら改
善された推定値をもたらす。重み付け移動平均フィルタの最適性能は、約1.0秒
のウィンドウに対して達成される。

【００３２】図5は、F₀輪郭を、音調効果、フレーズ効果、およびランダム効果に分解する
のに適した方法のフローチャートを示す。これには、以下のものが含まれる。 − ルックアヘッド逆トレースの手順から得られたピッチ推定値の逆数に対応する時間遅延を使用して、スピーチ信号の正規化された相関を計算すること。 − （音節の平均長に関連したウィンドウ寸法を使用して）隣接フレームにわたり移動平均フィルタまたはメジアンフィルタをかけることにより、正規化された相関輪郭を平滑化すること。移動平均フィルタは、次のものが好ましい。 Y-smoothed(t)=(1* y(t-5)+2 * y(t-4)+3 * y(t-3)+4 * y(t-2)+5 * y(t-1)+5 * y(t)+5 * y(t+1)+4 * y(t+2)+3 * y(t+3)+2 * y(t+4)+1 * y(t+5))/ 30 − （音節の平均長に関連したウィンドウ寸法を使用して）隣接フレームにわたる自己相関の二次回帰の係数を計算すること。平滑化された自己相関の回帰係数の計算には、n(n=11)フレームにわたる最小二乗判定基準を使うことが好ましい。実行時間効率のため、この演算はスキップすることができ、平坦化相関係数により置き換えることができる。定数データ行列が使用される。これに替わる方法では、F₀輪郭の回帰係数の計算が、重みの関数であるデータ行列ここで、重みは、を用いて、n(n=11)個のフレームにわたる重み付け最小二乗判定基準を使用する。 − （音節の平均長さに関連したウィンドウ寸法を使用して）隣接フレームにわたる自己相関の二次回帰の回帰係数の定数項に基づいて、F₀輪郭の回帰重みを計算すること。回帰重みの計算は、以下の判定基準に基づくことが、好ましい。 − 自己相関の回帰係数の定数項γ_0,tが0.40超である場合、このフレームtについての回帰重みを約1.0に設定する。 − 自己相関の回帰係数の定数項γ_0,tが0.10未満である場合、このフレームt についての回帰重みを約0.0に設定する。 − 上記のいずれでもない場合、このフレームtについて回帰重みを、自己相関の回帰係数の定数項に設定する。重み付け回帰と重み付け長期移動平均フィルタについては、好ましくは、以下の重みが使用される。 − 長期重み付け移動平均フィルタまたはメジアンフィルタによって、標準中国語のスピーチ韻律のフレーズイントネーション成分を計算すること。ウィンドウ寸法は、フレーズの平均長に関連し、重みが、F₀輪郭の回帰重みに関連したものであることが好ましい。フレーズイントネーション効果を抽出するための長期重み付け移動平均フィルタのウィンドウ長さは、約0.80〜1.00秒の範囲に設定することが有利である。 − （音節の平均長に関連したウィンドウ寸法を使用して）隣接フレームにわたりフレーズイントネーション効果から減算することにより、イントネーションの除去されたピッチ輪郭の二次重み付け回帰の係数を計算すること。上述したように、F₀輪郭は、F₀輪郭の（母音をより強調する）重み付け最小二乗
法を用いて、時変重み付け移動平均(MA)フィルタによって、語彙音調効果、フレ
ーズイントネーション効果、およびランダム効果に分解される。語彙音調効果は
、中国語の音節の有声セグメントに存在するのみであるので、有声と無声のあい
まいさは、音節の平均長に関連したウィンドウ寸法と周期性の程度に依存する重
みを使用した、隣接フレームにわたる重み付け回帰を導入することにより解決さ
れる。

【００３３】図6Aは、一文のF₀輪郭の最小二乗を示す。図6Bは、重み付け最小二乗(WLS)に
より重み付け移動平均(WMA)フィルタを適用した後の、同一輪郭を示す。フレー
ズイントネーション効果は、WMAフィルタによって推定される。音調効果は、フ
レーズイントネーション効果を差し引いたF₀輪郭のWLSの定数項に対応する。次
の表は、フレーズイントネーション効果が無視できることを明らかにする。

【００３４】 WMAフィルタの最適性能は、（上記の表に示されるように）実験的に約1.0秒
と決定される。これは大部分の場合において、上昇する音調と下降する音調を対
称的にカバーすることができる。

【００３５】次の2つの表は、非対称性がTER（音調誤り率）にネガティブに作用することを
明らかにする。これは、WMAが、F₀の正規化係数であるのみならず、フレーズの
正規化係数でもあることの理由でもある。

【００３６】《有声ピッチ動き時間特性の抽出》自己相関の二次回帰によって、発声の情報がスピーチ信号から抽出される。自
己相関の回帰係数の定数項が、一定のしきい値、例えば、0.4を超える場合は、
このフレームについての回帰重みは1.0に設定される。自己相関の回帰係数の定
数項が、一定のしきい値、例えば、0.10より小さい場合には、このフレームにつ
いての回帰重みは0.0に設定される。これ以外の場合には、回帰重みは、自己相
関の回帰係数の定数項に設定される。これらの重みは、イントネーションを除去
したF₀輪郭の上記の二次重み付け回帰と、標準中国語のスピーチ韻律のフレーズ
イントネーション成分の長期重み付け移動平均フィルタまたはメジアンフィルタ
とに適用される。イントネーションを除去したF₀輪郭の二次重み付け回帰のこれ
ら重みは、半有声化子音の有声ピッチ輪郭を保存するために、ピッチ輪郭の有声
または無声セグメントを強調するかまたは強調を減少するように設計されている
。この手法の利点は、例え、スピーチセグメント化にわずかな誤りがあっても、
オンライン信号前処理フロントエンドとして機能するF₀輪郭のルックアヘッド適
応型逆トレースを有するこれらの重みが、子音のピッチ輪郭に対して母音のピッ
チ輪郭を保存することである。音調特徴のこの母音保存特性は、スピーチセグメ
ント化の誤りによりモデルパラメータがバイアス推定されるのを妨げる能力があ
る。

【００３７】図7は、本発明を使った、自己相関の二次回帰のための好ましい方法のフロー
チャートを示す。F₀についてのルックアヘッド適応型プルーニング逆トレースの
出力の逆数に対応した遅延を使用した、自己相関の二次回帰を使うことにより、
周期性の情報が、スピーチ信号から抽出される。まず、抽出されたピッチプロフ
ィールは、平滑化された（つまり、ほとんど多重ピッチ誤差がない状態の）ピッ
チ輪郭を得るために、ピッチ動的時間ワーピング(PDT)技術を使って処理され、
次にピッチ輪郭のプロフィールを抽出するために、二次の重み付け最小二乗法が
適用される。そのようなプロフィールは、回帰係数によって表される。定数の回
帰係数は、図5で示されるF₀輪郭の分解に必要とされる重みを計算するために使
われる。回帰係数の一次および二次が、音調誤り率をさらに低減するために使わ
れる。ウィンドウィングのための最良設定は、約110ミリ秒である。これは、通
常の発言速度における1音節長よりも短い。

【００３８】《疑似特徴ベクトルの生成》図8は、本発明による疑似特徴ベクトル生成器のための好ましい方法のフロー
チャートを示す。局所的尤度スコアの最大化の判定基準に従って、HMM中のモデ
ルパラメータがバアイス推定されないようにするために、疑似特徴ベクトルが、
スピーチの無声セグメントに対して生成される。これは、まず、回帰ウィンドウ
内で回帰重みの合計を計算することによって、行われる。予め定められたしきい
値（例えば、0.25）よりも少ない重み合計に対しては、正規化された特徴が、最
小二乗法の判定基準に従って生成された疑似特徴により置き換えられる（縮退し
たケース、等しく重み付けられた回帰に戻る）。

【００３９】明確な無言領域に対しては、ルックアヘッド逆トレースにおける局所的最小パ
スが、ピッチ推定値に対するランダム値を生み出す。このようなイントネーショ
ンが除去されたF₀推定値とその微分値は、正規化された特徴が以前には隣接フレ
ームにわたり等しく分布し、かつ正規化された特徴の確率分布が対称的な特性を
有するとの仮定のもとで、平均がゼロとなる。HMMに基づく音響モデル化の各状
態における非縮退確率分布を確実にする最小の分散を有する。ミリ秒の単位で、
有声領域と無言領域の間に明確な線を引くことが難しいので、有声および無声領
域では、等しい重み付け回帰を使って、明確な有声セグメント中のトレース可能
なピッチと明確な無言領域のランダムなピッチの両方を平滑化する。

【００４０】《音調成分》上に述べたように、好ましい実施例では、音調成分は、位相内のピッチ輪郭が
モデル化されるのを防ぐために、1音節長より短い、好ましくは110ミリ秒（実際
には、約1平均母音長）にわたりイントネーションが除去されたピッチ輪郭につ
いての局所的な重み付け回帰として定義される。局所的回帰におけるこれらの重
みは、子音（語頭にある場合／preme）についての有声ピッチ輪郭を保存するた
めに、ピッチ輪郭の有声または無声セグメントを強調するまたは強調を減少する
ように設計される。この手法の主な利点は、スピーチセグメント化にわずかな誤
りがあっても（それが、小さい量の無声部分を有声部分であると認識することは
ない）、これらの重みが、母音（末尾にある場合／音調素tonome）のピッチ輪郭
を保存し、それを語頭に有る場合／premesへと当然視することである。このよう
に、統計モデルの統計量は、訓練過程の中で蓄積され、さらにその後、認識過程
の中でも蓄積される。さらにそれは、語頭の場合／premeに対するシミュレーシ
ョンスコアが、スピーチセグメント化の誤りによりスピーチ認識されるのを防ぐ
ことを可能にする。

【００４１】《実験配置》実験は、フィリップス社の大量語彙連続スピーチ認識システムを使って実施さ
れた。それは、一次微分値を有する標準MFCC特徴、単純チャネル正規化のための
文章ベースのceptral平均減算(CMS)、および密度特定の対角線の共分散マトリク
スを持ったガウス混合密度を使用するHMMMベースシステムである。実験は3つの
異なる標準中国語連続スピーチコーパスの上で行われた。すなわち、MATコーパ
ス（電話、台湾標準中国語）、非公共のPC聞き取りデータベース（マイクロホン
、台湾標準中国語）、および1998年の本土中国語863ベンチマーキングのデータ
ベースである。MATとPC聞き取りデータベースについては、話者無依存システム
を使用する。863については、個々のモデルが各性別に対し訓練され、そして性
別は符号解読の間に既知とされる。標準863言語モデル訓練コーパス（人民日報1
993〜4年）が、テスト集合に含まれる。したがって、本システムは、実生活での
聞き取り状況を反映するのではなく、テスト文の全体を予め「知っている」。現
実的な性能係数を入手するため、LM訓練集合は、480のテスト文をすべて取り除
くことによって、「クリーンに」されている。次の表にコーパス特性をまとめる
。

【００４２】 PDAは、しばしば微細および粗ピッチ誤差に関して評価される。基盤となる既
存アルゴリズムが、大規模に調整されていると仮定され、かつスピーチ認識との
統合に焦点があてられているので、このシステムは、代わりに、音調誤り率(TER
)に関して最適化されている。最後のものを除きすべての表が、TERを示している
。TERは、復号器には各音節について下記の情報が与えられている、音調音節の
符号解読によって測定される。 − （強制された境界合せにより得られる）開始および終了フレーム。 − （テストスクリプトからの、音調なし）ベース音節同一性、および − この特定の音節について許される音調のセット。

【００４３】 5つの語彙音調すべてが、すべての中国語音節と結合可能であるというわけで
はない。音調の当惑性(TPP)が、テスト集合にわたり平均化される音節に対して
可能な音調の数として定義された。

【００４４】次の実験表の中の第1列は、2つ以上の表の中に示された同一の実験をすばやく
識別するのを助けることを意図した実験Id（D1、D2、T1等）を示す。

【００４５】《実時間、オンラインDP操作》第1の実験は、動的プログラミングを使う利益を取り扱う。以下の表は、MATと
PCDについて、DPからの10〜15％のTER減少を示す。非常にクリーンな863コーパ
スについてのみ、DPは必要とされない。現実の聞き取りシステムもノイズを扱わ
なければならないので、DPは、強健性を確実にするために、どのケースでも有用
であると考えられる。

【００４６】実験の第2の集合は、部分的な逆トレースの利益を考慮する。直感的には、1つ
の音節の接続部情報は十分である必要があり、すなわち、20〜25 フレーム程度
である必要がある。次の表は、ピッチ輪郭を安定させるためには、10個のフレー
ムが既に十分であることを示す。伝統的には、15個フレームが選ばれるであろう
。

【００４７】検索動作を低減することに焦点を合わせると、次の表は、異なったプルーニン
グしきい値でビームプルーニングをするためのパス再結合（コーパス平均）の数
を示す。音調誤り率の増加を最小にして93％の減少を達成することができる(P3)
。伝統的には、設定P2が選ばれるであろう。

【００４８】分解能を1オクターブあたり48量子化ステップから16ステップのみへ減少させ
ることにより、パス再結合は大幅に低減することになるが、いくつかの劣化（次
の表の中の実験R1)が生じる。DPの後にピッチを微調整することにより(R2)、こ
れは軽減させることができる。

【００４９】《音調特徴ベクトルについての実験成果》本発明による特徴ベクトルに対する改善を確かめるために、実験が実施された
。このテストは従来の特徴ベクトルを使って開始される。次の表は、ほぼ全体の特性がに帰すべきであることを示している。をスイッチオフすることは小さい効果(F2)しかなく、一方、それを特徴としての
み使うことは、52％もの劇的な劣化(F3)に至る。対数を取ることは、有意の効果
を生じない(F4)。

【００５０】次の表は、正規化の効果を示すもので、これは平均化された隣接ピッチ（式(2
)において、重みw(f, t)=1とする）を減算することにより、話者およびフレーズ
効果を取り除くのに有効である。3つの異なったウィンドウ幅（それぞれ、0.6秒
、1.0秒、および1.4秒の移動平均）の中では、移動平均が1.0秒のウィンドウが
、マージンが小さいことで最良である。

【００５１】次の表は、正規化を、文平均への正規化に対する1.0秒の移動平均ウィンドウを使った正規化対数
と比較している。MATおよび863のコーパスの両方とも、短い発声からなり、フレ
ーズ効果はほとんどない。したがって、MATについては、文ベースの正規化は、
提案した方法に対して同程度の性能を発揮する。一方、性別バイアスが、話者性
別に依存するモデルにより既に説明されている863については、正規化されない
場合に対しての改善は得られない。また、長い発声と強いフレーズ効果を含むPC
書取りコーパスについては、改善は同じく観測されなかった。

【００５２】次の表は、二次微分値を使用する効果を示す。9％の有意の改善が観測され、ここでマイクロフォンの
配置が大部分の利益をもたらしている。

【００５３】次の表は、特徴として発声v(f; t)を使うことにより、4.5％の利得が得られ、
これは、さらにノイズを低減するための簡単な平滑化により6.4％まで調整する
ことが可能であることを示す。

【００５４】平滑化された発声の微分値から、さらに6.1％を達成することが出来るが、次
表に示されているように二次微分値からはさらなる低減は得られない。

【００５５】次の表に示すように、局所的正規化における重みとしてv(f; t)を使用するこ
とにより、小さい最終的な改善(2.5％)が得られる。

【００５６】特徴ベクトルに関してすべての最適化ステップを同時にとると（実験F1からN6
まで）、開始ベクトルと比べて、28.4％の平均TER改善が達成された。

【００５７】《言語モデルの組合せ》また、実験により、最適音調誤り率により、最良の総合システム性能も得られ
ることが確認された。これを示すために、フレーズベースの認識辞書とフレーズ
2つ組／3つ組言語モデルを使用して、統合システムの誤字率(CER)を、選択され
た設定について測定した。完全性と比較可能性のために、次の表の最後の2行は
、内部のテスト集合（「システム性能テスト」）で得られた結果を示す。

【００５８】この結果により、TERとCERの間の良好な一致が確認される。第二に、音調モデ
ル化からの総合的な相対的CER改善は、平均で並はずれた27.3％に到達し(2つ組
）、電話スピーチでは最小の利得(19.3％）であり、2つのマイクロホンコーパス
については30％を上回る。3つ組については、利得はやや小さい。その理由は、3
つ組は、言語学の文脈のみから、多くの場合を脱曖昧化させることができるのに
対し、2つ組は音調モデルの支援を必要とするからである。(極端な場合は、863
ベンチマーキングLM(LM訓練の内部の試験集合）で、この場合、大部分の音調が
正しく文脈から推論され、かつ音調モデル化が10.6％の利得を与える。）

【００５９】《まとめ》オンラインの、強健な音調特徴抽出を構成するのに重要なことは、同時発生の
有声時間フレームの隣接部で、周期性についての共同の局所的情報を使用するこ
とである。本発明は、同時発生の時間フレームにおける周期性の十分とはいえな
い情報から直接音調特徴を決定することは、排除している。その代わりに、発声
の程度は、基本周波数の分布として扱われる。

【００６０】従来技術との組み合わせで使用することが出来る、オンライン、強健な特徴抽
出の違った観点は、図8のブロックダイアグラムの中の組み合せで示される。図9
は、フローチャートの形式で同一の情報を示す。重要な観点は、以下の通りであ
る。 − 好ましくは、分数調波の累和計算に基づいて、スピーチ信号の内部の尺度を決定することによりピッチ情報を導き出すこと。 − 適応型プルーニングが、好ましくは、0.50秒前の発声の程度とジョイント情報に基づいている、基本周波数のオンライン・ルックアヘッド適応型プルーニング逆トレースであること。 − フレーズイントネーションを除去すること。これは、有声のF₀輪郭の長期傾向として定義される。この効果は、好ましくは信号の周期性の程度に関連した重みを使った、F₀輪郭の重み付け移動平均によって近似される。 − 最大ウィンンドウ幅が、音節の長さに対応し、重みが、信号の周期性の程度に関連している、一定時間の複数フレームにわたりF₀輪郭のイントネーション除去についての二次重み付け回帰の手段であること。 − 最大ウィンドウ長さが、音節の長さに対応し、時間遅延が、ルックアヘッド逆トレース手順からのピッチ推定値の逆数に対応している、一定時間の複数フレームにわたる自己相関の二次回帰であること。 − スピーチ信号の有声と無声にまたがるセグメントにおける疑似特徴ベクトルを生成すること。疑似特徴ベクトルが、最小二乗判定基準に従って、無声のスピーチについて生成されること(縮退ケース、等しく重み付けされた回帰に戻る）。

【図面の簡単な説明】

【図１】音調特徴の3段階抽出を説明する。

【図２】ピッチを測定するフローチャートを示す。

【図３】逆トレースと適応型プルーニングを具えた動的プログラミングのフロ
ーチャートを示す。

【図４】ピッチ輪郭と発声の程度の例を示す。

【図５】 F0輪郭を、語彙音調効果、フレーズイントネーション効果、およびラ
ンダムノイズ効果に分解するフローチャートを示す。

【図６Ａ】重み付けフィルタリングの使用を説明する。

【図６Ｂ】重み付けフィルタリングの使用を説明する。

【図７】自己相関の二次回帰の処理を示す。

【図８】無声のスピーチセグメントにおける特徴ベクトルの処理を説明するブ
ロックダイアグラムを示す。

【図９】本発明の好ましい実施例に従った、強健な音調特徴抽出器のフロック
ダイアグラムを示す。

【図１０】対応するフローチャートを示す。

【符号の説明】

───────────────────────────────────────────────────── フロントページの続き (72)発明者セイデフランクオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６Ｆターム(参考） 5D015 CC13 【要約の続き】の重み付け回帰の係数である。第2の部分は、自己相関の二次回帰の係数である信号の周期性の程度を取り扱う。これには、ルックアヘッド逆トレース手順からのピッチ推定値の逆数に対応する遅延が使われる。F0輪郭のイントネーション除去の二次重み付け回帰のこれらの重みは、半濁音子音についての有声ピッチ輪郭を保存するために、ピッチ輪郭の有声または無声セグメントを強調するかまたは強調を減少するように設計されている。この手法の利点は、例え、スピーチセグメント化にわずかな誤りがある場合でも、オンライン信号前処理フロントエンドとしてサーブされているF0輪郭についてのルックアヘッド適応型プルーニング逆トレースのための重みは、子音のピッチ輪郭のために母音のピッチ輪郭を保存するだろう。音調特徴のこの母音保存特性には、スピーチセグメント化に誤りがあるためモデルパラメータがバイアス推定されるのを妨げる能力がある。

Claims

【特許請求の範囲】

【請求項１】音調言語において話されたスピーチを表す時間的に連続した入力信号を認識す
るためのスピーチ認識システムであって、前記システムが、前記入力信号を受けるための入力端子と、前記入力信号のセグメントを観測特徴ベクトルとして表すためのスピーチ解析
サブシステムと、前記観測特徴ベクトルを、訓練されたスピーチ認識ユニットの在庫表に対して
マッチングを行うための、各ユニットが少なくとも1つの基準特徴ベクトルによ
り表されるユニットマッチングサブシステムとを含み、前記特徴ベクトルが、前記特徴ベクトルにより表される前記スピーチセグメン
トの推定された発声の程度から導き出された成分を含むことを特徴とするスピーチ認識システム。
【請求項２】前記導き出された成分が、前記スピーチセグメントの前記推定された発声の程
度を表すことを特徴とする、請求項1に記載のスピーチ認識システム。
【請求項３】前記導き出された成分が、前記スピーチセグメントの前記推定された発声の程
度についての微分値を表すことを特徴とする、請求項1に記載のスピーチ認識シ
ステム。
【請求項４】前記推定された発声の程度が、平滑化されることを特徴とする、請求項1、2、
または3のいずれかに記載のスピーチ認識システム。
【請求項５】前記発声の程度が、推定されたピッチ輪郭の短時間自己相関についての尺度で
あることを特徴とする請求項1に記載のスピーチ認識システム。
【請求項６】前記尺度が、前記自己相関輪郭の前記回帰係数によって形成されることを特徴
とする、請求項5に記載のスピーチ認識システム。
【請求項７】前記特徴ベクトルが、前記スピーチセグメントの推定されたピッチの微分値を
表す成分を含むことを特徴とする、請求項1に記載のスピーチ認識システム。
【請求項８】前記推定されたピッチが、前記スピーチセグメントを表す推定されたピッチ輪
郭からフレーズイントネーション効果を取り除くことによって得られることを特
徴とする、請求項5または請求項7のいずれかに記載のスピーチ認識システム。
【請求項９】前記フレーズイントネーション効果が、前記推定したピッチ輪郭の重み付け移
動平均によって表されることを特徴とする、請求項8に記載のスピーチ認識シス
テム。
【請求項１０】前記重み付け移動平均の重みが、前記セグメント中の前記発声の程度を表すこ
とを特徴とする、請求項9に記載のスピーチ認識システム。
【請求項１１】スピーチの無声セグメントが、疑似特徴ベクトルによって表されることを特徴
とする、請求項1に記載のスピーチ認識システム。
【請求項１２】推定されたピッチ輪郭の回帰重みの合計が、回帰ウインドウ内にある場合には
、セグメントは無音であると見なされることを特徴とする、請求項11に記載のス
ピーチ認識システム。
【請求項１３】前記疑似特徴ベクトルが、最小二乗法判定基準に従って生成された疑似特徴を
含むことを特徴とする、請求項11に記載のスピーチ認識システム。