JP4738697B2

JP4738697B2 - 音声認識システムのための分割アプローチ

Info

Publication number: JP4738697B2
Application number: JP2001571391A
Authority: JP
Inventors: ファンティ・マーク; フィリップス，マイケル・エス
Original assignee: スピーチワークス・インターナショナル・インコーポレーテッド
Priority date: 2000-03-24
Filing date: 2001-03-23
Publication date: 2011-08-03
Anticipated expiration: 2021-03-23
Also published as: EP1269463A1; AU2001245967A1; US6535851B1; WO2001073754A1; CA2404306A1; TW502249B; JP2003529106A

Description

【０００１】
【発明の属する技術分野】
本発明は、広くは、音声認識システムに関し、更に詳しくは、音声認識システムにおいて用いられる分割（セグメンテーション、セグメント化）アプローチに関する。
【０００２】
【従来の技術】
ほとんどの音声認識システムは、発話データを処理し言語学的な音素に対応するのが通常であるモデル化単位を検出する認識器を含む。認識器は、通常、測定データを含む複数のタイプのデータを発生する。測定データは、モデル計算段に送られてそこで評価がなされ、ある発話データが特定の音素を表しているかどうかが判断される。ここで用いている「発話」（utterance）という用語は、人間又は機械のいずれかによって発生された１又は複数の音を指す。発話の例には、これに限定されることはないが、１つの音、任意の２つ以上の音、１つの単語、２つ以上の単語などが含まれる。発話データとは、発話のデータ表現である。
【０００３】
多くの認識器は、フレーム・ベース又はセグメント・ベースのいずれかである。フレーム・ベースの認識器は、発話データの部分（「フレーム」）を分析して、発話データの特定のフレームが音素など特定の言語学的単位の一部であるかどうかを判断する。例えば、フレーム・ベースの認識器は、発話データの１０ミリ秒（ｍｓ）のフレームを分析して、この１０ミリ秒からなる発話データのフレームが音素「ｆ」の一部であるかどうかを判断する。同じ音素の部分であると判断されたフレームは、同じグループに入れられる。
【０００４】
フレーム・ベースの認識器とは対照的に、「セグメンタ」と称されることが多いセグメント・ベースの認識器は、発話データのフレームを分析して、その発話データに含まれている言語学的単位を定義する論理セグメントを見つける。それぞれのセグメントは、１つの言語学的単位の始点と終点とを画定する２つの境界によって定義される。境界は、通常、発話データ値の急峻な上昇及び下降によって特徴付けられる。セグメンタは、セグメントの境界を見つけるために、フレーム・データを分析する。境界（及びセグメント）がいったん識別されれば、セグメンタは、それぞれのセグメントが例えば「ｆ」など特定の言語学的単位である確率を決定する。
【０００５】
セグメンタが提供する精度は、フレーム・ベースの認識器よりも比較的高くなる傾向がある。というのは、セグメンタは、１つの言語学的単位の一部（a piece of a linguistic unit）を既知の複数の言語学的単位の集合と一致させようと試みるのではなく、１つの言語学的単位の全体（an entire linguistic unit）を既知の複数の言語学的単位の集合と一致させようと試みるからである。しかし、フレーム・ベースの認識器は、一般に、セグメンタよりも優れたエラー回復を提供する。その理由は、セグメント化は、認識の前ではなく、認識の間に生じるからである。すなわち、セグメンタにおいては、例えばある単語の最初の言語学的単位を見逃してしまうなどのセグメンタ化エラーからの回復は困難である場合がありうる。セグメンタによっては、多数のセグメントを発生した後で、セグメントの最適の集合を選択して精度を向上させるものがある。しかし、セグメントを処理するのに必要な計算資源の量は、セグメントの数と直接の関係がある。その結果として、多数のセグメントを処理することによって精度を向上しようと試みるセグメンタは、それに対応するフレーム・ベースのものよりもはるかに多くの計算資源を必要とすることがありうる。
【０００６】
音素のような言語学的単位に対応する境界を見つけることは、非常に困難である。音声はその性質が明確ではないから、境界を示唆する明瞭な音響的ヒントは存在しないことがある。結果的に、境界が見逃され、それにより、特定の音素が認識されず精度が低下する可能性が増加する。別の問題としては、発話データの中の言語学的単位が存在しない位置に、誤って境界を認識してしまうことがある。この問題は、背景ノイズのほうが誤って言語学的単位として容易に解釈されてしまう沈黙領域において一般的である。あまりに多くの境界（及びセグメント）を見つけるということは、音声認識システムのパフォーマンスに悪影響を与える。というのは、音声認識システムの速度は、処理されるセグメントの数に多いに依存しているからである。セグメントを処理するのには計算資源が必要であり、不正確なセグメント検出の数を制限することは非常に重要である。
【０００７】
以上で述べたことから、従来型のアプローチに存在している制限を回避する音声認識機構に対する必要性が存在する。特に、計算資源の量を減少させることが可能でありながら比較的高い精度を維持しながら高速の応答を提供するような音声認識機構に対する必要性が存在している。
【０００８】
【発明の概要】
以上の必要性と以下の説明から明らかになるこれ以外の必要性とが、本発明によって達成される。受け取られた一連の発話データ（a body of utterance data）が処理され、候補音声単位の集合を定義する候補音声単位境界の集合が決定される。候補音声単位境界の集合は、セプストラル（Cepsral）係数値の変化と、発話エネルギの変化と、音声分類の変化と、広いカテゴリ分析（反転音、後舌母音、前母音）と、自鳴音開始の検出とに基づいて決定される。候補音声単位境界の集合は、他の候補音声単位に対する優先順位及び近接度と沈黙領域とによってフィルタリングされる。候補音声単位の集合は、無交差領域分析を用いてフィルタリングされ、フィルタリングされた候補音声単位の集合を発生する。無交差領域分析は、一般に、エネルギ・アップ、エネルギ・ダウン、ディップ又は広いカテゴリ型の無交差領域を完全にスパンする候補音声単位を放棄することを含む。最後に、音声単位の集合が、発話エネルギの差異に基づいて、フィルタリングされた候補音声単位の集合から選択される。
【０００９】
実施例は、添付の図面において例として図解されている。ただし、これは、限定を意図していない。図面においては、類似する構成要素に対しては、同じ参照番号が付されている。
【００１０】
【発明の実施の形態】
以下の説明では、説明のために、特定の詳細を与えることにより、本発明の完全な理解を提供しようとしている。しかし、本発明は、以下の詳細がなくても実現できることは明らかである。場合によっては、周知の構造や装置はブロック図形式によって表現し、本発明を不必要に曖昧にすることを回避している。
【００１１】
以下のセクションにおいて、実施例の様々な側面及び特徴がより詳細に説明される。すなわち、（１）導入部、（２）システムの概観、（３）機能的な概観、（４）候補境界の決定、（５）優先順位及び近接度により候補境界をフィルタリングして候補セグメントの数を減少させること、（６）沈黙領域に含まれる候補境界をフィルタリングして候補セグメントの数を減少させること、（７）無交差領域分析を用いて候補セグメントをフィルタリングすること、（８）候補セグメントから最終セグメントを選択すること、（９）パイプラインの考察、及び（１０）実現機構である。
【００１２】
１．導入部
音声認識システムにおいて音声をモデル化するコンピュータによって実現される分割（セグメンテーション）アプローチについて説明される。一般に、様々な手法を用いて、発話データが評価され、セグメント・ラティスを定義する候補境界の集合が決定される。そして、セグメント・ラティスが評価され、発話データを正確にモデル化するセグメントの最終的な集合が決定される。
【００１３】
２．システムの概観
図１は、この出願において説明される様々な実施例に従い音声をモデル化するセグメンタ（セグメント化装置、分割装置）１００を図解している。セグメンタ１００は、特定の応用の要件に応じて、スタンドアロン要素として、又は、音声認識システム（図示せず）における認識器の段として、実現することができる。セグメンタ１００は、発話データ１０２を受け取り処理する。ここで説明される音声モデル化のアプローチは、任意のタイプ又は形式の発話データと共に用いることができる。説明の目的だけのために、この出願では、発話データ１０２を、固定長の連続的なフレームの形式で説明する。
【００１４】
セグメンタ１００は、セグメント・ラティスを定義する候補境界を特定する境界データ１０４を発生する。セグメンタ１００は、また、セグメント定義データ１０６とセグメント測定データ１０８とを発生する。セグメント定義データ１０６は、境界データ１０４によって特定される候補境界からセグメンタ１００によって選択されるセグメントの集合を定義する。セグメント測定データ１０８は、それぞれのセグメントに対する音響的な特徴を含む。境界データ１０４と、セグメント定義データ１０６と、セグメント測定データ１０８とは、典型的には、音声認識システムにおけるモデル計算段への入力として提供される。また、境界データ１０４は、リンク１１０によって示されているように、セグメンタ１００へのフィードバック入力として提供される。
【００１５】
３．機能的な概観
ある実施例による音声モデル化の分割アプローチは、図２の流れ図２００に図解されている。ステップ２０２において開始した後で、ステップ２０４において、発話データ１０２が、セグメンタ１００によって受け取られる。この明細書で説明されているように、発話データ１０２は、例えば１０ミリ秒（ｍｓ）などの固定サイズの連続的なフレームの形式を有する。発話データのフレームは、発話全体又は発話の一部を表すことがありうる。実施例は、特定のフォーマット又はサイズの発話データ１０２には限定されない。ある実施例によると、発話データ１０２のそれぞれのフレームは、Ｎ個のセプストラル（Cepstral）係数（Ｃ₀，Ｃ₁，…，Ｃ_n）とＭ個のスペクトル（spectral）係数（Ｓ₀，Ｓ₁，…，Ｓ_m）とを含む。例えば、１４個のセプストラル係数を用いることができる。この技術分野において広く知られているように、セプストラル係数は、ログ大きさスペクトル（log magnitude spectrum）のフーリエ変換表現の係数、すなわち、周波数の関数としてのエネルギである。音声認識システムにおけるセプストラル係数及びスペクトル係数の使用については、Lawrence Rabiner and Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall, 1993に説明がある。図３は、発話データ３０２の１０個のフレームの形式を有する発話データ１０２の一部を図解するブロック図３００である。ここで、１０個のフレームは、個別的に、Ｆ₁ないしＦ₁₀である。
【００１６】
ステップ２０６では、候補境界と候補セグメントとの集合が、以下で更に詳細に説明される様々な手法に従って、発話データ１０２から決定される。候補境界は、フレーム３０２の境界においてのみ確立されるが、その理由は、フレーム３０２の境界はセグメンタ１００にとって利用可能な最小の粒状度（granularity）であるからである。候補境界の集合は、図３においてセグメント３０４、３０６、３０８、３１０及び３１２によって表されているように、重複する候補セグメントのラティス（格子）を定義する。
【００１７】
ステップ２０８では、候補境界の集合は、フィルタリングされ、候補セグメントの数を減少させる。候補セグメントの数を減少させることによって、候補セグメントを処理し最終的なセグメントの集合を選択するのに要求される計算資源の量が減少するという効果が得られる。
【００１８】
ステップ２１０では、後で更に詳細に説明されるように、候補セグメントの集合が、無交差（no-cross）領域分析を用いてフィルタリングされ、フィルタリングされた候補セグメントの集合を発生する。
【００１９】
ステップ２１２では、最終的なセグメントの集合が、候補境界が識別されるときに決定される境界確率に基づいて、フィルタリングされた候補セグメントの集合から選択される。このプロセスは、ステップ２１４において完成する。
【００２０】
４．候補境界の決定
候補境界は、発話データ１０２をモデル化しそれから最終的なセグメントが選択されるセグメント・ラティスを定義する。選択される候補境界の数は、希望する精度と候補境界を処理するのに利用可能な計算資源とに依存する。候補境界の数が大きいほど、一般的には、より多くの計算資源が必要となる。ある実施例によると、候補境界の集合を決定するには、いくつかの手法が用いられる。これらの手法には、（ａ）セプストラル差、（ｂ）エネルギ差、（ｃ）音声差、（ｄ）広いカテゴリ分析、そして、（ｅ）自鳴音（sonorant）開始の検出が含まれる。
【００２１】
（ａ）セプストラル差
ある実施例によると、セプストラル係数の差が、フレームの境界を検出するのに用いられる。フレームの集合に対するセプストラル係数は、最初に「平滑化」されて、音声において生じることが多い急激な変化すなわち「チョピネス（chopiness）」の効果を減衰させる。フレームの平滑化には、一般に、それぞれのフレームに対して、複数のフレームにわたるセプストラル係数を平均化することが含まれる。例えば、特定のフレームを平滑化するには、この特定のフレームの左側にある（後の）Ｎ個のフレームに対するセプストラル係数が全体として平均化され、また、この特定のフレームとこの特定のフレームの右側にある（前の）Ｎ−１個のフレームとに対するセプストラル係数が全体として平均化される。
【００２２】
セプストラル係数は、いったん平滑化されると、セプストラル係数の範囲の差を補償するように正規化又はスケーリングがなされる。例えば、あるセプストラル係数が（０．０）から（１．０）までの範囲を有し、別のセプストラル係数が（０．０）から（１００，０００．００）までの範囲を有することがある。ある実施例によると、それぞれのフレームにおけるセプストラル係数は、その標準偏差によって正規化される。
【００２３】
セプストラル係数は、スケーリングされると、フレームにおける境界を識別するために分析される。フレームの分析には、一般に、それぞれの可能性がある境界の左側及び右側にあるＮ個のフレームを比較して（境界は２つのフレームを分離する）、現在のフレーム（通常は、考慮されている境界の右側にあるフレーム）が何らかの差測度（差の尺度、difference measure）にピークを有しているかどうかを判断する。ここでの用法としては、ピークは、両側に十分に大きな低下を有しており特定のスレショルドを超える局所的な最大値として定義される。
【００２４】
図４は、ある実施例に従いセプストラル係数を用いてフレームの境界を検出するアプローチを図解する流れ図４００である。ステップ４０２において開始した後で、ステップ４０４において、フレーム・データは、複数のフレームにわたって平滑化される。図３を参照すると、この例の目的のために、現在のフレームはフレームＦ₅であり、Ｎは３であり、それぞれのフレームは１４個のセプストラル係数によって定義されている。最初に、フレームＦ₂、Ｆ₃及びＦ₄に対するセプストラル係数Ｃ₀ないしＣ₁₃の平均が決定される。また、フレームＦ₅、Ｆ₆及びＦ₇に対するセプストラル係数Ｃ₀ないしＣ₁₃の平均も決定される。ステップ４０６では、ステップ４０４において計算された平均化されたセプストラル係数が、その標準偏差を用いて正規化される。
【００２５】
ステップ４０８では、左右からの平均化され正規化されたセプストラル・ベクトルが比較される（差測度は、ユークリッド距離である）。ステップ４１０では、ステップ４０８において測定された差が、左から右へという態様でサーチされ、あるスレショルドの量よりも多く近傍の局所的最小値よりも大きな差測度の局所的最大値すなわちピークを見つける。
【００２６】
（ｂ）エネルギ差
ある実施例によると、検出されたエネルギ差は、現在のフレームにおいて境界を識別するのに用いられる。この分野の当業者に十分に理解されているように、発話エネルギは、セプストラル係数Ｃ₀において表現される。従って、この実施例によると、セプストラル差のピークを計算するのに用いられたステップは、Ｃ₀だけを用いて反復される。
【００２７】
（ｃ）音声差
ある実施例によると、音声差は、境界を識別するのに用いられる。音声分類の著しい変化は、一般に、境界の存在、すなわち、異なる音素の開始を示す。ある実施例によると、特定のフレームの音声分類は、ニューラル・ネットワークを用いてこの特定のフレームを処理してＭ個の音素に対するこの特定のフレームのスコアを得ることによって判断される。この分析の結果は、それぞれのフレームにおける音素確率のベクトルである。このベクトルは、次に、ちょうどセプストラル係数と同じように処理され、境界の存在を仮定するべき差関数のピークが見つけられる。
【００２８】
（ｄ）広いカテゴリ分析
ある実施例によると、広いカテゴリ分析は、波形エネルギ・パターンを評価することによって通常検出されることがない境界、特に、内部自鳴音領域を識別するのに用いられる。例えば、「three」における/r/と/iy/との間や、「one」における/w/と/ah/との間の境界を検出するのは、特別に困難である場合がある。というのは、これらの音素の間には、僅かな変化、すなわち、「滑り（slurring）」しか存在しないからである。この問題は、背景ノイズによって更に困難になることがある。
【００２９】
広いカテゴリ分析は、後舌母音（back vowels）、前母音（front vowels）及び反転音（retroflex）など比較的ユニークなスペクトル特性を有する音声成分を検出することに関係する。一般に、類似の音は広いカテゴリに組み合わされ、発話データのフレームはこの広いカテゴリとの関係で評価される。広いカテゴリのスコアが減少する位置の近くで急峻な変化があると、それは、境界が存在していることを示す。
【００３０】
図６Ａは、部分６０４で表されている発話「four」と部分６０６によって表されている発話「zero」とに対する発話波形６０２を含む図６００である。図６００は、また、様々な周波数における発話波形６０２のエネルギをグラフィカルに図解するスペクトログラム６０８も含む。ある実施例によると、３つのタイプの広いカテゴリが用いられ、（ｉ）反転音、（ｉｉ）後舌母音及び関連音、そして（ｉｉｉ）前母音及び関連音という境界が検出されている。
【００３１】
（ｉ）反転音
反転音のカテゴリとは、ユニークなスペクトル特性を有する「r」の音のファミリを指している。図６００には、反転音すなわち「r」の存在に対する発話波形６０２のスコアを図解している反転音グラフ６１０が含まれており、影の付いた部分は、より高いスコアと、「r」が発話波形６０２に含まれているより高い確率とを示している。
【００３２】
例えば、発話波形６０２によって図解されているように、ほぼ「four」の「r」の位置にある部分６０４の右側には、相対的に、波形エネルギの変化がほとんど存在しない。従って、波形エネルギの変化の検出だけに依存していては、「four」の中の「r」を識別するのが困難である可能性がある。しかし、反転音グラフ６１０の部分６１０ａは、比較的高い反転音スコアをグラフィカルに図解しており、これは、部分６０４の端部が「r」を含んでいる蓋然性が高いことを示している。
【００３３】
別の例として、発話波形６０２の部分６０６では、波形エネルギの変化の検出に依存していては、「zero」における「e」から「r」への境界を識別するのは困難である可能性がある。というのは、これらの２つの音素の間の僅かな変化は、波形６０２において検出することが困難でありうるからである。しかし、反転音グラフ６１０の部分６１０ｂは、比較的高い反転音スコアをグラフィカルに図解しており、これは、部分６０６の中間部分が「r」を含んでいる蓋然性が高いことを示している。これらの２つの例によって示されるように、反転音情報は、「r」の境界の存在を識別するのに極めて有益な場合がある。
【００３４】
ある実施例では、２つのタイプの反転音特性を用い、ゼロ（０）から１までの範囲に正規化された反転音スコアに基づいて、反転音境界が識別される。最初に、反転音境界が、反転音スコアが１５個以下のフレームにおいて０．１から０．４上昇又は下降する位置において識別される。第２に、反転音境界が、反転音スコアが５個以下のフレームにおいて０．０１から０．２上昇又は下降する位置において識別される。第２の状況によって、非常に低い点からより急速に変換するはるかに弱い「r」の音素に関して、反転音境界が検出されることが可能となる。
【００３５】
（ｉｉ）後舌母音及び関連音
ある実施例によると、後舌母音及び関連音の情報を用いて、従来型のエネルギ変化の手法がそれほど有用ではない発話データにおける境界を検出することができる。後舌母音及び関連音は、人の口の後方で形成されるという特徴を有し、ユニークなスペクトル特性を有している。図６では、部分６０４における「ao」及び「r」の音素は、波形エネルギの変化に依拠していては検出が困難な場合がある。というのは、部分６０４の最初の３分の２における波形エネルギが比較的一定であるからである。しかし、部分６１２ａは、比較的高い後舌母音スコアをグラフィカルに図解しており、これは、部分６０４の最初のおよそ３分の２が後舌母音又は関連音を含む蓋然性が高いことを示している。このように、後舌母音情報を用いると、「ao」と「r」との音素境界が見逃される蓋然性を小さくすることができる。
【００３６】
同様に、部分６０６においては、「ow」の音素は、波形エネルギの変化に依拠していては検出が困難な場合がある。というのは、部分６０６の端部に向かう波形エネルギが比較的一定であるからである。しかし、部分６１２ｂは、比較的高い後舌母音スコアをグラフィカルに図解しており、これは、部分６０６の端部が後舌母音又は関連音を含む蓋然性が高いことを示している。
【００３７】
（ｉｉｉ）前母音及び関連音
ある実施例では、前母音及び関連音の情報を用いることによって、従来型のエネルギ変化の手法ではあまりうまくいかないような発話データにおける境界の検出が可能となる。前母音及び関連音は、人の口の前方で形成されるという特徴があり、ユニークなスペクトル特性を有している。図６では、部分６０６における「iy」の音素は、波形エネルギの変化に依拠していては検出が困難な場合がある。というのは、「iy」と「r」とは一緒に発せられる傾向を有するからである。しかし、部分６１４ａは、比較的高い前母音スコアをグラフィカルに図解しており、これは、部分６０４の最初のおよそ３分の２が前母音又は関連音を含む蓋然性が高いことを示している。このようにして前母音情報を用いると、「iy」の音素境界が見逃される蓋然性を小さくすることができる。
【００３８】
（ｅ）自鳴音開始の検出
英語では、直後に母音が連続している子音を含む音声単位は、特に認識が困難な場合がある。というのは、後ろに続いている母音がその子音を「軟化」する傾向を有するからである。この問題は、例えば、音声単位「be」においてのように、母音が続いている「b」のように表明された（voiced）停止がある場合に、特に深刻となる。
【００３９】
ある実施例では、沈黙から来る自鳴音の最初の３つのフレームをセグメントである可能性があるとすることによって対処されている。その実現は次の通りである（ただし、エネルギ・アップ無交差領域分析が実行された後で）。すべての識別されたエネルギ・アップ型の無交差領域に対して、エネルギ・アップ型の無交差領域の端点が自鳴音であるかどうかが判断される。これは、自鳴音の広いカテゴリ・スコアが０．５よりも大きいかどうか、つまり、エネルギ・アップ型の無交差領域が自鳴音ではない可能性があるかどうかを判断することによって、判断される。エネルギ・アップ型の無交差領域が自鳴音である場合には、第１の先行する音声差型の境界の位置が識別されて、例えば１の優先順位など、より高い優先順位が再度割り当てられる。そして、最高の優先順位を有する新たな境界が、その音声差型の境界から３フレーム前に作成される。
【００４０】
図６Ｂは、ある実施例による自鳴音開始の検出を処理するアプローチを図解する流れ図６５０である。ステップ６５２において開始した後で、ステップ６５４において、第１のエネルギ・アップ型の無交差領域が選択される。ステップ６５６では、選択されたエネルギ・アップ型の無交差領域の端点が自鳴音であるかどうかが判断される。上述したように、この判断は、例えば、選択されたエネルギ・アップ型の無交差領域に対する自鳴音スコアが０．５よりも大きいかどうかを判断することによってなされる。
【００４１】
そうであれば、ステップ６５８において、選択されたエネルギ・アップ型の無交差領域が音声差型の境界を含むかどうかが判断される。そうであれば、ステップ６６０において、第１の音声差型の境界の優先順位は、最高の優先順位まで上昇する。次に、ステップ６６２において、新たな境界が、第１の音声差型の境界から３フレーム前に作成される。
【００４２】
制御は次にステップ６６４に進み、エネルギ・アップ型の無交差領域がそれ以上ないかどうかが判断される。注意すべきは、選択されたエネルギ・アップ型の無交差領域の端点が自鳴音でない場合には、ステップ６５６からステップ６６４に進むということである。ステップ６６４は、また、選択されたエネルギ・アップ型の無交差領域が音素差型の境界を含まない場合には、ステップ６５８からも到達される。
【００４３】
ステップ６６４において、エネルギ・アップ型の無交差領域が更に存在する場合には、制御はステップ６５４に戻り、次のエネルギ・アップ型の無交差領域が選択される。そうでない場合には、プロセスはステップ６６６で終了する。
【００４４】
５．優先順位及び近接度によって候補境界をフィルタリングして候補セグメントの数を減少させること。
【００４５】
候補境界の集合は、候補セグメントの集合を定義するが、それぞれの候補セグメントは、その端点において１対の候補境界によって定義される。上述したように、セグメントの数を減らして、セグメントの処理に要する計算資源の量を減らすことが望ましい。ある実施例によると、候補境界の集合は、優先順位がより高い他の候補境界に近接している候補境界を放棄することによって、フィルタリングされる。このフィルタリングにより、候補セグメントの数を、そして最終的には、最終的なセグメントの数が減少する。既に説明したように、最終的なセグメントの数を減少させることは意味があることであるが、その理由は、最終的なセグメントを評価するにに要求される計算資源の量を減らすことができるからである。
【００４６】
候補境界は、それらを発生するのに用いられたアプローチに基づいて、優先順位が決定される。ある実施例によると、候補境界は以下のように優先順位が決められる。ここで、「１」は相対的に最高の優先順位を表し、「４」は相対的に最低の優先順位を表す：
境界のタイプ優先順位
自鳴音開始境界１
セプストラル差境界２
エネルギ差境界２
音声差境界２
広いカテゴリ分析境界３
無交差領域境界（すべての型）４
フィルタリング・プロセスの間、現在の候補境界の優先順位は、現在の候補境界のＮ個のフレームの中にある他の候補境界の優先順位と比較される。現在の候補境界が現在の候補境界のＮ個のフレームの中にある少なくとも１つの他の候補境界よりも低い優先順位を有している場合には、現在の候補境界は放棄される。フィルタリングの後で残っている候補境界の集合は、ここでは、「フィルタリングされた候補境界」と称する。理想的には、フィルタリングされた候補境界は、元の候補境界から決定された最終的なセグメントの集合と少なくとも同じくらい正確な最終的なセグメントの集合を提供するが、より少ない計算資源しか要求しない。
【００４７】
図７Ａは、ある実施例による候補境界をフィルタリングするアプローチを図解している流れ図７００である。ステップ７０２で開始した後で、ステップ７０４において、第１の候補境界が、候補境界の集合から選択される。ステップ７０６では、選択された候補境界（ＳＣＢ）の優先順位が、このＳＣＢを含む現在のフレームの左右Ｎ個のフレームの範囲内に含まれている候補境界の優先順位と比較される。
【００４８】
ステップ７０８では、ＳＣＢの優先順位が現在のフレームからＮ個の範囲内に含まれる候補境界の優先順位よりも低いかどうかが判断される。ステップ７１２では、処理されるべき候補境界がどのようなものであっても更に存在するかどうかが判断される。そうであれば、制御はステップ７０４に戻り、そこで、次の候補境界が選択される。そうでない場合には、プロセスはステップ７１４で終了する。
【００４９】
６．沈黙領域に含まれる候補境界をフィルタリングして、候補セグメントの数を減少させること
音声認識システムにおける別の問題として、音声単位を認識する際の沈黙の効果がある。沈黙領域は、特に低いエネルギによって特徴付けられる。多くの従来型のセグメント・ベースの音声認識システムは、沈黙領域において多数のセグメントを発生する。というのは、低いエネルギがなくても、沈黙領域において比較的大きな音響的な変化が生じているからである。
【００５０】
ある実施例によると、沈黙領域に含まれている候補境界はフィルタリング（放棄）されて、処理されなければならない候補境界の数が減少される。第１に、沈黙領域は、フィルタリングされた低エネルギの対応するヒストグラムの分析に基づいて、発話データ１０２において識別される。特定の最小時間の間特定の最大レベルよりも下にあるエネルギを含む領域は、沈黙領域と認定される。次に、沈黙領域の端部は内部方向に移動され、沈黙領域のサイズが減少される。これは、例えば/f/のように誤って沈黙と取られる可能性がある弱い音声単位に対応するためになされる。このような弱い音声単位は、通常は、「より強い」音声、すなわち、よりエネルギが高い発話データの近くに存在するので、沈黙領域のサイズを縮小することによって、弱い音声単位を適切に説明することができる。次に、識別された沈黙領域の中に含まれるすべての境界が放棄され、フィルタリングされた境界を更に定義する。
【００５１】
図７Ｂは、ある実施例による沈黙領域に含まれる候補境界をフィルタリングするアプローチを図解する流れ図７５０である。ステップ７５２で開始した後で、ステップ７５４において、沈黙領域の集合が識別される。上述したように、フィルタリングされた低エネルギを調べて、沈黙領域を識別する。特定の最小沈黙領域期間の間特定のエネルギ・スレショルドよりも下にあるフィルタリングされた低エネルギを有する発話データの領域は、沈黙領域と認定される。
【００５２】
ステップ７５６では、識別された沈黙領域は、弱い音声単位の存在を説明するために調整される。特に、識別された沈黙領域の開始及び端点は、特定の調整サイズだけ内側に移動され、識別された沈黙領域のサイズが縮小される。
【００５３】
ステップ７５８では、調整された沈黙領域に含まれる候補境界は、放棄される。このプロセスは、ステップ７６０で終了する。プロセスがいったん完了すると、結果として得られた候補境界は、候補セグメントの集合を定義するフィルタリングされた候補境界である。
【００５４】
７．無交差領域分析を用いて候補セグメントをフィルタリングすること
ここでは、「無交差領域」という用語は、その特徴的な音響特性のために境界を含む可能性が高い発話データの一部を意味する。無交差領域分析の間には、エネルギ測定データが評価されて、発話データに含まれる無交差領域が識別される。次に、ここで説明されている境界フィルタリング機構によって決定される候補セグメントが、評価され、無交差領域を完全にスパンする、すなわちカバーするかどうかが判断される。無交差領域を完全にスパンすなわちカバーする候補セグメントは、放棄され、最終的なセグメントとして用いられることはない。ある実施例によると、４つのタイプの無交差領域がある。すなわち、（ｉ）エネルギ・アップ、（ｉｉ）エネルギ・ダウン、（ｉｉｉ）ディップ、そして（ｉｖ）広いカテゴリである。
【００５５】
ｉ．エネルギ・アップ
エネルギ・アップ型の無交差領域は、特定の時間にわたるエネルギの十分に大きな増加によって特徴付けられる。すなわち、特定の勾配を有している。図８は、ある実施例によるエネルギ・アップ型の無交差領域を識別するアプローチを図解する流れ図である。ステップ８０２で開始した後で、ステップ８０４において、セグメンタ１００によって受け取られたエネルギ・データがフィルタリングされる。ある実施例によると、（Ｃ₀のセプストラル係数とは異なり）発話データ１０２（図１）に含まれている低周波エネルギは、フィルタリングされて、エネルギ・アップ特性として解釈されてしまう可能性があるノイズを除去される。他のタイプのフィルタリングを用いることも可能ではあるが、ローパス・フィルタリングが用いられる。
【００５６】
ステップ８０６では、発話データ１０２のフレームが評価され、エネルギ・アップ領域を識別する。ある実施例によると、エネルギ・アップ領域の開始は、特定の開始勾配スレショルドを満足する（例えば、超える）フィルタリングされた低エネルギの１フレーム分の増加によって特徴付けられる。エネルギ・アップ領域がいったん検出されると、隣接するフレームが評価され、識別されたエネルギ・アップ領域の対応する端部が見つけられる。ある実施例によると、エネルギ・アップ領域の端部は、特定の端部勾配スレショルドを満足する（例えば、それよりも低い）フィルタリングされた低エネルギの変化を有するフレームによって特徴付けられる。
【００５７】
ステップ８０８では、エネルギ・アップ領域のフレームは、特定のエネルギ変化スレショルドとの関係で評価される。エネルギ・アップ領域のフレームが特定のエネルギ変化スレショルドを満足する（例えば、超える）場合には、このエネルギ・アップ領域は、エネルギ・アップ型の無交差領域と認定される。
【００５８】
エネルギ・アップ型の無交差領域がいったん識別されると、ステップ８１０において、エネルギ・アップ型無交差領域の境界が、フィルタリングされていない低周波エネルギを用いて精密化される。第１に、エネルギ・アップ型の無交差領域の左側エッジは、特定のエッジ・スレショルドよりも多くのエネルギを有する第１のフレームをエネルギ・アップ型の無交差領域から見つけることによって、精密化される。第２に、エネルギ・アップ型の無交差領域の右側のエッジは、エネルギ・アップ型の無交差領域の端部よりも低い特定のエッジ・スレショルドよりも多くのエネルギを有する第１のフレームを見つけることによって、精密化される。第３に、最大の勾配を有する最大のフレームの増加が１つ、特定される。
【００５９】
最後に、ステップ８１２では、特定のパッドの量が、精密化された開始境界から取り除かれて、エネルギ・アップ型の無交差領域の精密化された最終境界に追加される。このプロセスは、ステップ８１４で終了する。
【００６０】
ｉｉ．エネルギ・ダウン
エネルギ・ダウン型の無交差領域は、エネルギ・アップ型の無交差領域に非常に類似しているが、エネルギ・ダウン型の無交差領域は、特定の時間にわたるエネルギの大きな減少によって特徴付けられることだけが異なる。流れ図８００を参照すると、ステップ８０２及び８０４は、エネルギ・アップ型の無交差領域と同じように、エネルギ・ダウン型の無交差領域を検出している。
【００６１】
ステップ８０６では、発話データ１０２のフレームが評価され、エネルギ・ダウン領域を識別する。ある実施例によると、エネルギ・ダウン領域の開始は、特定の開始勾配スレショルドを満足する（例えば、超える）フィルタリングされた低エネルギの１フレーム分の増加によって特徴付けられる。エネルギ・ダウン領域がいったん検出されると、隣接するフレームが評価され、識別されたエネルギ・ダウン領域の対応する端部が見つけられる。ある実施例によると、エネルギ・ダウン領域の端部は、特定の端部勾配スレショルドを満足する（例えば、それよりも低い）フィルタリングされた低エネルギの変化を有するフレームによって特徴付けられる。
【００６２】
ステップ８０８では、識別されたエネルギ・ダウン領域のフレームは、特定のエネルギ変化スレショルドとの関係で評価される。識別されたエネルギ・ダウン領域のフレームが特定のエネルギ変化スレショルドを満足する（例えば、超える）場合には、この識別されたエネルギ・ダウン領域は、エネルギ・ダウン型の無交差領域と認定される。
【００６３】
エネルギ・ダウン型の無交差領域がいったん識別されると、ステップ８１０において、エネルギ・ダウン型無交差領域の境界が、フィルタリングされていない低エネルギを用いて精密化される。第１に、エネルギ・ダウン型の無交差領域の左側エッジは、特定のエッジ・スレショルドよりも少ないエネルギを有する第１のフレームをエネルギ・ダウン型の無交差領域から見つけることによって、精密化される。第２に、エネルギ・ダウン型の無交差領域の右側のエッジは、エネルギ・ダウン型の無交差領域の端部よりも高い特定のエッジ・スレショルドよりも多くのエネルギを有する第１のフレームを見つけることによって、精密化される。第３に、最大の下向きの勾配を有する最大のフレームの減少が１つ、特定される。
【００６４】
最後に、ステップ８１２では、特定のパッドの量が、精密化された終了境界に追加されて、エネルギ・ダウン型の無交差領域の精密化された最終境界に追加される。このプロセスは、ステップ８１４で終了する。
【００６５】
ｉｉｉ．ディップ
ディップ型の無交差領域は、一般的に、フィルタリングされたエネルギの低下の後に特定の時間間隔の間にフィルタリングされたエネルギが上昇することによって特徴付けられる。図９は、ある実施例によるディップ型の無交差領域を識別するアプローチを図解している流れ図である。ステップ９０２で開始した後で、ステップ９０４において、セグメンタ１００によって受け取られたエネルギ・データは、例えば、ローパスフィルタを用いてフィルタリングされる。フィルタリングされたエネルギ・データは、エネルギ・アップ及びエネルギ・ダウン型の無交差領域を識別する上述のアプローチにおいて用いられたのと同じデータである。例えば、ある実施例によると、発話データ１０２（図１）に含まれている低周波エネルギがフィルタリングされ、これ以外の場合にはエネルギ・アップ特性と解釈される可能性があるノイズが取り除かれる。
【００６６】
ステップ９０６では、発話データ１０２のフレームは評価され、候補ディップ型の無交差領域の開始が識別される。ある実施例によると、候補ディップ型無交差領域の開始は、最も最近の最大値からの特定のディップ深度を超えるエネルギの低下によって特徴付けられる。候補ディップ型の無交差領域の開始がいったん検出されると、通常は数フレームの範囲内で局所的な最小値（ディップの底部）が見つけられる。局所的な最小値がいったん見つけられると、識別された候補ディップ型の無交差領域の対応する端部が特定される。ある実施例によると、候補ディップ領域の端部は、局所的な最小値からの特定のディップ深度を超えるエネルギの上昇によって特徴付けられる。
【００６７】
ステップ９０８では、候補ディップ型無交差領域がいったん識別されると、識別された候補ディップ型無交差領域の幅が、特定のディップ幅基準との関係でチェックされる。例えば、ディップ幅基準は、最小及び最大の受入可能な幅を特定し、候補ディップ型無交差領域は維持され、ディップ型無交差領域として認定される。
【００６８】
ディップ型の無交差領域がいったん識別されると、ステップ９１０において、ディップ型無交差領域の境界が、同じフィルタリングされた低周波エネルギを用いて精密化される。第１に、ディップ型の無交差領域の左側エッジは、局所的な最小値から後ろ向きにサーチして局所的な最小値からの特定のディップ・エッジ・スレショルドよりも多くのエネルギを有する第１のフレームを見つけることによって、精密化される。これは新たな開始である。次に、ディップ型の無交差領域の右側のエッジは、局所的な最小値から前向きにサーチして局所的な最小値からの特定のディップ・エッジ・スレショルドよりも多くのエネルギを有する第１のフレームを見つけることによって、精密化される。これは、新たな端部である。ディップ型の無交差領域のように、開始から端部まですべての領域を追加する。このプロセスは、ステップ９１２で終了する。
【００６９】
ｉｖ．広いカテゴリ（子音、母音、沈黙）
ある実施例によると、広いカテゴリ分析を用いて、広いカテゴリ型の無交差領域が識別される。広いカテゴリ分析は、ニューラル・ネットワークを用いて特定の広いカテゴリの集合に対するフレームのスコアを付けることを含む。このスコアは、特定のフレームが特定の広いカテゴリを含む確率を示している。ある実施例によると、特定の広いカテゴリの集合は、子音、母音及び沈黙を含む。
【００７０】
広いカテゴリ型の無交差領域は、任意の２つのフレームの間に確立されるが、これらのフレームは隣接している場合もしていない場合もあり、特定の広いカテゴリの少なくとも１つは、別の広いカテゴリに対して０．８以上の合計スコアを有している。広いカテゴリ型の無交差領域は、また、特定の数のフレーム分だけ左右に拡張され、広いカテゴリ型の無交差領域を結びつける（パッド）ことができる。例えば、フレームｆ₂₂が０．９２の沈黙スコアを有し、フレームｆ₃₁が０．８８の自鳴音スコアを有する場合には、広いカテゴリ型の無交差領域は、フレーム１９からフレーム３４まで確立される。
【００７１】
８．候補セグメントからの最終セグメントの選択
候補セグメントの集合がいったん決定されると、最終的なセグメントの集合が、その候補セグメントの集合から決定される。すべての境界に対して、その境界で終了する可能性があるセグメントの集合が、無交差領域の他方の側に存在しない従前のすべての境界によって定義される。この集合は、相当に大きい。計算を制御するために、それぞれの境界において終了するＮ（例えば、５）個の最良のセグメントを維持する。
【００７２】
セグメントの的確性（goodness）を計算するために、それぞれの候補境界が実際に境界である確率が、その境界におけるセプストラル及び音声差のサイズに基づいて評価される。すると、セグメントの的確性は、候補端部境界が実際の境界である確率とそのセグメントの中に存在する任意の候補境界が実際の境界でない確率との関数である。
【００７３】
図１０は、ある実施例による最終的なセグメントを選択するアプローチを図解する図解１０００である。この図には、特定の発話に対する波形１００２と、特定の発話のエネルギをグラフィカルに図解するスペクトログラム１００４とが含まれている。
【００７４】
図解１０００には、更に、ある実施例に従って決定される候補セグメントを図解するセグメント・ラティス・グラフ１００６を含む。ラティス・グラフ１００６は、垂直方向の小さなマークによって指定されているように、ここで説明されているアプローチに従って決定されたフィルタリングされた候補境界１００８の集合を含む。また、ラティス・グラフ１００６は、ここで説明されているアプローチに従って決定された候補セグメント１０１０の集合を含む。エネルギ・アップ型の無交差領域は、一般的に、円１０１２によって示されている。ラティス・グラフ１００６は、また、円形の境界によって示されている最初の単語に対する最終的なセグメントの集合を含む。
【００７５】
９．パイプライン処理の考察
この出願において説明している音声認識システムにおいて音声をモデル化する分割アプローチは、オフラインの応用例とオンラインの応用例との両方に応用が可能である。オフラインの応用例では、発話全体に対する発話データは、一般に、受信され、後で処理するためにオフラインで記憶される。オフラインの応用例ではタイミングは重要でないのが通常であるから、発話全体に対するすべてのデータは、ここで説明されているアプローチを用いて直ちに処理される。
【００７６】
オフラインの応用例とは対照的に、オンラインの応用例では、発話データは、受信され、直ちに処理される。これは、発話データは発話の部分又は発話全体を表す固まりとして受信され比較的短時間の間に連続的に処理されなければならないことを示している。このプロセスは、一般に、パイプライン処理として知られている。オンラインの応用例の一般的な例としては、希望の選択を電話で伝えることによって顧客が取引を実行できる自動化された航空券予約システムがある。オンラインの応用例では、発話データは、オフラインの応用例の場合よりもより迅速に処理されなければならない。このために、発話データを処理するための特定のアプローチに必要なリソースの量が、非常に重要となる。
【００７７】
音声認識システムにおいて音声をモデル化するための本出願で説明しているアプローチに応用するには、パイプライン処理をサポートする複数の特別の考慮がなされる。というのは、現在のフレームの中の境界の識別は、現在のフレームの前後にあるＮ個の発話データのフレームに依存するからである。第１に、現在のフレームの処理、例えば、境界の識別は、現在のフレームが受け取られた後のＮ個のデータのフレームまで開始しない。例えば、図３を参照すると、Ｎ＝３の場合には、フレームＦ₃の処理は、フレームＦ₆及びＦ₇が受け取られるまでは開始できない。これにより、上述したように、フレームＦ₂、Ｆ₃及びＦ₄とフレームＦ₅、Ｆ₆及びＦ₇とを用いて、境界検出を実行することが可能となる。
【００７８】
第２に、それ以降の発話データの固まりの処理を可能にするには、発話データの「固まり」からの十分な数の発話データのフレームが、維持されなければならない。例えば、再び図３を参照して、特定の音声認識システムにおいて発話データが１０個のフレームの固まりとして受け取られ、発話データのフレーム３０２が１から１０のフレームの固まりを表しているとする。発話データ３０２のフレームの中のフレームＦ₁₀をこの出願で説明している技術を用いて処理するには、それ以前の発話データを用いなければならない。例えば、先行する固まりのフレームＦ₁、Ｆ₂及びＦ₃と、発話データ３０２のフレームからのＦ₇、Ｆ₈及びＦ₉とが、フレームＦ₁₀を処理するのに用いられる。
【００７９】
１０．実現機構
Ａ．概観
ここで説明している音声認識システムにおける音声モデル化のアプローチは、コンピュータ・ソフトウェア、ハードウェア回路、又はコンピュータ・ソフトウェアとハードウェア回路との組合せとして実現することができる。従って、本発明は、特定のコンピュータ・ソフトウェア又はハードウェア回路での実現例に限定されることはない。例えば、このアプローチは、音声認識システム（図示せず）の一部として、セグメンタ１００において実現することができる。別の例では、このアプローチは、音声認識システムと相互作用するスタンドアロンの機構として実現することができる。
Ｂ．実現のためのハードウェア
図１１は、本発明の実施例を実現することができるコンピュータ・システム１１００を図解しているブロック図である。コンピュータ・システム１１００は、情報を通信するバス１１０２又はそれ以外の通信機構と、バス１１０２に結合されており情報を処理するプロセッサ１１０４とを含む。更に、コンピュータ・システム１１００は、ランダム・アクセス・メモリ（ＲＡＭ）又はそれ以外の動的（ダイナミック）な記憶装置などであって、バス１１０２に結合されており、プロセッサ１１０４によって実行される情報及び命令を記憶するメイン・メモリ１１０６を含んでいる。メイン・メモリ１１０６は、また、プロセッサ１１０４が命令を実行する間に一時的な変数やそれ以外の中間的な情報を記憶するのにも用いることができる。コンピュータ・システム１１００は、更に、バス１１０２に結合されておりプロセッサへの静的な情報及び命令を記憶するリード・オンリ・メモリ（ＲＯＭ）１１０８又はそれ以外の静的な記憶装置も含む。磁気ディスク又は光ディスクなどの記憶装置１１１０が提供され、バス１１０２に結合されて、情報及び命令を記憶する。
【００８０】
コンピュータ・システム１１００は、バス１１０２によって、ブラウン管（ＣＲＴ）などであり情報をコンピュータ・ユーザに対して表示するディスプレイ１１１２に結合される。英数字及びそれ以外のキーを含む入力装置１１１４がバス１１０２に結合され、情報及びコマンドの選択をプロセッサ１１０４に送る。別のタイプのユーザ入力装置として、マウス、トラックボール又はカーソル方向付けキーなどのカーソル制御装置１１１６があり、方向に関する情報とコマンドの選択とをプロセッサ１１０４に送り、ディスプレイ１１１２上でのカーソル移動を制御する。この入力装置は、第１の軸（例えば、ｘ軸）と第２の軸（例えば、ｙ軸）との２つの軸に対する２つの自由度を有しているのが一般的であり、それによって、この装置が平面内で位置を特定することが可能になる。
【００８１】
本発明は、音声認識システムにおいて音声をモデル化するコンピュータ・システム１１００の使用に関する。本発明のある実施例によると、音声認識システムにおける音声のモデル化が、プロセッサ１１０４がメイン・メモリ１１０６に含まれている１又は複数の命令の１又は複数のシーケンスを実行することに応答して、コンピュータ・システム１１００によって提供される。これらの命令は、記憶装置１１１０などの他のコンピュータ可読な媒体からメイン・メモリ１１０６の中に読み出される。メイン・メモリ１１０６に含まれる命令のシーケンスを実行すると、プロセッサ１１０４がこの出願において説明されているプロセス・ステップを実行する。マルチ処理構成の１又は複数のプロセッサを用いて、メイン・メモリ１１０６に含まれる命令のシーケンスを実行することもできる。別の実施例では、ハードワイヤード回路を、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて用いることにより、本発明を実現することもできる。このように、本発明の実施例は、ハードウェア回路及びソフトウェアのどのような特定の組合せにも限定されることはない。
【００８２】
ここで用いている「コンピュータ可読な媒体」という用語は、実行のために命令をプロセッサ１１０４に提供することに参加する任意の媒体を意味する。そのような媒体は、多くの形式をとることができ、限定を意味することはないが、例えば、不揮発性媒体、揮発性媒体、伝送媒体などが含まれる。不揮発性媒体には、例えば、記憶装置１１１０などの光又は磁気ディスクが含まれる。揮発性媒体は、メイン・メモリ１１０６のようなダイナミック・メモリを含む。伝送媒体には、同軸ケーブル、銅製ワイヤ、光ファイバなどが含まれ、バス１１０２を構成するワイヤも含まれる。また、伝送媒体は、無線波及び赤外線データ通信の間に生じる音波又は光波の形式をとる場合もある。
【００８３】
コンピュータ可読な媒体の一般的な形式には、例えば、フロッピ・ディスク（登録商標）、フレキシブル・ディスク、ハードディスク、磁気テープ、又は任意のそれ以外の磁気媒体、ＣＤ−ＲＯＭ、任意のそれ以外の光媒体、パンチカード、紙テープ、パターンを有するホールを備えた任意のそれ以外の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、任意のそれ以外のメモリ・チップ又はカートリッジ、後述する搬送波、コンピュータが読むことができる任意のそれ以外の媒体が含まれる。
【００８４】
１又は複数の命令の１又は複数のシーケンスを実行のためにプロセッサ１１０４に運ぶ際には、様々な形態のコンピュータ可読な媒体が関係する。例えば、命令を、最初は、リモート・コンピュータの磁気ディスク上に運ぶことができる。このリモート・コンピュータは、命令をそのダイナミック・メモリにロードし、その命令をモデムを用い電話回線を介して送ることができる。コンピュータ・システム１１００の近くにあるモデムがこの電話回線上のデータを受信し、赤外線送信機を用いてデータを赤外線信号に変換することができる。バス１１０２に結合された赤外線検出器は、赤外線信号の中を運ばれるデータを受信して、そのデータをバス１１０２の上に置くことができる。バス１１０２は、データをメイン・メモリ１１０６まで運び、メイン・メモリからプロセッサ１１０４が命令を検索してそれを実行する。オプションであるが、メイン・メモリ１１０６によって受信された命令は、プロセッサ１１０４によって実行される前又は後に記憶装置１１１０上に記憶されることがある。
【００８５】
コンピュータ・システム１１００は、また、バス１１０２に結合された通信インターフェース１１１８を含む。通信インターフェース１１１８は、ローカル・ネットワーク１１２２に接続されたネットワーク・リンク１１２０への双方向のデータ通信を与える。例えば、通信インターフェース１１１８は、対応するタイプの電話回線へのデータ通信接続を提供するＩＳＤＮカード又はモデムでありうる。別の例としては、通信インターフェース１１１８は、互換性を有するＬＡＮへのデータ通信接続を提供するローカル・エリア・ネットワーク（ＬＡＮ）カードでありうる。無線リンクを実現することも可能である。そのような実現例では、通信インターフェース１１１８は、様々なタイプの情報を表すデジタル・データ・ストリームを運ぶ電気、電磁気又は光信号を送受信する。
【００８６】
ネットワーク・リンク１１２０は、一般的には、１又は複数のネットワークを介して他のデータ装置に至るデータ通信を提供する。例えば、ネットワーク・リンク１１２０は、ローカル・ネットワーク１１２２を介してインターネット・サービス・プロバイダ（ＩＳＰ）１１２６によって管理されているホスト・コンピュータ１１２４又はデータ装置に至る接続を提供する。ＩＳＰ１１２６は、現在では「インターネット」１１２８と一般的に称されている全世界的なパケット・データ通信ネットワークを介するデータ通信サービスを提供する。ローカル・ネットワーク１１２２とインターネット１１２８とは、共に、デジタル・データ・ストリームを運ぶ電気、電磁気又は光信号を用いる。コンピュータ・システム１１００との間でデジタル・データを運ぶ様々なネットワークを介する信号とネットワーク・リンク１１２０上及び通信インターフェース１１１８を介する信号とは、情報を運ぶ搬送波の例示的な形態である。
【００８７】
コンピュータ・システム１１００は、ネットワーク、ネットワーク・リンク１１２０及び通信インターフェース１１１８を介して、プログラム・コードを含むデータを送受信することができる。インターネットの例では、サーバ１１３０が、インターネット１１２８、ＩＳＰ１１２６、ローカル・ネットワーク１１２２及び通信インターフェース１１１８を介して、アプリケーション・プログラムのために要求されたコードを送信する。本発明によると、そのようにしてダウンロードされたアプリケーションが、この出願において説明されている音声認識システムにおける音声のモデル化を提供する。
【００８８】
受信されたコードは、受信された時点でプロセッサ１１０４によって実行されることがあるし、後で実行するために記憶装置１１１０やそれ以外の不揮発性記憶装置に記憶されることもありうる。このようにして、コンピュータ・システム１１００は、搬送波の形態でアプリケーション・コードを取得することもできる。
【００８９】
この出願において説明されている音声認識システムにおいて音声をモデル化するための分割アプローチは、従来のアプローチと比較していくつかの効果を有している。特に、セプストラル係数値の変化、発話エネルギの変化、音声分類の変化、広いカテゴリ分析（反転音、後舌母音、前母音）及び自鳴音開始検出に基づく候補境界の決定により、音声単位の境界が正確に検出される。候補境界のフィルタリングにより候補セグメントの数を減少させ、それによって、候補セグメントを処理するのに必要な計算資源の量を削減することができる。無交差領域を用いて候補セグメントをフィルタリングすることにより、最終的なセグメントを選択するのに要する計算資源の量を削減できる。このようにして、この出願において説明されているアプローチは、計算資源の量を削減しながら、比較的高レベルの音声単位検出の正確性を提供することができる。
【００９０】
以上では、特定の実施例について説明を行った。しかし、本発明のより広い精神及び範囲から逸脱することなく、様々な修正及び変更が可能であるのは明らかであろう。従って、この出願の明細書及び図面は、限定的ではなく例示的な意味をゆうするものと考えられるべきである。
【図面の簡単な説明】
【図１】ある実施例による音声認識システムにおいて音声をモデル化するセグメンタのブロック図である。
【図２】ある実施例に従って音声をモデル化するアプローチの流れ図である。
【図３】発話データの１０のフレーム（Ｆ₁からＦ₁₀まで）のブロック図である。
【図４】ある実施例に従いセプストラル係数を用いてフレームにおける境界を識別するアプローチの流れ図である。
【図５】ある実施例に従い音声の差異を用いてフレームにおける境界を識別するアプローチの流れ図である。
【図６】図６Ａ及び図６Ｂで構成される。図６Ａは、ある実施例に従い境界を検出するのに用いられる広い音声カテゴリの３つのタイプの発話波形、スペクトラグラム及び確率を図解している。図６Ｂは、ある実施例に従い自鳴音開始の検出を処置するアプローチを図解する流れ図である。
【図７】図７Ａ及び図７Ｂで構成される。図７Ａは、ある実施例に従い優先順位及び近接度によって候補境界をフィルタリングするアプローチを図解する流れ図である。図７Ｂは、ある実施例に従い沈黙領域に含まれる候補境界をフィルタリングするアプローチを図解する流れ図７５０である。
【図８】ある実施例に従いエネルギ・アップ型の無交差領域を識別するアプローチを図解する流れ図である。
【図９】ある実施例に従いディップ型の無交差領域を識別するアプローチを図解する流れ図である。
【図１０】ある実施例に従い最終セグメントを選択するアプローチを図解している。
【図１１】実施例を実現しうるコンピュータ・システムのブロック図である。

Claims

一連の発話データから音声単位の集合を自動的に決定する方法であって、
前記一連の発話データを受け取るステップと、
候補音声単位の第１の集合を前記一連の発話データから決定するステップと、
無交差領域の集合を前記一連の発話データから決定するステップであって、前記無交差領域は、音声単位の間の境界を含む確率が高い発話データの時間スパンに対応する、ステップと、
候補音声単位の前記第１の集合をフィルタリングして候補音声単位の部分集合を発生するステップであって、このフィルタリングにより、前記候補音声単位が分析され、前記部分集合が無交差領域をスパンした候補音声単位を含まなくなるように前記候補音声単位が前記発話データに対する無交差領域をスパンしているかどうかが判断される、ステップと、
を含むことを特徴とする方法。
請求項１記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたセプストラル変化測度におけるピークを識別するステップを含むことを特徴とする方法。
請求項１記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたエネルギ変化測度におけるピークを識別するステップを含むことを特徴とする方法。
請求項１記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化された音声分類測度におけるピークを識別するステップを含むことを特徴とする方法。
請求項１記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、ある広い音声カテゴリに属する確率が高い領域の存在を識別するステップと、エッジにおいて境界を追加するステップとを含むことを特徴とする方法。
請求項１記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、自鳴音の開始を検出するステップと、可能性のある表明された停止の原因となる追加的な境界を追加するステップとを含むことを特徴とする方法。
請求項１記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、より高い優先順位を有する少なくとも１つの他の境界への特定された近接度の範囲内にある１又は複数の境界を放棄するステップを含むことを特徴とする方法。
請求項１記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、沈黙領域に含まれていると判断される１又は複数の境界を放棄するステップを含むことを特徴とする方法。
請求項１記載の方法において、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、１又は複数の無交差領域の前記集合からの少なくとも１つの無交差領域を完全にスパンする１又は複数の候補音声単位を候補音声単位の前記集合から放棄するステップを含むことを特徴とする方法。
請求項９記載の方法において、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、前記一連の発話データによって定義される１又は複数の無交差領域の集合を識別するステップを含み、１又は複数の無交差領域の集合を識別するステップは、特定された無交差領域基準を満たす発話エネルギの変化を識別するステップを含むことを特徴とする方法。
請求項１０記載の方法において、前記特定された無交差領域基準は発話エネルギの最小の増加を含み、１又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の増加を超える発話エネルギの増加を識別するステップを含むことを特徴とする方法。
請求項１１記載の方法において、前記特定された無交差領域基準は発話エネルギの最小の減少を含み、１又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の減少を超える発話エネルギの減少を識別するステップを含むことを特徴とする方法。
請求項１１記載の方法において、前記特定された無交差領域基準はディップ無交差領域基準を含み、１又は複数の無交差領域の集合を識別するステップは前記ディップ無交差領域基準を満たすエネルギのディップを用いて発話データの領域を識別するステップを含むことを特徴とする方法。
請求項１１記載の方法において、前記特定された無交差領域基準は広いカテゴリ変化無交差領域基準を含み、１又は複数の無交差領域の集合を識別するステップは広い音声分類が前記広いカテゴリ無交差領域基準を満たすのに十分な程変化した発話データの領域を識別するステップを含むことを特徴とする方法。
請求項１記載の方法において、フィルタリングされた候補音声単位の前記集合から音声単位の前記集合を選択する前記ステップは、端部における境界の相対的に最高の確率と前記ユニットに対して内部的な境界の相対的に最低の確率とを有するＮ個の音声単位の集合を選択するステップを含むことを特徴とする方法。
一連の発話データから音声単位の集合を自動的に決定する１若しくは複数のシーケンス又は１若しくは複数の命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体であって、前記１若しくは複数のシーケンス又は１若しくは複数の命令は、１又は複数のプロセッサによって実行されると、前記１又は複数のプロセッサに、
前記一連の発話データを受け取るステップと、
候補音声単位の第１の集合を前記一連の発話データから決定するステップと、
無交差領域の集合を前記一連の発話データから決定するステップであって、前記無交差領域は、音声単位の間の境界を含む確率が高い発話データの時間スパンに対応する、ステップと、
候補音声単位の前記第１の集合をフィルタリングして候補音声単位の部分集合を発生するステップであって、このフィルタリングにより、前記候補音声単位が分析され、前記部分集合が無交差領域をスパンした候補音声単位を含まなくなるように前記候補音声単位が前記発話データに対する無交差領域をスパンしているかどうかが判断される、ステップと、
を実行させる命令を含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたセプストラル変化測度におけるピークを識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたエネルギ変化測度におけるピークを識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化された音声分類測度におけるピークを識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、ある広い音声カテゴリに属する確率が高い領域の存在を識別するステップと、エッジにおいて境界を追加するステップとを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、自鳴音の開始を検出するステップと、可能性のある表明された停止の原因となる追加的な境界を追加するステップとを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、より高い優先順位を有する少なくとも１つの他の境界への特定された近接度の範囲内にある１又は複数の境界を放棄するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、沈黙領域に含まれていると判断される１又は複数の境界を放棄するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、１又は複数の無交差領域の前記集合からの少なくとも１つの無交差領域を完全にスパンする１又は複数の候補音声単位を候補音声単位の前記集合から放棄するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項２４記載のコンピュータ読み取り可能な記録媒体において、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、前記一連の発話データによって定義される１又は複数の無交差領域の集合を識別するステップを含み、１又は複数の無交差領域の集合を識別するステップは、特定された無交差領域基準を満たす発話エネルギの変化を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項２５記載のコンピュータ読み取り可能な記録媒体において、前記特定された無交差領域基準は発話エネルギの最小の増加を含み、１又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の増加を超える発話エネルギの増加を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項２６記載のコンピュータ読み取り可能な記録媒体において、前記特定された無交差領域基準は発話エネルギの最小の減少を含み、１又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の減少を超える発話エネルギの減少を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項２６記載のコンピュータ読み取り可能な記録媒体において、前記特定された無交差領域基準はディップ無交差領域基準を含み、１又は複数の無交差領域の集合を識別するステップは前記ディップ無交差領域基準を満たすエネルギのディップを用いて発話データの領域を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項２６記載のコンピュータ読み取り可能な記録媒体において、前記特定された無交差領域基準は広いカテゴリ変化無交差領域基準を含み、１又は複数の無交差領域の集合を識別するステップは広い音声分類が前記広いカテゴリ無交差領域基準を満たすのに十分な程変化した発話データの領域を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１６記載のコンピュータ読み取り可能な記録媒体において、フィルタリングされた候補音声単位の前記集合から音声単位の前記集合を選択する前記ステップは、端部における境界の相対的に最高の確率と前記ユニットに対して内部的な境界の相対的に最低の確率とを有するＮ個の音声単位の集合を選択するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
一連の発話データから音声単位の集合を自動的に決定する音声認識システムであって、
１又は複数のプロセッサと、
前記１又は複数のプロセッサに通信的に結合されたメモリと、
を備えており、前記メモリは、１若しくは複数のシーケンス又は１若しくは複数の命令を含み、前記１若しくは複数のシーケンス又は１若しくは複数の命令は、前記１又は複数のプロセッサによって実行されると、前記１又は複数のプロセッサに、
前記一連の発話データを受け取るステップと、
候補音声単位の第１の集合を前記一連の発話データから決定するステップと、
無交差領域の集合を前記一連の発話データから決定するステップであって、前記無交差領域は、音声単位の間の境界を含む確率が高い発話データの時間スパンに対応する、ステップと、
候補音声単位の前記第１の集合をフィルタリングして候補音声単位の部分集合を発生するステップであって、このフィルタリングにより、前記候補音声単位が分析され、前記部分集合が無交差領域をスパンした候補音声単位を含まなくなるように前記候補音声単位が前記発話データに対する無交差領域をスパンしているかどうかが判断される、ステップと、
を実行させることを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたセプストラル変化測度におけるピークを識別するステップを含むことを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたエネルギ変化測度におけるピークを識別するステップを含むことを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化された音声分類測度におけるピークを識別するステップを含むことを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、ある広い音声カテゴリに属する確率が高い領域の存在を識別するステップと、エッジにおいて境界を追加するステップとを含むことを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、自鳴音の開始を検出するステップと、可能性のある表明された停止の原因となる追加的な境界を追加するステップとを含むことを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、より高い優先順位を有する少なくとも１つの他の境界への特定された近接度の範囲内にある１又は複数の境界を放棄するステップを含むことを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、沈黙領域に含まれていると判断される１又は複数の境界を放棄するステップを含むことを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、前記一連の発話データによって定義される１又は複数の無交差領域の集合を識別するステップと、１又は複数の無交差領域の前記集合からの少なくとも１つの無交差領域を完全にスパンする１又は複数の候補音声単位を候補音声単位の前記集合から放棄するステップを含むことを特徴とする音声認識システム。
請求項３９記載の音声認識システムにおいて、１又は複数の無交差領域の集合を識別するステップは、特定された無交差領域基準を満たす発話エネルギの変化を識別するステップを含むことを特徴とする音声認識システム。
請求項４０記載の音声認識システムにおいて、前記特定された無交差領域基準は発話エネルギの最小の増加を含み、１又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の増加を超える発話エネルギの増加を識別するステップを含むことを特徴とする音声認識システム。
請求項４１記載の音声認識システムにおいて、前記特定された無交差領域基準は発話エネルギの最小の減少を含み、１又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の減少を超える発話エネルギの減少を識別するステップを含むことを特徴とする音声認識システム。
請求項４１記載の音声認識システムにおいて、前記特定された無交差領域基準はディップ無交差領域基準を含み、１又は複数の無交差領域の集合を識別するステップは前記ディップ無交差領域基準を満たすエネルギのディップを用いて発話データの領域を識別するステップを含むことを特徴とする音声認識システム。
請求項４１記載の音声認識システムにおいて、前記特定された無交差領域基準は広いカテゴリ変化無交差領域基準を含み、１又は複数の無交差領域の集合を識別するステップは広い音声分類が前記広いカテゴリ無交差領域基準を満たすのに十分な程変化した発話データの領域を識別するステップを含むことを特徴とする音声認識システム。
請求項３１記載の音声認識システムにおいて、フィルタリングされた候補音声単位の前記集合から音声単位の前記集合を選択する前記ステップは、端部における境界の相対的に最高の確率と前記ユニットに対して内部的な境界の相対的に最低の確率とを有するＮ個の音声単位の集合を選択するステップを含むことを特徴とする音声認識システム。