JP4738697B2 - 音声認識システムのための分割アプローチ - Google Patents
音声認識システムのための分割アプローチ Download PDFInfo
- Publication number
- JP4738697B2 JP4738697B2 JP2001571391A JP2001571391A JP4738697B2 JP 4738697 B2 JP4738697 B2 JP 4738697B2 JP 2001571391 A JP2001571391 A JP 2001571391A JP 2001571391 A JP2001571391 A JP 2001571391A JP 4738697 B2 JP4738697 B2 JP 4738697B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- candidate
- region
- identifying
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013459 approach Methods 0.000 title description 37
- 238000000034 method Methods 0.000 claims description 47
- 238000001914 filtration Methods 0.000 claims description 29
- 230000008859 change Effects 0.000 claims description 25
- 230000007423 decrease Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Image Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、広くは、音声認識システムに関し、更に詳しくは、音声認識システムにおいて用いられる分割(セグメンテーション、セグメント化)アプローチに関する。
【0002】
【従来の技術】
ほとんどの音声認識システムは、発話データを処理し言語学的な音素に対応するのが通常であるモデル化単位を検出する認識器を含む。認識器は、通常、測定データを含む複数のタイプのデータを発生する。測定データは、モデル計算段に送られてそこで評価がなされ、ある発話データが特定の音素を表しているかどうかが判断される。ここで用いている「発話」(utterance)という用語は、人間又は機械のいずれかによって発生された1又は複数の音を指す。発話の例には、これに限定されることはないが、1つの音、任意の2つ以上の音、1つの単語、2つ以上の単語などが含まれる。発話データとは、発話のデータ表現である。
【0003】
多くの認識器は、フレーム・ベース又はセグメント・ベースのいずれかである。フレーム・ベースの認識器は、発話データの部分(「フレーム」)を分析して、発話データの特定のフレームが音素など特定の言語学的単位の一部であるかどうかを判断する。例えば、フレーム・ベースの認識器は、発話データの10ミリ秒(ms)のフレームを分析して、この10ミリ秒からなる発話データのフレームが音素「f」の一部であるかどうかを判断する。同じ音素の部分であると判断されたフレームは、同じグループに入れられる。
【0004】
フレーム・ベースの認識器とは対照的に、「セグメンタ」と称されることが多いセグメント・ベースの認識器は、発話データのフレームを分析して、その発話データに含まれている言語学的単位を定義する論理セグメントを見つける。それぞれのセグメントは、1つの言語学的単位の始点と終点とを画定する2つの境界によって定義される。境界は、通常、発話データ値の急峻な上昇及び下降によって特徴付けられる。セグメンタは、セグメントの境界を見つけるために、フレーム・データを分析する。境界(及びセグメント)がいったん識別されれば、セグメンタは、それぞれのセグメントが例えば「f」など特定の言語学的単位である確率を決定する。
【0005】
セグメンタが提供する精度は、フレーム・ベースの認識器よりも比較的高くなる傾向がある。というのは、セグメンタは、1つの言語学的単位の一部(a piece of a linguistic unit)を既知の複数の言語学的単位の集合と一致させようと試みるのではなく、1つの言語学的単位の全体(an entire linguistic unit)を既知の複数の言語学的単位の集合と一致させようと試みるからである。しかし、フレーム・ベースの認識器は、一般に、セグメンタよりも優れたエラー回復を提供する。その理由は、セグメント化は、認識の前ではなく、認識の間に生じるからである。すなわち、セグメンタにおいては、例えばある単語の最初の言語学的単位を見逃してしまうなどのセグメンタ化エラーからの回復は困難である場合がありうる。セグメンタによっては、多数のセグメントを発生した後で、セグメントの最適の集合を選択して精度を向上させるものがある。しかし、セグメントを処理するのに必要な計算資源の量は、セグメントの数と直接の関係がある。その結果として、多数のセグメントを処理することによって精度を向上しようと試みるセグメンタは、それに対応するフレーム・ベースのものよりもはるかに多くの計算資源を必要とすることがありうる。
【0006】
音素のような言語学的単位に対応する境界を見つけることは、非常に困難である。音声はその性質が明確ではないから、境界を示唆する明瞭な音響的ヒントは存在しないことがある。結果的に、境界が見逃され、それにより、特定の音素が認識されず精度が低下する可能性が増加する。別の問題としては、発話データの中の言語学的単位が存在しない位置に、誤って境界を認識してしまうことがある。この問題は、背景ノイズのほうが誤って言語学的単位として容易に解釈されてしまう沈黙領域において一般的である。あまりに多くの境界(及びセグメント)を見つけるということは、音声認識システムのパフォーマンスに悪影響を与える。というのは、音声認識システムの速度は、処理されるセグメントの数に多いに依存しているからである。セグメントを処理するのには計算資源が必要であり、不正確なセグメント検出の数を制限することは非常に重要である。
【0007】
以上で述べたことから、従来型のアプローチに存在している制限を回避する音声認識機構に対する必要性が存在する。特に、計算資源の量を減少させることが可能でありながら比較的高い精度を維持しながら高速の応答を提供するような音声認識機構に対する必要性が存在している。
【0008】
【発明の概要】
以上の必要性と以下の説明から明らかになるこれ以外の必要性とが、本発明によって達成される。受け取られた一連の発話データ(a body of utterance data)が処理され、候補音声単位の集合を定義する候補音声単位境界の集合が決定される。候補音声単位境界の集合は、セプストラル(Cepsral)係数値の変化と、発話エネルギの変化と、音声分類の変化と、広いカテゴリ分析(反転音、後舌母音、前母音)と、自鳴音開始の検出とに基づいて決定される。候補音声単位境界の集合は、他の候補音声単位に対する優先順位及び近接度と沈黙領域とによってフィルタリングされる。候補音声単位の集合は、無交差領域分析を用いてフィルタリングされ、フィルタリングされた候補音声単位の集合を発生する。無交差領域分析は、一般に、エネルギ・アップ、エネルギ・ダウン、ディップ又は広いカテゴリ型の無交差領域を完全にスパンする候補音声単位を放棄することを含む。最後に、音声単位の集合が、発話エネルギの差異に基づいて、フィルタリングされた候補音声単位の集合から選択される。
【0009】
実施例は、添付の図面において例として図解されている。ただし、これは、限定を意図していない。図面においては、類似する構成要素に対しては、同じ参照番号が付されている。
【0010】
【発明の実施の形態】
以下の説明では、説明のために、特定の詳細を与えることにより、本発明の完全な理解を提供しようとしている。しかし、本発明は、以下の詳細がなくても実現できることは明らかである。場合によっては、周知の構造や装置はブロック図形式によって表現し、本発明を不必要に曖昧にすることを回避している。
【0011】
以下のセクションにおいて、実施例の様々な側面及び特徴がより詳細に説明される。すなわち、(1)導入部、(2)システムの概観、(3)機能的な概観、(4)候補境界の決定、(5)優先順位及び近接度により候補境界をフィルタリングして候補セグメントの数を減少させること、(6)沈黙領域に含まれる候補境界をフィルタリングして候補セグメントの数を減少させること、(7)無交差領域分析を用いて候補セグメントをフィルタリングすること、(8)候補セグメントから最終セグメントを選択すること、(9)パイプラインの考察、及び(10)実現機構である。
【0012】
1.導入部
音声認識システムにおいて音声をモデル化するコンピュータによって実現される分割(セグメンテーション)アプローチについて説明される。一般に、様々な手法を用いて、発話データが評価され、セグメント・ラティスを定義する候補境界の集合が決定される。そして、セグメント・ラティスが評価され、発話データを正確にモデル化するセグメントの最終的な集合が決定される。
【0013】
2.システムの概観
図1は、この出願において説明される様々な実施例に従い音声をモデル化するセグメンタ(セグメント化装置、分割装置)100を図解している。セグメンタ100は、特定の応用の要件に応じて、スタンドアロン要素として、又は、音声認識システム(図示せず)における認識器の段として、実現することができる。セグメンタ100は、発話データ102を受け取り処理する。ここで説明される音声モデル化のアプローチは、任意のタイプ又は形式の発話データと共に用いることができる。説明の目的だけのために、この出願では、発話データ102を、固定長の連続的なフレームの形式で説明する。
【0014】
セグメンタ100は、セグメント・ラティスを定義する候補境界を特定する境界データ104を発生する。セグメンタ100は、また、セグメント定義データ106とセグメント測定データ108とを発生する。セグメント定義データ106は、境界データ104によって特定される候補境界からセグメンタ100によって選択されるセグメントの集合を定義する。セグメント測定データ108は、それぞれのセグメントに対する音響的な特徴を含む。境界データ104と、セグメント定義データ106と、セグメント測定データ108とは、典型的には、音声認識システムにおけるモデル計算段への入力として提供される。また、境界データ104は、リンク110によって示されているように、セグメンタ100へのフィードバック入力として提供される。
【0015】
3.機能的な概観
ある実施例による音声モデル化の分割アプローチは、図2の流れ図200に図解されている。ステップ202において開始した後で、ステップ204において、発話データ102が、セグメンタ100によって受け取られる。この明細書で説明されているように、発話データ102は、例えば10ミリ秒(ms)などの固定サイズの連続的なフレームの形式を有する。発話データのフレームは、発話全体又は発話の一部を表すことがありうる。実施例は、特定のフォーマット又はサイズの発話データ102には限定されない。ある実施例によると、発話データ102のそれぞれのフレームは、N個のセプストラル(Cepstral)係数(C0,C1,…,Cn)とM個のスペクトル(spectral)係数(S0,S1,…,Sm)とを含む。例えば、14個のセプストラル係数を用いることができる。この技術分野において広く知られているように、セプストラル係数は、ログ大きさスペクトル(log magnitude spectrum)のフーリエ変換表現の係数、すなわち、周波数の関数としてのエネルギである。音声認識システムにおけるセプストラル係数及びスペクトル係数の使用については、Lawrence Rabiner and Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall, 1993に説明がある。図3は、発話データ302の10個のフレームの形式を有する発話データ102の一部を図解するブロック図300である。ここで、10個のフレームは、個別的に、F1ないしF10である。
【0016】
ステップ206では、候補境界と候補セグメントとの集合が、以下で更に詳細に説明される様々な手法に従って、発話データ102から決定される。候補境界は、フレーム302の境界においてのみ確立されるが、その理由は、フレーム302の境界はセグメンタ100にとって利用可能な最小の粒状度(granularity)であるからである。候補境界の集合は、図3においてセグメント304、306、308、310及び312によって表されているように、重複する候補セグメントのラティス(格子)を定義する。
【0017】
ステップ208では、候補境界の集合は、フィルタリングされ、候補セグメントの数を減少させる。候補セグメントの数を減少させることによって、候補セグメントを処理し最終的なセグメントの集合を選択するのに要求される計算資源の量が減少するという効果が得られる。
【0018】
ステップ210では、後で更に詳細に説明されるように、候補セグメントの集合が、無交差(no-cross)領域分析を用いてフィルタリングされ、フィルタリングされた候補セグメントの集合を発生する。
【0019】
ステップ212では、最終的なセグメントの集合が、候補境界が識別されるときに決定される境界確率に基づいて、フィルタリングされた候補セグメントの集合から選択される。このプロセスは、ステップ214において完成する。
【0020】
4.候補境界の決定
候補境界は、発話データ102をモデル化しそれから最終的なセグメントが選択されるセグメント・ラティスを定義する。選択される候補境界の数は、希望する精度と候補境界を処理するのに利用可能な計算資源とに依存する。候補境界の数が大きいほど、一般的には、より多くの計算資源が必要となる。ある実施例によると、候補境界の集合を決定するには、いくつかの手法が用いられる。これらの手法には、(a)セプストラル差、(b)エネルギ差、(c)音声差、(d)広いカテゴリ分析、そして、(e)自鳴音(sonorant)開始の検出が含まれる。
【0021】
(a)セプストラル差
ある実施例によると、セプストラル係数の差が、フレームの境界を検出するのに用いられる。フレームの集合に対するセプストラル係数は、最初に「平滑化」されて、音声において生じることが多い急激な変化すなわち「チョピネス(chopiness)」の効果を減衰させる。フレームの平滑化には、一般に、それぞれのフレームに対して、複数のフレームにわたるセプストラル係数を平均化することが含まれる。例えば、特定のフレームを平滑化するには、この特定のフレームの左側にある(後の)N個のフレームに対するセプストラル係数が全体として平均化され、また、この特定のフレームとこの特定のフレームの右側にある(前の)N−1個のフレームとに対するセプストラル係数が全体として平均化される。
【0022】
セプストラル係数は、いったん平滑化されると、セプストラル係数の範囲の差を補償するように正規化又はスケーリングがなされる。例えば、あるセプストラル係数が(0.0)から(1.0)までの範囲を有し、別のセプストラル係数が(0.0)から(100,000.00)までの範囲を有することがある。ある実施例によると、それぞれのフレームにおけるセプストラル係数は、その標準偏差によって正規化される。
【0023】
セプストラル係数は、スケーリングされると、フレームにおける境界を識別するために分析される。フレームの分析には、一般に、それぞれの可能性がある境界の左側及び右側にあるN個のフレームを比較して(境界は2つのフレームを分離する)、現在のフレーム(通常は、考慮されている境界の右側にあるフレーム)が何らかの差測度(差の尺度、difference measure)にピークを有しているかどうかを判断する。ここでの用法としては、ピークは、両側に十分に大きな低下を有しており特定のスレショルドを超える局所的な最大値として定義される。
【0024】
図4は、ある実施例に従いセプストラル係数を用いてフレームの境界を検出するアプローチを図解する流れ図400である。ステップ402において開始した後で、ステップ404において、フレーム・データは、複数のフレームにわたって平滑化される。図3を参照すると、この例の目的のために、現在のフレームはフレームF5であり、Nは3であり、それぞれのフレームは14個のセプストラル係数によって定義されている。最初に、フレームF2、F3及びF4に対するセプストラル係数C0ないしC13の平均が決定される。また、フレームF5、F6及びF7に対するセプストラル係数C0ないしC13の平均も決定される。ステップ406では、ステップ404において計算された平均化されたセプストラル係数が、その標準偏差を用いて正規化される。
【0025】
ステップ408では、左右からの平均化され正規化されたセプストラル・ベクトルが比較される(差測度は、ユークリッド距離である)。ステップ410では、ステップ408において測定された差が、左から右へという態様でサーチされ、あるスレショルドの量よりも多く近傍の局所的最小値よりも大きな差測度の局所的最大値すなわちピークを見つける。
【0026】
(b)エネルギ差
ある実施例によると、検出されたエネルギ差は、現在のフレームにおいて境界を識別するのに用いられる。この分野の当業者に十分に理解されているように、発話エネルギは、セプストラル係数C0において表現される。従って、この実施例によると、セプストラル差のピークを計算するのに用いられたステップは、C0だけを用いて反復される。
【0027】
(c)音声差
ある実施例によると、音声差は、境界を識別するのに用いられる。音声分類の著しい変化は、一般に、境界の存在、すなわち、異なる音素の開始を示す。ある実施例によると、特定のフレームの音声分類は、ニューラル・ネットワークを用いてこの特定のフレームを処理してM個の音素に対するこの特定のフレームのスコアを得ることによって判断される。この分析の結果は、それぞれのフレームにおける音素確率のベクトルである。このベクトルは、次に、ちょうどセプストラル係数と同じように処理され、境界の存在を仮定するべき差関数のピークが見つけられる。
【0028】
(d)広いカテゴリ分析
ある実施例によると、広いカテゴリ分析は、波形エネルギ・パターンを評価することによって通常検出されることがない境界、特に、内部自鳴音領域を識別するのに用いられる。例えば、「three」における/r/と/iy/との間や、「one」における/w/と/ah/との間の境界を検出するのは、特別に困難である場合がある。というのは、これらの音素の間には、僅かな変化、すなわち、「滑り(slurring)」しか存在しないからである。この問題は、背景ノイズによって更に困難になることがある。
【0029】
広いカテゴリ分析は、後舌母音(back vowels)、前母音(front vowels)及び反転音(retroflex)など比較的ユニークなスペクトル特性を有する音声成分を検出することに関係する。一般に、類似の音は広いカテゴリに組み合わされ、発話データのフレームはこの広いカテゴリとの関係で評価される。広いカテゴリのスコアが減少する位置の近くで急峻な変化があると、それは、境界が存在していることを示す。
【0030】
図6Aは、部分604で表されている発話「four」と部分606によって表されている発話「zero」とに対する発話波形602を含む図600である。図600は、また、様々な周波数における発話波形602のエネルギをグラフィカルに図解するスペクトログラム608も含む。ある実施例によると、3つのタイプの広いカテゴリが用いられ、(i)反転音、(ii)後舌母音及び関連音、そして(iii)前母音及び関連音という境界が検出されている。
【0031】
(i)反転音
反転音のカテゴリとは、ユニークなスペクトル特性を有する「r」の音のファミリを指している。図600には、反転音すなわち「r」の存在に対する発話波形602のスコアを図解している反転音グラフ610が含まれており、影の付いた部分は、より高いスコアと、「r」が発話波形602に含まれているより高い確率とを示している。
【0032】
例えば、発話波形602によって図解されているように、ほぼ「four」の「r」の位置にある部分604の右側には、相対的に、波形エネルギの変化がほとんど存在しない。従って、波形エネルギの変化の検出だけに依存していては、「four」の中の「r」を識別するのが困難である可能性がある。しかし、反転音グラフ610の部分610aは、比較的高い反転音スコアをグラフィカルに図解しており、これは、部分604の端部が「r」を含んでいる蓋然性が高いことを示している。
【0033】
別の例として、発話波形602の部分606では、波形エネルギの変化の検出に依存していては、「zero」における「e」から「r」への境界を識別するのは困難である可能性がある。というのは、これらの2つの音素の間の僅かな変化は、波形602において検出することが困難でありうるからである。しかし、反転音グラフ610の部分610bは、比較的高い反転音スコアをグラフィカルに図解しており、これは、部分606の中間部分が「r」を含んでいる蓋然性が高いことを示している。これらの2つの例によって示されるように、反転音情報は、「r」の境界の存在を識別するのに極めて有益な場合がある。
【0034】
ある実施例では、2つのタイプの反転音特性を用い、ゼロ(0)から1までの範囲に正規化された反転音スコアに基づいて、反転音境界が識別される。最初に、反転音境界が、反転音スコアが15個以下のフレームにおいて0.1から0.4上昇又は下降する位置において識別される。第2に、反転音境界が、反転音スコアが5個以下のフレームにおいて0.01から0.2上昇又は下降する位置において識別される。第2の状況によって、非常に低い点からより急速に変換するはるかに弱い「r」の音素に関して、反転音境界が検出されることが可能となる。
【0035】
(ii)後舌母音及び関連音
ある実施例によると、後舌母音及び関連音の情報を用いて、従来型のエネルギ変化の手法がそれほど有用ではない発話データにおける境界を検出することができる。後舌母音及び関連音は、人の口の後方で形成されるという特徴を有し、ユニークなスペクトル特性を有している。図6では、部分604における「ao」及び「r」の音素は、波形エネルギの変化に依拠していては検出が困難な場合がある。というのは、部分604の最初の3分の2における波形エネルギが比較的一定であるからである。しかし、部分612aは、比較的高い後舌母音スコアをグラフィカルに図解しており、これは、部分604の最初のおよそ3分の2が後舌母音又は関連音を含む蓋然性が高いことを示している。このように、後舌母音情報を用いると、「ao」と「r」との音素境界が見逃される蓋然性を小さくすることができる。
【0036】
同様に、部分606においては、「ow」の音素は、波形エネルギの変化に依拠していては検出が困難な場合がある。というのは、部分606の端部に向かう波形エネルギが比較的一定であるからである。しかし、部分612bは、比較的高い後舌母音スコアをグラフィカルに図解しており、これは、部分606の端部が後舌母音又は関連音を含む蓋然性が高いことを示している。
【0037】
(iii)前母音及び関連音
ある実施例では、前母音及び関連音の情報を用いることによって、従来型のエネルギ変化の手法ではあまりうまくいかないような発話データにおける境界の検出が可能となる。前母音及び関連音は、人の口の前方で形成されるという特徴があり、ユニークなスペクトル特性を有している。図6では、部分606における「iy」の音素は、波形エネルギの変化に依拠していては検出が困難な場合がある。というのは、「iy」と「r」とは一緒に発せられる傾向を有するからである。しかし、部分614aは、比較的高い前母音スコアをグラフィカルに図解しており、これは、部分604の最初のおよそ3分の2が前母音又は関連音を含む蓋然性が高いことを示している。このようにして前母音情報を用いると、「iy」の音素境界が見逃される蓋然性を小さくすることができる。
【0038】
(e)自鳴音開始の検出
英語では、直後に母音が連続している子音を含む音声単位は、特に認識が困難な場合がある。というのは、後ろに続いている母音がその子音を「軟化」する傾向を有するからである。この問題は、例えば、音声単位「be」においてのように、母音が続いている「b」のように表明された(voiced)停止がある場合に、特に深刻となる。
【0039】
ある実施例では、沈黙から来る自鳴音の最初の3つのフレームをセグメントである可能性があるとすることによって対処されている。その実現は次の通りである(ただし、エネルギ・アップ無交差領域分析が実行された後で)。すべての識別されたエネルギ・アップ型の無交差領域に対して、エネルギ・アップ型の無交差領域の端点が自鳴音であるかどうかが判断される。これは、自鳴音の広いカテゴリ・スコアが0.5よりも大きいかどうか、つまり、エネルギ・アップ型の無交差領域が自鳴音ではない可能性があるかどうかを判断することによって、判断される。エネルギ・アップ型の無交差領域が自鳴音である場合には、第1の先行する音声差型の境界の位置が識別されて、例えば1の優先順位など、より高い優先順位が再度割り当てられる。そして、最高の優先順位を有する新たな境界が、その音声差型の境界から3フレーム前に作成される。
【0040】
図6Bは、ある実施例による自鳴音開始の検出を処理するアプローチを図解する流れ図650である。ステップ652において開始した後で、ステップ654において、第1のエネルギ・アップ型の無交差領域が選択される。ステップ656では、選択されたエネルギ・アップ型の無交差領域の端点が自鳴音であるかどうかが判断される。上述したように、この判断は、例えば、選択されたエネルギ・アップ型の無交差領域に対する自鳴音スコアが0.5よりも大きいかどうかを判断することによってなされる。
【0041】
そうであれば、ステップ658において、選択されたエネルギ・アップ型の無交差領域が音声差型の境界を含むかどうかが判断される。そうであれば、ステップ660において、第1の音声差型の境界の優先順位は、最高の優先順位まで上昇する。次に、ステップ662において、新たな境界が、第1の音声差型の境界から3フレーム前に作成される。
【0042】
制御は次にステップ664に進み、エネルギ・アップ型の無交差領域がそれ以上ないかどうかが判断される。注意すべきは、選択されたエネルギ・アップ型の無交差領域の端点が自鳴音でない場合には、ステップ656からステップ664に進むということである。ステップ664は、また、選択されたエネルギ・アップ型の無交差領域が音素差型の境界を含まない場合には、ステップ658からも到達される。
【0043】
ステップ664において、エネルギ・アップ型の無交差領域が更に存在する場合には、制御はステップ654に戻り、次のエネルギ・アップ型の無交差領域が選択される。そうでない場合には、プロセスはステップ666で終了する。
【0044】
5.優先順位及び近接度によって候補境界をフィルタリングして候補セグメントの数を減少させること。
【0045】
候補境界の集合は、候補セグメントの集合を定義するが、それぞれの候補セグメントは、その端点において1対の候補境界によって定義される。上述したように、セグメントの数を減らして、セグメントの処理に要する計算資源の量を減らすことが望ましい。ある実施例によると、候補境界の集合は、優先順位がより高い他の候補境界に近接している候補境界を放棄することによって、フィルタリングされる。このフィルタリングにより、候補セグメントの数を、そして最終的には、最終的なセグメントの数が減少する。既に説明したように、最終的なセグメントの数を減少させることは意味があることであるが、その理由は、最終的なセグメントを評価するにに要求される計算資源の量を減らすことができるからである。
【0046】
候補境界は、それらを発生するのに用いられたアプローチに基づいて、優先順位が決定される。ある実施例によると、候補境界は以下のように優先順位が決められる。ここで、「1」は相対的に最高の優先順位を表し、「4」は相対的に最低の優先順位を表す:
境界のタイプ 優先順位
自鳴音開始境界 1
セプストラル差境界 2
エネルギ差境界 2
音声差境界 2
広いカテゴリ分析境界 3
無交差領域境界(すべての型) 4
フィルタリング・プロセスの間、現在の候補境界の優先順位は、現在の候補境界のN個のフレームの中にある他の候補境界の優先順位と比較される。現在の候補境界が現在の候補境界のN個のフレームの中にある少なくとも1つの他の候補境界よりも低い優先順位を有している場合には、現在の候補境界は放棄される。フィルタリングの後で残っている候補境界の集合は、ここでは、「フィルタリングされた候補境界」と称する。理想的には、フィルタリングされた候補境界は、元の候補境界から決定された最終的なセグメントの集合と少なくとも同じくらい正確な最終的なセグメントの集合を提供するが、より少ない計算資源しか要求しない。
【0047】
図7Aは、ある実施例による候補境界をフィルタリングするアプローチを図解している流れ図700である。ステップ702で開始した後で、ステップ704において、第1の候補境界が、候補境界の集合から選択される。ステップ706では、選択された候補境界(SCB)の優先順位が、このSCBを含む現在のフレームの左右N個のフレームの範囲内に含まれている候補境界の優先順位と比較される。
【0048】
ステップ708では、SCBの優先順位が現在のフレームからN個の範囲内に含まれる候補境界の優先順位よりも低いかどうかが判断される。ステップ712では、処理されるべき候補境界がどのようなものであっても更に存在するかどうかが判断される。そうであれば、制御はステップ704に戻り、そこで、次の候補境界が選択される。そうでない場合には、プロセスはステップ714で終了する。
【0049】
6.沈黙領域に含まれる候補境界をフィルタリングして、候補セグメントの数を減少させること
音声認識システムにおける別の問題として、音声単位を認識する際の沈黙の効果がある。沈黙領域は、特に低いエネルギによって特徴付けられる。多くの従来型のセグメント・ベースの音声認識システムは、沈黙領域において多数のセグメントを発生する。というのは、低いエネルギがなくても、沈黙領域において比較的大きな音響的な変化が生じているからである。
【0050】
ある実施例によると、沈黙領域に含まれている候補境界はフィルタリング(放棄)されて、処理されなければならない候補境界の数が減少される。第1に、沈黙領域は、フィルタリングされた低エネルギの対応するヒストグラムの分析に基づいて、発話データ102において識別される。特定の最小時間の間特定の最大レベルよりも下にあるエネルギを含む領域は、沈黙領域と認定される。次に、沈黙領域の端部は内部方向に移動され、沈黙領域のサイズが減少される。これは、例えば/f/のように誤って沈黙と取られる可能性がある弱い音声単位に対応するためになされる。このような弱い音声単位は、通常は、「より強い」音声、すなわち、よりエネルギが高い発話データの近くに存在するので、沈黙領域のサイズを縮小することによって、弱い音声単位を適切に説明することができる。次に、識別された沈黙領域の中に含まれるすべての境界が放棄され、フィルタリングされた境界を更に定義する。
【0051】
図7Bは、ある実施例による沈黙領域に含まれる候補境界をフィルタリングするアプローチを図解する流れ図750である。ステップ752で開始した後で、ステップ754において、沈黙領域の集合が識別される。上述したように、フィルタリングされた低エネルギを調べて、沈黙領域を識別する。特定の最小沈黙領域期間の間特定のエネルギ・スレショルドよりも下にあるフィルタリングされた低エネルギを有する発話データの領域は、沈黙領域と認定される。
【0052】
ステップ756では、識別された沈黙領域は、弱い音声単位の存在を説明するために調整される。特に、識別された沈黙領域の開始及び端点は、特定の調整サイズだけ内側に移動され、識別された沈黙領域のサイズが縮小される。
【0053】
ステップ758では、調整された沈黙領域に含まれる候補境界は、放棄される。このプロセスは、ステップ760で終了する。プロセスがいったん完了すると、結果として得られた候補境界は、候補セグメントの集合を定義するフィルタリングされた候補境界である。
【0054】
7.無交差領域分析を用いて候補セグメントをフィルタリングすること
ここでは、「無交差領域」という用語は、その特徴的な音響特性のために境界を含む可能性が高い発話データの一部を意味する。無交差領域分析の間には、エネルギ測定データが評価されて、発話データに含まれる無交差領域が識別される。次に、ここで説明されている境界フィルタリング機構によって決定される候補セグメントが、評価され、無交差領域を完全にスパンする、すなわちカバーするかどうかが判断される。無交差領域を完全にスパンすなわちカバーする候補セグメントは、放棄され、最終的なセグメントとして用いられることはない。ある実施例によると、4つのタイプの無交差領域がある。すなわち、(i)エネルギ・アップ、(ii)エネルギ・ダウン、(iii)ディップ、そして(iv)広いカテゴリである。
【0055】
i.エネルギ・アップ
エネルギ・アップ型の無交差領域は、特定の時間にわたるエネルギの十分に大きな増加によって特徴付けられる。すなわち、特定の勾配を有している。図8は、ある実施例によるエネルギ・アップ型の無交差領域を識別するアプローチを図解する流れ図である。ステップ802で開始した後で、ステップ804において、セグメンタ100によって受け取られたエネルギ・データがフィルタリングされる。ある実施例によると、(C0のセプストラル係数とは異なり)発話データ102(図1)に含まれている低周波エネルギは、フィルタリングされて、エネルギ・アップ特性として解釈されてしまう可能性があるノイズを除去される。他のタイプのフィルタリングを用いることも可能ではあるが、ローパス・フィルタリングが用いられる。
【0056】
ステップ806では、発話データ102のフレームが評価され、エネルギ・アップ領域を識別する。ある実施例によると、エネルギ・アップ領域の開始は、特定の開始勾配スレショルドを満足する(例えば、超える)フィルタリングされた低エネルギの1フレーム分の増加によって特徴付けられる。エネルギ・アップ領域がいったん検出されると、隣接するフレームが評価され、識別されたエネルギ・アップ領域の対応する端部が見つけられる。ある実施例によると、エネルギ・アップ領域の端部は、特定の端部勾配スレショルドを満足する(例えば、それよりも低い)フィルタリングされた低エネルギの変化を有するフレームによって特徴付けられる。
【0057】
ステップ808では、エネルギ・アップ領域のフレームは、特定のエネルギ変化スレショルドとの関係で評価される。エネルギ・アップ領域のフレームが特定のエネルギ変化スレショルドを満足する(例えば、超える)場合には、このエネルギ・アップ領域は、エネルギ・アップ型の無交差領域と認定される。
【0058】
エネルギ・アップ型の無交差領域がいったん識別されると、ステップ810において、エネルギ・アップ型無交差領域の境界が、フィルタリングされていない低周波エネルギを用いて精密化される。第1に、エネルギ・アップ型の無交差領域の左側エッジは、特定のエッジ・スレショルドよりも多くのエネルギを有する第1のフレームをエネルギ・アップ型の無交差領域から見つけることによって、精密化される。第2に、エネルギ・アップ型の無交差領域の右側のエッジは、エネルギ・アップ型の無交差領域の端部よりも低い特定のエッジ・スレショルドよりも多くのエネルギを有する第1のフレームを見つけることによって、精密化される。第3に、最大の勾配を有する最大のフレームの増加が1つ、特定される。
【0059】
最後に、ステップ812では、特定のパッドの量が、精密化された開始境界から取り除かれて、エネルギ・アップ型の無交差領域の精密化された最終境界に追加される。このプロセスは、ステップ814で終了する。
【0060】
ii.エネルギ・ダウン
エネルギ・ダウン型の無交差領域は、エネルギ・アップ型の無交差領域に非常に類似しているが、エネルギ・ダウン型の無交差領域は、特定の時間にわたるエネルギの大きな減少によって特徴付けられることだけが異なる。流れ図800を参照すると、ステップ802及び804は、エネルギ・アップ型の無交差領域と同じように、エネルギ・ダウン型の無交差領域を検出している。
【0061】
ステップ806では、発話データ102のフレームが評価され、エネルギ・ダウン領域を識別する。ある実施例によると、エネルギ・ダウン領域の開始は、特定の開始勾配スレショルドを満足する(例えば、超える)フィルタリングされた低エネルギの1フレーム分の増加によって特徴付けられる。エネルギ・ダウン領域がいったん検出されると、隣接するフレームが評価され、識別されたエネルギ・ダウン領域の対応する端部が見つけられる。ある実施例によると、エネルギ・ダウン領域の端部は、特定の端部勾配スレショルドを満足する(例えば、それよりも低い)フィルタリングされた低エネルギの変化を有するフレームによって特徴付けられる。
【0062】
ステップ808では、識別されたエネルギ・ダウン領域のフレームは、特定のエネルギ変化スレショルドとの関係で評価される。識別されたエネルギ・ダウン領域のフレームが特定のエネルギ変化スレショルドを満足する(例えば、超える)場合には、この識別されたエネルギ・ダウン領域は、エネルギ・ダウン型の無交差領域と認定される。
【0063】
エネルギ・ダウン型の無交差領域がいったん識別されると、ステップ810において、エネルギ・ダウン型無交差領域の境界が、フィルタリングされていない低エネルギを用いて精密化される。第1に、エネルギ・ダウン型の無交差領域の左側エッジは、特定のエッジ・スレショルドよりも少ないエネルギを有する第1のフレームをエネルギ・ダウン型の無交差領域から見つけることによって、精密化される。第2に、エネルギ・ダウン型の無交差領域の右側のエッジは、エネルギ・ダウン型の無交差領域の端部よりも高い特定のエッジ・スレショルドよりも多くのエネルギを有する第1のフレームを見つけることによって、精密化される。第3に、最大の下向きの勾配を有する最大のフレームの減少が1つ、特定される。
【0064】
最後に、ステップ812では、特定のパッドの量が、精密化された終了境界に追加されて、エネルギ・ダウン型の無交差領域の精密化された最終境界に追加される。このプロセスは、ステップ814で終了する。
【0065】
iii.ディップ
ディップ型の無交差領域は、一般的に、フィルタリングされたエネルギの低下の後に特定の時間間隔の間にフィルタリングされたエネルギが上昇することによって特徴付けられる。図9は、ある実施例によるディップ型の無交差領域を識別するアプローチを図解している流れ図である。ステップ902で開始した後で、ステップ904において、セグメンタ100によって受け取られたエネルギ・データは、例えば、ローパスフィルタを用いてフィルタリングされる。フィルタリングされたエネルギ・データは、エネルギ・アップ及びエネルギ・ダウン型の無交差領域を識別する上述のアプローチにおいて用いられたのと同じデータである。例えば、ある実施例によると、発話データ102(図1)に含まれている低周波エネルギがフィルタリングされ、これ以外の場合にはエネルギ・アップ特性と解釈される可能性があるノイズが取り除かれる。
【0066】
ステップ906では、発話データ102のフレームは評価され、候補ディップ型の無交差領域の開始が識別される。ある実施例によると、候補ディップ型無交差領域の開始は、最も最近の最大値からの特定のディップ深度を超えるエネルギの低下によって特徴付けられる。候補ディップ型の無交差領域の開始がいったん検出されると、通常は数フレームの範囲内で局所的な最小値(ディップの底部)が見つけられる。局所的な最小値がいったん見つけられると、識別された候補ディップ型の無交差領域の対応する端部が特定される。ある実施例によると、候補ディップ領域の端部は、局所的な最小値からの特定のディップ深度を超えるエネルギの上昇によって特徴付けられる。
【0067】
ステップ908では、候補ディップ型無交差領域がいったん識別されると、識別された候補ディップ型無交差領域の幅が、特定のディップ幅基準との関係でチェックされる。例えば、ディップ幅基準は、最小及び最大の受入可能な幅を特定し、候補ディップ型無交差領域は維持され、ディップ型無交差領域として認定される。
【0068】
ディップ型の無交差領域がいったん識別されると、ステップ910において、ディップ型無交差領域の境界が、同じフィルタリングされた低周波エネルギを用いて精密化される。第1に、ディップ型の無交差領域の左側エッジは、局所的な最小値から後ろ向きにサーチして局所的な最小値からの特定のディップ・エッジ・スレショルドよりも多くのエネルギを有する第1のフレームを見つけることによって、精密化される。これは新たな開始である。次に、ディップ型の無交差領域の右側のエッジは、局所的な最小値から前向きにサーチして局所的な最小値からの特定のディップ・エッジ・スレショルドよりも多くのエネルギを有する第1のフレームを見つけることによって、精密化される。これは、新たな端部である。ディップ型の無交差領域のように、開始から端部まですべての領域を追加する。このプロセスは、ステップ912で終了する。
【0069】
iv.広いカテゴリ(子音、母音、沈黙)
ある実施例によると、広いカテゴリ分析を用いて、広いカテゴリ型の無交差領域が識別される。広いカテゴリ分析は、ニューラル・ネットワークを用いて特定の広いカテゴリの集合に対するフレームのスコアを付けることを含む。このスコアは、特定のフレームが特定の広いカテゴリを含む確率を示している。ある実施例によると、特定の広いカテゴリの集合は、子音、母音及び沈黙を含む。
【0070】
広いカテゴリ型の無交差領域は、任意の2つのフレームの間に確立されるが、これらのフレームは隣接している場合もしていない場合もあり、特定の広いカテゴリの少なくとも1つは、別の広いカテゴリに対して0.8以上の合計スコアを有している。広いカテゴリ型の無交差領域は、また、特定の数のフレーム分だけ左右に拡張され、広いカテゴリ型の無交差領域を結びつける(パッド)ことができる。例えば、フレームf22が0.92の沈黙スコアを有し、フレームf31が0.88の自鳴音スコアを有する場合には、広いカテゴリ型の無交差領域は、フレーム19からフレーム34まで確立される。
【0071】
8.候補セグメントからの最終セグメントの選択
候補セグメントの集合がいったん決定されると、最終的なセグメントの集合が、その候補セグメントの集合から決定される。すべての境界に対して、その境界で終了する可能性があるセグメントの集合が、無交差領域の他方の側に存在しない従前のすべての境界によって定義される。この集合は、相当に大きい。計算を制御するために、それぞれの境界において終了するN(例えば、5)個の最良のセグメントを維持する。
【0072】
セグメントの的確性(goodness)を計算するために、それぞれの候補境界が実際に境界である確率が、その境界におけるセプストラル及び音声差のサイズに基づいて評価される。すると、セグメントの的確性は、候補端部境界が実際の境界である確率とそのセグメントの中に存在する任意の候補境界が実際の境界でない確率との関数である。
【0073】
図10は、ある実施例による最終的なセグメントを選択するアプローチを図解する図解1000である。この図には、特定の発話に対する波形1002と、特定の発話のエネルギをグラフィカルに図解するスペクトログラム1004とが含まれている。
【0074】
図解1000には、更に、ある実施例に従って決定される候補セグメントを図解するセグメント・ラティス・グラフ1006を含む。ラティス・グラフ1006は、垂直方向の小さなマークによって指定されているように、ここで説明されているアプローチに従って決定されたフィルタリングされた候補境界1008の集合を含む。また、ラティス・グラフ1006は、ここで説明されているアプローチに従って決定された候補セグメント1010の集合を含む。エネルギ・アップ型の無交差領域は、一般的に、円1012によって示されている。ラティス・グラフ1006は、また、円形の境界によって示されている最初の単語に対する最終的なセグメントの集合を含む。
【0075】
9.パイプライン処理の考察
この出願において説明している音声認識システムにおいて音声をモデル化する分割アプローチは、オフラインの応用例とオンラインの応用例との両方に応用が可能である。オフラインの応用例では、発話全体に対する発話データは、一般に、受信され、後で処理するためにオフラインで記憶される。オフラインの応用例ではタイミングは重要でないのが通常であるから、発話全体に対するすべてのデータは、ここで説明されているアプローチを用いて直ちに処理される。
【0076】
オフラインの応用例とは対照的に、オンラインの応用例では、発話データは、受信され、直ちに処理される。これは、発話データは発話の部分又は発話全体を表す固まりとして受信され比較的短時間の間に連続的に処理されなければならないことを示している。このプロセスは、一般に、パイプライン処理として知られている。オンラインの応用例の一般的な例としては、希望の選択を電話で伝えることによって顧客が取引を実行できる自動化された航空券予約システムがある。オンラインの応用例では、発話データは、オフラインの応用例の場合よりもより迅速に処理されなければならない。このために、発話データを処理するための特定のアプローチに必要なリソースの量が、非常に重要となる。
【0077】
音声認識システムにおいて音声をモデル化するための本出願で説明しているアプローチに応用するには、パイプライン処理をサポートする複数の特別の考慮がなされる。というのは、現在のフレームの中の境界の識別は、現在のフレームの前後にあるN個の発話データのフレームに依存するからである。第1に、現在のフレームの処理、例えば、境界の識別は、現在のフレームが受け取られた後のN個のデータのフレームまで開始しない。例えば、図3を参照すると、N=3の場合には、フレームF3の処理は、フレームF6及びF7が受け取られるまでは開始できない。これにより、上述したように、フレームF2、F3及びF4とフレームF5、F6及びF7とを用いて、境界検出を実行することが可能となる。
【0078】
第2に、それ以降の発話データの固まりの処理を可能にするには、発話データの「固まり」からの十分な数の発話データのフレームが、維持されなければならない。例えば、再び図3を参照して、特定の音声認識システムにおいて発話データが10個のフレームの固まりとして受け取られ、発話データのフレーム302が1から10のフレームの固まりを表しているとする。発話データ302のフレームの中のフレームF10をこの出願で説明している技術を用いて処理するには、それ以前の発話データを用いなければならない。例えば、先行する固まりのフレームF1、F2及びF3と、発話データ302のフレームからのF7、F8及びF9とが、フレームF10を処理するのに用いられる。
【0079】
10.実現機構
A.概観
ここで説明している音声認識システムにおける音声モデル化のアプローチは、コンピュータ・ソフトウェア、ハードウェア回路、又はコンピュータ・ソフトウェアとハードウェア回路との組合せとして実現することができる。従って、本発明は、特定のコンピュータ・ソフトウェア又はハードウェア回路での実現例に限定されることはない。例えば、このアプローチは、音声認識システム(図示せず)の一部として、セグメンタ100において実現することができる。別の例では、このアプローチは、音声認識システムと相互作用するスタンドアロンの機構として実現することができる。
B.実現のためのハードウェア
図11は、本発明の実施例を実現することができるコンピュータ・システム1100を図解しているブロック図である。コンピュータ・システム1100は、情報を通信するバス1102又はそれ以外の通信機構と、バス1102に結合されており情報を処理するプロセッサ1104とを含む。更に、コンピュータ・システム1100は、ランダム・アクセス・メモリ(RAM)又はそれ以外の動的(ダイナミック)な記憶装置などであって、バス1102に結合されており、プロセッサ1104によって実行される情報及び命令を記憶するメイン・メモリ1106を含んでいる。メイン・メモリ1106は、また、プロセッサ1104が命令を実行する間に一時的な変数やそれ以外の中間的な情報を記憶するのにも用いることができる。コンピュータ・システム1100は、更に、バス1102に結合されておりプロセッサへの静的な情報及び命令を記憶するリード・オンリ・メモリ(ROM)1108又はそれ以外の静的な記憶装置も含む。磁気ディスク又は光ディスクなどの記憶装置1110が提供され、バス1102に結合されて、情報及び命令を記憶する。
【0080】
コンピュータ・システム1100は、バス1102によって、ブラウン管(CRT)などであり情報をコンピュータ・ユーザに対して表示するディスプレイ1112に結合される。英数字及びそれ以外のキーを含む入力装置1114がバス1102に結合され、情報及びコマンドの選択をプロセッサ1104に送る。別のタイプのユーザ入力装置として、マウス、トラックボール又はカーソル方向付けキーなどのカーソル制御装置1116があり、方向に関する情報とコマンドの選択とをプロセッサ1104に送り、ディスプレイ1112上でのカーソル移動を制御する。この入力装置は、第1の軸(例えば、x軸)と第2の軸(例えば、y軸)との2つの軸に対する2つの自由度を有しているのが一般的であり、それによって、この装置が平面内で位置を特定することが可能になる。
【0081】
本発明は、音声認識システムにおいて音声をモデル化するコンピュータ・システム1100の使用に関する。本発明のある実施例によると、音声認識システムにおける音声のモデル化が、プロセッサ1104がメイン・メモリ1106に含まれている1又は複数の命令の1又は複数のシーケンスを実行することに応答して、コンピュータ・システム1100によって提供される。これらの命令は、記憶装置1110などの他のコンピュータ可読な媒体からメイン・メモリ1106の中に読み出される。メイン・メモリ1106に含まれる命令のシーケンスを実行すると、プロセッサ1104がこの出願において説明されているプロセス・ステップを実行する。マルチ処理構成の1又は複数のプロセッサを用いて、メイン・メモリ1106に含まれる命令のシーケンスを実行することもできる。別の実施例では、ハードワイヤード回路を、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて用いることにより、本発明を実現することもできる。このように、本発明の実施例は、ハードウェア回路及びソフトウェアのどのような特定の組合せにも限定されることはない。
【0082】
ここで用いている「コンピュータ可読な媒体」という用語は、実行のために命令をプロセッサ1104に提供することに参加する任意の媒体を意味する。そのような媒体は、多くの形式をとることができ、限定を意味することはないが、例えば、不揮発性媒体、揮発性媒体、伝送媒体などが含まれる。不揮発性媒体には、例えば、記憶装置1110などの光又は磁気ディスクが含まれる。揮発性媒体は、メイン・メモリ1106のようなダイナミック・メモリを含む。伝送媒体には、同軸ケーブル、銅製ワイヤ、光ファイバなどが含まれ、バス1102を構成するワイヤも含まれる。また、伝送媒体は、無線波及び赤外線データ通信の間に生じる音波又は光波の形式をとる場合もある。
【0083】
コンピュータ可読な媒体の一般的な形式には、例えば、フロッピ・ディスク(登録商標)、フレキシブル・ディスク、ハードディスク、磁気テープ、又は任意のそれ以外の磁気媒体、CD−ROM、任意のそれ以外の光媒体、パンチカード、紙テープ、パターンを有するホールを備えた任意のそれ以外の物理媒体、RAM、PROM、EPROM、FLASH−EPROM、任意のそれ以外のメモリ・チップ又はカートリッジ、後述する搬送波、コンピュータが読むことができる任意のそれ以外の媒体が含まれる。
【0084】
1又は複数の命令の1又は複数のシーケンスを実行のためにプロセッサ1104に運ぶ際には、様々な形態のコンピュータ可読な媒体が関係する。例えば、命令を、最初は、リモート・コンピュータの磁気ディスク上に運ぶことができる。このリモート・コンピュータは、命令をそのダイナミック・メモリにロードし、その命令をモデムを用い電話回線を介して送ることができる。コンピュータ・システム1100の近くにあるモデムがこの電話回線上のデータを受信し、赤外線送信機を用いてデータを赤外線信号に変換することができる。バス1102に結合された赤外線検出器は、赤外線信号の中を運ばれるデータを受信して、そのデータをバス1102の上に置くことができる。バス1102は、データをメイン・メモリ1106まで運び、メイン・メモリからプロセッサ1104が命令を検索してそれを実行する。オプションであるが、メイン・メモリ1106によって受信された命令は、プロセッサ1104によって実行される前又は後に記憶装置1110上に記憶されることがある。
【0085】
コンピュータ・システム1100は、また、バス1102に結合された通信インターフェース1118を含む。通信インターフェース1118は、ローカル・ネットワーク1122に接続されたネットワーク・リンク1120への双方向のデータ通信を与える。例えば、通信インターフェース1118は、対応するタイプの電話回線へのデータ通信接続を提供するISDNカード又はモデムでありうる。別の例としては、通信インターフェース1118は、互換性を有するLANへのデータ通信接続を提供するローカル・エリア・ネットワーク(LAN)カードでありうる。無線リンクを実現することも可能である。そのような実現例では、通信インターフェース1118は、様々なタイプの情報を表すデジタル・データ・ストリームを運ぶ電気、電磁気又は光信号を送受信する。
【0086】
ネットワーク・リンク1120は、一般的には、1又は複数のネットワークを介して他のデータ装置に至るデータ通信を提供する。例えば、ネットワーク・リンク1120は、ローカル・ネットワーク1122を介してインターネット・サービス・プロバイダ(ISP)1126によって管理されているホスト・コンピュータ1124又はデータ装置に至る接続を提供する。ISP1126は、現在では「インターネット」1128と一般的に称されている全世界的なパケット・データ通信ネットワークを介するデータ通信サービスを提供する。ローカル・ネットワーク1122とインターネット1128とは、共に、デジタル・データ・ストリームを運ぶ電気、電磁気又は光信号を用いる。コンピュータ・システム1100との間でデジタル・データを運ぶ様々なネットワークを介する信号とネットワーク・リンク1120上及び通信インターフェース1118を介する信号とは、情報を運ぶ搬送波の例示的な形態である。
【0087】
コンピュータ・システム1100は、ネットワーク、ネットワーク・リンク1120及び通信インターフェース1118を介して、プログラム・コードを含むデータを送受信することができる。インターネットの例では、サーバ1130が、インターネット1128、ISP1126、ローカル・ネットワーク1122及び通信インターフェース1118を介して、アプリケーション・プログラムのために要求されたコードを送信する。本発明によると、そのようにしてダウンロードされたアプリケーションが、この出願において説明されている音声認識システムにおける音声のモデル化を提供する。
【0088】
受信されたコードは、受信された時点でプロセッサ1104によって実行されることがあるし、後で実行するために記憶装置1110やそれ以外の不揮発性記憶装置に記憶されることもありうる。このようにして、コンピュータ・システム1100は、搬送波の形態でアプリケーション・コードを取得することもできる。
【0089】
この出願において説明されている音声認識システムにおいて音声をモデル化するための分割アプローチは、従来のアプローチと比較していくつかの効果を有している。特に、セプストラル係数値の変化、発話エネルギの変化、音声分類の変化、広いカテゴリ分析(反転音、後舌母音、前母音)及び自鳴音開始検出に基づく候補境界の決定により、音声単位の境界が正確に検出される。候補境界のフィルタリングにより候補セグメントの数を減少させ、それによって、候補セグメントを処理するのに必要な計算資源の量を削減することができる。無交差領域を用いて候補セグメントをフィルタリングすることにより、最終的なセグメントを選択するのに要する計算資源の量を削減できる。このようにして、この出願において説明されているアプローチは、計算資源の量を削減しながら、比較的高レベルの音声単位検出の正確性を提供することができる。
【0090】
以上では、特定の実施例について説明を行った。しかし、本発明のより広い精神及び範囲から逸脱することなく、様々な修正及び変更が可能であるのは明らかであろう。従って、この出願の明細書及び図面は、限定的ではなく例示的な意味をゆうするものと考えられるべきである。
【図面の簡単な説明】
【図1】 ある実施例による音声認識システムにおいて音声をモデル化するセグメンタのブロック図である。
【図2】 ある実施例に従って音声をモデル化するアプローチの流れ図である。
【図3】 発話データの10のフレーム(F1からF10まで)のブロック図である。
【図4】 ある実施例に従いセプストラル係数を用いてフレームにおける境界を識別するアプローチの流れ図である。
【図5】 ある実施例に従い音声の差異を用いてフレームにおける境界を識別するアプローチの流れ図である。
【図6】 図6A及び図6Bで構成される。図6Aは、ある実施例に従い境界を検出するのに用いられる広い音声カテゴリの3つのタイプの発話波形、スペクトラグラム及び確率を図解している。図6Bは、ある実施例に従い自鳴音開始の検出を処置するアプローチを図解する流れ図である。
【図7】 図7A及び図7Bで構成される。図7Aは、ある実施例に従い優先順位及び近接度によって候補境界をフィルタリングするアプローチを図解する流れ図である。図7Bは、ある実施例に従い沈黙領域に含まれる候補境界をフィルタリングするアプローチを図解する流れ図750である。
【図8】 ある実施例に従いエネルギ・アップ型の無交差領域を識別するアプローチを図解する流れ図である。
【図9】 ある実施例に従いディップ型の無交差領域を識別するアプローチを図解する流れ図である。
【図10】 ある実施例に従い最終セグメントを選択するアプローチを図解している。
【図11】 実施例を実現しうるコンピュータ・システムのブロック図である。
Claims (45)
- 一連の発話データから音声単位の集合を自動的に決定する方法であって、
前記一連の発話データを受け取るステップと、
候補音声単位の第1の集合を前記一連の発話データから決定するステップと、
無交差領域の集合を前記一連の発話データから決定するステップであって、前記無交差領域は、音声単位の間の境界を含む確率が高い発話データの時間スパンに対応する、ステップと、
候補音声単位の前記第1の集合をフィルタリングして候補音声単位の部分集合を発生するステップであって、このフィルタリングにより、前記候補音声単位が分析され、前記部分集合が無交差領域をスパンした候補音声単位を含まなくなるように前記候補音声単位が前記発話データに対する無交差領域をスパンしているかどうかが判断される、ステップと、
を含むことを特徴とする方法。 - 請求項1記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたセプストラル変化測度におけるピークを識別するステップを含むことを特徴とする方法。
- 請求項1記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたエネルギ変化測度におけるピークを識別するステップを含むことを特徴とする方法。
- 請求項1記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化された音声分類測度におけるピークを識別するステップを含むことを特徴とする方法。
- 請求項1記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、ある広い音声カテゴリに属する確率が高い領域の存在を識別するステップと、エッジにおいて境界を追加するステップとを含むことを特徴とする方法。
- 請求項1記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、自鳴音の開始を検出するステップと、可能性のある表明された停止の原因となる追加的な境界を追加するステップとを含むことを特徴とする方法。
- 請求項1記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、より高い優先順位を有する少なくとも1つの他の境界への特定された近接度の範囲内にある1又は複数の境界を放棄するステップを含むことを特徴とする方法。
- 請求項1記載の方法において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、沈黙領域に含まれていると判断される1又は複数の境界を放棄するステップを含むことを特徴とする方法。
- 請求項1記載の方法において、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、1又は複数の無交差領域の前記集合からの少なくとも1つの無交差領域を完全にスパンする1又は複数の候補音声単位を候補音声単位の前記集合から放棄するステップを含むことを特徴とする方法。
- 請求項9記載の方法において、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、前記一連の発話データによって定義される1又は複数の無交差領域の集合を識別するステップを含み、1又は複数の無交差領域の集合を識別するステップは、特定された無交差領域基準を満たす発話エネルギの変化を識別するステップを含むことを特徴とする方法。
- 請求項10記載の方法において、前記特定された無交差領域基準は発話エネルギの最小の増加を含み、1又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の増加を超える発話エネルギの増加を識別するステップを含むことを特徴とする方法。
- 請求項11記載の方法において、前記特定された無交差領域基準は発話エネルギの最小の減少を含み、1又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の減少を超える発話エネルギの減少を識別するステップを含むことを特徴とする方法。
- 請求項11記載の方法において、前記特定された無交差領域基準はディップ無交差領域基準を含み、1又は複数の無交差領域の集合を識別するステップは前記ディップ無交差領域基準を満たすエネルギのディップを用いて発話データの領域を識別するステップを含むことを特徴とする方法。
- 請求項11記載の方法において、前記特定された無交差領域基準は広いカテゴリ変化無交差領域基準を含み、1又は複数の無交差領域の集合を識別するステップは広い音声分類が前記広いカテゴリ無交差領域基準を満たすのに十分な程変化した発話データの領域を識別するステップを含むことを特徴とする方法。
- 請求項1記載の方法において、フィルタリングされた候補音声単位の前記集合から音声単位の前記集合を選択する前記ステップは、端部における境界の相対的に最高の確率と前記ユニットに対して内部的な境界の相対的に最低の確率とを有するN個の音声単位の集合を選択するステップを含むことを特徴とする方法。
- 一連の発話データから音声単位の集合を自動的に決定する1若しくは複数のシーケンス又は1若しくは複数の命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体であって、前記1若しくは複数のシーケンス又は1若しくは複数の命令は、1又は複数のプロセッサによって実行されると、前記1又は複数のプロセッサに、
前記一連の発話データを受け取るステップと、
候補音声単位の第1の集合を前記一連の発話データから決定するステップと、
無交差領域の集合を前記一連の発話データから決定するステップであって、前記無交差領域は、音声単位の間の境界を含む確率が高い発話データの時間スパンに対応する、ステップと、
候補音声単位の前記第1の集合をフィルタリングして候補音声単位の部分集合を発生するステップであって、このフィルタリングにより、前記候補音声単位が分析され、前記部分集合が無交差領域をスパンした候補音声単位を含まなくなるように前記候補音声単位が前記発話データに対する無交差領域をスパンしているかどうかが判断される、ステップと、
を実行させる命令を含むことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項16記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたセプストラル変化測度におけるピークを識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項16記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたエネルギ変化測度におけるピークを識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項16記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化された音声分類測度におけるピークを識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項16記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、ある広い音声カテゴリに属する確率が高い領域の存在を識別するステップと、エッジにおいて境界を追加するステップとを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項16記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、自鳴音の開始を検出するステップと、可能性のある表明された停止の原因となる追加的な境界を追加するステップとを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項16記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、より高い優先順位を有する少なくとも1つの他の境界への特定された近接度の範囲内にある1又は複数の境界を放棄するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項16記載のコンピュータ読み取り可能な記録媒体において、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、沈黙領域に含まれていると判断される1又は複数の境界を放棄するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項16記載のコンピュータ読み取り可能な記録媒体において、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、1又は複数の無交差領域の前記集合からの少なくとも1つの無交差領域を完全にスパンする1又は複数の候補音声単位を候補音声単位の前記集合から放棄するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項24記載のコンピュータ読み取り可能な記録媒体において、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、前記一連の発話データによって定義される1又は複数の無交差領域の集合を識別するステップを含み、1又は複数の無交差領域の集合を識別するステップは、特定された無交差領域基準を満たす発話エネルギの変化を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項25記載のコンピュータ読み取り可能な記録媒体において、前記特定された無交差領域基準は発話エネルギの最小の増加を含み、1又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の増加を超える発話エネルギの増加を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項26記載のコンピュータ読み取り可能な記録媒体において、前記特定された無交差領域基準は発話エネルギの最小の減少を含み、1又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の減少を超える発話エネルギの減少を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項26記載のコンピュータ読み取り可能な記録媒体において、前記特定された無交差領域基準はディップ無交差領域基準を含み、1又は複数の無交差領域の集合を識別するステップは前記ディップ無交差領域基準を満たすエネルギのディップを用いて発話データの領域を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項26記載のコンピュータ読み取り可能な記録媒体において、前記特定された無交差領域基準は広いカテゴリ変化無交差領域基準を含み、1又は複数の無交差領域の集合を識別するステップは広い音声分類が前記広いカテゴリ無交差領域基準を満たすのに十分な程変化した発話データの領域を識別するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 請求項16記載のコンピュータ読み取り可能な記録媒体において、フィルタリングされた候補音声単位の前記集合から音声単位の前記集合を選択する前記ステップは、端部における境界の相対的に最高の確率と前記ユニットに対して内部的な境界の相対的に最低の確率とを有するN個の音声単位の集合を選択するステップを含むことを特徴とするコンピュータ読み取り可能な記録媒体。
- 一連の発話データから音声単位の集合を自動的に決定する音声認識システムであって、
1又は複数のプロセッサと、
前記1又は複数のプロセッサに通信的に結合されたメモリと、
を備えており、前記メモリは、1若しくは複数のシーケンス又は1若しくは複数の命令を含み、前記1若しくは複数のシーケンス又は1若しくは複数の命令は、前記1又は複数のプロセッサによって実行されると、前記1又は複数のプロセッサに、
前記一連の発話データを受け取るステップと、
候補音声単位の第1の集合を前記一連の発話データから決定するステップと、
無交差領域の集合を前記一連の発話データから決定するステップであって、前記無交差領域は、音声単位の間の境界を含む確率が高い発話データの時間スパンに対応する、ステップと、
候補音声単位の前記第1の集合をフィルタリングして候補音声単位の部分集合を発生するステップであって、このフィルタリングにより、前記候補音声単位が分析され、前記部分集合が無交差領域をスパンした候補音声単位を含まなくなるように前記候補音声単位が前記発話データに対する無交差領域をスパンしているかどうかが判断される、ステップと、
を実行させることを特徴とする音声認識システム。 - 請求項31記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたセプストラル変化測度におけるピークを識別するステップを含むことを特徴とする音声認識システム。
- 請求項31記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化されたエネルギ変化測度におけるピークを識別するステップを含むことを特徴とする音声認識システム。
- 請求項31記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、平滑化された音声分類測度におけるピークを識別するステップを含むことを特徴とする音声認識システム。
- 請求項31記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、ある広い音声カテゴリに属する確率が高い領域の存在を識別するステップと、エッジにおいて境界を追加するステップとを含むことを特徴とする音声認識システム。
- 請求項31記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、自鳴音の開始を検出するステップと、可能性のある表明された停止の原因となる追加的な境界を追加するステップとを含むことを特徴とする音声認識システム。
- 請求項31記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、より高い優先順位を有する少なくとも1つの他の境界への特定された近接度の範囲内にある1又は複数の境界を放棄するステップを含むことを特徴とする音声認識システム。
- 請求項31記載の音声認識システムにおいて、候補音声単位の集合を前記一連の発話データから決定する前記ステップは、沈黙領域に含まれていると判断される1又は複数の境界を放棄するステップを含むことを特徴とする音声認識システム。
- 請求項31記載の音声認識システムにおいて、無交差領域分析を用いて候補音声単位の前記集合をフィルタリングする前記ステップは、前記一連の発話データによって定義される1又は複数の無交差領域の集合を識別するステップと、1又は複数の無交差領域の前記集合からの少なくとも1つの無交差領域を完全にスパンする1又は複数の候補音声単位を候補音声単位の前記集合から放棄するステップを含むことを特徴とする音声認識システム。
- 請求項39記載の音声認識システムにおいて、1又は複数の無交差領域の集合を識別するステップは、特定された無交差領域基準を満たす発話エネルギの変化を識別するステップを含むことを特徴とする音声認識システム。
- 請求項40記載の音声認識システムにおいて、前記特定された無交差領域基準は発話エネルギの最小の増加を含み、1又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の増加を超える発話エネルギの増加を識別するステップを含むことを特徴とする音声認識システム。
- 請求項41記載の音声認識システムにおいて、前記特定された無交差領域基準は発話エネルギの最小の減少を含み、1又は複数の無交差領域の集合を識別するステップは発話エネルギの前記最小の減少を超える発話エネルギの減少を識別するステップを含むことを特徴とする音声認識システム。
- 請求項41記載の音声認識システムにおいて、前記特定された無交差領域基準はディップ無交差領域基準を含み、1又は複数の無交差領域の集合を識別するステップは前記ディップ無交差領域基準を満たすエネルギのディップを用いて発話データの領域を識別するステップを含むことを特徴とする音声認識システム。
- 請求項41記載の音声認識システムにおいて、前記特定された無交差領域基準は広いカテゴリ変化無交差領域基準を含み、1又は複数の無交差領域の集合を識別するステップは広い音声分類が前記広いカテゴリ無交差領域基準を満たすのに十分な程変化した発話データの領域を識別するステップを含むことを特徴とする音声認識システム。
- 請求項31記載の音声認識システムにおいて、フィルタリングされた候補音声単位の前記集合から音声単位の前記集合を選択する前記ステップは、端部における境界の相対的に最高の確率と前記ユニットに対して内部的な境界の相対的に最低の確率とを有するN個の音声単位の集合を選択するステップを含むことを特徴とする音声認識システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/534,707 US6535851B1 (en) | 2000-03-24 | 2000-03-24 | Segmentation approach for speech recognition systems |
US09/534,707 | 2000-03-24 | ||
PCT/US2001/009422 WO2001073754A1 (en) | 2000-03-24 | 2001-03-23 | Segmentation approach for speech recognition systems |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003529106A JP2003529106A (ja) | 2003-09-30 |
JP4738697B2 true JP4738697B2 (ja) | 2011-08-03 |
Family
ID=24131188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001571391A Expired - Fee Related JP4738697B2 (ja) | 2000-03-24 | 2001-03-23 | 音声認識システムのための分割アプローチ |
Country Status (7)
Country | Link |
---|---|
US (1) | US6535851B1 (ja) |
EP (1) | EP1269463A1 (ja) |
JP (1) | JP4738697B2 (ja) |
AU (1) | AU2001245967A1 (ja) |
CA (1) | CA2404306A1 (ja) |
TW (1) | TW502249B (ja) |
WO (1) | WO2001073754A1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6801938B1 (en) * | 1999-06-18 | 2004-10-05 | Torrent Systems, Inc. | Segmentation and processing of continuous data streams using transactional semantics |
US6959278B1 (en) * | 2001-04-05 | 2005-10-25 | Verizon Corporate Services Group Inc. | Systems and methods for implementing segmentation in speech recognition systems |
US7027983B2 (en) * | 2001-12-31 | 2006-04-11 | Nellymoser, Inc. | System and method for generating an identification signal for electronic devices |
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
TW556152B (en) * | 2002-05-29 | 2003-10-01 | Labs Inc L | Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods |
WO2004040586A1 (en) * | 2002-10-28 | 2004-05-13 | Sandisk Corporation | Automated wear leveling in non-volatile storage systems |
TWI220511B (en) * | 2003-09-12 | 2004-08-21 | Ind Tech Res Inst | An automatic speech segmentation and verification system and its method |
US7379875B2 (en) * | 2003-10-24 | 2008-05-27 | Microsoft Corporation | Systems and methods for generating audio thumbnails |
US7644050B2 (en) * | 2004-12-02 | 2010-01-05 | International Business Machines Corporation | Method and apparatus for annotation-based behavior extensions |
FI20041541A (fi) * | 2004-11-30 | 2006-05-31 | Teknillinen Korkeakoulu | Menetelmä puheen automaattiseksi segmentoimiseksi |
US7634405B2 (en) * | 2005-01-24 | 2009-12-15 | Microsoft Corporation | Palette-based classifying and synthesizing of auditory information |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
KR100717393B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치 |
GB2451907B (en) * | 2007-08-17 | 2010-11-03 | Fluency Voice Technology Ltd | Device for modifying and improving the behaviour of speech recognition systems |
US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
US8536976B2 (en) * | 2008-06-11 | 2013-09-17 | Veritrix, Inc. | Single-channel multi-factor authentication |
US8166297B2 (en) | 2008-07-02 | 2012-04-24 | Veritrix, Inc. | Systems and methods for controlling access to encrypted data stored on a mobile device |
WO2010051342A1 (en) * | 2008-11-03 | 2010-05-06 | Veritrix, Inc. | User authentication for social networks |
US20100145677A1 (en) * | 2008-12-04 | 2010-06-10 | Adacel Systems, Inc. | System and Method for Making a User Dependent Language Model |
KR20140026229A (ko) | 2010-04-22 | 2014-03-05 | 퀄컴 인코포레이티드 | 음성 액티비티 검출 |
JP5498252B2 (ja) * | 2010-05-17 | 2014-05-21 | 日本電信電話株式会社 | 音声データ区分方法、音声データ区分装置、及びプログラム |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
WO2013149188A1 (en) * | 2012-03-29 | 2013-10-03 | Smule, Inc. | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm |
US9646613B2 (en) * | 2013-11-29 | 2017-05-09 | Daon Holdings Limited | Methods and systems for splitting a digital signal |
US10559303B2 (en) * | 2015-05-26 | 2020-02-11 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US9666192B2 (en) * | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US20170294185A1 (en) * | 2016-04-08 | 2017-10-12 | Knuedge Incorporated | Segmentation using prior distributions |
KR20210050087A (ko) * | 2019-10-28 | 2021-05-07 | 삼성에스디에스 주식회사 | 신뢰도 측정 방법 및 장치 |
US11138979B1 (en) * | 2020-03-18 | 2021-10-05 | Sas Institute Inc. | Speech audio pre-processing segmentation |
WO2022198474A1 (en) | 2021-03-24 | 2022-09-29 | Sas Institute Inc. | Speech-to-analytics framework with support for large n-gram corpora |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
US5913188A (en) * | 1994-09-26 | 1999-06-15 | Canon Kabushiki Kaisha | Apparatus and method for determining articulatory-orperation speech parameters |
JP2000047683A (ja) * | 1998-07-30 | 2000-02-18 | Matsushita Electric Ind Co Ltd | セグメンテーション補助装置及び媒体 |
JP2000075893A (ja) * | 1998-08-31 | 2000-03-14 | Olympus Optical Co Ltd | 音声認識装置 |
JP2000214880A (ja) * | 1999-01-20 | 2000-08-04 | Sony Internatl Europ Gmbh | 音声認識方法及び音声認識装置 |
JP2000259176A (ja) * | 1999-03-08 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1261472A (en) * | 1985-09-26 | 1989-09-26 | Yoshinao Shiraki | Reference speech pattern generating method |
JP3091537B2 (ja) * | 1991-10-01 | 2000-09-25 | 三洋電機株式会社 | 音声パターン作成方法 |
JP2924555B2 (ja) | 1992-10-02 | 1999-07-26 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
JPH06337692A (ja) * | 1993-05-27 | 1994-12-06 | Nippondenso Co Ltd | 音声セグメンテーション方法 |
JPH0713587A (ja) * | 1993-06-25 | 1995-01-17 | Nippon Telegr & Teleph Corp <Ntt> | 隠れマルコフモデル連結学習方法 |
JP3533696B2 (ja) | 1994-03-22 | 2004-05-31 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
JP3403838B2 (ja) * | 1994-10-28 | 2003-05-06 | 三菱電機株式会社 | 句境界確率計算装置および句境界確率利用連続音声認識装置 |
US5638487A (en) * | 1994-12-30 | 1997-06-10 | Purespeech, Inc. | Automatic speech recognition |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5862519A (en) * | 1996-04-02 | 1999-01-19 | T-Netix, Inc. | Blind clustering of data with application to speech processing systems |
JP3171107B2 (ja) * | 1996-04-26 | 2001-05-28 | 日本電気株式会社 | 音声認識装置 |
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
JP3414637B2 (ja) * | 1998-03-13 | 2003-06-09 | 日本電信電話株式会社 | 調音パラメータ時系列抽出音声分析方法、その装置およびプログラム記録媒体 |
-
2000
- 2000-03-24 US US09/534,707 patent/US6535851B1/en not_active Expired - Lifetime
-
2001
- 2001-03-23 JP JP2001571391A patent/JP4738697B2/ja not_active Expired - Fee Related
- 2001-03-23 AU AU2001245967A patent/AU2001245967A1/en not_active Abandoned
- 2001-03-23 WO PCT/US2001/009422 patent/WO2001073754A1/en not_active Application Discontinuation
- 2001-03-23 EP EP01918953A patent/EP1269463A1/en not_active Withdrawn
- 2001-03-23 CA CA002404306A patent/CA2404306A1/en not_active Abandoned
- 2001-03-26 TW TW090107112A patent/TW502249B/zh not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
US5913188A (en) * | 1994-09-26 | 1999-06-15 | Canon Kabushiki Kaisha | Apparatus and method for determining articulatory-orperation speech parameters |
JP2000047683A (ja) * | 1998-07-30 | 2000-02-18 | Matsushita Electric Ind Co Ltd | セグメンテーション補助装置及び媒体 |
JP2000075893A (ja) * | 1998-08-31 | 2000-03-14 | Olympus Optical Co Ltd | 音声認識装置 |
JP2000214880A (ja) * | 1999-01-20 | 2000-08-04 | Sony Internatl Europ Gmbh | 音声認識方法及び音声認識装置 |
JP2000259176A (ja) * | 1999-03-08 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
EP1269463A1 (en) | 2003-01-02 |
AU2001245967A1 (en) | 2001-10-08 |
US6535851B1 (en) | 2003-03-18 |
WO2001073754A1 (en) | 2001-10-04 |
CA2404306A1 (en) | 2001-10-04 |
TW502249B (en) | 2002-09-11 |
JP2003529106A (ja) | 2003-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4738697B2 (ja) | 音声認識システムのための分割アプローチ | |
KR101942521B1 (ko) | 음성 엔드포인팅 | |
US8311813B2 (en) | Voice activity detection system and method | |
US8380502B1 (en) | Voice interface for a search engine | |
US9251789B2 (en) | Speech-recognition system, storage medium, and method of speech recognition | |
US6405168B1 (en) | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection | |
US6195634B1 (en) | Selection of decoys for non-vocabulary utterances rejection | |
EP0831456B1 (en) | Speech recognition method and apparatus therefor | |
US20100161330A1 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US20030200086A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP2002507010A (ja) | 同時に起こるマルチモード口述のための装置及び方法 | |
US20030200090A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
EP1023718B1 (en) | Pattern recognition using multiple reference models | |
EP1096475B1 (en) | Frequency warping for speech recognition | |
CN114155839A (zh) | 一种语音端点检测方法、装置、设备及存储介质 | |
JP5183120B2 (ja) | 平方根ディスカウンティングを使用した統計的言語による音声認識 | |
JP3069531B2 (ja) | 音声認識方法 | |
WO1997040491A1 (en) | Method and recognizer for recognizing tonal acoustic sound signals | |
JPH11184491A (ja) | 音声認識装置 | |
JPH0222960B2 (ja) | ||
JPS60114900A (ja) | 有音・無音判定法 | |
US11024302B2 (en) | Quality feedback on user-recorded keywords for automatic speech recognition systems | |
EP1488410B1 (en) | Distortion measure determination in speech recognition | |
Monte et al. | Text independent speaker identification on noisy environments by means of self organizing maps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101008 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110107 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110331 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110427 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |