JPH10105187A - クラスタ構成をベースとする信号セグメント化方法 - Google Patents
クラスタ構成をベースとする信号セグメント化方法Info
- Publication number
- JPH10105187A JPH10105187A JP9253408A JP25340897A JPH10105187A JP H10105187 A JPH10105187 A JP H10105187A JP 9253408 A JP9253408 A JP 9253408A JP 25340897 A JP25340897 A JP 25340897A JP H10105187 A JPH10105187 A JP H10105187A
- Authority
- JP
- Japan
- Prior art keywords
- samples
- adjacent
- distance
- signal
- sample sets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 17
- 239000013598 vector Substances 0.000 description 17
- 238000012545 processing Methods 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 9
- 238000004581 coalescence Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000003657 Likelihood-ratio test Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101150115013 DSP1 gene Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】
【課題】 連続する信号を直接的にセグメント化するた
めのコンピュータ化された方法を提供する。 【解決手段】 連続する信号は、その統計学的不変単位
を決定するようにセグメント化される。連続する信号
は、周期的な間隔でサンプリングされ、タイミングどり
された一連のデジタルサンプルが形成される。一定数の
隣接するデジタルサンプルが複数の個別の組即ちフレー
ムにグループ分けされる。隣接フレーム間の統計学的な
距離が決定される。その統計学的な距離が所定のスレッ
シュホールドより小さい場合には、隣接する組が、より
大きなサンプル組即ちクラスターへと合体される。繰り
返しプロセスにおいて、隣接する組の間の統計学的な距
離が決定され、そしてその距離が所定のスレッシュホー
ルドより小さい限り、その組が繰り返し合体されて、信
号が統計学的不変単位へとセグメント化される。
めのコンピュータ化された方法を提供する。 【解決手段】 連続する信号は、その統計学的不変単位
を決定するようにセグメント化される。連続する信号
は、周期的な間隔でサンプリングされ、タイミングどり
された一連のデジタルサンプルが形成される。一定数の
隣接するデジタルサンプルが複数の個別の組即ちフレー
ムにグループ分けされる。隣接フレーム間の統計学的な
距離が決定される。その統計学的な距離が所定のスレッ
シュホールドより小さい場合には、隣接する組が、より
大きなサンプル組即ちクラスターへと合体される。繰り
返しプロセスにおいて、隣接する組の間の統計学的な距
離が決定され、そしてその距離が所定のスレッシュホー
ルドより小さい限り、その組が繰り返し合体されて、信
号が統計学的不変単位へとセグメント化される。
Description
【0001】
【発明の属する技術分野】本発明は一般に信号処理に係
り、より詳細には、連続する信号をセグメント化する方
法に係る。
り、より詳細には、連続する信号をセグメント化する方
法に係る。
【0002】
【従来の技術】連続する信号において統計学的に不変の
単位を正確に識別すると、信号を処理する間の計算コス
トを実質的に減少することができる。統計学的に不変の
単位とは、統計学的に同様に記述できる特性を有する連
続信号の個別部分である。
単位を正確に識別すると、信号を処理する間の計算コス
トを実質的に減少することができる。統計学的に不変の
単位とは、統計学的に同様に記述できる特性を有する連
続信号の個別部分である。
【0003】不変な単位を識別するには、セグメントの
境界の位置が必要となる。セグメントの境界が正しく仮
定される場合には、単位に関連した情報を相関するのに
必要な努力が著しく低減される。セグメント化は、信号
の基礎的な内容に関する事前の知識があまりない場合に
は特に困難である。
境界の位置が必要となる。セグメントの境界が正しく仮
定される場合には、単位に関連した情報を相関するのに
必要な努力が著しく低減される。セグメント化は、信号
の基礎的な内容に関する事前の知識があまりない場合に
は特に困難である。
【0004】例えば、スピーチ認識システムでは、何が
話されたか決定するために連続信号が処理される。信号
を統計学的に不変な単位にセグメント化することは、セ
グメントベースのスピーチ処理システムにおいて重要な
サブプロセスである。セグメント化は、言語学的エレメ
ントにおそらく対応する信号の部分の考えられる境界を
識別する。統計学的に不変な単位を正確に識別すること
は、計算コストの著しい減少に通じる。セグメント境界
が正しく仮定される場合には、対応する言語学的エレメ
ントのデータベースをサーチする時間が相当に減少され
る。信号の内容に関する事前の知識があまりない場合に
は、セグメント化が特に困難である。
話されたか決定するために連続信号が処理される。信号
を統計学的に不変な単位にセグメント化することは、セ
グメントベースのスピーチ処理システムにおいて重要な
サブプロセスである。セグメント化は、言語学的エレメ
ントにおそらく対応する信号の部分の考えられる境界を
識別する。統計学的に不変な単位を正確に識別すること
は、計算コストの著しい減少に通じる。セグメント境界
が正しく仮定される場合には、対応する言語学的エレメ
ントのデータベースをサーチする時間が相当に減少され
る。信号の内容に関する事前の知識があまりない場合に
は、セグメント化が特に困難である。
【0005】ほとんどの信号処理システムは、連続的な
アナログ形態の信号を受け取る。アナログ信号は、通
常、一定の割合でサンプリングされて、コンピュータシ
ステムにより処理することのできる一連のデジタルサン
プルを形成する。
アナログ形態の信号を受け取る。アナログ信号は、通
常、一定の割合でサンプリングされて、コンピュータシ
ステムにより処理することのできる一連のデジタルサン
プルを形成する。
【0006】R.アンドレ・オブレッチ著の「連続スピ
ーチ信号の自動セグメント化(Automatic Segmentation
of Continuous Speech Signals) 」、プロシーディング
ズ・オブIEEE−IECEF−ASJインターナショ
ナル・コンファレンス・オン・アコースティック・スピ
ーチシグナル・プロセッシング、第3巻、第2275−
2278ページ、1986年4月に掲載された1つの公
知のセグメント化技術は、統計学的な解決策を使用し
て、連続信号のスペクトル変化を検出するものである。
この技術は、3つの固定ウインドウを用いて信号をサン
プルごとに処理する。
ーチ信号の自動セグメント化(Automatic Segmentation
of Continuous Speech Signals) 」、プロシーディング
ズ・オブIEEE−IECEF−ASJインターナショ
ナル・コンファレンス・オン・アコースティック・スピ
ーチシグナル・プロセッシング、第3巻、第2275−
2278ページ、1986年4月に掲載された1つの公
知のセグメント化技術は、統計学的な解決策を使用し
て、連続信号のスペクトル変化を検出するものである。
この技術は、3つの固定ウインドウを用いて信号をサン
プルごとに処理する。
【0007】第1のウインドウは、最後に検出された変
化の時間の後の最初のサンプルで開始して現在の測定で
終了する成長するウインドウである。従って、第1のウ
インドウは、最後に検出された変化の後の全ての測定を
含む。第2のウインドウは、最後に検出された変化の時
間の後の最初のサンプルで開始して、現在測定よりも一
定のL個のサンプルだけ前に終了する。従って、第2の
ウインドウは、最後のL個のサンプルを除く全てのサン
プルに対し第1のウインドウにオーバーラップする。第
3のウインドウは、第2のウインドウの後に開始し、現
在の測定で終了する。従って、第2のウインドウは、第
3のウインドウと組み合わされて、オーバーラップを伴
わない第1のウインドウに含まれる全ての測定を含む。
化の時間の後の最初のサンプルで開始して現在の測定で
終了する成長するウインドウである。従って、第1のウ
インドウは、最後に検出された変化の後の全ての測定を
含む。第2のウインドウは、最後に検出された変化の時
間の後の最初のサンプルで開始して、現在測定よりも一
定のL個のサンプルだけ前に終了する。従って、第2の
ウインドウは、最後のL個のサンプルを除く全てのサン
プルに対し第1のウインドウにオーバーラップする。第
3のウインドウは、第2のウインドウの後に開始し、現
在の測定で終了する。従って、第2のウインドウは、第
3のウインドウと組み合わされて、オーバーラップを伴
わない第1のウインドウに含まれる全ての測定を含む。
【0008】上記技術は、これら3つのウインドウを使
用して、ウインドウ内のサンプルに対する逐次の見込み
比のテストを計算する。最後に検出された変化以来の全
ての測定が1つの統計学的単位に属する見込みは、第1
のウインドウを用いて計算される。この見込みは、現在
の測定より過去に変化を生じるL個のサンプルを伴う2
つの統計学的単位に測定が属する見込みと比較される。
見込み比のテストにおいては、第1のウインドウは、サ
ンプルに変化がないナル仮定をエンコードし、一方、第
2及び第3のウインドウは、変化の仮定をエンコードす
る。
用して、ウインドウ内のサンプルに対する逐次の見込み
比のテストを計算する。最後に検出された変化以来の全
ての測定が1つの統計学的単位に属する見込みは、第1
のウインドウを用いて計算される。この見込みは、現在
の測定より過去に変化を生じるL個のサンプルを伴う2
つの統計学的単位に測定が属する見込みと比較される。
見込み比のテストにおいては、第1のウインドウは、サ
ンプルに変化がないナル仮定をエンコードし、一方、第
2及び第3のウインドウは、変化の仮定をエンコードす
る。
【0009】サンプルは、3つのウインドウの各々を前
進させることにより信号の時間的な順序で順次に処理さ
れる。その変形においては、信号のサンプルが時間的に
前後に処理され、それにより得られるセグメント境界が
合成されて、1つのセグメントが形成される。
進させることにより信号の時間的な順序で順次に処理さ
れる。その変形においては、信号のサンプルが時間的に
前後に処理され、それにより得られるセグメント境界が
合成されて、1つのセグメントが形成される。
【0010】別の変形においては、変化の仮定に対して
複数のウインドウを使用することができる。この場合
に、各ウインドウは、複数の長さLに対応する。この技
術の全ての変形は、個々のサンプルに対して直接作用す
るので計算量が甚だしくなる。更に、サンプルが時間的
順序で処理されるので、サンプルが特定のセグメントで
識別されると、サンプルは、再検査されない。この順次
の処理は、誤った境界を形成することがある。
複数のウインドウを使用することができる。この場合
に、各ウインドウは、複数の長さLに対応する。この技
術の全ての変形は、個々のサンプルに対して直接作用す
るので計算量が甚だしくなる。更に、サンプルが時間的
順序で処理されるので、サンプルが特定のセグメントで
識別されると、サンプルは、再検査されない。この順次
の処理は、誤った境界を形成することがある。
【0011】別のセグメント化解決策では、信号のサン
プルが、最初に、一連の固定長さのオーバーラップフレ
ームにグループ分けされる。これらのフレームは、次い
で、各フレームにウインドウベクトル、通常はハミング
ウインドウを適用して、サンプルベクトルを形成するこ
とにより、導出された観察ベクトルへと変換される。次
いで、各サンプルベクトルに高速フーリエ変換を適用
し、最終的に導出された観察ベクトルが形成される。フ
レームのオーバーラップにより、時間に伴う信号のスペ
クトル変化が実質的に平滑化される。この平滑化は、変
化の検出を困難なものにする。更に、ウインドウベクト
ルの適用は、周波数ドメインにおけるスペクトルの平滑
化も生じる。これも、スペクトル変化のサイズを減少す
る。
プルが、最初に、一連の固定長さのオーバーラップフレ
ームにグループ分けされる。これらのフレームは、次い
で、各フレームにウインドウベクトル、通常はハミング
ウインドウを適用して、サンプルベクトルを形成するこ
とにより、導出された観察ベクトルへと変換される。次
いで、各サンプルベクトルに高速フーリエ変換を適用
し、最終的に導出された観察ベクトルが形成される。フ
レームのオーバーラップにより、時間に伴う信号のスペ
クトル変化が実質的に平滑化される。この平滑化は、変
化の検出を困難なものにする。更に、ウインドウベクト
ルの適用は、周波数ドメインにおけるスペクトルの平滑
化も生じる。これも、スペクトル変化のサイズを減少す
る。
【0012】観察ベクトルのパラメータは、メル周波数
電力スペクトル係数(MFSC)又はメル周波数セプス
トラル係数(MFCC)であり、これは、P.マーメル
ステイン及びS.デービス著の「連続的に話されたセン
テンスを単音節ワード認識するためのパラメータ表示の
比較(Comparison of Parametric Representation forMo
nosyllabic Word Recognition in Continuously Spoken
Sentences)」、IEEE Trans ASSP、第
23巻、第1号、第67−72ページ、1975年2月
に説明されている。
電力スペクトル係数(MFSC)又はメル周波数セプス
トラル係数(MFCC)であり、これは、P.マーメル
ステイン及びS.デービス著の「連続的に話されたセン
テンスを単音節ワード認識するためのパラメータ表示の
比較(Comparison of Parametric Representation forMo
nosyllabic Word Recognition in Continuously Spoken
Sentences)」、IEEE Trans ASSP、第
23巻、第1号、第67−72ページ、1975年2月
に説明されている。
【0013】観察ベクトルは、ハイアラーキ式クラスタ
ー構成技術を用いて合成することができる。これについ
ては、例えば、J.R.グラス著の「スピーチにおける
音響規則性の発見、音声認識への適用(Finding Acousti
c Regularities in Speech,Applications to Phonetic
Recognition) 」、Ph.D論文、デパートメント・オ
ブ・エレクトリカル・エンジニアリング・アンド・コン
ピュータサイエンス、MIT、1988年5月を参照さ
れたい。この技術においては、ある類似性計測を用いて
次々の隣接ベクトルが合体される。例えば、この技術
は、隣接ベクトル間の「差」即ち距離を測定することが
できる。一対の隣接ベクトル間の距離が、ある所定のス
レッシュホールドより小さい場合には、それらのベクト
ルが合体されてクラスターを形成する。このように合体
されたクラスターに対し2つの隣接クラスター間の距離
がスレッシュホールドより大きくなるまでこのプロセス
が繰り返される。この点において、クラスターを言語学
的エレメントで識別することができる。
ー構成技術を用いて合成することができる。これについ
ては、例えば、J.R.グラス著の「スピーチにおける
音響規則性の発見、音声認識への適用(Finding Acousti
c Regularities in Speech,Applications to Phonetic
Recognition) 」、Ph.D論文、デパートメント・オ
ブ・エレクトリカル・エンジニアリング・アンド・コン
ピュータサイエンス、MIT、1988年5月を参照さ
れたい。この技術においては、ある類似性計測を用いて
次々の隣接ベクトルが合体される。例えば、この技術
は、隣接ベクトル間の「差」即ち距離を測定することが
できる。一対の隣接ベクトル間の距離が、ある所定のス
レッシュホールドより小さい場合には、それらのベクト
ルが合体されてクラスターを形成する。このように合体
されたクラスターに対し2つの隣接クラスター間の距離
がスレッシュホールドより大きくなるまでこのプロセス
が繰り返される。この点において、クラスターを言語学
的エレメントで識別することができる。
【0014】MFCCで表される観察ベクトルについて
は、差の測定値が正規化された距離となる。例えば、2
つの測定ベクトルx及びyの間の正規化された距離は、
次の数1の式で表される。
は、差の測定値が正規化された距離となる。例えば、2
つの測定ベクトルx及びyの間の正規化された距離は、
次の数1の式で表される。
【数1】
【0015】MFSCの対数間で重み付けされたユーク
リッド距離が測定される場合には、若干良好な結果を得
ることができる。この形式のクラスター構成に伴う問題
は、生のデジタルサンプルに存在するある情報が、導出
された観察ベクトルにおいて失われ、最適なセグメント
化の結果に到達しないことである。
リッド距離が測定される場合には、若干良好な結果を得
ることができる。この形式のクラスター構成に伴う問題
は、生のデジタルサンプルに存在するある情報が、導出
された観察ベクトルにおいて失われ、最適なセグメント
化の結果に到達しないことである。
【0016】
【発明が解決しようとする課題】そこで、オーバーラッ
プフレームを用いて信号を一連の導出された観察ベクト
ルへと最初に変換することなく連続的な信号を直接的に
セグメント化することが望まれる。更に、信号の内容に
ついて事前の知識をもたずに信号をセグメント化するこ
とも望まれる。加えて、トランスクリプション(転記)
エラー率が減少されるように信号をセグメント化するこ
とも望まれる。
プフレームを用いて信号を一連の導出された観察ベクト
ルへと最初に変換することなく連続的な信号を直接的に
セグメント化することが望まれる。更に、信号の内容に
ついて事前の知識をもたずに信号をセグメント化するこ
とも望まれる。加えて、トランスクリプション(転記)
エラー率が減少されるように信号をセグメント化するこ
とも望まれる。
【0017】
【課題を解決するための手段】本発明のコンピュータ化
された方法において、連続する信号は、その統計学的に
不変の単位を決定するためにセグメント化される。連続
する信号は、先ず、周期的な間隔でサンプリングされ、
タイミングどりされた一連のデジタルサンプルが形成さ
れる。固定数の隣接するデジタルサンプルが、複数の個
別の組のサンプルへとグループ分けされ、例えば、これ
らの組は、非オーバーラップフレームである。
された方法において、連続する信号は、その統計学的に
不変の単位を決定するためにセグメント化される。連続
する信号は、先ず、周期的な間隔でサンプリングされ、
タイミングどりされた一連のデジタルサンプルが形成さ
れる。固定数の隣接するデジタルサンプルが、複数の個
別の組のサンプルへとグループ分けされ、例えば、これ
らの組は、非オーバーラップフレームである。
【0018】次いで、隣接対の組即ちフレームのサンプ
ル間の統計学的な距離が決定され、1組の統計学的な距
離が形成される。隣接するサンプル組は、それらの間の
統計学的な距離が所定のスレッシュホールド値より小さ
い場合には、より大きなサンプル組即ちクラスターへと
合体される。
ル間の統計学的な距離が決定され、1組の統計学的な距
離が形成される。隣接するサンプル組は、それらの間の
統計学的な距離が所定のスレッシュホールド値より小さ
い場合には、より大きなサンプル組即ちクラスターへと
合体される。
【0019】測定及び合体プロセスは、隣接するサンプ
ル組の間の全ての統計学的距離が、少なくとも、信号を
統計学的に不変な単位にセグメント化するためのスレッ
シュホールド距離になるまで、繰り返し実行される。
ル組の間の全ての統計学的距離が、少なくとも、信号を
統計学的に不変な単位にセグメント化するためのスレッ
シュホールド距離になるまで、繰り返し実行される。
【0020】本発明は、その広い形態において、請求項
1に記載の連続する信号をセグメント化するためのコン
ピュータ化された方法に関する。本発明の好ましい実施
形態においては、フレームのサンプルが、統計学的に充
分な記述、例えば、積の加算技術により形成される自己
相関マトリクスによって表される。サンプルの隣接組の
マトリクスの加算は、生のサンプルを合体することと等
価である。
1に記載の連続する信号をセグメント化するためのコン
ピュータ化された方法に関する。本発明の好ましい実施
形態においては、フレームのサンプルが、統計学的に充
分な記述、例えば、積の加算技術により形成される自己
相関マトリクスによって表される。サンプルの隣接組の
マトリクスの加算は、生のサンプルを合体することと等
価である。
【0021】本発明の変形においては、連続する信号が
スピーチ信号であり、そして総計額的に不変の単位が言
語学的エレメントに関連される。
スピーチ信号であり、そして総計額的に不変の単位が言
語学的エレメントに関連される。
【0022】
【発明の実施の形態】本発明は、添付図面を参照した好
ましい実施形態の以下の詳細な説明から充分に理解され
よう。添付図面の図1は、本発明を用いた信号処理シス
テム100の1つの実施形態を示す。このシステム10
0は、互いに接続されたアナログ/デジタルコンバータ
(A/D)110と、デジタル信号プロセッサ(DS
P)120と、クラスタープロセッサ130と、発音プ
ロセッサ140と、語彙デコーダ150と、言語学的分
析器160とを備えている。又、システム100は、発
音、語彙及び言語学的情報を記憶するためのデータベー
ス(DB)190も備えている。
ましい実施形態の以下の詳細な説明から充分に理解され
よう。添付図面の図1は、本発明を用いた信号処理シス
テム100の1つの実施形態を示す。このシステム10
0は、互いに接続されたアナログ/デジタルコンバータ
(A/D)110と、デジタル信号プロセッサ(DS
P)120と、クラスタープロセッサ130と、発音プ
ロセッサ140と、語彙デコーダ150と、言語学的分
析器160とを備えている。又、システム100は、発
音、語彙及び言語学的情報を記憶するためのデータベー
ス(DB)190も備えている。
【0023】図2を参照して、システム100の一般的
な動作を説明する。A/Dコンバータ110は、ライン
109を経て連続する信号210、例えば、スピーチ信
号を受け取る。信号210は、A/Dコンバータ110
にローカル位置で接続されたマイクロホンから収集する
こともできるし、又は信号210は、遠隔位置のセンサ
から電話システム又はインターネットのような通信ネッ
トワークを経て受け取ることもできる。
な動作を説明する。A/Dコンバータ110は、ライン
109を経て連続する信号210、例えば、スピーチ信
号を受け取る。信号210は、A/Dコンバータ110
にローカル位置で接続されたマイクロホンから収集する
こともできるし、又は信号210は、遠隔位置のセンサ
から電話システム又はインターネットのような通信ネッ
トワークを経て受け取ることもできる。
【0024】A/Dコンバータ110は、例えば16K
Hzのサンプリングレートを用いて連続信号210を周
期的にサンプリングし、タイミングどりされた一連のデ
ジタル信号220をライン111に形成する。このサン
プリングレートは、5ミリ秒(ms)の間隔当たり80
個のデジタルサンプルを発生する。他のサンプリングレ
ートも使用できる。ネットワークを経て信号が受け取ら
れる場合には、既にデジタル形態にある。
Hzのサンプリングレートを用いて連続信号210を周
期的にサンプリングし、タイミングどりされた一連のデ
ジタル信号220をライン111に形成する。このサン
プリングレートは、5ミリ秒(ms)の間隔当たり80
個のデジタルサンプルを発生する。他のサンプリングレ
ートも使用できる。ネットワークを経て信号が受け取ら
れる場合には、既にデジタル形態にある。
【0025】DSP120は、固定数の一連のデジタル
サンプル220を、時間的に一連の個別の組のサンプ
ル、例えば、非オーバーラップフレーム230へと合成
する。各組のサンプル、例えば、フレーム231は、8
0個のサンプル220を含み、5msの分解能を与える
ことができる。この分解能は、信号の小さな変化を検出
するのにその後の処理時間をあまり長くすることなくそ
の処理中に確実な推定値を与えるに充分な長さである。
サンプル220を、時間的に一連の個別の組のサンプ
ル、例えば、非オーバーラップフレーム230へと合成
する。各組のサンプル、例えば、フレーム231は、8
0個のサンプル220を含み、5msの分解能を与える
ことができる。この分解能は、信号の小さな変化を検出
するのにその後の処理時間をあまり長くすることなくそ
の処理中に確実な推定値を与えるに充分な長さである。
【0026】本発明の好ましい実施形態では、各組即ち
フレームのサンプル(y)は、充分な統計学的記述、例
えば、自己相関マトリクス(I)で表される。自己相関
マトリクスにおいては、その組の隣接サンプルが積の加
算技術を用いて加算される。所与の数(L)の隣接サン
プルを表す自己相関マトリクスIは、次の数2の式で決
定することができる。
フレームのサンプル(y)は、充分な統計学的記述、例
えば、自己相関マトリクス(I)で表される。自己相関
マトリクスにおいては、その組の隣接サンプルが積の加
算技術を用いて加算される。所与の数(L)の隣接サン
プルを表す自己相関マトリクスIは、次の数2の式で決
定することができる。
【数2】 但し、i=0・・・q、j=0・・・qであり、Lは、
サンプルの数で、例えば5msの組即ちフレームに対し
て80であり、そして自己相関シフトの数qは、ほぼ7
ないし14の範囲である。
サンプルの数で、例えば5msの組即ちフレームに対し
て80であり、そして自己相関シフトの数qは、ほぼ7
ないし14の範囲である。
【0027】次いで、一連の繰り返し段階において、サ
ンプルの隣接組230の対間の距離が決定される。隣接
組のサンプルが合体され、より大きな組のサンプル即ち
クラスター240が形成される。例えば、クラスター2
42は、フレーム231及び232に取って代わり、そ
して更に別の繰り返しの間に、クラスター243は、ク
ラスター241及び242に取って代わる。この動作
は、サンプルの2つの隣接組の間の距離が、少なくと
も、最終組のサンプル、例えば、クラスターCK 250
を形成するためのスレッシュホールド値Tになるまで、
繰り返される。例えば、最終クラスター251は、クラ
スターCi-1 ないしCi+2 の組合せである。
ンプルの隣接組230の対間の距離が決定される。隣接
組のサンプルが合体され、より大きな組のサンプル即ち
クラスター240が形成される。例えば、クラスター2
42は、フレーム231及び232に取って代わり、そ
して更に別の繰り返しの間に、クラスター243は、ク
ラスター241及び242に取って代わる。この動作
は、サンプルの2つの隣接組の間の距離が、少なくと
も、最終組のサンプル、例えば、クラスターCK 250
を形成するためのスレッシュホールド値Tになるまで、
繰り返される。例えば、最終クラスター251は、クラ
スターCi-1 ないしCi+2 の組合せである。
【0028】クラスタープロセッサ130では、以下に
詳細に述べるように、隣接する組、即ちフレーム230
が、サンプルの隣接組間の差、即ち統計学的「距離」の
測定に基づいて、より大きな個別の組へと合体される。
これらの距離は、フレーム230の充分な統計学的記
述、例えば、自己相関マトリクスIから計算される。
詳細に述べるように、隣接する組、即ちフレーム230
が、サンプルの隣接組間の差、即ち統計学的「距離」の
測定に基づいて、より大きな個別の組へと合体される。
これらの距離は、フレーム230の充分な統計学的記
述、例えば、自己相関マトリクスIから計算される。
【0029】2つの隣接組の自己相関マトリクスI間の
距離が、ある所定のスレッシュホールドTより小さい場
合には、それらの組のサンプルが合体されて、より大き
な組即ちクラスターが形成される。差の小さい隣接フレ
ームは、おそらく、同じ統計学的不変単位の一部分であ
り、これは、ここに述べる実施形態では、対応する言語
学的エレメントの全部又は一部を表す。
距離が、ある所定のスレッシュホールドTより小さい場
合には、それらの組のサンプルが合体されて、より大き
な組即ちクラスターが形成される。差の小さい隣接フレ
ームは、おそらく、同じ統計学的不変単位の一部分であ
り、これは、ここに述べる実施形態では、対応する言語
学的エレメントの全部又は一部を表す。
【0030】それ故、クラスターCK 250は、連続信
号210の考えられるセグメントを表す。クラスタープ
ロセッサ130の出力、例えば、クラスター250と、
導出された係数、例えば、従来の技術を用いてDSP1
20により発生されたMFCCは、プロセッサ140に
より処理されて、例えば、信号の各セグメントを最良に
特徴付ける言語学的エレメントを決定することができ
る。語彙デコーダ150は、言語学的エレメントを合成
して、統計学的不変単位の組合せを最良に表す考えられ
るワードを推論することができる。言語学的分析器16
0は、文法法則等に基づきスピーチ信号210の実際の
スピーチ内容を決定するのに使用される。
号210の考えられるセグメントを表す。クラスタープ
ロセッサ130の出力、例えば、クラスター250と、
導出された係数、例えば、従来の技術を用いてDSP1
20により発生されたMFCCは、プロセッサ140に
より処理されて、例えば、信号の各セグメントを最良に
特徴付ける言語学的エレメントを決定することができ
る。語彙デコーダ150は、言語学的エレメントを合成
して、統計学的不変単位の組合せを最良に表す考えられ
るワードを推論することができる。言語学的分析器16
0は、文法法則等に基づきスピーチ信号210の実際の
スピーチ内容を決定するのに使用される。
【0031】より詳細には、好ましい実施形態では、ク
ラスター距離の計測は、ホワイトガウスノイズにより駆
動される直線的予想コード化(LPC)モデルを用いて
デジタルサンプル220から直接的に導出される。y
(n)個のデジタルサンプルに対する標準的なLPCモ
デルは、次の数3の通りである。
ラスター距離の計測は、ホワイトガウスノイズにより駆
動される直線的予想コード化(LPC)モデルを用いて
デジタルサンプル220から直接的に導出される。y
(n)個のデジタルサンプルに対する標準的なLPCモ
デルは、次の数3の通りである。
【数3】 但し、ai y(n−i)は、q個の以前のサンプルに基
づく現在サンプルの直線的予想であり、そしてv(n)
は、変化Vに伴うホワイトゼロ平均ガウスプロセスを表
す。
づく現在サンプルの直線的予想であり、そしてv(n)
は、変化Vに伴うホワイトゼロ平均ガウスプロセスを表
す。
【0032】LPCモデルは、パラメータθ=
({ai },V)によって特徴付けされる。パラメータ
の最適値、例えばθ’は、パラメータθを越えてサンプ
ルyの見込みを最大にすることにより決定される。更
に、クラスターを最良に記述するLPCパラメータの数
は、サンプルyの見込みに最小記述長さ(MDL)を加
えることにより選択することができる。クラスター距離
は、最終的には、パラメータ推定値(θ’)を使用して
決定される距離である。それにより得られる一連の測定
値y1 r の見込みL(y1 r /θ’)は、それに関連す
る残余の見込みであり、次の数4で表される。
({ai },V)によって特徴付けされる。パラメータ
の最適値、例えばθ’は、パラメータθを越えてサンプ
ルyの見込みを最大にすることにより決定される。更
に、クラスターを最良に記述するLPCパラメータの数
は、サンプルyの見込みに最小記述長さ(MDL)を加
えることにより選択することができる。クラスター距離
は、最終的には、パラメータ推定値(θ’)を使用して
決定される距離である。それにより得られる一連の測定
値y1 r の見込みL(y1 r /θ’)は、それに関連す
る残余の見込みであり、次の数4で表される。
【数4】 この見込みの値は、サンプルの自己相関マトリクスIか
ら計算できる。
ら計算できる。
【0033】クラスター距離は、サンプルの2つの隣接
組、例えばフレーム又はクラスターが、異なる又は独立
した統計学的不変単位の一部分であるというナル仮定
と、サンプルの2つの隣接組が、単一の統計学的不変単
位の一部分であるという仮定との間の(対数)見込み比
として表される。例えば、図3に示すように、2つの隣
接クラスターC1 310及びC2 320に対するデジタ
ルサンプル220の組は、各々、yr 1 及びyn r+1 で
あり、この場合に、潜在的な合体クラスターC330に
対するサンプルの組はyn 1 である。この場合、クラス
ター距離d(C1 ,C2 )は、次の数5で表された一般
化された見込み比である。
組、例えばフレーム又はクラスターが、異なる又は独立
した統計学的不変単位の一部分であるというナル仮定
と、サンプルの2つの隣接組が、単一の統計学的不変単
位の一部分であるという仮定との間の(対数)見込み比
として表される。例えば、図3に示すように、2つの隣
接クラスターC1 310及びC2 320に対するデジタ
ルサンプル220の組は、各々、yr 1 及びyn r+1 で
あり、この場合に、潜在的な合体クラスターC330に
対するサンプルの組はyn 1 である。この場合、クラス
ター距離d(C1 ,C2 )は、次の数5で表された一般
化された見込み比である。
【0034】
【数5】 この比がスレッシュホールドTより小さい場合には、ク
ラスター310及び320のサンプルを合体してクラス
ター330を形成しなければならない。というのは、そ
れらが同じ統計学的不変単位の一部分である可能性が高
いからである。この比がスレッシュホールドより大きい
場合には、クラスター310及び320のサンプルを合
体してはならない。合体の弁別は、スレッシュホールド
Tが適切な値にセットされた場合に行うことができる。
ラスター310及び320のサンプルを合体してクラス
ター330を形成しなければならない。というのは、そ
れらが同じ統計学的不変単位の一部分である可能性が高
いからである。この比がスレッシュホールドより大きい
場合には、クラスター310及び320のサンプルを合
体してはならない。合体の弁別は、スレッシュホールド
Tが適切な値にセットされた場合に行うことができる。
【0035】図4は、好ましい「ボトムアップ(底上
げ)」クラスター構成を詳細に示す。図4において、項
目f1−f8は、図2の8つの次々のフレーム230の
サンプルの個別の組から導出された相関マトリクスを表
す。距離d1−d7は、フレームの隣接対のサンプル間
の各統計学的距離を表す。距離d1−d7のどれが最も
小さいかを調べる判断がなされ、例えば、d4が得られ
る。この最小距離d4がスレッシュホールド値Tより小
さい場合には、フレームf4及びf5のサンプルが合体
されて、最初のクラスターc45が形成される。即ち、
c45がf4及びf5に取って代わる。フレームは、サ
ンプルの自己相関マトリクスを加算することによって合
体することができる。合体の後に、f3とc45との間
及びc45とf5との間の距離がd345及びd456
として再計算される。
げ)」クラスター構成を詳細に示す。図4において、項
目f1−f8は、図2の8つの次々のフレーム230の
サンプルの個別の組から導出された相関マトリクスを表
す。距離d1−d7は、フレームの隣接対のサンプル間
の各統計学的距離を表す。距離d1−d7のどれが最も
小さいかを調べる判断がなされ、例えば、d4が得られ
る。この最小距離d4がスレッシュホールド値Tより小
さい場合には、フレームf4及びf5のサンプルが合体
されて、最初のクラスターc45が形成される。即ち、
c45がf4及びf5に取って代わる。フレームは、サ
ンプルの自己相関マトリクスを加算することによって合
体することができる。合体の後に、f3とc45との間
及びc45とf5との間の距離がd345及びd456
として再計算される。
【0036】最も小さな距離を見出すプロセスが、距離
d1、d2、d345、d456、d6及びd7に対し
て繰り返されて、新たな最小距離が決定される。新たな
最小距離、例えばd345が依然としてスレッシュホー
ルドTより小さい場合には、f3とc45との合体が行
われて、クラスターc345が形成され、そして距離が
d1、d2、d2345、d3456、d6及びd7と
して再計算される。サンプルの隣接組間の全ての距離が
少なくともスレッシュホールドとなるまで、これらの段
階が繰り返される。
d1、d2、d345、d456、d6及びd7に対し
て繰り返されて、新たな最小距離が決定される。新たな
最小距離、例えばd345が依然としてスレッシュホー
ルドTより小さい場合には、f3とc45との合体が行
われて、クラスターc345が形成され、そして距離が
d1、d2、d2345、d3456、d6及びd7と
して再計算される。サンプルの隣接組間の全ての距離が
少なくともスレッシュホールドとなるまで、これらの段
階が繰り返される。
【0037】このボトムアップ合体は、「貪欲(greed
y)」な合体である。この貪欲な合体では、全ての隣接す
る最終組間の合計距離がある最小距離より大きいような
フレームのクラスターが形成される。或いは又、和の合
計距離が、対ごとの貪欲な合体により導出された合計距
離より小さいような最適なやり方でフレームを合体する
ことも考えられる。
y)」な合体である。この貪欲な合体では、全ての隣接す
る最終組間の合計距離がある最小距離より大きいような
フレームのクラスターが形成される。或いは又、和の合
計距離が、対ごとの貪欲な合体により導出された合計距
離より小さいような最適なやり方でフレームを合体する
ことも考えられる。
【0038】音声認識の目的で、この貪欲な合体をベー
スとするセグメント化は、最適な合体よりも優れた結果
を与える。付加的な効果として、ボトムアップ隣接合体
は、セグメントの数が増加するときに処理時間を直線的
に増加するだけであるが、トップダウン(上から下へ
の)最適合体では、処理に要する時間がセグメントの数
と共に二次関数的に増加する。
スとするセグメント化は、最適な合体よりも優れた結果
を与える。付加的な効果として、ボトムアップ隣接合体
は、セグメントの数が増加するときに処理時間を直線的
に増加するだけであるが、トップダウン(上から下へ
の)最適合体では、処理に要する時間がセグメントの数
と共に二次関数的に増加する。
【0039】この統計学的なクラスター構成技術を適用
すると、同じ挿入レートに対し、高速フーリエ変換を用
いて導出された観察ベクトルに基づくクラスター構成技
術のほぼ半分の削除レートが示される。更に、後者の技
術は、スペクトル推定値を平滑化する傾向があり、スペ
クトル変化を検出する見込みを低減する。以上、スピー
チ認識システムについてクラスター構成技術を説明した
が、この技術は、音声単位の識別を必要とする他のスピ
ーチ処理システムにも使用できることが理解されよう。
すると、同じ挿入レートに対し、高速フーリエ変換を用
いて導出された観察ベクトルに基づくクラスター構成技
術のほぼ半分の削除レートが示される。更に、後者の技
術は、スペクトル推定値を平滑化する傾向があり、スペ
クトル変化を検出する見込みを低減する。以上、スピー
チ認識システムについてクラスター構成技術を説明した
が、この技術は、音声単位の識別を必要とする他のスピ
ーチ処理システムにも使用できることが理解されよう。
【0040】更に、本発明のクラスター構成技術は、個
別の統計学的に不変の組のサンプルのシーケンスとして
表すことのできるデジタル的にサンプルされる連続信号
にも適用できることが当業者に明らかであろう。最初の
組は、直線的予想コード化パラメータの健全な推定値を
与えるに充分な数のサンプルを有するだけでよい。最初
のサンプル組におけるサンプルの数は、最初の組のサン
プルが互いに本質的に統計学的に不変である限り、大幅
に変更してもよい。
別の統計学的に不変の組のサンプルのシーケンスとして
表すことのできるデジタル的にサンプルされる連続信号
にも適用できることが当業者に明らかであろう。最初の
組は、直線的予想コード化パラメータの健全な推定値を
与えるに充分な数のサンプルを有するだけでよい。最初
のサンプル組におけるサンプルの数は、最初の組のサン
プルが互いに本質的に統計学的に不変である限り、大幅
に変更してもよい。
【0041】時間と共にデジタルでサンプルされる信号
のスペクトル特性の変化により所望のセグメントが特徴
付けされるいかなる用途においても、改善されたセグメ
ント化結果を達成することができる。従って、本発明の
クラスター構成技術は、デジタルでサンプルされる他の
信号、例えば、タービン符号、宇宙波、ロボット組立中
の力測定、航空機の振動測定等(これらに限定されな
い)のセグメント化にも適用できる。
のスペクトル特性の変化により所望のセグメントが特徴
付けされるいかなる用途においても、改善されたセグメ
ント化結果を達成することができる。従って、本発明の
クラスター構成技術は、デジタルでサンプルされる他の
信号、例えば、タービン符号、宇宙波、ロボット組立中
の力測定、航空機の振動測定等(これらに限定されな
い)のセグメント化にも適用できる。
【0042】以上、特定の実施形態について本発明の原
理を説明したが、これら実施形態に対し本発明の範囲内
で種々の変更がなされ得ることが当業者に明らかであろ
う。
理を説明したが、これら実施形態に対し本発明の範囲内
で種々の変更がなされ得ることが当業者に明らかであろ
う。
【図1】本発明の好ましい実施形態による信号処理シス
テムのブロック図である。
テムのブロック図である。
【図2】生の連続信号から直接的に形成した統計学的に
不変の単位に対応するクラスターのタイミング図であ
る。
不変の単位に対応するクラスターのタイミング図であ
る。
【図3】単一の大きなクラスターへと合体することので
きる2つのクラスターのブロック図である。
きる2つのクラスターのブロック図である。
【図4】フレーム、距離、及び合体されたフレームの概
略図である。
略図である。
100 信号処理システム 110 A/Dコンバータ 120 デジタル信号プロセッサ(DSP) 130 クラスタープロセッサ 140 発音プロセッサ 150 語彙デコーダ 160 言語学的分析器 190 データベース 210 連続信号 220 デジタル信号 230 フレーム 240 クラスター 250 最終クラスター
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ウィリアム ディー ゴールデンタール アメリカ合衆国 マサチューセッツ州 02139 ケンブリッジ ピーターズ スト リート 9−1
Claims (10)
- 【請求項1】 信号をセグメント化するためのコンピュ
ータ化された方法において、 周期的な間隔で信号をサンプリングして、一連のデジタ
ルサンプルを形成し、 上記デジタルサンプルを複数のサンプル組に区切り、 隣接するサンプル組の間の距離を測定して1組の距離を
決定し、そして隣接する信号組の間の距離が所定のスレ
ッシュホールド値より小さい場合には隣接するサンプル
組を合体する、という段階を備えたことを特徴とする方
法。 - 【請求項2】 隣接するサンプル組の間の距離が所定の
スレッシュホールド値より小さい限り隣接するサンプル
組を繰り返し測定及び合体し、連続する信号を統計学的
に不変の単位へとセグメント化する段階を更に備えた請
求項1に記載の方法。 - 【請求項3】 統計学的に充分な記述により各組のサン
プルを表示する段階を更に備えた請求項1に記載の方
法。 - 【請求項4】 各組の隣接サンプルの積を加算して、各
組のサンプルの自己相関マトリクスを形成する段階を更
に備えた請求項3に記載の方法。 - 【請求項5】 自己相関マトリクスを加算して、隣接す
るサンプル組の対を合体する段階を更に備えた請求項4
に記載の方法。 - 【請求項6】 別々である隣接するサンプル組の対と、
単一のサンプル組へと合体される隣接するサンプル組の
対との距離の一般化された見込み比を決定する段階を更
に備えた請求項1に記載の方法。 - 【請求項7】 各組は、同数のサンプルを含む請求項1
に記載の方法。 - 【請求項8】 最小記述長さの見込みを用いて各組のサ
ンプルを記述するために最適数のパラメータを選択する
段階を更に備えた請求項2に記載の方法。 - 【請求項9】 統計学的距離の組の最小距離を決定し、
そして最小の統計学的距離を有するサンプルの隣接組を
最初に合体する、という段階を更に備えた請求項1に記
載の方法。 - 【請求項10】 連続する信号は、スピーチ信号であ
り、そして統計学的に不変の単位は、言語学的エレメン
トに関連している請求項2に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/717,391 US6314392B1 (en) | 1996-09-20 | 1996-09-20 | Method and apparatus for clustering-based signal segmentation |
US08/717391 | 1996-09-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10105187A true JPH10105187A (ja) | 1998-04-24 |
Family
ID=24881843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9253408A Pending JPH10105187A (ja) | 1996-09-20 | 1997-09-18 | クラスタ構成をベースとする信号セグメント化方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6314392B1 (ja) |
EP (1) | EP0831455A3 (ja) |
JP (1) | JPH10105187A (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6826350B1 (en) * | 1998-06-01 | 2004-11-30 | Nippon Telegraph And Telephone Corporation | High-speed signal search method device and recording medium for the same |
US6278972B1 (en) | 1999-01-04 | 2001-08-21 | Qualcomm Incorporated | System and method for segmentation and recognition of speech signals |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US6915241B2 (en) * | 2001-04-20 | 2005-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method for segmentation and identification of nonstationary time series |
EP1251433A3 (en) * | 2001-04-20 | 2003-08-27 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V. | A method for segmentation and identification of nonstationary time series |
US8219391B2 (en) | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US20060225944A1 (en) * | 2005-04-11 | 2006-10-12 | Jack Abner | Multiple channel conduit hydraulic noise attenuation device |
US8027949B2 (en) * | 2008-07-16 | 2011-09-27 | International Business Machines Corporation | Constructing a comprehensive summary of an event sequence |
CN101359472B (zh) * | 2008-09-26 | 2011-07-20 | 炬力集成电路设计有限公司 | 一种人声判别的方法和装置 |
TWI412019B (zh) * | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
TWI559300B (zh) * | 2015-01-21 | 2016-11-21 | 宇智網通股份有限公司 | 基於時域運算之聲音事件偵測方法及相關裝置 |
CN107799113B (zh) * | 2017-09-26 | 2021-12-07 | Oppo广东移动通信有限公司 | 音频处理方法、装置、存储介质及移动终端 |
CN107844939B (zh) * | 2017-11-28 | 2022-01-04 | 广州真知码信息科技有限公司 | 一种采样估计货物编号方法 |
CN110338791B (zh) * | 2019-08-09 | 2021-09-28 | 中国科学院合肥物质科学研究院 | 基于样本熵和高斯模型的表面肌电信号活动段分割方法 |
CN111477240B (zh) * | 2020-04-07 | 2023-04-07 | 浙江同花顺智能科技有限公司 | 音频处理方法、装置、设备和存储介质 |
CN111883165B (zh) * | 2020-07-02 | 2024-06-18 | 中移(杭州)信息技术有限公司 | 说话人语音切分方法、装置、电子设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3919479A (en) * | 1972-09-21 | 1975-11-11 | First National Bank Of Boston | Broadcast signal identification system |
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
US4241329A (en) * | 1978-04-27 | 1980-12-23 | Dialog Systems, Inc. | Continuous speech recognition method for improving false alarm rates |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
US4665548A (en) * | 1983-10-07 | 1987-05-12 | American Telephone And Telegraph Company At&T Bell Laboratories | Speech analysis syllabic segmenter |
US5119425A (en) * | 1990-01-02 | 1992-06-02 | Raytheon Company | Sound synthesizer |
US5261007A (en) * | 1990-11-09 | 1993-11-09 | Visidyne, Inc. | Frequency division, energy comparison signal processing system |
US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
US5625749A (en) * | 1994-08-22 | 1997-04-29 | Massachusetts Institute Of Technology | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation |
US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
-
1996
- 1996-09-20 US US08/717,391 patent/US6314392B1/en not_active Expired - Fee Related
-
1997
- 1997-09-12 EP EP97115917A patent/EP0831455A3/en not_active Withdrawn
- 1997-09-18 JP JP9253408A patent/JPH10105187A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP0831455A2 (en) | 1998-03-25 |
EP0831455A3 (en) | 1999-02-24 |
US6314392B1 (en) | 2001-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parris et al. | Language independent gender identification | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
KR100312919B1 (ko) | 화자인식을위한방법및장치 | |
EP1309964B1 (en) | Fast frequency-domain pitch estimation | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
US5822729A (en) | Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors | |
US6721699B2 (en) | Method and system of Chinese speech pitch extraction | |
EP0625774A2 (en) | A method and an apparatus for speech detection | |
JPH10105187A (ja) | クラスタ構成をベースとする信号セグメント化方法 | |
JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
CN112530407B (zh) | 一种语种识别方法及系统 | |
CN111785302B (zh) | 说话人分离方法、装置及电子设备 | |
Barker et al. | Speech fragment decoding techniques for simultaneous speaker identification and speech recognition | |
CN112397093A (zh) | 一种语音检测方法与装置 | |
US5806031A (en) | Method and recognizer for recognizing tonal acoustic sound signals | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
KR100969138B1 (ko) | 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 | |
JP3496706B2 (ja) | 音声認識方法及びそのプログラム記録媒体 | |
JP4673828B2 (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
JP2002538514A (ja) | 周波数スペクトラムにおける確率論的信頼度を用いた音声検出方法 | |
CN111933153B (zh) | 一种语音分割点的确定方法和装置 | |
JPH06266386A (ja) | ワードスポッティング方法 | |
Hussain et al. | Endpoint detection of speech signal using neural network |