JPH05197393A - 音声信号のワードシーケンス認識方法および装置 - Google Patents

音声信号のワードシーケンス認識方法および装置

Info

Publication number
JPH05197393A
JPH05197393A JP4244873A JP24487392A JPH05197393A JP H05197393 A JPH05197393 A JP H05197393A JP 4244873 A JP4244873 A JP 4244873A JP 24487392 A JP24487392 A JP 24487392A JP H05197393 A JPH05197393 A JP H05197393A
Authority
JP
Japan
Prior art keywords
signal
score
look
ahead
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4244873A
Other languages
English (en)
Other versions
JP3652711B2 (ja
Inventor
Reinhold Dr Haeb-Umbach
ヘーブ−ウムバッハ ラインホルド
Hermann Dr Ney
ネイ ヘルマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Gloeilampenfabrieken NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Gloeilampenfabrieken NV, Koninklijke Philips Electronics NV filed Critical Philips Gloeilampenfabrieken NV
Publication of JPH05197393A publication Critical patent/JPH05197393A/ja
Application granted granted Critical
Publication of JP3652711B2 publication Critical patent/JP3652711B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Abstract

(57)【要約】 【目的】 最小可能なルックアヘッドアクティビティと
組合せて探索スペースを有効に減少せしめ得るようにす
る。 【構成】 コヒーレントに話されるワードの認識におい
て、認識処理中種々のワードで終了し、次いで他のワー
ドで継続する複数の仮説を通常確立する。できるだけ小
さく継続すべきワードの数を保持するために、特に、大
きな語彙の場合に制限された時間スペースでルックアヘ
ッドを実行することは既知である。本発明によれば実際
の認識に対するようにルックアヘッドに対し同一の音素
を用いるとともに終了し、且つ継続すべき部分仮説の評
価に対しルックアヘッドで得られた種々の和を共に加算
し、且つこの和をルックアヘッドの時間スペースの終了
時に外挿された最小総合評価に依存するスレシホルド値
と比較する。継続すべき仮説の探索スペースはこれによ
って特に好適に制限することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声信号のワードシーケ
ンスを認識するに当たり:一連のテスト信号を発生する
音声信号を繰返し瞬時にサンプリングするとともに各々
が語彙ワードを表わす単位セットの基準信号から前記テ
スト信号および基準信号の種々のシリーズ間の主流の信
号毎のマッチングおよびスコアリングを実行する音声信
号のワードシーケンス認識方法およびこの方法を実施す
る装置に関するものである。
【0002】
【従来の技術】音声の機械認識は近年急速に開発されて
きた技術である。この場合の一般的な問題は例えば数1
0000ワードの実際の大きな語彙のため、著しく多数
の処理操作を必要とすることである。従来は、基本種類
のルックアヘッドは処理量を幾分減少せしめるようにし
ている。
【0003】かかるルックアヘッドは正しい最終認識に
導くに充分高い確率を有するこれら探索路のみを選定す
ることを容認されている。
【0004】ワード内の個々の仮説の進行はある時間ワ
ープを考慮するダイナミックプログラミング法によって
しばしば記述することができる。即ち、実際の音声の進
行ペースはモデルにより記述された進行に寄与しない。
さらに、隣接ワード間の遷移時の言語モデルは認識確率
をさらに増大するとともに探索スペースを制限する。こ
の探索スペースは、まず最初過剰スコアを廃棄すること
によって、次いで1ワードの終了後且つ次のワードに関
連する部分仮説を継続する前のルックアヘッド処理によ
って制限される。これに対しテスト信号のサブシリーズ
は基準信号に比較して粗い。従って、任意の実際の仮説
は、その確率が前のコンテキストに関係なく充分高くな
る際にのみ継続される。ルックアヘッドの評価によって
数個のテスト信号周期をこれらが認識特性に用いられる
前に発生するため、2つの作動間に適宜の遅延を導入す
るのが普通である。これが多くとも数分の1秒継続する
ため、リアルタイムの認識も著しく影響を受けるように
なる。
【0005】一般に、ルックアヘッドも速くなる。その
理由はこれが完全な認識に必要な作動の1部分のみを必
要とするからである。特に、前の仮説の完全な有効性は
必要ではない。
【0006】
【発明が解決しようとする課題】ルックアヘッドをスピ
ードアップするためには、既知の技術において、基準信
号のシーケンスは音素を表わすとともに語彙は音素リス
トによって構成され、且つ各リスト位置は音素および全
て可能な次の音素の表示を具え、さらに、適用し得る場
合には、この音素で終端するとともに正しいシーケンス
に前の音素の全部を具える1つのワードの識別を具え
る。従って語彙は、個別のブランチが音素を表わすツリ
ー(木)を構成する。これらのブランチは実際の認識に
用いる基準信号に関連し、これとは相違する特定の基準
信号を具える。さらに、前の仮説の確率、即ち、スコア
は使用しないが、かかるワード候補のみを、対応する音
声信号区分に良好に実際に類似するルックアヘッド継続
で選択する。これに対しルックアヘッドの進行中直線状
に増大するのが好適なスレシホルド値を用いる。その理
由は、ルックアヘッドにおいて、使用される言語モデル
に基づく最良の仮説を次のコンテキストで実際に表わ
し、この仮説が不明瞭に発音されたワードによりカット
オフされるワード候補が除去されるのをできるだけ充分
に防止するからである。この理由で、継続を続行する結
論で大きなスコアが存在するにもかかわらず、多くの仮
説が継続されるようになる。
【0007】特に、本発明の目的は最小可能なルックア
ヘッドアクティビティと組合せて探索スペースを有効に
減少せしめ得るようにした上述した種類の音声信号のワ
ードシーケンス認識方法を提供せんとするにある。
【0008】
【課題を解決するための手段】本発明方法は音声信号の
ワードシーケンスを認識するに当たり:一連のテスト信
号を発生する音声信号を繰返し瞬時にサンプリングする
とともに各々が語彙ワードを表わす単位セットの基準信
号シリーズから前記テスト信号および基準信号の種々の
シリーズ間の主流の信号毎のマッチングおよびスコアリ
ングを実行し;特定の第1テスト信号によりこの信号で
終了する予備認識されたワードの任意の第1ストリング
に第1スコアを割当て;前記第1テスト信号に次ぐ特定
の第2テスト信号から、テスト信号の制限された長さの
第1サブシリーズ間のルックアヘッド信号毎のマッチン
グおよびスコアリングを前記単位セットの基準信号から
基準信号の種々の第2サブシリーズにより実行し、各第
2サブシリーズは語彙ワードの初期部分を表わすととも
に関連するサブスコアを発生し;任意の前記サブスコア
を任意の前記第1スコアに加算して各総合スコアを発生
するとともに予定の第1スレシホルドをしのぐ任意の総
合スコアに対する後者の第2サブシリーズを破棄する
が、次のワード終了時まで同一セットのシリーズ内で基
準信号の任意の他のサブシリーズに対する前記主流マッ
チングを継続するとともにさらに前記第1スコアを発生
し;共存する最小の第1スコア値を選択して任意の関連
するワードストリングをを予備認識するがさもなくば前
記第1ストリングを廃棄し;種々の第1スコア間の関連
する最小値に基づき廃棄されない前記第1ストリングに
よって表わされるかかるシーケンスを認識することを特
徴とする。
【0009】この際の種々の概念は次の通りである。 ・ 一般に、必ずしも必要ではないが、サンプリング瞬
時は周期的である。 ・ 任意の特定の瞬時に1つの以上の予備認識ワードス
トリングは同時に終了する。 ・ マッチング兼スコアリングはそれ自体従来既知のダ
イナミックプログラミング特徴を具える。 ・ 任意瞬時に共存して得られるスコアのみを比較し、
従って、これらは、上記瞬時に実際に個別のリブを導入
する他の経路となる。
【0010】プロセスの継続に対し多くの候補があり過
ぎるのを防止するために、まず最初、ルックアヘッドに
用いられる基準信号を実際の認識に用いられる基準信号
と同一とするため、計算は全く同一となる。継続すべき
シーケンスの数を低く保持して前のシーケンスの終端の
スコアをルックアヘッドで得られるサブスコアに加算し
得るようにする。実際上、予備認識が比較的低いスコア
で終了する場合には、充分に大きなスレシホルド値によ
って基準信号の多数のサブシーケンスを継続せしめ、最
も有望な仮説全体である仮説が損失し得ないようにす
る。また、前の仮説が大きなスコアで終了する場合には
この仮説はとりあえず同様ではなくなり、他の認識が少
数のサブシリーズのみで継続され、従って認識は成功の
最適のチャンスを約束するこれらシーケンスで常時継続
されるようになる。かようにして、最良可能な仮説がこ
のプロセスで消失する危険性が含まれることなく探索ス
ペースを小さく保持することができる。
【0011】本発明の実施例では、前記第1スレシホル
ドは、任意瞬時の前記第1スコアに割当てられた任意の
総合スコアに対する所定の代数関係を有するようにする
のが有利である。サブシリーズの開始時および終了時の
双方において最良の仮説を組合せて使用することにより
誤り比を前述したルックアヘッドの場合よりも僅かに高
くすることができる。上述した所は余分の処理を生ぜし
めるようになる。これは、第1スレシホルド値を2つの
スコアと固定スコア余裕度との和に等しくすることによ
って達成し得るようにする。これは数個の計算のみを必
要とするだけである。
【0012】音声認識方法は既知であり、これにより認
識処理中瞬時テスト信号および次のテスト信号と基準信
号とをワード内で比較することは、瞬時テスト信号まで
受けるスコアが瞬時テスト信号と固定スレシホルド余裕
度との和に対する最小スコアに等しい第2スレシホルド
値以下となる際にのみ継続されるようになる。かかる方
法では、第1スレシホルド値を形成するとともに第2ス
レシホルド値を形成するスレシホルド余裕度が等しい場
合に特に有利である。かようにして、ワード内およびワ
ード間の遷移の双方で仮説の継続または断続に対し同一
の規準を用いるようにする。
【0013】既知の方法では、テスト信号と基準信号と
の各比較後のルックアヘッド中、関連するスレシホルド
が第3スレシホルド値以下にある場合にのみ、次のテス
ト信号と基準信号との比較を行うようにしている。第3
スレシホルド値によってルックアヘッドによる僅かな成
功および第3スレシホルド値との比較を約束し、かよう
にして探索スペースを制限し得る継続を完全に除去し得
るようにする。既知の方法では、第3スレシホルド値
は、大きすぎるスレシホルド値が大きすぎる探索スペー
スを与えるような状況で臨界的となるが、小さすぎるス
レシホルド値の場合にはルックアヘッドなく終端で最良
のものとなるかかる仮説がルックアヘッドによってカッ
トオフされるようになる。しかし、本発明方法では、第
3スレシホルド値はルックアヘッド中計算を著しく減少
させるようにする。従って本発明の他の例によれば、第
3スレシホルド値をこのテスト信号に関し全ての基準信
号の最小のスコアに対する一定比で形成する場合に有利
である。かようにして、僅かな計算アクティビティによ
り第3スレシホルド値を決めることができる。この際第
3スレシホルド値がスレシホルド余裕度により増大され
たこのテスト信号に対する最小スコアに等しい場合には
かかる計算アクティビティは特に小さくなる。この場合
ルックアヘッドに対するスレシホルド余裕度も認識に対
するスレシホルド余裕度よりも小さくなる。
【0014】ルックアヘッドを実行する時間スペース全
体に対しては折衷策をとる必要がある。その理由は大き
な時間スペースが、実際の認識アクティビティの節約に
対し、ルックアヘッドにより行われる対応の大きな計算
アクティビティをルックアヘッド自体が必要とすると云
うことを意味するとともに、極めて小さい時間スペース
が、認識処理における計算時間の充分な節約を達成する
極めて僅かな情報をルックアヘッドが提供することを意
味するからである。従って本発明の1例では、1つの音
素の期間に対してのみルックアヘッドを実行し得るよう
にする。これは、本願発明と同日出願のドイツ国特許願
DE4130631.7(PHD91−138)に記載
されているように、特に語彙が認識に対する木リストの
形態で得られる際に計算時間を著しく節約するに充分な
情報を既に提供している。特に、語彙の全木リストはル
ックアヘッドに対しもはや必要でなく、全ての音素の簡
単なリスト、即ち、木リストの第1レベルで充分であ
る。その理由は全ての音素がこの中に存在するからであ
る。
【0015】ルックアヘッドの計算アクティビティをさ
らに減少させるために、本発明の他の例では次の偶数の
テスト信号までルックアヘッドがスタートしないように
するのが好適である。これにより、継続すべきシーケン
スの充分に正確な決定が得られるようになり、これは各
テスト信号でルックアヘッドをスタートすることによっ
ては充分に改善できない。
【0016】ルックアヘッドに対しおよび認識に対し同
一の基準信号を用いるため、本発明の他の例によれば、
ルックアヘッド中に決まる各テスト信号および基準信号
間のスコアを中間記憶装置に格納し、次いで認識で実行
すべき比較に対し用いるのが好適である。
【0017】これがため、ルックアヘッド中に既に実行
されているこれら比較は認識中再度実行する必要はない
が、これらの結果はルックアヘッドから取出すことがで
きる。
【0018】本発明音声信号のワードシーケンス認識装
置は、音声信号を受ける入力手段と;この入力手段によ
り供給され繰返し瞬時に前記音声信号をサンプリングす
るとともに各瞬時にテスト信号を発生するサンプリング
手段と;このサンプリング手段により供給され、各々が
語彙ワードを表わす基準信号の単位セットのシリーズを
記憶する記憶手段を設けたマッチング兼スコアリング手
段と;このマッチング兼スコアリング手段により供給さ
れ特定の第1テスト信号で終了する任意の第1ストリン
グの予備認識ワードに第1スコアを特定の第1テスト信
号で割当てる第1スコア手段と;前記マッチング兼スコ
アリング手段により供給され、前記第1テスト信号に次
ぐ特定の第2テスト信号から、単位セットから基準信号
の種々のサブシリーズの各々に対し制限された長さの第
1サブストリングにルックアヘッドスコアを割当て、各
サブシリーズが語彙ワードの初期部分を表わすルックア
ヘッドスコア手段と;前記第1スコア手段および前記ル
ックアヘッドスコア手段により供給され、任意の前記第
1スコアを前記ルックアヘッドスコア手段の各々に加え
るとともに実際のスレシホルドを総合する任意のルック
アヘッドスコアは廃棄するが、次のワードの終了時まで
任意の廃棄されないルックアヘッドスコアに対し前記マ
ッチング兼スコアリング手段を再作動させて次の第1ス
コアを発生する判定手段とを具えることを特徴とする。
【0019】
【実施例】図面につき本発明の実施例を説明する。図1
に示すように、マイクロフォン10を経て得た音声信号
を装置12で前処理し、特に、スペクトル成分を連続音
声信号区分に対しデジタル化し、これにより各々が音声
信号区分を表わす値の全部によってテスト信号を形成す
る。ライン13に存在するこれらテスト信号はルックア
ヘッド評価に対し装置14に供給するとともにテスト信
号を所定数の信号Kだけ遅延する遅延ライン18を経て
認識装置20にも供給する。この認識装置は種々の仮説
を構成する。最後に認識装置20によって認識されたワ
ードのシーケンスを出力装置22、例えば表示装置また
はプリンタに供給する。
【0020】実際の認識を行う認識装置20はドイツ国
特許DE−OS−3710507号に従って構成するこ
とができる。探索中、即ち、順次の連続テスト信号の処
理中、この場合にはテスト信号および基準信号を具える
探索スペースに複数の仮説を確立するため、スレシホル
ド値を越える不所望なスコアを有する仮説を断続し、且
つ可能なワード端部に到達する毎に新たなワードに導入
される多数の仮説のブランチがスタートされ、これらは
言語モデルを基礎として決めるのが好適である。一般
に、上述した探索スペースを用いることはH.Ney et a
l., の論文“連続音声認識のダイナミック プログラミ
ング ビーム探索のデータ駆動編成”;1987年、 IEEE、
No.CH2396-0/87/0000/0633に記載されている。
【0021】図1に示す配列では、継続すべきワード、
即ち、継続即ち、基準信号のシーケンスとの比較はルッ
クアヘッド装置14の結果によって共に決定され、これ
らの決定され、を接続導線15を経て装置20に供給す
る。
【0022】ルックアヘッド装置14では、テスト信号
を語彙の全てのワード始端と比較し、即ち、各新たなテ
スト信号と比較するか、または計算アクティビティを減
少せしめて、各第2の新たなテスト信号が可能なワード
の始端となるようにする。これに対し用いられる基準信
号はメモリ16内に図2に示すような形状で含まれるよ
うになる。この図によれば、プログラムされた語彙の全
体は、そのブランチが音素を表わす木の形状に構成す
る。音素の始端および終端は接合点である。これら接合
点はワードの終端を表わす。また、これら接合点は当該
ワードの次の音素の始端をも表わす。さらに、音素の特
定のストリングがワードを表わす組合せも発生するが、
これは1つ以上の他の音素とともに処理して他の異なる
ワードを表わし得るようにする。図2は極めて小さな語
彙の簡単な木を示す。初期接合点NOから出発し、3つ
の音素P1,P2,P3のみによって任意のワードの始
端を構成するものとする。実際上、この組みが著しく大
きいことは勿論である。ワードの始端を表わし得ないあ
る音素も存在する。今、音素P1が接合点N1で終端
し、音素P2が接合点N2で終端し、音素P3が音素N
3である終端するものとする。図示のように、接合点N
1から出発する順次の連続音素はP4であり、接合点N
4であり終端し、音素P5は接合点N5で終端し、音素
P6は音素N6で終端する。また接合点N2からの順次
の連続音素はP7,P8である。説明を簡単とするため
に、木の残りの部分は図示しない。一般に、図示の任意
の説明を点N1,N2,・・・はワードの終端を構成す
る。さらに、種々の音素P4,P5・・・は音素P1,
P2,P3の1つと同一とすることができる。同様のこ
とを、1つ以上をN2,N3,N4,N5のような任意
の他の接合点から出発した各音素に対し同一とし得る音
素P4,P5,P6の群に対しても適用することができ
る。かようにして、木構造を生ぜしめ、この構造は語彙
がワードを具えるよりも一層多数の接合点を具えること
は明らかである。実際上、多くの接合点はワードの終端
を同時には表わさない。
【0023】図3はこれら基準信号からの音素およびこ
れら基準信号間の種々の遷移の確立を線図的に示す。本
例では、6つの基準信号30・・・40を設け、これら
信号を多くの状態として形式的に示す。実際上、音素は
多くの状態または数個の状態を具えるとともにその数は
種々の音素間で均一とする必要はない。さらに、図はこ
れら状態間の遷移を矢の形状に示す。図示のように、3
つの遷移が各状態から発生し、これら遷移の1つは同一
の状態に復帰する。これは、テスト信号ストリングおよ
び基準信号ストリング間の比較中、2つの順次のテスト
信号を同一基準信号と比較する際にマッチングが最適と
なることを意味する。さらに各状態から第2の次の状態
への他の遷移が発生し、これは、例えば速い会話音の場
合にはテスト信号が基準信号と最適に適合しないことを
意味する。しかし、通常の手段によって1つの状態から
次の状態に毎回導かれ、即ち、6つの連続テスト信号に
よって1つの音素が形成されるようになる。1つの状態
から他の状態への最適の遷移を見いだすことはダイナミ
ックプログラミング法によって行う。
【0024】装置14において、各テスト信号を基準信
号と比較する。この基準信号の各シーケンスは他の異な
るシーケンスを表わす。スレシホルドを用いないで各テ
スト信号を全部の音素のすべての基準信号と比較する。
その理由は、各テスト信号が音素の始端を表わし、即
ち、これをすべての音素の第1基準始端と比較するが、
この同一のテスト信号は音素に属する第2テスト信号で
あり、従ってこれを音素の第2基準信号と比較する必要
がある。後者の場合には前のテスト信号が音素の第1基
準信号に相当するとともにこの前の信号の比較結果、即
ち、その関連する基準信号との差を第2テスト信号のス
コアに加算する必要がある。同様に、瞬時テスト信号も
音素の第3、即ち、次のテスト信号とすることもでき、
この場合には前記差の和によって形成されるスコアの全
部が大きくなる。従って探索スペースは連続基準信号お
よびすべての基準信号から音素レベルで発生し、この基
準信号では探索スペースの各格子点をスコアとして割当
てるようにする。
【0025】また、ルックアヘッドの計算アクティビテ
イを低減させるために、これにより発生したスコアが所
定のスレシホルド値によりこのテスト信号に対し得られ
た最小スコア以上となるか否かを各新たなテスト信号に
対しテストする。このテストを行う場合には音素の対応
する仮説はもはや追従しなくなる。場合によっては、音
素自体も他のルックアヘッドに対し、従って次の認識に
対し品質を悪化すうるようになる。音素内のスレシホル
ド値を使用することにより計算アクティビティを減少す
る。
【0026】これは、図3に従って音素が終端まで完全
に終了する必要はなく、最後から2番目の状態または基
準信号から出発する次の音素に到達し得る音素のシーケ
ンスに対しても同様である。この場合の決定ファクタ
は、多数のテスト信号によって走査し得る音素または音
素シーケンスに対してどのスコアが到達するかを示し、
このテスト信号の数は遅延装置18により決まり、これ
をKで表わす。これら音素または音素シーケンス或はワ
ードをそのスコアとともに接続ライン15を経て認識装
置20に供給する。この認識装置20において、仮説が
ワードの終端に到達すると、接続ライン15を経て供給
されるデータからどの仮説を継続させるかがわかり、そ
の結果どの値のK個のテスト信号後に追加のスコアとな
るかがわかるようになる。しかし、接続ライン15を経
て伝送された音素のうち、仮説を継続する音素のみを用
い、この際K個のテスト信号により外挿される継続によ
ってスコアを導出するか、または一層精密に言語モデル
のスコアおよび考察からの帰結である評価を導出し、こ
れによってスレシホルド値が過剰とならず、この値が最
小外挿スコアおよびスレシホルド余裕度から形成される
ようにする。これに従って次に示す条件を満足させるよ
うにする必要がある。
【数1】 SEv1...vn(1:I)+SW(I+1:I+K)+SLM(w/v1...vn) ≦Smin(I)+Smin,LA(I+1:I+K)+T ここにSEv1...vn(1:I)はテスト信号I に対するワードシ
ーケンスv1・・・ vnの終端における評価を示し、SW(I+1:I
+K) は音素シーケンスまたはワードwに対する次のK個
のテスト信号のルックアヘッドのスコアであり、SLM(w/
v1...vn)はワードシーケンスv1・・・ vnのワードをワード
wに結合する際の言語モデルによる追加の品質であり、
Smin(I) はテスト信号I に対する最小スコアであり、Sm
in,LA(I+1:I+K)はルックアヘッドにおけるK個のテスト
信号後のすべての次の音素シーケンスまたは音素ワード
に対する最小スコアであり、T は固定スレシホルド余裕
度である。
【0027】かようにして、ルックアヘッドだけでな
く、認識装置20の各部分仮説の終端時に生ずる総合評
価をも考慮して良好でない総合評価で終了する部分仮説
を、直後のテスト信号に特に良好に対応する数個の音素
シーケンスまたはワードのみで継続するようになる。ま
た、良好な総合スコアで終了する部分仮説は多数の音素
シーケンスで継続するようになる。これがため、認識装
置20の探索スペースは常時できるだけ小さく保持され
るようになる。
【0028】この理由のため、単一音素に期間に亘って
のみルックアヘッドを実行するだけで充分である。さら
に、この場合には木リストの形状の完全な語彙をルック
アヘッドに対して得る必要はなく、すべての音素の簡単
なリストで充分である。大部分の音素はほぼ60〜70
msの期間を有し、しかも新たなテスト信号が毎回得ら
れる時間瞬時は10msであるため、これら音素は6つ
の連続基準信号より成り、従って値K=6である。音素
が短い場合または音素の終端が長数のテスト信号の後に
到来する場合には、ルックアヘッド中に得られたすべて
のスコアは比較し得る値を得るために個別の実際の音素
の長さで分割する必要がある。
【0029】ルックアヘッドを偶数のテスト信号でスタ
ートさせることで、計算アクティビティをさらに減少さ
せることができる。この場合にはルックアヘッド中各テ
スト信号を用いるが、これからのスタート結果でのある
不所望な適応はダイナミックプログラミングによる音素
内の適応により大きく補償されるとともにルックアヘッ
ドの遅延スタートによるスコアの小さな残留エラーは、
部分仮説を認識装置20で継続すべき手段に関しての次
の決定に対するスレシホルド値によって吸収することが
できる。部分仮説の結論は一般に任意のテスト信号で行
うため、接続ライン15を経て認識装置20に供給され
るルックアヘッドの値を毎回2つの連続テスト信号で用
いるようにする。
【0030】ルックアヘッド装置14のルックアヘッド
では認識装置20における認識のために次に必要となる
すべてのスコアを形成するため、これらスコアは実際上
一回のみ計算されて中間メモリに記憶され、次いで接続
ライン15を経て適当な時間遅延で認識装置20に供給
されるようになる。従って計算アクティビティはこれに
よってさらに減少することができる。
【0031】ルックアヘッド装置14および認識装置2
0は単一の装置に組合わせることができ、この場合には
これら装置をマイクロプロセッサまたはこうてきに装着
されたコンピュータによって形成するのが有利である。
【図面の簡単な説明】
【図1】ルックアヘッドを有する音声認識装置の構成を
示すブロック図である。
【図2】ルックアヘッドに対する語彙の配列を示す説明
図である。
【図3】基準信号およびこれら信号間の可能な遷移から
音素を構成する状態を示す説明図である。
【符号の説明】
10 マイクロフォン 12 予備処理装置 13 ライン 14 ルックアヘッド装置 15 接続ライン 16 メモリ 18 遅延装置 20 認識装置 22 出力装置

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声信号のワードシーケンスを認識する
    に当たり:一連のテスト信号を発生する音声信号を繰返
    し瞬時にサンプリングするとともに各々が語彙ワードを
    表わす単位セットの基準信号シリーズから前記テスト信
    号および基準信号の種々のシリーズ間の主流の信号毎の
    マッチングおよびスコアリングを実行し;特定の第1テ
    スト信号によりこの信号で終了する予備認識されたワー
    ドの任意の第1ストリングに第1スコアを割当て;前記
    第1テスト信号に次ぐ特定の第2テスト信号から、テス
    ト信号の制限された長さの第1サブシリーズ間のルック
    アヘッド信号毎のマッチングおよびスコアリングを前記
    単位セットの基準信号から基準信号の種々の第2サブシ
    リーズにより実行し、各第2サブシリーズは語彙ワード
    の初期部分を表わすとともに関連するサブスコアを発生
    し;任意の前記サブスコアを任意の前記第1スコアに加
    算して各総合スコアを発生するとともに予定の第1スレ
    シホルドをしのぐ任意の総合スコアに対する後者の第2
    サブシリーズを破棄するが、次のワード終了時まで同一
    セットのシリーズ内で基準信号の任意の他のサブシリー
    ズに対する前記主流マッチングを継続するとともにさら
    に前記第1スコアを発生し;共存する最小の第1スコア
    値を選択して任意の関連するワードストリングをを予備
    認識するがさもなくば前記第1ストリングを廃棄し;種
    々の第1スコア間の関連する最小値に基づき廃棄されな
    い前記第1ストリングによって表わされるかかるシーケ
    ンスを認識することを特徴とする音声信号のワードシー
    ケンス認識方法。
  2. 【請求項2】 前記第1スレシホルドは、任意瞬時の前
    記第1スコアに割当てられた任意の総合スコアに対する
    所定の代数関係を有することを特徴とする請求項1に記
    載の音声信号のワードシーケンス認識方法。
  3. 【請求項3】 前記所定の代数関係は固定のスレシホル
    ド余裕度を有することを特徴とする請求項2に記載の音
    声信号のワードシーケンス認識方法。
  4. 【請求項4】 任意の前記第1ストリングは前記固定の
    スレシホルド余裕度が実際の最小スコア以上となる際に
    廃棄するようにしたことを特徴とする請求項3に記載の
    音声信号のワードシーケンス認識方法。
  5. 【請求項5】 前記ルックアヘッドマッチング中、ラン
    ニング予備サブスコアリングを行って所定の第3スレシ
    ホルドを越える任意のランニング予備サブスコアに対し
    前記ルックアヘッドマッチングを終了するようにしたこ
    とを特徴とする請求項1〜4の何れかの項に記載の音声
    信号のワードシーケンス認識方法。
  6. 【請求項6】 前記第3スレシホルドは実際の最小ラン
    ニング予備サブスコアと第3余裕度との和に等しいこと
    を特徴とする請求項1〜5の何れかの項に記載の音声信
    号のワードシーケンス認識方法。
  7. 【請求項7】 各サブシリーズは単一音素の長さに相当
    するようにしたことを特徴とする請求項1〜6の何れか
    の項に記載の音声信号のワードシーケンス認識方法。
  8. 【請求項8】 任意の前記第2テスト信号を偶数とした
    ことを特徴とする請求項1〜6の何れかの項に記載の音
    声信号のワードシーケンス認識方法。
  9. 【請求項9】 前記ルックアヘッドマッチング中に集め
    た任意のスコアリングデータは前記主流マッチング時に
    用いるために記憶するようにしたことを特徴とする請求
    項1〜8の何れかの項に記載の音声信号のワードシーケ
    ンス認識方法。
  10. 【請求項10】 音声信号を受ける入力手段と;この入
    力手段により供給され繰返し瞬時に前記音声信号をサン
    プリングするとともに各瞬時にテスト信号を発生するサ
    ンプリング手段と;このサンプリング手段により供給さ
    れ、各々が語彙ワードを表わす基準信号の単位セットの
    シリーズを記憶する記憶手段を設けたマッチング兼スコ
    アリング手段と;このマッチング兼スコアリング手段に
    より供給され特定の第1テスト信号で終了する任意の第
    1ストリングの予備認識ワードに第1スコアを特定の第
    1テスト信号で割当てる第1スコア手段と;前記マッチ
    ング兼スコアリング手段により供給され、前記第1テス
    ト信号に次ぐ特定の第2テスト信号から、単位セットか
    ら基準信号の種々のサブシリーズの各々に対し制限され
    た長さの第1サブストリングにルックアヘッドスコアを
    割当て、各サブシリーズが語彙ワードの初期部分を表わ
    すルックアヘッドスコア手段と;前記第1スコア手段お
    よび前記ルックアヘッドスコア手段により供給され、任
    意の前記第1スコアを前記ルックアヘッドスコア手段の
    各々に加えるとともに実際のスレシホルドを総合する任
    意のルックアヘッドスコアは廃棄するが、次のワードの
    終了時まで任意の廃棄されないルックアヘッドスコアに
    対し前記マッチング兼スコアリング手段を再作動させて
    次の第1スコアを発生する判定手段とを具えることを特
    徴とする請求項1〜9の何れかの項に記載の音声信号の
    ワードシーケンス認識方法を実施する装置。
JP24487392A 1991-09-14 1992-09-14 単語列の認識方法および装置 Expired - Fee Related JP3652711B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE4130633A DE4130633A1 (de) 1991-09-14 1991-09-14 Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
DE4130633:3 1991-09-14

Publications (2)

Publication Number Publication Date
JPH05197393A true JPH05197393A (ja) 1993-08-06
JP3652711B2 JP3652711B2 (ja) 2005-05-25

Family

ID=6440627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24487392A Expired - Fee Related JP3652711B2 (ja) 1991-09-14 1992-09-14 単語列の認識方法および装置

Country Status (4)

Country Link
US (1) US5956678A (ja)
EP (1) EP0533259B1 (ja)
JP (1) JP3652711B2 (ja)
DE (2) DE4130633A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319990A (ja) * 1997-05-20 1998-12-04 Denso Corp 単語辞書データの圧縮方法、単語辞書データの展開方法、音声認識装置、音声認識機能付きナビゲーションシステム及び記録媒体

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
DE59801715D1 (de) * 1997-11-21 2001-11-15 Siemens Ag Verfahren und vorrichtung zur spracherkennung
GB9802838D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus
GB9822931D0 (en) * 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
US6275802B1 (en) * 1999-01-07 2001-08-14 Lernout & Hauspie Speech Products N.V. Search algorithm for large vocabulary speech recognition
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1942643B1 (en) * 2005-10-25 2014-04-23 NEC Corporation Mobile telephone unit, codec circuit used in that mobile telephone unit, and automatic telephone-speaker-sound-level adjustment method
CN102027534B (zh) * 2008-05-16 2013-07-31 日本电气株式会社 语言模型得分前瞻值赋值方法及设备
US10410629B2 (en) * 2015-08-19 2019-09-10 Hand Held Products, Inc. Auto-complete methods for spoken complete value entries
KR102420450B1 (ko) * 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
US10891940B1 (en) 2018-12-13 2021-01-12 Noble Systems Corporation Optimization of speech analytics system recognition thresholds for target word identification in a contact center

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59172700A (ja) * 1983-03-22 1984-09-29 中川 聖一 パタ−ン比較装置
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
JP2717652B2 (ja) * 1986-06-02 1998-02-18 モトローラ・インコーポレーテッド 連続音声認識システム
DE3710507A1 (de) * 1987-03-30 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
JPH0782544B2 (ja) * 1989-03-24 1995-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーション マルチテンプレートを用いるdpマツチング方法及び装置
US4977598A (en) * 1989-04-13 1990-12-11 Texas Instruments Incorporated Efficient pruning algorithm for hidden markov model speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319990A (ja) * 1997-05-20 1998-12-04 Denso Corp 単語辞書データの圧縮方法、単語辞書データの展開方法、音声認識装置、音声認識機能付きナビゲーションシステム及び記録媒体

Also Published As

Publication number Publication date
DE59209691D1 (de) 1999-06-17
EP0533259A2 (de) 1993-03-24
US5956678A (en) 1999-09-21
EP0533259A3 (ja) 1994-03-23
DE4130633A1 (de) 1993-03-18
EP0533259B1 (de) 1999-05-12
JP3652711B2 (ja) 2005-05-25

Similar Documents

Publication Publication Date Title
JPH05197393A (ja) 音声信号のワードシーケンス認識方法および装置
US5884259A (en) Method and apparatus for a time-synchronous tree-based search strategy
US5719997A (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars
CA2163017C (en) Speech recognition method using a two-pass search
US5634083A (en) Method of and device for determining words in a speech signal
JP4414088B2 (ja) 音声認識において無音を使用するシステム
JP2001255889A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JPH05197394A (ja) 音声信号のワードシーケンス認識方法および装置
JP2003515778A (ja) 別々の言語モデルによる音声認識方法及び装置
JPH10105189A (ja) シーケンス取出し方法及びその装置
JP2002215187A (ja) 音声認識方法及びその装置
JP3980082B2 (ja) 信号処理方法及び装置
WO2009139230A1 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
US6275802B1 (en) Search algorithm for large vocabulary speech recognition
JP2003208195A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
US20030110032A1 (en) Fast search in speech recognition
KR100374921B1 (ko) 단어열인식방법및단어열결정장치
JP3813491B2 (ja) 連続音声認識装置およびそのプログラム
KR20220130450A (ko) 음성 인식을 위한 인공 신경망에서의 디코딩 방법 및 디코딩 장치
JPH1124693A (ja) 音声認識装置
JP3583299B2 (ja) 連続音声認識用の探索装置および連続音声認識用の探索方法
KR100450396B1 (ko) 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템
Eide et al. A time-synchronous, tree-based search strategy in the acoustic fast match of an asynchronous speech recognition system.
JP2999726B2 (ja) 連続音声認識装置
JP2004012615A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040317

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040510

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees