JPH11272290A - 音声信号のワ―ド決定方法 - Google Patents
音声信号のワ―ド決定方法Info
- Publication number
- JPH11272290A JPH11272290A JP2604799A JP2604799A JPH11272290A JP H11272290 A JPH11272290 A JP H11272290A JP 2604799 A JP2604799 A JP 2604799A JP 2604799 A JP2604799 A JP 2604799A JP H11272290 A JPH11272290 A JP H11272290A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- sentence elements
- list
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000005236 sound signal Effects 0.000 title claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 11
- 239000000470 constituent Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 34
- 238000012545 processing Methods 0.000 description 9
- 238000012432 intermediate storage Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】 音声信号のワードの認識を改善し得る方法を
提供せんとするにある。 【解決手段】 個別のワードは自然テストの強く異なる
平均頻度で発生する。改良された言語モデルに導かれる
とともに改善される認識に導かれる好適な語彙を得るた
めに、充分な頻度で発生する2つ以上のワードのワード
チェーンを互いに組合せる。体系化リストによってワー
ドチェーンを発生するかかる頻度を繰返し配列する方法
を述べる。
提供せんとするにある。 【解決手段】 個別のワードは自然テストの強く異なる
平均頻度で発生する。改良された言語モデルに導かれる
とともに改善される認識に導かれる好適な語彙を得るた
めに、充分な頻度で発生する2つ以上のワードのワード
チェーンを互いに組合せる。体系化リストによってワー
ドチェーンを発生するかかる頻度を繰返し配列する方法
を述べる。
Description
【0001】
【産業上の利用分野】本発明は音声認識の分野、特に音
声認識のモデルを発生することに関するものである。
声認識のモデルを発生することに関するものである。
【0002】
【従来の技術】音声認識においては、認識すべき音声信
号を正規の間隔で走査して2つの走査間の音声区分を特
徴つける走査値からテスト信号を取出すようにしてい
る。これらのテスト信号は多数の基準信号と並列に比較
され、基準信号のシーケンスが所定語彙のワードを表わ
すようにする。これらの基準信号または基準信号のシー
ケンスは学習音声信号から取出すとともに音声信号の認
識の音響モデルを表わす。基準信号と各テスト信号との
比較からスコアを得るようにし、このスコアは各テスト
信号の基準信号との関連度またはこれら2つの信号間の
差を示す。
号を正規の間隔で走査して2つの走査間の音声区分を特
徴つける走査値からテスト信号を取出すようにしてい
る。これらのテスト信号は多数の基準信号と並列に比較
され、基準信号のシーケンスが所定語彙のワードを表わ
すようにする。これらの基準信号または基準信号のシー
ケンスは学習音声信号から取出すとともに音声信号の認
識の音響モデルを表わす。基準信号と各テスト信号との
比較からスコアを得るようにし、このスコアは各テスト
信号の基準信号との関連度またはこれら2つの信号間の
差を示す。
【0003】これがため、音声信号が流暢に話されたワ
ードである場合に、“認識された”即ち、決定されたワ
ードは、同時に、または、重なり合って発生する。その
理由は激しく話している間のワードの不正確さが決して
正確な認識をなし得ないからである。斯くして発生した
ワードから会話センテンスをできるだけ正確に決定する
ために、ワードのシーケンスの確率を示す追加の言語モ
デル値を用いる。ワードシーケンスのスコアを補充し
て、これらが極めて不適切となる他のワードと組合わさ
って発生する際に、比較的高い信頼性をもって決定され
たワードを消去する。これら言語モデル値は学習音声信
号に相当する学習テストまたは本体から決めるようにす
る。
ードである場合に、“認識された”即ち、決定されたワ
ードは、同時に、または、重なり合って発生する。その
理由は激しく話している間のワードの不正確さが決して
正確な認識をなし得ないからである。斯くして発生した
ワードから会話センテンスをできるだけ正確に決定する
ために、ワードのシーケンスの確率を示す追加の言語モ
デル値を用いる。ワードシーケンスのスコアを補充し
て、これらが極めて不適切となる他のワードと組合わさ
って発生する際に、比較的高い信頼性をもって決定され
たワードを消去する。これら言語モデル値は学習音声信
号に相当する学習テストまたは本体から決めるようにす
る。
【0004】基準信号のシーケンスに属するワードは自
然の会話エアで発生するワードを含む所定の語彙を形成
する。これらのワードは、自然テキストに広範囲に異な
る頻度で発生し、特に、音響的に認識または区別するの
がしばしば困難な多くの短いワードは比較的高い頻度で
発生する。加うるに、かかる語彙によって極めて好適で
ない言語モデルが導かれるようになる。
然の会話エアで発生するワードを含む所定の語彙を形成
する。これらのワードは、自然テキストに広範囲に異な
る頻度で発生し、特に、音響的に認識または区別するの
がしばしば困難な多くの短いワードは比較的高い頻度で
発生する。加うるに、かかる語彙によって極めて好適で
ない言語モデルが導かれるようになる。
【0005】
【発明が解決しようとする課題】本発明の目的は音声信
号のワードの認識を改善し得る方法を提供せんとするに
ある。これには特に言語モデルの改善、良好な言語モデ
ル値の決定、および不確定性の低減が含まれる。簡単の
ために、この不確定性は、音声信号のワードのシーケン
スが受けやすい解釈の数、即ち、多数の可能な解釈に関
連する高い不確定性の目安と見なすことができる。
号のワードの認識を改善し得る方法を提供せんとするに
ある。これには特に言語モデルの改善、良好な言語モデ
ル値の決定、および不確定性の低減が含まれる。簡単の
ために、この不確定性は、音声信号のワードのシーケン
スが受けやすい解釈の数、即ち、多数の可能な解釈に関
連する高い不確定性の目安と見なすことができる。
【0006】
【課題を解決するための手段】本発明によれば、この目
的は、一般に以下センテンス要素とも称されるワードお
よびワード群を具える学習音声信号から新たな語彙を形
成することによって達成される。これがため、この新た
な語彙は追加のセンテンス要素を含む。元の語彙のワー
ドは、この確率が極めて小さいにもかかわらず、個別の
場合に除去される。追加のセンテンス要素は学習音声信
号の少なくとも所定の頻度で発生させる必要がある。新
たな言語モデル値はこの新たな語彙に基づき学習音声信
号から取出す。次いで、テスト音声信号をこの新たな語
彙および新たな言語モデル値により処理する。ワードは
斯様に処理のテスト音声信号からより高い信頼性をもっ
て決める。
的は、一般に以下センテンス要素とも称されるワードお
よびワード群を具える学習音声信号から新たな語彙を形
成することによって達成される。これがため、この新た
な語彙は追加のセンテンス要素を含む。元の語彙のワー
ドは、この確率が極めて小さいにもかかわらず、個別の
場合に除去される。追加のセンテンス要素は学習音声信
号の少なくとも所定の頻度で発生させる必要がある。新
たな言語モデル値はこの新たな語彙に基づき学習音声信
号から取出す。次いで、テスト音声信号をこの新たな語
彙および新たな言語モデル値により処理する。ワードは
斯様に処理のテスト音声信号からより高い信頼性をもっ
て決める。
【0007】新たな語彙は種々の手段で形成することが
できる。例えば、最も多い発生頻度のワード対を最初に
決め、これを新たな語彙入力アイテムに組込む。次いで
全ての関連するワード対を学習本体の新たなセンテンス
要素によって置換する。更に、最も多い発生頻度のワー
ド対をこの修正された学習音声信号から再び決め、これ
を繰返す。本発明方法の好適な例では、新たな語彙の形
成は、まず最初、センテンス要素の全部の対である全て
の組合せを最初に学習音声信号で決める。これらの対は
所定の規準に従ってリストに配列する。次いで、リスト
の最初のアイテムから出発し、これに含まれる対の始端
または終端がこのリストの低位の対の、それぞれ終端ま
たは始端としてリストに発生するか否かをテストし、か
かる対を消去する。斯様にして、リスト全体を処理す
る。斯くして残存するリストアイテムは関連する組合
せ、即ち、学習音声信号のセンテンス要素の関連する対
と置換して新たなセンテンス要素を形成し得るようにす
る。次いで、これらのステップを繰返し、即ち、対の一
部分、または両部分が最初の作動で発生した対によって
既に形成されている場合でも、センテンス要素の組合せ
または対を再び形成する。この新たなリストを上述した
ように再び処理してセンテンス要素の好適な組合せが最
早得られないようになるまで、これらステップのこのシ
ーケンスを繰返すようにする。
できる。例えば、最も多い発生頻度のワード対を最初に
決め、これを新たな語彙入力アイテムに組込む。次いで
全ての関連するワード対を学習本体の新たなセンテンス
要素によって置換する。更に、最も多い発生頻度のワー
ド対をこの修正された学習音声信号から再び決め、これ
を繰返す。本発明方法の好適な例では、新たな語彙の形
成は、まず最初、センテンス要素の全部の対である全て
の組合せを最初に学習音声信号で決める。これらの対は
所定の規準に従ってリストに配列する。次いで、リスト
の最初のアイテムから出発し、これに含まれる対の始端
または終端がこのリストの低位の対の、それぞれ終端ま
たは始端としてリストに発生するか否かをテストし、か
かる対を消去する。斯様にして、リスト全体を処理す
る。斯くして残存するリストアイテムは関連する組合
せ、即ち、学習音声信号のセンテンス要素の関連する対
と置換して新たなセンテンス要素を形成し得るようにす
る。次いで、これらのステップを繰返し、即ち、対の一
部分、または両部分が最初の作動で発生した対によって
既に形成されている場合でも、センテンス要素の組合せ
または対を再び形成する。この新たなリストを上述した
ように再び処理してセンテンス要素の好適な組合せが最
早得られないようになるまで、これらステップのこのシ
ーケンスを繰返すようにする。
【0008】2つ以上のワードのワードセンテンスを具
える斯くして得られた新たなセンテンス要素を現存する
語彙に入れ、これにより新たな語彙を形成する。この新
たな語彙に基づき学習音声信号から新たな言語モデル値
を決める。
える斯くして得られた新たなセンテンス要素を現存する
語彙に入れ、これにより新たな語彙を形成する。この新
たな語彙に基づき学習音声信号から新たな言語モデル値
を決める。
【0009】上述したように、まず最初、ワードまたは
センテンス要素の対を決めるのが好適である。しかし、
3つで一組(トリプレット)のセンテンス要素を決める
こともでき、この場合には、これらトリプレットを互い
に組合せて最初および最後のワードまたはセンテンス要
素のみが同一となるようにすることもできる。かかる異
なるトリプレットがほぼ同一の頻度で発生する場合に
は、これは、トリプレットの中央のワードが言語モデル
に対しては左程重要でないことを意味する。センテンス
要素の対を決める処理が完了した後にトリプレットを決
めるのが有利である。
センテンス要素の対を決めるのが好適である。しかし、
3つで一組(トリプレット)のセンテンス要素を決める
こともでき、この場合には、これらトリプレットを互い
に組合せて最初および最後のワードまたはセンテンス要
素のみが同一となるようにすることもできる。かかる異
なるトリプレットがほぼ同一の頻度で発生する場合に
は、これは、トリプレットの中央のワードが言語モデル
に対しては左程重要でないことを意味する。センテンス
要素の対を決める処理が完了した後にトリプレットを決
めるのが有利である。
【0010】体系化リストの形成に有利な簡素化はセン
テンス要素のこれら組合せのみが少なくとも所定回数学
習音声信号で決められるリストに含まれることにある。
この回数は実験的に決めることができる。その理由はこ
れが極めて臨界的でないからである。
テンス要素のこれら組合せのみが少なくとも所定回数学
習音声信号で決められるリストに含まれることにある。
この回数は実験的に決めることができる。その理由はこ
れが極めて臨界的でないからである。
【0011】センテンス要素の組合せをリストに配列す
ることに従って規準を決める種々の可能性が存在する。
最も簡単な可能性はセンテンス要素の関連する組合せの
発生頻度とることである。これは最も容易に決めること
ができる。
ることに従って規準を決める種々の可能性が存在する。
最も簡単な可能性はセンテンス要素の関連する組合せの
発生頻度とることである。これは最も容易に決めること
ができる。
【0012】かかる規準の他の可能性は次式に従うワー
ド対の相互情報である。
ド対の相互情報である。
【数3】
【0013】学習本体のユニグラムな確率の変化率△F
を用いることもできる。これは次のように規定すること
ができる。
を用いることもできる。これは次のように規定すること
ができる。
【数4】
【0014】3つ以上のワードを具える新たなセンテン
ス要素を形成するには、ワードの短いセンテンス、例え
ば、前のステップで形成されたワード対を含めるように
する。かかる短いセンテンス要素の発生頻度は、これら
が長いセンテンス要素に部分的に含まれる際に減少す
る。従って、かかる短いセンテンス要素の発生頻度は、
所定頻度以下、特に、新たな語彙の形成中体系化リスト
に含むべきセンテンス要素の組合せに対して必要な頻度
以下に降下することがたまたま起り得ることがある。こ
の場合には、かかる短いセンテンス要素を再び小さな構
成部分に分割する、例えばワード対を単一ワードに分割
するのが好適である。これは、ステップの各シーケンス
後に、または所定数のかかるシーケンス後に体系化リス
トによって語彙の形成時に達成することができる。従っ
て、新たな語彙の形成のための所定のステップはかかる
分割後に再び実行される。
ス要素を形成するには、ワードの短いセンテンス、例え
ば、前のステップで形成されたワード対を含めるように
する。かかる短いセンテンス要素の発生頻度は、これら
が長いセンテンス要素に部分的に含まれる際に減少す
る。従って、かかる短いセンテンス要素の発生頻度は、
所定頻度以下、特に、新たな語彙の形成中体系化リスト
に含むべきセンテンス要素の組合せに対して必要な頻度
以下に降下することがたまたま起り得ることがある。こ
の場合には、かかる短いセンテンス要素を再び小さな構
成部分に分割する、例えばワード対を単一ワードに分割
するのが好適である。これは、ステップの各シーケンス
後に、または所定数のかかるシーケンス後に体系化リス
トによって語彙の形成時に達成することができる。従っ
て、新たな語彙の形成のための所定のステップはかかる
分割後に再び実行される。
【0015】数個のワードを具えるセンテンス要素の場
合には、個別のワードの順序を交換して、これらセンテ
ンス要素を互いに結合し、これらを同様に処理すること
もできる。
合には、個別のワードの順序を交換して、これらセンテ
ンス要素を互いに結合し、これらを同様に処理すること
もできる。
【0016】
【実施例】本発明方法の一例を図面を参照して説明す
る。本発明方法は学習音声テキストおよびこれに用いら
れる単一ワードより成る語彙の機能ボックス10から出
発する。その有効係数が以下に説明されるサイクル計数
器を機能ボックス12で値1に対して設定する。
る。本発明方法は学習音声テキストおよびこれに用いら
れる単一ワードより成る語彙の機能ボックス10から出
発する。その有効係数が以下に説明されるサイクル計数
器を機能ボックス12で値1に対して設定する。
【0017】機能ボックス14では、学習テキストに発
生するワードの全ての対を決めるとともにその発生頻度
を計数する。これら値を中間記憶装置に記憶する。
生するワードの全ての対を決めるとともにその発生頻度
を計数する。これら値を中間記憶装置に記憶する。
【0018】ワード対が決まり、全学習テキストに記憶
された後、中間記憶装置のメモリ内の全てのワード対は
機能ボックス16で再び順次に読取られる。中間記憶装
置のメモリが完全に処理されたかどうかを機能ボックス
18でテストする。完全に処理されていない限り、この
方法はテスト有利な9に移行し、ここで当該ワード対に
記憶された数がスレシホルド値Tよりも大きいか否かを
テストする。この値がスレシホルド値Tよりも大きくな
い場合には、次のワード対を機能ボックス16の中間記
憶メモリから読取る。この頻度Tが過剰となる場合に
は、規準の値、特に、上述した規準の一つを機能ボック
ス20内でこのワードに対して、例えば、最も簡単な場
合には発生頻度自体に対して決めるようにする。次い
で、このワード対を機能ボックス22内で、即ち、規準
の値に依存する位置でリストに導入する。次に、処理を
機能ボックス23に移行して、ここで次のワード対を読
取る。
された後、中間記憶装置のメモリ内の全てのワード対は
機能ボックス16で再び順次に読取られる。中間記憶装
置のメモリが完全に処理されたかどうかを機能ボックス
18でテストする。完全に処理されていない限り、この
方法はテスト有利な9に移行し、ここで当該ワード対に
記憶された数がスレシホルド値Tよりも大きいか否かを
テストする。この値がスレシホルド値Tよりも大きくな
い場合には、次のワード対を機能ボックス16の中間記
憶メモリから読取る。この頻度Tが過剰となる場合に
は、規準の値、特に、上述した規準の一つを機能ボック
ス20内でこのワードに対して、例えば、最も簡単な場
合には発生頻度自体に対して決めるようにする。次い
で、このワード対を機能ボックス22内で、即ち、規準
の値に依存する位置でリストに導入する。次に、処理を
機能ボックス23に移行して、ここで次のワード対を読
取る。
【0019】これがため、機能ボックス20および22
は繰返し移行され、学習音声信号の値Tよりもしばしば
多く発生するワード対の全部を規準に従って命令に含め
るようにしたリストが最終的に形成される。
は繰返し移行され、学習音声信号の値Tよりもしばしば
多く発生するワード対の全部を規準に従って命令に含め
るようにしたリストが最終的に形成される。
【0020】ワード対の全部が処理されたことをテスト
ユニット18によって最終的に確認すると、本発明方法
は機能ボックス23に移行し、ここで機能ボックス22
内に形成されたリストが全くエントリを含まないかどう
かをテストする。実際上、これは常時最初の読取りの場
合であり、処理は機能ボックス24に移行し、ここでリ
スト位置に対する計数器は値n=1に設定する。これ
は、規準に対する最も好適なスコアを有するワード対、
例えば、最高発生頻度が存在する第1リスト位置をアド
レス指定する。次いでこのワード対の最初のワードがリ
スト内に他の対の最終ワードとして発生するか否かをテ
ストし、最初のワードが発生する場合には、この後者の
ワード対を消去する。この後、またはこれと同時に、こ
のワード対の第2ワードをリストの全てのワード対の最
初のワードと比較して一致が検出された場合には、一致
するワード対も消去する。これを機能ボックス28で示
す。リスト位置のアドレスnを機能ボックス30で1だ
け増してこれが最終リスト位置Nであるか否かを機能ボ
ックス32でテストする。
ユニット18によって最終的に確認すると、本発明方法
は機能ボックス23に移行し、ここで機能ボックス22
内に形成されたリストが全くエントリを含まないかどう
かをテストする。実際上、これは常時最初の読取りの場
合であり、処理は機能ボックス24に移行し、ここでリ
スト位置に対する計数器は値n=1に設定する。これ
は、規準に対する最も好適なスコアを有するワード対、
例えば、最高発生頻度が存在する第1リスト位置をアド
レス指定する。次いでこのワード対の最初のワードがリ
スト内に他の対の最終ワードとして発生するか否かをテ
ストし、最初のワードが発生する場合には、この後者の
ワード対を消去する。この後、またはこれと同時に、こ
のワード対の第2ワードをリストの全てのワード対の最
初のワードと比較して一致が検出された場合には、一致
するワード対も消去する。これを機能ボックス28で示
す。リスト位置のアドレスnを機能ボックス30で1だ
け増してこれが最終リスト位置Nであるか否かを機能ボ
ックス32でテストする。
【0021】これは通常第1リスト位置の場合ではな
く、本発明方法は機能ボックス26に戻り、ここでアド
レス指定されたワード対の最初のワードを再び残りのリ
ストの全てのワード対の最終ワードと比較し、これを繰
返す。
く、本発明方法は機能ボックス26に戻り、ここでアド
レス指定されたワード対の最初のワードを再び残りのリ
ストの全てのワード対の最終ワードと比較し、これを繰
返す。
【0022】統計的リストが完全に処理された後に最終
リスト位置Nがアドレス指定されることはテストユニッ
ト32で明らかになり、次に、処理は機能ボックス34
に移行し、ここで、最初の読取りでのワード対のみを含
むリストに残る内容を中間記憶装置に記憶する。
リスト位置Nがアドレス指定されることはテストユニッ
ト32で明らかになり、次に、処理は機能ボックス34
に移行し、ここで、最初の読取りでのワード対のみを含
むリストに残る内容を中間記憶装置に記憶する。
【0023】次に、サイクル計数器sを機能ボックス3
8で1だけ増し、読取りまたはサイクルの所定数Sが完
了したかどうかをテストユニット40でテストする。こ
れが完了していない場合には、リストの内容を機能ボッ
クス50で学習テキストに入れる。これは例えば関連す
るワード対が学習テキストでユニット(1)としてマー
クされることで達成することができる。
8で1だけ増し、読取りまたはサイクルの所定数Sが完
了したかどうかをテストユニット40でテストする。こ
れが完了していない場合には、リストの内容を機能ボッ
クス50で学習テキストに入れる。これは例えば関連す
るワード対が学習テキストでユニット(1)としてマー
クされることで達成することができる。
【0024】次いで、本発明方法は再び機能ボックス1
4に戻るが、この際ワード対だけでなく、一般にセンテ
ンス要素の対が形成され、1センテンス要素は、1ワー
ド、1ワード対、または数個の処理サイクルが取られる
場合には、ワードの長いチェーンとなる。また、ここで
最初の読取りが行なわれた後、2つのワード対から一対
を形成して4ワードを具える新たなセンテンス要素が斯
様にして発生するようにすることもできる。機能ボック
ス16乃至40による他の手順は上述した所と同様に行
なうことができる。
4に戻るが、この際ワード対だけでなく、一般にセンテ
ンス要素の対が形成され、1センテンス要素は、1ワー
ド、1ワード対、または数個の処理サイクルが取られる
場合には、ワードの長いチェーンとなる。また、ここで
最初の読取りが行なわれた後、2つのワード対から一対
を形成して4ワードを具える新たなセンテンス要素が斯
様にして発生するようにすることもできる。機能ボック
ス16乃至40による他の手順は上述した所と同様に行
なうことができる。
【0025】処理によるサイクルの所定数Sが完了した
ことを機能ボックス40で決める際には、処理は機能ボ
ックス42に移行する。ここで、一つのワードでなく2
つ以上のワードより成るセンテンス要素の或る発生が他
のセンテンス要素と結合されてユニット(1)となり、
前のセンテンス要素の残りの発生数が所定のスレシホル
ド値印加に降下するものとする。この場合にはこのセン
テンス要素は再び機能ボックス46でその構成部分に分
割し、即ち、このセンテンス要素を機能ボックス34に
累積されたリスト内容から消去して中間記憶装置に記憶
する。次いで、サイクル計数器sを機能ボックス48で
再び値1に設定する。この後、上述したように、新たに
形成された全てのセンテンス要素、即ち、元の語彙に存
在しないセンテンス要素を学習音声テキストに入れ、斯
くして処理の他のサイクルを完了する。
ことを機能ボックス40で決める際には、処理は機能ボ
ックス42に移行する。ここで、一つのワードでなく2
つ以上のワードより成るセンテンス要素の或る発生が他
のセンテンス要素と結合されてユニット(1)となり、
前のセンテンス要素の残りの発生数が所定のスレシホル
ド値印加に降下するものとする。この場合にはこのセン
テンス要素は再び機能ボックス46でその構成部分に分
割し、即ち、このセンテンス要素を機能ボックス34に
累積されたリスト内容から消去して中間記憶装置に記憶
する。次いで、サイクル計数器sを機能ボックス48で
再び値1に設定する。この後、上述したように、新たに
形成された全てのセンテンス要素、即ち、元の語彙に存
在しないセンテンス要素を学習音声テキストに入れ、斯
くして処理の他のサイクルを完了する。
【0026】かかる処理で、空のリストが機能ボックス
22内に形成されること、即ち、少なくとも所定の周波
数で発生するセンテンス要素の新たな対が見出せなかっ
たことをテストユニット23で検出されると、新たな語
彙の形成が完了し処理は機能ボックス54に移行し、こ
こで機能ボックス34の記憶装置に記憶されているリス
ト内容を元の語彙に最終的に入れて新たな語彙を形成す
る。次いで、機能ボックス56の新たな語彙により新た
な言語モデルを形成し、即ち、新たな言語モデル値を発
生する。
22内に形成されること、即ち、少なくとも所定の周波
数で発生するセンテンス要素の新たな対が見出せなかっ
たことをテストユニット23で検出されると、新たな語
彙の形成が完了し処理は機能ボックス54に移行し、こ
こで機能ボックス34の記憶装置に記憶されているリス
ト内容を元の語彙に最終的に入れて新たな語彙を形成す
る。次いで、機能ボックス56の新たな語彙により新た
な言語モデルを形成し、即ち、新たな言語モデル値を発
生する。
【0027】これにより処理は終端部58に移行し、こ
こで新たな語彙および新たな言語モデル値が得られるよ
うにし、これによって新たな未知のテスト音声信号を処
理し得るようにする。 機能ボックス42で示されるテ
ストが処理の各サイクルで行なわれる場合には、機能ボ
ックス12、38、40および48を商略し得ることも
ちろんである。
こで新たな語彙および新たな言語モデル値が得られるよ
うにし、これによって新たな未知のテスト音声信号を処
理し得るようにする。 機能ボックス42で示されるテ
ストが処理の各サイクルで行なわれる場合には、機能ボ
ックス12、38、40および48を商略し得ることも
ちろんである。
【図1】 本発明方法の一例をフローチャートにより詳
細に示す説明図である。
細に示す説明図である。
10−56 機能ボックス 18、19、23、32、40 テストユニット 58 終端部
───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands
Claims (10)
- 【請求項1】 正規の間隔で走査されるテスト音声信号
のワードを決定する方法であって、この方法によりテス
ト信号を走査された値から取出すとともにこの信号はワ
ード決定用スコアを得るために基準信号と比較し、基準
信号のシーケンスはワードを表わすとともに学習音声信
号から得るようにし、さらに、学習本体から取出され且
つそのワードシーケンスの確率を示す言語モデル値をワ
ードの決定に用いるようにして音声信号のワードを決定
するに当たり、少なくとも所定頻度で発生する新たな語
彙をワードおよびワード群によって形成されたセンテン
ス要素を具える学習音声信号から形成し、この語彙に対
し新たな言語モデル値を学習音声信号から決定し、これ
ら新たな語彙および新たな言語モデル値を用いてテスト
音声信号のワードを決めるようにしたことを特徴とする
音声信号のワード決定方法。 - 【請求項2】 新たな語彙の決定に際し、次のステッ
プ: a)学習音声信号のセンテンス要素の組合せを決定し; b)所定の規準に従って配列されたセンテンス要素の決
定された組合せのリストを形成し; c)前記リストのセンテンス要素の最初の組合せから出
発し、その始端の高位の組合せの最終センテンス要素、
またはその後端の高位の組合せの最初のセンテンス要素
を具える、このリストの全てのセンテンス要素を消去
し; d)これらセンテンス要素の組合せは、この置換後、新
たなセンテンス要素として学習音声信号のセンテンス要
素の関連する組合せを残存し; e)ステップb)に空のリストのみが形成されるまで、
ステップa)乃至d)を繰返す;ステップを具えること
を特徴とする請求項1に記載の音声信号のワード決定方
法。 - 【請求項3】 前記センテンス要素の組合せは、一対の
センテンス要素とすることを特徴とする請求項2に記載
の音声信号のワード決定方法。 - 【請求項4】 前記センテンス要素の組合せは、最初お
よび最後のセンテンス要素が同一である3個で一組のセ
ンテンス要素とすることを特徴とする請求項2に記載の
音声信号のワード決定方法。 - 【請求項5】 空のリストのみが形成されるまでこれら
対のセンテンス要素に対して前記ステップa)乃至e)
を繰返し、次いで、3個で一組のセンテンス要素に対し
てステップa)乃至e)を繰返すようにしたことを特徴
とする請求項3または4に記載の音声信号のワード決定
方法。 - 【請求項6】 前記学習音声信号の少なくとも所定の最
初の回数が検出されたこれらセンテンス要素の組合せの
みが、前記リストに含まれることを特徴とする請求項2
〜5の何れかの項に記載の音声信号のワード決定方法。 - 【請求項7】 前記規準を、センテンス要素の組合せの
発生頻度とすることを特徴とする請求項2に記載の音声
信号のワード決定方法。 - 【請求項8】 前記規準は、次式: 【数1】 で示される相互情報とすることを特徴とする請求項2に
記載の音声信号のワード決定方法。 - 【請求項9】 前記規準は、次式: 【数2】 で示される学習本体のユニグラム確率の変化率△Fであ
ることを特徴とする請求項2に記載の音声信号のワード
決定方法。 - 【請求項10】 前記ステップa)乃至d)の所定回数
の繰返し後、センテンス要素の組合せの置換により発生
頻度が所定の2回数以下となるセンテンス要素を少なく
とも2つの簡単な構成センテンス要素に細分割して、ス
テップa)乃至d)を再度繰返すようにしたことを特徴
とする請求項2に記載の音声信号のワード決定方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998104603 DE19804603A1 (de) | 1998-02-06 | 1998-02-06 | Verfahren zum Ermitteln von Wörtern in einem Sprachsignal |
DE19804603:0 | 1998-02-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11272290A true JPH11272290A (ja) | 1999-10-08 |
Family
ID=7856762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2604799A Pending JPH11272290A (ja) | 1998-02-06 | 1999-02-03 | 音声信号のワ―ド決定方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0935238A3 (ja) |
JP (1) | JPH11272290A (ja) |
DE (1) | DE19804603A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000031727A1 (en) * | 1998-11-24 | 2000-06-02 | Koninklijke Philips Electronics N.V. | Optimization device for optimizing a vocabulary of a speech recognition device |
DE10006725A1 (de) * | 2000-02-15 | 2001-08-30 | Hans Geiger | Verfahren und Vorrichtung zum Erkennen einer phonetischen Lautfolge oder Zeichenfolge |
WO2003017252A1 (de) | 2001-08-13 | 2003-02-27 | Knittel, Jochen | Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge |
-
1998
- 1998-02-06 DE DE1998104603 patent/DE19804603A1/de not_active Withdrawn
-
1999
- 1999-01-26 EP EP99200210A patent/EP0935238A3/de not_active Withdrawn
- 1999-02-03 JP JP2604799A patent/JPH11272290A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP0935238A3 (de) | 2000-02-23 |
DE19804603A1 (de) | 1999-08-12 |
EP0935238A2 (de) | 1999-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7603279B2 (en) | Grammar update system and method for speech recognition | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US5127055A (en) | Speech recognition apparatus & method having dynamic reference pattern adaptation | |
JPH10240288A (ja) | 言語モデル適合による音声認識方法 | |
JP3834169B2 (ja) | 連続音声認識装置および記録媒体 | |
TWI610294B (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
US7406417B1 (en) | Method for conditioning a database for automatic speech processing | |
CA3115974C (en) | Presentation assistance device for calling attention to words that are forbidden to speak | |
CN110956016A (zh) | 一种文档内容格式的调整方法、装置及电子设备 | |
JPH05197395A (ja) | 音声信号のワードシーケンス認識方法および装置 | |
JP4408490B2 (ja) | データベース照会を実行する方法及びその装置 | |
CN109300468B (zh) | 一种语音标注方法及装置 | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
JP2002358096A (ja) | リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム | |
CN109615009B (zh) | 一种学习内容推荐方法及电子设备 | |
CN112562659A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
US20220148584A1 (en) | Apparatus and method for analysis of audio recordings | |
CN110808049A (zh) | 语音标注文本修正方法、计算机设备和存储介质 | |
CN117292688B (zh) | 一种基于智能语音鼠标的控制方法及智能语音鼠标 | |
US20020184019A1 (en) | Method of using empirical substitution data in speech recognition | |
JPH11272290A (ja) | 音声信号のワ―ド決定方法 | |
JP4199927B2 (ja) | 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置 | |
CN112133309A (zh) | 音频和文本的同步方法、计算设备及存储介质 | |
JPH06266386A (ja) | ワードスポッティング方法 | |
JPH11202886A (ja) | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |