JPH08106296A - 単語認識システム - Google Patents
単語認識システムInfo
- Publication number
- JPH08106296A JPH08106296A JP7241639A JP24163995A JPH08106296A JP H08106296 A JPH08106296 A JP H08106296A JP 7241639 A JP7241639 A JP 7241639A JP 24163995 A JP24163995 A JP 24163995A JP H08106296 A JPH08106296 A JP H08106296A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sequence
- value
- reference signal
- transition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 230000007704 transition Effects 0.000 claims abstract description 56
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 description 10
- 238000000034 method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 230000005923 long-lasting effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
(57)【要約】
【課題】 音声信号からの単語の認識信頼度を向上させ
る。 【解決手段】 音声認識に当っては、音声信号からのテ
スト信号を予定した基準信号と比較して(ブロック3
0)、スコアを求めるようにする。その後の各テスト信
号は、以前のテスト信号に対して最適であることが確か
められた基準値の予定した近傍内に位置する基準値と比
較される。斯かる近傍に応じて、推移確率に従う推移値
がスコアに加算される。特に、現実の話者が話す速度が
異なる場合に、認識結果の向上を図るために、前記推移
値を、話者が話す速度に応じて適合化させるようにする
(ブロック50)。基準値そのものを当該話者の発音の
仕方に適合させる(ブロック60)ことによっても認識
信頼度を向上させることができる。この適合化は多数の
ステップで反復的に行なうこともできる。
る。 【解決手段】 音声認識に当っては、音声信号からのテ
スト信号を予定した基準信号と比較して(ブロック3
0)、スコアを求めるようにする。その後の各テスト信
号は、以前のテスト信号に対して最適であることが確か
められた基準値の予定した近傍内に位置する基準値と比
較される。斯かる近傍に応じて、推移確率に従う推移値
がスコアに加算される。特に、現実の話者が話す速度が
異なる場合に、認識結果の向上を図るために、前記推移
値を、話者が話す速度に応じて適合化させるようにする
(ブロック50)。基準値そのものを当該話者の発音の
仕方に適合させる(ブロック60)ことによっても認識
信頼度を向上させることができる。この適合化は多数の
ステップで反復的に行なうこともできる。
Description
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号から予定
した語彙の単語を認識するためのシステムであって、 − 音声信号をピックアップし、且つディジタルテスト
信号の系列を供給するための第1手段と、 − 前記語彙の単語に対応する基準信号の系列を格納す
るための第2手段と、 − 前記第1及び第2手段に結合され、前記テスト信号
を第1基準信号と比較して、各第1基準信号に対して、
前記テスト信号と第1基準信号との差に依存するスコア
を求めるための第3手段であって、前記第1基準信号
は、以前のテスト信号に対して比較が首尾よく行われた
関連系列内の第2基準信号と同一とするか、又はその第
2基準信号の近傍内の信号とし、前記第2基準信号から
の距離に応じて、前記スコアを推移確率に依存する推移
値によって増分させるように構成した第3手段と、 − 連続するテスト信号と比較される各基準信号系列に
対する増分スコアを加算し、これら増分スコアの和が最
小である最適系列を求めて、この最適系列に関連する1
つ又は複数の単語を出力するための第4手段と、を具え
ている単語認識システムに関するものである。
した語彙の単語を認識するためのシステムであって、 − 音声信号をピックアップし、且つディジタルテスト
信号の系列を供給するための第1手段と、 − 前記語彙の単語に対応する基準信号の系列を格納す
るための第2手段と、 − 前記第1及び第2手段に結合され、前記テスト信号
を第1基準信号と比較して、各第1基準信号に対して、
前記テスト信号と第1基準信号との差に依存するスコア
を求めるための第3手段であって、前記第1基準信号
は、以前のテスト信号に対して比較が首尾よく行われた
関連系列内の第2基準信号と同一とするか、又はその第
2基準信号の近傍内の信号とし、前記第2基準信号から
の距離に応じて、前記スコアを推移確率に依存する推移
値によって増分させるように構成した第3手段と、 − 連続するテスト信号と比較される各基準信号系列に
対する増分スコアを加算し、これら増分スコアの和が最
小である最適系列を求めて、この最適系列に関連する1
つ又は複数の単語を出力するための第4手段と、を具え
ている単語認識システムに関するものである。
【0002】
【従来の技術】斯種のシステムはDE3215868C
2から既知である。この既知のシステムは特に、単語系
列を特定化(決定)するのに役立ち、この場合における
個々の単語に対応する基準信号の系列はメモリに格納さ
れており、特殊な手段を講じて、単語推移(word transi
tions)を特定化するようにしている。連続するテスト信
号と基準信号との比較又はこれらの比較結果は二次元格
子にて表わすことができ、この二次元格子にて、出発点
からの連続テスト信号を単語内で比較した出発点からの
各基準信号の系列に対して、1つの単語における所定の
出発点からこの単語の終点までの格子における経路を見
つけるために、どの基準信号が次のテスト信号と関連し
てスコアの最小加算値を発生するかが特定化される。従
って、単語内では次のテスト信号が、丁度到達した経路
の終点付近の所定の近傍内に位置するような基準値と比
較される。このようにして、実際に話された単語と、こ
の単語の基準値の系列との間の非線形の時間的な適合化
が達成される。単語内では様々な推移、即ち以前のテス
ト信号に対して見つけた最適基準値に対して、或るテス
ト信号用に最適であることが分かった基準値の近傍が等
価的な方法にて処理される。
2から既知である。この既知のシステムは特に、単語系
列を特定化(決定)するのに役立ち、この場合における
個々の単語に対応する基準信号の系列はメモリに格納さ
れており、特殊な手段を講じて、単語推移(word transi
tions)を特定化するようにしている。連続するテスト信
号と基準信号との比較又はこれらの比較結果は二次元格
子にて表わすことができ、この二次元格子にて、出発点
からの連続テスト信号を単語内で比較した出発点からの
各基準信号の系列に対して、1つの単語における所定の
出発点からこの単語の終点までの格子における経路を見
つけるために、どの基準信号が次のテスト信号と関連し
てスコアの最小加算値を発生するかが特定化される。従
って、単語内では次のテスト信号が、丁度到達した経路
の終点付近の所定の近傍内に位置するような基準値と比
較される。このようにして、実際に話された単語と、こ
の単語の基準値の系列との間の非線形の時間的な適合化
が達成される。単語内では様々な推移、即ち以前のテス
ト信号に対して見つけた最適基準値に対して、或るテス
ト信号用に最適であることが分かった基準値の近傍が等
価的な方法にて処理される。
【0003】DE3710507A1には話された単語
を認識するための同様なシステムが開示されており、こ
の場合には連続するテスト信号に対する最適な基準信号
に関する種々の近傍を考慮している。従って推移確率が
明確にモデル化される。特に、固定の推移値を前記近傍
に応じてスコアに加えている。スコアはこの位置にて実
際に話された単語が適切な基準信号に対応する確率の負
の対数によって求められるものとする。
を認識するための同様なシステムが開示されており、こ
の場合には連続するテスト信号に対する最適な基準信号
に関する種々の近傍を考慮している。従って推移確率が
明確にモデル化される。特に、固定の推移値を前記近傍
に応じてスコアに加えている。スコアはこの位置にて実
際に話された単語が適切な基準信号に対応する確率の負
の対数によって求められるものとする。
【0004】推移値を適切に選定することによって経路
の対角線進路に優先順位を与えることができる。その理
由は、単語が話される速度は基準信号の系列に対応する
ために斯様な対角線経路が最も予想されるからである。
従って、単語は様々な話し方で、スコアが異なる場合に
も認識することができる。話し言葉の速度は推移値を選
択することによりモデル化される。
の対角線進路に優先順位を与えることができる。その理
由は、単語が話される速度は基準信号の系列に対応する
ために斯様な対角線経路が最も予想されるからである。
従って、単語は様々な話し方で、スコアが異なる場合に
も認識することができる。話し言葉の速度は推移値を選
択することによりモデル化される。
【0005】
【発明が解決しようとする課題】基準値はシステムを実
際に使用する前に話しておく必要のあるテスト文に基づ
いて決定される。システムを所定のユーザ用のものとす
る場合には、これらのテスト文をユーザ専用に記録す
る。従って、この場合には話し言葉の速度は同じ時間で
モデル化される。しかし、システムを複数のユーザ用、
つまり汎用のものとする場合には、システムを話者に全
く無関係とすべきであり、基準値を多数の異なる話者に
よって話されたテスト文から取出すことができる。この
場合には、基準値そのもの並びに推移値に対する平均値
を決定し、これらの平均値が全ての単語におけるあらゆ
る位置に対して同じとなるようにする。しかし、この場
合、話者が例えば極めて早口で話して、単語を経る基準
信号の最適経路が対角線経路よりも急峻となる場合に、
推移値によって得られるスコアが総体的に劣り、話され
た単語が同じように発音される基準単語に対して誤って
解釈されがちとなるため、認識信頼度が低下することに
なる。
際に使用する前に話しておく必要のあるテスト文に基づ
いて決定される。システムを所定のユーザ用のものとす
る場合には、これらのテスト文をユーザ専用に記録す
る。従って、この場合には話し言葉の速度は同じ時間で
モデル化される。しかし、システムを複数のユーザ用、
つまり汎用のものとする場合には、システムを話者に全
く無関係とすべきであり、基準値を多数の異なる話者に
よって話されたテスト文から取出すことができる。この
場合には、基準値そのもの並びに推移値に対する平均値
を決定し、これらの平均値が全ての単語におけるあらゆ
る位置に対して同じとなるようにする。しかし、この場
合、話者が例えば極めて早口で話して、単語を経る基準
信号の最適経路が対角線経路よりも急峻となる場合に、
推移値によって得られるスコアが総体的に劣り、話され
た単語が同じように発音される基準単語に対して誤って
解釈されがちとなるため、認識信頼度が低下することに
なる。
【0006】本発明の目的は様々な話者による使用に対
して高い信頼度を呈する冒頭にて述べた種類の単語認識
システムを提供することにある。
して高い信頼度を呈する冒頭にて述べた種類の単語認識
システムを提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明によれば、前記冒頭にて述べた単語認識シス
テムにおいて、基準信号の最適系列と比較されるテスト
信号が取出された音声信号の長さと、前記基準信号の最
適系列の長さとのずれに応じて、前記推移値を後の比較
用の新規の推移値に変更する第5手段を設けたことを特
徴とする。
に、本発明によれば、前記冒頭にて述べた単語認識シス
テムにおいて、基準信号の最適系列と比較されるテスト
信号が取出された音声信号の長さと、前記基準信号の最
適系列の長さとのずれに応じて、前記推移値を後の比較
用の新規の推移値に変更する第5手段を設けたことを特
徴とする。
【0008】従って、本発明によるシステムでは推移値
を適合化することにより、現実のユーザが話す速度に基
準信号の系列を適合させる。単語が認識、或いは確認さ
れたら直ぐに推移値を適合化して、次の単語を一層確実
に認識することができる。
を適合化することにより、現実のユーザが話す速度に基
準信号の系列を適合させる。単語が認識、或いは確認さ
れたら直ぐに推移値を適合化して、次の単語を一層確実
に認識することができる。
【0009】推移値を適合化するために、本発明の好適
例では、Tを前記テスト信号の系列の長さとし、且つN
を前記基準信号の系列の長さとする場合に、前記第5手
段が次の比、即ち n=T/N に応じて推移値aを次のように新規の推移値a′に変更
すべく構成され、 a′i,i =ai,i −(n−1)b a′i,i+1 =ai,i+1 a′i,i+2 =ai,i+2 +(n−1)b こゝに、指数i,iは、第1基準信号が第2基準信号に
等しいことを意味し、指数i,i+1は、第1及び第2
基準信号が直接隣接することを意味し、指数i,i+2
は第1及び第2基準信号が他の基準信号によって分離さ
れ、且つbが予定した比例係数を意味するものとする。
例では、Tを前記テスト信号の系列の長さとし、且つN
を前記基準信号の系列の長さとする場合に、前記第5手
段が次の比、即ち n=T/N に応じて推移値aを次のように新規の推移値a′に変更
すべく構成され、 a′i,i =ai,i −(n−1)b a′i,i+1 =ai,i+1 a′i,i+2 =ai,i+2 +(n−1)b こゝに、指数i,iは、第1基準信号が第2基準信号に
等しいことを意味し、指数i,i+1は、第1及び第2
基準信号が直接隣接することを意味し、指数i,i+2
は第1及び第2基準信号が他の基準信号によって分離さ
れ、且つbが予定した比例係数を意味するものとする。
【0010】従って、実際に話された単語の、基準信号
系列の長さに対する比を用いて推移値を変更することに
より、好ましくは対角線からの或るずれが、対角線から
の他のずれを抑圧するのと同程度となるように、総推移
確率が全ての推移に対して一定となるようにする。
系列の長さに対する比を用いて推移値を変更することに
より、好ましくは対角線からの或るずれが、対角線から
の他のずれを抑圧するのと同程度となるように、総推移
確率が全ての推移に対して一定となるようにする。
【0011】このようにしてシステムの実際のユーザが
話す実際の速度を考慮することにより認識信頼度がかな
り向上する。
話す実際の速度を考慮することにより認識信頼度がかな
り向上する。
【0012】さらに本発明の他の好適例では、前記基準
値ri を次のように新規の基準値r′i に変更するため
の第6手段を設け、 ri ′=ri (1−c)+c・yt ここにyt を基準値の最適系列における基準値ri と比
較されるテスト信号とし、且つcを予定値とする。この
ようにして、話す速度だけでなく、イントネーション、
即ち話者の音声の広がりをも考慮する。このように、基
準値を現実の話者の基準値に適合させることは原則的に
既知ではあるが、その適合化を話者が話す速度に結びつ
けることは知られていなかった。
値ri を次のように新規の基準値r′i に変更するため
の第6手段を設け、 ri ′=ri (1−c)+c・yt ここにyt を基準値の最適系列における基準値ri と比
較されるテスト信号とし、且つcを予定値とする。この
ようにして、話す速度だけでなく、イントネーション、
即ち話者の音声の広がりをも考慮する。このように、基
準値を現実の話者の基準値に適合させることは原則的に
既知ではあるが、その適合化を話者が話す速度に結びつ
けることは知られていなかった。
【0013】話す速度、場合によっては当面の話者の発
音の仕方に適合化させることは注意深く行なう必要があ
る。その理由は、同じ話者でも後に彼又は彼女の話し方
は変えられるから、特別な方法で当面の話者が話した1
つ又は数個の単語における偶発的な極端な値に対しては
適合化を図るべきでないからである。話す速度に対する
適合化の度合は、比例係数bによって行なうことがで
き、場合によっては基準値そのものの変更に対する適合
化は予定した値cによって行なうことができ、こうした
2つの数量はあまり大きくすべきではない。しかし、そ
れにも拘らず当面の話者の話し方に適切に適合させるた
めに、本発明の他の好適例では、少なくとも同じ音声信
号内の基準信号の変更を数回にわたり行なうようにす
る。当面の話者の話し方に対するステップバイステップ
の適合化は幾つかの単語を認識した後に達成される。
音の仕方に適合化させることは注意深く行なう必要があ
る。その理由は、同じ話者でも後に彼又は彼女の話し方
は変えられるから、特別な方法で当面の話者が話した1
つ又は数個の単語における偶発的な極端な値に対しては
適合化を図るべきでないからである。話す速度に対する
適合化の度合は、比例係数bによって行なうことがで
き、場合によっては基準値そのものの変更に対する適合
化は予定した値cによって行なうことができ、こうした
2つの数量はあまり大きくすべきではない。しかし、そ
れにも拘らず当面の話者の話し方に適切に適合させるた
めに、本発明の他の好適例では、少なくとも同じ音声信
号内の基準信号の変更を数回にわたり行なうようにす
る。当面の話者の話し方に対するステップバイステップ
の適合化は幾つかの単語を認識した後に達成される。
【0014】
【発明の実施の形態】図1は本発明によるシステムのブ
ロック図を示し、マイクロホン2は話者が話した音響信
号を電気信号に変換する。この電気信号はブロック10
にてさらに処理され、これにて電気信号はディジタル化
され、且つ例えばセグメントにおける音声信号の個々の
周波数成分が決定される。このようなセグメントの長さ
は、例えば10ms〜20msの範囲内の均一値とする。ブ
ロック10はテスト信号をブロック30に出力する。
ロック図を示し、マイクロホン2は話者が話した音響信
号を電気信号に変換する。この電気信号はブロック10
にてさらに処理され、これにて電気信号はディジタル化
され、且つ例えばセグメントにおける音声信号の個々の
周波数成分が決定される。このようなセグメントの長さ
は、例えば10ms〜20msの範囲内の均一値とする。ブ
ロック10はテスト信号をブロック30に出力する。
【0015】ブロック30ではテスト信号が基準信号と
比較され、この基準信号はブロック30により制御さ
れ、且つアドレスされるメモリ20から供給される。こ
れらの基準信号は、好ましくは数人の異なる話者が話し
たテスト文を分析することにより前もって決定されてい
る。ブロック30での前記比較により、ブロック30に
格納されている推移値により増分されるスコアが発生す
る。ブロック40では、種々の単語を経る様々な経路
(パス)に対する増分スコアが加算される。しかし、こ
の加算はスコアを決定する前記比較処理と同時に行なう
こともできる。単語の終了時、又は数個の単語を含むこ
ともある音声信号の終了時には、ブロック40にて最適
な全経路が決定されて、対応する単語系列がブロック7
0に出力される。このブロックは、例えば表示スクリー
ンとすることができるが、これは音声指令によって制御
すべきとするデバイスにより形成するのが好適である。
比較され、この基準信号はブロック30により制御さ
れ、且つアドレスされるメモリ20から供給される。こ
れらの基準信号は、好ましくは数人の異なる話者が話し
たテスト文を分析することにより前もって決定されてい
る。ブロック30での前記比較により、ブロック30に
格納されている推移値により増分されるスコアが発生す
る。ブロック40では、種々の単語を経る様々な経路
(パス)に対する増分スコアが加算される。しかし、こ
の加算はスコアを決定する前記比較処理と同時に行なう
こともできる。単語の終了時、又は数個の単語を含むこ
ともある音声信号の終了時には、ブロック40にて最適
な全経路が決定されて、対応する単語系列がブロック7
0に出力される。このブロックは、例えば表示スクリー
ンとすることができるが、これは音声指令によって制御
すべきとするデバイスにより形成するのが好適である。
【0016】連続テスト信号と種々の単語の基準信号と
の比較及び最適な単語系列の確定につき以下図2を参照
して詳細に説明する。時間軸tは受信した音声信号によ
り決定されるテスト信号の系列を表わすのに対し、縦軸
Rは明瞭化のために上下に配列した複数の単語に対する
基準信号の系列を表わす。図2は、第1テスト信号が単
語W1に関連する基準信号の系列R1に最も良く対応し
ていることを示している。他の単語に関連する他の基準
信号の系列R2及びR3の開始部との比較も常に開始さ
れるが、ここではその類似度は、こうした一連の比較が
直ぐに終了してしまうほどに小さいものとする。従っ
て、一般に、その後のテスト信号と例えば基準信号の系
列R1との新たな比較が再び開始するが、こうした比較
も直ぐに終了してしまう。その理由は、後に話される音
声信号の部分は基準信号の系列R1の開始部とはかなり
ずれるからである。
の比較及び最適な単語系列の確定につき以下図2を参照
して詳細に説明する。時間軸tは受信した音声信号によ
り決定されるテスト信号の系列を表わすのに対し、縦軸
Rは明瞭化のために上下に配列した複数の単語に対する
基準信号の系列を表わす。図2は、第1テスト信号が単
語W1に関連する基準信号の系列R1に最も良く対応し
ていることを示している。他の単語に関連する他の基準
信号の系列R2及びR3の開始部との比較も常に開始さ
れるが、ここではその類似度は、こうした一連の比較が
直ぐに終了してしまうほどに小さいものとする。従っ
て、一般に、その後のテスト信号と例えば基準信号の系
列R1との新たな比較が再び開始するが、こうした比較
も直ぐに終了してしまう。その理由は、後に話される音
声信号の部分は基準信号の系列R1の開始部とはかなり
ずれるからである。
【0017】基準信号の系列R1を経る経路の終了後
(この経路は単語W1に対応する)、基準信号の系列R
1〜R3の開始部との比較が続行され、本例では、基準
信号の系列R3から開始している経路が最適経路又はサ
ブ経路となって、その後単語W3が認識されたものとし
て出力される。音声信号が長く持続する場合には、多く
の単語が話されるから、上述したような比較が同様に継
続される。
(この経路は単語W1に対応する)、基準信号の系列R
1〜R3の開始部との比較が続行され、本例では、基準
信号の系列R3から開始している経路が最適経路又はサ
ブ経路となって、その後単語W3が認識されたものとし
て出力される。音声信号が長く持続する場合には、多く
の単語が話されるから、上述したような比較が同様に継
続される。
【0018】1つの単語内での比較を行なう際中に生ず
る事象を図3につき詳細に説明する。この図3は図2の
細部、即ち瞬時tとt+1における2つの連続するテス
ト信号のみに対する推移を幾つかの基準信号ri , r
i+1 ,ri+2 等と一緒に示したものである。瞬時tにお
けるテスト信号では、最適経路Pがさしあたり基準値r
i にて終了したものとする。次いで、瞬時t+1におけ
る次のテスト信号が、許容推移ai,i ,ai,i+1 及びa
i,i+2 (これらの推移にはそれ相当に指定された推移値
が関連付けられる)に従って基準信号ri , ri+1 及び
ri+2 と比較される。本例におけるこれらの推移値は推
移確率の負の対数に相当する。瞬時t+1におけるテス
ト信号と基準信号ri との比較により得られるスコア
は、これら2つの信号間の差に依存し、且つ前記スコア
は推移値ai,i により増分される。同様に、このテスト
信号と基準信号ri+1 との比較により、推移値ai,i+1
により増分されるスコアが得られる。同様に、基準信号
ri+2 との斯かるテスト信号の比較により、推移値a
i,i+2 により増分されるスコアが得られる。推移値a
i,i及びai,i+2 は、例えば等しいか、又は僅かに異な
る値とするのに対して、推移値ai,i+1 は十分小さくす
る。瞬時t+1におけるテスト信号が、図示の3つの全
ての基準信号に対してほぼ同じ差を呈する場合には(こ
れは隣接している基準値が似ていることがよくあるか
ら、極めてありがちなことである)、基準値ri+ 1 との
比較により推移値によって増分されるスコアが最小とな
るため、基準値r i にて終了した経路Pが対角線方向に
連続する。従って、この対角線方向が優先される。
る事象を図3につき詳細に説明する。この図3は図2の
細部、即ち瞬時tとt+1における2つの連続するテス
ト信号のみに対する推移を幾つかの基準信号ri , r
i+1 ,ri+2 等と一緒に示したものである。瞬時tにお
けるテスト信号では、最適経路Pがさしあたり基準値r
i にて終了したものとする。次いで、瞬時t+1におけ
る次のテスト信号が、許容推移ai,i ,ai,i+1 及びa
i,i+2 (これらの推移にはそれ相当に指定された推移値
が関連付けられる)に従って基準信号ri , ri+1 及び
ri+2 と比較される。本例におけるこれらの推移値は推
移確率の負の対数に相当する。瞬時t+1におけるテス
ト信号と基準信号ri との比較により得られるスコア
は、これら2つの信号間の差に依存し、且つ前記スコア
は推移値ai,i により増分される。同様に、このテスト
信号と基準信号ri+1 との比較により、推移値ai,i+1
により増分されるスコアが得られる。同様に、基準信号
ri+2 との斯かるテスト信号の比較により、推移値a
i,i+2 により増分されるスコアが得られる。推移値a
i,i及びai,i+2 は、例えば等しいか、又は僅かに異な
る値とするのに対して、推移値ai,i+1 は十分小さくす
る。瞬時t+1におけるテスト信号が、図示の3つの全
ての基準信号に対してほぼ同じ差を呈する場合には(こ
れは隣接している基準値が似ていることがよくあるか
ら、極めてありがちなことである)、基準値ri+ 1 との
比較により推移値によって増分されるスコアが最小とな
るため、基準値r i にて終了した経路Pが対角線方向に
連続する。従って、この対角線方向が優先される。
【0019】早口の話者の場合には、瞬時t+1におけ
るテスト信号の方が基準値ri+2 に似ることがある。し
かし、推移値ai,i+2 が推移値ai,i+1 よりもあまりに
も大き過ぎる場合には、対角線方向が誤った方向に強制
されることになる。こうしたことが単語内、即ち基準信
号の系列内にて繰返し生ずる場合には、結局はテスト信
号系列と基準信号系列との間の良好な類似度(過度に早
い音声を除く)にとってふさわしいものよりも劣るスコ
アの加算値が得られる。これにより、全体的に認識信頼
度が劣ることになる。従って、話者があまりに早口か、
又はあまりにゆっくり話すことがあったら直ぐに推移値
を変更して、前記対角線から同じようにずれている方向
を優先するようにするのが有利である。
るテスト信号の方が基準値ri+2 に似ることがある。し
かし、推移値ai,i+2 が推移値ai,i+1 よりもあまりに
も大き過ぎる場合には、対角線方向が誤った方向に強制
されることになる。こうしたことが単語内、即ち基準信
号の系列内にて繰返し生ずる場合には、結局はテスト信
号系列と基準信号系列との間の良好な類似度(過度に早
い音声を除く)にとってふさわしいものよりも劣るスコ
アの加算値が得られる。これにより、全体的に認識信頼
度が劣ることになる。従って、話者があまりに早口か、
又はあまりにゆっくり話すことがあったら直ぐに推移値
を変更して、前記対角線から同じようにずれている方向
を優先するようにするのが有利である。
【0020】このような適合化は図1のブロック50に
て次のようにして行なわれる。1つの単語又は短い単語
系列が認識されている場合、即ち当該系列の終端に至る
経路が少なくとも1つの基準信号系列にて決定されてい
る場合には、この単語認識の目的にどれほどのテスト信
号が必要とされたかがわかる。この系列の基準信号の数
は与えられているから、次の比nを計算することができ
る。 n=T/N こゝに、Tは単語を認識したテスト信号の数であり、N
は当該系列における基準信号の数である。この比nを用
いることにより新たな推移値a′を当面の推移値aから
特定化する。 a′i,i =ai,i −(n−1)b a′i,i+1 =ai,i+1 a′i,i+2 =ai,i+2 +(n−1)b
て次のようにして行なわれる。1つの単語又は短い単語
系列が認識されている場合、即ち当該系列の終端に至る
経路が少なくとも1つの基準信号系列にて決定されてい
る場合には、この単語認識の目的にどれほどのテスト信
号が必要とされたかがわかる。この系列の基準信号の数
は与えられているから、次の比nを計算することができ
る。 n=T/N こゝに、Tは単語を認識したテスト信号の数であり、N
は当該系列における基準信号の数である。この比nを用
いることにより新たな推移値a′を当面の推移値aから
特定化する。 a′i,i =ai,i −(n−1)b a′i,i+1 =ai,i+1 a′i,i+2 =ai,i+2 +(n−1)b
【0021】比例係数bは推移値を話者の話し方に適合
させる度合を決定する。この適合化が話者の話し方での
偶然の極値に過度に左右されないようにするために、比
例係数bの値はあまり大きな値とすべきではない。比例
係数bの値は、推移値aを前述したように推移確率の負
の対数で表わす場合には、b=180で適当な妥協が見
られることを確かめた。従って、経路の対角線進路に対
する推移値は斯かるbの値に無関係に一定に保たれ、こ
れは早口の音声の場合には、急峻な推移値ai, i+2 が、
急峻でない推移ai,i に対する推移値を増分させるのと
同程度に低減されるからである。従って、全体としては
連続するテスト信号用の基準信号間の急峻な推移が優先
される。これと同じことがゆっくり話される音声の場合
にも云える。新規の推移値はブロック30に転送され
て、次の比較用に用いられる。
させる度合を決定する。この適合化が話者の話し方での
偶然の極値に過度に左右されないようにするために、比
例係数bの値はあまり大きな値とすべきではない。比例
係数bの値は、推移値aを前述したように推移確率の負
の対数で表わす場合には、b=180で適当な妥協が見
られることを確かめた。従って、経路の対角線進路に対
する推移値は斯かるbの値に無関係に一定に保たれ、こ
れは早口の音声の場合には、急峻な推移値ai, i+2 が、
急峻でない推移ai,i に対する推移値を増分させるのと
同程度に低減されるからである。従って、全体としては
連続するテスト信号用の基準信号間の急峻な推移が優先
される。これと同じことがゆっくり話される音声の場合
にも云える。新規の推移値はブロック30に転送され
て、次の比較用に用いられる。
【0022】基準信号そのものを話者の発音の仕方に適
合させることにより認識信頼度をさらに向上させること
ができる。これは図1のブロック60にて次のようにし
て行なう。
合させることにより認識信頼度をさらに向上させること
ができる。これは図1のブロック60にて次のようにし
て行なう。
【0023】単語を上述した方法で認識した後に、以前
最適経路を見つけた基準信号の系列とテスト信号を再び
比較し;各基準信号yi を次のような適合化基準信号r
i ′に変換する。 r′i =ri (1−c)+c・yt こゝに、yt は瞬時tに基準信号ri と比較されるテス
ト信号であり、係数cは当面の基準信号を変更させた程
度を示す。特に、基準信号を連続する単語に複数段階に
て適合させる場合には、値cをc=0.13とするのが
有効であることを確かめた。
最適経路を見つけた基準信号の系列とテスト信号を再び
比較し;各基準信号yi を次のような適合化基準信号r
i ′に変換する。 r′i =ri (1−c)+c・yt こゝに、yt は瞬時tに基準信号ri と比較されるテス
ト信号であり、係数cは当面の基準信号を変更させた程
度を示す。特に、基準信号を連続する単語に複数段階に
て適合させる場合には、値cをc=0.13とするのが
有効であることを確かめた。
【0024】斯くして、これまでは基準信号の系列が各
単語を表わすものとしていた。しかし、基準信号の個々
の系列が多くの単語にとって同じとなり得る音素を表わ
す音声認識システムもある。この場合には認識した音素
から単語を形成する。推移値或いは基準信号を適合化す
る上述した方法は斯種の音声認識システムに使用するの
も好適である。
単語を表わすものとしていた。しかし、基準信号の個々
の系列が多くの単語にとって同じとなり得る音素を表わ
す音声認識システムもある。この場合には認識した音素
から単語を形成する。推移値或いは基準信号を適合化す
る上述した方法は斯種の音声認識システムに使用するの
も好適である。
【0025】さらに、上述した例に対立するものとし
て、推移値が全ての基準信号に対して同じでなく、系列
内の基準信号の位置に応じて互いにずれるようにする方
法を用いることもできる。この場合、適合化係数bは、
必要に応じ、位置依存法にて決定する必要がある。
て、推移値が全ての基準信号に対して同じでなく、系列
内の基準信号の位置に応じて互いにずれるようにする方
法を用いることもできる。この場合、適合化係数bは、
必要に応じ、位置依存法にて決定する必要がある。
【図1】本発明による単語認識システムの一例を示すブ
ロック図である。
ロック図である。
【図2】連続する単語を経る経路の形成法を示す線図で
ある。
ある。
【図3】2つの連続するテスト信号に対する推移を示す
線図である。
線図である。
2 マイクロホン 10 テスト信号出力ブロック 20 基準信号格納メモリ 30 スコア発生ブロック 40 単語系列出力ブロック 50 推移値変更ブロック 60 基準信号適合化ブロック 70 単語系列表示ブロック
フロントページの続き (72)発明者 ハンス−ウィルヘルム リュール ドイツ連邦共和国 90552 レーテンバッ ハ/ピグニッツ カール−フイッシャー− シュトラーセ 5
Claims (4)
- 【請求項1】 音声信号から予定した語彙の単語を認識
するためのシステムであって、 − 音声信号をピックアップし、且つディジタルテスト
信号の系列を供給するための第1手段と、 − 前記語彙の単語に対応する基準信号の系列を格納す
るための第2手段と、 − 前記第1及び第2手段に結合され、前記テスト信号
を第1基準信号と比較して、各第1基準信号に対して、
前記テスト信号と第1基準信号との差に依存するスコア
を求めるための第3手段であって、前記第1基準信号
は、以前のテスト信号に対して比較が首尾よく行われた
関連系列内の第2基準信号と同一とするか、又はその第
2基準信号の近傍内の信号とし、前記第2基準信号から
の距離に応じて、前記スコアを推移確率に依存する推移
値によって増分させるように構成した第3手段と、 − 連続するテスト信号と比較される各基準信号系列に
対する増分スコアを加算し、これら増分スコアの和が最
小である最適系列を求めて、この最適系列に関連する1
つ又は複数の単語を出力するための第4手段と、を具え
ている単語認識システムにおいて、基準信号の最適系列
と比較されるテスト信号が取出された音声信号の長さ
と、前記基準信号の最適系列の長さとのずれに応じて、
前記推移値を後の比較用の新規の推移値に変更する第5
手段を設けたことを特徴とする単語認識システム。 - 【請求項2】 Tを前記テスト信号の系列の長さとし、
且つNを前記基準信号の系列の長さとする場合に、前記
第5手段が次の比、即ち n=T/N に応じて推移値aを次のように新規の推移値a′に変更
すべく構成され、 a′i,i =ai,i −(n−1)b a′i,i+1 =ai,i+1 a′i,i+2 =ai,i+2 +(n−1)b こゝに、指数i,iは、第1基準信号が第2基準信号に
等しいことを意味し、指数i,i+1は、第1及び第2
基準信号が直接隣接することを意味し、指数i,i+2
は第1及び第2基準信号が他の基準信号によって分離さ
れ、且つbが予定した比例係数を意味するものとしたこ
とを特徴とする請求項1に記載のシステム。 - 【請求項3】 前記基準値ri を次のように新規の基準
値r′i に変更するための第6手段を設け、 ri ′=ri (1−c)+c・yt ここにyt を基準値の最適系列における基準値ri と比
較されるテスト信号とし、且つcを予定値としたことを
特徴とする請求項1又は2に記載のシステム。 - 【請求項4】 同じ音声信号内での基準値の変更を少な
くとも数回行なうことを特徴とする請求項1〜3のいず
れか一項に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4433484 | 1994-09-20 | ||
DE4433484:2 | 1994-10-26 | ||
DE4438185:4 | 1994-10-26 | ||
DE4438185A DE4438185A1 (de) | 1994-09-20 | 1994-10-26 | System zum Ermitteln von Wörtern aus einem Sprachsignal |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08106296A true JPH08106296A (ja) | 1996-04-23 |
Family
ID=25940284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7241639A Abandoned JPH08106296A (ja) | 1994-09-20 | 1995-09-20 | 単語認識システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5687288A (ja) |
EP (1) | EP0703569B1 (ja) |
JP (1) | JPH08106296A (ja) |
AT (1) | ATE190167T1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19941227A1 (de) * | 1999-08-30 | 2001-03-08 | Philips Corp Intellectual Pty | Verfahren und Anordnung zur Spracherkennung |
JP2001100781A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
US7016835B2 (en) * | 1999-10-29 | 2006-03-21 | International Business Machines Corporation | Speech and signal digitization by using recognition metrics to select from multiple techniques |
KR100434538B1 (ko) * | 1999-11-17 | 2004-06-05 | 삼성전자주식회사 | 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법 |
DE50109323D1 (de) * | 2001-12-21 | 2006-05-11 | Ericsson Telefon Ab L M | Verfahren und vorrichtung zur spracherkennung |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
GB0224806D0 (en) * | 2002-10-24 | 2002-12-04 | Ibm | Method and apparatus for a interactive voice response system |
WO2006092173A1 (en) * | 2005-03-02 | 2006-09-08 | Agilent Technologies, Inc. | Analog signal test using a-priori information |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58132298A (ja) * | 1982-02-01 | 1983-08-06 | 日本電気株式会社 | 窓制限付パタンマツチング装置 |
DE3215868A1 (de) | 1982-04-29 | 1983-11-03 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette |
JPS61145599A (ja) * | 1984-12-19 | 1986-07-03 | 日本電気株式会社 | 連続音声認識装置 |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
DE3640355A1 (de) * | 1986-11-26 | 1988-06-09 | Philips Patentverwaltung | Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens |
DE3710507A1 (de) | 1987-03-30 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE3711342A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen zusammenhaengend gesprochener woerter |
US4803729A (en) * | 1987-04-03 | 1989-02-07 | Dragon Systems, Inc. | Speech recognition method |
IT1229782B (it) * | 1989-05-22 | 1991-09-11 | Face Standard Ind | Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento |
DE3931638A1 (de) * | 1989-09-22 | 1991-04-04 | Standard Elektrik Lorenz Ag | Verfahren zur sprecheradaptiven erkennung von sprache |
US5208897A (en) * | 1990-08-21 | 1993-05-04 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
DE4306508A1 (de) * | 1993-03-03 | 1994-09-08 | Philips Patentverwaltung | Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal |
-
1995
- 1995-09-12 EP EP95202470A patent/EP0703569B1/de not_active Expired - Lifetime
- 1995-09-12 AT AT95202470T patent/ATE190167T1/de not_active IP Right Cessation
- 1995-09-14 US US08/528,289 patent/US5687288A/en not_active Expired - Fee Related
- 1995-09-20 JP JP7241639A patent/JPH08106296A/ja not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US5687288A (en) | 1997-11-11 |
EP0703569A1 (de) | 1996-03-27 |
EP0703569B1 (de) | 2000-03-01 |
ATE190167T1 (de) | 2000-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9502024B2 (en) | Methods, apparatus and computer programs for automatic speech recognition | |
US5946654A (en) | Speaker identification using unsupervised speech models | |
US5991720A (en) | Speech recognition system employing multiple grammar networks | |
US8428944B2 (en) | System and method for performing compensated speech recognition | |
KR100321841B1 (ko) | 스피치 애플리케이션의 언어 모델 갱신 방법 | |
US6990451B2 (en) | Method and apparatus for recording prosody for fully concatenated speech | |
JP2018124425A (ja) | 音声対話装置及び音声対話方法 | |
JPH08234788A (ja) | 音声認識のバイアス等化方法および装置 | |
US7447636B1 (en) | System and methods for using transcripts to train an automated directory assistance service | |
JPH08106296A (ja) | 単語認識システム | |
US11798559B2 (en) | Voice-controlled communication requests and responses | |
US6377921B1 (en) | Identifying mismatches between assumed and actual pronunciations of words | |
US20220399013A1 (en) | Response method, terminal, and storage medium | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
JP2000105776A (ja) | データベース照会を実行するための配置及びその方法 | |
JP3069531B2 (ja) | 音声認識方法 | |
JP2001125588A (ja) | 音声認識装置及び方法ならびに記録媒体 | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
JP2004226881A (ja) | 会話システム及び会話処理プログラム | |
JPH11184491A (ja) | 音声認識装置 | |
JP3553828B2 (ja) | 音声蓄積再生方法および音声蓄積再生装置 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
KR100350003B1 (ko) | 음성신호로부터워드를결정하는시스템 | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
JPH1124693A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20050608 |