JP5105682B2 - 基準変換手段を伴なう音声認識装置 - Google Patents
基準変換手段を伴なう音声認識装置 Download PDFInfo
- Publication number
- JP5105682B2 JP5105682B2 JP2001562482A JP2001562482A JP5105682B2 JP 5105682 B2 JP5105682 B2 JP 5105682B2 JP 2001562482 A JP2001562482 A JP 2001562482A JP 2001562482 A JP2001562482 A JP 2001562482A JP 5105682 B2 JP5105682 B2 JP 5105682B2
- Authority
- JP
- Japan
- Prior art keywords
- reference information
- information
- speech recognition
- reception channel
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 53
- 239000011159 matrix material Substances 0.000 claims abstract description 64
- 230000009466 transformation Effects 0.000 claims abstract description 44
- 230000006978 adaptation Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims description 57
- 239000013598 vector Substances 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 9
- 238000009825 accumulation Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims 2
- 101100435497 Drosophila melanogaster ari-1 gene Proteins 0.000 abstract 3
- 101000808896 Caenorhabditis elegans Potential E3 ubiquitin-protein ligase ariadne-2 Proteins 0.000 abstract 2
- 101000808922 Homo sapiens E3 ubiquitin-protein ligase ARIH1 Proteins 0.000 abstract 1
- 230000001131 transforming effect Effects 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 7
- 101100323945 Arabidopsis thaliana ARI3 gene Proteins 0.000 description 6
- 101150021453 ARI1 gene Proteins 0.000 description 5
- 101150107506 ARIH2 gene Proteins 0.000 description 5
- 102100038513 E3 ubiquitin-protein ligase ARIH2 Human genes 0.000 description 5
- 101150076105 ari-2 gene Proteins 0.000 description 5
- 101150009632 prx2 gene Proteins 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004040 coloring Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Description
本発明は、請求項1の種類に記載される音声認識装置、請求項4の種類に記載される音声認識方法、請求項7の種類に記載される基準決定方法、及び、請求項9の種類に記載されるコンピュータプログラム製品に関連する。
【0002】
音声認識装置、音声認識方法、基準決定方法、及び、コンピュータプログラム製品は、例えば、US−A5,890,113により既知である。既知の音声認識装置は、基準情報を蓄積する基準蓄積手段を有する。基準情報は、複数の基準話者による単語の発音の形式の分析を介して、基準決定方法中に音声認識装置の製造者により決定される。各規準話者は特定の単語をマイクロフォンに発音し、そして、分析手段がマイクロフォンに入力された音声情報からいわゆる特徴ベクトルを分析し、その特徴ベクトルは基準話者の音声情報の周波数成分の時間パターンを記述する。テキストの単語の各音素の発音に対する全ての基準話者の特徴ベクトルの平均値を構成することにより、個々の基準話者の特異性が平均化されそして、このように決定された基準情報は話者に依存する音声認識システムに適する。基準話者の音声情報の特徴ベクトルは、受信チャネルを構成する入力装置(マイクロフォン、電話等...)の歪にも依存するので、基準決定方法と共に、基準話者は音声情報の特徴ベクトルの最小な歪を可能とするマイクロフォンを使用する。基準蓄積装置に蓄積された既知の音声認識装置のこの基準情報は、音声認識装置の認識率を改善するために、ユーザにより使用される入力装置に、ユーザにより適応される。この目的のために、基準蓄積手段内に蓄積された基準情報を入力装置により発生されたひずみに適応させるために、既知の音声認識装置は、チャネル適応手段を受ける。この歪は、音声情報の周波数ベクトル内で作られ、このベクトルは、音声認識装置の分析手段により発生される。
【0003】
基準蓄積手段内に蓄積された既知の音声認識装置の基準情報は、このユーザの音声認識装置の認識率を更に改善するために、音声認識装置のユーザにより、単語の発音の形式に適応される。この目的のために、既知の音声認識装置は、基準蓄積手段内に蓄積され且つ既にユーザにより使用される受信チャネルに適応される基準情報を、単語の発音のユーザの形式に適応させるためのユーザ適応手段を有する。受信チャネルとユーザに適応される基準情報は、音声情報又は音声情報から決定される特徴ベクトルの1つにそれぞれ割り当てられるテキスト情報を決定するために、音声認識装置の音声認識手段により使用される。
【0004】
既知の音声認識装置、音声認識方法、基準決定方法及びコンピュータプログラム製品と共に、異なる入力装置を使用するときに、ユーザはこれらの入力装置の各々に基準情報を適応させるという欠点があることがわかった。これは、例えば、習慣的にコンピュータに接続されたマイクロフォンでテキストを口述するがしかし、時々、電話によりコンピュータに命令を与えそして、時々、コンピュータにより構成された音声認識装置により後に認識されるテキストを、途中で口述するためにディジタル口述装置を使用するユーザに関係する。そのようにするときには、ユーザは、基準情報をユーザ及び入力装置に適応させ且つ異なる入力装置が使用されるときに比較的よい認識結果が得られるようにするために、ユーザの入力装置の各々に対するそれぞれの入力装置で予め定義されたテキストを入力する。
【0005】
本発明の目的は、上述の問題を除去し且つ、前文に定義された形式の、ユーザはもはや基準情報を異なる入力チャネルに適応させる必要のない、音声認識装置、音声認識方法、基準決定方法及び、コンピュータプログラム製品を提供することである。この目的は、請求項1の特徴的な部分の手段に従った音声認識装置、請求項4の特徴的な部分の手段に従った音声認識方法、請求項7の特徴的な部分の手段に従った基準決定方法、及び、請求項9の特徴的な部分の手段に従ったコンピュータプログラム製品により達成される。
【0006】
これは、典型的な受信チャネルに適応されてた典型的な基準情報に加えて、基準を決定する方法と共に、決定された基準情報を他の典型的な基準チャネルに適応させるために、変換マトリクスが各々の更なる典型的な受信チャネルに対して決定される。これは、音声認識装置が、全ての入力装置で、実際的な均一で良好な認識率に達するために、これらの典型的な入力装置の1つのみで、基準情報を単語の発音のユーザの形式に適応させることを必要とするという優位点を提供する。そして、基準変換手段は、ユーザ及び典型的な受信装置基準情報に適応された基準情報から、ユーザにより使用され得るそれぞれの更なる典型的な受信装置又は典型的な受信チャネルに対して、決定する。例えば、以下の典型的な受信チャネルに対して、音声情報が、マイクロフォン、アナログ又はディジタル電話ネットワークを介した電話、移動電話又は、ディジタル口述装置により受信される、変換マトリクスと適応基準情報が決定される。
【0007】
請求項2又は請求項5に従った手段により、ユーザとこれらの典型的な受信チャネルの1つに適応された基準情報は、ユーザによる更なる動作なしに、自動的に他の全ての典型的な受信チャネルに適応される。
【0008】
請求項3又は請求項6に従った手段により、音声情報の周波数サブレンジは、特徴ベクトルがそれぞれの受信チャネルから受信される周波数スペクトルの最も可能な画像を与えるようにするために、これらの周波数サブレンジを特徴とする特徴ベクトル内で表現される。例えば、4kHzまでの周波数スペクトルを有する音声情報信号が典型的な受信チャネルからチャネルから受信される場合には、受信された音声情報を記述するために、4kHzよりも高い周波数サブレンジ内の音声情報を記述する特徴ベクトルは決定されない。
【0009】
請求項8に記載された手段は、決定された基準情報又は決定された変換マトリクスが典型的な受信チャネルの特性を記述し且つ個々の特殊性がフィルタ除去されるという優位性を提供する。例えば、20の異なるディジタル口述装置が、典型的なディジタル口述装置の受信チャネルをコピーするために基準決定方法に関して使用される。
【0010】
本発明は、変換マトリクス発生器の図1に示す実施例と、基準変換手段を含む音声認識装置の図2に示す実施例を参照して以下に詳細に説明し、一方、本発明は、これらの実施例には限定されない。
【0011】
図1は、主メモリに、ソフトウェアコード部分を有し且つ基準決定ソフトウェアにより構成される第1のコンピュータプログラムをロードできるコンピュータを示す。コンピュータが基準決定ソフトウェアを実行するときには、コンピュータは変換マトリクス発生器1を構成し且つ、基準決定方法に従って動作する。基準決定方法で、一方では、3つの異なる形式の受信チャネルに対する基準情報RIと、他方では、典型的な受信チャネルの1つの決定された基準情報RIを、典型的な受信チャネルの他の1つの決定された受信情報RIへ変換するための変換マトリクスT1−2,T1−3及びT2−3、が決定される。
【0012】
第1の基準情報RI1は、10の異なるマイクロフォン3−1から3−10によりコピーされた、第1の典型的な受信チャネル2に対して決定される。更に、第2の基準情報RI2は、10の異なる電話線5−1から5−10によりコピーされた、第2の典型的な受信チャネル4に対して決定される。更に、第3の基準情報RI3は、10の異なるディジタル口述装置7−1から7−10によりコピーされた、第3の典型的な受信チャネル6に対して決定される。これらの典型的な受信チャネル2,4及び、6の各々は、マイクロフォン3の1つに、電話5の1つに、ディジタル口述装置6の1つに、ユーザにより話された音声情報SIに対する異なる伝送特性を有し、この結果、変換マトリクス発生器1に与えられる音声情報は、使用されるそれぞれの受信チャネル2,4、又は、6により色が付される。
【0013】
それぞれの受信チャネル2,4又は6による音声情報SIの色付けは、音声情報SIの8kHzまでの周波数は第1の受信チャネル2を介して伝送され、3.7kHzまでは第2の受信チャネル4を介して伝送され、そして、4kHz以上は第3の受信チャネル6を介してそして、音声情報SIのそれより高い周波数部分は伝送されないということにより発生される。更に、伝送された音声情報SIの個々の周波数部分は、それぞれの受信チャネルにより、それぞれ強く減衰されるので、音声情報SIは、それぞれの受信チャネル2,4又は、6により色が付される。
【0014】
第1の典型的な受信チャネル2の且つ変換マトリクス発生器1により発生された第1の基準情報RI1、及び、決定された変換マトリクスT1−2、T1−3及び、T2−3は、第2のコンピュータ製品を構成し且つ図2に示されたコンピュータにより実行される音声認識ソフトウェアの一部を構成する。コンピュータが音声認識ソフトウェアを実行するときには、コンピュータは音声認識装置8を構成し且つ音声認識装置8に与えられる音声情報SIに割り当てることができる認識するテキスト情報TIに対する音声認識方法に従って動作する。この処理中に、音声認識装置8は第1、第2又は、第3の基準情報RIを評価する。
【0015】
ユーザにより話され且つ音響情報を含む音声情報SIは、長い時間知られてきたように、約40の音素で記述できる。音声認識装置8は、40のどの音素がどの順序で音声情報SI内に含まれているかを決定されるということから、他のものの中で、受信された音声情報信号SIに割り当てられるべきテキスト情報TIを認識する。しかし、音声情報SIを入力するためにユーザにより選択される入力装置又は、受信チャネル2,4又は、6により、音声情報SI内に含まれる各音素の音響情報は、色が付される。音声認識装置8の高認識率を得るために、音声認識装置8は、音声認識方法が実行されながら、それぞれの受信チャネル2,4、又は、6による音声情報SIの色付けを考慮するために、ユーザにより選択される受信チャネル2,4,又は、6に対して決定される第1、第2又は、第3の基準情報RIをそれぞれ評価する。
【0016】
音声情報内SI内に含まれる各音素の音響情報は、音声認識装置8の実際のユーザにも依存するので、各ユーザは単語とその音素を僅かに異なって発音する。従って、以下に更に説明するように、音声認識装置8の非常に高い認識率を達成するために、第1、第2又は、第3の基準情報RIは、それぞれのユーザ毎の適応手段に適応される。
【0017】
変換マトリクス発生器1は、第1のオーディオ端子9、第2のオーディオ端子10及び、第3のオーディオ端子11を有する。変換マトリクス発生器1の第1のオーディオ端子9と第2のオーディオ端子10へは、音声情報SIを含む、アナログオーディオ信号ASを与えることが可能である。変換マトリクス発生器1の第3のオーディオ端子11には、音声情報SI内にも含まれるディジタルオーディオデータADを与えられることが可能である。
【0018】
変換マトリクス発生器1は、第1のオーディオ端子9と第2のオーディオ端子10へ送られるオーディオ信号ASをディジタル化するための第1のA/D変換器12と第2のA/D変換器13を含む。アナログオーディオ信号AS内に含まれている音声情報SIは、第1のA/D変換器12と第2のA/D変換器13から、ディジタルオーディオデータADとして出力される。
【0019】
変換マトリクス発生器1は、更に、第1と第2のA/D変換器12と13によりそれぞれ送られるオーディオデータADと第3のオーディオ端子11からのオーディオデータADが与えられる分析手段14を有する。分析手段14は、与えられるオーディオデータAD内に含まれる音声情報SIを分析し、且つ、それぞれの受信チャネル2,4又は、6による40の音素の各々の色付けを特徴とする基準情報RIを決定するために使用される。
【0020】
この目的のために、分析手段14は、10ミリ秒毎に、32の成分を含む特徴ベクトルを決定する。特徴ベクトルの32の成分のうちの16は、それぞれの受信チャネルにより伝送される全体の周波数範囲の16の周波数範囲内の音声情報SIの振幅値を記述する。特徴ベクトルの32の成分の内の残りの16は、16の振幅値の時間にわたる変化を記述する。40の音素の各々は、32の成分を含む1つのそのような特徴ベクトルにより記述される。異なる周囲(隣接音素)内の音素の音響情報の差を考慮するために、40の音素の各々は、32の成分を有する音素特徴ベクトルの400の典型的なサンプルにより記述される。
【0021】
分析手段14は、このように、第1の受信チャネルを介して変換マトリクス発生器1に与えられる多数のオーディオデータADの分析の結果として、40の音素の各々に対する第1の基準情報RI1として32の成分を含む特徴ベクトルの2,400の典型的なサンプルを決定する。このように、全体で400x32x40=512,000の数値は、第1の受信チャネル2により色が付される40の音素を特徴とする第1の基準情報RI1として、分析手段14により決定される。同様に多くの数値は、第2の受信チャネル4により色が付される40の音素を特徴とする第2の基準情報RI2として、そして、第3の受信チャネル6により色が付される40の音素を特徴とする第3の基準情報RI3として、分析手段14により決定される。
【0022】
個々の話者による単語の発音の形式に大きく独立し且つ話者独立基準情報RIとも呼ばれる、基準情報RIは、変換マトリクス発生器1により決定される。この目的のために、複数のユーザは、一般的に知られているように、個々の話者の差を満足に平均する、基準決定方法に従って、入力装置3,5及び7に向かって予め定義されたテキストを話す。これを以下に、変換マトリクス1のアプリケーションの例として説明する。
【0023】
変換マトリクス発生器1は、更に、第1の基準情報RI1を蓄積する第1の基準蓄積手段15、第2の基準情報RI2を蓄積する第2の基準蓄積手段16、及び、第3の基準情報RI3を蓄積する第3の基準蓄積手段17を有する。変換マトリクス発生器1更に、変換マトリクス発生手段18を有し、それは、基準蓄積手段15,16及び17内に蓄積された基準情報をRIを読出し且つ、32−成分特徴ベクトルを比較するのに使用される。変換マトリクス発生手段18の比較の結果として、それらは、32−成分特徴ベクトルを示すための32のローと32のコラムを有する変換マトリクスT1−2、T1−3及び、T2−3を決定できる。
【0024】
変換マトリクス発生手段18により決定される変換マトリクスT1−2、T1−3及び、T2−3は、基準蓄積手段15,16及び17内に蓄積された基準情報RI1、RI2及びRI3から、これらの3つの変換マトリクスT1−2、T1−3及び、T2−3の2つと共に、常に基準蓄積手段内に蓄積された他の2つの基準情報信号RI1、RI2及び、RI3を決定できる、特性を有する。例えば、変換マトリクスT1−2を第1の基準蓄積手段15内に蓄積された第1の基準情報信号RI1に適用することにより、第2の基準蓄積手段16内に蓄積された第2の基準情報信号RI2を計算できる。専門家に対して、変換マトリクスT1−2の特性のこの記述は、変換マトリクス発生手段18により決定される変換マトリクスT1−2を十分に開示する。変換マトリクス発生手段18により決定される変換マトリクスT1−2,T1−3及びT2−3を、変換マトリクス発生器1の基準変換手段19内に蓄積することが可能である。
【0025】
以下に、変換マトリクスT1−2,T1−3及びT2−3の発生を、図1に示す変換マトリクス発生器1のアプリケーションの例を参照して更に説明する。基準決定方法は、音声認識装置8に関する音声認識ソフトウェアを開発する会社のコンピュータにより実行される。この会社は、音声認識装置8に関する典型的な入力装置に、マイクロフォン3に、電話5に、そして、ディジタル口述装置7に、既に適合されている基準情報RIを決定したい。更に、基準情報RIと変換マトリクスT1−2,T1−3及びT2−3は、ドイツ語に対して決定されることが意図されている。
【0026】
この目的のために、会社は、数週間内に、1時間の間テキストを声を出して読む、いわゆる基準話者と呼ばれる、合計で100人のドイツ語の話者を集める。そして、最初の10人の話者により発生された音声情報SIがマイクロフォン3−1、電話5−1及び、ディジタル口述装置7−1に与えられ、次の10人の話者により発生された音声情報SIがマイクロフォン3−2、電話5−2及び、ディジタル口述装置7−2に与えられ、そして、それぞれの更に10人の話者により発生された音声情報SIが、それぞれ、更なるマイクロフォン3−3から3−10、電話5−3から5−10及び、ディジタル口述装置7−3から7−10に与えられる。
【0027】
受信チャネル2,4及び6のこれらの10の入力装置の各々は、僅かに異なる伝送特性を有しているので、分析手段14には、受信チャネル2,4,及び、6の典型であるオーディオデータADが供給される。これは、変換マトリクス発生器1が典型的な入力装置に対して基準情報RIを決定できるという優位点を有する。分析手段14に与えられる、オーディオデータADに関する多数の話者と多量のデータの結果、分析手段14は、それぞれの受信チャネル2,4,又は6に適応される独立の基準情報RI1,RI2及び、RI3を決定する。
【0028】
このために、分析手段14は、上述のように、異なる受信チャネル2,4,及び6により供給されるオーディオデータADに対する32−成分特徴ベクトルの時間パターンを決定する。分析手段14は、そして、受信チャネル2,4及び6に対する特徴ベクトルの16の周波数サブレンジを固定し、それにより、それぞれの受信チャネル内で伝送される周波数レンジは特徴ベクトルにより最適に記述される。例えば、第1の受信チャネル2内で伝送される8kHzまでの周波数レンジは、8000Hz/16=500Hzの周波数サブレンジ(0から500Hz,500Hzから1000Hz,...7500Hzから8000Hz)により記述され、そして、第3の受信チャネル6内で伝送される4kHzまでの周波数レンジは、4000Hz/16=250Hzの周波数サブレンジ(0から250Hz,250Hzから500Hz,...3750Hzから4000Hz)により記述される。
【0029】
これは、32−成分特徴ベクトルの各々が、実際にオーディオデータADがそれぞれの受信チャネル2,4又は6から受信される周波数サブレンジを記述するという優位点を提供する。優位に、例えば、4kHzまでの周波数レンジ内に音声情報SIを含む第3の受信チャネル6を渡って受信されたオーディオデータADは、音声情報SIの全くない、4kHzから8kHzの周波数サブレンジ内の特徴ベクトルの8つの成分により記述されるということが避けられる。
【0030】
分析手段14が3つの受信チャネル2,4及び6に対して決定する基準情報RI1、RI2及び、RI3は、それぞれ、基準蓄積手段15,16及び17内に蓄積される。変換マトリクス発生手段18は、上述のように、変換マトリクスT1−2,T1−3及び、T2−3を計算する。さらに加えて、基準情報信号RI1,RI2の1つの音素の特徴ベクトルの複数の成分は、変換マトリクスT1−2,T1−3及びT2−3の1つでの変換中に、変換された基準情報RI1,RI2及び、RI3のこの音素の特徴ベクトルの成分の結果に影響を及ぼし、その結果変換マトリクスT1−2,T1−3及びT2−3も、変換マトリクスT1−2,T1−3及びT2−3の対角の外側に数値を含むということを指摘するべきである。例えば、変換マトリクスT1−3での変換中に、その成分が0から250Hzと250Hzから500Hzの周波数サブレンジを記述する第3の基準情報信号RI3の音素の特徴ベクトルの400サンプルの2つの成分は、周波数サブレンジ0Hzから500Hzを記述する、第1の基準情報信号RI1のこの御その特徴ベクトル成分に影響する。
【0031】
32ローと32コラム−合計1024数値−を有する変換マトリクスT1−2,T1−3及び、T2−3を決定することにより、音声認識方法を実行するために音声認識装置8に対して3つの受信チャネル2,4及び6の各々に対して基準情報RIを使用できるようにするために、音声認識ソフトウェア内で、512,000の数値のみを有する受信チャネル基準情報RIと、各々バ1024の数値のみを有する変換マトリクスT1−2,T1−3及び、T2−3のみを、蓄積すればよいという優位点が得られる。従って、この音声認識ソフトウェアは、優位に、コンピュータ内で比較的少ないメモリ空間を有することを必要とする。
【0032】
更に加えて、変換マトリクスT1−2、T1−3及び、T2−3共に、音声認識装置8のユーザに既に適応された受信チャネル2,4又は6の基準情報RIは、他の受信チャネル2,3又は6の1つに対して直接的に使用でき、これは非常に優位である。音声認識装置の以下の説明では、これに更に注目する。
【0033】
マトリクス発生器の分析手段は、第1の受信チャネル2に対してのみ基準情報RI1を決定することができ、そして、第1の基準蓄積手段15内に蓄積する。これらの分析手段は、蓄積された第1の基準情報RI1からの差を排他的に特徴とする、非常に少ない量の基準情報RIを発生するために、同じテキスト部分のしかしそれは異なる受信チャネルを介して受信されたオーディオデータADを比較できる。この変換マトリクス発生器の変換マトリクス発生手段は、この基準情報RIから直接的に、対応する変換マトリクスT1−2,T1−3及びT2−3を決定できる。これは、第2の基準情報RI2の全ての512,000の数値を決定すること及び第3の基準情報RI3の全ての512,000の数値を決定することが免除されるという優位点を導く。
【0034】
特徴ベクトルの他の幾つかの成分も、オーディオデータAD内に含まれる音声情報SIの音素を記述するのに分析手段14により規定することができると認められる。例えば、8又は64の周波数サブレンジに副分割もされたそれぞれの受信チャネル2,4又は6を介して伝送された周波数レンジ内の音声情報SIも、周波数サブレンジ当り特徴ベクトルの1つ又は2つの成分によっても記述されうる。
【0035】
受信チャネルを介して伝送される周波数レンジは上述のように、周波数サブレンジに均一に副分割される必要がないと認められる。人間の聴覚システムも低い周波数に更に敏感であるので、小さな周波数幅を設けるのには、周波数サブレンジに対して、周波数レンジの低い中心周波数を有するのが優位である。例えば、以下の中心周波数は、次の周波数サブレンジの中心周波数=周波数サブレンジの中心周波数x1.5という規則に従って周波数サブレンジに対して規定されうる。例えば、100Hzの中心周波数で始まる以下の中心周波数、100Hz、150Hz、225Hz、338Hz、506Hz...(第1の周波数サブレンジ:75Hzから125Hz=50Hz周波数幅;第4の周波数サブレンジ:282Hzから422Hz=140Hz周波数幅)が決定される。
【0036】
音声認識装置8の構造と動作方法をいかに更に詳細に説明する。第1のオーディオ端子22を介して、音声認識装置8は、第1の受信チャネル21を構成するマイクロフォン20を介してユーザにより話された音声情報SIが供給される。更に、第2のオーディオ端子23を介して、音声認識装置8は、第2のオーディオ端子23に関しては電話ネットワークの電話線と共に、第2の受信チャネル25を構成する電話24に、ユーザが、話した音声情報SIが供給される。最後に、第3のオーディオ端子26を介して、音声認識装置8には、ユーザがディジタル口述装置27に話し且つそれを記録したユーザの音声情報SIが供給される。記録されたときの音声情報SIの色付けと、ディジタル口述装置27による後の再生は、第3の受信チャネル28の伝送特性を構成する。
【0037】
音声認識装置8は、分析手段30と認識手段31を含む音声認識手段29を含む。音声認識手段29は、与えられた音声情報SIに割り当てられるべきテキスト情報TIを認識するように構成される。音声認識手段27により決定されたテキスト情報TIは、モニタ端子32を介してモニタ33に送られそして、モニタ33に表示される。
【0038】
音声認識装置8の第1のオーディオ端子22にオーディオ信号ASとして与えられる音声情報信号SIは、第1のA/D変換器24を介して分析手段30へ、ディジタルオーディオデータADとして与えられる。同様に、音声認識装置8の第2のオーディオ端子23へオーディオ信号ASとして送られた音声情報信号SIは、第2のA/D変換器35を介して分析手段30へ、ディジタルオーディオデータADとして与えられる。更に、音声認識装置8の第3のオーディオ端子26に与えられるオーディオデータADは、直接的に、分析手段30に送られる。
【0039】
分析手段30は、音声情報SIが検出される、3つのオーディオ端子22,23又は26のオーディオデータから検出し、そして、チャネル検出手段を構成する。ユーザがマイクロフォン20、電話24又は、ディジタル口述装置27を介して音声認識装置8へ音声情報を与えたか否かを特徴とするチャネル検出情報KDIは、分析手段30により発生されることが可能である。
【0040】
これは、音声認識装置8は音声認識方法の実行のために基準情報RIを使用するという優位点を提供し、その基準情報RIは、ユーザにより選択れる受信チャネル21,25又は、28に対して適している。これは、更に音声認識装置8のアプリケーションの例を参照して以下に説明する。
【0041】
分析手段30は、送られたオーディオデータADを分析し且つ各10ミリ秒ごとの32の成分を含む、オーディオデータAD内に含まれる音声情報SIを記述する、特徴ベクトルFVを発生するために、更に変換マトリクス発生器1の前述した分析手段14のように構成される。優位に、分析手段30は、決定されたチャネル識別示情報KDIに依存して、特徴ベクトルFVの16の周波数サブレンジを決定する。このように、例えば、第3の受信チャネル28を介して受信されたオーディオデータADに対して、特徴ベクトルの32の成分が、前述のように、各250Hzの周波数レンジを有する16の周波数サブレンジから決定される。分析手段30により決定される特徴ベクトルFVは、認識手段31に与えられる。
【0042】
認識手段31は、例えば、文書WO99/35640から知られている音声認識方法を実行する。音声認識方法が実行されるときには、認識手段31は音声認識装置8の基準蓄積手段内に蓄積され、且つ実際のユーザに及び実際に使用される受信チャネル21、25又は、28に適応された基準情報RIを評価する。音声認識装置8によるトレーニング方法の実行中に、典型的な受信チャネルに適応された蓄積された基準情報は、音声認識装置8の実際のユーザに適応される。
【0043】
基準蓄積手段36内に蓄積され且つ変換マトリクス発生器1により決定された第1の典型的な受信チャネル2の第1の基準情報RI1を適応させるために、音声認識装置8はユーザ適応手段37を含む。ユーザ適応手段37は、第1の基準情報RI1を第2の基準情報RI2に変換するために変換マトリクス発生器1により発生された第1の変換マトリクスT1−2及び、第1の基準情報RI1を第3の基準情報RI3に変換するための第2の変換マトリクスT1−3を含む。
【0044】
第1のスイッチ38に対して、基準蓄積手段36から第1の基準情報RI1、第1の変換マトリクスT1−2で決定された第2の基準情報RI2、そして、第2の変換マトリクスT1−3で決定された第3の基準情報RI3が与えられる。第1のスイッチ38に対して、分析手段30によりチャネル検出情報KDIがさらに与えられる。3つの基準情報信号RI1,RI2又は、RI3のうちの1つは、第1のスイッチ38により、そこに与えられるチャネル検出情報KDIに従って、ユーザ適応手段37の比較手段39に与えられる。分析手段30と第1のスイッチ38は、蓄積された基準情報RIをユーザにより選択された受信チャネル21,25又は28へ適応させるための受信チャネル適応手段を構成する。
【0045】
分析手段30は、オーディオデータADの特徴ベクトルFVを、各10ミリ秒毎に、比較手段39に供給し、そのオーディオデータはトレーニング方法の実行中に音声認識装置8に与えられ、そして、分析手段30により分析される。トレーニング方法の実行中に、比較手段39は、そこに与えられる個々の音素の特徴ベクトルFVと、そこに与えられる規準情報RIの音素の特徴ベクトルの400の典型的なサンプルとを比較するように構成される。特徴ベクトルFVの比較の結果は、基準情報RIを音声認識装置8の実際のユーザの発音のそれぞれの特異性適応させるために評価される。
【0046】
ユーザ適応手段37によりユーザに適応された基準情報ARIは、基準情報RIをユーザに適応させるために、ユーザにより選択された受信チャネル21,25又は、28に依存して、第1の適応された基準蓄積手段41、第2の適応された基準蓄積手段42、又は、第3の適応された基準蓄積手段43内の内の第2のスイッチ40を介して蓄積される。適応された基準蓄積手段41,42及び43は共に、音声認識装置8の実際のユーザにそしてそれぞれの受信チャネル21,25及び28の1つに適応された基準情報ARIを蓄積するための基準蓄積手段を構成する。基準蓄積手段41,42又は、43にそれぞれ適応された、ユーザと受信チャネル21,25及び28の1つにに適応された基準情報ARIを伝達するために、チャネル識別情報KDIが分析手段30により第2のスイッチ40に与えられる。
【0047】
受信チャネル21,25又は、28の1つ及びユーザに対するトレーニング方法の実行中に適応された、適応された基準蓄積手段41,42又は、43の1つに蓄積された、適応された基準情報ARI1、ARI2又は、ARI3は、変換マトリクス発生器1により変換マトリクスT1−2、T1−3及び、T2−3を用いて変換され、そして、ユーザに適応された他の基準情報ARI1、ARI2及び、ARI3へ、そして、他の適応された基準蓄積手段41、42又は、43内に蓄積される。変換マトリクスT1−2、T1−3及び、T2−3は、適応された基準情報ARIを変換する基準変換手段を構成する。
【0048】
音声認識装置8は、チャネル検出情報KDIも与えられる第3のスイッチ44を含みそして、それを介して、ユーザとユーザにより使用される受信チャネル21,25又は、28に適応される基準情報ARIが、認識手段31が音声認識方法を実行するときに認識手段31に与えられる。分析手段30と第3のスイッチ44は、蓄積された基準情報ARIをユーザにより選択された受信チャネル21,25又は、28に適応させるための受信チャネル適応手段を構成する。
【0049】
以下に、変換マトリクス発生器1により決定される話者に独立の基準情報RIが、どのように、音声認識装置8の実際のユーザに適応された基準情報ARIに適応されるかを、音声認識装置8を伴なうトレーニング方法の実施例を参照して更に詳細に説明する。アプリケーションの例に従って、スミス氏は、音声認識装置8を最初にテキストの口述に使用したいとする。音声認識装置8の認識率を改善するために、音声認識装置8のマニュアルは、装置8をユーザに適応させるようにアドバイスする。
【0050】
スミス氏は、音声認識装置8のトレーニング方法を活性化し、そして、マイクロフォン20に、マニュアルに示された所定のトレーニングテキストを話し、このテキストは比較手段39内に蓄積される。口頭のトレーニングテキストの音声情報SIは、第1のオーディオ端子22と第1のA/D変換器34を介して分析手段30に達し、この分析手段は比較手段39へ、それぞれの特徴ベクトルFVを与える。分析手段30は、更に、第1の受信チャネル21を特徴化するチャネル検出情報KDIを第1のスイッチ38に与え、その後に、第1のスイッチ38は比較手段39を第1の基準蓄積手段36へ接続する。
【0051】
第1の基準蓄積手段36には、典型的なマイクロフォン受信チャネル−第1の受信チャネル2に対して、変換マトリクス発生器1により適合される第1の基準情報RI1が蓄積されている。比較手段39は、分析手段30と比較手段に既知のトレーニングテキストにより決定される特徴ベクトルFVに基づいて、スミス氏による各音素の発音の形式を決定し、そして、スミス氏に従って第1の基準情報RIを適応させる。スミス氏と第1の受信チャネル21に適応され且つ比較手段39により決定された第1の適応された基準情報ARI1は、第2のスイッチ40を介して第1の適応された基準蓄積手段41に蓄積される。
【0052】
トレーニング方法の最後で、第1の適応された基準情報ARI1は、第1の変換マトリクスT1−2で、第2の受信チャネル25とスミス氏に適応された第2の適応された基準情報ARI2に変換されそして、第2の適応された基準蓄積手段42に蓄積される。同様に、第3の受信チャネル28とスミス氏に適応された第3の適応された基準情報ARI3は、第2の変換マトリクスT1−3で決定され、そして、第3の適応された基準蓄積手段43に蓄積される。
【0053】
上述のトレーニング方法は、音声認識装置8のユーザは、可能な受信チャネル21,25又は、28の1つを介してこのユーザの発音に音声認識装置8を適合させることができそして、他の受信チャネル21,25又は、28に対する基準情報RIも自動的に適応され、そして、音声認識方法の良好な認識率が、これらの受信チャネルに対しても得られるという優位点を提供する。
【0054】
スミス氏は他の場所から電話24によりこのトレーニング方法を実行させることも可能であると認められる。この場合には、第1の変換マトリクスT1−2で第1の基準情報RI1から変換された第2の基準情報RI2は、比較手段39により適応されそして、第2の適応された基準蓄積手段42内に第2の基準情報ARI2として蓄積される。第1の変換マトリクスT1−2で変換された第1の適応された基準情報ARI1は、第1の適応された基準蓄積手段41に蓄積され、そして、第3の変換マトリクスT2−3で変換された第3の適応された基準情報ARI3は、第3の適応された基準蓄積手段43に蓄積される。
【0055】
これから、音声認識装置8は、受信チャネル21、25及び、28の任意の1つに学習され、そして、全ての受信チャネルに対して、ユーザに適応されるという優位点は明らかである。
【0056】
以下に、音声認識装置8による音声認識方法の実行の実施例によって、音声認識装置8に優位点を更に説明する。実施例に従って、スミス氏は、旅行中に、ディジタル口述装置27で口述を行うとする。家に帰ると、スミス氏は、口述装置27を第3のオーディオ端子26に接続し、口述装置27のキーを作動させ、そして、音声認識装置8の音声認識方法を活性化させる。
【0057】
分析手段30は、それぞれ及び、の特徴ベクトルFVを認識手段31に与えそして、第3の重鎮チャネル28を特超過するチャネル検出情報KDIを第3のスイッチ44に与える。そして、第3のスイッチ44は、第3の適応された基準蓄積手段43を認識手段31へ接続する。音声認識方法の実行中に、認識手段31は、スミス氏と口述装置の典型的な受信チャネルに適応された基準情報ARI3を評価し、そして、音声情報SIに対応するテキスト情報TIをモニタ端子32を介してモニタ33に送る。
【0058】
これは、トレーニング方法を実行している間に、音声認識装置8はマイクロフォン20によるスミス氏に適応されたが、口述装置27を介してスミス氏により入力された音声情報SIを用いる音声認識方法の認識率はかなり高いということを優位に達成する。同様に、音声認識方法は、電話24によりスミス氏によってコンピュータに与えられたコマンドに対する高認識率を有する。
【0059】
比較的高い認識率は、全ての他の組合せで達成されることも可能であることがが認められる。例えば、音声認識装置8が第2の受信チャネル25で学習されそして、後に第1の受信チャネル21により受信され且つ音声情報SIに割り当てられるべきテキスト情報TIを認識するために使用される。しかしながら、大部分のマイクロフォンで、音声情報SIは、比較的高い周波数レンジ(8kHzまで)で伝送されるので、音声認識装置8がマイクロフォン20でトレーニングするのはかなり有利である。ユーザ適応手段37から、第1の変換マトリクスT1−2と第2の変換マトリクスT1−3を省略することが可能でありそして、トレーニング方法が実行されるときに、マイクロフォン20を介して、ユーザによるテキストの音声情報SIの入力を要求することも可能である。その場合には、第3の変換マトリクスT2−3は、第2の適応された基準情報ARI2から第3の適応された基準情報ARI3への変換に関して省略され及び、その逆である。
【0060】
変換マトリクス発生器1は、移動電話の又は、ディジタル又はアナログネットワークを介して第2のオーディオ端子10に接続された電話5の典型的な受信チャネルに対する基準情報も決定できると認められる。専門家は、多数の更なる可能性のある典型的な受信チャネルを知っている。
【0061】
変換マトリクスT1−2、T1−3及び、T2−3から、逆変換マトリクスも決定でき、それによって、分析手段30に送られたオーディオデータADは、上述のように分析手段30により分析される前に前処理され得ると認められる。
【0062】
基準決定方法は、音声認識ソフトウェアの製造者のコンピュータにより実行される必要はないが、しかし、音声認識ソフトウェアの一部を構成しても良く、そして、音声認識装置のユーザのコンピュータ上で実行されることが可能であると認められる。音声認識方法の実行中に、認識手段により決定される、実際に使用される受信チャネルに関する情報は、基準情報を適応させ活変換マトリクス又は逆変換マトリクスを決定するために使用することができる。
【図面の簡単な説明】
【図1】 基準決定ソフトウェアが実行され且つ変換マトリクスを発生する変換マトリクス発生器を構成するコンピュータのブロック図である。
【図2】 コンピュータとそれにより音声認識ソフトウェアが実行され且つ基準変換手段を有する音声認識装置を構成するブロック図である。
Claims (10)
- それぞれの受信チャネルにより周波数により色付けされた音声情報が、第1の受信チャネルと第2の受信チャネルを介して与えられる音声認識装置であって、
複数の基準話者による単語の発音の形式を特徴とする、前記第1の受信チャネルのための第1の基準情報を蓄積する基準蓄積手段と、
前記第1の基準情報を、ユーザにより使用される第1又は第2の受信チャネルに適応させる、第1の受信チャネル適応手段であって、これにより第2の基準情報が作られる、第1のチャネル適応手段と、
前記第2の基準情報を、音声認識装置のユーザによる単語の発音の形式に適応させる、ユーザ適応手段であって、これにより適応された基準情報が作られる、ユーザ適応手段と、
前記第1又は第2の受信チャネルに前記適応された基準情報を適応させる、第2の受信チャネル適応手段と、
前記第1の受信チャネル適応手段に含まれ、かつ、前記第2の受信チャネル適応手段に含まれる基準変換手段であって、
変換マトリクスに従って、前記第1の基準情報を前記第2の受信チャネルに適応した第2の基準情報に変換し、且つ、
前記変換マトリクスに従って、前記第1の受信チャネルに適応した第1の基準情報を、前記第2の受信チャネルに適応した、適応した第2の基準情報に変換する、基準変換手段と、
前記適応した第1の基準情報又は前記適応した第2の基準情報に基づいて、供給された音声情報に割り当てられるべきテキスト情報を認識する音声認識手段と、
を有し、
前記適応した第2の基準情報は、前記第1又は第2の受信チャネル適応手段によって、前記第2の受信チャネルに適応し、且つ、前記ユーザ適応手段によって適応している、
ことを特徴とする音声認識装置。 - 音声情報を入力するためにユーザにより選択された、第1の受信チャネル又は第2の受信チャネルを検出するようになされたチャネル検出手段が設けられ、且つ、音声認識手段による評価のための、選択された第1の受信チャネル又は第2の受信チャネルに適応された、第1の基準情報又は第2の基準情報を選択するようになされた、選択手段が設けられることを特徴とする請求項1に記載の音声認識装置。
- 第1の基準情報と第2の基準情報は、特徴ベクトルにより構成され、一方、各特長ベクトルはそれぞれの周波数サブレンジ内の音声情報を特徴とし、第1の基準情報の特徴ベクトルは、第2の基準情報の特徴ベクトルと異なる周波数サブレンジ内の音声情報が特徴であることを特徴とする請求項1に記載の音声認識装置。
- 音声情報が、第1の受信チャネル又は第2の受信チャネルにより周波数により色付けされた、音声情報に割り当てられるテキスト情報を認識する音声認識方法であって、
複数の基準話者による単語の発音の形式を特徴とする前記第1の受信チャネルのための第1の基準情報が蓄積されており、
当該方法は、
前記第1の基準情報を、音声認識方法のユーザにより使用される第1又は第2の受信チャネルに適応させる第1の受信チャネル適応ステップであって、これにより第2の基準情報が作られる、第1の受信チャネル適応ステップと、
前記第2の基準情報を、音声認識装置のユーザによる単語の発音の形式に適応させる、ユーザ適応ステップであって、これにより適応された基準情報が作られる、ユーザ適応ステップと、
前記第1又は第2の受信チャネルに前記適応された基準情報を適応させる、第2の受信チャネル適応ステップと、
前記第1の受信チャネル適応ステップに含まれ、かつ、前記第2の受信チャネル適応ステップに含まれる基準変換ステップであって、
変換マトリクスに従って、前記第1の基準情報を前記第2の受信チャネルに適応した第2の基準情報に変換し、且つ、
前記変換マトリクスに従って、前記第1の受信チャネルに適応した第1の基準情報を、前記第2の受信チャネルに適応した、適応した第2の基準情報に変換する、基準変換ステップと、
前記適応した第1の基準情報又は前記適応した第2の基準情報に基づいて、供給された音声情報に割り当てられるべきテキスト情報を認識する音声認識ステップと、
を有し、
前記適応した第2の基準情報は、前記第1又は第2の受信チャネル適応ステップによって、前記第2の受信チャネルに適応し、且つ、前記ユーザ適応ステップによって適応している、
ことを特徴とする音声認識方法。 - 音声情報を入力するために、ユーザによりどの受信チャネルが選択されたかが検出され、且つ、選択された受信チャネルに適応される第1の基準情報又は第2の基準情報が、音声認識手段により評価に使用されることを特徴とする請求項4に記載の音声認識方法。
- 第1の基準情報と第2の基準情報は特徴ベクトルにより構成され、一方、各々のそれぞれの特徴ベクトルはそれぞれの周波数サブレンジ内の音声情報を特徴とし、且つ、第1の基準情報の特徴ベクトルは、第2の基準情報の特徴ベクトルと異なる周波数サブレンジ内の音声情報が特徴であることを特徴とする、請求項5に記載の音声認識方法。
- 音声認識方法のために第1の受信チャネルに適応された第1の基準情報を決定する基準決定方法であって、
第1の受信チャネルを介して複数の基準話者から受信された音声情報を分析するステップと、
第1の受信チャネルに適応された第1の基準情報を発生するステップとを有し、第2の受信チャネルを介して複数の基準話者から受信された音声情報が分析され、且つ、変換マトリクスは、第1の基準情報を、第2の受信チャネルに適応された第2の基準情報に変換するために決定されることを特徴とする基準決定方法。 - 第1の基準情報と変換マトリクスを決定するために、第1の受信チャネルと第2の受信チャネルは、第1の受信チャネルと第2の受信チャネルの典型的である複数の端末装置により構成されることを特徴とする請求項7に記載の基準決定方法。
- 直接的にディジタルコンピュータの内部メモリにロードされることが可能で且つソフトウェアコード部分を含むコンピュータプログラムであって、請求項4に記載の音声認識方法又は請求項7に記載の基準決定方法のステップを、コンピュータに実行させるコンピュータプログラム。
- 請求項9に記載のコンピュータプログラムを蓄積させたコンピュータにより読むことが可能な媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00890057.3 | 2000-02-25 | ||
EP00890057 | 2000-02-25 | ||
PCT/EP2001/001459 WO2001063597A1 (en) | 2000-02-25 | 2001-02-12 | Speech recognition device with reference transformation means |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012175359A Division JP5425280B2 (ja) | 2000-02-25 | 2012-08-07 | 基準変換手段を伴なう音声認識装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003524217A JP2003524217A (ja) | 2003-08-12 |
JP5105682B2 true JP5105682B2 (ja) | 2012-12-26 |
Family
ID=8175909
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001562482A Expired - Lifetime JP5105682B2 (ja) | 2000-02-25 | 2001-02-12 | 基準変換手段を伴なう音声認識装置 |
JP2012175359A Expired - Fee Related JP5425280B2 (ja) | 2000-02-25 | 2012-08-07 | 基準変換手段を伴なう音声認識装置及び方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012175359A Expired - Fee Related JP5425280B2 (ja) | 2000-02-25 | 2012-08-07 | 基準変換手段を伴なう音声認識装置及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7146317B2 (ja) |
EP (1) | EP1185976B1 (ja) |
JP (2) | JP5105682B2 (ja) |
AT (1) | ATE336776T1 (ja) |
DE (1) | DE60122257T2 (ja) |
WO (1) | WO2001063597A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012234204A (ja) * | 2000-02-25 | 2012-11-29 | Nuance Communications Austria Gmbh | 基準変換手段を伴なう音声認識装置及び方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006748A1 (en) * | 2002-07-03 | 2004-01-08 | Amit Srivastava | Systems and methods for providing online event tracking |
US20040083090A1 (en) * | 2002-10-17 | 2004-04-29 | Daniel Kiecza | Manager for integrating language technology components |
EP1565906A1 (en) * | 2002-11-22 | 2005-08-24 | Koninklijke Philips Electronics N.V. | Speech recognition device and method |
US7533023B2 (en) * | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
US7369652B1 (en) * | 2003-05-13 | 2008-05-06 | Cisco Technology, Inc. | Combining signals at a conference bridge |
US20050010411A1 (en) * | 2003-07-09 | 2005-01-13 | Luca Rigazio | Speech data mining for call center management |
US20080147692A1 (en) * | 2006-12-14 | 2008-06-19 | General Motors Corporation | Method for manipulating the contents of an xml-based message |
CN108831437B (zh) * | 2018-06-15 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 一种歌声生成方法、装置、终端和存储介质 |
CN111755008B (zh) * | 2020-06-11 | 2022-05-27 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置、电子设备及介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3567477B2 (ja) * | 1994-03-22 | 2004-09-22 | 三菱電機株式会社 | 発声変形音声認識装置 |
JP3001037B2 (ja) * | 1995-12-13 | 2000-01-17 | 日本電気株式会社 | 音声認識装置 |
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
JP3587966B2 (ja) * | 1996-09-20 | 2004-11-10 | 日本電信電話株式会社 | 音声認識方法、装置そよびその記憶媒体 |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
JPH10105191A (ja) * | 1996-09-30 | 1998-04-24 | Toshiba Corp | 音声認識装置及びマイクロホン周波数特性変換方法 |
US6151573A (en) * | 1997-09-17 | 2000-11-21 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
WO1999035640A2 (en) | 1997-12-30 | 1999-07-15 | Koninklijke Philips Electronics N.V. | Speech recognition device using a command lexicon |
JP4005203B2 (ja) * | 1998-02-03 | 2007-11-07 | 富士通テン株式会社 | 車載用音声認識装置 |
JP3412496B2 (ja) * | 1998-02-25 | 2003-06-03 | 三菱電機株式会社 | 話者適応化装置と音声認識装置 |
US6343267B1 (en) * | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
JP3969908B2 (ja) * | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
ATE336776T1 (de) * | 2000-02-25 | 2006-09-15 | Koninkl Philips Electronics Nv | Vorrichtung zur spracherkennung mit referenztransformationsmitteln |
US6529872B1 (en) * | 2000-04-18 | 2003-03-04 | Matsushita Electric Industrial Co., Ltd. | Method for noise adaptation in automatic speech recognition using transformed matrices |
-
2001
- 2001-02-12 AT AT01919273T patent/ATE336776T1/de not_active IP Right Cessation
- 2001-02-12 JP JP2001562482A patent/JP5105682B2/ja not_active Expired - Lifetime
- 2001-02-12 WO PCT/EP2001/001459 patent/WO2001063597A1/en active IP Right Grant
- 2001-02-12 EP EP01919273A patent/EP1185976B1/en not_active Expired - Lifetime
- 2001-02-12 DE DE60122257T patent/DE60122257T2/de not_active Expired - Lifetime
- 2001-02-22 US US09/790,420 patent/US7146317B2/en not_active Expired - Lifetime
-
2012
- 2012-08-07 JP JP2012175359A patent/JP5425280B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012234204A (ja) * | 2000-02-25 | 2012-11-29 | Nuance Communications Austria Gmbh | 基準変換手段を伴なう音声認識装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
ATE336776T1 (de) | 2006-09-15 |
EP1185976A1 (en) | 2002-03-13 |
JP2003524217A (ja) | 2003-08-12 |
EP1185976B1 (en) | 2006-08-16 |
DE60122257T2 (de) | 2007-06-28 |
JP2012234204A (ja) | 2012-11-29 |
JP5425280B2 (ja) | 2014-02-26 |
DE60122257D1 (de) | 2006-09-28 |
US20010025240A1 (en) | 2001-09-27 |
WO2001063597A1 (en) | 2001-08-30 |
US7146317B2 (en) | 2006-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5425280B2 (ja) | 基準変換手段を伴なう音声認識装置及び方法 | |
US6233556B1 (en) | Voice processing and verification system | |
JP4546555B2 (ja) | 話し手に暗黙的に順応する技術を用いた音声認識システム | |
EP0311414B1 (en) | Voice controlled dialer having memories for full-digit dialing for any users and abbreviated dialing for authorized users | |
JP5419361B2 (ja) | 音声制御システムおよび音声制御方法 | |
JP5533854B2 (ja) | 音声認識処理システム、および音声認識処理方法 | |
JPH07502834A (ja) | 音声制御通信装置および処理方法 | |
JP3869888B2 (ja) | 音声認識装置 | |
US20030061049A1 (en) | Synthesized speech intelligibility enhancement through environment awareness | |
US6243677B1 (en) | Method of out of vocabulary word rejection | |
US20070047708A1 (en) | Voice call reply using voice recognition and text to speech | |
JP2019184809A (ja) | 音声認識装置、音声認識方法 | |
EP1151431B1 (en) | Method and apparatus for testing user interface integrity of speech-enabled devices | |
US7043427B1 (en) | Apparatus and method for speech recognition | |
WO2007091462A1 (ja) | 音声認識装置、音声認識方法、及び音声認識用プログラム | |
JP2005338454A (ja) | 音声対話装置 | |
EP1445760B1 (en) | Speaker verifying apparatus | |
CN108962273A (zh) | 一种麦克风的音频输出方法和装置 | |
JP2010164992A (ja) | 音声対話装置 | |
US6044147A (en) | Telecommunications system | |
JP6822540B2 (ja) | 端末装置、通信方法及び通信プログラム | |
EP0883959B1 (en) | Apparatus and method of improving the qulality of speech signals transmitted over a telecommunications system | |
JP2006053459A (ja) | 話者認識装置 | |
JP2008129524A (ja) | 音声再現装置及び音声再現方法 | |
JPH0477795A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080208 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120502 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120521 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120511 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120604 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120611 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120705 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5105682 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |