JP2000505914A - 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法 - Google Patents
音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法Info
- Publication number
- JP2000505914A JP2000505914A JP10513130A JP51313098A JP2000505914A JP 2000505914 A JP2000505914 A JP 2000505914A JP 10513130 A JP10513130 A JP 10513130A JP 51313098 A JP51313098 A JP 51313098A JP 2000505914 A JP2000505914 A JP 2000505914A
- Authority
- JP
- Japan
- Prior art keywords
- model
- hidden markov
- speech
- sound
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 abstract description 3
- 230000010354 integration Effects 0.000 abstract description 2
- 238000011524 similarity measure Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】
本発明により、種々の言語にわたって音の類似性を検出するための方法が提供される。さらに多言語音素を隠れマルコフモデル化するための新たな使用が記載されている。音響音素的モデル化のために提案された本発明の方法では、言語固有の特性も言語に依存する特性も、種々の言語に置いて種々の隠れマルコフ音声モデルに対して確率密度を統合する際に記述される。
Description
【発明の詳細な説明】
音声認識装置において、隠れマルコフ音声モデルを
多言語で適用するための方法
本発明は、音声認識装置に対する隠れマルコフモデルに関連し、このモデルは
、異なる言語間の音響的類似性および音声的類似性を使用することによって複数
の言語単位で適用される。
音声認識では、音声認識技術を導入すべき各言語に対して、適合を実行するた
めに新たな音響音声的モデルをトレーニングしなければならないという大きな問
題がある。通常、普及している音声認識装置では、隠れマルコフモデルが発声固
有の音のモデル化に使用される。この統計的モデル化発声モデルから続いて音響
的単語モデルが組み合わされ、この単語モデルは音声認識過程での探索プロセス
の間に認識される。この発声モデルをトレーニングするためには非常に大量の音
声データバンクが必要であり、その収集と処理には極端なコストと時間がかかる
。このため、音声認識技術を1つの言語から別の言語に移植する際に欠点が生じ
る。なぜなら、新たな音声データバンクの作成は、一方では製品の高価格化を意
味し、他方では市場投入時の時間的遅れを引き起こす。
普及している入手可能な音声認識装置は専ら言語固
有モデルを使用している。この装置を別の新たな言語に移植するためには、大量
の音声データバンクが収集され処理される。続いて新たな言語に対する発声モデ
ルがこの収集された言語データにより基礎から新たにトレーニングされる。
音声認識装置を異なる言語に移植する際のコストと時間的遅れを低減するため
に、個々の発声モデルが異なる言語での使用に適するか否かを検査すべきである
。このために[2]にはすでに多言語音声モデルの作成とこれをそれぞれの言語
で音声認識に使用することが記載されている。そこには概念、ポリフォニームと
モノフォニームが導入されている。ここでポリフォニーム音とは、その音声形成
特性を複数の言語にわたって同一視するのにほぼ十分である音を意味する。モノ
フォニーム音は、言語固有の特性を有する音である。このような開発作業と研究
に対して、新たな言語データバンクをそのたびにトレーニングする必要がないよ
うにするため、すでに規格が存在している[6]、[4]、[7]。音声モデル
を多言語適用するための他の従来技術はまだない。
本発明の課題は、隠れマルコフ音声モデルを1つの音声認識装置で多言語適用
するための方法を提供することであり、この方法により音声認識装置の他の言語
への移植コストを最小にすることであり、このことは多言語音声認識装置でのパ
ラメータを低減することに
より行う。
この課題は、請求項1と請求項6に記載の構成によって解決される。
本発明の改善形態は従属請求項に記載されている。
本発明の方法は有利には、統計的類似尺度をリストアップし、この類似尺度に
より所定数の異なる音声モデルから異なる言語での類似の音に対して次のような
音声モデルを選択する、すなわちその特性の点で、それぞれの音で使用される特
徴ベクトルがすべての最適に表される音声モデルを選択するのである。
特に有利には、異なる音声特徴ベクトルに対して最適の隠れマルコフモデルを
選択するための尺度として、それぞれの隠れマルコフモデルと各特徴ベクトルと
の間の対数的確率間隔を検出する。これにより個々の音声モデルの類似性とその
認識率についての実験的知見が反映された尺度が使用される。
特に有利には、できるだけ再現性のある隠れマルコフ音声モデルを表す尺度と
して本発明では、各隠れマルコフモデルとそれぞれの特徴ベクトルとの間の対数
的確率間隔の数学的平均値を形成する。なぜならこれにより対称的間隔値が得ら
れるからである。
有利には、異なる言語での音を表す隠れマルコフモデルの再現特性を記述する
本発明の記述尺度は次のようにして形成される。すなわち本発明の数式1から3
を適用することにより形成される。なぜならこれによ
り計算コストが小さくなるからである。
特に有利には本発明の方法により、音声バイオグラフィーに対するメモリコス
トが低減される。なぜなら、1つのモデルを複数言語に対して使用することがで
き、同じように1つの言語から別の言語への移植コストが最小になるからである
。このことは移植のための時間の低減にもつながる。同じように有利には、Vite
rbi-探索の際の計算コストの低減が可能である。なぜなら例えば、多言語入力装
置で検査しなければならないモデルの数が少ないからである。
特に有利には本発明では、隠れマルコフモデルが多言語音声認識装置に適用す
るため発声される。本発明の手段により、隠れマルコフ音声モデルを多言語の音
に対してポリフォニームモデルに統合することができる。このために、適用され
る標準確率密度分布の重畳領域が種々異なるモデルで探索される。ポリフォニー
ムモデルを表すために、異なるモデルで適用される任意の数の同じ標準確率密度
分布を利用することができる。実験的知見では次のことが示されている。すなわ
ち、有利には複数の標準分布を異なる言語モデルから使用することができ、これ
による個々の言語特性の混合がこのモデルを使用する際の認識率の有意な低下に
はつながらないということが示されている。ここで、標準確率密度分布間で間隔
閾値が5であると特に有利である。
特に有利には本発明の方法を使用する際に、語頭音、語中間音、語終音からな
る3つの状態の隠れマルコフモデルをモデル化する。なぜならこれにより十分な
精度が音の記述の際に達成され、音声識別子での識別の際の計算コストが低く押
さえられるからである。
図1には例として多言語音の構造が示されている。この場合、音素Mが示され
ている。この音素に対する確率密度と認識率が表に示されている。
図1には、音素モデルの語頭音L、語中間音M、語終音Rが示されている。種
々異なる言語、英語EN、独語DE、西語SPに対して、個々に適用された標準
確率密度の確率密度分布がプロットされており、WDとして示されている。ここ
では例えば3つの部分状態からなる隠れマルコフモデルが示されている。しかし
本発明は認識を最小の計算コストで実行し、ある程度の最適性が得られるという
基準を考慮しているが、このような隠れマルコフモデルに制限されるものではな
い。本発明はまた、異なる数の状態を有する隠れマルコフモデルに適用すること
ができる。本発明により例えば、音声認識装置を別の言語に移植する際の移植コ
ストが低減され、使用される計算ソースが、基礎となるパラメータの低減により
できるだけ低く維持される。例えばこの種の音声認識装置により、ハードウェア
必要性の制限を良好に満たすことができ、1つの同じ音声認識装置を1つの機器
で多言語に適用する場合には非常に有利である。
まず本発明の目的を達成するために、異なる言語での音の類似性を利用し、モ
デル化の際に考慮するには、言語が異なると音素も異なることに注意しなければ
ならない。その理由はとりわけ次のとおりである。
−言語が異なれば音素集合が異なるため、音素的コンテクストが異なる;
−発声様式が異なる;
−プロソディー特徴が異なる;
−異音バリエーションが異なる。
ここで考慮すべき特に重要な側面は、基本的に十分な認知技術的相違が音素に
あることである[5]。このことは、異なる言語での個々の音は音響的に区別可
能に維持され、従って個々の聴取者はこれを容易に分離できることを意味する。
しかし各個別の言語は異なる音素資源を有しており、2つの類似の音素間の境界
は各個別の言語に置いて言語固有に設定されている。この理由から所定の音の出
現は言語固有の要素である。
有利には音素は連続的に密な隠れマルコフモデル(
CD−HMM)を用いてモデル化される[3]。密な関数としてしばしばラプラ
ス混合が使用される。ここで有利には各個々の音素は、左から右へ向いたHMM
の3つの状態からなる。ここで音響的特徴ベクトルは例えば24スカラー・セプ
ストラル、12デルタ・セプストラル、12デルタ・デルタ・セプストラル、エ
ネルギー、デルタ・エネルギー、およびデルタ・デルタ・エネルギー係数からな
る。例えば探索時間窓の長さとして25msが選択されれば、個々のフレーム間
のフレーム間隔は10msである。言語本体の大きさが制限されているため、有
利には単に文脈に依存しない音素だけが発生される。特に記述性のある音素目録
が[4]から選択された。
本発明の基本思想は、標準的に使用される言語音素ライブラリーから異なる言
語に対して、異なる言語の異なる音声モデルから導出された特徴ベクトルに最も
近い隠れマルコフモデルを選択することができるように類似性尺度を作成するこ
とである。このことにより2つの音素モデルの類似性を検出することができ、こ
の類似性尺度を介して、音声実現化と音声モデルとの間の対数見込み値の差に基
づいて次のような予測を行うのである。1つの音を複数の言語に対してモデル化
する甲斐があるか否か、すなわち該当するすでに存在する隠れマルコフモデルを
複数の言語における音のモデル化に使用する甲斐があるか否かの予測が行われる
。このことにより、音声認識の際に考慮すべきパラメータの数が低減される。こ
れは探索すべき隠れマルコフモデルの数が低減するからである
本発明の第2の解決手段では、固有のポリフォニームモデルを複数の言語にお
ける音のモデル化のために作成する。このためにまず例えば、語頭音、語中間音
語終音の形態の3つの音セグメントが形成される。これらの状態は複数の確率密
度関数、所属の密度を伴ういわゆる混合分布密度からなる。異なる言語にわたっ
て類似の音セグメントのこの密度は多言語コードブックにまとめられる。従って
異なる言語の音セグメントは同じ密度に分けられる。コードブックは複数の言語
に対して同時に使用できるが、例えば密度を各言語に対して重み付けする重み付
け係数は各言語に対して別個に検出される。
適切な類似尺度を形成するために、有利には隠れマルコフモデルは3つの状態
により利用される。間隔尺度または類似性尺度はここで複数の音素モデルを1つ
の多言語音素モデルにまとめるために、またはこれを適切に置換するために使用
することができる。これによって多言語音素資源を開発することができる。有利
には、異なる言語からの同じ音の2つの音素モデルを間隔測定ないし類似性検出
するのために、1つの測定量を使用する。この測定量は相対エントロピーに基づ
く[1]。ここではトレーニングの間に、音素モデル
の混合されたラプラス密度分布のパラメータが検出される。さらに各音素に対し
て音素トークンXの集合が特徴ベクトルとしてテストまたは開発言語本体から抽
出される。この音素はここで、その国際的標準音素ラベルによりマーキングする
ことができる。本発明によれば、2つの音素モデルλiとλjおよびそれらに所属
する音素トークンXiとXjが、これら異なる音素間の類似性検出のために次のよ
うに取り扱われる。
この間隔尺度は、対数見込み間隔として見なすことができ、どの程度良好に2
つの異なるモデルが同じ特徴ベクトルXIに適合しているかを表す。従って2つ
のモデルλiとλjとの間の間隔は次のように
検出される。これら2つの音素モデル間の対称間隔を得るために有利にはこれが
次のように検出される。
実験的知見に基づき、他の言語からのいくつかの音素モデルがドイツ語音声認識
装置での使用に、ドイツ語音素モデルよりも良く適することが発見された。例え
ばこれは音素k,pおよびNに対して当てはまる。これらの音素に対しては英語
音素モデルがドイツ語音素
モデルよりも適する。一方ドイツ語モデルと英語モデルとの大きな相違はウムラ
ウトaUで観察された。このことは2つの音に対して異なるシンボルを多言語音
素資源で導入すべきであることを意味する。一方でウムラウトaIに対しては、
ドイツ語と英語とで大きな類似性が発見できた。このことは単に1つの音素モデ
ルを両方の言語に対して同じように良好に適用できることを意味する。ここから
出発して、多言語音素資源の各シンボルに対しては別個の統計的モデルを使用す
べきである。[6]には、ポリフォニームがそのような音素として示されており
、異なる言語においてただ1つの音素としてモデル化するのに十分な類似性があ
る。この手段の欠点は、言語固有の認識に対してポリフォニームの完全な音響空
間が使用されることである。しかし本発明の目的は、多言語モデルの、言語に依
存する音響特性と言語固有の音響特性を結合することである。本発明によれば、
ポリフォニームモデルにおいてそのような音響空間の領域が限定される。すなわ
ち個々の音素の使用される確率密度が重なる領域が限定される。このため、例え
ば群分けされた密度クラスタリング技術(agglommerative density clustering
technique)が使用され、音素の同じまたは類似の表出が低減される。ここで注
意すべき特に重要なことは、まとめることができるのは音素における個々の隠れ
マルコフモデルの相応する状態の密度だけだというこ
とである。
図1では、個々の状態L、M、Rに対するそれぞれの密度が限定された領域に
含まれている。同じ密度が個々の言語EN,DE,SPにわたって分散されてお
り、混合重み付け係数は言語に依存して異なっている。しかしこの評価では、異
なる言語における音素の固有の表出は頻度の相違として発生することを考慮しな
ければならない。
ここで異なる確率密度の統合は、密度頻度(デンシティ・クラスタリング)に
おける確率密度に対する種々の閾値によって実行することができる。例えば5つ
の間隔閾値により、使用された密度の数は係数3だけ出発状態に対して低減され
た。またこれによる音声認識率の重大な悪化も生じなかった。この場合、元の3
41出発密度の221,48および72がそれぞれポリフォニーム領域、2言語
領域および単言語領域にまとめられた。図1にはこのようなポリフォニーム領域
が個々の言語に対し円の切断部分として示されている。図示の隠れマルコフモデ
ルの語中間音Mでは、例えば確率密度がそのような領域にWDPとして示されて
いる。完全な多言語音声認識装置に対する認識率はここでは表2の4列と5列に
ML1およびML2としてプロットされている。
第1の探索ML1では[6]からの従来のポリフォニーム定義が認識に使用さ
れているが、このことはポリフォニームモデルの音響領域が全体が図1の音声領
域の外側輪郭から成ることを意味する。一方、本発明の方法はそこの部分領域だ
けを使用する。ポリフォニームモデルの個々のモデル化のために個々の音声領域
の部分的重なり領域を使用することにより、例えば2%の改善が達成される。こ
のことは表2のML2に対する列に示されている。
本発明で引用された刊行物は以下のとおりである。
【手続補正書】特許法第184条の8第1項
【提出日】1998年9月2日(1998.9.2)
【補正内容】
有モデルを使用している。この装置を別の新たな言語に移植するためには、大量
の音声データバンクが収集され処理される。続いて新たな言語に対する発声モデ
ルがこの収集された言語データにより基礎から新たにトレーニングされる。
音声認識装置を異なる言語に移植する際のコストと時間的遅れを低減するため
に、個々の発声モデルが異なる言語での使用に適するか否かを検査すべきである
。このために[2]にはすでに多言語音声モデルの作成とこれをそれぞれの言語
で音声認識に使用することが記載されている。そこには概念、ポリフォニームと
モノフォニームが導入されている。ここでポリフォニーム音とは、その音声形成
特性を複数の言語にわたって同一視するのにほぼ十分である音を意味する。
モノフォニーム音は、言語固有の特性を有する音である。このような開発作業
と研究に対して、新たな言語データバンクをそのたびにトレーニングする必要が
ないようにするため、すでに規格が存在している[6]、[4]、[7]。
[8]から、多言語音声認識のために特別な音素とこの音素の隠れマルコフモ
デルを適用することが公知である。
音素モデルを多言語適用するための技術はまだ公知でない。
本発明の課題は、隠れマルコフ音声モデルを1つの
音声認識装置で多言語適用するための方法を提供することであり、この方法によ
り音声認識装置の他の言語への移植コストを最小にすることであり、このことは
多言語音声認識装置でのパラメータを低減することに
本発明で引用された刊行物は以下のとおりである。 請求の範囲
1. 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するた
めの方法において、
a)第1の言語(SP,EN,DE)における第1の音(L、M、R)に対する
少なくとも1つの第1の特徴ベクトルと、少なくとも1つの第2の言語(DE,
SP,EN)における比較可能に発声された第2の音に対する第2の特徴ベクト
ルと、それらに所属する第1および第2の隠れマルコフ音声モデルとに基づいて
、2つの隠れマルコフ音声モデル(L、M、R)のどちらが両方の特徴ベクトル
を所定の基準の点でより良好に記述するかを検出し、
b)当該隠れマルコフ音声モデル(L、M、R)を少なくとも2つの言語(SP
,EN,DE)における音のモデル化に使用する、
ことを特徴とする方法。
Claims (1)
- 【特許請求の範囲】 1. 音声認識装置において、隠れマルコフ音声モデルを多言語で適用する方 法において、 a)第1の言語(SP,EN,DE)における第1の音(L、M、R)に対する 少なくとも1つの第1の特徴ベクトルと、少なくとも1つの第2の言語(DE, SP,EN)における比較可能に発声された第2の音に対する第2の特徴ベクト ルと、それらに所属する第1および第2の隠れマルコフ音声モデルとに基づいて 、2つの隠れマルコフ音声モデル(L、M、R)のどちらが両方の特徴ベクトル をより良好に記述するかを検出し、 b)当該隠れマルコフ音声モデル(L、M、R)を少なくとも2つの言語(SP ,EN,DE)における音のモデル化に使用する、 ことを特徴とする方法。 2. 隠れマルコフ音声モデル(L、M、R)による特徴ベクトルの記述に対 する尺度として、対数的確率間隔を、各隠れマルコフ音声モデルと少なくとも1 つの特徴ベクトルとの間の対数見込み間隔として形成し、ここでは比較的に小さ い間隔が良好な記述を意味する、請求項1記載の方法。 3. 隠れマルコフ音声モデルによる特徴ベクトルの記述に対する尺度として 、対数的確率間隔の算術平 均値、ないし各隠れマルコフ音声モデル(L、M、R)とそれぞれの特徴ベクト ルとの間の対数見込み間隔の算術平均値を形成し、ここでは比較的に小さい間隔 が良好な記述を意味する、請求項2記載の方法。 4. 1つの音素λiの第1の隠れマルコフ音声モデル(L、M、R)と、1 つの音素λjの第2音隠れマルコフ音声モデルとを使用し、 第1および第2の特徴ベクトルXiとXjとして使用し、ここで第1の特徴ベク トルに対する対数的確率間隔を、 に従って検出し、第2の特徴ベクトルに対する対数的確率間隔を、に従って検出し、算術平均値の対称間隔尺度を得るために を使用する、請求項3記載の方法。 5. 少なくとも2つの言語における音のモデル化に対して、d(λj;λi) が所定のしきい条件を満たす場合だけ前記隠れマルコフ音声モデル(L、M、R )を使用する、請求項4記載の方法。 6. 音声認識装置において、隠れマルコフ音声モデルを多言語で適用する方 法において、 a)第1の言語(SP,EN,DE)における第1の音に対する少なくとも1つ の第1の隠れマルコフ音声モデル(L、M、R)と、少なくとも1つの第2の言 語8DE,SP,EN)における比較可能に発声された第2の音に対する少なく とも1つの第2の隠れマルコフ音声モデル(L、M、R)とに基づいて、ポリフ ォニームモデルを次にように形成する、すなわち、第1および第2の隠れマルコ フ音声モデル(L、M、R)のモデル化に使用された標準確率分布(WD)を、 所定の間隔閾値までそれぞれ1つの新たな標準確率分布(WDP)に統合し、当 該統合された標準確率分布だけがポリフォニームモデルを特徴付け、 前記所定の間隔閾値は、2つの標準確率分布(WD)間でどの程度の最大間隔 までこれらを統合すべきかを表すものであり、 b)当該ポリフォニームモデルを少なくとも2つの言語(DE,SP,EN)に おいて音のモデル化(L、M、R)に適用する、ことを特徴とする方法。 7. 間隔位置として5が設定される、請求項6記載の方法。 8. 3つの状態を有する隠れマルコフ音声モデルを適用し、 当該3つの状態は、語頭音、語中間音、語終音の音 セグメントから形成される、請求項1から7までのいずれか1項記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19636739.5 | 1996-09-10 | ||
DE19636739A DE19636739C1 (de) | 1996-09-10 | 1996-09-10 | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
PCT/DE1997/001923 WO1998011537A2 (de) | 1996-09-10 | 1997-09-02 | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000505914A true JP2000505914A (ja) | 2000-05-16 |
Family
ID=7805150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10513130A Pending JP2000505914A (ja) | 1996-09-10 | 1997-09-02 | 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6212500B1 (ja) |
EP (1) | EP0925461B1 (ja) |
JP (1) | JP2000505914A (ja) |
CN (1) | CN1230277A (ja) |
DE (1) | DE19636739C1 (ja) |
WO (1) | WO1998011537A2 (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6529865B1 (en) | 1999-10-18 | 2003-03-04 | Sony Corporation | System and method to compile instructions to manipulate linguistic structures into separate functions |
US6721697B1 (en) | 1999-10-18 | 2004-04-13 | Sony Corporation | Method and system for reducing lexical ambiguity |
US6928448B1 (en) * | 1999-10-18 | 2005-08-09 | Sony Corporation | System and method to match linguistic structures using thesaurus information |
US6535886B1 (en) | 1999-10-18 | 2003-03-18 | Sony Corporation | Method to compress linguistic structures |
EP1102239A1 (de) * | 1999-11-18 | 2001-05-23 | TELEFONAKTIEBOLAGET LM ERICSSON (publ) | Kodierung und Trainieren des Vokabulars für die Spracherkennung |
DE10040063A1 (de) * | 2000-08-16 | 2002-02-28 | Philips Corp Intellectual Pty | Verfahren zur Zuordnung von Phonemen |
DE10042944C2 (de) * | 2000-08-31 | 2003-03-13 | Siemens Ag | Graphem-Phonem-Konvertierung |
DE10042943C2 (de) | 2000-08-31 | 2003-03-06 | Siemens Ag | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
DE10042942C2 (de) | 2000-08-31 | 2003-05-08 | Siemens Ag | Verfahren zur Sprachsynthese |
DE10043946C2 (de) | 2000-09-06 | 2002-12-12 | Siemens Ag | Komprimieren von HMM-Prototypen |
DE10047172C1 (de) * | 2000-09-22 | 2001-11-29 | Siemens Ag | Verfahren zur Sprachverarbeitung |
US7295979B2 (en) * | 2000-09-29 | 2007-11-13 | International Business Machines Corporation | Language context dependent data labeling |
DE10110977C1 (de) * | 2001-03-07 | 2002-10-10 | Siemens Ag | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem |
ES2281626T3 (es) * | 2002-01-17 | 2007-10-01 | Siemens Aktiengesellschaft | Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10256935A1 (de) * | 2002-12-05 | 2004-07-01 | Siemens Ag | Auswahl der Benutzersprache an einem rein akustisch gesteuerten Telefon |
US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US7502731B2 (en) * | 2003-08-11 | 2009-03-10 | Sony Corporation | System and method for performing speech recognition by utilizing a multi-language dictionary |
US7689404B2 (en) * | 2004-02-24 | 2010-03-30 | Arkady Khasin | Method of multilingual speech recognition by reduction to single-language recognizer engine components |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7725318B2 (en) * | 2004-07-30 | 2010-05-25 | Nice Systems Inc. | System and method for improving the accuracy of audio searching |
EP1693828B1 (en) * | 2005-02-21 | 2008-01-23 | Harman Becker Automotive Systems GmbH | Multilingual speech recognition |
EP2107554B1 (en) * | 2008-04-01 | 2011-08-10 | Harman Becker Automotive Systems GmbH | Generation of multilingual codebooks for speech recognition |
US20100198577A1 (en) * | 2009-02-03 | 2010-08-05 | Microsoft Corporation | State mapping for cross-language speaker adaptation |
US8392189B2 (en) * | 2009-09-28 | 2013-03-05 | Broadcom Corporation | Speech recognition using speech characteristic probabilities |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
JP5544575B2 (ja) * | 2011-09-12 | 2014-07-09 | 日本電信電話株式会社 | 音声言語評価装置、方法、及びプログラム |
US9183830B2 (en) * | 2013-11-01 | 2015-11-10 | Google Inc. | Method and system for non-parametric voice conversion |
US9177549B2 (en) * | 2013-11-01 | 2015-11-03 | Google Inc. | Method and system for cross-lingual voice conversion |
US9542927B2 (en) | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
KR102069699B1 (ko) | 2016-01-18 | 2020-01-23 | 한국전자통신연구원 | 음성인식 장치 및 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
CA2167200A1 (en) * | 1993-07-13 | 1995-01-26 | Theodore Austin Bordeaux | Multi-language speech recognition system |
US5805771A (en) * | 1994-06-22 | 1998-09-08 | Texas Instruments Incorporated | Automatic language identification method and system |
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
-
1996
- 1996-09-10 DE DE19636739A patent/DE19636739C1/de not_active Expired - Lifetime
-
1997
- 1997-09-02 CN CN97197810.7A patent/CN1230277A/zh active Pending
- 1997-09-02 WO PCT/DE1997/001923 patent/WO1998011537A2/de active IP Right Grant
- 1997-09-02 EP EP97943730A patent/EP0925461B1/de not_active Expired - Lifetime
- 1997-09-02 JP JP10513130A patent/JP2000505914A/ja active Pending
- 1997-09-02 US US09/254,775 patent/US6212500B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
WO1998011537A3 (de) | 1998-07-30 |
DE19636739C1 (de) | 1997-07-03 |
EP0925461B1 (de) | 2000-12-06 |
EP0925461A2 (de) | 1999-06-30 |
CN1230277A (zh) | 1999-09-29 |
US6212500B1 (en) | 2001-04-03 |
WO1998011537A2 (de) | 1998-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000505914A (ja) | 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法 | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
JP3162994B2 (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
Masuko et al. | Imposture using synthetic speech against speaker verification based on spectrum and pitch | |
CN110663080A (zh) | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 | |
JP2002062891A (ja) | 音素割当て方法 | |
JP2004094257A (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
Zhang et al. | Improved context-dependent acoustic modeling for continuous Chinese speech recognition | |
Lin et al. | Frameworks for recognition of Mandarin syllables with tones using sub-syllabic units | |
JP2001272991A (ja) | 音声対話方法及び音声対話装置 | |
US20050246172A1 (en) | Acoustic model training method and system | |
Francini et al. | Study of a System of Minimal Speech‐Reproducing Units for Italian Speech | |
JP2000075894A (ja) | 音声認識方法及び装置、音声対話システム、記録媒体 | |
JP2004117662A (ja) | 音声合成システム | |
US6934680B2 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
Govender et al. | The CSTR entry to the 2018 Blizzard Challenge | |
JP2753255B2 (ja) | 音声による対話型情報検索装置 | |
Cahyaningtyas et al. | Under-Resourced Natural Bahasa Indonesia HMM-based Text-To-Speech System | |
KR100620898B1 (ko) | 음성합성시스템의 발화속도 변환방법 | |
JP3299170B2 (ja) | 音声登録認識装置 | |
JP2004272134A (ja) | 音声認識装置及びコンピュータプログラム | |
Das et al. | Understanding the Robustness in Phoneme Production Mechanism in English and Bengali |