JP2000505914A - 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法 - Google Patents

音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法

Info

Publication number
JP2000505914A
JP2000505914A JP10513130A JP51313098A JP2000505914A JP 2000505914 A JP2000505914 A JP 2000505914A JP 10513130 A JP10513130 A JP 10513130A JP 51313098 A JP51313098 A JP 51313098A JP 2000505914 A JP2000505914 A JP 2000505914A
Authority
JP
Japan
Prior art keywords
model
hidden markov
speech
sound
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10513130A
Other languages
English (en)
Inventor
ケーラー ヨアヒム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2000505914A publication Critical patent/JP2000505914A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 本発明により、種々の言語にわたって音の類似性を検出するための方法が提供される。さらに多言語音素を隠れマルコフモデル化するための新たな使用が記載されている。音響音素的モデル化のために提案された本発明の方法では、言語固有の特性も言語に依存する特性も、種々の言語に置いて種々の隠れマルコフ音声モデルに対して確率密度を統合する際に記述される。

Description

【発明の詳細な説明】 音声認識装置において、隠れマルコフ音声モデルを 多言語で適用するための方法 本発明は、音声認識装置に対する隠れマルコフモデルに関連し、このモデルは 、異なる言語間の音響的類似性および音声的類似性を使用することによって複数 の言語単位で適用される。 音声認識では、音声認識技術を導入すべき各言語に対して、適合を実行するた めに新たな音響音声的モデルをトレーニングしなければならないという大きな問 題がある。通常、普及している音声認識装置では、隠れマルコフモデルが発声固 有の音のモデル化に使用される。この統計的モデル化発声モデルから続いて音響 的単語モデルが組み合わされ、この単語モデルは音声認識過程での探索プロセス の間に認識される。この発声モデルをトレーニングするためには非常に大量の音 声データバンクが必要であり、その収集と処理には極端なコストと時間がかかる 。このため、音声認識技術を1つの言語から別の言語に移植する際に欠点が生じ る。なぜなら、新たな音声データバンクの作成は、一方では製品の高価格化を意 味し、他方では市場投入時の時間的遅れを引き起こす。 普及している入手可能な音声認識装置は専ら言語固 有モデルを使用している。この装置を別の新たな言語に移植するためには、大量 の音声データバンクが収集され処理される。続いて新たな言語に対する発声モデ ルがこの収集された言語データにより基礎から新たにトレーニングされる。 音声認識装置を異なる言語に移植する際のコストと時間的遅れを低減するため に、個々の発声モデルが異なる言語での使用に適するか否かを検査すべきである 。このために[2]にはすでに多言語音声モデルの作成とこれをそれぞれの言語 で音声認識に使用することが記載されている。そこには概念、ポリフォニームと モノフォニームが導入されている。ここでポリフォニーム音とは、その音声形成 特性を複数の言語にわたって同一視するのにほぼ十分である音を意味する。モノ フォニーム音は、言語固有の特性を有する音である。このような開発作業と研究 に対して、新たな言語データバンクをそのたびにトレーニングする必要がないよ うにするため、すでに規格が存在している[6]、[4]、[7]。音声モデル を多言語適用するための他の従来技術はまだない。 本発明の課題は、隠れマルコフ音声モデルを1つの音声認識装置で多言語適用 するための方法を提供することであり、この方法により音声認識装置の他の言語 への移植コストを最小にすることであり、このことは多言語音声認識装置でのパ ラメータを低減することに より行う。 この課題は、請求項1と請求項6に記載の構成によって解決される。 本発明の改善形態は従属請求項に記載されている。 本発明の方法は有利には、統計的類似尺度をリストアップし、この類似尺度に より所定数の異なる音声モデルから異なる言語での類似の音に対して次のような 音声モデルを選択する、すなわちその特性の点で、それぞれの音で使用される特 徴ベクトルがすべての最適に表される音声モデルを選択するのである。 特に有利には、異なる音声特徴ベクトルに対して最適の隠れマルコフモデルを 選択するための尺度として、それぞれの隠れマルコフモデルと各特徴ベクトルと の間の対数的確率間隔を検出する。これにより個々の音声モデルの類似性とその 認識率についての実験的知見が反映された尺度が使用される。 特に有利には、できるだけ再現性のある隠れマルコフ音声モデルを表す尺度と して本発明では、各隠れマルコフモデルとそれぞれの特徴ベクトルとの間の対数 的確率間隔の数学的平均値を形成する。なぜならこれにより対称的間隔値が得ら れるからである。 有利には、異なる言語での音を表す隠れマルコフモデルの再現特性を記述する 本発明の記述尺度は次のようにして形成される。すなわち本発明の数式1から3 を適用することにより形成される。なぜならこれによ り計算コストが小さくなるからである。 特に有利には本発明の方法により、音声バイオグラフィーに対するメモリコス トが低減される。なぜなら、1つのモデルを複数言語に対して使用することがで き、同じように1つの言語から別の言語への移植コストが最小になるからである 。このことは移植のための時間の低減にもつながる。同じように有利には、Vite rbi-探索の際の計算コストの低減が可能である。なぜなら例えば、多言語入力装 置で検査しなければならないモデルの数が少ないからである。 特に有利には本発明では、隠れマルコフモデルが多言語音声認識装置に適用す るため発声される。本発明の手段により、隠れマルコフ音声モデルを多言語の音 に対してポリフォニームモデルに統合することができる。このために、適用され る標準確率密度分布の重畳領域が種々異なるモデルで探索される。ポリフォニー ムモデルを表すために、異なるモデルで適用される任意の数の同じ標準確率密度 分布を利用することができる。実験的知見では次のことが示されている。すなわ ち、有利には複数の標準分布を異なる言語モデルから使用することができ、これ による個々の言語特性の混合がこのモデルを使用する際の認識率の有意な低下に はつながらないということが示されている。ここで、標準確率密度分布間で間隔 閾値が5であると特に有利である。 特に有利には本発明の方法を使用する際に、語頭音、語中間音、語終音からな る3つの状態の隠れマルコフモデルをモデル化する。なぜならこれにより十分な 精度が音の記述の際に達成され、音声識別子での識別の際の計算コストが低く押 さえられるからである。 図1には例として多言語音の構造が示されている。この場合、音素Mが示され ている。この音素に対する確率密度と認識率が表に示されている。 図1には、音素モデルの語頭音L、語中間音M、語終音Rが示されている。種 々異なる言語、英語EN、独語DE、西語SPに対して、個々に適用された標準 確率密度の確率密度分布がプロットされており、WDとして示されている。ここ では例えば3つの部分状態からなる隠れマルコフモデルが示されている。しかし 本発明は認識を最小の計算コストで実行し、ある程度の最適性が得られるという 基準を考慮しているが、このような隠れマルコフモデルに制限されるものではな い。本発明はまた、異なる数の状態を有する隠れマルコフモデルに適用すること ができる。本発明により例えば、音声認識装置を別の言語に移植する際の移植コ ストが低減され、使用される計算ソースが、基礎となるパラメータの低減により できるだけ低く維持される。例えばこの種の音声認識装置により、ハードウェア 必要性の制限を良好に満たすことができ、1つの同じ音声認識装置を1つの機器 で多言語に適用する場合には非常に有利である。 まず本発明の目的を達成するために、異なる言語での音の類似性を利用し、モ デル化の際に考慮するには、言語が異なると音素も異なることに注意しなければ ならない。その理由はとりわけ次のとおりである。 −言語が異なれば音素集合が異なるため、音素的コンテクストが異なる; −発声様式が異なる; −プロソディー特徴が異なる; −異音バリエーションが異なる。 ここで考慮すべき特に重要な側面は、基本的に十分な認知技術的相違が音素に あることである[5]。このことは、異なる言語での個々の音は音響的に区別可 能に維持され、従って個々の聴取者はこれを容易に分離できることを意味する。 しかし各個別の言語は異なる音素資源を有しており、2つの類似の音素間の境界 は各個別の言語に置いて言語固有に設定されている。この理由から所定の音の出 現は言語固有の要素である。 有利には音素は連続的に密な隠れマルコフモデル( CD−HMM)を用いてモデル化される[3]。密な関数としてしばしばラプラ ス混合が使用される。ここで有利には各個々の音素は、左から右へ向いたHMM の3つの状態からなる。ここで音響的特徴ベクトルは例えば24スカラー・セプ ストラル、12デルタ・セプストラル、12デルタ・デルタ・セプストラル、エ ネルギー、デルタ・エネルギー、およびデルタ・デルタ・エネルギー係数からな る。例えば探索時間窓の長さとして25msが選択されれば、個々のフレーム間 のフレーム間隔は10msである。言語本体の大きさが制限されているため、有 利には単に文脈に依存しない音素だけが発生される。特に記述性のある音素目録 が[4]から選択された。 本発明の基本思想は、標準的に使用される言語音素ライブラリーから異なる言 語に対して、異なる言語の異なる音声モデルから導出された特徴ベクトルに最も 近い隠れマルコフモデルを選択することができるように類似性尺度を作成するこ とである。このことにより2つの音素モデルの類似性を検出することができ、こ の類似性尺度を介して、音声実現化と音声モデルとの間の対数見込み値の差に基 づいて次のような予測を行うのである。1つの音を複数の言語に対してモデル化 する甲斐があるか否か、すなわち該当するすでに存在する隠れマルコフモデルを 複数の言語における音のモデル化に使用する甲斐があるか否かの予測が行われる 。このことにより、音声認識の際に考慮すべきパラメータの数が低減される。こ れは探索すべき隠れマルコフモデルの数が低減するからである 本発明の第2の解決手段では、固有のポリフォニームモデルを複数の言語にお ける音のモデル化のために作成する。このためにまず例えば、語頭音、語中間音 語終音の形態の3つの音セグメントが形成される。これらの状態は複数の確率密 度関数、所属の密度を伴ういわゆる混合分布密度からなる。異なる言語にわたっ て類似の音セグメントのこの密度は多言語コードブックにまとめられる。従って 異なる言語の音セグメントは同じ密度に分けられる。コードブックは複数の言語 に対して同時に使用できるが、例えば密度を各言語に対して重み付けする重み付 け係数は各言語に対して別個に検出される。 適切な類似尺度を形成するために、有利には隠れマルコフモデルは3つの状態 により利用される。間隔尺度または類似性尺度はここで複数の音素モデルを1つ の多言語音素モデルにまとめるために、またはこれを適切に置換するために使用 することができる。これによって多言語音素資源を開発することができる。有利 には、異なる言語からの同じ音の2つの音素モデルを間隔測定ないし類似性検出 するのために、1つの測定量を使用する。この測定量は相対エントロピーに基づ く[1]。ここではトレーニングの間に、音素モデル の混合されたラプラス密度分布のパラメータが検出される。さらに各音素に対し て音素トークンXの集合が特徴ベクトルとしてテストまたは開発言語本体から抽 出される。この音素はここで、その国際的標準音素ラベルによりマーキングする ことができる。本発明によれば、2つの音素モデルλiとλjおよびそれらに所属 する音素トークンXiとXjが、これら異なる音素間の類似性検出のために次のよ うに取り扱われる。 この間隔尺度は、対数見込み間隔として見なすことができ、どの程度良好に2 つの異なるモデルが同じ特徴ベクトルXIに適合しているかを表す。従って2つ のモデルλiとλjとの間の間隔は次のように 検出される。これら2つの音素モデル間の対称間隔を得るために有利にはこれが 次のように検出される。 実験的知見に基づき、他の言語からのいくつかの音素モデルがドイツ語音声認識 装置での使用に、ドイツ語音素モデルよりも良く適することが発見された。例え ばこれは音素k,pおよびNに対して当てはまる。これらの音素に対しては英語 音素モデルがドイツ語音素 モデルよりも適する。一方ドイツ語モデルと英語モデルとの大きな相違はウムラ ウトaUで観察された。このことは2つの音に対して異なるシンボルを多言語音 素資源で導入すべきであることを意味する。一方でウムラウトaIに対しては、 ドイツ語と英語とで大きな類似性が発見できた。このことは単に1つの音素モデ ルを両方の言語に対して同じように良好に適用できることを意味する。ここから 出発して、多言語音素資源の各シンボルに対しては別個の統計的モデルを使用す べきである。[6]には、ポリフォニームがそのような音素として示されており 、異なる言語においてただ1つの音素としてモデル化するのに十分な類似性があ る。この手段の欠点は、言語固有の認識に対してポリフォニームの完全な音響空 間が使用されることである。しかし本発明の目的は、多言語モデルの、言語に依 存する音響特性と言語固有の音響特性を結合することである。本発明によれば、 ポリフォニームモデルにおいてそのような音響空間の領域が限定される。すなわ ち個々の音素の使用される確率密度が重なる領域が限定される。このため、例え ば群分けされた密度クラスタリング技術(agglommerative density clustering technique)が使用され、音素の同じまたは類似の表出が低減される。ここで注 意すべき特に重要なことは、まとめることができるのは音素における個々の隠れ マルコフモデルの相応する状態の密度だけだというこ とである。 図1では、個々の状態L、M、Rに対するそれぞれの密度が限定された領域に 含まれている。同じ密度が個々の言語EN,DE,SPにわたって分散されてお り、混合重み付け係数は言語に依存して異なっている。しかしこの評価では、異 なる言語における音素の固有の表出は頻度の相違として発生することを考慮しな ければならない。 ここで異なる確率密度の統合は、密度頻度(デンシティ・クラスタリング)に おける確率密度に対する種々の閾値によって実行することができる。例えば5つ の間隔閾値により、使用された密度の数は係数3だけ出発状態に対して低減され た。またこれによる音声認識率の重大な悪化も生じなかった。この場合、元の3 41出発密度の221,48および72がそれぞれポリフォニーム領域、2言語 領域および単言語領域にまとめられた。図1にはこのようなポリフォニーム領域 が個々の言語に対し円の切断部分として示されている。図示の隠れマルコフモデ ルの語中間音Mでは、例えば確率密度がそのような領域にWDPとして示されて いる。完全な多言語音声認識装置に対する認識率はここでは表2の4列と5列に ML1およびML2としてプロットされている。 第1の探索ML1では[6]からの従来のポリフォニーム定義が認識に使用さ れているが、このことはポリフォニームモデルの音響領域が全体が図1の音声領 域の外側輪郭から成ることを意味する。一方、本発明の方法はそこの部分領域だ けを使用する。ポリフォニームモデルの個々のモデル化のために個々の音声領域 の部分的重なり領域を使用することにより、例えば2%の改善が達成される。こ のことは表2のML2に対する列に示されている。 本発明で引用された刊行物は以下のとおりである。
【手続補正書】特許法第184条の8第1項 【提出日】1998年9月2日(1998.9.2) 【補正内容】 有モデルを使用している。この装置を別の新たな言語に移植するためには、大量 の音声データバンクが収集され処理される。続いて新たな言語に対する発声モデ ルがこの収集された言語データにより基礎から新たにトレーニングされる。 音声認識装置を異なる言語に移植する際のコストと時間的遅れを低減するため に、個々の発声モデルが異なる言語での使用に適するか否かを検査すべきである 。このために[2]にはすでに多言語音声モデルの作成とこれをそれぞれの言語 で音声認識に使用することが記載されている。そこには概念、ポリフォニームと モノフォニームが導入されている。ここでポリフォニーム音とは、その音声形成 特性を複数の言語にわたって同一視するのにほぼ十分である音を意味する。 モノフォニーム音は、言語固有の特性を有する音である。このような開発作業 と研究に対して、新たな言語データバンクをそのたびにトレーニングする必要が ないようにするため、すでに規格が存在している[6]、[4]、[7]。 [8]から、多言語音声認識のために特別な音素とこの音素の隠れマルコフモ デルを適用することが公知である。 音素モデルを多言語適用するための技術はまだ公知でない。 本発明の課題は、隠れマルコフ音声モデルを1つの 音声認識装置で多言語適用するための方法を提供することであり、この方法によ り音声認識装置の他の言語への移植コストを最小にすることであり、このことは 多言語音声認識装置でのパラメータを低減することに 本発明で引用された刊行物は以下のとおりである。 請求の範囲 1. 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するた めの方法において、 a)第1の言語(SP,EN,DE)における第1の音(L、M、R)に対する 少なくとも1つの第1の特徴ベクトルと、少なくとも1つの第2の言語(DE, SP,EN)における比較可能に発声された第2の音に対する第2の特徴ベクト ルと、それらに所属する第1および第2の隠れマルコフ音声モデルとに基づいて 、2つの隠れマルコフ音声モデル(L、M、R)のどちらが両方の特徴ベクトル を所定の基準の点でより良好に記述するかを検出し、 b)当該隠れマルコフ音声モデル(L、M、R)を少なくとも2つの言語(SP ,EN,DE)における音のモデル化に使用する、 ことを特徴とする方法。

Claims (1)

  1. 【特許請求の範囲】 1. 音声認識装置において、隠れマルコフ音声モデルを多言語で適用する方 法において、 a)第1の言語(SP,EN,DE)における第1の音(L、M、R)に対する 少なくとも1つの第1の特徴ベクトルと、少なくとも1つの第2の言語(DE, SP,EN)における比較可能に発声された第2の音に対する第2の特徴ベクト ルと、それらに所属する第1および第2の隠れマルコフ音声モデルとに基づいて 、2つの隠れマルコフ音声モデル(L、M、R)のどちらが両方の特徴ベクトル をより良好に記述するかを検出し、 b)当該隠れマルコフ音声モデル(L、M、R)を少なくとも2つの言語(SP ,EN,DE)における音のモデル化に使用する、 ことを特徴とする方法。 2. 隠れマルコフ音声モデル(L、M、R)による特徴ベクトルの記述に対 する尺度として、対数的確率間隔を、各隠れマルコフ音声モデルと少なくとも1 つの特徴ベクトルとの間の対数見込み間隔として形成し、ここでは比較的に小さ い間隔が良好な記述を意味する、請求項1記載の方法。 3. 隠れマルコフ音声モデルによる特徴ベクトルの記述に対する尺度として 、対数的確率間隔の算術平 均値、ないし各隠れマルコフ音声モデル(L、M、R)とそれぞれの特徴ベクト ルとの間の対数見込み間隔の算術平均値を形成し、ここでは比較的に小さい間隔 が良好な記述を意味する、請求項2記載の方法。 4. 1つの音素λiの第1の隠れマルコフ音声モデル(L、M、R)と、1 つの音素λjの第2音隠れマルコフ音声モデルとを使用し、 第1および第2の特徴ベクトルXiとXjとして使用し、ここで第1の特徴ベク トルに対する対数的確率間隔を、 に従って検出し、第2の特徴ベクトルに対する対数的確率間隔を、に従って検出し、算術平均値の対称間隔尺度を得るために を使用する、請求項3記載の方法。 5. 少なくとも2つの言語における音のモデル化に対して、d(λj;λi) が所定のしきい条件を満たす場合だけ前記隠れマルコフ音声モデル(L、M、R )を使用する、請求項4記載の方法。 6. 音声認識装置において、隠れマルコフ音声モデルを多言語で適用する方 法において、 a)第1の言語(SP,EN,DE)における第1の音に対する少なくとも1つ の第1の隠れマルコフ音声モデル(L、M、R)と、少なくとも1つの第2の言 語8DE,SP,EN)における比較可能に発声された第2の音に対する少なく とも1つの第2の隠れマルコフ音声モデル(L、M、R)とに基づいて、ポリフ ォニームモデルを次にように形成する、すなわち、第1および第2の隠れマルコ フ音声モデル(L、M、R)のモデル化に使用された標準確率分布(WD)を、 所定の間隔閾値までそれぞれ1つの新たな標準確率分布(WDP)に統合し、当 該統合された標準確率分布だけがポリフォニームモデルを特徴付け、 前記所定の間隔閾値は、2つの標準確率分布(WD)間でどの程度の最大間隔 までこれらを統合すべきかを表すものであり、 b)当該ポリフォニームモデルを少なくとも2つの言語(DE,SP,EN)に おいて音のモデル化(L、M、R)に適用する、ことを特徴とする方法。 7. 間隔位置として5が設定される、請求項6記載の方法。 8. 3つの状態を有する隠れマルコフ音声モデルを適用し、 当該3つの状態は、語頭音、語中間音、語終音の音 セグメントから形成される、請求項1から7までのいずれか1項記載の方法。
JP10513130A 1996-09-10 1997-09-02 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法 Pending JP2000505914A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19636739.5 1996-09-10
DE19636739A DE19636739C1 (de) 1996-09-10 1996-09-10 Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
PCT/DE1997/001923 WO1998011537A2 (de) 1996-09-10 1997-09-02 Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem

Publications (1)

Publication Number Publication Date
JP2000505914A true JP2000505914A (ja) 2000-05-16

Family

ID=7805150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10513130A Pending JP2000505914A (ja) 1996-09-10 1997-09-02 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法

Country Status (6)

Country Link
US (1) US6212500B1 (ja)
EP (1) EP0925461B1 (ja)
JP (1) JP2000505914A (ja)
CN (1) CN1230277A (ja)
DE (1) DE19636739C1 (ja)
WO (1) WO1998011537A2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6529865B1 (en) 1999-10-18 2003-03-04 Sony Corporation System and method to compile instructions to manipulate linguistic structures into separate functions
US6721697B1 (en) 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6928448B1 (en) * 1999-10-18 2005-08-09 Sony Corporation System and method to match linguistic structures using thesaurus information
US6535886B1 (en) 1999-10-18 2003-03-18 Sony Corporation Method to compress linguistic structures
EP1102239A1 (de) * 1999-11-18 2001-05-23 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Kodierung und Trainieren des Vokabulars für die Spracherkennung
DE10040063A1 (de) * 2000-08-16 2002-02-28 Philips Corp Intellectual Pty Verfahren zur Zuordnung von Phonemen
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung
DE10042943C2 (de) 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE10042942C2 (de) 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
DE10043946C2 (de) 2000-09-06 2002-12-12 Siemens Ag Komprimieren von HMM-Prototypen
DE10047172C1 (de) * 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung
US7295979B2 (en) * 2000-09-29 2007-11-13 International Business Machines Corporation Language context dependent data labeling
DE10110977C1 (de) * 2001-03-07 2002-10-10 Siemens Ag Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
ES2281626T3 (es) * 2002-01-17 2007-10-01 Siemens Aktiengesellschaft Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz.
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10256935A1 (de) * 2002-12-05 2004-07-01 Siemens Ag Auswahl der Benutzersprache an einem rein akustisch gesteuerten Telefon
US8285537B2 (en) * 2003-01-31 2012-10-09 Comverse, Inc. Recognition of proper nouns using native-language pronunciation
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
US7502731B2 (en) * 2003-08-11 2009-03-10 Sony Corporation System and method for performing speech recognition by utilizing a multi-language dictionary
US7689404B2 (en) * 2004-02-24 2010-03-30 Arkady Khasin Method of multilingual speech recognition by reduction to single-language recognizer engine components
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
EP1693828B1 (en) * 2005-02-21 2008-01-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition
EP2107554B1 (en) * 2008-04-01 2011-08-10 Harman Becker Automotive Systems GmbH Generation of multilingual codebooks for speech recognition
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US8392189B2 (en) * 2009-09-28 2013-03-05 Broadcom Corporation Speech recognition using speech characteristic probabilities
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
JP5544575B2 (ja) * 2011-09-12 2014-07-09 日本電信電話株式会社 音声言語評価装置、方法、及びプログラム
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
CA2167200A1 (en) * 1993-07-13 1995-01-26 Theodore Austin Bordeaux Multi-language speech recognition system
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages

Also Published As

Publication number Publication date
WO1998011537A3 (de) 1998-07-30
DE19636739C1 (de) 1997-07-03
EP0925461B1 (de) 2000-12-06
EP0925461A2 (de) 1999-06-30
CN1230277A (zh) 1999-09-29
US6212500B1 (en) 2001-04-03
WO1998011537A2 (de) 1998-03-19

Similar Documents

Publication Publication Date Title
JP2000505914A (ja) 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法
US10074363B2 (en) Method and apparatus for keyword speech recognition
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
Masuko et al. Imposture using synthetic speech against speaker verification based on spectrum and pitch
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
JP2002062891A (ja) 音素割当て方法
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
Zhang et al. Improved context-dependent acoustic modeling for continuous Chinese speech recognition
Lin et al. Frameworks for recognition of Mandarin syllables with tones using sub-syllabic units
JP2001272991A (ja) 音声対話方法及び音声対話装置
US20050246172A1 (en) Acoustic model training method and system
Francini et al. Study of a System of Minimal Speech‐Reproducing Units for Italian Speech
JP2000075894A (ja) 音声認識方法及び装置、音声対話システム、記録媒体
JP2004117662A (ja) 音声合成システム
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
Govender et al. The CSTR entry to the 2018 Blizzard Challenge
JP2753255B2 (ja) 音声による対話型情報検索装置
Cahyaningtyas et al. Under-Resourced Natural Bahasa Indonesia HMM-based Text-To-Speech System
KR100620898B1 (ko) 음성합성시스템의 발화속도 변환방법
JP3299170B2 (ja) 音声登録認識装置
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム
Das et al. Understanding the Robustness in Phoneme Production Mechanism in English and Bengali