JP2002520664A - Language-independent speech recognition - Google Patents
Language-independent speech recognitionInfo
- Publication number
- JP2002520664A JP2002520664A JP2000559559A JP2000559559A JP2002520664A JP 2002520664 A JP2002520664 A JP 2002520664A JP 2000559559 A JP2000559559 A JP 2000559559A JP 2000559559 A JP2000559559 A JP 2000559559A JP 2002520664 A JP2002520664 A JP 2002520664A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- language
- languages
- words
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 13
- 230000001419 dependent effect Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】 音声認識システムは、単語に結び付けられるスピーチユニットを表現するための他言語からのスピーチデータから得られる、言語に依存しない音響モデルを用いる。それに加えて、言語に依存しない音響モデルと比較される入力スピーチ信号は、他言語からのスピーチデータから得られるコードブックに従って量子化されたベクトルであってもよい。 (57) [Summary] A speech recognition system uses a language-independent acoustic model obtained from speech data from another language to represent a speech unit linked to a word. In addition, the input speech signal compared to the language-independent acoustic model may be a vector quantized according to a codebook derived from speech data from another language.
Description
【0001】 発明の技術分野 本発明は、音声認識システムに関する。[0001] Technical Field of the Invention The present invention relates to a voice recognition system.
【0002】 発明の背景技術 現行の音声認識システムは、ただ個々の言語のみをサポートする。もし、もう
一つの言語が認識される必要があるならば、音響モデルは交換されなければなら
ない。大抵の音声認識システムのために、記録されたスピーチの大きい集まりか
ら統計上の情報を抽出することによって、これらのモデルが構築されるか、ある
いは、トレーニングされる。所定の言語において音声認識を提供するために、あ
る言語のすべての音を表す音素として知られるシンボルのセットを典型的に定義
する。いくらかのシステムは、所定の言語の基準音を表すために、「音素的ユニ
ット」としてより一般的に知られる他の部分語(サブワード)のユニットを用い
る。これらの音素的ユニットは、隠れマルコフモデル(HMMs)及び当該技術
において周知である他の音声モデルによって設計されるバイフォン(biphone)
とトライフォン(triphone)を含む。 [0002] current voice recognition system of the invention, just to support only individual language. If another language needs to be recognized, the acoustic models must be exchanged. For most speech recognition systems, these models are built or trained by extracting statistical information from a large collection of recorded speech. To provide speech recognition in a given language, we typically define a set of symbols known as phonemes that represent all sounds in a language. Some systems use units of other sub-words, more commonly known as "phonemic units", to represent the reference sound of a given language. These phonemic units are biphones designed by Hidden Markov Models (HMMs) and other speech models well known in the art.
And triphones.
【0003】 話されたサンプルの多くは、典型的に、各音素について音響モデルの抽出を可
能にするために記録される。通常、多くのネイティブスピーカー(母国語話者)
、すなわち、言語を母国語とする人は、多くの発話を記録することを必要とされ
る。一セットの録音は、スピーチデータベースとして言及される。サポートされ
るべきすべての言語のためのそのようなスピーチデータベースの録音は、非常に
高価であり、時間の浪費でもある。[0003] Many of the spoken samples are typically recorded to allow for the extraction of an acoustic model for each phoneme. Usually many native speakers (native speakers)
That is, a native speaker of a language is required to record many utterances. One set of recordings is referred to as a speech database. Recording such speech databases for all languages to be supported is very expensive and time consuming.
【0004】 発明の概要 (以下の記述と特許請求の範囲において、もし、文脈が他の意味で用いること
を要求するのでなければ、音声認識システムに関連する用語「言語に依存しない
(language independent)」は、音声認識システムにおいて設計される複数の言
語に独立して存在する認識能力を意味する。) 本発明の好ましい実施の形態では、スピーチプリプロセッサ、音響モデルのデ
ータベース、言語モデル、及びスピーチレコグナイザー(認識器)を備える、言
語に依存しない音声認識システムが提供される。スピーチプリプロセッサは、入
力スピーチを受信し、入力スピーチを表すスピーチ関連信号を生成する。音響モ
デルのデータベースは、複数の言語のそれぞれで各サブワードユニットを表す。
言語モデルは、認識可能な単語の語彙及び一セットの文法規則の特性を表し、ス
ピーチ認識器は、スピーチ関連信号と音響モデル及び言語モデルとを比較し、入
力スピーチを少なくとも一単語の特定の単語シーケンスとして認識する。[0004] In the scope of the summary (following description and claims of the invention, if, unless you require that the context used in the other sense, does not depend on the term "language associated with the speech recognition system (to language independent) Means a recognition capability that exists independently in a plurality of languages designed in a speech recognition system.) In a preferred embodiment of the present invention, a speech preprocessor, a database of acoustic models, a language model, and a speech record A language-independent speech recognition system is provided that includes a recognizer. A speech preprocessor receives the input speech and generates a speech-related signal representing the input speech. The acoustic model database represents each subword unit in each of a plurality of languages.
The language model characterizes the vocabulary of the recognizable word and a set of grammar rules, and the speech recognizer compares the speech-related signal with the acoustic model and the language model, and converts the input speech into at least one specific word. Recognize as a sequence.
【0005】 さらに関連した実施の形態では、スピーチプリプロセッサは、スピーチ関連信
号を生成するために、適切なスピーチパラメーターを抽出する特徴抽出器を備え
る。特徴抽出機は、スピーチデータを用いて複数の言語から作られたコードブッ
クを含み、スピーチ関連が一連の特徴ベクトルであるようなベクトル量子化を用
いてもよい。[0005] In a further related embodiment, a speech pre-processor comprises a feature extractor that extracts appropriate speech parameters to generate a speech-related signal. The feature extractor may include codebooks made from multiple languages using speech data, and use vector quantization such that the speech association is a series of feature vectors.
【0006】 その代わりに、あるいはそれに加えて、一実施の形態は、スピーチデータを用
いて複数の言語から音響モデルを作ってもよい。サブワードユニットは、少なく
とも一つの音素、音素の一部、及び音素のシーケンスであってもよい。認識可能
な単語の語彙は、固有名詞、複数の言語に存在しない言語内の単語、又は、外来
の単語を含む複数の言語における単語を含んでもよい。それに加えて、認識可能
な単語の語彙における単語は、データベースから音響モデルのユーザーによって
調整されたシーケンスで構成された声紋によって記述されてもよい。そのような
一実施の形態は、スピーチ入力の話者の同一性を決定するために声紋を用いる話
者識別器(speaker identifier)をさらに含んでもよい。[0006] Alternatively, or in addition, one embodiment may create an acoustic model from multiple languages using speech data. A sub-word unit may be at least one phoneme, part of a phoneme, and a sequence of phonemes. The vocabulary of recognizable words may include proper nouns, words in languages that do not exist in multiple languages, or words in multiple languages, including foreign words. In addition, words in the vocabulary of recognizable words may be described by voiceprints composed of sequences tailored by the user of the acoustic model from the database. One such embodiment may further include a speaker identifier that uses the voiceprint to determine the identity of the speaker of the speech input.
【0007】 さらにもう一つの実施の形態では、スピーチ認識器は、適切なスピーチパラメ
ーターと、複数の言語中の第1の言語のサブワードユニットを表す音響モデルと
を比較し、それから、ネイティブスピーカーでない人からの入力スピーチが認識
され得るように、複数の言語中の第2の言語の少なくとも1つの単語の特定の単
語シーケンスとしてスピーチ入力を認識してもよい。In yet another embodiment, the speech recognizer compares the appropriate speech parameters with an acoustic model representing a sub-word unit of the first language in the plurality of languages, and then compares the speech model with a non-native speaker. The speech input may be recognized as a particular word sequence of at least one word in a second language of the plurality, such that input speech from a plurality of languages may be recognized.
【0008】 本発明のもう一つの実施の形態は、コンピューターにロードされるとき、記述
された言語に依存しない音声認識システムの一実施の形態に関連して操作するユ
ーザーに外国語を教えるためのコンピュータープログラムでコード化されたコン
ピューターで読取り可能なデジタル記憶媒体を含む。[0008] Another embodiment of the present invention is directed to teaching a foreign language to a user, when loaded on a computer, operating in conjunction with an embodiment of a written language independent speech recognition system. Includes computer readable digital storage media encoded with a computer program.
【0009】 本発明の実施の形態は、また、上述されたシステムの一つを用いる言語に依存
しない音声認識システムの方法を含む。Embodiments of the present invention also include a method for a language-independent speech recognition system using one of the systems described above.
【0010】 好ましい実施の形態の詳細な記述 先行技術における典型的な音声認識エンジンの操作は、図1に示される。スピ
ーチ信号10は、プリプロセッサ11に送られ、そこでは、適切なパラメーター
がスピーチ信号10から抽出される。パターンマッチング認識器12は、音響モ
デル13と言語モデル14に基づいて、最も良い単語シーケンス認識結果15を
見付け出すよう試みる。言語モデル14は、単語と、その単語が文を形成するた
めにどのように接続するかを記述する。それは、孤立された単語認識器の場合に
は単語のリストと同様にシンプルであり、また、大語彙の連続音声認識のための
統計的な言語モデルと同様に複雑であってもよい。音響モデル13は、プリプロ
セッサ11からのスピーチパラメーターと認識されるべき認識シンボルとの間の
リンクを確立する。中及び大語彙システムでは、認識シンボルは、音素、又は単
語を形成するために結び付けられる音素的ユニットである。音声認識システムの
設計におけるさらなる情報は、例えば、ラビナー(Rabiner)とジュアング(Jua
ng)による、1993年プリエンティスホール「音声認識の基礎」(以下、「ラ
ビナーとジュアング」という。)で提供される。[0010] Preferred embodiments typical operating speech recognition engine in the detailed description the prior art is shown in FIG. The speech signal 10 is sent to a pre-processor 11, where appropriate parameters are extracted from the speech signal 10. The pattern matching recognizer 12 attempts to find the best word sequence recognition result 15 based on the acoustic model 13 and the language model 14. The language model 14 describes the words and how they connect to form a sentence. It can be as simple as a list of words in the case of an isolated word recognizer, or as complex as a statistical language model for large vocabulary continuous speech recognition. The acoustic model 13 establishes a link between the speech parameters from the preprocessor 11 and the recognized symbols to be recognized. In medium and large vocabulary systems, recognition symbols are phonemes or phonemic units that are tied together to form words. More information on the design of speech recognition systems can be found, for example, in Rabiner and Jua.
ng), in 1993 Pre-Entrance Hall, "Basics of Speech Recognition" (hereinafter "Rabina and Juangu").
【0011】 先行技術のシステムでは、図2に示されるように、あらゆる所定の言語1のた
めに、言語1−特定記録スピーチデータ20は、その言語において各音素21を
表す音響モデル22を生成するために用いられる。他の所定の言語2の場合には
、言語2−特定記録スピーチデータ25は、その言語2における各音素23を表
すその言語特有の他の音響モデル24を生成するために用いられる。In the prior art system, as shown in FIG. 2, for any given language 1, the language 1 -specific recorded speech data 20 generates an acoustic model 22 representing each phoneme 21 in that language. Used for In the case of another predetermined language 2, the language 2-specific recorded speech data 25 is used to generate another language-specific acoustic model 24 representing each phoneme 23 in that language 2.
【0012】 図3は、本発明の好ましい実施の形態において生成される音響モデルを示す。
スピーチデータを記録し、別々にすべての言語のための音響モデルを構築する代
わりに、上述のように、世界すべての言語、あるいは、ヨーロッパ又は東洋の言
語のような大グループの言語、あるいは任意の複数の言語をサポートするのに、
音響モデルの唯一の全体集合が用いられる。これを達成するために、統計的な情
報が音響モデルを創り出すために検索されるスピーチデータベースは、いくつか
の言語のスピーチ33を含み、すべての可能な音素又はこれらの言語における音
素的ユニットをカバーする。したがって、特定の音素の音響モデルは、多言語か
らのスピーチに基づいて組み立てられる。それゆえ、すべての望ましい言語をカ
バーする全音素のリスト31は、対応する音響モデル32とともに、音声認識シ
ステムに含まれる。各音素31が単音のユニークな表現であるので、いくつかの
言語に現れる音は、同じ音素によって表され、同じ対応する音響モデル32を持
つ。音素の代わりに、別の実施の形態は、隠れマルコフモデル(HMMs)等に基づ
くバイフォンとトライフォンのような、音素的なサブワードユニットを用いても
よい。もう一つの実施の形態では、図1の言語モデル14は省略され、認識器1
2によるパターンマッチングは、プリプロセッサ11からのスピーチパラメータ
ーと音響モデル13との比較のみに基づいてもよい。FIG. 3 shows an acoustic model generated in a preferred embodiment of the present invention.
Instead of recording speech data and building acoustic models for all languages separately, as described above, all languages in the world, or large groups of languages such as European or Eastern languages, or any To support multiple languages,
Only one whole set of acoustic models is used. To achieve this, a speech database in which statistical information is searched to create an acoustic model includes speech 33 in several languages and covers all possible phonemes or phonemic units in these languages. I do. Thus, an acoustic model of a particular phoneme is constructed based on speech from multiple languages. Therefore, a list 31 of all phonemes covering all desired languages, together with the corresponding acoustic model 32, is included in the speech recognition system. Since each phoneme 31 is a unique representation of a single phone, sounds that appear in several languages are represented by the same phoneme and have the same corresponding acoustic model 32. Instead of phonemes, alternative embodiments may use phonemic sub-word units, such as biphones and triphones based on Hidden Markov Models (HMMs) and the like. In another embodiment, the language model 14 of FIG.
2 may be based only on the comparison between the speech parameters from the preprocessor 11 and the acoustic model 13.
【0013】 好ましい実施の一形態における音声認識システムは、離散密度HMM音素ベー
スの連続認識エンジンに基づいており、図4に示される。これらの認識エンジン
は、電話スピーチ、マイクロフォンスピーチ、又は他の有利な応用のために有用
である。入力スピーチ信号は、最初にある形態の前処理を受ける。図4に示され
るように、好ましい実施の一形態は、入力スピーチ信号を処理し、10ミリ秒毎
に一度30ミリ秒のスピーチセグメントのために、エネルギーとスペクトルのプ
ロパティ(ケプストラム)を計算する、ベクトル量子化特性抽出モジュール41
を用いる。電話音声認識エンジンの好ましい実施の形態は、第1及び第2オーダ
ーの派生語とともに、12ケプストラム係数とログエネルギーを導出するために
、一般に周知のLPC解析法を用いる。マイクロフォン音声認識エンジンの好ま
しい実施の形態は、同一の目的を達成するために、一般に周知のMEL−FFT
法を用いる。各スピーチフレームのための両エンジンの結果は、12ケプストラ
、12デルタケプストラ、12デルタデルタケプストラ、デルタログエネルギー
、及びデルタデルタログエネルギーのベクトルである。これらのスピーチ前処理
技術は、当該技術では周知である。この主題の追加の議論のために、例えば、ラ
ビナーとジュアングの「スープラ(supra)」112〜117、188〜190
頁を見よ。その処理の残りの部分は、両エンジンとも同じである。The speech recognition system in one preferred embodiment is based on a discrete density HMM phoneme-based continuous recognition engine and is shown in FIG. These recognition engines are useful for telephone speech, microphone speech, or other advantageous applications. The input speech signal first undergoes some form of pre-processing. As shown in FIG. 4, one preferred embodiment processes the input speech signal and calculates energy and spectral properties (cepstrum) for 30 ms speech segments once every 10 ms. Vector quantization characteristic extraction module 41
Is used. The preferred embodiment of the telephone speech recognition engine uses commonly known LPC analysis methods to derive 12 cepstrum coefficients and log energies along with first and second order derivatives. The preferred embodiment of the microphone speech recognition engine uses the generally known MEL-FFT to achieve the same objective.
Method. The result of both engines for each speech frame is a vector of 12 cepstra, 12 delta cepstra, 12 delta delta cepstra, delta log energy, and delta delta log energy. These speech pre-processing techniques are well known in the art. For additional discussion of this subject, see, for example, Rabbinar and Juangu, "supra" 112-117, 188-190.
Look at the page. The rest of the process is the same for both engines.
【0014】 離散密度HMMを使用する好ましい実施の形態では、このシステムは、特性ベ
クトルに最もよくマッチするコードブック43からの原型(又はコード語)がそ
れぞれの観察された特性ベクトルに取って替わるベクトル量子化特性抽出モジュ
ール41を使用する。コードブック43は、コードブック43の全ひずみを最小
にする一般に用いられるk手段密集方法のような、いくらかの費用関数を最小に
するアルゴリズム46とともに、複数の言語のそれぞれから記録されたスピーチ
データ45を含む大きいスピーチデータベース44を用いて設計され、作り出さ
れる。先行技術における単言語システムコードブックは、目的言語のみからのス
ピーチデータを用いて設計され、作り出される。他方、本発明の好ましい実施の
形態は、すべての言語からのデータが同等量あるように、大多数の言語からのス
ピーチを用い、スピーチデータを選択する多言語モデルに基づいている。そのよ
うな実施の形態では、ケプストラのための一つ、デルタケプストラのための一つ
、デルタデルタケプストラのための一つ、及びデルタログエネルギーとデルタデ
ルタログエネルギーのための一つから、4つのコードブック43が組み立てられ
てもよい。各コードブック43は、設計アルゴリズムを用いる: In a preferred embodiment using a discrete density HMM, the system uses a vector (or codeword) from the codebook 43 that best matches the property vector, replacing each observed property vector. The quantization characteristic extraction module 41 is used. Codebook 43 includes speech data 45 recorded from each of a plurality of languages, along with algorithms 46 that minimize some cost function, such as commonly used k-means compaction methods that minimize the total distortion of codebook 43. Are designed and created using a large speech database 44 containing Prior art monolingual system codebooks are designed and created using speech data from the target language only. On the other hand, the preferred embodiment of the present invention is based on a multilingual model that uses speech from the majority of languages and selects speech data so that there is an equal amount of data from all languages. In such an embodiment, from one for cepstra, one for delta cepstra, one for delta delta cepstra, and one for delta log energy and delta delta log energy, Four codebooks 43 may be assembled. Each codebook 43 uses a design algorithm:
【0015】 以上、好ましい実施の形態が、スピーチ入力信号を初めに処理するためのベク
トル量子化技術に基礎を置くコードブックを用いるように記述されたが、本発明
の他の実施の形態では、例えば、連続密度に基づく音声認識システムで用いられ
るように、最初のスピーチ処理の他の方法を使用してもよい。[0015] While the preferred embodiment has been described as using a codebook based on a vector quantization technique for initially processing a speech input signal, in another embodiment of the invention, For example, other methods of initial speech processing may be used, such as those used in continuous density based speech recognition systems.
【0016】 上述のように、入力スピーチ信号がベクトル量子化によって前処理されると、
図4において48のスピーチ認識器は、スピーチ信号と、言語モデル49及び音
素データベース47における音響モデルとを比較する。どれか一つの特定の言語
の音素(または他のサブワードユニット)のための音響モデルを作る代わりに、
好ましい実施の形態は、多数の言語に現れるすべての音素のための音響モデルを
用いる。そのようなすべての言語に依存しない音素のリストは、様々な望ましい
言語のそれぞれから特定の音素リストを併合することによって組み立てられる。
好ましい実施の形態は、L&H+、即ち、単一のシンボルによって各音を表すす
べての言語をカバーするために設計された音声アルファベットを用いる。そこで
は、各シンボルは、単一の音を表す。テーブル1は、イギリス英語、オランダ語
、アメリカ英語、フランス語、ドイツ語、イタリア語、スペイン語、及び日本語
にマイクロフォンモデルを向けるために用いられる多言語音素リストを示す。各
音素のために、そのテーブルは、それがどの言語に現れるかを示す。例えば、音
素Aは、イギリス英語、オランダ語、アメリカ英語、フランス語、及び日本語の
スピーチに向けられる。As described above, when the input speech signal is pre-processed by vector quantization,
In FIG. 4, the speech recognizer 48 compares the speech signal with the language model 49 and the acoustic model in the phoneme database 47. Instead of creating an acoustic model for a phoneme (or other sub-word unit) in any one particular language,
The preferred embodiment uses acoustic models for all phonemes that appear in multiple languages. A list of all such language-independent phonemes is constructed by merging specific phoneme lists from each of the various desired languages.
The preferred embodiment uses L & H +, a spoken alphabet designed to cover all languages that represent each sound with a single symbol. There, each symbol represents a single sound. Table 1 shows a multilingual phoneme list used to direct microphone models to British English, Dutch, American English, French, German, Italian, Spanish, and Japanese. For each phoneme, the table shows in which language it appears. For example, phoneme A is directed to British English, Dutch, American English, French, and Japanese speeches.
【0017】 単一言語と多言語の音響モデルのためのトレーニング手続は、ともに標準トレ
ーニング技術を用いる。それらは、渡されるデータのタイプとトレーニングされ
るスピーチユニットにおいて異なる。トレーニングは、特定の音素セットをカバ
ーする音響モデル47のデータベースの構築として見られ得る。トレーニング処
理は、離散密度HMMのViterbiトレーニングを用いる文脈に依存しない
モデルをトレーニングすることによって始まる。それから、音素モデルは、14
クラスに自動的に分類される。クラス情報に基づいて、文脈依存の音素モデルが
組み立てられる。次に、文脈依存のモデルは、離散密度HMMのViterbi
トレーニングを用いてトレーニングされる。文脈依存及び文脈に依存しない音素
モデルは併合され、最後に、劣悪にトレーニングされた文脈依存のモデルは、文
脈に依存しないモデルより円滑にされる。そのような音響モデルトレーニング方
法は、音声認識の技術においては周知である。これに類似のトレーニング技術は
、連続密度に基づく音声認識システムベースのような、他の実施の形態で使用さ
れてもよい。The training procedures for monolingual and multilingual acoustic models both use standard training techniques. They differ in the type of data passed and in the speech units trained. Training can be viewed as building a database of acoustic models 47 covering a particular phoneme set. The training process begins by training a context-independent model using Viterbi training of a discrete density HMM. Then, the phoneme model is 14
Classified automatically into classes. A context-dependent phoneme model is assembled based on the class information. Next, the context-dependent model is Viterbi of the discrete density HMM.
Trained using training. Context-dependent and context-independent phoneme models are merged, and finally, poorly trained context-dependent models are made smoother than context-independent models. Such acoustic model training methods are well known in the art of speech recognition. Similar training techniques may be used in other embodiments, such as based on a continuous density based speech recognition system.
【0018】 先行技術の単一言語音響モデルは、目標言語からのスピーチに向けてトレーニ
ングされる。したがって、所定の音素の音響モデルは、単一言語からのスピーチ
サンプルのみに基づいてトレーニングされる。音声認識器エンジンは、その言語
の単語のみを認識し得る。いくつかの言語のための別々の音響モデルライブラリ
ーが構成されてもよいが、それらは、容易に結合され得ない。離散密度音声認識
システムベースにおいて、言語がちがうとコードブックが相容れないので、それ
らを一つのデータベースにまとめることさえ可能ではない。他方、好ましい実施
の形態における多言語音響モデルは、多言語から記録されたスピーチデータ45
を含むスピーチデータベース44に向けられる。トレーニングの結果、言語に依
存しない音素の全リストに対応する離散密度HMM音響モデル47のデータベー
スが与えられる。音素モデルには、それが一つの言語でのみ観察されるので、特
定の言語にのみ用いられるものもある。他の音素モデルは、一つより多い言語か
らのスピーチに向けられる。Prior art monolingual acoustic models are trained for speech from a target language. Thus, the acoustic model of a given phoneme is trained based only on speech samples from a single language. The speech recognizer engine may recognize only words in that language. Separate acoustic model libraries for some languages may be constructed, but they cannot be easily combined. In a discrete-density speech recognition system base, it is not even possible to combine them into a single database, as codebooks are incompatible in different languages. On the other hand, the multilingual acoustic model in the preferred embodiment has speech data 45 recorded from multiple languages.
To the speech database 44 containing As a result of the training, a database of discrete density HMM acoustic models 47 corresponding to the entire list of language-independent phonemes is provided. Some phoneme models are used only in a particular language because they are only observed in one language. Other phoneme models are directed to speech from more than one language.
【0019】 そのシステムは、音響モデルデータベース47に入っているスピーチユニット
で、認識し得る単語の発音を表すことによって、その語彙の単語を表現する。単
一言語音響モデルデータベースの場合には、これは、一言語の単語だけが記述さ
れ得ることを意味する。また、外国の単語の場合は、その特定の言語のスピーチ
ユニットでそれらを記述することによって単語をシミュレートすることを意味す
る。好ましい実施の形態では、多言語音響モデルデータベース47は、目標とさ
れる複数の言語のいずれかの単語を記述し得る音素モデルを含む。単一言語か又
は多言語のいずれの実施においても、単語は、自動的にあるいはユーザーとの対
話によって音声認識システムの語彙に加えられてもよい。しかしながら、自動的
かあるいは対話式かに関わらず、多言語認識器の好ましい実施の形態は、認識器
が知っているいくつかの言語の単語を含み得る語彙、即ち、単語のリストを用い
る。従って、異なる言語の単語を認識することは可能である。単語追加のための
詳細な手順は、単一言語と多言語音声認識システムで結果的に異なる。The system expresses the words of the vocabulary by expressing the pronunciation of recognizable words in speech units stored in the acoustic model database 47. In the case of a monolingual acoustic model database, this means that only words in one language can be described. Also, for foreign words, it means simulating the words by describing them in a speech unit for that particular language. In a preferred embodiment, the multilingual acoustic model database 47 includes phoneme models that can describe words in any of a plurality of targeted languages. In either a monolingual or multilingual implementation, words may be added to the vocabulary of the speech recognition system automatically or by interaction with the user. However, whether automatic or interactive, the preferred embodiment of the multilingual recognizer uses a vocabulary, ie, a list of words, that may include words in several languages known to the recognizer. Therefore, it is possible to recognize words in different languages. The detailed procedure for adding words will consequently differ between monolingual and multilingual speech recognition systems.
【0020】 単一言語システムでは、対話式単語追加モードは、ユーザーが単語(例えば、
「L&H」)をタイプすることによってそれを入力して始まる。新しい単語は、
自動的なテキストから音声への変換モジュールに導く、規則に基づくシステムに
よって、あるいは、辞書検索によって、音素表現に自動的に変換される。ユーザ
ーは、ちょうど生成された音訳を読み上げるテキスト音声変換システム(例えば
、そのシステムは「ルーノウトアンドオスピープロダクツ(Lernout and Hauspi
e Speech Products)」という)の出力を聞くことによって、音訳をチェックし
得る。もし、ユーザーがその発音に満足しないならば、彼は、2つの方法(例え
ば、ユーザーが「エルとエイチ(el and eitch)」を好むだろう)で音訳を変更
し得る。直接音訳を編集することによって、ユーザーは、テキストから音声への
システムで変えられた音声ストリングを再生させることによって、なされた変更
を聞き得る。また、ユーザーは、彼が実際に別のつづりの分野で欲するもののよ
うに響く単語(例えば、「L. and H.」)を入力してもよく、システムは、音の
ようなアイテムを音素に変換し、「リアルな」音のための音訳としてこれを用い
る。ユーザーが新しい単語の発音に満足すると、彼は、それを受け入れ得、音訳
ユニットがモデルデータベースから検索され、その単語が認識器に加えられ、認
識され得るに至る。In a monolingual system, the interactive word addition mode allows the user to input words (eg,
Start typing it by typing "L &H"). The new word is
It is automatically converted to a phonemic representation by a rules-based system or by dictionary lookup, leading to an automatic text-to-speech conversion module. Users can use a text-to-speech system that reads the transliteration just generated (for example, the system is called Lernout and Hauspi Products).
e Speech Products)), you can check the transliteration. If the user is not satisfied with the pronunciation, he may change the transliteration in two ways (eg, the user will prefer "el and eitch"). By editing the transliteration directly, the user may hear the changes made by playing the text-to-speech system changed audio string. Also, the user may enter a word that sounds like what he actually wants in another spelling area (eg, "L. and H."), and the system converts items such as sounds into phonemes. Convert and use this as a transliteration for "real" sounds. When the user is satisfied with the pronunciation of the new word, he can accept it, transliteration units are retrieved from the model database, and the word is added to the recognizer and can be recognized.
【0021】 しかしながら、好ましい実施の形態の多言語システムは、対話式で単語を加え
るための手順が幾らか異なる。第一に、前と同様に、ユーザーは、それをタイプ
することによって新しい単語を入力する。システムは、辞書検索及び/又は規則
に基づくシステムを介して、単語の言語を自動的に決定し、ユーザーに1以上の
選択対象の種類を示す。選ばれた言語のそれぞれについて、その単語は、その特
定の言語の自動的なテキストから音声への変換モジュールから得られた規則に基
づくシステムによって音声表現に自動的に変換される。ユーザーは、ちょうど生
成される音訳を読み出すテキスト−音声システムの出力を聞くことによって、音
訳をチェックし得る。もし、システムがなした言語選択にユーザーが満足しない
ならば、彼は、システムを無効にして、1以上の言語を直接指摘し得る。もし、
ユーザーが発音に満足しないならば、彼は、選択された言語のそれぞれについて
、2つの方法で音訳を変更し得る。ユーザーは、直接音訳を編集してもよい。彼
は、テキスト−音声システムで、変えられた音声ストリングを再生することによ
って、なされた変更を聞き得る。このようにして、ユーザーは、もう一つの言語
から来る音素記号を使用し得るが、変更を聞くことが必ずしも可能ではない。そ
の代わりに、ユーザーは、別のつづりの分野で彼が実際に欲するもののように響
く単語を入力してもよい。システムは、音のようなアイテムを音素に変換し、こ
れを「リアルな」単語のための音訳として用いる。ユーザーが単語の音訳に満足
すると、彼はそれを受け入れ得る。音訳ユニットは、モデルデータベースから検
索され、単語は認識器に追加され、認識され得るに至る。However, the multilingual system of the preferred embodiment differs somewhat in the procedure for adding words interactively. First, as before, the user enters a new word by typing it. The system automatically determines the language of the word, via a dictionary search and / or a rules-based system, and indicates to the user one or more types of selection. For each of the selected languages, the word is automatically converted to a phonetic representation by a rule-based system derived from the automatic text-to-speech conversion module for that particular language. The user may check the transliteration by listening to the output of a text-to-speech system that reads the transliteration just generated. If the user is not satisfied with the language selection made by the system, he can disable the system and point directly to one or more languages. if,
If the user is not satisfied with the pronunciation, he can change the transliteration in two ways for each of the selected languages. The user may edit the transliteration directly. He can hear the changes made by playing the changed audio strings in a text-to-speech system. In this way, the user may use phoneme symbols from another language, but it is not always possible to hear the changes. Alternatively, the user may enter words that sound like what he actually wants in another spelling area. The system converts the sound-like items into phonemes and uses this as a transliteration for "real" words. If the user is satisfied with the transliteration of the word, he can accept it. The transliteration unit is retrieved from the model database, and the word is added to the recognizer, until it can be recognized.
【0022】 認識器に単語を入力するための自動モードもまた、単一言語と多言語とシステ
ム間で異なる。単一言語システムでは、アプリケーションプログラムは、音声認
識システムに認識させたい単語を与え、その単語は、自動的なテキストから音声
への変換モジュールから与えられる規則に基づくシステムによって、あるいは、
辞書検索によって、音声表現に自動的に変換される。音訳ユニットは、モジュー
ルデータベースから検索され、その単語は、認識器に追加され、認識され得るに
至る。しかしながら、好ましい実施の形態の多言語システムでは、アプリケーシ
ョンプログラムは、音声認識システムに認識させたい単語を与え、その単語につ
いて1以上の言語を随意に示す。もし、言語が示されないならば、システムは、
辞書検索によって、あるいは、規則に基づくシステムを介して、自動的に言語を
決定し、1以上の言語選択を与える。各言語のために、単語は、自動的なテキス
トから音声への変換モジュールで得られる規則に基づくシステムによって、音声
表現に自動的に変換される。音訳ユニットは、モデルデータベースから検索され
、単語は、認識器に加えられ、認識され得るに至る。The automatic mode for entering words into the recognizer also differs between monolingual and multilingual systems. In a monolingual system, the application program gives the words that the speech recognition system wants to recognize, which words can be obtained by a system based on rules given by an automatic text-to-speech conversion module, or
It is automatically converted to a speech expression by dictionary search. The transliteration unit is retrieved from the module database, and the word is added to the recognizer until it can be recognized. However, in the preferred embodiment of the multilingual system, the application program provides a word to be recognized by the speech recognition system and optionally indicates one or more languages for that word. If the language is not indicated, the system
Automatically determine the language by dictionary search or through a rules-based system and provide one or more language choices. For each language, the words are automatically converted to phonetic representations by a rule-based system obtained with an automatic text-to-speech conversion module. The transliteration units are retrieved from the model database, and the words are added to the recognizer, until they can be recognized.
【0023】 好ましい実施の形態の多言語システムもまた、翻訳モードをサポートする。そ
のようなシステムでは、1以上の単語は、上記で説明された手順に従って単一言
語のための認識器に加えられる。自動翻訳システムは、認識器によってサポート
される1以上の他の言語に単語を翻訳する。各単語について、システムは、1以
上の候補を提案し得る。自動的に翻訳された単語は、認識器に加えられ、あるい
は、対話式に編集されてもよい。The multilingual system of the preferred embodiment also supports a translation mode. In such a system, one or more words are added to a recognizer for a single language according to the procedure described above. Automatic translation systems translate words into one or more other languages supported by the recognizer. For each word, the system may suggest one or more candidates. Automatically translated words may be added to the recognizer or edited interactively.
【0024】 好ましい実施の形態は、また、新しい言語の単語の認識を可能にする。特定の
言語のために生成する音響モデルが大量のスピーチデータの記録を必要とするの
で、新しい言語のための音声認識器の開発は、コストがかかり、時間も消費する
。多言語認識器のモデルデータベースは、単一言語モデルよりも多くの音素をサ
ポートする。このデータベースにサポートされていない音素を見出す可能性は低
いので、トレーニングデータに存在しなかった言語の単語を記述することが可能
になる。この記述は、単一の異なる言語の音素における単語の記述よりもずっと
正確である。新しい言語の単語を認識するために、好ましい実施の形態は、新し
い単語とそれらの音声表現の入力だけを必要とする。トレーニングの必要はない
。The preferred embodiment also allows for the recognition of words in new languages. Developing a speech recognizer for a new language is costly and time consuming, as the acoustic models generated for a particular language require the recording of large amounts of speech data. The multilingual recognizer model database supports more phonemes than the monolingual model. Since it is unlikely to find phonemes that are not supported by this database, it is possible to describe words in languages that did not exist in the training data. This description is much more accurate than the description of words in phonemes of a single different language. To recognize words in a new language, the preferred embodiment only requires the input of new words and their phonetic representation. There is no need for training.
【0025】 先行技術の音声認識システムは、一般的に、ネイティブでない話者からのスピ
ーチを認識するのにてこずる。それには2つの主な理由がある。1)ネイティブ
でない話者は、時々単語を正確に発音しない、2)ネイティブでない話者は、時
々、いくつかの音を正確に発音しない、である。好ましい実施の形態におけるよ
うな多言語モデルは、ネイティブでない話者のスピーチをより効果的に認識する
。なぜならば、各音素のためのモデルは、いくつかの言語でトレーニングされ、
アクセントによる変化により強い。それに加えて、単語の語彙を作るとき、ユー
ザーは、音訳を容易に編集でき、外国語の影響を記述するために、異なる言語の
音素を用いることが可能である。Prior art speech recognition systems generally have difficulty recognizing speech from non-native speakers. There are two main reasons. 1) Non-native speakers sometimes don't pronounce words correctly, 2) Non-native speakers sometimes don't pronounce some sounds correctly. A multilingual model, as in the preferred embodiment, recognizes non-native speaker speech more effectively. Because the model for each phoneme is trained in several languages,
Stronger with accent changes. In addition, when creating a vocabulary of words, users can easily edit transliterations and use phonemes from different languages to describe the effects of foreign languages.
【0026】 話者に依存する単語のトレーニングのような、あるアルゴリズムは、ユーザー
による特定の単語のわずかな発話に基づいて、その単語の最大限可能な音訳を見
出そうと試みる。ほとんどの場合、ユーザーのネイティブ言語は、知られない。
単一言語モデルが用いられるとき、音声認識システムは、たとえ、スピーチが完
全に異なる言語からであっても、スピーチを言語の特定のシンボルにマッピング
するのに制限される。ネイティブでない話者は、単一言語モデルのモデルデータ
ベースによってうまく表され得ない音を作り出すかもしれない。本発明の好まし
い実施の形態は、音素モデルデータベースがずっと広い音の範囲をカバーするの
で、このタイプの問題を避ける。単語は、ユーザーに数回単語を発音させること
によって、認識器に加えられ得る。システムは、音素モデルデータベースと口に
出されるスピーチに基づいて、単語を記述するために、最大限可能な音素若しく
はモデルユニットシーケンスを自動的に構築するだろう。このシーケンスは、声
紋として言及される。これらの声紋は、話者によるトレーニングされた単語の発
話を認識するために用いられ得る。声紋が他の話者のスピーチより目標とされる
話者のスピーチによりよくマッチするので、それは、また、話者の識別を確認又
は検出するために、用いられ得る。これは、話者照合あるいは話者識別として言
及される。Some algorithms, such as speaker-dependent word training, attempt to find the maximum possible transliteration of a particular word based on the slight utterance of that word by the user. In most cases, the user's native language is unknown.
When a monolingual model is used, the speech recognition system is limited to mapping speech to specific symbols of the language, even if the speech is from a completely different language. Non-native speakers may produce sounds that cannot be well represented by a model database of monolingual models. The preferred embodiment of the present invention avoids this type of problem because the phoneme model database covers a much wider range of sounds. Words can be added to the recognizer by having the user pronounce the word several times. Based on the phoneme model database and spoken speech, the system will automatically build the maximum possible phoneme or model unit sequence to describe the word. This sequence is referred to as a voiceprint. These voiceprints can be used to recognize trained word utterances by the speaker. It can also be used to confirm or detect speaker identification, since the voiceprint better matches the targeted speaker's speech than the other speaker's speech. This is referred to as speaker verification or speaker identification.
【0027】 好ましい実施の形態は、また、言語に依存する音訳で言語に依存しない単語の
認識のために、有利に用いられる。いくつかの単語の発音は、話者の母国語に強
く依存する。これは、ユーザーの母国語が異なるか不明である場合のシステムで
は問題である。典型的な例は、固有名詞の認識である。オランダの名前は、オラ
ンダ人の話者とフランス人の話者によって異なって発音される。言語に依存する
システムは、通常、母国語の音素にマッピングすることによって外国人の発音変
形を記述する。上述のように、好ましい実施の形態の音声認識システムに単語を
加え、それが複数の言語で話されることを示すのは可能である。システムは、い
くつかの言語から規則セットで単語を翻訳して、いくつかの音訳を生成する。認
識器は、並列してすべての音訳を用いるので、すべての発音変形をカバーする。
これは、言語が知られない様々な話者によって用いられるアプリケーションにお
いて、固有名詞を認識するために特に有用である。The preferred embodiment is also advantageously used for the recognition of language-independent words in language-dependent transliterations. The pronunciation of some words depends strongly on the speaker's native language. This is a problem in systems where the user's native language is different or unknown. A typical example is recognition of proper nouns. Dutch names are pronounced differently by Dutch and French speakers. Language-dependent systems typically describe foreign pronunciation variants by mapping to native language phonemes. As mentioned above, it is possible to add a word to the preferred embodiment speech recognition system to indicate that it is spoken in multiple languages. The system translates words in rule sets from several languages to generate some transliterations. Since the recognizer uses all transliterations in parallel, it covers all pronunciation variants.
This is particularly useful for recognizing proper nouns in applications used by various speakers whose language is unknown.
【0028】 言語学習プログラムは、ユーザーが生きた家庭教師の介入なしに、ある言語を
話すために学ぶことを助けるコンピュータープログラムである。自動音声認識シ
ステムは、しばしば、ユーザーの進歩を自らテストするのを助け、ユーザーが学
ばれるべき言語の発音を向上するのを助けるために、そのようなプログラムにお
いて用いられる。認識器の信頼レベル、即ち、モデルが発せられたスピーチにど
れくらいうまくマッチするかの示度は、ユーザーがそのモデルによって表される
単語又は分節をどれくらいうまく発音したかの示度である。モデルが発せられた
スピーチ、文節中の単語、あるいは発話中の音素の小さい部分にどれくらいうま
くマッチするかの測定である、局所の信頼は、ユーザーがどのようなタイプの間
違いをしたかの示度を与え得、ユーザーが取り組むべき特定の問題領域を示すた
めに用いられ得る。多言語モデルは、単一言語モデルより言語学習応用のために
より適する。母国語として言語1を持ち、言語2を学びたいユーザーは、言語対
(言語1、言語2)の典型的な間違いを犯すであろう。言語2にあるいくつかの
音素は、言語1には存在せず、そのため、母国語として言語1を持つ人々にとっ
て知られていない。彼らは、典型的に、言語1にある音素で知らない音素を置き
換え、それにより単語を間違って発音する。典型的な例は、フランス人がフラン
ス語の方法で英語のテキストの英単語を発音することである。なぜならば、同じ
単語が、フランス語にも存在するからである。このタイプの間違いは、各言語対
(言語1、言語2)における典型である。言語1あるいは言語2で特定される、
単一言語認識システムは、このような代用を検出できない。なぜならば、特定の
音素結合を記述するモデルが、利用可能でないからである。多言語モデルは、言
語1と言語2のすべての音素がカバーされるので、このタイプの間違いを検出す
るために用いられ得る。したがって、言語対に典型的な間違いを記述し、自動音
声認識システムの助けで特定の間違いを自動的に検出する規則で拡張される言語
対のための言語学習システムを作り出すことが可能になる。A language learning program is a computer program that helps a user learn to speak a language without the intervention of a living tutor. Automated speech recognition systems are often used in such programs to help test a user's progress themselves and help the user improve pronunciation in the language to be learned. The level of confidence in the recognizer, ie, an indication of how well the model matches the emitted speech, is an indication of how well the user has pronounced the word or segment represented by the model. Local confidence is a measure of how well a model matches a spoken word, a word in a phrase, or a small part of a phoneme in a utterance. And may be used to indicate a particular problem area for the user to address. Multilingual models are better suited for language learning applications than monolingual models. A user who has Language 1 as their native language and wants to learn Language 2 will make a typical mistake in language pairs (Language 1, Language 2). Some phonemes in language 2 are not present in language 1 and are therefore unknown to those who have language 1 as their native language. They typically replace unknown phonemes with phonemes in Language 1 and thereby incorrectly pronounce words. A typical example is that the French pronounce English words in English text in a French way. Because the same word exists in French. This type of error is typical in each language pair (language 1, language 2). Specified by language 1 or language 2,
Monolingual recognition systems cannot detect such substitutions. This is because no model describing a particular phoneme combination is available. The multilingual model can be used to detect this type of error because all phonemes of language 1 and language 2 are covered. Thus, it is possible to create a language learning system for language pairs that describes typical mistakes in the language pairs and is extended with rules that automatically detect certain mistakes with the aid of an automatic speech recognition system.
本発明は、添付図面とともに得られる次の詳細な記述を参照することによって
、より容易に理解されるだろう。The present invention will be more readily understood by reference to the following detailed description, taken in conjunction with the accompanying drawings.
【図1】 図1は、典型的な音声認識システムに結び付けられる論理フローを図示する。FIG. 1 illustrates the logic flow associated with a typical speech recognition system.
【図2】 図2は、先行技術による多言語のための音素の音響モデルを図示する。FIG. 2 illustrates an acoustic model of phonemes for multiple languages according to the prior art.
【図3】 図3は、好ましい実施の形態による音素の全体集合を用いる多言語音響モデル
を図示する。FIG. 3 illustrates a multilingual acoustic model using a whole set of phonemes according to a preferred embodiment.
【図4】 図4は、好ましい実施の形態による音声認識システムを図示する。FIG. 4 illustrates a speech recognition system according to a preferred embodiment.
Claims (26)
生成するスピーチプリプロセッサと、 b. 複数の言語のそれぞれの各サブワードを表す音響モデルのデータベース
と、 c. 認識可能な単語の語彙と一セットの文法規則の特徴を表す言語モデルと
、 d. 前記スピーチ関連信号を前記音響モデル及び前記言語モデルと比較し、
少なくとも一つの単語の特定の単語シーケンスとして前記入力スピーチを認識す
る音声認識器と、 を備えることを特徴とするシステム。1. A language-independent speech recognition system, comprising: a. A speech pre-processor for receiving input speech and generating a speech-related signal related to the input speech; b. A database of acoustic models representing each subword of each of the plurality of languages; c. A language model representing the vocabulary of the recognizable words and features of a set of grammar rules; d. Comparing the speech related signal with the acoustic model and the language model,
A speech recognizer that recognizes the input speech as a particular word sequence of at least one word.
成するために、適切なスピーチパラメーターを抽出する特徴抽出器を備えること
を特徴とする請求項1記載のシステム。2. The system of claim 1, wherein said speech pre-processor comprises a feature extractor for extracting appropriate speech parameters to generate said speech-related signal.
いて作り出されるコードブックを含み、前記スピーチ関連信号が一連の特徴ベク
トルであるように、該特徴抽出器がベクトル量子化を用いることを特徴とする請
求項2記載のシステム。3. The feature extractor includes a codebook created using speech data from the plurality of languages, and wherein the feature extractor is a vector quantizer such that the speech-related signal is a series of feature vectors. 3. The system according to claim 2, wherein:
いて作り出されることを特徴とする請求項1記載のシステム。4. The system of claim 1, wherein the acoustic model is created using speech data from the plurality of languages.
シーケンスの少なくとも一つであることを特徴とする請求項1記載のシステム。5. The system of claim 1, wherein the sub-word unit is at least one of a phoneme, a portion of a phoneme, and a sequence of phonemes.
ことを特徴とする請求項1記載のシステム。6. The system of claim 1, wherein the vocabulary of recognizable words includes words in the plurality of languages.
とする請求項1記載のシステム。7. The system of claim 1, wherein the vocabulary of recognizable words includes foreign words.
含むことを特徴とする請求項1記載のシステム。8. The system of claim 1, wherein the vocabulary of recognizable words includes proper nouns of the plurality of languages.
モデルのユーザーによって調整されたシーケンスで構成された声紋によって記述
されることを特徴とする請求項1記載のシステム。9. The system of claim 1, wherein the words in the recognizable vocabulary are described by a voiceprint composed of a sequence adjusted by a user of an acoustic model from the database.
声紋を用いる話者識別器、 をさらに備えることを特徴とする請求項9記載のシステム。10. e. 10. The system of claim 9, further comprising: a speaker identifier that uses the voiceprint to determine the identity of the speaker of the speech input.
い一の言語の単語を含むことを特徴とする請求項1記載のシステム。11. The system of claim 1, wherein the vocabulary of recognizable words includes words of a language not present in the plurality of languages.
ワードユニットを表す音響モデルと前記適切なスピーチパラメーターを比較し、
ネイティブスピーカーでない人からの入力スピーチが認識されるように、前記複
数の言語内の第2の言語の少なくとも一つの単語の特定の単語シーケンスとして
スピーチ入力を認識することを特徴とする請求項1記載のシステム。12. The speech recognizer compares an acoustic model representing a subword unit of a first language in the plurality of languages with the appropriate speech parameter,
The method of claim 1, wherein the speech input is recognized as a particular word sequence of at least one word in a second language of the plurality of languages, such that input speech from a non-native speaker is recognized. System.
ムで符号化されたコンピューターが読取り可能なデジタル記憶媒体であって、 コンピューターにロードされるとき、請求項1記載の言語に依存しない音声認
識システムに関連して作動することを特徴とする記憶媒体。13. A computer-readable digital storage medium encoded with a computer program for teaching a foreign language to a user, the language-independent speech recognition of claim 1 when loaded on a computer. A storage medium operable in connection with the system.
すスピーチ関連信号を生成するステップと、 b. 音響モデルのデータベースにおいて、複数の言語のそれぞれの各サブワ
ードユニットを表すステップと、 c. 言語モデルにおいて、認識可能な単語の語彙と一セットの文法規則を特
徴付けるステップと、 d. 音声認識器において、前記スピーチ関連信号を前記音響モデル及び前記
言語モデルと比較し、少なくとも一つの単語の特定の単語シーケンスとして前記
入力スピーチを認識するステップと、 を有することを特徴とする方法。14. A language independent speech recognition method, comprising: a. Receiving input speech at a speech preprocessor and generating a speech-related signal representative of the input speech; b. Representing each subword unit of each of the plurality of languages in a database of acoustic models; c. Characterizing a vocabulary of recognizable words and a set of grammatical rules in a language model; d. Comparing the speech-related signal with the acoustic model and the language model in a speech recognizer to recognize the input speech as a particular word sequence of at least one word.
抽出し、前記スピーチ関連信号を生成するための特徴抽出器をさらに備えるスピ
ーチプリプロセッサを用いることを特徴とする請求項14記載の方法。15. The method of claim 14, wherein the receiving step uses a speech preprocessor further comprising a feature extractor for extracting appropriate speech parameters and generating the speech-related signal.
用いて作り出されるコードブックを含み、前記スピーチ関連信号が一連の特徴ベ
クトルであるように、該特徴抽出器がベクトル量子化を用いることを特徴とする
請求項15記載の方法。16. The feature extractor includes a codebook created using speech data from the plurality of languages, wherein the feature extractor is a vector quantizer such that the speech-related signal is a series of feature vectors. The method according to claim 15, wherein is used.
用いて作り出されることを特徴とする請求項14記載の方法。17. The method of claim 14, wherein the acoustic model is created using speech data from the plurality of languages.
のシーケンスの少なくとも一つであることを特徴とする請求項14記載の方法。18. The method of claim 14, wherein the sub-word unit is at least one of a phoneme, a portion of a phoneme, and a sequence of phonemes.
むことを特徴とする請求項14記載の方法。19. The method of claim 14, wherein the vocabulary of recognizable words includes words in the plurality of languages.
徴とする請求項14記載の方法。20. The method of claim 14, wherein the vocabulary of recognizable words includes foreign words.
を含むことを特徴とする請求項14記載の方法。21. The method of claim 14, wherein the vocabulary of recognizable words includes proper nouns of the plurality of languages.
響モデルのユーザーによって調整されたシーケンスで構成された声紋によって記
述されることを特徴とする請求項14記載の方法。22. The method of claim 14, wherein the words in the recognizable vocabulary are described by a voiceprint composed of a sequence adjusted by a user of an acoustic model from the database.
者の同一性を決定するステップ、 をさらに有することを特徴とする請求項22記載の方法。23. e. 23. The method of claim 22, further comprising: determining the identity of the speaker of the speech input at the speaker identifier using the voiceprint.
い一の言語の単語を含むことを特徴とする請求項14記載の方法。24. The method of claim 14, wherein the vocabulary of recognizable words includes words in a language not present in the plurality of languages.
ワードユニットを表す音響モデルと前記適切なスピーチパラメーターを比較し、
ネイティブスピーカーでない人からの入力スピーチが認識されるように、前記複
数の言語内の第2の言語の少なくとも一つの単語の特定の単語シーケンスとして
スピーチ入力を認識することを特徴とする請求項14記載の方法。25. The speech recognizer comparing an acoustic model representing a subword unit of a first language in the plurality of languages with the appropriate speech parameter,
The speech input is recognized as a particular word sequence of at least one word in a second language of the plurality of languages, such that input speech from a non-native speaker is recognized. the method of.
ムで符号化されたコンピューターが読取り可能なデジタル記憶媒体であって、 コンピューターにロードされるとき、請求項14記載の言語に依存しない音声
認識方法に関連して作動することを特徴とする記憶媒体。26. A computer-readable digital storage medium encoded with a computer program for teaching a foreign language to a user, the language-independent speech recognition of claim 14 when loaded on a computer. A storage medium operative in connection with the method.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/113,589 US6085160A (en) | 1998-07-10 | 1998-07-10 | Language independent speech recognition |
US09/113,589 | 1998-07-10 | ||
PCT/IB1999/001406 WO2000003386A1 (en) | 1998-07-10 | 1999-07-08 | Language independent speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002520664A true JP2002520664A (en) | 2002-07-09 |
Family
ID=22350342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000559559A Pending JP2002520664A (en) | 1998-07-10 | 1999-07-08 | Language-independent speech recognition |
Country Status (4)
Country | Link |
---|---|
US (1) | US6085160A (en) |
EP (1) | EP1095371A1 (en) |
JP (1) | JP2002520664A (en) |
WO (1) | WO2000003386A1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008513825A (en) * | 2004-09-23 | 2008-05-01 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Robust speech recognition system independent of speakers |
JP2012103554A (en) * | 2010-11-11 | 2012-05-31 | Advanced Telecommunication Research Institute International | Learning device of spoken language identification device, spoken language identification device and program for the same |
JP2012177815A (en) * | 2011-02-28 | 2012-09-13 | National Institute Of Information & Communication Technology | Acoustic model learning device and acoustic model learning method |
JP2017513047A (en) * | 2014-03-04 | 2017-05-25 | アマゾン テクノロジーズ インコーポレイテッド | Pronunciation prediction in speech recognition. |
Families Citing this family (117)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7043426B2 (en) | 1998-04-01 | 2006-05-09 | Cyberpulse, L.L.C. | Structured speech recognition |
US6757647B1 (en) * | 1998-07-30 | 2004-06-29 | International Business Machines Corporation | Method for encoding regular expressions in a lexigon |
DE19929462A1 (en) * | 1999-06-26 | 2001-02-22 | Philips Corp Intellectual Pty | Method for training an automatic speech recognizer |
US6912499B1 (en) * | 1999-08-31 | 2005-06-28 | Nortel Networks Limited | Method and apparatus for training a multilingual speech model set |
IT1310154B1 (en) * | 1999-09-02 | 2002-02-11 | Cselt Centro Studi Lab Telecom | PROCEDURE FOR MAKING A VOICE RECOGNIZER, RELATED RECOGNIZER AND PROCEDURE FOR VOICE RECOGNITION |
CA2748396A1 (en) * | 1999-10-19 | 2001-04-26 | Sony Electronics Inc. | Natural language interface control system |
US7376710B1 (en) * | 1999-10-29 | 2008-05-20 | Nortel Networks Limited | Methods and systems for providing access to stored audio data over a network |
US7308462B1 (en) | 1999-10-29 | 2007-12-11 | Nortel Networks Limited | Methods and systems for building and distributing audio packages |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
JP3520022B2 (en) * | 2000-01-14 | 2004-04-19 | 株式会社国際電気通信基礎技術研究所 | Foreign language learning device, foreign language learning method and medium |
US6738745B1 (en) * | 2000-04-07 | 2004-05-18 | International Business Machines Corporation | Methods and apparatus for identifying a non-target language in a speech recognition system |
US8355912B1 (en) * | 2000-05-04 | 2013-01-15 | International Business Machines Corporation | Technique for providing continuous speech recognition as an alternate input device to limited processing power devices |
KR100387918B1 (en) * | 2000-07-11 | 2003-06-18 | 이수성 | Interpreter |
US7295979B2 (en) * | 2000-09-29 | 2007-11-13 | International Business Machines Corporation | Language context dependent data labeling |
EP1217610A1 (en) * | 2000-11-28 | 2002-06-26 | Siemens Aktiengesellschaft | Method and system for multilingual speech recognition |
EP1233406A1 (en) * | 2001-02-14 | 2002-08-21 | Sony International (Europe) GmbH | Speech recognition adapted for non-native speakers |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
GB2381638B (en) * | 2001-11-03 | 2004-02-04 | Dremedia Ltd | Identifying audio characteristics |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
US20050154588A1 (en) * | 2001-12-12 | 2005-07-14 | Janas John J.Iii | Speech recognition and control in a process support system |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
ES2281626T3 (en) * | 2002-01-17 | 2007-10-01 | Siemens Aktiengesellschaft | PROCEDURE OF OPERATION OF AN AUTOMATIC VOICE RECOGNIZER FOR VOICE RECOGNITION, INDEPENDENT OF THE SPEAKER, OF WORDS IN DIFFERENT LANGUAGES AND AUTOMATIC VOICE RECOGNITION. |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
DE10220522B4 (en) * | 2002-05-08 | 2005-11-17 | Sap Ag | Method and system for processing voice data using voice recognition and frequency analysis |
DE10220520A1 (en) * | 2002-05-08 | 2003-11-20 | Sap Ag | Method of recognizing speech information |
DE10220524B4 (en) * | 2002-05-08 | 2006-08-10 | Sap Ag | Method and system for processing voice data and recognizing a language |
DE10220521B4 (en) * | 2002-05-08 | 2005-11-24 | Sap Ag | Method and system for processing voice data and classifying calls |
EP1363271A1 (en) * | 2002-05-08 | 2003-11-19 | Sap Ag | Method and system for processing and storing of dialogue speech data |
EP1361740A1 (en) * | 2002-05-08 | 2003-11-12 | Sap Ag | Method and system for dialogue speech signal processing |
US7353173B2 (en) * | 2002-07-11 | 2008-04-01 | Sony Corporation | System and method for Mandarin Chinese speech recognition using an optimized phone set |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
WO2004047077A1 (en) * | 2002-11-15 | 2004-06-03 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
US20040102973A1 (en) * | 2002-11-21 | 2004-05-27 | Lott Christopher B. | Process, apparatus, and system for phonetic dictation and instruction |
DE10256935A1 (en) * | 2002-12-05 | 2004-07-01 | Siemens Ag | Selection of the user language on a purely acoustically controlled telephone |
US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
US7319958B2 (en) * | 2003-02-13 | 2008-01-15 | Motorola, Inc. | Polyphone network method and apparatus |
TWI224771B (en) * | 2003-04-10 | 2004-12-01 | Delta Electronics Inc | Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme |
US20040221420A1 (en) * | 2003-05-08 | 2004-11-11 | Brian Phillips | Apparatus and method for cleaning soiled, surfaces with reduced environmental impact |
DE10334400A1 (en) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Method for speech recognition and communication device |
US7502731B2 (en) * | 2003-08-11 | 2009-03-10 | Sony Corporation | System and method for performing speech recognition by utilizing a multi-language dictionary |
US8229744B2 (en) * | 2003-08-26 | 2012-07-24 | Nuance Communications, Inc. | Class detection scheme and time mediated averaging of class dependent models |
US7289958B2 (en) * | 2003-10-07 | 2007-10-30 | Texas Instruments Incorporated | Automatic language independent triphone training using a phonetic table |
US7689404B2 (en) * | 2004-02-24 | 2010-03-30 | Arkady Khasin | Method of multilingual speech recognition by reduction to single-language recognizer engine components |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
ATE442641T1 (en) * | 2004-07-22 | 2009-09-15 | France Telecom | LANGUAGE RECOGNITION METHOD AND SYSTEM ADAPTED TO THE CHARACTERISTICS OF NON-NATIVE SPEAKERS |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7430503B1 (en) * | 2004-08-24 | 2008-09-30 | The United States Of America As Represented By The Director, National Security Agency | Method of combining corpora to achieve consistency in phonetic labeling |
US7406408B1 (en) * | 2004-08-24 | 2008-07-29 | The United States Of America As Represented By The Director, National Security Agency | Method of recognizing phones in speech of any language |
ATE505785T1 (en) * | 2004-09-17 | 2011-04-15 | Agency Science Tech & Res | SYSTEM FOR IDENTIFYING SPOKEN LANGUAGE AND METHOD FOR TRAINING AND OPERATION THEREOF |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US7711358B2 (en) * | 2004-12-16 | 2010-05-04 | General Motors Llc | Method and system for modifying nametag files for transfer between vehicles |
US7596370B2 (en) * | 2004-12-16 | 2009-09-29 | General Motors Corporation | Management of nametags in a vehicle communications system |
EP1693828B1 (en) * | 2005-02-21 | 2008-01-23 | Harman Becker Automotive Systems GmbH | Multilingual speech recognition |
US8265930B1 (en) * | 2005-04-13 | 2012-09-11 | Sprint Communications Company L.P. | System and method for recording voice data and converting voice data to a text file |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US20070129945A1 (en) * | 2005-12-06 | 2007-06-07 | Ma Changxue C | Voice quality control for high quality speech reconstruction |
KR100815115B1 (en) * | 2006-03-31 | 2008-03-20 | 광주과학기술원 | An Acoustic Model Adaptation Method Based on Pronunciation Variability Analysis for Foreign Speech Recognition and apparatus thereof |
US8898052B2 (en) * | 2006-05-22 | 2014-11-25 | Facebook, Inc. | Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer |
US7873517B2 (en) * | 2006-11-09 | 2011-01-18 | Volkswagen Of America, Inc. | Motor vehicle with a speech interface |
GB2451907B (en) * | 2007-08-17 | 2010-11-03 | Fluency Voice Technology Ltd | Device for modifying and improving the behaviour of speech recognition systems |
US8244534B2 (en) * | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
EP2107554B1 (en) * | 2008-04-01 | 2011-08-10 | Harman Becker Automotive Systems GmbH | Generation of multilingual codebooks for speech recognition |
US20100198577A1 (en) * | 2009-02-03 | 2010-08-05 | Microsoft Corporation | State mapping for cross-language speaker adaptation |
US8301446B2 (en) * | 2009-03-30 | 2012-10-30 | Adacel Systems, Inc. | System and method for training an acoustic model with reduced feature space variation |
US8707381B2 (en) * | 2009-09-22 | 2014-04-22 | Caption Colorado L.L.C. | Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs |
US20110184723A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Phonetic suggestion engine |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
TWI420510B (en) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | Speech recognition system and method with adjustable memory usage |
FI20106048A0 (en) * | 2010-10-12 | 2010-10-12 | Annu Marttila | LANGUAGE PROFILING PROCESS |
US8838449B2 (en) * | 2010-12-23 | 2014-09-16 | Microsoft Corporation | Word-dependent language model |
KR20130022607A (en) * | 2011-08-25 | 2013-03-07 | 삼성전자주식회사 | Voice recognition apparatus and method for recognizing voice |
US9348479B2 (en) | 2011-12-08 | 2016-05-24 | Microsoft Technology Licensing, Llc | Sentiment aware user interface customization |
US9378290B2 (en) | 2011-12-20 | 2016-06-28 | Microsoft Technology Licensing, Llc | Scenario-adaptive input method editor |
US8965763B1 (en) | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US9390085B2 (en) | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US9098494B2 (en) | 2012-05-10 | 2015-08-04 | Microsoft Technology Licensing, Llc | Building multi-language processes from existing single-language processes |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
CN110488991A (en) | 2012-06-25 | 2019-11-22 | 微软技术许可有限责任公司 | Input Method Editor application platform |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US8959109B2 (en) | 2012-08-06 | 2015-02-17 | Microsoft Corporation | Business intelligent in-document suggestions |
KR101911999B1 (en) | 2012-08-30 | 2018-10-25 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | Feature-based candidate selection |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US9892733B2 (en) * | 2013-05-20 | 2018-02-13 | Speech Morphing Systems, Inc. | Method and apparatus for an exemplary automatic speech recognition system |
CN105580004A (en) | 2013-08-09 | 2016-05-11 | 微软技术许可有限责任公司 | Input method editor providing language assistance |
CN104143328B (en) * | 2013-08-15 | 2015-11-25 | 腾讯科技(深圳)有限公司 | A kind of keyword spotting method and apparatus |
US9472184B2 (en) * | 2013-11-06 | 2016-10-18 | Microsoft Technology Licensing, Llc | Cross-language speech recognition |
US9747897B2 (en) | 2013-12-17 | 2017-08-29 | Google Inc. | Identifying substitute pronunciations |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9412363B2 (en) | 2014-03-03 | 2016-08-09 | Microsoft Technology Licensing, Llc | Model based approach for on-screen item selection and disambiguation |
US9953631B1 (en) | 2015-05-07 | 2018-04-24 | Google Llc | Automatic speech recognition techniques for multiple languages |
US9678954B1 (en) * | 2015-10-29 | 2017-06-13 | Google Inc. | Techniques for providing lexicon data for translation of a single word speech input |
US9886958B2 (en) | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
US9697824B1 (en) | 2015-12-30 | 2017-07-04 | Thunder Power New Energy Vehicle Development Company Limited | Voice control system with dialect recognition |
US9437191B1 (en) * | 2015-12-30 | 2016-09-06 | Thunder Power Hong Kong Ltd. | Voice control system with dialect recognition |
CN106205634A (en) * | 2016-07-14 | 2016-12-07 | 东北电力大学 | A kind of spoken English in college level study and test system and method |
US10468019B1 (en) * | 2017-10-27 | 2019-11-05 | Kadho, Inc. | System and method for automatic speech recognition using selection of speech models based on input characteristics |
KR102452644B1 (en) * | 2017-10-31 | 2022-10-11 | 삼성전자주식회사 | Electronic apparatus, voice recognition method and storage medium |
WO2020053862A1 (en) * | 2018-09-13 | 2020-03-19 | Ichannel.Io Ltd. | A system and computerized method for subtitles synchronization of audiovisual content using the human voice detection for synchronization |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
US11270123B2 (en) * | 2019-10-22 | 2022-03-08 | Palo Alto Research Center Incorporated | System and method for generating localized contextual video annotation |
US11032620B1 (en) * | 2020-02-14 | 2021-06-08 | Sling Media Pvt Ltd | Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text |
CN111445898B (en) * | 2020-03-17 | 2022-05-17 | 科大讯飞股份有限公司 | Language identification method and device, electronic equipment and storage medium |
US11568858B2 (en) * | 2020-10-17 | 2023-01-31 | International Business Machines Corporation | Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings |
TWI759003B (en) * | 2020-12-10 | 2022-03-21 | 國立成功大學 | Method for training a speech recognition model |
US11683558B2 (en) * | 2021-06-29 | 2023-06-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine the speed-up of media programs using speech recognition |
US11736773B2 (en) * | 2021-10-15 | 2023-08-22 | Rovi Guides, Inc. | Interactive pronunciation learning system |
US11902690B2 (en) * | 2021-10-27 | 2024-02-13 | Microsoft Technology Licensing, Llc | Machine learning driven teleprompter |
US11785278B1 (en) * | 2022-03-18 | 2023-10-10 | Comcast Cable Communications, Llc | Methods and systems for synchronization of closed captions with content output |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07302351A (en) * | 1994-05-09 | 1995-11-14 | Canon Inc | Picture and voice response equipment and method therefor |
WO1998011534A1 (en) * | 1996-09-10 | 1998-03-19 | Siemens Aktiengesellschaft | Process for adaptation of a hidden markov sound model in a speech recognition system |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5717743A (en) * | 1992-12-16 | 1998-02-10 | Texas Instruments Incorporated | Transparent telephone access system using voice authorization |
CA2167200A1 (en) * | 1993-07-13 | 1995-01-26 | Theodore Austin Bordeaux | Multi-language speech recognition system |
US5540589A (en) * | 1994-04-11 | 1996-07-30 | Mitsubishi Electric Information Technology Center | Audio interactive tutor |
US5697789A (en) * | 1994-11-22 | 1997-12-16 | Softrade International, Inc. | Method and system for aiding foreign language instruction |
JPH0916602A (en) * | 1995-06-27 | 1997-01-17 | Sony Corp | Translation system and its method |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
DE19634138A1 (en) * | 1996-08-23 | 1998-02-26 | Siemens Ag | Interactive language learning, hand-held apparatus |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
-
1998
- 1998-07-10 US US09/113,589 patent/US6085160A/en not_active Expired - Lifetime
-
1999
- 1999-07-08 WO PCT/IB1999/001406 patent/WO2000003386A1/en not_active Application Discontinuation
- 1999-07-08 EP EP99933088A patent/EP1095371A1/en not_active Withdrawn
- 1999-07-08 JP JP2000559559A patent/JP2002520664A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07302351A (en) * | 1994-05-09 | 1995-11-14 | Canon Inc | Picture and voice response equipment and method therefor |
WO1998011534A1 (en) * | 1996-09-10 | 1998-03-19 | Siemens Aktiengesellschaft | Process for adaptation of a hidden markov sound model in a speech recognition system |
JP2001503154A (en) * | 1996-09-10 | 2001-03-06 | シーメンス アクチエンゲゼルシヤフト | Hidden Markov Speech Model Fitting Method in Speech Recognition System |
Non-Patent Citations (2)
Title |
---|
A.CONSTANTINESCU, ET AL.: ""On Cross-Language Experiments and Data-Driven Units for ALISP(Automatic Language Independent Speech", PROCEEDINGS OF AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, 1997, JPN6009056502, December 1997 (1997-12-01), pages 606 - 613, XP002121360, ISSN: 0001453346 * |
T.SCHULTZ, ET AL.: ""FAST BOOTSTRAPPING OF LVCSR SYSTEMS WITH MULTILINGUAL PHONEME SETS"", PROCEEDINGS OF THE 5TH EUROPEAN CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY(EUROSPEECH '97), vol. 1, JPN7009004745, September 1997 (1997-09-01), pages 371 - 374, ISSN: 0001453347 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008513825A (en) * | 2004-09-23 | 2008-05-01 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Robust speech recognition system independent of speakers |
JP4943335B2 (en) * | 2004-09-23 | 2012-05-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Robust speech recognition system independent of speakers |
JP2012103554A (en) * | 2010-11-11 | 2012-05-31 | Advanced Telecommunication Research Institute International | Learning device of spoken language identification device, spoken language identification device and program for the same |
JP2012177815A (en) * | 2011-02-28 | 2012-09-13 | National Institute Of Information & Communication Technology | Acoustic model learning device and acoustic model learning method |
JP2017513047A (en) * | 2014-03-04 | 2017-05-25 | アマゾン テクノロジーズ インコーポレイテッド | Pronunciation prediction in speech recognition. |
US10339920B2 (en) | 2014-03-04 | 2019-07-02 | Amazon Technologies, Inc. | Predicting pronunciation in speech recognition |
Also Published As
Publication number | Publication date |
---|---|
WO2000003386A1 (en) | 2000-01-20 |
EP1095371A1 (en) | 2001-05-02 |
US6085160A (en) | 2000-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6085160A (en) | Language independent speech recognition | |
CN111566655B (en) | Multi-language text-to-speech synthesis method | |
US8275621B2 (en) | Determining text to speech pronunciation based on an utterance from a user | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
US7937262B2 (en) | Method, apparatus, and computer program product for machine translation | |
US8065144B1 (en) | Multilingual speech recognition | |
US20060229870A1 (en) | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system | |
US20100057435A1 (en) | System and method for speech-to-speech translation | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
Goronzy | Robust adaptation to non-native accents in automatic speech recognition | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP2002304190A (en) | Method for generating pronunciation change form and method for speech recognition | |
JPH0922297A (en) | Method and apparatus for voice-to-text conversion | |
US20070294082A1 (en) | Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers | |
Huang et al. | Dialect/accent classification using unrestricted audio | |
JP2000029492A (en) | Speech interpretation apparatus, speech interpretation method, and speech recognition apparatus | |
JP3776391B2 (en) | Multilingual speech recognition method, apparatus, and program | |
JP2006084966A (en) | Automatic evaluating device of uttered voice and computer program | |
KR100484493B1 (en) | Spontaneous continuous speech recognition system and method using mutiple pronunication dictionary | |
JP4163207B2 (en) | Multilingual speaker adaptation method, apparatus and program | |
JP2001188556A (en) | Method and device for voice recognition | |
Ito | Spoken dialogue system development without speech recognition towards language revitalization | |
Wong et al. | Multilingual phone clustering for recognition of spontaneous indonesian speech utilising pronunciation modelling techniques. | |
Tjalve | Accent features and idiodictionaries: on improving accuracy for accented speakers in ASR | |
KR100445907B1 (en) | Language identification apparatus and the method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060703 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091104 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100204 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100212 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100511 |