JP4468264B2 - Methods and systems for multilingual name speech recognition - Google Patents
Methods and systems for multilingual name speech recognition Download PDFInfo
- Publication number
- JP4468264B2 JP4468264B2 JP2005228583A JP2005228583A JP4468264B2 JP 4468264 B2 JP4468264 B2 JP 4468264B2 JP 2005228583 A JP2005228583 A JP 2005228583A JP 2005228583 A JP2005228583 A JP 2005228583A JP 4468264 B2 JP4468264 B2 JP 4468264B2
- Authority
- JP
- Japan
- Prior art keywords
- chinese
- speech recognition
- character
- feature vector
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 29
- 239000013598 vector Substances 0.000 claims description 32
- 239000000203 mixture Substances 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims 7
- 241001672694 Citrus reticulata Species 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 230000001419 dependent effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
本発明は一般に音声認識プロセスに関する。本発明は特にパーソナル電子装置を使用した多言語による名称の音声認識に有用であるが、必ずしもそれに限定されるものではない。 The present invention relates generally to speech recognition processes. The present invention is particularly useful for multi-language name speech recognition using a personal electronic device, but is not necessarily limited thereto.
移動電話、携帯情報端末(PDA)、および小型無線呼出し装置などのパーソナル電子装置は、工業化された世界の至る所で普及してきた。何百万人というユーザーが現在、電子情報への素早く簡単なアクセスと通信のためにそのような装置に頼っている。それらの装置の軽量・小型化は一般に、それらを例えばポケットや財布に入れて簡単に持ち運べるようにすることによって、その便利さを増している。しかしながら、それらの装置の小型化の不都合な点は、キーパッドおよびボタンなどの装置上の触覚インターフェースがしばしば極めて小さく扱い難いことである。 Personal electronic devices such as mobile phones, personal digital assistants (PDAs), and small wireless paging devices have become popular throughout the industrialized world. Millions of users currently rely on such devices for quick and easy access and communication of electronic information. The weight and size of these devices generally increases their convenience by making them easy to carry, for example in a pocket or purse. However, the downside of these devices is that the haptic interfaces on devices such as keypads and buttons are often very small and unwieldy.
そこで、音声認識は多くのパーソナル電子装置にとって貴重な機能である。例えば、音声認識機能によって、車のドライバは、道路から目を離すことなくパーソナル電子装置に簡単な命令を出すことができる。また、音声による命令は、簡単に、しかも、小さなキーパッド上で指示を入力するのに必要な時間よりもしばしば速く実行することができるため、音声認識は、例えばPDA内のアドレス帳エントリにアクセスする際の利便性を向上することができる。 Thus, speech recognition is a valuable function for many personal electronic devices. For example, the voice recognition function allows a car driver to issue a simple command to the personal electronic device without taking his eyes off the road. Also, voice recognition can be performed easily and often faster than the time required to enter instructions on a small keypad, so voice recognition can access, for example, address book entries in a PDA. Convenience can be improved.
従って、音声認識システムは、コンピュータプログラムを実行し、データベースにアクセスするための好評な手段である。しかしながら、パーソナル電子装置の小型化は、組み込まれる音声認識システムの性能を制限することもある。効果的な音声認識はしばしば、比較的大きなデータベースとかなりの処理速度を必要とするが、小型電子装置のメモリ容量と処理能力は一般に制限がある。これらの制限を克服するために、パーソナル電子装置の音声認識システムは普通、限定された特定の状況だけのためにカスタマイズされる。例えば、そのようなシステムはしばしば、以下に更に詳細に説明するように、話者に依存しており、特定の話者のみの音声パターンを解釈するようになっている。また、そのようなシステムはしばしば、言語に依存しており、限定された語彙だけのために設計される。これらの設計上の妥協により、システムは、特定目的のためには、パーソナル電子装置の限定されたリソースを用いて、かなり良好に機能することができる。 Thus, the speech recognition system is a popular means for executing computer programs and accessing databases. However, the miniaturization of personal electronic devices may limit the performance of an integrated speech recognition system. Effective speech recognition often requires relatively large databases and significant processing speed, but the memory capacity and processing power of small electronic devices are generally limited. In order to overcome these limitations, personal electronic device speech recognition systems are usually customized only for limited specific situations. For example, such systems often rely on speakers and interpret speech patterns only for specific speakers, as described in more detail below. Also, such systems are often language dependent and are designed for only a limited vocabulary. These design compromises allow the system to function fairly well with the limited resources of personal electronic devices for specific purposes.
音声認識システムは一般に、入力言葉をデータベースに記憶されている音響モデルと照合することによって機能する。一致した音響モデルをその後、辞書データベース内のエントリと照合し、単語および文の認識を完了する。音響モデルはしばしば、隠れマルコフモデル(Hidden Markov Models: HMM)からなっている。HMMは、平均ベクトルと分散ベクトルを含む統計記述であり、単語と音素などの音声ユニットを記述する。次いで、HMMパターン照合を使って、音声認識データベース内の音響モデルが発話により入力された言葉と一致するかどうかを判定する。HMMは一般に、ガウス混合と呼ばれるいくつかの複合ガウス確率分布関数(PDF)からなる確率関数に基づいている。音声パターン照合はそれ故、ガウス混合と入力音声言葉を照合するプロセスである。従って、HMMパターン照合音響モデルの利用可能な高度化は、性能とメモリおよび処理リソースとの間の必要な妥協を行うときに、音声認識システムの設計者が考えなければならない重要な変動要因である。 Speech recognition systems generally work by matching input words with an acoustic model stored in a database. The matched acoustic model is then matched against an entry in the dictionary database to complete word and sentence recognition. Acoustic models often consist of Hidden Markov Models (HMM). The HMM is a statistical description including an average vector and a variance vector, and describes speech units such as words and phonemes. The HMM pattern matching is then used to determine whether the acoustic model in the speech recognition database matches the words entered by utterance. HMMs are generally based on a probability function consisting of several complex Gaussian probability distribution functions (PDF) called Gaussian mixture. Speech pattern matching is therefore a process of matching Gaussian mixing with input speech words. Thus, the available sophistication of HMM pattern matching acoustic models is an important variable factor that speech recognition system designers must consider when making the necessary compromise between performance and memory and processing resources. .
音声認識システムにおける他の妥協は、多数のユーザーの音声を認識するためのシステ
ムの能力に関係している。従って、音声認識システムは更に、話者に依存しないシステムか話者に依存するシステムのいずれかとして分類される。話者に依存しないシステムは、任意の言語のどの話者の音声をも認識するように設計されているが、話者に依存するシステムはただ一人の話者の音声を認識するように教育される。話者に依存しないシステムは普通、複数のトレーニング話者から得られたHMMを含む音響データベースを含んでいる。トレーニング話者の音声から得られるHMMは、より大きな話者グループに見られる音声パターンを代表することが意図されるガウス混合パラメータである。そのようなシステムは一般に、話者に依存するシステムよりも正確ではない。これは、いろいろな音声属性に対応するために音声モデルにおいて妥協しなければならないためと、話者に依存しないシステムが、そのシステムを使用するどの特定の話者の特有の音声属性にも適合しないためである。
Another compromise in speech recognition systems relates to the system's ability to recognize multiple users' speech. Thus, speech recognition systems are further classified as either speaker independent systems or speaker dependent systems. While speaker-independent systems are designed to recognize the speech of any speaker in any language, speaker-dependent systems are educated to recognize the speech of a single speaker. The Speaker-independent systems typically include an acoustic database containing HMMs obtained from multiple training speakers. The HMM obtained from the training speaker's speech is a Gaussian mixture parameter that is intended to be representative of speech patterns found in larger speaker groups. Such systems are generally less accurate than speaker dependent systems. This is because the speech model must be compromised to accommodate different speech attributes, and a speaker-independent system will not fit the specific speech attributes of any particular speaker using that system Because.
話者に依存するシステムは、個々の話者の特定の音声パターンを認識するように調整される。通常、話者は、トレーニングルーチンの間、話者に依存するシステムの中にいろいろな音声パターンを含むスクリプトを読み込む。次いで、トレーニング音声がそのスクリプトに合わせられ、そのため、システムを話者の特有の音声属性に調整することができ、従って、システムは、音声認識の間、話者の音声をより正確に認識するようになる。しかしながら、話者に依存するシステムはしばしば、多くの人々が音声認識システムを使用する必要がある状況においては望ましくない。例えば、移動電話に組み込まれた音声認識システムによってユーザーは、命令を話し、その命令が電話によって認識されることによって、装置を動作させることができる。しかしながら、移動電話の主ユーザーは、多くの友人、同僚、または家族も電話の音声認識機能を使用できることを望むことがある。電話のそのような第2ユーザーはほんの短期間だけ音声認識機能を必要とするかも知れないため、第2ユーザーは、音声認識機能を使う前に、まず自分の音声を電話に認識させる必要があることは不便である。 Speaker dependent systems are tuned to recognize specific speech patterns of individual speakers. Typically, during the training routine, the speaker loads scripts containing various speech patterns into the speaker-dependent system. The training speech is then tailored to the script so that the system can be adjusted to the speaker's unique speech attributes so that the system recognizes the speaker's speech more accurately during speech recognition. become. However, speaker dependent systems are often undesirable in situations where many people need to use speech recognition systems. For example, a voice recognition system built into a mobile phone allows a user to speak a command and operate the device by the command being recognized by the phone. However, the primary user of a mobile phone may want many friends, colleagues, or family members to be able to use the phone's voice recognition function. Because such a second user of the phone may need a voice recognition function for only a short period of time, the second user must first let his phone recognize his / her voice before using the voice recognition function. That is inconvenient.
最後に、音声認識音響モデルは通常、単一言語専用に設計されている。従って、多言語音声を認識できる音声認識システムは、多数の音響モデルを必要とし、このこともシステムのメモリ要求と高度化を増大させる。 Finally, speech recognition acoustic models are usually designed specifically for a single language. Therefore, a speech recognition system that can recognize multilingual speech requires a large number of acoustic models, which also increases the memory requirements and sophistication of the system.
最近、二言語による音声認識装置がパーソナル電子装置用に開発されている。従って、例えば、移動電話のバイリンガルユーザーは、英語と標準中国語といった二言語のうちのいずれかを使って、電話に記憶されたアドレス帳から名称を呼び出すことができる。これらの装置に使用される別々の言語に特定的な音響モデルおよび語彙データベースのために、ユーザーは一般に、音声認識機能を使う前に、まず電話の言語モードを一つの特定の言語に切り換えなければならない。しかしながら、特定の言語を予め選択しなければならないのは、例えば、アドレス帳が、多様に混在した二言語の名称または他の連絡情報を含む場合に不便である。また、特定の言語を予め選択しなければならないために、システムは、音声認識を用いて、多言語が混在した2つの部分からなる名称、例えば、名が英語で姓が標準中国語の名称を特定することができない。 Recently, bilingual speech recognition devices have been developed for personal electronic devices. Thus, for example, a bilingual user of a mobile phone can call a name from an address book stored on the phone using one of two languages, English and Mandarin. Due to the acoustic models and vocabulary databases specific to the different languages used on these devices, users generally have to switch the phone language mode to one specific language before using the speech recognition function. Don't be. However, it is inconvenient that a specific language must be selected in advance, for example, when the address book includes variously mixed names of two languages or other contact information. Also, because a specific language must be pre-selected, the system uses speech recognition to create a two-part name mixed with multiple languages, for example, a name whose first name is English and whose last name is Mandarin Chinese. It cannot be specified.
従って、言語モード間の手動切り換えを必要とせずに多言語の名称を認識することができ、パーソナル電子装置の制限されたリソースを効果的に使用する、話者に依存していない音声認識のための改善された方法とシステムに対する必要性が存在する。 Thus, multilingual names can be recognized without the need for manual switching between language modes, and speaker-independent speech recognition that effectively uses the limited resources of personal electronic devices. There is a need for improved methods and systems.
そこで、本発明は、一態様によれば、改善された多言語の名称の音声認識方法であって、文字からなる複数の名称を表すテキストを電子装置に記憶させるステップと、前記名称
のそれぞれに対して少なくとも一つの言語を特定するステップと、複数の、言語に特定的な文字/音変換器(以下「言語特定文字/音変換器」とする)を用いて、各名称を順序だった一連の発音ユニットに変換するステップと、前記電子装置に関連付けられたマイクロフォンで発話された言葉を受信するステップと、前記言葉を特徴ベクトルに変換するステップと、前記特徴ベクトルを少なくとも一つの名称の前記順序だった一連の発音ユニットと照合するステップとを備えた方法である。
Therefore, according to one aspect of the present invention, there is provided an improved speech recognition method for multilingual names, the step of storing text representing a plurality of names consisting of characters in an electronic device, and each of the names Using a step of identifying at least one language and a plurality of language-specific character / sound converters (hereinafter referred to as “language-specific character / sound converters”) Converting to a phonetic unit; receiving a word spoken by a microphone associated with the electronic device; converting the word to a feature vector; and converting the feature vector into the order of at least one name And a step of collating with a series of pronunciation units.
前記多言語は標準中国語を含み、前記名称のそれぞれに対して少なくとも一つの言語を特定するステップは、前記名称が中国語アルファベットの文字から構成されているかローマ字アルファベットの文字から構成されているかを判定するステップと、ローマ字アルファベットの名称が中国語ぴん音であるかを判定するステップからなることが好ましい。 The multi-language includes Mandarin Chinese, and the step of identifying at least one language for each of the names is whether the name is composed of Chinese alphabet characters or Roman alphabet characters. Preferably, the method includes a step of determining and a step of determining whether the name of the Roman alphabet is a Chinese sword.
前記多言語は西洋言語と中国語で構成されることが好ましい。
前記複数の言語特定文字/音変換器は、中国語文字/音変換器と西洋言語文字/音変換器で構成されることが好ましい。
The multi-language is preferably composed of a Western language and Chinese.
The plurality of language-specific character / sound converters are preferably composed of a Chinese character / sound converter and a Western language character / sound converter.
前記中国語文字/音変換器は前後関係に依存しており、前記西洋言語文字/音変換器は前後関係に依存していないことが好ましい。
前記特徴ベクトルを少なくとも一つの名称の順序だった一連の発音ユニットと照合するステップは、自動音声認識エンジンにおいて前記特徴ベクトルと前記順序だった一連の発音ユニットとガウス混合パラメータとを比較することによって前記特徴ベクトルをデコードするステップからなることが好ましい。
Preferably, the Chinese character / sound converter depends on the context, and the Western language character / sound converter does not depend on the context.
The step of matching the feature vector with a series of phonetic units ordered by at least one name comprises comparing the feature vector with the sequence of phonetic units ordered and a Gaussian mixture parameter in an automatic speech recognition engine. It preferably comprises the step of decoding the feature vector.
前記自動音声認識エンジンはビーム検索ビタービ(Viterbi )アルゴリズムを使用することが好ましい。
前記名称は前記電子装置に記憶されている連絡リストの構成要素からなっていることが好ましい。
The automatic speech recognition engine preferably uses a beam search Viterbi algorithm.
Preferably, the name comprises a contact list component stored in the electronic device.
別の態様によれば、本発明は、多言語による名称の音声認識方法であって、電子装置に関連付けられたマイクロフォンで発話された言葉を受信するステップと、前記言葉を特徴ベクトルに変換するステップと、前記特徴ベクトルを、少なくとも一つの名称であって文字の表現として前記電子装置に記憶されている名称の順序だった一連の発音ユニットと照合するステップを備える。前記名称の少なくとも一つの言語は前記文字から特定されており、前記名称は次いで、複数の言語特定文字/音変換器を用いて前記順序だった一連の発音ユニットに変換されている。 According to another aspect, the present invention is a multilingual name speech recognition method for receiving a word spoken by a microphone associated with an electronic device, and converting the word into a feature vector. And comparing the feature vector with a series of pronunciation units that are at least one name and in the order of names stored in the electronic device as a representation of characters. At least one language of the name is identified from the characters, and the name is then converted into the ordered series of pronunciation units using a plurality of language-specific character / sound converters.
更に別の態様によれば、本発明は、多言語による名称の音声認識のためのシステムであって、マイクロプロセッサと、前記マイクロプロセッサに動作可能に接続された少なくとも一つのメモリと、前記マイクロプロセッサに動作可能に接続されたマイクロフォンを備える。前記マイクロプロセッサは、前記メモリに記憶されているコードを実行して、発話された言葉を前記マイクロフォンで受信し、前記言葉を特徴ベクトルに変換し、前記特徴ベクトルを、少なくとも一つの名称であって文字の表現として前記メモリに記憶されている名称の順序だった一連の発音ユニットと照合するように動作する。前記名称の少なくとも一つの言語は前記文字から特定されており、前記名称は次いで、前記マイクロプロセッサに動作可能に接続された複数の言語特定文字/音変換器を用いて前記順序だった一連の発音ユニットに変換されている。 According to yet another aspect, the present invention is a system for multilingual name recognition, comprising a microprocessor, at least one memory operably connected to the microprocessor, and the microprocessor. A microphone operatively connected to the The microprocessor executes a code stored in the memory, receives a spoken word with the microphone, converts the word into a feature vector, and the feature vector has at least one name. It operates to collate with a series of pronunciation units that are in the order of names stored in the memory as character representations. At least one language of the name is identified from the letters, and the name is then used to produce the ordered series of pronunciations using a plurality of language-specific letter / sound converters operably connected to the microprocessor. Has been converted to a unit.
前記名称は前記システムに記憶されている連絡リストの構成要素からなっていることが好ましい。
前記システムは移動電話か携帯情報端末のいずれかに動作可能に接続されることが好ま
しい。
Preferably, the name comprises a contact list component stored in the system.
The system is preferably operatively connected to either a mobile phone or a personal digital assistant.
特許請求の範囲を含む本仕様書においては、用語「備えた」、「含む」、「からなる」、または同様な用語は、非排他的包含を意味するものであるため、多くの要素からなる方法または装置は、それらの要素だけを含むものではなく、記載されていない他の要素を容易に含むことができる。 In this specification, including the claims, the terms “comprising”, “including”, “consisting of”, or similar terms mean non-exclusive inclusions and therefore consist of many elements. The method or apparatus does not include only those elements, but can easily include other elements not described.
本発明を容易に理解し、実施するために、好ましい実施態様について添付図面を参照して説明する。添付図面において同一参照番号は同一要素を示す。
図1は、本発明の一実施態様による、多言語による名称の音声認識のためのシステム100の機能的構成要素を示す概略図である。このシステム100は以下のように動作する。文字/音変換器105は、名称のテキストを順序だった一連の発音ユニットに変換する。この名称は、通常、移動電話や携帯情報端末(PDA)などのパーソナル電子装置上に、個々の文字の表記として記憶されている多くの名称の一つである。例えば、これらの名称は電子装置のアドレス帳または連絡リストの一部として記憶されていてもよい。文字/音変換器105は最初に、システム100に入力された名称に対し、少なくとも一つの言語を特定する。次いで、この名称を、公開語彙辞書110に記憶される順序だった一連の発音ユニットに変換する。システム100はまた、混合言語隠れマルコフモデル(HMM)セット115を含んでいる。HMMセット115は、少なくとも二つの言語の選択音声パターンを表すガウス混合パラメータを含んでいる。
In order that the present invention may be readily understood and practiced, preferred embodiments will be described with reference to the accompanying drawings. In the accompanying drawings, the same reference numerals denote the same elements.
FIG. 1 is a schematic diagram illustrating functional components of a
複数の名称とそれに関連する順序だった一連の発音ユニットが公開語彙辞書110に入力された後、システム100は、それらの名称のいずれかがマイクロフォン120などの入力部に発話されると、その名称の発話された表現を認識することができる。マイクロフォン120は、音声作動装置(VAD)に動作可能に接続することができる。次に、特徴抽出器125が、この技術で良く知られた従来の音声認識技術に従って、発話された名称の特徴ベクトルを抽出する。特徴ベクトルは次いで、特徴ベクトルとガウス混合パラメータを比較する自動音声認識(ASR)エンジン130によってデコードされる。ASRエンジン130は更に、動的文法ネットワーク135によって支援される。このネットワーク135は、公開語彙辞書110で構築され、音声認識プロセスの間、発音モデルの検索を誘導する。最後に、公開語彙辞書からの一致名称がシステム100から出力される。次いで、この一致した名称を電子装置が使用して、例えば連絡リストから個人の電話番号または他の連絡情報を検索することができる。
After a plurality of names and a series of pronunciation units in the order associated with them are input to the
したがって、本発明は多言語が混在した単語や名称の音声認識が必要な用途おいて有用である。例えば、中国においては、話者に依存しない中国語(例えば、標準中国語または広東語)および英語のASR可能な携帯電話が現れている。しかしながら、これらの先行技術システムは一般に、一時に単一言語モデルでのみ動作することができる。例えば、ユーザーが、英語名称を用いてアドレス帳内の情報を検索するためにASR機能を使おうとすると、ユーザーはまず、ASR機能を英語に設定しなければならない。次いで、同じユーザーが、標準中国語名称を用いてアドレス帳内の情報を検索しようとすると、そのユーザーは、標準中国語名称を検索可能となる前に、まずASR機能を標準中国語に設定しなければならない。しかしながら、中国における多くの移動電話ユーザーは、電話アドレス帳に、名称の第1部分が英語で、名称の第2部分が標準中国語であるバイリンガルの二つの部分からなる名称を有していることが見受けられる。従って、先行技術のASRシステムはそのようなバイリンガルの二部名称の発話された表現を自動的に認識することができない。一方、本発明は、そのようなバイリンガルの二部名称を認識することができ、ユーザーが手動でASRを一方の言語から他方の言語に切り換える必要がない。 Therefore, the present invention is useful in applications that require speech recognition of words and names mixed with multiple languages. For example, in China, ASR capable mobile phones are appearing that are speaker independent Chinese (eg, Mandarin or Cantonese) and English. However, these prior art systems can generally only work with a single language model at a time. For example, if a user wants to use the ASR function to retrieve information in the address book using an English name, the user must first set the ASR function to English. Next, when the same user tries to search for information in the address book using the standard Chinese name, the user first sets the ASR function to standard Chinese before the standard Chinese name can be searched. There must be. However, many mobile phone users in China have a bilingual name in the phone address book where the first part of the name is English and the second part of the name is Mandarin Chinese Can be seen. Thus, prior art ASR systems cannot automatically recognize spoken representations of such bilingual bipartite names. On the other hand, the present invention can recognize such bilingual two-part names and does not require the user to manually switch the ASR from one language to the other.
図2は、二つの異なる言語のいろいろな名称と、それに関する順序だった一連の発音ユニットからなる発音とを示す表である。例えば、第1の名称、すなわち、
は標準中国語(漢字)のみからなりであり、その後に、個々の中国語音素205を含む順序だった一連の発音ユニットで構成されたその発音が続いている。次の名称「John Stone」は英語のみからなり、その後に、個々の英語音素210を含むその発音が続いている。第3の名称、すなわち、
は、標準中国語(漢字)の姓、すなわち、
と英語の名「Jacky 」とを含んでいるのでバイリンガルの二部名称である。それにもかかわらず、本発明の方法とシステムは、英語音素210と中国語音素205の双方を含むその名称の発音をも定義することができる。ユーザーが手動で言語を切り換える必要なく、バイリンガルの二部名称のそのような発音構文解析を可能にする本発明の特徴を以下に説明する。
And the English name "Jacky", so it is a bilingual two-part name. Nevertheless, the method and system of the present invention can also define the pronunciation of that name, including both
図3は、図1において導入された混合文字/音変換器105の働きと構成要素を示す概略図である。一例として、図3に示す混合文字/音変換器105は、英語または標準中国語のいずれかで表記された文字を変換するように動作する。まず、混合文字/音変換器105は、装置に記憶されている表記された名称の少なくとも一部を定義するために使用されるアルファベットを識別するアルファベット識別器305を含んでいる。名称の記憶部分が漢字310で構成されている場合には、その漢字310は、言語限定標準中国語文字/音変換器315に直接入力される。しかしながら、名称の記憶部分が英文字320で構成されている場合には、その名称は中国語ぴん音か英語のいずれかで表記されている可能性がある。従って名称のその部分はぴん音識別器325によって更に分類される。ぴん音識別器325は、(声調を除く)ぴん音で表されたすべての中国語の名称を基本的に識別する408音節のぴん音辞書を使用している。英文字320が中国語ぴん音である場合、英文字320は標準中国語文字/音変換器315に入力される。しかしながら、英文字320が英単語である場合には、英文字320は言語限定英語文字/音変換器330に入力される。標準中国語文字/音変換器315と英語文字/音変換器330は共に、名称を固有の順序だった一連の言語限定発音ユニットに変換するように動作可能である。種々の他の言語の文字を変換する他の文字/音変換器105も本開示によって可能であることは当業者にとって明らかである。従って、本発明の文字/音変換器105は、バイリンガルの二部名称を単一の順序だった一連の発音ユニットに構文解析することができる。
FIG. 3 is a schematic diagram showing the operation and components of the mixed character /
ユーザーが手動でシステム100の言語モデルを切り換える必要なしに本発明が機能するようにするために、混合言語HMMセット115は、二つの言語のそれぞれに対して一つの、少なくとも二つの音響モデルセットを含んでいる。例えば、英語と標準中国語の双
方を認識する本発明の上記実施態様によれば、HMMセット115は、二つの単一言語音響モデルセット、即ち、前後関係に依存する標準中国語モデルと、前後関係に依存しない英語モデルとを組み合わせている。ここで、前後関係とは、任意の発音ユニットのすぐ右と左またはそのいずれかに隣接する発音ユニットを指す。中国語においては、これらのユニットは、以下により詳しく説明するように、「声母(initial) 」と「韻母(final) 」と呼ばれる。三音モデルは、左隣接発音ユニットと右隣接発音ユニットの双方を考慮した発音モデルである。二つの発音ユニットが、同じアイデンティティを有するが異なる左または右の前後関係を有する場合には、それらは異なる三音と考えられる。
To allow the present invention to function without the user having to manually switch the language model of the
中国語を英語などの西洋語と区別する一つの特徴は、漢字がすべて、子音/母音(C/V)構造プラス声調を有する単一音節であるということである。従って、音節認識はたいていの中国語音声認識システムの構成の基本である。中国語には全部で1254音節(408無調音節)があり、それらは22個の「声母」(即ち、音節における母音の前の子音)と38個の「韻母」(即ち、音節における母音の後の子音)のさまざまな組み合わせから得られる。声母の中には21個の真声母と一つのいわゆる「ゼロ声母」がある。本発明の好ましい実施態様によれば、ゼロ声母は真声母として扱われる。限定されたトレーニングデータのみが入手可能であるという状況を考慮すれば、中国語音声に関して、音節内の同時調音効果は音節間の同時調音効果よりも著しく大きいということが一般に見られる。このことは中国語の単音節構造が原因である。また、音節内では、声母の音響特性は韻母に高度に依存しているが、韻母の特性は声母にほとんど依存しない。例えば、音節「ta」内の声母「t 」は、別の音節「tu」内の同じ声母とは非常に異なって発音されるが、音節「ta」内の韻母「a 」は、「cha 」内の「a 」とほとんど同様に発音される。それ故、中国語音声認識における合理的なアプローチは、音節間の同時調音効果と音節内の先行声母に対する韻母の依存性の双方は無視できると仮定して、声母をそれに続く韻母の開始音素と右前後関係依存性があるものとし、韻母を前後関係依存性がないものとすることである。従って、本発明の好ましい実施態様は、117個の声母と38個の韻母を含む155個の副音節を使用する。各音節はその場合一対の副音節に分解される。本発明の好ましい実施態様の中国語音響モデルにおいて使用されるそのような音節分解の例を表1に示す。 One feature that distinguishes Chinese from Western languages such as English is that all Chinese characters are single syllables with consonant / vowel (C / V) structure plus tone. Therefore, syllable recognition is the basis of the configuration of most Chinese speech recognition systems. There are a total of 1254 syllables (408 atonal syllables) in Chinese, which are 22 “vowels” (ie consonants before vowels in syllables) and 38 “vowels” (ie vowels in syllables). Obtained from various combinations of later consonants). There are 21 true vocals and one so-called “zero”. According to a preferred embodiment of the present invention, the zero initial is treated as a true initial. Considering the situation where only limited training data is available, it is generally seen that for Chinese speech, the simultaneous articulation effect within a syllable is significantly greater than the simultaneous articulation effect between syllables. This is due to the Chinese single syllable structure. In the syllable, the acoustic characteristics of the initial are highly dependent on the final, but the final characteristics are almost independent of the final. For example, the initial “t” in the syllable “ta” is pronounced very differently from the same initial in another syllable “tu”, but the final “a” in the syllable “ta” is “cha”. It is pronounced almost the same as "a". Therefore, a reasonable approach in Chinese speech recognition assumes that both the simultaneous articulation effect between syllables and the dependence of the final on the preceding phoneme in the syllable can be ignored, and the initial It is assumed that there is a right-to-left context dependency, and that the final is not dependent on the context. Thus, the preferred embodiment of the present invention uses 155 subsyllables including 117 vocals and 38 finals. Each syllable is then broken down into a pair of subsyllables. An example of such syllable decomposition used in the Chinese acoustic model of the preferred embodiment of the present invention is shown in Table 1.
HMMセット115における英語音響モデルのサイズを縮小し、従って、システム100全体の複雑さと計算上の要求を減らすために、本発明の好ましい中国語/英語の実施態様は前後関係に依存しない英語音響モデルを使用する。また、40個の単音を基本英語モデル化ユニットとして使用する。そのような単音の一つの資料はカーネギーメロン大学(Carnegie Mellon University(CMU ))発音辞書である。CMU発音辞書は、約127,000の英単語をそれに対応する発音と共に含んでいる。CMU発音辞書はまた、英語の39個の個別音素を定義している。上記辞書の代わりに、他の辞書を使用してもよい。
In order to reduce the size of the English acoustic model in the HMM set 115 and thus reduce the overall complexity and computational requirements of the
順序だった一連の発音ユニットと特徴ベクトルを照合するASRエンジン130の動作
方法をより詳しく説明する。エンジン130は、ビタービ(Viterbi )型ビーム検索アルゴリズムを使って、システム100によって受け取られた発話された言葉の一連の特徴ベクトルを解析する。エンジン130の目的は、文法ネットワーク135によって導かれて、状態シーケンスの対応ガウスパラメータ(ガウス混合)が入力発話された言葉と最も良く一致する順序だった一連の発音ユニットを見つけることである。ビタービ(Viterbi )検索は、時刻tを時刻t+1に進む前に完全に処理する時刻同期検索アルゴリズムである。時刻tに対して、各状態は時刻t−1におけるすべての状態から(すべての入力パスの合計を使ってというよりも)ベストスコアによって更新される。検索の最後に、最も可能性の高い状態シーケンスを、これらのバックトラッキングポインタをたどることよって、回復することができる。効果的な効率化技術のおかげで、検索空間全体または格子全体を探索する必要はない。代わりに、最も有望な検索状態空間だけを探索する必要がある。次いで、総合HMMセットがシステム100のために作られる。このセットは、公開語彙辞書が更新される各時点の後にオンラインで生成される動的文法の最終要素の音響モデルに関連している。上記アルゴリズムに関する更なる詳細は、Jelinek, Frederickによる「音声認識のための統計的方法(Statistical Methods for Speech Recognition)」(MTT Press 1999 ISBN 0-262-10066-5 )において見ることができる。
The operation method of the
本発明の更なる説明のために、図4は、標準中国語/英語公開語彙辞書110を含む本発明の一実施態様による、記憶したテキストを発音ユニットに変換するための典型的な方法400を要約した一般化フローチャートである。この方法400はまずステップ405で、文字からなる複数の名称を表すテキストを電子装置に記憶させる。ステップ410において、個々の名称が中国語アルファベットの文字からなるのかローマ字アルファベットの文字からなるのかを判定する。その名称を構成する文字が漢字である場合には、ステップ415において、その名称の言語は標準中国語であると特定する。しかしながら、その文字がローマ字アルファベットである場合には、その名称の言語は、その文字が中国語ぴん音である可能性があるので、まだ判定されない。よって、ステップ420において、ぴん音(声調を除く)で表されたすべての中国語名称を基本的に特定する408音節のぴん音辞書を用いて、その文字が中国語ぴん音であるかどうかを判定する。その文字がぴん音であると判定された場合には、方法400は再びステップ415に進んで、その名称の言語が標準中国語であると特定する。そうでない場合には、ステップ425において、その名称の言語は英語であると特定する。
For further explanation of the present invention, FIG. 4 illustrates an
その言語が標準中国語であるとステップ415において特定された場合には、方法400は引き続きステップ430において、標準中国語文字/音変換器315を用いて、その名称を順序だった一連の発音ユニットに変換する。しかしながら、ステップ425において言語が英語であると特定された場合には、方法400は続いてステップ435において、英語文字/音変換器330を用いて、その名称を順序だった一連の発音ユニットに変換する。次いで、順序だった一連の発音ユニットを公開語彙辞書110に記憶させる。
If the language is determined to be Mandarin Chinese at
いま、図5は、本発明の好ましい実施態様による、発話された言葉を公開語彙辞書110に記憶された名称と照合する方法500を示す一般化フローチャートである。方法500はまずステップ505において、発話された言葉を電子装置のマイクロフォン120で受信する。この装置は多言語による名称の音声認識のためのシステム100を含んでいる。ステップ510において、その言葉を特徴ベクトルに変換する。次いで、ステップ515において、上記方法に従って、その言葉の特徴ベクトルを、公開語彙辞書110に記憶されている少なくとも一つの名称の順序だった一連の発音ユニットと照合する。
FIG. 5 is a generalized flowchart illustrating a
図6は、本発明の音声認識システム100を実行することができるパーソナル電子装置の一例を示す概略図である。この例は、本発明の一実施態様による多言語による名称の音声認識のためのシステム100を含む無線電話600の形態の無線通信装置を含んでいる
。電話600は、プロセッサ603と通信するように接続された無線周波数通信ユニット602を備えている。無線電話600はまた、プロセッサ603と通信するように接続されたキーパッド606と表示スクリーン605を備えている。当業者にとって明らかなように、スクリーン605はタッチスクリーンとすることができるので、キーパッド606はオプションとすることができる。
FIG. 6 is a schematic diagram illustrating an example of a personal electronic device that can execute the
プロセッサ603は、無線電話600によって送信または受信することができる音声または他の信号をエンコードおよびデコードするためのエンコーダ/デコーダ611とそれに関するデータ記憶用コード読み取り専用メモリ(ROM)612を含んでいる。プロセッサ603はまた、共通データアドレスバス617によってエンコーダ/デコーダ611に接続されたマイクロプロセッサ613と、文字読み取り専用メモリ(ROM)614と、ランダムアクセスメモリ(RAM)604と、プログラム可能スタティックメモリ616と、SIMインターフェース618を含んでいる。プログラム可能スタティックメモリ616と、SIMインターフェース618に動作可能に接続されたSIM(しばしばSIMカードと呼ばれる)とはそれぞれ、とりわけ、選択された入力テキストメッセージと、電話番号用番号フィールドおよび名称フィールド内の番号の一つと関連付けられた識別子のための名称フィールドからなる電話番号データベースTND(またはアドレス/電話帳)とを記憶することができる。例えば、電話番号データベースTND内の一つのエントリは、(番号フィールド内に入力された)91999111111 と、名称フィールド内のそれに関連する識別子「Steven C! at work 」とすることができる。SIMカードとスタティックメモリ616は、無線電話600のパスワード保護機能へのアクセスを可能にするためのパスワードを記憶することもできる。本発明の構成要素、例えば、文字/音変換器105、公開語彙辞書110、混合言語HMMセット115、特徴抽出器125、ASRエンジン130、動的文法ネットワーク135などはすべて、コード読み取り専用メモリ(ROM)612、文字読み取り専用メモリ(ROM)614、ランダムアクセスメモリ(RAM)604、スタティックメモリ616、およびSIMカードの一つまたはそれ以上に、部分的または全体的に格納することができる。マイクロプロセッサ613は、キーパッド606と、スクリーン605と、警報スピーカ、バイブレータモータ、および関連ドライバを一般的に含む警報機615への接続のためのポートを有している。また、マイクロプロセッサ613は、マイクロフォン120と通信スピーカ640への接続のためのポートを有している。文字読み取り専用メモリ614は、通信ユニット602によって受信されるテキストメッセージをデコードまたはエンコードするためのコードを記憶している。この実施態様においては、文字読み取り専用メモリ614はまた、マイクロプロセッサ613のためのオペレーティングコード(OC)と無線電話600に関する機能を実行するためのコードを記憶している。
The
無線周波数通信ユニット602は、共通アンテナ607を有する組み合わせ送受信機である。通信ユニット602は、無線周波数増幅器609を介してアンテナ607に接続されたトランシーバ608を有している。トランシーバ608はまた、通信ユニット602をプロセッサ603に接続する組み合わせ変調器/復調器610に接続されている。
The radio
英語と標準中国語のための本発明の一実施態様の性能例を以下に示す。テストデータベースは、「cancel」と「castle」などのまぎらわしい似通った発音の単語を含み、50個の語彙からなる発話された言葉の特徴ベクトルで構成されている。データベースは、約200人の話者からの9494個の標準中国語の言葉と、25人の話者からの6827個の英語の言葉を含んでいる。これらの言葉は、実世界環境を確立しようとして、オフィス、車、ショッピングモール、街路などの6つの異なる移動環境において録音された。テストの結果は表2に要約されている。単一言語結果は、単一言語音声認識専用システムを用いた認識精度を示している。混合言語結果は、本発明の混合言語音声認識システム100を用いた認識精度を含んでいる。
An example performance of one embodiment of the present invention for English and Mandarin Chinese is shown below. The test database includes words with similar pronunciations such as “cancel” and “castle”, and is composed of feature vectors of spoken words composed of 50 vocabularies. The database contains 9494 Mandarin Chinese words from approximately 200 speakers and 6827 English words from 25 speakers. These words were recorded in six different mobile environments, such as offices, cars, shopping malls, streets, etc., trying to establish a real world environment. The test results are summarized in Table 2. The monolingual result shows the recognition accuracy using the monolingual speech recognition dedicated system. The mixed language result includes the recognition accuracy using the mixed language
従って、本発明は、ユーザーがシステム100の言語モードを手動で切り換える必要のない、多言語の発話された名称を認識することができる改善された音声認識システム100である。従って、それは、例えば、ユーザーが多言語による名称を含む電子アドレス帳を持つことができる多言語環境において有用である。ユーザーが言語モードを切り換える必要がないので、システム100は第1言語のファーストネームと第2言語のセカンドネームとで構成された複合名称さえも認識することができる。また、システム100のメモリと処理要求は、前後関係に依存する構成要素と前後関係に依存しない構成要素を含む組み合わせ音響モデルの使用によって節約することができる。従って、システム100を、制限されたメモリと処理リソースを有する移動電話やPDAなどのパーソナル電子装置上で動作させることができる。
Accordingly, the present invention is an improved
上記詳細な説明は、好ましい典型的な実施態様だけを提供するものであって、本発明の範囲、適用可能性、または構成を制限するものではない。むしろ、この好ましい実施態様の詳細な説明は、当業者に、本発明の好ましい典型的な実施態様を実施するのを可能にする説明を提供する。特許請求の範囲に述べられたような本発明の精神と範囲から逸脱することなしに、要素とステップの機能と配置において種々の変更を行うことができることは明らかである。 The above detailed description provides only preferred exemplary embodiments and is not intended to limit the scope, applicability, or configuration of the invention. Rather, this detailed description of the preferred embodiments provides those skilled in the art with an enabling description for implementing preferred exemplary embodiments of the present invention. Obviously, various modifications may be made in the function and arrangement of elements and steps without departing from the spirit and scope of the invention as set forth in the claims.
Claims (7)
音声ではない複数の名称を表す文字テキストを受信し、前記文字テキストを発音ユニットに変換する発音ユニット変換ステップと;
発話された言葉である被発話言語を受信し、前記被発話言語を特徴ベクトルに変換する特徴ベクトル変換ステップと;
前記発音ユニットを前記特徴ベクトルと照合することによって音声認識する照合ステップと;
を含み、
前記発音ユニット変換ステップは;
アルファベット識別器(305)によって、それぞれ前記名称を、中国語アルファベットの文字からなるのか、あるいはローマ字アルファベットの文字からなるのか判定する文字判定ステップ(410)と;
ぴん音識別器(325)によって、前記ローマ字アルファベットの文字を、中国語ぴん音であるか否か判定する中国語ぴん音判定ステップ(420)と;
中国語文字/音変換器(315)によって、前記中国語アルファベットの文字と、前記中国語ぴん音である前記ローマ字アルファベットの文字とを、順序だった一連の発音ユニットに変換する中国語文字/音変換ステップ(430)と;
英語文字/音変換器(330)によって、前記中国語ぴん音ではないと判定された前記ローマ字アルファベットの文字を、前記発音ユニットに変換する英語文字/音変換ステップ(435)と;
を含み、
前記特徴ベクトル変換ステップは;
マイクロフォン(120)によって、前記被発話言葉を受信する被発話言葉受信ステップ(505)と;
前記被発話言葉を特徴ベクトルに変換する変換ステップ(510)と;
を含むことを特徴とする、音声認識方法。 A speech recognition method for recognizing names in Chinese and English using a speech recognition system (100), the speech recognition method comprising:
A pronunciation unit conversion step of receiving character text representing a plurality of names that are not speech and converting the character text into a pronunciation unit;
A feature vector conversion step of receiving a spoken language that is a spoken word and converting the spoken language into a feature vector;
A collating step for recognizing speech by collating the pronunciation unit with the feature vector;
Including
The pronunciation unit conversion step includes:
A character determination step (410) for determining whether each of the names is made up of Chinese alphabet characters or Roman alphabet characters by an alphabet identifier (305) ;
A Chinese sound determination step (420) for determining whether or not the character of the Roman alphabet is a Chinese sound by means of a sound identification device (325);
A Chinese character / sound converter (315) converts the characters of the Chinese alphabet and the characters of the Roman alphabet, which is the Chinese pinto, into an ordered series of pronunciation units. A conversion step (430);
An English character / sound conversion step (435) for converting the characters of the Roman alphabet determined by the English character / sound converter (330) to be not the Chinese pimp into the pronunciation unit;
Including
The feature vector conversion step includes:
A spoken word receiving step (505) for receiving the spoken word by means of a microphone (120) ;
A conversion step (510) for converting said spoken word into a feature vector;
A speech recognition method comprising:
ガウス混合パラメータを参照して前記特徴ベクトルを前記発音ユニットと比較すること;
ビーム検索ビタービアルゴリズムを使用して検索の最後にバックトラッキングポインタをたどることによって前記特徴ベクトルを解析すること;
を含むことを特徴とする、請求項1記載の音声認識方法。 The matching step further includes:
Comparing the feature vector with the pronunciation unit with reference to a Gaussian mixture parameter;
Analyzing the feature vector by following a backtracking pointer at the end of the search using a beam search Viterbi algorithm;
The speech recognition method according to claim 1, further comprising:
音声ではない文字テキストが入力されるキーパッド(606)とタッチスクリーン(605)のうちの少なくとも一方であって、前記文字テキストは複数の名称を表すことと;
それぞれ前記名称を、中国語アルファベットの文字からなるのか、あるいはローマ字アルファベットの文字からなるのか判定するアルファベット識別器(305)と;
前記ローマ字アルファベットの文字を、中国語ぴん音であるか否か判定するぴん音識別器(325)と;
前記中国語アルファベットの文字と、前記中国語ぴん音である前記ローマ字アルファベットの文字とを、順序だった一連の発音ユニットに変換する中国語文字/音変換器(315)と;
前記中国語ぴん音ではないと判定された前記ローマ字アルファベットの文字を、前記発音ユニットに変換する英語文字/音変換器(330)と;
発話された言葉である被発話言語が入力されるマイクロフォン(120)と;
前記被発話言葉を特徴ベクトルに変換する特徴抽出器(125)と;
前記特徴ベクトルを前記発音ユニットと照合する自動音声認識エンジン(130)と
を備えることを特徴とする、音声認識システム(100)。 A speech recognition system (100) for recognizing names in Chinese and English, wherein the speech recognition system (100)
At least one of a keypad (606) and touch screen (605) to which non-speech character text is input, wherein the character text represents a plurality of names;
An alphabet classifier (305) for determining whether each of the names is made up of Chinese alphabet characters or Roman alphabet characters;
A pinyin discriminator (325) for determining whether or not the Roman alphabetic character is a Chinese pinyin;
A Chinese character / sound converter (315) for converting the characters of the Chinese alphabet and the characters of the Roman alphabet, which is the Chinese pimp, into an ordered series of pronunciation units;
An English character / sound converter (330) for converting the characters of the Roman alphabet determined not to be a Chinese pin sound into the pronunciation unit;
A microphone (120) into which the spoken language, which is the spoken word, is input;
A feature extractor (125) for converting the spoken word into a feature vector;
A speech recognition system (100), comprising: an automatic speech recognition engine (130) for collating the feature vector with the pronunciation unit.
前記発音ユニットを記憶している公開語彙辞書(110)と;
中国語と英語それぞれの選択音声パターンを表す前記ガウス混合パラメータを含む隠れマルコフモデルセット(115)と
を含み、
前記中国語の選択音声パターンは、前記発音ユニットの前後関係に依存し、
前記英語の選択音声パターンは、前記発音ユニットの前後関係には依存しない、請求項4または5記載の音声認識システム(100) The automatic speech recognition engine (130) further includes
A public vocabulary dictionary (110) storing the pronunciation units;
A hidden Markov model set (115) including the Gaussian mixture parameters representing selected speech patterns of Chinese and English respectively;
Including
The selected Chinese voice pattern depends on the context of the pronunciation unit,
The speech recognition system (100) according to claim 4 or 5, wherein the English selected speech pattern does not depend on the context of the pronunciation units.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200410056515A CN100592385C (en) | 2004-08-06 | 2004-08-06 | Method and system for performing speech recognition on multi-language name |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006048058A JP2006048058A (en) | 2006-02-16 |
JP4468264B2 true JP4468264B2 (en) | 2010-05-26 |
Family
ID=35963852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005228583A Active JP4468264B2 (en) | 2004-08-06 | 2005-08-05 | Methods and systems for multilingual name speech recognition |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP4468264B2 (en) |
KR (1) | KR100769029B1 (en) |
CN (1) | CN100592385C (en) |
SG (1) | SG119358A1 (en) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5343744B2 (en) * | 2009-07-24 | 2013-11-13 | 富士通株式会社 | Speech translation apparatus and speech translation method |
JP2011033874A (en) * | 2009-08-03 | 2011-02-17 | Alpine Electronics Inc | Device for multilingual voice recognition, multilingual voice recognition dictionary creation method |
KR101250897B1 (en) * | 2009-08-14 | 2013-04-04 | 한국전자통신연구원 | Apparatus for word entry searching in a portable electronic dictionary and method thereof |
CN101826325B (en) * | 2010-03-10 | 2012-04-18 | 华为终端有限公司 | Method and device for identifying Chinese and English speech signal |
US10134385B2 (en) * | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
CN102780653B (en) * | 2012-08-09 | 2016-03-09 | 上海量明科技发展有限公司 | Quick method, client and the system communicated in instant messaging |
CN103853779A (en) * | 2012-12-04 | 2014-06-11 | 联想(北京)有限公司 | Information processing method and electronic equipment |
CN103928024B (en) * | 2013-01-14 | 2017-11-28 | 联想(北京)有限公司 | A kind of voice inquiry method and electronic equipment |
KR101579533B1 (en) | 2014-10-16 | 2015-12-22 | 현대자동차주식회사 | Vehicle and controlling method for the same |
CN104900235B (en) * | 2015-05-25 | 2019-05-28 | 重庆大学 | Method for recognizing sound-groove based on pitch period composite character parameter |
KR101664080B1 (en) * | 2015-07-28 | 2016-10-10 | 현대자동차 주식회사 | Voice dialing system and method thereof |
CN105095509B (en) * | 2015-09-06 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | Voice search method and device |
CN106935239A (en) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | The construction method and device of a kind of pronunciation dictionary |
CN106856091A (en) * | 2016-12-21 | 2017-06-16 | 北京智能管家科技有限公司 | The automatic broadcasting method and system of a kind of multi-language text |
DE102017200976B4 (en) * | 2017-01-23 | 2018-08-23 | Audi Ag | Method for operating a motor vehicle with an operating device |
CN109192202B (en) * | 2018-09-21 | 2023-05-16 | 平安科技(深圳)有限公司 | Voice safety recognition method, device, computer equipment and storage medium |
CN112397051B (en) * | 2019-08-16 | 2024-02-02 | 武汉Tcl集团工业研究院有限公司 | Voice recognition method and device and terminal equipment |
CN110808034A (en) * | 2019-10-31 | 2020-02-18 | 北京大米科技有限公司 | Voice conversion method, device, storage medium and electronic equipment |
CN112153206B (en) * | 2020-09-23 | 2022-08-09 | 阿波罗智联(北京)科技有限公司 | Contact person matching method and device, electronic equipment and storage medium |
CN112652311B (en) * | 2020-12-01 | 2021-09-03 | 北京百度网讯科技有限公司 | Chinese and English mixed speech recognition method and device, electronic equipment and storage medium |
CN112669841B (en) * | 2020-12-18 | 2024-07-02 | 平安科技(深圳)有限公司 | Training method and device for generating model of multilingual voice and computer equipment |
CN113536776B (en) * | 2021-06-22 | 2024-06-14 | 深圳价值在线信息科技股份有限公司 | Method for generating confusion statement, terminal device and computer readable storage medium |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0136425B1 (en) * | 1995-01-26 | 1998-05-15 | 조백제 | Korean continuous voice recognition device and method using dependent grammar as backward language model and automatic translating system using it |
CA2185262C (en) * | 1995-09-12 | 2006-08-29 | Michele B. Gammel | Method and system for enrolling addresses in a speech recognition database |
JP3447521B2 (en) * | 1997-08-25 | 2003-09-16 | Necエレクトロニクス株式会社 | Voice recognition dial device |
US6314165B1 (en) * | 1998-04-30 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Automated hotel attendant using speech recognition |
JP2000047684A (en) * | 1998-07-28 | 2000-02-18 | Nec Corp | Voice recognizing method and voice service device |
JP4053151B2 (en) * | 1998-09-01 | 2008-02-27 | 富士通株式会社 | Release alarm system |
US6502075B1 (en) * | 1999-03-26 | 2002-12-31 | Koninklijke Philips Electronics, N.V. | Auto attendant having natural names database library |
JP2000352990A (en) * | 1999-06-14 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | Foreign language voice synthesis apparatus |
JP2001085233A (en) * | 1999-09-10 | 2001-03-30 | Concorde Denshi Kogyo:Kk | Semi-closed magnetic path inductor and its manufacture |
JP3539548B2 (en) * | 1999-09-20 | 2004-07-07 | Jfeスチール株式会社 | Manufacturing method of high tensile hot rolled steel sheet for processing |
KR100423460B1 (en) * | 2001-07-19 | 2004-03-18 | 한국전자통신연구원 | A system and method of recognizing voice having subject word-recognition function |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
-
2004
- 2004-08-06 CN CN200410056515A patent/CN100592385C/en not_active Expired - Lifetime
-
2005
- 2005-08-01 SG SG200504797A patent/SG119358A1/en unknown
- 2005-08-05 JP JP2005228583A patent/JP4468264B2/en active Active
- 2005-08-05 KR KR1020050071867A patent/KR100769029B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20060050277A (en) | 2006-05-19 |
SG119358A1 (en) | 2006-02-28 |
JP2006048058A (en) | 2006-02-16 |
CN1731511A (en) | 2006-02-08 |
CN100592385C (en) | 2010-02-24 |
KR100769029B1 (en) | 2007-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4468264B2 (en) | Methods and systems for multilingual name speech recognition | |
KR100679042B1 (en) | Method and apparatus for speech recognition, and navigation system using for the same | |
JP3962763B2 (en) | Dialogue support device | |
JP5480760B2 (en) | Terminal device, voice recognition method and voice recognition program | |
KR101109265B1 (en) | Method for entering text | |
US20050049870A1 (en) | Open vocabulary speech recognition | |
JP2007500367A (en) | Voice recognition method and communication device | |
JP5703491B2 (en) | Language model / speech recognition dictionary creation device and information processing device using language model / speech recognition dictionary created thereby | |
JPH11119791A (en) | System and method for voice feeling recognition | |
JP2007538278A (en) | Speech recognition system | |
JP2003308090A (en) | Device, method and program for recognizing speech | |
CN111916062B (en) | Voice recognition method, device and system | |
US20070016420A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
JP2002116793A (en) | Data input system and method | |
US20080270128A1 (en) | Text Input System and Method Based on Voice Recognition | |
KR102069697B1 (en) | Apparatus and method for automatic interpretation | |
JP4230142B2 (en) | Hybrid oriental character recognition technology using keypad / speech in adverse environment | |
KR101250897B1 (en) | Apparatus for word entry searching in a portable electronic dictionary and method thereof | |
Mittal et al. | Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi | |
JP2004170466A (en) | Voice recognition method and electronic device | |
JP2003108551A (en) | Portable machine translation device, translation method and translation program | |
KR20030010979A (en) | Continuous speech recognization method utilizing meaning-word-based model and the apparatus | |
JP2002073081A (en) | Voice recognition method and electronic equipment | |
KR100777569B1 (en) | The speech recognition method and apparatus using multimodal | |
JP2000056796A (en) | Speech input device and method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090127 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090427 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4468264 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140305 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |