JP4468264B2 - Methods and systems for multilingual name speech recognition - Google Patents

Methods and systems for multilingual name speech recognition Download PDF

Info

Publication number
JP4468264B2
JP4468264B2 JP2005228583A JP2005228583A JP4468264B2 JP 4468264 B2 JP4468264 B2 JP 4468264B2 JP 2005228583 A JP2005228583 A JP 2005228583A JP 2005228583 A JP2005228583 A JP 2005228583A JP 4468264 B2 JP4468264 B2 JP 4468264B2
Authority
JP
Japan
Prior art keywords
chinese
speech recognition
character
feature vector
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005228583A
Other languages
Japanese (ja)
Other versions
JP2006048058A (en
Inventor
シャオ−リン レン
シン ホ
ファン スン
ヤシン チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2006048058A publication Critical patent/JP2006048058A/en
Application granted granted Critical
Publication of JP4468264B2 publication Critical patent/JP4468264B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本発明は一般に音声認識プロセスに関する。本発明は特にパーソナル電子装置を使用した多言語による名称の音声認識に有用であるが、必ずしもそれに限定されるものではない。   The present invention relates generally to speech recognition processes. The present invention is particularly useful for multi-language name speech recognition using a personal electronic device, but is not necessarily limited thereto.

移動電話、携帯情報端末(PDA)、および小型無線呼出し装置などのパーソナル電子装置は、工業化された世界の至る所で普及してきた。何百万人というユーザーが現在、電子情報への素早く簡単なアクセスと通信のためにそのような装置に頼っている。それらの装置の軽量・小型化は一般に、それらを例えばポケットや財布に入れて簡単に持ち運べるようにすることによって、その便利さを増している。しかしながら、それらの装置の小型化の不都合な点は、キーパッドおよびボタンなどの装置上の触覚インターフェースがしばしば極めて小さく扱い難いことである。   Personal electronic devices such as mobile phones, personal digital assistants (PDAs), and small wireless paging devices have become popular throughout the industrialized world. Millions of users currently rely on such devices for quick and easy access and communication of electronic information. The weight and size of these devices generally increases their convenience by making them easy to carry, for example in a pocket or purse. However, the downside of these devices is that the haptic interfaces on devices such as keypads and buttons are often very small and unwieldy.

そこで、音声認識は多くのパーソナル電子装置にとって貴重な機能である。例えば、音声認識機能によって、車のドライバは、道路から目を離すことなくパーソナル電子装置に簡単な命令を出すことができる。また、音声による命令は、簡単に、しかも、小さなキーパッド上で指示を入力するのに必要な時間よりもしばしば速く実行することができるため、音声認識は、例えばPDA内のアドレス帳エントリにアクセスする際の利便性を向上することができる。   Thus, speech recognition is a valuable function for many personal electronic devices. For example, the voice recognition function allows a car driver to issue a simple command to the personal electronic device without taking his eyes off the road. Also, voice recognition can be performed easily and often faster than the time required to enter instructions on a small keypad, so voice recognition can access, for example, address book entries in a PDA. Convenience can be improved.

従って、音声認識システムは、コンピュータプログラムを実行し、データベースにアクセスするための好評な手段である。しかしながら、パーソナル電子装置の小型化は、組み込まれる音声認識システムの性能を制限することもある。効果的な音声認識はしばしば、比較的大きなデータベースとかなりの処理速度を必要とするが、小型電子装置のメモリ容量と処理能力は一般に制限がある。これらの制限を克服するために、パーソナル電子装置の音声認識システムは普通、限定された特定の状況だけのためにカスタマイズされる。例えば、そのようなシステムはしばしば、以下に更に詳細に説明するように、話者に依存しており、特定の話者のみの音声パターンを解釈するようになっている。また、そのようなシステムはしばしば、言語に依存しており、限定された語彙だけのために設計される。これらの設計上の妥協により、システムは、特定目的のためには、パーソナル電子装置の限定されたリソースを用いて、かなり良好に機能することができる。   Thus, the speech recognition system is a popular means for executing computer programs and accessing databases. However, the miniaturization of personal electronic devices may limit the performance of an integrated speech recognition system. Effective speech recognition often requires relatively large databases and significant processing speed, but the memory capacity and processing power of small electronic devices are generally limited. In order to overcome these limitations, personal electronic device speech recognition systems are usually customized only for limited specific situations. For example, such systems often rely on speakers and interpret speech patterns only for specific speakers, as described in more detail below. Also, such systems are often language dependent and are designed for only a limited vocabulary. These design compromises allow the system to function fairly well with the limited resources of personal electronic devices for specific purposes.

音声認識システムは一般に、入力言葉をデータベースに記憶されている音響モデルと照合することによって機能する。一致した音響モデルをその後、辞書データベース内のエントリと照合し、単語および文の認識を完了する。音響モデルはしばしば、隠れマルコフモデル(Hidden Markov Models: HMM)からなっている。HMMは、平均ベクトルと分散ベクトルを含む統計記述であり、単語と音素などの音声ユニットを記述する。次いで、HMMパターン照合を使って、音声認識データベース内の音響モデルが発話により入力された言葉と一致するかどうかを判定する。HMMは一般に、ガウス混合と呼ばれるいくつかの複合ガウス確率分布関数(PDF)からなる確率関数に基づいている。音声パターン照合はそれ故、ガウス混合と入力音声言葉を照合するプロセスである。従って、HMMパターン照合音響モデルの利用可能な高度化は、性能とメモリおよび処理リソースとの間の必要な妥協を行うときに、音声認識システムの設計者が考えなければならない重要な変動要因である。 Speech recognition systems generally work by matching input words with an acoustic model stored in a database. The matched acoustic model is then matched against an entry in the dictionary database to complete word and sentence recognition. Acoustic models often consist of Hidden Markov Models (HMM). The HMM is a statistical description including an average vector and a variance vector, and describes speech units such as words and phonemes. The HMM pattern matching is then used to determine whether the acoustic model in the speech recognition database matches the words entered by utterance. HMMs are generally based on a probability function consisting of several complex Gaussian probability distribution functions (PDF) called Gaussian mixture. Speech pattern matching is therefore a process of matching Gaussian mixing with input speech words. Thus, the available sophistication of HMM pattern matching acoustic models is an important variable factor that speech recognition system designers must consider when making the necessary compromise between performance and memory and processing resources. .

音声認識システムにおける他の妥協は、多数のユーザーの音声を認識するためのシステ
ムの能力に関係している。従って、音声認識システムは更に、話者に依存しないシステムか話者に依存するシステムのいずれかとして分類される。話者に依存しないシステムは、任意の言語のどの話者の音声をも認識するように設計されているが、話者に依存するシステムはただ一人の話者の音声を認識するように教育される。話者に依存しないシステムは普通、複数のトレーニング話者から得られたHMMを含む音響データベースを含んでいる。トレーニング話者の音声から得られるHMMは、より大きな話者グループに見られる音声パターンを代表することが意図されるガウス混合パラメータである。そのようなシステムは一般に、話者に依存するシステムよりも正確ではない。これは、いろいろな音声属性に対応するために音声モデルにおいて妥協しなければならないためと、話者に依存しないシステムが、そのシステムを使用するどの特定の話者の特有の音声属性にも適合しないためである。
Another compromise in speech recognition systems relates to the system's ability to recognize multiple users' speech. Thus, speech recognition systems are further classified as either speaker independent systems or speaker dependent systems. While speaker-independent systems are designed to recognize the speech of any speaker in any language, speaker-dependent systems are educated to recognize the speech of a single speaker. The Speaker-independent systems typically include an acoustic database containing HMMs obtained from multiple training speakers. The HMM obtained from the training speaker's speech is a Gaussian mixture parameter that is intended to be representative of speech patterns found in larger speaker groups. Such systems are generally less accurate than speaker dependent systems. This is because the speech model must be compromised to accommodate different speech attributes, and a speaker-independent system will not fit the specific speech attributes of any particular speaker using that system Because.

話者に依存するシステムは、個々の話者の特定の音声パターンを認識するように調整される。通常、話者は、トレーニングルーチンの間、話者に依存するシステムの中にいろいろな音声パターンを含むスクリプトを読み込む。次いで、トレーニング音声がそのスクリプトに合わせられ、そのため、システムを話者の特有の音声属性に調整することができ、従って、システムは、音声認識の間、話者の音声をより正確に認識するようになる。しかしながら、話者に依存するシステムはしばしば、多くの人々が音声認識システムを使用する必要がある状況においては望ましくない。例えば、移動電話に組み込まれた音声認識システムによってユーザーは、命令を話し、その命令が電話によって認識されることによって、装置を動作させることができる。しかしながら、移動電話の主ユーザーは、多くの友人、同僚、または家族も電話の音声認識機能を使用できることを望むことがある。電話のそのような第2ユーザーはほんの短期間だけ音声認識機能を必要とするかも知れないため、第2ユーザーは、音声認識機能を使う前に、まず自分の音声を電話に認識させる必要があることは不便である。   Speaker dependent systems are tuned to recognize specific speech patterns of individual speakers. Typically, during the training routine, the speaker loads scripts containing various speech patterns into the speaker-dependent system. The training speech is then tailored to the script so that the system can be adjusted to the speaker's unique speech attributes so that the system recognizes the speaker's speech more accurately during speech recognition. become. However, speaker dependent systems are often undesirable in situations where many people need to use speech recognition systems. For example, a voice recognition system built into a mobile phone allows a user to speak a command and operate the device by the command being recognized by the phone. However, the primary user of a mobile phone may want many friends, colleagues, or family members to be able to use the phone's voice recognition function. Because such a second user of the phone may need a voice recognition function for only a short period of time, the second user must first let his phone recognize his / her voice before using the voice recognition function. That is inconvenient.

最後に、音声認識音響モデルは通常、単一言語専用に設計されている。従って、多言語音声を認識できる音声認識システムは、多数の音響モデルを必要とし、このこともシステムのメモリ要求と高度化を増大させる。   Finally, speech recognition acoustic models are usually designed specifically for a single language. Therefore, a speech recognition system that can recognize multilingual speech requires a large number of acoustic models, which also increases the memory requirements and sophistication of the system.

最近、二言語による音声認識装置がパーソナル電子装置用に開発されている。従って、例えば、移動電話のバイリンガルユーザーは、英語と標準中国語といった二言語のうちのいずれかを使って、電話に記憶されたアドレス帳から名称を呼び出すことができる。これらの装置に使用される別々の言語に特定的な音響モデルおよび語彙データベースのために、ユーザーは一般に、音声認識機能を使う前に、まず電話の言語モードを一つの特定の言語に切り換えなければならない。しかしながら、特定の言語を予め選択しなければならないのは、例えば、アドレス帳が、多様に混在した二言語の名称または他の連絡情報を含む場合に不便である。また、特定の言語を予め選択しなければならないために、システムは、音声認識を用いて、多言語が混在した2つの部分からなる名称、例えば、名が英語で姓が標準中国語の名称を特定することができない。   Recently, bilingual speech recognition devices have been developed for personal electronic devices. Thus, for example, a bilingual user of a mobile phone can call a name from an address book stored on the phone using one of two languages, English and Mandarin. Due to the acoustic models and vocabulary databases specific to the different languages used on these devices, users generally have to switch the phone language mode to one specific language before using the speech recognition function. Don't be. However, it is inconvenient that a specific language must be selected in advance, for example, when the address book includes variously mixed names of two languages or other contact information. Also, because a specific language must be pre-selected, the system uses speech recognition to create a two-part name mixed with multiple languages, for example, a name whose first name is English and whose last name is Mandarin Chinese. It cannot be specified.

従って、言語モード間の手動切り換えを必要とせずに多言語の名称を認識することができ、パーソナル電子装置の制限されたリソースを効果的に使用する、話者に依存していない音声認識のための改善された方法とシステムに対する必要性が存在する。   Thus, multilingual names can be recognized without the need for manual switching between language modes, and speaker-independent speech recognition that effectively uses the limited resources of personal electronic devices. There is a need for improved methods and systems.

そこで、本発明は、一態様によれば、改善された多言語の名称の音声認識方法であって、文字からなる複数の名称を表すテキストを電子装置に記憶させるステップと、前記名称
のそれぞれに対して少なくとも一つの言語を特定するステップと、複数の、言語に特定的な文字/音変換器(以下「言語特定文字/音変換器」とする)を用いて、各名称を順序だった一連の発音ユニットに変換するステップと、前記電子装置に関連付けられたマイクロフォンで発話された言葉を受信するステップと、前記言葉を特徴ベクトルに変換するステップと、前記特徴ベクトルを少なくとも一つの名称の前記順序だった一連の発音ユニットと照合するステップとを備えた方法である。
Therefore, according to one aspect of the present invention, there is provided an improved speech recognition method for multilingual names, the step of storing text representing a plurality of names consisting of characters in an electronic device, and each of the names Using a step of identifying at least one language and a plurality of language-specific character / sound converters (hereinafter referred to as “language-specific character / sound converters”) Converting to a phonetic unit; receiving a word spoken by a microphone associated with the electronic device; converting the word to a feature vector; and converting the feature vector into the order of at least one name And a step of collating with a series of pronunciation units.

前記多言語は標準中国語を含み、前記名称のそれぞれに対して少なくとも一つの言語を特定するステップは、前記名称が中国語アルファベットの文字から構成されているかローマ字アルファベットの文字から構成されているかを判定するステップと、ローマ字アルファベットの名称が中国語ぴん音であるかを判定するステップからなることが好ましい。   The multi-language includes Mandarin Chinese, and the step of identifying at least one language for each of the names is whether the name is composed of Chinese alphabet characters or Roman alphabet characters. Preferably, the method includes a step of determining and a step of determining whether the name of the Roman alphabet is a Chinese sword.

前記多言語は西洋言語と中国語で構成されることが好ましい。
前記複数の言語特定文字/音変換器は、中国語文字/音変換器と西洋言語文字/音変換器で構成されることが好ましい。
The multi-language is preferably composed of a Western language and Chinese.
The plurality of language-specific character / sound converters are preferably composed of a Chinese character / sound converter and a Western language character / sound converter.

前記中国語文字/音変換器は前後関係に依存しており、前記西洋言語文字/音変換器は前後関係に依存していないことが好ましい。
前記特徴ベクトルを少なくとも一つの名称の順序だった一連の発音ユニットと照合するステップは、自動音声認識エンジンにおいて前記特徴ベクトルと前記順序だった一連の発音ユニットとガウス混合パラメータとを比較することによって前記特徴ベクトルをデコードするステップからなることが好ましい。
Preferably, the Chinese character / sound converter depends on the context, and the Western language character / sound converter does not depend on the context.
The step of matching the feature vector with a series of phonetic units ordered by at least one name comprises comparing the feature vector with the sequence of phonetic units ordered and a Gaussian mixture parameter in an automatic speech recognition engine. It preferably comprises the step of decoding the feature vector.

前記自動音声認識エンジンはビーム検索ビタービ(Viterbi )アルゴリズムを使用することが好ましい。
前記名称は前記電子装置に記憶されている連絡リストの構成要素からなっていることが好ましい。
The automatic speech recognition engine preferably uses a beam search Viterbi algorithm.
Preferably, the name comprises a contact list component stored in the electronic device.

別の態様によれば、本発明は、多言語による名称の音声認識方法であって、電子装置に関連付けられたマイクロフォンで発話された言葉を受信するステップと、前記言葉を特徴ベクトルに変換するステップと、前記特徴ベクトルを、少なくとも一つの名称であって文字の表現として前記電子装置に記憶されている名称の順序だった一連の発音ユニットと照合するステップを備える。前記名称の少なくとも一つの言語は前記文字から特定されており、前記名称は次いで、複数の言語特定文字/音変換器を用いて前記順序だった一連の発音ユニットに変換されている。   According to another aspect, the present invention is a multilingual name speech recognition method for receiving a word spoken by a microphone associated with an electronic device, and converting the word into a feature vector. And comparing the feature vector with a series of pronunciation units that are at least one name and in the order of names stored in the electronic device as a representation of characters. At least one language of the name is identified from the characters, and the name is then converted into the ordered series of pronunciation units using a plurality of language-specific character / sound converters.

更に別の態様によれば、本発明は、多言語による名称の音声認識のためのシステムであって、マイクロプロセッサと、前記マイクロプロセッサに動作可能に接続された少なくとも一つのメモリと、前記マイクロプロセッサに動作可能に接続されたマイクロフォンを備える。前記マイクロプロセッサは、前記メモリに記憶されているコードを実行して、発話された言葉を前記マイクロフォンで受信し、前記言葉を特徴ベクトルに変換し、前記特徴ベクトルを、少なくとも一つの名称であって文字の表現として前記メモリに記憶されている名称の順序だった一連の発音ユニットと照合するように動作する。前記名称の少なくとも一つの言語は前記文字から特定されており、前記名称は次いで、前記マイクロプロセッサに動作可能に接続された複数の言語特定文字/音変換器を用いて前記順序だった一連の発音ユニットに変換されている。   According to yet another aspect, the present invention is a system for multilingual name recognition, comprising a microprocessor, at least one memory operably connected to the microprocessor, and the microprocessor. A microphone operatively connected to the The microprocessor executes a code stored in the memory, receives a spoken word with the microphone, converts the word into a feature vector, and the feature vector has at least one name. It operates to collate with a series of pronunciation units that are in the order of names stored in the memory as character representations. At least one language of the name is identified from the letters, and the name is then used to produce the ordered series of pronunciations using a plurality of language-specific letter / sound converters operably connected to the microprocessor. Has been converted to a unit.

前記名称は前記システムに記憶されている連絡リストの構成要素からなっていることが好ましい。
前記システムは移動電話か携帯情報端末のいずれかに動作可能に接続されることが好ま
しい。
Preferably, the name comprises a contact list component stored in the system.
The system is preferably operatively connected to either a mobile phone or a personal digital assistant.

特許請求の範囲を含む本仕様書においては、用語「備えた」、「含む」、「からなる」、または同様な用語は、非排他的包含を意味するものであるため、多くの要素からなる方法または装置は、それらの要素だけを含むものではなく、記載されていない他の要素を容易に含むことができる。   In this specification, including the claims, the terms “comprising”, “including”, “consisting of”, or similar terms mean non-exclusive inclusions and therefore consist of many elements. The method or apparatus does not include only those elements, but can easily include other elements not described.

本発明を容易に理解し、実施するために、好ましい実施態様について添付図面を参照して説明する。添付図面において同一参照番号は同一要素を示す。
図1は、本発明の一実施態様による、多言語による名称の音声認識のためのシステム100の機能的構成要素を示す概略図である。このシステム100は以下のように動作する。文字/音変換器105は、名称のテキストを順序だった一連の発音ユニットに変換する。この名称は、通常、移動電話や携帯情報端末(PDA)などのパーソナル電子装置上に、個々の文字の表記として記憶されている多くの名称の一つである。例えば、これらの名称は電子装置のアドレス帳または連絡リストの一部として記憶されていてもよい。文字/音変換器105は最初に、システム100に入力された名称に対し、少なくとも一つの言語を特定する。次いで、この名称を、公開語彙辞書110に記憶される順序だった一連の発音ユニットに変換する。システム100はまた、混合言語隠れマルコフモデル(HMM)セット115を含んでいる。HMMセット115は、少なくとも二つの言語の選択音声パターンを表すガウス混合パラメータを含んでいる。
In order that the present invention may be readily understood and practiced, preferred embodiments will be described with reference to the accompanying drawings. In the accompanying drawings, the same reference numerals denote the same elements.
FIG. 1 is a schematic diagram illustrating functional components of a system 100 for multilingual name speech recognition according to one embodiment of the present invention. The system 100 operates as follows. The character / sound converter 105 converts the text of the name into an ordered series of pronunciation units. This name is usually one of many names stored as a representation of individual characters on personal electronic devices such as mobile phones and personal digital assistants (PDAs). For example, these names may be stored as part of an electronic device address book or contact list. The character / sound converter 105 first identifies at least one language for the name entered into the system 100. This name is then converted into a series of pronunciation units in the order stored in the open vocabulary dictionary 110. The system 100 also includes a mixed language hidden Markov model (HMM) set 115. The HMM set 115 includes Gaussian mixing parameters representing selected speech patterns in at least two languages.

複数の名称とそれに関連する順序だった一連の発音ユニットが公開語彙辞書110に入力された後、システム100は、それらの名称のいずれかがマイクロフォン120などの入力部に発話されると、その名称の発話された表現を認識することができる。マイクロフォン120は、音声作動装置(VAD)に動作可能に接続することができる。次に、特徴抽出器125が、この技術で良く知られた従来の音声認識技術に従って、発話された名称の特徴ベクトルを抽出する。特徴ベクトルは次いで、特徴ベクトルとガウス混合パラメータを比較する自動音声認識(ASR)エンジン130によってデコードされる。ASRエンジン130は更に、動的文法ネットワーク135によって支援される。このネットワーク135は、公開語彙辞書110で構築され、音声認識プロセスの間、発音モデルの検索を誘導する。最後に、公開語彙辞書からの一致名称がシステム100から出力される。次いで、この一致した名称を電子装置が使用して、例えば連絡リストから個人の電話番号または他の連絡情報を検索することができる。   After a plurality of names and a series of pronunciation units in the order associated with them are input to the open vocabulary dictionary 110, the system 100, when any of those names is uttered to an input unit such as the microphone 120, the names Can recognize the spoken expression. Microphone 120 can be operatively connected to a voice activated device (VAD). The feature extractor 125 then extracts the feature vector of the spoken name according to conventional speech recognition techniques well known in the art. The feature vector is then decoded by an automatic speech recognition (ASR) engine 130 that compares the feature vector and Gaussian mixing parameters. The ASR engine 130 is further supported by a dynamic grammar network 135. This network 135 is built with the open vocabulary dictionary 110 and guides the search for pronunciation models during the speech recognition process. Finally, the matching name from the public vocabulary dictionary is output from the system 100. This matched name can then be used by the electronic device to retrieve a personal telephone number or other contact information from a contact list, for example.

したがって、本発明は多言語が混在した単語や名称の音声認識が必要な用途おいて有用である。例えば、中国においては、話者に依存しない中国語(例えば、標準中国語または広東語)および英語のASR可能な携帯電話が現れている。しかしながら、これらの先行技術システムは一般に、一時に単一言語モデルでのみ動作することができる。例えば、ユーザーが、英語名称を用いてアドレス帳内の情報を検索するためにASR機能を使おうとすると、ユーザーはまず、ASR機能を英語に設定しなければならない。次いで、同じユーザーが、標準中国語名称を用いてアドレス帳内の情報を検索しようとすると、そのユーザーは、標準中国語名称を検索可能となる前に、まずASR機能を標準中国語に設定しなければならない。しかしながら、中国における多くの移動電話ユーザーは、電話アドレス帳に、名称の第1部分が英語で、名称の第2部分が標準中国語であるバイリンガルの二つの部分からなる名称を有していることが見受けられる。従って、先行技術のASRシステムはそのようなバイリンガルの二部名称の発話された表現を自動的に認識することができない。一方、本発明は、そのようなバイリンガルの二部名称を認識することができ、ユーザーが手動でASRを一方の言語から他方の言語に切り換える必要がない。   Therefore, the present invention is useful in applications that require speech recognition of words and names mixed with multiple languages. For example, in China, ASR capable mobile phones are appearing that are speaker independent Chinese (eg, Mandarin or Cantonese) and English. However, these prior art systems can generally only work with a single language model at a time. For example, if a user wants to use the ASR function to retrieve information in the address book using an English name, the user must first set the ASR function to English. Next, when the same user tries to search for information in the address book using the standard Chinese name, the user first sets the ASR function to standard Chinese before the standard Chinese name can be searched. There must be. However, many mobile phone users in China have a bilingual name in the phone address book where the first part of the name is English and the second part of the name is Mandarin Chinese Can be seen. Thus, prior art ASR systems cannot automatically recognize spoken representations of such bilingual bipartite names. On the other hand, the present invention can recognize such bilingual two-part names and does not require the user to manually switch the ASR from one language to the other.

図2は、二つの異なる言語のいろいろな名称と、それに関する順序だった一連の発音ユニットからなる発音とを示す表である。例えば、第1の名称、すなわち、

Figure 0004468264
FIG. 2 is a table showing various names of two different languages and pronunciations consisting of a series of pronunciation units in order. For example, the first name, ie
Figure 0004468264

は標準中国語(漢字)のみからなりであり、その後に、個々の中国語音素205を含む順序だった一連の発音ユニットで構成されたその発音が続いている。次の名称「John Stone」は英語のみからなり、その後に、個々の英語音素210を含むその発音が続いている。第3の名称、すなわち、

Figure 0004468264
Is composed only of Mandarin Chinese (kanji), followed by its pronunciation composed of a series of pronunciation units in order including individual Chinese phonemes 205. The next name “John Stone” consists only of English, followed by its pronunciation including individual English phonemes 210. The third name, namely
Figure 0004468264

は、標準中国語(漢字)の、すなわち、

Figure 0004468264
Is the last name in Mandarin Chinese (Kanji),
Figure 0004468264

と英語の名「Jacky 」とを含んでいるのでバイリンガルの二部名称である。それにもかかわらず、本発明の方法とシステムは、英語音素210と中国語音素205の双方を含むその名称の発音をも定義することができる。ユーザーが手動で言語を切り換える必要なく、バイリンガルの二部名称のそのような発音構文解析を可能にする本発明の特徴を以下に説明する。 And the English name "Jacky", so it is a bilingual two-part name. Nevertheless, the method and system of the present invention can also define the pronunciation of that name, including both English phonemes 210 and Chinese phonemes 205. The features of the present invention that enable such pronunciation parsing of bilingual bipartite names without requiring the user to manually switch languages are described below.

図3は、図1において導入された混合文字/音変換器105の働きと構成要素を示す概略図である。一例として、図3に示す混合文字/音変換器105は、英語または標準中国語のいずれかで表記された文字を変換するように動作する。まず、混合文字/音変換器105は、装置に記憶されている表記された名称の少なくとも一部を定義するために使用されるアルファベットを識別するアルファベット識別器305を含んでいる。名称の記憶部分が漢字310で構成されている場合には、その漢字310は、言語限定標準中国語文字/音変換器315に直接入力される。しかしながら、名称の記憶部分が英文字320で構成されている場合には、その名称は中国語ぴん音か英語のいずれかで表記されている可能性がある。従って名称のその部分はぴん音識別器325によって更に分類される。ぴん音識別器325は、(声調を除く)ぴん音で表されたすべての中国語の名称を基本的に識別する408音節のぴん音辞書を使用している。英文字320が中国語ぴん音である場合、英文字320は標準中国語文字/音変換器315に入力される。しかしながら、英文字320が英単語である場合には、英文字320は言語限定英語文字/音変換器330に入力される。標準中国語文字/音変換器315と英語文字/音変換器330は共に、名称を固有の順序だった一連の言語限定発音ユニットに変換するように動作可能である。種々の他の言語の文字を変換する他の文字/音変換器105も本開示によって可能であることは当業者にとって明らかである。従って、本発明の文字/音変換器105は、バイリンガルの二部名称を単一の順序だった一連の発音ユニットに構文解析することができる。   FIG. 3 is a schematic diagram showing the operation and components of the mixed character / sound converter 105 introduced in FIG. As an example, the mixed character / sound converter 105 shown in FIG. 3 operates to convert characters written in either English or Mandarin Chinese. First, the mixed character / sound converter 105 includes an alphabet identifier 305 that identifies the alphabet used to define at least a portion of the written name stored in the device. When the name storage part is composed of Chinese characters 310, the Chinese characters 310 are directly input to the language-limited standard Chinese character / sound converter 315. However, if the storage portion of the name is composed of English characters 320, the name may be written in either Chinese ping or English. Therefore, that part of the name is further classified by the beep identifier 325. The pinyone discriminator 325 uses a 408 syllable pinyone dictionary that basically identifies all Chinese names represented by a pinyone (except the tone). If the English character 320 is a Chinese ping sound, the English character 320 is input to the standard Chinese character / sound converter 315. However, when the English character 320 is an English word, the English character 320 is input to the language-limited English character / sound converter 330. Both the standard Chinese character / sound converter 315 and the English character / sound converter 330 are operable to convert the names into a series of language-limited pronunciation units in a unique order. It will be apparent to those skilled in the art that other character / sound converters 105 that convert characters in various other languages are also possible with the present disclosure. Thus, the character / sound converter 105 of the present invention can parse bilingual bipartite names into a series of pronunciation units in a single order.

ユーザーが手動でシステム100の言語モデルを切り換える必要なしに本発明が機能するようにするために、混合言語HMMセット115は、二つの言語のそれぞれに対して一つの、少なくとも二つの音響モデルセットを含んでいる。例えば、英語と標準中国語の双
方を認識する本発明の上記実施態様によれば、HMMセット115は、二つの単一言語音響モデルセット、即ち、前後関係に依存する標準中国語モデルと、前後関係に依存しない英語モデルとを組み合わせている。ここで、前後関係とは、任意の発音ユニットのすぐ右と左またはそのいずれかに隣接する発音ユニットを指す。中国語においては、これらのユニットは、以下により詳しく説明するように、「声母(initial) 」と「韻母(final) 」と呼ばれる。三音モデルは、左隣接発音ユニットと右隣接発音ユニットの双方を考慮した発音モデルである。二つの発音ユニットが、同じアイデンティティを有するが異なる左または右の前後関係を有する場合には、それらは異なる三音と考えられる。
To allow the present invention to function without the user having to manually switch the language model of the system 100, the mixed language HMM set 115 includes at least two acoustic model sets, one for each of the two languages. Contains. For example, according to the above embodiment of the present invention that recognizes both English and Mandarin Chinese, the HMM set 115 includes two monolingual acoustic model sets: a Mandarin Chinese model that depends on context, Combined with a relationship-independent English model. Here, the context refers to a sounding unit that is adjacent to the right and / or left of any sounding unit. In Chinese, these units are called “initial” and “final” as described in more detail below. The three-tone model is a pronunciation model that considers both the left adjacent pronunciation unit and the right adjacent pronunciation unit. If two pronunciation units have the same identity but different left or right contexts, they are considered different triphones.

中国語を英語などの西洋語と区別する一つの特徴は、漢字がすべて、子音/母音(C/V)構造プラス声調を有する単一音節であるということである。従って、音節認識はたいていの中国語音声認識システムの構成の基本である。中国語には全部で1254音節(408無調音節)があり、それらは22個の「声母」(即ち、音節における母音の前の子音)と38個の「韻母」(即ち、音節における母音の後の子音)のさまざまな組み合わせから得られる。声母の中には21個の真声母と一つのいわゆる「ゼロ声母」がある。本発明の好ましい実施態様によれば、ゼロ声母は真声母として扱われる。限定されたトレーニングデータのみが入手可能であるという状況を考慮すれば、中国語音声に関して、音節内の同時調音効果は音節間の同時調音効果よりも著しく大きいということが一般に見られる。このことは中国語の単音節構造が原因である。また、音節内では、声母の音響特性は韻母に高度に依存しているが、韻母の特性は声母にほとんど依存しない。例えば、音節「ta」内の声母「t 」は、別の音節「tu」内の同じ声母とは非常に異なって発音されるが、音節「ta」内の韻母「a 」は、「cha 」内の「a 」とほとんど同様に発音される。それ故、中国語音声認識における合理的なアプローチは、音節間の同時調音効果と音節内の先行声母に対する韻母の依存性の双方は無視できると仮定して、声母をそれに続く韻母の開始音素と右前後関係依存性があるものとし、韻母を前後関係依存性がないものとすることである。従って、本発明の好ましい実施態様は、117個の声母と38個の韻母を含む155個の副音節を使用する。各音節はその場合一対の副音節に分解される。本発明の好ましい実施態様の中国語音響モデルにおいて使用されるそのような音節分解の例を表1に示す。   One feature that distinguishes Chinese from Western languages such as English is that all Chinese characters are single syllables with consonant / vowel (C / V) structure plus tone. Therefore, syllable recognition is the basis of the configuration of most Chinese speech recognition systems. There are a total of 1254 syllables (408 atonal syllables) in Chinese, which are 22 “vowels” (ie consonants before vowels in syllables) and 38 “vowels” (ie vowels in syllables). Obtained from various combinations of later consonants). There are 21 true vocals and one so-called “zero”. According to a preferred embodiment of the present invention, the zero initial is treated as a true initial. Considering the situation where only limited training data is available, it is generally seen that for Chinese speech, the simultaneous articulation effect within a syllable is significantly greater than the simultaneous articulation effect between syllables. This is due to the Chinese single syllable structure. In the syllable, the acoustic characteristics of the initial are highly dependent on the final, but the final characteristics are almost independent of the final. For example, the initial “t” in the syllable “ta” is pronounced very differently from the same initial in another syllable “tu”, but the final “a” in the syllable “ta” is “cha”. It is pronounced almost the same as "a". Therefore, a reasonable approach in Chinese speech recognition assumes that both the simultaneous articulation effect between syllables and the dependence of the final on the preceding phoneme in the syllable can be ignored, and the initial It is assumed that there is a right-to-left context dependency, and that the final is not dependent on the context. Thus, the preferred embodiment of the present invention uses 155 subsyllables including 117 vocals and 38 finals. Each syllable is then broken down into a pair of subsyllables. An example of such syllable decomposition used in the Chinese acoustic model of the preferred embodiment of the present invention is shown in Table 1.

Figure 0004468264
Figure 0004468264

HMMセット115における英語音響モデルのサイズを縮小し、従って、システム100全体の複雑さと計算上の要求を減らすために、本発明の好ましい中国語/英語の実施態様は前後関係に依存しない英語音響モデルを使用する。また、40個の単音を基本英語モデル化ユニットとして使用する。そのような単音の一つの資料はカーネギーメロン大学(Carnegie Mellon University(CMU ))発音辞書である。CMU発音辞書は、約127,000の英単語をそれに対応する発音と共に含んでいる。CMU発音辞書はまた、英語の39個の個別音素を定義している。上記辞書の代わりに、他の辞書を使用してもよい。   In order to reduce the size of the English acoustic model in the HMM set 115 and thus reduce the overall complexity and computational requirements of the system 100, the preferred Chinese / English embodiment of the present invention is a context-independent English acoustic model. Is used. In addition, 40 single notes are used as a basic English modeling unit. One such single note material is the Carnegie Mellon University (CMU) pronunciation dictionary. The CMU pronunciation dictionary contains about 127,000 English words with corresponding pronunciations. The CMU pronunciation dictionary also defines 39 individual phonemes in English. Other dictionaries may be used instead of the above dictionary.

順序だった一連の発音ユニットと特徴ベクトルを照合するASRエンジン130の動作
方法をより詳しく説明する。エンジン130は、ビタービ(Viterbi )型ビーム検索アルゴリズムを使って、システム100によって受け取られた発話された言葉の一連の特徴ベクトルを解析する。エンジン130の目的は、文法ネットワーク135によって導かれて、状態シーケンスの対応ガウスパラメータ(ガウス混合)が入力発話された言葉と最も良く一致する順序だった一連の発音ユニットを見つけることである。ビタービ(Viterbi )検索は、時刻tを時刻t+1に進む前に完全に処理する時刻同期検索アルゴリズムである。時刻tに対して、各状態は時刻t−1におけるすべての状態から(すべての入力パスの合計を使ってというよりも)ベストスコアによって更新される。検索の最後に、最も可能性の高い状態シーケンスを、これらのバックトラッキングポインタをたどることよって、回復することができる。効果的な効率化技術のおかげで、検索空間全体または格子全体を探索する必要はない。代わりに、最も有望な検索状態空間だけを探索する必要がある。次いで、総合HMMセットがシステム100のために作られる。このセットは、公開語彙辞書が更新される各時点の後にオンラインで生成される動的文法の最終要素の音響モデルに関連している。上記アルゴリズムに関する更なる詳細は、Jelinek, Frederickによる「音声認識のための統計的方法(Statistical Methods for Speech Recognition)」(MTT Press 1999 ISBN 0-262-10066-5 )において見ることができる。
The operation method of the ASR engine 130 that collates the sequence of sounding units in order with the feature vector will be described in more detail. Engine 130 analyzes a series of feature vectors of spoken words received by system 100 using a Viterbi beam search algorithm. The purpose of the engine 130 is to find a series of phonetic units, guided by the grammar network 135 , in which the corresponding Gaussian parameters (Gaussian mixture) of the state sequence are in order that best matches the spoken input speech. Viterbi search is a time-synchronized search algorithm that completely processes time t before proceeding to time t + 1. For time t, each state is updated with the best score from all states at time t-1 (rather than using the sum of all input paths). At the end of the search, the most likely state sequence can be recovered by following these backtracking pointers. Thanks to effective efficiency techniques, it is not necessary to search the entire search space or the entire grid. Instead, only the most probable search state space needs to be searched. A comprehensive HMM set is then created for the system 100. This set is associated with an acoustic model of the final element of the dynamic grammar that is generated online after each time the public vocabulary dictionary is updated. Further details regarding the above algorithm can be found in "Statistical Methods for Speech Recognition" by Jelinek, Frederick (MTT Press 1999 ISBN 0-262-10066-5).

本発明の更なる説明のために、図4は、標準中国語/英語公開語彙辞書110を含む本発明の一実施態様による、記憶したテキストを発音ユニットに変換するための典型的な方法400を要約した一般化フローチャートである。この方法400はまずステップ405で、文字からなる複数の名称を表すテキストを電子装置に記憶させる。ステップ410において、個々の名称が中国語アルファベットの文字からなるのかローマ字アルファベットの文字からなるのかを判定する。その名称を構成する文字が漢字である場合には、ステップ415において、その名称の言語は標準中国語であると特定する。しかしながら、その文字がローマ字アルファベットである場合には、その名称の言語は、その文字が中国語ぴん音である可能性があるので、まだ判定されない。よって、ステップ420において、ぴん音(声調を除く)で表されたすべての中国語名称を基本的に特定する408音節のぴん音辞書を用いて、その文字が中国語ぴん音であるかどうかを判定する。その文字がぴん音であると判定された場合には、方法400は再びステップ415に進んで、その名称の言語が標準中国語であると特定する。そうでない場合には、ステップ425において、その名称の言語は英語であると特定する。 For further explanation of the present invention, FIG. 4 illustrates an exemplary method 400 for converting stored text to a pronunciation unit, according to one embodiment of the present invention including a Mandarin / English public vocabulary dictionary 110. It is the summarized generalized flowchart. In step 405 , the method 400 first stores text representing a plurality of names of characters in an electronic device. In step 410, it is determined whether each name is composed of Chinese alphabet characters or Roman alphabet characters. If the characters constituting the name are kanji, it is specified in step 415 that the language of the name is standard Chinese. However, if the character is a Roman alphabet, the language of the name is not yet determined because the character may be a Chinese pingpong. Thus, in step 420, using a 408 syllable pinyone dictionary that basically identifies all Chinese names represented by pinyongs (excluding tone), it is determined whether the character is a Chinese pinyin. judge. If it is determined that the character is a pop sound, the method 400 proceeds again to step 415 to identify that the language of the name is Mandarin Chinese. Otherwise, at step 425, the language of the name is identified as English.

その言語が標準中国語であるとステップ415において特定された場合には、方法400は引き続きステップ430において、標準中国語文字/音変換器315を用いて、その名称を順序だった一連の発音ユニットに変換する。しかしながら、ステップ425において言語が英語であると特定された場合には、方法400は続いてステップ435において、英語文字/音変換器330を用いて、その名称を順序だった一連の発音ユニットに変換する。次いで、順序だった一連の発音ユニットを公開語彙辞書110に記憶させる。   If the language is determined to be Mandarin Chinese at step 415, the method 400 continues at Step 430 with the standard Chinese character / sound converter 315 using a sequence of phonetic units whose names are ordered. Convert to However, if it is determined in step 425 that the language is English, the method 400 then uses the English character / sound converter 330 to convert the name to an ordered series of pronunciation units in step 435. To do. Next, the sequence of pronunciation units in order is stored in the open vocabulary dictionary 110.

いま、図5は、本発明の好ましい実施態様による、発話された言葉を公開語彙辞書110に記憶された名称と照合する方法500を示す一般化フローチャートである。方法500はまずステップ505において、発話された言葉を電子装置のマイクロフォン120で受信する。この装置は多言語による名称の音声認識のためのシステム100を含んでいる。ステップ510において、その言葉を特徴ベクトルに変換する。次いで、ステップ515において、上記方法に従って、その言葉の特徴ベクトルを、公開語彙辞書110に記憶されている少なくとも一つの名称の順序だった一連の発音ユニットと照合する。   FIG. 5 is a generalized flowchart illustrating a method 500 for matching spoken words with names stored in the open vocabulary dictionary 110 according to a preferred embodiment of the present invention. The method 500 first receives the spoken word at the microphone 120 of the electronic device at step 505. The apparatus includes a system 100 for multilingual name speech recognition. In step 510, the word is converted to a feature vector. Then, in step 515, according to the above method, the feature vector of the word is checked against a series of pronunciation units that are in the order of at least one name stored in the open vocabulary dictionary 110.

図6は、本発明の音声認識システム100を実行することができるパーソナル電子装置の一例を示す概略図である。この例は、本発明の一実施態様による多言語による名称の音声認識のためのシステム100を含む無線電話600の形態の無線通信装置を含んでいる
。電話600は、プロセッサ603と通信するように接続された無線周波数通信ユニット602を備えている。無線電話600はまた、プロセッサ603と通信するように接続されたキーパッド606と表示スクリーン605を備えている。当業者にとって明らかなように、スクリーン605はタッチスクリーンとすることができるので、キーパッド606はオプションとすることができる。
FIG. 6 is a schematic diagram illustrating an example of a personal electronic device that can execute the speech recognition system 100 of the present invention. This example includes a wireless communication device in the form of a wireless telephone 600 that includes a system 100 for multilingual name speech recognition according to one embodiment of the present invention. The phone 600 includes a radio frequency communication unit 602 connected to communicate with the processor 603. The radiotelephone 600 also includes a keypad 606 and a display screen 605 that are connected to communicate with the processor 603. As will be apparent to those skilled in the art, keypad 606 can be optional since screen 605 can be a touch screen.

プロセッサ603は、無線電話600によって送信または受信することができる音声または他の信号をエンコードおよびデコードするためのエンコーダ/デコーダ611とそれに関するデータ記憶用コード読み取り専用メモリ(ROM)612を含んでいる。プロセッサ603はまた、共通データアドレスバス617によってエンコーダ/デコーダ611に接続されたマイクロプロセッサ613と、文字読み取り専用メモリ(ROM)614と、ランダムアクセスメモリ(RAM)604と、プログラム可能スタティックメモリ616と、SIMインターフェース618を含んでいる。プログラム可能スタティックメモリ616と、SIMインターフェース618に動作可能に接続されたSIM(しばしばSIMカードと呼ばれる)とはそれぞれ、とりわけ、選択された入力テキストメッセージと、電話番号用番号フィールドおよび名称フィールド内の番号の一つと関連付けられた識別子のための名称フィールドからなる電話番号データベースTND(またはアドレス/電話帳)とを記憶することができる。例えば、電話番号データベースTND内の一つのエントリは、(番号フィールド内に入力された)91999111111 と、名称フィールド内のそれに関連する識別子「Steven C! at work 」とすることができる。SIMカードとスタティックメモリ616は、無線電話600のパスワード保護機能へのアクセスを可能にするためのパスワードを記憶することもできる。本発明の構成要素、例えば、文字/音変換器105、公開語彙辞書110、混合言語HMMセット115、特徴抽出器125、ASRエンジン130、動的文法ネットワーク135などはすべて、コード読み取り専用メモリ(ROM)612、文字読み取り専用メモリ(ROM)614、ランダムアクセスメモリ(RAM)604、スタティックメモリ616、およびSIMカードの一つまたはそれ以上に、部分的または全体的に格納することができる。マイクロプロセッサ613は、キーパッド606と、スクリーン605と、警報スピーカ、バイブレータモータ、および関連ドライバを一般的に含む警報機615への接続のためのポートを有している。また、マイクロプロセッサ613は、マイクロフォン120と通信スピーカ640への接続のためのポートを有している。文字読み取り専用メモリ614は、通信ユニット602によって受信されるテキストメッセージをデコードまたはエンコードするためのコードを記憶している。この実施態様においては、文字読み取り専用メモリ614はまた、マイクロプロセッサ613のためのオペレーティングコード(OC)と無線電話600に関する機能を実行するためのコードを記憶している。   The processor 603 includes an encoder / decoder 611 and associated data storage code read only memory (ROM) 612 for encoding and decoding voice or other signals that can be transmitted or received by the radiotelephone 600. The processor 603 also includes a microprocessor 613 connected to the encoder / decoder 611 by a common data address bus 617, a character read only memory (ROM) 614, a random access memory (RAM) 604, a programmable static memory 616, A SIM interface 618 is included. The programmable static memory 616 and the SIM operatively connected to the SIM interface 618 (often referred to as a SIM card), respectively, are selected input text messages, numbers in the phone number and name fields, respectively. And a telephone number database TND (or address / phone book) consisting of name fields for identifiers associated with one of the two. For example, one entry in the telephone number database TND can be 91999111111 (entered in the number field) and its associated identifier “Steven C! At work” in the name field. The SIM card and static memory 616 can also store a password to allow access to the password protection function of the wireless telephone 600. All of the components of the present invention, such as the character / sound converter 105, the open vocabulary dictionary 110, the mixed language HMM set 115, the feature extractor 125, the ASR engine 130, the dynamic grammar network 135, etc. are all code read only memory (ROM). ) 612, character read only memory (ROM) 614, random access memory (RAM) 604, static memory 616, and SIM card may be partially or fully stored. The microprocessor 613 has ports for connection to an alarm 615 that typically includes a keypad 606, a screen 605, an alarm speaker, a vibrator motor, and associated drivers. The microprocessor 613 has a port for connection to the microphone 120 and the communication speaker 640. The character read only memory 614 stores a code for decoding or encoding a text message received by the communication unit 602. In this embodiment, the character read only memory 614 also stores an operating code (OC) for the microprocessor 613 and code for performing functions related to the radiotelephone 600.

無線周波数通信ユニット602は、共通アンテナ607を有する組み合わせ送受信機である。通信ユニット602は、無線周波数増幅器609を介してアンテナ607に接続されたトランシーバ608を有している。トランシーバ608はまた、通信ユニット602をプロセッサ603に接続する組み合わせ変調器/復調器610に接続されている。   The radio frequency communication unit 602 is a combination transceiver having a common antenna 607. The communication unit 602 has a transceiver 608 connected to an antenna 607 via a radio frequency amplifier 609. The transceiver 608 is also connected to a combined modulator / demodulator 610 that connects the communication unit 602 to the processor 603.

英語と標準中国語のための本発明の一実施態様の性能例を以下に示す。テストデータベースは、「cancel」と「castle」などのまぎらわしい似通った発音の単語を含み、50個の語彙からなる発話された言葉の特徴ベクトルで構成されている。データベースは、約200人の話者からの9494個の標準中国語の言葉と、25人の話者からの6827個の英語の言葉を含んでいる。これらの言葉は、実世界環境を確立しようとして、オフィス、車、ショッピングモール、街路などの6つの異なる移動環境において録音された。テストの結果は表2に要約されている。単一言語結果は、単一言語音声認識専用システムを用いた認識精度を示している。混合言語結果は、本発明の混合言語音声認識システム100を用いた認識精度を含んでいる。   An example performance of one embodiment of the present invention for English and Mandarin Chinese is shown below. The test database includes words with similar pronunciations such as “cancel” and “castle”, and is composed of feature vectors of spoken words composed of 50 vocabularies. The database contains 9494 Mandarin Chinese words from approximately 200 speakers and 6827 English words from 25 speakers. These words were recorded in six different mobile environments, such as offices, cars, shopping malls, streets, etc., trying to establish a real world environment. The test results are summarized in Table 2. The monolingual result shows the recognition accuracy using the monolingual speech recognition dedicated system. The mixed language result includes the recognition accuracy using the mixed language speech recognition system 100 of the present invention.

Figure 0004468264
Figure 0004468264

従って、本発明は、ユーザーがシステム100の言語モードを手動で切り換える必要のない、多言語の発話された名称を認識することができる改善された音声認識システム100である。従って、それは、例えば、ユーザーが多言語による名称を含む電子アドレス帳を持つことができる多言語環境において有用である。ユーザーが言語モードを切り換える必要がないので、システム100は第1言語のファーストネームと第2言語のセカンドネームとで構成された複合名称さえも認識することができる。また、システム100のメモリと処理要求は、前後関係に依存する構成要素と前後関係に依存しない構成要素を含む組み合わせ音響モデルの使用によって節約することができる。従って、システム100を、制限されたメモリと処理リソースを有する移動電話やPDAなどのパーソナル電子装置上で動作させることができる。   Accordingly, the present invention is an improved speech recognition system 100 that can recognize multilingual spoken names without requiring the user to manually switch the language mode of the system 100. Thus, it is useful, for example, in a multilingual environment where a user can have an electronic address book that includes multilingual names. Since the user does not need to switch language modes, the system 100 can recognize even a composite name composed of a first name in the first language and a second name in the second language. Also, the memory and processing requirements of the system 100 can be saved by using a combined acoustic model that includes components that depend on context and components that do not depend on context. Thus, the system 100 can be operated on a personal electronic device such as a mobile phone or PDA having limited memory and processing resources.

上記詳細な説明は、好ましい典型的な実施態様だけを提供するものであって、本発明の範囲、適用可能性、または構成を制限するものではない。むしろ、この好ましい実施態様の詳細な説明は、当業者に、本発明の好ましい典型的な実施態様を実施するのを可能にする説明を提供する。特許請求の範囲に述べられたような本発明の精神と範囲から逸脱することなしに、要素とステップの機能と配置において種々の変更を行うことができることは明らかである。   The above detailed description provides only preferred exemplary embodiments and is not intended to limit the scope, applicability, or configuration of the invention. Rather, this detailed description of the preferred embodiments provides those skilled in the art with an enabling description for implementing preferred exemplary embodiments of the present invention. Obviously, various modifications may be made in the function and arrangement of elements and steps without departing from the spirit and scope of the invention as set forth in the claims.

本発明の一実施態様による、多言語による名称の音声認識のためのシステムの機能的構成要素を示す概略図。1 is a schematic diagram illustrating functional components of a system for speech recognition of names in multiple languages, according to one embodiment of the present invention. 本発明の実施態様による、二つの異なる言語のいろいろな名称と、それに関する順序だった一連の発音ユニットからなる発音とを示す表。FIG. 4 is a table showing various names of two different languages and pronunciations consisting of a series of pronunciation units in order with respect to them according to an embodiment of the present invention. 本発明の実施態様による文字/音変換器の働きと構成要素を示す概略図。The schematic which shows the operation | movement and component of a character / sound converter by the embodiment of this invention. 標準中国語/英語公開語彙辞書を含む本発明の実施態様による、記憶テキストを発音ユニットに変換するための方法を要約した一般化フローチャート。4 is a generalized flow chart summarizing a method for converting stored text into a pronunciation unit according to an embodiment of the invention including a Mandarin / English public vocabulary dictionary. 本発明の実施態様による、発話された言葉を公開語彙辞書に記憶された名称と照合する方法を示す一般化フローチャート。4 is a generalized flowchart illustrating a method for matching spoken words against names stored in a public vocabulary dictionary according to an embodiment of the present invention. 本発明の実施態様による、音声認識システムを実行することができる無線電話の形態のパーソナル電子装置を示す概略図。1 is a schematic diagram illustrating a personal electronic device in the form of a wireless telephone capable of executing a speech recognition system, according to an embodiment of the present invention.

Claims (7)

音声認識システム(100)を使用して中国語と英語による名称を音声認識する音声認識方法であって、前記音声認識方法は;
音声ではない複数の名称を表す文字テキストを受信し、前記文字テキストを発音ユニットに変換する発音ユニット変換ステップと;
発話された言葉である被発話言語を受信し、前記被発話言語を特徴ベクトルに変換する特徴ベクトル変換ステップと;
前記発音ユニットを前記特徴ベクトルと照合することによって音声認識する照合ステップと;
を含み、
前記発音ユニット変換ステップは;
アルファベット識別器(305)によって、それぞれ前記名称を、中国語アルファベットの文字からなるのか、あるいはローマ字アルファベットの文字からなるのか判定する文字判定ステップ(410)と;
ぴん音識別器(325)によって、前記ローマ字アルファベットの文字を、中国語ぴん音であるか否か判定する中国語ぴん音判定ステップ(420)と;
中国語文字/音変換器(315)によって、前記中国語アルファベットの文字と、前記中国語ぴん音である前記ローマ字アルファベットの文字とを、順序だった一連の発音ユニットに変換する中国語文字/音変換ステップ(430)と;
英語文字/音変換器(330)によって、前記中国語ぴん音ではないと判定された前記ローマ字アルファベットの文字を、前記発音ユニットに変換する英語文字/音変換ステップ(435)と;
を含み、
前記特徴ベクトル変換ステップは;
マイクロフォン(120)によって、前記被発話言葉を受信する被発話言葉受信ステップ(505)と;
前記被発話言葉を特徴ベクトルに変換する変換ステップ(510)と;
を含むことを特徴とする、音声認識方法。
A speech recognition method for recognizing names in Chinese and English using a speech recognition system (100), the speech recognition method comprising:
A pronunciation unit conversion step of receiving character text representing a plurality of names that are not speech and converting the character text into a pronunciation unit;
A feature vector conversion step of receiving a spoken language that is a spoken word and converting the spoken language into a feature vector;
A collating step for recognizing speech by collating the pronunciation unit with the feature vector;
Including
The pronunciation unit conversion step includes:
A character determination step (410) for determining whether each of the names is made up of Chinese alphabet characters or Roman alphabet characters by an alphabet identifier (305) ;
A Chinese sound determination step (420) for determining whether or not the character of the Roman alphabet is a Chinese sound by means of a sound identification device (325);
A Chinese character / sound converter (315) converts the characters of the Chinese alphabet and the characters of the Roman alphabet, which is the Chinese pinto, into an ordered series of pronunciation units. A conversion step (430);
An English character / sound conversion step (435) for converting the characters of the Roman alphabet determined by the English character / sound converter (330) to be not the Chinese pimp into the pronunciation unit;
Including
The feature vector conversion step includes:
A spoken word receiving step (505) for receiving the spoken word by means of a microphone (120) ;
A conversion step (510) for converting said spoken word into a feature vector;
A speech recognition method comprising:
前記照合ステップはさらに;
ガウス混合パラメータを参照して前記特徴ベクトルを前記発音ユニットと比較すること;
ビーム検索ビタービアルゴリズムを使用して検索の最後にバックトラッキングポインタをたどることによって前記特徴ベクトルを解析すること;
を含むことを特徴とする、請求項1記載の音声認識方法。
The matching step further includes:
Comparing the feature vector with the pronunciation unit with reference to a Gaussian mixture parameter;
Analyzing the feature vector by following a backtracking pointer at the end of the search using a beam search Viterbi algorithm;
The speech recognition method according to claim 1, further comprising:
前記音声認識システムはパーソナル電子装置であり、前記名称は、個人の電話番号または他の連絡情報に関連付けられて前記音声認識システム(100)に記憶された電子装置のアドレス帳または連絡リストの一部であって、前記比較ステップにおいて、前記特徴ベクトルと前記発音ユニットが一致している際に、前記パーソナル電子装置が動作する請求項1または2記載の音声認識方法。 The voice recognition system is a personal electronic device, and the name is part of an electronic device address book or contact list stored in the voice recognition system (100) in association with a personal phone number or other contact information. The speech recognition method according to claim 1 , wherein the personal electronic device operates when the feature vector and the pronunciation unit match in the comparison step . 中国語と英語による名称を音声認識する音声認識システム(100)であって、前記音声認識システム(100)は、
音声ではない文字テキストが入力されるキーパッド(606)とタッチスクリーン(605)のうちの少なくとも一方であって、前記文字テキストは複数の名称を表すことと;
それぞれ前記名称を、中国語アルファベットの文字からなるのか、あるいはローマ字アルファベットの文字からなるのか判定するアルファベット識別器(305)と;
前記ローマ字アルファベットの文字を、中国語ぴん音であるか否か判定するぴん音識別器(325)と;
前記中国語アルファベットの文字と、前記中国語ぴん音である前記ローマ字アルファベットの文字とを、順序だった一連の発音ユニットに変換する中国語文字/音変換器(315)と;
前記中国語ぴん音ではないと判定された前記ローマ字アルファベットの文字を、前記発音ユニットに変換する英語文字/音変換器(330)と;
発話された言葉である被発話言語が入力されるマイクロフォン(120)と;
前記被発話言葉を特徴ベクトルに変換する特徴抽出器(125)と;
前記特徴ベクトルを前記発音ユニットと照合する自動音声認識エンジン(130)と
を備えることを特徴とする、音声認識システム(100)。
A speech recognition system (100) for recognizing names in Chinese and English, wherein the speech recognition system (100)
At least one of a keypad (606) and touch screen (605) to which non-speech character text is input, wherein the character text represents a plurality of names;
An alphabet classifier (305) for determining whether each of the names is made up of Chinese alphabet characters or Roman alphabet characters;
A pinyin discriminator (325) for determining whether or not the Roman alphabetic character is a Chinese pinyin;
A Chinese character / sound converter (315) for converting the characters of the Chinese alphabet and the characters of the Roman alphabet, which is the Chinese pimp, into an ordered series of pronunciation units;
An English character / sound converter (330) for converting the characters of the Roman alphabet determined not to be a Chinese pin sound into the pronunciation unit;
A microphone (120) into which the spoken language, which is the spoken word, is input;
A feature extractor (125) for converting the spoken word into a feature vector;
A speech recognition system (100), comprising: an automatic speech recognition engine (130) for collating the feature vector with the pronunciation unit.
前記自動音声認識エンジン(130)は、ガウス混合パラメータを参照して前記特徴ベクトルを前記発音ユニットと比較することによって、前記特徴ベクトルをデコードし、ビーム検索ビタービアルゴリズムを使用して検索の最後にバックトラッキングポインタをたどることによって前記特徴ベクトルを解析することを特徴とする、請求項4記載の音声認識システム(100)。 The automatic speech recognition engine (130) decodes the feature vector by comparing the feature vector with the pronunciation unit with reference to a Gaussian mixture parameter, and uses a beam search Viterbi algorithm at the end of the search. The speech recognition system (100) of claim 4, wherein the feature vector is analyzed by following a backtracking pointer . 前記自動音声認識エンジン(130)は更に、
前記発音ユニットを記憶している公開語彙辞書(110)と;
中国語と英語それぞれの選択音声パターンを表す前記ガウス混合パラメータを含む隠れマルコフモデルセット(115)と
を含み、
前記中国語の選択音声パターンは、前記発音ユニットの前後関係に依存し、
前記英語の選択音声パターンは、前記発音ユニットの前後関係には依存しない、請求項4または5記載の音声認識システム(100)
The automatic speech recognition engine (130) further includes
A public vocabulary dictionary (110) storing the pronunciation units;
A hidden Markov model set (115) including the Gaussian mixture parameters representing selected speech patterns of Chinese and English respectively;
Including
The selected Chinese voice pattern depends on the context of the pronunciation unit,
The speech recognition system (100) according to claim 4 or 5, wherein the English selected speech pattern does not depend on the context of the pronunciation units.
前記音声認識システムは、携帯電話または携帯情報端末といったパーソナル電子装置である、請求項4〜6いずれか1項記載の音声認識システム(600)The voice recognition system (600) according to any one of claims 4 to 6 , wherein the voice recognition system is a personal electronic device such as a mobile phone or a portable information terminal.
JP2005228583A 2004-08-06 2005-08-05 Methods and systems for multilingual name speech recognition Active JP4468264B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200410056515A CN100592385C (en) 2004-08-06 2004-08-06 Method and system for performing speech recognition on multi-language name

Publications (2)

Publication Number Publication Date
JP2006048058A JP2006048058A (en) 2006-02-16
JP4468264B2 true JP4468264B2 (en) 2010-05-26

Family

ID=35963852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005228583A Active JP4468264B2 (en) 2004-08-06 2005-08-05 Methods and systems for multilingual name speech recognition

Country Status (4)

Country Link
JP (1) JP4468264B2 (en)
KR (1) KR100769029B1 (en)
CN (1) CN100592385C (en)
SG (1) SG119358A1 (en)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5343744B2 (en) * 2009-07-24 2013-11-13 富士通株式会社 Speech translation apparatus and speech translation method
JP2011033874A (en) * 2009-08-03 2011-02-17 Alpine Electronics Inc Device for multilingual voice recognition, multilingual voice recognition dictionary creation method
KR101250897B1 (en) * 2009-08-14 2013-04-04 한국전자통신연구원 Apparatus for word entry searching in a portable electronic dictionary and method thereof
CN101826325B (en) * 2010-03-10 2012-04-18 华为终端有限公司 Method and device for identifying Chinese and English speech signal
US10134385B2 (en) * 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
CN102780653B (en) * 2012-08-09 2016-03-09 上海量明科技发展有限公司 Quick method, client and the system communicated in instant messaging
CN103853779A (en) * 2012-12-04 2014-06-11 联想(北京)有限公司 Information processing method and electronic equipment
CN103928024B (en) * 2013-01-14 2017-11-28 联想(北京)有限公司 A kind of voice inquiry method and electronic equipment
KR101579533B1 (en) 2014-10-16 2015-12-22 현대자동차주식회사 Vehicle and controlling method for the same
CN104900235B (en) * 2015-05-25 2019-05-28 重庆大学 Method for recognizing sound-groove based on pitch period composite character parameter
KR101664080B1 (en) * 2015-07-28 2016-10-10 현대자동차 주식회사 Voice dialing system and method thereof
CN105095509B (en) * 2015-09-06 2019-01-25 百度在线网络技术(北京)有限公司 Voice search method and device
CN106935239A (en) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 The construction method and device of a kind of pronunciation dictionary
CN106856091A (en) * 2016-12-21 2017-06-16 北京智能管家科技有限公司 The automatic broadcasting method and system of a kind of multi-language text
DE102017200976B4 (en) * 2017-01-23 2018-08-23 Audi Ag Method for operating a motor vehicle with an operating device
CN109192202B (en) * 2018-09-21 2023-05-16 平安科技(深圳)有限公司 Voice safety recognition method, device, computer equipment and storage medium
CN112397051B (en) * 2019-08-16 2024-02-02 武汉Tcl集团工业研究院有限公司 Voice recognition method and device and terminal equipment
CN110808034A (en) * 2019-10-31 2020-02-18 北京大米科技有限公司 Voice conversion method, device, storage medium and electronic equipment
CN112153206B (en) * 2020-09-23 2022-08-09 阿波罗智联(北京)科技有限公司 Contact person matching method and device, electronic equipment and storage medium
CN112652311B (en) * 2020-12-01 2021-09-03 北京百度网讯科技有限公司 Chinese and English mixed speech recognition method and device, electronic equipment and storage medium
CN112669841B (en) * 2020-12-18 2024-07-02 平安科技(深圳)有限公司 Training method and device for generating model of multilingual voice and computer equipment
CN113536776B (en) * 2021-06-22 2024-06-14 深圳价值在线信息科技股份有限公司 Method for generating confusion statement, terminal device and computer readable storage medium

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0136425B1 (en) * 1995-01-26 1998-05-15 조백제 Korean continuous voice recognition device and method using dependent grammar as backward language model and automatic translating system using it
CA2185262C (en) * 1995-09-12 2006-08-29 Michele B. Gammel Method and system for enrolling addresses in a speech recognition database
JP3447521B2 (en) * 1997-08-25 2003-09-16 Necエレクトロニクス株式会社 Voice recognition dial device
US6314165B1 (en) * 1998-04-30 2001-11-06 Matsushita Electric Industrial Co., Ltd. Automated hotel attendant using speech recognition
JP2000047684A (en) * 1998-07-28 2000-02-18 Nec Corp Voice recognizing method and voice service device
JP4053151B2 (en) * 1998-09-01 2008-02-27 富士通株式会社 Release alarm system
US6502075B1 (en) * 1999-03-26 2002-12-31 Koninklijke Philips Electronics, N.V. Auto attendant having natural names database library
JP2000352990A (en) * 1999-06-14 2000-12-19 Nippon Telegr & Teleph Corp <Ntt> Foreign language voice synthesis apparatus
JP2001085233A (en) * 1999-09-10 2001-03-30 Concorde Denshi Kogyo:Kk Semi-closed magnetic path inductor and its manufacture
JP3539548B2 (en) * 1999-09-20 2004-07-07 Jfeスチール株式会社 Manufacturing method of high tensile hot rolled steel sheet for processing
KR100423460B1 (en) * 2001-07-19 2004-03-18 한국전자통신연구원 A system and method of recognizing voice having subject word-recognition function
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models

Also Published As

Publication number Publication date
KR20060050277A (en) 2006-05-19
SG119358A1 (en) 2006-02-28
JP2006048058A (en) 2006-02-16
CN1731511A (en) 2006-02-08
CN100592385C (en) 2010-02-24
KR100769029B1 (en) 2007-10-22

Similar Documents

Publication Publication Date Title
JP4468264B2 (en) Methods and systems for multilingual name speech recognition
KR100679042B1 (en) Method and apparatus for speech recognition, and navigation system using for the same
JP3962763B2 (en) Dialogue support device
JP5480760B2 (en) Terminal device, voice recognition method and voice recognition program
KR101109265B1 (en) Method for entering text
US20050049870A1 (en) Open vocabulary speech recognition
JP2007500367A (en) Voice recognition method and communication device
JP5703491B2 (en) Language model / speech recognition dictionary creation device and information processing device using language model / speech recognition dictionary created thereby
JPH11119791A (en) System and method for voice feeling recognition
JP2007538278A (en) Speech recognition system
JP2003308090A (en) Device, method and program for recognizing speech
CN111916062B (en) Voice recognition method, device and system
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP2002116793A (en) Data input system and method
US20080270128A1 (en) Text Input System and Method Based on Voice Recognition
KR102069697B1 (en) Apparatus and method for automatic interpretation
JP4230142B2 (en) Hybrid oriental character recognition technology using keypad / speech in adverse environment
KR101250897B1 (en) Apparatus for word entry searching in a portable electronic dictionary and method thereof
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
JP2004170466A (en) Voice recognition method and electronic device
JP2003108551A (en) Portable machine translation device, translation method and translation program
KR20030010979A (en) Continuous speech recognization method utilizing meaning-word-based model and the apparatus
JP2002073081A (en) Voice recognition method and electronic equipment
KR100777569B1 (en) The speech recognition method and apparatus using multimodal
JP2000056796A (en) Speech input device and method therefor

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090427

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100224

R150 Certificate of patent or registration of utility model

Ref document number: 4468264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250