JP4942860B2 - Recognition dictionary creation device, speech recognition device, and speech synthesis device - Google Patents
Recognition dictionary creation device, speech recognition device, and speech synthesis device Download PDFInfo
- Publication number
- JP4942860B2 JP4942860B2 JP2011550720A JP2011550720A JP4942860B2 JP 4942860 B2 JP4942860 B2 JP 4942860B2 JP 2011550720 A JP2011550720 A JP 2011550720A JP 2011550720 A JP2011550720 A JP 2011550720A JP 4942860 B2 JP4942860 B2 JP 4942860B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- unit
- language
- phoneme label
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title description 13
- 238000003786 synthesis reaction Methods 0.000 title description 12
- 238000013507 mapping Methods 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 17
- 238000013506 data mapping Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 230000005477 standard model Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- C—CHEMISTRY; METALLURGY
- C01—INORGANIC CHEMISTRY
- C01G—COMPOUNDS CONTAINING METALS NOT COVERED BY SUBCLASSES C01D OR C01F
- C01G41/00—Compounds of tungsten
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- C—CHEMISTRY; METALLURGY
- C01—INORGANIC CHEMISTRY
- C01P—INDEXING SCHEME RELATING TO STRUCTURAL AND PHYSICAL ASPECTS OF SOLID INORGANIC COMPOUNDS
- C01P2006/00—Physical properties of inorganic compounds
- C01P2006/80—Compositional purity
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Artificial Intelligence (AREA)
- Inorganic Chemistry (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
この発明は、ユーザが発話した音声によって音声認識用辞書に語彙登録を行う認識辞書作成装置、これを用いた音声認識装置及び音声合成装置に関するものである。 The present invention relates to a recognition dictionary creation device for registering vocabulary in a speech recognition dictionary using speech uttered by a user, a speech recognition device and a speech synthesis device using the recognition dictionary creation device.
音声認識を適用するアプリケーションによっては、ユーザが発話した音声を登録して認識対象語として使う場合がある。以降では、この動作をユーザ辞書の生成と称する。音声によるユーザ辞書の生成例としては、ラジオの周波数に対応したラジオ局名を音声で登録したり、電話番号に対応した人名や場所名を音声で登録したりする場合がある。 Depending on the application to which speech recognition is applied, the speech uttered by the user may be registered and used as a recognition target word. Hereinafter, this operation is referred to as user dictionary generation. As an example of generating a user dictionary by voice, a radio station name corresponding to a radio frequency may be registered by voice, or a person name or a place name corresponding to a telephone number may be registered by voice.
また、カーナビゲーションシステムや携帯端末等、複数の国をまたがって使用され得る機器に搭載される音声認識では、言語の切り替え機能が求められる。
関連する従来技術として、例えば、特許文献1には、電子辞書の使用言語を切り替えるにあたり、ユーザが発話した音声を音声認識して得られた文字データと装置内に記憶されている単語とを照合することにより、ユーザが使いたい言語を決定する使用言語切り替え方法が開示されている。In addition, a language switching function is required for speech recognition installed in devices that can be used across multiple countries, such as car navigation systems and portable terminals.
As a related art, for example, in Patent Document 1, when switching the language used in an electronic dictionary, character data obtained by voice recognition of a voice spoken by a user is collated with a word stored in the apparatus. Thus, there is disclosed a method of switching the language used to determine the language that the user wants to use.
一般的には、言語ごとに音声データを収集し、収集された音声データを用いて構築した音声認識アルゴリズムや音声標準モデルを使って、ユーザが発話した音声が認識される。このため、言語を切り替えた場合には、音声認識手段そのものや音声標準モデルを切り替える必要がある。
従来では、一般的に知られている音声認識の技術を用いて、言語ごとに、ユーザが発生した音声を最も良く表現する音素のラベル列を生成し、ユーザ辞書として保存することにより、音声認識で使う言語を切り替えても、ユーザが発生した音声を音声認識可能とした音声認識装置も提案されている。In general, voice data is collected for each language, and a voice uttered by a user is recognized using a voice recognition algorithm or a voice standard model constructed using the collected voice data. For this reason, when the language is switched, it is necessary to switch the voice recognition means itself or the voice standard model.
Conventionally, by using generally known speech recognition technology, for each language, a phoneme label string that best represents the speech generated by the user is generated and stored as a user dictionary. There has also been proposed a voice recognition device that can recognize a voice generated by a user even when a language used in the system is switched.
しかしながら、言語変更の度に音素ラベル列を作成する場合には、発話音声をメモリに保存して処理を行うため、発話音声の保存領域を確保できる大容量のメモリが必要であるという課題があった。
また、発生音声をメモリに保存できない場合には、想定される全ての言語について音素ラベル列をそれぞれ作成しておかなければならないが、単一の言語の音素ラベル列を作成する場合であっても多大な時間を要するため、想定される全ての言語について必要な処理時間は膨大なものとなる。この他に、全ての言語分の音素ラベル列を保存可能な大容量のメモリも必要である。However, when a phoneme label string is created each time the language is changed, the speech is stored in the memory for processing, and thus there is a problem that a large-capacity memory that can secure a storage area for the speech is required. It was.
In addition, if the generated speech cannot be stored in the memory, it is necessary to create a phoneme label sequence for all possible languages, but even when creating a phoneme label sequence for a single language. Since a great deal of time is required, the processing time required for all possible languages is enormous. In addition to this, a large-capacity memory capable of storing phoneme label strings for all languages is also required.
この発明は、上記のような課題を解決するためになされたもので、発話音声を保存する大容量のメモリが不要であり、かつ全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができる認識辞書作成装置、これを用いた音声認識装置及び音声合成装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and does not require a large-capacity memory for storing speech speech, and it is not necessary to create a phoneme label string in advance for all languages. An object of the present invention is to obtain a recognition dictionary creation device capable of shortening the creation time of each phoneme label string, and a speech recognition device and speech synthesis device using the recognition dictionary creation device.
この発明に係る認識辞書作成装置は、入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、音響分析部から入力した入力音声の音響特徴の時系列と、音響標準パタン記憶部に記憶された音響標準パタンとを照合して入力音声の音素ラベル列を作成する音響データマッチング部と、音響データマッチング部により作成された入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、言語を切り替える言語切り替え部と、言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、言語記憶部に記憶した言語の音素レベル列から、言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えるものである。 The recognition dictionary creation apparatus according to the present invention includes an acoustic analysis unit that acoustically analyzes a speech signal of an input speech and outputs a time series of acoustic features, and an acoustic standard that stores acoustic standard patterns indicating standard acoustic features for each language. Acoustic data matching that creates a phoneme label string of input speech by collating the time series of the acoustic features of the input speech input from the pattern storage unit and the acoustic analysis unit with the acoustic standard pattern stored in the acoustic standard pattern storage unit A user dictionary storing a user dictionary in which the phoneme label sequence of the input speech created by the acoustic data matching unit is registered, a language storage unit storing the language of the phoneme label sequence registered in the user dictionary, A language switching unit for switching languages, a mapping table storage unit for storing a mapping table in which correspondence between phoneme labels between languages is defined, and mapping The phoneme label sequence registered in the user dictionary is converted from the phoneme level sequence stored in the language storage unit to the phoneme label sequence of the language switched by the language switching unit with reference to the mapping table stored in the table storage unit. A phoneme label string conversion unit.
この発明によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定されたマッピングテーブルとを備え、マッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、ユーザ辞書を作成したときの言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように言語が切り替わっても、マッピングテーブルを参照して高速に登録語彙を、切り替え後の言語用に変換することができるため、発話音声を保存する大容量のメモリが不要であり、かつ全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができるという効果がある。According to the present invention, a user dictionary in which a phoneme label sequence of input speech is registered, and a mapping table in which a correspondence relationship between phoneme labels between languages is defined, and the phonemes registered in the user dictionary with reference to the mapping table are provided. The label string is converted from the phoneme label string in the language when the user dictionary is created into the phoneme label string in the language after switching.
Even if the language is switched in this way, the registered vocabulary can be quickly converted to the language after switching by referring to the mapping table, so that a large-capacity memory for storing the speech is not necessary, and all There is no need to create a phoneme label string in advance for each language, and the time for creating a phoneme label string for each language can be shortened.
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による認識辞書作成装置の構成を示すブロック図である。図1において、実施の形態1の認識辞書作成装置1は、マイク2a、音声取り込み部2、音響分析部3、言語ごとの音響標準パタン4、音響データマッチング部5、ユーザ辞書登録部(ユーザ辞書記憶部)6、ユーザ辞書作成時言語記憶部(言語記憶部)7、言語切り替え部8、音素ラベル列変換部9及び言語間音響データマッピングテーブル保存部(マッピングテーブル記憶部)10を備える。Hereinafter, in order to explain the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a configuration of a recognition dictionary creation apparatus according to Embodiment 1 of the present invention. In FIG. 1, a recognition dictionary creating apparatus 1 according to Embodiment 1 includes a
音声取り込み部2は、マイク2aで取り込まれた音声をデジタル信号に変換する構成部である。音響分析部3は、音声取り込み部2でデジタル信号化された音声信号を分析して音響特徴の時系列に変換する構成部である。例えば、音声信号を一定の時間間隔で分析して、音声の特徴を表す音響特徴量(音響特徴量ベクトル)を計算する。
The
音響標準パタン4は、言語X(X=1,2,3,・・・)の各音素ラベル列にそれぞれ対応する標準の音響特徴(音声の断片について音響特徴量の性質を表す標準モデル)であり、例えば音素を単位としてHMM(隠れマルコフモデル)等によりモデル化したものである。音響データマッチング部5は、音響分析部3によって得られた入力音声の音響特徴の時系列と言語Xの音響標準パタン4とを照合して、音響標準パタン4を構成する標準の音響特徴に対応した音素ラベル列から、入力音声に最も類似する音素ラベル列を作成する構成部である。
The acoustic
ユーザ辞書登録部6は、ユーザ辞書を有する構成部であり、音響データマッチング部5によって作成された入力音声の音素ラベル列をユーザ辞書に格納する。ユーザ辞書作成時言語記憶部7は、ユーザ辞書を作成した際に、音声認識の言語として設定されていた設定言語を記憶する記憶部である。言語切り替え部8は、音声認識の言語として使用する設定言語を切り替える構成部である。
The user
音素ラベル列変換部9は、言語間音響データマッピングテーブルを用いて、ユーザ辞書に登録された際の言語で表現された音素ラベル列を、言語切り替え部8により変更された言語の音素ラベル列へ変換する構成部である。言語間音響データマッピングテーブル保存部10は、互いに異なる言語の対とこれら言語の各音素ラベルとの対応関係を示す言語間音響データマッピングテーブルを記憶する記憶部である。
The phoneme label
なお、一方の言語では他方の言語の音素ラベルを表現できない場合、当該他方の言語で表現し得る音素ラベルのうち、類似した音素ラベルを対応付ける。例えば、日本語では、英語の音素ラベル/l/を表現できない。そこで、日本語と英語における言語間音響データマッピングテーブルには、英語の音素ラベル/l/に発音が類似した日本語の音素ラベル/r/を対応させる。 If one language cannot express the phoneme label of the other language, a similar phoneme label is associated among the phoneme labels that can be expressed in the other language. For example, Japanese phoneme label / l / cannot be expressed in Japanese. Therefore, the Japanese phoneme label / r / whose pronunciation is similar to the English phoneme label / l / is associated with the inter-language acoustic data mapping table in Japanese and English.
また、音声取り込み部2、音響分析部3、音響標準パタン4、音響データマッチング部5、ユーザ辞書登録部6、ユーザ辞書作成時言語記憶部7、言語切り替え部8、音素ラベル列変換部9及び言語間音響データマッピングテーブル保存部10は、この発明の趣旨に従う認識辞書作成プログラムをコンピュータに記憶し、CPUに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。さらに、音響標準パタン4、ユーザ辞書登録部6、ユーザ辞書作成時言語記憶部7及び言語間音響データマッピングテーブル保存部10で用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
Also, a
次に動作について説明する。
図2は、実施の形態1の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。
ユーザが、入力装置を用いてユーザ辞書作成開始を指示してから(ステップST1)、登録しようとしている語彙を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2)。Next, the operation will be described.
FIG. 2 is a flowchart showing the flow of the user dictionary registration operation by the recognition dictionary creating apparatus of the first embodiment.
After the user gives an instruction to start creating a user dictionary using the input device (step ST1), the user speaks the vocabulary to be registered. For example, it is assumed that the personal name “Michael” is spoken. The
続いて、ユーザ辞書作成時言語記憶部7が、音響データマッチング部5に現在設定されている、ユーザ辞書登録時の設定言語を確認し(ステップST3)、自身に登録する(ステップST4)。なお、設定言語は、認識辞書作成装置1を用いた音声認識装置や音声合成装置において、音声認識や音声合成の対象となる言語として予め設定されている言語である。図2の例では、英語を設定言語としている。音響分析部3は、ステップST2で音声取り込み部2から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する(ステップST5)。
Subsequently, the user dictionary creation language storage unit 7 checks the language currently set in the acoustic
音響データマッチング部5は、自身に設定されている言語(設定言語)に対応する音響標準パタン4を読み出し、この設定言語の音響標準パタン4と、音響分析部3で得られた入力音声の音響特徴の時系列とを照合して、音響標準パタン4を構成する標準の音響特徴に対応した音素ラベル列から、入力音声の音響特徴の時系列に最も類似した当該入力音声を表す最適な音素ラベル列を作成する(ステップST6)。例えば、入力音声が「Michael」であり、設定言語が英語の場合は、図2に示すように「#,/m/,/a/,/i/,/k/,/l/,#」という音素ラベル列が得られる。
The acoustic
ユーザ辞書登録部6は、音響データマッチング部5により作成された入力音声の音素ラベル列を、ユーザ辞書に登録する(ステップST7)。これにより、設定言語の登録語彙テキストに対応した音素ラベル列が登録されたユーザ辞書が作成される。
The user
次に設定言語を切り替えた場合における動作について説明する。
図3は、実施の形態1の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートであり、図2で示したユーザ辞書登録が実行された後に言語が切り替えられた場合を示している。
例えば、ユーザが、入力装置を用いて言語切り替え部8に新たな言語を指定することにより、言語切り替え部8が、切り替え後の言語を音素ラベル列変換部9に設定する(ステップST1a)。ここでは、日本語に切り替えられたものとする。
音素ラベル列変換部9は、ユーザ辞書作成時言語記憶部7に記憶された言語を読み出して、ユーザ辞書の登録時における設定言語を確認する(ステップST2a)。上述したように、図2では、ユーザ辞書登録時の設定言語は英語である。Next, the operation when the set language is switched will be described.
FIG. 3 is a flowchart showing the flow of user dictionary registration operation after language switching by the recognition dictionary creation apparatus of the first embodiment, and shows a case where the language is switched after the user dictionary registration shown in FIG. 2 is executed. Show.
For example, when the user designates a new language in the
The phoneme label
続いて、音素ラベル列変換部9は、ステップST2aで確認したユーザ辞書の登録時における設定言語と言語切り替え部8から指定された切り替え後の言語とを用いて、言語間音響データマッピングテーブル保存部10を検索して、ユーザ辞書の登録時における設定言語と切り替え後の言語に対応する言語間音響データマッピングテーブルを読み込む。
Subsequently, the phoneme label
言語間音響データマッピングテーブルは、図3に示すように、英語の音素ラベルと日本語の音素ラベルとの対応関係を示すテーブルデータである。例えば、図3において、英語の音素ラベルのうち、符号Aで示す発音が類似する3つの異なる音素ラベルは、日本語で表現できないものを含んでいる。この場合は、日本語の音素ラベルのうち、符号Aで示す音素ラベルの発音に類似した1つの音素ラベル(/a/)を対応付ける。また、日本語では、英語の音素ラベル/l/を表現できないので、英語の音素ラベル/l/に発音が類似した日本語の音素ラベル/r/を対応付ける。 As shown in FIG. 3, the inter-language acoustic data mapping table is table data indicating the correspondence between English phoneme labels and Japanese phoneme labels. For example, in FIG. 3, among the phoneme labels in English, three different phoneme labels with similar pronunciations indicated by the symbol A include those that cannot be expressed in Japanese. In this case, of the Japanese phoneme labels, one phoneme label (/ a /) similar to the pronunciation of the phoneme label indicated by symbol A is associated. Also, since the Japanese phoneme label / l / cannot be expressed in Japanese, the Japanese phoneme label / r / whose pronunciation is similar to the English phoneme label / l / is associated.
音素ラベル列変換部9は、言語間音響データマッピングテーブル保存部10から読み込んだ言語間音響データマッピングテーブルに基づいて、ユーザ辞書に登録されている音素ラベル列を、切り替え後の言語の音素ラベル列に変換する(ステップST3a)。
例えば、図3に示すように、「Michael」という英語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/l/,#」が、英語と日本語の言語間音響データマッピングテーブルにおける対応関係に基づいて、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に変換される。
なお、言語間音響データマッピングテーブルの作成方法に関して、例えば下記の参考文献1に開示されている。
(参考文献1);特開2007−155833号公報The phoneme label
For example, as shown in FIG. 3, “#, / m /, / a /, / i /, / k /, / l /, #”, which is an English phoneme label string “Michael”, is English and Japanese. Based on the correspondence relationship in the inter-language acoustic data mapping table of words, it is converted into “#, / m /, / a /, / i /, / k /, / r /, #” which is a Japanese phoneme label string. Is done.
The method for creating the inter-language acoustic data mapping table is disclosed, for example, in Reference Document 1 below.
(Reference Document 1); Japanese Unexamined Patent Application Publication No. 2007-155833
ユーザ辞書登録部6は、ステップST3aで音素ラベル列変換部9により変換された音素ラベル列を、ユーザ辞書に再格納する(ステップST4a)。図3では、登録語彙が「Michael」であって、切り替え後の言語が日本語であるので、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」が1つの登録語として格納される。
The user
以上のように、この実施の形態1によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定された言語間音響データマッピングテーブルとを備え、言語間音響データマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、ユーザ辞書を作成したときの言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように構成することにより、ユーザ辞書の登録時から設定言語が変更された場合であっても、言語間音響データマッピングテーブルに基づいて音素ラベル列を変換するだけで、変更後の言語のユーザ辞書を作成でき、対応言語の音素ラベル列を作成する処理時間を格段に短縮することが可能である。
また、言語を変更する度に音素ラベル列を作成する場合であっても発話音声を保存する必要がなく、ユーザ辞書登録時の音素ラベル列のみを保存して、想定される全ての言語について音素ラベルを予め作成しておく必要もない。これにより、大容量のメモリも不要である。As described above, according to the first embodiment, the user dictionary in which the phoneme label sequence of the input speech is registered, and the inter-language acoustic data mapping table in which the correspondence of phoneme labels between languages is defined, With reference to the inter-acoustic data mapping table, the phoneme label string registered in the user dictionary is converted from the phoneme label string in the language when the user dictionary is created into the phoneme label string in the language after switching.
By configuring in this way, even if the set language is changed from the time of registration of the user dictionary, it is possible to convert the phoneme label string based on the inter-language acoustic data mapping table and to change the language user after the change. A dictionary can be created, and the processing time for creating a phoneme label string of a corresponding language can be significantly reduced.
Also, even if a phoneme label string is created every time the language is changed, it is not necessary to save the utterance speech, only the phoneme label string at the time of registering the user dictionary is saved, and the phonemes for all assumed languages are saved. There is no need to prepare labels in advance. This eliminates the need for a large-capacity memory.
実施の形態2.
図4は、この発明の実施の形態2による音声認識装置の構成を示すブロック図であり、上記実施の形態1による認識辞書作成装置を用いた音声認識装置を示している。図4において、実施の形態2による音声認識装置1Aは、上記実施の形態1で示した認識辞書作成装置1の構成に加え、辞書照合部11、言語ごとの音響標準パタンで表現される一般辞書12及び認識結果出力部13を備える。なお、図4において、図1と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。
FIG. 4 is a block diagram showing a configuration of a speech recognition apparatus according to
辞書照合部11は、入力音声の音素ラベル列と、設定言語の音響標準パタンで表現される一般辞書12の語彙と、ユーザ辞書登録部6のユーザ辞書に登録されている語彙を照合して、一般辞書12及びユーザ辞書の語彙のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する構成部である。一般辞書12は、言語X(X=1,2,3,・・・)の音響標準パタンで表現される辞書であり、その言語の地名などの大語彙(音素ラベル列)が登録される。認識結果出力部13は、音声認識結果を出力する構成部であり、辞書照合部11による照合の結果として得られた入力音声の音素ラベル列に最も類似する語彙を出力する。
The
また、辞書照合部11、言語ごとの音響標準パタンで表現される一般辞書12及び認識結果出力部13は、この発明の趣旨に従う音声認識プログラムをコンピュータに記憶し、CPUに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。さらに、音響標準パタン4や一般辞書12に用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
In addition, the
次に動作について説明する。
図5は、実施の形態2の音声認識装置による動作の流れを示すフローチャートである。
ユーザが、入力装置を用いて音声認識開始を指示してから(ステップST1b)、音声認識の対象となる音声を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2b)。音響分析部3は、ステップST2bで音声取り込み部2から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する。Next, the operation will be described.
FIG. 5 is a flowchart showing a flow of operations performed by the speech recognition apparatus according to the second embodiment.
After the user instructs the start of voice recognition using the input device (step ST1b), the user utters the voice that is the target of voice recognition. For example, it is assumed that the personal name “Michael” is spoken. The
音響データマッチング部5は、ユーザ辞書作成時言語記憶部7に記憶された言語を読み出して、ユーザ辞書の登録時における設定言語を確認する(ステップST3b)。図5では、ユーザ辞書登録時の設定言語は日本語であったものとする。
続いて、音響データマッチング部5は、音響分析部3から取り込んだ入力音声の音響特徴の時系列と、設定言語の音響標準パタン4から、当該入力音声について設定言語の音素ラベル列を作成する(ステップST4b)。例えば、入力音声が「Michael」であり、設定言語が日本語である場合、日本語の音響標準パタンで表現された音素ラベル列として「#,/m/,/a/,/i/,/k/,/r/,#」が得られる。The acoustic
Subsequently, the acoustic
次に、辞書照合部11は、音響データマッチング部5により作成された入力音声の音素ラベル列と、設定言語の音響標準パタン4で表現される一般辞書12の語彙と、ユーザ辞書登録部6のユーザ辞書に登録されている語彙を照合し、一般辞書12及びユーザ辞書の語彙のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する(ステップST5b)。認識結果出力部13は、辞書照合部11による照合の結果として得られた入力音声の音素ラベル列に最も類似する語彙を出力する(ステップST6b)。
Next, the
図5に示すように、設定言語(ここでは、日本語)の音響標準パタンで表現される一般辞書12には、地名等の大語彙が音素ラベル列として登録されている。また、ユーザ辞書には、上記実施の形態1で示したように、ユーザの発話により任意の語彙が音素ラベル列として登録されている。ここで、ユーザ辞書の登録語1として「#,/m/,/a/,/i/,/k/,/r/,#」が登録されている場合、辞書照合部11が、入力音声の音素ラベル列に最も類似する語彙として登録語1を特定し、認識結果出力部13が、登録語1を認識結果として出力する。
As shown in FIG. 5, a large vocabulary such as a place name is registered as a phoneme label string in the
以上のように、この実施の形態2によれば、上記実施の形態1の認識辞書作成装置の構成に加え、一般辞書12を記憶する一般辞書記憶部と、音響データマッチング部5により作成された入力音声の音素ラベル列と、一般辞書12と、ユーザ辞書とを照合して、一般辞書12及びユーザ辞書のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部11と、辞書照合部11によって特定された語彙を、音声認識結果として出力する認識結果出力部13とを備えたので、上記実施の形態1の効果に加えて、ユーザ辞書を用いた音声認識を行う音声認識装置1Aを提供することができる。
As described above, according to the second embodiment, in addition to the configuration of the recognition dictionary creating apparatus of the first embodiment, the general dictionary storage unit that stores the
実施の形態3.
図6は、この発明の実施の形態3による音声合成装置の構成を示すブロック図であり、上記実施の形態1による認識辞書作成装置を用いた音声合成装置を示している。図6において、実施の形態3による音声合成装置1Bは、上記実施の形態1で示した認識辞書作成装置1の構成と、上記実施の形態2で示した言語ごとの音響標準パタンで表現される一般辞書12に加え、テキスト入力部14、登録語部分検出部15、登録語部分音素ラベル列置き換え部(登録語彙置換部)16、その他の部分の音素ラベル列置き換え部(一般辞書置換部)17及び音声合成部18を備える。なお、図6において、図1及び図4と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。
FIG. 6 is a block diagram showing a configuration of a speech synthesizer according to
テキスト入力部14は、音声に変換するテキストを入力する構成部である。登録語部分検出部15は、テキスト入力部14から取り込んだ入力テキストから、ユーザ辞書に登録された登録語を検出する構成部である。登録語部分音素ラベル列置き換え部16は、登録語部分検出部15により検出された登録語を、ユーザ辞書から取り込んだ音素ラベル列に置き換える構成部である。その他の部分の音素ラベル列置き換え部17は、登録語部分音素ラベル列置き換え部16を介して、登録語部分検出部15により検出された登録語以外の入力テキスト部分を入力する構成部であり、登録語以外の入力テキスト部分の語を、設定言語の音響標準パタンで表現された一般辞書12から取り込んだ音素ラベル列に置き換える。音声合成部18は、音素ラベル列置き換え部16,17により得られた入力テキストについての音素ラベル列から、当該入力テキストの合成音声を生成する構成部である。
The
なお、テキスト入力部14、登録語部分検出部15、登録語部分音素ラベル列置き換え部16、その他の部分の音素ラベル列置き換え部17及び音声合成部18は、この発明の趣旨に従う音声合成プログラムをコンピュータに記憶し、CPUに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。さらに、音響標準パタン4や一般辞書12に用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
Note that the
次に動作について説明する。
図7は、実施の形態3の音声合成装置による動作の流れを示すフローチャートである。
ユーザが、テキスト入力部14を用いて、音声に変換したいテキストを入力する(ステップST1c)。このとき、ユーザ辞書の登録語を識別する識別子を設定する。例えば、図7に示すように、ユーザ辞書の登録語1をテキスト入力する場合、登録語の識別子である二重括弧を登録語1の前後に設定する。Next, the operation will be described.
FIG. 7 is a flowchart showing a flow of operations performed by the speech synthesizer according to the third embodiment.
The user uses the
登録語部分検出部15は、テキスト入力部14から入力テキストを取り込み、入力テキストに設定された登録語の識別子を用いて登録語を検出する(ステップST2c)。図7の例では、二重括弧が前後に設定された登録語1が検出される。
次に、登録語部分音素ラベル列置き換え部16は、登録語部分検出部15によって検出された登録語を、ユーザ辞書から取り込んだ音素ラベル列に置き換える(ステップST3c)。これにより、登録語1が、対応する音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に置換される。The registered word
Next, the registered word partial phoneme label
その他の部分の音素ラベル列置き換え部17は、登録語部分音素ラベル列置き換え部16を介して、入力テキストにおける、登録語部分検出部15により検出された登録語以外の部分を入力し、登録語以外の入力テキスト部分の語を、設定言語の一般辞書12から取り込んだ音素ラベル列に置き換える(ステップST4c)。ここでは、設定言語が日本語であるものとし、登録語以外の入力テキスト部分である、助詞の「は」、名詞の「大阪」、助詞の「に」、動詞の「いった」が、図7に示すように、日本語の一般辞書12に登録されている、対応する音素ラベル列にそれぞれ置き換えられる。
The phoneme label
音声合成部18は、登録語部分音素ラベル列置き換え部16及びその他の部分の音素ラベル列置き換え部17によって得られた入力テキストについての音素ラベル列から、当該入力テキストの合成音声を生成する(ステップST5c)。図7の例では、「マイクルは大阪に行った」という合成音声が出力される。ここで、登録語1以外の部分は、日本語の音素ラベルで発話されるが、登録語1である「マイクル」は、上記実施の形態1で示したようにユーザ辞書に設定時の設定言語が英語であるので、英語的な発話となる。
The
以上のように、この実施の形態3によれば、上記実施の形態1の認識辞書作成装置の構成に加えて、テキストを入力するテキスト入力部14と、テキスト入力部14から入力されたテキストの文字列から、ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部15と、登録語部分検出部15によって検出された語彙部分を、ユーザ辞書から取得した対応する音素ラベル列に置き換える登録語部分音素ラベル列置き換え部16と、テキストの文字列のうち、登録語部分検出部15によって検出された語彙部分以外の部分を、一般辞書12の対応する音素ラベル列に置き換えるその他の部分の音素ラベル列置き換え部17と、登録語部分音素ラベル列置き換え部16及びその他の部分の音素ラベル列置き換え部17によって得られたテキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部18を備える。
このように構成することで、上記実施の形態1の効果に加え、ユーザ辞書を用いた音声合成を行う音声合成装置1Bを提供することができる。As described above, according to the third embodiment, in addition to the configuration of the recognition dictionary creating apparatus of the first embodiment, the
With this configuration, in addition to the effects of the first embodiment, it is possible to provide a
実施の形態4.
図8は、この発明の実施の形態4による認識辞書作成装置の構成を示すブロック図である。図8において、実施の形態4の認識辞書作成装置1aは、上記実施の形態1の構成におけるユーザ辞書作成時言語記憶部7がない代わりに、登録時音響パタン設定部19を備える。登録時音響パタン設定部19は、認識辞書作成装置1aを用いた音声認識装置や音声合成装置に設定されている設定言語に関わらず、音響データマッチング部5の処理に用いる音響標準パタン4の言語として、自身に予め登録されている所定の言語を設定する構成部である。この所定の言語は、設定言語に依らず、登録時音響パタン設定部19に予め登録される。なお、図8において、図1で示した構成部と同一又は同様に動作するものについては、同一符号を付し説明を省略する。
FIG. 8 is a block diagram showing a configuration of a recognition dictionary creation apparatus according to
次に動作について説明する。
図9は、実施の形態4の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。
ユーザが、入力装置を用いてユーザ辞書作成開始を指示してから(ステップST1d)、登録しようとしている語彙を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2d)。Next, the operation will be described.
FIG. 9 is a flowchart showing the flow of a user dictionary registration operation by the recognition dictionary creation apparatus of the fourth embodiment.
After the user instructs the user dictionary creation start using the input device (step ST1d), the user speaks the vocabulary to be registered. For example, it is assumed that the personal name “Michael” is spoken. The
続いて、登録時音響パタン設定部19が、システムの設定言語の代わりに、自身に予め登録されている所定言語を音響データマッチング部5に設定する(ステップST3d)。図9の例では、英語を所定言語としている。音響分析部3は、ステップST2dで音声取り込み部2から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する(ステップST4d)。
Subsequently, the registered acoustic
音響データマッチング部5は、登録時音響パタン設定部19から設定された所定言語に対応する音響標準パタン4を読み出し、この設定言語の音響標準パタン4と、音響分析部3で得られた入力音声の音響特徴の時系列とから、入力音声を表す最適な音素ラベル列を作成する(ステップST5d)。入力音声が「Michael」であり、所定言語が英語であると、図9に示すように、「#,/m/,/a/,/i/,/k/,/l/,#」という音素ラベル列が得られる。
The acoustic
ユーザ辞書登録部6は、音響データマッチング部5により作成された入力音声の音素ラベル列を、ユーザ辞書に登録する(ステップST6d)。
次に、音素ラベル列変換部9が、言語間音響データマッピングテーブル保存部10から読み込んだ言語間音響データマッピングテーブルに基づいて、上述のようにして得られた入力音声(登録語彙)に対する所定言語の音素ラベル列と、システムに現在設定されている設定言語の音素ラベルとの対応付けを行い、ユーザ辞書に登録した所定言語による登録語彙の音素ラベル列を設定言語の音素ラベル列に変換し、現在のユーザ辞書としてユーザ辞書登録部6に登録する(ステップST7d)。The user
Next, based on the interlanguage acoustic data mapping table read by the phoneme label
次に設定言語を切り替えた場合における動作について説明する。
図10は、実施の形態4の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートであり、図9で示したユーザ辞書登録が実行された後に言語が切り替えられた場合を示している。
ユーザが、入力装置を用いて言語切り替え部8に新たな言語を指定することにより、言語切り替え部8が、切り替え後の言語を音素ラベル列変換部9に設定する(ステップST1e)。ここでは、日本語に切り替えられたものとする。Next, the operation when the set language is switched will be described.
FIG. 10 is a flowchart showing the flow of user dictionary registration operation after language switching by the recognition dictionary creating apparatus of the fourth embodiment. The case where the language is switched after the user dictionary registration shown in FIG. 9 is executed. Show.
When the user designates a new language in the
音素ラベル列変換部9は、言語切り替え部8から指定された切り替え後の言語と、所定言語とを用いて、言語間音響データマッピングテーブル保存部10を検索して、ユーザ辞書の登録時における所定言語と切り替え後の言語に対応する言語間音響データマッピングテーブルを読み込み、この言語間音響データマッピングテーブルに基づいて、ユーザ辞書に登録した所定言語の音素ラベル列を、切り替え後の言語の音素ラベル列に変換する(ステップST2e)。
例えば、所定言語である英語の「Michael」の音素ラベル列「#,/m/,/a/,/i/,/k/,/l/,#」が、切り替え後の言語である日本語との言語間音響データマッピングテーブルの対応関係に基づいて、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に変換される。The phoneme label
For example, the phoneme label string “#, / m /, / a /, / i /, / k /, / l /, #” of English “Michael” that is a predetermined language is Japanese after switching. Is converted into “#, / m /, / a /, / i /, / k /, / r /, #”, which is a Japanese phoneme label string Is done.
ユーザ辞書登録部6は、ステップST2eにおいて音素ラベル列変換部9により変換された音素ラベル列を、ユーザ辞書に追加格納する(ステップST3e)。図10では、登録語彙テキストが「Michael」であって、切り替え後の言語が日本語であるので、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」が、登録語として格納される。
The user
以上のように、この実施の形態4によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定された言語間音響データマッピングテーブルと、音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する登録時音響パタン設定部19とを備え、言語間音響データマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、登録時音響パタン設定部19により選択された言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように構成することで、上記実施の形態1では、ユーザ辞書への登録する語彙の対象言語としてN個の言語が設定可能である場合、ユーザ辞書への登録時の言語と設定可能な言語との(N×(N−1))/2個分の組み合わせの全てに対応する言語間音響データマッピングテーブルが必要であったところ、登録時音響パタン設定部19によって設定される1つの所定言語と上記設定可能な言語との(N−1)個分の組み合わせに対応する言語間音響データマッピングテーブルでよく、言語間音響データマッピングテーブルのデータサイズを低減することが可能である。As described above, according to the fourth embodiment, the user dictionary in which the phoneme label sequence of the input speech is registered, the inter-language acoustic data mapping table in which the correspondence between phoneme labels between languages is defined, and the acoustic standard pattern A registration-time acoustic
With this configuration, in the first embodiment, when N languages can be set as target languages of the vocabulary to be registered in the user dictionary, the languages at the time of registration in the user dictionary and the languages that can be set are set. When the inter-language acoustic data mapping table corresponding to all combinations of (N × (N−1)) / 2 is required, one predetermined language set by the acoustic
なお、上記実施の形態2及び上記実施の形態3では、上記実施の形態1による認識辞書作成装置1を用いて音声認識装置及び音声合成装置を構成する場合を示したが、図4及び図6で示した構成において、上記実施の形態1による認識辞書作成装置の代わりに、図8に示した上記実施の形態4による認識辞書作成装置1aを組み合わせて音声認識装置及び音声合成装置を構成しても構わない。これにより、上記実施の形態4による効果も併せて得られる音声認識装置及び音声合成装置を提供することができる。
In the second embodiment and the third embodiment, the case where the speech recognition device and the speech synthesis device are configured using the recognition dictionary creation device 1 according to the first embodiment has been described. In the configuration shown in FIG. 8, instead of the recognition dictionary creation device according to the first embodiment, a speech recognition device and a speech synthesis device are configured by combining the recognition
この発明に係る認識辞書作成装置は、発話音声を保存する大容量のメモリが不要で、全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができることから、車載機器の音声認識装置や音声合成装置に好適である。 The recognition dictionary creation apparatus according to the present invention does not require a large-capacity memory for storing uttered speech, eliminates the need to create phoneme label sequences in advance for all languages, and shortens the creation time of phoneme label sequences for each language. Therefore, it is suitable for a speech recognition device and a speech synthesis device for in-vehicle devices.
Claims (6)
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素レベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えた認識辞書作成装置。An acoustic analysis unit that acoustically analyzes a voice signal of an input voice and outputs a time series of acoustic features;
An acoustic standard pattern storage unit for storing acoustic standard patterns indicating standard acoustic features for each language;
An acoustic data matching unit that creates a phoneme label string of the input speech by collating a time series of acoustic features of the input speech input from the acoustic analysis unit and an acoustic standard pattern stored in the acoustic standard pattern storage unit When,
A user dictionary storage unit that stores a user dictionary in which the phoneme label sequence of the input speech created by the acoustic data matching unit is registered;
A language storage unit for storing the language of the phoneme label sequence registered in the user dictionary;
A language switching unit for switching languages;
A mapping table storage unit that stores a mapping table in which correspondences between phoneme labels between languages are defined;
Referring to the mapping table stored in the mapping table storage unit, the phoneme label sequence registered in the user dictionary is changed from the phoneme level sequence of the language stored in the language storage unit to the language switched by the language switching unit. A recognition dictionary creation device comprising a phoneme label string conversion unit for converting into a phoneme label string.
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
前記音響標準パタンで表現した語彙の一般辞書を記憶する一般辞書記憶部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列と、前記一般辞書と、前記ユーザ辞書とを照合して、前記一般辞書及び前記ユーザ辞書のうちから、前記入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部と、
前記辞書照合部によって特定された語彙を、音声認識結果として出力する認識結果出力部とを備えた音声認識装置。An acoustic analysis unit that acoustically analyzes a voice signal of an input voice and outputs a time series of acoustic features;
An acoustic standard pattern storage unit for storing acoustic standard patterns indicating standard acoustic features for each language;
An acoustic data matching unit that creates a phoneme label string of the input speech by collating a time series of acoustic features of the input speech input from the acoustic analysis unit and an acoustic standard pattern stored in the acoustic standard pattern storage unit When,
A user dictionary storage unit that stores a user dictionary in which the phoneme label sequence of the input speech created by the acoustic data matching unit is registered;
A language storage unit for storing the language of the phoneme label sequence registered in the user dictionary;
A language switching unit for switching languages;
A mapping table storage unit that stores a mapping table in which correspondences between phoneme labels between languages are defined;
With reference to the mapping table stored in the mapping table storage unit, the phoneme label sequence registered in the user dictionary is changed from the phoneme label sequence of the language stored in the language storage unit to the language switched by the language switching unit. A phoneme label string conversion unit for converting to a phoneme label string;
A general dictionary storage unit for storing a general dictionary of vocabulary expressed in the acoustic standard pattern;
The phoneme label sequence of the input speech is selected from the general dictionary and the user dictionary by collating the phoneme label sequence of the input speech created by the acoustic data matching unit, the general dictionary, and the user dictionary. A dictionary matching unit that identifies the vocabulary most similar to
A speech recognition apparatus comprising: a recognition result output unit that outputs the vocabulary specified by the dictionary collation unit as a speech recognition result.
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録した音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
テキストを入力するテキスト入力部と、
前記テキスト入力部から入力されたテキストの文字列から、前記ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部と、
前記登録語部分検出部に検出された前記語彙部分を、前記ユーザ辞書から取得した当該語彙部分に対応する音素ラベル列に置き換える登録語彙置換部と、
前記テキストの文字列のうち、前記登録語部分検出部に検出された前記語彙部分以外の部分を、前記一般辞書の対応する語彙の音素ラベル列に置き換える一般辞書置換部と、
前記登録語彙置換部及び前記一般辞書置換部によって得られた前記テキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部とを備えた音声合成装置。An acoustic analysis unit that acoustically analyzes a voice signal of an input voice and outputs a time series of acoustic features;
An acoustic standard pattern storage unit for storing acoustic standard patterns indicating standard acoustic features for each language;
An acoustic data matching unit that creates a phoneme label string of the input speech by collating a time series of acoustic features of the input speech input from the acoustic analysis unit and an acoustic standard pattern stored in the acoustic standard pattern storage unit When,
A user dictionary storage unit that stores a user dictionary in which the phoneme label sequence of the input speech created by the acoustic data matching unit is registered;
A language storage unit for storing the language of the phoneme label sequence registered in the user dictionary;
A language switching unit for switching languages;
A mapping table storage unit that stores a mapping table in which correspondences between phoneme labels between languages are defined;
With reference to the mapping table stored in the mapping table storage unit, the phoneme label sequence registered in the user dictionary is changed from the phoneme label sequence of the language stored in the language storage unit to the language switched by the language switching unit. A phoneme label string conversion unit for converting to a phoneme label string;
A text input section for entering text;
A registered word part detection unit for detecting a vocabulary part corresponding to a phoneme label string registered in the user dictionary from a character string of text input from the text input unit;
A registered vocabulary replacement unit that replaces the vocabulary part detected by the registered word part detection unit with a phoneme label string corresponding to the vocabulary part acquired from the user dictionary;
A general dictionary replacement unit that replaces a part of the text string other than the vocabulary part detected by the registered word part detection unit with a phoneme label string of a corresponding vocabulary of the general dictionary;
A speech synthesizer comprising: a speech synthesizer that generates synthesized speech of the text from the phoneme label string of the text obtained by the registered vocabulary replacement unit and the general dictionary replacement unit.
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えた認識辞書作成装置。An acoustic analysis unit that acoustically analyzes a voice signal of an input voice and outputs a time series of acoustic features;
An acoustic standard pattern storage unit for storing acoustic standard patterns indicating standard acoustic features for each language;
An acoustic standard pattern setting unit for selecting an acoustic standard pattern in a preset language from the acoustic standard patterns stored in the acoustic standard pattern storage unit;
Acoustic data matching for generating a phoneme label string of the input speech by collating a time series of acoustic features of the input speech input from the acoustic analysis unit and an acoustic standard pattern of a language selected by the acoustic standard pattern setting unit And
A user dictionary storage unit that stores a user dictionary in which the phoneme label sequence of the input speech created by the acoustic data matching unit is registered;
A language switching unit for switching languages;
A mapping table storage unit that stores a mapping table in which correspondences between phoneme labels between languages are defined;
With reference to the mapping table stored in the mapping table storage unit, the phoneme label sequence registered in the user dictionary is switched by the language switching unit from the phoneme label sequence of the language selected by the acoustic standard pattern setting unit. Recognition dictionary creating device comprising a phoneme label string conversion unit for converting into a phoneme label string of a different language.
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
前記音響標準パタンで表現した語彙の一般辞書を記憶する一般辞書記憶部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列と、前記一般辞書と、前記ユーザ辞書とを照合して、前記一般辞書及び前記ユーザ辞書のうちから、前記入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部と、
前記辞書照合部によって特定された語彙を、音声認識結果として出力する認識結果出力部とを備えた音声認識装置。An acoustic analysis unit that acoustically analyzes a voice signal of an input voice and outputs a time series of acoustic features;
An acoustic standard pattern storage unit for storing acoustic standard patterns indicating standard acoustic features for each language;
An acoustic standard pattern setting unit for selecting an acoustic standard pattern in a preset language from the acoustic standard patterns stored in the acoustic standard pattern storage unit;
Acoustic data matching for generating a phoneme label string of the input speech by collating a time series of acoustic features of the input speech input from the acoustic analysis unit and an acoustic standard pattern of a language selected by the acoustic standard pattern setting unit And
A user dictionary storage unit that stores a user dictionary in which the phoneme label sequence of the input speech created by the acoustic data matching unit is registered;
A language switching unit for switching languages;
A mapping table storage unit that stores a mapping table in which correspondences between phoneme labels between languages are defined;
With reference to the mapping table stored in the mapping table storage unit, the phoneme label sequence registered in the user dictionary is switched by the language switching unit from the phoneme label sequence of the language selected by the acoustic standard pattern setting unit. A phoneme label string conversion unit for converting to a phoneme label string of a different language;
A general dictionary storage unit for storing a general dictionary of vocabulary expressed in the acoustic standard pattern;
The phoneme label sequence of the input speech is selected from the general dictionary and the user dictionary by collating the phoneme label sequence of the input speech created by the acoustic data matching unit, the general dictionary, and the user dictionary. A dictionary matching unit that identifies the vocabulary most similar to
A speech recognition apparatus comprising: a recognition result output unit that outputs the vocabulary specified by the dictionary collation unit as a speech recognition result.
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
テキストを入力するテキスト入力部と、
前記テキスト入力部から入力されたテキストの文字列から、前記ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部と、
前記登録語部分検出部に検出された前記語彙部分を、前記ユーザ辞書から取得した当該語彙部分に対応する音素ラベル列に置き換える登録語彙置換部と、
前記テキストの文字列のうち、前記登録語部分検出部に検出された前記語彙部分以外の部分を、前記一般辞書の対応する語彙の音素ラベル列に置き換える一般辞書置換部と、
前記登録語彙置換部及び前記一般辞書置換部によって得られた前記テキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部とを備えた音声合成装置。An acoustic analysis unit that acoustically analyzes a voice signal of an input voice and outputs a time series of acoustic features;
An acoustic standard pattern storage unit for storing acoustic standard patterns indicating standard acoustic features for each language;
An acoustic standard pattern setting unit for selecting an acoustic standard pattern in a preset language from the acoustic standard patterns stored in the acoustic standard pattern storage unit;
Acoustic data matching for generating a phoneme label string of the input speech by collating a time series of acoustic features of the input speech input from the acoustic analysis unit and an acoustic standard pattern of a language selected by the acoustic standard pattern setting unit And
A user dictionary storage unit that stores a user dictionary in which the phoneme label sequence of the input speech created by the acoustic data matching unit is registered;
A language switching unit for switching languages;
A mapping table storage unit that stores a mapping table in which correspondences between phoneme labels between languages are defined;
With reference to the mapping table stored in the mapping table storage unit, the phoneme label sequence registered in the user dictionary is switched by the language switching unit from the phoneme label sequence of the language selected by the acoustic standard pattern setting unit. A phoneme label string conversion unit for converting to a phoneme label string of a different language;
A text input section for entering text;
A registered word part detection unit for detecting a vocabulary part corresponding to a phoneme label string registered in the user dictionary from a character string of text input from the text input unit;
A registered vocabulary replacement unit that replaces the vocabulary part detected by the registered word part detection unit with a phoneme label string corresponding to the vocabulary part acquired from the user dictionary;
A general dictionary replacement unit that replaces a part of the text string other than the vocabulary part detected by the registered word part detection unit with a phoneme label string of a corresponding vocabulary of the general dictionary;
A speech synthesizer comprising: a speech synthesizer that generates synthesized speech of the text from the phoneme label string of the text obtained by the registered vocabulary replacement unit and the general dictionary replacement unit.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/000369 WO2011089651A1 (en) | 2010-01-22 | 2010-01-22 | Recognition dictionary creation device, speech recognition device, and speech synthesis device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4942860B2 true JP4942860B2 (en) | 2012-05-30 |
JPWO2011089651A1 JPWO2011089651A1 (en) | 2013-05-20 |
Family
ID=44306475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011550720A Expired - Fee Related JP4942860B2 (en) | 2010-01-22 | 2010-01-22 | Recognition dictionary creation device, speech recognition device, and speech synthesis device |
Country Status (5)
Country | Link |
---|---|
US (1) | US9177545B2 (en) |
JP (1) | JP4942860B2 (en) |
CN (1) | CN102687197B (en) |
DE (1) | DE112010005168B4 (en) |
WO (1) | WO2011089651A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2816558A1 (en) | 2013-06-17 | 2014-12-24 | Fujitsu Limited | Speech processing device and method |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013195928A (en) * | 2012-03-22 | 2013-09-30 | Yamaha Corp | Synthesis unit segmentation device |
JP5990962B2 (en) * | 2012-03-23 | 2016-09-14 | ヤマハ株式会社 | Singing synthesis device |
JP5942559B2 (en) * | 2012-04-16 | 2016-06-29 | 株式会社デンソー | Voice recognition device |
US9197481B2 (en) * | 2012-07-10 | 2015-11-24 | Tencent Technology (Shenzhen) Company Limited | Cloud-based translation method and system for mobile client |
US9886947B2 (en) * | 2013-02-25 | 2018-02-06 | Seiko Epson Corporation | Speech recognition device and method, and semiconductor integrated circuit device |
US9953630B1 (en) * | 2013-05-31 | 2018-04-24 | Amazon Technologies, Inc. | Language recognition for device settings |
DE112013007617B4 (en) * | 2013-11-20 | 2020-06-18 | Mitsubishi Electric Corporation | Speech recognition device and speech recognition method |
US9747897B2 (en) * | 2013-12-17 | 2017-08-29 | Google Inc. | Identifying substitute pronunciations |
US9824684B2 (en) * | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
DE112014007287B4 (en) * | 2014-12-24 | 2019-10-31 | Mitsubishi Electric Corporation | Speech recognition device and speech recognition method |
US10628567B2 (en) * | 2016-09-05 | 2020-04-21 | International Business Machines Corporation | User authentication using prompted text |
US11361752B2 (en) * | 2017-09-11 | 2022-06-14 | Mitsubishi Electric Corporation | Voice recognition dictionary data construction apparatus and voice recognition apparatus |
JP6920153B2 (en) * | 2017-09-27 | 2021-08-18 | 株式会社日立情報通信エンジニアリング | Call voice processing system and call voice processing method |
CN109243428B (en) * | 2018-10-15 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | A kind of method that establishing speech recognition modeling, audio recognition method and system |
US10957318B2 (en) * | 2018-11-02 | 2021-03-23 | Visa International Service Association | Dynamic voice authentication |
CN113611282B (en) * | 2021-08-09 | 2024-05-14 | 苏州市广播电视总台 | Intelligent broadcasting system and method for broadcasting program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11202889A (en) * | 1997-11-17 | 1999-07-30 | Internatl Business Mach Corp <Ibm> | Speech discriminating device, and device and method for pronunciation correction |
JP2000352989A (en) * | 1999-04-30 | 2000-12-19 | Lucent Technol Inc | Method executed on computer to make user settable pronunciation of character string |
JP2001188556A (en) * | 1999-12-27 | 2001-07-10 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for voice recognition |
JP2001296880A (en) * | 2000-03-27 | 2001-10-26 | Lucent Technol Inc | Method and device to generate plural plausible pronunciation of intrinsic name |
JP2003022087A (en) * | 2001-03-07 | 2003-01-24 | Sony Internatl Europ Gmbh | Voice recognition method |
WO2011004502A1 (en) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | Speech editing/synthesizing device and speech editing/synthesizing method |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999896A (en) * | 1996-06-25 | 1999-12-07 | Microsoft Corporation | Method and system for identifying and resolving commonly confused words in a natural language parser |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
KR100277694B1 (en) * | 1998-11-11 | 2001-01-15 | 정선종 | Automatic Pronunciation Dictionary Generation in Speech Recognition System |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6434521B1 (en) * | 1999-06-24 | 2002-08-13 | Speechworks International, Inc. | Automatically determining words for updating in a pronunciation dictionary in a speech recognition system |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
JP2001282788A (en) | 2000-03-28 | 2001-10-12 | Kyocera Corp | Electronic dictionary device, method for switching language to be used for the same, and storage medium |
US7181395B1 (en) * | 2000-10-27 | 2007-02-20 | International Business Machines Corporation | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data |
US6738738B2 (en) * | 2000-12-23 | 2004-05-18 | Tellme Networks, Inc. | Automated transformation from American English to British English |
US20020087317A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented dynamic pronunciation method and system |
EP1233406A1 (en) * | 2001-02-14 | 2002-08-21 | Sony International (Europe) GmbH | Speech recognition adapted for non-native speakers |
JP2002247646A (en) | 2001-02-19 | 2002-08-30 | Sony Corp | Mobile terminal and computer program |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
WO2004047077A1 (en) * | 2002-11-15 | 2004-06-03 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
DE10304460B3 (en) * | 2003-02-04 | 2004-03-11 | Siemens Ag | Speech recognition method e.g. for mobile telephone, identifies which spoken variants of same word can be recognized with analysis of recognition difficulty for limiting number of acceptable variants |
US7266495B1 (en) * | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
US7567896B2 (en) * | 2004-01-16 | 2009-07-28 | Nuance Communications, Inc. | Corpus-based speech synthesis based on segment recombination |
US7415411B2 (en) | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
DE602004023134D1 (en) * | 2004-07-22 | 2009-10-22 | France Telecom | LANGUAGE RECOGNITION AND SYSTEM ADAPTED TO THE CHARACTERISTICS OF NON-NUT SPEAKERS |
GB2424742A (en) * | 2005-03-31 | 2006-10-04 | Ibm | Automatic speech recognition |
US7630898B1 (en) * | 2005-09-27 | 2009-12-08 | At&T Intellectual Property Ii, L.P. | System and method for preparing a pronunciation dictionary for a text-to-speech voice |
JP2007155833A (en) | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | Acoustic model development system and computer program |
US20070255567A1 (en) * | 2006-04-27 | 2007-11-01 | At&T Corp. | System and method for generating a pronunciation dictionary |
US8290775B2 (en) * | 2007-06-29 | 2012-10-16 | Microsoft Corporation | Pronunciation correction of text-to-speech systems between different spoken languages |
TW200926142A (en) * | 2007-12-12 | 2009-06-16 | Inst Information Industry | A construction method of English recognition variation pronunciation models |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
US8073693B2 (en) * | 2008-12-04 | 2011-12-06 | At&T Intellectual Property I, L.P. | System and method for pronunciation modeling |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
-
2010
- 2010-01-22 US US13/500,855 patent/US9177545B2/en not_active Expired - Fee Related
- 2010-01-22 JP JP2011550720A patent/JP4942860B2/en not_active Expired - Fee Related
- 2010-01-22 WO PCT/JP2010/000369 patent/WO2011089651A1/en active Application Filing
- 2010-01-22 CN CN201080056433.9A patent/CN102687197B/en not_active Expired - Fee Related
- 2010-01-22 DE DE112010005168.2T patent/DE112010005168B4/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11202889A (en) * | 1997-11-17 | 1999-07-30 | Internatl Business Mach Corp <Ibm> | Speech discriminating device, and device and method for pronunciation correction |
JP2000352989A (en) * | 1999-04-30 | 2000-12-19 | Lucent Technol Inc | Method executed on computer to make user settable pronunciation of character string |
JP2001188556A (en) * | 1999-12-27 | 2001-07-10 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for voice recognition |
JP2001296880A (en) * | 2000-03-27 | 2001-10-26 | Lucent Technol Inc | Method and device to generate plural plausible pronunciation of intrinsic name |
JP2003022087A (en) * | 2001-03-07 | 2003-01-24 | Sony Internatl Europ Gmbh | Voice recognition method |
WO2011004502A1 (en) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | Speech editing/synthesizing device and speech editing/synthesizing method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2816558A1 (en) | 2013-06-17 | 2014-12-24 | Fujitsu Limited | Speech processing device and method |
US9672809B2 (en) | 2013-06-17 | 2017-06-06 | Fujitsu Limited | Speech processing device and method |
Also Published As
Publication number | Publication date |
---|---|
DE112010005168T5 (en) | 2012-11-08 |
WO2011089651A1 (en) | 2011-07-28 |
JPWO2011089651A1 (en) | 2013-05-20 |
US9177545B2 (en) | 2015-11-03 |
CN102687197B (en) | 2014-07-23 |
CN102687197A (en) | 2012-09-19 |
DE112010005168B4 (en) | 2018-12-13 |
US20120203553A1 (en) | 2012-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4942860B2 (en) | Recognition dictionary creation device, speech recognition device, and speech synthesis device | |
US8606581B1 (en) | Multi-pass speech recognition | |
JP5409931B2 (en) | Voice recognition device and navigation device | |
JP6495850B2 (en) | Information processing apparatus, information processing method, program, and recognition system | |
US20130090921A1 (en) | Pronunciation learning from user correction | |
JP5200712B2 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
JP5274711B2 (en) | Voice recognition device | |
JP3803029B2 (en) | Voice recognition device | |
JP2007500367A (en) | Voice recognition method and communication device | |
JP6985221B2 (en) | Speech recognition device and speech recognition method | |
WO2016103358A1 (en) | Voice recognition device and voice recognition method | |
US20140067400A1 (en) | Phonetic information generating device, vehicle-mounted information device, and database generation method | |
US7181397B2 (en) | Speech dialog method and system | |
KR20180124226A (en) | WEARABLE DEVICE, IoT DEVICE AND VEHICLE VOICE RECOGNITION OPERATING SYSTEM AND METHOD | |
JP2007248529A (en) | Voice recognizer, voice recognition program, and voice operable device | |
JP4877112B2 (en) | Voice processing apparatus and program | |
US20090254335A1 (en) | Multilingual weighted codebooks | |
JP3881155B2 (en) | Speech recognition method and apparatus | |
Ramasubramanian et al. | Acoustic modeling by phoneme templates and modified one-pass DP decoding for continuous speech recognition | |
WO2019049364A1 (en) | Voice recognition dictionary data construction unit, voice recognition device, voice recognition dictionary data construction method | |
JP2000330588A (en) | Method and system for processing speech dialogue and storage medium where program is stored | |
WO2019030810A1 (en) | Speech recognition device and speech recognition method | |
JP2010008768A (en) | Speech recognition device and speech recognition method | |
WO2020240647A1 (en) | Speech recognition dictionary preparation device, speech recognition device, and method for preparing speech recognition dictionary | |
Kaur et al. | HMM-based phonetic engine for continuous speech of a regional language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4942860 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |