JP2004271895A - Multilingual speech recognition system and pronunciation learning system - Google Patents

Multilingual speech recognition system and pronunciation learning system Download PDF

Info

Publication number
JP2004271895A
JP2004271895A JP2003062332A JP2003062332A JP2004271895A JP 2004271895 A JP2004271895 A JP 2004271895A JP 2003062332 A JP2003062332 A JP 2003062332A JP 2003062332 A JP2003062332 A JP 2003062332A JP 2004271895 A JP2004271895 A JP 2004271895A
Authority
JP
Japan
Prior art keywords
pronunciation
language
information
word
pronunciation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003062332A
Other languages
Japanese (ja)
Inventor
Takeshi Hanazawa
健 花沢
Ryosuke Isotani
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003062332A priority Critical patent/JP2004271895A/en
Publication of JP2004271895A publication Critical patent/JP2004271895A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem in which conventional technology costs high because recognition system and phoneme models must be made by each language and the throughput in recognition increases as compared with recognition of a speech of a single language. <P>SOLUTION: A multilingual speech recognition system as an embodiment of the present invention is equipped with a speech recognition part 103 and a multilingual recognition dictionary 104, in which pronunciation information on words of each language to be recognized is described in the form of pronunciation of a common specific language together with properties. In recognition, words having the same meaning are handled as different words when having different pronunciation information. For the purpose of learning pronunciation of a foreign language, pronunciation information of the foreign language and pronunciation information of the mother tongue are described in the form of pronunciation of one language for one word, and a recognition system for the language is used for recognition to decide how accurate pronunciation is on the basis of which pronunciation information a spoken word is closer to. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は複数言語の音声を同時に認識可能な音声認識システム、および音声認識システムを利用した発音学習システムに関する。
【0002】
【従来の技術】
近年の音声認識システムにおいては、単言語の認識ができるだけでなく、複数言語に対応できるものが望まれている。複数言語の認識が可能であれば、異なる言語間での通訳システムなどへの応用が可能である。
【0003】
従来の複数言語音声認識システムの一例として、各言語用の音声認識システムを並列に実行して認識結果のスコアを比較し、よりスコアの高いものを選択する方法を採用した音声認識装置がある(特許文献1参照。)。
【0004】
前記複数言語音声認識システムの他の例として、各言語用の音声認識システムを並列に実行して各言語における認識尤度を正規化し比較し認識尤度が最も大きな大きな言語を認識結果として出力する音声認識装置がある(特許文献2参照。)。
【0005】
また、このような音声認識システムを外国語の発音学習に利用しようという試みも行われている。その場合、学習者が発声した内容をシステムが認識し、認識結果に応じてその発声内容がどの程度当該外国語の発音に近いかを判定し、その結果を学習者へフィードバックする。
【0006】
従来の外国語発音学習システムの一例として、母国語の音声認識システムをベースとして、外国語の音素モデルを含むような音声標準パタンを新たに用意して、モデル音声との一致の程度を評価する方法を採用している外国語学習装置がある(特許文献3参照。)。
【0007】
【特許文献1】
特開2001−188556号公報(第1頁、図1)
【特許文献2】
特開平10−116093号公報(第1頁、図1)
【特許文献3】
特開2001−282098号公報(第1頁、図1)
【0008】
【発明が解決しようとする課題】
従来の技術の問題点は、言語ごとに認識システムや音素モデルを作成する必要があるためコストがかかり、認識時の処理量も単言語の音声の認識と比べ増大する、ということである。
【0009】
本発明の目的は、複数の言語の発音を認識する簡易な音声認識システムを提供すること、及び実現が簡易な発音学習システムを提供することにある。
【0010】
【課題を解決するための手段】
本発明の第1の複数言語音声認識システムは、入力音声を受け付け、少なくとも一部の単語に複数の言語の発音情報を、共通のある特定の言語の発音記述方式で記述し、その発音情報がどの言語に属しているかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの言語に属していたかに応じて出力を変えることを特徴とする。
【0011】
本発明の第2の複数言語音声認識システムは、入力音声を受け付け、少なくとも一部の単語に複数の言語の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属しているかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの言語に属していたかに応じて出力を変えることを特徴とする。
【0012】
本発明の第3の複数言語音声認識システムは、入力音声を受け付け、少なくとも一部の単語に複数の方言の発音情報を、そのうちのいずれかの方言の発音記述方式で記述し、その発音情報がどの方言に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの方言に属していたかを出力することを特徴とする。
【0013】
本発明の第1の発音学習システムは、入力音声を受け付け、少なくとも一部の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその読みを探索し、前記探索の結果として少なくとも前記単語または単語列の読みが母国語風であったか外国語風であったかを出力することを特徴とする。
【0014】
本発明の第2の発音学習システムは、提示された発声内容に対する入力音声を受け付け、前記発声内容の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報が母国語風であったか外国語風であったかを出力することで、発声内容の外国語発音らしさを判定することを特徴とする。
【0015】
本発明の第3の発音学習システムは、提示された発声内容に対する入力音声を受け付け、前記発声内容の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも母国語のもっともらしさのスコアと外国語のもっともらしさのスコアから外国語らしさのスコアを計算して出力することを特徴とする。
【0016】
本発明の第4の発音学習システムは、前記第1〜第3の何れかの発音学習システムに於いて、ある言語風の発音情報を、その言語の本来の発音あるいは表記あるいはその両者の組み合わせから、異なる言語の発音情報へ変換する発音変換部を備え、前記発音変換部の出力である発音情報を認識辞書に登録することで、前記発音情報を探索の対象として用いることを特徴とする。
【0017】
本発明の第5の発音学習システムは、前記第1〜第4の何れかの発音学習システムに於いて、少なくとも韻律を発音情報として用いることを特徴とする。
【0018】
本発明の第6の発音学習システムは、音声認識を利用した発音学習システムであり、認識結果が母国語であれば母国語で結果出力し、外国語であれば外国語で結果出力することを特徴とする。
【0019】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。図1は、本発明による複数言語音声認識システムの全体の構成を示した図である。本発明による複数言語音声認識システムは、音声入力を行うマイクロフォン102と、入力音声から最も確からしい結果を探索する音声認識部103と、音声認識部103の探索対象である各単語に複数言語の発音情報をその属性とともに記述した複数言語認識辞書104と、音声認識部103の探索の結果を出力する結果出力部105とからなる。
【0020】
図2は、図1の複数言語認識辞書104の例である。ある単語Aに対し、言語aの発音情報Aaと言語bの発音情報Abをそれぞれ別のエントリとして持つ。また、各エントリにはその属性が付与されている。
【0021】
次に、図3の流れ図を用いて本発明による複数言語音声認識システムの動作の一例を説明する。
【0022】
入力音声101に対して処理をスタートし(ステップ201)、マイクロフォン102より音声を入力し(ステップ202)、音声認識部103において最も確からしい単語エントリを探索し(ステップ203)、探索した単語エントリの属性を参照し、その属性に応じて(ステップ204)、結果出力部105にて言語aの出力を行なう(ステップ205)、或いは言語bの出力を行う(ステップ206)。
【0023】
尚、複数言語認識辞書の属性が言語a、言語bの他にありn通りの言語識別を含む場合は、ステップ204以降でそれに応じたn通りの言語出力を行う。
【0024】
次に、本発明の第2の実施の形態について説明する。本発明の第2の実施の形態では、複数言語認識辞書として、外国語の単語に対し当該外国語風および母国語風の複数の発音情報を持つものを備える。
【0025】
次に、図4の流れ図を用いて本発明の第2の実施の形態の動作の一例を説明する。入力音声101に対して処理をスタートし(ステップ301)、マイクロフォン102より音声を入力し(ステップ302)、音声認識部103において最も確からしい単語およびその発音情報を探索する(ステップ303)。
【0026】
このとき、どの発音情報によってその単語が探索されたかの属性に応じて入力音声の外国語らしさが決まり、その属性に応じて(ステップ304)、結果出力部105にて母国語属性の出力を行なう(ステップ305)、或いは外国語属性の出力を行う(ステップ306)。
【0027】
【実施例】
次に、具体的な実施例を用いて前記第1及び第2の実施形態を説明する。図5は本発明における複数言語認識辞書の一例である。図5に示すように、英語属性のcoffeeには英語での本来の発音をそれに近い日本語発音表記で表した「かふぃ」、「かひ」の読みを、日本語属性のcoffeeには「こーひー」の読みをそれぞれ与えることで、英語日本語両方のcoffeeが認識可能となる。
【0028】
外国語の発音学習システムとしては、coffeeの入力音声に対し英語属性のcoffeeが結果として出力されれば、英語として発音が正確であると判定する。
【0029】
結果出力においては、属性をそのまま出力する方法と、日本語属性であれば「こーひー」を、英語属性であれば「coffee」をそれぞれ出力する方法と、それらをテキスト出力だけでなく音声出力する方法とがある。
【0030】
また、音声認識部103において、日本語属性の「こーひー」に対するもっともらしさと英語属性の「かふぃ」に対するもっともらしさから、英語らしさのスコアを計算して学習者に提示するという方法もある。
【0031】
更に、発音情報としては図5に示すような読みだけではなく、アクセントやイントネーションなどの韻律を用いて英語らしさと日本語らしさを判定するという方法もある。この方法は、同一言語内での方言の違いを判定するのに効果がある。
【0032】
図6は、図1の複数言語認識辞書104を作成するために発音変換部402を用いた例である。
【0033】
ある言語本来の発音情報401を発音変換部402に入力し、別の言語の発音情報として複数言語認識辞書104を自動生成する。
【0034】
例えば、英語のcoffeeという単語には元々/k/ao/f/iy/という英語の発音情報が付与されていたとすると、/k/ao/から「か」を、/f/iy/から「ふぃ」あるいは「ひ」を生成するようなルールを発音変換部に用意しておくことで、coffeeという単語の発音情報として「かふぃ」あるいは「かひ」を得ることができる。
【0035】
同様に、coffeeという表記のうち、”co”から「こー」を、”ffee”から「ひー」を生成するようなルールを発音変換部に用意しておくことで、coffeeという単語の発音情報として「こーひー」も得ることができる。
【0036】
【発明の効果】
第1の効果は、複数言語の音声を認識するために単言語の音声認識システムがあれば良いので、複数の音声認識システムや複数言語に対応した音声標準パタンを用意する必要がないため、簡易な実現が可能となり、認識時の処理量の増加も抑えられることである。
【0037】
第2の効果は、外国語等の発音学習において、複数の音声認識システムや複数言語に対応した音声標準パタンを用意する必要がないため、簡易な実現が可能となることである。
【図面の簡単な説明】
【図1】本発明の第1および第2の実施の形態の構成を示すブロック図である。
【図2】図1の複数言語認識辞書104の具体例を示す図である。
【図3】第1の実施の形態の動作を示す流れ図である。
【図4】第2の実施の形態の動作を示す流れ図である。
【図5】第1および第2の実施の形態の具体例を示す図である。
【図6】第1および第2の実施の形態の具体例を示す図である。
【符号の説明】
101 入力音声
102 マイクロフォン
103 音声認識部
104 複数言語認識辞書
105 結果出力部
401 各言語本来の発音情報
402 発音変換部
S201 認識処理開始
S202 音声の入力
S203 探索
S204 探索結果の属性を参照
S205 言語aの出力
S206 言語bの出力
S207 認識処理終了
S301 認識処理開始
S302 音声の入力
S303 探索
S304 探索結果の属性を参照
S305 母国語属性の出力
S306 外国語属性の出力
S307 認識処理終了
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition system capable of simultaneously recognizing speech in a plurality of languages, and a pronunciation learning system using the speech recognition system.
[0002]
[Prior art]
In recent years, a speech recognition system that can not only recognize a single language but also supports a plurality of languages is desired. If recognition of a plurality of languages is possible, application to an interpreter system between different languages is possible.
[0003]
As an example of a conventional multilingual speech recognition system, there is a speech recognition device that adopts a method of executing speech recognition systems for respective languages in parallel, comparing scores of recognition results, and selecting a higher score. See Patent Document 1.).
[0004]
As another example of the multilingual speech recognition system, a speech recognition system for each language is executed in parallel to normalize and compare the recognition likelihood in each language, and outputs a large language having the largest recognition likelihood as a recognition result. There is a voice recognition device (see Patent Document 2).
[0005]
Attempts have also been made to use such a speech recognition system for learning pronunciation in foreign languages. In that case, the system recognizes the content uttered by the learner, determines how close the uttered content is to the pronunciation of the foreign language in accordance with the recognition result, and feeds back the result to the learner.
[0006]
As an example of a conventional foreign language pronunciation learning system, a new speech standard pattern including a phoneme model of a foreign language is newly prepared based on a native language speech recognition system, and the degree of matching with the model speech is evaluated. There is a foreign language learning device adopting the method (see Patent Document 3).
[0007]
[Patent Document 1]
JP 2001-188556 A (page 1, FIG. 1)
[Patent Document 2]
JP-A-10-116093 (page 1, FIG. 1)
[Patent Document 3]
JP 2001-282098 A (page 1, FIG. 1)
[0008]
[Problems to be solved by the invention]
The problem with the conventional technique is that it is necessary to create a recognition system and a phoneme model for each language, so that the cost is high and the processing amount at the time of recognition is larger than that of monolingual speech recognition.
[0009]
An object of the present invention is to provide a simple speech recognition system for recognizing pronunciations in a plurality of languages, and to provide a pronunciation learning system that can be easily realized.
[0010]
[Means for Solving the Problems]
A first multi-language speech recognition system of the present invention accepts input speech, describes pronunciation information of a plurality of languages in at least some of the words by a common pronunciation description method of a specific language, and the pronunciation information is A recognition dictionary registered with information on which language belongs, a word or word string closest to the input voice and its pronunciation information are searched from words registered in the recognition dictionary, and as a result of the search, The output is changed at least according to which language the pronunciation information of the word or word string belongs to.
[0011]
A second multi-language speech recognition system of the present invention accepts an input speech, describes pronunciation information of a plurality of languages in at least some of the words by a pronunciation description method of any of the languages, and the pronunciation information is A recognition dictionary registered with information on which language belongs, a word or word string closest to the input voice and its pronunciation information are searched from words registered in the recognition dictionary, and as a result of the search, The output is changed at least according to which language the pronunciation information of the word or word string belongs to.
[0012]
The third multilingual speech recognition system of the present invention accepts an input speech, describes pronunciation information of a plurality of dialects in at least a part of words by using a pronunciation description method of any of the dialects, and the pronunciation information is used. A recognition dictionary registered with information on which dialect it belongs to, a word or word string closest to the input voice and its pronunciation information are searched from words registered in the recognition dictionary, and at least as a result of the search, It is characterized by outputting which dialect the pronunciation information of the word or word string belongs to.
[0013]
The first pronunciation learning system of the present invention receives an input speech, describes native language-like and foreign language-like pronunciation information in at least some of the words in a pronunciation description system of one of the languages, and generates the pronunciation. A recognition dictionary registered with information on which language the information belongs to, a word or word string closest to the input voice and its reading are searched from words registered in the recognition dictionary, and as a result of the search, It is characterized by outputting whether at least the reading of the word or the word string is a native language style or a foreign language style.
[0014]
A second pronunciation learning system according to the present invention receives an input speech corresponding to a presented utterance content, and outputs native-style and foreign-language style pronunciation information to words of the utterance content, and a pronunciation description system for any of the languages. And a recognition dictionary registered together with information on which language the pronunciation information belongs to, and searching for a word or word string closest to the input voice and its pronunciation information from words registered in the recognition dictionary. Then, by outputting whether at least the pronunciation information of the word or the word string is a native language style or a foreign language style as a result of the search, the likelihood of foreign language pronunciation of the utterance content is determined.
[0015]
A third pronunciation learning system according to the present invention receives an input voice corresponding to a presented utterance content, and outputs native language-like and foreign language-like pronunciation information to words of the utterance content, and a pronunciation description system for any one of the languages. And a recognition dictionary registered together with information on which language the pronunciation information belongs to, and searching for a word or word string closest to the input voice and its pronunciation information from words registered in the recognition dictionary. Then, as a result of the search, a score of the plausibility of the foreign language is calculated and output from at least the plausibility score of the native language and the plausibility score of the foreign language.
[0016]
A fourth pronunciation learning system according to the present invention, in any one of the first to third pronunciation learning systems, converts the pronunciation information of a certain language style from the original pronunciation or notation of the language or a combination of both. A pronunciation conversion unit that converts the pronunciation information into pronunciation information of a different language. The pronunciation information output from the pronunciation conversion unit is registered in a recognition dictionary, so that the pronunciation information is used as a search target.
[0017]
According to a fifth pronunciation learning system of the present invention, in any one of the first to fourth pronunciation learning systems, at least prosody is used as pronunciation information.
[0018]
The sixth pronunciation learning system of the present invention is a pronunciation learning system using speech recognition, and outputs a result in a native language if the recognition result is a native language, and outputs a result in a foreign language if the recognition result is a foreign language. Features.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram showing an overall configuration of a multilingual speech recognition system according to the present invention. A multi-language speech recognition system according to the present invention includes a microphone 102 that performs speech input, a speech recognition unit 103 that searches for the most probable result from the input speech, and a multi-language pronunciation for each word to be searched by the speech recognition unit 103. It comprises a multi-language recognition dictionary 104 in which information is described together with its attributes, and a result output unit 105 for outputting a search result of the speech recognition unit 103.
[0020]
FIG. 2 is an example of the multiple language recognition dictionary 104 of FIG. For a certain word A, pronunciation information Aa of language a and pronunciation information Ab of language b are provided as separate entries. Each entry is provided with its attribute.
[0021]
Next, an example of the operation of the multilingual speech recognition system according to the present invention will be described with reference to the flowchart of FIG.
[0022]
Processing is started for the input speech 101 (step 201), speech is input from the microphone 102 (step 202), and the most probable word entry is searched for in the speech recognition unit 103 (step 203). With reference to the attribute and according to the attribute (step 204), the result output unit 105 outputs the language a (step 205) or outputs the language b (step 206).
[0023]
If the attribute of the multiple language recognition dictionary is other than the language a and the language b and includes n kinds of language identifications, then n steps of the language output are performed in step 204 and subsequent steps.
[0024]
Next, a second embodiment of the present invention will be described. In the second embodiment of the present invention, a multilingual recognition dictionary having a plurality of foreign language-like and native language-like pronunciation information for a foreign language word is provided.
[0025]
Next, an example of the operation of the second exemplary embodiment of the present invention will be described with reference to the flowchart of FIG. Processing is started for the input speech 101 (step 301), speech is input from the microphone 102 (step 302), and the most probable word and its pronunciation information are searched for in the speech recognition unit 103 (step 303).
[0026]
At this time, the foreign language likeness of the input voice is determined according to the attribute of which pronunciation information the word was searched for, and the result output unit 105 outputs the native language attribute according to the attribute (step 304) (step 304). (Step 305) Or, output the foreign language attribute (Step 306).
[0027]
【Example】
Next, the first and second embodiments will be described using specific examples. FIG. 5 is an example of the multilingual recognition dictionary in the present invention. As shown in FIG. 5, in the English attribute coffee, the pronunciations of “kafu” and “kahi”, which represent the original pronunciation in English in a similar Japanese phonetic notation, and in the Japanese attribute coffee, By giving each of the readings of "kohi", the coffee in both English and Japanese can be recognized.
[0028]
In a foreign language pronunciation learning system, if an English attribute coffee is output as a result with respect to an input speech of coffee, it is determined that the pronunciation is accurate as English.
[0029]
In the output of the result, a method of outputting the attribute as it is, a method of outputting "kohi" for the Japanese attribute, and a method of outputting "coffee" for the English attribute, not only outputting the text but also the audio There is a way to output.
[0030]
Also, in the voice recognition unit 103, a score of English-likeness is calculated from the plausibility of the Japanese attribute "kohi" and the plausibility of the English attribute "kafu" and presented to the learner. There is also.
[0031]
Further, there is also a method of judging Englishness and Japaneseness using pronunciation as shown in FIG. 5 as pronunciation information, as well as prosody such as accent and intonation. This method is effective in determining dialect differences in the same language.
[0032]
FIG. 6 is an example in which the pronunciation conversion unit 402 is used to create the multiple language recognition dictionary 104 of FIG.
[0033]
The original pronunciation information 401 of a certain language is input to the pronunciation conversion unit 402, and the multilingual recognition dictionary 104 is automatically generated as pronunciation information of another language.
[0034]
For example, assuming that the English word "coffee" was originally provided with the English pronunciation information of / k / ao / f / iy /, "/" from / k / ao / and "fu" from / f / iy /. By preparing a rule for generating “@” or “hi” in the pronunciation conversion unit, “kafu” or “kahi” can be obtained as pronunciation information of the word “coffee”.
[0035]
Similarly, in the notation “coffee”, a rule that generates “ko” from “co” and “hi” from “ffee” is prepared in the pronunciation conversion unit, so that the pronunciation of the word “coffee” is obtained. "Kohi" can also be obtained as information.
[0036]
【The invention's effect】
The first effect is that there is no need to prepare a plurality of speech recognition systems or speech standard patterns corresponding to a plurality of languages, since a single language speech recognition system is sufficient for recognizing speech in a plurality of languages. And the increase in the amount of processing at the time of recognition can be suppressed.
[0037]
The second effect is that it is not necessary to prepare a plurality of speech recognition systems and speech standard patterns corresponding to a plurality of languages in pronunciation learning of a foreign language or the like, so that simple realization is possible.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of first and second embodiments of the present invention.
FIG. 2 is a diagram showing a specific example of the multiple language recognition dictionary 104 of FIG.
FIG. 3 is a flowchart showing the operation of the first embodiment.
FIG. 4 is a flowchart showing the operation of the second embodiment.
FIG. 5 is a diagram showing a specific example of the first and second embodiments.
FIG. 6 is a diagram showing a specific example of the first and second embodiments.
[Explanation of symbols]
101 Input speech 102 Microphone 103 Speech recognition unit 104 Multiple language recognition dictionary 105 Result output unit 401 Original pronunciation information of each language 402 Pronunciation conversion unit S201 Recognition processing start S202 Voice input S203 Search S204 Refer to search result attribute S205 Language a Output S206 Output of language b S207 Recognition processing end S301 Recognition processing start S302 Speech input S303 Search S304 Refer to search result attributes S305 Output of native language attributes S306 Output of foreign language attributes S307 End of recognition processing

Claims (9)

入力音声を受け付け、少なくとも一部の単語に複数の言語の発音情報を、共通のある特定の言語の発音記述方式で記述し、その発音情報がどの言語に属しているかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの言語に属していたかに応じて出力を変えることを特徴とする複数言語音声認識システム。A recognition dictionary that accepts input speech, describes pronunciation information in multiple languages in at least some of the words using a common pronunciation description method for a specific language, and registers the pronunciation information as well as information on which language it belongs to. And searching for the word or word string closest to the input voice and its pronunciation information from the words registered in the recognition dictionary, and as a result of the search, at least the pronunciation information of the word or word string is in any language. A multilingual speech recognition system characterized in that the output is changed according to whether the user belongs. 入力音声を受け付け、少なくとも一部の単語に複数の言語の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属しているかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの言語に属していたかに応じて出力を変えることを特徴とする複数言語音声認識システム。A recognition dictionary that accepts input speech, describes pronunciation information in multiple languages for at least some of the words in a pronunciation description method for any of the languages, and registers the pronunciation information along with information on which language the pronunciation information belongs to. And searching for the word or word string closest to the input voice and its pronunciation information from the words registered in the recognition dictionary, and as a result of the search, at least the pronunciation information of the word or word string is in any language. A multilingual speech recognition system characterized in that the output is changed according to whether the user belongs. 入力音声を受け付け、少なくとも一部の単語に複数の方言の発音情報を、そのうちのいずれかの方言の発音記述方式で記述し、その発音情報がどの方言に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの方言に属していたかを出力することを特徴とする複数言語音声認識システム。A recognition dictionary that accepts input speech, describes pronunciation information of a plurality of dialects in at least some of the words in a pronunciation description method of one of the dialects, and registers the pronunciation dictionary with information on which dialect the pronunciation information belongs to. A word or a word string closest to the input voice and its pronunciation information are searched from the words registered in the recognition dictionary, and as a result of the search, at least the pronunciation information of the word or the word string belongs to any dialect. A multi-language speech recognition system, characterized by outputting whether or not the user has spoken. 入力音声を受け付け、少なくとも一部の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその読みを探索し、前記探索の結果として少なくとも前記単語または単語列の読みが母国語風であったか外国語風であったかを出力することを特徴とする発音学習システム。Accepts input speech, describes native language and foreign language pronunciation information in at least some of the words using the pronunciation description method of one of these languages, and registers it along with information on which language the pronunciation information belonged to A word or word string closest to the input voice and its reading are searched from words registered in the recognition dictionary, and at least the reading of the word or word string is in the native language as a result of the search. A pronunciation learning system that outputs whether it was wind or foreign language. 提示された発声内容に対する入力音声を受け付け、前記発声内容の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報が母国語風であったか外国語風であったかを出力することで、発声内容の外国語発音らしさを判定することを特徴とする発音学習システム。An input voice for the presented utterance content is received, and the pronunciation information of the native language style and the foreign language style is described in the words of the utterance content in a pronunciation description method of any of the languages, and the pronunciation information is written in any language. A recognition dictionary registered together with information as to whether the word belongs to, a word or a word string closest to the input voice and its pronunciation information are searched from words registered in the recognition dictionary, and at least the word or the word is searched as a result of the search. A pronunciation learning system characterized in that the pronunciation information of a word string is output as to whether it is a native language style or a foreign language style, thereby determining the foreign language pronunciation of the utterance content. 提示された発声内容に対する入力音声を受け付け、前記発声内容の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも母国語のもっともらしさのスコアと外国語のもっともらしさのスコアから外国語らしさのスコアを計算して出力することを特徴とする発音学習システム。An input voice for the presented utterance content is received, and the pronunciation information of the native language style and the foreign language style is described in the words of the utterance content in a pronunciation description method of any of the languages, and the pronunciation information is written in any language. A recognition dictionary registered together with information as to whether the word belongs to, a word or word string closest to the input voice and its pronunciation information are searched from the words registered in the recognition dictionary, and at least the native language is searched as a result of the search. A pronunciation learning system that calculates and outputs a score of a foreign language likelihood from a score of the likelihood and a score of the likelihood of a foreign language. ある言語風の発音情報を、その言語の本来の発音あるいは表記あるいはその両者の組み合わせから、異なる言語の発音情報へ変換する発音変換部を備え、前記発音変換部の出力である発音情報を認識辞書に登録することで、前記発音情報を探索の対象として用いることを特徴とする請求項4〜6の何れかに記載の発音学習システム。A pronunciation conversion unit for converting pronunciation information in a certain language from the original pronunciation or notation of the language or a combination of both to pronunciation information in a different language, and recognizes the pronunciation information output from the pronunciation conversion unit as a recognition dictionary The pronunciation learning system according to any one of claims 4 to 6, wherein the pronunciation information is used as a search target by registering the pronunciation information. 少なくとも韻律を発音情報として用いることを特徴とする請求項4〜7の何れかに記載の発音学習システム。The pronunciation learning system according to any one of claims 4 to 7, wherein at least prosody is used as pronunciation information. 音声認識を利用した発音学習システムであり、認識結果が母国語であれば母国語で結果出力し、外国語であれば外国語で結果出力することを特徴とする発音学習システム。A pronunciation learning system using voice recognition, wherein if the recognition result is a native language, the result is output in a native language, and if the recognition result is a foreign language, the result is output in a foreign language.
JP2003062332A 2003-03-07 2003-03-07 Multilingual speech recognition system and pronunciation learning system Withdrawn JP2004271895A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003062332A JP2004271895A (en) 2003-03-07 2003-03-07 Multilingual speech recognition system and pronunciation learning system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003062332A JP2004271895A (en) 2003-03-07 2003-03-07 Multilingual speech recognition system and pronunciation learning system

Publications (1)

Publication Number Publication Date
JP2004271895A true JP2004271895A (en) 2004-09-30

Family

ID=33124283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003062332A Withdrawn JP2004271895A (en) 2003-03-07 2003-03-07 Multilingual speech recognition system and pronunciation learning system

Country Status (1)

Country Link
JP (1) JP2004271895A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006227564A (en) * 2005-01-20 2006-08-31 Advanced Telecommunication Research Institute International Sound evaluating device and program
JP2006337667A (en) * 2005-06-01 2006-12-14 Ntt Communications Kk Pronunciation evaluating method, phoneme series model learning method, device using their methods, program and recording medium
JP2009145856A (en) * 2007-12-12 2009-07-02 Inst For Information Industry Method for constructing module of recognizing english pronunciation variation, and computer readable recording medium with program for achieving construction of module stored therein
WO2011096015A1 (en) * 2010-02-05 2011-08-11 三菱電機株式会社 Recognition dictionary creation device and speech recognition device
WO2012042578A1 (en) * 2010-10-01 2012-04-05 三菱電機株式会社 Speech recognition device
JP2012168266A (en) * 2011-02-10 2012-09-06 Ntt Docomo Inc Language ability determination device, language ability determination method, content distribution system and program
JP2014235219A (en) * 2013-05-31 2014-12-15 株式会社Jvcケンウッド Sentence presentation device, sentence presentation method and sentence presentation program
JP2017521724A (en) * 2014-07-24 2017-08-03 ハーマン インターナショナル インダストリーズ インコーポレイテッド Text rule based multiple accent speech recognition using single acoustic model and automatic accent detection
CN108711420A (en) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 Multilingual hybrid model foundation, data capture method and device, electronic equipment

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006227564A (en) * 2005-01-20 2006-08-31 Advanced Telecommunication Research Institute International Sound evaluating device and program
JP2006337667A (en) * 2005-06-01 2006-12-14 Ntt Communications Kk Pronunciation evaluating method, phoneme series model learning method, device using their methods, program and recording medium
JP2009145856A (en) * 2007-12-12 2009-07-02 Inst For Information Industry Method for constructing module of recognizing english pronunciation variation, and computer readable recording medium with program for achieving construction of module stored therein
WO2011096015A1 (en) * 2010-02-05 2011-08-11 三菱電機株式会社 Recognition dictionary creation device and speech recognition device
US8868431B2 (en) 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device
JP5318230B2 (en) * 2010-02-05 2013-10-16 三菱電機株式会社 Recognition dictionary creation device and speech recognition device
CN102725790A (en) * 2010-02-05 2012-10-10 三菱电机株式会社 Recognition dictionary creation device and speech recognition device
DE112010005918T5 (en) 2010-10-01 2013-07-18 Mitsubishi Electric Corp. Voice recognition device
CN103038816A (en) * 2010-10-01 2013-04-10 三菱电机株式会社 Speech recognition device
JP5259020B2 (en) * 2010-10-01 2013-08-07 三菱電機株式会社 Voice recognition device
WO2012042578A1 (en) * 2010-10-01 2012-04-05 三菱電機株式会社 Speech recognition device
US9239829B2 (en) 2010-10-01 2016-01-19 Mitsubishi Electric Corporation Speech recognition device
DE112010005918B4 (en) * 2010-10-01 2016-12-22 Mitsubishi Electric Corp. Voice recognition device
JP2012168266A (en) * 2011-02-10 2012-09-06 Ntt Docomo Inc Language ability determination device, language ability determination method, content distribution system and program
JP2014235219A (en) * 2013-05-31 2014-12-15 株式会社Jvcケンウッド Sentence presentation device, sentence presentation method and sentence presentation program
JP2017521724A (en) * 2014-07-24 2017-08-03 ハーマン インターナショナル インダストリーズ インコーポレイテッド Text rule based multiple accent speech recognition using single acoustic model and automatic accent detection
CN108711420A (en) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 Multilingual hybrid model foundation, data capture method and device, electronic equipment

Similar Documents

Publication Publication Date Title
US10140973B1 (en) Text-to-speech processing using previously speech processed data
TWI532035B (en) Method for building language model, speech recognition method and electronic apparatus
US10163436B1 (en) Training a speech processing system using spoken utterances
TWI539441B (en) Speech recognition method and electronic apparatus
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
JP4028375B2 (en) Language-independent speech-based search system
Ramani et al. A common attribute based unified HTS framework for speech synthesis in Indian languages
JP5040909B2 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US11093110B1 (en) Messaging feedback mechanism
JP2001100781A (en) Method and device for voice processing and recording medium
TW201517015A (en) Method for building acoustic model, speech recognition method and electronic apparatus
JP2008134475A (en) Technique for recognizing accent of input voice
JP2001296880A (en) Method and device to generate plural plausible pronunciation of intrinsic name
JP2002258890A (en) Speech recognizer, computer system, speech recognition method, program and recording medium
JP2008209717A (en) Device, method and program for processing inputted speech
CN104899192B (en) For the apparatus and method interpreted automatically
JPWO2011064829A1 (en) Information processing device
JP2008243080A (en) Device, method, and program for translating voice
KR100669241B1 (en) System and method of synthesizing dialog-style speech using speech-act information
JP2004271895A (en) Multilingual speech recognition system and pronunciation learning system
JP5334716B2 (en) Character information presentation control device and program
JP6397641B2 (en) Automatic interpretation device and method
JP5611270B2 (en) Word dividing device and word dividing method
JP2003162524A (en) Language processor

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060509