【0001】
【発明の属する技術分野】
本発明は複数言語の音声を同時に認識可能な音声認識システム、および音声認識システムを利用した発音学習システムに関する。
【0002】
【従来の技術】
近年の音声認識システムにおいては、単言語の認識ができるだけでなく、複数言語に対応できるものが望まれている。複数言語の認識が可能であれば、異なる言語間での通訳システムなどへの応用が可能である。
【0003】
従来の複数言語音声認識システムの一例として、各言語用の音声認識システムを並列に実行して認識結果のスコアを比較し、よりスコアの高いものを選択する方法を採用した音声認識装置がある(特許文献1参照。)。
【0004】
前記複数言語音声認識システムの他の例として、各言語用の音声認識システムを並列に実行して各言語における認識尤度を正規化し比較し認識尤度が最も大きな大きな言語を認識結果として出力する音声認識装置がある(特許文献2参照。)。
【0005】
また、このような音声認識システムを外国語の発音学習に利用しようという試みも行われている。その場合、学習者が発声した内容をシステムが認識し、認識結果に応じてその発声内容がどの程度当該外国語の発音に近いかを判定し、その結果を学習者へフィードバックする。
【0006】
従来の外国語発音学習システムの一例として、母国語の音声認識システムをベースとして、外国語の音素モデルを含むような音声標準パタンを新たに用意して、モデル音声との一致の程度を評価する方法を採用している外国語学習装置がある(特許文献3参照。)。
【0007】
【特許文献1】
特開2001−188556号公報(第1頁、図1)
【特許文献2】
特開平10−116093号公報(第1頁、図1)
【特許文献3】
特開2001−282098号公報(第1頁、図1)
【0008】
【発明が解決しようとする課題】
従来の技術の問題点は、言語ごとに認識システムや音素モデルを作成する必要があるためコストがかかり、認識時の処理量も単言語の音声の認識と比べ増大する、ということである。
【0009】
本発明の目的は、複数の言語の発音を認識する簡易な音声認識システムを提供すること、及び実現が簡易な発音学習システムを提供することにある。
【0010】
【課題を解決するための手段】
本発明の第1の複数言語音声認識システムは、入力音声を受け付け、少なくとも一部の単語に複数の言語の発音情報を、共通のある特定の言語の発音記述方式で記述し、その発音情報がどの言語に属しているかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの言語に属していたかに応じて出力を変えることを特徴とする。
【0011】
本発明の第2の複数言語音声認識システムは、入力音声を受け付け、少なくとも一部の単語に複数の言語の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属しているかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの言語に属していたかに応じて出力を変えることを特徴とする。
【0012】
本発明の第3の複数言語音声認識システムは、入力音声を受け付け、少なくとも一部の単語に複数の方言の発音情報を、そのうちのいずれかの方言の発音記述方式で記述し、その発音情報がどの方言に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報がどの方言に属していたかを出力することを特徴とする。
【0013】
本発明の第1の発音学習システムは、入力音声を受け付け、少なくとも一部の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその読みを探索し、前記探索の結果として少なくとも前記単語または単語列の読みが母国語風であったか外国語風であったかを出力することを特徴とする。
【0014】
本発明の第2の発音学習システムは、提示された発声内容に対する入力音声を受け付け、前記発声内容の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも前記単語または単語列の発音情報が母国語風であったか外国語風であったかを出力することで、発声内容の外国語発音らしさを判定することを特徴とする。
【0015】
本発明の第3の発音学習システムは、提示された発声内容に対する入力音声を受け付け、前記発声内容の単語に母国語風と外国語風の発音情報を、そのうちのいずれかの言語の発音記述方式で記述し、その発音情報がどの言語に属していたかの情報とともに登録した認識辞書を備え、前記認識辞書に登録されている単語の中から入力音声に最も近い単語または単語列およびその発音情報を探索し、前記探索の結果として少なくとも母国語のもっともらしさのスコアと外国語のもっともらしさのスコアから外国語らしさのスコアを計算して出力することを特徴とする。
【0016】
本発明の第4の発音学習システムは、前記第1〜第3の何れかの発音学習システムに於いて、ある言語風の発音情報を、その言語の本来の発音あるいは表記あるいはその両者の組み合わせから、異なる言語の発音情報へ変換する発音変換部を備え、前記発音変換部の出力である発音情報を認識辞書に登録することで、前記発音情報を探索の対象として用いることを特徴とする。
【0017】
本発明の第5の発音学習システムは、前記第1〜第4の何れかの発音学習システムに於いて、少なくとも韻律を発音情報として用いることを特徴とする。
【0018】
本発明の第6の発音学習システムは、音声認識を利用した発音学習システムであり、認識結果が母国語であれば母国語で結果出力し、外国語であれば外国語で結果出力することを特徴とする。
【0019】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。図1は、本発明による複数言語音声認識システムの全体の構成を示した図である。本発明による複数言語音声認識システムは、音声入力を行うマイクロフォン102と、入力音声から最も確からしい結果を探索する音声認識部103と、音声認識部103の探索対象である各単語に複数言語の発音情報をその属性とともに記述した複数言語認識辞書104と、音声認識部103の探索の結果を出力する結果出力部105とからなる。
【0020】
図2は、図1の複数言語認識辞書104の例である。ある単語Aに対し、言語aの発音情報Aaと言語bの発音情報Abをそれぞれ別のエントリとして持つ。また、各エントリにはその属性が付与されている。
【0021】
次に、図3の流れ図を用いて本発明による複数言語音声認識システムの動作の一例を説明する。
【0022】
入力音声101に対して処理をスタートし(ステップ201)、マイクロフォン102より音声を入力し(ステップ202)、音声認識部103において最も確からしい単語エントリを探索し(ステップ203)、探索した単語エントリの属性を参照し、その属性に応じて(ステップ204)、結果出力部105にて言語aの出力を行なう(ステップ205)、或いは言語bの出力を行う(ステップ206)。
【0023】
尚、複数言語認識辞書の属性が言語a、言語bの他にありn通りの言語識別を含む場合は、ステップ204以降でそれに応じたn通りの言語出力を行う。
【0024】
次に、本発明の第2の実施の形態について説明する。本発明の第2の実施の形態では、複数言語認識辞書として、外国語の単語に対し当該外国語風および母国語風の複数の発音情報を持つものを備える。
【0025】
次に、図4の流れ図を用いて本発明の第2の実施の形態の動作の一例を説明する。入力音声101に対して処理をスタートし(ステップ301)、マイクロフォン102より音声を入力し(ステップ302)、音声認識部103において最も確からしい単語およびその発音情報を探索する(ステップ303)。
【0026】
このとき、どの発音情報によってその単語が探索されたかの属性に応じて入力音声の外国語らしさが決まり、その属性に応じて(ステップ304)、結果出力部105にて母国語属性の出力を行なう(ステップ305)、或いは外国語属性の出力を行う(ステップ306)。
【0027】
【実施例】
次に、具体的な実施例を用いて前記第1及び第2の実施形態を説明する。図5は本発明における複数言語認識辞書の一例である。図5に示すように、英語属性のcoffeeには英語での本来の発音をそれに近い日本語発音表記で表した「かふぃ」、「かひ」の読みを、日本語属性のcoffeeには「こーひー」の読みをそれぞれ与えることで、英語日本語両方のcoffeeが認識可能となる。
【0028】
外国語の発音学習システムとしては、coffeeの入力音声に対し英語属性のcoffeeが結果として出力されれば、英語として発音が正確であると判定する。
【0029】
結果出力においては、属性をそのまま出力する方法と、日本語属性であれば「こーひー」を、英語属性であれば「coffee」をそれぞれ出力する方法と、それらをテキスト出力だけでなく音声出力する方法とがある。
【0030】
また、音声認識部103において、日本語属性の「こーひー」に対するもっともらしさと英語属性の「かふぃ」に対するもっともらしさから、英語らしさのスコアを計算して学習者に提示するという方法もある。
【0031】
更に、発音情報としては図5に示すような読みだけではなく、アクセントやイントネーションなどの韻律を用いて英語らしさと日本語らしさを判定するという方法もある。この方法は、同一言語内での方言の違いを判定するのに効果がある。
【0032】
図6は、図1の複数言語認識辞書104を作成するために発音変換部402を用いた例である。
【0033】
ある言語本来の発音情報401を発音変換部402に入力し、別の言語の発音情報として複数言語認識辞書104を自動生成する。
【0034】
例えば、英語のcoffeeという単語には元々/k/ao/f/iy/という英語の発音情報が付与されていたとすると、/k/ao/から「か」を、/f/iy/から「ふぃ」あるいは「ひ」を生成するようなルールを発音変換部に用意しておくことで、coffeeという単語の発音情報として「かふぃ」あるいは「かひ」を得ることができる。
【0035】
同様に、coffeeという表記のうち、”co”から「こー」を、”ffee”から「ひー」を生成するようなルールを発音変換部に用意しておくことで、coffeeという単語の発音情報として「こーひー」も得ることができる。
【0036】
【発明の効果】
第1の効果は、複数言語の音声を認識するために単言語の音声認識システムがあれば良いので、複数の音声認識システムや複数言語に対応した音声標準パタンを用意する必要がないため、簡易な実現が可能となり、認識時の処理量の増加も抑えられることである。
【0037】
第2の効果は、外国語等の発音学習において、複数の音声認識システムや複数言語に対応した音声標準パタンを用意する必要がないため、簡易な実現が可能となることである。
【図面の簡単な説明】
【図1】本発明の第1および第2の実施の形態の構成を示すブロック図である。
【図2】図1の複数言語認識辞書104の具体例を示す図である。
【図3】第1の実施の形態の動作を示す流れ図である。
【図4】第2の実施の形態の動作を示す流れ図である。
【図5】第1および第2の実施の形態の具体例を示す図である。
【図6】第1および第2の実施の形態の具体例を示す図である。
【符号の説明】
101 入力音声
102 マイクロフォン
103 音声認識部
104 複数言語認識辞書
105 結果出力部
401 各言語本来の発音情報
402 発音変換部
S201 認識処理開始
S202 音声の入力
S203 探索
S204 探索結果の属性を参照
S205 言語aの出力
S206 言語bの出力
S207 認識処理終了
S301 認識処理開始
S302 音声の入力
S303 探索
S304 探索結果の属性を参照
S305 母国語属性の出力
S306 外国語属性の出力
S307 認識処理終了[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition system capable of simultaneously recognizing speech in a plurality of languages, and a pronunciation learning system using the speech recognition system.
[0002]
[Prior art]
In recent years, a speech recognition system that can not only recognize a single language but also supports a plurality of languages is desired. If recognition of a plurality of languages is possible, application to an interpreter system between different languages is possible.
[0003]
As an example of a conventional multilingual speech recognition system, there is a speech recognition device that adopts a method of executing speech recognition systems for respective languages in parallel, comparing scores of recognition results, and selecting a higher score. See Patent Document 1.).
[0004]
As another example of the multilingual speech recognition system, a speech recognition system for each language is executed in parallel to normalize and compare the recognition likelihood in each language, and outputs a large language having the largest recognition likelihood as a recognition result. There is a voice recognition device (see Patent Document 2).
[0005]
Attempts have also been made to use such a speech recognition system for learning pronunciation in foreign languages. In that case, the system recognizes the content uttered by the learner, determines how close the uttered content is to the pronunciation of the foreign language in accordance with the recognition result, and feeds back the result to the learner.
[0006]
As an example of a conventional foreign language pronunciation learning system, a new speech standard pattern including a phoneme model of a foreign language is newly prepared based on a native language speech recognition system, and the degree of matching with the model speech is evaluated. There is a foreign language learning device adopting the method (see Patent Document 3).
[0007]
[Patent Document 1]
JP 2001-188556 A (page 1, FIG. 1)
[Patent Document 2]
JP-A-10-116093 (page 1, FIG. 1)
[Patent Document 3]
JP 2001-282098 A (page 1, FIG. 1)
[0008]
[Problems to be solved by the invention]
The problem with the conventional technique is that it is necessary to create a recognition system and a phoneme model for each language, so that the cost is high and the processing amount at the time of recognition is larger than that of monolingual speech recognition.
[0009]
An object of the present invention is to provide a simple speech recognition system for recognizing pronunciations in a plurality of languages, and to provide a pronunciation learning system that can be easily realized.
[0010]
[Means for Solving the Problems]
A first multi-language speech recognition system of the present invention accepts input speech, describes pronunciation information of a plurality of languages in at least some of the words by a common pronunciation description method of a specific language, and the pronunciation information is A recognition dictionary registered with information on which language belongs, a word or word string closest to the input voice and its pronunciation information are searched from words registered in the recognition dictionary, and as a result of the search, The output is changed at least according to which language the pronunciation information of the word or word string belongs to.
[0011]
A second multi-language speech recognition system of the present invention accepts an input speech, describes pronunciation information of a plurality of languages in at least some of the words by a pronunciation description method of any of the languages, and the pronunciation information is A recognition dictionary registered with information on which language belongs, a word or word string closest to the input voice and its pronunciation information are searched from words registered in the recognition dictionary, and as a result of the search, The output is changed at least according to which language the pronunciation information of the word or word string belongs to.
[0012]
The third multilingual speech recognition system of the present invention accepts an input speech, describes pronunciation information of a plurality of dialects in at least a part of words by using a pronunciation description method of any of the dialects, and the pronunciation information is used. A recognition dictionary registered with information on which dialect it belongs to, a word or word string closest to the input voice and its pronunciation information are searched from words registered in the recognition dictionary, and at least as a result of the search, It is characterized by outputting which dialect the pronunciation information of the word or word string belongs to.
[0013]
The first pronunciation learning system of the present invention receives an input speech, describes native language-like and foreign language-like pronunciation information in at least some of the words in a pronunciation description system of one of the languages, and generates the pronunciation. A recognition dictionary registered with information on which language the information belongs to, a word or word string closest to the input voice and its reading are searched from words registered in the recognition dictionary, and as a result of the search, It is characterized by outputting whether at least the reading of the word or the word string is a native language style or a foreign language style.
[0014]
A second pronunciation learning system according to the present invention receives an input speech corresponding to a presented utterance content, and outputs native-style and foreign-language style pronunciation information to words of the utterance content, and a pronunciation description system for any of the languages. And a recognition dictionary registered together with information on which language the pronunciation information belongs to, and searching for a word or word string closest to the input voice and its pronunciation information from words registered in the recognition dictionary. Then, by outputting whether at least the pronunciation information of the word or the word string is a native language style or a foreign language style as a result of the search, the likelihood of foreign language pronunciation of the utterance content is determined.
[0015]
A third pronunciation learning system according to the present invention receives an input voice corresponding to a presented utterance content, and outputs native language-like and foreign language-like pronunciation information to words of the utterance content, and a pronunciation description system for any one of the languages. And a recognition dictionary registered together with information on which language the pronunciation information belongs to, and searching for a word or word string closest to the input voice and its pronunciation information from words registered in the recognition dictionary. Then, as a result of the search, a score of the plausibility of the foreign language is calculated and output from at least the plausibility score of the native language and the plausibility score of the foreign language.
[0016]
A fourth pronunciation learning system according to the present invention, in any one of the first to third pronunciation learning systems, converts the pronunciation information of a certain language style from the original pronunciation or notation of the language or a combination of both. A pronunciation conversion unit that converts the pronunciation information into pronunciation information of a different language. The pronunciation information output from the pronunciation conversion unit is registered in a recognition dictionary, so that the pronunciation information is used as a search target.
[0017]
According to a fifth pronunciation learning system of the present invention, in any one of the first to fourth pronunciation learning systems, at least prosody is used as pronunciation information.
[0018]
The sixth pronunciation learning system of the present invention is a pronunciation learning system using speech recognition, and outputs a result in a native language if the recognition result is a native language, and outputs a result in a foreign language if the recognition result is a foreign language. Features.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram showing an overall configuration of a multilingual speech recognition system according to the present invention. A multi-language speech recognition system according to the present invention includes a microphone 102 that performs speech input, a speech recognition unit 103 that searches for the most probable result from the input speech, and a multi-language pronunciation for each word to be searched by the speech recognition unit 103. It comprises a multi-language recognition dictionary 104 in which information is described together with its attributes, and a result output unit 105 for outputting a search result of the speech recognition unit 103.
[0020]
FIG. 2 is an example of the multiple language recognition dictionary 104 of FIG. For a certain word A, pronunciation information Aa of language a and pronunciation information Ab of language b are provided as separate entries. Each entry is provided with its attribute.
[0021]
Next, an example of the operation of the multilingual speech recognition system according to the present invention will be described with reference to the flowchart of FIG.
[0022]
Processing is started for the input speech 101 (step 201), speech is input from the microphone 102 (step 202), and the most probable word entry is searched for in the speech recognition unit 103 (step 203). With reference to the attribute and according to the attribute (step 204), the result output unit 105 outputs the language a (step 205) or outputs the language b (step 206).
[0023]
If the attribute of the multiple language recognition dictionary is other than the language a and the language b and includes n kinds of language identifications, then n steps of the language output are performed in step 204 and subsequent steps.
[0024]
Next, a second embodiment of the present invention will be described. In the second embodiment of the present invention, a multilingual recognition dictionary having a plurality of foreign language-like and native language-like pronunciation information for a foreign language word is provided.
[0025]
Next, an example of the operation of the second exemplary embodiment of the present invention will be described with reference to the flowchart of FIG. Processing is started for the input speech 101 (step 301), speech is input from the microphone 102 (step 302), and the most probable word and its pronunciation information are searched for in the speech recognition unit 103 (step 303).
[0026]
At this time, the foreign language likeness of the input voice is determined according to the attribute of which pronunciation information the word was searched for, and the result output unit 105 outputs the native language attribute according to the attribute (step 304) (step 304). (Step 305) Or, output the foreign language attribute (Step 306).
[0027]
【Example】
Next, the first and second embodiments will be described using specific examples. FIG. 5 is an example of the multilingual recognition dictionary in the present invention. As shown in FIG. 5, in the English attribute coffee, the pronunciations of “kafu” and “kahi”, which represent the original pronunciation in English in a similar Japanese phonetic notation, and in the Japanese attribute coffee, By giving each of the readings of "kohi", the coffee in both English and Japanese can be recognized.
[0028]
In a foreign language pronunciation learning system, if an English attribute coffee is output as a result with respect to an input speech of coffee, it is determined that the pronunciation is accurate as English.
[0029]
In the output of the result, a method of outputting the attribute as it is, a method of outputting "kohi" for the Japanese attribute, and a method of outputting "coffee" for the English attribute, not only outputting the text but also the audio There is a way to output.
[0030]
Also, in the voice recognition unit 103, a score of English-likeness is calculated from the plausibility of the Japanese attribute "kohi" and the plausibility of the English attribute "kafu" and presented to the learner. There is also.
[0031]
Further, there is also a method of judging Englishness and Japaneseness using pronunciation as shown in FIG. 5 as pronunciation information, as well as prosody such as accent and intonation. This method is effective in determining dialect differences in the same language.
[0032]
FIG. 6 is an example in which the pronunciation conversion unit 402 is used to create the multiple language recognition dictionary 104 of FIG.
[0033]
The original pronunciation information 401 of a certain language is input to the pronunciation conversion unit 402, and the multilingual recognition dictionary 104 is automatically generated as pronunciation information of another language.
[0034]
For example, assuming that the English word "coffee" was originally provided with the English pronunciation information of / k / ao / f / iy /, "/" from / k / ao / and "fu" from / f / iy /. By preparing a rule for generating “@” or “hi” in the pronunciation conversion unit, “kafu” or “kahi” can be obtained as pronunciation information of the word “coffee”.
[0035]
Similarly, in the notation “coffee”, a rule that generates “ko” from “co” and “hi” from “ffee” is prepared in the pronunciation conversion unit, so that the pronunciation of the word “coffee” is obtained. "Kohi" can also be obtained as information.
[0036]
【The invention's effect】
The first effect is that there is no need to prepare a plurality of speech recognition systems or speech standard patterns corresponding to a plurality of languages, since a single language speech recognition system is sufficient for recognizing speech in a plurality of languages. And the increase in the amount of processing at the time of recognition can be suppressed.
[0037]
The second effect is that it is not necessary to prepare a plurality of speech recognition systems and speech standard patterns corresponding to a plurality of languages in pronunciation learning of a foreign language or the like, so that simple realization is possible.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of first and second embodiments of the present invention.
FIG. 2 is a diagram showing a specific example of the multiple language recognition dictionary 104 of FIG.
FIG. 3 is a flowchart showing the operation of the first embodiment.
FIG. 4 is a flowchart showing the operation of the second embodiment.
FIG. 5 is a diagram showing a specific example of the first and second embodiments.
FIG. 6 is a diagram showing a specific example of the first and second embodiments.
[Explanation of symbols]
101 Input speech 102 Microphone 103 Speech recognition unit 104 Multiple language recognition dictionary 105 Result output unit 401 Original pronunciation information of each language 402 Pronunciation conversion unit S201 Recognition processing start S202 Voice input S203 Search S204 Refer to search result attribute S205 Language a Output S206 Output of language b S207 Recognition processing end S301 Recognition processing start S302 Speech input S303 Search S304 Refer to search result attributes S305 Output of native language attributes S306 Output of foreign language attributes S307 End of recognition processing