JP2020144213A - Program, device and method for pronunciation evaluation using inter-model distance - Google Patents
Program, device and method for pronunciation evaluation using inter-model distance Download PDFInfo
- Publication number
- JP2020144213A JP2020144213A JP2019040452A JP2019040452A JP2020144213A JP 2020144213 A JP2020144213 A JP 2020144213A JP 2019040452 A JP2019040452 A JP 2019040452A JP 2019040452 A JP2019040452 A JP 2019040452A JP 2020144213 A JP2020144213 A JP 2020144213A
- Authority
- JP
- Japan
- Prior art keywords
- pronunciation
- evaluation
- target
- model
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明は、所定の言語の発音を評価する技術に関する。 The present invention relates to a technique for evaluating the pronunciation of a predetermined language.
近年、隠れマルコフモデル(HMM,Hidden Markov Models)や、深層ニューラルネットワーク(DNN,Deep Neural Networks)アルゴリズムを用いた自動音声認識(ASR,Automatic Speech Recognition)技術の発展によって、発音評価や発音スコアリングを自動的に実施する技術が大いに注目されている。 In recent years, with the development of Hidden Markov Models (HMM) and Automatic Speech Recognition (ASR) technology using Deep Neural Networks (DNN) algorithms, pronunciation evaluation and pronunciation scoring have been improved. The technology that implements automatically is drawing a lot of attention.
例えば非特許文献1には、HMMを用いた自動発音評価技術がいくつか紹介されている。具体的には最初の例として、HMM強制切り出し(forced alignment)処理とともに、コンテキスト独立型のモデルセットを用いて取得される発話履歴の事後確率スコアを利用して、発音評価を行う技術が開示されている。
For example, Non-Patent
この技術では、発音スコアを決定するのに使用される音響モデルの学習用データとして、100人のネイティブの発話者による16000個の発話文が使用されている。また、発音評価に必要なデータとして、評価対象である生徒による発話のテキストが利用されている。 The technique uses 16000 utterances from 100 native speakers as training data for the acoustic model used to determine the pronunciation score. In addition, as the data necessary for pronunciation evaluation, the text of the utterance by the student who is the evaluation target is used.
さらに2番目の例として、発音のセグメント持続時間(segment duration)スコアを用いて、発音評価を行う技術が開示されている。ここで、セグメント持続時間スコアは、発話におけるセグメント持続時間の離散分布に基づき導出される規格化持続時間のログ尤度を用いて算出されている。また、対象言語のネイティブによる発音データによって学習済みの離散観測列を出力するHMMが使用されている。 As a second example, a technique for evaluating pronunciation using a segment duration score of pronunciation is disclosed. Here, the segment duration score is calculated using the log likelihood of the normalized duration derived based on the discrete distribution of the segment duration in the utterance. In addition, an HMM that outputs a discrete observation sequence that has been learned from pronunciation data native to the target language is used.
また3番目の例として、発話内セグメントにおける各母音の中心の時間間隔によって規定されるタイミングスコアを使用して、発音評価を行う技術が開示されている。 Further, as a third example, a technique for evaluating pronunciation using a timing score defined by a time interval at the center of each vowel in an intra-speech segment is disclosed.
さらに、非特許文献2には、DNNを用いた自動発音評価技術が開示されている。この技術では、GOP(Goodness Of Pronunciation)を用いた発音評価が行われており、このGOPは、
(a)フォワードバックワードアルゴリズムよってラティス(lattice)から導出された事後確率、
(b)DNNから導出される平均フレームレベル(frame-level)事後確率、又は
(c)正解モデルと競合モデルとの尤度比
から算出されている。
Further, Non-Patent Document 2 discloses an automatic pronunciation evaluation technique using DNN. In this technology, pronunciation evaluation using GOP (Goodness Of Pronunciation) is performed, and this GOP is
(A) Posterior probabilities derived from the lattice by the forward backward algorithm,
It is calculated from (b) the average frame-level posterior probability derived from DNN, or (c) the likelihood ratio between the correct model and the competition model.
このうち、DNNの音声要素(Senone,音素より更に細かい単位)ノードから算出されたGOP、及び正解モデルと競合モデルとの尤度比から算出されたGOPはいずれも、人間による音声評価スコアとの間で高い相関を示している。ちなみに、本技術におけるDNNの学習用データセットは、284人のネイティブ英語発話者(米国人)の発話を記録した78時間分のコーパスを含んでいる。また、本技術では、発話の正確な翻音(transcription)データが必要データとして活用されている。 Of these, the GOP calculated from the DNN voice element (Senone, a unit finer than phonemes) node and the GOP calculated from the likelihood ratio between the correct answer model and the competition model are both the same as the human voice evaluation score. It shows a high correlation between them. By the way, the DNN learning dataset in this technology contains a 78-hour corpus recording the utterances of 284 native English speakers (Americans). Further, in this technology, accurate transcription data of utterances is utilized as necessary data.
しかしながら、非特許文献1及び2に記載されたような従来技術においては、学習データによるモデル構築の際の処理負担や、システムのフレキシビリティ等について、重大な問題の生じているのが現状である。
However, in the prior art as described in
例えば、非特許文献1に記載された技術では、正確なHMMを構築するのに膨大な量の学習データ、例えば数百人のネイティブ発話者による数千個の発話文データが必要となっている。
For example, the technique described in Non-Patent
さらに、この技術は、強制切り出し型音素アライメント(forced alignment)に基づいた発音評価を行うので、その発音評価のために、予め発音評価対象(例えば生徒)による発話の正確なテキスト情報が必要となる。またそれ故、システムのフレキシビリティが低く、例えば新たな発音評価対象(例えば新入生)に対しては、それに応じてモデルを改変しなければならなくなる。さらにそのような事情もあって、この技術による評価スコアと人間による評価スコアとの相関係数は、良くても0.579にとどまっているのである。 Furthermore, since this technique performs pronunciation evaluation based on forced alignment, accurate text information of utterances by pronunciation evaluation targets (for example, students) is required for the pronunciation evaluation. .. Therefore, the flexibility of the system is low, and for example, for a new pronunciation evaluation target (for example, a freshman), the model must be modified accordingly. Furthermore, due to such circumstances, the correlation coefficient between the evaluation score by this technology and the evaluation score by humans is only 0.579 at best.
また、非特許文献2に記載された技術は、DNNに基づいた手法であるので設定が非常に複雑であり、DNNにおける数多くのパラメータの調整が必要となり、正確な音響モデルを得るためには、膨大な数の学習データが必要となってしまう。さらに、この技術でも強制切り出し型音素アライメントを用いる場合があり、この場合、上述したように予め発音評価対象による発話の正確なテキスト情報が必要となってしまう。 Further, since the technique described in Non-Patent Document 2 is a method based on DNN, the setting is very complicated, and it is necessary to adjust many parameters in DNN. In order to obtain an accurate acoustic model, A huge amount of learning data is required. Further, this technique may also use forced cut-out type phoneme alignment, and in this case, as described above, accurate text information of the utterance by the pronunciation evaluation target is required in advance.
また、この技術では、演算処理負担が相当に高くなっており、例えばリアルタイムでの発音評価が非常に困難となる場合も生じる。特に、正解モデルと競合モデルとの尤度比を用いて発音評価を行うケースでは演算処理に時間がかかり、それ故、リアルタイムでの発音評価は実質的に不可能となっている。また結果的に、この技術による評価スコアと人間による評価スコアと相関係数は、良くても0.50にとどまっているのである。 Further, in this technique, the load of arithmetic processing is considerably high, and for example, pronunciation evaluation in real time may become very difficult. In particular, in the case where the pronunciation evaluation is performed using the likelihood ratio between the correct answer model and the competition model, the arithmetic processing takes time, and therefore the pronunciation evaluation in real time is practically impossible. As a result, the evaluation score by this technology, the evaluation score by humans, and the correlation coefficient are only 0.50 at best.
そこで、本発明は、リアルタイム評価も可能にするようなより少ない演算処理負担で発音評価を実施することができるプログラム、装置及び方法を提供することを目的とする。 Therefore, an object of the present invention is to provide a program, an apparatus, and a method capable of performing pronunciation evaluation with a smaller calculation processing load that also enables real-time evaluation.
本発明によれば、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。
According to the present invention, it is a pronunciation evaluation program for operating a computer mounted on a device for evaluating the pronunciation of a predetermined language performed by a pronunciation evaluation target by using a model related to pronunciation.
For each of the plurality of pronunciation units constituting the pronunciation of the predetermined language, or for the predetermined pronunciation unit among them, the model constructed for the pronunciation unit included in the pronunciation performed by the distance calculation target and the pronunciation An inter-model distance calculation means for calculating the inter-model distance with a model constructed for other included pronunciation units, and
Evaluation score determining means for determining the evaluation score regarding the distinctiveness of pronunciation of the pronunciation unit performed by the pronunciation evaluation target based on the target model distance, which is the distance between the models calculated with the pronunciation evaluation target as the distance calculation target. A pronunciation evaluation program is provided to make the computer function.
この本発明の発音評価プログラムにおいて、評価スコア決定手段は、当該対象モデル間距離と、発音評価の基準となる発音基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該評価スコアを決定することも好ましい。 In the pronunciation evaluation program of the present invention, the evaluation score determining means is the distance between the target models and the distance between the reference models, which is the distance between the models calculated with the pronunciation reference target as the reference for the pronunciation evaluation as the distance calculation target. It is also preferable to determine the evaluation score based on the degree of difference.
また具体的に、評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、当該発音単位毎に算出される差における当該発音単位についての総和に基づいて、当該評価スコアを決定することも好ましい。 Specifically, the evaluation score determining means is the difference between the distance between the target models and the distance between the reference models, and is based on the sum of the pronunciation units in the difference calculated for each pronunciation unit. It is also preferable to determine the evaluation score.
さらに、評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、特定の発音単位について算出される差に基づいて、当該特定の発音単位に関する評価スコアを決定することも好ましい。 Further, the evaluation score determining means determines the evaluation score for the specific pronunciation unit based on the difference between the distance between the target models and the distance between the reference models, which is calculated for the specific pronunciation unit. It is also preferable.
また、本発明の発音評価プログラムの一実施形態として、本発音評価プログラムは、当該発音評価対象相当によって行われた発音に係るデータを用いて構築したモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている当該発音単位についてのモデルを生成する対象モデル生成手段として、コンピュータを更に機能させることも好ましい。 Further, as an embodiment of the pronunciation evaluation program of the present invention, the pronunciation evaluation program uses the pronunciation of the pronunciation evaluation target for a model constructed using data related to the pronunciation performed by the pronunciation evaluation target equivalent. It is also preferable to further function the computer as a target model generation means for generating a model for the pronunciation unit included in the pronunciation performed by the pronunciation evaluation target by performing the regression adaptation processing.
さらに、本発明の発音評価プログラムの他の実施形態として、本発音評価プログラムは、発音評価の基準となる発音基準対象によって行われた発音に係るデータを用いて構築されたモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている当該発音単位についてのモデルを生成する対象モデル生成手段として、コンピュータを更に機能させることも好ましい。 Further, as another embodiment of the pronunciation evaluation program of the present invention, the pronunciation evaluation program refers to a model constructed by using data related to pronunciation performed by a pronunciation reference object that is a reference for pronunciation evaluation. By performing regression adaptation processing using the pronunciation of the evaluation target, the computer further functions as a target model generation means for generating a model for the pronunciation unit included in the pronunciation performed by the pronunciation evaluation target. It is also preferable.
また、本発明の発音評価プログラムの更なる他の実施形態として、評価スコア決定手段は、当該対象モデル間距離に係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することも好ましい。 Further, as a further embodiment of the pronunciation evaluation program of the present invention, the evaluation score determining means applies the value related to the distance between the target models to the trained evaluation score estimation model to determine the evaluation score. It is also preferable.
さらに、本発明の発音評価プログラムにおいて、当該発音に係るモデルは、隠れマルコフモデル(Hidden Markov Model)であることも好ましい。また、当該発音評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す発音提供者であることも好ましい。 Further, in the pronunciation evaluation program of the present invention, it is also preferable that the model related to the pronunciation is a Hidden Markov Model. Further, it is also preferable that the pronunciation evaluation target is a learner of the predetermined language, and the evaluation standard target is a pronunciation provider who speaks the predetermined language as the mother tongue.
本発明によれば、また、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する発音評価装置であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
を有する発音評価装置が提供される。
According to the present invention, it is also a pronunciation evaluation device that evaluates the pronunciation of a predetermined language performed by a pronunciation evaluation target by using a model related to pronunciation.
For each of the plurality of pronunciation units constituting the pronunciation of the predetermined language, or for the predetermined pronunciation unit among them, the model constructed for the pronunciation unit included in the pronunciation performed by the distance calculation target and the pronunciation An inter-model distance calculation means for calculating the inter-model distance with a model constructed for other included pronunciation units, and
Evaluation score determining means for determining the evaluation score regarding the distinctiveness of pronunciation of the pronunciation unit performed by the pronunciation evaluation target based on the distance between the target models, which is the distance between the models calculated with the pronunciation evaluation target as the distance calculation target. A pronunciation evaluation device having the above is provided.
本発明によれば、さらに、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータによって実施される発音評価方法であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するステップと、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定するステップと
を有する発音評価方法が提供される。
According to the present invention, the pronunciation evaluation method is further performed by a computer mounted on a device for evaluating the pronunciation of a predetermined language performed by a pronunciation evaluation target using a model related to pronunciation.
For each of the plurality of pronunciation units constituting the pronunciation of the predetermined language, or for the predetermined pronunciation unit among them, the model constructed for the pronunciation unit included in the pronunciation performed by the distance calculation target and the pronunciation Steps to calculate the inter-model distance from the model constructed for the other included pronunciation units,
It has a step of determining an evaluation score regarding the distinctiveness of pronunciation of a pronunciation unit performed by the pronunciation evaluation target based on the target model distance, which is the distance between models calculated with the pronunciation evaluation target as the distance calculation target. A pronunciation evaluation method is provided.
本発明の発音評価プログラム、装置及び方法によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で発音評価を実施することができる。 According to the pronunciation evaluation program, apparatus and method of the present invention, pronunciation evaluation can be performed with less computational processing load that also enables real-time evaluation.
以下、本発明の実施形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[発音評価システム・装置]
図1は、本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。
[Pronunciation evaluation system / device]
FIG. 1 is a schematic diagram showing an embodiment of a pronunciation evaluation system including a pronunciation evaluation device according to the present invention.
図1に示した本実施形態の発音評価システムは、
(a)隠れマルコフモデル(HMM,Hidden Markov Model)等の発音に係るモデルを用い、発音評価対象によって行われた所定言語の発音を評価する、本発明による発音評価装置1と、
(b)発音評価装置1とインターネット等を介して通信接続されたサーバ2と
を含む。このうち(a)の発音評価装置1は、例えば本発明による発音評価プログラムをダウンロードした端末、すなわちパーソナル・コンピュータ(PC)、タブレット型コンピュータや、スマートフォン等とすることが可能である。
The pronunciation evaluation system of the present embodiment shown in FIG. 1 is
(A) A
(B) The
発音評価装置1は、発音評価対象、例えば外国語会話教室の生徒(例えば第2言語の学習者)による習得中の外国語言語(所定言語)の発音群を、例えばマイク105を介して入力し、この生徒(発音評価対象)に対し、例えばディスプレイ107やスピーカ106を介して当該発音群に対する評価結果、例えば後述する5段階の評価スコアを提示することができる。
The
具体的に、発音評価装置1はその特徴として、
(A)所定言語の発音を構成する複数の「発音単位」における各々について又はそのうちの所定の「発音単位」について、距離算出対象によって行われた発音に含まれている当該「発音単位」について構築されたモデルと、当該発音に含まれている他の「発音単位」について構築されたモデルとの「モデル間距離」を算出する対象モデル間距離算出部113と、
(B)発音評価対象を距離算出対象として算出されたモデル間距離である「対象モデル間距離」に基づいて、発音評価対象によって行われた発音単位の発音の識別性に関する「評価スコア」を決定する評価スコア決定部114と
を有している。
Specifically, the
(A) For each of the plurality of "pronunciation units" constituting the pronunciation of a predetermined language, or for the predetermined "pronunciation unit" among them, the "pronunciation unit" included in the pronunciation performed by the distance calculation target is constructed. The target model-to-model
(B) Based on the "distance between target models", which is the distance between models calculated with the pronunciation evaluation target as the distance calculation target, the "evaluation score" regarding the distinctiveness of pronunciation of the pronunciation unit performed by the pronunciation evaluation target is determined. It has an evaluation
ここで、上記構成(A)の「発音単位」は「音素」とすることができる。例えば所定言語が英語である場合、一般に英語の「音素」数は44個(母音20個,子音24個)とされており、例えば後に詳細に説明するように、44個の「音素」の各々のモデルについて、他の(43個の)「音素」のモデルとの「モデル間距離」、及びそれらの総和を算出することはそれほど大きな処理負担とはならない。 Here, the "pronunciation unit" of the above configuration (A) can be a "phoneme". For example, when the predetermined language is English, the number of "phonemes" in English is generally 44 (20 vowels, 24 consonants). For example, as will be described in detail later, each of the 44 "phonemes" For this model, calculating the "inter-model distance" from other (43) "phoneme" models and the sum of them is not a large processing burden.
また変更態様として、上記構成(A)の「発音単位」として例えば「単語」を設定することも可能である。しかしながらこの場合、1つの所定言語に属する「単語」全てについて「モデル間距離」を算出することは実際上困難であるので、発音を構成する「単語」の数を所定数に限定して発音評価を行うことになる。 Further, as a modification mode, for example, a "word" can be set as the "pronunciation unit" of the above configuration (A). However, in this case, since it is practically difficult to calculate the "inter-model distance" for all the "words" belonging to one predetermined language, the number of "words" constituting the pronunciation is limited to a predetermined number for pronunciation evaluation. Will be done.
さらに具体的に、上記構成(A)のモデルは、各「発音単位」についてのHMMとすることができ、また、「モデル間距離」は、1つの「発音単位」についてのHMMと、他の「発音単位」についてのHMMとの距離とすることが可能である。HMMにおける「モデル間距離」の具体的定義は、後に、対象モデル間距離算出部113の説明のところで詳細に述べる。
More specifically, the model of the above configuration (A) can be an HMM for each "pronunciation unit", and the "inter-model distance" can be an HMM for one "pronunciation unit" and another. It can be the distance from the HMM for the "pronunciation unit". The specific definition of "inter-model distance" in HMM will be described in detail later in the description of the inter-model
ここで、本願発明者等は、このように算出された「モデル間距離」(の総和)が、発音評価に利用できることを見出した。例えば、所定言語における1つの音素のHMMと、他の(残りの)音素のHMMとの「モデル間距離」の総和は、ネイティブ(所定言語を母国語として話す者)の発話者においてより大きくなり、一方、ノンネイティブの発話者においてはより小さくなる傾向にある。 Here, the inventors of the present application have found that the "distance between models" (total) calculated in this way can be used for pronunciation evaluation. For example, the sum of the "inter-model distances" between the HMM of one phoneme in a given language and the HMM of another (remaining) phoneme is greater for native speakers (those who speak the given language as their mother tongue). On the other hand, it tends to be smaller for non-native speakers.
これは、所定言語に熟達しているほど、各音素の発音が、他の(残りの)音素の発音から見てより明確に区別される、すなわち各音素の発音の識別性がより高くなることによるのである。したがって、後に図2を用いて詳述するが、一般に、ノンネイティブの音素のHMMモデル距離空間における分布は、ネイティブの音素のそれに比較して、より狭い範囲に留まってしまう。 This is because the more proficient in a given language, the more clearly the pronunciation of each phoneme is distinguished from the pronunciation of other (remaining) phonemes, that is, the more distinctive the pronunciation of each phoneme is. It depends. Therefore, as will be described in detail later with reference to FIG. 2, in general, the distribution of non-native phonemes in the HMM model metric space remains in a narrower range than that of native phonemes.
本願発明者等は、このような知見に基づき、「対象モデル間距離」を利用して、上記構成(B)の「発音単位の発音の識別性に関する評価スコア」を考案したのである。 Based on such findings, the inventors of the present application devised the "evaluation score regarding the distinctiveness of pronunciation of pronunciation units" of the above configuration (B) by utilizing the "distance between target models".
ここで、「モデル間距離」算出のための処理負担は、例えばDNNによる発音評価処理と比較しても各段に少なくて済む。したがって、上記の「評価スコア」は、必要となるモデルを予め構築しておけば、リアルタイムで(発音評価対象の発音を取得したその場で)決定することも可能となる。すなわち、発音評価装置1によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で効率的に発音評価を実施することができるのである。
Here, the processing load for calculating the "distance between models" is much smaller than that of the pronunciation evaluation processing by DNN, for example. Therefore, the above-mentioned "evaluation score" can be determined in real time (on the spot when the pronunciation of the pronunciation evaluation target is acquired) by constructing the necessary model in advance. That is, according to the
また、本実施形態の発音評価装置1では、発音評価を行う際、強制切り出し型音素アライメント(forced alignment)手法を用いる必要がない。したがって、発音評価のために、発声データをテキスト化する必要もなければ、評価基準対象(例えばネイティブ教師)による基準発話文の提供も不要となり、さらには評価基準対象と発音評価対象とが同一の又は対応する発音を行う必要もないので、発音評価の処理負担がより低減する。
Further, in the
以上説明したように、本実施形態では、発音評価装置1における処理演算量や必要となるメモリ量を大幅に低減させることも可能となり、この場合、例えば発音評価装置1を、計算能力に一定の限界を有する携帯端末に収めることもできる。さらに例えば、最終的な発音の「評価スコア」を概ねリアルタイムで(より少ない遅延時間で)出力するモードも実現可能となるのである。
As described above, in the present embodiment, it is possible to significantly reduce the amount of processing calculation and the amount of memory required in the
ちなみに、発音評価対象は当然、言語学習者のような人間に限定されるものではなく、例えば、学習によって所定言語の対話を可能とする(対話シナリオを備えた)自動対話システムであってもよい。また、評価基準対象の方も、ネイティブ教師等の人間に限定されず、例えば、更新を繰り返すことによってネイティブ相当の発声が可能となった(基準として十分採用可能な)自動対話システムとすることも可能である。 By the way, the pronunciation evaluation target is naturally not limited to humans such as language learners, and may be, for example, an automatic dialogue system (providing a dialogue scenario) that enables dialogue in a predetermined language by learning. .. In addition, the evaluation criteria are not limited to humans such as native teachers. For example, it is possible to use an automatic dialogue system that enables native vocalization (sufficiently adopted as a criterion) by repeating updates. It is possible.
[発音評価装置の構成]
同じく図1の機能ブロック図によれば、発音評価装置1は、通信インタフェース部101と、ネイティブコーパス102と、ユーザ発音保存部103と、評価スコア保存部104と、マイク(MC)105と、スピーカ(SP)106と、タッチパネル・ディスプレイ(TP・DP)107と、プロセッサ・メモリとを有する。
[Configuration of pronunciation evaluation device]
Similarly, according to the functional block diagram of FIG. 1, the
ここで、このプロセッサ・メモリは、本発明による発音評価プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この発音評価プログラムを実行することによって、発音評価処理を実施する。このことから、発音評価装置1は、発音評価専用装置であってもよいが、本発明による発音評価プログラムを搭載した、例えばパーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることもできる。
Here, this processor memory stores one embodiment of the pronunciation evaluation program according to the present invention, has a computer function, and executes the pronunciation evaluation process by executing the pronunciation evaluation program. To do. For this reason, the
また、プロセッサ・メモリは、音素解析部111と、適応化処理部112aを有する対象モデル生成部112と、対象モデル間距離算出部113と、評価スコア決定部114と、入出力制御部131と、通信制御部132とを有する。さらに、このプロセッサ・メモリが、基準モデル構築部121と、基準モデル間距離算出部122と、評価スコア推定モデル構築部123とを有する実施形態も可能である。
Further, the processor memory includes a
なお、これらの機能構成部は、プロセッサ・メモリに保存された発音評価プログラムの機能と捉えることができる。また、図1における発音評価装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による発音評価方法の一実施形態としても理解される。
It should be noted that these functional components can be regarded as the functions of the pronunciation evaluation program stored in the processor memory. Further, the processing flow shown by connecting the functional components of the
同じく図1の機能ブロック図において、基準モデル構築部121は、ネイティブコーパス102から、評価基準対象であるネイティブの教師群における各教師についての複数の所定言語の発音データを取得し、これらの発音データを学習データとして、各音素(発音)についてのネイティブ教師のHMMを構築する。
Similarly, in the functional block diagram of FIG. 1, the reference
ちなみに、上述したような学習データは、例えば通信制御部132によって通信インタフェース部101を介し、外部のサーバ、例えばサーバ2の保有するネイティブコーパスから取得されてもよい。実際、このような学習データ源として利用可能な様々なネイティブコーパスが、様々な協会・組織によって提供されており、例えば、多数のネイティブによる数千に及ぶ発話文といったような十分な量の学習データを取得することも、それ程の困難なく実現可能となっている。
By the way, the learning data as described above may be acquired from an external server, for example, a native corpus owned by the server 2, for example, by the
また変更態様として、発音評価装置1は、基準モデル構築部121を有さず、例えばサーバ2の基準モデル構築部211で構築されたネイティブ教師のHMMを、通信制御部132によって通信インタフェース部101を介し取得してもよい。
Further, as a modification, the
基準モデル間距離算出部122は、所定言語の発音を構成する複数の音素(発音単位)における各々について、ネイティブ教師(評価基準対象)によって行われた発音に含まれている特定の1つの音素について構築されたHMMと、当該発音に含まれている他の音素について構築されたHMMとのモデル間距離の総和である「基準モデル間距離」を算出する。
The reference model
ここで、特定の音素についての基準モデル間距離は、上述したように、ネイティブ教師のHMMモデル距離空間における、この特定の音素の(他の音素群に対する)相対位置を示す指標と捉えることができる。 Here, the distance between reference models for a specific phoneme can be regarded as an index indicating the relative position (relative to other phoneme groups) of this specific phoneme in the HMM model distance space of the native teacher, as described above. ..
実際、音素の発音の識別性がより高いネイティブ教師(評価基準対象)の基準モデル間距離は、ノンネイティブの生徒(発音評価対象)のそれに比べて、より大きくなる傾向がある。したがって、基準モデル間距離は、ノンネイティブ生徒に対する発音評価における基準として採用することができるのである。しかも、特定の1つの音素と他の1つの音素との単純な比較ではなく距離の総和をとっているので、発音評価基準としてより好適となっている。 In fact, the distance between reference models of native teachers (evaluation criteria) with higher phoneme pronunciation discrimination tends to be larger than that of non-native students (pronunciation evaluation). Therefore, the distance between reference models can be adopted as a criterion in pronunciation evaluation for non-native students. Moreover, since the sum of the distances is taken instead of a simple comparison between one specific phoneme and another phoneme, it is more suitable as a pronunciation evaluation standard.
ちなみに、HMMλ1とHMMλ2とのモデル間距離D(λ1,λ2)として、次式
(1) D(λ1,λ2)=[log P(QT (2)|λ1)−log P(QT (2)|λ2))]/T(2)
を採用することができる。上式(1)は、非特許文献:B. H. Juang, L. R. Rabiner, “A probabilistic distance measure for hidden Markov models”, AT&T Technical Journal, Volume: 64, Issue: 2, pp.391-408, 1985年 において提案されたものである。
Incidentally, the model distance D (λ 1, λ 2) of HMMramuda 1 and HMMramuda 2 as the following equation (1) D (λ 1, λ 2) = [log P (Q T (2) | λ 1) - log P (Q T (2) | λ 2 ))] / T (2)
Can be adopted. The above equation (1) was proposed in Non-Patent Documents: BH Juang, LR Rabiner, “A probabilistic distance measure for hidden Markov models”, AT & T Technical Journal, Volume: 64, Issue: 2, pp.391-408, 1985. It was done.
ここで上式(1)において、QT (2)は、HMMλ2による観測列(の特徴ベクトル)であり、T(2)は、観測の総数であり、log P(Q|λ)は、HMMλにおける観測列(の特徴ベクトル)Qについてのスコア、すなわちHMMλから観測列Qが出力される確率に係るスコアとなっている。このスコアは、HMMを評価するために規定されており、HMMの出力と実際に観測された観測列との間の一致の度合いを示す指標として用いることができるものである。またそれ故、上式(1)の形からも分かるように、D(λ1,λ2)とD(λ2,λ1)とは通常、値が互いに異なっている。 Here, in the above equation (1), Q T (2) is (the feature vector) of the observation sequence by HMM λ 2 , T (2) is the total number of observations, and log P (Q | λ) is. It is a score for the observation sequence (feature vector) Q in HMMλ, that is, a score related to the probability that the observation sequence Q is output from HMMλ. This score is defined for evaluating the HMM, and can be used as an index showing the degree of agreement between the output of the HMM and the actually observed observation sequence. Therefore, as can be seen from the form of the above equation (1), the values of D (λ 1 , λ 2 ) and D (λ 2 , λ 1 ) are usually different from each other.
これに対し本実施形態では、その間の距離を算出すべき2つのHMMを決めれば、距離値が1つ確定するようなモデル間距離を採用することが好ましい。すなわち具体的には、ネイティブ教師における音素iのHMMλiと音素jのHMMλjとに関し対称となるモデル間距離を採用することが好ましいので、このようなモデル間距離Dij(=Dji)として次式
(2) Dij=[D(λi,λj)+D(λj,λi)]/2
を用い、さらに、ネイティブ教師の音素iの基準モデル間距離Di (n)として、次式
(3) Di (n)=Σj=1,noti N Dij
を採用する。ここで、Nは、発音の評価対象である所定言語における音素の総数であり、Σj=1,noti Nは、jについてのiを除いた1からNまでの総和である。また、上付きの添え字(n)は、評価基準対象であるネイティブ(native)教師に係る値であることを示している。
On the other hand, in the present embodiment, it is preferable to adopt an inter-model distance such that one distance value is determined if two HMMs for which the distance between them should be calculated are determined. That is, specifically, since it is preferable to adopt an inter-model distance that is symmetric with respect to the HMM λ i of the phoneme i and the HMM λ j of the phoneme j in the native teacher, such an inter-model distance D ij (= D ji ) is used. The following equation (2) D ij = [D (λ i , λ j ) + D (λ j , λ i )] / 2
The use, further, as the distance between the reference model phoneme i native teacher D i (n), the following equation (3) D i (n) = Σ j = 1, noti N D ij
To adopt. Here, N is the total number of phonemes in a predetermined language to be evaluated for pronunciation, and Σ j = 1, noti N is the sum of 1 to N excluding i for j. The superscript (n) indicates that the value is related to the native teacher who is the target of the evaluation standard.
なお、上記のモデル間距離Dijとして、公知のHMM間距離である
(a)音素iのHMMλiと音素jのHMMλjとのユークリッド距離、又は
(b)音素iのHMMλiと音素jのHMMλjとのマハラノビス(Mahalanobis)距離
を採用することも可能である。しかしながら、モデル間距離Dijとして上式(1)に基づく上式(2)を採用することによって、実際の発話における動的な構成を有する発音データから、より適切な距離量を算出することが可能となる。
Incidentally, as a model distance D ij of the above, it is the distance between the known HMM (a) the Euclidean distance between HMMramuda j of HMMramuda i phoneme j phoneme i, or (b) of HMMramuda i phoneme j phoneme i It is also possible to adopt the Mahalanobis distance from HMMλ j . However, by adopting the above equation (2) based on the above equation (1) as the inter-model distance Dij , it is possible to calculate a more appropriate distance amount from the pronunciation data having a dynamic composition in the actual utterance. It will be possible.
また変更態様として、発音評価装置1は、以上に説明したような基準モデル間距離算出部122を有さず、例えばサーバ2の基準モデル構築部211で構築されたネイティブ教師のHMMに基づいて同じくサーバ2の基準モデル間距離算出部212によって算出された基準モデル間距離を、通信制御部132によって通信インタフェース部101を介し取得してもよい。また、このような態様に合わせ、発音評価装置1の構成部(図1における102〜104,111〜114)の一部を省略し、当該構成部の一部の機能を、例えばサーバ2に実装してもよい。なお、対象モデル間距離算出部113及び評価スコア決定部114の機能をサーバ2に保持させる場合、サーバ2が、本発明による発音評価装置として機能することになる。
Further, as a modification, the
同じく図1の機能ブロック図において、ユーザ発音保存部103は、例えばマイク105を介して取得された、ノンネイティブの生徒(発音評価対象)による所定言語の発音データであって、入出力制御部131で所定形式のデジタルデータに変換された発音データを保存する。ここで、ユーザ発音保存部103は、発音データを、ノンネイティブ生徒の識別子(ID)に紐づけて生徒毎に区分して保存し、当該発音データを用いて、各生徒につき当該生徒固有のHMMを生成可能なようにすることも好ましい。
Similarly, in the functional block diagram of FIG. 1, the user
音素解析部111は、公知の自動音声認識(ASR,Automatic Speech Recognition)技術を用いて、ユーザ発音保存部103から取得した又はマイク105から直接取得したノンネイティブ生徒の発音(データ)を音素及び間隔時間(duration)に分割する。ここで、ノンネイティブ生徒の発音のテキストデータは不要となっている。
The
対象モデル生成部112は、
(a)ノンネイティブ生徒相当の発話者によって行われた発音データを用いてHMMを構築し、
(b)適応化処理部112aにおいて、上記(a)で構築されたHMMに対し、発音評価対象である特定のノンネイティブ生徒の発音を用いた回帰適応化処理を行い、
この特定のノンネイティブ生徒によって行われた発音に含まれている音素についてのHMMを生成する。
The target
(A) Build an HMM using pronunciation data performed by speakers equivalent to non-native students.
(B) The adaptation processing unit 112a performs regression adaptation processing using the pronunciation of a specific non-native student who is the target of pronunciation evaluation on the HMM constructed in (a) above.
Generate HMMs for phonemes contained in pronunciations made by this particular non-native student.
ここで、上記(a)の発話データは、例えばノンネイティブ生徒の発話から得られた4から6個程度のデータ数のものとすることができる。すなわち、ここで構築するHMMは、このあと回帰適応化処理によって調整されるので、それほどの精度が要求されない。 Here, the utterance data in (a) above can be, for example, a number of data of about 4 to 6 obtained from the utterances of non-native students. That is, since the HMM constructed here is subsequently adjusted by the regression adaptation process, so much accuracy is not required.
次いで、上記(b)の回帰適応化処理は、例えば公知のMLLR(Maximum Likelihood Linear Regression)を用いて実施することができる。MLLRは、回帰行列の重み付き線形和を利用した適応化手法であり、特に音声認識の分野において、一般の発話者用の(発話者依存性の小さい)HMMを、特定の発話者用の、又は特定の環境条件下用のHMMに適応させるのに広く利用されている。実際、非常に少ない発話データ数による適応化処理によって、特定の発話者用又は特定の環境条件下用として構築されたHMMに匹敵するようなHMMを生成したとの報告も存在する。 Next, the regression adaptation process of (b) above can be carried out using, for example, a known MLLR (Maximum Likelihood Linear Regression). MLLR is an adaptation method that uses the weighted linear sum of regression matrices. Especially in the field of speech recognition, HMMs for general speakers (less speaker dependence) can be used for specific speakers. Alternatively, it is widely used to adapt to HMMs for specific environmental conditions. In fact, there are reports that the adaptation process with a very small number of utterance data produced an HMM comparable to the HMM constructed for a particular speaker or for a particular environmental condition.
本実施形態では、適応化処理部112aは、音素解析部111で音素に分割された特定のノンネイティブ生徒(発音評価対象)の発音データ(の対応するフレーム)を使用しMLLRによって、上記(a)で構築したHMMを、この特定のノンネイティブ生徒に適応したものに調整するのである。
In the present embodiment, the adaptation processing unit 112a uses the pronunciation data (corresponding frame) of a specific non-native student (pronunciation evaluation target) divided into phonemes by the
ここで、1回の適応化処理で使用されるノンネイティブ生徒(発音評価対象)の発音データは、非常に少ないデータ数(例えば1から3個程度)のものとすることができる。その結果、リアルタイムでの回帰適応化処理、ひいては発音評価処理も可能となるのである。 Here, the pronunciation data of the non-native student (pronunciation evaluation target) used in one adaptation process can be a very small number of data (for example, about 1 to 3). As a result, real-time regression adaptation processing and, by extension, pronunciation evaluation processing are also possible.
なお変更態様として、対象モデル生成部112は、基準モデル構築部121で構築された(又は装置1の外部で構築された)ネイティブ教師のHMMに対し、適応化処理部112aにおいて発音評価対象である特定のノンネイティブ生徒の発音を用いた回帰適応化処理を行うことによって、この特定のノンネイティブ生徒によって行われた発音に含まれている音素についてのHMMを生成することも好ましい。この態様では、上記(a)の「ノンネイティブ生徒相当の発話者によって行われた発音に係るデータ」は不要となり、また、当該データを用いてHMMを構築することも不要となる。
As a modification, the target
さらにいえば、対象モデル生成部112は、回帰適応化処理を行わず、特定のノンネイティブ生徒(発音評価対象)についての多数の発音データを用いて、この特定のノンネイティブ生徒のHMMを構築することも可能である。しかしながら、以上に述べたような回帰適応化処理を施したHMMを適宜生成することによって、発音評価処理をリアルタイムで実施することが容易になり、また、発音評価処理のフレキシビリティ、すなわち様々な発音評価対象(例えば教室に初めて参加した生徒)に即座に対応するといった柔軟性を高めることができるのである。
Furthermore, the target
同じく図1の機能ブロック図において、対象モデル間距離算出部113は、所定言語の発音を構成する複数の音素(発音単位)における各々について又はそのうちの所定の音素(発音単位)について、特定のノンネイティブ生徒(発音評価対象)によって行われた発音に含まれている音素について構築されたHMMと、当該発音に含まれている他の音素(発音単位)について構築されたHMMとのモデル間距離の総和である対象モデル間距離を算出する。
Similarly, in the functional block diagram of FIG. 1, the target model-to-model
ここで本実施形態では、特定のノンネイティブ生徒の音素iの対象モデル間距離Di (nn)として、上式(2)及び(3)の基準モデル間距離Di (n)の規定と同様にして、次式
(4) Di (nn)=Σj=1,noti N [D(γi,γj)+D(γj,γi)]/2
を採用する。ここで、γiは、この特定のノンネイティブ生徒における音素iのHMMであり、γjは、音素jのHMMである。また、上付きの添え字(nn)は、発音評価対象であるノンネイティブ(non-native)生徒に係る値であることを示している。
Here, in the present embodiment, the distance between the target models D i (nn) of the phoneme i of the specific non-native student is the same as the provision of the distance D i (n) between the reference models in the above equations (2) and (3). Then, the following equation (4) D i (nn) = Σ j = 1, noti N [D (γ i , γ j ) + D (γ j , γ i )] / 2
To adopt. Here, γ i is the HMM of the phoneme i in this particular non-native student, and γ j is the HMM of the phoneme j. In addition, the superscript (nn) indicates that the value is related to the non-native student who is the target of pronunciation evaluation.
このように導出された対象モデル間距離Di (nn)は、基準モデル間距離Di (n)と合わせて、後に詳細に説明する評価スコアの算出に利用されるのである。 The distance D i (nn) between the target models derived in this way is used together with the distance D i (n) between the reference models to calculate the evaluation score, which will be described in detail later.
図2は、HMM距離空間における、ネイティブ教師及びノンネイティブ生徒の音素分布のイメージ、及び基準モデル間距離と対象モデル間距離との関係を、概念的に説明するための模式図である。 FIG. 2 is a schematic diagram for conceptually explaining the image of the phoneme distribution of native teachers and non-native students in the HMM metric space, and the relationship between the distance between reference models and the distance between target models.
以下、互いの距離が規定されている個々の音素のHMMを空間点とした、仮想的なHMM距離空間を想定し、このHMM距離空間内における個々の音素(のHMM)の分布状況を考察する。具体的にはこのHMM距離空間を、2つの特徴パラメータを座標成分とする座標(α,β)で表現される座標空間とし、さらに、所定言語を日本語とし、音素として/a/,/i/,/u/,/e/,/o/の5つの母音を取り上げる。 Hereinafter, a virtual HMM metric space is assumed in which the HMMs of individual phonemes whose distances are defined are used as space points, and the distribution of individual phonemes (HMMs) in this HMM metric space is considered. .. Specifically, this HMM metric space is a coordinate space expressed by coordinates (α, β) having two feature parameters as coordinate components, and further, the predetermined language is Japanese and / a /, / i as phonemes. Take up the five vowels /, / u /, / e /, / o /.
図2(A)には、日本語に関しネイティブである教師における5つの母音のHMM距離空間での分布イメージが示されている。ここで、2つの母音間(黒丸間)の距離がモデル間距離に相当し、これらの分布から、各母音について上式(3)のDi (n)が算出される。 FIG. 2A shows an image of the distribution of five vowels in the HMM metric space in a teacher who is native to Japanese. Here, the distance between the two vowels (between the black circles) corresponds to the distance between the models, and from these distributions, Di (n) of the above equation (3 ) is calculated for each vowel.
一方、図2(B)には、日本語に関しノンネイティブである生徒における5つの母音のHMM距離空間での分布イメージが示されている。このノンネイティブ生徒の分布は、図2(A)に示したネイティブ教師の分布と比較して、より狭い範囲に留まっていることが分かる。これは上述したように、所定言語に対し熟達の度合いが低いほど、各音素の発音の識別性がより低い状態になお留まっていることを反映したものである。 On the other hand, FIG. 2B shows an image of the distribution of five vowels in the HMM metric space in students who are non-native to Japanese. It can be seen that the distribution of non-native students remains in a narrower range than the distribution of native teachers shown in FIG. 2 (A). This reflects, as described above, that the lower the degree of proficiency with respect to a given language, the lower the distinctiveness of pronunciation of each phoneme.
したがって、図2(B)に示したノンネイティブ生徒の各母音について算出された上式(4)のDi (nn)は、図2(A)のDi (n)よりも小さくなる、すなわち一般的に、次式
(5) Di (nn)<Di (n)
の成立することが理解される。
Therefore, D i (nn) shown in FIG. 2 (B) to the indicated non-native students above equation calculated for each vowel (4) is smaller than D i (n) in FIG. 2 (A), i.e. In general, the following equation (5) D i (nn) <D i (n)
Is understood to hold.
このように、対象モデル間距離Di (nn)は、基準モデル間距離Di (n)を評価基準とすることによって、発音評価のスコアとして利用可能となっている。具体的には、対象モデル間距離Di (nn)が基準モデル間距離Di (n)と比較して小さくなるほど、発音評価はより低くなるのである。 In this way, the distance between target models D i (nn) can be used as a score for pronunciation evaluation by using the distance D i (n) between reference models as an evaluation standard. Specifically, the smaller the distance D i (nn) between the target models compared to the distance D i (n) between the reference models, the lower the pronunciation evaluation.
図1の機能ブロック図に戻って、評価スコア決定部114は、ノンネイティブ生徒(発音評価対象)について算出された対象モデル間距離Di (nn)に基づいて、ノンネイティブ生徒によって行われた音素の発音の識別性に関する「評価スコア」を決定する。ここで、対象モデル間距離Di (nn)と、基準モデル間距離Di (n)との相違の度合い、例えば差(Di (nn)−Di (n))又は比(Di (nn)/Di (n))に基づいて「評価スコア」を決定することが好ましい。
Returning to the functional block diagram of FIG. 1, the evaluation
具体的に本実施形態では、評価スコア決定部114は、音素iごとに算出される対象モデル間距離Di (nn)と基準モデル間距離Di (n)との差(Di (nn)−Di (n))における音素iについての総和に基づいて、すなわち次式
(6) S=[Σi=1 N (Di (nn)−Di (n))2]0.5
によって、スコアメトリックSを決定する。このスコアメトリックSは、ノンネイティブ生徒による各音素の発音とネイティブ教師による当該音素の発音との(非)類似度を反映した、発音全体(全ての音素)についてのメトリックとなっている。
Specifically, in this embodiment, the evaluation
Determines the score metric S. This score metric S is a metric for the entire pronunciation (all phonemes) that reflects the (non-) similarity between the pronunciation of each phoneme by a non-native student and the pronunciation of the phoneme by a native teacher.
また上記Sとは別のメトリックとして、評価スコア決定部114は、特定の音素iについて算出されるノンネイティブ生徒とネイティブ教師とのモデル間距離に基づいて、この特定の音素iに関するスコアメトリックSiを決定してもよい。このスコアメトリックSiは、具体的に次式
(7) Si=[Σj=1,noti N (Dij (nn)−Dij (n))2]0.5
Dij (nn)=[D(nn)(λi,λj)+D(nn)(λj,λi)]/2
Dij (n)=[D(n)(λi,λj)+D(n)(λj,λi)]/2
で表される。ここで、D(nn)(λi,λj)及びD(n)(λi,λj)はそれぞれ、ノンネイティブ生徒(発音評価対象)及びネイティブ教師(評価基準対象)についての上式(1)のD(λ1,λ2)となっている。
As a metric different from the above S, the evaluation
D ij (nn) = [D (nn) (λ i , λ j ) + D (nn) (λ j , λ i )] / 2
D ij (n) = [D (n) (λ i , λ j ) + D (n) (λ j , λ i )] / 2
It is represented by. Here, D (nn) (λ i , λ j ) and D (n) (λ i , λ j ) are the above equations for non-native students (pronunciation evaluation targets) and native teachers (evaluation criteria targets), respectively. It is D (λ 1 , λ 2 ) of 1).
以上に説明したスコアメトリックS及びSiはいずれも、ノンネイティブ生徒の発音とネイティブ教師の発音とが類似しているほどより小さくなる。すなわち、ノンネイティブ生徒の発音がより上達するほど、(対象モデル間距離Di (nn)の傾向とは逆に)より小さな値をとるのである。なお、変更態様として、上記のSやSiのようなスコアメトリックを、ネイティブ教師(評価基準対象)についてのモデル間距離を用いずに決定することも可能である。例えば、(Σi=1 N Di (nn))や(Σj=1,noti N Dij (nn))をスコアメトリックとすることができる。またこの場合でも勿論、ノンネイティブ生徒(発音評価対象)についての対象モデル間距離に基づいてスコアメトリックが決定されているのである。 Both the score metrics S and S i described above are smaller as the pronunciation of non-native students and the pronunciation of native teachers are similar. That is, the better the pronunciation of non-native students, the smaller the value ( contrary to the tendency of the distance D i (nn) between target models ) . As a modification, it is also possible to determine the score metric such as S and S i described above without using the inter-model distance for the native teacher (evaluation standard target). For example, (Σ i = 1 N D i (nn) ) and (Σ j = 1, noti N D ij (nn) ) can be score metrics. Also in this case, of course, the score metric is determined based on the distance between the target models for the non-native student (pronunciation evaluation target).
次いで、評価スコア決定部114は、上述したように決定したスコアメトリックS又はSiを用いて、ノンネイティブ生徒による所定言語の発音に対する最終的な「評価スコア」を決定するのである。
The evaluation
具体的には1つの実施形態として、評価スコア推定モデル構築部123が、
(a)スコアメトリックS(又はSi)と、
(b)正解値としての、人間の評価者による評価スコアと
の組である複数の教師データによって評価スコア推定モデルを構築し、次いで評価スコア決定部114は、この構築された評価スコア推定モデルを用いて、評価スコアを決定するのである。すなわち、発音評価対象であるノンネイティブ生徒の(モデル間距離に係る値である)スコアメトリックS(又はSi)を、この学習済みの評価スコア推定モデルに適用して評価スコアを決定する。
Specifically, as one embodiment, the evaluation score estimation
(A) Score metric S (or S i ) and
(B) An evaluation score estimation model is constructed from a plurality of teacher data that are a set of evaluation scores by human evaluators as correct answer values, and then the evaluation
ここで、評価スコアには、様々な形式・基準のものが採用可能であるが、例えば「ネイティブレベル」(Agree level),「準ネイティブレベル」(Mildly Agree level),「平均的レベル」(Undecided level),「準ノンネイティブレベル」(Mildly Disagree level),「ノンネイティブレベル」(Disagree)の5段階のレベルを示す値とすることができる。 Here, various formats and standards can be adopted for the evaluation score, for example, "Native level" (Agree level), "Mildly Agree level", and "Undecided". It can be a value indicating five levels of level), "quasi-non-native level" (Mildly Disagree level), and "non-native level" (Disagree).
勿論、この評価スコアは、スコアメトリックSを用いた場合には、ノンネイティブ生徒(発音評価対象)の発音全体のレベルを示すものとなり、一方、スコアメトリックSiを用いた場合には、ノンネイティブ生徒(発音評価対象)の音素iの発音のレベルを示すものとなる。なお、両方の評価スコアを導出する場合、それぞれに対応した互いに異なる評価スコア推定モデルが構築されることになる。 Of course, this evaluation score indicates the overall level of pronunciation of non-native students (pronunciation evaluation target) when score metric S is used, while non-native when score metric S i is used. It indicates the pronunciation level of the phoneme i of the student (pronunciation evaluation target). When deriving both evaluation scores, different evaluation score estimation models corresponding to each are constructed.
また、ここで構築される評価スコア推定モデルは、回帰モデルであってもよく、又は他の機械学習モデルとすることもできる。ちなみに変更態様として、サーバ2が評価スコア推定モデル構築部213において評価スコア推定モデルを構築し、この評価スコア推定モデルを発音評価装置1へ提供する態様をとることも可能である。この場合、評価スコア推定モデル構築部123は不要となる。
Further, the evaluation score estimation model constructed here may be a regression model or another machine learning model. Incidentally, as a modification mode, it is also possible that the server 2 constructs the evaluation score estimation model in the evaluation score estimation
さらに、評価スコア決定部114は、決定した評価スコア(例えば上記の5段階のスコア)を、入出力制御部131を介し、例えばディスプレイ107での表示やスピーカ106から出力される音声によってノンネイティブ生徒に対し提示してもよい。さらに、当該評価スコアを、該当するノンネイティブ生徒の識別子(ID)及び評価期間情報に紐づけて、評価スコア保存部104に保存することも好ましい。この場合、例えばこのノンネイティブ生徒の過去の評価状況や、評価スコアの推移(言語学習進捗状況)を把握し、さらに提示することも可能となるのである。
Further, the evaluation
また、評価スコア決定部114は、決定した評価スコアを、通信制御部132及び通信インタフェース部101を介し、外部の情報処理装置、例えば言語学習教室の生徒データ管理サーバへ送信することも好ましい。
Further, it is also preferable that the evaluation
[発音評価方法]
図3は、本発明による発音評価方法の一実施形態におけるフローを概略的に示す模式図である。
[Pronunciation evaluation method]
FIG. 3 is a schematic diagram schematically showing a flow in one embodiment of the pronunciation evaluation method according to the present invention.
図3に示したように、本実施形態の発音評価方法は、オフラインモード及びオンラインモードの2つのモードで構成されている。このうち、オフラインモードにおいて、
(S1)音素解析部111は、ネイティブコーパスから多数のネイティブ教師の発音データを取得し、各発音データを音素に分解した上で音素HMM(各音素に係るHMM)を構築するための学習データを生成する。
As shown in FIG. 3, the pronunciation evaluation method of the present embodiment is composed of two modes, an offline mode and an online mode. Of these, in offline mode
(S1) The
(S2)基準モデル構築部121は、ステップS1で生成された学習データを用いて、ネイティブ教師についての発音評価基準に係る音素HMMを構築する。
(S3,S4)基準モデル間距離算出部122は、ステップS2で構築された音素HMMを用いて音素HMM間距離を算出し、さらに、算出した音素HMM間距離を用いて基準モデル間距離を算出する。
(S2) The reference
(S3, S4) The reference model
(S5)さらに本実施形態のオフラインモードでは、対象モデル生成部112が、予め準備されたノンネイティブ生徒の発音データを用いて、非特定生徒用の音素HMMを構築し、オンラインモードにおける対象モデル生成処理(MLLR適応化処理)の準備をしておく。
(S5) Further, in the offline mode of the present embodiment, the target
一方、オンラインモードにおいて、
(S6)音素解析部111は、例えばマイク105を介し、発音評価対象であるノンネイティブ生徒の発音データを取得し、当該発音データを音素に分解した上で、この後実施されるMLLR処理用のデータを生成する。
(S7)対象モデル生成部112は、オフラインモードで構築しておいた非特定生徒用の音素HMMに対し、ステップS6で生成したデータを用いてMLLR処理を実施し、発音評価対象である特定のノンネイティブ生徒についての音素HMMを生成する。
On the other hand, in online mode
(S6) The
(S7) The target
(S8,S9)対象モデル間距離算出部113は、ステップS7で生成された音素HMMを用いて音素HMM間距離を算出し、さらに、算出した音素HMM間距離を用いて対象モデル間距離を算出する。
(S8, S9) The target model inter-model
(S10)最後に、評価スコア決定部114は、オフラインモードで予め算出された基準モデル間距離に基づき、ステップS9で算出された対象モデル間距離から、特定のノンネイティブ生徒(発音評価対象)についての(例えば上記の5段階スコア)評価スコアを決定する。
(S10) Finally, the evaluation
このように、本実施形態の発音評価方法では、オフラインモードにおいて予め基準モデル間距離や非特定生徒用の音素HMMを準備しておき、さらにオンラインモードにおいては、MLLR処理を用い、少数の発音データ及び少ない処理負担の下、特定のノンネイティブ生徒(発音評価対象)の音素HMMを速やかに生成し、評価スコアを決定することができる。その結果、例えば、計算能力に一定の限界を有する携帯端末において本発音評価方法を実施し、ノンネイティブ生徒(発音評価対象)の評価スコアを概ねリアルタイムで当該ノンネイティブ生徒に提示することも実現可能となるのである。 As described above, in the pronunciation evaluation method of the present embodiment, the distance between the reference models and the phoneme HMM for non-specific students are prepared in advance in the offline mode, and further, in the online mode, MLLR processing is used to use a small number of pronunciation data. And under a small processing load, the phoneme HMM of a specific non-native student (pronunciation evaluation target) can be quickly generated and the evaluation score can be determined. As a result, for example, it is possible to implement this pronunciation evaluation method on a mobile terminal having a certain limit in calculation ability and present the evaluation score of a non-native student (pronunciation evaluation target) to the non-native student in almost real time. It becomes.
[実施例]
図4は、本発明による発音評価方法の一実施例における評価スコア決定処理を説明するためのレーダーチャートである。ここで、図4(A)及び(B)はそれぞれ、発音評価対象である生徒A及びBについての音素/b/と、他の破裂音j(/p/,/t/,/d/,/k/,/g/)とのモデル間距離D/b/,j (nn)を表すレーダーチャートとなっている。
[Example]
FIG. 4 is a radar chart for explaining the evaluation score determination process in one embodiment of the pronunciation evaluation method according to the present invention. Here, FIGS. 4 (A) and 4 (B) show the phoneme / b / for the students A and B, which are the pronunciation evaluation targets, and the other plosives j (/ p /, / t /, / d /, respectively. It is a radar chart showing the inter-model distance D / b /, j (nn) with / k /, / g /).
図4(A)に示した生徒Aのモデル間距離D/b/,j (nn)の分布から、生徒Aの音素/b/についてのスコアメトリックS/b/は、13.5と算出される(上式(7)を用いΣjを上記5つの破裂音jの総和として算出される)。一方、図4(B)に示した生徒Bのモデル間距離D/b/,j (nn)の分布から、生徒Bの音素/b/についてのスコアメトリックS/b/は16.5と算出され、生徒AのスコアメトリックS/b/(=13.5)に比べて大きくなっている。すなわち、生徒Bの音素/b/の発音は、生徒Aのそれと比較して、基準となるネイティブ教師の/b/の発音に対し、より非類似なものとなっているのである。 From the distribution of the inter-model distance D / b /, j (nn) of student A shown in FIG. 4 (A), the score metric S / b / for the phoneme / b / of student A is calculated to be 13.5 ( Using the above equation (7), Σ j is calculated as the sum of the above five plosive sounds j). On the other hand, from the distribution of the inter-model distance D / b /, j (nn) of student B shown in FIG. 4 (B), the score metric S / b / for the phoneme / b / of student B was calculated to be 16.5. It is larger than the score metric S / b / (= 13.5) of Student A. That is, the pronunciation of the phoneme / b / of the student B is more dissimilar to that of the standard native teacher / b / as compared with that of the student A.
これは、生徒Aのモデル間距離D/b/,j (nn)の方が、生徒Bのそれに比べて全体的により大きくなっている、すなわち、図4(A)のレーダーチャートのグラフ線の囲む面積が、図4(B)の当該面積より大きくなっていることが反映された結果である。また、このことから、生徒Aによる音素/b/の発音は、生徒Bのそれに比べてより熟達している(よりネイティブに近い)ことが分かるのである。 This is because the inter-model distance D / b /, j (nn) of student A is larger overall than that of student B, that is, in the graph line of the radar chart of FIG. 4 (A). This is a result reflecting that the surrounding area is larger than the area shown in FIG. 4 (B). From this, it can be seen that the pronunciation of the phoneme / b / by Student A is more proficient (closer to the native) than that of Student B.
図5は、本発明による発音評価方法の一実施例において決定された評価スコアを示すグラフである。ここで、図5(A)には、生徒Aによる母音/a/、母音/i/及び子音/z/それぞれの発音についてのスコアメトリックS/a/、S/i/及びS/z/、並びに母音/a/、母音/i/及び子音/z/についての5段階評価スコアが示されており、一方、図5(B)には、生徒Bによる母音/a/、母音/i/及び子音/z/それぞれの発音についての評価スコアS/a/、S/i/及びS/z/、並びに母音/a/、母音/i/及び子音/z/についての5段階評価スコアが示されている。 FIG. 5 is a graph showing the evaluation score determined in one embodiment of the pronunciation evaluation method according to the present invention. Here, in FIG. 5 (A), score metrics S / a / , S / i / and S / z / for each pronunciation of vowel / a /, vowel / i / and consonant / z / by student A, In addition, five-grade evaluation scores for vowel / a /, vowel / i / and consonant / z / are shown, while FIG. 5 (B) shows vowel / a /, vowel / i / and vowel / i / by student B. Evaluation scores for each consonant / z / pronunciation S / a / , S / i / and S / z / , and a five-point evaluation score for the vowel / a /, vowel / i / and consonant / z / are shown. ing.
ちなみに、本実施例では、5段階評価スコアを決定する評価スコア推定モデルは、回帰モデルではなく、蓄積されたスコアメトリックの統計量を用いたモデルとなっている。具体的には最初に、ネイティブ教師についての音素/a/、/i/及び/z/のHMMと、数人のノンネイティブ生徒についての音素/a/、/i/及び/z/のHMMとを生成した上で、音素/a/、/i/及び/z/の各々について、スコアメトリック(S/a/,S/i/,S/z/)の最大値SMAXと最小値SMINとを決定している。 Incidentally, in this embodiment, the evaluation score estimation model for determining the five-stage evaluation score is not a regression model but a model using accumulated score metric statistics. Specifically, first, the phonemes / a /, / i / and / z / HMMs for native teachers, and the phonemes / a /, / i / and / z / HMMs for some non-native students. For each of the phonemes / a /, / i / and / z /, the maximum value S MAX and the minimum value S MIN of the score metric (S / a / , S / i / , S / z / ) are generated. And have been decided.
次いで、この最小値SMINを「ネイティブレベル」(Agree level)に設定し、最大値SMAXを「ノンネイティブレベル」(Disagree)に設定して、最後に、これらの最小値SMINと最大値SMAXとの間を(各区間長が(SMAX−SMIN)/4となる)4つの区間に等分した際に生じる3つの区間境界位置を順次、残りの「準ネイティブレベル」(Mildly Agree level)、「平均的レベル」(Undecided level)及び「準ノンネイティブレベル」(Mildly Disagree level)に設定しているのである。 Then set this minimum S MIN to "Agree level", set the maximum S MAX to "Non-native level" (Disagree), and finally these minimum S MIN and maximum. between the S MAX (the section length (S MAX -S MIN) / 4 to become) four three section boundary position generated when the equally divided sequentially into sections, remaining "quasi native level" (Mildly It is set to Agree level), "Undecided level" and "Mildly Disagree level".
最初に図5(A)によれば、生徒Aは、母音/a/及び/i/については、S/a/=5.447及びS/i/=6.045であって、概ね「準ネイティブレベル」(Mildly Agree level)の評価スコアを獲得している。一方、子音/z/については、S/z/=8.500であって、母音/a/及び/i/と比較すると若干低評価である、「平均的レベル」(Undecided level)と「準ネイティブレベル」(Mildly Agree level)との間となる評価スコアとなっている。 First, according to FIG. 5 (A), Student A has S / a / = 5.447 and S / i / = 6.045 for the vowels / a / and / i /, which is generally "quasi-native level" ( It has a Mildly Agree level) rating score. On the other hand, for consonants / z /, S / z / = 8.500, which is slightly lower than the vowels / a / and / i /, "undecided level" and "quasi-native level". It is an evaluation score between "(Mildly Agree level).
ちなみに、上記評価結果に係る一連の音素解析処理において算出される、生徒Aの音素発音精度(phoneme accuracy)accは、70.3%であった。ここで、音素発音精度accは、次式
(8) acc=(N−S−D−I)/N
を用いて算出される。上式(8)において、Nは、取得された音素(列)事例の総数であり、Sは、発音エラーとしての音素の入れ替わり(substitution)の発生数であり、Dは、発音エラーとしての必要な音素の不在・消滅(deletion)の発生数であって、Iは、発音エラーとしての不要な音素の挿入(insertion)の発生数である。
By the way, the phoneme accuracy acc of Student A calculated in the series of phoneme analysis processes related to the above evaluation result was 70.3%. Here, the phoneme pronunciation accuracy acc is calculated by the following equation (8) acc = (N−S−D−I) / N.
Is calculated using. In the above equation (8), N is the total number of phoneme (column) cases acquired, S is the number of phoneme substitutions (substitutions) as pronunciation errors, and D is necessary as a pronunciation error. It is the number of occurrences of absence / deletion of phonemes, and I is the number of occurrences of insertion of unnecessary phonemes as a pronunciation error.
次に図5(B)によれば、生徒Bは、母音/a/及び/i/については、S/a/=7.503及びS/i/=7.786であって、「平均的レベル」(Undecided level)と「準ネイティブレベル」(Mildly Agree level)との間となる評価スコアを獲得している。一方、子音/z/については、S/z/=13.500であって、母音/a/及び/i/と比較するとより低評価である、概ね「準ノンネイティブレベル」(Mildly Disagree level)の評価スコアとなっている。 Next, according to FIG. 5 (B), student B has S / a / = 7.503 and S / i / = 7.786 for the vowels / a / and / i /, which is an "average level" (Undecided). He has earned an evaluation score between level) and the "Mildly Agree level". On the other hand, for the consonant / z /, S / z / = 13.500, which is lower than the vowels / a / and / i /, and is generally evaluated as "Mildly Disagree level". It is a score.
またこのような結果から、生徒Bの音素/a/、/i/及び/z/の発音は、生徒Aのそれと比べて熟達の度合いが低い(ネイティブの発音を基準とした場合に、音素発音におけるエラーの発生する度合いがより高い)ことが分かる。ちなみに、生徒Bの音素発音精度accは65.2%であって、生徒Aの音素発音精度acc(70.3%)よりも低い値であり、図5(A)及び(B)に示した両者の評価スコアの結果を裏付けるものとなっている。 From these results, the pronunciation of the phonemes / a /, / i / and / z / of student B is less proficient than that of student A (phoneme pronunciation based on the native pronunciation). The degree of error occurrence is higher). By the way, the phoneme pronunciation accuracy acc of student B is 65.2%, which is lower than the phoneme pronunciation accuracy acc (70.3%) of student A, and the evaluation scores of both are shown in FIGS. 5 (A) and 5 (B). It supports the result of.
すなわち、生徒Aと比較して、音素発音間の識別度が低く(モデル間距離が小さく)音素発音の混同が発生しやすい生徒Bにおいては、音素発音におけるエラーもより多く発生しており、さらにこのような結果からしても、当該モデル間距離を利用した上記の評価スコアは、非常に良好な発音評価指標となっていることが理解される。 That is, in Student B, in which the degree of discrimination between phoneme pronunciations is lower (the distance between models is smaller) and phoneme pronunciations are more likely to be confused than in Student A, more errors in phoneme pronunciations occur, and further. From such a result, it is understood that the above evaluation score using the distance between the models is a very good pronunciation evaluation index.
以上詳細に説明したように、本発明によれば、発音評価対象につき、対象モデル間距離を利用して評価スコアを導出している。ここで、この対象モデル間距離算出のための処理負担は、例えばDNNによる発音評価処理と比較しても各段に少なくて済む。したがって、この評価スコアは、必要となるモデルを予め構築しておけば、リアルタイムで(発音評価対象の発音を取得したその場で)決定することも可能となる。すなわち、本発明によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で効率的に発音評価を実施することができるのである。 As described in detail above, according to the present invention, the evaluation score is derived for the pronunciation evaluation target by using the distance between the target models. Here, the processing load for calculating the distance between the target models is much smaller than that of the pronunciation evaluation processing by DNN, for example. Therefore, this evaluation score can be determined in real time (on the spot when the pronunciation of the pronunciation evaluation target is acquired) by constructing the required model in advance. That is, according to the present invention, pronunciation evaluation can be efficiently performed with a smaller calculation processing load that also enables real-time evaluation.
また、本実施形態の発音評価装置1では、発音評価を行う際、強制切り出し型音素アライメント(forced alignment)手法を用いる必要がない。したがって、発音評価のために、発声データをテキスト化する必要もなければ、評価基準対象による基準発話文の提供も不要となり、その結果、発音評価の処理負担がより低減する。
Further, in the
また、本発明は特に、語学学校や公的教育期間において言語教育サービスを提供する際、個々の学習者における適切な言語習熟度の評価を、より低負担で実施可能にするものとなっている。さらに、一般に言語においては、限定した数の発音単位(例えば母音や子音といった数十個の音素)が明確に規定されており、本発明では、これらについてのモデル間距離を算出しさえすれば評価スコアを決定することができるので、様々な言語における発音評価にも容易に適用可能となるのである。 In addition, the present invention makes it possible to evaluate appropriate language proficiency of individual learners at a lower burden, especially when providing language education services in a language school or during a public education period. .. Further, in general, in a language, a limited number of pronunciation units (for example, dozens of phonemes such as vowels and consonants) are clearly defined, and in the present invention, it is only necessary to calculate the inter-model distance for these. Since the score can be determined, it can be easily applied to pronunciation evaluation in various languages.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 With respect to the various embodiments of the present invention described above, various changes, modifications and omissions within the scope of the technical idea and viewpoint of the present invention can be easily made by those skilled in the art. The above explanation is just an example and does not attempt to restrict anything. The present invention is limited only to the claims and their equivalents.
1 発音評価装置
101 通信インタフェース部
102 ネイティブコーパス
103 ユーザ発音保存部
104 評価スコア保存部
105 マイク(MC)
106 スピーカ(SP)
107 タッチパネル・ディスプレイ(TP・DP)
111 音素解析部
112 対象モデル生成部
112a 適応化処理部
113 対象モデル間距離算出部
114 評価スコア決定部
121、211 基準モデル構築部
122、212 基準モデル間距離算出部
123、213 評価スコア推定モデル構築部
131 入出力制御部
132 通信制御部
2 サーバ
1
106 Speaker (SP)
107 Touch panel display (TP / DP)
111
Claims (11)
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させることを特徴とする発音評価プログラム。 It is a pronunciation evaluation program that operates a computer mounted on a device that evaluates the pronunciation of a predetermined language performed by a pronunciation evaluation target using a model related to pronunciation.
For each of the plurality of pronunciation units constituting the pronunciation of the predetermined language, or for the predetermined pronunciation unit among them, the model constructed for the pronunciation unit included in the pronunciation performed by the distance calculation target and the pronunciation An inter-model distance calculation means for calculating the inter-model distance with a model constructed for other included pronunciation units, and
Evaluation score determining means for determining the evaluation score regarding the distinctiveness of pronunciation of the pronunciation unit performed by the pronunciation evaluation target based on the target model distance, which is the distance between the models calculated with the pronunciation evaluation target as the distance calculation target. A pronunciation evaluation program characterized by the functioning of a computer.
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
を有することを特徴とする発音評価装置。 It is a pronunciation evaluation device that evaluates the pronunciation of a predetermined language performed by a pronunciation evaluation target using a model related to pronunciation.
For each of the plurality of pronunciation units constituting the pronunciation of the predetermined language, or for the predetermined pronunciation unit among them, the model constructed for the pronunciation unit included in the pronunciation performed by the distance calculation target and the pronunciation An inter-model distance calculation means for calculating the inter-model distance with a model constructed for other included pronunciation units, and
Evaluation score determining means for determining the evaluation score regarding the distinctiveness of pronunciation of the pronunciation unit performed by the pronunciation evaluation target based on the distance between the target models, which is the distance between the models calculated with the pronunciation evaluation target as the distance calculation target. A pronunciation evaluation device characterized by having and.
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するステップと、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定するステップと
を有することを特徴とする発音評価方法。 It is a pronunciation evaluation method performed by a computer mounted on a device that evaluates the pronunciation of a predetermined language performed by a pronunciation evaluation target using a model related to pronunciation.
For each of the plurality of pronunciation units constituting the pronunciation of the predetermined language, or for the predetermined pronunciation unit among them, the model constructed for the pronunciation unit included in the pronunciation performed by the distance calculation target and the pronunciation Steps to calculate the inter-model distance from the model constructed for the other included pronunciation units,
It has a step of determining an evaluation score regarding the distinctiveness of pronunciation of a pronunciation unit performed by the pronunciation evaluation target based on the target model distance, which is the distance between models calculated with the pronunciation evaluation target as the distance calculation target. A pronunciation evaluation method characterized by this.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019040452A JP7039511B2 (en) | 2019-03-06 | 2019-03-06 | Programs, devices and methods for pronunciation evaluation using distance between models |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019040452A JP7039511B2 (en) | 2019-03-06 | 2019-03-06 | Programs, devices and methods for pronunciation evaluation using distance between models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020144213A true JP2020144213A (en) | 2020-09-10 |
JP7039511B2 JP7039511B2 (en) | 2022-03-22 |
Family
ID=72354098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019040452A Active JP7039511B2 (en) | 2019-03-06 | 2019-03-06 | Programs, devices and methods for pronunciation evaluation using distance between models |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7039511B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614510A (en) * | 2020-12-23 | 2021-04-06 | 北京猿力未来科技有限公司 | Audio quality evaluation method and device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009187000A (en) * | 2008-01-10 | 2009-08-20 | Asahi Kasei Corp | User voice diagnostic device and user voice diagnostic method |
JP2011128903A (en) * | 2009-12-17 | 2011-06-30 | Toyohashi Univ Of Technology | Sequence signal retrieval device and sequence signal retrieval method |
-
2019
- 2019-03-06 JP JP2019040452A patent/JP7039511B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009187000A (en) * | 2008-01-10 | 2009-08-20 | Asahi Kasei Corp | User voice diagnostic device and user voice diagnostic method |
JP2011128903A (en) * | 2009-12-17 | 2011-06-30 | Toyohashi Univ Of Technology | Sequence signal retrieval device and sequence signal retrieval method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614510A (en) * | 2020-12-23 | 2021-04-06 | 北京猿力未来科技有限公司 | Audio quality evaluation method and device |
CN112614510B (en) * | 2020-12-23 | 2024-04-30 | 北京猿力未来科技有限公司 | Audio quality assessment method and device |
Also Published As
Publication number | Publication date |
---|---|
JP7039511B2 (en) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Mispronunciation detection and diagnosis in l2 english speech using multidistribution deep neural networks | |
Witt et al. | Phone-level pronunciation scoring and assessment for interactive language learning | |
CN105741832B (en) | Spoken language evaluation method and system based on deep learning | |
US7996209B2 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
Wang et al. | Towards automatic assessment of spontaneous spoken English | |
JP6815899B2 (en) | Output statement generator, output statement generator and output statement generator | |
JPWO2009078256A1 (en) | Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program | |
US20210082311A1 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN112669845B (en) | Speech recognition result correction method and device, electronic equipment and storage medium | |
Wang et al. | Supervised detection and unsupervised discovery of pronunciation error patterns for computer-assisted language learning | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
Duan et al. | A Preliminary study on ASR-based detection of Chinese mispronunciation by Japanese learners | |
KR102333029B1 (en) | Method for pronunciation assessment and device for pronunciation assessment using the same | |
JP7039511B2 (en) | Programs, devices and methods for pronunciation evaluation using distance between models | |
JP6786065B2 (en) | Voice rating device, voice rating method, teacher change information production method, and program | |
Proença | Automatic assessment of reading ability of children | |
JP7064413B2 (en) | Pronunciation evaluation programs, devices and methods using language discriminative models | |
Minematsu | Pronunciation assessment based upon the compatibility between a learner's pronunciation structure and the target language's lexical structure. | |
Meylan et al. | Child-directed listening: how caregiver inference enables children's early verbal communication | |
Li et al. | Multi-speaker pitch tracking via embodied self-supervised learning | |
JP4417892B2 (en) | Audio information processing apparatus, audio information processing method, and audio information processing program | |
KR20200036366A (en) | Apparatus and method for foreign language conversation learning | |
Ungureanu et al. | pROnounce: Automatic Pronunciation Assessment for Romanian | |
Knowles et al. | Understanding Automatic Speech Recognition for L2 Speakers and Unintended Discrimination in Artificial Intelligence | |
US20230037541A1 (en) | Method and system for synthesizing speeches by scoring speeches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7039511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |