JP6997993B2

JP6997993B2 - 語学学習支援装置、その方法、およびプログラム

Info

Publication number: JP6997993B2
Application number: JP2018169594A
Authority: JP
Inventors: 哲小橋川; 亮増村; 裕司青野; 勇祐井島; 信明峯松
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2022-01-18
Anticipated expiration: 2038-09-11
Also published as: JP2020042174A

Description

特許法第３０条第２項適用（１）発行日２０１８年３月１２日刊行物一般社団法人電子情報通信学会信学技報ＩＥＩＣＥＴｅｃｈｎｉｃａｌＲｅｐｏｒｔＥＡ２０１７－１１３、ＳＩＰ２０１７－１２２、ＳＰ２０１７－９６（２０１８－０３）６９－７４頁（２）開催日２０１８年３月１９日集会名一般社団法人電子情報通信学会・一般社団法人日本音響学会共催音声研究会開催場所南の美ら花ホテルミヤヒラ（〒９０７－００１２沖縄県石垣市美崎町４－９）

本発明は、非母語を学習する学習者を支援する語学学習支援装置、その方法、およびプログラムに関する。

語学学習の手法としてシャドーイングが知られている。シャドーイングでは、学習者が、学習対象の言語の音声を聴きながら、それを真似して発音する。シャドーイングを効率的に行うためには、学習者が真似して発音した音声に対して適切なフィードバックが必要となる。例えば、学習者が真似して発音した音声に対してスコアを推定し、推定したスコアからフィードバックを自動的に推定する（非特許文献１参照）。

楽俊偉，塩沢文野，外山翔平，畑アンナマリア知寿江，山内豊，伊藤佳世子，齋藤大輔，峯松信明「シャドーイング音声に対するDNNを用いたGOPスコアと手動スコアへの近接性」2-P-31 日本音響学会講演論文集．2017年3月

しかしながら、従来技術では真似するための正解の音声が必須であり、学習コンテンツ作成に関わるコストを必要とする。また、学習者から見ると、既知の文章を読み上げる事になるため、自分が発声したい任意の文章を練習することができない。任意の文章を練習するためには、その正解の音声を用意する必要ある。

本発明は、対象とする文章に適応的に対応するため、任意の文章を学習対象とする事が可能になる語学学習支援装置、その方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、語学学習支援装置は、発音誤り事例を記憶する発音誤り事例記憶部と、発音誤り事例を用いて入力テキストの発音誤りを起こしやすい箇所の候補を抽出する発音誤り候補抽出部を含む。

本発明によれば、対象とする文章に適応的に対応するため、任意の文章を学習対象とする事が可能になる。また、学習対象の文章に応じた正解の音声を収録する必要が無いため、学習コンテンツ作成に関わるコストを抑える事が可能となる。

第一実施形態に係る語学学習支援装置の機能ブロック図。第一実施形態に係る語学学習支援装置の処理フローの例を示す図。第二実施形態に係る語学学習支援装置の機能ブロック図。第三実施形態に係る語学学習支援装置の機能ブロック図。第四実施形態に係る語学学習支援装置の機能ブロック図。第五実施形態に係る語学学習支援装置の機能ブロック図。第六実施形態に係る語学学習支援装置の機能ブロック図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態＞
本実施形態の語学学習支援装置は、学習者の発音を練習したい学習用テキストに合わせて、発音誤りに注意を要する箇所を指摘する。

図１は第一実施形態に係る語学学習支援装置の機能ブロック図を、図２はその処理フローを示す。

語学学習支援装置は、学習用言語データ記憶部１０１と発音誤り事例記憶部１０３と発音誤り候補抽出部１０５とを含む。

語学学習支援装置は、学習用言語データ記憶部１０１に記憶された学習用言語データに発音誤り候補を付加して、出力する。例えば、学習用言語データを任意の英文テキストとし、その英文テキストの発音誤りを起こしそうな箇所を明示したものを出力する(図１参照)。

本実施形態では、学習対象の言語を英語とし、学習者を（日本語を母語とする）日本人として説明するが、学習対象の言語、及び、学習者の母語を限定するものではない。要は、学習対象の言語と学習者の母語とが異なる場合に適用可能である。

語学学習支援装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。語学学習支援装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。語学学習支援装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。語学学習支援装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。語学学習支援装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも語学学習支援装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、語学学習支援装置の外部に備える構成としてもよい。

以下、各部について説明する。

＜発音誤り事例記憶部１０３＞
発音誤り事例記憶部１０３には、発音誤り候補を付加する前に、予め発音誤り事例を記憶しておく。例えば、発音誤り事例記憶部１０３は、発音誤りの事例がテーブル等の形式で記録されているデータベースである。表のような形式で記憶されても良いし、正解から誤りへの変換テーブル+変換確率のような形式で記憶されても良い。

例えば、以下のような正解の発音記号の音素系列=>誤り易い発音記号の音素系列が記憶される。
[l]->[r]
[r]->[l]
本実施形態では、発音誤り候補(発音誤りの事例)は、予め用意されているものとする。

例えば、語学学習用テキストに記載されている事例を用いても良いし、参考文献１を用いて抽出した発音誤りを用いても良い。
（参考文献１）特開２０１７－１９１２７８号公報

一般的に、語学学習に関するテキスト等に記載されている事例(参考文献２参照)では、音素環境依存等を考慮していないため、発音誤り候補数は多くなる可能性が高い。
（参考文献２）Michael Swan Bernard Smith、"Learner English: A Teacher's Guide to Interference Teacher's Guide to Interference and Other Problems", Cambridge University Press, 2版, 2001年, p.296-310

なお、特許文献１の方式であれば実際の音声から抽出されたものであり、候補数が制限される可能性が高い。また、話者の語学レベルや同一学習ドメイン(学習内容の話題)が違うものから事例を集める事で、対象とする学習者や学習ドメインに合った発音誤り候補が提示される可能性が高い。

なお、正解から誤りへの変換テーブルについては、音素の一つ組(monophone、ex, *-r+*)といった音素環境独立なものを用いても良いし、音素の三つ組み(triphone，ex. k-r+i)といった音素環境依存のものを用いた方が良いてもよい。

＜学習用言語データ記憶部１０１＞
学習用言語データ記憶部１０１は、学習対象のテキストデータが記録されているデータベースである。例えば、学習したい文章がリストになって記憶されている。
例１）I like rice.
例２）I like apples.
既に蓄積されているデータベースを用いても良く、学習者が自ら追加したテキストデータを用いても良い。

＜発音誤り候補抽出部１０５＞
入力：学習用言語データ、発音誤り事例
出力：発音誤り候補付言語データ
処理内容：
発音誤り事例を用いて、学習用言語データ（入力テキスト）の発音誤りを起こしやすい箇所の候補を抽出し（Ｓ５）、発音誤り候補を含む情報を付加して、発音誤り候補付言語データを出力する。

まず、学習用言語データとして、発音情報の無いテキストデータを用いる場合は、テキスト表記を発音表記に変換する。発音表記に対して、発音誤り事例に記載されている音素を含んでいる場合には、その音素を発音誤り候補として、情報を付加して、発音誤り候補付言語データを出力する。

なお、この単語から発音表記への変換については、予め用意した英語発音辞書を用いて変換しても良い。もしくは、参考文献３で用いられている、WFST (Weighted Finite State Transducer)に基づき単語表記を音素へ変換するGrapheme-to-Phoneme(G2P)を変換方式として用いても良い。
（参考文献３）Josef R. Novak, Nobuaki Minematsu, Keikichi Hirose, "WFST-based Grapheme-to-Phoneme Conversion: Open Source Tools for Alignment, Model-Building and Decoding", Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing, pages 45-49, 2012.

なお、この発音誤り候補抽出部の処理を学習要言語データの正解音素CP(Correct Phoneme)に対する誤り音素MP(Mispronunciation Phoneme)へ変換するCP2MPとして学習しておき、発音誤り候補出力として用いても良い。

なお、このとき、英語発音辞書にない専門用語等の未知語については、発音誤り候補とはせず、要注意単語として、強調表示をしても良い。

＜効果＞
以上の構成により、対象とする文章に適応的に対応するため、任意の文章を学習対象とする事が可能になる。また、学習対象の文章に応じた正解の音声を収録する必要が無いため、学習コンテンツ作成に関わるコストを抑える事が可能となる。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

本実施形態では、発音誤りの指摘箇所は誤りの可能性が高いものに絞って抽出し、提示する。

学習者に対して、多くの誤り候補が出る場合は、学習すべき箇所が多過ぎて、モチベーションが大きく低下してしまう可能性がある。

そこで、例えば、入力の1文に対して、提示する発音誤り候補は1つまでといった方式等のように、発音誤り候補を提示する際に、出力する候補の数を制限する。このとき、より効率的に学習するために、発音誤り候補の指摘箇所は誤りの可能性が高いものに絞って抽出し提示する。そこで、発音誤り事例には、確率の付与されているものを用いる。

図３は第二実施形態に係る語学学習支援装置の機能ブロック図を示す。

語学学習支援装置は、学習用言語データ記憶部１０１と確率付発音誤り事例記憶部２０３と発音誤り候補抽出部２０５とを含む。

＜確率付発音誤り事例記憶部２０３＞
確率付発音誤り事例記憶部２０３には、発音誤り事例と発音誤り事例に対応する発音誤りの起こしやすさの指標との組が記憶される。例えば、確率付発音誤り事例記憶部２０３は、発音誤り事例と（発音誤りの起こしやすさの指標である）その出現確率の組がテーブル等の形式で記録されているデータベースである。例えば、表のような形式で記憶されている。例えば、以下のように[正解の発音記号の音素系列] => [誤り易い発音記号の音素系列]：指標の形式で記憶されている。

[l]->[r]：0.5
[r] ->[l]：0.2

発音誤りの起こしやすさの指標としては例えば以下のものが考えられる。
（例１）学習用テキスト（学習用言語データ）における出現頻度から出現し易さを推定し、指標とする。このとき、出現し易さとして、各音素の出現頻度を、全出現頻度で除算した割合を用いても良い。
（例２）非ネイティブ話者(非母語話者ともいう)の音声を対象とした発音誤り検出技術から別途算出した発音誤り確率を指標とする。ここで発音誤り検出技術としては、例えば発音誤り前の音素の出現頻度で、発音誤り後の音素の出現頻度を除算した割合を用いることが出来る。
（例３）出現し易さとしての確率（上述の例１）と、発音誤り確率（上述の例２）の積を指標とする。
（例４）特に確率値である必要は無く、当該発音誤りの出現頻度や出現頻度の順位の逆数を指標としてもよい。

＜発音誤り候補抽出部２０５＞
入力：学習用言語データ、発音誤り事例と発音誤り事例に対応する発音誤りの起こしやすさの指標との組
出力：発音誤り候補付言語データ
処理内容：
発音誤りの事例に対応する発音誤りやすさの程度に基づいて、学習用言語データ（入力テキスト）に対して発音誤りを起こしやすい箇所の候補を予め定めた候補数以下だけ抽出し（Ｓ５）、発音誤り候補を含む情報を付加して出力する。

上述の通り、多数の指摘は、学習意欲を低下させるため、対象の1文のうち確率値の高い上位N(ex. N=1)個以下等に絞る。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、学習意欲の低下を防ぐことができる。

＜第三実施形態＞
第二実施形態と異なる部分を中心に説明する。

本実施形態では、発音誤りの発音誤りの指摘する候補はそもそも発音誤りが起きやすいものに絞って処理を行う。全ての発音誤り事例を用意しておくと、指摘箇所が多くなったり、照合時間を要するようになる。

そこで、予め発音誤りが起きやすいものに絞って、発音誤り事例を蓄積する。以下、そのための構成について説明する。

図４は第三実施形態に係る語学学習支援装置の機能ブロック図を示す。

語学学習支援装置は、学習用言語データ記憶部１０１と制限確率付発音誤り事例記憶部３０３と発音誤り候補抽出部２０５と発音誤り学習データ記憶部３０７と発音誤り事例抽出部３０９とを含む。

＜発音誤り学習データ記憶部３０７＞
発音誤り学習データ記憶部３０７は、発音誤りを含むサンプルデータ（発音誤り学習データ）が蓄積された一定量のテキストデータベースである。例えば、テキストデータと、そのテキストデータの正解発音の単語の音素系列と、発音誤りを含む音素系列が保持されたテキストデータベースである。以下に例を示す。
Ex. [正解発音系列] => [発音誤り音素系列]
[lik] => [rik]
[ris] => [lis]

また、発音表記には、以下に例示するように様々な記述方式が存在する(例えば、IPA方式、ARPABET方式、 1文字表記、2文字表記等)。
Ex.

ARPABET 1文字 a
ARPABET 2文字 AA
発音誤り音素系列等が発音辞書、すなわち正解発音系列とは異なる形式で記述されている事例も想定される。その際は、異なる発音記述方式間の変換を行う必要がある。この場合、例えば、上述のGrapheme-to-Phonemeを用いて変換する事で統一化を図る事が考えられる。このとき、Grapheme-to-Phonemeを処理する変換モデルの学習データには、ネイティブ話者(母語話者ともいう)の発音系列に絞って学習する事とする。異なる発音記述方式間の変換に、非ネイティブの発音誤りを含めない事で、頑健な変換処理が可能となる。

＜発音誤り事例抽出部３０９＞
入力：発音誤り学習データ
出力：確率付発音誤り事例
処理内容：
例えば、発音誤り事例抽出部３０９は、発音誤り学習データにおける各発音誤りの出現頻度を計算し、発音誤り事例とその出現確率を計算する。

このとき、一つの音素の出現頻度でも良いし、複数の音素からなる音素系列での出現頻度でも良い。

例えば、以下のように出現確率を計算する。
[l]->[r]の場合：p([l]->[r]) = (rと発声された数)/(lと発声すべき数)
このとき、(lと発声すべき数)は学習データにおける音素lの出現頻度、 (rと発声された数)は本来音素lと発声すべきであるが音素rと発声されてしまったものの出現頻度とする。

＜制限確率付発音誤り事例記憶部３０３＞
発音誤り事例記憶部３０３は、発音誤り事例に対応する発音誤りの起こしやすさの指標が予め定められた閾値を超えた発音誤り事例とその指標との組のみを記憶する。本実施形態における発音誤りの起こしやすさの指標は、発音誤り事例の出現確率である。

例えば、発音誤り事例記憶部３０３は、発音誤りの事例がテーブル等の形式で記録されているデータベースである。例えば、表のような形式で記憶されている。

例えば、([正解の発音記号の音素系列] => [誤り易い発音記号の音素系列]：確率)の形式で記憶されている。このとき、出現確率が予め定められた閾値(ex > 0.4)を超えたもののみを格納する。例えば、([l]->[r]：0.5)は格納し、([r]->[l]：0.2)は格納しない構成とする。

このとき、一つの音素だけでなく、前後の音素といったコンテキストを考慮して格納するか否かを判定してもよい。その際は、上記のようなテーブル方式ではなく、Grapheme-to-Phoneme(G2P)と同様に、WFST等の方式を用いて、正解発音から誤り発音の変換処理(Correct Phoneme to Mispronunciation Phoneme)を施しても良い。G2Pを用いる事で、周辺の音素環境(triphone等)のコンテキストを考慮する事ができるため、過度な数の発音誤り候補が出現しにくくなる。

＜効果＞
このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、指摘箇所を限定したり、照合時間を減らすことができる。

また、本実施形態と第一実施形態とを組合せてもよい。第一実施形態と組合せた場合、制限確率付発音誤り事例記憶部３０３には、発音誤り事例に対応する発音誤りの起こしやすさの指標（発音誤りやすさの程度と言ってもよい）が予め定められた閾値を超えた発音誤り事例のみを記憶すればよい。

＜第四実施形態＞
第三実施形態と異なる部分を中心に説明する。

本実施形態では、発音誤りの指摘箇所を非ネイティブ特有のものに絞る。このような構成により、ネイティブでも起きる発音誤りの指摘を抑制し、非ネイティブ特有の指摘に留めることで学習効果を高める。

図５は第四実施形態に係る語学学習支援装置の機能ブロック図を示す。

語学学習支援装置は、学習用言語データ記憶部１０１と制限確率付発音誤り事例記憶部３０３と発音誤り候補抽出部２０５と発音誤り学習データ記憶部（非ネイティブ）４１１と発音誤り学習データ記憶部（ネイティブ）４１３と非ネイティブ特有発音誤り事例抽出部４０９とを含む。

＜発音誤り学習データ記憶部（非ネイティブ）４１１＞
発音誤り学習データ記憶部（非ネイティブ）４１１は、発音誤りを含む非ネイティブ話者のサンプルデータ（非ネイティブ発音誤り学習データ）が蓄積された一定量のテキストデータベースである。

＜発音誤り学習データ記憶部（ネイティブ）４１３＞
発音誤り学習データ記憶部（ネイティブ）４１３は、発音誤りを含むネイティブ話者のサンプルデータ（ネイティブ発音誤り学習データ）が蓄積された一定量のテキストデータベースである。

＜非ネイティブ特有発音誤り事例抽出部４０９＞
入力：非ネイティブ発音誤り学習データ、ネイティブ発音誤り学習データ、
出力：確率付発音誤り事例
処理内容：
非ネイティブ特有発音誤り事例抽出部４０９は、非ネイティブ発音誤り学習データ（テキストデータ）とネイティブ発音誤り学習データ（テキストデータ）について、ネイティブ話者の発音誤り事例に対応する発音誤りやすさの程度と非ネイティブ話者の発音誤り事例に対応する発音誤りやすさの程度に基づいて算出された非ネイティブ話者特有の発音誤りやすさの程度と対応する発音誤り事例を発音誤り事例記憶部３０３に格納する。

例えば、非ネイティブ発音誤り学習データとネイティブ発音誤り学習データにおける各発音誤りの出現頻度を計算し、この出現頻度を利用して、非ネイティブ特有の発音誤りやすさの程度を算出する。例えば、ある発音誤りについて、非ネイティブ発音誤り学習データから得られる出現頻度からネイティブ発音誤り学習データから得られる出現頻度を減算して得た差を、非ネイティブ発音誤り学習データから得られる出現頻度とネイティブ発音誤り学習データから得られる出現頻度との和で除算して得た値を非ネイティブ特有の発音誤りやすさの程度として用いる。なお、非ネイティブ発音誤り学習データにある発音誤りが存在する度にインクリメント(個数を求める際に、ある発音誤りの個数を１増やす処理)し、ネイティブ発音誤り学習データにある発音誤りが存在する度にデクリメント(個数を求める際に、ある発音誤りの個数を１減らす処理)することで、上述の差を求めてもよい。

一般的には、非ネイティブの発音誤り事例が多く、ネイティブは少ない事が予想されることから、内部的に、ネイティブ話者と非ネイティブ話者の発音誤り事例の分量が同量になるように個数や確率値を調整した上で、上述の差を求めてもよい。例えば、全ての誤り事例から計算した確率の平均値が同じになるよう、ネイティブの確率に乗算しても良い。例えば、非ネイティブ話者の場合の全ての誤り事例の出現確率が10%であり、ネイティブ話者の場合の全ての誤り事例の出現確率が2%である場合、ネイティブ話者の各誤り事例の出現確率を5倍し、非ネイティブ話者とネイティブ話者の誤り事例の出現確率が同じ10%になるように調整する。

さらに、上述の差を求める処理により、出現頻度ではなくなるため、全体の値が確率値になるよう、値の総和が1になるように正規化しても良い。

＜効果＞
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、非ネイティブ特有の発音誤りに指摘箇所を限定することで、非ネイティブ話者の学習効果を高めることができる。

＜第五実施形態＞
第四実施形態と異なる部分を中心に説明する。

本実施形態では、発音誤り事例を非ネイティブ音声を用いて再学習を行う事で確率値の調整や誤り事例の追加・削除等を行う。

図６は第五実施形態に係る語学学習支援装置の機能ブロック図を示す。

語学学習支援装置は、学習用言語データ記憶部１０１と制限確率付発音誤り事例記憶部３０３と発音誤り候補抽出部２０５と発音誤り学習データ記憶部（非ネイティブ）４１１と発音誤り学習データ記憶部（ネイティブ）４１３と非ネイティブ特有発音誤り事例抽出部４０９とネイティブ音響モデル記憶部５１５と正解付音声データベース記憶部（非ネイティブ）５１７と発音誤り学習データ抽出部５１９とを含む。

＜正解付音声データベース記憶部（非ネイティブ）５１７＞
正解付音声データベース記憶部（非ネイティブ）５１７は、非ネイティブによる音声データベースであり、そもそも非ネイティブ話者が発声したかった正解の文章（テキスト）が付与されており、正しい発音が分かる。

＜ネイティブ音響モデル記憶部５１５＞
ネイティブ音響モデル記憶部５１５には、ネイティブ話者の音声データに基づき予め生成された音響モデル（ネイティブ音響モデル）が格納されている。

＜発音誤り学習データ抽出部５１９＞
入力：非ネイティブ音声データ、発音誤り事例、ネイティブ音響モデル
出力：非ネイティブ発音誤り学習データ
処理内容：
発音誤り学習データ抽出部５１９は、非母語話者の音声に対応づけられたテキストまたは制限確率付発音誤り事例記憶部３０３に記憶された発音誤り事例のテキストの少なくもいずれかである入力テキストに対して、入力テキストに対応する音声について高制約文法に対応する第１の音響モデルのスコアと低制約文法に対応する第２の音響モデルのスコアのうち、第２の音響モデルのスコアが高い場合に、非ネイティブ話者の発話に対応するテキストを非ネイティブ話者の発音誤り学習データとして発音誤り学習データ記憶部（非ネイティブ）４１１に格納する。さらに、非母語話者特有発音誤り事例抽出部４０９に、発音誤り学習データ記憶部（非ネイティブ）４１１に新たに格納された非ネイティブ話者の発音誤り学習データを用いて、発音誤り事例記憶部３０３に記憶された発音誤り事例に対応する発音誤りやすさの程度を更新する、または、新たな発音誤り事例に対応するテキストと発音誤りやすさの程度を追加するように制御信号を出力する。

音声データに対して、正解の文章で内部的に生成した高制約文法下のネイティブ音響モデルのスコア(高制約文法スコア)と、発音誤り事例を考慮した低制約文法下のネイティブ音響モデルのスコア(低制約文法スコア)を比較し、低制約文法スコアが高い発音を発音誤りとして出力する。
Ex.
高制約文法: 正解のみで認識させる文法
I like rice -> aI laIk raIs
低制約文法: 発音誤りが入る可能性を考慮して認識させる文法
I like rice -> aI {l,l2r}aIk {r,r2l}aIs
ただし、{l,l2r}はlをrに発音誤りすることを許容することを意味し、{r,r2l}はrをlに発音誤りすることを許容することを意味する。

このとき、スコア差(低制約文法スコア- 高制約文法スコア)が0より大きいものを出力しても良いし、閾値を用いてスコア差が閾値より高いものを出力しても良い。この閾値を大きくする事で誤り候補の出力頻度を下げ、過剰な学習者へのフィードバックを減らす事が出来る。

発音誤り事例については、既に獲得済みのもので、その頻度だけ更新しても良いし、新たな発音誤り事例を仮に投入して選定しても良い。具体的には、獲得済みの少ない発音誤り事例で繰り返し処理を回し、頻度の更新が無くなった段階で、未獲得の発音誤り候補を新たに事例として追加しても良い。

このとき、発音誤り事例が追加される毎に、発音誤り学習データ抽出部５１９の処理を繰り返し実施しても良い。

＜第六実施形態＞
第五実施形態と異なる部分を中心に説明する。

第五実施形態と同様に、発音誤り事例を非ネイティブ音声を用いて再学習を行う事で確率値の調整や誤り事例の追加・削除等を行う。本実施形態は、音声認識を用いる事で既知の例文でなくても対象とすることができる。

図７は第六実施形態に係る語学学習支援装置の機能ブロック図を示す。

語学学習支援装置は、学習用言語データ記憶部１０１と制限確率付発音誤り事例記憶部３０３と発音誤り候補抽出部２０５と発音誤り学習データ記憶部（非ネイティブ）４１１と発音誤り学習データ記憶部（ネイティブ）４１３と非ネイティブ特有発音誤り事例抽出部４０９とネイティブ音響モデル記憶部５１５と正解付音声データベース記憶部(非ネイティブ)５１７と発音誤り学習データ抽出部５１９と正解無音声データベース記憶部（非ネイティブ）６２３と非ネイティブ音響モデル記憶部６２１と音声認識部６２５とを含む。

＜正解無音声データベース記憶部（非ネイティブ）６２３＞
正解無音声データベース記憶部（非ネイティブ）６２３は、非ネイティブによる音声データベースである。正解無音声データベース記憶部（非ネイティブ）６２３には、そもそも非ネイティブ話者が発声したかった正解の文章が付与されていなくても構わない。

＜非ネイティブ音響モデル記憶部６２１＞
非ネイティブ音響モデル記憶部６２１には、非ネイティブ話者の音声データに基づき予め生成された音響モデル（非ネイティブ音響モデル）が格納されている。

＜音声認識部６２５＞
入力：正解無音声データ、非ネイティブ音響モデル、信頼度閾値
出力：正解付音声データ
処理内容：
音声認識部６２５は、非ネイティブ音響モデルを用いて、正解無音声データに対して音声認識し、音声認識の信頼度が信頼度閾値より高い音声認識結果のみを正解(学習者が発声したかった文章として)として採用し、音声認識結果（非ネイティブ話者が発声したかったと推定される正解の文章（テキスト））を付与した正解無音声データを正解付音声データとして、正解付音声データベース記憶部（非ネイティブ）５１７に格納する。

なお、このときの信頼度閾値は事後確率に基づくものとして一定値(例えば、信頼度C>信頼度閾値C_th=0.9)としても良い。

第五実施形態と同様、繰り返し実施する場合には、信頼度閾値を最初は高め、繰り返すうちに低くして言っても良い。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

正解の発音記号の音素系列と誤り易い発音記号の音素系列との組を含む発音誤り事例を記憶する発音誤り事例記憶部と、
入力テキストの発音表記に前記発音誤り事例の音素系列を含んでいる場合には、その音素を発音誤り候補として抽出する発音誤り候補抽出部を含む、
語学学習支援装置。
発音誤り事例を記憶する発音誤り事例記憶部と、
前記発音誤り事例を用いて入力テキストの発音誤りを起こしやすい箇所の候補を抽出する発音誤り候補抽出部を含み、
前記発音誤り事例記憶部には、前記発音誤り事例と前記発音誤り事例に対応する発音誤りの起こしやすさの指標との組を記憶し、
前記発音誤り候補抽出部は、前記発音誤りの事例に対応する発音誤りの起こしやすさの指標に基づいて、入力テキストに対して前記発音誤りを起こしやすい箇所の候補を予め定めた候補数以下だけ抽出する、
語学学習支援装置。
請求項１または請求項２の語学学習支援装置であって、
前記発音誤り事例記憶部は、発音誤り事例の音素環境に基づく、発音誤りの起こしやすさの指標が予め定められた閾値を超えた発音誤り事例のみを記憶する、
語学学習支援装置。
請求項２または請求項３の語学学習支援装置であって、
非母語話者の発音誤りテキストと母語話者の発音誤りテキストについて、母語話者の発音誤り事例に対応する発音誤りの起こしやすさの指標と非母語話者の発音誤り事例に対応する発音誤りの起こしやすさの指標に基づいて算出された非母語話者特有の発音誤りの起こしやすさの指標と対応する発音誤り事例を前記発音誤り事例記憶部に格納する非母語話者特有発音誤り事例抽出部を備える、
語学学習支援装置。
請求項４の語学学習支援装置であって、
非母語話者の音声に対応づけられたテキストまたは発音誤り事例記憶部に記憶された発音誤り事例のテキストの少なくもいずれかである入力テキストに対して、前記入力テキストに対応する音声について高制約文法に対応する第１の音響モデルのスコアと低制約文法に対応する第２の音響モデルのスコアのうち、前記第２の音響モデルのスコアが高い場合に、前記非母語話者の発話に対応するテキストを非母語話者の発音誤りテキストとして非母語話者特有発音誤り事例抽出部に出力し、前記非母語話者特有発音誤り部によって、前記発音誤り事例記憶部に記憶された前記発音誤り事例に対応する発音誤りの起こしやすさの指標を更新する、または、新たな発音誤り事例に対応するテキストと発音誤りの起こしやすさの指標を追加する発音誤り学習データ抽出部を備え、
前記発音誤り事例記憶部の発音誤りが更新または追加されるたびに、発音誤り学習データ抽出部の処理を行なう、
語学学習支援装置。
請求項５の語学学習支援装置であって、
前記非母語話者の発話に対応するテキストは、前記非母語話者音声を非母語話者の音響モデルを用いて音声認識し、前記音声認識の信頼度が所定の閾値より高い音声認識結果である、
語学学習支援装置。
発音誤り事例記憶部には正解の発音記号の音素系列と誤り易い発音記号の音素系列との組を含む発音誤り事例が記憶されるものとし、
入力テキストの発音表記に前記発音誤り事例の音素系列を含んでいる場合には、その音素を発音誤り候補として抽出する発音誤り候補抽出ステップを含む、
語学学習支援方法。
発音誤り事例記憶部には発音誤り事例が記憶されるものとし、
前記発音誤り事例を用いて入力テキストの発音誤りを起こしやすい箇所の候補を抽出する発音誤り候補抽出ステップを含み、
前記発音誤り事例記憶部には、前記発音誤り事例と前記発音誤り事例に対応する発音誤りの起こしやすさの指標との組が記憶されるものとし、
前記発音誤り候補抽出ステップは、前記発音誤りの事例に対応する発音誤りの起こしやすさの指標に基づいて、入力テキストに対して前記発音誤りを起こしやすい箇所の候補を予め定めた候補数以下だけ抽出する、
語学学習支援装置。
請求項１から請求項６の何れかの語学学習支援装置としてコンピュータを機能させるためのプログラム。