JP6997993B2 - 語学学習支援装置、その方法、およびプログラム - Google Patents

語学学習支援装置、その方法、およびプログラム Download PDF

Info

Publication number
JP6997993B2
JP6997993B2 JP2018169594A JP2018169594A JP6997993B2 JP 6997993 B2 JP6997993 B2 JP 6997993B2 JP 2018169594 A JP2018169594 A JP 2018169594A JP 2018169594 A JP2018169594 A JP 2018169594A JP 6997993 B2 JP6997993 B2 JP 6997993B2
Authority
JP
Japan
Prior art keywords
pronunciation error
pronunciation
error
storage unit
native
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018169594A
Other languages
English (en)
Other versions
JP2020042174A (ja
Inventor
哲 小橋川
亮 増村
裕司 青野
勇祐 井島
信明 峯松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018169594A priority Critical patent/JP6997993B2/ja
Publication of JP2020042174A publication Critical patent/JP2020042174A/ja
Application granted granted Critical
Publication of JP6997993B2 publication Critical patent/JP6997993B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

特許法第30条第2項適用 (1)発行日 2018年3月12日 刊行物 一般社団法人電子情報通信学会 信学技報 IEICE Technical Report EA2017-113、SIP2017-122、SP2017-96(2018-03) 69-74頁 (2)開催日 2018年3月19日 集会名 一般社団法人電子情報通信学会・一般社団法人日本音響学会 共催 音声研究会 開催場所 南の美ら花 ホテルミヤヒラ(〒907-0012沖縄県石垣市美崎町4-9)
本発明は、非母語を学習する学習者を支援する語学学習支援装置、その方法、およびプログラムに関する。
語学学習の手法としてシャドーイングが知られている。シャドーイングでは、学習者が、学習対象の言語の音声を聴きながら、それを真似して発音する。シャドーイングを効率的に行うためには、学習者が真似して発音した音声に対して適切なフィードバックが必要となる。例えば、学習者が真似して発音した音声に対してスコアを推定し、推定したスコアからフィードバックを自動的に推定する(非特許文献1参照)。
楽俊偉,塩沢文野,外山翔平,畑アンナマリア知寿江,山内豊,伊藤佳世子,齋藤大輔,峯松信明「シャドーイング音声に対するDNNを用いたGOPスコアと手動スコアへの近接性」2-P-31 日本音響学会講演論文集.2017年3月
しかしながら、従来技術では真似するための正解の音声が必須であり、学習コンテンツ作成に関わるコストを必要とする。また、学習者から見ると、既知の文章を読み上げる事になるため、自分が発声したい任意の文章を練習することができない。任意の文章を練習するためには、その正解の音声を用意する必要ある。
本発明は、対象とする文章に適応的に対応するため、任意の文章を学習対象とする事が可能になる語学学習支援装置、その方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、語学学習支援装置は、発音誤り事例を記憶する発音誤り事例記憶部と、発音誤り事例を用いて入力テキストの発音誤りを起こしやすい箇所の候補を抽出する発音誤り候補抽出部を含む。
本発明によれば、対象とする文章に適応的に対応するため、任意の文章を学習対象とする事が可能になる。また、学習対象の文章に応じた正解の音声を収録する必要が無いため、学習コンテンツ作成に関わるコストを抑える事が可能となる。
第一実施形態に係る語学学習支援装置の機能ブロック図。 第一実施形態に係る語学学習支援装置の処理フローの例を示す図。 第二実施形態に係る語学学習支援装置の機能ブロック図。 第三実施形態に係る語学学習支援装置の機能ブロック図。 第四実施形態に係る語学学習支援装置の機能ブロック図。 第五実施形態に係る語学学習支援装置の機能ブロック図。 第六実施形態に係る語学学習支援装置の機能ブロック図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態>
本実施形態の語学学習支援装置は、学習者の発音を練習したい学習用テキストに合わせて、発音誤りに注意を要する箇所を指摘する。
図1は第一実施形態に係る語学学習支援装置の機能ブロック図を、図2はその処理フローを示す。
語学学習支援装置は、学習用言語データ記憶部101と発音誤り事例記憶部103と発音誤り候補抽出部105とを含む。
語学学習支援装置は、学習用言語データ記憶部101に記憶された学習用言語データに発音誤り候補を付加して、出力する。例えば、学習用言語データを任意の英文テキストとし、その英文テキストの発音誤りを起こしそうな箇所を明示したものを出力する(図1参照)。
本実施形態では、学習対象の言語を英語とし、学習者を(日本語を母語とする)日本人として説明するが、学習対象の言語、及び、学習者の母語を限定するものではない。要は、学習対象の言語と学習者の母語とが異なる場合に適用可能である。
語学学習支援装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。語学学習支援装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。語学学習支援装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。語学学習支援装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。語学学習支援装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも語学学習支援装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、語学学習支援装置の外部に備える構成としてもよい。
以下、各部について説明する。
<発音誤り事例記憶部103>
発音誤り事例記憶部103には、発音誤り候補を付加する前に、予め発音誤り事例を記憶しておく。例えば、発音誤り事例記憶部103は、発音誤りの事例がテーブル等の形式で記録されているデータベースである。表のような形式で記憶されても良いし、正解から誤りへの変換テーブル+変換確率のような形式で記憶されても良い。
例えば、以下のような正解の発音記号の音素系列=>誤り易い発音記号の音素系列が記憶される。
[l]->[r]
[r]->[l]
本実施形態では、発音誤り候補(発音誤りの事例)は、予め用意されているものとする。
例えば、語学学習用テキストに記載されている事例を用いても良いし、参考文献1を用いて抽出した発音誤りを用いても良い。
(参考文献1)特開2017-191278号公報
一般的に、語学学習に関するテキスト等に記載されている事例(参考文献2参照)では、音素環境依存等を考慮していないため、発音誤り候補数は多くなる可能性が高い。
(参考文献2)Michael Swan Bernard Smith、"Learner English: A Teacher's Guide to Interference Teacher's Guide to Interference and Other Problems", Cambridge University Press, 2版, 2001年, p.296-310
なお、特許文献1の方式であれば実際の音声から抽出されたものであり、候補数が制限される可能性が高い。また、話者の語学レベルや同一学習ドメイン(学習内容の話題)が違うものから事例を集める事で、対象とする学習者や学習ドメインに合った発音誤り候補が提示される可能性が高い。
なお、正解から誤りへの変換テーブルについては、音素の一つ組(monophone、ex, *-r+*)といった音素環境独立なものを用いても良いし、音素の三つ組み(triphone,ex. k-r+i)といった音素環境依存のものを用いた方が良いてもよい。
<学習用言語データ記憶部101>
学習用言語データ記憶部101は、学習対象のテキストデータが記録されているデータベースである。例えば、学習したい文章がリストになって記憶されている。
例1)I like rice.
例2)I like apples.
既に蓄積されているデータベースを用いても良く、学習者が自ら追加したテキストデータを用いても良い。
<発音誤り候補抽出部105>
入力:学習用言語データ、発音誤り事例
出力:発音誤り候補付言語データ
処理内容:
発音誤り事例を用いて、学習用言語データ(入力テキスト)の発音誤りを起こしやすい箇所の候補を抽出し(S5)、発音誤り候補を含む情報を付加して、発音誤り候補付言語データを出力する。
まず、学習用言語データとして、発音情報の無いテキストデータを用いる場合は、テキスト表記を発音表記に変換する。発音表記に対して、発音誤り事例に記載されている音素を含んでいる場合には、その音素を発音誤り候補として、情報を付加して、発音誤り候補付言語データを出力する。
なお、この単語から発音表記への変換については、予め用意した英語発音辞書を用いて変換しても良い。もしくは、参考文献3で用いられている、WFST (Weighted Finite State Transducer)に基づき単語表記を音素へ変換するGrapheme-to-Phoneme(G2P)を変換方式として用いても良い。
(参考文献3)Josef R. Novak, Nobuaki Minematsu, Keikichi Hirose, "WFST-based Grapheme-to-Phoneme Conversion: Open Source Tools for Alignment, Model-Building and Decoding", Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing, pages 45-49, 2012.
なお、この発音誤り候補抽出部の処理を学習要言語データの正解音素CP(Correct Phoneme)に対する誤り音素MP(Mispronunciation Phoneme)へ変換するCP2MPとして学習しておき、発音誤り候補出力として用いても良い。
なお、このとき、英語発音辞書にない専門用語等の未知語については、発音誤り候補とはせず、要注意単語として、強調表示をしても良い。
<効果>
以上の構成により、対象とする文章に適応的に対応するため、任意の文章を学習対象とする事が可能になる。また、学習対象の文章に応じた正解の音声を収録する必要が無いため、学習コンテンツ作成に関わるコストを抑える事が可能となる。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
本実施形態では、発音誤りの指摘箇所は誤りの可能性が高いものに絞って抽出し、提示する。
学習者に対して、多くの誤り候補が出る場合は、学習すべき箇所が多過ぎて、モチベーションが大きく低下してしまう可能性がある。
そこで、例えば、入力の1文に対して、提示する発音誤り候補は1つまでといった方式等のように、発音誤り候補を提示する際に、出力する候補の数を制限する。このとき、より効率的に学習するために、発音誤り候補の指摘箇所は誤りの可能性が高いものに絞って抽出し提示する。そこで、発音誤り事例には、確率の付与されているものを用いる。
図3は第二実施形態に係る語学学習支援装置の機能ブロック図を示す。
語学学習支援装置は、学習用言語データ記憶部101と確率付発音誤り事例記憶部203と発音誤り候補抽出部205とを含む。
<確率付発音誤り事例記憶部203>
確率付発音誤り事例記憶部203には、発音誤り事例と発音誤り事例に対応する発音誤りの起こしやすさの指標との組が記憶される。例えば、確率付発音誤り事例記憶部203は、発音誤り事例と(発音誤りの起こしやすさの指標である)その出現確率の組がテーブル等の形式で記録されているデータベースである。例えば、表のような形式で記憶されている。例えば、以下のように[正解の発音記号の音素系列] => [誤り易い発音記号の音素系列]:指標の形式で記憶されている。
[l]->[r]:0.5
[r] ->[l]:0.2
発音誤りの起こしやすさの指標としては例えば以下のものが考えられる。
(例1)学習用テキスト(学習用言語データ)における出現頻度から出現し易さを推定し、指標とする。このとき、出現し易さとして、各音素の出現頻度を、全出現頻度で除算した割合を用いても良い。
(例2)非ネイティブ話者(非母語話者ともいう)の音声を対象とした発音誤り検出技術から別途算出した発音誤り確率を指標とする。ここで発音誤り検出技術としては、例えば発音誤り前の音素の出現頻度で、発音誤り後の音素の出現頻度を除算した割合を用いることが出来る。
(例3)出現し易さとしての確率(上述の例1)と、発音誤り確率(上述の例2)の積を指標とする。
(例4)特に確率値である必要は無く、当該発音誤りの出現頻度や出現頻度の順位の逆数を指標としてもよい。
<発音誤り候補抽出部205>
入力:学習用言語データ、発音誤り事例と発音誤り事例に対応する発音誤りの起こしやすさの指標との組
出力:発音誤り候補付言語データ
処理内容:
発音誤りの事例に対応する発音誤りやすさの程度に基づいて、学習用言語データ(入力テキスト)に対して発音誤りを起こしやすい箇所の候補を予め定めた候補数以下だけ抽出し(S5)、発音誤り候補を含む情報を付加して出力する。
上述の通り、多数の指摘は、学習意欲を低下させるため、対象の1文のうち確率値の高い上位N(ex. N=1)個以下等に絞る。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、学習意欲の低下を防ぐことができる。
<第三実施形態>
第二実施形態と異なる部分を中心に説明する。
本実施形態では、発音誤りの発音誤りの指摘する候補はそもそも発音誤りが起きやすいものに絞って処理を行う。全ての発音誤り事例を用意しておくと、指摘箇所が多くなったり、照合時間を要するようになる。
そこで、予め発音誤りが起きやすいものに絞って、発音誤り事例を蓄積する。以下、そのための構成について説明する。
図4は第三実施形態に係る語学学習支援装置の機能ブロック図を示す。
語学学習支援装置は、学習用言語データ記憶部101と制限確率付発音誤り事例記憶部303と発音誤り候補抽出部205と発音誤り学習データ記憶部307と発音誤り事例抽出部309とを含む。
<発音誤り学習データ記憶部307>
発音誤り学習データ記憶部307は、発音誤りを含むサンプルデータ(発音誤り学習データ)が蓄積された一定量のテキストデータベースである。例えば、テキストデータと、そのテキストデータの正解発音の単語の音素系列と、発音誤りを含む音素系列が保持されたテキストデータベースである。以下に例を示す。
Ex. [正解発音系列] => [発音誤り音素系列]
[lik] => [rik]
[ris] => [lis]
また、発音表記には、以下に例示するように様々な記述方式が存在する(例えば、IPA方式、ARPABET方式、 1文字表記、2文字表記等)。
Ex.
Figure 0006997993000001
ARPABET 1文字 a
ARPABET 2文字 AA
発音誤り音素系列等が発音辞書、すなわち正解発音系列とは異なる形式で記述されている事例も想定される。その際は、異なる発音記述方式間の変換を行う必要がある。この場合、例えば、上述のGrapheme-to-Phonemeを用いて変換する事で統一化を図る事が考えられる。このとき、Grapheme-to-Phonemeを処理する変換モデルの学習データには、ネイティブ話者(母語話者ともいう)の発音系列に絞って学習する事とする。異なる発音記述方式間の変換に、非ネイティブの発音誤りを含めない事で、頑健な変換処理が可能となる。
<発音誤り事例抽出部309>
入力: 発音誤り学習データ
出力: 確率付発音誤り事例
処理内容:
例えば、発音誤り事例抽出部309は、発音誤り学習データにおける各発音誤りの出現頻度を計算し、発音誤り事例とその出現確率を計算する。
このとき、一つの音素の出現頻度でも良いし、複数の音素からなる音素系列での出現頻度でも良い。
例えば、以下のように出現確率を計算する。
[l]->[r]の場合:p([l]->[r]) = (rと発声された数)/(lと発声すべき数)
このとき、(lと発声すべき数)は学習データにおける音素lの出現頻度、 (rと発声された数)は本来音素lと発声すべきであるが音素rと発声されてしまったものの出現頻度とする。
<制限確率付発音誤り事例記憶部303>
発音誤り事例記憶部303は、発音誤り事例に対応する発音誤りの起こしやすさの指標が予め定められた閾値を超えた発音誤り事例とその指標との組のみを記憶する。本実施形態における発音誤りの起こしやすさの指標は、発音誤り事例の出現確率である。
例えば、発音誤り事例記憶部303は、発音誤りの事例がテーブル等の形式で記録されているデータベースである。例えば、表のような形式で記憶されている。
例えば、([正解の発音記号の音素系列] => [誤り易い発音記号の音素系列]:確率)の形式で記憶されている。このとき、出現確率が予め定められた閾値(ex > 0.4)を超えたもののみを格納する。例えば、([l]->[r]:0.5)は格納し、([r]->[l]:0.2)は格納しない構成とする。
このとき、一つの音素だけでなく、前後の音素といったコンテキストを考慮して格納するか否かを判定してもよい。その際は、上記のようなテーブル方式ではなく、Grapheme-to-Phoneme(G2P)と同様に、WFST等の方式を用いて、正解発音から誤り発音の変換処理(Correct Phoneme to Mispronunciation Phoneme)を施しても良い。G2Pを用いる事で、周辺の音素環境(triphone等)のコンテキストを考慮する事ができるため、過度な数の発音誤り候補が出現しにくくなる。
<効果>
このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、指摘箇所を限定したり、照合時間を減らすことができる。
また、本実施形態と第一実施形態とを組合せてもよい。第一実施形態と組合せた場合、制限確率付発音誤り事例記憶部303には、発音誤り事例に対応する発音誤りの起こしやすさの指標(発音誤りやすさの程度と言ってもよい)が予め定められた閾値を超えた発音誤り事例のみを記憶すればよい。
<第四実施形態>
第三実施形態と異なる部分を中心に説明する。
本実施形態では、発音誤りの指摘箇所を非ネイティブ特有のものに絞る。このような構成により、ネイティブでも起きる発音誤りの指摘を抑制し、非ネイティブ特有の指摘に留めることで学習効果を高める。
図5は第四実施形態に係る語学学習支援装置の機能ブロック図を示す。
語学学習支援装置は、学習用言語データ記憶部101と制限確率付発音誤り事例記憶部303と発音誤り候補抽出部205と発音誤り学習データ記憶部(非ネイティブ)411と発音誤り学習データ記憶部(ネイティブ)413と非ネイティブ特有発音誤り事例抽出部409とを含む。
<発音誤り学習データ記憶部(非ネイティブ)411>
発音誤り学習データ記憶部(非ネイティブ)411は、発音誤りを含む非ネイティブ話者のサンプルデータ(非ネイティブ発音誤り学習データ)が蓄積された一定量のテキストデータベースである。
<発音誤り学習データ記憶部(ネイティブ)413>
発音誤り学習データ記憶部(ネイティブ)413は、発音誤りを含むネイティブ話者のサンプルデータ(ネイティブ発音誤り学習データ)が蓄積された一定量のテキストデータベースである。
<非ネイティブ特有発音誤り事例抽出部409>
入力:非ネイティブ発音誤り学習データ、ネイティブ発音誤り学習データ、
出力:確率付発音誤り事例
処理内容:
非ネイティブ特有発音誤り事例抽出部409は、非ネイティブ発音誤り学習データ(テキストデータ)とネイティブ発音誤り学習データ(テキストデータ)について、ネイティブ話者の発音誤り事例に対応する発音誤りやすさの程度と非ネイティブ話者の発音誤り事例に対応する発音誤りやすさの程度に基づいて算出された非ネイティブ話者特有の発音誤りやすさの程度と対応する発音誤り事例を発音誤り事例記憶部303に格納する。
例えば、非ネイティブ発音誤り学習データとネイティブ発音誤り学習データにおける各発音誤りの出現頻度を計算し、この出現頻度を利用して、非ネイティブ特有の発音誤りやすさの程度を算出する。例えば、ある発音誤りについて、非ネイティブ発音誤り学習データから得られる出現頻度からネイティブ発音誤り学習データから得られる出現頻度を減算して得た差を、非ネイティブ発音誤り学習データから得られる出現頻度とネイティブ発音誤り学習データから得られる出現頻度との和で除算して得た値を非ネイティブ特有の発音誤りやすさの程度として用いる。なお、非ネイティブ発音誤り学習データにある発音誤りが存在する度にインクリメント(個数を求める際に、ある発音誤りの個数を1増やす処理)し、ネイティブ発音誤り学習データにある発音誤りが存在する度にデクリメント(個数を求める際に、ある発音誤りの個数を1減らす処理)することで、上述の差を求めてもよい。
一般的には、非ネイティブの発音誤り事例が多く、ネイティブは少ない事が予想されることから、内部的に、ネイティブ話者と非ネイティブ話者の発音誤り事例の分量が同量になるように個数や確率値を調整した上で、上述の差を求めてもよい。例えば、全ての誤り事例から計算した確率の平均値が同じになるよう、ネイティブの確率に乗算しても良い。例えば、非ネイティブ話者の場合の全ての誤り事例の出現確率が10%であり、ネイティブ話者の場合の全ての誤り事例の出現確率が2%である場合、ネイティブ話者の各誤り事例の出現確率を5倍し、非ネイティブ話者とネイティブ話者の誤り事例の出現確率が同じ10%になるように調整する。
さらに、上述の差を求める処理により、出現頻度ではなくなるため、全体の値が確率値になるよう、値の総和が1になるように正規化しても良い。
<効果>
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、非ネイティブ特有の発音誤りに指摘箇所を限定することで、非ネイティブ話者の学習効果を高めることができる。
<第五実施形態>
第四実施形態と異なる部分を中心に説明する。
本実施形態では、発音誤り事例を非ネイティブ音声を用いて再学習を行う事で確率値の調整や誤り事例の追加・削除等を行う。
図6は第五実施形態に係る語学学習支援装置の機能ブロック図を示す。
語学学習支援装置は、学習用言語データ記憶部101と制限確率付発音誤り事例記憶部303と発音誤り候補抽出部205と発音誤り学習データ記憶部(非ネイティブ)411と発音誤り学習データ記憶部(ネイティブ)413と非ネイティブ特有発音誤り事例抽出部409とネイティブ音響モデル記憶部515と正解付音声データベース記憶部(非ネイティブ)517と発音誤り学習データ抽出部519とを含む。
<正解付音声データベース記憶部(非ネイティブ)517>
正解付音声データベース記憶部(非ネイティブ)517は、非ネイティブによる音声データベースであり、そもそも非ネイティブ話者が発声したかった正解の文章(テキスト)が付与されており、正しい発音が分かる。
<ネイティブ音響モデル記憶部515>
ネイティブ音響モデル記憶部515には、ネイティブ話者の音声データに基づき予め生成された音響モデル(ネイティブ音響モデル)が格納されている。
<発音誤り学習データ抽出部519>
入力:非ネイティブ音声データ、発音誤り事例、ネイティブ音響モデル
出力:非ネイティブ発音誤り学習データ
処理内容:
発音誤り学習データ抽出部519は、非母語話者の音声に対応づけられたテキストまたは制限確率付発音誤り事例記憶部303に記憶された発音誤り事例のテキストの少なくもいずれかである入力テキストに対して、入力テキストに対応する音声について高制約文法に対応する第1の音響モデルのスコアと低制約文法に対応する第2の音響モデルのスコアのうち、第2の音響モデルのスコアが高い場合に、非ネイティブ話者の発話に対応するテキストを非ネイティブ話者の発音誤り学習データとして発音誤り学習データ記憶部(非ネイティブ)411に格納する。さらに、非母語話者特有発音誤り事例抽出部409に、発音誤り学習データ記憶部(非ネイティブ)411に新たに格納された非ネイティブ話者の発音誤り学習データを用いて、発音誤り事例記憶部303に記憶された発音誤り事例に対応する発音誤りやすさの程度を更新する、または、新たな発音誤り事例に対応するテキストと発音誤りやすさの程度を追加するように制御信号を出力する。
音声データに対して、正解の文章で内部的に生成した高制約文法下のネイティブ音響モデルのスコア(高制約文法スコア)と、発音誤り事例を考慮した低制約文法下のネイティブ音響モデルのスコア(低制約文法スコア)を比較し、低制約文法スコアが高い発音を発音誤りとして出力する。
Ex.
高制約文法: 正解のみで認識させる文法
I like rice -> aI laIk raIs
低制約文法: 発音誤りが入る可能性を考慮して認識させる文法
I like rice -> aI {l,l2r}aIk {r,r2l}aIs
ただし、{l,l2r}はlをrに発音誤りすることを許容することを意味し、{r,r2l}はrをlに発音誤りすることを許容することを意味する。
このとき、スコア差(低制約文法スコア- 高制約文法スコア)が0より大きいものを出力しても良いし、閾値を用いてスコア差が閾値より高いものを出力しても良い。この閾値を大きくする事で誤り候補の出力頻度を下げ、過剰な学習者へのフィードバックを減らす事が出来る。
発音誤り事例については、既に獲得済みのもので、その頻度だけ更新しても良いし、新たな発音誤り事例を仮に投入して選定しても良い。具体的には、獲得済みの少ない発音誤り事例で繰り返し処理を回し、頻度の更新が無くなった段階で、未獲得の発音誤り候補を新たに事例として追加しても良い。
このとき、発音誤り事例が追加される毎に、発音誤り学習データ抽出部519の処理を繰り返し実施しても良い。
<第六実施形態>
第五実施形態と異なる部分を中心に説明する。
第五実施形態と同様に、発音誤り事例を非ネイティブ音声を用いて再学習を行う事で確率値の調整や誤り事例の追加・削除等を行う。本実施形態は、音声認識を用いる事で既知の例文でなくても対象とすることができる。
図7は第六実施形態に係る語学学習支援装置の機能ブロック図を示す。
語学学習支援装置は、学習用言語データ記憶部101と制限確率付発音誤り事例記憶部303と発音誤り候補抽出部205と発音誤り学習データ記憶部(非ネイティブ)411と発音誤り学習データ記憶部(ネイティブ)413と非ネイティブ特有発音誤り事例抽出部409とネイティブ音響モデル記憶部515と正解付音声データベース記憶部(非ネイティブ)517と発音誤り学習データ抽出部519と正解無音声データベース記憶部(非ネイティブ)623と非ネイティブ音響モデル記憶部621と音声認識部625とを含む。
<正解無音声データベース記憶部(非ネイティブ)623>
正解無音声データベース記憶部(非ネイティブ)623は、非ネイティブによる音声データベースである。正解無音声データベース記憶部(非ネイティブ)623には、そもそも非ネイティブ話者が発声したかった正解の文章が付与されていなくても構わない。
<非ネイティブ音響モデル記憶部621>
非ネイティブ音響モデル記憶部621には、非ネイティブ話者の音声データに基づき予め生成された音響モデル(非ネイティブ音響モデル)が格納されている。
<音声認識部625>
入力:正解無音声データ、非ネイティブ音響モデル、信頼度閾値
出力:正解付音声データ
処理内容:
音声認識部625は、非ネイティブ音響モデルを用いて、正解無音声データに対して音声認識し、音声認識の信頼度が信頼度閾値より高い音声認識結果のみを正解(学習者が発声したかった文章として)として採用し、音声認識結果(非ネイティブ話者が発声したかったと推定される正解の文章(テキスト))を付与した正解無音声データを正解付音声データとして、正解付音声データベース記憶部(非ネイティブ)517に格納する。
なお、このときの信頼度閾値は事後確率に基づくものとして一定値(例えば、信頼度C>信頼度閾値Cth=0.9)としても良い。
第五実施形態と同様、繰り返し実施する場合には、信頼度閾値を最初は高め、繰り返すうちに低くして言っても良い。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 正解の発音記号の音素系列と誤り易い発音記号の音素系列との組を含む発音誤り事例を記憶する発音誤り事例記憶部と、
    力テキストの発音表記に前記発音誤り事例の音素系列を含んでいる場合には、その音素を発音誤り候補として抽出する発音誤り候補抽出部を含む、
    語学学習支援装置。
  2. 発音誤り事例を記憶する発音誤り事例記憶部と、
    前記発音誤り事例を用いて入力テキストの発音誤りを起こしやすい箇所の候補を抽出する発音誤り候補抽出部を含み、
    前記発音誤り事例記憶部には、前記発音誤り事例と前記発音誤り事例に対応する発音誤りの起こしやすさの指標との組を記憶し、
    前記発音誤り候補抽出部は、前記発音誤りの事例に対応する発音誤りの起こしやすさの指標に基づいて、入力テキストに対して前記発音誤りを起こしやすい箇所の候補を予め定めた候補数以下だけ抽出する、
    語学学習支援装置。
  3. 請求項1または請求項2の語学学習支援装置であって、
    前記発音誤り事例記憶部は、発音誤り事例の音素環境に基づく、発音誤りの起こしやすさの指標が予め定められた閾値を超えた発音誤り事例のみを記憶する、
    語学学習支援装置。
  4. 請求項2または請求項3の語学学習支援装置であって、
    非母語話者の発音誤りテキストと母語話者の発音誤りテキストについて、母語話者の発音誤り事例に対応する発音誤りの起こしやすさの指標と非母語話者の発音誤り事例に対応する発音誤りの起こしやすさの指標に基づいて算出された非母語話者特有の発音誤りの起こしやすさの指標と対応する発音誤り事例を前記発音誤り事例記憶部に格納する非母語話者特有発音誤り事例抽出部を備える、
    語学学習支援装置。
  5. 請求項4の語学学習支援装置であって、
    非母語話者の音声に対応づけられたテキストまたは発音誤り事例記憶部に記憶された発音誤り事例のテキストの少なくもいずれかである入力テキストに対して、前記入力テキストに対応する音声について高制約文法に対応する第1の音響モデルのスコアと低制約文法に対応する第2の音響モデルのスコアのうち、前記第2の音響モデルのスコアが高い場合に、前記非母語話者の発話に対応するテキストを非母語話者の発音誤りテキストとして非母語話者特有発音誤り事例抽出部に出力し、前記非母語話者特有発音誤り部によって、前記発音誤り事例記憶部に記憶された前記発音誤り事例に対応する発音誤りの起こしやすさの指標を更新する、または、新たな発音誤り事例に対応するテキストと発音誤りの起こしやすさの指標を追加する発音誤り学習データ抽出部を備え、
    前記発音誤り事例記憶部の発音誤りが更新または追加されるたびに、発音誤り学習データ抽出部の処理を行なう、
    語学学習支援装置。
  6. 請求項5の語学学習支援装置であって、
    前記非母語話者の発話に対応するテキストは、前記非母語話者音声を非母語話者の音響モデルを用いて音声認識し、前記音声認識の信頼度が所定の閾値より高い音声認識結果である、
    語学学習支援装置。
  7. 発音誤り事例記憶部には正解の発音記号の音素系列と誤り易い発音記号の音素系列との組を含む発音誤り事例が記憶されるものとし、
    力テキストの発音表記に前記発音誤り事例の音素系列を含んでいる場合には、その音素を発音誤り候補として抽出する発音誤り候補抽出ステップを含む、
    語学学習支援方法。
  8. 発音誤り事例記憶部には発音誤り事例が記憶されるものとし、
    前記発音誤り事例を用いて入力テキストの発音誤りを起こしやすい箇所の候補を抽出する発音誤り候補抽出ステップを含み、
    前記発音誤り事例記憶部には、前記発音誤り事例と前記発音誤り事例に対応する発音誤りの起こしやすさの指標との組が記憶されるものとし、
    前記発音誤り候補抽出ステップは、前記発音誤りの事例に対応する発音誤りの起こしやすさの指標に基づいて、入力テキストに対して前記発音誤りを起こしやすい箇所の候補を予め定めた候補数以下だけ抽出する、
    語学学習支援装置。
  9. 請求項1から請求項6の何れかの語学学習支援装置としてコンピュータを機能させるためのプログラム。
JP2018169594A 2018-09-11 2018-09-11 語学学習支援装置、その方法、およびプログラム Active JP6997993B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018169594A JP6997993B2 (ja) 2018-09-11 2018-09-11 語学学習支援装置、その方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018169594A JP6997993B2 (ja) 2018-09-11 2018-09-11 語学学習支援装置、その方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020042174A JP2020042174A (ja) 2020-03-19
JP6997993B2 true JP6997993B2 (ja) 2022-01-18

Family

ID=69798252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018169594A Active JP6997993B2 (ja) 2018-09-11 2018-09-11 語学学習支援装置、その方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6997993B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002072841A (ja) 2000-08-29 2002-03-12 Hitachi Ltd 単語学習システム
JP2006190006A (ja) 2005-01-04 2006-07-20 Internatl Business Mach Corp <Ibm> 文章表示方法、情報処理装置、情報処理システム、プログラム
US20080027731A1 (en) 2004-04-12 2008-01-31 Burlington English Ltd. Comprehensive Spoken Language Learning System
JP2017191278A (ja) 2016-04-15 2017-10-19 日本電信電話株式会社 音素誤り獲得装置、辞書追加装置、音声認識装置、音素誤り獲得方法、音声認識方法、およびプログラム
JP2018054638A (ja) 2015-02-11 2018-04-05 藤田 一郎 外国語学習用プログラム及び方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03226785A (ja) * 1990-01-31 1991-10-07 Oki Techno Syst Lab:Kk 音声認識装置付き語学用教育装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002072841A (ja) 2000-08-29 2002-03-12 Hitachi Ltd 単語学習システム
US20080027731A1 (en) 2004-04-12 2008-01-31 Burlington English Ltd. Comprehensive Spoken Language Learning System
JP2006190006A (ja) 2005-01-04 2006-07-20 Internatl Business Mach Corp <Ibm> 文章表示方法、情報処理装置、情報処理システム、プログラム
JP2018054638A (ja) 2015-02-11 2018-04-05 藤田 一郎 外国語学習用プログラム及び方法
JP2017191278A (ja) 2016-04-15 2017-10-19 日本電信電話株式会社 音素誤り獲得装置、辞書追加装置、音声認識装置、音素誤り獲得方法、音声認識方法、およびプログラム

Also Published As

Publication number Publication date
JP2020042174A (ja) 2020-03-19

Similar Documents

Publication Publication Date Title
Barnard et al. The NCHLT speech corpus of the South African languages
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7996209B2 (en) Method and system of generating and detecting confusing phones of pronunciation
US8768704B1 (en) Methods and systems for automated generation of nativized multi-lingual lexicons
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP2017513047A (ja) 音声認識における発音予測
WO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
Kurimo et al. Modeling under-resourced languages for speech recognition
CN112397056B (zh) 语音评测方法及计算机存储介质
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP2020154076A (ja) 推論器、学習方法および学習プログラム
US11694028B2 (en) Data generation apparatus and data generation method that generate recognition text from speech data
Pakoci et al. Language model optimization for a deep neural network based speech recognition system for Serbian
Coto‐Solano Computational sociophonetics using automatic speech recognition
JP6997993B2 (ja) 語学学習支援装置、その方法、およびプログラム
Baranwal et al. Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
Thatphithakkul et al. LOTUS-BI: A Thai-English code-mixing speech corpus
KR20130043817A (ko) 어학 학습 장치 및 어학 학습 방법
JP6625961B2 (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
Mittal et al. Implementation of phonetic level speech recognition system for Punjabi language
Schlippe et al. Rapid bootstrapping of a ukrainian large vocabulary continuous speech recognition system
Al-Barhamtoshy et al. Speak correct: phonetic editor approach
Shukla Development of a Human-AI Teaming Based Mobile Language Learning Solution for Dual Language Learners in Early and Special Educations

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180911

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180927

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211209

R150 Certificate of patent or registration of utility model

Ref document number: 6997993

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150