JP2020095176A

JP2020095176A - 語学学習用装置および語学学習用プログラム

Info

Publication number: JP2020095176A
Application number: JP2018233475A
Authority: JP
Inventors: 木村　光成; Mitsunari Kimura; 光成木村
Original assignee: ECC CO Ltd
Current assignee: ECC CO Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-18
Anticipated expiration: 2038-12-13
Also published as: JP7195593B2

Abstract

【課題】習得途上の語学学習者の音声を正確に認識できる語学学習用装置を提供する。【解決手段】第１言語を母国語とするユーザが第２言語を学習するための語学学習用装置１であって、前記ユーザが発した音声を音素データに変換する音素変換部３１と、前記第２言語の文字データと音素データとが対応付けられた辞書データＤを検索して、音素変換部３１によって変換された音素データを前記第２言語の文字データに変換する文字変換部３２とを備え、音素変換部３１が変換可能な音素データには、前記第１言語のネイティブスピーカーが使用する第１音素と、前記第２言語のネイティブスピーカーが使用する第２音素とが含まれ、辞書データＤでは、１つの文字データに、前記第１音素のみからなる音素データ、前記第２音素のみからなる音素データ、および、前記第１音素と前記第２音素との両方を含む音素データが対応付けられている。【選択図】図１

Description

本発明は、第１言語（例えば日本語）を母国語とするユーザが第２言語（例えば英語）を学習するための語学学習用装置および語学学習用プログラムに関する。

外国語会話を習得するためには、多くの対話練習が必要となる。近年、英会話講師との会話を通じた対話練習に代わる手段として、コンピュータを用いた語学学習システムが開発されている。

このような語学学習システムにおいて、コンピュータは母語ではない音声を認識する必要がある。たとえば、日本人が英語を学習するための語学学習システムでは、コンピュータは、日本語音素の英語（いわゆるジャパニーズイングリッシュ）を認識する必要がある。これに対し、特許文献１では、男女３０人の日本人がそれぞれ８時間かけて録音した「日本人発音モデル」をベースに、日本人特有の発音（音素の組み合わせ）を認識できる技術が開示されている。

特開２０１２−２１５６４５号公報

学習者は、対話練習を重ねることで、段階的に学習対象言語の音素が含まれた発話をすることができるようになる。例えば、日本人の初心者の英語発話は、英語を母語とする者の音素（英語音素）が少なく、日本語音素が多く含まれるが、習熟度が上がると英語音素が増加する傾向にある。しかし、英語を母語としない学習者が完全に、英語音素で発話することは困難であり、また、音素により、英語音素に近い発音の習得がしやすい音、しにくい音が異なるため、英語音素と日本語音素が混在した形となる。そのような学習者の音声をコンピュータによって正確に認識することは、特許文献１に記載の技術では困難である。

本発明は、上記問題を解決するためになされたものであって、習得途上の語学学習者の音声を認識できる語学学習用装置を提供することを課題とする。

本発明に係る語学学習用装置は、第１言語を母国語とするユーザが第２言語を学習するための語学学習用装置であって、前記ユーザが発した音声を音素データに変換する音素変換部と、前記第２言語の文字データと音素データとが対応付けられた辞書データを検索して、前記音素変換部によって変換された音素データを前記第２言語の文字データに変換する文字変換部とを備え、前記音素変換部が変換可能な音素データには、前記第１言語のネイティブスピーカーが使用する第１音素と、前記第２言語のネイティブスピーカーが使用する第２音素とが含まれ、前記辞書データでは、１つの文字データに、前記第１音素のみからなる音素データ、前記第２音素のみからなる音素データ、および、前記第１音素と前記第２音素との両方を含む音素データが対応付けられていることを特徴とする。

本発明に係る語学学習用装置は、前記文字変換部による前記辞書データの検索範囲を制限する検索範囲制限部をさらに備えることが好ましい。

本発明に係る語学学習用装置では、前記検索範囲制限部は、前記ユーザの前記第１言語の習熟度に応じて前記検索範囲を決定してもよい。

本発明に係る語学学習用装置では、前記検索範囲制限部は、前記ユーザが会話を行う場面に応じて前記検索範囲を決定してもよい。

本発明に係る語学学習用装置では、前記検索範囲制限部は、前記ユーザの発話傾向に応じて前記検索範囲を決定してもよい。

本発明に係る語学学習用プログラムは、上記いずれかの語学学習用装置の各部としてコンピュータを機能させる。

本発明によれば、習得途上の語学学習者の音声を認識することができる。

本発明の一実施形態に係る語学学習用装置の構成を示すブロック図である。音素変換部の作成方法を説明するための図である。辞書データの一部を示す図である。辞書データの一部を示す図である。辞書データの一部を示す図である。

以下、本発明の実施形態について添付図面を参照して説明する。なお、本発明は、下記の実施形態に限定されるものではない。

（全体構成）
図１は、本発明の一実施形態に係る語学学習用装置１の構成を示すブロック図である。語学学習用装置１は、スマートフォンや汎用のパーソナルコンピュータによって構成することができる。本実施形態では、語学学習用装置１はスマートフォンによって構成されるものとする。

語学学習用装置１は、第１言語を母国語とするユーザが第２言語を学習するために用いられる。本実施形態では、第１言語は日本語であり、第２言語は英語であるが、本発明はこれに限定されない。

図１に示すように、語学学習用装置１は、ストレージ２、制御部３、表示部４、入力部５、マイク６およびスピーカ７を主に備えている。

ストレージ２は、語学学習用装置１の演算処理に用いられる各種プログラムやデータを格納する部材であり、例えばフラッシュメモリで構成することができる。

制御部３は、語学学習用装置１のＣＰＵ（図示せず）が、ストレージ２に格納された語学学習用プログラム（アプリケーション）をメインメモリ（図示せず）に読み出して実行することにより実現される機能ブロックである。語学学習用プログラムは、ネットワークを介して語学学習用装置１にインストールしてもよい。あるいは、語学学習用プログラムを記録したＳＤカード等の、コンピュータ読み取り可能な非一時的な有体の記録媒体を語学学習用装置１に読み取らせることにより、語学学習用プログラムを語学学習用装置１にインストールしてもよい。

制御部３は、音素変換部３１、文字変換部３２、判定部３３、フィードバック部３４および検索範囲制限部３５を主に備えている。これらの機能ブロックの機能については、後述する。

表示部４は、例えば液晶ディスプレイで構成することができる。入力部５は、ユーザからの操作の入力を受け付ける装置であり、例えばタッチパネルで構成することができる。マイク６およびスピーカ７は、語学学習用装置１に内蔵されてもよいし、外付けであってもよい。

（制御部）
続いて、制御部３の機能について説明する。

音素変換部３１は、ユーザが発した音声を音素データに変換する機能ブロックである。本実施形態では、ユーザが発した音声は、マイク６においてアナログ音声信号に変換され、さらに図示しないＡＤ変換器によってデジタル音声信号に変換され、音素変換部３１に入力される。音素変換部３１は、機械学習された学習済みモデルによって実現されており、デジタル音声信号を分節して、分節された各音声信号を音素データに変換する。

音素は、言語の変種や音韻理論によって多少の差異が存在するが、一般には、日本語には２４の音素（５母音＋１６子音＋３特殊音素）があり、英語には４４の音素（２０母音＋２４子音）がある。機械学習にあたっては、日本語音素（第１音素）については、複数の日本人から英語訛りのない音声データを採取し、英語音素（第２音素）については、複数の英語のネイティブスピーカーから音声データを採取し、図２に示すように、各音素と音声波形とを対応付けた学習用データセットを作成する。この学習用データセットに基づき、例えばディープラーニングなどの機械学習を行うことにより音素変換部３１を作成する。

これにより、音素変換部３１は、ユーザが発した音声を、日本語音素と、英語音素とを含む音素データに変換可能となる。すなわち、音素変換部３１が変換可能な音素データには、日本語音素と英語音素とが含まれ、音素変換部３１は、日本語音素と英語音素とを区別してユーザが発した音声を音素データに変換する。例えば、「ａｐｐｌｅ」という単語の「ａ」の部分について、英語のネイティブスピーカーの発音に対しては、発音記号

に相当する英語音素（アとエの中間程度の音素）に変換され、日本語のネイティブスピーカーの発音に対しては、「ａ」（ア）に相当する日本語音素に変換される。

なお、以下の説明では、便宜上、英語音素を大文字で表記し、日本語音素を小文字で表記する。例えば、「ａｐｐｌｅ」における「ａ」の音素について、アとエの中間程度の音素に対応する英語音素を「Ａ」と表記し、日本語音素は「ａ」と表記する。

文字変換部３２は、英語の文字データと音素データとが対応付けられた辞書データＤを検索して、音素変換部３１によって変換された音素データを英語の文字データに変換する機能ブロックである。図１に示すように、辞書データＤは、ストレージ２に格納されているが、語学学習用装置１と通信可能に接続された他の装置（サーバなど）に格納されてもよい。通常の辞書データとは異なり、辞書データＤでは、１つの文字データに、日本語音素（第１音素）のみからなる音素データ、英語音素（第２音素）のみからなる音素データ、および、日本語音素と英語音素との両方を含む音素データ（以下、混合音素データと称する）が対応付けられている。

例えば、図３に示すように、「ｃａｋｅ」という単語には、英語音素のみからなる音素データ（ＫＥＹＫ）、日本語音素のみからなる音素データ（ｋｅ：ｋｉ）、および、混合音素データ（ＫＥＹｋｕ）が対応付けられている。また、「ｒｉｃｅ」という単語には、英語音素のみからなる音素データ（ＲＡＩＳ）、日本語音素のみからなる音素データ（ｒａｉｓｕ）および、混合音素データ（ｒａｉＳ）が対応付けられている。

なお、図３に示す例では、混合音素データは１つのみであるが、複数であってもよい。一般には、単語の文字数が多くなるほど、日本語音素と英語音素との組み合わせが多くなるが、語学学習者の発音は、音素毎に、発音しやすいもの、発音しにくいものがあり、習熟度や、発話者の意識状態により、英語音素の出現率は変化する。単語単位で見た場合、日本人の英語発話に関しては、習熟度にも影響するが、単語ごとに日本語音素と英語音素とが混ざり合うパターンは限定されている。そのため、含まれる音素内容によるが、混合音素データは、理論上の全てのパターンを用意する必要はなく、発音されやすい１〜数パターンを用意すればよい。これにより、文字数による影響をさほど受けずに辞書データＤのデータ量を少なくすることができる。

辞書データＤをこのように構成することで、文字変換部３２は、音素変換部３１から入力された音素データに、日本語音素と英語音素との両方が入り混じっていた場合であっても、混合音素データから該当するものを選択することにより、音素データを文字データに変換することができる。そのため、英語のネイティブスピーカーの発音、および、英語学習の初心者の発音だけでなく、英語音素と日本語音素が混在した習得途上の語学学習者の音声も、正確に認識することができる。

判定部３３は、ユーザの発話内容および発音が適切か否かを判定する機能ブロックである。具体的には、判定部３３は、文字変換部３２によって変換された文字データから、英語の文章を構築し、構築された文章からユーザの発話内容の適否を判定する。また、判定部３３は、文字変換部３２による辞書データＤの検索処理に基づき、ユーザの発音の習熟度を判定する。より具体的には、判定部３３は、ユーザが発した単語ごとに、文字変換部３２が日本語音素のみからなる音素データ、英語音素のみからなる音素データ、および、混合音素データのいずれを選択して文字データに変換したかに基づき、ユーザの発音が英語寄り（ネイティブスピーカー）か、日本語寄り（初心者）か、それらの中間（中上級者）かを判定する。

フィードバック部３４は、ユーザの発話が適切でないと判定された場合に、その旨をユーザにフィードバックする機能ブロックである。例えば、ユーザが、語学学習用アプリケーションにおいて仮想のキャラクターと対話練習をしている場合、判定部３３が、ユーザの発話に誤った単語や文章が含まれていると判定すると、フィードバック部３４は、誤った発話に対して、対話キャラクターが、意味が分からない、または、異なる意味として認識したように振舞うように表示部４に表示する。さらに、フィードバック部３４は、ユーザの発話が適切でないと判定された場合、ユーザの習熟度を示す習熟度スコアを減点する。

また、判定部３３は、シチュエーションや対話の相手などに応じて、ユーザの言葉遣いが適切であるかを判定し、言葉遣いが誤りではないが不適切な場合も、ユーザの発話が適切でないと判定するようにしてもよい。その場合、対話が不適切であることをユーザが理解できるように、フィードバック部３４は、キャラクターがマイナスの印象を受けたように振る舞うように表示する。

例えば、どうしたのか相手に確認したい場合の発話として、下記のａ）およびｂ）が考えられる。
ａ） What's your problem?
ｂ） What's wrong? / What happened? / What's the problem?
ａ）およびｂ）は、どちらも意味は通じるが、ａ）は相手の心境的な問題となり、乱暴な表現で相手には強い不快感を与える。一方、ｂ）は事実のみを確認する通常のやり取りである。そのため、ユーザがａ）を発話した場合、フィードバック部３４は、キャラクターがマイナスの印象を受けたように振る舞うように表示するとともに、ユーザの習熟度スコアを減点する。

また、安倍首相を知っていることを伝える場合の発話として、下記のｃ）およびｄ）が考えられる。
ｃ） I know Prime Minister Abe.
ｄ） I know of Prime Minister Abe.
ｃ）およびｄ）は、どちらも意味は通じるが、ｃ）は、個人的に知っている意味となり、ｄ）は情報として知っている意味となる。

このような対話の適否は相手との関係に依存するが、ユーザが安倍首相と友人関係などではなく、一方的に知っている相手であるにもかかわらずｃ）を発話した場合は、相手に誤解を与えることとなるため、フィードバック部３４は、キャラクターが想定外の印象を受けたように振る舞うように表示するとともに、ユーザの習熟度スコアを減点する。

また、上記の例において、ユーザがａ）またはｃ）を発話した場合、フィードバック部３４は、ユーザの発話が不適切である理由をキャラクターなどに解説させるようにしてもよい。

判定部３３およびフィードバック部３４にこのような機能を持たせることにより、文法的に間違いではないが、ニュアンスが異なったり、シチュエーションによっては相手を不快にさせたりする発話を是正することができる。

検索範囲制限部３５は、文字変換部３２による辞書データＤの検索範囲を制限する機能ブロックである。辞書データＤの検索範囲を制限することにより、文字変換部３２による検索処理量を減らすことができるため、文字変換の速度を向上させることができる。

本実施形態では、検索範囲制限部３５は、ユーザの英語の習熟度、ユーザが会話を行う場面、および、ユーザの発話傾向の少なくともいずれかに応じて、辞書データＤの検索範囲を決定する。この機能を実現するため、検索範囲制限部３５は、習熟度把握部３５１と、場面特定部３５２と、発話傾向把握部３５３とを備えている。

習熟度把握部３５１は、ユーザの英語の習熟度を把握する機能ブロックである。習熟度把握部３５１は、判定部３３の判定結果に応じて、上述の習熟度スコアを更新し、習熟度スコアに基づき、ユーザの英語の習熟度を把握する。

場面特定部３５２は、ユーザと仮想のキャラクターとの対話の背景となっている場面を特定する機能ブロックである。本実施形態では、ユーザは対話練習に先立って、対話練習の背景となる所望の場面を選択することができ、場面特定部３５２は、ユーザの選択操作に基づいて、対話の背景となっている場面を特定する。

あるいは、場面特定部３５２は、対話の流れに沿って場面を特定してもよい。例えば、ユーザおよびキャラクターが用いた用語に、話題に関するキーワードが含まれているか否かに基づいて、場面を特定してもよい。

発話傾向把握部３５３は、ユーザが用いる頻度の高い頻出用語を把握する機能ブロックである。本実施形態では、発話傾向把握部３５３は、これまでのユーザの対話練習の記録に基づき頻出用語を把握している。

また、辞書データＤは、会話の場面（会話シーン、シチュエーション）に基づいて分類された複数の小辞書から構成されている。図３〜図５はそれぞれ、小辞書の一例を示している。図３に示す小辞書Ｄ１では、主に食事の場面に用いられる用語とその音素とが対応付けられている。図４に示す小辞書Ｄ２では、主に動植物に関する会話に用いられる用語とその音素とが対応付けられている。図５に示す小辞書Ｄ３では、特定の場面に限定されない、あらゆる会話に用いられる用語とその音素とが対応付けられている（以下、汎用小辞書Ｄ３とも称する）。

なお、本実施形態における小辞書の分類方法は一例であり、特に限定されない。例えば、ユーザの習得レベルやユーザの使用頻度に応じて小辞書を分類してもよい。

検索範囲制限部３５は、辞書データＤにおける複数の小辞書から、検索に用いる小辞書を選択することにより、文字変換部３２による辞書データＤの検索範囲を決定する。例えば、ユーザの習熟度が低く、会話を行う場面が食事の場面である場合、検索範囲制限部３５は、食事の場面に対応する小辞書Ｄ１および汎用小辞書Ｄ３を選択して、これらの小辞書Ｄ１，Ｄ３のみを検索範囲として決定する。

これにより、例えば図４に示す小辞書Ｄ２の「ｌｉｃｅ」（ｌｏｕｓｅ（蛆）の複数形）は、検索対象から除外されるため、文字変換部３２の検索処理量が軽減される。なお、ユーザの発話の音素が「ｒｉｃｅ」よりも「ｌｉｃｅ」に近い場合であっても、文字変換部３２は、「ｒｉｃｅ」に変換することになるが、「ｌｉｃｅ」は、食事の場面で使用される可能性は低く、上級者向けの単語であるため、初心者が用いることはほとんどない。また、一般に初心者は、「ｌ（エル）」の発音よりも「ｒ」の発音を苦手とするため、辞書データＤの検索範囲を制限しない場合、初心者が「ｒｉｃｅ」を意図して発話しても「ｌｉｃｅ」に変換されてしまう可能性が高くなるが、本実施形態では、このような意図しない変換を防止することができる。

一方、ユーザの習熟度が高い場合は、検索範囲制限部３５は、辞書データＤからより多くの小辞書を選択して、選択した小辞書を検索範囲として決定する。

また、場面特定部３５２が対話の流れに沿って場面を特定する場合、検索範囲制限部３５は、発話単位ごとに、検索範囲となる小辞書を選択してもよい。これにより例えば、同じシチュエーション内では起こりえるが、質問に対しては起こりえない発話を誤認識することを防止でき、意図した文字データへ変換する精度を向上できる。

また、ユーザの発話傾向に応じて検索範囲を制限する場合、ユーザの使用頻度に応じて小辞書を分類しておき、使用頻度の高い用語からなる小辞書を優先的に検索対象としてもよい。

また、辞書データＤは、文字データへの変換対象としない音素データを含んでもよい。例えば、ユーザの母語での独り言やフィラー（「ええっと」、「なんだっけ？」など）に対応する音素データ（ｅｅｔｔｏ、ｎａｎｎｄａｋｋｅ）を辞書データＤに含めることにより、文字変換部３２は、そのような音素が入力された場合であっても、文字データには変換しない。これにより、発話の可能性の高い発話内容のみを認識対象とすることができる。

（付記事項）
本発明は上記の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、実施形態に開示された技術的手段を適宜組み合わせて得られる形態も本発明の技術的範囲に含まれる。

例えば、上記の実施形態では、制御部３の全ての機能を語学学習用装置１のＣＰＵによって実現していたが、制御部３の機能の一部をサーバなどの他の装置によって実現してもよい。この場合、本発明に係る語学学習用装置は、サーバと協働したシステムとして提供される。

また、上記の実施形態では、辞書データにおいて音素データと対応付けられている「１つの文字データ」は、原則として１つの単語であるが、本発明はこれに限定されない。例えば、図５に示す小辞書Ｄ３における「have you」のように複数の単語からなる語句や、１つの単語において音素を構成する単位も、特許請求の範囲に記載の「１つの文字データ」の範疇に含まれる。

１語学学習用装置
２ストレージ
３制御部
４表示部
５入力部
６マイク
７スピーカ
３１音素変換部
３２文字変換部
３３判定部
３４フィードバック部
３５検索範囲制限部
３５１習熟度把握部
３５２場面特定部
３５３発話傾向把握部
Ｄ辞書データ
Ｄ１小辞書
Ｄ２小辞書
Ｄ３小辞書

Claims

第１言語を母国語とするユーザが第２言語を学習するための語学学習用装置であって、
前記ユーザが発した音声を音素データに変換する音素変換部と、
前記第２言語の文字データと音素データとが対応付けられた辞書データを検索して、前記音素変換部によって変換された音素データを前記第２言語の文字データに変換する文字変換部とを備え、
前記音素変換部が変換可能な音素データには、前記第１言語のネイティブスピーカーが使用する第１音素と、前記第２言語のネイティブスピーカーが使用する第２音素とが含まれ、
前記辞書データでは、１つの文字データに、前記第１音素のみからなる音素データ、前記第２音素のみからなる音素データ、および、前記第１音素と前記第２音素との両方を含む音素データが対応付けられていることを特徴とする、語学学習用装置。
前記文字変換部による前記辞書データの検索範囲を制限する検索範囲制限部をさらに備えることを特徴とする、請求項１に記載の語学学習用装置。
前記検索範囲制限部は、前記ユーザの前記第１言語の習熟度に応じて前記検索範囲を決定することを特徴とする、請求項２に記載の語学学習用装置。
前記検索範囲制限部は、前記ユーザが会話を行う場面に応じて前記検索範囲を決定することを特徴とする、請求項２または３に記載の語学学習用装置。
前記検索範囲制限部は、前記ユーザの発話傾向に応じて前記検索範囲を決定することを特徴とする、請求項２から４のいずれかに記載の語学学習用装置。
請求項１〜５のいずれかに記載の語学学習用装置の各部としてコンピュータを機能させる語学学習用プログラム。