JP2015026057A

JP2015026057A - インタラクティブキャラクター基盤の外国語学習装置及び方法

Info

Publication number: JP2015026057A
Application number: JP2014064369A
Authority: JP
Inventors: イ−ソクチャン; I-Seok Chan; ユン−グンイ; Yun-Gun Lee; ヒュン−ペチョン; Hyun-Bae Chon; ユ−リオ; Yu Li Oh; ユンキョンイ; Yun-Kyung Lee
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2013-07-29
Filing date: 2014-03-26
Publication date: 2015-02-05
Also published as: KR20150014236A; KR102191425B1

Abstract

【課題】外国語学習装置及び方法を提供する。
【解決手段】生活言語及び学習対象言語のうちの一つにより学習者が発話する音声入力を受信し、合成音及び学習評価結果のうちの少なくとも一つを出力する入出力部１００と、音声認識を行い、音声認識結果テキストを出力する音声認識部２００と、音声認識結果テキストを受信し、誤りを訂正して類似文章を生成する文章分析及び訂正部３００と、訂正された音声認識結果テキストの言語と出力言語が異なる場合、音声認識結果テキストを出力言語に自動翻訳し自動翻訳テキストを生成する多国語自動翻訳モジュール５００と、訂正された音声認識結果テキスト及び自動翻訳テキストのうちの一つを受信し、対応する音声を既に設定されたインタラクティブキャラクターの特性に応じて合成し、出力する多国語音声合成モジュール８００と、学習者の言語使用能力を評価し、評価結果を入出力部に出力する学習評価部４００と、を含む。
【選択図】図１

Description

本発明は、外国語学習装置及び方法に関し、特にインタラクティブキャラクターを介してユーザの母国語発話を音声認識し、翻訳して外国語発声音を出力するだけでなく、ユーザの外国語発話を音声認識して誤り訂正及び発音／言語評価をユーザにフィードバックできるインタラクティブキャラクター基盤の外国語学習装置及び方法に関する。

現代社会において外国語活用能力は非常に重要である。既存の外国語学習は、主にリーディング、ライティングに重点を置いたが、現在は、リスニング及びスピーキングが外国語学習において大きな比重を占めている。

特に、発話は、通常学習者が外国語を学習する際に、最も難しいとされている領域であって、大部分の学習者は、外国語スのピーキング学習の初期に発話をためらう段階である無声期間（ｓｉｌｅｎｔｐｅｒｉｏｄ）と、学習言語の規則を習得しながら外国語発話を行う実験的生成期間（ｐｒｏｄｕｃｔｉｏｎｐｅｒｉｏｄ）とを有する。外国語スピーキング学習において、無声期間と実験的生成期間は、学習者が最も苦しがっている期間であって、この期間にスピーキング学習を円滑に行うことができれば、学習者の外国語スピーキング能力は短期間に大きく向上することができる。

このため、学習者が拒否感なしで、容易かつ慣れた方式で、無声期間及び実験的生成期間に外国語学習を行うことができる外国語学習装置及び外国語学習方法が要求されている。

特開２００１−３３８０７７号公報

本発明の目的は、ユーザの母国語及び外国語発話を音声認識して翻訳された音声を出力でき、また誤りや発音を訂正して学習者にフィードバックできるインタラクティブキャラクター基盤の外国語学習装置を提供することにある。

本発明の他の目的は、インタラクティブキャラクター基盤の外国語学習方法を提供することにある。

上記目的を達成するために、本発明の一例に係る外国語学習装置は、学習者が普段使用する言語に既に設定された生活言語及び学習対象言語のうちの一つにより上記学習者が発話する音声入力を受信し、合成音及び学習評価結果のうちの少なくとも一つを出力する入出力部と、上記音声入力の印加を受けて音声認識を行い、音声認識結果テキストを出力する音声認識部と、上記音声認識結果テキストを受信し、上記音声認識結果テキストの誤りを訂正し、類似文章を生成する文章分析及び訂正部と、文章分析及び訂正部にて誤りの訂正された上記音声認識結果テキストの言語と出力言語とが互いに異なる場合、上記音声認識結果テキストを上記出力言語に対応して自動翻訳し、自動翻訳テキストを生成する多国語自動翻訳モジュールと、誤りの訂正された上記音声認識結果テキスト及び上記自動翻訳テキストのうちの少なくとも一つを受信し、受信された上記テキストに対応する音声を既に設定されたインタラクティブキャラクターの特性に応じて合成して、合成音を上記入出力部に出力する多国語音声合成モジュールと、上記学習者の言語使用能力を評価して、評価結果を上記入出力部に出力する学習評価部と、を含む。

上記音声認識部は、上記学習者が普段使用する生活言語を使用する人々のＬ３音響モデルと、上記学習者と同一の生活言語を使用する人々の同一の上記学習対象言語に対するＬ２音響モデルと、上記学習対象言語が生活言語である人々のＬ１音響モデルと、を含むＬ１２３ユーザ音響モデルを格納するＬ１２３ユーザ音響モデルデータベースと、上記学習者と同一の生活言語を使用する人々のＬ３言語モデルと、上記学習者と同一の生活言語を使用する人々の同一の上記学習対象言語に対するＬ２言語モデルと、上記学習対象言語が生活言語である人々のＬ１言語モデルと、を含むＬ１２３ユーザ言語モデルを格納するＬ１２３ユーザ言語モデルデータベースと、上記音声入力をＬ１２３ユーザ音響モデル及びＬ１２３ユーザ言語モデルを用いて上記音声認識結果テキストに変換する多国語音声認識モジュールと、を含むことを特徴とする。

上記Ｌ１２３ユーザ音響モデルデータベースは、上記Ｌ１音響モデルとＬ２音響モデルとが結合した形態のＬ１＋Ｌ２音響モデルを格納し、上記Ｌ１２３ユーザ言語モデルデータベースは、上記Ｌ１言語モデルとＬ２言語モデルとが結合した形態のＬ１＋Ｌ２言語モデルを格納することを特徴とする。

上記多国語音声認識モジュールは、上記音声入力が上記学習者の生活言語である場合は、上記Ｌ３音響モデル及び上記Ｌ３言語モデルを用いて音声認識を行い、上記音声入力が上記学習対象言語である場合は、上記Ｌ１＋Ｌ２音響モデル及び上記Ｌ１＋Ｌ２言語モデルを用いて音声認識を行うことを特徴とする。

上記文章分析及び訂正部は、上記生活言語及び上記学習対象言語に対し、既存の音声認識結果テキストで発生する誤りとこれに対する訂正情報とを累積した誤りパターンを格納する誤り訂正データベースと、上記音声認識結果テキストの誤りを上記誤りパターンから検索して誤りを訂正する文章誤り訂正モジュールと、上記生活言語及び上記学習対象言語での意味的に類似した多数の類似文章を含む類似文章パターンを格納する類似文章データベースと、上記音声認識結果テキストと意味的に類似した文章を上記類似文章パターンを検索して得る類似文章生成モジュールと、を含むことを特徴とする。

上記文章誤り訂正モジュールは、上記音声認識結果テキストをＮグラム（ｎ−ｇｒａｍ）の形態に変換し、変換された上記Ｎグラムをキーワードにして上記誤り訂正データベースの上記誤りパターンを検索して、検索された上記誤りパターンから誤りに対する訂正情報を得、得られた訂正情報を検索キーワードの上記Ｎグラムに取り替えることにより、誤りを訂正することを特徴とする。

上記文章誤り訂正モジュールは、上記音声認識結果テキストから、既に設定された方式により重要語彙を抽出して、上記重要語彙をキーワードにして上記類似文章データベースの類似文章パターンを検索し、上記類似文章パターンから検索された類似文章候補のうち、文字列構成が上記音声認識結果テキストと最も類似する、既に設定された個数の上記類似文章候補を上記類似文章として選択することを特徴とする。

上記学習評価部は、上記Ｌ１音響モデルを格納するＬ１ユーザ音響モデルデータベースと、上記Ｌ１言語モデルを格納するＬ１ユーザ言語モデルデータベースと、上記音声入力と上記Ｌ１音響モデルとを比較して音響類似度を計算し、上記音声認識結果テキストと上記Ｌ１言語モデルとを比較して言語類似度を計算し、上記音声認識結果テキストと上記文章分析及び訂正部で誤りの訂正された上記音声認識結果テキストとを比較して誤り類似度を計算し、上記音響類似度と上記言語類似度と上記誤り類似度とを統合して既に設定された方式により数値化し、上記評価結果を生成する学習者評価モジュールと、を含むことを特徴とする。

上記外国語学習装置は、誤りの訂正された上記音声認識結果テキストまたは自動翻訳テキストのうちの少なくとも一つを受信し、既に設定された上記インタラクティブキャラクターの特性及び既に格納された上記学習者の音声認識結果テキストを用いて、音声認識結果テキストまたは自動翻訳テキストを確張して拡張文章を生成するパラフレージング処理モジュールをさらに含むことを特徴とする。

上記パラフレージング処理モジュールは、誤りの訂正された上記音声認識結果テキスト及び上記自動翻訳テキストのうちの少なくとも一つを受信し、受信された上記テキストを確張するために上記テキストの構文及び意味を分析して特性キーワードを抽出するテキスト分析モジュールと、上記外国語学習装置から提供される上記インタラクティブキャラクターの特性情報を格納するキャラクター特性データベースと、上記テキスト分析モジュールで分析された上記音声認識結果テキストのキーワードを上記キャラクター特性データベースのキーワード値とマッチングして、上記音声認識結果テキストの文章を確張するキャラクター特性管理モジュールと、上記学習者が以前に発話して上記音声入力で入力し、音声認識された音声認識結果テキストを格納するセッションヒストリデータベースと、上記セッションヒストリデータベースに格納された上記音声認識結果テキストを現在学習者が発声して音声認識された上記音声認識結果テキストと結合して文章を確張するセッションヒストリ管理モジュールと、を含むことを特徴とする。

上記他の目的を達成するために、本発明の一例に係る外国語学習方法は、入出力部と、音声認識部と、文章分析及び訂正部と、学習評価部と、多国語自動翻訳モジュールと、パラフレージング処理モジュールと、多国語音声合成モジュールと、を含む外国語学習装置の外国語学習方法において、上記入出力部が設定命令を受信して、音声入力言語及び出力言語に対する言語設定とキャラクター設定などを含む学習設定を行うステップと、上記音声認識部は、学習者が普段使用する言語に既に設定された生活言語及び学習対象言語のうちの一つにより上記学習者が発話する音声入力が受信されたかどうかを判別するステップと、上記音声入力が受信されると、上記音声認識部が音声認識を行い音声認識結果テキストを生成するステップと、上記文章分析及び訂正部が上記音声認識結果テキストの誤りを訂正するステップと、上記多国語自動翻訳モジュールが、上記誤りの訂正された音声認識結果テキストが上記学習設定において設定された上記出力言語と同一であるか否かを判別するステップと、上記出力言語が上記誤りの訂正された音声認識結果テキストと同一でない場合、上記誤りの訂正された音声認識結果テキストを上記出力言語に応じて自動翻訳して、自動翻訳テキストを生成するステップと、上記パラフレージング処理モジュールが、上記誤りの訂正された音声認識結果テキストまたは上記自動翻訳テキストのうちの少なくとも一つを受信し、受信された上記テキストを既に設定された上記インタラクティブキャラクターの特性及び既に格納された上記学習者の音声認識結果テキストを用いて確張して拡張文章を生成するステップと、上記多国語音声合成モジュールが,誤りの訂正された上記音声認識結果テキスト、上記自動翻訳テキスト、及び上記拡張テキストのうちの少なくとも一つを受信し、受信された上記テキストに対応する音声を既に設定されたインタラクティブキャラクターの特性に応じて合成し、合成音を生成するステップと、上記学習評価部が、上記学習者の言語使用能力を評価して、評価結果を生成するステップと、上記入出力部が上記合成音及び上記評価結果を出力するステップと、を含む。

本発明のインタラクティブキャラクター基盤の外国語学習装置及び方法は、学習者がインタラクティブキャラクターを用いたインターフェイスを介して、ゲームのように容易かつ慣れた接近方法により、硬直された外国語学習過程を簡単かつ面白く行うことができる。また、学習者の母国語発話に対し、翻訳された外国語の発声音を合成して出力することにより、学習者が外国語発声音を真似ることができる。さらに、無声期間及び実験的生成期間においての熟達していない学習者の外国語発話の誤り、発音訂正及び言語評価を学習者に親しいキャラクターでフィードバックすることにより、学習者の言語学習のストレスを低減することができる。そして類似文章を確張して提供することにより、学習者が多様な表現の外国語を学習することができる。

本発明の一実施例に係るインタラクティブキャラクター基盤の外国語学習装置の構成を示す図面である。本発明の一実施例に係るインタラクティブキャラクター基盤の外国語学習方法を示す図面である。

本発明と本発明の動作上の利点及び本発明の実施によって達成される目的を十分に理解するためには、本発明の好ましい実施例を例示する添付図面及び添付図面に記載された内容を参照しなければならない。

以下、添付した図面に基づいて本発明の好ましい実施例を説明することにより、本発明を詳細に説明する。しかし、本発明は、多様な異なる形態に実施することができ、以下に説明する実施例に限定されない。そして、本発明を明確に説明するために、説明と関係ない部分は省略し、図面において同一の参照符号は、同一の部材を示す。

明細書全体において、ある部分がある構成要素を「含む」とするとき、これは、特別に反対の記載がない限り、他の構成要素を除外することではなく、他の構成要素をさらに含むことができることを意味する。また、明細書に記載された「．．．部」、「．．．機」、「モジュール」、「ブロック」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェア、またはハードウェアとソフトウェアの結合により実現されることができる。

図１は、本発明の一実施例に係るインタラクティブキャラクター基盤の外国語学習装置の構成を示す。

図１を参照すると、本発明のインタラクティブキャラクター基盤の外国語学習装置１０は、大きく、入出力部１００と、音声認識部２００と、文章分析及び訂正部３００と、学習評価部４００と、多国語自動翻訳モジュール５００と、パラフレージング処理モジュール６００と、文章応用部７００と、多国語音声合成モジュール８００と、を含む。

先ず、入出力部１００は、学習者の音声を感知して生成される音声入力を音声認識部２００に伝送し、多国語音声合成モジュール８００から合成音を受信して出力したり、学習評価部４００から学習者の学習評価結果を受信して学習者に表示したりする。

音声認識部２００は、入出力部１００を介して音声入力が受信され、受信された音声入力を音声認識して、音声認識結果テキストに変換する。ここで、音声認識部２００は、学習者が普段使用する生活言語を音声認識できるだけでなく、学習者が発話した学習対象言語も音声認識することができる。音声認識部２００は、Ｌ１２３ユーザ音響モデルデータベース２１０と、Ｌ１２３ユーザ言語モデルデータベース２２０と、多国語音声認識モジュール２３０と、を含む。

Ｌ１２３ユーザ音響モデルデータベース２１０は、学習者が普段使用する生活言語（一般的には、母国語）を使用する人々の音響モデル（ここでは、Ｌ３音響モデルという）と、学習者と同一の生活言語を使用する人々の同一の学習対象言語に対する音響モデル（ここでは、Ｌ２音響モデルという）と、学習対象言語が生活言語である人々の音響モデル（ここでは、Ｌ１音響モデルという）と、を含むＬ１２３ユーザ音響モデルを格納する。ここで、Ｌ１２３ユーザ音響モデルデータベース２１０は、Ｌ１音響モデルとＬ２音響モデルとが結合した形態であるＬ１＋Ｌ２音響モデルを格納することができる。

類似に、Ｌ１２３ユーザ言語モデルデータベース２２０は、学習者と同一の生活言語を使用する人々の言語モデル（ここでは、Ｌ３言語モデルという）と、学習者と同一の生活言語を使用する人々の同一の学習対象言語に対する言語モデル（ここでは、Ｌ２言語モデルという）と、学習対象言語が生活言語である人々の言語モデル（ここでは、Ｌ１言語モデルという）と、を含むＬ１２３ユーザ言語モデルを格納する。ここで、Ｌ１２３ユーザ言語モデルデータベース２２０は、Ｌ１言語モデルとＬ２言語モデルとが結合した形態であるＬ１＋Ｌ２言語モデルを格納することができる。

上述したように本発明では、説明の便宜のために学習者が学習しようとする対象言語をＬ１言語といい、学習者が普段使用する生活言語をＬ３言語という。Ｌ２言語は、Ｌ３言語のユーザがＬ１言語を使用する場合を意味する。

多国語音声認識モジュール２３０は、入出力部１００を介して印加される学習者の音声入力を受信し、受信された学習者の音声入力を、Ｌ１２３ユーザ音響モデルデータベース２１０に格納されたＬ１２３ユーザ音響モデル及びＬ１２３ユーザ言語モデルデータベース２２０に格納されたＬ１２３ユーザ言語モデルを用いて音声認識を行い、音声認識された音声入力を音声認識結果テキストに変換して文章分析及び訂正部３００に出力する。多国語音声認識モジュール２３０は、音声入力が学習者の生活言語であるか、学習対象言語であるかに関係なく音声認識を行うことができる。すなわち、音声入力が学習者の生活言語である場合は、Ｌ３音響モデル及びＬ３言語モデルを用いて音声認識を行う。そして、音声入力が学習対象言語である場合は、Ｌ１及びＬ２音響モデルと、Ｌ１及びＬ２言語モデルとを用いて音声認識を行うか、Ｌ１＋Ｌ２音響モデルと、Ｌ１＋Ｌ２言語モデルとを用いて音声認識を行う。このとき、多国語音声認識モジュール２３０は、音声入力をＬ３音響モデルと比較して、学習者が発話した音声入力が生活言語であるか学習対象言語であるかを判別して音声認識を行うことができる。しかし、学習者が発話する言語及び学習対象言語を予め設定して音声入力することもできる。すなわち、多国語音声認識モジュール２３０は、入出力部１００を介して言語設定情報を予め受信して設定することが正確な音声認識のために好ましい。

学習対象言語に熟達していない学習者の学習対象言語に対する発話には、誤りの含まれる可能性が非常に高い。このため、既存の音声認識技術を適用すると、音声認識を正常に行えないことが頻繁に生じることになる。これは、外国語学習装置が学習言語に熟達していない学習者に、発話したときにどんな誤りが発生したのかを知らせないまま、繰り返して音声を入力することを要求し、学習者にストレスを感じさせる要因となる。そして、このような学習者のストレスは、外国語学習を忌避する現象を引き起こす。特に、学習対象言語が生活言語である人々と外国語である学習対象言語を学習しようとする人々との間には、発話する音声に差があっても学習者がこれを認知できない場合が多いため、外国語学習装置の音声認識は、音声入力に誤りが含まれていても正確に音声を認識できる技術が要求される。

これに対して、本発明の音声認識部２００は、学習対象言語が生活言語である人々に対する音響モデル及び言語モデルだけでなく、学習者と同一の生活言語を有する人々の同一の学習対象言語に対する音響モデル及び言語モデルが結合されたＬ１＋Ｌ２ユーザ音響モデル及びＬ１＋Ｌ２ユーザ言語モデルを用いて学習対象言語に対する音声認識を行うので、音声入力を音声認識して学習言語テキストの生成時に誤りに強い音声認識機能を提供することができる。

文章分析及び訂正部３００は、音声認識部２００からの音声認識結果テキストを受信し、音声認識結果テキストの誤りを訂正し、類似文章を生成する。文章分析及び訂正部３００は、誤り訂正データベース３１０と、文章誤り訂正モジュール３２０と、類似文章データベース３３０と、類似文章生成モジュール３４０と、を含む。

誤り訂正データベース３１０は、生活言語及び学習対象言語に対する誤りパターンを格納する。誤りパターンは、既存の音声認識結果テキストで発生する誤りとこれに対する訂正情報とを累積した情報である。

文章誤り訂正モジュール３２０は、受信された音声認識結果テキストの誤りパターンを誤り訂正データベース３１０で検索し、修正して誤りを訂正する。本発明の文章誤り訂正モジュール３２０は、文章誤りを訂正するために、先ず音声認識結果テキストをＮグラムの形態に変換する。Ｎグラムは、代表的な確率的言語モデルの一つであって、単語列を確率的に扱う言語モデルである。Ｎグラムは、確率的言語モデルの代表的なものであって、ｎ個単語の連鎖を確率的に表現しておくと、実際に発声された文章の記録を計算する技術である。

文章誤り訂正モジュール３２０は、音声認識結果テキストがＮグラムの形態に変換されると、変換されたＮグラムをキーワードにして誤り訂正データベース３１０の誤りパターンを検索する。検索された誤りパターンから誤りに対する訂正情報を得、得られた訂正情報を検索キーワードのＮグラムに取り替えることにより、誤りを訂正する。

一方、類似文章データベース３３０は、生活言語及び学習対象言語において、意味的に類似した多数の類似文章を含む類似文章パターンを格納する。通常使用する言語においての類似文章の個数は、入力可能な対象文章が限定されないため、無限であるといえるが、外国語学習は、一般的に限定された文章を活用して行われるので、類似文章データベース３３０は、外国語学習に使用される文章で入力対象文章を限定することにより、対応する類似文章を格納することができる。

類似文章生成モジュール３４０は、音声認識結果テキストが受信されると、音声認識結果テキストと意味的に類似した文章を、類似文章データベース３３０の類似文章パターンを検索して類似文章を得る。類似文章生成モジュール３４０は、類似文章を得るために、先ず、音声認識結果テキストから既に設定された方式により重要語彙を抽出する。そして、抽出された重要語彙をキーワードにして類似文章データベース３３０から類似文章パターンを検索する。多数の類似文章候補が検索されると、検索された類似文章候補のうちの音声認識結果テキストと文字列構成が最も類似した、既に設定された個数だけ類似文章候補を類似文章として決定する。

学習評価部４００は、Ｌ１ユーザ音響モデルデータベース４１０と、Ｌ１ユーザ言語モデルデータベース４２０と、学習者評価モジュール４３０と、を含み、学習者の言語使用能力を評価して、評価結果を入出力部１００に伝送する。

Ｌ１ユーザ音響モデルデータベース４１０は、学習対象言語が生活言語である人々に対するＬ１音響モデルを格納し、Ｌ１ユーザ言語モデルデータベース４２０は、Ｌ１言語モデルを格納する。

学習者評価モジュール４３０は、音声認識部２００の多国語音声認識モジュール２３０から音声入力を受信し、Ｌ１ユーザ音響モデルデータベース４１０のＬ１音響モデルと比較して音響類似度を計算し、音声認識結果テキストをＬ１ユーザ音響モデルデータベース４２０のＬ１言語モデルと比較して言語類似度を計算する。そして、音声認識結果テキストと、文章分析及び訂正部３００の文章誤り訂正モジュール３２０で誤りの訂正された音声認識結果テキストとを受信し、比較して誤り類似度を計算する。最後に、音響類似度と言語類似度と誤り類似度とを統合し、既に設定された方式により数値化して評価結果を生成する。

上記では、学習評価部４００がＬ１ユーザ音響モデルデータベース４１０及びＬ１ユーザ言語モデルデータベース４２０を備えることに説明したが、Ｌ１ユーザ音響モデルデータベース４１０及びＬ１ユーザ言語モデルデータベース４２０は、それぞれＬ１２３ユーザ音響モデル２１０及びＬ１２３ユーザ言語モデルに含まれて実現されることができる。また、上記では、学習者評価モジュール４３０が、音響類似度、言語類似度、及び誤り類似度を直接計算することに説明したが、音響類似度及び言語類似度は、音声認識部２００の多国語音声認識モジュール２３０により計算されて学習評価部４００に伝送されてもよく、誤り類似度は、文章誤り訂正モジュール３２０により計算されて学習評価部４００に伝送されてもよい。この場合、学習評価部は、単純に音響類似度と言語類似度と誤り類似度とを統合し、既に設定された方式により数値化して評価結果のみを生成して出力することができる。また、学習者評価モジュール４３０は、音響類似度、言語類似度及び誤り類似度のそれぞれを視覚的または聴覚的な方式により出力して、学習者の学習対象言語に対する発話のどの部分に誤りがあるのかを直観的に認知できるようにする。例えば、誤りが既に設定された水準よりも大きい語彙のみを別途に表示したり、発声音を別途に再び聞かせたりすることができる。このとき、学習評価部４００は、単純に評価結果及び誤り部分を指摘する方式により学習者に表示することではなく、インタラクティブキャラクターを用いて表示することにより、学習者が慣れた方式で誤りを訂正できるようにする。

多国語自動翻訳モジュール５００は、文章分析及び訂正部３００から誤りの訂正された音声認識結果テキストを受信し、音声認識結果テキストの言語と出力する音声合成言語とが互いに異なる場合、誤りの訂正された音声認識結果テキストを学習対象言語に自動で翻訳して自動翻訳テキストを出力する。すなわち、音声認識結果テキストが学習者の生活言語であり、出力する合成音が学習対象言語である場合、生活言語である音声認識結果テキストを学習対象言語に翻訳する。自動翻訳の遂行可否は、入力音声が生活言語であるか学習対象言語であるかを音声認識部２００で予め判別したので、これを用いて自動翻訳の遂行可否を決定することができる。例えば、音声認識部の多国語音声認識モジュール２３０が言語設定情報による翻訳信号を多国語自動翻訳モジュール５００に伝送することにより、自動翻訳を行うことができる。

パラフレージング（Ｐａｒａｐｈｒａｓｉｎｇ）処理モジュール６００は、誤りの訂正された音声認識結果テキストまたは自動翻訳テキストを受信し、音声認識結果テキストまたは自動翻訳テキストを文章応用部７００を通じて確張する。すなわち、インタラクティブキャラクターが発話する文章の数を確張する。

文章応用部７００は、テキスト分析モジュール７１０と、キャラクター特性データベース７２０と、キャラクター特性管理モジュール７３０と、セッションヒストリデータベース７４０と、セッションヒストリ管理モジュール７５０と、を含み、パラフレージング処理モジュール６００から拡張要請されたテキストを確張する。

テキスト分析モジュール７１０は、パラフレージング処理モジュール６００から拡張要請されて伝送されるテキストの構文及び意味を分析して特性キーワードを抽出する。

キャラクター特性データベース７２０は、外国語学習装置から提供されるインタラクティブキャラクターの特性情報を格納する。ここで、格納されるキャラクターの特性情報には、キャラクターの名、形状、種類及びキャラクターに対応する音声データなどが含まれ得る。

キャラクター特性管理モジュール７３０は、テキスト分析モジュール７２０から分析されたテキストのキーワードをキャラクター特性データベース７２０のキーワード値とマッチングして、該当する値を適用した文章を生成する。例えば、インタラクティブキャラクターが猫キャラクターであり、拡張要請される文章が“私は、ホン・ギルドンである”の場合、キャラクター特性管理モジュール７３０は、“私は、猫である”と拡張文章を生成し、パラフレージング処理モジュール６００に伝送する。

セッションヒストリデータベース７４０は、学習者が以前に発話して音声入力により入力して音声認識された音声認識結果テキストを格納する。

セッションヒストリ管理モジュール７５０は、以前に学習者が発声して音声認識された音声認識結果テキストを、現在学習者が発声して音声認識された音声認識結果テキストと結合して文章を確張する。例えば、学習者が、“私は、人間である”、“私は、お腹がすいた”を一つのセッションで発話して音声認識された場合、セッションヒストリ管理モジュール７５０は、“私は、人間であるから、お腹がすいた”、“私は、人間であるので、お腹がすいた”など文章を結合して拡張文章を生成する。

文章応用部７００で拡張して生成される文章は、インタラクティブキャラクターとともに学習者に出力される文章であって、文章応用部７００は、インタラクティブキャラクター管理部としてみなすことができる。また、上記では文章応用部７００を別途に示したが、文章応用部７００は、パラフレージング処理モジュール６００に含まれて構成することもできる。

多国語音声合成モジュール８００は、パラフレージング処理モジュール６００から誤りの訂正された音声認識結果テキスト、自動翻訳テキスト、及び拡張テキストのうちの少なくとも一つを受信し、受信されたテキストに対応する音声を合成して合成音を入出力部１００に出力する。

したがって、外国語学習装置１０は、学習者の生活言語の発話を音声入力により受信し、翻訳して学習対象言語の合成音をインタラクティブキャラクターとともに出力することができるだけでなく、インタラクティブキャラクターの特性や学習者の以前の音声入力に基づいて学習対象言語を確張して出力することができる。さらに、学習者の学習対象言語発話を音声入力により受信し、学習者の学習対象言語発話の誤りを分析及び訂正し、インタラクティブキャラクターを通じて誤りの発生した部分を学習者が認識できるようにすることで、学習者が頻繁な誤りにもストレスを受けずに誤りを修正できるようにする。

図１の外国語学習装置１０は、スマートフォンやスマートパッドのようなスマート機器を含むモバイル機器及びＰＣのような情報処理機器の形態で実現できる。この場合、入出力部１００は、情報処理機器のユーザインターフェイスで実現されることできる。

また、外国語学習装置１０の構成要素は、アプリケーションソフトウェアモジュールの形態で実現できる。外国語学習装置１０の構成要素をアプリケーションソフトウェアモジュールの形態で実現する場合、入出力部１００は、情報処理機器の運営体制（ＯｐｅｒａｔｉｏｎＳｙｓｔｅｍ）のようなアプリケーションと入出力関連通信を行う通信モジュールで実現できる。

また、上記では入出力部１００を介して印加される入力音声の言語や出力される合成音の言語に対する設定を、個別構成が直接受信して処理することに説明したが、別途の学習設定部(図示せず)をさらに備えて学習設定を格納することもできる。学習設定には、入力音声の言語や出力される合成音の言語に対する設定だけでなく、ユーザ情報やキャラクター設定などが含まれることができる。

図２は、本発明の一実施例に係るインタラクティブキャラクター基盤の外国語学習方法を示す。

図１を参照して、図２のインタラクティブキャラクター基盤の外国語学習方法を説明すると、先ず、外国語学習装置１０は、入出力部１００を介して設定命令を受信し、学習設定を行う（Ｓ１０）。学習設定には、音声入力言語及び出力言語に対する言語設定と、キャラクター設定などが含まれる。音声入力言語としては、学習者の生活言語及び学習対象言語がすべて含まれるように設定可能であり、出力言語としては、学習対象言語が設定されることができる。場合によっては、出力言語として学習対象言語だけでなく、生活言語も含まれることができる。これは、インタラクティブキャラクターが学習者の生活言語で、学習者と対話するごとく学習者が感じるようにして、学習者の外国語学習に対するストレスを低減するためである。

学習設定が行われると、音声認識部２００は、入出力部１００を介して音声入力が受信されるか否かを判別する（Ｓ２０）。若し音声入力が受信されると、音声認識を行い、音声認識結果テキストを生成する（Ｓ３０）。このとき、入力される音声は、学習者の生活言語で入力されてもよく、学習対象言語で入力されてもよい。音声認識部２００は、音声入力が学習者の生活言語であるか学習対象言語であるかに関係なく音声認識を行う。ここで、音声認識部２００は、音声入力が学習者の生活言語である場合は、Ｌ３ユーザ音響モデル及びＬ３ユーザ言語モデルを用いて音声認識を行う。しかし、音声入力が学習対象言語であると、Ｌ１及びＬ２ユーザ音響モデルと、Ｌ１及びＬ２ユーザ言語モデルとを用いて音声認識を行う。本発明の音声認識部２００は、学習対象言語による音声入力に対し、学習対象言語が生活言語であるユーザのＬ１ユーザ音響モデル及びＬ１ユーザ言語モデルのみを用いて音声認識を行うのではなく、学習者と同一の生活言語を使用する人々の学習対象言語に対するＬ２音響モデル及びＬ２言語モデルをともに用いることにより、音声認識率を大きく高めることができる。また、音声入力が学習対象言語である場合は、Ｌ１及びＬ２ユーザ音響モデルを結合したＬ１＋Ｌ２ユーザ音響モデルと、Ｌ１及びＬ２ユーザ言語モデルを結合したＬ１＋Ｌ２ユーザ言語モデルとを用いて音声認識を行うこともできる。

音声入力に対する音声認識が行われ、音声認識結果テキストが生成されると、文章分析及び訂正部３００で音声認識結果テキストの誤りを訂正して正しい文章に変換する（Ｓ４０）。このとき、文章分析及び訂正部３００は、誤りを訂正するために、音声認識結果テキストをＮグラムの形態に変換し、変換されたＮグラムをキーワードにして誤り訂正データベース３１０の誤りパターンを検索することにより、誤りを訂正する。

誤りの訂正された音声認識結果テキストが、学習設定により出力される言語と同一であるか否かを判別する（Ｓ５０）。すなわち、音声入力言語と出力言語とが同一であるか否かを判別する。若し出力言語が音声入力言語と同一でない場合、多国語自動翻訳モジュール５００が音声認識結果テキストを出力言語に応じて自動翻訳を行う（Ｓ６０）。しかし、出力言語が音声入力言語と同一である場合、自動翻訳は行われない。

そして、音声認識結果テキストが自動翻訳されたり、または翻訳されない学習対象言語テキストをパラフレージング処理モジュール６００で確張する。パラフレージング処理モジュール６００は、先ず、学習対象言語テキストを分析して、学習設定により設定されたキャラクターの特性に応じて出力する文章候補を抽出し、出力文章を確張する（Ｓ７０）。キャラクター特性に応じて出力文章を確張した後、学習者が以前に発話して音声入力により入力し、音声認識された音声認識結果テキストを結合して出力する文章候補を生成し、出力文章を確張する（Ｓ８０）。出力文章が拡張されると、拡張された出力文章のうち、合成音で出力する文章を選択し、選択された出力文章を音声合成する（Ｓ９０）。

一方、学習者評価部４００は、音声入力をＬ１音響モデルと比較して音響類似度を計算し、音声認識結果テキストをＬ１言語モデルと比較して言語類似度を計算し、また音声認識結果テキストと文章分析及び訂正部３００で誤りの訂正された音声認識結果テキストとを比較して誤り類似度を計算して、学習者の学習成就度を評価する（Ｓ１００）。

そして、音声合成された合成音と学習評価結果をインタラクティブキャラクターのアニメーション及び音声の形態に出力して、学習者にフィードバックする（Ｓ１１０）。ここで、キャラクターアニメーションは、音声認識評価の結果、文章意味評価の結果などで詳細に表示することができ、学習者の発話での誤りの発生した部分を指摘して正しい発音をともに出力することもできる。

本発明に係る方法は、コンピューター読み取り可能な記録媒体に、コンピューターで読み取り可能なコードで具体化することが可能である。コンピューターで読み取り可能な記録媒体とは、コンピューターシステムによって読み出されることができるデータが格納されるすべての種類の記録装置を含む。記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ格納装置などがあり、またキャリアウエーブ（例えば、インターネットを介した伝送）の形態で実現されることも含む。また、コンピューターで読み取り可能な記録媒体は、ネットワークに接続されたコンピューターシステムに分散され、分散方式によりコンピューターで読み取り可能なコードとして格納されて行われることができる。

本発明は、図面に示された実施例に基づいて説明したが、これは例示的に説明したものに過ぎず、本技術分野の通常の知識を有する者であれば、本発明の本質的な特性から逸脱しない範囲で多様な変形及び均等な他の実施例が可能であることを理解できよう。

従って、本発明の技術的保護範囲は、本発明の請求範囲の技術的思想によって解釈されるべきである。

Claims

学習者が普段使用する言語に既に設定された生活言語及び学習対象言語のうちの一つにより前記学習者が発話する音声入力を受信し、合成音及び学習評価結果のうちの少なくとも一つを出力する入出力部と、
前記音声入力の印加を受けて、音声認識を行い、音声認識結果テキストを出力する音声認識部と、
前記音声認識結果テキストを受信して前記音声認識結果テキストの誤りを訂正し、類似文章を生成する文章分析及び訂正部と、
文章分析及び訂正部にて誤りの訂正された前記音声認識結果テキストの言語と出力言語とが互いに異なる場合、前記音声認識結果テキストを前記出力言語に対応して自動翻訳し、自動翻訳テキストを生成する多国語自動翻訳モジュールと、
誤りの訂正された前記音声認識結果テキスト及び前記自動翻訳テキストのうちの少なくとも一つを受信し、受信された前記テキストに対応する音声を既に設定されたインタラクティブキャラクターの特性に応じて合成して、合成音を前記入出力部に出力する多国語音声合成モジュールと、
前記学習者の言語使用能力を評価し、評価結果を前記入出力部に出力する学習評価部と、を含む外国語学習装置。
前記音声認識部は、
前記学習者が普段使用する生活言語を使用する人々のＬ３音響モデルと、前記学習者と同一の生活言語を使用する人々の同一の前記学習対象言語に対するＬ２音響モデルと、前記学習対象言語が生活言語である人々のＬ１音響モデルと、を含むＬ１２３ユーザ音響モデルを格納するＬ１２３ユーザ音響モデルデータベースと、
前記学習者と同一の生活言語を使用する人々のＬ３言語モデルと、前記学習者と同一の生活言語を使用する人々の同一の前記学習対象言語に対するＬ２言語モデルと、前記学習対象言語が生活言語である人々のＬ１言語モデルと、を含むＬ１２３ユーザ言語モデルを格納するＬ１２３ユーザ言語モデルデータベースと、
前記音声入力をＬ１２３ユーザ音響モデル及びＬ１２３ユーザ言語モデルを用いて前記音声認識結果テキストに変換する多国語音声認識モジュールと、を含むことを特徴とする請求項１に記載の外国語学習装置。
前記Ｌ１２３ユーザ音響モデルデータベースが、
前記Ｌ１音響モデルとＬ２音響モデルとが結合した形態であるＬ１＋Ｌ２音響モデルを格納し、
前記Ｌ１２３ユーザ言語モデルデータベースが、
前記Ｌ１言語モデルとＬ２言語モデルとが結合した形態であるＬ１＋Ｌ２言語モデルを格納することを特徴とする請求項２に記載の外国語学習装置。
前記多国語音声認識モジュールは、
前記音声入力が前記学習者の生活言語である場合は、前記Ｌ３音響モデル及び前記Ｌ３言語モデルを用いて音声認識を行い、
前記音声入力が前記学習対象言語である場合は、前記Ｌ１＋Ｌ２音響モデル及び前記Ｌ１＋Ｌ２言語モデルを用いて音声認識を行うことを特徴とする請求項３に記載の外国語学習装置。
前記文章分析及び訂正部は、
前記生活言語及び前記学習対象言語に対して、既存の音声認識結果テキストから発生する誤りとこれに対する訂正情報とを累積した誤りパターンを格納する誤り訂正データベースと、
前記音声認識結果テキストの誤りを前記誤りパターンから検索して、誤りを訂正する文章誤り訂正モジュールと、
前記生活言語及び前記学習対象言語での意味的に類似した多数の類似文章を含む類似文章パターンを格納する類似文章データベースと、
前記音声認識結果テキストと意味的に類似した文章を、前記類似文章パターンを検索して得る類似文章生成モジュールと、を含むことを特徴とする請求項２に記載の外国語学習装置。
前記文章誤り訂正モジュールは、
前記音声認識結果テキストをＮグラムの形態に変換し、変換された前記Ｎグラムをキーワードにして前記誤り訂正データベースの前記誤りパターンを検索し、検索された前記誤りパターンから誤りに対する訂正情報を得、得られた訂正情報を検索キーワードの前記Ｎグラムに取り替えることにより、誤りを訂正することを特徴とする請求項５に記載の外国語学習装置。
前記文章誤り訂正モジュールは、
前記音声認識結果テキストから既に設定された方式により重要語彙を抽出し、前記重要語彙をキーワードにして前記類似文章データベースの類似文章パターンを検索し、前記類似文章パターンから検索された類似文章候補のうち、文字列構成が前記音声認識結果テキストと最も類似する、既に設定された個数の前記類似文章候補を前記類似文章として選択することを特徴とする請求項５に記載の外国語学習装置。
前記学習評価部は、
前記Ｌ１音響モデルを格納するＬ１ユーザ音響モデルデータベースと、
前記Ｌ１言語モデルを格納するＬ１ユーザ言語モデルデータベースと、
前記音声入力と前記Ｌ１音響モデルとを比較して音響類似度を計算し、前記音声認識結果テキストと前記Ｌ１言語モデルとを比較して言語類似度を計算し、前記音声認識結果テキストと前記文章分析及び訂正部で誤りの訂正された前記音声認識結果テキストとを比較して誤り類似度を計算して、前記音響類似度と前記言語類似度と前記誤り類似度とを統合して既に設定された方式により数値化して前記評価結果を生成する学習者評価モジュールと、を含むことを特徴とする請求項５に記載の外国語学習装置。
前記Ｌ１ユーザ音響モデルデータベース及び前記Ｌ１ユーザ言語モデルデータベースのそれぞれは、
前記Ｌ１２３ユーザ音響モデルデータベース及び前記Ｌ１２３ユーザ言語モデルデータベースに含まれて実現されることを特徴とする請求項８に記載の外国語学習装置。
前記外国語学習装置は、
誤りの訂正された前記音声認識結果テキストまたは自動翻訳テキストのうちの少なくとも一つを受信し、既に設定された前記インタラクティブキャラクターの特性及び既に格納された前記学習者の音声認識結果テキストを用いて、音声認識結果テキストまたは自動翻訳テキストを確張して拡張文章を生成するパラフレージング処理モジュールをさらに含むことを特徴とする請求項１に記載の外国語学習装置。
前記パラフレージング処理モジュールは、
誤りの訂正された前記音声認識結果テキスト及び前記自動翻訳テキストのうちの少なくとも一つを受信し、受信された前記テキストを確張するために前記テキストの構文及び意味を分析して特性キーワードを抽出するテキスト分析モジュールと、
前記外国語学習装置から提供される前記インタラクティブキャラクターの特性情報を格納するキャラクター特性データベースと、
前記テキスト分析モジュールで分析された前記音声認識結果テキストのキーワードを前記キャラクター特性データベースのキーワード値とマッチングして、前記音声認識結果テキストの文章を確張するキャラクター特性管理モジュールと、
前記学習者が以前に発話して前記音声入力により入力し、音声認識された音声認識結果テキストを格納するセッションヒストリデータベースと、
前記セッションヒストリデータベースに格納された前記音声認識結果テキストを、現在学習者が発声して音声認識された前記音声認識結果テキストと結合して文章を確張するセッションヒストリ管理モジュールと、を含むことを特徴とする請求項１０に記載の外国語学習装置。
前記多国語音声合成モジュールは、
誤りの訂正された前記音声認識結果テキスト、前記自動翻訳テキスト及び前記拡張テキストのうちの少なくとも一つを受信して前記合成音を生成することを特徴とする請求項１１に記載の外国語学習装置。
前記入出力部は、
情報処理機器及び入出力関連通信を行う通信モジュールで実現されることを特徴とする請求項１に記載の外国語学習装置。
入出力部と、音声認識部と、文章分析及び訂正部と、学習評価部と、多国語自動翻訳モジュールと、パラフレージング処理モジュールと、多国語音声合成モジュールと、を含む国語学習装置の外国語学習方法において、
前記入出力部が設定命令を受信し、音声入力言語及び出力言語に対する言語設定とキャラクター設定などを含む学習設定を行うステップと、
前記音声認識部は、学習者が普段使用する言語に既に設定された生活言語及び学習対象言語のうちの一つにより前記学習者が発話する音声入力が受信されるか否かを判別するステップと、
前記音声入力が受信されると、前記音声認識部が音声認識を行い、音声認識結果テキストを生成するステップと、
前記文章分析及び訂正部が、前記音声認識結果テキストの誤りを訂正するステップと、
前記多国語自動翻訳モジュールは、前記誤りの訂正された音声認識結果テキストが前記学習設定での設定された前記出力言語と同一であるか否かを判別するステップと、
前記誤りの訂正された音声認識結果テキストと前記出力言語とが同一でない場合、前記誤りの訂正された音声認識結果テキストを前記出力言語に応じて自動翻訳して自動翻訳テキストを生成するステップと、
前記パラフレージング処理モジュールが、前記誤りの訂正された音声認識結果テキストまたは前記自動翻訳テキストのうちの少なくとも一つを受信し、受信された前記テキストを、既に設定された前記インタラクティブキャラクターの特性及び既に格納された前記学習者の音声認識結果テキストを用いて確張し、拡張文章を生成するステップと、
前記多国語音声合成モジュールが、誤りの訂正された前記音声認識結果テキスト、前記自動翻訳テキスト及び前記拡張テキストのうちの少なくとも一つを受信し、受信された前記テキストに対応する音声を既に設定されたインタラクティブキャラクターの特性に応じて合成して合成音を生成するステップと、
前記学習評価部が、前記学習者の言語使用能力を評価し、評価結果を生成するステップと、
前記入出力部が前記合成音と前記評価結果とを出力するステップと、を含む外国語学習方法。
前記音声認識結果テキストを生成するステップは、
前記音声入力が前記学習者の生活言語である場合は、前記学習者が普段使用する生活言語を使用する人々のＬ３音響モデル及びＬ３言語モデルを用いて、前記音声入力を前記音声認識結果テキストに変換するステップと、
前記音声入力が前記学習対象言語である場合は、前記学習者と同一の生活言語を使用する人々の同一の前記学習対象言語に対するＬ２音響モデル及び前記学習対象言語が生活言語である人々のＬ１音響モデルが結合されたＬ１＋Ｌ２音響モデルと、前記学習者と同一の生活言語を使用する人々の同一の前記学習対象言語に対するＬ２言語モデル及び前記学習対象言語が生活言語である人々のＬ１言語モデルが結合されたＬ１＋Ｌ２言語モデルとを用いて、前記音声入力を前記音声認識結果テキストに変換するステップと、を含むことを特徴とする請求項１４に記載の外国語学習方法。
前記誤りを訂正するステップは、
前記音声認識結果テキストの誤りを、前記生活言語及び前記学習対象言語に対する既存の音声認識結果テキストから発生する誤りとこれに対する訂正情報とが累積して格納された誤りパターンから検索して前記誤りを訂正することを特徴とする請求項１５に記載の外国語学習方法。
前記誤りを訂正するステップは、
前記音声認識結果テキストをＮグラムの形態に変換するステップと、
変換された前記Ｎグラムをキーワードにして前記誤りパターンを検索するステップと、
前記誤りパターンに設定された訂正情報を得て誤りを訂正するステップと、を含むことを特徴とする請求項１６に記載の外国語学習方法。
前記拡張文章を生成するステップは、
誤りの訂正された前記音声認識結果テキスト及び前記自動翻訳テキストのうちの少なくとも一つの構文及び意味を分析して特性キーワードを抽出するステップと、
分析された前記音声認識結果テキストのキーワードを既に格納された前記インタラクティブキャラクターの特性情報とマッチングして文章を確張するステップと、
分析された前記音声認識結果テキストを、前記学習者が以前に発話して既に格納された前記音声認識結果テキストと結合して文章を確張するステップと、を含むことを特徴とする請求項１５に記載の外国語学習方法。
前記評価結果を生成するステップは、
前記音声入力と前記Ｌ１音響モデルとを比較して音響類似度を計算するステップと、
前記音声認識結果テキストと前記Ｌ１言語モデルとを比較して言語類似度を計算するステップと、
前記音声認識結果テキストと誤りの訂正された前記音声認識結果テキストとを比較して誤り類似度を計算するステップと、
前記音響類似度と、前記言語類似度と、前記誤り類似度とを統合して既に設定された方式により数値化して前記評価結果を生成するステップと、を含むことを特徴とする請求項１５に記載の外国語学習方法。
請求項１４から請求項１９のうちのいずれか１項に記載の外国語学習方法を行うためのコンピューターで読み取り可能なプログラムを記録した記録媒体。