JP2022035596A

JP2022035596A - 言語学習支援装置、プログラム及び情報処理方法

Info

Publication number: JP2022035596A
Application number: JP2020140034A
Authority: JP
Inventors: 拓途西村; Takuto Nishimura
Original assignee: Language R & D LLC
Current assignee: Language R & D LLC
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-03-04
Also published as: WO2022039214A1

Abstract

【課題】学習効率のよい言語学習教材の作成を可能とする技術を提供すること。【解決手段】本発明の一態様によれば、言語学習支援装置が提供される。この言語学習支援装置は、カウントステップと、算出ステップと、ソートステップとを実行するように構成される。カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントする。フレーズ群とは、複数の単語から成るフレーズの集合である。算出ステップでは、出現回数に基づき、単語の重複を示す評価値を算出する。ソートステップでは、評価値に基づき、フレーズをソートする。【選択図】図１

Description

本発明は、言語学習支援装置、プログラム及び情報処理方法に関する。

教育者が言語学習に関する教材を作成する際、学習者が多種多様な表現を学習できるように、できるだけ多くの種類のフレーズを収録して教材を作成するのが一般的である。特許文献１には、教材の作成を支援する教材作成支援システムが開示されている。

特開２０１４－２２８９５７号公報

ここで、通常、言語学習教材に収録するフレーズを選択する際、収録するフレーズの数が多くなると、多くの文章で多用されやすい単語が、使用頻度の低い単語に優先して多くのフレーズに含まれることとなる。このような場合、複数の表現に同一の単語が重複して含まれることとなるが、重複する単語が増えることで学習者の学習負担が増加し、学習効率が落ちてしまうという問題が生じていた。

本発明では上記事情を鑑み、学習効率のよい言語学習教材の作成を可能とする技術を提供することとした。

本発明の一態様によれば、言語学習支援装置が提供される。この言語学習支援装置は、カウントステップと、算出ステップと、ソートステップとを実行するように構成される。カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントする。フレーズ群とは、複数の単語から成るフレーズの集合である。算出ステップでは、出現回数に基づき、単語の重複を示す評価値を算出する。ソートステップでは、評価値に基づき、フレーズをソートする。

これにより、学習効率のよい言語学習教材の作成を可能とする技術を提供することができる。

第１の実施形態に係る言語学習支援装置３のハードウェア構成を示すブロック図である。言語学習支援装置３の機能を示す機能ブロック図である。言語学習支援装置３による情報処理の一例を示すアクティビティ図である。文章データＴ１及び単語リストデータＴ２の一例を示す図である。重複削除前後のソート結果Ｓを示す図である。フレーズ群５、フレーズ６、出現回数７及び評価値８の一例を示す図である。出力データＷの一例を示す図である。使用単語９を含むようにフレーズ６を抽出する場合の情報処理の一例を示すアクティビティ図である。フレーズ群５、フレーズ６、出現回数７、評価値８及び出力データＷの一例を示す図である。第２の実施形態に係るシステム１の構成概要を示す図である。

以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。

ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現（いわゆるクラウドコンピューティング）するように提供されてもよい。

また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、０又は１で構成される２進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ（いわゆる量子ビット）によって表され、広義の回路上で通信・演算が実行されうる。

また、広義の回路とは、回路（Ｃｉｒｃｕｉｔ）、回路類（Ｃｉｒｃｕｉｔｒｙ）、プロセッサ（Ｐｒｏｃｅｓｓｏｒ）、及びメモリ（Ｍｅｍｏｒｙ）等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（ＳｉｍｐｌｅＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＳＰＬＤ）、複合プログラマブル論理デバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＣＰＬＤ）、及びフィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ））等を含むものである。

１．ハードウェア構成（第１の実施形態）
本節では、本実施形態のハードウェア構成について説明する。図１は、第１の実施形態に係る言語学習支援装置３のハードウェア構成を示すブロック図である。言語学習支援装置３は、コンピュータに専用プログラムがインストールされることによって実施される。言語学習支援装置３は、通信部３１と、記憶部３２と、制御部３３と、表示部３４と、入力部３５とを有し、これらの構成要素が言語学習支援装置３の内部において通信バス３０を介して電気的に接続されている。各構成要素についてさらに説明する。

（通信部３１）
通信部３１は、ＵＳＢ、ＩＥＥＥ１３９４、Ｔｈｕｎｄｅｒｂｏｌｔ、有線ＬＡＮネットワーク通信等といった有線型の通信手段が好ましいものの、無線ＬＡＮネットワーク通信、ＬＴＥ／３Ｇ等のモバイル通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。

（記憶部３２）
記憶部３２は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部３３によって実行される言語学習支援装置３に係る種々のプログラム等を記憶するソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報（引数、配列等）を記憶するランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）等のメモリとして実施されうる。また、これらの組合せであってもよい。

（制御部３３）
制御部３３は、言語学習支援装置３に関連する全体動作の処理・制御を行う。制御部３３は、例えば不図示の中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）である。制御部３３は、記憶部３２に記憶された所定のプログラムを読み出すことによって、言語学習支援装置３に係る種々の機能を実現する。すなわち、ソフトウェア（記憶部３２に記憶されている）による情報処理がハードウェア（制御部３３）によって具体的に実現されることで、制御部３３に含まれる各機能部（図２参照）として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部３３は単一であることに限定されず、機能ごとに複数の制御部３３を有するように実施してもよい。またそれらの組合せであってもよい。

（表示部３４）
表示部３４は、例えば、言語学習支援装置３の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部３４は、ユーザが操作可能なグラフィカルユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ：ＧＵＩ）の画面を表示する。これは例えば、ＣＲＴディスプレイ、液晶ディスプレイ、有機ＥＬディスプレイ及びプラズマディスプレイ等の表示デバイスを、言語学習支援装置３の種類に応じて使い分けて実施することが好ましい。当該表示デバイスは、制御部３３における出力部３４１の制御信号に応答して、表示画面を選択的に表示しうる。これにより、表示部３４は、出力データＷをユーザが視認可能に表示することができる。

（入力部３５）
入力部３５は、言語学習支援装置３の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部３５は、表示部３４と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、ＱＷＥＲＴＹキーボード等を採用してもよい。すなわち、入力部３５がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス３０を介して制御部３３に転送され、制御部３３が必要に応じて所定の制御や演算を実行しうる。

特に、ユーザは、入力部３５を用いて、文章データＴ１及び単語リストデータＴ２の処理条件等を入力することができる。

２．機能構成
本節では、本実施形態の機能構成について説明する。図２は、言語学習支援装置３の機能を示す機能ブロック図である。前述の通り、ソフトウェア（記憶部３２に記憶されている）による情報処理がハードウェア（制御部３３）によって具体的に実現されることで、制御部３３に含まれる各機能部として実行されうる。

具体的には、言語学習支援装置３（制御部３３）は、受付部３３１と、設定部３３２と、処理部３３３と、単語抽出部３３４と、カウント部３３５と、ソート部３３６と、重複削除部３３７と、算出部３３８と、フレーズ抽出部３３９と、判定部３４０と、出力部３４１とを備える。

（受付部３３１）
受付部３３１は、受付ステップを実行する。受付部３３１は、通信部３１又は記憶部３２を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部３３１は、通信部３１、記憶部３２又は入力部３５を介して種々の情報を受け付けるように構成される。具体的には、受付部３３１は、使用単語９を含む単語リストデータＴ２と、文章データＴ１と、文章データＴ１の処理設定に関する情報とを入力データとして受け付ける。また、受付部３３１は、文章データＴ１に代わり、フレーズ群５を受け付けてもよい。

文章データＴ１及び文章データＴ１の処理設定に関する情報は、言語学習支援装置３における記憶部３２に予め記憶されているものを読み出すようにしてもよいし、外部メディアに記憶されたものを読み出すようにしてもよい。あるいはユーザが、入力部３５を用いて、これらのデータ又は情報を直接作成してもよいし、通信部３１を介して、外部からこれらのデータ又は情報をダウンロードするようにしてもよい。

（設定部３３２）
設定部３３２は、受付部３３１が受け付けた種々の情報に基づき、言語学習支援装置３による処理条件を設定する。具体的には、例えば、設定部３３２は、文章データＴ１の処理設定に関する情報に基づき、フレーズ６に含める単語数の上限値や、自然言語処理の有無、採用フレーズ４に含まれる単語数、端数の処理条件、文章データＴ１及び単語リストデータＴ２の処理条件を設定する。設定部３３２による各種設定は、設定ファイルとして記憶部３２に記憶される。すなわち、設定部３３２は、該処理条件に基づき各種設定を行うことで、受付部３３１が受け付けた文章データＴ１の処理条件を、言語学習支援装置３の情報処理に反映する。

（処理部３３３）
処理部３３３は、文章データＴ１を含むファイル及び文章データＴ１に含まれる単語、記号、数字等を設定部３３２による設定に基づき処理する。具体的には、文章データＴ１を含むファイルを結合・分割し、文章データＴ１の書式を変換し、任意の記号が含まれる単語及びフレーズ６を削除する。また、処理部３３３は、フレーズ群５に含まれない使用単語９を、単語リストデータＴ２から除外する。

（単語抽出部３３４）
単語抽出部３３４は、設定部３３２による設定に基づき、文章データＴ１に含まれる単語を抽出する。単語抽出部３３４は、単語とともに、文章に含まれる記号及び数字の抽出を行う。

（カウント部３３５）
カウント部３３５は、カウントステップを実行する。カウント部３３５は、文章データＴ１に含まれる単語及びフレーズ６の出現回数７と、単語リストデータＴ２に含まれる使用単語９の出現回数７とをカウントする。また、上限値が設定されている場合、カウント部３３５は、設定された上限値以下の単語及びフレーズ６の出現回数７をカウントする。さらに、カウント部３３５は、フレーズ群５に含まれる単語の出現回数７をカウントする。フレーズ群５とは、複数の単語から成るフレーズ６の集合である。

（ソート部３３６）
ソート部３３６は、ソートステップを実行する。ソート部３３６は、評価値８に基づき、フレーズ６をソートする。

（重複削除部３３７）
重複削除部３３７は、ソート結果Ｓに含まれる複数のフレーズ６に同一の単語の組み合わせが含まれる場合、複数のフレーズ６のうち一部を削除することで、採用フレーズ４を決定するように構成される。

（算出部３３８）
算出部３３８は、算出ステップを実行する。算出部３３８は、出現回数７に基づき、単語の重複を示す評価値８を算出する。

（フレーズ抽出部３３９）
フレーズ抽出部３３９は、フレーズ抽出ステップを実行する。フレーズ抽出部３３９は、フレーズ群５から評価値８の低いフレーズ６を抽出する。特に、フレーズ抽出部３３９は、使用単語９を含むように、フレーズ６をフレーズ群５から抽出する。使用単語９とは、フレーズ群５からフレーズ６を抽出する際、対応フレーズ群に含まれることが好ましい単語をいう。

（判定部３４０）
判定部３４０は、対応フレーズ群に含まれるフレーズ６の少なくとも１つに使用単語９が含まれる否かを判定する。

（出力部３４１）
出力部３４１は、出力データＷ１と出力データＷ２と出力データＷ３とを出力し、これが言語学習支援装置３の表示部３４に表示される。

３．情報処理の詳細
本節では、アクティビティ図を参照しながら、言語学習支援装置３の情報処理について説明する。

３．１評価値８の算出までの処理
図３は、言語学習支援装置３による情報処理の一例を示すアクティビティ図である。図４は、文章データＴ１及び単語リストデータＴ２の一例を示す図である。図５は、重複削除前後のソート結果Ｓを示す図である。図６は、フレーズ群５、フレーズ６、出現回数７及び評価値８の一例を示す図である。図７は、出力データＷの一例を示す図である。

まず、ユーザは、入力部３５を用いて、文章データＴ１を入力データとして言語学習支援装置３に予めインストールされた専用プログラムに読み込ませる。また、ユーザは、フレーズ群５（例えば、フレーズ群５１及びフレーズ群５２）と、使用単語９を含む単語リストデータＴ２とを入力データとして読み込ませてもよい。その後、受付部３３１は、これらの入力データを受け付ける（Ａ１０１）。

文章データＴ１のファイル形式は、例えばテキスト形式（．ｔｘｔ又は．ｃｓｖ）である。文章データＴ１は、複数のファイルからなってもよいし、単一のファイルでもよい。また、文章データＴ１は、言語コーパスであることが好ましいが、学術論文、新聞、演説等、何らかの言語により構成された資料であれば種類は問わない。さらに、文章データＴ１は、数億単語以上で構成されることが好ましい。文章データＴ１の処理設定に関する情報とは、例えば、フレーズ６に含める単語数の上限値、自然言語処理に関する設定、ファイルの分割単位に関する設定等情報である。なお、文章データＴ１及びフレーズ群５の言語は、特に限られないが、例えば、英語、中国語、フランス語、ドイツ語、スペイン語、ロシア語、ポルトガル語、ヒンドゥー語、アラビア語等である。本実施形態では、英語を例に説明している。

受付部３３１が文章データＴ１を受け付けた場合、Ａ１０２に進む。一方、受付部３３１がフレーズ群５を受け付けた場合、Ａ１０６に進む。Ａ１０２において、設定部３３２は、Ａ１０１で受け付けた処理設定に基づき、フレーズ６に含める単語数の上限値を設定する（Ａ１０２）。この際、自然言語処理に係る設定、採用フレーズ４の単語数等、文章データＴ１の処理条件等が設定される。次に、処理部３３３は、所定の単語数（例えば、数万語）ごとにファイルを分割する。また、処理部３３３は、設定された処理条件に基づき、文章データＴ１に含まれる文字、数字及び記号（以後、単語等）を、所定の形式に変換するとともに、文章データＴ１に含まれる改行を削除する。例えば、処理部３３３は、文章中の全角文字（英数字及び記号を含む）を、半角文字に変換し、アルファベットの大文字を小文字に変換する。

次に、単語抽出部３３４は、文章中の所定入力（例えばスペース、タブ記号又は改行）に基づき、文章データＴ１に含まれる単語等を抽出する（Ａ１０３）。

単語等が抽出されると、処理部３３３は、抽出された単語等を文章の登場順に並べた単語リストを生成するとともに、該単語リストに基づき上限値以下の単語等で構成されるフレーズ６を含むフレーズリストを生成する（Ａ１０４）。なお、処理部３３３は、単語とともに抽出した記号及び数字を、それぞれ一単語とみなして単語リスト及びフレーズリスト（フレーズ群５）を作成する。ここで、フレーズ６とは、抽出された複数の単語等を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。

設定された上限値が２である場合、単語抽出部３３４によって文章データＴ１に含まれる単語が抽出された後、処理部３３３は、単語リストを生成する（不図示）。また、処理部３３３は、抽出した単語を、単語リストに基づき、２単語ずつ一つのフレーズ６としてリストアップしたフレーズリスト（フレーズ群５）を生成する。

より具体的には、“ｍｙ”、“ｆａｔｈｅｒ’ｓ”、“ｄｒａｇｏｎ”、“ｃｈａｐｔｅｒ”、“ｏｎｅ”、が単語として抽出された場合、２単語のフレーズ６としては、文章の登場順に“ｍｙｆａｔｈｅｒ’ｓ”、“ｄｒａｇｏｎｃｈａｐｔｅｒ”と、“ｆａｔｈｅｒ’ｓｄｒａｇｏｎ”、“ｃｈａｐｔｅｒｏｎｅ”とがリストアップされる。すなわち、連続している任意の組合せをフレーズ６としてリストアップする。より一般化すると、ｎ単語のフレーズ６の場合は、ｎ通りのリストアップが考えられる。このようにすることで、漏れのないリストアップが実現される。その結果、処理部３３３によって、文章データＴ１は、２つのリスト（単語リスト及び２単語のフレーズリスト）に変換される。

設定された上限値が３である場合、処理部３３３は、単語リスト及び２単語を含むフレーズリスト（フレーズ群５）に加え、３単語のフレーズ６を含む３つのフレーズリストを生成する。かかる場合、抽出された単語は文章の登場順に、“ｍｙｆａｔｈｅｒ’ｓｄｒａｇｏｎ”が３単語のフレーズ６の代表例としてリストアップされる（不図示）。

単語リスト及びフレーズリスト（フレーズ群５）が生成されると、処理部３３３は、処理設定に基づき、単語とともに抽出された所定の記号（例えば、コンマ、ピリオド等）と、所定の記号を含むフレーズ６とを削除する。その後、カウント部３３５は、設定された上限値以下の単語及びフレーズ６の出現回数７をカウントする。

また、複数のフレーズ６に同一の単語の組み合わせが含まれる場合、重複削除部３３７は、複数のフレーズ６のうち一部を削除することで、採用フレーズ４を決定する（Ａ１０５）。ここで、採用フレーズ４は、フレーズ６に含まれる単語数に基づき決定されることが好ましい。より具体的には、採用フレーズ４は、フレーズ６に含まれる単語数が最大又は最小のフレーズ６であることが好ましい。採用フレーズ４を最大のフレーズ６とするか、最小のフレーズ６とするかの決定及び採用フレーズ４に含まれる単語数に係る決定は、設定部３３２によってなされた文章データＴ１の処理設定に基づき行われる。

ここで、採用フレーズ４とは、重複削除部３３７によって削除されずに残ったフレーズ６である。図５において、上限値が３に設定されるとともに、採用フレーズ４をフレーズ６に含まれる単語数が最大のフレーズ６とする設定がなされた場合の例が示される。例えば、重複削除前のソート結果Ｓ１２～ソート結果Ｓ１４を参照すると、文章中に“ｈｅ”という単語が３回、“ｈｅｉｓ”というフレーズ６が２回、“ｈｅｉｓａｓｔｕｄｅｎｔ”というフレーズ６が２回出現した場合、重複削除部３３７は、それぞれのソート結果Ｓで重複している“ｈｅ”及び“ｈｅｉｓ”を削除するとともに、採用フレーズ４を“ｈｅｉｓａｓｔｕｄｅｎｔ”に決定し、ソート結果Ｓ１５～ソート結果Ｓ１７を生成する。すなわち、複数のフレーズ６に同一の単語の組み合わせが含まれる場合、重複削除部３３７は、複数のフレーズ６のうち、１つの採用フレーズ４を除いた残りを削除する。これにより、ユーザが出力データＷを学習に用いる際、単語やフレーズ６の重複のない出力データＷを確認することが可能となるので、学習者が効率よく言語学習することができる。

ここで、フレーズ６に含まれる単語数が最大のフレーズ６を採用フレーズ４とする設定がなされた場合の例として、図５を参照されたい。図５において、ソート結果Ｓ１２～ソート結果Ｓ１４において重複する単語又はフレーズ６がある場合、単語数が最大のソート結果Ｓ１４以外のソート結果Ｓ１２及びソート結果Ｓ１３に含まれるフレーズ６が削除されることとなる。すなわち、ソート結果Ｓ１４に含まれるフレーズ６が、優先的に採用フレーズ４として残される。より具体的には、重複削除前後のソート結果Ｓを比較すると、“ｈｅ”、“ｉｓ”、“ａ”、”“ｈｅｉｓ”及び“ｉｓａ”は、それぞれソート結果Ｓ１４のフレーズ６に含まれる単語の組み合わせと重複するものとして削除され、ソート結果Ｓ１４においてこれらの単語及びフレーズ６を含む“ｈｅｉｓａｓｔｕｄｅｎｔ”と、“ｓｈｅｈａｓｔｈｅ”とが残ることとなる。なお、ソート結果Ｓ１６の“ｓｈｅｉｓ”は、ソート結果Ｓ１４に含まれるフレーズ６と重複しないので、削除されず残されることとなる。なお、以後のアクティビティにおいて、重複削除後のフレーズ群５に含まれるフレーズ６は、採用フレーズ４であるものとして扱うものとする。以後、重複削除後のフレーズ群５として、フレーズ群５１（図６参照）及びフレーズ群５２（図９参照）を例に説明する。

続いて、カウント部３３５は、フレーズ群５に含まれる単語の出現回数７をカウントする（Ａ１０６）。例えば、カウント部３３５は、フレーズ群５１又はフレーズ群５２に含まれる単語の出現回数７をカウントする。なお、カウント部３３５は、重複する単語がどのフレーズ６に含まれるのかに関わらず、出現回数７を算出する。すなわち、カウント部３３５は、同一のフレーズ６に同一の単語が含まれる場合でも、複数のフレーズ６相互に同一の単語が含まれる場合でも、それぞれ同様に単語が重複しているものとして出現回数７を算出する。また、このとき、カウント部３３５は、単語リストデータＴ２（例えば、単語リストデータＴ２０）に含まれる使用単語９の出現回数７をカウントする。

続いて、算出部３３８は、フレーズ群５に含まれる各フレーズ６ごとに、各フレーズ６に含まれる単語の出現回数７に基づき、単語の重複を示す評価値８を算出する（Ａ１０７）。ここで、評価値８は、フレーズ６に含まれる単語の出現回数７の合計を、フレーズ６に含まれる単語の数で割ったものである。評価値８が小さいほど、フレーズ６に含まれる単語に重複が少ないことが示される。なお、評価値８の最小値は１であり、フレーズ６に含まれる単語に重複がない場合の評価値８は１となる。

フレーズ群５１（図６）の例では、評価値８１を算出するフレーズ６１が“ｈｅｉｓａ”である場合、算出部３３８は、“ｈｅ”と、”ｉｓ”と、”ａ”との出現回数７１（それぞれ２回、１回、３回）の合計である６を、該フレーズ６１の単語数である３で割り、２を該フレーズ６１の評価値８１として算出する。また、フレーズ群５２（図９）の例では、評価値８２を算出するフレーズ６４が“ｈｅｈａｓｔｈｅｐｅｎ”である場合、算出部３３８は、“ｈｅ”と、”ｈａｓ”と、“ｔｈｅ”と、“ｐｅｎ”との出現回数７２（それぞれ２回、１回、３回、１回）の合計である６を、単語数である４で割り、１．７５を該フレーズ６４の評価値８２として算出する（図９参照）。

ここで、割り切れない数が算出された場合、算出部３３８は、端数処理をしてから評価値８２を算出する。例えば、算出部３３８は、小数点第１６位を四捨五入した数を、評価値８２として算出する。フレーズ６４が”ｔｈｅｕｎｉｔｅｄｓｔａｔｅｓ”である場合、算出部３３８は、該フレーズ６４に含まれる単語の出現回数７２（それぞれ３回、１回、１回）の合計である５を、単語数である３で割り、小数点第１６位を四捨五入した１．６６６６６６６６６６６６６６６７を評価値８２として算出する。このようにして、フレーズ群５に含まれる全てのフレーズ６について、評価値８１を算出する。

３．２重複を含まないフレーズ６を出力する場合
評価値８が１のフレーズ６のみ抽出を行う場合、Ａ１０８に進む。Ａ１０８において、フレーズ抽出部３３９は、評価値８に基づき、他のフレーズ６に含まれる単語と重複する単語を含まないフレーズ６を、フレーズ群５から抽出する。具体的には、フレーズ抽出部３３９は、評価値８が１のフレーズ６を、フレーズ群５から抽出する。例えば、フレーズ抽出部３３９は、フレーズ群５１に含まれるフレーズ６１のうち、評価値８が１のフレーズ６１を抽出する。その後、出力部３４１は、評価値８が１のフレーズ６３のみを含む出力データＷ２を出力する（Ａ１１０）。この場合、互いに重複した単語を含まないフレーズ６のみが出力されるので、多くの単語が含まれるフレーズ群５を学習する場合でも、単語が重複することによって学習効率が低下することなく、学習者は効率よく複数のフレーズ６を学習することができる。

３．３評価値８が算出された全てのフレーズ６を出力する場合
フレーズ抽出部３３９による抽出を行わない場合、Ａ１０９に進む。ソート部３３６は、算出された評価値８に基づき、フレーズ６をソートする。具体的には、ソート部３３６は、フレーズ６を評価値８の小さい順にソートする。例えば、ソート部３３６は、フレーズ群５１に含まれるフレーズ６を評価値８の小さい順にソートする。その後、出力部３４１は、出力データＷ１を出力する（Ａ１１０）。このように、重複する単語を含まないフレーズ６が上位になるように並べ替えられて示されることで、フレーズ６相互に含まれる単語の重複が少ないフレーズ６を優先的に学習することが可能となる。

３．４使用単語９を含むように抽出したフレーズ６を出力する場合
続いて、図８を参照しながら、使用単語９を含むようにフレーズ群５からフレーズ６を抽出する場合の処理を説明する。図８は、使用単語９を含むようにフレーズ６を抽出する場合の情報処理の一例を示すアクティビティ図である。図９は、フレーズ群５、フレーズ６、出現回数７、評価値８及び出力データＷの一例を示す図である。

まず、ソート部３３６は、フレーズ６を評価値８の小さい順にソートする（Ａ２０１）。図９の例では、ソート部３３６は、フレーズ６４を評価値８２の小さい順にソートし、ソート結果Ｓ１８を生成する。

次に、処理部３３３は、フレーズ群５に含まれない使用単語９を、単語リストデータＴ２から除外する。図９に示されるように、処理部３３３は、単語リストデータＴ２０に含まれる使用単語９１のち、ソート結果Ｓ１８に含まれない使用単語９である“Ｔｏｋｕｇａｗａ”を除外し、単語リストデータＴ２１を生成する。

次に、ソート部３３６は、Ａ１０６で算出した出現回数７の少ない順に、使用単語９をソートする（Ａ２０３）。続いて、フレーズ抽出部３３９は、使用単語９を含むように、フレーズ６をフレーズ群５から抽出する（Ａ２０４）。特に、フレーズ抽出部３３９は、フレーズ群５から評価値８の低いフレーズ６を優先して抽出する。具体的には、フレーズ抽出部３３９は、フレーズ群５の中から、単語リストデータＴ２の先頭の使用単語９を含むフレーズ６のうち、最も評価値８の小さいフレーズ６をフレーズ群５から抽出する。以後、フレーズ抽出部３３９によって抽出された使用単語９を含むフレーズ６を対応フレーズとよび、対応フレーズの集合を対応フレーズ群とよぶ。

次に、判定部３４０は、先頭から２番目の使用単語９について、対応フレーズ群を参照し（Ａ２０５）、使用単語９が対応フレーズ群に含まれるか否かを判定する。かかる判定は、単語リストデータＴ２に含まれる全ての使用単語９について、出現回数７の少ない順に実施される。使用単語９が対応フレーズ群に含まれない場合、フレーズ抽出部３３９は、使用単語９を含むフレーズ６のうち、最も評価値８の小さいフレーズ６を抽出する（Ａ２０６）。対応フレーズ群に含まれる場合、使用単語９を含むフレーズ６は既に抽出されているとして、フレーズ抽出部３３９は、フレーズ６の抽出を行わない。

ここで、フレーズ群５２から使用単語９２を含むフレーズ６４を抽出する場合の処理を具体的に説明する。まず、フレーズ抽出部３３９は、単語リストデータＴ２１の先頭の使用単語９２（“ｌｏｏｋｉｎｇ”）を含むフレーズ６４のうち、最も評価値８の小さい“ｌｏｏｋｉｎｇｆｏｒ”をソート結果Ｓ１８から抽出し、これが対応フレーズとなる。

続いて、判定部３４０は、“ｆｏｒ”が対応フレーズ群に含まれるか否か判定する。“ｆｏｒ”は既に対応フレーズ（ｌｏｏｋｉｎｇｆｏｒ”）に含まれるので、フレーズ抽出は行われず次の処理に移る。次に、判定部３４０は、“ｕｎｉｔｅｄ”について判定する。“ｕｎｉｔｅｄ”は対応フレーズ群に含まれないので、フレーズ抽出部３３９によって“ｔｈｅｕｎｉｔｅｄｓｔａｔｅｓ”が抽出される（このとき、対応フレーズ群は、“ｌｏｏｋｉｎｇｆｏｒ”及び“ｔｈｅｕｎｉｔｅｄｓｔａｔｅｓ”からなる。）。“ｓｔａｔｅｓ”は、対応フレーズ群に含まれるので、抽出は行われず次の処理に移る。

次に、判定部３４０は、“ｈｅ”について判定する。“ｈｅ”は、対応フレーズ群に含まれない。ここで、“ｈｅ”を含むフレーズ６４（“ｈｅｈａｓｔｈｅｐｅｎ”及び”ｈｅｉｓｔｈｅ”）には、対応フレーズ群に含まれる“ｔｈｅ”が含まれるため、これらのフレーズ６４は抽出されず、次の処理に移る。

全ての使用単語９１についての判定が完了すると、Ａ２０７に進む。Ａ２０７では、出力部３４１は、対応フレーズ群（出力データＷ３）と、対応フレーズ群に含まれなかった使用単語９１及び処理部３３３によって使用単語９１から除外された使用単語９１を含む出力データＷ４とが、それぞれ出力される。このようにして、使用単語９を含み、かつ、単語の重複が含まれないようにフレーズ６の抽出が行われる。

なお、出力データＷに含まれるフレーズ６について、単語の重複を許容する場合、フレーズ抽出部３３９は、前述した“ｈｅ”を含むフレーズ６４（“ｈｅｈａｓｔｈｅｐｅｎ”及び”ｈｅｉｓｔｈｅ”）のうち、評価値８２の小さい“ｈｅｈａｓｔｈｅｐｅｎ”を抽出する。この場合、出力部３４１は、“ｔｈｅ”が重複する出力データＷ５と、単語リストデータＴ２０から除外された単語である“Ｔｏｋｕｇａｗａ”のみを含む出力データＷ６とを出力する。

上記構成では、抽出したフレーズ６が、使用単語９を含み、かつ、互いのフレーズ６に含まれる単語の重複が極力少ない組み合わせとなるように、フレーズ群５からフレーズ６を抽出した出力データＷが出力される。その結果、学習対象としたい単語群の指定と、指定した単語をフレーズ６に含ませることによる学習効率の低下の軽減とを両立させた教材の作成が可能となる。

このように、第１の実施形態に係る言語学習支援装置３によれば、文章データＴ１を入力として、互いのフレーズ６に含まれる単語が重複しないように組み合わせられたフレーズ群５を抽出することができる。このようなフレーズ群５を用いることで、学習効率のよい言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、専用プログラムをインストールした言語学習支援装置３を使用するため、オフライン環境でも使用可能であり、大容量の文章データＴ１を扱うことに適している。

４．第２の実施形態
本節では、第２の実施形態に係る言語学習支援装置３及びこれを含むシステム１について説明する。なお、第１の実施形態に係る言語学習支援装置３と同様の構成や特徴については、説明を省略する。図１０は、第２の実施形態に係るシステム１の構成概要を示す図である。システム１は、端末２と、言語学習支援装置３とを備え、これらが電気通信回線を通じて通信可能に構成される。

端末２は、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて言語学習支援装置３にアクセス可能なものであれば、その形態は問わない。端末２は、通信部と、記憶部と、制御部と、表示部と、入力部とを有し、これらの構成要素が端末２の内部において通信バスを介して電気的に接続されている。

通信部、記憶部、制御部、表示部及び入力部の具体的な説明については、第１節で説明した言語学習支援装置３における通信部３１、記憶部３２、制御部３３、表示部３４及び入力部３５の記載を参照されたい。

言語学習支援装置３は、ハードウェア構成として、通信部３１と、記憶部３２と、制御部３３とを有し、これらの構成要素が言語学習支援装置３の内部において通信バス３０を介して電気的に接続されている。詳細は、第１節で説明した言語学習支援装置３における通信部３１、記憶部３２及び制御部３３の記載を参照されたい。また、第２の実施形態における言語学習支援装置３（制御部３３）は、機能構成として、受付部３３１と、設定部３３２と、処理部３３３と、単語抽出部３３４と、カウント部３３５と、ソート部３３６と、重複削除部３３７と、算出部３３８と、フレーズ抽出部３３９と、判定部３４０と、出力部３４１とを備える。

特に、受付部３３１は、ユーザが使用する端末２からネットワーク及び通信部３１を介して種々の情報を受け付けるように構成される。具体的には、受付部３３１は、端末２から種々の情報を受け付ける。詳細は、第１節で説明した言語学習支援装置３における受付部３３１の記載を参照されたい。

また、出力部３４１は、出力データＷを出力し、これが端末２の表示部に表示される。あるいは、出力部３４１は、出力データＷを端末２に表示させるためのレンダリング情報だけを生成してもよい。

このように、第１の実施形態に係る言語学習支援装置３によれば、文章データＴ１を入力として、互いのフレーズ６に含まれる単語ができるだけ重複しないように組み合わせられたフレーズ群５を抽出することができる。このようなフレーズ群５を用いることで、学習効率のよい言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、ユーザが端末２を介して、外部サーバである言語学習支援装置３にアクセス可能に構成されており、多くのユーザがより手頃に文章データＴ１から学習効率のよい言語学習教材を作成することができる。

５．その他
本実施形態に係るシステム１に関して、以下のような態様を採用してもよい。

（１）本実施形態の態様は、プログラムであってもよい。このプログラムは、コンピュータを言語学習支援装置３として機能させる。
（２）言語学習支援装置３には、上記のプログラムが予めインストールされていてもよいし、コンピュータにこれをインストールして事後的に言語学習支援装置３として機能するように実施してもよい。
（３）本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、カウントステップと、算出ステップと、ソートステップとを備える。カウントステップでは、フレーズ群５に含まれる単語の出現回数７をカウントする。フレーズ群５とは、複数の単語から成るフレーズ６の集合である。算出ステップでは、出現回数７に基づき、単語の重複を示す評価値８を算出する。ソートステップでは、評価値８に基づき、フレーズ６をソートする。

さらに、次に記載の各態様で提供されてもよい。
前記言語学習支援装置であって、前記評価値は、前記フレーズに含まれる前記単語の前記出現回数の合計を、前記フレーズに含まれる前記単語の数で割ったものである、もの。
前記言語学習支援装置であって、前記ソートステップでは、前記フレーズを前記評価値の小さい順にソートする、もの。
前記言語学習支援装置であって、フレーズ抽出ステップをさらに実行するように構成され、前記フレーズ抽出ステップでは、前記フレーズ群から前記評価値の低い前記フレーズを抽出する、もの。
前記言語学習支援装置であって、受付ステップをさらに実行するように構成され、前記受付ステップでは、使用単語を受け付け、前記フレーズ抽出ステップでは、前記使用単語を含むように、前記フレーズを前記フレーズ群から抽出する、もの。
前記言語学習支援装置であって、前記フレーズ抽出ステップでは、前記評価値に基づき、他の前記フレーズに含まれる前記単語と重複する前記単語を含まない前記フレーズを、前記フレーズ群から抽出する、もの。
前記言語学習支援装置であって、前記フレーズ抽出ステップでは、前記評価値が１の前記フレーズを、前記フレーズ群から抽出する、もの。
プログラムであって、コンピュータを前記言語学習支援装置として機能させる、もの。
情報処理方法であって、カウントステップと、算出ステップと、ソートステップとを備え、前記カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントし、前記フレーズ群とは、複数の前記単語から成るフレーズの集合で、前記算出ステップでは、前記出現回数に基づき、前記単語の重複を示す評価値を算出し、前記ソートステップでは、前記評価値に基づき、前記フレーズをソートする、方法。
もちろん、この限りではない。

最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１：システム
２：端末
３：言語学習支援装置
３０：通信バス
３１：通信部
３２：記憶部
３３：制御部
３３１：受付部
３３２：設定部
３３３：処理部
３３４：単語抽出部
３３５：カウント部
３３６：ソート部
３３７：重複削除部
３３８：算出部
３３９：フレーズ抽出部
３４０：判定部
３４１：出力部
３４：表示部
３５：入力部
４：採用フレーズ
５：フレーズ群
５１：フレーズ群
５２：フレーズ群
６：フレーズ
６１：フレーズ
６３：フレーズ
６４：フレーズ
７：出現回数
７１：出現回数
７２：出現回数
８：評価値
８１：評価値
８２：評価値
９：使用単語
９１：使用単語
９２：使用単語
Ｓ：ソート結果
Ｓ１２：ソート結果
Ｓ１３：ソート結果
Ｓ１４：ソート結果
Ｓ１５：ソート結果
Ｓ１６：ソート結果
Ｓ１７：ソート結果
Ｓ１８：ソート結果
Ｔ１：文章データ
Ｔ２：単語リストデータ
Ｔ２０：単語リストデータ
Ｔ２１：単語リストデータ
Ｗ：出力データ
Ｗ１：出力データ
Ｗ２：出力データ
Ｗ３：出力データ
Ｗ４：出力データ
Ｗ５：出力データ
Ｗ６：出力データ

Claims

言語学習支援装置であって、
カウントステップと、算出ステップと、ソートステップとを実行するように構成され、
前記カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントし、
前記フレーズ群とは、複数の前記単語から成るフレーズの集合で、
前記算出ステップでは、前記出現回数に基づき、前記単語の重複を示す評価値を算出し、
前記ソートステップでは、前記評価値に基づき、前記フレーズをソートする、
もの。
請求項１に記載の言語学習支援装置であって、
前記評価値は、前記フレーズに含まれる前記単語の前記出現回数の合計を、前記フレーズに含まれる前記単語の数で割ったものである、
もの。
請求項１又は請求項２に記載の言語学習支援装置であって、
前記ソートステップでは、前記フレーズを前記評価値の小さい順にソートする、
もの。
請求項１～請求項３の何れか１つに記載の言語学習支援装置であって、
フレーズ抽出ステップをさらに実行するように構成され、
前記フレーズ抽出ステップでは、前記フレーズ群から前記評価値の低い前記フレーズを抽出する、
もの。
請求項４に記載の言語学習支援装置であって、
受付ステップをさらに実行するように構成され、
前記受付ステップでは、使用単語を受け付け、
前記フレーズ抽出ステップでは、前記使用単語を含むように、前記フレーズを前記フレーズ群から抽出する、
もの。
請求項４又は請求項５に記載の言語学習支援装置であって、
前記フレーズ抽出ステップでは、前記評価値に基づき、他の前記フレーズに含まれる前記単語と重複する前記単語を含まない前記フレーズを、前記フレーズ群から抽出する、
もの。
請求項４～請求項６の何れか１つに記載の言語学習支援装置であって、
前記フレーズ抽出ステップでは、前記評価値が１の前記フレーズを、前記フレーズ群から抽出する、
もの。
プログラムであって、
コンピュータを請求項１～請求項７の何れか１つに記載の言語学習支援装置として機能させる、
もの。
情報処理方法であって、
カウントステップと、算出ステップと、ソートステップとを備え、
前記カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントし、
前記フレーズ群とは、複数の前記単語から成るフレーズの集合で、
前記算出ステップでは、前記出現回数に基づき、前記単語の重複を示す評価値を算出し、
前記ソートステップでは、前記評価値に基づき、前記フレーズをソートする、
方法。