JP2008129449A - Automatic question creating device, automatic question creating method and computer program - Google Patents
Automatic question creating device, automatic question creating method and computer program Download PDFInfo
- Publication number
- JP2008129449A JP2008129449A JP2006316057A JP2006316057A JP2008129449A JP 2008129449 A JP2008129449 A JP 2008129449A JP 2006316057 A JP2006316057 A JP 2006316057A JP 2006316057 A JP2006316057 A JP 2006316057A JP 2008129449 A JP2008129449 A JP 2008129449A
- Authority
- JP
- Japan
- Prior art keywords
- data
- valid
- candidate
- invalid
- blank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004590 computer program Methods 0.000 title claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 47
- 238000012360 testing method Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000000877 morphologic effect Effects 0.000 claims abstract description 11
- 238000010801 machine learning Methods 0.000 claims description 22
- 238000012706 support-vector machine Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 22
- 230000010365 information processing Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明は、穴埋め問題等を自動的に作成する問題自動作成装置、問題自動作成方法、及びコンピュータプログラムに関する。 The present invention relates to an automatic problem creation apparatus, an automatic problem creation method, and a computer program that automatically create a hole filling problem and the like.
入試等のテストにおいて、穴埋め問題や選択肢問題(以下、「穴埋め問題等」と呼ぶ)が出題されるが、自動的に穴埋め問題等を作成することができれば問題作成者にとって有用である。これに対して、入力された学習対象文を形態素解析し、単語一つ一つにつき辞書と対照して対象語を抽出し、抽出された単語部分を空白に置き換えて穴埋め問題を作成する技術が提案されている(特許文献1)。また、質問と解答のペアを含む辞書(コーパス)から任意のペアを選択し、その解答と等価な表現の解答、その質問と等価な表現の質問、その解答と類似しない解答をコーパスから削除することによって不正解用選択肢候補を求め、多肢選択問題を作成する技術が提案されている(特許文献2)。
しかし、特許文献1の技術は、予め辞書に年号や人物の氏名や地名が登録されていて、問題対象文中に辞書に存在する単語が存在する場合にはその部分を空白に置き換えるものであるから、社会科等における年号や人物名等の単純な穴埋め問題等を作成することはできるが、外国語の文法等、高度な穴埋め問題等を作成することができないという問題がある。
However, the technique of
また、特許文献2の技術によれば、正解に類似する不正解解答を作成できるため、より高度な多肢選択問題の作成が可能であるが、質問・解答のペアを事前に手作業で大量に作成し、コーパスを作成する必要があるため、労力の負担が大きいという問題がある。
In addition, according to the technique of
そこで、本発明は、複雑な文法の穴埋め問題等を手間なく自動で作成することができる
問題自動作成装置、問題自動作成方法、及びコンピュータプログラムを提供することを目的とする。
Therefore, an object of the present invention is to provide an automatic problem creation apparatus, an automatic problem creation method, and a computer program that can automatically create a complicated grammar filling problem without trouble.
(1)機械学習部と分類部とを有する問題自動作成装置であって、前記機械学習部は、空白部分を有する穴埋め問題を学習用途に適する妥当データとして多数受け付ける妥当データ受付部と、各前記妥当データにおいて、文頭からの空白部分の位置を変えることによって学習用途に不適切な非妥当データを生成する非妥当データ生成部と、データを特徴づけるための複数種類の素性の素性リストによって、前記妥当データ及び前記非妥当データを特徴づける特徴解析部と、前記妥当データの集合である妥当データ群と前記非妥当データの集合である非妥当データ群とを統計処理することによって、前記妥当データ群と前記非妥当データ群とを区別するための基準データを生成する基準データ生成部と、を有し、前記分類部は、テストデータの入力を受け付けるテストデータ受付部と、前記テストデータを形態素解析し、各形態素を空白部分として規定した候補データを前記素性リストによって特徴づける候補データ特徴解析部と、前記基準データによって、前記妥当データ群に分類した前記候補データを出力するための出力データとする出力データ生成部と、を有することを特徴とする問題自動作成装置。 (1) An automatic problem creation apparatus including a machine learning unit and a classification unit, wherein the machine learning unit receives a large number of filling data having blank portions as valid data suitable for a learning application, In the valid data, by changing the position of the blank part from the head of the sentence, the invalid data generation unit that generates invalid data inappropriate for learning use, and the feature list of a plurality of types of features for characterizing the data, The valid data group is characterized by statistically processing the valid data and the feature analysis unit that characterizes the invalid data, the valid data group that is a set of the valid data, and the invalid data group that is the set of the invalid data. And a reference data generation unit that generates reference data for distinguishing between the invalid data group and the classification unit, A test data reception unit that receives force, a morphological analysis of the test data, a candidate data feature analysis unit that characterizes candidate data that defines each morpheme as a blank portion by the feature list, and the valid data group by the reference data And an output data generation unit for generating output data for outputting the candidate data classified as (1).
(1)の発明によれば、問題自動作成装置は、妥当データを妥当データ受付部によって受け付けると、基準データ生成部によって、自動的に、前記妥当データ群と前記非妥当データ群とを区別するための基準データを生成し、候補データ特徴解析部によって、テストデータに基づいて生成した候補データを特徴付ける。そして、出力データ生成部によって、妥当データ群に属すると判断した候補データを自動的に出力する。 According to the invention of (1), when valid data is received by the valid data receiving unit, the automatic problem creating apparatus automatically distinguishes between the valid data group and the invalid data group by the reference data generating unit. Reference data is generated, and the candidate data feature analysis unit characterizes the candidate data generated based on the test data. Then, the output data generation unit automatically outputs the candidate data determined to belong to the valid data group.
このように、(1)の発明によれば、自動的に基準データを作成し、その基準データを使用して適切な出力データを生成することができるから、複雑な文法の穴埋め問題等を手間なく自動で作成することができる。 As described above, according to the invention of (1), it is possible to automatically create reference data and generate appropriate output data using the reference data. Can be created automatically.
なお、本明細書においては、「妥当」とは、学習用途に適切であることを意味する。そして、「非妥当」とは、学習用途に不適切であることを意味する。また、「正答」とは、客観的に正しい文章を構成することができる正しい答えであることを意味する。そして、「誤答」とは、客観的に誤りを有する文章を構成する誤りの答えを意味する。
そして、「妥当」か「非妥当」かの区別と、「正答」か「誤答」かの区別は、別途独立の概念である。
In this specification, “appropriate” means that it is appropriate for a learning application. And “invalid” means inappropriate for learning use. The “correct answer” means a correct answer that can objectively compose a correct sentence. The “wrong answer” means an erroneous answer that constitutes an objectively erroneous sentence.
The distinction between “valid” and “invalid” and the distinction between “correct answer” and “wrong answer” are separately independent concepts.
(2)前記基準データ生成部は、サポートベクターマシンであり、前記基準データは、サポートベクターによって規定される識別面であることを特徴とする(1)に記載の問題自動作成装置。 (2) The automatic problem creation apparatus according to (1), wherein the reference data generation unit is a support vector machine, and the reference data is an identification plane defined by a support vector.
(2)に記載の構成によれば、(1)の効果に加えて、サポートベクターマシン(SVM:Support Vector Machine)という信頼性のある手段によって、複雑な文法の穴埋め問題等を手間なく自動で作成することができる。ここで、サポートベクターマシン(SVM)とは、1995年にAT&TのV.Vapnikによって統計的学習理論の枠組で提案された学習機械のことであり、高次元特徴空間において線形関数の仮説空間を用いる学習システムである。 According to the configuration described in (2), in addition to the effect of (1), a complicated means such as filling a complicated grammar can be automatically and easily performed by a reliable means such as a support vector machine (SVM). Can be created. Here, the support vector machine (SVM) is an AT & T V. It is a learning machine proposed by Vapnik in the framework of statistical learning theory, and is a learning system that uses a hypothesis space of a linear function in a high-dimensional feature space.
(3)前記出力データ生成部は、前記識別面に最も近い前記候補データを前記出力データとすることを特徴とする(2)に記載の問題自動作成装置。 (3) The automatic problem creation device according to (2), wherein the output data generation unit sets the candidate data closest to the identification plane as the output data.
(3)に記載の構成によれば、識別面から大きく乖離して妥当データであることが明確な候補データではなくて、識別面から最も近く、非妥当データと最も近い妥当データを出力するから、(1)及び(2)の効果に加えて、正答か否かの判断が困難な良問を作成することができる。 According to the configuration described in (3), the valid data closest to the identification surface and closest to the invalid data is output, not the candidate data that is clearly deviated from the identification surface and is valid data. In addition to the effects (1) and (2), it is possible to create a good question for which it is difficult to determine whether the answer is correct.
(4)前記妥当データは、国語又は外国語のテストにおいて出題された問題文と解答の組であることを特徴とする(1)乃至(3)のいずれかに記載の問題自動作成装置。 (4) The automatic question creation apparatus according to any one of (1) to (3), wherein the valid data is a set of a question sentence and an answer given in a test of a national language or a foreign language.
(4)に記載の構成によれば、出題された国語又は外国語のテストに基づいているので、(1)乃至(3)の効果に加えて、国語又は外国語の問題において、適切な穴埋め問題等を作成することができる。 According to the configuration described in (4), since it is based on the test of the given language or foreign language, in addition to the effects of (1) to (3), appropriate filling in in the problem of national language or foreign language. Can create problems etc.
(5)前記特徴解析部は、さらに、前記妥当データに含まれる正答以外の誤答選択肢を空白部分に当てはめて生成した第1誤答データと、前記妥当データに含まれないが前記誤答選択肢と所定の関連性を有する単語を空白部分に当てはめて生成した第2誤答データとを、前記素性リスト及び誤答用の追加素性リストによって特徴づける誤答データ特徴解析部と、前記第1誤答データの集合である第1誤答データ群と前記第2誤答データの集合である第2誤答データ群とを統計処理することによって、前記第1誤答データ群と前記第2誤答データ群とを区別するための選択肢用基準データを生成する選択肢用基準データ生成部と、を有し、前記分類部は、さらに、前記出力データの空白部分に該当する語と所定の関係を有する語を空白部分にあてはめて生成した候補誤答データを、前記素性リスト及び前記追加素性リストによって特徴づける候補誤答データ特徴解析部と、前記選択肢用基準データによって、前記第1誤答データ群に属すると判断した前記候補誤答データの空白部分に該当する単語を出力する選択肢生成部と、有することを特徴とする(1)乃至(4)のいずれかに記載の問題自動作成装置。 (5) The feature analysis unit further includes first incorrect answer data generated by applying an incorrect answer option other than the correct answer included in the valid data to a blank portion, and the incorrect answer option that is not included in the valid data. And the second erroneous answer data generated by applying a word having a predetermined relationship to a blank part by the feature list and the additional feature list for erroneous answers, and the first erroneous data By statistically processing a first erroneous answer data group that is a set of answer data and a second erroneous answer data group that is a set of the second incorrect answer data, the first incorrect answer data group and the second incorrect answer data are processed. An option reference data generation unit that generates option reference data for distinguishing the data group, and the classification unit further has a predetermined relationship with a word corresponding to a blank portion of the output data Words in blanks The candidate error data generated by fitting the candidate error data feature analysis unit characterized by the feature list and the additional feature list and the option reference data are determined to belong to the first error data group. The automatic problem creation device according to any one of (1) to (4), further comprising: an option generation unit that outputs a word corresponding to a blank portion of the candidate incorrect answer data.
(5)に記載の構成によれば、誤答データ特徴解析部によって、第1誤答データと第2誤答データとを、前記素性リスト及び誤答用の追加素性リストによって特徴づけ、選択肢用基準データ生成部によって、選択肢用基準データを生成する。そして、候補誤答データ特徴解析部によって、候補誤答データを、素性リスト及び追加素性リストによって特徴づけて、選択肢生成部によって前記第1誤答データ群に属すると判断した前記候補誤答データの空白部分に該当する単語を出力する。 According to the configuration described in (5), the erroneous answer data feature analysis unit characterizes the first incorrect answer data and the second incorrect answer data with the feature list and the additional feature list for erroneous answers, and for the option. The reference data generation unit generates option reference data. Then, the candidate error data is characterized by the candidate error data feature analysis unit by the feature list and the additional feature list, and the candidate error data determined by the option generation unit as belonging to the first error data group Output the word corresponding to the blank part.
このように、問題自動作成装置は、自動的に選択肢用基準データを生成し、前記第1誤答データ群に属すると判断した前記候補誤答データの空白部分に該当する単語を自動的に出力するから、(1)乃至(4)の効果に加えて、選択肢を含む複雑な文法の穴埋め問題等を手間なく自動で作成することができる。 As described above, the automatic question creation apparatus automatically generates the reference data for options, and automatically outputs a word corresponding to the blank portion of the candidate wrong answer data determined to belong to the first wrong answer data group. Therefore, in addition to the effects (1) to (4), a complicated grammar filling problem including options can be automatically created without trouble.
(6)前記選択肢用基準データ生成部は、サポートベクターマシンであり、
前記選択肢用基準データは、サポートベクターによって規定される識別面であることを特徴とする(5)に記載の問題自動作成装置。
(6) The option reference data generation unit is a support vector machine,
The automatic problem creation device according to (5), wherein the option reference data is an identification surface defined by a support vector.
(6)に記載の構成によれば、(5)の効果に加えて、サポートベクターマシンという信頼性のある手段によって、選択肢を、手間なく自動で作成することができる。 According to the configuration described in (6), in addition to the effect of (5), options can be automatically created without trouble by a reliable means such as a support vector machine.
(7)前記選択肢生成部は、前記識別面に最も近い前記候補誤答データの空白部分に該当する単語を出力する構成となっていることを特徴とする(6)に記載の問題自動作成装置。 (7) The automatic problem creation device according to (6), wherein the option generation unit is configured to output a word corresponding to a blank portion of the candidate incorrect answer data closest to the identification plane. .
(7)に記載の構成によれば、識別面から大きく乖離して第1誤答データ群に属することが明確な候補データではなくて、識別面から最も近く、第2誤答データ群と最も近い第1誤答データの空白部分に該当する単語を出力するから、(6)の効果に加えて、正答か否かの判断が困難な良問を作成することができる。 According to the configuration described in (7), the candidate data is not the candidate data that deviates greatly from the identification plane and belongs to the first erroneous answer data group, but is closest to the identification plane and is the most similar to the second erroneous answer data group. Since a word corresponding to the blank portion of the first first incorrect answer data is output, in addition to the effect of (6), it is possible to create a good question in which it is difficult to determine whether or not the answer is correct.
(8)穴埋め問題の自動作成方法であって、空白部分を有する穴埋め問題を妥当データとして多数受け付ける妥当データ受付ステップと、空白部分の各前記妥当データにおける文頭からの位置を変えることによって非妥当データを生成する非妥当データ生成ステップと、データを特徴づけるための複数種類の素性の素性リストによって、前記妥当データ及び前記非妥当データを特徴づける特徴解析ステップと、前記妥当データの集合である妥当データ群と前記非妥当データの集合である非妥当データ群とを統計処理することによって、前記妥当データ群と前記非妥当データ群とを区別するための基準データを生成する基準データ生成ステップと、テストデータの入力を受け付けるテストデータ受付ステップと、
前記テストデータを形態素解析し、各形態素を空白部分として規定した候補データを前記素性リストによって特徴づける候補データ特徴解析ステップと、前記基準データによって、前記妥当データ群に属すると判断した前記候補データを出力するための出力データとする出力データ生成ステップと、を有することを特徴とする問題自動作成方法。
(8) A method for automatically creating a hole-filling problem, in which a valid data receiving step for receiving a large number of hole-filling problems having blank portions as valid data, and by changing the position of each blank portion from the beginning of each valid data, the invalid data A non-valid data generation step for generating data, a feature analysis step for characterizing the valid data and the non-valid data by a feature list of a plurality of types of features for characterizing the data, and valid data that is a set of the valid data A reference data generation step for generating reference data for distinguishing between the valid data group and the invalid data group by statistically processing the group and the invalid data group that is a set of the invalid data; and a test A test data reception step for receiving data input;
A candidate data feature analyzing step of characterizing candidate data defining each morpheme as a blank part by the feature list by performing morphological analysis on the test data, and the candidate data determined to belong to the valid data group by the reference data And an output data generation step for generating output data for output.
(8)の発明によれば、(1)の発明と同様に、自動的に基準データを作成し、その基準データを使用して適切な出力データを生成することができるから、複雑な文法の穴埋め問題等を手間なく自動で作成することができる。 According to the invention of (8), as in the invention of (1), it is possible to automatically create reference data and generate appropriate output data using the reference data. It is possible to automatically create a hole filling problem without trouble.
(9)コンピュータを、穴埋め問題の自動作成装置として機能させるためのコンピュータプログラムであって、空白相当部分を有する穴埋め問題を妥当データとして多数受け付ける妥当データ受付ステップと、空白相当部分の各前記妥当データにおける文頭からの位置を変えることによって非妥当データを生成する非妥当データ生成ステップと、データを特徴づけるための複数種類の素性の素性リストによって、前記妥当データ及び前記非妥当データを特徴づける特徴解析ステップと、前記妥当データの集合である妥当データ群と前記非妥当データの集合である非妥当データ群とを統計処理することによって、前記妥当データ群と前記非妥当データ群とを区別するための基準データを生成する基準データ生成ステップと、テストデータの入力を受け付けるテストデータ受付ステップと、前記テストデータを形態素解析し、各形態素を空白相当部分として規定した候補データを前記素性リストによって特徴づける候補データ特徴解析ステップと、前記基準データによって、前記妥当データ群に属すると判断した前記候補データを出力するための出力データとする出力データ生成ステップと、を実行させることを特徴とするコンピュータプログラム。 (9) A computer program for causing a computer to function as a device for automatically creating a hole-filling problem, wherein a valid data receiving step for accepting a large number of hole-filling problems having a blank equivalent part as valid data, and each of the valid data of a blank equivalent part Characteristic analysis for characterizing the valid data and the invalid data by a non-valid data generation step for generating invalid data by changing the position from the beginning of the sentence and a feature list of a plurality of types of features for characterizing the data Statistically processing a valid data group that is a set of valid data and an invalid data group that is a set of invalid data, thereby distinguishing the valid data group from the invalid data group Step of generating reference data to generate reference data and input of test data A test data receiving step for receiving, a morphological analysis of the test data, a candidate data feature analyzing step for characterizing candidate data defining each morpheme as a blank equivalent part by the feature list, and the reference data to the valid data group An output data generation step for generating output data for outputting the candidate data determined to belong is executed.
本発明によれば、複雑な文法の穴埋め問題等を手間なく自動で作成することができる
問題自動作成装置、問題自動作成方法、及びコンピュータプログラムを提供することができる。
According to the present invention, it is possible to provide an automatic problem creation apparatus, an automatic problem creation method, and a computer program that can automatically create a complicated grammar filling problem without trouble.
(第1の実施形態)
図1は、本発明の第1の実施形態に係る問題自動作成装置10(以下、「装置10」と呼ぶ)の概略構成を示すブロック図である。装置10は、各種情報の入力を受け付ける入力部12、辞書データベース(DB)14、学習結果データベース(DB)16、出力部18及び制御部20を有する。辞書DB14は、例えば、英語の辞書であり、制御部20が、ある単語と所定の関連性を有する単語を判定することができるように構成されている。ここで、「ある単語と所定の関連性を有する単語」とは、例えば、英語の「on」に対して、「at」や「in」である。これらは、場所を示す前置詞という共通の性質を有し、「所定の関連性を有する単語」である。装置10は、例えば通常のPCやサーバ等のコンピュータであるが、携帯電話等の携帯情報端末であってもよい。なお、本実施形態の英語の辞書は英和辞書であるが、本実施形態とは異なり、英英辞書等であってもよい。
(First embodiment)
FIG. 1 is a block diagram showing a schematic configuration of an automatic problem creation apparatus 10 (hereinafter referred to as “
制御部20は、例えば、装置10を制御する中央演算装置である、CPU(Central Processing Unit)である。
The
制御部20は、機械学習部30と分類部50を含む。機械学習部30は、入力部12によって入力されたデータを自動的に学習し、統計的処理を実施し、妥当なデータ(以下、「妥当データ」と呼ぶ)と妥当ではないデータ(以下、「非妥当データ」と呼ぶ)との区別の基準を示す基準データを生成するための構成である。入力部12と機械学習部30は、学習手段として機能する。機械学習部30は、ソフトウェアであるサポートベクターマシン(SVM:Support Vector Machine)を含む。上述のように、サポートベクターマシンとは、高次元特徴空間において線形関数の仮説空間を用いる学習システムである。その学習結果は、識別面は、妥当データの集合と非妥当データの集合とを識別するための識別面及びサポートベクターを含み、学習結果DB16に格納される。分類部50は、入力された英文(テストデータ)と、学習結果DB16の学習結果とを使用して、新たな穴埋め問題を作成するための構成である。
The
図2は、機械学習部30の詳細を示すブロック図である。図2に示すように、機械学習部30は、非妥当データ生成部32、特徴解析部34及び基準データ生成部36を有する。非妥当データ生成部32は、トレーニングデータに基づいて非妥当データを生成するための構成である。特徴解析部34は妥当データ及び非妥当データの特徴を解析するための構成である。基準データ生成部36は妥当データと非妥当データを識別するための基準としての識別面及びサポートベクターを算出するための構成である。なお、各部の機能の詳細については後述する。
FIG. 2 is a block diagram showing details of the
図3は、分類部50の詳細を示すブロック図である。図3に示すように、分類部50は、候補データ特徴解析部52及び出力データ生成部54を有する。候補データ特徴解析部52は、テストデータから候補データを作成し、その候補データの特徴を解析するための構成である。出力データ生成部54は、候補データの中から出力するためのデータを選択(生成)するための構成である。各部の機能の詳細については後述する。
FIG. 3 is a block diagram showing details of the
図4は、機械学習部30が使用する素性(そせい)リストの一例を示す図である。素性とは、入力されたデータを特徴づけるものである。素性値は、素性に与えられるスコアである。素性値は、「0」か「1」のみの2値をとるものや、「0か「−1」のみの2値をとるものや、任意の数値をとるものがある。
FIG. 4 is a diagram illustrating an example of a feature list used by the
素性リストは、複数種類の素性から構成され、例えば、図4に示すように、素性A〜Fの6種類の素性から構成されている。素性Aは、穴埋め問題の空白部分にあたる単語であり、単語が存在すれば素性値1に規定され、存在しなければ0に規定される。なお、「空白部分」とは、穴埋め問題において、埋めるべき穴の部分を示す。言い換えると、「空白部分」は、穴埋め問題の穴(空所)に入るべき単語(以下、「問題単語」と呼ぶ)が、複数の単語で構成される文章において入るべき位置を意味する。
The feature list is composed of a plurality of types of features. For example, as shown in FIG. 4, the feature list is composed of six types of features A to F. The feature A is a word corresponding to the blank part of the hole-filling problem, and is defined as a
素性Bは、空所に当たる単語の品詞であり、品詞が決定できれば素性値が1に規定され、品詞が決定できなければ素性値が0に規定される。素性Cは、空所に当たる単語の原型であり、原型が決定できれば素性値が1に規定され、原型が決定できなければ素性値が0に規定される。素性Dは、空所に当たる単語と原型の一致であり、一致すれば素性値が1に規定され、一致しなければ素性値が0に規定される。素性Eは、文の長さであり、素性値は文を構成する単語数によって規定される。素性Fは、文中の空所位置であり、素性値は先頭からの単語数によって規定される。 The feature B is the part of speech of the word corresponding to the empty space. If the part of speech can be determined, the feature value is defined as 1, and if the part of speech cannot be determined, the feature value is defined as 0. The feature C is a prototype of a word corresponding to a void. If the prototype can be determined, the feature value is defined as 1. If the prototype cannot be determined, the feature value is defined as 0. The feature D is a match between the word corresponding to the empty space and the prototype, and if they match, the feature value is defined as 1, and if not, the feature value is defined as 0. The feature E is the length of the sentence, and the feature value is defined by the number of words constituting the sentence. The feature F is a blank position in the sentence, and the feature value is defined by the number of words from the beginning.
図5は、トレーニングデータの一例を示す図である。トレーニングデータとは、装置10が学習するための材料となるデータである。本実施の形態においては、トレーニングデータは、空白部分を有する穴埋め問題の問題文と正答である。
FIG. 5 is a diagram illustrating an example of training data. Training data is data used as a material for the
図5に示すように、トレーニングデータは、例えば、「Thank you very much (for) taking care of my children.」という英文である。この英文においては、カッコ内の単語である「for」が、空白部分の単語(問題単語)であり、正答である。実際に出題されるテストにおいては、空白部分は空所とされる。なお、上述の英文は、実際の英語のテストにおいて出題された問題文とその正答である。このトレーニングデータは実際の英語のテストにおいて出題されたものであるから、学習用途として妥当である。このため、本実施形態において、トレーニングデータに示される問題文と正答は妥当データとしている。なお、本実施の形態とは異なり、トレーニングデータは、日本語(国語)のテストにおいて出題された問題文とその正答であってもよいし、英語以外の外国語(フランス語等)のテストにおいて出題された問題文とその正答であってもよい。 As illustrated in FIG. 5, the training data is, for example, an English sentence “Thank you very much (for) taking care of my child.”. In this English sentence, the word “for” in parentheses is a blank word (question word) and is a correct answer. In the actual test, blanks are left blank. Note that the above-mentioned English sentences are the question sentences given in the actual English test and their correct answers. Since this training data is given in an actual English test, it is appropriate for learning purposes. For this reason, in this embodiment, the question sentence and the correct answer shown in the training data are set as valid data. Unlike the present embodiment, the training data may be a question sentence and its correct answer given in a Japanese (Japanese language) test, or in a test in a foreign language other than English (French etc.). It may be a question sentence and its correct answer.
入力部12(図1参照)は、上述のトレーニングデータを多数受け付けるようになっている。また、入力部12は、トレーニングデータがもともと多肢選択問題である場合には、正答以外の選択肢の入力も受けるようになっている。正答以外の選択肢も、問題としては妥当であるから、妥当データである。このように、入力部12は、妥当データ受付部として機能する。
The input unit 12 (see FIG. 1) is adapted to accept a large number of the training data described above. Further, the
機械学習部30(図1参照)は、空白部分の各トレーニングデータにおける文頭からの位置を変えることによって、非妥当データを生成する。非妥当データは、学習用途として妥当ではないデータである。非妥当データに基づいて使用して作成した穴埋め問題は、英語を勉強する学生等の学習効果を十分に達成することができず、学習用途として不適切な問題になる。この非妥当データは、各トレーニングデータに基づいて生成される。 The machine learning unit 30 (see FIG. 1) generates invalid data by changing the position of the blank portion from the beginning of each sentence in the training data. Non-valid data is data that is not valid for learning purposes. The hole filling problem created based on the invalid data cannot sufficiently achieve the learning effect of students studying English, and becomes an inappropriate problem for learning use. This invalid data is generated based on each training data.
図6は、非妥当データの一例を示す図である。機械学習部30の非妥当データ生成部32は、図6に示すように、各トレーニングデータの空白部分の文頭からの位置を変えて、非妥当データを生成する。図6において、かっこ内の部分が空白部分である。
FIG. 6 is a diagram illustrating an example of invalid data. As illustrated in FIG. 6, the invalid
図7は、妥当データ及び非妥当データ(以下、「妥当データ等」と呼ぶ)に基づいて生成される事例の一例を示す図である。事例は、妥当データ等の特徴を示すデータである。妥当データは妥当であることが既知であり、そのラベルは「1」である。非妥当データは妥当でないことが既知であり、そのラベルは「−1」である。 FIG. 7 is a diagram illustrating an example of a case generated based on valid data and invalid data (hereinafter referred to as “valid data”). Examples are data indicating features such as valid data. Valid data is known to be valid and its label is “1”. It is known that invalid data is not valid and its label is “−1”.
特徴解析部34(図2参照)は、妥当データ等を形態素解析し、空白部分に当てはまる単語の素性及び妥当データ等全体の素性を判定し、さらにラベルの値を付加する(以下、「ラベル付け」と呼ぶ)。例えば、空白部分の単語が「for」である妥当データについては、図4の素性リストにおいて、素性Aが「for」でありその素性値が「1」、素性Bが「前置詞」でありその素性値が「1」、素性Cが「for」でありその素性値が「1」、素性Dが「一致」でありその素性値が「1」である。そして、素性Eは「文の長さ」でありその素性値は「10」であり素性Fは「文中の空所の位置」であり素性値は「5」である。これらの素性A〜F及び対応する素性値が妥当データの事例である。そして、妥当データであるから、ラベルは「1」である。 The feature analysis unit 34 (see FIG. 2) performs morphological analysis on valid data, etc., determines the features of the words that apply to the blank portion and the entire features such as valid data, and adds a label value (hereinafter referred to as “labeling”). "). For example, for valid data in which the word of the blank part is “for”, in the feature list of FIG. 4, the feature A is “for”, the feature value is “1”, and the feature B is “preposition”. The value is “1”, the feature C is “for”, the feature value is “1”, the feature D is “match”, and the feature value is “1”. The feature E is “sentence length”, the feature value is “10”, the feature F is “a position of a space in the sentence”, and the feature value is “5”. These features A to F and corresponding feature values are examples of valid data. Since it is valid data, the label is “1”.
これに対して、例えば、空白部分の単語が「taking」である非妥当データについては、素性Aが「taking」でありその素性値が「1」、素性Bが「動詞」でありその素性値が「1」、素性Cが「take」でありその素性値が「1」、素性Dが「不一致」でありその素性値が「0」である。そして、素性Eは「文の長さ」であり素性値は「10」であり、素性Fは「文中の空所の位置」でありその素性値は「6」である。そして、非妥当データであるから、ラベルは「−1」である。 On the other hand, for example, for invalid data whose blank word is “taking”, the feature A is “taking”, the feature value is “1”, the feature B is “verb”, and the feature value is Is “1”, the feature C is “take”, the feature value is “1”, the feature D is “mismatch”, and the feature value is “0”. The feature E is “sentence length” and the feature value is “10”, the feature F is “position of a space in the sentence” and the feature value is “6”. Since the data is invalid, the label is “−1”.
同様にして、すべての非妥当データについて、素性の判定及びラベル付けが実施される。そして、妥当データ等についてのラベル付きの事例が、学習結果DB16に格納される。
Similarly, feature determination and labeling are performed on all invalid data. Then, a case with a label about valid data or the like is stored in the
図8は、基準データ生成部36(図2参照)による学習結果の一例を示す図である。基準データは、基準データ生成部36によって生成される。基準データ生成部36は、サポートベクターマシンである。基準データ生成部36は、妥当か非妥当かのラベルが未知の事例に対して、ラベルを推定する分類器である。妥当データ等を事例にしたうえで、妥当データから生成された事例(以下、「妥当事例」と呼ぶ)と非妥当データから生成された事例(以下、「非妥当事例」と呼ぶ)との2つの識別面同士の距離(マージン)が最大になるような識別面を算出する。このように、基準データ生成部36は、妥当データ等を事例という形に変換したうえで、学習するようになっている。
FIG. 8 is a diagram illustrating an example of a learning result by the reference data generation unit 36 (see FIG. 2). The reference data is generated by the reference
基準データ生成部36は、識別面にもっとも近接する妥当事例と非妥当事例をサポートベクターとして、ラベルが未知の事例の分類に利用するようになっている。このように、基準データ生成部36は、妥当事例と非妥当事例とを事例にしたうえで統計処理することによって妥当データ(事例)群と非妥当データ(事例)群とを区別するための識別データである識別面を生成するようになっている。
The reference
図8に示すように、基準データ生成部36は、妥当事例が属する集合である妥当事例群(妥当事例群集合)と、非妥当事例が属する集合である非妥当事例群(非妥当事例集合)とを識別するための識別面を生成する。そして、識別面にもっとも近接する妥当事例と非妥当事例をサポートベクターとする。言い換えると、識別面はサポートベクターによって規定されている。
As shown in FIG. 8, the reference
図9は、テストデータの一例等を示す図である。図9(a)に示すように、本実施形態においては、テストデータは「Thank you very much for your help.」という英文である。このテストデータは、入力部12(図1参照)によって受け付けられる。このように、入力部12は、テストデータ受付部としても機能する。
FIG. 9 is a diagram illustrating an example of test data. As shown in FIG. 9A, in the present embodiment, the test data is an English sentence “Thank you very much for your help.” This test data is received by the input unit 12 (see FIG. 1). Thus, the
分類部50の候補データ特徴解析部52(図3参照)は、テストデータを形態素解析し、各形態素を空白部分として規定した候補データを素性リストによって特徴づけるための構成である。
The candidate data feature analysis unit 52 (see FIG. 3) of the
図9(b)は、候補データの一例を示す図である。図9(a)に示すように、候補データ特徴解析部52は、テストデータから、各形態素を空白部分とした複数の候補データを生成する。
FIG. 9B is a diagram illustrating an example of candidate data. As shown in FIG. 9A, the candidate data feature
図9(c)は、各候補データに基づいて生成された事例の一例を示す図である。図9(c)に示すように、各候補データごとに、事例が生成される。以後、候補データに基づいて生成された事例を「候補事例」と呼ぶ。なお、候補事例は妥当であるか否かは未知であるから、そのラベルは未知である。 FIG. 9C is a diagram illustrating an example of a case generated based on each candidate data. As shown in FIG. 9C, a case is generated for each candidate data. Hereinafter, a case generated based on the candidate data is referred to as a “candidate case”. Since it is unknown whether the candidate case is valid, its label is unknown.
図10は、出力データ生成部54(図3参照)が、候補事例をラベル付けする方法の一例を示す図である。図10に示すように、出力データ生成部54は、各候補事例を識別面によって、妥当事例群に属する候補事例(以下、「妥当候補事例」と呼ぶ)と、非妥当事例群に属する候補事例(以下、「非妥当候補事例」と呼ぶ)とに区別する。これは、候補事例を、ラベル付けすることを意味する。妥当候補事例のラベルは「1」であり、非妥当候補事例のラベルは「−1」である。
FIG. 10 is a diagram illustrating an example of a method in which the output data generation unit 54 (see FIG. 3) labels candidate cases. As shown in FIG. 10, the output
出力データ生成部54は、妥当候補事例である候補データを出力するための出力データとするようになっている。詳細には、出力データ生成部54は、識別面に最も近い妥当候補事例を判定し、その妥当候補事例に対応する候補データを出力データとするようになっている。
The output
装置10は、以上のように構成されている。上述のように、装置10は、妥当データを入力部12(図1参照)によって受け付けると、基準データ生成部36(図2参照)によって、自動的に妥当データ群と非妥当データ群とを区別するための識別面とサポートベクターを生成し、候補データ特徴解析部52(図3参照)によって、テストデータに基づいて生成した候補データを特徴付ける。そして、出力データ生成部54(図3参照)によって、妥当データ群に属すると判断した候補データを自動的に出力する。
The
このように、装置10によれば、自動的に基準データを作成し、その基準データを使用して適切な出力データを生成することができるから、複雑な文法の穴埋め問題等を手間なく自動で作成することができる。
As described above, according to the
基準データ生成部36は、サポートベクターマシンという信頼性のある手段によって、複雑な文法の穴埋め問題等を手間なく自動で作成することができる。そして、出力データ生成部54は、識別面に最も近い候補データを出力データとするから、識別面から大きく乖離して妥当データであることが明確な候補データではなくて、識別面から最も近く、非妥当データと最も近い妥当データを出力する。このため、正答か否かの判断が困難な良問を作成することができる。
The reference
さらに、トレーニングデータ(妥当データ)は、実際の英語テストにおいて出題された問題文と解答の組であり、装置10は実際に出題された英語テストに基づいて出力データを生成するから、英語問題において、適切な穴埋め問題等を作成することができる。
Further, the training data (valid data) is a set of question sentences and answers given in an actual English test, and the
以下、装置10の動作例を主に、図11及び図12を使用して説明する。図11及び図12は、装置10の動作例を示す概略フローチャートである。
Hereinafter, an operation example of the
まず、装置10は、穴埋め問題の問題文と解答の組をトレーニングデータとして、多数の入力を受ける(図11のステップS10)。続いて、非妥当データを生成する(ステップS12)。そして、妥当データ(トレーニングデータ)及び非妥当データの素性を判定し、ラベル付きの事例を生成する(ステップS14)。トレーニングデータ(妥当データ)は、妥当であることが予め既知であるから、妥当であることを示すラベル「1」を付し、非妥当データは妥当でないことが予め既知であるから、妥当でないことを示すラベル「−1」が付される。
First, the
続いて、装置10は、ラベル付きの事例を統計処理して、識別面及びサポートベクターを算出する(ステップS16)。以上が、装置10による、学習プロセスである。次に、図12を使用して、装置10による分類プロセスを説明する。
Subsequently, the
まず、装置10は、テストデータとして、英文の入力を受け付ける(図12のステップS30)。続いて、テストデータを形態素解析し、各形態素を空白相当部分として規定した候補データを生成する(ステップS32)。続いて、候補データを素性リストによって特徴付け、候補事例を生成する(ステップS34)。
First, the
続いて、装置10は、学習結果を参照し、各候補事例をラベル付けする(ステップS36)。続いて、装置10は、妥当候補事例のうち、最も識別面と近い候補事例を出力事例として選択する(ステップS38)。続いて、装置10は、出力事例に対応する候補データを出力する(ステップS40)。
Subsequently, the
以上のステップによって、複雑な文法の穴埋め問題を手間なく自動で作成することができる。 Through the above steps, a complicated grammar filling problem can be automatically created without trouble.
(第2の実施形態)
次に、第2の実施形態について、図13、14、15、16及び17を参照しながら説明する。第2の実施形態の装置10A(図13参照)は、第1の実施形態の装置10の機能に加えて、妥当な選択肢を自動的に生成するための機能を有する。装置10Aは、以下に説明するように、トレーニングデータ(図16参照)に選択肢も含まれている場合に、その選択肢を使用して学習することができる。そして、装置10Aは、テストデータを使用して問題を作成するときに妥当な選択肢を生成することができるようになっている。
(Second Embodiment)
Next, a second embodiment will be described with reference to FIGS. 13, 14, 15, 16 and 17. The
図13、図14及び図15は、装置10Aの機能ブロック図である。図16は、トレーニングデータの一例を示す図である。図17は、誤答データ用追加素性リストの一例を示す図である。
13, 14 and 15 are functional block diagrams of the
図13に示すように、装置10Aの制御部20Aは、機械学習部30A及び分類部50Aを有する。図14に示すように、装置10Aの機械学習部30Aは、第1誤答データ生成部40を有する。第1誤答データ生成部40は、トレーニングデータの正答以外の選択肢(以下、「妥当選択肢」と呼ぶ)をあてはめたデータ(以下、「第1誤答データ」と呼ぶ)を生成するための構成である。また、機械学習部30Aは、第2誤答データ生成部42を有する。第2誤答データ生成部42は、トレーニングデータ(妥当データ)に含まれないが妥当選択肢と所定の関連性を有する単語(以下、「非妥当選択肢」と呼ぶ)を辞書DB14から抽出し、トレーニングデータの空白部分に当てはめることによってデータ(以下、「第2誤答データ」と呼ぶ)を生成するようになっている。
As illustrated in FIG. 13, the
上述のように、妥当選択肢は、トレーニングデータに含まれる、正答ではない選択肢である。例えば、図16のトレーニングデータにおいては、「in」が正答の選択肢である。そして、「into」及び「on」が正答ではない選択肢である。これらは、正答ではないが、「in」と紛らわしい意味を有する単語であって、英語を勉強する学生等が学習するためには妥当である。このため、これらの正答ではない選択肢を妥当選択肢と呼んでいる。これに対して、トレーニングデータの空白部分の単語と所定の関連性を有する単語であって、トレーニングデータに含まれていない単語を非妥当選択肢と呼ぶ。例えば、「above」や「having」が非妥当選択肢である。第2誤答データ生成部42は、辞書DB14を参照することによって、「in」と所定の関連性を有する単語である非妥当選択肢を抽出し、トレーニングデータの空白部分に当てはめるようになっている。所定の関連性とは、例えば、意味が類似したり、スペル(つづり)が近似することである。
As described above, the appropriate option is an option that is included in the training data and is not a correct answer. For example, in the training data of FIG. 16, “in” is a correct answer option. “Into” and “on” are options that are not correct answers. These are not correct answers, but are words that have a misleading meaning of “in” and are appropriate for students who study English to learn. For this reason, these non-correct answers are called valid options. On the other hand, a word that has a predetermined relationship with a word in the blank portion of the training data and is not included in the training data is called an invalid option. For example, “above” and “having” are invalid options. The second incorrect answer
図14に示すように、機械学習部30Aは、誤答データ特徴解析部44を有する。誤答データ特徴解析部44は、妥当選択肢をトレーニングデータの空白部分に当てはめた第1誤答データと、非妥当選択肢をトレーニングデータの空白部分に当てはめた第2誤答データとを、素性リスト(図4参照)及び追加素性リスト(図17参照)によって特徴付け、事例を生成するようになっている。ここで、素性リストも使用するのは、空白部分は同じトレーニングデータの中において同じ場所に該当するから、より詳細に素性を分析することによって、各事例の相違を抽出するためである。第1誤答データに基づいて生成された事例は妥当であることが予め既知であるから、誤答データ特徴解析部44は妥当であることを示すラベル「1」を付する。これに対して、非妥当誤答データに基づいて生成された事例は妥当ではないことが予め既知であるから、誤答データ特徴解析部44は妥当ではないことを示すラベル「−1」を付する。
As illustrated in FIG. 14, the
図17に示すように、誤答データ用追加素性リストは、例えば、素性G乃至Jから構成される。素性Gは正答との品詞の一であり、素性Hは「正答との意味の類似性」であり、素性Iは「単語の長さ」であり、素性Jは「意味の数が所定の閾値α以上か否か」であり、各素性G〜Jに対応する素性値を含む。 As shown in FIG. 17, the additional feature list for incorrect answer data is composed of features G to J, for example. The feature G is one of the parts of speech with the correct answer, the feature H is “similarity of meaning with the correct answer”, the feature I is “word length”, and the feature J is “the number of meanings is a predetermined threshold value” whether or not α or more ”, and includes feature values corresponding to the features G to J.
図14に示すように、機械学習部30Aは、選択肢用基準データ生成部46を有する。選択肢用基準データ生成部46は、第1誤答データから生成された事例の集合である第1誤答事例群と、第2誤答データから生成された事例の集合である第2誤答事例群とを統計処理することによって、第1誤答事例群と第2誤答事例群とを区別するための基準データ(以下、「選択肢用基準データ」と呼ぶ)を生成するための構成である。選択肢用基準データ生成部46は、サポートベクターマシンであって、選択肢用基準データは識別面及び、この識別面を規定するサポートベクターである。
As illustrated in FIG. 14, the
図15に示すように、分類部50Aは、候補誤答データ特徴解析部60を有する。候補誤答データ特徴解析部60は、テストデータの空白部分の単語と所定の関連性を有する単語をテストデータに当てはめて生成した複数の候補誤答データを、素性リスト(図4参照)及び追加素性リスト(図17参照)によって特徴づけることによって、候補誤答事例を生成するようになっている。ここで、テストデータの空白部分の単語と所定の関連性を有するとは、例えば、意味が類似することである。そして、候補誤答データ特徴解析部60は、識別面によって、候補誤答事例をラベル付けする。
As illustrated in FIG. 15, the
図15に示すように、分類部50Aは、選択肢生成部62を有する。選択肢生成部62は、各候補誤答事例を識別面によって、第1誤答事例群に属する候補誤答事例と、第2誤答事例群に属する候補誤答事例とに区別する。これは、候補誤答事例を、ラベル付けすることを意味する。第1誤答事例群に属する候補誤答事例のラベルは「1」であり、第2誤答事例群に属する候補誤答事例のラベルは「−1」である。
As illustrated in FIG. 15, the
選択肢生成部62は、識別面に近い順に候補誤答事例を所定数選択し、その誤答候補事例に対応するデータの空白部分を誤答の選択肢として出力するようになっている。
The
上述のように、装置10Aは、識別面から大きく乖離して第1誤答データ群に属することが明確な候補データではなくて、識別面から最も近く、第2誤答当データ群と最も近い第1誤答データを出力するから、正答か否かの判断が困難な良問を作成することができる。
As described above, the
[問題自動作成装置10のハードウェア構成]
図18は、装置10及び10A(以下、情報処理装置1000と表記する)のハードウェア構成例を示す図である。情報処理装置1000は、それぞれの制御部を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、ならびにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
[Hardware configuration of automatic problem creation apparatus 10]
FIG. 18 is a diagram illustrating a hardware configuration example of the
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
Storage means such as a
BIOS1060は、情報処理装置1000の起動時にCPU1010が実行するブートプログラムや、情報処理装置1000のハードウェアに依存するプログラム等を格納する。
The
記憶部を構成するハードディスク1074は、情報処理装置1000が機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。
The
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラムまたはデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050またはハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
As the
情報処理装置1000に提供されるプログラムは、ハードディスク1074、光ディスク1077、またはメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、または通信I/F1040を介してダウンロードされることによって、情報処理装置1000にインストールされ実行されてもよい。
The program provided to the
前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶部を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、またはメモリカードの他に、MD等の光磁気記録媒体、テープメディア1071を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074または光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを情報処理装置1000に提供してもよい。
The aforementioned program may be stored in an internal or external storage medium. Here, in addition to the
ここで、表示装置1022は、サーバ管理者にデータの入力を受け付ける画面を表示したり、情報処理装置1000による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
Here, the
ここで、入力手段は、サーバ管理者による入力の受け付けを行うものであり、キーボード及びマウス1100等により構成してよい。
Here, the input means accepts input by the server administrator, and may be constituted by a keyboard, a
また、通信I/F1040は、情報処理装置1000を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
The communication I /
以上の例は、情報処理装置1000について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを情報処理装置1000として動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明した情報処理装置1000により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。上述のキーボード/マウス1100が入力部12(図1及び図13参照)に対応し、CPU1010及びCPU1012が制御部20,20A(図1及び図13参照)に対応する。そして、表示装置1022が出力部18(図1及び図13参照)に対応する。そして、ハードディスク1074が、辞書DB14及び学習結果DB16に対応する。
In the above example, the
本発明の実施形態である装置10、10A(図1及び図13参照)、またはこの装置の制御で用いられる方法は、コンピュータ上のプログラムによっても実現可能である。上記プログラムを格納する記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線または半導体システム(または、装置または機器)あるいは伝搬媒体であることができる。この記憶媒体の例には、半導体またはソリッド・ステート記憶装置、磁気テープ、取り外し可能なコンピュータ可読の媒体の例には、半導体またはソリッド・ステート記憶装置、磁気テープ、取り外し可能なフレキシブルディスク、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、リジッド磁気ディスク及び光ディスクが含まれる。現時点における光ディスクの例には、コンパクト・ディスク・リードオンリー・メモリ(CD−ROM)、コンパクト・ディスク−リード・ライト(CD−R/W)及びDVDが含まれる。
The
以上、本発明の実施形態を説明したが、具体例を例示したに過ぎず、特に本発明を限定しない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載された効果に限定されない。 As mentioned above, although embodiment of this invention was described, it only showed the specific example and does not specifically limit this invention. Further, the effects described in the embodiments of the present invention only list the most preferable effects resulting from the present invention, and the effects of the present invention are not limited to the effects described in the embodiments of the present invention.
10,10A 問題自動作成装置
12 入力部
14 辞書DB
16 学習結果DB
18 出力部
20,20A 制御部
30,30A 機械学習部
32 非妥当データ生成部
34 特徴解析部
36 基準データ生成部
40 第1誤答データ生成部
42 第2誤答データ性西部
44 誤答データ特徴解析部
46 選択肢用基準データ生成部
50,50A 分類部
52 候補データ特徴解析部
54 出力データ生成部
60 候補誤答データ特徴解析部
62 選択肢生成部
10, 10A automatic
16 Learning result DB
18
44 erroneous answer data feature
Claims (9)
前記機械学習部は、
空白部分を有する穴埋め問題を学習用途に適する妥当データとして多数受け付ける妥当データ受付部と、
各前記妥当データにおいて、文頭からの空白部分の位置を変えることによって学習用途に不適切な非妥当データを生成する非妥当データ生成部と、
データを特徴づけるための複数種類の素性の素性リストによって、前記妥当データ及び前記非妥当データを特徴づける特徴解析部と、
前記妥当データの集合である妥当データ群と前記非妥当データの集合である非妥当データ群とを統計処理することによって、前記妥当データ群と前記非妥当データ群とを区別するための基準データを生成する基準データ生成部と、
を有し、
前記分類部は、
テストデータの入力を受け付けるテストデータ受付部と、
前記テストデータを形態素解析し、各形態素を空白部分として規定した候補データを前記素性リストによって特徴づける候補データ特徴解析部と、
前記基準データによって、前記妥当データ群に分類した前記候補データを出力するための出力データとする出力データ生成部と、
を有することを特徴とする問題自動作成装置。 An automatic problem creation apparatus having a machine learning unit and a classification unit,
The machine learning unit
A valid data receiving unit that accepts a large number of blank filling problems with blank parts as valid data suitable for learning use;
In each of the valid data, an invalid data generator that generates invalid data inappropriate for learning use by changing the position of the blank part from the beginning of the sentence;
A feature analysis unit characterizing the valid data and the invalid data by a feature list of a plurality of types of features for characterizing the data;
Reference data for distinguishing between the valid data group and the invalid data group by statistically processing the valid data group that is the set of valid data and the invalid data group that is the set of invalid data A reference data generation unit to generate,
Have
The classification unit includes:
A test data reception unit for receiving input of test data;
A candidate data feature analysis unit that performs morphological analysis on the test data and characterizes candidate data that defines each morpheme as a blank portion by the feature list
An output data generation unit that serves as output data for outputting the candidate data classified into the valid data group according to the reference data;
An automatic problem creation apparatus characterized by comprising:
前記基準データは、サポートベクターによって規定される識別面であることを特徴とする請求項1に記載の問題自動作成装置。 The reference data generation unit is a support vector machine,
The automatic problem creation device according to claim 1, wherein the reference data is an identification surface defined by a support vector.
前記妥当データに含まれる正答以外の誤答選択肢を空白部分に当てはめて生成した第1誤答データと、前記妥当データに含まれないが前記誤答選択肢と所定の関連性を有する単語を空白部分に当てはめて生成した第2誤答データとを、前記素性リスト及び誤答用の追加素性リストによって特徴づける誤答データ特徴解析部と、
前記第1誤答データの集合である第1誤答データ群と前記第2誤答データの集合である第2誤答データ群とを統計処理することによって、前記第1誤答データ群と前記第2誤答データ群とを区別するための選択肢用基準データを生成する選択肢用基準データ生成部と、
を有し、
前記分類部は、さらに、
前記出力データの空白部分に該当する語と所定の関係を有する語を空白部分にあてはめて生成した候補誤答データを、前記素性リスト及び前記追加素性リストによって特徴づける候補誤答データ特徴解析部と、
前記選択肢用基準データによって、前記第1誤答データ群に属すると判断した前記候補誤答データの空白部分に該当する単語を出力する選択肢生成部と、
を有することを特徴とする請求項1乃至請求項4のいずれかに記載の問題自動作成装置。 The feature analysis unit further includes:
First error data generated by applying wrong answer options other than correct answers included in the valid data to blank parts, and blank parts that are not included in the valid data but have a predetermined relationship with the wrong answer options An erroneous answer data feature analysis unit that characterizes the second erroneous answer data generated by applying to the feature list and the additional feature list for erroneous answers;
By statistically processing a first erroneous answer data group that is a set of the first incorrect answer data and a second incorrect answer data group that is a set of the second incorrect answer data, the first incorrect answer data group and the An option reference data generation unit for generating option reference data for distinguishing the second erroneous answer data group;
Have
The classification unit further includes:
Candidate error data characteristic analysis unit characterized by the feature list and the additional feature list, the candidate answer data generated by applying a word having a predetermined relationship with the word corresponding to the blank portion of the output data to the blank portion; ,
An option generation unit that outputs a word corresponding to a blank portion of the candidate incorrect answer data determined to belong to the first incorrect answer data group based on the option reference data;
5. The automatic problem creating apparatus according to claim 1, further comprising:
前記選択肢用基準データは、サポートベクターによって規定される識別面であることを特徴とする請求項5に記載の問題自動作成装置。 The option reference data generation unit is a support vector machine,
6. The automatic problem creation apparatus according to claim 5, wherein the option reference data is an identification surface defined by a support vector.
空白部分を有する穴埋め問題を妥当データとして多数受け付ける妥当データ受付ステップと、
空白部分の各前記妥当データにおける文頭からの位置を変えることによって非妥当データを生成する非妥当データ生成ステップと、
データを特徴づけるための複数種類の素性の素性リストによって、前記妥当データ及び前記非妥当データを特徴づける特徴解析ステップと、
前記妥当データの集合である妥当データ群と前記非妥当データの集合である非妥当データ群とを統計処理することによって、前記妥当データ群と前記非妥当データ群とを区別するための基準データを生成する基準データ生成ステップと、
テストデータの入力を受け付けるテストデータ受付ステップと、
前記テストデータを形態素解析し、各形態素を空白部分として規定した候補データを前記素性リストによって特徴づける候補データ特徴解析ステップと、
前記基準データによって、前記妥当データ群に属すると判断した前記候補データを出力するための出力データとする出力データ生成ステップと、
を有することを特徴とする問題自動作成方法。 A method for automatically creating a hole filling problem,
A valid data acceptance step for accepting a large number of hole filling problems having blank portions as valid data;
A non-valid data generation step of generating invalid data by changing the position of the blank part from the beginning of each valid data;
A feature analysis step for characterizing the valid data and the invalid data by a feature list of a plurality of types of features for characterizing the data;
Reference data for distinguishing between the valid data group and the invalid data group by statistically processing the valid data group that is the set of valid data and the invalid data group that is the set of invalid data A reference data generation step to generate;
A test data reception step for receiving input of test data;
A morphological analysis of the test data, a candidate data feature analysis step characterized by the feature list candidate data defining each morpheme as a blank part;
An output data generation step as output data for outputting the candidate data determined to belong to the valid data group according to the reference data;
A method for automatically creating a problem, characterized by comprising:
空白相当部分を有する穴埋め問題を妥当データとして多数受け付ける妥当データ受付ステップと、
空白相当部分の各前記妥当データにおける文頭からの位置を変えることによって非妥当データを生成する非妥当データ生成ステップと、
データを特徴づけるための複数種類の素性の素性リストによって、前記妥当データ及び前記非妥当データを特徴づける特徴解析ステップと、
前記妥当データの集合である妥当データ群と前記非妥当データの集合である非妥当データ群とを統計処理することによって、前記妥当データ群と前記非妥当データ群とを区別するための基準データを生成する基準データ生成ステップと、
テストデータの入力を受け付けるテストデータ受付ステップと、
前記テストデータを形態素解析し、各形態素を空白相当部分として規定した候補データを前記素性リストによって特徴づける候補データ特徴解析ステップと、
前記基準データによって、前記妥当データ群に属すると判断した前記候補データを出力するための出力データとする出力データ生成ステップと、
を実行させることを特徴とするコンピュータプログラム。 A computer program for causing a computer to function as an automatic creation device for a hole filling problem,
A valid data receiving step for accepting a large number of hole filling problems having a blank equivalent part as valid data;
A non-valid data generation step of generating non-valid data by changing a position from the beginning of each valid data of the blank equivalent part;
A feature analysis step for characterizing the valid data and the invalid data by a feature list of a plurality of types of features for characterizing the data;
Reference data for distinguishing between the valid data group and the invalid data group by statistically processing the valid data group that is the set of valid data and the invalid data group that is the set of invalid data A reference data generation step to generate;
A test data reception step for receiving input of test data;
A morphological analysis of the test data, a candidate data feature analyzing step characterized by the feature list candidate data defining each morpheme as a blank equivalent part,
An output data generation step as output data for outputting the candidate data determined to belong to the valid data group according to the reference data;
A computer program for executing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006316057A JP5230927B2 (en) | 2006-11-22 | 2006-11-22 | Problem automatic creation apparatus, problem automatic creation method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006316057A JP5230927B2 (en) | 2006-11-22 | 2006-11-22 | Problem automatic creation apparatus, problem automatic creation method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008129449A true JP2008129449A (en) | 2008-06-05 |
JP5230927B2 JP5230927B2 (en) | 2013-07-10 |
Family
ID=39555290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006316057A Expired - Fee Related JP5230927B2 (en) | 2006-11-22 | 2006-11-22 | Problem automatic creation apparatus, problem automatic creation method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5230927B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010151922A (en) * | 2008-12-24 | 2010-07-08 | Fujitsu Ltd | Question creating program, question creating device, question creating method |
JP2011017947A (en) * | 2009-07-10 | 2011-01-27 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus and program for generating filling-the-blank question |
JP6068615B1 (en) * | 2015-09-08 | 2017-01-25 | 株式会社Compass | Learning support system, electronic device, server device, information processing device, and program |
KR20190082453A (en) * | 2018-01-02 | 2019-07-10 | (주)뤼이드 | Method, apparatus and computer program for analyzing new learning contents for machine learning modeling |
US10614725B2 (en) | 2012-09-11 | 2020-04-07 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
WO2022014016A1 (en) * | 2020-07-16 | 2022-01-20 | 日本電気株式会社 | Fill-in-blank test question creation system, method, and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695583A (en) * | 1992-09-09 | 1994-04-08 | Brother Ind Ltd | Learning support device |
JP2005352997A (en) * | 2004-06-14 | 2005-12-22 | Central Res Inst Of Electric Power Ind | Construction method of case database, learning method of distinguishing device, data distinguishing support device, data distinguishing support program |
JP2006126242A (en) * | 2004-10-26 | 2006-05-18 | Advanced Telecommunication Research Institute International | Automatic question creating device, and automatic question creating program |
-
2006
- 2006-11-22 JP JP2006316057A patent/JP5230927B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695583A (en) * | 1992-09-09 | 1994-04-08 | Brother Ind Ltd | Learning support device |
JP2005352997A (en) * | 2004-06-14 | 2005-12-22 | Central Res Inst Of Electric Power Ind | Construction method of case database, learning method of distinguishing device, data distinguishing support device, data distinguishing support program |
JP2006126242A (en) * | 2004-10-26 | 2006-05-18 | Advanced Telecommunication Research Institute International | Automatic question creating device, and automatic question creating program |
Non-Patent Citations (4)
Title |
---|
CSNG200501171004; 隅田英一郎、外2名: '"英語能力測定のための空所補充問題の自動生成手法"' 「電子情報通信学会技術研究報告 信学技報 Vol.104 No.503」 第104巻,第503号, 20041204, p.17-22, 社団法人電子情報通信学会 * |
CSNG200800063187; 星野綾子、外1名: '"機械学習による語学用空所補充問題の自動生成"' 「言語処理学会第12回年次大会発表論文集」 , 20060313, p.1055-1058, 言語処理学会 * |
JPN6012014859; 星野綾子、外1名: '"機械学習による語学用空所補充問題の自動生成"' 「言語処理学会第12回年次大会発表論文集」 , 20060313, p.1055-1058, 言語処理学会 * |
JPN6012014861; 隅田英一郎、外2名: '"英語能力測定のための空所補充問題の自動生成手法"' 「電子情報通信学会技術研究報告 信学技報 Vol.104 No.503」 第104巻,第503号, 20041204, p.17-22, 社団法人電子情報通信学会 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010151922A (en) * | 2008-12-24 | 2010-07-08 | Fujitsu Ltd | Question creating program, question creating device, question creating method |
JP2011017947A (en) * | 2009-07-10 | 2011-01-27 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus and program for generating filling-the-blank question |
US10614725B2 (en) | 2012-09-11 | 2020-04-07 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
US10621880B2 (en) | 2012-09-11 | 2020-04-14 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
JP6068615B1 (en) * | 2015-09-08 | 2017-01-25 | 株式会社Compass | Learning support system, electronic device, server device, information processing device, and program |
KR20190082453A (en) * | 2018-01-02 | 2019-07-10 | (주)뤼이드 | Method, apparatus and computer program for analyzing new learning contents for machine learning modeling |
KR102117908B1 (en) | 2018-01-02 | 2020-06-02 | (주)뤼이드 | Method, apparatus and computer program for analyzing new learning contents for machine learning modeling |
KR20200084816A (en) * | 2018-01-02 | 2020-07-13 | (주)뤼이드 | Method, apparatus and computer program for analyzing new contents for solving cold start |
KR102269606B1 (en) | 2018-01-02 | 2021-06-25 | (주)뤼이드 | Method, apparatus and computer program for analyzing new contents for solving cold start |
WO2022014016A1 (en) * | 2020-07-16 | 2022-01-20 | 日本電気株式会社 | Fill-in-blank test question creation system, method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5230927B2 (en) | 2013-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Siddharthan | A survey of research on text simplification | |
US9904675B2 (en) | Automatic question generation from natural text | |
US8380491B2 (en) | System for rating constructed responses based on concepts and a model answer | |
US10319252B2 (en) | Language capability assessment and training apparatus and techniques | |
Wang et al. | Crowdsourcing the acquisition of natural language corpora: Methods and observations | |
BR122017002789A2 (en) | systems and methods for language learning | |
JP5230927B2 (en) | Problem automatic creation apparatus, problem automatic creation method, and computer program | |
Komeili et al. | Talk2Me: Automated linguistic data collection for personal assessment | |
Overton et al. | Using free computer-assisted language sample analysis to evaluate and set treatment goals for children who speak African American English | |
Chatzoudis et al. | Zero-shot cross-lingual aphasia detection using automatic speech recognition | |
Deilen et al. | Using ChatGPT as a CAT tool in Easy Language translation | |
Chang et al. | Automated Chinese essay scoring based on multilevel linguistic features | |
Menini et al. | Automated Short Answer Grading: A Simple Solution for a Difficult Task. | |
Soni et al. | Automatic question generation: A systematic review | |
Dascalu et al. | Predicting comprehension from students’ summaries | |
Loukina et al. | Expert and crowdsourced annotation of pronunciation errors for automatic scoring systems | |
Li et al. | System design, evaluation and applications of domain term extraction from engineering videos | |
Eludiora et al. | Development of an English to Yorùbá Machine Translator | |
Wolk et al. | Unsupervised tool for quantification of progress in L2 English phraseological | |
Shivade et al. | Addressing limited data for textual entailment across domains | |
Adesiji et al. | Development of an automated descriptive text-based scoring system | |
Tschichold et al. | Intelligent CALL and written language | |
He | Automatic detection of grammatical errors in english verbs based on rnn algorithm: auxiliary objectives for neural error detection models | |
Leite et al. | Do Rules Still Rule? Comprehensive Evaluation of a Rule-Based Question Generation System. | |
Ilgen et al. | CWITR: A Corpus for Automatic Complex Word Identification in Turkish Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090310 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130321 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5230927 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |