JP7396488B2 - 語彙数推定装置、語彙数推定方法、およびプログラム - Google Patents
語彙数推定装置、語彙数推定方法、およびプログラム Download PDFInfo
- Publication number
- JP7396488B2 JP7396488B2 JP2022531256A JP2022531256A JP7396488B2 JP 7396488 B2 JP7396488 B2 JP 7396488B2 JP 2022531256 A JP2022531256 A JP 2022531256A JP 2022531256 A JP2022531256 A JP 2022531256A JP 7396488 B2 JP7396488 B2 JP 7396488B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- vocabulary
- test
- familiarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000012360 testing method Methods 0.000 claims description 322
- 230000008569 process Effects 0.000 description 24
- 238000012986 modification Methods 0.000 description 22
- 230000004048 modification Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 18
- 238000007796 conventional method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000007477 logistic regression Methods 0.000 description 9
- 230000000699 topical effect Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 230000001174 ascending effect Effects 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000002860 competitive effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 241000283973 Oryctolagus cuniculus Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- LQIAZOCLNBBZQK-UHFFFAOYSA-N 1-(1,2-Diphosphanylethyl)pyrrolidin-2-one Chemical compound PCC(P)N1CCCC1=O LQIAZOCLNBBZQK-UHFFFAOYSA-N 0.000 description 2
- 241000543375 Sideroxylon Species 0.000 description 2
- 241000656145 Thyrsites atun Species 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 2
- 239000000443 aerosol Substances 0.000 description 2
- 230000037007 arousal Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003121 nonmonotonic effect Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000000689 upper leg Anatomy 0.000 description 2
- 206010002198 Anaphylactic reaction Diseases 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 241000219112 Cucumis Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241001365914 Taira Species 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000036783 anaphylactic response Effects 0.000 description 1
- 208000003455 anaphylaxis Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000005416 organic matter Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000035922 thirst Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Description
(1)単語親密度DB(データベース)の単語リストからテスト単語を親密度順にほぼ一定間隔で選択する。テスト単語の親密度は、必ずしも一定間隔である必要はなく、ほぼ一定間隔であればよい。すなわち、テスト単語の親密度の数値に粗密があってもよい。なお親密度(単語親密度)とは単語のなじみ深さを数値化したものである。親密度が高い単語ほどなじみのある語であることを示す。
(2)テスト単語を利用者に提示し、その単語を知っているか否かを回答させる。
(3)このようなテスト単語に対する回答に当てはまるロジスティック曲線を生成する。ただし、このロジスティック曲線は、単語親密度DB中において各テスト単語よりも親密度が高い単語の総数を独立変数xとし、利用者が各単語を知っていると回答する確率を従属変数yとするものである。
(4)そのロジスティック曲線において、y=0.5に対応するxの値を求め、推定語彙数とする。なお、推定語彙数とは、利用者の語彙数と推定される値を意味する。
[第1実施形態]
まず、本発明の第1実施形態を説明する。
図1に例示するように、本実施形態の語彙数推定装置1は、記憶部11、問題生成部12、提示部13、回答受付部14、および語彙数推定部15を有する。
記憶部11には予め親密度データベース(DB)が格納されている。単語親密度DBは、M個の単語(複数の単語)と当該単語それぞれに対して予め定められた親密度(単語親密度)との組を格納したデータベースである。これにより、単語親密度DBのM個の単語は親密度に基づく順序(例えば、親密度順)で順位付けされている。Mは単語親密度DBに含まれる単語数を表す2以上の整数である。Mの値に限定はないが、例えば、Mは70000以上が望ましい。日本人の成人の語彙数が約4万から5万程度と言われているため、7万語程度あれば個人差を含めてほとんどの人の語彙をカバーできるからである。ただし、推定される語彙数は、基準となる単語親密度DBに含まれる語数が上限となる。そのため、外れ値となるような語彙数の多い人の語彙推定も行う場合には、Mの値をより大きくすることが望ましい。また、親密度(単語親密度)とは、単語のなじみ深さを数値化したものである(例えば、非特許文献1等参照)。親密度が高い単語ほどなじみのある語である。本実施形態では、親密度を表す数値が大きいほど親密度が高いことを表す。しかしこれは本発明を限定するものではない。記憶部11は、問題生成部12および語彙数推定部15からの読み出し要請を入力として、当該要請に応じた単語と、その単語の親密度を出力する。
入力:利用者またはシステムからの問題生成要請
出力:語彙数推定テストに使用するN個のテスト単語
問題生成部12は、利用者またはシステムからの問題生成要請を受け付けると、記憶部11の単語親密度DBに含まれる順序付けされた複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。ただし、例えば、問題生成部12は、記憶部11の単語親密度DBに含まれる全単語を対象として、親密度順にほぼ一定間隔で単語をN個選択し、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。テスト単語w(1),…,w(N)の親密度は、必ずしも一定間隔である必要はなく、ほぼ一定間隔であればよい。すなわち、一連のテスト単語w(1),…,w(N)の親密度の数値に粗密があってもよい。問題生成部12から出力されるテスト単語w(1),…,w(N)の順序に限定はないが、問題生成部12は、例えば親密度の高い順にテスト単語w(1),…,w(N)を出力する。テスト単語の数Nは、問題生成要請によって指定されてもよいし、予め定められていてもよい。Nの値に限定はないが、例えば50≦N≦100程度が望ましい。十分な推定を行うためにはN≧25であることが望ましい。Nが大きい方が精度の高い推定が可能であるが、利用者(被験者)の負荷が高くなる(ステップS12)。利用者の負荷を減らし、精度を高くするために、例えば50語ずつのテストを複数回(例えば、3回)実施し、それぞれのテストごとに語彙数を推定したり、複数回分の回答をまとめて推定しなおしてもよい。この場合、1度のテスト単語を少なくできるため、利用者の負担が少なく、それぞれのテストごとに結果が見られようにすれば利用者の回答モチベーション維持につながる。また、複数回分の語を合わせて最終的な語彙数推定を実施すれば、推定精度を向上できる。
入力:N個のテスト単語
出力:指示文およびN個のテスト単語
提示部13には、問題生成部12から出力されたN個のテスト単語w(1),…,w(N)が入力される。提示部13は、事前に設定された表示形式に従い、テスト単語w(1),…,w(N)を利用者100(被験者)に提示する。例えば、提示部13は、事前に設定された表示形式に従い、利用者100のテスト単語の知識に関する回答の入力を促す予め定められた指示文、およびN個のテスト単語w(1),…,w(N)を、語彙数推定テスト用のフォーマットで利用者100に提示する。この提示形式に限定はなく、これらの情報がテキストや画像などの視覚情報として提示されてもよいし、音声などの聴覚情報として提示されてもよいし、点字などの触覚情報として提示されてもよい。例えば、提示部13がPC(personal computer)、タブレット、スマートフォンなどの端末装置の表示画面であり、指示文およびテスト単語を電子的に表示してもよい。または、提示部13が印刷装置であり、指示文およびテスト単語を紙などに印刷して出力してもよい。あるいは提示部13が端末装置のスピーカーであり、指示文およびテスト単語を音声出力してもよい。または、提示部13が点字ディスプレイであり、指示文およびテスト単語の点字を提示してもよい。利用者100のテスト単語の知識に関する回答は、テスト単語を「知っている」または「知らない」の何れかを表すもの(各順位のテスト単語を知っている、または、知らないとの回答)であってもよいし、「知っている」および「知らない」を含む3以上の選択肢の何れかを表すものであってもよい。「知っている」および「知らない」以外の選択肢の例は「(知っているかどうか)自信がない」「単語としては知っているが、意味は知らない」などである。ただし、利用者100に「知っている」および「知らない」を含む3以上の選択肢から回答させても、「知っている」または「知らない」の何れかを回答させる場合に比べて語彙数推定精度が向上しない場合もある。例えば、利用者100に「知っている」「知らない」「自信がない」の3個の選択肢から回答を選ばせた場合、「自信がない」が選択されるか否かは利用者100の性格に依存する。このような場合には、選択肢を増やしても語彙数推定精度は向上しない。したがって、通常、利用者100にテスト単語を「知っている」または「知らない」の何れかから回答させる方が好ましい。以下では、利用者100にテスト単語を「知っている」または「知らない」の何れかから回答させる例を説明する。また、例えば、テスト単語は親密度が高い順に提示されるが、提示順はこれに限るものではなく、ランダムな順序でテスト単語が提示されてもよい(ステップS13)。なお、語彙数推定装置1の利用者100の集合を被験者集合と呼ぶことにする。被験者集合は、特定の属性(例えば、世代、性別、職業など)の利用者100の集合であってもよいし、任意の属性の利用者100の集合(構成メンバーの属性を制約しない集合)であってもよい。
入力:利用者のテスト単語の知識に関する回答
出力:利用者のテスト単語の知識に関する回答
指示文およびテスト単語が提示された利用者100は、利用者100のテスト単語の知識に関する回答を回答受付部14に入力する。例えば、回答受付部14は、PC、タブレット、スマートフォンなどの端末装置のタッチパネルであり、利用者100は当該タッチパネルに回答を入力する。回答受付部14が端末装置のマイクロホンであってもよく、この場合、利用者100は当該マイクロホンに回答を音声入力する。回答受付部14は、入力されたテスト単語の知識に関する回答(例えば、テスト単語を知っているとの回答、またはテスト単語を知らないとの回答)を受け付け、電子的なデータとして当該回答を出力する。回答受付部14は、テスト単語ごとに回答を出力してもよいし、1テスト分の回答をまとめて出力してもよいし、複数テスト分の回答をまとめて出力してもよい(ステップS14)。
入力:利用者のテスト単語の知識に関する回答
出力:利用者の推定語彙数
回答受付部14から出力された利用者100のテスト単語の知識に関する回答は、語彙数推定部15に入力される。語彙数推定部15は、各テスト単語w(n)(ただしn=1,…,Nである)について利用者100が「知っている」と回答した場合に、当該テスト単語w(n)を知っている人数をカウントアップする。語彙数推定部15は、当該テスト単語w(n)を知っている人数を記憶部11の単語親密度DBの当該テスト単語に対応付けて格納する。同様な処理を被験者集合に属する複数人の利用者100(被験者)の回答について行っていく。これにより、単語親密度DBの各テスト単語には、当該テスト単語w(n)を知っている人数が対応付けられていく。ここで、各テスト単語w(n)を知っていると回答した人数または割合に基づく、被験者集合に属する被験者の当該テスト単語w(n)に対する「なじみ深さ」を表す数値を被験者内親密度a(n)と呼ぶことにする。テスト単語w(n)の被験者内親密度a(n)は、当該テスト単語w(n)を知っていると回答した人数または割合に基づく値(例えば、関数値)である。例えば、テスト単語w(n)の被験者内親密度a(n)は、当該テスト単語w(n)を知っていると回答した人数そのものであってもよいし、当該テスト単語w(n)を知っていると回答した人数の非単調減少関数値(例えば、単調増加関数値)であってもよいし、回答を行った利用者100の総数に対する当該テスト単語w(n)を知っていると回答した人数の割合であってもよいし、被験者集合の全メンバーに対する当該テスト単語を知っていると回答した人数の割合であってもよいし、これら何れかの割合の非単調減少関数値(例えば、単調増加関数値)であってもよい。なお、各被験者内親密度a(n)の初期値は、例えば、テスト単語w(n)の親密度そのものであってもよいし、その他の固定値であってもよい(ステップS151)。
w(n) x(n)
銀行 722
経済 1564
大部分 2353
渋滞 2669
担当 2968
交通機関 3700
豊富 4507
遺伝子 4950
構成 5405
大衆 6401
愛称 6947
通過 8061
及ぶ 8695
配当 9326
領域 9982
着手 10640
率いる 11295
調節 11927
食い違う 12670
妨げる 13364
焼却 14120
遠征 14811
境界 15621
噴出 16387
取り込む 17127
総称 17888
和らげる 18604
拠点 19264
目分量 20008
成就 20764
こぞって 21532
境目 22232
他方 22930
権限 23587
制定 24286
無益 25028
比喩 25716
唐突 26339
撤廃 27597
弦 28882
入り交じる 29512
首長 30158
石庭 33144
介在 37357
始祖 46942
蜂起 53594
策定 55901
奏功 58358
親疎 69475
改鋳 71224
w’(n) x(n)
銀行 722
担当 1564
調節 2353
通過 2669
取り込む 2968
構成 3700
遺伝子 4507
交通機関 4950
率いる 5405
食い違う 6401
経済 6947
渋滞 8061
入り交じる 8695
境界 9326
豊富 9982
境目 10640
目分量 11295
権限 11927
噴出 12670
制定 13364
領域 14120
愛称 14811
拠点 15621
石庭 16387
和らげる 17127
他方 17888
首長 18604
配当 19264
無益 20008
及ぶ 20764
大部分 21532
焼却 22232
唐突 22930
着手 23587
妨げる 24286
遠征 25028
弦 25716
大衆 26339
撤廃 27597
総称 28882
成就 29512
こぞって 30158
始祖 33144
策定 37357
比喩 46942
奏功 53594
介在 55901
親疎 58358
蜂起 69475
改鋳 71224
本実施形態では、語彙数推定部15が、親密度に基づく順序で順位付けされた複数のテスト単語w(1),…,w(N)を、被験者内親密度a(1),…,a(N)に基づく順序で並べ替えてテスト単語列w’(1),…,w’(N)を要素とするテスト単語列W’を得、単語に対して予め定められた親密度に基づいて推定され、親密度に基づく順序で順位付けされている潜在語彙数x(1),…,x(N)を要素とする潜在語彙数列Xを得、これらを対応付けたテーブル[W’,X]から抽出した各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))と、利用者のテスト単語の知識に関する回答とを用い、利用者が単語を知っている確率に基づく値と利用者の語彙数に基づく値との関係を表すモデルφを得る。ここで、被験者内親密度a(1),…,a(N)に基づく順序でテスト単語w(1),…,w(N)を並べ替え、被験者内親密度a’(1),…,a’(N)に基づく順序で順位付けされたテスト単語列w’(1),…,w’(N)に潜在語彙数x(1),…,x(N)のそれぞれを対応付けることで、モデルφの精度が向上する。これによって語彙数の推定精度が向上する。
参考文献1:藤田早苗,小林哲生,“単語親密度の再調査と過去のデータとの比較”,言語処理学会 第26回年次大会 発表論文集,2020年3月.
第1実施形態で例示したように、提示部13でN個のテスト単語すべてを提示し、N個のテスト単語すべてについて、回答受付部14で利用者のテスト単語の知識に関する回答を受け付けるのが実装上容易である。しかし、提示部13でテスト単語を順番に提示し、テスト単語が提示されるたびに回答受付部14で利用者のテスト単語の知識に関する回答を受け付けてもよい。この際、利用者が提示されたテスト単語を知らないとP回(Pは1以上の整数であり、好ましくは2以上の整数である。Pは事前に設定される)回答した時点で問題の提示を停止してもよい。この場合、利用者が回答を行っていないテスト単語については、当該利用者がそのテスト単語を知らないと回答したものとみなして各処理が実行される。あるいは、利用者が提示されたテスト単語を知らないと回答した場合、当該テスト単語と同程度の親密度の(あるいは、少し親密度の高い)別のテスト単語を提示し、回答受付部14で利用者のテスト単語の知識に関する回答を受け付けてもよい。知らないと回答したテスト単語の親密度近辺で詳細にテストすることで、利用者の語彙数推定精度を高めることができる。
次に本発明の第2実施形態を説明する。第2実施形態は第1実施形態および第1実施形態の変形例に対する変形例であり、特定分野の文章に特徴的な単語以外からテスト単語を選択する点でこれらと相違する。以下では第1実施形態および第1実施形態の変形例との相違点を中心に説明し、既に説明した事項については同じ参照番号を流用して説明を簡略化する。
教科書コーパス語彙表:
https://pj.ninjal.ac.jp/corpus_center/bccwj/freq-list.html
例えば、「弦」は教科書コーパス語彙表で、特徴度_小中高_全教科390.83, 特徴度_小_全教科11.28のようになっており、「弦」は教科書で特徴的に出てくる単語である。一方、「取り込む」は、特徴度_小_全教科0.01と、ほぼ特徴度が0に近く、教科書と一般文書における使用にほぼ差がない。そのため、例えば、教科書コーパス語彙表で特徴度の絶対値が閾値以下の単語をテスト単語とすることが望ましい。より好ましくは、教科書コーパス語彙表で特徴度が0に近い単語をテスト単語とすることが望ましい。利用者100の属性に応じ、テスト単語の候補から除外するか否かの判断に、小学校教科書の特徴度を用いてもよいし、特定の教科の教科書の特徴度を用いてもよいし、特定の学年の教科書の特徴度を用いてもよい。また、例えば小学生の利用者100の語彙数を推定する場合、小学校で習わない漢字を含む単語をテスト単語の候補から除外してもよい。同様に、大人の利用者100の語彙数推定を行う場合、ある専門分野の文章に特徴的な単語をテスト単語の候補から除外してもよい。このように、本実施形態では、特定分野の文章に特徴的な単語以外からテスト単語が選択される。以下に詳細に説明する。
第1実施形態の記憶部11との相違点は、記憶部21が単語親密度DBに加え、特定分野の文章に特徴的な単語を格納した特定分野単語DBを格納する点である。特定分野の例は、教科書分野や専門分野である。教科書分野は、すべての教科書分野であってもよいし、特定の学年の教科書分野であってもよいし、特定の教科の教科書分野であってもよい。専門分野は、すべての専門分野であってもよいし、特定の専門分野であってもよい。特定分野単語DBは、例えば、教科書コーパス語彙表に特徴的によく出てくる語として記載された単語を記録した教科書DBや、専門書や専門のコーパスに特徴的によく出てくる語として記載された単語を記録した専門語DBなどである(ステップS21)。その他は第1実施形態と同一である。
問題生成部22は、利用者またはシステムからの問題生成要請を入力として受け付けると、記憶部21の単語親密度DBに含まれる複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。問題生成部22が問題生成部12と相違する点は、記憶部11に代えて記憶部21からテスト単語を選択する点と、特定分野の文章に特徴的な単語以外からテスト単語を選択する点である。具体的には、問題生成部22は、例えば、記憶部21に格納された単語親密度DBおよび特定分野単語DBを参照し、単語親密度DBに記録されており、かつ、特定分野単語DBには記録されていない単語をN個選択し(例えば、親密度順にほぼ一定間隔で単語をN個選択し)、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。その他は第1実施形態と同一である(ステップS22)。
第2実施形態では、問題生成部22が記憶部21に格納された単語親密度DBおよび特定分野単語DBを参照し、単語親密度DBに記録されており、かつ、特定分野単語DBには記録されていない単語をN個選択する例を示した。しかしながら、テストに利用可能、あるいは利用したい語彙リスト(すなわち、特定分野の文章に特徴的な単語以外の単語を要素とする語彙リスト)を予め用意しておき、その中から前述した親密度等の条件を満たすテスト単語を選択してもよい。また、語彙数推定以外の目的でも利用可能な語彙リストを予め用意しておき、その中からテスト単語を選択してもよい。
・特定の時期の文章での出現頻度の最高値が他の時期の文章での出現頻度の最高値よりも大きい単語
・特定の時期の文章での出現頻度の平均値が他の時期の文章での出現頻度の平均値よりも大きい単語
・特定の時期の文章での出現頻度の最高値から他の時期の文章での出現頻度の最高値を減じた値が正の閾値よりも大きい単語
・特定の時期の文章での出現頻度の平均値から他の時期の文章での出現頻度の平均値を減じた値が正の閾値よりも大きい単語
・他の時期の文章での出現頻度の最高値に対する特定の時期の文章での出現頻度の最高値の比率が正閾値よりも大きい単語
・他の時期の文章での出現頻度の平均値に対する特定の時期の文章での出現頻度の平均値の比率が正閾値よりも大きい単語
特定の時期の文章および他の時期の文章は、例えば、SNS、ブログ、新聞記事、雑誌のうち、少なくともいずれか1つ以上のメディア内の文章である。
例えば「コロナウイルス」「クラスター」などの時事性の高い単語は、調査時期によって親密度が大きく異なる。このような単語をテスト単語として語彙数推定を行った場合、利用者のテスト単語の知識に関する回答を受け付ける時期によっては正しく語彙数推定を行うことができない場合がある。例えば、単語親密度DBの親密度を調査した時期と、語彙数推定のために利用者のテスト単語の知識に関する回答を受け付けた時期とで、親密度が大きく異なる時事性の高い単語をテスト単語とした場合、語彙数推定を行うことができない。そのため、問題生成部は、時事性の高い単語以外からテスト単語を選択することが望ましい。
次に本発明の第3実施形態を説明する。第3実施形態は第1実施形態および第1実施形態の変形例に対するさらなる変形例であり、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択する点でこれらと相違する。
記憶部31と第1実施形態の記憶部11との相違点は、記憶部31に格納された単語親密度DBが、単語に対するなじみ深さの個人差を表す指標(例えば、上述した回答の分散)が閾値以下または当該閾値未満の単語と、当該単語の親密度とを対応付けたものである点、および記憶部31が単語親密度DBに加え、単語親密度DBの各単語の表記の妥当性の高さを表す値(例えば、参考文献2に記載された各表記の妥当性を表す数値、またはコーパス中での表記の出願頻度)を記録した表記妥当性DBも格納する点である(ステップS31)。その他は第1実施形態と同一である。
問題生成部32は、利用者またはシステムからの問題生成要請を受け付けると、記憶部31の単語親密度DBに含まれる複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。問題生成部32が問題生成部12と相違する点は、記憶部11に代えて記憶部31からテスト単語を選択する点と、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択する点である。具体的には、問題生成部32は、例えば、記憶部31に格納された単語親密度DBおよび表記妥当性DBを参照し、単語親密度DBに記録されており、かつ、表記の妥当性の高さが所定の基準を満たす単語をN個選択し(例えば、親密度順にほぼ一定間隔で単語をN個選択し)、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。その他は第1実施形態と同一である(ステップS32)。
第4実施形態は、第1~3実施形態および第1実施形態の変形例に対する変形例であり、テスト単語以外の単語についても適切な推定語彙数を推定する点でこれらと相違する。
参考文献3:藤田早苗,平博順,永田昌明,“画像検索を用いた語義別画像付き辞書の構築”,“Enriching Dictionaries with Images from the Internet”,自然言語処理,Vol. 20, No. 2, pp. 223-250, 2013.
単語w”が具体物を表すか否かを表す値の例は、日本語語彙体系(シソーラス)で「具体」配下かどうかを表す値である。特徴量γ1,…,γIとして、単語w”の心像性、単語w”の親密度、単語w”が具体物を表すか否かを表す値、コーパス中の単語w”の出現頻度の全てを用いてもよいし、これらの一部のみを用いてもよいし(例えば、特徴量γ1,…,γIが単語w”の心像性を含むが、単語w”が具体物を表すか否かを表す値を含まない、または単語w”が具体物を表すか否かを表す値を含むが、特徴量γ1,…,γIが単語w”の心像性を含まないなど)、その他の値を用いてもよい。以下に詳細に説明する。
語彙数推定部45は、前述のステップS151,S152,S153の処理を実行してテーブル[W’,X]を得、当該テーブル[W’,X]を記憶部11に格納する。ただし、既にテーブル[W’,X]が記憶部11に格納されているのであれば、ステップS151,S152,S153の処理が省略されてもよい。語彙数推定部45は、テーブル[W’,X]のテスト単語列W’のテスト単語w’(1),…,w’(N)と潜在語彙数列Xの潜在語彙数x(1),…,x(N)とから抽出した各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))を正解データとして用いた機械学習によって推定モデルΨ:x”=G(γ1,…,γI,Θ)のモデルパラメータΘを得る。例えば、推定モデルΨが重回帰式である場合、推定モデルΨは以下の式(1)のように表される。
x”=G(γ1,…,γI,Θ)
=θ1γ1+…+θIγI+θ0 (1)
ただし、Θ={θ0,θ1,…,θI}である。例えばI=4であり、γ1が単語w”の心像性であり、γ2が単語w”の親密度であり、γ3が単語w”が具体物を表すか否かを表す値であり、γ4がコーパス中の単語w”の出現頻度である場合、重回帰式の推定モデルΨは以下の式(2)のように表される。
x”=G(γ1,…,γI,Θ)
=θ1γ1+θ2γ2+θ3γ3+θ4γ4+θ0 (2)
ただし、Θ={θ0,θ1,…,θI}である(ステップS454)。
語彙数推定装置4が、第1実施形態で説明した記憶部11および問題生成部12に代えて、第2実施形態またはその変形例で説明した記憶部21および問題生成部22を有していてもよい。この場合にはステップS12に代えてステップS22の処理が実行されるが、この場合も問題生成部22が毎回同じテスト単語w(1),…,w(N)を選択する必要はない。同様に、第3実施形態で説明した記憶部31および問題生成部32を有していてもよい。この場合にはステップS12に代えてステップS32の処理が実行されるが、この場合も問題生成部32が毎回同じテスト単語w(1),…,w(N)を選択する必要はない。
第5実施形態は、第1~4実施形態および第1実施形態の変形例に対する変形例である。第1~4実施形態および第1実施形態の変形例では、複数の単語と当該単語それぞれに対して予め定められた親密度との組を格納した単語親密度DBを用いて各単語の潜在語彙数を得た。しかし、このような単語親密度DBを用意できないときもある。第5実施形態では、このような単語親密度DBに代えて、少なくともコーパス中の単語の出現頻度に基づいて各単語の潜在語彙数を得る。この場合には、例えば、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度とを格納したDBが用いられる。さらに、コーパス中の単語の出現頻度に加え、単語の品詞に基づいて潜在語彙数を得てもよい。この場合は、例えば、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度および品詞とを格納したDBが用いられる。またさらに、これらの少なくとも何れかに加えて、被験者(例えば、日本人)の母国語(例えば、日本語)と異なる言語(例えば、英語)を母国語とする者(例えば、米国人)の当該言語の単語の親密度(外国語親密度)に基づいて、被験者に仮定される潜在語彙数を得てもよい。この場合には、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度および/または品詞と当該言語の単語の親密度とを格納したDBが用いられる。あるいは、上述のように単語の出現頻度、品詞、外国語親密度の少なくとも何れかから潜在語彙数を得ておき、単語親密度DBに代えて、複数の単語と当該単語それぞれに対して得られた潜在語彙数との組を対応付けたDBが用いられてもよい。
参考文献5:CEFR-J Wordlist(http://www.cefr-j.org/download.html#cefrj_wordlist)
レベルA1: a, a.m., about, above, action, activity, … , yours, yourself, zoo
(1197語、表記ゆれをまとめて1164語)
レベルA2: ability, abroad, accept, acceptable, …, yeah, youth, zone
(1442語、表記ゆれをまとめて1411語)
レベルB1,B2についても同様である。これらの各レベルの中で単語を「所定の順位付け基準」に従って順位付けして並べ替える。例えば、レベルA1ではa, about, yourself,,,,のように単語を出現頻度順に並び替える。各レベルA1,A2,B1,B2の中でそれぞれ出現頻度順に並べ替えた単語を並べ、全体として各単語のなじみ深さ順と推定される順序に並べる。このように、なじみ深さ順と推定される順序に並べられたM個の単語ω(1),…,ω(M)の各単語ω(m)に潜在語彙数x(m)を対応付ける。ただし、m1,m2∈{1,…,M}およびm1<m2に対してx(m1)≦x(m2)を満たす。
+-------+-------------+------+
| WORD | POS | CEFR |
+-------+-------------+------+
| round | adverb | A2 |
| round | adjective | B1 |
| round | noun | B1 |
| round | preposition | B2 |
| round | verb | B2 |
+-------+-------------+------+
ここで、副詞の「round」,形容詞の「round」,名詞の「round」,前置詞の「round」のレベルは、それぞれA2,B1,B1,B2,B2である。この場合、「round」を最もレベルの低い副詞(adverb)の単語とみなして語彙数推定を行う。
(1)コーパス中の単語の出現頻度順に単語を順位付けした場合(1900年以降のGoogle Booksの1 gramデータを利用)
certain,private,directly,ago,agricultural,psychological,pretty,mostly,involve,competitive,elementary,adams,majesty,tide,peaceful,vain,asleep,inform,fled,neural,quit,sincere,auf,conquered,jay,behold,administer,envy,delete,scenery,triangular,fireplace,preparatory,canterbury,pike,tout,regimen,reunion,arousal,deacon,tread,strenuous,arsenal,blaze,inquisition,inexperienced,tremble,aerosol,balkans,rubbish
CEFR-J Word List記載のレベルと品詞(複数品詞がある単語の場合、1つのみ記載)を併記すると次のようになる。
certain (A2, adjective), private (A2, adjective), directly (B1, adverb), ago (A1, adverb), agricultural (B1, adjective), psychological (B1, adjective), pretty (A2, adverb), mostly (A2, adverb), involve (B1, verb), competitive (B1, adjective), elementary (A1, adjective), adams (-, ), majesty (-, ), tide (B1, noun), peaceful (A2, adjective), vain (B1, adjective), asleep (A2, adjective), inform (B1, verb), fled (-, ), neural (-, ), quit (B2, adjective), sincere (B2, adjective), auf (-, ), conquered (-, ), jay (-, ), behold (-, ), administer (-, ), envy (B2, verb), delete (B1, verb), scenery (A2, noun), triangular (-, ), fireplace (B2, noun), preparatory (-, ), canterbury (-, ), pike (-, ), tout (-, ), regimen (-, ), reunion (A2, noun), arousal (-, ), deacon (-, ), tread (B2, verb), strenuous (-, ), arsenal (-, ), blaze (B2, verb), inquisition (-, ), inexperienced (B2, adjective), tremble (B1, verb), aerosol (-, ), balkans (-, ), rubbish (B1, noun)
例えば、上記リスト中の、adamsやcanterburyは多くの場合、Adams, Canterbury のように固有名詞として用いられることが多い。本来固有名詞として使われる語を語彙数推定に利用することは望ましくない。CEFR-J等のリストに含まれない語を用いないようにすれば、こうした語を用いないようにすることができる。また、頻度順では、peacefulよりagriculturalの方が頻度が高くなっているが、CEFR-Jでのpeaceful, agriculturalのレベルは、それぞれ、A2, B1レベルであり、CEFR-Jで定義されたレベルの方が直感に合う(つまり、peacefulの方がagriculturalよりもなじみがあり、多くの人が知っている単語)と考えられる。
certain, difficult, directly, ago, agricultural, psychological, pretty, mostly, involve, competitive, elementary, survive, evaluate, triumph, peaceful, vain, brave, inform, chin, enjoyment, imaginary, policeman, literal, thigh, absorb, erect, aristocracy, strangely, delete, distributor, dissatisfaction, tuition, likeness, tub, manipulate, homework, eloquence, comet, anyhow, fortnight, trainee, supervise, wetland, botany, enjoyable, razor, stimulant, dangerously, brilliantly, bully
わかりやすくするため、上述の各単語にCEFRにおけるレベルと、品詞を併記すると次のようになる。
[A2]certain (adjective), [A1]difficult (adjective), [B1]directly (adverb), ago (adverb), agricultural (adjective), psychological (adjective), pretty (adverb), mostly (adverb), involve (verb), competitive (adjective), elementary (adjective), survive (verb), [B2]evaluate (verb), triumph (noun), peaceful (adjective), vain (adjective), brave (adjective), inform (verb), chin (noun), enjoyment (noun), imaginary (adjective), policeman (noun), literal (adjective), thigh (noun), absorb (verb), erect (adjective), aristocracy (noun), strangely (adverb), delete (verb), distributor (noun), dissatisfaction (noun), tuition (noun), likeness (noun), tub (noun), manipulate (verb), homework (noun), eloquence (noun), comet (noun), anyhow (adverb), fortnight (noun), trainee (noun), supervise (verb), wetland (noun), botany (noun), enjoyable (adjective), razor (noun), stimulant (noun), dangerously (adverb), brilliantly (adverb), bully (verb)
この例の場合、副の出現頻度が他の品詞の出現頻度より相対的に低いため、副詞の単語は難しめの(なじみ深さが低い)順位に順位付けされる傾向がある。例えばB2レベルの語では、名詞である“fortnight”や“botany”より、副詞である”dangerously”, ”brilliantly”の方が順位が後ろになっているが、多くの人にとっては”dangerously”, ”brilliantly”の方が“fortnight”や“botany”よりもなじみ深いと感じられるだろう。
動詞のみ:
[A1]get, [A2]feel, learn, teach, [B1]hurt, swim, provide, cross, avoid, train, snow, worry, hate, pursue, publish, steal, wander, pronounce, experience, [B2]soil, estimate, please, warm, involve, promote, defeat, engage, excuse, emerge, rid, derive, strengthen, persuade, assign, dig, interrupt, grab, thirst, classify, riddle, illuminate, drown, mourn, influence, experiment, row, exhibit, substitute, convert, decay
[A1]minute, [A2]train, sheep, math, mommy, statement, [B1]male, ray, creature, shade, chin, balloon, playground, term, presence, aid, absence, infection, fifth, radiation, confusion, courage, tragedy, guilt, devotion, orbit, elbow, flock, theft, sadness, niece, sunrise, glide, chuckle, [B2]assembly, obligation, stability, dose, throat, holder, midst, query, strand, bankruptcy, correspondent, insult, interruption, hesitation, astronomy, chemotherapy
副詞のみ:
[A1]much, [B1]yet, usually, [A2]straight, [B2]far, across, forward, widely, mostly, roughly, worldwide, loudly, merely, forth, naturally, rarely, shortly, definitely, annually, extensively, aboard, evenly, anyhow, pleasantly, previously, practically, presumably, independently, promptly, morally, eagerly, eastward, admittedly, thirdly, powerfully, suitably, tremendously, overboard, stubbornly
これにより、品詞ごとに、なじみ深さの順に近い順位付けを行うことができる。
記憶部51と前述の記憶部11,21,31との相違点は、同じ品詞のM個の単語ω(1),…,ω(M)の各単語ω(m)(m=1,…,M)に上述した潜在語彙数x(m)を対応付けたDBが記憶部51に格納されている点のみである。何れか一つの品詞についてのDBのみが記憶部51に格納されてもよいし、複数の品詞それぞれについてDBが記憶部51に格納されてもよい。すなわち、DBの潜在語彙数x(m)は、例えば、コーパス中の単語ω(m)の出現頻度および単語の品詞に基づいて得られたものである。
問題生成部52は、利用者またはシステムからの問題生成要請を受け付けると、記憶部51のDBに含まれる、同じ品詞のM個の単語ω(1),…,ω(M)から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。すなわち問題生成部52は、同じ品詞のN個のテスト単語w(1),…,w(N)を選択して出力する。問題生成部52は、或る品詞のテスト単語w(1),…,w(N)のみを選択して出力してもよいし、複数の品詞のそれぞれについて、同じ品詞のN個のテスト単語w(1),…,w(N)を選択して出力してもよい。前述のように、テスト単語w(n)に複数の品詞が想定される場合、テスト単語w(n)の品詞のうち、テスト単語w(n)の品詞として最もなじみ深い、あるいは、最もよく用いられる、あるいは、学習の最も初期の段階で当該語の品詞として学習する品詞を当該テスト単語w(n)の品詞とみなす。その他は、第1,2,3実施形態の問題生成部12,22,32の何れかと同じである(ステップS52)。
提示部53には、問題生成部52から出力された同じ品詞のN個のテスト単語w(1),…,w(N)が入力される。提示部13は、事前に設定された表示形式に従い、指示文および同じ品詞のテスト単語w(1),…,w(N)を利用者100に提示する。提示部53に、或る品詞のテスト単語w(1),…,w(N)のみが入力される場合、提示部13は、事前に設定された表示形式に従い、指示文および当該品詞のテスト単語w(1),…,w(N)を表示する。提示部53に、複数の品詞のそれぞれについて、同じ品詞のN個のテスト単語w(1),…,w(N)が入力される場合、提示部13は、事前に設定された表示形式に従い、指示文および同じ品詞のN個のテスト単語w(1),…,w(N)を提示する。品詞ごとに区分けされて、同じ品詞のN個のテスト単語w(1),…,w(N)が提示されてもよいし、利用者100によって選択された品詞のN個のテスト単語w(1),…,w(N)が提示されてもよい(ステップS53)。指示文およびテスト単語w(1),…,w(N)が提示された利用者100は、利用者100のテスト単語の知識に関する回答を回答受付部54に入力する。回答受付部54は、入力されたテスト単語の知識に関する回答を出力する(ステップS54)。
語彙数推定部55には、回答受付部54から出力された利用者100のテスト単語w(n)の知識に関する回答が入力される。語彙数推定部55は、前述のステップS151の処理を実行する。
比較的出現頻度の低い単語であっても、よく使われる単語の派生形としてとらえれば難しい語とはいえない場合がある。例えば、CEFR-J Wordlistの難易度のレベルでみても、understand(verb)のレベルはA2であるのに対し、その派生語understandable(adjective),understanding(adjective),understanding(noun)のレベルはB2である。つまり、understand(verb)よりunderstandable(adjective),understanding(adjective),understanding(noun)の方が難易度の高いレベルが付与されている。
+----------------+-----------+------+
| WORD | POS | CEFR |
+----------------+-----------+------+
| understand | verb | A2 |
| understandable | adjective | B2 |
| understanding | adjective | B2 |
| understanding | noun | B2 |
+----------------+-----------+------+
また、in-,re-,un-のような接頭辞がつく単語は、接頭語を除いた単語としては比較的知られた語であることも多い。例えば、inexperiencedは出現頻度が低いため、出現頻度で順位付けを行うと順位が低くなるが(なじみが低い単語)、experienceは出現頻度が高く比較的知られた語である。CEFR-J Wordlistの難易度のレベルでみても、inexperienced(adjective)のレベルはB2だが、experience (noun)のレベルはA2であり、experienceに対して難易度の高いレベルが付されている。そのため、派生形の単語および/または接頭辞がつく単語をDBやテスト単語の候補から除外してもよい。
第6実施形態は、第1~5実施形態および第1実施形態の変形例に対する変形例であり、複数の利用者100のテスト単語の知識に関する回答から単語ごとに、各学年または各年齢での語彙の獲得割合を示す語彙獲得曲線を得る点でこれらと相違する。
入力:複数の利用者のテスト単語の知識に関する回答(複数学年分あるいは複数年齢分)
出力:単語ごとの語彙獲得曲線
語彙獲得曲線算出部66には、回答受付部14または54から出力された複数の利用者100のテスト単語の知識に関する回答が入力される。これらの回答は、複数の学年または年齢g(1),…,g(J)の利用者100に対し、前述のように提示部13または54から同一のN個のテスト単語w(1),…,w(N)を提示して得られたものである。ただし、Jは2以上の整数であり、j=1,…,Jとする。また本実施形態では、複数の利用者100のテスト単語の知識に関する回答とともに、当該利用者100の学年または年齢の情報も語彙獲得曲線算出部66に入力されるものとする。語彙獲得曲線算出部66は、当該回答と当該回答を行った利用者100の学年または年齢の情報とを用い、各テスト単語w(n)(ただし、n=1,…,N)について、各学年または年齢g(j)での各テスト単語w(n)の獲得割合r(j,n)を求める(ステップS661)。
第6実施形態では、第1~5実施形態または第1実施形態の変形例での語彙数推定の過程で回答受付部14または54から出力された複数の利用者100のテスト単語の知識に関する回答、および当該利用者100の学年または年齢の情報が語彙獲得曲線算出部66に入力され、語彙獲得曲線算出部66が語彙数推定を行った。しかしながら、上述の語彙数推定の過程以外で得られた、複数の学年または年齢の利用者による、同一の単語の知識に関する回答(例えば、当該単語を知っているか否かの回答)および当該利用者の学年または年齢の情報が語彙獲得曲線算出部66に入力され、語彙獲得曲線算出部66がこれらを用いて語彙獲得曲線を得てもよい。
例えば、同一の単語の知識に関する回答は、語彙力推定以外の目的で行われた当該単語を知っているか否かの調査で得られたものでもよいし、「漢字テスト」や「漢字の読みテスト」の結果であってもよい。すなわち、同じ単語について複数の学年(年齢)で調査して得られた当該単語の知識に関する回答であれば、どのようなものが用いられてもよい。
<獲得学年推定部68>
入力:各学年または年齢での特定の単語(語彙)の獲得割合が要求される場合には当該単語(ケース1)、特定の学年または年齢の獲得割合が要求される場合には当該単語および当該学年または年齢(ケース2)
出力:ケース1の場合には入力された単語の語彙獲得曲線、ケース2の場合には入力された学年または年齢での入力された単語の獲得割合
各実施形態における語彙数推定装置1-6は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
12,22,32,52 問題生成部置
13,53 提示部
14,54 回答受付部
15,45,55 語彙数推定部
Claims (8)
- 複数の単語から複数のテスト単語を選択する問題生成部と、
前記テスト単語を利用者に提示する提示部と、
前記利用者の前記テスト単語の知識に関する回答を受け付ける回答受付部と、
前記テスト単語と、前記テスト単語を知っている者の推定語彙数と、前記テスト単語の知識に関する回答とを用い、前記利用者が前記単語を知っていると回答する確率に基づく値と、前記利用者が前記単語を知っていると回答したときの前記利用者の語彙数に基づく値と、の関係を表すモデルを得る語彙数推定部と、を有し、
前記問題生成部は、前記複数の単語のうち、表記の妥当性の高さが所定の基準を満たす単語を前記テスト単語として選択し、
前記複数の単語は、前記単語に対するなじみ深さの個人差を表す指標が第2閾値以下または第2閾値未満の単語である、語彙数推定装置。 - 請求項1の語彙数推定装置であって、
前記表記の妥当性の高さが所定の基準を満たす単語は、前記表記の妥当性の高さを表す値が第1閾値以上または前記第1閾値を超える単語である、語彙数推定装置。 - 請求項1または2の語彙数推定装置であって、
前記表記の妥当性の高さが所定の基準を満たす単語は、前記複数の単語のうち、複数の表記の中で前記表記の妥当性の高さを表す値の順位が所定順位よりも高い単語である、語彙数推定装置。 - 請求項1から3の何れかの語彙数推定装置であって、
前記語彙数推定部は、
順位付けされた複数の単語から選択された複数のテスト単語を要素とするテスト単語列と、順位付けされた複数の潜在語彙数を要素とする潜在語彙数列と、から抽出した各順位の前記テスト単語と前記潜在語彙数との組と、前記テスト単語の知識に関する回答とを用いて前記モデルを得、
前記複数のテスト単語は、特定の被験者集合に属する被験者の前記テスト単語に対する被験者内親密度に基づく順序で順位付けされており、
前記複数の潜在語彙数は、前記複数のテスト単語に対応し、前記単語に対して予め定められた親密度に基づいて推定され、前記親密度に基づく順序で順位付けされている、語彙数推定装置。 - 請求項4の語彙推定装置であって、
前記語彙数推定部は、前記複数のテスト単語が前記親密度に基づく順序で順位付けされた親密度順単語列に含まれる前記テスト単語を、前記被験者内親密度に基づく順序で並べ替えて前記テスト単語列を得る、語彙数推定装置。 - 請求項1から5の何れかの語彙数推定装置であって、
前記語彙数推定部は、前記モデルにおいて、前記利用者が前記単語を知っていると回答する確率に基づく値が所定値または所定値の近傍のときの前記語彙数に基づく値に基づく値を、前記利用者の推定語彙数として出力する、語彙数推定装置。 - 語彙数推定装置によって実行される語彙数推定方法であって、
複数の単語から複数のテスト単語を選択する問題生成ステップと、
前記テスト単語を利用者に提示する提示ステップと、
前記利用者の前記テスト単語の知識に関する回答を受け付ける回答受付ステップと、
前記テスト単語と、前記テスト単語を知っている者の推定語彙数と、前記テスト単語の知識に関する回答とを用い、前記利用者が前記単語を知っていると回答する確率に基づく値と、前記利用者が前記単語を知っていると回答したときの前記利用者の語彙数に基づく値と、の関係を表すモデルを得る語彙数推定部ステップ、を有し、
前記問題生成ステップは、前記複数の単語のうち、表記の妥当性の高さが所定の基準を満たす単語を前記テスト単語として選択し、
前記複数の単語は、前記単語に対するなじみ深さの個人差を表す指標が第2閾値以下または第2閾値未満の単語である、語彙数推定方法。 - 請求項1から6の何れかの語彙数推定装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/024348 WO2021260763A1 (ja) | 2020-06-22 | 2020-06-22 | 語彙数推定装置、語彙数推定方法、およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021260763A1 JPWO2021260763A1 (ja) | 2021-12-30 |
JPWO2021260763A5 JPWO2021260763A5 (ja) | 2023-01-24 |
JP7396488B2 true JP7396488B2 (ja) | 2023-12-12 |
Family
ID=79282211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022531256A Active JP7396488B2 (ja) | 2020-06-22 | 2020-06-22 | 語彙数推定装置、語彙数推定方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230244867A1 (ja) |
JP (1) | JP7396488B2 (ja) |
WO (1) | WO2021260763A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7396485B2 (ja) * | 2020-06-22 | 2023-12-12 | 日本電信電話株式会社 | 語彙数推定装置、語彙数推定方法、およびプログラム |
-
2020
- 2020-06-22 US US18/011,824 patent/US20230244867A1/en active Pending
- 2020-06-22 JP JP2022531256A patent/JP7396488B2/ja active Active
- 2020-06-22 WO PCT/JP2020/024348 patent/WO2021260763A1/ja active Application Filing
Non-Patent Citations (2)
Title |
---|
AMANO, Shigeaki, and KONDO, Tadahisa,Estimation of Mental Lexicon Size with Word Familiarity Database,In: Proceedings of the 5th International Conference on Spoken Language Processing [online],Vol. 5,1998年11月30日,p.2119-2122,[検索日 2020.11.13]、インターネット:<URL:https://www.isca-speech.org/archive/archive_papers/icslp_1998/i98_0015.pdf> |
近藤公久, 天野成昭,百羅漢 ~実験参加者の言語能力差の統制のための漢字テスト,テクニカルレポート,JCSS-TR-69,日本認知学会 [オンライン],2013年04月,p.0-18,[検索日 2020.11.13]、インターネット:<URL:https://www.jcss.gr.jp/contribution/technicalreport/TR69.pdf> |
Also Published As
Publication number | Publication date |
---|---|
US20230244867A1 (en) | 2023-08-03 |
WO2021260763A1 (ja) | 2021-12-30 |
JPWO2021260763A1 (ja) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7396485B2 (ja) | 語彙数推定装置、語彙数推定方法、およびプログラム | |
Bailin et al. | Readability: Text and context | |
Wallwork | English for presentations at international conferences | |
Sabino | Languaging without languages: Beyond metro-, multi-, poly-, pluri-and translanguaging | |
Ramsay | Algorithmic criticism | |
Müller et al. | Learning English idioms with a web-based educational game | |
Rezaei et al. | Attitudes toward world Englishes among Iranian English language learners | |
Sicam et al. | Language attitudes of adolescent Filipino bilingual learners towards English and Filipino | |
McTague et al. | Access to books: A scaffolded program creates readers | |
García et al. | Writing an independently composed sentence by Spanish-speaking children with and without poor transcription skills: A writing-level match design | |
Lee | Gender portrayal in a popular Hong Kong reading programme for children: Are there equalities? | |
JP7396488B2 (ja) | 語彙数推定装置、語彙数推定方法、およびプログラム | |
JP7396486B2 (ja) | 語彙数推定装置、語彙数推定方法、およびプログラム | |
JP7396487B2 (ja) | 語彙数推定装置、語彙数推定方法、およびプログラム | |
Nugraha et al. | Literation of arabic through modern ngalogat: Efforts to strengthen islamic values in people life | |
Nor et al. | Features of Islamic children’s books in English: A case study of books published in Malaysia | |
Ramadhani et al. | An analysis of students’ argumentative essay writing skill of third semester of english language education-uir | |
Malcolm | Cross-Linguistic Morphosyntactic Influence InBilingual Speakers of Jamaican Creole and Jamaican English | |
Abdulkareem et al. | YorCALL: Improving and Sustaining Yoruba Language through a Practical Iterative Learning Approach. | |
Vosughi et al. | Manifestations of Key-Word Terms in ELT Research Publications: Are We Not Tuned to Genuine, Art-based Qualitative Lines of Inquiry Yet? | |
Hart | Communication & Media Arts: Of the Humanities & the Future | |
Rahmawati | An analysis on students’ Indonesian-English translation errors: a case study at 7 th semester students of english department UIN Mataram | |
Roettgen et al. | The Influence of Word Characteristics on Preschoolers' Vocabulary Learning | |
Parela | Grammatical Errors in Essays Written by Third-Semester Students of the English Department Study Program | |
Kahya | Unveiling ‘Eyi Çocukluk’(Ideal Childhood) in Late Ottoman Turkish Children’s Literature: A Discourse Analysis of Angeliaforos Çocuklar İçün (The Messenger for Children) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221028 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221028 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20221028 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20221028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7396488 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |