JP2013167981A - 語彙学習曲線パラメータ推定装置、方法、及びプログラム - Google Patents

語彙学習曲線パラメータ推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013167981A
JP2013167981A JP2012029951A JP2012029951A JP2013167981A JP 2013167981 A JP2013167981 A JP 2013167981A JP 2012029951 A JP2012029951 A JP 2012029951A JP 2012029951 A JP2012029951 A JP 2012029951A JP 2013167981 A JP2013167981 A JP 2013167981A
Authority
JP
Japan
Prior art keywords
data
age
function
vocabulary learning
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012029951A
Other languages
English (en)
Other versions
JP5657585B2 (ja
Inventor
Yasuhiro Minami
泰浩 南
Tetsuo Kobayashi
哲生 小林
Hiroaki Sugiyama
弘晃 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012029951A priority Critical patent/JP5657585B2/ja
Publication of JP2013167981A publication Critical patent/JP2013167981A/ja
Application granted granted Critical
Publication of JP5657585B2 publication Critical patent/JP5657585B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】語彙爆発時期を仮定することなく、安定して語彙学習曲線パラメータを精度良く推定することができるようにする。
【解決手段】プラトーの閾値及び基準値の複数の組み合わせの各々を用いて、プラトー除去部24によって、幼児が新しい単語を発話するようになった日齢と、累積数との関係を示すデータセットの時系列に対して、プラトーについて、日齢の間隔が基準値となるように、データセットの各々の日齢を置き換え、関数近似部28によって、置き換えられたデータセットを用いたデータセットの時系列の推移に対して、曲線関数で近似する。最適パラメータ選択部30によって、プラトーの閾値及び基準値の最適な組み合わせを選択し、最適なプラトーの閾値を出力する。
【選択図】図9

Description

本発明は、語彙学習曲線パラメータ推定装置、方法、及びプログラムに係り、特に、幼児の語彙学習速度などのパラメータを推定する語彙学習曲線パラメータ推定装置、方法、及びプログラムに関する。
ヒトの言語発達は「人間とは何か」を考える上で重要な科学的知見や示唆を提供し得るものでありながら、現状としては未解決の問題が多いため、言語発達に関する測定技術の進展や商業上でのサービス展開はほとんど見られないのが現状である。特に、音声認知や語彙獲得、文法操作などの基本能力の中でも、語彙獲得に関する科学技術はほとんど進展が見られていない。しかし、健やかな発達を緩やかに後押しする教育や、言語発達遅滞を含む発達障害に関する早期発見・支援などの必要性を考えると、本分野での技術開発は重要な意味をもつと考えられる。
幼児の言語発達の中でも特に特徴的で且つ個人性を捉える上で重要な現象のひとつは、語彙学習速度である。しかし、この語彙学習速度は、語彙爆発(またはボキャブラリー・スパート)といわれる事象を抜きに、求めることは出来ないと思われてきた。語彙爆発とは、発達心理学者が20世紀中頃から注目してきた現象であり、1歳後半に起こるとされる語彙学習速度の急激な変化のことを指す。基本的には、幼児は1歳の誕生日前後に初語を発するようになるが、しばらくは非常に緩やかな速度で単語を覚えていくことになる。しかし1歳半以降になると、急激に単語を発するようになるため、その劇的な変化を「爆発」や「スパート」と呼んできた。語彙爆発は多くの親が意識的に気づくほど劇的な変化を伴うため、心理学の分野だけでなく育児産業の関係者にもよく知られている。このため,子どもの語彙発達の様子を数値化するためには,語彙爆発をモデル化しなければならないと考えられている。
従来、発達心理学の分野では、語彙チェックリスト(親の回答に基づくアンケート調査)を用いた大規模集団データで語彙爆発の現象を複数の言語で確認してきた。月齢ごとに集団データの平均値をプロットすると、ゆるやかな上昇を示す2次曲線になり、その変曲点が18−20ヶ月ころに現れることを見出してきた。こうした集団データから、語彙爆発が多くの子どもでみられる一般的な現象であるとみなしてきた。
語彙学習速度を見積もるためには、語彙爆発について、語彙爆発が個人毎にいつ起こるのか、また、語彙爆発時期(語彙爆発が開始される時期)をどのように検出及び推定するのかということが重要であるが、従来、語彙爆発時期を推定し、その前後で語彙学習の速度を見積もる以下の4つの手法が提案されている。
1つ目は、特に計算などせずグラフを描き、目視で判定する目視法である。2つ目は、50語覚えた時点を語彙爆発時期と定義する50語達成基準法である。3つ目は、ある特定の期間(例えば3週間)で達成基準(例えば30語以上)を満たした時期を語彙爆発時期にするという特定期間達成基準法である。4つ目は、語彙獲得データの速度成分をロジスティック回帰式に近似させ、その変曲点を語彙爆発時期とするロジスティック回帰近似法である(非特許文献1参照)。
今までは、これらの手法により語彙爆発を決定し、その前後の時期の語彙学習速度を決定する手法を用いていた。
Ganger, J., & Brent, M. R. (2004). Reexamining the vocabulary spurt. Developmental Psychology, Vol. 40, No. 4, 621-632.
しかしながら、1つ目の手法は、現象の有無をある程度確認可能であるが、自動で語彙速度を決定できない、という問題がある。また、2つ目の手法は、実証データに基づいた基準ではあるが、英語圏の中流階層の非常に少ないサンプルに基づく基準であったため、多くの文化圏の様々な子どもに当てはまる保証はない、という問題がある。また、語彙爆発の個人差が全く想定されていない、という問題もある。
また、3つ目の手法は、ある特定の時間範囲で語彙学習速度の変化を検出可能であるが、一義的で恣意的な達成基準の設定は、個人間の語彙学習速度を考慮に入れていないため、個人によっては語彙爆発時期を完全に見誤る可能性がある、という問題がある。
また、4つ目の手法は、個人毎にデータを近似させることで、個人間の語彙学習速度がたとえ異なっていても対応はできるものの、幼児の語彙発達の特徴を正確に捉えきれていないため、ロジスティック回帰の近似精度が低く、語彙爆発の存在自体も確認できない場合が多い、という問題がある。また、この手法では、語彙爆発以降のデータが豊富に揃っていることが前提となっており、2歳以降までのデータが揃わないと適応できない、という問題もある。
4つ目の手法の問題点を指摘するため、幼児の語彙学習曲線を図14〜図17に示す。これは横軸に幼児日齢を示し、縦軸に獲得された累積語彙を示している。4つ目の手法は、図14(B)のような大きな不連続性、図14(C)、図15(A)、図16(A)のようなS字のカーブが現れるような複雑な語彙学習曲線はモデル化できない。また、図17(C)のように複雑な曲線もモデル化できなかった。
上記のように語彙爆発という現象を仮定する手法では、そのモデル化が極めて難しいため、どの手法を用いても、幼児に特有の語彙学習速度を安定的に求めることは不可能であった。
また、これらの手法は、語彙爆発を仮定するため、語彙爆発の前後で全く異なる語彙学習速度のモデル化を行うことになり、全ての時期に渡る幼児の特徴を表す特徴量を抽出することにはなっていない。
本発明は上記問題点に鑑みてなされたものであり、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習に関するパラメータを精度良く推定することができる語彙学習曲線パラメータ推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る語彙学習曲線パラメータ推定装置は、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える置換手段と、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する関数近似手段と、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、前記閾値を出力する最適選択手段と、を含んで構成されている。
第2の発明に係る語彙学習曲線パラメータ推定方法は、置換手段、関数近似手段、及び最適選択手段を含む語彙学習曲線パラメータ推定装置における語彙学習曲線パラメータ推定方法であって、前記語彙学習曲線パラメータ推定装置は、前記置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換えるステップと、前記関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似するステップと、前記最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、前記閾値を出力するステップと、を含んで実行する。
第1の発明及び第2の発明によれば、置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える。関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する。
そして、最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、閾値を出力する。
このように、閾値及び前記基準値の複数の組み合わせの各々を用いて、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、日齢の間隔が基準値となるように、データの各々の日齢を置き換えて、曲線関数で近似し、閾値及び基準値の最適な組み合わせを選択することにより、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習曲線パラメータを精度良く推定することができる。
第3の発明の語彙学習曲線パラメータ推定装置は、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える置換手段と、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する関数近似手段と、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択する最適選択手段と、前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定する推定手段と、を含んで構成されている。
第4の発明に係る語彙学習曲線パラメータ推定方法は、置換手段、関数近似手段、最適選択手段、及び推定手段を含む語彙学習曲線パラメータ推定装置における語彙学習曲線パラメータ推定方法であって、前記語彙学習曲線パラメータ推定装置は、前記置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換えるステップと、前記関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似するステップと、前記最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択するステップと、前記推定手段によって、前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定するステップと、を含んで実行する。
第3の発明及び第4の発明によれば、置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える。関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する。
そして、最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択する。推定手段によって、前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定する。
このように、閾値及び前記基準値の複数の組み合わせの各々を用いて、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、日齢の間隔が基準値となるように、データの各々の日齢を置き換えて、曲線関数で近似し、閾値及び基準値の最適な組み合わせを用いて近似した曲線関数に基づいて、語彙学習速度を推定することにより、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習速度を精度良く推定することができる。
また、本発明のプログラムは、コンピュータを、上記の語彙学習曲線パラメータ推定装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の語彙学習曲線パラメータ推定装置、方法、及びプログラムによれば、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習速度または語彙学習曲線パラメータを精度良く推定することができる、という効果が得られる。
幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 本実施の形態の語彙学習曲線パラメータ推定装置の機能的構成を示すブロック図である。 入力画面の一例を示す図である。 入力データセットの一例を示す図である。 本実施の形態の語彙学習曲線パラメータ推定装置における語彙学習曲線パラメータ推定処理ルーチンの内容を示すフローチャートである。 本実施の形態の語彙学習曲線パラメータ推定装置におけるプラトーを除去する処理の流れを示すフローチャートである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。 幼児の語彙学習曲線を示すグラフである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の概要>
最初に、発明者らが発見した語彙学習に関する自然法則の説明を行う。発明者らは、図14〜図17において、語彙学習曲線に、一定日間(例えば6日以上)1単語も学習していない期間が頻発することを発見した。この一定日間以上、1単語も覚えない学習曲線の部分をプラトー(plateau:「平原」を意味する学習心理学の専門用語)と呼ぶことにする。
発明者らの語彙学習曲線のモデルは、幼児の語彙学習には真の学習曲線が存在すると仮定し、このプラトーが語彙学習の初期に頻繁に挿入されることで、語彙爆発の現象が観測されるというものである。
これを実証するため、プラトーの部分を一定の期間(例えば1日)に置き換え(プラトー除去)語彙学習曲線を引き直した。これにより、語彙学習曲線が次数の少ない曲線で近似できることが分かった。発明者らは、この曲線が、真の語彙学習曲線であると仮定する。図1〜図8に、その様子を示す。−は、図14〜図17で示した語彙学習曲線であり、+がプラトーの開始を示す。○はプラトー除去後の学習曲線を示す。実線はその学習曲線を近似した次数の少ない曲線の一例である2次曲線を表す。このようにプラトーを除くと、学習曲線は次数の少ない曲線(パラメータ数がデータ数−1以下の曲線)で近似できる。そのパラメータが幼児特有の特徴を示すようになる。ここで発見した自然現象を整理すると以下のようになる。
(1)プラトーは、語彙学習の最初から従来語彙爆発と呼ばれていた時期の終わりぐらいまで続き、その後は数、長さとも減少する。
(2)プラトーを除くと、語彙爆発によると思われる複雑な語彙学習曲線は、次数の少ない曲線でモデル化できる。
本発明では、この新たに発見した自然現象を利用し、語彙爆発に依存しない幼児に固有な語彙学習曲線の次数の少ない曲線を求め、その語彙学習曲線の特徴を表すパラメータを求める。
<システム構成>
図9に示すように、本実施の形態に係る語彙学習曲線パラメータ推定装置10は、種々のデータの入力を受け付ける入力部12と、語彙学習曲線に関するパラメータを推定する演算部14と、推定結果を出力する出力部16と、を備えている。
入力部12は、既知のキーボード、マウス、記憶装置などの入力器により実現され、入力データを受け付ける。
ここで、幼児の語彙学習曲線のパラメータを推定するために、どういったデータを参照するかがまずは問題となる。幼児の発話を全てデジタルビデオレコーダーなどの電子メディアで記録可能であれば、それを分析するのが最も高精度な方法といえるが、データ取得にかかるコストは膨大で、かつ幼児の曖昧な発話データを自動で認識し単語レベルで分析する工学的技術もまだ存在しないので、実現は大変難しい。一方、所定期間毎に(例えば、3ヶ月に1度)アンケートに回答してもらい、幼児が新たに発話した単語数の変化を把握する方法もある。この場合、所定期間が長ければ、語彙爆発の正確な時期を把握するのは困難である。また、所定期間が短ければ、アンケートの回答者(幼児の親)への負担が増大する。従って、現実的には、データを記録する親への負担を軽減しつつ、かつ細かい時間ポイントでデータ取得が可能な方法が望ましい。
そこで、本実施の形態では、ウェブ日誌法を利用したデータ取得を適用する。この方法は、幼児が単語を新たに学習(発話)した場合に、ウェブ上の特定のサイトに携帯電話やパーソナルコンピュータからネットワークを介してアクセスし、その日の日誌と共に、幼児が覚えた単語を記録するものである(非特許文献2「小林哲生、永田昌明(2009)、「ウェブを用いた幼児言語発達研究:大規模縦断データ収集の試み」、言語処理学会第15回年次大会論文集、p.534−537.」、非特許文献3「小林哲生、永田昌明(2010年3月)、「ウェブ上で収集した幼児語彙発達データの信頼性検証」、言語処理学会第16回年次大会論文集、p.403−406.」参照)。この方法の有効性は科学的に検証されている点で非常によい。
また、この方法によるデータ取得の利点は、親にとっても比較的容易に記録できる方式でありながら、記録年月日(幼児が新たな単語を覚えた年月日)と幼児の生年月日との差から、幼児が新たな単語を覚えた日齢を算出可能な点である。このように取得されたデータを用いることによって、本実施の形態の語彙学習曲線パラメータ推定装置10により、一日何単語程度学習するのかが推定可能になる。
例えば、図10に示すような入力画面50を入力インターフェースとして入力部12に設け、データ入力を行う。図10の入力画面50には、日付入力領域52と、単語入力領域54と、生年月日表示領域56と、登録修正ボタン58とが設けられている。
日付入力領域52は、直接入力やプルダウンメニューからの選択により、幼児が新しい単語を発話した日付(単語獲得年月日)を入力可能となっている。また、入力画面50を開いた際に、その日の日付が初期値として入力されるようにしてもよい。単語入力領域54には、直接入力により、幼児が新たに覚えた単語の発話及び意味を入力可能となっている。生年月日表示領域56は、予め登録された幼児の生年月日が表示される。生年月日が未登録の場合、または登録済みの生年月日を修正する場合には、登録修正ボタン58を押下することにより、生年月日入力画面を表示させ、生年月日の入力を受け付ける。
このように入力されたデータを受け付けることにより、図11に示すような、いつ(例:2009年9月12日)、どんな単語(例:わんわん)をどんな意味(例:犬)で発話したかを表す、生年月日、単語獲得年月日、発話、及び意味で構成されたデータセットが取得される。
演算部14は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する語彙学習曲線パラメータ推定処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。演算部14は、機能的には、単語獲得日齢算出部20と、データセット記憶部22と、プラトー除去部24、プラトーデータ記憶部26と、関数近似部28と、最適パラメータ選択部30と、語彙学習速度計算部32と、を含んだ構成で表すことができる。なお、プラトー除去部24が、置換手段の一例であり、語彙学習速度計算部32が推定手段の一例である。
単語獲得日齢算出部20は、入力部12から入力されたデータセットの単語獲得年月日と生年月日との差から、それぞれの単語が生後何日目に獲得されたかを示す「獲得日齢」を算出する。例えば、単語獲得年月日が「2009年9月12日」、生年月日が「2008年9月12日」であれば、獲得日齢=2009年9月12日−2008年9月12日=365日齢、と算出することができる。算出された各単語の獲得日齢を昇順に並べ、小さい方から1,2,3,・・・と整数系列を割り当て、累積単語数(何番目に覚えた単語か)を算出する。これにより、獲得日齢xiと累積単語数yiとの組からなるデータセットの時系列が生成され、データセット記憶部22に格納される。
なお、入力部12において直接、獲得日齢と累積単語数との組からなるデータセットを取得する形式としてもよい。この場合、演算部14において、単語獲得日齢算出部20の構成を省略することができる。また、予め記憶装置に蓄積されたデータセットを取得する形式としてもよい。
データセット記憶部22には、単語獲得日齢算出部20により生成された獲得日齢xiと累積単語数yiとの組からなるデータセットの時系列が記憶される。
プラトー除去部24は、データセット記憶部22から取得した獲得日齢と累積語彙数のデータセットの時系列から、次に新しい単語を発話するようになるまでの日齢の間隔がpより大きいプラトー(日齢の間隔)が、全て基準値p’となるように、各データセットの獲得日齢xiを置き換える。これにより、新たな獲得日齢xi’と累積語彙数yiのデータセットの時系列を得る。
ここで、取り除くプラトーの長さのしきい値をpとし、そのプラトーを置き換える基準のプラトーをp’として、pとp’の組み合わせを複数生成しておき、プラトーデータ記憶部26に予め記憶しておく。pとp’の組み合わせは、pとp’のそれぞれを変化させることにより生成される。
プラトー除去部24は、pとp’の各組み合わせを用いて、各データセットの獲得日齢xiの置き換えを行い、pとp’の組み合わせ毎に、新たな獲得日齢xi’(p,p’)と累積語彙数yiのデータセットの時系列を得る。
関数近似部28は、pとp’の組み合わせ毎に、pとp’の組み合わせを用いてプラトー除去部24によって置き換えられた、獲得日齢xi’(p,p’)と累積単語数yiとの組からなるデータセットの時系列を、累積単語数をy軸、獲得日齢をx軸とする座標系にプロットし、プロットされた各データポイント(xi’(p,p’)、yi)に基づいて、xi’(p,p’)からyiへの写像をする、データセット数−1以下のパラメータ数を持つ曲線関数を求める。
具体的には、獲得日齢xi’(p,p’)と累積単語数yiの二つの変数の関係を近似する関数y=fp,p'(x’(p,p’))を仮定する。本実施の形態では、2次関数y=a(x’)2+b(x’)+cのような関数を仮定する。このa,b,cは、以下の(1)式に示すような最小二乗法によって求めることができる。
なお、関数fには様々な関数が考えられるが、幼児の年齢によって変わらない特徴を抽出する場合は、以上のようなパラメータの数が少ない関数を用いることが必要である。この関数としては、2次関数、3次関数などの多項式関数、対数関数、指数関数、ロジスティック関数などの、データセット数−1以下のパラメータ数を持つ関数が考えられる。ここでは、ノルムとして、データと直線との二乗距離を用いているが、他のノルムでもよい。
このように、関数近似部28は、pとp’の組み合わせ毎に、プラトー除去部24によって置き換えられたデータセットの時系列を曲線関数y=fp,p'(x’(p,p’))で近似した結果を得る。
最適パラメータ選択部30は、pとp’の組み合わせ毎に、関数近似部28で近似した曲線関数y=ap,p'x’(p,p’)2+bp,p'x’(p,p’)+cp,p'とデータセットの時系列yiとの距離(たとえば、データと曲線との差分の二乗和)を計算し、計算した距離が最小となる関数に対応するpとp’の組み合わせを、最適なパラメータとして選択する。
語彙学習速度計算部32は、選択された最適なパラメータp、p’を用いたときに関数近似部28で近似した曲線関数y=fp,p'(x’(p,p’))をx’で微分し、任意の日齢(例えば、ユーザにより指定された日齢)における語彙学習速度を計算する。
出力部16は、ディスプレイ、プリンタ、磁気ディスクなどで実装され、演算部14での演算結果が出力される。例えば、最適パラメータ選択部30で選択された最適なパラメータpが、プラトーの長さの最適な閾値として出力され、また、語彙学習速度計算部32で計算された任意の日齢における語彙学習速度が出力される。
<語彙学習曲線パラメータ推定装置の作用>
次に、図12を参照して、本実施の形態の語彙学習曲線パラメータ推定装置10において実行される語彙学習曲線パラメータ推定処理ルーチンについて説明する。
ステップS100で、生年月日、単語獲得年月日、発話、及び意味で構成されたデータセットを取得する。
次に、ステップS102で、上記ステップS100で取得したデータセットの単語獲得年月日と生年月日との差から、それぞれの単語の獲得日齢を算出する。そして、算出された各単語の獲得日齢を昇順に並べ、小さい方から1,2,3,・・・と整数系列を割り当て、累積単語数を算出する。これにより、獲得日齢xiと累積単語数yiとの組からなるデータセットの時系列を生成し、データセット記憶部22に格納する。
次のステップS104では、プラトーデータ記憶部26に記憶された、取り除くプラトーの長さのしきい値p、そのプラトーを置き換える基準値p’の全ての組み合わせのうち、何れか1つの組み合わせp、p’を設定する。例えば、pの値の範囲を4〜15の離散的な値(整数)と想定し、p’の値の範囲を1〜3の離散的な値(整数)と想定し、pの値の範囲及びp’の値の範囲の総当りで得られる組み合わせp、p’が、プラトーデータ記憶部26に記憶されている。
次のステップS106では、上記ステップS104で設定されたp、p’を用いて、上記ステップS102で生成されたデータセットの時系列から、プラトーを除去するように、各データセットを置き換える。
ここで、上記ステップS106は、図13に示す処理ルーチンによって実現される。
まず、獲得日齢xiと累積語彙数yiのデータセットの時系列とそのデータセットの時系列の長さLが取得される。また、設定された組み合わせp、p’を、取り除くプラトーの長さのしきい値、そのプラトーを置き換える基準のプラトーとする。
ステップS120において、データセットの時系列の順番を示す変数iを1に設定すると共に、プラトーの累積値を計算するSを0と設定する。ステップS122では、その設定された累積プラトーSを入力されたxiから引いて,新たな日齢xi’に置き換えて記録する。
そして、ステップS124において、iが長さL未満であるか否かを判定し、iが長さL未満である場合には、次のデータセットがあると判断し、ステップS126で、次のデータセットの日齢xi+1と現在の日齢xiとの差(日齢の間隔)と、しきい値pとを比べ、日齢の差がpより大きければ、ステップS128において、累積のプラトーをS=S+xi+1−xi−p’とする。これはpより大きいプラトー(日齢の間隔)をp’に置き換えるために、以降の各データセットの日齢からどのくらいの値を引けばよいかを決定している。
そして、ステップS130において、iを1インクリメントして、上記ステップS122へ戻る。このように、上記ステップS122〜S128の操作をL個の全てのデータセットに対して繰り返す。
上記ステップS124において、iが長さL以上であると判定されると、次のデータセットがないと判断し、ステップS132において、上記ステップS122で記録した全てのxj’、yjを出力して、処理ルーチンを終了する。
上記の処理ルーチンにより、設定された組み合わせp、p’に対する、獲得日齢xi’(p,p’)と累積語彙数yiというデータセットの更新値が得られる。
そして、上記図12のステップS108で、上記ステップS106で設定された組み合わせp、p’を用いてプラトーを除去するように置き換えられた獲得日齢xi’(p,p’)と累積語彙数yiとの組からなるデータセットの時系列を、累積単語数をy軸、獲得日齢をx軸とする座標系にプロットし、上記(1)式に従って、プロットされた各データポイントとのノルムが最小になるような2次関数(y=ax’2+bx’+c)を求める。
次のステップS110では、プラトーデータ記憶部26に記憶された全ての組み合わせp、p’について、上記ステップS104〜S108の処理を実行したか否かを判定し、上記ステップS104〜S108の処理を実行していない組み合わせp、p’が存在する場合には、上記ステップS104へ戻り、当該組み合わせp、p’を設定する。一方、プラトーデータ記憶部26に記憶された全ての組み合わせp、p’について、上記ステップS104〜S108の処理を実行した場合には、ステップS112へ移行する。
ステップS112では、全ての組み合わせp、p’について上記ステップS108で得られた2次関数での近似の結果に基づいて、全ての組み合わせp、p’毎に、データセットの時系列と近似された2次関数との距離を計算し、最適な組み合わせp、p’を選択する。
次に、ステップS114で、上記ステップS112で選択された最適な組み合わせp、p’を用いたときに上記ステップS108で求めた曲線関数の微分から、任意の日齢における語彙学習速度を計算する。そして、ステップS116で、ステップS114で計算された語彙学習速度を出力すると共に、上記ステップS112で選択された最適な組み合わせp、p’のうちのpを、プラトーの長さの最適な閾値として出力して、処理を終了する。
表1に、上記図14〜図17に示す15名分の話者の実データを用いて語彙学習曲線を近似する2次曲線を求めた結果を示しておく。ここでは、最小自乗曲線を計算し距離を求め、全ての、p、p’の中で最適な2次関数を探索した。このときのp、p’に対する近似関数をy=fp,p'(x’(p,p’))とし、このとき得られるパラメータをap,p’,bp,p’,cp,p’とする。ただし、p、p’の組み合わせにおけるpの範囲は4〜15とし、p’を1,3とした。
以上説明したように、本実施の形態の語彙学習曲線パラメータ推定装置によれば、プラトーの閾値及び基準値の複数の組み合わせの各々を用いて、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなるプラトーについて、日齢の間隔が基準値となるように、データセットの各々の日齢を置き換えて、曲線関数で近似し、閾値及び基準値の最適な組み合わせを選択することにより、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、その語彙学習曲線を特徴づける語彙学習曲線パラメータ(例えば、プラトーの長さの最適な閾値)を、安定して精度良く推定することができる。また、閾値及び基準値の最適な組み合わせを用いて近似した曲線関数の微分から、語彙学習速度を推定することにより、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習速度を精度良く推定することができる。
また、幼児の語彙発達の特徴を捉えて、幼児が新しい単語を発話するようになった日齢と単語の累積数との関係を示すデータからプラトーを取り除き、その語彙学習曲線を次数の少ない曲線関数で近似し、パラメータを推定する。このパラメータ推定の効果のひとつは、語彙学習初期の少数のデータ(例えば、最初に学習した20語)から、真の語彙学習曲線のパラメータを推定できるだけでなく、この時期のデータを幼児固有の語彙学習曲線の予測に利用することを可能とする。こうした幼児固有のパラメータを利用すれば、各個人の特徴と発達に合わせたオーダーメード型教育をより効果的なものにすることが可能になり、商業上、たいへん価値のある指標となりうる。
なお、上記実施の形態では、プラトーデータ記憶部に、p、p’の全ての組み合わせを記憶しておく場合を例に説明したが、pの値の範囲、p’の値の範囲だけを記憶しておくようにしてもよい。この場合には、pの値の範囲、p’の値の範囲で、p、p’を変化させて、p、p’の種々の組み合わせを生成するようにすればよい。
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の語彙学習曲線パラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 語彙学習曲線パラメータ推定装置
12 入力部
14 演算部
16 出力部
20 単語獲得日齢算出部
22 データセット記憶部
24 プラトー除去部
26 プラトーデータ記憶部
28 関数近似部
30 最適パラメータ選択部
32 語彙学習速度計算部

Claims (6)

  1. 幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える置換手段と、
    前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する関数近似手段と、
    前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、前記閾値を出力する最適選択手段と、
    を含む語彙学習曲線パラメータ推定装置。
  2. 幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える置換手段と、
    前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する関数近似手段と、
    前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択する最適選択手段と、
    前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定する推定手段と、
    を含む語彙学習曲線パラメータ推定装置。
  3. 前記関数近似手段は、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移に対して、関数近似した曲線関数と各データとの差分の二乗和が最小となるように、前記データの時系列の推移を前記曲線関数で近似する請求項1又は2記載の語彙学習曲線パラメータ推定装置。
  4. 置換手段、関数近似手段、及び最適選択手段を含む語彙学習パラメータ推定装置における語彙学習パラメータ推定方法であって、
    前記語彙学習パラメータ推定装置は、
    前記置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換えるステップと、
    前記関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似するステップと、
    前記最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、前記閾値を出力するステップと、
    を含んで実行する語彙学習曲線パラメータ推定方法。
  5. 置換手段、関数近似手段、最適選択手段、及び推定手段を含む語彙学習パラメータ推定装置における語彙学習曲線パラメータ推定方法であって、
    前記語彙学習曲線パラメータ推定装置は、
    前記置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換えるステップと、
    前記関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似するステップと、
    前記最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択するステップと、
    前記推定手段によって、前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定するステップと、
    を含んで実行する語彙学習曲線パラメータ推定方法。
  6. コンピュータを、請求項1〜請求項3の何れか1項記載の語彙学習曲線パラメータ推定装置を構成する各手段として機能させるためのプログラム。
JP2012029951A 2012-02-14 2012-02-14 語彙学習曲線パラメータ推定装置、方法、及びプログラム Active JP5657585B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012029951A JP5657585B2 (ja) 2012-02-14 2012-02-14 語彙学習曲線パラメータ推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012029951A JP5657585B2 (ja) 2012-02-14 2012-02-14 語彙学習曲線パラメータ推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013167981A true JP2013167981A (ja) 2013-08-29
JP5657585B2 JP5657585B2 (ja) 2015-01-21

Family

ID=49178346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012029951A Active JP5657585B2 (ja) 2012-02-14 2012-02-14 語彙学習曲線パラメータ推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5657585B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025605A (ja) * 2003-07-04 2005-01-27 Hitachi Eng Co Ltd 物理データフィッティング係数生成システムおよび方法
JP2006337125A (ja) * 2005-06-01 2006-12-14 Hitachi High-Technologies Corp 自動分析装置,自動分析装置を用いた分析方法
JP2011081491A (ja) * 2009-10-05 2011-04-21 Nec Biglobe Ltd 時系列分析装置、時系列分析方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025605A (ja) * 2003-07-04 2005-01-27 Hitachi Eng Co Ltd 物理データフィッティング係数生成システムおよび方法
JP2006337125A (ja) * 2005-06-01 2006-12-14 Hitachi High-Technologies Corp 自動分析装置,自動分析装置を用いた分析方法
JP2011081491A (ja) * 2009-10-05 2011-04-21 Nec Biglobe Ltd 時系列分析装置、時系列分析方法、及びプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200300705005; 遠山 修治: '語彙獲得における即時学習則の適用条件モデル' 電子情報通信学会技術研究報告 Vol.101 No.615, 20020121, 73-79ページ, 社団法人電子情報通信学会 *
CSNG200500834002; 森藤 大地: 'データ駆動学習仮説に基づく統語知識獲得モデル' 電子情報通信学会技術研究報告 Vol.104 No.139, 20040617, 7-12ページ, 社団法人電子情報通信学会 *
JPN6014032202; 森藤 大地: 'データ駆動学習仮説に基づく統語知識獲得モデル' 電子情報通信学会技術研究報告 Vol.104 No.139, 20040617, 7-12ページ, 社団法人電子情報通信学会 *
JPN6014032203; 遠山 修治: '語彙獲得における即時学習則の適用条件モデル' 電子情報通信学会技術研究報告 Vol.101 No.615, 20020121, 73-79ページ, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
JP5657585B2 (ja) 2015-01-21

Similar Documents

Publication Publication Date Title
US11037553B2 (en) Learning-type interactive device
Xu et al. Automated analysis of child phonetic production using naturalistic recordings
MacDonald et al. Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia.
Malvern et al. Lexical diversity and language development
López-de-Ipiña et al. Feature selection for spontaneous speech analysis to aid in Alzheimer's disease diagnosis: A fractal dimension approach
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
Glasser Automatic speech recognition services: Deaf and hard-of-hearing usability
Munson et al. An exploration of methods for rating children's productions of sibilant fricatives
KR20210071713A (ko) 스피치 스킬 피드백 시스템
Foushee et al. Lexical Complexity of Child-Directed and Overheard Speech: Implications for Learning.
Gao et al. Which phonetic features should pronunciation Instructions focus on? An evaluation on the accentedness of segmental/syllable errors in L2 speech
US20220051670A1 (en) Learning support device, learning support method, and recording medium
JP5604464B2 (ja) 語彙学習曲線パラメータ推定装置、方法、及びプログラム
Lustyk et al. Evaluation of disfluent speech by means of automatic acoustic measurements
JP6377516B2 (ja) 単語提示装置、方法及びプログラム
JP5925140B2 (ja) 幼児語彙理解難易度評価装置と幼児語彙検索装置と幼児語彙分類装置と、それらの方法とプログラム
Gonzales Sociolinguistic analysis with missing metadata? Leveraging linguistic and semiotic resources through deep learning to investigate English variation and change on Twitter
JP5657585B2 (ja) 語彙学習曲線パラメータ推定装置、方法、及びプログラム
JP5806642B2 (ja) 幼児単語探索装置とその方法とプログラム
JP5604344B2 (ja) 語彙爆発時期検出装置、方法、及びプログラム
JP6054039B2 (ja) 語彙学習速度推定装置、方法、及びプログラム
JP2013254272A (ja) 理解語月齢テーブル生成装置、対象年齢推定装置、方法、及びプログラム
JP5604347B2 (ja) 語彙爆発時期推定装置、方法、及びプログラム
JP5785905B2 (ja) 語彙学習速度予測パラメータ生成装置と語彙学習速度予測装置とそれらの方法とプログラム
JP2020177366A (ja) 発話ペア獲得装置、発話ペア獲得方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141126

R150 Certificate of patent or registration of utility model

Ref document number: 5657585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150