JP2013167981A

JP2013167981A - 語彙学習曲線パラメータ推定装置、方法、及びプログラム

Info

Publication number: JP2013167981A
Application number: JP2012029951A
Authority: JP
Inventors: Yasuhiro Minami; 泰浩南; Tetsuo Kobayashi; 哲生小林; Hiroaki Sugiyama; 弘晃杉山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-02-14
Filing date: 2012-02-14
Publication date: 2013-08-29
Anticipated expiration: 2032-02-14
Also published as: JP5657585B2

Abstract

【課題】語彙爆発時期を仮定することなく、安定して語彙学習曲線パラメータを精度良く推定することができるようにする。
【解決手段】プラトーの閾値及び基準値の複数の組み合わせの各々を用いて、プラトー除去部２４によって、幼児が新しい単語を発話するようになった日齢と、累積数との関係を示すデータセットの時系列に対して、プラトーについて、日齢の間隔が基準値となるように、データセットの各々の日齢を置き換え、関数近似部２８によって、置き換えられたデータセットを用いたデータセットの時系列の推移に対して、曲線関数で近似する。最適パラメータ選択部３０によって、プラトーの閾値及び基準値の最適な組み合わせを選択し、最適なプラトーの閾値を出力する。
【選択図】図９

Description

本発明は、語彙学習曲線パラメータ推定装置、方法、及びプログラムに係り、特に、幼児の語彙学習速度などのパラメータを推定する語彙学習曲線パラメータ推定装置、方法、及びプログラムに関する。

ヒトの言語発達は「人間とは何か」を考える上で重要な科学的知見や示唆を提供し得るものでありながら、現状としては未解決の問題が多いため、言語発達に関する測定技術の進展や商業上でのサービス展開はほとんど見られないのが現状である。特に、音声認知や語彙獲得、文法操作などの基本能力の中でも、語彙獲得に関する科学技術はほとんど進展が見られていない。しかし、健やかな発達を緩やかに後押しする教育や、言語発達遅滞を含む発達障害に関する早期発見・支援などの必要性を考えると、本分野での技術開発は重要な意味をもつと考えられる。

幼児の言語発達の中でも特に特徴的で且つ個人性を捉える上で重要な現象のひとつは、語彙学習速度である。しかし、この語彙学習速度は、語彙爆発（またはボキャブラリー・スパート）といわれる事象を抜きに、求めることは出来ないと思われてきた。語彙爆発とは、発達心理学者が２０世紀中頃から注目してきた現象であり、１歳後半に起こるとされる語彙学習速度の急激な変化のことを指す。基本的には、幼児は１歳の誕生日前後に初語を発するようになるが、しばらくは非常に緩やかな速度で単語を覚えていくことになる。しかし１歳半以降になると、急激に単語を発するようになるため、その劇的な変化を「爆発」や「スパート」と呼んできた。語彙爆発は多くの親が意識的に気づくほど劇的な変化を伴うため、心理学の分野だけでなく育児産業の関係者にもよく知られている。このため，子どもの語彙発達の様子を数値化するためには，語彙爆発をモデル化しなければならないと考えられている。

従来、発達心理学の分野では、語彙チェックリスト（親の回答に基づくアンケート調査）を用いた大規模集団データで語彙爆発の現象を複数の言語で確認してきた。月齢ごとに集団データの平均値をプロットすると、ゆるやかな上昇を示す２次曲線になり、その変曲点が１８−２０ヶ月ころに現れることを見出してきた。こうした集団データから、語彙爆発が多くの子どもでみられる一般的な現象であるとみなしてきた。

語彙学習速度を見積もるためには、語彙爆発について、語彙爆発が個人毎にいつ起こるのか、また、語彙爆発時期（語彙爆発が開始される時期）をどのように検出及び推定するのかということが重要であるが、従来、語彙爆発時期を推定し、その前後で語彙学習の速度を見積もる以下の４つの手法が提案されている。

１つ目は、特に計算などせずグラフを描き、目視で判定する目視法である。２つ目は、５０語覚えた時点を語彙爆発時期と定義する５０語達成基準法である。３つ目は、ある特定の期間（例えば３週間）で達成基準（例えば３０語以上）を満たした時期を語彙爆発時期にするという特定期間達成基準法である。４つ目は、語彙獲得データの速度成分をロジスティック回帰式に近似させ、その変曲点を語彙爆発時期とするロジスティック回帰近似法である（非特許文献１参照）。

今までは、これらの手法により語彙爆発を決定し、その前後の時期の語彙学習速度を決定する手法を用いていた。

Ganger, J., & Brent, M. R. (2004). Reexamining the vocabulary spurt. Developmental Psychology, Vol. 40, No. 4, 621-632.

しかしながら、１つ目の手法は、現象の有無をある程度確認可能であるが、自動で語彙速度を決定できない、という問題がある。また、２つ目の手法は、実証データに基づいた基準ではあるが、英語圏の中流階層の非常に少ないサンプルに基づく基準であったため、多くの文化圏の様々な子どもに当てはまる保証はない、という問題がある。また、語彙爆発の個人差が全く想定されていない、という問題もある。

また、３つ目の手法は、ある特定の時間範囲で語彙学習速度の変化を検出可能であるが、一義的で恣意的な達成基準の設定は、個人間の語彙学習速度を考慮に入れていないため、個人によっては語彙爆発時期を完全に見誤る可能性がある、という問題がある。

また、４つ目の手法は、個人毎にデータを近似させることで、個人間の語彙学習速度がたとえ異なっていても対応はできるものの、幼児の語彙発達の特徴を正確に捉えきれていないため、ロジスティック回帰の近似精度が低く、語彙爆発の存在自体も確認できない場合が多い、という問題がある。また、この手法では、語彙爆発以降のデータが豊富に揃っていることが前提となっており、２歳以降までのデータが揃わないと適応できない、という問題もある。

４つ目の手法の問題点を指摘するため、幼児の語彙学習曲線を図１４〜図１７に示す。これは横軸に幼児日齢を示し、縦軸に獲得された累積語彙を示している。４つ目の手法は、図１４（Ｂ）のような大きな不連続性、図１４（Ｃ）、図１５（Ａ）、図１６（Ａ）のようなＳ字のカーブが現れるような複雑な語彙学習曲線はモデル化できない。また、図１７（Ｃ）のように複雑な曲線もモデル化できなかった。

上記のように語彙爆発という現象を仮定する手法では、そのモデル化が極めて難しいため、どの手法を用いても、幼児に特有の語彙学習速度を安定的に求めることは不可能であった。

また、これらの手法は、語彙爆発を仮定するため、語彙爆発の前後で全く異なる語彙学習速度のモデル化を行うことになり、全ての時期に渡る幼児の特徴を表す特徴量を抽出することにはなっていない。

本発明は上記問題点に鑑みてなされたものであり、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習に関するパラメータを精度良く推定することができる語彙学習曲線パラメータ推定装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る語彙学習曲線パラメータ推定装置は、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える置換手段と、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する関数近似手段と、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、前記閾値を出力する最適選択手段と、を含んで構成されている。

第２の発明に係る語彙学習曲線パラメータ推定方法は、置換手段、関数近似手段、及び最適選択手段を含む語彙学習曲線パラメータ推定装置における語彙学習曲線パラメータ推定方法であって、前記語彙学習曲線パラメータ推定装置は、前記置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換えるステップと、前記関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似するステップと、前記最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、前記閾値を出力するステップと、を含んで実行する。

第１の発明及び第２の発明によれば、置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える。関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する。

そして、最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、閾値を出力する。

このように、閾値及び前記基準値の複数の組み合わせの各々を用いて、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、日齢の間隔が基準値となるように、データの各々の日齢を置き換えて、曲線関数で近似し、閾値及び基準値の最適な組み合わせを選択することにより、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習曲線パラメータを精度良く推定することができる。

第３の発明の語彙学習曲線パラメータ推定装置は、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える置換手段と、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する関数近似手段と、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択する最適選択手段と、前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定する推定手段と、を含んで構成されている。

第４の発明に係る語彙学習曲線パラメータ推定方法は、置換手段、関数近似手段、最適選択手段、及び推定手段を含む語彙学習曲線パラメータ推定装置における語彙学習曲線パラメータ推定方法であって、前記語彙学習曲線パラメータ推定装置は、前記置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換えるステップと、前記関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似するステップと、前記最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択するステップと、前記推定手段によって、前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定するステップと、を含んで実行する。

第３の発明及び第４の発明によれば、置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える。関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する。

そして、最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択する。推定手段によって、前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定する。

このように、閾値及び前記基準値の複数の組み合わせの各々を用いて、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、日齢の間隔が基準値となるように、データの各々の日齢を置き換えて、曲線関数で近似し、閾値及び基準値の最適な組み合わせを用いて近似した曲線関数に基づいて、語彙学習速度を推定することにより、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習速度を精度良く推定することができる。

また、本発明のプログラムは、コンピュータを、上記の語彙学習曲線パラメータ推定装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の語彙学習曲線パラメータ推定装置、方法、及びプログラムによれば、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習速度または語彙学習曲線パラメータを精度良く推定することができる、という効果が得られる。

幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。本実施の形態の語彙学習曲線パラメータ推定装置の機能的構成を示すブロック図である。入力画面の一例を示す図である。入力データセットの一例を示す図である。本実施の形態の語彙学習曲線パラメータ推定装置における語彙学習曲線パラメータ推定処理ルーチンの内容を示すフローチャートである。本実施の形態の語彙学習曲線パラメータ推定装置におけるプラトーを除去する処理の流れを示すフローチャートである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。幼児の語彙学習曲線を示すグラフである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜発明の概要＞
最初に、発明者らが発見した語彙学習に関する自然法則の説明を行う。発明者らは、図１４〜図１７において、語彙学習曲線に、一定日間（例えば6日以上）１単語も学習していない期間が頻発することを発見した。この一定日間以上、１単語も覚えない学習曲線の部分をプラトー（plateau：「平原」を意味する学習心理学の専門用語）と呼ぶことにする。

発明者らの語彙学習曲線のモデルは、幼児の語彙学習には真の学習曲線が存在すると仮定し、このプラトーが語彙学習の初期に頻繁に挿入されることで、語彙爆発の現象が観測されるというものである。

これを実証するため、プラトーの部分を一定の期間（例えば１日）に置き換え（プラトー除去）語彙学習曲線を引き直した。これにより、語彙学習曲線が次数の少ない曲線で近似できることが分かった。発明者らは、この曲線が、真の語彙学習曲線であると仮定する。図１〜図８に、その様子を示す。−は、図１４〜図１７で示した語彙学習曲線であり、＋がプラトーの開始を示す。○はプラトー除去後の学習曲線を示す。実線はその学習曲線を近似した次数の少ない曲線の一例である２次曲線を表す。このようにプラトーを除くと、学習曲線は次数の少ない曲線（パラメータ数がデータ数−１以下の曲線）で近似できる。そのパラメータが幼児特有の特徴を示すようになる。ここで発見した自然現象を整理すると以下のようになる。

（１）プラトーは、語彙学習の最初から従来語彙爆発と呼ばれていた時期の終わりぐらいまで続き、その後は数、長さとも減少する。

（２）プラトーを除くと、語彙爆発によると思われる複雑な語彙学習曲線は、次数の少ない曲線でモデル化できる。

本発明では、この新たに発見した自然現象を利用し、語彙爆発に依存しない幼児に固有な語彙学習曲線の次数の少ない曲線を求め、その語彙学習曲線の特徴を表すパラメータを求める。

＜システム構成＞
図９に示すように、本実施の形態に係る語彙学習曲線パラメータ推定装置１０は、種々のデータの入力を受け付ける入力部１２と、語彙学習曲線に関するパラメータを推定する演算部１４と、推定結果を出力する出力部１６と、を備えている。

入力部１２は、既知のキーボード、マウス、記憶装置などの入力器により実現され、入力データを受け付ける。

ここで、幼児の語彙学習曲線のパラメータを推定するために、どういったデータを参照するかがまずは問題となる。幼児の発話を全てデジタルビデオレコーダーなどの電子メディアで記録可能であれば、それを分析するのが最も高精度な方法といえるが、データ取得にかかるコストは膨大で、かつ幼児の曖昧な発話データを自動で認識し単語レベルで分析する工学的技術もまだ存在しないので、実現は大変難しい。一方、所定期間毎に（例えば、３ヶ月に１度）アンケートに回答してもらい、幼児が新たに発話した単語数の変化を把握する方法もある。この場合、所定期間が長ければ、語彙爆発の正確な時期を把握するのは困難である。また、所定期間が短ければ、アンケートの回答者（幼児の親）への負担が増大する。従って、現実的には、データを記録する親への負担を軽減しつつ、かつ細かい時間ポイントでデータ取得が可能な方法が望ましい。

そこで、本実施の形態では、ウェブ日誌法を利用したデータ取得を適用する。この方法は、幼児が単語を新たに学習（発話）した場合に、ウェブ上の特定のサイトに携帯電話やパーソナルコンピュータからネットワークを介してアクセスし、その日の日誌と共に、幼児が覚えた単語を記録するものである（非特許文献２「小林哲生、永田昌明（２００９）、「ウェブを用いた幼児言語発達研究：大規模縦断データ収集の試み」、言語処理学会第１５回年次大会論文集、ｐ．５３４−５３７．」、非特許文献３「小林哲生、永田昌明（２０１０年３月）、「ウェブ上で収集した幼児語彙発達データの信頼性検証」、言語処理学会第１６回年次大会論文集、ｐ．４０３−４０６．」参照）。この方法の有効性は科学的に検証されている点で非常によい。

また、この方法によるデータ取得の利点は、親にとっても比較的容易に記録できる方式でありながら、記録年月日（幼児が新たな単語を覚えた年月日）と幼児の生年月日との差から、幼児が新たな単語を覚えた日齢を算出可能な点である。このように取得されたデータを用いることによって、本実施の形態の語彙学習曲線パラメータ推定装置１０により、一日何単語程度学習するのかが推定可能になる。

例えば、図１０に示すような入力画面５０を入力インターフェースとして入力部１２に設け、データ入力を行う。図１０の入力画面５０には、日付入力領域５２と、単語入力領域５４と、生年月日表示領域５６と、登録修正ボタン５８とが設けられている。

日付入力領域５２は、直接入力やプルダウンメニューからの選択により、幼児が新しい単語を発話した日付（単語獲得年月日）を入力可能となっている。また、入力画面５０を開いた際に、その日の日付が初期値として入力されるようにしてもよい。単語入力領域５４には、直接入力により、幼児が新たに覚えた単語の発話及び意味を入力可能となっている。生年月日表示領域５６は、予め登録された幼児の生年月日が表示される。生年月日が未登録の場合、または登録済みの生年月日を修正する場合には、登録修正ボタン５８を押下することにより、生年月日入力画面を表示させ、生年月日の入力を受け付ける。

このように入力されたデータを受け付けることにより、図１１に示すような、いつ（例：２００９年９月１２日）、どんな単語（例：わんわん）をどんな意味（例：犬）で発話したかを表す、生年月日、単語獲得年月日、発話、及び意味で構成されたデータセットが取得される。

演算部１４は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する語彙学習曲線パラメータ推定処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。演算部１４は、機能的には、単語獲得日齢算出部２０と、データセット記憶部２２と、プラトー除去部２４、プラトーデータ記憶部２６と、関数近似部２８と、最適パラメータ選択部３０と、語彙学習速度計算部３２と、を含んだ構成で表すことができる。なお、プラトー除去部２４が、置換手段の一例であり、語彙学習速度計算部３２が推定手段の一例である。

単語獲得日齢算出部２０は、入力部１２から入力されたデータセットの単語獲得年月日と生年月日との差から、それぞれの単語が生後何日目に獲得されたかを示す「獲得日齢」を算出する。例えば、単語獲得年月日が「２００９年９月１２日」、生年月日が「２００８年９月１２日」であれば、獲得日齢＝２００９年９月１２日−２００８年９月１２日＝３６５日齢、と算出することができる。算出された各単語の獲得日齢を昇順に並べ、小さい方から１，２，３，・・・と整数系列を割り当て、累積単語数（何番目に覚えた単語か）を算出する。これにより、獲得日齢ｘ_iと累積単語数ｙ_iとの組からなるデータセットの時系列が生成され、データセット記憶部２２に格納される。

なお、入力部１２において直接、獲得日齢と累積単語数との組からなるデータセットを取得する形式としてもよい。この場合、演算部１４において、単語獲得日齢算出部２０の構成を省略することができる。また、予め記憶装置に蓄積されたデータセットを取得する形式としてもよい。

データセット記憶部２２には、単語獲得日齢算出部２０により生成された獲得日齢ｘ_iと累積単語数ｙ_iとの組からなるデータセットの時系列が記憶される。

プラトー除去部２４は、データセット記憶部２２から取得した獲得日齢と累積語彙数のデータセットの時系列から、次に新しい単語を発話するようになるまでの日齢の間隔がｐより大きいプラトー（日齢の間隔）が、全て基準値p’となるように、各データセットの獲得日齢ｘ_iを置き換える。これにより、新たな獲得日齢ｘ_i’と累積語彙数ｙ_iのデータセットの時系列を得る。

ここで、取り除くプラトーの長さのしきい値をpとし、そのプラトーを置き換える基準のプラトーをp’として、ｐとｐ’の組み合わせを複数生成しておき、プラトーデータ記憶部２６に予め記憶しておく。ｐとｐ’の組み合わせは、ｐとｐ’のそれぞれを変化させることにより生成される。

プラトー除去部２４は、ｐとｐ’の各組み合わせを用いて、各データセットの獲得日齢ｘ_iの置き換えを行い、ｐとｐ’の組み合わせ毎に、新たな獲得日齢ｘ_i’（ｐ，ｐ’）と累積語彙数ｙ_iのデータセットの時系列を得る。

関数近似部２８は、ｐとｐ’の組み合わせ毎に、ｐとｐ’の組み合わせを用いてプラトー除去部２４によって置き換えられた、獲得日齢ｘ_i’（ｐ，ｐ’）と累積単語数ｙ_iとの組からなるデータセットの時系列を、累積単語数をｙ軸、獲得日齢をｘ軸とする座標系にプロットし、プロットされた各データポイント（ｘ_i’（ｐ，ｐ’）、ｙ_i）に基づいて、ｘ_i’（ｐ，ｐ’）からｙ_iへの写像をする、データセット数−１以下のパラメータ数を持つ曲線関数を求める。

具体的には、獲得日齢ｘ_i’（ｐ，ｐ’）と累積単語数ｙ_iの二つの変数の関係を近似する関数ｙ＝ｆ_p,p'（ｘ’（ｐ，ｐ’））を仮定する。本実施の形態では、２次関数ｙ＝ａ（ｘ’）²＋ｂ（ｘ’）＋ｃのような関数を仮定する。このａ，ｂ，ｃは、以下の（１）式に示すような最小二乗法によって求めることができる。

なお、関数ｆには様々な関数が考えられるが、幼児の年齢によって変わらない特徴を抽出する場合は、以上のようなパラメータの数が少ない関数を用いることが必要である。この関数としては、２次関数、３次関数などの多項式関数、対数関数、指数関数、ロジスティック関数などの、データセット数−１以下のパラメータ数を持つ関数が考えられる。ここでは、ノルムとして、データと直線との二乗距離を用いているが、他のノルムでもよい。

このように、関数近似部２８は、ｐとｐ’の組み合わせ毎に、プラトー除去部２４によって置き換えられたデータセットの時系列を曲線関数ｙ＝ｆ_p,p'（ｘ’（ｐ，ｐ’））で近似した結果を得る。

最適パラメータ選択部３０は、ｐとｐ’の組み合わせ毎に、関数近似部２８で近似した曲線関数ｙ＝ａ_p,p'ｘ’（ｐ，ｐ’）²＋ｂ_p,p'ｘ’（ｐ，ｐ’）＋ｃ_p,p'とデータセットの時系列ｙ_iとの距離（たとえば、データと曲線との差分の二乗和）を計算し、計算した距離が最小となる関数に対応するｐとｐ’の組み合わせを、最適なパラメータとして選択する。

語彙学習速度計算部３２は、選択された最適なパラメータｐ、ｐ’を用いたときに関数近似部２８で近似した曲線関数ｙ＝ｆ_p,p'（ｘ’（ｐ，ｐ’））をｘ’で微分し、任意の日齢（例えば、ユーザにより指定された日齢）における語彙学習速度を計算する。

出力部１６は、ディスプレイ、プリンタ、磁気ディスクなどで実装され、演算部１４での演算結果が出力される。例えば、最適パラメータ選択部３０で選択された最適なパラメータｐが、プラトーの長さの最適な閾値として出力され、また、語彙学習速度計算部３２で計算された任意の日齢における語彙学習速度が出力される。

＜語彙学習曲線パラメータ推定装置の作用＞
次に、図１２を参照して、本実施の形態の語彙学習曲線パラメータ推定装置１０において実行される語彙学習曲線パラメータ推定処理ルーチンについて説明する。

ステップＳ１００で、生年月日、単語獲得年月日、発話、及び意味で構成されたデータセットを取得する。

次に、ステップＳ１０２で、上記ステップＳ１００で取得したデータセットの単語獲得年月日と生年月日との差から、それぞれの単語の獲得日齢を算出する。そして、算出された各単語の獲得日齢を昇順に並べ、小さい方から１，２，３，・・・と整数系列を割り当て、累積単語数を算出する。これにより、獲得日齢ｘ_iと累積単語数ｙ_iとの組からなるデータセットの時系列を生成し、データセット記憶部２２に格納する。

次のステップＳ１０４では、プラトーデータ記憶部２６に記憶された、取り除くプラトーの長さのしきい値p、そのプラトーを置き換える基準値ｐ’の全ての組み合わせのうち、何れか１つの組み合わせｐ、ｐ’を設定する。例えば、ｐの値の範囲を４〜１５の離散的な値（整数）と想定し、ｐ’の値の範囲を１〜3の離散的な値（整数）と想定し、ｐの値の範囲及びｐ’の値の範囲の総当りで得られる組み合わせｐ、ｐ’が、プラトーデータ記憶部２６に記憶されている。

次のステップＳ１０６では、上記ステップＳ１０４で設定されたｐ、ｐ’を用いて、上記ステップＳ１０２で生成されたデータセットの時系列から、プラトーを除去するように、各データセットを置き換える。

ここで、上記ステップＳ１０６は、図１３に示す処理ルーチンによって実現される。

まず、獲得日齢ｘ_iと累積語彙数ｙ_iのデータセットの時系列とそのデータセットの時系列の長さＬが取得される。また、設定された組み合わせｐ、ｐ’を、取り除くプラトーの長さのしきい値、そのプラトーを置き換える基準のプラトーとする。

ステップＳ１２０において、データセットの時系列の順番を示す変数ｉを１に設定すると共に、プラトーの累積値を計算するＳを０と設定する。ステップＳ１２２では、その設定された累積プラトーＳを入力されたｘ_iから引いて，新たな日齢ｘ_i’に置き換えて記録する。

そして、ステップＳ１２４において、ｉが長さＬ未満であるか否かを判定し、ｉが長さＬ未満である場合には、次のデータセットがあると判断し、ステップＳ１２６で、次のデータセットの日齢ｘ_i+1と現在の日齢ｘ_iとの差（日齢の間隔）と、しきい値ｐとを比べ、日齢の差がｐより大きければ、ステップＳ１２８において、累積のプラトーをＳ＝Ｓ＋ｘ_i+1−ｘ_i−ｐ’とする。これはpより大きいプラトー（日齢の間隔）をp’に置き換えるために、以降の各データセットの日齢からどのくらいの値を引けばよいかを決定している。

そして、ステップＳ１３０において、ｉを１インクリメントして、上記ステップＳ１２２へ戻る。このように、上記ステップＳ１２２〜Ｓ１２８の操作をＬ個の全てのデータセットに対して繰り返す。

上記ステップＳ１２４において、ｉが長さＬ以上であると判定されると、次のデータセットがないと判断し、ステップＳ１３２において、上記ステップＳ１２２で記録した全てのｘ_j’、ｙ_jを出力して、処理ルーチンを終了する。

上記の処理ルーチンにより、設定された組み合わせｐ、ｐ’に対する、獲得日齢ｘ_i’（ｐ，ｐ’）と累積語彙数ｙ_iというデータセットの更新値が得られる。

そして、上記図１２のステップＳ１０８で、上記ステップＳ１０６で設定された組み合わせｐ、ｐ’を用いてプラトーを除去するように置き換えられた獲得日齢ｘ_i’（ｐ，ｐ’）と累積語彙数ｙ_iとの組からなるデータセットの時系列を、累積単語数をｙ軸、獲得日齢をｘ軸とする座標系にプロットし、上記（１）式に従って、プロットされた各データポイントとのノルムが最小になるような２次関数（ｙ＝ａｘ’²＋ｂｘ’＋ｃ）を求める。

次のステップＳ１１０では、プラトーデータ記憶部２６に記憶された全ての組み合わせｐ、ｐ’について、上記ステップＳ１０４〜Ｓ１０８の処理を実行したか否かを判定し、上記ステップＳ１０４〜Ｓ１０８の処理を実行していない組み合わせｐ、ｐ’が存在する場合には、上記ステップＳ１０４へ戻り、当該組み合わせｐ、ｐ’を設定する。一方、プラトーデータ記憶部２６に記憶された全ての組み合わせｐ、ｐ’について、上記ステップＳ１０４〜Ｓ１０８の処理を実行した場合には、ステップＳ１１２へ移行する。

ステップＳ１１２では、全ての組み合わせｐ、ｐ’について上記ステップＳ１０８で得られた２次関数での近似の結果に基づいて、全ての組み合わせｐ、ｐ’毎に、データセットの時系列と近似された２次関数との距離を計算し、最適な組み合わせｐ、ｐ’を選択する。

次に、ステップＳ１１４で、上記ステップＳ１１２で選択された最適な組み合わせｐ、ｐ’を用いたときに上記ステップＳ１０８で求めた曲線関数の微分から、任意の日齢における語彙学習速度を計算する。そして、ステップＳ１１６で、ステップＳ１１４で計算された語彙学習速度を出力すると共に、上記ステップＳ１１２で選択された最適な組み合わせｐ、ｐ’のうちのｐを、プラトーの長さの最適な閾値として出力して、処理を終了する。

表１に、上記図１４〜図１７に示す１５名分の話者の実データを用いて語彙学習曲線を近似する２次曲線を求めた結果を示しておく。ここでは、最小自乗曲線を計算し距離を求め、全ての、ｐ、ｐ’の中で最適な２次関数を探索した。このときのｐ、ｐ’に対する近似関数をｙ＝ｆ_p,p'（ｘ’（ｐ，ｐ’））とし、このとき得られるパラメータをａ_p,p’，ｂ_p,p’，ｃ_p,p’とする。ただし、ｐ、ｐ’の組み合わせにおけるｐの範囲は４〜１５とし、ｐ’を１，３とした。

以上説明したように、本実施の形態の語彙学習曲線パラメータ推定装置によれば、プラトーの閾値及び基準値の複数の組み合わせの各々を用いて、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなるプラトーについて、日齢の間隔が基準値となるように、データセットの各々の日齢を置き換えて、曲線関数で近似し、閾値及び基準値の最適な組み合わせを選択することにより、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、その語彙学習曲線を特徴づける語彙学習曲線パラメータ（例えば、プラトーの長さの最適な閾値）を、安定して精度良く推定することができる。また、閾値及び基準値の最適な組み合わせを用いて近似した曲線関数の微分から、語彙学習速度を推定することにより、語彙爆発時期を仮定することなく、幼児の真の語彙学習曲線を計算し、安定して語彙学習速度を精度良く推定することができる。

また、幼児の語彙発達の特徴を捉えて、幼児が新しい単語を発話するようになった日齢と単語の累積数との関係を示すデータからプラトーを取り除き、その語彙学習曲線を次数の少ない曲線関数で近似し、パラメータを推定する。このパラメータ推定の効果のひとつは、語彙学習初期の少数のデータ（例えば、最初に学習した20語）から、真の語彙学習曲線のパラメータを推定できるだけでなく、この時期のデータを幼児固有の語彙学習曲線の予測に利用することを可能とする。こうした幼児固有のパラメータを利用すれば、各個人の特徴と発達に合わせたオーダーメード型教育をより効果的なものにすることが可能になり、商業上、たいへん価値のある指標となりうる。

なお、上記実施の形態では、プラトーデータ記憶部に、ｐ、ｐ’の全ての組み合わせを記憶しておく場合を例に説明したが、ｐの値の範囲、ｐ’の値の範囲だけを記憶しておくようにしてもよい。この場合には、ｐの値の範囲、ｐ’の値の範囲で、ｐ、ｐ’を変化させて、ｐ、ｐ’の種々の組み合わせを生成するようにすればよい。

また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、上述の語彙学習曲線パラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０語彙学習曲線パラメータ推定装置
１２入力部
１４演算部
１６出力部
２０単語獲得日齢算出部
２２データセット記憶部
２４プラトー除去部
２６プラトーデータ記憶部
２８関数近似部
３０最適パラメータ選択部
３２語彙学習速度計算部

Claims

幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える置換手段と、
前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する関数近似手段と、
前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、前記閾値を出力する最適選択手段と、
を含む語彙学習曲線パラメータ推定装置。
幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換える置換手段と、
前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似する関数近似手段と、
前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択する最適選択手段と、
前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定する推定手段と、
を含む語彙学習曲線パラメータ推定装置。
前記関数近似手段は、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移に対して、関数近似した曲線関数と各データとの差分の二乗和が最小となるように、前記データの時系列の推移を前記曲線関数で近似する請求項１又は２記載の語彙学習曲線パラメータ推定装置。
置換手段、関数近似手段、及び最適選択手段を含む語彙学習パラメータ推定装置における語彙学習パラメータ推定方法であって、
前記語彙学習パラメータ推定装置は、
前記置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換えるステップと、
前記関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似するステップと、
前記最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択して、前記閾値を出力するステップと、
を含んで実行する語彙学習曲線パラメータ推定方法。
置換手段、関数近似手段、最適選択手段、及び推定手段を含む語彙学習パラメータ推定装置における語彙学習曲線パラメータ推定方法であって、
前記語彙学習曲線パラメータ推定装置は、
前記置換手段によって、幼児が新しい単語を発話するようになった日齢と、前記日齢までに前記幼児が発話するようになった単語の累積数との関係を示すデータの時系列に対して、次に新しい単語を発話するようになるまでの日齢の間隔が閾値より大きくなる部分について、前記日齢の間隔が前記閾値より小さい基準値となるように、前記データの各々の日齢を置き換えるステップと、
前記関数近似手段によって、前記置換手段によって置き換えられた前記データを用いた前記データの時系列の推移を、前記データの数より少ないパラメータ数で表わされる曲線関数で近似するステップと、
前記最適選択手段によって、前記閾値及び前記基準値の複数の組み合わせの各々を用いて前記置換手段による置き換え及び前記関数近似手段による近似を行った結果に基づいて、前記閾値及び前記基準値の最適な組み合わせを選択するステップと、
前記推定手段によって、前記最適選択手段によって選択された前記閾値及び前記基準値の組み合わせを用いたときに前記関数近似手段により近似された前記曲線関数に基づいて、前記幼児の語彙学習速度を推定するステップと、
を含んで実行する語彙学習曲線パラメータ推定方法。
コンピュータを、請求項１〜請求項３の何れか１項記載の語彙学習曲線パラメータ推定装置を構成する各手段として機能させるためのプログラム。