JP5371589B2 - 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム - Google Patents

幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム Download PDF

Info

Publication number
JP5371589B2
JP5371589B2 JP2009161592A JP2009161592A JP5371589B2 JP 5371589 B2 JP5371589 B2 JP 5371589B2 JP 2009161592 A JP2009161592 A JP 2009161592A JP 2009161592 A JP2009161592 A JP 2009161592A JP 5371589 B2 JP5371589 B2 JP 5371589B2
Authority
JP
Japan
Prior art keywords
word information
age
word
infant
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009161592A
Other languages
English (en)
Other versions
JP2011018155A (ja
Inventor
哲生 小林
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009161592A priority Critical patent/JP5371589B2/ja
Publication of JP2011018155A publication Critical patent/JP2011018155A/ja
Application granted granted Critical
Publication of JP5371589B2 publication Critical patent/JP5371589B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ウェブ(Web)上から投稿されたデータを利用して幼児語彙発達データベースを作成する技術であり、特に投稿データの信頼性を確保して高品質な前記データベースを実現させる技術に関する。
現在、ウェブ上には、英和辞書や国語辞書などの従来の書籍版辞書を電子化してウェブサイト上で閲覧するものから、「wikipedia」に代表されるユーザ参加型の辞書まで、様々な辞書およびデータベースの閲覧サービスが存在する。
書籍版の辞書と比較して、ウェブ上で辞書やデータベースを公開する最大のメリットは、多数のユーザによる情報の追加・変更を容易に実施可能なため、新しい情報をタイムリーに追加できる点にある。すなわち、投稿された情報の精度や信頼性に関するデメリットは考えられるものの、こうしたウェブの特性を生かせば、これまでに存在しなかった種類の辞書やデータベースを効率的にかつ迅速に構築することが可能である。
こうした中、現在、「こども語辞書」と呼ばれる幼児語彙発達に関するデータベースがウェブ上で公開され、世界に類のない辞書が構築されつつある。これは幼児が何時、どのような単語を発話するようになったかというデータを、ウェブの日誌ツール上にユーザが随時記録し、その記録情報を整理・加工して作成したデータベースをウェブ上で閲覧できるようにしたものである。この閲覧サービスによれば、ある単語がいつ獲得されるか(例えば単語「ママ」:獲得平均15.4ヶ月齢)や、幼児語の意味(幼児語「しゃ」→意味:「電車」)などを簡単に検索・閲覧でき、0−3歳の子どもを持つ親には有用な育児情報提供サービスである(非特許文献1)。
小林哲生,永田昌明 "ウェブを通じた初期語彙発達データ収集の試みとその応用" 日本赤ちゃん学会 第8回学術集会 2008年4月12日・13日開催 抄録集 pp.73 Kim,M.,McGregor,K.K.,& Thompson,C.K.(2000) "Early lexical development in English− and Korean−speaking children:language−general and language−specific patterns" Journal of Child Language,27,225−254 小椋たみ子,綿貫徹 "日本の子どもの語彙発達の規準研究:日本語マッカーサー乳児言語発達質問紙から" 京都国際社会福祉センター紀要「発達・療育研究」 2008.11 第24号 pp.3−42
こうした幼児語彙発達に関するデータの収集は、通常、発達心理学や心理言語学の分野の研究者が子どもの発話行動を観察したり、母親に直接インタビューをしたりするため、データの信頼性が問題となることはほとんどない。
しかしながら、ユーザ投稿のデータに基づいて幼児語彙発達データベースを構築する場合には、不正データの投稿などによるデータの信頼性が問題となる。特に、前記「こども語辞書」の場合には、ある単語がいつ発話されたかに関する各個人の情報が重要な構成要素となるため、多くのユーザがデータの正確さを欠いて投稿したり、実際に子どもがいないのに虚偽のデータを悪質に投稿したりすると、集計されたデータの精度が低下するおそれがある。
また、前記データベースを閲覧サービスとして一般公開する場合には、より一層の正確な情報を提示する責任が求められる。したがって、何らかの技術でこうした問題を回避する必要があり、データベースの精度および信頼性を確保することが重要となる。
本発明は、上記課題を解決するためのものであり、ユーザ参加型の方式で収集したデータをもとに信頼性の高い幼児語彙発達データベースを構築する技術の提供を解決課題としている。
そこで、本発明は、ユーザ参加型の方式で収集したデータに基づき幼児語彙発達データベースを作成する際に幼児語彙発達特性を生かした不正データ検出および信頼性検証のプロセスを実施し、高精度・高品質のデータベース作成技術を提供する。
本発明の一態様は、ユーザの端末を通じてウェブ上に投稿された単語情報を利用して、幼児語彙発達データベースを作成する装置の実行する方法であって、前記装置の入力手段が、前記端末に単語情報を入力するインタフェースを表示させ、前記端末を通じてユーザが入力した単語と該単語の意味とを対応付けて単語情報として受け付ける入力受付ステップと、前記装置の獲得月齢生成手段が、前記入力受付ステップで受け付けた単語情報に対して、該単語情報の入力日時と前記端末を通じて入力された生年月日との差から獲得月齢を算出する獲得月齢生成ステップと、前記装置の不正検出手段が、前記獲得月齢生成ステップで算出した単語情報の獲得月齢が幼児言語発達の特徴を利用した指標による基準に適合しない単語情報を、不正な単語情報として検出し、該不正な単語情報を排除する不正検出ステップと、前記装置の平均獲得月齢算出手段が、前記入力受付ステップで受け付けた単語情報のうち、前記不正検出ステップで排除されずに有効と認められた単語情報から、同じ意味の単語のすべてを選択し、該単語の各幼児の獲得月齢を平均化した平均獲得月齢を算出する平均獲得月齢算出ステップと、前記装置の信頼性決定手段が、前記平均月齢算出ステップで算出した平均獲得月齢に基づき有効と認められた単語情報の信頼性を判断する信頼性決定ステップと、前記装置の生成手段が、前記信頼性決定ステップで信頼性を認められた単語情報をもとに幼児語彙発達データベースを生成する生成ステップと、を有する。
また、本発明の装置としての態様は、ユーザの端末を通じてウェブ上に投稿された単語情報を利用して、幼児語彙発達データベースを作成するための装置であって、前記端末に単語情報を入力するインタフェースを表示させ、前記端末を通じてユーザが入力した単語と該単語の意味とを対応付けて単語情報として受け付ける入力手段と、前記入力手段で受け付けた単語情報に対して、該単語情報の入力日時と前記端末を通じて入力された生年月日との差から獲得月齢を算出する獲得月齢生成手段と、前記獲得月齢生成手段で算出した単語情報の獲得月齢が幼児言語発達の特徴を利用した指標による基準に適合しない単語情報を、不正な単語情報として検出し、該不正な単語情報を排除する不正検出手段と、前記入力受付手段で受け付けた単語情報のうち、前記不正検出手段で排除されずに有効と認められた単語情報から、同じ意味の単語のすべてを選択し、該単語の各幼児の獲得月齢を平均化した平均獲得月齢を算出する平均獲得月齢算出手段と、前記平均月齢算出手段で算出した平均獲得月齢に基づき有効と認められた単語情報の信頼性を判断する信頼性決定手段と、前記信頼性決定手段で信頼性を認められた単語情報をもとに幼児語彙発達データベースを生成する生成手段と、を備える。
なお、本発明は、前記装置の各手段としてコンピュータを機能させるためのプログラムの態様としてもよい。このプログラムは、記録媒体に格納した態様で提供してもよい。
本発明によれば、ユーザ参加型の方式を通じて収集したデータをもとに信頼性の高い幼児語彙発達データベースが構築される。
本発明の実施形態に係る幼児語彙発達データベース作成装置の基本構成図。 同 処理チャート図。 実施例に係る幼児語彙発達データベース作成装置の構成図。 同 ユーザインタフェースの単語入力例のイメージ図。 同 意味カテゴリ分類表の一例を示す図。 同 意味カテゴリ定義辞書の一例を示す図。 同 不正データ検出部の処理を示すチャート図。 同 横断50%到達月齢辞書の一例を示す図。 同 幼児語彙発達データベースの一例を示す図。 同 ユーザインタフェース閲覧部の提供する検索ページのイメージ図。 同 ユーザインタフェース閲覧部の提供する検索結果ページのイメージ図。
≪基本構成≫
図1は、本発明の実施形態に係る幼児語彙発達データベースの作成装置の基本的な構成を示している。この作成装置1は、図示省略のユーザ端末とインターネット経由で接続されているものとする。
ここでは前記作成装置1は、前記ユーザ端末からの幼児語彙発達に関する投稿データに対して、不正データ検出及びデータ信頼性決定の処理プロセスを実施し、高品質の幼児語彙発達データベースを作成する。具体的には、前記作成装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスクドライブ装置,通信デバイスなどを備えている。
このハードウェアリソースとソフトウェアリソース(OS,アプリケーション)との協同の結果、前記作成装置1は、前記ユーザ端末に対して幼児語彙の特徴に応じて単語を入力可能なユーザインタフェースを提供するユーザインタフェース入力手段11と、該入力手段11を通じて入力された各単語データの獲得月齢を計算する単語獲得月齢生成手段12と、各入力単語に意味カテゴリを付与する幼児語彙意味カテゴリ付与手段13と、該両手段12.13の処理結果を利用して入力単語群に複数の定義基準を当てはめて不正データを検出する不正データ検出手段14と、該検出手段14で排除されなかった有効なデータセットから入力単語の平均獲得月齢を生成する平均獲得月齢生成手段15と、該生成手段15の算出した平均獲得月齢を用いて前記データセットの信頼性を判断するデータ信頼性決定手段16と、該決定手段16の判断した信頼性の高いデータセットをもとに各入力単語の項目を生成して幼児語彙発達データベース化するデータベース項目生成手段17と、該生成手段17の生成した前記データベースを前記ユーザ端末で閲覧・検索可能なユーザインタフェースを提供するユーザインタフェース閲覧手段18と、を有している。
ここで前記生成手段17は、前記データベースを前記ハードディスクドライブ装置上に生成するものとする。また、前記入力手段11および前記閲覧手段18は、前記通信デバイスを通じて前記ユーザ端末に各ユーザインタフェースを提供するものとする。なお、前記入力手段11は、ウェブ日誌ツールのユーザインタフェースを提供するものとする。
図2は、前記作成装置1のデータベース作成プロセスを示している。ここではまず、前記入力手段11を通じて前記ユーザ端末に表示されたウェブ日誌ツールのインタフェースにわが子の覚えた単語を入力させ、該入力された単語を前記入力手段11がインターネット経由で受け付けるウェブ日誌ツール単語受付ステップ(S01)が実施される。
つぎにS01で受け付けた各入力単語に対して、前記生成手段12が獲得月齢を算出する単語獲得月齢生成ステップ(S02)が実施され、その後に該各入力単語の意味カテゴリを前記付与手段13が付与する幼児語彙意味カテゴリ付与ステップ(S03)が実施される。
続いてS01で受け付けた入力単語群に対して、前記検出手段14が幼児語彙の科学的特徴から考案された複数の基準指標に基づいて不正データを検出・排除する不正データ検出ステップ(S04)が実施される。この検出ステップの実施にはS02で算出された単語獲得月齢とS03で付与された意味カテゴリとが利用される。
そして、S04で排除されなかった有効な各入力単語に対して、前記生成手段15にて平均獲得月齢を生成する平均獲得月齢生成ステップ(S05)が実施される。ここで生成された平均獲得月齢に基づき前記決定手段16が、あらかじめ単語毎の獲得月齢を集計・リスト化した辞書を参照し、各入力単語の信頼性を評価・決定するデータ信頼性決定ステップ(S06)が実施される。
このS06の段階で信頼性の高かった各入力単語をもとに、前記生成手段17が最終的なデータベース項目を生成するデータベース項目生成ステップ(S07)が実施される。ここでは生成された前記項目がデータベース化されて幼児語彙発達データベースとして利用され、前記閲覧手段18を通じて前記ユーザ端末に閲覧・検索可能なユーザインタフェースが表示される。
≪実施例≫
図3は、前記作成装置1の実施例の構成を示し、ユーザインタフェース入力部31,単語獲得月齢生成部32,幼児語彙意味カテゴリ付与部33,中間データ保持部34,不正データ検出部35,平均獲得月齢生成部36,データ信頼性決定部37,データベース項目生成部38,ユーザインタフェース閲覧部39を有している。ここでは前記各部31〜33.35〜39は、それぞれ前記各手段11〜18に対応している。以下、各部31〜39を個別具体的に説明する。
(1)ユーザインタフェース入力部31
前記ユーザインタフェース入力部31は、インターネット経由で前記ユーザ端末のブラウザに個人用のウェブ日誌ツールのユーザインタフェースを表示させる。このインタフェースによれば、図4に示すように、日時ごと(何時「例:200x年x月x日」)に、どんな単語(例:わんわん)をどんな意味(例:犬)で発話したかを記録するための入力欄Q.Rが表示される。ここで入力される単語情報、即ち前記入力欄Qの入力データを入力単語,前記入力欄Rの入力データを入力意味と呼ぶものとする。
この各入力データを前記入力部31が受け付けることによりデータベース作成に必要な投稿データが収集される。ここで収集された各データは前記各部32.33に転送される。なお、個人識別ID、性別や誕生日、出生順、居住地域などの基本情報は、別途ウェブ日誌ツール利用前に入力しておくものとする。入力された基本情報は、前記生成部32および前記データ保持部34に転送される。
(2)単語獲得月齢生成部32
前記単語獲得月齢生成部32は、前記入力欄Q.Rへのデータ記録日時と、前記基本情報として入力されたユーザの子供の生年月日との差から、入力単語の獲得月齢、即ち生後何ヶ月目に発話されたかを決定する。例えばデータ記録日時「2008.10.21」、生年月日「2007.8.5」の場合には、獲得月齢「14.5ヶ月」と算出される。ここで算出された獲得月齢は入力単語とペアで前記中間データ保持部34に転送される。
(3)幼児語彙意味カテゴリ付与部33
前記幼児語彙意味カテゴリ付与部33は、入力意味(例:犬)に対して、図5の意味カテゴリ分類表を参照して意味カテゴリ(例:動物)を付与する。その際に入力単語(例:わんわん)を図3中の意味カテゴリ定義辞書310と照合し、入力意味のカテゴリを決定するものとする。この定義辞書310は、図6に示すように、幼児語彙として投稿される可能性のある単語に対して事前に意味カテゴリが定義されている。
例えば入力単語(例:わんわん)は、図6の前記定義辞書310によれば、カテゴリID「25」のカテゴリ名「動物」に該当する。これにより入力意味(例:犬)には、図5の前記カテゴリ分類表に示すように、「2.身のまわり」中の「25.動物」の意味カテゴリが付与される。ここで付与された意味カテゴリは、入力意味とペアで前記中間データ保持部34に転送される。なお、図5の意味カテゴリ分類表および図6の前記定義辞書310は、それぞれ前記ハードディスクドライブ装置に保存されているものとする。
(4)中間データ保持部34
前記中間データ保持部34は、前記各部31〜33からの転送データを整理・保持する。ここでは入力単語(例:わんわん)に対して、入力意味(例:犬)と獲得月齢(例:14.5ヶ月)と意味カテゴリ(例:25.動物)と個人識別ID(例:F09−3−456)をデータセットにするものとする。
具体的には、前記中間データ保持部34は、前記メモリ(RAM)あるいは前記ハードディスクドライブ装置を通じて前記データセットをユーザ毎に順次保持していくものとする。
(5)不正データ検出部35
前記不正データ検出部35は、プログラムに定義された4つの指標、即ち図3中の有意味単語月齢照合定義311・名詞カテゴリ照合定義312・日課/挨拶カテゴリ照合定義313・NV比計算照合定義314に基づき前記中間データ保持部34の保持するデータセットから不正データを決定・検出する。以下、図7に基づき前記不正データ検出部35の処理プロセスを説明する。
S11:まず、前記不正データ検出部35は、前記データセットに含まれる各ユーザの入力単語のうち獲得月齢が最も小さい単語から50番目の単語までを選択する。ここで選択された単語を「早期出現語彙50語」と呼ぶ。この早期出現語彙50語に対して、S12以降で前記各指標に基づき不正データを検出する。
S12:S11で選択された早期出現語彙50語に対する有意味単語月齢照合、即ち有意味単語月齢照合定義311に基づく不正データ検出を実施する。ここでは早期出現語彙50語に獲得月齢が8ヶ月齢以前の有意味単語が含まれていれば、これを不正データとみなすものとする。この有意味単語か否かの照合にあたっては前記データセット中の入力意味が利用される。
このように獲得月齢が8ヶ月以前の場合に不正データとする理由は、乳児の8ヶ月齢以前には、構音器官とその制御を司る脳機能、および音声表象と指示対象の認知的関連づけ脳機能が十分に成熟していないという自然科学的知見が存在するためである。例えば3ヶ月齢児が「ちょうだい」・「ジャンプ」・「落ちた」のような有意味単語を発したと前記入力欄Qに入力されたとしても、現実には不可能だと推定される。
S13.S14:つぎにS11で選択された早期出現語彙50語に対するに対する名詞カテゴリ照合、即ち名詞カテゴリ照合定義312に基づく不正データ検出を実施する(S13)。ここでは早期出現語彙50語中に名詞カテゴリ(図5の意味カテゴリ分類表における21「食べ物・飲み物」〜26「乗物」)に該当する単語の存否が照合される。照合の結果、名詞カテゴリに該当する単語がひとつも存在しない場合には不正データとする。
その後に早期出現語彙50語に対する日課/挨拶カテゴリ照合、即ち日課/挨拶カテゴリ照合定義313に基づき不正データ検出を実施する(S14)。ここでは早期出現語彙50語中に日課/挨拶カテゴリ(図5の意味カテゴリ分類表における31「日課・あいさつ」)に該当する単語の存否が照合される。照合の結果、日課/挨拶カテゴリに該当する単語がひとつも存在しない場合には、S13と同様に不正データとする。なお、S13.S14の照合にあたっては前記データセット中の意味カテゴリが利用される。
このように両カテゴリに該当する単語が不存在の場合に不正データとする理由は、発明者達の実施した日本語学習児の調査によれば、早期出現語彙50語にかならず両カテゴリのものが存在することを発見しており、もしこのカテゴリの単語が全く存在しないとすれば、それは不正データの可能性が高いと考えられるためである。
S15:最後にS11で選択された早期出現語彙50語に含まれる名詞カテゴリ(N)と動詞カテゴリ(V)とのNV比計算照合、即ちNV比計算照合定義314に基づく不正データの検出を実施する。
具体的には、早期出現語彙50語に含まれる名詞カテゴリ(図5の意味カテゴリ分類表における21「食べ物・飲み物」〜26「乗物」)と動詞カテゴリ(図5の意味カテゴリ分類表における41「動作語」)の単語の各個数から「NV比(noun−verb ratio)」を計算する。ここでは「NV比=名詞カテゴリ数÷動詞カテゴリ数」とし、算出したNV比が特定の範囲外の場合は不正データとみなす。
発明者達の実施した研究によれば、日本語学習児の早期出現語彙50語のNV比は、平均「3.32」、標準偏差「1.78」であり、標準偏差の2倍を基準とした2SDに該当する「95.45%」のデータが、「0〜6.87」の値に当てはまることを発見した。この自然科学的現象を指標として使用し、NV比が「0〜6.87」の範囲外であれば、不正データとみなすものとする。
ただし、NV比は獲得する言語によって異なることが判明しており、NV比の前記範囲を日本語以外の言語に適用することはできない。なお、非特許文献2によれば、英語ではNV比の平均が約12.0と日本語よりもかなり高く、韓国語では平均が約1.8と日本語よりも低いことから、言語に応じてNV比の前記範囲を調整すればよい。
このようにS12〜S15の処理において、4つの前記指標311〜314を最終的にすべて満たせば、そのユーザの前記各データセットを有効とし、以降の分析対象の有効データとして利用する。この有効データは前記中間データ保持部34に保持しておくものとする。
一方、前記指標311〜314のうちで1つでも不正データに該当すれば、そのユーザの前記各データセットを無効とし、以降の分析対象から除外する。その際に前記中間データ保持部34から消去してもよい。こうした幼児言語発達の特徴を利用した指標による基準適用により、悪戯などによる不正データを高精度に検出可能となる。
(6)平均獲得月齢生成部36
前記平均獲得月齢生成部36は、前記不正データ検出部35で認められた前記有効データを対象に、各入力単語の平均獲得月齢および投稿データ個数を生成する。例えば、「ママ」という意味で登録された単語をすべて選択し、該単語の各ユーザの獲得月齢を平均化することで、単語「ママ」の平均獲得月齢(例:16.7ヶ月齢)と、入力された投稿データ個数(例:123件)とを生成する。ここで生成された平均獲得月齢および投稿データ個数は前記メモリ(RAM)に記憶されるものとする。
(7)データ信頼性決定部37
前記データ信頼性決定部37は、前記メモリ(RAM)に記憶された各入力単語の平均獲得月齢値(例:単語「ママ」、16.7ヶ月齢)および投稿データ個数(例:個数値単語「ママ」、123件)を利用して、前記中間データ保持部34に保持された前記有効データの信頼性を決定する。
詳細を説明すれば、まず各単語の平均獲得月齢値(例:単語「ママ」、16.7ヶ月齢)を、図3中の横断50%到達月齢辞書315と照合し、前記有効データの信頼性を決定する。この辞書315は、図8に示すように、各単語の「50%到達月齢」値をあらかじめリスト化して、前記ハードディスクドライブ装置に保存しているものとする。
ここで保存される「50%到達月齢」は、10−36ヶ月齢の子どもを持つ親を対象に、わが子が現時点で、どのような単語を覚えているかをチェックリスト(質問紙)に回答してもらい、該回答のデータを月齢ごとに集計し、各単語がその月齢群のどの程度の割合の子どもに獲得されているかを算出し(例えば、18ヶ月齢群では「ママ」は65%,パパは57%など)、各単語の獲得割合が50%に到達した月齢を該単語の獲得月齢と暫定的に設定したものである(非特許文献3参照)。
例えば、「まんま」という単語に対して13ヶ月齢群では46%、14ヶ月齢群では51%、15ヶ月齢群では60%の獲得割合とすれば、「まんま」の50%到達月齢を14ヶ月齢と設定する。この「50%到達月齢」は、前記平均獲得月齢生成部36で算出される平均獲得月齢値と、データ収集および計算手法の点で全く異なるものであるが、発明者達の研究成果によれば、「50%到達月齢」の値が統計的に有意なレベルで合致することを発見した(級内相関係数が0.7であり、5%水準で有意に合致した)。
こうした科学的事実に基づいて前記転送データ中の平均獲得月齢値を前記辞書315と単語ごとに照合し、50%獲得月齢(例えば単語「まんま:14ヶ月齢」)の前後2ヶ月の範囲(例えば、12−16ヶ月齢)に該当すれば、該平均獲得月齢の前記有効データの信頼性を肯定する。この信頼性肯定範囲(平均獲得月齢の前後2ヶ月)はプログラムに設定されているものとする。
ただし、前記転送データに含まれる投稿データ個数が、あまりに少ない場合には平均獲得月齢の正確な推定が難しい。そこで、投稿データ個数が10個以上の入力単語のみを有効とする基準を設定し、投稿データ個数が9以下の場合は信頼性のないデータとして、前記有効データから除外するものとする。この基準個数も、プログラムに設定され、必要に応じて調整可能とする。
(8)データベース項目生成部38
前記データベース項目生成部38は、前記各部32〜37の一連の処理手続を経て信頼性を肯定された有効データを、入力単語ごと(例:アンパンマン)に平均獲得月齢(例:18.3ヶ月齢)・意味カテゴリのカテゴリID(例:52 キャラクター)・投稿されたデータ数(例:133件)・発話例(例:あんぱん、ぱんぱん)の項目別に集計・加工し、図9に示すように、データベース化する。ここで生成されたデータベースを幼児語彙発達データベースとする。
したがって、前記作成装置1によれば、前記ユーザ端末からのウェブ投稿データ、即ちユーザ参加型の方式で収集したデータから、日本語学習児の幼児語彙発達特性を生かした不正データ検出(S11〜S15)および信頼性検証のプロセスを通じて高精度・高品質の幼児語彙発達データベースが作成される。
(9)ユーザインタフェース閲覧部39
前記ユーザインタフェース閲覧部39によれば、前記データベース項目生成部38で作成された幼児語彙発達データベースを、ウェブ上で検索・閲覧できるユーザインタフェースが前記ユーザ端末に提供される。すなわち、前記閲覧部39は、図10に示すように、前記データベースを検索可能な検索ページを前記ユーザ端末のブラウザに表示させる。
この検索ページに入力された検索要求に応じて検索結果を出力し、図11に示すように、前記ユーザ端末のブラウザ表示を検索結果のページに切り替える。これによりユーザは、前記ユーザ端末を通じて幼児の語彙発達に関する情報を簡単に取得することができる。例えば、図10の検索ページのT欄「フリーキーワードから調べる」に発音「わんわん」を入力し、発音から検索要求すれば、図11に示すように、音声」(わんわん)に対する「意味」(犬、動物、NHKのキャラクター)と、「カテゴリ」(動物)と、「平均獲得月齢」(18,1ヶ月齢)と、発話された割合(%)を示す獲得分布(度数分布表)Wが前記ユーザ端末のブラウザに表示される。
また、16ヶ月齢の子どもが平均的にどんな単語を覚える傾向にあるかを検索したい場合には、図10の項目「月齢から調べる」のうち「16ヶ月」をブラウザ上でクリックすれば、平均獲得月齢が「16.0ヶ月〜16.9ヶ月」の単語が一覧リストとして前記ユーザ端末のブラウザに表示される。その他に図10の項目「索引から調べる」、項目「意味カテゴリから調べる」をクリックし、該当結果をブラウザに表示させることもできる。
これにより幼児の言語発達過程を簡単に検索/閲覧可能な「こども語辞書」サービスが提供され、親が知りたいと思う子どもの言葉の成長に関する情報が容易に検索可能となる。このとき前記幼児語彙発達データベースは、前記不正データ検出部35および前記データ信頼性決定部37を通じて不正データが排斥され、信頼性を有する投稿データに基づき構築されているため、幼児語彙発達に関する高精度・高品質のデータベースとして構築されている。
したがって、子供の言葉の成長をより正確に推定・知得でき、エビデンスベース(Evidence Base)の情報開示が可能となる。また、前記幼児語彙発達データベースに含まれる各単語の平均獲得月齢を利用すれば、初期語彙発達教育支援システムや、月齢に応じた幼児向け音声対話システムへの応用も将来的に可能であり、様々な産業場面で適用できる。
≪プログラムなど≫
本発明は、前記作成装置1を構成する各手段12〜18.各部31〜39の一部若しくは全部として、コンピュータを機能させるためのプログラムとして構成することもできる。このプログラムでは、S01〜S07.S11〜S15の全ステップあるいは一部のステップをコンピュータに実行させることが可能である。
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…幼児語彙発達データベース作成装置
11…ユーザインタフェース入力手段(入力手段)
12…単語獲得月齢生成手段(獲得月齢生成手段)
13…幼児語彙意味カテゴリ付与手段(カテゴリ付与手段)
14…不正データ検出手段(不正検出手段)
15…平均獲得月齢生成手段
16…データ信頼性決定手段(信頼性決定手段)
17…データベース項目生成手段(生成手段)
18…ユーザインタフェース閲覧手段
31…ユーザインタフェース入力部
32…単語獲得月齢生成部
33…幼児語彙意味カテゴリ付与部
34…中間データ保持部
35…不正データ検出部
36…平均獲得月齢生成部
37…データ信頼性決定部
38…データベース項目生成部
310…意味カテゴリ定義辞書
311…有意味単語月齢照合定義
312…名詞カテゴリ照合定義
313…日課/挨拶カテゴリ照合定義
314…NV比計算照合定義
315…横断50%到達月齢辞書

Claims (13)

  1. ユーザの端末を通じてウェブ上に投稿された単語情報を利用して、幼児語彙発達データベースを作成する装置の実行する方法であって、
    前記装置の入力手段が、前記端末に単語情報を入力するインタフェースを表示させ、前記端末を通じてユーザが入力した単語と該単語の意味とを対応付けて単語情報として受け付ける入力受付ステップと、
    前記装置の獲得月齢生成手段が、前記入力受付ステップで受け付けた単語情報に対して、該単語情報の入力日時と前記端末を通じて入力された生年月日との差から獲得月齢を算出する獲得月齢生成ステップと、
    前記装置の不正検出手段が、前記獲得月齢生成ステップで算出した単語情報の獲得月齢が幼児言語発達の特徴を利用した指標による基準に適合しない単語情報を、不正な単語情報として検出し、該不正な単語情報を排除する不正検出ステップと、
    前記装置の平均獲得月齢算出手段が、前記入力受付ステップで受け付けた単語情報のうち、前記不正検出ステップで排除されずに有効と認められた単語情報から、同じ意味の単語のすべてを選択し、該単語の各幼児の獲得月齢を平均化した平均獲得月齢を算出する平均獲得月齢算出ステップと、
    前記装置の信頼性決定手段が、前記平均月齢算出ステップで算出した平均獲得月齢に基づき有効と認められた単語情報の信頼性を判断する信頼性決定ステップと、
    前記装置の生成手段が、前記信頼性決定ステップで信頼性を認められた単語情報をもとに幼児語彙発達データベースを生成する生成ステップと、
    を有することを特徴とする幼児語彙発達データベース作成方法。
  2. 前記装置のカテゴリ付与手段が、前記入力受付ステップで受け付けた単語情報に対して、事前に用意されたカテゴリ辞書を参照して、意味カテゴリを付与するカテゴリ付与ステップと、
    前記装置のユーザインタフェース閲覧手段が、前記生成ステップで生成されたデータベースをウェブ上で検索・閲覧可能なインタフェースを前記端末に表示させるユーザインタフェース閲覧ステップと、
    をさらに有することを特徴とする請求項1記載の幼児語彙発達データベース作成方法。
  3. 前記不正検出ステップは、
    ユーザ毎に前記単語情報を前記獲得月齢の小さい順に任意の個数を選択するステップを有し、
    さらに、
    前記選択された単語情報群中に、前記獲得月齢が基準値以前の有意味の単語情報を含めば、該ユーザの単語情報群を不正情報と認めるステップ、
    前記選択された各単語情報の前記意味カテゴリを照合し、名詞カテゴリあるいは日課/あいさつカテゴリに該当する単語情報が存在しなければ、該ユーザの単語情報群を不正情報と認めるステップ、
    前記選択された各単語情報の前記意味カテゴリを参照して、名詞カテゴリに該当する単語情報と動詞カテゴリに属する単語情報との比率を算出し、該比率が事前に定められた指標の範囲外であれば、該ユーザの単語情報群を不正情報と認めるステップ
    のうちで、いずれか1つ以上のステップを
    有することを特徴とする請求項1または2に記載の幼児語彙発達データベース作成方法。
  4. 前記信頼性決定ステップでは、平均獲得月齢が所定の範囲の月齢で取得された単語情報の信頼性を肯定すること
    を特徴とする請求項1から3のいずれか1項に記載の幼児語彙発達データベース作成方法。
  5. 前記信頼性決定ステップは、
    前記平均獲得月齢を単語毎に獲得月齢を集計した月齢辞書と照合し、有効と認められた各単語情報の信頼性を判断するステップと、
    有効と認められた単語情報群の個数が、事前設定の基準個数を超えていなければ、該単語情報群の信頼性を否定するステップと、
    を有することを特徴とする請求項4に記載の幼児語彙発達データベース作成方法。
  6. 前記信頼性決定ステップでは、ある単語を獲得している幼児の割合が50%程度に到達した幼児の月齢で定義される50%獲得月齢の前後2ヶ月の範囲に該当する単語情報の信頼性を肯定すること
    を特徴とする請求項5に記載の幼児語彙発達データベース作成方法。
  7. ユーザの端末を通じてウェブ上に投稿された単語情報を利用して、幼児語彙発達データベースを作成するための装置であって、
    前記端末に単語情報を入力するインタフェースを表示させ、前記端末を通じてユーザが入力した単語と該単語の意味とを対応付けて単語情報として受け付ける入力手段と、
    前記入力手段で受け付けた単語情報に対して、該単語情報の入力日時と前記端末を通じて入力された生年月日との差から獲得月齢を算出する獲得月齢生成手段と、
    前記獲得月齢生成手段で算出した単語情報の獲得月齢が幼児言語発達の特徴を利用した指標による基準に適合しない単語情報を、不正な単語情報として検出し、該不正な単語情報を排除する不正検出手段と、
    前記入力受付手段で受け付けた単語情報のうち、前記不正検出手段で排除されずに有効と認められた単語情報から、同じ意味の単語のすべてを選択し、該単語の各幼児の獲得月齢を平均化した平均獲得月齢を算出する平均獲得月齢算出手段と、
    前記平均月齢算出手段で算出した平均獲得月齢に基づき有効と認められた単語情報の信頼性を判断する信頼性決定手段と、
    前記信頼性決定手段で信頼性を認められた単語情報をもとに幼児語彙発達データベースを生成する生成手段と、
    を備えることを特徴とする幼児語彙発達データベース作成装置。
  8. 前記入力手段で受け付けた単語情報に対して、事前に用意されたカテゴリ辞書を参照して、前記意味カテゴリを付与するカテゴリ付与手段と、
    前記生成手段で生成されたデータベースをウェブ上で検索・閲覧可能なインタフェースを前記端末に表示させるユーザインタフェース閲覧手段と、
    をさらに備えることを特徴とする請求項7記載の幼児語彙発達データベース作成装置。
  9. 前記不正検出手段は、
    ユーザ毎に前記単語情報を前記獲得月齢の小さい順に任意の個数を選択し、
    その後、
    前記選択された単語情報群中に、前記獲得月齢が基準値以前の有意味の単語情報を含めば、該ユーザの単語情報群を不正情報と認めるステップ、
    前記選択された各単語情報の前記意味カテゴリを照合し、名詞カテゴリあるいは日課/あいさつカテゴリに該当する単語情報が存在しなければ、該ユーザの単語情報群を不正情報と認めるステップ、
    前記選択された各単語情報の前記意味カテゴリを参照して、名詞カテゴリに該当する単語情報と動詞カテゴリに属する単語情報との比率を算出し、該比率が事前に定められた指標の範囲外であれば、該ユーザの単語情報群を不正情報と認めるステップ
    のうちで、いずれか1つ以上のステップを
    実行することを特徴とする請求項7または8に記載の幼児語彙発達データベース作成装置。
  10. 前記信頼性決定手段は、平均獲得月齢が所定の範囲の月齢で取得された単語情報の信頼性を肯定すること
    を特徴とする請求項7から9のいずれか1項に記載の幼児語彙発達データベース作成装置。
  11. 前記信頼性決定手段は、
    前記平均獲得月齢を単語毎に獲得月齢を集計した月齢辞書と照合し、有効と認められた各単語情報の信頼性を判断する手段と、
    有効と認められた単語情報群の個数が、事前設定の基準個数を超えていなければ、該単語情報群の信頼性を否定する手段と、
    を備えることを特徴とする請求項10に記載の幼児語彙発達データベース作成装置。
  12. 前記信頼性決定手段は、ある単語を獲得している幼児の割合が50%程度に到達した幼児の月齢で定義される50%獲得月齢の前後2ヶ月の範囲に該当する単語情報の信頼性を肯定すること
    を特徴とする請求項11に記載の幼児語彙発達データベース作成装置。
  13. 請求項7から12のいずれか1項に記載の幼児語彙発達データベース作成装置を構成する各手段として、コンピュータを機能させるための幼児語彙発達データベース作成プログラム。
JP2009161592A 2009-07-08 2009-07-08 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム Active JP5371589B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009161592A JP5371589B2 (ja) 2009-07-08 2009-07-08 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009161592A JP5371589B2 (ja) 2009-07-08 2009-07-08 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム

Publications (2)

Publication Number Publication Date
JP2011018155A JP2011018155A (ja) 2011-01-27
JP5371589B2 true JP5371589B2 (ja) 2013-12-18

Family

ID=43595907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009161592A Active JP5371589B2 (ja) 2009-07-08 2009-07-08 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム

Country Status (1)

Country Link
JP (1) JP5371589B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5680584B2 (ja) * 2012-06-05 2015-03-04 日本電信電話株式会社 理解語月齢テーブル生成装置、対象年齢推定装置、方法、及びプログラム
JP5726821B2 (ja) * 2012-08-15 2015-06-03 日本電信電話株式会社 幼児語彙理解時期推定装置とその方法とプログラム
JP5925140B2 (ja) * 2013-02-12 2016-05-25 日本電信電話株式会社 幼児語彙理解難易度評価装置と幼児語彙検索装置と幼児語彙分類装置と、それらの方法とプログラム
CN103544393B (zh) * 2013-10-23 2017-05-24 北京师范大学 追踪儿童语言能力发展的方法
JP6612293B2 (ja) * 2017-06-30 2019-11-27 日本電信電話株式会社 文書検索装置、単語提示装置、これらの方法及びプログラム
JP7213509B2 (ja) * 2019-01-18 2023-01-27 日本電信電話株式会社 語彙発達指標推定装置、語彙発達指標推定方法、プログラム
JP7097026B2 (ja) * 2019-01-18 2022-07-07 日本電信電話株式会社 語彙発達指標推定装置、語彙発達指標推定方法、プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055592A (ja) * 2000-05-31 2002-02-20 People Co Ltd 外国語の言語音素識別野形成方法、外国語言語音素識別野形成装置、外国語言語音素識別野形成システム、及び外国語言語音素識別野形成プログラム
JP2007087361A (ja) * 2005-09-22 2007-04-05 Hiroshi Nagai 情報提供システム

Also Published As

Publication number Publication date
JP2011018155A (ja) 2011-01-27

Similar Documents

Publication Publication Date Title
Hládek et al. Survey of automatic spelling correction
Braginsky et al. Consistency and variability in children’s word learning across languages
JP5371589B2 (ja) 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム
US9836511B2 (en) Computer-generated sentiment-based knowledge base
KR102075788B1 (ko) 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템
US9710829B1 (en) Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities
JP2010118064A (ja) コンピュータ実施方法
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
Bednarek et al. Computer-assisted digital text analysis for journalism and communications research: introducing corpus linguistic techniques that do not require programming
US20110145249A1 (en) Content grouping systems and methods
US20150046182A1 (en) Methods and automated systems that assign medical codes to electronic medical records
Eika et al. Assessing the reading level of web texts for WCAG2. 0 compliance—can it be done automatically?
Zeng Evaluation and enhancement of web content accessibility for persons with disabilities
Lazarski et al. Using nlp for fact checking: A survey
Kolthoff et al. Data-driven prototyping via natural-language-based GUI retrieval
Alfraidi et al. The Saudi novel corpus: Design and compilation
Yadav et al. Do you ever get off track in a conversation? the conversational system’s anatomy and evaluation metrics
Gilbert et al. Dominance norms and data for spoken ambiguous words in British English
Ahiladas et al. Ruchi: Rating individual food items in restaurant reviews
EP3704660A1 (en) Techniques for ranking posts in community forums
Roosan et al. Artificial intelligent context-aware machine-learning tool to detect adverse drug events from social media platforms
Arguello et al. Using query performance predictors to improve spoken queries
Lee et al. Trustsql: A reliability benchmark for text-to-sql models with diverse unanswerable questions
du Toit et al. Developing core technologies for resource-scarce nguni languages
Bobicev et al. Can anonymous posters on medical forums be reidentified?

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130917

R150 Certificate of patent or registration of utility model

Ref document number: 5371589

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350