JP2011013811A - Device, system and method for word level decision, control program, and recording medium - Google Patents

Device, system and method for word level decision, control program, and recording medium Download PDF

Info

Publication number
JP2011013811A
JP2011013811A JP2009155707A JP2009155707A JP2011013811A JP 2011013811 A JP2011013811 A JP 2011013811A JP 2009155707 A JP2009155707 A JP 2009155707A JP 2009155707 A JP2009155707 A JP 2009155707A JP 2011013811 A JP2011013811 A JP 2011013811A
Authority
JP
Japan
Prior art keywords
word
feature amount
character
level
difficulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009155707A
Other languages
Japanese (ja)
Inventor
Tatsuya Kitamura
達也 北村
Yosuke Tomioka
洋介 冨岡
Yoshiko Kawamura
よし子 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konan University
Original Assignee
Konan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konan University filed Critical Konan University
Priority to JP2009155707A priority Critical patent/JP2011013811A/en
Publication of JP2011013811A publication Critical patent/JP2011013811A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To objectively perform level decision of a Japanese word with high accuracy.SOLUTION: A word level decision device includes: a character feature acquisition unit 102 for acquiring a character feature for each character included in the word input to local equipment, from a character feature memory 103 for storing the character feature indicating a characteristic of a character in each character; a word feature acquisition unit 104 for acquiring a word feature of the input word from a word feature memory 105 for storing the word feature indicating a characteristic of the word in each word; and a word level value calculation unit 106 for calculating a word level value indicating difficulty of the word in the input word from a character total feature value obtained by totaling the character features of the respective characters included in the input word acquired by the character feature acquisition unit 102, and the word feature acquired by the word feature acquisition means.

Description

本発明は、単語のレベル(難易度など)を評価する言語処理技術に関するものであり、特に、日本語の単語の難易度を自動判定する単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体に関するものである。   The present invention relates to a language processing technique for evaluating a word level (difficulty level, etc.), and in particular, a word level determination device, a word level determination system, and a word level determination method that automatically determine the difficulty level of a Japanese word. , A control program, and a recording medium.

従来、文章の読みやすさ、難しさを自動判定する技術が広く使われている(例えば、特許文献1、2および非特許文献1〜3を参照のこと)。このような技術は、例えば、言語教育の場などで重要視されている。一例として、上記技術によって文章の読みやすさを判定し、学習者の学習段階に応じた語彙を含む教材を適切に選択することが可能である。   Conventionally, techniques for automatically determining the readability and difficulty of sentences have been widely used (see, for example, Patent Documents 1 and 2 and Non-Patent Documents 1 to 3). Such technology is regarded as important in language education, for example. As an example, it is possible to determine the readability of a sentence by the above technique and appropriately select a teaching material including a vocabulary according to a learner's learning stage.

ここで、漢字を用い、多種多様な単語で文章が綴られる日本語を習得するためには、漢字を習得すること、および、膨大な量の単語を習得することが重要である。しかしながら、日本語の学習者にとってこれらの習得には大きな困難が伴う。   Here, it is important to learn kanji and master an enormous amount of words in order to learn Japanese using kanji and spelling sentences with a wide variety of words. However, there are great difficulties for Japanese learners to acquire these skills.

したがって、より効果的な学習支援を実現するために、教材の選別において、単に文章の表面的な特徴から読みやすさを判定するだけではなく、単語の意味内容、および、その単語が利用される際の利用特性(出現頻度、親密度など)を考慮して、単語単位でレベル判定を行うことが重要になる。特許文献1、2には、単語ごとにあらかじめ定められたレベルを参照して、文章の難易度を判定することが記載されているが、単語そのもののレベル判定を自動で行うことは記載されておらず、したがって、単語ごとにレベルを付与した辞書を予め保持しておかなければならない。   Therefore, in order to realize more effective learning support, the selection of teaching materials uses not only the readability based on the superficial features of the text but also the semantic content of the word and the word. It is important to perform level determination in units of words in consideration of usage characteristics (appearance frequency, familiarity, etc.). Patent Documents 1 and 2 describe that the difficulty level of a sentence is determined by referring to a predetermined level for each word, but that the level determination of a word itself is automatically performed. Therefore, a dictionary to which a level is assigned for each word must be held in advance.

一方、単語単位でレベル(難易度)を自動判定する技術が、非特許文献4に開示されている。非特許文献4は、単語の意味内容や利用特性を考慮した、詳細な、単語レベル判定システムを提唱している。   On the other hand, Non-Patent Document 4 discloses a technique for automatically determining a level (degree of difficulty) in units of words. Non-Patent Document 4 proposes a detailed word level determination system that takes into account the meaning and usage characteristics of words.

具体的には、上記システムでは、新聞記事に現れる単語の出現頻度、単語への馴染みの程度を表す単語親密度、および、日本語能力試験における級別の出題範囲の3つの情報を用いて単語のレベルを判定している。   Specifically, the above system uses three types of information such as the frequency of words appearing in newspaper articles, the word familiarity indicating the degree of familiarity with words, and the question range for each class in the Japanese Language Proficiency Test. Judging the level.

特開2006−244252号公報(2006年9月14日公開)JP 2006-244252 A (published September 14, 2006) 特開2007−121584号公報(2007年5月17日公開)JP 2007-121484 A (published May 17, 2007)

建石由佳、他2名、“日本文の読みやすさの評価式”、文書処理とヒューマンインタフェース 18−4、1998年5月9日Yuika Tateishi, two others, “Evaluation formula for readability of Japanese text”, document processing and human interface 18-4, May 9, 1998 柴崎秀子、他1名、“国語教科書コーパスを応用した日本語リーダビリティー構築のための基礎研究”、電子情報通信学会 技報、P.19−24、2007年10月Hideko Shibasaki and one other, “Basic research for building Japanese readability by applying a corpus of Japanese language textbooks”, IEICE Technical Report, p. 19-24, October 2007 佐藤理史、“日本語テキストの難易度を測る”、月刊言語、Vol.37、No.8、P.54−57、2008年8月1日Sato Satoshi, “Measure the difficulty of Japanese text”, Monthly Language, Vol. 37, no. 8, P.I. 54-57, August 1, 2008 川村よし子、他1名、“文章の難易度判定のための単語親密度チェッカーの開発”、日本語教育方法研究会誌、Vol.15、No.2、P.24−25、2008年9月20日Yoshiko Kawamura and 1 other, “Development of word familiarity checker for determining difficulty of sentences”, Journal of Japanese Language Education Methodology, Vol. 15, No. 2, P.I. 24-25, September 20, 2008 尾内理紀夫著、「マルチメディアコンピューティング」、株式会社コロナ社、2008年10月24日、P.182−185Ono Rikio, “Multimedia Computing”, Corona Inc., October 24, 2008, p. 182-185

しかしながら、上記従来のシステムでは、以下の問題を生じる。   However, the conventional system causes the following problems.

具体的には、出現頻度、単語親密度、出題範囲など、単語単位で得られる特徴のみが考慮されており、単語を構成している文字ごとの客観的な特徴(文字の複雑さなど)が考慮されていない。   Specifically, only the features obtained in units of words, such as appearance frequency, word familiarity, and question range, are considered, and objective features (character complexity, etc.) for each character constituting the word are considered. Not considered.

また、上記単語親密度は、調査によって「語感」や「なじみ」など、被験者の主観的な判断から得た指標である。難易度の判定にとって重要な指標の一つにはなるが、調査範囲や調査時期によっては、不偏性・客観性を維持するための指標としては向かない場合がある。また、出題範囲は、カバーしている単語の範囲が有限であって、日々利用されながら変化する語彙に柔軟に対応できない。   The word familiarity is an index obtained from the subjective judgment of the subject, such as “sense of feeling” and “familiarity”, through a survey. Although this is one of the important indicators for determining the difficulty level, it may not be suitable as an indicator for maintaining unbiasedness and objectivity depending on the scope and timing of the investigation. In addition, the range of questions is limited, and the range of words covered cannot be flexibly dealt with vocabulary that changes while being used every day.

以上の理由から、上記従来のシステムでは、単語のレベルを客観的にかつ精度よく判定することができないという問題が生じる。   For the above reasons, the conventional system has a problem that the level of words cannot be determined objectively and accurately.

上述したとおり、膨大な量の漢字および単語を習得することは、学習者にとって困難な作業である。そのような学習者を支援するためには、単語単位のみならず、文字単位で文字自体の難易度も併せて考慮して、客観的に、精度よく単語のレベル判定を行うことがさらに重要な課題となる。   As described above, learning an enormous amount of kanji and words is a difficult task for the learner. In order to support such a learner, it is more important to objectively and accurately determine the level of the word in consideration of not only the word unit but also the character difficulty level in character units. It becomes a problem.

なお、上記課題は、日本語の教育・学習の分野に限定して生じるものではなく、日本語を利用するあらゆる分野において、日本語の単語のレベルを判定する場面で生じるものである。   Note that the above-mentioned problem does not occur only in the field of Japanese language education / learning, but occurs in situations where the level of Japanese words is determined in all fields that use Japanese.

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、日本語の文章における単語のレベル判定を客観的かつ精度よく行う単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体を実現することにある。   The present invention has been made in view of the above-described problems, and an object of the present invention is to provide a word level determination device, a word level determination system, and a word level determination that objectively and accurately determine a word level in a Japanese sentence. To realize a method, a control program, and a recording medium.

本発明の単語レベル判定装置は、上記課題を解決するために、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、自装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得手段と、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得手段と、上記入力された単語に含まれる各文字の、上記文字特徴量取得手段によって取得された文字特徴量を総合することによって得られる字総合特徴量と、上記単語特徴量取得手段によって取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出手段とを備えていることを特徴としている。   In order to solve the above-described problem, the word level determination device of the present invention provides a character feature amount indicating a character feature for each character, and a character feature amount storage unit for each character included in a word input to the device. In addition, a word feature amount acquisition unit that acquires a character feature amount, and a word feature amount acquisition unit that stores a word feature amount indicating a word feature for each word, a word feature that acquires a word feature amount of the input word A character total feature amount obtained by combining the character feature amount acquired by the character feature amount acquisition unit for each character included in the input word, and the word feature amount acquisition unit It is characterized by comprising a word level value calculating means for calculating a word level value indicating the difficulty of the word in the inputted word from the acquired word feature amount.

上記構成によれば、単語レベル判定装置に単語が入力されると、文字特徴量取得手段、および、単語特徴量取得手段のそれぞれが、文字特徴量、および、単語特徴量をそれぞれ取得する。文字特徴量取得手段は、文字特徴量記憶部から、入力された上記単語に含まれる文字ごとに、文字特徴量を取得する。単語特徴量取得手段は、入力された上記単語に対応付けて記憶されている単語特徴量を、単語特徴量記憶部から取得する。   According to the above configuration, when a word is input to the word level determination device, the character feature amount acquisition unit and the word feature amount acquisition unit respectively acquire the character feature amount and the word feature amount. The character feature amount acquisition unit acquires a character feature amount from the character feature amount storage unit for each character included in the input word. The word feature amount acquisition unit acquires the word feature amount stored in association with the input word from the word feature amount storage unit.

次に、単語レベル値算出手段は、上記入力された単語の文字ごとに取得された文字特徴量を総合することによって得られる文字総合特徴量と、単語ごとに取得された単語特徴量とから、上記入力された単語の単語レベル値を算出する。単語レベル値とは、単語の難しさを示す値である。   Next, the word level value calculating means, from the character total feature amount obtained by combining the character feature amount acquired for each character of the input word, and the word feature amount acquired for each word, The word level value of the input word is calculated. The word level value is a value indicating the difficulty of the word.

文字の特徴から得られた文字特徴量は、単語の語感や親しみやすさなど、人の主観的な尺度に左右されない客観的で公平な尺度である。上記構成によれば、単語特徴量に加えて、文字特徴量を考慮することにより、客観的な単語レベル値を算出することができるので、客観的で精度のよい単語レベル判定を実現することが可能になる。   The character feature amount obtained from the character feature is an objective and fair measure that is not influenced by the subjective measure of the person, such as the word sense and familiarity. According to the above configuration, an objective word level value can be calculated by considering a character feature amount in addition to a word feature amount, so that an objective and accurate word level determination can be realized. It becomes possible.

単語レベル判定装置は、自装置に入力された日本語の文章から単語を抽出する単語抽出手段をさらに備え、上記文字特徴量取得手段は、単語に含まれる文字ごとに文字特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行い、上記単語特徴量取得手段は、単語の単語特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行い、上記単語レベル値算出手段は、上記単語抽出手段によって抽出された単語ごとに、文字特徴量を総合することにより得られた上記文字総合特徴量と、上記抽出された単語ごとに取得された上記単語特徴量とから、上記抽出された単語ごとに上記単語レベル値を算出することが好ましい。   The word level determination device further includes a word extraction unit that extracts a word from a Japanese sentence input to the device, and the character feature amount acquisition unit acquires a character feature amount for each character included in the word. Is performed for each word extracted by the word extraction unit, and the word feature amount acquisition unit performs a process of acquiring a word feature amount of the word for each word extracted by the word extraction unit. The value calculation means includes, for each word extracted by the word extraction means, the character total feature quantity obtained by integrating the character feature quantity, and the word feature quantity acquired for each extracted word. From the above, it is preferable to calculate the word level value for each extracted word.

上記構成によれば、単語レベル判定装置に文章が入力されると、単語抽出手段は、入力された日本語の文章から単語を抽出する。単語抽出手段は、日本語の文章のテキストデータに含まれる1または複数の単語を抽出する。次に、文字特徴量取得手段、および、単語特徴量取得手段のそれぞれが、文字特徴量、および、単語特徴量をそれぞれ取得する。ここで、上記文字特徴量取得手段は、単語に含まれる文字ごとに文字特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行う。よって、上記文字総合特徴量は、上記抽出された単語ごとに求められる。また、上記単語特徴量取得手段は、単語の単語特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行う。   According to the above configuration, when a sentence is input to the word level determination device, the word extracting unit extracts a word from the input Japanese sentence. The word extraction means extracts one or more words included in the text data of the Japanese sentence. Next, the character feature amount acquisition unit and the word feature amount acquisition unit respectively acquire the character feature amount and the word feature amount. Here, the character feature amount acquisition unit performs the process of acquiring the character feature amount for each character included in the word for each word extracted by the word extraction unit. Therefore, the character total feature amount is obtained for each extracted word. Further, the word feature amount acquisition unit performs a process of acquiring a word feature amount of the word for each word extracted by the word extraction unit.

そして、単語レベル値算出手段は、上記抽出された単語ごとに得られた文字総合特徴量および単語特徴量から、上記抽出された単語ごとに単語レベル値を算出する。   Then, the word level value calculating means calculates a word level value for each extracted word from the character total feature amount and the word feature amount obtained for each extracted word.

これにより、文章中に含まれる複数の単語の各々について、客観的で精度のよい単語レベル判定を実現することが可能になる。   Thereby, objective and accurate word level determination can be realized for each of a plurality of words included in the sentence.

文章中の各単語についてまとめて単語レベルの判定を行うことが可能になれば、日本語教育の分野において、日本語教師の支援を行うことが可能となる。従来、教育現場では、日本語教材となる素材(例えば、新聞記事など)を、教師が学習者のスキルに合わせて書き直して利用するなどしていた。しかし、この単語の置き換えや文章校正は、教師にとって労力の大きい作業である。なぜなら、素材中の単語のレベルを適切に判断した上で、さらに学習者のスキルに合わせて適切な(より平易な、あるいは、難解な)単語を探さなければならないからである。   If it becomes possible to collectively determine the word level for each word in the sentence, it will be possible to support Japanese teachers in the field of Japanese language education. In the past, teachers have rewritten and used materials that serve as Japanese teaching materials (for example, newspaper articles) according to the learner's skills. However, this word replacement and sentence proofing are laborious tasks for teachers. This is because, after appropriately determining the level of the word in the material, it is necessary to search for an appropriate (more simple or difficult) word according to the skill of the learner.

本発明によれば、教師は、文章を本発明の単語レベル判定装置に入力するだけで、客観的な値である単語レベル値を得ることができ、単語レベル値を尺度として、あらゆる単語の難易度を、容易に、客観的に判断することが可能となる。これにより、教師は、学習者のレベルに応じた教材であるか否かを判断したり、レベルに応じた教材を選択したりすることが容易となる。   According to the present invention, a teacher can obtain an objective word level value simply by inputting a sentence to the word level determination device of the present invention. The degree can be easily and objectively determined. This makes it easy for the teacher to determine whether or not the learning material corresponds to the learner's level and to select the learning material according to the level.

単語レベル判定装置は、さらに、上記単語レベル値と、ユーザに提示するための、単語の難しさを表す文字列である単語難易度とを対応付けた対応情報を記憶する対応情報記憶部と、上記対応情報記憶部から、上記単語レベル値算出手段によって算出された単語レベル値に対応付けられた単語難易度を取得する単語難易度取得手段とを備えていることが好ましい。   The word level determination apparatus further includes a correspondence information storage unit that stores correspondence information in which the word level value is associated with a word difficulty level that is a character string representing the difficulty of the word to be presented to the user; It is preferable that a word difficulty level acquisition unit that acquires a word difficulty level associated with the word level value calculated by the word level value calculation unit from the correspondence information storage unit.

上記構成によれば、単語難易度取得手段は、対応情報記憶部に記憶された対応情報を参照して、上記単語レベル値算出手段が算出した単語レベル値に対応する単語難易度を取得する。上記対応情報は、上記単語レベル値と、単語の難しさをユーザに提示するために表した文字列である単語難易度とが対応付けられたデータ構造を有する。したがって、単語難易度取得手段は、上記対応情報を参照することによって、上記単語レベル値から、ユーザに提示するための単語難易度を得ることができる。   According to the above configuration, the word difficulty level acquisition unit refers to the correspondence information stored in the correspondence information storage unit and acquires the word difficulty level corresponding to the word level value calculated by the word level value calculation unit. The correspondence information has a data structure in which the word level value is associated with a word difficulty level, which is a character string expressed to present the difficulty of the word to the user. Therefore, the word difficulty level acquisition means can obtain the word difficulty level to be presented to the user from the word level value by referring to the correspondence information.

これにより、単語の難しさを文字列によって表現した単語難易度は、難しさを値で示す単語レベル値に比べて、ユーザに直感的に分かりやすい表現で、単語の難しさの度合いをユーザに提示することができる。ユーザは、客観的に算出された単語レベル値が、例えば、ランク、等級、言葉などの文字列によって分かりやすく表現された判定結果を得ることができるので、ユーザの利便性がより向上する。   As a result, the word difficulty level representing the difficulty of the word as a character string is expressed in a manner that is intuitively understandable to the user, compared to the word level value indicating the difficulty, and the degree of difficulty of the word is indicated to the user. Can be presented. The user can obtain a determination result in which the objectively calculated word level value is easily expressed by a character string such as a rank, a grade, and a word, for example, so that convenience for the user is further improved.

さらに、対応情報を対応情報記憶部に記憶しておく構成により、該対応情報における、単語レベル値と単語難易度の文字列との対応付けや文字列の内容を、ユーザが容易に作成、編集可能となる。   Furthermore, the correspondence information is stored in the correspondence information storage unit, so that the user can easily create and edit the correspondence between the word level value and the word difficulty character string and the contents of the character string in the correspondence information. It becomes possible.

例えば、日本語教材を学習者に提供する教師がユーザである場合、教師は、教育現場での経験から、日本語教育における学習者達にとっての単語の難易度を把握することができる。このような教師達の意見を反映した対応情報を作成し記憶することにより、日本語教材について単語の難易度を判定する際に、日本語教育現場にとって最適な基準となる対応情報を用いることができ、より適正な難易度判定を実施することができる。   For example, when a teacher who provides Japanese language learning materials to a learner is a user, the teacher can grasp the difficulty level of words for learners in Japanese language education from experience in the education field. By creating and storing correspondence information reflecting the opinions of such teachers, it is possible to use correspondence information that is the best standard for Japanese language education when determining the difficulty of words in Japanese teaching materials. And a more appropriate difficulty level determination can be performed.

上記文字特徴量記憶部は、文字特徴量として、文字の画数を記憶するものであって、上記文字特徴量取得手段は、上記文字特徴量記憶部から文字の画数を取得してもよい。   The character feature amount storage unit may store the number of character strokes as a character feature amount, and the character feature amount acquisition unit may acquire the number of character strokes from the character feature amount storage unit.

これにより、文字特徴量として、文字の画数という、人の主観的な尺度に左右されない、客観的で公平な尺度を用いて、単語レベル値を算出することができるので、客観的な単語レベル判定を精度よく行うことが可能となる。   As a result, the word level value can be calculated by using an objective and fair scale that is not affected by the human subjective scale, ie, the number of character strokes, as the character feature amount. Can be performed with high accuracy.

上記単語特徴量記憶部は、単語特徴量として、単語のIDF(Inverse Document Frequency)を記憶するものであって、上記単語特徴量取得手段は、上記単語特徴量記憶部から単語のIDFを取得してもよい。   The word feature storage unit stores a word IDF (Inverse Document Frequency) as a word feature, and the word feature acquisition unit acquires the IDF of the word from the word feature storage unit. May be.

IDF(Inverse Document Frequency)とは、文書集合全体における単語の重要度を表す尺度である。単語が文書中に現れる出現頻度と似ているが、IDFでは、文書集合全体にある単語が現れるとき、その単語の現れ方として、特定の文書に偏って頻出する単語に対して、より大きな重みを与える。   IDF (Inverse Document Frequency) is a measure representing the importance of words in the entire document set. Similar to the appearance frequency of words appearing in a document, in IDF, when a word appears in the entire document set, the appearance of the word is given a greater weight with respect to a word that appears frequently in a specific document. give.

このようなIDFを単語特徴量として用いることにより、出現頻度が高いために、広く一般に利用されていることから易しい単語であると判断される傾向にある単語に対して、その単語が特定の文書(新聞の特定の記事など)にのみ頻出する場合には、特殊な単語であるとして、より難しい単語であると判断することができる。   By using such an IDF as a word feature amount, since the appearance frequency is high, the word is a specific document for a word that tends to be judged as an easy word because it is widely used in general. If it appears frequently only in a specific article (such as a specific article in a newspaper), it can be determined that it is a more difficult word as a special word.

したがって、出現の偏りを考慮することにより、単なる出現頻度に基づいて判定する場合と比べて、より精度よく単語のレベル判定を行うことが可能となる。   Therefore, by considering the bias of appearance, it is possible to perform the level determination of the word with higher accuracy than in the case of determining based on the simple appearance frequency.

さらに、IDFを求めるときの上記文書集合を広くすればするほど、多くの文書から多くの単語をカバーすることができ、また、正しく偏りを判断することができるため、単語のIDFをより高精度に求めることができる。よって、単語が限定された出題範囲などを用いた判定と比べて、より精度よく単語のレベル判定を行うことができる。   Further, the wider the document set for obtaining the IDF, the more words can be covered from many documents, and the bias can be correctly determined. Can be requested. Therefore, the level determination of the word can be performed with higher accuracy than the determination using the question range in which the word is limited.

特に、IDFを求めるときのコーパスとなる文書集合を、最近の新聞記事やインターネット上で公開されている文書などから、広く、定期的に取得すれば、定期的に更新されたIDFに基づいて、単語の単語レベル値を算出することができる。   In particular, if a document set serving as a corpus for obtaining an IDF is widely and regularly obtained from recent newspaper articles or documents published on the Internet, based on the periodically updated IDF, The word level value of the word can be calculated.

最近の新聞記事やインターネット上の文書は、頻繁に更新されているので、現在の日本語の利用特性を忠実に反映している文書であると考えられる。このような文書を多く含む文書集合からIDFを求めることにより、IDFは、現在の日本語の利用特性を反映したものとなる。したがって、上記IDFを用いることにより、日々の語彙の変化、流行の移り変わりなどに対応して、単語のレベル判定を行うことが可能となる。   Since recent newspaper articles and documents on the Internet are frequently updated, it is considered that the documents reflect the current Japanese usage characteristics faithfully. By obtaining the IDF from a document set including many such documents, the IDF reflects the current Japanese usage characteristics. Therefore, by using the IDF, it becomes possible to perform word level determination in response to daily vocabulary changes, trend changes, and the like.

さらに、インターネット上の文書をコーパスとしてより多く採用することにより、新聞記事などの特定の執筆者により作成された固い文章のみならず、様々な立場の人が執筆した日常的に用いられる文章からIDFを求めることが可能となる。これにより、偏りのない公平な単語のレベル判定を行うことが可能となる。   Furthermore, by adopting more documents on the Internet as a corpus, IDF can be used not only from hard sentences created by specific authors such as newspaper articles but also from everyday sentences written by people of various positions. Can be obtained. This makes it possible to perform fair word level determination without bias.

上記文字特徴量記憶部は、文字特徴量として、文字の画数を記憶するものであって、上記文字特徴量取得手段は、上記文字特徴量記憶部から取得した各文字の画数を、単語ごとに総合することによって単語総画数を算出し、上記単語特徴量記憶部は、単語特徴量として、単語のIDFを記憶するものであって、上記単語特徴量取得手段は、上記単語特徴量記憶部から単語のIDF(Inverse Document Frequency)を取得し、上記単語レベル値算出手段は、上記単語総画数と上記IDFとに、加算処理、乗算処理、および、加重平均処理の少なくとも1つを施すことにより、単語レベル値を算出することが好ましい。   The character feature amount storage unit stores the number of character strokes as a character feature amount, and the character feature amount acquisition unit calculates the number of character strokes acquired from the character feature amount storage unit for each word. The total number of words is calculated by combining the words, and the word feature storage unit stores the IDF of the word as the word feature, and the word feature acquisition unit receives the word feature from the word feature storage unit. An IDF (Inverse Document Frequency) of a word is acquired, and the word level value calculating means performs at least one of an addition process, a multiplication process, and a weighted average process on the word total stroke count and the IDF, Preferably, the word level value is calculated.

上記構成によれば、客観的な文字の画数から得られた、単語ごとの単語総画数(文字総合特徴量)と、単語ごとのIDF(単語特徴量)とに、加算、乗算および加重平均などの演算処理の少なくとも一つを施すことによって統合して、単語レベル値を算出することが可能となる。   According to the above configuration, addition, multiplication, weighted average, etc. are added to the total number of strokes (character total feature amount) for each word and IDF (word feature amount) for each word obtained from the number of strokes of objective characters. It is possible to calculate the word level value by integrating at least one of the above arithmetic processes.

したがって、客観的で精度のよい単語レベル判定を容易に実現することが可能となる。   Therefore, objective and accurate word level determination can be easily realized.

上記対応情報記憶部は、さらに、上記対応情報を学習者の学習段階ごとに記憶するものであって、上記単語難易度取得手段は、自装置に入力された学習者に関する学習者情報によって学習段階が指定された場合に、指定された学習段階に対応する対応情報において、上記算出された単語レベル値に対応付けられた単語難易度を、上記対応情報記憶部から取得することが好ましい。   The correspondence information storage unit further stores the correspondence information for each learning stage of the learner, and the word difficulty level acquisition unit learns based on the learner information about the learner input to the device. In the correspondence information corresponding to the designated learning stage, the word difficulty level associated with the calculated word level value is preferably acquired from the correspondence information storage unit.

上記構成によれば、上記対応情報記憶部は、単語レベル値と単語難易度との対応関係を示す対応情報を、1つではなく複数含む。各対応情報は、学習段階ごとに設けられ、学習段階に応じて様々な対応関係を示している。   According to the above configuration, the correspondence information storage unit includes a plurality of pieces of correspondence information indicating a correspondence relationship between the word level value and the word difficulty level instead of one. Each correspondence information is provided for each learning stage, and shows various correspondences depending on the learning stage.

具体的には、同じ単語レベル値に対して、学習が進んでいない(学習段階が低い)学習者向けに、高い難易度を対応付けている対応情報もあれば、学習段階が高い学習者向けに、低い難易度を対応付けている対応情報もある。これは、客観的な数値である単語レベル値を、学習者向けの主観的な難易度に変換するときに、様々な学習段階にいる学習者を考慮して難易度を決定しようとするものである。   Specifically, for learners who are not learning at the same word level value (learning level is low), there is correspondence information that associates a high difficulty level, and for learners with a high learning level There is also correspondence information that associates a low difficulty level. This is an attempt to determine the difficulty level in consideration of learners at various stages of learning when converting word level values, which are objective numerical values, into subjective difficulty levels for learners. is there.

単語難易度取得手段は、入力された文章または単語について、単語のレベル判定を行う際、入力された学習者情報に基づいて学習者の学習段階が指定されれば、上述した複数種類の対応情報の中から、上記指定された学習段階に対応する対応情報を参照して、その対応情報において、上記単語レベル値に対応する単語難易度の文字列を取得する。学習者情報とは、難易度判定の基準となる学習者に関する情報であり、学習段階を特定することを可能にするあらゆる情報である。一例として、学習者情報は、学習段階そのものを示す情報であってもよいし、学習者を識別する識別情報であって、識別情報から学習段階が特定されるものであってもよい。   The word difficulty level acquisition means, when performing the word level determination for the input sentence or word, if the learner's learning stage is specified based on the input learner information, the plurality of types of correspondence information described above The correspondence information corresponding to the designated learning stage is referred to, and the character string of the word difficulty level corresponding to the word level value is acquired in the correspondence information. The learner information is information related to the learner serving as a criterion for determining the difficulty level, and is any information that enables the learning stage to be specified. As an example, the learner information may be information indicating the learning stage itself, or identification information for identifying the learner, and the learning stage may be specified from the identification information.

これにより、上記単語レベル値に基づいて、学習者のスキルに応じて単語難易度を判定することができる。したがって、ユーザの利便性はさらに向上する。   Thereby, based on the said word level value, a word difficulty level can be determined according to a learner's skill. Therefore, user convenience is further improved.

本発明の単語レベル判定システムは、上記課題を解決するために、上述の単語レベル判定装置と、上記単語レベル判定装置と通信する端末装置とを含み、上記端末装置は、該端末装置のユーザによって入力された単語の単語レベル値を、上記単語レベル判定装置に要求し、上記単語レベル判定装置は、上記端末装置から受信した単語について算出した単語レベル値を、上記要求の応答として上記端末装置に送信することを特徴としている。   In order to solve the above problems, a word level determination system of the present invention includes the above word level determination device and a terminal device that communicates with the word level determination device, and the terminal device is determined by a user of the terminal device. The word level determination device requests the word level value of the input word, and the word level determination device sends the word level value calculated for the word received from the terminal device to the terminal device as a response to the request. It is characterized by transmitting.

上記構成によれば、上述した本発明の単語レベル判定装置を、スタンドアロンの情報処理装置のみならず、複数の装置が互いに通信可能に接続されている通信ネットワークシステムにも適用することができる。このようにして構築された単語レベル判定システムも本発明の範疇に入る。   According to the above configuration, the above-described word level determination device of the present invention can be applied not only to a stand-alone information processing device but also to a communication network system in which a plurality of devices are connected to be able to communicate with each other. The word level determination system constructed in this way also falls within the scope of the present invention.

本発明の単語レベル判定方法は、上記課題を解決するために、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、単語レベル判定装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得ステップと、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得ステップと、上記入力された単語に含まれる各文字の、上記文字特徴量取得ステップにて取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得ステップにて取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出ステップとを含むことを特徴としている。   In order to solve the above problems, the word level determination method of the present invention is included in a word input to the word level determination device from a character feature amount storage unit that stores a character feature amount indicating a character feature for each character. For each character, the character feature amount acquisition step for acquiring the character feature amount and the word feature amount storage unit for storing the word feature amount indicating the word feature for each word acquire the word feature amount of the input word. A word feature amount acquisition step, a character total feature amount obtained by combining the character feature amounts acquired in the character feature amount acquisition step of each character included in the input word, and the word feature amount A word level value calculating step of calculating a word level value indicating the difficulty of the word in the input word from the word feature amount acquired in the acquiring step, To have.

上記方法によれば、客観的な文字特徴量を単語特徴量とともに採用して、単語レベル値を算出することができるので、客観的で精度よい単語レベル判定方法を実現することが可能になる。   According to the above method, an objective character feature amount can be adopted together with a word feature amount, and a word level value can be calculated. Therefore, an objective and accurate word level determination method can be realized.

なお、上記単語レベル判定装置および上記単語レベル判定システムは、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記単語レベル判定装置または上記単語レベル判定システムをコンピュータにて実現させる上記単語レベル判定装置または上記単語レベル判定システムの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。   The word level determination device and the word level determination system may be realized by a computer. In this case, the word level determination device or the word level determination system is operated by causing the computer to operate as each means. The control program for the word level determination apparatus or the word level determination system realized by a computer and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.

本発明の単語レベル判定装置は、上記課題を解決するために、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、自装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得手段と、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得手段と、上記入力された単語に含まれる各文字の、上記文字特徴量取得手段によって取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得手段によって取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出手段とを備えていることを特徴としている。   In order to solve the above-described problem, the word level determination device of the present invention provides a character feature amount indicating a character feature for each character, and a character feature amount storage unit for each character included in a word input to the device. In addition, a word feature amount acquisition unit that acquires a character feature amount, and a word feature amount acquisition unit that stores a word feature amount indicating a word feature for each word, a word feature that acquires a word feature amount of the input word A character total feature amount obtained by combining the character feature amount acquired by the character feature amount acquisition unit for each character included in the input word, and the word feature amount acquisition unit It is characterized by comprising a word level value calculating means for calculating a word level value indicating the difficulty of the word in the inputted word from the acquired word feature amount.

本発明の単語レベル判定システムは、上記課題を解決するために、上述の単語レベル判定装置と、上記単語レベル判定装置と通信する端末装置とを含み、上記端末装置は、該端末装置のユーザによって入力された単語の単語レベル値を、上記単語レベル判定装置に要求し、上記単語レベル判定装置は、上記端末装置から受信した単語について算出した単語レベル値を、上記要求の応答として上記端末装置に送信することを特徴としている。   In order to solve the above problems, a word level determination system of the present invention includes the above word level determination device and a terminal device that communicates with the word level determination device, and the terminal device is determined by a user of the terminal device. The word level determination device requests the word level value of the input word, and the word level determination device sends the word level value calculated for the word received from the terminal device to the terminal device as a response to the request. It is characterized by transmitting.

本発明の単語レベル判定方法は、上記課題を解決するために、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、単語レベル判定装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得ステップと、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得ステップと、上記入力された単語に含まれる各文字の、上記文字特徴量取得ステップにて取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得ステップにて取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出ステップとを含むことを特徴としている。   In order to solve the above problems, the word level determination method of the present invention is included in a word input to the word level determination device from a character feature amount storage unit that stores a character feature amount indicating a character feature for each character. For each character, the character feature amount acquisition step for acquiring the character feature amount and the word feature amount storage unit for storing the word feature amount indicating the word feature for each word acquire the word feature amount of the input word. A word feature amount acquisition step, a character total feature amount obtained by combining the character feature amounts acquired in the character feature amount acquisition step of each character included in the input word, and the word feature amount A word level value calculating step of calculating a word level value indicating the difficulty of the word in the input word from the word feature amount acquired in the acquiring step, To have.

これにより、客観的な文字特徴量を単語特徴量とともに採用して、単語レベル値を算出することができるので、客観的な単語レベル判定を精度よく実施することが可能になるという効果を奏する。   Thereby, an objective character feature amount can be adopted together with a word feature amount, and a word level value can be calculated, so that an objective word level determination can be performed with high accuracy.

本発明の単語レベル判定システム100を模式的に示す図である。It is a figure which shows typically the word level determination system 100 of this invention. 本発明の実施形態における単語レベル判定装置(パソコン1)の要部構成を示すブロック図である。It is a block diagram which shows the principal part structure of the word level determination apparatus (personal computer 1) in embodiment of this invention. (a)〜(c)は、画数データベース23に記憶されるテーブルの具体例を示す図である。(A)-(c) is a figure which shows the specific example of the table memorize | stored in the stroke number database 23. FIG. IDFデータベース35に記憶されるテーブルの具体例を示す図である。It is a figure which shows the specific example of the table memorize | stored in the IDF database. 対応情報記憶部108として記憶部11に記憶されるテーブルの具体例を示す図である。6 is a diagram illustrating a specific example of a table stored in a storage unit 11 as a correspondence information storage unit 108. FIG. 本実施形態における単語レベル判定装置の単語レベル判定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the word level determination process of the word level determination apparatus in this embodiment. 対応情報記憶部108として記憶部11に記録されるテーブルの他の具体例を示す図である。It is a figure which shows the other specific example of the table recorded on the memory | storage part 11 as the corresponding | compatible information storage part. 学習者情報記憶部38に記憶される学習者情報テーブルの具体例を示す図である。It is a figure which shows the specific example of the learner information table memorize | stored in the learner information storage part. 本実施形態における単語レベル判定装置の単語難易度判定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the word difficulty level determination process of the word level determination apparatus in this embodiment. 文章を入力するためのGUI画面の一例を示す図である。It is a figure which shows an example of the GUI screen for inputting a text. 単語レベル判定結果をユーザに提示するためのGUI画面の一例を示す図である。It is a figure which shows an example of the GUI screen for showing a word level determination result to a user.

本発明の実施形態について、図面に基づいて説明すると以下の通りである。   An embodiment of the present invention will be described below with reference to the drawings.

〔単語レベル判定システムの概要〕
まず、図1を参照して、本発明の単語レベル判定方法を実現する単語レベル判定システムについて説明する。なお、本発明の単語レベル判定システムは、スタンドアロン型の情報処理装置によって実現されてもよいし、通信ネットワークを介して互いに接続されている複数の情報処理装置および記憶装置で構築されるネットワークシステムによって実現されてもよい。
[Outline of word level judgment system]
First, with reference to FIG. 1, the word level determination system which implement | achieves the word level determination method of this invention is demonstrated. The word level determination system of the present invention may be realized by a stand-alone information processing device, or by a network system constructed by a plurality of information processing devices and storage devices connected to each other via a communication network. It may be realized.

図1は、本発明の単語レベル判定システム100を模式的に示す図である。図1に示すとおり、単語レベル判定システム100は、機能ブロックとしての、単語抽出部101、文字特徴量取得部102、単語特徴量取得部104、および、単語レベル値算出部(単語レベル値算出手段)106を少なくとも備え、さらに好ましくは、単語難易度判定部(単語難易度取得手段)107を備える構成となっている。また、単語レベル判定システム100は、該システムの各機能ブロックが読み出し/書き込みを行う文字特徴量記憶部103、および、単語特徴量記憶部105を少なくとも備え、さらに好ましくは、対応情報記憶部108を含んでいる。   FIG. 1 is a diagram schematically showing a word level determination system 100 of the present invention. As shown in FIG. 1, the word level determination system 100 includes a word extraction unit 101, a character feature amount acquisition unit 102, a word feature amount acquisition unit 104, and a word level value calculation unit (word level value calculation means) as functional blocks. ) 106, and more preferably a word difficulty determination unit (word difficulty acquisition means) 107. The word level determination system 100 further includes at least a character feature amount storage unit 103 and a word feature amount storage unit 105 that each functional block of the system reads / writes, and more preferably, includes a correspondence information storage unit 108. Contains.

単語抽出部101は、ユーザによって単語レベル判定システム100に入力された文章(テキストデータ)D1から、日本語の文法にしたがって単語を抽出するものである。単語抽出部101は、例えば、形態素解析ソフトウェアなど、従来公知の技術を適宜採用することができる。単語抽出部101が抽出した単語(形態素)の情報は、単語情報D2として、以下の各特徴量取得部に供給される。   The word extraction unit 101 extracts words from a sentence (text data) D1 input to the word level determination system 100 by a user according to Japanese grammar. The word extraction unit 101 can appropriately employ a conventionally known technique such as morphological analysis software, for example. Information on the word (morpheme) extracted by the word extraction unit 101 is supplied as word information D2 to the following feature amount acquisition units.

文字特徴量取得部102は、単語抽出部101が抽出した単語を構成する各文字について、文字の特徴を表す、文字単位の特徴量(文字特徴量)を、文字特徴量記憶部103から取得するものである。また、本発明の一実施形態では、文字特徴量取得部102は、文字ごとに取得した文字特徴量を、単語ごとに1つに総合して文字総合特徴量D3を算出する。各文字の文字特徴量を単語ごとにどのように総合するのかは特に限定されないが、文字特徴量取得部102が単語ごとに文字総合特徴量D3を算出する方法の一例を後段の実施形態1にて詳述する。なお、本発明は上記構成に限定されない。文字特徴量取得部102は、入力された単語の各文字の文字特徴量を単語レベル値算出部106に供給してもよい。   The character feature amount acquisition unit 102 acquires, from the character feature amount storage unit 103, a character unit feature amount (character feature amount) representing the character feature of each character constituting the word extracted by the word extraction unit 101. Is. In one embodiment of the present invention, the character feature amount acquisition unit 102 calculates the character total feature amount D3 by combining the character feature amounts acquired for each character into one for each word. There is no particular limitation on how to combine the character feature values of each character for each word, but an example of a method in which the character feature value acquisition unit 102 calculates the character total feature value D3 for each word is described in the first embodiment. Will be described in detail. In addition, this invention is not limited to the said structure. The character feature amount acquisition unit 102 may supply the character feature amount of each character of the input word to the word level value calculation unit 106.

文字特徴量としては、文字の画数、文字の種類、文字の複雑さなどがあり、文字特徴量取得部102は、これらを単体で、または、組み合わせて文字特徴量として抽出することができる。文字の複雑さを抽出する方法としては、文字の形状を数値化して、文字の複雑さを数値で得ることが考えられる。例えば、あるフォントの1文字について、文字のピクセルと背景のピクセルとの比率、文字のピクセルのばらつきなどから、客観的に文字の複雑さを数値化する。より具体的には、「口語」という単語では、文字「口」は、文字のピクセルが4本の線を形成するよう配置されたシンプルな形状であり、文字「語」は、より多くの文字のピクセルが疎らに配置され、多数の短い線が複雑に組み合わされた、複雑な形状である。よって、文字特徴量取得部102は、文字のピクセル数やそのばらつきから、文字の複雑さを示すより大きい値を文字「語」に対して付与する。これにより、文字「口」よりも文字「語」の方が、より複雑であると判断可能となる。   The character feature amount includes the number of character strokes, the character type, the character complexity, and the like, and the character feature amount acquisition unit 102 can extract them as a character feature amount alone or in combination. As a method for extracting the character complexity, it is conceivable to digitize the character shape and obtain the character complexity numerically. For example, for one character of a certain font, the complexity of the character is objectively digitized from the ratio of the character pixel to the background pixel, the variation of the character pixel, and the like. More specifically, in the word “spoken language”, the character “mouth” has a simple shape in which the pixels of the character are arranged to form four lines, and the character “word” has more characters. Pixels are sparsely arranged, and a complicated shape in which a number of short lines are combined in a complex manner. Therefore, the character feature amount acquisition unit 102 assigns a larger value indicating the character complexity to the character “word” based on the number of pixels of the character and its variation. Thereby, it can be determined that the character “word” is more complicated than the character “mouth”.

文字特徴量記憶部103には、文字の特徴が、文字ごとにあらかじめ格納されており、文字特徴量取得部102は、文字ごとに格納されている1以上の特徴を文字特徴量記憶部103から読み出すことによって、単語を構成する全ての文字ごとに文字特徴量を求めてもよい。   The character feature amount storage unit 103 stores character features in advance for each character. The character feature amount acquisition unit 102 stores one or more features stored for each character from the character feature amount storage unit 103. By reading, the character feature amount may be obtained for every character constituting the word.

単語特徴量取得部104は、単語抽出部101が抽出した単語について、単語の特徴を表す、単語単位の特徴量(単語特徴量)を、単語特徴量記憶部105から取得するものである。単語特徴量としては、出現頻度(単語が文書中に現れる数)、親密度(語彙の親しみやすさ)、試験出題範囲などの利用特性が抽出されてもよいが、さらに好ましくは、IDF(Inverse Document Frequency)などの単語の重要度を表す尺度が単語特徴量として取得される。単語特徴量取得部104は、これらの特徴量を単体で、または、組み合わせて単語特徴量を得る。なお、IDFの詳細については後述する。単語特徴量取得部104が取得した単語特徴量D4は、単語レベル値算出部106に供給される。   The word feature amount acquisition unit 104 acquires, from the word feature amount storage unit 105, a word unit feature amount (word feature amount) that represents the feature of the word for the word extracted by the word extraction unit 101. As the word feature amount, usage characteristics such as appearance frequency (number of words appearing in the document), familiarity (vocabulary friendliness), test range, etc. may be extracted, but more preferably IDF (Inverse A measure representing the importance of a word such as (Document Frequency) is acquired as a word feature amount. The word feature amount acquisition unit 104 obtains a word feature amount by combining these feature amounts alone or in combination. Details of the IDF will be described later. The word feature value D4 acquired by the word feature value acquisition unit 104 is supplied to the word level value calculation unit 106.

単語特徴量記憶部105には、単語の特徴が、単語ごとにあらかじめ格納されており、単語特徴量取得部104は、単語ごとに格納されている1以上の特徴を単語特徴量記憶部105から読み出して、上記文章中の各単語の単語特徴量を取得する。   The word feature quantity storage unit 105 stores word features in advance for each word. The word feature quantity acquisition unit 104 stores one or more features stored for each word from the word feature quantity storage unit 105. Read and acquire the word feature amount of each word in the sentence.

単語レベル値算出部106は、文字特徴量取得部102が出力した、文字総合特徴量D3(または、単語の各文字の文字特徴量)と、単語特徴量取得部104が抽出した単語特徴量D4とを統合して、単語の難しさの判定するための尺度となる単語レベル値D5を算出するものである。   The word level value calculation unit 106 outputs the character total feature amount D3 (or the character feature amount of each character of the word) output from the character feature amount acquisition unit 102 and the word feature amount D4 extracted by the word feature amount acquisition unit 104. And a word level value D5 that is a scale for determining the difficulty of the word is calculated.

単語レベル値算出部106は、各特徴量取得部から得られた各特徴量の数値が、演算によって、単語の難しさの度合いを示す数値、すなわち、単語レベル値になるように、各特徴量を統合する処理を実行する。単語レベル値算出部106が、この統合のために採用する演算方法は特に限定されず、得られた特徴量の性質によって適宜最適なものを用いる。例えば、単語レベル値算出部106は、得られた文字特徴量および/または単語特徴量に対して、演算処理(例えば、加算処理、乗算処理、平均値算出処理、および/または、加重平均算出処理など)を行って単語レベル値D5を算出する。本実施形態では、単語レベル値算出部106は、難しい単語ほど単語レベル値が高くなるように演算処理を行うが、本発明はこれに限定されない。   The word level value calculation unit 106 makes each feature quantity so that the numerical value of each feature quantity obtained from each feature quantity acquisition unit becomes a numerical value indicating the degree of difficulty of the word, that is, the word level value, by the calculation. Execute the process of integrating. The calculation method employed for the integration by the word level value calculation unit 106 is not particularly limited, and an optimum one is used as appropriate depending on the characteristics of the obtained feature amount. For example, the word level value calculation unit 106 performs arithmetic processing (for example, addition processing, multiplication processing, average value calculation processing, and / or weighted average calculation processing) on the obtained character feature amount and / or word feature amount. Etc.) to calculate the word level value D5. In the present embodiment, the word level value calculation unit 106 performs arithmetic processing so that the more difficult the word is, the higher the word level value is, but the present invention is not limited to this.

単語レベル値算出部106が算出した単語レベル値D5は、そのまま出力されて、ユーザに提示されてもよい。   The word level value D5 calculated by the word level value calculation unit 106 may be output as it is and presented to the user.

単語難易度判定部107は、対応情報記憶部108を参照して、単語レベル値算出部106が算出した単語レベル値D5に基づいて単語難易度を判定するものである。単語難易度とは、単語の難しさを数値で表現した単語レベル値D5を、単語の難しさを数段階に分けてユーザに理解しやすい表現に置き換えた文字列である。例えば、単語レベル値を大まかに区分し(例えば、5区分程度)、ユーザに直感的に分かりやすい表現で、単語の易しさ、難しさの度合いを段階的に(例えば、5段階表示で)表現する。具体的には、対応情報記憶部108には、単語難易度として、5つの段階、すなわち、レベルA(簡単)、レベルB(やや簡単)、レベルC(普通)、レベルD(やや難解)、レベルE(難解)があらかじめ定められており、各単語難易度と、単語レベル値の数値とが対応付けられて、対応情報として記憶されている。   The word difficulty level determination unit 107 refers to the correspondence information storage unit 108 and determines the word difficulty level based on the word level value D5 calculated by the word level value calculation unit 106. The word difficulty level is a character string obtained by replacing the word level value D5 that expresses the difficulty of the word with a numerical value into an expression that is easy to understand for the user by dividing the difficulty of the word into several stages. For example, word level values are roughly classified (for example, about 5 categories), and the level of ease and difficulty of words is expressed in stages (for example, in a 5-level display) in an intuitively understandable expression for the user. To do. Specifically, the correspondence information storage unit 108 has five levels as word difficulty levels, that is, level A (simple), level B (slightly simple), level C (normal), level D (slightly difficult), Level E (difficult) is determined in advance, and each word difficulty level is associated with the numerical value of the word level value and stored as correspondence information.

単語難易度判定部107は、対応情報記憶部108に記憶された上述の単語レベル値と単語難易度との対応関係を示す対応情報に基づいて、単語レベル値算出部106が算出した単語レベル値D5から単語難易度D6を特定し、単語難易度を判定することが可能となる。単語難易度判定部107が判定した単語難易度D6は、文字列として、ユーザに提示するために出力される。これにより、ユーザにより分かりやすい形態で、単語レベル判定結果をユーザに提示することが可能になる。   The word difficulty level determination unit 107 calculates the word level value calculated by the word level value calculation unit 106 based on the correspondence information indicating the correspondence relationship between the word level value and the word difficulty level stored in the correspondence information storage unit 108. The word difficulty level D6 can be specified from D5, and the word difficulty level can be determined. The word difficulty level D6 determined by the word difficulty level determination unit 107 is output for presentation to the user as a character string. As a result, the word level determination result can be presented to the user in a form that is easier for the user to understand.

なお、単語難易度D6は、単語レベル値D5のような定量的な数値とは異なり、直感的な表現を使うため、学習者の日本語スキルによっては、必ずしも全ての学習者に適した表現にならない場合がある。そこで、このような不都合を解消するため、単語難易度判定部107は、日本語の学習者の日本語スキルに応じて、単語レベル値D5と単語難易度D6との対応関係を調整してもよい。これは、単語難易度判定部107が、学習者の情報(以下、学習者情報D7)を取得することによって実現可能となる。この単語難易度D6の判定方法についての詳細は後述する。   Note that the word difficulty level D6 is different from a quantitative value such as the word level value D5, and uses an intuitive expression. Therefore, depending on the learner's Japanese skills, the word difficulty level D6 is not necessarily an expression suitable for all learners. It may not be possible. Therefore, in order to eliminate such inconvenience, the word difficulty level determination unit 107 may adjust the correspondence between the word level value D5 and the word difficulty level D6 according to the Japanese language skill of the Japanese learner. Good. This can be realized by the word difficulty level determination unit 107 acquiring learner information (hereinafter referred to as learner information D7). Details of the method for determining the word difficulty level D6 will be described later.

さらに、単語レベル判定システム100は、入力された文章D1に含まれる全ての(または一部の)単語の単語レベル値または単語難易度に基づいて、上記文章全体の難易度を判定する文章難易度判定部(不図示)を備えていてもよい。文章難易度判定部が判定した文章難易度も、ユーザにとって分かりやすい形態でユーザに提示されればよい。   Furthermore, the word level determination system 100 determines the difficulty level of the entire sentence based on the word level values or word difficulty levels of all (or a part of) words included in the input sentence D1. A determination unit (not shown) may be provided. The sentence difficulty determined by the sentence difficulty determination unit may be presented to the user in a form that is easy for the user to understand.

上記構成によれば、文字総合特徴量D3(または、各文字特徴量)および単語特徴量D4を統合することにより、より客観的に、精度よく、単語レベル(難易度)を判定することが可能となる。以下では、本発明の一実施形態について、具体例を用いてさらに詳細に説明する。   According to the above configuration, the word level (difficulty level) can be determined more objectively and accurately by integrating the character total feature amount D3 (or each character feature amount) and the word feature amount D4. It becomes. Hereinafter, an embodiment of the present invention will be described in more detail using specific examples.

≪実施形態1≫
次に、図1に示す、本発明の単語レベル判定システム100をスタンドアロンの単語レベル判定装置によって実現した実施形態について説明する。本実施形態では、本発明の単語レベル判定装置を、一例として、パーソナルコンピュータ(以下、パソコンと称する)に適用する。なお、本発明の単語レベル判定装置は、パソコンに限定されず、日本語を入出力することが可能なあらゆる情報処理装置に適用可能である(例えば、電子辞書、デジタルテレビ、家庭用(携帯用)ゲーム機、携帯電話、PDA(Personal Digital Assistant)など)。
Embodiment 1
Next, an embodiment in which the word level determination system 100 of the present invention shown in FIG. 1 is realized by a stand-alone word level determination device will be described. In this embodiment, the word level determination apparatus of the present invention is applied to a personal computer (hereinafter referred to as a personal computer) as an example. The word level determination device of the present invention is not limited to a personal computer, and can be applied to any information processing device capable of inputting and outputting Japanese (for example, an electronic dictionary, a digital TV, a home (portable) ) Game console, mobile phone, PDA (Personal Digital Assistant), etc.).

〔単語レベル判定装置(パソコン)の構成〕
図2は、本発明の実施形態におけるパソコン(単語レベル判定装置)1の要部構成を示すブロック図である。図2に示すとおり、パソコン((単語レベル判定システム/単語レベル判定装置)1は、制御部10、記憶部11、入力部12、表示部13および通信部14を備える構成となっている。
[Configuration of word level judgment device (PC)]
FIG. 2 is a block diagram showing a main configuration of the personal computer (word level determination device) 1 according to the embodiment of the present invention. As shown in FIG. 2, the personal computer ((word level determination system / word level determination device) 1 includes a control unit 10, a storage unit 11, an input unit 12, a display unit 13, and a communication unit 14.

入力部12は、文章D1を、パソコン1が読み取り可能な状態、すなわち、テキストデータでパソコン1に入力するための入力デバイスである。本実施形態では、入力部12は、一例として、キーボード、タッチパッド、マウスなどで構成されているものとする。あるいは、パソコン1が、音声データからテキストデータを取得する音声認識機能や、画像データからテキストデータを取得する文字認識機能を備えている場合には、入力部12として、マイク、スキャナなどを適用することが可能である。また、入力部12は、学習者情報D7をパソコン1に入力するためにも用いることができる。   The input unit 12 is an input device for inputting the text D1 to the personal computer 1 in a state that the personal computer 1 can read, that is, text data. In this embodiment, the input part 12 shall be comprised by the keyboard, the touchpad, the mouse | mouth etc. as an example. Alternatively, when the personal computer 1 has a voice recognition function for obtaining text data from voice data or a character recognition function for obtaining text data from image data, a microphone, a scanner, or the like is applied as the input unit 12. It is possible. The input unit 12 can also be used to input the learner information D7 into the personal computer 1.

なお、テキストデータは、通信部14を介して、電子メール、ウェブサイトなどから取得されてもよい。   Note that the text data may be acquired from an e-mail, a website, or the like via the communication unit 14.

表示部13は、制御部10の機能ブロックが出力する、単語レベル値D5、単語難易度D6、および、文章難易度などの判定結果を表示するための表示デバイスである。また、文章D1を入力するためのツールをグラフィカルユーザインタフェース(GUI;Graphical User Interface)で実現する場合には、表示部13は、そのGUI画面を表示する。表示部13は、例えば、LCD(液晶ディスプレイ)などで実現される。   The display unit 13 is a display device for displaying determination results such as the word level value D5, the word difficulty level D6, and the text difficulty level, which are output from the functional block of the control unit 10. Further, when the tool for inputting the text D1 is realized by a graphical user interface (GUI), the display unit 13 displays the GUI screen. The display unit 13 is realized by, for example, an LCD (liquid crystal display).

通信部14は、インターネットなどの広域通信網またはLAN(Local Area Network)、無線LANなどの構内通信網を介して、他の装置との間でデータの送受信を行うものである。本実施形態では、通信部14は、インターネット上に公開されている様々なウェブサイトやファイルをダウンロードしたり、電子化された新聞記事などを受信したりして、パソコン1において基準コーパスとなる文書集合を取得する。このようにして通信部14が取得した文書集合D8は、日本語の単語の特徴(本実施形態では、IDF)を導出するのに用いられる。   The communication unit 14 transmits and receives data to and from other devices via a wide area communication network such as the Internet or a local area network (LAN) or a local area communication network such as a wireless LAN. In the present embodiment, the communication unit 14 downloads various websites and files published on the Internet, receives electronic newspaper articles, etc., and becomes a document serving as a reference corpus in the personal computer 1. Get a set. The document set D8 acquired by the communication unit 14 in this manner is used to derive the characteristics of Japanese words (IDF in this embodiment).

記憶部11は、制御部10が実行する制御プログラム、OSプログラム、および、制御部10が、パソコン1が有する各種機能を実行するときに読み出す各種データを記憶するものである。本実施形態では、単語レベル判定のためのアプリケーションプログラムが記憶されており、さらに、該アプリケーションで用いる情報(少なくとも、画数データベース23、IDFデータベース35および対応情報記憶部108、好ましくはさらに学習者情報記憶部38)が記憶されている。これら各種情報のデータ構造については後に詳述する。   The storage unit 11 stores a control program executed by the control unit 10, an OS program, and various data read when the control unit 10 executes various functions of the personal computer 1. In this embodiment, an application program for determining a word level is stored, and information used in the application (at least the stroke number database 23, the IDF database 35, and the correspondence information storage unit 108, preferably further learner information storage). Part 38) is stored. The data structure of these various information will be described in detail later.

制御部10は、パソコン1が備える各部を統括制御するものである。制御部10は、機能ブロックとしての、形態素解析部(単語抽出手段)21、画数決定部(文字特徴量取得手段)22、IDF取得部(単語特徴量取得手段)24a、単語レベル値算出部106および単語難易度判定部107を備えている。また、好ましくは、IDF算出部(IDF算出手段)24bを備えていてもよい。さらに、不図示の文章難易度判定部を備えていてもよい。なお、機能ブロックとして示される上記各部は、CPU(central processing unit)がROM(read only memory)等の記憶装置(記憶部11)に記憶されている上記アプリケーションプログラムをRAM(random access memory)等に読み出して実行することにより実現され、これにより、本願発明の単語レベル判定装置が提供される。   The control unit 10 performs overall control of each unit included in the personal computer 1. The control unit 10 includes a morphological analysis unit (word extraction unit) 21, a stroke number determination unit (character feature amount acquisition unit) 22, an IDF acquisition unit (word feature amount acquisition unit) 24a, and a word level value calculation unit 106 as functional blocks. And a word difficulty level determination unit 107. Preferably, an IDF calculation unit (IDF calculation means) 24b may be provided. Furthermore, you may provide the sentence difficulty level determination part not shown. In addition, each said part shown as a functional block is a RAM (random access memory) etc. in the said application program memorize | stored in memory | storage devices (memory | storage part 11), such as ROM (read only memory) CPU (central processing unit). This is realized by reading and executing, thereby providing the word level determination device of the present invention.

本実施形態におけるパソコン1では、単語抽出部101は、形態素解析部21として実現される。形態素解析部21は、入力された文章D1の形態素解析を行って、文章を単語単位に分割するものである。形態素解析部21は、得られた単語(形態素)をその品詞の情報とともに単語情報D2として画数決定部22に供給する。   In the personal computer 1 in the present embodiment, the word extraction unit 101 is realized as the morphological analysis unit 21. The morpheme analysis unit 21 performs morpheme analysis on the input sentence D1 and divides the sentence into words. The morpheme analysis unit 21 supplies the obtained word (morpheme) to the stroke number determination unit 22 as word information D2 together with information on the part of speech.

本実施形態では、文字特徴量取得部102は、画数決定部22として実現されており、文字特徴量記憶部103は、画数データベース23として実現される。画数決定部22は、形態素解析部21が解析した単語ごとに、該単語を構成する各文字の画数を取得するものである。本実施形態では、さらに、それらを統合して、文字総合特徴量D3としての、上記単語の総画数(以下、単語総画数)を決定する。画数決定部22は、1つの単語について、文字ごとの画数を単語総画数(文字総合特徴量)として総合するとき、各文字の画数を単純に加算することに限定されず、画数データベース23を参照して、文字種、当該単語の品詞になどに応じて、文字に重み付けを行った上で単語総画数を求めることがより好ましい。   In the present embodiment, the character feature amount acquisition unit 102 is realized as the stroke number determination unit 22, and the character feature amount storage unit 103 is realized as the stroke number database 23. The stroke number determination unit 22 acquires the number of strokes of each character constituting the word for each word analyzed by the morphological analysis unit 21. In the present embodiment, these are further integrated to determine the total number of strokes of the word (hereinafter referred to as the total number of words) as the character total feature amount D3. The stroke number determination unit 22 is not limited to simply adding the stroke number of each character when summing the number of strokes for each character as the total number of strokes (character total feature amount) for one word, and refers to the stroke number database 23. It is more preferable to obtain the total number of strokes after weighting characters according to the character type, the part of speech of the word, and the like.

図3(a)〜(c)は、画数データベース23に記憶されるテーブルの具体例を示す図である。詳細には、図3(a)は、画数データベースの一例であって、文字ごとに実際の画数が対応付けて記憶されている。図3(b)は、文字の種類ごとに実際の画数に重みを付与するためのルールテーブルの一例であって、文字種ごとに実際の画数にどのような重み付けを行うかのルールが対応付けて記憶されている。図3(c)は、その文字が含まれている単語の品詞ごとに、実際の画数に重みを付与するためのルールテーブルの一例であって、品詞ごとにどのような重み付けを行うかのルールが対応付けて記憶されている。   3A to 3C are diagrams showing specific examples of tables stored in the stroke number database 23. FIG. Specifically, FIG. 3A is an example of a stroke number database, and an actual stroke number is stored in association with each character. FIG. 3B is an example of a rule table for assigning weights to the actual number of strokes for each character type, and rules for assigning weights to the actual number of strokes for each character type are associated with each other. It is remembered. FIG. 3C is an example of a rule table for assigning a weight to the actual number of strokes for each part of speech of a word including the character, and rules for how to weight each part of speech. Are stored in association with each other.

例えば、単語「愛」および単語「が(助詞)」を画数決定部22が取得したとする。画数決定部22は、図3(a)〜(c)の各テーブルを参照して、単語「愛」について、単語総画数=13×2×2=52と決定する。画数決定部22は、単語「愛」について、図3(a)のテーブルの文字「愛」から画数「13」を、図3(b)のテーブルの文字種「漢字」から「×2」を、図3(c)のテーブルの品詞「名詞」から「×2」を取得することにより、上述の単語総画数を求めることができる。一方、単語「が(助詞)」については、実際の画数が5画であっても、単語総画数=1×0=0と決定する。画数決定部22は、単語「が」について、図3(b)のテーブルの文字種「ひらがな」から「定数1」を、図3(c)のテーブルの品詞「助詞」から「×0」を取得することにより、上述の単語総画数を求めることができる。   For example, it is assumed that the stroke number determination unit 22 acquires the word “love” and the word “ga (particle)”. The stroke number determination unit 22 determines that the total number of strokes of the word = 13 × 2 × 2 = 52 for the word “love” with reference to the tables of FIGS. The stroke number determination unit 22 selects the stroke number “13” from the characters “Ai” in the table of FIG. 3A and the character type “Kanji” in the table of FIG. By acquiring “× 2” from the part-of-speech “noun” in the table of FIG. On the other hand, the word “ga (particle)” is determined as the total number of strokes = 1 × 0 = 0 even if the actual number of strokes is five. The stroke number determination unit 22 obtains “constant 1” from the character type “Hiragana” in the table of FIG. 3B and “× 0” from the part of speech “particle” in the table of FIG. By doing so, the above-mentioned total number of strokes of the word can be obtained.

助詞などの付属語よりも、名詞、動詞、形容詞などの主要な自立語のほうが、文章の難しさに大きな影響を与え、教材の難易度を判断するのに好適と考えられる。そこで、上述のように付属語の単語レベル値を無視したり、極端に低く算定したりすることにより、さらに高精度の単語レベル(文章難易度)の判定を効率よく実現することができる。   Major independent words such as nouns, verbs, and adjectives have a greater influence on the difficulty of sentences than adjuncts such as particles, and are considered more suitable for judging the difficulty of teaching materials. Therefore, by ignoring the word level value of the attached word or calculating extremely low as described above, it is possible to efficiently realize the determination of the word level (sentence difficulty level) with higher accuracy.

また、図3(b)のテーブルに示すとおり、単語内のひらがなおよびカタカナは、画数がいくつであっても1画としてカウントしてもよい。これは、日本語学習者にとって、漢字の習得が最も難しく、ひらがな、カタカナの単語は、難易度が低い、という考えに依っている。したがって、上記構成は、日本語教育の教材として文章中の単語の難易度を測る場面では、単語総画数について有効な数値が得られ、精度よく単語レベル値を算出できるため、特に効果が大きい。   Moreover, as shown in the table of FIG. 3B, hiragana and katakana in a word may be counted as one stroke regardless of the number of strokes. This is based on the idea that it is the most difficult for Japanese learners to learn kanji, and that hiragana and katakana words are less difficult. Therefore, the above configuration is particularly effective in a scene where the difficulty level of a word in a sentence is measured as a teaching material for Japanese language education because an effective numerical value can be obtained for the total number of word strokes and the word level value can be accurately calculated.

本実施形態では、単語特徴量取得部104は、IDF取得部24aとして実現される。単語特徴量取得部104としては、さらに、IDF算出部24bが含まれていてもよい。また、単語特徴量記憶部105は、IDFデータベース35として実現される。   In the present embodiment, the word feature quantity acquisition unit 104 is realized as the IDF acquisition unit 24a. The word feature quantity acquisition unit 104 may further include an IDF calculation unit 24b. Further, the word feature amount storage unit 105 is realized as the IDF database 35.

ここで、IDF(Inverse Document Frequency)とは、文書集合全体における大局的な単語の重みであり、単語単位で付与されるものである。IDFは、文書集合全体の中である単語が、どれだけ多くの文書に現れるのかを見るための尺度で、文書集合において、少数の文書に偏って出現する単語ほど大きな重みが与えられる。よって、多数の様々な文書に均一に現れる単語のIDF(重み)は小さくなる。   Here, IDF (Inverse Document Frequency) is a global word weight in the entire document set, and is assigned in units of words. IDF is a measure for seeing how many documents a word in the entire document set appears in. In the document set, a greater weight is given to words that appear biased in a small number of documents. Therefore, the IDF (weight) of words that appear uniformly in many different documents is reduced.

重みとは、一般的には、ある単語がその文書の内容、意味といった特徴にどの程度貢献しているかという値を各単語に付与するもので、ある単語がその文書にとって特徴的であれば重みは大きな値となる。こうした単語の重み(重要度)は、通常、要約文の自動簡易生成や検索キーワードの収集などの分野で用いられる。   In general, a weight is a value that gives to each word a value that contributes to a feature such as the content and meaning of the document. If a word is characteristic for the document, the weight is assigned. Is a large value. Such word weights (importance) are usually used in fields such as automatic summary generation and collection of search keywords.

ここで、本発明のパソコン1は、上記IDFを用いて単語レベル値を算出する。より詳細には、IDFが小さい単語(あらゆる文書に広く出現する単語)ほど難易度が低い単語であるという考え方に基づいて、IDFを、単語レベル値の算出に用いる。   Here, the personal computer 1 of the present invention calculates the word level value using the IDF. More specifically, based on the idea that a word with a smaller IDF (a word that appears more widely in any document) is a less difficult word, the IDF is used to calculate a word level value.

IDFの算出方法についての詳細は、例えば非特許文献5などに記載されているとおりであるので、IDFの算出方法の説明については省略する。   Details of the IDF calculation method are as described in, for example, Non-Patent Document 5 and the like, and thus the description of the IDF calculation method is omitted.

IDF取得部24aは、形態素解析部21が解析した単語ごとに、そのIDFをIDFデータベース35から取得するものである。   The IDF acquisition unit 24 a acquires the IDF from the IDF database 35 for each word analyzed by the morpheme analysis unit 21.

図4は、IDFデータベース35に記憶されるテーブルの具体例を示す図である。図4に示すとおり、IDFデータベース35には、単語ごとに、単語のIDFが関連付けて記憶されている。必要に応じて、当該単語の品詞の情報が関連付けて記憶されていてもよい。この場合、IDF取得部24aは、品詞に応じてIDFに重み付けを付与することができる。例えば、図3(c)に示すテーブルを、IDFの重み付けにも利用することができる。IDF取得部24aは、図4に示すテーブルと、図3(c)に示すテーブルとの両方を参照して、単語ごとにIDFを取得することができる。   FIG. 4 is a diagram illustrating a specific example of a table stored in the IDF database 35. As shown in FIG. 4, the IDF database 35 stores the IDF of the word in association with each word. If necessary, the part-of-speech information of the word may be associated and stored. In this case, the IDF acquisition unit 24a can weight the IDF according to the part of speech. For example, the table shown in FIG. 3C can also be used for IDF weighting. The IDF acquisition unit 24a can acquire the IDF for each word with reference to both the table shown in FIG. 4 and the table shown in FIG.

IDF取得部24aは、IDFデータベース35を参照して、形態素解析部21が解析した単語ごとに、単語特徴量D4としてのIDFを取得する。   The IDF acquisition unit 24a refers to the IDF database 35 and acquires the IDF as the word feature amount D4 for each word analyzed by the morpheme analysis unit 21.

IDF算出部24bは、文書集合D8から、単語ごとにIDFを計算するものである。IDF算出部24bは、算出したIDFをその単語に対応付けてIDFデータベース35に記憶する。本実施形態では、特に、IDF算出部24bは、新聞記事データベース、日本語教育用の教科書、インターネット上にアップロードされている文章など、常に最新の文書集合をコーパスとして定期的に取得し、それに基づいてIDFを計算している。IDF算出部24bは、このIDFの計算(更新)を好ましくは定期的に行う。そのため、常に最新のIDFを得ることが可能である。IDFを常に統合して指標に用いることにより、時代の経過とともに変化する流行語、繁用語、日本語教育事情、あるいは、時事を常に反映することが可能な、高精度な単語レベル値を自動算出することができる。また、本実施形態では、インターネットのブログなどの話し言葉に近い文書もコーパスとして採用することにより、試験出題範囲など学習の基準上、重要な単語と、日常生活で日々利用される上で重要な単語とのずれを解消することができる。このように、IDFは、インターネット上の文書、最近の新聞記事など、日本人に均一に流布している日本語文書をコーパスに使うので、単語のカバー率に優れ、公平性がある。したがって、IDFを単語レベル値の算出に用いることは特に効果が大きい。   The IDF calculation unit 24b calculates an IDF for each word from the document set D8. The IDF calculation unit 24b stores the calculated IDF in the IDF database 35 in association with the word. In the present embodiment, in particular, the IDF calculation unit 24b regularly acquires the latest set of documents as a corpus, such as a newspaper article database, a textbook for Japanese language education, a sentence uploaded on the Internet, and the like. IDF is calculated. The IDF calculation unit 24b preferably calculates (updates) the IDF periodically. Therefore, it is possible to always obtain the latest IDF. IDF is always integrated and used as an index to automatically calculate high-accuracy word level values that can always reflect buzzwords, traditional terms, Japanese language education, or current affairs that change over time. can do. In addition, in this embodiment, documents close to spoken language such as Internet blogs are also used as a corpus, so that words that are important in terms of learning, such as the scope of test questions, and words that are important for daily use in daily life. Can be eliminated. In this way, the IDF uses Japanese documents that are distributed evenly to Japanese people, such as documents on the Internet and recent newspaper articles, in the corpus, so it has excellent word coverage and fairness. Therefore, the use of IDF for the calculation of the word level value is particularly effective.

単語レベル値算出部106は、上述したとおり、単語レベル値D5を算出する。本実施形態では、画数決定部22が決定した文字総合特徴量D3としての単語総画数と、単語特徴量D4としてのIDFとを統合して、単語レベル値D5を求める。例えば、単語レベル値算出部106は、単純に、単語総画数とIDFとを加算したり、乗算したりして単語レベル値を求めてもよいが、これに限定されない。例えば、単語総画数とIDFとのそれぞれに重み付けを行って、加算/乗算を行ってもよいし、単語総画数とIDFとから加重平均を求めてもよい。   The word level value calculation unit 106 calculates the word level value D5 as described above. In the present embodiment, the word level value D5 is obtained by integrating the total number of words as the character total feature amount D3 determined by the stroke number determination unit 22 and the IDF as the word feature amount D4. For example, the word level value calculation unit 106 may simply obtain the word level value by adding or multiplying the total number of strokes and the IDF, but is not limited thereto. For example, each of the total number of strokes and the IDF may be weighted and added / multiplied, or a weighted average may be obtained from the total number of strokes and the IDF.

単語難易度判定部107は、上述したとおり、単語難易度D6を判定する。本実施形態では、図5に示す、対応情報記憶部108に記憶される対応情報を参照して、単語難易度を判定する。   The word difficulty level determination unit 107 determines the word difficulty level D6 as described above. In the present embodiment, the word difficulty level is determined with reference to correspondence information stored in the correspondence information storage unit 108 shown in FIG.

図5は、対応情報記憶部108に記憶される対応情報の具体例を示す図である。図5に示す例では、対応情報は、単語レベル値算出部106が算出し得る単語レベル値が、6つの区間(レベルA〜E、および、その他)に分けられており、0以外の単語レベル値の各区分(レベルA〜Eの5段階)のそれぞれに対応付けて、単語の難易度を表す文字列が記憶されているデータ構造となっている。   FIG. 5 is a diagram illustrating a specific example of correspondence information stored in the correspondence information storage unit 108. In the example shown in FIG. 5, the correspondence information includes word level values that can be calculated by the word level value calculation unit 106 divided into six sections (levels A to E and others). A data structure is stored in which character strings representing the difficulty level of words are stored in association with respective values (five levels A to E).

例えば、単語レベル値算出部106がある単語についての単語レベル値を“229”と算出すると、単語難易度判定部107は、その単語の難易度を、図5に示す対応情報に基づいて、“レベルC:普通”と判定する。   For example, when the word level value calculation unit 106 calculates the word level value for a certain word as “229”, the word difficulty level determination unit 107 determines the difficulty level of the word based on the correspondence information shown in FIG. Level C: Normal ”is determined.

なお、単語難易度D6としてユーザに提示されるのは、文字列“レベルA”〜“レベルE”であってもよいし、文字列“簡単”〜“難解”であってもよいし、両方が提示されてもよい。単語難易度D6は、表示部13に表示される。   Note that the character string “level A” to “level E” or the character strings “simple” to “difficult” may be presented to the user as the word difficulty level D6, or both May be presented. The word difficulty level D6 is displayed on the display unit 13.

パソコン1は、図示しない文章難易度判定部をさらに備え、文章難易度判定部が、文章もしくは文書中に含まれる各レベル値(難易度)の単語数の比率から、入力された文章全体の難易度を算出してもよい。   The personal computer 1 further includes a sentence difficulty determination unit (not shown). The sentence difficulty determination unit determines the difficulty of the entire input sentence from the ratio of the number of words of each level value (difficulty) included in the sentence or the document. The degree may be calculated.

〔単語レベル判定処理フロー〕
図6は、本実施形態におけるパソコン1の単語レベル判定処理の流れを示すフローチャートである。
[Word level judgment processing flow]
FIG. 6 is a flowchart showing the flow of word level determination processing of the personal computer 1 in this embodiment.

図6に示すとおり、入力部12を介して、テキストデータである文章D1がパソコン1の制御部10に入力される。文章が入力されると(S101においてYES)、形態素解析部21は、入力された文章の形態素解析を行って、文章を単語に分割する(S102)。形態素解析部21は、分割した単語の単語情報D2を、画数決定部22とIDF取得部24aとに出力する。   As shown in FIG. 6, a sentence D <b> 1 that is text data is input to the control unit 10 of the personal computer 1 through the input unit 12. When a sentence is input (YES in S101), the morphological analyzer 21 performs a morphological analysis of the input sentence and divides the sentence into words (S102). The morphological analysis unit 21 outputs the word information D2 of the divided words to the stroke number determination unit 22 and the IDF acquisition unit 24a.

画数決定部22と、IDF取得部24aとは、上記出力された各単語について、文字総合特徴量D3(単語総画数)と、単語特徴量D4(IDF)とをそれぞれ出力する。より詳細には、画数決定部22は、形態素解析部21が出力した単語を取得すると(S103)、画数データベース23(図3(a))を参照し、その取得した単語を構成している各文字について、画数を取得する(S104)。そして、画数データベース23(図3(b)、(c))を参照して、文字種、および、取得した単語の品詞に応じて、取得した画数に重み付けを行って、該単語の総画数を算出する(S105)。画数決定部22は、算出した上記単語の単語総画数を単語レベル値算出部106に出力する。一方、IDF取得部24aは、形態素解析部21が出力した単語を取得すると(S106)、IDFデータベース35(図4)を参照し、その取得した単語に関連付けられているIDFを取得する(S107)。IDF取得部24aは、取得したIDFを単語特徴量D4として単語レベル値算出部106に出力する。   The stroke number determination unit 22 and the IDF acquisition unit 24a output a character total feature amount D3 (word total stroke number) and a word feature amount D4 (IDF) for each of the output words. More specifically, when the stroke number determination unit 22 acquires the word output from the morpheme analysis unit 21 (S103), the stroke number determination unit 22 refers to the stroke number database 23 (FIG. 3A) and configures each acquired word. The number of strokes is acquired for the character (S104). Then, referring to the stroke number database 23 (FIGS. 3B and 3C), the acquired stroke number is weighted according to the character type and the part of speech of the acquired word, and the total stroke number of the word is calculated. (S105). The stroke number determination unit 22 outputs the calculated total number of strokes of the word to the word level value calculation unit 106. On the other hand, when the IDF acquisition unit 24a acquires the word output from the morphological analysis unit 21 (S106), the IDF acquisition unit 24a refers to the IDF database 35 (FIG. 4) and acquires the IDF associated with the acquired word (S107). . The IDF acquisition unit 24a outputs the acquired IDF to the word level value calculation unit 106 as the word feature amount D4.

続いて、単語レベル値算出部106は、画数決定部22から単語総画数を、IDF取得部24aからIDFをそれぞれ取得する(S108)。そして、単語レベル値算出部106は、上述したような(重み付け)加算、乗算、(加重)平均などの単語レベル値算出処理にて、単語総画数とIDFとを統合し、単語レベル値を算出する(S109)。単語レベル値算出部106は、算出した単語レベル値D5を単語難易度判定部107に出力する。ここで、単語レベル値算出部106は、単語レベル値D5を表示部13に出力してもよい。   Subsequently, the word level value calculation unit 106 acquires the total number of words from the stroke number determination unit 22 and the IDF from the IDF acquisition unit 24a (S108). Then, the word level value calculation unit 106 integrates the total number of word strokes and the IDF in the word level value calculation process such as (weighting) addition, multiplication, (weighted) average as described above, and calculates the word level value. (S109). The word level value calculation unit 106 outputs the calculated word level value D5 to the word difficulty level determination unit 107. Here, the word level value calculation unit 106 may output the word level value D5 to the display unit 13.

次に、単語難易度判定部107は、図5に示す対応情報記憶部108を参照し、単語レベル値算出部106が算出した単語レベル値に対応するレベル(A〜E)および/または難易度を判定する(S110)。以上のように、1つの単語の難易度が判定されると、S101で入力された文章中の全ての単語について、上述の単語レベル値/難易度が求められるまで、S103〜S110の一連の処理が繰り返される(S111においてNO)。   Next, the word difficulty level determination unit 107 refers to the correspondence information storage unit 108 illustrated in FIG. 5, and levels (A to E) and / or difficulty levels corresponding to the word level values calculated by the word level value calculation unit 106. Is determined (S110). As described above, when the difficulty level of one word is determined, a series of processes from S103 to S110 is performed until the above-described word level value / difficulty level is obtained for all the words in the sentence input in S101. Is repeated (NO in S111).

最後に制御部10は、上記文章中の全ての単語について、単語レベル値/難易度を求めると(S111においてYES)、単語レベル値/難易度を表示部13に表示する(S112)。   Finally, when the control unit 10 obtains the word level value / difficulty level for all the words in the sentence (YES in S111), the control unit 10 displays the word level value / difficulty level on the display unit 13 (S112).

なお、図6に示す例では、S103〜S105の一連の処理、および、S106〜S107の一連の処理は、1つの単語について単語レベル値/難易度を算出する度に繰り返し実行されるが、処理の順序は、本発明を限定する意図はなく、例えば、形態素解析部21が分割した全ての単語について、上記それぞれの一連の処理を繰り返し、全ての単語総画数(IDF)をまとめて単語レベル値算出部106に出力するという処理順序でもよい。また、上記各一連の処理は、並列的に実行されてもよいし、順次直列的に実行されてもよい(この場合、処理順序を入れ替えてもよい)。   In the example illustrated in FIG. 6, the series of processes of S103 to S105 and the series of processes of S106 to S107 are repeatedly executed every time the word level value / difficulty level is calculated for one word. The order of is not intended to limit the present invention. For example, for each word divided by the morphological analysis unit 21, the above-described series of processing is repeated, and the total number of strokes (IDF) is summed up as a word level value. A processing order of outputting to the calculation unit 106 may be used. The series of processes may be executed in parallel or sequentially in series (in this case, the processing order may be changed).

上記構成および方法によれば、単語の文字単位の特徴量と、単語単位の特徴量とを統合して、客観的で精度のよい単語レベル判定を実現することが可能になる。具体的には、単語に含まれる文字ごとの画数(および、単語内の全文字の総画数)と、IDFとを統合して、単語レベル値を算出することができ、これにより、文章(例えば、日本語教材)の難易度を判定するための、客観的で精度よい単語レベル判定を実現することが可能になる。   According to the above configuration and method, objective and accurate word level determination can be realized by integrating the character-by-word feature amount and the word-unit feature amount. Specifically, the number of strokes for each character included in the word (and the total number of strokes of all the characters in the word) and the IDF can be integrated to calculate a word level value. It is possible to achieve objective and accurate word level determination for determining the difficulty level of Japanese teaching materials).

さらに、上記構成および方法によれば、特に、文字単位で得られる特徴(文字の画数、文字の複雑さ)を取り入れて単語レベルを判定しているので、単語の意味内容、語感、馴染みの程度などの主観的な尺度に左右されることなく、客観的で公平な精度よい単語レベル判定方法を実現する。   Furthermore, according to the above-described configuration and method, the word level is determined by taking in characteristics (number of strokes of characters, complexity of characters) obtained in units of characters, so that the meaning content, word feeling, familiarity of words An objective, fair and accurate word level determination method is realized without being influenced by subjective measures such as.

また、上記構成および方法によれば、単語単位で得られる特徴としてIDFを採用しているので、あらゆる単語について広く公平に単語レベルを判定することができる。その上、上記IDFは、最近の新聞記事、インターネット上のデジタル文書など、常に最新の文書をコーパスとして、算出されている。したがって、あらゆる単語について、日々の語彙の変化に対応した上で、単語レベルを精度よく判定することができる。   In addition, according to the above configuration and method, since IDF is adopted as a feature obtained in units of words, the word level can be determined widely and fairly for every word. In addition, the IDF is always calculated using the latest document such as a recent newspaper article or a digital document on the Internet as a corpus. Therefore, the word level can be accurately determined for every word in response to daily vocabulary changes.

本発明は、例えば、日本語教育(特に、外国人向け日本語教育)の場で、日本語教材を学習者に提供する教師(ユーザ)の支援を行うことを可能にする。従来、教育現場では、日本語教材となる素材(例えば、新聞記事など)を、教師が学習者のスキルに合わせて書き直して利用するなどしていた。しかし、この単語の置き換えや文章校正は、教師にとって労力の大きい作業である。なぜなら、素材中の単語のレベルを適切に判断した上で、さらに学習者のスキルに合わせて適切な(より平易な、あるいは、難解な)単語を探さなければならないからである。   The present invention makes it possible to support teachers (users) who provide Japanese language teaching materials to learners in, for example, Japanese language education (particularly Japanese language education for foreigners). In the past, teachers have rewritten and used materials that serve as Japanese teaching materials (for example, newspaper articles) according to the learner's skills. However, this word replacement and sentence proofing are laborious tasks for teachers. This is because, after appropriately determining the level of the word in the material, it is necessary to search for an appropriate (more simple or difficult) word according to the skill of the learner.

本発明によれば、教師は、文章をパソコン1に入力するだけで、客観的な値である単語レベル値(および、それに対応する単語難易度)を得ることができ、単語レベル値を尺度として、あらゆる単語の難易度を、容易に、客観的に判断することが可能となる。また、漢字の習得に困難が伴う外国人への日本語教育の場では、漢字の画数に重きをおいて単語レベル値を判定することができるので、特に効果が大きい。   According to the present invention, the teacher can obtain an objective word level value (and corresponding word difficulty level) simply by inputting a sentence to the personal computer 1, and the word level value is used as a scale. It becomes possible to easily and objectively determine the difficulty level of every word. Also, in the Japanese language education for foreigners who have difficulty in learning kanji, the word level value can be determined with emphasis on the number of strokes of kanji, so it is particularly effective.

なお、本発明は、日本語教育用途に限らず、文章中に使われる単語レベルを一定に保つために利用することができる。   The present invention is not limited to Japanese language education, but can be used to keep the word level used in a sentence constant.

≪実施形態2≫
本発明は、客観的な単語レベル値を求めて、単語レベル判定を客観的に行う発明であるが、さらに、その客観的な判定結果を、学習者(ユーザ)の能力、特性に応じて、主観的な難易度に変換し、それを各学習者に対して提示して、学習者の支援を行うことを可能にする。また、上記学習者に教材を提供する教師(ユーザ)の教育支援を行う。
<< Embodiment 2 >>
The present invention is an invention in which an objective word level value is obtained and word level determination is performed objectively. Further, the objective determination result is determined according to the ability and characteristics of the learner (user), It is converted into a subjective difficulty level, which is presented to each learner, and the learner can be supported. In addition, it provides education support for teachers (users) who provide learning materials to the learners.

以下では、図2に示すパソコン1の機能を、複数の装置からなる情報処理システムで実現した場合について説明する。すなわち、本発明の単語レベル判定システム100を、一例として、クライアント−サーバ型のネットワークシステムに適用した場合について説明する。   Below, the case where the function of the personal computer 1 shown in FIG. 2 is implement | achieved with the information processing system which consists of a some apparatus is demonstrated. That is, the case where the word level determination system 100 of the present invention is applied to a client-server type network system will be described as an example.

〔単語レベル判定システムの各装置の構成〕
本実施形態では、単語レベル判定システム100は、学習者が用いる端末装置と、該端末装置の要求に応じて文章の単語レベル判定を実行し、その結果を端末装置に返信する単語レベル判定装置とを含む構成となっている。両装置は、通信機能を有し、インターネットなどの通信網を介して互いに接続可能である。なお、本実施形態における各部材について、図2のパソコン1において示される部材と同機能を有する部材には同じ符号を付し、それらは実質同じもの示している。したがって、これらの部材について、異なる部分を除いては、説明を繰り返さない。
[Configuration of each device of the word level judgment system]
In this embodiment, the word level determination system 100 includes a terminal device used by a learner, a word level determination device that executes word level determination of a sentence in response to a request from the terminal device, and returns the result to the terminal device. It is the composition which includes. Both devices have a communication function and can be connected to each other via a communication network such as the Internet. In addition, about each member in this embodiment, the same code | symbol is attached | subjected to the member which has the same function as the member shown in the personal computer 1 of FIG. 2, and those are shown substantially the same. Therefore, description of these members will not be repeated except for different portions.

まず、クライアント側の端末装置の構成について説明する。端末装置は、通信部、記憶部、制御部に加え、図2に示す入力部12および表示部13を備えている。   First, the configuration of the terminal device on the client side will be described. The terminal device includes an input unit 12 and a display unit 13 illustrated in FIG. 2 in addition to a communication unit, a storage unit, and a control unit.

本実施形態では、表示部13は、通信部が単語レベル判定装置からインターネットを介して取得した、単語レベル判定アプリケーションのGUI画面を表示する。表示部13が表示するGUI画面の具体例を図10、図11に示す。なお、端末装置に表示されるGUI画面は、上記具体例に限定されない。   In the present embodiment, the display unit 13 displays the GUI screen of the word level determination application acquired by the communication unit from the word level determination device via the Internet. Specific examples of the GUI screen displayed by the display unit 13 are shown in FIGS. The GUI screen displayed on the terminal device is not limited to the above specific example.

図10は、文章を入力するためのGUI画面の一例を示す図である。本実施形態では、学習者は、入力部12を操作して、文章入力エリア50に、レベルを判定したい文章を入力することができる。文章の入力が完了すると、学習者は、引き続き入力部12を操作して、自身に割り当てられている学習者IDをID入力エリア51に入力し、判定ボタン52をクリックする。このとき、端末装置の通信部は、GUI画面にて受け付けた文章(文章D1)および学習者情報D7としての学習者IDを含むリクエストを単語レベル判定装置に送信する。なお、学習者IDは、単語レベル判定装置が提供するサービスを受けるクライアント(端末装置/学習者)を、単語レベル判定装置が一意に識別するためのものである。学習者IDとしては、上記目的が達成できるのであればどのような情報を用いてもよい。単語レベル判定装置が、各端末装置に対してあらかじめ独自に付与するものであってもよい。   FIG. 10 is a diagram illustrating an example of a GUI screen for inputting text. In the present embodiment, the learner can input a sentence whose level is to be determined in the sentence input area 50 by operating the input unit 12. When the input of the text is completed, the learner continues to operate the input unit 12 to input the learner ID assigned to himself / herself into the ID input area 51 and clicks the determination button 52. At this time, the communication unit of the terminal device transmits a request including a sentence (sentence D1) received on the GUI screen and a learner ID as learner information D7 to the word level determination apparatus. The learner ID is for the word level determination device to uniquely identify a client (terminal device / learner) that receives a service provided by the word level determination device. As the learner ID, any information may be used as long as the above purpose can be achieved. The word level determination device may be uniquely assigned in advance to each terminal device.

図11は、単語レベル判定結果をユーザに提示するためのGUI画面の一例を示す図である。上記リクエストに応じて単語レベル判定装置によって生成された判定結果は、端末装置の通信部を介して受信され、表示部13に表示される。上記判定結果は、単語レベル値D5、単語難易度D6、および/または、文章難易度などを端末装置の表示部13に表示するために表示用データとして生成される。単語レベル判定装置は、判定結果を、例えば、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)などの形式で生成し、端末装置に供給する。   FIG. 11 is a diagram illustrating an example of a GUI screen for presenting the word level determination result to the user. The determination result generated by the word level determination device in response to the request is received via the communication unit of the terminal device and displayed on the display unit 13. The determination result is generated as display data for displaying the word level value D5, the word difficulty level D6, and / or the text difficulty level on the display unit 13 of the terminal device. The word level determination device generates a determination result in a format such as HTML (HyperText Markup Language) or XML (eXtensible Markup Language), and supplies the determination result to the terminal device.

図11に示す例では、単語レベル値D5を単語難易度D6に変換した難易度判定結果のみが表示されている。例えば、判定結果のGUI画面には、入力された文章を単語の難易度別に色(書体)分け表示する原文表示エリア60と、難易度ごとに単語を一覧表示する単語リスト61と、難易度別単語出現数を表示するカウントテーブル62とが含まれており、これらが表示されることによって、単語ごとの難易度判定結果を様々な角度から学習者に提示することができる。さらに、文章難易度を表示する文章難易度表示エリア63を設けて文章全体の難易度を学習者に提示してもよい。   In the example shown in FIG. 11, only the difficulty level determination result obtained by converting the word level value D5 into the word difficulty level D6 is displayed. For example, the determination result GUI screen includes an original text display area 60 that displays an input sentence by color (typeface) according to the difficulty level of the word, a word list 61 that displays a list of words for each difficulty level, and a difficulty level A count table 62 that displays the number of word appearances is included. By displaying these, the difficulty determination result for each word can be presented to the learner from various angles. Further, a text difficulty level display area 63 for displaying the text difficulty level may be provided to present the difficulty level of the entire text to the learner.

本実施形態では、この判定結果のGUI画面は、学習者(ID:A004)ごとに生成される。そこで、当該学習者宛てのメッセージを表示するメッセージ表示エリア64を設けてもよい。また、端末装置が、文章の意味を変えずに難易度を変更する文章校正機能を利用可能な場合には、文章校正ボタン65を設けてもよい。例えば、“より易しい文章に変換”のボタンがクリックされた場合、元の入力された文章と、文章平易化のリクエストとが、上記機能の実行部に送信される。   In this embodiment, the GUI screen of this determination result is generated for each learner (ID: A004). Therefore, a message display area 64 for displaying a message addressed to the learner may be provided. In addition, when the terminal device can use the sentence proofreading function for changing the difficulty level without changing the meaning of the sentence, the sentence proofreading button 65 may be provided. For example, when a “convert to easier text” button is clicked, the original input text and a text simplification request are transmitted to the execution unit of the above function.

上記構成によれば、学習者は、端末装置を用いて単語レベル判定装置の単語レベル判定アプリケーションを利用することができ、自身が入力した文章の単語の単語レベル値および単語難易度の判定結果を得ることが可能となる。   According to the above configuration, the learner can use the word level determination application of the word level determination device using the terminal device, and obtain the determination result of the word level value and the word difficulty of the word of the sentence input by the learner. Can be obtained.

次に、学習者ごとの判定結果を供給するための、サーバ側の単語レベル判定装置の構成について説明する。単語レベル判定装置は、図2に示す制御部10の各部と、通信部14と、記憶部11とを備えている。なお、記憶部11に記憶されている各種データは、単語レベル判定装置が内蔵する記憶装置に記憶されているものであってもよいし、通信部14を介して接続可能な外部の記憶装置に記憶されているものであってもよい。   Next, the configuration of the server-side word level determination device for supplying the determination result for each learner will be described. The word level determination apparatus includes each unit of the control unit 10 illustrated in FIG. 2, a communication unit 14, and a storage unit 11. The various data stored in the storage unit 11 may be stored in a storage device built in the word level determination device, or may be stored in an external storage device that can be connected via the communication unit 14. It may be stored.

本実施形態では、通信部14は、パソコン1のそれと異なり、文書集合D8を取得する機能に加えて、端末装置によって送信された上記リクエストを受信する機能を有する。すなわち、リクエストに含まれる文章D1および学習者情報D7は、通信部14を介して制御部10に入力される。入力された文章D1は、形態素解析部21へ、学習者情報D7は、単語難易度判定部107へそれぞれ供給される。   In the present embodiment, unlike the personal computer 1, the communication unit 14 has a function of receiving the request transmitted by the terminal device in addition to the function of acquiring the document set D <b> 8. That is, the sentence D <b> 1 and the learner information D <b> 7 included in the request are input to the control unit 10 via the communication unit 14. The input sentence D1 is supplied to the morpheme analysis unit 21, and the learner information D7 is supplied to the word difficulty level determination unit 107.

入力された文章に対しては、既に述べたのと同じ処理が制御部10の各部によって施され、単語レベル値算出部106によって、当該文章の各単語について単語レベル値D5が算出される(図6のS101〜S109)。そして、単語レベル値D5は、単語難易度判定部107が単語難易度D6を判定するのに利用される。   The input sentence is subjected to the same processing as described above by each unit of the control unit 10, and the word level value calculation unit 106 calculates a word level value D5 for each word of the sentence (see FIG. 6 S101 to S109). The word level value D5 is used by the word difficulty level determination unit 107 to determine the word difficulty level D6.

上述したとおり、単語難易度D6は、単語レベル値D5のような定量的な数値とは異なり、必ずしも全ての学習者に適した表現にならない場合がある。この不都合を解消するため、本実施形態では、単語難易度判定部107は、学習者情報記憶部38および対応情報記憶部108を参照し、供給された学習者情報D7に基づいて、学習者の日本語スキルを特定して、単語レベル値D5と単語難易度D6との対応関係を、学習者に応じて変更することができる。   As described above, the word difficulty level D6 differs from a quantitative numerical value such as the word level value D5, and may not necessarily be an expression suitable for all learners. In order to eliminate this inconvenience, in the present embodiment, the word difficulty level determination unit 107 refers to the learner information storage unit 38 and the correspondence information storage unit 108 and based on the supplied learner information D7, The Japanese skill can be specified, and the correspondence between the word level value D5 and the word difficulty level D6 can be changed according to the learner.

図7は、対応情報記憶部108に記憶される対応情報の他の具体例を示す図である。図7に示す例では、図5に示す例と異なり、対応情報R70〜R75が、学習者のスキル(学習段階)ごとに、複数記憶されている。図7に示す各対応情報では、単語レベル値と単語難易度の文字列(レベルA〜E)との対応関係は、学習段階に応じて様々に異なる。あるいは、図5に示すような対応情報のテーブルが、学習段階ごとにあらかじめ複数記憶されているデータ構造であってもよい。この場合、対応情報記憶部108は、図7の例では学習段階は、6段階であるので、図5に示すような対応情報のテーブルを6つ備える構造となる。図7に示す例では、6つの対応情報を、R70〜R75として示している(1行分が図5の1テーブルに相当する)。   FIG. 7 is a diagram illustrating another specific example of correspondence information stored in the correspondence information storage unit 108. In the example shown in FIG. 7, unlike the example shown in FIG. 5, a plurality of pieces of correspondence information R70 to R75 are stored for each learner skill (learning stage). In each piece of correspondence information shown in FIG. 7, the correspondence between the word level value and the character string (levels A to E) of the word difficulty varies depending on the learning stage. Alternatively, the correspondence information table as shown in FIG. 5 may have a data structure in which a plurality of correspondence information tables are stored in advance for each learning stage. In this case, since the correspondence information storage unit 108 has six learning stages in the example of FIG. 7, it has a structure including six correspondence information tables as shown in FIG. In the example shown in FIG. 7, six pieces of correspondence information are indicated as R70 to R75 (one line corresponds to one table in FIG. 5).

例えば、ある単語の単語レベル値が“250”と算出されたとすると、単語難易度判定部107は、その単語の難易度を、“中学生程度”のスキルを有する学習者に対しては、“普通”と判定し、“高校生程度”のスキルを有する学習者に対しては、“やや簡単”と判定することができる。   For example, assuming that the word level value of a certain word is calculated as “250”, the word difficulty level determination unit 107 determines that the word difficulty level is “ordinary” for a learner having a skill of “about junior high school students”. It can be determined as “slightly simple” for a learner having a skill of “about a high school student”.

上記リクエストの送信主である学習者のスキルがどの段階であるのかについては、単語難易度判定部107は、学習者情報記憶部38を参照することにより特定することが可能である。   The level of skill of the learner who is the sender of the request can be identified by referring to the learner information storage unit 38 by the word difficulty level determination unit 107.

図8は、学習者情報記憶部38に記憶される学習者情報テーブルの具体例を示す図である。図8に示すとおり、学習者に一意に付与される学習者IDに関連付けて、学習者スキルが記憶されている。   FIG. 8 is a diagram illustrating a specific example of a learner information table stored in the learner information storage unit 38. As shown in FIG. 8, learner skills are stored in association with learner IDs uniquely assigned to learners.

単語難易度判定部107は、上記学習者情報テーブルを参照することにより、上記リクエストに含まれる学習者情報D7としての学習者IDに基づいて、上記リクエストの送信主である学習者のスキルを特定することが可能となる。そして、特定したスキルに応じた、単語レベル値−難易度の対応テーブルを参照することによって、当該リクエストの送信主(学習者)にとって最適な表現で、単語難易度を判定することができる。   The word difficulty level determination unit 107 identifies the skill of the learner who is the sender of the request based on the learner ID as the learner information D7 included in the request by referring to the learner information table. It becomes possible to do. Then, by referring to the word level value-difficulty correspondence table corresponding to the identified skill, it is possible to determine the word difficulty with an expression that is optimal for the sender (learner) of the request.

〔単語難易度判定処理フロー〕
図9は、本実施形態における単語レベル判定装置の単語難易度判定処理の流れを示すフローチャートである。
[Word difficulty determination processing flow]
FIG. 9 is a flowchart showing the flow of word difficulty level determination processing of the word level determination apparatus according to this embodiment.

図6のS109と同様に、単語レベル値算出部106がある単語の単語レベル値を算出すると、単語難易度判定部107は、上記単語レベル値を単語レベル値算出部106から取得する(S201)。そして、上記単語が含まれる文章D1の他に、入力された学習者に関する学習者情報D7があればそれを取得する。例えば、学習者情報D7として学習者IDを取得する(S202)。S202で取得した学習者IDに基づいて、学習者スキル(学習段階)を取得する(S203)。例えば、図10に示すように、“学習者ID:A004”がリクエストとともに入力された場合には、当該リクエストの送信主の学習者スキル(学習段階)を“小学生中学年程度”と特定する。学習者情報D7は、学習段階そのものを示す情報であってもよい。   Similar to S109 of FIG. 6, when the word level value calculation unit 106 calculates a word level value of a certain word, the word difficulty level determination unit 107 acquires the word level value from the word level value calculation unit 106 (S201). . And if there is the learner information D7 regarding the input learner other than the sentence D1 containing the said word, it will be acquired. For example, a learner ID is acquired as learner information D7 (S202). Based on the learner ID obtained in S202, learner skills (learning stage) are obtained (S203). For example, as shown in FIG. 10, when “learner ID: A004” is input together with the request, the learner skill (learning stage) of the sender of the request is specified as “about the middle school grade of elementary school”. The learner information D7 may be information indicating the learning stage itself.

S203にて、学習者情報に基づいて学習者スキルが指定された場合、単語難易度判定部107は、対応情報記憶部108に記憶されている、指定された“小学生中学年程度”の対応情報(図7の例で、R71の行)を参照し、該対応情報において、S201で取得した単語レベル値が対応している区分(文字列)を特定することにより、単語難易度を判定する(S204)。   When the learner skill is designated based on the learner information in S203, the word difficulty level determination unit 107 stores the correspondence information of the designated “about the elementary school middle grade” stored in the correspondence information storage unit 108 ( In the example of FIG. 7, the word difficulty level is determined by referring to the R71 line) and identifying the classification (character string) corresponding to the word level value acquired in S201 in the correspondence information (S204). ).

上記構成および方法によれば、単語レベル値算出部106が求めた客観的な判定結果を、学習者の能力、特性に応じて、主観的な難易度に変換し、それを各学習者に対して提示して、学習者の支援を行うことが可能となる。本発明を日本語教育の場において適用すれば、学習者のスキル、学習段階を考慮して、タイミングよく適切なレベルの文章を教材として提供することが可能となる。なお、学習者情報D7が入力されなかったり、入力された学習者情報D7から学習段階をS203にて特定できなかったりした場合には、デフォルトの対応情報(例えば、デフォルトの対応情報を図7のR73とあらかじめ設定しておく)に基づいて、単語難易度を判定してもよい。   According to the above-described configuration and method, the objective determination result obtained by the word level value calculation unit 106 is converted into a subjective difficulty level according to the ability and characteristics of the learner, and is converted to each learner. It is possible to support the learner. When the present invention is applied in a Japanese language education field, it is possible to provide an appropriate level of text as a teaching material in a timely manner in consideration of the learner's skill and learning stage. When the learner information D7 is not input or the learning stage cannot be specified in S203 from the input learner information D7, default correspondence information (for example, default correspondence information is shown in FIG. 7). The word difficulty level may be determined on the basis of R73).

〔変形例〕
上述の各実施形態において、単語レベル値算出部106は、上述したとおり、文字総合特徴量D3としての単語総画数と、単語特徴量D4としてのIDFとを統合して、単語レベル値D5を求める。このとき、単語レベル値算出部106は、それぞれの値に重み付けを行って、加算/乗算を行ってもよいし、両値の加重平均を求めてもよい。ここで、どちらの値にどのように重み付けを行うのかについて、学習者の特性に応じて可変にしてもよい。
[Modification]
In each of the embodiments described above, the word level value calculation unit 106 determines the word level value D5 by integrating the total number of words as the character total feature amount D3 and the IDF as the word feature amount D4 as described above. . At this time, the word level value calculation unit 106 may perform addition / multiplication by weighting each value, or may obtain a weighted average of both values. Here, which value is weighted and how it is weighted may be made variable according to the characteristics of the learner.

例えば、中国、台湾、韓国等の、漢字を文字として利用する漢字圏の国出身の学習者に対して文章/単語のレベルを判定する場面では、漢字の複雑さ、難しさは、文章の難しさに必ずしも直結しないと考えられる。そこで上記場面では、単語総画数よりもIDFの方に、重み付けを行った上で、単語レベル値を算出することが考えられる。反対に、学習者が、欧米など非漢字圏の国出身であるならば、その学習者にとっては、漢字が複雑であることが直接文章の難易度が上がる要因になる可能性は高い。そこで、このような場面では、IDFよりも単語総画数に重み付けを行うことが考えられる。このように、単語総画数とIDFとのいずれに重きをおいて単語レベル値を算出するのかについて、単語レベル値算出部106は、学習者の特性に応じて変更することができる。   For example, in a scene where the level of a sentence / word is judged for a learner from a kanji-speaking country that uses kanji as a character, such as China, Taiwan, Korea, etc., the complexity and difficulty of kanji is difficult. However, it is not necessarily directly connected. Therefore, in the above scene, it is conceivable to calculate the word level value after weighting the IDF rather than the total number of words. On the other hand, if a learner is from a non-kanji-speaking country such as Europe or America, the complexity of kanji is likely to be a factor that directly increases the difficulty of writing. Thus, in such a scene, it is conceivable to weight the total number of strokes rather than the IDF. In this way, the word level value calculation unit 106 can change whether to calculate the word level value with emphasis on the total number of strokes of the word or the IDF according to the characteristics of the learner.

この変形例では、学習者情報記憶部38(図2)を、図8に示すとおりに構成する。すなわち、学習者の出身国が漢字圏内か否(非漢字圏)かを示す出身国情報が、上記学習者IDに関連付けて記憶されている。   In this modification, the learner information storage unit 38 (FIG. 2) is configured as shown in FIG. In other words, country-of-origin information indicating whether the learner's home country is within the kanji range (non-kanji range) is stored in association with the learner ID.

単語レベル値算出部106は、図8に示す学習者情報テーブルを参照することにより、自装置に入力された学習者IDに基づいて、判定を依頼した文章入力者である学習者が、漢字圏出身か否かを判定することが可能となる。そして、文章入力者が漢字圏出身であれば、IDFにより重きをおいた算出方法を用い、非漢字圏出身であれば、単語総画数により重きをおいた算出方法を用いて、単語レベル値算出を実行する。   The word level value calculation unit 106 refers to the learner information table shown in FIG. 8, so that the learner who is the sentence input person who has requested the determination based on the learner ID input to the own device It is possible to determine whether or not you are from home. If the text input person is from a kanji-speaking area, the word level value is calculated by using a calculation method that emphasizes the IDF, and if the text input person is from a non-kanji-speaking area, the calculation method is weighted by the total number of strokes of the word. Execute.

上記構成および方法によれば、各単語の単語レベル値を、精度よく、かつ、学習者の能力、特性に応じてより適切に算出することが可能となる。   According to the above configuration and method, the word level value of each word can be calculated more accurately and more appropriately according to the ability and characteristics of the learner.

〔変形例2〕
上述の各実施形態において、単語レベル判定システム100(パソコン1、サーバ側の単語レベル判定装置)は、各単語の単語難易度に基づいて、文章全体の難易度を判定する構成を備えていてもよい。ここで、さらに、単語レベル判定システム100は、文章の意味を変えずに難易度を変更する文章校正部(不図示)を備えていてもよい。
[Modification 2]
In each of the above-described embodiments, the word level determination system 100 (the personal computer 1, the server-side word level determination device) may be configured to determine the difficulty level of the entire sentence based on the word difficulty level of each word. Good. Here, the word level determination system 100 may further include a sentence proofreading unit (not shown) that changes the difficulty level without changing the meaning of the sentence.

文章校正部は、例えば、図11に示す文章校正ボタン65がクリックされたことをトリガとして、校正前の文章におけるすべての(あるいは一部の)単語を、単語難易度が1段階難しく(あるいは、易しく)なるように、難易度の異なる(かつ、意味が同じの)別の単語に置換して、新たな文章を生成する。   For example, the sentence proofreading unit triggers that the sentence proofreading button 65 shown in FIG. 11 is clicked, and makes all (or a part of) words in the sentence before proofreading difficult for the word difficulty level by one level (or The new sentence is generated by replacing it with another word having a different difficulty level (and having the same meaning).

これにより、教師は、学習素材(新聞記事、小説など)を学習者のレベルに応じて変換して教材にすることができる。また、さまざまな学習スキルの学習者に対して、難易度だけが異なる同一の教材を簡単に用意することが可能になる。この機能は、学習者にとっても効果がある。例えば、新聞記事、小説、官公庁の公報(災害時の外国人向け情報提供など)に、特殊な表現が用いられていることによって読むことが困難な場合に、それらの文章を、平易な文章に変換することができる。   As a result, the teacher can convert learning materials (newspaper articles, novels, etc.) according to the level of the learner into teaching materials. In addition, it is possible to easily prepare the same teaching material with different difficulty levels for learners of various learning skills. This function is also effective for learners. For example, if it is difficult to read due to the use of special expressions in newspaper articles, novels, public bulletins of government offices (providing information for foreigners in the event of a disaster, etc.), convert those sentences into plain sentences Can be converted.

〔変形例3〕
本発明の単語レベル判定システム100を、辞書サービスと連動して実施することも可能である。具体的には、単語レベル判定システム100は、学習者ごとに記憶された辞書サービスの利用履歴を参照して、学習者の学習段階を特定し、特定した学習段階に応じた適切な単語難易度の判定結果を学習者に提示する。利用履歴とは、例えば、サービスを用いて学習者がどの単語の意味を調べているのかを記録したログのことである。
[Modification 3]
It is also possible to implement the word level determination system 100 of the present invention in conjunction with a dictionary service. Specifically, the word level determination system 100 refers to the dictionary service usage history stored for each learner, identifies the learner's learning stage, and an appropriate word difficulty level according to the identified learning stage. This result is presented to the learner. The usage history is, for example, a log that records which words the learner is searching for using the service.

単語レベル判定システム100は、上記利用履歴から、学習者が、どのような単語の意味を調べているのかの情報を収集する。学習者が意味を調べた単語は、該学習者にとって未知の単語であったとみなし、単語レベル判定システム100は、学習者がどのような単語の意味を知らないのかに応じて、学習者の学習段階を特定することができる。   The word level determination system 100 collects information on what kind of word the learner is examining from the use history. The word whose meaning has been examined is regarded as an unknown word to the learner, and the word level determination system 100 determines the learner's learning depending on what kind of word the learner does not know. The stage can be specified.

なお、上述した各実施形態では、本発明の単語レベル判定システム100(パソコン1)に、文章が入力されることがトリガとなって、単語レベル判定システム100(パソコン1)が、文章中の各単語のレベル判定を実行するものとして説明したが、本発明の単語レベル判定システムおよび単語レベル判定装置は、これに限定されない。例えば、単語レベル判定システム100(パソコン1)は、文章D1の代わりに日本語の単語1語を入力として受け取り、その単語について単語レベル値D5(または、単語難易度D6)を出力する構成であってもよい。この場合、単語抽出部101を備えていなくても、入力された単語が文字特徴量取得部102、および、単語特徴量取得部104に供給される。   In each of the above-described embodiments, a word is input to the word level determination system 100 (PC 1) of the present invention as a trigger, and the word level determination system 100 (PC 1) Although described as performing word level determination, the word level determination system and the word level determination apparatus of the present invention are not limited to this. For example, the word level determination system 100 (the personal computer 1) is configured to receive one Japanese word as an input instead of the sentence D1 and output a word level value D5 (or word difficulty D6) for the word. May be. In this case, even if the word extraction unit 101 is not provided, the input word is supplied to the character feature amount acquisition unit 102 and the word feature amount acquisition unit 104.

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。   The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention.

最後に、単語レベル判定システム100(パソコン1、端末装置、単語レベル判定装置)の各ブロック、特に、単語抽出部101(形態素解析部21)、文字特徴量取得部102(画数決定部22)、単語特徴量取得部104(IDF取得部24a/IDF算出部24b)、単語レベル値算出部106および単語難易度判定部107は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。   Finally, each block of the word level determination system 100 (personal computer 1, terminal device, word level determination device), in particular, a word extraction unit 101 (morpheme analysis unit 21), a character feature amount acquisition unit 102 (stroke number determination unit 22), The word feature amount acquisition unit 104 (IDF acquisition unit 24a / IDF calculation unit 24b), the word level value calculation unit 106, and the word difficulty level determination unit 107 may be configured by hardware logic, or the CPU may be configured as follows. And may be realized by software.

すなわち、単語レベル判定システム100は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである単語レベル判定システム100の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記単語レベル判定システム100に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。   That is, the word level determination system 100 includes a central processing unit (CPU) that executes instructions of a control program that realizes each function, a read only memory (ROM) that stores the program, and a random access memory (RAM) that expands the program. ), A storage device (recording medium) such as a memory for storing the program and various data. An object of the present invention is a recording medium in which a program code (execution format program, intermediate code program, source program) of a control program of the word level determination system 100, which is software that realizes the functions described above, is recorded so as to be readable by a computer This can also be achieved by supplying the above to the word level determination system 100 and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU).

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。   Examples of the recording medium include a tape system such as a magnetic tape and a cassette tape, a magnetic disk such as a floppy (registered trademark) disk / hard disk, and an optical disk such as a CD-ROM / MO / MD / DVD / CD-R. Card system such as IC card, IC card (including memory card) / optical card, or semiconductor memory system such as mask ROM / EPROM / EEPROM / flash ROM.

また、単語レベル判定システム100を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。   Further, the word level determination system 100 may be configured to be connectable to a communication network, and the program code may be supplied via the communication network. The communication network is not particularly limited. For example, the Internet, intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication network, satellite communication. A net or the like is available. Also, the transmission medium constituting the communication network is not particularly limited. For example, even in the case of wired such as IEEE 1394, USB, power line carrier, cable TV line, telephone line, ADSL line, etc., infrared rays such as IrDA and remote control, Bluetooth ( (Registered trademark), 802.11 wireless, HDR, mobile phone network, satellite line, terrestrial digital network, and the like can also be used. The present invention can also be realized in the form of a computer data signal embedded in a carrier wave in which the program code is embodied by electronic transmission.

本発明の単語レベル判定システムによれば、日本語の文章中に含まれる単語のレベルを、容易に、客観的に、より精度よく判定することができる。したがって、難易度を考慮して日本語を利用するべき場面であれば、本発明は様々な分野で適用可能である。例えば、日本語教育の分野、特に、外国人に対する日本語教育の分野では、様々な学習段階、学習スキルの学習者達に適切な教材を提供する必要があるので、本発明を特に好適に用いることができる。   According to the word level determination system of the present invention, the level of a word included in a Japanese sentence can be easily and objectively determined with higher accuracy. Therefore, the present invention can be applied in various fields as long as the Japanese language is used in consideration of the difficulty level. For example, in the field of Japanese language education, particularly in the field of Japanese language education for foreigners, it is necessary to provide appropriate teaching materials to learners of various learning stages and learning skills, so that the present invention is particularly preferably used. be able to.

1 パソコン(単語レベル判定システム/単語レベル判定装置/情報処理装置)
10 制御部
11 記憶部
12 入力部
13 表示部
14 通信部
21 形態素解析部(単語抽出手段)
22 画数決定部(文字特徴量取得手段)
23 画数データベース
24a IDF取得部(単語特徴量取得手段)
24b IDF算出部(IDF算出手段)
35 IDFデータベース
38 学習者情報記憶部
50 文章入力エリア
51 ID入力エリア
52 判定ボタン
60 原文表示エリア
61 単語リスト
62 カウントテーブル
63 文章難易度表示エリア
64 メッセージ表示エリア
65 文章校正ボタン
100 単語レベル判定システム(単語レベル判定装置/情報処理装置)
101 単語抽出部(単語抽出手段)
102 文字特徴量取得部(文字特徴量取得手段)
103 文字特徴量記憶部
104 単語特徴量取得部(単語特徴量取得手段)
105 単語特徴量記憶部
106 単語レベル値算出部(単語レベル値算出手段)
107 単語難易度判定部(単語難易度取得手段)
108 対応情報記憶部
D1 文章
D2 単語情報(単語)
D3 文字総合特徴量(単語総画数)
D4 単語特徴量
D5 単語レベル値
D6 単語難易度
D7 学習者情報
D8 文書集合
1 PC (word level determination system / word level determination device / information processing device)
DESCRIPTION OF SYMBOLS 10 Control part 11 Memory | storage part 12 Input part 13 Display part 14 Communication part 21 Morphological analysis part (word extraction means)
22 Stroke number determination unit (character feature amount acquisition means)
23 Stroke database 24a IDF acquisition unit (word feature acquisition means)
24b IDF calculation part (IDF calculation means)
35 IDF database 38 Learner information storage unit 50 Text input area 51 ID input area 52 Determination button 60 Original text display area 61 Word list 62 Count table 63 Text difficulty display area 64 Message display area 65 Sentence correction button 100 Word level determination system ( Word level determination device / information processing device)
101 word extraction unit (word extraction means)
102 Character feature acquisition unit (character feature acquisition means)
103 character feature amount storage unit 104 word feature amount acquisition unit (word feature amount acquisition means)
105 word feature amount storage unit 106 word level value calculation unit (word level value calculation means)
107 Word difficulty determination unit (word difficulty acquisition means)
108 Correspondence information storage unit D1 Sentence D2 Word information (word)
D3 Character total feature (total number of strokes)
D4 Word feature amount D5 Word level value D6 Word difficulty D7 Learner information D8 Document set

Claims (11)

文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、自装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得手段と、
単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得手段と、
上記入力された単語に含まれる各文字の、上記文字特徴量取得手段によって取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得手段によって取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出手段とを備えていることを特徴とする単語レベル判定装置。
Character feature amount acquisition means for acquiring a character feature amount for each character included in a word input to the device from a character feature amount storage unit that stores a character feature amount indicating a character feature for each character;
Word feature amount acquisition means for acquiring a word feature amount of the input word from a word feature amount storage unit that stores a word feature amount indicating a word feature for each word;
A character total feature amount obtained by combining the character feature amounts acquired by the character feature amount acquisition unit of each character included in the input word, and a word feature acquired by the word feature amount acquisition unit And a word level value calculating means for calculating a word level value indicating the difficulty of the word in the inputted word from the quantity.
自装置に入力された日本語の文章から単語を抽出する単語抽出手段をさらに備え、
上記文字特徴量取得手段は、単語に含まれる文字ごとに文字特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行い、
上記単語特徴量取得手段は、単語の単語特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行い、
上記単語レベル値算出手段は、上記単語抽出手段によって抽出された単語ごとに、文字特徴量を総合することにより得られた上記文字総合特徴量と、上記抽出された単語ごとに取得された上記単語特徴量とから、上記抽出された単語ごとに上記単語レベル値を算出することを特徴とする請求項1に記載の単語レベル判定装置。
It further comprises word extraction means for extracting words from Japanese sentences input to its own device,
The character feature amount acquisition unit performs a process of acquiring a character feature amount for each character included in the word for each word extracted by the word extraction unit,
The word feature amount acquisition unit performs a process of acquiring a word feature amount of a word for each word extracted by the word extraction unit,
The word level value calculating means includes, for each word extracted by the word extracting means, the character comprehensive feature value obtained by combining character feature values, and the word acquired for each extracted word. The word level determination apparatus according to claim 1, wherein the word level value is calculated for each extracted word from a feature amount.
上記単語レベル値と、ユーザに提示するための、単語の難しさを表す文字列である単語難易度とを対応付けた対応情報を記憶する対応情報記憶部と、
上記対応情報記憶部から、上記単語レベル値算出手段によって算出された単語レベル値に対応付けられた単語難易度を取得する単語難易度取得手段とを備えていることを特徴とする請求項1または2に記載の単語レベル判定装置。
A correspondence information storage unit that stores correspondence information in which the word level value is associated with a word difficulty level that is a character string representing the difficulty of a word to be presented to the user;
The word difficulty level acquisition means for acquiring the word difficulty level associated with the word level value calculated by the word level value calculation means from the correspondence information storage unit. 2. The word level determination device according to 2.
上記文字特徴量記憶部は、文字特徴量として、文字の画数を記憶するものであって、
上記文字特徴量取得手段は、上記文字特徴量記憶部から文字の画数を取得することを特徴とする請求項1から3までのいずれか1項に記載の単語レベル判定装置。
The character feature amount storage unit stores the number of strokes of characters as the character feature amount,
The word level determination device according to any one of claims 1 to 3, wherein the character feature amount acquisition unit acquires the number of strokes of characters from the character feature amount storage unit.
上記単語特徴量記憶部は、単語特徴量として、単語のIDF(Inverse Document Frequency)を記憶するものであって、
上記単語特徴量取得手段は、上記単語特徴量記憶部から単語のIDFを取得することを特徴とする請求項1から4までのいずれか1項に記載の単語レベル判定装置。
The word feature storage unit stores a word IDF (Inverse Document Frequency) as a word feature,
5. The word level determination apparatus according to claim 1, wherein the word feature amount acquisition unit acquires an IDF of a word from the word feature amount storage unit.
上記文字特徴量記憶部は、文字特徴量として、文字の画数を記憶するものであって、
上記文字特徴量取得手段は、上記文字特徴量記憶部から取得した各文字の画数を、単語ごとに総合することによって単語総画数を算出し、
上記単語特徴量記憶部は、単語特徴量として、単語のIDFを記憶するものであって、
上記単語特徴量取得手段は、上記単語特徴量記憶部から単語のIDF(Inverse Document Frequency)を取得し、
上記単語レベル値算出手段は、上記単語総画数と上記IDFとに、加算処理、乗算処理、および、加重平均処理の少なくとも1つを施すことにより、単語レベル値を算出することを特徴とする請求項1から5までのいずれか1項に記載の単語レベル判定装置。
The character feature amount storage unit stores the number of strokes of characters as the character feature amount,
The character feature amount acquisition unit calculates the total number of strokes of words by totaling the number of strokes of each character acquired from the character feature amount storage unit for each word,
The word feature storage unit stores a word IDF as a word feature,
The word feature amount acquisition unit acquires an IDF (Inverse Document Frequency) of a word from the word feature amount storage unit,
The word level value calculation means calculates a word level value by performing at least one of an addition process, a multiplication process, and a weighted average process on the total number of words and the IDF. Item 6. The word level determination device according to any one of Items 1 to 5.
上記対応情報記憶部は、さらに、上記対応情報を学習者の学習段階ごとに記憶するものであって、
上記単語難易度取得手段は、
自装置に入力された学習者に関する学習者情報によって学習段階が指定された場合に、指定された学習段階に対応する対応情報において、上記算出された単語レベル値に対応付けられた単語難易度を、上記対応情報記憶部から取得することを特徴とする請求項3に記載の単語レベル判定装置。
The correspondence information storage unit further stores the correspondence information for each learning stage of the learner,
The word difficulty level acquisition means is:
When the learning stage is specified by the learner information related to the learner input to the own device, the word difficulty level associated with the calculated word level value in the correspondence information corresponding to the specified learning stage is set. The word level determination device according to claim 3, wherein the word level determination device is acquired from the correspondence information storage unit.
請求項1から7までのいずれか1項に記載の単語レベル判定装置と、
上記単語レベル判定装置と通信する端末装置とを含み、
上記端末装置は、
該端末装置のユーザによって入力された単語の単語レベル値を、上記単語レベル判定装置に要求し、
上記単語レベル判定装置は、
上記端末装置から受信した単語について算出した単語レベル値を、上記要求の応答として上記端末装置に送信することを特徴とする単語レベル判定システム。
The word level determination device according to any one of claims 1 to 7,
A terminal device that communicates with the word level determination device,
The terminal device is
Requesting the word level determination device for a word level value of a word input by a user of the terminal device;
The word level determination device
A word level determination system, wherein a word level value calculated for a word received from the terminal device is transmitted to the terminal device as a response to the request.
文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、単語レベル判定装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得ステップと、
単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得ステップと、
上記入力された単語に含まれる各文字の、上記文字特徴量取得ステップにて取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得ステップにて取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出ステップとを含むことを特徴とする単語レベル判定方法。
A character feature amount acquisition step for acquiring a character feature amount for each character included in a word input to the word level determination device from a character feature amount storage unit that stores a character feature amount indicating a character feature for each character;
A word feature amount acquisition step of acquiring a word feature amount of the input word from a word feature amount storage unit storing a word feature amount indicating a word feature for each word;
The character total feature amount obtained by combining the character feature amount acquired in the character feature amount acquisition step of each character included in the input word, and acquired in the word feature amount acquisition step A word level determination method comprising: a word level value calculating step for calculating a word level value indicating difficulty of a word in the input word from the word feature amount.
コンピュータを、請求項1から7までのいずれか1項に記載の単語レベル判定装置の各手段として機能させるための制御プログラム。   The control program for functioning a computer as each means of the word level determination apparatus of any one of Claim 1-7. 請求項10に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the control program of Claim 10.
JP2009155707A 2009-06-30 2009-06-30 Device, system and method for word level decision, control program, and recording medium Pending JP2011013811A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009155707A JP2011013811A (en) 2009-06-30 2009-06-30 Device, system and method for word level decision, control program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009155707A JP2011013811A (en) 2009-06-30 2009-06-30 Device, system and method for word level decision, control program, and recording medium

Publications (1)

Publication Number Publication Date
JP2011013811A true JP2011013811A (en) 2011-01-20

Family

ID=43592653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009155707A Pending JP2011013811A (en) 2009-06-30 2009-06-30 Device, system and method for word level decision, control program, and recording medium

Country Status (1)

Country Link
JP (1) JP2011013811A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016152032A (en) * 2015-02-19 2016-08-22 日本電信電話株式会社 Difficulty estimation model learning device, and device, method and program for estimating difficulty
JP2017151849A (en) * 2016-02-26 2017-08-31 日本電信電話株式会社 Outlier place extraction device, method and program
JP2019197366A (en) * 2018-05-09 2019-11-14 Croco株式会社 Content evaluation device, content evaluation method, program, and storage medium
WO2022259513A1 (en) * 2021-06-11 2022-12-15 日本電信電話株式会社 Word evaluation value acquisition method, device, and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016152032A (en) * 2015-02-19 2016-08-22 日本電信電話株式会社 Difficulty estimation model learning device, and device, method and program for estimating difficulty
JP2017151849A (en) * 2016-02-26 2017-08-31 日本電信電話株式会社 Outlier place extraction device, method and program
JP2019197366A (en) * 2018-05-09 2019-11-14 Croco株式会社 Content evaluation device, content evaluation method, program, and storage medium
WO2022259513A1 (en) * 2021-06-11 2022-12-15 日本電信電話株式会社 Word evaluation value acquisition method, device, and program

Similar Documents

Publication Publication Date Title
Persson et al. A systematic review of second language learning with mobile technologies.
Greengross et al. Sex differences in humor production ability: A meta-analysis
CN109523194B (en) Chinese reading ability evaluation method and device and readable storage medium
Alhadreti Assessing academics’ perceptions of blackboard usability using SUS and CSUQ: A case study during the COVID-19 pandemic
McGrew CHC theory and the human cognitive abilities project: Standing on the shoulders of the giants of psychometric intelligence research
Cobos et al. A content analysis system that supports sentiment analysis for subjectivity and polarity detection in online courses
Huang et al. Exploring plausible causes of differential item functioning in the PISA science assessment: language, curriculum or culture
US8332208B2 (en) Information processing apparatus, information processing method, and program
Glascock et al. The relationship of ethnicity and sex to professor credibility at a culturally diverse university
Steacy et al. The role of set for variability in irregular word reading: Word and child predictors in typically developing readers and students at-risk for reading disabilities
Biemiller et al. Models of vocabulary acquisition: Direct tests and text-derived simulations of vocabulary growth
Habibi et al. Beliefs and knowledge for pre-service teachers’ technology integration during teaching practice: An extended theory of planned behavior
Ortuño-Sierra et al. Subjective well-being in adolescence: New psychometric evidences on the satisfaction with life scale
Dogan et al. Early childhood reading skills and proficiency in NAEP eighth-grade reading assessment
Knoop et al. Wordgap-automatic generation of gap-filling vocabulary exercises for mobile learning
KR102201709B1 (en) Method and system for estimating a reading index using automatic analysis program for text of korean language
Leroux et al. Estimation of a latent variable regression growth curve model for individuals cross-classified by clusters
Shoaib et al. Academic library resources and research support services to English teachers in higher education institutions
Solano-Flores et al. International semiotics: Item difficulty and the complexity of science item illustrations in the PISA-2009 international test comparison
JP2011013811A (en) Device, system and method for word level decision, control program, and recording medium
Hahs‐Vaughn Analysis of data from complex samples
Kara et al. Estimating model-based oral reading fluency: A Bayesian approach
JP2007226460A (en) Data processor and data processing method
Nikitina Country stereotypes and L2 motivation: A study of French, German and Spanish language learners
KR20220053982A (en) Method for recommanding educational institute based on artificial intelligence