JP2010134730A - Language processor, language processing system and program - Google Patents

Language processor, language processing system and program Download PDF

Info

Publication number
JP2010134730A
JP2010134730A JP2008310498A JP2008310498A JP2010134730A JP 2010134730 A JP2010134730 A JP 2010134730A JP 2008310498 A JP2008310498 A JP 2008310498A JP 2008310498 A JP2008310498 A JP 2008310498A JP 2010134730 A JP2010134730 A JP 2010134730A
Authority
JP
Japan
Prior art keywords
word
analysis
sentence
noun
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008310498A
Other languages
Japanese (ja)
Other versions
JP5343539B2 (en
Inventor
Tomoko Okuma
智子 大熊
Hiroshi Umeki
宏 梅基
Hiroshi Masuichi
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008310498A priority Critical patent/JP5343539B2/en
Publication of JP2010134730A publication Critical patent/JP2010134730A/en
Application granted granted Critical
Publication of JP5343539B2 publication Critical patent/JP5343539B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a language processor which acquires base information as a criteria for determining whether a word used in a sentence in combination with a word representing a number functions as either or both a numerical classifier or/and a noun, on the basis of sentence group data. <P>SOLUTION: A word acquisition means (21) acquires a word used in a sentence in combination with a word representing a number. A statistical information acquisition means (22) acquires statistical information relating to how to use the word, on the basis of sentence group data. A base information generation means (23) generates base information as a criteria for determining whether the word functions as either or both a numerical classifier or/and a noun, on the basis of the statistical information. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、言語処理装置、言語処理システム及びプログラムに関する。   The present invention relates to a language processing device, a language processing system, and a program.

数を表す語と組み合わせて文中で用いられる単語は助数詞及び名詞のいずれか一方として機能する場合と両方として機能する場合がある。例えば「40人のメンバー」との文において「40」はメンバーの数を示しており、この場合の「人」は、数詞である「40」が名詞である「メンバー」を修飾する際の補助を行う助数詞として機能する。一方、「40人の清掃活動」との文において「40」は清掃活動の数を示しておらず、「人」を修飾している。この場合の「人」は、数詞である「40」が直接修飾する対象そのものを現しており、名詞として機能する。このように、「人」は助数詞及び名詞の両方として機能し得る。また例えば、「個」との語は数を表す語と組み合わせて文中で用いられた場合、名詞としては機能せず、助数詞として機能する。また例えば、「自衛隊」との語は、「3自衛隊の合同訓練」のように、数を表す語と組み合わせて用いられることもあるが、助数詞としては機能せず、名詞として機能する。   A word used in a sentence in combination with a word representing a number may function as one or both of a classifier and a noun. For example, in the sentence “40 members”, “40” indicates the number of members. In this case, “person” is an assist in modifying “members” in which the number “40” is a noun. Functions as a classifier. On the other hand, in the sentence “40 cleaning activities”, “40” does not indicate the number of cleaning activities and qualifies “person”. The “person” in this case represents the object itself directly modified by the numeral “40” and functions as a noun. Thus, a “person” can function as both a classifier and a noun. Further, for example, when the word “individual” is used in a sentence in combination with a word representing a number, it does not function as a noun but functions as a classifier. Further, for example, the word “SDF” may be used in combination with a word representing a number, such as “Joint training of 3 Self-Defense Forces”, but it does not function as a classifier but functions as a noun.

例えば構文解析などの言語処理を、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかをを考慮して実行する場合には、上記単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報が必要となる。   For example, when performing language processing such as parsing in consideration of whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or both, Basic information is required as a basis for determining whether the word functions as one or both of a classifier and a noun.

この点に関連して、特許文献1には、助数詞の意味役割を記述した対応表を予め記憶しておき、この対応表に基づいて文の解析を行う技術が開示されている。また特許文献2には、ユーザが名詞に合わせて選択した助数詞を該名詞と対応づけて辞書データに記憶し、以降の翻訳処理をその辞書データに基づいて行う技術が開示されている。
特許4039282号 特開2000−90088号公報
In relation to this point, Patent Document 1 discloses a technique in which a correspondence table describing the semantic role of a classifier is stored in advance, and a sentence is analyzed based on the correspondence table. Patent Document 2 discloses a technique in which a classifier selected by a user according to a noun is stored in dictionary data in association with the noun, and the subsequent translation processing is performed based on the dictionary data.
Patent 4039282 Japanese Patent Laid-Open No. 2000-90088

本発明は、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を文章群データに基づいて取得する言語処理装置、言語処理システム及びプログラムを提供することを目的とする。   The present invention acquires, based on sentence group data, basic information that serves as a basis for determining whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or as both An object of the present invention is to provide a language processing device, a language processing system, and a program.

請求項1に記載の発明は、言語処理装置であって、数を表す語と組み合わせて文中で用いられる単語を取得する単語取得手段と、文章群データに基づいて、前記単語の用いられ方に関する統計情報を取得する統計情報取得手段と、前記単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を、前記統計情報に基づいて生成する基礎情報生成手段と、を含むことを特徴とする。   The invention according to claim 1 is a language processing apparatus, which relates to a word acquisition means for acquiring a word used in a sentence in combination with a word representing a number, and how the word is used based on sentence group data. Statistical information acquisition means for acquiring statistical information, and basic information for generating basic information based on the statistical information as a basis for determining whether the word functions as either a classifier or a noun or both And an information generating means.

請求項2に記載の発明は、請求項1に記載の言語処理装置であって、前記統計情報取得手段は、前記文章群データにおいて、前記単語が、助数詞に対応する予め定められた第1態様で用いられている回数を取得する手段と、前記文章群データにおいて、前記単語が、名詞に対応する予め定められた第2態様で用いられている回数を取得する手段と、を含むことを特徴とする。   Invention of Claim 2 is the language processing apparatus of Claim 1, Comprising: The said statistical information acquisition means WHEREIN: In the said sentence group data, the said word is a predetermined 1st aspect corresponding to a classifier. And means for obtaining the number of times the word is used in a predetermined second mode corresponding to a noun in the sentence group data. And

請求項3に記載の発明は、請求項1又は2に記載の言語処理装置であって、前記統計情報取得手段は、前記文章群データにおいて前記単語を修飾する修飾語の数を取得する手段を含むことを特徴とする。   The invention according to claim 3 is the language processing apparatus according to claim 1 or 2, wherein the statistical information acquisition means includes means for acquiring the number of modifiers that modify the word in the sentence group data. It is characterized by including.

請求項4に記載の発明は、請求項1乃至3のいずれかに記載の言語処理装置であって、解析対象文字列を取得する解析対象文字列取得手段と、前記解析対象文字列に前記単語が含まれる場合、該単語の前記基礎情報に基づいて、該単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかを判定し、該判定結果に基づいて、前記解析対象文字列を解析する解析手段と、を含むことを特徴とする。   Invention of Claim 4 is the language processing apparatus in any one of Claim 1 thru | or 3, Comprising: The analysis object character string acquisition means which acquires an analysis object character string, The said word in the said analysis object character string Is included, based on the basic information of the word, it is determined whether the word functions as either a classifier or a noun or both, and based on the determination result, the character to be analyzed Analyzing means for analyzing the column.

請求項5に記載の発明は、請求項4に記載の言語処理装置であって、前記解析手段は、前記判定結果に基づいて、前記解析対象文字列の解析規則を決定する解析規則決定手段を含み、前記解析規則決定手段によって決定された解析規則を用いて前記解析対象文字列を解析することを特徴とする。   The invention according to claim 5 is the language processing apparatus according to claim 4, wherein the analysis means includes analysis rule determination means for determining an analysis rule for the analysis target character string based on the determination result. And the analysis target character string is analyzed using the analysis rule determined by the analysis rule determination means.

請求項6に記載の発明は、言語処理システムであって、数を表す語と組み合わせて文中で用いられる単語を取得する単語取得手段と、文章群データに基づいて、前記単語の用いられ方に関する統計情報を取得する統計情報取得手段と、前記単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を、前記統計情報に基づいて生成する基礎情報生成手段と、を含むことを特徴とする。   The invention according to claim 6 is a language processing system, which relates to a word acquisition means for acquiring a word used in a sentence in combination with a word representing a number, and how the word is used based on sentence group data. Statistical information acquisition means for acquiring statistical information, and basic information for generating basic information based on the statistical information as a basis for determining whether the word functions as either a classifier or a noun or both And an information generation means.

請求項7に記載の発明は、プログラムであって、数を表す語と組み合わせて文中で用いられる単語を取得する単語取得手段、文章群データに基づいて、前記単語の用いられ方に関する統計情報を取得する統計情報取得手段、及び、前記単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を、前記統計情報に基づいて生成する基礎情報生成手段、としてコンピュータを機能させるためのプログラムである。   The invention according to claim 7 is a program, the word acquisition means for acquiring a word used in a sentence in combination with a word representing a number, statistical information on how the word is used based on sentence group data Statistical information acquisition means for acquiring, and basic information generation for generating basic information based on the statistical information as a basis for determining whether the word functions as either a classifier or a noun or both A program for causing a computer to function as means.

請求項1に記載の発明によれば、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報が文章群データに基づいて取得される。   According to the first aspect of the present invention, the basic information serving as a basis for determining whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or as both. Acquired based on sentence group data.

請求項2に記載の発明によれば、数を表す語と組み合わせて文中で用いられる単語の上記基礎情報が、該単語が、助数詞に対応する予め定められた第1態様で実際に文章群データで用いられている回数と、名詞に対応する予め定められた第2態様で実際に文章群データで用いられている回数と、を考慮して取得される。   According to the second aspect of the present invention, the basic information of a word used in a sentence in combination with a word representing a number is actually sentence group data in a predetermined first mode in which the word corresponds to a classifier. And the number of times actually used in the sentence group data in the predetermined second mode corresponding to the noun.

請求項3に記載の発明によれば、数を表す語と組み合わせて文中で用いられる単語の上記基礎情報が、文章群データにおいて該単語を修飾する修飾語の数を考慮して取得される。   According to the third aspect of the present invention, the basic information of the word used in the sentence in combination with the word representing the number is acquired in consideration of the number of modifiers that modify the word in the sentence group data.

請求項4に記載の発明によれば、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかが考慮された解析結果が得られる。   According to the fourth aspect of the invention, an analysis result in which whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or both can be obtained. .

請求項5に記載の発明によれば、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかが考慮された解析規則に則った解析結果が得られる。   According to the invention described in claim 5, in accordance with an analysis rule that considers whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or as both An analysis result is obtained.

請求項6に記載の発明によれば、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報が文章群データに基づいて取得される。   According to the invention described in claim 6, basic information serving as a basis for determining whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or as both. Acquired based on sentence group data.

請求項7に記載の発明によれば、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報が文章群データに基づいて取得される。   According to the seventh aspect of the present invention, basic information serving as a basis for determining whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or as both. Acquired based on sentence group data.

以下、本発明の実施の形態について、図面を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本発明の一実施形態に係る言語処理システム1の構成例を示す図である。図1に示す言語処理システム1は言語処理装置10を含んで構成される。言語処理装置10は例えばパーソナルコンピュータ等であり、制御部11と、記憶部12と、操作部13と、表示部14と、を含んで構成される。   FIG. 1 is a diagram illustrating a configuration example of a language processing system 1 according to an embodiment of the present invention. A language processing system 1 shown in FIG. 1 includes a language processing device 10. The language processing apparatus 10 is, for example, a personal computer, and includes a control unit 11, a storage unit 12, an operation unit 13, and a display unit 14.

制御部11は、例えばCPU等であって、記憶部12に格納されるプログラムに従って各種の情報処理を実行する。記憶部12は、例えばRAMやROM等のメモリ素子、ハードディスクなどを含んで構成される。記憶部12は、制御部11によって実行されるプログラムや、各種のデータを保持する。特に本実施形態では、記憶部12は、形態素解析や構文解析に使用する辞書や文法規則のデータを記憶している。また、記憶部12は、制御部11のワークメモリとしても動作する。   The control unit 11 is, for example, a CPU or the like, and executes various types of information processing according to programs stored in the storage unit 12. The storage unit 12 includes a memory element such as a RAM and a ROM, a hard disk, and the like. The storage unit 12 holds programs executed by the control unit 11 and various data. In particular, in the present embodiment, the storage unit 12 stores dictionary and grammatical rule data used for morphological analysis and syntax analysis. The storage unit 12 also operates as a work memory for the control unit 11.

操作部13は、例えばキーボードやマウス等であって、利用者の指示操作を受け付けて、当該指示操作の内容を制御部11に出力する。表示部14は、例えば液晶ディスプレイ等であり、制御部11からの指示に従って、画像の表示を行う。   The operation unit 13 is, for example, a keyboard or a mouse, and receives a user instruction operation, and outputs the content of the instruction operation to the control unit 11. The display unit 14 is, for example, a liquid crystal display, and displays an image in accordance with an instruction from the control unit 11.

以下、本実施形態に係る言語処理システム1で実現される機能について説明する。言語処理システム1は、機能的に、図2に示すように、単語取得部21と、統計情報取得部22と、基礎情報生成部23と、解析対象文字列取得部31と、解析部32と、解析規則決定部33と、解析結果出力部34と、基礎情報記憶部35と、を含んで構成される。基礎情報記憶部35は例えば記憶部12によって実現され、その他の機能ブロックは、例えば制御部11が記憶部12に格納されるプログラムを実行することによって実現される。このプログラムは、例えばインターネット等の通信手段を介して提供されてもよいし、例えばCD−ROMやDVD−ROM等、各種のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。   Hereinafter, functions realized by the language processing system 1 according to the present embodiment will be described. As shown in FIG. 2, the language processing system 1 functionally includes a word acquisition unit 21, a statistical information acquisition unit 22, a basic information generation unit 23, an analysis target character string acquisition unit 31, and an analysis unit 32. The analysis rule determination unit 33, the analysis result output unit 34, and the basic information storage unit 35 are included. The basic information storage unit 35 is realized by, for example, the storage unit 12, and the other functional blocks are realized by, for example, the control unit 11 executing a program stored in the storage unit 12. This program may be provided through communication means such as the Internet, or may be provided by being stored in various computer-readable information storage media such as CD-ROM and DVD-ROM.

まず、単語取得部21、統計情報取得部22、及び基礎情報生成部23について説明する。これらの機能ブロックは、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を生成するための機能ブロックである。   First, the word acquisition unit 21, the statistical information acquisition unit 22, and the basic information generation unit 23 will be described. These functional blocks are functions for generating basic information that serves as a basis for determining whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or as both. It is a block.

数を表す語と組み合わせて文中で用いられる単語は、
第1グループ:助数詞及び名詞の両方として機能し得るもの
第2グループ:助数詞として機能するもの
第3グループ:名詞として機能するもの
の3種類のグループに分類される。本実施形態では、数を表す語と組み合わせて文中で用いられ得る単語が第1〜3グループのいずれに属するかが判断され、その判断結果を示す情報が上記基礎情報として生成される。
Words used in sentences in combination with words that represent numbers are:
First group: one that can function as both a classifier and noun Second group: one that functions as a classifier Third group: one that functions as a noun Grouped into three groups. In the present embodiment, it is determined which of the first to third groups a word that can be used in a sentence in combination with a word representing a number, and information indicating the determination result is generated as the basic information.

図3及び図4は言語処理システム1で実行される処理を示すフロー図であり、単語取得部21、統計情報取得部22、及び基礎情報生成部23の処理を示すフロー図である。以下、図3及び図4を参照しながら、これらの機能ブロックについて説明する。   3 and 4 are flowcharts showing processing executed in the language processing system 1, and are flowcharts showing processing of the word acquisition unit 21, the statistical information acquisition unit 22, and the basic information generation unit 23. FIG. Hereinafter, these functional blocks will be described with reference to FIGS. 3 and 4.

単語取得部21は、数を表す語の後に付けて用いられ得る単語を取得する。   The word acquisition unit 21 acquires a word that can be used after a word representing a number.

具体的には、図3に示すように、まず単語取得部21は複数の文を含んでなる文章群データを取得し、文章群データに係る文章群の解析を実行する(S101)。例えば文章群データは記憶部12に記憶される。以下では具体例として、下記の8つの文a〜hを含んでなる文章群Gを対象として処理する場合について説明する。
a:「日本人は2人しかいなかった。」
b:「彼はそのうちの1個を買った。」
c:「他の人は知らない。」
d:「昨日、厚木基地の航空自衛隊が災害地に派遣された。」
e:「3自衛隊の合同訓練が行われた。」
f:「5個を重ねると丁度良い高さになる。」
g:「自衛隊に入隊した。」
h:「クラスで3人が合格した。」
Specifically, as shown in FIG. 3, first, the word acquisition unit 21 acquires sentence group data including a plurality of sentences, and executes analysis of the sentence group related to the sentence group data (S101). For example, the sentence group data is stored in the storage unit 12. Hereinafter, as a specific example, a case will be described in which a sentence group G including the following eight sentences a to h is processed.
a: “There were only two Japanese.”
b: “He bought one of them.”
c: “Other people don't know.”
d: “The Air Self Defense Force at Atsugi Base was dispatched to the disaster area yesterday.”
e: “Joint training of 3 Self-Defense Forces was conducted.”
f: “If 5 are stacked, the height is just right.”
g: “I joined the Self-Defense Force.”
h: “Three people passed in class.”

S101では文章群に対して形態素解析及び構文解析が実行される。形態素解析及び構文解析としては公知の手法が用いられる。   In S101, morphological analysis and syntax analysis are performed on the sentence group. Known methods are used for morphological analysis and syntax analysis.

形態素解析及び構文解析を実行した後、単語取得部21は、文章群を構成する形態素のうちから、数を表す形態素(単語)の直後にある単語(形態素)を抽出し、それらの単語のリストLを取得する(S102)。例えば、上記文章群Gの場合、数を表す語の直後にある単語として、文a,hにおける「人」と、文b,fにおける「個」と、文eにおける「自衛隊」と、が抽出される。このため、S102で取得される単語リストLは{人,個,自衛隊}となる。   After executing the morpheme analysis and the syntax analysis, the word acquisition unit 21 extracts a word (morpheme) immediately after the morpheme (word) representing the number from the morphemes constituting the sentence group, and lists those words L is acquired (S102). For example, in the case of the sentence group G, “person” in the sentences a and h, “individual” in the sentences b and f, and “Self Defense Force” in the sentence e are extracted as words immediately after the word representing the number. Is done. For this reason, the word list L acquired in S102 is {person, individual, self-defense force}.

統計情報取得部22は、単語取得部21によって取得された単語の、文章群における用いられ方に関する統計情報を取得する。例えば、統計情報取得部22は、文章群において、単語取得部21によって取得された単語が、助数詞に対応する予め定められた第1態様で用いられている回数を取得する(S105参照)。また例えば、統計情報取得部22は、文章群において、単語取得部21によって取得された単語が、名詞に対応する予め定められた第2態様で用いられている回数を取得する(S106参照)。   The statistical information acquisition unit 22 acquires statistical information regarding how the word acquired by the word acquisition unit 21 is used in the sentence group. For example, the statistical information acquisition unit 22 acquires the number of times that the word acquired by the word acquisition unit 21 is used in a predetermined first mode corresponding to the classifier in the sentence group (see S105). In addition, for example, the statistical information acquisition unit 22 acquires the number of times that the word acquired by the word acquisition unit 21 is used in a predetermined second mode corresponding to the noun in the sentence group (see S106).

具体的には、図3に示すように、統計情報取得部22は変数iを0に初期化する(S103)。そして統計情報取得部22は、単語リストLのi番目の要素である単語Lが文章群において用いられている回数Pを計数する(S104)。すなわち、単語Lが文章群に登場する回数Pが計数される。例えば、変数iが0である場合には、単語リストLの0番目の要素(すなわち先頭の要素)である単語「人」が用いられている回数Pが計数される。「人」は文a,c,hにおいて1回ずつ用いられているため、Pの値として「3」が取得される。 Specifically, as shown in FIG. 3, the statistical information acquisition unit 22 initializes a variable i to 0 (S103). Then, the statistical information acquisition unit 22 counts the number P i of times that the word L i that is the i-th element of the word list L is used in the sentence group (S104). That is, the number P i of times that the word L i appears in the sentence group is counted. For example, when the variable i is 0, the number of times P 0 in which the word “person” that is the 0th element (that is, the first element) of the word list L is used is counted. Since “person” is used once in the sentences a, c, and h, “3” is acquired as the value of P 0 .

また統計情報取得部22は、文章群において単語Lが、数を表す語の後に付けて用いられている回数Qを計数する(S105)。すなわち、文章群において単語Lが数を表す語の直後に登場する回数Qが計数される。例えば上記文章群Gの場合、文a,hにおいて「人」が数を表す語の直後にあるため、Qの値として「2」が取得される。 In addition, the statistical information acquisition unit 22 counts the number of times Q i in which the word L i is used after the word representing the number in the sentence group (S105). In other words, the number of times the word L i in the sentence group is to appear immediately after the word representing the number Q i is counted. For example, in the case of the sentence group G, “2” is acquired as the value of Q 0 because “person” is immediately after the word representing the number in the sentences a and h.

助数詞として機能する単語は助数詞として用いられることにより、助数詞として機能しない単語に比べて、数を表す語の後に付けて用いられることが多くなる。したがって、助数詞として機能する単語は、助数詞として機能しない単語に比べて、Qの値が大きくなる。このため、Qの値は、単語が助数詞として機能するか否かを判断するための統計値となる。 When a word that functions as a classifier is used as a classifier, it is often used after a word that represents a number, compared to a word that does not function as a classifier. Therefore, a word that functions as a classifier has a larger Q i value than a word that does not function as a classifier. For this reason, the value of Q i is a statistical value for determining whether a word functions as a classifier.

また統計情報取得部22は、文章群において単語Lが、数を表す語の直後以外の位置で、かつ、述語を修飾するように用いられている回数Rを計数する(S106)。例えば上記文章群Gの場合、文cにおける「人」は、数を表す語の直後になく、かつ、述語を修飾しているため、Rの値として「1」が取得される。 The statistical information acquisition unit 22, the word L i in sentence group is at a position other than immediately following the word representing the number, and counts the number of times R i which is used to modify the predicate (S106). For example, in the case of the sentence group G, “person” in the sentence c is not immediately after the word representing the number, and the predicate is modified, so “1” is acquired as the value of R 0 .

ここで、数を表す語の後に付けて用いられ得るような単語が、数を表す語の直後以外の位置で、かつ、述語を修飾するように用いられている場合、その単語は名詞として機能していると考えられる。したがって、名詞として機能する単語は、名詞として機能しない単語に比べて、Rの値が大きくなる。このため、Rの値は、単語が名詞として機能するか否かを判断するための統計値となる。 Here, when a word that can be used after a word that represents a number is used at a position other than immediately after the word that represents a number and is used to modify a predicate, the word functions as a noun. it seems to do. Therefore, the value of R i is greater for words that function as nouns than for words that do not function as nouns. For this reason, the value of R i is a statistical value for determining whether or not a word functions as a noun.

また統計情報取得部22は、文章群において単語Lを修飾している修飾語の数Sを計数する(S107)。例えば上記文章群Gの場合、文cにおいて「人」を修飾している修飾語が1つあり、かつ、他の文には「人」を修飾している修飾語が存在しないため、Sの値として「1」が取得される。 The statistical information acquisition unit 22 counts the number S i of modifier that modifies the word L i in sentence group (S107). For example, in the case of the sentence group G, there modifier that modifies the "person" one in the sentence c, and, since the other statements no modifier that modifies the "human", S 0 “1” is acquired as the value of.

ここで、単語が名詞として機能している場合には修飾語によって修飾されることが多い。したがって、名詞として機能する単語は、名詞として機能しない単語に比べて、Sの値が大きくなる。このため、Sの値は、単語が名詞として機能するか否かを判断するための統計値となる。 Here, when a word functions as a noun, it is often modified by a modifier. Thus, words that functions as a noun, as compared to a word that does not function as a noun, the value of S i increases. Therefore, the value of S i is a statistical value for the word to determine whether it functions as a noun.

基礎情報生成部23は、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を、統計情報取得部22によって取得された統計情報に基づいて生成する。   The basic information generation unit 23 obtains statistical information as basic information for determining whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun or as both. Generated based on the statistical information acquired by the unit 22.

具体的には、図4に示すように、基礎情報生成部23は、単語Lの統計情報(P,Q,R,S)に基づいて単語Lの評価値Eを算出する(S108)。評価値Eは下記の算出式(1)によって算出される。 Specifically, as shown in FIG. 4, basic information generating section 23, the word L i statistics (P i, Q i, R i, S i) an evaluation value E i of the word L i based on the Calculate (S108). The evaluation value E i is calculated by the following calculation formula (1).

=(P*Q)/(1+R+S) ・・・(1) E i = (P i * Q i ) / (1 + R i + S i ) (1)

上述のように、助数詞として機能する単語については、助数詞として機能しない単語に比べて、Qの値が大きくなる。一方、名詞として機能する単語については、名詞として機能しない単語に比べて、R及びSの値が大きくなる。このため、第2グループ(助数詞として機能するもの)に属する単語は他のグループに属する単語よりも評価値Eが大きくなり、第3グループ(名詞として機能するもの)に属する単語は他のグループに属する単語よりも評価値Eが小さくなる。 As described above, a word that functions as a classifier has a larger Q i value than a word that does not function as a classifier. On the other hand, the value of R i and S i is greater for words that function as nouns than for words that do not function as nouns. For this reason, words belonging to the second group (functioning as a classifier) have a larger evaluation value E i than words belonging to other groups, and words belonging to the third group (functioning as nouns) The evaluation value E i is smaller than the words belonging to.

また、上述のように、「人」の統計値(P,Q,R,S)は(3,2,1,1)であるため、「人」の評価値Eとして「2」が取得される。 Further, as described above, since the statistical value (P 0 , Q 0 , R 0 , S 0 ) of “person” is ( 3 , 2, 1 , 1 ), the evaluation value E 0 of “person” is “ 2 "is acquired.

その後、基礎情報生成部23は単語Lの評価値Eを基準値Jと比較する(S109)。上述のように、第3グループに属する単語は他のグループに属する単語よりも評価値Eが小さくなるため、このステップでは、単語Lの評価値Eが基準値Jよりも小さいか否かを判断することによって、単語Lを第3グループに分類すべきか否かを判断する。すなわち、単語Lを名詞に分類すべきか否かを判断する。 Thereafter, basic information generating unit 23 compares the evaluation value E i of the word L i with a reference value J (S109). As described above, since the evaluation value E i of the words belonging to the third group is smaller than that of the words belonging to other groups, in this step, whether or not the evaluation value E i of the word L i is smaller than the reference value J. by determining, it is determined whether or not to classify the word L i to a third group. That is, it is determined whether or not the word L i should be classified as a noun.

なお、基準値Jは例えば次のようにして決定される。すなわち、まず、数を表す語と組み合わせて文中で用いられる場合に名詞として機能し、かつ、助数詞として機能しないことが分かっている代表的な単語を選出する。その後、選出した単語を処理対象として上記のS104〜S108の処理を実行することによって、該単語の評価値Eを算出する。そして、算出した評価値Eに基づいて基準値Jを設定する。例えば、算出した評価値Eの近傍の値を基準値Jとして設定する。なお、以下では基準値Jが「1」であることとして説明する。   The reference value J is determined as follows, for example. That is, first, representative words that are known to function as nouns and not to function as classifiers when used in sentences in combination with words representing numbers are selected. Then, the evaluation value E of the word is calculated by executing the processing of S104 to S108 with the selected word as a processing target. Then, a reference value J is set based on the calculated evaluation value E. For example, a value near the calculated evaluation value E is set as the reference value J. In the following description, it is assumed that the reference value J is “1”.

単語Lの評価値Eが基準値Jよりも小さい場合(S109:Y)、基礎情報生成部23は単語Lを第3グループに分類する(S110)。すなわち、単語Lは名詞に分類される。 If the evaluation value E i of the word L i is smaller than the reference value J (S109: Y), basic information generating unit 23 classifies the word L i in the third group (S110). That is, the word L i is classified as a noun.

一方、単語Lの評価値Eが基準値J以上である場合(S109:N)、基礎情報生成部23は単語Lの評価値Eを基準値Kと比較する(S111)。上述のように、第2グループに属する単語は他のグループに属する単語よりも評価値Eが大きくなるため、このステップでは、単語Lの評価値Eが基準値Kよりも大きいか否かを判断することによって、単語Lを第2グループに分類すべきか否かを判断する。すなわち、単語Lを助数詞に分類すべきか否かを判断する。 On the other hand, if the evaluation value E i of the word L i is greater than or equal to the reference value J (S109: N), basic information generating unit 23 compares the evaluation value E i of the word L i and the reference value K (S111). As described above, since a word belonging to the second group has a higher evaluation value E i than a word belonging to another group, in this step, whether or not the evaluation value E i of the word L i is larger than the reference value K. It is determined whether or not the word L i should be classified into the second group. That is, it is determined whether or not the word L i should be classified as a classifier.

なお、基準値Kは例えば次のようにして決定される。すなわち、まず、数を表す語と組み合わせて文中で用いられる場合に助数詞として機能し、かつ、名詞として機能しないことが分かっている代表的な単語を選出する。その後、選出した単語を処理対象として上記のS104〜S108の処理を実行することによって、該単語の評価値Eを算出する。そして、算出した評価値Eに基づいて基準値Kを設定する。例えば、算出した評価値Eの近傍の値を基準値Jとして設定する。なお、以下では基準値Kが「3」であることとして説明する。   The reference value K is determined as follows, for example. That is, first, representative words that function as a classifier when used in a sentence in combination with a word representing a number and are known not to function as a noun are selected. Then, the evaluation value E of the word is calculated by executing the processing of S104 to S108 with the selected word as a processing target. Then, a reference value K is set based on the calculated evaluation value E. For example, a value near the calculated evaluation value E is set as the reference value J. In the following description, it is assumed that the reference value K is “3”.

単語Lの評価値Eが基準値Kよりも大きい場合(S111:Y)、基礎情報生成部23は単語Lを第2グループに分類する(S112)。すなわち、単語Lは助数詞に分類される。 If the evaluation value E i of the word L i is larger than the reference value K (S111: Y), basic information generating unit 23 classifies the word L i in the second group (S112). That is, the word L i is classified as a classifier.

一方、単語Lの評価値Eが基準値K以下である場合(S111:N)、基礎情報生成部23は単語Lを第1グループに分類する(S113)。すなわち、この場合、単語Lは助数詞及び名詞の両方に分類される。 On the other hand, if the evaluation value E i of the word L i is equal to or less than the reference value K (S111: N), basic information generating unit 23 classifies the word L i in the first group (S113). That is, in this case, the word L i is classified as both a classifier and a noun.

なお、上述のように、「人」の評価値Eは「2」であり、基準値J(1)よりも大きく、かつ、基準値K(3)以下であるため、「人」は第1グループに分類される(S113参照)。すなわち、「人」は助数詞及び名詞の両方に分類される。 As described above, the evaluation value E 0 of “person” is “2”, which is larger than the reference value J (1) and not more than the reference value K (3). It is classified into one group (see S113). That is, “person” is classified as both a classifier and a noun.

単語Lの分類が判断された後、変数iの値に1が加算され(S114)、変数iの値が単語リストLの要素数M未満であるか否かが判定される(S115)。そして、変数iの値が単語リストLの要素数M未満である場合にはS104〜S115の処理が実行される。 After classification of the word L i is determined, 1 is added to the value of the variable i (S114), the value of the variable i is equal to or a number of elements less than M word list L is determined (S115). When the value of the variable i is less than the number M of elements in the word list L, the processes of S104 to S115 are executed.

例えば変数iの値が1である場合には、単語リストL内の単語「個」を対象として、S104〜S113の処理が実行される。上記文章群Gでは「個」が文b,fにおいて1回ずつ用いられているため、Pの値として「2」が取得される(S104)。また、文b,fにおいて「個」は数を表す語の後にあるため、Qの値として「2」が取得される(S105)。さらに、文b,fにおいて「個」は数を表す語の後にあるため、Rの値として「0」が取得される(S106)。また、文b,fにおいて「個」を修飾する修飾語は存在しないため、Sの値として「0」が取得される(S107)。その結果、「個」の評価値Eとして「4」が取得される(S108)。「個」の評価値Eは基準値J(1)よりも大きく、かつ、基準値K(3)よりも大きいため、「個」は第2グループに分類される(S112)。すなわち、「個」は助数詞に分類される。 For example, when the value of the variable i is 1, the processing of S104 to S113 is executed for the word “pieces” in the word list L. Since “individual” is used once in the sentences b and f in the sentence group G, “2” is acquired as the value of P 1 (S104). In the sentences b and f, since “number” is after the word representing the number, “2” is acquired as the value of Q 1 (S105). Further, in the sentences b and f, since “number” is after the word representing the number, “0” is acquired as the value of R 1 (S106). In addition, since there is no modifier that modifies “pieces” in the sentences b and f, “0” is acquired as the value of S 1 (S107). As a result, “4” is acquired as the evaluation value E 1 of “pieces” (S108). Since the “individual” evaluation value E 1 is larger than the reference value J (1) and larger than the reference value K (3), the “individual” is classified into the second group (S112). That is, “individual” is classified as a classifier.

また例えば変数iの値が2である場合には、単語リストL内の単語「自衛隊」を対象として、S104〜S113の処理が実行される。上記文章群Gでは「自衛隊」が文d,e,gにおいて1回ずつ用いられているため、Pの値として「3」が取得される(S104)。また、文eにおいて単語「自衛隊」が数を表す語の後にあるため、Qの値として「1」が取得される(S105)。さらに、文d,gにおいて「自衛隊」は、数を表す語の後になく、かつ、述語を修飾しているため、Rの値として「2」が取得される(S106)。また、文dにおいて「自衛隊」を修飾する修飾語が1つ存在するため、Sの値として「1」が取得される(S107)。その結果、「自衛隊」の評価値Eとして「0.75」が取得される(S108)。「自衛隊」の評価値Eは基準値J(1)以下であるため、「自衛隊」は第3グループに分類される(S110)。すなわち、「自衛隊」は名詞に分類される。 For example, when the value of the variable i is 2, the processing of S104 to S113 is executed for the word “Self Defense Force” in the word list L. In the sentence group G, “SDF” is used once in the sentences d, e, and g, so “3” is acquired as the value of P 2 (S104). In addition, since the word “SDF” follows the word representing the number in the sentence e, “1” is acquired as the value of Q 2 (S105). Furthermore, in the sentences d and g, “Self Defense Force” is not after the word representing the number and the predicate is modified, so “2” is acquired as the value of R 2 (S106). Further, since there is one modifier that modifies “SDF” in the sentence d, “1” is acquired as the value of S 2 (S 107). As a result, "0.75" is obtained as the evaluation value E 2 of the "SDF" (S108). Since "SDF" evaluation value E 2 of equal to or less than the reference value J (1), "SDF" are classified into a third group (S110). That is, “Self Defense Force” is classified as a noun.

なお、S115の処理において、変数iの値が単語リストLの要素数M以上であると判定される場合とは、単語リストLに含まれる各単語に関してS104〜S113の処理が完了し、単語リストLに含まれる各単語の分類が完了した場合である。   In the process of S115, when it is determined that the value of the variable i is equal to or greater than the number M of elements in the word list L, the process of S104 to S113 is completed for each word included in the word list L. This is a case where the classification of each word included in L is completed.

基礎情報生成部23は以上のようにして取得された各単語の分類結果を基礎情報記憶部35に記憶する。   The basic information generation unit 23 stores the classification result of each word acquired as described above in the basic information storage unit 35.

次に、解析対象文字列取得部31、解析部32、解析規則決定部33、解析結果出力部34、及び基礎情報記憶部35について説明する。これらの機能ブロックは、解析対象の文字列の構造などを解析するための機能ブロックである。   Next, the analysis target character string acquisition unit 31, the analysis unit 32, the analysis rule determination unit 33, the analysis result output unit 34, and the basic information storage unit 35 will be described. These functional blocks are functional blocks for analyzing the structure of the character string to be analyzed.

解析対象文字列取得部31は解析の対象となる解析対象文字列を取得する。解析対象文字列は自然言語で記述された文であって、利用者が操作部13を用いて入力してもよいし、予め記憶部12などに記憶されていてもよい。ここでは解析対象文字列は日本語の文であることとする。   The analysis target character string acquisition unit 31 acquires an analysis target character string to be analyzed. The analysis target character string is a sentence written in a natural language, and may be input by the user using the operation unit 13 or may be stored in advance in the storage unit 12 or the like. Here, it is assumed that the character string to be analyzed is a Japanese sentence.

以下では具体例として、
X:「3人の学生」
Y:「3個のりんご」
Z:「3自衛隊の訓練」
との3つの解析対象文字列X,Y,Zを解析する場合について説明する。
In the following, as a specific example
X: “Three students”
Y: “3 apples”
Z: “3 Self-Defense Forces training”
A case where three analysis target character strings X, Y, and Z are analyzed will be described.

解析部32は解析対象文字列を解析する。まず、解析部32は解析対象文字列の形態素解析を実行する。例えば解析対象文字列Xの場合、「3」、「人」、「の」、「学生」との形態素が得られ、各形態素「3」、「人」、「の」、「学生」の品詞が、それぞれ、数字、助数詞、連体化助詞、名詞と解析される。   The analysis unit 32 analyzes the analysis target character string. First, the analysis unit 32 performs morphological analysis of the character string to be analyzed. For example, in the case of the character string X to be analyzed, morphemes “3”, “people”, “no”, “student” are obtained, and the part of speech of each morpheme “3”, “people”, “no”, “student” is obtained. Are analyzed as numbers, classifiers, unionized particles, and nouns, respectively.

次に、解析規則決定部33は、解析対象文字列において数を表す形態素の直後にある形態素が、助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかを判定する。上述のように、基礎情報記憶部35には、数を表す語の後に付いて用いられ得る単語が第1〜3グループのいずれに属するかを示す情報が記憶されている。このため、解析規則決定部33は基礎情報記憶部35の記憶内容を参照する。   Next, the analysis rule determination unit 33 determines whether the morpheme immediately after the morpheme representing the number in the analysis target character string functions as one or both of the classifier and the noun. As described above, the basic information storage unit 35 stores information indicating which of the first to third groups a word that can be used after a word representing a number belongs. For this reason, the analysis rule determination unit 33 refers to the stored contents of the basic information storage unit 35.

例えば解析対象文字列Xの場合、「3」の直後にある「人」が第1〜3グループのいずれに属するかが判定される。上述のように、「人」は第1グループに属するため、「人」は第1グループに属すると判定される。すなわち、「人」は助数詞及び名詞の両方として機能すると判定される。   For example, in the case of the analysis target character string X, it is determined to which of the first to third groups “person” immediately after “3” belongs. As described above, since “person” belongs to the first group, it is determined that “person” belongs to the first group. That is, it is determined that “person” functions as both a classifier and a noun.

また例えば解析対象文字列Yの場合、「3」の直後にある「個」が第1〜3グループのいずれに属するかが判定される。上述のように、「個」は第2グループに属するため、「個」は第2グループに属すると判定される。すなわち、「個」は助数詞として機能し、名詞として機能しないと判定される。   Further, for example, in the case of the analysis target character string Y, it is determined which “group” immediately after “3” belongs to the first to third groups. As described above, since “pieces” belong to the second group, it is determined that “pieces” belong to the second group. That is, it is determined that “individual” functions as a classifier and does not function as a noun.

また例えば解析対象文字列Zの場合、「3」の直後にある「自衛隊」が第1〜3グループのいずれに属するかが判定される。上述のように、「自衛隊」は第3グループに属するため、「自衛隊」は第3グループに属すると判定される。すなわち、「自衛隊」は名詞として機能し、助数詞として機能しないと判定される。   Further, for example, in the case of the analysis target character string Z, it is determined to which of the first to third groups the “Self Defense Force” immediately after “3” belongs. As described above, since the “SDF” belongs to the third group, it is determined that the “SDF” belongs to the third group. That is, it is determined that “SDF” functions as a noun and does not function as a classifier.

そして、解析規則決定部33は、数を表す形態素の直後にある形態素が第1〜3グループのいずれに属するかの判断結果に基づいて、構文解析に用いる解析規則として一又は複数の解析規則を決定する。   Then, the analysis rule determination unit 33 selects one or a plurality of analysis rules as the analysis rules used for the syntax analysis based on the determination result as to which of the first to third groups the morpheme immediately after the morpheme representing the number belongs. decide.

例えば、解析対象文字列Xの場合、「人」は第1グループ(助数詞及び名詞の両方として機能するもの)に分類されているため、「人」が助数詞であると前提した解析規則と、「人」が名詞であると前提した解析規則との二つの解析規則が選択される。   For example, in the case of the analysis target character string X, since “person” is classified into the first group (functioning as both a classifier and a noun), an analysis rule that assumes that “person” is a classifier, and “ Two analysis rules are selected, the analysis rule assuming that "person" is a noun.

図5は「人」が助数詞であると前提した解析規則の一例を示す。図5(a)は文法規則を示している。なお、解析対象文字列X〜Zはいずれも名詞句であるため、図5(a)では名詞句(Nadj)の文法規則が示されており、名詞句に含まれる形態素が満たすべき語順のルールが示されている。ここで記号「|」は「OR」を意味し、波括弧で囲まれて記号「|」で区切られた各要素の一つが択一的に選ばれることを意味している。また、「PP」、「N」、「NUMBER」、及び「CL」は形態素が属する語彙種別を示している。図5(b)は形態素と語彙種別との対応関係を規定した辞書を示しており、形態素がどの語彙種別に属するかを示している。なお、図5に示す解析規則は「人」が助数詞であると前提した解析規則であるため、図5(b)では「人」が、助数詞に対応する語彙種別「CL」に属することになっている。   FIG. 5 shows an example of an analysis rule on the assumption that “person” is a classifier. FIG. 5A shows grammar rules. Since all of the analysis target character strings X to Z are noun phrases, the grammatical rules for the noun phrase (Nadj) are shown in FIG. 5A, and the rules for the word order to be satisfied by the morphemes included in the noun phrase It is shown. Here, the symbol “|” means “OR”, which means that one of the elements surrounded by curly brackets and separated by the symbol “|” is selected alternatively. “PP”, “N”, “NUMBER”, and “CL” indicate the vocabulary type to which the morpheme belongs. FIG. 5B shows a dictionary that defines the correspondence between morphemes and vocabulary types, and shows to which vocabulary types the morphemes belong. The analysis rule shown in FIG. 5 is an analysis rule on the assumption that “person” is a classifier. Therefore, in FIG. 5B, “person” belongs to the vocabulary type “CL” corresponding to the classifier. ing.

図6は「人」が名詞であると前提した解析規則の一例を示す。図6(a)は名詞句(Nadj)の文法規則を示しており、名詞句に含まれる形態素が満たすべき語順のルールを示している。図6(b)は形態素と語彙種別との対応関係を規定した辞書を示しており、形態素がどの語彙種別に属するかを示している。なお、図6に示す解析規則は「人」が名詞であると前提した解析規則であるため、図6(b)は「人」が、名詞に対応する語彙種別「N」に属することになっている。この点で図6(b)は図5(b)と異なっている。   FIG. 6 shows an example of an analysis rule on the assumption that “person” is a noun. FIG. 6A shows the grammatical rules of the noun phrase (Nadj), and shows the word order rules that the morphemes included in the noun phrase should satisfy. FIG. 6B shows a dictionary that defines the correspondence between morphemes and vocabulary types, and shows to which vocabulary types the morphemes belong. The analysis rule shown in FIG. 6 is an analysis rule that assumes that “person” is a noun, and therefore, in FIG. 6B, “person” belongs to the vocabulary type “N” corresponding to the noun. ing. In this respect, FIG. 6B is different from FIG.

また例えば、解析対象文字列Yの場合、「個」は第2グループ(助数詞として機能するもの)に分類されているため、「個」が助数詞であると前提した一つの解析規則が選択される。この解析規則では、「個」が、助数詞に対応する語彙種別「CL」に属すると規定される。   Further, for example, in the case of the analysis target character string Y, since “persons” are classified into the second group (functions as classifiers), one analysis rule that assumes that “persons” are classifiers is selected. . In this analysis rule, “individual” is defined as belonging to the vocabulary type “CL” corresponding to the classifier.

また例えば、解析対象文字列Zの場合、「自衛隊」は第3グループ(名詞として機能するもの)に分類されているため、「自衛隊」が名詞であると前提した一つの解析規則が選択される。この解析規則では、「自衛隊」が、名詞に対応する語彙種別「N」に属すると規定される。   Also, for example, in the case of the analysis target character string Z, since “Self Defense Force” is classified into the third group (functioning as a noun), one analysis rule that assumes that “Self Defense Force” is a noun is selected. . In this analysis rule, it is defined that “SDF” belongs to the vocabulary type “N” corresponding to the noun.

解析部32は、解析規則決定部33によって決定された解析規則に則って構文解析を実行する。例えば、解析規則決定部33によって一の解析規則が選択された場合にはその解析規則に則って構文解析が実行され、一の解析結果が得られる。一方、解析規則決定部33によって複数の解析規則が選択された場合には、各解析規則に則って構文解析が実行され、複数の解析結果が得られる。   The analysis unit 32 executes syntax analysis in accordance with the analysis rule determined by the analysis rule determination unit 33. For example, when one analysis rule is selected by the analysis rule determination unit 33, syntax analysis is executed in accordance with the analysis rule, and one analysis result is obtained. On the other hand, when a plurality of analysis rules are selected by the analysis rule determination unit 33, syntax analysis is executed in accordance with each analysis rule, and a plurality of analysis results are obtained.

例えば、解析対象文字列Xの場合、「人」が語彙種別「CL」に属するとした解析規則(図5参照)に則って構文解析が実行される。図7はこの解析結果を示す。また別に、「人」が語彙種別「N」に属するとした解析規則(図6参照)に則って構文解析が実行される。図8はこの解析結果を示す。ところで、図8に示すような解析結果が得られた場合、「3人の学生」との文字列は、例えば「3人の先生が受け持つ共通の学生」のような意味と解釈されることになる。以上のように解析対象文字列Xの場合には二つの解析結果が得られる。   For example, in the case of the analysis target character string X, the syntax analysis is executed in accordance with an analysis rule (see FIG. 5) that “person” belongs to the vocabulary type “CL”. FIG. 7 shows the results of this analysis. Separately, syntax analysis is executed in accordance with an analysis rule (see FIG. 6) that “person” belongs to the vocabulary type “N”. FIG. 8 shows the result of this analysis. By the way, when an analysis result as shown in FIG. 8 is obtained, the character string “three students” is interpreted as meaning, for example, “a common student of three teachers”. Become. As described above, in the case of the analysis target character string X, two analysis results are obtained.

また例えば、解析対象文字列Yの場合、「個」が、助数詞に対応する語彙種別「CL」に属するとした解析規則に則って構文解析のみが実行される。図9はこの解析結果を示す。このように、解析対象文字列Yの場合には一つの解析結果のみが得られる。   Further, for example, in the case of the analysis target character string Y, only the syntax analysis is executed in accordance with the analysis rule that “piece” belongs to the vocabulary type “CL” corresponding to the classifier. FIG. 9 shows the results of this analysis. Thus, in the case of the analysis target character string Y, only one analysis result is obtained.

また例えば、解析対象文字列Zの場合、「自衛隊」が、名詞に対応する語彙種別「N」に属するとした解析規則に則って構文解析のみが実行される。図10はこの解析結果を示す。このように、解析対象文字列Zの場合には一つの解析結果のみが得られる。   Further, for example, in the case of the analysis target character string Z, only the syntax analysis is executed in accordance with the analysis rule that “Self Defense Force” belongs to the vocabulary type “N” corresponding to the noun. FIG. 10 shows the result of this analysis. Thus, in the case of the analysis target character string Z, only one analysis result is obtained.

解析結果出力部34は解析部32の解析結果を出力する。例えば、解析結果出力部34は解析部32の解析結果を表示部14に表示する。複数の解析結果が得られた場合、解析結果出力部34はそれら複数の解析結果を出力する。   The analysis result output unit 34 outputs the analysis result of the analysis unit 32. For example, the analysis result output unit 34 displays the analysis result of the analysis unit 32 on the display unit 14. When a plurality of analysis results are obtained, the analysis result output unit 34 outputs the plurality of analysis results.

なお、以上のように、解析対象文字列において数を表す形態素の直後にある形態素が第1グループ(助数詞及び名詞の両方として機能し得るもの)に分類されている場合、複数の解析結果が得られる。このような場合、機械学習などの公知の曖昧性解消処理を実行して、より妥当と判断される解析結果が得られるよう、解析結果を絞り込むこととしてもよい。このような曖昧性解消処理は、例えば吉村 宏樹、他3名著「Support Vector Machineに基づくf-structureの選択」(自然言語処理研究会報告、情報処理学会、2003年11月、Vol.2003、No.108、p.75-80)に記載された方法により実現される。   As described above, when the morpheme immediately after the morpheme representing the number in the analysis target character string is classified into the first group (which can function as both a classifier and a noun), a plurality of analysis results are obtained. It is done. In such a case, the analysis result may be narrowed down by executing a known ambiguity resolution process such as machine learning so as to obtain an analysis result judged to be more appropriate. For example, Hiroki Yoshimura and three other authors, “Selection of f-structure based on Support Vector Machine” (Natural Language Processing Study Group Report, Information Processing Society of Japan, November 2003, Vol. 2003, No. .108, p.75-80).

以上説明した本実施形態によれば、数を表す語と組み合わせて文中で用いられる単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報が文章群データに基づいて取得される。   According to the present embodiment described above, basic information serving as a basis for determining whether a word used in a sentence in combination with a word representing a number functions as either a classifier or a noun, or as both, is a sentence. Acquired based on group data.

なお、本発明は以上に説明した実施の形態に限定されるものではない。   The present invention is not limited to the embodiment described above.

例えば以上に説明した処理はいずれも一例であって、以上に説明した方法とは異なる方法によって実現されることとしてもよい。   For example, all the processes described above are examples, and may be realized by a method different from the method described above.

また例えば、統計情報取得部22は以上に説明した統計情報(S,P,Q,R)以外の統計情報を取得するようにしてもよい。また例えば、評価値Eの算出式は上記の算出式(1)に限られず、他の算出式によって算出されるようにしてもよいし、他の統計情報を用いて算出されるようにしてもよい。 Further, for example, the statistical information acquisition unit 22 may acquire statistical information other than the statistical information (S i , P i , Q i , R i ) described above. For example, the calculation formula of the evaluation value E i is not limited to the above calculation formula (1), but may be calculated by other calculation formulas, or may be calculated using other statistical information. Also good.

また例えば、基礎情報生成部23は単語Lの評価値Eを上記基礎情報として基礎情報記憶部35に記憶させるようにしてもよい。この場合、解析規則決定部33は、形態素が第1〜3グループのいずれに属するかを判定する場合、基礎情報記憶部35に記憶されるその形態素(単語)の評価値Eを用いる。すなわち、解析規則決定部33はS109〜S113の処理と同じ処理を実行することによって、形態素が第1〜3グループのいずれに属するかを判定する。なお、この場合、基準値J,Kも基礎情報の一部として基礎情報記憶部35に記憶されるようにしてもよい。 Further, for example, basic information generating unit 23 the evaluation value E i of the word L i may also be stored in the basic information storage unit 35 as the basic information. In this case, the analysis rule determination unit 33 uses the evaluation value E of the morpheme (word) stored in the basic information storage unit 35 when determining which of the first to third groups the morpheme belongs to. That is, the analysis rule determination unit 33 determines which of the first to third groups the morpheme belongs by executing the same processing as the processing of S109 to S113. In this case, the reference values J and K may also be stored in the basic information storage unit 35 as part of the basic information.

また例えば、基礎情報生成部23は単語Lの統計情報(S,P,Q,R)を上記基礎情報として基礎情報記憶部35に記憶させるようにしてもよい。この場合、解析規則決定部33は、形態素が第1〜3グループのいずれに属するかを判定する場合、基礎情報記憶部35に記憶されるその形態素(単語)の統計情報(S,P,Q,R)を用いる。すなわち、解析規則決定部33はS108〜S113の処理と同じ処理を実行することによって、形態素が第1〜3グループのいずれに属するかを判定する。なお、この場合、基準値J,Kも基礎情報の一部として基礎情報記憶部35に記憶されるようにしてもよい。 Further, for example, basic information generating section 23 statistics word L i (S i, P i , Q i, R i) a may also be stored in the basic information storage unit 35 as the basic information. In this case, when the analysis rule determination unit 33 determines which of the first to third groups the morpheme belongs to, statistical information (S i , P i ) on the morpheme (word) stored in the basic information storage unit 35. , Q i , R i ). That is, the analysis rule determination unit 33 determines which of the first to third groups the morpheme belongs by executing the same processing as the processing of S108 to S113. In this case, the reference values J and K may also be stored in the basic information storage unit 35 as part of the basic information.

また例えば、言語処理システム1は複数の言語処理装置10を含んで構成されるようにしてもよい。図11は、複数の言語処理装置10を含んで構成される言語処理システム1の一例を示す。図11に示す言語処理システム1は第1言語処理装置10aと第2言語処理装置10bとを含んでいる。第1言語処理装置10aと第2言語処理装置10bとは通信手段を介して相互にデータを授受することが可能になっている。この場合、図12に示すように、単語取得部21、統計情報取得部22、及び基礎情報生成部23が第1言語処理装置10aで実現され、解析対象文字列取得部31、解析部32、解析規則決定部33、解析結果出力部34、及び基礎情報記憶部35が第2言語処理装置10bで実現されるようにしてもよい。この場合、基礎情報生成部23は上記基礎情報を第1言語処理装置10aの記憶部12に記憶する。また、基礎情報生成部23は、例えば第2言語処理装置10bからの要求に応じて、上記基礎情報を通信手段を介して第2言語処理装置10bに供給する。   Further, for example, the language processing system 1 may be configured to include a plurality of language processing devices 10. FIG. 11 shows an example of a language processing system 1 configured to include a plurality of language processing devices 10. The language processing system 1 shown in FIG. 11 includes a first language processing device 10a and a second language processing device 10b. The first language processing device 10a and the second language processing device 10b can exchange data with each other via communication means. In this case, as shown in FIG. 12, the word acquisition unit 21, the statistical information acquisition unit 22, and the basic information generation unit 23 are realized by the first language processing device 10 a, and the analysis target character string acquisition unit 31, the analysis unit 32, The analysis rule determination unit 33, the analysis result output unit 34, and the basic information storage unit 35 may be realized by the second language processing device 10b. In this case, the basic information generation unit 23 stores the basic information in the storage unit 12 of the first language processing device 10a. Moreover, the basic information generation part 23 supplies the said basic information to the 2nd language processing apparatus 10b via a communication means, for example according to the request | requirement from the 2nd language processing apparatus 10b.

本発明の実施形態に係る言語処理システムの構成例を示す図である。It is a figure which shows the structural example of the language processing system which concerns on embodiment of this invention. 本発明の実施形態に係る言語処理システムが実現する機能の一例を示す機能ブロック図である。It is a functional block diagram which shows an example of the function which the language processing system which concerns on embodiment of this invention implement | achieves. 言語処理ステムで実行される処理を示すフロー図である。It is a flowchart which shows the process performed with a language processing system. 言語処理ステムで実行される処理を示すフロー図である。It is a flowchart which shows the process performed with a language processing system. 解析規則の一例を示す図である。It is a figure which shows an example of an analysis rule. 解析規則の他の一例を示す図である。It is a figure which shows another example of an analysis rule. 解析結果の一例を示す図である。It is a figure which shows an example of an analysis result. 解析結果の他の一例を示す図である。It is a figure which shows another example of an analysis result. 解析結果の他の一例を示す図である。It is a figure which shows another example of an analysis result. 解析結果の他の一例を示す図である。It is a figure which shows another example of an analysis result. 本発明の他の実施形態に係る言語処理システムの構成例を示す図である。It is a figure which shows the structural example of the language processing system which concerns on other embodiment of this invention. 本発明の他の実施形態に係る言語処理システムが実現する機能の一例を示す機能ブロック図である。It is a functional block diagram which shows an example of the function which the language processing system which concerns on other embodiment of this invention implement | achieves.

符号の説明Explanation of symbols

1 言語処理システム、10 言語処理装置、10a 第1言語処理装置、10b 第2言語処理装置、11 制御部、12 記憶部、13 操作部、14 表示部、21 単語取得部、22 統計情報取得部、23 基礎情報生成部、31 解析対象文字列取得部、32 解析部、33 解析規則決定部、34 解析結果出力部、35 基礎情報記憶部。   DESCRIPTION OF SYMBOLS 1 language processing system, 10 language processing apparatus, 10a 1st language processing apparatus, 10b 2nd language processing apparatus, 11 control part, 12 memory | storage part, 13 operation part, 14 display part, 21 word acquisition part, 22 statistical information acquisition part , 23 Basic information generation part, 31 Analysis object character string acquisition part, 32 Analysis part, 33 Analysis rule determination part, 34 Analysis result output part, 35 Basic information storage part.

Claims (7)

数を表す語と組み合わせて文中で用いられる単語を取得する単語取得手段と、
文章群データに基づいて、前記単語の用いられ方に関する統計情報を取得する統計情報取得手段と、
前記単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を、前記統計情報に基づいて生成する基礎情報生成手段と、
を含むことを特徴とする言語処理装置。
Word acquisition means for acquiring a word used in a sentence in combination with a word representing a number;
Statistical information acquisition means for acquiring statistical information on how the word is used based on sentence group data;
Basic information generating means for generating basic information based on the statistical information as a basis for determining whether the word functions as one or both of a classifier and a noun;
A language processing apparatus comprising:
前記統計情報取得手段は、
前記文章群データにおいて、前記単語が、助数詞に対応する予め定められた第1態様で用いられている回数を取得する手段と、
前記文章群データにおいて、前記単語が、名詞に対応する予め定められた第2態様で用いられている回数を取得する手段と、を含む、
ことを特徴とする請求項1に記載の言語処理装置。
The statistical information acquisition means includes
Means for acquiring the number of times the word is used in a predetermined first mode corresponding to a classifier in the sentence group data;
Means for acquiring the number of times the word is used in a predetermined second mode corresponding to a noun in the sentence group data;
The language processing apparatus according to claim 1.
前記統計情報取得手段は、前記文章群データにおいて前記単語を修飾する修飾語の数を取得する手段を含むことを特徴とする請求項1又は2に記載の言語処理装置。   The language processing apparatus according to claim 1, wherein the statistical information acquisition unit includes a unit that acquires the number of modifiers that modify the word in the sentence group data. 解析対象文字列を取得する解析対象文字列取得手段と、
前記解析対象文字列に前記単語が含まれる場合、該単語の前記基礎情報に基づいて、該単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかを判定し、該判定結果に基づいて、前記解析対象文字列を解析する解析手段と、
を含むことを特徴とする請求項1乃至3のいずれかに記載の言語処理装置。
An analysis target character string acquisition means for acquiring the analysis target character string;
When the word is included in the analysis target character string, based on the basic information of the word, it is determined whether the word functions as either a classifier or a noun or both, and the determination result Based on the analysis means for analyzing the analysis target character string,
4. The language processing apparatus according to claim 1, comprising:
前記解析手段は、前記判定結果に基づいて、前記解析対象文字列の解析規則を決定する解析規則決定手段を含み、前記解析規則決定手段によって決定された解析規則を用いて前記解析対象文字列を解析することを特徴とする請求項4に記載の言語処理装置。   The analysis means includes analysis rule determination means for determining an analysis rule for the analysis target character string based on the determination result, and the analysis target character string is determined using the analysis rule determined by the analysis rule determination means. The language processing device according to claim 4, wherein the language processing device is analyzed. 数を表す語と組み合わせて文中で用いられる単語を取得する単語取得手段と、
文章群データに基づいて、前記単語の用いられ方に関する統計情報を取得する統計情報取得手段と、
前記単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を、前記統計情報に基づいて生成する基礎情報生成手段と、
を含むことを特徴とする言語処理システム。
Word acquisition means for acquiring a word used in a sentence in combination with a word representing a number;
Statistical information acquisition means for acquiring statistical information on how the word is used based on sentence group data;
Basic information generating means for generating basic information based on the statistical information as a basis for determining whether the word functions as one or both of a classifier and a noun;
A language processing system comprising:
数を表す語と組み合わせて文中で用いられる単語を取得する単語取得手段、
文章群データに基づいて、前記単語の用いられ方に関する統計情報を取得する統計情報取得手段、及び、
前記単語が助数詞及び名詞のいずれか一方として機能するか又は両方として機能するかの判定の基礎となる基礎情報を、前記統計情報に基づいて生成する基礎情報生成手段、
としてコンピュータを機能させるためのプログラム。
Word acquisition means for acquiring a word used in a sentence in combination with a word representing a number;
Statistical information acquisition means for acquiring statistical information on how the word is used based on sentence group data; and
Basic information generating means for generating basic information based on the statistical information, which is a basis for determining whether the word functions as one of a classifier and a noun or both.
As a program to make the computer function.
JP2008310498A 2008-12-05 2008-12-05 Language processing apparatus, language processing system, and program Expired - Fee Related JP5343539B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008310498A JP5343539B2 (en) 2008-12-05 2008-12-05 Language processing apparatus, language processing system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008310498A JP5343539B2 (en) 2008-12-05 2008-12-05 Language processing apparatus, language processing system, and program

Publications (2)

Publication Number Publication Date
JP2010134730A true JP2010134730A (en) 2010-06-17
JP5343539B2 JP5343539B2 (en) 2013-11-13

Family

ID=42345965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008310498A Expired - Fee Related JP5343539B2 (en) 2008-12-05 2008-12-05 Language processing apparatus, language processing system, and program

Country Status (1)

Country Link
JP (1) JP5343539B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9714338B2 (en) 2012-07-12 2017-07-25 Bridgestone Corporation Method for manufacturing polymer composition and the polymer composition

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02118879A (en) * 1988-10-28 1990-05-07 Ricoh Co Ltd Language analyzing device
JPH0492966A (en) * 1990-08-06 1992-03-25 Nec Corp Numerical quantity expression processing system
JPH096778A (en) * 1995-06-15 1997-01-10 Canon Inc Method and device for analyzing natural language
JP2000090088A (en) * 1998-09-14 2000-03-31 Matsushita Electric Ind Co Ltd Device and method for machine translation and recording medium recording machine translation program
JP2004280509A (en) * 2003-03-17 2004-10-07 Fuji Xerox Co Ltd Natural language processing system, natural language processing method, and computer program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02118879A (en) * 1988-10-28 1990-05-07 Ricoh Co Ltd Language analyzing device
JPH0492966A (en) * 1990-08-06 1992-03-25 Nec Corp Numerical quantity expression processing system
JPH096778A (en) * 1995-06-15 1997-01-10 Canon Inc Method and device for analyzing natural language
JP2000090088A (en) * 1998-09-14 2000-03-31 Matsushita Electric Ind Co Ltd Device and method for machine translation and recording medium recording machine translation program
JP2004280509A (en) * 2003-03-17 2004-10-07 Fuji Xerox Co Ltd Natural language processing system, natural language processing method, and computer program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200700927020; 白井 清昭,徳永 健伸: '呼応する名詞の包含関係に着目した助数詞オントロジーの自動構築と評価' 情報処理学会研究報告 Vol.2007 No.94 第2007巻 第94号, 20070925, p.127-p.134, 社団法人情報処理学会 *
JPN6012069071; 白井 清昭,徳永 健伸: '呼応する名詞の包含関係に着目した助数詞オントロジーの自動構築と評価' 情報処理学会研究報告 Vol.2007 No.94 第2007巻 第94号, 20070925, p.127-p.134, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JP5343539B2 (en) 2013-11-13

Similar Documents

Publication Publication Date Title
JP5825676B2 (en) Non-factoid question answering system and computer program
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
JP4803709B2 (en) Word usage difference information acquisition program and apparatus
US9548052B2 (en) Ebook interaction using speech recognition
JP2007114507A (en) Prosodic control rule generating method, speech synthesizing method, prosodic control rule generating device, speech synthesizer, prosodic control rule generating program, and speech synthesizing program
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
Oraby et al. Finding opinion strength using rule-based parsing for arabic sentiment analysis
JP2006004399A (en) Information extraction program, its recording medium, information extraction device and information extraction rule creation method
US10867525B1 (en) Systems and methods for generating recitation items
Malandrakis et al. Sail: Sentiment analysis using semantic similarity and contrast features
Xiang et al. A hybrid model for grammatical error correction
JP5343539B2 (en) Language processing apparatus, language processing system, and program
JP5722375B2 (en) End-of-sentence expression conversion apparatus, method, and program
Lee et al. Detection of non-native sentences using machine-translated training data
Ramesh et al. ‘Beach’to ‘Bitch’: Inadvertent Unsafe Transcription of Kids’ Content on YouTube
del-Hoyo et al. Hybrid text affect sensing system for emotional language analysis
KR950013128B1 (en) Apparatus and method of machine translation
JP2008204133A (en) Answer search apparatus and computer program
JP5718406B2 (en) Utterance sentence generation device, dialogue apparatus, utterance sentence generation method, dialogue method, utterance sentence generation program, and dialogue program
Abdeen et al. Direct automatic generation of mind maps from text with M 2 Gen
JP2004334699A (en) Text evaluation device, text evaluation method, program, and storage medium
JP5289261B2 (en) Text conversion device, method and program
JP7198492B2 (en) Personality output device, personality output method, personality output program, word evaluation value generation device, word evaluation value generation method, and word evaluation value generation program
JP7131518B2 (en) Electronic device, pronunciation learning method, server device, pronunciation learning processing system and program
JP2009198686A (en) Response generator and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130729

R150 Certificate of patent or registration of utility model

Ref document number: 5343539

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees