JP2897942B2 - Japanese morphological analysis system and morphological analysis method - Google Patents

Japanese morphological analysis system and morphological analysis method

Info

Publication number
JP2897942B2
JP2897942B2 JP4214523A JP21452392A JP2897942B2 JP 2897942 B2 JP2897942 B2 JP 2897942B2 JP 4214523 A JP4214523 A JP 4214523A JP 21452392 A JP21452392 A JP 21452392A JP 2897942 B2 JP2897942 B2 JP 2897942B2
Authority
JP
Japan
Prior art keywords
morpheme
speech
information
candidate
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4214523A
Other languages
Japanese (ja)
Other versions
JPH0635957A (en
Inventor
秀憲 青沢
朗 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHII ESU KEI KK
Original Assignee
SHII ESU KEI KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHII ESU KEI KK filed Critical SHII ESU KEI KK
Priority to JP4214523A priority Critical patent/JP2897942B2/en
Publication of JPH0635957A publication Critical patent/JPH0635957A/en
Application granted granted Critical
Publication of JP2897942B2 publication Critical patent/JP2897942B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、機械翻訳システムやパ
−ザなどの処理の一環としてなされる形態素解析処理を
行なう形態素解析システム及びその形態素解析方式に関
し、特に日本語文の形態素解析処理において、隣合せと
なる2つの形態素の間の連接可否の判定時及び判定手段
に特徴を有する日本語形態素解析システム及び形態素解
析方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a morphological analysis system and a morphological analysis method for performing a morphological analysis process performed as part of a process such as a machine translation system or a parser. The present invention relates to a Japanese morphological analysis system and a morphological analysis method that are characterized by the time of determining whether or not connection between two adjacent morphemes is possible and a determination unit.

【0002】[0002]

【従来の技術】機械翻訳システムやパ−ザなどでは、ま
ず入力文を形態素(単語)に分割し各形態素に構文情報
や意味情報を付加する形態素解析処理を行なうことが必
要不可欠である。通常、日本語を他の言語に翻訳する機
械翻訳システムや、日本語文に対するパ−ザなどに用い
られる形態素解析システムは、入力した日本語文を、辞
書情報を参照しながら最適な分割パターンを決定して形
態素に分割し、各形態素に構文情報や意味情報を付加
し、構文解析システムなどに解析した形態素情報を渡
す。
2. Description of the Related Art In a machine translation system or a parser, it is indispensable to first divide an input sentence into morphemes (words) and perform a morphological analysis process of adding syntax information and semantic information to each morpheme. Normally, a machine translation system that translates Japanese into another language or a morphological analysis system that is used for parsing Japanese sentences, etc., determines an optimal division pattern of an input Japanese sentence while referring to dictionary information. Then, the morpheme is divided into morphemes, syntax information and semantic information are added to each morpheme, and the analyzed morpheme information is passed to a syntax analysis system or the like.

【0003】従来、このような形態素解析システムは、
日本語の形態素についての構文情報や意味情報を格納し
た辞書と、該上記辞書を検索する辞書検索部と、入力し
た日本語文から文字列を切り出す見出し切り出し部と、
上記辞書を検索して得られた辞書情報に基づいて上記切
り出された文字列に対応する形態素間の隣接可能性を判
定し最適な分割パターンを決定する連接判定部とを備え
ていた。そして上記辞書検索部は、辞書検索方式とし
て、検索する文字列の先頭文字で該当形態素を検索する
方式を採るのが一般的であった。また上記辞書は、形態
素の登録方式として、形態素の語幹と活用語尾とを分離
して登録する方式を採ることが多かった。また上記連接
判定部は、上記辞書の登録方式に伴って、特別なル−ル
やテ−ブルを用意して判定を行なっていた。
Conventionally, such a morphological analysis system has
A dictionary that stores syntax information and semantic information about Japanese morphemes, a dictionary search unit that searches the dictionary, a heading cutout unit that cuts out a character string from an input Japanese sentence,
A concatenation determining unit that determines the possibility of adjacency between morphemes corresponding to the cut-out character string based on dictionary information obtained by searching the dictionary and determines an optimal division pattern. The dictionary search unit generally employs, as a dictionary search method, a method of searching for a morpheme using the first character of a character string to be searched. In addition, the dictionary often adopts a method of registering a morpheme registration method by separating a stem of a morpheme and an inflected ending. In addition, the connection determining unit prepares a special rule or table according to the dictionary registration method to make the determination.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上述し
た従来の形態素解析システムは、必ずしも安定的かつ効
率の良いものではなく、ユーザにとって使いやすいもの
であるとは言えなかった。これは、主として以下に示す
ような、辞書検索部の辞書検索方式、連接判定部の連接
判定情報及び判定方式における問題に起因する。
However, the conventional morphological analysis system described above is not always stable and efficient, and cannot be said to be easy to use for the user. This is mainly due to problems in the dictionary search method of the dictionary search unit, the connection determination information of the connection determination unit, and the determination method as described below.

【0005】1)辞書検索方式における問題 上記従来の辞書検索部による形態素の先頭文字で検索す
る方式の場合、次のような欠点があった。第1に、辞書
登録語数の多い実用的な辞書では、先頭文字が同じ語は
必然的に多くなる。従って、一度の先頭文字の指定の検
索によって、出力される語(形態素)の検索情報が膨大
な数になることがあり、この場合、検索に長時間を要す
ることがあった。例えば、入力文が「ABCDEFG」
として正解の形態素が「ABCD」であるとする。この
とき、この方式では「A」で始まる語でありさえすれば
「AFG」や「AF」などであっても検索していた。こ
のため、検索する無駄ばかりでなく、マッチングの無駄
にもなっていた。また、検索情報が多くなればなるほ
ど、システムで使用する主記憶領域が不足したり、解析
速度が遅くなったりするおそれもあった。
[0005] 1) Problems in the dictionary search system [0005] The above-described conventional system for searching with the first character of a morpheme by the dictionary search unit has the following disadvantages. First, in a practical dictionary having a large number of dictionary registration words, the number of words having the same first character is inevitably increased. Therefore, a single search for the designation of the first character may result in an enormous number of words (morphemes) to be output. In this case, the search may take a long time. For example, the input sentence is "ABCDEFG"
And the correct morpheme is “ABCD”. At this time, in this method, as long as the word starts with "A", even if the word is "AFG" or "AF", the search is performed. For this reason, not only wasted searching, but also matching was wasted. Further, as the search information increases, there is a possibility that the main storage area used in the system becomes insufficient or the analysis speed becomes slow.

【0006】第2に、一般的な文字列の切り出し手法で
ある最長一致法を採用する形態素解析システムでは、切
り出された文字列より短い形態素も検索されてしまう
為、検索の無駄が多かった。上記の例で言えば、
「A」、「AB」、「ABC」が登録されていれば、そ
れらを検索していた。
Second, in a morphological analysis system that employs the longest matching method, which is a general character string extraction method, morphemes shorter than the extracted character string are also searched, so that there is a lot of search waste. In the example above,
If "A", "AB", and "ABC" are registered, they are searched.

【0007】第3に、最長一致法を採用する形態素解析
システムでは、正しい文字列の切り出しがされるまでに
必要以上に長い形態素も検索されてしまう為、検索の無
駄が多かった。上記の例で言えば、「ABCDFGD」
のように「ABCD」より長い見出しを検索していた。
特にこの場合は、入力文が「ABCD、FG」であって
「D」の次に区切り文字や文末(句点等)があるような
場合も、同様に「ABCDFGD」のような必要以上に
長い形態素を検索してしまうという問題点があった。
Third, in a morphological analysis system employing the longest match method, a morpheme longer than necessary is searched for before a correct character string is cut out. In the above example, "ABCDFGD"
Search for a heading longer than "ABCD".
In particular, in this case, if the input sentence is "ABCD, FG" and there is a delimiter or the end of a sentence (punctuation, etc.) next to "D", similarly, an unnecessarily long morpheme such as "ABCDFGD" is used. There was a problem that would be searched.

【0008】第4に、この方式では、文字列に対応する
形態素を検索してからマッチングするので、一見効率が
よさそうであるが、辞書登録語数の多い実用的な辞書で
は検索される形態素の数も多くなるため、余分なマッチ
ング処理が膨大になり、解析効率が悪くなるおそれがあ
った。
[0010] Fourthly, in this method, since morphemes corresponding to character strings are searched for and then matched, it seems to be efficient at first glance. However, in a practical dictionary having a large number of dictionary registration words, the morphemes to be searched are determined. Since the number increases, extra matching processing becomes enormous, and analysis efficiency may be reduced.

【0009】さらに、以上の欠点は、平仮名の見出しが
多い辞書や登録語数が多い辞書で特に顕著であった。
Further, the above-mentioned disadvantages are particularly remarkable in a dictionary having many hiragana headings or a dictionary having a large number of registered words.

【0010】ところで、上述した欠点は、形態素の先頭
文字により検索を行なうことに起因するのだから、形態
素の見出しをフルスペルで指定して検索する方式を採れ
ば、上記のような欠点は全て解消される。
Since the above-mentioned drawback is caused by performing a search using the first character of a morpheme, all of the above drawbacks can be solved by adopting a method of performing search by designating a morpheme heading by full spelling. You.

【0011】しかし、この検索方式では、先頭文字が同
じでもそれ以外の文字が異なるような見出しについてそ
れぞれ辞書検索をするため、検索の回数が多く、辞書検
索には物理的に一定の時間が必要であることから、解析
に膨大な時間がかかるおそれがあった。
However, in this search method, a dictionary search is performed for each of the headings having the same first character but different other characters. Therefore, the number of searches is large, and a physically fixed time is required for the dictionary search. Therefore, there is a possibility that an enormous amount of time may be required for the analysis.

【0012】この欠点は、本検索方式が、上述した先頭
文字による辞書検索方式に比して辞書検索の回数が多い
ことに起因する。このため従来の形態素解析システムで
は、先頭文字による辞書検索方式を採用し、マッチング
の手順やル−ルを工夫して解析効率の向上を図ろうとす
るのが一般的となっていた。
[0012] This disadvantage is caused by the fact that the present search method has a larger number of dictionary searches than the dictionary search method using the first character described above. For this reason, the conventional morphological analysis system generally employs a dictionary search method based on the first character and attempts to improve the analysis efficiency by devising a matching procedure and rules.

【0013】そこで、上記の欠点を解決するため、形態
素をフルスペルの見出しで指定して辞書を検索する方式
を採ったうえで、辞書の検索回数を削減する手段を実現
する事が第1の課題となる。
[0013] Therefore, in order to solve the above-mentioned drawbacks, it is a first object of the present invention to adopt a method of searching a dictionary by specifying a morpheme by a full spelling heading and to realize means for reducing the number of times of searching the dictionary. Becomes

【0014】2)連接判定情報及び判定方式における問
題 従来は、連接判定情報として品詞情報のみを用いること
が多かった。この場合、連接判定条件が緩いため、通常
ありえない形態素の並びを許してしまい、誤った形態素
分割を行ったり、形態素の絞り込みが不十分なまま構文
解析等に多数の形態素を渡してしまうという欠点があっ
た。
2) Problem in connection determination information and determination method Conventionally, only part of speech information was often used as connection determination information. In this case, since the concatenation determination condition is loose, an unusual arrangement of morphemes is usually allowed, and erroneous morpheme division is performed, or a large number of morphemes are passed to parsing or the like with insufficient morpheme narrowing. there were.

【0015】この欠点を回避するため、形態素の品詞情
報以外に、活用情報、その他の形態的な情報(例えば見
出し等)を連接判定情報に付加し、特別なルールやテー
ブル(マトリックス)等を設定して連接判定を行なうこ
とも考えられているが、この場合も、通常は、品詞、活
用、見出しなどの多種類の情報のうちの任意の情報の組
み合わせに対して1つの固定的な連接判定コード(例え
ば連接判定マトリックスのインデックス)が付与されて
いることが多かった。
In order to avoid this drawback, in addition to the part-of-speech information of morphemes, utilization information and other morphological information (for example, headings) are added to the connection determination information, and special rules and tables (matrix) are set. It is also considered that the connection determination is performed by using one fixed connection determination for any combination of various types of information such as part of speech, inflection, and heading. In many cases, a code (for example, an index of a connection determination matrix) is provided.

【0016】従って、同一の連接判定マトリックスを参
照する場合であっても、例えば、ある形態素の場合は品
詞のみ、またある形態素の場合は品詞と活用型、またあ
る形態素の場合は品詞と見出しなどの組み合わせに対し
て個別的に設定されている1つの連接判定コードによっ
て連接判定マトリックスを参照していた。
Therefore, even when referring to the same concatenation determination matrix, for example, only a part of speech for a certain morpheme, part of speech and inflection type for a certain morpheme, and part of speech and heading for a certain morpheme, etc. The connection determination matrix is referred to by one connection determination code individually set for the combination of.

【0017】このため、ルールやテーブルの設定の仕方
によっては連接判定コードを付与し難く、ユーザが使い
にくいものとなるという欠点があった。また、1つの任
意の組み合わせに対して1つの連接判定コードを付与す
るという仕組みになっている為、全ての組み合わせに対
応するには限界があり、新しい文体が出現すると、絶え
ず新しい連接判定コードを設定し続けなければならず、
保守上手間がかかるという欠点もあった。
For this reason, there is a drawback that the connection determination code is hard to be given depending on how to set rules and tables, and it is difficult for the user to use. In addition, since one connection determination code is assigned to one arbitrary combination, there is a limit to support all combinations, and when a new style appears, a new connection determination code is constantly added. Have to keep setting,
There was also a drawback that maintenance was troublesome.

【0018】そこで、上記の欠点を解決するため、連接
判定に用いる情報を品詞、活用型、活用形とし、更にそ
れらを切り離して独立した3次元情報とし、前の形態素
の品詞、活用型、活用形に対して、後の形態素の品詞、
活用型が連接できるかどうかを判定する語尾活用レベル
の情報で規定される連接テーブルを設定することが望ま
しく、これが第2の課題となる。
Therefore, in order to solve the above-mentioned drawbacks, the information used for judging concatenation is classified into a part of speech, an inflected type, and an inflected type, and further separated into independent three-dimensional information. For the shape, the part of speech of the later morpheme,
It is desirable to set a concatenation table defined by the information on the ending utilization level that determines whether the conjugation type can be concatenated, and this is the second problem.

【0019】[0019]

【課題を解決するための手段】上記の目的を達成するた
め、本発明の日本語形態素解析システムは、以下の特徴
を備えてなる。
To achieve the above object, a Japanese morphological analysis system of the present invention has the following features.

【0020】本発明の日本語形態素解析システムは、日
本語形態素について、少なくとも形態素の見出し、品
詞、語尾活用型の情報を格納してなる辞書を備え、入力
された日本語文における所定の範囲の文字列を文頭側か
ら順に切り出し、必要に応じて上記辞書を検索して、上
記切り出した文字列に対応する形態素を同定していく日
本語形態素解析システムにおいて、上記切り出した文字
列を語尾変形させて、少なくともそれに付随して推定さ
れる辞書登録形式の見出し、品詞類、語尾活用型、活用
形を、上記切り出した文字列に対応する形態素候補の情
報として出力する語尾活用部と、辞書検索前に、上記形
態素候補の品詞類の情報と直前に同定された形態素の品
詞の情報とを用いて品詞レベルでの連接可否を判定する
連接テーブルと、上記形態素候補の品詞類、語尾活用型
の情報と直前に同定された形態素の品詞、語尾活用型、
活用形の情報とを用いて語尾活用レベルでの連接可否を
判定する連接テーブルとを参照して、上記形態素候補と
直前に同定された形態素との連接可否を判定し、連接不
可と判定した場合に上記形態素候補を棄却する検索前連
接判定部とを備えたことを特徴とする。
The Japanese morphological analysis system according to the present invention comprises a dictionary storing at least information on morpheme headings, parts of speech, and ending use types for Japanese morphemes. In the Japanese morphological analysis system that cuts out the sequence in order from the beginning of the sentence, searches the dictionary as needed, and identifies the morpheme corresponding to the cut out character string, the cut-out character string is deformed by ending. A ending use unit that outputs at least the headings, parts of speech, inflection type, and inflected form of the dictionary registration format estimated to be associated with it as morpheme candidate information corresponding to the extracted character string, A connection table for determining whether or not connection at the part of speech level is possible using information on the part of speech of the morpheme candidate and information on the part of speech of the morpheme identified immediately before; Morpheme part of speech such candidates, ending utilizing type information and immediately preceding the identified morphological part of speech, ending conjugations,
Referencing a concatenation table that determines concatenation at the inflection level using information of conjugation, and determining whether concatenation is possible between the morpheme candidate and the morpheme identified immediately before, and determining that concatenation is not possible And a pre-search connection determination unit for rejecting the morpheme candidate.

【0021】また上記発明において、辞書を検索して得
られた形態素候補に対応する形態素について、上記形態
素候補に対応する形態素の品詞の情報と直前に同定され
た形態素の品詞の情報とを用いて、上記形態素候補に対
応する形態素と直前に同定された形態素との連接可否を
判定する検索後連接判定部を備えたことを特徴とする。
In the above invention, the morpheme corresponding to the morpheme candidate obtained by searching the dictionary is obtained by using the part-of-speech information of the morpheme corresponding to the morpheme candidate and the part-of-speech information of the morpheme identified immediately before. A morpheme corresponding to the morpheme candidate and a post-search concatenation determination unit for determining whether or not the morpheme identified immediately before can be connected.

【0022】そして、上記検索後連接判定部が、辞書を
検索して得られた形態素候補に対応する形態素の品詞の
情報と直前に同定された形態素の品詞の情報とを用いて
品詞レベルでの連接可否を判定する連接テーブルを備え
てなることを特徴とする。
The post-search concatenation determining unit uses the part-of-speech information of the morpheme corresponding to the morpheme candidate obtained by searching the dictionary and the part-of-speech information of the morpheme identified immediately before, at the part-of-speech level. A connection table for determining whether connection is possible or not is provided.

【0023】また、上記の課題を解決するため、上記の
ような日本語形態素解析システムにおける本発明の形態
素解析方式は、上記切り出した文字列を語尾変形させ
て、少なくともそれに付随して推定される辞書登録形式
の見出し、品詞類、語尾活用型、活用形を、上記切り出
した文字列に対応する形態素候補の情報として出力し、
辞書検索前に、上記形態素候補の品詞類の情報と直前に
同定された形態素の品詞の情報とを用いて品詞レベルで
の連接可否を判定する連接テーブルと、上記形態素候補
の品詞類、語尾活用型の情報と直前に同定された形態素
の品詞、語尾活用型、活用形の情報とを用いて語尾活用
レベルでの連接可否を判定する連接テーブルとを参照し
て、上記形態素候補と直前に同定された形態素との連接
可否を判定し、上記形態素候補と直前に同定された形態
素とが連接する可能性がないと判定した場合に、上記形
態素候補を棄却し、上記形態素候補と直前に同定された
形態素とが連接する可能性があると判定した場合に、上
記形態素候補について上記辞書を検索し、辞書を検索し
て得られた上記形態素候補に対応する形態素の品詞の情
報と直前に同定された形態素の品詞の情報とを用いて、
上記形態素候補に対応する形態素と直前に同定された形
態素との連接可否を判定し、上記判定結果によって、上
記切り出した文字列に対応する形態素を同定していくこ
とを特徴とする。
In order to solve the above-mentioned problem, the morphological analysis method of the present invention in the Japanese morphological analysis system as described above modifies the ending of the cut-out character string and estimates at least accompanying the ending. Outputs the headings, parts of speech, inflection type, and inflection type in the dictionary registration format as information on morpheme candidates corresponding to the extracted character strings,
Before a dictionary search, a concatenation table that determines whether or not concatenation is possible at the part of speech level using information on the part of speech of the morpheme candidate and information on the part of speech of the morpheme identified immediately before, and a part of speech and ending of the morpheme candidate The morpheme candidate is identified immediately before by referring to a concatenation table that determines whether or not concatenation is possible at the ending conjugation level using the information on the type and the information on the part of speech, the inflection type, and the conjugation type of the morpheme identified immediately before. It is determined whether the morpheme candidate is connected with the morpheme candidate, and when it is determined that there is no possibility that the morpheme candidate and the morpheme identified immediately before are connected, the morpheme candidate is rejected, and the morpheme candidate is identified immediately before the morpheme candidate. If it is determined that there is a possibility that the morpheme is concatenated with the morpheme candidate, the dictionary is searched for the morpheme candidate, and the part-of-speech information of the morpheme corresponding to the morpheme candidate obtained by searching the dictionary is identified immediately before. By using the morpheme of the part of speech of the information,
The morpheme corresponding to the morpheme candidate and the morpheme identified immediately before are determined, and the morpheme corresponding to the extracted character string is identified based on the determination result.

【0024】[0024]

【実施例】以下、本発明の実施例について図面を参照し
て説明する。図1は本発明の一実施例に係る形態素解析
システムの構成を示すブロック図である。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a morphological analysis system according to one embodiment of the present invention.

【0025】図示のように、本実施例の形態素解析シス
テムは、形態素を該形態素についての種々の情報ととも
に登録し格納してなる辞書10を備えるとともに、入力
した日本語文から文字列を切り出す見出し切り出し部2
と、見出し切り出し部2で切り出した文字列を語尾活用
させて辞書10に登録した形式の見出しに変形する語尾
活用部3と、語尾活用部3によって変形された文字列に
対応する形態素候補と直前の形態素との連接の可否を辞
書検索前に判定し連接可能性のある形態素候補のみに絞
り込む検索前連接判定部4と、上記形態素候補について
辞書10を検索する辞書検索部5と、辞書検索部5によ
る検索によって同定された形態素と直前の形態素との連
接の可否を判定する検索後連接判定部6と、所定の場合
に例外的な処理を行なうための例外処理部7と、これら
の各部を制御する制御部1とを備えてなる。
As shown in the figure, the morphological analysis system of the present embodiment includes a dictionary 10 in which morphemes are registered and stored together with various information on the morphemes, and a headline cutout for cutting out a character string from an input Japanese sentence. Part 2
And a ending use unit 3 that makes use of the ending of the character string cut out by the heading extraction unit 2 and converts it into a heading in the format registered in the dictionary 10; and a morpheme candidate corresponding to the character string deformed by the ending usage unit 3. A pre-search concatenation determination unit 4 that determines whether connection with a morpheme is possible before dictionary search and narrows down to only morpheme candidates that may be connected, a dictionary search unit 5 that searches the dictionary 10 for the morpheme candidate, and a dictionary search unit 5, a post-search concatenation determination unit 6 for determining whether or not connection between the morpheme identified by the search in step 5 and the immediately preceding morpheme is possible, an exception processing unit 7 for performing exceptional processing in a predetermined case, and these units. And a control unit 1 for controlling.

【0026】また、語尾活用部3の処理において参照す
る判定テーブルとして語尾活用テーブル31及び助詞テ
ーブル32と、検索前連接判定部4の処理において参照
する判定テーブルとして品詞−品詞類連接テーブル41
及び活用−活用連接テーブル42と、検索後連接判定部
6の処理において参照する判定テーブルとして品詞−品
詞連接テーブル61とを備えてなる。なお本実施例にお
いて、「切り出した文字列に対応する形態素」とは、切
り出した文字列に対応すべき形態素が既に同定されてい
る場合に、辞書から実際に検索して同定した見出し及び
語尾活用情報などを含む情報をいい、「切り出した文字
列に対応する形態素候補」とは、切り出した文字列に対
応すべき形態素が未だ形態素として同定されていない場
合に、語尾活用部3における語尾活用の際に推定された
見出し候補文字列及び語尾活用情報の2つの情報をまと
めたものをいう。
The ending use table 31 and the particle table 32 are referred to in the process of the ending use unit 3, and the part-of-speech class connection table 41 is referred to in the process of the pre-search connection determining unit 4.
And a utilization-utilization connection table 42, and a part-of-speech-part-of-speech connection table 61 as a determination table referred to in the processing of the post-search connection determination unit 6. In the present embodiment, “a morpheme corresponding to a cut-out character string” refers to a heading and an inflection that is actually searched and identified from a dictionary when a morpheme to be corresponded to the cut-out character string has already been identified. The term “morphological candidate corresponding to the extracted character string” refers to information including information and the like. The term “morphological candidate corresponding to the extracted character string” means that the morpheme to be used for the extracted character string has not been identified as a morpheme yet. It refers to a combination of two pieces of information, the headline candidate character string estimated at the time and the end use information.

【0027】上記辞書10は、登録した形態素につい
て、形態素の見出し、品詞、活用型といった形態素解析
で用いる語尾活用情報のほか、構文情報や意味情報など
を格納してある。語尾活用のある形態素の場合は、辞書
10に登録された形態素の見出しはその形態素の終止形
である。また語尾活用情報として少なくともその形態素
の品詞、活用型を格納してある。一方、語尾活用のない
形態素の場合は、そのままの見出しとし、語尾活用情報
としての活用型は無活用型としてある。語尾活用情報
は、後述するように、後に付加される活用形と共に、何
等変形することなくそのまま連接判定情報として用いる
ことができる。
The dictionary 10 stores, for the registered morphemes, syntactic information, semantic information, and the like, as well as ending usage information used in morphological analysis such as morpheme headings, parts of speech, and inflection types. In the case of a morpheme having an inflection, the morpheme heading registered in the dictionary 10 is the final form of the morpheme. Further, at least the part of speech of the morpheme and the inflection type are stored as the inflection utilization information. On the other hand, in the case of a morpheme having no inflection, the heading is used as it is, and the inflection type as the inflection information is a non-inflection type. As will be described later, the ending usage information can be used as it is as connection determination information without any deformation, together with a usage form added later.

【0028】また辞書10には、1つの形態素について
語幹と活用語尾とを分離することなく登録してある。
In the dictionary 10, one morpheme is registered without separating the stem and the inflected ending.

【0029】上記制御部1は、入力された日本語文を文
頭側の文字から順に着目していき、見出し切り出し部2
乃至例外処理部7の一連の処理によって同定した形態素
を、形態素列スタック(図示せず)に格納していく。以
後、形態素列スタックに格納された形態素は、検索前連
接判定部4や検索後連接判定部6などの処理において自
由に参照することができる。また、制御部1は、バック
トラック処理部、未知語確定部、形態素確定部を含む
(いずれも図示せず)。
The control unit 1 focuses on the input Japanese sentence in order from the character at the beginning of the sentence, and the heading cutout unit 2
The morphemes identified by a series of processes of the exception processing unit 7 are stored in a morpheme sequence stack (not shown). Thereafter, the morphemes stored in the morpheme sequence stack can be freely referred to in the processing of the connection determination unit 4 before search and the connection determination unit 6 after search. Further, the control unit 1 includes a backtrack processing unit, an unknown word determination unit, and a morpheme determination unit (all are not shown).

【0030】ここで制御部1は、直前の形態素が確定し
た場合、及び入力文に対する一番最初の処理の場合に
は、確定した範囲の次の新しい文字に着目し、見出し切
り出し部2にその着目中の文字以降の文字列と着目中の
文字の位置を渡す。そして、着目中の文字に対して形態
素が確定できなかった場合のうち、1)検索前連接判定
部4において形態素候補が1つも連接できなかった場
合、2)辞書検索部5において形態素候補に対応する形
態素が1つも検索できなかった場合、あるいは1つもマ
ッチできなかった場合、3)検索後連接判定部6におい
て形態素が1つも連接できなかった場合、4)例外処理
部7において適当な形態素が1つも特定できなかった場
合なら、見出し切り出し部2にその着目中以降の文字列
と着目中の文字の位置を再び渡す。
Here, when the immediately preceding morpheme is determined, or in the case of the first processing for the input sentence, the control unit 1 pays attention to the next new character in the determined range and sends the The character string following the character of interest and the position of the character of interest are passed. When the morpheme cannot be determined for the character of interest, 1) when no morpheme candidate can be connected in the pre-search connection determination unit 4, and 2) the morpheme candidate corresponds in the dictionary search unit 5. If no morpheme to be searched could be retrieved or none could be matched, 3) if no morpheme could be concatenated in the concatenation determination unit 6 after search, and 4) an appropriate morpheme was If none of them can be specified, the character string after the focus and the position of the character under the focus are handed again to the headline clipping unit 2.

【0031】一方、見出し切り出し部2において切り出
し不可とした場合なら、バックトラック処理を起動す
る。そして、バックトラック成功ならバックトラック処
理で同定された範囲の次の文字に着目の文字を移動す
る。バックトラック失敗なら未知語処理を起動し、その
後、未知語処理で同定された範囲の次の文字に着目中の
文字を移動する。上記見出し切り出し部2は、制御部1
から、入力文における着目中の文字以降の文字列と、入
力文における着目中の文字の位置を渡される。
On the other hand, if the heading clipping unit 2 does not allow clipping, the backtracking process is started. If backtracking is successful, the character of interest is moved to the next character in the range identified by the backtracking process. If backtracking fails, the unknown word processing is activated, and then the character of interest is moved to the next character in the range identified by the unknown word processing. The heading cutout unit 2 includes a control unit 1
From, the character string after the current character in the input sentence and the position of the current character in the input sentence are passed.

【0032】見出し切り出し部2は、文字列及び着目中
の文字の位置を渡されると、着目中の文字を形態素候補
の見出しの先頭文字と仮定し、その形態素候補の見出し
として考えられる所定の範囲の文字列を、制御部1から
渡された文字列(着目中の文字以降の文字列)から切り
出す。
When receiving the character string and the position of the character under consideration, the heading cutout unit 2 assumes that the character under consideration is the first character of the heading of the morpheme candidate, and determines a predetermined range that can be considered as the heading of the morpheme candidate. Is extracted from the character string (the character string following the character of interest) passed from the control unit 1.

【0033】ここで見出し切り出し部2は、一般的に用
いられている「最長一致法」(最も長い形態素を優先す
る)を原則的に用いるものであるため、新たに着目され
た文字以降の文字列が制御部1から渡された場合には、
まず、着目中の文字以降の文字で考えられる所定の範囲
内(例えば、区切りを表わす文字を越えない範囲内と
か、辞書に登録されている形態素の最大見出し長を越え
ない範囲内など)での最も長い範囲の文字列を形態素候
補の見出しとして仮定し、その範囲の文字列を切り出
す。
Here, since the heading extraction unit 2 basically uses the “longest matching method” (priority is given to the longest morpheme) which is generally used, the character after the newly focused character is used. When a column is passed from the control unit 1,
First, within a predetermined range that can be considered for characters after the character under consideration (for example, within a range that does not exceed the character representing a delimiter, or within a range that does not exceed the maximum heading length of a morpheme registered in the dictionary, etc.) Assuming the longest range of character strings as morpheme candidate headings, cut out the range of character strings.

【0034】但し、後の処理によって、この切り出した
文字列に該当する適当な形態素が見つからなかった場合
には、着目される文字が不変のまま、再び、着目された
文字以降の文字列が制御部1から渡されることになり
(上記2)〜4)参照)、この場合には、この切り出し
た文字列の末尾側の文字を1つ(必要なら任意個)削除
したものをより短い新たな形態素候補の見出しとして再
び切り出していく。
However, if an appropriate morpheme corresponding to the cut-out character string is not found by the subsequent processing, the character string after the focused character is controlled again while the focused character remains unchanged. (See 2) to 4) above), and in this case, a character obtained by deleting one (arbitrarily if necessary) the last character of the cut-out character string is replaced with a shorter new character. It is cut out again as a morpheme candidate heading.

【0035】なお、見出し切り出し部2は、切り出した
文字列の範囲に関する情報、即ち、入力文における着目
中の文字、着目中の位置、切り出した文字列の長さ、等
を判定できる情報を保存しておく。この情報によって、
直前に切り出した文字列と、着目される文字が不変のま
ま同じ文字列が制御部1から渡されたかどうかを判定で
きることになり、不変である場合には、直前に切り出し
た文字列より短い文字列を切り出すこととなる。もちろ
ん、直前に切り出した文字列と着目される文字、すなわ
ち着目している位置が異なる場合には、このような制限
はない。
The headline cutout unit 2 stores information relating to the range of the cut-out character string, that is, information which can determine the character of interest in the input sentence, the position of interest, the length of the cut-out character string, and the like. Keep it. With this information,
It is possible to determine whether or not the same character string passed from the control unit 1 is the same as the character string extracted immediately before and the focused character is unchanged. If the character string is unchanged, a character shorter than the character string extracted immediately before is determined. The line is cut out. Needless to say, there is no such restriction when the character string extracted immediately before and the focused character, that is, the focused position are different.

【0036】見出し切り出し部2は、制御部1より渡さ
れた文字列から1文字以上の文字列を切り出すことがで
きたときは、その切り出した文字列(形態素見出し候補
文字列)を語尾活用部3に渡す。1文字以上の文字列を
切り出すことができなかったときは、切り出し不可とし
て、制御部1に戻る。以上の見出し切り出し方の具体例
を図2に簡単に示す。
When a character string of one or more characters can be cut out from the character string passed from the control unit 1, the heading cutout unit 2 uses the cutout character string (a morpheme heading candidate character string) as a ending use unit. Pass to 3. When a character string of one or more characters cannot be cut out, it is determined that cutout is impossible, and the process returns to the control unit 1. FIG. 2 briefly shows a specific example of the above-described headline clipping method.

【0037】語尾活用部3は、見出し切り出し部2から
形態素見出し候補文字列を受け取る。そして、形態素見
出し候補文字列の末尾の形態から語尾活用の有無を判定
する。
The ending part 3 receives the morpheme heading candidate character string from the heading cutting part 2. Then, the presence or absence of inflection is determined from the last form of the morpheme heading candidate character string.

【0038】形態素見出し候補文字列が語尾活用すると
判定した場合、語尾活用部3は、この形態素見出し候補
文字列を辞書登録形式の見出し(終止形の見出し)の活
用した見出しと仮定して、その形態素見出し候補文字列
を終止形の見出しに変形する。また、これとともに、そ
の変形に付随して推定される品詞類、語尾活用型や活用
形などの語尾活用情報等を取り込む。もちろん、語尾活
用がないと判定した場合、形態素見出し候補文字列を変
形せず、そのまま辞書登録形式の見出しと仮定して、そ
の無変形に対応する語尾活用情報等が取り込まれること
となる。尚、語尾活用部3において形態素見出し候補文
字列から変形あるいは無変形によって作成された形態素
の見出し候補を以下では「語尾活用見出し」と表現する
こととする。
When it is determined that the morpheme heading candidate character string utilizes the ending, the ending utilization unit 3 assumes that the morpheme heading candidate character string is a heading utilizing a dictionary-registered heading (end-shaped heading). The morpheme heading candidate character string is transformed into a terminal heading. At the same time, the part-of-speech class estimated based on the deformation, the ending utilization information such as the ending utilization type and the utilization form, and the like are taken in. Of course, if it is determined that there is no ending usage, the morpheme heading candidate character string is not transformed, and it is assumed that the morpheme heading is a dictionary registration format heading, and the ending usage information or the like corresponding to the unmodified is fetched. In the following, a morpheme heading candidate created from the morpheme heading candidate character string by modification or non-deformation in the ending utilization unit 3 is hereinafter referred to as an “ending utilization heading”.

【0039】語尾活用部3は、図3のような語尾活用テ
ーブル31を有しており、形態素見出し候補文字列の末
尾の1〜4文字の平仮名部分についてテーブルを参照
し、それによって推定される1)語尾活用見出し、2)
品詞類、3)語尾活用型、4)活用形といった情報を含
んだ当該形態素候補に関する情報(形態素候補情報)を
作成する。
The ending utilization unit 3 has an ending utilization table 31 as shown in FIG. 3, and refers to the table for the hiragana portion of the last one to four characters of the morpheme heading candidate character string, and is estimated therefrom. 1) Inflection heading 2)
Information on the morpheme candidate (morpheme candidate information) including information such as part of speech, 3) inflection type, and 4) inflection type is created.

【0040】なお、この形態素候補情報は語尾活用する
品詞類に対応しており、すなわち動詞類、形容詞類、形
容動詞類、助動詞類のいずれかに対するものとなってい
る。一方、通常は形態素見出し候補文字列が語尾活用し
ない形態素としての見出しである場合が考えられる。そ
こで語尾活用部3は、これらの語尾活用しない形態素候
補の品詞類を無活用類とし、語尾活用型を無活用型、活
用形を無活用形として上記1〜4の情報と同様な形式で
無活用の形態素候補の形態素候補情報も作成しておく。
ここで、品詞類とは、実際の形態素の品詞を大まかにグ
ル−プ分けしたもので、形態素候補について未だ辞書検
索がされていないことから、この品詞類を用いている。
The morpheme candidate information corresponds to the part of speech to be used at the end of the word, that is, to one of a verb, an adjective, an adjective, and an auxiliary verb. On the other hand, there is usually a case where the morpheme heading candidate character string is a heading as a morpheme that does not utilize the ending. Therefore, the ending usage unit 3 sets the part of speech of the morpheme candidate that does not use the ending to be a non-utilizing class, sets the ending usage type to the non-utilization type, and sets the usage type to the non-utilization type in the same format as the information in the above 1-4. Morphological candidate information of morphological candidates to be used is also created.
Here, the part-of-speech is obtained by roughly grouping the part-of-speech of an actual morpheme, and since the dictionary search has not been performed for the morpheme candidate, this part-of-speech is used.

【0041】また、語尾活用しない形態素とは、名詞
類、副詞類、助詞類などの形態素を指し、述語以外の全
ての品詞類の形態素が該当する。ただし、このうち助詞
類は隣り合う形態素と密接な連接関係を持つことが多
い。そのため本実施例の語尾活用部3では、語尾活用し
ない形態素候補の情報について、さらに助詞類に対応す
る形態素候補情報とその他の語尾活用しない形態素候補
情報とに区別している。
The morpheme that does not utilize the endings refers to morphemes such as nouns, adverbs, and particles, and corresponds to morphemes of all parts of speech other than predicates. However, among them, particles often have a close connection with neighboring morphemes. For this reason, the ending use unit 3 of this embodiment further distinguishes morpheme candidate information that does not utilize endings into morpheme candidate information corresponding to particles and other morpheme candidate information that does not utilize endings.

【0042】すなわち、語尾活用部3は、図4に示すよ
うな助詞テ−ブル32を有しており、形態素見出し候補
文字列を助詞テ−ブル32に順次照合し、それによって
推定される助詞類に対応する形態素候補情報を取り込
む。助詞テ−ブル32に照合した結果、助詞類としての
情報があったときは、無活用類としての形態素候補情報
ばかりではなく助詞類としての形態素候補情報も得られ
ることとなる。なお、ここでいう助詞類とは、格助詞
類、接続助詞類、終助詞類、副助詞類であり、実際の助
詞に対応する品詞を大まかにグル−プ分けしたものであ
る。
That is, the ending use unit 3 has a particle table 32 as shown in FIG. 4, and sequentially matches the morpheme heading candidate character string to the particle table 32, and estimates the particle The morpheme candidate information corresponding to the class is taken. As a result of collation with the particle table 32, if there is information as a particle class, not only morpheme candidate information as an ineffective class but also morpheme candidate information as a particle class can be obtained. Note that the particle classes referred to here are case particles, connecting particles, final particles, and auxiliary particles, which are roughly grouped into parts of speech corresponding to actual particles.

【0043】以上の処理の後、語尾活用部3は、得られ
た任意個の形態素候補情報を1つのリスト(形態素候補
群)としてまとめる。図5に形態素候補群の例を示す。
After the above processing, the ending use unit 3 puts the obtained arbitrary morpheme candidate information into one list (morpheme candidate group). FIG. 5 shows an example of a morpheme candidate group.

【0044】そして、語尾活用部3は、語尾活用によっ
て得られた形態素候補群を、検索前連接判定部4に渡
す。
Then, the ending use unit 3 passes the morpheme candidate group obtained by using the ending to the pre-search connection determination unit 4.

【0045】上記検索前連接判定部4は、着目中の形態
素候補群のそれぞれの形態素候補が、直前に同定されて
いる文頭側に隣り合わせの形態素群のそれぞれの形態素
に連接できるかどうかを1つ1つ判定し、語尾活用部3
から受け取った形態素候補のうち、連接できる可能性の
ある形態素候補のみを選択して残りを排除する。
The pre-search concatenation determination unit 4 determines whether each morpheme candidate of the morpheme candidate group of interest can be connected to each morpheme of the morpheme group adjacent to the head of the sentence identified immediately before. Judge one and use ending part 3
Out of the morpheme candidates received from the morpheme candidates, only the morpheme candidates that may be connected can be selected and the rest are excluded.

【0046】検索前連接判定部4は、図6に示すような
品詞−品詞類連接テーブル41を有しており、直前の形
態素の品詞と形態素候補の品詞類が連接できるかどうか
を判定するため、まず、既に同定した形態素を格納して
ある形態素列スタックを参照して直前の形態素群から1
つの形態素を取り出し、形態素候補群から1つの形態素
候補を取り出して、形態素の品詞(図6中の〈前〉)と
形態素候補の品詞類(図6中の〈後〉)の組み合わせで
品詞−品詞類連接テーブル41に照合し、該当する位置
にあるデータを取り込む。
The pre-search connection determination unit 4 has a part-of-speech-part-of-speech connection table 41 as shown in FIG. 6, and determines whether or not the part-of-speech of the morpheme immediately before and the part-of-speech of the morpheme candidate can be connected. First, by referring to the morpheme sequence stack storing the already identified morpheme, 1
One morpheme is taken out, one morpheme candidate is taken out from the morpheme candidate group, and the part-of-speech-speech is obtained by combining the part of speech of the morpheme (<before> in FIG. 6) and the part of speech of the morpheme candidate (<after> in FIG. 6) The data is collated with the similar connection table 41 and the data at the corresponding position is fetched.

【0047】以上の処理は、直前の形態素群と着目中の
形態素候補群のすべての形態素と形態素候補の組み合わ
せに対して行なう。図6における品詞−品詞類連接テー
ブル41のデータは、連接不可を示す“0”、連接可能
を示す“1”、連接不定(品詞レベルでは連接可能であ
るが、語尾活用レベルでは連接不定)を示す“2”のい
ずれかの数値である。
The above processing is performed for all combinations of morphemes and morpheme candidates of the immediately preceding morpheme group and the morpheme candidate group of interest. The data of the part-of-speech-part-of-speech connection table 41 in FIG. 6 includes “0” indicating that connection is not possible, “1” indicating that connection is possible, and connection indefinite (participation is possible at the part-of-speech level, but connection is undefined at the ending use level). It is any numerical value of "2" shown.

【0048】さらに検索前連接判定部4は、図7及び図
8に示すような活用−活用連接テーブル42を有してお
り、連接判定中の形態素の品詞及び形態素候補の品詞類
に対応する品詞−品詞類連接テーブル41のデータが
“2(連接不定)”に該当する場合、この活用−活用連
接テーブル42に照合する。この場合、該当する直前の
形態素の品詞(類)、活用型、活用形と、着目中の形態
素候補の品詞類、活用型によって活用−活用連接テーブ
ル42のデータが参照される。
Further, the pre-search concatenation determining unit 4 has a conjugation-conjugation connection table 42 as shown in FIGS. 7 and 8, and the part of speech of the morpheme under concatenation determination and the part of speech of the morpheme candidate. -If the data of the part-of-speech type connection table 41 corresponds to "2 (connection undefined)", the data is collated with the utilization-utilization connection table 42. In this case, the data of the conjugation-conjugation table 42 is referred to by the part-of-speech (kind), conjugation type, conjugation type of the immediately preceding morpheme, and the part-of-speech class and conjugation type of the morpheme candidate of interest.

【0049】ここで、「未然形1」の1は、同じ未然形
でも、例えば五段活用型の動詞「買う」の場合、「買
わ」のような一段目のものと「買お」のような五段目の
ものとがあり、それぞれ連接の可否が異なるため、それ
らを区別するために細分化したものである。他の活用形
についてもこれと同様に扱う。また、活用−活用連接テ
ーブル42のデータを参照する際、引数の1つとして直
前の形態素の「品詞」が渡されるが、連接テーブルのデ
ータは「品詞類」で共通になっており、渡された「品
詞」に対応する「品詞類」のデータが参照されることと
なる。同様に、形態素の活用型として、例えば、「バ行
下一段活用型」が渡されるが、連接テーブルのデータは
「下一段活用型」で共通になっており、そのデータが参
照される場合もある。
In this case, 1 of the "probable form 1" is the same probable form. For example, in the case of the five-step inflection type verb "buy", the first verb such as "buy" and the verb "buy" Since there is a fifth stage, and the possibility of connection is different from each other, they are subdivided to distinguish them. The same applies to other inflected forms. Further, when referring to the data of the conjugation-conjugation connection table 42, the "part of speech" of the immediately preceding morpheme is passed as one of the arguments. However, the data of the concatenation table is common to "part of speech" and is passed. The data of “part of speech” corresponding to the “part of speech” is referred to. Similarly, as the morpheme utilization type, for example, “Ba line lower one-stage utilization type” is passed, but the data in the connection table is common to the “lower one-stage utilization type”, and the data may be referred to. is there.

【0050】図7及び図8における活用−活用連接テー
ブル42のデータは、連接不可を示す“0”、連接可能
を示す“1”のいずれかの数値であるが、判りやすくす
るため、“連接可能”のように示してある。なお、図に
おいては、説明の都合上、一部の組み合わせのデータの
みを抜粋して記述してある。また、直前の形態素の特定
の品詞類、活用型、活用形に対して、連接可能である着
目中の形態素候補の特定の品詞類に対するデータのみを
記述してある。例えば図7(A)は、動詞類、ワ行五段
活用型、未然形1〜3に連接可能な助動詞類のみを示し
たものであり、ここにない助動詞類はすべて連接不可と
なる。
The data in the utilization-utilization connection table 42 in FIGS. 7 and 8 is either "0" indicating that connection is impossible or "1" indicating that connection is possible. "Possible". In the figure, for convenience of explanation, only some combinations of data are extracted and described. In addition, only data for a specific part of speech of a morpheme candidate of interest that can be connected is described for a specific part of speech, inflection type, and inflection form of the immediately preceding morpheme. For example, FIG. 7A shows only verbs, auxiliary verbs that can be concatenated with the five-row inflection type, and forms 1 to 3, and auxiliary verbs not present here cannot be concatenated.

【0051】同様にして、図7(B)は、助動詞類、助
動詞ない活用型、連用形1〜3に連接可能な助詞類のみ
を示したものであり、ここにない助詞類はすべて連接不
可となる。図7(C)は、助動詞類、助動詞ない活用
型、連用形1〜3に連接可能な助動詞類のみを示したも
のであり、ここにない助動詞類はすべて連接不可とな
る。図8(D)は、動詞類、下一段活用型、未然形1〜
3に連接可能な助動詞類のみを示したものであり、ここ
にない助動詞類はすべて連接不可となる。図8(E)
は、動詞類、下一段活用型、連用形1〜3に連接可能な
助動詞類のみを示したものであり、ここにない助動詞類
はすべて連接不可となる。さらに、図8(F)は、動詞
類、下一段活用型、命令形1〜2に連接可能な助動詞類
はないことを示したものである。
Similarly, FIG. 7B shows only auxiliary particles, auxiliary particles having no auxiliary verb, and only particles which can be connected to the conjunctive forms 1-3. Become. FIG. 7C shows only auxiliary verbs that can be concatenated with auxiliary verbs, conjugations without auxiliary verbs, and conjunctive forms 1 to 3. All auxiliary verbs that are not included here cannot be concatenated. FIG. 8 (D) shows verbs, lower one-step inflection type, predecessor form 1
3 shows only the auxiliary verbs that can be concatenated, and all the auxiliary verbs that are not included here cannot be concatenated. FIG. 8 (E)
Indicates only the auxiliary verbs that can be concatenated with the verbs, the lower one-step conjugation type, and the conjunctive forms 1 to 3, and all the auxiliary verbs that are not included here cannot be concatenated. Further, FIG. 8F shows that there is no auxiliary verb that can be concatenated with the verb, the lower one-step utilization type, and the imperative forms 1-2.

【0052】したがって、例えば直前の形態素が下記の
表1に示すような情報を持つとき、着目中の形態素候補
が助動詞類であっても、その語尾活用型が「助動詞せる
活用型」、「助動詞れる活用型」、「助動詞ない活用
型」、「助動詞ぬ活用型」以外の場合には、図7(A)
に示したようにデータは連接不可(“0”)であり、こ
の形態素と形態素候補とは連接できないこととなる。こ
の場合、「買う」は「未然形1」であるので、「未然形
3」に連接できる「助動詞う活用型」は無関係である。
なお、図7及び図8においては示していないが、動詞類
の未然形1〜3に接続できる品詞類は助動詞類しかな
い。したがって、表1に示した形態素に対しては、当然
ながら助動詞類以外の品詞類は連接できないこととな
る。
Therefore, for example, when the immediately preceding morpheme has information as shown in Table 1 below, even if the morpheme candidate under consideration is an auxiliary verb, the ending usage type is “auxiliary verb conjugation type” or “auxiliary verb conjugation type”. 7 (A) in cases other than "conjugation type,""conjugation type without auxiliary verbs," and "conjugation type without auxiliary verbs"
As shown in (1), data cannot be connected ("0"), and this morpheme and morpheme candidate cannot be connected. In this case, since "buy" is "probable form 1", "auxiliary verb conjugation type" which can be connected to "probable form 3" is irrelevant.
Although not shown in FIGS. 7 and 8, there is only an auxiliary verb that can be connected to the probable forms 1 to 3 of the verb. Therefore, for the morphemes shown in Table 1, naturally, parts of speech other than auxiliary verbs cannot be concatenated.

【0053】[0053]

【表1】 [Table 1]

【0054】さらに、例えば形態素「調べる(動詞の命
令形『調べよ』)」と形態素候補「う(助動詞うの終止
形『う』)」との連接可否を判定する場合、「調べる」
に対応する形態素の情報及び「う」に対応する形態素候
補の情報が下記の表2のように得られたとする。これを
活用−活用連接テーブル42に照合すると、下記の表3
のようになり、これらは連接できないと判定する。した
がって、辞書検索前に「う」に対応する形態素候補を棄
却でき、辞書検索を行なう必要がなくなる。
Further, for example, in order to determine whether or not the morpheme “examine (verb instruction form“ examine ”)” and the morpheme candidate “u (auxiliary verb ending form“ u ”)” can be connected, “examine” is used.
It is assumed that the information of the morpheme corresponding to “” and the information of the morpheme candidate corresponding to “U” are obtained as shown in Table 2 below. When this is collated with the utilization-utilization connection table 42, the following Table 3 is obtained.
It is determined that these cannot be connected. Therefore, the morpheme candidate corresponding to "U" can be rejected before the dictionary search, and it is not necessary to perform the dictionary search.

【0055】[0055]

【表2】 [Table 2]

【0056】[0056]

【表3】 [Table 3]

【0057】上述した活用−活用連接テーブル42は、
純粋な文法、すなわち形態素の品詞類、語尾活用型、活
用形といった独立した3種類の一般的な情報によってき
まるデータで照合するようになっており、システム内部
の固有データを設定する必要はない。また語尾活用しな
い形態素でも、助詞のようにその連接に一定の規則があ
るものは、同様に扱うことができる。
The utilization-utilization connection table 42 described above
Pure grammar, that is, collation is performed using data determined by three types of independent general information such as morpheme part-of-speech, inflection type, and inflection type, and there is no need to set unique data in the system. Even morphemes that do not use inflections, such as particles, that have a certain rule in their concatenation, can be treated in the same way.

【0058】以上によって、検索前連接判定部4は、渡
された形態素候補群の形態素候補のうち直前の形態素群
のいずれかの形態素に連接可能な形態素候補のみに絞り
込んだ新たな形態素候補群を作成する。これによって、
形態素候補の数を辞書検索前に大幅に減らすことが可能
となり、辞書検索回数を減らすことができる。なお、検
索前連接判定部4において、語尾活用レベルの情報を用
いた連接判定を行なっているので、「動詞と助動詞」と
いった品詞レベルのみの情報を用いた連接判定では棄却
できなかったものまで棄却できる場合が多く、解析精度
の向上を図ることができる。
As described above, the pre-search concatenation determination unit 4 determines a new morpheme candidate group that has been narrowed down to only morpheme candidates that can be connected to any morpheme of the immediately preceding morpheme group among the morpheme candidates of the passed morpheme candidate group. create. by this,
The number of morpheme candidates can be significantly reduced before the dictionary search, and the number of dictionary searches can be reduced. In addition, since the pre-search concatenation determination unit 4 performs the concatenation determination using the information on the inflection level, it rejects those that could not be rejected by the concatenation determination using only the part-of-speech level information such as "verb and auxiliary verb". In many cases, analysis accuracy can be improved.

【0059】以上の処理の後、検索前連接判定部4は、
形態素候補群の形態素候補のうち直前の形態素に連接で
きるものが1つ以上存在するときは、その直前の形態素
に連接できる形態素候補の情報を新たな形態素候補群と
して辞書検索部5に渡す。一方、形態素候補群の形態素
候補のうち1つも直前の形態素に連接できなかったとき
は、適当な形態素候補がないとみなし、制御部1を経由
して見出し切り出し部2に進む。
After the above processing, the pre-search connection determination unit 4
If one or more morpheme candidates in the morpheme candidate group can be connected to the immediately preceding morpheme, information on the morpheme candidates that can be connected to the immediately preceding morpheme is passed to the dictionary search unit 5 as a new morpheme candidate group. On the other hand, when none of the morpheme candidates in the morpheme candidate group can be connected to the immediately preceding morpheme, it is determined that there is no suitable morpheme candidate, and the processing proceeds to the heading clipping unit 2 via the control unit 1.

【0060】上記辞書検索部5は、検索前連接判定部4
から渡された形態素候補群の全ての形態素候補に対し
て、まず、語尾活用部3によって変形されたフルスペル
の見出し(語尾活用見出し)で辞書10を検索し、登録
されているなら、その形態素についての情報(形態素情
報)を取り込む。そして、辞書検索して得られた形態素
情報と語尾活用部3の処理によって得られた形態素候補
情報とが一致するものだけを形態素として取り込み、残
りを排除する。
The dictionary search unit 5 includes a pre-search connection determination unit 4
First, the dictionary 10 is searched for the full spelling headings (ending usage headings) transformed by the ending usage unit 3 for all the morpheme candidates in the morpheme candidate group passed from (Morpheme information). Then, only those whose morpheme information obtained by the dictionary search matches the morpheme candidate information obtained by the processing of the ending utilization unit 3 are taken in as morphemes, and the rest are excluded.

【0061】ここでは、入力文の同じ切り口に対して、
多義、多品詞を認めているので、複数の形態素が同じカ
ラムの情報として取り込まれる。また、辞書検索して得
られた形態素情報には、活用形が格納されていないの
で、形態素情報と形態素候補情報とが一致した場合には
形態素候補情報にある活用形を形態素情報に格納して出
力情報とする。例えば、下記の表4において、入力文の
文字列が「買わ」であって、形態素候補情報の語尾活用
見出しが「買わ」、「買う」の場合、辞書検索の結果
「買う」についてのみ辞書登録されている(形態素情報
)ことから、表4に示した出力情報を得る。
Here, for the same cut of the input sentence,
Since polysemy and polyspeech are accepted, a plurality of morphemes are taken in as information in the same column. Further, since the morpheme information obtained by the dictionary search does not store the inflected form, if the morpheme information matches the morpheme candidate information, the inflected form in the morpheme candidate information is stored in the morpheme information. Output information. For example, in Table 4 below, when the character string of the input sentence is “buy” and the ending use headings of the morpheme candidate information are “buy” and “buy”, only the dictionary search result “buy” is registered in the dictionary. (Morphological information), the output information shown in Table 4 is obtained.

【0062】[0062]

【表4】 [Table 4]

【0063】なお、形態素候補情報に、同じ語尾活用見
出しの形態素候補が複数存在することがあるが、本実施
例の辞書検索部5は、同じ語尾活用見出しでは1度しか
検索しないように工夫してある。例えば、上記表4にお
いて、入力文の文字列が「なかっ」であって、形態素候
補情報の語尾活用見出しが「ない」の場合、語尾活用見
出し「ない」が2つあるが、その語尾活用見出しに対し
て1度だけ辞書検索されて(形態素情報)表に示した
出力情報を得る。なお、ここでは入力文の文字列の最
後が「っ」であるため、「なかっ」に対する無活用類と
しての形態素候補の情報を出力しないように工夫してあ
る。
In some cases, the morpheme candidate information includes a plurality of morpheme candidates of the same inflection heading. However, the dictionary search unit 5 of this embodiment devises that the same inflection heading is searched only once. It is. For example, in Table 4 above, when the character string of the input sentence is “none” and the ending ending heading of the morpheme candidate information is “none”, there are two ending usage headings “none”. Is subjected to a dictionary search only once to obtain the output information shown in the (morphological information) table. In this case, since the end of the character string of the input sentence is "tsu", it is devised not to output the information of the morpheme candidate as the ineffective class corresponding to "none".

【0064】以上の処理の後、辞書検索部5は、形態素
情報が検索されて形態素候補情報と一致するものが1つ
以上見つかった場合には、その形態素情報のリスト(形
態素群)を検索後連接判定部6に渡す。また、形態素情
報が1つも検索できなかった場合、もしくは、形態素情
報が検索されたものの形態素候補情報と一致するものが
なかった場合には、適当な形態素がないとみなし、制御
部1を経由して見出し切り出し部2に進む。
After the above processing, if the morpheme information is searched and one or more matches with the morpheme candidate information are found, the dictionary search unit 5 searches the list (morpheme group) of the morpheme information. It is passed to the connection determination unit 6. If no morpheme information can be retrieved, or if the morpheme information is retrieved but no morpheme candidate information is found, it is determined that there is no appropriate morpheme, and the control unit 1 determines that there is no suitable morpheme. To the heading clipping unit 2.

【0065】上記検索後連接判定部6は、辞書検索部5
によって辞書検索された着目中の形態素が直前に同定さ
れた形態素と連接できるかどうか、すなわち、構文的に
隣り合わせの形態素として文中に位置することができる
かどうかを判定する。
The post-search connection determination unit 6 includes a dictionary search unit 5
It is determined whether or not the morpheme of interest searched in the dictionary can be connected to the morpheme identified immediately before, that is, whether or not it can be positioned in the sentence as a syntactically adjacent morpheme.

【0066】検索後連接判定部6は、図9に示すような
品詞−品詞連接テーブル61を有しており、直前の形態
素の品詞(品詞類ではない)と検索された形態素の品詞
(品詞類ではない)が連接できるかどうかを判定するた
め、まず、形態素列スタックを参照して直前の形態素群
から1つの形態素を取り出し、着目中の形態素群から1
つの形態素を取り出して、直前の形態素の品詞(図9中
の〈前〉)と着目中の形態素の品詞(図9中の〈後〉)
の組み合わせで、品詞−品詞連接テーブル61に照合
し、該当する位置にあるデータを取り込む。なお、ここ
でいう品詞とは、品詞類とは異なり、品詞類をより細分
化したものであり、品詞−品詞連接テーブル61におけ
るデータは、同じ品詞類に属する品詞であっても別々に
設定される。したがって、検索前連接判定部4で用いた
品詞−品詞類連接テーブル41より厳密な連接判定を行
なうことができる。
The post-search connection determination unit 6 has a part-of-speech connection table 61 as shown in FIG. 9, and stores the part-of-speech (not part-of-speech) of the immediately preceding morpheme and the part-of-speech (part of speech) of the searched morpheme. ) Can be connected, first, one morpheme is extracted from the immediately preceding morpheme group with reference to the morpheme sequence stack, and one morpheme is extracted from the morpheme group of interest.
Two morphemes are extracted, and the part of speech of the morpheme immediately before (<previous> in FIG. 9) and the part of speech of the morpheme under focus (<post> in FIG. 9)
Is compared with the part-of-speech part-of-speech connection table 61, and the data at the corresponding position is fetched. Note that the part of speech referred to here is different from the part of speech, which is obtained by subdividing the part of speech, and the data in the part of speech part-of-speech connection table 61 is set separately even if the parts of speech belong to the same part of speech. You. Therefore, a stricter connection determination can be performed based on the part-of-speech-part-of-speech type connection table 41 used by the connection determination unit 4 before search.

【0067】以上の処理は、直前の形態素群のすべての
形態素と辞書検索された着目中の形態素群のすべての形
態素との組み合わせに対して行なう。図9における品詞
−品詞連接テーブル61のデータは、連接不可を示す
“0”、連接可能を示す“1”のいずれかの数値であ
り、例えば、下記の表5のようになる。
The above processing is performed on a combination of all the morphemes of the immediately preceding morpheme group and all of the morphemes of the morpheme group of interest searched in the dictionary. The data of the part-of-speech-part-of-speech connection table 61 in FIG. 9 is a numerical value of either “0” indicating that connection is not possible or “1” indicating that connection is possible. For example, as shown in Table 5 below.

【0068】[0068]

【表5】 [Table 5]

【0069】以上の処理によって、最終的に直前の形態
素群のいずれか1つ以上の形態素に連接可能と判定され
た着目中の形態素の集合を新たな着目中の形態素群とす
る。
By the above processing, a set of morphemes of interest that is finally determined to be connectable to any one or more morphemes of the immediately preceding morpheme group is set as a new morpheme group of interest.

【0070】この後、検索後連接判定部6は、着目中の
形態素群の要素として形態素が1つ以上残った場合に
は、それら着目中の形態素を入力文における所定の範囲
の文字列に対応する形態素として同定し、その着目中の
形態素群を例外処理部7を経由して制御部1に渡す。ま
た、辞書検索された形態素のうちの1つも直前の形態素
に連接できなかった場合には、例外処理部7に進むこと
なく、制御部1を経由して見出し切り出し部2に進む。
After that, when one or more morphemes remain as elements of the morpheme group of interest, the post-search concatenation determination unit 6 assigns those morphemes of interest to character strings in a predetermined range in the input sentence. The morpheme group of interest is passed to the control unit 1 via the exception processing unit 7. If one of the morphemes searched in the dictionary cannot be connected to the immediately preceding morpheme, the process proceeds to the headline clipping unit 2 via the control unit 1 without going to the exception processing unit 7.

【0071】上記例外処理部7は、最長一致法による弊
害を取り除いたりするため必要に応じて個別的な手続き
型ル−ルを起動し処理を行ない、不適当な形態素がある
場合には、それを棄却する。
The exception processing unit 7 activates individual procedural rules as necessary to eliminate the adverse effects of the longest match method and performs processing. If there is an inappropriate morpheme, Reject.

【0072】制御部1は、着目中の文字を先頭とする形
態素の切り出しに失敗した場合はバックトラック処理を
起動する。すなわち、着目中の文字以降に、その着目中
の文字を先頭とする形態素が見つからなかった場合、あ
るいは連接できる形態素がなかった場合に既に仮に確定
している形態素を分割し直す。
The control unit 1 activates the backtracking process when the extraction of the morpheme starting from the character of interest has failed. That is, if no morpheme starting with the focused character is found after the focused character, or if there is no morpheme that can be connected, the temporarily determined morpheme is re-divided.

【0073】最終的に、着目中の文字を見出しとして含
む形態素が見つかった場合は、その新しい切り出し方と
その形態素群を制御部1に渡す。着目中の文字を見出し
として含む形態素が見つからなかった場合は、その着目
中の文字を含む所定の範囲の文字列に対応する部分を辞
書未登録語とし、検索前に推定した形態素候補情報等を
参考にして品詞等を推定して、1つの形態素として同定
し、その情報を制御部1に渡す。
Finally, when a morpheme including the character of interest as a heading is found, the new cutout method and the morpheme group are passed to the control unit 1. If a morpheme containing the character of interest as a heading is not found, a portion corresponding to a predetermined range of character strings including the character of interest is set as a dictionary unregistered word, and morpheme candidate information estimated before the search is used. The part of speech or the like is estimated for reference, identified as one morpheme, and the information is passed to the control unit 1.

【0074】上述したように、制御部1は、以上のよう
にして同定された形態素(群)を形態素列スタックに順
次格納していく。但し、直前の形態素も辞書未登録語で
ある場合には、その直前の形態素の見出しの範囲に、着
目中の文字を吸収して格納する。
As described above, the control unit 1 sequentially stores the morphemes (groups) identified as described above in the morpheme sequence stack. However, if the previous morpheme is also a dictionary unregistered word, the character of interest is absorbed and stored in the range of the morpheme heading immediately before.

【0075】次に、具体的な例文の形態素解析処理例を
示し、本実施例の作用を詳細に説明する。 [第一解析処理例]図10乃至図14に、本実施例によ
り「買わなかったいか」という文(名詞句)を形態素解
析処理した場合の処理例を示す。上記日本語文は、最長
一致法に基づく制御部1乃至例外処理部7の一連の処理
により、まず、文頭の文字「買」に着目されて順次図1
0及び図11に示すように文字列を切り出され、形態素
の同定が行なわれる。
Next, the operation of the present embodiment will be described in detail with reference to a specific example of morphological analysis processing of an example sentence. [First Analysis Processing Example] FIGS. 10 to 14 show processing examples in which a sentence (noun phrase) “Do you want to buy?” (Morphological analysis processing) is performed by this embodiment. In the Japanese sentence, a series of processes of the control unit 1 to the exception processing unit 7 based on the longest match method first focus on the character “bu” at the beginning of the sentence, and sequentially see FIG.
The character string is cut out as shown in FIG. 0 and FIG. 11, and the morpheme is identified.

【0076】ここでは、最終的に文字列「買わ」が切り
出され、見出しを「買う」とする動詞(活用型:ワ行五
段活用型、活用形:未然形1)として同定される。通
常、助詞類や助動詞類のような付属語以外は、文頭に位
置することが可能であるため、たとえ辞書検索前に連接
判定を行なっても、文頭の形態素候補を棄却できること
は文中に位置する形態素候補に比べて少ない。したがっ
て、本実施例においても図示のように、形態素「買わ」
が同定されるまでに22種類の語尾活用見出しについて
処理がされるが、検索前連接判定部4の処理によって連
接不可と判定されるものはない。
Here, the character string "buy" is finally cut out and identified as a verb (use type: wa-row five-step use type, use type: unpredictable form 1) which makes the headline "buy". Usually, except for adjuncts such as particles and auxiliary verbs, it is possible to place them at the beginning of a sentence. Therefore, even if a concatenation judgment is performed before a dictionary search, it is located in the sentence that morpheme candidates at the beginning of a sentence can be rejected. Less than morpheme candidates. Therefore, also in this embodiment, as shown in the figure, the morpheme “buy”
Are processed until 22 is identified, but there is no such thing that the pre-search connection determination unit 4 determines that connection is impossible.

【0077】ちなみに、本実施例においては、語尾活用
部3において、語尾活用テーブル31や助詞テーブル3
2を参照して助詞類や助動詞類の存在の可能性を判定し
ており、特にこの場合は、語尾活用部3において、
「買」で始まる形態素見出し候補文字列に助詞類や助動
詞類の形態素が対応する可能性を棄却している。このた
め、検索前連接判定部4に助詞類や助動詞類に対応する
形態素候補情報は渡されていない。
Incidentally, in the present embodiment, the ending utilization section 3 uses the ending utilization table 31 and the particle table 3
2 to determine the possibility of the existence of particles and auxiliary verbs. In this case, especially in this case,
It rejects the possibility that morphemes such as particles and auxiliary verbs correspond to morpheme heading candidate character strings starting with "buy". For this reason, the morpheme candidate information corresponding to the particles or auxiliary verbs is not passed to the pre-search concatenation determination unit 4.

【0078】しかしながら、仮に、検索前連接判定部4
に助詞類や助動詞類の形態素候補が渡された場合(例え
ば「はが痛い」を解析して「は」を切り出したときに
は、「は」に対して名詞類(無活用類)としてだけでな
く、助詞類としての形態素候補が渡される)には、検索
前連接判定部4の処理によって、助詞類としての形態素
候補が連接不可と判定されることとなる。
However, if the pre-search connection determination unit 4
If a morphological candidate for a particle or auxiliary verb is passed to (for example, if "ha hurts" is analyzed and "ha" is cut out, "ha" , A morpheme candidate as a particle class is passed), the morpheme candidate as a particle class is determined not to be connected by the processing of the pre-search concatenation determining unit 4.

【0079】次に、図12に示すように、「なかったい
か」について解析処理が行なわれ、「なかった」の文字
列に対して、見出しを「ない」とする助動詞(活用型:
助動詞ない活用型、活用形:連用形3)という形態素が
同定される。図示のように、形態素「ない」が同定され
るまでに16種類の語尾活用見出しについて処理がさ
れ、そのうち15種類の語尾活用見出しについて検索前
連接判定部4の処理によって連接不可と判定され、辞書
検索が省略される。
Next, as shown in FIG. 12, an analysis process is performed on "Isn't I Want?", And an auxiliary verb (Utilization type:
A morpheme of the inflected form without auxiliary verb, inflected form: continuous form 3) is identified. As shown in the figure, 16 types of inflection headings are processed until the morpheme “none” is identified, and of the 15 types of inflection headings, it is determined that concatenation is impossible by the processing of the pre-search concatenation determination unit 4. Search is skipped.

【0080】なお、本実施例においては、同じ語尾活用
見出しを持つ形態素候補情報が複数存在する場合でも、
効率を考慮して、その語尾活用見出しで1度しか辞書検
索を行なわない。したがって、同じ語尾活用見出しを持
つ複数の形態素候補情報がある場合には、すべての形態
素候補情報が検索前連接判定部4の処理によって連接不
可と判定されない限り、その語尾活用見出しで辞書検索
を行なうこととなる。例えば、図12において「ない」
に対する形態素候補情報は、形容詞類に対するものと助
動詞類に対するものの2種類存在するが、検索前連接判
定部4の処理によって形容詞類に対するものしか棄却さ
れていないので、「ない」で辞書検索を行なっている。
In the present embodiment, even when there are a plurality of morpheme candidate information having the same inflection heading,
In consideration of efficiency, a dictionary search is performed only once for the ending use headline. Therefore, when there is a plurality of morpheme candidate information having the same inflection heading, a dictionary search is performed using the inflection heading unless all of the morpheme candidate information is determined to be inconsistent by the processing of the pre-search concatenation determination unit 4. It will be. For example, in FIG.
There are two types of morpheme candidate information for the adjectives and the auxiliary verbs, but since only the adjectives have been rejected by the processing of the pre-search concatenation determination unit 4, the dictionary search is performed with "no". I have.

【0081】同様にして、図13に示すように、「たい
か」について解析処理が行なわれ、「た」の文字列に対
して、見出しを「た」とする助動詞(活用型:助動詞た
過活用型、活用形:終止形1または連体形1)という形
態素が同定される。図示のように、形態素「た」が同定
されるまでに11種類の語尾活用見出しについて処理が
され、そのうち10種類の語尾活用見出しについて検索
前連接判定部4の処理によって連接不可と判定され、辞
書検索が省略される。
Similarly, as shown in FIG. 13, an analysis process is performed on “Taika”, and an auxiliary verb with the heading “Ta” (conjugation type: auxiliary verb Inflection type, inflection type: A morpheme of terminal type 1 or continuous type 1) is identified. As shown in the figure, 11 types of inflection headings are processed by the time the morpheme “ta” is identified. Of these, ten types of inflection headings are determined by the pre-search concatenation determination unit 4 to be incapable of concatenation. Search is skipped.

【0082】なお通常は、品詞レベルの情報のみを用い
た連接判定(もしくは連接判定を行なわない場合)にお
いては、助動詞の後に助動詞が連接できるので、例えば
「なかっ」(助動詞)の後に「たい」(助動詞)も連接
できると判定され、「たい」という形態素候補について
辞書検索しなければならないが、本実施例においては、
検索前連接判定部4において語尾活用レベルの情報を用
いた連接判定を行なっているため、図13に示すように
これらの形態素候補を辞書検索前に棄却できる。
Normally, in the articulation judgment using only the part-of-speech level information (or when the articulation judgment is not performed), since the auxiliary verb can be connected after the auxiliary verb, for example, "no" (auxiliary verb) followed by "tai" (Auxiliary verb) is also determined to be concatenated, and a dictionary search must be performed for the morpheme candidate “tai”. In this embodiment, however,
Since the concatenation determination using the information on the inflection level is performed in the pre-search concatenation determination unit 4, these morpheme candidates can be rejected before the dictionary search as shown in FIG.

【0083】最後に、図14に示すように、「いか」に
ついて解析処理が行なわれ、「いか」の文字列に対し
て、見出しを「いか」とする名詞(活用型:無活用型、
活用形:無活用形)という形態素が同定される。なお、
ここでは、「いく」という動詞に対応する形態素候補に
ついても辞書検索が行なわれ、これに対応する形態素が
見つかるが、後の文末(句点)との連接判定において棄
却(無視)される。
Finally, as shown in FIG. 14, an analysis process is performed for “squid”, and for the character string of “squid”, a noun whose heading is “squid” (conjugation type: non-conjugation type,
The morpheme “utilization type: non-utilization type” is identified. In addition,
Here, a dictionary search is also performed for a morpheme candidate corresponding to the verb “Iku”, and a morpheme corresponding to this is found, but is rejected (ignored) in the subsequent connection determination with the end of the sentence (punctuation).

【0084】以上説明したように、従来ではそのすべて
の種類の形態素見出し候補文字列について辞書検索を行
っていたものが、本実施例では、検索前連接判定部4で
連接不可と判定された文字列については辞書検索を行な
わないため解析処理全体にかかる時間が大幅に短縮され
ることとなる。
As described above, conventionally, dictionary search was performed for all types of morpheme heading candidate character strings. In the present embodiment, however, the character string determined to be unconnected by the pre-search connection determination unit 4 is not used. Since a dictionary search is not performed for a column, the time required for the entire analysis process is greatly reduced.

【0085】[第二解析処理例]次に、本実施例により
「調べよう」という文を形態素解析処理した場合の処理
例を示す。上記日本語文は、最長一致法に基づく制御部
1乃至例外処理部7の一連の処理により、最初は「調べ
よ」に対する形態素が同定され、次に「う」に対する形
態素候補が語尾活用部3の処理により推定され、これら
に対する形態素情報、形態素候補情報は上記表2に示し
たようになる。
[Second Analysis Processing Example] Next, a processing example in which a sentence “Look up” is subjected to morphological analysis processing according to this embodiment will be described. In the Japanese sentence, a morpheme for “check” is first identified by a series of processes of the control unit 1 to the exception processing unit 7 based on the longest match method, and then a morpheme candidate for “u” is processed by the ending use unit 3. And the morpheme information and the morpheme candidate information for them are as shown in Table 2 above.

【0086】検索前連接判定部4は、表2の「調べよ」
に対する形態素情報と「う」に対する形態素候補情報
を、まず品詞−品詞類連接テーブル41に照合する。こ
こでは動詞と助動詞類の組み合わせのため連接不定と判
定する。次に表2の上記形態素情報と上記形態素候補情
報を、活用−活用連接テーブル42に照合して上記表3
に示した情報を得る。
The pre-search concatenation determination unit 4 determines “check” in Table 2.
First, the morpheme information for “U” and the morpheme candidate information for “U” are checked against the part-of-speech-part-of-speech connection table 41. Here, it is determined that the concatenation is indefinite due to the combination of the verb and the auxiliary verb. Next, the morpheme information and the morpheme candidate information in Table 2 are collated with the utilization-utilization connection table 42, and
Obtain the information shown in.

【0087】ここでは、下一段活用型の命令形2にはい
かなる助動詞も連接できないため連接不可と判定する。
そのため、「う」に対して辞書検索は行なわれず、さら
に「う」より短い見出しを切り出せないので、直前に同
定した「調べよ」に対応する形態素が棄却され、バック
トラックが行なわれて、今後は、「調べ」に対する形態
素情報と「よう」に対する形態素候補情報が表6のよう
に得られる。
In this case, since no auxiliary verb can be connected to the lower one-stage utilization type imperative form 2, it is determined that connection is impossible.
Therefore, a dictionary search is not performed for "U", and a heading shorter than "U" cannot be cut out, so that the morpheme corresponding to "Look up" identified immediately before is rejected, and backtracking is performed. , And morpheme candidate information for “you” are obtained as shown in Table 6.

【0088】[0088]

【表6】 [Table 6]

【0089】検索前連接判定部4は、上記表6の「調
べ」に対する形態素情報と「よう」に対する形態素候補
情報を、まず品詞−品詞類連接テーブル41に照合す
る。ここでは動詞と助動詞類の組み合わせのため連接不
定と判定する。次に表6の上記形態素情報と上記形態素
候補情報を、活用−活用連接テーブル42に照合すると
下記の表7のようになる。
The pre-search connection determination unit 4 first compares the morpheme information for “check” and the morpheme candidate information for “you” in Table 6 with the part-of-speech-part-of-speech connection table 41. Here, it is determined that the concatenation is indefinite due to the combination of the verb and the auxiliary verb. Next, when the morpheme information and the morpheme candidate information in Table 6 are collated with the utilization-utilization connection table 42, the following Table 7 is obtained.

【0090】[0090]

【表7】 [Table 7]

【0091】ここでは、下一段活用型の未然形2に助動
詞よう活用型が連接でき、下一段活用型の連用形1に助
動詞よう活用型が連接できないため、「調べ」に対応す
る2つの形態素のうち連用形1の形態素を棄却し、未然
形2の形態素を同定する。以上の処理において、仮に品
詞レベルの情報のみを用いた連接関係しか判定しないな
らば、例えば、動詞と助動詞は常に連接可能となるた
め、形態素の分割の精度が低く、また無駄な辞書検索を
棄却することもできない。しかし、上述したように本実
施例によれば、そのような誤った分割パタ−ンを棄却
し、正確な分割パタ−ンを得ることができ、しかもこの
処理過程は辞書検索前に行なわれるので、辞書検索回数
を大幅に低減できる。
In this case, since the auxiliary verb conjugation type can be concatenated with the lower one-stage inflected form 2 and the auxiliary verb conjugation type cannot be concatenated in the lower one-stage conjugation type 1, the two morphemes corresponding to "investigation" can be used. Of these, the morpheme of the continuous form 1 is rejected, and the morpheme of the probable form 2 is identified. In the above processing, if only the concatenation relation using only part-of-speech level information is determined, for example, since verbs and auxiliary verbs can always be concatenated, the accuracy of morpheme division is low, and unnecessary dictionary searches are rejected. You can't. However, as described above, according to the present embodiment, such an erroneous division pattern can be rejected, and an accurate division pattern can be obtained. Further, since this processing is performed before the dictionary search, In addition, the number of dictionary searches can be significantly reduced.

【0092】[0092]

【発明の効果】以上説明したように、本発明の日本語形
態素解析システム及び形態素解析方式は、切り出した文
字列を語尾活用させて辞書登録形式の見出しに変形し、
その際に推定された語尾活用レベルの情報と、直前に同
定された形態素の語尾活用レベルの情報との間の関係に
基づいて、辞書検索前に、上記形態素候補と直前に同定
された形態素との連接の可否について判定し、連接する
可能性がないと判定した場合に該形態素候補を棄却する
こととしたため、辞書検索の回数を大幅に減らし、解析
効率を向上させることができるという効果がある。
As described above, according to the Japanese morphological analysis system and morphological analysis method of the present invention, a cut-out character string is transformed into a heading in a dictionary registration format by utilizing the ending,
Based on the relationship between the information of the inflection level estimated in that case and the information of the inflection level of the morpheme identified immediately before, before the dictionary search, the morpheme candidate and the morpheme identified immediately before The morpheme candidate is discarded when the possibility of concatenation is determined, and when it is determined that there is no possibility of concatenation, the number of dictionary searches can be significantly reduced and the analysis efficiency can be improved. .

【0093】さらに、語尾活用レベルの連接判定データ
を一般的な文法に添った形の3種類の独立した情報で定
義したため、連接テーブルの設定が容易に行なえるとい
う効果がある。
Further, the concatenation determination data at the inflection level is defined by three types of independent information in a form conforming to a general grammar, so that there is an effect that the concatenation table can be easily set.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の日本語形態素解析システムの構成を示
すブロック図である。
FIG. 1 is a block diagram showing a configuration of a Japanese morphological analysis system of the present invention.

【図2】本実施例による形態素見出し候補文字列の切り
出し処理例を示す図である。
FIG. 2 is a diagram illustrating an example of a process of extracting a morpheme heading candidate character string according to the embodiment;

【図3】本実施例に用いる語尾活用テーブルを示す図で
ある。
FIG. 3 is a diagram illustrating an end-of-word utilization table used in the embodiment.

【図4】本実施例に用いる助詞テーブルを示す図であ
る。
FIG. 4 is a diagram showing a particle table used in the embodiment.

【図5】語尾活用部の処理によって得られた形態素候補
群の例を示す図である。
FIG. 5 is a diagram illustrating an example of a morpheme candidate group obtained by a process of an end use unit.

【図6】本実施例に用いる品詞−品詞類連接テーブルを
示す図である。
FIG. 6 is a diagram showing a part-of-speech-type part-of-speech connection table used in the embodiment;

【図7】本実施例に用いる活用−品詞類連接テーブルを
示す図である。
FIG. 7 is a diagram illustrating an inflection-part of speech class connection table used in the embodiment.

【図8】同上の活用−品詞類連接テーブルを示す図であ
る。
FIG. 8 is a diagram showing an inflection-part of speech class connection table according to the first embodiment;

【図9】本実施例に用いる品詞−品詞連接テーブルを示
す図である。
FIG. 9 is a diagram illustrating a part-of-speech-part-of-speech connection table used in the embodiment.

【図10】本実施例に用いる活用−活用連接テーブルを
示す図である。
FIG. 10 is a diagram illustrating a utilization-utilization connection table used in the present embodiment.

【図11】同上の活用−活用連接テーブルを示す図であ
る。
FIG. 11 is a diagram showing a utilization-utilization connection table according to the embodiment.

【図12】本実施例による解析処理例を示す図である。FIG. 12 is a diagram illustrating an example of an analysis process according to the embodiment;

【図13】本実施例による解析処理例を示す図である。FIG. 13 is a diagram illustrating an example of an analysis process according to the embodiment;

【図14】本実施例による解析処理例を示す図である。FIG. 14 is a diagram illustrating an example of an analysis process according to the embodiment;

【符号の説明】[Explanation of symbols]

1 制御部 2 見出し切り出し部 3 語尾活用部 4 検索前連接判定部 5 辞書検索部 6 検索後連接判定部 7 例外処理部 10 辞書 31 語尾活用テーブル 32 助詞テーブル 41 品詞−品詞類連接テーブル(品詞レベルの情報で
規定される連接テーブル) 42 活用−活用連接テーブル(語尾活用レベルの情報
で規定される連接テーブル) 61 品詞−品詞連接テーブル(品詞レベルの情報で規
定される連接テーブル)
DESCRIPTION OF SYMBOLS 1 Control part 2 Heading extraction part 3 Inflection part 4 Concatenation judgment part before search 5 Dictionary search part 6 Concatenation judgment part after search 7 Exception processing part 10 Dictionary 31 Inflection table 32 Particle table 41 Part-of-speech-part-of-speech class concatenation table (part-of-speech level 42 Utilization-utilization concatenation table (concatenation table specified by ending usage level information) 61 Part-of-speech-part-of-speech concatenation table (concatenation table specified by part-of-speech level information)

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int.Cl. 6 , DB name) G06F 17/20-17/28 JICST file (JOIS)

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 日本語形態素について、少なくとも形態
素の見出し、品詞、語尾活用型の情報を格納してなる辞
書を備え、 入力された日本語文における所定の範囲の文字列を文頭
側から順に切り出し、必要に応じて上記辞書を検索し
て、上記切り出した文字列に対応する形態素を同定して
いく日本語形態素解析システムにおいて、 上記切り出した文字列を語尾変形させて、少なくともそ
れに付随して推定される辞書登録形式の見出し、品詞
類、語尾活用型、活用形を、上記切り出した文字列に対
応する形態素候補の情報として出力する語尾活用部と、 辞書検索前に、上記形態素候補の品詞類の情報と直前に
同定された形態素の品詞の情報とを用いて品詞レベルで
の連接可否を判定する連接テーブルと、上記形態素候補
の品詞類、語尾活用型の情報と直前に同定された形態素
の品詞、語尾活用型、活用形の情報とを用いて語尾活用
レベルでの連接可否を判定する連接テーブルとを参照し
て、上記形態素候補と直前に同定された形態素との連接
可否を判定し、連接不可と判定した場合に上記形態素候
補を棄却する検索前連接判定部とを備えたことを特徴と
する日本語形態素解析システム。
A Japanese morpheme is provided with a dictionary storing at least morpheme headings, parts of speech, and inflection type information, and a predetermined range of character strings in an input Japanese sentence is cut out in order from the beginning of the sentence. In a Japanese morphological analysis system that searches the dictionary as needed and identifies a morpheme corresponding to the cut-out character string, the cut-out character string is ending deformed, and is estimated at least accompanying it. Ending part that outputs the headings, parts of speech, inflection type, and inflected form of the dictionary registration format as morpheme candidate information corresponding to the extracted character string. A concatenation table that determines whether or not concatenation is possible at the part of speech level using information and information on the part of speech of the morpheme identified immediately before; The morpheme candidate was identified immediately before referring to the morpheme candidate by referring to the information and the part of speech of the morpheme identified immediately before, the inflection type, and the concatenation table that determines whether or not concatenation at the inflection level using the information of the inflection form. A Japanese morphological analysis system comprising: a pre-search concatenation determination unit that determines whether or not connection with a morpheme is possible and rejects the morpheme candidate when it is determined that connection is not possible.
【請求項2】 辞書を検索して得られた形態素候補に対
応する形態素について、上記形態素候補に対応する形態
素の品詞の情報と直前に同定された形態素の品詞の情報
とを用いて、上記形態素候補に対応する形態素と直前に
同定された形態素との連接可否を判定する検索後連接判
定部を備えたことを特徴とする請求項1に記載の日本語
形態素解析システム。
2. A morpheme corresponding to a morpheme candidate obtained by searching a dictionary, using the part-of-speech information of the morpheme corresponding to the morpheme candidate and the information of the part-of-speech of the morpheme identified immediately before. The Japanese morphological analysis system according to claim 1, further comprising a post-search connection determination unit that determines whether connection is possible between the morpheme corresponding to the candidate and the morpheme identified immediately before.
【請求項3】 検索後連接判定部が、辞書を検索して得
られた形態素候補に対応する形態素の品詞の情報と直前
に同定された形態素の品詞の情報とを用いて品詞レベル
での連接可否を判定する連接テーブルを備えてなること
を特徴とする請求項2に記載の日本語形態素解析システ
ム。
3. A part-of-speech-level concatenation unit using a part-of-speech information of a morpheme corresponding to a morpheme candidate obtained by searching a dictionary and information of a part of speech of a morpheme identified immediately before. 3. The Japanese morphological analysis system according to claim 2, further comprising a connection table for determining whether or not the Japanese morphological analysis is possible.
【請求項4】 日本語形態素について、少なくとも形態
素の見出し、品詞、語尾活用型の情報を格納してなる辞
書を備え、 入力された日本語文における所定の範囲の文字列を文頭
側から順に切り出し、必要に応じて上記辞書を検索し
て、上記切り出した文字列に対応する形態素を同定して
いく日本語形態素解析システムの形態素解析方式におい
て、 上記切り出した文字列を語尾変形させて、少なくともそ
れに付随して推定される辞書登録形式の見出し、品詞
類、語尾活用型、活用形を、上記切り出した文字列に対
応する形態素候補の情報として出力し、 辞書検索前に、上記形態素候補の品詞類の情報と直前に
同定された形態素の品詞の情報とを用いて品詞レベルで
の連接可否を判定する連接テーブルと、上記形態素候補
の品詞類、語尾活用型の情報と直前に同定された形態素
の品詞、語尾活用型、活用形の情報とを用いて語尾活用
レベルでの連接可否を判定する連接テーブルとを参照し
て、上記形態素候補と直前に同定された形態素との連接
可否を判定し、 上記形態素候補と直前に同定された形態素とが連接する
可能性がないと判定した場合に、上記形態素候補を棄却
し、上記形態素候補と直前に同定された形態素とが連接
する可能性があると判定した場合に、上記形態素候補に
ついて上記辞書を検索し、 辞書を検索して得られた上記形態素候補に対応する形態
素の品詞の情報と直前に同定された形態素の品詞の情報
とを用いて、上記形態素候補に対応する形態素と直前に
同定された形態素との連接可否を判定し、 上記判定結果によって、上記切り出した文字列に対応す
る形態素を同定していくことを特徴とする形態素解析方
式。
4. A Japanese morpheme is provided with a dictionary storing at least morpheme headings, parts of speech, and inflection type information, and a predetermined range of character strings in the input Japanese sentence is cut out in order from the beginning of the sentence. In the morphological analysis method of the Japanese morphological analysis system that searches the dictionary as needed and identifies a morpheme corresponding to the cut character string, the cut character string is ending deformed, and at least Heading, part-of-speech, inflection type, and inflected form of the dictionary registration format estimated as the morpheme candidate corresponding to the cut-out character string, and output the morpheme candidate part-of-speech A concatenation table that determines whether or not concatenation is possible at the part of speech level using information and information on the part of speech of the morpheme identified immediately before; And the concatenation table that determines whether or not concatenation is possible at the inflection level using information on the part of speech of the morpheme identified immediately before, the inflection type, and the inflected form, and is identified with the morpheme candidate immediately before. The morpheme candidate is rejected, and if the morpheme candidate and the morpheme identified immediately before are determined to have no possibility of being connected, the morpheme candidate is rejected and the morpheme candidate is identified immediately before. When it is determined that there is a possibility that the morpheme is concatenated with the morpheme candidate, the dictionary is searched for the morpheme candidate, and the part-of-speech information of the morpheme corresponding to the morpheme candidate obtained by searching the dictionary is identified immediately before. Using the part-of-speech information of the morpheme, it is determined whether the morpheme corresponding to the morpheme candidate and the morpheme identified immediately before are connected or not. Based on the determination result, the morpheme corresponding to the cut-out character string Morphological analysis method, characterized in that it will be identified.
JP4214523A 1992-07-20 1992-07-20 Japanese morphological analysis system and morphological analysis method Expired - Fee Related JP2897942B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4214523A JP2897942B2 (en) 1992-07-20 1992-07-20 Japanese morphological analysis system and morphological analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4214523A JP2897942B2 (en) 1992-07-20 1992-07-20 Japanese morphological analysis system and morphological analysis method

Publications (2)

Publication Number Publication Date
JPH0635957A JPH0635957A (en) 1994-02-10
JP2897942B2 true JP2897942B2 (en) 1999-05-31

Family

ID=16657136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4214523A Expired - Fee Related JP2897942B2 (en) 1992-07-20 1992-07-20 Japanese morphological analysis system and morphological analysis method

Country Status (1)

Country Link
JP (1) JP2897942B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012146440A1 (en) 2011-03-18 2012-11-01 Semiocast Method and device for recognizing and tagging of peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2959769B2 (en) * 1988-04-08 1999-10-06 株式会社日立製作所 Japanese character string morphological analysis method and device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012146440A1 (en) 2011-03-18 2012-11-01 Semiocast Method and device for recognizing and tagging of peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents

Also Published As

Publication number Publication date
JPH0635957A (en) 1994-02-10

Similar Documents

Publication Publication Date Title
US4868750A (en) Collocational grammar system
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5369577A (en) Text searching system
US5708829A (en) Text indexing system
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
US5323316A (en) Morphological analyzer
CA1300272C (en) Word annotation system
JP2583386B2 (en) Keyword automatic extraction device
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
KR20160138077A (en) Machine translation system and method
US8327265B1 (en) System and method for parsing a document
JPH0567144A (en) Method and device for pre-edit supporting
JP2006251843A (en) Synonym pair extracting device, and computer program therefor
JPH0934905A (en) Key sentence extraction system, selection system and sentence retrieval system
JP2897942B2 (en) Japanese morphological analysis system and morphological analysis method
Croft et al. TREC-2 routing and ad-hoc retrieval evaluation using the INQUERY system
JP4378106B2 (en) Document search apparatus, document search method and program
JP2897191B2 (en) Japanese morphological analysis system and morphological analysis method
KR20020054254A (en) Analysis Method for Korean Morphology using AVL+Trie Structure
JPH03105465A (en) Compound word extraction device
JPS61248160A (en) Document information registering system
JPH11338863A (en) Automatic collection and qualification device for unknown noun and flickering katakana word and storage medium recording processing procedure of the device
JP2807236B2 (en) Morphological analysis method
JP3360803B2 (en) Recording medium and system for implementing method of determining meaning of related word

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees