JP2009048472A - Morpheme candidate generation device and computer program - Google Patents

Morpheme candidate generation device and computer program Download PDF

Info

Publication number
JP2009048472A
JP2009048472A JP2007214934A JP2007214934A JP2009048472A JP 2009048472 A JP2009048472 A JP 2009048472A JP 2007214934 A JP2007214934 A JP 2007214934A JP 2007214934 A JP2007214934 A JP 2007214934A JP 2009048472 A JP2009048472 A JP 2009048472A
Authority
JP
Japan
Prior art keywords
morpheme
probability
character
feature
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007214934A
Other languages
Japanese (ja)
Other versions
JP5105996B2 (en
Inventor
Norio Goto
功雄 後藤
Hideki Tanaka
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007214934A priority Critical patent/JP5105996B2/en
Publication of JP2009048472A publication Critical patent/JP2009048472A/en
Application granted granted Critical
Publication of JP5105996B2 publication Critical patent/JP5105996B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To achieve an unlimited length of unknown word morpheme candidates, exclusion of extremely improper unknown word morpheme candidates, and avoidance of reduction in generation probability of the unknown word morpheme candidates. <P>SOLUTION: The device comprises: a morpheme division point probability calculation means which calculates a morpheme division point probability in which a space between words in an input sentence is a division point of morpheme; a morpheme probability calculation means which calculates a morpheme probability in which a character string in the input sentence is a morpheme; and a morpheme candidate determination means which determines all character strings which will be morpheme candidates in the input sentence. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、形態素候補生成装置およびコンピュータプログラムに関する。   The present invention relates to a morpheme candidate generation device and a computer program.

日本語の形態素解析は、日本語文を形態素へ分割し、各形態素の文法的属性(品詞や活用型・活用形など)を決定する処理である。一般に、その処理には形態素辞書を用いる。具体的には、解析したい日本語文(入力文)中において形態素辞書の見出しと一致する全ての文字列を形態素の候補とし、この候補をグラフ構造で表現し、このグラフ構造中で最適な形態素の並びと文法的属性の並びを決定する。但し、新しい語(特に固有名詞や専門用語など)が出現するため、あらかじめ全ての形態素を辞書に登録しておくことは、解析対象を限定しない限り困難である。そこで形態素解析では、形態素辞書に登録されていない語である未知語の形態素を解析する未知語処理が必要である。未知語処理では、形態素辞書に登録されていない文字列であって形態素である可能性があるものを入力文中から推定し、これを形態素の候補としてグラフ構造に追加する。この未知語処理において正しい形態素が形態素候補としてグラフ構造に追加されなければ、正しく解析することはできないため、正しい未知語形態素を生成して形態素候補とすることが重要である。   Japanese morpheme analysis is a process of dividing a Japanese sentence into morphemes and determining grammatical attributes (part of speech, inflection type, inflection form, etc.) of each morpheme. In general, a morpheme dictionary is used for the processing. Specifically, in the Japanese sentence to be analyzed (input sentence), all character strings that match the headings of the morpheme dictionary are set as morpheme candidates, and the candidates are expressed in a graph structure. Determine the sequence and sequence of grammatical attributes. However, since new words (particularly proper nouns and technical terms) appear, it is difficult to register all morphemes in the dictionary in advance unless the analysis target is limited. Therefore, in morpheme analysis, an unknown word process for analyzing an unknown word morpheme that is not registered in the morpheme dictionary is required. In the unknown word processing, a character string that is not registered in the morpheme dictionary and may be a morpheme is estimated from the input sentence, and this is added to the graph structure as a morpheme candidate. If the correct morpheme is not added to the graph structure as a morpheme candidate in this unknown word process, it is important to generate a correct unknown word morpheme and use it as a morpheme candidate.

従来の形態素解析における未知語処理としては、以下に示すものが知られている。
(1)長さヒューリスティクスによる処理(例えば、非特許文献1参照)
任意の文字列の全てを形態素候補として扱うと、候補数のオーダがn2(nは入力文の文字数)となり多くなってしまう。そこで候補数を削減するためにヒューリスティクスにより形態素候補の文字列長を制限する。非特許文献1記載の従来技術では、5文字以下の全ての文字列と、連続するカタカナの文字列とを未知語の候補としている。
(2)文字種ヒューリスティクスによる処理(例えば、非特許文献2参照)
文字種に基づいたヒューリスティクスにより未知語候補を生成する手法においては、ルールに適合する文字列はすべて形態素候補となる。非特許文献2記載の従来技術では、文字種などの情報を利用してヒューリスティクスにより未知語候補を生成し、識別モデルであるCRFに基づいて形態素解析している。
(3)n-gram生成モデルによる処理(例えば、非特許文献3参照)
非特許文献3記載の従来技術では、未知語の生成確率を文字n-gramの生成モデルを用いて計算し、未知語候補の生成に利用している。
(4)形態素への分割のみを先に決定する処理(例えば、非特許文献4参照)
非特許文献4記載の従来技術では、未知語の解析手法として、品詞を考慮せずに形態素への分割のみを先に決定している。
内元清貴,関根聡,井佐原均,“最大エントロピーモデルに基づく形態素解析−未知語の問題の解決策−,自然言語処理,Vol.8,No.1,pp.127-141,Jan.2001. 工藤拓,山本薫,松本裕治,“Conditional Random Fieldsを用いた日本語形態素解析”,SIG-NL-161(13),pp.89-96,2004. 永田昌明,“統計的言語モデルとN-best探索を用いた日本語形態素解析法”,情報処理学会論文誌,Vol.40,No.9,pp.3420-3431,Sep.1999. 中川哲治,松本裕治,“単語レベルと文字レベルの情報を用いた中国語・日本語単語分割”,情報処理学会論文誌,Vol.46,N0.11,pp.2714-2727,Nov.2005.
The following are known as unknown word processing in the conventional morphological analysis.
(1) Processing by length heuristics (for example, see Non-Patent Document 1)
When all the arbitrary character strings are handled as morpheme candidates, the order of the number of candidates increases to n 2 (n is the number of characters in the input sentence). Therefore, in order to reduce the number of candidates, the character string length of morpheme candidates is limited by heuristics. In the prior art described in Non-Patent Document 1, all character strings of 5 characters or less and consecutive katakana character strings are candidates for unknown words.
(2) Processing by character type heuristics (for example, see Non-Patent Document 2)
In the method of generating unknown word candidates by heuristics based on character types, all character strings that meet the rules are morpheme candidates. In the prior art described in Non-Patent Document 2, unknown word candidates are generated by heuristics using information such as character types, and morphological analysis is performed based on CRF as an identification model.
(3) Processing by n-gram generation model (for example, see Non-Patent Document 3)
In the prior art described in Non-Patent Document 3, the generation probability of an unknown word is calculated using a character n-gram generation model and used to generate an unknown word candidate.
(4) Process for determining only division into morphemes first (for example, see Non-Patent Document 4)
In the prior art described in Non-Patent Document 4, as an unknown word analysis method, only division into morphemes is determined in advance without considering the part of speech.
Kiyotaka Uchimoto, Satoshi Sekine, Hitoshi Isahara, “Morphological analysis based on the maximum entropy model -Solution of unknown word problem-, Natural language processing, Vol.8, No.1, pp.127-141, Jan.2001. Taku Kudo, Atsushi Yamamoto, Yuji Matsumoto, “Japanese Morphological Analysis Using Conditional Random Fields”, SIG-NL-161 (13), pp.89-96, 2004. Masaaki Nagata, “Japanese morphological analysis using statistical language model and N-best search”, Transactions of Information Processing Society of Japan, Vol.40, No.9, pp.3420-3431, Sep.1999. Tetsuji Nakagawa, Yuji Matsumoto, “Chinese / Japanese word segmentation using word-level and character-level information”, IPSJ Journal, Vol.46, N0.11, pp.2714-2727, Nov.2005.

しかし、上述した従来技術では、以下に示すような問題がある。
(1)長さヒューリスティクスによる処理では、文字数を制限すると、それ以上長い未知語を解析できないという問題がある。
(2)文字種ヒューリスティクスによる処理では、学習データに出現しない特徴を持つ文字列を形態素候補とすると、識別モデルでは適切に識別できず、解析誤りの原因となるという問題がある。そのため、入力文から形態素候補を生成する段階において形態素となる可能性を計算し、極端に不適切な形態素候補を生成しないようにすることが重要である。また、従来手法の最長一致法や分割数最小法を用いる場合も、不適切な未知語候補は解析精度の低下を引き起こす。
(3)n-gram生成モデルによる処理では、学習データに全く又はほとんど出現しない文字列の生成確率は小さくなる。未知語は学習データに全く又はほとんど出現しない場合が多いと考えられるため、未知語の文字列の生成確率は小さくなりやすく、適切に未知語形態素候補を生成することは困難である。
(4)形態素への分割のみを先に決定する処理に対して、我々は、形態素の決定は品詞などの文法的属性も同時に考慮して行った方がより多くの情報を考慮できるので有利だと考えている。
However, the above-described conventional technology has the following problems.
(1) In processing by length heuristics, there is a problem that unknown words longer than that cannot be analyzed if the number of characters is limited.
(2) In the processing based on the character type heuristics, if a character string having a feature that does not appear in the learning data is used as a morpheme candidate, there is a problem that the identification model cannot be appropriately identified and causes an analysis error. Therefore, it is important to calculate the possibility of becoming a morpheme at the stage of generating a morpheme candidate from an input sentence so as not to generate an extremely inappropriate morpheme candidate. Even when the longest matching method or the minimum number of division method of the conventional method is used, inappropriate unknown word candidates cause a decrease in analysis accuracy.
(3) In the process using the n-gram generation model, the generation probability of a character string that does not appear at all or almost in the learning data is small. Since it is considered that the unknown word often does not appear at all or hardly in the learning data, the generation probability of the character string of the unknown word tends to be small, and it is difficult to appropriately generate the unknown word morpheme candidate.
(4) Compared to the process of determining only the division into morphemes, it is advantageous for us to consider grammatical attributes such as parts of speech at the same time, because more information can be taken into account. I believe.

本発明は、このような事情を考慮してなされたもので、その目的は、未知語形態素候補の長さに制限を設けないこと、極端に不適切な未知語形態素候補を排除すること、未知語形態素候補の生成確率が小さくならないことを実現することのできる形態素候補生成装置およびコンピュータプログラムを提供することにある。   The present invention has been made in view of such circumstances, and its purpose is not to limit the length of unknown word morpheme candidates, to eliminate extremely inappropriate unknown word morpheme candidates, unknown It is an object to provide a morpheme candidate generation device and a computer program capable of realizing that the generation probability of word morpheme candidates is not reduced.

上記の課題を解決するために、本発明に係る形態素候補生成装置は、入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算手段と、前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算手段と、前記形態素確率に基づいて、前記入力文において全ての形態素候補となる文字列を判定する形態素候補判定手段と、を備えたことを特徴とする。   In order to solve the above-mentioned problem, the morpheme candidate generation device according to the present invention includes a morpheme division point probability calculation unit that calculates a morpheme division point probability that a character has a division point between characters in an input sentence, and the morpheme division point. A morpheme probability calculation unit that calculates a morpheme probability that a character string in the input sentence is a morpheme using a probability, and a morpheme candidate that determines character strings that are all morpheme candidates in the input sentence based on the morpheme probability And a determination unit.

本発明に係る形態素候補生成装置においては、前記入力文から素性を作成するための素性テンプレートを格納する素性テンプレートテーブルと、素性ベクトルの成分となる素性を定義する素性ベクトル定義テーブルと、を備え、前記形態素分割点確率計算手段は、前記素性テンプレートを用いて素性を作成し、該素性と前記素性ベクトルの定義との一致を調べ、該一致した成分のみに所定値を持つ素性ベクトル(例えば、一致した成分の値を“1”,一致しなかった成分の値を“0”とする)を作成し、該素性ベクトルを用いた最大エントロピー法の確率モデルによって形態素分割点確率を算出することを特徴とする。   The morpheme candidate generation device according to the present invention includes a feature template table that stores a feature template for creating a feature from the input sentence, and a feature vector definition table that defines a feature that is a component of a feature vector, The morpheme segmentation point probability calculation means creates a feature using the feature template, examines a match between the feature and the definition of the feature vector, and a feature vector having a predetermined value only for the matched component (for example, a match) The value of the calculated component is “1”, and the value of the component that did not match is “0”), and the morpheme segmentation point probability is calculated by the maximum entropy method probability model using the feature vector And

本発明に係る形態素候補生成装置においては、前記形態素候補判定手段は、入力文中の一つ一つの文字について、その文字を形態素候補の先頭文字として、後続の文字を連結していき、その各連結した文字列の形態素確率を計算し、該形態素確率を閾値により判定し、この閾値判定結果から当該文字列を形態素候補にするか決定するものであり、先頭文字の直前の文字間の形態素分割点確率とそれ以降の文字間が形態素の分割点ではない確率との積を保持しておき(図10のステップ207)、連結した文字列の直後の文字間の形態素分割点確率を該保持した積に乗ずることにより該連結した文字列の形態素確率を得る(図10のステップ204)ことを特徴とする。   In the morpheme candidate generation device according to the present invention, the morpheme candidate determination means, for each character in the input sentence, uses the character as the first character of the morpheme candidate and connects subsequent characters. The morpheme probability of the character string is calculated, the morpheme probability is determined by a threshold value, and it is determined whether the character string is a morpheme candidate from the threshold determination result. The product of the probability and the probability that the subsequent character is not a morpheme division point is held (step 207 in FIG. 10), and the product that holds the morpheme division point probability between characters immediately after the connected character string The morpheme probability of the connected character string is obtained by multiplying by (step 204 in FIG. 10).

本発明に係る形態素候補生成装置においては、前記形態素候補判定手段は、ある文字間の形態素分割点確率と、それ以降の文字間が形態素の分割点ではない確率との積を前記閾値により判定し(図10のステップ208)、この閾値判定結果から、当該先頭文字についての以降の後続文字を連結する処理について省略するか決定することを特徴とする。   In the morpheme candidate generation device according to the present invention, the morpheme candidate determination unit determines, based on the threshold value, a product of a morpheme division point probability between certain characters and a probability that a subsequent character is not a morpheme division point. (Step 208 in FIG. 10), it is determined from this threshold determination result whether to omit the process of concatenating subsequent subsequent characters for the first character.

本発明に係るコンピュータプログラムは、入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算機能と、前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算機能と、前記形態素確率に基づいて形態素候補となる文字列を判定する形態素候補判定機能と、をコンピュータに実現させることを特徴とする。
これにより、前述の形態素候補生成装置がコンピュータを利用して実現できるようになる。
A computer program according to the present invention uses a morpheme division point probability calculation function for calculating a morpheme division point probability that a morpheme division point is between characters in an input sentence, and a character string in the input sentence using the morpheme division point probability. A morpheme probability calculation function that calculates a morpheme probability that is a morpheme and a morpheme candidate determination function that determines a character string that is a morpheme candidate based on the morpheme probability are realized by a computer.
As a result, the morpheme candidate generation device described above can be realized using a computer.

本発明によれば、入力文から形態素候補を自動生成することができる。その生成された形態素候補は、長さに制限がない、極端に不適切な形態素候補が排除される、n-gram生成モデルによらないので形態素候補の生成確率が小さくならない、などの特徴を有する。これにより、適切な未知語処理の実現に寄与することが可能になる。   According to the present invention, morpheme candidates can be automatically generated from an input sentence. The generated morpheme candidates have features such as unlimited length, exclusion of extremely inappropriate morpheme candidates, and the generation probability of morpheme candidates does not decrease because it does not depend on the n-gram generation model. . Thereby, it becomes possible to contribute to realization of appropriate unknown word processing.

以下、図面を参照し、本発明の一実施形態について説明する。   Hereinafter, an embodiment of the present invention will be described with reference to the drawings.

本発明は、入力文から形態素候補を生成するものであるが、入力文中の任意の文字列についてその文字列が形態素である確率(以下、「形態素確率」と称する)に基づいて、当該文字列を形態素候補とするか否かを決定する。その形態素確率を計算する際には、入力文中の文字間が形態素の分割点である確率(以下、「形態素分割点確率」と称する)を用いる。   The present invention generates a morpheme candidate from an input sentence. Based on a probability that the character string is a morpheme for an arbitrary character string in the input sentence (hereinafter referred to as “morpheme probability”), the character string Is determined as a morpheme candidate. When calculating the morpheme probability, a probability that a space between characters in the input sentence is a morpheme division point (hereinafter referred to as “morpheme division point probability”) is used.

まず、本実施形態に係る形態素確率および形態素分割点確率について説明する。
入力文S'の文頭及び文末に端記号“#”を追加し、wiを形態素として、処理対象文Sを{S=w1w2・・・wi・・・wn=w1 n,w1=wn=“#”}とする。nは形態素の個数である。このとき、形態素列w1 nへの分割確率は“P(w1 n|S)”となる。さらに、各形態素が他の形態素に依存しないように近似すると、(1)式が得られる。(1)式において、“P(wi|S)”は、処理対象文S中のある文字列が形態素である確率を表す。
First, the morpheme probability and the morpheme division point probability according to the present embodiment will be described.
Add the end symbol "#" in the beginning of a sentence and the end of the sentence of the input sentence S ', the morphemes w i, the processed sentence S {S = w 1 w 2 ··· w i ··· w n = w 1 n , W 1 = w n = “#”}. n is the number of morphemes. At this time, the division probability into the morpheme sequence w 1 n is “P (w 1 n | S)”. Furthermore, when each morpheme is approximated so as not to depend on other morphemes, equation (1) is obtained. In the formula (1), “P (w i | S)” represents the probability that a certain character string in the processing target sentence S is a morpheme.

Figure 2009048472
Figure 2009048472

ここで、“P(wi|S)”を文字単位の処理に変形する。文字を“cj”として、処理対象文Sを{S=c1c2・・・cj・・・cm=c1 m}とする。mは文字の個数である。処理対象文Sをどのような形態素列w1 nに分割するかは、処理対象文Sの文字列c1 m中の全ての文字間が、形態素の分割点である(delimiter)か、分割点でない(non-delimiter)かによって表現できる。そこで、図1に示すように、文字cjと文字cj+1との間が、分割点である場合は“sj=1”、分割点でない場合は“sj=0”として表す(つまり、sj∈{0,1})。そして、{wi=cp q}とすると、図2に示すように、形態素wiは{S=c1 m}と“sp-1 q”で表現できる。これにより、(2)式が得られる。 Here, “P (w i | S)” is transformed into character unit processing. The character S is “c j ”, and the processing target sentence S is {S = c 1 c 2 ... C j ... C m = c 1 m }. m is the number of characters. The morpheme sequence w 1 n is divided into whether the morpheme string w 1 n is divided between all characters in the character string c 1 m of the process target statement S (delimiter) It can be expressed by non-delimiter. Therefore, as shown in FIG. 1, the character c j and the character c j + 1 are expressed as “s j = 1” when they are division points and “s j = 0” when they are not division points ( That is, s j ∈ {0,1}). If {w i = c p q }, as shown in FIG. 2, the morpheme w i can be expressed by {S = c 1 m } and “s p−1 q ”. Thereby, Formula (2) is obtained.

Figure 2009048472
Figure 2009048472

ここで、“P(sp-1 q|S)”を近似して、“sj”が他の“s”に依存しないようにし、さらに条件の{S=c1 m}を“sj”の直前のa個の文字と直後のa個の文字とに制限する。これにより、(3)式が得られる。 Here, “P (s p−1 q | S)” is approximated so that “s j ” does not depend on other “s”, and the condition {S = c 1 m } is changed to “s j Limit to the a characters immediately before and the a characters immediately following. Thereby, Formula (3) is obtained.

Figure 2009048472
Figure 2009048472

本実施形態では、(3)式の値を形態素確率に用いる。また、形態素確率が閾値以上である文字列を形態素候補とする。(3)式において、「sj=1」とすると、“P(sj|cj-a+1 j+a)”は形態素分割点確率である。本実施形態では、“P(sj|cj-a+1 j+a)”を計算する確率モデルとして、最大エントロピー法を用いる。最大エントロピー法で利用する素性には、文字以外に、カタカナ、ひらがな及び漢字などの文字種も用いることができる。最大エントロピー法による“P(sj|cj-a+1 j+a)”の確率モデルは(4)式で表される。 In the present embodiment, the value of equation (3) is used for the morpheme probability. A character string having a morpheme probability equal to or higher than a threshold is set as a morpheme candidate. In equation (3), if “s j = 1”, “P (s j | c j−a + 1 j + a )” is the morpheme division point probability. In this embodiment, the maximum entropy method is used as a probability model for calculating “P (s j | c j−a + 1 j + a )”. In addition to characters, character types such as katakana, hiragana, and kanji can also be used as features used in the maximum entropy method. A probabilistic model of “P (s j | c j−a + 1 j + a )” by the maximum entropy method is expressed by equation (4).

Figure 2009048472
Figure 2009048472

但し、“F(cj-a+1 j+a,sj)”は素性ベクトルである。素性ベクトルF(cj-a+1 j+a,sj)は文字cj-a+1 j+aと“sj”を特徴づける。素性ベクトルF(cj-a+1 j+a,sj)は、0又は1を値に持つ成分から構成される。“Λ”は、素性ベクトルF(cj-a+1 j+a,sj)の各成分に対応した重みのパラメータのベクトル(以下、「重みパラメータベクトル」と称する)である。“・”は内積を表す。“Z”は確率モデルの正規化項である。正規化項Zは、「sj∈{0,1}」であるので、(5)式で表される。 However, “F (c j−a + 1 j + a , s j )” is a feature vector. The feature vector F (c j−a + 1 j + a , s j ) characterizes the characters c j−a + 1 j + a and “s j ”. The feature vector F (c j−a + 1 j + a , s j ) is composed of components having 0 or 1 as values. “Λ” is a vector of weight parameters corresponding to each component of the feature vector F (c j−a + 1 j + a , s j ) (hereinafter referred to as “weight parameter vector”). “·” Represents an inner product. “Z” is a normalization term of the probability model. Since the normalization term Z is “s j ε {0, 1}”, it is expressed by equation (5).

Figure 2009048472
Figure 2009048472

本実施形態では、(4)式および(5)式により形態素分割点確率を計算する。   In the present embodiment, the morpheme division point probability is calculated by the equations (4) and (5).

次に、本実施形態に係る形態素候補生成装置を説明する。
図3は、本発明の一実施形態に係る形態素候補生成装置1の構成を示すブロック図である。図3において、形態素候補生成装置1は、形態素分割点確率計算部2、形態素確率計算部3、形態素候補判定部4、素性テンプレートテーブル5、確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7を有する。
Next, the morpheme candidate generation device according to the present embodiment will be described.
FIG. 3 is a block diagram showing a configuration of the morpheme candidate generation device 1 according to an embodiment of the present invention. In FIG. 3, the morpheme candidate generation device 1 includes a morpheme division point probability calculation unit 2, a morpheme probability calculation unit 3, a morpheme candidate determination unit 4, a feature template table 5, a probability model parameter table 6, and a feature vector definition table 7.

形態素分割点確率計算部2は、入力文中の各文字間の形態素分割点確率を算出する。形態素確率計算部3は、入力文中の各文字列の形態素確率を算出する。形態素候補判定部4は、形態素確率に基づいて、入力文中の各文字列が形態素候補となるか否かを判定する。   The morpheme division point probability calculation unit 2 calculates a morpheme division point probability between each character in the input sentence. The morpheme probability calculation unit 3 calculates the morpheme probability of each character string in the input sentence. The morpheme candidate determination unit 4 determines whether each character string in the input sentence is a morpheme candidate based on the morpheme probability.

素性テンプレートテーブル5は素性テンプレートを格納する。図4に素性テンプレートテーブル5の構成例を示す。図4の例では、18種類の素性テンプレートが素性テンプレートテーブル5に格納されている。なお、図4中には文字に係る素性テンプレートのみを示しているが、文字種に係る素性テンプレートも格納することができる。文字種に係る素性テンプレートは、図4中には文字に係る素性テンプレートにおいて文字(例えば“cj j+1”)を文字種の表現に置き換えればよい。 The feature template table 5 stores feature templates. FIG. 4 shows a configuration example of the feature template table 5. In the example of FIG. 4, 18 types of feature templates are stored in the feature template table 5. In FIG. 4, only the feature template related to the character is shown, but the feature template related to the character type can also be stored. In the feature template related to the character type, in FIG. 4, the character (for example, “c j j + 1 ”) in the feature template related to the character may be replaced with the expression of the character type.

確率モデルパラメータテーブル6は、重みパラメータベクトルΛを格納する。素性ベクトル定義テーブル7は、素性ベクトルF(cj-a+1 j+a,sj)を定義する情報を格納する。図5に素性ベクトル定義テーブル7の構成例を示す。図5に示すように、素性ベクトル定義テーブル7は、素性と素性ベクトルの成分番号との対応関係を示す。素性テンプレートテーブル5、確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7については、事前に準備し、形態素候補生成装置1のメモリに格納しておく。 The probability model parameter table 6 stores a weight parameter vector Λ. The feature vector definition table 7 stores information defining the feature vector F (c j−a + 1 j + a , s j ). FIG. 5 shows a configuration example of the feature vector definition table 7. As shown in FIG. 5, the feature vector definition table 7 shows the correspondence between features and component vector component numbers. The feature template table 5, the probability model parameter table 6 and the feature vector definition table 7 are prepared in advance and stored in the memory of the morpheme candidate generation device 1.

なお、本実施形態に係る形態素候補生成装置1は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図3に示される形態素候補生成装置1の各部の機能を実現するためのプログラムをCPUで実行することによりその機能を実現させるものであってもよい。   Note that the morpheme candidate generation device 1 according to the present embodiment may be realized by dedicated hardware, or is configured by a computer system such as a personal computer, and the morpheme candidate generation device 1 shown in FIG. The function may be realized by executing a program for realizing the function of each part of the above on the CPU.

次に、図3に示す形態素候補生成装置1の動作を順次説明する。   Next, operations of the morpheme candidate generation device 1 illustrated in FIG. 3 will be sequentially described.

まず、図6を参照して形態素分割点確率計算部2の動作を説明する。図6は、本実施形態に係る形態素分割点確率算出処理の手順を示すフローチャートである。形態素分割点確率算出処理は、入力文S'中の文字間jが形態素の分割点(sj=1)となる形態素分割点確率djを計算する。以下、適宜、具体例を挙げながら説明を行う。 First, the operation of the morpheme division point probability calculation unit 2 will be described with reference to FIG. FIG. 6 is a flowchart showing a procedure of morpheme division point probability calculation processing according to the present embodiment. In the morpheme division point probability calculation process, a morpheme division point probability d j in which an inter-character j in the input sentence S ′ is a morpheme division point (s j = 1) is calculated. Hereinafter, description will be made with specific examples as appropriate.

図6において、ステップ101では、入力文S'の文頭及び文末に端記号“#”を付加し、付加後の処理対象文Sをメモリに保持する。ここでは、入力文S'の具体例として“私は日本人です”を用いる。この入力文例の文字数は7である。ステップ101によって、処理対象文Sとして“#私は日本人です#”がメモリに保持される。この処理対象文例の文字数は9である。図7にメモリ上のデータ保持形式の例を示す。図7に示されるように、文字変数cjと処理対象文S中の文字と文字間を示す変数jとを組にしてメモリに保持する。変数jは、文字変数cjの文字の直後の文字間を示す。 In FIG. 6, in step 101, a terminal symbol “#” is added to the head and end of the input sentence S ′, and the processed sentence S after the addition is held in the memory. Here, “I am Japanese” is used as a specific example of the input sentence S ′. The number of characters in this input sentence example is seven. In step 101, “#I am Japanese #” is stored in the memory as the processing target sentence S. This processing target sentence example has 9 characters. FIG. 7 shows an example of a data holding format on the memory. As shown in FIG. 7, the character variable c j , the character in the processing target sentence S, and the variable j indicating the character spacing are paired and held in the memory. The variable j indicates the space between characters immediately after the character of the character variable c j .

ステップ102では、計算対象の文字間を示す変数jに最初の文字間の値“1”を代入する。但し、{j=1,2,・・・,m}であり、文字間の個数mは「“入力文S'の文字数”+1」である。“私は日本人です”の場合、文字間の個数mは「7+1=8」である。   In step 102, the value “1” between the first characters is assigned to the variable j indicating the space between characters to be calculated. However, {j = 1, 2,..., M}, and the number m between characters is ““ number of characters in input sentence S ′ ”+ 1”. In the case of “I am Japanese,” the number m between letters is “7 + 1 = 8”.

ステップ103では、文字間jを対象にして、素性テンプレートテーブル5中の全ての素性テンプレートに関し、それぞれに素性テンプレートを用いて素性を作成する。但し、素性テンプレートに対応する素性がない場合がある。   In step 103, with respect to all character templates in the feature template table 5, a feature is created using the feature template for each character j. However, there may be no feature corresponding to the feature template.

図4の素性テンプレートテーブル5の例では18種類の素性テンプレートがあるので、18種類の各々の素性テンプレートについて該素性テンプレートを用いて素性を作成し、合計18個の素性を作成する。この作成された素性の具体例として、ここでは「j=3」の場合を図8に示す。図8には、処理対象文Sとして“#私は日本人です#”についての「j=3」の場合の18個の素性が示されている。例えば、テンプレート番号1の素性テンプレート「<cj j+1,sj>=<c3 4,s3>」を用いた場合、メモリに保持されている文字変数c3の文字“は”から文字変数c4の文字“日”まで2文字を連結し、素性<“は日”,s3>を作成する。このとき、s3は1を用いる。これは、文字間jが形態素の分割点(sj=1)となる形態素分割点確率djを求めているからである。この結果、素性<“は日”,1>が作成される。同様に、例えば、テンプレート番号9の素性テンプレート「<cj-1 j+3,sj>=<c2 6,s3>」を用いた場合、メモリに保持されている文字変数c2の文字“私”から文字変数c6の文字“人”まで5文字を連結し、素性<“私は日本人”,1>を作成する。なお、図8中のテンプレート番号7,14の2種類の素性テンプレートについては対応する素性がないので、図8の例では16個の素性が作成される。 In the example of the feature template table 5 in FIG. 4, there are 18 types of feature templates. Therefore, for each of the 18 types of feature templates, a feature is created using the feature template, and a total of 18 features are created. As a specific example of the created feature, FIG. 8 shows a case where “j = 3”. FIG. 8 shows 18 features when “j = 3” for “#I am a Japanese #” as the processing target sentence S. For example, when the feature template “<c j j + 1 , s j > = <c 3 4 , s 3 >” of template number 1 is used, the character “c” of the character variable c 3 held in the memory is Two characters are concatenated up to the character “day” of the character variable c 4 to create a feature <“has day”, s 3 >. At this time, it s 3 is used 1. This is because the morpheme division point probability d j in which the inter-character j becomes the morpheme division point (s j = 1) is obtained. As a result, the feature <"is a day", 1> is created. Similarly, for example, when the feature template “<c j−1 j + 3 , s j > = <c 2 6 , s 3 >” of the template number 9 is used, the character variable c 2 stored in the memory Concatenate five characters from the character “I” to the character “people” in the character variable c 6 to create a feature <“I am Japanese”, 1>. Since there are no corresponding features for the two types of feature templates of template numbers 7 and 14 in FIG. 8, 16 features are created in the example of FIG.

ステップ104では、ステップ103で作成された素性のそれぞれについて、素性を検索キーにして素性ベクトル定義テーブル7を検索する。ステップ105では、ステップ104の検索の結果、発見された素性の成分番号を素性ベクトル定義テーブル7から取得する。   In step 104, the feature vector definition table 7 is searched for each feature created in step 103 using the feature as a search key. In step 105, the component number of the feature found as a result of the search in step 104 is acquired from the feature vector definition table 7.

ステップ106では、素性ベクトル「F(cj-a+1 j+a,sj)={f1,f2,f3,・・・,fr}」を作成する。但し、fkは成分番号kの成分の値である。kは1からrまでの自然数である。rは成分番号の最大値である。素性ベクトルの成分fkは、ステップ105で取得された成分番号の成分の値を“1”とし、取得されなかった成分番号の成分の値を“0”とする。 In step 106, a feature vector “F (c j−a + 1 j + a , s j ) = {f 1 , f 2 , f 3 ,..., F r }” is created. Here, f k is the value of the component number k. k is a natural number from 1 to r. r is the maximum value of the component number. In the feature vector component f k , the value of the component with the component number acquired in step 105 is set to “1”, and the value of the component with the component number not acquired is set to “0”.

例えば、ステップ104,105の結果の例として、「j=3」において、テンプレート番号16,17の素性のみが素性ベクトル定義テーブル7から発見され、成分番号3,5のみが取得されたとする。このとき、ステップ106により、「j=3」において、成分番号3,5のみの成分値が“1”である素性ベクトル「F(cj-a+1 j+a,sj)=(f1,f2,f3,f4,f5,f6,・・・,fr)=(0,0,1,0,1,0,・・・,0)」が作成される。 For example, as an example of the results of steps 104 and 105, it is assumed that only the features of template numbers 16 and 17 are found from the feature vector definition table 7 and only component numbers 3 and 5 are acquired at “j = 3”. At this time, in step 106, the feature vector “F (c j−a + 1 j + a , s j ) = (f) where the component values of only the component numbers 3 and 5 are“ 1 ”at“ j = 3 ”. 1 , f 2 , f 3 , f 4 , f 5 , f 6 ,..., F r ) = (0,0,1,0,1,0,..., 0) ”is created.

ステップ107では、文字間jについての形態素分割点確率djを上述の(4)式及び(5)式により計算し、メモリに保持する。文字間jの形態素分割点確率djは、文字間jの素性ベクトルF(cj-a+1 j+a,sj)と、確率モデルパラメータテーブル6中の重みパラメータベクトルΛを使用して算出する。ここで、(5)式において、「s'=1」の場合のF(cj-a+1 j+a,1)はステップS106で求めた素性ベクトルF(cj-a+1 j+a,sj)を使用する。「s'=0」の場合のF(cj-a+1 j+a,0)は、「sj=0」として上記ステップS104,105,106を行い、この結果の素性ベクトルF(cj-a+1 j+a,sj)を使用する。なお、図5のように、素性ベクトル定義テーブル7においてsj以外が同一となる素性において「sj=1」の成分番号の次の成分番号を「sj=0」と定義した場合には、「s'=0」の場合のF(cj-a+1 j+a,0)は、ステップS106で求めた素性ベクトルF(cj-a+1 j+a,sj)で、値が“1”になっている成分番号を1つ増やした成分番号の成分値のみを“1”にしたもの(例えば、「sj=1」でF(cj-a+1 j+a,sj)=(0,0,1,0,1,0)なら、「sj=0」でF(cj-a+1 j+a,sj)=(0,0,0,1,0,1)となる)を使用すればよい(このときは「s'=0」の場合のF(cj-a+1 j+a,0)を求めるために、ステップS104,105,106を行う必要がない)。 In step 107, the morpheme dividing point probability d j for the inter-character j is calculated by the above equations (4) and (5) and stored in the memory. The inter-character j morpheme dividing point probability d j is obtained by using the inter-character j feature vector F (c j−a + 1 j + a , s j ) and the weight parameter vector Λ in the probability model parameter table 6. calculate. Here, in equation (5), F (c j−a + 1 j + a , 1) in the case of “s ′ = 1” is the feature vector F (c j−a + 1 j + ) obtained in step S106. a , s j ). F (c j−a + 1 j + a , 0) in the case of “s ′ = 0” performs the above steps S104, 105, and 106 with “s j = 0”, and the resulting feature vector F (c j-a + 1 j + a , s j ). Incidentally, as shown in FIG. 5, when the next component number of component number "s j = 1" in the feature other than s j is the same in feature vector definition table 7 is defined as "s j = 0" is F (c j−a + 1 j + a , 0) in the case of “s ′ = 0” is the feature vector F (c j−a + 1 j + a , s j ) obtained in step S106, Only the component value of the component number obtained by incrementing the component number whose value is “1” is set to “1” (for example, “(s j = 1) and F (c j−a + 1 j + a , s j ) = (0,0,1,0,1,0), then `` s j = 0 '' and F (c j-a + 1 j + a , s j ) = (0,0,0, (In this case, in order to obtain F (c j−a + 1 j + a , 0) in the case of “s ′ = 0”, steps S104 and 105). , 106 is not necessary).

ステップ108では、「j=m」ならば、全ての文字間jについての形態素分割点確率djが算出されたので、図6の処理を終了する。一方。「j≠m」ならば、次の文字間の形態素分割点確率を算出するために、変数jに“1”を加算してステップ103へ戻る。 In step 108, if “j = m”, since the morpheme division point probabilities d j for all j between characters have been calculated, the processing of FIG. 6 ends. on the other hand. If “j ≠ m”, “1” is added to the variable j to return to step 103 in order to calculate the morpheme dividing point probability between the next characters.

上記ステップ103〜107をm回だけ繰り返し処理することによって、各文字間の形態素分割点確率(m個)が作成され、メモリに保持される。図9にメモリ上のデータ保持形式の例を示す。図9に示されるように、文字変数cjと処理対象文S中の文字と文字間を示す変数jと形態素分割点確率djとを組にしてメモリに保持する。 By repeating the above steps 103 to 107 m times, morpheme division point probabilities (m) between characters are created and stored in the memory. FIG. 9 shows an example of a data holding format on the memory. As shown in FIG. 9, a character variable c j , a character j in the processing target sentence S, a variable j indicating a space between characters, and a morpheme division point probability d j are stored in a memory as a set.

次に、図10を参照して形態素確率計算部3及び形態素候補判定部4の動作を説明する。形態素確率計算部3及び形態素候補判定部4は連携して動作する。図10は、本実施形態に係る形態素候補判定処理の手順を示すフローチャートである。形態素候補判定処理は、入力文S'中の任意の文字列についてその文字列が形態素候補となるかを判定する。なお、本形態素候補判定処理においては、上述の形態素分割点確率算出処理によって組としてメモリに格納されている、文字変数cjと処理対象文S中の文字と文字間を示す変数jと形態素分割点確率djとを使用する。 Next, operations of the morpheme probability calculation unit 3 and the morpheme candidate determination unit 4 will be described with reference to FIG. The morpheme probability calculation unit 3 and the morpheme candidate determination unit 4 operate in cooperation. FIG. 10 is a flowchart showing a procedure of morpheme candidate determination processing according to the present embodiment. The morpheme candidate determination process determines whether the character string is a morpheme candidate for an arbitrary character string in the input sentence S ′. Note that in the morpheme candidate determination process, the character variable c j , the variable j indicating the character in the processing target sentence S, and the morpheme division stored in the memory as a set by the above morpheme division point probability calculation process Use point probabilities d j .

図10において、ステップ201では、変数pに初期値“2”を代入する。ステップ202では、変数eに形態素分割点確率dp-1を代入する。ステップ203では、変数qに変数pを代入する。ステップ204では、変数eと形態素分割点確率dqとの積を変数fに代入する。この変数fは、文字変数cpから文字変数cqまでの各文字を連結した文字列cp qが形態素である確率(形態素確率)である。 In FIG. 10, in step 201, an initial value “2” is substituted for variable p. In step 202, the morpheme division point probability d p-1 is substituted for the variable e. In step 203, the variable p is substituted for the variable q. In step 204, the product of the variable e and the morpheme division point probability dq is substituted for the variable f. The variable f is the probability string c p q linked each character from a character variable c p to the character variable c q is morpheme (morpheme probability).

ステップ205では、変数fと閾値Thの値を比較する。この結果、変数fが閾値Th以上の場合にはステップ206へ進み、ステップ206では文字列cp qを形態素候補として出力する。一方、変数fが閾値Th未満の場合にはステップ207へ進む。ステップ207では、変数eと「1-形態素分割点確率dq」との積を変数eに代入する。 In step 205, the value of the variable f and the threshold value Th are compared. As a result, if the variable f is greater than or equal to the threshold Th, the process proceeds to step 206, where the character string c p q is output as a morpheme candidate. On the other hand, if the variable f is less than the threshold value Th, the process proceeds to step 207. In step 207, the product of the variable e and “1-morpheme division point probability d q ” is substituted into the variable e.

ステップ208では、変数eと閾値Thの値を比較する。この結果、変数eが閾値Th未満の場合にはステップ211へ進む。一方、変数eが閾値Th以上の場合にはステップ209へ進む。   In step 208, the value of the variable e and the threshold value Th are compared. As a result, when the variable e is less than the threshold value Th, the process proceeds to step 211. On the other hand, if the variable e is greater than or equal to the threshold Th, the process proceeds to step 209.

ステップ209では、変数qに“1”を加算する。ステップ210では、変数qと文字間の個数mの値を比較する。この結果、変数qが文字間の個数m以上の場合にはステップ211へ進む。一方、変数qが文字間の個数m未満の場合にはステップ204へ戻る。   In step 209, “1” is added to the variable q. In step 210, the variable q is compared with the value of the number m between characters. As a result, if the variable q is greater than or equal to the number m between characters, the process proceeds to step 211. On the other hand, if the variable q is less than the number m between characters, the process returns to step 204.

ステップ211では、変数pに“1”を加算する。ステップ212では、変数pと文字間の個数mの値を比較する。この結果、変数pが文字間の個数m以上の場合には図10の処理を終了する。一方、変数pが文字間の個数m未満の場合にはステップ202へ戻る。   In step 211, “1” is added to the variable p. In step 212, the variable p is compared with the value of the number m between characters. As a result, when the variable p is greater than or equal to the number m between characters, the processing of FIG. On the other hand, if the variable p is less than the number m between characters, the process returns to step 202.

上述の図10の形態素候補判定処理では、入力文S'中の全ての文字列の組合せについて、その文字列が形態素候補となるかを判定している。具体的には、入力文S'中の一つ一つの文字について、その文字を形態素候補の先頭文字として、後続の文字を連結していき、その各連結した文字列の形態素確率(変数f)を計算し、該形態素確率を閾値Thにより判定し、この閾値判定結果から当該文字列を形態素候補にするか決定する。   In the morpheme candidate determination process in FIG. 10 described above, it is determined whether or not the character string is a morpheme candidate for all combinations of character strings in the input sentence S ′. Specifically, for each character in the input sentence S ′, the subsequent character is concatenated with that character as the first character of the morpheme candidate, and the morpheme probability (variable f) of each concatenated character string And the morpheme probability is determined by the threshold Th, and it is determined from the threshold determination result whether the character string is a morpheme candidate.

また、「形態素分割点確率dp-1と(1−形態素分割点確率dp)の積(ステップ207の結果の変数e)を閾値Thにより判定し、この閾値判定結果から、当該先頭文字についての以降の後続文字を連結する処理について省略するか決定している。これは、ステップ207の結果の変数eが閾値Th未満になった段階で、文字変数cpから文字変数cqまでの各文字を連結した文字列cp qに対してさらに文字変数cq+1以降の文字を連結した文字列については、形態素確率が閾値Th未満になることが明らかであるので、当該先頭文字についての以降の後続文字を連結する処理について省略するものである。この省略により、ある先頭文字について、全ての後続文字の連結の組合せに対して形態素確率を計算し、閾値判定する場合に比べ、計算量を大幅に削減することができる。
また、後続文字を連結する際に、それまでに計算していた変数e(ステップ207の結果の変数e)を利用することによって、変数eを用いずに(3)式を計算する場合に比べて、形態素確率fの計算を効率化できている。
Further, “the product of the morpheme division point probability d p−1 and (1− morpheme division point probability d p ) (the variable e as a result of step 207) is determined based on the threshold value Th. It is determined whether or not to omit the process of concatenating subsequent characters after the step 207. When the variable e as a result of step 207 becomes less than the threshold value Th, each of the character variable c p to the character variable c q is determined. It is clear that the morpheme probability is less than the threshold Th for a character string obtained by concatenating characters after the character variable c q + 1 to a character string c p q obtained by concatenating characters. This process omits the subsequent process of concatenating the subsequent characters, and by this omission, the morpheme probabilities are calculated for all the concatenated combinations of the subsequent characters for a certain first character, and the amount of calculation is larger than that in the case of threshold determination. Drastically reduce Door can be.
Also, when connecting subsequent characters, using the variable e (the variable e as a result of step 207) that has been calculated so far, compared to the case of calculating equation (3) without using the variable e. Thus, the calculation of the morpheme probability f can be made efficient.

上述の実施形態によれば、入力文から形態素候補を自動生成することができる。その生成された形態素候補は、長さに制限がない、極端に不適切な形態素候補が排除される、n-gram生成モデルによらないので形態素候補の生成確率が小さくならない、などの特徴を有する。これにより、適切な未知語処理の実現に寄与することが可能になる。   According to the above-described embodiment, morpheme candidates can be automatically generated from the input sentence. The generated morpheme candidates have characteristics such as unlimited length, exclusion of extremely inappropriate morpheme candidates, and the generation probability of morpheme candidates does not decrease because it does not depend on the n-gram generation model. . Thereby, it becomes possible to contribute to realization of appropriate unknown word processing.

次に、本実施形態に係る確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7を生成する実施例を説明する。
図11は、本実施形態に係る確率モデルパラメータ生成装置20の構成を示すブロック図である。図11において、確率モデルパラメータ生成装置20は、素性ベクトル定義テーブル生成部21、素性ベクトル定義テーブル記録部22、確率モデルパラメータ推定部23及び素性テンプレートテーブル5を有する。素性テンプレートテーブル5は、図3の形態素候補生成装置1に具備されるものと同一である。
Next, an example of generating the probability model parameter table 6 and the feature vector definition table 7 according to the present embodiment will be described.
FIG. 11 is a block diagram illustrating a configuration of the probability model parameter generation device 20 according to the present embodiment. In FIG. 11, the probability model parameter generation device 20 includes a feature vector definition table generation unit 21, a feature vector definition table recording unit 22, a probability model parameter estimation unit 23, and a feature template table 5. The feature template table 5 is the same as that included in the morpheme candidate generation device 1 of FIG.

確率モデルのパラメータ(重みパラメータベクトルΛ)の推定は、“Gaussian prior”を用いてMAP(Maximum A Posteriori)推定することにより行う。具体的には、学習データ全体の対数尤度LΛを最大化するように、重みパラメータベクトルΛを算出する。学習データは、学習文と、該学習文中の各文字間jが形態素の分割点である(sj=1)か否(sj=0)かの情報とから構成される。重みパラメータベクトルΛは(6)式及び(7)式により算出する。なお、最適解は、準ニュートン法である“L-BFGS”などを用いて求めることができる。“L-BFGS”については、例えば「D.C.Liu and J.Nocedal,“On the limited memory BFGS method for large scale optimization.”Math.Program・,Vol.45,Issue 3,pp.503-528,December 1989.」に記載されている。 The parameter of the probability model (weight parameter vector Λ) is estimated by performing MAP (Maximum A Posteriori) estimation using “Gaussian prior”. Specifically, the weight parameter vector Λ is calculated so as to maximize the log likelihood L Λ of the entire learning data. The learning data includes a learning sentence and information indicating whether each character j in the learning sentence is a morpheme dividing point (s j = 1) or not (s j = 0). The weight parameter vector Λ is calculated by the equations (6) and (7). The optimal solution can be obtained using “L-BFGS” which is a quasi-Newton method. As for “L-BFGS”, for example, “DCLiu and J. Nocedal,“ On the limited memory BFGS method for large scale optimization. ”Math. Program, Vol. 45, Issue 3, pp. 503-528, December 1989. "It is described in.

Figure 2009048472
Figure 2009048472

Figure 2009048472
Figure 2009048472

(7)式において、σ2はハイパーパラメータである。ハイパーパラメータσ2は事前に準備される。||・||はノルムを表す。 In the equation (7), σ 2 is a hyper parameter. The hyper parameter σ 2 is prepared in advance. || ・ || represents the norm.

素性ベクトルについては、素性テンプレートを用いて作成する。例えば、図4中の素性テンプレート<cj j+1,sj>から、素性<cj j+1=“値が”,sj=1>が作成されたとすると、その素性の有無を返す素性関数fは(8)式により定義できる。このような素性関数fを素性ベクトルの成分とすることにより、素性ベクトルを構築する。 A feature vector is created using a feature template. For example, if a feature <c j j + 1 = “value is”, s j = 1> is created from the feature template <c j j + 1 , s j > in FIG. 4, the presence / absence of the feature is returned. The feature function f can be defined by equation (8). A feature vector is constructed by using such a feature function f as a component of the feature vector.

Figure 2009048472
Figure 2009048472

図11において、素性ベクトル定義テーブル生成部21は、素性テンプレートテーブル5を用いて、学習データから素性ベクトルを作成する。具体的には、学習データの学習文に対して各素性テンプレートで文字列を切り出し、学習文に所定回数(例えば3回)以上出現した文字列を素性に使用する。そして、該文字列と「sj=1」の組、及び、該文字列と「sj=0」の組をそれぞれ素性として作成する。 In FIG. 11, the feature vector definition table generation unit 21 uses the feature template table 5 to create a feature vector from learning data. Specifically, a character string is cut out with each feature template for a learning sentence of learning data, and a character string that appears in the learning sentence a predetermined number of times (for example, three times) or more is used for the feature. Then, a set of the character string and “s j = 1” and a set of the character string and “s j = 0” are created as features.

素性ベクトル定義テーブル記録部22は、素性ベクトル定義テーブル生成部21により作成された素性と素性ベクトルの成分番号との組を記録する。これにより、図5に示される素性ベクトル定義テーブル7が作成される。確率モデルパラメータ推定部23は、(6)式及び(7)式により、重みパラメータベクトルΛを算出する。   The feature vector definition table recording unit 22 records a set of the feature created by the feature vector definition table generating unit 21 and the component vector component number. Thereby, the feature vector definition table 7 shown in FIG. 5 is created. The probability model parameter estimator 23 calculates the weight parameter vector Λ using the equations (6) and (7).

なお、図3に示す形態素候補生成装置1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、形態素候補生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
A program for realizing the functions of the morpheme candidate generation device 1 shown in FIG. 3 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed. The morpheme candidate generation process may be performed. Here, the “computer system” may include an OS and hardware such as peripheral devices.
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
“Computer-readable recording medium” refers to a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a DVD (Digital Versatile Disk), and a built-in computer system. A storage device such as a hard disk.

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic Random Access Memory)), etc., which hold programs for a certain period of time.
The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。   As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the specific structure is not restricted to this embodiment, The design change etc. of the range which does not deviate from the summary of this invention are included.

本発明に係る文字列中の文字と形態素分割点の関係を説明するための説明図である。It is explanatory drawing for demonstrating the relationship between the character in the character string which concerns on this invention, and a morpheme division | segmentation point. 本発明に係る文字列中の文字と形態素分割点の関係を説明するための説明図である。It is explanatory drawing for demonstrating the relationship between the character in the character string which concerns on this invention, and a morpheme division | segmentation point. 本発明の一実施形態に係る形態素候補生成装置1の構成を示すブロック図である。It is a block diagram which shows the structure of the morpheme candidate production | generation apparatus 1 which concerns on one Embodiment of this invention. 図3に示す素性テンプレートテーブル5の構成例である。It is a structural example of the feature template table 5 shown in FIG. 図3に示す素性ベクトル定義テーブル7の構成例である。It is a structural example of the feature vector definition table 7 shown in FIG. 本発明の一実施形態に係る形態素分割点確率算出処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the morpheme division | segmentation point probability calculation process which concerns on one Embodiment of this invention. 図3に示す形態素候補生成装置1のメモリ上のデータ保持形式の例である。It is an example of the data retention format on the memory of the morpheme candidate production | generation apparatus 1 shown in FIG. 本発明の一実施形態に係る形態素分割点確率算出処理によって作成される素性の具体例である。It is a specific example of the feature created by the morpheme division point probability calculation processing according to an embodiment of the present invention. 図3に示す形態素候補生成装置1のメモリ上のデータ保持形式の例である。It is an example of the data retention format on the memory of the morpheme candidate production | generation apparatus 1 shown in FIG. 本発明の一実施形態に係る形態素候補判定処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the morpheme candidate determination process which concerns on one Embodiment of this invention. 図3に示す確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7を生成する実施例である。It is an Example which produces | generates the probability model parameter table 6 and the feature vector definition table 7 which are shown in FIG.

符号の説明Explanation of symbols

1…形態素候補生成装置、2…形態素分割点確率計算部、3…形態素確率計算部、4…形態素候補判定部、5…素性テンプレートテーブル、6…確率モデルパラメータテーブル、7…素性ベクトル定義テーブル DESCRIPTION OF SYMBOLS 1 ... Morphological candidate production | generation apparatus, 2 ... Morphological division point probability calculation part, 3 ... Morphological probability calculation part, 4 ... Morphological candidate determination part, 5 ... Feature template table, 6 ... Probability model parameter table, 7 ... Feature vector definition table

Claims (5)

入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算手段と、
前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算手段と、
前記形態素確率に基づいて、前記入力文において全ての形態素候補となる文字列を判定する形態素候補判定手段と、
を備えたことを特徴とする形態素候補生成装置。
A morpheme segmentation point probability calculation means for calculating a morpheme segmentation point probability that a character segment between input characters is a morpheme segmentation point;
A morpheme probability calculation means for calculating a morpheme probability that a character string in the input sentence is a morpheme using the morpheme dividing point probability;
Based on the morpheme probability, morpheme candidate determination means for determining character strings that are all morpheme candidates in the input sentence;
A morpheme candidate generation device characterized by comprising:
前記入力文から素性を作成するための素性テンプレートを格納する素性テンプレートテーブルと、
素性ベクトルの成分となる素性を定義する素性ベクトル定義テーブルと、を備え、
前記形態素分割点確率計算手段は、前記素性テンプレートを用いて素性を作成し、該素性と前記素性ベクトルの定義との一致を調べ、該一致した成分のみに所定値を持つ素性ベクトルを作成し、該素性ベクトルを用いた最大エントロピー法の確率モデルによって形態素分割点確率を算出する、
ことを特徴とする請求項1に記載の形態素候補生成装置。
A feature template table for storing a feature template for creating a feature from the input sentence;
A feature vector definition table that defines the feature that is a component of the feature vector, and
The morpheme segmentation point probability calculating means creates a feature using the feature template, examines a match between the feature and the definition of the feature vector, creates a feature vector having a predetermined value only for the matched component, A morpheme segmentation point probability is calculated by a maximum entropy method probability model using the feature vector.
The morpheme candidate generation device according to claim 1, wherein:
前記形態素候補判定手段は、入力文中の一つ一つの文字について、その文字を形態素候補の先頭文字として、後続の文字を連結していき、その各連結した文字列の形態素確率を計算し、該形態素確率を閾値により判定し、この閾値判定結果から当該文字列を形態素候補にするか決定するものであり、先頭文字の直前の文字間の形態素分割点確率とそれ以降の文字間が形態素の分割点ではない確率との積を保持しておき、連結した文字列の直後の文字間の形態素分割点確率を該保持した積に乗ずることにより該連結した文字列の形態素確率を得る、
ことを特徴とする請求項1に記載の形態素候補生成装置。
The morpheme candidate determining means, for each character in the input sentence, using the character as the first character of the morpheme candidate, connecting subsequent characters, calculating the morpheme probability of each connected character string, The morpheme probability is determined by a threshold value, and it is determined whether the character string is a morpheme candidate from the threshold determination result, and the morpheme division point probability between the characters immediately before the first character and the subsequent characters are divided. Holding the product with the probability that is not a point, and obtaining the morpheme probability of the connected character string by multiplying the product that holds the morpheme division point probability between the characters immediately after the connected character string,
The morpheme candidate generation device according to claim 1, wherein:
前記形態素候補判定手段は、ある文字間の形態素分割点確率と、それ以降の文字間が形態素の分割点ではない確率との積を前記閾値により判定し、この閾値判定結果から、当該先頭文字についての以降の後続文字を連結する処理について省略するか決定する、
ことを特徴とする請求項3に記載の形態素候補生成装置。
The morpheme candidate determination means determines a product of a morpheme division point probability between certain characters and a probability that a subsequent character is not a morpheme division point based on the threshold, and from the threshold determination result, Decide whether to omit the process of concatenating subsequent characters after
The morpheme candidate generation device according to claim 3.
入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算機能と、
前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算機能と、
前記形態素確率に基づいて形態素候補となる文字列を判定する形態素候補判定機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
A morpheme division point probability calculation function for calculating a morpheme division point probability that a character in an input sentence is a morpheme division point;
Using the morpheme dividing point probability, a morpheme probability calculation function for calculating a morpheme probability that the character string in the input sentence is a morpheme;
A morpheme candidate determination function for determining a character string that is a morpheme candidate based on the morpheme probability;
A computer program for causing a computer to realize the above.
JP2007214934A 2007-08-21 2007-08-21 Morphological candidate generation device and computer program Expired - Fee Related JP5105996B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007214934A JP5105996B2 (en) 2007-08-21 2007-08-21 Morphological candidate generation device and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007214934A JP5105996B2 (en) 2007-08-21 2007-08-21 Morphological candidate generation device and computer program

Publications (2)

Publication Number Publication Date
JP2009048472A true JP2009048472A (en) 2009-03-05
JP5105996B2 JP5105996B2 (en) 2012-12-26

Family

ID=40500614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007214934A Expired - Fee Related JP5105996B2 (en) 2007-08-21 2007-08-21 Morphological candidate generation device and computer program

Country Status (1)

Country Link
JP (1) JP5105996B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250403A (en) * 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> Japanese sentence word analyzing system
JPH09288673A (en) * 1996-04-23 1997-11-04 Nippon Telegr & Teleph Corp <Ntt> Japanese morpheme analysis method and device therefor, and dictionary unregistered word collection method and device therefor
JPH11167574A (en) * 1997-12-04 1999-06-22 Oki Electric Ind Co Ltd Natural language processor
JP2001249922A (en) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd Word division system and device
JP2002351870A (en) * 2001-05-29 2002-12-06 Communication Research Laboratory Method for analyzing morpheme

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250403A (en) * 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> Japanese sentence word analyzing system
JPH09288673A (en) * 1996-04-23 1997-11-04 Nippon Telegr & Teleph Corp <Ntt> Japanese morpheme analysis method and device therefor, and dictionary unregistered word collection method and device therefor
JPH11167574A (en) * 1997-12-04 1999-06-22 Oki Electric Ind Co Ltd Natural language processor
JP2001249922A (en) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd Word division system and device
JP2002351870A (en) * 2001-05-29 2002-12-06 Communication Research Laboratory Method for analyzing morpheme

Also Published As

Publication number Publication date
JP5105996B2 (en) 2012-12-26

Similar Documents

Publication Publication Date Title
US9836453B2 (en) Document-specific gazetteers for named entity recognition
US9367541B1 (en) Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
JP5901001B1 (en) Method and device for acoustic language model training
US9176936B2 (en) Transliteration pair matching
US10803241B2 (en) System and method for text normalization in noisy channels
JP3998668B2 (en) Morphological analyzer, method and program
JP2004038976A (en) Example-based machine translation system
US20080208566A1 (en) Automated word-form transformation and part of speech tag assignment
JP2004355483A (en) Morpheme analysis device, morpheme analysis method and morpheme analysis program
CN111462751A (en) Method, apparatus, computer device and storage medium for decoding voice data
JP6427466B2 (en) Synonym pair acquisition apparatus, method and program
Puigcerver et al. Querying out-of-vocabulary words in lexicon-based keyword spotting
CN110874532A (en) Method and device for extracting keywords of feedback information
Roark et al. Hippocratic abbreviation expansion
Allauzen et al. Pushdown automata in statistical machine translation
JP2016224483A (en) Model learning device, method and program
US8972244B2 (en) Sampling and optimization in phrase-based machine translation using an enriched language model representation
Sarkar Part-of-speech tagging for code-mixed indian social media text at icon 2015
Peng et al. An empirical study of Chinese name matching and applications
Mori et al. Language Resource Addition: Dictionary or Corpus?
KR101663038B1 (en) Entity boundary detection apparatus in text by usage-learning on the entity&#39;s surface string candidates and mtehod thereof
Yeh et al. Chinese spelling checker based on an inverted index list with a rescoring mechanism
Mammadov et al. Part-of-speech tagging for azerbaijani language
JP5105996B2 (en) Morphological candidate generation device and computer program
JP5293607B2 (en) Abbreviation generation apparatus and program, and abbreviation generation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121002

R150 Certificate of patent or registration of utility model

Ref document number: 5105996

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees