JP2009176148A - Unknown word determining system, method and program - Google Patents
Unknown word determining system, method and program Download PDFInfo
- Publication number
- JP2009176148A JP2009176148A JP2008015339A JP2008015339A JP2009176148A JP 2009176148 A JP2009176148 A JP 2009176148A JP 2008015339 A JP2008015339 A JP 2008015339A JP 2008015339 A JP2008015339 A JP 2008015339A JP 2009176148 A JP2009176148 A JP 2009176148A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unknown
- unknown word
- character string
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は未知語判定システム、方法及びプログラムに関し、特に、特に辞書に未登録であり、かつ語として妥当な文字列であるか判定する未知語判定システム、方法及びプログラムに関する。 The present invention relates to an unknown word determination system, method, and program, and more particularly, to an unknown word determination system, method, and program for determining whether a character string is unregistered and valid as a word.
近年、形態素解析、音声認識など、様々な自然言語処理システムが実サービスとして利用されている。 In recent years, various natural language processing systems such as morphological analysis and speech recognition have been used as actual services.
多くの自然言語処理システムには辞書が必要不可欠である。 Many natural language processing systems require a dictionary.
一方で、近年ユーザが自由に記事を投稿できるサービスが普及したことで、新語、造語、意図的に表記を崩した語(以降、前述のように語であるが辞書に未登録である語を未知語と呼ぶ)が使われる文書が増加している。 On the other hand, with the recent spread of services that allow users to freely post articles, new words, coined words, and words that have been intentionally broken (hereinafter referred to as words that have been unregistered in the dictionary as described above) An increasing number of documents use unknown words.
それら文書を正しく処理するためには、未知語の位置を正しく認識してその後の処理を進めることや、辞書に未知語を登録していく方法があるが、どちらも未知語を正しく抽出する必要がある。 In order to process these documents correctly, there are methods of correctly recognizing the position of the unknown word and proceeding thereafter, and registering the unknown word in the dictionary, both of which need to extract the unknown word correctly. There is.
この種の関連する未知語収集システムの一例が、特許文献1、特許文献2に記載されている。
An example of this type of related unknown word collection system is described in
特許文献1は、まず、解析対象の文を読み込み、文の先頭から文末に向かって各位置から始まる数文字以下の部分文字列を生成する。次に、各部分文字列が形態素解析用の辞書に存在するか確認する(登録語判定部)。次に、辞書に登録されていない部分文字列を対象に、形態素となり得る未登録語か否かを調べる(未登録語判定部)。登録語判定部により、辞書に存在すると判定された文字列について、形態素コストを計算する(登録語コスト計算部)。形態素コストは、形態素の品詞、文字種、頻度、優先度に基づいて計算される。未登録語判定部により、形態素となりえる未登録語と判定された部分文字列は、未登録語コストとして、文字数、文字種、パタン、構成文字の頻度などに基づき計算される(未登録語コスト計算部)。全ての部分文字列に対して、形態素コスト、未登録語コストが計算されると、文法規則部を参照して、隣接する2つの形態素の接続チェックを行い、形態素の連接コスト、形態素コスト、未登録語コストの3種により、最もコストの小さい形態素候補の列を形態素解析結果とする(形態素解析実行部)。
具体例を説明する。「湾岸戦争」という文字列で(1)湾/名詞 岸/名詞 戦争/名詞、(2)湾岸戦争/未知語、(3)湾岸/未知語 戦争/名詞、という候補を形態素解析実行部でコスト評価するとする。未登録語コスト計算部において、高いコストを与えるように調整すれば、全てが登録語であり、未知語が存在しない(1)が選ばれ、逆に低めれば(2)や(3)が選ばれやすくなる。(2)と(3)は、未登録語コストで4文字以上の場合のコストを高くすると(3)が選ばれる。前述の例のように、コスト設定に応じて得られる結果を調整できるが、一般にコスト設定は難しい作業であり、専門家の知識や多くの実験が必要となる。例えば、「土田電気」という固有名詞に対して、「土田/名詞 電気/名詞」と「土田電気/未知語」という結果が得られる場合、後者を採用するために、名詞の2連続よりも結合した場合の未知語コストを高めるとする。すると、「情報検索」の「情報/名詞 検索/名詞」のような名詞の複合語を分けることができなくなる。これに対して、さらにコスト計算を詳細化して実現することも考えられるが、このような例に対して網羅的にコストを設定することは難しい。また、未知語の辞書属性(品詞)の推定が考慮されていない。 A specific example will be described. In the string “Wangan War”, (1) Gulf / Noun Kishi / Noun War / Noun, (2) Gulf War / Unknown Word, (3) Gulf / Unknown Word War / Noun are candidates for morphological analysis Assume that you evaluate. If the unregistered word cost calculation unit is adjusted so as to give a high cost, (1) is selected where all are registered words and unknown words do not exist, and conversely (2) and (3) are reduced. It becomes easy to be chosen. In (2) and (3), (3) is selected if the cost for unregistered word costs of 4 characters or more is increased. Although the result obtained according to the cost setting can be adjusted as in the above example, the cost setting is generally a difficult task, and requires expert knowledge and many experiments. For example, if the result is “Tsuchida / Noun Denki / Noun” and “Tsuchida Denki / Unknown Word” for the proper noun “Tsuchida Denki”, the latter is combined rather than two consecutive nouns. Suppose you increase the cost of unknown words. Then, it becomes impossible to separate compound words of nouns such as “information / noun search / noun” of “information search”. On the other hand, it is conceivable that the cost calculation is further refined and realized, but it is difficult to set the cost comprehensively for such an example. In addition, estimation of dictionary attributes (parts of speech) of unknown words is not considered.
特許文献2は、入力文書を形態素解析し、形態素解析で分かち書きした結果から、辞書に含まれない語を未知語候補として、文書内の出現回数に基づく値、固有接尾辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値、のうち、少なくとも2つ以上の値を用いた演算結果により未知語としての信頼度を計算し、前記信頼度に基づいて未知語を抽出し、形態素解析により決定された見出し語、品詞、信頼度を提示し、ユーザに辞書に登録するか判断させる。
特許文献2の発明では、未知語抽出を形態素解析に任せているため、本当は1つの形態素であるにも関わらず、部分的に形態素解析されてしまう場合には、適切に未知語を抽出できない。
In the invention of
具体例を、「昨日、とってもかわゆい娘を見た。」という文で説明する。形態素解析の正解は、「昨日/名詞 、/記号 とっても/副詞 かわゆい/形容詞 娘/名詞 を/助詞 見た/動詞 。/記号」となることが分かる。しかしながら、「かわいい」の意味である「かわゆい」が、形態素解析用の辞書に存在しないとする。一方、「かわ(皮)/名詞」「ゆう/動詞」が辞書に登録されているとする。その時、「ゆい」は「ゆう」の活用形として妥当であるため、「かわゆい」は「かわ/名詞 ゆい/動詞」と解析され、「昨日/名詞 、/記号 とっても/副詞 かわ/名詞 ゆい/動詞 娘/名詞 を/助詞 見た/動詞 。/記号」となる。本結果は、2つの形態素の連接のみ見れば、可能な品詞連接である。このような解析がされないようにするためには、形態素解析のコスト設定や例外ルールの作りこみなど、非常に多くの設定が必要であることは想像に難くない。
第1の問題点は、様々な文に対応するように形態素コスト、品詞連接コスト、未知語コストなど、各種コストを設定することが難しいことである。 The first problem is that it is difficult to set various costs such as a morpheme cost, a part-of-speech concatenation cost, and an unknown word cost so as to correspond to various sentences.
その理由は、形態素コスト、品詞連接コスト、未知語コストを様々な文に対応するようにバランスを考えて調整するには、専門家の知識が必要であり、多くの文例を用いて試行錯誤的な実験が必要となるためである。 The reason is that expert knowledge is necessary to adjust the morpheme cost, the part-of-speech concatenation cost, and the unknown word cost in consideration of the balance so as to correspond to various sentences, and trial and error using many sentence examples This is because a large amount of experimentation is required.
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、形態素コスト、品詞連接コストの設定なしに、未知語を判定できる未知語判定システム、方法及びプログラムを提供することにある。 Accordingly, the present invention has been invented in view of the above problems, and an object thereof is to provide an unknown word determination system, method, and program capable of determining an unknown word without setting morpheme costs and part-of-speech concatenation costs. It is in.
上記課題を解決する本発明は、日本語文書を文字種により文字列に分割する文字種分割手段と、前記分割された文字列のうち単語登録されていない文字列の未知語らしさを判定する未知語判定手段とを有する未知語判定システムである。 The present invention for solving the above-mentioned problems is characterized by character type dividing means for dividing a Japanese document into character strings by character types, and unknown word determination for determining the unknown word likelihood of character strings that are not registered in the divided character strings. And an unknown word determination system having means.
上記課題を解決する本発明は、情報処理装置が、日本語文書を文字種により文字列に分割し、前記分割された文字列のうち単語登録されていない文字列の未知語らしさを判定する未知語判定方法である。 The present invention that solves the above-mentioned problem is that an information processing apparatus divides a Japanese document into character strings according to character types, and determines an unknown word likelihood of a character string that is not registered as a word among the divided character strings This is a determination method.
上記課題を解決する本発明は、日本語文書を文字種により文字列に分割する文字種分割処理と、前記分割された文字列のうち単語登録されていない文字列の未知語らしさを判定する未知語判定処理とを情報処理装置に実行させるプログラムである。 The present invention for solving the above-mentioned problems is a character type dividing process for dividing a Japanese document into character strings according to character types, and an unknown word determination for determining an unknown word likelihood of a character string that is not registered as a word among the divided character strings. A program that causes an information processing apparatus to execute processing.
本発明によれば、形態素コストや品詞連接コストの設定を必要とせずに未知語を抽出できることにある。 According to the present invention, an unknown word can be extracted without requiring setting of a morpheme cost and a part-of-speech concatenation cost.
その理由は、文字種を用いて単語の区切れ目を決めて文字列を分割し、前記分割文字列のうち辞書に存在しない文字列の未知語としての妥当性を判定する構成をとっているため、品詞や形態素コストという概念を必要とせずに未知語を抽出できるためである。 The reason is that the character string is used to divide the character string by determining the word break, and the validity of the character string that does not exist in the dictionary of the divided character string is determined. This is because unknown words can be extracted without requiring the concept of part of speech or morpheme cost.
本発明の実施の形態を説明する。尚、これ以降、「X/Y」は、XとYを分割することを表す。また、「X(Z)/Y」のZは説明をわかりやすくするための付加的情報を表すものとする。 An embodiment of the present invention will be described. Hereinafter, “X / Y” indicates that X and Y are divided. Further, Z in “X (Z) / Y” represents additional information for easy understanding of the explanation.
本発明の実施の形態における未知語判定システムは、文字種により入力文字列を区切る文字種分割手段と、付属語(単独で文節を構成できない語で自立語に付属して意味を成す語)や語の活用形を中心とした語を分割する手がかり表現により文字種による分割結果を修正する分割位置修正手段と、切り出された文字列を単語辞書と文字種や文字の長さなどから未知語らしさを判定する未知語判定手段を有している。 An unknown word determination system according to an embodiment of the present invention includes a character type dividing unit that divides an input character string according to a character type, an attached word (a word that cannot be composed of a single phrase, and has a meaning attached to an independent word) and a word Division position correction means that corrects the division result by character type by clue expression that divides words centered on the utilization form, and unknown character is judged from the word dictionary and the character type and character length of the extracted character string It has word judgment means.
本発明の未知語判定システムでは、
1)日本語の単語の区切れ目は文字種である程度判断できる、
2)未知語となるのは基本的に自立語であり付属語は固定的である、
という2つの考えに基づいている。付属語は種類が少ないため容易に網羅的な辞書を作成することができる。
In the unknown word determination system of the present invention,
1) Japanese word delimiters can be judged to some extent by character type.
2) An unknown word is basically an independent word and an ancillary word is fixed.
Based on these two ideas. Since there are few types of attached words, an exhaustive dictionary can be easily created.
本発明の未知語判定システムでは、まず、文字種分割手段により、文字種が変わる部分で文字列を分割する。ここで、文字種とは、ひらがな、カタカナ、漢字、アルファベット、数字、記号などがある。ただし、「ー」や「〜」など長音を表す文字では区切らないという制約をつけても良い。 In the unknown word determination system of the present invention, first, the character string is divided by the character type dividing means at the portion where the character type changes. Here, the character types include hiragana, katakana, kanji, alphabet, numbers, symbols, and the like. However, there may be a restriction that characters such as “-” and “˜” are not separated by a long sound character.
次に、分割位置修正手段は、文字種分割手段による分割不足や過剰分割を、付属語と活用形を手がかりに修正する。分割不足とは、「日本語/はむずかしい/。」の「はむずかしい」など、さらに分割できるが同じ文字種であるために、つながっている場合を指す。また、過剰分割とは、「学校/まで/走/る/。」の「走/る」など、文字種は違うが、前の文字列も含めて1語となる場合を指す。 Next, the division position correcting means corrects the insufficient or excessive division by the character type dividing means by using the attached words and the utilization form as clues. Insufficient division refers to the case where the characters are connected because they are the same character type but can be further divided, such as “Japanese / Happy /.”. In addition, overdivision refers to a case where the character type is different, such as “run / run” in “school / to / run / run /.” But the previous character string is one word.
分割不足と過剰分割とは、基本的に文字種がひらがなの文字列に隣接している部分で発生する。前述の例のように、ひらがな文字列に対する分割位置修正は、分割不足の修正により、単語として不適当な語を未知語判定手段の前にはじくことで未知語抽出の精度を上げる効果があり、過剰分割の修正により、文字種では分割されてしまう単語を正しく抽出できることで、より多くの適切な未知語候補を抽出できる効果がある。尚、このように、分割位置修正手段は本発明に対してより大きな効果を与えるが、かならずしも必項な構成要素ではない。 Insufficient division and excessive division basically occur in a portion adjacent to a character string whose character type is hiragana. As in the above example, the division position correction for the hiragana character string has the effect of improving the accuracy of unknown word extraction by repelling an inappropriate word as a word in front of the unknown word determination means by correcting the lack of division, By correcting the excessive division, it is possible to correctly extract words that are divided by the character type, and it is possible to extract more appropriate unknown word candidates. As described above, the division position correcting means has a greater effect on the present invention, but is not necessarily a necessary component.
具体的には、分割位置修正手段は、まず、ひらがな文字列の前方から、付属語と活用形の文字列を最長一致で調べる。活用形の文字列の探索時には、直後からだけでなく2文字目からも探索する。これは、語幹が直後のひらがな1文字を含む語も多数存在するためである。例えば、「小さい」の語幹は「小さ」であり、「小さく」など2文字目が活用される。付属語の場合はひらがなを付属語と付属語以外で分割する。例えば、「日本語/はむずかしい/。」は「語」と「は」の間でひらがなに変わるので、付属語の存在を調べた結果、助詞の「は」が見つかり、「日本語/は(助詞)/むずかしい/。」となる。ここで、「は」より長い「はむ」は付属語辞書にも活用形にもないため、助詞の「は」となったことを補足しておく。付属語ではなく、活用形にマッチした場合は前の文字列と活用形の文字列を結合し、ひらがな側の文字列からは活用形の文字列を削除する。例えば、「学校/まで/走/る/。」は、「学校」と「まで」の間でひらがなに変わり、「まで」が助詞にマッチし、「走」と「る」の間で、「る」が活用形として存在しているので、最終的に「学校/まで(助詞)/走る/。」となる。 Specifically, the division position correcting means first checks the attached word and the utilized character string with the longest match from the front of the hiragana character string. When searching for a utilization-type character string, the search is performed not only immediately after but also from the second character. This is because there are many words including one hiragana character immediately after the stem. For example, the stem of “small” is “small”, and the second character such as “small” is used. In the case of an ancillary word, the hiragana is divided into an ancillary word and a non-ancillary word. For example, “Japanese / Happy /.” Changes in hiragana between “word” and “ha”, and as a result of investigating the existence of the adjunct, the particle “ha” was found, and “Japanese / ha ( Particle) / difficult /. " Here, “ha”, which is longer than “ha”, is neither an attached word dictionary nor an inflection form, so it is supplemented that the particle is “ha”. If it matches an inflected form instead of an attached word, the previous character string and the inflected form character string are combined, and the inflected form character string is deleted from the hiragana character string. For example, “school / until / run / run /.” Changes to hiragana between “school” and “until”, “until” matches the particle, and “run” and “ru” "Ru" exists as a practical form, so it finally becomes "School / until (particle) / run /.".
次に、ひらがなから他の文字種に変わる場所に対しての後方から付属語を最長一致で調べる。付属語が存在した場合は、先の付属語の処理と同じように、付属語を切り離して分割する。尚、後方一致での活用形の修正は、必要ないことを補足しておく。活用形は、その部分を含めて一語であるため、仮に存在したとしても分割できないためである。 Next, the adjunct word is examined with the longest match from the rear with respect to the place where the hiragana changes to another character type. If an adjunct word exists, the adjunct word is separated and divided in the same manner as the previous adjunct word processing. It should be noted that it is not necessary to modify the utilization form with backward matching. This is because the inflected form is a single word including that part, and cannot be divided even if it exists.
未知語判定手段は、分割された各文字列が未知語らしさを判定する。未知語判定手段では、前段までの処理で分割された各文字列のうち、あらかじめ用意された単語辞書に存在しない文字列に対して、部分文字列、文字種、文字数、単語辞書、抽出頻度、抽出された活用の種類、抽出された活用の種類数に基づいて未知語としての妥当性を判定する。「抽出された活用の種類」について説明する。抽出された活用の種類とは、各未知語候補について、1つの活用規則で前段までの処理で文書中から抽出された活用の種類である。例えば、「チョロい」という未知語候補について、「イ形容詞アウオ段」の活用規則で「チョロい(原形)」「チョロく(連用形)」「チョロければ(条件形)」が抽出されたとする。その場合「チョロい」の活用の種類は「イ形容詞アウオ段の原形、連用形、条件形」であり、その種類数は3となる。抽出された活用の種類や数は、活用のある語であれば実際にいろいろな活用で使われるという経験則から単語らしさの指標として用いることができる。ここで、未知語として妥当でない文字列とは、単語の分割ミスのため意味をなしていない文字列や、意味はあるが単語辞書の単語の複合語であるため登録する必要がない文字列である。例えば、分割ミスの場合、異常に短い、もしくは長いひらがなのみの文字列が考えられる。一方、長いひらがなでも、「っ」や「ー」などが含まれている場合は表記を崩した表現の可能性もあるため、登録済みの語との文字列が類似していれば、その語の表記ゆれとみなせる。 The unknown word determination means determines whether each divided character string is an unknown word. In the unknown word determination means, the partial character string, character type, number of characters, word dictionary, extraction frequency, extraction for character strings that do not exist in the word dictionary prepared in advance among the character strings divided in the process up to the previous stage The validity as an unknown word is determined based on the type of utilization and the number of types of utilization extracted. “Extracted utilization types” will be described. The extracted utilization type is the utilization type extracted from the document by processing up to the previous stage with one utilization rule for each unknown word candidate. For example, for an unknown word candidate of “Choroi”, “Choroi (original form)”, “Choroku (continuous form)” and “Choro if (conditional form)” are extracted by the usage rule of “I adjective Auodan”. . In this case, the type of utilization of “Choroi” is “original form of the adjective Audan, continuous form, conditional form”, and the number of kinds is 3. The type and number of utilizations extracted can be used as an index of word-likeness based on the rule of thumb that actual words are used for various purposes if they are words that are useful. Here, a character string that is not valid as an unknown word is a character string that does not make sense due to a word division error, or a character string that has meaning but is not required to be registered because it is a compound word of words in the word dictionary. is there. For example, in the case of a division mistake, a character string with only an unusually short or long hiragana is conceivable. On the other hand, even if a long hiragana includes `` tsu '' or ``-'', there is a possibility that the expression is broken, so if the character string with the registered word is similar, that word It can be regarded as the notation of swaying.
このような構成を採用することで、形態素コストや品詞連接コストの設定を必要とせずに未知語を判定でき、本発明の目的を達成することができる。 By adopting such a configuration, an unknown word can be determined without requiring setting of a morpheme cost and a part-of-speech concatenation cost, and the object of the present invention can be achieved.
また、上述した未知語判定システムに、さらに辞書属性推定手段を加えることによって辞書属性を推定できる。 Further, dictionary attributes can be estimated by adding dictionary attribute estimation means to the unknown word determination system described above.
辞書属性推定手段は、単語分割済みの文書データと、単語と辞書属性が登録された単語辞書から、未知語と判定された文字列と同じ文脈で出現する辞書に登録された単語の辞書属性と類似しているという考えに基づき動作する。例えば、「あの/女優/かっわいーい/ね/。」の「かっわいーい」と、「あの/女優/かっこいい/ね/。」の「かっこいい」とは、前後の単語列が同じであることから、同じ文脈で出現しているとみなせる。仮に、単語辞書に、「かっこいい」の辞書属性が「形容詞」と登録されていれば、「かっわいーい」の辞書属性は「形容詞」と推定できる。さらに、「あの女優いいね。」という文があり、「いい」の辞書属性が「形容詞」であるならば、「かっわいーい」の辞書属性が「形容詞」であることがより確からしくなる。このように、辞書属性推定手段は、同じ文脈で出現する単語の辞書属性の頻度を数えて、最も多い辞書属性を推定結果とすることで、辞書属性を推定できる。辞書属性は品詞に限らず、文脈によってある程度決まる辞書属性ならば任意の種類に対応できる。 The dictionary attribute estimation means includes a word attribute registered in a dictionary that appears in the same context as a character string determined to be an unknown word from a word segmented document data and a word dictionary in which words and dictionary attributes are registered. Operates based on the idea that they are similar. For example, “Kawaii” of “Ano / Actress / Cuteai / Ne /.” And “Coolie” of “Ano / Actress / Coolie / Ne /.” Have the same word string before and after. It can be regarded as appearing in the same context. If the dictionary attribute “cool” is registered as “adjective” in the word dictionary, the dictionary attribute “cute” can be estimated as “adjective”. Furthermore, if there is a sentence “That actress is good” and the dictionary attribute of “good” is “adjective”, it becomes more probable that the dictionary attribute of “kawaii” is “adjective”. . Thus, the dictionary attribute estimation means can estimate the dictionary attribute by counting the frequency of dictionary attributes of words appearing in the same context and using the most dictionary attribute as an estimation result. The dictionary attribute is not limited to the part of speech, and can be any kind of dictionary attribute that is determined to some extent by the context.
以下、詳細に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described in detail.
(第1の実施の形態)
本発明を実施するための、第1の実施の形態について図面を参照して詳細に説明する。
(First embodiment)
A first embodiment for carrying out the present invention will be described in detail with reference to the drawings.
尚、以下の説明において、単語区切り表現と記述した場合は、付属語と語の活用形の文字列とする。本発明における付属語は、助詞、助動詞、接頭辞、接尾辞など、単独では文節を構成できない語とする。 In addition, in the following description, when it is described as a word break expression, it is assumed to be a character string of an attached word and a word utilization form. An adjunct in the present invention is a word that cannot constitute a phrase by itself, such as a particle, an auxiliary verb, a prefix, and a suffix.
図1は、本発明を実施するための第1の実施の形態の構成を示すブロック図である。図1を参照すると、本発明の第1の実施の形態は、未知語判定の対象となる文書データを入力する文書データ入力手段1と、文書データや辞書データを記憶する記憶装置2と、プログラム制御により動作するデータ処理装置3と、判定結果を確認するための未知語表示手段4を有する。
FIG. 1 is a block diagram showing the configuration of the first embodiment for carrying out the present invention. Referring to FIG. 1, in the first embodiment of the present invention, document data input means 1 for inputting document data to be subjected to unknown word determination, a
これら手段のそれぞれについて説明する。 Each of these means will be described.
未知語表示手段4は、未知語判定手段32により未知語と判定された文字列を未知語が抽出された文書と共に表示する。 The unknown word display means 4 displays the character string determined as the unknown word by the unknown word determination means 32 together with the document from which the unknown word is extracted.
文書データ入力手段1は、未知語の判定対象の文書データを文書データ記憶部20に記憶させる。文書データは、文書データの本体を表す「文書データ」と、文書データの識別子を表す「文書ID」からなる。「文書データ」は任意の日本語の文字列とする。「文書ID」は、あらかじめ指定しても良いし、入力順に整数の連番となるよう文書IDを付与するなど、自動的に付けても良い。
The document
記憶装置2は、文書データ記憶部20と、単語区切り表現辞書記憶部21と、単語辞書記憶部22と、未知語判定規則記憶部23とを備える。
The
文書データ記憶部20は、文書データ入力手段1により入力された文書データが記憶される。
The document
単語区切り表現辞書記憶部21には、付属語について、その文字列と品詞と原形が、活用形について、文字列と活用形の種類と基本形が記憶されている。
The word segmentation expression
単語辞書記憶部22には、単語の原形文字列と活用形が記憶されている。単語辞書記憶部22は、原形文字列と活用形に加え、任意の辞書属性を持たせても良い。辞書属性の例として品詞などが考えられる。
The word
未知語判定規則記憶部23には、未知語としての妥当性を判定するための規則が記憶されている。未知語判定規則の例は後述する。
The unknown word determination
データ処理装置3は、文字種分割手段30と分割位置修正手段31と未知語判定手段32とを備える。
The
文字種分割手段30は、文書データ記憶部20から文書データを読み出し、読み出した文書データを文字種の変わる部分で分割し、分割位置修正手段31に結果を渡す。ここで、文字種とは、ひらがな、カタカナ、漢字、アルファベット、数字、記号などがある。
The character
文字種による分割で、拗音(ゃ、ゅ、etc…)、促音(っ、ッ)、長音(−、〜)など、単独では明らかに意味をなさない文字では区切らないようにしても良い。また、特定文字種から他の文字種への変化点では区切らないようにしてもよい。例えば、「土田ジャイアンツ」など、漢字からカタカナへ変わる語は、固有名詞の可能性があるため区切らない、などが考えられる。 It may be divided by character type so that it is not separated by characters that do not clearly make sense, such as stuttering (nya, yu, etc ...), prompting sound (tsu, tsu), and long sound (-, ~). Further, it may not be divided at a change point from a specific character type to another character type. For example, words that change from kanji to katakana, such as “Tsuchida Giants”, may be proper nouns, so they are not separated.
分割位置修正手段31は、単語区切り表現辞書記憶部21から単語区切り表現の情報を読み出し、読み出したデータに基づいて文字種分割手段30から渡された分割済みの文字列の分割結果を修正し、未知語判定手段32に修正済み分割文字列を渡す。分割位置修正手段31は、文字種分割手段30による分割不足や過剰分割を、単語区切り表現を手がかりに修正する。ここで、分割不足とは、さらに分割できるが同じ文字種であるためにつながっている場合を指す。また、過剰分割とは、文字種は違うが、前の文字列も含めて1語である場合を指す。
The division position correcting means 31 reads the information of the word break expression from the word break expression
分割位置修正手段31は、ひらがな文字列の前方から、単語区切り表現の存在を最長一致で調べる。活用形文字列は、2文字目からも探索する。最長一致の単語区切り表現が付属語であればひらがな文字列を付属語と付属語以外で分割し、活用形であれば活用形文字列とそれ以外に分割し、活用形文字列を前の文字列と結合する。ここで、助詞が見つかった場合に、前方の分割文字列がひらがなでない限り1つにまとめるように修正するようにしてもよい。これは、助詞の直前は基本的に名詞であり、複数の文字種からなっていても1つの名詞と考えられるためである。また、分割位置修正手段31では、直後に促音、長音を伴う2文字や、開拗音(きゃ、キャ、etc…)の2文字は、仮想的に1文字として取り扱ってもよい。これは、前記2文字を先頭1文字で単語の区切れ目となることはないと考えられるためである。 The division position correcting means 31 checks the presence of the word break expression with the longest match from the front of the hiragana character string. The utilization type character string is searched from the second character. If the longest matching word delimiter is an ancillary word, the hiragana character string is divided by the ancillary word and other than the ancillary word. Join with a column. Here, when a particle is found, it may be corrected so as to be combined into one unless the front divided character string is hiragana. This is because immediately before the particle, it is basically a noun, and even if it consists of a plurality of character types, it is considered as one noun. In addition, the division position correcting means 31 may virtually handle two characters accompanied by a prompt sound and a long sound, or two characters such as an open sound (kya, ca, etc.) virtually as one character. This is because it is considered that the first character of the two characters does not become a word break.
次に、分割位置修正手段31は、ひらがな文字列の後方から最長一致で付属語の存在を調べる。付属語があれば、前述した付属語の処理と同様に、付属語を切り離すことで分割する。後方一致での活用形の修正は、必要ないことを補足する。活用形は、その部分を含めて一語であるため、仮に存在したとしても分割できないので調べる必要はないためである。ここで、付属語を切り離すと、前の分割文字列がひらがな1文字になってしまう場合は、ひらがな1文字が語となることはないと考えられるため、分割しないようにしてもよい。 Next, the division position correcting means 31 checks the presence of an attached word with the longest match from the back of the hiragana character string. If there is an ancillary word, it is divided by separating the ancillary word in the same manner as the processing of the ancillary word described above. It is supplemented that there is no need for modification of the conjugation type in backward matching. This is because the usage form is a single word including that part, so even if it exists, it cannot be divided, so there is no need to examine it. Here, when the attached word is separated, if the previous divided character string becomes one hiragana character, it is considered that the single hiragana character will not become a word, and therefore, it may not be divided.
未知語判定手段32は、単語辞書記憶部22から単語のデータを、未知語判定規則記憶部23から未知語判定のための規則をそれぞれ読み出し、分割位置修正手段31から渡された修正済み分割文字列のうち、単語辞書から読み出した単語に存在しない文字列に対して、単語辞書のデータと未知語判定の規則を用いて各分割文字列の未知語としての妥当性を評価し、未知語の判定結果を未知語表示手段4に渡す。また、未知語判定手段32は、分割された文字列をいくつか結合した文字列を作成し、単語辞書にない前記結合文字列に対して、未知語判定してもよい。例えば、「東京/タワー/に/行った。」という分割の場合、2つつなげた「東京タワー」、「タワーに」、「に行った」を未知語判定の候補としてもよい。また、前記結合文字列を生成する場合に、分割位置修正手段31によって、付属語と分かっている文字列は結合の対象外としてもよい。その場合、前の例において「に」が付属語と分かっている場合、「に」を含む文字列は候補外となり、「東京タワー」のみが結合文字列となる。
The unknown
具体的には、未知語判定手段32では、各分割文字列のうち、あらかじめ用意された単語辞書に存在しない文字列の未知語としての妥当性を、未知語判定記憶部23の未知語判定規則を用いて評価する。未知語判定規則には、部分文字列、文字種、文字数、単語辞書、抽出回数、抽出された活用の種類、抽出された活用の種類数の少なくとも一以上に基づいて、未知語としての妥当性が定義されている。また、各規則には、スコアをつけることができる。スコアが正の場合は未知語らしい文字列を表す規則となり、負の場合は未知語らしくない文字列をあらわす規則となる。このスコアは人間が目的に応じて調整したスコアであっても、事前に未知語と非未知語を用意してそれらを識別するためのスコアを自動学習で設定してもよい。また、未知語と非未知語を部分文字列、文字種、文字数、単語辞書、抽出回数に基づき、汎用な機械学習法で規則を学習したものでもよい。汎用の機械学習の例としては、決定木やニューラスネットワークや帰納論理プログラミングやサポートベクターマシンなどが挙げられる。機械学習を用いる場合は、人手であらかじめ未知語と非未知語をいくつか分類しておく。そして、分類規則を構成する特徴量として部分文字列、文字種、文字数、単語辞書、抽出回数、抽出された活用の種類、抽出された活用の種類数を作成する。例えば、「チョロい」を原形とする「チョロい(原形)」「チョロく(連用形)」「チョロければ(条件形)」が抽出されていて、合計頻度が20であるとする。前記情報から抽出できる特徴量の例として、「カタカナを含む」「カタカナからひらがな」「頻度=20」「頻度10以上」「部分文字列=“チョロ”」「部分文字列=“い”」「活用の種類数=4」「活用の種類=“原形”」「活用の種類=“条件形”」「活用の種類=“連用形”」「文字数=4」「文字数3以上」「開拗音を含む」などが考えられる。人手で分類した未知語と非未知語について、前記のような特徴量を生成しておき、汎用の機械学習アルゴリズムで分類規則を求めることができる。学習した分類規則により未知語候補が、“未知語”として分類された場合を未知語と判定することができる。以下では、人間が設定した例で説明する。
Specifically, in the unknown word determination means 32, the validity of the character string that does not exist in the word dictionary prepared in advance among the divided character strings is determined as the unknown word determination rule in the unknown word
未知語判定規則記憶部23に、規則1)「カタカナN文字を含む=N」、規則2)「単語辞書の複数の単語で構成される=−5」、規則3)「複数の文字種からなる=4」の3つの規則が記憶されているとする。そして、未知語判定手段32は、未知語候補(分割位置修正手段31から渡された修正済み分割文字列のうち、単語辞書から読み出した単語に存在しない文字列)に各規則を適用し、適合した規則のスコアの合計が0を超えた場合に未知語と判定することとする。
In the unknown word determination
その時、単語辞書に「東京」と「タワー」が存在するとして、「東京タワー」の判定を行う例を考える。ここで、「東京タワー」は、漢字からカタカナへの変化では分割しないという設定時、もしくは分割された文字列を結合したときに、未知語候補として抽出されたものとする。「東京タワー」は全ての規則に合致し、規則1ではスコア2、規則2ではスコア−5、規則3ではスコア4、となり合計は「1」となる。よって、閾値0を超えるため、「東京タワー」は未知語と判定される。
At this time, assuming that “Tokyo” and “Tower” exist in the word dictionary, an example of performing the determination of “Tokyo Tower” is considered. Here, it is assumed that “Tokyo Tower” is extracted as an unknown word candidate when it is set not to divide by a change from kanji to katakana, or when divided character strings are combined. “Tokyo Tower” matches all the rules, with
ここで、複合語が未知語と判定されにくくするという方針であれば、規則2のスコアを負の大きな値とすればよい。また、特定の複数の規則が同時に適合する場合、それぞれのスコアの和よりも大きなスコアを与えるようにするなど、複数適合時のスコアを設定してもよい。
Here, if the policy is to make it difficult for a compound word to be determined as an unknown word, the score of
単語辞書に基づく未知語判定規則の例としては、単語辞書に登録されている単語に分割文字列との編集距離が一定以下となる語が存在するなど、登録済みの単語との文字の類似性を利用する規則が考えられる。ここで、編集距離とは2つの文字列のうち、片方の文字列に対して1文字ずつ置換、挿入、削除を行うことでもう片方の文字列と同じにするための最小の手続き数として定義される。例えば、「かっわいい」と「かわいい」の編集距離は「っ」を挿入するのみで一致するので1となる。編集距離が十分に小さい場合は、語の表記ゆれと考えることができるため妥当であると判断できる。表記ゆれを重視する場合は、促音や長音などの文字を削除するコストを0とするような特別な編集距離を用いればよい。また、抽出回数に基づいた規則の例としては、「抽出された前後の単語の異なり数N=N」が上げられる。これは、前後の単語が異なるということは、様々な文脈で抽出されていることになるため、区切りミスの可能性が低いと判断できるためである。 Examples of unknown word determination rules based on word dictionaries include character similarity with registered words, such as when words registered in the word dictionary have words whose edit distance from the divided character string is less than a certain value. A rule that uses can be considered. Here, the edit distance is defined as the minimum number of procedures to make the same as the other character string by replacing, inserting, and deleting one character from the other character string. Is done. For example, the edit distance between “Cute” and “Cute” is 1 because it is the same only by inserting “T”. If the edit distance is sufficiently small, it can be considered appropriate because it can be considered as a fluctuation of the word. When emphasis is placed on the notation fluctuation, a special editing distance that eliminates the cost of deleting characters such as prompt sounds and long sounds may be used. Further, as an example of the rule based on the number of extractions, “the number of extracted words before and after N = N” is raised. This is because the fact that the preceding and following words are different means that they are extracted in various contexts, and therefore it is possible to determine that there is a low possibility of a break error.
次に、図1の機能ブロック図及び図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。 Next, the overall operation of this embodiment will be described in detail with reference to the functional block diagram of FIG. 1 and the flowchart of FIG.
まず、未知語の抽出対象の文書データを、文書データ入力手段1により文書データ記憶部20に記憶させる(図2のS1)。図3は、文書データ記憶部20に記憶されるデータの例である。図3には2つの文書データが含まれ、文書IDが1である「昨日、東京タワーに行って来た。」という文書データと、文書IDが2である「あの女優かっわい〜いね!」という文書データが存在する。
First, document data from which unknown words are to be extracted is stored in the document
次に、文字種分割手段30は、文書データ記憶部20から文書データを読み込み、各文書データを文字種が変化する点で分割し、各文書IDとそれに対応した分割文字列リストを生成する(図2のS2)。文字種は「ひらがな」「カタカナ」「漢字」「記号」「アルファベット」「数字」とする。また、「ー」「〜」を長音と考え、前記文字では区切らないようにする。図4は、生成された分割文字列リストの例である。分割文字列リストは、分割された文字列の先頭からの順番を表す「位置」と分割された文字列を表す「分割文字列」と、各文字列が修正済みであるかを表す「修正済み?」フィールドを持つ。「修正済み?」の初期値は、修正済みでないことを表す「0」となる。図4の「文書ID=1」のリストの最初のデータは、文書ID=1の1番目の分割文字列は「昨日」で、まだ「修正済み?」は修正済みでないので「0」が記憶されている。
Next, the character type dividing means 30 reads the document data from the document
次に、分割位置修正手段31は、分割文字列リストの先頭から修正済みでない文字列の位置を1つ取得する(図2のS3)。今後、前記位置を修正位置と呼ぶ。 Next, the division position correcting means 31 acquires one position of the character string that has not been corrected from the top of the divided character string list (S3 in FIG. 2). Hereinafter, the position is referred to as a correction position.
次に、分割位置修正手段31は、前記取得した修正位置の分割文字列の文字種がひらがなであれば、単語区切り表現辞書記憶部21から単語区切り表現を読み込み図2のS5へ、そうでなければ図2のS7へ移動する(図2のS4)。図5は、単語区切り表現辞書記憶部21に記憶された単語区切り辞書のデータの例である。単語区切り辞書は、大きく付属語と活用形の文字列表現からなる。図5の付属語について、助動詞など活用がある種類ではあらかじめ活用形を展開して辞書に登録しているが、基本形のみを記憶させ活用形の展開を分割位置修正手段31に実行させてもよい。付属語の辞書は、付属語の文字列を表す「付属語」と、その種類を表す「種類」と、活用形があれば活用形の種類を表す「活用の種類」と原形の文字列を表す「原形」からなる。活用形の辞書は、活用形の文字列を表す「活用形」とその種類を表す「種類」と活用形の種類を表す「活用の種類」と原形の文字列を表す「原形」からなる。
Next, if the character type of the obtained divided character string at the correction position is hiragana, the division position correction means 31 reads the word break expression from the word break expression
次に、分割文字列の文字種がひらがなであった場合に、分割位置修正手段31は、文字列の前方から単語区切り表現を用いて分割を修正する(図2のS5)。現在の修正位置が、図4の文書ID=1の5である場合を例に動作を説明する。まず、単語区切り表現のうち、分割文字列の前方から最長一致する文字列を探す。活用形文字列は、2文字目からも探索する。 Next, when the character type of the divided character string is hiragana, the division position correcting means 31 corrects the division from the front of the character string using the word delimiter expression (S5 in FIG. 2). The operation will be described by taking as an example a case where the current correction position is document ID = 1 in FIG. First, in the word delimiter expression, the longest matching character string is searched from the front of the divided character string. The utilization type character string is searched from the second character.
本例では、助詞の「に」が最長一致であったとする。ここで、2文字目の「い」が形容詞の活用と一致するが「い」を切り離すと直後が「っ」となるため、分割されないことを補足する。付属語のいずれかと一致した場合は、その付属語を分割文字列から切り離して、現在の修正位置に付属語文字列を挿入して、さらに「修正済み?」を1に更新して、それ以降の分割文字列の位置を1ずつ足して修正し、修正位置を1つ後ろにずらす。具体的には、図4の文書ID=1のリストは図6になる。図6では、位置5にあった「にいった」が「に」と「いった」に分割されたため、「に」を挿入してそれ以降の位置を修正している。図6では、本発明のフローチャート上、修正された「に」より前の位置の分割文字列は修正済みであることが保障されているため、「修正済み?」が1となっている点を補足しておく。修正位置は5から6となる。ここで、付属語ではなく活用形と一致した場合の例を説明する。例文として「短くはしった。」を考える。前例の文字種による分割文字列リストは、「短/くはしった」となる。ここで、ひらがなである「くはしった」の「く」が活用形に存在するとする。すると、活用形は前の語の語尾であるため、「短く/はしった」というように、活用形文字列を切り離して前の分割文字列に統合する。この場合、前の文字列が修正済みであっても再修正する。付属語と活用形の両方に一致した場合は、付属語を優先とする。また、本例の分割位置修正手段31では、直後に促音、長音を伴う2文字や、開拗音(きゃ、キャ、etc…)の2文字は、仮想的に1文字として取り扱う。例えば、図3の文書ID=2の位置3の「かっわい〜い」の「か」は助詞に一致するが、「かっ」を一文字と扱うため一致せず、「か」と「っわい〜い」に分割されることはない。
In this example, it is assumed that the particle “ni” has the longest match. Here, the second character “I” coincides with the use of an adjective, but when “I” is separated, “I” immediately follows, so that it is not divided. If it matches any of the attached words, the attached word is separated from the split character string, the attached word string is inserted at the current correction position, and “corrected?” Is updated to 1, and thereafter The divided character string is corrected by adding one by one, and the correction position is shifted backward by one. Specifically, the list of document ID = 1 in FIG. 4 is shown in FIG. In FIG. 6, since “ni” in
S5の次に、現在の修正位置の文字列に対して、分割位置修正手段31は、文字列の後方から単語区切り表現のうち付属語のみを用いて分割を修正する(図2のS6)。現在の修正位置が、図5の文書ID=2の3である場合を例にS6の修正の動作を説明する。まず、単語区切り表現の付属語から、分割文字列の後方から最長一致する文字列を探す。本例では、助詞の「ね」が最長一致であったとする。その場合、最長一致した付属語を分割文字列から切り離して、現在の修正位置を「修正済み?」を1に更新して、現在の修正位置の後ろに付属語文字列を挿入し、それ以降の位置を1つ後ろにずらし、修正位置を1つ後ろにずらす。
Subsequent to S5, for the character string at the current correction position, the division position correcting means 31 corrects the division using only the attached words in the word delimiter expression from the rear of the character string (S6 in FIG. 2). The correction operation in S6 will be described by taking as an example the case where the current correction position is 3 of document ID = 2 in FIG. First, the longest matching character string is searched from the back of the divided character string from the attached words of the word delimiter expression. In this example, it is assumed that the particle “Ne” has the longest match. In that case, the longest matching adjunct is separated from the divided character string, the current correction position is updated to “corrected?”, The adjunct character string is inserted after the current correction position, and thereafter Shift the position of 1 backward, and shift the
具体的には、図4の文書ID=2のリストは図7になる。図7では、本発明のフローチャート上、修正された「ね」より前の位置の分割文字列は修正済みであることが保障されているため、「修正済み?」が1となっている点を補足しておく。修正位置は3から1ずれるため4となる。また、本例の分割位置修正手段31では、単語区切り文字で分割した結果、分割した前の文字列がひらがな一文字となってしまう場合は、ひらがな一文字が語である可能性はほぼないと考え分割しない。例えば、図3の文書ID=2の位置1の「あの」の「の」は助詞に一致するが、前が「あ」のみとなってしまうので分割しない。
Specifically, the list of document ID = 2 in FIG. 4 is shown in FIG. In FIG. 7, in the flowchart of the present invention, it is guaranteed that the divided character string at the position before the corrected “Ne” has been corrected, so that “corrected?” Is 1. Let me supplement. Since the correction position is shifted from 3 by 1, it becomes 4. Further, in the division position correcting means 31 of this example, if the character string before the division becomes a single hiragana character as a result of the division by the word delimiter, it is considered that there is almost no possibility that the single hiragana character is a word. do not do. For example, “no” of “that” in
次に、分割位置修正手段31は、S4から来た場合とS6から来た場合の区別無く、現在の修正位置のリストの「修正済み?」を1に更新する(図2のS7)。 Next, the division position correcting means 31 updates “corrected?” In the list of the current correction positions to 1 without distinction between the cases coming from S4 and the cases coming from S6 (S7 in FIG. 2).
次に、分割位置修正手段31は、分割文字列リストの全ての分割文字列の「修正済み?」が1となっていたらS9へ、なっていなければS3へ移動する。(図2のS8)。 Next, the division position correcting means 31 moves to S9 if “corrected?” Of all the divided character strings in the divided character string list is 1, and moves to S3 if not. (S8 in FIG. 2).
次に、未知語判定手段32は、単語辞書記憶部22から単語データを、未知語判定規則記憶部23から未知語判定規則をそれぞれ読み出し、各の分割文字列が単語として登録済みであるかを前記読み出した単語データを参照して調べ、未登録の分割文字列に対して、前記読み出した未知語判定規則を用い未知語であるか否かを判定する(図2のS9)。
Next, the unknown word determination means 32 reads the word data from the word
図8は、単語辞書記憶部22に登録されているデータ例である。単語辞書には単語の原形文字列が記憶されている「文字列」と、活用形がある場合は、その活用形の種類が記憶される「活用種」からなる。例えば、図8の2行目は、「昨日」は活用されない語であることを示している。
FIG. 8 is an example of data registered in the word
未知語判定手段32は、活用種が指定されている場合、その活用規則に従って活用を基本形にすることで原形に変換する。例えば、「いけ(命令形)」や「いった(タ形)」などは「いく」に変換される。これは、活用による表層の違いを吸収することで、適切に頻度情報を取得するための処理である。図9は、未知語判定規則記憶部23に登録されている規則の例であり、10個の規則が登録されている。図9は説明をわかりやすくするために、規則を自然言語で記載しているが、実際にはプログラムにより決定的に処理できるような規則であり、自然言語で書かれた規則を解釈するわけではない。未知語判定規則記憶部23は、規則の識別子を表す「規則ID」、規則の内容を表す「規則」、規則のスコアを表す「スコア」から構成される。「スコア」が正の値の規則は、未知語らしい規則であることを表し、逆に負の値であるものは、未知語らしくない規則であることを表す。例えば、規則IDが2の「2文字以下」という規則は、2文字以下の場合は、未知語らしくなく、そのペナルティの度合いが「−2」であることを示している。
When the utilization type is designated, the unknown
未知語判定手段32は、未知語であるか判定する分割文字列に対して、全ての規則を当てはめ、合致する規則のスコアの和をとり、スコアの和が閾値より大きければ分割文字列を未知語と判定する。本例の閾値は0とする。図6、図7の分割文字列リストの全ての「修正済み?」が1であったと仮定し、両分割文字列リストを対象に動作の詳細を説明する。図6の位置1、2、3、5、6、7は、全て図8の単語辞書に登録されていると判断され、未知語候補は位置4の「タワー」となる。「タワー」に、図9の規則を適用すると、規則ID1、6、7に適合する。1からはスコア3、6からはスコア2、7からはスコア2で、合計7となり、閾値0を超え、未知語と判定される。同様に、図7のうち、位置3の分割文字列の「かっわい〜い」のみが未知語候補となり、図9の規則ID1、3、7、8に適合し、1からスコアが3、3からスコア2、7からスコア2、8からスコア−6で、スコア1となり、閾値0を超えて、未知語となる。例えば、「このほんをよみたい。」のように、全てひらがなで書かれた文は本発明ではうまく分割できないが、規則ID8の規則により大きなペナルティが課せられるため、未知語と判定されることはない。活用のある未知語候補の判定例についても説明する。活用がある未知語は、基本形が同じ未知語候補のすべての情報を用いる。例えば、未知語判定手段32は、「チョロい(基本形)」「チョロく(連用形)」「チョロかった(タ形)」「チョロくて(タ形連用テ形)」などを、イ形容詞アウオ段に従って基本形である「チョロい」に変換する。前記の全候補の頻度は、それぞれの活用の合計となる。また、前記の全候補の活用の種類は、「基本形」「連用形」「タ形」「タ形連用テ形」の4種類となる。図9の規則を適用すると、規則ID1、4、6、9、10に適合する。スコアは、3+2+6+3+3=17となり、未知語と判定される。
The unknown word determination means 32 applies all the rules to the divided character string for determining whether it is an unknown word, calculates the sum of the scores of the matching rules, and if the sum of the scores is larger than the threshold, the divided character string is unknown. Judged as a word. The threshold value in this example is 0. Assuming that all the “corrected?” In the divided character string lists in FIGS. 6 and 7 are 1, details of the operation will be described for both divided character string lists. The
最後に、未知語表示手段4は、S9で未知語と判定された分割文字列を、未知語が抽出された文書IDとその文書データと共に表示する(図2のS10)。図10に表示の例を示す。未知語が抽出された文書IDと文書データは、それぞれ「文書ID」と「入力文書」として表示され、処理により分割された結果が「分割結果」で、分割文字列のうち未知語と判定された分割文字列が「未知語」として表示される。この表示法はあくまで一例であり、未知語を示すも文字列の前後に特定の文字列を埋め込んで表示してもよい。例えば、「あの女優<unknown>かっわい〜い</unknown>よ!」など、未知語を「<unknown>」というタグで囲むなどが考えられる。 Finally, the unknown word display means 4 displays the divided character string determined as an unknown word in S9 together with the document ID from which the unknown word is extracted and its document data (S10 in FIG. 2). FIG. 10 shows an example of display. The document ID and document data from which the unknown word is extracted are displayed as “document ID” and “input document”, respectively, and the result of the division by the process is “division result”, and is determined as an unknown word in the divided character string. The divided character string is displayed as “unknown word”. This display method is merely an example, and an unknown word may be displayed but a specific character string may be embedded before and after the character string. For example, it is conceivable to enclose an unknown word with a tag "<unknown>" such as "That actress <unknown> is so cute!"
本実施の形態では、文字種分割手段30により文字種で分割し、分割位置修正手段31により付属語と語の活用形を用いて単語の区切り位置を修正することで単語分割を行う構成をとっているため、一般的な形態素解析のように、形態素コストや品詞連接コストを設定する必要なく単語分割ができ、未知語判定手段32により、分割された文字列で単語辞書に登録されていない文字列のうち、語として妥当な文字列を未知語として判断する構成をとっているため、単語らしさのみを規則化すればよく、設定に専門知識が必要である形態素コスト、品詞連接コストの設定を必要とせずに、未知語を抽出できる。
In this embodiment, the character
ここで、本発明の未知語判定の規則の作成は、形態素解析の規則の作成よりも容易で、専門的な知識も必要ないことを説明する。まず、形態素解析を行うために必要な設定を、代表的な形態素解析ツールであるJuman(非特許文献3)を例に説明する。 Here, it will be explained that the creation of rules for determining unknown words according to the present invention is easier than the creation of rules for morphological analysis and does not require specialized knowledge. First, settings necessary for performing morphological analysis will be described with reference to a typical morphological analysis tool, Juman (Non-Patent Document 3).
<非特許文献3>日本語形態素解析システム JUMAN version 5.1 (http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html)
<
設定すべき項目は、形態素コストと活用形も考慮した品詞の連接コストである。品詞の種類は、文法的に区別すべき細分類も含めると、「未定義語」を除いては50種ある。開発者は、少なくとも2500(=50×50)の品詞の連接可能性を判断して、コストを評価する必要がある。コストの評価には、文書の形態素解析結果を正しいと判断し、間違っている場合にはどこを修正すれば間違いを回避でき、かつこれまで正しく解析できていた文にも影響が起きないかを判断する力が必要である。また、単語辞書にも品詞を付与しなければならないため、初期辞書の構築にも語の細分類も含めた品詞を判断する専門性が必要である。さらに、形態素の文中での出現に対するコストである、形態素コストの設定も必要である。形態素コストの必要性を説明する。例えば、名詞と助詞を比較して、「会社は」という文字列を見た場合、「会社(名詞)/は(助詞)」と「会社(名詞)/は(名詞。葉の意味)」では、どちらが妥当であるかを判断する場合を想定する。名詞から名詞への品詞接続コストと名詞から助詞への品詞接続コストでは判断が出来ない場合に、名詞と助詞の形態素コストを用いることで判断できる。助詞の形態素コストが名詞より低い場合、「会社(名詞)/は(助詞)」と出力される。このように、品詞連接コストと形態素コストを、様々な文を想定して形態素解析が成功するように設定するのは、高い専門性と労力が必要である。 The item to be set is the part-of-speech concatenation cost that takes into account the morpheme cost and the utilization form. There are 50 types of parts of speech, excluding “undefined words”, including subcategories that should be distinguished grammatically. The developer needs to evaluate the cost by judging the concatenation possibility of at least 2500 (= 50 × 50) parts of speech. For cost evaluation, it is determined that the morphological analysis result of the document is correct, and if it is incorrect, what can be corrected to avoid the error, and whether the sentence that has been analyzed correctly will not be affected. The ability to judge is necessary. Also, since part of speech must be given to the word dictionary, it is necessary to have expertise to judge the part of speech including the initial dictionary construction and the subcategory of words. Furthermore, it is necessary to set a morpheme cost, which is a cost for appearance of a morpheme in a sentence. Explain the necessity of morpheme costs. For example, if you compare a noun and a particle and look at the string “company is”, “company (noun) / ha (particle)” and “company (noun) / ha (noun, meaning of leaf)” Suppose that it is determined which is appropriate. When the part of speech connection cost from a noun to a noun and the part of speech connection cost from a noun to a particle cannot be determined, it can be determined by using the morpheme costs of the noun and the particle. When the morpheme cost of a particle is lower than that of a noun, “company (noun) / ha (particle)” is output. Thus, setting the part-of-speech concatenation cost and the morpheme cost so that the morpheme analysis is successful assuming various sentences requires high expertise and effort.
一方、未知語判定規則では、ひらがなで異常に文字数が多い文字列は分割不足と考えられるのでマイナスのスコア、カタカナは未知語の可能性が高いのでプラスのスコア、など、文法を意識することなく直感的に規則を作成していくことができる。また、形態素解析では、単語間の関係についてのコスト設定が必要であるが、未知語判定では、1単語のみを考えればよいことからも、設定が複雑でないと言える。 On the other hand, in the unknown word determination rule, a string with an unusually large number of characters in hiragana is considered to be insufficiently divided, so a negative score, katakana is a positive score because there is a high possibility of an unknown word, etc. Rules can be created intuitively. In morphological analysis, it is necessary to set a cost for the relationship between words. However, in unknown word determination, since only one word needs to be considered, it can be said that the setting is not complicated.
(第2の実施の形態)
本発明を実施するための、第2の実施の形態について図面を参照して詳細に説明する。
(Second Embodiment)
A second embodiment for carrying out the present invention will be described in detail with reference to the drawings.
図11は、本発明を実施するための第2の実施の形態の構成を示すブロック図である。図11を参照すると、本発明の第2の実施の形態は、図1に示された第1の実施の形態における記憶装置2の構成に加え、非区切り表現辞書記憶部24を有し、図1のデータ処理装置3の分割位置修正手段31の変わりに非区切り表現考慮分割位置修正手段33を有する点で、第1の実施の形態と異なる。
FIG. 11 is a block diagram showing the configuration of the second exemplary embodiment for carrying out the present invention. Referring to FIG. 11, the second embodiment of the present invention has a non-delimited expression
以下、第1の実施の形態と異なる非区切り表現辞書記憶部24と非区切り表現考慮分割位置修正手段33について説明する。その他の構成は第1の実施の形態と同様であるため省略する。
Hereinafter, the non-delimited expression
非区切り表現辞書記憶部24には、非区切り表現として、典型的なひらがなの文字列の単語を記憶する。例として、「接続詞」や「指示詞」が非区切り表現として挙げられる。
The non-delimited expression
非区切り表現考慮分割位置修正手段33は、単語区切り表現辞書記憶部21から単語区切り表現の情報を読み出し、非区切り表現辞書記憶部24から非区切り表現の情報を読み出し、文字種分割手段30から渡された分割済みの文字列の分割結果を修正し、未知語判定手段32に修正済み分割文字列を渡す。
The non-delimiter expression considering division
非区切り表現考慮分割位置修正手段33は、各分割文字列に対して、単語区切り表現を適用する前に、前方後方から最長一致で、非区切り表現辞書に登録されている表現を探して、単語区切り表現の付属語の処理と同様の処理で、非区切り表現を切り離す点で分割位置修正手段31と異なる。第一の実施の形態の分割位置修正手段31では、例えば、「そのように」という文字列を「そのよう/に(助詞)」と区切るような過剰分割がなされることがあったが、非区切り表現考慮分割位置修正手段33では、単語の区切れ目とはならない非区切り表現を用いるため、前記例のような過剰分割がなくなる効果がある。 The non-delimited expression consideration division position correcting means 33 searches the expression registered in the non-delimited expression dictionary with the longest match from the front and rear before applying the word delimiter expression to each divided character string. It differs from the division position correcting means 31 in that the non-delimited expression is separated by the same process as the process of the attached word of the delimited expression. In the division position correcting means 31 of the first embodiment, for example, there is an excessive division in which a character string “such as” is separated from “such as / to (particle)”. The delimiter expression considering division position correcting means 33 uses the non-delimiter expression that is not a word delimiter, and therefore has the effect of eliminating excessive division as in the above example.
次に、図11の機能ブロック図及び図12のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。 Next, the overall operation of the present embodiment will be described in detail with reference to the functional block diagram of FIG. 11 and the flowchart of FIG.
図12のS1〜S2は第一の実施の形態のフローチャートである図2のS1〜S2と同様であるため説明を省略する。 Since S1 and S2 in FIG. 12 are the same as S1 and S2 in FIG. 2 which is the flowchart of the first embodiment, description thereof is omitted.
次に、非区切り表現考慮分割位置修正手段33は、分割文字列リストの先頭から修正済みでない文字列の位置を1つ取得する(図12のS3)。これを修正位置と呼ぶ。 Next, the non-separated expression considering division position correcting means 33 acquires one position of the character string that has not been corrected from the top of the divided character string list (S3 in FIG. 12). This is called a correction position.
次に、非区切り表現考慮分割位置修正手段33は、前記取得した修正位置の分割文字列の文字種がひらがなであるか否かを確認し、ひらがなであれば、単語区切り表現辞書記憶部21から単語区切り表現を読み込み、非区切り表現辞書記憶部24から非区切り表現を読み込み、図12のS5へ、そうでなければ図12のS7へ移動する(図12のS4)。図13は、非区切り表現辞書記憶部24に記憶された非区切り表現の例である。非区切り表現の辞書は、その文字列そのものを表す「文字列」フィールドからなる。典型的な非区切り文字列は指示詞や接続詞である。
Next, the non-separation expression considering division position correcting means 33 confirms whether or not the character type of the obtained divided character string at the correction position is hiragana, and if it is hiragana, the word delimiter expression
S4で、S3で取得された分割文字列の文字種がひらがなであった場合に、非区切り表現考慮分割位置修正手段33は、現在の修正位置の分割文字列の前方から非区切り表現を用いて分割を修正し、さらに単語区切り表現により修正する(図12のS5)。 In S4, when the character type of the divided character string acquired in S3 is hiragana, the non-delimited expression-considered division position correcting means 33 uses the non-delimited expression from the front of the divided character string at the current correction position. Is further corrected by word break expression (S5 in FIG. 12).
例として「あれはそのように依頼してください。」という文を考える。文字種分割手段30では、「あれはそのように/依頼/してください/。」と分割される。位置1の「あれはそのように」に図13の非区切り表現を適用すると「あれ」が最長一致し、「あれ」が位置1、「はそのように」が位置2、「依頼」が位置3、「してください」が位置4、「。」が位置5となる。位置1に「あれ」が挿入されたので、非区切り表現考慮分割位置修正手段33は、位置1の「修正済み?」を1に更新して、現在の修正位置を2に進める。位置2の「はそのように」に対して、単語区切り表現の最長一致を探すと、助詞の「は」と一致するため、「は」が位置2、「そのように」が位置3、「依頼」が位置4、「してください」が位置5、「。」が位置6となり、位置2の「修正済み?」を1に更新して、現在の修正位置を3に進める。
As an example, consider the sentence “Please ask me that way.” The character type dividing means 30 divides “That's how / request / please /.”. When the non-delimited expression in FIG. 13 is applied to “that is like that” at
次に、非区切り表現考慮分割位置修正手段33は、現在の修正位置の分割文字列の後方から非区切り表現を用いて分割を修正し、さらに単語区切り表現により修正する(図12のS6)。現在の修正位置は3であるため、後方からの最長一致で引く区切り文字を調べると、「そのように」と一致する。この場合、完全一致であるため、分割せずに、位置3の「修正済み?」を1に更新してS7へ進む。第1の実施の形態では、「そのよう/に(助詞)」と、非区切り表現を用いないことで過剰分割されてしまうことがあるが、過剰分割がなくなる。
Next, the non-delimiter expression considering division position correcting means 33 corrects the division using the non-delimiter expression from the rear of the divided character string at the current correction position, and further corrects it with the word delimiter expression (S6 in FIG. 12). Since the current correction position is 3, when the delimiter character to be drawn with the longest match from the back is examined, it matches “that way”. In this case, since it is a complete match, the “corrected?” At
図12のS7〜S10までは第1の実施の形態のフローチャートである図2のS7〜S10と同様であるため説明を省略する。 Since S7 to S10 in FIG. 12 are the same as S7 to S10 in FIG. 2 which is the flowchart of the first embodiment, description thereof is omitted.
本実施の形態では、第1の実施の形態に加え単語の区切れ目とはならない文字列を記憶させた非区切り表現辞書記憶部24を有し、非区切り表現考慮分割位置修正手段33により非区切り表現では文字列を分割されないよう構成されているため、ひらがな文字列の過剰分割がなくなり、より精度よく単語が切り出されるようになることで、非単語の文字列が減るため、未知語抽出の精度を向上される効果がある。
In this embodiment, in addition to the first embodiment, there is a non-delimited expression
(第3の実施の形態)
本発明を実施するための、第3の実施の形態について図面を参照して詳細に説明する。
(Third embodiment)
A third embodiment for carrying out the present invention will be described in detail with reference to the drawings.
従来、形態素解析では、品詞が決まることにより、形態素コスト、品詞連接コストを用いて分かち書き結果を評価することで、出力結果を決めるので、品詞推定と形態素解析を同時に行うことは考慮されておらず、未知語の辞書属性を推定できなかった。そこで、第3の実施の形態では、第1の実施の形態の特徴に加え、未知語の辞書属性を推定する構成を追加したことを特徴とする。 Conventionally, in morphological analysis, the part-of-speech estimation and morphological analysis are not considered at the same time, because the part-of-speech decision and the part-of-speech concatenation cost are used to evaluate the segmentation result and determine the output result. The dictionary attribute of unknown words could not be estimated. Therefore, the third embodiment is characterized in that a configuration for estimating dictionary attributes of unknown words is added to the features of the first embodiment.
図14は、本発明を実施するための第3の実施の形態の構成を示すブロック図である。 FIG. 14 is a block diagram showing the configuration of the third exemplary embodiment for carrying out the present invention.
図14を参照すると、本発明の第3の実施の形態は、図1に示された第1の実施の形態の構成に加え、単語分割済み文書データ入力手段5と未知語情報出力手段6を有し、図1の記憶装置2の構成に加え単語分割済み文書データ記憶部25を有し、図1のデータ処理装置3の構成に加え、辞書属性推定手段34を有する点で第一の実施の形態と異なる。
Referring to FIG. 14, in the third embodiment of the present invention, in addition to the configuration of the first embodiment shown in FIG. 1, word segmented document data input means 5 and unknown word information output means 6 are provided. First, in that it has a word-division-completed document
以下、第1の実施の形態と異なる、単語分割済み文書データ入力手段5と、未知語情報出力手段6と、単語分割済み文書データ記憶部25と、辞書属性推定手段34について説明する。その他の構成は第1の実施の形態と同様であるため省略する。
The word segmented document
未知語情報出力手段6は、未知語と辞書属性推定手段34により推定された未知語の辞書属性を、未知語が抽出された文書データと共に表示する。 The unknown word information output means 6 displays the unknown words and the dictionary attributes of the unknown words estimated by the dictionary attribute estimation means 34 together with the document data from which the unknown words are extracted.
単語分割済み文書データ入力手段5は、単語分割された文書データを単語分割済み文書データ記憶部25に記憶させる。単語分割済み文書データ入力手段により入力されるデータは、任意の形態素解析システムで自動分割した結果を挿入してもよいし、人手によって分割したデータでもよいし、第1の実施の形態の文字種分割手段30と分割位置修正手段31により自動分割した結果でもよい。
The word-divided document
辞書属性推定手段34は、未知語判定手段により未知語と判定された文字列と、単語辞書記憶部22から読み出した単語データと、単語分割済み文書データ記憶部25から読み出した単語分割済み文書データとから、単語辞書記憶部22に定義された辞書属性の中から未知語の辞書属性を推定する。具体的には、未知語の辞書属性は、未知語と同じ文脈で現れる単語の辞書属性と類似するという考えから、未知語が抽出された文書データと未知語の周辺の単語列が同じである文書データを単語分割済み文書データから探し、同じパタンで挟まれた文字列が単語辞書に登録されている語であったら、その辞書属性の頻度を数え、最も頻度の高い辞書属性を未知語の辞書属性とする。例えば、単語辞書の辞書属性として、品詞として定義されていて、単語辞書記憶部22には、「学校」が「名詞」、「プール」が「名詞」という少なくとも2つのデータが存在し、単語分割済み文書データ記憶部25には、「昨日/は/学校/ へ/いった/。」と「昨日/は/プール/へ/いった/。」が記憶されていて、「昨日/は/ガッコウ/へ/いった/。」の「ガッコウ」が未知語と判定されたとする。その場合は、前後2単語の文字列パタンが同じであったら同一文脈としてみなすとすると、「学校」と「プール」が、同一文脈で出現する単語となり、どちらも辞書属性が「名詞」であるため、「ガッコウ」の辞書属性である品詞は「名詞」と推定される。ここで、前後の単語数は変えてもよい。
The dictionary
また、同一文脈で出現した単語と未知語の文字列の類似度が高い場合、その単語の辞書属性について重みをつけて頻度を数えても良い。文字列の類似度としては、編集距離や前方一致の文字数や後方一致の文字数が考えられる。特に、後方一致は、日本語において複合語は後方の単語が意味を表す場合が多く、また活用形が辞書属性の推定に有効と考えられるので有効である。また、意図的に表記を崩した文書が対象の場合は、促音や長音を表す文字の削除コストを低く設定した編集距離を用いるとよい。文字列の類似度を測る際に、未知語のカタカナ文字列をひらがなに変換した文字列を用いてもよい。例えば、カタカナをひらがなに変換すると、未知語である「カワイイ」は単語辞書の「かわいい」と一致する。辞書属性は最もよい1つではなく、頻度が閾値を超えた全ての属性を頻度順に付与してもよい。同一文脈の文書データが一つも無かった場合や、同一文脈の文書データで未知語と同じ文脈であらわれた単語のうち、辞書属性が設定されている語がなかったために頻度を数えられなかった場合、辞書属性は「不明」とする。ここで、頻度が一定以下の場合は信頼度が低いため「不明」と出力してもよい。 Further, when the similarity between a word that appears in the same context and a character string of an unknown word is high, the frequency may be counted by weighting the dictionary attribute of the word. As the similarity between character strings, the edit distance, the number of characters that match the front, and the number of characters that match the back are conceivable. In particular, backward matching is effective because compound words in Japanese often have meanings in the backward words, and the utilization form is considered to be effective in estimating dictionary attributes. In addition, in the case of a document whose notation is intentionally broken, it is preferable to use an edit distance in which the deletion cost of characters representing prompt sounds and long sounds is set low. When measuring the similarity of character strings, a character string obtained by converting an unknown word katakana character string into hiragana may be used. For example, when katakana is converted to hiragana, the unknown word “kawaii” matches “cute” in the word dictionary. The dictionary attribute is not the best one, and all attributes whose frequency exceeds the threshold may be assigned in order of frequency. When there is no document data with the same context, or when the frequency cannot be counted because there is no word with dictionary attribute among words that appear in the same context as the unknown word in the same context document data The dictionary attribute is “unknown”. Here, since the reliability is low when the frequency is below a certain level, “unknown” may be output.
次に、図14の機能ブロック図及び図15のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。 Next, the overall operation of the present embodiment will be described in detail with reference to the functional block diagram of FIG. 14 and the flowchart of FIG.
まず、未知語の抽出対象の文書データを、文書データ入力手段1により文書データ記憶部20に記憶させ、単語分割済み文書データを単語分割済み文書データ入力手段5により単語分割済み文書データ記憶部25に記憶させる(図15のS1)。文書データ記憶部20に記憶されたデータの例は、第一の実施の形態で説明した図3と同様とする。図16は単語分割済み文書データ記憶部25に記憶される文書データの例である。図16によると、単語分割済みデータ記憶部25は、「分割済み文書ID」と単語が分割された結果が入っている「単語分割済み文書データ」からなる。
First, the document data from which unknown words are to be extracted is stored in the document
図15のS2〜S9は、図2のフローチャートのS2〜S9と同様であるため説明を省略する。 S2 to S9 in FIG. 15 are the same as S2 to S9 in the flowchart in FIG.
次に、辞書属性推定手段34は、未知語判定手段32により未知語と判定された全分割文字列を対象に、単語辞書記憶部22から読み出した単語データと、単語分割済み文書データ記憶部25から読み出した単語分割済み文書データを用いて辞書属性を推定する(図15のS10)。
Next, the dictionary
図17は、本実施の形態の例における単語辞書記憶部22に記憶されているデータである。辞書属性として、品詞と極性を定義している。極性は、肯定的な意味を含む語であれば「肯定的」、否定な意味を含む語であれば「否定的」を付与している。ここでは、第一の実施の形態の説明と同様に、S9までに、図2の文書ID2の文で「かっわい〜い」が未知語として判定されている前提で説明する。また、S9までの文書ID2の文の分割結果は図7の通り、「あの/女優/かっわい〜い/ね/!」となっている。本例では、未知語の前1、後ろ1単語が一致する場合に同一の文脈とする。その時、「女優/<単語>/ね 」というパタンを持つ文を図16の単語分割済み文書データから取得すると、分割済み文書ID1〜3までの3つの文が取り出され、「かっわい〜い」と同じ文脈で出現する語は、文書ID1から「かわいい」「いい」「かっこわるい」となる。この場合、品詞は、図17の属性1を参照すると、形容詞=3となり、他の属性候補はないため、「かっわい〜い」の属性1(品詞)は「形容詞」と推定できる。また、極性に関しては、「かわいい」「いい」で「肯定的」が2、「かっこわるい」で否定的が1となり、「かっわい〜い」の属性2(極性)は肯定的と推定できる。ここで、仮に分割済み文書ID2の文書データが無かった場合、そのままでは肯定的も否定的も決められないが、文字列類似度に応じて重みをつけて辞書属性の頻度を数えることで決定できる場合もある。具体的には、「かっわい〜い」は「かっこわるい」よりも「かわいい」に文字列が類似しているため「かわいい」の極性である肯定的に重みをつけて頻度を数えるようにすればよい。文字列の類似度として編集距離を用いた例を説明する。編集距離は小さいほど類似しているとみなせる値であり、完全一致する文字列では0となる。「かわいい」と「かっわい〜い」の編集距離は2、「かっこわるい」と「かっわい〜い」の編集距離は3、であり「かわいい」と「かっわい〜い」の方が類似していることがわかる。重み付けの例として、編集距離の逆数を考える、「かわいい」の「肯定的」は1/2で、「かっこわるい」の「否定的」は1/3となり、文書ID2の文書データがない場合にも、文字列が類似する語の辞書属性の重みを増やすことで肯定的と推定できる。
FIG. 17 shows data stored in the word
最後に、未知語情報表示手段6は、未知語判定手段32により判定された未知語と辞書属性推定手段34が推定した辞書属性を、抽出された文書データと共に表示する(図15のS11)。図18は未知語情報表示手段6の表示例である。未知語が抽出された文書IDと文書データは、それぞれ「文書ID」と「入力文書」として表示され、処理により分割された結果が「分割結果」で、分割文字列のうち未知語と判定された分割文字列が「未知語」として表示される。各未知語には、単語辞書で定義された任意の辞書属性の推定結果が表示されている。 Finally, the unknown word information display means 6 displays the unknown word determined by the unknown word determination means 32 and the dictionary attribute estimated by the dictionary attribute estimation means 34 together with the extracted document data (S11 in FIG. 15). FIG. 18 is a display example of the unknown word information display means 6. The document ID and document data from which the unknown word is extracted are displayed as “document ID” and “input document”, respectively. The divided character string is displayed as “unknown word”. In each unknown word, an estimation result of an arbitrary dictionary attribute defined in the word dictionary is displayed.
本実施の形態では、第1の実施の形態に加え、単語分割済み文書データ記憶部25と辞書属性推定手段34を有し、同じ文脈で出現する語と未知語の辞書属性が似ているという考えに基づいて辞書属性を推定しているので、文脈によってある程度決まる任意の辞書属性を推定することが可能である。
In this embodiment, in addition to the first embodiment, it has a word segmented document
(第4の実施の形態)
本発明を実施するための、第4の実施の形態について図面を参照して詳細に説明する。
(Fourth embodiment)
A fourth embodiment for carrying out the present invention will be described in detail with reference to the drawings.
図19は、本発明を実施するための第4の実施の形態の構成を示すブロック図である。図19を参照すると、本発明の第4の実施の形態は、図11に示された第2の実施の形態の構成に加え、単語分割済み文書データ入力手段5と未知語情報出力手段6を有し、図11の記憶装置2の構成に加え単語分割済み文書データ記憶部25を有し、図11のデータ処理装置3の構成に加え、辞書属性推定手段34を有する点で第2の実施の形態と異なる。
FIG. 19 is a block diagram showing the configuration of the fourth exemplary embodiment for carrying out the present invention. Referring to FIG. 19, in the fourth embodiment of the present invention, in addition to the configuration of the second embodiment shown in FIG. 11, word segmented document data input means 5 and unknown word information output means 6 are provided. The second embodiment is that it has a word-divided document
第4の実施の形態の単語分割済み文書データ入力手段5、未知語情報出力手段6、単語分割済み文書データ記憶部25、辞書属性推定手段34は、第3の実施の形態の説明と同様であるので省略する。
The word segmented document
次に、図19の機能ブロック図及び図20のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。 Next, the overall operation of this embodiment will be described in detail with reference to the functional block diagram of FIG. 19 and the flowchart of FIG.
図20のS1は図15のS1と同様であるため、説明を省略する。 Since S1 of FIG. 20 is the same as S1 of FIG. 15, description thereof is omitted.
図20のS2〜S9は、図12のS2〜S9と同様であるため、説明を省略する。 Since S2 to S9 in FIG. 20 are the same as S2 to S9 in FIG.
図20のS10〜S11は、図15のS10〜S12と同様であるため説明を省略する。 S10 to S11 in FIG. 20 are the same as S10 to S12 in FIG.
本実施の形態では、第2の実施の形態の構成を持っているため高精度に単語分割できることから未知語抽出の精度も高くなり、さらに単語分割済み文書データ記憶部25と辞書属性推定手段34を有し、同じ文脈で出現する語と未知語の辞書属性が似ているとう考えに基づいて辞書属性を推定しているので、文脈によってある程度決まる任意の辞書属性を推定することが可能である。
In the present embodiment, since it has the configuration of the second embodiment, it is possible to segment words with high accuracy, so that the accuracy of unknown word extraction is increased, and the word segmented document
(第5の実施の形態)
本発明を実施するための、第5の実施の形態について図面を参照して詳細に説明する。
(Fifth embodiment)
A fifth embodiment for carrying out the present invention will be described in detail with reference to the drawings.
図21は、本発明を実施するための第5の実施の形態の構成を示すブロック図である。図21を参照すると、本発明の第5の実施の形態は、図14に示された第3の実施の形態のデータ処理装置3の構成に加え、原形推定手段35を有する点で第3の実施の形態と異なる。
FIG. 21 is a block diagram showing the configuration of the fifth embodiment for carrying out the present invention. Referring to FIG. 21, the fifth embodiment of the present invention is the third point in that it has original shape estimation means 35 in addition to the configuration of the
原形推定手段35は、単語区切り表現辞書記憶部21と単語辞書記憶部22からそれぞれデータを読み出し、辞書属性推定手段34により少なくとも品詞を含む未知語の辞書属性推定結果を受け取り、未知語の原形とその活用形を推定する。未知語が活用形のない品詞であれば、未知語の文字列をそのまま原形とする。
The original shape estimation means 35 reads data from the word delimiter expression
原形推定手段35は、まず単語区切り表現辞書21から読み出した活用形表現を用いて、未知語の品詞で可能な活用形文字列を後方一致で調べ、活用形の候補を絞る。
The original form estimation means 35 first uses the utilization form expression read from the word
例として、仮に、抽出された未知語に、「かっわいい」「かっわいく」「かっわいかった」が存在し、それらの品詞の推定結果が「形容詞」であったとする。形容詞の活用形のうち後方一致する「い」「く」「かった」は、形容詞の活用形規則の「イ形容詞アウオ段」と「イ形容詞イ段特殊」と「イ形容詞イ段」の3つに合致したとする。ここまでで一意に決まれば、未知語の活用形を確定させ、原形はその活用形の基本形とする。決まらなければ、次に、原形推定手段35は、単語辞書記憶部22から読み出したデータから、前記絞り込んだ候補の活用形となる単語を読み出す。
As an example, suppose that the extracted unknown words include “cool”, “cool” and “cool”, and the estimation result of those parts of speech is “adjective”. Of the inflected forms of adjectives, "i", "ku", and "kata" that match backwards are three of the adjective rules for adjectives: "I adjective Aodan", "I adjective Idan special", and "I adjective Idan". Suppose that If it is decided so far, the utilization form of the unknown word is determined, and the original form is the basic form of the utilization form. If it is not determined, next, the original shape estimation means 35 reads the word that is the utilization form of the narrowed candidates from the data read from the word
次に、各未知語をそれぞれの活用形候補で基本形に直し、同じ活用形の単語辞書の単語と類似度を測る。その時、最も類似する単語の活用形を未知語の活用形とみなし、その基本形を未知語の原形とする。文字列の類似度としては、前方一致の文字数、後方一致の文字数、編集距離、などが考えられる。編集距離を例に説明すると、前記未知語の基本形は全て「かっわいい」となり単語「かわいい」が最も類似する単語となったとすると、活用形は「かわいい」の活用形である「イ形容詞アウオ段」に確定し、原形はその基本形である「かっわいい」となる。仮に最も類似する語の類似度がことなる活用形で表れた場合は、2番目で比較するなど、一意に決まるようにしてもよいし、複数の候補を提示してもよい。未知語がカタカナの場合、ひらがなに変換して文字列類似度や活用形を調べるようにしてもよい。文字列の類似度を測る際に、高い類似性が認められ単語辞書内の単語の表記ゆれとみなせる場合は、原形を単語辞書の語としてもよい。前例の場合は、「かっわいい」の原形は「かわいい」となる。 Next, each unknown word is converted into a basic form with each usage word candidate, and the degree of similarity with a word in the word dictionary of the same usage form is measured. At that time, the usage form of the most similar word is regarded as the usage form of the unknown word, and the basic form is used as the original form of the unknown word. As the degree of similarity of character strings, the number of front-matching characters, the number of back-matching characters, the editing distance, and the like can be considered. Taking the editing distance as an example, if the basic form of the unknown word is all “cool” and the word “cute” is the most similar word, the usage form is “a” The original form becomes “cool” which is its basic form. If the similarity of the most similar word appears in a different usage, it may be determined uniquely, such as by comparing the second word, or a plurality of candidates may be presented. If the unknown word is katakana, it may be converted to hiragana to check the character string similarity and usage. When measuring the similarity of character strings, if a high similarity is recognized and it can be regarded as a fluctuation of a word in the word dictionary, the original form may be used as a word in the word dictionary. In the case of the previous example, the original form of “cool” is “cute”.
次に、図21の機能ブロック図及び図22のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。 Next, the overall operation of the present embodiment will be described in detail with reference to the functional block diagram of FIG. 21 and the flowchart of FIG.
図22のS1からS10までは、図15のS1〜S10と同様であるため、説明を省略する。 Since S1 to S10 in FIG. 22 are the same as S1 to S10 in FIG. 15, description thereof is omitted.
次に、原形推定手段35は、単語区切り表現辞書記憶部21と単語辞書記憶部22からそれぞれデータを読み出し、辞書属性推定手段34により少なくとも品詞を含む未知語の辞書属性推定結果を受け取り、未知語の原形を推定する(図22のS11)。
Next, the original shape estimation means 35 reads data from the word delimiter expression
第3の実施の形態でのS10までの例と同様に、未知語抽出と品詞の推定結果が、「タワー(名詞)」「かっわい〜い(形容詞)」となっている場合を例に説明する。まず、「タワー」は名詞であるため、活用形がないため、原形は「タワー」となる。一方、「かっわい〜い」は「形容詞」であるので活用形がある。原形推定手段35は、単語区切り表現辞書記憶部21から形容詞の活用形を用いて、形容詞の活用形を後方一致で調べる。後方一致で、「い」に適合する形容詞の活用形は、「イ形容詞アウオ段」「イ形容詞イ段」「イ形容詞イ段特殊」である。次に、前記3つの候補の活用形の単語のうち、基本形を単語辞書データから取得し、同じ活用形同士で全ての基本形と未知語の基本形の類似度を測る。文字列類似度の尺度として、長音(ー、〜)の削除コストをなくした編集距離を用いた例を説明する。結果、「かっわい〜い」と「かわいい」の編集距離は1となり、最も類似した語となったとする。最終的に、「かっわい〜い」の活用形は「かわいい」と同じ「イ形容詞アウオ段」となり、原形はその基本形である「かっわい〜い」となる。
As in the example up to S10 in the third embodiment, the case where the unknown word extraction and the part-of-speech estimation results are “tower (noun)” and “cute (adjective)” will be described as an example. To do. First, because “tower” is a noun, there is no use form, so the original form is “tower”. On the other hand, “Kawaii ~ i” is an “adjective”, so there is a utilization form. The original form estimation means 35 uses the adjective usage form from the word segmentation expression
次に、未知語情報表示手段6は、原形推定手段35から結果を受け取り、抽出された未知語文字列、辞書属性、原形とその活用形と未知語が抽出された文書データを表示する(図22のS12)。図23に表示例を示す。図13では、文書IDと未知語が抽出された文書と分割処理後の結果と抽出された未知語を表示し、さらに、未知語の辞書属性と原形とその活用形を表示している。 Next, the unknown word information display means 6 receives the result from the original form estimation means 35, and displays the extracted unknown word character string, dictionary attribute, original form and its utilization form, and document data from which the unknown word is extracted (FIG. 22 S12). FIG. 23 shows a display example. In FIG. 13, the document ID and the unknown word extracted document, the result after the division process, and the extracted unknown word are displayed, and the dictionary attribute and original form of the unknown word and its utilization form are displayed.
本実施の形態では、第3の実施の形態に加え、原形推定手段35を有し、未知語の品詞と活用形文字列の後方一致により活用形候補を絞り込み、一意に決まらない場合はさらに活用形候補の単語との文字列の類似度を手がかりに活用形を決め、その活用形の基本形を原形とする構成をとっているため、未知語に活用形がある場合でも原形を推定できる。本実施の形態により、活用形によって文字列が異なる未知語があっても、同じ語であると認識する手段を提供できる。 In this embodiment, in addition to the third embodiment, the original form estimation means 35 is provided, and the utilization form candidates are narrowed down by backward matching of the part-of-speech of the unknown word and the utilization form character string, and further utilized when not uniquely determined. The utilization form is determined based on the similarity of the character string with the word of the candidate form, and the basic form of the utilization form is used as the original form. Therefore, the original form can be estimated even when the unknown form has the utilization form. According to the present embodiment, it is possible to provide means for recognizing that the same word is used even if there are unknown words having different character strings depending on the utilization form.
(第6の実施の形態)
本発明を実施するための、第6の実施の形態について図面を参照して詳細に説明する。
(Sixth embodiment)
A sixth embodiment for carrying out the present invention will be described in detail with reference to the drawings.
図24は、本発明を実施するための第6の実施の形態の構成を示すブロック図である。図24を参照すると、本発明の第6の実施の形態は、図19に示された第4の実施の形態のデータ処理装置3の構成に加え、原形推定手段35を有する点で第3の実施の形態と異なる。
FIG. 24 is a block diagram showing the configuration of the sixth embodiment for carrying out the present invention. Referring to FIG. 24, the sixth embodiment of the present invention is the third point in that it has original shape estimation means 35 in addition to the configuration of the
原形推定手段35は、実施の形態5で説明したものと同様であるため、説明を省略する。 Since the original shape estimation means 35 is the same as that described in the fifth embodiment, the description thereof is omitted.
次に、図24の機能ブロック図及び図25のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。 Next, the overall operation of the present embodiment will be described in detail with reference to the functional block diagram of FIG. 24 and the flowchart of FIG.
図25のS1〜S10は、第4の実施の形態で説明した図20のS1〜S10と同様であるため、説明を省略する。 25 are the same as S1 to S10 of FIG. 20 described in the fourth embodiment, and thus description thereof is omitted.
図25のS11〜S12は、第5の実施の形態で説明した図22のS11〜S12とどうようであるため、説明を省略する。 25 are the same as S11 to S12 of FIG. 22 described in the fifth embodiment, and thus description thereof is omitted.
本実施の形態では、第4の実施の形態の構成を有するため、高精度に単語分割できることから未知語抽出の精度も高くなり、さらに原形推定手段35を有し、未知語の品詞と活用形文字列の後方一致により活用形候補を絞り込み、一意に決まらない場合はさらに活用形候補の単語との文字列の類似度を手がかりに活用形を決め、その活用形の基本形を原形とする構成をとっているため、未知語を高精度に抽出でき、さらに未知語に活用形がある場合でも原形を推定できる。 In the present embodiment, since it has the configuration of the fourth embodiment, it is possible to divide the word with high accuracy, so that the accuracy of unknown word extraction is improved, and further, the original shape estimation means 35 is provided, and the part-of-speech and utilization form of the unknown word are provided. Narrow down usage candidates by backward matching of character strings.If it is not uniquely determined, determine the usage shape based on the similarity of the character string with the word of the usage shape candidate, and use the basic shape of the usage shape as the original form. Therefore, unknown words can be extracted with high accuracy, and the original form can be estimated even if the unknown words have a utilization form.
以上、本発明の第1から第6の実施の形態を説明したが、本発明はコンピュータソフトウェアとしても実現可能である。 Although the first to sixth embodiments of the present invention have been described above, the present invention can also be realized as computer software.
図26は、本発明による未知語判定システムをインプリメントした情報処理システムの一般的ブロック構成図である。 FIG. 26 is a general block diagram of an information processing system that implements an unknown word determination system according to the present invention.
図26に示す情報処理システムは、プロセッサ300、プログラムメモリ301、記憶媒体302からなる。記憶媒体としては、RAMや、ハードディスク等の磁気記憶媒体を用いることができる。 The information processing system shown in FIG. 26 includes a processor 300, a program memory 301, and a storage medium 302. As the storage medium, a RAM or a magnetic storage medium such as a hard disk can be used.
プログラムメモリ301には、実施の形態1から6のデータ処理装置が行う処理ステップを実行するプログラムが格納されており、このプログラムによってプロセッサ300が動作する。記憶媒体302は、実施の形態1から6の記憶装置として用いられる。 The program memory 301 stores a program for executing processing steps performed by the data processing apparatuses according to the first to sixth embodiments, and the processor 300 operates according to this program. The storage medium 302 is used as the storage device in the first to sixth embodiments.
本発明によれば、形態素解析の前処理としての未知語抽出機能に適用できる。また、文書データから未知語と辞書属性を獲得することで、自動的な辞書増殖を実現するプログラムといった用途に適用できる。 The present invention can be applied to an unknown word extraction function as preprocessing for morphological analysis. In addition, it can be applied to applications such as a program that realizes automatic dictionary multiplication by acquiring unknown words and dictionary attributes from document data.
1 文書データ入力手段
2 記憶装置
3 データ処理装置
20 文書データ記憶部
21 単語区切り表現辞書記憶部
22 単語辞書記憶部
23 未知語判定規則記憶部
24 非区切り表現辞書記憶部
25 単語分割済み文書データ記憶部
30 文字種分割手段
31 分割位置修正手段
32 未知語判定手段
33 非区切り表現考慮分割位置修正手段
34 辞書属性推定手段
35 原形推定手段
4 未知語表示手段
5 単語分割済み文書データ入力手段
6 未知語情報表示
300 プロセッサ
301 プログラムメモリ
302 記憶媒体
DESCRIPTION OF
Claims (51)
前記分割された文字列のうち単語登録されていない文字列の未知語らしさを判定する未知語判定手段と
を有する未知語判定システム。 Character type dividing means for dividing a Japanese document into character strings according to character types;
An unknown word determination system comprising: an unknown word determination unit that determines the likelihood of an unknown word of a character string that is not registered as a word among the divided character strings.
請求項1に記載の未知語判定システム。 The unknown word determination system according to claim 1, wherein the character type dividing unit does not divide by a specific character type change or character.
請求項1又は請求項2に記載の未知語判定システム。 The unknown word according to claim 1, further comprising: a division position correcting unit that corrects a division position of the hiragana character string divided by the character type dividing unit based on an attached word or a utilization form of the word. Judgment system.
請求項3に記載の未知語判定システム。 The division position correcting means searches the hiragana character string with the longest match from at least one of the front and rear, and if there is an appendage, divides the hiragana character string into an appendix and other than the appendix The unknown word determination system according to claim 3.
請求項3又は請求項4に記載の未知語判定システム。 The division position correcting means searches for a utilization form expression of a word with the longest match from the front with respect to a hiragana character string, and if there is a utilization form expression, combines the utilization form character string with the previous character string. The unknown word determination system according to claim 4.
請求項3から請求項5のいずれかに記載の未知語判定システム。 6. The division position correcting unit divides a hiragana character string by a longest match of a non-delimited expression from the front and the rear, and corrects the division position by an attached word and a utilization form. The unknown word determination system described in 1.
請求項1から請求項6のいずれかに記載の未知語判定システム。 The unknown word determination means determines whether the unknown character of the character string is based on whether or not a character string that is not registered as a word among the divided character strings is an attached word. The unknown word determination system according to any one of the above.
請求項1から請求項7のいずれかに記載の未知語判定システム。 The unknown word determination means includes the divided character string based on at least one of a partial character string, a character type, the number of characters, a word dictionary, the number of extractions, an extracted utilization type, and an extracted utilization type number. The unknown word determination system in any one of Claims 1-7 which determines the likelihood of the unknown word of the character string among which the word registration is not carried out.
請求項1から請求項8のいずれかに記載の未知語判定システム。 9. The unknown according to any one of claims 1 to 8, wherein the unknown word determination means determines the likelihood of an unknown word of the character string based on a score of a rule that matches the character string in advance by assigning a score to the rule. Word determination system.
請求項1から請求項9のいずれかに記載の未知語判定システム。 The unknown word judging means is a rule for identifying an unknown word and a non-unknown word based on a partial character string, a character type, the number of characters, a word dictionary, the number of extractions, an extracted utilization type, and an extracted utilization type number. The unknown word determination system according to claim 1, which is acquired by machine learning.
請求項1から請求項10のいずれかに記載の未知語判定システム。 A dictionary attribute estimating means for estimating a dictionary attribute of an unknown word based on the number of dictionary attributes of a word that appears in the same context as the unknown word from a word dictionary in which the word-divided document data and the dictionary attribute are registered The unknown word determination system in any one of Claims 1-10.
請求項11に記載の未知語判定システム。 12. The unknown word determination system according to claim 11, wherein the dictionary attribute estimation unit uses the same context when several words before and after match.
請求項11又は請求項12に記載の未知語判定システム。 The unknown word determination system according to claim 11 or 12, wherein the dictionary attribute estimation means counts the dictionary attributes of words that appear in the same context as the unknown word, and uses the dictionary attribute with the highest frequency as an estimation result.
請求項11から請求項13のいずれかに記載の未知語判定システム。 The dictionary attribute estimation means counts a dictionary attribute of a word that appears in the same context as an unknown word with a weight according to a character string similarity with the unknown word, and sets the most frequent dictionary attribute as an estimation result. The unknown word determination system according to any one of claims 11 to 13.
請求項1から請求項14のいずれかに記載の未知語判定システム。 Claims 1 to claim 2 having original form estimation means for estimating the original form of an unknown word and its use form by examining the use form of the unknown word part-of-speech with the longest match from the back and using the basic form of the use form as the original form. The unknown word determination system according to any one of 14.
請求項15に記載の未知語判定システム。 The original shape estimation means converts all unknown words into basic forms using possible usage forms. As a result, a plurality of originally different unknown words are matched as basic forms, and there is only one type of usage form that matches. The unknown word determination system according to claim 15, wherein the original form of those unknown words is used as the basic form, and the utilization form and the original form are estimated.
請求項15又は請求項16に記載の未知語判定システム。 The original shape estimation means converts all unknown words into basic forms with possible utilization forms, and as a result, a plurality of unknown words that were originally different match as basic forms, and if there are multiple types of utilization forms that coincide, By acquiring words of the same usage form as multiple matching usage forms, measuring the similarity of character strings, and using the basic form of the usage form of the word with the most similar character strings as the original form of the unknown word, The unknown word determination system according to claim 15 or 16, wherein the original form is estimated.
日本語文書を文字種により文字列に分割し、
前記分割された文字列のうち単語登録されていない文字列の未知語らしさを判定する
未知語判定方法。 Information processing device
A Japanese document is divided into character strings according to character types.
An unknown word determination method for determining the likelihood of an unknown word of a character string not registered as a word among the divided character strings.
請求項18に記載の未知語判定方法。 19. The unknown word determination method according to claim 18, wherein when a Japanese document is divided into character strings, a specific character type change or character is not divided.
請求項18又は請求項19に記載の未知語判定方法。 20. The unknown word determination method according to claim 18 or 19, wherein the information processing device corrects the division position of the divided hiragana character string based on an attached word or a utilization form of the word.
請求項20に記載の未知語判定方法。 The modification of the division position is performed by searching for an adjunct word with the longest match from at least one of the front and rear of the hiragana character string, and if there is an adjunct, the hiragana character string is divided into an adjunct word and a non-adjunct word The unknown word determination method according to claim 20.
請求項20又は請求項21に記載の未知語判定方法。 21. The modification of the division position is performed by searching a utilization form expression of a word with the longest match from the front with respect to a hiragana character string, and combining the utilization form character string with a previous character string if there is a utilization form expression. The unknown word determination method according to claim 21.
請求項20から請求項22のいずれかに記載の未知語判定方法。 The correction of the division position is performed by dividing the hiragana character string by the longest match of the non-delimited expression from the front and rear, and correcting the division position by the attached word and the usage form. The unknown word determination method described in 1.
請求項18から請求項23のいずれかに記載の未知語判定方法。 The determination of the unknown word is performed by determining whether the character string is an unknown word based on whether a character string that is not registered as a word among the divided character strings is an attached word. The unknown word determination method according to any one of the above.
請求項18から請求項24のいずれかに記載の未知語判定方法。 The unknown word is determined based on at least one of a partial character string, character type, number of characters, word dictionary, number of extractions, extracted utilization type, and extracted utilization type number. The unknown word determination method according to any one of claims 18 to 24, wherein an unknown word likelihood of a character string that is not registered as a word is determined.
請求項18から請求項25のいずれかに記載の未知語判定方法。 The unknown word is determined according to any one of claims 18 to 25, in which the unknown word is scored in advance, and the unknown word likelihood of the character string is determined based on a score of a rule that matches the character string. Word determination method.
請求項18から請求項26のいずれかに記載の未知語判定方法。 The determination of the unknown word is a rule for identifying an unknown word and a non-unknown word based on a partial character string, a character type, the number of characters, a word dictionary, the number of extractions, an extracted usage type, and an extracted usage type number. 27. The unknown word determination method according to any one of claims 18 to 26, wherein the word is acquired by machine learning.
請求項18から請求項27のいずれかに記載の未知語判定方法。 The information processing device estimates a dictionary attribute of an unknown word based on the number of dictionary attributes of a word that appears in the same context as the unknown word from a word dictionary in which word-divided document data and dictionary attributes are registered The unknown word determination method according to any one of claims 18 to 27.
請求項28に記載の未知語判定方法。 29. The unknown word determination method according to claim 28, wherein the estimation of the dictionary attribute of the unknown word uses the same context when several words before and after are matched.
請求項28又は請求項29に記載の未知語判定方法。 30. The unknown word determination method according to claim 28 or 29, wherein the estimation of the dictionary attribute of the unknown word is performed by counting dictionary attributes of words appearing in the same context as the unknown word and using the dictionary attribute having the highest frequency as an estimation result. .
請求項28から請求項30のいずれかに記載の未知語判定方法。 The estimation of the dictionary attribute of the unknown word is performed by counting the dictionary attribute of the word appearing in the same context as the unknown word with a weight according to the character string similarity with the unknown word, and determining the most frequent dictionary attribute as the estimation result. The unknown word determination method according to any one of claims 28 to 30.
請求項28から請求項31のいずれかに記載の未知語判定方法。 The information processing apparatus estimates the original form of an unknown word and its utilization form by examining the utilization form of the unknown word part-of-speech with the longest match from the rear and using the basic form of the utilization form as the original form. 31. The unknown word determination method according to any one of 31.
請求項32に記載の未知語判定方法。 The original form of the unknown word and its utilization form are estimated by converting all unknown words into a basic form with possible utilization forms. 33. The unknown word determination method according to claim 32, wherein if there is only one kind of word, the original form of those unknown words is used as its basic form, and the inflected form and the sentence reduction are estimated.
請求項32又は請求項33に記載の未知語判定方法。 The estimation of the original form of the unknown word and its utilization form is the result of converting all unknown words to the basic form with possible utilization forms. If there are multiple types of words, acquire words that have the same utilization form as the matched utilization forms, measure the similarity of the character strings, and use the basic form of the utilization form of the word that has the most similar character strings as the original form of the unknown word The unknown word determination method according to claim 32 or claim 33, wherein the utilization form and the original form are estimated.
前記分割された文字列のうち単語登録されていない文字列の未知語らしさを判定する未知語判定処理と
を情報処理装置に実行させるプログラム。 Character type division processing that divides a Japanese document into character strings according to character types;
A program that causes an information processing apparatus to execute an unknown word determination process that determines an unknown word likelihood of a character string that is not registered as a word among the divided character strings.
請求項36に記載のプログラム。 37. The program according to claim 36, wherein the character type dividing process does not divide by a specific character type change or character.
情報処理装置に実行させる請求項35又は請求項36に記載のプログラム。 37. The information processing apparatus according to claim 35 or 36, wherein the information processing apparatus executes a division position correction process for correcting a division position of the hiragana character string divided by the character type division process based on an attached word or a word utilization form. The program described in.
請求項37に記載のプログラム。 The division position correction process searches the hiragana character string for the longest match from at least one of the front and the back, and if there is an appendage, divides the hiragana character string into the appendix and other than the appendix The program according to claim 37.
請求項37又は請求項38に記載のプログラム。 The division position correcting process searches the hiragana character string with the longest match from the front for the word utilization form expression, and if there is a utilization form expression, combines the utilization form character string with the previous character string. The program according to claim 38.
請求項37から請求項39のいずれかに記載のプログラム。 40. The division position correction process divides a hiragana character string from the front and the rear by the longest match of the non-delimited expression, and corrects the division position by the attached word and the utilization form. The program described in.
請求項35から請求項40のいずれかに記載のプログラム。 The unknown word determination process determines whether the unknown character of the character string is based on whether a character string that is not registered as a word among the divided character strings is an attached word. The program according to any one.
請求項35から請求項41のいずれかに記載のプログラム。 The unknown word determination processing is based on at least one of the partial character string, character type, number of characters, word dictionary, number of extractions, extracted utilization type, extracted utilization type number, and the divided character string. 42. The program according to any one of claims 35 to 41, wherein the likelihood of an unknown word of a character string not registered as a word is determined.
請求項35から請求項42のいずれかに記載のプログラム。 43. The program according to any one of claims 35 to 42, wherein in the unknown word determination process, a rule is scored in advance, and an unknown word likelihood of the character string is determined based on a score of a rule that matches the character string. .
請求項35から請求項42のいずれかに記載のプログラム。 The unknown word determination processing is a rule for identifying an unknown word and a non-unknown word based on a partial character string, character type, number of characters, word dictionary, number of extractions, extracted usage type, extracted usage type number 43. The program according to claim 35, wherein the program is acquired by machine learning.
請求項35から請求項44のいずれかに記載のプログラム。 Performs dictionary attribute estimation processing to estimate the dictionary attribute of unknown words based on the number of dictionary attributes of words that appear in the same context as the unknown word from a word dictionary in which word-divided document data and dictionary attributes are registered 45. The program according to claim 35, which is executed by an apparatus.
請求項45に記載のプログラム。 46. The program according to claim 45, wherein the dictionary attribute estimation processing is performed in the same context when the preceding and following words match.
請求項45又は請求項46に記載のプログラム。 47. The program according to claim 45 or claim 46, wherein the dictionary attribute estimation process counts dictionary attributes of words appearing in the same context as the unknown word, and uses the dictionary attribute having the highest frequency as an estimation result.
請求項45から請求項47のいずれかに記載のプログラム。 The dictionary attribute estimation processing counts a dictionary attribute of a word that appears in the same context as an unknown word with a weight according to a character string similarity with the unknown word, and uses the most frequent dictionary attribute as an estimation result. The program according to any one of claims 45 to 47.
請求項35から請求項48のいずれかに記載のプログラム。 A request that causes the information processing device to execute the original form estimation process for estimating the original form of the unknown word and its use form by examining the use form of the unknown word part-of-speech with the longest match from the back and using the basic form of the use form as the original form Item 50. The program according to any one of Items 35 to 48.
請求項49に記載の未知語判定システム。 In the original shape estimation process, as a result of converting all unknown words into basic forms with possible usage forms, a plurality of unknown words that were originally different are matched as basic forms, and there is only one type of usage form that matches. 50. The unknown word determination system according to claim 49, wherein the original form of those unknown words is used as its basic form, and the inflected form and the sentence reduction are estimated.
請求項49又は請求項50に記載のプログラム。 The original shape estimation process is a result of converting all unknown words into basic forms with possible utilization forms.If a plurality of unknown words that were originally different match as basic forms, and there are multiple types of utilization forms that coincide, By acquiring words of the same usage form as multiple matching usage forms, measuring the similarity of character strings, and using the basic form of the usage form of the word with the most similar character strings as the original form of the unknown word, The program according to claim 49 or 50, wherein the original form is estimated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008015339A JP2009176148A (en) | 2008-01-25 | 2008-01-25 | Unknown word determining system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008015339A JP2009176148A (en) | 2008-01-25 | 2008-01-25 | Unknown word determining system, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009176148A true JP2009176148A (en) | 2009-08-06 |
Family
ID=41031142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008015339A Pending JP2009176148A (en) | 2008-01-25 | 2008-01-25 | Unknown word determining system, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009176148A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013545160A (en) * | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | Target word recognition using specified characteristic values |
JP2016224482A (en) * | 2015-05-26 | 2016-12-28 | 日本電信電話株式会社 | Synonym pair acquisition device, method and program |
WO2022185361A1 (en) * | 2021-03-01 | 2022-09-09 | 日本電信電話株式会社 | Word selection assistance device, word selection assistance method, and program |
-
2008
- 2008-01-25 JP JP2008015339A patent/JP2009176148A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013545160A (en) * | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | Target word recognition using specified characteristic values |
JP2016224482A (en) * | 2015-05-26 | 2016-12-28 | 日本電信電話株式会社 | Synonym pair acquisition device, method and program |
WO2022185361A1 (en) * | 2021-03-01 | 2022-09-09 | 日本電信電話株式会社 | Word selection assistance device, word selection assistance method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102268875B1 (en) | System and method for inputting text into electronic devices | |
Laboreiro et al. | Tokenizing micro-blogging messages using a text classification approach | |
JP5071373B2 (en) | Language processing apparatus, language processing method, and language processing program | |
JP6828335B2 (en) | Search program, search device and search method | |
JP5646792B2 (en) | Word division device, word division method, and word division program | |
KR20060043682A (en) | Systems and methods for improved spell checking | |
JP6799562B2 (en) | Language feature extractor, named entity extractor, extractor, and program | |
JP2009223463A (en) | Synonymy determination apparatus, method therefor, program, and recording medium | |
JP2001101185A (en) | Machine translation method and device capable of automatically switching dictionaries and program storage medium with program for executing such machine translation method stored therein | |
Attia et al. | Handling unknown words in statistical latent-variable parsing models for Arabic, English and French | |
JP5853595B2 (en) | Morphological analyzer, method, program, speech synthesizer, method, program | |
JP5623380B2 (en) | Error sentence correcting apparatus, error sentence correcting method and program | |
JP2009176148A (en) | Unknown word determining system, method and program | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
Doush et al. | Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
JP4478042B2 (en) | Word set generation method with frequency information, program and program storage medium, word set generation device with frequency information, text index word creation device, full-text search device, and text classification device | |
Stehouwer | Statistical language models for alternative sequence selection | |
Garay-Vitoria et al. | Modelling text prediction systems in low-and high-inflected languages | |
CN113158693A (en) | Uygur language keyword generation method and device based on Chinese keywords, electronic equipment and storage medium | |
Demir | Context tailoring for text normalization | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
de Almeida | Suffix Identification in Portuguese using Transducers | |
JP2010237351A (en) | System, method, and program for preparing user dictionary | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language |