JP5363178B2 - Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program - Google Patents

Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program Download PDF

Info

Publication number
JP5363178B2
JP5363178B2 JP2009103630A JP2009103630A JP5363178B2 JP 5363178 B2 JP5363178 B2 JP 5363178B2 JP 2009103630 A JP2009103630 A JP 2009103630A JP 2009103630 A JP2009103630 A JP 2009103630A JP 5363178 B2 JP5363178 B2 JP 5363178B2
Authority
JP
Japan
Prior art keywords
correction
character string
unknown
correction candidate
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009103630A
Other languages
Japanese (ja)
Other versions
JP2010257022A (en
Inventor
和史 池田
一則 松本
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009103630A priority Critical patent/JP5363178B2/en
Publication of JP2010257022A publication Critical patent/JP2010257022A/en
Application granted granted Critical
Publication of JP5363178B2 publication Critical patent/JP5363178B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、原文の意味内容を変えることなく表現を修正するときの修正候補を取得する修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラムに関するものである。   The present invention relates to a correction candidate acquisition device, a correction candidate acquisition system, a correction candidate acquisition method, and a correction candidate acquisition program for acquiring correction candidates when correcting an expression without changing the semantic content of the original text.

従来、インターネット上に公開されるブログ等のテキストベースの文章情報を解析対象として、文章を構成する最小単位である形態素に分割して解析する形態素解析装置が利用されている。このような形態素解析装置は、例えば、予め定められた単語(既知語)とその単語の品詞とを対応付けた辞書情報を予め記憶する。そして、解析対象とする文章情報を読み込んで文章を構成する単語を抽出し、抽出した単語のそれぞれと、予め記憶された辞書情報に含まれる単語とを比較する。このようにして解析を行うことにより、例えば、インターネット上でどのようなことが多く取り上げられているか等の統計的処理に利用することができる。   2. Description of the Related Art Conventionally, morpheme analyzers that analyze text-based sentence information such as blogs published on the Internet as analysis targets and divide them into morphemes, which are the smallest units constituting sentences, have been used. For example, such a morphological analyzer stores in advance dictionary information in which a predetermined word (known word) and a part of speech of the word are associated with each other. Then, the sentence information to be analyzed is read to extract words constituting the sentence, and each of the extracted words is compared with words included in dictionary information stored in advance. By performing the analysis in this way, for example, it can be used for statistical processing such as what is being taken up on the Internet.

しかし、インターネット上に公開されるブログやニュース、電子掲示板サービス等独特の文章表現による未知語が含まれる文章情報を解析対象とする場合、辞書情報から対応する語を検出することができず適切な形態素の分割を行うことができない場合がある。   However, when analyzing text information containing unknown words with unique text expressions such as blogs and news published on the Internet, electronic bulletin board services, etc., it is impossible to detect the corresponding word from the dictionary information. There is a case where morpheme cannot be divided.

そこで、本願発明者らは、独特の文章表現による未知語が含まれる文章情報を適切に形態素解析できるように修正を行う手法を提案した(非特許文献1及び非特許文献2)。これら非特許文献1及び非特許文献2では、修正ルールの正解判定及び評価(スコアリング)を行うために、修正ルール適用前後の文をそれぞれ形態素解析したときの未知語の有無情報を利用している。   Therefore, the inventors of the present application have proposed a technique for correcting text information including unknown words by a unique text expression so that morphological analysis can be appropriately performed (Non-Patent Document 1 and Non-Patent Document 2). In these Non-Patent Document 1 and Non-Patent Document 2, in order to perform correct determination and evaluation (scoring) of the correction rule, the presence / absence information of the unknown word when the sentences before and after the application of the correction rule are analyzed is used. Yes.

池田和史、柳原正、松本一則、滝嶋康弘、「ブログ的表記を正規化するためのルール自動生成方式の提案と評価」、DEIMフォーラム、2009Kazufumi Ikeda, Tadashi Yanagihara, Kazunori Matsumoto, Yasuhiro Takishima, “Proposal and Evaluation of Automatic Rule Generation Method to Normalize Blog-like Notation”, DEIM Forum, 2009 池田和史、柳原正、松本一則、滝嶋康弘、「ブログにおける表記の揺れを修正するためのルール自動生成システムの提案」、情報処理学会全国大会5H−6、2009Kazufumi Ikeda, Tadashi Yanagihara, Kazunori Matsumoto, Yasuhiro Takishima, “Proposal of Automatic Rule Generation System for Correcting Shaking of Notations in Blogs”, Information Processing Society of Japan National Convention 5H-6, 2009

非特許文献1及び非特許文献2の手法では、予め人手によって与えられた少数の汎用な修正ルール(プリミティブルール)を基に多数の修正ルールを自動的に生成している。しかし、これら従来の手法では、与えられるプリミティブルールが少ないときは精度が低下するという問題があった。また、従来の手法では、人手により与えられた修正ルールを組み合わせたルールしか生成することができず、適用できる事例が少ないという問題があった。さらに、事例数を増やすためには人手で多数の修正ルールを記述する必要があるが、多くの労力を要するという問題があった。   In the methods of Non-Patent Document 1 and Non-Patent Document 2, a large number of correction rules are automatically generated based on a small number of general-purpose correction rules (primitive rules) given in advance by hand. However, these conventional methods have a problem in that the accuracy decreases when the number of given primitive rules is small. In addition, the conventional method has a problem that only a combination of correction rules given manually can be generated, and there are few cases that can be applied. Furthermore, in order to increase the number of cases, it is necessary to write a large number of correction rules manually, but there is a problem that much labor is required.

これら従来技術の問題点について具体例を挙げて説明する。
原文として、「今日ゎいい天気」が与えられ、「ゎ」が未知語であるときを想定する。従来技術の手法では、修正ルール「ゎ」→「わ」と「ゎ」→「は」の双方が存在すれば、統計的な学習機能により「今日わいい天気」ではなく、「今日はいい天気」の方が文として正しいと判定し、文を修正することが可能である。しかし、修正ルールとして「ゎ→は」が存在しなければ、他に選択肢が無いため「今日わいい天気」のように誤った修正を行ってしまう。
また、原文として、「困っちゃう」が与えられ、「ちゃう」が未知語であるとき、従来技術では、修正ルール「ちゃう」→「てしまう」が存在すれば、「困ってしまう」と修正できる。しかし、全てのルールを人手により与えることは非常に多くの労力が必要であった。
These problems of the prior art will be described with specific examples.
Assuming that the original text is “good weather today” and “ゎ” is an unknown word. In the conventional technique, if both of the correction rules “ゎ” → “wa” and “ゎ” → “ha” exist, the statistical learning function will change the “good weather today” instead of “good weather today”. Can be determined to be correct as a sentence, and the sentence can be corrected. However, if “ゎ → ha” does not exist as a correction rule, there is no other option, and an incorrect correction is made, such as “weather weather today”.
Also, when the original text is "I'm in trouble", and "Cha" is an unknown word, with the conventional technology, if there is a correction rule "Cha"->"Tetsu", it can be corrected as "I'm in trouble" . However, giving all the rules by hand required a great deal of effort.

本発明の課題は、人手により修正の事例や修正ルール等を与えることなく修正の候補を取得できる修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラムを提供することである。   An object of the present invention is to provide a correction candidate acquisition device, a correction candidate acquisition system, a correction candidate acquisition method, and a correction candidate acquisition program that can acquire correction candidates without manually giving correction examples and correction rules. .

本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。   The present invention proposes the following matters in order to solve the above problems. In addition, in order to make an understanding easy, although the code | symbol corresponding to embodiment of this invention is attached | subjected and demonstrated, it is not limited to this.

(1)本発明は、未知の語を含む文章情報を修正する修正候補を取得する修正候補取得装置であって、既知の語を記憶する既知語記憶手段(30)と、複数の語から構成される第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段(40)と、文書集合を記憶するコーパス記憶手段(50)と、前記未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列を前記コーパス記憶手段から検索して取得する検索手段(60)とを備え、前記検索手段は、前記未知語抽出手段が抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、前記コーパス記憶手段から検索する修正候補取得装置を提案している。 (1) The present invention is a correction candidate acquisition device that acquires correction candidates for correcting sentence information including unknown words, and includes a known word storage means (30) for storing known words and a plurality of words. The unknown word extracting means (40) for extracting an unknown word that is not stored in the known word storage means from the first sentence information that is generated, the corpus storage means (50) for storing a document set, and the unknown A search means (60) for searching and acquiring a correction candidate character string approximating an unknown character string including an unknown word extracted by the word extraction means from the corpus storage means , and the search means includes the unknown word extraction means Proposes a correction candidate acquisition device that searches the corpus storage means for a character string that matches a character string adjacent to at least one of the front and rear of the unknown word extracted by using the unknown word portion as a wild card .

この発明によれば、既知語記憶手段は、既知の語を記憶する。未知語抽出手段は、複数の語から構成される第1の文章情報の中から既知語記憶手段に記憶されていない未知の語を抽出する。コーパス記憶手段は、文書集合を記憶する。検索手段は、未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列をコーパス記憶手段から検索して取得する。また、検索手段は、未知語抽出手段が抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、コーパス記憶手段から検索する。したがって、人手により修正の事例や修正ルール等を与えることなく修正の候補を取得できる。また、修正候補を容易に検索できる。 According to this invention, the known word storage means stores a known word. The unknown word extraction means extracts unknown words that are not stored in the known word storage means from the first sentence information composed of a plurality of words. The corpus storage means stores a document set. The search means searches the corpus storage means for a correction candidate character string that approximates an unknown character string that includes the unknown word extracted by the unknown word extraction means and acquires it. The search means searches the corpus storage means for a character string that matches a character string adjacent to at least one of the front and rear of the unknown word extracted by the unknown word extraction means, using the unknown word portion as a wild card. Accordingly, correction candidates can be acquired without manually giving correction examples and correction rules. In addition, correction candidates can be easily searched.

(2)本発明は、(1)に記載の修正候補取得装置において、前記検索手段(60)が検索して取得した前記修正候補文字列に基づいて前記未知語を既知語に修正する修正ルールを生成する修正ルール生成手段(70)を備えることを特徴とする修正候補取得装置を提案している。 (2) The present invention provides a correction rule for correcting the unknown word into a known word based on the correction candidate character string searched and acquired by the search means (60) in the correction candidate acquisition device according to (1) A correction candidate acquisition device characterized in that it includes a correction rule generation means (70) for generating.

この発明によれば、修正ルール生成手段は、検索手段が検索して取得した修正候補文字列に基づいて未知語を既知語に修正する修正ルールを生成する。したがって、自動的に修正ルールを生成して出力できる。   According to this invention, the correction rule generating means generates a correction rule for correcting an unknown word to a known word based on the correction candidate character string searched and acquired by the search means. Therefore, a correction rule can be automatically generated and output.

(3)本発明は、(2)に記載の修正候補取得装置において、前記コーパス記憶手段(50)から前記修正候補文字列が検索された出現頻度に基づいて前記修正ルールに対して頻度評価値を付与する頻度評価手段(91)を備えることを特徴とする修正候補取得装置を提案している。 (3) In the correction candidate acquisition device according to (2) , the present invention provides a frequency evaluation value for the correction rule based on an appearance frequency at which the correction candidate character string is searched from the corpus storage means (50). It proposes a correction candidate acquisition device characterized by comprising frequency evaluation means (91) for providing

この発明によれば、頻度評価手段は、コーパス記憶手段から修正候補文字列が検索された出現頻度に基づいて修正ルールに対して頻度評価値を付与する。したがって、生成した修正ルールのスコアリングを行うことができる。   According to this invention, the frequency evaluation means assigns a frequency evaluation value to the correction rule based on the appearance frequency at which the correction candidate character string is searched from the corpus storage means. Therefore, the generated correction rule can be scored.

(4)本発明は、(2)又は(3)に記載の修正候補取得装置において、前記未知語と前記修正ルールにより前記未知語について修正を行った後の修正語との間の文字列距離を算出する文字列距離算出手段(92a)と、前記文字列距離算出手段が算出した前記文字列距離に基づいて前記修正ルールに対して距離評価値を付与する距離評価手段(92)とを備えることを特徴とする修正候補取得装置を提案している。 (4) The present invention provides the correction candidate acquisition device according to (2) or (3) , wherein the character string distance between the unknown word and the corrected word after correcting the unknown word by the correction rule A character string distance calculating means (92a) for calculating the distance and a distance evaluating means (92) for assigning a distance evaluation value to the correction rule based on the character string distance calculated by the character string distance calculating means. The correction candidate acquisition apparatus characterized by this is proposed.

この発明によれば、文字列距離算出手段は、未知語と修正ルールにより未知語について修正を行った後の修正語との間の文字列距離を算出する。距離評価手段は、文字列距離算出手段が算出した文字列距離に基づいて修正ルールに対して距離評価値を付与する。したがって、生成した修正ルールのスコアリングを行うことができる。   According to this invention, the character string distance calculating means calculates the character string distance between the unknown word and the corrected word after the unknown word is corrected by the correction rule. The distance evaluation means assigns a distance evaluation value to the correction rule based on the character string distance calculated by the character string distance calculation means. Therefore, the generated correction rule can be scored.

(5)本発明は、(2)から(4)までのいずれか1項に記載の修正候補取得装置において、前記第1の文章情報に対して前記修正ルールにしたがった修正を行い第2の文章情報を生成する修正手段(80)と、前記第2の文章情報について形態素解析を行う形態素解析手段(20)と、前記第2の文章情報の生成に用いた前記修正ルールに対して前記形態素解析結果に応じた形態素解析評価値を付与する形態素解析評価手段(93)とを備えることを特徴とする修正候補取得装置を提案している。 (5) According to the present invention, in the correction candidate acquisition device according to any one of (2) to (4) , the first sentence information is corrected according to the correction rule, Correction means (80) for generating sentence information, morpheme analysis means (20) for performing morphological analysis on the second sentence information, and the morpheme for the correction rule used for generating the second sentence information A correction candidate acquisition device is provided, characterized by comprising morpheme analysis evaluation means (93) for assigning a morpheme analysis evaluation value according to the analysis result.

この発明によれば、修正手段は、第1の文章情報に対して修正ルールにしたがった修正を行い第2の文章情報を生成する。形態素解析手段は、第2の文章情報について形態素解析を行う。形態素解析評価手段は、第2の文章情報の生成に用いた修正ルールに対して形態素解析結果に応じた形態素解析評価値を付与する。したがって、生成した修正ルールのスコアリングを行うことができる。   According to this invention, the correction means performs the correction according to the correction rule on the first sentence information and generates the second sentence information. The morpheme analysis means performs morpheme analysis on the second sentence information. The morpheme analysis evaluation unit assigns a morpheme analysis evaluation value corresponding to the morpheme analysis result to the correction rule used for generating the second sentence information. Therefore, the generated correction rule can be scored.

(6)本発明は、(5)に記載の修正候補取得装置において、前記形態素解析手段は、前記未知語抽出手段と前記既知語記憶手段とを包含していることを特徴とする修正候補取得装置を提案している。 (6) The present invention provides the correction candidate acquisition apparatus according to (5) , wherein the morpheme analysis means includes the unknown word extraction means and the known word storage means. A device is proposed.

この発明によれば、形態素解析手段は、前記未知語抽出手段と前記既知語記憶手段とを包含している。したがって、原文の形態素解析結果の算出と、原文からの未知語抽出を、同時に行うことができ、計算時間を短縮することができる。   According to this invention, the morpheme analyzing means includes the unknown word extracting means and the known word storage means. Therefore, the calculation of the morphological analysis result of the original sentence and the unknown word extraction from the original sentence can be performed simultaneously, and the calculation time can be shortened.

(7)本発明は、未知の語を含む文章情報を修正する修正候補を取得する修正候補取得システムであって、既知の語を記憶する既知語記憶手段(30)と、複数の語から構成される第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段(40)と、文書集合を記憶するコーパス記憶手段(50)と、前記未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列を前記コーパス記憶手段から検索して取得する検索手段(60)とを備え、前記検索手段は、前記未知語抽出手段が抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、前記コーパス記憶手段から検索する修正候補取得システムを提案している。 (7) The present invention is a correction candidate acquisition system for acquiring correction candidates for correcting sentence information including unknown words, and includes a known word storage means (30) for storing known words and a plurality of words. The unknown word extracting means (40) for extracting an unknown word that is not stored in the known word storage means from the first sentence information that is generated, the corpus storage means (50) for storing a document set, and the unknown A search means (60) for searching and acquiring a correction candidate character string approximating an unknown character string including an unknown word extracted by the word extraction means from the corpus storage means, and the search means includes the unknown word extraction means a string that matches the character string which is adjacent to at least one of but the front and rear of the extracted unknown word, the unknown word portion as a wildcard, has proposed a modified candidate acquisition system for retrieving from the corpus storage means .

この発明によれば、既知語記憶手段は、既知の語を記憶する。未知語抽出手段は、複数の語から構成される第1の文章情報の中から既知語記憶手段に記憶されていない未知の語を抽出する。コーパス記憶手段は、文書集合を記憶する。検索手段は、未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列をコーパス記憶手段から検索して取得する。したがって、人手により修正の事例や修正ルール等を与えることなく修正の候補を取得できる。   According to this invention, the known word storage means stores a known word. The unknown word extraction means extracts unknown words that are not stored in the known word storage means from the first sentence information composed of a plurality of words. The corpus storage means stores a document set. The search means searches the corpus storage means for a correction candidate character string that approximates an unknown character string that includes the unknown word extracted by the unknown word extraction means and acquires it. Accordingly, correction candidates can be acquired without manually giving correction examples and correction rules.

(8)本発明は、未知の語を含む文章情報を修正する修正候補を取得する修正候補取得方法であって、既知の語を既知語記憶手段(30)へ記憶し、複数の語から構成される第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出し、抽出した未知語を含む未知文字列に近似する修正候補文字列を、文書集合を記憶するコーパス記憶手段(50)から検索して取得し、前記修正候補文字列の検索において、抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、前記コーパス記憶手段から検索する修正候補取得方法を提案している。 (8) The present invention is a correction candidate acquisition method for acquiring a correction candidate for correcting sentence information including an unknown word, the known word is stored in the known word storage means (30), and is composed of a plurality of words An unknown word that is not stored in the known word storage means is extracted from the first sentence information to be stored, and a correction candidate character string that approximates an unknown character string that includes the extracted unknown word is stored as a document set The character string matching the character string adjacent to at least one of the front and rear of the extracted unknown word in the search for the correction candidate character string is obtained by searching from the corpus storage means (50). As a wild card, a correction candidate acquisition method for searching from the corpus storage means has been proposed.

この発明によれば、修正候補取得方法は、既知の語を既知語記憶手段へ記憶し、複数の語から構成される第1の文章情報の中から既知語記憶手段に記憶されていない未知の語を抽出し、抽出した未知語を含む未知文字列に近似する修正候補文字列を、文書集合を記憶するコーパス記憶手段から検索して取得する。したがって、人手により修正の事例や修正ルール等を与えることなく修正の候補を取得できる。   According to the present invention, the correction candidate acquisition method stores a known word in the known word storage unit, and the unknown word that is not stored in the known word storage unit from the first sentence information composed of a plurality of words. A word is extracted, and a correction candidate character string that approximates an unknown character string including the extracted unknown word is retrieved from a corpus storage unit that stores a document set and acquired. Accordingly, correction candidates can be acquired without manually giving correction examples and correction rules.

(9)本発明は、未知の語を含む文章情報を修正する修正候補を取得する修正候補取得プログラムであって、コンピュータを、既知の語を記憶する既知語記憶手段(30)と、複数の語から構成される第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段(40)と、文書集合を記憶するコーパス記憶手段(50)と、前記未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列を前記コーパス記憶手段から検索して取得する検索手段(60)であって、当該検索手段は、前記未知語抽出手段が抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、前記コーパス記憶手段から検索する検索手段として機能させるための修正候補取得プログラムを提案している。 (9) The present invention is a correction candidate acquisition program for acquiring a correction candidate for correcting sentence information including an unknown word, the computer including a known word storage means (30) for storing a known word, An unknown word extraction means (40) for extracting an unknown word that is not stored in the known word storage means from the first sentence information composed of words, and a corpus storage means (50) for storing a document set Search means (60) for searching and acquiring a correction candidate character string approximating an unknown character string including an unknown word extracted by the unknown word extraction means from the corpus storage means , wherein the search means includes the unknown a string that matches the character string which is adjacent to at least one of the front and rear of the unknown word word extracting means has extracted, the unknown word portion as a wild card, as a search means for searching from said corpus memory means It has proposed a modification candidate acquisition program of the order to function.

この発明によれば、既知語記憶手段は、既知の語を記憶する。未知語抽出手段は、複数の語から構成される第1の文章情報の中から既知語記憶手段に記憶されていない未知の語を抽出する。コーパス記憶手段は、文書集合を記憶する。検索手段は、未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列をコーパス記憶手段から検索して取得する。したがって、人手により修正の事例や修正ルール等を与えることなく修正の候補を取得できる。   According to this invention, the known word storage means stores a known word. The unknown word extraction means extracts unknown words that are not stored in the known word storage means from the first sentence information composed of a plurality of words. The corpus storage means stores a document set. The search means searches the corpus storage means for a correction candidate character string that approximates an unknown character string that includes the unknown word extracted by the unknown word extraction means and acquires it. Accordingly, correction candidates can be acquired without manually giving correction examples and correction rules.

本発明によれば、人手により修正の事例や修正ルール等を与えることなく修正の候補を取得できる。また、自動的に修正ルールを生成して蓄積できる。さらに、生成した修正ルールを的確に評価できる。   According to the present invention, correction candidates can be acquired without manually giving correction examples and correction rules. In addition, correction rules can be automatically generated and stored. Furthermore, the generated correction rule can be evaluated accurately.

本発明による修正候補取得装置の実施形態の構成を示す図である。It is a figure which shows the structure of embodiment of the correction candidate acquisition apparatus by this invention. 修正候補取得装置の動作の流れを示すフローチャートである。It is a flowchart which shows the flow of operation | movement of a correction candidate acquisition apparatus.

以下、図面を用いて、本発明の実施形態について詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
Note that the constituent elements in the present embodiment can be appropriately replaced with existing constituent elements and the like, and various variations including combinations with other existing constituent elements are possible. Therefore, the description of the present embodiment does not limit the contents of the invention described in the claims.

(実施形態)
図1は、本発明による修正候補取得装置の実施形態の構成を示す図である。
本実施形態の修正候補取得装置は、解析対象文章入力部10と、形態素解析部20と、既知語記憶部30と、未知語抽出部40と、コーパス記憶部50と、検索部60と、修正ルール生成部70と、修正部80と、修正ルール評価部90と、修正ルールスコア出力部100とを備えている。
(Embodiment)
FIG. 1 is a diagram showing a configuration of an embodiment of a correction candidate acquisition apparatus according to the present invention.
The correction candidate acquisition apparatus of the present embodiment includes an analysis target sentence input unit 10, a morpheme analysis unit 20, a known word storage unit 30, an unknown word extraction unit 40, a corpus storage unit 50, a search unit 60, and a correction. A rule generation unit 70, a correction unit 80, a correction rule evaluation unit 90, and a correction rule score output unit 100 are provided.

解析対象文章入力部10は、ブログやWeb上のテキスト等、砕けた表現の多い文章を解析対象文章(第1の文章情報:以下、原文と称する)として入力する。解析対象文章入力部10は、入力された原文を形態素解析部20と未知語抽出部40とへ送る。   The analysis target sentence input unit 10 inputs sentences with many broken expressions such as blogs and Web texts as analysis target sentences (first sentence information: hereinafter referred to as original sentences). The analysis target sentence input unit 10 sends the input original sentence to the morpheme analysis unit 20 and the unknown word extraction unit 40.

形態素解析部20は、文章に対して形態素解析を実行する。本実施形態の形態素解析部20には、形態素解析器として一般的なMecabを利用しているが、他の種類の形態素解析器を利用してもよい。形態素解析部20は、解析対象文章入力部10から得た原文と、修正部80が修正した修正後文(第2の文章情報)とについて形態素解析を行う。
形態素解析部20は、解析対象文章入力部10から得た原文についての形態素解析結果を未知語抽出部40へ送る。また、形態素解析部20は、解析対象文章入力部10から得た原文についての形態素解析結果、及び、修正後文についての形態素解析結果を修正ルール評価部90へ送る。
The morpheme analysis unit 20 performs morpheme analysis on the sentence. The morphological analyzer 20 of the present embodiment uses a general Mecab as a morphological analyzer, but other types of morphological analyzers may be used. The morpheme analysis unit 20 performs morphological analysis on the original sentence obtained from the analysis target sentence input unit 10 and the corrected sentence (second sentence information) corrected by the correction unit 80.
The morpheme analysis unit 20 sends the morpheme analysis result for the original sentence obtained from the analysis target sentence input unit 10 to the unknown word extraction unit 40. Further, the morpheme analysis unit 20 sends the morpheme analysis result for the original sentence obtained from the analysis target sentence input unit 10 and the morpheme analysis result for the corrected sentence to the correction rule evaluation unit 90.

既知語記憶部30は、既知の語(既知後)を多数記憶した辞書データベースである。本実施形態では、既知語記憶部30に記憶されていない語を未知の語(未知語)であるとして取り扱う。例えば、上述した「困ってしまう」の「てしまう」は、既知後であるが、「困っちゃう」の「ちゃう」は、未知語である。   The known word storage unit 30 is a dictionary database that stores a large number of known words (after being known). In the present embodiment, a word that is not stored in the known word storage unit 30 is handled as an unknown word (unknown word). For example, the above-mentioned “teru” of “being troubled” is after being known, but “chau” of “being troubled” is an unknown word.

未知語抽出部40は、既知語記憶部30を参照して、解析対象文章入力部10から得た原文の中に未知語が含まれているか否かを確認し、未知語を抽出する。未知語抽出部40が抽出した未知語を含む原文は、検索部60へ送られる。   The unknown word extraction unit 40 refers to the known word storage unit 30 to check whether or not an unknown word is included in the original sentence obtained from the analysis target sentence input unit 10, and extracts the unknown word. The original text including the unknown word extracted by the unknown word extraction unit 40 is sent to the search unit 60.

コーパス記憶部50は、多数の文書集合を記憶する。本実施形態のコーパス記憶部50に記憶させる文書としては、砕けた表現が少ない文書であることが望ましく、例えば、新聞記事データを用いることができる。   The corpus storage unit 50 stores a large number of document sets. The document stored in the corpus storage unit 50 of the present embodiment is preferably a document with few broken expressions, and for example, newspaper article data can be used.

検索部60は、未知語抽出部40が抽出した未知語を含む未知文字列に近似する修正候補文字列をコーパス記憶部50から検索して取得する。
検索文を生成するには、例えば、未知語を含む近隣の数文節を抜き出し、未知語部分をワイルドカード(任意の文字列)とする方法等がある。
原文:「いいかどうヵゎ分かりません」、未知語:「ヵゎ」
文節区切り:いい/か/どう/ヵゎ/分かり/ませ/ん
未知語の両隣の1文節ずつを抜き出し、未知語部分をワイルドカード(任意の長さの文字列)とすると、検索文が生成できる。
検索文:「どう*分かり」
なお、検索文の生成方法については、これに限らず、未知語の両隣の2文節ずつを抜き出してもよいし、その他の方法により検索文を生成してもよい。
検索部60は、このような検索文を生成し、検索文と部分一致するような文を修正候補文字列としてコーパス記憶部50から全て取得する。
The search unit 60 searches the corpus storage unit 50 for and acquires a correction candidate character string that approximates an unknown character string that includes the unknown word extracted by the unknown word extraction unit 40.
In order to generate a search sentence, for example, there are methods such as extracting several nearby phrases including unknown words and using the unknown word part as a wild card (arbitrary character string).
Original: “I do n’t know if it ’s OK”, Unknown: “K”
Sentence breaks: Good / Kid / How / Kan / Understanding / Ne / Non Extracting one phrase on both sides of an unknown word and using the unknown word as a wildcard (character string of arbitrary length) generates a search sentence it can.
Search text: “How to understand *”
Note that the search text generation method is not limited to this, and two phrases adjacent to the unknown word may be extracted, or the search text may be generated by other methods.
The search unit 60 generates such a search sentence, and acquires all the sentences that partially match the search sentence from the corpus storage unit 50 as correction candidate character strings.

修正ルール生成部70は、検索部60が検索して取得した修正候補文字列に基づいて、未知語を既知語に修正する修正ルールを生成する。すなわち、検索部60の検索結果におけるワイルドカード部分に一致した検索結果を修正ルールの修正後の文字列として修正ルールを作成する。
ここで、修正ルールとは、「ヵゎぃぃ→かわいい」のように、未知語を含む文章を未知語を含まない文語的な表現へ修正するための文字列置換の規則を示す。なお、上述の記号「→」は、記号の左辺の語から右辺の語へと修正するという修正ルールを表すものとする。修正ルール生成部70は、この修正ルールを新たに生成し、その修正ルールを修正ルール評価部90へ送る。
The correction rule generation unit 70 generates a correction rule for correcting an unknown word to a known word based on the correction candidate character string acquired by the search by the search unit 60. That is, the correction rule is created by using the search result that matches the wild card portion in the search result of the search unit 60 as the corrected character string of the correction rule.
Here, the correction rule indicates a character string replacement rule for correcting a sentence including an unknown word into a literary expression that does not include an unknown word, such as “Kai-i → cute”. It should be noted that the above-described symbol “→” represents a correction rule for correcting from the word on the left side of the symbol to the word on the right side. The correction rule generation unit 70 newly generates this correction rule and sends the correction rule to the correction rule evaluation unit 90.

修正部80は、修正ルール生成部70から出力された修正ルールにしたがって、未知語抽出部40が抽出した未知語を含む原文を修正する。修正部80は、原文に対して、修正ルールを適用し、修正ルール適用後の修正後文を生成する。修正部80が生成した修正後文は、形態素解析部20に送られる。   The correction unit 80 corrects the original text including the unknown word extracted by the unknown word extraction unit 40 in accordance with the correction rule output from the correction rule generation unit 70. The correction unit 80 applies the correction rule to the original sentence, and generates a corrected sentence after the correction rule is applied. The corrected sentence generated by the correction unit 80 is sent to the morphological analysis unit 20.

修正ルール評価部90は、頻度評価部91と、距離評価部92と、形態素解析評価部93とを備えており、修正ルール生成部70が生成した修正ルールの評価を行う。
修正ルールスコア出力部100は、修正ルール評価部90により評価された修正ルールのスコアを出力する。
The correction rule evaluation unit 90 includes a frequency evaluation unit 91, a distance evaluation unit 92, and a morpheme analysis evaluation unit 93, and evaluates the correction rule generated by the correction rule generation unit 70.
The correction rule score output unit 100 outputs the score of the correction rule evaluated by the correction rule evaluation unit 90.

上述したように、本実施形態では、検索部60が検索して取得した修正候補文字列に基づいて、未知語を既知語に修正する修正ルールを修正ルール生成部70が生成する。
以下、検索部60による修正候補文字列の検索及び修正ルール生成部70が生成する修正ルールとその評価(スコアリング)について詳しく説明する。
As described above, in the present embodiment, the correction rule generation unit 70 generates a correction rule for correcting an unknown word to a known word based on the correction candidate character string acquired by searching by the search unit 60.
Hereinafter, the search for the correction candidate character string by the search unit 60 and the correction rule generated by the correction rule generation unit 70 and its evaluation (scoring) will be described in detail.

(1)検索部60は、未知語Xを含む文A(未知文字列)に対して、未知語Xをワイルドカードに置き換えた文Qを生成し、この文Qと部分一致するような文Bを修正候補文字列としてコーパス記憶部50から全て取得する。以下に具体例を示す。
原文:「どうヵゎ分かりませんが、」、未知語:「ヵゎ」
未知語「ヵゎ」を任意の文字列で置き換えた文と部分一致する文をコーパスから全て取得する。
検索文:「どう*分かり」、ここで、「*」は、ワイルドカードを示す。
検索結果1:どう「かは」分かり…これかどう「かは」分かりません…
検索結果2:どう「か」分かり…よくあるのかどう「か」分かりません…
検索結果3:どう「したらいいのか」分かり…どう「したらいいのか」分かりません…
検索結果4:どう「かは」分かり…この先どう「かは」分かりません…
検索結果5:どう「か」分かり…本当かどう「か」分かりませんが…
検索結果6:どう「かは」分かり…使うかどう「かは」分かりませんけどね…
検索結果7:どう「かは」分かりませ…あるかどう「かは」分かりません…
(1) The search unit 60 generates a sentence Q in which the unknown word X is replaced with a wild card for the sentence A (unknown character string) including the unknown word X, and a sentence B that partially matches the sentence Q Are all acquired from the corpus storage unit 50 as correction candidate character strings. Specific examples are shown below.
Original: “I don't know how,” Unknown: “K”
All sentences that partially match the sentence in which the unknown word “ka” is replaced with an arbitrary character string are acquired from the corpus.
Search text: “how * understanding”, where “*” indicates a wild card.
Search result 1: How do you know how?
Search result 2: I don't know how it is ...
Search result 3: I know how to do it ... I don't know how to do it ...
Search result 4: How do you know ... How do you know ...
Search result 5: I understand how it is ... I don't know if it is true ...
Search result 6: I don't know how to use ... I don't know how to use ...
Search result 7: I don't know how it is ... I don't know if it is ...

(2)修正ルール生成部70では、上記(1)で取得した検索結果から修正ルールを生成する。上記例で「」で囲んだ部分が未知語「ヵゎ」を修正ルールにより修正した後の文字列となる。
修正ルール1:「ヵゎ」→「かは」
修正ルール2:「ヵゎ」→「か」
修正ルール3:「ヵゎ」→「したらいいのか」
(2) The correction rule generation unit 70 generates a correction rule from the search result acquired in (1) above. In the above example, the part enclosed by “” is the character string after the unknown word “K” is corrected by the correction rule.
Amendment rule 1: “K” → “Kah”
Amendment rule 2: “K” → “K”
Amendment rule 3: “K” → “What should I do?”

(3)修正ルール評価部90では、修正ルール生成部70が生成した修正ルールをスコアリングする。
まず、頻度評価部91が修正ルール毎に、検索部60による検索により当該修正ルールに該当する検索結果が出現した頻度をテーブルにまとめる。
頻度評価部91がまとめるテーブルを表1に示す。

Figure 0005363178
(3) The correction rule evaluation unit 90 scores the correction rule generated by the correction rule generation unit 70.
First, the frequency evaluation unit 91 summarizes, for each correction rule, the frequency at which search results corresponding to the correction rule appear by the search by the search unit 60 in a table.
Table 1 shows a table compiled by the frequency evaluation unit 91.
Figure 0005363178

本実施形態では、頻度評価部91がまとめた出現頻度を修正ルールのスコアリングの一指標として利用する。   In the present embodiment, the appearance frequencies compiled by the frequency evaluation unit 91 are used as an index for scoring the correction rule.

(4)上記(2)で生成した各修正ルールについて、距離評価部92の文字列距離算出部92aは、修正前後の文字列の距離を取得する。文字列の距離の取得はレーベンシュタイン距離の計算等、既存の手法を利用することができる。
ここで、文字列距離を取得するために、文字列の挿入や削除、置換等に重み付きのコストが与えられている。文字列の挿入・削除については、例えば、以下のようなコストが与えられる。
修正ルール1:「ヵゎ」→「かは」、挿入・削除コスト:0
修正ルール2:「ヵゎ」→「か」、挿入・削除コスト:1
修正ルール3:「ヵゎ」→「したらいいのか」、挿入・削除コスト:5
なお、値が小さい修正ルールの方が高いスコアを得るものとする。
文字列の置換については、例えば、以下のようなコストが与えられる。
修正ルール:「ぢ」→「じ」、置換コスト:2
修正ルール:「ぢ」→「に」、置換コスト:4
修正ルール:「ぢ」→「え」、置換コスト:8
置換コストでは、「ぢ→じ」のように、文字列がより類似しているものの置換コストを小さくする。
文字列距離の算出は、上述したような挿入・削除コスト及び置換コストを用いて行われる。
以下の表2に文字列距離の計算例を示す。

Figure 0005363178
本実施形態では、距離評価部92の文字列距離算出部92aがこのようにして求めた文字列距離を修正ルールのスコアリングの一指標とする。 (4) For each correction rule generated in (2) above, the character string distance calculation unit 92a of the distance evaluation unit 92 acquires the distance between the character strings before and after the correction. Acquisition of the distance of the character string can use an existing method such as calculation of the Levenshtein distance.
Here, in order to obtain the character string distance, a weighted cost is given to insertion, deletion, replacement, etc. of the character string. For insertion / deletion of character strings, for example, the following costs are given.
Amendment rule 1: “K” → “Kah”, insertion / deletion cost: 0
Amendment rule 2: “K” → “K”, insertion / deletion cost: 1
Amendment rule 3: “K” → “What should I do?”, Insertion / deletion cost: 5
It is assumed that the correction rule having a smaller value obtains a higher score.
For character string replacement, for example, the following costs are given.
Correction rule: “:” → “ji”, replacement cost: 2
Correction rule: “ぢ” → “ni”, replacement cost: 4
Correction rule: “ぢ” → “e”, replacement cost: 8
In the replacement cost, although the character strings are more similar like “列 → ji”, the replacement cost is reduced.
The calculation of the character string distance is performed using the insertion / deletion cost and the replacement cost as described above.
Table 2 below shows an example of calculating the character string distance.
Figure 0005363178
In the present embodiment, the character string distance obtained in this way by the character string distance calculation unit 92a of the distance evaluation unit 92 is used as an index for scoring the correction rule.

(5)修正ルールをそれぞれ適用して修正部80が修正を行った修正後文について、形態素解析部20が形態素解析を行い、解体素解析結果を形態素解析評価部93へ送る。形態素解析評価部93では、形態素解析結果に基づいて形態素解析スコア(形態素解析評価値)を求める。
ここで、形態素解析スコア(形態素解析評価値)としては、例えば、従来技術(非特許文献1及び2)で用いられている手法などを利用する。非特許文献1では大規模なコーパスに対して、修正ルールを適用し、ルールの適用前後の文に未知語が含まれているかどうかを比較することで、修正ルールを統計的値によりスコアリングを行っている。
また、形態素解析スコアとしては、例えば、形態素解析コストも用いることができる。形態素解析コストとは、本来、複数ある文節区切りの中で、その文節区切りがどのくらい確からしいかを表す指標であり、単語単体での出現確率や複数単語が連続して出現する確率等から計算される。形態素解析コストは既存の多くの形態素解析器で用いられている。
(5) The morpheme analysis unit 20 performs morpheme analysis on the post-correction sentence corrected by the correction unit 80 by applying the correction rules, and sends the disassembly element analysis result to the morpheme analysis evaluation unit 93. The morpheme analysis evaluation unit 93 obtains a morpheme analysis score (morpheme analysis evaluation value) based on the morpheme analysis result.
Here, as the morpheme analysis score (morpheme analysis evaluation value), for example, a technique used in the prior art (Non-Patent Documents 1 and 2) is used. In Non-Patent Document 1, the correction rule is applied to a large corpus and the correction rule is scored by a statistical value by comparing whether or not an unknown word is included in a sentence before and after the application of the rule. Is going.
As the morpheme analysis score, for example, morpheme analysis cost can also be used. Morphological analysis cost is an index that expresses how probable the phrase break is among multiple phrase breaks. The Morphological analysis costs are used in many existing morphological analyzers.

本実施形態では、上述のように従来技術(非特許文献1及び2)に開示されているように未知語がなくなったことを正解として、その正解率によりスコアリングを行った。以下の表3に従来の手法により修正後文のスコアリングを行った場合の修正後文の形態素解析スコアの例を示す。

Figure 0005363178
In the present embodiment, scoring is performed based on the correct answer rate, assuming that there are no unknown words as disclosed in the related art (Non-Patent Documents 1 and 2) as described above. Table 3 below shows an example of the morphological analysis score of the corrected sentence when scoring of the corrected sentence is performed by the conventional method.
Figure 0005363178

なお、従来技術(非特許文献1及び2)では、修正ルールの特殊化という処理を行い、スコア向上を実現している。例えば、「ヵゎ→かは」よりも「どうヵゎ→どうかは」の方が形態素解析スコアは高い。ここで、特殊化とは、汎用な修正ルールを基に、より具体的な修正ルールを生成することを指している。従来技術の手法によって形態素解析スコアを求めるときには、従来と同様に、(2)で得られた「ヵゎ→かは」のルールを「どうヵゎ→どうかは」に特殊化する必要がある。その場合の出現頻度や文字列距離のスコアは、「ヵゎ→かは」と同じとする。上記表3には、この特殊化した修正ルール4を併記している。   In the prior art (Non-Patent Documents 1 and 2), the process of specializing the correction rule is performed to improve the score. For example, “how to → how” has a higher morphological analysis score than “how to →”. Here, specialization refers to generating more specific correction rules based on general-purpose correction rules. When the morphological analysis score is obtained by the conventional technique, it is necessary to specialize the “Kai → Kaha” rule obtained in (2) to “How → Ka” as in the prior art. In this case, the appearance frequency and the character string distance score are the same as those of “Ka → Kaha”. In Table 3 above, this specialized correction rule 4 is also shown.

(6)上記の(2)〜(5)のスコアの具体例をまとめると、表4のようになる。

Figure 0005363178
(6) Table 4 summarizes specific examples of the scores of the above (2) to (5).
Figure 0005363178

表4のように得られた各スコアを総合して、修正ルールのスコアを例えば、以下の式のようにして求める。
修正ルールのスコア=出現頻度×α+文字列距離×β+形態素解析スコア×γ
ここで、α、β、γは、重み付け用のパラメータ変数であり、最適値を実験等により、算出するとよい。
このようにして求めた修正ルールのスコアは、例えば、スコアの低いルールを削除したり、修正に適用する順序を決めたりする等して、修正ルールの精度を高めたり、処理の高速化を図ったりできる。
By combining the scores obtained as shown in Table 4, the score of the correction rule is obtained, for example, as in the following equation.
Correction rule score = appearance frequency × α + character string distance × β + morphological analysis score × γ
Here, α, β, and γ are weighting parameter variables, and optimal values may be calculated by experiments or the like.
The correction rule score obtained in this way can be used to improve the accuracy of the correction rule or speed up the process by, for example, deleting a rule with a low score or determining the order in which the correction rule is applied. You can.

図2は、修正候補取得装置の動作の流れを示すフローチャートである。
以下、本実施形態の修正候補取得装置の動作の流れを図2に沿って説明する。
ステップ(以下、Sとする)10は、処理を開始した初期状態を示している。この段階では、解析対象文章入力部10が解析対象のブログ等の文章を入力する。また、砕けた表現の少ない文書集合をコーパス記憶部50に用意する。
S20では、未知語抽出部40が解析対象のブログ等の文章から未知語の抽出と、未知語を含む文の取得を行う。
FIG. 2 is a flowchart showing an operation flow of the correction candidate acquisition apparatus.
Hereinafter, the flow of the operation of the correction candidate acquisition apparatus of the present embodiment will be described with reference to FIG.
Step (hereinafter referred to as S) 10 indicates an initial state in which the process is started. At this stage, the analysis target sentence input unit 10 inputs a sentence such as a blog to be analyzed. Also, a document set with few broken expressions is prepared in the corpus storage unit 50.
In S20, the unknown word extraction unit 40 extracts an unknown word from a sentence such as a blog to be analyzed and acquires a sentence including the unknown word.

S30では、S20で取得した未知語文から検索部60が検索文を生成する。
S40では、S30で生成した検索文をコーパス記憶部50から検索部60が検索し、検索結果を取得する。また、修正ルール生成部70が検索結果から修正ルールを生成する。
In S30, the search unit 60 generates a search sentence from the unknown word sentence acquired in S20.
In S40, the search unit 60 searches the search sentence generated in S30 from the corpus storage unit 50, and acquires the search result. Further, the correction rule generation unit 70 generates a correction rule from the search result.

S50では、頻度評価部91が修正ルール毎に出現頻度を取得する。
S60では、文字列距離算出部92aが、修正ルール毎に修正前後の文字列の距離を算出する。
In S50, the frequency evaluation unit 91 acquires the appearance frequency for each correction rule.
In S60, the character string distance calculation unit 92a calculates the distance between the character strings before and after the correction for each correction rule.

S70では、修正ルールにしたがい修正部80が修正した修正後文を形態素解析部20により形態素解析して、形態素解析結果評価値に基づいて形態素解析スコアを求める。
S80では、S50〜S70で取得した修正ルールのスコアをもとに、修正ルールの総合的なスコアを算出する。
In S70, the corrected sentence corrected by the correction unit 80 according to the correction rule is analyzed by the morpheme analysis unit 20, and a morpheme analysis score is obtained based on the morpheme analysis result evaluation value.
In S80, a comprehensive score of the correction rule is calculated based on the score of the correction rule acquired in S50 to S70.

以上説明したように、本実施形態によれば、検索部60が未知語を含む未知文字列に近似する修正候補文字列をコーパス記憶部50から検索するので、人手により修正の事例や修正ルール等を与えることなく修正の候補を取得できる。よって、修正ルールを自動的に生成できる。また、修正ルール評価部90により修正ルール毎にスコアリングを行うので、生成した修正ルールの有用性を的確に評価でき、正確な修正を行える修正ルールを自動的に生成できる。   As described above, according to the present embodiment, the search unit 60 searches the corpus storage unit 50 for a correction candidate character string that approximates an unknown character string including an unknown word. The correction candidate can be acquired without giving Therefore, the correction rule can be automatically generated. Further, since the correction rule evaluation unit 90 performs scoring for each correction rule, the usefulness of the generated correction rule can be accurately evaluated, and a correction rule that can be corrected accurately can be automatically generated.

なお、修正候補取得装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを修正候補取得装置に読み込ませ、実行することによって本発明の修正候補取得装置、修正候補取得システム、修正候補取得方法を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。   The correction candidate acquisition apparatus, correction candidate of the present invention is recorded by recording the processing of the correction candidate acquisition apparatus on a computer-readable recording medium, causing the correction candidate acquisition apparatus to read and execute the program recorded on the recording medium. An acquisition system and a correction candidate acquisition method can be realized. The computer system here includes an OS and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。   Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW (World Wide Web) system is used. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the embodiments, and includes designs and the like that do not depart from the gist of the present invention.

(変形形態)
(1)本実施形態において、修正候補取得装置として1つのまとまった装置の例を挙げて説明したが、これに限らず、例えば、複数の装置を組み合わせた修正候補取得システムとして構成してもよい。
(Deformation)
(1) In the present embodiment, an example of a single device as a correction candidate acquisition device has been described. However, the present invention is not limited to this. For example, a correction candidate acquisition system that combines a plurality of devices may be configured. .

(2)本実施形態において、形態素解析部20と既知語記憶部30と未知語抽出部40とが独立した形態であるとして説明を行った。これに限らず、例えば、形態素解析部20が既知語記憶部30と未知語抽出部40とを包含する形態としてもよい。 (2) In the present embodiment, the morphological analysis unit 20, the known word storage unit 30, and the unknown word extraction unit 40 have been described as independent forms. For example, the morphological analysis unit 20 may include the known word storage unit 30 and the unknown word extraction unit 40.

なお、実施形態及び変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。   In addition, although embodiment and a deformation | transformation form can also be used in combination as appropriate, detailed description is abbreviate | omitted.

10 解析対象文章入力部
20 形態素解析部
30 既知語記憶部
40 未知語抽出部
50 コーパス記憶部
60 検索部
70 修正ルール生成部
80 修正部
90 修正ルール評価部
91 頻度評価部
92 距離評価部
92a 文字列距離算出部
93 形態素解析評価部
100 修正ルールスコア出力部
DESCRIPTION OF SYMBOLS 10 Analysis object text input part 20 Morphological analysis part 30 Known word memory | storage part 40 Unknown word extraction part 50 Corpus memory | storage part 60 Search part 70 Correction rule production | generation part 80 Correction part 90 Correction rule evaluation part 91 Frequency evaluation part 92 Distance evaluation part 92a Character Column distance calculation unit 93 Morphological analysis evaluation unit 100 Correction rule score output unit

Claims (9)

未知の語を含む文章情報を修正する修正候補を取得する修正候補取得装置であって、
既知の語を記憶する既知語記憶手段と、
複数の語から構成される第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段と、
文書集合を記憶するコーパス記憶手段と、
前記未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列を前記コーパス記憶手段から検索して取得する検索手段と、
を備え
前記検索手段は、前記未知語抽出手段が抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、前記コーパス記憶手段から検索する修正候補取得装置。
A correction candidate acquisition device for acquiring a correction candidate for correcting sentence information including an unknown word,
Known word storage means for storing known words;
An unknown word extracting means for extracting an unknown word that is not stored in the known word storage means from the first sentence information composed of a plurality of words;
Corpus storage means for storing a document set;
Search means for searching for and obtaining a correction candidate character string that approximates an unknown character string including an unknown word extracted by the unknown word extraction means;
Equipped with a,
The search means searches the corpus storage means for a character string that matches a character string adjacent to at least one of the front and rear of the unknown word extracted by the unknown word extraction means, using the unknown word portion as a wild card. Correction candidate acquisition device.
請求項1に記載の修正候補取得装置において、
前記検索手段が検索して取得した前記修正候補文字列に基づいて前記未知語を既知語に修正する修正ルールを生成する修正ルール生成手段を備えること、
を特徴とする修正候補取得装置。
In the correction candidate acquisition apparatus according to claim 1 ,
A correction rule generating means for generating a correction rule for correcting the unknown word to a known word based on the correction candidate character string obtained by the search by the search means;
The correction candidate acquisition apparatus characterized by this.
請求項2に記載の修正候補取得装置において、
前記コーパス記憶手段から前記修正候補文字列が検索された出現頻度に基づいて前記修正ルールに対して頻度評価値を付与する頻度評価手段を備えること、
を特徴とする修正候補取得装置。
In the correction candidate acquisition apparatus according to claim 2 ,
Comprising frequency evaluation means for assigning a frequency evaluation value to the correction rule based on the appearance frequency at which the correction candidate character string is searched from the corpus storage means;
The correction candidate acquisition apparatus characterized by this.
請求項2又は請求項3に記載の修正候補取得装置において、
前記未知語と前記修正ルールにより前記未知語について修正を行った後の修正語との間の文字列距離を算出する文字列距離算出手段と、
前記文字列距離算出手段が算出した前記文字列距離に基づいて前記修正ルールに対して距離評価値を付与する距離評価手段と、
を備えることを特徴とする修正候補取得装置。
In the correction candidate acquisition device according to claim 2 or claim 3 ,
A character string distance calculating means for calculating a character string distance between the unknown word and the corrected word after correcting the unknown word by the correction rule;
Distance evaluation means for giving a distance evaluation value to the correction rule based on the character string distance calculated by the character string distance calculation means;
A correction candidate acquisition device comprising:
請求項2から請求項4までのいずれか1項に記載の修正候補取得装置において、
前記第1の文章情報に対して前記修正ルールにしたがった修正を行い第2の文章情報を生成する修正手段と、
前記第2の文章情報について形態素解析を行う形態素解析手段と、
前記第2の文章情報の生成に用いた前記修正ルールに対して前記形態素解析結果に応じた形態素解析評価値を付与する形態素解析評価手段と、
を備えることを特徴とする修正候補取得装置。
In the correction candidate acquisition device according to any one of claims 2 to 4 ,
Correction means for correcting the first sentence information according to the correction rule and generating second sentence information;
Morphological analysis means for performing morphological analysis on the second sentence information;
A morpheme analysis evaluation unit that assigns a morpheme analysis evaluation value corresponding to the morpheme analysis result to the correction rule used to generate the second sentence information;
A correction candidate acquisition device comprising:
請求項5に記載の修正候補取得装置において、
前記形態素解析手段は、前記未知語抽出手段と前記既知語記憶手段とを包含していること、
を特徴とする修正候補取得装置。
In the correction candidate acquisition apparatus according to claim 5 ,
The morpheme analysis means includes the unknown word extraction means and the known word storage means;
The correction candidate acquisition apparatus characterized by this.
未知の語を含む文章情報を修正する修正候補を取得する修正候補取得システムであって、
既知の語を記憶する既知語記憶手段と、
複数の語から構成される第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段と、
文書集合を記憶するコーパス記憶手段と、
前記未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列を前記コーパス記憶手段から検索して取得する検索手段と、
を備え、
前記検索手段は、前記未知語抽出手段が抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、前記コーパス記憶手段から検索する修正候補取得システム。
A correction candidate acquisition system for acquiring correction candidates for correcting sentence information including unknown words,
Known word storage means for storing known words;
An unknown word extracting means for extracting an unknown word that is not stored in the known word storage means from the first sentence information composed of a plurality of words;
Corpus storage means for storing a document set;
Search means for searching for and obtaining a correction candidate character string that approximates an unknown character string including an unknown word extracted by the unknown word extraction means;
With
The search means searches the corpus storage means for a character string that matches a character string adjacent to at least one of the front and rear of the unknown word extracted by the unknown word extraction means, using the unknown word portion as a wild card. Correction candidate acquisition system.
未知の語を含む文章情報を修正する修正候補を取得する修正候補取得方法であって、
既知の語を既知語記憶手段へ記憶し、
複数の語から構成される第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出し、
抽出した未知語を含む未知文字列に近似する修正候補文字列を、文書集合を記憶するコーパス記憶手段から検索して取得し、
前記修正候補文字列の検索において、抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、前記コーパス記憶手段から検索する修正候補取得方法。
A correction candidate acquisition method for acquiring a correction candidate for correcting sentence information including an unknown word,
Storing a known word in a known word storage means;
Extracting unknown words that are not stored in the known word storage means from the first sentence information composed of a plurality of words,
A candidate correction character string that approximates an unknown character string including the extracted unknown word is retrieved from a corpus storage means that stores a document set, and is acquired .
In the search for the correction candidate character string, a correction candidate that searches the corpus storage means for a character string that matches a character string that is adjacent to at least one of the front and rear of the extracted unknown word, using the unknown word part as a wild card Acquisition method.
未知の語を含む文章情報を修正する修正候補を取得する修正候補取得プログラムであって、
コンピュータを、
既知の語を記憶する既知語記憶手段と、
複数の語から構成される第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段と、
文書集合を記憶するコーパス記憶手段と、
前記未知語抽出手段が抽出した未知語を含む未知文字列に近似する修正候補文字列を前記コーパス記憶手段から検索して取得する検索手段であって、当該検索手段は、前記未知語抽出手段が抽出した未知語の前方と後方との少なくとも一方に隣接する文字列と一致する文字列を、未知語部分をワイルドカードとして、前記コーパス記憶手段から検索する検索手段として機能させるための修正候補取得プログラム。
A correction candidate acquisition program for acquiring correction candidates for correcting sentence information including unknown words,
Computer
Known word storage means for storing known words;
An unknown word extracting means for extracting an unknown word that is not stored in the known word storage means from the first sentence information composed of a plurality of words;
Corpus storage means for storing a document set;
Search means for searching for and obtaining a correction candidate character string approximating an unknown character string including an unknown word extracted by the unknown word extraction means from the corpus storage means , the search means comprising the unknown word extraction means Correction candidate acquisition program for causing a character string that matches a character string adjacent to at least one of the extracted unknown words to the front and rear to function as a search unit that searches the corpus storage unit using the unknown word part as a wild card .
JP2009103630A 2009-04-22 2009-04-22 Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program Expired - Fee Related JP5363178B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009103630A JP5363178B2 (en) 2009-04-22 2009-04-22 Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009103630A JP5363178B2 (en) 2009-04-22 2009-04-22 Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program

Publications (2)

Publication Number Publication Date
JP2010257022A JP2010257022A (en) 2010-11-11
JP5363178B2 true JP5363178B2 (en) 2013-12-11

Family

ID=43317897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009103630A Expired - Fee Related JP5363178B2 (en) 2009-04-22 2009-04-22 Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program

Country Status (1)

Country Link
JP (1) JP5363178B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3553984B2 (en) * 1992-06-03 2004-08-11 富士通株式会社 Apparatus and method for generating character string replacement rule
JPH09153034A (en) * 1995-11-29 1997-06-10 Toshiba Corp Document preparing device and method therefor
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
JP5076575B2 (en) * 2007-03-19 2012-11-21 日本電気株式会社 Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program

Also Published As

Publication number Publication date
JP2010257022A (en) 2010-11-11

Similar Documents

Publication Publication Date Title
US10713571B2 (en) Displaying quality of question being asked a question answering system
US8612206B2 (en) Transliterating semitic languages including diacritics
JP3983265B1 (en) Dictionary creation support system, method and program
US11762926B2 (en) Recommending web API's and associated endpoints
JP5403696B2 (en) Language model generation apparatus, method and program thereof
CN112906392B (en) Text enhancement method, text classification method and related device
US10380250B2 (en) Entailment pair extension apparatus, computer program therefor and question-answering system
US20190155912A1 (en) Multi-dimensional query based extraction of polarity-aware content
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP6145059B2 (en) Model learning device, morphological analysis device, and method
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP2008204399A (en) Abbreviation extracting method, abbreviation extracting device and program
JP2010257021A (en) Text correction device, text correction system, text correction method, and text correction program
JP5364529B2 (en) Dictionary registration device, document label determination system, and dictionary registration program
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP5363178B2 (en) Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program
CN111492364A (en) Data labeling method and device and storage medium
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
JP5795302B2 (en) Morphological analyzer, method, and program
JP5448744B2 (en) Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words
JP5339628B2 (en) Sentence classification program, method, and sentence analysis server for classifying sentences containing unknown words
JP2007148630A (en) Patent analyzing device, patent analyzing system, patent analyzing method and program
JP6451151B2 (en) Question answering apparatus, question answering method, program
Szabó et al. Efficiency analysis of inflection rule induction
JP5178357B2 (en) Word score calculation device, document label determination system, and word score calculation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130905

R150 Certificate of patent or registration of utility model

Ref document number: 5363178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees