JP2010165041A - Correct answer determining apparatus, correct answer determining system, correct answer determining method, and correct answer determining program - Google Patents

Correct answer determining apparatus, correct answer determining system, correct answer determining method, and correct answer determining program Download PDF

Info

Publication number
JP2010165041A
JP2010165041A JP2009004949A JP2009004949A JP2010165041A JP 2010165041 A JP2010165041 A JP 2010165041A JP 2009004949 A JP2009004949 A JP 2009004949A JP 2009004949 A JP2009004949 A JP 2009004949A JP 2010165041 A JP2010165041 A JP 2010165041A
Authority
JP
Japan
Prior art keywords
word
correction rule
unit
sentence information
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009004949A
Other languages
Japanese (ja)
Other versions
JP5436868B2 (en
Inventor
Kazufumi Ikeda
和史 池田
Kazunori Matsumoto
一則 松本
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009004949A priority Critical patent/JP5436868B2/en
Publication of JP2010165041A publication Critical patent/JP2010165041A/en
Application granted granted Critical
Publication of JP5436868B2 publication Critical patent/JP5436868B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a correct answer determining apparatus for determining a combination of words useful for replacing an unknown word included in text information with a known word. <P>SOLUTION: The correct answer determining apparatus segments first text information composed of a plurality of words and second document information in which any word of the plurality of words included in the first text information is replaced with another word into a plurality of words, compares a word segmented by an analysis unit with a previously stored known word, determines the segmented word as the known word if it is stored previously, determines the segmented word as an unknown word if the divided word is not stored previously, and on the basis of the determination result, detects a combination of words such that a word based on the first text information is an unknown word and a word based on the second text information corresponding to a word based on the first text information is a known word. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、電子文書に含まれる文章の語を既知語に変換するための正解判定装置、正解判定システム、正解判定方法および正解判定プログラムに関する。   The present invention relates to a correct answer determination apparatus, a correct answer determination system, a correct answer determination method, and a correct answer determination program for converting a word of a sentence included in an electronic document into a known word.

従来、インターネット上に公開されるブログなどのテキストベースの文章情報を解析対象(テキストコーパス)として、文章を構成する最小単位である形態素に分割して解析する形態素解析装置が利用されている。このような形態素解析装置は、例えば、予め定められた単語(既知語)とその単語の品詞とを対応付けた辞書情報を予め記憶する。そして、解析対象とする文章情報を読み込んで文章を構成する単語を抽出し、抽出した単語のそれぞれと、予め記憶された辞書情報に含まれる単語とを比較する。形態素解析装置は、辞書情報に含まれる単語やその品詞の接続関係などに基づいて、解析対象の文章情報に含まれる語と他の語との境界を判別して文章を形態素に分割する。   2. Description of the Related Art Conventionally, morpheme analyzers that analyze text-based sentence information such as blogs published on the Internet as analysis objects (text corpus) and divide them into morphemes that are the smallest units constituting sentences have been used. For example, such a morphological analyzer stores in advance dictionary information in which a predetermined word (known word) and a part of speech of the word are associated with each other. Then, the sentence information to be analyzed is read to extract words constituting the sentence, and each of the extracted words is compared with words included in dictionary information stored in advance. The morphological analysis device discriminates a boundary between a word included in the sentence information to be analyzed and another word based on a word included in the dictionary information and a connection relationship between the parts of speech, and divides the sentence into morphemes.

ここで、形態素解析を行う文章情報を解析する基準となる辞書情報に含まれる単語には、文語体で表された単語が用いられる場合が多い。このため、インターネット上に公開されるブログやニュース、電子掲示板サービスなど独特の文章表現による未知語が含まれる文章情報を解析対象とする場合、辞書情報から対応する語を検出することができず適切な形態素の分割を行うことができない場合がある。
そこで、特許文献1には、解析対象の文章情報に応じた口語特有の言い回しをユーザが辞書登録し、登録された言い回しに基づいて形態素解析を行う技術が提案されている。ここでは、解析対象の文章情報に含まれる単語のうち、通常はひらがな表記される語が意図的にカタカナ表記にされているような強調表現を、定められた修正ルールに基づいて検出し、通常の表記に修正してから形態素解析が行われる。特許文献2には、解析対象となる文章中でのある文字列の前後の文字列の確率分布を算出し、同一品詞に属する単語の確率分布は類似するという仮定に基づいて品詞推定を行う技術が提案されている。
Here, in many cases, a word expressed in a sentence form is used as a word included in dictionary information serving as a reference for analyzing text information for morphological analysis. For this reason, if you want to analyze text information that contains unknown words with unique text expressions such as blogs and news published on the Internet, and electronic bulletin board services, the corresponding words cannot be detected from the dictionary information. Morpheme division may not be possible.
Therefore, Patent Document 1 proposes a technique in which a user registers a phrase specific to a colloquial according to sentence information to be analyzed, and performs morphological analysis based on the registered phrase. Here, among the words included in the sentence information to be analyzed, the emphasis expression in which the words that are normally written in hiragana are intentionally written in katakana is detected based on the defined correction rules, The morphological analysis is performed after correcting the notation. Patent Document 2 calculates a probability distribution of character strings before and after a character string in a sentence to be analyzed, and performs part-of-speech estimation based on the assumption that the probability distributions of words belonging to the same part of speech are similar. Has been proposed.

特許第2870375号公報Japanese Patent No. 2870375 特開2006−031295号公報JP 2006-031295 A

しかしながら、特許文献1のように、ユーザから入力される口語特有の語を用いて形態素解析を行う場合、ユーザが口語特有のあらゆる語を入力するのは困難であるとともに、単語を入力するユーザの経験や好みなどによって解析にバラツキが生じ、汎用的な形態素解析を行うことはできない。また、特許文献2のように、確率分布に基づいて品詞の推定を行う技術は、専門用語や新語の習得には有用であるが、独特の表現が不規則に現れるブログ等の文章解析には適していない。   However, when performing morphological analysis using words specific to colloquial input from the user as in Patent Document 1, it is difficult for the user to input all words specific to colloquial and the user who inputs the word The analysis varies depending on experience and preferences, and general-purpose morphological analysis cannot be performed. In addition, as in Patent Document 2, the technique of estimating the part of speech based on the probability distribution is useful for learning technical terms and new words, but for analyzing sentences such as blogs in which unique expressions appear irregularly. Not suitable.

本発明は、このような状況に鑑みてなされたもので、文章情報に含まれる未知語を既知語に置換する有用な語の組み合わせを判定する正解判定装置、正解判定システム、正解判定方法および正解判定プログラムを提供する。   The present invention has been made in view of such circumstances, and a correct answer determination apparatus, a correct answer determination system, a correct answer determination method, and a correct answer for determining a combination of useful words that replace unknown words included in sentence information with known words. A judgment program is provided.

上述した課題を解決するために、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部と、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割する解析部と、解析部が分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、正解判定部の判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備えることを特徴とする。   In order to solve the above-described problem, the present invention provides a known word storage unit that stores a known word that is predetermined as a known word, first sentence information that includes a plurality of words, The input of the first document information and the second document information is received by receiving the input of the second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. Is divided into a plurality of words, and the words divided by the analysis unit are compared with the known words stored in the known word storage unit. The word based on the first sentence information is an unknown word based on the determination result of the correct answer determining unit that determines that there is an unknown word if it is not stored in the known word storage unit, and the correct answer determining unit A set of words in which the word based on the second text information corresponding to the word based on the first text information is a known word A detection unit for detecting a combined, characterized in that it comprises a.

また、本発明は、第1の文章情報が記憶される解析対象情報記憶部と、第1の文章情報に含まれる複数の語のうち修正対象となる第1の語と、第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶部と、第1の文章情報に含まれる第1の語を抽出し、抽出した第1の語を第2の語に置換した第2の文章情報を生成する修正処理を行い、第1の文章情報と第2の文章情報とを解析部に入力する修正ルール適用部と、をさらに備えることを特徴とする。   In addition, the present invention provides an analysis target information storage unit in which first sentence information is stored, a first word to be corrected among a plurality of words included in the first sentence information, and a first word. A correction rule storage unit that stores a correction rule associated with a second word to be replaced, a first word included in the first sentence information, and the extracted first word as a second A correction rule applying unit that performs correction processing for generating second sentence information replaced with words and inputs the first sentence information and the second sentence information to the analysis unit is further provided.

また、本発明は、検出部が検出した語の組み合わせのうち、第1の文章情報に基づく語を第1の語とし、検出した第2の文章情報に基づく語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせる修正ルール登録部と、をさらに備えることを特徴とする。   Further, the present invention associates a word based on the first sentence information as a first word and a word based on the detected second sentence information as a second word among the combinations of words detected by the detection unit. And a correction rule registration unit that generates the correction rule and causes the correction rule storage unit to generate the correction rule.

また、本発明は、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語と、第2の文章情報に基づく語とを、より短い文字数の語に分割した語を対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。   In the present invention, the correction rule registration unit associates a word obtained by dividing a word based on the first sentence information detected by the detection unit and a word based on the second sentence information into words having a shorter number of characters. The modified rule is generated and stored in the modified rule storage unit.

また、本発明は、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語と、第2の文章情報に基づく語とに、それぞれの文章中で隣接する他の語を連結して対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。   Further, according to the present invention, the correction rule registration unit concatenates a word based on the first text information detected by the detection unit and a word based on the second text information to another word adjacent to each other in each text. Then, the associated correction rule is generated and stored in the correction rule storage unit.

また、本発明は、修正ルール適用部は、正解判定部によって、第1の文章情報に基づく語と、第2の文章情報に基づく語との双方が未知語であると判定された場合、修正ルールに記憶された他の修正ルールに基づいて再度の修正処理を行い、修正ルール登録部は、修正ルール適用部によって行われた再度の修正処理の処理結果に基づいて検出部が検出した第1の文章情報に基づく語を第1の語とし、検出した第2の文章情報に基づく語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。   In the present invention, the correction rule application unit corrects the correction when the correct answer determination unit determines that both the word based on the first sentence information and the word based on the second sentence information are unknown words. The correction process is performed again based on another correction rule stored in the rule, and the correction rule registration unit detects the first detected by the detection unit based on the processing result of the correction process performed again by the correction rule application unit. A correction rule that associates a word based on the sentence information as the first word and a word based on the detected second sentence information as the second word is generated and stored in the correction rule storage unit.

また、本発明は、正解判定部によって、第1の文章情報に基づく語と、第2の文章情報に基づく語との双方が未知語であると判定された場合、第1の語に対応する第2の語の入力を受付ける入力部をさらに備え、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語を第1の語とし、修正後入力部に入力された語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。   Moreover, this invention respond | corresponds to a 1st word, when the correct answer determination part determines that both the word based on 1st text information and the word based on 2nd text information are unknown words. The correction rule registration unit further includes an input unit that receives an input of the second word, and the correction rule registration unit sets the word based on the first sentence information detected by the detection unit as the first word, and the word input to the input unit after correction A correction rule associated with the second word is generated and stored in the correction rule storage unit.

また、本発明は、複数の語から構成される第1の文章情報が記憶される解析対象情報記憶装置と、修正対象となる第1の語と、第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶装置と、既知の語であることが予め定められた既知語が記憶される既知語記憶部と、第1の文章情報に含まれる第1の語を抽出し、抽出した第1の語を第2の語に置換した第2の文章情報を生成する修正処理を行う修正ルール適用部と、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割する解析部と、解析部が分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、正解判定部の判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備える正解判定装置と、正解判定装置の検出部による検出結果に基づいて修正ルールを生成し、修正ルール記憶装置に記憶させる修正ルール登録装置と、を備えることを特徴とする正解判定システムである。   The present invention also provides an analysis object information storage device that stores first sentence information composed of a plurality of words, a first word to be corrected, and a second word that replaces the first word. Is stored in a correction rule storage device, a known word storage unit storing a known word that is predetermined as a known word, and a first sentence information included in the first sentence information. A first rule composed of a plurality of words and a correction rule applying unit that performs a correction process for generating second sentence information by extracting one word and replacing the extracted first word with a second word The information and the second document information in which any one of the plurality of words included in the first sentence information is replaced with another word are received, and the input first sentence information and second The document information is divided into a plurality of words, an analysis unit, a word divided by the analysis unit, and a known word storage unit A correct answer determination unit that determines that the stored word is a known word if it is stored in the known word storage unit, and that it is an unknown word if it is not stored in the known word storage unit; Based on the determination result of the determination unit, a combination of words in which the word based on the first sentence information is an unknown word and the word based on the second sentence information corresponding to the word based on the first sentence information is a known word And a correction rule registration device that generates a correction rule based on the detection result of the detection unit of the correct answer determination device and stores the correction rule in a correction rule storage device. Is a correct answer determination system.

また、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置の正解判定方法であって、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割するステップと、分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定するステップと、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、を備えたことを特徴とする。   In addition, the present invention is a correct answer determination method of a correct answer determination apparatus including a known word storage unit in which a known word that is predetermined as a known word is stored. The input of the sentence information and the second document information in which any one of the plurality of words included in the first sentence information is replaced with another word is received. Dividing the document information of 2 into a plurality of words, comparing the divided words with the known words stored in the known word storage unit, and if the words are stored in the known word storage unit, A step of determining that there is an unknown word if it is not stored in the known word storage unit, and based on the determination result, the word based on the first sentence information is an unknown word, and the first sentence information A combination of words in which the word based on the second sentence information corresponding to the word based on is a known word Detecting allowed, characterized by comprising a.

また、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置のコンピュータに、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割するステップと、分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定するステップと、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、を実行させる正解判定プログラムである。   In addition, the present invention provides a computer of a correct answer determination apparatus including a known word storage unit that stores a known word that is predetermined as a known word, first sentence information composed of a plurality of words, The input of the first document information and the second document information is received by receiving the input of the second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. Are divided into a plurality of words, and the divided words are compared with the known words stored in the known word storage unit, and determined to be known words if stored in the known word storage unit. The word based on the first sentence information is an unknown word based on the determination result based on the determination result if the word is not stored in the known word storage unit, and the word based on the first sentence information A combination of words whose words based on the corresponding second sentence information are known words Is correct determination program to be executed a step of leaving, the.

以上説明したように、本発明によれば、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報とを複数の語に分割し、解析部が分割した語と、予め記憶されている既知語とを比較して、予め記憶されていれば既知語であると判定し、予め記憶されていなければ未知語であると判定し、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するようにしたので、解析対象となる第1の文章情報に含まれる語が他の語に置換されたことにより未知語が既知語に置換されたことを検出でき、未知語が含まれる文章情報を既知語で構成される文章に置換するために有用な語を検出することが可能となる。   As described above, according to the present invention, any one of the first sentence information composed of a plurality of words and the plurality of words included in the first sentence information is replaced with another word. The second document information is divided into a plurality of words, the word divided by the analysis unit is compared with a known word stored in advance, and if it is stored in advance, it is determined as a known word, If it is not stored in advance, it is determined as an unknown word, and based on the determination result, the word based on the first text information is an unknown word, and the second text information corresponding to the word based on the first text information Since a combination of words whose known words are known words is detected, unknown words are replaced with known words by replacing words included in the first sentence information to be analyzed with other words. Text information containing unknown words is placed in a sentence composed of known words. It is possible to detect a useful word for.

本発明の一実施形態による正解判定システムの構成を示すブロック図である。It is a block diagram which shows the structure of the correct answer determination system by one Embodiment of this invention. 本発明の一実施形態による修正ルールのデータ例を示す図である。It is a figure which shows the example of data of the correction rule by one Embodiment of this invention. 本発明の一実施形態によるラベル付与装置の動作例を示す図である。It is a figure which shows the operation example of the label provision apparatus by one Embodiment of this invention. 本発明の一実施形態によるスコアリング装置の動作例を示す図である。It is a figure which shows the operation example of the scoring apparatus by one Embodiment of this invention. 本発明の一実施形態によるルール特殊化装置の動作例を示す図である。It is a figure which shows the operation example of the rule specialization apparatus by one Embodiment of this invention. 本発明の一実施形態によるルール結合装置の動作例を示す図である。It is a figure which shows the operation example of the rule coupling | bonding apparatus by one Embodiment of this invention. 本発明の一実施形態によるルール汎用化装置の動作例を示す図である。It is a figure which shows the operation example of the rule generalization apparatus by one Embodiment of this invention. 本発明の一実施形態による能動学習装置の動作例を示す図である。It is a figure which shows the operation example of the active learning apparatus by one Embodiment of this invention. 本発明の一実施形態による正解判定システムの動作例を示す図である。It is a figure which shows the operation example of the correct answer determination system by one Embodiment of this invention.

以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による正解判定システム1の構成を示すブロック図である。正解判定システム1は、テキストコーパス記憶装置10と、修正ルール記憶装置20と、ラベル付与装置30と、スコアリング部41と、ルール特殊化装置50と、ルール結合装置60と、ルール汎用化装置70と、能動学習装置80と、入力端末89とを備えている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a correct answer determination system 1 according to the present embodiment. The correct answer determination system 1 includes a text corpus storage device 10, a correction rule storage device 20, a label assignment device 30, a scoring unit 41, a rule specialization device 50, a rule combination device 60, and a rule generalization device 70. And an active learning device 80 and an input terminal 89.

テキストコーパス記憶装置10は、本装置による解析対象となる自然言語の文章情報が記憶されるコンピュータ装置である。文章情報は、例えば、インターネットを介して取得されるニュースサイトやブログ等のウェブコンテンツに含まれる文章情報である。テキストコーパス記憶装置10に記憶される文章情報は、複数の語、文から構成されており、口語的な表現、隠語、略語、俗語、若者言葉、スラングなどの様々な文章表現が含まれる。   The text corpus storage device 10 is a computer device that stores natural language text information to be analyzed by this device. The sentence information is, for example, sentence information included in web contents such as news sites and blogs acquired via the Internet. The sentence information stored in the text corpus storage device 10 is composed of a plurality of words and sentences, and includes various sentence expressions such as colloquial expressions, secret words, abbreviations, slang words, youth words, and slang.

修正ルール記憶装置20は、文章情報に含まれる複数の語のうち修正対象となる第1の語と、第1の語と同様の意味内容を有し、形態素解析部34により解析可能な文語による第2の語とが対応付けられた複数の修正ルールが記憶されるコンピュータ装置である。修正ルール記憶装置20には、初期状態において基本的ないくつかの修正ルールが予め記憶されている。例えば、修正ルールの例を「(第1の語)→(第2の語)」として表すと、「ちゃ→ては」、「ヵ→か」、「ゎ→は」、「ゎ→わ」などの修正ルールが予め記憶される。また、修正ルール記憶装置20には、スコアリング装置40、ルール特殊化装置50、ルール結合装置60、ルール汎用化装置70、能動学習装置80によって生成された新たな修正ルールが記憶される。   The correction rule storage device 20 includes a first word to be corrected among a plurality of words included in the sentence information, and a sentence word that has the same semantic content as the first word and can be analyzed by the morphological analysis unit 34. A computer device that stores a plurality of correction rules associated with a second word. The correction rule storage device 20 stores in advance some basic correction rules in the initial state. For example, if the example of the correction rule is expressed as “(first word) → (second word)”, “Cha → Teha”, “Ka → Ka”, “ゎ → Ha”, “ゎ → wa” Such correction rules are stored in advance. The correction rule storage device 20 stores new correction rules generated by the scoring device 40, the rule specializing device 50, the rule combining device 60, the rule generalizing device 70, and the active learning device 80.

図2は、修正ルール記憶装置20に記憶される修正ルールのデータ例を示す図である。修正ルールには、登録種別、スコア、ラベルなどの情報が対応付けられて記憶される。登録種別は、その修正ルールが修正ルール記憶装置20に記憶された原因を示す種別であり、予め記憶されたプリミティブなルールであることを示す「初期」や、ルール特殊化装置50による特殊化処理により生成され記憶された修正ルールであることを示す「特殊化」などが存在する。スコアは、スコアリング装置40によって算出された修正ルールの有効性の度合いを示す値であり、数値が高いほど有効性が高いことを示す。この例では、スコアはその修正ルールを適用することにより既知語が未知語に変換される確率を示している。ラベルは、ラベル付与装置30により付与される情報であり、その修正ルールを適用することによる既知語と未知語との状態の変化を示す情報である。本実施形態では、このような情報が全て修正ルール記憶装置20に記憶されることとして説明するが、登録種別やスコア、ラベルなどは、異なる記憶装置を設けて分離して情報を記憶させ管理するようにしても良い。   FIG. 2 is a diagram illustrating an example of correction rule data stored in the correction rule storage device 20. Information such as a registration type, a score, and a label is stored in association with the correction rule. The registration type is a type indicating the cause of the correction rule stored in the correction rule storage device 20, “initial” indicating that it is a primitive rule stored in advance, or specialization processing by the rule specializing device 50 There is a “specialization” or the like indicating that the correction rule is generated and stored by. The score is a value indicating the degree of effectiveness of the correction rule calculated by the scoring device 40. The higher the numerical value, the higher the effectiveness. In this example, the score indicates the probability that a known word is converted to an unknown word by applying the correction rule. The label is information provided by the label attaching device 30 and is information indicating a change in the state between the known word and the unknown word by applying the correction rule. In the present embodiment, it is assumed that all such information is stored in the correction rule storage device 20, but the registration type, score, label, and the like are stored and managed separately by providing different storage devices. You may do it.

ラベル付与装置30は、テキストコーパス記憶装置10に記憶された文章情報に含まれる語を修正ルール記憶装置20に記憶された修正ルールに基づいて置換し、置換の有用性を判定するコンピュータ装置である。ラベル付与装置30は、適用文抽出部31と、修正ルール適用部32と、既知語記憶部33と、形態素解析部34と、ラベル判定部35とを備えている。   The label assigning device 30 is a computer device that replaces words included in the sentence information stored in the text corpus storage device 10 based on the correction rules stored in the correction rule storage device 20 and determines the usefulness of the replacement. . The label assigning device 30 includes an applied sentence extraction unit 31, a correction rule application unit 32, a known word storage unit 33, a morpheme analysis unit 34, and a label determination unit 35.

適用文抽出部31は、テキストコーパス記憶装置10に記憶された解析対象の文章情報を読み出し、修正ルール記憶装置20に記憶された修正ルールの第1の語が含まれる文である適用前文を抽出する。例えば、適用文抽出部31は、解析対象の文章情報(TX)に対して適用する修正ルールが「X→Y」である場合、解析対象の文章情報(TX)から第1の語「X」を含む文章を抽出して(grep X from TX)、適用前文(TX1)を抽出する。適用文抽出部31は、抽出した適用前文を、修正ルール適用部32と形態素解析部34とに入力する。   The application sentence extraction unit 31 reads out the sentence information to be analyzed stored in the text corpus storage device 10 and extracts a pre-application sentence that is a sentence including the first word of the correction rule stored in the correction rule storage device 20. To do. For example, when the correction rule to be applied to the analysis target sentence information (TX) is “X → Y”, the application sentence extraction unit 31 uses the first word “X” from the analysis target sentence information (TX). Is extracted (grep X from TX), and the pre-application sentence (TX1) is extracted. The application sentence extraction unit 31 inputs the extracted pre-application sentence to the correction rule application unit 32 and the morpheme analysis unit 34.

修正ルール適用部32は、適用文抽出部31が修正ルールに基づいて解析対象の文章情報から抽出した適用前文に含まれる第1の語を、対応する第2の語に置換した文である適用後文を生成する。修正ルール適用部32は、適用文抽出部31が抽出した適用前文(TX1)に含まれる第1の語(X)を、修正ルールに基づいた第2の語(Y)に置換して(sed X/Y TX1)、適用後文(TX2)を生成する。例えば、修正ルール適用部32は、口語文の適用前文「急がなくちゃ」について、修正ルール「ちゃ→ては」を適用し、文語文の適用後文「急がなくては」を生成する。修正ルール適用部32は、生成した適用後文を形態素解析部34に入力する。   The modification rule application unit 32 is an application in which the first sentence included in the pre-application sentence extracted from the sentence information to be analyzed by the application sentence extraction unit 31 based on the modification rule is replaced with a corresponding second word. Generate postscript. The correction rule application unit 32 replaces the first word (X) included in the pre-application sentence (TX1) extracted by the application sentence extraction unit 31 with the second word (Y) based on the correction rule (sed X / Y TX1) and post-application sentence (TX2) are generated. For example, the correction rule applying unit 32 applies the correction rule “Cha → Teha” to the sentence before applying the colloquial sentence “Hurry must be”, and generates the sentence “After the sentence hastened” after applying the sentence. The correction rule application unit 32 inputs the generated post-application sentence to the morpheme analysis unit 34.

既知語記憶部33には、品詞等の情報と対応付けられた複数の既知語のリストが含まれる辞書情報が記憶される。ここで、既知語とは、形態素解析などに用いられる予め定められた語である。既知語は、一般的に文語表現により表される。
形態素解析部34は、適用文抽出部31から入力される適用前文と、修正ルール適用部32から入力される適用後文との入力を受け付けて、入力された適用前文と適用後文とを、既知語記憶部33に記憶された辞書情報に基づいた形態素解析を行い、それぞれの文を形態素に分割する。形態素解析とは、例えば、自然言語による文章を、自然言語の規則に応じた品詞の接続制限に基づいて辞書情報に含まれる既知語に分割し、語の境界を判別して、文章を構成する最小単位である形態素を抽出する処理である。例えば、「庭には二羽ニワトリがいる」との文は、形態素解析を行うことにより、「庭」(名詞)、「に」(助詞)、「は」(助詞)、「二」(名詞)、「羽」(名詞)、「ニワトリ」(名詞)、「が」(助詞)、「いる」(動詞)、のように形態素に分割される。
The known word storage unit 33 stores dictionary information including a list of a plurality of known words associated with information such as parts of speech. Here, the known word is a predetermined word used for morphological analysis or the like. Known words are generally expressed in sentence language.
The morpheme analysis unit 34 receives input of the pre-application sentence input from the application sentence extraction unit 31 and the post-application sentence input from the correction rule application unit 32, and the input pre-application sentence and post-application sentence are input, Morphological analysis based on dictionary information stored in the known word storage unit 33 is performed, and each sentence is divided into morphemes. Morphological analysis, for example, divides a sentence in natural language into known words included in the dictionary information based on part-of-speech connection restrictions according to natural language rules, determines word boundaries, and composes sentences This is a process of extracting a morpheme that is a minimum unit. For example, the sentence “There are two chickens in the garden” can be obtained by performing morphological analysis to obtain “garden” (noun), “ni” (particle), “ha” (particle), “two” (noun). ), “Feather” (noun), “chicken” (noun), “ga” (particle), “is” (verb), and so on.

ラベル判定部35は、形態素解析部34が分割したそれぞれの形態素に基づく語と、既知語記憶部33に記憶されている語とを比較して、分割した語と同一の語が形態素解析部34に記憶されていればその語を既知語であると判定し、既知語記憶部33に記憶されていなければ未知語であると判定する。例えば、ラベル判定部35は、修正ルール「X→Y」を適用した適用前文についての形態素解析結果の文(IN1)と、同様に修正ルール「X→Y」を適用した適用後文についての形態素解析結果の文(IN2)とを入力として、適用前文についての形態素解析結果(IN1)のうち、修正ルールの第1の語(X)を含む語(P1)を抽出する。   The label determination unit 35 compares a word based on each morpheme divided by the morpheme analysis unit 34 with a word stored in the known word storage unit 33, and the same word as the divided word is the morpheme analysis unit 34. If it is not stored in the known word storage unit 33, it is determined that it is an unknown word. For example, the label determination unit 35 uses the morpheme analysis result sentence (IN1) for the pre-application sentence to which the correction rule “X → Y” is applied and the morpheme for the post-application sentence to which the correction rule “X → Y” is similarly applied. Using the sentence (IN2) as the analysis result as an input, the word (P1) including the first word (X) of the correction rule is extracted from the morphological analysis result (IN1) for the pre-application sentence.

また、ラベル判定部35は、抽出した語(P1)に含まれる形態素毎に、その形態素または形態素が含まれる語と同一の語が、既知語記憶部33に既知語として記憶されているか否かを判定することにより、その形態素または形態素が含まれる語が既知語であるか未知語であるかを判定する。同様に、ラベル判定部35は、適用後文についての形態素解析結果の文(IN2)のうち、形態素解析結果の文(IN1)に含まれる語(P1)に対応する語(P2)の形態素毎に、既知語であるか未知語であるかを判定する。そして、ラベル判定部35は、語の組み合わせ「P1→P2」について、既知語と未知語との状態の変化を示すラベルを付与する。   In addition, the label determination unit 35 determines whether, for each morpheme included in the extracted word (P1), the morpheme or the same word as the word including the morpheme is stored in the known word storage unit 33 as a known word. Is determined to determine whether the morpheme or the word including the morpheme is a known word or an unknown word. Similarly, the label determination unit 35, for each morpheme of the word (P2) corresponding to the word (P1) included in the morpheme analysis result sentence (IN1) among the morpheme analysis result sentence (IN2) for the post-application sentence. Next, it is determined whether it is a known word or an unknown word. Then, the label determination unit 35 assigns a label indicating a change in state between the known word and the unknown word for the word combination “P1 → P2”.

ここで、ラベルは、「○」、「□」、「×」、「△」のいずれかの記号を付与することとし、「○」は、P1は未知語でありP2は既知語であることを示す。「□」は、P1とP2とがともに既知語であることを示す。「×」は、P1は既知語でありP2は未知語であることを示す。「△」は、P1とP2とがともに未知語であることを示す。例えば、「かわぃぃこぃぬ」(P1)について修正ルール「ぃ→い」が適用され、「かわいいこいぬ」(P2)が得られた場合には、ラベル判定部35は、既知語記憶部33に記憶された情報を参照して「かわぃぃこぃぬ」は未知語であると判定し、「かわいいこいぬ」は既知語であると判定する。この場合、ラベル判定部35は、「P1→P2」にラベル「○」を付与する。ここで、ラベル判定部35は、置換を行った語の組み合わせ「P1→P2」と、語の組み合わせに対して付与したラベルとを対応付けて、一時的に修正ルール記憶装置20に記憶させるようにしても良い。   Here, the label is given a symbol “O”, “□”, “×”, or “Δ”, and “O” indicates that P1 is an unknown word and P2 is a known word. Indicates. “□” indicates that both P1 and P2 are known words. “X” indicates that P1 is a known word and P2 is an unknown word. “Δ” indicates that both P1 and P2 are unknown words. For example, when the correction rule “I → I” is applied to “Kawaii Koinu” (P1) and “Cute Koinu” (P2) is obtained, the label determination unit 35 stores the known word. With reference to the information stored in the unit 33, “Kaiikoinu” is determined to be an unknown word, and “Kawaii Koinu” is determined to be a known word. In this case, the label determination unit 35 assigns the label “◯” to “P1 → P2”. Here, the label determination unit 35 associates the replaced word combination “P1 → P2” with the label given to the word combination, and temporarily stores them in the correction rule storage device 20. Anyway.

スコアリング装置40は、ラベル付与装置30の処理結果に基づいて修正ルールを評価してスコアを付与し、予め定められた閾値を超えるスコアを算出した修正ルールを修正ルール記憶装置20に記憶させる。スコアリング装置40は、スコアリング部41と、修正ルール登録部42とを備えている。スコアリング部41は、テキストコーパス記憶装置10に記憶された複数の文章情報のそれぞれについてラベル付与装置30によって付与されたラベルに基づいて、修正ルール記憶装置20に記憶された修正ルール毎に有効度合いの評価を示すスコアを算出する(スコアリング)。例えば、スコアリング部41は、修正ルールが適用された適用前文の件数と、その適用前文に修正ルールを適用して置換を行ったことによりラベルが「○」となった正解の件数とを算出し、適用前文の件数に対する正解の件数の割合(正解率)をスコアとして算出する。例えば、修正ルール「ぃ→い」を適用前文2件に適用し、正解数が1件であった場合、正解率は50%である。   The scoring device 40 evaluates the correction rule based on the processing result of the label assigning device 30 and assigns a score, and causes the correction rule storage device 20 to store the correction rule that calculates a score exceeding a predetermined threshold. The scoring device 40 includes a scoring unit 41 and a correction rule registration unit 42. The scoring unit 41 is effective for each correction rule stored in the correction rule storage device 20 based on the labels assigned by the label assignment device 30 for each of the plurality of pieces of text information stored in the text corpus storage device 10. A score indicating the evaluation of is calculated (scoring). For example, the scoring unit 41 calculates the number of pre-application sentences to which the correction rule is applied and the number of correct answers whose label is “O” by performing the replacement by applying the correction rule to the pre-application sentence. Then, the ratio of the number of correct answers to the number of pre-application sentences (correct answer rate) is calculated as a score. For example, when the correction rule “i → i” is applied to two pre-application sentences and the number of correct answers is one, the correct answer rate is 50%.

修正ルール登録部42は、スコアリング部41によって算出されたスコアに応じて、修正ルールを修正ルール記憶装置20に登録する。例えば、修正ルール登録部42は、スコアリング部41によって算出されたスコアが予め定められた閾値(例えば、50%)を超える修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。また、修正ルール登録部42は、修正ルール記憶装置20に記憶されている修正ルールのうち、不要なルールを検出して修正ルール記憶装置20から削除する機能を備えるようにしても良い。例えば、修正ルール登録部42は、修正ルール記憶装置20に既に記憶されている修正ルールのうち、ラベル付与装置30によって再度算出されたスコアが予め定められた閾値(例えば、20%)を下回るような場合には、その修正ルールを修正ルール記憶装置20から削除するようにしても良い。   The correction rule registration unit 42 registers the correction rule in the correction rule storage device 20 according to the score calculated by the scoring unit 41. For example, the correction rule registration unit 42 stores a correction rule in which the score calculated by the scoring unit 41 exceeds a predetermined threshold (for example, 50%) in the correction rule storage device 20 as a new correction rule. Further, the correction rule registration unit 42 may have a function of detecting an unnecessary rule out of the correction rules stored in the correction rule storage device 20 and deleting it from the correction rule storage device 20. For example, the correction rule registration unit 42 makes the score calculated again by the label assigning device 30 out of the correction rules already stored in the correction rule storage device 20 fall below a predetermined threshold (for example, 20%). In such a case, the correction rule may be deleted from the correction rule storage device 20.

ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールの特殊化処理を行う。修正ルールの特殊化処理では、ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールに含まれる第1の語に、隣接する他の文字(列)を連結させた新たな修正ルールを生成し、生成した新たな修正ルールを用いてラベル付与装置30とスコアリング装置40とを動作させ、予め定められた閾値を超えるスコアが算出された修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。   The rule specializing device 50 performs specialization processing for the correction rules stored in the correction rule storage device 20. In the correction rule specialization process, the rule specializing device 50 performs a new correction in which another adjacent character (string) is connected to the first word included in the correction rule stored in the correction rule storage device 20. A rule is generated, and the labeling device 30 and the scoring device 40 are operated using the generated new correction rule, and the correction rule for which a score exceeding a predetermined threshold is calculated is corrected as a new correction rule It is stored in the rule storage device 20.

例えば、ルール特殊化装置50は、ラベル付与装置30によって抽出される適用前文から、修正ルール「X→Y」に含まれる第1の語(X)に、適用前文中で隣接する前または後の文字(w)(wは、1文字以上の文字(列))を連結した語(wXまたはXw)を検出し、検出した語(wXまたはXw)を入力としてラベル判定部35とスコアリング装置40とを動作させる。例えば、ルール特殊化装置50は、ラベル付与装置30により形態素解析が行われた結果文から、修正ルール「ちゃ→ては」について、適用前文中で「ちゃ」を含む文(例えば、「行かなくちゃ」、「ちゃんとして」、「見なくちゃ」、「赤ちゃん」、「おちゃわん」、「しなくちゃ」、「くちゃくちゃ」)と、適用前文に対応する適用後文(「行かなくては」、「てはんとして」、「見なくては」、「赤てはん」、「おてはわん」、「しなくては」、「くてはくては」)とを検出し、検出した適用前文と適用後文とについて、ラベル判定部35によりラベルを付与させる。これにより、ルール特殊化装置50は、例えば文「行かなくちゃ→行かなくては」についてラベル「○」を得る。同様に、「ちゃんとして→てはんとして」についてラベル「×」を、「見なくちゃ→見なくては」についてラベル「○」を、「赤ちゃん→赤てはん」についてラベル「×」を、「おちゃわん→おてはわん」についてラベル「×」を、「しなくちゃ→しなくては」についてラベル「○」を、「くちゃくちゃ→くてはくては」についてラベル「×」を得る。   For example, the rule specializing device 50 adds the first word (X) included in the correction rule “X → Y” from the pre-application sentence extracted by the label assigning device 30 before or after being adjacent in the pre-application sentence. A word (wX or Xw) obtained by concatenating characters (w) (w is one or more characters (strings)) is detected, and the label determination unit 35 and the scoring device 40 are input using the detected word (wX or Xw) as an input. And make it work. For example, the rule specializing apparatus 50 uses a sentence including “cha” in the pre-application sentence (for example, “does not go”) for the correction rule “cha → teha” from the result sentence obtained by the morphological analysis by the label assigning apparatus 30. ‘Chat’, ‘Chan’, ‘Must see’, ‘Baby’, ‘Ochawan’, ‘Shakucha’, ‘Kakucha’, etc. ”,“ Taneha ”,“ Need to see ”,“ Red Tane ”,“ Otewa Wan ”,“ Need to do ”,“ Kutehaku Hate ”) The label determination unit 35 gives labels to the detected pre-application sentence and post-application sentence. As a result, the rule specializing apparatus 50 obtains the label “◯” for the sentence “I have to go → I have to go”, for example. Similarly, label “×” for “Chanto → Taneto”, label “○” for “I have to see → I have to see”, and label “×” for “Baby → Red” , “Ochawan → Otewawan” is labeled “×”, “Shakucha → I have to do” is labeled “○”, and “Kakukucha → Kutehakuhaha” is labeled “×” Get.

ルール特殊化装置50は、このようにして得たラベルに基づいて、スコアリング装置40にスコアを算出させる。上記の例では、スコアリング装置40は、修正ルール「ちゃ→ては」の前に「く」を連結させた修正ルール「くちゃ→くては」について、適用数が4であり、正解数が3であるから、スコアを75(%)として算出する。同様に、「ちゃ→ては」の前に「なく」を連結させた「なくちゃ→なくては」について、適用数が3であり、正解数が3であるから、スコアは100となる。「ちゃ→ては」の後に「ん」を連結させた「ちゃん→てはん」について、適用数が2であり、正解数が0であるから、スコアは0となる。「ちゃ→ては」の前に「お」を連結させた「おちゃ→おては」について、適用数が1であり、正解数が0であるから、スコアは0となる。「ちゃ→ては」の後に「わ」を連結させた「ちゃわ→てはわ」について、適用数が2であり、正解数が0であるから、スコアは0となる。   The rule specializing device 50 causes the scoring device 40 to calculate a score based on the label thus obtained. In the above example, the scoring device 40 applies the correction number “4” to the correction rule “Kaku → Kateha” in which “ku” is connected before the correction rule “Cha → Teha”. Therefore, the score is calculated as 75 (%). Similarly, the number of applications for “Nakucha → Nenai”, in which “Naku” is connected before “Chaya → Teha”, is 3, and the number of correct answers is 3, so the score is 100. For “Chan → Tehan” in which “Chan → Teha” is connected to “Chan → Tehan”, the number of applications is 2 and the number of correct answers is 0, so the score is 0. For “Ocha → Oteha”, in which “O” is connected before “Cha → Teha”, the number of applications is 1 and the number of correct answers is 0, so the score is 0. With regard to “Chawa → Tehawa” in which “Cha → Teha” is connected to “Wa”, the number of applications is 2 and the number of correct answers is 0, so the score is 0.

ルール特殊化装置50は、スコアリング装置40によってこのようにスコアが算出された修正ルールのうち、予め定められた閾値を超える修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。例えば、スコアの閾値が70であれば、上記の修正ルールのうち「くちゃ→くては」と、「なくちゃ→なくては」とを修正ルール記憶装置20に記憶させる。ここで、ルール特殊化装置50は、予め定めた閾値以上のスコアが算出された修正ルールについては、特殊化処理を行わないようにして良い。例えば、閾値を100とする場合、上記の例では「なくちゃ→なくては」に基づいた特殊化処理を行わないようにしても良い。また、修正ルールが爆発的に増加することを防ぐため、予め定めた閾値以上の文字列長となる修正ルールは生成しないなどの制約を設けるようにしても良い。また、特殊化処理の対象とする修正ルールは、初期状態で修正ルール記憶装置20に予め記憶された修正ルールと、後述するルール汎用化装置70により生成された修正ルールとのみに基づいて行い、他の方法により生成された修正ルールに基づいては行わないようにして良い。例えば、上記の例では、「ちゃ→ては」に基づいた特殊化処理を行うが、これにより生成された修正ルール「くちゃ→くては」に基づいた特殊化処理は行わない。これは、「ちゃ→ては」を特殊化した時点で、「くちゃ→くては」を特殊化したルールを得られるためである。   The rule specializing device 50 stores, in the correction rule storage device 20, a correction rule that exceeds a predetermined threshold among the correction rules whose scores are calculated in this way by the scoring device 40 as a new correction rule. For example, if the threshold value of the score is 70, the correction rule storage device 20 stores “Kaku → Kaku wa” and “Kaku kan → Kaku” among the above correction rules. Here, the rule specializing device 50 may not perform the specialization process on the correction rule for which a score equal to or higher than a predetermined threshold is calculated. For example, when the threshold value is 100, in the above example, the specialization process based on “necessary → necessary” may not be performed. In order to prevent the correction rule from explosively increasing, a restriction may be provided such that a correction rule having a character string length equal to or greater than a predetermined threshold is not generated. Further, the correction rule to be specialized processing is performed based only on the correction rule stored in advance in the correction rule storage device 20 in the initial state and the correction rule generated by the rule generalization device 70 described later, You may not perform based on the correction rule produced | generated by the other method. For example, in the above example, the specialization process based on “Cha → Teha” is performed, but the specialization process based on the correction rule “Kaku → Cute” generated thereby is not performed. This is because when “Cha → Teha” is specialized, a rule that specializes “Cha → Teha” can be obtained.

ルール結合装置60は、修正ルール記憶装置20に記憶された修正ルールの結合処理を行う。ルール結合装置60は、修正ルール選択部61と修正ルール結合部62とを備えている。修正ルールの結合処理では、修正ルール選択部61が、ラベル付与装置30によって「△」が付与された語に対して、適用後文の未知語を既知語にするためにさらに適用する修正ルールを修正ルール記憶装置20から検出し、修正ルール結合部62によって修正ルールの結合を行い、新たな修正ルールとして修正ルール記憶装置20に記憶させる。   The rule combining device 60 performs a process of combining the correction rules stored in the correction rule storage device 20. The rule combining device 60 includes a correction rule selecting unit 61 and a correction rule combining unit 62. In the correction rule combining process, the correction rule selection unit 61 applies a correction rule to be further applied in order to make the unknown word of the post-application sentence a known word with respect to the word given “△” by the label assigning device 30. The correction rule is detected from the correction rule storage device 20, and the correction rule combining unit 62 combines the correction rules and stores them in the correction rule storage device 20 as new correction rules.

例えば、修正ルール選択部61は、ラベル付与装置30によって「△」が付与された未知語(w、w・・・w)に対して、修正ルール記憶装置20に記憶された修正ルールのうちスコアが高い修正ルールを順に適用してラベル判定部35に入力し、ラベル判定部35による判定結果が「○」となった時点での修正ルールを、修正ルール結合部62が新たな修正ルールとして修正ルール記憶装置20に記憶させる。 For example, the correction rule selection unit 61 stores the correction rule stored in the correction rule storage device 20 for the unknown word (w 1 , w 2 ... W n ) to which “Δ” is assigned by the label assigning device 30. Are applied to the label determination unit 35 in order, and the correction rule combination unit 62 newly corrects the correction rule when the determination result by the label determination unit 35 becomes “◯”. It is stored in the correction rule storage device 20 as a rule.

具体的には、テキストコーパス記憶装置10から読み出された文章情報の原文「・・・言うなんて、ヒドぃと思う・・・」に含まれる未知語「ヒドぃ」は、ラベル付与装置30の修正ルール適用部32によって修正ルール「ぃ→い」が適用されることにより、「ヒドい」に修正されるが、「ヒドい」が未知語である場合、ラベル判定部35により付与されるラベルは「△」となる。修正ルール選択部61は、ラベル付与装置30によってラベル「△」が付与された未知語について、修正ルール記憶装置20に記憶された修正ルールのうちスコアの高い修正ルールを順に検出してラベル付与装置30に修正ルールを適用させ、ラベルを付与させる。例えば、上述の例の場合、修正ルール選択部61は、修正ルール記憶装置20に記憶された修正ルールのうち、第1の語に文字「ヒ」または「ド」を含む修正ルールを検出する。ここで、ルール結合装置60が、修正ルール「ヒ→ひ」(スコア2)、「ヒド→ひど」(スコア40)、「ド→ど」(スコア1)、「ヒドい→ひどい」(スコア100)、「ヒドく→ひどく」(スコア100)を検出した場合、スコアが高い修正ルール「ヒドい→ひどい」と、修正ルール「ヒドく→ひどく」とを適用対象の修正ルールとして検出する。   Specifically, the unknown word “hidhi” included in the original text “... Say hid ...” of the text information read from the text corpus storage device 10 When the correction rule “i → i” is applied by the correction rule application unit 32, it is corrected to “hid”, but when “hid” is an unknown word, the label given by the label determination unit 35 Becomes “△”. The correction rule selection unit 61 detects the correction rule having the highest score among the correction rules stored in the correction rule storage device 20 for the unknown word to which the label “Δ” is assigned by the label addition device 30 in order. A correction rule is applied to 30 to give a label. For example, in the case of the above-described example, the correction rule selection unit 61 detects a correction rule that includes the characters “hi” or “do” in the first word among the correction rules stored in the correction rule storage device 20. Here, the rule combining device 60 determines that the correction rules “hi → hi” (score 2), “hid → hid” (score 40), “do → do” (score 1), “hidden → bad” (score 100). ), When “hidoku → bad” (score 100) is detected, the correction rule “hid →→ bad” with a high score and the correction rule “hidoku → bad” are detected as the correction rules to be applied.

修正ルール選択部61は、適用対象の修正ルールとして検出した修正ルールを、未知語「ヒドぃ」についてラベル付与装置30により修正ルール「ぃ→い」が適用されることにより生成された「ヒドい」に対して、ラベル付与装置30にさらに適用させる。これにより、修正ルール選択部61は、ラベル付与装置30に新たにラベルが付与された語に基づいて、新たな修正ルール「・・・言うなんて、ヒドぃと思う・・・→・・・言うなんて、ひどいと思う・・・」を生成し、修正ルール記憶装置20に記憶させる。ここで、ルール結合装置60が生成した修正ルールは極めて具体的な文となるが、後述するルール汎用化装置70の処理によって、より短い適切な長さの修正ルールとして修正ルール記憶装置20に記憶される。また、ルール結合装置60が検出した修正ルールによっても未知語が解決しない場合、再帰的にさらに他の修正ルールを検出してラベル付与装置30による処理を行わせるようにしても良い。   The correction rule selection unit 61 detects the correction rule detected as the correction rule to be applied by applying the correction rule “i → i” to the unknown word “hid” by the label assignment device 30. ”Is further applied to the label applying device 30. As a result, the correction rule selection unit 61, based on the word newly assigned with the label to the label attaching device 30, creates a new correction rule “... Is generated, and is stored in the correction rule storage device 20. Here, the correction rule generated by the rule combining device 60 is a very specific sentence, but is stored in the correction rule storage device 20 as a correction rule having a shorter appropriate length by the processing of the rule generalization device 70 described later. Is done. Further, when the unknown word is not resolved even by the correction rule detected by the rule combining device 60, another correction rule may be detected recursively and the process performed by the label applying device 30 may be performed.

ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールの汎用化処理を行う。修正ルールの汎用化処理では、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、第1の語と第2の語が共通する1文字以上のプレフィックスまたはサフィックスを持つ修正ルールを検出し、共通するプレフィックスまたはサフィックスの語を削除した第1の語と第2の語とを組み合わせた修正ルールを生成し、修正ルール記憶装置20に記憶させる。   The rule generalization device 70 performs a generalization process of the correction rules stored in the correction rule storage device 20. In the modification rule generalization process, the rule generalization apparatus 70 has a prefix or suffix of one or more characters in which the first word and the second word are common among the modification rules stored in the modification rule storage device 20. The correction rule is detected, a correction rule is generated by combining the first word and the second word from which the common prefix or suffix word is deleted, and is stored in the correction rule storage device 20.

例えば、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルール「X→Y」が、「wxu→wyu」(但し、w、x、y、uはそれぞれ1文字以上の文字(列))として表現できるとき、修正ルール「x→y」を新たに生成して修正ルール記憶装置20に記憶させる。具体的には、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルール「正しぃのヵゎ知らない→正しいのかは知らない」について、プレフィックス「正し」とサフィックス「知らない」とを削除して、修正ルール「ぃのヵゎ→いのかは」を生成し、修正ルール記憶装置20に記憶させる。また修正ルール記憶装置20に記憶された修正ルール「困っちゃぅょぉ〜→困ってしまうよ」について、サフィックス「困っ」を削除して、修正ルール「ちゃぅょぉ〜→てしまうよ」を生成して修正ルール記憶装置20に記憶させる。   For example, in the rule generalization device 70, the correction rule “X → Y” stored in the correction rule storage device 20 is “wxu → wyu” (where w, x, y, u are each one or more characters ( Column)), a correction rule “x → y” is newly generated and stored in the correction rule storage device 20. Specifically, the rule generalization device 70 uses the prefix “correct” and the suffix “I don't know” for the correction rule “I don't know if it is correct → I don't know if it is correct” stored in the correction rule storage device 20. ”Is deleted, and a correction rule“ Inokam → Inokaha ”is generated and stored in the correction rule storage device 20. In addition, for the correction rule “Troublesome ぉ ~ → I'm in trouble” stored in the correction rule storage device 20, the suffix “Troublesome” is deleted and the correction rule “Chayo ぅ ~ →" It is generated and stored in the correction rule storage device 20.

ここで、ルール汎用化装置70によって汎用化処理の対象となる修正ルールは、ルール結合装置60または能動学習装置80により生成され修正ルール記憶装置20に記憶された修正ルールのみに適用するようにしても良い。また、正解判定システム1は、このように得られた修正ルールに対して、さらにルール特殊化装置50によって特殊化処理を行ったり、ルール結合装置60によって結合処理を行ったりすることで、新たなルールを生成するようにしても良い。   Here, the correction rule to be generalized by the rule generalization device 70 is applied only to the correction rule generated by the rule combining device 60 or the active learning device 80 and stored in the correction rule storage device 20. Also good. In addition, the correct answer determination system 1 further performs specialization processing on the modified rule obtained in this way by the rule specializing device 50 or combining processing by the rule combining device 60, thereby creating a new one. A rule may be generated.

能動学習装置80は、ルール特殊化装置50、ルール結合装置60、ルール汎用化装置70によって新たな修正ルールが生成できず、ラベル付与装置30により付与されるラベルが「△」である未知語を置換する語の入力を受付け、未知語を第1の語とし、入力された語を第2の語とする修正ルールを生成して修正ルール記憶装置20に記憶させる。能動学習装置80は、優先度決定部81を備えており、入力端末89に接続される。   The active learning device 80 cannot generate a new correction rule by the rule specializing device 50, the rule combining device 60, and the rule generalizing device 70, and can detect an unknown word whose label given by the label assigning device 30 is “Δ”. An input of a word to be replaced is accepted, a correction rule having the unknown word as the first word and the input word as the second word is generated and stored in the correction rule storage device 20. The active learning device 80 includes a priority determination unit 81 and is connected to the input terminal 89.

優先度決定部81は、ラベル判定部35によってラベル「△」が付与された原文の語について、原文中における出現回数をカウントし、ラベル「△」が付与された原文の語を出現頻度の降順にソートする。能動学習装置80は、優先度決定部81によって降順にソートされた原文の語のうち、予め定められた上位N個(Nは任意の数)の語を、入力端末89に出力する。   The priority determination unit 81 counts the number of appearances in the original sentence with respect to the original word to which the label “Δ” is given by the label determination unit 35, and descends the appearance frequency of the original word to which the label “Δ” is given. Sort into. The active learning device 80 outputs, to the input terminal 89, the predetermined top N words (N is an arbitrary number) among the original words sorted in descending order by the priority determination unit 81.

入力端末89は、制御部、演算部、表示部(ディスプレイ)、入力部(キーボード)などを備えるコンピュータ端末であり、能動学習装置80から入力された語を第1の語として表示部に表示させる。また、入力端末89は、表示部に表示させた第1の語を置換する第2の語の入力を受け付け、入力された第2の語を能動学習装置80に送信する。能動学習装置80は、入力端末89に送信した第1の語と、これに対応して入力端末89から送信された第2の語とを対応付けた修正ルールを生成し、修正ルール記憶装置20に記憶させる。   The input terminal 89 is a computer terminal including a control unit, a calculation unit, a display unit (display), an input unit (keyboard), and the like, and causes the display unit to display a word input from the active learning device 80 as a first word. . In addition, the input terminal 89 receives an input of a second word that replaces the first word displayed on the display unit, and transmits the input second word to the active learning device 80. The active learning device 80 generates a correction rule in which the first word transmitted to the input terminal 89 is associated with the second word transmitted from the input terminal 89 corresponding thereto, and the correction rule storage device 20 Remember me.

次に、図3から図8を参照して、正解判定システム1が備える各部の動作例について説明する。
図3は、ラベル付与装置30の動作例を示す図である。適用文抽出部31は、テキストコーパス記憶装置10から解析対象となる文章情報を読み出し(ステップS1)、修正ルール記憶装置20から修正ルールを読み出す(ステップS2)。適用文抽出部31は、解析対象の文章情報から、修正ルールを適用可能な適用前文を抽出し、形態素解析部34に入力する(ステップS3、S4)。また、適用文抽出部31は、適用前文と修正ルールとを修正ルール適用部32に入力する(ステップS5)。
Next, with reference to FIGS. 3 to 8, an example of the operation of each unit included in the correct answer determination system 1 will be described.
FIG. 3 is a diagram illustrating an operation example of the label applying device 30. The applied sentence extraction unit 31 reads the sentence information to be analyzed from the text corpus storage device 10 (step S1), and reads the correction rule from the correction rule storage device 20 (step S2). The applied sentence extraction unit 31 extracts a pre-application sentence to which the correction rule can be applied from the sentence information to be analyzed, and inputs it to the morpheme analysis unit 34 (steps S3 and S4). Further, the application sentence extraction unit 31 inputs the pre-application sentence and the correction rule to the correction rule application unit 32 (step S5).

修正ルール適用部32は、適用文抽出部31から入力された適用前文に、修正ルールを適用し、適用後文を生成して形態素解析部34に入力する(ステップS6、S7)。形態素解析部34は、適用文抽出部31から入力された適用前文と、修正ルール適用部32から入力された適用後文とのそれぞれについて形態素解析を行う。形態素解析部34は、適用前文に対する形態素解析の結果を、ラベル判定部35に入力する(ステップS8、S9)。また、形態素解析部34は、適用後文に対する形態素解析の結果を、ラベル判定部35に入力する(ステップS10、S11)。ラベル判定部35は、形態素解析部34から入力された適用前文の解析結果と、適用後文の解析結果とに含まれる語のそれぞれを比較してラベル判定を行い、ラベルを付与した適用前文の語と適用後の文との組み合わせであるラベル付与文を出力する(ステップS12)。ここで、ステップS4とステップS5において形態素解析部34に入力される適用前文と適用後文とは、解析対象の文章情報と、解析対象の文章情報に含まれる語のうちいずれかの語がユーザにより他の語に置換された文章情報であることとしても良い。   The correction rule application unit 32 applies the correction rule to the pre-application sentence input from the application sentence extraction unit 31, generates a post-application sentence, and inputs it to the morpheme analysis unit 34 (steps S6 and S7). The morpheme analysis unit 34 performs morpheme analysis on each of the pre-application sentence input from the application sentence extraction unit 31 and the post-application sentence input from the correction rule application unit 32. The morpheme analyzer 34 inputs the result of the morpheme analysis for the pre-application sentence to the label determination unit 35 (steps S8 and S9). Further, the morpheme analysis unit 34 inputs the result of the morpheme analysis on the post-application sentence to the label determination unit 35 (steps S10 and S11). The label determination unit 35 performs label determination by comparing each of the words included in the analysis result of the pre-application sentence input from the morpheme analysis unit 34 and the analysis result of the post-application sentence. A label-added sentence that is a combination of the word and the sentence after application is output (step S12). Here, the pre-application sentence and the post-application sentence input to the morphological analysis unit 34 in step S4 and step S5 are the sentence information to be analyzed and any one of the words included in the sentence information to be analyzed is a user. The sentence information may be replaced with another word.

図4は、スコアリング装置40の動作例を示す図である。スコアリング部41は、ラベル判定部35によってラベルが付与されたラベル付与文と、修正ルール記憶装置20に記憶されたスコアが算出されていない修正ルールとを入力として(ステップS22、S23)、修正ルールごとにスコアを算出し、修正ルール登録部42に入力する(ステップS23、S24)。修正ルール登録部42は、スコアリング部41によって算出されたスコアに基づいて、適用前文と適用後文との組み合わせを修正ルール記憶装置20に記憶させる(ステップS25)。   FIG. 4 is a diagram illustrating an operation example of the scoring device 40. The scoring unit 41 receives as input the label-added sentence to which the label is given by the label determination unit 35 and the correction rule for which the score stored in the correction rule storage device 20 is not calculated (steps S22 and S23). A score is calculated for each rule and input to the correction rule registration unit 42 (steps S23 and S24). Based on the score calculated by the scoring unit 41, the correction rule registration unit 42 stores the combination of the pre-application sentence and the post-application sentence in the correction rule storage device 20 (step S25).

図5は、ルール特殊化装置50の動作例を示す図である。ルール特殊化装置50は、ラベル判定部35によってラベルが付与されたラベル付与文を入力として(ステップS31)、ラベル付与文中の語に隣接する語を連結した語を生成した修正ルールを生成して、スコアリング装置40に入力する(ステップS32、ステップS33)。スコアリング装置40は、入力された修正ルールについてスコアを算出し、定められた閾値を超えるスコアが算出された修正ルールを修正ルール記憶装置20に記憶させる(ステップS34)。   FIG. 5 is a diagram illustrating an operation example of the rule specializing device 50. The rule specializing apparatus 50 receives the label-added sentence to which the label is given by the label determination unit 35 as an input (step S31), and generates a correction rule that generates a word concatenated words adjacent to the word in the label-added sentence. Are input to the scoring device 40 (steps S32 and S33). The scoring device 40 calculates a score for the input correction rule, and stores the correction rule for which the score exceeding the predetermined threshold is calculated in the correction rule storage device 20 (step S34).

図6は、ルール結合装置60の動作例を示す図である。ルール結合装置60の修正ルール選択部61は、ラベル付与装置30によってラベルが付与されたラベル付与文を入力として(ステップS41)、ラベルが「△」である語の組み合わせを抽出し、修正対象文としてラベル付与装置30に入力する(ステップS44、S45)。また、修正ルール選択部61は、修正ルール記憶装置20から、ラベルが「△」である語の組み合わせに対して適用する修正ルールを修正ルール記憶装置20から読み出し(ステップS42)、ラベル付与装置30に入力する(ステップS43)。ラベル付与装置30は、修正ルール選択部61から入力された修正対象文について、修正ルール選択部61から入力された修正ルールを適用してラベル付与文を生成し、ルール結合装置60に入力する(ステップS46、S47)。ルール結合装置60の修正ルール結合部62は、入力されたラベル付与文に基づいて修正ルールを結合し、修正ルール記憶装置20に記憶された原文の対応箇所と対応付けて(ステップS48)、修正ルール記憶装置20に記憶させる(ステップS49)。   FIG. 6 is a diagram illustrating an operation example of the rule combining device 60. The correction rule selection unit 61 of the rule combining device 60 receives the label-added sentence to which the label is attached by the label attaching apparatus 30 as an input (step S41), extracts a combination of words whose label is “Δ”, and corrects the sentence to be corrected To the label applying device 30 (steps S44 and S45). In addition, the correction rule selection unit 61 reads from the correction rule storage device 20 a correction rule to be applied to the combination of words whose label is “Δ” from the correction rule storage device 20 (step S42). (Step S43). The labeling apparatus 30 generates a labeling sentence by applying the correction rule input from the correction rule selection unit 61 to the correction target sentence input from the correction rule selection unit 61 and inputs the sentence to the rule combining device 60 ( Steps S46 and S47). The correction rule combining unit 62 of the rule combining device 60 combines the correction rule based on the input label-added sentence, associates it with the corresponding portion of the original sentence stored in the correction rule storage device 20 (step S48), and corrects it. The data is stored in the rule storage device 20 (step S49).

図7は、ルール汎用化装置70の動作例を示す図である。ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールを読み出して(ステップS51)、ルールの汎用化処理を行って生成した修正ルールを修正ルール記憶装置20に記憶させる(ステップS52)。   FIG. 7 is a diagram illustrating an operation example of the rule generalization device 70. The rule generalization device 70 reads the correction rule stored in the correction rule storage device 20 (step S51), and stores the correction rule generated by performing the rule generalization processing in the correction rule storage device 20 (step S52). ).

図8は、能動学習装置80の動作例を示す図である。能動学習装置80の優先度決定部81は、ラベル判定部35によって未知語と判定された語の集合を入力として(ステップS61)、未知語を優先度順に並べ替え、定められた件数の未知語に対する質問項目を入力端末89に送信する(ステップS62、S62)。入力端末89は、優先度決定部81から送信された未知語を表示部に表示させると、ユーザは、入力端末89に未知語に対応する語を入力する。入力端末89は、ユーザから入力された語を能動学習装置80に送信する(ステップS64)。能動学習装置80は、入力端末89に送信した未知語と、これに応じて入力端末89から送信された語とを対応付けた修正ルールを生成、修正ルール記憶装置20に記憶させる(ステップS65)。   FIG. 8 is a diagram illustrating an operation example of the active learning device 80. The priority determination unit 81 of the active learning device 80 receives a set of words determined as unknown words by the label determination unit 35 (step S61), sorts the unknown words in order of priority, and determines the number of unknown words. Are sent to the input terminal 89 (steps S62 and S62). When the input terminal 89 displays the unknown word transmitted from the priority determination unit 81 on the display unit, the user inputs a word corresponding to the unknown word to the input terminal 89. The input terminal 89 transmits the word input from the user to the active learning device 80 (step S64). The active learning device 80 generates a correction rule that associates the unknown word transmitted to the input terminal 89 with the word transmitted from the input terminal 89 in response to this, and stores the correction rule in the correction rule storage device 20 (step S65). .

次に、図9を参照して、正解判定システム1の動作例を説明する。初期状態では、修正ルール記憶装置20に汎用的な修正ルールが予め記憶されている(ステップS71)。ここで、本実施形態の正解判定システム1は能動学習装置80を備えるため、初期状態の修正ルールは記憶されていないこととして能動学習装置80によりルールが入力されるようにしても良い。ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールを1つ読み出し、ラベル付与装置30に入力し、ラベル付与文を取得し、ルールの特殊化処理を行う(ステップS72)。   Next, an operation example of the correct answer determination system 1 will be described with reference to FIG. In the initial state, a general-purpose correction rule is stored in advance in the correction rule storage device 20 (step S71). Here, since the correct answer determination system 1 of the present embodiment includes the active learning device 80, the active learning device 80 may input a rule that the correction rule of the initial state is not stored. The rule specializing device 50 reads one correction rule stored in the correction rule storage device 20, inputs it to the label assigning device 30, obtains a label assignment sentence, and performs rule specialization processing (step S72).

ルール結合装置60は、ステップ73で取得されたラベル付与文のうち、ラベルが「△」である文に対して、修正ルール記憶装置20に記憶された他の修正ルールを適用してラベル付与装置30を動作させ、ラベルが「○」となった場合には、新たな修正ルールとして修正ルール記憶装置20に修正ルールを記憶させる(ステップS73)。ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールのうち、特殊化が必要な全ての修正ルールに対して特殊化処理と結合処理とが完了したか否かを判定する(ステップS74)。ルール特殊化装置50が、全ての修正ルールに対して処理を行っていないと判定すれば(ステップS74:NO)、ステップS72に戻る。ルール特殊化装置50が、全ての修正ルールに対して処理を行ったと判定すれば(ステップS74:YES)、ステップS75に進む。   The rule combining device 60 applies the other correction rule stored in the correction rule storage device 20 to the sentence with the label “Δ” among the label addition sentences acquired in step 73, and the label addition apparatus When the label is “◯”, the correction rule is stored in the correction rule storage device 20 as a new correction rule (step S73). The rule specializing device 50 determines whether the specialization processing and the combination processing have been completed for all the correction rules that need specialization among the correction rules stored in the correction rule storage device 20 ( Step S74). If the rule specializing apparatus 50 determines that processing has not been performed for all the correction rules (step S74: NO), the process returns to step S72. If the rule specializing apparatus 50 determines that processing has been performed for all the correction rules (step S74: YES), the process proceeds to step S75.

ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、修正ルールの登録種別を参照して、ルール結合装置60または優先度決定部81により生成され記憶された修正ルールについて汎用化処理を行う(ステップS75)。このとき、修正ルール記憶装置20に初期状態から予め記憶されている修正ルールについては汎用化処理を行わない。ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、汎用化が必要な修正ルールの全てについて汎用化処理を行ったか否かを判定する(ステップS76)。ルール汎用化装置70は、全ての修正ルールについて汎用化処理を行っていなければ、ステップS75に戻る(ステップS76:NO)。ルール汎用化装置70は、全ての修正ルールについて汎用化処理を行っていれば、ステップS77に進む(ステップS76:YES)   The rule generalization device 70 refers to the correction rule registration type of the correction rules stored in the correction rule storage device 20, and the correction rule generated and stored by the rule combining device 60 or the priority determination unit 81. A generalization process is performed (step S75). At this time, the generalization process is not performed for the correction rules stored in advance in the correction rule storage device 20 from the initial state. The rule generalization device 70 determines whether or not generalization processing has been performed for all of the correction rules that need to be generalized among the correction rules stored in the correction rule storage device 20 (step S76). The rule generalization device 70 returns to step S75 if the generalization processing is not performed for all the correction rules (step S76: NO). The rule generalization device 70 proceeds to step S77 if the generalization processing is performed for all the correction rules (step S76: YES).

ルール特殊化装置50は、ステップS71からステップS76において、新たな修正ルールが修正ルール記憶装置20に記憶されていれば、再度ステップS72の処理を行う(ステップS77:YES)。修正ルール記憶装置20に新たな修正ルールが記憶されていなければ(ステップS77:NO)、能動学習装置80は、入力端末89に質問を行って能動学習の処理を行い、ユーザから入力された情報に基づいて修正ルールを生成し、修正ルール記憶装置20に記憶させる(ステップS78)。ステップS78において、新たな修正ルールが修正ルール記憶装置20に記憶されれば(ステップS79:YES)、ステップS75に戻り、ルール汎用化装置70による汎用化処理を行う。ステップS78において、新たな修正ルールが修正ルール記憶装置20に記憶されていなければ(ステップS79:NO)、正解判定システム1は、処理を終了する。このように、ステップS72からステップS74、およびステップS75からステップS79を繰り返し実行することで、修正ルールの精度を上げ、また様々な修正ルールを生成することが可能である。   If a new correction rule is stored in the correction rule storage device 20 from step S71 to step S76, the rule specializing apparatus 50 performs the process of step S72 again (step S77: YES). If a new correction rule is not stored in the correction rule storage device 20 (step S77: NO), the active learning device 80 asks the input terminal 89 to perform active learning processing, and information input by the user Based on the above, a correction rule is generated and stored in the correction rule storage device 20 (step S78). If a new correction rule is stored in the correction rule storage device 20 in step S78 (step S79: YES), the process returns to step S75, and generalization processing by the rule generalization device 70 is performed. In step S78, if a new correction rule is not stored in the correction rule storage device 20 (step S79: NO), the correct answer determination system 1 ends the process. As described above, by repeatedly executing Step S72 to Step S74 and Step S75 to Step S79, it is possible to increase the accuracy of the correction rule and generate various correction rules.

以上説明したように、本発明によれば、正解判定システム1は、修正ルールの特殊化、結合、汎用化、能動学習の処理を行うことにより、多用な修正ルールを生成して修正ルール記憶装置20に記憶させることが可能である。   As described above, according to the present invention, the correct answer determination system 1 generates various correction rules by performing correction rule specialization, combination, generalization, and active learning processing, and the correction rule storage device. 20 can be stored.

なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりラベル判定や修正ルールの生成の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。   It should be noted that a program for realizing the function of the processing unit in the present invention is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed, whereby label determination and correction are performed. A rule generation process may be performed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer system” includes a WWW system provided with a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in the computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

1 正解判定システム
10 テキストコーパス記憶装置
20 修正ルール記憶装置
30 ラベル付与装置
31 適用文抽出部
32 修正ルール適用部
33 既知語記憶部
34 形態素解析部
35 ラベル判定部
40 スコアリング装置
41 スコアリング部
42 修正ルール登録部
50 ルール特殊化装置
60 ルール結合装置
61 修正ルール選択部
62 修正ルール結合部
70 ルール汎用化装置
80 能動学習装置
81 優先度決定部
89 入力端末
DESCRIPTION OF SYMBOLS 1 Correct answer determination system 10 Text corpus storage device 20 Correction rule storage device 30 Label giving device 31 Applicable sentence extraction unit 32 Correction rule application unit 33 Known word storage unit 34 Morphological analysis unit 35 Label determination unit 40 Scoring device 41 Scoring unit 42 Correction rule registration unit 50 Rule specialization device 60 Rule combination device 61 Correction rule selection unit 62 Correction rule combination unit 70 Rule generalization device 80 Active learning device 81 Priority determination unit 89 Input terminal

Claims (10)

既知の語であることが予め定められた既知語が記憶される既知語記憶部と、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文書情報とを複数の語に分割する解析部と、
前記解析部が分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、
前記正解判定部の判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該第1の文章情報に基づく語に対応する前記第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、
を備えることを特徴とする正解判定装置。
A known word storage unit that stores known words that are predetermined as known words;
Input of first sentence information composed of a plurality of words and second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. An analysis unit that divides the received first sentence information and the second document information into a plurality of words;
The word divided by the analysis unit is compared with the known word stored in the known word storage unit, and if it is stored in the known word storage unit, it is determined as a known word, and the known word storage A correct answer determination unit that determines an unknown word if not stored in the unit;
Based on the determination result of the correct answer determination unit, the word based on the first sentence information is an unknown word, and the word based on the second sentence information corresponding to the word based on the first sentence information is a known word. A detection unit for detecting a combination of words,
A correct answer determination apparatus comprising:
前記第1の文章情報が記憶される解析対象情報記憶部と、
前記第1の文章情報に含まれる複数の語のうち修正対象となる第1の語と、当該第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶部と、
前記第1の文章情報に含まれる前記第1の語を抽出し、抽出した第1の語を前記第2の語に置換した第2の文章情報を生成する修正処理を行い、当該第1の文章情報と当該第2の文章情報とを前記解析部に入力する修正ルール適用部と、
をさらに備えることを特徴とする請求項1に記載の正解判定装置。
An analysis object information storage unit for storing the first sentence information;
A correction rule in which a correction rule in which a first word to be corrected among a plurality of words included in the first sentence information is associated with a second word that replaces the first word is stored. A storage unit;
The first word included in the first sentence information is extracted, a correction process is performed to generate second sentence information in which the extracted first word is replaced with the second word, and the first word A correction rule application unit that inputs sentence information and the second sentence information to the analysis unit;
The correct answer determination apparatus according to claim 1, further comprising:
前記検出部が検出した前記語の組み合わせのうち、前記第1の文章情報に基づく語を前記第1の語とし、検出した前記第2の文章情報に基づく語を前記第2の語として対応付けた前記修正ルールを生成して前記修正ルール記憶部にさせる修正ルール登録部と、
をさらに備えることを特徴とする請求項2に記載の正解判定装置。
Of the combinations of words detected by the detection unit, the word based on the first sentence information is set as the first word, and the word based on the detected second sentence information is associated as the second word. A correction rule registration unit that generates the correction rule and causes the correction rule storage unit to generate the correction rule;
The correct answer determination apparatus according to claim 2, further comprising:
前記修正ルール登録部は、前記検出部が検出した前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語とを、より短い文字数の語に分割した語を対応付けた修正ルールを生成して前記修正ルール記憶部にさせる
ことを特徴とする請求項3に記載の正解判定装置。
The correction rule registration unit is a correction in which a word obtained by dividing a word based on the first sentence information detected by the detection unit and a word based on the second sentence information into words having a shorter number of characters is associated. The correct answer determination apparatus according to claim 3, wherein a rule is generated and is used in the correction rule storage unit.
前記修正ルール登録部は、前記検出部が検出した前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語とに、それぞれの文章中で隣接する他の語を連結して対応付けた修正ルールを生成して前記修正ルール記憶部にさせる
ことを特徴とする請求項3または請求項4に記載の正解判定装置。
The correction rule registration unit is configured to connect a word based on the first sentence information detected by the detection unit and a word based on the second sentence information to another word adjacent to each other in each sentence. The correct answer determination apparatus according to claim 3 or 4, wherein the associated correction rule is generated and stored in the correction rule storage unit.
前記修正ルール適用部は、前記正解判定部によって、前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語との双方が未知語であると判定された場合、前記修正ルールに記憶された他の修正ルールに基づいて再度の修正処理を行い、
前記修正ルール登録部は、前記修正ルール適用部によって行われた再度の修正処理の処理結果に基づいて前記検出部が検出した前記第1の文章情報に基づく語を前記第1の語とし、検出した前記第2の文章情報に基づく語を前記第2の語として対応付けた前記修正ルールを生成して前記修正ルール記憶部にさせる
ことを特徴とする請求項3から請求項5までのいずれか1項に記載の正解判定装置。
The correction rule application unit, when the correct answer determination unit determines that both the word based on the first sentence information and the word based on the second sentence information are unknown words, the correction rule Perform another correction process based on the other correction rules stored in
The correction rule registration unit detects a word based on the first sentence information detected by the detection unit based on a processing result of a second correction process performed by the correction rule application unit as the first word, and detects the first word. 6. The correction rule storing the word based on the second sentence information as the second word and generating the correction rule to cause the correction rule storage unit to generate the correction rule. The correct answer determination apparatus according to item 1.
前記正解判定部によって、前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語との双方が未知語であると判定された場合、前記第1の語に対応する前記第2の語の入力を受付ける入力部をさらに備え、
前記修正ルール登録部は、前記検出部が検出した前記第1の文章情報に基づく語を前記第1の語とし、前記修正後入力部に入力された語を前記第2の語として対応付けた前記修正ルールを生成して前記修正ルール記憶部にさせる
ことを特徴とする請求項3から請求項6までのいずれか1項に記載の正解判定装置。
When the correct answer determination unit determines that both the word based on the first sentence information and the word based on the second sentence information are unknown words, the first word corresponding to the first word An input unit that accepts input of two words;
The correction rule registration unit associates a word based on the first sentence information detected by the detection unit as the first word, and associates a word input to the post-correction input unit as the second word. The correct answer determination apparatus according to any one of claims 3 to 6, wherein the correction rule is generated and stored in the correction rule storage unit.
複数の語から構成される第1の文章情報が記憶される解析対象情報記憶装置と、
修正対象となる第1の語と、当該第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶装置と、
既知の語であることが予め定められた既知語が記憶される既知語記憶部と、
前記第1の文章情報に含まれる前記第1の語を抽出し、抽出した第1の語を前記第2の語に置換した第2の文章情報を生成する修正処理を行う修正ルール適用部と、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文書情報とを複数の語に分割する解析部と、
前記解析部が分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、
前記正解判定部の判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該第1の文章情報に基づく語に対応する前記第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備える正解判定装置と、
前記正解判定装置の前記検出部による検出結果に基づいて前記修正ルールを生成し、前記修正ルール記憶装置に記憶させる修正ルール登録装置と、
を備えることを特徴とする正解判定システム。
An analysis target information storage device in which first sentence information composed of a plurality of words is stored;
A correction rule storage device that stores a correction rule in which a first word to be corrected and a second word that replaces the first word are associated;
A known word storage unit for storing known words that are predetermined as known words;
A correction rule applying unit that performs a correction process for generating the second sentence information by extracting the first word included in the first sentence information and replacing the extracted first word with the second word; ,
Input of first sentence information composed of a plurality of words and second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. An analysis unit that divides the received first sentence information and the second document information into a plurality of words;
The word divided by the analysis unit is compared with the known word stored in the known word storage unit, and if it is stored in the known word storage unit, it is determined as a known word, and the known word storage A correct answer determination unit that determines an unknown word if not stored in the unit;
Based on the determination result of the correct answer determination unit, the word based on the first sentence information is an unknown word, and the word based on the second sentence information corresponding to the word based on the first sentence information is a known word. A correctness determination device comprising: a detection unit that detects a combination of words that is:
A correction rule registration device that generates the correction rule based on a detection result by the detection unit of the correct answer determination device and stores the correction rule in the correction rule storage device;
A correct answer determination system comprising:
既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置の正解判定方法であって、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文書情報とを複数の語に分割するステップと、
分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定するステップと、
判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該第1の文章情報に基づく語に対応する前記第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、
を備えることを特徴とする正解判定方法。
A correct answer determination method of a correct answer determination apparatus including a known word storage unit that stores a known word that is predetermined as a known word,
Input of first sentence information composed of a plurality of words and second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. Dividing the received first sentence information and the second document information into a plurality of words;
The divided word is compared with the known word stored in the known word storage unit, and if it is stored in the known word storage unit, it is determined as a known word and stored in the known word storage unit. A step of determining that it is an unknown word if not,
Based on the determination result, the word based on the first sentence information is an unknown word, and the word combination based on the second sentence information corresponding to the word based on the first sentence information is a combination of words Detecting steps,
A correct answer determination method comprising:
既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置のコンピュータに、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文書情報とを複数の語に分割するステップと、
分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定するステップと、
判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該第1の文章情報に基づく語に対応する前記第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、
を実行させる正解判定プログラム。
In a computer of a correct answer determination apparatus including a known word storage unit that stores a known word that is predetermined as a known word,
Input of first sentence information composed of a plurality of words and second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. Dividing the received first sentence information and the second document information into a plurality of words;
The divided word is compared with the known word stored in the known word storage unit, and if it is stored in the known word storage unit, it is determined as a known word and stored in the known word storage unit. A step of determining that it is an unknown word if not,
Based on the determination result, the word based on the first sentence information is an unknown word, and the word combination based on the second sentence information corresponding to the word based on the first sentence information is a combination of words Detecting steps,
The correct answer judgment program that executes
JP2009004949A 2009-01-13 2009-01-13 Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program Expired - Fee Related JP5436868B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009004949A JP5436868B2 (en) 2009-01-13 2009-01-13 Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009004949A JP5436868B2 (en) 2009-01-13 2009-01-13 Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program

Publications (2)

Publication Number Publication Date
JP2010165041A true JP2010165041A (en) 2010-07-29
JP5436868B2 JP5436868B2 (en) 2014-03-05

Family

ID=42581170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009004949A Expired - Fee Related JP5436868B2 (en) 2009-01-13 2009-01-13 Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program

Country Status (1)

Country Link
JP (1) JP5436868B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915335A (en) * 2015-06-12 2015-09-16 百度在线网络技术(北京)有限公司 Method for generating abstracts for subject document sets and device
JP2016538666A (en) * 2013-10-02 2016-12-08 シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. Alignment corpus generation device and method based on autonomous learning alignment, morphological analysis device for disruptive expression using alignment corpus, and morphological analysis method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134335A (en) * 1997-10-30 1999-05-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Character error calibrating device
JP2006235916A (en) * 2005-02-24 2006-09-07 Mitsubishi Electric Corp Text analysis device, text analysis method and speech synthesizer
JP2008299675A (en) * 2007-05-31 2008-12-11 Yahoo Japan Corp Kana mixture notation extracting device, method and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134335A (en) * 1997-10-30 1999-05-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Character error calibrating device
JP2006235916A (en) * 2005-02-24 2006-09-07 Mitsubishi Electric Corp Text analysis device, text analysis method and speech synthesizer
JP2008299675A (en) * 2007-05-31 2008-12-11 Yahoo Japan Corp Kana mixture notation extracting device, method and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016538666A (en) * 2013-10-02 2016-12-08 シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. Alignment corpus generation device and method based on autonomous learning alignment, morphological analysis device for disruptive expression using alignment corpus, and morphological analysis method thereof
US10282413B2 (en) 2013-10-02 2019-05-07 Systran International Co., Ltd. Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof
CN104915335A (en) * 2015-06-12 2015-09-16 百度在线网络技术(北京)有限公司 Method for generating abstracts for subject document sets and device
CN104915335B (en) * 2015-06-12 2018-03-16 百度在线网络技术(北京)有限公司 The method and apparatus of the document sets that are the theme generation summary

Also Published As

Publication number Publication date
JP5436868B2 (en) 2014-03-05

Similar Documents

Publication Publication Date Title
US11113234B2 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
US7269544B2 (en) System and method for identifying special word usage in a document
US9524291B2 (en) Visual display of semantic information
US8612206B2 (en) Transliterating semitic languages including diacritics
CN1618064B (en) Translating method and computer device
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN104915264A (en) Input error-correction method and device
KR20100052461A (en) Word probability determination
CN111401033A (en) Event extraction method, event extraction device and electronic equipment
KR20100047221A (en) Dictionary word and phrase determination
JP3921523B2 (en) Text generation method and text generation apparatus
JP2010181993A (en) Evaluation analysis server, method, and program for evaluating text file containing pictorial symbol
CN101308512B (en) Mutual translation pair extraction method and device based on web page
CN112380337A (en) Highlight method and device based on rich text
JPH10326275A (en) Method and device for morpheme analysis and method and device for japanese morpheme analysis
JP5436868B2 (en) Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program
KR102422923B1 (en) Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus
JP2011039576A (en) Specific information detecting device, specific information detecting method, and specific information detecting program
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system
Lyon et al. Reducing the Complexity of Parsing by a Method of Decomposition.
CN114490976B (en) Method, device, equipment and storage medium for generating dialogue abstract training data
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP2002334076A (en) Method for processing text
JP5337575B2 (en) Candidate word extraction device, candidate word extraction method, and candidate word extraction program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131101

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131211

R150 Certificate of patent or registration of utility model

Ref document number: 5436868

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees