JP2010165041A - Correct answer determining apparatus, correct answer determining system, correct answer determining method, and correct answer determining program - Google Patents
Correct answer determining apparatus, correct answer determining system, correct answer determining method, and correct answer determining program Download PDFInfo
- Publication number
- JP2010165041A JP2010165041A JP2009004949A JP2009004949A JP2010165041A JP 2010165041 A JP2010165041 A JP 2010165041A JP 2009004949 A JP2009004949 A JP 2009004949A JP 2009004949 A JP2009004949 A JP 2009004949A JP 2010165041 A JP2010165041 A JP 2010165041A
- Authority
- JP
- Japan
- Prior art keywords
- word
- correction rule
- unit
- sentence information
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、電子文書に含まれる文章の語を既知語に変換するための正解判定装置、正解判定システム、正解判定方法および正解判定プログラムに関する。 The present invention relates to a correct answer determination apparatus, a correct answer determination system, a correct answer determination method, and a correct answer determination program for converting a word of a sentence included in an electronic document into a known word.
従来、インターネット上に公開されるブログなどのテキストベースの文章情報を解析対象(テキストコーパス)として、文章を構成する最小単位である形態素に分割して解析する形態素解析装置が利用されている。このような形態素解析装置は、例えば、予め定められた単語(既知語)とその単語の品詞とを対応付けた辞書情報を予め記憶する。そして、解析対象とする文章情報を読み込んで文章を構成する単語を抽出し、抽出した単語のそれぞれと、予め記憶された辞書情報に含まれる単語とを比較する。形態素解析装置は、辞書情報に含まれる単語やその品詞の接続関係などに基づいて、解析対象の文章情報に含まれる語と他の語との境界を判別して文章を形態素に分割する。 2. Description of the Related Art Conventionally, morpheme analyzers that analyze text-based sentence information such as blogs published on the Internet as analysis objects (text corpus) and divide them into morphemes that are the smallest units constituting sentences have been used. For example, such a morphological analyzer stores in advance dictionary information in which a predetermined word (known word) and a part of speech of the word are associated with each other. Then, the sentence information to be analyzed is read to extract words constituting the sentence, and each of the extracted words is compared with words included in dictionary information stored in advance. The morphological analysis device discriminates a boundary between a word included in the sentence information to be analyzed and another word based on a word included in the dictionary information and a connection relationship between the parts of speech, and divides the sentence into morphemes.
ここで、形態素解析を行う文章情報を解析する基準となる辞書情報に含まれる単語には、文語体で表された単語が用いられる場合が多い。このため、インターネット上に公開されるブログやニュース、電子掲示板サービスなど独特の文章表現による未知語が含まれる文章情報を解析対象とする場合、辞書情報から対応する語を検出することができず適切な形態素の分割を行うことができない場合がある。
そこで、特許文献1には、解析対象の文章情報に応じた口語特有の言い回しをユーザが辞書登録し、登録された言い回しに基づいて形態素解析を行う技術が提案されている。ここでは、解析対象の文章情報に含まれる単語のうち、通常はひらがな表記される語が意図的にカタカナ表記にされているような強調表現を、定められた修正ルールに基づいて検出し、通常の表記に修正してから形態素解析が行われる。特許文献2には、解析対象となる文章中でのある文字列の前後の文字列の確率分布を算出し、同一品詞に属する単語の確率分布は類似するという仮定に基づいて品詞推定を行う技術が提案されている。
Here, in many cases, a word expressed in a sentence form is used as a word included in dictionary information serving as a reference for analyzing text information for morphological analysis. For this reason, if you want to analyze text information that contains unknown words with unique text expressions such as blogs and news published on the Internet, and electronic bulletin board services, the corresponding words cannot be detected from the dictionary information. Morpheme division may not be possible.
Therefore,
しかしながら、特許文献1のように、ユーザから入力される口語特有の語を用いて形態素解析を行う場合、ユーザが口語特有のあらゆる語を入力するのは困難であるとともに、単語を入力するユーザの経験や好みなどによって解析にバラツキが生じ、汎用的な形態素解析を行うことはできない。また、特許文献2のように、確率分布に基づいて品詞の推定を行う技術は、専門用語や新語の習得には有用であるが、独特の表現が不規則に現れるブログ等の文章解析には適していない。
However, when performing morphological analysis using words specific to colloquial input from the user as in
本発明は、このような状況に鑑みてなされたもので、文章情報に含まれる未知語を既知語に置換する有用な語の組み合わせを判定する正解判定装置、正解判定システム、正解判定方法および正解判定プログラムを提供する。 The present invention has been made in view of such circumstances, and a correct answer determination apparatus, a correct answer determination system, a correct answer determination method, and a correct answer for determining a combination of useful words that replace unknown words included in sentence information with known words. A judgment program is provided.
上述した課題を解決するために、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部と、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割する解析部と、解析部が分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、正解判定部の判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備えることを特徴とする。 In order to solve the above-described problem, the present invention provides a known word storage unit that stores a known word that is predetermined as a known word, first sentence information that includes a plurality of words, The input of the first document information and the second document information is received by receiving the input of the second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. Is divided into a plurality of words, and the words divided by the analysis unit are compared with the known words stored in the known word storage unit. The word based on the first sentence information is an unknown word based on the determination result of the correct answer determining unit that determines that there is an unknown word if it is not stored in the known word storage unit, and the correct answer determining unit A set of words in which the word based on the second text information corresponding to the word based on the first text information is a known word A detection unit for detecting a combined, characterized in that it comprises a.
また、本発明は、第1の文章情報が記憶される解析対象情報記憶部と、第1の文章情報に含まれる複数の語のうち修正対象となる第1の語と、第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶部と、第1の文章情報に含まれる第1の語を抽出し、抽出した第1の語を第2の語に置換した第2の文章情報を生成する修正処理を行い、第1の文章情報と第2の文章情報とを解析部に入力する修正ルール適用部と、をさらに備えることを特徴とする。 In addition, the present invention provides an analysis target information storage unit in which first sentence information is stored, a first word to be corrected among a plurality of words included in the first sentence information, and a first word. A correction rule storage unit that stores a correction rule associated with a second word to be replaced, a first word included in the first sentence information, and the extracted first word as a second A correction rule applying unit that performs correction processing for generating second sentence information replaced with words and inputs the first sentence information and the second sentence information to the analysis unit is further provided.
また、本発明は、検出部が検出した語の組み合わせのうち、第1の文章情報に基づく語を第1の語とし、検出した第2の文章情報に基づく語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせる修正ルール登録部と、をさらに備えることを特徴とする。 Further, the present invention associates a word based on the first sentence information as a first word and a word based on the detected second sentence information as a second word among the combinations of words detected by the detection unit. And a correction rule registration unit that generates the correction rule and causes the correction rule storage unit to generate the correction rule.
また、本発明は、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語と、第2の文章情報に基づく語とを、より短い文字数の語に分割した語を対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。 In the present invention, the correction rule registration unit associates a word obtained by dividing a word based on the first sentence information detected by the detection unit and a word based on the second sentence information into words having a shorter number of characters. The modified rule is generated and stored in the modified rule storage unit.
また、本発明は、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語と、第2の文章情報に基づく語とに、それぞれの文章中で隣接する他の語を連結して対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。 Further, according to the present invention, the correction rule registration unit concatenates a word based on the first text information detected by the detection unit and a word based on the second text information to another word adjacent to each other in each text. Then, the associated correction rule is generated and stored in the correction rule storage unit.
また、本発明は、修正ルール適用部は、正解判定部によって、第1の文章情報に基づく語と、第2の文章情報に基づく語との双方が未知語であると判定された場合、修正ルールに記憶された他の修正ルールに基づいて再度の修正処理を行い、修正ルール登録部は、修正ルール適用部によって行われた再度の修正処理の処理結果に基づいて検出部が検出した第1の文章情報に基づく語を第1の語とし、検出した第2の文章情報に基づく語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。 In the present invention, the correction rule application unit corrects the correction when the correct answer determination unit determines that both the word based on the first sentence information and the word based on the second sentence information are unknown words. The correction process is performed again based on another correction rule stored in the rule, and the correction rule registration unit detects the first detected by the detection unit based on the processing result of the correction process performed again by the correction rule application unit. A correction rule that associates a word based on the sentence information as the first word and a word based on the detected second sentence information as the second word is generated and stored in the correction rule storage unit.
また、本発明は、正解判定部によって、第1の文章情報に基づく語と、第2の文章情報に基づく語との双方が未知語であると判定された場合、第1の語に対応する第2の語の入力を受付ける入力部をさらに備え、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語を第1の語とし、修正後入力部に入力された語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。 Moreover, this invention respond | corresponds to a 1st word, when the correct answer determination part determines that both the word based on 1st text information and the word based on 2nd text information are unknown words. The correction rule registration unit further includes an input unit that receives an input of the second word, and the correction rule registration unit sets the word based on the first sentence information detected by the detection unit as the first word, and the word input to the input unit after correction A correction rule associated with the second word is generated and stored in the correction rule storage unit.
また、本発明は、複数の語から構成される第1の文章情報が記憶される解析対象情報記憶装置と、修正対象となる第1の語と、第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶装置と、既知の語であることが予め定められた既知語が記憶される既知語記憶部と、第1の文章情報に含まれる第1の語を抽出し、抽出した第1の語を第2の語に置換した第2の文章情報を生成する修正処理を行う修正ルール適用部と、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割する解析部と、解析部が分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、正解判定部の判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備える正解判定装置と、正解判定装置の検出部による検出結果に基づいて修正ルールを生成し、修正ルール記憶装置に記憶させる修正ルール登録装置と、を備えることを特徴とする正解判定システムである。 The present invention also provides an analysis object information storage device that stores first sentence information composed of a plurality of words, a first word to be corrected, and a second word that replaces the first word. Is stored in a correction rule storage device, a known word storage unit storing a known word that is predetermined as a known word, and a first sentence information included in the first sentence information. A first rule composed of a plurality of words and a correction rule applying unit that performs a correction process for generating second sentence information by extracting one word and replacing the extracted first word with a second word The information and the second document information in which any one of the plurality of words included in the first sentence information is replaced with another word are received, and the input first sentence information and second The document information is divided into a plurality of words, an analysis unit, a word divided by the analysis unit, and a known word storage unit A correct answer determination unit that determines that the stored word is a known word if it is stored in the known word storage unit, and that it is an unknown word if it is not stored in the known word storage unit; Based on the determination result of the determination unit, a combination of words in which the word based on the first sentence information is an unknown word and the word based on the second sentence information corresponding to the word based on the first sentence information is a known word And a correction rule registration device that generates a correction rule based on the detection result of the detection unit of the correct answer determination device and stores the correction rule in a correction rule storage device. Is a correct answer determination system.
また、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置の正解判定方法であって、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割するステップと、分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定するステップと、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、を備えたことを特徴とする。 In addition, the present invention is a correct answer determination method of a correct answer determination apparatus including a known word storage unit in which a known word that is predetermined as a known word is stored. The input of the sentence information and the second document information in which any one of the plurality of words included in the first sentence information is replaced with another word is received. Dividing the document information of 2 into a plurality of words, comparing the divided words with the known words stored in the known word storage unit, and if the words are stored in the known word storage unit, A step of determining that there is an unknown word if it is not stored in the known word storage unit, and based on the determination result, the word based on the first sentence information is an unknown word, and the first sentence information A combination of words in which the word based on the second sentence information corresponding to the word based on is a known word Detecting allowed, characterized by comprising a.
また、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置のコンピュータに、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割するステップと、分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定するステップと、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、を実行させる正解判定プログラムである。 In addition, the present invention provides a computer of a correct answer determination apparatus including a known word storage unit that stores a known word that is predetermined as a known word, first sentence information composed of a plurality of words, The input of the first document information and the second document information is received by receiving the input of the second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. Are divided into a plurality of words, and the divided words are compared with the known words stored in the known word storage unit, and determined to be known words if stored in the known word storage unit. The word based on the first sentence information is an unknown word based on the determination result based on the determination result if the word is not stored in the known word storage unit, and the word based on the first sentence information A combination of words whose words based on the corresponding second sentence information are known words Is correct determination program to be executed a step of leaving, the.
以上説明したように、本発明によれば、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報とを複数の語に分割し、解析部が分割した語と、予め記憶されている既知語とを比較して、予め記憶されていれば既知語であると判定し、予め記憶されていなければ未知語であると判定し、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するようにしたので、解析対象となる第1の文章情報に含まれる語が他の語に置換されたことにより未知語が既知語に置換されたことを検出でき、未知語が含まれる文章情報を既知語で構成される文章に置換するために有用な語を検出することが可能となる。 As described above, according to the present invention, any one of the first sentence information composed of a plurality of words and the plurality of words included in the first sentence information is replaced with another word. The second document information is divided into a plurality of words, the word divided by the analysis unit is compared with a known word stored in advance, and if it is stored in advance, it is determined as a known word, If it is not stored in advance, it is determined as an unknown word, and based on the determination result, the word based on the first text information is an unknown word, and the second text information corresponding to the word based on the first text information Since a combination of words whose known words are known words is detected, unknown words are replaced with known words by replacing words included in the first sentence information to be analyzed with other words. Text information containing unknown words is placed in a sentence composed of known words. It is possible to detect a useful word for.
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による正解判定システム1の構成を示すブロック図である。正解判定システム1は、テキストコーパス記憶装置10と、修正ルール記憶装置20と、ラベル付与装置30と、スコアリング部41と、ルール特殊化装置50と、ルール結合装置60と、ルール汎用化装置70と、能動学習装置80と、入力端末89とを備えている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a correct
テキストコーパス記憶装置10は、本装置による解析対象となる自然言語の文章情報が記憶されるコンピュータ装置である。文章情報は、例えば、インターネットを介して取得されるニュースサイトやブログ等のウェブコンテンツに含まれる文章情報である。テキストコーパス記憶装置10に記憶される文章情報は、複数の語、文から構成されており、口語的な表現、隠語、略語、俗語、若者言葉、スラングなどの様々な文章表現が含まれる。 The text corpus storage device 10 is a computer device that stores natural language text information to be analyzed by this device. The sentence information is, for example, sentence information included in web contents such as news sites and blogs acquired via the Internet. The sentence information stored in the text corpus storage device 10 is composed of a plurality of words and sentences, and includes various sentence expressions such as colloquial expressions, secret words, abbreviations, slang words, youth words, and slang.
修正ルール記憶装置20は、文章情報に含まれる複数の語のうち修正対象となる第1の語と、第1の語と同様の意味内容を有し、形態素解析部34により解析可能な文語による第2の語とが対応付けられた複数の修正ルールが記憶されるコンピュータ装置である。修正ルール記憶装置20には、初期状態において基本的ないくつかの修正ルールが予め記憶されている。例えば、修正ルールの例を「(第1の語)→(第2の語)」として表すと、「ちゃ→ては」、「ヵ→か」、「ゎ→は」、「ゎ→わ」などの修正ルールが予め記憶される。また、修正ルール記憶装置20には、スコアリング装置40、ルール特殊化装置50、ルール結合装置60、ルール汎用化装置70、能動学習装置80によって生成された新たな修正ルールが記憶される。
The correction
図2は、修正ルール記憶装置20に記憶される修正ルールのデータ例を示す図である。修正ルールには、登録種別、スコア、ラベルなどの情報が対応付けられて記憶される。登録種別は、その修正ルールが修正ルール記憶装置20に記憶された原因を示す種別であり、予め記憶されたプリミティブなルールであることを示す「初期」や、ルール特殊化装置50による特殊化処理により生成され記憶された修正ルールであることを示す「特殊化」などが存在する。スコアは、スコアリング装置40によって算出された修正ルールの有効性の度合いを示す値であり、数値が高いほど有効性が高いことを示す。この例では、スコアはその修正ルールを適用することにより既知語が未知語に変換される確率を示している。ラベルは、ラベル付与装置30により付与される情報であり、その修正ルールを適用することによる既知語と未知語との状態の変化を示す情報である。本実施形態では、このような情報が全て修正ルール記憶装置20に記憶されることとして説明するが、登録種別やスコア、ラベルなどは、異なる記憶装置を設けて分離して情報を記憶させ管理するようにしても良い。
FIG. 2 is a diagram illustrating an example of correction rule data stored in the correction
ラベル付与装置30は、テキストコーパス記憶装置10に記憶された文章情報に含まれる語を修正ルール記憶装置20に記憶された修正ルールに基づいて置換し、置換の有用性を判定するコンピュータ装置である。ラベル付与装置30は、適用文抽出部31と、修正ルール適用部32と、既知語記憶部33と、形態素解析部34と、ラベル判定部35とを備えている。
The
適用文抽出部31は、テキストコーパス記憶装置10に記憶された解析対象の文章情報を読み出し、修正ルール記憶装置20に記憶された修正ルールの第1の語が含まれる文である適用前文を抽出する。例えば、適用文抽出部31は、解析対象の文章情報(TX)に対して適用する修正ルールが「X→Y」である場合、解析対象の文章情報(TX)から第1の語「X」を含む文章を抽出して(grep X from TX)、適用前文(TX1)を抽出する。適用文抽出部31は、抽出した適用前文を、修正ルール適用部32と形態素解析部34とに入力する。
The application
修正ルール適用部32は、適用文抽出部31が修正ルールに基づいて解析対象の文章情報から抽出した適用前文に含まれる第1の語を、対応する第2の語に置換した文である適用後文を生成する。修正ルール適用部32は、適用文抽出部31が抽出した適用前文(TX1)に含まれる第1の語(X)を、修正ルールに基づいた第2の語(Y)に置換して(sed X/Y TX1)、適用後文(TX2)を生成する。例えば、修正ルール適用部32は、口語文の適用前文「急がなくちゃ」について、修正ルール「ちゃ→ては」を適用し、文語文の適用後文「急がなくては」を生成する。修正ルール適用部32は、生成した適用後文を形態素解析部34に入力する。
The modification
既知語記憶部33には、品詞等の情報と対応付けられた複数の既知語のリストが含まれる辞書情報が記憶される。ここで、既知語とは、形態素解析などに用いられる予め定められた語である。既知語は、一般的に文語表現により表される。
形態素解析部34は、適用文抽出部31から入力される適用前文と、修正ルール適用部32から入力される適用後文との入力を受け付けて、入力された適用前文と適用後文とを、既知語記憶部33に記憶された辞書情報に基づいた形態素解析を行い、それぞれの文を形態素に分割する。形態素解析とは、例えば、自然言語による文章を、自然言語の規則に応じた品詞の接続制限に基づいて辞書情報に含まれる既知語に分割し、語の境界を判別して、文章を構成する最小単位である形態素を抽出する処理である。例えば、「庭には二羽ニワトリがいる」との文は、形態素解析を行うことにより、「庭」(名詞)、「に」(助詞)、「は」(助詞)、「二」(名詞)、「羽」(名詞)、「ニワトリ」(名詞)、「が」(助詞)、「いる」(動詞)、のように形態素に分割される。
The known word storage unit 33 stores dictionary information including a list of a plurality of known words associated with information such as parts of speech. Here, the known word is a predetermined word used for morphological analysis or the like. Known words are generally expressed in sentence language.
The
ラベル判定部35は、形態素解析部34が分割したそれぞれの形態素に基づく語と、既知語記憶部33に記憶されている語とを比較して、分割した語と同一の語が形態素解析部34に記憶されていればその語を既知語であると判定し、既知語記憶部33に記憶されていなければ未知語であると判定する。例えば、ラベル判定部35は、修正ルール「X→Y」を適用した適用前文についての形態素解析結果の文(IN1)と、同様に修正ルール「X→Y」を適用した適用後文についての形態素解析結果の文(IN2)とを入力として、適用前文についての形態素解析結果(IN1)のうち、修正ルールの第1の語(X)を含む語(P1)を抽出する。
The
また、ラベル判定部35は、抽出した語(P1)に含まれる形態素毎に、その形態素または形態素が含まれる語と同一の語が、既知語記憶部33に既知語として記憶されているか否かを判定することにより、その形態素または形態素が含まれる語が既知語であるか未知語であるかを判定する。同様に、ラベル判定部35は、適用後文についての形態素解析結果の文(IN2)のうち、形態素解析結果の文(IN1)に含まれる語(P1)に対応する語(P2)の形態素毎に、既知語であるか未知語であるかを判定する。そして、ラベル判定部35は、語の組み合わせ「P1→P2」について、既知語と未知語との状態の変化を示すラベルを付与する。
In addition, the
ここで、ラベルは、「○」、「□」、「×」、「△」のいずれかの記号を付与することとし、「○」は、P1は未知語でありP2は既知語であることを示す。「□」は、P1とP2とがともに既知語であることを示す。「×」は、P1は既知語でありP2は未知語であることを示す。「△」は、P1とP2とがともに未知語であることを示す。例えば、「かわぃぃこぃぬ」(P1)について修正ルール「ぃ→い」が適用され、「かわいいこいぬ」(P2)が得られた場合には、ラベル判定部35は、既知語記憶部33に記憶された情報を参照して「かわぃぃこぃぬ」は未知語であると判定し、「かわいいこいぬ」は既知語であると判定する。この場合、ラベル判定部35は、「P1→P2」にラベル「○」を付与する。ここで、ラベル判定部35は、置換を行った語の組み合わせ「P1→P2」と、語の組み合わせに対して付与したラベルとを対応付けて、一時的に修正ルール記憶装置20に記憶させるようにしても良い。
Here, the label is given a symbol “O”, “□”, “×”, or “Δ”, and “O” indicates that P1 is an unknown word and P2 is a known word. Indicates. “□” indicates that both P1 and P2 are known words. “X” indicates that P1 is a known word and P2 is an unknown word. “Δ” indicates that both P1 and P2 are unknown words. For example, when the correction rule “I → I” is applied to “Kawaii Koinu” (P1) and “Cute Koinu” (P2) is obtained, the
スコアリング装置40は、ラベル付与装置30の処理結果に基づいて修正ルールを評価してスコアを付与し、予め定められた閾値を超えるスコアを算出した修正ルールを修正ルール記憶装置20に記憶させる。スコアリング装置40は、スコアリング部41と、修正ルール登録部42とを備えている。スコアリング部41は、テキストコーパス記憶装置10に記憶された複数の文章情報のそれぞれについてラベル付与装置30によって付与されたラベルに基づいて、修正ルール記憶装置20に記憶された修正ルール毎に有効度合いの評価を示すスコアを算出する(スコアリング)。例えば、スコアリング部41は、修正ルールが適用された適用前文の件数と、その適用前文に修正ルールを適用して置換を行ったことによりラベルが「○」となった正解の件数とを算出し、適用前文の件数に対する正解の件数の割合(正解率)をスコアとして算出する。例えば、修正ルール「ぃ→い」を適用前文2件に適用し、正解数が1件であった場合、正解率は50%である。
The scoring
修正ルール登録部42は、スコアリング部41によって算出されたスコアに応じて、修正ルールを修正ルール記憶装置20に登録する。例えば、修正ルール登録部42は、スコアリング部41によって算出されたスコアが予め定められた閾値(例えば、50%)を超える修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。また、修正ルール登録部42は、修正ルール記憶装置20に記憶されている修正ルールのうち、不要なルールを検出して修正ルール記憶装置20から削除する機能を備えるようにしても良い。例えば、修正ルール登録部42は、修正ルール記憶装置20に既に記憶されている修正ルールのうち、ラベル付与装置30によって再度算出されたスコアが予め定められた閾値(例えば、20%)を下回るような場合には、その修正ルールを修正ルール記憶装置20から削除するようにしても良い。
The correction
ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールの特殊化処理を行う。修正ルールの特殊化処理では、ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールに含まれる第1の語に、隣接する他の文字(列)を連結させた新たな修正ルールを生成し、生成した新たな修正ルールを用いてラベル付与装置30とスコアリング装置40とを動作させ、予め定められた閾値を超えるスコアが算出された修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。
The
例えば、ルール特殊化装置50は、ラベル付与装置30によって抽出される適用前文から、修正ルール「X→Y」に含まれる第1の語(X)に、適用前文中で隣接する前または後の文字(w)(wは、1文字以上の文字(列))を連結した語(wXまたはXw)を検出し、検出した語(wXまたはXw)を入力としてラベル判定部35とスコアリング装置40とを動作させる。例えば、ルール特殊化装置50は、ラベル付与装置30により形態素解析が行われた結果文から、修正ルール「ちゃ→ては」について、適用前文中で「ちゃ」を含む文(例えば、「行かなくちゃ」、「ちゃんとして」、「見なくちゃ」、「赤ちゃん」、「おちゃわん」、「しなくちゃ」、「くちゃくちゃ」)と、適用前文に対応する適用後文(「行かなくては」、「てはんとして」、「見なくては」、「赤てはん」、「おてはわん」、「しなくては」、「くてはくては」)とを検出し、検出した適用前文と適用後文とについて、ラベル判定部35によりラベルを付与させる。これにより、ルール特殊化装置50は、例えば文「行かなくちゃ→行かなくては」についてラベル「○」を得る。同様に、「ちゃんとして→てはんとして」についてラベル「×」を、「見なくちゃ→見なくては」についてラベル「○」を、「赤ちゃん→赤てはん」についてラベル「×」を、「おちゃわん→おてはわん」についてラベル「×」を、「しなくちゃ→しなくては」についてラベル「○」を、「くちゃくちゃ→くてはくては」についてラベル「×」を得る。
For example, the
ルール特殊化装置50は、このようにして得たラベルに基づいて、スコアリング装置40にスコアを算出させる。上記の例では、スコアリング装置40は、修正ルール「ちゃ→ては」の前に「く」を連結させた修正ルール「くちゃ→くては」について、適用数が4であり、正解数が3であるから、スコアを75(%)として算出する。同様に、「ちゃ→ては」の前に「なく」を連結させた「なくちゃ→なくては」について、適用数が3であり、正解数が3であるから、スコアは100となる。「ちゃ→ては」の後に「ん」を連結させた「ちゃん→てはん」について、適用数が2であり、正解数が0であるから、スコアは0となる。「ちゃ→ては」の前に「お」を連結させた「おちゃ→おては」について、適用数が1であり、正解数が0であるから、スコアは0となる。「ちゃ→ては」の後に「わ」を連結させた「ちゃわ→てはわ」について、適用数が2であり、正解数が0であるから、スコアは0となる。
The
ルール特殊化装置50は、スコアリング装置40によってこのようにスコアが算出された修正ルールのうち、予め定められた閾値を超える修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。例えば、スコアの閾値が70であれば、上記の修正ルールのうち「くちゃ→くては」と、「なくちゃ→なくては」とを修正ルール記憶装置20に記憶させる。ここで、ルール特殊化装置50は、予め定めた閾値以上のスコアが算出された修正ルールについては、特殊化処理を行わないようにして良い。例えば、閾値を100とする場合、上記の例では「なくちゃ→なくては」に基づいた特殊化処理を行わないようにしても良い。また、修正ルールが爆発的に増加することを防ぐため、予め定めた閾値以上の文字列長となる修正ルールは生成しないなどの制約を設けるようにしても良い。また、特殊化処理の対象とする修正ルールは、初期状態で修正ルール記憶装置20に予め記憶された修正ルールと、後述するルール汎用化装置70により生成された修正ルールとのみに基づいて行い、他の方法により生成された修正ルールに基づいては行わないようにして良い。例えば、上記の例では、「ちゃ→ては」に基づいた特殊化処理を行うが、これにより生成された修正ルール「くちゃ→くては」に基づいた特殊化処理は行わない。これは、「ちゃ→ては」を特殊化した時点で、「くちゃ→くては」を特殊化したルールを得られるためである。
The
ルール結合装置60は、修正ルール記憶装置20に記憶された修正ルールの結合処理を行う。ルール結合装置60は、修正ルール選択部61と修正ルール結合部62とを備えている。修正ルールの結合処理では、修正ルール選択部61が、ラベル付与装置30によって「△」が付与された語に対して、適用後文の未知語を既知語にするためにさらに適用する修正ルールを修正ルール記憶装置20から検出し、修正ルール結合部62によって修正ルールの結合を行い、新たな修正ルールとして修正ルール記憶装置20に記憶させる。
The
例えば、修正ルール選択部61は、ラベル付与装置30によって「△」が付与された未知語(w1、w2・・・wn)に対して、修正ルール記憶装置20に記憶された修正ルールのうちスコアが高い修正ルールを順に適用してラベル判定部35に入力し、ラベル判定部35による判定結果が「○」となった時点での修正ルールを、修正ルール結合部62が新たな修正ルールとして修正ルール記憶装置20に記憶させる。
For example, the correction
具体的には、テキストコーパス記憶装置10から読み出された文章情報の原文「・・・言うなんて、ヒドぃと思う・・・」に含まれる未知語「ヒドぃ」は、ラベル付与装置30の修正ルール適用部32によって修正ルール「ぃ→い」が適用されることにより、「ヒドい」に修正されるが、「ヒドい」が未知語である場合、ラベル判定部35により付与されるラベルは「△」となる。修正ルール選択部61は、ラベル付与装置30によってラベル「△」が付与された未知語について、修正ルール記憶装置20に記憶された修正ルールのうちスコアの高い修正ルールを順に検出してラベル付与装置30に修正ルールを適用させ、ラベルを付与させる。例えば、上述の例の場合、修正ルール選択部61は、修正ルール記憶装置20に記憶された修正ルールのうち、第1の語に文字「ヒ」または「ド」を含む修正ルールを検出する。ここで、ルール結合装置60が、修正ルール「ヒ→ひ」(スコア2)、「ヒド→ひど」(スコア40)、「ド→ど」(スコア1)、「ヒドい→ひどい」(スコア100)、「ヒドく→ひどく」(スコア100)を検出した場合、スコアが高い修正ルール「ヒドい→ひどい」と、修正ルール「ヒドく→ひどく」とを適用対象の修正ルールとして検出する。
Specifically, the unknown word “hidhi” included in the original text “... Say hid ...” of the text information read from the text corpus storage device 10 When the correction rule “i → i” is applied by the correction
修正ルール選択部61は、適用対象の修正ルールとして検出した修正ルールを、未知語「ヒドぃ」についてラベル付与装置30により修正ルール「ぃ→い」が適用されることにより生成された「ヒドい」に対して、ラベル付与装置30にさらに適用させる。これにより、修正ルール選択部61は、ラベル付与装置30に新たにラベルが付与された語に基づいて、新たな修正ルール「・・・言うなんて、ヒドぃと思う・・・→・・・言うなんて、ひどいと思う・・・」を生成し、修正ルール記憶装置20に記憶させる。ここで、ルール結合装置60が生成した修正ルールは極めて具体的な文となるが、後述するルール汎用化装置70の処理によって、より短い適切な長さの修正ルールとして修正ルール記憶装置20に記憶される。また、ルール結合装置60が検出した修正ルールによっても未知語が解決しない場合、再帰的にさらに他の修正ルールを検出してラベル付与装置30による処理を行わせるようにしても良い。
The correction
ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールの汎用化処理を行う。修正ルールの汎用化処理では、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、第1の語と第2の語が共通する1文字以上のプレフィックスまたはサフィックスを持つ修正ルールを検出し、共通するプレフィックスまたはサフィックスの語を削除した第1の語と第2の語とを組み合わせた修正ルールを生成し、修正ルール記憶装置20に記憶させる。
The
例えば、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルール「X→Y」が、「wxu→wyu」(但し、w、x、y、uはそれぞれ1文字以上の文字(列))として表現できるとき、修正ルール「x→y」を新たに生成して修正ルール記憶装置20に記憶させる。具体的には、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルール「正しぃのヵゎ知らない→正しいのかは知らない」について、プレフィックス「正し」とサフィックス「知らない」とを削除して、修正ルール「ぃのヵゎ→いのかは」を生成し、修正ルール記憶装置20に記憶させる。また修正ルール記憶装置20に記憶された修正ルール「困っちゃぅょぉ〜→困ってしまうよ」について、サフィックス「困っ」を削除して、修正ルール「ちゃぅょぉ〜→てしまうよ」を生成して修正ルール記憶装置20に記憶させる。
For example, in the
ここで、ルール汎用化装置70によって汎用化処理の対象となる修正ルールは、ルール結合装置60または能動学習装置80により生成され修正ルール記憶装置20に記憶された修正ルールのみに適用するようにしても良い。また、正解判定システム1は、このように得られた修正ルールに対して、さらにルール特殊化装置50によって特殊化処理を行ったり、ルール結合装置60によって結合処理を行ったりすることで、新たなルールを生成するようにしても良い。
Here, the correction rule to be generalized by the
能動学習装置80は、ルール特殊化装置50、ルール結合装置60、ルール汎用化装置70によって新たな修正ルールが生成できず、ラベル付与装置30により付与されるラベルが「△」である未知語を置換する語の入力を受付け、未知語を第1の語とし、入力された語を第2の語とする修正ルールを生成して修正ルール記憶装置20に記憶させる。能動学習装置80は、優先度決定部81を備えており、入力端末89に接続される。
The
優先度決定部81は、ラベル判定部35によってラベル「△」が付与された原文の語について、原文中における出現回数をカウントし、ラベル「△」が付与された原文の語を出現頻度の降順にソートする。能動学習装置80は、優先度決定部81によって降順にソートされた原文の語のうち、予め定められた上位N個(Nは任意の数)の語を、入力端末89に出力する。
The
入力端末89は、制御部、演算部、表示部(ディスプレイ)、入力部(キーボード)などを備えるコンピュータ端末であり、能動学習装置80から入力された語を第1の語として表示部に表示させる。また、入力端末89は、表示部に表示させた第1の語を置換する第2の語の入力を受け付け、入力された第2の語を能動学習装置80に送信する。能動学習装置80は、入力端末89に送信した第1の語と、これに対応して入力端末89から送信された第2の語とを対応付けた修正ルールを生成し、修正ルール記憶装置20に記憶させる。
The
次に、図3から図8を参照して、正解判定システム1が備える各部の動作例について説明する。
図3は、ラベル付与装置30の動作例を示す図である。適用文抽出部31は、テキストコーパス記憶装置10から解析対象となる文章情報を読み出し(ステップS1)、修正ルール記憶装置20から修正ルールを読み出す(ステップS2)。適用文抽出部31は、解析対象の文章情報から、修正ルールを適用可能な適用前文を抽出し、形態素解析部34に入力する(ステップS3、S4)。また、適用文抽出部31は、適用前文と修正ルールとを修正ルール適用部32に入力する(ステップS5)。
Next, with reference to FIGS. 3 to 8, an example of the operation of each unit included in the correct
FIG. 3 is a diagram illustrating an operation example of the
修正ルール適用部32は、適用文抽出部31から入力された適用前文に、修正ルールを適用し、適用後文を生成して形態素解析部34に入力する(ステップS6、S7)。形態素解析部34は、適用文抽出部31から入力された適用前文と、修正ルール適用部32から入力された適用後文とのそれぞれについて形態素解析を行う。形態素解析部34は、適用前文に対する形態素解析の結果を、ラベル判定部35に入力する(ステップS8、S9)。また、形態素解析部34は、適用後文に対する形態素解析の結果を、ラベル判定部35に入力する(ステップS10、S11)。ラベル判定部35は、形態素解析部34から入力された適用前文の解析結果と、適用後文の解析結果とに含まれる語のそれぞれを比較してラベル判定を行い、ラベルを付与した適用前文の語と適用後の文との組み合わせであるラベル付与文を出力する(ステップS12)。ここで、ステップS4とステップS5において形態素解析部34に入力される適用前文と適用後文とは、解析対象の文章情報と、解析対象の文章情報に含まれる語のうちいずれかの語がユーザにより他の語に置換された文章情報であることとしても良い。
The correction
図4は、スコアリング装置40の動作例を示す図である。スコアリング部41は、ラベル判定部35によってラベルが付与されたラベル付与文と、修正ルール記憶装置20に記憶されたスコアが算出されていない修正ルールとを入力として(ステップS22、S23)、修正ルールごとにスコアを算出し、修正ルール登録部42に入力する(ステップS23、S24)。修正ルール登録部42は、スコアリング部41によって算出されたスコアに基づいて、適用前文と適用後文との組み合わせを修正ルール記憶装置20に記憶させる(ステップS25)。
FIG. 4 is a diagram illustrating an operation example of the scoring
図5は、ルール特殊化装置50の動作例を示す図である。ルール特殊化装置50は、ラベル判定部35によってラベルが付与されたラベル付与文を入力として(ステップS31)、ラベル付与文中の語に隣接する語を連結した語を生成した修正ルールを生成して、スコアリング装置40に入力する(ステップS32、ステップS33)。スコアリング装置40は、入力された修正ルールについてスコアを算出し、定められた閾値を超えるスコアが算出された修正ルールを修正ルール記憶装置20に記憶させる(ステップS34)。
FIG. 5 is a diagram illustrating an operation example of the
図6は、ルール結合装置60の動作例を示す図である。ルール結合装置60の修正ルール選択部61は、ラベル付与装置30によってラベルが付与されたラベル付与文を入力として(ステップS41)、ラベルが「△」である語の組み合わせを抽出し、修正対象文としてラベル付与装置30に入力する(ステップS44、S45)。また、修正ルール選択部61は、修正ルール記憶装置20から、ラベルが「△」である語の組み合わせに対して適用する修正ルールを修正ルール記憶装置20から読み出し(ステップS42)、ラベル付与装置30に入力する(ステップS43)。ラベル付与装置30は、修正ルール選択部61から入力された修正対象文について、修正ルール選択部61から入力された修正ルールを適用してラベル付与文を生成し、ルール結合装置60に入力する(ステップS46、S47)。ルール結合装置60の修正ルール結合部62は、入力されたラベル付与文に基づいて修正ルールを結合し、修正ルール記憶装置20に記憶された原文の対応箇所と対応付けて(ステップS48)、修正ルール記憶装置20に記憶させる(ステップS49)。
FIG. 6 is a diagram illustrating an operation example of the
図7は、ルール汎用化装置70の動作例を示す図である。ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールを読み出して(ステップS51)、ルールの汎用化処理を行って生成した修正ルールを修正ルール記憶装置20に記憶させる(ステップS52)。
FIG. 7 is a diagram illustrating an operation example of the
図8は、能動学習装置80の動作例を示す図である。能動学習装置80の優先度決定部81は、ラベル判定部35によって未知語と判定された語の集合を入力として(ステップS61)、未知語を優先度順に並べ替え、定められた件数の未知語に対する質問項目を入力端末89に送信する(ステップS62、S62)。入力端末89は、優先度決定部81から送信された未知語を表示部に表示させると、ユーザは、入力端末89に未知語に対応する語を入力する。入力端末89は、ユーザから入力された語を能動学習装置80に送信する(ステップS64)。能動学習装置80は、入力端末89に送信した未知語と、これに応じて入力端末89から送信された語とを対応付けた修正ルールを生成、修正ルール記憶装置20に記憶させる(ステップS65)。
FIG. 8 is a diagram illustrating an operation example of the
次に、図9を参照して、正解判定システム1の動作例を説明する。初期状態では、修正ルール記憶装置20に汎用的な修正ルールが予め記憶されている(ステップS71)。ここで、本実施形態の正解判定システム1は能動学習装置80を備えるため、初期状態の修正ルールは記憶されていないこととして能動学習装置80によりルールが入力されるようにしても良い。ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールを1つ読み出し、ラベル付与装置30に入力し、ラベル付与文を取得し、ルールの特殊化処理を行う(ステップS72)。
Next, an operation example of the correct
ルール結合装置60は、ステップ73で取得されたラベル付与文のうち、ラベルが「△」である文に対して、修正ルール記憶装置20に記憶された他の修正ルールを適用してラベル付与装置30を動作させ、ラベルが「○」となった場合には、新たな修正ルールとして修正ルール記憶装置20に修正ルールを記憶させる(ステップS73)。ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールのうち、特殊化が必要な全ての修正ルールに対して特殊化処理と結合処理とが完了したか否かを判定する(ステップS74)。ルール特殊化装置50が、全ての修正ルールに対して処理を行っていないと判定すれば(ステップS74:NO)、ステップS72に戻る。ルール特殊化装置50が、全ての修正ルールに対して処理を行ったと判定すれば(ステップS74:YES)、ステップS75に進む。
The
ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、修正ルールの登録種別を参照して、ルール結合装置60または優先度決定部81により生成され記憶された修正ルールについて汎用化処理を行う(ステップS75)。このとき、修正ルール記憶装置20に初期状態から予め記憶されている修正ルールについては汎用化処理を行わない。ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、汎用化が必要な修正ルールの全てについて汎用化処理を行ったか否かを判定する(ステップS76)。ルール汎用化装置70は、全ての修正ルールについて汎用化処理を行っていなければ、ステップS75に戻る(ステップS76:NO)。ルール汎用化装置70は、全ての修正ルールについて汎用化処理を行っていれば、ステップS77に進む(ステップS76:YES)
The
ルール特殊化装置50は、ステップS71からステップS76において、新たな修正ルールが修正ルール記憶装置20に記憶されていれば、再度ステップS72の処理を行う(ステップS77:YES)。修正ルール記憶装置20に新たな修正ルールが記憶されていなければ(ステップS77:NO)、能動学習装置80は、入力端末89に質問を行って能動学習の処理を行い、ユーザから入力された情報に基づいて修正ルールを生成し、修正ルール記憶装置20に記憶させる(ステップS78)。ステップS78において、新たな修正ルールが修正ルール記憶装置20に記憶されれば(ステップS79:YES)、ステップS75に戻り、ルール汎用化装置70による汎用化処理を行う。ステップS78において、新たな修正ルールが修正ルール記憶装置20に記憶されていなければ(ステップS79:NO)、正解判定システム1は、処理を終了する。このように、ステップS72からステップS74、およびステップS75からステップS79を繰り返し実行することで、修正ルールの精度を上げ、また様々な修正ルールを生成することが可能である。
If a new correction rule is stored in the correction
以上説明したように、本発明によれば、正解判定システム1は、修正ルールの特殊化、結合、汎用化、能動学習の処理を行うことにより、多用な修正ルールを生成して修正ルール記憶装置20に記憶させることが可能である。
As described above, according to the present invention, the correct
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりラベル判定や修正ルールの生成の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 It should be noted that a program for realizing the function of the processing unit in the present invention is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed, whereby label determination and correction are performed. A rule generation process may be performed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer system” includes a WWW system provided with a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in the computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
1 正解判定システム
10 テキストコーパス記憶装置
20 修正ルール記憶装置
30 ラベル付与装置
31 適用文抽出部
32 修正ルール適用部
33 既知語記憶部
34 形態素解析部
35 ラベル判定部
40 スコアリング装置
41 スコアリング部
42 修正ルール登録部
50 ルール特殊化装置
60 ルール結合装置
61 修正ルール選択部
62 修正ルール結合部
70 ルール汎用化装置
80 能動学習装置
81 優先度決定部
89 入力端末
DESCRIPTION OF
Claims (10)
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文書情報とを複数の語に分割する解析部と、
前記解析部が分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、
前記正解判定部の判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該第1の文章情報に基づく語に対応する前記第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、
を備えることを特徴とする正解判定装置。 A known word storage unit that stores known words that are predetermined as known words;
Input of first sentence information composed of a plurality of words and second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. An analysis unit that divides the received first sentence information and the second document information into a plurality of words;
The word divided by the analysis unit is compared with the known word stored in the known word storage unit, and if it is stored in the known word storage unit, it is determined as a known word, and the known word storage A correct answer determination unit that determines an unknown word if not stored in the unit;
Based on the determination result of the correct answer determination unit, the word based on the first sentence information is an unknown word, and the word based on the second sentence information corresponding to the word based on the first sentence information is a known word. A detection unit for detecting a combination of words,
A correct answer determination apparatus comprising:
前記第1の文章情報に含まれる複数の語のうち修正対象となる第1の語と、当該第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶部と、
前記第1の文章情報に含まれる前記第1の語を抽出し、抽出した第1の語を前記第2の語に置換した第2の文章情報を生成する修正処理を行い、当該第1の文章情報と当該第2の文章情報とを前記解析部に入力する修正ルール適用部と、
をさらに備えることを特徴とする請求項1に記載の正解判定装置。 An analysis object information storage unit for storing the first sentence information;
A correction rule in which a correction rule in which a first word to be corrected among a plurality of words included in the first sentence information is associated with a second word that replaces the first word is stored. A storage unit;
The first word included in the first sentence information is extracted, a correction process is performed to generate second sentence information in which the extracted first word is replaced with the second word, and the first word A correction rule application unit that inputs sentence information and the second sentence information to the analysis unit;
The correct answer determination apparatus according to claim 1, further comprising:
をさらに備えることを特徴とする請求項2に記載の正解判定装置。 Of the combinations of words detected by the detection unit, the word based on the first sentence information is set as the first word, and the word based on the detected second sentence information is associated as the second word. A correction rule registration unit that generates the correction rule and causes the correction rule storage unit to generate the correction rule;
The correct answer determination apparatus according to claim 2, further comprising:
ことを特徴とする請求項3に記載の正解判定装置。 The correction rule registration unit is a correction in which a word obtained by dividing a word based on the first sentence information detected by the detection unit and a word based on the second sentence information into words having a shorter number of characters is associated. The correct answer determination apparatus according to claim 3, wherein a rule is generated and is used in the correction rule storage unit.
ことを特徴とする請求項3または請求項4に記載の正解判定装置。 The correction rule registration unit is configured to connect a word based on the first sentence information detected by the detection unit and a word based on the second sentence information to another word adjacent to each other in each sentence. The correct answer determination apparatus according to claim 3 or 4, wherein the associated correction rule is generated and stored in the correction rule storage unit.
前記修正ルール登録部は、前記修正ルール適用部によって行われた再度の修正処理の処理結果に基づいて前記検出部が検出した前記第1の文章情報に基づく語を前記第1の語とし、検出した前記第2の文章情報に基づく語を前記第2の語として対応付けた前記修正ルールを生成して前記修正ルール記憶部にさせる
ことを特徴とする請求項3から請求項5までのいずれか1項に記載の正解判定装置。 The correction rule application unit, when the correct answer determination unit determines that both the word based on the first sentence information and the word based on the second sentence information are unknown words, the correction rule Perform another correction process based on the other correction rules stored in
The correction rule registration unit detects a word based on the first sentence information detected by the detection unit based on a processing result of a second correction process performed by the correction rule application unit as the first word, and detects the first word. 6. The correction rule storing the word based on the second sentence information as the second word and generating the correction rule to cause the correction rule storage unit to generate the correction rule. The correct answer determination apparatus according to item 1.
前記修正ルール登録部は、前記検出部が検出した前記第1の文章情報に基づく語を前記第1の語とし、前記修正後入力部に入力された語を前記第2の語として対応付けた前記修正ルールを生成して前記修正ルール記憶部にさせる
ことを特徴とする請求項3から請求項6までのいずれか1項に記載の正解判定装置。 When the correct answer determination unit determines that both the word based on the first sentence information and the word based on the second sentence information are unknown words, the first word corresponding to the first word An input unit that accepts input of two words;
The correction rule registration unit associates a word based on the first sentence information detected by the detection unit as the first word, and associates a word input to the post-correction input unit as the second word. The correct answer determination apparatus according to any one of claims 3 to 6, wherein the correction rule is generated and stored in the correction rule storage unit.
修正対象となる第1の語と、当該第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶装置と、
既知の語であることが予め定められた既知語が記憶される既知語記憶部と、
前記第1の文章情報に含まれる前記第1の語を抽出し、抽出した第1の語を前記第2の語に置換した第2の文章情報を生成する修正処理を行う修正ルール適用部と、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文書情報とを複数の語に分割する解析部と、
前記解析部が分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、
前記正解判定部の判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該第1の文章情報に基づく語に対応する前記第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備える正解判定装置と、
前記正解判定装置の前記検出部による検出結果に基づいて前記修正ルールを生成し、前記修正ルール記憶装置に記憶させる修正ルール登録装置と、
を備えることを特徴とする正解判定システム。 An analysis target information storage device in which first sentence information composed of a plurality of words is stored;
A correction rule storage device that stores a correction rule in which a first word to be corrected and a second word that replaces the first word are associated;
A known word storage unit for storing known words that are predetermined as known words;
A correction rule applying unit that performs a correction process for generating the second sentence information by extracting the first word included in the first sentence information and replacing the extracted first word with the second word; ,
Input of first sentence information composed of a plurality of words and second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. An analysis unit that divides the received first sentence information and the second document information into a plurality of words;
The word divided by the analysis unit is compared with the known word stored in the known word storage unit, and if it is stored in the known word storage unit, it is determined as a known word, and the known word storage A correct answer determination unit that determines an unknown word if not stored in the unit;
Based on the determination result of the correct answer determination unit, the word based on the first sentence information is an unknown word, and the word based on the second sentence information corresponding to the word based on the first sentence information is a known word. A correctness determination device comprising: a detection unit that detects a combination of words that is:
A correction rule registration device that generates the correction rule based on a detection result by the detection unit of the correct answer determination device and stores the correction rule in the correction rule storage device;
A correct answer determination system comprising:
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文書情報とを複数の語に分割するステップと、
分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定するステップと、
判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該第1の文章情報に基づく語に対応する前記第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、
を備えることを特徴とする正解判定方法。 A correct answer determination method of a correct answer determination apparatus including a known word storage unit that stores a known word that is predetermined as a known word,
Input of first sentence information composed of a plurality of words and second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. Dividing the received first sentence information and the second document information into a plurality of words;
The divided word is compared with the known word stored in the known word storage unit, and if it is stored in the known word storage unit, it is determined as a known word and stored in the known word storage unit. A step of determining that it is an unknown word if not,
Based on the determination result, the word based on the first sentence information is an unknown word, and the word combination based on the second sentence information corresponding to the word based on the first sentence information is a combination of words Detecting steps,
A correct answer determination method comprising:
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文書情報とを複数の語に分割するステップと、
分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定するステップと、
判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該第1の文章情報に基づく語に対応する前記第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、
を実行させる正解判定プログラム。 In a computer of a correct answer determination apparatus including a known word storage unit that stores a known word that is predetermined as a known word,
Input of first sentence information composed of a plurality of words and second document information in which any one of the plurality of words included in the first sentence information is replaced with another word. Dividing the received first sentence information and the second document information into a plurality of words;
The divided word is compared with the known word stored in the known word storage unit, and if it is stored in the known word storage unit, it is determined as a known word and stored in the known word storage unit. A step of determining that it is an unknown word if not,
Based on the determination result, the word based on the first sentence information is an unknown word, and the word combination based on the second sentence information corresponding to the word based on the first sentence information is a combination of words Detecting steps,
The correct answer judgment program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009004949A JP5436868B2 (en) | 2009-01-13 | 2009-01-13 | Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009004949A JP5436868B2 (en) | 2009-01-13 | 2009-01-13 | Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010165041A true JP2010165041A (en) | 2010-07-29 |
JP5436868B2 JP5436868B2 (en) | 2014-03-05 |
Family
ID=42581170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009004949A Expired - Fee Related JP5436868B2 (en) | 2009-01-13 | 2009-01-13 | Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5436868B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915335A (en) * | 2015-06-12 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | Method for generating abstracts for subject document sets and device |
JP2016538666A (en) * | 2013-10-02 | 2016-12-08 | シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. | Alignment corpus generation device and method based on autonomous learning alignment, morphological analysis device for disruptive expression using alignment corpus, and morphological analysis method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11134335A (en) * | 1997-10-30 | 1999-05-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Character error calibrating device |
JP2006235916A (en) * | 2005-02-24 | 2006-09-07 | Mitsubishi Electric Corp | Text analysis device, text analysis method and speech synthesizer |
JP2008299675A (en) * | 2007-05-31 | 2008-12-11 | Yahoo Japan Corp | Kana mixture notation extracting device, method and program |
-
2009
- 2009-01-13 JP JP2009004949A patent/JP5436868B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11134335A (en) * | 1997-10-30 | 1999-05-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Character error calibrating device |
JP2006235916A (en) * | 2005-02-24 | 2006-09-07 | Mitsubishi Electric Corp | Text analysis device, text analysis method and speech synthesizer |
JP2008299675A (en) * | 2007-05-31 | 2008-12-11 | Yahoo Japan Corp | Kana mixture notation extracting device, method and program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016538666A (en) * | 2013-10-02 | 2016-12-08 | シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. | Alignment corpus generation device and method based on autonomous learning alignment, morphological analysis device for disruptive expression using alignment corpus, and morphological analysis method thereof |
US10282413B2 (en) | 2013-10-02 | 2019-05-07 | Systran International Co., Ltd. | Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof |
CN104915335A (en) * | 2015-06-12 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | Method for generating abstracts for subject document sets and device |
CN104915335B (en) * | 2015-06-12 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | The method and apparatus of the document sets that are the theme generation summary |
Also Published As
Publication number | Publication date |
---|---|
JP5436868B2 (en) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US9524291B2 (en) | Visual display of semantic information | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
CN1618064B (en) | Translating method and computer device | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
CN104915264A (en) | Input error-correction method and device | |
KR20100052461A (en) | Word probability determination | |
CN111401033A (en) | Event extraction method, event extraction device and electronic equipment | |
KR20100047221A (en) | Dictionary word and phrase determination | |
JP3921523B2 (en) | Text generation method and text generation apparatus | |
JP2010181993A (en) | Evaluation analysis server, method, and program for evaluating text file containing pictorial symbol | |
CN101308512B (en) | Mutual translation pair extraction method and device based on web page | |
CN112380337A (en) | Highlight method and device based on rich text | |
JPH10326275A (en) | Method and device for morpheme analysis and method and device for japanese morpheme analysis | |
JP5436868B2 (en) | Correct answer determination apparatus, correct answer determination system, correct answer determination method, and correct answer determination program | |
KR102422923B1 (en) | Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus | |
JP2011039576A (en) | Specific information detecting device, specific information detecting method, and specific information detecting program | |
JP4088171B2 (en) | Text analysis apparatus, method, program, and recording medium recording the program | |
Chaonithi et al. | A hybrid approach for Thai word segmentation with crowdsourcing feedback system | |
Lyon et al. | Reducing the Complexity of Parsing by a Method of Decomposition. | |
CN114490976B (en) | Method, device, equipment and storage medium for generating dialogue abstract training data | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
JP2002334076A (en) | Method for processing text | |
JP5337575B2 (en) | Candidate word extraction device, candidate word extraction method, and candidate word extraction program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131101 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5436868 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |