JP5448744B2 - Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words - Google Patents

Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words Download PDF

Info

Publication number
JP5448744B2
JP5448744B2 JP2009265786A JP2009265786A JP5448744B2 JP 5448744 B2 JP5448744 B2 JP 5448744B2 JP 2009265786 A JP2009265786 A JP 2009265786A JP 2009265786 A JP2009265786 A JP 2009265786A JP 5448744 B2 JP5448744 B2 JP 5448744B2
Authority
JP
Japan
Prior art keywords
correction
sentence
correction rule
category
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009265786A
Other languages
Japanese (ja)
Other versions
JP2011113099A (en
Inventor
和史 池田
正 柳原
一則 松本
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2009265786A priority Critical patent/JP5448744B2/en
Publication of JP2011113099A publication Critical patent/JP2011113099A/en
Application granted granted Critical
Publication of JP5448744B2 publication Critical patent/JP5448744B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバに関する。   The present invention relates to a sentence correction program, method, and sentence analysis server for correcting sentences including unknown words.

インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらサイトは、親しみやすさから、口語的な「くだけた表現」で記述されることが多い。   With the spread of the Internet, various texts are described on blogs, bulletin boards, or Web sites that publish reviews. A “blog” is a site that is generally run by an individual and can be updated in a diary to express their opinions on current news and specialized topics. A “bulletin board” is a site for sequentially exchanging discussions with other people on various themes. Furthermore, “review comments” refers to a site where comments about things such as people's rumors can be described. These sites are often described in colloquial “quick expressions” because of their friendliness.

近年、このようなサイトによって公開されるWeb文書も、情報抽出、検索及び統計処理の対象とされるようになってきた。これらWeb文書の文章内容を解析するために、少なくとも形態素解析が必要となる。形態素解析プログラムは、解析対象となる文章を形態素に分割する。英語の文章は、“This is a pen.”のように単語ごとに区切られた「分かち書き」にされている。これに対して、日本語の文章は、分かち書きされていないため、構文解析等に先立って、形態素解析による処理が必要となる。   In recent years, Web documents published by such sites have also been targeted for information extraction, search, and statistical processing. In order to analyze the text content of these Web documents, at least morphological analysis is required. The morphological analysis program divides a sentence to be analyzed into morphemes. English sentences are divided into words such as "This is a pen." On the other hand, Japanese sentences are not separately written, and therefore processing by morphological analysis is required prior to syntax analysis or the like.

「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。形態素解析プログラムは、「単語」毎に「品詞」「読み」が登録された辞書を有する。分割された形態素には、辞書を用いて「品詞」「読み」の情報が付与され、単語の配列を規定する文法規則を用いて文章を解析する。このように、形態素解析プログラムの解析精度は、辞書に依存する。そのため、辞書に登録されていない単語を含む文章は、十分な解析精度を得ることができない。   A “morpheme” refers to the smallest meaningful unit among the constituent elements of a sentence. The morphological analysis program has a dictionary in which “part of speech” and “reading” are registered for each “word”. The divided morphemes are given “part of speech” and “reading” information using a dictionary, and the sentence is analyzed using grammatical rules that define the word arrangement. Thus, the analysis accuracy of the morphological analysis program depends on the dictionary. Therefore, a sentence including words that are not registered in the dictionary cannot obtain sufficient analysis accuracy.

これに対し、ブログ、掲示板又はクチコミコメントによって公開されるWeb文書には、一般的に、以下のような「くだけた表現」が多数含まれる。
(1)「うっそー」「すごーい」のような会話における発音の変化傾向に併せた表記
(2)「カッコイイ」のように本来ひらがなで表記される語を意図的にカタカナにした表記
(3)「ヵゎぃぃ」(「かわいい」と読む)、「ゎたUゎ」(「わたしは」と読む)のような特有の表記
On the other hand, a Web document published by a blog, a bulletin board, or a word-of-mouth comment generally includes many “descriptive expressions” as follows.
(1) Notation combined with the changing tendency of pronunciation in conversations such as “Usoso” and “Sugoi” (2) Notation that intentionally katakana is used for words that are originally written in hiragana, such as “cool” (3) Peculiar notation such as “Kai-yi” (read as “cute”), “Kita U” (read as “I am”)

これら表現は、一般的に、形態素解析プログラムの辞書には登録されていないために、「未知語」として処理される。辞書に登録されていない単語は、形態素相当の単位に分割された上で、「品詞」「読み」の情報に代えて「未知語」という情報のみが付与される。   Since these expressions are generally not registered in the dictionary of the morphological analysis program, they are processed as “unknown words”. A word that is not registered in the dictionary is divided into units corresponding to morphemes, and only information “unknown word” is given instead of “part of speech” and “reading” information.

勿論、「未知語」として処理された語を全て、人手によって辞書に登録することができれば、形態素解析の精度を向上させることができる。しかし、「未知語」の登録には、品詞及び活用形の登録、既存の辞書との互換性の維持といった、専門的な人手のスキルが必要となる。   Of course, if all the words processed as “unknown words” can be manually registered in the dictionary, the accuracy of morphological analysis can be improved. However, the registration of “unknown words” requires specialized human skills, such as registration of parts of speech and usage forms, and maintenance of compatibility with existing dictionaries.

これに対して、未知語を含む文章を形態素解析に適した文章に修正する技術がある(例えば非特許文献1参照)。この技術によれば、解析に失敗して「未知語」として出力されることを前提として、未知語を含む文章である解析対象文章を形態素解析する。そして、形態素解析の結果に基づいて、未知語の部分を任意文字列に置き換えた検索キーを生成する。生成された検索キーによって、修正基準文章から、自動的に修正候補文字列が検索され、修正候補文字列から1以上の修正ルールが生成される。生成された修正ルールは、(1)同じような文脈で頻繁に使用される表現か、(2)解析対象文章の表現から変化し過ぎていないか、(3)修正後の文章が日本語として自然か、といった指標を用いて、スコアリングされ、最適な修正ルールが選択される。解析対象文章は、選択された修正ルールによって、形態素解析に適した文章に修正される。   On the other hand, there is a technique for correcting a sentence including an unknown word into a sentence suitable for morphological analysis (for example, see Non-Patent Document 1). According to this technique, a morphological analysis is performed on an analysis target sentence that is a sentence including an unknown word, on the assumption that the analysis fails and is output as an “unknown word”. Based on the result of the morphological analysis, a search key is generated by replacing the unknown word part with an arbitrary character string. A correction candidate character string is automatically searched from the correction reference text by using the generated search key, and one or more correction rules are generated from the correction candidate character string. The generated correction rules are either (1) an expression that is frequently used in the same context, (2) whether it has changed too much from the expression of the sentence to be analyzed, or (3) the corrected sentence is in Japanese Scoring is performed using an index such as whether natural or not, and an optimal correction rule is selected. The analysis target sentence is corrected to a sentence suitable for morphological analysis according to the selected correction rule.

池田和史、柳原正、松本一則、滝嶋康弘、「くだけた表現を修正するための教師なし学習方式の提案と評価」、第8回情報科学技術フォーラム、2009Kazufumi Ikeda, Tadashi Yanagihara, Kazunori Matsumoto, Yasuhiro Takishima, “Proposal and Evaluation of Unsupervised Learning Method for Correcting Expressions”, 8th Information Science and Technology Forum, 2009

非特許文献1に記載された技術によれば、修正基準文章から検索された修正候補文字列に基づいて修正ルールが生成されるため、解析対象文章は、修正基準文章に依存して修正される。その結果、解析対象文章は、正しく形態素解析される文章には修正されても、異なる意味内容の文章に修正される場合や、過剰修正される場合があった。   According to the technique described in Non-Patent Document 1, the correction rule is generated based on the correction candidate character string searched from the correction reference sentence, and thus the analysis target sentence is corrected depending on the correction reference sentence. . As a result, even if the analysis target sentence is corrected to a sentence that is correctly analyzed for morpheme, it may be corrected to a sentence having a different meaning or may be overcorrected.

また、非特許文献1に記載された技術によれば、修正基準文章には、例えば、新聞記事の文章のような形態素解析の解析精度が高い文章が用いられている。一般に、新聞記事の文章は、「定型的な表現」が多い。「定型的な表現」は、形態素解析プログラムの辞書に登録されている確率が高いため、新聞記事の文章は、形態素解析の精度が高い。   Further, according to the technique described in Non-Patent Document 1, a sentence with high analysis accuracy of morphological analysis such as a sentence of a newspaper article is used as the correction reference sentence. In general, the sentences of newspaper articles often have “standard expressions”. Since the “standard expression” has a high probability of being registered in the dictionary of the morphological analysis program, the sentences of newspaper articles have high morphological analysis accuracy.

例えば、解析対象文章の「えーゆーはかっこいい」という表現は、新聞記事の文章を修正基準文章とすると、「英雄はかっこいい」と修正される。この解析対象文章がITやコンピュータに関する文章であれば、この表現は、「auはかっこいい」と修正されることが望ましい。   For example, the expression “e-yu is cool” in the sentence to be analyzed is corrected as “the hero is cool” when the sentence of the newspaper article is the correction standard sentence. If the analysis target sentence is a sentence related to IT or a computer, it is desirable that this expression is corrected as “au is cool”.

また、例えば、解析対象文章の「そんなの関係ねぇ」という表現は、「そんなの関係ない」と修正される。しかし、この解析対象文章が数年前の流行を反映した文章であれば、この表現は、「そんなの関係ねぇ」のまま修正されないことが望ましい。   Further, for example, the expression “no such relationship” in the sentence to be analyzed is corrected as “no such relationship”. However, if the sentence to be analyzed is a sentence reflecting a trend several years ago, it is desirable that this expression is not corrected as it is.

そこで、本発明は、口語的な「くだけた表現」で記述された文章情報であっても、形態素解析によって未知語と判断されることのない、文章解析に適した文章に修正することができる文章修正プログラム、方法及び文章解析サーバを提供することを目的とする。   Therefore, according to the present invention, even sentence information described in colloquial “complex expression” can be corrected to a sentence suitable for sentence analysis that is not determined as an unknown word by morphological analysis. An object is to provide a sentence correction program, method, and sentence analysis server.

本発明によれば、未知語を含む解析対象文章情報に対して、該未知語を修正するようにコンピュータを機能させる文章修正プログラムであって、
不特定多数の第三者へ発信された複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語に対応するワイルドカードと、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、ワイルドカードで検索された1つ以上の修正ルール候補を検索する修正ルール検索手段と、
修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに基づく修正ルールを選択する修正ルール選択手段と、
解析対象文章情報を、選択された修正ルールを適用して修正する修正ルール適用手段と
してコンピュータを機能させ
文章構成指標は、(1)当該修正ルール候補に該当する文字列の出現頻度が多いほど、(2)未知語と修正ルール候補に基づく修正形態素との間の編集距離が短いほど、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分が小さいほど、高いスコアとなる指標である
ようにコンピュータを機能させることを特徴とする。
According to the present invention, for a sentence information to be analyzed including an unknown word, a sentence correction program that causes a computer to function to correct the unknown word,
A reference sentence storage means for storing a plurality of corrected reference sentence information transmitted to an unspecified number of third parties , classified into a plurality of categories, and stored;
An unknown word extraction means for dividing the sentence information to be analyzed into morphemes and extracting unknown words;
Search key generating means for generating a search key comprising a wild card corresponding to an unknown word and at least one of the adjacent morphemes in front and rear of the unknown word;
Correction rule search means for searching for one or more correction rule candidates searched with a wild card using a search key for each category of correction reference sentence information;
Correction rule candidate selection means for selecting one correction rule candidate based on a sentence composition index from correction rule candidates for each category of correction reference sentence information ;
Category selection means for selecting a category having the highest score based on the sentence composition index of the correction rule for the correction rule candidate selected for each category of the correction reference sentence information;
A correction rule selection means for selecting a correction rule based on the selected category;
Causing the computer to function as a correction rule applying means for correcting the sentence information to be analyzed by applying the selected correction rule ;
The sentence composition index includes (1) the higher the appearance frequency of the character string corresponding to the correction rule candidate, (2) the shorter the edit distance between the unknown word and the correction morpheme based on the correction rule candidate, and / or (3) The index is a higher score as the difference between the morphological analysis cost values before and after the correction is smaller.
The computer is made to function as described above .

本発明の文章修正プログラムにおける他の実施形態によれば、基準文章記憶手段は、複数の修正基準文章情報を分類する複数のカテゴリは、その特徴語、及び/又は、その日時情報に基づくものであることも好ましい。 According to another embodiment of the sentence correction program of the present invention, the reference sentence storage means is configured such that the plurality of categories for classifying the plurality of corrected reference sentence information are based on the feature words and / or the date / time information. It is also preferable that there is.

本発明の文章修正プログラムにおける他の実施形態によれば、解析対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることも好ましい。   According to another embodiment of the sentence correction program of the present invention, the sentence information to be analyzed is described by an unspecified number of users in a blog (Weblog), bulletin board, and / or word-of-mouth comment published via a network. It is also preferable that it is text information.

本発明によれば、未知語を含む解析対象文章情報に対して、コンピュータを用いて未知語を修正する文章修正方法であって、
不特定多数の第三者へ発信された複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語に対応するワイルドカードと、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、ワイルドカードで検索された1つ以上の修正ルール候補を検索する第3のステップと、
修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する第4のステップと、
修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する第5のステップと、
選択されたカテゴリに基づく修正ルールを選択する第6のステップと、
解析対象文章情報を、選択された修正ルールを適用して修正する第7のステップと
を有し、
文章構成指標は、(1)当該修正ルール候補に該当する文字列の出現頻度が多いほど、(2)未知語と修正ルール候補に基づく修正形態素との間の編集距離が短いほど、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分が小さいほど、高いスコアとなる指標である
を有することを特徴とする。
According to the present invention, a sentence correction method for correcting unknown words using a computer for analysis target sentence information including unknown words,
A reference sentence storage unit that stores a plurality of corrected reference sentence information transmitted to an unspecified number of third parties , classified into a plurality of categories, and stored.
An unknown word extraction means for dividing the sentence information to be analyzed into morphemes and extracting unknown words;
A second step of generating a search key consisting of a wild card corresponding to the unknown word and at least one of the front and rear adjacent morphemes for the unknown word;
A third step of searching for one or more correction rule candidates searched with a wild card using a search key for each category of correction reference sentence information;
A fourth step of selecting one correction rule candidate based on a sentence composition index from among correction rule candidates for each category of correction reference sentence information;
A fifth step of selecting a category having the highest score based on the sentence composition index of the correction rule for the correction rule candidate selected for each category of the correction reference sentence information;
A sixth step of selecting a correction rule based on the selected category;
The analyzed sentence information, have a <br/> a seventh step of modifying by applying the selected modified rules,
The sentence composition index includes (1) the higher the appearance frequency of the character string corresponding to the correction rule candidate, (2) the shorter the edit distance between the unknown word and the correction morpheme based on the correction rule candidate, and / or (3) The index is a higher score as the difference between the morphological analysis cost values before and after the correction is smaller .

本発明によれば、未知語を含む解析対象文章情報を他の公開サーバからネットワークを介して取得し、該未知語を修正する文章解析サーバであって、
不特定多数の第三者へ発信された複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語に対応するワイルドカードと、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、ワイルドカードで検索された1つ以上の修正ルール候補を検索する修正ルール検索手段と、
修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに基づく修正ルールを選択する修正ルール選択手段と、
解析対象文章情報を、選択された修正ルールを適用して修正する修正ルール適用手段と
してコンピュータを機能させ
文章構成指標は、(1)当該修正ルール候補に該当する文字列の出現頻度が多いほど、(2)未知語と修正ルール候補に基づく修正形態素との間の編集距離が短いほど、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分が小さいほど、高いスコアとなる指標である
ことを特徴とする。
According to the present invention, a sentence analysis server that acquires analysis target sentence information including an unknown word from another public server via a network, and corrects the unknown word,
A reference sentence storage means for storing a plurality of corrected reference sentence information transmitted to an unspecified number of third parties , classified into a plurality of categories, and stored;
An unknown word extraction means for dividing the sentence information to be analyzed into morphemes and extracting unknown words;
Search key generating means for generating a search key comprising a wild card corresponding to an unknown word and at least one of the adjacent morphemes in front and rear of the unknown word;
Correction rule search means for searching for one or more correction rule candidates searched with a wild card using a search key for each category of correction reference sentence information;
Correction rule candidate selection means for selecting one correction rule candidate based on a sentence composition index from correction rule candidates for each category of correction reference sentence information ;
Category selection means for selecting a category having the highest score based on the sentence composition index of the correction rule for the correction rule candidate selected for each category of the correction reference sentence information;
A correction rule selection means for selecting a correction rule based on the selected category;
Causing the computer to function as a correction rule applying means for correcting the sentence information to be analyzed by applying the selected correction rule ;
The sentence composition index includes (1) the higher the appearance frequency of the character string corresponding to the correction rule candidate, (2) the shorter the edit distance between the unknown word and the correction morpheme based on the correction rule candidate, and / or (3) The index is a higher score as the difference between the morphological analysis cost values before and after the correction is smaller .

本発明の文章修正プログラム、方法及び文章解析サーバによれば、口語的な「くだけた表現」で記述された文章情報であっても、形態素解析によって未知語と判断されることのない、文章解析に適した文章に修正することができる。   According to the sentence correction program, method, and sentence analysis server of the present invention, even sentence information described in colloquial “kudaku expression” is not judged as an unknown word by morphological analysis. It can be corrected to a sentence suitable for.

本発明における文章修正プログラムの機能構成図である。It is a functional block diagram of the text correction program in this invention. 本発明におけるカテゴリ及び修正ルールの選択の説明図である。It is explanatory drawing of selection of the category and correction rule in this invention. 本発明における文章解析サーバのシステム構成図である。It is a system configuration | structure figure of the text analysis server in this invention. 本発明におけるシステムのシーケンス図である。It is a sequence diagram of a system in the present invention.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明における文章修正プログラムの機能構成図である。   FIG. 1 is a functional configuration diagram of a sentence correction program according to the present invention.

図1によれば、文章修正プログラム1は、基準文章記憶部11と、未知語抽出部12と、検索キー生成部13と、修正ルール検索部14と、修正ルール候補選択部15と、カテゴリ選択部16と、修正ルール選択部17と、修正ルール適用部18とを有する。基準文章記憶部11を除くこれら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。尚、各機能部の処理の流れは、コンピュータを用いた文章修正方法として実行できる。   According to FIG. 1, the sentence correction program 1 includes a reference sentence storage unit 11, an unknown word extraction unit 12, a search key generation unit 13, a correction rule search unit 14, a correction rule candidate selection unit 15, and a category selection. Unit 16, correction rule selection unit 17, and correction rule application unit 18. These functional units other than the reference text storage unit 11 can be realized by executing a program that causes a computer installed in the apparatus to function. The processing flow of each functional unit can be executed as a text correction method using a computer.

基準文章記憶部11は、修正基準文章情報の集合(カテゴリ)を記憶する。修正基準文章は、例えば技術文書、ブログテキスト、雑誌記事及び新聞記事のような様々な分野の文章を含む。基準文章記憶部11は、修正基準文章情報を、文章内容のカテゴリ又は特徴語によって分類していてもよいし、文章の内容的日時(又は作成日時)によって分類していてもよい。本発明によれば、修正対象文章情報に対して、基準文章記憶部11に記憶された全てのカテゴリ(修正基準文章情報の集合)が総当たり的に比較される。基準文章記憶部11は、修正ルール検索部14によって検索される。   The reference sentence storage unit 11 stores a set (category) of corrected reference sentence information. The corrected reference text includes texts in various fields such as technical documents, blog texts, magazine articles, and newspaper articles. The reference sentence storage unit 11 may classify the corrected reference sentence information according to the sentence content category or feature word, or may be classified according to the sentence content date and time (or creation date and time). According to the present invention, all categories (a set of corrected reference sentence information) stored in the reference sentence storage unit 11 are compared with the correction target sentence information in a brute force manner. The reference text storage unit 11 is searched by the correction rule search unit 14.

未知語抽出部12は、解析対象文章情報を入力する。解析対象文章情報は、Webサイトに公開されているブログ、掲示板又はクチコミコメントのような不特定多数のユーザによって記述された文章情報であってもよい。未知語抽出部12は、その解析対象文章情報を形態素解析によって形態素に分割する。ここで、くだけた表現を含む解析対象文章を、例に挙げて説明する。
解析対象文章 :えーゆーはかっこいい
形態素解析結果:えーゆー(未知語)/は/かっこいい
くだけた表現は、形態素解析辞書に登録されていない場合が多い。そこで、形態素解析辞書に登録されていない表現「えーゆー」は、未知語として処理される。
The unknown word extraction unit 12 inputs analysis target sentence information. The analysis target sentence information may be sentence information described by an unspecified number of users such as a blog, a bulletin board, or a word-of-mouth comment published on a website. The unknown word extraction unit 12 divides the analysis target sentence information into morphemes by morphological analysis. Here, an analysis target sentence including a complicated expression will be described as an example.
Text to be analyzed: E-yu is cool morphological analysis results: E-yu (unknown word) / ha / cool expressions are often not registered in the morphological analysis dictionary. Therefore, the expression “e-yu” that is not registered in the morphological analysis dictionary is processed as an unknown word.

未知語抽出部12は、解析対象文章から未知語を検出した場合、形態素解析によって抽出された未知語と、未知語に隣接する形態素とを合わせた文字列とを、検索キー生成部13へ出力する。また、未知語抽出部12は、未知語が検出された解析対象文章情報を修正ルール候補選択部15と、修正ルール適用部18とへ出力する。   When the unknown word extraction unit 12 detects an unknown word from the analysis target sentence, the unknown word extraction unit 12 outputs a character string obtained by combining the unknown word extracted by the morphological analysis and the morpheme adjacent to the unknown word to the search key generation unit 13. To do. Further, the unknown word extraction unit 12 outputs the analysis target sentence information in which the unknown word is detected to the correction rule candidate selection unit 15 and the correction rule application unit 18.

検索キー生成部13は、未知語と、その未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる「検索キー」を生成する。ここで、未知語と、それに隣接する前方後方の各1形態素とが、検索キーの生成に利用されたものとして説明する。
入力文字列 :えーゆー(未知語)/は/かっこいい
検索キー :*はかっこいい(ここで「*」は1以上の任意文字列を示す。)
The search key generation unit 13 generates a “search key” composed of an unknown word and at least one of the adjacent morphemes ahead and behind the unknown word. Here, it is assumed that the unknown word and each of the front and rear morphemes adjacent to the unknown word are used for generating the search key.
Input string: e-yu (unknown word) / ha / cool search key: * is cool (where "*" indicates one or more arbitrary character strings)

検索キー生成部13は、未知語を任意文字列(例えばワイルドカード)とし、任意文字列と、未知語に隣接する文字列と合わせた「検索キー」を生成する。勿論、未知語は、2以上連続するものであってもよい。また、隣接する形態素は、未知語に対する前方及び後方の少なくとも一方があればよい。同様に、隣接する形態素も、2形態素以上連続するものであってもよい。検索キー生成部13は、生成した検索キーを修正ルール検索部14へ出力する。   The search key generation unit 13 sets an unknown word as an arbitrary character string (for example, a wild card), and generates a “search key” that combines the arbitrary character string and a character string adjacent to the unknown word. Of course, the unknown word may be two or more consecutive words. Moreover, the adjacent morpheme should just have at least one of the front and back with respect to an unknown word. Similarly, two or more adjacent morphemes may be continuous. The search key generation unit 13 outputs the generated search key to the correction rule search unit 14.

修正ルール検索部14は、基準文章記憶部11に記憶されたカテゴリ毎に、「検索キー」を含む修正候補文字列を抽出する。そして、修正ルール検索部14は、抽出した修正候補文字列中の任意文字列に該当する部分を、未知語に近似する部分と判断し、修正ルール候補として抽出する。修正ルールとは、未知語(例えば「ヵゎぃぃ」)から、修正候補文字列(例えば「かわいい」)へ文字列変換するためのルールをいう。   The correction rule search unit 14 extracts a correction candidate character string including a “search key” for each category stored in the reference text storage unit 11. Then, the correction rule search unit 14 determines that the portion corresponding to the arbitrary character string in the extracted correction candidate character string is a portion that approximates an unknown word, and extracts it as a correction rule candidate. The correction rule is a rule for converting a character string from an unknown word (for example, “Kanyi”) into a correction candidate character string (for example, “cute”).

修正ルール検索部14は、例えば、以下の修正候補文字列を得る。修正ルール検索部14は、抽出した修正候補文字列中の任意文字列に該当する部分から、カテゴリ毎に、1以上の修正ルール候補を抽出する。
検索キー :「*はかっこいい」
カテゴリ :1
修正候補文字列:英雄/は/かっこいい
修正ルール候補:えーゆー⇒英雄
カテゴリ :2
修正候補文字列:au/は/かっこいい
修正ルール候補:えーゆー⇒au
カテゴリ :2
修正候補文字列:エイユウ/は/かっこいい
修正ルール候補:えーゆー⇒エイユウ
The correction rule search unit 14 obtains the following correction candidate character strings, for example. The correction rule search unit 14 extracts one or more correction rule candidates for each category from the portion corresponding to the arbitrary character string in the extracted correction candidate character string.
Search key: “* is cool”
Category: 1
Candidates for correction: Hero / Ha / Cool Good Candidates for correction: E-yu ⇒ Hero Category: 2
Correction candidate character string: au / ha / cool Good correction rule candidate: e-yu ⇒au
Category: 2
Correction candidate string: Aiyu / Ha / Cool Correction rule candidate: E-yu ⇒ Aiyu

検索キーによる検索によって得られる修正ルール候補は、2以上であってもよい。修正ルール検索部14は、検索キーによる検索によって得た全ての修正ルールを、修正ルール候補選択部15へ出力する。   Two or more correction rule candidates may be obtained by a search using a search key. The correction rule search unit 14 outputs all the correction rules obtained by the search using the search key to the correction rule candidate selection unit 15.

修正ルール候補選択部15は、同一カテゴリに基づいて抽出された修正ルール候補が2以上ある場合は、各カテゴリにつき1つ、文章構成指標に基づいて文脈に適した修正ルール候補を選択する。   If there are two or more correction rule candidates extracted based on the same category, the correction rule candidate selection unit 15 selects one correction rule candidate suitable for the context based on the sentence composition index, one for each category.

文章構成指標は、(1)修正ルール候補における出現頻度、(2)未知語と、修正ルール候補に基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分から算出される指標をいう。修正ルール候補選択部15は、この文章構成指標に基づいて1つの修正ルール候補を選択する。   The sentence composition index includes (1) the appearance frequency in the correction rule candidate, (2) the edit distance between the unknown word and the correction morpheme based on the correction rule candidate, and / or (3) before and after the correction. An index calculated from the difference between morphological analysis cost values. The correction rule candidate selection unit 15 selects one correction rule candidate based on the sentence composition index.

修正ルール候補選択部15は、例えば、以下の修正ルール候補を入力したとする。
修正ルール候補:カテゴリ2 えーゆー⇒au
カテゴリ2 えーゆー⇒エイユウ
For example, it is assumed that the correction rule candidate selection unit 15 inputs the following correction rule candidates.
Correction rule candidate: Category 2 e-yu ⇒ au
Category 2 E-yu ⇒ Aiyu

(1)修正ルール候補における出現頻度
修正ルール候補における出現頻度は、検索された修正ルール候補に該当する文字列が出現した頻度をいう。以下の表では、その文字列の出現頻度に基づくスコアリングの例を表す。

Figure 0005448744
(1) frequency of occurrence frequency modification rule candidate in the modified rule candidate refers to how often Rubun string to correspond to the found modified rule candidate has emerged. The following table represents an example of a scoring based on the appearance frequency of the string.
Figure 0005448744

出現頻度が高い文字列は、未知語が出現した文脈と類似した文脈の中で頻繁に利用される表現であると考えられ、修正候補文字列である可能性が高い。一方、類似した文脈の中であまり利用されていない表現は、修正候補文字列ではない可能性が高い。そこで、出現頻度の高い修正ルール候補は、スコアが高くなる。スコアは、出現頻度を検索件数で割り、正規化することにより、検索件数に依存しないものとしてもよい。   A character string having a high appearance frequency is considered to be an expression that is frequently used in a context similar to the context in which the unknown word appears, and is likely to be a correction candidate character string. On the other hand, an expression that is not frequently used in a similar context is highly likely not to be a correction candidate character string. Therefore, a correction rule candidate with a high appearance frequency has a high score. The score may be independent of the number of searches by dividing the appearance frequency by the number of searches and normalizing the score.

(2)未知語と、修正ルール候補に基づく修正形態素との間の編集距離
編集距離とは、二つの文字列がどの程度異なっているかを表す指標であり、一方の文字列を他方の文字列に変換するために必要な挿入、削除、置換の最小回数として与えられる。修正ルールに基づく修正形態素は、未知語に対して少数文字の挿入や削除、置換を実行したものであることが多い。例えば、「フォーラム」から「ファーム」への編集は、「ォ」を「ァ」に置換し、「ラ」を削除する方法が、最小の編集回数である2回となるため、編集距離は2である。以下の表は、編集距離に基づくスコアリングの例を表す。

Figure 0005448744
(2) Edit distance between an unknown word and a modified morpheme based on a modification rule candidate An edit distance is an index indicating how different two character strings are, and one character string is replaced with the other character string. Is given as the minimum number of insertions, deletions and substitutions required to convert to. In many cases, a modified morpheme based on a modification rule is obtained by inserting, deleting, or replacing a small number of characters in an unknown word. For example, in the editing from “Forum” to “Farm”, the method of replacing “o” with “a” and deleting “La” is the minimum number of editing times, so the editing distance is 2 It is. The following table shows an example of scoring based on edit distance.
Figure 0005448744

編集距離の小さい修正ルール候補は、スコアが高くなる。また、Web文書では、「ヤバい」や「カッコイイ」のように本来ひらがなで表記されるべき語がカタカナで表記されている例が多い。そのため、例えば、カタカナをひらがなに置換する編集距離を小さくする重み付き編集距離を用いてもよい。   A correction rule candidate with a small editing distance has a high score. In many Web documents, words that should be originally written in hiragana, such as “Yabai” or “Cool”, are often written in katakana. Therefore, for example, a weighted editing distance that reduces the editing distance for replacing katakana with hiragana may be used.

(3)形態素解析コスト値の差分
形態素解析コスト値とは、複数ある単語区切りの中で、その単語区切りがどのくらい確からしいかを表す指標である。形態素解析コスト値は、例えば、単語単体での出現確率(生起コスト)や複数単語が連続して出現する確率(連接コスト)から算出される。形態素解析コスト値は、修正ルール候補の文脈における適応度を評価する指標として用いられる。
(3) Difference in morpheme analysis cost value The morpheme analysis cost value is an index representing how probable the word break is among a plurality of word breaks. The morpheme analysis cost value is calculated from, for example, the appearance probability (occurrence cost) of a single word or the probability that a plurality of words appear continuously (concatenation cost). The morphological analysis cost value is used as an index for evaluating the fitness in the context of the correction rule candidate.

文全体の形態素解析コスト値は、文頭から文末までの各形態素の連接コストと単語生起コストとの和を累積して算出する(累積コスト)。修正ルールの適用により、文脈における適応度が高い表現が生成された場合、その表現周辺の生起コストや連接コストは小さくなるため、文全体の形態素解析コスト値は小さくなる。一方、文脈における適応度が低い表現が生成された場合、その表現周辺の生起コストや連接コストは大きくなるため、文全体の形態素解析コスト値は大きくなる。   The morpheme analysis cost value of the entire sentence is calculated by accumulating the sum of the concatenation cost of each morpheme from the beginning of the sentence to the end of the sentence and the word occurrence cost (accumulated cost). When an expression having a high degree of fitness in context is generated by applying the correction rule, the occurrence cost and the concatenation cost around the expression are reduced, so the morphological analysis cost value of the entire sentence is reduced. On the other hand, when an expression with low fitness in the context is generated, the occurrence cost and the connection cost around the expression increase, and the morphological analysis cost value of the entire sentence increases.

ここでは、修正ルール候補適用後の文全体の形態素解析コスト値と、修正前の文全体の形態素解析コスト値との差分から、形態素解析コスト値に基づくスコアとして算出する。修正ルールによって生成された表現が文脈に適応する場合、算出されるスコアは高くなる。   Here, a score based on the morphological analysis cost value is calculated from the difference between the morphological analysis cost value of the entire sentence after application of the correction rule candidate and the morphological analysis cost value of the entire sentence before the correction. If the expression generated by the correction rule adapts to the context, the calculated score will be high.

文章構成指標(score)は、(1)修正ルール候補における出現頻度(freq)、(2)未知語と、修正ルール候補に基づく修正形態素との間の編集距離(dist)、及び/又は、(3)形態素解析コスト値の差分(cost)から、例えば、以下の計算式により算出する。
score=α・freq+β・dist+γ・cost
ここで、α、β、γは、重み付け関数であり、修正ルールの適用と学習により、最適値を算出することができる。また、修正ルールは、適用する閾値を設定することができる。閾値を低く設定した場合、適用される修正ルールは増加するが、その中に含まれる修正ルールの誤適用も増加する。一方、閾値を高く設定した場合、適用される修正ルールは減少するが、その中に含まれる修正ルールの誤適用も減少させることができる。
The sentence composition index (score) includes (1) the appearance frequency (freq) in the correction rule candidate, (2) the edit distance (dist) between the unknown word and the correction morpheme based on the correction rule candidate, and / or ( 3) From the difference (cost) of the morpheme analysis cost value, for example, the following formula is used.
score = α ・ freq + β ・ dist + γ ・ cost
Here, α, β, and γ are weighting functions, and optimum values can be calculated by applying and learning correction rules. The correction rule can set a threshold value to be applied. When the threshold is set low, the number of correction rules to be applied increases, but the erroneous application of the correction rules included therein also increases. On the other hand, when the threshold value is set high, the number of correction rules to be applied decreases, but the erroneous application of the correction rules included therein can also be reduced.

修正ルール候補選択部15は、カテゴリ毎に、文章構成指標に基づいて文脈に適した1つの修正ルール候補を選択する。ここで、修正ルール候補選択部15は、閾値以上且つ最大のスコアを持つ修正ルール候補を選択してもよい。修正ルール候補選択部15は、選択した1つの修正ルール候補を、カテゴリ選択部16へ出力する。   The correction rule candidate selection unit 15 selects one correction rule candidate suitable for the context based on the sentence composition index for each category. Here, the correction rule candidate selection unit 15 may select a correction rule candidate having a maximum score that is equal to or greater than the threshold. The correction rule candidate selection unit 15 outputs the selected correction rule candidate to the category selection unit 16.

カテゴリ選択部16は、修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、文章構成指標に基づくスコアを比較する。カテゴリ選択部16は、最もスコアが高い修正ルール候補が抽出されたカテゴリ(修正基準文章情報の集合)を選択する。カテゴリ選択部16は、選択されたカテゴリを修正ルール選択部17へ出力する。   The category selection unit 16 compares scores based on the sentence composition index for the correction rule candidates selected for each category of the correction reference sentence information. The category selection unit 16 selects a category (a set of correction reference sentence information) from which the correction rule candidate with the highest score is extracted. The category selection unit 16 outputs the selected category to the correction rule selection unit 17.

以下の表は、文章構成指標に基づくスコアリングの例を表す。

Figure 0005448744
The following table shows an example of scoring based on the sentence composition index.
Figure 0005448744

一般に、特定のカテゴリと関連性の強い単語は、そのカテゴリに偏って出現する傾向があるため、文章構成指標に基づくスコアが高くなる。例えば、カテゴリ1が新聞記事文章で、カテゴリ2がIT関連文章である場合、一般的な単語である「英雄」が新聞記事文章中に出現する確率よりも、「au」がIT関連文章中に出現する確率の方が高い。そこで、修正ルール候補「えーゆ⇒au」の文章構成指標に基づくスコアの方が、修正ルール候補「えーゆ⇒英雄」のスコアよりも高くなり、カテゴリ2が選択される。   In general, a word that is strongly related to a specific category tends to appear biased in that category, and thus the score based on the sentence composition index is high. For example, when category 1 is a newspaper article sentence and category 2 is an IT-related sentence, “au” is present in the IT-related sentence rather than the probability that a common word “hero” appears in the newspaper article sentence. The probability of appearing is higher. Therefore, the score based on the sentence composition index of the correction rule candidate “eyu ⇒ au” is higher than the score of the correction rule candidate “eyu ⇒ hero”, and category 2 is selected.

修正ルール選択部17は、選択されたカテゴリに基づく修正ルールを選択する。修正ルール選択部17は、その修正ルールを修正ルール適用部18へ出力する。   The correction rule selection unit 17 selects a correction rule based on the selected category. The correction rule selection unit 17 outputs the correction rule to the correction rule application unit 18.

修正ルール適用部18は、解析対象文章に修正ルールを適用する。修正ルール適用部18から出力された修正済みの文章情報は、様々な文章解析に適するものとなる。   The correction rule application unit 18 applies the correction rule to the analysis target sentence. The corrected text information output from the correction rule application unit 18 is suitable for various text analysis.

本発明の特徴は、解析対象文章に対して、適切な修正基準文章のカテゴリを文章構成指標に基づくスコアによって選択することにある。従って、修正ルール検索部14と、修正ルール候補選択部15と、カテゴリ選択部16と、修正ルール選択部17とにおける実施形態を、以下の図2によって説明する。   A feature of the present invention resides in that an appropriate correction reference sentence category is selected based on a sentence composition index for an analysis target sentence. Therefore, an embodiment of the correction rule search unit 14, the correction rule candidate selection unit 15, the category selection unit 16, and the correction rule selection unit 17 will be described with reference to FIG.

図2は、本発明におけるカテゴリ及び修正ルールの選択の説明図である。   FIG. 2 is an explanatory diagram of selection of categories and correction rules in the present invention.

(S21)基準文章記憶部11は、内容、特徴語、及び/又は、日時情報に応じて、複数のカテゴリに分類されている修正基準文章情報の集合を記憶する。修正ルール検索部14は、基準文章記憶部11をカテゴリ毎に検索する。
(S22)修正ルール検索部14は、カテゴリ毎に、検索キーを含む修正候補文字列を抽出する。そして、修正ルール検索部14は、抽出した修正候補文字列中の任意文字列に該当する部分を、未知語に近似する部分と判断し、修正ルール候補として抽出する。ここで、抽出された修正ルール候補は、抽出元のカテゴリと対応付けられる。例えば、「カテゴリ1」に分類されている修正基準文章に基づいて抽出された修正ルール候補は、「修正ルール候補1」と対応付けられる。カテゴリと対応付けられた修正ルール候補は、各カテゴリにつき2つ以上あってもよい。
(S23)それぞれの修正ルール候補は、修正ルール候補選択部15に出力される。
(S24)修正ルール候補選択部15は、各カテゴリにつき1つ、文章構成指標に基づいて文脈に適した修正ルール候補を選択する。修正ルール候補選択部15は、選択した修正ルール候補を、カテゴリ選択部16へ出力する。
(S25)カテゴリ選択部16は、選択されたカテゴリを修正ルール選択部17へ出力する。修正ルール選択部17は、選択されたカテゴリに基づく修正ルールを選択する。
(S21) The reference sentence storage unit 11 stores a set of corrected reference sentence information classified into a plurality of categories according to contents, feature words, and / or date and time information. The correction rule search unit 14 searches the reference text storage unit 11 for each category.
(S22) The correction rule search unit 14 extracts a correction candidate character string including a search key for each category. Then, the correction rule search unit 14 determines that the portion corresponding to the arbitrary character string in the extracted correction candidate character string is a portion that approximates an unknown word, and extracts it as a correction rule candidate. Here, the extracted correction rule candidates are associated with the category of the extraction source. For example, a correction rule candidate extracted based on a correction reference sentence classified as “category 1” is associated with “correction rule candidate 1”. There may be two or more correction rule candidates associated with a category for each category.
(S23) Each correction rule candidate is output to the correction rule candidate selection unit 15.
(S24) The correction rule candidate selection unit 15 selects one correction rule candidate suitable for the context based on the sentence composition index, one for each category. The correction rule candidate selection unit 15 outputs the selected correction rule candidate to the category selection unit 16.
(S25) The category selection unit 16 outputs the selected category to the correction rule selection unit 17. The correction rule selection unit 17 selects a correction rule based on the selected category.

図3は、本発明における文章解析サーバのシステム構成図である。   FIG. 3 is a system configuration diagram of the sentence analysis server in the present invention.

図3によれば、文章解析サーバ2は、通信インタフェース部20と、解析対象文章入力部21と、文章修正機能部22とを有する。文章解析サーバ2は、通信インタフェース部20を介してインターネットに接続する。   According to FIG. 3, the sentence analysis server 2 includes a communication interface unit 20, an analysis target sentence input unit 21, and a sentence correction function unit 22. The sentence analysis server 2 connects to the Internet via the communication interface unit 20.

また、図3によれば、文章解析サーバ2は、インターネットを介して、Webサーバ3と通信することができる。また、Webサーバ3は、投稿者用端末4から接続される。   Moreover, according to FIG. 3, the text analysis server 2 can communicate with the Web server 3 via the Internet. The Web server 3 is connected from the poster terminal 4 for contributors.

Webサーバ3は、投稿者用端末4から受信した、解析対象文章であるブログテキスト及びクチコミコメントのようなWeb文書を公開する。文章解析サーバ2は、インターネットを介して、Webサーバ3から、そのWeb文書を解析対象文章として取得する。   The Web server 3 publishes Web documents such as blog texts and word-of-mouth comments, which are analysis target sentences, received from the terminal 4 for contributors. The sentence analysis server 2 acquires the Web document as an analysis target sentence from the Web server 3 via the Internet.

解析対象文章入力部21は、通信インタフェース部20を介して、解析対象文章を受信する。その解析対象文章を、文章修正機能部22へ出力される。   The analysis target sentence input unit 21 receives the analysis target sentence via the communication interface unit 20. The analysis target sentence is output to the sentence correction function unit 22.

文章修正機能部22は、図1で前述した機能構成部と全く同様である。文章修正機能部22は、解析対象文章入力部21から解析対象文章を入力し、修正後文章を出力する。   The sentence correction function unit 22 is exactly the same as the function configuration unit described above with reference to FIG. The sentence correction function unit 22 inputs the analysis target sentence from the analysis target sentence input unit 21 and outputs the corrected sentence.

図4は、本発明におけるシステムのシーケンス図である。   FIG. 4 is a sequence diagram of the system according to the present invention.

(S401)投稿者用端末4は、解析対象文章であるブログテキストをWebサーバ3へ投稿する。
(S402)文章解析サーバ2は、Webサーバ3から解析対象文章情報(「えーゆーはかっこいい」)を取得する。その解析対象文章は、文章修正機能部22へ入力される。
(S403)文章修正機能部22は、解析対象文章情報を形態素に分割する。形態素に未知語が含まれていた場合、その未知語が抽出される。
(S404)文章修正機能部22は、S403で抽出した未知語と、その未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する。
(S405)文章修正機能部22は、修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する。
(S406)文章修正機能部22は、修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する。
(S407)文章修正機能部22は、修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する。
(S408)文章修正機能部22は、S407で選択されたカテゴリに基づく修正ルールを選択する。文章修正機能部22は、選択した修正ルールを解析対象文章に適用し、修正後文章(「auはかっこいい」)を出力する。
(S401) The contributor terminal 4 posts the blog text, which is the analysis target sentence, to the Web server 3.
(S402) The sentence analysis server 2 acquires the analysis target sentence information ("E-yu is cool") from the Web server 3. The analysis target sentence is input to the sentence correction function unit 22.
(S403) The sentence correction function unit 22 divides the analysis target sentence information into morphemes. If an unknown word is included in the morpheme, the unknown word is extracted.
(S404) The sentence correction function unit 22 generates a search key including the unknown word extracted in S403 and at least one of the adjacent morphemes ahead and behind the unknown word.
(S405) The sentence correction function unit 22 searches for one or more correction rule candidates that approximate an unknown word using a search key for each category of the correction reference sentence information.
(S406) The sentence correction function unit 22 selects one correction rule candidate from the correction rule candidates for each category of the correction reference sentence information based on the sentence composition index.
(S407) The sentence correction function unit 22 selects a category having the highest score based on the sentence composition index of the correction rule for the correction rule candidate selected for each category of the correction reference sentence information.
(S408) The sentence correction function unit 22 selects a correction rule based on the category selected in S407. The sentence correction function unit 22 applies the selected correction rule to the analysis target sentence, and outputs the corrected sentence (“au is cool”).

以上、詳細に説明したように、本発明の文章修正プログラム、方法及び文章解析サーバによれば、口語的な「くだけた表現」で記述された文章情報であっても、形態素解析によって未知語と判断されることのない、文章解析に適した文章に修正することができる。   As described above in detail, according to the sentence correction program, method, and sentence analysis server of the present invention, even sentence information described in colloquial “complex expression” can be identified as unknown words by morphological analysis. It can be corrected to a sentence suitable for sentence analysis without being judged.

解析対象文章に内容的に類似する修正基準文章情報の集合(カテゴリ)を用いることによって、解析対象文章を、関連性のある意味内容の文章に修正することができる。また、解析対象文章の記述日時又は作成日時に近い修正基準文章情報の集合を用いることによって、文章作成時の流行を反映した文章に修正することができる。これにより、異なる意味内容の文章に修正されたり、過剰に修正されることなく、文章を修正することができる。   By using a set (category) of correction reference sentence information that is similar in content to the analysis target sentence, the analysis target sentence can be corrected to a sentence having relevant semantic content. Further, by using a set of correction standard sentence information close to the description date or creation date and time of the analysis target sentence, the sentence can be corrected to reflect the trend at the time of sentence creation. As a result, the sentence can be corrected without being corrected to a sentence having a different meaning or excessively corrected.

また、修正基準文章が、形態素解析の精度が高い一定の文章(例えば新聞記事のみ)である場合と比較して、修正後の文章における未知語の割合を減少させることができ、文章修正の精度を上げることができる。   In addition, compared to the case where the correction reference sentence is a fixed sentence (for example, only newspaper articles) with high accuracy of morphological analysis, the proportion of unknown words in the corrected sentence can be reduced, and the accuracy of sentence correction can be reduced. Can be raised.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 文章修正プログラム
11 基準文章記憶部
12 未知語抽出部
13 検索キー生成部
14 修正ルール検索部
15 修正ルール候補選択部
16 カテゴリ選択部
17 修正ルール選択部
18 修正ルール適用部
2 文章解析サーバ
20 通信インタフェース部
21 解析対象文章入力部
22 文章修正機能部
3 Webサーバ
4 投稿用端末
DESCRIPTION OF SYMBOLS 1 Text correction program 11 Standard text memory | storage part 12 Unknown word extraction part 13 Search key generation part 14 Correction rule search part 15 Correction rule candidate selection part 16 Category selection part 17 Correction rule selection part 18 Correction rule application part 2 Text analysis server 20 Communication Interface section 21 Analysis target sentence input section 22 Sentence correction function section 3 Web server 4 Posting terminal

Claims (5)

未知語を含む解析対象文章情報に対して、該未知語を修正するようにコンピュータを機能させる文章修正プログラムであって、
不特定多数の第三者へ発信された複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
前記解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語に対応するワイルドカードと、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記ワイルドカードで検索された1つ以上の修正ルール候補を検索する修正ルール検索手段と、
前記修正基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
前記修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
選択された前記カテゴリに基づく修正ルールを選択する修正ルール選択手段と、
前記解析対象文章情報を、選択された前記修正ルールを適用して修正する修正ルール適用手段と
してコンピュータを機能させ
前記文章構成指標は、(1)当該修正ルール候補に該当する文字列の出現頻度が多いほど、(2)前記未知語と前記修正ルール候補に基づく修正形態素との間の編集距離が短いほど、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分が小さいほど、高いスコアとなる指標である
ようにコンピュータを機能させることを特徴とする文章修正プログラム。
A sentence correction program that makes a computer function to correct an unknown word for analysis target sentence information including an unknown word,
A reference sentence storage means for storing a plurality of corrected reference sentence information transmitted to an unspecified number of third parties , classified into a plurality of categories, and stored;
An unknown word extracting means for dividing the analysis target sentence information into morphemes and extracting unknown words;
Search key generating means for generating a search key consisting of a wild card corresponding to the unknown word and at least one of the adjacent morphemes forward and backward with respect to the unknown word;
Correction rule search means for searching for one or more correction rule candidates searched by the wild card using the search key for each category of the correction reference sentence information;
Correction rule candidate selection means for selecting one correction rule candidate based on a sentence composition index from among the correction rule candidates for each category of the correction reference sentence information ;
For a correction rule candidate selected for each category of the correction reference text information, category selection means for selecting the category having the highest score based on the text composition index of the correction rule;
Correction rule selection means for selecting a correction rule based on the selected category;
Causing the computer to function as a correction rule applying means for correcting the analysis target sentence information by applying the selected correction rule ;
The sentence composition index is (1) the more frequently the character string corresponding to the correction rule candidate appears, and (2) the shorter the edit distance between the unknown word and the correction morpheme based on the correction rule candidate, And / or (3) an index with a higher score as the difference between the morphological analysis cost values before and after the correction is smaller
Sentence correction program characterized by making a computer function like
前記基準文章記憶手段は、複数の修正基準文章情報を分類する複数のカテゴリは、その特徴語、及び/又は、その日時情報に基づくものであることを特徴とする請求項1に記載の文章修正プログラム。 2. The sentence correction according to claim 1, wherein the plurality of categories for classifying the plurality of corrected reference sentence information are based on the feature words and / or the date / time information thereof. program. 前記解析対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることを特徴とする請求項1又は2に記載の文章修正プログラム。   The analysis target sentence information is sentence information described by an unspecified number of users in a blog (Weblog), bulletin board, and / or word-of-mouth comment published via a network. The sentence correction program described in. 未知語を含む解析対象文章情報に対して、コンピュータを用いて未知語を修正する文章修正方法であって、
不特定多数の第三者へ発信された複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
前記解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語に対応するワイルドカードと、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記ワイルドカードで検索された1つ以上の修正ルール候補を検索する第3のステップと、
前記修正基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する第4のステップと、
前記修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択する第5のステップと、
選択された前記カテゴリに基づく修正ルールを選択する第6のステップと、
前記解析対象文章情報を、選択された前記修正ルールを適用して修正する第7のステップと
を有し、
前記文章構成指標は、(1)当該修正ルール候補に該当する文字列の出現頻度が多いほど、(2)前記未知語と前記修正ルール候補に基づく修正形態素との間の編集距離が短いほど、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分が小さいほど、高いスコアとなる指標である
ことを特徴とする文章修正方法。
A sentence correction method for correcting unknown words using a computer with respect to analysis target sentence information including unknown words,
A reference sentence storage unit that stores a plurality of corrected reference sentence information transmitted to an unspecified number of third parties , classified into a plurality of categories, and stored.
An unknown word extracting means for dividing the analysis target sentence information into morphemes and extracting unknown words;
A second step of generating a search key comprising a wildcard corresponding to the unknown word and at least one of the adjacent morphemes forward and backward with respect to the unknown word;
A third step of searching for one or more correction rule candidates searched by the wild card using the search key for each category of the correction reference sentence information;
A fourth step of selecting one correction rule candidate based on a sentence composition index from among the correction rule candidates for each category of the correction reference sentence information;
For a correction rule candidate selected for each category of the correction reference text information, a fifth step of selecting the category having the highest score based on the text composition index of the correction rule;
A sixth step of selecting a correction rule based on the selected category;
The analyzed sentence information, have a <br/> a seventh step of modifying by applying the selected said modified rule,
The sentence composition index is (1) the more frequently the character string corresponding to the correction rule candidate appears, and (2) the shorter the edit distance between the unknown word and the correction morpheme based on the correction rule candidate, And / or (3) the sentence correction method, wherein the index is a higher score as the difference between the morphological analysis cost values before and after the correction is smaller .
未知語を含む解析対象文章情報を他の公開サーバからネットワークを介して取得し、該未知語を修正する文章解析サーバであって、
不特定多数の第三者へ発信された複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
前記解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語に対応するワイルドカードと、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記ワイルドカードで検索された1つ以上の修正ルール候補を検索する修正ルール検索手段と、
前記修正基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
前記修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
選択された前記カテゴリに基づく修正ルールを選択する修正ルール選択手段と、
前記解析対象文章情報を、選択された前記修正ルールを適用して修正する修正ルール適用手段と
してコンピュータを機能させ
前記文章構成指標は、(1)当該修正ルール候補に該当する文字列の出現頻度が多いほど、(2)前記未知語と前記修正ルール候補に基づく修正形態素との間の編集距離が短いほど、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分が小さいほど、高いスコアとなる指標である
を有することを特徴とする文章解析サーバ。
A sentence analysis server that acquires analysis target sentence information including an unknown word from another public server via a network, and corrects the unknown word,
A reference sentence storage means for storing a plurality of corrected reference sentence information transmitted to an unspecified number of third parties , classified into a plurality of categories, and stored;
An unknown word extracting means for dividing the analysis target sentence information into morphemes and extracting unknown words;
Search key generating means for generating a search key consisting of a wild card corresponding to the unknown word and at least one of the adjacent morphemes forward and backward with respect to the unknown word;
Correction rule search means for searching for one or more correction rule candidates searched by the wild card using the search key for each category of the correction reference sentence information;
Correction rule candidate selection means for selecting one correction rule candidate based on a sentence composition index from among the correction rule candidates for each category of the correction reference sentence information ;
For a correction rule candidate selected for each category of the correction reference text information, category selection means for selecting the category having the highest score based on the text composition index of the correction rule;
Correction rule selection means for selecting a correction rule based on the selected category;
Causing the computer to function as a correction rule applying means for correcting the analysis target sentence information by applying the selected correction rule ;
The sentence composition index is (1) the more frequently the character string corresponding to the correction rule candidate appears, and (2) the shorter the edit distance between the unknown word and the correction morpheme based on the correction rule candidate, And / or (3) a sentence analysis server having an index that has a higher score as the difference between the morphological analysis cost values before and after the correction is smaller .
JP2009265786A 2009-11-21 2009-11-21 Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words Expired - Fee Related JP5448744B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009265786A JP5448744B2 (en) 2009-11-21 2009-11-21 Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009265786A JP5448744B2 (en) 2009-11-21 2009-11-21 Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words

Publications (2)

Publication Number Publication Date
JP2011113099A JP2011113099A (en) 2011-06-09
JP5448744B2 true JP5448744B2 (en) 2014-03-19

Family

ID=44235416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009265786A Expired - Fee Related JP5448744B2 (en) 2009-11-21 2009-11-21 Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words

Country Status (1)

Country Link
JP (1) JP5448744B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678271B (en) * 2012-09-10 2016-09-14 华为技术有限公司 A kind of text correction method and subscriber equipment
JP6224811B1 (en) 2016-12-07 2017-11-01 たけおかラボ株式会社 Program, apparatus, and method having inference engine capable of selecting rule set

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203984A (en) * 2007-02-16 2008-09-04 Nec Corp Character string conversion apparatus and character string conversion method

Also Published As

Publication number Publication date
JP2011113099A (en) 2011-06-09

Similar Documents

Publication Publication Date Title
US11675977B2 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
US8660834B2 (en) User input classification
TWI536181B (en) Language identification in multilingual text
US20120072204A1 (en) Systems and methods for normalizing input media
Saloot et al. An architecture for Malay Tweet normalization
Seker et al. Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content.
JP2020126493A (en) Paginal translation processing method and paginal translation processing program
Richter et al. Korektor–a system for contextual spell-checking and diacritics completion
Şeker et al. Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content 1
Frey et al. The DiDi Corpus of South Tyrolean CMC Data
Albogamy et al. POS tagging for Arabic tweets
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
WO2019226406A1 (en) Dynamic extraction of contextually-coherent text blocks
Cotelo et al. A modular approach for lexical normalization applied to Spanish tweets
KR101023209B1 (en) Document translation apparatus and its method
JP5448744B2 (en) Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words
Wachsmuth et al. Back to the roots of genres: Text classification by language function
JP5339628B2 (en) Sentence classification program, method, and sentence analysis server for classifying sentences containing unknown words
JP5495425B2 (en) Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words
Ogrodniczuk et al. Lexical correction of polish twitter political data
US20090282074A1 (en) Document Creator
Carter Exploration and exploitation of multilingual data for statistical machine translation
JP2011113097A6 (en) Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words
JP5574526B2 (en) Hidden character correction program, method, and sentence analysis server for correcting a sentence including a hidden character

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131224

R150 Certificate of patent or registration of utility model

Ref document number: 5448744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees