JP2011113099A

JP2011113099A - 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ

Info

Publication number: JP2011113099A
Application number: JP2009265786A
Authority: JP
Inventors: Kazufumi Ikeda; 和史池田; Tadashi Yanagihara; 正柳原; Kazunori Matsumoto; 一則松本; Yasuhiro Takishima; 康弘滝嶋
Original assignee: KDDI R&D Laboratories Inc
Current assignee: KDDI Research Inc
Priority date: 2009-11-21
Filing date: 2009-11-21
Publication date: 2011-06-09
Anticipated expiration: 2029-11-21
Also published as: JP5448744B2

Abstract

【課題】口語的な「くだけた表現」で記述された文章情報であっても、未知語と判断されることのない、文章解析に適した文章に修正する文章修正プログラム等を提供する。
【解決手段】複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、未知語を抽出する未知語抽出手段と、未知語と隣接形態素とからなる検索キーを生成する検索キー生成手段と、修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する１つ以上の修正ルール候補を検索する修正ルール検索手段と、カテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて１つの修正ルール候補を選択する修正ルール候補選択手段と、カテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、選択されたカテゴリに基づく修正ルールを選択する修正ルール選択手段とを有する。
【選択図】図１

Description

本発明は、未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバに関する。

インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するＷｅｂサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらサイトは、親しみやすさから、口語的な「くだけた表現」で記述されることが多い。

近年、このようなサイトによって公開されるＷｅｂ文書も、情報抽出、検索及び統計処理の対象とされるようになってきた。これらＷｅｂ文書の文章内容を解析するために、少なくとも形態素解析が必要となる。形態素解析プログラムは、解析対象となる文章を形態素に分割する。英語の文章は、“This is a pen.”のように単語ごとに区切られた「分かち書き」にされている。これに対して、日本語の文章は、分かち書きされていないため、構文解析等に先立って、形態素解析による処理が必要となる。

「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。形態素解析プログラムは、「単語」毎に「品詞」「読み」が登録された辞書を有する。分割された形態素には、辞書を用いて「品詞」「読み」の情報が付与され、単語の配列を規定する文法規則を用いて文章を解析する。このように、形態素解析プログラムの解析精度は、辞書に依存する。そのため、辞書に登録されていない単語を含む文章は、十分な解析精度を得ることができない。

これに対し、ブログ、掲示板又はクチコミコメントによって公開されるＷｅｂ文書には、一般的に、以下のような「くだけた表現」が多数含まれる。
（１）「うっそー」「すごーい」のような会話における発音の変化傾向に併せた表記
（２）「カッコイイ」のように本来ひらがなで表記される語を意図的にカタカナにした表記
（３）「ヵゎぃぃ」（「かわいい」と読む）、「ゎたＵゎ」（「わたしは」と読む）のような特有の表記

これら表現は、一般的に、形態素解析プログラムの辞書には登録されていないために、「未知語」として処理される。辞書に登録されていない単語は、形態素相当の単位に分割された上で、「品詞」「読み」の情報に代えて「未知語」という情報のみが付与される。

勿論、「未知語」として処理された語を全て、人手によって辞書に登録することができれば、形態素解析の精度を向上させることができる。しかし、「未知語」の登録には、品詞及び活用形の登録、既存の辞書との互換性の維持といった、専門的な人手のスキルが必要となる。

これに対して、未知語を含む文章を形態素解析に適した文章に修正する技術がある（例えば非特許文献１参照）。この技術によれば、解析に失敗して「未知語」として出力されることを前提として、未知語を含む文章である解析対象文章を形態素解析する。そして、形態素解析の結果に基づいて、未知語の部分を任意文字列に置き換えた検索キーを生成する。生成された検索キーによって、修正基準文章から、自動的に修正候補文字列が検索され、修正候補文字列から１以上の修正ルールが生成される。生成された修正ルールは、（１）同じような文脈で頻繁に使用される表現か、（２）解析対象文章の表現から変化し過ぎていないか、（３）修正後の文章が日本語として自然か、といった指標を用いて、スコアリングされ、最適な修正ルールが選択される。解析対象文章は、選択された修正ルールによって、形態素解析に適した文章に修正される。

池田和史、柳原正、松本一則、滝嶋康弘、「くだけた表現を修正するための教師なし学習方式の提案と評価」、第８回情報科学技術フォーラム、２００９

非特許文献１に記載された技術によれば、修正基準文章から検索された修正候補文字列に基づいて修正ルールが生成されるため、解析対象文章は、修正基準文章に依存して修正される。その結果、解析対象文章は、正しく形態素解析される文章には修正されても、異なる意味内容の文章に修正される場合や、過剰修正される場合があった。

また、非特許文献１に記載された技術によれば、修正基準文章には、例えば、新聞記事の文章のような形態素解析の解析精度が高い文章が用いられている。一般に、新聞記事の文章は、「定型的な表現」が多い。「定型的な表現」は、形態素解析プログラムの辞書に登録されている確率が高いため、新聞記事の文章は、形態素解析の精度が高い。

例えば、解析対象文章の「えーゆーはかっこいい」という表現は、新聞記事の文章を修正基準文章とすると、「英雄はかっこいい」と修正される。この解析対象文章がＩＴやコンピュータに関する文章であれば、この表現は、「ａｕはかっこいい」と修正されることが望ましい。

また、例えば、解析対象文章の「そんなの関係ねぇ」という表現は、「そんなの関係ない」と修正される。しかし、この解析対象文章が数年前の流行を反映した文章であれば、この表現は、「そんなの関係ねぇ」のまま修正されないことが望ましい。

そこで、本発明は、口語的な「くだけた表現」で記述された文章情報であっても、形態素解析によって未知語と判断されることのない、文章解析に適した文章に修正することができる文章修正プログラム、方法及び文章解析サーバを提供することを目的とする。

本発明によれば、未知語を含む解析対象文章情報に対して、該未知語を修正するようにコンピュータを機能させる文章修正プログラムであって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する１つ以上の修正ルール候補を検索する修正ルール検索手段と、
修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて１つの修正ルール候補を選択する修正ルール候補選択手段と
修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに基づく修正ルールを選択する修正ルール選択手段と
してコンピュータを機能させることを特徴とする。

本発明の文章修正プログラムにおける他の実施形態によれば、基準文章記憶手段は、複数の修正基準文章情報を、その内容に応じて、その特徴語に応じて、及び／又は、その日時情報に応じて、複数のカテゴリに分類していることも好ましい。

本発明の文章修正プログラムにおける他の実施形態によれば、解析対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び／又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることも好ましい。

本発明の文章修正プログラムにおける他の実施形態によれば、修正ルール候補選択手段は、文章構成指標として、（１）当該修正ルール候補における出現頻度、（２）未知語と修正ルール候補に基づく修正形態素との間の編集距離、及び／又は、（３）修正前と修正後との形態素解析コスト値の差分、に基づいて、カテゴリ毎に１つの修正ルールを選択することも好ましい。

本発明によれば、未知語を含む解析対象文章情報に対して、コンピュータを用いて未知語を修正する文章修正方法であって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
解析対象文章情報を形態素に分割し、未知語を抽出する第１のステップと、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第２のステップと、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する１つ以上の修正ルール候補を検索する第３のステップと、
修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて１つの修正ルール候補を選択する第４のステップと、
修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する第５のステップと、
選択されたカテゴリに基づく修正ルールを選択する第６のステップと
を有することを特徴とする。

本発明によれば、未知語を含む解析対象文章情報を他の公開サーバからネットワークを介して取得し、該未知語を修正する文章解析サーバであって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する１つ以上の修正ルールを検索する修正ルール検索手段と、
修正基準文章情報のカテゴリ毎に、修正ルールの中から、文章構成指標に基づいて１つの修正ルールを選択する修正ルール候補選択手段と
修正基準文章情報のカテゴリ毎に選択された修正ルールについて、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに基づく修正ルールを選択する修正ルール選択手段と
を有することを特徴とする。

本発明の文章修正プログラム、方法及び文章解析サーバによれば、口語的な「くだけた表現」で記述された文章情報であっても、形態素解析によって未知語と判断されることのない、文章解析に適した文章に修正することができる。

本発明における文章修正プログラムの機能構成図である。本発明におけるカテゴリ及び修正ルールの選択の説明図である。本発明における文章解析サーバのシステム構成図である。本発明におけるシステムのシーケンス図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明における文章修正プログラムの機能構成図である。

図１によれば、文章修正プログラム１は、基準文章記憶部１１と、未知語抽出部１２と、検索キー生成部１３と、修正ルール検索部１４と、修正ルール候補選択部１５と、カテゴリ選択部１６と、修正ルール選択部１７と、修正ルール適用部１８とを有する。基準文章記憶部１１を除くこれら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。尚、各機能部の処理の流れは、コンピュータを用いた文章修正方法として実行できる。

基準文章記憶部１１は、修正基準文章情報の集合（カテゴリ）を記憶する。修正基準文章は、例えば技術文書、ブログテキスト、雑誌記事及び新聞記事のような様々な分野の文章を含む。基準文章記憶部１１は、修正基準文章情報を、文章内容のカテゴリ又は特徴語によって分類していてもよいし、文章の内容的日時（又は作成日時）によって分類していてもよい。本発明によれば、修正対象文章情報に対して、基準文章記憶部１１に記憶された全てのカテゴリ（修正基準文章情報の集合）が総当たり的に比較される。基準文章記憶部１１は、修正ルール検索部１４によって検索される。

未知語抽出部１２は、解析対象文章情報を入力する。解析対象文章情報は、Ｗｅｂサイトに公開されているブログ、掲示板又はクチコミコメントのような不特定多数のユーザによって記述された文章情報であってもよい。未知語抽出部１２は、その解析対象文章情報を形態素解析によって形態素に分割する。ここで、くだけた表現を含む解析対象文章を、例に挙げて説明する。
解析対象文章：えーゆーはかっこいい
形態素解析結果：えーゆー（未知語）／は／かっこいい
くだけた表現は、形態素解析辞書に登録されていない場合が多い。そこで、形態素解析辞書に登録されていない表現「えーゆー」は、未知語として処理される。

未知語抽出部１２は、解析対象文章から未知語を検出した場合、形態素解析によって抽出された未知語と、未知語に隣接する形態素とを合わせた文字列とを、検索キー生成部１３へ出力する。また、未知語抽出部１２は、未知語が検出された解析対象文章情報を修正ルール候補選択部１５と、修正ルール適用部１８とへ出力する。

検索キー生成部１３は、未知語と、その未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる「検索キー」を生成する。ここで、未知語と、それに隣接する前方後方の各１形態素とが、検索キーの生成に利用されたものとして説明する。
入力文字列：えーゆー（未知語）／は／かっこいい
検索キー：＊はかっこいい（ここで「＊」は１以上の任意文字列を示す。）

検索キー生成部１３は、未知語を任意文字列（例えばワイルドカード）とし、任意文字列と、未知語に隣接する文字列と合わせた「検索キー」を生成する。勿論、未知語は、２以上連続するものであってもよい。また、隣接する形態素は、未知語に対する前方及び後方の少なくとも一方があればよい。同様に、隣接する形態素も、２形態素以上連続するものであってもよい。検索キー生成部１３は、生成した検索キーを修正ルール検索部１４へ出力する。

修正ルール検索部１４は、基準文章記憶部１１に記憶されたカテゴリ毎に、「検索キー」を含む修正候補文字列を抽出する。そして、修正ルール検索部１４は、抽出した修正候補文字列中の任意文字列に該当する部分を、未知語に近似する部分と判断し、修正ルール候補として抽出する。修正ルールとは、未知語（例えば「ヵゎぃぃ」）から、修正候補文字列（例えば「かわいい」）へ文字列変換するためのルールをいう。

修正ルール検索部１４は、例えば、以下の修正候補文字列を得る。修正ルール検索部１４は、抽出した修正候補文字列中の任意文字列に該当する部分から、カテゴリ毎に、１以上の修正ルール候補を抽出する。
検索キー：「＊はかっこいい」
カテゴリ：１
修正候補文字列：英雄／は／かっこいい
修正ルール候補：えーゆー⇒英雄
カテゴリ：２
修正候補文字列：ａｕ／は／かっこいい
修正ルール候補：えーゆー⇒ａｕ
カテゴリ：２
修正候補文字列：エイユウ／は／かっこいい
修正ルール候補：えーゆー⇒エイユウ

検索キーによる検索によって得られる修正ルール候補は、２以上であってもよい。修正ルール検索部１４は、検索キーによる検索によって得た全ての修正ルールを、修正ルール候補選択部１５へ出力する。

修正ルール候補選択部１５は、同一カテゴリに基づいて抽出された修正ルール候補が２以上ある場合は、各カテゴリにつき１つ、文章構成指標に基づいて文脈に適した修正ルール候補を選択する。

文章構成指標は、（１）修正ルール候補における出現頻度、（２）未知語と、修正ルール候補に基づく修正形態素との間の編集距離、及び／又は、（３）修正前と修正後との形態素解析コスト値の差分から算出される指標をいう。修正ルール候補選択部１５は、この文章構成指標に基づいて１つの修正ルール候補を選択する。

修正ルール候補選択部１５は、例えば、以下の修正ルール候補を入力したとする。
修正ルール候補：カテゴリ２えーゆー⇒ａｕ
カテゴリ２えーゆー⇒エイユウ

（１）修正ルール候補における出現頻度
修正ルール候補における出現頻度は、検索された修正ルール候補に該当する検索結果文字列が出現した頻度をいう。以下の表では、検索結果文字列の出現頻度に基づくスコアリングの例を表す。

出現頻度が高い文字列は、未知語が出現した文脈と類似した文脈の中で頻繁に利用される表現であると考えられ、修正候補文字列である可能性が高い。一方、類似した文脈の中であまり利用されていない表現は、修正候補文字列ではない可能性が高い。そこで、出現頻度の高い修正ルール候補は、スコアが高くなる。スコアは、出現頻度を検索件数で割り、正規化することにより、検索件数に依存しないものとしてもよい。

（２）未知語と、修正ルール候補に基づく修正形態素との間の編集距離
編集距離とは、二つの文字列がどの程度異なっているかを表す指標であり、一方の文字列を他方の文字列に変換するために必要な挿入、削除、置換の最小回数として与えられる。修正ルールに基づく修正形態素は、未知語に対して少数文字の挿入や削除、置換を実行したものであることが多い。例えば、「フォーラム」から「ファーム」への編集は、「ォ」を「ァ」に置換し、「ラ」を削除する方法が、最小の編集回数である２回となるため、編集距離は２である。以下の表は、編集距離に基づくスコアリングの例を表す。

編集距離の小さい修正ルール候補は、スコアが高くなる。また、Ｗｅｂ文書では、「ヤバい」や「カッコイイ」のように本来ひらがなで表記されるべき語がカタカナで表記されている例が多い。そのため、例えば、カタカナをひらがなに置換する編集距離を小さくする重み付き編集距離を用いてもよい。

（３）形態素解析コスト値の差分
形態素解析コスト値とは、複数ある単語区切りの中で、その単語区切りがどのくらい確からしいかを表す指標である。形態素解析コスト値は、例えば、単語単体での出現確率（生起コスト)や複数単語が連続して出現する確率（連接コスト）から算出される。形態素解析コスト値は、修正ルール候補の文脈における適応度を評価する指標として用いられる。

文全体の形態素解析コスト値は、文頭から文末までの各形態素の連接コストと単語生起コストとの和を累積して算出する（累積コスト）。修正ルールの適用により、文脈における適応度が高い表現が生成された場合、その表現周辺の生起コストや連接コストは小さくなるため、文全体の形態素解析コスト値は小さくなる。一方、文脈における適応度が低い表現が生成された場合、その表現周辺の生起コストや連接コストは大きくなるため、文全体の形態素解析コスト値は大きくなる。

ここでは、修正ルール候補適用後の文全体の形態素解析コスト値と、修正前の文全体の形態素解析コスト値との差分から、形態素解析コスト値に基づくスコアとして算出する。修正ルールによって生成された表現が文脈に適応する場合、算出されるスコアは高くなる。

文章構成指標(score)は、（１）修正ルール候補における出現頻度(freq)、（２）未知語と、修正ルール候補に基づく修正形態素との間の編集距離（dist）、及び／又は、（３）形態素解析コスト値の差分(cost)から、例えば、以下の計算式により算出する。
score＝α・freq＋β・dist＋γ・cost
ここで、α、β、γは、重み付け関数であり、修正ルールの適用と学習により、最適値を算出することができる。また、修正ルールは、適用する閾値を設定することができる。閾値を低く設定した場合、適用される修正ルールは増加するが、その中に含まれる修正ルールの誤適用も増加する。一方、閾値を高く設定した場合、適用される修正ルールは減少するが、その中に含まれる修正ルールの誤適用も減少させることができる。

修正ルール候補選択部１５は、カテゴリ毎に、文章構成指標に基づいて文脈に適した１つの修正ルール候補を選択する。ここで、修正ルール候補選択部１５は、閾値以上且つ最大のスコアを持つ修正ルール候補を選択してもよい。修正ルール候補選択部１５は、選択した１つの修正ルール候補を、カテゴリ選択部１６へ出力する。

カテゴリ選択部１６は、修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、文章構成指標に基づくスコアを比較する。カテゴリ選択部１６は、最もスコアが高い修正ルール候補が抽出されたカテゴリ（修正基準文章情報の集合）を選択する。カテゴリ選択部１６は、選択されたカテゴリを修正ルール選択部１７へ出力する。

以下の表は、文章構成指標に基づくスコアリングの例を表す。

一般に、特定のカテゴリと関連性の強い単語は、そのカテゴリに偏って出現する傾向があるため、文章構成指標に基づくスコアが高くなる。例えば、カテゴリ１が新聞記事文章で、カテゴリ２がＩＴ関連文章である場合、一般的な単語である「英雄」が新聞記事文章中に出現する確率よりも、「ａｕ」がＩＴ関連文章中に出現する確率の方が高い。そこで、修正ルール候補「えーゆ⇒ａｕ」の文章構成指標に基づくスコアの方が、修正ルール候補「えーゆ⇒英雄」のスコアよりも高くなり、カテゴリ２が選択される。

修正ルール選択部１７は、選択されたカテゴリに基づく修正ルールを選択する。修正ルール選択部１７は、その修正ルールを修正ルール適用部１８へ出力する。

修正ルール適用部１８は、解析対象文章に修正ルールを適用する。修正ルール適用部１８から出力された修正済みの文章情報は、様々な文章解析に適するものとなる。

本発明の特徴は、解析対象文章に対して、適切な修正基準文章のカテゴリを文章構成指標に基づくスコアによって選択することにある。従って、修正ルール検索部１４と、修正ルール候補選択部１５と、カテゴリ選択部１６と、修正ルール選択部１７とにおける実施形態を、以下の図２によって説明する。

図２は、本発明におけるカテゴリ及び修正ルールの選択の説明図である。

（Ｓ２１）基準文章記憶部１１は、内容、特徴語、及び／又は、日時情報に応じて、複数のカテゴリに分類されている修正基準文章情報の集合を記憶する。修正ルール検索部１４は、基準文章記憶部１１をカテゴリ毎に検索する。
（Ｓ２２）修正ルール検索部１４は、カテゴリ毎に、検索キーを含む修正候補文字列を抽出する。そして、修正ルール検索部１４は、抽出した修正候補文字列中の任意文字列に該当する部分を、未知語に近似する部分と判断し、修正ルール候補として抽出する。ここで、抽出された修正ルール候補は、抽出元のカテゴリと対応付けられる。例えば、「カテゴリ１」に分類されている修正基準文章に基づいて抽出された修正ルール候補は、「修正ルール候補１」と対応付けられる。カテゴリと対応付けられた修正ルール候補は、各カテゴリにつき２つ以上あってもよい。
（Ｓ２３）それぞれの修正ルール候補は、修正ルール候補選択部１５に出力される。
（Ｓ２４）修正ルール候補選択部１５は、各カテゴリにつき１つ、文章構成指標に基づいて文脈に適した修正ルール候補を選択する。修正ルール候補選択部１５は、選択した修正ルール候補を、カテゴリ選択部１６へ出力する。
（Ｓ２５）カテゴリ選択部１６は、選択されたカテゴリを修正ルール選択部１７へ出力する。修正ルール選択部１７は、選択されたカテゴリに基づく修正ルールを選択する。

図３は、本発明における文章解析サーバのシステム構成図である。

図３によれば、文章解析サーバ２は、通信インタフェース部２０と、解析対象文章入力部２１と、文章修正機能部２２とを有する。文章解析サーバ２は、通信インタフェース部２０を介してインターネットに接続する。

また、図３によれば、文章解析サーバ２は、インターネットを介して、Ｗｅｂサーバ３と通信することができる。また、Ｗｅｂサーバ３は、投稿者用端末４から接続される。

Ｗｅｂサーバ３は、投稿者用端末４から受信した、解析対象文章であるブログテキスト及びクチコミコメントのようなＷｅｂ文書を公開する。文章解析サーバ２は、インターネットを介して、Ｗｅｂサーバ３から、そのＷｅｂ文書を解析対象文章として取得する。

解析対象文章入力部２１は、通信インタフェース部２０を介して、解析対象文章を受信する。その解析対象文章を、文章修正機能部２２へ出力される。

文章修正機能部２２は、図１で前述した機能構成部と全く同様である。文章修正機能部２２は、解析対象文章入力部２１から解析対象文章を入力し、修正後文章を出力する。

図４は、本発明におけるシステムのシーケンス図である。

（Ｓ４０１）投稿者用端末４は、解析対象文章であるブログテキストをＷｅｂサーバ３へ投稿する。
（Ｓ４０２）文章解析サーバ２は、Ｗｅｂサーバ３から解析対象文章情報（「えーゆーはかっこいい」）を取得する。その解析対象文章は、文章修正機能部２２へ入力される。
（Ｓ４０３）文章修正機能部２２は、解析対象文章情報を形態素に分割する。形態素に未知語が含まれていた場合、その未知語が抽出される。
（Ｓ４０４）文章修正機能部２２は、Ｓ４０３で抽出した未知語と、その未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する。
（Ｓ４０５）文章修正機能部２２は、修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する１つ以上の修正ルール候補を検索する。
（Ｓ４０６）文章修正機能部２２は、修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて１つの修正ルール候補を選択する。
（Ｓ４０７）文章修正機能部２２は、修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する。
（Ｓ４０８）文章修正機能部２２は、Ｓ４０７で選択されたカテゴリに基づく修正ルールを選択する。文章修正機能部２２は、選択した修正ルールを解析対象文章に適用し、修正後文章（「ａｕはかっこいい」）を出力する。

以上、詳細に説明したように、本発明の文章修正プログラム、方法及び文章解析サーバによれば、口語的な「くだけた表現」で記述された文章情報であっても、形態素解析によって未知語と判断されることのない、文章解析に適した文章に修正することができる。

解析対象文章に内容的に類似する修正基準文章情報の集合（カテゴリ）を用いることによって、解析対象文章を、関連性のある意味内容の文章に修正することができる。また、解析対象文章の記述日時又は作成日時に近い修正基準文章情報の集合を用いることによって、文章作成時の流行を反映した文章に修正することができる。これにより、異なる意味内容の文章に修正されたり、過剰に修正されることなく、文章を修正することができる。

また、修正基準文章が、形態素解析の精度が高い一定の文章（例えば新聞記事のみ）である場合と比較して、修正後の文章における未知語の割合を減少させることができ、文章修正の精度を上げることができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１文章修正プログラム
１１基準文章記憶部
１２未知語抽出部
１３検索キー生成部
１４修正ルール検索部
１５修正ルール候補選択部
１６カテゴリ選択部
１７修正ルール選択部
１８修正ルール適用部
２文章解析サーバ
２０通信インタフェース部
２１解析対象文章入力部
２２文章修正機能部
３Ｗｅｂサーバ
４投稿用端末

Claims

未知語を含む解析対象文章情報に対して、該未知語を修正するようにコンピュータを機能させる文章修正プログラムであって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
前記解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する１つ以上の修正ルール候補を検索する修正ルール検索手段と、
前記修正基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて１つの修正ルール候補を選択する修正ルール候補選択手段と
前記修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
選択された前記カテゴリに基づく修正ルールを選択する修正ルール選択手段と
してコンピュータを機能させることを特徴とする文章修正プログラム。
前記基準文章記憶手段は、複数の修正基準文章情報を、その内容に応じて、その特徴語に応じて、及び／又は、その日時情報に応じて、複数のカテゴリに分類していることを特徴とする請求項１に記載の文章修正プログラム。
前記解析対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び／又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることを特徴とする請求項１又は２に記載の文章修正プログラム。
前記修正ルール候補選択手段は、前記文章構成指標として、（１）当該修正ルール候補における出現頻度、（２）前記未知語と前記修正ルール候補に基づく修正形態素との間の編集距離、及び／又は、（３）修正前と修正後との形態素解析コスト値の差分、に基づいて、前記カテゴリ毎に１つの修正ルールを選択することを特徴とする請求項１から３のいずれか１項に記載の文章修正プログラム。
未知語を含む解析対象文章情報に対して、コンピュータを用いて未知語を修正する文章修正方法であって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
前記解析対象文章情報を形態素に分割し、未知語を抽出する第１のステップと、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第２のステップと、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する１つ以上の修正ルール候補を検索する第３のステップと、
前記修正基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて１つの修正ルール候補を選択する第４のステップと、
前記修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択する第５のステップと、
選択された前記カテゴリに基づく修正ルールを選択する第６のステップと
を有することを特徴とする文章修正方法。
未知語を含む解析対象文章情報を他の公開サーバからネットワークを介して取得し、該未知語を修正する文章解析サーバであって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
前記解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する１つ以上の修正ルールを検索する修正ルール検索手段と、
前記修正基準文章情報のカテゴリ毎に、前記修正ルールの中から、文章構成指標に基づいて１つの修正ルールを選択する修正ルール候補選択手段と
前記修正基準文章情報のカテゴリ毎に選択された修正ルールについて、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
選択された前記カテゴリに基づく修正ルールを選択する修正ルール選択手段と
を有することを特徴とする文章解析サーバ。