JP2010257021A

JP2010257021A - 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム

Info

Publication number: JP2010257021A
Application number: JP2009103629A
Authority: JP
Inventors: Kazufumi Ikeda; 和史池田; Kazunori Matsumoto; 一則松本; Yasuhiro Takishima; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-04-22
Filing date: 2009-04-22
Publication date: 2010-11-11

Abstract

【課題】より正確な修正を行うことができる文章修正装置、文章修正システム、文章修正方法、文章修正プログラムを提供する。
【解決手段】ブログ等の独特の表現や口語的な表現の文章を修正ルールにしたがい修正部６０が修正した文章について、形態素解析部２０により形態素解析コストを算出する。算出した形態素解析コストを修正の判定に判定部７１が用いる。また、算出した形態素解析コストを修正ルールのスコアリングに修正ルール評価部７２が用いる。
【選択図】図１

Description

本発明は、原文の意味内容を変えることなく表現を修正する文章修正装置、文章修正システム、文章修正方法、文章修正プログラムに関するものである。

従来、インターネット上に公開されるブログ等のテキストベースの文章情報を解析対象として、文章を構成する最小単位である形態素に分割して解析する形態素解析装置が利用されている。このような形態素解析装置は、例えば、予め定められた単語（既知語）とその単語の品詞とを対応付けた辞書情報を予め記憶する。そして、解析対象とする文章情報を読み込んで文章を構成する単語を抽出し、抽出した単語のそれぞれと、予め記憶された辞書情報に含まれる単語とを比較する。このようにして解析を行うことにより、例えば、インターネット上でどのようなことが多く取り上げられているか等の統計的処理に利用することができる。

しかし、インターネット上に公開されるブログやニュース、電子掲示板サービス等独特の文章表現による未知語が含まれる文章情報を解析対象とする場合、辞書情報から対応する語を検出することができず適切な形態素の分割を行うことができない場合がある。

そこで、本願発明者らは、独特の文章表現による未知語が含まれる文章情報を適切に形態素解析できるように修正を行う手法を提案した（非特許文献１及び非特許文献２）。これら非特許文献１及び非特許文献２では、修正ルールの正解判定及び評価（スコアリング）を行うために、修正ルール適用前後の文をそれぞれ形態素解析したときの未知語の有無情報を利用している。

池田和史、柳原正、松本一則、滝嶋康弘、「ブログ的表記を正規化するためのルール自動生成方式の提案と評価」、ＤＥＩＭフォーラム、２００９池田和史、柳原正、松本一則、滝嶋康弘、「ブログにおける表記の揺れを修正するためのルール自動生成システムの提案」、情報処理学会全国大会５Ｈ−６、２００９

しかし、非特許文献１及び非特許文献２の手法で用いる未知語の有無情報だけでは、修正ルールの正解判定を全て正しく行うことは難しく、文書修正及びスコアリングの精度が悪くなる場合があった。

従来の未知語の有無情報だけを用いた修正ルールの正解判定が難しい例として、下記のようなものが挙げられる。原文として、「今日ゎいい天気」が与えられ、「ゎ」が未知語であるときを想定する。この場合、修正ルール「ゎ→わ」と「ゎ→は」とを適用すると、それぞれ「今日わいい天気」と「今日はいい天気」に修正される。ここで、「今日わいい天気」を形態素解析すると「わ」が感嘆詞等として誤って認識され、未知語は検出されないことが多い。この場合、従来技術では「今日わいい天気」と「今日はいい天気」は共に正しい修正として認識されてしまう。これにより、修正ルールの選択誤りや過剰な修正ルールの適用が行われてしまうという問題があった。

本発明の課題は、より正確な修正を行うことができる文章修正装置、文章修正システム、文章修正方法、文章修正プログラムを提供することである。

本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。

（１）本発明は、複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する修正手段（６０）と、少なくとも前記第２の文章情報についての形態素解析コストを算出する形態素解析手段（２０）と、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段（７０）とを備える文章修正装置を提案している。

この発明によれば、修正手段は、複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する。形態素解析手段は、少なくとも前記第２の文章情報についての形態素解析コストを算出する。修正評価手段は、形態素解析手段により算出された形態素解析コストを用いて修正手段による修正に関する評価を行う。したがって、修正手段による修正を精度よく評価でき、正確な修正を行える。

（２）本発明は、（１）に記載の文章修正装置において、前記修正評価手段（７０）は、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正が正しく行われたか否か、又は、前記修正手段による修正の確度を判定する判定手段（７１）を備えることを特徴とする文章修正装置を提案している。

この発明によれば、修正評価手段は、前記形態素解析手段により算出された形態素解析コストを用いて修正手段による修正が正しく行われたか否か、又は、修正手段による修正の確度を判定する判定手段を備える。したがって、修正手段による修正が正解であるか否か、又は、どの程度正しい修正であるのかを正しく評価できる。

（３）本発明は、（２）に記載の文章修正装置において、前記形態素解析手段（２０）は、前記第２の文章情報についての形態素解析コストに加えて前記第１の文章情報についての形態素解析コストを算出し、前記判定手段（７１）は、前記第１の文章情報についての形態素解析コストと前記第２の文章情報についての形態素解析コストを用いて判定を行うことを特徴とする文章修正装置を提案している。

この発明によれば、形態素解析手段は、第２の文章情報についての形態素解析コストに加えて第１の文章情報についての形態素解析コストを算出する。判定手段は、第１の文章情報についての形態素解析コストと第２の文章情報についての形態素解析コストを用いて判定を行う。したがって、修正手段が修正を行うことにより却って不自然な第２の文章情報が生成されてしまうときにも、これを判定に反映できる。

（４）本発明は、（２）又は（３）に記載の文章修正装置において、前記修正手段（６０）は、１つの前記第１の文章情報から複数の前記第２の文章情報を生成し、前記形態素解析手段（２０）は、複数の前記第２の文章情報それぞれについて形態素解析コストを算出し、前記判定手段（７１）は、複数の前記第２の文章情報それぞれについて算出された形態素解析コストを用いて判定を行うことを特徴とする文章修正装置を提案している。

この発明によれば、修正手段は、１つの第１の文章情報から複数の第２の文章情報を生成する。形態素解析手段は、複数の第２の文章情報それぞれについて形態素解析コストを算出する。判定手段は、複数の第２の文章情報それぞれについて算出された形態素解析コストを用いて判定を行う。したがって、複数の修正候補について、その修正の確からしさを正確に判定できる。

（５）本発明は、（１）から請求項４までのいずれか１項に記載の文章修正装置において、前記修正手段（６０）は、修正ルールにしたがい前記第１の文章情報の修正を行うものであり、前記修正評価手段（７０）は、前記第２の文章情報の生成に用いた前記修正ルールに対して前記形態素解析コストに基づいた評価値を付与する修正ルール評価手段（７２）を備えることを特徴とする文章修正装置を提案している。

この発明によれば、修正手段は、修正ルールにしたがい第１の文章情報の修正を行う。修正評価手段は、第２の文章情報の生成に用いた修正ルールに対して形態素解析コストに基づいた評価値を付与する修正ルール評価手段を備える。したがって、修正ルールに点数を付与（スコアリング）する等して、修正ルールを正しく評価できる。

（６）本発明は、（５）に記載の文章修正装置において、前記修正ルールを記憶する修正ルール記憶手段（５０）を備え、前記修正ルール評価手段（９０）は、前記評価値に応じて、前記修正ルール記憶手段が記憶する前記修正ルールの削除、及び／又は、前記修正ルール記憶手段の記憶内容の更新を行うことを特徴とする文章修正装置を提案している。

この発明によれば、修正ルール記憶手段は、修正ルールを記憶する。修正ルール評価手段は、評価値に応じて、前記修正ルール記憶手段が記憶する修正ルールの削除、及び／又は、前記修正ルール記憶手段の記憶内容の更新を行う。したがって、より的確な修正をより高速に行うことができる。

（６）本発明は、（１）から（５）までのいずれか１項に記載の文章修正装置において、既知の語を記憶する既知語記憶手段（２１）と、前記第１の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段（４０）とを備え、前記修正手段（６０）は、前記第１の文章情報において未知の語が抽出された部分を修正することを特徴とする文章修正装置を提案している。

この発明によれば、既知語記憶手段は、既知の語を記憶する。未知語抽出手段は、第１の文章情報の中から既知語記憶手段に記憶されていない未知の語を抽出する。修正手段は、第１の文章情報において未知の語が抽出された部分を修正する。したがって、ブログ等に多く見られる独特の表現や口語調の表現を修正するとき等に、正しく修正を行える。

（７）本発明は、複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する修正手段（６０）と、少なくとも前記第２の文章情報についての形態素解析コストを算出する形態素解析手段（２０）と、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段（７０）とを備える文章修正システムを提案している。

この発明によれば、修正手段は、複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する。形態素解析手段は、少なくとも第２の文章情報についての形態素解析コストを算出する。修正評価手段は、形態素解析手段により算出された形態素解析コストを用いて修正手段による修正に関する評価を行う。したがって、修正手段による修正を精度よく評価でき、正確な修正を行える。

（８）本発明は、複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成し、少なくとも前記第２の文章情報についての形態素解析コストを算出し、算出された前記形態素解析コストを用いて前記修正に関する評価を行う文章修正方法を提案している。

この発明によれば、文章修正方法は、複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成し、少なくとも前記第２の文章情報についての形態素解析コストを算出し、算出された前記形態素解析コストを用いて前記修正に関する評価を行う。したがって、文章の修正を精度よく評価でき、正確な修正を行える。

（９）本発明は、コンピュータを、複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する修正手段（６０）と、少なくとも前記第２の文章情報についての形態素解析コストを算出する形態素解析手段（２０）と、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段（７０）として機能させるための文章修正プログラムを提案している。

この発明によれば、修正手段は、複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する。形態素解析手段は、少なくとも第２の文章情報についての形態素解析コストを算出する。修正評価手段は、形態素解析手段により算出された形態素解析コストを用いて修正手段による修正に関する評価を行う。したがって、文章の修正を精度よく評価でき、正確な修正を行える。

本発明によれば、形態素解析コストを用いて修正の判定を行うので、精度の高い修正を行える。また、形態素解析コストを用いて修正ルールの評価を行うので、より正確に修正ルールの適用を行うことができるようになり、精度の高い修正を行える。

本発明による文章修正装置の実施形態の構成を示す図である。文章修正装置の処理の流れを示すフローチャートである。

以下、図面を用いて、本発明の実施形態について詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

（実施形態）
図１は、本発明による文章修正装置の実施形態の構成を示す図である。
本実施形態の文章修正装置は、解析対象文章入力部１０と、形態素解析部２０と、既知語記憶部２１と、未知語抽出部４０と、修正ルール記憶部５０と、修正部６０と、修正評価部７０と、判定部７１と、修正ルール評価部７２と、修正結果出力部８０と、修正ルールスコア出力部９０とを備えている。
本実施形態の文章修正装置は、例えばブログ等の文章中に多い砕けた表現（口語的な表現）や独特の表現の語を、文語的な表現に修正する装置である。砕けた表現を文語的な表現に修正する例としては、例えば、下記のようなものがある。
例１：「困っちゃう」を「困ってしまう」に修正する。
例２：「ヵゎぃぃ」を「かわいい」に修正する。

解析対象文章入力部１０は、ブログやＷｅｂ上のテキスト等、砕けた表現の多い文章を解析対象文章（第１の文章情報：以下、原文と称する）として入力する。解析対象文章入力部１０は、入力された原文を形態素解析部２０と未知語抽出部４０とへ送る。

形態素解析部２０は、文章に対して形態素解析を実行する。形態素解析器としてはＭｅｃａｂ，Ｃｈａｓｅｎ，Ｊｕｍａｎ等が著名である。形態素解析部２０は、解析対象文章入力部１０から得た原文と、修正部６０が修正した修正後文（第２の文章情報）とについて形態素解析を行う。形態素解析部２０は、形態素解析を実行するときに、形態素解析コストを算出する。なお、形態素解析の結果が複数ある場合には、その全てについて形態素解析コストを算出する。

ここで、形態素解析コストとは、本来、複数ある文節区切りの中で、その文節区切りがどのくらい確からしいかを表す指標であり、単語単体での出現確率や複数単語が連続して出現する確率等から計算される。形態素解析コストは既存の多くの形態素解析器で用いられている。

形態素解析部２０は、解析対象文章入力部１０から得た原文についての形態素解析結果を未知語抽出部４０へ送る。また、形態素解析部２０は、解析対象文章入力部１０から得た原文についての形態素解析コスト、及び、修正後文についての形態素解析コストを判定部７１へ送る。

既知語記憶部２１は、形態素解析部２０に設けられており、既知の語（既知後）を多数記憶した辞書データベースである。本実施形態では、既知語記憶部２１に記憶されていない語を未知の語（未知語）であるとして取り扱う。例えば、上述した「困ってしまう」の「てしまう」は、既知後であるが、「困っちゃう」の「ちゃう」は、未知語である。

未知語抽出部４０は、形態素解析部２０による形態素解析結果に基づいて解析対象文章入力部１０から得た原文の中に未知語が含まれているか否かを確認し、未知語を抽出する。未知語抽出部４０が抽出した未知語を含む原文は、修正部６０へ送られる。なお、一般的に、形態素解析器により形態素解析を実施した時点で未知語が検出される場合が多い。そのような場合には、本実施形態の未知語抽出部４０の機能を形態素解析器が包含する形態としてもよい。

修正ルール記憶部５０は、未知語が含まれている文章を修正するときの汎用な修正ルールを予め記憶する修正ルールのデータベースである。
ここで、修正ルールとは、「ヵゎぃぃ→かわいい」のように、未知語を含む文章を未知語を含まない文語的な表現へ修正するための文字列置換の規則を示す。なお、上述の記号「→」は、記号の左辺の語から右辺の語へと修正するという修正ルールを表すものとする。修正ルール記憶部５０が記憶する汎用な修正ルールとしては、例えば、「ぁ」→「あ」、「ア」→「あ」、「ア」→「−」、「ァ」→「」（文字の削除）、「」→「あ」（文字の挿入）等が挙げられる。

修正部６０は、修正ルール記憶部５０に記憶されている修正ルールにしたがって、未知語抽出部４０が抽出した未知語を含む原文を修正する。修正部６０は、原文に対して、適用できる修正ルールを全て適用し、修正ルール適用後の修正後文、又は、修正後文の集合を生成する。修正部６０が生成した修正後文、又は、修正後文の集合は、形態素解析部２０と判定部７１とに送られる。

修正評価部７０は、修正に関する評価を、形態素解析コストを用いて行う。修正評価部７０は、判定部７１と、修正ルール評価部７２とを備えている。
判定部７１は、形態素解析部２０から得た形態素解析コストに基づいて、修正部６０による修正が正しく行われたか否か、及び、修正部６０による修正の確度を判定する。
修正ルール評価部７２は、修正後文の生成に用いた修正ルールに対して形態素解析コストに基づいた評価値（スコア）を付与する（スコアリング）。また、修正ルール評価部７２は、評価値に応じて、修正ルール記憶部５０が記憶する修正ルールの削除を行ったり、修正ルール記憶部５０の記憶内容の更新を行ったりする。例えば、修正ルール評価部７２は、ある修正ルールの評価値が所定値よりも小さい場合には、その修正ルールを修正ルール記憶部５０から削除する。また、修正ルール評価部７２は、修正ルールを、その評価値によりいくつかのグループに分類するように修正ルール記憶部５０の記憶内容を更新する。これにより、修正を行うときの要求に応じて、評価値の高いグループの修正ルールのみを使用したり、全てのグループの修正ルールのみを使用したりできるようにする。このように修正ルール記憶部５０が記憶する修正ルールの削除を行ったり、修正ルール記憶部５０の記憶内容の更新を行ったりすることにより、より的確な修正をより高速に行うことができる。

修正結果出力部８０は、修正部６０が修正した修正後文を出力する。
修正ルールスコア出力部９０は、修正ルール評価部７２が修正ルールに対して付与した評価値を出力する。修正ルールスコア出力部９０が出力した修正ルールの評価値は、他のアプリケーション等で利用することができる。

上述したように、本実施形態では、形態素解析コストを利用して、修正の正解判定やスコアリングに利用する。
以下、判定部７１及び修正ルール評価部７２による形態素解析コストの利用方法について詳しく説明する。

修正部６０では、未知語を含む文に対して、適用可能な全ての修正ルールをそれぞれ適用する。ここで、修正ルールは、従来技術と同様に、予め修正ルール記憶部５０に記憶されている。修正ルールの適用前後の文をそれぞれ形態素解析部２０により処理して、形態素解析コストを計算する。

具体的な例として、「今日ゎいい天気」を原文とした場合について説明する。
原文：「今日ゎいい天気」、未知語：「ゎ」
修正ルール：「ゎ→わ」、「ゎ→は」
修正後文１：「今日わいい天気」
修正後文２：「今日はいい天気」

原文と修正後文１，２のそれぞれを形態素解析部２０により形態素解析を行い、形態素解析コストを計算する。形態素解析コストの計算例を以下に示す。なお、この例では、文全体の形態素解析コストの総和を示している。
原文：「今日ゎいい天気」→形態素解析コスト：２２０２８
修正後：「今日わいい天気」→形態素解析コスト：１７７８７
修正後：「今日はいい天気」→形態素解析コスト：１０２１４

判定部７１では、形態素解析部２０により計算された形態素解析コストを基にして、文章の修正が正解か不正解かを判定する。
判定する方法としては、文全体の形態素解析コストが最も小さい（最も文として確からしい）文を正解、それ以外のものを不正解と判定する方法がある。上記の例では「今日はいい天気」が最も文全体の形態素解析コストが小さくなっているため、正しい修正と判定する。

また、複数正解があるような場合に、正解と判定するために利用する閾値を設定することもできる。例えば、文全体の形態素解析コストの差分が所定の閾値（例えば、最も形態素解析コストが小さいものの１０％）以下の文は、正解と判定してもよい。すなわち、形態素解析コストが最も小さい文を正解とし、その正解とした文の形態素解析コストを差し引いた形態素解析コストが、閾値（例えば正解とした文の形態素解析コストの１０％）以内の文を正解とする。このような文を正解とする理由は、形態素解析コストが最も小さい文を正解とする他、形態素解析コストが最も小さい文に近い形態素解析コストの文についても正解である可能性が高いと判断できるからである。

修正ルール評価部７２は、修正ルールの形態素解析コストを利用して、修正ルールをスコアリング（採点評価）する。スコアリング方法としては、例えば、正解１件につき、１ポイント、不正解１件につき、−１ポイントとすることができる。
また、形態素解析コストの差分をスコアリングに反映させてもよい。
例えば、上述した具体例において、原文のスコアを０とし、「ゎ→わ」のルールを２２０２８−１７７８７＝４２４１、「ゎ→は」のルールを２２０２８−１０２１４＝１１８１４といったスコアリングを行う。

修正ルール「ゎ→わ」、スコア：４２４１
修正ルール「ゎ→こわ」、スコア：−１５００
修正ルール「ゎ→にわ」、スコア：−２４００
修正ルール「ゎ→は」、スコア：１１８１４
修正ルール「ゎ→わわ」、スコア：−３０００

なお、多数の修正ルールが存在する場合、全ての修正ルールを適用し、形態素解析部２０により処理すると、計算時間が長くなる。そこで、本実施形態では、修正ルールを形態素解析コストに基づいてスコアリングすることで、不要な修正ルールを随時削除して、不要な修正ルールの整理を行う。

図２は、文章修正装置の処理の流れを示すフローチャートである。
ステップ（以下、Ｓとする）１０では、解析対象文章入力部１０が解析対象のブログ等の文章を入力する。
Ｓ２０では、入力された文を形態素解析し、未知語と、その未知語を含んでいる文（未知語文）を検出する。

Ｓ３０では、未知語を含む文に対して適用可能な修正ルールを適用する。ここでは全ての組み合わせを適用して複数の修正後文を生成する。修正ルールの適用例を以下に示す。
原文：「今日ゎ元気だょ」、未知語：「ゎ」、「ょ」
修正ルール：「ゎ」→「わ」、「ゎ」→「は」、「ょ」→「よ」
修正後文１：「今日わ元気だょ」
修正後文２：「今日わ元気だよ」
修正後文３：「今日は元気だょ」
修正後文４：「今日は元気だよ」
修正後文５：「今日ゎ元気だよ」

Ｓ４０では、修正ルールを適用した全ての修正後文と原文とを形態素解析し、それぞれについて形態素解析コストを計算する。
Ｓ５０では、形態素解析コストに基づいて正解となる修正後文を判定し、出力する。

Ｓ６０では、形態素解析コストに基づいて修正ルールのスコアを算出し、スコアリングした修正ルールを出力する。
なお、本実施形態では、文章修正のための正解不正解の判定（Ｓ５０）と、修正ルールのスコアリング（Ｓ６０）との双方を行うが、これらの一方を選択的に実行するもの、又は、一方のみを行うものであってもよい。

以上説明したように、本実施形態では、形態素解析コストを利用することにより、先に示した従来技術（非特許文献１，２）と比べてより正確な修正を行うことができる。本実施形態が従来技術と比べて優れている点を以下に具体例を挙げながら説明する。

（１）従来技術では、修正後文に未知語が含まれないように修正されていても、文として不自然なものがあった。これに対して、本実施形態では、文節区切りの確からしさを表す形態素解析コストを文の修正の正解判定に用いることによって、より確からしい文を正解と判断することができる。以下に、具体例を示す。

原文：「今日ゎいい天気」、未知語：「ゎ」
修正ルール：「ゎ」→「わ」、「ゎ」→「は」
修正後文１：「今日わいい天気」、未知語：なし
修正後文２：「今日はいい天気」、未知語：なし
従来技術では、この修正後文１，２までの修正処理で、未知語がなくなったので、修正が正しく行われたものとして処理を終了していた。しかし、この例の修正後文１は、正しく修正されていない。

一方、この例を本実施形態の形態素解析部２０により形態素解析コストを求めると、以下のようになる。
原文：「今日ゎいい天気」、形態素解析コスト：２２０２８
修正後文１：「今日わいい天気」、形態素解析コスト：１７７８７
修正後文２：「今日はいい天気」、形態素解析コスト：１０２１４
このように、文章として自然な修正後文２が、形態素解析コストが最も小さくなり、不自然な文章である修正後文１は、形態素解析コストが大きな値として得られている。形態素解析コストが最も小さい修正後文を正解とすることとしている本実施形態では、修正後文２を正解とし、修正後文１を不正解とすることができる。

また、正解と判定する際に閾値を設定することで、複数正解があるような場合も確度の高い判定を行える。以下、具体例を挙げる。
原文：「ぉ金無いっつーの」、未知語：「ぉ」
修正ルール：「ぉ」→「お」、「ぉ」→「」（削除）、「っ」→「つ」
修正後文１：「金無いっつーの」
修正後文２：「お金無いっつーの」
修正後文３：「お金無いつつーの」
この例では、従来技術を用いた場合には、全て正解と判定してしまう。

一方、この例を本実施形態の形態素解析部２０により形態素解析コストを求めると、以下のようになる。
原文：「ぉ金無いっつーの」、形態素解析コスト：３４６２４
修正後文１：「金無いっつーの」、形態素解析コスト：２１４９３
修正後文２：「お金無いっつーの」、形態素解析コスト：２３０５０
修正後文３：「お金無いつつーの」、形態素解析コスト：２９０３９

本実施形態では、形態素解析コストが最も小さい文を正解とし、その正解とした文の形態素解析コストを差し引いた形態素解析コストが、閾値以内の文を正解とする。ここで、閾値は、正解とした文の形態素解析コストの１０％としたので、形態素解析コストが２３６４２．３（２１４９３＋２１４９３×１０％＝２３６４２．３）以内である文が正解となる。よって、本実施形態では、修正後文１及び修正後文２が正解と判定され、修正後文３は不正解と判定される。このように、本実施形態では、自然な表現に修正されている２文が正解となり、不自然な文である修正後文３を含めた全て正解としてしまっている従来技術よりも精度の高い修正が可能となっている。なお、閾値の設定値として用いた１０％は、一例であり、この値は、修正目的等に応じて適宜設定するとよい。

（２）従来技術では、未知語の有無情報だけによって、正解であるか否かの判定を行っていた。しかし、その場合、本来修正ルールによって修正すべきでない語に対して修正を行う場合がある。一方、本実施形態によれば、形態素解析コストが原文よりも小さくなる場合のみ修正ルールを適用することができる。以下に、具体例を示す。

原文：「のりチャン来てたよ」、未知語：「チャン」
修正ルール：「ャ」→「ゃ」、「ャ」→「」（削除）
修正後文１：「のりチゃン来てたよ」、未知語：「チ」、「ゃ」
修正後文２：「のりチン来てたよ」
従来技術では、修正後文２に未知語が含まれていないことから、この修正後文２を正解であると判定していた。

一方、この例を本実施形態の形態素解析部２０により形態素解析コストを求めると、以下のようになる。
原文：「のりチャン来てたよ」、形態素解析コスト：２６０２５
修正後文１：「のりチゃン来てたよ」、形態素解析コスト：６６１１７
修正後文２：「のりチン来てたよ」、形態素解析コスト：３００２６
このように、原文の形態素解析コストが最も小さいので、本実施形態では、修正しないことが正解となる。

（３）従来技術では、正解判定は正解、不正解の２値であったため、大規模な文書集合を用いて、統計的に修正ルールの評価（以下、統計的スコアと呼び本実施形態のスコアと区別する）を行うことで、ルールの選択的な適用や過剰な適用の抑制を実現していた。しかし、従来技術の手法では、事前の学習が必要であるとともに、事前学習に多くの時間を要していた。
一方、本実施形態の修正ルールは、統計的スコアを必要としないため、事前学習時間の短縮や修正ルールの検索時間の短縮を行える。以下、具体例を挙げる。

従来技術では、修正ルール毎に、以下のように統計的スコアを計算していた。
修正ルール「ゎ」→「は」、統計的スコア：０．６
修正ルール「日ゎ」→「日は」、統計的スコア：０．７
修正ルール「今日ゎ」→「今日は」、統計的スコア：０．８
修正ルール「今日ゎい」→「今日はい」、統計的スコア：０．８５
修正ルール「今日ゎいい」→「今日はいい」、統計的スコア：０．９
修正ルール「ゎ」→「わ」、統計的スコア：０．４
修正ルール「日ゎ」→「日わ」、統計的スコア：０．２
このように、従来技術では、多数の修正ルールそれぞれに対して統計的スコアを算出するので、修正ルールの事前学習や検索に要する計算時間が大きい。
一方、本実施形態では、修正ルール「ゎ」→「は」、修正ルール「ゎ」→「わ」を記憶しているだけであり、修正ルール毎に統計的スコアを計算しないため、計算時間が小さい。

以上説明したように、本実施形態によれば、形態素解析コストを用いて修正の判定を行うので、精度の高い修正を行える。また、形態素解析コストを用いて修正ルールのスコアリングを行うので、より正確に修正ルールの適用を行うことができるようになり、精度の高い修正を行える。

なお、文章修正装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録された文章修正プログラムを文章修正装置に読み込ませ、実行することによって本発明の文章修正装置、文章修正システム、文章修正方法を実現することができる。ここでいうコンピュータシステムとは、ＯＳや周辺装置等のハードウェアを含む。

また、「コンピュータシステム」は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）システムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

（変形形態）
（１）本実施形態において、原文と修正後文との両方の形態素解析コストを計算し、それらを判定に用いる例を挙げて説明した。これに限らず、例えば、原文の形態素解析コストを計算せずに、修正後文の形態素解析コストのみを計算して判定に用いてもよい。

（２）本実施形態において、形態素解析コストを修正の判定と、修正ルールに対してのスコアリングとの両方に用いる例を挙げて説明した。これに限らず、例えば、修正の判定のみに用いる形態であってもよいし、修正ルールのスコアリングのみに用いる形態であってもよい。

（３）本実施形態において、文章修正装置として１つのまとまった装置の例を挙げて説明したが、これに限らず、例えば、複数の装置を組み合わせた文章修正システムとして構成してもよい。

（４）本実施形態において、修正部６０は、未知語抽出部４０が未知語を抽出した部分に修正を行う例を挙げて説明した。これに限らず、例えば、形態素解析を行った結果の全体に対して修正を行うものであってもよい。なお、本実施形態のように未知語を抽出した部分に修正を行うことにより、処理の高速化を図ることができる。

なお、実施形態及び変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。

１０解析対象文章入力部
２０形態素解析部
２１既知語記憶部
４０未知語抽出部
５０修正ルール記憶部
６０修正部
７０修正評価部
７１判定部
７２修正ルール評価部
８０修正結果出力部

Claims

複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する修正手段と、
少なくとも前記第２の文章情報についての形態素解析コストを算出する形態素解析手段と、
前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段と、
を備える文章修正装置。
請求項１に記載の文章修正装置において、
前記修正評価手段は、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正が正しく行われたか否か、又は、前記修正手段による修正の確度を判定する判定手段を備えること、
を特徴とする文章修正装置。
請求項２に記載の文章修正装置において、
前記形態素解析手段は、前記第２の文章情報についての形態素解析コストに加えて前記第１の文章情報についての形態素解析コストを算出し、
前記判定手段は、前記第１の文章情報についての形態素解析コストと前記第２の文章情報についての形態素解析コストを用いて判定を行うこと、
を特徴とする文章修正装置。
請求項２又は請求項３に記載の文章修正装置において、
前記修正手段は、１つの前記第１の文章情報から複数の前記第２の文章情報を生成し、
前記形態素解析手段は、複数の前記第２の文章情報それぞれについて形態素解析コストを算出し、
前記判定手段は、複数の前記第２の文章情報それぞれについて算出された形態素解析コストを用いて判定を行うこと、
を特徴とする文章修正装置。
請求項１から請求項４までのいずれか１項に記載の文章修正装置において、
前記修正手段は、修正ルールにしたがい前記第１の文章情報の修正を行うものであり、
前記修正評価手段は、前記第２の文章情報の生成に用いた前記修正ルールに対して前記形態素解析コストに基づいた評価値を付与する修正ルール評価手段を備えること、
を特徴とする文章修正装置。
請求項５に記載の文章修正装置において、
前記修正ルールを記憶する修正ルール記憶手段を備え、
前記修正ルール評価手段は、前記評価値に応じて、前記修正ルール記憶手段が記憶する前記修正ルールの削除、及び／又は、前記修正ルール記憶手段の記憶内容の更新を行うこと、
を特徴とする文章修正装置。
請求項１から請求項６までのいずれか１項に記載の文章修正装置において、
既知の語を記憶する既知語記憶手段と、
前記第１の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段と、
を備え、
前記修正手段は、前記第１の文章情報において未知の語が抽出された部分を修正すること、
を特徴とする文章修正装置。
複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する修正手段と、
少なくとも前記第２の文章情報についての形態素解析コストを算出する形態素解析手段と、
前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段と、
を備える文章修正システム。
複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成し、
少なくとも前記第２の文章情報についての形態素解析コストを算出し、
算出された前記形態素解析コストを用いて前記修正に関する評価を行う文章修正方法。
コンピュータを、
複数の語から構成される第１の文章情報の少なくとも一部に対して修正を行い第２の文章情報を生成する修正手段と、
少なくとも前記第２の文章情報についての形態素解析コストを算出する形態素解析手段と、
前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段として機能させるための文章修正プログラム。