JP2010257021A - 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム - Google Patents

文章修正装置、文章修正システム、文章修正方法、文章修正プログラム Download PDF

Info

Publication number
JP2010257021A
JP2010257021A JP2009103629A JP2009103629A JP2010257021A JP 2010257021 A JP2010257021 A JP 2010257021A JP 2009103629 A JP2009103629 A JP 2009103629A JP 2009103629 A JP2009103629 A JP 2009103629A JP 2010257021 A JP2010257021 A JP 2010257021A
Authority
JP
Japan
Prior art keywords
correction
sentence
morpheme analysis
analysis cost
sentence information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009103629A
Other languages
English (en)
Inventor
Kazufumi Ikeda
和史 池田
Kazunori Matsumoto
一則 松本
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009103629A priority Critical patent/JP2010257021A/ja
Publication of JP2010257021A publication Critical patent/JP2010257021A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】より正確な修正を行うことができる文章修正装置、文章修正システム、文章修正方法、文章修正プログラムを提供する。
【解決手段】ブログ等の独特の表現や口語的な表現の文章を修正ルールにしたがい修正部60が修正した文章について、形態素解析部20により形態素解析コストを算出する。算出した形態素解析コストを修正の判定に判定部71が用いる。また、算出した形態素解析コストを修正ルールのスコアリングに修正ルール評価部72が用いる。
【選択図】図1

Description

本発明は、原文の意味内容を変えることなく表現を修正する文章修正装置、文章修正システム、文章修正方法、文章修正プログラムに関するものである。
従来、インターネット上に公開されるブログ等のテキストベースの文章情報を解析対象として、文章を構成する最小単位である形態素に分割して解析する形態素解析装置が利用されている。このような形態素解析装置は、例えば、予め定められた単語(既知語)とその単語の品詞とを対応付けた辞書情報を予め記憶する。そして、解析対象とする文章情報を読み込んで文章を構成する単語を抽出し、抽出した単語のそれぞれと、予め記憶された辞書情報に含まれる単語とを比較する。このようにして解析を行うことにより、例えば、インターネット上でどのようなことが多く取り上げられているか等の統計的処理に利用することができる。
しかし、インターネット上に公開されるブログやニュース、電子掲示板サービス等独特の文章表現による未知語が含まれる文章情報を解析対象とする場合、辞書情報から対応する語を検出することができず適切な形態素の分割を行うことができない場合がある。
そこで、本願発明者らは、独特の文章表現による未知語が含まれる文章情報を適切に形態素解析できるように修正を行う手法を提案した(非特許文献1及び非特許文献2)。これら非特許文献1及び非特許文献2では、修正ルールの正解判定及び評価(スコアリング)を行うために、修正ルール適用前後の文をそれぞれ形態素解析したときの未知語の有無情報を利用している。
池田和史、柳原正、松本一則、滝嶋康弘、「ブログ的表記を正規化するためのルール自動生成方式の提案と評価」、DEIMフォーラム、2009 池田和史、柳原正、松本一則、滝嶋康弘、「ブログにおける表記の揺れを修正するためのルール自動生成システムの提案」、情報処理学会全国大会5H−6、2009
しかし、非特許文献1及び非特許文献2の手法で用いる未知語の有無情報だけでは、修正ルールの正解判定を全て正しく行うことは難しく、文書修正及びスコアリングの精度が悪くなる場合があった。
従来の未知語の有無情報だけを用いた修正ルールの正解判定が難しい例として、下記のようなものが挙げられる。原文として、「今日ゎいい天気」が与えられ、「ゎ」が未知語であるときを想定する。この場合、修正ルール「ゎ→わ」と「ゎ→は」とを適用すると、それぞれ「今日わいい天気」と「今日はいい天気」に修正される。ここで、「今日わいい天気」を形態素解析すると「わ」が感嘆詞等として誤って認識され、未知語は検出されないことが多い。この場合、従来技術では「今日わいい天気」と「今日はいい天気」は共に正しい修正として認識されてしまう。これにより、修正ルールの選択誤りや過剰な修正ルールの適用が行われてしまうという問題があった。
本発明の課題は、より正確な修正を行うことができる文章修正装置、文章修正システム、文章修正方法、文章修正プログラムを提供することである。
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
(1)本発明は、複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段(60)と、少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段(20)と、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段(70)とを備える文章修正装置を提案している。
この発明によれば、修正手段は、複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する。形態素解析手段は、少なくとも前記第2の文章情報についての形態素解析コストを算出する。修正評価手段は、形態素解析手段により算出された形態素解析コストを用いて修正手段による修正に関する評価を行う。したがって、修正手段による修正を精度よく評価でき、正確な修正を行える。
(2)本発明は、(1)に記載の文章修正装置において、前記修正評価手段(70)は、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正が正しく行われたか否か、又は、前記修正手段による修正の確度を判定する判定手段(71)を備えることを特徴とする文章修正装置を提案している。
この発明によれば、修正評価手段は、前記形態素解析手段により算出された形態素解析コストを用いて修正手段による修正が正しく行われたか否か、又は、修正手段による修正の確度を判定する判定手段を備える。したがって、修正手段による修正が正解であるか否か、又は、どの程度正しい修正であるのかを正しく評価できる。
(3)本発明は、(2)に記載の文章修正装置において、前記形態素解析手段(20)は、前記第2の文章情報についての形態素解析コストに加えて前記第1の文章情報についての形態素解析コストを算出し、前記判定手段(71)は、前記第1の文章情報についての形態素解析コストと前記第2の文章情報についての形態素解析コストを用いて判定を行うことを特徴とする文章修正装置を提案している。
この発明によれば、形態素解析手段は、第2の文章情報についての形態素解析コストに加えて第1の文章情報についての形態素解析コストを算出する。判定手段は、第1の文章情報についての形態素解析コストと第2の文章情報についての形態素解析コストを用いて判定を行う。したがって、修正手段が修正を行うことにより却って不自然な第2の文章情報が生成されてしまうときにも、これを判定に反映できる。
(4)本発明は、(2)又は(3)に記載の文章修正装置において、前記修正手段(60)は、1つの前記第1の文章情報から複数の前記第2の文章情報を生成し、前記形態素解析手段(20)は、複数の前記第2の文章情報それぞれについて形態素解析コストを算出し、前記判定手段(71)は、複数の前記第2の文章情報それぞれについて算出された形態素解析コストを用いて判定を行うことを特徴とする文章修正装置を提案している。
この発明によれば、修正手段は、1つの第1の文章情報から複数の第2の文章情報を生成する。形態素解析手段は、複数の第2の文章情報それぞれについて形態素解析コストを算出する。判定手段は、複数の第2の文章情報それぞれについて算出された形態素解析コストを用いて判定を行う。したがって、複数の修正候補について、その修正の確からしさを正確に判定できる。
(5)本発明は、(1)から請求項4までのいずれか1項に記載の文章修正装置において、前記修正手段(60)は、修正ルールにしたがい前記第1の文章情報の修正を行うものであり、前記修正評価手段(70)は、前記第2の文章情報の生成に用いた前記修正ルールに対して前記形態素解析コストに基づいた評価値を付与する修正ルール評価手段(72)を備えることを特徴とする文章修正装置を提案している。
この発明によれば、修正手段は、修正ルールにしたがい第1の文章情報の修正を行う。修正評価手段は、第2の文章情報の生成に用いた修正ルールに対して形態素解析コストに基づいた評価値を付与する修正ルール評価手段を備える。したがって、修正ルールに点数を付与(スコアリング)する等して、修正ルールを正しく評価できる。
(6)本発明は、(5)に記載の文章修正装置において、前記修正ルールを記憶する修正ルール記憶手段(50)を備え、前記修正ルール評価手段(90)は、前記評価値に応じて、前記修正ルール記憶手段が記憶する前記修正ルールの削除、及び/又は、前記修正ルール記憶手段の記憶内容の更新を行うことを特徴とする文章修正装置を提案している。
この発明によれば、修正ルール記憶手段は、修正ルールを記憶する。修正ルール評価手段は、評価値に応じて、前記修正ルール記憶手段が記憶する修正ルールの削除、及び/又は、前記修正ルール記憶手段の記憶内容の更新を行う。したがって、より的確な修正をより高速に行うことができる。
(6)本発明は、(1)から(5)までのいずれか1項に記載の文章修正装置において、既知の語を記憶する既知語記憶手段(21)と、前記第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段(40)とを備え、前記修正手段(60)は、前記第1の文章情報において未知の語が抽出された部分を修正することを特徴とする文章修正装置を提案している。
この発明によれば、既知語記憶手段は、既知の語を記憶する。未知語抽出手段は、第1の文章情報の中から既知語記憶手段に記憶されていない未知の語を抽出する。修正手段は、第1の文章情報において未知の語が抽出された部分を修正する。したがって、ブログ等に多く見られる独特の表現や口語調の表現を修正するとき等に、正しく修正を行える。
(7)本発明は、複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段(60)と、少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段(20)と、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段(70)とを備える文章修正システムを提案している。
この発明によれば、修正手段は、複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する。形態素解析手段は、少なくとも第2の文章情報についての形態素解析コストを算出する。修正評価手段は、形態素解析手段により算出された形態素解析コストを用いて修正手段による修正に関する評価を行う。したがって、修正手段による修正を精度よく評価でき、正確な修正を行える。
(8)本発明は、複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成し、少なくとも前記第2の文章情報についての形態素解析コストを算出し、算出された前記形態素解析コストを用いて前記修正に関する評価を行う文章修正方法を提案している。
この発明によれば、文章修正方法は、複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成し、少なくとも前記第2の文章情報についての形態素解析コストを算出し、算出された前記形態素解析コストを用いて前記修正に関する評価を行う。したがって、文章の修正を精度よく評価でき、正確な修正を行える。
(9)本発明は、コンピュータを、複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段(60)と、少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段(20)と、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段(70)として機能させるための文章修正プログラムを提案している。
この発明によれば、修正手段は、複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する。形態素解析手段は、少なくとも第2の文章情報についての形態素解析コストを算出する。修正評価手段は、形態素解析手段により算出された形態素解析コストを用いて修正手段による修正に関する評価を行う。したがって、文章の修正を精度よく評価でき、正確な修正を行える。
本発明によれば、形態素解析コストを用いて修正の判定を行うので、精度の高い修正を行える。また、形態素解析コストを用いて修正ルールの評価を行うので、より正確に修正ルールの適用を行うことができるようになり、精度の高い修正を行える。
本発明による文章修正装置の実施形態の構成を示す図である。 文章修正装置の処理の流れを示すフローチャートである。
以下、図面を用いて、本発明の実施形態について詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
(実施形態)
図1は、本発明による文章修正装置の実施形態の構成を示す図である。
本実施形態の文章修正装置は、解析対象文章入力部10と、形態素解析部20と、既知語記憶部21と、未知語抽出部40と、修正ルール記憶部50と、修正部60と、修正評価部70と、判定部71と、修正ルール評価部72と、修正結果出力部80と、修正ルールスコア出力部90とを備えている。
本実施形態の文章修正装置は、例えばブログ等の文章中に多い砕けた表現(口語的な表現)や独特の表現の語を、文語的な表現に修正する装置である。砕けた表現を文語的な表現に修正する例としては、例えば、下記のようなものがある。
例1:「困っちゃう」を「困ってしまう」に修正する。
例2:「ヵゎぃぃ」を「かわいい」に修正する。
解析対象文章入力部10は、ブログやWeb上のテキスト等、砕けた表現の多い文章を解析対象文章(第1の文章情報:以下、原文と称する)として入力する。解析対象文章入力部10は、入力された原文を形態素解析部20と未知語抽出部40とへ送る。
形態素解析部20は、文章に対して形態素解析を実行する。形態素解析器としてはMecab,Chasen,Juman等が著名である。形態素解析部20は、解析対象文章入力部10から得た原文と、修正部60が修正した修正後文(第2の文章情報)とについて形態素解析を行う。形態素解析部20は、形態素解析を実行するときに、形態素解析コストを算出する。なお、形態素解析の結果が複数ある場合には、その全てについて形態素解析コストを算出する。
ここで、形態素解析コストとは、本来、複数ある文節区切りの中で、その文節区切りがどのくらい確からしいかを表す指標であり、単語単体での出現確率や複数単語が連続して出現する確率等から計算される。形態素解析コストは既存の多くの形態素解析器で用いられている。
形態素解析部20は、解析対象文章入力部10から得た原文についての形態素解析結果を未知語抽出部40へ送る。また、形態素解析部20は、解析対象文章入力部10から得た原文についての形態素解析コスト、及び、修正後文についての形態素解析コストを判定部71へ送る。
既知語記憶部21は、形態素解析部20に設けられており、既知の語(既知後)を多数記憶した辞書データベースである。本実施形態では、既知語記憶部21に記憶されていない語を未知の語(未知語)であるとして取り扱う。例えば、上述した「困ってしまう」の「てしまう」は、既知後であるが、「困っちゃう」の「ちゃう」は、未知語である。
未知語抽出部40は、形態素解析部20による形態素解析結果に基づいて解析対象文章入力部10から得た原文の中に未知語が含まれているか否かを確認し、未知語を抽出する。未知語抽出部40が抽出した未知語を含む原文は、修正部60へ送られる。なお、一般的に、形態素解析器により形態素解析を実施した時点で未知語が検出される場合が多い。そのような場合には、本実施形態の未知語抽出部40の機能を形態素解析器が包含する形態としてもよい。
修正ルール記憶部50は、未知語が含まれている文章を修正するときの汎用な修正ルールを予め記憶する修正ルールのデータベースである。
ここで、修正ルールとは、「ヵゎぃぃ→かわいい」のように、未知語を含む文章を未知語を含まない文語的な表現へ修正するための文字列置換の規則を示す。なお、上述の記号「→」は、記号の左辺の語から右辺の語へと修正するという修正ルールを表すものとする。修正ルール記憶部50が記憶する汎用な修正ルールとしては、例えば、「ぁ」→「あ」、「ア」→「あ」、「ア」→「−」、「ァ」→「 」(文字の削除)、「 」→「あ」(文字の挿入)等が挙げられる。
修正部60は、修正ルール記憶部50に記憶されている修正ルールにしたがって、未知語抽出部40が抽出した未知語を含む原文を修正する。修正部60は、原文に対して、適用できる修正ルールを全て適用し、修正ルール適用後の修正後文、又は、修正後文の集合を生成する。修正部60が生成した修正後文、又は、修正後文の集合は、形態素解析部20と判定部71とに送られる。
修正評価部70は、修正に関する評価を、形態素解析コストを用いて行う。修正評価部70は、判定部71と、修正ルール評価部72とを備えている。
判定部71は、形態素解析部20から得た形態素解析コストに基づいて、修正部60による修正が正しく行われたか否か、及び、修正部60による修正の確度を判定する。
修正ルール評価部72は、修正後文の生成に用いた修正ルールに対して形態素解析コストに基づいた評価値(スコア)を付与する(スコアリング)。また、修正ルール評価部72は、評価値に応じて、修正ルール記憶部50が記憶する修正ルールの削除を行ったり、修正ルール記憶部50の記憶内容の更新を行ったりする。例えば、修正ルール評価部72は、ある修正ルールの評価値が所定値よりも小さい場合には、その修正ルールを修正ルール記憶部50から削除する。また、修正ルール評価部72は、修正ルールを、その評価値によりいくつかのグループに分類するように修正ルール記憶部50の記憶内容を更新する。これにより、修正を行うときの要求に応じて、評価値の高いグループの修正ルールのみを使用したり、全てのグループの修正ルールのみを使用したりできるようにする。このように修正ルール記憶部50が記憶する修正ルールの削除を行ったり、修正ルール記憶部50の記憶内容の更新を行ったりすることにより、より的確な修正をより高速に行うことができる。
修正結果出力部80は、修正部60が修正した修正後文を出力する。
修正ルールスコア出力部90は、修正ルール評価部72が修正ルールに対して付与した評価値を出力する。修正ルールスコア出力部90が出力した修正ルールの評価値は、他のアプリケーション等で利用することができる。
上述したように、本実施形態では、形態素解析コストを利用して、修正の正解判定やスコアリングに利用する。
以下、判定部71及び修正ルール評価部72による形態素解析コストの利用方法について詳しく説明する。
修正部60では、未知語を含む文に対して、適用可能な全ての修正ルールをそれぞれ適用する。ここで、修正ルールは、従来技術と同様に、予め修正ルール記憶部50に記憶されている。修正ルールの適用前後の文をそれぞれ形態素解析部20により処理して、形態素解析コストを計算する。
具体的な例として、「今日ゎいい天気」を原文とした場合について説明する。
原文:「今日ゎいい天気」、未知語:「ゎ」
修正ルール:「ゎ→わ」、「ゎ→は」
修正後文1:「今日わいい天気」
修正後文2:「今日はいい天気」
原文と修正後文1,2のそれぞれを形態素解析部20により形態素解析を行い、形態素解析コストを計算する。形態素解析コストの計算例を以下に示す。なお、この例では、文全体の形態素解析コストの総和を示している。
原文:「今日ゎいい天気」→形態素解析コスト:22028
修正後:「今日わいい天気」→形態素解析コスト:17787
修正後:「今日はいい天気」→形態素解析コスト:10214
判定部71では、形態素解析部20により計算された形態素解析コストを基にして、文章の修正が正解か不正解かを判定する。
判定する方法としては、文全体の形態素解析コストが最も小さい(最も文として確からしい)文を正解、それ以外のものを不正解と判定する方法がある。上記の例では「今日はいい天気」が最も文全体の形態素解析コストが小さくなっているため、正しい修正と判定する。
また、複数正解があるような場合に、正解と判定するために利用する閾値を設定することもできる。例えば、文全体の形態素解析コストの差分が所定の閾値(例えば、最も形態素解析コストが小さいものの10%)以下の文は、正解と判定してもよい。すなわち、形態素解析コストが最も小さい文を正解とし、その正解とした文の形態素解析コストを差し引いた形態素解析コストが、閾値(例えば正解とした文の形態素解析コストの10%)以内の文を正解とする。このような文を正解とする理由は、形態素解析コストが最も小さい文を正解とする他、形態素解析コストが最も小さい文に近い形態素解析コストの文についても正解である可能性が高いと判断できるからである。
修正ルール評価部72は、修正ルールの形態素解析コストを利用して、修正ルールをスコアリング(採点評価)する。スコアリング方法としては、例えば、正解1件につき、1ポイント、不正解1件につき、−1ポイントとすることができる。
また、形態素解析コストの差分をスコアリングに反映させてもよい。
例えば、上述した具体例において、原文のスコアを0とし、「ゎ→わ」のルールを22028−17787=4241、「ゎ→は」のルールを22028−10214=11814といったスコアリングを行う。
修正ルール「ゎ→わ」、スコア:4241
修正ルール「ゎ→こわ」、スコア:−1500
修正ルール「ゎ→にわ」、スコア:−2400
修正ルール「ゎ→は」、スコア:11814
修正ルール「ゎ→わわ」、スコア:−3000
なお、多数の修正ルールが存在する場合、全ての修正ルールを適用し、形態素解析部20により処理すると、計算時間が長くなる。そこで、本実施形態では、修正ルールを形態素解析コストに基づいてスコアリングすることで、不要な修正ルールを随時削除して、不要な修正ルールの整理を行う。
図2は、文章修正装置の処理の流れを示すフローチャートである。
ステップ(以下、Sとする)10では、解析対象文章入力部10が解析対象のブログ等の文章を入力する。
S20では、入力された文を形態素解析し、未知語と、その未知語を含んでいる文(未知語文)を検出する。
S30では、未知語を含む文に対して適用可能な修正ルールを適用する。ここでは全ての組み合わせを適用して複数の修正後文を生成する。修正ルールの適用例を以下に示す。
原文:「今日ゎ元気だょ」、未知語:「ゎ」、「ょ」
修正ルール:「ゎ」→「わ」、「ゎ」→「は」、「ょ」→「よ」
修正後文1:「今日わ元気だょ」
修正後文2:「今日わ元気だよ」
修正後文3:「今日は元気だょ」
修正後文4:「今日は元気だよ」
修正後文5:「今日ゎ元気だよ」
S40では、修正ルールを適用した全ての修正後文と原文とを形態素解析し、それぞれについて形態素解析コストを計算する。
S50では、形態素解析コストに基づいて正解となる修正後文を判定し、出力する。
S60では、形態素解析コストに基づいて修正ルールのスコアを算出し、スコアリングした修正ルールを出力する。
なお、本実施形態では、文章修正のための正解不正解の判定(S50)と、修正ルールのスコアリング(S60)との双方を行うが、これらの一方を選択的に実行するもの、又は、一方のみを行うものであってもよい。
以上説明したように、本実施形態では、形態素解析コストを利用することにより、先に示した従来技術(非特許文献1,2)と比べてより正確な修正を行うことができる。本実施形態が従来技術と比べて優れている点を以下に具体例を挙げながら説明する。
(1)従来技術では、修正後文に未知語が含まれないように修正されていても、文として不自然なものがあった。これに対して、本実施形態では、文節区切りの確からしさを表す形態素解析コストを文の修正の正解判定に用いることによって、より確からしい文を正解と判断することができる。以下に、具体例を示す。
原文:「今日ゎいい天気」、未知語:「ゎ」
修正ルール:「ゎ」→「わ」、「ゎ」→「は」
修正後文1:「今日わいい天気」、未知語:なし
修正後文2:「今日はいい天気」、未知語:なし
従来技術では、この修正後文1,2までの修正処理で、未知語がなくなったので、修正が正しく行われたものとして処理を終了していた。しかし、この例の修正後文1は、正しく修正されていない。
一方、この例を本実施形態の形態素解析部20により形態素解析コストを求めると、以下のようになる。
原文:「今日ゎいい天気」、形態素解析コスト:22028
修正後文1:「今日わいい天気」、形態素解析コスト:17787
修正後文2:「今日はいい天気」、形態素解析コスト:10214
このように、文章として自然な修正後文2が、形態素解析コストが最も小さくなり、不自然な文章である修正後文1は、形態素解析コストが大きな値として得られている。形態素解析コストが最も小さい修正後文を正解とすることとしている本実施形態では、修正後文2を正解とし、修正後文1を不正解とすることができる。
また、正解と判定する際に閾値を設定することで、複数正解があるような場合も確度の高い判定を行える。以下、具体例を挙げる。
原文:「ぉ金無いっつーの」、未知語:「ぉ」
修正ルール:「ぉ」→「お」、「ぉ」→「 」(削除)、「っ」→「つ」
修正後文1:「金無いっつーの」
修正後文2:「お金無いっつーの」
修正後文3:「お金無いつつーの」
この例では、従来技術を用いた場合には、全て正解と判定してしまう。
一方、この例を本実施形態の形態素解析部20により形態素解析コストを求めると、以下のようになる。
原文:「ぉ金無いっつーの」、形態素解析コスト:34624
修正後文1:「金無いっつーの」、形態素解析コスト:21493
修正後文2:「お金無いっつーの」、形態素解析コスト:23050
修正後文3:「お金無いつつーの」、形態素解析コスト:29039
本実施形態では、形態素解析コストが最も小さい文を正解とし、その正解とした文の形態素解析コストを差し引いた形態素解析コストが、閾値以内の文を正解とする。ここで、閾値は、正解とした文の形態素解析コストの10%としたので、形態素解析コストが23642.3(21493+21493×10%=23642.3)以内である文が正解となる。よって、本実施形態では、修正後文1及び修正後文2が正解と判定され、修正後文3は不正解と判定される。このように、本実施形態では、自然な表現に修正されている2文が正解となり、不自然な文である修正後文3を含めた全て正解としてしまっている従来技術よりも精度の高い修正が可能となっている。なお、閾値の設定値として用いた10%は、一例であり、この値は、修正目的等に応じて適宜設定するとよい。
(2)従来技術では、未知語の有無情報だけによって、正解であるか否かの判定を行っていた。しかし、その場合、本来修正ルールによって修正すべきでない語に対して修正を行う場合がある。一方、本実施形態によれば、形態素解析コストが原文よりも小さくなる場合のみ修正ルールを適用することができる。以下に、具体例を示す。
原文:「のりチャン来てたよ」、未知語:「チャン」
修正ルール:「ャ」→「ゃ」、「ャ」→「 」(削除)
修正後文1:「のりチゃン来てたよ」、未知語:「チ」、「ゃ」
修正後文2:「のりチン来てたよ」
従来技術では、修正後文2に未知語が含まれていないことから、この修正後文2を正解であると判定していた。
一方、この例を本実施形態の形態素解析部20により形態素解析コストを求めると、以下のようになる。
原文:「のりチャン来てたよ」、形態素解析コスト:26025
修正後文1:「のりチゃン来てたよ」、形態素解析コスト:66117
修正後文2:「のりチン来てたよ」、形態素解析コスト:30026
このように、原文の形態素解析コストが最も小さいので、本実施形態では、修正しないことが正解となる。
(3)従来技術では、正解判定は正解、不正解の2値であったため、大規模な文書集合を用いて、統計的に修正ルールの評価(以下、統計的スコアと呼び本実施形態のスコアと区別する)を行うことで、ルールの選択的な適用や過剰な適用の抑制を実現していた。しかし、従来技術の手法では、事前の学習が必要であるとともに、事前学習に多くの時間を要していた。
一方、本実施形態の修正ルールは、統計的スコアを必要としないため、事前学習時間の短縮や修正ルールの検索時間の短縮を行える。以下、具体例を挙げる。
従来技術では、修正ルール毎に、以下のように統計的スコアを計算していた。
修正ルール「ゎ」→「は」、統計的スコア:0.6
修正ルール「日ゎ」→「日は」、統計的スコア:0.7
修正ルール「今日ゎ」→「今日は」、統計的スコア:0.8
修正ルール「今日ゎい」→「今日はい」、統計的スコア:0.85
修正ルール「今日ゎいい」→「今日はいい」、統計的スコア:0.9
修正ルール「ゎ」→「わ」、統計的スコア:0.4
修正ルール「日ゎ」→「日わ」、統計的スコア:0.2
このように、従来技術では、多数の修正ルールそれぞれに対して統計的スコアを算出するので、修正ルールの事前学習や検索に要する計算時間が大きい。
一方、本実施形態では、修正ルール「ゎ」→「は」、修正ルール「ゎ」→「わ」を記憶しているだけであり、修正ルール毎に統計的スコアを計算しないため、計算時間が小さい。
以上説明したように、本実施形態によれば、形態素解析コストを用いて修正の判定を行うので、精度の高い修正を行える。また、形態素解析コストを用いて修正ルールのスコアリングを行うので、より正確に修正ルールの適用を行うことができるようになり、精度の高い修正を行える。
なお、文章修正装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録された文章修正プログラムを文章修正装置に読み込ませ、実行することによって本発明の文章修正装置、文章修正システム、文章修正方法を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
(変形形態)
(1)本実施形態において、原文と修正後文との両方の形態素解析コストを計算し、それらを判定に用いる例を挙げて説明した。これに限らず、例えば、原文の形態素解析コストを計算せずに、修正後文の形態素解析コストのみを計算して判定に用いてもよい。
(2)本実施形態において、形態素解析コストを修正の判定と、修正ルールに対してのスコアリングとの両方に用いる例を挙げて説明した。これに限らず、例えば、修正の判定のみに用いる形態であってもよいし、修正ルールのスコアリングのみに用いる形態であってもよい。
(3)本実施形態において、文章修正装置として1つのまとまった装置の例を挙げて説明したが、これに限らず、例えば、複数の装置を組み合わせた文章修正システムとして構成してもよい。
(4)本実施形態において、修正部60は、未知語抽出部40が未知語を抽出した部分に修正を行う例を挙げて説明した。これに限らず、例えば、形態素解析を行った結果の全体に対して修正を行うものであってもよい。なお、本実施形態のように未知語を抽出した部分に修正を行うことにより、処理の高速化を図ることができる。
なお、実施形態及び変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。
10 解析対象文章入力部
20 形態素解析部
21 既知語記憶部
40 未知語抽出部
50 修正ルール記憶部
60 修正部
70 修正評価部
71 判定部
72 修正ルール評価部
80 修正結果出力部

Claims (10)

  1. 複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段と、
    少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段と、
    前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段と、
    を備える文章修正装置。
  2. 請求項1に記載の文章修正装置において、
    前記修正評価手段は、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正が正しく行われたか否か、又は、前記修正手段による修正の確度を判定する判定手段を備えること、
    を特徴とする文章修正装置。
  3. 請求項2に記載の文章修正装置において、
    前記形態素解析手段は、前記第2の文章情報についての形態素解析コストに加えて前記第1の文章情報についての形態素解析コストを算出し、
    前記判定手段は、前記第1の文章情報についての形態素解析コストと前記第2の文章情報についての形態素解析コストを用いて判定を行うこと、
    を特徴とする文章修正装置。
  4. 請求項2又は請求項3に記載の文章修正装置において、
    前記修正手段は、1つの前記第1の文章情報から複数の前記第2の文章情報を生成し、
    前記形態素解析手段は、複数の前記第2の文章情報それぞれについて形態素解析コストを算出し、
    前記判定手段は、複数の前記第2の文章情報それぞれについて算出された形態素解析コストを用いて判定を行うこと、
    を特徴とする文章修正装置。
  5. 請求項1から請求項4までのいずれか1項に記載の文章修正装置において、
    前記修正手段は、修正ルールにしたがい前記第1の文章情報の修正を行うものであり、
    前記修正評価手段は、前記第2の文章情報の生成に用いた前記修正ルールに対して前記形態素解析コストに基づいた評価値を付与する修正ルール評価手段を備えること、
    を特徴とする文章修正装置。
  6. 請求項5に記載の文章修正装置において、
    前記修正ルールを記憶する修正ルール記憶手段を備え、
    前記修正ルール評価手段は、前記評価値に応じて、前記修正ルール記憶手段が記憶する前記修正ルールの削除、及び/又は、前記修正ルール記憶手段の記憶内容の更新を行うこと、
    を特徴とする文章修正装置。
  7. 請求項1から請求項6までのいずれか1項に記載の文章修正装置において、
    既知の語を記憶する既知語記憶手段と、
    前記第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段と、
    を備え、
    前記修正手段は、前記第1の文章情報において未知の語が抽出された部分を修正すること、
    を特徴とする文章修正装置。
  8. 複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段と、
    少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段と、
    前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段と、
    を備える文章修正システム。
  9. 複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成し、
    少なくとも前記第2の文章情報についての形態素解析コストを算出し、
    算出された前記形態素解析コストを用いて前記修正に関する評価を行う文章修正方法。
  10. コンピュータを、
    複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段と、
    少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段と、
    前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段として機能させるための文章修正プログラム。
JP2009103629A 2009-04-22 2009-04-22 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム Pending JP2010257021A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009103629A JP2010257021A (ja) 2009-04-22 2009-04-22 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009103629A JP2010257021A (ja) 2009-04-22 2009-04-22 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム

Publications (1)

Publication Number Publication Date
JP2010257021A true JP2010257021A (ja) 2010-11-11

Family

ID=43317896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009103629A Pending JP2010257021A (ja) 2009-04-22 2009-04-22 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム

Country Status (1)

Country Link
JP (1) JP2010257021A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118723A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法
US9009026B2 (en) 2011-09-26 2015-04-14 Fuji Xerox Co., Ltd. Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method
JP2016538666A (ja) * 2013-10-02 2016-12-08 シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法
JPWO2021144895A1 (ja) * 2020-01-15 2021-07-22

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203984A (ja) * 2007-02-16 2008-09-04 Nec Corp 文字列変換装置及び文字列変換方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203984A (ja) * 2007-02-16 2008-09-04 Nec Corp 文字列変換装置及び文字列変換方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ200910054039; 池田和史 他3名: 'ブログにおける表記の揺れを修正するためのルール自動生成システムの提案' 第71回(平成21年)全国大会講演論文集(2) , 20090310, 2-79〜2-80, 社団法人情報処理学会 *
JPN6013023923; 池田和史 他3名: 'ブログにおける表記の揺れを修正するためのルール自動生成システムの提案' 第71回(平成21年)全国大会講演論文集(2) , 20090310, 2-79〜2-80, 社団法人情報処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118723A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法
US9009026B2 (en) 2011-09-26 2015-04-14 Fuji Xerox Co., Ltd. Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method
JP2016538666A (ja) * 2013-10-02 2016-12-08 シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法
US10282413B2 (en) 2013-10-02 2019-05-07 Systran International Co., Ltd. Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof
JPWO2021144895A1 (ja) * 2020-01-15 2021-07-22
WO2021144895A1 (ja) * 2020-01-15 2021-07-22 日本電気株式会社 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
KR101292404B1 (ko) 철자 제안을 생성하기 위한 방법 및 시스템
US9720901B2 (en) Automated text-evaluation of user generated text
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US8463598B2 (en) Word detection
CN108363701B (zh) 命名实体识别方法及系统
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
EP2950306A1 (en) A method and system for building a language model
US20140380169A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
Richter et al. Korektor–a system for contextual spell-checking and diacritics completion
Sidarenka et al. Rule-based normalization of German Twitter messages
WO2019226406A1 (en) Dynamic extraction of contextually-coherent text blocks
Cotelo et al. A modular approach for lexical normalization applied to Spanish tweets
JP2010257021A (ja) 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
CN112949290A (zh) 文本纠错方法、装置及通信设备
US20120265520A1 (en) Text processor and method of text processing
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
US8977538B2 (en) Constructing and analyzing a word graph
KR102562692B1 (ko) 문장 구두점 제공 시스템 및 방법
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质
Ravishankar Finite-state back-transliteration for Marathi
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
CN110399608A (zh) 一种基于拼音的对话系统文本纠错系统及方法
JP5961586B2 (ja) 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム
JP2020016939A (ja) 単語列修正装置、単語列修正方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130702

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131203