JP2010257021A - 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム - Google Patents
文章修正装置、文章修正システム、文章修正方法、文章修正プログラム Download PDFInfo
- Publication number
- JP2010257021A JP2010257021A JP2009103629A JP2009103629A JP2010257021A JP 2010257021 A JP2010257021 A JP 2010257021A JP 2009103629 A JP2009103629 A JP 2009103629A JP 2009103629 A JP2009103629 A JP 2009103629A JP 2010257021 A JP2010257021 A JP 2010257021A
- Authority
- JP
- Japan
- Prior art keywords
- correction
- sentence
- morpheme analysis
- analysis cost
- sentence information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】ブログ等の独特の表現や口語的な表現の文章を修正ルールにしたがい修正部60が修正した文章について、形態素解析部20により形態素解析コストを算出する。算出した形態素解析コストを修正の判定に判定部71が用いる。また、算出した形態素解析コストを修正ルールのスコアリングに修正ルール評価部72が用いる。
【選択図】図1
Description
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
図1は、本発明による文章修正装置の実施形態の構成を示す図である。
本実施形態の文章修正装置は、解析対象文章入力部10と、形態素解析部20と、既知語記憶部21と、未知語抽出部40と、修正ルール記憶部50と、修正部60と、修正評価部70と、判定部71と、修正ルール評価部72と、修正結果出力部80と、修正ルールスコア出力部90とを備えている。
本実施形態の文章修正装置は、例えばブログ等の文章中に多い砕けた表現(口語的な表現)や独特の表現の語を、文語的な表現に修正する装置である。砕けた表現を文語的な表現に修正する例としては、例えば、下記のようなものがある。
例1:「困っちゃう」を「困ってしまう」に修正する。
例2:「ヵゎぃぃ」を「かわいい」に修正する。
ここで、修正ルールとは、「ヵゎぃぃ→かわいい」のように、未知語を含む文章を未知語を含まない文語的な表現へ修正するための文字列置換の規則を示す。なお、上述の記号「→」は、記号の左辺の語から右辺の語へと修正するという修正ルールを表すものとする。修正ルール記憶部50が記憶する汎用な修正ルールとしては、例えば、「ぁ」→「あ」、「ア」→「あ」、「ア」→「−」、「ァ」→「 」(文字の削除)、「 」→「あ」(文字の挿入)等が挙げられる。
判定部71は、形態素解析部20から得た形態素解析コストに基づいて、修正部60による修正が正しく行われたか否か、及び、修正部60による修正の確度を判定する。
修正ルール評価部72は、修正後文の生成に用いた修正ルールに対して形態素解析コストに基づいた評価値(スコア)を付与する(スコアリング)。また、修正ルール評価部72は、評価値に応じて、修正ルール記憶部50が記憶する修正ルールの削除を行ったり、修正ルール記憶部50の記憶内容の更新を行ったりする。例えば、修正ルール評価部72は、ある修正ルールの評価値が所定値よりも小さい場合には、その修正ルールを修正ルール記憶部50から削除する。また、修正ルール評価部72は、修正ルールを、その評価値によりいくつかのグループに分類するように修正ルール記憶部50の記憶内容を更新する。これにより、修正を行うときの要求に応じて、評価値の高いグループの修正ルールのみを使用したり、全てのグループの修正ルールのみを使用したりできるようにする。このように修正ルール記憶部50が記憶する修正ルールの削除を行ったり、修正ルール記憶部50の記憶内容の更新を行ったりすることにより、より的確な修正をより高速に行うことができる。
修正ルールスコア出力部90は、修正ルール評価部72が修正ルールに対して付与した評価値を出力する。修正ルールスコア出力部90が出力した修正ルールの評価値は、他のアプリケーション等で利用することができる。
以下、判定部71及び修正ルール評価部72による形態素解析コストの利用方法について詳しく説明する。
原文:「今日ゎいい天気」、未知語:「ゎ」
修正ルール:「ゎ→わ」、「ゎ→は」
修正後文1:「今日わいい天気」
修正後文2:「今日はいい天気」
原文:「今日ゎいい天気」→形態素解析コスト:22028
修正後:「今日わいい天気」→形態素解析コスト:17787
修正後:「今日はいい天気」→形態素解析コスト:10214
判定する方法としては、文全体の形態素解析コストが最も小さい(最も文として確からしい)文を正解、それ以外のものを不正解と判定する方法がある。上記の例では「今日はいい天気」が最も文全体の形態素解析コストが小さくなっているため、正しい修正と判定する。
また、形態素解析コストの差分をスコアリングに反映させてもよい。
例えば、上述した具体例において、原文のスコアを0とし、「ゎ→わ」のルールを22028−17787=4241、「ゎ→は」のルールを22028−10214=11814といったスコアリングを行う。
修正ルール「ゎ→こわ」、スコア:−1500
修正ルール「ゎ→にわ」、スコア:−2400
修正ルール「ゎ→は」、スコア:11814
修正ルール「ゎ→わわ」、スコア:−3000
ステップ(以下、Sとする)10では、解析対象文章入力部10が解析対象のブログ等の文章を入力する。
S20では、入力された文を形態素解析し、未知語と、その未知語を含んでいる文(未知語文)を検出する。
原文:「今日ゎ元気だょ」、未知語:「ゎ」、「ょ」
修正ルール:「ゎ」→「わ」、「ゎ」→「は」、「ょ」→「よ」
修正後文1:「今日わ元気だょ」
修正後文2:「今日わ元気だよ」
修正後文3:「今日は元気だょ」
修正後文4:「今日は元気だよ」
修正後文5:「今日ゎ元気だよ」
S50では、形態素解析コストに基づいて正解となる修正後文を判定し、出力する。
なお、本実施形態では、文章修正のための正解不正解の判定(S50)と、修正ルールのスコアリング(S60)との双方を行うが、これらの一方を選択的に実行するもの、又は、一方のみを行うものであってもよい。
修正ルール:「ゎ」→「わ」、「ゎ」→「は」
修正後文1:「今日わいい天気」、未知語:なし
修正後文2:「今日はいい天気」、未知語:なし
従来技術では、この修正後文1,2までの修正処理で、未知語がなくなったので、修正が正しく行われたものとして処理を終了していた。しかし、この例の修正後文1は、正しく修正されていない。
原文:「今日ゎいい天気」、形態素解析コスト:22028
修正後文1:「今日わいい天気」、形態素解析コスト:17787
修正後文2:「今日はいい天気」、形態素解析コスト:10214
このように、文章として自然な修正後文2が、形態素解析コストが最も小さくなり、不自然な文章である修正後文1は、形態素解析コストが大きな値として得られている。形態素解析コストが最も小さい修正後文を正解とすることとしている本実施形態では、修正後文2を正解とし、修正後文1を不正解とすることができる。
原文:「ぉ金無いっつーの」、未知語:「ぉ」
修正ルール:「ぉ」→「お」、「ぉ」→「 」(削除)、「っ」→「つ」
修正後文1:「金無いっつーの」
修正後文2:「お金無いっつーの」
修正後文3:「お金無いつつーの」
この例では、従来技術を用いた場合には、全て正解と判定してしまう。
原文:「ぉ金無いっつーの」、形態素解析コスト:34624
修正後文1:「金無いっつーの」、形態素解析コスト:21493
修正後文2:「お金無いっつーの」、形態素解析コスト:23050
修正後文3:「お金無いつつーの」、形態素解析コスト:29039
修正ルール:「ャ」→「ゃ」、「ャ」→「 」(削除)
修正後文1:「のりチゃン来てたよ」、未知語:「チ」、「ゃ」
修正後文2:「のりチン来てたよ」
従来技術では、修正後文2に未知語が含まれていないことから、この修正後文2を正解であると判定していた。
原文:「のりチャン来てたよ」、形態素解析コスト:26025
修正後文1:「のりチゃン来てたよ」、形態素解析コスト:66117
修正後文2:「のりチン来てたよ」、形態素解析コスト:30026
このように、原文の形態素解析コストが最も小さいので、本実施形態では、修正しないことが正解となる。
一方、本実施形態の修正ルールは、統計的スコアを必要としないため、事前学習時間の短縮や修正ルールの検索時間の短縮を行える。以下、具体例を挙げる。
修正ルール「ゎ」→「は」、統計的スコア:0.6
修正ルール「日ゎ」→「日は」、統計的スコア:0.7
修正ルール「今日ゎ」→「今日は」、統計的スコア:0.8
修正ルール「今日ゎい」→「今日はい」、統計的スコア:0.85
修正ルール「今日ゎいい」→「今日はいい」、統計的スコア:0.9
修正ルール「ゎ」→「わ」、統計的スコア:0.4
修正ルール「日ゎ」→「日わ」、統計的スコア:0.2
このように、従来技術では、多数の修正ルールそれぞれに対して統計的スコアを算出するので、修正ルールの事前学習や検索に要する計算時間が大きい。
一方、本実施形態では、修正ルール「ゎ」→「は」、修正ルール「ゎ」→「わ」を記憶しているだけであり、修正ルール毎に統計的スコアを計算しないため、計算時間が小さい。
(1)本実施形態において、原文と修正後文との両方の形態素解析コストを計算し、それらを判定に用いる例を挙げて説明した。これに限らず、例えば、原文の形態素解析コストを計算せずに、修正後文の形態素解析コストのみを計算して判定に用いてもよい。
20 形態素解析部
21 既知語記憶部
40 未知語抽出部
50 修正ルール記憶部
60 修正部
70 修正評価部
71 判定部
72 修正ルール評価部
80 修正結果出力部
Claims (10)
- 複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段と、
少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段と、
前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段と、
を備える文章修正装置。 - 請求項1に記載の文章修正装置において、
前記修正評価手段は、前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正が正しく行われたか否か、又は、前記修正手段による修正の確度を判定する判定手段を備えること、
を特徴とする文章修正装置。 - 請求項2に記載の文章修正装置において、
前記形態素解析手段は、前記第2の文章情報についての形態素解析コストに加えて前記第1の文章情報についての形態素解析コストを算出し、
前記判定手段は、前記第1の文章情報についての形態素解析コストと前記第2の文章情報についての形態素解析コストを用いて判定を行うこと、
を特徴とする文章修正装置。 - 請求項2又は請求項3に記載の文章修正装置において、
前記修正手段は、1つの前記第1の文章情報から複数の前記第2の文章情報を生成し、
前記形態素解析手段は、複数の前記第2の文章情報それぞれについて形態素解析コストを算出し、
前記判定手段は、複数の前記第2の文章情報それぞれについて算出された形態素解析コストを用いて判定を行うこと、
を特徴とする文章修正装置。 - 請求項1から請求項4までのいずれか1項に記載の文章修正装置において、
前記修正手段は、修正ルールにしたがい前記第1の文章情報の修正を行うものであり、
前記修正評価手段は、前記第2の文章情報の生成に用いた前記修正ルールに対して前記形態素解析コストに基づいた評価値を付与する修正ルール評価手段を備えること、
を特徴とする文章修正装置。 - 請求項5に記載の文章修正装置において、
前記修正ルールを記憶する修正ルール記憶手段を備え、
前記修正ルール評価手段は、前記評価値に応じて、前記修正ルール記憶手段が記憶する前記修正ルールの削除、及び/又は、前記修正ルール記憶手段の記憶内容の更新を行うこと、
を特徴とする文章修正装置。 - 請求項1から請求項6までのいずれか1項に記載の文章修正装置において、
既知の語を記憶する既知語記憶手段と、
前記第1の文章情報の中から前記既知語記憶手段に記憶されていない未知の語を抽出する未知語抽出手段と、
を備え、
前記修正手段は、前記第1の文章情報において未知の語が抽出された部分を修正すること、
を特徴とする文章修正装置。 - 複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段と、
少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段と、
前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段と、
を備える文章修正システム。 - 複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成し、
少なくとも前記第2の文章情報についての形態素解析コストを算出し、
算出された前記形態素解析コストを用いて前記修正に関する評価を行う文章修正方法。 - コンピュータを、
複数の語から構成される第1の文章情報の少なくとも一部に対して修正を行い第2の文章情報を生成する修正手段と、
少なくとも前記第2の文章情報についての形態素解析コストを算出する形態素解析手段と、
前記形態素解析手段により算出された前記形態素解析コストを用いて前記修正手段による修正に関する評価を行う修正評価手段として機能させるための文章修正プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009103629A JP2010257021A (ja) | 2009-04-22 | 2009-04-22 | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009103629A JP2010257021A (ja) | 2009-04-22 | 2009-04-22 | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010257021A true JP2010257021A (ja) | 2010-11-11 |
Family
ID=43317896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009103629A Pending JP2010257021A (ja) | 2009-04-22 | 2009-04-22 | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010257021A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118723A (ja) * | 2010-11-30 | 2012-06-21 | Fujitsu Ltd | 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法 |
US9009026B2 (en) | 2011-09-26 | 2015-04-14 | Fuji Xerox Co., Ltd. | Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method |
JP2016538666A (ja) * | 2013-10-02 | 2016-12-08 | シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 |
JPWO2021144895A1 (ja) * | 2020-01-15 | 2021-07-22 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203984A (ja) * | 2007-02-16 | 2008-09-04 | Nec Corp | 文字列変換装置及び文字列変換方法 |
-
2009
- 2009-04-22 JP JP2009103629A patent/JP2010257021A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203984A (ja) * | 2007-02-16 | 2008-09-04 | Nec Corp | 文字列変換装置及び文字列変換方法 |
Non-Patent Citations (2)
Title |
---|
CSNJ200910054039; 池田和史 他3名: 'ブログにおける表記の揺れを修正するためのルール自動生成システムの提案' 第71回(平成21年)全国大会講演論文集(2) , 20090310, 2-79〜2-80, 社団法人情報処理学会 * |
JPN6013023923; 池田和史 他3名: 'ブログにおける表記の揺れを修正するためのルール自動生成システムの提案' 第71回(平成21年)全国大会講演論文集(2) , 20090310, 2-79〜2-80, 社団法人情報処理学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118723A (ja) * | 2010-11-30 | 2012-06-21 | Fujitsu Ltd | 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法 |
US9009026B2 (en) | 2011-09-26 | 2015-04-14 | Fuji Xerox Co., Ltd. | Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method |
JP2016538666A (ja) * | 2013-10-02 | 2016-12-08 | シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 |
US10282413B2 (en) | 2013-10-02 | 2019-05-07 | Systran International Co., Ltd. | Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof |
JPWO2021144895A1 (ja) * | 2020-01-15 | 2021-07-22 | ||
WO2021144895A1 (ja) * | 2020-01-15 | 2021-07-22 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101292404B1 (ko) | 철자 제안을 생성하기 위한 방법 및 시스템 | |
US9720901B2 (en) | Automated text-evaluation of user generated text | |
US10762293B2 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
US8463598B2 (en) | Word detection | |
CN108363701B (zh) | 命名实体识别方法及系统 | |
CN111859921A (zh) | 文本纠错方法、装置、计算机设备和存储介质 | |
EP2950306A1 (en) | A method and system for building a language model | |
US20140380169A1 (en) | Language input method editor to disambiguate ambiguous phrases via diacriticization | |
Richter et al. | Korektor–a system for contextual spell-checking and diacritics completion | |
Sidarenka et al. | Rule-based normalization of German Twitter messages | |
WO2019226406A1 (en) | Dynamic extraction of contextually-coherent text blocks | |
Cotelo et al. | A modular approach for lexical normalization applied to Spanish tweets | |
JP2010257021A (ja) | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム | |
CN112949290A (zh) | 文本纠错方法、装置及通信设备 | |
US20120265520A1 (en) | Text processor and method of text processing | |
US20100145677A1 (en) | System and Method for Making a User Dependent Language Model | |
Mekki et al. | COTA 2.0: An automatic corrector of Tunisian Arabic social media texts | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
KR102562692B1 (ko) | 문장 구두점 제공 시스템 및 방법 | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
Ravishankar | Finite-state back-transliteration for Marathi | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
CN110399608A (zh) | 一种基于拼音的对话系统文本纠错系统及方法 | |
JP5961586B2 (ja) | 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム | |
JP2020016939A (ja) | 単語列修正装置、単語列修正方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130702 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131203 |