JP2011113099A - 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ - Google Patents
未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ Download PDFInfo
- Publication number
- JP2011113099A JP2011113099A JP2009265786A JP2009265786A JP2011113099A JP 2011113099 A JP2011113099 A JP 2011113099A JP 2009265786 A JP2009265786 A JP 2009265786A JP 2009265786 A JP2009265786 A JP 2009265786A JP 2011113099 A JP2011113099 A JP 2011113099A
- Authority
- JP
- Japan
- Prior art keywords
- correction
- sentence
- category
- correction rule
- unknown word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、未知語を抽出する未知語抽出手段と、未知語と隣接形態素とからなる検索キーを生成する検索キー生成手段と、修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、カテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と、カテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、選択されたカテゴリに基づく修正ルールを選択する修正ルール選択手段とを有する。
【選択図】図1
Description
(1)「うっそー」「すごーい」のような会話における発音の変化傾向に併せた表記
(2)「カッコイイ」のように本来ひらがなで表記される語を意図的にカタカナにした表記
(3)「ヵゎぃぃ」(「かわいい」と読む)、「ゎたUゎ」(「わたしは」と読む)のような特有の表記
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに基づく修正ルールを選択する修正ルール選択手段と
してコンピュータを機能させることを特徴とする。
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
解析対象文章情報を形態素に分割し、未知語を抽出する第1のステップと、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する第3のステップと、
修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する第4のステップと、
修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する第5のステップと、
選択されたカテゴリに基づく修正ルールを選択する第6のステップと
を有することを特徴とする。
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルールを検索する修正ルール検索手段と、
修正基準文章情報のカテゴリ毎に、修正ルールの中から、文章構成指標に基づいて1つの修正ルールを選択する修正ルール候補選択手段と
修正基準文章情報のカテゴリ毎に選択された修正ルールについて、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに基づく修正ルールを選択する修正ルール選択手段と
を有することを特徴とする。
解析対象文章 :えーゆーはかっこいい
形態素解析結果:えーゆー(未知語)/は/かっこいい
くだけた表現は、形態素解析辞書に登録されていない場合が多い。そこで、形態素解析辞書に登録されていない表現「えーゆー」は、未知語として処理される。
入力文字列 :えーゆー(未知語)/は/かっこいい
検索キー :*はかっこいい(ここで「*」は1以上の任意文字列を示す。)
検索キー :「*はかっこいい」
カテゴリ :1
修正候補文字列:英雄/は/かっこいい
修正ルール候補:えーゆー⇒英雄
カテゴリ :2
修正候補文字列:au/は/かっこいい
修正ルール候補:えーゆー⇒au
カテゴリ :2
修正候補文字列:エイユウ/は/かっこいい
修正ルール候補:えーゆー⇒エイユウ
修正ルール候補:カテゴリ2 えーゆー⇒au
カテゴリ2 えーゆー⇒エイユウ
修正ルール候補における出現頻度は、検索された修正ルール候補に該当する検索結果文字列が出現した頻度をいう。以下の表では、検索結果文字列の出現頻度に基づくスコアリングの例を表す。
編集距離とは、二つの文字列がどの程度異なっているかを表す指標であり、一方の文字列を他方の文字列に変換するために必要な挿入、削除、置換の最小回数として与えられる。修正ルールに基づく修正形態素は、未知語に対して少数文字の挿入や削除、置換を実行したものであることが多い。例えば、「フォーラム」から「ファーム」への編集は、「ォ」を「ァ」に置換し、「ラ」を削除する方法が、最小の編集回数である2回となるため、編集距離は2である。以下の表は、編集距離に基づくスコアリングの例を表す。
形態素解析コスト値とは、複数ある単語区切りの中で、その単語区切りがどのくらい確からしいかを表す指標である。形態素解析コスト値は、例えば、単語単体での出現確率(生起コスト)や複数単語が連続して出現する確率(連接コスト)から算出される。形態素解析コスト値は、修正ルール候補の文脈における適応度を評価する指標として用いられる。
score=α・freq+β・dist+γ・cost
ここで、α、β、γは、重み付け関数であり、修正ルールの適用と学習により、最適値を算出することができる。また、修正ルールは、適用する閾値を設定することができる。閾値を低く設定した場合、適用される修正ルールは増加するが、その中に含まれる修正ルールの誤適用も増加する。一方、閾値を高く設定した場合、適用される修正ルールは減少するが、その中に含まれる修正ルールの誤適用も減少させることができる。
(S22)修正ルール検索部14は、カテゴリ毎に、検索キーを含む修正候補文字列を抽出する。そして、修正ルール検索部14は、抽出した修正候補文字列中の任意文字列に該当する部分を、未知語に近似する部分と判断し、修正ルール候補として抽出する。ここで、抽出された修正ルール候補は、抽出元のカテゴリと対応付けられる。例えば、「カテゴリ1」に分類されている修正基準文章に基づいて抽出された修正ルール候補は、「修正ルール候補1」と対応付けられる。カテゴリと対応付けられた修正ルール候補は、各カテゴリにつき2つ以上あってもよい。
(S23)それぞれの修正ルール候補は、修正ルール候補選択部15に出力される。
(S24)修正ルール候補選択部15は、各カテゴリにつき1つ、文章構成指標に基づいて文脈に適した修正ルール候補を選択する。修正ルール候補選択部15は、選択した修正ルール候補を、カテゴリ選択部16へ出力する。
(S25)カテゴリ選択部16は、選択されたカテゴリを修正ルール選択部17へ出力する。修正ルール選択部17は、選択されたカテゴリに基づく修正ルールを選択する。
(S402)文章解析サーバ2は、Webサーバ3から解析対象文章情報(「えーゆーはかっこいい」)を取得する。その解析対象文章は、文章修正機能部22へ入力される。
(S403)文章修正機能部22は、解析対象文章情報を形態素に分割する。形態素に未知語が含まれていた場合、その未知語が抽出される。
(S404)文章修正機能部22は、S403で抽出した未知語と、その未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する。
(S405)文章修正機能部22は、修正基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する。
(S406)文章修正機能部22は、修正基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する。
(S407)文章修正機能部22は、修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する。
(S408)文章修正機能部22は、S407で選択されたカテゴリに基づく修正ルールを選択する。文章修正機能部22は、選択した修正ルールを解析対象文章に適用し、修正後文章(「auはかっこいい」)を出力する。
11 基準文章記憶部
12 未知語抽出部
13 検索キー生成部
14 修正ルール検索部
15 修正ルール候補選択部
16 カテゴリ選択部
17 修正ルール選択部
18 修正ルール適用部
2 文章解析サーバ
20 通信インタフェース部
21 解析対象文章入力部
22 文章修正機能部
3 Webサーバ
4 投稿用端末
Claims (6)
- 未知語を含む解析対象文章情報に対して、該未知語を修正するようにコンピュータを機能させる文章修正プログラムであって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
前記解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
前記修正基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
前記修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
選択された前記カテゴリに基づく修正ルールを選択する修正ルール選択手段と
してコンピュータを機能させることを特徴とする文章修正プログラム。 - 前記基準文章記憶手段は、複数の修正基準文章情報を、その内容に応じて、その特徴語に応じて、及び/又は、その日時情報に応じて、複数のカテゴリに分類していることを特徴とする請求項1に記載の文章修正プログラム。
- 前記解析対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることを特徴とする請求項1又は2に記載の文章修正プログラム。
- 前記修正ルール候補選択手段は、前記文章構成指標として、(1)当該修正ルール候補における出現頻度、(2)前記未知語と前記修正ルール候補に基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分、に基づいて、前記カテゴリ毎に1つの修正ルールを選択することを特徴とする請求項1から3のいずれか1項に記載の文章修正プログラム。
- 未知語を含む解析対象文章情報に対して、コンピュータを用いて未知語を修正する文章修正方法であって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
前記解析対象文章情報を形態素に分割し、未知語を抽出する第1のステップと、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルール候補を検索する第3のステップと、
前記修正基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する第4のステップと、
前記修正基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択する第5のステップと、
選択された前記カテゴリに基づく修正ルールを選択する第6のステップと
を有することを特徴とする文章修正方法。 - 未知語を含む解析対象文章情報を他の公開サーバからネットワークを介して取得し、該未知語を修正する文章解析サーバであって、
複数の修正基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
前記解析対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記修正基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルールを検索する修正ルール検索手段と、
前記修正基準文章情報のカテゴリ毎に、前記修正ルールの中から、文章構成指標に基づいて1つの修正ルールを選択する修正ルール候補選択手段と
前記修正基準文章情報のカテゴリ毎に選択された修正ルールについて、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
選択された前記カテゴリに基づく修正ルールを選択する修正ルール選択手段と
を有することを特徴とする文章解析サーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009265786A JP5448744B2 (ja) | 2009-11-21 | 2009-11-21 | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009265786A JP5448744B2 (ja) | 2009-11-21 | 2009-11-21 | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011113099A true JP2011113099A (ja) | 2011-06-09 |
JP5448744B2 JP5448744B2 (ja) | 2014-03-19 |
Family
ID=44235416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009265786A Expired - Fee Related JP5448744B2 (ja) | 2009-11-21 | 2009-11-21 | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5448744B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014036827A1 (zh) * | 2012-09-10 | 2014-03-13 | 华为技术有限公司 | 一种文本校正方法及用户设备 |
JP6224811B1 (ja) * | 2016-12-07 | 2017-11-01 | たけおかラボ株式会社 | ルールセットを選択可能な推論エンジンを有するプログラム、装置及び方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203984A (ja) * | 2007-02-16 | 2008-09-04 | Nec Corp | 文字列変換装置及び文字列変換方法 |
-
2009
- 2009-11-21 JP JP2009265786A patent/JP5448744B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203984A (ja) * | 2007-02-16 | 2008-09-04 | Nec Corp | 文字列変換装置及び文字列変換方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014036827A1 (zh) * | 2012-09-10 | 2014-03-13 | 华为技术有限公司 | 一种文本校正方法及用户设备 |
CN103678271A (zh) * | 2012-09-10 | 2014-03-26 | 华为技术有限公司 | 一种文本校正方法及用户设备 |
CN103678271B (zh) * | 2012-09-10 | 2016-09-14 | 华为技术有限公司 | 一种文本校正方法及用户设备 |
JP6224811B1 (ja) * | 2016-12-07 | 2017-11-01 | たけおかラボ株式会社 | ルールセットを選択可能な推論エンジンを有するプログラム、装置及び方法 |
WO2018105656A1 (ja) * | 2016-12-07 | 2018-06-14 | たけおかラボ株式会社 | ルールセットを選択可能な推論エンジンを有するプログラム記録媒体、装置及び方法 |
JP2018097397A (ja) * | 2016-12-07 | 2018-06-21 | たけおかラボ株式会社 | ルールセットを選択可能な推論エンジンを有するプログラム、装置及び方法 |
US11443199B2 (en) | 2016-12-07 | 2022-09-13 | Takeoka Lab Corporation | Program storage medium, apparatus and method provided with ruleset-selectable inference engine |
Also Published As
Publication number | Publication date |
---|---|
JP5448744B2 (ja) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11675977B2 (en) | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding | |
Şeker et al. | Initial explorations on using CRFs for Turkish named entity recognition | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
US8660834B2 (en) | User input classification | |
Saloot et al. | An architecture for Malay Tweet normalization | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
Seker et al. | Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content. | |
Şeker et al. | Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content 1 | |
Richter et al. | Korektor–a system for contextual spell-checking and diacritics completion | |
Frey et al. | The DiDi Corpus of South Tyrolean CMC Data | |
Albogamy et al. | POS tagging for Arabic tweets | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
Cotelo et al. | A modular approach for lexical normalization applied to Spanish tweets | |
KR101023209B1 (ko) | 문서 번역 장치 및 그 방법 | |
Philemon et al. | A machine learning approach to multi-scale sentiment analysis of amharic online posts | |
Bhattacharyya et al. | A review on natural language processing in opinion mining | |
Khan et al. | Does size matter? text and grammar revision for parsing social media data | |
JP5448744B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
JP5339628B2 (ja) | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ | |
Ogrodniczuk et al. | Lexical correction of polish twitter political data | |
JP5495425B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
Carter | Exploration and exploitation of multilingual data for statistical machine translation | |
JP2011113097A6 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
JP5574526B2 (ja) | 伏せ字を含む文章を修正するための伏せ字修正プログラム、方法及び文章解析サーバ | |
Saloot | Corpus-Driven Malay Language Tweet Normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5448744 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |