JP5339628B2 - 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ - Google Patents
未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ Download PDFInfo
- Publication number
- JP5339628B2 JP5339628B2 JP2010009725A JP2010009725A JP5339628B2 JP 5339628 B2 JP5339628 B2 JP 5339628B2 JP 2010009725 A JP2010009725 A JP 2010009725A JP 2010009725 A JP2010009725 A JP 2010009725A JP 5339628 B2 JP5339628 B2 JP 5339628B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- correction rule
- category
- information
- unknown word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 12
- 238000012937 correction Methods 0.000 claims description 159
- 230000000877 morphologic effect Effects 0.000 claims description 29
- 239000000203 mixture Substances 0.000 claims description 23
- 230000014509 gene expression Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 17
- 238000000605 extraction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)「うっそー」「すごーい」のような会話における発音の変化傾向に併せた表記
(2)「カッコイイ」のように本来ひらがなで表記される語を意図的にカタカナにした表記
(3)「ヵゎぃぃ」(「かわいい」と読む)、「ゎたUゎ」(「わたしは」と読む)のような特有の表記
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに、対象文章情報を分類する文章分類手段と
してコンピュータを機能させることを特徴とする。
基準文章記憶手段は、複数の基準文章情報を、その内容に応じて、その特徴語に応じて、及び/又は、その日時情報に応じて、複数のカテゴリに分類していることも好ましい。
対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であってもよい。
修正ルール候補選択手段は、文章構成指標として、(1)当該修正ルール候補における出現頻度、(2)未知語と修正ルール候補に基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分、に基づいて、カテゴリ毎に1つの修正ルールを選択することも好ましい。
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
対象文章情報を形態素に分割し、未知語を抽出する第1のステップと、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する第3のステップと、
基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する第4のステップと、
基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する第5のステップと、
選択されたカテゴリに、対象文章情報を分類する第6のステップと
を有することを特徴とする。
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに、対象文章情報を分類する文章分類手段と
を有することを特徴とする。
対象文章 :えーゆーはかっこいい
形態素解析結果:えーゆー(未知語)/は/かっこいい
くだけた表現は、形態素解析辞書に登録されていない場合が多い。そこで、形態素解析辞書に登録されていない表現「えーゆー」は、未知語として処理される。
入力文字列 :えーゆー(未知語)/は/かっこいい
検索キー :*はかっこいい(ここで「*」は1以上の任意文字列を示す。)
検索キー :「*はかっこいい」
カテゴリ :1
修正候補文字列:英雄/は/かっこいい
修正ルール候補:えーゆー⇒英雄
カテゴリ :2
修正候補文字列:au/は/かっこいい
修正ルール候補:えーゆー⇒au
カテゴリ :2
修正候補文字列:エイユウ/は/かっこいい
修正ルール候補:えーゆー⇒エイユウ
修正ルール候補:カテゴリ2 えーゆー⇒au
カテゴリ2 えーゆー⇒エイユウ
修正ルール候補における出現頻度は、検索された修正ルール候補に該当する検索結果文字列が出現した頻度をいう。以下の表では、検索結果文字列の出現頻度に基づくスコアリングの例を表す。
編集距離とは、二つの文字列がどの程度異なっているかを表す指標であり、一方の文字列を他方の文字列に変換するために必要な挿入、削除、置換の最小回数として与えられる。修正ルールに基づく修正形態素は、未知語に対して少数文字の挿入や削除、置換を実行したものであることが多い。例えば、「フォーラム」から「ファーム」への編集は、「ォ」を「ァ」に置換し、「ラ」を削除する方法が、最小の編集回数である2回となるため、編集距離は2である。以下の表は、編集距離に基づくスコアリングの例を表す。
形態素解析コスト値とは、複数ある単語区切りの中で、その単語区切りがどのくらい確からしいかを表す指標である。形態素解析コスト値は、例えば、単語単体での出現確率(生起コスト)や複数単語が連続して出現する確率(連接コスト)から算出される。形態素解析コスト値は、修正ルール候補の文脈における適応度を評価する指標として用いられる。
score=α・freq+β・dist+γ・cost
ここで、α、β、γは、重み付け関数であり、修正ルールの適用と学習により、最適値を算出することができる。また、修正ルールは、適用する閾値を設定することができる。閾値を低く設定した場合、適用される修正ルールは増加するが、その中に含まれる修正ルールの誤適用も増加する。一方、閾値を高く設定した場合、適用される修正ルールは減少するが、その中に含まれる修正ルールの誤適用も減少させることができる。
(S22)修正ルール検索部14は、カテゴリ毎に、検索キーを含む修正候補文字列を抽出する。そして、修正ルール検索部14は、抽出した修正候補文字列中の任意文字列に該当する部分を、未知語に近似する部分と判断し、修正ルール候補として抽出する。ここで、抽出された修正ルール候補は、抽出元のカテゴリと対応付けられる。例えば、「カテゴリ1」に分類されている基準文章に基づいて抽出された修正ルール候補は、「修正ルール候補1」と対応付けられる。カテゴリと対応付けられた修正ルール候補は、各カテゴリにつき2つ以上あってもよい。
(S23)それぞれの修正ルール候補は、修正ルール候補選択部15に出力される。
(S24)修正ルール候補選択部15は、各カテゴリにつき1つ、文章構成指標に基づいて文脈に適した修正ルール候補を選択する。修正ルール候補選択部15は、選択した修正ルール候補を、カテゴリ選択部16へ出力する。
(S25)カテゴリ選択部16は、基準文章情報のカテゴリ毎に選択された修正ルール候補について、修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する。カテゴリ選択部16は、選択したカテゴリを文章分類部17へ出力する。文章分類部17は、選択されたカテゴリに、対象文章情報を分類する。
(S402)文章解析サーバ2は、Webサーバ3から対象文章情報(「えーゆーはかっこいい」)を取得する。その対象文章は、文章分類機能部22へ入力される。
(S403)文章分類機能部22は、対象文章情報を形態素に分割する。形態素に未知語が含まれていた場合、その未知語が抽出される。
(S404)文章分類機能部22は、S403で抽出した未知語と、その未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する。
(S405)文章分類機能部22は、基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する。
(S406)文章分類機能部22は、基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する。
(S407)文章分類機能部22は、基準文章情報のカテゴリ毎に選択された修正ルール候補について、修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する。
(S408)文章分類機能部22は、S407で選択されたカテゴリに、対象文章情報を分類する。
11 基準文章記憶部
12 未知語抽出部
13 検索キー生成部
14 修正ルール検索部
15 修正ルール候補選択部
16 カテゴリ選択部
17 文章分類部
2 文章解析サーバ
20 通信インタフェース部
21 対象文章入力部
22 文章分類機能部
3 Webサーバ
4 投稿用端末
Claims (6)
- 未知語を含む分類対象の対象文章情報を、複数のカテゴリのいずれかに分類するようにコンピュータを機能させる文章分類プログラムであって、
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
前記対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
前記基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
前記基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
選択された前記カテゴリに、前記対象文章情報を分類する文章分類手段と
してコンピュータを機能させることを特徴とする文章分類プログラム。 - 前記基準文章記憶手段は、複数の基準文章情報を、その内容に応じて、その特徴語に応じて、及び/又は、その日時情報に応じて、複数のカテゴリに分類していることを特徴とする請求項1に記載の文章分類プログラム。
- 前記対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることを特徴とする請求項1又は2に記載の文章分類プログラム。
- 前記修正ルール候補選択手段は、前記文章構成指標として、(1)当該修正ルール候補における出現頻度、(2)前記未知語と前記修正ルール候補に基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分、に基づいて、前記カテゴリ毎に1つの修正ルールを選択することを特徴とする請求項1から3のいずれか1項に記載の文章分類プログラム。
- 未知語を含む分類対象の対象文章情報を、コンピュータを用いて、複数のカテゴリのいずれかに分類する文章分類方法であって、
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
前記対象文章情報を形態素に分割し、未知語を抽出する第1のステップと、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
前記基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルール候補を検索する第3のステップと、
前記基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する第4のステップと、
前記基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択する第5のステップと、
選択された前記カテゴリに、前記対象文章情報を分類する第6のステップと
を有することを特徴とする文章分類方法。 - 未知語を含む対象文章情報を他の公開サーバからネットワークを介して取得し、該対象文章情報を、複数のカテゴリのいずれかに分類する文章解析サーバであって、
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
前記対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
前記基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
前記基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
選択された前記カテゴリに、前記対象文章情報を分類する文章分類手段と
を有することを特徴とする文章解析サーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010009725A JP5339628B2 (ja) | 2010-01-20 | 2010-01-20 | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010009725A JP5339628B2 (ja) | 2010-01-20 | 2010-01-20 | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011150449A JP2011150449A (ja) | 2011-08-04 |
JP5339628B2 true JP5339628B2 (ja) | 2013-11-13 |
Family
ID=44537382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010009725A Expired - Fee Related JP5339628B2 (ja) | 2010-01-20 | 2010-01-20 | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5339628B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111095344B (zh) * | 2017-09-11 | 2023-12-01 | 株式会社岛津制作所 | 试样类别的确定装置、分析系统以及分析网络系统 |
CN110134785A (zh) * | 2019-04-15 | 2019-08-16 | 平安普惠企业管理有限公司 | 论坛文章的管理方法、装置、存储介质及设备 |
WO2024189865A1 (ja) * | 2023-03-16 | 2024-09-19 | 富士通株式会社 | 出力プログラム、出力方法および情報処理装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0554037A (ja) * | 1991-08-28 | 1993-03-05 | Fujitsu Ltd | 文書分類方式 |
JP2005099884A (ja) * | 2000-07-06 | 2005-04-14 | Takashi Miyake | 検索装置 |
JP2005190284A (ja) * | 2003-12-26 | 2005-07-14 | Nec Corp | 情報分類装置および情報分類方法 |
-
2010
- 2010-01-20 JP JP2010009725A patent/JP5339628B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011150449A (ja) | 2011-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Şeker et al. | Initial explorations on using CRFs for Turkish named entity recognition | |
Razavi et al. | Offensive language detection using multi-level classification | |
US8660834B2 (en) | User input classification | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN108920633B (zh) | 一种论文相似度的检测方法 | |
Saloot et al. | An architecture for Malay Tweet normalization | |
Nair et al. | SentiMa-sentiment extraction for Malayalam | |
Gaglani et al. | Unsupervised whatsapp fake news detection using semantic search | |
Bhattacharjee et al. | Sentiment analysis using cosine similarity measure | |
Richter et al. | Korektor–a system for contextual spell-checking and diacritics completion | |
Şeker et al. | Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content 1 | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
Albogamy et al. | POS tagging for Arabic tweets | |
Cotelo et al. | A modular approach for lexical normalization applied to Spanish tweets | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
Philemon et al. | A machine learning approach to multi-scale sentiment analysis of amharic online posts | |
KR101023209B1 (ko) | 문서 번역 장치 및 그 방법 | |
Li et al. | Automatic extraction for product feature words from comments on the web | |
Khan et al. | Does size matter? text and grammar revision for parsing social media data | |
JP5339628B2 (ja) | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ | |
JP5448744B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
JP5495425B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
JP2011113097A6 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
Ogrodniczuk et al. | Lexical correction of polish twitter political data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5339628 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |