JP5339628B2 - 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ - Google Patents

未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ Download PDF

Info

Publication number
JP5339628B2
JP5339628B2 JP2010009725A JP2010009725A JP5339628B2 JP 5339628 B2 JP5339628 B2 JP 5339628B2 JP 2010009725 A JP2010009725 A JP 2010009725A JP 2010009725 A JP2010009725 A JP 2010009725A JP 5339628 B2 JP5339628 B2 JP 5339628B2
Authority
JP
Japan
Prior art keywords
sentence
correction rule
category
information
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010009725A
Other languages
English (en)
Other versions
JP2011150449A (ja
Inventor
和史 池田
正 柳原
一則 松本
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2010009725A priority Critical patent/JP5339628B2/ja
Publication of JP2011150449A publication Critical patent/JP2011150449A/ja
Application granted granted Critical
Publication of JP5339628B2 publication Critical patent/JP5339628B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文章を分類するための文章分類プログラム、方法及び文章解析サーバに関する。
インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらサイトは、親しみやすさから、口語的な「くだけた表現」で記述されることが多い。
このようなサイトによって公開される文章情報も、カテゴリ分類によって、様々な統計的分析の対象とされるようになってきた。カテゴリとしては、一般にキーワードによって分類されている場合が多く、1つの文章情報を、例えば趣味などの「プロ野球」「携帯電話機」「情報セキュリティ」のようなカテゴリに分類することができる。また、文章情報のカテゴリ分類は、違法・有害な文章情報を検出するためにも有効である。違法・有害な文章情報としては、例えば、個人や組織を誹謗及び中傷する文章や、犯罪予告、犯罪助長若しくはアダルト的な文章などがある。
これら解析対象となる文章情報の分類には、文章内容を解析するべく形態素解析が必要となる。形態素解析プログラムは、解析対象となる文章を形態素に分割する。英語の文章は、“This is a pen.”のように単語ごとに区切られた「分かち書き」にされている。これに対して、日本語の文章は、分かち書きされていないため、構文解析等に先立って、形態素解析による処理が必要となる。
「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。形態素解析プログラムは、「単語」毎に「品詞」「読み」が登録された辞書を有する。分割された形態素には、辞書を用いて「品詞」「読み」の情報が付与され、単語の配列を規定する文法規則を用いて文章を解析する。このように、形態素解析プログラムの解析精度は、辞書に依存する。そのため、辞書に登録されていない単語を含む文章は、十分な解析精度を得ることができない。
これに対し、ブログ、掲示板又はクチコミコメントによって公開されるWeb文書には、一般的に、以下のような「くだけた表現」が多数含まれる。
(1)「うっそー」「すごーい」のような会話における発音の変化傾向に併せた表記
(2)「カッコイイ」のように本来ひらがなで表記される語を意図的にカタカナにした表記
(3)「ヵゎぃぃ」(「かわいい」と読む)、「ゎたUゎ」(「わたしは」と読む)のような特有の表記
これら表現は、一般的に、形態素解析プログラムの辞書には登録されていないために、「未知語」として処理される。辞書に登録されていない単語は、形態素相当の単位に分割された上で、「品詞」「読み」の情報に代えて「未知語」という情報のみが付与される。
池田和史、柳原正、松本一則、滝嶋康弘、「くだけた表現を修正するための教師なし学習方式の提案と評価」、第8回情報科学技術フォーラム、2009
未知語と判定された語は、カテゴリ分類のための判断要素となり得ない。そのために、ブログ、掲示板又はクチコミコメントによって公開される文章情報には、一般的に「くだけた表現」としての未知語が多く含まれているために、適切なカテゴリ分類をすることができなかった。
勿論、「未知語」として処理された語を全て、人手によって辞書に登録することができれば、形態素解析の精度を向上させることができ、その対象文章情報を適切なカテゴリに分類することができる。しかし、「未知語」の登録には、品詞及び活用形の登録、既存の辞書との互換性の維持といった、専門的な人手のスキルが必要となる。
一方で、くだけた表現の未知語を、形態素解析に適した文章に修正することによって、適切なカテゴリに分類することもできる(例えば非特許文献1参照)。例えば、未知語を含む対象文章に対して形態素解析をし、その結果に基づいて、未知語の部分を任意文字列に置き換えた検索キーを生成する。生成された検索キーによって、基準文章から、自動的に修正候補文字列が検索され、修正候補文字列から1以上の修正ルールが生成される。生成された修正ルールは、(1)同じような文脈で頻繁に使用される表現か、(2)対象文章の表現から変化し過ぎていないか、(3)修正後の文章が日本語として自然か、といった指標を用いて、スコアリングされ、最適な修正ルールが選択される。対象文章情報は、選択された修正ルールによって、形態素解析に適した文章に修正される。対象文章情報に含まれる未知語を、形態素解析に適した語に修正することによって、適切なカテゴリに分類することができる。
しかしながら、対象文章情報について、くだけた表現の未知語の全てを、形態素解析に適した文章に修正することは、プログラムを実行するプロセッサの処理負荷が極めて大きい。対象文章情報とは別に、修正後文章情報を一時的に生成し、その修正後文章情報を記憶した上で、カテゴリ分類の処理を実行しなければならない。
また、非特許文献1に記載された技術によれば、基準文章情報として、例えば、新聞記事の文章のような形態素解析の解析精度が高い文章が用いられている。一般に、新聞記事の文章は、「定型的な表現」が多い。「定型的な表現」は、形態素解析プログラムの辞書に登録されている確率が高いため、新聞記事の文章は、形態素解析の精度が高い。
例えば、対象文章の「えーゆーはかっこいい」という表現は、新聞記事の文章を基準文章とすると、「英雄はかっこいい」と修正される。このように修正された対象文章をカテゴリ分類した場合、例えば「小説」のカテゴリに分類される。この対象文章は、本来、「auはかっこいい」と修正され、例えば「携帯電話機」や「IT」のようなカテゴリに分類されるべきである。
そこで、本発明は、口語的な「くだけた表現」で記述された文章情報であっても、適切なカテゴリに分類することができる文章分類プログラム、方法及び文章解析サーバを提供することを目的とする。
本発明によれば、未知語を含む分類対象の対象文章情報を、複数のカテゴリのいずれかに分類するようにコンピュータを機能させる文章分類プログラムであって、
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに、対象文章情報を分類する文章分類手段と
してコンピュータを機能させることを特徴とする。
本発明の文章分類プログラムにおける他の実施形態によれば、
基準文章記憶手段は、複数の基準文章情報を、その内容に応じて、その特徴語に応じて、及び/又は、その日時情報に応じて、複数のカテゴリに分類していることも好ましい。
本発明の文章分類プログラムにおける他の実施形態によれば、
対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であってもよい。
本発明の文章分類プログラムにおける他の実施形態によれば、
修正ルール候補選択手段は、文章構成指標として、(1)当該修正ルール候補における出現頻度、(2)未知語と修正ルール候補に基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分、に基づいて、カテゴリ毎に1つの修正ルールを選択することも好ましい。
本発明によれば、未知語を含む分類対象の対象文章情報を、コンピュータを用いて、複数のカテゴリのいずれかに分類する文章分類方法であって、
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
対象文章情報を形態素に分割し、未知語を抽出する第1のステップと、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する第3のステップと、
基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する第4のステップと、
基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する第5のステップと、
選択されたカテゴリに、対象文章情報を分類する第6のステップと
を有することを特徴とする。
本発明によれば、未知語を含む対象文章情報を他の公開サーバからネットワークを介して取得し、該対象文章情報を、複数のカテゴリのいずれかに分類する文章解析サーバであって、
複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択するカテゴリ選択手段と、
選択されたカテゴリに、対象文章情報を分類する文章分類手段と
を有することを特徴とする。
本発明の文章分類プログラム、方法及び文章解析サーバによれば、口語的な「くだけた表現」で記述された文章情報であっても、適切なカテゴリに分類することができる。
本発明における文章分類プログラムの機能構成図である。 本発明におけるカテゴリ及び修正ルールの選択の説明図である。 本発明における文章解析サーバのシステム構成図である。 本発明におけるシステムのシーケンス図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における文章分類プログラムの機能構成図である。
図1によれば、文章分類プログラム1は、基準文章記憶部11と、未知語抽出部12と、検索キー生成部13と、修正ルール検索部14と、修正ルール候補選択部15と、カテゴリ選択部16と、文章分類部17とを有する。基準文章記憶部11を除くこれら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。尚、各機能部の処理の流れは、コンピュータを用いた文章分類方法として実行できる。
基準文章記憶部11は、大量の基準文章情報の集合を記憶している。基準文章情報は、例えば技術文書、ブログテキスト、雑誌記事及び新聞記事のような様々な分野の文章を含む。また、基準文章記憶部11は、これら基準文章情報を、その内容に応じて(又は目的に応じて)、カテゴリ毎に予め分類して記憶する。カテゴリとしては、一般にキーワードによって分類されている場合が多い。そして、本発明によれば、基準文章記憶部11に記憶された全てのカテゴリ(基準文章情報の集合)が、対象文章情報に対して総当たり的に比較される。基準文章記憶部11は、修正ルール検索部14によって検索される。
基準文章記憶部11によれば、例えば「着信履歴」「通話」「au」のような語が多く出現する基準文章情報は、「携帯電話機」のカテゴリに分類されている。また、例えば「ウイルス」「スパイウェア」「ファイアウォール」のような語が多く出現する基準文章情報は、「情報セキュリティ」のカテゴリに分類されている。一方で、違法・有害な文章に使用される語が多く出現する基準文章情報は、「違法・有害」のカテゴリに分類されている。
未知語抽出部12は、解析対象となる対象文章情報を入力する。対象文章情報は、Webサイトに公開されているブログ、掲示板又はクチコミコメントのような不特定多数のユーザによって記述された文章情報であってもよい。未知語抽出部12は、その対象文章情報を形態素解析によって形態素に分割する。ここで、くだけた表現を含む対象文章を、例に挙げて説明する。
対象文章 :えーゆーはかっこいい
形態素解析結果:えーゆー(未知語)/は/かっこいい
くだけた表現は、形態素解析辞書に登録されていない場合が多い。そこで、形態素解析辞書に登録されていない表現「えーゆー」は、未知語として処理される。
未知語抽出部12は、対象文章情報から未知語を検出した場合、形態素解析によって抽出された未知語と、未知語に隣接する形態素とを合わせた文字列とを、検索キー生成部13へ出力する。また、未知語抽出部12は、未知語が検出された対象文章情報を修正ルール候補選択部15へ出力する。
検索キー生成部13は、未知語と、その未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる「検索キー」を生成する。ここで、未知語と、それに隣接する前方後方の各1形態素とが、検索キーの生成に利用されたものとして説明する。
入力文字列 :えーゆー(未知語)/は/かっこいい
検索キー :*はかっこいい(ここで「*」は1以上の任意文字列を示す。)
検索キー生成部13は、未知語を任意文字列(例えばワイルドカード)とし、任意文字列と、未知語に隣接する文字列と合わせた「検索キー」を生成する。勿論、未知語は、2以上連続するものであってもよい。また、隣接する形態素は、未知語に対する前方及び後方の少なくとも一方があればよい。同様に、隣接する形態素も、2形態素以上連続するものであってもよい。検索キー生成部13は、生成した検索キーを修正ルール検索部14へ出力する。
修正ルール検索部14は、基準文章記憶部11に記憶されたカテゴリ毎に、「検索キー」を含む修正候補文字列を抽出する。そして、修正ルール検索部14は、抽出した修正候補文字列中の任意文字列に該当する部分を、未知語に近似する部分と判断し、修正ルール候補として抽出する。修正ルールとは、未知語(例えば「ヵゎぃぃ」)から、修正候補文字列(例えば「かわいい」)へ文字列変換するためのルールをいう。
修正ルール検索部14は、例えば、以下の修正候補文字列を得る。修正ルール検索部14は、抽出した修正候補文字列中の任意文字列に該当する部分から、カテゴリ毎に、1以上の修正ルール候補を抽出する。
検索キー :「*はかっこいい」
カテゴリ :1
修正候補文字列:英雄/は/かっこいい
修正ルール候補:えーゆー⇒英雄
カテゴリ :2
修正候補文字列:au/は/かっこいい
修正ルール候補:えーゆー⇒au
カテゴリ :2
修正候補文字列:エイユウ/は/かっこいい
修正ルール候補:えーゆー⇒エイユウ
検索キーによる検索によって得られる修正ルール候補は、2以上であってもよい。修正ルール検索部14は、検索キーによる検索によって得た全ての修正ルールを、修正ルール候補選択部15へ出力する。
修正ルール候補選択部15は、同一カテゴリに基づいて抽出された修正ルール候補が2以上ある場合は、各カテゴリにつき1つ、文章構成指標に基づいて文脈に適した修正ルール候補を選択する。
文章構成指標は、(1)修正ルール候補における出現頻度、(2)未知語と、修正ルール候補に基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分から算出される指標をいう。修正ルール候補選択部15は、この文章構成指標に基づいて1つの修正ルール候補を選択する。
修正ルール候補選択部15は、例えば、以下の修正ルール候補を入力したとする。
修正ルール候補:カテゴリ2 えーゆー⇒au
カテゴリ2 えーゆー⇒エイユウ
(1)修正ルール候補における出現頻度
修正ルール候補における出現頻度は、検索された修正ルール候補に該当する検索結果文字列が出現した頻度をいう。以下の表では、検索結果文字列の出現頻度に基づくスコアリングの例を表す。
Figure 0005339628
出現頻度が高い文字列は、未知語が出現した文脈と類似した文脈の中で頻繁に利用される表現であると考えられ、修正候補文字列である可能性が高い。一方、類似した文脈の中であまり利用されていない表現は、修正候補文字列ではない可能性が高い。そこで、出現頻度の高い修正ルール候補は、スコアが高くなる。スコアは、出現頻度を検索件数で割り、正規化することにより、検索件数に依存しないものとしてもよい。
(2)未知語と、修正ルール候補に基づく修正形態素との間の編集距離
編集距離とは、二つの文字列がどの程度異なっているかを表す指標であり、一方の文字列を他方の文字列に変換するために必要な挿入、削除、置換の最小回数として与えられる。修正ルールに基づく修正形態素は、未知語に対して少数文字の挿入や削除、置換を実行したものであることが多い。例えば、「フォーラム」から「ファーム」への編集は、「ォ」を「ァ」に置換し、「ラ」を削除する方法が、最小の編集回数である2回となるため、編集距離は2である。以下の表は、編集距離に基づくスコアリングの例を表す。
Figure 0005339628
編集距離の小さい修正ルール候補は、スコアが高くなる。また、Web文書では、「ヤバい」や「カッコイイ」のように本来ひらがなで表記されるべき語がカタカナで表記されている例が多い。そのため、例えば、カタカナをひらがなに置換する編集距離を小さくする重み付き編集距離を用いてもよい。
(3)形態素解析コスト値の差分
形態素解析コスト値とは、複数ある単語区切りの中で、その単語区切りがどのくらい確からしいかを表す指標である。形態素解析コスト値は、例えば、単語単体での出現確率(生起コスト)や複数単語が連続して出現する確率(連接コスト)から算出される。形態素解析コスト値は、修正ルール候補の文脈における適応度を評価する指標として用いられる。
文全体の形態素解析コスト値は、文頭から文末までの各形態素の連接コストと単語生起コストとの和を累積して算出する(累積コスト)。修正ルールの適用により、文脈における適応度が高い表現が生成された場合、その表現周辺の生起コストや連接コストは小さくなるため、文全体の形態素解析コスト値は小さくなる。一方、文脈における適応度が低い表現が生成された場合、その表現周辺の生起コストや連接コストは大きくなるため、文全体の形態素解析コスト値は大きくなる。
ここでは、修正ルール候補適用後の文全体の形態素解析コスト値と、修正前の文全体の形態素解析コスト値との差分から、形態素解析コスト値に基づくスコアとして算出する。修正ルールによって生成された表現が文脈に適応する場合、算出されるスコアは高くなる。
文章構成指標(score)は、(1)修正ルール候補における出現頻度(freq)、(2)未知語と、修正ルール候補に基づく修正形態素との間の編集距離(dist)、及び/又は、(3)形態素解析コスト値の差分(cost)から、例えば、以下の計算式により算出する。
score=α・freq+β・dist+γ・cost
ここで、α、β、γは、重み付け関数であり、修正ルールの適用と学習により、最適値を算出することができる。また、修正ルールは、適用する閾値を設定することができる。閾値を低く設定した場合、適用される修正ルールは増加するが、その中に含まれる修正ルールの誤適用も増加する。一方、閾値を高く設定した場合、適用される修正ルールは減少するが、その中に含まれる修正ルールの誤適用も減少させることができる。
修正ルール候補選択部15は、カテゴリ毎に、文章構成指標に基づいて文脈に適した1つの修正ルール候補を選択する。ここで、修正ルール候補選択部15は、閾値以上且つ最大のスコアを持つ修正ルール候補を選択してもよい。修正ルール候補選択部15は、選択した1つの修正ルール候補を、カテゴリ選択部16へ出力する。
カテゴリ選択部16は、基準文章情報のカテゴリ毎に選択された修正ルール候補について、文章構成指標に基づくスコアを比較する。カテゴリ選択部16は、最もスコアが高い修正ルール候補が抽出されたカテゴリ(基準文章情報の集合)を選択する。カテゴリ選択部16は、選択されたカテゴリを文章分類部17へ出力する。
以下の表は、文章構成指標に基づくスコアリングの例を表す。
Figure 0005339628
一般に、特定のカテゴリと関連性の強い単語は、そのカテゴリに偏って出現する傾向があるため、文章構成指標に基づくスコアが高くなる。例えば、カテゴリ1が新聞記事文章で、カテゴリ2がIT関連文章である場合、一般的な単語である「英雄」が新聞記事文章中に出現する確率よりも、「au」がIT関連文章中に出現する確率の方が高い。そこで、修正ルール候補「えーゆ⇒au」の文章構成指標に基づくスコアの方が、修正ルール候補「えーゆ⇒英雄」のスコアよりも高くなり、カテゴリ2が選択される。
文章分類部17は、選択されたカテゴリに、その対象文章情報を分類する。本発明によれば、例えば、くだけた表現の「えーゆー」の語が多く出現する対象文章情報は、修正ルール候補「au」として「携帯電話機」のカテゴリに分類される。従来技術によれば、「えーゆー」を未知語とすることによってカテゴリ分類を誤る場合があり、「えーゆー」を修正ルール候補「英雄」と誤ることによって、例えば「小説」のカテゴリに分類される場合もある。本発明によれば、対象文章情報は、くだけた表現の語における修正ルール候補が適切なカテゴリへ分類される。
本発明の特徴は、対象文章情報に対して、適切な基準文章のカテゴリを文章構成指標に基づくスコアによって選択することにある。従って、修正ルール検索部14と、修正ルール候補選択部15と、カテゴリ選択部16と、文章分類部17とにおける実施形態を、以下の図2によって説明する。
図2は、本発明におけるカテゴリ及び修正ルールの選択の説明図である。
(S21)基準文章記憶部11は、内容、特徴語、及び/又は、日時情報に応じて、複数のカテゴリに分類されている基準文章情報の集合を記憶する。修正ルール検索部14は、基準文章記憶部11をカテゴリ毎に検索する。
(S22)修正ルール検索部14は、カテゴリ毎に、検索キーを含む修正候補文字列を抽出する。そして、修正ルール検索部14は、抽出した修正候補文字列中の任意文字列に該当する部分を、未知語に近似する部分と判断し、修正ルール候補として抽出する。ここで、抽出された修正ルール候補は、抽出元のカテゴリと対応付けられる。例えば、「カテゴリ1」に分類されている基準文章に基づいて抽出された修正ルール候補は、「修正ルール候補1」と対応付けられる。カテゴリと対応付けられた修正ルール候補は、各カテゴリにつき2つ以上あってもよい。
(S23)それぞれの修正ルール候補は、修正ルール候補選択部15に出力される。
(S24)修正ルール候補選択部15は、各カテゴリにつき1つ、文章構成指標に基づいて文脈に適した修正ルール候補を選択する。修正ルール候補選択部15は、選択した修正ルール候補を、カテゴリ選択部16へ出力する。
(S25)カテゴリ選択部16は、基準文章情報のカテゴリ毎に選択された修正ルール候補について、修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する。カテゴリ選択部16は、選択したカテゴリを文章分類部17へ出力する。文章分類部17は、選択されたカテゴリに、対象文章情報を分類する。
図3は、本発明における文章解析サーバのシステム構成図である。
図3によれば、文章解析サーバ2は、通信インタフェース部20と、対象文章入力部21と、文章分類機能部22とを有する。文章解析サーバ2は、通信インタフェース部20を介してインターネットに接続する。
また、図3によれば、文章解析サーバ2は、インターネットを介して、Webサーバ3と通信することができる。また、Webサーバ3は、投稿者用端末4から接続される。
Webサーバ3は、投稿者用端末4から受信した、対象文章情報であるブログテキスト及びクチコミコメントのようなWeb文書を公開する。文章解析サーバ2は、インターネットを介して、Webサーバ3から、そのWeb文書を対象文章として取得する。
対象文章入力部21は、通信インタフェース部20を介して、対象文章を受信する。その対象文章を、文章分類機能部22へ出力される。
文章分類機能部22は、図1で前述した機能構成部と全く同様である。文章分類機能部22は、対象文章入力部21から対象文章情報を入力し、カテゴリに分類する。
図4は、本発明におけるシステムのシーケンス図である。
(S401)投稿者用端末4は、対象文章であるブログテキストをWebサーバ3へ投稿する。
(S402)文章解析サーバ2は、Webサーバ3から対象文章情報(「えーゆーはかっこいい」)を取得する。その対象文章は、文章分類機能部22へ入力される。
(S403)文章分類機能部22は、対象文章情報を形態素に分割する。形態素に未知語が含まれていた場合、その未知語が抽出される。
(S404)文章分類機能部22は、S403で抽出した未知語と、その未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する。
(S405)文章分類機能部22は、基準文章情報のカテゴリ毎に、検索キーを用いて、未知語に近似する1つ以上の修正ルール候補を検索する。
(S406)文章分類機能部22は、基準文章情報のカテゴリ毎に、修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する。
(S407)文章分類機能部22は、基準文章情報のカテゴリ毎に選択された修正ルール候補について、修正ルールの文章構成指標に基づくスコアが最も高いカテゴリを選択する。
(S408)文章分類機能部22は、S407で選択されたカテゴリに、対象文章情報を分類する。
以上、詳細に説明したように、本発明の文章分類プログラム、方法及び文章解析サーバによれば、口語的な「くだけた表現」で記述された文章情報であっても、適切なカテゴリに分類することができる。基準文章情報の集合(カテゴリ)を蓄積した基準文章記憶部を用いることによって、「くだけた表現」を含む対象文章情報であっても、あえて修正することなく、関連性のある意味内容のカテゴリに分類することができる。尚、対象文章の記述日時又は作成日時に近い基準文章情報の集合を用いることによって、文章作成時の流行を反映したカテゴリに分類することもできる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 文章分類プログラム
11 基準文章記憶部
12 未知語抽出部
13 検索キー生成部
14 修正ルール検索部
15 修正ルール候補選択部
16 カテゴリ選択部
17 文章分類部
2 文章解析サーバ
20 通信インタフェース部
21 対象文章入力部
22 文章分類機能部
3 Webサーバ
4 投稿用端末

Claims (6)

  1. 未知語を含む分類対象の対象文章情報を、複数のカテゴリのいずれかに分類するようにコンピュータを機能させる文章分類プログラムであって、
    複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
    前記対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
    前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
    前記基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
    前記基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
    前記基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
    選択された前記カテゴリに、前記対象文章情報を分類する文章分類手段と
    してコンピュータを機能させることを特徴とする文章分類プログラム。
  2. 前記基準文章記憶手段は、複数の基準文章情報を、その内容に応じて、その特徴語に応じて、及び/又は、その日時情報に応じて、複数のカテゴリに分類していることを特徴とする請求項1に記載の文章分類プログラム。
  3. 前記対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることを特徴とする請求項1又は2に記載の文章分類プログラム。
  4. 前記修正ルール候補選択手段は、前記文章構成指標として、(1)当該修正ルール候補における出現頻度、(2)前記未知語と前記修正ルール候補に基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分、に基づいて、前記カテゴリ毎に1つの修正ルールを選択することを特徴とする請求項1から3のいずれか1項に記載の文章分類プログラム。
  5. 未知語を含む分類対象の対象文章情報を、コンピュータを用いて、複数のカテゴリのいずれかに分類する文章分類方法であって、
    複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶部を有し、
    前記対象文章情報を形態素に分割し、未知語を抽出する第1のステップと、
    前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
    前記基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルール候補を検索する第3のステップと、
    前記基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する第4のステップと、
    前記基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択する第5のステップと、
    選択された前記カテゴリに、前記対象文章情報を分類する第6のステップと
    を有することを特徴とする文章分類方法。
  6. 未知語を含む対象文章情報を他の公開サーバからネットワークを介して取得し、該対象文章情報を、複数のカテゴリのいずれかに分類する文章解析サーバであって、
    複数の基準文章情報を、複数のカテゴリに分類して記憶した基準文章記憶手段と、
    前記対象文章情報を形態素に分割し、未知語を抽出する未知語抽出手段と、
    前記未知語と、当該未知語に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
    前記基準文章情報のカテゴリ毎に、前記検索キーを用いて、前記未知語に近似する1つ以上の修正ルール候補を検索する修正ルール検索手段と、
    前記基準文章情報のカテゴリ毎に、前記修正ルール候補の中から、文章構成指標に基づいて1つの修正ルール候補を選択する修正ルール候補選択手段と
    前記基準文章情報のカテゴリ毎に選択された修正ルール候補について、当該修正ルールの文章構成指標に基づくスコアが最も高い前記カテゴリを選択するカテゴリ選択手段と、
    選択された前記カテゴリに、前記対象文章情報を分類する文章分類手段と
    を有することを特徴とする文章解析サーバ。
JP2010009725A 2010-01-20 2010-01-20 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ Expired - Fee Related JP5339628B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010009725A JP5339628B2 (ja) 2010-01-20 2010-01-20 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010009725A JP5339628B2 (ja) 2010-01-20 2010-01-20 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ

Publications (2)

Publication Number Publication Date
JP2011150449A JP2011150449A (ja) 2011-08-04
JP5339628B2 true JP5339628B2 (ja) 2013-11-13

Family

ID=44537382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010009725A Expired - Fee Related JP5339628B2 (ja) 2010-01-20 2010-01-20 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ

Country Status (1)

Country Link
JP (1) JP5339628B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111095344B (zh) * 2017-09-11 2023-12-01 株式会社岛津制作所 试样类别的确定装置、分析系统以及分析网络系统
CN110134785A (zh) * 2019-04-15 2019-08-16 平安普惠企业管理有限公司 论坛文章的管理方法、装置、存储介质及设备
WO2024189865A1 (ja) * 2023-03-16 2024-09-19 富士通株式会社 出力プログラム、出力方法および情報処理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554037A (ja) * 1991-08-28 1993-03-05 Fujitsu Ltd 文書分類方式
JP2005099884A (ja) * 2000-07-06 2005-04-14 Takashi Miyake 検索装置
JP2005190284A (ja) * 2003-12-26 2005-07-14 Nec Corp 情報分類装置および情報分類方法

Also Published As

Publication number Publication date
JP2011150449A (ja) 2011-08-04

Similar Documents

Publication Publication Date Title
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
Razavi et al. Offensive language detection using multi-level classification
US8660834B2 (en) User input classification
TWI536181B (zh) 在多語文本中的語言識別
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN108920633B (zh) 一种论文相似度的检测方法
Saloot et al. An architecture for Malay Tweet normalization
Nair et al. SentiMa-sentiment extraction for Malayalam
Gaglani et al. Unsupervised whatsapp fake news detection using semantic search
Bhattacharjee et al. Sentiment analysis using cosine similarity measure
Richter et al. Korektor–a system for contextual spell-checking and diacritics completion
Şeker et al. Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content 1
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
Albogamy et al. POS tagging for Arabic tweets
Cotelo et al. A modular approach for lexical normalization applied to Spanish tweets
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
Philemon et al. A machine learning approach to multi-scale sentiment analysis of amharic online posts
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
Li et al. Automatic extraction for product feature words from comments on the web
Khan et al. Does size matter? text and grammar revision for parsing social media data
JP5339628B2 (ja) 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ
JP5448744B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
JP5495425B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
JP2011113097A6 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
Ogrodniczuk et al. Lexical correction of polish twitter political data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130805

R150 Certificate of patent or registration of utility model

Ref document number: 5339628

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees