JP2006293767A - Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device - Google Patents
Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device Download PDFInfo
- Publication number
- JP2006293767A JP2006293767A JP2005114841A JP2005114841A JP2006293767A JP 2006293767 A JP2006293767 A JP 2006293767A JP 2005114841 A JP2005114841 A JP 2005114841A JP 2005114841 A JP2005114841 A JP 2005114841A JP 2006293767 A JP2006293767 A JP 2006293767A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- category
- data
- unit
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文章分類技術に関し、特に、未分類の文章データを予め定められた複数のカテゴリに分類する文章分類技術に関する。 The present invention relates to a sentence classification technique, and more particularly to a sentence classification technique for classifying uncategorized sentence data into a plurality of predetermined categories.
インターネットが社会に広く浸透するにしたがって、ネットワーク上を流通する文章の量が飛躍的に増加している。このため、ネットワークを通じて収集されるウェブページを適切なカテゴリに分類して表示したり、多量の電子メールを適切なフォルダに分類するなどの作業を人手で実行することは、困難になりつつある。そこで、文章データを所定のカテゴリに自動的に分類するための文章分類技術が考案されている。 As the Internet has become widespread in society, the amount of text distributed on the network has increased dramatically. For this reason, it is becoming difficult to manually perform operations such as classifying and displaying web pages collected through a network and classifying a large amount of e-mails into appropriate folders. Therefore, a text classification technique for automatically classifying text data into a predetermined category has been devised.
例えば、特徴ベクトル法を使用した文章分類技術がある(例えば、特許文献1参照)。この技術では、以下のようなステップで文章を分類する。まず、カテゴリiに属する文例集から、カテゴリiに対する各単語jの重要度wijをベクトルで表現したWi={wij}を生成しておく。次に、未分類の文章に出現した単語を使用して、その文章の特徴ベクトルWを生成する。そして、特徴ベクトルWに最も距離が近いベクトルWnを求め、その文章を対応するカテゴリnに分類する。
しかしながら、特徴ベクトル法を使用した文章分類では、分類対象の文章がある単語を含んでいるとき、特定のカテゴリに分類される可能性、または特定のカテゴリに分類されない可能性が非常に高いというような条件の下では、そのような条件をうまく文章分類に反映させることができず、誤分類が多くなってしまう。 However, in sentence classification using the feature vector method, when a sentence to be classified contains a certain word, it is very likely that it is classified into a specific category or not classified into a specific category. Under such conditions, such conditions cannot be reflected well in the sentence classification, and misclassification increases.
本発明はこうした状況に鑑みてなされたものであり、その目的は、文章データを予め定められている分類体系に沿って自動的に分類する技術を提供することにある。 The present invention has been made in view of such circumstances, and an object thereof is to provide a technique for automatically classifying sentence data according to a predetermined classification system.
本発明のある態様は、文章分類装置である。この装置は、文章の構成要素と、予め定められた複数のカテゴリについて各カテゴリに分類されるべき文章中にその構成要素が出現する出現頻度とが関連付けられた辞書データを保持する分類辞書保持部と、新たに分類対象とする未分類文章データを外部装置から受け取る文章受付部と、所定の規則にしたがって前記未分類文章データを解析して文章の構成要素を抽出する文章分解部と、前記辞書データを参照して、抽出された構成要素を含む未分類文章データがそれぞれのカテゴリに帰属する確率を表す帰属確率を各カテゴリについて計算するカテゴリ帰属確率計算部と、前記帰属確率を参照して、前記未分類文章データが分類されるカテゴリを判定する判定部と、を備える。 One embodiment of the present invention is a sentence classification device. The apparatus includes a classification dictionary holding unit that holds dictionary data in which a sentence component is associated with an appearance frequency at which the component appears in a sentence to be classified into each category for a plurality of predetermined categories. A sentence receiving unit that receives unclassified sentence data to be newly classified from an external device, a sentence decomposing unit that analyzes the unclassified sentence data according to a predetermined rule and extracts constituent elements of the sentence, and the dictionary With reference to the data, with reference to the attribution probability, a category attribution probability calculating unit that calculates an attribution probability representing the probability that the uncategorized sentence data including the extracted constituent element belongs to each category, A determination unit that determines a category into which the uncategorized sentence data is classified.
この態様によれば、未分類文章データがいずれのカテゴリに属するかを、カテゴリ毎に算出される帰属確率にしたがって判定する。したがって、ひとつの文章データをひとつのカテゴリに分類することもできるし、2つ以上のカテゴリに分類することもできる。また、ひとつの視点に基づくカテゴリについて分類するのみならず、複数の視点に基づくカテゴリを混合させておき、それらについてまとめて帰属確率を算出することができる。 According to this aspect, it is determined according to the belonging probability calculated for each category to which category the uncategorized sentence data belongs. Therefore, one sentence data can be classified into one category, and can be classified into two or more categories. In addition to classifying categories based on one viewpoint, categories based on a plurality of viewpoints can be mixed, and the belonging probability can be calculated collectively.
「帰属確率」とは、いくつかの構成要素を含む未分類文章データがあるカテゴリに分類されるべき確率のことであり、カテゴリ毎に算出することができる。この帰属確率は、未分類文章データから抽出された各構成要素について帰属確率の計算対象となるカテゴリにおける出現頻度を前記分類辞書保持部から取り出して出現確率を計算し、算出された各構成要素についての出現確率を合成して当該カテゴリへの帰属確率を求めることによって計算することができる。 “Probability of belonging” is a probability that uncategorized text data including several components should be classified into a certain category, and can be calculated for each category. This attribution probability is calculated for each component extracted from uncategorized text data by calculating the appearance probability by taking out the appearance frequency in the category for which the attribution probability is calculated from the classification dictionary holding unit. Can be calculated by obtaining the probability of belonging to the category by combining the appearance probabilities.
本発明の別の態様は、分類辞書作成装置である。この装置は、予め定められた複数のカテゴリについて、それぞれのカテゴリに分類されるべき文章データを含むカテゴリ文例データ群と、カテゴリに分類されない文章データを含む非カテゴリ文例データ群とを格納する文例格納部と、所定の規則にしたがって文章データを解析して文章の構成要素を抽出する文章分解部と、前記カテゴリ文例データ群および非カテゴリ文例データ群に含まれる文章データ中に、前記文章分解部により抽出された構成要素が出現する出現頻度をカテゴリ毎にカウントする分類辞書作成部と、構成要素と各カテゴリにおける出現頻度とが関連付けられた辞書データを保持する分類辞書保持部と、外部装置に対して前記辞書データを提供する辞書提供部と、を備える。 Another aspect of the present invention is a classification dictionary creation device. This apparatus stores a sentence example storage that stores, for a plurality of predetermined categories, a category sentence example data group that includes sentence data to be classified into each category, and a non-category sentence example data group that includes sentence data that is not classified into a category. A sentence decomposition unit that analyzes sentence data according to a predetermined rule and extracts constituent elements of the sentence, and sentence data included in the category sentence example data group and the non-category sentence example data group, A classification dictionary creating unit that counts the appearance frequency of the extracted component element for each category, a classification dictionary holding unit that stores dictionary data in which the component element and the appearance frequency in each category are associated, and an external device A dictionary providing unit for providing the dictionary data.
この態様によれば、分類辞書作成装置は、未分類文章データの各カテゴリへの帰属確率を計算するために外部装置から辞書データの提供が要求されたとき、分類辞書保持部に保持されている辞書データを外部装置に送信することができる。 According to this aspect, the classification dictionary creation device is held in the classification dictionary holding unit when dictionary data is requested from an external device in order to calculate the attribution probability of uncategorized sentence data to each category. Dictionary data can be transmitted to an external device.
なお、以上の構成要素の任意の組合せ、本発明を方法、装置、システム、記録媒体、コンピュータプログラムにより表現したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described components and a representation of the present invention by a method, apparatus, system, recording medium, and computer program are also effective as an aspect of the present invention.
本発明によれば、未分類の文章データを予め定められたカテゴリに沿って自動的に分類することができる。 According to the present invention, uncategorized text data can be automatically classified along a predetermined category.
本発明の一実施形態は、特定のカテゴリに属するか否かが予め決められている多数の文例データを使用して分類用の辞書データを作成しておき、分類対象の文章データに対して、カテゴリ毎にそのカテゴリに属するか否かに関する確率を算出することによって、その文章データが分類されるべきカテゴリを決定する文章分類装置である。以下、図面を参照して本実施の形態に係る文章分類装置について説明する。 In one embodiment of the present invention, dictionary data for classification is created using a large number of example sentence data that is determined in advance as to whether or not it belongs to a specific category. It is a sentence classification device that determines a category in which sentence data should be classified by calculating a probability relating to whether or not each category belongs to the category. Hereinafter, the sentence classification device according to the present embodiment will be described with reference to the drawings.
図1は、本実施の形態に係る文章分類装置10の使用形態の一例を示す。文章分類装置10は、ネットワーク80を介してクライアント端末82やサーバ84と接続される。文章分類装置10は、クライアント端末82またはサーバ84から送信されてくる文章データを、予め設定してある複数のカテゴリのいずれかに分類する。また、文章分類装置10は、図示しないウェブクローラ(サーチロボットともいう)がネットワークに接続されている多数のクライアント端末82およびサーバ84から収集してきた文章データを、複数のカテゴリのいずれかに分類する。本実施の形態による文章分類装置10は、分類対象の文章データを2つ以上のカテゴリに属すると判定することもできる点に、特徴のひとつがある。
FIG. 1 shows an example of a usage pattern of a
図2は、文章分類装置10の機能ブロック図である。文章分類装置10は、文例格納部12、文章分解部18、ソート部20、分類辞書作成部22、分類辞書保持部24、カテゴリ帰属確率計算部26、判定部28、要素絞り込み基準提供部30、判定結果格納部32および文章受付部36を備える。これらの構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
FIG. 2 is a functional block diagram of the
文章分類装置10に含まれる機能ブロックは、辞書データを作成する学習段階に使用される機能ブロックと、辞書データの作成後に当該辞書データを使用して未分類の文章データを分類する分類段階に使用される機能ブロックとに分けることができる。まず、学習段階に使用される機能ブロックについて説明する。
The functional blocks included in the
文例格納部12は、予め定められた複数のカテゴリそれぞれについて、そのカテゴリに分類されるべき文章データを含むカテゴリ文例14と、そのカテゴリに分類されない文章データを含む非カテゴリ文例16とを格納する。ここで「カテゴリ」とは、文章データを特定の基準にしたがって分類するためのグループ分けのことをいう。このカテゴリは、文章の分類結果の使用目的に応じて、多様に設定することができる。例えば、文章分類装置10による分類結果をニュース記事配信サイトで使用する場合は、「政治」「経済」「社会」「スポーツ」のようなカテゴリの種類が考えられる。文章分類装置10による分類結果をディレクトリ型の検索サイトで提供する場合は、「ショッピング」「旅行」「映画」「音楽」のようなカテゴリの種類が考えられる。文章分類装置10により、クライアント端末から送信されてくるアンケートなどを分類する場合は、「女性」「若年層」のようなカテゴリの種類が考えられる。
The sentence
また、「文章データ」とは、テキストデータ、HTML、XML、XHTMLファイルなどのテキスト情報を含んだデータを指すが、そのデータ形式は限定されない。 “Text data” refers to data including text information such as text data, HTML, XML, and XHTML files, but the data format is not limited.
M個のカテゴリ(カテゴリ1、・・・、カテゴリM)が規定されるとすると、各カテゴリ毎にカテゴリ文例14と非カテゴリ文例16が文例格納部12内に準備される。カテゴリ文例は、あるカテゴリに分類されるべきひとつまたは複数の文章データを蓄積したファイルである。非カテゴリ文例データは、あるカテゴリに分類されないひとつまたは複数の文章データを蓄積したファイルである。文章データがいずれのカテゴリ文例または非カテゴリ文例に含まれるかの判断は、人手を介して行われる。また、カテゴリ文例と非カテゴリ文例は、各カテゴリについて一対ずつ準備される。
Assuming that M categories (
あるカテゴリについての非カテゴリ文例に含まれる文章データは、他のカテゴリについての非カテゴリ文例に含まれる文章データと異なっていてもよいし、同一であってもよい。つまり、「非カテゴリ1文例」内の文章データと「非カテゴリ2文例」内の文章データとが重複していてもよい。カテゴリ文例についても同様であり、例えば、「カテゴリ1文例」と「カテゴリ2文例」の両方に分類される文章データが存在してもよい。ただし、同一カテゴリ内で、カテゴリ文例と非カテゴリ文例の両方に分類される文章データは存在しないことが望ましい。
Text data included in a non-category sentence example for a certain category may be different from or identical to sentence data included in a non-category sentence example for another category. That is, the sentence data in the “non-category 1 sentence example” and the sentence data in the “non-category 2 sentence example” may overlap. The same applies to category sentence examples. For example, sentence data classified into both “
文章分解部18は、上述したカテゴリ文例14および非カテゴリ文例16に含まれる文章データを所定の規則にしたがって解析し、文章の構成要素を抽出する。文章分解部18は、既知の文章分解アルゴリズムのうち任意のものを使用することができる。文章分解部18は、文章分解アルゴリズムに応じて、単語、単語と品詞の組合せ、文節、単文などを構成要素として文章データから抽出する。文章分解部18で使用される文章分解アルゴリズムの例については、後述する。
The
ソート部20は、文章分解部18によりカテゴリ文例14、非カテゴリ文例16の文章データから抽出された構成要素を、所定の規則にしたがって並べ替える。一例として、構成要素の読みを50音順に並べ替えてもよい。または、構成要素の最初の一文字のASCIIコード順に並べ替えてもよい。文章分解部18が単語と品詞の組合せを構成要素として抽出した場合は、構成要素の品詞順に配列してもよい。ソート部20によって構成要素を並べ替えることによって、後述する構成要素をキーとした辞書データの検索が容易になるため、分類辞書の作成に要する時間を短縮できる。
The sorting
分類辞書作成部22は、文章分解部18により抽出された各構成要素が、各カテゴリについてのカテゴリ文例14および非カテゴリ文例16内の文章データに出現する頻度を算出し、構成要素と各カテゴリについての出現頻度とを関連付けた辞書データを作成する。ここでいう「頻度」は、単なる出現の回数でもよいし、全単語数に対する出現の比率で表してもよい。あるいは、カテゴリ文例または非カテゴリ文例に含まれる文章データ数に対する出現比率でもよい。以下では、これらをあわせて「出現頻度」と呼ぶ。いずれにしても、ある構成要素がひとつのカテゴリについてのカテゴリ文例と非カテゴリ文例に出現する度合いを表現する数値であれば、任意のものを採用できる。
分類辞書作成部22により作成された辞書データは、分類辞書保持部24に格納される。分類辞書作成部22のさらに詳細な構成および機能については、図4を参照して後述する。
The classification
The dictionary data created by the classification
要素絞り込み基準提供部30には、文章分解部18により抽出された構成要素から一部の構成要素を除外するための選択基準が格納されている。この選択基準は、例えば特定の品詞(例えば、名詞+動詞、名詞のみ、助詞のみなど)を指定したり、文字数の上限を指定したり、平仮名のみ、または漢字のみからなる構成要素を指定する条件のことをいう。複数の条件を組み合わせて選択基準としてもよい。
The element narrowing
分類辞書作成部22は、要素絞り込み基準提供部30から提供される選択基準を利用して、辞書データの作成対象となる構成要素数を絞り込むことによって、分類辞書保持部24に格納される辞書データのデータ量を抑制しつつ、分類に有効な辞書データを作成することができる。
本実施の形態の文章分類装置10は、分類すべき文章データの言語を限定しないが、この要素絞り込み基準提供部30は、日本語の文章データの処理時には特に有用となる。
The classification
The
続いて、分類段階に使用される機能ブロックについて説明する。 Subsequently, functional blocks used in the classification stage will be described.
文章受付部36は、分類対象となる文章データ34(以下、「未分類文章データ34」と呼ぶ)を図示しない外部装置から受信する。未分類文章データ34は、上述と同様にデータ形式に制限はない。外部装置は、例えばネットワークに接続されたクライアント端末やサーバであるが、これらに限定されない。
The
文章分解部18は、文章受付部36から未分類文章データ34を受け取り、上述したのと同様にして、文章の構成要素を抽出する。抽出された構成要素は、ソート部20によって所定の規則にしたがって並べ替えられる。この規則は、カテゴリ文例および非カテゴリ文例から抽出された構成要素を並べ替えたのと同様の規則であることが好ましい。この並べ替えによって、構成要素をキーとした分類辞書保持部24内の辞書データの検索が容易になるため、後述するカテゴリ帰属確率計算部26における処理が高速化される。
The
カテゴリ帰属確率計算部26は、分類辞書保持部24に格納された辞書データを参照して、いくつかの構成要素を含む未分類文章データがそれぞれのカテゴリに分類されるべき確率を、各カテゴリについて計算する。以下では、この確率のことを「帰属確率」と呼ぶ。
The category attribution
分類辞書作成部22と同様に、カテゴリ帰属確率計算部26は、要素絞り込み基準提供部30から提供される選択基準にしたがって、帰属確率を算出する基礎となる構成要素数を限定してもよい。
カテゴリ帰属確率計算部26のさらに詳細な構成および機能については、図7を参照して後述する。
Similar to the classification
A more detailed configuration and function of the category attribution
判定部28は、カテゴリ帰属確率計算部26により各カテゴリについて計算された帰属確率を取得し、帰属確率の値に基づいて未分類文章データをいずれかのカテゴリに分類するかを決定する。より具体的には、判定部28は、帰属確率が最大となったカテゴリに未分類文章データを分類する。あるいは、予め設定されているしきい値以上の帰属確率が得られたすべてのカテゴリに未分類文章データを分類してもよい。こうすることによって、一連の演算でひとつの未分類文章データを2つ以上のカテゴリに分類することができる。帰属確率がしきい値以上となったカテゴリが存在しない場合、判定部28は、未分類文章データをいずれのカテゴリにも分類されない文章と判定してもよいし、帰属確率が最大となったカテゴリに分類してもよい。判定部28による未分類文章データの判定結果は、判定結果格納部32に格納されるか、または図示しない外部装置に出力される。
The
次に、文章分解部18で使用される文章分解アルゴリズムの概要を説明する。
Next, an outline of the sentence decomposition algorithm used in the
(1)形態素解析
図3は、文章データを形態素解析によって構成要素に分解した例を示す。使用した文章データは、「気象庁は23日、関東地方で春一番が吹いたと発表した。」という文章である。図3に示すように、この文章は「気象庁/は/2/3/日/、/関東/地方/で/春一番/が/吹い/た/と/発表/し/た/。」のように、18の要素に分解される。形態素解析では、対象となる文章から、活用形50と、原形52と、品詞54を決定することができる。これら活用形、原形、品詞のうち、(原形+品詞)を構成要素としてもよいし、または、原形のみを要素としてもよい。原形の代わりに活用形を要素としてもよい。
(1) Morphological Analysis FIG. 3 shows an example in which sentence data is decomposed into constituent elements by morphological analysis. The text data used is the text "The Japan Meteorological Agency announced that the first spring in the Kanto region blew on the 23rd." As shown in FIG. 3, this sentence is “Meteorological Agency / Ha / 2/3 / Day /, / Kanto / Region / De / Spring Ichiban / Ga / Blow / Ta / To / Announcement / Shi / Ta /. Thus, it is broken down into 18 elements. In the morphological analysis, the
形態素解析を使用して抽出された構成要素は文章の分解能が高いため、この構成要素を使用した辞書データに基づくカテゴリへの分類が高精度になると期待される。形態素解析は周知の技術であるため、これ以上の説明を省略する。 Since components extracted using morphological analysis have high sentence resolution, classification into categories based on dictionary data using these components is expected to be highly accurate. Since morphological analysis is a well-known technique, further explanation is omitted.
(2)構文解析
次に、構文解析について説明する。構文解析は、文章を文節に分解する。図3の例と同一の文章データを構文解析によって分解すると、「気象庁は/23日、/関東地方で/春一番が/吹いたと/発表した。」のように、6つの構成要素に分解される。
(2) Syntax analysis Next, syntax analysis will be described. Parsing breaks a sentence into phrases. When the same sentence data as in the example of FIG. 3 is decomposed by parsing, it is decomposed into six components as follows: “The Japan Meteorological Agency / 23 days / In the Kanto area / Spring first / Announced / I announced.” Is done.
構文解析を使用すると、形態素解析と比べて構成要素数が大幅に減少するので、高速分類に適しているが、分類の精度は低下する。構文解析は周知の技術であるため、これ以上の説明を省略する。 When parsing is used, the number of components is significantly reduced compared to morphological analysis, which is suitable for high-speed classification, but the accuracy of classification is reduced. Since parsing is a well-known technique, further explanation is omitted.
(3)最小構成文
次に、形態素解析と構文解析を使用して文章から最小構成文を抽出する例を説明する。ここで「最小構成文」とは、最小限の意味をなす文のことであり、詳細は「模倣レポート判定に用いる文書間類似度の考案、太田貴久、増山繁、言語処理学会第10回年次大会発表論文集、pp.729-732、2004」に記載されている。
(3) Minimum Composition Sentence Next, an example of extracting a minimum construction sentence from a sentence using morphological analysis and syntax analysis will be described. Here, the “minimum component sentence” is a sentence that has a minimum meaning. For details, see “Invention of similarity between documents used for imitation report determination, Takahisa Ota, Shigeru Masuyama, 10th Annual Meeting of the Language Processing Society” Pp.729-732, 2004 ”, published in the next conference.
図3の例と同一の文章データから最小構成文を抽出すると、「気象庁は発表した。」「23日、発表した。」「関東地方で春一番が吹いたと発表した。」の3つの最小構成文が得られる。これら最小構成文を構成要素として辞書データを作成すると、文脈の中での単語の意味を捉えることができるため、複数の意味に捉えられる単語を含んだ文章を適切なカテゴリに分類するといった高度の分類が可能となるが、計算コストは高くなる。 Extracting the minimum sentence from the same text data as in the example of FIG. 3, “Ministry of Meteorological Agency announced.” “Announced on 23rd.” “Announced that the first spring in the Kanto region was blown.” A composition sentence is obtained. By creating dictionary data using these minimum constituent sentences as constituent elements, it is possible to capture the meaning of words in the context, so it is possible to classify sentences containing words that can be captured in multiple meanings into appropriate categories. Classification is possible, but the calculation cost is high.
なお、形態素解析の結果得られる品詞情報を利用して、名詞、形容詞、動詞の原形のみからなる最小構成文を抽出してもよい。上記と同一の例を使用すると、「気象庁・発表する」「23日・発表する」「関東地方・春一番・吹く・発表する」という3つの最小構成文が得られる。 Note that, by using the part-of-speech information obtained as a result of the morphological analysis, it is possible to extract the minimum constituent sentence consisting only of the noun, the adjective, and the verb form. Using the same example as above, three minimum composition sentences are obtained: “Meteorological Agency to announce”, “23 days to announce”, “Kanto region, spring first, blow, to announce”.
このように、文章分解部18において異なる文章分解アルゴリズムを使用して構成要素を抽出することで、分類辞書作成部22において異なる傾向を有する辞書データを作成することができる。したがって、カテゴリの種類などに合わせて適切な文章分解アルゴリズムを選択することで、分類の精度や処理速度を向上させることも可能である。
In this manner, by extracting the constituent elements using different sentence decomposition algorithms in the
図4は、分類辞書作成部22の詳細な機能ブロック図である。分類辞書作成部22は、構成要素受付部102、絞り込み情報受付部104、カテゴリ情報提供部106、構成要素選択部108、辞書データ検索部110および辞書データ更新部112を含む。
FIG. 4 is a detailed functional block diagram of the classification
構成要素受付部102は、ソート部20から所定の規則にしたがって並べ替えられた構成要素を受け取り、構成要素選択部108に渡す。カテゴリ情報提供部106は、構成要素受付部102で受け取られた構成要素が抽出されたカテゴリ文例および非カテゴリ文例の属するカテゴリについての情報を、要素絞り込み基準提供部30に伝える。絞り込み情報受付部104は、要素絞り込み基準提供部30から選択基準を受け取り、構成要素選択部108に渡す。構成要素選択部108は、選択基準と構成要素とを比較して、選択基準を満たす構成要素を選択して辞書データ検索部110に渡す。辞書データ検索部110は、分類辞書保持部24に保持されている辞書データのなかから、選択基準を満たした構成要素と同一の構成要素についての辞書データがあるか検索し、対応する辞書データがある場合は、辞書データ更新部112に渡す。辞書データ更新部112は、選択基準を満たした各構成要素の数をカウントし、その数を辞書データに追加し、分類辞書保持部24に格納する。構成要素が新規であるときは、新たな辞書データを作成して分類辞書保持部24に格納する。
The
図5は、分類辞書保持部24に格納されている辞書データのデータ構造図である。辞書データ40においては、構成要素42と、その構成要素がカテゴリ1〜Mのカテゴリ文例および非カテゴリ文例に含まれる文章中に出現する出現頻度44とが関連付けされている。構成要素をWn(n=1〜N)、Wnがカテゴリm(m=1〜M)のカテゴリ文例または非カテゴリ文例に含まれる文章中の出現頻度をそれぞれXnm、Ynmと表記すると、ある構成要素Wnについての辞書データ46は、(Wn,Xn1,Yn1,Xn2,Yn2,・・・,Xnm,Ynm)と表すことができる。
FIG. 5 is a data structure diagram of dictionary data stored in the classification
この実施の形態では、各構成要素Wnについて、(カテゴリmのカテゴリ文例に含まれる文章中の出現頻度)と(カテゴリmの非カテゴリ文例に含まれる文章中の出現頻度)の2つの値をペアで保持している。これは、カテゴリ文例または非カテゴリ文例に新たな文章データを追加して分類辞書保持部24内の辞書データを拡充しようとした場合に、頻度情報の書き換えを容易にするためである。
別の実施の形態では、構成要素Wnの出現頻度を単一の値で保持してもよい。構成要素Wnのカテゴリmについての出現頻度をFnmと表記すると、Fnm=Xnm/Ynmとしてもよいし、Fnm=Xnm/(Xnm+Ynm)としてもよい。この場合、ある構成要素Wnについての辞書データ46は、(Wn,Fn1,Fn2,・・・,FnM)と表すことができる。
In this embodiment, for each component W n , two values of (appearance frequency in sentences included in category sentence examples of category m) and (appearance frequency in sentences included in non-category sentence examples of category m) are set. Hold in pairs. This is for facilitating rewriting of the frequency information when new sentence data is added to the category sentence example or the non-category sentence example and the dictionary data in the classification
In another embodiment, the appearance frequency of the component W n may be held as a single value. When the appearance frequency of the component W n with respect to the category m is expressed as F nm , F nm = X nm / Y nm may be set, or F nm = X nm / (X nm + Y nm ) may be set. In this case, the
図6は、要素絞り込み基準提供部30に格納されている選択基準のデータ構造図である。選択基準は、カテゴリ種類に対応して準備される。図6では、カテゴリ種類として、「テーマ分け」「文体」「年代」が含まれる。要素絞り込み基準提供部30は、構成要素を抽出したカテゴリ文例の情報をカテゴリ情報提供部106から受け取り、図中の左欄56に示す特定のカテゴリの場合には、右欄58の選択基準を返す。カテゴリ情報提供部106から受け取ったカテゴリが左欄56に存在しない場合は、標準的な「名詞」という選択基準を返す。
FIG. 6 is a data structure diagram of the selection criteria stored in the element narrowing
例えば、カテゴリ種類がテーマや話題の分類に関するもの、例えば「旅行」「音楽」「映画」などのカテゴリの場合は、「名詞」という基準を提供する。このようなテーマや話題の分類については、特定の名詞の存在がカテゴリ分類を決定付けることが多いからである。カテゴリの種類が文体に関するもの、例えば「フォーマル」「丁寧」「乱文」などのカテゴリの場合は、「形容詞または助詞」という基準を提供する。文体は、「てにをは」などの助詞や感情表現によって決定できる場合が多いからである。さらに、文章を作成した人の年代や性別に関するもの、例えば「女性」「若年層」などの場合は、「平仮名の名詞」という基準を提供する。このように、要素絞り込み基準提供部30は、辞書データの作成対象となる構成要素が、いずれのカテゴリ文例または非カテゴリ文例に含まれる文章データから抽出されたかに応じて、カテゴリ毎に異なる選択基準を提供することができる。分類辞書作成部22は、選択基準を参照して、辞書として準備される構成要素を絞り込んた辞書データを作成することができる。
For example, if the category type is related to a theme or topic classification, for example, a category such as “travel”, “music”, or “movie”, the criterion “noun” is provided. This is because, for such themes and topic classifications, the presence of a specific noun often determines the category classification. When the category type is related to a style, for example, a category such as “formal”, “careful”, or “random”, a criterion of “adjective or particle” is provided. This is because the style can often be determined by a particle such as “Tenanoha” or emotional expression. Furthermore, for the age and gender of the person who created the text, for example “female” and “young people”, a criterion “noun of hiragana” is provided. In this way, the element refinement
要素絞り込み基準提供部30は、構成要素の品詞を選択基準として提供する代わりに、文字数を選択基準として提供してもよい。これによって、分類辞書作成部22は、一定字数以下の構成要素について辞書を作成することができる。あるいは、要素絞り込み基準提供部30は、選択基準として特定の構成要素(例えば、「自動車」という名詞)を提供してもよい。分類辞書作成部22は、それと一致する構成要素は辞書データの作成対象から除外するようにしてもよい。例えば、極めて多数の文章中で使用されるありふれた名詞(例えば、「私」「物」)などはカテゴリ分類に与える影響が少ないので、除外することが好ましい。
The element narrowing
図7は、カテゴリ帰属確率計算部26の詳細な機能ブロック図である。カテゴリ帰属確率計算部26は、構成要素受付部122、絞り込み情報受付部124、構成要素選択部126、辞書データ検索部128、出現確率算出部130および帰属確率算出部132を含む。
FIG. 7 is a detailed functional block diagram of the category
構成要素受付部122は、ソート部20から所定の規則にしたがって並べ替えられた構成要素を受け取る。絞り込み情報受付部124は、要素絞り込み基準提供部30から選択基準を受け取り、構成要素選択部126に渡す。構成要素選択部126は、選択基準と構成要素とを比較して、選択基準を満たす構成要素を選択して辞書データ検索部128に渡す。辞書データ検索部128は、分類辞書保持部24に保持されている辞書データのなかから、選択基準を満たした構成要素と同一の構成要素についての辞書データがあるか検索し、対応する辞書データがある場合は、出現確率算出部130に渡す。
The
出現確率算出部130は、各カテゴリmについて、未分類データから抽出された各構成要素Wnの出現確率anmを計算する。ここで、出現確率anmは、上述したカテゴリ文例または非カテゴリ文例に含まれる文章中への出現頻度Xnm、Ynmを使用して、次式により算出される。
The appearance
図8は、数1により算出された、カテゴリ1に対する各構成要素W1〜WNの出現確率a11〜aN1を示す。
なお、出現確率の算出は、数1に限られない。例えば、上述したFnmをそのまま使用してもよい。
FIG. 8 shows the appearance probabilities a 11 to a N1 of the components W 1 to W N with respect to the
Note that the calculation of the appearance probability is not limited to
帰属確率算出部132は、算出された出現確率をすべての構成要素について総計して、未分類文章データについてカテゴリ毎の帰属確率を算出する。好ましくは、帰属確率算出部132は、ベイジアンフィルタ法を使用して、次式によりカテゴリnへの帰属確率Enを算出する。
The attribution
なお、ベイジアンフィルタ法以外の手法を使用して帰属確率を算出してもよい。例えば、すべての構成要素の出現確率を単に掛け合わせて帰属確率を算出してもよいし、出現確率の平均値を帰属確率としてもよい。 Note that the attribution probability may be calculated using a method other than the Bayesian filter method. For example, the attribution probability may be calculated by simply multiplying the appearance probabilities of all the constituent elements, or the average value of the appearance probabilities may be used as the attribution probability.
図9は、分類辞書を作成する処理過程を示すフローチャートである。
まず、文章分解部18は、文例格納部12から一対のカテゴリ文例または非カテゴリ文例を取得する(S10)。次に、文章分解部18は、所定の文章分解アルゴリズムに基づいて、カテゴリ文例および非カテゴリ文例中の文章データを構成要素に分解し、ソート部20は分解された構成要素を所定の規則にしたがって並べ替える(S12)。なお、この並べ替えの実行は本実施の形態に必須ではなく、分類辞書保持部からのデータ検索時間が長くなるため演算速度は低下しうるが、カテゴリ分類の精度に影響を及ぼすことはない。
FIG. 9 is a flowchart showing a process of creating a classification dictionary.
First, the
次に、分類辞書作成部22は、抽出されたひとつの構成要素について、要素絞り込み基準提供部30から受け取った選択基準と比較して、辞書データの作成対象の構成要素であるか否かを判定する(S14)。辞書データの作成対象でなければ(S14のN)、S24に進む。辞書データの作成対象であれば(S14のY)、分類辞書作成部22は分類辞書保持部24からその構成要素についての辞書データを検索する(S16)。対応する辞書データが存在した場合は(S18のY)、今回の文例データ中に存在した構成要素の数を、辞書データ中のそのカテゴリの頻度に追加する(S20)。対応する辞書データが存在しない場合は(S18のN)、新たな辞書データを作成する(S22)。そして、文章分解部18で分解されたすべての構成要素について処理したか否かを判定し(S24)、処理が終了していなければ(S24のN)、別の構成要素についてS14からの処理を繰り返す。すべての構成要素についての辞書データの作成が終了すると(S24のY)、このフローを終了する。
Next, the classification
図10は、未分類文章データをカテゴリに分類する処理過程を示すフローチャートである。
文章受付部36は、未分類文章データを受け取る(S30)。文章分解部18は、好ましくは図9のS12と同じ文章分解アルゴリズムに基づいて、未分類文章データ中の文章を構成要素に分解し、ソート部20は分解された構成要素を所定の規則にしたがって並べ替える(S32)。次に、カテゴリ帰属確率計算部6は、抽出されたひとつの構成要素について、要素絞り込み基準提供部30から受け取った選択基準と比較して、未分類文章データの帰属確率を計算するために、その構成要素の出現確率を計算するか否かを判定する(S34)。出現確率の計算対象であれば(S34のY)、カテゴリ帰属確率計算部26は、分類辞書保持部24からその構成要素についての辞書データを検索し、対応する辞書データがある場合は(S36のY)、辞書データに基づいて、その構成要素の出現確率を各カテゴリについて算出する(S38)。S34で構成要素が出現確率の計算対象でなかった場合(S34のN)、またはS36で対応する辞書データが存在しなかった場合(S36のN)は、S38をスキップする。
続いて、文章分解部18によって抽出されたすべての構成要素について処理したか否かを判定し(S40)、処理が終了していなければ(S40のN)、別の構成要素についてS34からの処理を繰り返す。
FIG. 10 is a flowchart showing a process of classifying uncategorized text data into categories.
The
Subsequently, it is determined whether or not all the components extracted by the
すべての構成要素についての処理が終了すると(S40のY)、カテゴリ帰属確率計算部26は、上述した手順にしたがって、カテゴリ毎に未分類文章データの帰属確率を算出し(S42)、判定部28は、帰属確率に基づいて未分類文章データが属するカテゴリを判定する(S44)。
When the processing for all the constituent elements is completed (Y in S40), the category attribution
(実施例)
以下、具体的な実施例に基づいて、本実施の形態に係る文章分類装置10の動作を説明する。この実施例では、説明を簡単にするために、カテゴリとして「ギャンブル」「教育」の2つのカテゴリが準備されているものとする。また、辞書データは作成済みのものを用いることとする。
(Example)
Hereinafter, based on a specific Example, operation | movement of the
図11は、この実施例で使用される辞書データを示し、上述の全体説明における図5に対応する。この辞書データは、カテゴリ「ギャンブル」について、カテゴリ文例に含まれる30の文章と非カテゴリ文例に含まれる15の文章から抽出された構成要素、および、カテゴリ「教育」について、カテゴリ文例に含まれる20の文章と非カテゴリ文例に含まれる18の文章から抽出された構成要素についてのものである。使用された文章数は、欄154に「文章数」として示されている。
FIG. 11 shows dictionary data used in this embodiment, and corresponds to FIG. 5 in the entire description above. This dictionary data is included in the category sentence example for the category “gambling”, the constituent elements extracted from the 30 sentences included in the category sentence example and the 15 sentences included in the non-category sentence example, and the category “education”. And the components extracted from the 18 sentences included in the non-category sentence examples. The number of sentences used is shown in the
図示するように、この辞書には、「パチンコ」「万馬券」「青少年」「健全」「育成」などの単語が構成要素として含まれている。そして、それぞれの構成要素に対して、カテゴリ毎の出現頻度情報を有している。構成要素「パチンコ」を例としてみると、カテゴリ「ギャンブル」に対して、カテゴリ文例の文章中の出現頻度は10回、非カテゴリ文例の文章中の出現頻度は2回である。また、カテゴリ「教育」に対しては、カテゴリ文例の文章中の出現頻度は1回、非カテゴリ文例の文章中の出現頻度は20回である。他の構成要素についても同様である。 As shown in the figure, this dictionary includes words such as “Pachinko”, “Manga ticket”, “Youth”, “Healthy”, and “Nurture” as constituent elements. Each component has appearance frequency information for each category. Taking the component “pachinko” as an example, the appearance frequency in the sentence of the category sentence example is 10 times and the appearance frequency in the sentence of the non-category sentence example is 2 times for the category “gambling”. For the category “education”, the frequency of appearance in the sentence of the category sentence example is once, and the frequency of appearance in the sentence of the non-category sentence example is 20 times. The same applies to other components.
「総計」欄152は、カテゴリ文例の文章数および非カテゴリ文例の文章数を、すべての構成要素について足し合わせた数である。
The “total”
このような辞書データが分類辞書保持部24に保持されていることを前提に、未分類文章データとして「パチンコ業界を健全に育成しましょう。」という文章が、2つのカテゴリのいずれに分類されるかを説明する。この文章から、文章分解部18により構成要素が抽出される。この実施例では、文章分解部18は形態素解析によって文章を分解し、その結果、「パチンコ/業界/を/健全/に/育成/し/ましょ/う/。」のように、10の構成要素が抽出される。続いて、カテゴリ帰属確率計算部26内の構成要素選択部126は、要素絞り込み基準提供部30から「名詞」という選択基準を受け取り、抽出された構成要素から名詞のみを選択する。したがって、「パチンコ」「業界」「健全」「育成」の4つの構成要素が選択されることになる。
On the assumption that such dictionary data is held in the classification
辞書データ検索部128は、対応する辞書データを分類辞書保持部24から検索する。この場合、「パチンコ」「健全」「育成」の3つの辞書データが得られる。出現確率算出部130は、この辞書データにおける3つの構成要素の出現頻度から、上記数1を使用して各カテゴリについての出現確率を算出する。その結果を図12に示す。構成要素「パチンコ」を例としてみると、カテゴリ「ギャンブル」についての出現確率は0.714、カテゴリ「教育」についての出現確率は0.043である。他の構成要素についても同様である。
The dictionary
帰属確率算出部132は、上記数2にしたがって、出現確率を使用して未分類文章データの帰属確率をカテゴリ毎に算出する。
具体的な数値を用いて説明する。図13は、上記全体説明の図8に対応させて、カテゴリ「ギャンブル」「教育」についての出現確率anと(1−an)をまとめた表である。カテゴリ「ギャンブル」に対しては、要素「パチンコ」の出現確率a11が0.714、要素「健全」の出現確率a21が0.200、要素「育成」の出現確率a31が0.273であるから、数2にしたがって計算すると、未分類文章データのカテゴリ「ギャンブル」への帰属確率E1は、以下のようにして算出される。
(数3)
E1=(0.714×0.200×0.273)/
{(0.714×0.200×0.273)+(1−0.714)×(1−0.200)×(1−0.273)}≒0.190
The attribution
This will be described using specific numerical values. 13, corresponding to Figure 8 of the entire description, is a table summarizing the probability a n for the category "gambling", "Education" (1-a n). For the category “gambling”, the appearance probability a 11 of the element “pachinko” is 0.714, the appearance probability a 21 of the element “sound” is 0.200, and the appearance probability a 31 of the element “nurturing” is 0.273. Therefore, when calculated according to
(Equation 3)
E 1 = (0.714 × 0.200 × 0.273) /
{(0.714 × 0.200 × 0.273) + (1−0.714) × (1−0.200) × (1−0.273)} ≈0.190
カテゴリ「教育」に対しては、要素「パチンコ」の出現確率a12が0.043、要素「健全」の出現確率a22が0.783、要素「育成」の出現確率a32が0.844であるから、数2にしたがって計算すると、未分類文章データのカテゴリ「教育」への帰属確率E2は、以下のようにして算出される。
(数4)
E2=(0.043×0.783×0.844)/
{(0.043×0.783×0.844)+(1−0.043)×(1−0.783)×(1−0.844)}≒0.467
Category for the "education", the occurrence probability of a 12 element "pachinko" is 0.043, the occurrence probability of a 22 element "healthy" is 0.783, the occurrence probability of a 32 element "training" is 0.844 Therefore, when calculated according to Equation 2 , the belonging probability E 2 of the uncategorized sentence data to the category “education” is calculated as follows.
(Equation 4)
E 2 = (0.043 × 0.783 × 0.844) /
{(0.043 × 0.783 × 0.844) + (1−0.043) × (1−0.783) × (1−0.844)} ≈0.467
この結果、判定部28は、「パチンコ業界を健全に育成しましょう。」という文章は、帰属確率の大きい方のカテゴリ「教育」に分類されると判定する。以上で、未分類文章データを分類する一連の処理が終了する。
As a result, the
以上説明したように、本実施の形態の文章分類装置によれば、未分類文章データを予め定められたカテゴリに沿って自動的に分類することができる。 As described above, according to the sentence classification device of the present embodiment, uncategorized sentence data can be automatically classified according to a predetermined category.
ところで、従来から、ベイジアンフィルタ法を使用したスパムフィルタが知られている。このスパムフィルタは、スパムに属する文例集と、スパムに属さない文例集とから、各単語が含まれていた場合のスパム確率を算出しておき、検査対象の文章に出現する単語について、ベイズ理論にしたがってスパム確率を求めることによって、スパムメールを検出する。しかし、この方法では、ある文章が単一のカテゴリ、つまりこの場合ならば「スパムメール」というカテゴリに属するか否かの判定しかできない。 Incidentally, a spam filter using a Bayesian filter method has been conventionally known. This spam filter calculates the probability of spam when each word is included from a collection of sentence examples that belong to spam and a collection of sentence examples that does not belong to spam. Detect spam emails by determining spam probability according to: However, this method can only determine whether a certain sentence belongs to a single category, that is, in this case, a category of “spam mail”.
これに対し、本実施の形態の文章分類装置では、未分類文章データがいずれのカテゴリに属するかは、カテゴリ毎に算出される未分類文章データの帰属確率により判定される。したがって、ひとつの文章データをひとつのカテゴリに分類することもできるし、2つ以上のカテゴリに分類することもできる。また、ひとつの視点に基づくカテゴリについて分類するのみならず、複数の視点に基づくカテゴリを混合させておき、それらについてまとめて未分類文章データの帰属確率を算出することができる。具体的にいうと、一度の計算で、コンテンツの種類(例えば、政治/経済/社会)の分類と、文章のタイプ(ニュース記事/ブログ/エッセイ)のような分類とを同時に実行することができる。よって、「政治のニュース記事」「社会問題のエッセイ」というような、多軸的な視点に立った文章の分類も可能になる。 On the other hand, in the sentence classification device according to the present embodiment, to which category the unclassified sentence data belongs is determined by the belonging probability of the unclassified sentence data calculated for each category. Therefore, one sentence data can be classified into one category, and can be classified into two or more categories. In addition to classifying categories based on one viewpoint, categories based on a plurality of viewpoints can be mixed, and the belonging probability of unclassified sentence data can be calculated collectively. More specifically, classification of content types (for example, politics / economy / society) and classification such as sentence types (news articles / blogs / essays) can be executed simultaneously with a single calculation. . Therefore, it is possible to classify sentences from a multiaxial viewpoint such as “political news articles” and “essays on social issues”.
本実施の形態の文章分類装置は、以下に述べるような応用形態が想定される。 The sentence classification device of the present embodiment is assumed to be applied as described below.
応用形態1.
ディレクトリ型の検索サイトを作成する際に、ウェブクローラが収集してきたウェブページのHTMLファイルを文章分類装置に与えることによって、ウェブページを様々な話題に基づくカテゴリに分類することができる。この分類結果を使用することで、ディレクトリ型の検索サイトの構築を容易にすることができる。なお、この応用形態では、文章データがHTMLファイルやXMLファイルのヘッダ、タグ、本文のどの部分にあるかに応じて、分類辞書作成部が出現頻度の重み付けをしてもよい。
When a directory-type search site is created, the web page HTML file collected by the web crawler is given to the sentence classification device, so that the web page can be classified into categories based on various topics. By using this classification result, the construction of a directory-type search site can be facilitated. In this application mode, the classification dictionary creation unit may weight the appearance frequency according to whether the text data is in the header, tag, or body of the HTML file or XML file.
応用形態2.
電子掲示板システムにおいて、投稿者からネットワークを介して接続されたサーバに対して送信されてきた投稿データを文章分解装置に与えることによって、投稿データを内容に基づくカテゴリに分類することができる。これによって、投稿データを人手を介さずに自動的に分類して表示させることができる。また、投稿者も、投稿先を自ら選択することなく電子掲示板システムに対して投稿データを送信することができる。
In the electronic bulletin board system, post data transmitted from a contributor to a server connected via a network is given to a text decomposing apparatus, whereby the post data can be classified into categories based on contents. As a result, the posted data can be automatically classified and displayed without human intervention. In addition, the contributor can also transmit the posting data to the electronic bulletin board system without selecting the posting destination.
応用形態3.
カテゴリ文例としてスパムメールのデータを、非カテゴリ文例としてそれ以外のメールのデータを準備しておくことによって、スパムメールの検出フィルタとしても、文章分類装置を使用することができる。
By preparing spam mail data as category sentence examples and other mail data as non-category sentence examples, the sentence classification device can also be used as a spam mail detection filter.
以上、本発明をいくつかの実施の形態をもとに説明した。これらの実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described based on some embodiments. It is understood by those skilled in the art that these embodiments are exemplifications, and that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. By the way.
請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。 It should also be understood by those skilled in the art that the functions to be fulfilled by the constituent elements described in the claims are realized by the individual functional blocks shown in the present embodiment or their linkage.
図14は、別の実施の形態に係る文章分類システムの構成を示す。この実施の形態では、カテゴリ文例および非カテゴリ文例から辞書を作成する辞書ユニット60と、未分類文章データをカテゴリに分類する分類ユニット70から文章分類システム100が構築される。
FIG. 14 shows a configuration of a sentence classification system according to another embodiment. In this embodiment, a
辞書ユニット60内の、文例格納部12、文章分解部18、ソート部20、分類辞書作成部22、分類辞書保持部24および要素絞り込み基準提供部30は、図2に関して説明したものと同様の機能を有する。辞書提供部62は、分類ユニット70などの外部装置から辞書データの提供が要求されたとき、分類辞書保持部24から構成要素に対応する辞書データを検索して外部装置に送信する。
In the
また、分類ユニット70内の文章受付部36、カテゴリ帰属確率計算部26、判定部28および判定結果格納部32もまた、図2に関して説明したものと同様の機能を有する。文章分解部76、ソート部78は、それぞれ文章分解部18、ソート部20と同様の機能を有する。カテゴリ帰属確率計算部26は、未分類文章データ34から抽出された構成要素について、辞書ユニット60に対して辞書データの提供を求め、辞書提供部62から送信される辞書データを受け取って、上述した一連の処理を実行する。カテゴリ帰属確率計算部26は、要素絞り込み部74から絞り込み情報の提供を受けて、要素を絞り込んでもよい。
このように、辞書ユニットと分類ユニットとを別々に構成することによって、各ユニットをネットワークを介してリモートに配置することができる。
In addition, the
In this way, by configuring the dictionary unit and the classification unit separately, each unit can be remotely arranged via the network.
別の実施の形態では、未分類文章データの分類の際に得られたデータを、分類辞書保持部24内の辞書データに反映させてもよい。具体的には、未分類文章データから抽出された構成要素に対応する辞書データが分類辞書保持部24に存在する場合は、辞書データの頻度情報を更新させるようにする。こうすれば、未分類文章データの分類を繰り返すたびに、辞書データを充実化することができる。
In another embodiment, data obtained when classifying unclassified sentence data may be reflected in the dictionary data in the classification
分類辞書作成部22は、カテゴリ毎の出現頻度を辞書データとして記録するとき、構成要素を品詞別に重み付けするようにしてもよい。例えば、構成要素が名詞であれば、頻度を2倍にして記録し、構成要素が助詞であれば、頻度を0.1倍して記録するようにしてもよい。また、カテゴリ帰属確率計算部26は、構成要素の品詞に応じて出現確率に重み付けをして未分類文章データの帰属確率を算出してもよい。これによって、構成要素の品詞の影響の軽重を反映させた文章データの分類が可能になる。
When recording the appearance frequency for each category as dictionary data, the classification
10 文章分類装置、 12 文例格納部、 14 カテゴリ文例データ群、 16 非カテゴリ文例データ群、 18 文章分解部、 20 ソート部、 22 分類辞書作成部、 24 分類辞書保持部、 26 カテゴリ帰属確率計算部、 28 判定部、 30 要素絞り込み基準提供部、 32 判定結果格納部、 34 未分類文章データ、 36 文章受付部、 62 辞書提供部、 102 構成要素受付部、 104 絞り込み情報受付部、 106 カテゴリ情報提供部、 108 構成要素選択部、 110 辞書データ検索部、 112 辞書データ更新部、 122 構成要素受付部、 124 絞り込み情報受付部、 126 構成要素選択部、 128 辞書データ検索部、 130 出現確率算出部、 132 帰属確率算出部。
DESCRIPTION OF
Claims (11)
新たに分類対象とする未分類文章データを外部装置から受け取る文章受付部と、
所定の規則にしたがって前記未分類文章データを解析して文章の構成要素を抽出する文章分解部と、
前記辞書データを参照して、抽出された構成要素を含む未分類文章データがそれぞれのカテゴリに帰属する確率を表す帰属確率を各カテゴリについて計算するカテゴリ帰属確率計算部と、
前記帰属確率を参照して、前記未分類文章データが分類されるカテゴリを判定する判定部と、
を備えることを特徴とする文章分類装置。 A classification dictionary holding unit that holds dictionary data in which the constituent elements of the sentence and the appearance frequency of the constituent elements appearing in the sentences to be classified into the categories for a plurality of predetermined categories are associated;
A text receiving unit that receives unclassified text data to be newly classified from an external device;
A sentence decomposing unit that analyzes the unclassified sentence data according to a predetermined rule and extracts constituent elements of the sentence;
With reference to the dictionary data, a category attribution probability calculator for calculating an attribution probability representing the probability that the uncategorized sentence data including the extracted component belongs to each category,
A determination unit that determines a category in which the unclassified sentence data is classified with reference to the probability of belonging;
A sentence classification device comprising:
前記カテゴリ帰属確率計算部は、前記要素絞り込み基準提供部から前記基準を受け取り、前記未分類文章データから抽出された構成要素のうち、前記基準を満たす構成要素を前記出現確率の計算対象とすることを特徴とする請求項3に記載の分類辞書作成装置。 An element refining criterion providing unit storing a criterion for selecting a component;
The category attribution probability calculating unit receives the criterion from the element narrowing criterion providing unit, and among the components extracted from the uncategorized sentence data, the component satisfying the criterion is the calculation target of the appearance probability. The classification dictionary creation device according to claim 3.
所定の規則にしたがって文章データを解析して文章の構成要素を抽出する文章分解部と、
前記カテゴリ文例データ群および非カテゴリ文例データ群に含まれる文章データ中に、前記文章分解部により抽出された構成要素が出現する出現頻度をカテゴリ毎にカウントする分類辞書作成部と、
構成要素と各カテゴリにおける出現頻度とが関連付けられた辞書データを保持する分類辞書保持部と、
外部装置に対して前記辞書データを提供する辞書提供部と、
を備えることを特徴とする分類辞書作成装置。 About a plurality of predetermined categories, a sentence example storage unit that stores a category sentence example data group including sentence data to be classified into each category, and a non-category sentence example data group including sentence data not classified into a category,
A sentence decomposition unit that analyzes sentence data according to a predetermined rule and extracts constituent elements of the sentence;
A classification dictionary creation unit that counts, for each category, the frequency of appearance of components extracted by the sentence decomposition unit in the sentence data included in the category sentence example data group and the non-category example data group;
A classification dictionary holding unit that holds dictionary data in which a component and an appearance frequency in each category are associated;
A dictionary providing unit for providing the dictionary data to an external device;
A classification dictionary creation device comprising:
前記分類辞書作成部は、前記要素絞り込み基準提供部から前記基準を受け取り、前記カテゴリ文例データ群および非カテゴリ文例データ群に含まれる文章データから抽出された構成要素のうち、前記基準を満たす構成要素を前記辞書データの作成対象とすることを特徴とする請求項8に記載の分類辞書作成装置。 An element refining criterion providing unit storing a criterion for selecting a component;
The classification dictionary creating unit receives the criteria from the element narrowing criteria providing unit, and among the components extracted from the sentence data included in the category sentence example data group and the non-category sentence example data group, the constituent elements satisfying the criterion The classification dictionary creating apparatus according to claim 8, wherein the dictionary data is to be created.
所定の規則にしたがって文章データを解析して文章の構成要素を抽出し、
前記カテゴリ文例データ群および非カテゴリ文例データ群に含まれる文章データ中に抽出された各構成要素が出現する頻度をカテゴリ毎に計算し、
前記頻度と前記構成要素とが関連付けられた辞書データを格納し、
新たに分類対象となる未分類文章データを外部装置から受け取り、
前記未分類文章データから抽出された構成要素について、前記辞書データを参照して、抽出された構成要素を含む未分類文章データがそれぞれのカテゴリに帰属する確率を表す帰属確率を各カテゴリについて計算し、
前記帰属確率を参照して、前記未分類文章データが分類されるカテゴリを判定することを特徴とする文章分類方法。 For a plurality of predetermined categories, a category sentence data group including sentence data to be classified into each category and a non-category sentence example data group including sentence data not classified into a category are stored in the storage means.
Analyzing the sentence data according to the prescribed rules and extracting the constituent elements of the sentence,
Calculating the frequency of appearance of each component extracted in the sentence data included in the category sentence example data group and the non-category example data group for each category;
Storing dictionary data in which the frequency and the component are associated;
Newly received uncategorized text data to be classified from an external device,
For each component extracted from the uncategorized sentence data, refer to the dictionary data and calculate for each category an attribution probability representing the probability that the uncategorized sentence data including the extracted component belongs to each category. ,
A sentence classification method, wherein the category into which the unclassified sentence data is classified is determined with reference to the probability of belonging.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005114841A JP2006293767A (en) | 2005-04-12 | 2005-04-12 | Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005114841A JP2006293767A (en) | 2005-04-12 | 2005-04-12 | Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006293767A true JP2006293767A (en) | 2006-10-26 |
Family
ID=37414268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005114841A Pending JP2006293767A (en) | 2005-04-12 | 2005-04-12 | Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006293767A (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009048334A (en) * | 2007-08-16 | 2009-03-05 | Nippon Hoso Kyokai <Nhk> | Video identification processing apparatus, image identification processing apparatus, and computer program |
JP2009098810A (en) * | 2007-10-15 | 2009-05-07 | Toshiba Corp | Document classification device and program |
JP2009104231A (en) * | 2007-10-19 | 2009-05-14 | Ricoh Co Ltd | Information processor, sound output device, symbol display device, image forming apparatus, user attribute determination method, and program |
JP2009199302A (en) * | 2008-02-21 | 2009-09-03 | Netstar Inc | Program, device, and method for analyzing document |
JP2011233163A (en) * | 2011-07-21 | 2011-11-17 | Mitsubishi Electric Corp | Sentence associating system and sentence associating program |
WO2012137952A1 (en) * | 2011-04-08 | 2012-10-11 | 株式会社 エヌ・ティ・ティ・ドコモ | Region information distribution server, mobile terminal, region information distribution system, region information distribution method, and region information display method |
JP2012226778A (en) * | 2012-08-08 | 2012-11-15 | Canon Marketing Japan Inc | Information processor, information processing method, and program |
JP2012226779A (en) * | 2012-08-08 | 2012-11-15 | Canon Marketing Japan Inc | Information processor, information processing method, and program |
JP2014170377A (en) * | 2013-03-04 | 2014-09-18 | Nippon Hoso Kyokai <Nhk> | Document analysis device and program |
JP2018165942A (en) * | 2017-03-28 | 2018-10-25 | 日本電信電話株式会社 | Visualization device, visualization method, and program |
JP2019215886A (en) * | 2017-03-28 | 2019-12-19 | 日本電信電話株式会社 | Visualization device, visualization method, and program |
US11494689B2 (en) * | 2018-06-05 | 2022-11-08 | Chatterbox Labs Limited | Method and device for improved classification |
US11797592B2 (en) | 2020-06-12 | 2023-10-24 | Panasonic Intellectual Property Management Co., Ltd. | Document classification method, document classifier, and recording medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326465A (en) * | 2003-04-24 | 2004-11-18 | Matsushita Electric Ind Co Ltd | Learning device for document classification, and document classification method and document classification device using it |
-
2005
- 2005-04-12 JP JP2005114841A patent/JP2006293767A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326465A (en) * | 2003-04-24 | 2004-11-18 | Matsushita Electric Ind Co Ltd | Learning device for document classification, and document classification method and document classification device using it |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009048334A (en) * | 2007-08-16 | 2009-03-05 | Nippon Hoso Kyokai <Nhk> | Video identification processing apparatus, image identification processing apparatus, and computer program |
JP2009098810A (en) * | 2007-10-15 | 2009-05-07 | Toshiba Corp | Document classification device and program |
JP2009104231A (en) * | 2007-10-19 | 2009-05-14 | Ricoh Co Ltd | Information processor, sound output device, symbol display device, image forming apparatus, user attribute determination method, and program |
JP2009199302A (en) * | 2008-02-21 | 2009-09-03 | Netstar Inc | Program, device, and method for analyzing document |
JP2012221207A (en) * | 2011-04-08 | 2012-11-12 | Ntt Docomo Inc | Regional information distribution server, mobile terminal, regional information distribution system, regional information distribution method, and regional information display method |
WO2012137952A1 (en) * | 2011-04-08 | 2012-10-11 | 株式会社 エヌ・ティ・ティ・ドコモ | Region information distribution server, mobile terminal, region information distribution system, region information distribution method, and region information display method |
JP2011233163A (en) * | 2011-07-21 | 2011-11-17 | Mitsubishi Electric Corp | Sentence associating system and sentence associating program |
JP2012226778A (en) * | 2012-08-08 | 2012-11-15 | Canon Marketing Japan Inc | Information processor, information processing method, and program |
JP2012226779A (en) * | 2012-08-08 | 2012-11-15 | Canon Marketing Japan Inc | Information processor, information processing method, and program |
JP2014170377A (en) * | 2013-03-04 | 2014-09-18 | Nippon Hoso Kyokai <Nhk> | Document analysis device and program |
JP2018165942A (en) * | 2017-03-28 | 2018-10-25 | 日本電信電話株式会社 | Visualization device, visualization method, and program |
JP2019215886A (en) * | 2017-03-28 | 2019-12-19 | 日本電信電話株式会社 | Visualization device, visualization method, and program |
US11494689B2 (en) * | 2018-06-05 | 2022-11-08 | Chatterbox Labs Limited | Method and device for improved classification |
US11797592B2 (en) | 2020-06-12 | 2023-10-24 | Panasonic Intellectual Property Management Co., Ltd. | Document classification method, document classifier, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006293767A (en) | Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device | |
Sharif et al. | Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes | |
JP4940399B2 (en) | Advertisement distribution apparatus and program | |
CN108363790A (en) | For the method, apparatus, equipment and storage medium to being assessed | |
US8868609B2 (en) | Tagging method and apparatus based on structured data set | |
CN107315797A (en) | A kind of Internet news is obtained and text emotion forecasting system | |
Ginting et al. | Hate speech detection on twitter using multinomial logistic regression classification method | |
KR20160026892A (en) | Non-factoid question-and-answer system and method | |
KR20060047636A (en) | Method and system for classifying display pages using summaries | |
CN112749341A (en) | Key public opinion recommendation method, readable storage medium and data processing device | |
CN102955848A (en) | Semantic-based three-dimensional model retrieval system and method | |
Al Qundus et al. | Exploring the impact of short-text complexity and structure on its quality in social media | |
Selamat et al. | Word-length algorithm for language identification of under-resourced languages | |
CN112307336A (en) | Hotspot information mining and previewing method and device, computer equipment and storage medium | |
Alnajjar et al. | " Talent, Skill and Support.": A Method for Automatic Creation of Slogans | |
JP4466334B2 (en) | Information classification method and apparatus, program, and storage medium storing program | |
JP4931114B2 (en) | Data display device, data display method, and data display program | |
CN114281983B (en) | Hierarchical text classification method, hierarchical text classification system, electronic device and storage medium | |
CN113934834A (en) | Question matching method, device, equipment and storage medium | |
CN113571196A (en) | Method and device for constructing medical training sample and method for retrieving medical text | |
JP6942759B2 (en) | Information processing equipment, programs and information processing methods | |
CN114842982B (en) | Knowledge expression method, device and system for medical information system | |
CN109408808B (en) | Evaluation method and evaluation system for literature works | |
JP5782487B2 (en) | Action purpose extraction method and apparatus | |
US11947898B2 (en) | System and method of content brief generation using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100316 |