JP6040138B2 - 文書分類装置、文書分類方法および文書分類プログラム - Google Patents

文書分類装置、文書分類方法および文書分類プログラム Download PDF

Info

Publication number
JP6040138B2
JP6040138B2 JP2013216574A JP2013216574A JP6040138B2 JP 6040138 B2 JP6040138 B2 JP 6040138B2 JP 2013216574 A JP2013216574 A JP 2013216574A JP 2013216574 A JP2013216574 A JP 2013216574A JP 6040138 B2 JP6040138 B2 JP 6040138B2
Authority
JP
Japan
Prior art keywords
document
class
database
label
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013216574A
Other languages
English (en)
Other versions
JP2015079382A (ja
Inventor
田中 陽子
陽子 田中
良彦 数原
良彦 数原
浩之 戸田
浩之 戸田
鷲崎 誠司
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013216574A priority Critical patent/JP6040138B2/ja
Publication of JP2015079382A publication Critical patent/JP2015079382A/ja
Application granted granted Critical
Publication of JP6040138B2 publication Critical patent/JP6040138B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキスト文書を複数クラスに分類する際の分類装置、方法、プログラムに関するものである。
文書がカテゴリなどに基づいた複数のクラスに分類できる場合、文書中に含まれる情報やすでにクラスラベルが付与されている文書群を用いて、未知の文書が属するクラスを判定することで、文書の自動分類が可能となる。
従来、文書中に含まれる単語に関する様々な特徴を用いた文書分類の手法が考えられてきた。最も基本となる手法は、文書中に含まれる単語の出現回数のみをその文書の特徴とする方法である。
他にも、文書に含まれる単語のTF−IDFの値をその文書の特徴とする手法(非特許文献1参照)などがあり、この特徴を用いてクラスラベル付与済みの文書を用いて推定器を生成し、文書の自動クラス分類を行っていた。
このように、文書中の単語と文書に付与されたクラスとの関連性を用いることで、クラスが未知の文書に対してクラスラベルを推定することが可能である。
尚、本発明において、単語を分割する手法は例えば非特許文献2の手法を用い、クラス分類モデルを生成する際の学習手法および文書がどのクラスに属するのかを推定する推定方法は、例えば非特許文献3の方法を用いる。
Thorsten Joachims."Text Categorization With Suport Vector Machines:Learning With Many Relevant Features".In Proceedings of the 10th European Conference on Machine Learning,ECML ’98,pages 137−142,London,UK,UK,1998.Springer−Verlag. Takeshi Fuchi and Shinichiro Takagi."Japanese Morphological Analyzer using Word Co−occurrence".Jtag.In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linquistics−Volume 1,ACL’98,pages 409−413,Stroudsburg,PA,USA,1998.Association for Computational Linguistics. Chih−Chung Chang and Chih−Jen Lin.LIBSVM:A library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2:27:1−27:27,2011.Software available at http://www.csie.ntu.edu.tw/cjlin/libsvm.
前述した従来の手法では、クラスラベル付き文書とその文書が属するクラスとの関連性を特徴として学習している。しかし、文書が属するクラス以外のクラスとの関連性については考慮されておらず、文書の特徴を十分に考慮できていない。
本発明は上記課題を解決するものであり、その目的は、クラスが未知である文書の分類精度を向上させた文書分類装置、方法、プログラムを提供することにある。
上記課題を解決するための本発明の文書分類装置は、複数の文書とその文書が属している複数のクラスのクラスラベルとが対応付けて格納されたクラスラベル付き文書データベース内の、前記文書を単語に分割し、その分割した単語と全クラス各々との関連性を求め、分割した各単語と各クラスの組合せ毎の関連性を格納した拡張特徴表現データベースを構築する特徴拡張手段と、前記クラスラベル付き文書データベースの各文書に対して、前記拡張特徴表現データベース内の単語とクラスの関連性を文書特徴表現のデータとして付与し、拡張特徴表現付きクラスラベル付き文書データベースを構築し、クラスラベルが未知である文書が格納されたクラス未知文書データベースの各文書に対して、前記拡張特徴表現データベース内の単語とクラスの関連性を文書特徴表現のデータとして付与し、拡張特徴表現付き文書データベースを構築する拡張特徴表現付与手段と、前記拡張特徴表現付きクラスラベル付き文書データベースの文書特徴表現およびクラスラベルのデータに基づいて学習を行って、クラス分類モデルを生成する学習手段と、前記学習手段によって生成されたクラス分類モデルを用いて、前記拡張特徴表現付き文書データベース内のクラスラベルの未知文書がどのクラスに属するのかを推定し、クラスラベル未知文書に推定クラスラベルを付与する推定手段と、を備えている。
また、前記特徴拡張手段は、前記クラスラベル付き文書データベースに格納されている全文書のうち、ある文書に含まれている分割されたある単語が出現する文書数と、あるクラスに属する全文書のうち、ある文書に含まれている分割されたある単語が出現する文書数との比を、前記単語とクラスとの関連性を表す関連性スコアとして求める。
本発明によれば、特徴拡張手段によって分割した各単語と各クラスとの関連性を求め、該関連性を拡張特徴表現付与手段によって各文書に対して、文書特徴表現として付与しているので、文書と全てのクラス各々との関連性を特徴とすることができ、これによってクラスが未知である文書の分類精度を向上することができる。
本発明の一実施形態例を示す構成図。 図1の特徴拡張部が行う処理のフローチャート。 図1の拡張特徴表現付与部が行う処理のフローチャート。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の一実施形態例による文書分類装置の構成を表している。
図1において、010は文書が属しているクラスのクラスラベルを格納したクラスラベル付き文書DB(データベース)、080はクラスラベルが未知である文書を格納したクラス未知文書DBである。
020は特徴拡張手段としての特徴拡張部であり、クラスラベル付き文書DB010に格納されたクラスラベル付き文書を入力とし、拡張特徴表現データを拡張特徴表現データDB030に出力する。
040は拡張特徴表現付与手段としての拡張特徴表現付与部であり、前記拡張特徴表現データDB030とクラスラベル付き文書DB010又はクラス未知文書DB080を入力とする。入力がクラスラベル付き文書DB010の場合、拡張特徴表現付きクラスラベル付き文書DB050を出力し、入力がクラス未知文書DB080の場合、拡張特徴表現付き文書DB090を出力する。
060は学習手段としての学習部であり、拡張特徴表現付きクラスラベル付き文書DB050を入力とし、クラス分類モデルDB070を出力とする。
100は推定手段としての推定部であり、拡張特徴表現付き文書DB090とクラス分類モデルDB070を入力とし、推定ラベル付き文書DB110を出力とする。
尚、本実施形態例では、特徴拡張部020、拡張特徴表現データDB030、拡張特徴表現付与部040、拡張特徴表現付きクラスラベル付き文書DB050、学習部060およびクラス分類モデルDB070によって、データ学習部を構成している。
図1に示す文書分類装置は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、文書分類装置は、図1に示すように、クラスラベル付き文書DB010、特徴拡張部020、拡張特徴表現データDB030、拡張特徴表現付与部040、拡張特徴表現付きクラスラベル付き文書DB050、学習部060、クラス分類モデルDB070、クラス未知文書DB080、拡張特徴表現付き文書DB090、推定部100および推定ラベル付き文書DB110を実装する。
前記クラスラベル付き文書DB010、拡張特徴表現データDB030、拡張特徴表現付きクラスラベル付き文書DB050、クラス分類モデルDB070、クラス未知文書DB080、拡張特徴表現付き文書DB090、および推定ラベル付き文書DB110は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
次に、上記のように構成された装置の各部を具体的に説明する。
特徴拡張部020は、複数の文書とその文書が属している複数のクラスのクラスラベルとが対応付けて格納されたクラスラベル付き文書DB010内の、前記文書を単語に分割し、その分割した単語とクラスラベルが示すクラスとの関連性を求め、分割した各単語と各クラスの組合せ毎の関連性を格納した拡張特徴表現データDB030を構築する。
クラスラベル付き文書DB010のデータ構造の例を表1に示す。
Figure 0006040138
クラスラベル付き文書DB010は、文書が属しているクラスのクラスラベルを格納したDBである。ここでクラスとは、例えばカテゴリといったように文書の内容などの特徴に基づいて決まる2つ以上の分類先候補である。各文書はいずれか1つのクラスに属する。文書を識別するために一意に付与された表現を文書IDとする。クラスを識別するために一意に付与された表現をクラスラベルとする。
ここでは、各クラスを数字で表したものをクラスラベルとした例を示す。クラスラベル付き文書DB010には、何らかの方法で予め属しているクラスが明らかになっている文書について、文書のテキストと属しているクラスのクラスラベルを対応付けて格納されている。
次に、拡張特徴表現データDB030のデータ構造の例を表2に示す。
Figure 0006040138
拡張特徴表現データDB030は、各単語と各クラスの組合せ毎に決まる拡張特徴表現を格納したDBである。特徴IDとは、各単語と各クラスの組み合わせを個々に識別するために付与されているIDである。ここで、単語とクラスの拡張特徴表現として、異なる式で算出される複数の関連性スコアを用いる場合、特徴IDは各単語と各クラスと関連性スコアの算出方法の種類によって一意に決まるものとして格納する。
ここでは、名詞と動詞のみの単語を扱う例を示したが、扱う単語の範囲はこれに限らない。クラスラベルは、クラスラベル付き文書DB010に格納されているクラスラベルと同一のものである。関連性スコアは、単語とクラスラベルの組み合わせによって一意に決まる数値である。
次に、特徴拡張部020の処理の流れを図2とともに説明する。
(ステップS1−1)
クラスラベル付き文書DB010から未処理のレコードを選択する。
(ステップS1−2)
当該レコードのテキストを単語に分割し、クラスラベルが示すクラスと単語との関連性を求め、拡張特徴表現データDB030に格納する。ここで、単語の分割に用いる手法は問わない。例えば非特許文献2に開示された手法を用いることができる。関連性スコアは、単語とクラスラベルが示すクラスとの関連の強さを表す数値である。ここでは、当該単語が出現する文書のうち、当該クラスに属する文書の割合を関連性とする場合の例を示す。計算方法を以下に示す。
n個のクラスC1…Cnがあり、ある文書dがクラスCiに属するとすると、文書dに含まれている単語w1,…,wmのうち、wjとCiの関連性を求める。クラスラベル付き文書DB010に格納されている全文書のうち、wjが出現する文書数はsi個である。またクラスCiに属する全文書のうち、wjが出現する文書数はtj個である。この時、関連性Score(wj,Ci)は以下の式(1)で求めることができる。
Score(wj,Ci)=tj/si…(1)
これは、事後分布P(Ci|wj)の値と等しい。
関連の強さを表す数値の他の例としては、
・当該単語が当該クラスに属する文書中に出現する回数。
・当該クラスに属する文書のうち、当該単語を含む文書の割合。これはP(wj|Ci)の値と等しい。
などが挙げられる。
関連の強さを表す数値はこれらに限らず、単語とクラスに属する文書群との結びつきを数値化したものであればよい。また、各単語と各クラスとの関連性スコアは1種類だけでなく複数種類を用いたり、複数の値を組み合わせた値を用いてもよく、各単語の関連性スコアの数がクラス数を超えても構わない。
(ステップS1−3)
クラスラベル付き文書DB010に未処理のレコードがある場合にはステップS1−1に戻る。そうでない場合には処理を終了する。
次に、拡張特徴表現付与部040は、クラスラベル付き文書DB010の各文書に対して、拡張特徴表現データDB030内の単語とクラスの関連性を文書特徴表現のデータとして付与し、拡張特徴表現付きクラスラベル付き文書DB050を構築し、クラスラベルが未知である文書が格納されたクラス未知文書DB080の各文書に対して、拡張特徴表現データDB030内の単語とクラスの関連性を文書特徴表現のデータとして付与し、拡張特徴表現付き文書DB090を構築する。
拡張特徴表現付きクラスラベル付き文書DB050のデータ構造の例を表3に示す。
Figure 0006040138
拡張特徴表現付きクラスラベル付き文書DB050は、クラスラベル付き文書DB010に格納されている各文書に対して、文書特徴表現を付与したものを格納している。文書IDとクラスラベルはクラスラベル付き文書DB010と同一である。文書特徴表現は、文書IDが示す文書の特徴を表している。ここでは、“特徴ID:関連性”の形式で書いた特徴を羅列したものとしているが、格納形式はこれに限らない。
クラス未知文書DB080のデータ構造の例を表4に示す。
Figure 0006040138
クラス未知文書DB080は、クラスを推定する文書を格納したDBである。文書を識別するために一意に付与された表現を文書IDとする。クラスラベルが未知である文書の文書IDとテキストを対応させて格納している。
拡張特徴表現付きDB090のデータ構造の例を表5に示す。
Figure 0006040138
拡張特徴表現付き文書DB090は、クラス未知文書DB080に格納されている各文書に対して、文書特徴表現を付与したものを格納している。文書IDはクラス未知文書DB080と同一である。文書特徴表現は、文書IDが示す文書の特徴を表している。ここでは“特徴ID:関連性”の形式で書いた特徴を羅列したものとしているが、格納形式はこれに限らない。
次に、拡張特徴表現付与部040の処理の流れを図3とともに説明する。
(ステップS2−1)
クラスラベル付き文書DB010又はクラス未知文書DB080から未処理のレコードを選択し、当該レコードのテキストをTとする。
(ステップS2−2)
当該選択されたレコードのテキストTを単語に分割する。ここで、単語の分割に用いる手法は問わない。例えば、非特許文献2に開示された手法を用いることができる。
(ステップS2−3)
テキストTから未処理の単語を選択し、wとする。
(ステップS2−4)
拡張特徴表現データDB030から、単語wのレコードの各ラベルの関連性を全て拡張特徴表現付きクラスラベル付き文書DB050又は拡張特徴表現付き文書DB090に出力する。拡張特徴表現データDB030から、単語wのレコード全ての特徴IDと関連性スコアを取り出す。
(ステップS2−5)
テキストTに未処理の単語がある場合にはステップS2−3に戻る。そうでない場合にはステップS2−6に進む。
(ステップS2−6)
テキストTの文書特徴表現を生成し、拡張特徴表現付きクラスラベル付き文書DB050又は拡張特徴表現付き文書DB090に格納する。ここでは、テキストTに含まれる各単語の各クラスにおける特徴IDと関連性スコアを“特徴ID:関連性スコア”の形でスペース区切りで羅列したものを文書特徴表現としている。
文書特徴表現の形式は、各単語と各クラスとの関連性が表されていればよく、この形式に限るものではない。関連性スコアそのものではなく、関連性スコアが表している各単語と各クラスの関連の強さを表す表現であればよい。例えば、ある単語と各クラス間の関連性スコアの差を羅列したものや、ある単語と各クラス間の関連性スコアのエントロピーを羅列したものなどがある。
これらの方法で生成した文書特徴表現を格納する。入力された文書がクラスラベル付き文書DB010から取り出した文書であれば拡張特徴表現付きクラスラベル付き文書DB050に格納する。入力された文書がクラス未知文書DB080から取り出した文書であれば拡張特徴表現付き文書DB090に格納する。
(ステップS2−7)
クラスラベル付き文書DB010又はクラス未知文書DB080に未処理のレコードがある場合、ステップS2−1に戻る。そうでない場合には処理を終了する。
次に、学習部060は、拡張特徴表現付きクラスラベル付き文書DB050の文書特徴表現およびクラスラベルのデータに基づいて学習を行って、クラス分類モデルDB070を生成する。
クラス分類モデルDB070の生成方法は、拡張特徴表現付きクラスラベル付き文書DB050が持つ文書特徴表現とクラスラベルに基づいて学習する方法であれば詳細を問わない。例えば、非特許文献3などの方法がある。
次に推定部100は、学習部060によって生成されたクラス分類モデルDB070を用いて、拡張特徴表現付き文書DB090内のクラスラベルの未知文書がどのクラスに属するのかを推定し、クラスラベル未知文書に推定クラスラベルを付与して推定ラベル付き文書DB110を構築する。
推定ラベル付き文書DB110のデータ構造の例を表6に示す。
Figure 0006040138
推定ラベル付き文書DB110は、クラス未知文書DB080に推定クラスラベルが付与されて格納されている。文書IDとテキストはクラス未知文書DB080と同一のものである。また、推定クラスラベルはクラスラベル付き文書DB010および拡張特徴表現付きクラスラベル付き文書DB050のクラスラベルと同一のものであることが望ましい。
推定部100は、拡張特徴表現付き文書DB090とクラス分類モデルDB070を用いて、クラス未知文書DB080の各文書がどのクラスに属するのかを推定し、その推定クラスラベルデータを格納する。推定方法は、非特許文献3の方法などを用いる。
上記のように本実施形態例によれば、特徴拡張部020を有することによって、文書が持つ特徴を、分類候補である全クラス各々と文書との関連性を表す特徴に拡張することができる。また、拡張特徴表現付与部040を有することによって、入力がクラスラベル付き文書の場合には、拡張特徴表現を用いたデータに変換した上で学習することができ、拡張特徴表現とクラスラベルを用いた学習とクラスラベルの推定が可能となる。
また、本実施形態の文書分類装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文書分類方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
010…クラスラベル付き文書DB
020…特徴拡張部
030…拡張特徴表現データDB
040…拡張特徴表現付与部
050…拡張特徴表現付きクラスラベル付き文書DB
060…学習部
070…クラス分類モデルDB
080…クラス未知文書DB
090…拡張特徴表現付き文書DB
100…推定部
110…推定ラベル付き文書DB

Claims (5)

  1. 複数の文書とその文書が属している複数のクラスのクラスラベルとが対応付けて格納されたクラスラベル付き文書データベース内の、前記文書を単語に分割し、その分割した単語と全クラス各々との関連性を求め、分割した各単語と各クラスの組合せ毎の関連性を格納した拡張特徴表現データベースを構築する特徴拡張手段と、
    前記クラスラベル付き文書データベースの各文書に対して、前記拡張特徴表現データベース内の単語とクラスの関連性を文書特徴表現のデータとして付与し、拡張特徴表現付きクラスラベル付き文書データベースを構築し、クラスラベルが未知である文書が格納されたクラス未知文書データベースの各文書に対して、前記拡張特徴表現データベース内の単語とクラスの関連性を文書特徴表現のデータとして付与し、拡張特徴表現付き文書データベースを構築する拡張特徴表現付与手段と、
    前記拡張特徴表現付きクラスラベル付き文書データベースの文書特徴表現およびクラスラベルのデータに基づいて学習を行って、クラス分類モデルを生成する学習手段と、
    前記学習手段によって生成されたクラス分類モデルを用いて、前記拡張特徴表現付き文書データベース内のクラスラベルの未知文書がどのクラスに属するのかを推定し、クラスラベル未知文書に推定クラスラベルを付与する推定手段と、
    を備えたことを特徴とする文書分類装置。
  2. 前記特徴拡張手段は、前記クラスラベル付き文書データベースに格納されている全文書のうち、ある文書に含まれている分割されたある単語が出現する文書数と、あるクラスに属する全文書のうち、ある文書に含まれている分割されたある単語が出現する文書数との比を、前記単語とクラスとの関連性を表す関連性スコアとして求めることを特徴とする請求項1に記載の文書分類装置。
  3. 特徴拡張手段が、複数の文書とその文書が属している複数のクラスのクラスラベルとが対応付けて格納されたクラスラベル付き文書データベース内の、前記文書を単語に分割し、その分割した単語と全クラス各々との関連性を求め、分割した各単語と各クラスの組合せ毎の関連性を格納した拡張特徴表現データベースを構築する特徴拡張ステップと、
    拡張特徴表現付与手段が、前記クラスラベル付き文書データベースの各文書に対して、前記拡張特徴表現データベース内の単語とクラスの関連性を文書特徴表現のデータとして付与し、拡張特徴表現付きクラスラベル付き文書データベースを構築し、クラスラベルが未知である文書が格納されたクラス未知文書データベースの各文書に対して、前記拡張特徴表現データベース内の単語とクラスの関連性を文書特徴表現のデータとして付与し、拡張特徴表現付き文書データベースを構築するステップと、
    学習手段が、前記拡張特徴表現付きクラスラベル付き文書データベースの文書特徴表現およびクラスラベルのデータに基づいて学習を行って、クラス分類モデルを生成するステップと、
    推定手段が、前記学習手段によって生成されたクラス分類モデルを用いて、前記拡張特徴表現付き文書データベース内のクラスラベルの未知文書がどのクラスに属するのかを推定し、クラスラベル未知文書に推定クラスラベルを付与するステップと、
    を備えたことを特徴とする文書分類方法。
  4. 前記特徴拡張ステップは、前記クラスラベル付き文書データベースに格納されている全文書のうち、ある文書に含まれている分割されたある単語が出現する文書数と、あるクラスに属する全文書のうち、ある文書に含まれている分割されたある単語が出現する文書数との比を、前記単語とクラスとの関連性を表す関連性スコアとして求めることを特徴とする請求項3に記載の文書分類方法。
  5. コンピュータを請求項1又は2に記載の各手段として機能させる文書分類プログラム。
JP2013216574A 2013-10-17 2013-10-17 文書分類装置、文書分類方法および文書分類プログラム Active JP6040138B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013216574A JP6040138B2 (ja) 2013-10-17 2013-10-17 文書分類装置、文書分類方法および文書分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013216574A JP6040138B2 (ja) 2013-10-17 2013-10-17 文書分類装置、文書分類方法および文書分類プログラム

Publications (2)

Publication Number Publication Date
JP2015079382A JP2015079382A (ja) 2015-04-23
JP6040138B2 true JP6040138B2 (ja) 2016-12-07

Family

ID=53010751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013216574A Active JP6040138B2 (ja) 2013-10-17 2013-10-17 文書分類装置、文書分類方法および文書分類プログラム

Country Status (1)

Country Link
JP (1) JP6040138B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6509718B2 (ja) * 2015-12-17 2019-05-08 日本電信電話株式会社 文書分類装置、文書分類方法、及び文書分類プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3488063B2 (ja) * 1997-12-04 2004-01-19 株式会社エヌ・ティ・ティ・データ 情報分類方法、装置及びシステム
JP5075566B2 (ja) * 2007-10-15 2012-11-21 株式会社東芝 文書分類装置およびプログラム
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JP2015079382A (ja) 2015-04-23

Similar Documents

Publication Publication Date Title
JP6231944B2 (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
US20170116203A1 (en) Method of automated discovery of topic relatedness
JP5626733B2 (ja) 個人情報匿名化装置及び方法
CN107391545B (zh) 一种对用户进行分类的方法、输入方法及装置
US10747955B2 (en) Learning device and learning method
KR102053635B1 (ko) 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
JP6642878B1 (ja) コンピュータ、構成方法、及びプログラム
US9286379B2 (en) Document quality measurement
US9830344B2 (en) Evaluation of nodes
TW201719569A (zh) 社交業務特徵用戶的識別方法和裝置
WO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
JP5542729B2 (ja) 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
JP6040138B2 (ja) 文書分類装置、文書分類方法および文書分類プログラム
JP5716966B2 (ja) データ分析装置、データ分析方法及びプログラム
CN103699522A (zh) 基于混合主题的文本标注方法及系统
JP2016126748A (ja) ラベル付与装置、方法およびプログラム
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP6942104B2 (ja) 判定装置、判定方法、および判定プログラム
JP6078491B2 (ja) 文書分類装置、文書分類方法、文書分類プログラム
WO2020044558A1 (ja) 分類規則生成プログラム、分類規則生成方法および分類規則生成装置
JP6743623B2 (ja) 情報処理装置及びプログラム
JP5824430B2 (ja) スパム特徴算出装置、スパム特徴算出方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161107

R150 Certificate of patent or registration of utility model

Ref document number: 6040138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150