JP5665683B2 - 重要度判定装置、重要度判定方法およびプログラム - Google Patents

重要度判定装置、重要度判定方法およびプログラム Download PDF

Info

Publication number
JP5665683B2
JP5665683B2 JP2011167222A JP2011167222A JP5665683B2 JP 5665683 B2 JP5665683 B2 JP 5665683B2 JP 2011167222 A JP2011167222 A JP 2011167222A JP 2011167222 A JP2011167222 A JP 2011167222A JP 5665683 B2 JP5665683 B2 JP 5665683B2
Authority
JP
Japan
Prior art keywords
data
category
importance
user
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011167222A
Other languages
English (en)
Other versions
JP2013030098A (ja
Inventor
清本 晋作
晋作 清本
三宅 優
優 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI R&D Laboratories Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2011167222A priority Critical patent/JP5665683B2/ja
Publication of JP2013030098A publication Critical patent/JP2013030098A/ja
Application granted granted Critical
Publication of JP5665683B2 publication Critical patent/JP5665683B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求する重要度判定装置、重要度判定方法およびプログラムに関する。
今日、インターネットなどのネットワークを介して重要なデータをやり取りする場面が増えてきている。特に、利用者の趣味嗜好などを考慮してサービスを提供するようなサイトにおいては、ユーザの個人情報・プライバシ情報を提供することもあり、情報漏洩によるプライバシ侵害が懸念される。また、位置情報サービスなどにおいても同様の脅威がある(例えば、非特許文献1参照。)。
RFC2616 Hypertext Transfer Protocol ―― HTTP/1.1
しかしながら、従来は、データの重要度を判定することはなく、データの送受信を行っており、利用者が客観的に自身が送信するデータの重要度を判定することができなかったという問題がある。一方、再帰的な学習を取り入れると、判定精度は向上するが、判定に使用するデータが増加してしまうという問題があった。
そこで、本発明は、上述の課題に鑑みてなされたものであり、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させる重要度判定装置、重要度判定方法およびプログラムを提供することを目的とする。
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
(1)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置であって、前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段(例えば、図2のデータ読込処理部202に相当)と、該受信後のデータを各利用者ごとに分類する分類手段と、該分類したデータについて、その重要度を判定できるように加工する加工手段と、該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段(例えば、図2の特徴ベクトル作成処理部611に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数1に示す演算式の値を求めて評価してデータの重要度を判定する判定手段(例えば、図2の評価ポイント算出処理部612に相当)と、を備えたことを特徴とする重要度判定装置を提案している。
この発明によれば、受信手段は、ユーザから送られてくるネットワークを流れるデータを受信する。分類手段は、受信後のデータを各利用者ごとに分類する。加工手段は、分類したデータについて、その重要度を判定できるように加工する。保存手段は、加工したデータを保存する。特徴ベクトル作成手段は、保存したデータから利用者ごとに特徴ベクトルを作成する。判定手段は、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数1に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(2)本発明は、(1)の重要度判定装置について、前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする重要度判定装置を提案している。
この発明によれば、加工手段が一方向性関数を用いて、データの加工を行う。したがって、一方向性関数を用いることにより、情報の漏えいを防止することができる。
(3)本発明は、(1)の重要度判定装置について、前記判定手段が、前記新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする重要度判定装置を提案している。
この発明によれば、判定手段が、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類する機能を用いることにより、文書間の類似度を適切に判定することができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(4)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数3の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類することを特徴とする重要度判定装置を提案している。
この発明によれば、カテゴリー分類手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数3の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(5)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段が、数4におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類することを特徴とする重要度判定装置を提案している。
この発明によれば、カテゴリー分類手段が、数4におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(6)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段は、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する演算手段と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定するカテゴリー判定手段と、を備えることを特徴とする重要度判定装置を提案している。
この発明によれば、カテゴリー分類手段の演算手段は、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算する。カテゴリー判定手段は、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(7)本発明は、(6)の重要度判定装置について、前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定することを特徴とする重要度判定装置を提案している。
この発明によれば、カテゴリー判定手段は、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定する。そのため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(8)本発明は、(6)の重要度判定装置について、前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記演算手段が求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定することを特徴とする重要度判定装置を提案している。
この発明によれば、カテゴリー判定手段は、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そのため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(9)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図6のステップS101に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図6のステップS102に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図6のステップS103に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図6のステップS104に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップ(例えば、図6のステップS105に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(10)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図8のステップS201に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図8のステップS202に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図8のステップS203に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図8のステップS204に相当)と、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数6の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第5のステップ(例えば、図8のステップS205に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数7に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図8のステップS206に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数6の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数7に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(11)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図10のステップS301に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図10のステップS302に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図10のステップS303に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図10のステップS304に相当)と、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップ(例えば、図10のステップS305に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数9に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図10のステップS306に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数9に示す演算式の値を求めて評価してデータの重要度を判定する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(12)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図12のステップS401に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図12のステップS402に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図12のステップS403に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図12のステップS404に相当)と、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップ(例えば、図12のステップS405に相当)と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップ(例えば、図12のステップS406に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップ(例えば、図12のステップS407に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップが求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップ(例えば、図12のステップS408に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類(例えば、図12のステップS409に相当)似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップと、を備えたことを特徴とする重要度判定方法を提案している。
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。次に、新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。そして、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが前記第5のステップが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(13)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図6のステップS101に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図6のステップS102に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図6のステップS103に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図6のステップS104に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップ(例えば、図6のステップS105に相当)と、をコンピュータに実行させるためのプログラムを提案している。
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(14)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図8のステップS201に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図8のステップS202に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図8のステップS203に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図8のステップS204に相当)と、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数12の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第5のステップ(例えば、図8のステップS205に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数13に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図8のステップS206に相当)と、をコンピュータに実行させるためのプログラムを提案している。
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数12の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数13に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(15)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図10のステップS301に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図10のステップS302に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図10のステップS303に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図10のステップS304に相当)と、数14におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップ(例えば、図10のステップS305に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数15に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図10のステップS306に相当)と、をコンピュータに実行させるためのプログラムを提案している。
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、数14におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数15に示す演算式の値を求めて評価してデータの重要度を判定する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
(16)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図12のステップS401に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図12のステップS402に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図12のステップS403に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図12のステップS404に相当)と、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップ(例えば、図12のステップS405に相当)と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップ(例えば、図12のステップS406に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップ(例えば、図12のステップS407に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップが求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップ(例えば、図12のステップS408に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップ(例えば、図12のステップS409に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。次に、新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。そして、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが第5のステップが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
本発明によれば、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求することにより、プライバシ情報を可視化して、ユーザに注意を喚起することができるという効果がある。また、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができるという効果がある。
本発明の第1の実施形態に係る重要度判定装置の概念図である。 本発明の第1の実施形態に係る重要度判定装置の構成を示す図である。 本発明の第1の実施形態に係る重要度判定装置における特徴ベクトルの圧縮に関する図である。 本発明の第1の実施形態に係る重要度判定装置におけるデータの抽象化に関する図である。 本発明の第1の実施形態に係る重要度判定装置におけるカテゴリーの分類に関する概念図である。 本発明の第1の実施形態に係る重要度判定装置の処理を示す図である。 本発明の第2の実施形態に係る重要度判定装置の構成を示す図である。 本発明の第2の実施形態に係る重要度判定装置の処理を示す図である。 本発明の第3の実施形態に係る重要度判定装置の構成を示す図である。 本発明の第3の実施形態に係る重要度判定装置の処理を示す図である。 本発明の第4の実施形態に係る重要度判定装置の構成を示す図である。 本発明の第4の実施形態に係る重要度判定装置の処理を示す図である。
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
<第1の実施形態>
図1から図6を用いて、本発明の第1の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、図1に示すように、クライアントモジュール101〜105とサービス提供サーバ300との間に配置され、データを送受信するクライアントモジュール101とデータを送受信する他のクライアントモジュール102〜105からデータの重要度を判定するためのデータを受信して、利用者ごとに特徴ベクトルを作成し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を演算式により、数値化し、評価してデータの重要度を判定するものである。つまり、クライアントモジュール101は、データを収集し、解析し、評価する機能を有する。
<重要度判定装置の構成>
図2を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図2に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部612とから構成されている。
制御部201は、予め格納された制御プログラムによって、重要度判定装置200の全体を制御する。特に、データを送受信するクライアント101とデータを送受信する他のクライアント102〜105からデータの重要度を判定するためのデータを受信して、利用者ごとに特徴ベクトルを作成し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を演算式により、数値化し、評価してデータの重要度を判定して、クライアント101に通知する。
データ読込処理部202は、通信モジュールドライバ204からネットワークを流れるデータを取得する。データ出力処理部203は、通信ネットワークドライバ204を利用して判定結果を通知する。
特徴ベクトル作成処理部611は、ユーザの通信データから特徴ベクトルを生成する。なお、生成した特徴ベクトルは、図示しない格納部に格納しておく。つまり、図3に示すように、ユーザの通信データからベクトル抽出アルゴリズムを用いて、特徴ベクトルを抽出し、時系列的に、古い特徴ベクトルについては、ベクトル圧縮アルゴリズムを用いて、圧縮して保存する。また、時間的にかなり経過したものについては、再圧縮を行ってもよい。このように、時系列的に、古い特徴ベクトルを圧縮して格納することにより、データサイズを削減して、保存するデータのサイズを有限長にすることができる。
評価ポイント算出処理部612は、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類し、分類後にデータXと作成され格納されている特徴ベクトルYとの類似度を数1に示す演算式により、数値化する。
Figure 0005665683
具体的には、類似度の評価値は、格納されている特徴ベクトルYと、新たに送られてくるデータXとの類似度を数値化するものである。本実施形態においては、類似度を数1に示すJaccard係数で数値化する例について説明する。
ここで、Jaccard係数とは、複数の文書がどのぐらい似ているかを表す指標として用いられるものである。図5は、類似度を利用してどのように文書分類を行うかについて示したものである。まず、図5(a)のように、カテゴリーとそれを構成する訓練文書があるとする。ここでは、文書の一例であるメールが到着するたびに、情報を更新するという逐次更新を採用しているため、訓練文書は、単に、過去のメール全てである。次に、図5(b)のように、新規文書が到着すると訓練文書の中で最も類似度が大きい文書を探し出す。ここで、用いる最短距離法は、類似度が大きいほど距離は小さくなっていることを前提とするものである。この最短距離法では、新規文書の所属するカテゴリーは、その訓練文書が所属するカテゴリーと判定される。こうして、新規文書が到着するたび訓練文書は更新され、カテゴリーの領域は、図5(c)に示すように変動する。
木構造データ管理部216は、事前入力された木構造データを変換し、ソフトウェアが利用可能な形式で格納する。また、属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である。例えば、図4にように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。数値データに関しては、一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。木構造データ管理部216は、図4に示すような木構造データを管理する。
ユーザ設定パラメータ管理部217は、管理者が設定情報として入力した各パラメータやファイルを一括管理する。データ圧縮処理部205は、受信したデータに対して、圧縮処理を行う。また、一定期間の通信路を流れたデータを格納し保管するとともに、データの圧縮を定期的に行う。具体的には、一定期間経過したデータについては、複数のデータをマージしてもっとも特徴的な特徴量のみを残して圧縮する。これにより、圧縮して格納することにデータサイズを削減し、保存するデータのサイズが有限長になるようにする。
<重要度判定装置の処理>
図6を用いて、本実施形態に係る重要度判定装置の処理について説明する。
まず、事前処理として、不要データの削除、データの抽象化、データの圧縮を行う。
受信したデータは、サービスごとにグループ化して処理される。したがって、以下の処理は、グループごとの処理となる。まず、判定に使用しない不要データ部分を削除する。例えば、プログラムが参照しないフィールドなどを削減する。また、設定により秘匿度の高いデータと定義されたデータについては、置き換えを行う。この場合に置き換えにはハッシュ関数の出力値を使用する。
次に、設定にしたがってデータを抽象化する。数値データについては、末尾の桁から順に削除するなどしてデータを変換する。属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である、例えば、図6のように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。そして、この木構造にしたがってデータを抽象化する。数値データに関しては一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。
さらに、データを辞書データを用いて圧縮する。まず、格納されているデータの中から頻出度の高いデータを抽出する。そして、そのデータをある記号列で置き換えることにより圧縮する。圧縮したデータ、記号列は、辞書データに登録し、新たなデータがそのデータを含む場合、記号列で置き換えるようにする。本機能は、独立したモジュールとしバッチ処理により定期的に辞書データをメンテナンスし、可能な限り圧縮度の高いデータとする。
また、データはある時間間隔ごとに分割して格納される。そして、一定時間経過したデータについては自動的に削除する。
本実施形態に係る重要度判定装置は、ユーザがネットワークに送信するデータを受信し(ステップS101)、受信後のデータを各利用者ごとに分類する(ステップS102)。
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS103)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS104)。
そして、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS105)。
Figure 0005665683
以上、説明したように、本実施形態によれば、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定するため、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
<第2の実施形態>
図7および図8を用いて、本発明の第2の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、所定の演算式の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類することにより、重要度の判定精度を向上させるものである。
<重要度判定装置の構成>
図7を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図7に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部613とから構成されている。図7に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
評価ポイント算出処理部613は、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、所定の数3の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類し、分類したデータ 1 と作成され格納されている特徴ベクトルYとの類似度を数4に示す演算式により、数値化する。
つまり、新規文書が到着するたびに語彙は増加していくが、過去に到着した文書中には存在していなかった語(以下では新規語と呼ぶことにする。)の取扱いは一般に困難である。なぜならば、新規語はどのようなカテゴリーに出現しやすいのかのデータがないため、その語が重要であるかどうかの判断が困難になるからである。
しかしながら、このように全文書を通じて新規に出現した語の取扱いは困難だが、あるカテゴリーにとっての新規語であれば取り扱いは可能である。ここででは「可能な限り新規語が出現しないようなカテゴリーを選択する。」ことによって文書分類の精度を上げることができるかを着眼点とする。ただし、新規語は既出語が増加するほど出現しにくくなる。そこで、以下の数3を最小にするようなカテゴリーを選択する手法が考えられる。ここで、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規メールとカテゴリーcに出現する語の全種類数をNとする。
Figure 0005665683
なお、メール数が増加すると、新規語出現数が非常に少なくなって判定が困難になるという恐れが生じるかもしれないが、おそらくその可能性はあまり高くない。というのは、カテゴリー間に十分違いがあれば、あるカテゴリーにとっての新規語は別のカテゴリーにとっては新規語でないということが多数起こるはずだからである。
Figure 0005665683
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS201)、受信後のデータを各利用者ごとに分類する(ステップS202)。
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS203)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS204)。
そして、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数5の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類し(ステップS205)、分類したデータ と作成した特徴ベクトルYとの類似度を数6に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS206)。
Figure 0005665683
Figure 0005665683
以上、説明したように、本実施形態によれば、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数5の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、分類されたデータ と作成した特徴ベクトルYとの類似度を数6に示す演算式の値を求めて評価してデータの重要度を判定するため、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
図9および図10を用いて、本発明の第3の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、数7におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類するにより、重要度の判定精度を向上させるものである。
Figure 0005665683
<重要度判定装置の構成>
図9を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図9に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部614とから構成されている。図9に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
評価ポイント算出処理部614は、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類し、分類したデータ と作成され格納されている特徴ベクトルYとの類似度を数9に示す演算式により、数値化する。
Figure 0005665683
Figure 0005665683
この方式は、第2の実施形態における方式を改良したものであり、カテゴリーcの補集合について計算することにより、精度を向上させるものである。
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS301)、受信後のデータを各利用者ごとに分類する(ステップS302)。
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS303)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS304)。
そして、数10におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類し(ステップS305)、分類したデータ と作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS306)。
Figure 0005665683
Figure 0005665683
以上、説明したように、本実施形態によれば、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
<第4の実施形態>
図11および図12を用いて、本発明の第4の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算する演算部と、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するカテゴリー判定部と、を備え、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定し、判定したカテゴリーに分類したデータX と作成した特徴ベクトルYとの類似度を所定の演算式の値を求めて評価してデータの重要度を判定するものである。
<重要度判定装置の構成>
図11を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図11に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部615とから構成されている。図9に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
評価ポイント算出処理部615は、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定し、判定したカテゴリーに分類したデータX と作成した特徴ベクトルYとの類似度を所定の演算式の値を求めて評価してデータの重要度を判定する。
ここで、本実施形態に用いられるアルゴリズムを簡単に説明する。
まず、新規文書の語彙の集合m、既存文書の語彙の集合m´、カテゴリーcに所属している既存文書の数Nに対し、J(c)を次の数12のように定義する。
Figure 0005665683
Figure 0005665683
そして、上記のアルゴリズムに基づき、各カテゴリーcに対して、数14、数15を計算し、あるカテゴリーcに対してのみ数16の関係にあり、他のカテゴリーに対しては不等号の向きが逆だった場合には、新規メールmはカテゴリーcに所属していると判定する。一方で、2つ以上のカテゴリーが※を満たしている場合、もしくは1つも満たせない場合には、新規メールmはカテゴリー数17に所属していると判定する。
Figure 0005665683
Figure 0005665683
Figure 0005665683
Figure 0005665683
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS401)、受信後のデータを各利用者ごとに分類する(ステップS402)。次に、分類したデータについて、その重要度を判定できるように加工し(ステップS403)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS404)。
さらに、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し(ステップS405)、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する(ステップS406)。
そして、ステップS406において、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定する(ステップS407)。
一方、ステップS406において、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXがステップS405で求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する(ステップS408)。
また、判定したカテゴリーに分類したデータX と作成した特徴ベクトルYとの類似度を数18に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS409)。
Figure 0005665683
以上、説明したように、本実施形態によれば、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
なお、重要度判定装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを重要度判定装置に読み込ませ、実行することによって本発明の重要度判定装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
101;クアントモジュール
102;クアントモジュール
103;クアントモジュール
104;クアントモジュール
105;クアントモジュール
200;重要度判定装置
201;制御部
202;データ読込処理部
203;データ出力処理部
204;通信モジュールドライバ
205;データ圧縮処理部
212;データ事前処理部
215;木構造データ管理部
216;ユーザ設定パラメータ管理部
300;サービス提供サーバ
610;データ特徴量抽出処理部
611;特徴ベクトル作成処理部
612;評価ポイント算出処理部
613;評価ポイント算出処理部
614;評価ポイント算出処理部
615;評価ポイント算出処理部

Claims (12)

  1. ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
    前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
    該受信後のデータを各利用者ごとに分類する分類手段と、
    分類したデータを保存する保存手段と、
    該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
    新たに送られてくるデータXと前記作成した特徴ベクトルYとからデータの重要度を判定する判定手段と、
    を備え
    前記判定手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類するカテゴリー分類手段を備え、分類したデータX と前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする重要度判定装置。
    Figure 0005665683
    Figure 0005665683
  2. ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
    前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
    該受信後のデータを各利用者ごとに分類する分類手段と、
    分類したデータを保存する保存手段と、
    該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
    新たに送られてくるデータXと前記作成した特徴ベクトルYとからデータの重要度を判定する判定手段と、
    を備え
    前記判定手段が、におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類するカテゴリー分類手段を備え、分類したデータX と前記作成した特徴ベクトルYとの類似度を数4に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする重要度判定装置。
    Figure 0005665683
    Figure 0005665683
  3. ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
    前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
    該受信後のデータを各利用者ごとに分類する分類手段と、
    分類したデータを保存する保存手段と、
    該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
    新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する演算手段と、
    前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定するカテゴリー判定手段と、
    前記判定したカテゴリーに分類したデータX と前記作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する判定手段と、
    を備えたことを特徴とする重要度判定装置。
    Figure 0005665683
  4. ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
    前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
    該受信後のデータを各利用者ごとに分類する分類手段と、
    分類したデータを保存する保存手段と、
    該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
    新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する演算手段と、
    前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記演算手段で求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するカテゴリー判定手段と、
    前記判定したカテゴリーに分類したデータX と前記作成した特徴ベクトルYとの類似度を数6に示す演算式の値を求めて評価してデータの重要度を判定する判定手段と、を備えたことを特徴とする重要度判定装置。
    Figure 0005665683
  5. ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
    前記ユーザがネットワークに送信するデータを受信する第1のステップと、
    該受信後のデータを各利用者ごとに分類する第2のステップと、
    分類したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第のステップと、
    新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する第のステップと、
    分類したデータX と前記作成した特徴ベクトルYとの類似度を数8に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップと、
    を備えたことを特徴とする重要度判定方法。
    Figure 0005665683
    Figure 0005665683
  6. ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
    前記ユーザがネットワークに送信するデータを受信する第1のステップと、
    該受信後のデータを各利用者ごとに分類する第2のステップと、
    分類したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第のステップと、
    におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第のステップと、
    分類したデータX と前記作成した特徴ベクトルYとの類似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップと、
    を備えたことを特徴とする重要度判定方法。
    Figure 0005665683
    Figure 0005665683
  7. ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
    前記ユーザがネットワークに送信するデータを受信する第1のステップと、
    該受信後のデータを各利用者ごとに分類する第2のステップと、
    分類したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第のステップと、
    前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第のステップと、
    前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第のステップと、
    前記判定したカテゴリーに分類したデータX と前記作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
    を備えたことを特徴とする重要度判定方法。
    Figure 0005665683
  8. ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
    前記ユーザがネットワークに送信するデータを受信する第1のステップと、
    該受信後のデータを各利用者ごとに分類する第2のステップと、
    分類したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第のステップと、
    前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第のステップと、
    前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第のステップで求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第のステップと、
    前記判定したカテゴリーに分類したデータX と前記作成した特徴ベクトルYとの類似度を数12に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
    を備えたことを特徴とする重要度判定方法。
    Figure 0005665683
  9. ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
    前記ユーザがネットワークに送信するデータを受信する第1のステップと、
    該受信後のデータを各利用者ごとに分類する第2のステップと、
    分類したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第のステップと、
    新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数13の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する第のステップと、
    分類したデータX と前記作成した特徴ベクトルYとの類似度を数14に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップと、
    をコンピュータに実行させるためのプログラム。
    Figure 0005665683
    Figure 0005665683
  10. ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
    前記ユーザがネットワークに送信するデータを受信する第1のステップと、
    該受信後のデータを各利用者ごとに分類する第2のステップと、
    分類したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第のステップと、
    15におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第のステップと、
    分類したデータX 10 と前記作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップと、
    をコンピュータに実行させるためのプログラム。
    Figure 0005665683
    Figure 0005665683
  11. ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
    前記ユーザがネットワークに送信するデータを受信する第1のステップと、
    該受信後のデータを各利用者ごとに分類する第2のステップと、
    分類したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第のステップと、
    前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第のステップと、
    前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第のステップと、
    前記判定したカテゴリーに分類したデータX 11 と前記作成した特徴ベクトルYとの類似度を数17に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
    をコンピュータに実行させるためのプログラム。
    Figure 0005665683
  12. ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
    前記ユーザがネットワークに送信するデータを受信する第1のステップと、
    該受信後のデータを各利用者ごとに分類する第2のステップと、
    分類したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第のステップと、
    前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第のステップと、
    前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第のステップで求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第のステップと、
    前記判定したカテゴリーに分類したデータX 12 と前記作成した特徴ベクトルYとの類似度を数18に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
    をコンピュータに実行させるためのプログラム。
    Figure 0005665683
JP2011167222A 2011-07-29 2011-07-29 重要度判定装置、重要度判定方法およびプログラム Expired - Fee Related JP5665683B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011167222A JP5665683B2 (ja) 2011-07-29 2011-07-29 重要度判定装置、重要度判定方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011167222A JP5665683B2 (ja) 2011-07-29 2011-07-29 重要度判定装置、重要度判定方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013030098A JP2013030098A (ja) 2013-02-07
JP5665683B2 true JP5665683B2 (ja) 2015-02-04

Family

ID=47787063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011167222A Expired - Fee Related JP5665683B2 (ja) 2011-07-29 2011-07-29 重要度判定装置、重要度判定方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5665683B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991092B (zh) * 2016-01-20 2021-11-05 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115756A (ja) * 1997-06-24 1999-01-22 Omron Corp 電子メール判別方法及び装置並びに記憶媒体
JPH1115848A (ja) * 1997-06-26 1999-01-22 Sharp Corp 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体
JP2003122676A (ja) * 2001-10-11 2003-04-25 Nippon Telegr & Teleph Corp <Ntt> メール送受信システム、モバイル端末及びメール送受信方法

Also Published As

Publication number Publication date
JP2013030098A (ja) 2013-02-07

Similar Documents

Publication Publication Date Title
CN112019569B (zh) 恶意域名检测方法、装置及存储介质
US11032304B2 (en) Ontology based persistent attack campaign detection
US9372901B2 (en) Searching for software applications based on application attributes
US11074310B2 (en) Content-based management of links to resources
US10204386B2 (en) Distance-based social message pruning
CN111597449B (zh) 用于搜索的候选词构建方法、装置、电子设备及可读介质
US12045843B2 (en) Systems and methods for tracking data shared with third parties using artificial intelligence-machine learning
US20130041962A1 (en) Information Filtering
US11507747B2 (en) Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
US20130103678A1 (en) Processing Search Queries Using A Data Structure
CN110147223B (zh) 组件库的生成方法、装置及设备
JP5757208B2 (ja) キーワード抽出システム、キーワード抽出方法及びプログラム
Fang et al. Fine-grained HTTP web traffic analysis based on large-scale mobile datasets
JPWO2014203402A1 (ja) 情報提供装置、情報提供方法及びプログラム
JP5665683B2 (ja) 重要度判定装置、重要度判定方法およびプログラム
KR20220054814A (ko) 시스템 보안 유지
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
JP5665685B2 (ja) 重要度判定装置、重要度判定方法およびプログラム
JP5649466B2 (ja) 重要度判定装置、重要度判定方法およびプログラム
KR20210000041A (ko) 로그 데이터의 실시간 분석 방법 및 그 장치
JP6274973B2 (ja) ユーザ特定装置、ユーザ特定方法、およびプログラム
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
CN104462492B (zh) 抓取问答类网页的方法和装置
JP2006228141A (ja) 情報推薦システム、管理装置、情報推薦方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140909

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141209

R150 Certificate of patent or registration of utility model

Ref document number: 5665683

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees