JP5665685B2 - 重要度判定装置、重要度判定方法およびプログラム - Google Patents

重要度判定装置、重要度判定方法およびプログラム Download PDF

Info

Publication number
JP5665685B2
JP5665685B2 JP2011172816A JP2011172816A JP5665685B2 JP 5665685 B2 JP5665685 B2 JP 5665685B2 JP 2011172816 A JP2011172816 A JP 2011172816A JP 2011172816 A JP2011172816 A JP 2011172816A JP 5665685 B2 JP5665685 B2 JP 5665685B2
Authority
JP
Japan
Prior art keywords
data
importance
similarity
received
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011172816A
Other languages
English (en)
Other versions
JP2013037519A (ja
Inventor
清本 晋作
晋作 清本
三宅 優
優 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2011172816A priority Critical patent/JP5665685B2/ja
Publication of JP2013037519A publication Critical patent/JP2013037519A/ja
Application granted granted Critical
Publication of JP5665685B2 publication Critical patent/JP5665685B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求する重要度判定装置、重要度判定方法およびプログラムに関する。
今日、インターネットなどのネットワークを介して重要なデータをやり取りする場面が増えてきている。特に、利用者の趣味嗜好などを考慮してサービスを提供するようなサイトにおいては、ユーザの個人情報・プライバシ情報を提供することもあり、情報漏洩によるプライバシ侵害が懸念される。また、位置情報サービスなどにおいても同様の脅威がある(例えば、非特許文献1参照。)。
RFC2616 Hypertext Transfer Protocol ―― HTTP/1.1
しかしながら、従来は、データの重要度を判定することはなく、データの送受信を行っており、利用者が客観的に自身が送信するデータの重要度を判定することができなかったという問題がある。また、再帰的な学習を取り入れると、判定精度は向上するが、判定に使用するデータも増加してしまうという問題があった。
そこで、本発明は、上述の課題に鑑みてなされたものであり、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、データを圧縮することにより判定精度を維持しつつ、処理時間を短縮する重要度判定装置、重要度判定方法およびプログラムを提供することを目的とする。
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
(1)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置であって、データを送受信する自己のクライアントモジュールとデータを送受信する他のクライアントモジュールからデータ重要度を判定するためのデータを受信する受信手段(例えば、図2のデータ読込処理部202に相当)と、該受信したデータに対して、圧縮処理を行う圧縮処理手段(例えば、図2のデータ圧縮処理部205に相当)と、該圧縮処理後のデータをサービスごとに分類する分類手段と、該分類したデータについて、その重要度を判定できるように加工する加工手段と、該加工したデータを保存する保存手段(例えば、図2のデータ特徴量抽出処理部210に相当)と、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する判定手段と、を備えたことを特徴とする重要度判定装置を提案している。
この発明によれば、受信手段は、データを送受信する自己のクライアントモジュールとデータを送受信する他のクライアントモジュールからデータの重要度を判定するためのデータを受信する。圧縮処理手段は、受信したデータに対して、圧縮処理を行う。分類手段は、圧縮処理後のデータをサービスごとに分類する。加工手段は、分類したデータについて、その重要度を判定できるように加工する。保存手段は、加工したデータを保存する。判定手段は、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する。したがって、ネットワーク上を流れる他のユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
(2)本発明は、(1)の重要度判定装置について、前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする重要度判定装置を提案している。
この発明によれば、加工手段が一方向性関数を用いて、データの加工を行う。したがって、一方向性関数を用いることにより、情報の漏えいを防止することができる。
(3)本発明は、(1)の重要度判定装置について、前記判定手段が、匿名性を評価することによりデータの重要度を判定することを特徴とする重要度判定装置を提案している。
この発明によれば、判定手段が、匿名性を評価することによりデータの重要度を判定する。したがって、たとえば、k−匿名性やl−多様性を評価することにより、情報の重要度を自動的に判別することができる。
(4)本発明は、(1)の重要度判定装置について、前記判定手段が、データ内の属性の種類に関する評価値によりデータの重要度を判定することを特徴とする重要度判定装置を提案している。
この発明によれば、判定手段が、データ内の属性の種類に関する評価値によりデータの重要度を判定する。したがって、評価値を、評価値={(重み付け値)×(自己のデータを含む属性値の数−自己のデータを含まない属性値の数)}の数式で算出することにより、属性値の変化を定量化して、データの重要度を自動的に判別することができる。
(5)本発明は、(1)の重要度判定装置について、前記判定手段が、データ量の差分に関する評価値によりデータの重要度を判定することを特徴とする重要度判定装置を提案している。
この発明によれば、判定手段が、データ量の差分に関する評価値によりデータの重要度を判定する。したがって、評価値を、評価値={(重み付け値)×(データの総数)/(自己のデータを含む同じ属性を持つデータの数)}の数式で算出することにより、データの重要度を自動的に判別することができる。
(6)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置であって、前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段(例えば、図11のデータ読込処理部202に相当)と、該受信したデータに対して、圧縮処理を行う圧縮処理手段(例えば、図11のデータ圧縮処理部205に相当)と、該圧縮処理後のデータを各利用者ごとに分類する分類手段と、該分類したデータについて、その重要度を判定できるように加工する加工手段と、該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段(例えば、図11の特徴ベクトル作成処理部611に相当)と、新たに送られてくるデータと前記作成した特徴ベクトルとの類似度を評価してデータの重要度を判定する判定手段(例えば、図11のデータ特徴量抽出処理部610に相当)と、を備えたことを特徴とする重要度判定装置を提案している。
この発明によれば、受信手段は、ユーザから送られてくるネットワークを流れるデータを受信する。圧縮処理手段は、受信したデータに対して、圧縮処理を行う。分類手段は、圧縮処理後のデータを各利用者ごとに分類する。加工手段は、分類したデータについて、その重要度を判定できるように加工する。保存手段は、加工したデータを保存する。特徴ベクトル作成手段は、保存したデータから利用者ごとに特徴ベクトルを作成する。判定手段は、新たに送られてくるデータと作成した特徴ベクトルとの類似度を評価してデータの重要度を判定する。したがって、ネットワーク上を流れるユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。
(7)本発明は、(6)の重要度判定装置について、前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする重要度判定装置を提案している。
この発明によれば、加工手段が一方向性関数を用いて、データの加工を行う。したがって、一方向性関数を用いることにより、情報の漏えいを防止することができる。
(8)本発明は、(6)の重要度判定装置について、前記判定手段が、データの類似度を前記特徴ベクトル間の相関性により評価することを特徴とする重要度判定装置を提案している。
この発明によれば、判定手段が、データの類似度を前記特徴ベクトル間の相関性により評価する。したがって、保存されている特徴ベクトルと受信データとの類似度を数値化して相関性を評価することによって、情報の重要度を自動的に判別することができる。
(9)本発明は、(6)の重要度判定装置について、前記特徴ベクトルには、個々に重み係数が設定されていることを特徴とする重要度判定装置を提案している。
この発明によれば、特徴ベクトルには、個々に重み係数が設定されている。したがって、重要度が高い特徴ベクトルについては、重み係数を大きくすることにより、的確に、情報の重要度を自動的に判別することができる。
(10)本発明は、(1)から(9)の重要度判定装置について、前記圧縮処理手段が、前記受信手段が受信したデータから特定のワードを抽出するデータ解析手段(例えば、図3のデータ解析処理部2051に相当)と、該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する類似度判定手段(例えば、図3の類似性判定部2052に相当)と、該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するデータ圧縮手段(例えば、図3のデータ圧縮部2053に相当)と、を備えることを特徴とする重要度判定装置を提案している。
この発明によれば、データ解析手段は、受信したデータから特定のワードを抽出する。類似度判定手段は、抽出されたワードから受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する。データ圧縮手段は、判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮する。したがって、特定のワードに基づいて、カテゴリーを特定し、同一のカテゴリーに属するデータについて、最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するため、判定精度を低下させることなく、処理速度を向上させることができる。
(11)本発明は、(10)の重要度判定装置について、前記類似度判定手段が、データXとデータYに対して、数1に示す演算式の値を求めて、類似度を判定することを特徴とする重要度判定装置を提案している。
この発明によれば、類似度判定手段が、データXとデータYに対して、数1に示す演算式の値を求めて、類似度を判定する。ここで、数1に示すJaccard係数は二つの集合の共起の度合い、つまりどのくらい似ているかを表す指標であるため、これを用いることにより、2つのデータの類似度を簡易に数値化することができる。
(12)本発明は、(10)の重要度判定装置について、前記データ圧縮手段は、データの単語数が所定数よりも大きい場合に、数2により、各単語の重要度を算出し、重要度の低いものから単語を削除することを特徴とする重要度判定装置を提案している。
この発明によれば、データ圧縮手段は、データの単語数が所定数よりも大きい場合に、数2により、各単語の重要度を算出し、重要度の低いものから単語を削除する。したがって、重要度の低い単語から削除を行い、データを圧縮することから、判定精度を低下させることなく、処理速度を向上させることができる。
(13)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定方法であって、通信路を流れるデータを取得する第1のステップ(例えば、図7のステップS101に相当)と、該取得したデータに対して、圧縮処理を行う第2のステップ(例えば、図7のステップS102に相当)と、該圧縮処理後のデータを前処理により重要度の判定ができるように変換する第3のステップ(例えば、図7のステップS103に相当)と、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する第4のステップ(例えば、図7のステップS104に相当)と、該判定結果をユーザに送信する第5のステップ(例えば、図7のステップS105に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
この発明によれば、通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により重要度の判定ができるように変換し、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する。そして、判定結果をユーザに送信する。したがって、ネットワーク上を流れる他のユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
(14)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定方法であって、通信路を流れるデータを取得する第1のステップ(例えば、図9のステップS201に相当)と、該取得したデータに対して、圧縮処理を行う第2のステップ(例えば、図9のステップS202に相当)と、該圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換する第3のステップ(例えば、図9のステップS203に相当)と、各利用者のデータ特徴量を抽出して特徴ベクトルを生成する第4のステップ(例えば、図9のステップS204に相当)と、新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する第5のステップ(例えば、図9のステップS205に相当)と、該判定結果をユーザに送信する第6のステップ(例えば、図9のステップS206に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
この発明によれば、通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換し、各利用者のデータ特徴量を抽出して特徴ベクトルを生成して、新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する。そして、判定結果をユーザに送信する。したがって、ネットワーク上を流れるユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。
(15)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定方法をコンピュータに実行させるためのプログラムであって、通信路を流れるデータを取得する第1のステップ(例えば、図7のステップS101に相当)と、該取得したデータに対して、圧縮処理を行う第2のステップ(例えば、図7のステップS102に相当)と、該圧縮処理後のデータを前処理により重要度の判定ができるように変換する第3のステップ(例えば、図7のステップS103に相当)と、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する第4のステップ(例えば、図7のステップS104に相当)と、該判定結果をユーザに送信する第5のステップ(例えば、図7のステップS105に相当)と、をコンピュータに実行させるためのプログラムを提案している。
この発明によれば、通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により重要度の判定ができるように変換し、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する。そして、判定結果をユーザに送信する。したがって、ネットワーク上を流れる他のユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
(16)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定方法をコンピュータに実行させるためのプログラムであって、
通信路を流れるデータを取得する第1のステップ(例えば、図9のステップS201に相当)と、該取得したデータに対して、圧縮処理を行う第2のステップ(例えば、図9のステップS202に相当)と、該圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換する第3のステップ(例えば、図9のステップS203に相当)と、各利用者のデータ特徴量を抽出して特徴ベクトルを生成する第4のステップ(例えば、図9のステップS204に相当)と、新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する第5のステップ(例えば、図9のステップS205に相当)と、該判定結果をユーザに送信する第6のステップ(例えば、図9のステップS206に相当)と、をコンピュータに実行させるためのプログラムを提案している。
この発明によれば、通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換し、各利用者のデータ特徴量を抽出して特徴ベクトルを生成して、新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する。そして、判定結果をユーザに送信する。したがって、ネットワーク上を流れるユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
本発明によれば、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求することにより、プライバシ情報を可視化して、ユーザに注意を喚起することができるという効果がある。また、データを圧縮することにより判定精度を維持しつつ、処理時間を短縮することができるという効果がある。
本発明の第1の実施形態に係る重要度判定装置の概念図である。 本発明の第1の実施形態に係る重要度判定装置の構成を示す図である。 本発明の第1の実施形態に係る重要度判定装置のデータ圧縮部の構成を示す図である。 本発明の第1の実施形態に係る重要度判定装置のデータ圧縮部におけるデータの統合処理を示す図である。 本発明の第1の実施形態に係る重要度判定装置のデータ圧縮部におけるデータ内の単語の削除に関する処理を示す図である。 本発明の第1の実施形態に係る重要度判定装置におけるデータの抽象化に関する図である。 本発明の第1の実施形態に係る重要度判定装置の処理を示す図である。 本発明の第2の実施形態に係る重要度判定装置の構成を示す図である。 本発明の第2の実施形態に係る重要度判定装置の処理を示す図である。 本発明の第3の実施形態に係る重要度判定装置の概念図である。 本発明の第3の実施形態に係る重要度判定装置の構成を示す図である。 本発明の第3の実施形態に係る重要度判定装置における特徴ベクトルの圧縮に関する図である。 本発明の第3の実施形態に係る重要度判定装置の処理を示す図である。
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
<第1の実施形態>
図1から図7を用いて、本発明の第1の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、図1に示すように、クライアントモジュール101〜105とサービス提供サーバ300との間に配置され、データを送受信するクライアントモジュール101とデータを送受信する他のクライアントモジュール102〜105からデータの重要度を判定するためのデータを受信して、k−匿名性やl−多様性等の匿名性判定を行って、データを解析することにより、クライアントモジュール101からのデータの重要度を判別して、クライアント101モジュールに通知するものである。つまり、クライアントモジュール101は、データを収集し、解析する機能を有する。具体的には、データ収集機能を各ユーザの端末にインストールし、収集したデータをデータ解析機能に送付する。データ解析機能では、送られてきたデータをまとめて解析し、結果を各データ収集機能に返す。
<重要度判定装置の構成>
図2を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図2に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部210と、l−多様性判定モジュール213と、k−匿名性判定モジュール214と、木構造データ管理部216と、ユーザ設定パラメータ管理部217とから構成されている。また、データ特徴量抽出処理部210は、k−匿名性、l−多様性判定処理部211と、データ事前処理部212とから構成されている。
制御部201は、予め格納された制御プログラムによって、重要度判定装置200の全体を制御する。特に、データを送受信するクライアント101とデータを送受信する他のクライアント102〜105からデータの重要度を判定するためのデータを受信して、k−匿名性やl−多様性等の匿名性判定を行って、データを解析することにより、クライアント101からのデータの重要度を判別して、クライアント101に通知する。
データ読込処理部202は、通信モジュールドライバ204からネットワークを流れるデータを取得する。データ出力処理部203は、通信ネットワークドライバ204を利用して判定結果を通知する。
l−多様性判定モジュール213は、入力されたデータセットがl−多様性を満たすかどうか判定し、満たす場合はデータを匿名データセット出力に受け渡す。なお、l−多様性の判定処理は独立したモジュールとし、他の評価基準も追加可能とする。また、l=1に設定された場合には、l−多様性の判定処理をスキップすることで無駄な処理を行わないようにする。l−多様性は、sensitive attributeに対して実行する。
k−匿名性判定モジュール214は、入力されたデータセットがk−匿名性を満たすかどうか判定し、満たす場合はデータを匿名データセット出力に受け渡す。なお、k−匿名性の判定処理は独立したモジュールとし、他の評価基準も追加可能とする。また、k−匿名性の判定は、個別の属性および準識別子全体に対して実行する。
具体的には、ユーザ設定パラメータ管理部217に格納されたパラメータにしたがって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。具体的には、各属性の重み付けは、利用者の入力により行われる。重み付けは、属性の優先順位を表わし、利用者が最も重視する属性を最上位とする。また、加工処理においては、優先順位が最下位の属性から順に加工処理を行い、k−匿名性を満たした段階で終了する。したがって、最上位の属性ほど元の情報が保持される確率が高くなる。また、これにより、直接的には、ユーザとの関連性の低い複数の情報を組合せることによりユーザを特定することも防止することにより、データ利用者が求める情報を可能な限り保持することができる。利用者は、GUI(Graphical User Interface)等を利用して各属性に対して優先順位を入力する。利用者は、各優先順位に対して、重み付けポイント(数値)を設定する。この値は、加工処理を行う属性を選択する際に使用する。
つまり、設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。具体的には、評価ポイントは、以下の数式を用いて、算出される。
評価ポイント=(属性値の数)*(重み付けポイント)
ここで、(属性値の数)とは、その属性が持つ属性値の種類の数を表す。ボトムアップ処理においては、一般化によって、この評価ポイントの減少が最小になる属性を一般化を行う属性として選択する。また、トップダウン処理においては、この値の増加が最大になる属性を一般化を行う属性として選択する。
k−匿名性、l−多様性判定処理部211は、それぞれの属性単体を単体でk−匿名性を満たすように一般化する。また、属性によってユーザが一般化の限界レベルを設定しているものについては、それを超えて一般化はしない。さらに、生成したデータがk−匿名性を満たさなければ、各属性を1レベルだけ一般化して再度チェックを行う。この場合も、ユーザが設定した限界レベルを超えて一般化はせず、他の属性を一般化することで、k―匿名性を達成する。
一般化に用いられるトップダウン処理は、算出した評価ポイントの増加分が最大となるようなデータ加工方法により、データの加工を行う。また、ボトムアップ処理は、算出した評価ポイントの減少分が最小となるようなデータ加工方法により、データの加工を行う。
木構造データ管理部216は、事前入力された木構造データを変換し、ソフトウェアが利用可能な形式で格納する。また、属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である。例えば、図6にように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。数値データに関しては、一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。木構造データ管理部216は、図6に示すような木構造データを管理する。
ユーザ設定パラメータ管理部217は、管理者が設定情報として入力した各パラメータやファイルを一括管理する。データ圧縮処理部205は、受信したデータに対して、圧縮処理を行う。なお、詳細については、後述する。また、一定期間の通信路を流れたデータを格納し保管するとともに、データの圧縮を定期的に行う。具体的には、一定期間経過したデータについては、複数のデータをマージしてもっとも特徴的な特徴量のみを残して圧縮する。これにより、圧縮して格納することにデータサイズを削減し、保存するデータのサイズが有限長になるようにする。
例えば、データが到着し続けると、直前までのデータを記録しておくファイルのサイズも増加していくことになるが、判定アルゴリズムを実際に利用することを考えた場合、ファイルサイズに上限値を設けたほうがよい。そこで、本発明においては、データ圧縮処理部205は、誤判定率が低く、かつ、処理時間の短い圧縮処理を行う。
具体的には、データ圧縮処理部205は、図3に示すように、データ読込処理部202が受信したデータから特定のワードを抽出するデータ解析処理部2051と、抽出されたワードから受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する類似度判定部2052と、判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するデータ圧縮部2053とから構成されている。
類似度判定部2051は、データXとデータYに対して、数1に示す演算式の値を求めて、類似度を判定する。
Figure 0005665685
データ圧縮部2053は、データの単語数が所定数よりも大きい場合に、数2により、各単語の重要度を算出し、重要度の低いものから単語を削除する。
Figure 0005665685
つまり、圧縮処理は大きく分けて、データの統合と、1つのデータに所属する単語の削除の2つの処理からなる。なお、ここでは、メールデータを例にとって説明する。まず、メールデータの統合は以下のように行う。図4左に示すように、最初にメールデータ1、2、3があったとする。メールデータ1には単語1と単語2が1つずつ含まれている。また、メールデータ3には単語1が4つ、単語2が1つ、単語3が3つ含まれている。したがって、両者のJaccard係数は2/3となり、全てのメールの組み合わせの中で最もJaccard係数が高い。そこで、両者を統合し、メール1´とする。次に、図4右に示すように、統合後の単語1の単語数は、統合前の単語数を合わせ、5となり、単語2と3についても同様になる。
メールデータ統合後、単語削除アルゴリズムを実行する。ここで、単語数の上限を2とすると、図5左に示すように、メール1´の単語数は3であるから上限を超えている。そこで、メール1´から非重要語を抽出し、削除して、図5右に示すように、メール1´´とする。
また、単語削除アルゴリズムで用いる、非重要語抽出アルゴリズムは、数2のような、TF・IDFに類似した指標(重要度)を用いて構成する。ここで、数2に示す値が大きいほどその単語は重要度が高いと判定される。例えば、図5左に示すように、メール1´の単語1、2、3の重要度はそれぞれ5/(log(2)、2/(log(2)、3/(log(3)となり、単語3が最も重要度が低いと判定される。
<重要度判定装置の処理>
図7を用いて、本実施形態に係る重要度判定装置の処理について説明する。
まず、事前処理として、不要データの削除、データの抽象化、データの圧縮を行う。
受信したデータは、サービスごとにグループ化して処理される。したがって、以下の処理は、グループごとの処理となる。まず、判定に使用しない不要データ部分を削除する。例えば、プログラムが参照しないフィールドなどを削減する。また、設定により秘匿度の高いデータと定義されたデータについては、置き換えを行う。この場合に置き換えにはハッシュ関数の出力値を使用する。
次に、設定にしたがってデータを抽象化する。数値データについては、末尾の桁から順に削除するなどしてデータを変換する。属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である、例えば、図6のように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。そして、この木構造にしたがってデータを抽象化する。数値データに関しては一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。
さらに、データを辞書データを用いて圧縮する。まず、格納されているデータの中から頻出度の高いデータを抽出する。そして、そのデータをある記号列で置き換えることにより圧縮する。圧縮したデータ、記号列は、辞書データに登録し、新たなデータがそのデータを含む場合、記号列で置き換えるようにする。本機能は、独立したモジュールとしバッチ処理により定期的に辞書データをメンテナンスし、可能な限り圧縮度の高いデータとする。
また、データはある時間間隔ごとに分割して格納される。そして、一定時間経過したデータについては自動的に削除する。
本実施形態に係る重要度判定装置は、通信路を流れるデータを取得し(ステップS101)、取得したデータを圧縮処理する(ステップS102)。具体的には、既存メールデータ数が所定値nを超えたら圧縮を開始し、同じカテゴリに属するメールデータ同士でJaccard係数を計算し、最大のJaccard係数を与えるメールデータペアを探索する。そして、メールデータを統合して、各メールデータについて、単語数が任意の値w(wは最初に与えておく。)を超えていたら、重要度を計算し重要度が低い単語から削除する。
次に、データを前処理により重要度の判定ができるように変換し(ステップS103)、そして、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定し(ステップS104)、判定結果をユーザに送信する(ステップS105)。
以上、説明したように、本実施形態によれば、ネットワーク上を流れる他のユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
<第2の実施形態>
図8および図9を用いて、本発明の第2の実施形態に係る重要度判定装置について説明する。
<重要度判定装置の構成>
図8を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図8に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部410と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部410は、データ事前処理部212と、評価ポイント算出処理部401とから構成されている。なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
評価ポイント算出処理部401は、属性の種類に着目した評価ポイントを算出する。具体的には、以下の演算式に基づいて、評価ポイントを算出する。評価値={(重み付け値)×(自己のデータを含む属性値の数−自己のデータを含まない属性値の数)}ここで、属性値の数とは、その属性が持つ属性値の種類の数を表す。あるデータの評価ポイントは、すべての属性について上記評価ポイントの合計となる。
また、データ数の差分に着目した評価ポイントを以下の演算式で算出してもよい。評価値={(重み付け値)×(データの総数)/(自己のデータを含む同じ属性を持つデータの数)}ここで、あるデータの評価ポイントは、すべての属性について上記評価ポイントの合計をデータ数で割った値となる。
<重要度判定装置の処理>
まず、通信路を流れるデータを取得し(ステップS201)、取得したデータを圧縮処理する(ステップS202)。次に、データを前処理により重要度の判定ができるように変換する(ステップS203)。
そして、データ内の属性の種類に関する評価値あるいは、データ量の差分に関する評価値によりデータの重要度を判定し(ステップS204)、判定結果をユーザに送信する(ステップS205)。
以上、説明したように、本実施形態によれば、ネットワーク上を流れる他のユーザのデータを利用して、評価ポイントを算出することにより、データの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
<第3の実施形態>
図10から図13を用いて、本発明の第3の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、図10に示すように、例えば、ユーザ端末内に設けられ、ユーザの通信データから特徴ベクトルを生成して、これらを格納するとともに、格納された特徴ベクトルと重要度を判定するデータの特徴ベクトルとの類似度を数値化して、重要度の判定を行うものである。
<重要度判定装置の構成>
図11を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図11に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部612とから構成されている。なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
特徴ベクトル作成処理部611は、ユーザの通信データから特徴ベクトルを生成する。なお、生成した特徴ベクトルは、図示しない格納部に格納しておく。つまり、図12に示すように、ユーザの通信データからベクトル抽出アルゴリズムを用いて、特徴ベクトルを抽出し、時系列的に、古い特徴ベクトルについては、ベクトル圧縮アルゴリズムを用いて、圧縮して保存する。また、時間的にかなり経過したものについては、再圧縮を行ってもよい。このように、時系列的に、古い特徴ベクトルを圧縮して格納することにより、データサイズを削減して、保存するデータのサイズを有限長にすることができる。
評価ポイント算出処理部612は、格納された特徴ベクトルと重要度を判定するデータの特徴ベクトルとの類似度を数値化する。なお、類似度を特徴ベクトル間の相関で数値化するために、例えば、オーバーラップ係数を用いてもよい。
<重要度判定装置の処理>
まず、通信路を流れるデータを取得し(ステップS301)、取得したデータを圧縮処理する(ステップS302)。次に、データを前処理により重要度の判定ができるように変換する(ステップS303)。
そして、各利用者のデータ特徴量を抽出して特徴ベクトルを生成し(ステップS304)、新たに送られてくるデータと生成した特徴ベクトルとの類似度を評価してデータの重要度を判定するとともに(ステップS305)、判定結果をユーザに送信する(ステップS306)。
以上、説明したように、本実施形態によれば、ネットワーク上を流れるユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
なお、重要度判定装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを重要度判定装置に読み込ませ、実行することによって本発明の重要度判定装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
101;クアントモジュール
102;クアントモジュール
103;クアントモジュール
104;クアントモジュール
105;クアントモジュール
200;重要度判定装置
201;制御部
202;データ読込処理部
203;データ出力処理部
204;通信モジュールドライバ
205;データ圧縮処理部
210;データ特徴量抽出処理部
211;k−匿名性、l−多様性判定処理部
212;データ事前処理部
213;l−多様性判定モジュール
214;k−匿名性判定モジュール
216;木構造データ管理部
217;ユーザ設定パラメータ管理部
300;サービス提供サーバ
401;評価ポイント算出処理部
410;データ特徴量抽出処理部
500;クライアントモジュール
600;重要度判定装置
610;データ特徴量抽出処理部
611;特徴ベクトル作成処理部
612;評価ポイント算出処理部
2051;データ解析処理部
2052;類似性判定部
2053;データ圧縮部

Claims (13)

  1. ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
    データを送受信する自己のクライアントモジュールとデータを送受信する他のクライアントモジュールから前記データを受信する受信手段と、
    該受信したデータに対して、圧縮処理を行う圧縮処理手段と、
    該圧縮処理後のデータをサービスごとに分類する分類手段と、
    分類したデータを保存する保存手段と、
    各サービスごとに、一定期間保存されたデータについてデータの重要度を判定する判定手段と、
    を備え、
    前記圧縮処理手段が、
    前記受信手段が受信したデータから特定のワードを抽出するデータ解析手段と、
    該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する類似度判定手段と、
    該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するデータ圧縮手段と、
    を備えたことを特徴とする重要度判定装置。
  2. 前記判定手段が、匿名性を評価することによりデータの重要度を判定することを特徴とする請求項1に記載の重要度判定装置。
  3. 前記判定手段が、データ内の属性の種類に関する評価値によりデータの重要度を判定することを特徴とする請求項1に記載の重要度判定装置。
  4. 前記判定手段が、前記一定期間保存されたデータのデータ量の差分に関する評価値によりデータの重要度を判定することを特徴とする請求項1に記載の重要度判定装置。
  5. ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
    前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
    該受信したデータに対して、圧縮処理を行う圧縮処理手段と、
    該圧縮処理後のデータを各利用者ごとに分類する分類手段と、
    分類したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
    新たに送られてくるデータと前記作成した特徴ベクトルとの類似度を評価してデータの重要度を判定する判定手段と、
    を備え、
    前記圧縮処理手段が、
    前記受信手段が受信したデータから特定のワードを抽出するデータ解析手段と、
    該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する類似度判定手段と、
    該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するデータ圧縮手段と、
    を備えたことを特徴とする重要度判定装置。
  6. 前記判定手段が、データの類似度を前記特徴ベクトル間の相関性により評価することを特徴とする請求項に記載の重要度判定装置。
  7. 前記特徴ベクトルには、個々に重み係数が設定されていることを特徴とする請求項に記載の重要度判定装置。
  8. 前記類似度判定手段が、データXとデータYに対して、数1に示す演算式の値を求めて、類似度を判定することを特徴とする請求項1から7のいずれかに記載の重要度判定装置。
    Figure 0005665685
  9. 前記データ圧縮手段は、データの単語数が所定数よりも大きい場合に、数2により、各単語の重要度を算出し、重要度の低いものから単語を削除することを特徴とする請求項1から7のいずれかに記載の重要度判定装置。
    Figure 0005665685
  10. ユーザが送受信するデータの重要度を判定する重要度判定方法であって、
    通信路を流れるデータを取得する第1のステップと、
    該取得したデータに対して、圧縮処理を行う第2のステップと、
    該圧縮処理後のデータをサービスごとに分類する第3のステップと、
    分類したデータを保存し、各サービスごとに、一定期間保存されたデータについてデータの重要度を判定する第4のステップと、
    を備え、
    前記第2のステップにおいて、
    受信したデータから特定のワードを抽出する第5のステップと、
    該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する第6のステップと、
    該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮する第7のステップと、
    を備えたことを特徴とする重要度判定方法。
  11. ユーザが送受信するデータの重要度を判定する重要度判定方法であって、
    通信路を流れるデータを取得する第1のステップと、
    該取得したデータに対して、圧縮処理を行う第2のステップと、
    各利用者のデータ特徴量を抽出して特徴ベクトルを生成する第のステップと、
    新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する第のステップと、
    を備え、
    前記第2のステップにおいて、
    受信したデータから特定のワードを抽出する第5のステップと、
    該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する第6のステップと、
    該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮する第7のステップと、
    を備えたことを特徴とする重要度判定方法。
  12. ユーザが送受信するデータの重要度を判定する重要度判定方法をコンピュータに実行させるためのプログラムであって、
    通信路を流れるデータを取得する第1のステップと、
    該取得したデータに対して、圧縮処理を行う第2のステップと、
    該圧縮処理後のデータをサービスごとに分類する第3のステップと、
    分類したデータを保存し、各サービスごとに、一定期間保存されたデータについてデータの重要度を判定する第4のステップと、
    を備え、
    前記第2のステップにおいて、
    受信したデータから特定のワードを抽出する第5のステップと、
    該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する第6のステップと、
    該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮する第7のステップと、
    をコンピュータに実行させるためのプログラム。
  13. ユーザが送受信するデータの重要度を判定する重要度判定方法をコンピュータに実行させるためのプログラムであって、
    通信路を流れるデータを取得する第1のステップと、
    該取得したデータに対して、圧縮処理を行う第2のステップと、
    各利用者のデータ特徴量を抽出して特徴ベクトルを生成する第のステップと、
    新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する第のステップと、
    を備え、
    前記第2のステップにおいて、
    受信したデータから特定のワードを抽出する第5のステップと、
    該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する第6のステップと、
    該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮する第7のステップと、
    をコンピュータに実行させるためのプログラム。
JP2011172816A 2011-08-08 2011-08-08 重要度判定装置、重要度判定方法およびプログラム Expired - Fee Related JP5665685B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011172816A JP5665685B2 (ja) 2011-08-08 2011-08-08 重要度判定装置、重要度判定方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011172816A JP5665685B2 (ja) 2011-08-08 2011-08-08 重要度判定装置、重要度判定方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013037519A JP2013037519A (ja) 2013-02-21
JP5665685B2 true JP5665685B2 (ja) 2015-02-04

Family

ID=47887084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011172816A Expired - Fee Related JP5665685B2 (ja) 2011-08-08 2011-08-08 重要度判定装置、重要度判定方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5665685B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101538714B1 (ko) 2013-02-26 2015-07-22 주식회사 케이티 M2m 네트워크를 이용하는 복수의 디바이스간 상관관계 분석을 통한 네트워크 운영 방법 및 시스템
JP7013732B2 (ja) 2017-08-31 2022-02-01 富士通株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115848A (ja) * 1997-06-26 1999-01-22 Sharp Corp 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体
JP2003122676A (ja) * 2001-10-11 2003-04-25 Nippon Telegr & Teleph Corp <Ntt> メール送受信システム、モバイル端末及びメール送受信方法
JP4138518B2 (ja) * 2003-02-07 2008-08-27 富士通株式会社 メール管理方法、プログラム及び装置

Also Published As

Publication number Publication date
JP2013037519A (ja) 2013-02-21

Similar Documents

Publication Publication Date Title
US10681061B2 (en) Feedback-based prioritized cognitive analysis
US10614077B2 (en) Computer system for automated assessment at scale of topic-specific social media impact
KR101793240B1 (ko) 사용자 탐색 이벤트의 예측
JP4772378B2 (ja) Webページから時系列データを生成する方法及び装置
US8935390B2 (en) Method and system for efficient and exhaustive URL categorization
JP6042541B2 (ja) セキュリティ情報管理システム、セキュリティ情報管理方法及びセキュリティ情報管理プログラム
US11074310B2 (en) Content-based management of links to resources
US20100241647A1 (en) Context-Aware Query Recommendations
US10078843B2 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
US20130198240A1 (en) Social Network Analysis
JP2010541102A (ja) ログデータ内の関連するイベントを検索する方法
Wong et al. Design of a crawler for online social networks analysis
US11748634B1 (en) Systems and methods for integration of machine learning components within a pipelined search query to generate a graphic visualization
US20220114603A1 (en) Systems and methods for tracking data shared with third parties using artificial intelligence-machine learning
JPWO2014181541A1 (ja) 匿名性を検証する情報処理装置及び匿名性検証方法
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
CN112861046B (zh) 搜索引擎优化的seo网站、方法、系统、终端、介质
JP5665685B2 (ja) 重要度判定装置、重要度判定方法およびプログラム
JP5649466B2 (ja) 重要度判定装置、重要度判定方法およびプログラム
KR20210000041A (ko) 로그 데이터의 실시간 분석 방법 및 그 장치
Rajbhandari et al. Trust assessment using provenance in service oriented applications
Moise The technical hashtag in Twitter data: A hadoop experience
JP5665683B2 (ja) 重要度判定装置、重要度判定方法およびプログラム
JP2012078932A (ja) 重要度判定装置、重要度判定方法およびプログラム
JP2009289094A (ja) キーワード比較システム、キーワード比較方法およびキーワード比較プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140909

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141209

R150 Certificate of patent or registration of utility model

Ref document number: 5665685

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees