JP2015513133A - キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 - Google Patents

キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 Download PDF

Info

Publication number
JP2015513133A
JP2015513133A JP2014554685A JP2014554685A JP2015513133A JP 2015513133 A JP2015513133 A JP 2015513133A JP 2014554685 A JP2014554685 A JP 2014554685A JP 2014554685 A JP2014554685 A JP 2014554685A JP 2015513133 A JP2015513133 A JP 2015513133A
Authority
JP
Japan
Prior art keywords
string
spam
target
character
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014554685A
Other languages
English (en)
Other versions
JP5990284B2 (ja
Inventor
ディチウ,ダニエル
ルプセスク,ゼ・ルチアン
Original Assignee
ビットディフェンダー アイピーアール マネジメント リミテッド
ビットディフェンダー アイピーアール マネジメント リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ビットディフェンダー アイピーアール マネジメント リミテッド, ビットディフェンダー アイピーアール マネジメント リミテッド filed Critical ビットディフェンダー アイピーアール マネジメント リミテッド
Publication of JP2015513133A publication Critical patent/JP2015513133A/ja
Application granted granted Critical
Publication of JP5990284B2 publication Critical patent/JP5990284B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0263Rule management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3297Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving time stamps, e.g. generation of time stamps

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

ストリングの識別と、プレフィルタリングと、キャラクター・ヒストグラムの比較とタイムスタンプの比較とのステップを含む、ここで説明するスパム検出技術は、永続性の低いウェーブで到達するものであり素早く変化するスパムに対しての、正確で計算効率の高い検出を容易にする。幾つかの実施形態では、コンピューター・システムは、ブログ・コメントなどのような電子通信からターゲット・キャラクター・ストリングを抽出し、それをスパム防止サーバーへ送り、その電子通信がスパムであるか非スパムであるかのインジケーターをスパム防止サーバーから受け取る。スパム防止サーバーは、ターゲット・ストリングのキャラクター・ヒストグラムの特定の特徴に従って、電子通信がスパムであるか非スパムであるかを判定する。幾つかの実施形態はまた、監督無しで、入来するターゲット・ストリングをクラスターへとクラスター化し、1つのクラスターの全メンバーは類似のキャラクター・ヒストグラムを有する。

Description

[0001] 本発明は、電子通信を分類する方法およびシステムと関連し、特に、一方的に送られてくる商業的電子通信(スパム)をフィルタリングするシステムおよび方法と関連する。
[0002] スパムとしても知られている一方的に送られてくる商業的電子通信は、世界中の全ての通信トラフィックの中の多くの部分を占め、コンピューターおよび電話のメッセージング・サービスに影響を及ぼしている。スパムは多くの形態をとることができ、それは、一方的に送られてくるEメール通信から、ブログやソーシャル・ネットワーク・サイトなどのような様々なインターネット・サイトについてのユーザー・コメントを装うスパム・メッセージまである。スパムは、貴重なハードウェア・リソースを取り上げてしまい、生産性に影響を及ぼし、通信サービスおよび/またはインターネットの多くのユーザーからは不快であり邪魔であると考えられている。
[0003] Eメール・スパムの場合、ユーザーまたはEメール・サービス・プロバイダーのコンピューター・システムで実行されるソフトウェアを用いて、Eメール・メッセージをスパムまたは非スパムに分類すること、更には、様々な種類のスパム・メッセージ(例えば、製品の売り出し、アダルト・コンテンツ、Eメール詐欺)を区別することができる。次に、スパム・メッセージは、特別のフォルダーへ送る又は削除することができる。
[0004] 同様に、コンテンツ・プロバイダーのコンピューター・システムで実行されるソフトウェアを用いて、ウェブサイトへポストされた不正メッセージをインターセプトし、そのそれぞれのメッセージが表示されることを妨げることができ、また、そのそれぞれのメッセージがスパムであり得ることの警告を、ウェブサイトのユーザーに対して表示することができる。
[0005] スパム・メッセージを識別するための幾つかのアプローチが提案されており、それらは、メッセージの発信元のアドレスを既知の問題のあるアドレスまたは信頼のあるアドレスのリストと突き合わせること(ブラックリスティングおよびホワイトリスティングとそれぞれ呼ばれる技術)、特定の単語や単語パターン(例えば、refinancing、Viagra(R)、stock(借り換え、バイアグラ(登録商標)、株))をサーチすること、およびメッセージのヘッダーを分析することを含む。特徴の抽出/突き合わせの方法は、しばしば、自動データ分類方法(例えば、ベイジアン・フィルタリング、ニューラル・ネットワーク)と関連して用いられる。
[0006] スパムは、しばしば、スパム・ウェーブとしても知られる速い連続する類似のメッセージのグループで、到着する。スパムの形およびコンテンツは、1つのスパム・ウェーブから別のスパム・ウェーブへと実質的に変化し得るので、連続的な検出は、新たなスパム・ウェーブに対して迅速に認識および反応することができる方法およびシステムから利益を得られる。
[0007] 1つの態様によると、方法は、コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取ることと、ターゲット・ストリングに従ってストリング適格基準(string eligibility criterion)を決定することと、ストリング適格基準に従って参照ストリングのコーパス(corpus)をプレフィルタリングして、複数の候補ストリングを作成することとを含む。コンピューター・システムを用いて、候補ストリングを選択することに応じて、ターゲット・ストリングのキャラクター・ヒストグラムと複数の候補ストリングのうちの1つの候補ストリングのキャラクター・ヒストグラムとの間での第1の比較と、電子通信のタイムスタンプと候補ストリングのタイムスタンプとの間での第2の比較とを行う。コンピューター・システムは、第1の比較および第2の比較の結果に従って、電子通信がスパムであるか非スパムであるかを判定する。
[0008] 別の態様では、コンピューター・システムは少なくとも1つのプロセッサーを含み、電子通信の一部を形成するターゲット・ストリングを受け取るように、且つターゲット・ストリングに従ってストリング適格基準を決定するように、且つストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングして、複数の候補ストリングを作成するように、プログラムされる。プロセッサーは更に、候補ストリングを選択することに応じて、ターゲット・ストリングのキャラクター・ヒストグラムと複数の候補ストリングのうちの1つの候補ストリングのキャラクター・ヒストグラムとの間での第1の比較と、電子通信のタイムスタンプと候補ストリングのタイムスタンプとの間での第2の比較とを行うようにプログラムされる。プロセッサーは更に、第1の比較および第2の比較の結果に従って、電子通信がスパムであるか非スパムであるかを判定するようにプログラムされる。
[0009] 別の態様によると、方法は、コンピューター・システムを用いて、電子通信を受け取ることと、電子通信を受け取ることに応じて、電子通信からからターゲット・ストリングを抽出することと、ターゲット・ストリングをスパム防止サーバーへ送ることと、ターゲット・ストリングを送ることに応じて、電子通信がスパムであるか非スパムであるかを示すターゲット・ラベルを受け取ることとを含み、ターゲット・ラベルはスパム防止サーバーで決定される。ターゲット・ラベルを決定することは、スパム防止サーバーを用いて、ターゲット・ストリングに従って適格基準を決定することと、適格基準に従って参照ストリングのコーパスをプレフィルタリングして、複数の候補ストリングを作成することと、候補ストリングを選択することに応じて、ターゲット・ストリングのキャラクター・ヒストグラムと複数の候補ストリングのうちの1つの候補ストリングのキャラクター・ヒストグラムとの間での第1の比較と、電子通信のタイムスタンプと候補ストリングのタイムスタンプとの間での第2の比較とを行ことと、第1の比較および第2の比較の結果に従ってターゲット・ラベルを決定することとを含む。
[0010] 1つの態様によると、方法は、コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取ることと、ターゲット・ストリングに従ってストリング適格基準を決定することと、ストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングして、複数の候補ストリングを作成することとを含む。候補ストリングを選択することに応じて、方法は、コンピューター・システムを用いて、ターゲット・ストリングが複数の候補ストリングのうちの1つの候補ストリングから離れているストリング間距離を決定し、ストリング間距離は、ターゲット・ストリング内での選択されたキャラクターの発生のカウント、および候補ストリング内での選択されたキャラクターの発生のカウントに従って決定される。方法は次に、ストリング間距離に従って、電子通信がスパムであるか非スパムであるかを判定することを含む。
[0011] 本発明の上記の態様および利点は、後の説明を読み、図面を参照すると、より良く理解できるであろう。
図1は、本発明の幾つかの実施形態に従った例示のスパム防止システムを示す。 図2は、本発明の幾つかの実施形態に従ったサーバー・コンピューター・システムの例示のハードウェア構成を示す。 図3aは、本発明の幾つかの実施形態に従った、クライアント・コンピューターとスパム防止サーバーとの間での例示のスパム検出トランザクションを示す。 図3bは、本発明の幾つかの実施形態に従った、コンテンツ・サーバーとスパム防止サーバーとの間での例示のスパム検出トランザクションを示す。 図4は、本発明の幾つかの実施形態に従ったターゲット通信の例示のターゲット・インジケーターを示し、インジケーターは、ターゲット・ストリングと、追加のスパム識別用データとを含む。 図5は、本発明の幾つかの実施形態に従ったスパム防止サーバーで実行される例示のアプリケーションのセットの図を示す。 図6は、本発明の幾つかの実施形態に従った、ターゲット・ストリングと関連しており且つ複数のキャラクター・クラスに対して計算された例示のキャラクター・ヒストグラムを示す。 図7は、本発明の幾つかの実施形態に従った、図1のスパム防止サーバーで動作する例示のスパム・デデクター・アプリケーションを示す。 図8は、本発明の幾つかの実施形態に従った複数のクラスターを示し、各クラスターは、類似のアイテムのコレクションを含み、特徴ハイパースペースで表される。 図9は、本発明の幾つかの実施形態に従った、図7のスパム検出器により行われる例示のステップのシーケンスを示す。 図10Aは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングの異なるキャラクターの数の関数として、テスト・ストリングのコレクションに対するキャラクター・ヒストグラムを作成するための計算時間を決定することを含む。 図10Bは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングのストリング長の関数として、テスト・ストリングのコレクションに対するキャラクター・ヒストグラムを作成するための計算時間を決定することを含む。 図10Cは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングの異なるキャラクターの数の関数として、テスト・ストリングのコレクションに対するストリング間距離のセットを計算するための計算時間を決定することを含む。 図10Dは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングのストリング長の関数として、テスト・ストリングのコレクションに対するストリング間距離のセットを計算するための計算時間を決定することを含む。 図11は、スパムと非スパムとの双方を含む、実際のブログ・コメントのコレクションに対しての、ストリング長対タイムスタンプ・インジケーターのプロットを示す。 図12は、スパムと非スパムとの双方を含む、実際のブログ・コメントのコレクションに対しての、異なるキャラクターの数対タイムスタンプ・インジケーターのプロットを示す。
以下の説明では、構造間での全ての記載された接続は、直接の有効な接続、または中間構造を通じての間接の有効な接続であり得ることが、理解される。エレメントのセットは1以上のエレメントを含む。エレメントの何れの詳述も、少なくとも1つのエレメントを指すことが理解される。複数のエレメントは、少なくとも2つのエレメントを含む。必要ではないかぎり、何れの説明される方法のステップも、必ずしも特定の示された順に行う必要はない。第2のエレメントから導き出される第1のエレメント(例えば、データ)に関しては、第1のエレメントが第2のエレメントと等しいことや、第1のエレメントが第2のエレメントとオプションとしての他のデータとを処理することにより作成されることを含む。パラメーターに従って決定または判断を行うことは、パラメーターに従って、また、オプションとして他のデータに従って、決定または判断を行うことを含む。指定しないかぎり、何らかの量/データのインジケーターは、量/データ自体とすることができ、また、量/データ自体とは異なるインジケーターとすることもできる。本発明の幾つかの実施形態で説明するコンピューター・プログラムは、スタンドアローンのソフトウェア・エンティティとすることも、他のコンピューター・プログラムのサブエンティティ(例えば、サブルーチン、コード・オブジェクト)とすることもできる。指定されないかぎり、スパムという用語は、Eメール・スパムに限定されず、とりわけ、ブログ・コメント、フォーラム議論、ウィキ(wiki)・エントリー、カスタマー・フィードバック、ソーシャル・ネットワーク・サイトへのポスト、インスタント・メッセージ、そして電話テキストやマルチメディア・メッセージの形態の、不正当であったり一方的に送られてきたりする商業的なユーザーにより作成されたコンテンツなどのような電子通信も含む。コンピューター可読媒体は、磁気、光、および半導体の媒体(例えば、ハード・ドライブ、光ディスク、フラッシュ・メモリ、DRAM)などのような非一時的ストレージと、導電ケーブルや光ファイバーのリンクなどのような通信リンクとを含む。幾つかの実施形態によると、本発明は、特に、ここで説明する方法を行うようにプログラムされたハードウェアを含むコンピューター・システムと、ここで説明する方法を行わせるための命令をエンコードするコンピューター可読媒体とを提供する。
[0028] 以下の説明は、例を用いて本発明の実施形態を示すものであり、必ずしも限定を用いて示していない。
[0029] 図1は、本発明の幾つかの実施形態に従った例示のスパム防止システムを示す。システム10は、複数のコンテンツ・サーバー12a−b、スパム防止サーバー16、および複数のクライアント・システム14a−bを含む。コンテンツ・サーバー12a−bは、とりわけ、個人や企業のウェブサイト、ブログ、ソーシャル・ネットワーク・サイト、およびオンライン・エンターテイメント・サイトなどのようなオンライン・コンテンツをホストする及び/又は配信するウェーブ・サーバーを表し得る。他のコンテンツ・サーバー12a−bは、クライアント・システム14a−bへの電子メッセージの配達を行うEメール・サーバーを表し得る。クライアント・システム14a−bは、エンドユーザー・コンピューターを表し得るものであり、それぞれが、プロセッサー、メモリ、およびストレージを有し、Windows(登録商標)、MacOS(登録商標)、Linux(登録商標)などのようなオペレーティング・システムを実行する。幾つかのクライアント・システム14a−bは、例えば、タブレットPC、モバイル電話、パーソナル・デジタル・アシスタント(PDA)などのような、モバイル計算デバイスおよび/または遠距離通信デバイスを表し得る。幾つかの実施形態では、クライアント・システム14a−bは、個々の顧客を表し得るものであり、また、幾つかのクライアント・システムは同じ顧客に属し得る。スパム防止サーバー16は、1以上のコンピューター・システムを含むことができる。ネットワーク18は、コンテンツ・サーバー12a−b、クライアント・システム14a−b、およびスパム防止サーバー16を接続する。ネットワーク18は、インターネットなどのようなワイド・エリア・ネットワークとすることができ、また、ネットワーク18の一部はローカル・エリア・ネットワーク(LAN)を含むこともできる。
[0030] 図2は、スパム防止サーバー16などのようなサーバー・コンピューター・システムの例示のハードウェア構成を示す。幾つかの実施形態では、サーバー16は、プロセッサー20、メモリ・ユニット22、ストレージ・デバイスのセット24、および通信インターフェース・コントローラー26を含み、これらの全てはバスのセット28により接続される。
[0031] 幾つかの実施形態では、プロセッサー20は、信号および/またはデータのセットを用いて計算オペレーションおよび/または論理オペレーションを実行するように構成された物理デバイス(例えば、マルチコア集積回路)を含む。幾つかの実施形態では、そのような論理オペレーションは、プロセッサー命令のシーケンスの形態(例えば、機械コードや他のタイプのソフトウェア)で、プロセッサー20へ届けられる。メモリ・ユニット22は、命令を行うときにプロセッサー20によりアクセスまたは作成されるデータ/信号を格納するコンピューター可読媒体(例えば、RAM)を、含むことができる。ストレージ・デバイス24はコンピューター可読媒体を含み、ソフトウェア命令および/またはデータを、不揮発に格納、読み出し、および書き込むことを可能にする。例示のストレージ・デバイス24は、磁気ディスク、光ディスク、および半導体メモリ・デバイス(例えば、フラッシュ)を含み、また、CDおよび/またはDVDのディスクおよびドライブなどのような取り外し可能媒体も含む。通信インターフェース・コントローラー26は、サーバー・システム16がネットワーク18および/または他の機械/コンピューター・システムへ接続することを可能にする。典型的な通信インターフェース・コントローラー26は、ネットワーク・アダプターを含む。バス28は、複数のシステム・バス、周辺バス、チップセット・バス、および/またはサーバー・システム16のデバイス20〜26の相互接続を可能にする全ての他の回路を、集合的に表す。例えば、バス28は、とりわけ、プロセッサー20をメモリ22へ接続するノースブリッジ・バス、および/またはプロセッサー20をデバイス24〜26へ接続するサウスブリッジ・バスを、含むことができる。
[0032] 幾つかの実施形態では、クライアント・システム14a−bのそれぞれは、ドキュメント・リーダー・アプリケーション(例えば、ウェブ・ブラウザー、Eメール・リーダー、メディア・プレーヤー)を含み、これは、コンテンツ・サーバー12a−bに格納されたデータへリモートでアクセスするために用いるコンピューター・プログラムであり得る。ユーザーが、ウェブページなどのようなオンライン・ドキュメントへアクセスするとき、またはEメールなどのような電子通信を受け取るとき、そのドキュメント/通信と関連するデータは、それぞれのコンテンツ・サーバーとクライアント・システム14との間のネットワーク18の一部を伝わる。幾つかの実施形態では、リーダー・アプリケーションは、ドキュメントのデータを受け取り、それを視覚的形態に変換し、それをユーザーに表示する。リーダー・アプリケーションの幾つかの実施形態はまた、表示されたコンテンツとユーザーがインタラクションすることを可能にする。Eメールの場合、クライアント・システム14a−bは、入来するEメールを複数のカテゴリー(例えば、スパム、正当、様々な他のクラスおよびサブクラス)のうちの1つに分類するように構成された専用のソフトウェアを、含むことができる。
[0033] 幾つかの実施形態では、コンテンツ・サーバー12a−bは、複数のユーザーから、ユーザーの作成したコンテンツ(例えば、記事、ブログ・エントリー、メディア・アップロード、コメントなど)を受け取り、そのようなコンテンツを編成し、フォーマットし、ネットワーク18を介して第三者へ届けるように、構成される。サーバー12a−bで受け取ったユーザーの作成したコンテンツの一部は、一方的に送られてきたメッセージ(スパム)を含み得る電子通信を含み得る。そのような電子通信(後の説明では、ターゲット通信またはターゲット・メッセージと呼ぶ)の例は、とりわけ、Eメール・メッセージ、ブログ・コメント、ソーシャル・ネットワーク・サイトへのポスト、およびエンターテイメントおよび/またはニュースのウェブサイトへ送られるコメントである。
[0034] 幾つかの実施形態では、コンテンツ・サーバー12a−bは、スパムを検出するために、ユーザーから受け取ったターゲット通信を処理するように構成されたソフトウェア・コンポーネントを含むことができる。スパム・メッセージ(例えば、不正ブログ・コメントなど)は、検出されると、それぞれのウェブサイトで表示することが妨げられ且つ/又は避けられる。スパム処理ソフトウェアは、サーバー側スクリプトの形態でコンテンツ・サーバー12a−bにインプリメントすることができる。そのようなスクリプトは、例えば、Wordperss(登録商標)やDrupal(登録商標)のオンラインパブリッシング・プラットフォームのためのスパム防止プラグイク(1以上)として、大きいスクリプト・パッケージへのプラグイクとして組み込むことができる。幾つかの実施形態では、後に説明するように、サーバー12a−bは、スパムを検出するために、スパム防止サーバー16との共同的スパム検出トランザクションと連動するように構成することができる。
[0035] 幾つかの実施形態では、スパム防止サーバー16は、コンテンツ・サーバー12a−bおよび/またはクライアント・システム14a−bと共同的スパム検出トランザクションを行うように構成される。図3aは、Eメール・スパムを検出するように構成された実施形態における、サーバー16とクライアント・システム14との間での例示のデータ交換を示す。クライアント・システム14は、ネットワーク18を介してメール・サーバーからEメール・メッセージを受け取ることができる。Eメール・メッセージを受け取った後、クライアント・システム14は、Eメール・メッセージと関連するスパム識別用データを含むターゲット・インジケーター40を、スパム防止サーバー16へ送ることができ、それに応じて、それぞれのEメール・メッセージがスパムであるかどうかを示すターゲット・ラベル50を受け取ることができる。クライアント・システム14は、続いて、そのメッセージを、適切なメッセージ・カテゴリー(例えば、スパムまたは正当なEメール)に置くことができる。
[0036] 図3bは、サーバー12で受け取られたユーザーの作成したスパム、とりわけ、ブログ・スパムやソーシャル・ネットワーク・サイトへポストされたスパムなどを検出するように構成された実施形態における、スパム防止サーバー16とコンテンツ・サーバー12との間での例示のデータ交換を示す。例えば、サーバー12でホストされるウェブサイトへユーザーがコメントをポストした結果として、ターゲット通信を受け取った後、サーバー12は、ターゲット通信から抽出されたスパム識別用データを含むターゲット・インジケーター40を、スパム防止サーバー16へ送ることができ、それに応じて、そのターゲット通信がスパムであるかどうかを示すターゲット・ラベル50を受け取ることができる。
[0037] 図4は、本発明の幾つかの実施形態に従った、ターゲット通信の例示のターゲット・インジケーターを示す。ターゲット・インジケーター40は、ターゲット通信を一意に識別するオブジェクトID41(例えば、ラベル、ハッシュ)と、ブログ・コメントのテキスト部分などのような、ターゲット通信のテキスト部分を含むターゲット・ストリング42とを含む。幾つかの実施形態では、ターゲット・ストリング42は、ターゲット通信の実質的に全てのテキストを含む。ターゲット通信が幾つかのテキスト部分を含むときには、ターゲット・ストリング42は、それらのテキスト部分が連結したものを含むことができ、代替的には、それぞれのテキスト部分が、他とは異なる1つのターゲット・ストリング42を受けることできる。幾つかの実施形態では、ターゲット・ストリング42は、ターゲット通信のテキスト部分の1つのセクションを含むことができ、セクションは、予め設定されたストリング長を有する(例えば、128の連続するキャラクター)。
[0038] ターゲット・インジケーター40の幾つかの実施形態は、ターゲット・ストリング42以外にも、ターゲット通信に対応する他のスパム識別用データを含むことができる。図4の例では、ターゲット・インジケーター40は、ターゲット通信の送信者により提供された名前(例えば、個人名、仮名、スクリーン名、ログイン名、アバター名、ハンドルなど)を示すユーザー名インジケーター44と、発信元の場所(例えば、発信元IPアドレス)を示すアドレス・インジケーター46と、ターゲット通信が送られたときの実時間の時点(例えば、日付および時刻)を示すタイムスタンプ48とを含む。
[0039] 幾つかの実施形態では、ターゲット・ラベル50は、ID41などのようなオブジェクトIDと、ターゲット通信のスパム・ステータスのインジケーターとを、含むことができる。ターゲット・ラベル50は、後に詳細に説明するように、スパム防止サーバー16により行われる評価に従って、ターゲット通信がスパムであるかどうかを有効に指定する。
[0040] 図5は、本発明の幾つかの実施形態に従った、スパム防止サーバー16で実行される例示のアプリケーションのセットの図を示す。アプリケーションは、スパム検出器32と、スパム検出器32と接続された通信マネージャー34とを含む。アプリケーション32および34は、スタンドアローンのソフトウェア・アプリケーションとすることができ、また、例えば、マルウェア検出などのようなコンピューター・セキュリティ・サービスを提供する大きいソフトウェア・スイートの一部を形成することもできる。幾つかの実施形態では、スパム防止サーバー16はまた、スパム防止データベース30をホストすることができる。代替的に、スパム防止データベースは、サーバー16とは異なるがネットワーク18を介してサーバー16と接続されるコンピューター・システムに、また、サーバー16と接続されるコンピューター可読媒体に、存在することができる。
[0041] スパム防止データベース30は、オンライン・スパムと関連する知識のリポジトリーを含む。幾つかの実施形態では、データベース30はキャラクター・ヒストグラムのコーパスを含み、後に更に説明するように、それぞれのヒストグラムが1つの電子通信に対して計算される。データベース30は、例えば、ブログ・コメント、ソーシャル・ネットワーク・サイトへポストされたコメントなどのような、スパムまたは非スパムの電子通信の双方を、含むことができる。ヒストグラムの他に、データベース30に格納された各レコードは追加の情報を含むことができ、それらは、それぞれのターゲット通信のストリング42、タイムスタンプ48などのような時間インジケーター、およびストリング42のストリング長、異なるキャラクターの数(number of distinct characters)、およびストリング・スコアのインジケーターなどであり、そのような量の使用については後に説明する。幾つかの実施形態では、各キャラクター・ヒストグラムと関連して、データベース30は、それぞれのクラスターが現在割り当てられているメッセージのクラスターを示すクラスター割り当てインジケーターを、格納することができる。データベース30はまた、オブジェクトID41などのような複数の識別子を含むデータ構造を格納することができ、それぞれのオブジェクト識別子は、1つの電子通信と一意に関連付けられ、マッピングは、各キャラクター・ヒストグラムを、そのキャラクター・ヒストグラムを計算する対象とされたターゲット通信と関連付け、後に示すように、スパム検出器32がデータベース30からヒストグラムを選択的に取得することを可能にする。
[0042] 図6は、本発明の幾つかの実施形態に従った、ターゲット・ストリング42に関して計算された例示のキャラクター・ヒストグラムを示す。ターゲット・ヒストグラム60は数のセットを含み、それぞれの数は、ターゲット・ストリング42内でのそれぞれの異なるキャラクターの発生のカウントを示す。例えば、「Mississippi」のターゲット・ヒストグラムは、「M」に対して1、「i」に対して4、「s」に対して4、および「p」に対して2を含む。幾つかの実施形態では、キャラクターは幾つかの異なるキャラクター・クラス62、例えば、とりわけ、「小文字」、「大文字」、「数字」、および「特殊文字」などへと、グループ化される。様々なキャラクター・クラスの数および構成は、実施形態により変わり得る。
[0043] 幾つかの実施形態では、通信マネージャー34は、クライアント・システム14a−bおよび/またはコンテンツ・サーバー12a−bとの通信を管理するように構成される。例えば、マネージャー34は、ネットワーク18を介しての接続を確立し、クライアント・システム14a−bおよびコンテンツ・サーバー12a−bとの、ターゲット・インジケーターおよびターゲット・ラベルなどのようなデータの送信および受信を行うことができる。
[0044] 図7は、本発明の幾つかの実施形態に従った、スパム防止サーバー16で動作する例示のスパム検出器の図を示す。スパム検出器32は、ヒストグラム・マネージャー36と、ヒストグラム・マネージャー36と接続されたクラスター化エンジン38とを含む。スパム検出器32は、ターゲット通信のターゲット・インジケーター40を通信マネージャー34から(図5、図3a、図3bを参照)、また、参照ヒストグラム64をスパム防止データベース30から、受け取ることができ、その後、ターゲット・ラベル50を通信マネージャー34へ出力し、ターゲット・ラベル50が、それぞれのスパム検出トランザクションを開始したクライアント・システム14またはコンテンツ・サーバー12へ送られるようにする。
[0045] 幾つかの実施形態では、ヒストグラム・マネージャー36は、通信マネージャー34からターゲット・インジケーター40を受け取り、ターゲット・インジケーター40のデータからターゲット・ヒストグラム60を計算し、プレフィルタリング・プロセスを行って適格な参照ヒストグラムのセット64を決定し、スパム防止データベース30から参照ヒストグラム64を選択的に取得し、ヒストグラムの比較およびクラスターの割り当てのためにヒストグラム60および64をクラスター化エンジン38へ送るように、構成される。ヒストグラム・マネージャー36の動作は、図9と関連して詳細に説明する。
[0046] 幾つかの実施形態では、ターゲット・メッセージ分析がメッセージ特徴ハイパースペース(feature hyperspace)で行われ、ターゲット通信に対応する特徴ベクトル(feature vector)と、代表ベクトル(representative vector)のセットとの間の距離が分析され、それぞれの代表ベクトルは、性質の異なるメッセージ・コレクション(クラスター)を定義する。図8は、d1およびd2という2つの軸を有する単純な2D特徴空間における、特徴ベクトル74a−cによりそれぞれ形成された3つの例示のクラスター70a−cを示す。本発明の幾つかの実施形態では、軸d1およびd2は、キャラクター・ヒストグラムの異なる特徴に対応する。例えば、軸d1は、キャラクター「M」に対応させ、軸d2は、キャラクター「s」に対応させることができる。次に、「Mississippi」というストリングは、それぞれのストリング内で「M」が一回現れ「s」が4回現れることを考慮し、特徴ベクトル(1,4)により表すことができる。類似のキャラクター・ヒストグラムを有する2つのストリングは、この例示の特徴ハイパースペースでは互いに近接して存在し、上記の例では、「Mississippi」と「Mission:impossible」とは、この空間では同一の特徴を有する。幾つかの実施形態では、各メッセージ・クラスター70は、実質的に特徴ハイパースペースの小さい領域を占有するメッセージからなり、このことは、1つのクラスターの全メンバーが類似の特徴ベクトル、即ち、類似のキャラクター・ヒストグラムを有することを、意味する。
[0047] 幾つかの実施形態では、クラスター化エンジン38は、データ蓄積の歴史の間にスパム防止サーバー16で受け取られて類似性に従ってクラスターへとグループ化された電子通信のコーパスを表す、メッセージ・クラスターのコレクション70を維持するように構成される。幾つかのクラスター70は、個々のスパム・ウェーブを表すことができ、それぞれは、多数のクライアントへ送られる及び/又は多数のウェブサイトへポストされる同じスパム・メッセージのコピーまたは変種を含む。理想的には、メッセージ・クラスターは、同一またはほぼ同一のターゲット・ストリングからなる。クラスター化エンジン38は更に、ターゲット・ヒストグラム60を受け取るように、およびヒストグラムの類似性に従って、ヒストグラム60により表されるターゲット通信を、それの最も似ているクラスターへ割り当てるように、構成される。クラスターの割り当てを行うために、クラスター化エンジン38は、ヒストグラム・マネージャー36から、参照ヒストグラムのセット64を受け取り、各ヒストグラム64はクラスターを表すものであり、そして、クラスター化エンジン38は、ヒストグラム60と64とを比較して、何れのメッセージ・クラスターがターゲット・ヒストグラム60と最もマッチするかを決定する。クラスター化エンジン38の動作の更なる詳細は、図9と関連して後に提供する。
[0048] 図9は、本発明の幾つかの実施形態に従った、スパム検出トランザクション内でスパム検出器32(図7)により行われる例示のステップのシーケンスを示す。ステップ102において、スパム検出器32は、クライアント・システム14またはコンテンツ・サーバー12から、通信マネージャー34を介してターゲット・インジケーター40を受け取る。次に、ステップ104において、スパム検出器は、ターゲット・インジケーター40に従ってターゲット・ストリング42を抽出し、ストリング42のキャラクター・ヒストグラム60を計算する。ステップ104はまた、ストリング長および/または異なるキャラクターの数などのような、ターゲット・ストリング42の幾つかのパラメーターの計算を含むことができ、パラメーターは、ステップ106においてメッセージ・クラスターのコレクションをプレフィルタリングするために用いられる。幾つかの実施形態では、ステップ106において、スパム検出器32は、プレフィルタリング条件のセットに従って、クラスター化エンジン38により維持される完全なコレクションから候補メッセージ・クラスターのサブセットを選択するためのプレフィルタリング・オペレーションを行う。ヒストグラムの比較を行う際に用いるためにクラスターのサブセット(小さいサブセット)のみを選択することにより、スパム検出器32は、計算コストを有効に低減することができる。
[0049] 幾つかの実施形態では、スパム検出器32は、ストリング長に従って、候補クラスターのサブセットを選択することができる。ターゲット・ストリング42のストリング長は、各クラスターの代表のストリング長またはそれぞれのクラスターのメンバーの平均ストリング長と、比較される。クラスターは、その典型的なストリング長がターゲット・ストリング42のストリング長の所定のスレッショルド内にあるとき、ヒストグラムの比較のための候補として選択することができる。
[0050] 代替のプレフィルタリング基準は、異なるキャラクターの数(カウント)である。例えば、「Mississipi」というストリングは、M、i、s、およびpという4つの異なるキャラクターを有する。各クラスターに関して、ターゲット・ストリング42の異なるキャラクターの数が、それぞれのクラスターの代表メンバーの異なるキャラクターの数と、またはクラスターのメンバーの平均の異なるキャラクターの数と比較され、ターゲット・ストリング42と類似した異なるキャラクターの数を有するクラスターが、ヒストグラムの比較のための候補として選択される。
[0051] 幾つかの実施形態では、プレフィルタリングは、
Figure 2015513133
のように計算したストリング・スコアに従って進めることができ、iは、ストリングのキャラクターにインデックスを付け、pは、全キャラクターのセットの中におけるキャラクターi(例えば、それぞれのキャラクターのASCIIコード)の位置インジケーターを示し、wは、それぞれのキャラクターのキャラクター固有の重み(character-specific weight)を示す。幾つかの実施形態では、キャラクターは、幾つかのクラス、例えば、とりわけ、小文字、大文字、数字、および特殊文字といった図6に示すクラス62などへと、分割される。重みw(i)は、同じキャラクター・クラス内では同一であり得るが、或るクラスと別のクラスとでは異なり得る。例えば、特殊文字と関連する重みは、小文字の重みよりも高くすることができる。各クラスターに関して、ターゲット・ストリング42のストリング・スコア[1]が、それぞれのクラスターの代表メンバーのストリング・スコアと、またはそのクラスターの平均ストリング・スコアと比較され、ターゲット・ストリング42と類似のストリング・スコアを有するクラスターが、ヒストグラムの比較のための候補として選択される。
[0052] 幾つかの実施形態では、プレフィルタリング基準を組み合わせることができる。例えば、ストリング・スコアの類似性に従って、メッセージ・クラスターの第1サブセットを選択することができる。次に、クラスターの第1サブセットから第2サブセットが選択される。各クラスターはターゲット・ストリング42と類似のストリング長および類似の異なるキャラクターの数を有する。
[0053] ヒストグラムの比較のための候補のセットが選択されると、選択された各クラスターに関して、スパム検出器32は、ヒストグラム・マネージャー36に命令して、それぞれのクラスターの代表メッセージに対応する参照ヒストグラム64を、スパム防止データベース30から選択的に取得するようにできる。次に、選択された各クラスターに対して、ステップ108〜116のループ・シーケンスを実行する。ステップ108において、スパム検出器32は、選択された全てのクラスターがヒストグラムの比較により評価されたかどうかを、確かめることができる。そうである場合、スパム検出器32は、後に説明するステップ118へ進む。そうではない場合、ステップ110において、次のクラスターが評価される。ステップ112において、ターゲット・ヒストグラム60が、参照ヒストグラム64と比較される。
[0054] 幾つかの実施形態では、ステップ112は、ヒストグラム60と64との間の類似の度合を示すストリング間距離のセットを計算することを含む。幾つかの実施形態では、2つのストリングsとsとの間のストリング間距離は、
Figure 2015513133
という式にすることができ、ここで、iは、ストリングsとsとに共通のキャラクターのサブセットにインデックスを付け、wは、キャラクターiのキャラクター重みであり、N は、ストリングs内でのキャラクターiの発生のカウントを示し、N は、ストリングs内でのキャラクターiの発生のカウントを示す。代替のストリング間距離は、
Figure 2015513133
により求めることができ、ここで、iは、s内ではなくs内のみに存在するキャラクターのサブセットにインデックスを付け、wは、キャラクターiの重みであり、cは、予め定めたキャラクターに独立の定数である。上述のように、wは、キャラクターに固有またはクラスに固有(例えば、「特殊文字」対「小文字」)とすることができる。キャラクター固有の重みを用いる理由は、テキストを不明瞭化(obfuscation)するために、幾つかのキャラクターが他のキャラクターよりも頻繁に用いられるからであり、この不明瞭化は、スパム検出を避けるためにスパム送信者により頻繁に用いられる方法であり、テキスト内の特定のキャラクターを別のキャラクターと置換すること(例えば、Vi4gra)を含む。不明瞭化で用いられるキャラクターに対して相対的に小さい重みを割り当てることにより、複数個の不明瞭化されたバージョンのターゲット・ストリングは、ストリング間距離に従うと互いに非常に類似して見え、従って、全てをスパムとして正しく識別することができる。cの値はチューニング・パラメータとして用いることができ、cが小さすぎる場合には、どちらかと言えば異なる2つのストリングが誤って類似と考慮され得、cが大きすぎる場合には、ストリング間の小さい差が過剰に増幅され得る。
[0055] 幾つかの実施形態は、組み合わせたストリング間距離
(s,s)=D(s,s)+D(s,s) [4]
を計算することができる。また、Dは交換可能ではないので、代替のストリング間距離は、
(s,s)=D(s,s)+D(s,s) [5]
となる。
[0056] 幾つかの実施形態では、ステップ112(図9)は、D(T,R)および/またはD(T,R)を計算することを含み、ここで、Tは、ターゲット・ストリング42を示し、Rは、参照ヒストグラム64と関連する参照ストリングを示す。代替的には、スパム検出器は、D(T,R)、D(R,T)、および/またはD(T,R)を計算することができる。次に、ステップ114は、ターゲット・ヒストグラム60と参照ヒストグラム64との間での一致があったかどうかを判定する。
[0057] 幾つかの実施形態では、ヒストグラムの一致は、ストリング間距離が所定のスレッショルドよりも小さいことを必要とする。例えば、ヒストグラムの一致は、D<tまたはD<tであること、またはDとDとの双方がそれぞれのスレッショルドより低いことを、必要とし得る。代替的には、ヒストグラムの一致は、D=D+D<tであることを必要とする。更に別の実施形態では、一致が成立するためには、D(T,R)とD(R,T)との双方が1つのスレッショルドよりも低いこと、またはD<tであることを必要とする。スレッショルド値tは、比較されているストリングから独立させることも、ターゲット・ストリング42のストリング長および/または異なるキャラクターの数に従って変化させることもできる。幾つかの実施形態では、比較的長いストリングや、異なるキャラクターの数が比較的大きいストリングに対しては、高いスレッショルド値が用いられる。
[0058] ヒストグラム60と64との間に一致が見られたとき、スパム検出器32はステップ116へ進み、そのステップで、それぞれのメッセージ・クラスターは、ターゲット・ストリング42を受け取るのに適格であるとマーク付けされる。ヒストグラムが一致しない場合、スパム検出器32はステップ108へ戻る。ステップ106において選択された全てのメッセージ・クラスターが、ヒストグラムの比較により評価されたとき、ステップ118は、ターゲット・ストリング42を受け取るために何れかのクラスターが適格であるかどうかを判定する。そうである場合、ステップ122において、スパム検出器32は、それぞれの適格なクラスターに対して、ターゲット・ストリング42がそれぞれのクラスターの全メンバーにどれだけ似ているかを示すストリング対クラスター類似性インジケーター(string-to-cluster similarity indicator)を、計算することができる。それぞれの適格なクラスターの例示のストリング対クラスター類似性インジケーターは、ターゲット・ヒストグラム60と一致する参照ヒストグラムを有するクラスター・メンバーの断片(fraction)を含む。
[0059] 次に、ステップ124は、ターゲット・ストリング42を、それが最も似ているメッセージ・クラスターへ実際に割り当てる。幾つかの実施形態では、ターゲット・ストリング42は、ステップ122で決定された最高のストリング対クラスター類似性インジケーターを持つクラスターへ、割り当てられる。クラスター化エンジン38は、新たなクラスター・メンバーの追加を反映するように、クラスター割り当てデータを更新することができ、ターゲット・ストリング42のレコードを、スパム防止データベース30へ導入させることができる。幾つかの実施形態では、ステップ124は更に、ターゲット・メッセージを受け取るクラスターと関連するスパム識別用パラメーターのセットの決定を含む。例えば、幾つかの実施形態は、同じクラスター内で、連続するタイムスタンプ間の経過した時間間隔を計算することができる。そのようなパラメーターは、各クラスターと関連してセーブすることができ、また、特定のクラスターがスパム・メッセージを含むか正当なメッセージを含むかや、特定のクラスターがスパム・ウェーブを表す可能性があるかどうかを、自動的に(人間のオペレーターの監督無しで)判定するために用いることができる。
[0060] ターゲット・ストリングを受け取るための適格なクラスターが発見されない場合(ステップ118)、スパム防止データベースへ格納された何れのものともターゲット・ストリング42は異なる可能性があることを示し、ステップ120において、クラスター化エンジン38は、単独のメンバーとしてそのターゲット・ストリングを持つ新たなクラスターを作成することができ、そのターゲット・ストリングのレコードをスパム防止データベース30へセーブすることができる。
[0061] ステップ126において、スパム検出器32は、ターゲット通信をスパムまたは正当と識別するターゲット・ラベル50を決定することができる。幾つかの実施形態では、ターゲット通信がスパムであるかどうかの判断は、ターゲット・ストリング42のクラスター割り当てに従って行われる。ストリング42が、主にスパム・メッセージからなるクラスターへ割り当てられると、ターゲット・メッセージも、スパム・ラベルを受け取り得る。
[0062] 幾つかの実施形態では、ラベル50は、ターゲット・メッセージが割り当てられたクラスターのメンバーの特定のスパム識別用特徴に従って、決定される。1つのそのようなスパム識別用特徴は、タイムスタンプ48である。短い時間間隔での多数の新たなメンバーの割り当ては、それぞれのクラスターがスパム・メッセージのウェーブからなることを示すものであり得る。幾つかの実施形態では、スパム検出器32は、クラスターのメンバーと関連する複数のタイムスタンプの間の経過した時間間隔、例えば、そのクラスターへ6つのメンバーが割り当てられる最短時間間隔を、判定することができ、時間間隔が所定のスレッショルドより低下したとき、それぞれのクラスターをスパムとマーク付けすることができる。幾つかの実施形態では、クラスター・メンバーのカウントを、スパム識別用特徴として用いることができる。クラスターが所定数を超えたメンバーを得るときには、それぞれのクラスターはスパムとマーク付けされ得る。
[0063] 上述の例示のシステムおよび方法は、ブログ・コメント、ソーシャル・ネットワーク・サイトへポストされたコメントなどの形態のインターネット上のユーザーの作成したコンテンツの形態、およびEメール・メッセージ、インスタント・メッセージ、および電話テキストおよびマルチメディア・メッセージの形態の、一方的に送られてくる通信を、スパム防止システムが検出することを可能にする。
[0064] 幾つかの実施形態では、コンピューター・システムは、キャラクターのターゲット・ストリングを、ブログ・コメントなどのような電子通信から抽出し、それをスパム防止サーバーへ送り、スパム防止サーバーから、それぞれの電子通信がスパムであるか非スパムであるかのインジケーターを受け取る。電子通信がスパムであるとき、コンピューター・システムは、その電子通信を、ブロック、隔離、消去することや、任意の他の方法で表示の制限を行うことができ、且つ/又はユーザーへ警告を発することができる。
[0065] スパム防止サーバーは、ターゲット・ストリング内の特定のキャラクターの発生の周波数に従って、電子通信がスパムであるか非スパムであるかを決定する。ターゲット・ストリングのキャラクター・ヒストグラムが計算され、それが、スパム・メッセージと非スパム・メッセージとの双方を含み得る電子通信のコーパスに関して計算されたヒストグラムと、比較される。本発明における説明された方法およびシステムは、2つの類似のストリングは常に類似のキャラクター・ヒストグラムを有する、という観察を利用する。従って、ターゲット・ストリングのヒストグラムと、参照スペクトルに関して計算された別のヒストグラムとの間で一致を見つけることは、ターゲット・ストリングが参照ストリングと似ていることを示すものであり得る。そのような場合、スパム防止サーバーは、参照ストリングがスパムを示すかどうか、例えば、参照ストリングが、スパムとラベル付けされた電子通信のクラスターに属するかどうかに従って、電子通信がスパムであるかどうかを決定する。
[0066] しかし、2つの異なるストリングが非常に似たヒストグラムを有する多くの状況がある。誤って正を示すことを避けるため、2つのストリングが類似であるかどうかの判断を行うときに、ターゲット・ストリングの他の特徴、例えば、タイムスタンプなどを考慮することができる。
[0067] ストリング長が特定のスレッショルドを超えるときには、ヒストグラムの比較は、類似のストリングを識別するための信頼性のある方法ではないこともあり得る。非常に長いストリングに限定すると、全てのストリングは類似のヒストグラムを有し、それらは、単に、それぞれの言語における各キャラクターの発生の自然周波数を示す。従って、ここで説明したシステムおよび方法は、Facebook(登録商標)やTwitter(登録商標)などのようなソーシャル・ネットワーク・サイトのブログのポストやコメントなどのような、電子通信において現れる短いストリングの分析に、特に適する。
[0068] ストリングの比較によるスパム検出の更なる問題は、不明瞭化であり、スパム送信者は、検出を避けるために、メッセージ内の特定のキャラクターを他のキャラクターと置換する(例えば、Vi4gra)。ストリングの不明瞭化は、式[2−3]のように、各キャラクターに固有な重みを用い、各キャラクターのカウントおよび重みに従ってストリング間距離を決定することにより、対処することができる。キャラクター固有の重みは、ストリングの比較の感度のチューニングを可能にする。幾つかの実施形態では、キャラクターは、カテゴリー(例えば、文字、数字、特殊文字)によりグループ化することができ、1つのカテゴリーの全キャラクターが同一のカテゴリー固有の重みを受ける。そのようなグループ化は、テキストの不明瞭化に対処することができる。なぜなら、例えば、ランダムな文字を用いる不明瞭化は、他のタイプのキャラクターを用いるテキスト不明瞭化よりも一般的であるからである。不明瞭化において、特定のキャラクターが他のキャラクターよりも多く使用されるとき、それらへ相対的に小さい重みを割り当てると、同じストリングである2つの不明瞭化されたバージョンの間のストリング間距離を好都合に低減し、その2つのストリングを更に似たものに見えるようにする。
[0069] 本発明の幾つかの実施形態は、コーパスを複数のクラスターへと編成し、レコードの各クラスターは類似のストリングからなる。コーパスの全てのレコードにわたってヒストグラムの比較を行うことに代えて、クラスター化は、ターゲット・ストリングを、クラスターあたりに1つのみの代表ターゲット・ストリングと比較することを可能にし、それにより、計算コストを大幅に低減する。
[0070] クラスター化はまた、自動(監督無し)のスパム検出を容易にする。メッセージの分類が、一般には、例えば、複数の所定のメッセージ・クラスへと以前にソートされたトレーニングコーパスに対して、クラシファイヤー(classifier)の監督されたトレーニングにより達成される、といったような従来のクラスター化の方法とは逆に、本発明の幾つかの実施形態は、クラスターやメッセージのスパム・ステータス(スパムか非スパム)の以前の知識無しで、動的なクラスター化を行う。クラスターは、短い時間間隔に特定数のメンバーを蓄積するときには、スパムを表すものとして自動的に識別することができる。
[0071] コンピューター実験では、22000ブログ・コメントのコーパスが、本発明の幾つかの実施形態に従ってクラスターへと分類された。計算は、3GHzのペンティアム(登録商標)4プロセッサーと、1.5GBのRAMとを装備し、Ubuntu(登録商標) OS 10.04を実行するコンピューター・システムで行われた。分類には約5:00分の計算時間を要し、1より多くのクラスター・メンバーを持つ1741のメッセージ・クラスターを作成し、平均は、クラスターあたり4.13コメントであった。比較すると、ハッシュ・ベースのストリング突き合わせアルゴリズムを用いて同じハードウェア・プラットフォームで実行される従来のクラスター化システムは、7:07分の計算時間で、1より多くのメンバーを持つ1617のクラスターを作成し、平均はクラスターあたり4.26コメントであった。
[0072] 図10A〜Dは、ストリング長が25キャラクターから5500キャラクターの範囲のテスト・ストリングのコレクションを用いて行われたコンピューター実験の結果を示す。ハードウェア構成は上記と同じである。図10Aは、テスト・ストリングの異なるキャラクターの数の関数として、キャラクター・ヒストグラムの作成に要した時間を示す。図10Bは、テスト・ストリングのストリング長の関数として、キャラクター・ヒストグラムの作成に要した時間を示す。ヒストグラムあたりの計算時間は、数ミリ秒から約1ミリ秒までと様々であり、時間とストリング長との間にはほぼ線形の相関があった。
[0073] 図10Cは、テスト・ストリングの異なるキャラクターの数の関数として、ストリング間距離のセットの計算に要した時間を示し、図10Dは、テスト・ストリングのストリング長の関数としてプロットした同じデータを示す。ストリング間距離の計算は、式[2−3]に従った、キャラクターのカウントの決定から行われ、範囲は数マイクロ秒から約500ミリ秒であった。
[0074] 図11は、スパムと非スパムとの双方を含む8676の実際のブログ・コメントのコレクションに関しての、タイムスタンプ・インジケーターに対してプロットされたストリング長を示す。図12は、スパムと非スパムとの双方を含む別の5351の実際のブログ・コメントのコレクションに関しての、タイムスタンプ・インジケーターに対してプロットされた異なるキャラクターの数を示す。図11と図12との双方とも、タイムスタンプ・インジケーターに従ったスパム・メッセージのクラスター化を示し、上述の自動的スパム識別を可能にする。
[0075] 上記の実施形態を、本発明の範囲から離れずに多くの方法で変更でき得ることは、当業者には明らかであろう。従って、本発明の範囲は、特許請求の範囲と、それの法的等価物とにより決定されるべきである。

Claims (28)

  1. 方法であって、
    コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取るステップと、
    前記ターゲット・ストリングを受け取ることに応じて、前記コンピューター・システムを用いて、前記ターゲット・ストリングに従ってストリング適格基準を決定するステップと、
    前記コンピューター・システムを用いて、複数の候補ストリングを作成するように、前記ストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングするステップと、
    前記候補ストリングを選択することに応じて、前記コンピューター・システムを用いて、前記ターゲット・ストリングのキャラクター・ヒストグラムと前記複数の候補ストリングのうちの1つの候補ストリングのキャラクター・ヒストグラムとの間での第1の比較を行い、前記電子通信のタイムスタンプと前記候補ストリングのタイムスタンプとの間での第2の比較を行うステップと、
    前記コンピューター・システムを用いて、前記第1の比較および前記第2の比較の結果に従って、前記電子通信がスパムであるか非スパムであるかを決定するステップと
    を含む方法。
  2. 請求項1に記載の方法であって、参照ストリングの前記コーパスは、複数のクラスターを含み、各クラスターは、相互に類似のストリングのセットを含み、前記複数の候補ストリングの各候補ストリングは、他とは異なる1つのクラスターを表し、前記方法は更に、前記第1の比較を行うことに応じて、前記コンピューター・システムを用いて、前記複数のクラスターからクラスターを選択し、選択されたクラスターへ前記ターゲット・ストリングを割り当てるステップを含む、方法。
  3. 請求項2に記載の方法であって、複数のタイムスタンプに従って、ターゲットの前記通信がスパムであるか非スパムであるかを判定するステップを更に含み、前記複数のタイムスタンプの各タイムスタンプは、選択された前記クラスターのメンバーに対応する、方法。
  4. 請求項2に記載の方法であって、
    選択された前記クラスターへ前記ターゲット・ストリングを割り当てることに応じて、選択された前記クラスターのクラスター・メンバーのカウントを決定するステップと、
    クラスター・メンバーの前記カウントに従って、前記電子通信がスパムであるか非スパムであるかを判定するステップと
    を更に含む方法。
  5. 請求項2に記載の方法であって、選択された前記クラスターに従って、前記電子通信を、選択されたスパム・ウェーブに属するものと識別するステップを更に含む方法。
  6. 請求項1に記載の方法であって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングの第1ストリング長と、前記コーパスの1つの参照ストリングの第2ストリング長とを決定するステップと、
    前記第1ストリング長が、所定のスレッショルドよりも小さい量だけ前記第2ストリング長と異なるとき、前記参照ストリングを候補ストリングのセットへ追加するステップと
    を含む、方法。
  7. 請求項1に記載の方法であって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングにおける異なるキャラクターの第1カウントと、前記コーパスの1つの参照ストリングにおける異なるキャラクターの第2カウントとを決定するステップと、
    前記第1カウントが、所定のスレッショルドよりも小さい量だけ前記第2カウントと異なるとき、前記参照ストリングを候補ストリングのセットへ追加するステップと
    を含む、方法。
  8. 請求項1に記載の方法であって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングの第1ストリング・スコアを、
    Figure 2015513133
    という関数として決定するステップであって、pは、前記ターゲット・ストリングの第iのキャラクターのASCIIコードを示し、wは、キャラクター固有の重みを示す、ステップと、
    前記コーパスの1つの参照ストリングの第2ストリング・スコアを決定するステップと、
    前記第1ストリング・スコアが、所定のスレッショルドよりも小さい量だけ前記第2ストリング・スコアと異なるとき、前記参照ストリングを候補ストリングのセットへ追加するステップと
    を含む、方法。
  9. 請求項1に記載の方法であって、前記第1の比較を行うことは、ストリング間距離を、
    Figure 2015513133
    という関数として決定することを含み、Tは、前記ターゲット・ストリングのキャラクターのセットを示し、Cは、前記候補ストリングのキャラクターのセットを示し、N は、前記ターゲット・ストリング内でのキャラクターiの発生のカウントを示し、N は、前記候補ストリング内でのキャラクターiの発生のカウントを示し、wは、キャラクターiのキャラクター固有の重みである、方法。
  10. 請求項9に記載の方法であって、前記ストリング間距離は更に、
    Figure 2015513133
    という関数として決定され、キャラクターjは、前記ターゲット・ストリング内にあるが前記候補ストリング内にはなく、wは、キャラクターjのキャラクター固有の重みであり、cは、前記ターゲット・ストリングのストリング長に従って選択された数である、方法。
  11. 請求項1に記載の方法であって、前記第1の比較を行うことは、ストリング間距離を、
    Figure 2015513133
    という関数として決定することを含み、Tは、前記ターゲット・ストリングのキャラクターのセットを示し、Cは、前記候補ストリングのキャラクターのセットを示し、キャラクターiは、前記ターゲット・ストリング内にあるが前記候補ストリング内にはなく、wは、キャラクターiのキャラクター固有の重みであり、cは、前記ターゲット・ストリングのストリング長に従って選択された数である、方法。
  12. 請求項1に記載の方法であって、前記電子通信はブログ・コメントを含む、方法。
  13. 請求項1に記載の方法であって、前記電子通信は、ソーシャル・ネットワーク・サイトへポストされるメッセージを含む、方法。
  14. 少なくとも1つのプロセッサーを含むコンピューター・システムであって、該少なくとも1つのプロセッサーは、
    電子通信の一部を形成するターゲット・ストリングを受け取り、
    前記ターゲット・ストリングを受け取ることに応じて、前記ターゲット・ストリングに従ってストリング適格基準を決定し、
    複数の候補ストリングを作成するように、前記ストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングし、
    前記候補ストリングを選択することに応じて、前記ターゲット・ストリングのキャラクター・ヒストグラムと前記複数の候補ストリングのうちの1つの候補ストリングのキャラクター・ヒストグラムとの間での第1の比較を行い、前記電子通信のタイムスタンプと前記候補ストリングのタイムスタンプとの間での第2の比較とを行い、
    前記第1の比較および前記第2の比較の結果に従って、前記電子通信がスパムであるか非スパムであるかを決定する
    ようにプログラムされた、コンピューター・システム。
  15. 請求項14に記載のコンピューター・システムであって、参照ストリングの前記コーパスは、複数のクラスターを含み、各クラスターは、相互に類似のストリングのセットを含み、前記複数の候補ストリングの各候補ストリングは、他とは異なる1つのクラスターを表し、前記プロセッサーは更に、前記第1の比較を行うことに応じて、前記複数のクラスターからクラスターを選択し、選択されたクラスターへ前記ターゲット・ストリングを割り当てるようにプログラムされた、コンピューター・システム。
  16. 請求項15に記載のコンピューター・システムであって、複数のタイムスタンプに従って、ターゲットの前記通信がスパムであるか非スパムであるかを判定することを更に含み、前記複数のタイムスタンプの各タイムスタンプは、選択された前記クラスターのメンバーに対応する、コンピューター・システム。
  17. 請求項15に記載のコンピューター・システムであって、前記プロセッサーは更に、
    選択された前記クラスターへ前記ターゲット・ストリングを割り当てることに応じて、選択された前記クラスターのクラスター・メンバーのカウントを決定し、
    クラスター・メンバーの前記カウントに従って、前記電子通信がスパムであるか非スパムであるかを判定する
    ようにプログラムされた、コンピューター・システム。
  18. 請求項15に記載のコンピューター・システムであって、前記プロセッサーは更に、選択された前記クラスターに従って、前記電子通信を、選択されたスパム・ウェーブに属するものと識別するようにプログラムされた、コンピューター・システム。
  19. 請求項14に記載のコンピューター・システムであって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングの第1ストリング長と、前記コーパスの1つの参照ストリングの第2ストリング長とを決定することと、
    前記第1ストリング長が、所定のスレッショルドよりも小さい量だけ前記第2ストリング長と異なるとき、前記参照ストリングを候補ストリングのセットへ追加することと
    を含む、コンピューター・システム。
  20. 請求項14に記載のコンピューター・システムであって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングにおける異なるキャラクターの第1カウントと、前記コーパスの1つの参照ストリングにおける異なるキャラクターの第2カウントとを決定することと、
    前記第1カウントが、所定のスレッショルドよりも小さい量だけ前記第2カウントと異なるとき、前記参照ストリングを候補ストリングのセットへ追加することと
    を含む、コンピューター・システム。
  21. 請求項14に記載のコンピューター・システムであって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングの第1ストリング・スコアを、
    Figure 2015513133
    という関数であって、pは、前記ターゲット・ストリングの第iのキャラクターのASCIIコードを示し、wは、キャラクター固有の重みを示す関数として決定することと、
    前記コーパスの1つの参照ストリングの第2ストリング・スコアを決定することと、
    前記第1ストリング・スコアが、所定のスレッショルドよりも小さい量だけ前記第2ストリング・スコアと異なるとき、前記参照ストリングを候補ストリングのセットへ追加することと
    を含む、コンピューター・システム。
  22. 請求項14に記載のコンピューター・システムであって、前記第1の比較を行うことは、ストリング間距離を、
    Figure 2015513133
    という関数として決定することを含み、Tは、前記ターゲット・ストリングのキャラクターのセットを示し、Cは、前記候補ストリングのキャラクターのセットを示し、N は、前記ターゲット・ストリング内でのキャラクターiの発生のカウントを示し、N は、前記候補ストリング内でのキャラクターiの発生のカウントを示し、wは、キャラクターiのキャラクター固有の重みである、コンピューター・システム。
  23. 請求項22に記載のコンピューター・システムであって、前記ストリング間距離は更に、
    Figure 2015513133
    という関数として決定され、キャラクターjは、前記ターゲット・ストリング内にあるが前記候補ストリング内にはなく、wは、キャラクターjのキャラクター固有の重みであり、cは、前記ターゲット・ストリングのストリング長に従って選択された数である、コンピューター・システム。
  24. 請求項14に記載のコンピューター・システムであって、前記第1の比較を行うことは、ストリング間距離を、
    Figure 2015513133
    という関数として決定することを含み、Tは、前記ターゲット・ストリングのキャラクターのセットを示し、Cは、前記候補ストリングのキャラクターのセットを示し、キャラクターiは、前記ターゲット・ストリング内にあるが前記候補ストリング内にはなく、wは、キャラクターiのキャラクター固有の重みであり、cは、前記ターゲット・ストリングのストリング長に従って選択された数である、コンピューター・システム。
  25. 請求項14に記載のコンピューター・システムであって、前記電子通信はブログ・コメントを含む、コンピューター・システム。
  26. 請求項14に記載のコンピューター・システムであって、前記電子通信は、ソーシャル・ネットワーク・サイトへポストされるメッセージを含む、コンピューター・システム。
  27. 方法であって、
    コンピューター・システムを用いて、電子通信を受け取るステップと、
    前記電子通信を受け取ることに応じて、前記コンピューター・システムを用いて、前記電子通信からターゲット・ストリングを抽出するステップと、
    前記コンピューター・システムを用いて、スパム防止サーバーへ前記ターゲット・ストリングを送るステップと、
    前記ターゲット・ストリングを送ることに応じて、前記電子通信がスパムであるか非スパムであるかを示すターゲット・ラベルを受け取るステップと
    を含み、前記ターゲット・ラベルは前記スパム防止サーバーで決定され、前記ターゲット・ラベルを決定することは、
    前記スパム防止サーバーを用いて、前記ターゲット・ストリングに従って適格基準を決定するステップと、
    前記スパム防止サーバーを用いて、複数の候補ストリングを作成するように、前記基準の条件に従って参照ストリングのコーパスをプレフィルタリングするステップと、
    前記候補ストリングを選択することに応じて、前記スパム防止サーバーを用いて、前記ターゲット・ストリングのキャラクター・ヒストグラムと前記複数の候補ストリングのうちの1つの候補ストリングのキャラクター・ヒストグラムとの間での第1の比較を行い、前記電子通信のタイムスタンプと前記候補ストリングのタイムスタンプとの間での第2の比較を行うステップと、
    前記スパム防止サーバーを用いて、前記第1の比較および前記第2の比較の結果に従って前記ターゲット・ラベルを決定するステップと
    を含む、方法。
  28. 方法であって、
    コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取るステップと、
    前記ターゲット・ストリングを受け取ることに応じて、前記コンピューター・システムを用いて、前記ターゲット・ストリングに従ってストリング適格基準を決定するステップと、
    前記コンピューター・システムを用いて、複数の候補ストリングを作成するように、前記ストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングするステップと、
    前記候補ストリングを選択することに応じて、前記コンピューター・システムを用いて、前記ターゲット・ストリングが前記複数の候補ストリングのうちの1つの候補ストリングから離れているストリング間距離を決定し、前記ストリング間距離は、前記ターゲット・ストリング内での選択されたキャラクターの発生のカウント、および前記候補ストリング内での選択された前記キャラクターの発生のカウントに従って決定される、ステップと、
    前記コンピューター・システムを用いて、前記ストリング間距離に従って、前記電子通信がスパムであるか非スパムであるかを判定するステップと
    を含む方法。
JP2014554685A 2012-01-25 2012-09-05 キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 Active JP5990284B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/358,358 US8954519B2 (en) 2012-01-25 2012-01-25 Systems and methods for spam detection using character histograms
US13/358,358 2012-01-25
PCT/RO2012/000023 WO2013112062A1 (en) 2012-01-25 2012-09-05 Systems and methods for spam detection using character histograms

Publications (2)

Publication Number Publication Date
JP2015513133A true JP2015513133A (ja) 2015-04-30
JP5990284B2 JP5990284B2 (ja) 2016-09-07

Family

ID=47891882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014554685A Active JP5990284B2 (ja) 2012-01-25 2012-09-05 キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法

Country Status (13)

Country Link
US (1) US8954519B2 (ja)
EP (1) EP2807802B1 (ja)
JP (1) JP5990284B2 (ja)
KR (1) KR101686147B1 (ja)
CN (1) CN104067567B (ja)
AU (1) AU2012367398B2 (ja)
CA (1) CA2859131C (ja)
ES (1) ES2732824T3 (ja)
HK (1) HK1198850A1 (ja)
IL (1) IL233058B (ja)
RU (1) RU2601193C2 (ja)
SG (1) SG11201403442QA (ja)
WO (1) WO2013112062A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8601114B1 (en) * 2010-05-21 2013-12-03 Socialware, Inc. Method, system and computer program product for interception, quarantine and moderation of internal communications of uncontrolled systems
CN103580939B (zh) * 2012-07-30 2018-03-20 腾讯科技(深圳)有限公司 一种基于账号属性的异常消息检测方法及设备
US9251133B2 (en) * 2012-12-12 2016-02-02 International Business Machines Corporation Approximate named-entity extraction
US9465789B1 (en) * 2013-03-27 2016-10-11 Google Inc. Apparatus and method for detecting spam
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
US20150095305A1 (en) * 2013-09-30 2015-04-02 International Business Machines Corporation Detecting multistep operations when interacting with web applications
US10089411B2 (en) * 2014-01-02 2018-10-02 Neustar Inc. Method and apparatus and computer readable medium for computing string similarity metric
US9953163B2 (en) * 2014-02-23 2018-04-24 Cyphort Inc. System and method for detection of malicious hypertext transfer protocol chains
CN103955645B (zh) * 2014-04-28 2017-03-08 百度在线网络技术(北京)有限公司 恶意进程行为的检测方法、装置及系统
US9720977B2 (en) * 2014-06-10 2017-08-01 International Business Machines Corporation Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
KR101691135B1 (ko) 2015-01-20 2017-01-09 (주)유미테크 형태소 분석, 구문 분석 서비스를 위한 오픈 에이피아이 웹 서비스 시스템
US11170053B2 (en) * 2015-06-09 2021-11-09 AVAST Software s.r.o. Length of the longest common subsequence algorithm optimization
US9954804B2 (en) 2015-07-30 2018-04-24 International Business Machines Coporation Method and system for preemptive harvesting of spam messages
US10320815B2 (en) * 2016-05-23 2019-06-11 GreatHorn, Inc. Computer-implemented methods and systems for identifying visually similar text character strings
RU2634180C1 (ru) 2016-06-24 2017-10-24 Акционерное общество "Лаборатория Касперского" Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте
CN106817297B (zh) * 2017-01-19 2019-11-26 华云数据(厦门)网络有限公司 一种通过html标签识别垃圾邮件的方法
US11528242B2 (en) * 2020-10-23 2022-12-13 Abnormal Security Corporation Discovering graymail through real-time analysis of incoming email

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293573A (ja) * 2005-04-08 2006-10-26 Yaskawa Information Systems Co Ltd 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
JP2008529105A (ja) * 2004-11-04 2008-07-31 ヴェリセプト コーポレーション クラスタリング及び分類のための方法、装置、及びシステム
JP2009230663A (ja) * 2008-03-25 2009-10-08 Kddi Corp ウェブページの異常検知装置、プログラム、および記録媒体

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9220404D0 (en) 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5828999A (en) 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US6732149B1 (en) 1999-04-09 2004-05-04 International Business Machines Corporation System and method for hindering undesired transmission or receipt of electronic messages
US20040073617A1 (en) 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
US7321922B2 (en) 2000-08-24 2008-01-22 Yahoo! Inc. Automated solicited message detection
GB2366706B (en) 2000-08-31 2004-11-03 Content Technologies Ltd Monitoring electronic mail messages digests
AUPR033800A0 (en) 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
EP1402408A1 (en) * 2001-07-04 2004-03-31 Cogisum Intermedia AG Category based, extensible and interactive system for document retrieval
US7657935B2 (en) * 2001-08-16 2010-02-02 The Trustees Of Columbia University In The City Of New York System and methods for detecting malicious email transmission
US7870203B2 (en) * 2002-03-08 2011-01-11 Mcafee, Inc. Methods and systems for exposing messaging reputation to an end user
US20030204569A1 (en) * 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US7249162B2 (en) * 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
US7320020B2 (en) * 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
GB2405229B (en) * 2003-08-19 2006-01-11 Sophos Plc Method and apparatus for filtering electronic mail
US7392262B1 (en) * 2004-02-11 2008-06-24 Aol Llc Reliability of duplicate document detection algorithms
US8214438B2 (en) * 2004-03-01 2012-07-03 Microsoft Corporation (More) advanced spam detection features
US7555523B1 (en) 2004-05-06 2009-06-30 Symantec Corporation Spam discrimination by generalized Ngram analysis of small header fields
US8731986B2 (en) * 2004-07-19 2014-05-20 Steve Angelica Modulated cascading electronic messaging network
US20060149820A1 (en) 2005-01-04 2006-07-06 International Business Machines Corporation Detecting spam e-mail using similarity calculations
WO2007131545A2 (en) * 2005-12-09 2007-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A method and apparatus for automatic comparison of data sequences
US7529719B2 (en) 2006-03-17 2009-05-05 Microsoft Corporation Document characterization using a tensor space model
US7751620B1 (en) 2007-01-25 2010-07-06 Bitdefender IPR Management Ltd. Image spam filtering systems and methods
US7743003B1 (en) * 2007-05-16 2010-06-22 Google Inc. Scaling machine learning using approximate counting that uses feature hashing
US9083556B2 (en) * 2007-05-31 2015-07-14 Rpx Clearinghouse Llc System and method for detectng malicious mail from spam zombies
US8229833B2 (en) 2007-09-28 2012-07-24 International Securities Exchange, Llc Simplified quote sharing calculation
JP5040718B2 (ja) * 2008-02-21 2012-10-03 日本電気株式会社 スパム・イベント検出装置及び方法並びにプログラム
US8055078B2 (en) 2008-02-28 2011-11-08 Yahoo! Inc. Filter for blocking image-based spam
US8156063B1 (en) * 2008-04-21 2012-04-10 Hewlett-Packard Development Company, L.P. Decision making based on changes input to a database
US8001195B1 (en) * 2008-08-26 2011-08-16 Kaspersky Lab, Zao Spam identification using an algorithm based on histograms and lexical vectors (one-pass algorithm)
US8295651B2 (en) 2008-09-23 2012-10-23 Microsoft Corporation Coherent phrase model for efficient image near-duplicate retrieval
US20100082749A1 (en) * 2008-09-26 2010-04-01 Yahoo! Inc Retrospective spam filtering
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置
US8718318B2 (en) 2008-12-31 2014-05-06 Sonicwall, Inc. Fingerprint development in image based spam blocking
CN101938711B (zh) * 2009-06-30 2015-09-09 国际商业机器公司 用于垃圾消息检测的方法和设备
CN103140889B (zh) * 2010-09-29 2015-01-07 Nec卡西欧移动通信株式会社 语音转换装置、便携电话终端、语音转换方法
US9450781B2 (en) 2010-12-09 2016-09-20 Alcatel Lucent Spam reporting and management in a communication network
EP2659363A4 (en) * 2010-12-30 2016-06-29 Kyle Kleinbart SYSTEM AND METHOD FOR ONLINE COMMUNICATION MANAGEMENT
US20120215853A1 (en) * 2011-02-17 2012-08-23 Microsoft Corporation Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008529105A (ja) * 2004-11-04 2008-07-31 ヴェリセプト コーポレーション クラスタリング及び分類のための方法、装置、及びシステム
JP2006293573A (ja) * 2005-04-08 2006-10-26 Yaskawa Information Systems Co Ltd 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
JP2009230663A (ja) * 2008-03-25 2009-10-08 Kddi Corp ウェブページの異常検知装置、プログラム、および記録媒体

Also Published As

Publication number Publication date
US8954519B2 (en) 2015-02-10
KR20140116410A (ko) 2014-10-02
CN104067567A (zh) 2014-09-24
KR101686147B1 (ko) 2016-12-13
EP2807802B1 (en) 2019-04-03
RU2014133875A (ru) 2016-03-20
ES2732824T3 (es) 2019-11-26
US20130191469A1 (en) 2013-07-25
AU2012367398B2 (en) 2016-10-20
RU2601193C2 (ru) 2016-10-27
JP5990284B2 (ja) 2016-09-07
HK1198850A1 (en) 2015-06-12
CA2859131C (en) 2020-04-21
IL233058B (en) 2018-01-31
WO2013112062A1 (en) 2013-08-01
IL233058A0 (en) 2014-07-31
AU2012367398A1 (en) 2014-07-03
SG11201403442QA (en) 2014-10-30
EP2807802A1 (en) 2014-12-03
CA2859131A1 (en) 2013-08-01
CN104067567B (zh) 2017-08-25
WO2013112062A8 (en) 2014-07-17

Similar Documents

Publication Publication Date Title
JP5990284B2 (ja) キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法
JP5941163B2 (ja) キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法
JP6068506B2 (ja) オンライン不正行為の検出の動的採点集計のシステムおよび方法
US9203852B2 (en) Document classification using multiscale text fingerprints
US10454967B1 (en) Clustering computer security attacks by threat actor based on attack features
Dangwal et al. Feature selection for machine learning-based phishing websites detection
Naru et al. Detection of Fake Websites using Machine Learning Techniques
Satane et al. Survey paper on phishing detection: Identification of malicious URL using Bayesian classification on social network sites
CN116318781A (zh) 钓鱼邮件检测方法、装置、电子设备及可读存储介质
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160301

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160812

R150 Certificate of patent or registration of utility model

Ref document number: 5990284

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250