JP2015506642A - キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法 - Google Patents

キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法 Download PDF

Info

Publication number
JP2015506642A
JP2015506642A JP2014554684A JP2014554684A JP2015506642A JP 2015506642 A JP2015506642 A JP 2015506642A JP 2014554684 A JP2014554684 A JP 2014554684A JP 2014554684 A JP2014554684 A JP 2014554684A JP 2015506642 A JP2015506642 A JP 2015506642A
Authority
JP
Japan
Prior art keywords
string
target
spam
computer system
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014554684A
Other languages
English (en)
Other versions
JP5941163B2 (ja
Inventor
ディチウ,ダニエル
ルプセスク,ゼ・ルチアン
Original Assignee
ビットディフェンダー アイピーアール マネジメント リミテッド
ビットディフェンダー アイピーアール マネジメント リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ビットディフェンダー アイピーアール マネジメント リミテッド, ビットディフェンダー アイピーアール マネジメント リミテッド filed Critical ビットディフェンダー アイピーアール マネジメント リミテッド
Publication of JP2015506642A publication Critical patent/JP2015506642A/ja
Application granted granted Critical
Publication of JP5941163B2 publication Critical patent/JP5941163B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/16Communication-related supplementary services, e.g. call-transfer or call-hold

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

ストリングの識別と、プレフィルタリングと、周波数スペクトル及びタイムスタンプの比較とのステップを含む、ここで説明するスパム検出技術は、永続性の低いウェーブで到達するものであり素早く変化するスパムに対しての、正確で計算効率の高い検出を容易にする。幾つかの実施形態では、コンピューター・システムは、ブログ・コメントなどのような電子通信からターゲット・キャラクター・ストリングを抽出し、それをスパム防止サーバーへ送り、その電子通信がスパムであるか非スパムであるかのインジケーターをスパム防止サーバーから受け取る。スパム防止サーバーは、ターゲット・ストリングの周波数スペクトルの特徴に従って、電子通信がスパムであるか非スパムであるかを判定する。幾つかの実施形態はまた、監督無しで、入来するターゲット・ストリングをクラスターへとクラスター化し、1つのクラスターの全メンバーは類似のスペクトルを有する。

Description

[0001] 本発明は、電子通信を分類する方法およびシステムと関連し、特に、一方的に送られてくる商業的電子通信(スパム)をフィルタリングするシステムおよび方法と関連する。
[0002] スパムとしても知られている一方的に送られてくる商業的電子通信は、世界中の全ての通信トラフィックの中の多くの部分を占め、コンピューターおよび電話のメッセージング・サービスに影響を及ぼしている。スパムは多くの形態をとることができ、それは、一方的に送られてくるEメール通信から、ブログやソーシャル・ネットワーク・サイトなどのような様々なインターネット・サイトについてのユーザー・コメントを装うスパム・メッセージまである。スパムは、貴重なハードウェア・リソースを取り上げてしまい、生産性に影響を及ぼし、通信サービスおよび/またはインターネットの多くのユーザーからは不快であり邪魔であると考えられている。
[0003] Eメール・スパムの場合、ユーザーまたはEメール・サービス・プロバイダーのコンピューター・システムで実行されるソフトウェアを用いて、Eメール・メッセージをスパムまたは非スパムに分類すること、更には、様々な種類のスパム・メッセージ(例えば、製品の売り出し、アダルト・コンテンツ、Eメール詐欺)を区別することができる。次に、スパム・メッセージは、特別のフォルダーへ送る又は削除することができる。
[0004] 同様に、コンテンツ・プロバイダーのコンピューター・システムで実行されるソフトウェアを用いて、ウェブサイトへポストされた不正メッセージをインターセプトし、そのそれぞれのメッセージが表示されることを妨げることができ、また、そのそれぞれのメッセージがスパムであり得ることの警告を、ウェブサイトのユーザーに対して表示することができる。
[0005] スパム・メッセージを識別するための幾つかのアプローチが提案されており、それらは、メッセージの発信元のアドレスを既知の問題のあるアドレスまたは信頼のあるアドレスのリストと突き合わせること(ブラックリスティングおよびホワイトリスティングとそれぞれ呼ばれる技術)、特定の単語や単語パターン(例えば、refinancing、Viagra(R)、stock(借り換え、バイアグラ(登録商標)、株))をサーチすること、およびメッセージのヘッダーを分析することを含む。特徴の抽出/突き合わせの方法は、しばしば、自動データ分類方法(例えば、ベイジアン・フィルタリング、ニューラル・ネットワーク)と関連して用いられる。
[0006] スパムは、しばしば、スパム・ウェーブとしても知られる速い連続する類似のメッセージのグループで、到着する。スパムの形およびコンテンツは、1つのスパム・ウェーブから別のスパム・ウェーブへと実質的に変化し得るので、連続的な検出は、新たなスパム・ウェーブに対して迅速に認識および反応することができる方法およびシステムから利益を得られる。
[0007] 1つの態様によると、方法は、コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取ることと、ターゲット・ストリングを、数字のシーケンス(a sequence of numbers)からなるターゲット信号へと処理することと、ターゲット信号の各キャラクターが数字のシーケンスの1つの数にマップされることと、ターゲット・ストリングに従ってストリング適格基準(string eligibility criterion)を決定することと、ストリング適格基準に従って参照ストリングのコーパス(corpus)をプレフィルタリングして、複数の候補ストリングを作成することとを含む。候補ストリングを選択することに応じて、コンピューター・システムを更に用いて、ターゲット信号の周波数スペクトル(frequency spectrum)と、複数の候補ストリングのうちの1つの候補ストリングに関して決定された周波数スペクトルとの比較を行い、その比較の結果に従って、電子通信がスパムであるか非スパムであるかを判定する。
[0008] 別の態様では、コンピューター・システムは少なくとも1つのプロセッサーを含み、電子通信の一部を形成するターゲット・ストリングを受け取るようにプログラムされ、且つターゲット・ストリングを、数字のシーケンスからなるターゲット信号へと処理するようにプログラムされ、ターゲット信号の各キャラクターは数字のシーケンスの1つの数にマップされるものであり、且つターゲット・ストリングを受け取ることに応じて、ターゲット・ストリングに従ってストリング適格基準を決定するようにプログラムされ、且つストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングして、複数の候補ストリングを作成するようにプログラムされる。プロセッサーは更に、ターゲット信号の周波数スペクトルと、複数の候補ストリングのうちの1つの候補ストリングに関して決定された周波数スペクトルとの比較を行い、その比較の結果に従って、電子通信がスパムであるか非スパムであるかを判定するようにプログラムされる。
[0009] 別の態様によると、方法は、コンピューター・システムを用いて、電子通信を受け取ることと、電子通信からからターゲット・ストリングを抽出することと、ターゲット・ストリングをスパム防止サーバーへ送ることと、電子通信がスパムであるか非スパムであるかを示すターゲット・ラベルを受け取ることとを含み、ターゲット・ラベルはスパム防止サーバーで決定される。ターゲット・ラベルを決定することは、スパム防止サーバーを用いて、キャラクターのターゲット・ストリングを、数字のシーケンスからなるターゲット信号へと処理することと、ターゲット信号の各キャラクターが数字のシーケンスの1つの数にマップされることと、ターゲット・ストリングに従って適格基準を決定することと、適格基準に従って参照ストリングのコーパスをプレフィルタリングして、複数の候補ストリングを作成することと、候補ストリングを選択することに応じて、ターゲット信号の周波数スペクトルと、複数の候補ストリングのうちの1つの候補ストリングに関して決定された周波数スペクトルとの比較を行うことと、その比較の結果に従って、電子通信がスパムであるか非スパムであるかを判定することとを含む。
[0010] 1つの態様によると、方法は、コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取ることと、ターゲット・ストリングを、数字のシーケンスからなるターゲット信号へと処理することと、ターゲット信号の各キャラクターが数字のシーケンスの1つの数にマップされることと、ターゲット・ストリングに従ってストリング適格基準を決定することと、ストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングして、複数の候補ストリングを作成することとを含む。候補ストリングを選択することに応じて、コンピューター・システムを更に用いて、ターゲット・ストリングが複数の候補ストリングのうちの1つの候補ストリングから離れているストリング間距離を決定し、ストリング間距離は、ターゲット信号の周波数スペクトルの第1振幅に従って、および候補ストリングに対して決定された周波数スペクトルの第2振幅に従って決定し、その比較の結果に従って、電子通信がスパムであるか非スパムであるかを判定する。
[0011] 別の態様によると、方法は、コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取ることと、ターゲット・ストリングを、数字のシーケンスからなるターゲット信号へと処理することと、ターゲット信号の各キャラクターは数字のシーケンスの1つの数にマップされることと、ターゲット信号の周波数スペクトルを決定することとを含む。方法は更に、ターゲット信号の周波数スペクトルと、参照ストリングのセットから選択された参照ストリングに関して決定された周波数スペクトルとの比較を行うことと、その比較の結果に従って、ターゲット通信がスパムであるか非スパムであるかを判定することとを含む。
[0012] 本発明の上記の態様および利点は、後の説明を読み、図面を参照すると、より良く理解できるであろう。
図1は、本発明の幾つかの実施形態に従った例示のスパム防止システムを示す。 図2は、本発明の幾つかの実施形態に従ったサーバー・コンピューター・システムの例示のハードウェア構成を示す。 図3aは、本発明の幾つかの実施形態に従った、クライアント・コンピューターとスパム防止サーバーとの間での例示のスパム検出トランザクションを示す。 図3bは、本発明の幾つかの実施形態に従った、コンテンツ・サーバーとスパム防止サーバーとの間での例示のスパム検出トランザクションを示す。 図4は、本発明の幾つかの実施形態に従ったターゲット通信の例示のターゲット・インジケーターを示し、インジケーターは、ターゲット・ストリングと、追加のスパム識別用データとを含む。 図5は、本発明の幾つかの実施形態に従ったスパム防止サーバーで実行される例示のアプリケーションのセットの図を示す。 図6は、本発明の幾つかの実施形態に従った、ターゲット・ストリングと関連する例示のターゲット信号および例示のターゲット・スペクトルを示す。 図7は、本発明の幾つかの実施形態に従った、図1のスパム防止サーバーで動作する例示のスパム・デデクター・アプリケーションを示す。 図8は、本発明の幾つかの実施形態に従った複数のクラスターを示し、各クラスターは、類似のアイテムのコレクションを含み、特徴ハイパースペースで表される。 図9は、本発明の幾つかの実施形態に従った、図7のスパム検出器により行われる例示のステップのシーケンスを示す。 図10Aは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングのストリング長の関数として、ターゲット・ストリングをターゲット信号に変換するために要した計算時間を決定することを含む。 図10B、図10C、および図10Dは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングのストリング長の関数として、ターゲット・ストリングのコレクションに対してのターゲット・スペクトルを作成するための計算時間を決定することを含む。 図10B、図10C、および図10Dは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングのストリング長の関数として、ターゲット・ストリングのコレクションに対してのターゲット・スペクトルを作成するための計算時間を決定することを含む。 図10B、図10C、および図10Dは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングのストリング長の関数として、ターゲット・ストリングのコレクションに対してのターゲット・スペクトルを作成するための計算時間を決定することを含む。 図10Eは、コンピューター実験の結果を示し、コンピューター実験は、テスト・ストリングの異なるキャラクターの数の関数として、テスト・ストリングのコレクションに対してのクラスター割り当てを行うために要した計算時間を決定することを含む。 図11は、スパムと非スパムとの双方を含む、実際のブログ・コメントのコレクションに対しての、ストリング長対タイムスタンプ・インジケーターのプロットを示す。 図12は、スパムと非スパムとの双方を含む、実際のブログ・コメントのコレクションに対しての、異なるキャラクターの数対タイムスタンプ・インジケーターのプロットを示す。
以下の説明では、構造間での全ての記載された接続は、直接の有効な接続、または中間構造を通じての間接の有効な接続であり得ることが、理解される。エレメントのセットは1以上のエレメントを含む。エレメントの何れの詳述も、少なくとも1つのエレメントを指すことが理解される。複数のエレメントは、少なくとも2つのエレメントを含む。必要ではないかぎり、何れの説明される方法のステップも、必ずしも特定の示された順に行う必要はない。第2のエレメントから導き出される第1のエレメント(例えば、データ)に関しては、第1のエレメントが第2のエレメントと等しいことや、第1のエレメントが第2のエレメントとオプションとしての他のデータとを処理することにより作成されることを含む。パラメーターに従って決定または判断を行うことは、パラメーターに従って、また、オプションとして他のデータに従って、決定または判断を行うことを含む。指定しないかぎり、何らかの量/データのインジケーターは、量/データ自体とすることができ、また、量/データ自体とは異なるインジケーターとすることもできる。本発明の幾つかの実施形態で説明するコンピューター・プログラムは、スタンドアローンのソフトウェア・エンティティとすることも、他のコンピューター・プログラムのサブエンティティ(例えば、サブルーチン、コード・オブジェクト)とすることもできる。指定されないかぎり、スパムという用語は、Eメール・スパムに限定されず、とりわけ、ブログ・コメント、フォーラム議論、ウィキ(wiki)・エントリー、カスタマー・フィードバック、ソーシャル・ネットワーク・サイトへのポスト、インスタント・メッセージ、そして電話テキストやマルチメディア・メッセージの形態の、不正当であったり一方的に送られてきたりする商業的なユーザーにより作成されたコンテンツなどのような電子通信も含む。コンピューター可読媒体は、磁気、光、および半導体の媒体(例えば、ハード・ドライブ、光ディスク、フラッシュ・メモリ、DRAM)などのような非一時的ストレージと、導電ケーブルや光ファイバーのリンクなどのような通信リンクとを含む。幾つかの実施形態によると、本発明は、特に、ここで説明する方法を行うようにプログラムされたハードウェアを含むコンピューター・システムと、ここで説明する方法を行わせるための命令をエンコードするコンピューター可読媒体とを提供する。
[0028] 以下の説明は、例を用いて本発明の実施形態を示すものであり、必ずしも限定を用いて示していない。
[0029] 図1は、本発明の幾つかの実施形態に従った例示のスパム防止システムを示す。システム10は、複数のコンテンツ・サーバー12a−b、スパム防止サーバー16、および複数のクライアント・システム14a−bを含む。コンテンツ・サーバー12a−bは、とりわけ、個人や企業のウェブサイト、ブログ、ソーシャル・ネットワーク・サイト、およびオンライン・エンターテイメント・サイトなどのようなオンライン・コンテンツをホストする及び/又は配信するウェーブ・サーバーを表し得る。他のコンテンツ・サーバー12a−bは、クライアント・システム14a−bへの電子メッセージの配達を行うEメール・サーバーを表し得る。クライアント・システム14a−bは、エンドユーザー・コンピューターを表し得るものであり、それぞれが、プロセッサー、メモリ、およびストレージを有し、Windows(登録商標)、MacOS(登録商標)、Linux(登録商標)などのようなオペレーティング・システムを実行する。幾つかのクライアント・システム14a−bは、例えば、タブレットPC、モバイル電話、パーソナル・デジタル・アシスタント(PDA)などのような、モバイル計算デバイスおよび/または遠距離通信デバイスを表し得る。幾つかの実施形態では、クライアント・システム14a−bは、個々の顧客を表し得るものであり、また、幾つかのクライアント・システムは同じ顧客に属し得る。スパム防止サーバー16は、1以上のコンピューター・システムを含むことができる。ネットワーク18は、コンテンツ・サーバー12a−b、クライアント・システム14a−b、およびスパム防止サーバー16を接続する。ネットワーク18は、インターネットなどのようなワイド・エリア・ネットワークとすることができ、また、ネットワーク18の一部はローカル・エリア・ネットワーク(LAN)を含むこともできる。
[0030] 図2は、スパム防止サーバー16などのようなサーバー・コンピューター・システムの例示のハードウェア構成を示す。幾つかの実施形態では、サーバー16は、プロセッサー20、メモリ・ユニット22、ストレージ・デバイスのセット24、および通信インターフェース・コントローラー26を含み、これらの全てはバスのセット28により接続される。
[0031] 幾つかの実施形態では、プロセッサー20は、信号および/またはデータのセットを用いて計算オペレーションおよび/または論理オペレーションを実行するように構成された物理デバイス(例えば、マルチコア集積回路)を含む。幾つかの実施形態では、そのような論理オペレーションは、プロセッサー命令のシーケンスの形態(例えば、機械コードや他のタイプのソフトウェア)で、プロセッサー20へ届けられる。メモリ・ユニット22は、命令を行うときにプロセッサー20によりアクセスまたは作成されるデータ/信号を格納するコンピューター可読媒体(例えば、RAM)を、含むことができる。ストレージ・デバイス24はコンピューター可読媒体を含み、ソフトウェア命令および/またはデータを、不揮発に格納、読み出し、および書き込むことを可能にする。例示のストレージ・デバイス24は、磁気ディスク、光ディスク、および半導体メモリ・デバイス(例えば、フラッシュ)を含み、また、CDおよび/またはDVDのディスクおよびドライブなどのような取り外し可能媒体も含む。通信インターフェース・コントローラー26は、サーバー・システム16がネットワーク18および/または他の機械/コンピューター・システムへ接続することを可能にする。典型的な通信インターフェース・コントローラー26は、ネットワーク・アダプターを含む。バス28は、複数のシステム・バス、周辺バス、チップセット・バス、および/またはサーバー・システム16のデバイス20〜26の相互接続を可能にする全ての他の回路を、集合的に表す。例えば、バス28は、とりわけ、プロセッサー20をメモリ22へ接続するノースブリッジ・バス、および/またはプロセッサー20をデバイス24〜26へ接続するサウスブリッジ・バスを、含むことができる。
[0032] 幾つかの実施形態では、クライアント・システム14a−bのそれぞれは、ドキュメント・リーダー・アプリケーション(例えば、ウェブ・ブラウザー、Eメール・リーダー、メディア・プレーヤー)を含み、これは、コンテンツ・サーバー12a−bに格納されたデータへリモートでアクセスするために用いるコンピューター・プログラムであり得る。ユーザーが、ウェブページなどのようなオンライン・ドキュメントへアクセスするとき、またはEメールなどのような電子通信を受け取るとき、そのドキュメント/通信と関連するデータは、それぞれのコンテンツ・サーバーとクライアント・システム14との間のネットワーク18の一部を伝わる。幾つかの実施形態では、リーダー・アプリケーションは、ドキュメントのデータを受け取り、それを視覚的形態に変換し、それをユーザーに表示する。リーダー・アプリケーションの幾つかの実施形態はまた、表示されたコンテンツとユーザーがインタラクションすることを可能にする。Eメールの場合、クライアント・システム14a−bは、入来するEメールを複数のカテゴリー(例えば、スパム、正当、様々な他のクラスおよびサブクラス)のうちの1つに分類するように構成された専用のソフトウェアを、含むことができる。
[0033] 幾つかの実施形態では、コンテンツ・サーバー12a−bは、複数のユーザーから、ユーザーの作成したコンテンツ(例えば、記事、ブログ・エントリー、メディア・アップロード、コメントなど)を受け取り、そのようなコンテンツを編成し、フォーマットし、ネットワーク18を介して第三者へ届けるように、構成される。サーバー12a−bで受け取ったユーザーの作成したコンテンツの一部は、一方的に送られてきたメッセージ(スパム)を含み得る電子通信を含み得る。そのような電子通信(後の説明では、ターゲット通信またはターゲット・メッセージと呼ぶ)の例は、とりわけ、Eメール・メッセージ、ブログ・コメント、ソーシャル・ネットワーク・サイトへのポスト、およびエンターテイメントおよび/またはニュースのウェブサイトへ送られるコメントである。
[0034] 幾つかの実施形態では、コンテンツ・サーバー12a−bは、スパムを検出するために、ユーザーから受け取ったターゲット通信を処理するように構成されたソフトウェア・コンポーネントを含むことができる。スパム・メッセージ(例えば、不正ブログ・コメントなど)は、検出されると、それぞれのウェブサイトで表示することが妨げられ且つ/又は避けられる。スパム処理ソフトウェアは、サーバー側スクリプトの形態でコンテンツ・サーバー12a−bにインプリメントすることができる。そのようなスクリプトは、例えば、Wordperss(登録商標)やDrupal(登録商標)のオンラインパブリッシング・プラットフォームのためのスパム防止プラグイク(1以上)として、大きいスクリプト・パッケージへのプラグイクとして組み込むことができる。幾つかの実施形態では、後に説明するように、サーバー12a−bは、スパムを検出するために、スパム防止サーバー16との共同的スパム検出トランザクションと連動するように構成することができる。
[0035] 幾つかの実施形態では、スパム防止サーバー16は、コンテンツ・サーバー12a−bおよび/またはクライアント・システム14a−bと共同的スパム検出トランザクションを行うように構成される。図3aは、Eメール・スパムを検出するように構成された実施形態における、サーバー16とクライアント・システム14との間での例示のデータ交換を示す。クライアント・システム14は、ネットワーク18を介してメール・サーバーからEメール・メッセージを受け取ることができる。Eメール・メッセージを受け取った後、クライアント・システム14は、Eメール・メッセージと関連するスパム識別用データを含むターゲット・インジケーター40を、スパム防止サーバー16へ送ることができ、それに応じて、それぞれのEメール・メッセージがスパムであるかどうかを示すターゲット・ラベル50を受け取ることができる。クライアント・システム14は、続いて、そのメッセージを、適切なメッセージ・カテゴリー(例えば、スパムまたは正当なEメール)に置くことができる。
[0036] 図3bは、サーバー12で受け取られたユーザーの作成したスパム、とりわけ、ブログ・スパムやソーシャル・ネットワーク・サイトへポストされたスパムなどを検出するように構成された実施形態における、スパム防止サーバー16とコンテンツ・サーバー12との間での例示のデータ交換を示す。例えば、サーバー12でホストされるウェブサイトへユーザーがコメントをポストした結果として、ターゲット通信を受け取った後、サーバー12は、ターゲット通信から抽出されたスパム識別用データを含むターゲット・インジケーター40を、スパム防止サーバー16へ送ることができ、それに応じて、そのターゲット通信がスパムであるかどうかを示すターゲット・ラベル50を受け取ることができる。
[0037] 図4は、本発明の幾つかの実施形態に従った、ターゲット通信の例示のターゲット・インジケーターを示す。ターゲット・インジケーター40は、ターゲット通信を一意に識別するオブジェクトID41(例えば、ラベル、ハッシュ)と、ブログ・コメントのテキスト部分などのような、ターゲット通信のテキスト部分を含むターゲット・ストリング42とを含む。幾つかの実施形態では、ターゲット・ストリング42は、ターゲット通信の実質的に全てのテキストを含む。ターゲット通信が幾つかのテキスト部分を含むときには、ターゲット・ストリング42は、それらのテキスト部分が連結したものを含むことができ、代替的には、それぞれのテキスト部分が、他とは異なる1つのターゲット・ストリング42を受けることできる。幾つかの実施形態では、ターゲット・ストリング42は、ターゲット通信のテキスト部分の1つのセクションを含むことができ、セクションは、予め設定されたストリング長を有する(例えば、128の連続するキャラクター)。
[0038] ターゲット・インジケーター40の幾つかの実施形態は、ターゲット・ストリング42以外にも、ターゲット通信に対応する他のスパム識別用データを含むことができる。図4の例では、ターゲット・インジケーター40は、ターゲット通信の送信者により提供された名前(例えば、個人名、仮名、スクリーン名、ログイン名、アバター名、ハンドルなど)を示すユーザー名インジケーター44と、発信元の場所(例えば、発信元IPアドレス)を示すアドレス・インジケーター46と、ターゲット通信が送られたときの実時間の時点(例えば、日付および時刻)を示すタイムスタンプ48とを含む。
[0039] 幾つかの実施形態では、ターゲット・ラベル50は、ID41などのようなオブジェクトIDと、ターゲット通信のスパム・ステータスのインジケーターとを、含むことができる。ターゲット・ラベル50は、後に詳細に説明するように、スパム防止サーバー16により行われる評価に従って、ターゲット通信がスパムであるかどうかを有効に指定する。
[0040] 図5は、本発明の幾つかの実施形態に従った、スパム防止サーバー16で実行される例示のアプリケーションのセットの図を示す。アプリケーションは、スパム検出器32と、スパム検出器32と接続された通信マネージャー34とを含む。アプリケーション32および34は、スタンドアローンのソフトウェア・アプリケーションとすることができ、また、例えば、マルウェア検出などのようなコンピューター・セキュリティ・サービスを提供する大きいソフトウェア・スイートの一部を形成することもできる。幾つかの実施形態では、スパム防止サーバー16はまた、スパム防止データベース30をホストすることができる。代替的に、スパム防止データベースは、サーバー16とは異なるがネットワーク18を介してサーバー16と接続されるコンピューター・システムに、また、サーバー16と接続されるコンピューター可読媒体に、存在することができる。
[0041] スパム防止データベース30は、オンライン・スパムと関連する知識のリポジトリーを含む。幾つかの実施形態では、データベース30は参照スペクトルのコーパスを含み、後に更に説明するように、それぞれのスペクトルが1つの電子通信に対して計算される。データベース30は、例えば、ブログ・コメント、ソーシャル・ネットワーク・サイトへポストされたコメントなどのような、スパムまたは非スパムの電子通信の双方を、含むことができる。スペクトル・データの他に、データベース30に格納された各レコードは追加の情報を含むことができ、それらは、それぞれの通信のストリング42、タイムスタンプ48などのような時間インジケーター、およびストリング42のストリング長、異なるキャラクターの数(number of distinct characters)、およびスペクトル・スコアのインジケーターなどであり、そのような量の使用については後に説明する。幾つかの実施形態では、各スペクトルと関連して、データベース30は、それぞれのクラスターが現在割り当てられているメッセージのクラスターを示すクラスター割り当てインジケーターを、格納することができる。データベース30はまた、オブジェクトID41などのような複数の識別子を含むデータ構造を格納することができ、それぞれのオブジェクト識別子は、1つの電子通信と一意に関連付けられ、マッピングは、各スペクトルを、そのスペクトルを計算する対象とされた電子通信と関連付け、後に示すように、スパム検出器32がデータベース30から参照スペクトルを選択的に取得することを可能にする。
[0042] 図6は、本発明の幾つかの実施形態に従った、ターゲット・ストリング42に関して計算された例示のターゲット信号と例示のターゲット・スペクトルとを示す。ターゲット信号52は数字のシーケンス(a sequence of numbers)を含み、それぞれの数はストリング42のキャラクターを示す。ターゲット信号52を作成するために、キャラクター対数(characters to numbers)の1対1対応(即ち、全単射)のマッピングを用いることができる。幾つかの実施形態では、ストリング42の各キャラクターに対して、ターゲット信号52は、それぞれのキャラクターに対するASCIIコードを含む。
[0043] ターゲット・スペクトル60は数字のシーケンスを含み、シーケンスは、ターゲット信号52の周波数ドメイン(frequency domain)(例えば、フーリエ変換)表現を表す。幾つかの実施形態では、シーケンス内の選択された1つの数の位置は、周波数fを示し、数自体A(f)は、信号52のそれぞれの周波数コンポーネントの振幅またはパワーを示すことができる。幾つかの実施形態では、高速フーリエ変換(FFT)などのような離散フーリエ変換(DFT)アルゴリズムを用いて、ターゲット信号52からターゲット・スペクトル60を計算する。
[0044] 幾つかの実施形態では、通信マネージャー34は、クライアント・システム14a−bおよび/またはコンテンツ・サーバー12a−bとの通信を管理するように構成される。例えば、マネージャー34は、ネットワーク18を介しての接続を確立し、クライアント・システム14a−bおよびコンテンツ・サーバー12a−bとの、ターゲット・インジケーターおよびターゲット・ラベルなどのようなデータの送信および受信を行うことができる。
[0045] 図7は、本発明の幾つかの実施形態に従った、スパム防止サーバー16で動作する例示のスパム検出器の図を示す。スパム検出器32は、スペクトル・マネージャー36と、スペクトル・マネージャー36と接続されたクラスター化エンジン38とを含む。スパム検出器32は、ターゲット通信のターゲット・インジケーター40を通信マネージャー34から(図5、図3a、図3bを参照)、また、参照スペクトル64をスパム防止データベース30から、受け取ることができ、その後、ターゲット・ラベル50を通信マネージャー34へ出力し、ターゲット・ラベル50が、それぞれのスパム検出トランザクションを開始したクライアント・システム14またはコンテンツ・サーバー12へ送られるようにする。
[0046] 幾つかの実施形態では、スペクトル・マネージャー36は、通信マネージャー34からターゲット・インジケーター40を受け取り、ターゲット・インジケーター40のデータからターゲット・スペクトル60を計算し、プレフィルタリング・プロセスを行って適格な参照スペクトル64のセットを決定し、スパム防止データベース30から参照スペクトル64を選択的に取得し、スペクトルの比較およびクラスターの割り当てのためにスペクトル60および64をクラスター化エンジン38へ送るように、構成される。スペクトル・マネージャー36の動作は、図9と関連して詳細に説明する。
[0047] 幾つかの実施形態では、ターゲット・メッセージ分析が特徴ハイパースペース(feature hyperspace)で行われ、ターゲット通信に対応する特徴ベクトル(feature vector)と、代表ベクトル(representative vector)のセットとの間の距離が分析され、それぞれの代表ベクトルは、性質の異なるターゲット・ストリング・コレクション(クラスター)のプロトタイプを定義する。図8は、d1およびd2という2つの軸を有する単純な2D特徴空間における、特徴ベクトル74a−cによりそれぞれ形成された3つの例示のクラスター70a−cを示す。本発明の幾つかの実施形態では、軸d1およびd2は、ターゲット・ストリングの異なる特徴、例えば、ターゲット・スペクトルの2つの異なる周波数などに、対応する。幾つかの実施形態では、各クラスター70は、実質的に特徴ハイパースペースの小さい領域を占有するターゲット・ストリングからなり、このことは、1つのクラスターの全メンバーが類似の特徴ベクトル、例えば、類似の周波数スペクトルを有することを、意味する。
[0048] 幾つかの実施形態では、クラスター化エンジン38は、データ蓄積の歴史の間にスパム防止サーバー16で受け取った電子通信のコーパスを表す、クラスターのコレクションを維持するように構成される。通信は、類似性に従ってクラスターへとグループ化され、理想的には、クラスターは、同一または幾つかのほぼ同一のメッセージからなる。幾つかのクラスター70は、個々のスパム・ウェーブを表すことができ、それぞれは、多数のクライアントへ送られる及び/又は多数のウェブサイトへポストされる同じスパム・メッセージのコピーまたは変種を含む。クラスター化エンジン38は更に、ターゲット・スペクトル60を受け取るように、およびスペクトルの類似性に従って、スペクトル60により表されるターゲット通信を、それの最も似ているクラスターへ割り当てるように、構成される。クラスターの割り当てを行うために、クラスター化エンジン38は、スペクトル・マネージャー36から、参照スペクトル64のセットを受け取り、各スペクトル64はクラスターを表すものであり、そして、クラスター化エンジン38は、スペクトル60と64とを比較して、何れのメッセージ・クラスターがターゲット・スペクトル60と最もマッチするかを決定する。クラスター化エンジン38の動作の更なる詳細は、図9と関連して後に提供する。
[0049] 図9は、本発明の幾つかの実施形態に従った、スパム検出トランザクション内でスパム検出器32(図7)により行われる例示のステップのシーケンスを示す。ステップ102において、スパム検出器32は、クライアント・システム14またはコンテンツ・サーバー12から、通信マネージャー34を介してターゲット・インジケーター40を受け取る。次に、ステップ104において、スパム検出器32は、ターゲット・インジケーター40に従ってターゲット・ストリング42を抽出し、例えば、ターゲット・ストリング42のASCIIコードをシーケンス処理することにより、ターゲット信号52を計算する。
[0050] ステップ106は、ターゲット信号52の周波数スペクトル60を決定する(図6を参照)。ステップ106はまた、ストリング長および/または異なるキャラクターの数などのような、ターゲット・ストリング42の幾つかのパラメーターの計算を含み、パラメーターは、ステップ108においてメッセージ・クラスターのコレクションをプレフィルタリングするために用いられる。幾つかの実施形態では、ターゲット信号52は、次の2乗したもの(the next power of 2)と等しい長さまでゼロ・パディングされる(例えば、長さが243のターゲット・ストリングに関して、ターゲット信号は256の長さまでパディングされる)。幾つかの実施形態では、スパム検出器32はまた、デジタル・フィルターをターゲット信号52へ適用する。例示のデジタル・フィルターは、ローパス・フィルターおよび/またはハイパス・フィルターを含む。
[0051] 幾つかの実施形態では、ステップ108において、スパム検出器32は、プレフィルタリング基準のセットに従って、クラスター化エンジン38により維持される完全なコレクションから候補クラスターのサブセットを選択するためのプレフィルタリング・オペレーションを行う。スペクトルの比較を行う際に用いるためにクラスターのサブセット(小さいサブセット)のみを選択することにより、スパム検出器32は、計算コストを有効に低減することができる。
[0052] 幾つかの実施形態では、スパム検出器32は、ストリング長を、候補クラスターを選択するためのプレフィルタリング基準として用いることができる。ターゲット・ストリング42のストリング長は、各クラスターの代表のストリング長(またはそれぞれのクラスターのメンバーの平均ストリング長)と、比較される。クラスターは、その典型的なストリング長がターゲット・ストリング42のストリング長の所定のスレッショルド内にあるとき、スペクトルの比較のための候補として選択することができる。
[0053] 代替のプレフィルタリング基準は、異なるキャラクターの数(カウント)である。例えば、「Mississipi」というストリングは、M、i、s、およびpという4つの異なるキャラクターを有する。各クラスターに関して、ターゲット・ストリング42の異なるキャラクターの数が、それぞれのクラスターの代表メンバーの異なるキャラクターの数と、またはクラスターのメンバーの平均の異なるキャラクターの数と比較され、ターゲット・ストリング42と類似した異なるキャラクターの数を有するクラスターが、スペクトルの比較のための候補として選択される。
[0054] 幾つかの実施形態では、プレフィルタリング基準は、スペクトル・スコアを、
Figure 2015506642
の関数として計算することを含み、ここで、iは、周波数にインデックスを付け、Aは、周波数iでのそれぞれのストリングのフーリエ・スペクトルの振幅(またはパワー)を示す。各クラスターに関して、ターゲット・ストリング42のスペクトル・スコア[1]は、それぞれのクラスターの代表メンバーのスペクトル・スコアと、またはクラスターの平均ストリング・スコアと比較され、ターゲット・ストリング42と類似したスペクトル・スコアを有するクラスターが、スペクトルの比較のための候補として選択される。
[0055] 幾つかの実施形態では、プレフィルタリング基準を組み合わせることができる。例えば、クラスターの第1サブセットを選択することができ、その第1サブセットでは、各クラスターはターゲット・ストリング42と類似のストリング長を有するものであり、次に、クラスターの第1サブセットから、スペクトル・スコアの類似性に従って第2サブセットを選択する。
[0056] スペクトルの比較のための候補のセットが選択されると、選択された各クラスターに関して、スパム検出器32は、スペクトル・マネージャー36に命令して、それぞれのクラスターの代表メッセージに対応する参照スペクトル64を、スパム防止データベース30から選択的に取得するようにできる。次に、選択された各クラスターに対して、ステップ110〜118のループ・シーケンスを実行する。ステップ110において、スパム検出器32は、選択された全てのクラスターが比較に関して既に考慮されたかどうかを、確かめることができる。そうである場合、スパム検出器32は、後に説明するステップ120へ進む。そうではない場合、ステップ112において、次のクラスターが評価される。ステップ114において、ターゲット・スペクトル60が、それぞれのクラスターを表す参照スペクトル64と比較される。
[0057] ステップ114は、ターゲット・スペクトル60と参照スペクトル64との比較を行うことを含む。幾つかの実施形態では、比較は、選択された周波数のセットにおいてそれぞれのスペクトルの振幅を比較することによりストリング間距離を計算することを含む。例えば、
Figure 2015506642
のようにし、ここで、iは、周波数にインデックスを付け、A は、周波数iでのターゲット・スペクトルの振幅を示し、A は、周波数iでの参照スペクトルの振幅を示し、αは、正の定数(例えば、α−1)である。幾つかの実施形態では、同じクラスターのメンバーに対応する全ての周波数スペクトルは、同じ周波数スケールを有し、従って、式[2]は、実際、同じ周波数iに対して計算されたTおよびRの周波数コンポーネントを比較する。比較されるストリングが完全に同じストリング長を有さないとき(結果的に、異なる周波数スケールを有する2つの対応するスペクトルとなる)、幾つかの実施形態では、それぞれのストリングと関連する信号は、次の2乗のものと等しいストリング長へと、ゼロをパディングすることができる。
[0058] セットSは、スペクトルの周波数のサブセットを示す。幾つかの実施形態では、Sは、1つの周波数のみからなる。例えば、S={i|f=0}のとき、式[2]は、ゼロ周波数で2つのスペクトルの振幅のみを比較する。別の例では、S={i|A =A max}即ち、式[2]は、ターゲット・スペクトルの最大振幅A maxに対応する周波数iでの2つのスペクトルの振幅のみを比較する。幾つかの実施形態では、Sは、スペクトルの全周波数のセットを示す。
[0059] ステップ116(図9)は、ターゲット・スペクトル60が参照スペクトル64と一致するかどうかを判定する。幾つかの実施形態では、スペクトルの一致は、ストリング間距離が所定のスレッショルドよりも小さいこと、D(T,R)<t、を必要とする。スレッショルド値tは、比較されているストリングから独立させることも、ターゲット・ストリング42のストリング長および/または異なるキャラクターの数に従って変化させることもできる。幾つかの実施形態では、比較的長いストリングや、異なるキャラクターの数が比較的大きいストリングに対しては、高いスレッショルド値が用いられる。
[0060] スペクトル60と64との間に一致が見られたとき、スパム検出器32はステップ118へ進み、そのステップで、それぞれのメッセージ・クラスターは、ターゲット・ストリング42を受け取るのに適格であるとマーク付けされる。スペクトルが一致しない場合、スパム検出器32はステップ110へ戻る。ステップ106において選択された全てのメッセージ・クラスターが、スペクトルの比較により評価されると、ステップ120は、ターゲット・ストリング42を受け取るために何れかのクラスターが適格であるかどうかを判定する。そうである場合、ステップ124において、スパム検出器32は、それぞれの適格なクラスターに対して、ターゲット・ストリング42がそれぞれのクラスターの全メンバーにどれだけ似ているかを示すストリング対クラスター類似性インジケーター(string-to-cluster similarity indicator)を、計算することができる。それぞれの適格なクラスターの例示のストリング対クラスター類似性インジケーターは、ターゲット・スペクトル60と一致する参照スペクトル64を有するクラスター・メンバーの断片(fraction)を含む。
[0061] 次に、ステップ126は、ターゲット・ストリング42を、それが最も似ているメッセージ・クラスターへ実際に割り当てる。幾つかの実施形態では、ターゲット・ストリング42は、ステップ124で決定された最高のストリング対クラスター類似性インジケーターを持つクラスターへ、割り当てられる。クラスター化エンジン38は、新たなクラスター・メンバーの追加を反映するように、クラスター割り当てデータを更新することができ、ターゲット・ストリング42のレコードを、スパム防止データベース30へ導入させることができる。幾つかの実施形態では、ステップ126は更に、ターゲット・メッセージを受け取るクラスターと関連するスパム識別用パラメーターのセットの決定を含む。例えば、幾つかの実施形態は、同じクラスター内で、連続するタイムスタンプ間の経過した時間間隔を計算することができる。そのようなパラメーターは、各クラスターと関連してセーブすることができ、また、特定のクラスターがスパム・メッセージを含むか正当なメッセージを含むかや、特定のクラスターがスパム・ウェーブを表す可能性があるかどうかを、自動的に(人間のオペレーターの監督無しで)判定するために用いることができる。
[0062] ターゲット・ストリングを受け取るための適格なクラスターが発見されない場合(ステップ120)、スパム防止データベースへ格納された何れのものともターゲット・ストリング42は異なる可能性があることを示し、ステップ122において、クラスター化エンジン38は、単独のメンバーとしてそのターゲット・ストリングを持つ新たなクラスターを作成することができ、そのターゲット・ストリングのレコードをスパム防止データベース30へセーブすることができる。
[0063] ステップ128において、スパム検出器32は、ターゲット通信をスパムまたは正当と識別するターゲット・ラベル50を決定することができる。幾つかの実施形態では、ターゲット通信がスパムであるかどうかの判断は、ターゲット・ストリング42のクラスター割り当てに従って行われる。ストリング42が、主にスパム・メッセージからなるクラスターへ割り当てられると、ターゲット・メッセージも、スパム・ラベルを受け取り得る。
[0064] 幾つかの実施形態では、ラベル50は、ターゲット・メッセージが割り当てられたクラスターのメンバーの特定のスパム識別用特徴に従って、決定される。1つのそのようなスパム識別用特徴は、タイムスタンプ48である。短い時間間隔での多数の新たなメンバーの割り当ては、それぞれのクラスターがスパム・メッセージのウェーブからなることを示すものであり得る。幾つかの実施形態では、スパム検出器32は、クラスターのメンバーと関連する複数のタイムスタンプの間の経過した時間間隔、例えば、そのクラスターへ6つのメンバーが割り当てられる最短時間間隔を、判定することができ、時間間隔が所定のスレッショルドより低下したとき、それぞれのクラスターをスパムとマーク付けすることができる。
[0065] 上述の例示のシステムおよび方法は、ブログ・コメント、ソーシャル・ネットワーク・サイトへポストされたコメントなどの形態のインターネット上のユーザーの作成したコンテンツの形態、およびEメール・メッセージ、インスタント・メッセージ、および電話テキストおよびマルチメディア・メッセージの形態の、一方的に送られてくる通信を、スパム防止システムが検出することを可能にする。
[0066] 幾つかの実施形態では、コンピューター・システムは、キャラクターのターゲット・ストリングを、ブログ・コメントなどのような電子通信から抽出し、それをスパム防止サーバーへ送り、スパム防止サーバーから、それぞれの電子通信がスパムであるか非スパムであるかのインジケーターを受け取る。電子通信がスパムであるとき、コンピューター・システムは、その電子通信を、ブロック、隔離、消去することや、任意の他の方法で表示の制限を行うことができ、且つ/又はユーザーへ警告を発することができる。
[0067] スパム防止サーバーは、電子通信から抽出されたターゲット・キャラクター・ストリングの周波数表現に従って、電子通信がスパムであるか非スパムであるかを決定する。ターゲット・ストリングは、数字のシーケンスなどのような信号へと変換され、その信号のターゲット・スペクトルが計算され、参照スペクトルのコーパスと比較されて、ターゲット・スペクトルと一致するものが捜される。本発明の幾つかの実施形態は、2つの類似のストリングは常に類似の周波数スペクトルを有するという観察を利用する。従って、ターゲット・ストリングのスペクトルと、参照スペクトルに関して計算された別のスペクトルとの間で一致を見つけることは、ターゲット・ストリングが参照ストリングと似ていることを示すものであり得る。そのような場合、スパム防止サーバーは、従って、参照ストリングがスパムを示すかどうか、例えば、参照ストリングが、スパムとラベル付けされた電子通信のクラスターに属するかどうかに従って、電子通信がスパムであるかどうかを決定する。
[0068] しかし、2つの異なるストリングが非常に似たスペクトルを有する多くの状況がある。誤って正を示すことを避けるため、2つのストリングが類似であるかどうかの判断を行うときに、ターゲット・ストリングの他の特徴、例えば、タイムスタンプなどを考慮することができる。
[0069] ストリング長が特定のスレッショルドを超えるときには、スペクトルの比較は、類似のストリングを識別するための信頼性のある方法ではないこともあり得る。非常に長いストリングに限定すると、全てのストリングは類似のスペクトルを有し、それらはホワイト・ノイズ・スペクトルに似ている。従って、ここで説明したシステムおよび方法は、Facebook(登録商標)やTwitter(登録商標)などのようなソーシャル・ネットワーク・サイトのブログのポストやコメントなどのような、電子通信において現れる短いストリングの分析に、特に適する。
[0070] ストリングの比較によるスパム検出の更なる問題は、不明瞭化(obfuscation)であり、スパム送信者は、検出を避けるために、メッセージ内の特定のキャラクターを他のキャラクターと置換する(例えば、Vi4gra)。ストリングの不明瞭化は、ハイパスまたはローパスの特性を持つデジタル・フィルターをターゲット信号へ適用することにより、対処することができる。不明瞭にするキャラクターは「ノイズ」と見なすことができ、フィルタリングは、同じストリングである2つの不明瞭化されたバージョンのストリング間距離を低減することができ、その2つのストリングが更に似たものに見えるようにする。
[0071] 本発明の幾つかの実施形態は、コーパスを複数のクラスターへと編成し、レコードの各クラスターは類似のストリングからなる。コーパスの全てのレコードにわたってスペクトルの比較を行うことに代えて、クラスター化は、ここで説明したシステムおよび方法が、ターゲット・ストリングを、クラスターあたりに1つのみの代表ターゲット・ストリングと比較することを可能にし、それにより、計算コストを大幅に低減する。
[0072] クラスター化はまた、自動(監督無し)のスパム検出を容易にする。メッセージの分類が、一般には、例えば、複数の所定のメッセージ・クラスへと以前にソートされたトレーニングコーパスに対して、監督されたトレーニングのプロセスを通じて達成される、といったような従来のクラスター化の方法とは逆に、本発明の幾つかの実施形態は、クラスターやメッセージのスパム・ステータス(スパムか非スパム)の以前の知識無しで、動的なクラスター化を行う。クラスターは、短い時間間隔に特定数のメンバーを蓄積するときには、スパムを表すものとして自動的に識別することができる。
[0073] コンピューター実験では、22000ブログ・コメントのコーパスが、本発明の幾つかの実施形態に従ってクラスターへと分類された。計算は、3GHzのペンティアム(登録商標)4プロセッサーと、1.5GBのRAMとを装備し、Ubuntu(登録商標) OS 10.04を実行するコンピューター・システムで行われた。分類には約9:30分の計算時間を要し、1より多くのクラスター・メンバーを持つ1652のメッセージ・クラスターを作成した(平均は、クラスターあたり4.59コメント)。比較すると、ハッシュ・ベースのストリング突き合わせアルゴリズムを用いて同じハードウェア・プラットフォームで実行される従来のクラスター化システムは、7:07分の計算時間で、1より多くのメンバーを持つ1617のクラスターを作成し、平均はクラスターあたり4.26コメントであった。
[0074] 図10A〜Eは、ストリング長が25キャラクターから3000キャラクターの範囲のテスト・ストリングのコレクションを用いて行われた別のコンピューター実験の結果を示す。ハードウェア構成は上記と同じである。図10Aは、テスト・ストリングのストリング長の関数として、ストリングを信号にマップするために要した時間を示す。信号あたりの計算時間は、数マイクロ秒から約0.5ミリ秒までと様々であり、時間とストリング長との間にはほぼ線形の相関があった。
[0075] 図10B、C、およびDは、或る範囲のストリング長に関しての、テスト・ストリングの周波数スペクトルを計算するために要した時間を示す。図10Eは、テスト・ストリングのストリング長の関数として、スペクトルの比較(例えば、式[2])に従ってストリング間距離を計算するために要した時間を示す。計算時間は、数マイクロ秒から約500ミリ秒の範囲であった。
[0076] 図11は、スパムと非スパムとの双方を含む8676の実際のブログ・コメントのコレクションに関しての、タイムスタンプ・インジケーターに対してプロットされたストリング長を示す。図12は、スパムと非スパムとの双方を含む別の5351の実際のブログ・コメントのコレクションに関しての、タイムスタンプ・インジケーターに対してプロットされた異なるキャラクターの数を示す。図11と図12との双方とも、タイムスタンプ・インジケーターに従ったスパム・メッセージのクラスター化を示し、上述の自動的スパム識別を可能にする。
[0077] 上記の実施形態を、本発明の範囲から離れずに多くの方法で変更でき得ることは、当業者には明らかであろう。従って、本発明の範囲は、特許請求の範囲と、それの法的等価物とにより決定されるべきである。

Claims (29)

  1. 方法であって、
    コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取るステップと、
    コンピューター・システムを用いて、前記ターゲット・ストリングを、数のシーケンスを含むターゲット信号へと処理するステップであって、前記ターゲット・ストリングの各キャラクターは前記数のシーケンスのうちの1つの数へマップされる、ステップと、
    前記ターゲット・ストリングを受け取ることに応じて、前記コンピューター・システムを用いて、前記ターゲット・ストリングに従ってストリング適格基準を決定するステップと、
    前記コンピューター・システムを用いて、複数の候補ストリングを作成するように、前記ストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングするステップと、
    前記候補ストリングを選択することに応じて、前記コンピューター・システムを用いて、前記ターゲット信号の周波数スペクトルと、前記複数の候補ストリングのうちの1つの候補ストリングに関して決定された周波数スペクトルとの間での比較を行うステップと、
    前記コンピューター・システムを用いて、前記比較の結果に従って、前記電子通信がスパムであるか非スパムであるかを決定するステップと
    を含む方法。
  2. 請求項1に記載の方法であって、前記ターゲット・ストリングのタイムスタンプと前記候補ストリングのタイムスタンプとの間での比較に従って、前記電子通信がスパムであるか非スパムであるかを決定するステップを更に含む方法。
  3. 請求項1に記載の方法であって、参照ストリングの前記コーパスは複数のクラスターを含み、各クラスターは類似のストリングのセットを含み、前記複数の候補ストリングのそれぞれの候補ストリングは異なるクラスターを表し、方法は更に、前記比較を行うことに応じて、前記コンピューター・システムを用いて、前記複数のクラスターから1つのクラスターを選択し、選択した前記クラスターへ前記ターゲット・ストリングを割り当てるステップを含む、方法。
  4. 請求項3に記載の方法であって、複数のタイムスタンプに従って、ターゲットの前記通信がスパムであるか非スパムであるかを決定するステップを更に含み、前記複数のタイムスタンプのそれぞれのタイムスタンプは、選択した前記クラスターのメンバーに対応する、方法。
  5. 請求項3に記載の方法であって、
    選択した前記クラスターへ前記ターゲット・ストリングを割り当てることに応じて、選択した前記クラスターのクラスター・メンバーのカウントを決定するステップと、
    クラスター・メンバーの前記カウントに応じて、ターゲットの前記通信がスパムであるか非スパムであるかを決定するステップと
    を更に含む方法。
  6. 請求項3に記載の方法であって、選択した前記クラスターに従って、ターゲットの前記通信を、選択されたスパム・ウェーブに属するものと識別するステップを更に含む方法。
  7. 請求項1に記載の方法であって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングの第1ストリング長と、前記コーパスの参照ストリングの第2ストリング長とを決定するステップと、
    前記第1ストリング長が、所定のスレッショルドよりも小さい量だけ前記第2ストリング長と異なるとき、前記参照ストリングを前記候補ストリングのセットへ追加するステップと
    を含む、方法。
  8. 請求項1に記載の方法であって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングの第1スペクトル・スコアを、
    Figure 2015506642
    という関数として決定するステップであって、Aは、周波数iにおいて決定される、前記ターゲット信号の前記周波数スペクトルの振幅を示す、ステップと、
    前記コーパスの参照ストリングの第2スペクトル・スコアを決定するステップと、
    前記第1スペクトル・スコアが、所定のスレッショルドよりも小さい量だけ前記第2スペクトル・スコアと異なるとき、前記参照ストリングを前記候補ストリングのセットへ追加するステップと
    を含む、方法。
  9. 請求項1に記載の方法であって、前記比較を行うことは、ストリング間距離を、
    Figure 2015506642
    という関数として決定するステップを含み、iは、周波数にインデックスを付け、Sは、前記ターゲット信号の前記周波数スペクトルの周波数のサブセットを示し、A は、周波数iでの前記ターゲット信号の前記周波数スペクトルの振幅を示し、A は、周波数iでの前記候補ストリングに関して決定された前記周波数スペクトルの振幅を示し、αは、正の定数である、方法。
  10. 請求項9に記載の方法であって、前記サブセットSは、前記ターゲット信号の前記周波数スペクトルのゼロ周波数に対応するインデックスiのみを含む、方法。
  11. 請求項9に記載の方法であって、前記サブセットSは、前記ターゲット信号の前記周波数スペクトルの最大振幅に対応するインデックスiのみを含む、方法。
  12. 請求項1に記載の方法であって、前記ターゲット・ストリングをターゲット信号へと処理することに応じて、前記コンピューター・システムを用いて、前記ターゲット信号へデジタル・ローパス・フィルターを適用するステップを更に含み、前記ターゲット信号の前記周波数スペクトルは、フィルタリングされた前記ターゲット信号の周波数スペクトルを含む、方法。
  13. 請求項1に記載の方法であって、前記ターゲット・ストリングをターゲット信号へと処理することに応じて、前記コンピューター・システムを用いて、前記ターゲット信号へデジタル・ハイパス・フィルターを適用するステップを更に含み、前記ターゲット信号の前記周波数スペクトルは、フィルタリングされた前記ターゲット信号の周波数スペクトルを含む、方法。
  14. 少なくとも1つのプロセッサーを含むコンピューター・システムであって、該少なくとも1つのプロセッサーは、
    電子通信の一部を形成するターゲット・ストリングを受け取り、
    前記ターゲット・ストリングを、数のシーケンスを含むターゲット信号へと処理し、前記ターゲット・ストリングの各キャラクターは前記数のシーケンスのうちの1つの数へマップされ、
    前記ターゲット・ストリングを受け取ることに応じて、前記ターゲット・ストリングに従ってストリング適格基準を決定し、
    複数の候補ストリングを作成するように、前記ストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングし、
    前記候補ストリングを選択することに応じて、前記ターゲット信号の周波数スペクトルと、前記複数の候補ストリングのうちの1つの候補ストリングに関して決定された周波数スペクトルとの間での比較を行い、
    前記比較の結果に従って、前記電子通信がスパムであるか非スパムであるかを決定する
    ようにプログラムされた、コンピューター・システム。
  15. 請求項14に記載のコンピューター・システムであって、前記プロセッサーは更に、前記ターゲット・ストリングのタイムスタンプと前記候補ストリングのタイムスタンプとの間での比較に従って、前記電子通信がスパムであるか非スパムであるかを決定するようにプログラムされた、コンピューター・システム。
  16. 請求項14に記載のコンピューター・システムであって、参照ストリングの前記コーパスは複数のクラスターを含み、各クラスターは類似のストリングのセットを含み、前記複数の候補ストリングのそれぞれの候補ストリングは異なるクラスターを表し、前記プロセッサーは更に、前記比較を行うことに応じて、前記複数のクラスターから1つのクラスターを選択し、選択した前記クラスターへ前記ターゲット・ストリングを割り当てるようにプログラムされた、コンピューター・システム。
  17. 請求項16に記載のコンピューター・システムであって、複数のタイムスタンプに従って、ターゲットの前記通信がスパムであるか非スパムであるかを決定することを更に含み、前記複数のタイムスタンプのそれぞれのタイムスタンプは、選択した前記クラスターのメンバーに対応する、コンピューター・システム。
  18. 請求項16に記載のコンピューター・システムであって、前記プロセッサーは更に、
    選択した前記クラスターへ前記ターゲット・ストリングを割り当てることに応じて、選択した前記クラスターのクラスター・メンバーのカウントを決定し、
    クラスター・メンバーの前記カウントに従い、ターゲットの前記通信がスパムであるか非スパムであるかを決定する
    ようにプログラムされた、コンピューター・システム。
  19. 請求項16に記載のコンピューター・システムであって、前記プロセッサーは更に、選択した前記クラスターに従って、ターゲットの前記通信を、選択されたスパム・ウェーブに属するものと識別するようにプログラムされた、コンピューター・システム。
  20. 請求項14に記載のコンピューター・システムであって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングの第1ストリング長と、前記コーパスの参照ストリングの第2ストリング長とを決定することと、
    前記第1ストリング長が、所定のスレッショルドよりも小さい量だけ前記第2ストリング長と異なるとき、前記参照ストリングを前記候補ストリングのセットへ追加することと
    を含む、コンピューター・システム。
  21. 請求項14に記載のコンピューター・システムであって、前記コーパスをプレフィルタリングすることは、
    前記ターゲット・ストリングの第1スペクトル・スコアを、
    Figure 2015506642
    という関数であって、Aは周波数iにおいて決定される前記ターゲット・ストリングの前記周波数スペクトルの振幅を示す、関数として計算することと、
    前記コーパスの参照ストリングの第2スペクトル・スコアを決定することと、
    前記第1スペクトル・スコアが、所定のスレッショルドよりも小さい量だけ前記第2スペクトル・スコアと異なるとき、前記参照ストリングを前記候補ストリングのセットへ追加することと
    を含む、コンピューター・システム。
  22. 請求項14に記載のコンピューター・システムであって、前記比較を行うことは、ストリング間距離を、
    Figure 2015506642
    という関数として決定することを含み、iは、周波数にインデックスを付け、Sは、前記ターゲット信号の前記周波数スペクトルの周波数のサブセットを示し、A は、周波数iでの前記ターゲット信号の前記周波数スペクトルの振幅を示し、A は、周波数iでの前記候補ストリングに関して決定された前記周波数スペクトルの振幅を示し、αは、正の定数である、コンピューター・システム。
  23. 請求項22に記載のコンピューター・システムであって、前記セットSは、前記ターゲット信号の前記周波数スペクトルのゼロ周波数に対応するインデックスiのみを含む、コンピューター・システム。
  24. 請求項22に記載のコンピューター・システムであって、前記セットSは、前記ターゲット信号の前記周波数スペクトルの最大振幅に対応するインデックスiのみを含む、コンピューター・システム。
  25. 請求項14に記載のコンピューター・システムであって、前記プロセッサーは更に、前記ターゲット・ストリングをターゲット信号へと処理することに応じて、前記ターゲット信号へデジタル・ローパス・フィルターを適用するようにプログラムされ、前記ターゲット信号の前記周波数スペクトルは、フィルタリングされた前記ターゲット信号の周波数スペクトルを含む、コンピューター・システム。
  26. 請求項14に記載のコンピューター・システムであって、前記プロセッサーは更に、前記ターゲット・ストリングをターゲット信号へと処理することに応じて、前記ターゲット信号へデジタル・ハイパス・フィルターを適用するようにプログラムされ、前記ターゲット信号の前記周波数スペクトルは、フィルタリングされた前記ターゲット信号の周波数スペクトルを含む、コンピューター・システム。
  27. 方法であって、
    コンピューター・システムを用いて、電子通信を受け取るステップと、
    前記電子通信を受け取ることに応じて、前記コンピューター・システムを用いて、前記電子通信からターゲット・ストリングを抽出するステップと、
    前記コンピューター・システムを用いて、スパム防止サーバーへ前記ターゲット・ストリングを送るステップと、
    前記ターゲット・ストリングを送ることに応じて、前記電子通信がスパムであるか非スパムであるかを示すターゲット・ラベルを受け取るステップと
    を含み、前記ターゲット・ラベルは前記スパム防止サーバーで決定され、前記ターゲット・ラベルを決定することは、
    前記スパム防止サーバーを用いて、キャラクターの前記ターゲット・ストリングを、数のシーケンスを含むターゲット信号へと処理するステップであって、前記ターゲット・ストリングの各キャラクターは前記数のシーケンスのうちの1つの数へマップされる、ステップと、
    前記スパム防止サーバーを用いて、前記ターゲット・ストリングに従って適格基準を決定するステップと、
    前記スパム防止サーバーを用いて、複数の候補ストリングを作成するように、前記適格基準に従って参照ストリングのコーパスをプレフィルタリングするステップと、
    前記候補ストリングを選択することに応じて、前記コンピューター・システムを用いるために前記スパム防止サーバーを用いて、前記ターゲット信号の周波数スペクトルと、前記複数の候補ストリングのうちの1つの候補ストリングに関して決定された周波数スペクトルとの間での比較を行うステップと、
    前記スパム防止サーバーを用いて、前記比較の結果に従って、前記電子通信がスパムであるか非スパムであるかを決定するステップと
    を含む、方法。
  28. 方法であって、
    コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取るステップと、
    コンピューター・システムを用いて、キャラクターの前記ターゲット・ストリングを、数のシーケンスを含むターゲット信号へと処理するステップであって、前記ターゲット・ストリングの各キャラクターは前記数のシーケンスのうちの1つの数へマップされる、ステップと、
    前記ターゲット・ストリングを受け取ることに応じて、前記コンピューター・システムを用いて、前記ターゲット・ストリングに従ってストリング適格基準を決定するステップと、
    前記コンピューター・システムを用いて、複数の候補ストリングを作成するように、前記ストリング適格基準に従って参照ストリングのコーパスをプレフィルタリングするステップと、
    前記候補ストリングを選択することに応じて、前記コンピューター・システムを用いて、前記ターゲット・ストリングが前記複数の候補ストリングのうちの1つの候補ストリングから離れているストリング間距離を決定するステップであって、前記ストリング間距離は、前記ターゲット信号の周波数スペクトルの第1振幅に従って、および前記候補ストリングに対して決定された周波数スペクトルの第2振幅に従って決定される、ステップと、
    前記コンピューター・システムを用いて、前記ストリング間距離に従って、ターゲットの前記通信がスパムであるか非スパムであるかを決定するステップと
    を含む方法。
  29. 方法であって、
    コンピューター・システムを用いて、電子通信の一部を形成するターゲット・ストリングを受け取るステップと、
    コンピューター・システムを用いて、前記ターゲット・ストリングを、数のシーケンスを含むターゲット信号へと処理するステップであって、前記ターゲット・ストリングの各キャラクターは前記数のシーケンスのうちの1つの数へマップされる、ステップと、
    前記コンピューター・システムを用いて、前記ターゲット信号の周波数スペクトルを決定するステップと、
    前記コンピューター・システムを用いて、前記ターゲット信号の前記周波数スペクトルと、参照ストリングのセットから選択された1つの参照ストリングに関して決定された周波数スペクトルとの間での比較を行うステップと、
    前記コンピューター・システムを用いて、前記比較の結果に従って、ターゲットの前記通信がスパムであるか非スパムであるかを決定するステップと
    を含む方法。
JP2014554684A 2012-01-25 2012-09-05 キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法 Active JP5941163B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/358,338 US9130778B2 (en) 2012-01-25 2012-01-25 Systems and methods for spam detection using frequency spectra of character strings
US13/358,338 2012-01-25
PCT/RO2012/000022 WO2013112061A1 (en) 2012-01-25 2012-09-05 System and methods for spam detection using frequency spectra of character strings

Publications (2)

Publication Number Publication Date
JP2015506642A true JP2015506642A (ja) 2015-03-02
JP5941163B2 JP5941163B2 (ja) 2016-06-29

Family

ID=47891881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014554684A Active JP5941163B2 (ja) 2012-01-25 2012-09-05 キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法

Country Status (11)

Country Link
US (2) US9130778B2 (ja)
EP (1) EP2807801A1 (ja)
JP (1) JP5941163B2 (ja)
KR (1) KR101686144B1 (ja)
CN (1) CN104040963B (ja)
AU (1) AU2012367397B2 (ja)
CA (1) CA2859135C (ja)
IL (1) IL233057B (ja)
RU (1) RU2601190C2 (ja)
SG (1) SG11201403440PA (ja)
WO (1) WO2013112061A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580939B (zh) * 2012-07-30 2018-03-20 腾讯科技(深圳)有限公司 一种基于账号属性的异常消息检测方法及设备
US9251133B2 (en) * 2012-12-12 2016-02-02 International Business Machines Corporation Approximate named-entity extraction
US9026601B1 (en) * 2013-03-12 2015-05-05 Symantec Corporation Systems and methods for validating members of social networking groups
US8837835B1 (en) 2014-01-20 2014-09-16 Array Technology, LLC Document grouping system
US10037320B2 (en) 2014-06-30 2018-07-31 Microsoft Technology Licensing, Llc Context-aware approach to detection of short irrelevant texts
WO2016070034A1 (en) * 2014-10-31 2016-05-06 Linkedin Corporation Transfer learning for bilingual content classification
CN107229608A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 垃圾评论识别方法和装置
CN106055664B (zh) * 2016-06-03 2019-03-08 腾讯科技(深圳)有限公司 一种基于用户评论的ugc垃圾内容过滤方法及系统
US11647046B2 (en) * 2018-09-24 2023-05-09 Microsoft Technology Licensing, Llc Fuzzy inclusion based impersonation detection
US11720718B2 (en) 2019-07-31 2023-08-08 Microsoft Technology Licensing, Llc Security certificate identity analysis
US11258741B2 (en) * 2019-08-15 2022-02-22 Rovi Guides, Inc. Systems and methods for automatically identifying spam in social media comments
US11677703B2 (en) 2019-08-15 2023-06-13 Rovi Guides, Inc. Systems and methods for automatically identifying spam in social media comments based on context
US11886586B1 (en) * 2020-03-06 2024-01-30 Trend Micro, Inc. Malware families identification based upon hierarchical clustering
CN111507400B (zh) * 2020-04-16 2023-10-31 腾讯科技(深圳)有限公司 应用分类方法、装置、电子设备以及存储介质
US11882131B1 (en) * 2020-12-31 2024-01-23 Proofpoint, Inc. Systems and methods for prioritizing URL review for sandboxing based on accelerated velocities of URL features in network traffic
CN117032726B (zh) * 2023-10-10 2023-12-22 北京海格神舟通信科技有限公司 一种用于实时绘制频谱图的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353133A (ja) * 1999-04-09 2000-12-19 Internatl Business Mach Corp <Ibm> 電子メッセージの望ましくない送信または受信を妨害するためのシステムおよび方法
JP2004186878A (ja) * 2002-12-02 2004-07-02 Keyware Solutions Inc 侵入検知装置及び侵入検知プログラム
JP2007511001A (ja) * 2003-11-12 2007-04-26 マイクロソフト コーポレーション アンチスパム技法の組込みを可能にするフレームワーク

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9220404D0 (en) 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5828999A (en) 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US20040073617A1 (en) * 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
US7321922B2 (en) * 2000-08-24 2008-01-22 Yahoo! Inc. Automated solicited message detection
GB2366706B (en) 2000-08-31 2004-11-03 Content Technologies Ltd Monitoring electronic mail messages digests
AUPR033800A0 (en) 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
US20050108200A1 (en) 2001-07-04 2005-05-19 Frank Meik Category based, extensible and interactive system for document retrieval
US7657935B2 (en) * 2001-08-16 2010-02-02 The Trustees Of Columbia University In The City Of New York System and methods for detecting malicious email transmission
US7870203B2 (en) 2002-03-08 2011-01-11 Mcafee, Inc. Methods and systems for exposing messaging reputation to an end user
US20030204569A1 (en) * 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US7219148B2 (en) * 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US7320020B2 (en) 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
GB2405229B (en) 2003-08-19 2006-01-11 Sophos Plc Method and apparatus for filtering electronic mail
US7392262B1 (en) 2004-02-11 2008-06-24 Aol Llc Reliability of duplicate document detection algorithms
US8214438B2 (en) 2004-03-01 2012-07-03 Microsoft Corporation (More) advanced spam detection features
US7555523B1 (en) 2004-05-06 2009-06-30 Symantec Corporation Spam discrimination by generalized Ngram analysis of small header fields
US8731986B2 (en) 2004-07-19 2014-05-20 Steve Angelica Modulated cascading electronic messaging network
US7574409B2 (en) 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
US20060149820A1 (en) 2005-01-04 2006-07-06 International Business Machines Corporation Detecting spam e-mail using similarity calculations
JP2006293573A (ja) 2005-04-08 2006-10-26 Yaskawa Information Systems Co Ltd 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
JP5183483B2 (ja) 2005-12-09 2013-04-17 フラウンホファー‐ゲゼルシャフト・ツア・フェルデルング・デア・アンゲヴァンテン・フォルシュング・エー・ファウ データ列の自動比較に用いられる方法およびその装置
US7529719B2 (en) 2006-03-17 2009-05-05 Microsoft Corporation Document characterization using a tensor space model
WO2008013384A1 (en) 2006-07-24 2008-01-31 Mi Lee Kim Functional belt
US7751620B1 (en) 2007-01-25 2010-07-06 Bitdefender IPR Management Ltd. Image spam filtering systems and methods
US7743003B1 (en) 2007-05-16 2010-06-22 Google Inc. Scaling machine learning using approximate counting that uses feature hashing
US9083556B2 (en) 2007-05-31 2015-07-14 Rpx Clearinghouse Llc System and method for detectng malicious mail from spam zombies
US8229833B2 (en) * 2007-09-28 2012-07-24 International Securities Exchange, Llc Simplified quote sharing calculation
JP5040718B2 (ja) 2008-02-21 2012-10-03 日本電気株式会社 スパム・イベント検出装置及び方法並びにプログラム
US8055078B2 (en) * 2008-02-28 2011-11-08 Yahoo! Inc. Filter for blocking image-based spam
JP2009230663A (ja) 2008-03-25 2009-10-08 Kddi Corp ウェブページの異常検知装置、プログラム、および記録媒体
KR100977180B1 (ko) 2008-04-04 2010-08-23 엔에이치엔(주) 스팸메일을 필터링하기 위한 방법, 시스템 및 컴퓨터 판독가능한 기록 매체
CN100541524C (zh) * 2008-04-17 2009-09-16 上海交通大学 基于内容的互联网动画媒体垃圾信息过滤方法
US8156063B1 (en) 2008-04-21 2012-04-10 Hewlett-Packard Development Company, L.P. Decision making based on changes input to a database
CN101262524A (zh) * 2008-04-23 2008-09-10 沈阳东软软件股份有限公司 垃圾语音过滤的方法及系统
US8001195B1 (en) 2008-08-26 2011-08-16 Kaspersky Lab, Zao Spam identification using an algorithm based on histograms and lexical vectors (one-pass algorithm)
US8295651B2 (en) 2008-09-23 2012-10-23 Microsoft Corporation Coherent phrase model for efficient image near-duplicate retrieval
US20100082749A1 (en) 2008-09-26 2010-04-01 Yahoo! Inc Retrospective spam filtering
CN101415159B (zh) 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置
US8718318B2 (en) 2008-12-31 2014-05-06 Sonicwall, Inc. Fingerprint development in image based spam blocking
CN101938711B (zh) 2009-06-30 2015-09-09 国际商业机器公司 用于垃圾消息检测的方法和设备
CN102254146B (zh) * 2010-05-18 2013-04-24 山东新北洋信息技术股份有限公司 磁墨水字符的识别方法、装置及系统
CN103140889B (zh) 2010-09-29 2015-01-07 Nec卡西欧移动通信株式会社 语音转换装置、便携电话终端、语音转换方法
US9450781B2 (en) * 2010-12-09 2016-09-20 Alcatel Lucent Spam reporting and management in a communication network
EP2659363A4 (en) 2010-12-30 2016-06-29 Kyle Kleinbart SYSTEM AND METHOD FOR ONLINE COMMUNICATION MANAGEMENT
US20120215853A1 (en) 2011-02-17 2012-08-23 Microsoft Corporation Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353133A (ja) * 1999-04-09 2000-12-19 Internatl Business Mach Corp <Ibm> 電子メッセージの望ましくない送信または受信を妨害するためのシステムおよび方法
JP2004186878A (ja) * 2002-12-02 2004-07-02 Keyware Solutions Inc 侵入検知装置及び侵入検知プログラム
JP2007511001A (ja) * 2003-11-12 2007-04-26 マイクロソフト コーポレーション アンチスパム技法の組込みを可能にするフレームワーク

Also Published As

Publication number Publication date
IL233057A0 (en) 2014-07-31
JP5941163B2 (ja) 2016-06-29
EP2807801A1 (en) 2014-12-03
CN104040963A (zh) 2014-09-10
WO2013112061A1 (en) 2013-08-01
CA2859135A1 (en) 2013-08-01
IL233057B (en) 2018-01-31
US9130778B2 (en) 2015-09-08
RU2601190C2 (ru) 2016-10-27
US10212114B2 (en) 2019-02-19
CN104040963B (zh) 2017-08-08
US20150381539A1 (en) 2015-12-31
CA2859135C (en) 2019-10-22
US20130191468A1 (en) 2013-07-25
KR101686144B1 (ko) 2016-12-28
AU2012367397B2 (en) 2016-09-08
SG11201403440PA (en) 2014-09-26
KR20140115314A (ko) 2014-09-30
AU2012367397A1 (en) 2014-07-03
RU2014133872A (ru) 2016-03-20

Similar Documents

Publication Publication Date Title
JP5941163B2 (ja) キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法
JP5990284B2 (ja) キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法
JP6068506B2 (ja) オンライン不正行為の検出の動的採点集計のシステムおよび方法
US9203852B2 (en) Document classification using multiscale text fingerprints
US10944791B2 (en) Increasing security of network resources utilizing virtual honeypots
US10454967B1 (en) Clustering computer security attacks by threat actor based on attack features
Dangwal et al. Feature selection for machine learning-based phishing websites detection
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
US10425438B1 (en) Enriching compromised data using corporate and social network inferred content
Naru et al. Detection of Fake Websites using Machine Learning Techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151216

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160519

R150 Certificate of patent or registration of utility model

Ref document number: 5941163

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250