JP6058005B2 - 情報フィルタリング - Google Patents

情報フィルタリング Download PDF

Info

Publication number
JP6058005B2
JP6058005B2 JP2014525097A JP2014525097A JP6058005B2 JP 6058005 B2 JP6058005 B2 JP 6058005B2 JP 2014525097 A JP2014525097 A JP 2014525097A JP 2014525097 A JP2014525097 A JP 2014525097A JP 6058005 B2 JP6058005 B2 JP 6058005B2
Authority
JP
Japan
Prior art keywords
sample
message
text
filtering container
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014525097A
Other languages
English (en)
Other versions
JP2014527669A (ja
Inventor
イエ ワン
イエ ワン
ジーフイ タン
ジーフイ タン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2014527669A publication Critical patent/JP2014527669A/ja
Application granted granted Critical
Publication of JP6058005B2 publication Critical patent/JP6058005B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本開示は、データ処理技術の分野に関し、より詳細には、コンピュータ実装された情報フィルタリングの方法、システム、および装置に関する。
〔関連出願の相互参照〕
本願は、2011年8月8日に出願された「Computer−implemented Information Filtering method, Information filtering Apparatus and System」という名称の中国特許出願第201110225345.3号に対する外国優先権を主張し、該出願は、参照によりその全体が本明細書に組み込まれる。
情報伝送機能は、ネットワークによって接続された様々なユーザー間のやりとりを可能にする。しかし、幾人かの悪意のあるユーザーは、(いくつかのフィッシング詐欺サイトリンクまたはジャンク広告を含み得る)大量の繰返しメッセージまたは同様のメッセージを、彼らのクリック率を増加させるために送信する。それらが、電子商取引または電子メールシステムで生じる場合、かかるシナリオは、かかるシステムの負荷および伝送量を増加し得、それにより、かかるシステムのサーバーの記憶およびデータ処理能力に莫大な圧力をもたらす。情報をフィルタリングするための従来型の方法が以下で説明される。
1つの例示的な方法は、規則に基づいた情報フィルタリング方法である。例えば、ジャンクメッセージを定期的に送信するユーザーは、ブラックリストに追加される。ブラックリストに載せられたユーザーが繰返しメッセージを再度送信しようとすると、かかる繰返しメッセージは遮断される。例えば、1つまたは複数のキーワードが、メッセージ内のあるデータフィールドに基づいて確立され得る。これらのメッセージの任意のフィールドがかかるキーワードを含む場合、かかるメッセージはフィルタリングされる。規則に基づいた情報フィルタリング方法は、比較的単純で、直接的、迅速対応であるが、かかる規則はすぐに失効もする。規則の更新速度は遅いが、メッセージのコンテンツは絶え間なく更新される。以前の規則に基づき、変更されたユーザー名によって送信されたか、または修正されたコンテンツを有するメッセージは、ジャンクメッセージとみなされるのを容易に回避し得る。従って、多数のジャンクメッセージが効果的にフィルタリングできない。情報フィルタリングの成功率は低い。例えば、ブラックリストに載せられたユーザー名をもつユーザーは、新しいユーザー名に変更し得る。新しいユーザー名がブラックリスト上になければ、かかるユーザーは、継続してジャンクメッセージを送信できる。低い成功フィルタリング率は、低効率のデータ処理も引き起こす。さらに、規則の作成および更新は、多数の専門家の参加を必要とし、それは労力と費用がかかる。
別の例示的な方法は、機械学習に基づく情報フィルタリング方法である。ジャンクメッセージと見なされるいくつかのメッセージおよび通常のメッセージと見なされるいくつかのメッセージが、まず、サンプルのデータベースを確立するために手動で収集される。いくつかの収集されるメッセージは、広い範囲をカバーするように収集される必要がある。分類モデルおよび関連パラメータが、サンプルデータベースに対して確立され得る。分類モデルが確立されると、ジャンクメッセージおよび非ジャンクメッセージの参照データが取得されて、情報のフィルタリングに使用され得る。例えば、現在のメッセージに対して、現在のメッセージの分類が判断され得る。ジャンクメッセージおよび非ジャンクメッセージの参照データに基づいて、現在のメッセージが、ジャンクメッセージまたは非ジャンクメッセージと判断される。ジャンクメッセージが次いで除去される。
機械学習に基づく情報フィルタリング方法の問題は、サンプルの収集、分類モデルの確立、および参照データの取得が非常に複雑であり、分類モデルおよび参照データの継続的な更新を必要とすることである。例えば、サンプルデータベースが大規模である場合、それは、何十万もの項目を含み得、分類モデルの進捗を遅くする。機械学習は、数か月続く学習期間を必要とし得る。従って、膨大な量のデータが処理される必要があるが、それは時間がかかる。さらに、分類モデルの作成は、モデル作成を専門とする専門家の参加を必要とする。ソフトウェアでの実装も、高度に熟練したプログラマの参加を必要とする。この方法は、費用がまだ比較的高いので、労力と費用も要する。
その上、前述した2つの方法は、複数の言語のサポートが困難である。規則に基づく情報フィルタリング方法は、異なる言語を処理可能な運用スタッフのチームを必要とする。機械学習に基づく情報フィルタリング方法は、複雑な単語区分および意味解析の問題を解決する必要があるので、さらに多くの困難に直面する。しかし、いくつかの国際的なウェブサイトは、複数の言語を広く使用する。
この発明の概要は、概念の選択を単純化した形式で紹介するために提供されており、それらは、以下の発明を実施するために形態でさらに説明される。この発明の概要は、請求された主題の重要な特徴または本質的な特徴を識別することを意図しておらず、また、請求された主題の範囲の判断において補助として用いられることも意図していない。例えば、「技術」という用語は、上のコンテキストによって許容されるように、また本開示全体にわたって、装置、システム、方法および/またはコンピュータ可読命令を指し得る。
本開示は、情報フィルタリングの方法、システム、および装置を開示する。本技術は、コンピュータ実装されて、人間の介入なしで、自動情報フィルタリングを実現し得、それにより、費用を削減し、情報フィルタリングの成功率を向上させ、そして、データ処理効率を向上させる。
本開示は、情報フィルタリングの方法を開示する。メッセージが受信され、そのメッセージからテキストが取得される。次いで、フィルタリングコンテナが、取得されたテキストと似ているサンプルを含むかどうかが判断される。判断結果が肯定であれば、取得されたテキストに対して新しいサンプルが作成されて、フィルタリングコンテナの帰属サンプルデータベースに追加され、メッセージは伝送されない。判断結果が否定であれば、取得されたテキストに対して新しいサンプルが作成されて、フィルタリングコンテナの新しいサンプルデータベースに追加され、メッセージが伝送される。
本開示は、情報フィルタリングの装置を開示する。装置は、受信モジュール、取得モジュール、判断モジュール、第1の処理モジュール、および第2の処理モジュールを含み得る。受信モジュールは、メッセージを受信する。取得モジュールは、メッセージからテキストを取得する。判断モジュールは、フィルタリングコンテナが、取得されたテキストに似ているサンプルを含むかどうかを判断する。判断結果が肯定の場合、第1の処理モジュールが、取得されたテキストに対して新しいサンプルを作成し、その新しいサンプルをフィルタリングコンテナの帰属サンプルデータベースに追加して、メッセージは伝送しない。判断結果が否定の場合、第2の処理モジュールが、取得されたテキストに対して新しいサンプルを作成し、その新しいサンプルをフィルタリングコンテナのサンプルデータベースに追加して、メッセージを伝送する。
本開示は、情報フィルタリングのシステムも開示する。システムは、少なくとも1つの受信者側メッセージ応答モジュール、少なくとも1つの送信者側メッセージ応答モジュール、および前述した少なくとも1つの情報フィルタリングの装置を含み得る。送信者側メッセージ応答モジュールは、送信者側によって送信されたメッセージを受信し、そのメッセージを情報フィルタリングの装置に送信する。装置は、次いで、そのメッセージをフィルタ処理する。受信者側メッセージ応答モジュールは、装置から受信したメッセージを受信者側に送信する。
本開示における本技術は、メッセージ内のテキストをサンプルとして使用し、受信したメッセージ内のテキストがサンプルデータベース内の既存のサンプルのテキストに似ているかどうかに基づいて、そのサンプルを、帰属サンプルデータベースまたは新しいサンプルデータベースに選択して追加する。本技術は、受信したメッセージ内のテキストがサンプルデータベース内のサンプルのテキストに似ているかどうかに基づいて、そのメッセージを情報のフィルタリングのために伝送するかどうかも判断する。サンプルデータベース内のサンプルは、必ずしも手動収集を必要とせず、メッセージ受信のプロセス中に、自動的に蓄積および更新できる。人間の介入が必要ないので、費用がそれ故削減される。
サンプルデータベース内のサンプルは、継続的に受信されるメッセージに基づいて継続的に更新されるので、サンプルデータベース内のサンプルは、メッセージの最新変更に適合し得る。規則がタイムリーに更新されないかも知れない、従来型の規則に基づく情報フィルタリング方法、および、作成されたモデルまたは参照データがタイムリーに更新されないかも知れない、従来型の機械学習に基づく情報フィルタリング方法とは異なり、本技術は、除去される必要のある情報を逃す可能性を取り除くか、または減らし得る。本技術は、情報フィルタリングの成功率を向上させ得る。
その上、情報フィルタリングを逃す確率が減らされるので、処理に値しない繰返しメッセージもフィルタ処理される。従って、情報処理の量が削減されて、データ処理効率が改善される。
さらに、本技術は、規則の確立および機械学習モデルの作成を必ずしも必要としない。本技術は、テキスト内の意味の代わりに、テキストの分析を対象とする。従って、本技術は、複数の言語をサポートし得、任意の言語の任意のテキストに適用可能であり得る。
本開示の実施形態をさらに良く説明するため、以下は、実施形態の説明で使用される図の簡単な紹介である。以下の図は、本開示のいくつかの実施形態にのみ関連することは明らかである。当業者は、創造的な努力なしで、本開示の図に従って他の図を取得できる。
本開示に従った、情報フィルタリングのシステム例の図を示す。 本開示の第1の実施形態例に従った、情報フィルタリングの方法例のフローチャートを示す。 図2に示す方法例に従って作成された、フィルタリングコンテナ例の図を示す。 本開示の第2の実施形態例に従った、情報フィルタリングの別の方法例のフローチャートを示す。 本開示に従った、情報フィルタリングの装置例の図を示す。 本開示に従った、情報フィルタリングの別のシステム例の図を示す。 本開示に従った、情報フィルタリングの別のシステム例の図を示す。
以下は本技術の詳細な説明である。本明細書に記載される実施形態は、実施形態の例であり、本開示の範囲を制限するために使用されるべきでない。
図1は、本開示に従った情報フィルタリングのシステム例100の図を示す。システム100は、送信者側の端末と受信者側の端末との間に配置され得る。システム100は、送信者側から受信者側に送信されたメッセージを処理する。システム100は、1つまたは複数のプロセッサ102およびメモリ104を含み得るが、それらに限らない。メモリ104は、ランダムアクセスメモリ(RAM)などの揮発性メモリ、および/または読取り専用メモリ(ROM)もしくはフラッシュRAMなどの不揮発性メモリの形で、コンピュータ記憶媒体を含み得る。メモリ104は、コンピュータ記憶媒体の一例である。
コンピュータ記憶媒体は、コンピュータ実行可能命令、データ構造、プログラムモジュール、または他のデータなどの情報を保存するために、任意の方法または技術で実装された、揮発性および不揮発性、取り外し可能および固定型媒体を含む。コンピュータ記憶媒体の例は、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスク読取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)もしくは他の光学式記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶装置、またはコンピューティング装置によるアクセス用に情報を格納するために使用できる任意の他の非伝達媒体を含むが、それらに限らない。本明細書で定義されるように、コンピュータ記憶媒体は、変調データ信号および搬送波などの一時的媒体を含まない。
メモリ104は、その中に、プログラムユニットまたはモジュールおよびプログラムデータを格納し得る。一実施形態では、モジュールは、送信者側メッセージ応答モジュール106、メッセージフィルタリング装置108、および受信者側メッセージ応答モジュール110を含み得る。
いくつかの例では、送信者側メッセージ応答モジュール106、メッセージフィルタリング装置108、および受信者側メッセージ応答モジュール110は、異なるメモリ内に存在し、同一または異なるプロセッサで実行され得る。
送信者側メッセージ応答モジュール106は、送信者側によって送信されたメッセージに応答する。例えば、送信者側メッセージ応答モジュール106は、送信者側によって送信されたメッセージを受信して、そのメッセージを情報フィルタリング装置108に送信し得る。受信者側メッセージ応答モジュール110は、受信者側に送信されたメッセージに応答する。例えば、受信者側メッセージ応答モジュール110は、装置108から受信されたメッセージを受信者側に送信し得る。
メモリ104は、送信者側メッセージ応答モジュール106、メッセージフィルタリング装置108、および受信者側メッセージ応答モジュール110の各々の1つまたは複数を含み得る。送信者側と受信者側との間で伝送されるメッセージは、送信者側フィールド、受信者側フィールド、および本体を含み得る。本体は、テキストを含み得る。
本開示のフィルタリング技術の例が、図1に示されるようなシステム100を参照して、以下で説明される。図2は、本開示の第1の実施形態例に従った、情報フィルタリングの方法例のフローチャートを示す。
202で、メッセージが受信される。メッセージは、送信者側メッセージ応答モジュール106から情報フィルタリング装置108によって受信されたメッセージであり得る。
204で、メッセージからテキストが抽出される。206で、フィルタリングコンテナが、取得されたテキストに似ているサンプルを含むかどうかが判断される。フィルタリングコンテナが、取得されたテキストに似ているサンプルを含む場合、208での操作が実行される。フィルタリングコンテナが、取得されたテキストに似ているサンプルを含まない場合、210での操作が実行される。
本開示の実施形態例では、フィルタリングコンテナは1つまたは複数のサンプルデータベースのセットである。各サンプルデータベースは、1つまたは複数の類似サンプルを含む。サンプルは、テキストおよび/または、テキストのベクトル、テキストの長さ、テキストの分類などの、テキストの文字情報を含み得る。いくつかの例では、サンプルは、テキストのみを含み得る。フィルタリングコンテナのサンプル内のテキストは、例えば、以前に受信されたメッセージのテキストである。フィルタリングコンテナが、現在受信されたメッセージの取得されたテキストに似ているサンプルを含む場合、それは、同様のメッセージが以前に受信されたことを意味する。従って、208で、202で受信されたメッセージが除去され得る。フィルタリングコンテナが、現在受信されたメッセージの取得されたテキストに似ているサンプルを含まない場合、それは、同様のメッセージが以前に受信されていないことを意味する。従って、110で、202で受信されたメッセージが送信され得る。
実施形態例では、取得されたテキストに似たテキストを含むフィルタリングコンテナ内のサンプルは、類似サンプルと呼ばれ得る。
208で、メッセージから抽出されたテキストに基づいて、新しいサンプルが作成される。その新しいサンプルは、フィルタリングコンテナの帰属サンプルデータベースに追加されて、202で受信されたメッセージが除去される。すなわち、202で受信されたメッセージは送信されない。例えば、202で受信されたメッセージは、廃棄され得、さらなる処理は必要とされない。本開示の実施形態例では、帰属サンプルデータベースは、そのテキストが、204でメッセージから抽出されたテキストに似ているサンプルを格納するデータベースを指す。
210で、メッセージから抽出されたテキストに基づいて、新しいサンプルが作成される。その新しいサンプルは、フィルタリングコンテナの新しいサンプルデータベースに追加されて、202で受信されたメッセージが送信される。210で、新しいサンプルデータベースがフィルタリングコンテナ内に作成される。新しいサンプルが作成された後、新しいサンプルデータベースを確立するためのプロセスが実行され得る。あるいは、新しいサンプルが作成される時に同時に、新しいサンプルデータベースを確立するためのプロセスが実行され得る。あるいは、新しいサンプルが作成される前に、新しいサンプルデータベースが確立され得る。
210で、メッセージフィルタリング装置108が、202で受信されたメッセージを受信者側メッセージ応答モジュール110に送信する。次いで、受信者側メッセージ応答モジュール110が、そのメッセージを受信者側に送信する。
図3は、図2に示された方法例に従って作成されたフィルタリングコンテナ例300の図を示す。図3の例では、フィルタリングコンテナ300は、3つのサンプルデータベース、すなわち、サンプルデータベース302、サンプルデータベース304、サンプルデータベース306を含む。サンプルデータベース302は、サンプル302(1)、サンプル302(2)、およびサンプル302(3)などの類似サンプルのセットを含み得る。サンプルデータベース304は、サンプル304(1)、サンプル304(2)、およびサンプル304(3)などの類似サンプルの別のセットを含み得る。サンプルデータベース306は、サンプル306(1)、サンプル306(2)、およびサンプル306(3)などの類似サンプルの別のセットを含み得る。いくつかの他の例では、サンプルデータベースの数および各サンプルデータベース内のサンプルの数は異なり得る。
202で受信されたメッセージ308に関して、サンプル304(1)のテキストなどの、フィルタリングコンテナ300内の任意のサンプルのテキストが、メッセージ308から抽出されたテキスト310に似ている場合、サンプル304(1)などの、フィルタリングコンテナ300内のかかるサンプルは、メッセージ308に対する類似サンプルである。208で、新しいサンプルがテキスト310に対して作成される。新しいサンプルは、サンプルデータベース304に追加される。サンプルデータベース304は、帰属サンプルデータベースである。フィルタリングコンテナ300が検索された後、任意のサンプルのどのテキストもメッセージ308から抽出されたテキスト310に似ていないことが分かると、新しいサンプルがテキスト310に対して作成され、新しいサンプルデータベースがフィルタリングコンテナ300内に確立される。新しいサンプルが、その新しいサンプルデータベースに追加される。
受信されたメッセージ内のテキストに関して、本開示の第1の実施形態例内の方法例は、そのテキストがサンプルデータベース内の任意のサンプルの任意のテキストに似ているかどうかに基づいて、そのサンプルを、帰属サンプルデータベースまたは新しいサンプルデータベースに選択して追加し、メッセージを伝送するかどうかを判断する。メッセージフィルタリングが、このようにして実現される。サンプルデータベース内のサンプルは、必ずしも手動収集を必要とせず、メッセージ受信のプロセス中に、自動的に蓄積および更新できて、自動情報フィルタリングを実現する。人間の介入が必要ないので、費用が削減される。
サンプルデータベース内のサンプルは、継続的に受信されるメッセージに基づいて継続的に更新されるので、サンプルデータベース内のサンプルは、メッセージの最新変更に適合し得る。規則がタイムリーに更新されないかも知れない、従来型の規則に基づく情報フィルタリング方法、および、作成されたモデルまたは参照データがタイムリーに更新されないかも知れない、従来型の機械学習に基づく情報フィルタリング方法とは異なり、本技術は、除去される必要のある情報を逃す可能性を取り除くか、または減らし得る。本技術は、情報フィルタリングの成功率を向上させ得る。
例えば、同一のユーザーが、同一のメッセージを送信するために、2つの異なるユーザー名を使用し得る。本技術のもとでは、ユーザー名が異なる場合でさえ、そのユーザーが以前に送信したメッセージに対応するサンプルが、フィルタリングコンテナのサンプルデータベースから見つかり得る。繰返しメッセージが、次いで、除去されて、複数の繰返しメッセージを送信するために、ユーザーが複数のユーザー名を使用するシナリオが回避される。
その上、情報フィルタリングを逃す確率が減らされるので、処理に値しない繰返しメッセージもフィルタ処理される。従って、処理される情報の量が削減されて、データ処理効率が改善される。
さらに、本技術は、規則の確立および機械学習モデルの作成を必ずしも必要としない。本技術は、テキスト内の意味の代わりに、テキストの分析を対象とする。従って、本技術は、複数の言語をサポートし得、任意の言語の任意のテキストに適用可能であり得る。
本開示の実施形態例では、メッセージが受信される前にサンプルデータベースおよびサンプルが確立される場合、本技術は、メッセージから抽出されたテキストに似ている任意の既存のテキストがサンプルデータベース内にあるかどうかを判断し得る。サンプルデータベースおよびサンプルが確立されていない場合、202で受信されたメッセージから抽出されたテキストが、新しいサンプルを作成するために使用され得、その作成された新しいサンプルが、第1のサンプルとして新しいサンプルデータベースに追加される。続いて受信されるメッセージが、新しいサンプルデータベース内のサンプルを継続的に更新するために使用され得る。
206で、メッセージから抽出されたテキストに似ているテキストを含むサンプルがあるかどうかを判断するために様々な技術が使用され得る。例えば、1つの技術はベクトルに基づき得る。別の例として、別の技術は、最長共通文字列(LCS)に基づき得る。さらに別の例として、別の技術は、ベクトルとLCSの組合せに基づき得る。いくつかの技術が以下で説明される。
第1の計算技術例は、ベクトルに基づく。2つのテキスト間の類似度が、ベクトル類似度によって表され得る。ベクトル類似度は、2つのテキストのベクトル間の角度の余弦によって表され得る。206で、メッセージ内のテキストのベクトルおよびサンプルデータベース内のサンプルのテキストのベクトルが抽出され得る。次いで、サンプルのテキストのベクトルとメッセージから抽出されたテキストのベクトルとの間の類似度が、類似度閾値より高いか、または類似度閾値に等しいかが判断される。類似度閾値は、データ処理の必要性に基づいて事前設定され得る。テキストは1つまたは複数の用語(term)を含み得る。各用語は、英語の単語または漢字であり得る。語出現頻度は、ある単語がテキスト内に現れる回数を表す。逆文献頻度(IDF)は、用語の一般化重要度(generalized importance)を表す。用語の重みは、用語の語出現頻度と用語のIDFの積によって表され得る。例えば、テキストのベクトルwは、w=(w,w,...,w)として表され得、ここでnは任意の整数であり、w,w,...,wは、テキスト内のそれぞれの用語の重みを表す。2つのテキストのベクトルが取得された後、2つのベクトルによって形成される角度の余弦が計算される。余弦値が高ければ高いほど、2つのテキスト間の類似点が多い。
本開示の実施形態例では、メッセージからのテキストのベクトルおよびサンプルデータベース内のサンプルのテキストのベクトルが抽出され得る。メッセージからのテキストのベクトルおよびサンプルデータベース内のサンプルのテキストのベクトルによって形成された様々な角度の余弦値が計算される。本技術は、それぞれの余弦値が類似度閾値より高いか、または類似度閾値に等しいかを判断する。メッセージからのテキストのベクトルおよびそれぞれのサンプルのテキストのそれぞれのベクトルによって形成されたそれぞれの角度のそれぞれ余弦値が類似度閾値より高いか、または類似度閾値に等しい場合、それぞれのサンプルのテキストとメッセージから抽出されたテキストとの間の類似度が、類似度閾値より高いか、または類似度閾値に等しいと判断される。すなわち、フィルタリングコンテナは、そのテキストが、メッセージから抽出されたテキストに似ているサンプルを含む。
データベース内の全てのサンプルがトラバースされた後、メッセージからのテキストのベクトルおよび任意の関連サンプルのテキストの任意のベクトルによって形成された、類似度閾値より高いか、または類似度閾値に等しい、任意の角度の余弦値がない場合、類似度閾値より高いか、または類似度閾値に等しい、任意のサンプルのテキストとメッセージから抽出されたテキストとの間の類似度がないと判断される。すなわち、フィルタリングコンテナは、そのテキストが、メッセージから抽出されたテキストに似ているサンプルを含まない。
2つのテキスト間の類似度をさらに正確に計算し、かつ、類似度の計算における空間複雑性および時間複雑性を削減するため、LSH(local sensitive hashing)法が、メッセージから抽出されたテキストの高次元ベクトルと、サンプルデータベース内のサンプルのテキストの高次元ベクトルとの間の類似度を計算するために使用され得る。2つの高次元ベクトルの間の類似度は、2つのテキストの間の類似度を表し得る。その上、高次元ベクトルは、さらに多くのテキスト文字を表し得る。高次元ベクトルの計算前に、テキストまたはサンプルは離散化され得る。
第2の計算技術例は、LCSに基づく。LCSは、2つ以上のテキスト文字列間の最長共通文字列である。それは、必ずしも連続的ではないが、テキスト文字列から連続して抽出されている、一連の文字であり得る。LCSは、2つ以上のテキスト文字列間の類似度を表し得る。2つのテキスト文字列の例に関して、LCSが長ければ長いほど、2つのテキスト文字列間の類似度が高い。テキストは、比較的長いテキスト文字列と見なされ得る。
LCSに基づき、206で、本技術は、メッセージから抽出されたテキストとのそのLCSが、文字列長閾値より長いか、または文字列長閾値に等しい、データベース内の任意のサンプルのテキストがあるかどうかを判断し得る。文字列長は事前設定値であり得る。
それぞれのサンプルのテキストとメッセージから抽出されたテキストとの間のLCSのそれぞれの長さが、文字列長閾値より長いか、または文字列長閾値に等しい場合、メッセージから抽出されたテキストとのそのLCSが、文字列長閾値より長いか、または文字列長閾値に等しい、サンプルデータベース内のサンプルのテキストが存在すると判断される。すなわち、フィルタリングコンテナは、そのテキストが、メッセージから抽出されたテキストに似ているサンプルを含む。そうでなければ、メッセージから抽出されたテキストとのそのLCSが、文字列長閾値より長いか、または文字列長閾値に等しい、サンプルデータベース内のサンプルのテキストが存在しないと判断される。すなわち、フィルタリングコンテナは、そのテキストが、メッセージから抽出されたテキストに似ているサンプルを含まない。
第3の計算技術例は、ベクトルとLCSの組合せに基づく。例えば、メッセージ内のテキストのベクトルおよびサンプルデータベース内のサンプルのテキストのベクトルが抽出され得る。次いで、そのテキストのベクトルとメッセージから抽出されたテキストのベクトルとの間の類似度が、類似度閾値より高いか、または類似度閾値に等しい、サンプルが存在するかどうかが判断される。選択された1つまたは複数のサンプルが、第1の類似サンプル候補と見なされる。次いで、本技術は、メッセージから抽出されたテキストとのそのLCSが、文字列長閾値より長いか、または文字列長閾値に等しい、第1の類似サンプル候補からの第2の類似サンプル候補が存在するかどうかを判断する。第2の類似サンプル候補が存在する場合、その第2の類似サンプル候補は、メッセージから抽出されたテキストに似ている類似サンプルである。すなわち、フィルタリングコンテナは、そのテキストが、メッセージから抽出されたテキストに似ているサンプルを含む。
あるいは、本技術は、まず、LCSに基づいて類似サンプル候補があるかどうかを判断し得、そして、そのテキストのベクトルとメッセージから抽出されたテキストのベクトルとの間のその類似度が、類似度閾値より高いか、または類似度閾値に等しい、サンプル候補内の類似サンプルが存在するかどうかを判断し得る。かかる候補が存在する場合、類似サンプルのテキストは、メッセージから抽出されたテキストに似ている。
第3の計算技術例は、本質的に二重保証(double guarantee)技術を使用して、サンプルデータベース内のサンプルのテキストが、メッセージから抽出されたテキストに似ているかどうかをさらに正確に判断し、それにより、さらに正確な情報フィルタリングを提供する。
本開示の実施形態例では、サンプルおよびサンプルデータベースの数の無制限の増加を防ぎ、かつ、サンプルのリアルタイム更新を保証するため、本技術は、最低使用頻度(LRU)原理を使用して、いくつかのサンプルおよび/またはサンプルデータベースを動的に取り除き得る。
208で、新しいサンプルが類似サンプルの帰属サンプルデータベースに追加される。詳細な操作は以下のとおりであり得る。
第1の操作で、帰属サンプルデータベース内に削除される必要のある1つまたは複数のサンプルが存在するかどうかが判断される。帰属サンプルデータベース内に削除される必要のある1つまたは複数のサンプルが存在しない場合、第2の操作が実行される。帰属サンプルデータベース内で1つまたは複数のサンプルが削除される必要のある場合、第3の操作が実行される。
第2の操作で、新しいサンプルが、帰属サンプルデータベースに追加される。第3の操作で、削除される必要のある1つまたは複数のサンプルが帰属サンプルデータベースから削除されて、新しいサンプルがその帰属サンプルデータベースに追加される。
第1の操作で、本技術は、新しいサンプルが帰属サンプルデータベースに追加された後、帰属サンプルデータベース内のサンプルの総数が、事前設定された総サンプル数閾値より多くなるかどうかを判断し得る。新しいサンプルが帰属サンプルデータベースに追加された後、帰属サンプルデータベース内のサンプルの総数が、事前設定された総サンプル数閾値より多くなる場合、本技術は、帰属サンプルデータベース内に削除される必要のある1つまたは複数のサンプルが存在すると判断する。新しいサンプルが帰属サンプルデータベースに追加された後、帰属サンプルデータベース内のサンプルの総数が、事前設定された総サンプル数閾値を上回らない場合、本技術は、帰属サンプルデータベース内に削除される必要のある1つまたは複数のサンプルが存在しないと判断する。事前設定総サンプル数閾値は、リアルタイムで変更され得る、メッセージ処理の実際の操作に基づいて、普通の技術者によって動的に設定され得る。
第3の操作で、サンプルを削除するための様々な方法がある。例えば、帰属サンプルデータベース内の各サンプルの利用回数が取得され得る。帰属サンプルデータベース内のサンプルの利用回数に基づいて、削除される必要のある1つまたは複数のサンプルが、削除される。例えば、利用回数の最も少ないサンプルが削除され得る。利用回数は、サンプルが類似サンプルとして使用される回数を意味する。普通の技術者は、サンプルを削除するための他の変形形態も使用し得る。例えば、その利用回数が閾値を超えるサンプルが残され得る。
図3の例では、新しいサンプルを確立するために、テキスト310がメッセージ308から抽出された後、本技術は、新しいサンプルが帰属サンプルデータベース(類似サンプル304(1)のサンプルデータベースであるサンプルデータベース304など)に追加された後、サンプルデータベース304内のサンプルの総数が事前設定された総サンプル数閾値よりも高くなるかどうかを判断する。例えば、事前設定総サンプル数閾値は、3に設定され得る。従って、サンプルデータベース304から削除される1つまたは複数のサンプルが存在すると判断される。サンプル304(1)、サンプル304(2)、およびサンプル304(3)に対する利用回数がそれぞれ取得されて、最も少ない利用回数のサンプルが削除される。新しいサンプルが、次いで、サンプルデータベース304に追加される。
事前設定総サンプル数閾値の動的な設定を通じて、利用回数のより少ない1つまたは複数のサンプルが動的に削除され得る。従って、サンプルデータベース内のサンプルが動的に更新され得、サンプルデータベースの量が無制限には増加されないであろう。それ故、メッセージフィルタリングのシステムのメッセージ処理量も動的に調整され、かつ、効率的に制御される。
210で、新しいサンプルデータベースがフィルタリングコンテナ内に作成される。詳細な操作は、以下のとおりであり得る。
第1の操作で、フィルタリングコンテナ内に削除される必要のある1つまたは複数のサンプルデータベースが存在するかどうかが判断される。フィルタリングコンテナ内に削除される必要のある1つまたは複数のサンプルデータベースが存在しない場合、第2の操作が実行される。フィルタリングコンテナ内に削除される必要のある1つまたは複数のサンプルデータベースが存在する場合、第3の操作が実行される。
第2の操作で、新しいサンプルデータベースが作成される。第3の操作で、削除される必要のある1つまたは複数のサンプルデータベースがフィルタリングコンテナから削除されて、新しいサンプルデータベースが作成される。
第1の操作で、本技術は、新しいサンプルデータベースがフィルタリングコンテナ内に作成された後、フィルタリングコンテナ内のサンプルデータベースの総数が、事前設定された総サンプルデータベース数閾値より多くなるかどうかを判断し得る。新しいサンプルデータベースがフィルタリングコンテナ内に作成された後、フィルタリングコンテナ内のサンプルデータベースの総数が、事前設定された総サンプルデータベース数閾値より多くなる場合、本技術は、フィルタリングコンテナ内に削除される必要のある1つまたは複数のサンプルデータベースが存在すると判断する。新しいサンプルデータベースがフィルタリングコンテナ内に作成された後、フィルタリングコンテナ内のサンプルデータベースの総数が、事前設定された総サンプルデータベース数閾値を上回らない場合、本技術は、フィルタリングコンテナ内に削除される必要のある1つまたは複数のサンプルデータベースが存在しないと判断する。事前設定総サンプルデータベース数閾値は、リアルタイムで変更され得る、メッセージ処理の実際の操作に基づいて、普通の技術者によって動的に設定され得る。
第3の操作で、サンプルを削除するための様々な方法がある。例えば、フィルタリングコンテナ内の各サンプルデータベースの総利用回数が取得され得る。フィルタリングコンテナ内のサンプルデータベースの総利用回数に基づいて、削除される必要のある1つまたは複数のサンプルデータベースが、削除される。例えば、総利用回数の最も少ないサンプルデータベースが削除され得る。総利用回数は、サンプルデータベース内の各サンプルの平均利用回数とサンプルデータベース内の総サンプル数の積であり得る。普通の技術者は、サンプルデータベースを削除するための他の変形形態も使用し得る。例えば、その総利用回数が事前設定数閾値を超えるサンプルデータベースが残される。
図3の例では、全てのサンプルデータベース、すなわち、サンプルデータベース302、サンプルデータベース304、サンプルデータベース306がトラバースされ、かつ、メッセージ308から抽出されたテキスト310に似た類似サンプルを見つけられなかった後、新しいサンプルがテキスト310に対して作成され、本技術は、削除される1つまたは複数のサンプルデータベースが存在するかどうかを判断する。例えば、事前設定総サンプルデータベース数閾値は、3として設定され得る。従って、削除される必要のある1つまたは複数のサンプルデータベースが存在すると判断される。サンプルデータベース302、サンプルデータベース304、およびサンプルデータベース306に対する総利用回数がそれぞれ取得されて、総利用回数の最も少ないサンプルデータベースが削除される。新しいサンプルデータベースが、次いで作成されて、新しいサンプルがその新しいサンプルデータベースに追加される。削除される必要のある1つまたは複数のサンプルデータベースが存在しない場合、新しいサンプルデータベースがフィルタリングコンテナ内に直接作成され得、新しいサンプルがその新しいサンプルデータベースに追加される。
事前設定総サンプルデータベース数閾値の動的な設定を通じて、総利用回数のより少ない1つまたは複数のサンプルデータベースが動的に削除され得る。従って、サンプルデータベース内のサンプルデータベースが動的に更新され得、サンプルデータベースの総数が無制限には増加されないであろう。それ故、メッセージフィルタリングのシステムのメッセージ処理量も動的に調整され、かつ、効率的に制御される。
図4は、本開示の第2の実施形態例に従った、情報フィルタリングの別の方法例のフローチャートを示す。
402で、メッセージが受信される。404で、テキストがメッセージから抽出される。406で、抽出されたテキストに関してフォーマット操作が実施される。例えば、1つまたは複数のタグが、リッチテキストフォーマット(RTF)のテキストから除去され得る。別の例として、テキスト内のエスケープシーケンスは、エスケープシーケンスによって表される意味を取得するために、逆にされ得る。
408で、抽出されたテキストが離散化される。例えば、LSH法が、テキストの高次元ベクトルVを取得するために使用され得る。410で、フィルタリングコンテナが、メッセージから抽出されたテキストに似ているサンプルを含むかどうかが判断される。例えば、本技術は、そのテキストの高次元ベクトルが、高次元ベクトルVに似ているサンプルを、フィルタリングコンテナが含むかどうかを判断する。フィルタリングコンテナ内に類似サンプルがある場合、412での操作が実行される。フィルタリングコンテナ内の全てのサンプルデータベースがトラバースされた後、フィルタリングコンテナ内に類似サンプルがない場合、413での操作が実行される。
412での操作は、以下の下位操作を含み得る。414で、抽出されたテキストに基づいて、新しいサンプルが作成される。416で、帰属サンプルデータベースから削除される必要のある1つまたは複数のサンプルが存在するかどうかが判断される。例えば、本技術は、新しいサンプルが帰属サンプルデータベースに追加された後、帰属サンプルデータベース内のサンプルの総数が、事前設定された総サンプル数閾値より多くなるかどうかを判断し得る。帰属サンプルデータベースから削除される必要のある1つまたは複数のサンプルが存在する場合、418での操作が実行される。帰属サンプルデータベースから削除される必要のある1つまたは複数のサンプルが存在しない場合、420での操作が実行される。
418で、帰属サンプルデータベース内の各サンプルの利用回数が取得される。利用回数の最も少ないサンプルが削除される。414で作成された新しいサンプルが、帰属サンプルデータベースに追加される。422での操作が、次いで実行される。
420で、414で作成された新しいサンプルが、帰属サンプルデータベースに追加される。422での操作が、次いで実行される。422で、402で受信されたメッセージが除去される。すなわち、402で受信されたメッセージが送信されない。例えば、メッセージは、廃棄され得るか、または他の処理のために別の指定された装置でキャッシュされ得る。
413での操作は、以下の下位操作を含み得る。424で、抽出されたテキストに基づいて、新しいサンプルが作成される。426で、フィルタリングコンテナから削除される必要のある1つまたは複数のサンプルデータベースが存在するかどうかが判断される。例えば、新しいサンプルデータベースが作成された後、フィルタリングデータ内のサンプルデータベースの総数が、事前設定された総サンプルデータベース数閾値より多くなるかどうかが判断される。削除される1つまたは複数のサンプルデータベースが存在する場合、428での操作が実行される。削除される1つまたは複数のサンプルデータベースが存在しない場合、430での操作が実行される。
428で、フィルタリングコンテナ内の各サンプルデータベースの総利用回数が取得される。総利用回数の最も少ない1つまたは複数のサンプルデータベースが削除される。新しいサンプルデータベースが作成され、432での操作が、次いで実行される。
430で、新しいサンプルデータベースが作成され、432での操作が、次いで実行される。432で、新しいサンプルが、その新しいサンプルデータベースに追加される。434で、402で受信されたメッセージが送信される。
第2の実施形態例では、LSH法を使用して、そのテキストが、メッセージから抽出されたテキストに似ているサンプルが存在するかどうかを判断するために、高次元ベクトルを取得し得る。
他の例では、他の方法が使用され得る。例えば、410で、そのテキストの高次元ベクトルが、抽出されたテキストの高次元ベクトルに似ているサンプルを、フィルタリングコンテナが含むと判断される。かかるサンプルは、候補類似サンプルと見なされ得る。次いで、そのテキストがメッセージから抽出されたテキストに似ているフィルタリングコンテナ内の類似サンプルが存在するかどうかを判断するために、抽出されたテキストとのそのLCS長が、文字列長閾値より長いか、または文字列長閾値に等しい、候補類似サンプル内の任意のサンプルが存在するかどうかがさらに判断される。
前述した実施形態例は、送信者側メッセージ応答モジュール106、メッセージフィルタリング装置108、および受信者側メッセージ応答モジュール110の例によって説明されるが、各々の数は1つである。いくつかの他の例では、複数の送信者側メッセージ応答モジュールおよび複数の受信者側メッセージ応答モジュールがあり得る。複数の送信者側メッセージ応答モジュールのうちの1つによって送信されたメッセージを分析および格納した後、そのメッセージを対応する受信者側メッセージ応答モジュールにルーティングするために、メッセージ処理モジュールが使用され得る。送信者側メッセージ応答モジュール106とメッセージ処理モジュールとの間にメッセージフィルタリング装置108が確立され得る。あるいは、メッセージ処理モジュールと受信者側メッセージ応答モジュール110との間にメッセージフィルタリング装置108が確立され得る。
図5は、本開示に従った、情報フィルタリングの装置例500の図を示す。装置500は、1つまたは複数のプロセッサ502およびメモリ504を含み得るが、それらに限らない。メモリ504は、コンピュータ記憶媒体の一例である。
メモリ504は、その中に、プログラムユニットまたはモジュールおよびプログラムデータを格納し得る。一実施形態では、モジュールは、受信モジュール506、抽出モジュール508、判断モジュール510、第1の処理モジュール512、および第2の処理モジュール514を含み得る。受信モジュール506は、メッセージを受信する。抽出モジュール508は、受信モジュール506によって受信されたメッセージからテキストを抽出するために、受信モジュール506に接続される。判断モジュール510は抽出モジュール508に接続されて、そのテキストがメッセージから抽出されたテキストに似ているサンプルを、フィルタリングコンテナが含むかどうかを判断する。第1の処理モジュール512は、受信モジュール506、抽出モジュール508、および判断モジュール510に接続される。判断モジュール510が、そのテキストがメッセージから抽出されたテキストに似ているサンプルを、フィルタリングコンテナが含むと判断した後、第1の処理モジュール512が、抽出モジュール508によって抽出されたテキストに対して新しいサンプルを作成し、その新しいサンプルをフィルタリングコンテナの帰属データベースに追加して、受信モジュール506によって受信されたメッセージの送信を拒否する。第2の処理モジュール512は、受信モジュール506、抽出モジュール508、および判断モジュール510に接続される。判断モジュール510が、そのテキストがメッセージから抽出されたテキストに似ているサンプルを、フィルタリングコンテナが含まないと判断した後、第2の処理モジュール514が、抽出モジュール508によって抽出されたテキストに対して新しいサンプルを作成し、その新しいサンプルをフィルタリングコンテナの新しいサンプルデータベースに追加して、受信モジュール506によって受信されたメッセージを送信する。
判断モジュール510は、様々な方法を使用することにより、そのテキストがメッセージから抽出されたテキストに似ているサンプルがあるかどうかを判断し得る。例えば、かかる様々な方法は、ベクトルに基づく方法、LCS法、またはベクトルとLCS法の組合せを含み得る。例えば、判断モジュール510は、抽出されたテキストのベクトルおよびフィルタリングコンテナのサンプルデータベース内に格納されたサンプルのテキストのベクトルを取得し得、抽出されたテキストのベクトルとサンプルのテキストの任意のベクトルとの間の類似度が、類似度閾値より高いか、または類似度閾値に等しいかを判断する。別の例として、判断モジュール510は、そのテキストの抽出されたテキストとのLCS長が、文字列長閾値より長いか、または文字列長閾値に等しいサンプルを、フィルタリングコンテナ内のサンプルデータベースが含むかどうかを判断し得る。
図5の例では、第1の処理モジュール512は、第1のサンプル作成サブモジュール516、第1のサンプル追加サブモジュール518、および第1のメッセージ処理サブモジュール520を含み得る。第1のサンプル作成サブモジュール516は、判断モジュール510および抽出モジュール508に接続される。判断モジュール510が、そのテキストがメッセージから抽出されたテキストに似ているサンプルを、フィルタリングコンテナが含むと判断した後、第1のサンプル作成サブモジュール516が、抽出モジュール508によって抽出されたテキストに対して新しいサンプルを作成する。第1のサンプル追加サブモジュール518が第1のサンプル作成サブモジュール516に接続されて、第1のサンプル作成サブモジュール516によって作成されたサンプルを、フィルタリングコンテナの帰属サンプルデータベースに追加する。第1のメッセージ処理サブモジュール520が、受信モジュール506および判断モジュール510に接続される。判断モジュール510が、そのテキストがメッセージから抽出されたテキストに似ているサンプルを、フィルタリングコンテナが含むと判断した後、第1のメッセージ処理サブモジュール520が、受信モジュール506によって受信されたメッセージを除去する。すなわち、受信モジュール506によって受信されたメッセージは送信されないであろう。
サンプルを追加する場合、第1のサンプル追加サブモジュール518は、帰属サンプルデータベース内に、削除される必要のある1つまたは複数のサンプルがあるかどうかを判断し得る。帰属サンプルデータベース内に削除される必要のある1つまたは複数のサンプルがある場合、第1のサンプル追加サブモジュール518は、削除される必要のあるサンプルを削除して、新しいサンプルをサンプル帰属データベースに追加する。
図5の例では、第2の処理モジュール514は、サンプルデータベース作成サブモジュール522、第2のサンプル作成サブモジュール524、第2のサンプル追加サブモジュール526、および第2のメッセージ処理サブモジュール528を含み得る。サンプルデータベース作成サブモジュール522は、判断モジュール510に接続される。判断モジュール510が、そのテキストがメッセージから抽出されたテキストに似ているサンプルを、フィルタリングコンテナが含まないと判断した後、サンプルデータベース作成サブモジュール522がフィルタリングコンテナ内に新しいサンプルデータベースを作成する。第2のサンプル作成サブモジュール524は、抽出モジュール508および判断モジュール510に接続される。判断モジュール510が、そのテキストがメッセージから抽出されたテキストに似ているサンプルを、フィルタリングコンテナが含まないと判断した後、第2のサンプル作成サブモジュール524が、抽出モジュール508によって抽出されたテキストに対して新しいサンプルを作成する。第2のサンプル追加サブモジュール526が、サンプルデータベース作成サブモジュール522および第2のサンプル作成サブモジュール524に接続されて、第2のサンプル作成サブモジュール524によって作成された新しいサンプルを、サンプルデータベース作成サブモジュール522によって作成された新しいサンプルデータベースに追加する。第2のメッセージ処理サブモジュール528が、判断モジュール510および受信モジュール506に接続される。判断モジュール510が、そのテキストがメッセージから抽出されたテキストに似ているサンプルを、フィルタリングコンテナが含まないと判断した後、第2のメッセージ処理サブモジュール528が、受信モジュール506によって受信されたメッセージを送信する。
新しいサンプルデータベースを作成する場合、サンプルデータベース作成サブモジュール522は、フィルタリングコンテナが、削除される必要のある1つまたは複数のサンプルデータベースを含むかどうかを判断し得る。削除される必要のある1つまたは複数のサンプルデータベースが存在する場合、サンプルデータベース作成サブモジュール522は、1つまたは複数のサンプルデータベースを削除し、次いで、新しいサンプルデータベースを作成する。
図6は、本開示に従った、情報フィルタリングの別のシステム例600の図を示す。システム600は、1つまたは複数のプロセッサおよびメモリ(その両方が図6に示されていない)を含み得るが、それらに限らない。メモリは、コンピュータ記憶媒体の一例である。メモリは、その中に、プログラムユニットまたはモジュールおよびプログラムデータを格納し得る。これらのモジュールは、同一または異なるメモリに存在し、同一または異なるプロセッサによって実行され得る。モジュールは、少なくとも1つの送信者側メッセージ応答モジュール602(1),...,602(n)、少なくとも1つの情報フィルタリング装置604(1),...,604(j)、メッセージ処理モジュール606、および少なくとも1つの受信者側メッセージ応答モジュール608(1),...,608(k)を含み得、ここで、n、j、またはkは任意の整数であり得る。メッセージ処理モジュール606は、少なくとも1つの情報フィルタリング装置604を通して、少なくとも1つの送信者側メッセージ応答モジュール602に接続される。メッセージ処理モジュール606は、少なくとも1つの情報フィルタリング装置604を通して、少なくとも1つの受信者側メッセージ応答モジュール608にも接続される。
送信者側メッセージ応答モジュール602は、送信者側によって送信されたメッセージを受信し、その受信したメッセージを処理のためにメッセージ処理モジュール606に送信する。例えば、異なる送信者側メッセージ応答モジュール602は、異なる送信者側に対して設定され得る。例えば、ユーザー名が、異なる送信者側を区別するために使用され得る。
受信者側メッセージ応答モジュール608は、メッセージ処理モジュール606によって受信されたメッセージを受信者側に送信する。例えば、異なる受信者側メッセージ応答モジュール606は、異なる受信者側に対して設定され得る。
メッセージ処理モジュール606は、受信したメッセージを分析して、受信したメッセージを対応する受信者側メッセージ応答モジュール608にルーティングする。例えば、メッセージ処理モジュール606は、受信したメッセージを分析し、メッセージから受信者側フィールドを解析し、対応する受信者側の情報に基づいて、そのメッセージを対応する受信者側にルーティングする。複数の受信者側がある場合、メッセージ処理モジュール606は、受信したメッセージの複数のコピーを作成し、それらを対応する受信者側に送信し得る。
メッセージフィルタリング装置604は、受信者側メッセージ応答モジュール608に送信された繰返しメッセージをフィルタ処理するために、メッセージ処理モジュール606と受信者側メッセージ応答モジュール608との間にも確立され得、それにより、メッセージフィルタリングの成功率をさらに改善する。
図6に示されるように、n個の送信者側があり、それぞれの送信者側メッセージ応答モジュール602が、送信者側の各々に対して設定されていると仮定すると、n個の送信者側メッセージ応答モジュール602がある。k個の受信者側があり、それぞれの受信者側メッセージ応答モジュール608が、受信者側の各々に対してセットアップされていると仮定すると、k個の送信者側メッセージ応答モジュール602がある。一定期間、各送信者側が、類似のテキストを有するm個のメッセージを、メッセージフィルタリングなしで、k個の受信者側に送信する場合、メッセージ処理モジュール606へのmn個のメッセージ入力がある。各受信者側は、平均で、(mn)/k個のメッセージを受信する。メッセージをフィルタ処理するために、理想的な状況で、情報フィルタリング装置604が使用される場合、メッセージ処理モジュール606へのn個のメッセージ入力のみになるであろう。従って、メッセージ量が大幅に減少され、メッセージ処理モジュール606の記憶圧力およびデータ処理圧力も減らされて、データ処理効率が改善される。
図7は、本開示に従った、情報フィルタリングの別のシステム例700の図を示す。システム700は、1つまたは複数のプロセッサおよびメモリ(その両方が図7に示されていない)を含み得るが、それらに限らない。メモリは、コンピュータ記憶媒体の一例である。メモリは、その中に、プログラムユニットまたはモジュールおよびプログラムデータを格納し得る。これらのモジュールは、同一または異なるメモリに存在し、同一または異なるプロセッサによって実行され得る。
モジュールは、第1の送信者側メッセージ応答モジュール702(1)、第2の送信者側メッセージ応答モジュール702(2)、および第3の送信者側メッセージ応答モジュール702(3)などの、複数のユーザー名704に対応する、複数の送信者側メッセージモジュール702を含み得る。かかる3つの送信者側メッセージ応答モジュールは、それぞれ、第1のユーザー名704(1)、第2のユーザー名704(2)、および第3のユーザー名704(3)に対応する。モジュールは、第1の受信者側メッセージ応答モジュール706(1)、第2の受信者側メッセージ応答モジュール706(2)、第3の送信者側メッセージ応答モジュール706(3)、および第4の受信者側メッセージ応答モジュール706(4)などの、複数のユーザー名708に対応する、複数の受信者側メッセージモジュール706も含み得る。かかる4つの受信者側メッセージ応答モジュール706は、それぞれ、第4のユーザー名704(4)、第5のユーザー名704(5)、第6のユーザー名704(6)、および第7のユーザー名704(7)に対応する。
システム700は、複数のメッセージフィルタリング装置708も含み得る。図7の例では、第1のメッセージフィルタリング装置708(1)が、複数の送信者側メッセージ応答モジュール702(第1の送信者側メッセージ応答モジュール702(1)、第2の送信者側メッセージ応答モジュール702(2)、および第3の送信者側メッセージ応答モジュール702(3)など)とメッセージ処理モジュール710との間に確立される。複数の受信者側メッセージ送信モジュール706の各々とメッセージ処理モジュール710との間に、それぞれのメッセージフィルタリング装置708が確立され得る。図1の例では、受信者側メッセージ応答モジュール706(1)、706(2)および706(3)の各々とメッセージ処理モジュール710との間に、それぞれ、第2のメッセージフィルタリング装置708(2)、第3のメッセージフィルタリング装置708(3)、第4のメッセージフィルタリング装置708(4)、および第5のフィルタリング装置708(5)が確立される。
一例では、複数のメッセージフィルタリング装置708(第1のメッセージフィルタリング装置708(1)、第2のメッセージフィルタリング装置708(2)、第3のメッセージフィルタリング装置708(3)、第4のメッセージフィルタリング装置708(4)、および第5のフィルタリング装置708(5)など)は、フィルタリングコンテナを共有し得る。フィルタリングコンテナ内のサンプルデータベースまたはサンプルの累積速度は、比較的高速であろう。比較的短期間に、サンプルデータベースおよびサンプルの数が事前設定数に達し得る。いくつかのサンプルおよび/またはサンプルデータベースが削除され得る。すなわち、サンプルまたはサンプルデータベースの削除速度も高速である。異なる時に受信される繰返しメッセージに関して、2つのメッセージ間の受信時間の開きが長いことがあり得、また、サンプルまたはサンプルデータベースの削除速度が高速なので、以前のメッセージのサンプルが既に削除されている可能性がある。従って、この方法例での、繰返しメッセージのフィルタリングの効果は比較的弱い可能性がある。
別の例では、複数のメッセージフィルタリング装置708(第1のメッセージフィルタリング装置708(1)、第2のメッセージフィルタリング装置708(2)、第3のメッセージフィルタリング装置708(3)、第4のメッセージフィルタリング装置708(4)、および第5のフィルタリング装置708(5)など)の各々は、別個のフィルタリングコンテナを有し得る。すなわち、1つのフィルタリングコンテナが全ての送信者側に対してセットアップされ、また、1つのフィルタリングコンテナが、受信者側の各々に対してセットアップされる。第1のメッセージフィルタリング装置708(1)は、全ての送信者側によって送信された繰返しメッセージをフィルタ処理し得、その関連したフィルタリングコンテナは、全ての送信者側を対象とするフィルタリングコンテナである。
第2のメッセージフィルタリング装置708(2)、第3のメッセージフィルタリング装置708(3)、第4のメッセージフィルタリング装置708(4)、および第5のメッセージフィルタリング装置708(5)の各々は、それぞれの受信者側に送信されたメッセージをフィルタ処理する。それらの関連したフィルタリングコンテナは、それぞれのメッセージの受信者側を対象とする。すなわち、それぞれのフィルタリングコンテナは、それぞれの受信者側ユーザー名に対してセットアップされる。従って、各フィルタリングコンテナ内のサンプルおよびサンプルデータベースの数は、急速には増加せず、また、サンプルおよび/またはサンプルデータベースの削除速度は速すぎることはないであろう。繰返しメッセージは効果的に取り除かれ得る。
例えば、第1の送信者側メッセージ応答モジュール702(1)は、メッセージ712(1)を受信する。メッセージ712(1)は、テキストQ1を含む。メッセージ712(1)の受信者側のユーザー名は、第4のユーザー名704(4)である。第2の送信者側メッセージ応答モジュール702(2)は、メッセージ712(2)を受信する。メッセージ712(2)も、テキストQ1を含む。メッセージ712(1)の受信者側のユーザー名は、第4のユーザー名704(4)および第6のユーザー名704(6)である。第3の送信者側メッセージ応答モジュール702(2)は、メッセージ712(3)を受信する。メッセージ712(3)は、テキストQ3を含む。メッセージ712(3)の受信者側のユーザー名は、第7のユーザー名704(7)である。
理論上は、メッセージ712(1)および712(2)のテキストは同一であるので、メッセージ712(1)および712(2)が、第1のメッセージフィルタリング装置708(1)によって処理された後、メッセージ712(1)および712(2)のうちの1つだけが第1のメッセージフィルタリング装置708(1)に送信され得る。しかし、いくつかの事例では、メッセージ712(1)および712(2)の送信時間が異なり得る。第1のメッセージフィルタリング装置708(1)のフィルタリングコンテナは、以前に送信されたメッセージに対して作成されたサンプルを既に削除している可能性がある。従って、繰返しメッセージが効果的にフィルタ処理できず、同一または類似のテキストQ1を有する2つのメッセージ712(1)および712(2)が両方ともメッセージ処理モジュール710に送信される。
受信者側メッセージ応答モジュール706の側でセットアップされたメッセージフィルタリング装置708がない場合、メッセージ処理モジュール710は、メッセージ712(1)を第1の受信者側メッセージ応答モジュール706(1)に送信し、また、メッセージ712(2)を第1の受信者側メッセージ応答モジュール706(1)および第3の受信者側メッセージ応答モジュール706(3)に送信するであろう。従って、第1の受信者側メッセージ応答モジュール706(1)は、同じテキストQ1を有する、2つのメッセージ712(1)および712(2)を受信する。
受信者側メッセージ応答モジュール706の側でセットアップされたメッセージフィルタリング装置708がある場合には、図7に示すように、第2のメッセージフィルタリング装置710(2)は、その関連したフィルタリングコンテナを使用して、第1の受信者側メッセージ応答モジュール706(1)に送信された2つのメッセージ712(1)および712(2)のフィルタリング処理を実施し、メッセージ712(1)および712(2)のうちの1つだけが、第1の受信者側メッセージ応答モジュール706(1)に送信されるようにする。第2のメッセージフィルタリング装置710(2)に関連付けられたフィルタリングコンテナは、第1の受信者側メッセージ応答モジュール706(1)にのみ対応し得、そのサンプルおよびサンプルデータベースの増加速度はあまり速くなく、従って、そのサンプルおよびサンプルデータベースのその削除速度もあまり速くないであろう。
それ故、受信者側メッセージ応答モジュール706に入る繰返しメッセージをフィルタ処理するために、受信者側メッセージ応答モジュール706の側でメッセージフィルタリング装置708をセットアップすることは、メッセージフィルタリングの成功率を向上させて、データ処理効率を改善する。従って、ユーザーは多くの繰返しメッセージを受信せず、ユーザーエクスペリエンスが改善される。その上、幾人かの悪意のあるユーザーが、異なるユーザー名を登録することにより繰返しメッセージを送信する状況が取り除かれ得る。
図7の例では、第1のメッセージフィルタリング装置708(1)が、送信者側メッセージ応答モジュール702(1)、702(2)および702(3)と、メッセージ処理モジュール710との間にセットアップされる。図2を参照すると、202で、第1のメッセージフィルタリング装置708(1)は、ルーティングの前に、全てのメッセージを受信し得る。つまり、送信者側メッセージ応答モジュール702(1)、702(2)および702(3)によって送信された全てのメッセージは、まず、第1のメッセージフィルタリング装置708(1)によって処理される。206で、第1のメッセージフィルタリング装置708(1)に関連付けられたフィルタリングコンテナは、ルーター処理の前に、全てのメッセージを対象とするフィルタリングコンテナを参照する。すなわち、同一のフィルタリングコンテナが、全ての送信者側メッセージ応答モジュール702(1)、702(2)および702(3)によって送信された全てのメッセージに対して使用され得る。第1のメッセージフィルタリング装置708(1)が、送信者側メッセージ応答モジュール702(1)、702(2)および702(3)と、メッセージ処理モジュール710との間にセットアップされた後、メッセージは、第1のメッセージフィルタリング装置708(1)に関連付けられたフィルタリングコンテナが、そのテキストがメッセージから抽出されたテキストに似ているサンプルを含むかどうかを判断することにより、フィルタ処理される。例えば、繰返しメッセージが異なるユーザー名または同一のユーザー名によって送信されるかどうかに関わらず、メッセージは、第1のメッセージフィルタリング装置708(1)に関連付けられたフィルタリングコンテナが、そのテキストがメッセージから抽出されたテキストに似ているサンプルを含むかどうかを判断することにより、フィルタ処理され得る。従って、悪意のあるユーザーが、ユーザー名を変更することによって繰返しメッセージを送信しようとする状況が遮断され得る。
図7に示されるように、第2のメッセージフィルタリング装置708(2)、第3のメッセージフィルタリング装置708(3)、第4のメッセージフィルタリング装置708(4)および第5のメッセージフィルタリング装置708(5)の各々は、メッセージ処理モジュール710と、受信者側メッセージ応答モジュール706(1)、706(2)、706(3)、および706(4)のそれぞれとの間にセットアップされる。202で、第2のメッセージフィルタリング装置708(2)、第3のメッセージフィルタリング装置708(3)、第4のメッセージフィルタリング装置708(4)、および第5のメッセージフィルタリング装置708(5)は、ルーティング処理の後に、メッセージを受信し得る。206で、第2のメッセージフィルタリング装置708(2)、第3のメッセージフィルタリング装置708(3)、第4のメッセージフィルタリング装置708(4)、および第5のメッセージフィルタリング装置708(5)の各々に関連付けられたフィルタリングコンテナは、単一の受信者側のユーザー名を対象とするフィルタリングコンテナである。すなわち、フィルタリングコンテナは、異なる受信者側ユーザー名に対してセットアップされる。
第2のメッセージフィルタリング装置708(2)、第3のメッセージフィルタリング装置708(3)、第4のメッセージフィルタリング装置708(4)、および第5のメッセージフィルタリング装置708(5)などの、異なるメッセージフィルタリング装置の、メッセージ処理モジュール710と、受信者側メッセージ応答モジュール706(1)、706(2)、706(3)、および706(4)などの、受信者側メッセージ応答モジュールとの間へのセットアップを通じて、それぞれのフィルタリングコンテナが、それぞれ個々の受信者側ユーザー名に対してセットアップされる。従って、さらなる処理が実装される。例えば、繰返しメッセージがさらに除去され得る。
当業者は、本開示の実施形態は、方法、システム、またはコンピュータのプログラミング製品であり得ることを理解するはずである。それ故、本開示は、ハードウェア、ソフトウェア、または両方の組合せによって実装され得る。さらに、本開示は、コンピュータ実行可能記憶媒体(ディスク、CD−ROM、光ディスクなどを含むが、それらに限らない)に実装され得るコンピュータ実行可能コードを含む、1つまたは複数のコンピュータプログラムの形であり得る。例えば、本メッセージフィルタリング技術は、1つまたは複数のコンピュータ実行可能命令を実行する1つまたは複数のコンピュータなどの、データ処理能力を備えた1つまたは複数の処理装置によって実装され得る。コンピュータ記憶媒体は、その中に、本開示で開示された各操作を実行するための様々なコンピュータ実行可能命令を格納し得る。
例えば、本開示におけるメッセージフィルタリング装置は、コンピュータ実行可能命令を実行する1つまたは複数の処理装置によって実装され得る。メッセージフィルタリング装置内のモジュールは、処理装置の対応する機能を有する装置コンポーネントである。例えば、受信モジュールは、CPU、受信インタフェース、関連した通信回線、および対応する機能をもつコンピュータ実行可能命令から成り得る。
例えば、本開示におけるメッセージフィルタリングシステムは、電子商取引システムおよび電子メールシステムなどの、メッセージ送受信機能を備えたコンピューティングシステムであり得る。メッセージフィルタリングシステムにおけるメッセージフィルタリング装置は、前述したようなメッセージフィルタリング装置であり得る。フィルタリングシステムのシステムにおける送信者側メッセージ応答モジュール、受信者側メッセージ応答モジュール、およびメッセージ処理モジュールは、対応するメッセージ送信、メッセージ処理、およびメッセージ受信機能をもつ、コンピュータ実行可能命令を実行するコンピューティングシステム内の1つまたは複数のコンポーネントによって実装され得る。
例えば、本開示におけるメッセージフィルタリング方法は、Java(登録商標)プログラミング言語によって開発され得、配備環境はLinux(登録商標)システムであり得る。確かに、本開示は別のプログラミング言語またはプログラミングシステムも使用し得る。
本開示で説明したようなメッセージフィルタリングの方法、装置、およびシステムは、テキストの類似度および繰返しメッセージの領域原理(regional principle)を使用して、送信者側のエントリポイントおよび/または受信者側のエントリポイントからシステム内に入る類似メッセージを全体としてまたは個々に制御する。繰返しメッセージの領域原理は、短期間内に送信されている同一または類似テキストを有するメッセージを参照する。メッセージが一度送信された後、そのメッセージが短期間に再度送信される可能性が高い。本技術は、少なくとも以下の利点を有し得る:
(1)本技術は、複数の言語をシームレスにサポートする。プロセスは、文字およびテキスト自体を対象とし、それらの言語および意味は問わない。
(2)本技術は、高度に自動化される。プロセスは、処理が、意味ではなく、文字およびテキスト自体を対象とするので、多数のスタッフの関与を必要としない。
(3)本技術は、実現および維持が容易である。構造全体が単純かつ明快である。類似テキストを除去する技術に関して、異なる用途シナリオに対する様々な技術があり得る。本開示は、いくつかの技術例のみを記載する。サンプルおよびサンプルデータベースの更新に関して、異なるシナリオに対して異なる技術が選択され得る。
(4)本技術は、更新されて動的に調整されるサンプルを提供する。本開示におけるフィルタリングコンテナのサイズは、タイムリーな期限切れを実現するように調整され得る。本技術は、通常メッセージの送信を制約し得る、フィルタコンテナのサイズが無制限に増加するのを許容し得ない。本技術は、主として、悪意のあるユーザーが、複数のアカウントおよびマシンを使用して、反復内容を頻繁に送信するのを防ぐ。例えば、本開示の一実施形態例は、送信者側および受信者側の両方の側からのメッセージ送信を制御する。
(5)本技術は、複数のアカウントおよびマシンの使用による、多数の繰返しメッセージの送信を効果的に制御し得る。
本開示は、本開示の実施形態の方法、装置(システム)およびコンピュータプログラムのフローチャートおよび/またはブロック図を参照して説明される。フローチャートおよびブロック図の各フローおよび/またはブロックならびにフローおよび/またはブロックの組合せは、コンピュータプログラム命令によって実装され得ることを理解すべきである。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、組込みプロセッサまたはマシンを生成するための他のプログラム可能データプロセッサに提供され得、フローチャートの1つもしくは複数のフローおよび/またはブロック図の1つまたは複数のブロックを実装する装置が、コンピュータまたは他のプログラム可能データプロセッサによって動作される命令を通じて生成できるようになる。
コンピュータまたは他のプログラム可能データプロセッサをある方法で動作するように指示できる、これらのコンピュータプログラム命令は、他のコンピュータ可読記憶にも格納でき、そのため、コンピュータ可読記憶に格納された命令が、その命令装置を含む製品を生成するが、その命令装置は、フローチャートの1つもしくは複数のフローおよび/またはブロック図の1つもしくは複数のブロックに指定された機能を実装する。
これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能データプロセッサにもロードでき、コンピュータまたは他のプログラム可能データプロセッサが一連の操作ステップを動作して、コンピュータによって実装されるプロセスを生成するようになる。その結果、コンピュータまたは他のプログラム可能データプロセッサ内で動作される命令が、フローチャートの1つもしくは複数のフローおよび/またはブロック図の1つもしくは複数のブロックに指定された機能を実装するためのステップを提供できる。
実施形態は、本開示の例示に過ぎず、また、本開示の範囲を制限することを意図していない。当業者は、ある修正および改善が行われ得、本開示の本質から逸脱することなく、本開示の保護下と見なされるべきことを理解すべきである。

Claims (19)

  1. コンピュータ実行可能命令とともに構成された1つまたは複数のプロセッサによって実行される方法であって、
    メッセージを受信することと、
    前記メッセージからテキストを抽出することと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断することと
    を含み、
    i)そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含む場合、
    前記メッセージから抽出された前記テキストに対して新しいサンプルを作成することと、
    前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加することと、
    前記メッセージの送信を拒否することとを含み、
    ii)そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まない場合、
    前記メッセージから抽出された前記テキストに対して前記新しいサンプルを作成することと、
    前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加することと、
    前記メッセージを送信することとを含み、
    前記判断することが、ベクトルに基づく方法、最長共通文字列(LCS)に基づく方法、またはベクトルとLCS法の組合せを使用して、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むかどうかを判断することを含み、
    ベクトルとLCS法の前記組合せが、
    前記メッセージから抽出された前記テキストのベクトルおよび前記フィルタリングコンテナの前記サンプルの前記テキストのベクトルを取得することと、
    前記メッセージから抽出された前記テキストの前記ベクトルと、前記サンプルの前記テキストの前記ベクトルとの間の類似度が、類似度閾値より大きいかまたは類似度閾値に等しいかを判断することであって、
    前記類似度が、類似度閾値より大きくなく、かつ、類似度閾値に等しくない場合、前記サンプルが、そのテキストが前記メッセージから抽出された前記テキストに似ている類似サンプルではないと判断し、
    前記類似度が、類似度閾値より大きいかまたは類似度閾値に等しい場合、前記サンプルが第1の類似サンプル候補であると判断する、
    前記ベクトル間の類似度を判断することと、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、文字列長閾値より大きいかまたは文字列長閾値に等しいかを判断することであって、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、前記文字列長閾値より大きいかまたは前記文字列長閾値に等しい場合、前記サンプルが、第2の類似サンプル候補であると判断し、かつ前記サンプルが前記類似サンプルであると判断し、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、前記文字列長閾値より大きくなく、かつ、前記文字列長閾値に等しくない場合、前記サンプルが、前記第2の類似サンプル候補でないと判断し、かつ前記サンプルが前記類似サンプルでないと判断する、
    前記テキスト間のLCSの長さを判断することと
    を含む、方法。
  2. コンピュータ実行可能命令とともに構成された1つまたは複数のプロセッサによって実行される方法であって、
    メッセージを受信することと、
    前記メッセージからテキストを抽出することと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断することと
    を含み、
    i)そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含む場合、
    前記メッセージから抽出された前記テキストに対して新しいサンプルを作成することと、
    前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加することと、
    前記メッセージの送信を拒否することとを含み、
    ii)そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まない場合、
    前記メッセージから抽出された前記テキストに対して前記新しいサンプルを作成することと、
    前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加することと、
    前記メッセージを送信することとを含み、
    前記新しいサンプルを前記フィルタリングコンテナの前記帰属サンプルデータベースに前記追加することが、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在するかどうかを判断することと、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在しない場合、前記新しいサンプルを前記帰属サンプルデータベースに追加し、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在する場合、前記新しいサンプルを前記帰属サンプルデータベースに追加し、前記1つまたは複数のサンプルを前記帰属サンプルデータベースから削除して、前記新しいサンプルを前記帰属サンプルデータベースに追加することと
    を含む、方法。
  3. コンピュータ実行可能命令とともに構成された1つまたは複数のプロセッサによって実行される方法であって、
    メッセージを受信することと、
    前記メッセージからテキストを抽出することと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断することと
    を含み、
    i)そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含む場合、
    前記メッセージから抽出された前記テキストに対して新しいサンプルを作成することと、
    前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加することと、
    前記メッセージの送信を拒否することとを含み、
    ii)そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まない場合、
    前記メッセージから抽出された前記テキストに対して前記新しいサンプルを作成することと、
    前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加することと、
    前記メッセージを送信することとを含み、
    前記新しいサンプルを前記フィルタリングコンテナの前記新しいサンプルデータベースに前記追加することが、前記フィルタリングコンテナ内に前記新しいサンプルデータベースを作成することを含み、
    前記新しいサンプルデータベースを前記作成することが、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在するかどうかを判断することと、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在しない場合、前記新しいサンプルデータベースを前記フィルタリングコンテナに追加することと、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在する場合、前記1つまたは複数のサンプルデータベースを前記フィルタリングコンテナから削除し、かつ、前記新しいサンプルデータベースを前記フィルタリングコンテナに追加することと
    を含む、方法。
  4. 前記帰属サンプルデータベースが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを含む、サンプルデータベースである、請求項1から請求項3のいずれか1項に記載の方法。
  5. 前記メッセージを前記受信することが、ルーティング処理の前に前記メッセージを受信することを含み、かつ前記フィルタリングコンテナが、ルーティング処理の前の前記メッセージを対象とする、請求項1から請求項3のいずれか1項に記載の方法。
  6. 前記メッセージを前記受信することが、ルーティング処理の後に前記メッセージを受信することを含み、かつ前記フィルタリングコンテナが、前記メッセージに含まれる特定の受信者側ユーザー名を対象とする、請求項1から請求項3のいずれか1項に記載の方法。
  7. 前記判断することが、ベクトルに基づく方法、最長共通文字列(LCS)に基づく方法、またはベクトルとLCS法の組合せを使用して、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むかどうかを判断することを含む、請求項2または請求項3に記載の方法。
  8. 前記ベクトルに基づく方法が、
    前記メッセージから抽出された前記テキストのベクトルおよび前記フィルタリングコンテナの前記サンプルの前記テキストのベクトルを取得することと、
    前記メッセージから抽出された前記テキストの前記ベクトルと、前記サンプルの前記テキストの前記ベクトルとの間の類似度が、類似度閾値より大きいか、または類似度閾値に等しいかを判断することと、
    前記類似度が、類似度閾値より大きいかまたは類似度閾値に等しい場合、前記サンプルが、そのテキストが前記メッセージから抽出された前記テキストに似ている類似サンプルであると判断することと、
    前記類似度が、類似度閾値より大きくないかまたは類似度閾値に等しくない場合、前記サンプルは、そのテキストが前記メッセージから抽出された前記テキストに似ている前記類似サンプルではないと判断することと
    を含む、請求項に記載の方法。
  9. 前記LCSに基づく方法が、
    前記メッセージから抽出された前記テキストと前記サンプルの前記テキストとの間のLCSの長さが、文字列長閾値より大きいかまたは文字列長閾値に等しいかを判断することと、
    前記メッセージから抽出された前記テキストと前記サンプルの前記テキストとの間の前記LCSの前記長さが、前記文字列長閾値より大きいかまたは前記文字列長閾値に等しい場合、前記サンプルが、そのテキストが前記メッセージから抽出された前記テキストに似ている類似サンプルであると判断することと、
    前記メッセージから抽出された前記テキストと前記サンプルの前記テキストとの間の前記LCSの前記長さが、前記文字列長閾値より大きくなく、かつ、前記文字列長閾値に等しくない場合、前記サンプルが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記類似サンプルでないと判断することと
    を含む、請求項に記載の方法。
  10. 前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在するかどうかを前記判断することが、
    前記帰属サンプルデータベース内のサンプルの総数が、前記新しいサンプルが前記帰属サンプルデータベースに追加される場合に事前設定の総サンプル数閾値より多いかどうかを判断することと、
    前記帰属サンプルデータベース内のサンプルの前記総数が、前記新しいサンプルが前記帰属サンプルデータベースに追加される場合に前記事前設定の総サンプル数閾値より多い場合、前記帰属サンプルデータベース内に削除する必要のある前記1つまたは複数のサンプルが存在すると判断することと、
    前記帰属サンプルデータベース内のサンプルの前記総数が、前記新しいサンプルが前記帰属サンプルデータベースに追加される場合に前記事前設定の総サンプル数閾値を上回らない場合、前記帰属サンプルデータベース内に削除する必要のある前記1つまたは複数のサンプルが存在しないと判断することと
    を含む、請求項に記載の方法。
  11. 前記1つまたは複数のサンプルを前記帰属サンプルデータベースから前記削除することが、
    前記帰属サンプルデータベース内の各サンプルの利用回数を取得することと、
    各サンプルの前記利用回数に基づいて、前記1つまたは複数のサンプルを前記帰属サンプルデータベースから削除することと
    を含む、請求項10に記載の方法。
  12. 前記フィルタリングコンテナ内に削除する必要のある前記1つまたは複数のサンプルデータベースが存在するかどうかを前記判断することが、
    前記フィルタリングコンテナ内のサンプルデータベースの総数が、前記新しいサンプルデータベースが前記フィルタリングコンテナに追加される場合に事前設定の総サンプルデータベース数閾値より多いかどうかを判断することと、
    前記フィルタリングコンテナ内のサンプルデータベースの前記総数が、前記新しいサンプルデータベースが前記フィルタリングコンテナに追加される場合に前記事前設定の総サンプルデータベース数閾値より多い場合、前記フィルタリングコンテナ内に削除する必要のある前記1つまたは複数のサンプルデータベースが存在すると判断することと、
    前記フィルタリングコンテナ内のサンプルデータベースの前記総数が、前記新しいサンプルデータベースが前記フィルタリングコンテナに追加される場合に前記事前設定の総サンプルデータベース数閾値を上回らない場合、前記フィルタリングコンテナ内に削除する必要のある前記1つまたは複数のサンプルデータベースが存在しないと判断することと
    を含む、請求項に記載の方法。
  13. 前記1つまたは複数のサンプルデータベースを前記フィルタリングコンテナから前記削除することが、
    前記フィルタリングコンテナ内の各サンプルデータベースの利用回数を取得することと、
    各サンプルデータベースの前記利用回数に基づいて、前記1つまたは複数のサンプルデータベースを前記フィルタリングコンテナから削除することと
    を含む、請求項に記載の方法。
  14. メッセージを受信する受信モジュールと、
    前記メッセージからテキストを抽出する抽出モジュールと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断する判断モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むと判断した後、前記メッセージから抽出された前記テキストに対して新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加して、前記メッセージの送信を拒否する、第1の処理モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まないと判断した後、前記メッセージから抽出された前記テキストに対して前記新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加して、前記メッセージを送信する、第2の処理モジュールと、
    を備え、
    前記判断モジュールが、ベクトルに基づく方法、最長共通文字列(LCS)に基づく方法、またはベクトルとLCS法の組合せを使用して、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むかどうかを判断することを含み、
    ベクトルとLCS法の前記組合せが、
    前記メッセージから抽出された前記テキストのベクトルおよび前記フィルタリングコンテナの前記サンプルの前記テキストのベクトルを取得することと、
    前記メッセージから抽出された前記テキストの前記ベクトルと、前記サンプルの前記テキストの前記ベクトルとの間の類似度が、類似度閾値より大きいかまたは類似度閾値に等しいかを判断することであって、
    前記類似度が、類似度閾値より大きくなく、かつ、類似度閾値に等しくない場合、前記サンプルが、そのテキストが前記メッセージから抽出された前記テキストに似ている類似サンプルではないと判断し、
    前記類似度が、類似度閾値より大きいかまたは類似度閾値に等しい場合、前記サンプルが第1の類似サンプル候補であると判断する、
    前記ベクトル間の類似度を判断することと、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、文字列長閾値より大きいかまたは文字列長閾値に等しいかを判断することであって、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、前記文字列長閾値より大きいかまたは前記文字列長閾値に等しい場合、前記サンプルが、第2の類似サンプル候補であると判断し、かつ前記サンプルが前記類似サンプルであると判断し、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、前記文字列長閾値より大きくなく、かつ、前記文字列長閾値に等しくない場合、前記サンプルが、前記第2の類似サンプル候補でないと判断し、かつ前記サンプルが前記類似サンプルでないと判断する、
    前記テキスト間のLCSの長さを判断することと
    を含む、装置。
  15. メッセージを受信する受信モジュールと、
    前記メッセージからテキストを抽出する抽出モジュールと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断する判断モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むと判断した後、前記メッセージから抽出された前記テキストに対して新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加して、前記メッセージの送信を拒否する、第1の処理モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まないと判断した後、前記メッセージから抽出された前記テキストに対して前記新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加して、前記メッセージを送信する、第2の処理モジュールと、
    を備え、
    前記第1の処理モジュールは、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在するかどうかを判断する、第1のサンプル追加サブモジュールを備え、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在しない場合、前記新しいサンプルを前記帰属サンプルデータベースに追加し、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在する場合、前記新しいサンプルを前記帰属サンプルデータベースに追加し、前記1つまたは複数のサンプルを前記帰属サンプルデータベースから削除して、前記新しいサンプルを前記帰属サンプルデータベースに追加する、装置。
  16. メッセージを受信する受信モジュールと、
    前記メッセージからテキストを抽出する抽出モジュールと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断する判断モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むと判断した後、前記メッセージから抽出された前記テキストに対して新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加して、前記メッセージの送信を拒否する、第1の処理モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まないと判断した後、前記メッセージから抽出された前記テキストに対して前記新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加して、前記メッセージを送信する、第2の処理モジュールと、
    を備え、
    前記第2の処理モジュールは、
    前記フィルタリングコンテナ内に前記新しいサンプルデータベースを作成するサンプルデータベース作成サブモジュールを備え、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在するかどうかを判断し、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在しない場合、前記新しいサンプルデータベースを前記フィルタリングコンテナに追加し、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在する場合、前記1つまたは複数のサンプルデータベースを前記フィルタリングコンテナから削除し、かつ、前記新しいサンプルデータベースを前記フィルタリングコンテナに追加する、装置。
  17. 送信者側によって送信されたメッセージを受信して、前記メッセージをそれぞれのメッセージフィルタリング装置に送信する、少なくとも1つの送信者側メッセージ応答モジュールと、
    別のそれぞれのメッセージフィルタリング装置から受信された、除去されていない、前記メッセージを受信者側に送信する、少なくとも1つの受信者側メッセージ応答モジュールと、
    少なくとも1つの装置であって、前記それぞれの装置が、
    前記少なくとも1つの送信者側メッセージ応答モジュールから前記メッセージを受信する受信モジュールと、
    前記メッセージからテキストを抽出する抽出モジュールと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断する判断モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むと判断した後、前記メッセージから抽出された前記テキストに対して新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加して、前記メッセージの送信を拒否する、第1の処理モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まないと判断した後、前記メッセージから抽出された前記テキストに対して前記新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加して、前記メッセージを前記少なくとも1つの受信者側メッセージ応答モジュールに送信する、第2の処理モジュールと
    を含む、装置と
    を備えたシステムであって、
    前記判断モジュールが、ベクトルに基づく方法、最長共通文字列(LCS)に基づく方法、またはベクトルとLCS法の組合せを使用して、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むかどうかを判断することを含み、
    ベクトルとLCS法の前記組合せが、
    前記メッセージから抽出された前記テキストのベクトルおよび前記フィルタリングコンテナの前記サンプルの前記テキストのベクトルを取得することと、
    前記メッセージから抽出された前記テキストの前記ベクトルと、前記サンプルの前記テキストの前記ベクトルとの間の類似度が、類似度閾値より大きいかまたは類似度閾値に等しいかを判断することであって、
    前記類似度が、類似度閾値より大きくなく、かつ、類似度閾値に等しくない場合、前記サンプルが、そのテキストが前記メッセージから抽出された前記テキストに似ている類似サンプルではないと判断し、
    前記類似度が、類似度閾値より大きいかまたは類似度閾値に等しい場合、前記サンプルが第1の類似サンプル候補であると判断する、
    前記ベクトル間の類似度を判断することと、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、文字列長閾値より大きいかまたは文字列長閾値に等しいかを判断することであって、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、前記文字列長閾値より大きいかまたは前記文字列長閾値に等しい場合、前記サンプルが、第2の類似サンプル候補であると判断し、かつ前記サンプルが前記類似サンプルであると判断し、
    前記メッセージから抽出された前記テキストと前記第1の類似サンプル候補の前記テキストとの間のLCSの長さが、前記文字列長閾値より大きくなく、かつ、前記文字列長閾値に等しくない場合、前記サンプルが、前記第2の類似サンプル候補でないと判断し、かつ前記サンプルが前記類似サンプルでないと判断する、
    前記テキスト間のLCSの長さを判断することと
    を含む、システム。
  18. 送信者側によって送信されたメッセージを受信して、前記メッセージをそれぞれのメッセージフィルタリング装置に送信する、少なくとも1つの送信者側メッセージ応答モジュールと、
    別のそれぞれのメッセージフィルタリング装置から受信された、除去されていない、前記メッセージを受信者側に送信する、少なくとも1つの受信者側メッセージ応答モジュールと、
    少なくとも1つの装置であって、前記それぞれの装置が、
    前記少なくとも1つの送信者側メッセージ応答モジュールから前記メッセージを受信する受信モジュールと、
    前記メッセージからテキストを抽出する抽出モジュールと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断する判断モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むと判断した後、前記メッセージから抽出された前記テキストに対して新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加して、前記メッセージの送信を拒否する、第1の処理モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まないと判断した後、前記メッセージから抽出された前記テキストに対して前記新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加して、前記メッセージを前記少なくとも1つの受信者側メッセージ応答モジュールに送信する、第2の処理モジュールと
    を含む、装置と
    を備えたシステムであって、
    前記第1の処理モジュールは、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在するかどうかを判断する、第1のサンプル追加サブモジュールを備え、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在しない場合、前記新しいサンプルを前記帰属サンプルデータベースに追加し、
    前記帰属サンプルデータベース内に削除する必要のある1つまたは複数のサンプルが存在する場合、前記新しいサンプルを前記帰属サンプルデータベースに追加し、前記1つまたは複数のサンプルを前記帰属サンプルデータベースから削除して、前記新しいサンプルを前記帰属サンプルデータベースに追加する、システム。
  19. 送信者側によって送信されたメッセージを受信して、前記メッセージをそれぞれのメッセージフィルタリング装置に送信する、少なくとも1つの送信者側メッセージ応答モジュールと、
    別のそれぞれのメッセージフィルタリング装置から受信された、除去されていない、前記メッセージを受信者側に送信する、少なくとも1つの受信者側メッセージ応答モジュールと、
    少なくとも1つの装置であって、前記それぞれの装置が、
    前記少なくとも1つの送信者側メッセージ応答モジュールから前記メッセージを受信する受信モジュールと、
    前記メッセージからテキストを抽出する抽出モジュールと、
    そのテキストが前記メッセージから抽出された前記テキストに似ているサンプルデータベース内のサンプルを、フィルタリングコンテナが含むかどうかを判断する判断モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含むと判断した後、前記メッセージから抽出された前記テキストに対して新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの帰属サンプルデータベースに追加して、前記メッセージの送信を拒否する、第1の処理モジュールと、
    前記判断モジュールが、そのテキストが前記メッセージから抽出された前記テキストに似ている前記サンプルを、前記フィルタリングコンテナが含まないと判断した後、前記メッセージから抽出された前記テキストに対して前記新しいサンプル作成し、前記新しいサンプルを前記フィルタリングコンテナの新しいサンプルデータベースに追加して、前記メッセージを前記少なくとも1つの受信者側メッセージ応答モジュールに送信する、第2の処理モジュールと
    を含む、装置と
    を備えたシステムであって、
    前記第2の処理モジュールは、
    前記フィルタリングコンテナ内に前記新しいサンプルデータベースを作成するサンプルデータベース作成サブモジュールを備え、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在するかどうかを判断し、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在しない場合、前記新しいサンプルデータベースを前記フィルタリングコンテナに追加し、
    前記フィルタリングコンテナ内に削除する必要のある1つまたは複数のサンプルデータベースが存在する場合、前記1つまたは複数のサンプルデータベースを前記フィルタリングコンテナから削除し、かつ、前記新しいサンプルデータベースを前記フィルタリングコンテナに追加する、システム。
JP2014525097A 2011-08-08 2012-08-07 情報フィルタリング Expired - Fee Related JP6058005B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110225345.3A CN102929872B (zh) 2011-08-08 2011-08-08 由计算机实施的消息过滤方法、消息过滤装置及系统
CN201110225345.3 2011-08-08
PCT/US2012/049862 WO2013022891A1 (en) 2011-08-08 2012-08-07 Information filtering

Publications (2)

Publication Number Publication Date
JP2014527669A JP2014527669A (ja) 2014-10-16
JP6058005B2 true JP6058005B2 (ja) 2017-01-11

Family

ID=46755099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014525097A Expired - Fee Related JP6058005B2 (ja) 2011-08-08 2012-08-07 情報フィルタリング

Country Status (7)

Country Link
US (1) US20130041962A1 (ja)
EP (1) EP2742652A1 (ja)
JP (1) JP6058005B2 (ja)
CN (1) CN102929872B (ja)
HK (1) HK1176436A1 (ja)
TW (1) TW201308102A (ja)
WO (1) WO2013022891A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105378738B (zh) * 2013-07-15 2021-11-19 爱克发医疗保健公司 用于数据处理的系统和方法
CN104346369B (zh) * 2013-07-30 2018-03-23 上海宽带技术及应用工程研究中心 一种建立心跳冲击波形态特征库的方法
US10002187B2 (en) 2013-11-26 2018-06-19 Oracle International Corporation Method and system for performing topic creation for social data
US9996529B2 (en) 2013-11-26 2018-06-12 Oracle International Corporation Method and system for generating dynamic themes for social data
US10885089B2 (en) * 2015-08-21 2021-01-05 Cortical.Io Ag Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents
US10146878B2 (en) * 2014-09-26 2018-12-04 Oracle International Corporation Method and system for creating filters for social data topic creation
CN104615653B (zh) * 2014-12-30 2017-12-12 小米科技有限责任公司 消息分类方法和装置
CN106610965A (zh) * 2015-10-21 2017-05-03 北京瀚思安信科技有限公司 确定文本串公共子序列的方法和设备
CN108733730A (zh) * 2017-04-25 2018-11-02 北京京东尚科信息技术有限公司 垃圾消息拦截方法和装置
CN109858008A (zh) * 2017-11-30 2019-06-07 南京大学 基于深度学习的文书判决结果倾向性的方法及装置
CN110971501B (zh) * 2018-09-30 2022-11-08 北京京东尚科信息技术有限公司 广告消息的确定方法、系统、设备和存储介质
CN110209659A (zh) * 2019-06-10 2019-09-06 广州合摩计算机科技有限公司 一种简历过滤方法、系统和计算机可读存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115756A (ja) * 1997-06-24 1999-01-22 Omron Corp 電子メール判別方法及び装置並びに記憶媒体
US6023723A (en) * 1997-12-22 2000-02-08 Accepted Marketing, Inc. Method and system for filtering unwanted junk e-mail utilizing a plurality of filtering mechanisms
US6654787B1 (en) * 1998-12-31 2003-11-25 Brightmail, Incorporated Method and apparatus for filtering e-mail
US20050065906A1 (en) * 2003-08-19 2005-03-24 Wizaz K.K. Method and apparatus for providing feedback for email filtering
JP2005284454A (ja) * 2004-03-29 2005-10-13 Tatsuya Koshi 迷惑メール配信防止システム、当該システムにおける情報端末及び電子メールサーバ
US8180834B2 (en) * 2004-10-07 2012-05-15 Computer Associates Think, Inc. System, method, and computer program product for filtering messages and training a classification module
US20060149820A1 (en) * 2005-01-04 2006-07-06 International Business Machines Corporation Detecting spam e-mail using similarity calculations
CN1987909B (zh) * 2005-12-22 2012-08-15 腾讯科技(深圳)有限公司 一种提纯贝叶斯垃圾邮件的方法、系统及装置
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
CN101035128B (zh) * 2007-04-18 2010-04-21 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN102096703B (zh) * 2010-12-29 2013-06-12 北京新媒传信科技有限公司 短消息的过滤方法和设备

Also Published As

Publication number Publication date
EP2742652A1 (en) 2014-06-18
TW201308102A (zh) 2013-02-16
HK1176436A1 (zh) 2013-07-26
US20130041962A1 (en) 2013-02-14
CN102929872A (zh) 2013-02-13
CN102929872B (zh) 2016-04-27
WO2013022891A1 (en) 2013-02-14
JP2014527669A (ja) 2014-10-16

Similar Documents

Publication Publication Date Title
JP6058005B2 (ja) 情報フィルタリング
US11716335B2 (en) Detection and restriction of unwanted messages through time interval cluster analysis
US9906554B2 (en) Suspicious message processing and incident response
Song et al. A novel classification approach based on Naïve Bayes for Twitter sentiment analysis
JP6322683B2 (ja) 参照通知の方法および装置
US9537970B2 (en) Publisher-based message data caching in a publish-subscription environment
US11399035B1 (en) Deep learning-based detection of phishing links
US20210250369A1 (en) System and method for providing cyber security
Adewumi et al. A hybrid firefly and support vector machine classifier for phishing email detection
Liu et al. Content based spam e-mail filtering
Alzahrani et al. Comparative study of machine learning algorithms for SMS spam detection
CN101795267A (zh) 病毒检测方法、装置和网关设备
US9667737B2 (en) Publisher-assisted, broker-based caching in a publish-subscription environment
Dada et al. A comparative study between naïve Bayes and neural network (MLP) classifier for spam email detection
Vishwarupe et al. Intelligent Twitter spam detection: a hybrid approach
US9185181B2 (en) Shared cache for potentially repetitive message data in a publish-subscription environment
CN115952343A (zh) 一种基于多关系图卷积网络的社交机器人检测方法
US20120215858A1 (en) Caching potentially repetitive message data in a publish-subscription environment
Revar et al. A Review on Different types of Spam Filtering Techniques.
CN114928501B (zh) 一种基于个性化联邦学习的网络钓鱼邮件检测方法
CN107729898B (zh) 检测文本图像中的文本行的方法和装置
JP5324824B2 (ja) ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム
Kalaibar et al. Spam filtering by using genetic based feature selection
Islam et al. Machine learning approaches for modeling spammer behavior
Kaur et al. A Survey on Various Classification Techniques in Email Spamming

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161206

R150 Certificate of patent or registration of utility model

Ref document number: 6058005

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees