JP2022530290A - 悪性url検出のための、最適走査パラメータ計算方法、デバイス、およびシステム - Google Patents
悪性url検出のための、最適走査パラメータ計算方法、デバイス、およびシステム Download PDFInfo
- Publication number
- JP2022530290A JP2022530290A JP2019537336A JP2019537336A JP2022530290A JP 2022530290 A JP2022530290 A JP 2022530290A JP 2019537336 A JP2019537336 A JP 2019537336A JP 2019537336 A JP2019537336 A JP 2019537336A JP 2022530290 A JP2022530290 A JP 2022530290A
- Authority
- JP
- Japan
- Prior art keywords
- url
- electronic message
- scanning
- parameter
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Discrete Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
-HTTP 400 Bad Request、HTTP 401 Unauthorized、HTTP 403 Forbidden、またはHTTP 404 Not foundなどの無害のHTTP 4xxのクライアントエラーコードを返す。
-HTTP 500 Internal Server Errorなどの同様に無害のHTTP 5xxのサーバエラーコードを返す。
-着信HTTP接続を対象設定されたブランドの真正なURLにリダイレクトする。例えば、フィッシング対象のPayPalの場合、疑わしい着信HTTP接続は、本物のPayPalのサイトである、https://www.paypal.comにリダイレクトされる場合があり、または
-着信HTTP接続を問題のない無害のサイトにリダイレクトする。例えば、疑わしい着信HTTP接続は、https://www.google.comなどのサーチエンジンURLにリダイレクトされる場合がある。
-接続用IPアドレス、
-接続用IPアドレスの逆引きDNS、
-接続用IPアドレスのジオロケーション、
-ユーザエージェントヘッダ、
-Refererヘッダ、および/または
-Accept-Languageヘッダ
などの特徴を解析することによって着信HTTP接続を評価することができる。
-イタリアにおいてジオロケートされるIPアドレス(図10、URL走査サービスおよびHTTPプロキシを参照)、および
-少なくともit-ITを含むAccept-Languageヘッダ
を使用して行われる場合がある。
-送信者表示名はINPSを含む
-送信電子メールアドレスはinpsを含む
-送信者電子メールアドレスccTLDはitである
-受信者電子メールアドレスccTLDはitである
-受信者電子メールアドレスドメインMXレコードはフランスにおいてジオロケートされる
-受信者電子メールアドレスドメインAレコードはイタリアにおいてジオロケートされる
-件名の主要言語はイタリア語である
-本文の主要言語はイタリア語である
-INPSが本文で見つかる
-INPSロゴが本文においてコンピュータビジョンによって見つかる
-送信者フィールドはイタリアブランドへの2つの参照を含む
-送信者電子メールアドレスccTLDはitである
-受信者電子メールアドレスccTLDはitである
-件名の主要言語がイタリア語である確率は0.985であると計算される
-件名の主要言語がフランス語である確率は0.015であると計算される
-本文の主要言語がイタリア語である確率は1.000であると計算される
-イタリアブランドロゴが本文においてコンピュータビジョンによって見つかった確率は0.992であると計算される
-走査に使用されるIPアドレス
-走査に使用されるIPアドレスのジオロケーション
-走査に使用されるIPアドレスの逆引きDNSに対する制約(例えば、逆引きDNSは所定の選択済みドメイン名のサブドメインであるものとする)
-走査に使用されるIPアドレスのWHOISに対する制約(例えば、WHOISレコードは所定の選択済みテンプレートに適合するものとする)
-HTTPユーザエージェントヘッダの値
-HTTP Refererヘッダの値、および
-HTTP Accept-Languageヘッダの値
などの1つまたは複数を含んでよい。IPアドレスがもとからジオロケーションを有することができ、関連した逆引きDNSをもとから有することができ、WHOIS情報をもとから有することができるため、いくつかのパラメータがその他に依存することは留意されたい。最適走査パラメータの上記のリストは、当業者には認識可能であるように、このような可能なパラメータの包括的なリストであることを意図するものではない。
-イタリアにおいてジオロケートされるIPアドレス、および
-it-IT、it;q=0.9、en;q=0.8を含むAccept-Languageヘッダ
-IPアドレス逆引きDNSはbbox.frのサブドメインである(図10、URL走査サービスおよびHTTPプロキシを参照)、
-Accept-Languageヘッダはfr-FR、fr;q=0.8、en-US;q=0.6、en;q=0.4を含む、および
-ユーザエージェントヘッダは、Mozilla/5.0を含む(Macintosh;Intel Mac OS X 10_13_6)、AppleWebKit/537.36(GeckoのようなKHTML)、Chrome/68.0.3440.106 Safari/537.36
1つの実施形態では、関数SPM=DetermineSP(FM)は、1つの実施形態によると、決定木または決定木の組み合わせを使用して最適走査パラメータを選択することができる。決定木は、入ってくるエッジを有さないルートと呼ばれるノードのある有向木である、根付き木を形成する、ノードNのセットおよびエッジEのセットから成る。全ての他のノードは、厳密には1つの入ってくるエッジを有する。出ていくエッジを有するノードは、内部ノードまたはテストノードと呼ばれる。全ての他のノードは、葉、または終端ノードと呼ばれる。決定木は、1つの実施形態によると、入力としてFMの特徴またはFMの特徴のサブセットを活用するように構成可能であることで、それぞれのテストノードがFMの特徴のサブセットとみなされ、それぞれの終端ノードは1つまたは複数のspM、i走査パラメータを出力する。決定木は手動で構成されてよい。代替的には、決定木は、教師あり学習の文脈の中でプログラムで構成されてよい。図7は、
-2つのFMの入力特徴は、1)受信者電子メールアドレスの国コードトップレベルドメインccTLD、および2)電子メール本文における主要言語であり、かつ
-単一の出力SPM走査パラメータはIPアドレスジオロケーションである、
という、決定木の一例である。示されるように、ccTLDがイタリアであり、かつ電子メール本文における主要言語がイタリア語である場合、SPM走査パラメータIPアドレスジオロケーションはイタリアである。電子メール本文における主要言語がイタリア語以外である場合、IPアドレスジオロケーションは、この例示の実装形態では、デフォルトのUSAになる。同様に、ccTLDがフランスであり、かつ電子メール本文における主要言語がフランス語である場合、SPM走査パラメータIPアドレスジオロケーションはフランスである。電子メール本文における主要言語がフランス語以外である場合、IPアドレスジオロケーションは、この決定木では、デフォルトのUSAになる。同様に、ccTLDがイタリアまたはフランス以外であり、かつ電子メール本文における主要言語がイタリア語である場合、SPM走査パラメータIPアドレスジオロケーションはイタリアである。ccTLDがイタリアまたはフランス以外であり、かつ電子メール本文における主要言語がフランス語である場合、SPM走査パラメータIPアドレスジオロケーションはフランスである。ccTLDがイタリアまたはフランス以外であり、かつ電子メール本文における主要言語がイタリア語またはフランス語以外である場合、IPアドレスジオロケーションはこの例ではデフォルトのUSAになる。
1つの実施形態では、関数SPM=DetermineSP(FM)は、1つの実施形態によると、フィッシングキットのリバースエンジニアリングによる教師あり学習アルゴリズムを使用して最適走査パラメータを選択することができる。PMがフィッシングメッセージであり、PKがPMに含まれる悪性URLと関連付けられたフィッシングキットである、ペア(PM、PK)を考慮されたい。n個のこのようなペアのセット{(PM1、PK1)、…、(PMn、PKn)}がさらにまた収集される。ここで、教師あり学習アルゴリズムを考慮されたい。それぞれのペア(PMi、PKi)について、教師あり学習アルゴリズムでは、
-入力特徴ベクトルとしてのFPMi=ComputeFeatures(PMi)、および
-所望の出力ベクトルとしてのSPPKiであって、PKiのフィッシングキットの手動または自動化リバースエンジニアリングによって判断されてよい走査パラメータのセットである、SPPKiが考慮される。教師あり学習アルゴリズムのタスクは、入力空間X={FPM1、…、FPMn}を所望の出力空間Y={SPPK1、…、SPPKn}にマッピングする最適関数g:X→Yをシークすることである。
-PM1が図5の例示のINPSフィッシングメッセージにおいて提示されるフィッシングメッセージであり、かつ
-PK1がPM1に含まれる悪性URLに関連付けられたフィッシングキットである、
ペア(PM1、PK1)を考慮する。フィッシングキットのソースコードの手動またはプログラムによるリバースエンジニアリングは、
-接続用IPアドレスがイタリアにおいてジオロケートされる時、フィッシングキットが、HTTP 200 OK、およびフィッシングウェブページコンテンツを返すこと、
-その他の場合、フィッシングキットがいずれのコンテンツもない、HTTP 404 Not Foundのエラーコードを返すこと、
を示す。
-入力特徴ベクトルとしてFPM1=ComputeFeatures(PM1)である。特徴の例には、
-受信者電子メールアドレスccTLDはitであること、
-本文における主要言語はイタリア語であること、
-イタリアのブランドロゴが見つかったこと、
-所望された出力ベクトル、すなわち、IPがイタリアにおいてジオロケートされるという、走査パラメータの所望のセットとしてのSPPK1、
が含まれてよい。教師あり学習アルゴリズムを精確にトレーニングしかつテストするために、さらに多くの(PMi、PKi)ペアを収集することが望ましい。
1つの実施形態では、関数SPM=DetermineSP(FM)は、教師あり学習モデルの基礎となるDetermineSPのトレーニングのための最適走査パラメータがTestScanURL(SPM、muM)関数を使用して判断される教師あり学習アルゴリズムを使用して、最適走査パラメータを選択してよい。TestScanURL(SPM、muM)関数は、1つの実施形態によると、最適走査パラメータを選択するDetermineSP関数のトレーニング中に使用されてよい。TestScanURL(SPM、muM)関数は、1つの実施形態によると、下記により詳細に論じられるように、その目的が、DetermineSP関数をトレーニングすることに限定されるため、電子メールが受信される時、いずれのURL走査技術においても、またはいずれのメッセージサービスコンテキストにおいても、使用されない。
-入力ベクトルとしてのFMi=ComputeFeatures(Mi)、および
-所望の出力ベクトルとしてのSPMi
を考慮する教師あり学習アルゴリズムを考慮する。教師あり学習アルゴリズムのタスクは、入力空間X={FM1、…、FMn}を所望の出力空間Y={SPM1、…、SPMn}にマッピングする最適関数g:X→Yをシークすることである。
-M1が図5において提示されるフィッシングメッセージ、(INPSフィッシングメッセージ)であり、muM1がM1に含まれる悪性URLであり、かつ
-SPM1が、TestScanURL(SPM1、muM1)が1を返すような走査パラメータのセットである。SPM1はTestScanURLのおかげで発見可能である。
-ステップ1:HTTP 404 Not Foundのエラーコードが返されるため、TestScanURL(IPUSA、muM1)は0を返し、
-ステップ2:HTTP 404 Not Foundのエラーコードが返されるため、TestScanURL(IPFrance、muM1)は0を返し、
-ステップ3:HTTP 200 OK状態コードがフィッシングウェブページコンテンツと共に返されるため、TestScanURL(IPItaly、muM1)は1を返す。よってSPM1=IPItalyである。
-HTTP 400 Bad Request、HTTP 401 Unauthorized、HTTP 403 Forbidden、またはHTTP 404 Not foundなどのHTTP 4xxクライアントエラーコード、または
-HTTP 500 Internal Server ErrorなどのHTTP 5xxサーバエラーコード、または
-さらに以下に論じられる、ドメインがHighReputationDomainsに属するURLへのリダイレクト。
上記のように、いくつかのリダイレクトがあってよく、リダイレクトは種々のやり方で行われ得る(HTTP 301 Moved Permanently、HTML meta refreshリダイレクト、JavaScriptリダイレクトなどのHTTP 3xxリダイレクト)。HighReputationDomainsの構成は、高い評価を受け、周知であり、一般的に信頼されているドメイン名のリストを含んでよい。高評価のドメイン名には、例えば、サーチエンジンドメイン、ソーシャルネットワークドメイン、金融サービスドメイン、電子商取引企業ドメイン、およびISPドメインなどが挙げられ得る。それに応じて、HighReputationDomainsの例には、google.com、facebook.com、linkedin.com、wellsfargo.com、chase.com、paypal.com、amazon.com、orange.frが挙げられる。一般的に、フィッシングおよびランサムウェアなどによってサイバー犯罪者によって規則的に対象設定されかつ偽造される機関に属するドメインは、HighReputationDomainsリストに表されることになる。このリストが、例えば、GoogleのPageRankなどの技術を使用して自動的に生成されてよいことは留意されたい。
M'=RewriteURLs(M、USS、UM、SPM)は、1つの実施形態では、メッセージMにおけるURL、UM={uM、1、…、uM、n}を書き換える関数である。URL書き換えは、メッセージMにおける選択されたURL、uM、iを書き換えられたURL、u'M、iに変換する。この書き換えられたURL、u'M、iは、自分のメールボックスから書き換えられたメッセージを検索し、書き換えられたメッセージを開き、そこに含まれる書き換えられたURLをクリックする時にエンドユーザにもたらされることになる危険性は低い。実際は、書き換えられたURLはここで、URL走査サービスを指し示し、メッセージMに元々含まれていた潜在的悪性URLを指し示さない。この関数は以下の入力パラメータ、
-メッセージM、
-URL走査サービスの基本のURLであるUSS、
-UM=SelectURLs(M)であるUM={uM、1、…、uM、n}を書き換えるためのURL、および
-SPM={spM、1、…、spM、q}走査パラメータを用いる。それぞれのURL、uM、iについて、RewriteURLs(M、USS、UM、SPM)関数は、
-USSはu'M、iに対する基本のURLとしての役割を果たす、
-uM、iは、符号化され、かつURLパスまたはクエリ文字列に記憶される第1のURLパラメータとして渡され、
-SPM={spM、1、…、spM、q}は、符号化され、かつURLパスまたはクエリ文字列に記憶される1つまたはいくつかの第2のURLパラメータとして渡される、
など、書き換えられたURL、u'M、iを計算する。さらにまた、RewriteURLs(M、USS、UM、SPM)関数は、それぞれのURL、uM、iを書き換えられたURL、u'M、iに置き換える。最後に、RewriteURLs(M、USS、UM、SPM)関数は、書き換えられた{u'M、1、…、u'M、n}URLを含む更新されたメッセージM'を返し、このメッセージM'はさらにまた、さらなる使用のためにエンドユーザのメールボックスに記憶されてよい。
ここで、1つの実施形態による、実行中のRewriteURLs(M、USS、UM、SPM)の一例を示す。下記の例示の値を考えてみる。
-URL走査サービスに対する基本のURLとしてのUSS=http://urlscanningservice.com
-uM、i=http://www.unknown.com/index.html
-SPM={IP geolocated in USA}
uM、iの書き換えは、
u'M、i=http://urlscanningservice.com/url/aHR0cDovL3d3dy51bmtub3duLmNvbS9pbmRleC5odG1s/geoip/dXNhであってよい。この例では、uM、iおよびSPMは、符号化され、かつURLパスにおけるパラメータとして記憶されている。
-「aHR0cDovL3d3dy51bmtub3duLmNvbS9pbmRleC5odG1」のパラメータ値は、Base64におけるhttp://www.unknown.com/index.htmlの符号化から生じる。パラメータ値はurlパラメータキーが先行する。パラメータキーおよび値は、前方のスラッシュによって分離される。
-dXNhパラメータ値は、Base64における文字列usaの符号化から生じる。パラメータ値はgeoipパラメータキーが先行する。ここでも、パラメータキーおよび値は、前方のスラッシュによって分離される。
Claims (14)
- コンピュータネットワーク上でメッセージングサービスによって実行されるコンピュータ実施方法であって、
プロセッサおよびメモリを含むコンピューティングデバイスにおいて、前記コンピュータネットワーク上で元の電子メッセージを受信することと、
前記受信した元の電子メッセージを前記メモリに記憶することと、
前記プロセッサを使用して、前記受信した電子メッセージから、潜在的にフィッシングキットと関連付けられるため疑わしいと判断されるUniform Resource Locator(URL)を抽出することと、
前記受信した電子メッセージから特徴を抽出することと、
最適走査パラメータを判断するために決定木を使用する関数を呼び出すことであって、前記決定木は、前記抽出された特徴を受け入れるように構成される根ノード、前記抽出された特徴のサブセットを評価するように構成される少なくとも1つの内部ノード、および、前記最適走査パラメータを出力するように構成される少なくとも1つの終端ノードを含む、呼び出すことと、
前記決定木の前記根ノードに前記抽出された特徴を入力し、前記少なくとも1つの内部ノードにおいて前記抽出された特徴のサブセットを評価し、前記少なくとも1つの終端ノードから出力された前記最適走査パラメータを前記メモリに記憶することと、
前記受信した元のメッセージを、前記受信した元の電子メッセージにおいて疑わしいと判断された前記URLを、前記最適走査パラメータを使用して前記疑わしいと判断されたURLを走査するためのURL走査サービスに対する前記コンピュータネットワーク上での要求をクリックした時に生成するように構成される書き換えられたURLと置き換える、修正されたURLを含む修正された電子メッセージと置き換えることと、
前記置き換えられたURLを有する前記修正された電子メッセージをエンドユーザのメールボックスに送ることと、を含む、コンピュータ実施方法。 - 置き換えることは、前記URL走査サービスの基本URL、前記疑わしいと判断されたURLの符号化バージョンを含む第1のURLパラメータ、および前記記憶された最適走査パラメータの符号化バージョンを含む第2のURLパラメータを含むことが前記疑わしいと判断されたURLを書き換えることを含む、請求項1に記載のコンピュータ実施方法。
- 前記抽出された特徴は、前記受信した電子メッセージの受信者の国コードトップレベルドメイン、および前記受信した電子メッセージの主要言語のうちの少なくとも1つを含む、請求項1に記載のコンピュータ実施方法。
- 前記抽出された特徴は、前記受信した電子メッセージにおけるブランドロゴおよび商標のうちの少なくとも1つを含む、請求項1に記載のコンピュータ実施方法。
- 前記抽出された特徴から計算されるさらなる特徴を有する前記電子メッセージから抽出される前記特徴を、前記電子メッセージのテキストのコンテンツを解析すること、ドメインネームシステム(DNS)にクエリすること、WHOISにクエリすること、IPアドレスジオロケーションデータベースにアクセスしかつクエリすること、前記電子メッセージにおいて使用される主要言語を特定するために自然言語処理を適用すること、および前記電子メッセージにおける画像としてレンダリングされる商標登録グラフィックスまたは他のブランド識別子を認識しかつ抽出するために特徴検出コンピュータビジョンアルゴリズムを適用することのうちの少なくとも1つによって補足することをさらに含む、請求項1に記載のコンピュータ実施方法。
- コンピュータネットワーク上でメッセージングサービスによって実行されるコンピュータ実施方法であって、
プロセッサおよびメモリを含むコンピューティングデバイスにおいて、疑わしいURLを含む元の電子メッセージを受信することと、
前記受信した元の電子メッセージを前記メモリに記憶することと、
前記記憶された元の電子メッセージから特徴を抽出することと、
前記記憶された元の電子メッセージから抽出された前記特徴から最適走査パラメータを選択するように構成される関数を使用し、かつ選択された前記最適走査パラメータを前記メモリに記憶することと、
前記受信した元の電子メッセージを、前記受信した元の電子メッセージにおける疑わしい前記URLを、前記最適走査パラメータを使用して前記疑わしいURLを走査するためのURL走査サービスに対する前記コンピュータネットワーク上での要求をクリックした時に生成するように構成される書き換えられたURLと置き換える、修正されたURLを含む修正された電子メッセージと置き換えることと、
前記置き換えられたURLを有する前記修正された電子メッセージをエンドユーザのメールボックスに送ることと、を含む、コンピュータ実施方法。 - 置き換えることは、前記URL走査サービスの基本のURL、前記疑わしいURLの符号化バージョンを含む第1のURLパラメータ、および記憶された前記最適走査パラメータの符号化バージョンを含む第2のURLパラメータを含むように、前記疑わしいURLを書き換えることを含む、請求項6に記載のコンピュータ実施方法。
- 前記関数は、電子メッセージから抽出された特徴から最適走査パラメータを選択することを、
それぞれが潜在的にフィッシングキットと関連付けられる少なくとも1つの疑わしいURLを含む複数の電子メッセージを収集しかつ記憶すること、
前記複数の電子メッセージから特徴のセットを抽出すること、
前記抽出された特徴のセットから、対応するフィッシングキットのソースコードをプログラムでまたは手動で検査することによって判断される所望の最適走査パラメータのセットを提供すること、および、
教師あり学習アルゴリズムおよび前記所望の最適走査パラメータのセットを使用して、電子メッセージから抽出された前記特徴から前記最適走査パラメータを選択する関数をトレーニングすることによって、行うようにトレーニングされる、請求項6に記載のコンピュータ実施方法。 - 前記関数は、電子メッセージから抽出された特徴から最適走査パラメータを選択することを、前記複数の電子メッセージのそれぞれが潜在的にフィッシングキットと関連付けられる疑わしいURLを含む、複数の電子メッセージを収集しかつ記憶すること、
教師あり学習アルゴリズムを使用して、前記複数の電子メッセージのそれぞれに対して最適走査パラメータを判断する関数を、前記プロセッサを使用して前記電子メッセージから特徴のセットを抽出すること、および、
最適走査パラメータを、複数のHTTPプロキシを通してかつ複数のHTTPヘッダによって、前記疑わしいURLによって指し示されるウェブサイトに対するHTTP GET要求を、前記ウェブサイトが所定のHTTP状態コードを返さなくなる、または所定のURLドメインにリダイレクトしなくなるまで繰り返し行うことによって選択し、および、前記メモリにおいて、前記ウェブサイトに、所定のHTTP状態コードを返させない、または前記最適走査パラメータとして所定のURLドメインにリダイレクトさせない、これらのHTTP走査パラメータを記憶することによって、行うようにトレーニングされる、請求項6に記載のコンピュータ実施方法。 - 前記抽出された特徴は、前記受信した元の電子メッセージの受信者の国コードトップレベルドメイン、および前記受信した元の電子メッセージの主要言語のうちの少なくとも1つを含む、請求項6に記載のコンピュータ実施方法。
- 前記抽出された特徴は、前記受信した元の電子メッセージにおけるブランドロゴおよび商標のうちの少なくとも1つを含む、請求項6に記載のコンピュータ実施方法。
- 前記抽出された特徴から計算されるさらなる特徴を有する前記受信した元の電子メッセージから抽出される前記特徴を、
前記電子メッセージのテキストのコンテンツを解析すること、
ドメインネームシステム(DNS)にクエリすること、
WHOISにクエリすること、
IPアドレスジオロケーションデータベースにアクセスしかつクエリすること、前記受信した元の電子メッセージにおいて使用される主要言語を特定するために自然言語処理を適用すること、および、
前記受信した元の電子メッセージにおける画像としてレンダリングされる商標登録グラフィックスまたは他のブランド識別子を認識しかつ抽出するために特徴検出コンピュータビジョンアルゴリズムを適用することのうちの少なくとも1つによって補足することをさらに含む、請求項6に記載のコンピュータ実施方法。 - コンピュータネットワーク上で、元のUniform Resource Locator(URL)を含む前もって受信した元の電子メッセージの修正バージョンを受信することであって、前記前もって受信した電子メッセージの前記修正バージョンは、
URL走査サービスの基本のURL、
前記元のURLの符号化バージョンを含む第1のURLパラメータ、および、符号化された最適走査パラメータを含む第2のURLパラメータを含む修正されたURLを含む、受信することと、
ユーザが、前記受信した修正済み電子メッセージにおける前記修正されたURLをクリックしたことを指示する入力を受信することと、
前記受信した入力に応答して、前記第1のURLパラメータから符号化された前記URLを復号することによって前記元のURLを検索するように、前記第2のURLパラメータから前記符号化された最適走査パラメータを復号することによって前記最適走査パラメータを検索するように、および、フィッシングウェブサイトの存在を判断するために検索した前記最適走査パラメータを使用して、選択されたプロキシを通して、検索した前記元のURLを走査するように前記URL走査サービスに対する要求を送ることと、を含む、コンピュータ実施方法。 - コンピュータネットワーク上で、エンドユーザから生じる要求を受信することであって、前記要求は、符号化されたUniform Resource Locator(URL)を含む第1のURLパラメータ、および符号化された最適走査パラメータを含む第2のURLパラメータを含む、受信することと、
前記要求の受信に応答して、前記第1のURLパラメータからの前記符号化されたURLを復号し、かつ前記第2のURLパラメータからの前記符号化された最適走査パラメータを復号することと、
前記コンピュータネットワーク上でおよび選択されたプロキシを通して、悪性ネットワークリソースの存在を判断するために復号された前記最適走査パラメータを使用して復号された前記URLによって指し示されるネットワークリソースを走査することと、を含む、コンピュータ実施方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/368,537 | 2019-03-28 | ||
US16/368,537 US10686826B1 (en) | 2019-03-28 | 2019-03-28 | Optical scanning parameters computation methods, devices and systems for malicious URL detection |
PCT/US2019/029822 WO2020197570A1 (en) | 2019-03-28 | 2019-04-30 | Optimal scanning parameters computation methods, devices and systems for malicious url detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022530290A true JP2022530290A (ja) | 2022-06-29 |
JP7381341B2 JP7381341B2 (ja) | 2023-11-15 |
Family
ID=71075093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019537336A Active JP7381341B2 (ja) | 2019-03-28 | 2019-04-30 | 悪性url検出のための、最適走査パラメータ計算方法、デバイス、およびシステム |
Country Status (3)
Country | Link |
---|---|
US (2) | US10686826B1 (ja) |
JP (1) | JP7381341B2 (ja) |
WO (1) | WO2020197570A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11665181B2 (en) * | 2020-03-18 | 2023-05-30 | Microsoft Technology Licensing, Llc | Detection of high-risk blobs based on an analysis of associated graphical elements |
KR102197005B1 (ko) * | 2020-07-31 | 2020-12-30 | (주)라바웨이브 | 피싱 어플리케이션에 의해 유출된 개인정보 보호장치 및 방법 |
US11223599B1 (en) * | 2020-08-17 | 2022-01-11 | Netflix, Inc. | Techniques for templated domain management |
US11184393B1 (en) | 2020-10-01 | 2021-11-23 | Vade Secure Inc. | Automated collection of branded training data for security awareness training |
US11871235B2 (en) * | 2020-10-29 | 2024-01-09 | Proofpoint, Inc. | Secure URL shortener for character-limited messages |
US12143418B2 (en) * | 2021-03-16 | 2024-11-12 | Cisco Technology, Inc. | Techniques for preventing messaging attacks in codes |
US11943257B2 (en) * | 2021-12-22 | 2024-03-26 | Abnormal Security Corporation | URL rewriting |
US12013952B1 (en) * | 2021-12-22 | 2024-06-18 | Gen Digital Inc. | Systems and methods for protecting user data privacy against the use of fake first-party domains by hidden web trackers |
CN116132187B (zh) * | 2023-02-23 | 2024-05-14 | 北京京航计算通讯研究所 | 一种数据包过滤方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133488A (ja) * | 2005-11-08 | 2007-05-31 | Nippon Telegr & Teleph Corp <Ntt> | 情報発信元検証方法および装置 |
US20170063893A1 (en) * | 2015-08-28 | 2017-03-02 | Cisco Technology, Inc. | Learning detector of malicious network traffic from weak labels |
US20180375877A1 (en) * | 2017-05-19 | 2018-12-27 | Agari Data, Inc. | Using message context to evaluate security of requested data |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US7272853B2 (en) | 2003-06-04 | 2007-09-18 | Microsoft Corporation | Origination/destination features and lists for spam prevention |
US8990928B1 (en) | 2003-12-11 | 2015-03-24 | Radix Holdings, Llc | URL salience |
US9106694B2 (en) | 2004-04-01 | 2015-08-11 | Fireeye, Inc. | Electronic message analysis for malware detection |
US7516488B1 (en) * | 2005-02-23 | 2009-04-07 | Symantec Corporation | Preventing data from being submitted to a remote system in response to a malicious e-mail |
US7370039B2 (en) * | 2005-04-05 | 2008-05-06 | International Business Machines Corporation | Method and system for optimizing configuration classification of software |
US7854007B2 (en) | 2005-05-05 | 2010-12-14 | Ironport Systems, Inc. | Identifying threats in electronic messages |
GB0512744D0 (en) * | 2005-06-22 | 2005-07-27 | Blackspider Technologies | Method and system for filtering electronic messages |
US20070136806A1 (en) * | 2005-12-14 | 2007-06-14 | Aladdin Knowledge Systems Ltd. | Method and system for blocking phishing scams |
US7809796B1 (en) * | 2006-04-05 | 2010-10-05 | Ironport Systems, Inc. | Method of controlling access to network resources using information in electronic mail messages |
US7966553B2 (en) * | 2007-06-07 | 2011-06-21 | Microsoft Corporation | Accessible content reputation lookup |
US20090070873A1 (en) * | 2007-09-11 | 2009-03-12 | Yahoo! Inc. | Safe web based interactions |
US8521667B2 (en) | 2010-12-15 | 2013-08-27 | Microsoft Corporation | Detection and categorization of malicious URLs |
EP2661852A1 (en) * | 2011-01-04 | 2013-11-13 | Cisco Technology, Inc. | Limiting virulence of malicious messages using a proxy server |
CN102801574B (zh) * | 2011-05-27 | 2016-08-31 | 阿里巴巴集团控股有限公司 | 一种网页链接的检测方法、装置和系统 |
WO2013185101A2 (en) * | 2012-06-07 | 2013-12-12 | Hagar David Eric | Dashboards for displaying threat insight information |
US9215242B2 (en) * | 2012-12-19 | 2015-12-15 | Dropbox, Inc. | Methods and systems for preventing unauthorized acquisition of user information |
US9467410B2 (en) * | 2012-12-20 | 2016-10-11 | Mcafee, Inc. | Just-in-time, email embedded URL reputation determination |
US9344449B2 (en) * | 2013-03-11 | 2016-05-17 | Bank Of America Corporation | Risk ranking referential links in electronic messages |
US9178901B2 (en) * | 2013-03-26 | 2015-11-03 | Microsoft Technology Licensing, Llc | Malicious uniform resource locator detection |
US20150067853A1 (en) * | 2013-08-27 | 2015-03-05 | Georgia Tech Research Corporation | Systems and methods for detecting malicious mobile webpages |
US20150067833A1 (en) * | 2013-08-30 | 2015-03-05 | Narasimha Shashidhar | Automatic phishing email detection based on natural language processing techniques |
KR101521903B1 (ko) * | 2013-12-09 | 2015-05-20 | 소프트캠프(주) | 링크정보의 악성코드에 대응한 단말기의 로컬환경 보호방법과 보호시스템 |
US9596264B2 (en) | 2014-02-18 | 2017-03-14 | Proofpoint, Inc. | Targeted attack protection using predictive sandboxing |
US10320746B2 (en) * | 2014-05-12 | 2019-06-11 | Michael C. Wood | Computer security system and method based on user-intended final destination |
US9602660B2 (en) * | 2014-07-29 | 2017-03-21 | Buc Mobile, Inc. | System and method for handling mobile messages with embedded URLs |
US9413774B1 (en) | 2014-10-27 | 2016-08-09 | Palo Alto Networks, Inc. | Dynamic malware analysis of a URL using a browser executed in an instrumented virtual machine environment |
US9398047B2 (en) | 2014-11-17 | 2016-07-19 | Vade Retro Technology, Inc. | Methods and systems for phishing detection |
US20200067861A1 (en) * | 2014-12-09 | 2020-02-27 | ZapFraud, Inc. | Scam evaluation system |
CN106209488B (zh) * | 2015-04-28 | 2021-01-29 | 北京瀚思安信科技有限公司 | 用于检测网站攻击的方法和设备 |
US9654492B2 (en) * | 2015-09-15 | 2017-05-16 | Mimecast North America, Inc. | Malware detection system based on stored data |
US10601865B1 (en) * | 2015-09-30 | 2020-03-24 | Fireeye, Inc. | Detection of credential spearphishing attacks using email analysis |
US10212175B2 (en) | 2015-11-30 | 2019-02-19 | International Business Machines Corporation | Attracting and analyzing spam postings |
US10142366B2 (en) * | 2016-03-15 | 2018-11-27 | Vade Secure, Inc. | Methods, systems and devices to mitigate the effects of side effect URLs in legitimate and phishing electronic messages |
US20180007066A1 (en) | 2016-06-30 | 2018-01-04 | Vade Retro Technology Inc. | Detection of phishing dropboxes |
US11044267B2 (en) * | 2016-11-30 | 2021-06-22 | Agari Data, Inc. | Using a measure of influence of sender in determining a security risk associated with an electronic message |
US10331889B2 (en) * | 2017-01-05 | 2019-06-25 | Votiro Cybersec Ltd. | Providing a fastlane for disarming malicious content in received input content |
US11343276B2 (en) * | 2017-07-13 | 2022-05-24 | KnowBe4, Inc. | Systems and methods for discovering and alerting users of potentially hazardous messages |
US11689557B2 (en) * | 2018-02-20 | 2023-06-27 | Darktrace Holdings Limited | Autonomous report composer |
US10958683B2 (en) * | 2018-04-26 | 2021-03-23 | Wipro Limited | Method and device for classifying uniform resource locators based on content in corresponding websites |
US10397272B1 (en) * | 2018-05-10 | 2019-08-27 | Capital One Services, Llc | Systems and methods of detecting email-based attacks through machine learning |
US11388192B2 (en) * | 2018-07-09 | 2022-07-12 | Blackberry Limited | Managing third party URL distribution |
EP3599753A1 (en) * | 2018-07-25 | 2020-01-29 | Cyren Inc. | Phishing detection system and method |
US11743290B2 (en) * | 2018-12-21 | 2023-08-29 | Fireeye Security Holdings Us Llc | System and method for detecting cyberattacks impersonating legitimate sources |
-
2019
- 2019-03-28 US US16/368,537 patent/US10686826B1/en active Active
- 2019-04-30 WO PCT/US2019/029822 patent/WO2020197570A1/en active Application Filing
- 2019-04-30 JP JP2019537336A patent/JP7381341B2/ja active Active
-
2020
- 2020-04-29 US US16/862,250 patent/US11252176B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133488A (ja) * | 2005-11-08 | 2007-05-31 | Nippon Telegr & Teleph Corp <Ntt> | 情報発信元検証方法および装置 |
US20170063893A1 (en) * | 2015-08-28 | 2017-03-02 | Cisco Technology, Inc. | Learning detector of malicious network traffic from weak labels |
US20180375877A1 (en) * | 2017-05-19 | 2018-12-27 | Agari Data, Inc. | Using message context to evaluate security of requested data |
Also Published As
Publication number | Publication date |
---|---|
US20210112089A1 (en) | 2021-04-15 |
JP7381341B2 (ja) | 2023-11-15 |
US10686826B1 (en) | 2020-06-16 |
US11252176B2 (en) | 2022-02-15 |
WO2020197570A1 (en) | 2020-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7381341B2 (ja) | 悪性url検出のための、最適走査パラメータ計算方法、デバイス、およびシステム | |
US12316591B2 (en) | Multi-level security analysis and intermediate delivery of an electronic message | |
US11552993B2 (en) | Automated collection of branded training data for security awareness training | |
Kumar et al. | Phishing website classification and detection using machine learning | |
US11102244B1 (en) | Automated intelligence gathering | |
Mahajan et al. | Phishing website detection using machine learning algorithms | |
US8015250B2 (en) | Method and system for filtering electronic messages | |
US10425444B2 (en) | Social engineering attack prevention | |
Manyumwa et al. | Towards fighting cybercrime: Malicious URL attack type detection using multiclass classification | |
WO2019118838A1 (en) | Using a measure of influence of sender in determining a security risk associated with an electronic message | |
US8707426B1 (en) | Method and apparatus for resolving a cousin domain name to detect web-based fraud | |
US20090300012A1 (en) | Multilevel intent analysis method for email filtration | |
JP7689675B2 (ja) | メールセキュリティー基盤のゼロデイurl攻撃防御サービス提供装置及びその動作方法 | |
KR20080078693A (ko) | 네트워크 어드레스 평가 및 액세스 방법 | |
Geng et al. | Combating phishing attacks via brand identity and authorization features | |
US20220321518A1 (en) | Email Sender and Reply-To Authentication to Prevent Interception of Email Replies | |
US12041076B2 (en) | Detecting visual similarity between DNS fully qualified domain names | |
Hawanna et al. | A novel algorithm to detect phishing URLs | |
Naresh et al. | Intelligent phishing website detection and prevention system by using link guard algorithm | |
Koide et al. | PhishReplicant: A language model-based approach to detect generated squatting domain names | |
Ahmad et al. | Overview of phishing landscape and homographs in Arabic domain names | |
WO2018081016A1 (en) | Multi-level security analysis and intermediate delivery of an electronic message | |
Krupalin et al. | A survey and taxonomy of anti-phishing techniques for detecting fake websites | |
Sonowal | What Does a Phishing URL Look Like? | |
Barbar et al. | Image spam detection using FENOMAA technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7381341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |