JP7182764B2 - 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム - Google Patents
不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム Download PDFInfo
- Publication number
- JP7182764B2 JP7182764B2 JP2020539928A JP2020539928A JP7182764B2 JP 7182764 B2 JP7182764 B2 JP 7182764B2 JP 2020539928 A JP2020539928 A JP 2020539928A JP 2020539928 A JP2020539928 A JP 2020539928A JP 7182764 B2 JP7182764 B2 JP 7182764B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- html document
- fraudulent
- inspected
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図2は、通信システム1の概略構成の一例を示す図である。
42 記憶部
431 取得部
434 ベクトル算出部
435 類似度算出部
436 判定部
437 判定結果出力部
Claims (6)
- 複数の不正Webページのそれぞれを構成する複数の不正HTML(HyperText Markup Language)文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶する記憶部と、
検査対象Webページを構成する検査対象HTML文書を取得する取得部と、
前記検査対象HTML文書及び前記不正HTML文書に対して、HTMLタグ内に記載されているURLのパスを削除する処理を実行する前処理部と、
前記検査対象HTML文書の特徴ベクトルを算出するベクトル算出部と、
前記検査対象HTML文書の特徴ベクトルと、前記複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出する類似度算出部と、
前記算出された各類似度としきい値とに基づいて、前記検査対象Webページが不正Webページであるか否かを判定する判定部と、
前記判定部による判定結果を出力する判定結果出力部と、
を有し、
前記記憶部が記憶する特徴ベクトルは、前記前処理部により処理された不正HTML文書の特徴ベクトルであり、
前記ベクトル算出部は、前記前処理部により処理された検査対象HTML文書に基づいて前記検査対象HTML文書の特徴ベクトルを算出する、
ことを特徴とする不正Webページ検出装置。 - 前記取得部は、新たな不正HTML文書をさらに取得し、
前記ベクトル算出部は、HTML文書の特徴ベクトルを出力するように事前学習された学習器により前記検査対象HTML文書の特徴ベクトルを算出し、かつ、前記学習器により前記新たな不正HTML文書の特徴ベクトルをさらに算出し、
前記類似度算出部は、前記検査対象HTML文書の特徴ベクトルと、前記新たな不正HTML文書の特徴ベクトルとの類似度をさらに算出する、請求項1に記載の不正Webページ検出装置。 - 前記記憶部は、さらに、複数の正規Webページのそれぞれを構成する複数の正規HTML文書の前記特徴ベクトルを、前記正規Webページを示す正規URL(Uniform Resource Locator)と関連付けて記憶し、
前記取得部は、さらに、前記検査対象Webページを示す検査対象URLを取得し、
前記類似度算出部は、前記検査対象URL中のドメイン名が前記複数の正規URL中のドメイン名の何れとも一致しない場合、さらに、前記検査対象HTML文書の特徴ベクトルと、前記複数の正規HTML文書の特徴ベクトルのそれぞれとの類似度を算出する、請求項1又は2に記載の不正Webページ検出装置。 - 前記類似度算出部は、前記不正HTML文書のサイズと前記検査対象HTML文書のサイズとの差が所定値以上である場合、当該不正HTML文書について前記類似度を算出しない、請求項1~3の何れか一項に記載の不正Webページ検出装置。
- 記憶部及び出力部を有する不正Webページ検出装置の制御方法であって、前記不正Webページ検出装置が、
複数の不正Webページのそれぞれを構成する複数の不正HTML(HyperText Markup Language)文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを前記記憶部に記憶し、
検査対象Webページを構成する検査対象HTML文書を取得し、
前記検査対象HTML文書及び前記不正HTML文書に対して、HTMLタグ内に記載されているURLのパスを削除する処理を実行し、
前記検査対象HTML文書の特徴ベクトルを算出し、
前記検査対象HTML文書の特徴ベクトルと、前記複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出し、
前記算出された各類似度としきい値とに基づいて、前記検査対象Webページが不正Webページであるか否かを判定し、
前記判定の結果を前記出力部に出力する、
ことを含み、
前記記憶部が記憶する特徴ベクトルは、前記URLのパスを削除する処理により処理された不正HTML文書の特徴ベクトルであり、
前記検査対象HTML文書の特徴ベクトルを算出する処理は、前記URLのパスを削除する処理により処理された検査対象HTML文書に基づいて前記検査対象HTML文書の特徴ベクトルを算出する、
ことを特徴とする不正Webページ検出装置の制御方法。 - 記憶部及び出力部を有する不正Webページ検出装置の制御プログラムであって、
複数の不正Webページのそれぞれを構成する複数の不正HTML(HyperText Markup Language)文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを前記記憶部に記憶し、
検査対象Webページを構成する検査対象HTML文書を取得し、
前記検査対象HTML文書及び前記不正HTML文書に対して、HTMLタグ内に記載されているURLのパスを削除する処理を実行し、
前記検査対象HTML文書の特徴ベクトルを算出し、
前記検査対象HTML文書の特徴ベクトルと、前記複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出し、
前記算出された各類似度としきい値とに基づいて、前記検査対象Webページが不正Webページであるか否かを判定し、
前記判定の結果を前記出力部に出力する、
ことを不正Webページ検出装置に実行させ、
前記記憶部が記憶する特徴ベクトルは、前記URLのパスを削除する処理により処理された不正HTML文書の特徴ベクトルであり、
前記検査対象HTML文書の特徴ベクトルを算出する処理は、前記URLのパスを削除する処理により処理された検査対象HTML文書に基づいて前記検査対象HTML文書の特徴ベクトルを算出する、
ことを特徴とする制御プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/031993 WO2020044469A1 (ja) | 2018-08-29 | 2018-08-29 | 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020044469A1 JPWO2020044469A1 (ja) | 2021-08-26 |
JP7182764B2 true JP7182764B2 (ja) | 2022-12-05 |
Family
ID=69643425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020539928A Active JP7182764B2 (ja) | 2018-08-29 | 2018-08-29 | 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7182764B2 (ja) |
WO (1) | WO2020044469A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597107B (zh) * | 2020-04-22 | 2023-04-28 | 北京字节跳动网络技术有限公司 | 信息输出方法、装置和电子设备 |
KR102419824B1 (ko) * | 2020-12-07 | 2022-07-13 | 주식회사 앰진시큐러스 | 메뉴 구조 기반 웹 사이트의 유사도 평가 방법 |
WO2023157191A1 (ja) * | 2022-02-17 | 2023-08-24 | 株式会社ファイブドライブ | 通信システム、ゲートウェイ装置、端末装置及びプログラム |
KR102595595B1 (ko) * | 2023-07-24 | 2023-10-31 | (주)에잇스니핏 | 웹사이트의 구조 정보를 이용한 불법·유해정보 사이트차단 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130086677A1 (en) | 2010-12-31 | 2013-04-04 | Huawei Technologies Co., Ltd. | Method and device for detecting phishing web page |
US20160352772A1 (en) | 2015-05-27 | 2016-12-01 | Cisco Technology, Inc. | Domain Classification And Routing Using Lexical and Semantic Processing |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319897A (ja) * | 1994-05-20 | 1995-12-08 | Canon Inc | 情報処理方法及び装置 |
US10171497B2 (en) * | 2016-07-11 | 2019-01-01 | Bitdefender IPR Management Ltd. | Systems and methods for detecting online fraud |
-
2018
- 2018-08-29 WO PCT/JP2018/031993 patent/WO2020044469A1/ja active Application Filing
- 2018-08-29 JP JP2020539928A patent/JP7182764B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130086677A1 (en) | 2010-12-31 | 2013-04-04 | Huawei Technologies Co., Ltd. | Method and device for detecting phishing web page |
US20160352772A1 (en) | 2015-05-27 | 2016-12-01 | Cisco Technology, Inc. | Domain Classification And Routing Using Lexical and Semantic Processing |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020044469A1 (ja) | 2021-08-26 |
WO2020044469A1 (ja) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7182764B2 (ja) | 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム | |
US9489401B1 (en) | Methods and systems for object recognition | |
CN101019119B (zh) | 基于名称的url输入 | |
US20160294867A1 (en) | Method and system for security protection of account information | |
US9639622B2 (en) | Image processing system, image processing method, program, and non-transitory information storage medium | |
CN108881138B (zh) | 一种网页请求识别方法及装置 | |
CN112214984B (zh) | 内容抄袭识别方法、装置、设备及存储介质 | |
CN102446255A (zh) | 一种检测页面篡改的方法及装置 | |
US8676791B2 (en) | Apparatus and methods for providing assistance in detecting mistranslation | |
KR20220070181A (ko) | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 | |
JP2006522382A (ja) | 検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム | |
CN107786529B (zh) | 网站的检测方法、装置及系统 | |
CN109657472B (zh) | Sql注入漏洞检测方法、装置、设备及可读存储介质 | |
JP5687312B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
CN104978423A (zh) | 网站类型的检测方法及装置 | |
WO2017000659A1 (zh) | 一种富集化url的识别方法和装置 | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
CN111382383A (zh) | 网页内容敏感类型确定方法、装置、介质和计算机设备 | |
US9639611B2 (en) | System and method for providing suitable web addresses to a user device | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
KR20190000061A (ko) | 키워드 속성을 기준으로 관련 있는 키워드를 제공하는 방법 및 시스템 | |
CN111563276B (zh) | 一种网页篡改检测方法、检测系统及相关设备 | |
JP6425989B2 (ja) | 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 | |
JP5163379B2 (ja) | 文書群検出方法及び文書群検出装置 | |
JP2014089692A (ja) | 情報提供サーバ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210803 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7182764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |