WO2022219792A1 - Collection device, collection method, and collection program - Google Patents

Collection device, collection method, and collection program Download PDF

Info

Publication number
WO2022219792A1
WO2022219792A1 PCT/JP2021/015645 JP2021015645W WO2022219792A1 WO 2022219792 A1 WO2022219792 A1 WO 2022219792A1 JP 2021015645 W JP2021015645 W JP 2021015645W WO 2022219792 A1 WO2022219792 A1 WO 2022219792A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
attack
search
collection
website
Prior art date
Application number
PCT/JP2021/015645
Other languages
French (fr)
Japanese (ja)
Inventor
楊 鐘本
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/015645 priority Critical patent/WO2022219792A1/en
Publication of WO2022219792A1 publication Critical patent/WO2022219792A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures

Definitions

  • the present invention relates to a collection device, collection method, and collection program for collecting information on cyberattacks.
  • Non-Patent Document 1 there are two main methods of collecting web attacks. For example, there is a technique of deploying honeypots and collecting information on attacks (see, for example, Non-Patent Document 1). Further, for example, there is a technique for detecting vulnerability scans by observing access logs for a Web server in normal operation and utilizing co-occurrence of accessed URLs (see, for example, Non-Patent Document 2).
  • the object of the present invention is to solve the problems described above, efficiently collect information on web attacks, and detect unknown attacks by attackers at an early stage.
  • the collection device of the present invention includes an attack information search unit that searches for information on websites from the Internet space using a search engine using keywords that indicate the characteristics of cyber attacks as search keys; An attack information collection unit that accesses each searched website and collects information on the cyber attack, and a new attack presentation unit that presents the new cyber attack from the collected information on the cyber attack. characterized by
  • FIG. 1 is a diagram showing a configuration example of a system including a collection device according to the first embodiment.
  • FIG. 2 is a block diagram showing the configuration of the collection device of the first embodiment.
  • FIG. 3 is a diagram showing an example of a seedlist stored in a seedlist database.
  • FIG. 4 is a diagram showing an example of the target website search results stored in the collection target database.
  • FIG. 5 is a diagram showing an example of search results stored in the collection target database for each seedlist keyword.
  • FIG. 6 is a diagram showing an example of attack information stored in an attack information database.
  • FIG. 7 is a diagram illustrating an example of the flow of processing by an attack information search unit;
  • FIG. 8 is a diagram illustrating an example of the flow of processing by an attack information collection unit;
  • FIG. 1 is a diagram showing a configuration example of a system including a collection device according to the first embodiment.
  • FIG. 2 is a block diagram showing the configuration of the collection device of the first embodiment.
  • FIG. 3
  • FIG. 9 is a diagram illustrating an example of the flow of processing by an attack information collecting unit that acquires attack information from different access log formats.
  • FIG. 10 is a diagram illustrating an example of the flow of processing in which the new attack presentation unit updates the seed list.
  • FIG. 11 is a flow chart showing an example of the processing procedure of the collection device 10.
  • FIG. 12 is a diagram showing an example of the processing flow of the collection device 10.
  • FIG. 13 is a diagram showing a configuration example of a computer that executes the collection program.
  • a first embodiment which is a form (embodiment) for carrying out the present invention, will be described below with reference to the drawings.
  • the invention is not limited to the embodiments.
  • the collection system includes, for example, a website 2a on a server, a search engine 2b on the server, a terminal 3, and a collection device 10, which are connected via a network 1.
  • FIG. 1 A network 1
  • a network 1 is a computer network that can connect multiple computers and electronic devices to exchange signals, data, and information. Also, the network 1 may be either a wired connection or a wireless connection.
  • the website 2a indicates a group of web pages stored on the server.
  • the search engine 2b refers to a system that allows users to search for data and files that exist in a general system by entering keywords and conditions. Examples of the search engine 2b include "Chrome” (registered trademark) provided by Google and "Bing” (registered trademark) provided by Microsoft.
  • the terminal 3 is an electronic device terminal operated by an operator or a cyberattack information monitor.
  • the terminal 3 is a desktop PC (Personal Computer), a notebook PC, a tablet terminal, a mobile phone, a PDA (Personal Digital Assistant), or the like.
  • the collection device 10 searches for information on websites 2a from the Internet space using a search engine 2b using keywords that indicate the characteristics of cyberattacks as search keys, accesses each of the websites 2a that have been searched, and collects information related to cyberattacks. It collects information and presents novel cyberattacks from the collected information about cyberattacks.
  • the collection device 10 can efficiently collect information about web attacks from the Internet space using the search engine 2b and the like, and can present unknown attacks by attackers at an early stage.
  • the collection device 10 has a communication section 11 , a control section 12 and a storage section 13 . Processing of each unit of the collection device 10 will be described below.
  • the communication unit 11 controls communication related to various information including cyber attacks.
  • the communication unit 11 controls communications related to various types of information exchanged with the collection device 10, the website 2a, the search engine 2b, and the terminal 3, which are connected via the network 1.
  • FIG. For example, the communication unit 11 transmits various information about cyberattacks to the terminal 3 .
  • the storage unit 13 stores data and programs necessary for various processes by the control unit 12.
  • the storage unit 13 also has a seed list database 13a (seed list DB in the illustration), a collection target database 13b (collection target DB in the illustration), and an attack information database 13c (attack information DB in the illustration).
  • the storage unit 13 is a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
  • the seed list database 13a stores a seed list in which keywords indicating characteristics of cyberattacks are stored in advance.
  • a seed list is information that indicates the characteristics of a cyberattack, and indicates the seed list keywords stored on the list.
  • the seedlist keyword refers to, for example, a keyword of a search key used by an attacker to investigate web applications having vulnerabilities in advance.
  • seed list keywords include "/.env" used for searching OS information and "/HNAP1" used for searching router information.
  • FIG. 3 is a diagram showing an example of a seedlist stored in the seedlist database 13a.
  • the seedlist database 13a stores "/phpMyAdmin" used as part of the URL of the management system of the website 2a as a seedlist keyword in the seedlist database 13a.
  • the seed list database 13a stores preset seed lists. Further, the seed list database 13a may overwrite a preset seed list with a new seed list keyword presented by the new attack presentation unit 12c, which will be described later, and store the new seed list keyword.
  • the collection target database 13b of the storage unit 13 stores website information periodically acquired by the attack information search unit 12a, which will be described later.
  • the collection target database 13b associates and stores seed list keywords, search content, and target websites.
  • the collection target database 13b stores the seedlist keyword information acquired from the seedlist database 13a in the item "seedlist keyword” (hereinafter referred to as the seedlist keyword item).
  • the collection target database 13b stores search keyword information input to the search engine 2b by the attack information search unit 12a, which will be described later, in the "search content” item (hereinafter referred to as search content item).
  • search content item hereinafter referred to as search content item
  • the collection target database 13b stores the URL information of the website 2a that can be the attack target in the item of "target website” (hereinafter referred to as the target website item).
  • FIG. 4 is a diagram showing an example of the target website search results stored in the collection target database 13b.
  • the collection target database 13b stores "/phpMyAdmin” in the seed list keyword item.
  • the collection target database 13b stores the search keyword "GET/phpMyAdmin HTTP/1.1" in the search content item.
  • the collection target database 13b stores, in the target website item, "aaa.com/access_log/2021-01-01", which is the URL information of the website 2a that can be attacked.
  • FIG. 5 is a diagram showing an example of search results stored in the collection target database 13b for each seed list keyword.
  • the collection target database 13b may store search results for each seed list keyword.
  • the collection target database 13b stores "/HNAP1" in the seed list keyword item, stores the search keyword "GET/HNAP1 HTTP/1.1” in the search content item, and
  • a search result for the keyword "/HNAP1”, “bbb.com/access_log/2021-01-01” which is the URL information of the website 2a that can be attacked, is stored in the target website item.
  • the collection target database 13b stores “/.env” in the seed list keyword item, stores the search keyword "GET/.env HTTP/1.1" in the search content item,
  • search keyword "GET/.env HTTP/1.1” in the search content item
  • ccc.com/access_log/2021-01-01 which is the URL information of the website 2a that can be attacked
  • the attack information database 13c of the storage unit 13 stores cyber attack information on website information acquired by the attack information collecting unit 12b, which will be described later.
  • FIG. 6 is a diagram showing an example of attack information stored in the attack information database 13c.
  • the attack information database 13c stores the method information "GET" in the method item of the attack information.
  • the attack information database 13c stores the search keyword "/phpMyAdmin" in the search keyword item of the attack information.
  • the attack information database 13c stores "aaa.com/access_log/2021-01-01", which is the URL information of the website 2a that suffered a cyber attack, in the URL item.
  • the attack information database 13c stores "2021-01-01”, which is the attack time indicating the time when the cyber attack information was received, in the attack time item.
  • the attack information database 13c stores the method information used in the HTTP request, the URL information of the attack target website 2a, and the attack time indicating the time when the cyber attack information was received.
  • the control unit 12 controls the collection device 10 as a whole.
  • the control unit 12 includes an attack information search unit 12a, an attack information collection unit 12b, and a new attack presentation unit 12c.
  • the control unit 12 has an internal memory for storing programs defining various processing procedures and required data, and executes various processing using these.
  • control unit 12 has an attack information search unit 12a, an attack information collection unit 12b, and a new attack presentation unit 12c.
  • control unit 12 is an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
  • CPU Central Processing Unit
  • MPU Micro Processing Unit
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the attack information search unit 12a searches for information on the website 2a from the Internet space using the search engine 2b using keywords that indicate the characteristics of cyberattacks as search keys.
  • the attack information search unit 12a creates a search keyword for each keyword of the seed list based on a seed list in which keywords indicating characteristics of cyber attacks are stored in advance, and activates the search engine 2b for each created search keyword. to search for information on the website 2a.
  • the attack information search unit 12a also stores the collected URL information and search keywords of the website 2a in the collection target database 13b.
  • FIG. 7 is a diagram showing an example of the processing flow of the attack information search unit 12a.
  • the attack information search unit 12a acquires one seedlist keyword from the seedlist database 13a.
  • the attack information search unit 12a combines pre-stored keywords to create a plurality of search keywords for one seed list keyword. For example, the attack information search unit 12a creates a search keyword by adding "GET” and "HTTP/1.1", which are method information, before and after the acquired seed list keyword.
  • a search keyword is a keyword used by the attack information search unit 12a when inputting to the search engine 2b and performing a search.
  • Examples of preset combinations of keywords used when creating search keywords include “GET”, “POST”, “HTTP/1.0”, and “HTTP/2”. At this time, the ratio of the total number of seed list keywords and search keywords is 1:N.
  • the attack information search unit 12a periodically searches the corresponding website 2a with the search engine 2b for each created search keyword.
  • the attack information search unit 12a stores URL information of the website 2a for each search keyword.
  • the ratio of the search keyword to the total number of Web sites 2a searched is 1:N.
  • the total ratio of the seed list keyword, the search keyword, and the searched Web sites 2a has a relationship of 1:N:N ⁇ 2.
  • the attack information search unit 12a stores the seedlist keyword information acquired from the seedlist database 13a as the seedlist keyword item, stores the created search keyword information as the search content item, As a site item, the URL information of the website 2a is stored in the collection target database 13b. That is, the attack information search unit 12a associates and stores the seed list keyword, the search content, and the target website.
  • the attack information search unit 12a acquires "/phpMyAdmin", “/.env”, and "/HNAP1" as a plurality of seedlist keywords from the seedlist database 13a.
  • the attack information search unit 12a creates "GET /phpMyAdmin HTTP /1.1" as a search keyword for the seed list keyword "/phpMyAdmin”.
  • the attack information search unit 12a uses the search keyword "GET/phpMyAdminHTTP/1.1" to search for the website 2a that can be targeted for a web attack from the public access logs existing in the Internet space.
  • the attack information search unit 12a stores the website 2a hit from the search result of the search keyword "GET/phpMyAdminHTTP/1.1" as the target website in the collection target database 13b.
  • the attack information search unit 12a retrieves URL information of the website 2a such as "aaa.com/access_log/2021-01-01”, “bbb.com/blog/bbb.html”, “ccc.com/stats/ html” and “ddd.com/” are stored in the target website item, and stored in association with the search keyword “GET /phpMyAdmin HTTP /1.1”.
  • attack information search unit 12a when the attack information search unit 12a creates the search keyword "POST /phpMyAdmin HTTP/1.0" using the seed list keyword "/phpMyAdmin”, the attack information search unit 12a uses the search keyword "POST /phpMyAdmin HTTP/1.0" is used to search for a Web site 2a that can be targeted for a Web attack from public access logs existing in the Internet space.
  • the attack information search unit 12a stores the website 2a hit from the search result of the search keyword "POST/phpMyAdminHTTP/1.0" in the collection target database 13b as the target website.
  • the collection target database 13b stores "eee.com/access_log/2021-01-01” and "ggg.com/blog/bbb.html", which are the URL information of the website 2a, as items of the target website.
  • attack information search unit 12a uses the search keyword "GET /phpMyAdmin HTTP/2” is used to search for a Web site 2a that can be targeted for a Web attack from public access logs existing in the Internet space.
  • the attack information search unit 12a stores the website 2a hit from the search result of the search keyword "GET/phpMyAdminHTTP/2" as the target website in the collection target database 13b.
  • the collection target database 13b uses the URL information "hhh.com/stats/index.html” and "kkk.com/” of the website 2a as items of the target website, and the search keyword "GET /phpMyAdmin HTTP /2" and store it.
  • the attack information collection unit 12b of the control unit 12 accesses each collected website 2a and collects information on cyber attacks.
  • the attack information collection unit 12b accesses the website 2a, collects information about cyberattacks from the access log of the website 2a, determines whether or not there is an attack based on the status code written in the access log, In response, information on the attack time and search keyword indicating the date and time of the attack is collected from the attack information.
  • the attack information collecting unit 12b periodically collects attack time and search keyword information from the attack information, and collects the latest access log information until the attack time is updated to the latest date and time.
  • Each piece of attack information is shaped into a predetermined format and stored in the attack information database 13c that collects attack information.
  • FIG. 8 is a diagram showing an example of the processing flow of the attack information collection unit 12b.
  • the attack information collection unit 12b accesses the target website "aaa.com/access_log/2021-01-01" and acquires attack information from the access log.
  • the access log information posted includes normal access that is not intended as an attack. For this reason, the attack information collecting unit 12b determines an attack when the status code written in the access log is in the 400s, for example.
  • the method of determining whether or not there is an attack is set in advance, and it is possible to change the conditions later.
  • the attack information collection unit 12b collects access log information determined as an attack and stores it in the attack information database 13c.
  • the attack information collection unit 12b formats the information in the date part, Collect access log information until the date of
  • the attack information collection unit 12b stores "GET", which is the method information, in the method item of the attack information in the attack information database 13c. Also, the attack information collection unit 12b stores the search keyword "/phpMyAdmin" in the attack information search keyword item of the attack information database 13c.
  • the attack information collection unit 12b stores "aaa.com/access_log/2021-01-01", which is the URL information of the website 2a that was subjected to the cyber attack, in the URL item of the attack information database 13c.
  • the attack information collection unit 12b stores "2021-01-01”, which is the attack time indicating the time of the cyber attack, in the attack time item of the attack information database 13c.
  • FIG. 9 is a diagram showing an example of the processing flow of the attack information collection unit 12b that acquires attack information from different access log formats.
  • the attack information collection unit 12b extracts and acquires the portion corresponding to the attack information from the values in the table or list format.
  • the attack information collection unit 12b stores "GET", which is method information, in the method item of the attack information in the attack information database 13c.
  • the attack information collection unit 12b stores the search keyword "/CFIDE/administrator/" in the attack information search keyword item of the attack information database 13c.
  • the attack information collection unit 12b stores "bbb.com/blog/bbb.html", which is the URL information of the website 2a that has suffered a cyber attack, in the URL item of the attack information database 13c.
  • the attack information collection unit 12b stores "2021-01-01”, which is the attack time indicating the time of the cyber attack, in the attack time item of the attack information database 13c.
  • the attack information collection unit 12b can extract and acquire portions corresponding to attack information from different access log formats.
  • the new attack presentation unit 12c of the control unit 12 presents a new cyber attack from the collected information on cyber attacks.
  • the novel attack presentation unit 12c presents to the user a newly discovered cyber attack from the collected attack information, and when detecting information related to a new search keyword, determines that it is an unknown attack, and adds a new attack to the seed list. Update search keyword information.
  • FIG. 10 is a diagram showing an example of the flow of processing for updating the seed list by the new attack presentation unit 12c.
  • the new attack presenting unit 12c compares collected attack information with existing attack information to detect a newly discovered attack "/CFIDE/administrator/”.
  • the new attack presenting unit 12c updates the information as "unknown attack” in the corresponding item of the attack information database 13c.
  • the new attack presenting unit 12c adds a value of "YES” to the item "unknown attack” in the line "/CFIDE/administrator/", which is a newly discovered attack.
  • the new attack presentation unit 12c presents attack information to the terminal 3 of the operator or the monitor, regarding the newly discovered attack "/CFIDE/administrator/" as an unknown attack. Further, the new attack presenting unit 12c recognizes the newly discovered attack "/CFIDE/administrator/" as a seed list keyword, and updates the seed list database 13a.
  • the collection device 10 uses the search engine 2b to search for information on the website 2a from the Internet space using keywords that indicate the characteristics of cyberattacks as search keys, and accesses each searched website 2a. , collects information about cyberattacks and presents new cyberattacks from the collected information about cyberattacks.
  • the collection device 10 can effectively collect websites 2a that can be targets of cyberattacks by creating various search keywords using preset seedlist keywords. Furthermore, by updating the seedlist, the collection device 10 can always collect the latest access log information and acquire general-purpose attack information and the seedlist. In addition, the collection device 10 can collect attack information using the search engine 2b on the Internet space without depending on observation environments such as honeypots and web servers.
  • the collection device 10 detects in advance the websites 2a that can be targets of cyberattacks and limits the websites 2a to be monitored, thereby detecting unknown attacks by attackers at an early stage. It is effective in that it can contribute to grasping the attack trend of
  • FIG. 11 is a flow chart showing an example of the processing procedure of the collection device 10. As shown in FIG. 11
  • the attack information search unit 12a of the collection device 10 acquires information on the website 2a that publishes attack information using the search engine 2b based on the seed list (S1).
  • the attack information search unit 12a acquires one seedlist keyword from the seedlist database 13a. Then, the collection device 10 combines pre-stored keywords to create a plurality of search keywords for one seed list keyword. Then, the attack information search unit 12a searches the Web site 2a corresponding to each created search keyword using the search engine 2b.
  • the attack information collection unit 12b acquires attack information of the website 2a based on the URL information of the website 2a collected in S1 (S2).
  • the attack information collection unit 12b collects information about cyberattacks from access logs published in the Internet space, determines the presence or absence of an attack based on the status code written in the access log, and, depending on the determination result, collects attack information. Collect attack time and search keyword information that indicates the date and time of the attack.
  • the new attack presentation unit 12c outputs the attack information acquired in S2 to the terminal 3, and updates the seed list database 13a with new search keywords (S3).
  • the collection device 10 repeats a series of processes from S1 to S3 to acquire the latest attack information. In other words, after the seed list database 13a is updated, the collecting device 10 repeats the process of searching for the new website 2a using the new search keyword and acquiring the latest attack information.
  • FIG. 12 is a diagram showing an example of the processing flow of the collection device 10.
  • the collection device 10 uses the seed list database 13a to search the website 2a from the search engine 2b using the keyword of the vulnerable web application as the search key.
  • the collection device 10 acquires the access log of the website 2a that may be the target of a cyber attack, and accumulates the attack information in the database owned by the collection device 10. Subsequently, the collection device 10 periodically monitors the target website 2a using the accumulated attack information, and presents it to the monitor's terminal 3 when new attack information is detected.
  • the collection device 10 searches for information on websites 2a from the Internet space using a search engine 2b using keywords that indicate the characteristics of cyberattacks as search keys, accesses each of the websites 2a that have been searched, and collects information related to cyberattacks. It collects information and presents novel cyberattacks from the collected information about cyberattacks.
  • the collection device 10 can efficiently collect information about web attacks from the Internet space using the search engine 2b and the like, and can present unknown attacks by attackers at an early stage.
  • the collection device 10 creates a search keyword for each keyword of the seed list based on a seed list in which keywords indicating characteristics of cyberattacks are stored in advance, and uses the search engine 2b for each created search keyword. Information on the website 2a can be searched.
  • the collection device 10 can create various search keywords using preset seed list keywords, and effectively collect websites 2a that can be targets of cyberattacks.
  • the collection device 10 accesses the website 2a, collects information on cyberattacks from the access log of the website 2a, determines the presence or absence of an attack based on the status code written in the access log, , attack time indicating the date and time of attack and information on search keywords can be collected from the attack information.
  • the collection device 10 can collect detailed attack information including the attack time from different access log formats using the status code written in the access log.
  • the collection device 10 periodically collects attack time and search keyword information from attack information, collects the latest access log information until the attack time is updated to the latest date, and collects each collected attack information. It can be shaped into a predetermined format and stored in the attack information database 13c that collects attack information.
  • the collection device 10 can routinely collect the latest access log information and acquire general-purpose attack information and seed lists.
  • the collection device 10 presents a newly discovered cyber attack from the collected attack information to the user, and when a new search keyword is detected, determines that it is an unknown attack, and adds the information of the new search keyword to the seed list. can be updated.
  • the collection device 10 presents unknown attacks by attackers to the monitor at an early stage, so that the monitor can grasp the latest attack trends.
  • each constituent element of each part shown in the figure is functionally conceptual, and does not necessarily need to be physically configured as shown in the figure.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • all or any part of each processing function performed by each device can be implemented by a CPU and a program executed by the CPU, or implemented as hardware based on wired logic.
  • the collecting device 10 described above can be implemented by installing a program as package software or online software on a desired computer.
  • the information processing device can function as the collection device 10 of each embodiment.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and terminals such as PDAs (Personal Digital Assistants).
  • the collection device 10 can also be implemented as a server device that uses a terminal device used by a user as a client and provides the client with services related to the above processing.
  • the server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above processing by outsourcing.
  • FIG. 13 is a diagram showing an example of a computer that executes a collection program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, the program that defines each process executed by the collection device 10 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the collection device 10 .
  • the hard disk drive 1090 may be replaced by an SSD.
  • each data used in the processing of the above-described embodiments is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)

Abstract

A collection device (10) searches the Internet space for web site information by using a search engine with a keyword indicating the characteristic of a cyberattack serving as a search key, accesses each retrieved web site to collect information on a cyberattack, and presents a newly detected cyberattack from the collected information on a cyberattack.

Description

収集装置、収集方法、および、収集プログラムCollection device, collection method and collection program
 本発明は、サイバー攻撃に関する情報を収集する、収集装置、収集方法、および、収集プログラムに関する。 The present invention relates to a collection device, collection method, and collection program for collecting information on cyberattacks.
 Webアプリケーションは、多くのサービスで利用されている一方で、不特定多数からのアクセスが可能である。そのため、Webアプリケーションが脆弱なシステムを有すれば、攻撃に晒されやすいという性質がある。 While web applications are used in many services, they can be accessed by an unspecified number of people. Therefore, if a web application has a vulnerable system, it has the property of being easily exposed to attacks.
 攻撃者は、Webアプリケーションに脆弱性があること発見した場合、インターネット空間に存在する脆弱性を有するWebアプリケーションを事前に探索し、攻撃する傾向にある。そのため、いち早くこの探索および攻撃活動を検知することで、攻撃をあらかじめ遮断するなど早期に対策を行うことが可能となる。 When attackers find vulnerabilities in web applications, they tend to search for vulnerable web applications in the Internet space in advance and attack them. Therefore, by detecting such search and attack activities as early as possible, it is possible to take early countermeasures, such as blocking attacks in advance.
 ここで、Web攻撃を収集する手法は大きく分けて二つある。例えば、ハニーポットを配置し攻撃に関する情報を収集する技術(例えば、非特許文献1参照)がある。また、例えば、通常運用しているWebサーバに対するアクセスログを観測し、アクセスするURLが共起することを利用し、脆弱性スキャンを検知する技術(例えば、非特許文献2参照)がある。 Here, there are two main methods of collecting web attacks. For example, there is a technique of deploying honeypots and collecting information on attacks (see, for example, Non-Patent Document 1). Further, for example, there is a technique for detecting vulnerability scans by observing access logs for a Web server in normal operation and utilizing co-occurrence of accessed URLs (see, for example, Non-Patent Document 2).
 しかし、従来の技術は、Web攻撃に関する情報を効率よく収集することが難しく、早期に攻撃者による未知攻撃を検知することが課題である。例えば、従来の技術は、攻撃の観測環境の規模に依存しており、観測環境の大きさが限られているため、攻撃の最新の動向を効率よく収集できない。また、従来のハニーポットやWebサーバにおける観測技術では、その観測環境に攻撃が到達した時に攻撃を認識することが可能であるが、攻撃の検知が攻撃開始からどうしても時間が経過してしまうため、早期に攻撃を検知することが困難である。 However, with conventional technology, it is difficult to efficiently collect information about web attacks, and the challenge is to detect unknown attacks by attackers at an early stage. For example, the conventional technology depends on the scale of the attack observation environment, and since the size of the observation environment is limited, the latest trend of attacks cannot be collected efficiently. In addition, with conventional honeypot and web server observation technology, it is possible to recognize an attack when it reaches the observation environment. It is difficult to detect attacks early.
 そこで、本発明は、前述した問題を解決し、Web攻撃に関する情報を効率よく収集し、早期に攻撃者による未知攻撃を検知することを課題とする。 Therefore, the object of the present invention is to solve the problems described above, efficiently collect information on web attacks, and detect unknown attacks by attackers at an early stage.
 前術した課題を解決するため、本発明の収集装置は、サイバー攻撃の特徴を示すキーワードを検索キーとして、検索エンジンを用いて、インターネット空間からWebサイトの情報を検索する攻撃情報検索部と、検索された各Webサイトにアクセスし、前記サイバー攻撃に関する情報を収集する攻撃情報収集部と、収集された前記サイバー攻撃に関する情報から新規の前記サイバー攻撃を提示する新規攻撃提示部と、を備えることを特徴とする。 In order to solve the above-mentioned problems, the collection device of the present invention includes an attack information search unit that searches for information on websites from the Internet space using a search engine using keywords that indicate the characteristics of cyber attacks as search keys; An attack information collection unit that accesses each searched website and collects information on the cyber attack, and a new attack presentation unit that presents the new cyber attack from the collected information on the cyber attack. characterized by
 本発明によれば、Web攻撃に関する情報を効率よく収集し、早期に攻撃者による未知攻撃を提示することができる。 According to the present invention, it is possible to efficiently collect information on web attacks and present unknown attacks by attackers at an early stage.
図1は、第1の実施形態の収集装置を含むシステムの構成例を示す図である。FIG. 1 is a diagram showing a configuration example of a system including a collection device according to the first embodiment. 図2は、第1の実施形態の収集装置の構成を示すブロック図である。FIG. 2 is a block diagram showing the configuration of the collection device of the first embodiment. 図3は、シードリストデータベースに記憶されるシードリストの一例を示す図である。FIG. 3 is a diagram showing an example of a seedlist stored in a seedlist database. 図4は、収集対象データベースに記憶される対象Webサイトの検索結果の一例を示す図である。FIG. 4 is a diagram showing an example of the target website search results stored in the collection target database. 図5は、シードリストキーワード毎に収集対象データベースに記憶される検索結果の一例を示す図である。FIG. 5 is a diagram showing an example of search results stored in the collection target database for each seedlist keyword. 図6は、攻撃情報データベースに記憶される攻撃情報の一例を示す図である。FIG. 6 is a diagram showing an example of attack information stored in an attack information database. 図7は、攻撃情報検索部の処理の流れの一例を示す図である。FIG. 7 is a diagram illustrating an example of the flow of processing by an attack information search unit; 図8は、攻撃情報収集部の処理の流れの一例を示す図である。FIG. 8 is a diagram illustrating an example of the flow of processing by an attack information collection unit; 図9は、異なるアクセスログ形式から攻撃情報を取得する攻撃情報収集部の処理の流れの一例を示す図である。FIG. 9 is a diagram illustrating an example of the flow of processing by an attack information collecting unit that acquires attack information from different access log formats. 図10は、新規攻撃提示部がシードリストを更新する処理の流れの一例を示す図である。FIG. 10 is a diagram illustrating an example of the flow of processing in which the new attack presentation unit updates the seed list. 図11は、収集装置10の処理手順の一例を示すフローチャートである。FIG. 11 is a flow chart showing an example of the processing procedure of the collection device 10. As shown in FIG. 図12は、収集装置10の処理の流れの一例を示す図である。FIG. 12 is a diagram showing an example of the processing flow of the collection device 10. As shown in FIG. 図13は、収集プログラムを実行するコンピュータの構成例を示す図である。FIG. 13 is a diagram showing a configuration example of a computer that executes the collection program.
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)である第1の実施形態を説明する。本発明は、実施形態に限定されない。 A first embodiment, which is a form (embodiment) for carrying out the present invention, will be described below with reference to the drawings. The invention is not limited to the embodiments.
[第1の実施形態]
 まず、図1を用いて第1の実施形態の収集装置10を含むシステムの構成例を説明する。収集システムは、例えば、ネットワーク1を介して接続される、サーバ上のWebサイト2aと、サーバ上の検索エンジン2bと、端末3と、収集装置10とを備える。
[First Embodiment]
First, a configuration example of a system including the collection device 10 of the first embodiment will be described with reference to FIG. The collection system includes, for example, a website 2a on a server, a search engine 2b on the server, a terminal 3, and a collection device 10, which are connected via a network 1. FIG.
 ネットワーク1は、複数のコンピュータや電子機器などを繋いで信号やデータ、情報をやりとりすることができるコンピュータネットワークのことである。また、ネットワーク1は、有線接続または無線接続のどちらでもよい。Webサイト2aは、サーバ上に保存されているWebページ群のことを示す。 A network 1 is a computer network that can connect multiple computers and electronic devices to exchange signals, data, and information. Also, the network 1 may be either a wired connection or a wireless connection. The website 2a indicates a group of web pages stored on the server.
 検索エンジン2bは、一般的なあるシステムに存在するデータやファイルを、利用者がキーワードや条件を入力して検索できるようにしたシステムのことを指す。検索エンジン2bの例として、Google社の提供する「Chrome」(登録商標)や、Microsoft社の提供する「Bing」(登録商標)などがあげられる。 The search engine 2b refers to a system that allows users to search for data and files that exist in a general system by entering keywords and conditions. Examples of the search engine 2b include "Chrome" (registered trademark) provided by Google and "Bing" (registered trademark) provided by Microsoft.
 端末3は、操作者またはサイバー攻撃情報の監視者が操作する電子機器端末である。例えば、端末3は、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット端末や、携帯電話機や、PDA(Personal Digital Assistant)等である。 The terminal 3 is an electronic device terminal operated by an operator or a cyberattack information monitor. For example, the terminal 3 is a desktop PC (Personal Computer), a notebook PC, a tablet terminal, a mobile phone, a PDA (Personal Digital Assistant), or the like.
 収集装置10は、サイバー攻撃の特徴を示すキーワードを検索キーとして、検索エンジン2bを用いて、インターネット空間からWebサイト2aの情報を検索し、検索された各Webサイト2aにアクセスし、サイバー攻撃に関する情報を収集し、収集されたサイバー攻撃に関する情報から新規のサイバー攻撃を提示する。 The collection device 10 searches for information on websites 2a from the Internet space using a search engine 2b using keywords that indicate the characteristics of cyberattacks as search keys, accesses each of the websites 2a that have been searched, and collects information related to cyberattacks. It collects information and presents novel cyberattacks from the collected information about cyberattacks.
 これにより収集装置10は、検索エンジン2b等を利用してインターネット空間からWeb攻撃に関する情報を効率よく収集し、早期に攻撃者による未知攻撃を提示することができる。 As a result, the collection device 10 can efficiently collect information about web attacks from the Internet space using the search engine 2b and the like, and can present unknown attacks by attackers at an early stage.
 次に、図2を用いて、収集装置10の構成例を説明する。同図に示すように、この収集装置10は、通信部11と、制御部12と、記憶部13とを有する。以下に収集装置10が有する各部の処理を説明する。 Next, a configuration example of the collection device 10 will be described using FIG. As shown in the figure, the collection device 10 has a communication section 11 , a control section 12 and a storage section 13 . Processing of each unit of the collection device 10 will be described below.
 通信部11は、サイバー攻撃を含む各種情報に関する通信を制御する。例えば、通信部11は、ネットワーク1を介して接続される収集装置10、Webサイト2a、検索エンジン2b、および端末3との間でやり取りする各種情報に関する通信を制御する。例えば、通信部11は、サイバー攻撃に関する各種情報を端末3へ送信する。 The communication unit 11 controls communication related to various information including cyber attacks. For example, the communication unit 11 controls communications related to various types of information exchanged with the collection device 10, the website 2a, the search engine 2b, and the terminal 3, which are connected via the network 1. FIG. For example, the communication unit 11 transmits various information about cyberattacks to the terminal 3 .
 記憶部13は、制御部12による各種処理に必要なデータおよびプログラムを格納する。また、記憶部13は、シードリストデータベース13a(図示では、シードリストDB)、収集対象データベース13b(図示では、収集対象DB)、および攻撃情報データベース13c(図示では、攻撃情報DB)を有する。例えば、記憶部13は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。 The storage unit 13 stores data and programs necessary for various processes by the control unit 12. The storage unit 13 also has a seed list database 13a (seed list DB in the illustration), a collection target database 13b (collection target DB in the illustration), and an attack information database 13c (attack information DB in the illustration). For example, the storage unit 13 is a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
 次に、記憶部13のシードリストデータベース13aについて説明する。シードリストデータベース13aは、サイバー攻撃の特徴を示すキーワードが予め記憶されたシードリストを記憶する。 Next, the seed list database 13a of the storage unit 13 will be explained. The seed list database 13a stores a seed list in which keywords indicating characteristics of cyberattacks are stored in advance.
 シードリストとは、サイバー攻撃の特徴を示す情報であり、シードリストキーワードをリスト上に記憶したもの示すものである。ここで、シードリストキーワードとは、例えば、攻撃者が事前に脆弱性を有するWebアプリケーションを調べる際に用いる検索キーのキーワードを指す。例えば、シードリストキーワードは、OS情報の検索に用いられる「/.env」、ルータ情報の検索に用いられる「/HNAP1」があげられる。 A seed list is information that indicates the characteristics of a cyberattack, and indicates the seed list keywords stored on the list. Here, the seedlist keyword refers to, for example, a keyword of a search key used by an attacker to investigate web applications having vulnerabilities in advance. For example, seed list keywords include "/.env" used for searching OS information and "/HNAP1" used for searching router information.
 図3は、シードリストデータベース13aに記憶されるシードリストの一例を示す図である。例えば、図3に示すように、シードリストデータベース13aは、Webサイト2aの管理システムのURLの一部として用いられる「/phpMyAdmin」を、シードリストキーワードとしてシードリストデータベース13aに記憶する。 FIG. 3 is a diagram showing an example of a seedlist stored in the seedlist database 13a. For example, as shown in FIG. 3, the seedlist database 13a stores "/phpMyAdmin" used as part of the URL of the management system of the website 2a as a seedlist keyword in the seedlist database 13a.
 例えば、シードリストデータベース13aは、予め設定されたシードリストを記憶する。また、シードリストデータベース13aは、後述する新規攻撃提示部12cが提示する新規のシードリストキーワードを、予め設定されたシードリストに上書きして記憶してもよい。 For example, the seed list database 13a stores preset seed lists. Further, the seed list database 13a may overwrite a preset seed list with a new seed list keyword presented by the new attack presentation unit 12c, which will be described later, and store the new seed list keyword.
 次に、記憶部13の収集対象データベース13bについて説明する。収集対象データベース13bは、後述する攻撃情報検索部12aによって定期的に取得されるWebサイト情報を記憶する。 Next, the collection target database 13b of the storage unit 13 will be described. The collection target database 13b stores website information periodically acquired by the attack information search unit 12a, which will be described later.
 収集対象データベース13bは、シードリストキーワード、検索内容、および対象Webサイトを紐づけて記憶する。例えば、収集対象データベース13bは、シードリストデータベース13aから取得するシードリストキーワードの情報を、「シードリストキーワード」の項目(以下、シードリストキーワード項目)に記憶する。また、収集対象データベース13bは、後述する攻撃情報検索部12aが検索エンジン2bに入力した検索キーワード情報を、「検索内容」の項目(以下、検索内容項目)に記憶する。また、収集対象データベース13bは、攻撃対象となり得るWebサイト2aのURL情報を「対象Webサイト」の項目(以下、対象Webサイト項目)に記憶する。 The collection target database 13b associates and stores seed list keywords, search content, and target websites. For example, the collection target database 13b stores the seedlist keyword information acquired from the seedlist database 13a in the item "seedlist keyword" (hereinafter referred to as the seedlist keyword item). In addition, the collection target database 13b stores search keyword information input to the search engine 2b by the attack information search unit 12a, which will be described later, in the "search content" item (hereinafter referred to as search content item). In addition, the collection target database 13b stores the URL information of the website 2a that can be the attack target in the item of "target website" (hereinafter referred to as the target website item).
 図4は、収集対象データベース13bに記憶される対象Webサイトの検索結果の一例を示す図である。例えば、図4に示すように、収集対象データベース13bは、「/phpMyAdmin」をシードリストキーワード項目に記憶する。また、収集対象データベース13bは、検索キーワードである「GET/phpMyAdmin HTTP/1.1」を、検索内容項目に記憶する。また、収集対象データベース13bは、攻撃対象となり得るWebサイト2aのURL情報である「aaa.com/access_log/2021-01-01」を、対象Webサイト項目に記憶する。 FIG. 4 is a diagram showing an example of the target website search results stored in the collection target database 13b. For example, as shown in FIG. 4, the collection target database 13b stores "/phpMyAdmin" in the seed list keyword item. In addition, the collection target database 13b stores the search keyword "GET/phpMyAdmin HTTP/1.1" in the search content item. In addition, the collection target database 13b stores, in the target website item, "aaa.com/access_log/2021-01-01", which is the URL information of the website 2a that can be attacked.
 図5は、シードリストキーワード毎に収集対象データベース13bに記憶される検索結果の一例を示す図である。例えば、図5に示すように、収集対象データベース13bは、シードリストキーワード毎に検索結果を記憶してもよい。 FIG. 5 is a diagram showing an example of search results stored in the collection target database 13b for each seed list keyword. For example, as shown in FIG. 5, the collection target database 13b may store search results for each seed list keyword.
 例えば、図5に示すように、収集対象データベース13bは、「/HNAP1」をシードリストキーワード項目に記憶し、検索キーワードである「GET/HNAP1 HTTP/1.1」を検索内容項目に記憶し、シードリストキーワード「/HNAP1」の検索結果として、攻撃対象となり得るWebサイト2aのURL情報である「bbb.com/access_log/2021-01-01」を対象Webサイト項目に記憶する。 For example, as shown in FIG. 5, the collection target database 13b stores "/HNAP1" in the seed list keyword item, stores the search keyword "GET/HNAP1 HTTP/1.1" in the search content item, and As a search result for the keyword "/HNAP1", "bbb.com/access_log/2021-01-01", which is the URL information of the website 2a that can be attacked, is stored in the target website item.
 例えば、図5に示すように、収集対象データベース13bは、「/.env」をシードリストキーワード項目に記憶し、検索キーワードである「GET/.env HTTP/1.1」を検索内容項目に記憶し、シードリストキーワード「/.env」の検索結果として、攻撃対象となり得るWebサイト2aのURL情報である「ccc.com/access_log/2021-01-01」を対象Webサイト項目に記憶する。 For example, as shown in FIG. 5, the collection target database 13b stores "/.env" in the seed list keyword item, stores the search keyword "GET/.env HTTP/1.1" in the search content item, As a search result of the seed list keyword "/.env", "ccc.com/access_log/2021-01-01", which is the URL information of the website 2a that can be attacked, is stored in the target website item.
 次に、記憶部13の攻撃情報データベース13cについて説明する。攻撃情報データベース13cは、後述する攻撃情報収集部12bによって取得されるWebサイト情報へのサイバー攻撃情報を記憶する。 Next, the attack information database 13c of the storage unit 13 will be explained. The attack information database 13c stores cyber attack information on website information acquired by the attack information collecting unit 12b, which will be described later.
 図6は、攻撃情報データベース13cに記憶される攻撃情報の一例を示す図である。例えば、攻撃情報データベース13cは、メソッド情報である「GET」を攻撃情報のメソッドの項目に記憶する。また、攻撃情報データベース13cは、検索キーワードである「/phpMyAdmin」を、攻撃情報の検索キーワード項目に記憶する。 FIG. 6 is a diagram showing an example of attack information stored in the attack information database 13c. For example, the attack information database 13c stores the method information "GET" in the method item of the attack information. Also, the attack information database 13c stores the search keyword "/phpMyAdmin" in the search keyword item of the attack information.
 また、攻撃情報データベース13cは、サイバー攻撃を受けたWebサイト2aのURL情報である「aaa.com/access_log/2021-01-01」を、URLの項目に記憶する。また、攻撃情報データベース13cは、サイバー攻撃情報を受けた時刻を示す攻撃時刻である「2021-01-01」を、攻撃時刻の項目に記憶する。 In addition, the attack information database 13c stores "aaa.com/access_log/2021-01-01", which is the URL information of the website 2a that suffered a cyber attack, in the URL item. In addition, the attack information database 13c stores "2021-01-01", which is the attack time indicating the time when the cyber attack information was received, in the attack time item.
 攻撃情報データベース13cは、HTTPリクエストで用いられたメソッド情報、攻撃対象のWebサイト2aのURL情報、サイバー攻撃情報を受けた時刻を示す攻撃時刻、を紐づけて記憶する。 The attack information database 13c stores the method information used in the HTTP request, the URL information of the attack target website 2a, and the attack time indicating the time when the cyber attack information was received.
 続いて、制御部12について説明する。制御部12は、収集装置10全体の制御を司る。制御部12は、攻撃情報検索部12aと、攻撃情報収集部12bと、新規攻撃提示部12cと、を備える。制御部12は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。 Next, the control unit 12 will be explained. The control unit 12 controls the collection device 10 as a whole. The control unit 12 includes an attack information search unit 12a, an attack information collection unit 12b, and a new attack presentation unit 12c. The control unit 12 has an internal memory for storing programs defining various processing procedures and required data, and executes various processing using these.
 例えば、制御部12は、攻撃情報検索部12aと、攻撃情報収集部12bと、新規攻撃提示部12cとを有する。ここで、制御部12は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。 For example, the control unit 12 has an attack information search unit 12a, an attack information collection unit 12b, and a new attack presentation unit 12c. Here, the control unit 12 is an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
 まず、制御部12の攻撃情報検索部12aについて説明する。攻撃情報検索部12aは、サイバー攻撃の特徴を示すキーワードを検索キーとして、検索エンジン2bを用いて、インターネット空間からWebサイト2aの情報を検索する。 First, the attack information search unit 12a of the control unit 12 will be described. The attack information search unit 12a searches for information on the website 2a from the Internet space using the search engine 2b using keywords that indicate the characteristics of cyberattacks as search keys.
 例えば、攻撃情報検索部12aは、サイバー攻撃の特徴を示すキーワードが予め記憶されたシードリストに基づいて、シードリストのキーワード毎に検索キーワードを作成し、作成した検索キーワード毎に、検索エンジン2bを用いてWebサイト2aの情報を検索する。また、攻撃情報検索部12aは、収集したWebサイト2aのURL情報および検索キーワードを、収集対象データベース13bに格納する。 For example, the attack information search unit 12a creates a search keyword for each keyword of the seed list based on a seed list in which keywords indicating characteristics of cyber attacks are stored in advance, and activates the search engine 2b for each created search keyword. to search for information on the website 2a. The attack information search unit 12a also stores the collected URL information and search keywords of the website 2a in the collection target database 13b.
 図7は、攻撃情報検索部12aの処理の流れの一例を示す図である。例えば、攻撃情報検索部12aは、シードリストデータベース13aから一つのシードリストキーワードを取得する。 FIG. 7 is a diagram showing an example of the processing flow of the attack information search unit 12a. For example, the attack information search unit 12a acquires one seedlist keyword from the seedlist database 13a.
 そして、攻撃情報検索部12aは、予め記憶されたキーワードを組み合わせて、一つのシードリストキーワードに対して複数の検索キーワードを作成する。例えば、攻撃情報検索部12aは、取得したシードリストキーワードの前後に、メソッド情報等である「GET」、「HTTP /1.1」を追加し、検索キーワードを作成する。 Then, the attack information search unit 12a combines pre-stored keywords to create a plurality of search keywords for one seed list keyword. For example, the attack information search unit 12a creates a search keyword by adding "GET" and "HTTP/1.1", which are method information, before and after the acquired seed list keyword.
 検索キーワードとは、攻撃情報検索部12aが検索エンジン2bに入力、および検索をかける際に用いるキーワードのことを指す。検索キーワードを作成する際に用いられる、予め設定された組み合わせのキーワードの例として、「GET」、「POST」、「HTTP /1.0」、「HTTP /2」、などがあげられる。このとき、シードリストキーワードと検索キーワードの総数比は、1:Nの関係である。 A search keyword is a keyword used by the attack information search unit 12a when inputting to the search engine 2b and performing a search. Examples of preset combinations of keywords used when creating search keywords include "GET", "POST", "HTTP/1.0", and "HTTP/2". At this time, the ratio of the total number of seed list keywords and search keywords is 1:N.
 そして、攻撃情報検索部12aは、作成した検索キーワード毎に検索エンジン2bで該当するWebサイト2aを定期的に検索する。攻撃情報検索部12aは、検索キーワード毎にWebサイト2aのURL情報を記憶する。このとき、検索キーワードと検索されたWebサイト2aの総数比は、1:Nの関係である。また、シードリストキーワードと検索キーワードと検索されたWebサイト2aの総数比は、1:N:N^2の関係である。 Then, the attack information search unit 12a periodically searches the corresponding website 2a with the search engine 2b for each created search keyword. The attack information search unit 12a stores URL information of the website 2a for each search keyword. At this time, the ratio of the search keyword to the total number of Web sites 2a searched is 1:N. Moreover, the total ratio of the seed list keyword, the search keyword, and the searched Web sites 2a has a relationship of 1:N:N^2.
 続いて、攻撃情報検索部12aは、シードリストキーワードの項目として、シードリストデータベース13aから取得したシードリストキーワードの情報を格納し、検索内容の項目として、作成した検索キーワード情報を格納し、対象Webサイトの項目として、Webサイト2aのURL情報を収集対象データベース13bに格納する。つまり、攻撃情報検索部12aは、シードリストキーワードと検索内容と対象Webサイトを紐づけて格納する。 Subsequently, the attack information search unit 12a stores the seedlist keyword information acquired from the seedlist database 13a as the seedlist keyword item, stores the created search keyword information as the search content item, As a site item, the URL information of the website 2a is stored in the collection target database 13b. That is, the attack information search unit 12a associates and stores the seed list keyword, the search content, and the target website.
 例えば、図7に示すように、攻撃情報検索部12aは、シードリストデータベース13aから取得する複数のシードリストキーワードとして「/phpMyAdmin」、「/.env」、「/HNAP1」、を取得する。次に、攻撃情報検索部12aは、シードリストキーワード“/phpMyAdmin”の検索キーワードとして「GET /phpMyAdmin HTTP /1.1」を作成する。攻撃情報検索部12aは、検索キーワード「GET /phpMyAdmin HTTP /1.1」を用いて、インターネット空間に存在する公開されたアクセスログからWeb攻撃の対象となり得るWebサイト2aを検索する。 For example, as shown in FIG. 7, the attack information search unit 12a acquires "/phpMyAdmin", "/.env", and "/HNAP1" as a plurality of seedlist keywords from the seedlist database 13a. Next, the attack information search unit 12a creates "GET /phpMyAdmin HTTP /1.1" as a search keyword for the seed list keyword "/phpMyAdmin". The attack information search unit 12a uses the search keyword "GET/phpMyAdminHTTP/1.1" to search for the website 2a that can be targeted for a web attack from the public access logs existing in the Internet space.
 そして、攻撃情報検索部12aは、検索キーワード「GET /phpMyAdmin HTTP /1.1」の検索結果からヒットしたWebサイト2aを、対象Webサイトとして収集対象データベース13bに格納する。例えば、攻撃情報検索部12aは、Webサイト2aのURL情報である「aaa.com/access_log/2021-01-01」、「bbb.com/blog/bbb.html」、「ccc.com/stats/index.html」、「ddd.com/」を対象Webサイトの項目に格納し、検索キーワード「GET /phpMyAdmin HTTP /1.1」と紐づけて格納する。 Then, the attack information search unit 12a stores the website 2a hit from the search result of the search keyword "GET/phpMyAdminHTTP/1.1" as the target website in the collection target database 13b. For example, the attack information search unit 12a retrieves URL information of the website 2a such as "aaa.com/access_log/2021-01-01", "bbb.com/blog/bbb.html", "ccc.com/stats/ html” and “ddd.com/” are stored in the target website item, and stored in association with the search keyword “GET /phpMyAdmin HTTP /1.1”.
 また、例えば、攻撃情報検索部12aが、シードリストキーワード“/phpMyAdmin”を用いて、検索キーワード「POST /phpMyAdmin HTTP/1.0」を作成した場合、攻撃情報検索部12aは、検索キーワード「POST /phpMyAdmin HTTP/1.0」を用いて、インターネット空間に存在する公開されたアクセスログからWeb攻撃の対象となり得るWebサイト2aを検索する。 Also, for example, when the attack information search unit 12a creates the search keyword "POST /phpMyAdmin HTTP/1.0" using the seed list keyword "/phpMyAdmin", the attack information search unit 12a uses the search keyword "POST /phpMyAdmin HTTP/1.0" is used to search for a Web site 2a that can be targeted for a Web attack from public access logs existing in the Internet space.
 そして、攻撃情報検索部12aは、検索キーワード「POST /phpMyAdmin HTTP/1.0」の検索結果からヒットしたWebサイト2aを、対象Webサイトとして収集対象データベース13bに格納する。例えば、収集対象データベース13bは、対象Webサイトの項目として、Webサイト2aのURL情報である「eee.com/access_log/2021-01-01」、「ggg.com/blog/bbb.html」を、検索キーワード「POST /phpMyAdmin HTTP/1.0」と紐づけて格納する。 Then, the attack information search unit 12a stores the website 2a hit from the search result of the search keyword "POST/phpMyAdminHTTP/1.0" in the collection target database 13b as the target website. For example, the collection target database 13b stores "eee.com/access_log/2021-01-01" and "ggg.com/blog/bbb.html", which are the URL information of the website 2a, as items of the target website. Store in association with the search keyword "POST /phpMyAdmin HTTP/1.0".
 また、例えば、攻撃情報検索部12aが、シードリストキーワード“/phpMyAdmin”を用いて、検索キーワード「GET /phpMyAdmin HTTP/2」を作成した場合、攻撃情報検索部12aは、検索キーワード「GET /phpMyAdmin HTTP/2」を用いて、インターネット空間に存在する公開されたアクセスログからWeb攻撃の対象となり得るWebサイト2aを検索する。 Also, for example, when the attack information search unit 12a creates the search keyword "GET /phpMyAdmin HTTP/2" using the seed list keyword "/phpMyAdmin", the attack information search unit 12a uses the search keyword "GET /phpMyAdmin HTTP/2” is used to search for a Web site 2a that can be targeted for a Web attack from public access logs existing in the Internet space.
 攻撃情報検索部12aは、検索キーワード「GET /phpMyAdmin HTTP/2」の検索結果からヒットしたWebサイト2aを、対象Webサイトとして収集対象データベース13bに格納する。例えば、収集対象データベース13bは、対象Webサイトの項目として、Webサイト2aのURL情報である「hhh.com/stats/index.html」、「kkk.com/」を、検索キーワード「GET /phpMyAdmin HTTP/2」と紐づけて格納する。 The attack information search unit 12a stores the website 2a hit from the search result of the search keyword "GET/phpMyAdminHTTP/2" as the target website in the collection target database 13b. For example, the collection target database 13b uses the URL information "hhh.com/stats/index.html" and "kkk.com/" of the website 2a as items of the target website, and the search keyword "GET /phpMyAdmin HTTP /2" and store it.
 次に、制御部12の攻撃情報収集部12bについて説明する。攻撃情報収集部12bは、収集された各Webサイト2aにアクセスし、サイバー攻撃に関する情報を収集する。 Next, the attack information collection unit 12b of the control unit 12 will be explained. The attack information collection unit 12b accesses each collected website 2a and collects information on cyber attacks.
 例えば、攻撃情報収集部12bは、Webサイト2aにアクセスし、Webサイト2aのアクセスログからサイバー攻撃に関する情報を収集し、アクセスログに記されたステータスコードにより攻撃の有無を判定し、判定結果に応じて、攻撃情報より攻撃した日時を示す攻撃時刻および検索キーワードの情報を収集する。 For example, the attack information collection unit 12b accesses the website 2a, collects information about cyberattacks from the access log of the website 2a, determines whether or not there is an attack based on the status code written in the access log, In response, information on the attack time and search keyword indicating the date and time of the attack is collected from the attack information.
 また、例えば、攻撃情報収集部12bは、攻撃情報より攻撃時刻および検索キーワードの情報を定期的に収集し、攻撃時刻が最新の日時に更新されるまで最新のアクセスログ情報を収集し、収集した各攻撃情報を予め定めた形式に整形し、攻撃情報を収集する攻撃情報データベース13cに格納する。 Further, for example, the attack information collecting unit 12b periodically collects attack time and search keyword information from the attack information, and collects the latest access log information until the attack time is updated to the latest date and time. Each piece of attack information is shaped into a predetermined format and stored in the attack information database 13c that collects attack information.
 図8は、攻撃情報収集部12bの処理の流れの一例を示す図である。図8に示すように、攻撃情報収集部12bは、対象Webサイト「aaa.com/access_log/2021-01-01」にアクセスし、アクセスログから攻撃情報を取得する。掲載されるアクセスログ情報には、攻撃を意図しない正常のアクセスも含まれる。そのため、攻撃情報収集部12bは、例えば、アクセスログに記されたステータスコードが400番台の場合を攻撃として判定する。 FIG. 8 is a diagram showing an example of the processing flow of the attack information collection unit 12b. As shown in FIG. 8, the attack information collection unit 12b accesses the target website "aaa.com/access_log/2021-01-01" and acquires attack information from the access log. The access log information posted includes normal access that is not intended as an attack. For this reason, the attack information collecting unit 12b determines an attack when the status code written in the access log is in the 400s, for example.
 攻撃の有無の判定方法は、予め設定されているものとし、後から条件を変更することも可能である。攻撃情報収集部12bは、攻撃と判定したアクセスログ情報を収集し、攻撃情報データベース13cに格納する。 The method of determining whether or not there is an attack is set in advance, and it is possible to change the conditions later. The attack information collection unit 12b collects access log information determined as an attack and stores it in the attack information database 13c.
 例えば、Webサイト2aのURLに「2021-01-01」や「2021/01/01」のような日付が存在する場合、攻撃情報収集部12bは、日付部分の情報を整形し、さらに、最新の日付になるまでアクセスログ情報を収集する。 For example, when the URL of the website 2a includes a date such as "2021-01-01" or "2021/01/01", the attack information collection unit 12b formats the information in the date part, Collect access log information until the date of
 例えば、攻撃情報収集部12bは、メソッド情報である「GET」を攻撃情報データベース13cの攻撃情報のメソッドの項目に格納する。また、攻撃情報収集部12bは、検索キーワードである「/phpMyAdmin」を、攻撃情報データベース13cの攻撃情報の検索キーワード項目に格納する。 For example, the attack information collection unit 12b stores "GET", which is the method information, in the method item of the attack information in the attack information database 13c. Also, the attack information collection unit 12b stores the search keyword "/phpMyAdmin" in the attack information search keyword item of the attack information database 13c.
 また、攻撃情報収集部12bは、サイバー攻撃を受けたWebサイト2aのURL情報である「aaa.com/access_log/2021-01-01」を、攻撃情報データベース13cのURLの項目に格納する。また、攻撃情報収集部12bは、サイバー攻撃を受けた時刻を示す攻撃時刻である「2021-01-01」を、攻撃情報データベース13cの攻撃時刻の項目に格納する。 In addition, the attack information collection unit 12b stores "aaa.com/access_log/2021-01-01", which is the URL information of the website 2a that was subjected to the cyber attack, in the URL item of the attack information database 13c. In addition, the attack information collection unit 12b stores "2021-01-01", which is the attack time indicating the time of the cyber attack, in the attack time item of the attack information database 13c.
 また、Webページの掲載内容には、ログの形式で記されている場合や、整形されたテーブルやリストのような形式で掲載されている場合もある。図9は、異なるアクセスログ形式から攻撃情報を取得する攻撃情報収集部12bの処理の流れの一例を示す図である。 In addition, the content posted on the web page may be written in the form of a log, or may be posted in a format such as a formatted table or list. FIG. 9 is a diagram showing an example of the processing flow of the attack information collection unit 12b that acquires attack information from different access log formats.
 図9に示すように、攻撃情報収集部12bは、テーブルやリスト形式の値から、攻撃情報に相当する部分を切り出して取得する。例えば、攻撃情報収集部12bは、メソッド情報である「GET」を攻撃情報データベース13cの攻撃情報のメソッドの項目に格納する。また、攻撃情報収集部12bは、検索キーワードである「/CFIDE/administrator/」を、攻撃情報データベース13cの攻撃情報の検索キーワード項目に格納する。 As shown in FIG. 9, the attack information collection unit 12b extracts and acquires the portion corresponding to the attack information from the values in the table or list format. For example, the attack information collection unit 12b stores "GET", which is method information, in the method item of the attack information in the attack information database 13c. Also, the attack information collection unit 12b stores the search keyword "/CFIDE/administrator/" in the attack information search keyword item of the attack information database 13c.
 また、攻撃情報収集部12bは、サイバー攻撃を受けたWebサイト2aのURL情報である「bbb.com/blog/bbb.html」を、攻撃情報データベース13cのURLの項目に格納する。また、攻撃情報収集部12bは、サイバー攻撃を受けた時刻を示す攻撃時刻である「2021-01-01」を、攻撃情報データベース13cの攻撃時刻の項目に格納する。 In addition, the attack information collection unit 12b stores "bbb.com/blog/bbb.html", which is the URL information of the website 2a that has suffered a cyber attack, in the URL item of the attack information database 13c. In addition, the attack information collection unit 12b stores "2021-01-01", which is the attack time indicating the time of the cyber attack, in the attack time item of the attack information database 13c.
 このように、攻撃情報収集部12bは、異なるアクセスログ形式から攻撃情報に相当する部分を切り出して取得することができる。 In this way, the attack information collection unit 12b can extract and acquire portions corresponding to attack information from different access log formats.
 次に、制御部12の新規攻撃提示部12cについて説明する。新規攻撃提示部12cは、収集されたサイバー攻撃に関する情報から新規のサイバー攻撃を提示する。 Next, the new attack presentation unit 12c of the control unit 12 will be explained. The new attack presentation unit 12c presents a new cyber attack from the collected information on cyber attacks.
 例えば、新規攻撃提示部12cは、収集された攻撃情報から新規に発見されたサイバー攻撃をユーザに提示し、新規の検索キーワードに関する情報を検出すると、未知の攻撃と判定し、シードリストに新規の検索キーワードの情報を更新する。 For example, the novel attack presentation unit 12c presents to the user a newly discovered cyber attack from the collected attack information, and when detecting information related to a new search keyword, determines that it is an unknown attack, and adds a new attack to the seed list. Update search keyword information.
 図10は、新規攻撃提示部12cがシードリストを更新する処理の流れの一例を示す図である。例えば、図10に示すように、新規攻撃提示部12cは、収集した攻撃情報から既存の攻撃情報と照合し、新規に発見された攻撃である「/CFIDE/administrator/」を検出する。新規攻撃提示部12cは、新規に発見された攻撃を検出すると、攻撃情報データベース13cの該当する項目を「未知攻撃」として情報を更新する。 FIG. 10 is a diagram showing an example of the flow of processing for updating the seed list by the new attack presentation unit 12c. For example, as shown in FIG. 10, the new attack presenting unit 12c compares collected attack information with existing attack information to detect a newly discovered attack "/CFIDE/administrator/". When detecting a newly discovered attack, the new attack presenting unit 12c updates the information as "unknown attack" in the corresponding item of the attack information database 13c.
 例えば、図10に示すように、新規攻撃提示部12cは、新規に発見された攻撃である「/CFIDE/administrator/」の行の「未知攻撃」の項目に「YES」の値を追記する。 For example, as shown in FIG. 10, the new attack presenting unit 12c adds a value of "YES" to the item "unknown attack" in the line "/CFIDE/administrator/", which is a newly discovered attack.
 そして、新規攻撃提示部12cは、新規に発見された攻撃である「/CFIDE/administrator/」を未知の攻撃として、操作者または監視者の端末3に攻撃情報を提示する。また、新規攻撃提示部12cは、新規に発見された攻撃である「/CFIDE/administrator/」をシードリストキーワードと認定し、シードリストデータベース13aに更新する。 Then, the new attack presentation unit 12c presents attack information to the terminal 3 of the operator or the monitor, regarding the newly discovered attack "/CFIDE/administrator/" as an unknown attack. Further, the new attack presenting unit 12c recognizes the newly discovered attack "/CFIDE/administrator/" as a seed list keyword, and updates the seed list database 13a.
 このように、収集装置10は、サイバー攻撃の特徴を示すキーワードを検索キーとして、検索エンジン2bを用いて、インターネット空間からWebサイト2aの情報を検索し、検索された各Webサイト2aにアクセスし、サイバー攻撃に関する情報を収集し、収集されたサイバー攻撃に関する情報から新規のサイバー攻撃を提示する。 In this way, the collection device 10 uses the search engine 2b to search for information on the website 2a from the Internet space using keywords that indicate the characteristics of cyberattacks as search keys, and accesses each searched website 2a. , collects information about cyberattacks and presents new cyberattacks from the collected information about cyberattacks.
 また、収集装置10は、予め設定されるシードリストキーワードを用いて、多様に検索キーワードを作成することで、サイバー攻撃の対象となり得るWebサイト2aを効果的に収集することができる。さらに、収集装置10は、シードリストを更新することで、常に最新のアクセスログ情報を収集し、汎用的な攻撃情報およびシードリストを取得することができる。加えて、収集装置10は、ハニーポットやWebサーバなどの観測環境に依存せずに、インターネット空間上の検索エンジン2bを用いて、攻撃情報を収集することができる。 In addition, the collection device 10 can effectively collect websites 2a that can be targets of cyberattacks by creating various search keywords using preset seedlist keywords. Furthermore, by updating the seedlist, the collection device 10 can always collect the latest access log information and acquire general-purpose attack information and the seedlist. In addition, the collection device 10 can collect attack information using the search engine 2b on the Internet space without depending on observation environments such as honeypots and web servers.
 つまり、収集装置10は、サイバー攻撃の対象となり得るWebサイト2aを事前に把握し、監視対象のWebサイト2aを限定することで、早期に、攻撃者による未知攻撃を検出し、監視者の最新の攻撃動向の把握に貢献することができるという効果を奏する。 In other words, the collection device 10 detects in advance the websites 2a that can be targets of cyberattacks and limits the websites 2a to be monitored, thereby detecting unknown attacks by attackers at an early stage. It is effective in that it can contribute to grasping the attack trend of
[収集装置の処理の一例]
 次に、図11を用いて、収集装置10の処理について説明する。図11は、収集装置10の処理手順の一例を示すフローチャートである。
[Example of collection device processing]
Next, the processing of the collection device 10 will be described with reference to FIG. 11 . FIG. 11 is a flow chart showing an example of the processing procedure of the collection device 10. As shown in FIG.
 図11に示すように、収集装置10の攻撃情報検索部12aは、シードリストに基づき、検索エンジン2bで攻撃情報を掲載するWebサイト2aの情報を取得する(S1)。 As shown in FIG. 11, the attack information search unit 12a of the collection device 10 acquires information on the website 2a that publishes attack information using the search engine 2b based on the seed list (S1).
 例えば、攻撃情報検索部12aは、シードリストデータベース13aから一つのシードリストキーワードを取得する。そして、収集装置10は、予め記憶されたキーワードを組み合わせて、一つのシードリストキーワードに対して複数の検索キーワードを作成する。そして、攻撃情報検索部12aは、作成した検索キーワード毎に検索エンジン2bで該当するWebサイト2aを検索する。 For example, the attack information search unit 12a acquires one seedlist keyword from the seedlist database 13a. Then, the collection device 10 combines pre-stored keywords to create a plurality of search keywords for one seed list keyword. Then, the attack information search unit 12a searches the Web site 2a corresponding to each created search keyword using the search engine 2b.
 そして、攻撃情報収集部12bは、S1で収集されたWebサイト2aのURL情報に基づき、Webサイト2aの攻撃情報を取得する(S2)。 Then, the attack information collection unit 12b acquires attack information of the website 2a based on the URL information of the website 2a collected in S1 (S2).
 例えば、攻撃情報収集部12bは、インターネット空間に公開されたアクセスログからサイバー攻撃に関する情報を収集し、アクセスログに記されたステータスコードにより攻撃の有無を判定し、判定結果に応じて、攻撃情報より攻撃した日時を示す攻撃時刻および検索キーワードの情報を収集する。 For example, the attack information collection unit 12b collects information about cyberattacks from access logs published in the Internet space, determines the presence or absence of an attack based on the status code written in the access log, and, depending on the determination result, collects attack information. Collect attack time and search keyword information that indicates the date and time of the attack.
 続いて、新規攻撃提示部12cは、S2で取得した攻撃情報を端末3に出力し、新規の検索キーワードをシードリストデータベース13aに更新する(S3)。収集装置10は、S1からS3の一連の処理の流れを繰り返し、最新の攻撃情報を取得する。つまり、収集装置10は、シードリストデータベース13aが更新された後、新規の検索キーワードを用いて、新にWebサイト2aを検索し、最新の攻撃情報を取得する処理を繰り返す。 Subsequently, the new attack presentation unit 12c outputs the attack information acquired in S2 to the terminal 3, and updates the seed list database 13a with new search keywords (S3). The collection device 10 repeats a series of processes from S1 to S3 to acquire the latest attack information. In other words, after the seed list database 13a is updated, the collecting device 10 repeats the process of searching for the new website 2a using the new search keyword and acquiring the latest attack information.
 図12は、収集装置10の処理の流れの一例を示す図である。例えば、図12に示すように、収集装置10は、シードリストデータベース13aを用いて、脆弱性を有するWebアプリケーションのキーワードを検索キーとして、検索エンジン2bからWebサイト2aを検索する。 FIG. 12 is a diagram showing an example of the processing flow of the collection device 10. FIG. For example, as shown in FIG. 12, the collection device 10 uses the seed list database 13a to search the website 2a from the search engine 2b using the keyword of the vulnerable web application as the search key.
 そして、収集装置10は、サイバー攻撃の対象となり得るWebサイト2aのアクセスログを取得して、攻撃情報を収集装置10の保有するデータベースに蓄積する。続いて、収集装置10は、蓄積した攻撃情報を用いて定期的に対象のWebサイト2aを監視し、新しい攻撃情報を検知した場合は、監視者の端末3へ提示する。 Then, the collection device 10 acquires the access log of the website 2a that may be the target of a cyber attack, and accumulates the attack information in the database owned by the collection device 10. Subsequently, the collection device 10 periodically monitors the target website 2a using the accumulated attack information, and presents it to the monitor's terminal 3 when new attack information is detected.
[実施の形態1の効果]
 収集装置10は、サイバー攻撃の特徴を示すキーワードを検索キーとして、検索エンジン2bを用いて、インターネット空間からWebサイト2aの情報を検索し、検索された各Webサイト2aにアクセスし、サイバー攻撃に関する情報を収集し、収集されたサイバー攻撃に関する情報から新規のサイバー攻撃を提示する。
[Effect of Embodiment 1]
The collection device 10 searches for information on websites 2a from the Internet space using a search engine 2b using keywords that indicate the characteristics of cyberattacks as search keys, accesses each of the websites 2a that have been searched, and collects information related to cyberattacks. It collects information and presents novel cyberattacks from the collected information about cyberattacks.
 これにより収集装置10は、検索エンジン2b等を利用してインターネット空間からWeb攻撃に関する情報を効率よく収集し、早期に攻撃者による未知攻撃を提示することができる。 As a result, the collection device 10 can efficiently collect information about web attacks from the Internet space using the search engine 2b and the like, and can present unknown attacks by attackers at an early stage.
 また、収集装置10は、サイバー攻撃の特徴を示すキーワードが予め記憶されたシードリストに基づいて、シードリストのキーワード毎に検索キーワードを作成し、作成した検索キーワード毎に、検索エンジン2bを用いてWebサイト2aの情報を検索することができる。 In addition, the collection device 10 creates a search keyword for each keyword of the seed list based on a seed list in which keywords indicating characteristics of cyberattacks are stored in advance, and uses the search engine 2b for each created search keyword. Information on the website 2a can be searched.
 これにより収集装置10は、予め設定されるシードリストキーワードを用いて、多様に検索キーワードを作成し、サイバー攻撃の対象となり得るWebサイト2aを効果的に収集することができる。 As a result, the collection device 10 can create various search keywords using preset seed list keywords, and effectively collect websites 2a that can be targets of cyberattacks.
 また、収集装置10は、Webサイト2aにアクセスし、Webサイト2aのアクセスログからサイバー攻撃に関する情報を収集し、アクセスログに記されたステータスコードにより攻撃の有無を判定し、判定結果に応じて、攻撃情報より攻撃した日時を示す攻撃時刻および検索キーワードに関する情報を収集することができる。 In addition, the collection device 10 accesses the website 2a, collects information on cyberattacks from the access log of the website 2a, determines the presence or absence of an attack based on the status code written in the access log, , attack time indicating the date and time of attack and information on search keywords can be collected from the attack information.
 これにより収集装置10は、異なるアクセスログ形式から、アクセスログに記されたステータスコードを用いて、攻撃時刻を含む詳細な攻撃情報を収集することができる。 As a result, the collection device 10 can collect detailed attack information including the attack time from different access log formats using the status code written in the access log.
 また、収集装置10は、攻撃情報より攻撃時刻および検索キーワードの情報を定期的に収集し、攻撃時刻が最新の日時に更新されるまで最新のアクセスログ情報を収集し、収集した各攻撃情報を予め定めた形式に整形し、攻撃情報を収集する攻撃情報データベース13cに格納することができる。 In addition, the collection device 10 periodically collects attack time and search keyword information from attack information, collects the latest access log information until the attack time is updated to the latest date, and collects each collected attack information. It can be shaped into a predetermined format and stored in the attack information database 13c that collects attack information.
 これにより収集装置10は、日常的に最新のアクセスログ情報を収集し、汎用的な攻撃情報およびシードリストを取得することができる。 As a result, the collection device 10 can routinely collect the latest access log information and acquire general-purpose attack information and seed lists.
 また、収集装置10は、収集した攻撃情報から新規に発見されたサイバー攻撃をユーザに提示し、新規の検索キーワードを検出すると、未知の攻撃と判定し、シードリストに新規の検索キーワードの情報を更新することができる。 In addition, the collection device 10 presents a newly discovered cyber attack from the collected attack information to the user, and when a new search keyword is detected, determines that it is an unknown attack, and adds the information of the new search keyword to the seed list. can be updated.
 これにより収集装置10は、早期に攻撃者による未知攻撃を監視者に提示することで、監視者は最新の攻撃動向を把握することができる。 As a result, the collection device 10 presents unknown attacks by attackers to the monitor at an early stage, so that the monitor can grasp the latest attack trends.
[システム構成等]
 また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Also, each constituent element of each part shown in the figure is functionally conceptual, and does not necessarily need to be physically configured as shown in the figure. In other words, the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Furthermore, all or any part of each processing function performed by each device can be implemented by a CPU and a program executed by the CPU, or implemented as hardware based on wired logic.
 また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, among the processes described in the above embodiments, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed manually. All or part of this can also be done automatically by known methods. In addition, information including processing procedures, control procedures, specific names, and various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.
[プログラム]
 前記した収集装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を各実施形態の収集装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
[program]
The collecting device 10 described above can be implemented by installing a program as package software or online software on a desired computer. For example, by causing the information processing device to execute the above program, the information processing device can function as the collection device 10 of each embodiment. The information processing apparatus referred to here includes a desktop or notebook personal computer. In addition, information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and terminals such as PDAs (Personal Digital Assistants).
 また、収集装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。 The collection device 10 can also be implemented as a server device that uses a terminal device used by a user as a client and provides the client with services related to the above processing. In this case, the server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above processing by outsourcing.
 図13は、収集プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。 FIG. 13 is a diagram showing an example of a computer that executes a collection program. The computer 1000 has a memory 1010 and a CPU 1020, for example. Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 . The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). Hard disk drive interface 1030 is connected to hard disk drive 1090 . A disk drive interface 1040 is connected to the disk drive 1100 . A removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 . Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example. Video adapter 1060 is connected to display 1130, for example.
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の収集装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、収集装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。 The hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, the program that defines each process executed by the collection device 10 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 . For example, the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the collection device 10 . Note that the hard disk drive 1090 may be replaced by an SSD.
 また、上述した実施形態の処理で用いられる各データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。 Also, each data used in the processing of the above-described embodiments is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワされたーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
1 ネットワーク
2a Webサイト(サーバ)
2b 検索エンジン(サーバ)
3 端末
10 収集装置
11 通信部
12 制御部
12a 攻撃情報検索部
12b 攻撃情報収集部
12c 新規攻撃提示部
13 記憶部
13a シードリストデータベース
13b 収集対象データベース
13c 攻撃情報データベース
1 Network 2a Web site (server)
2b Search engine (server)
3 Terminal 10 Collection device 11 Communication unit 12 Control unit 12a Attack information search unit 12b Attack information collection unit 12c New attack presentation unit 13 Storage unit 13a Seed list database 13b Collection target database 13c Attack information database

Claims (7)

  1.  サイバー攻撃の特徴を示すキーワードを検索キーとして、検索エンジンを用いて、インターネット空間からWebサイトの情報を検索する攻撃情報検索部と、
     検索された各Webサイトにアクセスし、前記サイバー攻撃に関する情報を収集する攻撃情報収集部と、
     収集された前記サイバー攻撃に関する情報から新規のサイバー攻撃を提示する新規攻撃提示部と、
     を備えることを特徴とする収集装置。
    an attack information search unit that searches for website information from the Internet space using a search engine using keywords that indicate the characteristics of cyberattacks as search keys;
    an attack information collection unit that accesses each searched website and collects information about the cyber attack;
    a new attack presentation unit that presents a new cyber attack from the collected information on the cyber attack;
    A collection device comprising:
  2.  前記攻撃情報検索部が、
     前記サイバー攻撃の特徴を示すキーワードが予め記憶されたシードリストに基づいて、前記シードリストのキーワード毎に検索キーワードを作成し、
     作成した前記検索キーワード毎に、検索エンジンを用いて前記Webサイトの情報を検索する
     ことを特徴とする請求項1に記載の収集装置。
    The attack information search unit,
    creating a search keyword for each keyword in the seed list based on a seed list in which keywords indicating characteristics of the cyber attack are stored in advance;
    2. The collecting device according to claim 1, wherein the information on the website is searched using a search engine for each of the created search keywords.
  3.  前記攻撃情報収集部が、
     前記Webサイトにアクセスし、前記Webサイトのアクセスログから前記サイバー攻撃に関する情報を収集し、
     前記アクセスログに記されたステータスコードにより攻撃の有無を判定し、判定結果に応じて、前記サイバー攻撃に関する情報より攻撃した日時を示す攻撃時刻および検索キーワードに関する情報を収集する
     ことを特徴とする請求項1に記載の収集装置。
    The attack information collection unit,
    Accessing the website, collecting information on the cyber attack from the access log of the website,
    A claim characterized in that the presence or absence of an attack is determined based on the status code written in the access log, and based on the result of the determination, the time of attack indicating the date and time of the attack and information on search keywords are collected from the information on the cyberattack. Item 1. The collection device according to item 1.
  4.  前記攻撃情報収集部が、
     前記サイバー攻撃に関する情報より攻撃した日時を示す攻撃時刻および検索キーワードに関する情報を定期的に収集し、
     前記攻撃時刻が最新の日時に更新されるまで最新のアクセスログ情報を収集し、
     収集した前記サイバー攻撃に関する情報を予め定めた形式に整形し、
     攻撃情報を収集する攻撃情報データベースに格納する
     ことを特徴とする請求項1に記載の収集装置。
    The attack information collection unit,
    Periodically collect information on the attack time and search keywords indicating the date and time of the attack from the information on the cyber attack,
    collecting the latest access log information until the attack time is updated to the latest date and time;
    Formatting the collected information on the cyber attack into a predetermined format,
    2. The collecting device according to claim 1, wherein the attack information is stored in an attack information database that collects the attack information.
  5.  前記新規攻撃提示部が、
     収集された前記サイバー攻撃に関する情報から新規の前記サイバー攻撃をユーザに提示し、
     新規の検索キーワードに関する情報を検出すると、未知の攻撃と判定し、
     前記サイバー攻撃の特徴を示すキーワードが予め記憶されたシードリストに前記新規の検索キーワードの情報を更新する
     ことを特徴とする請求項1に記載の収集装置。
    The new attack presentation unit,
    Presenting the new cyber attack to the user from the collected information on the cyber attack;
    When information related to new search keywords is detected, it is determined as an unknown attack,
    2. The collection device according to claim 1, wherein the information of the new search keyword is updated in a seed list in which keywords indicating characteristics of the cyberattack are stored in advance.
  6.  収集装置により実行される収集方法であって、
     サイバー攻撃の特徴を示すキーワードを検索キーとして、検索エンジンを用いて、インターネット空間からWebサイトの情報を検索する工程と、
     検索された各Webサイトにアクセスし、前記サイバー攻撃に関する情報を収集する工程と、
     収集した前記サイバー攻撃に関する情報から新規に発見された前記サイバー攻撃を提示する工程と、
     を含むことを特徴とする収集方法。
    A collection method performed by a collection device, comprising:
    a step of searching website information from the Internet space using a search engine using a keyword that indicates the characteristics of a cyberattack as a search key;
    accessing each searched website and collecting information about the cyberattack;
    presenting the newly discovered cyber attack from the collected information on the cyber attack;
    A collection method characterized by comprising
  7.  サイバー攻撃の特徴を示すキーワードを検索キーとして、検索エンジンを用いて、インターネット空間からWebサイトの情報を検索する工程と、
     検索された各Webサイトにアクセスし、前記サイバー攻撃に関する情報を収集する工程と、
     収集した前記サイバー攻撃に関する情報から新規に発見された前記サイバー攻撃を提示する工程と、
     をコンピュータに実行させることを特徴とする収集プログラム。
    a step of searching website information from the Internet space using a search engine using a keyword that indicates the characteristics of a cyberattack as a search key;
    accessing each searched website and collecting information about the cyberattack;
    presenting the newly discovered cyber attack from the collected information on the cyber attack;
    A collection program characterized by causing a computer to execute
PCT/JP2021/015645 2021-04-15 2021-04-15 Collection device, collection method, and collection program WO2022219792A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/015645 WO2022219792A1 (en) 2021-04-15 2021-04-15 Collection device, collection method, and collection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/015645 WO2022219792A1 (en) 2021-04-15 2021-04-15 Collection device, collection method, and collection program

Publications (1)

Publication Number Publication Date
WO2022219792A1 true WO2022219792A1 (en) 2022-10-20

Family

ID=83640270

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/015645 WO2022219792A1 (en) 2021-04-15 2021-04-15 Collection device, collection method, and collection program

Country Status (1)

Country Link
WO (1) WO2022219792A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7488976B1 (en) 2024-01-31 2024-05-22 株式会社ユービーセキュア Security Test System

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070961A (en) * 2003-08-21 2005-03-17 Nippon Telegr & Teleph Corp <Ntt> Web patrol system, web patrol method, program for web patrol, and recording medium for web patrol
JP2015106336A (en) * 2013-12-02 2015-06-08 日本電信電話株式会社 Byte sequence extraction device, byte sequence extraction method, and byte sequence extraction program
JP2016006700A (en) * 2015-10-15 2016-01-14 株式会社エヌ・ティ・ティ・データ Delivery information analysis apparatus, delivery information analysis method, and delivery information analysis program
WO2019142399A1 (en) * 2018-01-17 2019-07-25 日本電信電話株式会社 Collecting device, collecting method and collecting program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070961A (en) * 2003-08-21 2005-03-17 Nippon Telegr & Teleph Corp <Ntt> Web patrol system, web patrol method, program for web patrol, and recording medium for web patrol
JP2015106336A (en) * 2013-12-02 2015-06-08 日本電信電話株式会社 Byte sequence extraction device, byte sequence extraction method, and byte sequence extraction program
JP2016006700A (en) * 2015-10-15 2016-01-14 株式会社エヌ・ティ・ティ・データ Delivery information analysis apparatus, delivery information analysis method, and delivery information analysis program
WO2019142399A1 (en) * 2018-01-17 2019-07-25 日本電信電話株式会社 Collecting device, collecting method and collecting program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7488976B1 (en) 2024-01-31 2024-05-22 株式会社ユービーセキュア Security Test System

Similar Documents

Publication Publication Date Title
US9723018B2 (en) System and method of analyzing web content
US9680866B2 (en) System and method for analyzing web content
US7926111B2 (en) Determination of related entities
US8359651B1 (en) Discovering malicious locations in a public computer network
CN109074454B (en) Automatic malware grouping based on artifacts
CN105491053A (en) Web malicious code detection method and system
US8307276B2 (en) Distributed content verification and indexing
CN106992981B (en) Website backdoor detection method and device and computing equipment
Vasek et al. Hacking is not random: a case-control study of webserver-compromise risk
US20180234234A1 (en) System for describing and tracking the creation and evolution of digital files
CN101901232A (en) Method and device for processing webpage data
WO2021154114A1 (en) Method and system for detecting an infrastructure of malware or a cybercriminal
RU2701040C1 (en) Method and a computer for informing on malicious web resources
CN116860489A (en) System and method for threat risk scoring of security threats
JP6691240B2 (en) Judgment device, judgment method, and judgment program
JP2011257901A (en) Analysis system, analyzer, analysis method and analysis program
JP2013257773A (en) Monitoring device and monitoring method
US11423099B2 (en) Classification apparatus, classification method, and classification program
WO2022219792A1 (en) Collection device, collection method, and collection program
US9239907B1 (en) Techniques for identifying misleading applications
JP6527111B2 (en) Analysis device, analysis method and analysis program
JP2012003463A (en) Supporting device, method and program for supporting signature generation
US11770388B1 (en) Network infrastructure detection
WO2020075330A1 (en) Detection device and detection program
Bo et al. Tom: A threat operating model for early warning of cyber security threats

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21936987

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21936987

Country of ref document: EP

Kind code of ref document: A1