WO2023054858A1 - Method and system for automatic classification of url category on basis of machine learning - Google Patents

Method and system for automatic classification of url category on basis of machine learning Download PDF

Info

Publication number
WO2023054858A1
WO2023054858A1 PCT/KR2022/009723 KR2022009723W WO2023054858A1 WO 2023054858 A1 WO2023054858 A1 WO 2023054858A1 KR 2022009723 W KR2022009723 W KR 2022009723W WO 2023054858 A1 WO2023054858 A1 WO 2023054858A1
Authority
WO
WIPO (PCT)
Prior art keywords
url
machine learning
analysis target
category
target url
Prior art date
Application number
PCT/KR2022/009723
Other languages
French (fr)
Korean (ko)
Inventor
김영중
노주영
Original Assignee
(주)모니터랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)모니터랩 filed Critical (주)모니터랩
Publication of WO2023054858A1 publication Critical patent/WO2023054858A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a method and system for automatically classifying URL categories based on machine learning.
  • Secure Web Gateway is a security solution that blocks harmful sites to effectively control the web use environment itself, which hinders productivity and protects corporate assets.
  • Creating URL Category Classification which is one of the core data of a secure web gateway that blocks harmful websites, is more important than anything else.
  • manual classification was carried out through human resources. Since it is necessary to classify a large number of URL data in a short period of time, there is a problem in that a lot of time and effort are required along with the cost problem of having to input a large number of human resources. In addition, since there is a possibility that classifiers do not classify consistently, there is a problem in that accuracy deviation increases.
  • the technical problem to be solved by the present invention is to provide a method and system for automatically classifying URL categories based on machine learning.
  • a method for automatically classifying URL categories based on machine learning includes the steps of receiving an analysis target URL, determining whether the analysis target URL is subject to machine learning-based category classification, and the analysis target. If the URL is a machine learning-based category classification target, acquiring web page data corresponding to the target URL for analysis, inputting text data extracted from the obtained web page data into a machine learning model to obtain data corresponding to the target URL for analysis Classifying a category, and storing category classification information for the analysis target URL in a database.
  • the step of determining whether the analysis target URL is subject to machine learning-based category classification may include a preprocessing step of separating a protocol, domain, and path from the analysis target URL, and combining at least some of the separated protocols, domains, and paths. and if category classification information for the created URL is included in the database, determining that the analysis target URL is not a machine learning-based category classification target.
  • Web page data corresponding to the analysis target URL may be obtained by accessing a website corresponding to the analysis target URL.
  • the analysis target URL is not subject to machine learning-based category classification. It may further include the step of determining that it is.
  • the URL pattern rule list may include a plurality of URL pattern rules classified into categories in advance.
  • a category corresponding to a URL pattern rule matched to the analysis target URL may be stored in the database as category classification information for the analysis target URL.
  • the machine learning model may be trained with text data extracted from web page data obtained from a plurality of websites and learning data constructed with category classification information pre-assigned to the plurality of websites.
  • the machine learning model removes formal morphemes from the text extracted from the web page data, receives text data consisting only of nouns, calculates the similarity for each predefined category, and classifies the analysis target URL into the category with the highest similarity. can do.
  • It may include a computer-readable recording medium on which a program for executing the method is recorded on a computer.
  • the automatic machine learning-based URL category classification system determines whether a URL input unit receives an analysis target URL, whether or not the analysis target URL is subject to machine learning-based category classification, and analyzes the target URL. If the URL is a machine learning-based category classification target, a control unit that obtains webpage data corresponding to the analysis target URL and extracts text data, and inputs the text data extracted from the acquired webpage data into a machine learning model to analyze the target It includes an artificial intelligence unit for classifying categories corresponding to URLs, and a database for storing category classification information for the analysis target URLs.
  • the control unit performs preprocessing to separate the domain from the analysis target URL, and if category classification information for the separated domain is included in the database, it is determined that the analysis target URL is not subject to machine learning-based category classification. do.
  • category classification for analysis target URLs can be accurately and efficiently automatically performed through a machine learning model.
  • processing speed and efficiency can be improved by performing machine learning-based category classification only for URLs requiring category classification through a URL pre-processing filter.
  • it is possible to create a large amount of URL category classification data because batch processing is possible by inputting a list of URLs that require category classification.
  • FIG. 1 is a block diagram of a machine learning-based URL category automatic classification system according to an embodiment of the present invention.
  • FIG. 2 is a diagram provided to explain URL pre-processing according to the present invention.
  • FIG 3 shows an example of extracting text data through web crawling according to the present invention.
  • FIG. 4 shows an example of a result of morphological analysis of text data extracted through web crawling according to the present invention.
  • FIG. 5 is an operation flowchart of a machine learning-based URL category automatic classification system according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating the machine learning-based classification procedure of FIG. 5 in detail.
  • FIG. 1 is a block diagram of a machine learning-based URL category automatic classification system according to an embodiment of the present invention.
  • a system 100 may include a URL input unit 110, a control unit 120, an artificial intelligence unit 130, and a database 140.
  • the URL input unit 110 may receive an analysis target URL.
  • Analysis target URLs can be collected in three main types.
  • a URL to be analyzed can be extracted from a user visit log of a product such as the secure web gateway 200.
  • the threat information collector can collect URLs through crawling.
  • a URL classification request list may be received from a customer. Corresponding lists may be input into the URL input unit 110 in single or bulk form.
  • the secure web gateway 200 loads URL category classification information and logs URLs visited by clients (not shown) to block access to URLs corresponding to URL categories set to be blocked by the administrator or to URL categories set to be allowed. You can control access by allowing access only to
  • the secure web gateway 200 separately stores user visit URL logs, and in particular, extracts URLs that do not exist in the URL category classification information or URLs designated as reclassification targets by the administrator as analysis target URLs and provides them to the URL input unit 110. You may.
  • control unit 120 may determine whether the analysis target URL is subject to machine learning-based category classification.
  • FIG. 2 is a diagram provided to explain URL pre-processing according to the present invention.
  • control unit 120 may perform preprocessing of separating a protocol, domain, and path from an analysis target URL.
  • the control unit 120 determines that the analysis target URL is not subject to machine learning-based category classification if category classification information for URLs generated by combining at least some of the separated protocols, domains, and paths is included in the database 140. can do.
  • control unit 120 may determine that the analysis target URL is not a machine learning-based category classification target.
  • the domain and path of the URL below are randomly displayed, so it is not possible to check whether the URL is subject to machine learning-based category classification by referring to the category classification information.
  • a URL pattern rule list for classifying URLs to be analyzed according to a certain rule may be prepared in advance. If ' *.aaa.com/news ' is included in the URL pattern rule list as a URL rule corresponding to the news category, the above URL is classified as a news category and judged not to be subject to machine learning-based category classification. .
  • the first method queries the database with only text combinations, and the second method includes * (Asterisk) and certain rules. There is a difference in classifying URLs by pre-defining a whitelist with .
  • the control unit 120 may obtain web page data corresponding to the analysis target URL. To this end, the control unit 120 can connect to a web site corresponding to an analysis target URL through web crawling, and extract and bring all text data of the page as illustrated in FIG. 3 .
  • FIG 3 shows an example of extracting text data through web crawling according to the present invention.
  • the artificial intelligence unit 130 may classify a category corresponding to an analysis target URL by inputting text data extracted from the obtained web page data to a machine learning model. To this end, the artificial intelligence unit 130 trains the machine learning model with text data extracted from web page data obtained from a plurality of websites and learning data built with category classification information pre-assigned to the plurality of websites. can do.
  • the machine learning model is a machine learning model such as convolution neural network (CNN), recurrent neural network (RNN), gated recurrent unit (GRU), long short term memory (LSTM), sequence-to-sequence (Seq2Seq), etc. It can be in the form of a learning algorithm.
  • CNN convolution neural network
  • RNN recurrent neural network
  • GRU gated recurrent unit
  • LSTM long short term memory
  • Seq2Seq sequence-to-sequence
  • the machine learning model will be pre-trained to remove formal morphemes from the text extracted from web page data, receive text data consisting only of nouns, calculate the similarity for each predefined category, and classify the analysis target URL into the category with the highest similarity.
  • can 4 shows an example of a result of morphological analysis of text data extracted through web crawling according to the present invention.
  • Ad/Pop-up Alcohol/Tobacco business vehicle/transportation computer/technology education Finance/Banking health/medicine Recruitment/job search news non-profit real estate religion restaurant/restaurant Search engine/portal shopping sports travel leisure/entertainment fashion/beauty
  • training data for machine learning model training may be constructed by matching predefined category classification with text data extracted from web page data. Specifically, after removing formal morphemes from text data extracted from web page data and classifying only nouns among the remaining substantive morphemes, learning data can be generated through pattern clustering for features of each category using the nouns.
  • learning data can be generated through pattern clustering for features of each category using the nouns.
  • the database 140 may temporarily or permanently store various types of information and data related to the operation of the system 100 .
  • the database 140 may store learning data built for machine learning model training.
  • the database 140 may store category classification information for URLs, and may store category classification information for analysis target URLs classified by a machine learning model.
  • FIG. 5 is an operation flowchart of a machine learning-based URL category automatic classification system according to an embodiment of the present invention.
  • the URL input unit 110 may receive an analysis target URL (S510).
  • the control unit 120 may determine whether the URL to be analyzed is subject to machine learning-based category classification (S520).
  • Step S520 is a procedure for determining whether machine learning-based automatic URL category classification is necessary for the target URL to be analyzed.
  • step S520 may include procedures such as a preprocessing step (S521), URL pattern rule filtering (S523), and database reference classification (S525), and some steps may be omitted or modified depending on the embodiment, The order of execution may change.
  • S521 preprocessing step
  • S523 URL pattern rule filtering
  • S525 database reference classification
  • the control unit 120 may perform preprocessing of separating the protocol, domain, and path from the analysis target URL (S521).
  • control unit 120 may determine that the analysis target URL is not a machine learning-based category classification target (S523-N).
  • the control unit 120 may determine that the analysis target URL is not subject to machine learning-based category classification if category classification information for a URL generated by combining at least some of the separated protocols, domains, and paths is included in the database. (S525-N).
  • the control unit 120 may store in the database 140 category classification information of the analysis target URL determined not to be subject to machine learning-based category classification (S540).
  • control unit 120 may determine that the analysis target URL is a machine learning-based category classification target (S523-Y).
  • control unit 120 may determine that the analysis target URL is subject to machine learning-based category classification even when the database does not include category classification information for URLs generated by combining at least some of the separated protocols, domains, and paths. Yes (S525-Y).
  • the control unit 120 may perform a machine learning-based classification procedure on the analysis target URL determined to be a machine learning-based category classification target (S530).
  • FIG. 6 is a flowchart illustrating the machine learning-based classification procedure of FIG. 5 in detail.
  • the controller 120 accesses the website corresponding to the analysis target URL (S531), obtains web page data corresponding to the analysis target URL (S533), and extracts from the obtained web page data.
  • Form morphemes may be removed from the generated text and processed into text data consisting only of nouns (S535).
  • step S535 the text data extracted and processed in step S535 may be input to a machine learning model to perform category classification of the URL to be analyzed (S537).
  • step S537 if there is a category classification result in which the degree of similarity is equal to or greater than a certain criterion, it may be treated as classification success, and if the degree of similarity is less than a certain criterion, it may be treated as classification failure.
  • control unit 120 may store category classification information of the analysis target URL classified based on machine learning in the database 140 (S540). .
  • control unit 120 may store the analysis target URL as unclassified data in the database 140 (S550).
  • the embodiments described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components.
  • the devices, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA). array), programmable logic units (PLUs), microprocessors, or any other device capable of executing and responding to instructions.
  • a processing device may run an operating system (OS) and one or more software applications running on the operating system.
  • a processing device may also access, store, manipulate, process, and generate data in response to execution of software.
  • OS operating system
  • a processing device may also access, store, manipulate, process, and generate data in response to execution of software.
  • the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include.
  • a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.
  • Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device.
  • Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave.
  • Software may be distributed on networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.
  • the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method and system for automatic classification of a URL category on the basis of machine learning, and the method for automatic classification of a URL category on the basis of machine learning according to the present invention comprises the steps of: receiving an input of a URL to be analyzed; determining whether the URL to be analyzed is subject to category classification on the basis of machine learning; if the URL to be analyzed is subject to category classification on the basis of machine learning, acquiring web page data corresponding to the URL to be analyzed; inputting text data extracted from the acquired web page data to a machine learning model to classify a category corresponding to the URL to be analyzed; and storing, in a database, category classification information for the URL to be analyzed.

Description

머신러닝 기반 URL 카테고리 자동 분류 방법 및 시스템Machine learning-based URL category automatic classification method and system
본 발명은 머신러닝 기반 URL 카테고리 자동 분류 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for automatically classifying URL categories based on machine learning.
최근 웹을 기반으로 하는 업무 환경이 늘어나면서 기업 자산이나 생산성을 위협하는 웹사이트가 증가하고 있다. 비업무 사이트에 접속해서 업무 시간을 낭비하여 생산성을 떨어뜨리고, 악성코드가 숨겨진 웹사이트에 방문하여 기업 자산이 탈취 당할 수도 있다. 또한, 웹을 통해 기밀 정보를 유출하는 부적절한 행위도 쉽게 일어난다. 기업의 생산성을 저해하고, 기업 자산 보호에 위해한 웹 사용 환경 자체를 효과적으로 제어하기 위한 유해사이트 차단 보안솔루션이 보안 웹 게이트웨이(Secure Web Gateway)이다.Recently, as the web-based business environment increases, the number of websites that threaten corporate assets or productivity is increasing. Accessing non-business sites wastes business time and reduces productivity, and corporate assets may be stolen by visiting websites with malicious codes hidden. In addition, inappropriate acts of leaking confidential information through the web easily occur. Secure Web Gateway is a security solution that blocks harmful sites to effectively control the web use environment itself, which hinders productivity and protects corporate assets.
유해사이트를 차단하는 보안 웹 게이트웨이의 핵심 데이터 중 하나라 할 수 있는 URL 카테고리 정보(URL Category Classification)를 만들어내는 것은 그 무엇보다 중요하다. 종래에는 인적 자원을 통해 수동으로 직접 분류하는 작업을 진행하였다. 단시간에 다수의 URL 데이터를 분류해야 하기 때문에, 다수의 인적 자원을 투입해야 하는 비용 문제와 더불어 시간과 노력이 많이 소요되는 문제가 있었다. 또한, 분류자들이 일관되게 분류하지 않을 가능성이 있기 때문에 정확도 편차가 커지는 문제가 있었다.Creating URL Category Classification, which is one of the core data of a secure web gateway that blocks harmful websites, is more important than anything else. Conventionally, manual classification was carried out through human resources. Since it is necessary to classify a large number of URL data in a short period of time, there is a problem in that a lot of time and effort are required along with the cost problem of having to input a large number of human resources. In addition, since there is a possibility that classifiers do not classify consistently, there is a problem in that accuracy deviation increases.
따라서 본 발명이 해결하고자 하는 기술적 과제는 머신러닝 기반으로 자동으로 URL 카테고리를 분류하는 방법 및 시스템을 제공하는 것이다.Therefore, the technical problem to be solved by the present invention is to provide a method and system for automatically classifying URL categories based on machine learning.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 머신러닝 기반 URL 카테고리 자동 분류 방법은 분석대상 URL을 입력받는 단계, 상기 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하는 단계, 상기 분석대상 URL이 머신러닝 기반 카테고리 분류 대상이면, 상기 분석대상 URL에 대응하는 웹페이지 데이터를 획득하는 단계, 상기 획득된 웹페이지 데이터에서 추출된 텍스트 데이터를 머신러닝 모델에 입력하여 상기 분석대상 URL에 해당하는 카테고리를 분류하는 단계, 및 상기 분석대상 URL에 대한 카테고리 분류 정보를 데이터베이스에 저장하는 단계를 포함한다.A method for automatically classifying URL categories based on machine learning according to the present invention to solve the above technical problem includes the steps of receiving an analysis target URL, determining whether the analysis target URL is subject to machine learning-based category classification, and the analysis target. If the URL is a machine learning-based category classification target, acquiring web page data corresponding to the target URL for analysis, inputting text data extracted from the obtained web page data into a machine learning model to obtain data corresponding to the target URL for analysis Classifying a category, and storing category classification information for the analysis target URL in a database.
상기 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하는 단계는, 상기 분석대상 URL에서 프로토콜, 도메인 및 경로를 분리하는 전처리 단계, 및 상기 분리된 프로토콜, 도메인 및 경로 중 적어도 일부를 조합하여 생성한 URL에 대한 카테고리 분류 정보가 상기 데이터베이스에 포함되어 있으면, 상기 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단하는 단계를 포함한다.The step of determining whether the analysis target URL is subject to machine learning-based category classification may include a preprocessing step of separating a protocol, domain, and path from the analysis target URL, and combining at least some of the separated protocols, domains, and paths. and if category classification information for the created URL is included in the database, determining that the analysis target URL is not a machine learning-based category classification target.
상기 분석대상 URL에 대응하는 웹 사이트에 접속하여 상기 분석대상 URL에 대응하는 웹페이지 데이터를 획득할 수 있다.Web page data corresponding to the analysis target URL may be obtained by accessing a website corresponding to the analysis target URL.
상기 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하는 단계는, URL 패턴 규칙 리스트에 상기 분석대상 URL에 매칭되는 URL 패턴 규칙이 있으면, 상기 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단하는 단계를 더 포함할 수 있다.In the step of determining whether the analysis target URL is subject to machine learning-based category classification, if there is a URL pattern rule matching the analysis target URL in the URL pattern rule list, the analysis target URL is not subject to machine learning-based category classification. It may further include the step of determining that it is.
상기 URL 패턴 규칙 리스트는 미리 카테고리가 분류된 복수의 URL 패턴 규칙을 포함할 수 있다.The URL pattern rule list may include a plurality of URL pattern rules classified into categories in advance.
상기 분석대상 URL에 매칭되는 URL 패턴 규칙에 대응하는 카테고리를 상기 분석대상 URL에 대한 카테고리 분류 정보로 상기 데이터베이스에 저장할 수 있다.A category corresponding to a URL pattern rule matched to the analysis target URL may be stored in the database as category classification information for the analysis target URL.
상기 머신러닝 모델은, 복수의 웹 사이트로부터 획득된 웹페이지 데이터에서 추출된 텍스트 데이터와 상기 복수의 웹 사이트에 대해 미리 부여된 카테고리 분류 정보로 구축된 학습 데이터로 훈련될 수 있다.The machine learning model may be trained with text data extracted from web page data obtained from a plurality of websites and learning data constructed with category classification information pre-assigned to the plurality of websites.
상기 머신러닝 모델은, 상기 웹페이지 데이터에서 추출된 텍스트 중에서 형식 형태소를 제거하고 명사만으로 이루어진 텍스트 데이터를 입력받아 사전 정의된 카테고리별 유사도를 산출하고, 가장 유사도가 높은 카테고리로 상기 분석대상 URL을 분류할 수 있다.The machine learning model removes formal morphemes from the text extracted from the web page data, receives text data consisting only of nouns, calculates the similarity for each predefined category, and classifies the analysis target URL into the category with the highest similarity. can do.
컴퓨터에 상기 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함할 수 있다.It may include a computer-readable recording medium on which a program for executing the method is recorded on a computer.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 머신러닝 기반 URL 카테고리 자동 분류 시스템은 분석대상 URL을 입력받는 URL 입력부, 상기 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하고, 상기 분석대상 URL이 머신러닝 기반 카테고리 분류 대상이면 상기 분석대상 URL에 대응하는 웹페이지 데이터를 획득하여 텍스트 데이터를 추출하는 제어부, 상기 획득된 웹페이지 데이터에서 추출된 텍스트 데이터를 머신러닝 모델에 입력하여 상기 분석대상 URL에 해당하는 카테고리를 분류하는 인공지능부, 및 상기 분석대상 URL에 대한 카테고리 분류 정보를 저장하는 데이터베이스를 포함한다.In order to solve the above technical problem, the automatic machine learning-based URL category classification system according to the present invention determines whether a URL input unit receives an analysis target URL, whether or not the analysis target URL is subject to machine learning-based category classification, and analyzes the target URL. If the URL is a machine learning-based category classification target, a control unit that obtains webpage data corresponding to the analysis target URL and extracts text data, and inputs the text data extracted from the acquired webpage data into a machine learning model to analyze the target It includes an artificial intelligence unit for classifying categories corresponding to URLs, and a database for storing category classification information for the analysis target URLs.
상기 제어부는, 상기 분석대상 URL에서 도메인을 분리하는 전처리를 수행하고, 상기 분리된 도메인에 대한 카테고리 분류 정보가 상기 데이터베이스에 포함되어 있으면, 상기 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단한다.The control unit performs preprocessing to separate the domain from the analysis target URL, and if category classification information for the separated domain is included in the database, it is determined that the analysis target URL is not subject to machine learning-based category classification. do.
본 발명에 의하면 머신러닝 모델을 통해 분석대상 URL에 대한 카테고리 분류를 정확하고 효율적으로 자동 수행할 수 있다. 특히 URL 전처리 필터를 통해 카테고리 분류가 필요한 URL에 대해서만 머신러닝 기반 카테고리 분류를 수행함으로써 처리 속도 및 효율성이 향상될 수 있다. 또한 카테고리 분류가 필요한 URL 목록을 입력하여 일괄 처리가 가능하므로 대량의 URL 카테고리 분류 데이터 제작이 가능하다.According to the present invention, category classification for analysis target URLs can be accurately and efficiently automatically performed through a machine learning model. In particular, processing speed and efficiency can be improved by performing machine learning-based category classification only for URLs requiring category classification through a URL pre-processing filter. In addition, it is possible to create a large amount of URL category classification data because batch processing is possible by inputting a list of URLs that require category classification.
도 1은 본 발명의 일 실시예에 따른 머신러닝 기반 URL 카테고리 자동 분류 시스템의 구성도이다.1 is a block diagram of a machine learning-based URL category automatic classification system according to an embodiment of the present invention.
도 2는 본 발명에 따른 URL 전처리를 설명하기 위해 제공되는 도면이다.2 is a diagram provided to explain URL pre-processing according to the present invention.
도 3은 본 발명에 따른 웹 크롤링을 통한 텍스트 데이터 추출 예를 나타낸 것이다.3 shows an example of extracting text data through web crawling according to the present invention.
도 4는 본 발명에 따른 웹 크롤링을 통해 추출한 텍스트 데이터에서 형태소 분석한 결과 예를 나타낸 것이다.4 shows an example of a result of morphological analysis of text data extracted through web crawling according to the present invention.
도 5는 본 발명의 일 실시예에 따른 머신러닝 기반 URL 카테고리 자동 분류 시스템의 동작 흐름도이다.5 is an operation flowchart of a machine learning-based URL category automatic classification system according to an embodiment of the present invention.
도 6은 도 5의 머신러닝 기반 분류 절차를 구체적으로 나타낸 흐름도이다.FIG. 6 is a flowchart illustrating the machine learning-based classification procedure of FIG. 5 in detail.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.Then, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily practice the present invention.
도 1은 본 발명의 일 실시예에 따른 머신러닝 기반 URL 카테고리 자동 분류 시스템의 구성도이다.1 is a block diagram of a machine learning-based URL category automatic classification system according to an embodiment of the present invention.
도 1을 참고하면, 본 발명에 따른 시스템(100)은 URL 입력부(110), 제어부(120), 인공지능부(130) 및 데이터베이스(140)를 포함할 수 있다.Referring to FIG. 1 , a system 100 according to the present invention may include a URL input unit 110, a control unit 120, an artificial intelligence unit 130, and a database 140.
URL 입력부(110)는 분석대상 URL을 입력받을 수 있다.The URL input unit 110 may receive an analysis target URL.
분석대상 URL은 크게 3가지로 형태로 수집될 수 있다. 첫 번째, 시큐어 웹 게이트웨이(200)와 같은 제품의 사용자 방문 로그에서 분석대상 URL을 추출할 수 있다. 두 번째, 위협 정보 수집기에서 크롤링을 통해 URL을 수집할 수도 있다. 세 번째, 고객으로부터 URL 분류 요청 목록을 받을 수도 있다. 해당 목록들을 단일 또는 벌크 형태로 URL 입력부(110)에 입력할 수 있다.Analysis target URLs can be collected in three main types. First, a URL to be analyzed can be extracted from a user visit log of a product such as the secure web gateway 200. Second, the threat information collector can collect URLs through crawling. Third, a URL classification request list may be received from a customer. Corresponding lists may be input into the URL input unit 110 in single or bulk form.
시큐어 웹 게이트웨이(200)는 URL 카테고리 분류 정보를 탑재하고, 클라이언트(도시하지 않음)가 방문하는 URL을 로깅하여 관리자가 차단 설정한 URL 카테고리에 해당하는 URL 접속을 차단하거나, 허용 설정한 URL 카테고리에 대한 접속만 허용하는 접속 제어를 할 수 있다.The secure web gateway 200 loads URL category classification information and logs URLs visited by clients (not shown) to block access to URLs corresponding to URL categories set to be blocked by the administrator or to URL categories set to be allowed. You can control access by allowing access only to
시큐어 웹 게이트웨이(200)는 사용자 방문 URL 로그를 별도로 저장하고, 특히 URL 카테고리 분류 정보에 존재하지 않은 URL이나 또는 관리자로부터 재분류 대상으로 지정된 URL을 분석대상 URL로 추출하여 URL 입력부(110)에 제공할 수도 있다.The secure web gateway 200 separately stores user visit URL logs, and in particular, extracts URLs that do not exist in the URL category classification information or URLs designated as reclassification targets by the administrator as analysis target URLs and provides them to the URL input unit 110. You may.
제어부(120)는 분석대상 URL에 대한 전처리를 수행한 후 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단할 수 있다.After performing preprocessing on the analysis target URL, the control unit 120 may determine whether the analysis target URL is subject to machine learning-based category classification.
도 2는 본 발명에 따른 URL 전처리를 설명하기 위해 제공되는 도면이다.2 is a diagram provided to explain URL pre-processing according to the present invention.
도 2를 참조하면, 제어부(120)는 분석대상 URL에서 프로토콜(Protocol), 도메인(Domain) 및 경로(Path)를 분리하는 전처리를 수행할 수 있다.Referring to FIG. 2 , the control unit 120 may perform preprocessing of separating a protocol, domain, and path from an analysis target URL.
제어부(120)는 분리된 프로토콜, 도메인 및 경로 중 적어도 일부를 조합하여 생성한 URL에 대한 카테고리 분류 정보가 데이터베이스(140)에 포함되어 있으면, 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단할 수 있다.The control unit 120 determines that the analysis target URL is not subject to machine learning-based category classification if category classification information for URLs generated by combining at least some of the separated protocols, domains, and paths is included in the database 140. can do.
예를 들어, 분석대상 URL로 "https://www.a.com/path1/"이 입력되었다고 가정하면, 프로토콜 'https', 도메인 'www.a.com', 경로 'path1/' 등의 각 텍스트로 분리할 수 있다.For example, assuming that "https://www.a.com/path1/" is entered as the URL to be analyzed, the protocol 'https', domain 'www.a.com', path 'path1/', etc. It can be separated by text.
그리고 분리된 각 텍스트 중 적어도 일부를 조합하여 https://www.a.com/, http://www.a.com/, https://www.a.com/path1/, http://www.a.com/path1/ 등과 같은 URL을 생성할 수 있다. 그리고 이렇게 생성된 URL에 대한 카테고리 분류 정보가 이미 데이터베이스(140)에 포함되어 있으면, 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단할 수 있다.And combining at least some of each separated text to https://www.a.com/, http://www.a.com/, https://www.a.com/path1/, http:// You can create URLs like www.a.com/path1/ and so on. In addition, if category classification information for the generated URL is already included in the database 140, it may be determined that the analysis target URL is not a machine learning-based category classification target.
한편 제어부(120)는 URL 패턴 규칙 리스트에 분석대상 URL에 매칭되는 URL 패턴 규칙이 있으면, 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단할 수도 있다. Meanwhile, if there is a URL pattern rule matching the analysis target URL in the URL pattern rule list, the control unit 120 may determine that the analysis target URL is not a machine learning-based category classification target.
예를 들어 아래와 같은 URL은 도메인과 경로가 랜덤하게 표시되어서 카테고리 분류 정보를 참조해서는 머신러닝 기반 카테고리 분류 대상 여부를 확인할 수 없다. For example, the domain and path of the URL below are randomly displayed, so it is not possible to check whether the URL is subject to machine learning-based category classification by referring to the category classification information.
https://231231231.aaa.com/news/1HIWVx3reLiggzMftCc/I8yzSRrqU98Sj5Euo8QAtnPLg/https:// 231231231.aaa.com/news /1HIWVx3reLiggzMftCc/I8yzSRrqU98Sj5Euo8QAtnPLg/
따라서 도메인이나 경로가 랜덤하게 표시된 URL에 대해서 머신러닝 기반 카테고리 분류 대상 여부를 판단하기 위해서, 일정 규칙에 의해 분석대상 URL을 분류하는 URL 패턴 규칙 리스트를 미리 마련해놓을 수 있다. '*.aaa.com/news'를 뉴스 카테고리에 해당하는 URL 규칙으로 URL 패턴 규칙 리스트에 포함되어 있는 경우, 위와 같은 URL은 뉴스 카테고리로 분류하고 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단할 수 있다.Therefore, in order to determine whether a URL whose domain or path is randomly displayed is subject to machine learning-based category classification, a URL pattern rule list for classifying URLs to be analyzed according to a certain rule may be prepared in advance. If ' *.aaa.com/news ' is included in the URL pattern rule list as a URL rule corresponding to the news category, the above URL is classified as a news category and judged not to be subject to machine learning-based category classification. .
분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하기 위해 사용된 위 2가지 방법 중 첫 번째 방법은 데이터베이스에서 텍스트 조합으로만 질의하는 것이고, 두 번째 방법은 *(Asterisk)를 포함하여 일정 규칙을 가지는 화이트리스트를 사전 정의하여 URL을 분류하는 것으로 차이가 있다.Among the above two methods used to determine whether a URL to be analyzed is subject to machine learning-based category classification, the first method queries the database with only text combinations, and the second method includes * (Asterisk) and certain rules. There is a difference in classifying URLs by pre-defining a whitelist with .
제어부(120)는 분석대상 URL이 머신러닝 기반 카테고리 분류 대상이면, 분석대상 URL에 대응하는 웹페이지 데이터를 획득할 수 있다. 이를 위해 제어부(120)는 웹 크롤링을 통해서 분석대상 URL에 대응하는 웹 사이트에 접속하여 도 3에 예시한 것과 같이 해당 페이지의 텍스트 데이터를 모두 추출하여 가져올 수 있다.If the analysis target URL is a machine learning-based category classification target, the control unit 120 may obtain web page data corresponding to the analysis target URL. To this end, the control unit 120 can connect to a web site corresponding to an analysis target URL through web crawling, and extract and bring all text data of the page as illustrated in FIG. 3 .
도 3은 본 발명에 따른 웹 크롤링을 통한 텍스트 데이터 추출 예를 나타낸 것이다.3 shows an example of extracting text data through web crawling according to the present invention.
인공지능부(130)는 획득된 웹페이지 데이터에서 추출된 텍스트 데이터를 머신러닝 모델에 입력하여 분석대상 URL에 해당하는 카테고리를 분류할 수 있다. 이를 위해 사전에 인공지능부(130)는 복수의 웹 사이트로부터 획득된 웹페이지 데이터에서 추출된 텍스트 데이터와 복수의 웹 사이트에 대해 미리 부여된 카테고리 분류 정보로 구축된 학습 데이터로 머신러닝 모델을 훈련할 수 있다.The artificial intelligence unit 130 may classify a category corresponding to an analysis target URL by inputting text data extracted from the obtained web page data to a machine learning model. To this end, the artificial intelligence unit 130 trains the machine learning model with text data extracted from web page data obtained from a plurality of websites and learning data built with category classification information pre-assigned to the plurality of websites. can do.
여기서 머신러닝 모델은 콘볼루션 신경망(Convolution neural network)(CNN), RNN(Recurrent Neural Network), GRU(Gated Recurrent Unit), LSTM (Long Short Term Memory), Seq2Seq(Sequence-to-Sequence) 등과 같은 기계학습 알고리즘 형태일 수 있다.Here, the machine learning model is a machine learning model such as convolution neural network (CNN), recurrent neural network (RNN), gated recurrent unit (GRU), long short term memory (LSTM), sequence-to-sequence (Seq2Seq), etc. It can be in the form of a learning algorithm.
머신러닝 모델은 웹페이지 데이터에서 추출된 텍스트 중에서 형식 형태소를 제거하고 명사만으로 이루어진 텍스트 데이터를 입력받아 사전 정의된 카테고리별 유사도를 산출하고, 가장 유사도가 높은 카테고리로 분석대상 URL을 분류하도록 미리 훈련될 수 있다. 도 4는 본 발명에 따른 웹 크롤링을 통해 추출한 텍스트 데이터에서 형태소 분석한 결과 예를 나타낸 것이다.The machine learning model will be pre-trained to remove formal morphemes from the text extracted from web page data, receive text data consisting only of nouns, calculate the similarity for each predefined category, and classify the analysis target URL into the category with the highest similarity. can 4 shows an example of a result of morphological analysis of text data extracted through web crawling according to the present invention.
광고/팝업Ad/Pop-up 주류/담배Alcohol/Tobacco 비즈니스business 차량/운송수단vehicle/transportation
컴퓨터/테크놀로지computer/technology 교육education 금융/은행Finance/Banking 건강/의학health/medicine
구인/구직Recruitment/job search 뉴스news 비영리non-profit 부동산real estate
종교religion 식당/요식업restaurant/restaurant 검색엔진/포털Search engine/portal 쇼핑shopping
스포츠sports 여행travel 여가/오락leisure/entertainment 패션/뷰티fashion/beauty
머신러닝 모델 훈련을 위한 학습 데이터는 표 1에 예시한 것과 같이 사전 정의된 카테고리 분류를 웹페이지 데이터에서 추출된 텍스트 데이터와 매칭시켜 구축될 수 있다. 구체적으로 웹페이지 데이터에서 추출된 텍스트 데이터 중에서 형식 형태소를 제거하고 남은 실질 형태소 중에서도 명사만을 분류한 후, 해당 명사들을 활용하여 카테고리별 특징에 대한 패턴 클러스터링을 통해 학습 데이터를 생성할 수 있다. 물론 여기서 설명한 것 외에도 웹 페이지에 포함된 텍스트 데이터를 입력받아 미리 정의된 카테고리로 분류할 수 있도록 머신러닝 모델을 훈련시키고, 훈련된 머신러닝 모델을 이용하여 분석대상 URL의 카테고리를 분류하도록 구현하는 것도 가능하다.데이터베이스(140)는 시스템(100)의 동작과 관련된 각종 정보 및 데이터를 임시 또는 영구적으로 저장할 수 있다. 데이터베이스(140)는 머신러닝 모델 훈련을 위해 구축되는 학습 데이터를 저장할 수 있다. 데이터베이스(140)는 URL에 대한 카테고리 분류 정보를 저장할 수 있으며, 머신러닝 모델에 의해 분류된 분석대상 URL에 대한 카테고리 분류 정보를 저장할 수 있다.As illustrated in Table 1, training data for machine learning model training may be constructed by matching predefined category classification with text data extracted from web page data. Specifically, after removing formal morphemes from text data extracted from web page data and classifying only nouns among the remaining substantive morphemes, learning data can be generated through pattern clustering for features of each category using the nouns. Of course, in addition to what has been described here, it is also possible to train a machine learning model to receive text data included in a web page and classify it into predefined categories, and to classify the category of the URL to be analyzed using the trained machine learning model. It is possible. The database 140 may temporarily or permanently store various types of information and data related to the operation of the system 100 . The database 140 may store learning data built for machine learning model training. The database 140 may store category classification information for URLs, and may store category classification information for analysis target URLs classified by a machine learning model.
도 5는 본 발명의 일 실시예에 따른 머신러닝 기반 URL 카테고리 자동 분류 시스템의 동작 흐름도이다.5 is an operation flowchart of a machine learning-based URL category automatic classification system according to an embodiment of the present invention.
도 5를 참고하면, URL 입력부(110)는 분석대상 URL을 입력받을 수 있다(S510).Referring to FIG. 5 , the URL input unit 110 may receive an analysis target URL (S510).
제어부(120)는 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단할 수 있다(S520). 단계(S520)는 머신러닝 기반 카테고리 분류 대상 여부는 분석대상 URL에 대해서 머신러닝 기반 URL 카테고리 자동 분류가 필요한지 판단하는 절차이다.The control unit 120 may determine whether the URL to be analyzed is subject to machine learning-based category classification (S520). Step S520 is a procedure for determining whether machine learning-based automatic URL category classification is necessary for the target URL to be analyzed.
구체적으로 단계(S520)는 전처리 단계(S521), URL 패턴 규칙 필터링(S523) 및 데이터베이스 참조 분류(S525) 등의 절차를 포함할 수 있으며, 실시예에 따라 일부 단계가 생략되거나 변형될 수 있으며, 실행 순서가 변경될 수도 있다.Specifically, step S520 may include procedures such as a preprocessing step (S521), URL pattern rule filtering (S523), and database reference classification (S525), and some steps may be omitted or modified depending on the embodiment, The order of execution may change.
제어부(120)는 분석대상 URL에서 프로토콜, 도메인 및 경로를 분리하는 전처리를 수행할 수 있다(S521).The control unit 120 may perform preprocessing of separating the protocol, domain, and path from the analysis target URL (S521).
제어부(120)는 URL 패턴 규칙 리스트에 분석대상 URL에 매칭되는 URL 패턴 규칙이 있으면, 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단할 수 있다(S523-N).If there is a URL pattern rule matching the analysis target URL in the URL pattern rule list, the control unit 120 may determine that the analysis target URL is not a machine learning-based category classification target (S523-N).
제어부(120)는 분리된 프로토콜, 도메인 및 경로 중 적어도 일부를 조합하여 생성한 URL에 대한 카테고리 분류 정보가 데이터베이스에 포함되어 있으면, 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단할 수 있다(S525-N).The control unit 120 may determine that the analysis target URL is not subject to machine learning-based category classification if category classification information for a URL generated by combining at least some of the separated protocols, domains, and paths is included in the database. (S525-N).
제어부(120)는 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단된 분석대상 URL의 카테고리 분류 정보를 데이터베이스(140)에 저장할 수 있다(S540).The control unit 120 may store in the database 140 category classification information of the analysis target URL determined not to be subject to machine learning-based category classification (S540).
한편 제어부(120)는 URL 패턴 규칙 리스트에 분석대상 URL에 매칭되는 URL 패턴 규칙이 없으면, 분석대상 URL을 머신러닝 기반 카테고리 분류 대상인 것으로 판단할 수 있다(S523-Y).Meanwhile, if there is no URL pattern rule matching the analysis target URL in the URL pattern rule list, the control unit 120 may determine that the analysis target URL is a machine learning-based category classification target (S523-Y).
아울러 제어부(120)는 분리된 프로토콜, 도메인 및 경로 중 적어도 일부를 조합하여 생성한 URL에 대한 카테고리 분류 정보가 데이터베이스에 포함되어 있지 않은 경우도 분석대상 URL을 머신러닝 기반 카테고리 분류 대상인 것으로 판단할 수 있다(S525-Y).In addition, the control unit 120 may determine that the analysis target URL is subject to machine learning-based category classification even when the database does not include category classification information for URLs generated by combining at least some of the separated protocols, domains, and paths. Yes (S525-Y).
제어부(120)는 머신러닝 기반 카테고리 분류 대상으로 판단된 분석대상 URL에 대해서 머신러닝 기반 분류 절차를 수행할 수 있다(S530).The control unit 120 may perform a machine learning-based classification procedure on the analysis target URL determined to be a machine learning-based category classification target (S530).
도 6은 도 5의 머신러닝 기반 분류 절차를 구체적으로 나타낸 흐름도이다.FIG. 6 is a flowchart illustrating the machine learning-based classification procedure of FIG. 5 in detail.
도 6을 참고하면, 먼저 제어부(120)는 분석대상 URL에 대응하는 웹 사이트에 접속하여(S531), 분석대상 URL에 대응하는 웹페이지 데이터를 획득하고(S533), 획득된 웹페이지 데이터에서 추출된 텍스트 중에서 형식 형태소를 제거하고 명사만으로 이루어진 텍스트 데이터로 가공할 수 있다(S535).Referring to FIG. 6, first, the controller 120 accesses the website corresponding to the analysis target URL (S531), obtains web page data corresponding to the analysis target URL (S533), and extracts from the obtained web page data. Form morphemes may be removed from the generated text and processed into text data consisting only of nouns (S535).
다음으로 단계(S535)에서 추출 가공된 텍스트 데이터를 머신러닝 모델에 입력하여 분석대상 URL의 카테고리 분류를 수행할 수 있다(S537). 단계(S537)에서 유사도가 일정 기준 이상인 카테고리 분류 결과가 있으면 분류 성공으로 처리하고, 유사도가 일정 기준 미만인 경우 분류 실패로 처리할 수 있다.Next, the text data extracted and processed in step S535 may be input to a machine learning model to perform category classification of the URL to be analyzed (S537). In step S537, if there is a category classification result in which the degree of similarity is equal to or greater than a certain criterion, it may be treated as classification success, and if the degree of similarity is less than a certain criterion, it may be treated as classification failure.
다시 도 5를 참조하면, 머신러닝 기반 분류가 성공하면(S530-Y), 제어부(120)는 머신러닝 기반으로 분류된 분석대상 URL의 카테고리 분류 정보를 데이터베이스(140)에 저장할 수 있다(S540).Referring back to FIG. 5 , if the machine learning-based classification succeeds (S530-Y), the control unit 120 may store category classification information of the analysis target URL classified based on machine learning in the database 140 (S540). .
한편 머신러닝 기반 분류가 실패하면(S540-Y), 제어부(120)는 분석대상 URL을 미분류 데이터로 데이터베이스(140)에 저장할 수 있다(S550).Meanwhile, if the machine learning-based classification fails (S540-Y), the control unit 120 may store the analysis target URL as unclassified data in the database 140 (S550).
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, the devices, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA). array), programmable logic units (PLUs), microprocessors, or any other device capable of executing and responding to instructions. A processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited drawings, those skilled in the art can apply various technical modifications and variations based on the above. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

Claims (13)

  1. 분석대상 URL을 입력받는 단계,The step of receiving an analysis target URL;
    상기 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하는 단계,Determining whether the URL to be analyzed is subject to machine learning-based category classification;
    상기 분석대상 URL이 머신러닝 기반 카테고리 분류 대상이면, 상기 분석대상 URL에 대응하는 웹페이지 데이터를 획득하는 단계,If the analysis target URL is a machine learning-based category classification target, obtaining web page data corresponding to the analysis target URL;
    상기 획득된 웹페이지 데이터에서 추출된 텍스트 데이터를 머신러닝 모델에 입력하여 상기 분석대상 URL에 해당하는 카테고리를 분류하는 단계, 및Classifying a category corresponding to the analysis target URL by inputting text data extracted from the obtained web page data into a machine learning model; and
    상기 분석대상 URL에 대한 카테고리 분류 정보를 데이터베이스에 저장하는 단계Storing category classification information for the analysis target URL in a database
    를 포함하고,including,
    상기 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하는 단계는,The step of determining whether the URL to be analyzed is subject to machine learning-based category classification,
    상기 분석대상 URL에서 프로토콜, 도메인 및 경로를 분리하는 전처리 단계, 및A preprocessing step of separating a protocol, domain, and path from the analysis target URL, and
    상기 분리된 프로토콜, 도메인 및 경로 중 적어도 일부를 조합하여 생성한 URL에 대한 카테고리 분류 정보가 상기 데이터베이스에 포함되어 있으면, 상기 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단하는 단계Determining that the analysis target URL is not subject to machine learning-based categorization if category classification information for a URL generated by combining at least some of the separated protocol, domain, and path is included in the database
    를 포함하는 머신러닝 기반 URL 카테고리 자동 분류 방법.Machine learning-based URL category automatic classification method including.
  2. 제 1 항에서,In claim 1,
    상기 분석대상 URL에 대응하는 웹 사이트에 접속하여 상기 분석대상 URL에 대응하는 웹페이지 데이터를 획득하는 머신러닝 기반 URL 카테고리 자동 분류 방법.A method of automatically classifying URL categories based on machine learning for accessing a website corresponding to the analysis target URL and obtaining web page data corresponding to the analysis target URL.
  3. 제 2 항에서,In paragraph 2,
    상기 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하는 단계는,The step of determining whether the URL to be analyzed is subject to machine learning-based category classification,
    URL 패턴 규칙 리스트에 상기 분석대상 URL에 매칭되는 URL 패턴 규칙이 있으면, 상기 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단하는 단계If there is a URL pattern rule matching the analysis target URL in the URL pattern rule list, determining that the analysis target URL is not subject to machine learning-based category classification.
    를 더 포함하고,Including more,
    상기 URL 패턴 규칙 리스트는 미리 카테고리가 분류된 복수의 URL 패턴 규칙을 포함하는 머신러닝 기반 URL 카테고리 자동 분류 방법.The URL pattern rule list includes a plurality of URL pattern rules in which categories are classified in advance.
  4. 제 3 항에서,In paragraph 3,
    상기 분석대상 URL에 매칭되는 URL 패턴 규칙에 대응하는 카테고리를 상기 분석대상 URL에 대한 카테고리 분류 정보로 상기 데이터베이스에 저장하는 머신러닝 기반 URL 카테고리 자동 분류 방법.A method of automatically classifying URL categories based on machine learning, wherein a category corresponding to a URL pattern rule matched to the analysis target URL is stored in the database as category classification information for the analysis target URL.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에서,In any one of claims 1 to 4,
    상기 머신러닝 모델은,The machine learning model,
    복수의 웹 사이트로부터 획득된 웹페이지 데이터에서 추출된 텍스트 데이터와 상기 복수의 웹 사이트에 대해 미리 부여된 카테고리 분류 정보로 구축된 학습 데이터로 훈련되는 머신러닝 기반 URL 카테고리 자동 분류 방법.A method for automatically classifying URL categories based on machine learning trained with text data extracted from web page data obtained from a plurality of websites and learning data constructed with category classification information pre-assigned to the plurality of websites.
  6. 제 5 항에서,In paragraph 5,
    상기 머신러닝 모델은,The machine learning model,
    상기 웹페이지 데이터에서 추출된 텍스트 중에서 형식 형태소를 제거하고 명사만으로 이루어진 텍스트 데이터를 입력받아 사전 정의된 카테고리별 유사도를 산출하고, 가장 유사도가 높은 카테고리로 상기 분석대상 URL을 분류하는 머신러닝 기반 URL 카테고리 자동 분류 방법.Machine learning-based URL categories that remove formal morphemes from the text extracted from the web page data, receive text data consisting only of nouns, calculate the similarity for each predefined category, and classify the analysis target URL into the category with the highest similarity. Automatic classification method.
  7. 컴퓨터에 제1항 내지 제4항 중 어느 한 항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium recording a program for executing the method according to any one of claims 1 to 4 in a computer.
  8. 분석대상 URL을 입력받는 URL 입력부,A URL input unit for receiving an analysis target URL;
    상기 분석대상 URL에 대해 머신러닝 기반 카테고리 분류 대상 여부를 판단하고, 상기 분석대상 URL이 머신러닝 기반 카테고리 분류 대상이면 상기 분석대상 URL에 대응하는 웹페이지 데이터를 획득하여 텍스트 데이터를 추출하는 제어부,A control unit that determines whether the analysis target URL is subject to machine learning-based category classification, and if the analysis target URL is a machine learning-based category classification target, obtains web page data corresponding to the analysis target URL and extracts text data;
    상기 획득된 웹페이지 데이터에서 추출된 텍스트 데이터를 머신러닝 모델에 입력하여 상기 분석대상 URL에 해당하는 카테고리를 분류하는 인공지능부, 및An artificial intelligence unit that classifies a category corresponding to the URL to be analyzed by inputting text data extracted from the obtained web page data into a machine learning model; and
    상기 분석대상 URL에 대한 카테고리 분류 정보를 저장하는 데이터베이스Database for storing category classification information for the analysis target URL
    를 포함하고,including,
    상기 제어부는,The control unit,
    상기 분석대상 URL에서 도메인을 분리하는 전처리를 수행하고, 상기 분리된 도메인에 대한 카테고리 분류 정보가 상기 데이터베이스에 포함되어 있으면, 상기 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단하는 머신러닝 기반 URL 카테고리 자동 분류 시스템.Performs pre-processing to separate the domain from the analysis target URL, and if category classification information for the separated domain is included in the database, machine learning-based determining that the analysis target URL is not subject to machine learning-based category classification URL category automatic classification system.
  9. 제 8 항에서,In paragraph 8,
    상기 분석대상 URL에 대응하는 웹 사이트에 접속하여 상기 분석대상 URL에 대응하는 웹페이지 데이터를 획득하는 머신러닝 기반 URL 카테고리 자동 분류 시스템.A machine learning-based URL category automatic classification system for obtaining web page data corresponding to the analysis target URL by accessing a website corresponding to the analysis target URL.
  10. 제 9 항에서,In paragraph 9,
    상기 제어부는,The control unit,
    URL 패턴 규칙 리스트에 상기 분석대상 URL에 매칭되는 URL 패턴 규칙이 있으면, 상기 분석대상 URL을 머신러닝 기반 카테고리 분류 대상이 아닌 것으로 판단하고,If there is a URL pattern rule matching the analysis target URL in the URL pattern rule list, determining that the analysis target URL is not a machine learning-based category classification target;
    상기 URL 패턴 규칙 리스트는 미리 카테고리가 분류된 복수의 URL 패턴 규칙을 포함하는 머신러닝 기반 URL 카테고리 자동 분류 시스템.The URL pattern rule list includes a plurality of URL pattern rules in which categories are classified in advance.
  11. 제 10 항에서,In paragraph 10,
    상기 분석대상 URL에 매칭되는 URL 패턴 규칙에 대응하는 카테고리를 상기 분석대상 URL에 대한 카테고리 분류 정보로 상기 데이터베이스에 저장하는 머신러닝 기반 URL 카테고리 자동 분류 시스템.A machine learning-based automatic URL category classification system for storing a category corresponding to a URL pattern rule matched with the analysis target URL in the database as category classification information for the analysis target URL.
  12. 제 8 항 내지 제 11 항 중 어느 한 항에서,In any one of claims 8 to 11,
    상기 머신러닝 모델은,The machine learning model,
    복수의 웹 사이트로부터 획득된 웹페이지 데이터에서 추출된 텍스트 데이터와 상기 복수의 웹 사이트에 대해 미리 부여된 카테고리 분류 정보로 구축된 학습 데이터로 훈련되는 머신러닝 기반 URL 카테고리 자동 분류 시스템.A machine learning-based automatic URL category classification system trained with text data extracted from web page data obtained from a plurality of websites and learning data constructed with category classification information pre-assigned to the plurality of websites.
  13. 제 12 항에서,In paragraph 12,
    상기 머신러닝 모델은,The machine learning model,
    상기 웹페이지 데이터에서 추출된 텍스트 중에서 형식 형태소를 제거하고 명사만으로 이루어진 텍스트 데이터를 입력받아 사전 정의된 카테고리별 유사도를 산출하고, 가장 유사도가 높은 카테고리로 상기 분석대상 URL을 분류하는 머신러닝 기반 URL 카테고리 자동 분류 시스템.Machine learning-based URL categories that remove formal morphemes from the text extracted from the web page data, receive text data consisting only of nouns, calculate the similarity for each predefined category, and classify the analysis target URL into the category with the highest similarity. automatic sorting system.
PCT/KR2022/009723 2021-09-30 2022-07-06 Method and system for automatic classification of url category on basis of machine learning WO2023054858A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0129546 2021-09-30
KR1020210129546A KR20230046494A (en) 2021-09-30 2021-09-30 Method and system for automatic classification of URL categories based on machine learning

Publications (1)

Publication Number Publication Date
WO2023054858A1 true WO2023054858A1 (en) 2023-04-06

Family

ID=85783049

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/009723 WO2023054858A1 (en) 2021-09-30 2022-07-06 Method and system for automatic classification of url category on basis of machine learning

Country Status (2)

Country Link
KR (1) KR20230046494A (en)
WO (1) WO2023054858A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188120A (en) * 2023-04-28 2023-05-30 北京华阅嘉诚科技发展有限公司 Method, device and system for recommending audio books and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102580512B1 (en) * 2023-04-12 2023-09-20 (주)유알피 Automated rpa learning apparatus and method for automatic sentence clustering deep learning model

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080052097A (en) * 2006-12-07 2008-06-11 한국전자통신연구원 Harmful web site filtering method and apparatus using web structural information
US20120158626A1 (en) * 2010-12-15 2012-06-21 Microsoft Corporation Detection and categorization of malicious urls
KR20180115111A (en) * 2017-04-12 2018-10-22 주식회사 리메인 Method of blocking illegal/harmful information by learning keaword labeling and an apparatuse performing the same
KR20200119534A (en) * 2019-04-10 2020-10-20 인천대학교 산학협력단 Ontology-based multilingual url filtering apparatus
KR20210054799A (en) * 2019-11-06 2021-05-14 삼성에스디에스 주식회사 Method and apparatus for generating summary of url for url clustering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080052097A (en) * 2006-12-07 2008-06-11 한국전자통신연구원 Harmful web site filtering method and apparatus using web structural information
US20120158626A1 (en) * 2010-12-15 2012-06-21 Microsoft Corporation Detection and categorization of malicious urls
KR20180115111A (en) * 2017-04-12 2018-10-22 주식회사 리메인 Method of blocking illegal/harmful information by learning keaword labeling and an apparatuse performing the same
KR20200119534A (en) * 2019-04-10 2020-10-20 인천대학교 산학협력단 Ontology-based multilingual url filtering apparatus
KR20210054799A (en) * 2019-11-06 2021-05-14 삼성에스디에스 주식회사 Method and apparatus for generating summary of url for url clustering

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188120A (en) * 2023-04-28 2023-05-30 北京华阅嘉诚科技发展有限公司 Method, device and system for recommending audio books and storage medium

Also Published As

Publication number Publication date
KR20230046494A (en) 2023-04-06

Similar Documents

Publication Publication Date Title
WO2023054858A1 (en) Method and system for automatic classification of url category on basis of machine learning
WO2012108623A1 (en) Method, system and computer-readable recording medium for adding a new image and information on the new image to an image database
Buber et al. NLP based phishing attack detection from URLs
US7617090B2 (en) Contents filter based on the comparison between similarity of content character and correlation of subject matter
CN107547490B (en) Scanner identification method, device and system
CN106708952B (en) A kind of Webpage clustering method and device
CN103577755A (en) Malicious script static detection method based on SVM (support vector machine)
CN110909531B (en) Information security screening method, device, equipment and storage medium
CN105956180A (en) Sensitive word filtering method
CN108600172B (en) Method, device and equipment for detecting database collision attack and computer readable storage medium
Wazirali et al. Sustaining accurate detection of phishing URLs using SDN and feature selection approaches
KR102060766B1 (en) System for monitoring crime site in dark web
CN105653563B (en) The method and relevant apparatus of blacklist and white list are updated to control method, the dynamic of webpage capture
CN106549980A (en) A kind of malice C&C server determines method and device
CN104899324A (en) Sample training system based on IDC (internet data center) harmful information monitoring system
CN108769001A (en) Malicious code detecting method based on the analysis of network behavior feature clustering
CN108229131A (en) Counterfeit APP recognition methods and device
CN107341371A (en) A kind of script control method suitable for web configurations
WO2018101506A1 (en) Document multi-classification device and document multi-classification method for classifying one document into plurality of categories by using lexico-semantic pattern obtained by reconfiguring semantic category of words constituting sentence
Feng et al. Hrs: A hybrid framework for malware detection
CN111639250B (en) Enterprise description information acquisition method and device, electronic equipment and storage medium
Alshammery et al. Crawling and mining the dark web: A survey on existing and new approaches
CN112199569A (en) Method and system for identifying prohibited website, computer equipment and storage medium
Shibahara et al. Event de-noising convolutional neural network for detecting malicious url sequences from proxy logs
Nguyen et al. Improving Web Application Firewalls with Automatic Language Detection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22876633

Country of ref document: EP

Kind code of ref document: A1