KR102413518B1 - Multy classification system and method using secondary verification - Google Patents

Multy classification system and method using secondary verification Download PDF

Info

Publication number
KR102413518B1
KR102413518B1 KR1020210192916A KR20210192916A KR102413518B1 KR 102413518 B1 KR102413518 B1 KR 102413518B1 KR 1020210192916 A KR1020210192916 A KR 1020210192916A KR 20210192916 A KR20210192916 A KR 20210192916A KR 102413518 B1 KR102413518 B1 KR 102413518B1
Authority
KR
South Korea
Prior art keywords
data
classification
model
input data
modeling
Prior art date
Application number
KR1020210192916A
Other languages
Korean (ko)
Inventor
김요섭
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to KR1020210192916A priority Critical patent/KR102413518B1/en
Application granted granted Critical
Publication of KR102413518B1 publication Critical patent/KR102413518B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

2차 검증을 이용한 다중 분류 시스템 및 그 방법을 개시한다. 본 발명은 다중 분류 문제를 해결하기 위해 제1 모델을 이용하여 전체 데이터에 대해서 1차 분류를 수행하고, 2차 모델을 이용하여 1차 분류된 데이터를 특정 분류에 적합한지 여부를 집중적으로 확인하는 2차 분류를 수행할 수 있다.Disclosed are a multi-classification system using secondary verification and a method therefor. In order to solve the multi-classification problem, the present invention performs primary classification on all data using the first model, and intensively checks whether the primary classified data is suitable for a specific classification using the secondary model. Secondary classification can be performed.

Description

2차 검증을 이용한 다중 분류 시스템 및 그 방법{MULTY CLASSIFICATION SYSTEM AND METHOD USING SECONDARY VERIFICATION}Multiple classification system and method using secondary verification {MULTY CLASSIFICATION SYSTEM AND METHOD USING SECONDARY VERIFICATION}

본 발명은 2차 검증을 이용한 다중 분류 시스템 및 그 방법에 관한 발명으로서, 더욱 상세하게는 다중 분류 문제를 해결하기 위해 제1 모델을 이용하여 전체 데이터에 대한 1차 분류를 수행하고, 2차 모델을 이용하여 1차 분류된 데이터를 특정 분류에 적합한지 여부를 집중적으로 확인하는 2차 분류를 수행하는 2차 검증을 이용한 다중 분류 시스템 및 그 방법에 관한 것이다.The present invention relates to a multiple classification system using secondary verification and a method therefor. More specifically, to solve a multiple classification problem, primary classification is performed on the entire data using the first model, and the secondary model It relates to a multi-classification system and method using secondary verification that performs secondary classification that intensively checks whether the data that is first classified using

기계 학습(Machine Learning) 기술은 입력 데이터에 대한 일반화 과정으로부터 특정 문제를 해결할 수 있는 모델의 생성 기술을 의미한다. Machine learning technology refers to a technology for generating a model that can solve a specific problem from a generalization process for input data.

우수한 성능을 갖는 모델을 생성하기 위해서는 양질의 학습데이터와 일반화 과정을 위한 학습 알고리즘이 필요하다.In order to create a model with excellent performance, high-quality training data and a learning algorithm for generalization are required.

모델의 성능을 개선하기 위한 기법으로서 앙상블(Ensemble) 기법이 있다. 앙상블 기법은 다수의 약한 학습기(Weak Learner)를 결합하여 하나의 강한 학습기(Strong Learner)를 생성하는 기법이다.As a technique for improving the performance of a model, there is an ensemble technique. The ensemble technique is a technique for generating one strong learner by combining a number of weak learners.

이러한 앙상블 기법에는 투표(Voting) 방식을 이용한 배깅(Bagging) 기법, 가중 투표(Weighted Voting) 방식을 이용한 부스팅(Boosting) 기법 및 단일 모델(Sing Model)로부터 얻어낸 예측값을 학습 데이터로 이용하는 스태킹(Stacking) 기법이 있다.These ensemble methods include a bagging method using a voting method, a boosting method using a weighted voting method, and a stacking method using a prediction value obtained from a single model as training data. There is a technique.

배깅 기법은 학습 데이터를 샘플링하여 동일한 크기로 N개의 서브 학습 데이터를 구성한 후, N개의 서브 학습 데이터를 N개의 모델에 일대일로 입력하여 N개의 모델을 학습시키고, 투표 방식을 통해 결과물을 최종적으로 분류(또는 예측)를 하는 기법이다.The bagging technique samples the training data to construct N sub-learning data with the same size, then inputs the N sub-learning data to N models one-to-one to train N models, and finally classifies the results through a voting method (or prediction) is a technique.

부스팅 기법은 배깅 기법과 달리 생성된 다수 개의 모델들을 동등하게 취급하지 않고, 각 모델마다 부여된 가중치가 최종 분류를 위한 투표에 반영된다.Unlike the bagging technique, the boosting technique does not treat a number of generated models equally, and the weight assigned to each model is reflected in the final classification vote.

스태킹 기법은 두 개 이상의 학습 알고리즘을 이용하여 단일 모델을 생성하고, 생성된 단일 모델로부터 얻어진 예측값 자체를 학습 데이터로 삼아 메타 모델(또는, 메타 분류기)을 생성하는 기법이다.The stacking technique is a technique of generating a single model using two or more learning algorithms, and generating a meta model (or meta classifier) using the prediction value itself obtained from the generated single model as training data.

그러나, 단일 모델의 가중치들을 공유하지 못하여 다중 분류를 실시하는 일반적인 방법으로 분류 별 모델을 만들고 결합하여 사용하지 못하는 문제점이 있다.However, since the weights of a single model cannot be shared, there is a problem in that it is not possible to create and combine models for each classification in a general method of performing multiple classification.

한국공개특허 제2011-0043215호(발명의 명칭: 상품 가격 비교 추천 시스템 및 그 운용방법)Korean Patent Laid-Open Patent No. 2011-0043215 (Title of Invention: Product price comparison recommendation system and its operating method)

본 발명은 다중 분류 문제를 해결하기 위해 제1 모델을 이용하여 전체 데이터에 대한 1차 분류를 수행하고, 2차 모델을 이용하여 1차 분류된 데이터를 특정 분류에 적합한지 여부를 집중적으로 확인하는 2차 분류를 수행하는 2차 검증을 이용한 다중 분류 시스템 및 그 방법을 제공하는 것을 목적으로 한다.In order to solve the multi-classification problem, the present invention performs primary classification on all data using a first model, and intensively checks whether the first-classified data is suitable for a specific classification using a secondary model. An object of the present invention is to provide a multi-classification system and method using secondary verification for performing secondary classification.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 2차 검증을 이용한 다중 분류 시스템으로서, 다중 분류(Multi Classification)를 기반으로 하는 모델링을 통해 분류 데이터를 생성하는 분석 서버를 포함하고, 상기 분석 서버는 임의의 카테고리(Category)로 분류 가능한 입력 데이터와, 상기 입력 데이터에 포함된 단어들과 상기 입력 데이터와 관련된 프로파일을 기반으로 상기 입력 데이터의 분류에 사용할 학습 데이터 셋을 구성하고, 상기 학습 데이터 셋을 기반으로 제1 모델을 이용한 모델링을 통해 예측 분류 데이터를 생성하는 1차 검증과, 상기 예측 분류 데이터를 기반으로 제2 모델을 이용한 모델링을 통해 2차 검증한 분류 데이터를 생성하며, 상기 분석 서버는 학습 데이터 셋에 사용될 데이터의 텍스트 데이터, 날짜 데이터, 오류 데이터를 처리하는 전처리부; 상기 입력 데이터의 특징 분포를 분석하는 데이터 분석부; 상기 입력 데이터의 특성, 분류의 특성을 설명하기 위한 파생 변수를 생성하는 변수 생성부; 제1 모델부의 모델을 이용하여 상기 학습 데이터 셋의 모델링을 통한 입력 데이터의 예측 분류 데이터를 생성하고, 제2 모델부의 모델을 이용하여 상기 예측 분류 데이터의 모델링을 통한 분류 데이터를 생성하는 모델링부; 및 상기 생성된 분류 데이터를 기반으로 입력 데이터의 카테고리를 분류하여 출력하는 예측부로 이루어진 것을 특징으로 한다.In order to achieve the above object, an embodiment of the present invention is a multi-classification system using secondary verification, including an analysis server that generates classification data through modeling based on multi-classification, and the analysis The server configures a learning data set to be used for classification of the input data based on input data that can be classified into an arbitrary category, words included in the input data, and a profile related to the input data, and the learning data First verification of generating predictive classification data through modeling using a first model based on the set, and secondly verifying classification data through modeling using a second model based on the predictive classification data are generated, and the analysis The server includes a preprocessor for processing text data, date data, and error data of data to be used in the training data set; a data analysis unit analyzing a feature distribution of the input data; a variable generating unit for generating a derived variable for describing characteristics of the input data and characteristics of classification; a modeling unit for generating predictive classification data of input data through modeling of the training data set using the model of the first model unit, and generating classification data through modeling of the predictive classification data using the model of the second model unit; and a prediction unit for classifying and outputting categories of input data based on the generated classification data.

또한, 상기 실시 예에 따른 제1 모델은 학습 데이터 셋의 입력 데이터를 미리 설정된 분류 정보를 이용하여 분류된 예측 분류 데이터를 출력하는 루트 모델;인 것을 특징으로 한다.In addition, the first model according to the embodiment is a route model that outputs the predicted classification data classified by using preset classification information for input data of the training data set; characterized in that.

또한, 상기 실시 예에 따른 제2 모델은 서로 다른 복수의 클래스 모델을 포함하고, 상기 제1 모델에서 분류된 예측 분류 데이터를 임의의 클래스 모델에서 모델링하여 'T' 로 예측된 경우 해당 클래스 모델의 분류 데이터로 출력하며, 상기 클래스 모델의 예측 분류 데이터가 'F'로 예측된 경우, 상기 예측 분류 데이터는 다른 클래스 모델에서 모델링되어 예측값을 계산하고, 계산된 예측값 중에서 가장 높은 예측값을 갖는 클래스 모델의 분류 데이터로 출력되는 것을 특징으로 한다.In addition, the second model according to the embodiment includes a plurality of different class models, and when predicted as 'T' by modeling the prediction classification data classified in the first model in an arbitrary class model, the corresponding class model It is output as classification data, and when the prediction classification data of the class model is predicted as 'F', the prediction classification data is modeled in another class model to calculate a prediction value, and the class model having the highest prediction value among the calculated prediction values. It is characterized in that it is output as classification data.

또한, 본 발명의 일 실시 예는 2차 검증을 이용한 다중 분류 방법으로서, a) 분류 서버가 임의의 카테고리(Category)로 분류 가능한 입력 데이터와, 상기 입력 데이터에 포함된 단어들과 상기 입력 데이터와 관련된 프로파일을 기반으로 상기 입력 데이터의 분류에 사용할 학습 데이터 셋을 구성하는 단계; 및 b) 상기 분류 서버가 학습 데이터 셋을 기반으로 제1 모델을 이용한 모델링을 통해 예측 분류 데이터를 생성하는 1차 검증과, 상기 예측 분류 데이터를 기반으로 제2 모델을 이용한 모델링을 통해 분류 데이터를 생성하는 2차 검증 단계;를 포함하고, 상기 분류 서버는 다중 분류(Multi Classification)를 기반으로 하는 모델링을 통해 입력 데이터의 카테고리를 분류한 분류 데이터를 생성하며, 상기 a) 단계는 a-1) 분류 서버가 학습 데이터 셋에 사용될 데이터의 텍스트 데이터, 날짜 데이터, 오류 데이터를 전처리 하는 단계; a-2) 상기 분류 서버가 입력 데이터의 특징 분포를 분석하는 단계; 및 a-3) 상기 분류 서버가 입력 데이터의 특성, 분류의 특성을 설명하기 위한 파생 변수를 생성하는 단계;를 포함하는 것을 특징으로 한다.In addition, an embodiment of the present invention is a multi-classification method using secondary verification, a) input data that the classification server can classify into an arbitrary category, words included in the input data, and the input data; constructing a training data set to be used for classification of the input data based on a related profile; and b) primary verification that the classification server generates predictive classification data through modeling using a first model based on the training data set, and classification data through modeling using a second model based on the predictive classification data a secondary verification step of generating; the classification server generates classification data obtained by classifying a category of input data through modeling based on multi-classification, wherein step a) is a-1) preprocessing, by the classification server, text data, date data, and error data of data to be used in the training data set; a-2) analyzing, by the classification server, a feature distribution of input data; and a-3) generating, by the classification server, a derivative variable to describe the characteristics of the input data and the characteristics of the classification.

또한, 상기 실시 예에 따른 b) 단계는 b-1') 분류 서버가 학습 데이터 셋의 입력 데이터를 미리 설정된 분류 정보를 이용하여 분류된 예측 분류 데이터를 출력하는 단계; 및 b-2') 상기 예측 분류 데이터를 임의의 클래스 모델에서 모델링하여 'T' 로 예측된 경우 해당 클래스 모델의 분류 데이터로 출력하는 단계; 및 b-3') 상기 예측 분류 데이터가 'F'로 예측된 경우, 임의의 다른 클래스 모델에서 모델링하여 예측값을 계산하고, 계산된 예측값 중에서 가장 높은 예측값을 갖는 클래스 모델의 분류 데이터로 출력하는 단계;를 포함하는 것을 특징으로 한다.In addition, step b) according to the above embodiment includes: b-1') outputting, by the classification server, the prediction classification data classified by using the classification information preset in the input data of the training data set; and b-2') modeling the prediction classification data in an arbitrary class model and outputting the prediction classification data as classification data of the corresponding class model when predicted as 'T'; and b-3') when the prediction classification data is predicted as 'F', calculating a prediction value by modeling in any other class model, and outputting the prediction value as the classification data of the class model having the highest prediction value among the calculated prediction values It is characterized in that it contains;

본 발명은 제1 모델을 이용하여 전체 데이터에 대한 1차 분류를 수행하고, 2차 모델을 이용하여 1차 분류된 데이터를 특정 분류에 적합한지 여부를 집중적으로 확인하는 2차 분류를 수행하여 다중 분류 문제를 해결할 수 있는 장점이 있다.The present invention performs primary classification on the entire data using the first model, and performs secondary classification to intensively check whether the primary classified data is suitable for a specific classification using the secondary model. It has the advantage of solving the classification problem.

또한, 본 발명은 단일 모델의 가중치들을 공유하여 다중 분류를 실시하는 일반적인 방법을 분류 별 모델을 만들고 결합하여 사용함으로써, 다중 분류 문제를 각 분류에 따른 이진 분류 문제로 해결할 수 있는 장점이 있다.In addition, the present invention has the advantage of solving the multiple classification problem as a binary classification problem according to each classification by creating and combining models for each classification using a general method of performing multiple classification by sharing the weights of a single model.

또한, 본 발명은 단일 모델의 가중치들을 특정 분류를 판단하는데 온전히 쓸 수 있어 더욱 높은 정확도를 가지는 앙상블 모델을 만들 수 있다는 장점이 있다.In addition, the present invention has an advantage in that it is possible to make an ensemble model with higher accuracy because the weights of a single model can be completely used to determine a specific classification.

도1은 본 발명의 일 실시 예에 따른 2차 검증을 이용한 다중 분류 시스템을 나타낸 블록도.
도2는 도1의 실시 예에 따른 2차 검증을 이용한 다중 분류 시스템의 분류 서버 구성을 나타낸 블록도.
도3은 도2의 실시 예에 따른 분류 서버의 모델링부 구성을 나타낸 블록도.
도4는 도3의 실시 예에 따른 모델링부의 구성을 나타낸 블록도.
도5는 본 발명의 일 실시 예에 따른 2차 검증을 이용한 다중 분류 방법을 설명하기 위해 나타낸 흐름도.
1 is a block diagram illustrating a multi-classification system using secondary verification according to an embodiment of the present invention.
FIG. 2 is a block diagram showing the configuration of a classification server of a multi-classification system using secondary verification according to the embodiment of FIG. 1;
Fig. 3 is a block diagram showing the configuration of a modeling unit of the classification server according to the embodiment of Fig. 2;
Fig. 4 is a block diagram showing the configuration of a modeling unit according to the embodiment of Fig. 3;
5 is a flowchart illustrating a multiple classification method using secondary verification according to an embodiment of the present invention.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to preferred embodiments of the present invention and the accompanying drawings.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다. Prior to describing the specific content for carrying out the present invention, it should be noted that components not directly related to the technical gist of the present invention are omitted within the scope of not disturbing the technical gist of the present invention.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.In addition, the terms or words used in the present specification and claims have meanings and concepts consistent with the technical idea of the invention based on the principle that the inventor can define the concept of an appropriate term to best describe his invention. should be interpreted as

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.In the present specification, the expression that a part "includes" a certain element does not exclude other elements, but means that other elements may be further included.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.Also, terms such as “… unit”, “… group”, and “… module” mean a unit that processes at least one function or operation, which may be divided into hardware, software, or a combination of the two.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. In addition, the term "at least one" is defined as a term including the singular and the plural, and even if the term at least one does not exist, each element may exist in the singular or plural, and may mean the singular or plural. will be self-evident.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.In addition, that each component is provided in singular or plural may be changed according to an embodiment.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 2차 검증을 이용한 다중 분류 시스템 및 그 방법의 바람직한 실시예를 상세하게 설명한다.Hereinafter, a preferred embodiment of a multi-classification system and method using secondary verification according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도1은 본 발명의 일 실시 예에 따른 2차 검증을 이용한 다중 분류 시스템을 나타낸 블록도이고, 도2는 도1의 실시 예에 따른 2차 검증을 이용한 다중 분류 시스템의 분류 서버 구성을 나타낸 블록도이며, 도3은 도2의 실시 예에 따른 분류 서버의 모델링부 구성을 나타낸 블록도이고, 도4는 도3의 실시 예에 따른 모델링부의 구성을 나타낸 블록도이다.1 is a block diagram illustrating a multi-classification system using secondary verification according to an embodiment of the present invention, and FIG. 2 is a block diagram showing the configuration of a classification server of a multi-classification system using secondary verification according to the embodiment of FIG. 3 is a block diagram showing the configuration of the modeling unit of the classification server according to the embodiment of FIG. 2 , and FIG. 4 is a block diagram showing the configuration of the modeling unit according to the embodiment of FIG. 3 .

도1 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 2차 검증을 이용한 다중 분류 시스템은 다중 분류 문제를 해결하기 위해 제1 모델을 이용하여 전체 데이터에 대한 1차 분류를 수행하고, 2차 모델을 이용하여 1차 분류된 데이터를 특정 분류에 적합한지 여부를 집중적으로 확인하는 2차 분류를 수행할 수 있도록 복수의 정보 제공 단말(100), 정보 제공 단말 1(100a) 내지 정보 제공 단말 n(100b)와, 데이터 수집 서버(200)와, 분류 서버(300)를 포함하여 구성될 수 있다.1 to 4, the multiple classification system using secondary verification according to an embodiment of the present invention performs primary classification on the entire data using the first model to solve the multiple classification problem, A plurality of information providing terminal 100, information providing terminal 1 (100a) to information providing to perform secondary classification for intensively checking whether the primary classified data is suitable for a specific classification using the secondary model It may be configured to include a terminal n ( 100b ), a data collection server 200 , and a classification server 300 .

정보 제공 단말(100), 정보 제공 단말 1(100a) 내지 정보 제공 단말 n(100b)은 네트워크를 통해 데이터 수집 서버(200)에 접속되어 임의의 카테고리(Category)로 분류 가능한 입력 데이터를 제공하는 구성으로서, 데스트탑 PC, 노트북 PC, 태블릿 PC, 스마트 폰, 서버 시스템 등 분류 대상 데이터의 제공을 위한 애플리케이션 프로그램의 설치가 가능한 단말은 모두 포함될 수 있다.The information providing terminal 100, the information providing terminal 1 (100a) to the information providing terminal n (100b) are connected to the data collection server 200 through a network to provide input data that can be classified into an arbitrary category. As such, a terminal capable of installing an application program for providing classification target data, such as a desktop PC, a notebook PC, a tablet PC, a smart phone, and a server system, may be included.

여기서, 카테고리로 분류 가능한 입력 데이터는 예를 들어, 카메라 인식 등 카메라에 잡힌 물체(가방, 사람, 강아지 등)가 무엇인지 판정하여 분류하는 이미지 데이터, 또는 뉴스 기사와 같이 텍스트로 이루어져 있거나, 라벨링이 되어 있는 데이터로 분류할 수 있는 문서 데이터 등을 포함할 수 있다.Here, the input data that can be classified into categories is, for example, image data that is classified by determining what objects (bags, people, dogs, etc.) caught by the camera, such as camera recognition, or text, such as news articles, or labeling It may include document data, etc. that can be classified as the existing data.

또한, 카테고리로 분류 가능한 입력 데이터는 소설, 영화, 미디어 등과 같은 데이터와, 소설, 영화, 미디어가 스릴러, 멜로, 호러 등과 같이 어떤 카테고리에 속한 작품인지 분류할 수 있는 데이터, 여러 보험 상품 중 고객의 특성에 따라 알맞는 보험 상품을 추천하는 보험 상품 추천 데이터, 또는 패션 이미지에 대응하여 해당 이미지가 어떤 카테고리(옷, 신발, 바지, 치마 등)에 속한 이미지인지 분류할 수 있는 데이터일 수도 있다.In addition, the input data that can be classified into categories includes data such as novels, movies, media, etc., data that can be classified into which category works such as novels, movies, and media belong to thriller, melodrama, horror, etc., among various insurance products. It may be insurance product recommendation data that recommends an insurance product suitable for each characteristic, or data for classifying which category (clothes, shoes, pants, skirt, etc.) the corresponding image belongs to in response to a fashion image.

또한, 카테고리로 분류 가능한 입력 데이터는 사용자 공임 전산 체계화를 위한 일정 개수 이상의 표준작업 항목으로 사용자공임을 분류하는 데이터, 마이데이터를 활용하여 고객의 상황에 맞는 개인화된 금융 상품 추천하는 금융 상품 추천 데이터, 또는 고객 상담소로 연락을 취한 고객들의 사연을 사용하여 어떤 사유(불만, 해지 등 100여개 카테고리)로 연락하였는지 분류할 수 있는 고객 상담 데이터일 수도 있다.In addition, input data that can be classified into categories includes data that classifies user wages into more than a certain number of standard work items for computerized user pay, financial product recommendation data that uses My Data to recommend personalized financial products tailored to the customer’s situation, Alternatively, it may be customer consultation data that can be classified using the stories of customers who contacted the customer service center for what reason (100 categories, such as complaints and cancellations).

데이터 수집 서버(200)는 네트워크를 통해 연결된 정보 제공 단말(100), 정보 제공 단말 1(100a) 내지 정보 제공 단말 n(100b)으로부터 임의의 카테고리로 분류 가능한 입력 데이터를 수집하는 구성으로서, 입력 데이터의 원문인 HTML 형식의 파일, HTML 테그, 광고 정보 등이 포함된 입력 데이터를 수집한다.The data collection server 200 is a configuration for collecting input data that can be classified into any category from the information providing terminal 100, the information providing terminal 1 (100a) to the information providing terminal n (100b) connected through a network, and the input data Collects input data including HTML-format files, HTML tags, and advertisement information, which are the original text of

또한, 데이터 수집 서버(200)는 임의의 웹사이트에 접속할 수 있고, 접속된 웹사이트로부터 웹크롤링 또는 Open API 방식을 통해 입력 데이터의 항목(또는 명칭), 날짜, 기사 내용 등을 포함한 데이터를 수집할 수도 있다.In addition, the data collection server 200 can access any website, and collects data including the item (or name) of input data, date, article content, etc. from the accessed website through web crawling or Open API method. You may.

또한, 데이터 수집 서버(200)는 수집된 입력 데이터에 대하여 입력 데이터의 제목, 입력 데이터의 본문, 입력 데이터의 작성 시간 등의 특정 정보와, 입력 데이터의 주제어와 관련된 키워드 정보, 입력 데이터의 색인 정보 등의 관련 프로파일을 관리할 수 있다.In addition, the data collection server 200 provides specific information such as the title of the input data, the body of the input data, the creation time of the input data, etc., keyword information related to the main word of the input data, and index information of the input data with respect to the collected input data. You can manage related profiles such as

분류 서버(300)는 데이터 수집 서버(200)에서 수집된 임의의 카테고리로 분류 가능한 입력 데이터와, 입력 데이터에 포함된 단어들과 입력 데이터와 관련된 프로파일을 기반으로 입력 데이터의 분류에 사용할 학습 데이터 셋을 구성할 수 있다.The classification server 300 is a learning data set to be used for classification of input data based on input data that can be classified into arbitrary categories collected by the data collection server 200, words included in the input data, and a profile related to the input data. can be configured.

또한, 분류 서버(300)는 학습 데이터 셋을 기반으로 제1 모델을 이용한 모델링을 통해 1차 검증을 수행하여 예측 분류 데이터를 생성할 수 있다.Also, the classification server 300 may generate predictive classification data by performing primary verification through modeling using the first model based on the training data set.

또한, 분류 서버(300)는 예측 분류 데이터를 기반으로 제2 모델을 이용한 모델링을 통해 2차 검증하여 입력 데이터에 대한 분류 데이터를 생성할 수 있다.Also, the classification server 300 may generate classification data for the input data by performing secondary verification through modeling using a second model based on the prediction classification data.

이를 위해 분류 서버(300)는 전처리부(310)와, 데이터 분석부(320)와, 변수 생성부(330)와, 모델링부(340)와, 예측부(350)를 포함하여 구성될 수 있다.To this end, the classification server 300 may include a preprocessor 310 , a data analysis unit 320 , a variable generation unit 330 , a modeling unit 340 , and a prediction unit 350 . .

전처리부(310)는 데이터 수집 서버(200)로부터 수집된 입력 데이터와, 입력 데이터에 포함된 단어들과 입력 데이터와 관련된 프로파일을 기반으로 학습 데이터 셋에 사용될 텍스트 데이터, 날짜 데이터, 키워드 데이터, 색인 데이터, 오류 데이터 등을 확인하여 불필요한 데이터는 분리 및 제거하는 전처리를 수행할 수 있다.The pre-processing unit 310 is based on the input data collected from the data collection server 200, words included in the input data, and a profile related to the input data, text data, date data, keyword data, and index to be used in the training data set. Preprocessing can be performed to separate and remove unnecessary data by checking data and error data.

또한, 전처리부(310)는 수집된 데이터에 결측된 레코드, 결측 컬럼, 이상치 등이 포함되어 있으면 이를 결측 대체값 및 이상치 대체값으로 수정할 수도 있다. Also, if the collected data includes a missing record, a missing column, an outlier, and the like, the preprocessor 310 may correct it into a missing replacement value and an outlier replacement value.

데이터 분석부(320)는 입력 데이터의 제목, 입력 데이터의 본문, 입력 데이터의 작성 시간 등의 특정 정보와, 입력 데이터의 주제어와 관련된 키워드 정보, 입력 데이터의 색인 정보 등과 같은 입력 데이터의 특징 분포를 분석한다.The data analysis unit 320 analyzes the characteristic distribution of the input data, such as specific information such as the title of the input data, the body of the input data, the writing time of the input data, keyword information related to the main word of the input data, index information of the input data, etc. Analyze.

변수 생성부(330)는 입력 데이터의 특성, 분류의 특성을 설명하기 위한 파생 변수를 생성하는 구성으로서, 기본 변수만을 사용하여 입력 데이터를 예측하기에는 한계가 있어 입력 데이터에 유의미한 영향을 주는 새로운 변수를 생성하여 예측 성능을 향상시킬 수 있다.The variable generating unit 330 is a configuration for generating a derived variable to describe the characteristics of input data and characteristics of classification, and there is a limit to predicting input data using only basic variables. can be created to improve prediction performance.

이를 위해, 변수 생성부(330)는 예를 들어 요일, 시간 등에 대하여 숫자가 아닌 각각이 특성을 갖는 범주형 변수로 생성하거나, 입력 데이터의 특성을 설명할 수 있는 예측 변수 등을 생성할 수 있다.To this end, the variable generator 330 may generate, for example, a categorical variable having each characteristic rather than a number with respect to the day of the week and the time, or may generate a predictive variable capable of explaining the characteristics of the input data. .

모델링부(340)는 분류 데이터를 생성하는 구성으로서, 학습 데이터 셋의 모델링을 통해 입력 데이터 별 예측 분류 데이터를 생성하는 제1 모델부(341)와, 제1 모델부(341)에서 생성된 입력 데이터 별 예측 분류 데이터의 모델링을 통해 입력 데이터의 분류 데이터를 생성하는 제2 모델부(342)를 포함하여 구성될 수 있다.The modeling unit 340 is a configuration for generating classification data, and includes a first model unit 341 that generates predictive classification data for each input data through modeling of a training data set, and an input generated by the first model unit 341 . It may be configured to include a second model unit 342 that generates classification data of input data through modeling of prediction classification data for each data.

또한, 모델링부(340)는 불균형 데이터(Imbalanced data)에서 적은 분포의 상품을 더 잘 맞추기 위해 다중 분류(Multi Classification)를 기반으로 한 모델링을 통해 입력 데이터의 분류 데이터를 생성할 수도 있다.In addition, the modeling unit 340 may generate classification data of the input data through modeling based on multi-classification in order to better fit a product having a small distribution in the unbalanced data.

다중 분류를 이용한 입력 데이터의 분류 데이터를 생성하는 경우, 모델링부(340)는 제1 모델부(341)의 모델을 루트 모델(341")로 구성할 수 있고, 제2 모델부(342)의 예측 모델(342")을 복수의 클래스 모델(342"a, 342"b, 342"c, 342"d)로 구성할 수 있다.When generating classification data of input data using multiple classification, the modeling unit 340 may configure the model of the first model unit 341 as the root model 341 ″, and the second model unit 342 may The predictive model 342" may be composed of a plurality of class models 342"a, 342"b, 342"c, 342"d.

루트 모델(341")은 학습 데이터 셋의 입력 데이터를 분석하고, 분석된 해당 입력 데이터를 임의의 클래스로 예측하여 분류한 기사 별 예측 분류 데이터를 출력하는 1차 검증을 수행한다.The route model 341" analyzes input data of the training data set, and performs primary verification of outputting predicted classification data for each article classified by predicting the analyzed corresponding input data into an arbitrary class.

예측 모델(342")은 제1 모델부(341)에서 1차 검증을 통해 분류된 예측 분류 데이터에 대하여 2차 검증을 수행하는 구성으로서, 복수의 서로 다른 카테고리로 분류하기 위한 클래스 모델 A(342"a), 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)로 구성될 수 있다.The predictive model 342 ″ is a configuration that performs secondary validation on the predictive classification data classified through primary validation in the first model unit 341, and is a class model A 342 for classifying into a plurality of different categories. "a), class model B 342"b, class model C 342"c, and class model D 342"d.

본 실시 예에서는 설명의 편의를 위해 4개의 카테고리로 분류하기 위한 클래스 모델을 이용하여 설명하지만 이에 한정되는 것은 아니다.In the present embodiment, for convenience of description, a class model for classifying into four categories is used, but the present invention is not limited thereto.

예측 모델(342")은 학습 데이터 셋이 루트 모델(341")을 통과한 후 입력 데이터의 예측 분류 데이터가 'A'로 예측되면, 'A'로 예측한 입력 데이터의 예측 분류 데이터를 클래스 모델 A(342"a)에 입력한다.The predictive model 342" is a class model of the predictive classification data of the input data predicted as 'A' when the predictive classification data of the input data is predicted as 'A' after the training data set passes through the root model 341". Enter A (342"a).

또한, 클래스 모델 A(342"a)에 모델링을 수행하여 통과한 후, 'T'(또는 참)로 예측되면 'A'로 예측하고, 'F'(또는 거짓)이면 루트 모델(341")을 통과한 후 입력 데이터의 예측 분류 데이터는 다른 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)로 입력되도록 한다.In addition, after performing modeling on the class model A (342"a) and passing it, if it is predicted as 'T' (or true), it is predicted as 'A', and if it is 'F' (or false), the root model 341") After passing through, the predictive classification data of the input data is input to another class model B (342"b), class model C (342"c), and class model D (342"d).

이때, 루트 모델(341")을 통과한 입력 데이터의 예측 분류 데이터는 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)에서 각각 모델링을 수행한다.At this time, the prediction classification data of the input data passing through the root model 341" is modeled in the class model B 342"b, the class model C 342"c, and the class model D 342"d, respectively. .

각 클래스 모델에서 모델링을 통해 계산된 예측값은 서로 비교되고, 비교 결과 가장 높은 MAX(B,C,D)를 갖는 예측값의 클래스 모델이 결정되면, 입력 데이터는 해당 클래스 모델의 예측 데이터로 분류된다.The predicted values calculated through modeling in each class model are compared with each other, and when the class model of the predicted value having the highest MAX(B,C,D) is determined as a result of the comparison, the input data is classified as the prediction data of the corresponding class model.

즉, 입력 데이터를 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)에서 모델링을 통해 계산된 예측값 중에서 가장 높은 예측값을 갖는 클래스 모델의 분류 데이터로 출력함으로써, 임의의 분류에 특화된 클래스 모델을 이용하여 특정 분류가 적합한지 아닌지를 확인할 수 있다.That is, the input data is classified as the classification data of the class model having the highest predicted value among the predicted values calculated through modeling in class model B (342"b), class model C (342"c), and class model D (342"d). By outputting, it is possible to check whether a specific classification is suitable or not using a class model specialized for an arbitrary classification.

예측부(350)는 분류된 입력 데이터의 분류 데이터를 기반으로 해당 입력 데이터의 카테고리를 분류하여 출력한다.The prediction unit 350 classifies and outputs a category of the input data based on the classification data of the classified input data.

다음은 본 발명의 일 실시 예에 따른 2차 검증을 이용한 다중 분류 방법을 설명한다.The following describes a multiple classification method using secondary verification according to an embodiment of the present invention.

도5는 본 발명의 일 실시 예에 따른 2차 검증을 이용한 다중 분류 방법을 설명하기 위해 나타낸 흐름도이다.5 is a flowchart illustrating a multi-classification method using secondary verification according to an embodiment of the present invention.

도1 내지 도5를 참조하면, 본 발명의 일 실시 예에 따른 2차 검증을 이용한 다중 분류 방법은 분류 서버(300)가 임의의 카테고리로 분류 가능한 입력 데이터와, 입력 데이터에 포함된 단어들과 입력 데이터와 관련된 프로파일을 기반으로 입력 데이터의 분류에 사용할 학습 데이터 셋을 구성하는 단계와, 분류 서버(300)가 학습 데이터 셋을 기반으로 제1 모델을 이용한 모델링을 통해 예측 분류 데이터를 생성하는 1차 검증과, 예측 분류 데이터를 기반으로 제2 모델을 이용한 모델링을 통해 분류 데이터를 생성하는 2차 검증 단계로 구성될 수 있다.1 to 5 , in the multiple classification method using secondary verification according to an embodiment of the present invention, input data that the classification server 300 can classify into an arbitrary category, words included in the input data, and A step of constructing a training data set to be used for classification of input data based on a profile related to the input data, and the classification server 300 generating predictive classification data through modeling using a first model based on the training data set It may consist of secondary verification and a secondary verification step of generating classification data through modeling using a second model based on the predicted classification data.

학습 데이터 셋을 구성하는 단계는 분류 서버(300)가 수집된 입력 데이터와, 입력 데이터에 포함된 단어들과 입력 데이터와 관련된 프로파일을 기반으로 학습 데이터 셋에 사용될 텍스트 데이터, 날짜 데이터, 키워드 데이터, 색인 데이터, 오류 데이터 등을 확인하여 불필요한 데이터를 분리 및 제거하는 전처리(S100)를 수행할 수 있다.The step of configuring the training data set includes text data, date data, keyword data, and text data to be used in the training data set based on the input data collected by the classification server 300, words included in the input data, and a profile related to the input data, Pre-processing (S100) of separating and removing unnecessary data may be performed by checking index data, error data, and the like.

또한, S100 단계에서, 분류 서버(300)는 수집된 데이터에 결측된 레코드, 결측 컬럼, 이상치 등이 포함되어 있으면 이를 결측 대체값 및 이상치 대체값으로 수정할 수도 있다.In addition, in step S100 , if the collected data includes a missing record, a missing column, an outlier, and the like, it may be corrected into a missing replacement value and an outlier replacement value.

또한, 분류 서버(300)는 입력 데이터의 제목, 입력 데이터의 본문, 입력 데이터의 작성 시간 등의 특정 정보와, 입력 데이터의 주제어와 관련된 키워드 정보, 입력 데이터의 색인 정보 등과 같은 입력 데이터의 특징 분포를 분석(S200)한다.In addition, the classification server 300 includes specific information such as the title of the input data, the body of the input data, the creation time of the input data, and the like, keyword information related to the main word of the input data, and characteristic distribution of the input data, such as index information of the input data. is analyzed (S200).

또한, 분류 서버(300)는 입력 데이터의 특성, 분류의 특성을 설명하기 위한 파생 변수를 생성하는 구성으로서, 기본 변수만을 사용하여 입력 데이터를 예측하기에는 한계가 있어 입력 데이터에 유의미한 영향을 주는 새로운 변수를 생성하여 예측 성능이 향상될 수 있도록 파생 변수를 생성하는 변수 가공(S300)을 수행할 수 있다.In addition, the classification server 300 is a configuration for generating a derived variable to explain the characteristics of the input data and the characteristics of the classification, and there is a limit to predicting the input data using only the basic variables, so a new variable that has a significant effect on the input data It is possible to perform variable processing (S300) for generating a derived variable so that prediction performance can be improved by generating

S300 단계에서는, 예를 들어 요일, 시간 등에 대하여 숫자가 아닌 각각이 특성을 갖는 범주형 변수로 생성하거나, 입력 데이터의 특성을 설명할 수 있는 예측 변수 등이 생성될 수 있다.In step S300 , for example, a categorical variable having each characteristic rather than a number with respect to the day of the week and the time, or a predictor variable capable of explaining the characteristics of the input data may be generated.

계속해서, 분류 서버(300)는 다중 분류(Multi Classification)를 기반으로 한 모델링을 수행(S400)하고, 모델링을 통해 예측된 결과에 기반하여 생성된 입력 데이터의 카테고리를 분류한 분류 데이터를 출력(S500)한다.Subsequently, the classification server 300 performs modeling based on multi-classification (S400), and outputs classification data obtained by classifying a category of input data generated based on a result predicted through modeling (S400). S500).

S400 단계에서 다중 분류(Multi Classification)를 기반으로 한 모델링은 분류 서버(300)가 학습 데이터 셋의 입력 데이터를 분석하고, 분석된 해당 입력 데이터를 미리 설정된 분류 정보를 통해 임의의 클래스로 예측하여 분류한 기사 별 예측 분류 데이터를 출력하는 1차 검증을 수행한다.In step S400, modeling based on multi-classification is performed by the classification server 300 analyzing the input data of the learning data set, and predicting and classifying the analyzed input data into an arbitrary class through preset classification information. Primary verification of outputting predictive classification data for each article is performed.

또한, 분류 서버(300)는 1차 검증을 통해 분류된 입력 데이터의 예측 분류 데이터에 대하여 2차 검증을 복수의 서로 다른 클래스 모델 A(342"a), 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)을 이용한 모델링을 수행한다.In addition, the classification server 300 performs secondary validation on the prediction classification data of the input data classified through primary validation, a plurality of different class models A (342"a), class model B (342"b), and classes Modeling is performed using model C (342"c) and class model D (342"d).

우선, 1차 검증을 통해 분류된 입력 데이터의 예측 분류 데이터가 예를 들어 'A'로 예측되면, 'A'로 예측된 입력 데이터의 예측 분류 데이터를 클래스 모델 A(342"a)에 입력한다.First, if the prediction classification data of the input data classified through the primary verification is predicted as 'A', for example, the prediction classification data of the input data predicted as 'A' is input to the class model A 342 "a. .

클래스 모델 A(342"a)의 모델링을 통해 분류된 입력 데이터가 'T'(또는 참)로 예측되면, 입력 데이터는 'A'로 예측한 분류 데이터를 출력한다.When the input data classified through the modeling of the class model A 342 "a is predicted as 'T' (or true), the input data outputs the classification data predicted as 'A'.

또한, 클래스 모델 A(342"a)의 모델링을 통해 분류된 입력 데이터가 'F'(또는 거짓)로 예측되면, 1차 검증을 통해 분류된 입력 데이터의 예측 분류 데이터는 다른 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)로 입력되도록 한다.In addition, if the input data classified through the modeling of the class model A (342 "a) is predicted to be 'F' (or false), the predicted classification data of the input data classified through the primary verification is different from the class model B (342). "b), class model C (342"c) and class model D (342"d).

이때, 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)에서 각각 입력 데이터의 모델링을 수행하고, 각 클래스 모델에서 모델링을 통해 계산된 예측값을 서로 비교하여 가장 높은 MAX(B,C,D)를 갖는 예측값의 클래스 모델을 결정하며, 입력 데이터는 결정된 클래스 모델의 예측 데이터로 카테고리가 분류되어 출력된다.At this time, each of the input data is modeled in the class model B (342"b), the class model C (342"c), and the class model D (342"d), and the predicted values calculated through modeling in each class model are compared with each other. The class model of the predicted value having the highest MAX(B,C,D) is determined by comparison, and the input data is classified as the predicted data of the determined class model, and the category is output.

따라서, 제1 모델을 이용하여 전체 데이터에 대한 1차 분류를 수행하고, 2차 모델을 이용하여 1차 분류된 데이터를 특정 분류에 적합한지 여부를 집중적으로 확인하는 2차 분류를 수행하여 다중 분류 문제를 해결할 수 있다.Therefore, multi-classification is performed by performing primary classification on the entire data using the first model and performing secondary classification to intensively check whether the primary classified data is suitable for a specific classification using the secondary model can solve the problem

또한, 다중 분류를 실시하는 일반적인 방법을 분류 별 모델을 만들고 결합하여 사용함으로써, 다중 분류 문제를 각 분류에 따른 이진 분류 문제로 해결할 수 있다.In addition, by creating and combining a model for each classification using a general method of performing multiple classification, the multiple classification problem can be solved as a binary classification problem according to each classification.

또한, 단일 모델들을 특정 분류를 판단하는데 온전히 쓸 수 있어 더욱 높은 정확도를 가지는 앙상블 모델을 제공할 수 있다.In addition, it is possible to provide an ensemble model with higher accuracy because single models can be fully used to determine a specific classification.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.As described above, although described with reference to preferred embodiments of the present invention, those skilled in the art can variously modify and change the present invention within the scope without departing from the spirit and scope of the present invention described in the claims below. You will understand that it can be done.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.In addition, the reference numbers described in the claims of the present invention are provided only for clarity and convenience of explanation, and are not limited thereto, and in the process of describing the embodiment, the thickness of the lines shown in the drawings or the size of components, etc. may be exaggerated for clarity and convenience of explanation.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In addition, the above-mentioned terms are terms defined in consideration of functions in the present invention, which may vary depending on the intention or custom of the user or operator, so the interpretation of these terms should be made based on the content throughout this specification. .

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다. In addition, even if it is not explicitly shown or described, a person of ordinary skill in the art to which the present invention pertains can make various types of modifications including the technical idea according to the present invention from the description of the present invention. Obviously, this still falls within the scope of the present invention.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.In addition, the above embodiments described with reference to the accompanying drawings have been described for the purpose of explaining the present invention, and the scope of the present invention is not limited to these embodiments.

100 : 정보제공 단말 100a : 정보제공 단말 1
100b : 정보제공 단말 n 200 : 데이터수집 서버
300 : 분류 서버 310 : 전처리부
320 : 데이터 분석부 330 : 변수 생성부
340 : 모델링부 341 : 제1 모델부
341" : 루트 모델 342 : 제2 모델부
342" : 예측 모델 342"a : 클래스 모델 A
342"b : 클래스 모델 B 342"c : 클래스 모델 C
342"d : 클래스 모델 D 350 : 예측부
100: information providing terminal 100a: information providing terminal 1
100b: information providing terminal n 200: data collection server
300: classification server 310: preprocessor
320: data analysis unit 330: variable generation unit
340: modeling unit 341: first model unit
341": root model 342: second model part
342" : Predictive Model 342"a : Class Model A
342"b: Class Model B 342"c: Class Model C
342"d: Class Model D 350: Prediction part

Claims (5)

불균형 데이터(Imbalanced data)에서 다중 분류(Multi Classification)를 기반으로 한 모델링을 통해 입력 데이터의 분류 데이터를 생성하는 분석 서버(300)를 포함하고,
상기 분석 서버(300)는 임의의 카테고리(Category)로 분류 가능한 입력 데이터와, 상기 입력 데이터에 포함된 단어들과 상기 입력 데이터와 관련된 프로파일을 기반으로 상기 입력 데이터의 분류에 사용할 학습 데이터 셋을 구성하고,
상기 학습 데이터 셋의 입력 데이터를 미리 설정된 분류 정보를 이용하여 루트 모델(341")이 모델링을 통해 예측 분류 데이터를 생성하는 1차 검증과, 상기 예측 분류 데이터를 기반으로 서로 다른 복수의 클래스 모델(342"a, 342"b, 342"c, 342"d)로 이루어진 예측 모델(342")을 이용한 모델링을 통해 2차 검증한 분류 데이터를 생성하며,
상기 분석 서버(300)는 구성된 학습 데이터 셋에 사용될 데이터의 텍스트 데이터, 날짜 데이터, 오류 데이터를 확인하여 불필요한 데이터는 분리 및 제거하고, 데이터에 결측된 레코드, 결측 컬럼, 이상치를 결측 대체값 및 이상치 대체값으로 수정하는 전처리부(310);
상기 입력 데이터의 특징 분포를 분석하는 데이터 분석부(320);
상기 입력 데이터의 특성, 분류의 특성을 설명하기 위한 파생 변수를 생성하되, 각각이 특성을 갖는 범주형 변수 또는 입력 데이터의 특성을 설명하는 예측 변수를 파생 변수로 생성하는 변수 생성부(330);
제1 모델부(341)가 상기 루트 모델(341")을 이용하여 학습 데이터 셋의 모델링 통한 입력 데이터의 예측 분류 데이터를 예측하고, 제2 모델부(342)가 상기 제1 모델부(341)에서 예측한 예측 분류 데이터를 상기 예측 모델(342")의 서로 다른 복수의 클래스 모델(342"a, 342"b, 342"c, 342"d)중 임의의 클래스 모델(342"a)에 입력하여 모델링을 수행하며, 모델링을 수행한 클래스 모델(342"a)의 예측 데이터가 'T'로 예측되면 해당 클래스 모델(342"a)의 분류 데이터로 출력하고, 상기 모델링을 수행한 클래스 모델(342"a)의 예측 데이터가 'F'이면 상기 루트 모델(341")이 예측한 예측 분류 데이터를 다른 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)로 각각 입력하여 모델링을 통한 예측값을 계산하며, 상기 계산된 예측값을 비교하여 가장 높은 예측값을 갖는 클래스 모델의 분류 데이터로 분류하는 모델링부(340); 및
상기 생성된 분류 데이터를 기반으로 입력 데이터의 카테고리를 분류하여 출력하는 예측부(350)로 이루어진 것을 특징으로 하는 2차 검증을 이용한 다중 분류 시스템.
Includes an analysis server 300 that generates classification data of input data through modeling based on multi-classification from unbalanced data,
The analysis server 300 configures a learning data set to be used for classification of the input data based on input data that can be classified into an arbitrary category, words included in the input data, and a profile related to the input data. do,
Primary verification in which the root model 341" generates predictive classification data through modeling using the input data of the training data set using preset classification information, and a plurality of different class models based on the predictive classification data ( Secondary verification of classification data is generated through modeling using a predictive model 342" consisting of 342"a, 342"b, 342"c, 342"d,
The analysis server 300 identifies text data, date data, and error data of data to be used in the configured training data set, separates and removes unnecessary data, and records missing data, missing columns, and outliers. a pre-processing unit 310 for correcting the replacement value;
a data analysis unit 320 for analyzing the feature distribution of the input data;
a variable generating unit 330 that generates a derived variable for describing the characteristics of the input data and the characteristics of classification, and generates a categorical variable each having a characteristic or a predictive variable describing the characteristics of the input data as a derived variable;
The first model unit 341 predicts the prediction classification data of the input data through modeling of the training data set using the root model 341 ″, and the second model unit 342 uses the first model unit 341 . Input the prediction classification data predicted by the prediction model 342" to any class model 342"a among a plurality of different class models 342"a, 342"b, 342"c, 342"d. to perform modeling, and when the prediction data of the modeled class model 342"a is predicted to be 'T', it is output as the classification data of the corresponding class model 342"a, and the modeled class model ( If the prediction data of 342"a is 'F', the prediction classification data predicted by the root model 341" are divided into other class model B (342"b), class model C (342"c), and class model D 342. a modeling unit 340 that calculates prediction values through modeling by inputting each input as "d), and classifies them as classification data of a class model having the highest prediction value by comparing the calculated prediction values; and
and a prediction unit (350) for classifying and outputting categories of input data based on the generated classification data.
삭제delete 삭제delete a) 분류 서버(300)가 임의의 카테고리(Category)로 분류 가능한 입력 데이터와, 상기 입력 데이터에 포함된 단어들과 상기 입력 데이터와 관련된 프로파일을 기반으로 상기 입력 데이터의 분류에 사용할 학습 데이터 셋을 구성하는 단계; 및
b) 상기 분류 서버(300)가 학습 데이터 셋의 입력 데이터를 미리 설정된 분류 정보를 이용하여 루트 모델(341")의 모델링을 통한 예측 분류 데이터를 생성하는 1차 검증과, 상기 예측 분류 데이터를 기반으로 서로 다른 복수의 클래스 모델(342"a, 342"b, 342"c, 342"d)로 이루어진 예측 모델(342")을 이용한 모델링을 통해 분류 데이터를 생성하는 2차 검증 단계;를 포함하고,
상기 분류 서버(300)는 불균형 데이터(Imbalanced data)에서 다중 분류(Multi Classification)를 기반으로 한 모델링을 통해 입력 데이터의 분류 데이터를 생성하며,
상기 a) 단계는 a-1) 분류 서버(300)가 수집된 입력 데이터와, 입력 데이터에 포함된 단어들과 입력 데이터와 관련된 프로파일을 기반으로 학습 데이터 셋에 사용될 데이터의 텍스트 데이터, 날짜 데이터, 오류 데이터를 확인하여 불필요한 데이터는 분리 및 제거하고, 수집된 데이터에 결측된 레코드, 결측 컬럼, 이상치를 결측 대체값 및 이상치 대체값으로 수정하는 단계;
a-2) 상기 분류 서버(300)가 입력 데이터의 특징 분포를 분석하는 단계; 및
a-3) 상기 분류 서버(300)가 입력 데이터의 특성, 분류의 특성을 설명하기 위한 파생 변수를 생성하되, 각각이 특성을 갖는 범주형 변수 또는 입력 데이터의 특성을 설명하는 예측 변수를 파생 변수로 생성하는 단계;를 포함하고,
상기 b) 단계는 b-1') 분류 서버(300)가 상기 루트 모델(341")을 이용하여 학습 데이터 셋의 모델링 통한 입력 데이터의 예측 분류 데이터를 예측하여 출력하는 단계;
b-2') 상기 분류 서버(300)가 b-1') 단계에서 예측된 예측 분류 데이터를 상기 예측 모델(342")의 서로 다른 복수의 클래스 모델(342"a, 342"b, 342"c, 342"d)중 임의의 클래스 모델(342"a)에 입력하여 모델링을 수행하고, 모델링을 수행한 클래스 모델(342"a)의 예측 데이터가 'T'로 예측되면 해당 클래스 모델(342"a)의 분류 데이터로 출력하는 단계; 및
b-3') 상기 분류 서버(300)가 b-2')의 모델링을 수행한 클래스 모델(342"a)의 예측 데이터가 'F'이면 상기 루트 모델(341")이 예측한 예측 분류 데이터를 다른 클래스 모델 B(342"b), 클래스 모델 C(342"c) 및 클래스 모델 D(342"d)로 각각 입력하여 모델링을 통한 예측값을 계산하고, 상기 계산된 예측값을 비교하여 가장 높은 예측값을 갖는 클래스 모델의 분류 데이터로 분류하는 단계;를 포함하는 것을 특징으로 하는 2차 검증을 이용한 다중 분류 방법.
a) A training data set to be used for classification of the input data based on input data that the classification server 300 can classify into an arbitrary category, words included in the input data, and a profile related to the input data constructing; and
b) Primary verification that the classification server 300 generates predictive classification data through modeling of the root model 341" using preset classification information for input data of the training data set, and the predictive classification data A secondary verification step of generating classification data through modeling using a predictive model (342") consisting of a plurality of different class models (342"a, 342"b, 342"c, 342"d) as ,
The classification server 300 generates classification data of input data through modeling based on multi-classification from unbalanced data,
In step a), a-1) text data of data to be used in a learning data set, date data, based on the input data collected by the classification server 300, words included in the input data, and a profile related to the input data, Checking error data, separating and removing unnecessary data, and correcting missing records, missing columns, and outliers in the collected data into missing replacement values and outlier replacement values;
a-2) the classification server 300 analyzing the feature distribution of the input data; and
a-3) The classification server 300 generates a derived variable for explaining the characteristics of the input data and the characteristics of the classification, and a categorical variable having each characteristic or a predictive variable describing the characteristics of the input data is a derived variable Including;
In step b), b-1') the classification server 300 predicts and outputs predicted classification data of input data through modeling of a training data set using the root model 341";
b-2') The classification server 300 compares the prediction classification data predicted in step b-1') to a plurality of different class models 342"a, 342"b, 342" of the prediction model 342"). c, 342"d) is inputted to an arbitrary class model 342"a to perform modeling, and when the prediction data of the class model 342"a on which modeling is performed is predicted as 'T', the corresponding class model 342 outputting the classification data of "a); and
b-3') If the prediction data of the class model 342"a on which the classification server 300 performs the modeling of b-2') is 'F', the prediction classification data predicted by the root model 341") is inputted into other class model B (342"b), class model C (342"c), and class model D (342"d), respectively, to calculate a predicted value through modeling, and compare the calculated prediction value to obtain the highest predicted value A multiple classification method using secondary verification, comprising: classifying into classification data of a class model having
삭제delete
KR1020210192916A 2021-12-30 2021-12-30 Multy classification system and method using secondary verification KR102413518B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210192916A KR102413518B1 (en) 2021-12-30 2021-12-30 Multy classification system and method using secondary verification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210192916A KR102413518B1 (en) 2021-12-30 2021-12-30 Multy classification system and method using secondary verification

Publications (1)

Publication Number Publication Date
KR102413518B1 true KR102413518B1 (en) 2022-06-28

Family

ID=82268531

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210192916A KR102413518B1 (en) 2021-12-30 2021-12-30 Multy classification system and method using secondary verification

Country Status (1)

Country Link
KR (1) KR102413518B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102589602B1 (en) * 2022-11-14 2023-10-17 주식회사 티라유텍 Apparatus and method for handling missing values

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110043215A (en) 2009-10-21 2011-04-27 조성호 System of recommendation with comparison price for products and method thereof
KR101695797B1 (en) * 2015-10-20 2017-01-13 한국외국어대학교 연구산학협력단 Method for meteorological information analysis by linking a plurality of different classification algorithms
KR20200011028A (en) * 2018-07-23 2020-01-31 세종대학교산학협력단 Multiple-classifier integrated control system and method thereof
KR20210156654A (en) * 2020-06-18 2021-12-27 한국전력공사 Stacking Ensemble Type Short-term Power Demand Prediction Method and Apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110043215A (en) 2009-10-21 2011-04-27 조성호 System of recommendation with comparison price for products and method thereof
KR101695797B1 (en) * 2015-10-20 2017-01-13 한국외국어대학교 연구산학협력단 Method for meteorological information analysis by linking a plurality of different classification algorithms
KR20200011028A (en) * 2018-07-23 2020-01-31 세종대학교산학협력단 Multiple-classifier integrated control system and method thereof
KR20210156654A (en) * 2020-06-18 2021-12-27 한국전력공사 Stacking Ensemble Type Short-term Power Demand Prediction Method and Apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"다중 스태킹을 가진 새로운 앙상블 학습 기법", 한국전자거래학회지 제25권 제3호(pp.1-13), 2020년 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102589602B1 (en) * 2022-11-14 2023-10-17 주식회사 티라유텍 Apparatus and method for handling missing values

Similar Documents

Publication Publication Date Title
Keramati et al. Developing a prediction model for customer churn from electronic banking services using data mining
Issa et al. Research ideas for artificial intelligence in auditing: The formalization of audit and workforce supplementation
CN109800885A (en) It is determined for the rule of black box machine learning model
Galantucci et al. Assembly and disassembly planning by using fuzzy logic & genetic algorithms
CN110377730A (en) Case is by classification method, device, computer equipment and storage medium
CN112348629A (en) Commodity information pushing method and device
KR102146546B1 (en) Method for provide enterprise stock forecasting algorithm based on situation cognition
WO2020069051A1 (en) Model aggregation using model encapsulation of user-directed iterative machine learning
CN112861980B (en) Calendar task table mining method based on big data and computer equipment
Rosati et al. A novel deep ordinal classification approach for aesthetic quality control classification
KR102413518B1 (en) Multy classification system and method using secondary verification
Bernardo et al. Social market: Stock market and twitter correlation
de Oliveira et al. Absenteeism prediction in call center using machine learning algorithms
Rogic et al. Customer value prediction in direct marketing using hybrid support vector machine rule extraction method
KR102381181B1 (en) System and method for tracking and analyzing digital information by using artificial intelligence
Katiyar et al. TagIT: a system for image auto-tagging and clustering
Elhadad Insurance Business Enterprises' Intelligence in View of Big Data Analytics
Krishnan et al. Detection of fake reviews on online products using machine learning algorithms
Haidn Flight recommender system using implicit feedback
Burduk The AdaBoost algorithm with linear modification of the weights
Dolly Nithisha et al. Unfair Review Detection on Amazon Reviews Using Sentiment Analysis
Rofik et al. Optimization of SVM and Gradient Boosting Models Using GridSearchCV in Detecting Fake Job Postings
Satu et al. Modeling online customer purchase intention behavior applying different feature engineering and classification techniques
AlZaabi Correlating Sentiment in Reddit’s Wallstreetbets with the Stock Market Using Machine Learning Techniques
Riasi et al. Comparing the performance of different data mining techniques in evaluating loan applications

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant