KR20200054121A - Method for machine learning and apparatus for the same - Google Patents
Method for machine learning and apparatus for the same Download PDFInfo
- Publication number
- KR20200054121A KR20200054121A KR1020190157255A KR20190157255A KR20200054121A KR 20200054121 A KR20200054121 A KR 20200054121A KR 1020190157255 A KR1020190157255 A KR 1020190157255A KR 20190157255 A KR20190157255 A KR 20190157255A KR 20200054121 A KR20200054121 A KR 20200054121A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- label information
- learning
- model
- machine learning
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
Description
본 개시는 기계 학습 방법 및 장치에 관한 것이다. 보다 자세하게는, 어노테이션(annotation) 작업에 소요되는 인적 비용 및 시간 비용을 최소화함과 동시에 빠르게 고성능의 기계 학습 모델을 구축할 수 있는 방법 및 그 방법을 수행하는 장치에 관한 것이다.The present disclosure relates to a machine learning method and apparatus. More specifically, the present invention relates to a method and apparatus for performing a method capable of quickly constructing a high-performance machine learning model while minimizing human and time costs required for annotation.
지도 학습(supervised learning)이란 도 1에 도시된 바와 같이 레이블 정보(즉, 정답 정보)가 주어진 데이터셋(2)을 학습하여 목적 태스크를 수행하는 타깃 모델(3)을 구축하는 기계 학습 방법이다. 따라서, 레이블 정보(태그 아이콘으로 표시됨)가 주어지지 않은 데이터셋(1)에 대해 지도 학습을 수행하기 위해서는, 어노테이션(annotation) 작업이 필수적으로 선행되어야 한다.Supervised learning is a machine learning method of constructing a
어노테이션은 학습 데이터셋을 생성하기 위해 데이터 별로 레이블 정보를 태깅하는 작업을 의미한다. 어노테이션 작업은 일반적으로 사람에 의해 수행되기 때문에, 대량의 학습 데이터셋을 생성하기 위해서는 상당한 인적 비용과 시간 비용이 소모된다. 특히, 의료 이미지에서 병변의 종류 또는 위치 등을 진단하는 기계 학습 모델을 구축하는 경우라면, 숙련된 전문의에 의해 어노테이션 작업이 수행되어야 하기 때문에, 다른 도메인에 비해 훨씬 더 많은 비용이 소모된다.Annotation refers to the task of tagging label information for each data to create a training dataset. Since annotation work is generally performed by humans, it is a significant human and time consuming task to generate a large set of training datasets. In particular, in the case of constructing a machine learning model for diagnosing the type or location of a lesion in a medical image, an annotation work has to be performed by a skilled specialist, which is much more expensive than other domains.
기계 학습 분야에서 어노테이션 작업에 소요되는 비용을 줄이고, 소량의 학습 데이터셋으로 고성능의 모델을 구축하기 위해 다양한 연구가 수행된 바 있다. 가령, 전이 학습(transfer learning), 약한 지도 학습(weakly supervised learning), 액티브 러닝(active learning) 등의 기계 학습 기법들이 모두 그 연구의 일환으로 볼 수 있다.Various studies have been conducted to reduce the cost of annotation work in the field of machine learning and to build a high-performance model with a small amount of training dataset. For example, machine learning techniques such as transfer learning, weakly supervised learning, and active learning can all be seen as part of the study.
이중에서, 액티브 러닝(active learning)은 전체 데이터셋 중에서 분류하기 어려운 데이터셋을 선별하고, 선별된 데이터셋에 대해 학습을 수행함으로써 어노테이션 작업에 소요되는 비용을 줄이는 기법이다. 즉, 액티브 러닝은 선별된 데이터셋에 대해서만 어노테이션 작업을 수행함으로써 어노테이션 비용을 줄이는 기법으로 볼 수 있다.Of these, active learning is a technique that reduces the cost of an annotation task by selecting a dataset that is difficult to classify among all datasets and performing learning on the selected dataset. In other words, active learning can be viewed as a technique that reduces annotation costs by performing annotation on only selected datasets.
액티브 러닝이 수행되는 과정은 도 2에 도시되어 있다. 도 2에 도시된 바와 같이, 액티브 러닝은 레이블 정보가 주어지지 않은 데이터셋(4)에서 일부 데이터 샘플로 구성된 샘플 집합(5)을 무작위로 추출하여 제1 어노테이션 작업(①)을 수행하고, 샘플 집합(5)에 대해 타깃 모델(6)의 제1 학습(②)을 수행하는 과정에서 시작된다. 다음으로, 데이터셋(4) 중에 미학습 데이터 샘플에 대해 불확실성 샘플링(uncertainty sampling)을 수행하여 분류하기 어려운 샘플 집합(7)이 선별된다(③). 불확실성 샘플링은 타깃 모델(6)을 이용하여 수행되는데, 불확실성의 척도로는 타깃 모델(6)의 클래스별 컨피던스 스코어(confidence score)에 기반한 엔트로피(entropy) 값이 주로 이용된다. 여기서, 분류하기 어려운 데이터 샘플은 컨피던스 스코어가 클래스별로 고르게 분포하여 엔트로피 값이 임계치 이상이 되는 데이터 샘플들을 의미한다. 또한, 선별된 샘플 집합(7)에 대해서만 어노테이션 작업이 수행되고(④), 레이블 정보가 획득된 샘플 집합(8)으로 타깃 모델(6)에 대한 제2 학습(⑤)이 수행된다. 또한, 과정(③, ④, ⑤)은 타깃 모델(6)의 학습이 종료될 때까지 반복 수행된다.The process in which active learning is performed is illustrated in FIG. 2. As shown in FIG. 2, active learning randomly extracts a
위와 같이, 액티브 러닝은 모델 관점에서 분류하기 어려운 일부 데이터 샘플만을 집중적으로 학습함으로써, 전체 데이터 샘플에 대한 어노테이션 작업 없이 목표 성능을 달성하는 학습 기법이다.As described above, active learning is a learning technique that achieves a target performance without annotating an entire data sample by intensively learning only some data samples that are difficult to classify from a model point of view.
그러나, 위와 같은 액티브 러닝 기법은 다양한 문제점을 지니고 있다. 먼저, 가장 근본적인 문제점은 불확실성 샘플링의 기준이 되는 엔트로피 값이 타깃 모델의 컨피던스 스코어에 기반하여 산출된다는 점이다. 다시 말하면, 타깃 모델이 충분히 학습되기 전까지는 엔트로피 값의 정확도가 높지 않기 때문에, 분류에 어려운 데이터 샘플이 정확하게 선별될 수 없게 된다. 또한, 이로 인해 액티브 러닝이 수행되는 동안 타깃 모델의 성능이 더디게 향상되고, 어노테이션 비용 감소 효과도 미미해진다.However, the above active learning technique has various problems. First, the most fundamental problem is that the entropy value that is the basis of uncertainty sampling is calculated based on the target model's confidence score. In other words, since the accuracy of the entropy value is not high until the target model is sufficiently trained, data samples that are difficult to classify cannot be accurately selected. In addition, the performance of the target model is gradually improved while active learning is performed, and the effect of reducing the annotation cost is also insignificant.
또 다른 문제점은, 엔트로피가 분류 태스크에만 적용될 수 있는 지표이기 때문에, 액티브 러닝의 적용 범위가 크게 제한된다는 것이다. 가령, 엔트로피 값에 기반한 액티브 러닝은 회귀(regression) 태스크와 연관된 기계 학습 모델을 구축하는 데에는 활용될 수 없다.Another problem is that, since entropy is an index that can be applied only to classification tasks, the range of active learning is greatly limited. For example, active learning based on entropy values cannot be used to build machine learning models associated with regression tasks.
따라서, 액티브 러닝의 적용 범위를 확대하고, 학습에 효과적인 데이터 샘플을 정확하게 선별하여 어노테이션 비용 감소 효과를 극대화하기 위해서는, 새로운 방식의 액티브 러닝 기법이 요구된다.Therefore, in order to maximize the effect of reducing annotation costs by expanding the application range of active learning and accurately selecting data samples effective for learning, a new type of active learning technique is required.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 기술적 과제는, 어노테이션 작업에 소요되는 인적 비용 및 시간 비용을 절감할 수 있는 기계 학습 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.The technical problem to be solved through some embodiments of the present disclosure is to provide a machine learning method and an apparatus for performing the method, which can reduce human and time costs for annotation work.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 다른 기술적 과제는, 학습에 효과적인 데이터 샘플을 정확하게 선별하는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.Another technical problem to be solved through some embodiments of the present disclosure is to provide a method for accurately selecting a data sample effective for learning and an apparatus for performing the method.
본 개시가 해결하고자 하는 또 다른 기술적 과제는, 엔트로피보다 범용적인 샘플링 지표를 활용하여 액티브 러닝의 적용 범위를 확대할 수 있는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.Another technical problem to be solved by the present disclosure is to provide a method capable of expanding an application range of active learning by using a general purpose sampling index rather than entropy, and an apparatus for performing the method.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present disclosure are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.
상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예들에 따른 기계 학습 방법은, 컴퓨팅 장치에서 수행되는 기계 학습 방법으로서, 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함하는 제1 모델의 학습 데이터셋을 획득하는 단계, 상기 복수의 데이터 샘플에 대하여 상기 제1 모델의 오예측(miss-prediction) 확률을 산출하는 단계, 상기 산출된 오예측 확률을 기초로 상기 복수의 데이터 샘플 중 적어도 하나의 데이터 샘플을 선별하여 제1 데이터 샘플 집합을 구성하는 단계, 상기 제1 데이터 샘플 집합에 대한 제1 레이블 정보를 획득하는 단계 및 상기 제1 데이터 샘플 집합과 상기 제1 레이블 정보를 이용하여 상기 제1 모델에 대한 제1 학습을 수행하는 단계를 포함할 수 있다.In order to solve the above technical problem, a machine learning method according to some embodiments of the present disclosure is a machine learning method performed on a computing device, wherein the first model includes a plurality of data samples to which label information is not given. Acquiring a dataset, calculating a miss-prediction probability of the first model with respect to the plurality of data samples, and at least one of the plurality of data samples based on the calculated misprediction probability Selecting a data sample to construct a first data sample set, obtaining first label information for the first data sample set, and using the first data sample set and the first label information to form the first model It may include performing a first learning for.
몇몇 실시예에서, 상기 제1 데이터 샘플 집합은 상기 산출된 오예측 확률이 임계치 이상인 데이터 샘플로 구성될 수 있다.In some embodiments, the first set of data samples may be composed of data samples in which the calculated false prediction probability is greater than or equal to a threshold.
몇몇 실시예에서, 상기 제1 모델의 오예측 확률을 산출하는 단계는, 상기 제1 모델의 평가 결과에 기초하여 상기 제1 모델의 오예측 확률을 산출하기 위한 제2 모델을 구축하는 단계 및 상기 제2 모델을 이용하여 상기 복수의 데이터 샘플 각각에 대한 오예측 확률을 산출하는 단계를 포함할 수 있다.In some embodiments, calculating the false predicted probability of the first model includes: constructing a second model for calculating the false predicted probability of the first model based on the evaluation result of the first model, and And calculating a misprediction probability for each of the plurality of data samples using a second model.
몇몇 실시예에서, 상기 제2 모델을 구축하는 단계는, 정답 레이블 정보가 주어진 제1 데이터 샘플을 이용하여 상기 제1 모델을 학습시키는 단계, 상기 제1 데이터 샘플을 이용하여 상기 제1 모델을 평가하는 단계, 상기 평가 결과에 기초한 레이블 정보를 상기 제1 데이터 샘플에 태깅하는 단계 및 상기 제1 데이터 샘플을 상기 태깅된 레이블 정보로 학습하여 상기 제2 모델을 구축하는 단계를 포함할 수 있다.In some embodiments, constructing the second model includes: training the first model using a first data sample given correct answer label information, and evaluating the first model using the first data sample The method may include tagging label information based on the evaluation result to the first data sample, and constructing the second model by learning the first data sample with the tagged label information.
몇몇 실시예에서, 상기 태깅된 레이블 정보는 상기 제1 데이터 샘플의 예측 오차일 수 있다.In some embodiments, the tagged label information may be a prediction error of the first data sample.
몇몇 실시예에서, 상기 레이블 정보를 태깅하는 단계는, 상기 예측 결과가 FP(false positive) 또는 FN(false negative)에 해당한다는 판정에 응답하여, 제1 값을 상기 제1 데이터 샘플의 레이블로 태깅하는 단계 및 상기 예측 결과가 TP(true positive) 또는 TN(true negative)에 해당한다는 판정에 응답하여, 제2 값을 상기 제1 데이터 샘플의 레이블로 태깅하는 단계를 포함할 수 있다.In some embodiments, the step of tagging the label information, in response to determining that the prediction result corresponds to a false positive (FP) or a false negative (FN), tagging a first value as a label of the first data sample And in response to a determination that the prediction result corresponds to a true positive (TP) or a true negative (TN), tagging a second value with a label of the first data sample.
몇몇 실시예에서, 상기 제2 모델을 구축하는 단계는, 정답 레이블 정보가 주어진 제1 데이터 샘플을 이용하여 상기 제1 모델을 학습시키는 단계, 정답 레이블 정보가 주어진 제2 데이터 샘플을 이용하여 상기 학습된 제1 모델을 평가하는 단계, 상기 평가 결과에 기초한 레이블 정보를 상기 제2 데이터 샘플에 태깅하는 단계 및 상기 제2 데이터 샘플을 상기 태깅된 레이블 정보로 학습하여 상기 제2 모델을 구축하는 단계를 포함할 수 있다.In some embodiments, the step of building the second model includes: training the first model using a first data sample given correct answer label information, and learning the second model using a second data sample given correct answer label information Evaluating the first model, tagging label information based on the evaluation result into the second data sample, and constructing the second model by learning the second data sample with the tagged label information. It can contain.
몇몇 실시예에서, 상기 제1 학습된 제1 모델의 평가 결과를 이용하여 상기 제2 모델을 갱신하는 단계, 상기 갱신된 제2 모델을 이용하여 미학습 데이터 샘플 중에서 적어도 하나의 데이터 샘플을 선별하여, 제2 데이터 샘플 집합을 구성하는 단계, 상기 제2 데이터 샘플 집합에 대한 제2 레이블 정보를 획득하는 단계 및 상기 제2 데이터 샘플 집합 및 상기 제2 레이블 정보를 이용하여 상기 제1 학습된 제1 모델에 대한 제2 학습을 수행하는 단계를 더 포함할 수 있다.In some embodiments, updating the second model using the evaluation result of the first trained first model, and selecting at least one data sample from among untrained data samples using the updated second model , Configuring a second data sample set, obtaining second label information for the second data sample set, and using the second data sample set and the second label information to obtain the first learned first The method may further include performing a second learning on the model.
몇몇 실시예에서, 상기 제1 모델을 통해 상기 학습 데이터셋에 포함된 제1 데이터 샘플에 대한 클래스별 컨피던스 스코어(confidence score)를 산출하는 단계, 상기 클래스별 컨피던스 스코어를 기초로 상기 제1 데이터 샘플에 대한 엔트로피(entropy) 값을 연산하는 단계 및 상기 엔트로피 값이 임계치 미만이라는 판정에 응답하여, 상기 제1 데이터 샘플을 상기 제1 모델의 학습 데이터셋에서 제외하는 단계를 더 포함할 수 있다.In some embodiments, calculating a confidence score for each class of a first data sample included in the training data set through the first model, the first data sample based on the confidence score for each class The method may further include calculating an entropy value for and excluding the first data sample from the training dataset of the first model in response to determining that the entropy value is below a threshold.
몇몇 실시예에서, 상기 제1 데이터 샘플 집합은 상기 산출된 오예측 확률이 제1 임계치 이상인 데이터 샘플로 구성되고, 상기 제1 데이터 샘플 집합을 구성하는 단계는, 상기 복수의 데이터 샘플 중에서 상기 산출된 오예측 확률이 제2 임계치 미만인 적어도 하나의 데이터 샘플은 선별하여 제2 데이터 샘플 집합을 구성하는 단계 및 상기 제2 데이터 샘플 집합을 상기 제1 모델의 학습 데이터셋에서 제외하는 단계를 포함할 수 있다.In some embodiments, the first data sample set is composed of data samples in which the calculated misprediction probability is greater than or equal to a first threshold, and configuring the first data sample set comprises calculating the calculated data among the plurality of data samples. The method may include selecting at least one data sample having a false prediction probability less than a second threshold and configuring a second data sample set and excluding the second data sample set from the training dataset of the first model. .
몇몇 실시예에서, 상기 제1 학습을 수행하는 단계는, 상기 제1 데이터 샘플 집합을 구성하는 각각의 데이터 샘플에 적어도 일부는 서로 다른 샘플 가중치를 부여하는 단계 및 상기 샘플 가중치에 기초하여 상기 제1 데이터 샘플 집합을 학습하는 단계를 포함하되, 상기 샘플 가중치 값은 상기 각각의 데이터 샘플의 오예측 확률에 기초하여 결정될 수 있다.In some embodiments, the step of performing the first learning may include at least partially assigning different sample weights to each data sample constituting the first data sample set and the first weights based on the sample weights. And learning a set of data samples, wherein the sample weight value may be determined based on a misprediction probability of each data sample.
몇몇 실시예에서, 상기 제1 학습을 수행하는 단계는, 데이터 확장(data augmentation) 기법을 적용하여 상기 제1 데이터 샘플 집합으로부터 제2 데이터 샘플 집합을 생성하는 단계 및 상기 제2 데이터 샘플 집합을 더 학습하여 상기 제1 모델을 갱신하는 단계를 포함할 수 있다.In some embodiments, the step of performing the first learning further comprises generating a second data sample set from the first data sample set by applying a data augmentation technique, and further adding the second data sample set. And learning and updating the first model.
몇몇 실시예에서, 상기 제1 학습된 제1 모델의 오예측 확률에 기초하여, 상기 제1 학습에 이용되지 않은 데이터 샘플 중 적어도 하나의 데이터 샘플을 선별하여 제2 데이터 샘플 집합을 구성하는 단계, 상기 제2 데이터 샘플 집합에 대한 제2 레이블 정보를 획득하는 단계 및 상기 제2 데이터 샘플 집합 및 상기 제2 레이블 정보를 이용하여 상기 제1 학습된 제1 모델에 대한 제2 학습을 수행하는 단계를 더 포함할 수 있다.In some embodiments, based on a misprediction probability of the first trained first model, selecting at least one data sample among data samples not used for the first training to configure a second data sample set, Obtaining second label information for the second data sample set and performing second learning for the first trained first model using the second data sample set and the second label information. It may further include.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 기계 학습 장치는, 하나 이상의 인스트럭션들(instructions)을 포함하는 메모리 및 상기 하나 이상의 인스트럭션들을 실행함으로써, 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함하는 제1 모델의 학습 데이터셋을 획득하고, 상기 복수의 데이터 샘플에 대하여 상기 제1 모델의 오예측(miss-prediction) 확률을 산출하며, 상기 산출된 오예측 확률을 기초로 상기 복수의 데이터 샘플 중 적어도 하나의 데이터 샘플을 선별하여 제1 데이터 샘플 집합을 구성하고, 상기 제1 데이터 샘플 집합에 대한 제1 레이블 정보를 획득하며, 상기 제1 데이터 샘플 집합과 상기 제1 레이블 정보를 이용하여 상기 제1 모델에 대한 제1 학습을 수행하는 프로세서를 포함할 수 있다.A machine learning apparatus according to some embodiments of the present disclosure for solving the above-described technical problem may include a memory including one or more instructions and a plurality of labels that are not given by executing the one or more instructions. Acquiring a training dataset of a first model including a data sample, calculating a miss-prediction probability of the first model for the plurality of data samples, and based on the calculated misprediction probability Selecting at least one data sample from a plurality of data samples to configure a first data sample set, obtaining first label information for the first data sample set, and obtaining the first data sample set and the first label information. It may include a processor for performing a first learning for the first model using.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함하는 제1 모델의 학습 데이터셋을 획득하는 단계, 상기 복수의 데이터 샘플에 대하여 상기 제1 모델의 오예측(miss-prediction) 확률을 산출하는 단계, 상기 산출된 오예측 확률을 기초로 상기 복수의 데이터 샘플 중 적어도 하나의 데이터 샘플을 선별하여 제1 데이터 샘플 집합을 구성하는 단계, 상기 제1 데이터 샘플 집합에 대한 제1 레이블 정보를 획득하는 단계 및 상기 제1 데이터 샘플 집합과 상기 제1 레이블 정보를 이용하여 상기 제1 모델에 대한 제1 학습을 수행하는 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장될 수 있다.A computer program according to some embodiments of the present disclosure for solving the above technical problem is coupled to a computing device to obtain a training dataset of a first model including a plurality of data samples to which label information is not given. Step, calculating a miss-prediction probability of the first model with respect to the plurality of data samples, and selecting at least one data sample among the plurality of data samples based on the calculated misprediction probability Constructing a first data sample set, obtaining first label information for the first data sample set, and first learning about the first model using the first data sample set and the first label information It may be stored in a computer-readable recording medium to perform the steps of performing.
상술한 기술적 과제를 해결하기 위한 본 개시의 다른 몇몇 실시예들에 따른 기계 학습 방법은, 컴퓨팅 장치에서 수행되는 기계 학습 방법으로서, 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함하는 학습 데이터셋을 획득하는 단계, 상기 학습 데이터셋에 포함된 제1 데이터 샘플 집합에 대한 제1 레이블 정보를 획득하고, 상기 제1 데이터 샘플 집합을 상기 제1 레이블 정보로 학습하여 제1 모델을 구축하는 단계, 상기 학습 데이터셋에서 상기 제1 데이터 샘플 집합을 제외한 나머지 데이터 샘플에 대하여 상기 제1 모델의 오예측 확률(miss-prediction)을 산출하는 단계, 상기 오예측 확률에 기초하여 상기 나머지 데이터 샘플 중에서 적어도 하나의 데이터 샘플을 선별하여 제2 데이터 샘플 집합을 구성하는 단계, 상기 제2 데이터 샘플 집합에 대한 제2 레이블 정보를 획득하는 단계 및 상기 제2 데이터 샘플 집합과 상기 제2 레이블 정보로 초기화 상태의 제2 모델을 학습하는 단계를 포함할 수 있다.A machine learning method according to some other embodiments of the present disclosure for solving the above technical problem is a machine learning method performed on a computing device, and includes a learning data set including a plurality of data samples to which label information is not given. Acquiring, acquiring first label information for a first set of data samples included in the training data set, learning the first set of data samples with the first label information, and building a first model; Calculating a miss-prediction of the first model with respect to data samples excluding the first data sample set from the training data set, based on the misprediction probability, at least one of the remaining data samples Selecting a data sample and constructing a second data sample set, a second for the second data sample set The method may include acquiring label information and learning a second model in an initialization state with the second data sample set and the second label information.
상술한 기술적 과제를 해결하기 위한 본 개시의 다른 몇몇 실시예들에 따른 기계 학습 장치는, 하나 이상의 인스트럭션들(instructions)을 포함하는 메모리 및 상기 하나 이상의 인스트럭션들을 실행함으로써, 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함하는 학습 데이터셋을 획득하고, 상기 학습 데이터셋에 포함된 제1 데이터 샘플 집합에 대한 제1 레이블 정보를 획득하고, 상기 제1 데이터 샘플 집합을 상기 제1 레이블 정보로 학습하여 제1 모델을 구축하며, 상기 학습 데이터셋에서 상기 제1 데이터 샘플 집합을 제외한 나머지 데이터 샘플에 대하여 상기 제1 모델의 오예측 확률(miss-prediction)을 산출하고, 상기 오예측 확률에 기초하여 상기 나머지 데이터 샘플 중에서 적어도 하나의 데이터 샘플을 선별하여 제2 데이터 샘플 집합을 구성하며, 상기 제2 데이터 샘플 집합에 대한 제2 레이블 정보를 획득하고, 상기 제2 데이터 샘플 집합과 상기 제2 레이블 정보로 초기화 상태의 제2 모델을 학습하는 프로세서를 포함할 수 있다.A machine learning apparatus according to some other embodiments of the present disclosure for solving the above-described technical problem, a memory including one or more instructions and one or more instructions, by executing the one or more instructions, a plurality of labels are not given Acquiring a training dataset including a data sample of, obtaining first label information for a first data sample set included in the training dataset, and learning the first data sample set as the first label information Construct a first model, calculate a miss-prediction of the first model for the remaining data samples excluding the first data sample set from the training data set, and calculate the miss-prediction of the first model based on the false prediction probability. At least one data sample is selected from the remaining data samples to form a second data sample set, And a processor that acquires second label information for the second data sample set, and trains a second model in an initialized state with the second data sample set and the second label information.
상술한 기술적 과제를 해결하기 위한 본 개시의 다른 몇몇 실시예들에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함하는 학습 데이터셋을 획득하는 단계, 상기 학습 데이터셋에 포함된 제1 데이터 샘플 집합에 대한 제1 레이블 정보를 획득하고, 상기 제1 데이터 샘플 집합을 상기 제1 레이블 정보로 학습하여 제1 모델을 구축하는 단계, 상기 학습 데이터셋에서 상기 제1 데이터 샘플 집합을 제외한 나머지 데이터 샘플에 대하여 상기 제1 모델의 오예측 확률(miss-prediction)을 산출하는 단계, 상기 오예측 확률에 기초하여 상기 나머지 데이터 샘플 중에서 적어도 하나의 데이터 샘플을 선별하여 제2 데이터 샘플 집합을 구성하는 단계, 상기 제2 데이터 샘플 집합에 대한 제2 레이블 정보를 획득하는 단계 및 상기 제2 데이터 샘플 집합과 상기 제2 레이블 정보로 초기화 상태의 제2 모델을 학습하는 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장될 수 있다.A computer program according to some other embodiments of the present disclosure for solving the above-described technical problem is combined with a computing device to obtain a learning dataset including a plurality of data samples to which label information is not provided, wherein Obtaining first label information for a first set of data samples included in a training data set, and learning the first set of data samples with the first label information to build a first model, wherein the learning data set includes Calculating miss-prediction of the first model with respect to the remaining data samples excluding the first set of data samples, and selecting at least one data sample from the remaining data samples based on the false prediction probability Configuring a second data sample set, obtaining second label information for the second data sample set And wherein the step may be stored in a computer-readable recording medium so as to execute the step of learning a second model of the initialized state to the second label information set and the second data sample.
상술한 본 개시의 다양한 실시예들에 따르면, 타깃 모델의 오예측 확률에 기반하여 어노테이션이 수행될 데이터 샘플이 선별된다. 즉, 불확실성에 기반하여 데이터 샘플이 선별되는 것이 아니라, 타깃 모델이 틀릴 것 같은 데이터 샘플이 선별된다. 상기 오예측 확률은 불확실성과는 달리 타깃 모델의 컨피던스 스코어에 의존한 값이 아니기 때문에, 보다 정확하게 데이터 샘플이 선별될 수 있다.According to various embodiments of the present disclosure described above, a data sample to be annotated is selected based on a false prediction probability of a target model. That is, data samples are not selected based on uncertainty, but data samples that are likely to have a wrong target model are selected. Unlike the uncertainty, the misprediction probability is not a value dependent on the confidence score of the target model, so that a data sample can be more accurately selected.
또한, 타깃 모델이 틀릴 것 같은 데이터 샘플로 상기 타깃 모델을 집중적으로 학습시킴으로써, 학습 효과가 향상될 수 있다. 즉, 타깃 모델의 성능이 빠르게 목표 성능에 도달할 수 있게 된다. 이에 따라, 학습에 소요되는 컴퓨팅 비용 및 시간 비용이 크게 절감될 수 있으며, 어노테이션에 소요되는 비용 또한 크게 절감될 수 있다.In addition, the learning effect can be improved by intensively learning the target model with a data sample in which the target model is wrong. That is, the performance of the target model can quickly reach the target performance. Accordingly, the cost of computing and time required for learning can be greatly reduced, and the cost of annotation can also be significantly reduced.
또한, 엔트로피 값에 의존하지 않고, 타깃 모델의 오예측 확률에 기반하여 액티브 러닝이 수행되는 바, 액티브 러닝의 적용 범위가 크게 확대될 수 있다.In addition, since active learning is performed based on the probability of incorrect prediction of the target model without depending on the entropy value, the range of application of active learning can be greatly expanded.
본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects according to the technical spirit of the present disclosure are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.
도 1은 지도 학습과 어노테이션 작업 간의 관계를 설명하기 위한 예시도이다.
도 2는 종래의 액티브 러닝 기법을 설명하기 위한 예시도이다.
도 3 및 도 4는 본 개시의 몇몇 실시예들에 따른 기계 학습 장치의 동작과 입출력을 개략적으로 설명하기 위한 도면이다.
도 5 및 도 6은 본 개시의 몇몇 실시예들에 따른 기계 학습 장치를 나타내는 예시적인 블록도이다.
도 7은 본 개시의 몇몇 실시예들에 따른 기계 학습 장치의 학습 동작을 설명하기 위한 예시도이다.
도 8은 본 개시의 몇몇 실시예들에 따른 기계 학습 방법을 나타내는 예시적인 흐름도이다.
도 9 및 도 10은 본 개시의 제1 실시예에 따른 오예측 확률 산출 모델 구축 방법을 설명하기 위한 도면이다.
도 11은 본 개시의 제2 실시예에 따른 오예측 확률 산출 모델 구축 방법을 설명하기 위한 도면이다.
도 12는 본 개시의 몇몇 실시예들에 따른 오예측 확률 기반 데이터 샘플 선별(샘플링) 방법을 설명하기 위한 예시도이다.
도 13은 본 개시의 몇몇 실시예들에 따른 기계 학습 방법을 나타내는 예시도이다.
도 14는 본 개시의 몇몇 실시예들에 따른 데이터 확장 기법을 이용한 학습 효과 향상 방법을 설명하기 위한 예시도이다.
도 15는 본 개시의 몇몇 실시예들에 따른 샘플 가중치를 이용한 학습 효과 향상 방법을 설명하기 위한 예시도이다.
도 16은 본 개시의 다른 몇몇 실시예들에 따른 기계 학습 방법을 설명하기 위한 흐름도이다.
도 17 내지 도 19는 본 개시의 몇몇 활용예에 따른 전체 슬라이드 이미지 기반의 패치 샘플링 방법을 설명하기 위한 도면이다.
도 20은 본 개시의 몇몇 활용예에 따른 기계 학습 모델을 나타내는 예시도이다.
도 21은 본 개시의 몇몇 활용예에 따른 기계 학습 방법을 설명하기 위한 도면이다.
도 22는 본 개시의 다양한 실시예들에 따른 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 나타내는 예시적인 하드웨어 구성도이다.1 is an exemplary diagram for explaining a relationship between supervised learning and annotation work.
2 is an exemplary diagram for explaining a conventional active learning technique.
3 and 4 are diagrams for schematically explaining operations and inputs and outputs of a machine learning apparatus according to some embodiments of the present disclosure.
5 and 6 are exemplary block diagrams illustrating a machine learning apparatus according to some embodiments of the present disclosure.
7 is an exemplary diagram for describing a learning operation of a machine learning apparatus according to some embodiments of the present disclosure.
8 is an exemplary flow diagram illustrating a machine learning method in accordance with some embodiments of the present disclosure.
9 and 10 are diagrams for explaining a method for constructing a model for calculating a false prediction probability according to a first embodiment of the present disclosure.
11 is a view for explaining a method for constructing a model for calculating a false prediction probability according to a second embodiment of the present disclosure.
12 is an exemplary diagram for describing a method for selecting (sampling) a data sample based on a misprediction probability according to some embodiments of the present disclosure.
13 is an exemplary diagram illustrating a machine learning method according to some embodiments of the present disclosure.
14 is an exemplary diagram for explaining a method of improving a learning effect using a data expansion technique according to some embodiments of the present disclosure.
15 is an exemplary diagram for explaining a method of improving a learning effect using sample weights according to some embodiments of the present disclosure.
16 is a flowchart illustrating a machine learning method according to some other embodiments of the present disclosure.
17 to 19 are diagrams for explaining a patch sampling method based on an entire slide image according to some application examples of the present disclosure.
20 is an exemplary diagram illustrating a machine learning model according to some use cases of the present disclosure.
21 is a diagram for explaining a machine learning method according to some application examples of the present disclosure.
22 is an example hardware configuration diagram illustrating an example computing device capable of implementing an apparatus in accordance with various embodiments of the present disclosure.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.Hereinafter, preferred embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. Advantages and features of the present disclosure, and methods for achieving them will be apparent with reference to embodiments described below in detail in conjunction with the accompanying drawings. However, the technical spirit of the present disclosure is not limited to the following embodiments, and may be implemented in various different forms, and only the present embodiments allow the present disclosure to be complete, and common knowledge in the technical field to which the present disclosure pertains. It is provided to fully inform the holder of the scope of the present disclosure, and the technical spirit of the present disclosure is only defined by the scope of the claims.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.It should be noted that in adding reference numerals to the components of each drawing, the same components have the same reference numerals as possible even though they are displayed on different drawings. In addition, in describing the present disclosure, when it is determined that a detailed description of related known configurations or functions may obscure the subject matter of the present disclosure, the detailed description will be omitted.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used in a sense that can be commonly understood by those skilled in the art to which this disclosure belongs. In addition, terms defined in the commonly used dictionary are not ideally or excessively interpreted unless specifically defined. The terminology used herein is for describing the embodiments and is not intended to limit the present disclosure. In the present specification, the singular form also includes the plural form unless otherwise specified in the phrase.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.In addition, in describing the components of the present disclosure, terms such as first, second, A, B, (a), and (b) may be used. These terms are only for distinguishing the component from other components, and the nature, order, or order of the component is not limited by the term. When a component is described as being "connected", "coupled" or "connected" to another component, the component may be directly connected to or connected to the other component, but another component between each component It will be understood that elements may be "connected", "coupled" or "connected".
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.As used herein, "comprises" and / or "comprising" refers to the components, steps, operations and / or elements mentioned above, the presence of one or more other components, steps, operations and / or elements Or do not exclude additions.
본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.Prior to the description of the present specification, some terms used in the specification will be clarified.
본 명세서에서, 타깃 모델(target model)이란, 목적 태스크를 수행하는 모델이자 기계 학습을 통해 구축하고자 하는 대상 모델이다.In the present specification, a target model is a model that performs a target task and is a target model to be built through machine learning.
본 명세서에서, 레이블 정보(label information)란, 데이터 샘플의 정답 정보를 의미한다. 상기 레이블 정보는 일반적으로 어노테이션 작업을 통해 획득될 수 있다.In this specification, label information means correct answer information of a data sample. The label information can be generally obtained through annotation work.
본 명세서에서, 어노테이션(annotation)이란, 데이터 샘플에 레이블 정보를 태깅하는 작업을 의미한다. 상기 어노테이션은 레이블 정보 자체를 의미하는 용어로 사용되기도 하나, 용어의 혼동을 방지하기 위해 본 명세서에서는 상기 정의된 의미로 사용하도록 한다. 상기 어노테이션은 당해 기술 분야에서 태깅(tagging), 레이블링(labeling) 등의 용어와 혼용되어 사용될 수 있다.In this specification, annotation means an operation of tagging label information in a data sample. The annotation may be used as a term meaning the label information itself, but in order to prevent confusion of terms, the specification is used in the meaning defined above. The annotation may be used interchangeably with terms such as tagging and labeling in the art.
본 명세서에서, 오예측(miss-prediction) 확률이란, 주어진 데이터 샘플에 대한 특정 모델이 예측을 수행할 때, 상기 예측 결과에 오류가 포함될 확률(즉, 예측이 틀릴 확률) 또는 가능성을 의미한다.In the present specification, a miss-prediction probability means a probability (that is, a probability that prediction is wrong) or a probability that an error is included in the prediction result when a specific model for a given data sample performs prediction.
본 명세서에서 인스트럭션(instruction)이란, 기능을 기준으로 묶인 일련의 명령어들로서 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 가리킨다.In this specification, an instruction is a series of instructions grouped based on a function and refers to a component of a computer program and executed by a processor.
이하, 본 개시의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.Hereinafter, some embodiments of the present disclosure will be described in detail according to the accompanying drawings.
도 3 및 도 4는 본 개시의 몇몇 실시예들에 따른 기계 학습 장치(100)의 동작과 입출력을 개략적으로 설명하기 위한 도면이다.3 and 4 are diagrams for schematically explaining operations and inputs and outputs of the
도 3에 도시된 바와 같이, 기계 학습 장치(100)는 본 개시의 다양한 실시예들에 따른 기계 학습 방법을 수행할 수 있는 컴퓨팅 장치이다. 여기서, 상기 컴퓨팅 장치는, 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 상기 컴퓨팅 장치의 일 예는 도 22를 참조하도록 한다. 이하에서는, 설명의 편의상 기계 학습 장치(100)를 학습 장치(100)로 약칭하도록 한다.3, the
도 3에는 학습 장치(100)가 하나의 물리적 컴퓨팅 장치로 구현된 것이 예로써 도시되어 있으나, 실제 물리적 환경에서 학습 장치(100)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다. 또한, 학습 장치(100)의 특정 기능은 다수의 컴퓨팅 장치(또는 프로세서)에서 분산/병렬 처리를 통해 수행되도록 구현될 수도 있다.Although the
도 3에 도시된 바와 같이, 학습 장치(100)는 레이블 정보가 주어지지 않은 데이터셋(11)을 입력받고, 이를 기계 학습하여 목적 태스크를 수행하는 타깃 모델(13)을 구축할 수 있다. 이때, 학습 장치(100)는 데이터셋(11)의 일부에 대응되는 데이터 샘플 집합(즉, 서브 데이터셋)을 선별하고, 상기 서브 데이터셋에 대한 레이블 정보를 획득하며, 획득된 레이블 정보에 기초하여 학습을 수행할 수 있다. 또한, 이와 같은 학습 과정은 타깃 모델(13)의 목표 성능이 만족될 때까지 반복될 수 있다. 이하의 서술에서, 데이터 샘플 집합이 전체 데이터셋의 일부에 대응되는 경우, "데이터 샘플 집합"이란 용어와 "서브 데이터셋"이란 용어는 혼용되어 사용될 수 있다.As shown in FIG. 3, the
몇몇 실시예에서, 도 4에 도시된 바와 같이, 학습 장치(100)는 어노테이션 장치(15)에게 상기 선별된 서브 데이터셋에 대한 어노테이션 작업을 요청하고, 장치(15)로부터 어노테이션 결과(즉, 레이블 정보)를 획득할 수 있다. 여기서, 어노테이션 장치(15)는 어노테이터(annotator)에 의해 사용되는 컴퓨팅 장치로, 어노테이션 툴이 탑재된 장치일 수 있다. 즉, 어노테이터는 상기 어노테이션 툴을 이용하여 요청한 데이터 샘플 집합에 대한 레이블 정보를 제공할 수 있다.In some embodiments, as shown in FIG. 4, the
전술한 바와 같이, 어노테이션 작업은 어노테이터에 의해 수동으로 수행되어야 하기 때문에, 매우 많은 시간 비용과 인적 비용이 소요된다. 따라서, 어노테이션 비용을 최소화하기 위해서는, 학습에 효과적인 데이터 샘플 집합을 정확하게 선별하는 것이 중요한다.As mentioned above, since the annotating work has to be performed manually by the annotator, it is very time consuming and human cost. Therefore, in order to minimize annotation costs, it is important to accurately select a set of data samples effective for learning.
몇몇 실시예에서, 학습 장치(100)는 타깃 모델(13)의 오예측 확률에 기반하여 데이터셋(11)에서 적어도 하나의 데이터 샘플을 선별할 수 있다. 본 실시예에 따르면, 타깃 모델(13)의 엔트로피 값(즉, 불확실성)에 기반하지 않고 타깃 모델(13)의 예측이 틀릴 것 같은 데이터 샘플들이 어노테이션 대상으로 선별될 수 있다. 그렇게 함으로써, 데이터 선별의 정확도는 향상되고, 타깃 모델(13)의 학습 속도는 향상될 수 있다. 나아가, 타깃 모델(13)의 성능이 목표 성능에 빠르게 수렴함으로써, 어노테이션 비용이 크게 감소될 수 있다. 본 실시예에 대한 자세한 설명은 이하의 도면들에서 상세하게 설명하도록 한다.In some embodiments, the
몇몇 실시예에서, 학습 장치(100)와 어노테이션 장치(15)는 네트워크를 통해 통신할 수 있다. 여기서, 상기 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 이동 통신망(mobile radio communication network), Wibro(Wireless Broadband Internet) 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.In some embodiments, the
지금까지 도 3 및 도 4를 참조하여 본 개시의 몇몇 실시예들에 따른 학습 장치(100)의 동작과 입출력에 대하여 개략적으로 설명하였다. 이하에서는, 학습 장치(100)의 구성 및 동작에 대하여 도 5 내지 도 7을 참조하여 설명하도록 한다.So far, the operation and input / output of the
도 5 및 도 6은 본 개시의 몇몇 실시예들에 따른 학습 장치(100)을 나타내는 블록도이다. 특히, 도 6은 학습 장치(100)의 동작 흐름을 더 도시하고 있다.5 and 6 are block diagrams illustrating a
도 5 및 도 6을 참조하면, 학습 장치(100)는 데이터셋 획득부(110), 선별부(130), 레이블 정보 획득부(150), 학습부(170) 및 학습 종료 결정부(190)를 포함할 수 있다. 다만, 도 5 및 도 6에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 5 및 도 6에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 또한, 도 5 및 도 6에 도시된 학습 장치(100)의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 복수의 구성 요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있음에 유의한다. 이하, 각 구성 요소에 대하여 설명한다.5 and 6, the
데이터셋 획득부(110)는 타깃 모델의 학습에 이용될 데이터셋(21)을 획득한다. 학습 데이터셋(21)은 레이블 정보가 주어지지 않은 복수의 데이터 샘플로 구성될 수 있을 것이나, 레이블 정보가 주어진 데이터 샘플이 일부 포함되어 있더라도 무방하다.The data
다음으로, 선별부(130)는 학습 데이터셋(21)에서 어노테이션이 수행될 데이터 샘플을 선별한다. 선별부(130)는 오예측 확률 산출부(131) 및 데이터 선별부(133)를 포함할 수 있다.Next, the
오예측 확률 산출부(131)는 학습 데이터셋(21)에 포함된 복수의 데이터 샘플 각각에 대한 오예측 확률을 산출한다. 이때, 상기 복수의 데이터 샘플은 학습 데이터셋(21)에 포함된 전부 또는 일부(e.g. 미학습 데이터 샘플)일 수 있다.The misprediction
타깃 모델의 오예측 확률을 산출하기 위해, 오예측 확률 산출부(131)는 소정의 기계 학습 모델을 이용할 수 있다. 중복된 설명을 배제하기 위해, 상기 기계 학습 모델에 대한 설명은 도 8 이하의 도면을 참조하여 후술하도록 한다.In order to calculate the false prediction probability of the target model, the false prediction
다음으로, 데이터 선별부(133)는 상기 오예측 확률에 기반하여 적어도 하나의 데이터 샘플을 선별한다. 구체적으로, 데이터 선별부(133)는 상기 복수의 데이터 샘플 중에서 오예측 확률이 임계치 이상인 데이터 샘플(즉, 타깃 모델이 틀릴 가능성이 높은 데이터 샘플)을 선별한다. 선별된 데이터 샘플은 서브 데이터셋(23)을 구성할 수 있다.Next, the
이때, 상기 선별되는 데이터 샘플의 개수는 기 설정된 고정 값 또는 상황에 따라 변동되는 변동 값일 수 있다. 예컨대, 상기 개수는 타깃 모델의 현재 성능과 목표 성능 과의 차이, 미학습 데이터 샘플의 개수, 어노테이션 비용 등에 기초하여 변동되는 변동 값일 수 있다. 보다 구체적인 예를 들어, 상기 선별되는 데이터 샘플의 개수는 타깃 모델의 현재 성능과 목표 성능 과의 차이가 작아질수록 더 작은 값으로 변동될 수 있다. 다른 예를 들어, 상기 선별되는 데이터 샘플의 개수는 미학습 데이터 샘플의 개수가 작아지거나 어노테이션 비용이 커짐에 따라 더 작은 값으로 변동될 수 있다.At this time, the number of the selected data samples may be a preset fixed value or a fluctuating value that varies depending on the situation. For example, the number may be a fluctuating value that changes based on a difference between a target model's current performance and a target performance, the number of untrained data samples, and an annotation cost. For a more specific example, the number of the selected data samples may fluctuate to a smaller value as the difference between the current performance and the target performance of the target model becomes smaller. For another example, the number of the selected data samples may fluctuate to a smaller value as the number of unlearned data samples decreases or the annotation cost increases.
다음으로, 레이블 정보 획득부(150)는 어노테이션 작업의 결과로 선별된 서브 데이터셋(23)의 레이블 정보(25)를 획득한다. 가령, 레이블 정보 획득부(150)는 어노테이션 장치(15)로부터 서브 데이터셋(23)에 대한 레이블 정보(25)를 획득할 수 있다.Next, the label
다음으로, 학습부(170)는 선별부(130)에 의해 선별된 서브 데이터셋(23)을 상기 획득된 레이블 정보(25)로 학습하여 타깃 모델에 대한 학습을 수행한다. 가령, 타깃 모델이 신경망 기반 모델인 경우, 학습부(170)는 오차 역전파를 통해 타깃 모델의 가중치를 갱신하는 방식으로 학습을 수행할 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.Next, the
다음으로, 학습 종료 결정부(190)는 지정된 학습 종료 조건에 기초하여 타깃 모델의 학습 종료 여부를 결정한다. 상기 학습 종료 조건은 실시예에 따라 얼마든지 변형될 수 있다. 가령, 상기 학습 종료 조건은 타깃 모델의 성능이 목표 성능에 도달한 경우, 학습 반복 횟수 등에 기초하여 설정될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.Next, the learning
구체적으로, 학습 종료 결정부(190)는 상기 지정된 학습 종료 조건이 만족된다는 판정에 응답하여 학습을 종료할 수 있다. 반대의 경우, 학습이 계속될 수 있다. 학습이 계속되는 경우, 선별부(130), 레이블 정보 획득부(150) 및 학습부(170)는 전술한 과정을 다시 수행할 수 있다. 학습이 반복되는 과정의 일 예는 도 7에 도시되어 있다.Specifically, the learning
도 7에 도시된 바와 같이, 1차 학습 프로세스 동안, 학습 데이터셋(31)에서 선별된 제1 서브 데이터셋(32)에 대한 제1 어노테이션 작업 및 제1 학습이 수행될 수 있다. 또한, 제1 서브 데이터셋(32)을 선별하기 전에, 1차 학습 프로세스에서, 학습을 통해 오예측 확률 산출 모델이 구축 및 갱신될 수 있다. 오예측 확률 산출 모델에 관한 설명은 도 8 내지 도 11을 참조하여 후술하도록 한다. 상기 제1 학습이 완료되면, 학습 종료 여부에 대한 판정(34)이 수행되고, 학습 계속 판정에 따라 2차 학습 프로세스가 개시될 수 있다.As illustrated in FIG. 7, during the primary learning process, a first annotation operation and first learning on the
상기 2차 학습 프로세스 동안, 미학습된 서브 데이터셋(33)에서 선별된 제2 서브 데이터셋(35)에 대한 제2 어노테이션 작업 및 제2 학습이 수행될 수 있다. 물론, 다른 몇몇 실시예에 따르면, 미학습된 서브 데이터셋(33)이 아니라 전체 데이터셋(31)에서 상기 제2 어노테이션을 위한 데이터 샘플이 선별될 수도 있다. 또한, 제2 서브 데이터셋(35)을 선별하기 전에, 2차 학습 프로세스에서도 학습을 통해 오예측 확률 산출 모델이 갱신될 수 있다. 이를 통해, 2차 학습 프로세스에서는 타깃 모델이 틀릴 것 같은 데이터 샘플이 더욱 정확하게 선별될 수 있다.During the second learning process, a second annotation operation and second learning on the second sub data set 35 selected from the untrained sub data set 33 may be performed. Of course, according to some other embodiments, data samples for the second annotation may be selected from the
몇몇 실시예에서, 1차 학습 프로세스에서 선별된 제1 서브 데이터셋(32)은 제1 가중치에 기초하여 학습되고, 2차 학습 프로세스에서 선별된 제2 서브 데이터셋(35)은 제2 가중치에 기초하여 학습될 수 있다. 이때, 상기 제2 가중치는 상기 제1 가중치보다 큰 값으로 설정될 수 있다. 여기서, 가중치에 기초하여 학습된다는 것은, 가중치 값에 따라 더 강한 강도 또는 더 약한 강도로 학습된다는 것을 의미한다. 또한, 더 강한 강도로 타깃 모델을 학습한다는 것은 타깃 모델의 가중치 조정에 더 큰 영향을 미친다는 것으로, 이는 구현하는 방식은 어떠한 방식이 되더라도 무방하다. 가령, 예측 오차를 증가시키는 방식으로 학습 강도를 올릴 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다. 제2 서브 데이터셋(35)은 1차 학습된 타깃 모델이 틀릴 것 같은 데이터 샘플이므로, 제1 서브 데이터셋(32)보다 더 중요한 데이터 샘플(즉, 학습에 더 효과적인 샘플들)일 수 있다. 따라서, 본 실시예에 따르면, 타깃 모델의 학습 효과가 더욱 개선될 수 있고, 타깃 모델의 성능이 목표 성능에 빠르게 도달될 수 있다. 물론, 어노테이션 비용은 더욱 절감될 수 있다.In some embodiments, the first sub-dataset 32 selected in the primary learning process is learned based on the first weight, and the second sub-dataset 35 selected in the secondary learning process is assigned to the second weight Can be learned on the basis. In this case, the second weight may be set to a value greater than the first weight. Here, learning based on the weight means that the stronger or weaker intensity is learned according to the weight value. In addition, learning the target model with stronger intensity has a greater influence on the weight adjustment of the target model, which may be implemented in any way. For example, the learning intensity may be increased by increasing the prediction error, but the technical scope of the present disclosure is not limited thereto. Since the
위와 같은 방식으로, 학습 종료 조건이 만족될 때까지 반복적으로 학습이 이루어질 수 있다. 학습 장치(100)의 구성 요소(110 내지 190)에 대한 추가적인 설명은 도 8 이하의 설명 내용을 더 참조하도록 한다.In the above manner, learning can be repeatedly performed until the learning end condition is satisfied. Additional description of the
참고로, 도 5 및 도 6에 도시된 구성 요소 모두가 학습 장치(100)의 필수 구성 요소는 아님에 유의하여야 한다. 즉, 본 개시의 다른 몇몇 실시예들에 따른 학습 장치(100)는 도 5 및 도 6에 도시된 구성 요소 중 일부에 의해 구현될 수도 있다.For reference, it should be noted that not all components shown in FIGS. 5 and 6 are essential components of the
도 5 및 도 6의 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.Each component in FIGS. 5 and 6 may mean software or hardware such as a field programmable gate array (FPGA) or an application-specific integrated circuit (ASIC). However, the above components are not limited to software or hardware, and may be configured to be in an addressable storage medium, or may be configured to execute one or more processors. The functions provided in the above components may be implemented by more detailed components, or may be implemented as a single component that performs a specific function by combining a plurality of components.
지금까지 도 5 내지 도 8을 참조하여 본 개시의 몇몇 실시예들에 따른 학습 장치(100)의 구성 및 동작에 대하여 설명하였다. 이하에서는, 도 8 내지 도 16을 참조하여 본 개시의 몇몇 실시예들에 따른 기계 학습 방법에 대하여 상세하게 설명하도록 한다.So far, the configuration and operation of the
상기 기계 학습 방법의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 기계 학습 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 기계 학습 방법에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 상기 방법의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 상기 기계 학습 방법의 각 단계가 학습 장치(100)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 다만, 설명의 편의를 위해, 상기 기계 학습 방법에 포함되는 각 단계의 동작 주체는 그 기재가 생략될 수도 있다.Each step of the machine learning method may be performed by a computing device. In other words, each step of the machine learning method may be implemented with one or more instructions executed by a processor of a computing device. All of the steps included in the machine learning method may be executed by one physical computing device, but the first steps of the method are performed by the first computing device, and the second steps of the method are performed by the second computing device. It may be performed by. Hereinafter, it is assumed that each step of the machine learning method is performed by the
도 8은 본 개시의 몇몇 실시예들에 따른 기계 학습 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.8 is an exemplary flow diagram illustrating a machine learning method in accordance with some embodiments of the present disclosure. However, this is only a preferred embodiment for achieving the object of the present disclosure, and of course, some steps may be added or deleted as necessary.
도 8에 도시된 바와 같이, 상기 기계 학습 방법은 타깃 모델의 학습 데이터셋을 획득하는 단계 S10에서 시작된다. 상기 학습 데이터셋은 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함한다.As illustrated in FIG. 8, the machine learning method starts at step S10 of obtaining a training dataset of a target model. The training data set includes a plurality of data samples to which label information is not given.
단계 S20에서, 학습 장치(100)는 타깃 모델의 오예측 확률을 산출하기 위한 모델을 구축하거나 갱신한다. 상기 오예측 확률 산출 모델(이하, "산출 모델"로 약칭함)을 구축하는 방법은 실시예에 따라 달라질 수 있다. 이하 도 9 내지 도 11을 참조하여 상기 산출 모델을 구축하기 위한 몇몇 실시예들에 대하여 설명하도록 한다.In step S20, the
도 9는 본 개시의 제1 실시예에 따른 오예측 확률 산출 모델 구축 방법을 나타내는 예시적인 흐름도이다.9 is an exemplary flowchart illustrating a method for constructing a model for calculating a false prediction probability according to a first embodiment of the present disclosure.
도 9에 도시된 바와 같이, 상기 제1 실시예는 학습 데이터셋의 일부에 대응되는 데이터 샘플 집합을 선택하는 단계 S110에서 시작된다.As illustrated in FIG. 9, the first embodiment starts at step S110 of selecting a data sample set corresponding to a part of the training data set.
단계 S120 및 S130에서, 학습 장치(100)는 상기 선택된 데이터 샘플 집합에 대한 레이블 정보를 획득하고, 이를 이용하여 타깃 모델을 학습시킨다.In steps S120 and S130, the
단계 S140에서, 학습 장치(100)는 상기 선택된 데이터 샘플 집합을 다시 이용하여 타깃 모델을 평가한다. 가령, 학습 장치(100)는 제1 데이터 샘플을 타깃 모델에 입력하여 예측 결과를 획득하고, 상기 예측 결과와 상기 제1 데이터 샘플의 레이블 정보를 비교하는 방식으로 타깃 모델을 평가할 수 있다.In step S140, the
단계 S150에서, 학습 장치(100)는 상기 평가 결과를 이용하여 오예측 확률 산출 모델을 구축한다. 보다 구체적으로, 학습 장치(100)는 상기 평가 결과를 해당 데이터 샘플의 레이블 정보로 태깅하고, 상기 데이터 샘플을 상기 레이블 정보로 학습하여 상기 산출 모델을 구축할 수 있다. 보다 이해의 편의를 제공하기 위해, 도 10을 참조하여 본 단계 S150에 대하여 부연 설명하도록 한다.In step S150, the
도 10은 혼동 행렬(confusion matrix)을 도시하고 있는데, 타깃 모델이 분류 태스크를 수행하는 모델인 경우, 평가 결과는 혼동 행렬 내의 특정 셀에 대응될 수 있다. 도 10에 도시된 바와 같이, 평가 결과가 FP(false positive) 또는 FN(false negative)인 데이터 샘플(41)에는 제1 값(e.g. 0)이 레이블 값(42)으로 태깅되고, 평가 결과가 TP(true positive) 또는 TN(true negative)인 데이터 샘플(43)에는 제2 값(e.g. 1)이 레이블 값(44)으로 태깅될 수 있다. 즉, 타깃 모델의 예측이 정답과 일치한 경우에는 "1"이 태깅되고, 불일치한 경우에는 "0"이 태깅될 수 있다.FIG. 10 shows a confusion matrix. When the target model is a model that performs a classification task, the evaluation result may correspond to a specific cell in the confusion matrix. As illustrated in FIG. 10, a first value (eg 0) is tagged as a
위와 같은 데이터 샘플(41, 43)과 레이블 정보를 학습하게 되면, 산출 모델은 타깃 모델이 정확하게 예측했던 데이터와 유사한 데이터가 입력될 때 높은 컨피던스 스코어를 출력하게 된다. 또한, 반대의 경우 산출 모델은 낮은 컨피던스 스코어를 출력하게 된다. 따라서, 산출 모델은 입력된 데이터에 대한 타깃 모델의 오예측 확률을 정확하게 산출할 수 있게 된다.When the
한편, 도 10은 레이블 정보를 태깅하는 몇몇 예시를 도시하고 있을 뿐임에 유의하여야 한다. 본 개시의 다른 몇몇 실시예들에 따르면, 학습 장치(100)는 데이터 샘플의 예측 오차를 레이블 정보로 태깅할 수도 있다. 여기서, 상기 예측 오차는 예측 값(즉, 컨피던스 스코어)과 실제 값(즉, 정답 정보)의 차이를 의미한다.On the other hand, it should be noted that FIG. 10 shows only some examples of tagging label information. According to some other embodiments of the present disclosure, the
또한, 본 개시의 또 다른 몇몇 실시예들에 따르면, 학습 장치(100)는 데이터 샘플의 예측 오차가 임계 값 이상인 경우 제1 값(e.g. 0)을 태깅하고, 상기 예측 오차가 상기 임계 값 미만인 경우 제2 값(e.g. 1)을 레이블 정보로 태깅할 수도 있다.Further, according to some other embodiments of the present disclosure, the
도 11은 본 개시의 제2 실시예에 따른 오예측 확률 산출 모델 구축 방법을 나타내는 예시적인 흐름도이다.11 is an exemplary flowchart illustrating a method for constructing a misprediction probability calculation model according to a second embodiment of the present disclosure.
도 11에 도시된 바와 같이, 상기 제2 실시예의 전반적인 과정은 도 9에 도시된 제1 실시예와 유사하다. 다만, 상기 제2 실시예에서는, 선택된 데이터 샘플 집합을 제1 샘플 집합과 제2 샘플 집합으로 구분한 다음, 상기 제1 샘플 집합으로 타깃 모델을 학습시키고, 상기 제2 샘플 집합으로 상기 타깃 모델을 평가한다는 점에서 차이가 있다(S230 내지 S250 참조).11, the overall process of the second embodiment is similar to the first embodiment shown in FIG. However, in the second embodiment, the selected data sample set is divided into a first sample set and a second sample set, and then a target model is trained with the first sample set, and the target model is evaluated with the second sample set. There is a difference in that it is (see S230 to S250).
즉, 전술한 제1 실시예에서는 학습한 샘플 집합으로 평가를 수행했으나, 상기 제2 실시예에서는 학습용과 평가용 샘플 집합을 구분하여 보다 정확하게 타깃 모델의 평가를 수행한다는 점에서 차이가 있다.That is, in the above-described first embodiment, the evaluation was performed with the learned sample set, but in the second embodiment, there is a difference in that the target model is more accurately evaluated by classifying the learning and evaluation sample sets.
몇몇 실시예에 따르면, 학습 장치(100)는 k-접합 교차 검증(k-fold cross validation) 기법을 이용하여 반복하여 학습 및 평가를 수행할 수 있다. 이때, 평가 결과는 산출 모델의 학습 데이터로 활용될 수 있다. 상기 교차 검증은 당해 기술 분야의 당업자에게 자명한 기술일 것인 바, 이에 대한 설명은 생략하도록 한다. 본 실시예에 따르면, 더 많은 평가 데이터가 확보됨에 따라 보다 정확한 산출 모델이 구축될 수 있다.According to some embodiments, the
또한, 몇몇 실시예에 따르면, 학습 장치(100)는 데이터 확장(data augmentation) 기법을 이용하여 평가용 샘플 집합으로부터 유사 샘플 집합을 생성하고, 생성된 샘플 집합을 더 학습하여 산출 모델을 구축할 수 있다. 물론, 본 실시예에 내재된 기술적 사상은, 학습용 샘플 또는 전술한 제1 실시예의 평가용 샘플 집합에도 적용될 수 있다. 상기 데이터 확장 기법은 당해 기술 분야의 당업자에게 자명한 기술일 것인 바, 이에 대한 설명은 생략하도록 한다.In addition, according to some embodiments, the
다시 도 8을 참조하여 설명을 이어가도록 한다.The description will be continued again with reference to FIG. 8.
단계 S30에서, 학습 장치(100)는 산출 모델을 이용하여 학습 데이터셋에 포함된 각 데이터 샘플에 대해 오예측 확률을 산출한다. 가령, 도 12에 도시된 바와 같이, 학습 장치(100)는 각 데이터 샘플(52 내지 54)을 산출 모델(51)에 입력하여 상기 산출 모델의 컨피던스 스코어(55 내지 57)를 획득하며, 컨피던스 스코어(55 내지 57)에 기초하여 상기 오예측 확률을 산출할 수 있다.In step S30, the
몇몇 실시예에서, 도 12에 도시된 바와 같이, 산출 모델(51)이 정답 및 오답 클래스에 대한 컨피던스 스코어를 출력하도록 학습된 경우(e.g. 정답과 일치 시 레이블 1로 학습하고, 불일치 시 레이블 0으로 학습한 경우), 오답 클래스의 컨피던스 스코어(밑줄로 도시됨)가 오예측 확률이 이용될 수도 있다.In some embodiments, as shown in FIG. 12, when the
다시 도 8을 참조하면, 단계 S40에서, 학습 장치(100)는 오예측 확률을 기초로 학습 데이터셋에서 적어도 하나의 데이터 샘플을 선별한다. 가령, 학습 장치(100)는 오예측 확률이 임계치 이상인 데이터 샘플 또는 오예측 확률이 높은 상위 k개의(단, k는 1 이상의 자연수) 데이터 샘플을 선별할 수 있다.Referring back to FIG. 8, in step S40, the
단계 S50에서, 학습 장치(100)는 선별된 데이터 샘플에 대한 레이블 정보를 획득하여 타깃 모델을 학습시킨다. 상기 선별된 데이터 샘플은 타깃 모델의 예측이 오답일 가능성이 높은 샘플이므로, 선별된 데이터 샘플들로 타깃 모델을 학습시키면 타깃 모델의 성능이 신속하게 개선될 수 있다.In step S50, the
단계 S60에서, 학습 장치(100)는 학습 종료 조건이 만족되는지 판정한다. 상기 학습 종료 조건이 만족된다는 판정에 응답하여, 학습 장치(100)는 학습을 종료할 수 있다. 이와 반대로, 불만족 판정에 응답하여, 학습 장치(100)는 전술한 단계 S20 내지 S50을 다시 수행한다.In step S60, the
학습이 반복되면, 단계 S20에서, 학습 장치(100)는 학습된 타깃 모델을 다시 평가하고, 평가 결과를 학습하여 산출 모델을 갱신할 수 있다. 그렇게 함으로써, 학습이 반복될수록 오예측 확률이 정확하게 산출될 수 있다.If learning is repeated, in step S20, the
또한, 단계 S30 및 S40에서, 학습 장치(100)는 학습 데이터셋 전체가 아니라 미학습된 데이터 샘플들 중에서 어노테이션이 수행될 데이터 샘플을 선별할 수 있다. 물론, 다른 몇몇 실시예들에 따르면, 학습 데이터셋 전체에서 어노테이션이 수행될 데이터 샘플이 선별될 수도 있다.In addition, in steps S30 and S40, the
참고로, 전술한 단계 S10 내지 S60 중에서, 단계 S10은 데이터셋 획득부(110)에 의해 수행되고, 단계 S20 및 S30은 오예측 확률 산출부(131)에 의해 수행되며, 단계 S40은 데이터 선별부(133)에 의해 수행될 수 있다. 또한, 단계 S50은 레이블 정보 획득부(150) 및 학습부(170)에 의해 수행될 수 있고, 단계 S60은 학습 종료 결정부(190)에 의해 수행될 수 있다.For reference, among the above-described steps S10 to S60, step S10 is performed by the data set
보다 이해의 편의를 제공하기 위해, 도 13을 참조하여 전술한 기계 학습 방법이 수행되는 과정을 다시 한번 살펴보도록 한다. 특히, 도 13은 도 9에 도시된 방법에 따라 산출 모델이 구축되는 것을 예로써 도시하고 있다.In order to provide more convenience, the process of performing the above-described machine learning method will be described once again with reference to FIG. 13. In particular, FIG. 13 shows an example in which a calculation model is constructed according to the method illustrated in FIG. 9.
도 13에 도시된 바와 같이, 타깃 모델의 학습 데이터셋(61)의 일부에 대응되는 서브 데이터셋(62)에 대해 어노테이션이 수행되고(①), 타깃 모델(63)에 대한 제1 학습 및 평가가 수행된다(②, ③). 평가 결과는 산출 모델(66)을 구축하기 위해, 평가에 이용된 각 데이터 샘플들(65)에 태깅된다(④). 또한, 평가 결과가 태깅된 샘플들(65)을 학습하여 산출 모델(66)이 구축되고(⑤), 산출 모델(66)에 의해 산출된 오예측 확률에 기초하여 예측 오답(즉, 예측이 오답일 것 같은 샘플들) 데이터셋(67)이 선별된다(⑥). 다음으로, 선별된 서브 데이터셋(67)에 대해 어노테이션이 수행되고(⑦), 어노테이션 결과로 획득된 레이블 정보(68)와 서브 데이터셋(67)으로 타깃 모델(63)에 대한 제2 학습이 수행된다(⑧). 이와 같이, 예측 오답 샘플들을 집중적으로 학습함으로써, 타깃 모델(63)의 성능이 가파르게 향상될 수 있다.As illustrated in FIG. 13, an annotation is performed on the
몇몇 실시예에서, 상기 제2 학습이 수행될 때, 상기 제1 학습에 이용된 서브 데이터셋(62)에 대한 재학습이 수행될 수도 있다. 즉, 레이블 정보가 확보된 데이터셋을 최대한 활용하기 위해, 동일한 데이터셋에 대해서도 반복 학습이 이루어질 수 있다. 이와 같은 기술적 사상은 학습 과정에 다양하게 활용될 수 있다. 가령, 1차 학습 프로세스 동안 레이블 정보가 확보된 제1 데이터셋들이 2차 학습 프로세스에서 재사용(즉, 재학습)될 수도 있다.In some embodiments, when the second learning is performed, re-learning of the
몇몇 실시예에서, 산출 모델(66)을 통해 선별된 제1 데이터 샘플 집합(67)과 산출 모델(66)과 관계없이 선택된 제2 데이터 샘플 집합(e.g. 62)은 서로 다른 가중치로 학습될 수 있다. 가령, 제1 데이터 샘플 집합(67)은 제1 가중치로 학습되고, 제2 데이터 샘플 집합(e.g. 62)는 제2 가중치로 학습될 수 있다. 이때, 상기 제1 가중치는 상기 제2 가중치보다 더 큰 값으로 설정될 수 있다. 그렇게 함으로써, 중요한 데이터 샘플이 더 강한 강도로 학습되어, 타깃 모델(63)의 성능이 빠르게 개선될 수 있다.In some embodiments, the first data sample set 67 selected through the
몇몇 실시예에서, 어노테이션 비용을 감소시키기 위해, 학습 효과가 떨어지는 일부 데이터 샘플이 학습 데이터셋(61)에서 제외될 수 있다. 이때, 학습 효과가 떨어지는 데이터 샘플을 결정하는 기준은 실시예에 따라 달라질 수 있다.In some embodiments, in order to reduce annotation costs, some data samples with poor learning effectiveness may be excluded from the
제1 실시예에서, 엔트로피 값이 임계치 미만인 데이터 샘플(즉, 타깃 모델이 확실하게 분류할 수 있는 데이터 샘플)이 학습 데이터셋(61)에서 제외될 수 있다. 보다 구체적으로, 타깃 모델(63)에 의해 제1 데이터 샘플에 대한 클래스별 컨피던스 스코어가 산출되고, 클래스별 컨피던스 스코어에 기초하여 엔트로피 값이 연산될 수 있다. 이때, 연산된 엔트로피 값이 임계치 미만인 경우, 상기 제1 데이터 샘플은 학습 데이터셋(61)에서 제외될 수 있다. 그렇게 함으로써, 어노테이션에 소요되는 비용이 더욱 절감될 수 있다.In the first embodiment, a data sample whose entropy value is less than a threshold (ie, a data sample that the target model can reliably classify) may be excluded from the
제2 실시예에서, 오예측 확률이 임계치 미만인 데이터 샘플(즉, 타깃 모델이 정확하게 분류할 수 있는 데이터 샘플)이 학습 데이터셋(61)에서 제외될 수 있다. 타깃 모델이 이미 정확하게 분류할 수 있는 데이터 샘플을 굳이 학습할 필요는 없기 때문이다.In the second embodiment, data samples having a false prediction probability below a threshold (ie, data samples that can be accurately classified by the target model) may be excluded from the
전술한 실시예들에 따라 학습 데이터셋(1)에서 불필요한 데이터 샘플 제외하는 과정은 매 학습 프로세스가 완료될 때, 새로운 학습 프로세스가 시작될 때, 주기적 등 어떠한 시점에 수행되더라도 무방하다.The process of excluding unnecessary data samples from the learning
지금까지 도 8 내지 도 13을 참조하여 본 개시의 몇몇 실시예들에 따른 기계 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 상술한 본 개시의 다양한 실시예들에 따르면, 타깃 모델의 오예측 확률에 기반하여 어노테이션이 수행될 데이터 샘플이 선별된다. 즉, 불확실성에 기반하여 데이터 샘플이 선별되는 것이 아니라, 타깃 모델이 틀릴 것 같은 데이터 샘플이 선별된다. 상기 오예측 확률은 불확실성과는 달리 타깃 모델의 컨피던스 스코어에 의존한 값이 아니기 때문에, 보다 정확하게 데이터 샘플이 선별될 수 있다.So far, a machine learning method according to some embodiments of the present disclosure has been described with reference to FIGS. 8 to 13. According to the above-described method, according to various embodiments of the present disclosure described above, a data sample to be annotated is selected based on a false prediction probability of the target model. That is, data samples are not selected based on uncertainty, but data samples that are likely to have a wrong target model are selected. Unlike the uncertainty, the misprediction probability is not a value dependent on the confidence score of the target model, so that a data sample can be more accurately selected.
또한, 타깃 모델이 틀릴 것 같은 데이터 샘플로 상기 타깃 모델을 집중적으로 학습시킴으로써, 학습 효과가 향상될 수 있다. 즉, 타깃 모델의 성능이 빠르게 목표 성능에 도달할 수 있게 된다. 이에 따라, 학습에 소요되는 컴퓨팅 비용 및 시간 비용이 크게 절감될 수 있으며, 어노테이션에 소요되는 비용 또한 크게 절감될 수 있다.In addition, the learning effect can be improved by intensively learning the target model with a data sample in which the target model is wrong. That is, the performance of the target model can quickly reach the target performance. Accordingly, the cost of computing and time required for learning can be greatly reduced, and the cost of annotation can also be significantly reduced.
또한, 엔트로피 값에 의존하지 않고, 타깃 모델의 오예측 확률에 기반하여 액티브 러닝이 수행되는 바, 액티브 러닝의 적용 범위가 크게 확대될 수 있다.In addition, since active learning is performed based on the probability of incorrect prediction of the target model without depending on the entropy value, the range of application of active learning can be greatly expanded.
이하에서는, 학습 효과를 더욱 향상시키고 어노테이션 비용을 더욱 줄이기 위해 고안된 본 개시의 몇몇 실시예들에 대하여 도 14 및 도 15를 참조하여 설명하도록 한다.Hereinafter, some embodiments of the present disclosure designed to further improve the learning effect and further reduce annotation cost will be described with reference to FIGS. 14 and 15.
도 14는 본 개시의 몇몇 실시예들에 따른 데이터 확장 기법을 이용한 기계 학습 방법을 나타내는 예시도이다.14 is an exemplary diagram illustrating a machine learning method using a data expansion technique according to some embodiments of the present disclosure.
도 14에 도시된 바와 같이, 산출 모델(73)을 통해 학습 데이터셋(71)에서 선별된 서브 데이터셋(75)에 대해 데이터 확장 기법이 적용될 수 있다. 선별된 서브 데이터셋(75)은 타깃 모델의 학습에 매우 효과적인 데이터 샘플로 구성되어 있기 때문이다.As illustrated in FIG. 14, a data expansion technique may be applied to the
보다 구체적으로, 학습 장치(100)는 서브 데이터셋(75)을 확장하여 유사 데이터셋(77, 79)을 생성하고, 유사 데이터셋(77, 79)으로 타깃 모델을 더 학습시킬 수 있다. 그렇게 함으로써, 타깃 모델의 성능이 신속하게 향상되고, 어노테이션 비용은 절감될 수 있다.More specifically, the
데이터 샘플이 이미지 형식인 경우, 상기 데이터 확장은 이미지 크롭(crop), 회전(rotate), 뒤집기(flip), 리사이즈(resize), 색상 지터링(color jittering) 등의 방식으로 수행될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.When the data sample is an image format, the data expansion may be performed in an image cropping, rotating, flipping, resizing, color jittering, or the like. The technical scope of the present disclosure is not limited thereto.
몇몇 실시예에서, 서브 데이터셋(75)은 제1 가중치로 학습되고, 유사 데이터셋(77, 79)은 제2 가중치로 학습될 수 있다. 이때, 상기 제1 가중치는 상기 제2 가중치보다 높은 값으로 설정될 수 있다. 즉, 본래 데이터셋(75)은 더 강하게 학습되고, 유사 데이터셋(77, 79)은 더 약하게 학습될 수 있다.In some embodiments,
도 15는 본 개시의 몇몇 실시예들에 따른 샘플 가중치에 기반한 기계 학습 방법을 나타내는 예시도이다.15 is an exemplary diagram illustrating a machine learning method based on sample weight according to some embodiments of the present disclosure.
도 15에 도시된 바와 같이, 산출 모델(82)을 통해 학습 데이터셋(81)에서 선별된 서브 데이터셋(83)의 각 데이터 샘플(84 내지 86)에 대해 차등적인 샘플 가중치가 설정될 수 있다. 또한, 상기 샘플 가중치에 기초하여 타깃 모델(87)에 대한 학습에 이루어질 수 있다. 도 15에서, 화살표의 굵기는 학습 강도를 나타내고 있다.As illustrated in FIG. 15, differential sample weights may be set for each
여기서, 상기 샘플 가중치 값은 오예측 확률에 기초하여 결정될 수 있다. 가령, 오예측 확률이 높은 데이터 샘플에 더 높은 샘플 가중치가 부여될 수 있다. 그렇게 함으로써, 타깃 모델이 틀릴 것 같은 데이터 샘플이 더 강하게 학습될 수 있고, 학습 효과가 향상될 수 있다. 물론, 학습 시간과 어노테이션 비용은 절감될 수 있다.Here, the sample weight value may be determined based on a false prediction probability. For example, a higher sample weight may be assigned to a data sample having a high probability of misprediction. By doing so, a data sample in which the target model is likely to be wrong can be trained more strongly, and the learning effect can be improved. Of course, learning time and annotation costs can be reduced.
지금까지 학습 효과를 더욱 향상시키기 위해 고안된 본 개시의 몇몇 실시예들에 대하여 설명하였다. 이하에서는, 본 개시의 다른 몇몇 실시예들에 따른 기계 학습 방법에 대하여 도 16을 참조하여 설명하도록 한다. 본 명세서의 명료함을 위해, 전술한 기계 학습 방법과 중복되는 내용에 대한 설명은 생략하도록 한다.So far, some embodiments of the present disclosure designed to further improve the learning effect have been described. Hereinafter, a machine learning method according to some other embodiments of the present disclosure will be described with reference to FIG. 16. For clarity of the present specification, descriptions of contents overlapping with the aforementioned machine learning method will be omitted.
도 16은 본 개시의 다른 몇몇 실시예들에 따른 기계 학습 방법을 설명하기 위한 예시도이다.16 is an exemplary diagram for describing a machine learning method according to some other embodiments of the present disclosure.
도 16에 도시된 바와 같이,본 실시예에 따른 기계 학습 방법의 전반적인 과정은 도 8을 참조하여 설명한 바와 유사하다. 다만, 본 실시예에서는, 산출 모델(93)에 의해 선별된 서브 데이터셋(94)와 레이블 정보(95)를 이용하여 타깃 모델(96)이 새롭게 구축된다는 점에서 차이가 있다.As shown in FIG. 16, the overall process of the machine learning method according to the present embodiment is similar to that described with reference to FIG. 8. However, in this embodiment, there is a difference in that the
선별된 서브 데이터셋(94)으로 타깃 모델(96)을 새롭게 구축하는 이유는 서브 데이터셋(94)을 보다 강하게 학습하기 위해서이다. 보다 구체적으로, 이전의 실시예(도 13 참조)서는 제1 학습(②)을 통해 타깃 모델(63)의 가중치가 먼저 조정되고, 제2 학습(⑧)을 통해 타깃 모델(63)의 가중치가 조정되었다. 따라서, 제1 학습(②)에 의해 타깃 모델의 가중치가 크게 조정되고, 이로 인해 선별된 서브 데이터셋에 대한 제2 학습(⑧)의 영향이 미미해지며(e.g. 제2 학습은 fine-tuning 정도에 그칠 수 있음), 타깃 모델의 성능은 저하될 수 있다.The reason why the
따라서, 본 실시예에서는, 선별된 서브 데이터셋(94)으로 초기화 상태의 타깃 모델(96)을 학습시킨다(⑧). 또한, 산출 모델(93)에 의해 선별된 바 없는 기존 서브 데이터셋(97)을 상기 학습 과정(⑧) 이후에 학습함으로써(⑨), 선별된 서브 데이터셋(94)이 보다 강하게 학습되도록 한다. 그렇게 함으로써, 보다 우수한 타깃 모델이 구축될 수 있다.Therefore, in the present embodiment, the
지금까지 도 8 내지 도 16을 참조하여 본 개시의 다양한 실시예들에 따른 기계 학습 방법에 대하여 설명하였다. 이하에서는, 의료 도메인에 상기 기계 학습 방법이 적용된 몇몇 활용예에 대하여 설명하도록 한다.So far, a machine learning method according to various embodiments of the present disclosure has been described with reference to FIGS. 8 to 16. Hereinafter, some application examples in which the machine learning method is applied to the medical domain will be described.
의료 도메인은 그 특성 상 레이블 정보가 주어진 학습 데이터셋이 많지 않고, 어노테이션 작업이 숙련된 전문의에 의해 수행되어야 한다. 가령, 방사선 이미지에서 병변의 위치, 종류, 병명 등을 태깅할 때, 어노테이션 작업은 방사선 전문의에 의해 수행될 수 밖에 없다. 따라서, 다른 도메인과 비교하여 더 많은 어노테이션 비용이 소요되며, 본 개시의 기술적 사상이 의료 도메인에 활용될 때 그 효과가 극대화될 수 있다.Due to the nature of the medical domain, there are not many learning datasets given label information, and annotation work should be performed by a skilled specialist. For example, when tagging the location, type, and name of a lesion in a radiographic image, the annotating operation is inevitably performed by a radiologist. Therefore, more annotation costs are required compared to other domains, and the effect can be maximized when the technical idea of the present disclosure is utilized in the medical domain.
도 17 내지 도 19는 조직을 촬영한 고해상도의 전체 슬라이드 이미지(whole slide image)에서 학습 데이터셋을 생성하는 예를 도시하고 있다.17 to 19 show an example of generating a learning dataset from a high resolution whole slide image photographing tissue.
도 17에 도시된 바와 같이, 전체 슬라이드 이미지(201)에서 조직 영역(203)이 추출되면, 패치 샘플링을 통해 학습 데이터셋(205)이 생성될 수 있다.As shown in FIG. 17, when the
도 18 및 도 19의 도시된 샘플링 예시(211, 213)와 같이, 패치의 크기(또는 샘플링 영역의 크기)는 타깃 모델에 따라 달라질 수 있다. 또한, 각 패치는 서로 중첩되는 형태로 샘플링될 수 있다.As shown in the sampling examples 211 and 213 shown in FIGS. 18 and 19, the size of the patch (or the size of the sampling area) may vary depending on the target model. Further, each patch may be sampled in a form overlapping each other.
가령, 도 20에 도시된 바와 같이, 타깃 모델이 세포 레벨의 이미지를 분석하여 유사 분열 세포(mitosis)와 정상 세포를 분류하는 모델(e.g. CNN 기반의 분류 모델)인 경우, 하나의 전체 슬라이드 이미지에서 작은 크기의 대량의 패치가 샘플링될 수 있다(e.g. 도 18 참조). 따라서, 레이블 정보가 주어지지 않은 대량의 학습 데이터셋이 생성될 수 있다.For example, as shown in FIG. 20, when the target model is a model that analyzes cell-level images and classifies mitosis and normal cells (eg, a CNN-based classification model), in one whole slide image Large patches of small size can be sampled (eg see FIG. 18). Therefore, a large amount of training datasets to which label information is not given can be generated.
위와 같이, 패치 샘플링을 통해 학습 데이터셋을 생성하는 과정은 이미지 분석 또는 가공 기술을 통해 자동으로 수행될 수 있으나, 상기 학습 데이터셋에 대한 어노테이션 작업은 전문의에 의해 수동으로 수행되어야 한다. 따라서, 상당한 어노테이션 비용이 소모될 수 밖에 없다. 이와 같은 환경에서, 타깃 모델을 구축하기 위해, 전술한 본 개시의 다양한 실시예들에 따른 기계 학습 방법에 활용될 수 있다.As described above, the process of generating a training dataset through patch sampling may be automatically performed through image analysis or processing technology, but annotation work on the training dataset must be manually performed by a specialist. Therefore, a significant annotation cost is inevitably consumed. In such an environment, in order to build a target model, it may be utilized in a machine learning method according to various embodiments of the present disclosure described above.
상기 기계 학습 방법이 활용된 예는 도 21에 도시되어 있다.An example in which the machine learning method is utilized is illustrated in FIG. 21.
도 21에 도시된 바와 같이, 전문의(22)가 학습 데이터셋(221)에 대한 어노테이터의 역할을 담당할 수 있다. 전반적인 학습 과정은 전술한 바와 동일하다. 가장 먼저, 학습 데이터셋(221)에서 추출된 서브 데이터셋에 대해 어노테이션이 수행되고(①), 어노테이션 결과로 획득된 레이블 정보를 이용하여 타기 모델(223)에 대한 학습 및 평가가 수행된다(②,③). 또한, 평가 결과를 학습하여 산출 모델(224)이 구축되고(④, ⑤), 산출 모델(224)에 의해 산출된 오예측 확률을 이용하여 예측 오답 집합(225)이 선별된다(⑥). 다음에, 어노테이터(222)에 의해 예측 오답 집합(225)에 대한 어노테이션이 수행되고(⑦), 어노테이션 결과를 학습하여 타깃 모델(223)이 갱신될 수 있다(⑧).As shown in FIG. 21, the specialist 22 may act as an annotator for the
타깃 모델(223)이 학습 종료 조건을 만족할 때까지 전술한 과정이 반복하여 수행되는데, 전술한 다양한 실시예들에 의하면, 학습 데이터셋(221)을 모두 학습하지 않더라도 타깃 모델(223)의 학습 종료 조건이 만족될 수 있게 된다. 가령, 가중치에 기반한 가중 학습, 데이터 확장 기법, 오예측 확률에 기반한 선별적 학습 등을 통해 빠르게 학습 종료 조건이 충족될 수 있다. 이에 따라, 학습이 이루어지는 동안 어노테이터(222)의 개입이 최소화될 수 있고, 학습에 소요되는 컴퓨팅/시간 비용, 어노테이션 비용 등은 크게 절감될 수 있게 된다.The above-described process is repeatedly performed until the
지금까지 도 17 내지 도 21을 참조하여 본 개시의 기술적 사상이 의료 도메인에 활용된 예에 대하여 간략하게 살펴보았다. 이하에는, 본 개시의 다양한 실시예들에 따른 장치(e.g. 학습 장치 100)를 구현할 수 있는 컴퓨팅 장치(300)에 대하여 설명하도록 한다.So far, with reference to FIGS. 17 to 21, an example in which the technical idea of the present disclosure is utilized in a medical domain has been briefly described. Hereinafter, a
도 22는 본 개시의 다양한 실시예들에 따른 장치를 구현할 수 있는 예시적인 컴퓨팅 장치(300)를 나타내는 예시적인 하드웨어 구성도이다.22 is an example hardware configuration diagram illustrating an
도 22에 도시된 바와 같이, 컴퓨팅 장치(300)는 하나 이상의 프로세서(310), 버스(350), 통신 인터페이스(370), 프로세서(310)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(330)와 컴퓨터 프로그램(391)를 저장하는 스토리지(390)를 포함할 수 있다. 다만, 도 22에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 22에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.As illustrated in FIG. 22, the
프로세서(310)는 컴퓨팅 장치(300)의 각 구성의 전반적인 동작을 제어한다. 프로세서(310)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(310)는 본 개시의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(300)는 하나 이상의 프로세서를 구비할 수 있다.The
메모리(330)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(330)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(390)로부터 하나 이상의 프로그램(391)을 로드할 수 있다. 가령, 메모리(330)에 본 개시의 몇몇 실시예들에 따른 기계 학습 방법을 수행하는 컴퓨터 프로그램(391)이 로드되면, 도 5에 도시된 바와 같이 모듈이 메모리(330) 상에 구현될 수 있다. 메모리(330)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위는 이에 한정되지 아니한다.The
버스(350)는 컴퓨팅 장치(300)의 구성 요소 간 통신 기능을 제공한다. 버스(350)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.The
통신 인터페이스(370)는 컴퓨팅 장치(300)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(370)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(370)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.The
스토리지(390)는 상기 하나 이상의 프로그램(391)을 비임시적으로 저장할 수 있다. 스토리지(390)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.The
컴퓨터 프로그램(391)은 메모리(330)에 로드될 때 프로세서(310)로 하여금 본 개시의 다양한 실시예들에 따른 방법을 수행하도록 하는 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 즉, 프로세서(310)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예에 따른 방법들을 수행할 수 있다.
예를 들어, 컴퓨터 프로그램(391)은 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함하는 제1 모델의 학습 데이터셋을 획득하는 동작, 상기 복수의 데이터 샘플에 대하여 상기 제1 모델의 오예측 확률을 산출하는 동작, 상기 산출된 오예측 확률을 기초로 상기 복수의 데이터 샘플 중 적어도 하나의 데이터 샘플을 선별하여 제1 데이터 샘플 집합을 구성하는 동작, 상기 제1 데이터 샘플 집합에 대한 제1 레이블 정보를 획득하는 동작 및 상기 제1 데이터 샘플 집합과 상기 제1 레이블 정보를 이용하여 상기 제1 모델에 대한 제1 학습을 수행하는 동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(300)를 통해 본 개시의 몇몇 실시예들에 따른 학습 장치(100)가 구현될 수 있다.For example, the
다른 예를 들어, 컴퓨터 프로그램(391)은 레이블 정보가 주어지지 않은 복수의 데이터 샘플을 포함하는 학습 데이터셋을 획득하는 동작, 상기 학습 데이터셋에 포함된 제1 데이터 샘플 집합에 대한 제1 레이블 정보를 획득하고, 상기 제1 데이터 샘플 집합을 상기 제1 레이블 정보로 학습하여 제1 모델을 구축하는 동작, 상기 학습 데이터셋에서 상기 제1 데이터 샘플 집합을 제외한 나머지 데이터 샘플에 대하여 상기 제1 모델의 오예측 확률을 산출하는 동작, 상기 오예측 확률에 기초하여 상기 나머지 데이터 샘플 중에서 적어도 하나의 데이터 샘플을 선별하여 제2 데이터 샘플 집합을 구성하는 동작, 상기 제2 데이터 샘플 집합에 대한 제2 레이블 정보를 획득하는 동작 및 상기 제2 데이터 샘플 집합과 상기 제2 레이블 정보로 초기화 상태의 제2 모델을 학습하는 동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(300)를 통해 본 개시의 다른 몇몇 실시예들에 따른 학습 장치(100)가 구현될 수 있다.For another example, the
지금까지 도 22을 참조하여 본 개시의 다양한 실시예들에 따른 장치를 구현할 수 있는 예시적인 컴퓨팅 장치에 대하여 설명하였다.So far, an exemplary computing device capable of implementing an apparatus according to various embodiments of the present disclosure has been described with reference to FIG. 22.
지금까지 도 1 내지 도 22을 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.The technical idea of the present disclosure described so far with reference to FIGS. 1 to 22 may be embodied as computer readable codes on a computer readable medium. The computer-readable recording medium may be, for example, a removable recording medium (CD, DVD, Blu-ray Disc, USB storage device, removable hard disk), or a fixed recording medium (ROM, RAM, computer-equipped hard disk). You can. The computer program recorded on the computer-readable recording medium may be transmitted to another computing device through a network such as the Internet and installed on the other computing device, and thus used on the other computing device.
이상에서, 본 개시의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.In the above, even if all components constituting the embodiments of the present disclosure are described as being combined or operated as one, the technical spirit of the present disclosure is not necessarily limited to these embodiments. That is, within the scope of the present disclosure, all of the components may be selectively combined to operate.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.Although the operations in the drawings are shown in a specific order, it should not be understood that the operations must be performed in a specific order or in a sequential order, or that all the illustrated actions must be executed to obtain a desired result. In certain situations, multitasking and parallel processing may be advantageous. Moreover, the separation of various configurations in the above-described embodiments should not be understood as such separation is necessary, and the described program components and systems may generally be integrated together into a single software product or packaged into multiple software products. It should be understood that there is.
이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although the embodiments of the present disclosure have been described with reference to the accompanying drawings, a person of ordinary skill in the art to which the present disclosure pertains may implement the present disclosure in other specific forms without changing the technical spirit or essential characteristics. Understand that there is. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. The scope of protection of the present disclosure should be interpreted by the claims below, and all technical spirits that are within the equivalent scope should be interpreted as being included in the scope of the technical spirits defined by the present disclosure.
Claims (15)
상기 하나 이상의 인스트럭션들을 실행함으로써,
레이블 정보가 주어지지 않은 복수의 데이터 샘플들을 포함하는 학습 데이터셋을 획득하고,
기계 학습을 통해 목적 태스크를 수행하는 기계 학습 모델인 타겟 모델의 예측이 틀릴 확률을 산출하도록 학습된 확률 산출 모델을 이용하여, 상기 복수의 데이터 샘플들에 대한 오예측(miss-prediction) 확률을 산출하고,
상기 산출된 오예측 확률을 기초로, 상기 복수의 데이터 샘플들 중 적어도 하나의 데이터 샘플을 선별하여 제1 서브 데이터셋을 생성하고,
상기 생성된 제1 서브 데이터셋에 포함된 데이터 샘플에 대한 레이블 정보인 제1 레이블 정보를 획득하고,
상기 제1 데이터 서브 데이터셋과 상기 제1 레이블 정보를 이용하여 상기 타겟 모델에 대한 제1 학습을 수행하는 프로세서를 포함하는
기계 학습 장치.A memory containing one or more instructions; And
By executing the one or more instructions,
Obtain a training data set including a plurality of data samples to which no label information is given,
Calculate a miss-prediction probability for the plurality of data samples by using a probability calculation model trained to calculate a probability that a prediction of a target model that is a machine learning model performing a target task through machine learning is wrong. and,
Based on the calculated misprediction probability, at least one data sample among the plurality of data samples is selected to generate a first sub dataset,
Obtain first label information, which is label information for a data sample included in the generated first sub data set,
And a processor performing first learning on the target model using the first data sub-dataset and the first label information.
Machine learning device.
상기 프로세서는
상기 학습 데이터셋에서 상기 산출된 오예측 확률이 임계치 이상인 적어도 하나의 데이터 샘플을 선별하여 상기 제1 서브 데이터셋을 생성하는
기계 학습 장치.According to claim 1,
The processor
Generating the first sub-dataset by selecting at least one data sample in which the calculated erroneous prediction probability is greater than or equal to a threshold value in the learning dataset
Machine learning device.
상기 프로세서는
상기 타겟 모델의 예측에 대한 평가 결과를 이용하여 상기 확률 산출 모델을 학습시키고,
상기 학습된 확률 산출 모델을 이용하여 상기 복수의 데이터 샘플들에 대한 오예측 확률을 산출하는
기계 학습 장치.According to claim 1,
The processor
Train the probability calculation model using the evaluation result of the prediction of the target model,
Calculating a false prediction probability for the plurality of data samples using the learned probability calculation model
Machine learning device.
상기 프로세서는
정답 레이블 정보가 주어진 평가용 데이터 샘플들에 대해 상기 타겟 모델에서 예측한 결과를 상기 평가용 데이터 샘플들 각각의 정답 레이블 정보와 비교하여 상기 타겟 모델의 예측 결과를 평가하고,
평가 결과 및 상기 평가용 데이터 샘플들을 이용하여 상기 확률 산출 모델을 학습시키는
기계 학습 장치.According to claim 3,
The processor
The predicted result of the target model is evaluated by comparing the result predicted by the target model with the correct answer label information of the data samples for evaluation given the correct answer label information,
Train the probability calculation model using the evaluation result and the evaluation data samples
Machine learning device.
상기 프로세서는
상기 타겟 모델에서 예측한 결과와 상기 정답 레이블 정보 간의 차이에 해당하는 예측 오차를 상기 평가용 데이터 샘플들에 레이블 정보로 태깅하도록 하는
기계 학습 장치.The method of claim 4,
The processor
Tagging the prediction data corresponding to the difference between the predicted result from the target model and the correct answer label information as label information in the data samples for evaluation
Machine learning device.
상기 프로세서는
상기 평가 결과가 FP(false positive) 또는 FN(false negative)에 해당하는 평가용 데이터 샘플에 제1 값을 레이블 정보로 태깅하고,
상기 평가 결과가 TP(true positive) 또는 TN(true negative)에 해당하는 평가용 데이터 샘플에 제2 값을 레이블 정보로 태깅하는
기계 학습 장치.The method of claim 5,
The processor
Tagging the first value as label information in the data sample for evaluation where the evaluation result corresponds to false positive (FP) or false negative (FN),
Tagging the second value as label information in the data sample for evaluation where the evaluation result corresponds to TP (true positive) or TN (true negative)
Machine learning device.
상기 프로세서는
상기 학습 데이터셋의 일부에 대응하는 제2 서브 데이터셋에 대한 제2 레이블 정보를 획득하고,
상기 제2 레이블 정보가 태깅된 상기 제2 서브 데이터셋에 포함된 데이터 샘플 중 적어도 일부를 이용하여 상기 타겟 모델을 초기 학습시키고,
상기 제2 레이블 정보가 태깅된 상기 제2 서브 데이터셋에 포함된 데이터 샘플 중 적어도 일부에 대해 상기 초기 학습된 타겟 모델에서 예측한 결과와 상기 예측한 결과에 대응하는 레이블 정보를 비교하여 상기 타겟 모델의 예측 결과를 평가하는
기계 학습 장치.According to claim 3,
The processor
Acquire second label information for a second sub data set corresponding to a part of the learning data set,
The target model is initially trained using at least some of the data samples included in the second sub dataset tagged with the second label information,
The target model is compared with a result predicted by the initially trained target model and label information corresponding to the predicted result for at least some of the data samples included in the second sub data set tagged with the second label information. To evaluate the predicted results of
Machine learning device.
상기 프로세서는
상기 제1 서브 데이터셋, 상기 제1 레이블 정보, 상기 제2 서브 데이터셋 및 상기 제2 레이블 정보를 이용하여 상기 타겟 모델을 다시 학습시키는
기계 학습 장치.The method of claim 7,
The processor
Retraining the target model using the first sub-dataset, the first label information, the second sub-dataset and the second label information
Machine learning device.
상기 프로세서는
상기 제2 서브 데이터셋보다 상기 제1 서브 데이터셋에 큰 가중치를 부여하여 상기 타겟 모델을 학습시키는
기계 학습 장치.The method of claim 8,
The processor
Training the target model by assigning a greater weight to the first sub-dataset than the second sub-dataset
Machine learning device.
상기 프로세서는
상기 제1 학습된 타겟 모델의 예측에 대한 평가 결과를 이용하여 상기 확률 산출 모델을 다시 학습하고,
다시 학습된 확률 산출 모델을 이용하여 미학습 데이터 샘플들의 오예측 확률을 산출하고,
산출된 미학습 데이터 샘플들의 오예측 확률을 기초로 상기 미학습 데이터 샘플들 중에서 적어도 하나의 샘플을 선별하여 제2 서브 데이터셋을 생성하는
기계 학습 장치.According to claim 3,
The processor
Retrain the probability calculation model using the evaluation result of the prediction of the first learned target model,
Using the re-trained probability calculation model, misprediction probability of unlearned data samples is calculated,
Generating a second sub dataset by selecting at least one sample from the non-learning data samples based on the calculated probability of incorrect prediction of the non-learning data samples
Machine learning device.
상기 프로세서는
상기 제2 서브 데이터셋에 포함된 데이터 샘플 각각에 대한 레이블 정보인 제2 레이블 정보를 획득하고,
상기 제2 서브 데이터셋 및 상기 제2 레이블 정보를 이용하여 상기 타겟 모델에 대한 제2 학습을 수행하는
기계 학습 장치.The method of claim 10,
The processor
Acquire second label information that is label information for each data sample included in the second sub data set,
Performing a second learning on the target model using the second sub dataset and the second label information
Machine learning device.
상기 프로세서는
상기 타겟 모델을 이용하여, 상기 학습 데이터셋에 포함된 적어도 일부의 데이터 샘플에 대한 클래스별 컨피던스 스코어를 산출하고,
산출된 클래스별 컨피던스 스코어를 기초로 상기 적어도 일부의 데이터 샘플에 대한 엔트로피 값을 산출하고,
상기 산출된 엔트로피 값을 기초로, 상기 학습 데이터셋에서 일부 데이터 샘플을 제외하여 상기 타겟 모델을 학습시키는
기계 학습 장치.According to claim 1,
The processor
Using the target model, a confidence score for each class for at least some data samples included in the training data set is calculated,
Entropy values for at least some of the data samples are calculated based on the calculated confidence score for each class,
Based on the calculated entropy value, the target model is trained by excluding some data samples from the training dataset.
Machine learning device.
상기 프로세서는
상기 산출된 오예측 확률이 기준값 미만인 데이터 샘플을 상기 학습 데이터셋에서 제외하는
기계 학습 장치.According to claim 1,
The processor
Excluding the data sample in which the calculated false prediction probability is less than the reference value from the training data set
Machine learning device.
상기 프로세서는
상기 제1 서브 데이터셋에 포함되는 데이터 샘플 각각의 오예측 확률을 기초로 상기 제1 서브 데이터셋에 포함되는 데이터 샘플 중 적어도 하나에 가중치를 부여하고,
상기 가중치가 부여된 데이터 샘플을 이용하여 상기 타겟 모델을 학습시키는
기계 학습 장치.According to claim 1,
The processor
A weight is assigned to at least one of the data samples included in the first sub data set based on the probability of incorrect prediction of each of the data samples included in the first sub data set,
Train the target model using the weighted data sample
Machine learning device.
레이블 정보가 주어지지 않은 복수의 데이터 샘플들을 포함하는 학습 데이터셋을 획득하는 단계;
기계 학습을 통해 목적 태스크를 수행하는 기계 학습 모델인 타겟 모델의 예측이 틀릴 확률을 산출하도록 학습된 확률 산출 모델을 이용하여, 상기 복수의 데이터 샘플들 각각에 대한 오예측(miss-prediction) 확률을 산출하는 단계;
상기 산출된 오예측 확률을 기초로, 상기 복수의 데이터 샘플들 중 적어도 하나의 데이터 샘플을 선별하여 제1 서브 데이터셋을 생성하는 단계;
상기 생성된 제1 서브 데이터셋에 포함된 데이터 샘플에 대한 레이블 정보인 제1 레이블 정보를 획득하는 단계; 및
상기 제1 서브 데이터셋과 상기 제1 레이블 정보를 이용하여 상기 타겟 모델에 대한 제1 학습을 수행하는 단계를 실행시키기 위하여 매체에 저장된
컴퓨터 프로그램.Combined with the hardware,
Obtaining a training dataset including a plurality of data samples to which label information is not given;
Using a probability calculation model trained to calculate a probability that a prediction of a target model, which is a machine learning model performing a target task through machine learning, is incorrect, calculates a miss-prediction probability for each of the plurality of data samples. Calculating;
Generating a first sub dataset by selecting at least one data sample among the plurality of data samples based on the calculated false prediction probability;
Obtaining first label information that is label information for a data sample included in the generated first sub data set; And
The first sub-dataset and the first label information are used to store the medium in order to execute the step of performing first learning on the target model.
Computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190157255A KR102128056B1 (en) | 2019-11-29 | 2019-11-29 | Method for machine learning and apparatus for the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190157255A KR102128056B1 (en) | 2019-11-29 | 2019-11-29 | Method for machine learning and apparatus for the same |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180137347A Division KR102052624B1 (en) | 2018-11-09 | 2018-11-09 | Method for machine learning and apparatus for the same |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200054121A true KR20200054121A (en) | 2020-05-19 |
KR102128056B1 KR102128056B1 (en) | 2020-07-07 |
Family
ID=70913434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190157255A KR102128056B1 (en) | 2019-11-29 | 2019-11-29 | Method for machine learning and apparatus for the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102128056B1 (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797942A (en) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | User information classification method and device, computer equipment and storage medium |
CN112069293A (en) * | 2020-09-14 | 2020-12-11 | 上海明略人工智能(集团)有限公司 | Data annotation method and device, electronic equipment and computer readable medium |
CN112085080A (en) * | 2020-08-31 | 2020-12-15 | 北京百度网讯科技有限公司 | Sample equalization method, device, equipment and storage medium |
CN112149733A (en) * | 2020-09-23 | 2020-12-29 | 北京金山云网络技术有限公司 | Model training method, model training device, quality determining method, quality determining device, electronic equipment and storage medium |
CN112560459A (en) * | 2020-12-04 | 2021-03-26 | 北京百度网讯科技有限公司 | Sample screening method, device, equipment and storage medium for model training |
CN112819078A (en) * | 2021-02-04 | 2021-05-18 | 上海明略人工智能(集团)有限公司 | Iteration method and device for recognition model |
CN112836754A (en) * | 2021-02-05 | 2021-05-25 | 方玉明 | Image description model generalization capability evaluation method |
WO2021256597A1 (en) * | 2020-06-16 | 2021-12-23 | (주) 씨이랩 | System for generation of user-customized image identification deep learning model through object labeling and operation method thereof |
KR20220006292A (en) | 2020-07-08 | 2022-01-17 | 주식회사 메가젠임플란트 | Apparatus for Generating Learning Data and Driving Method Thereof, and Computer Readable Recording Medium |
CN114118413A (en) * | 2021-11-30 | 2022-03-01 | 上海商汤临港智能科技有限公司 | Network training and equipment control method, device, equipment and storage medium |
KR20220095037A (en) * | 2020-12-29 | 2022-07-06 | 한국과학기술정보연구원 | Artificial intelligence service platform of circulation type and control method thereof |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102226938B1 (en) * | 2020-08-13 | 2021-03-10 | 김성구 | Effective data extraction method, apparatus and computer program for optimized matching users using artificial intelligence model |
KR102226939B1 (en) * | 2020-08-13 | 2021-03-10 | 김성구 | Method, apparatus and computer program for matching users using artificial intelligence model with improved effective data extraction performance |
KR20220091291A (en) * | 2020-12-23 | 2022-06-30 | 주식회사 엘지에너지솔루션 | Apparatus and method for machine-learning learning |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254555A1 (en) * | 2014-03-04 | 2015-09-10 | SignalSense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
US9275347B1 (en) * | 2015-10-09 | 2016-03-01 | AlpacaDB, Inc. | Online content classifier which updates a classification score based on a count of labeled data classified by machine deep learning |
KR101828503B1 (en) * | 2017-08-23 | 2018-03-29 | 주식회사 에이젠글로벌 | Apparatus and method for generating ensemble model |
KR101908680B1 (en) | 2016-08-30 | 2018-10-17 | 주식회사 루닛 | A method and apparatus for machine learning based on weakly supervised learning |
-
2019
- 2019-11-29 KR KR1020190157255A patent/KR102128056B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254555A1 (en) * | 2014-03-04 | 2015-09-10 | SignalSense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
US9275347B1 (en) * | 2015-10-09 | 2016-03-01 | AlpacaDB, Inc. | Online content classifier which updates a classification score based on a count of labeled data classified by machine deep learning |
KR101908680B1 (en) | 2016-08-30 | 2018-10-17 | 주식회사 루닛 | A method and apparatus for machine learning based on weakly supervised learning |
KR101828503B1 (en) * | 2017-08-23 | 2018-03-29 | 주식회사 에이젠글로벌 | Apparatus and method for generating ensemble model |
Non-Patent Citations (1)
Title |
---|
Shi, Yi, et al. Active deep learning attacks under strict rate limitations for online API calls. 2018 IEEE International Symposium on Technologies for Homeland Security (HST). IEEE. 2018.10.* * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021256597A1 (en) * | 2020-06-16 | 2021-12-23 | (주) 씨이랩 | System for generation of user-customized image identification deep learning model through object labeling and operation method thereof |
KR20220006292A (en) | 2020-07-08 | 2022-01-17 | 주식회사 메가젠임플란트 | Apparatus for Generating Learning Data and Driving Method Thereof, and Computer Readable Recording Medium |
CN111797942A (en) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | User information classification method and device, computer equipment and storage medium |
CN112085080B (en) * | 2020-08-31 | 2024-03-08 | 北京百度网讯科技有限公司 | Sample equalization method, device, equipment and storage medium |
CN112085080A (en) * | 2020-08-31 | 2020-12-15 | 北京百度网讯科技有限公司 | Sample equalization method, device, equipment and storage medium |
CN112069293A (en) * | 2020-09-14 | 2020-12-11 | 上海明略人工智能(集团)有限公司 | Data annotation method and device, electronic equipment and computer readable medium |
CN112069293B (en) * | 2020-09-14 | 2024-04-19 | 上海明略人工智能(集团)有限公司 | Data labeling method, device, electronic equipment and computer readable medium |
CN112149733A (en) * | 2020-09-23 | 2020-12-29 | 北京金山云网络技术有限公司 | Model training method, model training device, quality determining method, quality determining device, electronic equipment and storage medium |
CN112149733B (en) * | 2020-09-23 | 2024-04-05 | 北京金山云网络技术有限公司 | Model training method, model quality determining method, model training device, model quality determining device, electronic equipment and storage medium |
CN112560459A (en) * | 2020-12-04 | 2021-03-26 | 北京百度网讯科技有限公司 | Sample screening method, device, equipment and storage medium for model training |
CN112560459B (en) * | 2020-12-04 | 2023-10-20 | 北京百度网讯科技有限公司 | Sample screening method, device, equipment and storage medium for model training |
KR20220095037A (en) * | 2020-12-29 | 2022-07-06 | 한국과학기술정보연구원 | Artificial intelligence service platform of circulation type and control method thereof |
CN112819078B (en) * | 2021-02-04 | 2023-12-15 | 上海明略人工智能(集团)有限公司 | Iteration method and device for picture identification model |
CN112819078A (en) * | 2021-02-04 | 2021-05-18 | 上海明略人工智能(集团)有限公司 | Iteration method and device for recognition model |
CN112836754A (en) * | 2021-02-05 | 2021-05-25 | 方玉明 | Image description model generalization capability evaluation method |
CN114118413A (en) * | 2021-11-30 | 2022-03-01 | 上海商汤临港智能科技有限公司 | Network training and equipment control method, device, equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
KR102128056B1 (en) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102128056B1 (en) | Method for machine learning and apparatus for the same | |
US10922628B2 (en) | Method and apparatus for machine learning | |
KR102052624B1 (en) | Method for machine learning and apparatus for the same | |
KR102033136B1 (en) | Method for machine learning based on semi-supervised learning and apparatus thereof | |
KR102439606B1 (en) | Method for determining a base model for transfer learning and apparatus for supporting the same | |
JP6182242B1 (en) | Machine learning method, computer and program related to data labeling model | |
US10909455B2 (en) | Information processing apparatus using multi-layer neural network and method therefor | |
KR102107378B1 (en) | Method For optimizing hyper-parameter automatically and Apparatus thereof | |
Van Den Burg et al. | GenSVM: A generalized multiclass support vector machine | |
US10672129B1 (en) | Method for semantic segmentation and apparatus thereof | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
US11335455B2 (en) | Method for managing annotation job, apparatus and system supporting the same | |
CN111356997A (en) | Hierarchical neural network with granular attention | |
US20200202210A1 (en) | Systems and methods for training a neural network | |
KR102543698B1 (en) | Computing system and method for data labeling thereon | |
US20220108131A1 (en) | Knowledge distillation for neural networks using multiple augmentation strategies | |
KR102496030B1 (en) | Apparatus and method for reinforcement learning for classifying data | |
US20220108054A1 (en) | System for universal hardware-neural network architecture search (co-design) | |
US11593700B1 (en) | Network-accessible service for exploration of machine learning models and results | |
CN112417463A (en) | Software vulnerability prediction method and device, computer equipment and storage medium | |
US11688175B2 (en) | Methods and systems for the automated quality assurance of annotated images | |
KR102413588B1 (en) | Object recognition model recommendation method, system and computer program according to training data | |
US20210358317A1 (en) | System and method to generate sets of similar assessment papers | |
US10929761B2 (en) | Systems and methods for automatically detecting and repairing slot errors in machine learning training data for a machine learning-based dialogue system | |
US20230135468A1 (en) | Non-transitory computer-readable storage medium for storing machine learning program, machine learning method, and machine learning apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |