KR20210121790A

KR20210121790A - 강화학습 기반의 분류기 학습 장치 및 방법

Info

Publication number: KR20210121790A
Application number: KR1020200039096D
Authority: KR
Inventors: 윤일동; 왈리드
Original assignee: 한국외국어대학교 연구산학협력단
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2021-10-08
Also published as: KR102327045B1

Abstract

본 발명은 이미지 분류하는 분류기를 지도학습 방법이 아닌 강화학습 방식을 부분적으로 따르게 하여 적은 학습 데이터에 대하여도 과적합되지 않고 일반화 성능이 극대화하며 학습시키는 방법이다. 이미지를 상태로, 분류기인 정책의 클래스 분류를 행동으로, 학습 손실 개선과 검증 손실 개선의 합을 보상으로 하여 이 보상을 최대화하는 방향으로 정책을 학습시킨다.

Description

강화학습 기반의 분류기 학습 장치 및 방법{CLASSIFIER LEARNING APPARATUS AND METHOD BASED ON REINFORCEMENT LEARNING}

이미지를 분류하는 딥러닝 기반의 분류기 학습 방법에 관한 것으로, 보다 상세하게는 강화학습 기반으로 소량의 학습 데이터를 이용하여 학습하더라도 일반화 문제를 개선할 수 있는 분류기 학습 방법에 관한 발명이 개시된다.

딥 러닝의 출현으로 복잡한 식별 모델을 가진 이미지 분류기를 만드는 것이 가능하다. 그러나 복잡성이 증가한 심층 모델에는 학습을 일반화하기 위해 레이블이 지정된 방대한 학습 데이터 세트가 필요하다. 학습 데이터가 충분하지 못한 경우 제한된 학습 데이터로 인해 이미지 분류기는 학습 과정에서 쉽게 과적합(overfitting)될 수 있다. 이러한 이미지 분류기가 의료 이미지에 적용될 때 이러한 현상이 두드러지게 나타난다. 이는 레이블이 있는 의료 이미지 데이터를 수집하는 것이 어려워 제한된 학습 데이터를 갖는 의료 이미지 분석 분야에서 공통적인 문제이다. 따라서 보이지 않는 데이터에 대한 모델 일반화를 개선하면서 모델을 학습하는 것은 딥 러닝 기반 의료 이미지 분류에서 주요 과제이다.

제한된 학습 데이터로 인한 과적합 문제를 개선하기 위한 해결 방법으로 데이터 확대(data augmentation), 전이 학습(transfer learning) 등이 있으나 의료 이미지 데이터는 민감하고 기본적으로 자연 이미지와 달라 예측할 수 없는 방식으로 모델에 영향을 줄 수 있는 인공 의료 데이터(데이터 확대의 경우)를 사용하거나 다른 영역에서 학습한 표현(전이 학습의 경우)을 사용할 위험이 있다.

또한, 과적합을 방지하기 위해 일부 뉴런 출력을 0으로 할당하여 모델을 부분적으로 업데이트하는 dropout 방법이 있으며 심층 신경망을 구성하는 각 계층 당 매개 변수 수 또는 계층 수를 줄이는 방법이 있다. 이러한 방법은 지도학습을 기반으로 하며, 보이지 않는 데이터에 대한 일반화를 명시적으로 제어하지 않고 학습 데이터에만 적합하도록 최적화되므로 학습 데이터가 적은 경우 일반화 성능을 달성하기 어려운 문제가 있다.

대한민국 등록특허 제10-1590896호(2016.02.02.)

본 발명은 의료 이미지 분석 분야 등에서 적은 학습 데이터로 학습하더라도 과적합되지 않고 높은 분류 성능을 나타내도록 이미지 분류기를 학습시키는 방법을 제공하는 것을 목적으로 한다.

추가로, 본 발명은 의료 이미지 분석 분야 등에서 적은 학습 데이터로도 일반화 성능이 개선된 학습 방법을 제공하는 것을 또 다른 목적으로 한다.

본 발명의 일 양상에 따르면, 이미지를 분류하는 분류기의 학습 방법은 탐험 단계와, 업데이트 단계를 포함한다.

탐험 단계는 이미지 분류 단계와, 제2 정책 업데이트 단계와, 보상 산출 단계와, 가치 산출 단계와, 경험 저장 단계를 포함한다.

이미지 분류 단계는 분류기인 제1 정책이 이미지를 클래스 별 확률 분포에 따라 분류하는 단계이고, 제2 정책 업데이트 단계는 제1 정책을 설정했던 제1 정책의 파라미터로 초기화된 제2 정책이 제1 정책이 이미지를 분류한 것보다 높은 확률로 이미지를 동일하게 분류하도록 제2 정책을 업데이트하는 단계이고, 보상 산출 단계는 제2 정책 업데이트로 인한 학습 손실 개선과 검증 손실 개선을 계산하여 보상을 산출하는 단계이고, 가치 산출 단계는 가치망이 제1 정책 및 제2 정책을 통해 이미지 분류 시 가치를 각각의 정책에 대하여 산출하는 단계이고, 경험 저장 단계는 강화학습의 에피소드인 이미지, 이미지 분류 결과, 보상, 제1 정책의 가치 및 제2 정책의 가치를 포함하는 경험 데이터를 저장하는 단계이다.

업데이트 단계는 미니 배치 샘플링 단계와, 정책 및 가치망 업데이트 단계를 포함한다.

미니 배치 샘플링 단계는 탐험 단계에서 저장된 강화학습의 에피소드 즉, 경험 데이터들을 설정된 개수의 미니 배치로 샘플링하는 단계이고, 정책 및 가치망 업데이트 단계는 각각의 미니 배치에서 어드밴티지를 계산하고 어드밴티지를 이용하여 가치망 및 제1 정책을 업데이트하는 단계이다.

학습 방법은 설정된 반복 횟수(epoch)만큼 전체 학습 데이터 세트(training set)와 검증 데이터 세트(validation set)에 포함된 이미지에 대하여 탐험 단계와 업데이트 단계를 반복한다.

본 발명의 일 양상에 따르는 이미지를 분류하는 분류기의 학습 방법을 수행하는 분류기 학습 장치는 환경부와, 강화학습부와, 학습 제어부를 포함한다.

환경부는 제2 정책망과, 보상 산출부를 포함하며, 강화학습에서의 에이전트에 상태와 보상을 전달하는 환경에 해당한다.

제2 정책망은 딥 러닝 기반의 분류기로 이미지를 클래스 별 확률 분포에 따라 분류한다. 제2 정책망은 제1 정책망과 동일한 미러(mirror) 정책망으로 학습과정에서 제1 정책망의 파라미터로 초기화된다. 제2 정책망은 제1 정책망보다 높은 확률로 이미지를 제1 정책망과 동일하게 분류하도록 업데이트되어 학습된다.

보상 산출부는 제2 정책망의 업데이트로 인한 학습 손실 개선과 검증 손실 개선을 계산하여 보상을 산출한다.

강화학습부는 제1 정책망과, 가치망과, 경험 저장부와, 정책 및 가치망 업데이트부를 포함한다.

제1 정책망은 딥 러닝 기반의 분류기로 이미지를 클래스 별 확률 분포에 따라 분류한다.

가치망은 제1 정책망 및 제2 정책망을 통해 이미지 분류 시 받을 수 있는 누적된 보상을 의미하는 가치를 각각의 정책망에 대하여 산출한다.

경험 저장부는 이미지, 이미지 분류 결과, 보상, 제1 정책의 가치 및 제2 정책의 가치를 포함하는 경험 데이터를 저장한다.

정책 및 가치망 업데이트부는 저장된 경험 데이터들을 설정된 개수의 미니 배치로 샘플링하고, 각각의 미니 배치에서 어드밴티지를 계산하고 어드밴티지를 이용하여 가치망 및 제1 정책망을 업데이트한다.

학습 제어부는 설정된 반복 횟수만큼 전체 학습 데이터 세트와 검증 데이터 세트에 포함된 이미지에 대하여 제1 정책망, 제2 정책망 및 가치망 업데이트를 반복하도록 제어한다.

본 발명에 의하면 적은 학습 데이터로 학습하더라도 과적합되지 않고 높은 분류 성능을 나타내도록 이미지 분류기를 학습시킬 수 있다.

추가로, 본 발명에 의하면 적은 학습 데이터로도 딥러닝 기반의 이미지 분류기의 일반화 성능을 향상시키며 이미지 분류기를 학습시킬 수 있다.

도 1은 이미지 분류기 학습 방법의 개념을 도시한 개념도이다.
도 2는 일 양상에 따른 이미지 분류기 학습 방법의 절차를 도시한 절차도이다.
도 3은 일 양상에 따른 이미지 분류기 학습 장치를 도시한 블록도이다.
도 4는 이미지 분류기 학습 방법의 성능을 나타내는 학습 곡선 비교도이다.

전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.

머신러닝은 인공지능의 한 범주로서 컴퓨터가 스스로 학습하게 하는 알고리즘을 개발하는 분야이다. 머신러닝은 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning) 세 가지로 구분된다. 지도학습은 정답을 알고 있는 학습 데이터를 이용하여 인공지능 모델을 학습시키는 방법으로, 분류 문제 등에 적용된다. 분류 모델 중 딥 러닝 모델인 CNN(Convolutional Neural Network)은 이미지 분류 분야에서 널리 채택되어 사용되고 있다. 이미지 분류 모델은 주어진 입력 이미지에 대하여 클래스 별 확률분포에 따라 클래스를 분류하도록 학습 목표를 정하고, 학습 목표에 따라 모델이 입력 이미지에 대하여 실제 이미지의 클래스 별 확률분포에 맞는 분류 결과를 출력하도록 손실함수를 최소화하도록 학습한다. 이미지 분류 모델의 손실함수로 사용되는 교차 엔트로피 함수의 예가 <수학식 1>이다.

T는 학습 데이터 세트이고, (X, y _t )는 T에서 레이블된 이미지이며, f(X, y _t )는 T에서 이미지 X에 대한 클래스 별 확률분포 P(y|X)를 의미한다.

이미지 분류 모델은 일반적으로 지도학습 방식으로 손실함수를 최소화하며 학습되나, 학습 데이터 세트의 양이 적은 경우 등에서 학습 데이터에 과적합되면서 일반화되지 않아 학습 과정에서 나타나지 않은 테스트 데이터에 대하여 분류 성능이 저하되는 문제가 발생할 수 있다. 이러한 문제를 해결하는 방법으로 학습 데이터 세트에서 유효성 검증 세트를 분리하여 실제 학습에는 사용하지 않고 학습의 에포크(epoch)마다 분류 모델의 성능을 검증하여, 최고의 성능을 나타내는 에포크의 모델의 파라미터 설정을 최적으로 일반화된 설정으로 선택할 수 있다. 하지만, 학습 데이터 세트의 양이 적을 경우에는 설정의 모델이 다른 에포크 보다 우수하더라도 여전히 과적합된 상태여서 일반화 성능이 낮을 수 있다.

지도학습 방식의 일반적인 분류 모델 학습은 학습 데이터에 과적합되지 않도록 하기 위해 학습 데이터로부터 검증 데이터를 분리하고, 지도학습 방식의 학습은 학습 데이터는 손실함수를 최소화하는 방향으로 학습하는데 사용하고 검증 데이터는 학습 데이터에는 보이지 않는 데이터로 해당 모델의 일반화 정도를 추정하기 위해 사용한다.

제안된 발명은 분류 모델을 강화학습 모델을 학습시키는 방식을 부분적으로 적용하여 학습 데이터를 통한 학습에서 손실함수를 최소화하는 방향으로만 학습시키는 대신 검증 데이터로부터의 일반화 피드백을 이용하여 분류 모델을 학습시킨다.

딥 러닝 기반의 이미지 분류기 학습 방법을 처리하는 장치 즉, 분류기 학습 장치는 PC, 서버 등의 컴퓨팅 장치일 수 있다. 이미지 분류기 학습 방법은 컴퓨팅 장치에서 실행되는 프로그램 명령어들로 적어도 일부가 구현될 수 있다. 이러한 컴퓨팅 장치는 영상 신호를 처리하는 마이크로프로세서, 혹은 디지털 신호 처리 프로세서로 구현될 수 있다. 또 다른 예로, 이러한 컴퓨팅 장치는 영상 신호를 처리하는 마이크로프로세서, 혹은 디지털 신호 처리 프로세서와, 고속으로 하나 혹은 복수의 특정한 알고리즘을 수행하는 전용 하드웨어를 포함하여 설계될 수 있다. 마이크로프로세서는 메모리에 저장된 프로그램을 실행하여 제안된 발명에 따른 이미지 분류기 학습 방법을 수행한다. 예를 들어 방법을 구성하는 일부의 단계들이 전용의 신경망회로들에 의해 처리될 수 있다.

마이크로프로세서는 사용자 인터페이스를 통해 사용자의 지시를 입력 받고, 처리 상태를 표시하며, 처리 결과를 제공한다. 사용자 인터페이스는 키보드나 마우스와 같은 입력 장치들과, 디스플레이를 포함할 수 있다. 메모리는 반도체 메모리 및/또는 하드디스크와 같은 디지털 저장 장치로 구성되며, 프로그램 코드와, 임시 데이터 및 데이터베이스나 통계적인 모델 등이 저장될 수 있다.

도 1은 이미지 분류기 학습 방법의 개념을 도시하고 있다. 제안된 발명의 이미지 분류기 학습 방법은 도 1에 도시된 것과 같이 이미지 분류기를 강화학습 모델을 학습시키는 방식을 부분적으로 적용하고 있다. 강화학습 모델의 적용을 위해 상태, 행동, 보상, 정책(일반적으로 딥 러닝 모델로 구현되므로 정책망(policy network)으로도 볼 수 있음), 가치 등이 다음과 같이 정의된다.

상태(state)는 에이전트(agent)가 행동(action)을 결정하기 위해 관찰하는 학습 데이터 이미지 X이며, 이미지 X는 학습 데이터 세트(training set) T 또는 검증 데이터 세트(validation set) V에 속하는 이미지이다. 행동(action)은 이미지 X에 대한 확률 분포에 따른 분류 결과로 출력되는 클래스 레이블 y이다. 정책(policy) π(X, y)은 클래스 별 확률분포 P(y|X)를 제공하는 분류 모델 즉, 분류기이다. 주어진 상태 즉, 이미지 X에 대해 행동 y를 적용하는 것은 분류기(또는 정책)를 y 방향으로 기울이거나(tilt) 업데이트하는 것을 의미하며, 다른 의미로 입력 X에 대해 증가된 확률로 y를 출력하도록 정책을 수정하는 것을 말한다. 보상(reward) r(X, y)는 주어진 상태 즉, 이미지 X에 대해 행동 y를 적용함으로써 발생되는 일반화의 개선으로 정의될 수 있다. 다만, 상태 X는 행동 y를 적용한다고 하여 상태가 변하거나 상태 사이에 순차적인 관계가 없으므로 정의된 상태 X에 대하여 가치(value)를 계산하는 것은 유용하지 않다. 따라서 가치 함수의 경우에만 정의된 상태를 그대로 사용하지 않고 정책과 상태를 짝지은 수정된 상태 (X, π)를 사용한다. 따라서 가치 함수는 v(X, π)로 표현된다. 직관적으로 v(X, π)는 상태 X에 정책 π를 적용했을 때의 가치를 나타낸다. 이 수정된 상태는 one-step MDP의 전환을 나타내는 데 사용될 수 있으며, 행동 y를 수행함으로써 수정된 상태 (X, π)가 수정된 상태 (X, π')로 전이된다. 여기서 π는 원 정책이고 π'는 행동 y의 적용에 의해 업데이트된 정책이다.

강화학습에서 상태는 환경(environment)에 의해 제공되며, 환경은 에이전트가 환경에 대하여 행동을 적용하여 발생한 행동에 대한 보상과 도달한 새로운 상태를 에이전트에 제공한다. 본 발명에서 행동은 정책 자체에 적용되므로 정책 또한 환경의 일부가 된다. 또한 에이전트는 정책에 따라 최적의 행동을 수행하고 해당 행동을 적용하여 정책을 다시 편집하는 자체 편집 정책을 모델링한다. 그러나 검증 성능을 개선하기 위한 탐색(exploration)에서 하나의 상태에 대한 행동을 적용하여 정책을 편집한 후 다른 상태를 탐색하는 동안 편집된 정책을 사용하는 것은 적절하지 않다. 이는 본 발명에서 정의된 상태가 순차적이지 않기 때문이다. 따라서 원 정책 π를 모방하는 미러 정책 π'을 도 1에 도시된 것과 같이 환경 내에 유지하고 탐색 중에는 원 정책 π를 그대로 유지하면서 이 미러 정책에 행동을 적용하여 이 미러 정책 π'을 업데이트한다.

도 1에는 본 발명에서 사용될 보상(학습 손실 개선과 검증 손실 개선의 합으로 계산)과, 정책 π와 가치 함수 v에 역전파되어 정책의 일반화 성능을 향상시키는 데 사용되는 스칼라 일반화 피드백을 계산하는 비용함수도 개념적으로 도시되어 있다.

본 발명의 일 양상에 따르면, 이미지를 분류하는 분류기의 학습 방법은 탐험 단계와, 업데이트 단계를 포함하고, 이때 이미지 분류기는 딥 러닝 기반으로 구현되어 컴퓨팅 장치에서 실행되는 프로그램 명령어로 적어도 일부가 구현된다. 또한 분류기 학습 방법의 각 단계 또한 컴퓨팅 장치에서 실행되는 프로그램 명령어로 구현될 수 있다. 따라서, 분류기 학습 방법의 각 단계의 실행 주체는 분류기 학습 장치이다.

본 발명의 분류기 학습 방법은 강화학습 방법을 부분적으로 따르며, 탐험 단계에서 경험 데이터를 수집하고, 업데이트 단계에서 수집한 경험 데이터를 미니 배치 단위 학습하여 일반화 피드백을 산출하여 분류기를 학습시킨다.

탐험 단계는 이미지 분류 단계와, 제2 정책 업데이트 단계와, 보상 산출 단계와, 가치 산출 단계와, 경험 저장 단계를 포함하여 구성된다.

이미지 분류 단계는 분류기인 제1 정책이 이미지를 클래스 별 확률 분포에 따라 분류하는 단계이다. 즉, 환경(environment)으로부터 제공받은 학습 데이터 세트(training set) 또는 검증 데이터 세트(validation set) 내의 이미지 X를 제1 정책을 통해 클래스 y로 분류한다. 이때, 강화학습의 개념으로 이미지 X는 상태(state)가 이고, 제1 정책의 출력인 클래스 y는 행동(action)이다.

제2 정책 업데이트 단계는 제1 정책을 설정했던 제1 정책의 파라미터로 초기화된 제2 정책이 제1 정책이 이미지를 분류한 것보다 높은 확률로 이미지를 동일하게 분류하도록 제2 정책을 업데이트하는 단계이다. 제2 정책은 환경 내의 정책으로 제1 정책에 대한 미러(mirror) 정책이다. 따라서, 제2 정책의 파라미터들은 제1 정책의 파라미터들로 초기화되고, 제1 정책이 분류한 입력 이미지에 대하여 제1 정책이 분류한 것보다 높은 확률로 해당 이미지를 분류하도록 틸팅 또는 업데이트 된다. 입력 이미지는 본 발명의 분류기 강화학습 방식에서 상태(state)에 해당하나 행동의 적용으로 인해 변화될 상태와 연속성이 없어 본 발명의 분류기 학습 방법에서는 다른 이미지에 대하여 업데이트된 제1 정책으로 이미지를 분류하지 않도록 제1 정책 대신 제2 정책이 업데이트된다.

보상 산출 단계는 제2 정책 업데이트로 인한 학습 손실 개선과 검증 손실 개선을 계산하여 보상을 산출하는 단계이다. 보상은 <수학식 2>를 통해 계산된다.

r(X, y)는 상태 X에 대한 행동 y의 보상, π는 제1 정책, π'는 제2 정책, L(T)는 손실함수, ΔL _T 는 학습 손실 개선, ΔL _V 는 검증 손실 개선이다.

가치 산출 단계는 가치망이 제1 정책 및 제2 정책을 통해 이미지 분류 시 가치를 각각의 정책에 대하여 산출하는 단계이다. 앞서 설명한 바와 같이, 가치 산출에 있어서 상태는 정책과 상태를 짝지은 수정된 상태 (X, π)를 사용하며 v(X, π)는 상태 X에 정책 π를 적용했을 때의 가치를 나타낸다. 따라서 가치망은 v(X, π)와 v(X, π')을 계산한다.

경험 저장 단계는 강화학습의 에피소드인 이미지, 이미지 분류 결과, 보상, 제1 정책의 가치 및 제2 정책의 가치를 포함하는 경험 데이터를 저장하는 단계이다. 경험은 상태, 행동, 보상, 제1 정책의 가치, 제2 정책의 가치를 포함하며, 수식으로 (X, y, r, v(X, π), v(X, π')) 형태로 표현된다. 이 저장된 경험의 집합을 수학식 내에서 E로 나타낸다.

미니 배치 샘플링 단계는 탐험 단계에서 저장된 강화학습의 에피소드 즉, 경험 데이터들을 설정된 개수의 미니 배치(minibatch)로 샘플링하는 단계이다. 즉, 저장된 전체 경험 데이터들을 설정된 개수의 배치 단위로 분할한다. 따라서, 설정된 개수가 N이면 경험 데이터 집합은 N개의 배치(batch)로 분할되며, 경험 데이터 집합은 이들 N 개의 미니 배치들을 포함하는 집합으로 볼 수 있다.

정책 및 가치망 업데이트 단계는 각각의 미니 배치에 대하여 어드밴티지를 계산하고 어드밴티지를 이용하여 가치망 및 제1 정책을 업데이트하는 단계이다. 어드밴티지는 <수학식 3>을 통해 계산된다.

는 제2 정책에 대한 감가된 누적 보상이며

를 이용하여 구한다.

는 감가율(discount factor)로 0과 1사이의 값을 가진다.

분류기 학습 방법은 설정된 반복 횟수(epoch)만큼 전체 학습 데이터 세트(training set)와 검증 데이터 세트(validation set)에 포함된 이미지에 대하여 탐험 단계와 업데이트 단계를 반복하여 학습을 완료한다.

본 발명의 또 다른 양상에 따르면, 이미지를 분류하는 분류기의 학습 방법의 이미지 분류 단계는 제1 정책이 설정된 확률(ε)로 이미지를 클래스 별 확률 분포에 따라 분류하고, 나머지 확률(1-ε)로 무작위로 클래스를 분류할 수 있다. 각 상태 X에 대하여 제1 정책 π(X, y)이 행동 y를 샘플링할 때 ε-그리디(ε-greedy) 알고리즘을 사용하여 행동 y를 선택한다. 제1 정책은 ε 확률로 그리디 행동 y를 선택하고, 1-ε 확률로 무작위 행동을 선택한다.

본 발명의 또 다른 양상에 따르면, 이미지를 분류하는 분류기의 학습 방법의 제2 정책 업데이트 단계는 이미지에 대한 클래스 분류의 로그 가능도(log likelihood)를 높이는 방향으로 제2 정책을 업데이트할 수 있다. 제1 정책이 입력된 이미지 X(상태)에 대하여 분류한 클래스 y(행동)에 대한 분류 확률보다 제2 정책이 이미지 X에 대하여 높은 분류 확률로 클래스 y로 분류하도록 <수학식 4>를 이용하여 제2 정책을 업데이트한다.

θ _π' 는 제2 정책의 학습 파라미터, α _π' 는 업데이트률로 하이퍼 파라미터(Hyper-parameter)이다.

본 발명의 또 다른 양상에 따르면, 이미지를 분류하는 분류기의 학습 방법의 정책 및 가치망 업데이트 단계에서 제1 정책은 크로스 엔트로피 손실함수를 이용하여 업데이트될 수 있다. 여기서 사용되는 손실함수는 계산된 어드밴티지를 사용하여 구할 수 있다. 제1 정책은 <수학식5>를 통해 업데이트된다.

θ _π 는 제1 정책의 학습 파라미터, α _π 는 업데이트률로 하이퍼 파라미터(Hyper-parameter)이다. E는 경험 데이터 집합, A는 어드밴티지이다.

본 발명의 또 다른 양상에 따르면, 이미지를 분류하는 분류기의 학습 방법의 정책 및 가치망 업데이트 단계에서 가치망은 제2 정책에 대한 감가된 누적 보상과 현재 가치망을 통해 계산된 제1 정책의 가치의 차이의 제곱을 사용하는 손실함수를 이용하여 업데이트될 수 있다. 여기서 사용되는 손실함수는 제1 정책에 대한 현재 가치 출력인

와 감가된 누적 보상

의 차의 제곱을 사용하여 구할 수 있다. 가치망은 <수학식6>를 통해 업데이트된다.

θ _v 는 가치망의 학습 파라미터, α _v 는 업데이트률로 하이퍼 파라미터(Hyper-parameter)이다.

도 2는 일 양상에 따른 이미지 분류기 학습 방법의 절차를 도시한다. 분류기 학습 방법은 설정된 횟수(최대 에포크)만큼 학습 데이터 세트 및 검증 데이터 세트만큼 반복되도록 수행된다(S1000). 매 에포크마다 새로운 경험 데이터를 수집하도록 경험 데이터 집합을 초기화한다(S1010). 학습 데이터 세트 또는 검증 데이터 세트로부터 분류할 이미지 X(상태)를 환경으로부터 제공받아 제1 정책(π)이 ε-greed 방식으로 이미지 X를 샘플링 즉, 분류한다(S1020). 제1 정책은 ε 확률로 그리디 행동 y를 선택하고, 1-ε 확률로 무작위 행동을 선택한다. 제2 정책(π')을 제1 정책(π)으로 초기화한다(S1030). 즉, 제2 정책의 학습 대상 파라미터(θ _π' )를 제1 정책의 학습 대상 파라미터(θ _π )로 업데이트한다. 각각의 이미지마다 이 초기화를 수행한다. <수학식 4>를 이용하여 제2 정책을 업데이트한다(S1040). 이는 동일한 이미지 X에 대하여 제2 정책이 제1 정책보다 더 높은 확률로 분류하도록 업데이트하는 것이다. 환경은 <수학식 2>를 이용하여 보상 r을 계산한다(S1050). 가치망은 제1 정책의 가치(v(X,π)) 및 제2 정책의 가치(v(X,π'))를 산출하고(S1060), 현재 상태 즉, 이미지 X에 대한 경험 데이터를 경험 데이터 집합(E)에 추가하여 저장한다(S1070). 학습 데이터 세트 및 검증 데이터 세트에 포함된 모든 이미지에 대하여 현재 에포크에서 탐험이 수행되도록 한다(S1080).

학습 데이터 세트 및 검증 데이터 세트에 포함된 모든 이미지에 대하여 탐험 단계를 수행한 후, 수집된 경험 데이터들을 설정된 개수의 미니 배치로 분할 즉, 샘플링한다(S1090). 각각의 미니 배치들에 대하여 다음의 단계(S1100, S1110, S1120)이 수행되도록 한다(S1130). 각각의 미니 배치에 대하여 <수학식 3>을 이용하여 어드밴티지를 산출하고(S1100), 산출된 어드밴티지를 이용하여 <수학식 6>을 이용하여 가치망을 업데이트한다(S1110). 이때 산출된 손실을 가치망으로 역전파하여 가치망이 업데이트되도록 한다. 산출된 어드밴티지를 이용하여 <수학식 5>를 이용하여 제1 정책을 업데이트한다(S1120). 이때 산출된 손실을 제1 정책으로 역전파하여 제1 정책이 업데이트되도록 한다.

도 3은 일 양상에 따른 이미지 분류기 학습 장치를 도시한 블록도이다. 본 발명의 일 양상에 따르는 이미지를 분류하는 분류기의 학습 방법을 수행하는 분류기 학습 장치(10)는 환경부(100)와, 강화학습부(200)와, 학습 제어부(300)를 포함한다.

본 발명의 일 양상에 따르면, 이미지를 분류하는 분류기를 학습시키는 장치는 컴퓨팅 장치이고, 이미지 분류기는 딥 러닝 기반으로 구현되어 컴퓨팅 장치에서 실행되는 프로그램 명령어로 적어도 일부가 구현된다. 또한 분류기 학습 방법의 각 단계 또한 컴퓨팅 장치에서 실행되는 프로그램 명령어로 구현될 수 있다.

본 발명의 분류기 학습 장치(10)에서 실행되는 분류기 학습 방법은 강화학습 방법을 부분적으로 따른다.

환경부(100)는 제2 정책망(110)과, 보상 산출부(130)를 포함하며, 강화학습에서의 에이전트에 상태와 보상을 전달하는 환경에 해당한다.

제2 정책망(110)은 딥 러닝 기반의 분류기로 이미지를 클래스 별 확률 분포에 따라 분류한다. 제2 정책망(110)은 제1 정책망(210)과 동일한 미러(mirror) 정책망으로 학습과정에서 제1 정책망(210)의 파라미터로 초기화된다. 제2 정책망(110)은 제1 정책망(210)이 이미지를 분류한 것보다 높은 확률로 이미지를 동일하게 분류하도록 틸팅 또는 업데이트되어 학습된다. 제2 정책망(110)은 환경 내의 정책으로 제1 정책망(210)에 대한 미러(mirror) 정책망이다. 입력 이미지는 본 발명의 분류기 학습 장치(10)의 분류기 강화학습 방식에서 상태(state)에 해당하나 행동의 적용으로 인해 변화될 상태와 연속성이 없어 본 발명의 분류기 학습 장치(10)의 분류기 학습 방법에서는 다른 이미지에 대하여 업데이트된 제1 정책망(210)으로 이미지를 분류하지 않도록 제1 정책망(210) 대신 제2 정책망(110)이 업데이트된다.

보상 산출부(130)는 제2 정책망(110)의 업데이트로 인한 학습 손실 개선과 검증 손실 개선을 계산하여 보상을 산출한다. 보상 산출부(130)는 제2 정책망(110) 업데이트로 인한 학습 손실 개선과 검증 손실 개선을 계산하여 보상을 산출한다. 보상은 <수학식 2>를 통해 계산된다.

강화학습부(200)는 제1 정책망(210)과, 가치망(230)과, 경험 저장부(250)와, 정책 및 가치망 업데이트부(270)를 포함한다.

제1 정책망(210)은 딥 러닝 기반의 분류기로 이미지를 클래스 별 확률 분포에 따라 분류한다. 제1 정책은 이미지를 클래스 별 확률 분포에 따라 분류한다. 즉, 환경부(100)로부터 제공받은 학습 데이터 세트(training set) 또는 검증 데이터 세트(validation set) 내의 이미지 X를 제1 정책망(210)을 통해 클래스 y로 분류한다. 이때, 강화학습의 개념으로 이미지 X는 상태(state)가 이고, 제1 정책망(210)의 출력인 클래스 y는 행동(action)이다.

가치망(230)은 제1 정책망(210) 및 제2 정책망(110)을 통해 이미지 분류 시 받을 수 있는 누적된 보상을 의미하는 가치를 각각의 정책망에 대하여 산출한다. 가치 산출에 있어서 상태는 정책과 상태를 짝지은 수정된 상태 (X, π)를 사용하며 v(X,π)는 상태 X에 정책 π를 적용했을 때의 가치를 나타낸다. 따라서 가치망(230)은 v(X,π)와 v(X,π')을 계산한다.

경험 저장부(250)는 강화학습의 에피소드인 이미지, 이미지 분류 결과, 보상, 제1 정책의 가치 및 제2 정책의 가치를 포함하는 경험 데이터를 경헙 데이터 집합에 저장한다. 경험은 상태, 행동, 보상, 제1 정책의 가치, 제2 정책의 가치를 포함하며, 수식으로 (X, y, r, v(X,π), v(X,π')) 형태로 표현된다. 이 저장된 경험 데이터의 집합을 수학식 내에서 E로 나타낸다.

정책 및 가치망 업데이트부(270)는 저장된 경험 데이터들을 설정된 개수의 미니 배치로 샘플링한다. 미니 배치 샘플링은 저장된 강화학습의 에피소드 즉, 경험 데이터들을 설정된 개수의 미니 배치(minibatch)로 분할(샘플링)한다. 저장된 전체 경험 데이터들을 설정된 개수의 배치 단위로 분할한다. 따라서, 설정된 개수가 N이면 경험 데이터 집합은 N개의 배치(batch)로 분할되며, 경험 데이터 집합은 이들 N 개의 미니 배치들을 포함하는 집합으로 볼 수 있다.

정책 및 가치망 업데이트부(270)는 각각의 미니 배치에서 어드밴티지를 계산하고 어드밴티지를 이용하여 가치망(230) 및 제1 정책망(210)을 업데이트한다. 어드밴티지는 <수학식 3>을 통해 계산된다.

학습 제어부(300)는 설정된 반복 횟수만큼 전체 학습 데이터 세트와 검증 데이터 세트에 포함된 이미지에 대하여 제1 정책망(210), 제2 정책망(110) 및 가치망(230) 업데이트를 반복하도록 제어한다.

본 발명의 또 다른 양상에 따르면, 분류기 학습 장치(10)의 제1 정책망(210)은 설정된 확률(ε)로 이미지를 클래스 별 확률 분포에 따라 분류하고, 나머지 확률(1-ε)로 무작위로 클래스를 분류할 수 있다. 각 상태 X에 대하여 제1 정책망(210) π(X,y)가 행동 y를 샘플링할 때 ε-그리디(ε-greedy) 알고리즘을 사용하여 행동 y를 선택한다. 제1 정책망(210)은 ε 확률로 그리디 행동 y를 선택하고, 1-ε 확률로 무작위 행동을 선택한다.

본 발명의 또 다른 양상에 따르면, 분류기 학습 장치(10)의 제2 정책망(110)은 이미지에 대한 클래스 분류의 로그 가능도(log likelihood)를 높이는 방향으로 제2 정책망(110)을 업데이트할 수 있다. 제1 정책망(210)이 입력된 이미지 X(상태)에 대하여 분류한 클래스 y(행동)에 대한 분류 확률보다 제2 정책망(110)이 이미지 X에 대하여 높은 분류 확률로 클래스 y로 분류하도록 <수학식 4>를 이용하여 제2 정책망(110)을 업데이트한다.

본 발명의 또 다른 양상에 따르면, 분류기 학습 장치(10)의 정책 및 가치망 업데이트부(270)는 제1 정책을 크로스 엔트로피 손실함수를 이용하여 업데이트할 수 있다. 여기서 사용되는 손실함수는 계산된 어드밴티지를 사용하여 구할 수 있다. 제1 정책망(210)은 <수학식5>를 통해 업데이트된다.

본 발명의 또 다른 양상에 따르면, 분류기 학습 장치(10)의 정책 및 가치망 업데이트부(270)는 가치망(230)을 제2 정책망(110)에 대한 감가된 누적 보상과 현재 가치망(230)을 통해 계산된 제1 정책망(210)의 가치의 차이의 제곱을 사용하는 손실함수를 이용하여 업데이트할 수 있다. 여기서 사용되는 손실함수는 제1 정책망(210)에 대한 현재 가치 출력인

와 감가된 누적 보상

의 차의 제곱을 사용하여 구할 수 있다. 가치망(230)은 <수학식6>를 통해 업데이트된다.

도 4는 이미지 분류기 학습 방법의 성능을 나타내는 학습 곡선 비교도이다.

도 4는 작은 데이터 세트의 과적합 상황에 대한 비교 학습 특성을 제시하기 위해 에포크에 대한 학습, 검증 및 테스트 세트의 정확성을 도시하고 있다. 도 4에서는 다른 과적합 방지 접근법에 대한 학습 진행률을 함께 도시한다. 정확도가 수렴하거나 검증의 정확성이 개선되지 않고 일정하게 유지될 때까지 학습을 진행하였다.

제안된 발명과 비교하기 위해 드롭 아웃 방식과 L2 정규화와 드롭 아웃 방식을 함께 사용한 방식을 도시하고 있으며, 다른 접근법과 비교하여 제안된 발명에서는 일반화 간격(즉, 학습과 테스트/검증 곡선 사이의 간격)이 상당히 좁다. 이는 테스트/검증 곡선이 학습 곡선에 더 잘 따라갈 수 있어 일반화 오류가 줄어드는 것을 의미한다.

제안된 발명의 지도학습의 업데이트와 병렬로 실행되는 강화학습 업데이트는 최대의 유효성 검사 성능을 얻기 위해 다양한 클래스를 지속적으로 탐색한다. 따라서, 학습 및 검증 성능의 개선에도 불구하고 학습 속도가 비교적 느리다.

학습 진행의 속도를 높이기 위해 <수학식 5>를 대체하여 <수학식 7>을 사용하여 각 미니 배치에 대하여 제1 정책망(210)을 업데이트할 수 있다. 즉, 지도학습 방식의 크로스 엔트로피 손실을 추가할 수 있다.

y _t 는 지도학습에서의 이미지 X에 대한 실제 레이블이며, c는 지도학습의 학습률이다.

이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.

10: 분류기 학습 장치
100: 환경부
110: 제2 정책망
130: 보상 산출부
200: 강화학습부
210: 제1 정책망
230: 가치망
250: 경험 저장부
270: 정책 및 가치망 업데이트부
300: 학습 제어부

Claims

컴퓨팅 장치에서 실행되는 프로그램 명령어로 적어도 일부가 구현되어 입력된 이미지를 분류하는 분류기의 학습 방법에 있어서,
분류기인 제1 정책이 이미지를 클래스 별 확률 분포에 따라 분류하는 이미지 분류 단계와, 제1 정책의 파라미터로 초기화된 제2 정책이 제1 정책보다 높은 확률로 이미지를 동일하게 분류하도록 제2 정책을 업데이트하는 제2 정책 업데이트 단계와, 제2 정책 업데이트로 인한 학습 손실 개선과 검증 손실 개선을 계산하여 보상을 산출하는 보상 산출 단계와, 가치망이 제1 정책 및 제2 정책을 통해 이미지 분류 시 가치를 각각의 정책에 대하여 산출하는 가치 산출 단계와, 이미지, 이미지 분류 결과, 보상, 제1 정책의 가치 및 제2 정책의 가치를 포함하는 경험 데이터를 저장하는 경험 저장 단계를 포함하는 탐험 단계; 및
탐험 단계에서 저장된 경험 데이터들을 설정된 개수의 미니 배치로 샘플링하는 미니 배치 샘플링 단계와, 각각의 미니 배치에 대하여 어드밴티지를 계산하고 어드밴티지를 이용하여 가치망 및 제1 정책을 업데이트하는 정책 및 가치망 업데이트 단계를 포함하는 업데이트 단계;
를 포함하고,
설정된 반복 횟수(epoch)만큼 전체 학습 데이터 세트(training set)와 검증 데이터 세트(validation set)에 포함된 이미지에 대하여 탐험 단계와 업데이트 단계를 반복하는 분류기 학습 방법.
제 1 항에 있어서, 이미지 분류 단계는
제1 정책이 설정된 확률(ε)로 이미지를 클래스 별 확률 분포에 따라 분류하고, 나머지 확률(1-ε)로 무작위로 클래스를 분류하는 분류기 학습 방법.
제 1 항에 있어서, 제2 정책 업데이트 단계는
이미지에 대한 클래스 분류의 로그 가능도(log likelihood)를 높이는 방향으로 제2 정책을 업데이트하는 분류기 학습 방법.
제 1 항에 있어서,
정책 및 가치망 업데이트 단계에서 제1 정책은 크로스 엔트로피 손실함수를 이용하여 업데이트되는 분류기 학습 방법.
제 1 항에 있어서,
정책 및 가치망 업데이트 단계에서 가치망은 제2 정책에 대한 감가된 누적 보상과 현재 가치망을 통해 계산된 제1 정책의 가치의 차이의 제곱을 사용하는 손실함수를 이용하여 업데이트되는 분류기 학습 방법.
분류기로 이미지를 클래스 별 확률 분포에 따라 분류하는 제2 정책망과, 제2 정책망의 업데이트로 인한 학습 손실 개선과 검증 손실 개선을 계산하여 보상을 산출하는 보상 산출부를 포함하는 환경부;
분류기로 이미지를 클래스 별 확률 분포에 따라 분류하는 제1 정책망과, 제1 정책망 및 제2 정책망을 통해 이미지 분류 시 가치를 각각의 정책에 대하여 산출하는 가치망과, 이미지, 이미지 분류 결과, 보상, 제1 정책의 가치 및 제2 정책의 가치를 포함하는 경험 데이터를 저장하는 경험 저장부와, 저장된 경험 데이터들을 설정된 개수의 미니 배치로 샘플링하고, 각각의 미니 배치에 대하여 어드밴티지를 계산하고 어드밴티지를 이용하여 가치망 및 제1 정책망을 업데이트하는 정책 및 가치망 업데이트부를 포함하는 강화학습부; 및
설정된 반복 횟수만큼 전체 학습 데이터 세트와 검증 데이터 세트에 포함된 이미지에 대하여 제1 정책망, 제2 정책망 및 가치망 업데이트를 반복하도록 제어하는 학습 제어부;
를 포함하되,
제2 정책망은 제1 정책망의 파라미터로 초기화되어 제1 정책망보다 높은 확률로 이미지를 제1 정책망과 동일하게 분류하도록 업데이트되는 분류기 학습 장치.
제 6 항에 있어서,
제1 정책망은 설정된 확률(ε)로 이미지를 클래스 별 확률 분포에 따라 분류하고, 나머지 확률(1-ε)로 무작위로 클래스를 분류하는 분류기 학습 장치.
제 6 항에 있어서,
제2 정책망은 이미지에 대한 클래스 분류의 로그 가능도(log likelihood)를 높이는 방향으로 업데이트되는 분류기 학습 장치.
제 6 항에 있어서,
정책 및 가치망 업데이트부는 제1 정책을 크로스 엔트로피 손실함수를 이용하여 업데이트하는 분류기 학습 장치.
제 6 항에 있어서,
정책 및 가치망 업데이트부는 가치망을 제2 정책에 대한 감가된 누적 보상과 현재 가치망을 통해 계산된 제1 정책의 가치의 차이의 제곱을 사용하는 손실함수를 이용하여 업데이트하는 분류기 학습 장치.