KR102170199B1

KR102170199B1 - 비교 세트를 사용한 입력 예시들 분류

Info

Publication number: KR102170199B1
Application number: KR1020187035966A
Authority: KR
Inventors: 찰스 블런델; 우리올 빈얄스
Original assignee: 딥마인드 테크놀로지스 리미티드
Priority date: 2016-05-20
Filing date: 2017-05-19
Publication date: 2020-10-26
Also published as: US11714993B2; US20200327359A1; CN114819137A; EP3459016B1; CN109478248B; US20230334288A1; US20210224578A1; US10997472B2; JP6671515B2; JP2019517075A; KR20190007468A; WO2017201444A1; EP3459016A1; CN109478248A

Abstract

비교 예시들의 비교 세트를 사용하여 새로운 예시를 분류하는 방법, 시스템 및 장치가 제공된다. 하나의 방법은 비교 세트를 유지하는 단계와, 상기 비교 세트는 복수의 비교 예시 및 상기 복수의 비교 예시 각각에 대한 각각의 라벨 벡터를 포함하고, 각 라벨 벡터는 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 스코어를 포함하고; 새로운 예시를 수신하는 단계와; 상기 새로운 예시 및 상기 비교 예시들에 신경망 어텐션(attention) 메커니즘을 적용하여 각 비교 예시에 대한 각각의 어텐션 가중치를 결정하는 단계와; 그리고 상기 비교 예시들 각각에 대해, 상기 비교 예시에 대한 각각의 어텐션 가중치 및 상기 비교 예시에 대한 각각의 라벨 벡터로부터 상기 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 라벨 스코어를 생성하는 단계를 포함하며, 상기 각 라벨에 대한 각각의 라벨 스코어는 상기 라벨이 상기 새로운 예시에 대한 올바른 라벨일 가능성을 나타낸다.

Description

비교 세트를 사용한 입력 예시들 분류

본 출원은 2016년 5월 20일자로 출원된 미국 가출원 제62/339,782호의 우선권을 주장하는 그의 정식 특허 출원으로, 그 전체 내용은 본원에 참고로 포함된다.

본 명세서는 신경망을 이용하여 데이터를 분류하는 것에 관한 것이다.

신경망은 수신된 입력에 대한 출력을 예측하기 위해 하나 이상의 비선형 유닛 계층을 채용하는 기계 학습 모델이다. 일부 신경망은 출력 계층 이외에 하나 이상의 은닉 계층을 포함한다. 각 은닉 계층의 출력은 네트워크의 다음 계층, 즉 다음 은닉 계층 또는 출력 계층에 대한 입력으로 사용된다. 네트워크의 각 계층은 각각의 파라미터 세트의 현재 값에 따라 수신 입력으로부터 출력을 생성한다.

일부 신경망은 순환 신경망이다. 순환 신경망은 입력 시퀀스를 수신하여 상기 입력 시퀀스로부터 출력 시퀀스를 생성하는 신경망이다. 특히, 순환 신경망는 현재의 타임 스텝에서 출력을 계산할 때 이전의 타임 스텝에서 네트워크의 내부 상태의 일부 또는 전부를 사용할 수 있다.

본 명세서는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템을 기술한다. 이 시스템은 비교 예시의 비교 세트를 사용하여 입력 예시를 분류하는 시스템이다

본 발명의 하나의 예시적인 양태는 비교 예시들의 비교 세트를 사용하여 새로운 예시를 분류하기 위해 하나 이상의 컴퓨터에 의해 수행되는 방법에 관한 것으로, 상기 방법은, 비교 세트를 유지하는 단계와, 상기 비교 세트는 복수의 비교 예시 및 상기 복수의 비교 예시 각각에 대한 각각의 라벨 벡터를 포함하고, 각 라벨 벡터는 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 스코어를 포함하고; 새로운 예시를 수신하는 단계와; 상기 새로운 예시 및 상기 비교 예시들에 신경망 어텐션(attention) 메커니즘을 적용하여 각 비교 예시에 대한 각각의 어텐션 가중치를 결정하는 단계와; 그리고 상기 비교 예시들 각각에 대해, 상기 비교 예시에 대한 각각의 어텐션 가중치 및 상기 비교 예시에 대한 각각의 라벨 벡터로부터 상기 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 라벨 스코어를 생성하는 단계를 포함하며, 상기 각 라벨에 대한 각각의 라벨 스코어는 상기 라벨이 상기 새로운 예시에 대한 올바른 라벨일 가능성을 나타낸다.

이 양태의 구현 예에서, 상기 방법은 사전 결정된 라벨 세트 내의 라벨들에 대한 각각의 라벨 스코어에 기초하여 새로운 예시를 분류하는 단계를 더 포함할 수 있다. 예를 들어, 상기 새로운 예시는 라벨 스코어에서 도출된 분류를 사용하여 분류될 수 있다. 추가 예로서, 상기 새로운 예시는 올바를 가장 높은 가능성을 갖는라벨을 사용하여/기초하여 분류될 수 있거나, 올바를 가장 높은 가능성을 갖는 라벨 n개(n> 1)의 라벨을 사용하여/기초하여 분류될 수 있거나, 임계값을 초과하는 올바를 가장 높은 가능성을 갖는 모든 라벨들을 이용하여/기초하여 분류될 수 있다.

본 발명의 다른 예시적인 양태는 환경 내의 에이전트를 제어하기 위해 하나 이상의 컴퓨터에 의해 수행되는 방법에 관한 것이다. 상기 방법은 제1 양태의 방법의 출력에 기초하여(예를 들어, 생성된 라벨 스코어들에 기초하여, 또는 생성된 라벨 스코어로부터 도출된 분류에 기초하여) 에이전트를 제어하기 위한 하나 이상의 제어 입력을 생성하는 단계를 포함한다.

본 명세서에서 기술된 주제는 다음의 이점들 중 하나 이상을 실현하도록 특정 실시예들에서 구현될 수 있다. 신경망을 포함하는 데이터 분류 시스템은 신경망을 변경하거나 신경망을 처음부터 재-훈련하지 않고 관찰되지 않은 클래스에 대한 라벨들을 효과적으로 결정할 수 있다. 특히, 신경망는 라벨링된 예시들의 새로운 세트를 입력으로 취할 수 있을 뿐만 아니라 분류될 필요가 있는 새로운 입력 예시를 사용할 수 있으며, 상기 상기 라벨링된 예시들의 새로운 세트가 이전에 신경망을 훈련하는데 사용된 라벨링된 예시들의 세트와 다르더라도 상기 라벨링된 예시들의 새로운 세트를 사용하여 상기 새로운 입력 예제를 효과적으로 분류할 수 있다. 따라서, 본 주제의 실시예들은 입력 데이터(예를 들어, 이미지 데이터)를 처리하여 보다 효과적인 방식으로 상기 이미지 데이터와 관련된 특성을 나타내는 출력 데이터를 생성하도록 훈련될 수 있는 신경망을 제공할 수 있다.

본 명세서의 주제의 하나 이상의 실시예의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 주제의 다른 특징, 양상 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.

도 1은 데이터 분류 시스템의 일 예를 도시한다.
도 2는 비교 예시들의 비교 세트를 사용하여 새로운 예시를 분류하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 각 비교 예시에 대한 각각의 어텐션 가중치를 결정하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 신경망 어텐션 메커니즘을 트레이닝하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

본 명세서는 일반적으로 임의의 다양한 데이터, 즉 하나 이상의 카테고리에 속하는 것으로 분류될 수 있는 임의의 종류의 데이터 객체를 분류하도록 구성된 데이터 분류 시스템을 개시한다.

예를 들어, 입력 데이터가 이미지인 경우, 데이터 분류 시스템은 입력 이미지가 사전 결정된 객체 카테고리 세트들 중에서 객체 카테고리에 속하는 객체들의 이미지를 포함하는지 여부를 결정하는 시각 인식 시스템일 수 있다. 다른 예로서, 입력 데이터가 비디오 또는 비디오의 일부인 경우, 데이터 분류 시스템은 입력 비디오 또는 비디오 부분이 어떤 토픽 또는 토픽들을 결정하는지를 결정하는 비디오 분류 시스템일 수 있다. 또 다른 예로서, 입력 데이터가 오디오 데이터인 경우,데이터 분류 시스템은 주어진 발화에 대해 발언이 나타내는 용어 또는 용어들을 결정하는 음성 인식 시스템일 수 있다. 또 다른 예로서, 입력 데이터가 텍스트 데이터인 경우, 데이터 분류 시스템은 입력 텍스트 세그먼트가 어떤 토픽 또는 토픽들과 관련되는지를 결정하는 텍스트 분류 시스템일 수 있다.

도 1은 예시적인데이터 분류 시스템(100)을 도시한다.

데이터 분류 시스템(100)은 이하에 설명되는 시스템, 구성 요소 및 기술이 구현되는 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로서 구현되는 시스템의 예이다.

데이터 분류 시스템(100)은 입력 예시(input example)(102)를 수신하여, 입력 예시(102)를 분류하는, 예를 들어 입력 예시(102)가 속하는 카테고리 또는 입력 예시(102)가 관련된 토픽(topic)을 결정하는 출력(116)을 생성하도록 구성된다.

데이터 분류 시스템(100)은 비교 세트를 포함하는 비교 예시 데이터(104)를 저장한다. 비교 세트는 다수의 비교 예시 및 각 비교 예시에 대한 각각의 라벨 벡터를 포함한다. 각 라벨 벡터는 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 스코어를 포함한다. 일반적으로 주어진 라벨 벡터의 라벨 스코어는 대응하는 비교 예시에 대한 알려진 라벨 또는 라벨들을 식별한다.

데이터 분류 시스템(100)은 비교 예시 데이터(104) 및 입력 예시(102)를 입력으로서 취하는 분류기(112)를 포함한다. 분류기(112)는 신경망 어텐션 메커니즘(114)을 사용하여 비교 예시 데이터 및 입력 예시(102)의 함수로서 출력(116)을 생성한다. 신경망 어텐션 메커니즘(114)을 사용하여 출력(116)을 생성하는 프로세스는 도 2 및 도 3을 참조하여 이하에서 더 상세히 설명된다.

데이터 분류 시스템(100)의 출력(116)은 많은 애플리케이션들에서 사용될 수 있다. 하나의 예시적인 애플리케이션으로서, 데이터 분류 시스템(100)의 출력(116)은 환경 내의 에이전트를 제어하기 위한 하나 이상의 동작(actions)의 선택에 사용될 수 있다. 예를 들어,데이터 분류 시스템(100)의 출력(116)은 환경에서 에이전트의 제어를 제공하는 하나 이상의 제어 입력으로서 사용되거나 하나 이상의 제어 입력을 생성하는데 사용될 수 있다. 상기 환경은 실 세계 환경의 객체가 제어되는 실 세계 환경일 수 있다. 예를 들어, 객체/에이전트는 자율("자가 운전") 또는 부분적으로 자율인 차량과 같은 차량일 수 있고, 데이터 분류 시스템(100)의 출력(116)은, 예를 들어 차량의 네비게이션을 제어하기 위해, 차량을 제어하기 위한 제어 입력으로 사용되거나 제어 입력을 생성하는데 사용될 수 있다. 따라서, 일부 양태들은 입력 데이터에 기초하여, 에이전트를 제어하기 위한 동작을 효율적이고 효과적으로 선택하는 것과 관련된 문제를 해결할 수 있다.

도 2는 비교 예시들의 비교 세트를 사용하여 새로운 예시를 분류하기 위한 예시적인 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 개시될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그램된 데이터 분류 시스템, 예컨대 도 1의 데이터 분류 시스템(100)은 프로세스(200)를 수행할 수 있다.

상기 시스템은 비교 세트를 유지한다(단계 202). 전술한 바와 같이, 비교 세트는 k개의 비교 예시를 포함할 수 있으며, 다음과 같이 나타낼 수 있다 :

여기서, x_i는 비교 예시이고 y_i는 비교 예시(x_i)에 대한 각각의 라벨 벡터이다. 각 라벨 벡터(y_i)는 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 스코어를 포함한다. 주어진 라벨 벡터내의 라벨 스코어들은 일반적으로 대응하는 비교 예시에 대한 공지된 라벨 또는 라벨들을 식별한다.

일부 경우에서, 비교 세트는 신경망을 훈련하는데 사용된 비교 세트와 다를 수 있다. 즉, 신경망은 신경망을 재훈련하지 않고 신경망을 훈련 시키는데 사용된 세트와 상이한 새로운 비교 예시 세트를 사용하여 새로운 예시를 분류하는데 사용될 수 있다. 이들 중 일부 경우, 새로운 비교 예시 세트는 신경망의 훈련 및 일부 추가 또는 "처음 보는" 비교 예시에서 사용된 몇가지 비교 예시를 포함할 수 있다. 이러한 경우의 다른 경우, 새로운 비교 예시 세트는 "처음 보는" 비교 예시만 포함할 수 있으며 훈련에 사용된 비교 예시는 포함할 수 없다.

시스템은 새로운 예시를 수신한다(단계 204). 상기 새로운 예시는

로 표시될 수 있다.

상기 새로운 예시를 수신한 후, 시스템은 새로운 예시 및 비교 예시들에 신경망 어텐션 메커니즘을 적용하여 각 비교 예시에 대한 각각의 어텐션(집중) 가중치(attention weight)를 결정한다(단계 206). 각 비교 예시에 대한 각각의 어턴션 가중치를 결정하는 프로세스는 도 3을 참조하여 이하에서 보다 상세히 개시된다.

이어서, 시스템은 새로운 예시에 대해, 각각의 라벨에 대한 각각의 라벨 스코어가 상기 라벨이 새로운 예시에 대한 올바른(correct) 라벨일 가능성을 나타내도록 상기 사전 결정된 라벨 세트내의 각 라벨에 대한 각각의 라벨 스코어를 생성한다. 특히, 시스템은 비교 예시 각각에 대해, 비교 예시에 대한 각각의 어텐션 가중치 및 비교 예시에 대한 각각의 라벨 벡터에서의 스코어로부터 라벨 스코어를 생성한다.

일부 구현예에서, 라벨 스코어는 다음과 같이 계산될 수 있다.

, (1)

여기서, x_i는 비교 예시이고 y_i는 비교 세트

로부터의 비교 예시에 대한 라벨 벡터이고,

는 비교 예시(x_i)에서 주어진 새로운 예시(

)에 대한 어텐션 가중치이다.

식 1은 새로운 예시에 대한 출력을 비교 세트의 라벨 벡터들의 선형 결합으로 나타낸다. 각 비교 예시(x_i)에 대해, 시스템은 비교 예시(x_i)에 대한 라벨 벡터(y_i)에 비교 예시(x_i)에 대한 어텐션 가중치(

)를 곱하여, 상기 비교 예시(x_i)에 대한 가중 라벨 벡터(

)를 생성한다. 시스템은 모든 가중 라벨 벡터를 합산하여 사전 결정된 라벨 세트내의 각 라벨에 대한 각각의 라벨 스코어를 포함하는 결합 라벨 벡터(

)를 생성한다. 각 라벨에 대한 각 라벨 스코어는 상기 라벨이 새로운 예시의 올바른 라벨일 가능성을 나타낸다.

일부 구현예에서, 시스템은 사전 결정된 라벨 세트 내의 라벨들에 대한 각각의 라벨 스코어에 기초하여 새로운 예시를 더 분류할 수 있다. 예를 들어, 새로운 예시는 라벨 스코어들에서 도출된(derived) 분류를 사용하여 분류될 수 있다. 추가 예로서, 새로운 예시는 올바를 가장 높은 가능성을 갖는 라벨을 사용하여/기초하여 분류될 수 있거나, 또는 올바를 가장 높은 가능성을 갖는 n개의 라벨(n> 1)을 사용하여/기초하여 분류될 수 있거나, 또는 임계값을 초과하는 올바를 가장 높은 가능성을 갖는 모든 라벨을 사용하여/기초하여 분류될 수 있다.

새로운 예시가 분류된 이후에, 시스템은 사전 결정된 라벨 세트 내의 라벨에 대한 각각의 라벨 스코어, 올바를 가장 높은 가능성을 갖는 하나 이상의 라벨 또는 둘 모두를 추가 처리를 위해 다른 시스템으로 제공할 수 있다. 예를 들어, 새로운 예시는 에이전트의 센서에 의해 포착된 센서 데이터(예컨대, 이미지)일 수 있고, 다른 시스템은 수신된 라벨 스코어, 올바를 가장 높은 가능성을 갖는 하나 이상의 라벨 또는 둘 모두를 사용하여 환경에서 에이전트를 제어하는 방법에 대한 결정을 내리는 제어 시스템이 될 수 있다.

도 3은 신경망 어텐션 메커니즘을 사용하여 각 비교 예시에 대한 각각의 어텐션 가중치를 결정하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치된 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 데이터 분류 시스템, 예컨대 본 명세서에 따라 적절하게 프로그램된 도 1의 데이터 분류 시스템(100)은 프로세스(300)를 수행할 수 있다.

시스템은 비교 예시 신경망(

)을 사용하여 비교 예시(x_i)를 처리하여 비교 예시의 수치 임베딩(numeric embedding)을 결정한다(단계 302). 일반적으로, 수치 임베딩은 숫자 값들의 순서화된 콜렉션(collection), 예컨대 부동 소수점 값 또는 양자화된 부동 소수점 값의 벡터이다.

일부 구현예에서, 예시가 이미지일 때, 비교 예시 신경망(

)은 입력 비교 예시를 수신하여 비교 예시의 임베딩을 생성하도록 구성된 컨볼루션 신경망이다. 다른 구현예에서, 상기 예시들이 단어, 구 또는 기타 텍스트 세그먼트인 경우, 상기 비교 예시 신경망은 입력 텍스트를 벡터에 임베딩하는 텍스트 임베딩 신경망이다.

일부 다른 구현예에서, 비교 예시 신경망(

)은 비교 예시의 수치 임베딩을 생성하기 위해 비교 세트 내의 비교 예시들로부터의 비교 예시들의 시퀀스의 문맥(context)에서 비교 예시를 처리하도록 구성된 양방향 장단기 메모리(Long-Short Term Memory: LSTM) 신경망이다. 즉, 시스템은 비교 예시를 시퀀스로서 정렬할 수 있고, 각 비교 예시에 대해, 상기 시퀀스에 따라 양방향 LSTM 신경망을 사용하여, 예를 들어 컨볼루션 신경망 또는 텍스트 임베딩 신경망에 의해 생성된 비교 예시 또는 비교 예시의 특징 표현을 처리하여 상기 비교 예시의 수치 임베딩을 생성할 수 있다.

시스템은 새로운 예시 신경망(

)을 사용하여 새로운 예시(

)를 처리하여 새로운 예시의 수치 임베딩을 결정한다(단계 304). 일부 구현예에서, 상기 예시들이 이미지일 때, 새로운 예시 신경망(

)은 입력된 새로운 예시를 수신하여 새로운 예시의 임베딩을 생성하도록 구성된 컨볼루션 신경망이다. 일부 다른 구현예에서, 상기 예시들이 단어, 구 또는 다른 텍스트 세그먼트일 때, 상기 비교 예시 신경망은 입력 텍스트를 벡터에 임베딩하는 텍스트 임베딩 신경망이다.

일부 다른 구현예에서, 새로운 예시 신경망(

)은 새로운 예시 또는 새로운 예시의 특징 표현의 K개의 인스턴스를 포함하는 시퀀스를 처리하여 비교 예시의 수치 임베딩을 생성하도록 구성된 복수의 비교 예시에 대한 수치 임베딩에 대해 판독 어텐션(read attention)을 갖는 LSTM 신경망이다. 새로운 예시 신경망(

)은 다음과 같이 표현될 수 있다.

여기서, f'(x)는 새로운 예시 또는 새로운 예시의 특징 표현이고, g(S)는 비교 예시들의 수치 임베딩 세트이다. 즉, 마지막 시간 단계(time step)가 아닌 K 단계들의 각 시간 단계에서, 시스템은 LSTM 신경망의 현재 내부 상태에 따라 LSTM 신경망을 사용하여 새로운 예시의 특징 표현을 처리하여 상기 내부 상태에 대한 초기 업데이트를 생성한다. 그런 다음, 시스템은 상기 초기 업데이트와 상기 특징 표현을 결합(예컨대, 합산)하여 임베딩 키를 생성하고, 상기 임베딩 키를 사용하여 상기 비교 예시들에 대한 수치 임베딩에 대해 컨텐츠-기반 어텐션 메커니즘을 적용하여 어텐션 벡터를 생성한다. 이어서, 시스템은 상기 초기 업데이트와 상기 어텐션 벡터를 결합(예컨대, 연관(concatenates))하여 업데이트된 내부 상태, 즉 다음 시간 단계에 대한 현재의 내부 상태로 사용될 내부 상태)를 생성한다. 그런 다음, 시스템은 마지막 시간 스텝(즉, K번째 스텝)에 대한 초기 업데이트 또는 임베딩 키를 상기 새로운 예시의 최종 수치 임베딩으로서 사용할 수 있다.

일부 경우에서, 새로운 예시 신경망 및 비교 예시 신경망 모두 컨볼루션 신경망이거나 이를 포함할 때, 새로운 예시 신경망 및 비교 예시 신경망은 적어도 일부 파라미터를 공유한다.

시스템은 상기 비교 예시의 수치 임베딩과 상기 새로운 예시의 수치 임베딩 사이의 유사성 메트릭을 결정함으로써 각각의 어텐션 가중치를 결정한다(단계 306). 일부 구현예에서, 유사성 메트릭은 코사인 거리이다. 일부 구현예에서, 시스템은 아래의 모델에 기초하여 주어진 새로운 예시(

)에서 각 비교 예시(x_i)에 대한 각각의 어텐션 가중치(

)를 계산한다.

, (2)

여기서

는 새로운 예시(

)를 임베딩하는 새로운 예시 신경망이고,

는 비교 예시(x_i)를 임베딩하는 비교 예시 신경망이며, c()는 코사인 거리 함수이다.

도 4는 신경망 어텐션 메커니즘을 훈련시키기 위한 예시적인 프로세스(400)의 흐름도이다.

편의상, 프로세스(400)는 하나 이상의 위치에 위치된 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어,데이터 분류 시스템, 예컨대 본 명세서에 따라 적절하게 프로그램된 도 1의 데이터 분류 시스템(100)은 프로세스(400)를 수행하여 신경망 어텐션 메커니즘을 훈련시킬 수 있다.

시스템은 가능한 라벨 세트들에 대한 분포로부터 라벨 세트를 샘플링한다(단계 402). 각 라벨 세트는 가능한 라벨의 전체 세트로부터의 라벨들의 상이한 조합이다. 일부 경우, 각 라벨 세트에는 동일한 수의 라벨(예컨대, 2개 또는 3개)이 포함된다. 다른 경우, 상이한 라벨 세트에는 상이한 수의 라벨, 예컨대 1개 또는 2개 내지 5개의 라벨이 포함된다. 예를 들어, 상기 분포는 가능한 모든 라벨 세트를 일정하게 가중시킬 수 있고 시스템은 상기 분포를 사용하여 라벨 세트를 랜덤하게 샘플링할 수 있다

그런 다음, 시스템은 샘플링된 라벨 세트를 사용하여 트레이닝 비교 세트 및 입력 예시시들의 배치(batch)를 샘플링한다(단계 404). 특히 상기 샘플링된 라벨 세트내의 각 라벨에 대해, 시스템은 해당 라벨을 갖는 비교 예시들의 집합을 샘플링한다. 샘플링된 비교 예시 세트 및 상기 샘플링된 라벨 세트내의 모든 라벨에 대한 대응하는 라벨들은 트레이닝 비교 세트를 형성한다. 상기 배치에는 샘플링된 라벨 세트내의 라벨 들 중 하나를 갖는 비교 예시들의 랜던 시퀀스가 포함된다.

상기 시스템은 트레이닝 비교 세트에 조건부로(conditioned) 배치의 예시들에 대한 라벨들을 예측하는 오류를 최소화하기 위해 신경망 어텐션 메커니즘을 훈련시킨다(단계 406). 특히, 시스템은 어텐션 메커니즘을 훈련시켜 어텐션 메커니즘의 파라미터의 현재 값을 조정하여, 종래의 신경망 트레이닝 기술, 예를 들어, 그래디언트 강하(gradient descent) 기반의 트레이닝 기술을 사용하여 오류를 감소시킨다.

시스템은 반복적으로 프로세스(400)를 수행할 수 있는데, 즉, 라벨 세트를 반복적으로 샘플링 한 다음 샘플링된 라벨 세트에 기초하여 신경망 어텐션 메커니즘을 훈련하여, 신경망 어텐션 메커니즘의 파라미터의 훈련된 값을 결정할 수 있다. 이러한 방식으로 신경망 어텐션 메커니즘을 훈련시킴으로써, 시스템은 오류를 감소시키는 훈련 목적을 만족시키는 신경망 어텐션 메커니즘의 파라미터들의 훈련된 값을 신속하게 결정할 수 있고, 상기 훈련된 신경망은 입력 예시를 분류하는데 사용되는 비교 세트가 신경망을 훈련시키는데 사용되는 비교 세트들 중 임의의 것과 상이할 때 조차도 양호하게 수행될 수 있다.

특정 동작들이나 액션들을 수행하도록 구성된 하나 이상의 컴퓨터의 시스템은 시스템이 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 시스템에 설치하여 동작시에 상기 시스템으로 하여금 상기 동작들 또는 액션들을 수행하게 함을 의미한다. 특정 동작들 또는 액션들을 수행하도록 구성되는 하나 이상의 컴퓨터 프로그램은 하나 이상의 프로그램이 데이터 처리 장치에 의해 실행될 때 상기 장치로 하여금 상기 동작들 또는 액션들을 수행하게 하는 명령을 포함함을 의미한다.

본 명세서에서 설명된 주제 및 동작들의 실시예는 본 명세서에 개시된 구조 및 그 구조적 등가물을 포함하는 디지털 전자 회로, 실체적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 하드웨어 또는 그들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 기술된 주제의 실시예들은 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의한 실행을 위해 또는 데이터 처리 장치의 동작을 제어하기 위해 유형의 비-일시적 프로그램 캐리어상에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 선택적으로 또는 부가적으로, 프로그램 명령들은 인위적으로 생성된 전파 신호, 예를 들어 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위해 정보를 인코딩하기 위해 생성된 기계 생성의 전기적, 광학적 또는 전자기 신호상에 인코딩될 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 저장 디바이스, 컴퓨터 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스 또는 이들 중 하나 이상의 조합일 수 있다. 그러나, 컴퓨터 저장 매체는 전파 신호는 아니다.

"데이터 처리 장치"라는 용어는 예를 들어, 프로그램 가능 프로세서, 컴퓨터, 또는 다수의 프로세서 또는 컴퓨터를 포함하는 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(주문형 집적 회로)을 포함할 수 있다. 또한, 상기 장치는 하드웨어 이외에, 문제의 컴퓨터 프로그램을 위한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들의 하나 이상의 조합을 구성하는 코드를 또한 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭될 수 있는)은 컴파일된 또는 해석된 언어 또는 선언적 또는 절차적 언어를 비롯한 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 구성 요소, 서브 루틴, 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여 모든 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 다른 프로그램 또는 데이터(예컨대, 마크업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하는 파일의 일부분, 문제의 프로그램 전용의 단일 파일 또는 다수의 조정 파일(예컨대, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 있거나 다수의 사이트에 분산되어 있고 통신 네트워크로 상호 연결된 한 대의 컴퓨터 또는 다수의 컴퓨터상에서 실행되도록 배포될 수 있다.

본 명세서에서 사용되는 "엔진" 또는 "소프트웨어 엔진"은 입력과 다른 출력을 제공하는 소프트웨어 구현의 입/출력 시스템을 의미한다. 엔진은 라이브러리, 플랫폼, SDK(소프트웨어 개발 키트) 또는 개체와 같이 인코딩된 기능 블록일 수 있다. 각 엔진은 서버, 휴대 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 뮤직 플레이어, 전자책 리더, 랩탑 또는 데스크탑 컴퓨터, PDA, 스마트 폰, 또는 하나 이상의 프로세서 및 컴퓨터 판독 가능 매체를 포함하는 기타 고정식 또는 휴대용 디바이스와 같은 모든 유형의 컴퓨팅 디바이스에서 구현될 수 있다. 또한, 2개 이상의 엔진은 동일한 컴퓨팅 디바이스 또는 상이한 컴퓨팅 디바이스 상에 구현될 수 있다.

본 명세서에서 기술되는 프로세스 및 논리 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 동작들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스 및 논리 흐름은 또한 FPGA 또는 ASIC과 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 특수 목적 논리 회로로 구현될 수 있다. 예를 들어, 프로세스 및 논리 흐름들이 수행 될 수 있고 장치들은 또한 그래픽 처리 유닛(GPU)으로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 예를 들어 범용 및 특수 목적 마이크로 프로세서들 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 기반으로 할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소는 명령들을 수행하거나 실행하는 중앙 처리 장치 및 명령들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터(예를 들어, 자기, 광 자기 디스크 또는 광 디스크)를 저장하기 위한 하나 이상의 대용량 저장 디바이스로부터 데이터를 수신하거나 데이터를 전송하거나 둘 모두를 위해 동작 가능하게 결합될 것이다. 그러나 컴퓨터에는 그러한 디바이스들을 가질 필요가 없다. 또한, 컴퓨터는 다른 장치, 예를 들어, 모바일 전화기, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 디바이스(예컨대, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.

컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체들은, 예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스와 같은 반도체 메모리 디바이스, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, 및 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비 휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 상기 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 포함될 수있다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 기술된 주제의 실시예들은 정보를 예를 들어 사용자에게 디스플레이 하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 키보드 및 포인팅 디바이스를 갖는 컴퓨터 상에 구현될 수 있다. 다른 종류의 디바이스가 사용자와의 상호 작용을 제공하는데 사용될 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스와 문서를주고 받음으로써 사용자와 상호 작용할 수 있는데, 이는 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 디바이스상의 웹 브라우저로 웹 페이지를 전송함으로써 수행될 수 있다.

본 명세서에서 개시된 주제의 실시예는 데이터 서버와 같은 백 엔드 구성 요소 또는 애플리케이션 서버와 같은 미들웨어 구성 요소, 또는 사용자가 본 명세서에 기술된 요지의 구현예와 상호 작용할 수 있는 그래픽 사용자인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터와 같은 프론트 엔드 구성 요소, 또는 하나 이상의 백 엔드, 미들웨어 또는 프론트 엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 구성 요소는 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램으로 인해 발생한다.

본 명세서는 다수의 구체적인 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에서 설명되는 특정 특징은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 문맥에서 설명된 다양한 특징은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브 조합으로 구현될 수 있다. 더욱이, 특징들은 특정 조합으로 작용하고 심지어 초기에는 그러한 것으로서 주장되는 경우 조차도 상기에서 설명될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징은 일부 경우 조합으로부터 제거될 수 있고, 청구된 조합은 하위 조합 또는 하위 조합의 변형을 지향할 수 있다.

유사하게, 동작들은 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 동작들을 달성하기 위해, 그러한 동작들이 도시된 순서 또는 순차적인 순서로 수행되거나, 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서는 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시예에서 다양한 시스템 모듈 및 구성 요소의 분리는 모든 실시예에서 그러한 분리를 필요로 하는 것으로 이해되어서는 안되며, 기술된 프로그램 구성 요소 및 시스템들은 일반적으로 단일 소프트웨어 제품에 통합되거나 다수의 소프트웨어 제품들로 패키징될 수 있음을 이해해야 한다.

따라서, 상기 주제의 특정 실시예들이 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예에서는, 멀티 태스킹 및 병렬 처리가 유리할 수 있다.

Claims

비교 예시(comparison example)들의 비교 세트를 사용하여 새로운 예시를 분류하기 위한 하나 이상의 컴퓨터에 의해 수행되는 방법으로서,
비교 세트를 유지하는 단계와, 상기 비교 세트는 복수의 비교 예시 및 상기 복수의 비교 예시 각각에 대한 각각의 라벨 벡터를 포함하고, 각 라벨 벡터는 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 스코어를 포함하고;
새로운 예시를 수신하는 단계와;
각 비교 예시에 대해, 상기 새로운 예시 및 상기 비교 예시들에 신경망 어텐션(attention) 메커니즘을 적용하여 상기 비교 예시 및 상기 새로운 예시사이의 유사성의 레벨을 특징짓는(characterizing) 각각의 어텐션 가중치를 결정하는 단계와; 그리고
상기 비교 예시들 각각에 대해, 상기 비교 예시에 대한 각각의 어텐션 가중치 및 상기 비교 예시에 대한 각각의 라벨 벡터로부터 상기 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 라벨 스코어를 생성하는 단계를 포함하며, 상기 각 라벨에 대한 각각의 라벨 스코어는 상기 라벨이 상기 새로운 예시에 대한 올바른 라벨일 가능성을 나타내는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 라벨 스코어를 생성하는 단계는,
각 비교 예시에 대해, 상기 비교 예시에 대한 가중된 라벨 벡터를 생성하도록 상기 비교 예시에 대한 라벨 벡터를 상기 비교 예시에 대한 어텐션 가중치와 곱하는 단계와; 그리고
상기 사전 결정된 라벨 세트 내의 각 라벨에 대한 각각의 라벨 스코어를 포함하는 결합된 라벨 벡터를 생성하도록 상기 가중된 라벨 벡터들을 합산하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
각 비교 예시에 대한 각각의 어텐션 가중치를 결정하는 단계는,
상기 비교 예시의 수치 임베딩을 결정하기 위해 비교 예시 신경망을 사용하여 상기 비교 예시를 처리하는 단계와;
상기 새로운 예시의 수치 임베딩을 결정하기 위해 새로운 예시 신경망을 사용하여 상기 새로운 예시를 처리하는 단계와; 그리고
상기 비교 예시의 수치 임베딩과 상기 새로운 예시의 수치 임베딩 사이의 유사성 메트릭을 결정하여 각각의 어텐션 가중치를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 유사성 메트릭은
코사인 거리(cosine distance)인 것을 특징으로 하는 방법.
제3항에 있어서,
상기 비교 예시 신경망은,
상기 비교 예시의 수치 임베딩을 생성하기 위해 상기 비교 세트 내의 비교 예시들로부터의 비교 예시들의 시퀀스의 문맥(context)에서 상기 비교 예시를 처리하도록 구성된 양방향 장단기 메모리(Long-Short Term Memory: LSTM) 신경망인 것을 특징으로 하는 방법.
제3항에 있어서,
상기 새로운 예시 신경망은,
상기 비교 예시의 수치 임베딩을 생성하기 위해 상기 새로운 예시의 K개의 인스턴스를 포함하는 시퀀스를 처리하도록 구성된 상기 복수의 비교 예시에 대한 수치 임베딩들에 대한 판독 어텐션을 갖는 LSTM 신경망인 것을 특징으로 하는 방법.
제3항에 있어서,
상기 비교 예시 신경망은,
입력 비교 예시를 수신하여 상기 비교 예시의 임베딩을 생성하도록 구성된 컨볼루션 신경망인 것을 특징으로 하는 방법.
제3항에 있어서,
상기 새로운 예시 신경망은,
입력된 새로운 예시를 수신하여 상기 새로운 예시의 임베딩을 생성하도록 구성된 컨볼루션 신경망인 것을 특징으로 하는 방법.
제3항에 있어서,
상기 새로운 예시 신경망과 상기 비교 예시 신경망은,
적어도 일부 파라미터를 공유하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 신경망 어텐션 메커니즘은,
상기 비교 세트와 상이한 예시들의 트레이닝 세트에 대한 트레이닝을 통해 학습된 것임을 특징으로 하는 방법.
하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제10항 중 어느 한 항의 각각의 방법의 동작들을 수행하게 하도록 동작 가능한 명령들을 저장하는 하나 이상의 저장 디바이스를 포함하는 시스템.
하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 제1항 내지 제10항 중 어느 한 항의 각각의 방법의 동작들을 수행하게 하는 명령들로 인코딩된 컴퓨터 판독 가능 저장 매체.