KR20190138712A - Batch normalization layers - Google Patents

Batch normalization layers Download PDF

Info

Publication number
KR20190138712A
KR20190138712A KR1020197036115A KR20197036115A KR20190138712A KR 20190138712 A KR20190138712 A KR 20190138712A KR 1020197036115 A KR1020197036115 A KR 1020197036115A KR 20197036115 A KR20197036115 A KR 20197036115A KR 20190138712 A KR20190138712 A KR 20190138712A
Authority
KR
South Korea
Prior art keywords
layer
neural network
outputs
batch
output
Prior art date
Application number
KR1020197036115A
Other languages
Korean (ko)
Other versions
KR102204286B1 (en
Inventor
세르게이 이오페
코리나 코테스
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20190138712A publication Critical patent/KR20190138712A/en
Application granted granted Critical
Publication of KR102204286B1 publication Critical patent/KR102204286B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

배치 정규화 레이어를 포함하는 신경 네트워크 시스템을 사용하여 입력들을 프로세싱하기 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치. 상기 방법들 중 하나는 배치에서 각 트레이닝 예시에 대한 각각의 제1 레이어 출력을 수신하는 단계; 상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 단계; 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하는 단계; 상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 각각의 배치 정규화 레이어 출력을 생성하는 단계; 및 상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 단계를 포함한다.Methods, systems and apparatus comprising computer programs encoded in a computer storage medium for processing inputs using a neural network system comprising a batch normalization layer. One of the methods includes receiving a respective first layer output for each training example in a batch; Calculating a plurality of normalization statistics for the batch from the first layer outputs; Normalizing each component of each first layer output using the normalization statistics to generate respective normalized layer outputs for each training example in the batch; Generating respective batch normalization layer outputs for the respective training examples from the normalized layer outputs; And providing the batch normalization layer output as input to the second neural network layer.

Description

배치 정규화 레이어들{BATCH NORMALIZATION LAYERS}Batch Normalization Layers {BATCH NORMALIZATION LAYERS}

본 명세서는 출력들을 생성하기 위한 신경 네트워크들의 레이어들을 통한 입력들을 프로세싱하는 것과 관련된다.This disclosure relates to processing inputs through layers of neural networks to produce outputs.

신경 네트워크들은 수신된 입력에 대한 출력을 예측하기 위한 비선형 유닛들의 하나 이상의 레이어들을 이용하는 기계 학습 모델들(machine learning models)이다. 일부 신경 네트워크들은 출력 레이어에 더하여 하나 이상의 히든 레이어들(hidden layers)을 포함한다. 각 히든 레이어의 출력은 네트워크에서 다음 레이어 즉, 다음 히든 레이어 또는 출력 레이어에 대한 입력으로서 사용된다. 네트워크의 각 레이어는 파라미터들의 각각의 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.Neural networks are machine learning models that use one or more layers of nonlinear units to predict the output on a received input. Some neural networks include one or more hidden layers in addition to the output layer. The output of each hidden layer is used as input to the next layer in the network, that is, the next hidden layer or output layer. Each layer of the network generates an output from the received input according to the current values of each set of parameters.

일반적으로, 본 명세서에 기재된 본 발명의 일 혁신적 양태는 하나 이상의 컴퓨터들에 의해 구현되는 신경 네트워크 시스템에 이용될 수 있으며, 상기 신경 네트워크 시스템은 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 포함하며, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 배치 정규화 레이어는 트레이닝 예시들의 배치에서 상기 신경 네트워크 시스템의 트레이닝 동안에: 상기 배치에서 각 트레이닝 예시에 대한 각각의 제1 레이어 출력을 수신하고; 상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하고; 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하고; 상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 각각의 배치 정규화 레이어 출력을 생성하고; 그리고 상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하도록 구성된다.In general, one innovative aspect of the invention described herein may be used in a neural network system implemented by one or more computers, the neural network system being disposed between a first neural network layer and a second neural network layer. A normalization layer, wherein the first neural network layer generates first layer outputs having a plurality of components, the batch normalization layer during training of the neural network system in a batch of training examples: Receive a respective first layer output for each training example in a batch; Calculate a plurality of normalization statistics for the batch from the first layer outputs; Normalize each component of each first layer output using the normalization statistics to generate respective normalized layer outputs for each training example in the batch; Generate respective batch normalization layer outputs for the respective training examples from the normalized layer outputs; And provide the batch normalization layer output as input to the second neural network layer.

특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터들의 시스템은 시스템에 소프트웨어, 펌웨어, 하드웨어 또는 그것들의 조합이 설치되어, 동작될 때 상기 시스템으로 하여금 상기 동작 또는 액션을 수행하게 하는 것을 의미한다. 특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램들은 하나 이상의 프로그램들이 명령어들을 포함하며, 상기 명령어들이 데이터 프로세싱 장치에 의해 실행될 때 상기 장치로 하여금 상기 동작 또는 액션을 수행하게 하는 것을 의미한다.A system of one or more computers configured to perform a particular action or action is meant to install software, firmware, hardware or a combination thereof to the system to cause the system to perform the action or action when operated. One or more computer programs configured to perform a specific action or action mean that the one or more programs include instructions and cause the device to perform the action or action when the instructions are executed by a data processing device.

본 명세서에 기재된 본 발명의 특정 실시예들은 하나 이상의 다음의 이점들을 실현하도록 구현될 수 있다. 하나 이상의 배치 정규화 레이어들을 포함하는 신경 네트워크 시스템은 어떠한 배치 정규화 레이어들을 포함하지 않는 다른 동일한 신경 네트워크보다 더 빠르게 트레이닝될 수 있다. 예를 들면, 신경 네트워크 시스템에 하나 이상의 배치 정규화 레이어들을 포함함으로써, 트레이닝 동안 변화되는 주어진 레이어의 입력들의 분배에 의해 야기되는 문제들을 완화할 수 있다. 이는 트레이닝 도중에 더 높은 학습 비율이 효율적으로 사용되게 하며, 트레이닝 동안 이용될 다른 규칙화(regularization) 기법들 예를 들면, 드롭아웃(dropout)의 필요를 감소시킬 수 있다. 하나 이상의 정규화 레이어들을 포함하는 트레이닝된 신경 네트워크 시스템은 다른 동일한 신경 네트워크 시스템에 의해 생성된 신경 네트워크 출력들보다 정확성(더 정확하지 않더라도) 있는 신경 네트워크 출력들을 생성할 수 있다.Certain embodiments of the invention described herein may be implemented to realize one or more of the following advantages. A neural network system that includes one or more batch normalization layers can be trained faster than other identical neural networks that do not include any batch normalization layers. For example, including one or more batch normalization layers in a neural network system can mitigate problems caused by the distribution of inputs of a given layer that change during training. This allows higher learning rates to be used efficiently during training and can reduce the need for other regularization techniques, such as dropout, to be used during training. A trained neural network system that includes one or more normalization layers can produce neural network outputs that are more accurate (if not more accurate) than neural network outputs produced by other identical neural network systems.

본 명세서의 본 발명의 하나 이상의 실시예들의 세부사항들은 첨부 도면과 이하의 설명에서 기술된다. 본 발명의 다른 구성들, 양태들 및 이점들은 설명, 도면들, 청구항들로부터 명확해질 것이다.The details of one or more embodiments of the invention herein are set forth in the accompanying drawings and the description below. Other configurations, aspects, and advantages of the invention will be apparent from the description, drawings, and claims.

도 1은 예시적 신경 네트워크 시스템을 도시한다.
도 2는 신경 네트워크 시스템의 트레이닝 동안에 배치 정규화 레이어를 사용하여 입력을 프로세싱하는 예시적 프로세스의 흐름도이다.
도 3은 신경 네트워크 시스템이 트레이닝된 후 배치 정규화를 사용하여 입력을 프로세싱하는 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 번호 및 기호는 동일한 구성요소를 지칭한다.
1 illustrates an example neural network system.
2 is a flow diagram of an example process for processing input using a batch normalization layer during training of a neural network system.
3 is a flow diagram of an example process for processing input using batch normalization after a neural network system has been trained.
Like reference symbols in the various drawings indicate like elements.

본 명세서는 배치 정규화 레이어를 포함하는 하나 이상의 위치들에서 하나 이상의 컴퓨터들 상의 컴퓨터 프로그램들로서 구현되는 신경 네트워크 시스템을 기술한다.This disclosure describes a neural network system implemented as computer programs on one or more computers at one or more locations that include a batch normalization layer.

도 1은 예시적 신경 네트워크 시스템(100)을 도시한다. 신경 네트워크 시스템(100)은 하나 이상의 위치들에서 하나 이상의 컴퓨터들 상의 컴퓨터 프로그램들로서 구현되는 시스템의 예시이며, 상기 시스템에서 이하에서 기술되는 시스템들, 컴포넌트들 및 기법들이 구현될 수 있다.1 illustrates an example neural network system 100. The neural network system 100 is an example of a system implemented as computer programs on one or more computers at one or more locations, where the systems, components, and techniques described below may be implemented.

신경 네트워크 시스템(100)은 시퀀스 중 가장 낮은 레이어에서부터 상기 시퀀스 중 가장 높은 레이어까지의 시퀀스로 배열된 다수의 신경 네트워크 레이어들을 포함한다. 신경 네트워크 시스템은 신경 네트워크 입력들을 시퀀스의 각 레이어들을 통해 프로세싱함으로써 신경 네트워크 입력들로부터 신경 네트워크 출력들을 생성한다.The neural network system 100 includes a plurality of neural network layers arranged in a sequence from the lowest layer of the sequence to the highest layer of the sequence. The neural network system generates neural network outputs from neural network inputs by processing the neural network inputs through each layer of the sequence.

신경 네트워크 시스템(100)은 임의의 종류의 디지털 데이터 입력을 수신하고 상기 입력에 기초하여 임의의 종류의 점수 또는 분류 출력을 생성하도록 구성될 수 있다.The neural network system 100 may be configured to receive any kind of digital data input and generate any kind of score or classification output based on the input.

예를 들면, 만약 신경 네트워크 시스템(100)의 입력들이 이미지들 또는 이미지들로부터 추출된 구성들인 경우, 해당 이미지에 대해 신경 네트워크 시스템(100)에 의해 생성되는 출력은 오브젝트 카테고리들의 세트 각각에 대한 점수들일 수 있고, 각 점수는 상기 이미지가 상기 카테고리에 속하는 오브젝트의 이미지를 포함할 추정된 가능성을 나타낼 수 있다.For example, if the inputs of neural network system 100 are images or configurations extracted from the images, the output generated by neural network system 100 for that image is a score for each set of object categories. Each score may indicate an estimated likelihood that the image will contain an image of an object belonging to the category.

다른 예시로서, 만약 신경 네트워크 시스템(100)에 대한 입력들이 인터넷 리소스들(예를 들면, 웹 페이지들), 문서들 또는 문서들의 부분들 또는 인터넷 리소스들, 문서들 또는 문서들의 부분들로부터 추출된 구성들인 경우, 해당 인터넷 리소스, 문서 또는 문서의 부분에 대한 신경 네트워크 시스템(100)에 의해 생성되는 출력은 토픽들의 세트 각각에 대한 점수일 수 있고, 각 점수는 상기 인터넷 리소스, 문서 또는 문서 부분이 상기 토픽에 관한 것일 추정된 가능성을 나타낼 수 있다.As another example, if inputs to the neural network system 100 were extracted from Internet resources (eg, web pages), documents or portions of documents or portions of Internet resources, documents or documents In the case of configurations, the output generated by the neural network system 100 for that Internet resource, document or portion of document may be a score for each set of topics, each score being the score of the Internet resource, document or document portion. It may indicate an estimated likelihood that the topic is about the topic.

다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력들이 특정 광고에 대한 노출 컨텍스트의 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 상기 특정 광고가 클릭될 추정된 가능성을 나타내는 점수일 수 있다.As another example, if the inputs to the neural network system 100 are configurations of exposure context for a particular advertisement, the output generated by the neural network system 100 will be a score representing the estimated likelihood that the particular advertisement will be clicked. Can be.

다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력들이 사용자를 위한 개인화된 추천의 구성들 예를 들면, 상기 추천에 대한 컨텍스트를 특징짓는 구성들, 예를 들면, 상기 사용자에 의해 취해진 이전의 액션들을 특징짓는 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 컨텐츠 아이템들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 상기 사용자가 추천된 컨텐츠 아이템에 호의적으로 응답할 추정된 가능성을 나타낼 수 있다.As another example, inputs to the neural network system 100 may include configurations of personalized recommendations for the user, e.g., configurations that characterize the context for the recommendation, e.g., previous actions taken by the user. In the case of configurations characterizing these features, the output generated by neural network system 100 may be a score for each set of content items, each score being an estimated likelihood that the user will respond favorably to the recommended content item. Can be represented.

다른 예시로서, 만약 신경 네트워크 시스템(100)에 대한 입력이 하나의 언어로된 텍스트인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 다른 언어로의 텍스트의 조각들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 다른 언어로의 텍스트의 조각이 입력 텍스트의 다른 언어로의 적절한 번역일 추정된 가능성을 나타낼 수 있다.As another example, if the input to neural network system 100 is text in one language, the output generated by neural network system 100 will be a score for each set of pieces of text in another language. Each score may indicate an estimated likelihood that a piece of text in another language is an appropriate translation of the input text into another language.

다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력이 발화된 발언, 발화된 발언들의 시퀀스 또는 상기 둘 중 하나로부터 도출된 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 텍스트의 조각들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 상기 테스트의 조각이 상기 발언 또는 발언들의 시퀀스에 대한 올바른 전사(transcript)일 추정된 가능성을 나타낼 수 있다.As another example, if the input to neural network system 100 is a spoken speech, a sequence of spoken speeches, or configurations derived from one of the two, the output generated by neural network system 100 is a piece of text. May be a score for each of the set of values, wherein each score may indicate an estimated likelihood that the piece of test is the correct transcript for the remark or sequence of remarks.

다른 예시로서, 신경 네트워크 시스템(100)은 자동완성 시스템의 일부 또는 텍스트 프로세싱 시스템의 일부일 수 있다.As another example, neural network system 100 may be part of an autocomplete system or part of a text processing system.

다른 예시로서, 신경 네트워크 시스템(100)은 강화 학습 시스템(reinforcement learning system)의 일부일 수 있고, 환경과 인터렉팅하는 대리인에 의해 수행될 액션들을 선택하기 위해 사용되는 출력들을 생성할 수 있다.As another example, neural network system 100 may be part of a reinforcement learning system and may generate outputs that are used to select actions to be performed by an agent interacting with the environment.

특히, 신경 네트워크의 각 레이어들은 입력을 수신하고 상기 입력으로부터 출력을 생성하도록 구성되며, 신경 네트워크 레이어들은 신경 네트워크 시스템(100)에 의해 수신된 신경 네트워크 입력들을 집합적으로 프로세싱하여 각 수신된 신경 네트워크 입력에 대해 각각의 신경 네트워크 출력을 생성한다. 시퀀스에서의 신경 네트워크 레이어들의 일부 또는 전부는 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 입력들로부터 출력들을 생성한다. 예를 들면, 일부 레이어들은 수신된 입력으로부터 출력을 생성하는 것의 일부로서 현재 파리미터 값들의 매트릭스에 의해 수신된 입력을 곱할 수 있다.In particular, each layer of the neural network is configured to receive input and generate output from the input, wherein the neural network layers collectively process neural network inputs received by the neural network system 100 to each received neural network. Generate each neural network output for the input. Some or all of the neural network layers in the sequence generate outputs from the inputs according to current values of the set of parameters for the neural network layer. For example, some layers may multiply the input received by the matrix of current parameter values as part of generating an output from the received input.

또한, 신경 네트워크 시스템(100)은 신경 네트워크 레이어들의 시퀀스에서 신경 네트워크 레이어 A(104)와 신경 네트워크 레이어B(112) 사이에 배치 정규화 레이어(108)을 포함한다. 배치 정규화 레이어(108)는 신경 네트워크 시스템(100)의 트레이닝 동안에 신경 네트워크 레이어 A(104)로부터 수신된 입력들에 대한 동작들의 한 세트를 및 신경 네트워크 시스템(100)이 트레이닝된 후 신경 네트워크 레이어 A(104)로부터 수신된 입력들에 대한 동작들의 다른 세트를 수행하도록 구성된다.The neural network system 100 also includes a placement normalization layer 108 between neural network layer A 104 and neural network layer B 112 in the sequence of neural network layers. The batch normalization layer 108 performs one set of operations on inputs received from the neural network layer A 104 during training of the neural network system 100 and after the neural network system 100 has been trained. And perform another set of operations on inputs received from 104.

특히, 신경 네트워크 시스템(100)은 신경 네트워크 레이어들의 파라미터들의 트레이닝된 값들을 결정하기 위해 트레이닝 예시들의 다수의 배치들에 대해 트레이닝될 수 있다. 트레이닝 예시들의 배치는 다수의 트레이닝 예시들의 세트이다. 예를 들면, 트레이닝 동안에, 신경 네트워크 시스템(100)은 트레이닝 예시들(102)의 배치를 프로세싱하고 상기 배치(102)에서 각 트레이닝 에시들에 대해 각각의 신경 네트워크 출력을 생성할 수 있다. 그 후, 신경 네트워크 출력들은 상기 시퀀스에서 신경 네트워크 레이어들의 파라미터들의 값들을 예를 들면, 통상적인 기울기 하강 및 역전파 신경 네트워크 트레이닝 기법들을 통해 조절하는데 사용될 수 있다.In particular, neural network system 100 may be trained on multiple batches of training examples to determine trained values of parameters of neural network layers. The batch of training examples is a set of multiple training examples. For example, during training, neural network system 100 may process a batch of training examples 102 and generate respective neural network output for each training hash in the batch 102. The neural network outputs can then be used to adjust the values of the parameters of the neural network layers in the sequence, for example via conventional gradient descent and backpropagation neural network training techniques.

트레이닝 예시들의 해당 배치에서 신경 네트워크 시스템(100)의 트레이닝 동안에, 배치 정규화 레이어(108)는 상기 배치에서 트레이닝 예시들에 대한 신경 네트워크 레이어 A(104)에 의해 생성된 레이어 A 출력들(106)을 수신하고, 상기 배치에서 각 트레이닝 예시에 대한 각각의 배치 정규화 레이어 출력(110)을 생성하기 위해 레이어 A 출력들(106)을 프로세싱하고, 그후 상기 배치 정규화 레이어 출력들(110)을 신경 네트워크 레이어 B(112)에 대한 입력으로서 제공하도록 구성된다. 레이어 A 출력들(106)은 상기 배치에서 각 트레이닝 예시에 대한 신경 네트워크 레이어 A(104)에 의해 생성된 각각의 출력을 포함한다. 유사하게, 배치 정규화 레이어 출력들(110)은 상기 배치에서 각 트레이닝 예시에 대한 배치 정규화 레이어(108)에 의해 생성된 각각의 출력을 포함한다.During training of the neural network system 100 in the corresponding batch of training examples, the batch normalization layer 108 looks at the layer A outputs 106 generated by the neural network layer A 104 for the training examples in the batch. Receive and process the layer A outputs 106 to generate respective batch normalization layer outputs 110 for each training example in the batch, and then process the batch normalization layer outputs 110 to neural network layer B. And serve as input to 112. Layer A outputs 106 include respective outputs generated by neural network layer A 104 for each training example in the batch. Similarly, batch normalization layer outputs 110 include respective outputs generated by batch normalization layer 108 for each training example in the batch.

일반적으로, 배치 정규화 레이어(108)는 레이어 A 출력들(106)로부터 상기 배치에 대한 정규화 통계의 세트를 연산하고, 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 출력을 생성하기 위해 레이어 A 출력들(106)을 정규화하고, 그리고 선택적으로, 상기 출력들을 신경 네트워크 레이어 B(112)에 대한 입력으로서 제공하기 전에 정규화된 출력들 각각을 변환(transform)한다.In general, batch normalization layer 108 computes a set of normalization statistics for the batch from layer A outputs 106 and layer A outputs to generate respective normalized outputs for each training example in the batch. Normalize the fields 106 and, optionally, transform each of the normalized outputs before providing the outputs as inputs to neural network layer B 112.

배치 정규화 레이어(108)에 의해 연산된 정규화 통계 및 배치 정규화 레이어(108)가 트레이닝 동안에 레이어 A 출력들(106)을 정규화하는 방식은 레이어 A 출력들(106)을 생성하는 신경 네트워크 레이어 A(104)의 성질에 의존한다.The normalization statistics computed by the batch normalization layer 108 and the manner in which the batch normalization layer 108 normalizes the layer A outputs 106 during training are the neural network layer A 104 that generates the layer A outputs 106. Depends on the nature of the

일부 경우들에서, 신경 네트워크 레이어 A(104)는 차원(dimension)에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어이다. 예를 들면, 신경 네트워크 레이어 A(104)는 완전히 연결된 신경 네트워크 레이어일 수 있다. 그러나, 일부 다른 경우들에서, 신경 네트워크 레이어 A(104)는 컨벌루션 레이어(convolutional layer)또는 피처 인덱스(feature index) 및 공간 위치 인덱스(spatial location index) 둘다에 의해 각각 인덱싱되는 다수의 컴포넌트들을 포함하는 출력을 생성하는 신경 네트워크 레이어의 다른 종류이다. 이들 두 경우들 각각에서 신경 네트워크 시스템(100)의 트레이닝 동안에 배치 정규화 레이어 출력을 생성하는 것은 도 2를 참조하여 이하에서 더 자세히 기술된다.In some cases, neural network layer A 104 is a layer that produces an output that includes a number of components indexed by dimensions. For example, neural network layer A 104 may be a fully connected neural network layer. However, in some other cases, neural network layer A 104 includes a plurality of components each indexed by a convolutional layer or both a feature index and a spatial location index. Another kind of neural network layer that produces output. In each of these two cases generating the batch normalization layer output during training of the neural network system 100 is described in more detail below with reference to FIG.

일단 신경 네트워크 시스템(100)이 트레이닝 되면, 신경 네트워크 시스템(100)은 프로세싱하기 위한 새로운 신경 네트워크 입력을 수신하고, 신경 네트워크 시스템(100)의 컴포넌트들의 파라미터들의 트레이닝된 값들에 따라 상기 입력에 대한 새로운 신경 네트워크 출력을 생성하기 위해 신경 네트워크 레이어들을 통해 신경 네트워크 입력을 프로세싱할 수 있다. 새로운 신경 네트워크 입력의 프로세싱 동안에 배치 정규화 레이어(108)에 의해 수행되는 동작들 또한 신경 네트워크 레이어 A(104)의 성질에 의존한다. 신경 네트워크 시스템(100)이 트레이닝된 후에 새로운 신경 네트워크 입력을 프로세싱하는 것은 도 3을 참조하여 이하에서 자세히 기술된다.Once the neural network system 100 is trained, the neural network system 100 receives a new neural network input for processing and according to the trained values of the parameters of the components of the neural network system 100 for the new input to the input. Neural network input can be processed through neural network layers to produce neural network output. The operations performed by the batch normalization layer 108 during the processing of the new neural network input also depend on the nature of the neural network layer A 104. Processing the neural network input after the neural network system 100 has been trained is described in detail below with reference to FIG.

배치 정규화 레이어(108)는 신경 네트워크 레이어들의 시퀀스에서 다양한 위치들에 포함될 수 있고, 일부 구현예들에서, 다수의 배치 정규화 레이어들이 상기 시퀀스에 포함될 수 있다.The batch normalization layer 108 may be included at various locations in the sequence of neural network layers, and in some implementations, multiple batch normalization layers may be included in the sequence.

도 1의 예시에서, 일부 구현예들에서, 신경 네트워크 레이어 A(104)는 제1 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 레이어에 대한 입력들을 수정함으로써 예를 들면, 레이어에 대한 입력에 현재 파라미터 값들의 매트릭스를 곱함으로써 출력들을 생성한다. 이들 구현예들에서, 신경 네트워크 레이어 B(112)는 배치 정규화 레이어(108)로부터 출력을 수신하고 비선형 동작 즉, 비선형 작동 함수(non-linear activation function)를 배치 정규화 레이어 출력에 적용함으로써 출력을 생성할 수 있다. 따라서, 이들 구현예들에서, 배치 정규화 레이어(108)는 통상적인 신경 네트워크 레이어 내에 삽입되며, 통상적인 신경 네트워크 레이어의 동작들은 신경 네트워크 레이어 A(104) 및 신경 네트워크 레이어 B(112) 사이에 분할된다.In the example of FIG. 1, in some implementations, neural network layer A 104 may, for example, modify inputs to a layer according to current values of a set of parameters for a first neural network layer, for example, input to the layer. Produces outputs by multiplying by a matrix of current parameter values. In these implementations, neural network layer B 112 receives the output from batch normalization layer 108 and generates an output by applying a nonlinear operation, that is, a non-linear activation function to the batch normalization layer output. can do. Thus, in these implementations, the batch normalization layer 108 is inserted into a conventional neural network layer, with the operations of the conventional neural network layer split between neural network layer A 104 and neural network layer B 112. do.

일부 다른 구현예들에서, 신경 네트워크 레이어 A(104)는 수정된 제1 레이어 입력들을 생성하기 위해 파라미터들의 세트의 현재 값들에 따라 레이어 입력들을 수정하고 배치 정규화 레이어(108)에 대한 출력을 제공하기 전에 상기 수정된 제1 레이어 입력들에 비선형 동작을 적용함으로써 출력들을 생성한다. 따라서, 이들 구현예들에서, 배치 정규화 레이어(108)는 상기 시퀀스에서 통상적인 신경 네트워크 레이어 뒤에 삽입된다.In some other implementations, neural network layer A 104 modifies the layer inputs according to current values of the set of parameters and generates an output for batch normalization layer 108 to produce modified first layer inputs. Previously, the outputs are generated by applying a nonlinear operation to the modified first layer inputs. Thus, in these implementations, the batch normalization layer 108 is inserted after the conventional neural network layer in the sequence.

도 2는 트레이닝 예시들의 배치 상에 신경 네트워크의 트레이닝 동안에 배치 정규화 레이어를 생성하기 위한 예시적 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들면, 신경 네트워크 시스템에 포함된 배치 정규화 레이어 예를 들면, 적절하게 프로그래밍된 도 1의 신경 네트워크 시스템(100)에 포함된 배치 정규화 레이어(108)가 프로세스(200)을 수행할 수 있다.2 is a flow diagram of an example process 200 for generating a batch normalization layer during training of a neural network on a batch of training examples. For convenience, the process 200 will be described as being performed by a system of one or more computers located at one or more locations. For example, the batch normalization layer included in the neural network system, for example, the batch normalization layer 108 included in the neural network system 100 of FIG. 1, suitably programmed, may perform the process 200.

배치 정규화 레이어는 트레이닝 예시들의 배치에 대한 더 낮은 레이어 출력들을 수신한다(단계(202)). 더 낮은 레이어 출력들은 신경 네트워크 레이어들의 시퀀스에서 배치 정규화 레이어 아래의 레이어에 의해 상기 배치에서 각 트레이닝 예시에 대해 생성된 각각의 출력을 포함한다. The batch normalization layer receives the lower layer outputs for the batch of training examples (step 202). Lower layer outputs include respective outputs generated for each training example in the batch by a layer below the batch normalization layer in the sequence of neural network layers.

배치 정규화 레이어는 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 출력을 생성한다(단계(204)). 즉, 배치 정규화 레이어는 각 수신된 더 낮은 레이어 출력으로부터 각각의 정규화된 출력을 생성한다.The batch normalization layer generates each normalized output for each training example in the batch (step 204). That is, the batch normalization layer generates each normalized output from each received lower layer output.

일부 경우들에서, 배치 정규화 레이어 아래의 레이어는 차원에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어이다.In some cases, the layer below the batch normalization layer is a layer that produces an output that includes a number of components indexed by the dimension.

이들 경우들에서, 배치 정규화 레이어는 각 차원에 대해 상기 차원에 대응하는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 표준편차를 연산한다. 그후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 상기 평균들 및 표준편차들을 사용하여 더 낮은 레벨 출력들 각각의 각 컴포넌트를 정규화한다. 특히, 주어진 출력의 주어진 컴포넌트에 대해, 배치 정규화 레이어는 상기 컴포넌트에 대응하는 차원에 대해 연산된 평균 및 표준편차를 사용하여 컴포넌트를 정규화한다. 예를 들면, 일부 구현예들에서, 배치 β로부터 i-번째 낮은 레이어 출력의 k-번째 차원에 대응하는 컴포넌트 x k,i 에 대해, 정규화된 출력

Figure pat00001
는:In these cases, the batch normalization layer computes the mean and standard deviation of the components of the lower layer outputs corresponding to that dimension for each dimension. The batch normalization layer then normalizes each component of each of the lower level outputs using the averages and standard deviations to produce respective normalized outputs for each of the training examples in the batch. In particular, for a given component of a given output, the batch normalization layer normalizes the component using the mean and standard deviation computed for the dimension corresponding to that component. For example, in some implementations, the normalized output for component x k, i corresponding to the k- th dimension of the i- th low layer output from placement β
Figure pat00001
Is:

Figure pat00002
Figure pat00002

를 만족하며, 여기서 μB는 배치 β 및 σB 에서 더 낮은 레이어 출력들의 k-번째 차원에 대응하는 컴포넌트의 표준편차이다. 일부 구현예들에서, 표준편차는 (σB 2 + ε)1/2와 동일한 수치적으로 안정한 표준편차이며, 여기서 ε는 상수값이고 σB 2는 배치 β에서 더 낮은 레이어 출력들의 k-번째 차원에 대응하는 컴포넌트의 분산이다., Where μ B is the standard deviation of the component corresponding to the k- th dimension of the lower layer outputs in batches β and σ B. In some embodiments, the standard deviation is a numerically stable standard deviation equal to (σ B 2 + ε) 1/2 , where ε is a constant value and σ B 2 is the k- th of the lower layer outputs in batch β The distribution of components corresponding to dimensions.

그러나, 일부 다른 경우들에서,배치 정규화 레이어 아래의 신경 네트워크 레이어는 통상적인 레이어 또는 피처 인덱스 및 공간 위치 인덱스 둘다에 의해 각각 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 신경 네트워크 레이어의 다른 종류이다.However, in some other cases, the neural network layer below the batch normalization layer is another kind of neural network layer that produces an output comprising a number of components each indexed by a conventional layer or both a feature index and a spatial location index. .

이들 경우들 중 일부에서, 배치 정규화 레이어는 각 가능한 피처 인덱스 및 공간 위치 인덱스 조합에 대해, 상기 피처 인덱스 및 공간 위치 인덱스를 가지는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 분산을 연산한다. 그후 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 피처 인덱스 및 공간 위치 인덱스 조합들에 대한 평균들(means)의 평균값(average)을 연산한다. 또한, 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 피처 인덱스 및 공간 위치 인덱스 조합들에 대한 분산들의 평균값을 연산한다. 따라서, 상기 평균값들을 연산한 후에, 배치 정규화 레이어는 모든 공간 위치들을 가로지르는 각 피처에 대한 평균 통계 및 모든 공간 위치들을 가로지르는 각 피처에 대한 분산 통계를 연산한다.In some of these cases, the batch normalization layer computes, for each possible feature index and spatial position index combination, the average and variance of the components of the lower layer outputs having the feature index and spatial position index. The batch normalization layer then calculates, for each feature index, the average of the means for the feature index and spatial location index combinations that include the feature index. In addition, the batch normalization layer calculates, for each feature index, an average value of the variances for the feature index and spatial location index combinations that include the feature index. Thus, after computing the mean values, the batch normalization layer computes an average statistic for each feature across all spatial positions and a variance statistic for each feature across all spatial positions.

그 후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 각각의 더 낮은 레벨 출력들의 각 컴포넌트를 평균값 평균들(average means)과 평균값 분산들(average variances)을 사용하여 정규화한다. 특히, 해당 출력의 해당 컴포넌트에 대해 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 평균값 평균과 평균값 분산을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로 컴포넌트를 정규화한다. The batch normalization layer then calculates the average means and average variances of each component of each of the lower level outputs to produce respective normalized outputs for each of the training examples in the batch. Normalize using In particular, for that component of that output, the batch normalization layer uses the mean-average and mean-variance for the feature indices corresponding to the component, e. Normalize the components in the same way as described above.

이들 경우들의 다른 경우에, 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스에 대응하는 즉 피처 인덱스를 가지는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 분산을 연산한다.In other cases of these cases, the batch normalization layer computes, for each feature index, the average and variance of the components of the lower layer outputs corresponding to the feature index, ie having the feature index.

그 후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 피처 인덱스들에 대한 평균들 및 분산들을 사용하여 각각의 더 낮은 레벨 출력들의 각 컴포넌트를 정규화한다. 특히, 해당 출력의 해당 컴포넌트에 대해, 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 평균 및 분산을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로 컴포넌트를 정규화한다.The batch normalization layer then normalizes each component of each lower level outputs using means and variances for feature indices to produce respective normalized outputs for each of the training examples in the batch. In particular, for that component of that output, the batch normalization layer uses the mean and variance for the feature index corresponding to the component, e.g., if the layer below the batch normalization layer produces outputs indexed by the dimension. Normalize the component in the same way as described.

선택적으로, 배치 정규화 레이어는 각 정규화된 출력의 각 컴포넌트를 변환한다(단계(206)).Optionally, the batch normalization layer transforms each component of each normalized output (step 206).

배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어인 경우들에서, 배치 정규화 레이어는 각 차원에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 차원에서 각 정규화된 출력의 컴포넌트를 변환한다. 즉, 배치 정규화 레이어는 각 차원에 대한 파라미터들의 각각의 세트를 유지하고, 상기 파라미터들을 사용하여 상기 차원에서 정규화된 출력들의 컴포넌트들에 변환(transformation)을 적용한다. 파라미터들의 세트들의 값들은 신경 네트워크 시스템의 트레이닝의 일부로서 조절된다. 예를 들면, 일부 구현예들에서, 정규화된 출력

Figure pat00003
로부터 생성된 변환된 정규화된 출력 y k,i 는:In cases where the layer below the batch normalization layer is a layer that produces an output comprising a number of components indexed by the dimension, the batch normalization layer is dimensioned for each dimension in accordance with the current values of the set of parameters for that dimension. Transforms the components of each normalized output. That is, the batch normalization layer maintains each set of parameters for each dimension, and uses the parameters to apply transformations to components of the outputs normalized in that dimension. The values of the sets of parameters are adjusted as part of the training of the neural network system. For example, in some implementations, normalized output
Figure pat00003
The transform normalized output y k, i generated from

Figure pat00004
Figure pat00004

를 만족하며, 여기서 γ k A k k-번째 차원에 대한 파라미터들이다.Where γ k and A k are parameters for the k -th dimension.

배치 정규화 레이어 아래의 레이어가 컨벌루션 레이어인 경우들에, 배치 정규화 레이어는 각각의 정규화된 출력들의 각 컴포넌트에 대해, 컴포넌트에 대응하는 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 컴포넌트를 변환한다. 즉, 배치 정규화 레이어는 각 피처 인덱스에 대한 파라미터들의 각각의 세트를 유지하고 상기 파라미터들을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로피처 인덱스를 가지는 정규화된 출력들의 컴포넌트들에 대한 변환에 적용한다. 파라미터들의 세트들의 값들은 신경 네트워크 시스템의 트레이닝의 일부로서 조절된다.In cases where the layer below the batch normalization layer is a convolutional layer, the batch normalization layer transforms, for each component of each normalized output, according to the current values of the set of parameters for the feature index corresponding to the component. That is, the batch normalization layer maintains each set of parameters for each feature index and uses the parameters to, for example, be the same as described above if a layer below the batch normalization layer produces output indexed by dimensions. In this way, we apply the transformation to the components of the normalized outputs with the feature index. The values of the sets of parameters are adjusted as part of the training of the neural network system.

배치 정규화 레이어는 정규화된 출력들 또는 변환된 정규화된 출력들을 상기 시퀀스에서 배치 정규화 레이어 위의 레이어에 대한 입력으로서 제공한다(단계(208)).The batch normalization layer provides normalized outputs or transformed normalized outputs as input to the layer above the batch normalization layer in the sequence (step 208).

신경 네트워크가 상기 배치에서 트레이닝 예시들에 대한 신경 네트워크 출력들을 생성한 후에, 정규화 통계는 신경 네트워크의 파라미터들의 값들을 조절하는 것의 일부로서를 통하여 즉, 역전파 트레이닝 기법을 수행하는 것의 일부로서 역전파된다.After the neural network generates neural network outputs for training examples in the deployment, normalization statistics are backpropagated through as part of adjusting the values of the parameters of the neural network, ie as part of performing a backpropagation training technique. do.

도 3은 신경 네트워크가 트레이닝된 후에 새로운 신경 네트워크 입력에 대한 배치 정규화 레이어 출력을 생성하는 예시적 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)은 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로서 기술될 것이다. 예를 들면, 신경 네트워크 시스템에 포함된 배치 정규화 레이어 예를 들면, 적절하게 프로그래밍된 도 1의 신경 네트워크 시스템(100)에 포함된 배치 정규화 레이어(108)는 프로세스(300)을 수행할 수 있다.3 is a flow diagram of an example process 300 for generating batch normalization layer output for a new neural network input after a neural network has been trained. For convenience, process 300 will be described as being performed by a system of one or more computers located at one or more locations. For example, the batch normalization layer included in the neural network system, for example, the batch normalization layer 108 included in the neural network system 100 of FIG. 1, suitably programmed, may perform the process 300.

배치 정규화 레이어는 새로운 신경 네트워크에 대한 더 낮은 레이어 출력을 수신한다(단계(302)). 더 낮은 레이어 출력은 신경 네트워크 레이어들의 시퀀스에서 배치 정규화 레이어 아래의 레이어에 의해 새로운 신경 네트워크 입력에 대해 생성된 출력이다.The batch normalization layer receives the lower layer output for the new neural network (step 302). The lower layer output is the output generated for the new neural network input by the layer below the batch normalization layer in the sequence of neural network layers.

배치 정규화 레이어는 새로운 신경 네트워크 입력에 대한 정규화된 출력을 생성한다(단계(304)).The batch normalization layer generates normalized output for the new neural network input (step 304).

만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 차원에 의해 인덱싱된 경우, 배치 정규화 레이어는 정규화된 출력을 생성하기 위해 각각의 차원들에 대해 미리 연산된 평균들 및 표준편차들을 사용하여 더 낮은 레이어 출력의 각 컴포넌트를 정규화한다. 일부 경우들에서, 해당 차원에 대한 평균들 및 표준 편차들은 신경 네트워크 시스템의 트레이닝 동안에 배치 정규화 레이어 아래의 레이어에 의해 생성된 모든 출력들의 차원에서의 컴포넌트들로부터 연산된다.If the outputs generated by the layer below the batch normalization layer are indexed by the dimension, the batch normalization layer is lower using the precomputed averages and standard deviations for each dimension to produce the normalized output. Normalize each component of the layer output. In some cases, the averages and standard deviations for that dimension are computed from the components in the dimension of all outputs generated by the layer below the batch normalization layer during training of the neural network system.

그러나, 다른 일부 경우들에서, 해당 차원에 대한 평균들 및 표준 편차들은 트레이닝 이후 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들의 차원에서의 컴포넌트들로부터 예를 들면, 특정 기간의 가장 최근 시간 윈도우 동안에 생성된 더 낮은 레이어 출력들로부터 또는 배치 정규화 레이어 아래의 레이어에 의해 가장 최근에 생성된 더 낮은 레이어 출력들의 특정 숫자로부터 연산된다.However, in some other cases, the averages and standard deviations for that dimension are for example from components in the dimension of the lower layer outputs generated by the layer below the batch normalization layer after training, e. It is computed from lower layer outputs generated during the time window or from a specific number of lower layer outputs most recently generated by the layer below the batch normalization layer.

특히, 일부 경우들에서, 예를 들면, 만약 새로운 신경 네트워크 입력들이 트레이닝 예시들과 다른 종류의 입력들인 경우, 네트워크 입력들의 분배 및 따라서 더 낮은 레이어 출력들의 분배는 트레이닝 동안에 사용된 트레이닝 예시들과 신경 네트워크 시스템이 트레이닝된 후에 사용된 새로운 신경 네트워크 입력들 사이에서 변화할 수 있다. 예를 들면, 신경 네트워크 시스템은 사용자 이미지들에 대해 트레이닝될 수 있고, 이제 비디오 프레임들을 프로세싱하기 위해 사용될 수 있다. 사용자 이미지들 및 비디오 프레임들은 찍힌 클래스들, 이미지 속성들, 구성 등의 면에서 다른 분배들(distributions)을 가질 가능성이 크다. 그러므로, 트레이닝으로부터의 통계들을 사용하여 더 낮은 레이어 입력들을 정규화하는 것은 새로운 입력들에 대해 생성되는 더 낮은 레이어 출력들의 통계들을 정확하게 캡처하지 않을 수 있다. 따라서, 이들 경우들에서, 배치 정규화 레이어는 트레이닝 이후에 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들로부터 연산된 정규화 통계들을 사용할 수 있다.In particular, in some cases, for example, if the new neural network inputs are inputs different from the training examples, the distribution of the network inputs and thus the distribution of the lower layer outputs may be neural and training examples used during training. After the network system is trained, it may change between the new neural network inputs used. For example, a neural network system can be trained on user images and can now be used to process video frames. User images and video frames are likely to have different distributions in terms of classes taken, image properties, composition, and the like. Therefore, normalizing lower layer inputs using statistics from training may not accurately capture statistics of lower layer outputs generated for new inputs. Thus, in these cases, the batch normalization layer may use normalization statistics computed from lower layer outputs generated by the layer below the batch normalization layer after training.

배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱된 경우, 배치 정규화 레이어는 정규화된 출력을 생성하기 위해 피처 인덱스들 각각에 대한 미리 연산된 평균값 평균들 및 평균값 분산들을 사용하여 더 낮은 레이어 출력의 각 컴포넌트를 정규화한다. 일부 경우들에서, 상기 기술된 바와 같이, 해당 피처 인덱스에 대한 평균값 평균들 및 평균값 분산들은 트레이닝 동안에 사용된 트레이닝 예시들 전부에 대한 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들로부터 연산된다. 일부 다른 경우들에서, 상기 기술된 것과 같이, 해당 피처 인덱스에 대한 평균들 및 표준 편차들은 트레이닝 이후에 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들로부터 연산된다.If the outputs generated by the layer below the batch normalization layer are indexed by the feature index and the spatial position index, the batch normalization layer uses the precomputed mean and mean variances for each of the feature indices to produce a normalized output. To normalize each component of the lower layer output. In some cases, as described above, the mean value averages and mean variances for that feature index are computed from the outputs generated by the layer below the batch normalization layer for all of the training examples used during training. In some other cases, as described above, the averages and standard deviations for that feature index are computed from the lower layer outputs generated by the layer below the batch normalization layer after training.

선택적으로, 배치 정규화 레이어는 정규화된 출력의 각 컴포넌트를 변환한다(단계(306)).Optionally, the batch normalization layer transforms each component of the normalized output (step 306).

만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 차원에 의해 인덱싱되면, 배치 정규화 레이어는 각 차원에 대해 상기 차원에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 차원에서의 정규화된 출력의 컴포넌트를 변환한다. 만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되면, 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 정규화된 출력의 각 컴포넌트를 변환한다. 배치 정규화 레이어는 정규화된 출력 또는 변환된 정규화된 출력을 시퀀스에서 배치 정규화 레이어 위의 레이어에 대한 입력으로서 제공한다(단계(308)).If the outputs generated by the layers below the batch normalization layer are indexed by the dimension, the batch normalization layer transforms the components of the normalized output in the dimension according to the trained values of the set of parameters for that dimension for each dimension. do. If the outputs generated by the layer below the batch normalization layer are indexed by the feature index and the spatial position index, then the batch normalization layer is each of the normalized outputs according to the trained values of the set of parameters for the feature index corresponding to the component. Convert the component. The batch normalization layer provides the normalized output or transformed normalized output as input to the layer above the batch normalization layer in the sequence (step 308).

본 발명의 실시예들 및 본 명세서에 기술된 기능적 동작들은 본 명세서에서 개시된 구조들 및 그들의 구조적 균등물들을 포함하는 디지털 전자 회로에서, 유형적으로 수록된 컴퓨터 소프트웨어 또는 펌웨어에서, 컴퓨터 하드웨어에서 또는 그들 중 하나 이상의 조합들에서 구현될 수 있다. 본 명세서에 기술된 본 발명의 실시예들은 하나 이상의 컴퓨터 프로그램들 즉, 데이터 프로세싱 장치에 의해 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 실행을 위한 유형적 비 일시적 프로그램 캐리어에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로서 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어들은 데이터 프로세싱 장치에 의한 실행을 위한 적절한 리시버 장치에 전송을 위한 정보를 인코딩하기 위해 생성된 인공적으로 생성된 전파 신호 예를 들면, 기계-생성 전기적, 광학적 또는 전자기적 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저작 기판, 랜덤 또는 시리얼 엑세스 메모리 디바이스 또는 그들 중 하나 이상의 조합일 수 있다.Embodiments of the present invention and the functional operations described herein may be embodied in digital electronic circuitry including the structures disclosed herein and their structural equivalents, in computer software or firmware, tangibly listed, in computer hardware, or one of them. It can be implemented in combination of the above. Embodiments of the present invention described herein include one or more computer programs, one or more of computer program instructions encoded by a data processing device or on a tangible non-transitory program carrier for execution to control the operation of the data processing device. It can be implemented as modules. Alternatively or in addition, the program instructions may be an artificially generated radio signal, eg, machine-generated electrical, optical or electronic, generated for encoding information for transmission to a suitable receiver device for execution by the data processing device. It can be encoded in a miracle signal. The computer storage medium may be a machine readable storage device, a machine readable mastication substrate, a random or serial access memory device, or a combination of one or more thereof.

용어 “데이터 프로세싱 장치”는 예시로서 프로그래머블 프로세서, 컴퓨터 도는 다수의 프로세서들 또는 컴퓨터들을 포함하는 데이터를 프로세싱하기 위한 모든 종류의 장치, 디바이스들 및 기계들을 포함한다. 장치는 전용 논리 회로 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)를 포함할 수 있다. 또한, 하드웨어에 추가로, 장치는 문제되는 컴퓨터 프로그램을 위한 실행 환경을 생성하는 코드 예를 들면, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 그들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.The term “data processing apparatus” includes, by way of illustration, all kinds of apparatus, devices, and machines for processing data including a programmable processor, a computer or a plurality of processors or computers. The device may comprise a dedicated logic circuit, for example a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC). In addition, in addition to the hardware, the apparatus may include code that creates an execution environment for the computer program in question, for example, processor firmware, a protocol stack, a database management system, an operating system, or a combination of one or more of them. Can be.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 모듈, 소프트웨어 모듈 스크립트 또는 코드로도 지칭되거나 기술됨)은 컴파일된 또는 인터프리트된 언어들 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 이는 단독형 프로그램으로서 또는 컴퓨팅 환경에서 사용하기 위해 적절한 모듈, 컴포넌트 서브 루틴 또는 기타 유닛으로서를 포함한다. 컴퓨터 프로그램은 파일 시스템에서 파일에 대응하나, 반드시 대응되지는 않는다. 프로그램은 다른 프로그램들 또는 데이터를 보유하는 파일의 부분 예를 들면, 마크업 언어 문서에, 문제되는 프로그램 전용 단일 파일에 또는 다수의 편성된 파일들 예를 들면, 하나 이상의 모듈들, 서브 프로그램들 또는 코드의 부분들을 저장하는 파일들에 저장된 하나 이상의 스크립트들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 장소에 위치되거나 다수의 사이트들에 분산되고 통신 네트워크에 의해 상호 연결된 다수의 컴퓨터들에서 실행되도록 배포될 수 있다.A computer program (also referred to as or described as a program, software, software application, module, software module script, or code) is written in any form of programming language, including compiled or interpreted languages or declarative or procedural languages. It may include as a standalone program or as a module, component subroutine or other unit suitable for use in a computing environment. Computer programs correspond to, but are not necessarily corresponding to, files in a file system. A program may be part of a file holding other programs or data, for example in a markup language document, in a single file dedicated to the program in question, or in multiple organized files, for example one or more modules, subprograms or It can be stored in one or more scripts stored in files that store portions of code. The computer program may be distributed to run on one computer or on multiple computers located at one location or distributed across multiple sites and interconnected by a communication network.

본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작시키고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 컴퓨터들에 의해 수행될 수 있다. 또한, 프로세스들 및 논리 흐름들은 전용 논리 회로 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)에 의해 수행되고, 또한 장치는 전용 논리 회로로서 구현될 수 있다.The processes and logic flows described herein may be performed by one or more programmable computers executing one or more computer programs to perform functions by operating input data and generating output. In addition, the processes and logic flows may be performed by a dedicated logic circuit, for example, a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC), and the apparatus may also be implemented as a dedicated logic circuit.

예시로서, 컴퓨터 프로그램의 실행을 위해 적절한 컴퓨터들은 전용 또는 범용 마이크로 프로세서들 또는 둘 다, 또는 임의의 다른 종류의 중앙 프로세싱 유닛에 기초할 수 있다. 일반적으로, 중앙 프로세싱 유닛은 명령어들 및 데이터를 리드 온리 메모리 또는 랜덤 엑세스 메모리 또는 둘 다로부터 수신할 것이다. 컴퓨터의 기초적 엘리먼트들은 명령어들을 수행하거나 실행하기 위한 중앙 프로세싱 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 또한, 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기광학 디스크들 또는 광학적 디스크들을 포함하거나 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 연결될 것이다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가질 필요가 없다. 게다가 컴퓨터는 다른 디바이스 몇 가지 예를 들면, 모바일 전화, PDA, 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 이동식 저장 디바이스 예를 들면, USB, 플래시 드라이브에 내장될 수 있다.By way of illustration, computers suitable for the execution of a computer program may be based on dedicated or general purpose microprocessors or both, or any other kind of central processing unit. In general, the central processing unit will receive instructions and data from read only memory or random access memory or both. The basic elements of a computer are a central processing unit for performing or executing instructions and one or more memory devices for storing instructions and data. Also, in general, a computer may be operatively connected to receive or transmit data to or from one or more large storage devices, such as magnetic, magneto-optical disks or optical disks, for storing data. will be. However, a computer does not necessarily have to have the devices. In addition, the computer may be embedded in several other devices, such as mobile phones, PDAs, mobile audio or video players, game consoles, GPS receivers or removable storage devices such as USB, flash drives.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기 위해 적절한 컴퓨터 판독가능 미디어는 예시로서, 반도체 메모리 디바이스들 예를 들면, EPROM, EEPROM 및 플래시 메모리 디바이스들; 자기 디스크들 예를 들면, 내장 하드 디스크들 또는 이동식 디스크들; 자기광학 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 미디어 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 전용 논리 회로에 의해 보충되거나 그에 통합될 수 있다.Suitable computer readable media for storing computer program instructions and data include, by way of example, semiconductor memory devices such as EPROM, EEPROM and flash memory devices; Magnetic disks such as internal hard disks or removable disks; Magneto-optical disks; And all forms of nonvolatile memory, media and memory devices, including CD-ROM and DVD-ROM disks. The processor and memory may be supplemented or integrated into dedicated logic circuitry.

사용자와의 인터렉션을 제공하기 위해, 본 명세서에 기술된 본 발명의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스 예를 들면, CRT 또는 LCD 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들면, 마우스 또는 트랙볼을 가지는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하기 위해 사용될 수 있다; 예를 들면, 사용자에게 제공되는 피드백은 임의의 감각적 피드백 예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백일 수 있고; 사용자로부터의 입력은 청각, 음성 또는 촉각적 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서들을 송신하고 디바이스로부터 문서들을 수신함으로써 사용자와 인터렉션할 수 있다; 예를 들면, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 송신함으로써.In order to provide interaction with a user, embodiments of the present invention described herein can be used to provide a display device for displaying information to a user, such as a CRT or LCD monitor and a keyboard on which the user can provide input to a computer. The pointing device may be implemented in a computer with a mouse or trackball, for example. Other kinds of devices can also be used to provide interaction with a user; For example, the feedback provided to the user can be any sensory feedback, such as visual feedback, auditory feedback, or tactile feedback; Input from the user may be received in any form, including auditory, speech, or tactile input. In addition, the computer can interact with the user by sending documents to and receiving documents from the device used by the user; For example, by sending web pages to a web browser on a user's client device in response to requests received from the web browser.

본 명세서에 기술된 본 발명의 실시예들은 백엔드 컴포넌트 예를 들면, 데이터 서버를 포함하거나, 또는 미들웨어 컴포넌트 예를 들면, 어플리케이션 서버를 포함하거나, 또는 프론트엔드 컴포넌트 예를 들면, 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 가지는 클라이언트 컴퓨터를 포함하는 컴퓨팅 시스템 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신 예를 들면, 통신 네트워크의 임의의 형태 또는 매체에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들면, 인터넷을 포함한다.Embodiments of the invention described herein include a back end component such as a data server, or a middleware component such as an application server, or a front end component such as a user described herein. It may be implemented in any combination of one or more of the above backend, middleware or frontend components, or a computing system including a client computer having a graphical user interface or web browser that can interact with an embodiment of the present invention. The components of the system can be interconnected by any form or medium of digital data communication, eg, a communication network. Examples of communication networks include a local area network (LAN) and a wide area network (WAN), for example, the Internet.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 떨어져 있고, 일반적으로 통신 네트워크를 통해 인터렉션한다. 클라이언트 및 서버의 관계는 각각의 컴퓨터들에서 실행되며 상호 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해서 발생한다.The computing system can include clients and servers. Clients and servers are generally separated from each other and generally interact via a communication network. The relationship of client and server occurs by computer programs running on respective computers and having a mutual client-server relationship.

본 명세서가 많은 특정 구현예 세부사항들을 포함하고 있지만, 이들은 어떠한 발명의 범위 또는 청구된 것에 대한 제한들로서 여겨져서는 아니되며, 오히려 특정 발명들의 특정 실시예들에 국한된 구성들의 설명들로서 여겨져야 한다. 또한 별개의 실시예들의 맥락에서 본 명세서에 기술된 특정 구성들은 단일의 실시예들에서 조합으로 구현될 수 있다. 또한 반대로, 단일의 실시예의 맥락에서 기술된 다양한 구성들은 다수의 실시예들에서 별개로 또는 임의의 적절한 서브컴비네이션으로 구현될 수 있다. 게다가, 비록 구성들이 특정 조합들에서 동작하는 것으로 상기 기술되고 심지어 상기와 같이 초기적으로 청구되었지만, 일부 경우들에서, 청구된 조합으로부터 하나 이상의 구성들이 조합으로부터 실행될 수 있고, 청구된 조합은 서브컴비네이션 또는 서브 컴비네이션의 변화를 지시할 수 있다.Although this specification contains many specific implementation details, these should not be considered as limitations on the scope of any invention or as claimed, but rather as descriptions of the configurations that are limited to specific embodiments of specific inventions. In addition, certain configurations described herein in the context of separate embodiments can be implemented in combination in a single embodiment. Conversely, various configurations described in the context of a single embodiment may be implemented separately or in any suitable subcombination in multiple embodiments. In addition, although the configurations have been described above as operating in certain combinations and even initially claimed as such, in some cases, one or more configurations from the claimed combination may be executed from the combination, and the claimed combination may be a subcombination. Alternatively, the subcombination may be indicated.

유사하게, 동작들이 특정 순서로 도면들에서 도시되었지만, 이는 상기 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되거나 또는 모든 도시된 동작들이 원하는 결과들을 달성하기 위해 수행되어야 할 것을 요구하는 것으로서 이해되어서는 아니된다. 특정 환경들에서, 멀티태스킹 및 병렬 프로세싱은 이점이 있다. 게다가, 상기 기술된 실시예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리도 모든 실시예들에서 상기 분리를 요구하는 것으로서 이해되어서는 아니되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일의 소프트웨어 제품에 함께 통합되거나 또는 다수의 소프트웨어 제품들에 패키징될 수 있다.Similarly, although the operations are shown in the drawings in a particular order, this should not be understood as requiring that the operations be performed in the specific order or sequential order shown or that all illustrated operations must be performed to achieve the desired results. No. In certain circumstances, multitasking and parallel processing are advantageous. In addition, the separation of the various system modules and components in the described embodiments is not to be understood as requiring the separation in all embodiments, and the described program components and systems are generally in a single software product. It can be integrated together or packaged into multiple software products.

본 발명의 특정 실시예들이 기술되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에 기재된 액션들은 다른 순서로 수행될 수 있고 여전히 원하는 결과를 달성한다. 일 예시로서, 첨부 도면들에서 도시된 프로세스들은 원하는 결과들을 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 필수적으로 요구하지 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 프로세싱은 이점이 있다.Specific embodiments of the invention have been described. Other embodiments are also within the scope of the following claims. For example, the actions recited in the claims can be performed in a different order and still achieve the desired result. As one example, the processes depicted in the accompanying drawings do not necessarily require the particular order or sequential order shown to achieve the desired results. In certain implementations, multitasking and parallel processing are advantageous.

Claims (20)

하나 이상의 컴퓨터들에 의해 구현되는 이미지들을 분류하기 위한 이미지 분류 신경 네트워크 시스템으로서,
이미지 또는 상기 이미지의 이미지 구성(image feature)들을 포함하는 네트워크 입력을 수신하고, 오브젝트 카테고리들의 세트에서 각 오브젝트 카테고리에 대한 각각의 점수들을 포함하는 네트워크 출력을 생성하도록 구성된 컨벌루션 신경 네트워크를 포함하며, 상기 각 오브젝트 카테고리에 대한 점수는 상기 이미지가 상기 오브젝트 카테고리에 속하는 오브젝트의 이미지를 포함할 가능성을 표현하며, 상기 컨볼루션 신경 네트워크는:
복수의 신경 네트워크 레이어들, 상기 복수의 신경 네트워크 레이어들은 제1 컨볼루션 신경 네트워크 레이어 및 제2 신경 네트워크 레이어를 포함하며; 그리고
상기 제1 컨볼루션 신경 네트워크 레이어와 상기 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 포함하며, 상기 제1 컨볼루션 신경 네트워크 레이어는 피처 인덱스(feature index) 및 공간 위치 인덱스에 의해 인덱싱되는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 배치 정규화 레이어는 트레이닝 예시들의 배치에서 상기 컨볼루션 신경 네트워크 시스템의 트레이닝 동안에:
상기 배치에서 각 트레이닝 예시에 대해 각각의 제1 레이어 출력을 수신하고;
상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하고, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연한하는 것은, 상기 피처 인덱스들 각각에 대해:
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균(mean)을 연산하는 것; 및
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산(variance)을 연산하는 것을 포함하며;
상기 배치에서 각 트레이닝 예시에 대해 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하고;
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들 각각에 대해 각각의 배치 정규화 레이어 출력을 생성하고; 그리고
상기 배치 정규화 레이어 출력들을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하도록 구성되는 것을 특징으로 하는 이미지 분류 신경 네트워크 시스템.
An image classification neural network system for classifying images implemented by one or more computers, the image classification neural network system comprising:
A convolutional neural network configured to receive a network input comprising an image or image features of the image and to generate a network output comprising respective scores for each object category in the set of object categories; The score for each object category represents the likelihood that the image includes an image of an object belonging to the object category, wherein the convolutional neural network:
A plurality of neural network layers, the plurality of neural network layers comprising a first convolutional neural network layer and a second neural network layer; And
A batch normalization layer between the first convolutional neural network layer and the second neural network layer, wherein the first convolutional neural network layer is characterized by a feature index and a spatial location index. Generating first layer outputs having a plurality of components that are indexed, the batch normalization layer during training of the convolutional neural network system in a batch of training examples:
Receive a respective first layer output for each training example in the batch;
Computing a plurality of normalization statistics for the batch from the first layer outputs and pausing the plurality of normalization statistics for the first layer outputs for each of the feature indices:
Calculating a mean of components of the first layer outputs corresponding to the feature index; And
Computing a variance of components of the first layer outputs corresponding to the feature index;
Normalize each component of each first layer output using the normalization statistics to generate respective normalized layer outputs for each training example in the batch;
Generate a respective batch normalization layer output for each of the training examples from the normalized layer outputs; And
And provide the batch normalization layer outputs as input to the second neural network layer.
청구항 1에 있어서,
각 레이어 출력의 각 컴포넌트를 정규화하는 것은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균과 상기 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 이미지 분류 신경 네트워크 시스템.
The method according to claim 1,
Normalizing each component of each layer output is:
And normalizing the component using the mean and the variance with respect to the feature index corresponding to the component.
청구항 1에 있어서,
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들 각각에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 것은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 각 컴포넌트를 변환(transform)하는 것을 포함하는 것을 특징으로 하는 이미지 분류 신경 네트워크 시스템.
The method according to claim 1,
Generating the respective batch normalization layer output for each of the training examples from the normalized layer outputs:
And transforming each component of the normalized layer output according to current values of the set of parameters for the feature index corresponding to the component.
청구항 3에 있어서,
상기 배치 정규화 레이어는 상기 피처 인덱스들 각각에 대해 상기 파라미터들의 트레이닝된 값들을 결정하기 위해 상기 신경 네트워크가 트레이닝된 후에:
새로운 신경 네트워크 입력으로부터 생성된 새로운 제1 레이어 입력을 수신하고;
새로운 정규화된 레이어 출력을 생성하기 위해 상기 피처 인덱스들에 대한 미리 연산된 평균 및 표준편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 각 컴포넌트를 정규화하고;
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 파라미터들의 세트의 트레이닝된 값들에 따라 상기 정규화된 레이어 출력의 각 컴포넌트를 변환함으로써 새로운 배치 정규화 레이어를 생성하고; 그리고
상기 새로운 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하도록 구성되는 것을 특징으로 하는 이미지 분류 신경 네트워크 시스템.
The method according to claim 3,
After the batch normalization layer is trained to determine the trained values of the parameters for each of the feature indices:
Receive a new first layer input generated from the new neural network input;
Normalize each component of the new first layer output using precomputed mean and standard deviation statistics for the feature indices to produce a new normalized layer output;
Generate a new batch normalization layer by transforming each component of the normalized layer output according to the trained values of the set of parameters for the feature index corresponding to the component; And
And provide the new batch normalization layer output as a new layer input for the second neural network layer.
청구항 1에 있어서,
상기 제1 컨볼루션 신경 네트워크 레이어는 상기 제1 컨볼루션 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 상기 제1 레이어 입력들에 컨볼루션을 적용함으로써 상기 제1 레이어 출력들을 생성하는 것을 특징으로 하는 이미지 분류 신경 네트워크 시스템.
The method according to claim 1,
Wherein the first convolutional neural network layer generates the first layer outputs by applying convolution to the first layer inputs according to current values of a set of parameters for the first convolutional neural network layer. Image classification neural network system.
청구항 5에 있어서,
상기 제2 신경 네트워크 레이어는 상기 배치 정규화 레이어 출력들에 비선형 동작을 적용함으로써 제2 레이어 출력들을 생성하는 것을 특징으로 하는 이미지 분류 신경 네트워크 시스템.
The method according to claim 5,
And the second neural network layer generates second layer outputs by applying a nonlinear operation to the batch normalization layer outputs.
청구항 1에 있어서,
상기 제1 컨볼루션 신경 네트워크 레이어는 수정된 제1 레이어 입력들을 생성하기 위해 상기 제1 컨볼루션 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 상기 제1 레이어 입력들에 컨볼루션을 적용하고 그 다음 상기 수정된 제1 레이어 입력들에 대해 비선형 동작을 적용함으로써 상기 제1 레이어 출력들을 생성하는 것을 특징으로 하는 이미지 분류 신경 네트워크 시스템.
The method according to claim 1,
The first convolutional neural network layer applies and applies convolution to the first layer inputs according to current values of the set of parameters for the first convolutional neural network layer to generate modified first layer inputs. And generate the first layer outputs by applying a non-linear operation to the modified first layer inputs.
청구항 1에 있어서,
상기 신경 네트워크의 트레이닝 동안에, 상기 신경 네트워크 시스템은 상기 신경 네트워크의 파라미터들의 값을 조절하는 것의 일부로서 상기 정규화 통계를 역전파하도록 구성되는 것을 특징으로 하는 이미지 분류 신경 네트워크 시스템.
The method according to claim 1,
During training of the neural network, the neural network system is configured to back propagate the normalization statistics as part of adjusting the values of the parameters of the neural network.
명령어들을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 명령어들을 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 이미지들을 분류하기 위한 이미지 분류 신경 네트워크 시스템을 구현하게 하며, 상기 이미지 분류 신경 네트워크 시스템은:
이미지 또는 상기 이미지의 이미지 구성(image feature)들을 포함하는 네트워크 입력을 수신하고, 오브젝트 카테고리들의 세트에서 각 오브젝트 카테고리에 대한 각각의 점수들을 포함하는 네트워크 출력을 생성하도록 구성된 컨벌루션 신경 네트워크를 포함하며, 상기 각 오브젝트 카테고리에 대한 점수는 상기 이미지가 상기 오브젝트 카테고리에 속하는 오브젝트의 이미지를 포함할 가능성을 표현하며, 상기 컨볼루션 신경 네트워크는:
복수의 신경 네트워크 레이어들, 상기 복수의 신경 네트워크 레이어들은 제1 컨볼루션 신경 네트워크 레이어 및 제2 신경 네트워크 레이어를 포함하며; 그리고
상기 제1 컨볼루션 신경 네트워크 레이어와 상기 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 포함하며, 상기 제1 컨볼루션 신경 네트워크 레이어는 피처 인덱스(feature index) 및 공간 위치 인덱스에 의해 인덱싱되는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 배치 정규화 레이어는 트레이닝 예시들의 배치에서 상기 컨볼루션 신경 네트워크 시스템의 트레이닝 동안에:
상기 배치에서 각 트레이닝 예시에 대해 각각의 제1 레이어 출력을 수신하고;
상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하고, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연한하는 것은, 상기 피처 인덱스들 각각에 대해:
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균(mean)을 연산하는 것; 및
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산(variance)을 연산하는 것을 포함하며;
상기 배치에서 각 트레이닝 예시에 대해 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하고;
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들 각각에 대해 각각의 배치 정규화 레이어 출력을 생성하고; 그리고
상기 배치 정규화 레이어 출력들을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하도록 구성되는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
One or more non-transitory computer readable storage medium for storing instructions, wherein when the instructions are executed by one or more computers, the one or more computers implement an image classification neural network system for classifying images, Image classification neural network system is:
A convolutional neural network configured to receive a network input comprising an image or image features of the image and to generate a network output comprising respective scores for each object category in the set of object categories; The score for each object category represents the likelihood that the image includes an image of an object belonging to the object category, wherein the convolutional neural network is:
A plurality of neural network layers, the plurality of neural network layers comprising a first convolutional neural network layer and a second neural network layer; And
And a batch normalization layer between the first convolutional neural network layer and the second neural network layer, wherein the first convolutional neural network layer is characterized by a feature index and a spatial location index. Generating first layer outputs having a plurality of components that are indexed, the batch normalization layer during training of the convolutional neural network system in a batch of training examples:
Receive a respective first layer output for each training example in the batch;
Computing a plurality of normalization statistics for the batch from the first layer outputs, and pausing the plurality of normalization statistics for the first layer outputs, for each of the feature indices:
Calculating a mean of components of the first layer outputs corresponding to the feature index; And
Computing a variance of components of the first layer outputs corresponding to the feature index;
Normalize each component of each first layer output using the normalization statistics to generate respective normalized layer outputs for each training example in the batch;
Generate a respective batch normalization layer output for each of the training examples from the normalized layer outputs; And
And provide the batch normalization layer outputs as input to the second neural network layer.
청구항 9에 있어서,
각 레이어 출력의 각 컴포넌트를 정규화하는 것은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균과 상기 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
The method according to claim 9,
Normalizing each component of each layer output is:
And normalizing the component using the average and the variance with respect to the feature index corresponding to the component.
청구항 9에 있어서,
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들 각각에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 것은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 각 컴포넌트를 변환(transform)하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
The method according to claim 9,
Generating the respective batch normalization layer output for each of the training examples from the normalized layer outputs:
And transforming each component of the normalized layer output according to current values of the set of parameters for the feature index corresponding to the component.
청구항 11에 있어서,
상기 배치 정규화 레이어는 상기 피처 인덱스들 각각에 대해 상기 파라미터들의 트레이닝된 값들을 결정하기 위해 상기 신경 네트워크가 트레이닝된 후에:
새로운 신경 네트워크 입력으로부터 생성된 새로운 제1 레이어 입력을 수신하고;
새로운 정규화된 레이어 출력을 생성하기 위해 상기 피처 인덱스들에 대한 미리 연산된 평균 및 표준편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 각 컴포넌트를 정규화하고;
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 파라미터들의 세트의 트레이닝된 값들에 따라 상기 정규화된 레이어 출력의 각 컴포넌트를 변환함으로써 새로운 배치 정규화 레이어를 생성하고; 그리고
상기 새로운 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하도록 구성되는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
The method according to claim 11,
After the batch normalization layer is trained to determine the trained values of the parameters for each of the feature indices:
Receive a new first layer input generated from the new neural network input;
Normalize each component of the new first layer output using precomputed mean and standard deviation statistics for the feature indices to produce a new normalized layer output;
Generate a new batch normalization layer by transforming each component of the normalized layer output according to the trained values of the set of parameters for the feature index corresponding to the component; And
And provide the new batch normalization layer output as a new layer input for the second neural network layer.
청구항 9에 있어서,
상기 제1 컨볼루션 신경 네트워크 레이어는 상기 제1 컨볼루션 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 상기 제1 레이어 입력들에 컨볼루션을 적용함으로써 상기 제1 레이어 출력들을 생성하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
The method according to claim 9,
Wherein the first convolutional neural network layer generates the first layer outputs by applying convolution to the first layer inputs according to current values of a set of parameters for the first convolutional neural network layer. Computer readable storage media.
청구항 13에 있어서,
상기 제2 신경 네트워크 레이어는 상기 배치 정규화 레이어 출력들에 비선형 동작을 적용함으로써 제2 레이어 출력들을 생성하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
The method according to claim 13,
And the second neural network layer generates second layer outputs by applying a nonlinear operation to the batch normalization layer outputs.
청구항 9에 있어서,
상기 제1 컨볼루션 신경 네트워크 레이어는 수정된 제1 레이어 입력들을 생성하기 위해 상기 제1 컨볼루션 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 상기 제1 레이어 입력들에 컨볼루션을 적용하고 그 다음 상기 수정된 제1 레이어 입력들에 대해 비선형 동작을 적용함으로써 상기 제1 레이어 출력들을 생성하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
The method according to claim 9,
The first convolutional neural network layer applies and applies convolution to the first layer inputs according to current values of the set of parameters for the first convolutional neural network layer to generate modified first layer inputs. And generating the first layer outputs by applying a non-linear operation to the modified first layer inputs.
청구항 9에 있어서,
상기 신경 네트워크의 트레이닝 동안에, 상기 신경 네트워크 시스템은 상기 신경 네트워크의 파라미터들의 값을 조절하는 것의 일부로서 상기 정규화 통계를 역전파하도록 구성되는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
The method according to claim 9,
During training of the neural network, the neural network system is configured to back propagate the normalization statistics as part of adjusting the values of the parameters of the neural network.
하나 이상의 컴퓨터들에 의해 수행되는 방법으로서,
이미지 분류 신경 네트워크의 트레이닝 동안에, 이미지 또는 상기 이미지의 이미지 구성을 포함하는 네트워크 입력을 수신하는 단계; 및
오브젝트 카테고리들의 세트에서 각 오브젝트 카테고리에 대한 각각의 점수들을 포함하는 네트워크 출력을 생성하기 위해 상기 이미지 분류 신경 네트워크를 사용하여 상기 네트워크 입력을 프로세싱하는 단계를 포함하며, 상기 각 오브젝트 카테고리에 대한 점수는 상기 이미지가 상기 오브젝트 카테고리에 속하는 오브젝트의 이미지를 포함할 가능성을 표현하며, 상기 컨볼루션 신경 네트워크는:
복수의 신경 네트워크 레이어들, 상기 복수의 신경 네트워크 레이어들은 제1 컨볼루션 신경 네트워크 레이어 및 제2 신경 네트워크 레이어를 포함하며; 그리고
상기 제1 컨볼루션 신경 네트워크 레이어와 상기 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 포함하며, 상기 제1 컨볼루션 신경 네트워크 레이어는 피처 인덱스(feature index) 및 공간 위치 인덱스에 의해 인덱싱되는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 배치 정규화 레이어는 트레이닝 예시들의 배치에서 상기 컨볼루션 신경 네트워크 시스템의 트레이닝 동안에:
상기 배치에서 각 트레이닝 예시에 대해 각각의 제1 레이어 출력을 수신하고;
상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하고, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연한하는 것은, 상기 피처 인덱스들 각각에 대해:
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균(mean)을 연산하는 것; 및
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산(variance)을 연산하는 것을 포함하며;
상기 배치에서 각 트레이닝 예시에 대해 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하고;
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들 각각에 대해 각각의 배치 정규화 레이어 출력을 생성하고; 그리고
상기 배치 정규화 레이어 출력들을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하도록 구성되는 것을 특징으로 하는 방법.
A method performed by one or more computers,
During training of an image classification neural network, receiving a network input comprising an image or an image configuration of the image; And
Processing the network input using the image classification neural network to generate a network output including respective scores for each object category in the set of object categories, wherein the score for each object category is Representing the likelihood that an image includes an image of an object belonging to the object category, the convolutional neural network:
A plurality of neural network layers, the plurality of neural network layers comprising a first convolutional neural network layer and a second neural network layer; And
And a batch normalization layer between the first convolutional neural network layer and the second neural network layer, wherein the first convolutional neural network layer is characterized by a feature index and a spatial location index. Generating first layer outputs having a plurality of components that are indexed, the batch normalization layer during training of the convolutional neural network system in a batch of training examples:
Receive a respective first layer output for each training example in the batch;
Computing a plurality of normalization statistics for the batch from the first layer outputs, and pausing the plurality of normalization statistics for the first layer outputs, for each of the feature indices:
Calculating a mean of components of the first layer outputs corresponding to the feature index; And
Computing a variance of components of the first layer outputs corresponding to the feature index;
Normalize each component of each first layer output using the normalization statistics to generate respective normalized layer outputs for each training example in the batch;
Generate a respective batch normalization layer output for each of the training examples from the normalized layer outputs; And
And provide the batch normalization layer outputs as input to the second neural network layer.
청구항 17에 있어서,
각 레이어 출력의 각 컴포넌트를 정규화하는 것은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균과 상기 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 방법.
The method according to claim 17,
Normalizing each component of each layer output is:
And normalizing the component using the mean and the variance with respect to the feature index corresponding to the component.
청구항 17에 있어서,
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들 각각에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 것은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 각 컴포넌트를 변환(transform)하는 것을 포함하는 것을 특징으로 하는 방법.
The method according to claim 17,
Generating the respective batch normalization layer output for each of the training examples from the normalized layer outputs:
Transforming each component of the normalized layer output according to current values of the set of parameters for the feature index corresponding to the component.
청구항 19에 있어서,
상기 배치 정규화 레이어는 상기 피처 인덱스들 각각에 대해 상기 파라미터들의 트레이닝된 값들을 결정하기 위해 상기 신경 네트워크가 트레이닝된 후에:
새로운 신경 네트워크 입력으로부터 생성된 새로운 제1 레이어 입력을 수신하고;
새로운 정규화된 레이어 출력을 생성하기 위해 상기 피처 인덱스들에 대한 미리 연산된 평균 및 표준편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 각 컴포넌트를 정규화하고;
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 파라미터들의 세트의 트레이닝된 값들에 따라 상기 정규화된 레이어 출력의 각 컴포넌트를 변환함으로써 새로운 배치 정규화 레이어를 생성하고; 그리고
상기 새로운 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하도록 구성되는 것을 특징으로 하는 방법.
The method according to claim 19,
After the batch normalization layer is trained to determine the trained values of the parameters for each of the feature indices:
Receive a new first layer input generated from the new neural network input;
Normalize each component of the new first layer output using precomputed mean and standard deviation statistics for the feature indices to produce a new normalized layer output;
Generate a new batch normalization layer by transforming each component of the normalized layer output according to the trained values of the set of parameters for the feature index corresponding to the component; And
And provide the new batch normalization layer output as a new layer input for the second neural network layer.
KR1020197036115A 2015-01-28 2016-01-28 Batch normalization layers KR102204286B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562108984P 2015-01-28 2015-01-28
US62/108,984 2015-01-28
PCT/US2016/015476 WO2016123409A1 (en) 2015-01-28 2016-01-28 Batch normalization layers

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020177023719A Division KR102055355B1 (en) 2015-01-28 2016-01-28 Batch normalization layers

Publications (2)

Publication Number Publication Date
KR20190138712A true KR20190138712A (en) 2019-12-13
KR102204286B1 KR102204286B1 (en) 2021-01-18

Family

ID=55349983

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020197036115A KR102204286B1 (en) 2015-01-28 2016-01-28 Batch normalization layers
KR1020177023719A KR102055355B1 (en) 2015-01-28 2016-01-28 Batch normalization layers

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020177023719A KR102055355B1 (en) 2015-01-28 2016-01-28 Batch normalization layers

Country Status (17)

Country Link
US (8) US10417562B2 (en)
EP (3) EP3483795B1 (en)
JP (5) JP6453477B2 (en)
KR (2) KR102204286B1 (en)
CN (1) CN107278310A (en)
AU (5) AU2016211333B2 (en)
CA (1) CA2975251C (en)
DE (1) DE112016000509T5 (en)
DK (1) DK3251059T3 (en)
ES (1) ES2714152T3 (en)
IL (1) IL253676A0 (en)
MX (1) MX2017009879A (en)
PL (1) PL3251059T3 (en)
RU (1) RU2666308C1 (en)
SG (1) SG11201706127RA (en)
TR (1) TR201902908T4 (en)
WO (1) WO2016123409A1 (en)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2714152T3 (en) 2015-01-28 2019-05-27 Google Llc Batch Normalization Layers
US10614339B2 (en) * 2015-07-29 2020-04-07 Nokia Technologies Oy Object detection with neural network
WO2018039269A1 (en) 2016-08-22 2018-03-01 Magic Leap, Inc. Augmented reality display device with deep learning sensors
KR102300614B1 (en) * 2017-02-10 2021-09-09 구글 엘엘씨 Batch Renormalization Layer
US10255681B2 (en) * 2017-03-02 2019-04-09 Adobe Inc. Image matting using deep learning
US11308391B2 (en) * 2017-03-06 2022-04-19 Baidu Usa Llc Offline combination of convolutional/deconvolutional and batch-norm layers of convolutional neural network models for autonomous driving vehicles
JP7070541B2 (en) * 2017-03-06 2022-05-18 ソニーグループ株式会社 Information processing equipment
EP3602419B1 (en) * 2017-04-28 2023-09-20 Google LLC Neural network optimizer search
CN109034384B (en) * 2017-06-12 2021-06-22 浙江宇视科技有限公司 Data processing method and device
US10635813B2 (en) 2017-10-06 2020-04-28 Sophos Limited Methods and apparatus for using machine learning on multiple file fragments to identify malware
US11586905B2 (en) * 2017-10-11 2023-02-21 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for customizing kernel machines with deep neural networks
CN111373416B (en) * 2017-10-27 2024-01-23 谷歌有限责任公司 Enhancing neural network security through discrete neural network input
WO2019123544A1 (en) * 2017-12-19 2019-06-27 オリンパス株式会社 Data processing method and data processing device
CN108009634B (en) * 2017-12-21 2021-05-25 美的集团股份有限公司 Method and device for optimizing convolutional neural network and computer storage medium
EP3511872A1 (en) 2018-01-12 2019-07-17 Sony Corporation Artificial neural network
WO2019145912A1 (en) 2018-01-26 2019-08-01 Sophos Limited Methods and apparatus for detection of malicious documents using machine learning
US11941491B2 (en) 2018-01-31 2024-03-26 Sophos Limited Methods and apparatus for identifying an impact of a portion of a file on machine learning classification of malicious content
WO2019149375A1 (en) * 2018-02-02 2019-08-08 Toyota Motor Europe Method and system for processing input data and propagating variance in a neural network
WO2019149376A1 (en) 2018-02-02 2019-08-08 Toyota Motor Europe Method and system for processing input data using a neural network and normalizations
US20190251429A1 (en) * 2018-02-12 2019-08-15 Kneron, Inc. Convolution operation device and method of scaling convolution input for convolution neural network
CN108875787B (en) 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 Image recognition method and device, computer equipment and storage medium
CN108921283A (en) * 2018-06-13 2018-11-30 深圳市商汤科技有限公司 Method for normalizing and device, equipment, the storage medium of deep neural network
EP3841528A1 (en) * 2018-09-27 2021-06-30 Google LLC Data compression using integer neural networks
US11947668B2 (en) * 2018-10-12 2024-04-02 Sophos Limited Methods and apparatus for preserving information between layers within a neural network
KR20200051278A (en) 2018-11-05 2020-05-13 삼성전자주식회사 Method of managing task in artificial neural network and system comprising the same
US11687761B2 (en) * 2018-12-11 2023-06-27 Amazon Technologies, Inc. Improper neural network input detection and handling
US10789510B2 (en) * 2019-01-11 2020-09-29 Google Llc Dynamic minibatch sizes
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US11574052B2 (en) 2019-01-31 2023-02-07 Sophos Limited Methods and apparatus for using machine learning to detect potentially malicious obfuscated scripts
JP2020135011A (en) 2019-02-13 2020-08-31 キオクシア株式会社 Information processing device and method
CN109886392B (en) * 2019-02-25 2021-04-27 深圳市商汤科技有限公司 Data processing method and device, electronic equipment and storage medium
KR102046113B1 (en) 2019-03-19 2019-11-18 주식회사 루닛 Machine-learning method for neural network and apparatus thereof
KR102046133B1 (en) * 2019-03-20 2019-11-18 주식회사 루닛 Method for feature data recalibration and apparatus thereof
DE102019204136A1 (en) * 2019-03-26 2020-10-01 Robert Bosch Gmbh Method and device for training and producing an artificial neural network
KR102037483B1 (en) 2019-04-02 2019-11-15 주식회사 루닛 Method for normalizing neural network data and apparatus thereof
TWI706337B (en) * 2019-05-02 2020-10-01 旺宏電子股份有限公司 Memory device and operation method thereof
US11361218B2 (en) * 2019-05-31 2022-06-14 International Business Machines Corporation Noise and signal management for RPU array
CN111967570B (en) * 2019-07-01 2024-04-05 北京砥脊科技有限公司 Implementation method, device and machine equipment of visual neural network system
KR102461732B1 (en) * 2019-07-16 2022-11-01 한국전자통신연구원 Method and apparatus for reinforcement machine learning
KR20190098106A (en) 2019-08-02 2019-08-21 엘지전자 주식회사 Batch normalization layer training method
CN110598852A (en) * 2019-08-29 2019-12-20 北京小米移动软件有限公司 Sub-network sampling method, and method and device for constructing super-network topology structure
DE102019213898A1 (en) * 2019-09-11 2021-03-11 Robert Bosch Gmbh Robust and more trainable artificial neural network
US11568259B2 (en) * 2019-10-15 2023-01-31 Zoox, Inc. Cross batch normalization
KR102127913B1 (en) 2019-10-29 2020-06-29 주식회사 루닛 Method for Training Neural Network and Device Thereof
US11868855B2 (en) * 2019-11-04 2024-01-09 Hewlett Packard Enterprise Development Lp Resiliency for machine learning workloads
KR102143192B1 (en) 2019-11-12 2020-08-10 주식회사 루닛 Machine-learning method for neural network and apparatus thereof
KR102143191B1 (en) * 2019-11-12 2020-08-10 주식회사 루닛 Method for feature data recalibration and apparatus thereof
CN111144556B (en) * 2019-12-31 2023-07-07 中国人民解放军国防科技大学 Hardware circuit of range batch normalization algorithm for deep neural network training and reasoning
US11610303B2 (en) 2020-03-03 2023-03-21 The University Court Of The University Of Edinburgh Data processing apparatus and method
JP7297705B2 (en) 2020-03-18 2023-06-26 株式会社東芝 Processing device, processing method, learning device and program
US11915419B1 (en) 2020-06-25 2024-02-27 Verily Life Sciences Llc Auto-normalization for machine learning
EP4193304A4 (en) * 2020-09-08 2023-07-26 Huawei Technologies Co., Ltd. Normalization in deep convolutional neural networks
KR102441442B1 (en) * 2021-01-11 2022-09-08 성균관대학교산학협력단 Method and apparatus for learning graph convolutional network
WO2022259566A1 (en) 2021-06-09 2022-12-15 コニカミノルタ株式会社 Neural network system
US20230119791A1 (en) * 2021-10-04 2023-04-20 Qualcomm Incorporated Relaxed instance frequency normalization for neural-network-based audio processing
WO2023085852A1 (en) * 2021-11-11 2023-05-19 서울대학교산학협력단 Deep neural network training device and method for executing statistical regularization

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479576A (en) * 1992-01-30 1995-12-26 Ricoh Company, Ltd. Neural network learning system inferring an input-output relationship from a set of given input and output samples
US6650779B2 (en) * 1999-03-26 2003-11-18 Georgia Tech Research Corp. Method and apparatus for analyzing an image to detect and identify patterns
JP2013069132A (en) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd Image processing device and image processing program

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0471857B1 (en) 1990-03-12 2000-02-02 Fujitsu Limited Neuro-fuzzy integrated data processing system; network structure conversion system ; fuzzy model extracting system
JPH0785280B2 (en) * 1992-08-04 1995-09-13 タカタ株式会社 Collision prediction judgment system by neural network
US5729662A (en) * 1995-06-07 1998-03-17 Rozmus; J. Michael Neural network for classification of patterns with improved method and apparatus for ordering vectors
US5790758A (en) * 1995-07-07 1998-08-04 The United States Of America As Represented By The Secretary Of The Navy Neural network architecture for gaussian components of a mixture density function
US6134537A (en) * 1995-09-29 2000-10-17 Ai Ware, Inc. Visualization and self organization of multidimensional data through equalized orthogonal mapping
US6539267B1 (en) * 1996-03-28 2003-03-25 Rosemount Inc. Device in a process system for determining statistical parameter
US6418378B1 (en) * 2000-06-26 2002-07-09 Westerngeco, L.L.C. Neural net prediction of seismic streamer shape
CN1470022A (en) * 2000-11-30 2004-01-21 Neural cortex
US7107207B2 (en) * 2002-06-19 2006-09-12 Microsoft Corporation Training machine learning by sequential conditional generalized iterative scaling
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US7496546B2 (en) 2003-03-24 2009-02-24 Riken Interconnecting neural network system, interconnecting neural network structure construction method, self-organizing neural network structure construction method, and construction programs therefor
US7219085B2 (en) * 2003-12-09 2007-05-15 Microsoft Corporation System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit
JP2005352900A (en) 2004-06-11 2005-12-22 Canon Inc Device and method for information processing, and device and method for pattern recognition
US7747070B2 (en) * 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
CN100367300C (en) * 2006-07-07 2008-02-06 华中科技大学 Characteristic selecting method based on artificial nerve network
US7606777B2 (en) 2006-09-01 2009-10-20 Massachusetts Institute Of Technology High-performance vision system exploiting key features of visual cortex
EP2345984B1 (en) 2010-01-19 2012-03-14 Honda Research Institute Europe GmbH Online learning of grounded categories using adaptive feature spaces
US10127475B1 (en) 2013-05-31 2018-11-13 Google Llc Classifying images
US9892238B2 (en) 2013-06-07 2018-02-13 Scientific Design Company, Inc. System and method for monitoring a process
CN103824055B (en) * 2014-02-17 2018-03-02 北京旷视科技有限公司 A kind of face identification method based on cascade neural network
US9058517B1 (en) 2014-04-16 2015-06-16 I.R.I.S. Pattern recognition system and method using Gabor functions
EP3029606A3 (en) 2014-11-14 2016-09-14 Thomson Licensing Method and apparatus for image classification with joint feature adaptation and classifier learning
ES2714152T3 (en) 2015-01-28 2019-05-27 Google Llc Batch Normalization Layers
US11151449B2 (en) * 2018-01-24 2021-10-19 International Business Machines Corporation Adaptation of a trained neural network
KR102046113B1 (en) * 2019-03-19 2019-11-18 주식회사 루닛 Machine-learning method for neural network and apparatus thereof
US11367163B2 (en) * 2019-05-31 2022-06-21 Apple Inc. Enhanced image processing techniques for deep neural networks
US11568259B2 (en) * 2019-10-15 2023-01-31 Zoox, Inc. Cross batch normalization
US20210150306A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Phase selective convolution with dynamic weight selection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479576A (en) * 1992-01-30 1995-12-26 Ricoh Company, Ltd. Neural network learning system inferring an input-output relationship from a set of given input and output samples
US6650779B2 (en) * 1999-03-26 2003-11-18 Georgia Tech Research Corp. Method and apparatus for analyzing an image to detect and identify patterns
JP2013069132A (en) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd Image processing device and image processing program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kavukcuoglu, Koray, et al. Learning convolutional feature hierarchies for visual recognition. Advances in neural information processing systems. 2010. *

Also Published As

Publication number Publication date
WO2016123409A1 (en) 2016-08-04
KR102204286B1 (en) 2021-01-18
BR112017016306A8 (en) 2018-08-14
US20220237462A1 (en) 2022-07-28
AU2023285952A1 (en) 2024-01-25
JP2020149719A (en) 2020-09-17
US11308394B2 (en) 2022-04-19
US11853885B2 (en) 2023-12-26
US11893485B2 (en) 2024-02-06
AU2019200309B2 (en) 2020-07-09
AU2020250312B2 (en) 2021-12-16
KR102055355B1 (en) 2019-12-12
US20210224653A1 (en) 2021-07-22
AU2016211333B2 (en) 2018-11-15
AU2022201819A1 (en) 2022-04-07
AU2020250312A1 (en) 2020-11-12
RU2666308C1 (en) 2018-09-06
JP6453477B2 (en) 2019-01-16
EP3251059A1 (en) 2017-12-06
EP3872716A1 (en) 2021-09-01
JP7179935B2 (en) 2022-11-29
EP3483795B1 (en) 2021-03-10
EP3251059B1 (en) 2018-12-05
US20210357756A1 (en) 2021-11-18
TR201902908T4 (en) 2019-03-21
KR20170108081A (en) 2017-09-26
JP6935542B2 (en) 2021-09-15
SG11201706127RA (en) 2017-08-30
US20210216870A1 (en) 2021-07-15
JP2018508879A (en) 2018-03-29
CN107278310A (en) 2017-10-20
ES2714152T3 (en) 2019-05-27
DK3251059T3 (en) 2019-04-01
AU2022201819B2 (en) 2023-09-28
AU2016211333A1 (en) 2017-08-17
JP6710745B2 (en) 2020-06-17
PL3251059T3 (en) 2019-05-31
US10417562B2 (en) 2019-09-17
US20200012942A1 (en) 2020-01-09
MX2017009879A (en) 2018-05-28
US10628710B2 (en) 2020-04-21
CA2975251C (en) 2021-01-26
IL253676A0 (en) 2017-09-28
AU2019200309A1 (en) 2019-02-07
US10902319B2 (en) 2021-01-26
US20200234127A1 (en) 2020-07-23
US20160217368A1 (en) 2016-07-28
US11281973B2 (en) 2022-03-22
CA2975251A1 (en) 2016-08-04
US20200057924A1 (en) 2020-02-20
DE112016000509T5 (en) 2018-03-22
EP3483795A1 (en) 2019-05-15
JP2021192251A (en) 2021-12-16
JP2019071080A (en) 2019-05-09
BR112017016306A2 (en) 2018-07-10
JP2023029845A (en) 2023-03-07

Similar Documents

Publication Publication Date Title
KR102055355B1 (en) Batch normalization layers
US20160180151A1 (en) Generating numeric embeddings of images
US20210049298A1 (en) Privacy preserving machine learning model training
US20170154262A1 (en) Resizing neural networks

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant