CN110546611B - 通过跳过处理操作来减少神经网络处理器中的功耗 - Google Patents
通过跳过处理操作来减少神经网络处理器中的功耗 Download PDFInfo
- Publication number
- CN110546611B CN110546611B CN201880025480.3A CN201880025480A CN110546611B CN 110546611 B CN110546611 B CN 110546611B CN 201880025480 A CN201880025480 A CN 201880025480A CN 110546611 B CN110546611 B CN 110546611B
- Authority
- CN
- China
- Prior art keywords
- data
- buffer
- neural network
- neurons
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 109
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 83
- 210000002569 neuron Anatomy 0.000 claims abstract description 207
- 239000000872 buffer Substances 0.000 claims abstract description 195
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000004913 activation Effects 0.000 claims description 17
- 238000003860 storage Methods 0.000 description 26
- 238000001994 activation Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 230000001360 synchronised effect Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 239000004744 fabric Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1668—Details of memory controller
- G06F13/1673—Details of memory controller using buffers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/324—Power saving characterised by the action undertaken by lowering clock frequency
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/325—Power saving in peripheral device
- G06F1/3275—Power saving in memory, e.g. RAM, cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3287—Power saving characterised by the action undertaken by switching off individual functional units in the computer system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/0207—Addressing or allocation; Relocation with multidimensional access, e.g. row/column, matrix
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/0223—User address space allocation, e.g. contiguous or non contiguous base addressing
- G06F12/023—Free address space management
- G06F12/0238—Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/10—Address translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1668—Details of memory controller
- G06F13/1689—Synchronisation and timing concerns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/20—Handling requests for interconnection or transfer for access to input/output bus
- G06F13/28—Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/80—Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
- G06F15/8007—Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0631—Configuration or reconfiguration of storage systems by allocating resources to storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30076—Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
- G06F9/30087—Synchronisation or serialisation instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline, look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline, look ahead
- G06F9/3854—Instruction completion, e.g. retiring, committing or graduating
- G06F9/3858—Result writeback, i.e. updating the architectural state or memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline, look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units
- G06F9/3887—Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/466—Transaction processing
- G06F9/467—Transactional memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5033—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
- G06N3/065—Analogue means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3059—Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3066—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction by means of a mask or a bit-map
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3088—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6005—Decoder aspects
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6011—Encoder aspects
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6058—Saving memory space in the encoder or decoder
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/04—Interdomain routing, e.g. hierarchical routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/484—Precedence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/485—Resource constraint
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6026—Prefetching based on access pattern detection, e.g. stride based prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/65—Details of virtual memory and virtual address translation
- G06F2212/657—Virtual address space management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/46—Conversion to or from run-length codes, i.e. by representing the number of consecutive digits, or groups of digits, of the same kind by a code word and a digit indicative of that kind
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/50—Routing or path finding of packets in data switching networks using label swapping, e.g. multi-protocol label switch [MPLS]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Abstract
深度神经网络(“DNN”)模块可以确定由神经元对输入缓冲区或权重缓冲区中的某些值的处理是否可以被跳过。例如,DNN模块可以确定神经元是否可以跳过对神经元缓冲区的整个列中的值的处理。例如,如果输入缓冲区或权重缓冲区的整个列为零,则可以跳过对这些值的处理。DNN模块还可以确定对输入缓冲区或权重缓冲区的行中的单个值的处理(例如,如果这些值为零)是否可以被跳过。由于跳过操作而提早完成其处理的神经元可以协助其他神经元进行其处理。可以在将由神经元执行的处理操作的结果传递给其正确所有者的处理完成之后执行组合操作。
Description
背景技术
在诸如人脑等生物神经系统中的信息处理和通信模式之后,对深度神经网络(“DNN”)进行松散建模。DNN可以用于解决复杂的分类问题,诸如但不限于对象检测、语义标记和特征提取。结果,DNN形成了很多人工智能(“AI”)应用的基础,诸如计算机视觉、语音识别和机器翻译。在这些领域中的很多领域,DNN都可以匹配或超过人类的准确性。
DNN的高级性能源于它们在对大数据集使用统计学习以获取输入空间的有效表示之后从输入数据中提取高级特征的能力。然而,DNN的优越性能是以高计算复杂度为代价的。诸如图形处理单元(“GPU”)等高性能通用处理器通常用于提供由很多DNN应用所需要的高水平计算性能。
尽管如GPU的通用处理器可以为实现DNN提供高水平的计算性能,但是这些类型的处理器通常不适合在低功耗至关重要的计算设备中长时间执行DNN操作。例如,诸如GPU等通用处理器可能不适合在如智能电话或替代/虚拟现实(AR/VR)设备等需要降低的功耗以延长电池寿命的电池供电的便携式设备中执行长时间运行的DNN任务。
在执行诸如人体移动的检测等连续DNN任务的同时降低功耗,在诸如以太网供电(“POE”)安全相机等非电池供电的设备中也很重要。在该特定示例中,POE交换机可能仅提供有限的电量,并且减少如安全相机等POE设备的功耗允许使用提供更少功率的POE交换机。
与通用处理器相比,已经开发出可以在降低功耗的同时提供高性能DNN处理的专用集成电路(“ASIC”)。尽管该领域取得了进步,然而仍然需要提高执行DNN处理的ASIC的性能并且降低其功耗,尤其对于在低功耗至关重要的计算设备中的使用。
关于这些和其他技术挑战,提出了本文中进行的公开内容。
发明内容
本文中公开了一种神经网络模块或处理器,其可以通过跳过某些类型的神经网络处理操作的执行来提高吞吐量并且降低功耗。更具体地,本文中公开的神经网络模块可以在某些条件下跳过对输入数据和权重数据或其他类型的数据执行的算术运算,从而与先前的硬件神经网络处理器相比提高吞吐量并且节省功率。还可以通过所公开的技术方案的实现来实现本文中未具体提及的其他技术益处。
为了实现上面简要提到的技术益处,提供了一种DNN模块,其包括神经元和神经元缓冲区。神经元缓冲区存储输入缓冲区和权重缓冲区,输入缓冲区包含到神经网络的输入数据,并且权重缓冲区存储限定神经网络的方面的权重。输入缓冲区中的输入数据和权重缓冲区中的权重数据可以被组织成对应的行和列。在不同实施例中,输入缓冲区和权重缓冲区可以以不同方式用硬件来实现。
在一个实施例中,DNN模块提供用于全列操作跳过的功能。在该实施例中,DNN模块中的神经元同步操作。输入缓冲区和权重缓冲区中的每列数据是将在单个时钟周期内被馈送到所有神经元的数据。行包括被提供给每个神经元的数据。输入缓冲区的列和权重缓冲区的列相匹配。也就是说,如果跳过对输入缓冲区的列的处理,则也跳过对权重缓冲区的对应列的处理,反之亦然。
为了执行按列操作跳过,DNN模块可以确定输入缓冲区的整个列或权重缓冲区的整个列中的值是否是特定值或在值的范围内。例如,在一个特定实施例中,DNN模块中的组分区器和调度器确定输入缓冲区的整个列中的所有值是否均为零。例如,这可以在卷积运算期间发生,其中零输入值或权重值将导致被浪费的处理周期。
如果输入缓冲区的任一列中的值均为零,则可以跳过原本将由DNN模块的神经元对该列(和权重缓冲区的对应列)执行的处理操作。类似地,DNN模块可以确定权重缓冲区的整个列中的所有值是否均为零(或另一预定值或在值的范围内)。如果权重缓冲区的任一列中的值均为零,则可以跳过原本将由神经元对该列(和输入缓冲区的对应列)执行的处理操作,从而提高吞吐量并且降低功耗。
在一些实施例中,DNN模块可以确定输入缓冲区的整个列或权重缓冲区的整个列中的所有值是否均是接近零的特定值、在指定值的范围内,或者均是高于或低于指定阈值的值。如果是这样,则DNN模块可以使得神经元跳过对整个列的值的处理。在其他配置中,将使得神经元跳过对数据列的处理的特定值可以以其他方式定义。
在另一实施例中,DNN模块提供用于异步神经元处理和操作跳过的功能。在该实施例中,神经元异步地执行其处理,从而使得神经元能够比在上述实施例中的每列基础上更细粒度地跳过处理操作。确切地说,在该实施例中,组分区器和调度器可以确定输入缓冲区或权重缓冲区的行中的单个值是否包括特定值(例如,零、接近零的值或值范围内的值)。如果输入缓冲区或权重缓冲区的行中的单个值包括该值,则负责神经元可以跳过对两个缓冲区中该值的处理。
在另一实施例中,DNN模块提供用于异步神经元处理、操作跳过和协同神经元处理的功能。在该实施例中,由于以上述方式跳过操作而提早完成其处理的神经元可以辅助其他神经元进行其处理。例如而非限制,跳过两个操作的神经元将提早两个周期完成其处理。结果,该神经元可以投入两个周期来代表其他神经元执行处理操作。
在该实施例中,在使用边带求和将由神经元执行的处理操作的结果传递给其正确的所有者的处理完成之后执行组合操作。在一个实施例中,这是通过将累加器配置为从神经元组中的所有神经元可访问的共享存储器的一部分来实现的。在该实施例中,在该周期的最后,对部分结果执行按行求和以获取针对每行的最终输出值。在其他的一些实施例中,可以执行其他类型的组合操作,诸如最大池化。
如以上简要讨论的,本文中公开的技术在DNN处理器中的实现可以跳过某些类型的处理操作,从而与先前的解决方案相比产生更高的吞吐量并且更低的功耗。例如,所公开的技术的实现可以跳过涉及权重数据和其他类型的数据(诸如但不限于权重数据)的处理操作。还可以通过所公开的技术的实现来实现本文中未具体确定的其他技术益处。
应当理解,上述技术方案可以被实现为计算机控制的装置、计算机实现的方法、计算设备或诸如计算机可读介质等制品。通过阅读以下“具体实施方式”并且查看相关联的附图,这些和各种其他特征将变得很清楚。
提供本发明内容以便以简化的形式介绍下面在具体实施方式中进一步描述的所公开的技术的一些方面。本发明内容既不旨在标识所要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求保护的技术方案的范围。此外,所要求保护的技术方案不限于能够解决在本公开的任何部分中指出的任何或所有缺点的实现。
附图说明
图1是示出根据一个实施例的实现本文中公开的技术的方面的DNN模块的配置和操作的方面的计算架构图;
图2是示出根据一个实施例的在DNN模块中利用的神经元缓冲区、组分区器和调度器、组调度器以及累加器缓冲区的配置和操作的各方面的计算架构图;
图3是示出根据一个实施例的本文中所公开的提供全列操作跳过的一个实施例中的说明性神经元缓冲区的方面的数据结构图;
图4是示出根据一个实施例的本文中所公开的一个实施例中的说明性神经元缓冲区的方面的数据结构图,其中DNN模块提供异步神经元处理和操作跳过;
图5是示出根据一个实施例的本文中所公开的一个实施例中的说明性神经元缓冲区的方面的数据结构图,其中DNN模块提供异步神经元处理、操作跳过和协同神经元处理;
图6A-图6C是示出根据本文中公开的一个实施例的若干例程的流程图,这些例程图示了参考图1-图5描述的用于同步和异步操作跳过的DNN模块的操作的方面;
图7是示出根据一个实施例的可以用作本文中公开的DNN模块的应用主机的计算设备的说明性计算机硬件和软件架构的计算机架构图;以及
图8是示出根据本文中呈现的各种实施例的可以在其中实现所公开的技术的方面的分布式计算环境的网络图。
具体实施方式
以下详细描述涉及一种神经网络模块或处理器,其可以通过跳过某些类型的处理操作来降低功耗。特别地,所公开的技术使得神经网络处理器能够跳过对输入数据和权重数据执行的某些类型的算术运算,从而提高吞吐量并且节省功率。还可以通过所公开的技术方案的实现来实现本文中未具体提及的其他技术益处。
虽然本文中描述的技术方案是在硬件DNN模块的一般上下文中介绍的,但是本领域技术人员将认识到,可以结合其他类型的计算系统和模块来执行其他实现。本领域技术人员还将认识到,本文中描述的技术方案可以与其他计算机系统配置一起实践,包括手持式设备、多处理器系统、基于微处理器的或可编程的消费电子产品、嵌入在设备(诸如可穿戴计算设备、汽车、家庭自动化等)中的计算或处理系统、小型计算机、大型计算机等。
在下面的详细描述中,参考形成其一部分并且通过说明的方式示出了具体的配置或示例的附图。现在参考附图,其中贯穿若干附图,相同的数字表示相同的元素,将描述可以通过跳过某些类型的处理操作来降低功耗的神经网络模块或处理器的方面。
图1是示出根据一个实施例的实现本文中公开的技术的深度神经网络(“DNN”)模块105的配置和操作的方面的计算架构图。在一些实施例中,本文中公开的DNN模块105被配置为解决分类问题(和相关问题),诸如但不限于对象检测、语义标记和特征提取。
为了提供该功能,DNN模块105可以实现仅召回神经网络,并且以编程方式支持多种网络结构。由DNN模块105实现的网络的训练可以在服务器场、数据中心或其他合适的计算环境中脱机执行。训练DNN的结果是被称为“权重”或“内核”的一组参数。这些参数表示可以应用于输入的转换函数,其结果是分类或语义标记输出。
本文中公开的DNN模块105可以被认为是超标量处理器。DNN模块105可以将一个或多个指令分派给多个执行单元(称为神经元105F。执行单元可以是“同时分派同时完成”,其中每个执行单元与其他执行单元中的每一个同步。DNN模块105可以被分类为单指令流多数据流(“SIMD”)架构。
DNN模块105包括多个神经元105F(例如,二的幂)。神经元105F是人工神经网络中用于对大脑中的生物神经元进行建模的基本单元。神经元105F的模型可以包括输入矢量的内积,其中权重矢量被添加到偏置,并且应用了非线性。由本文中描述的DNN模块105中的神经元105F执行的处理被紧密地映射到人工神经元。
DNN模块105中的每个神经元105F能够执行加权和、最大池化、旁路和潜在的其他类型的操作。神经元105F在每个时钟周期处理输入和权重数据。就内核内的进度而言,每个神经元105F与所有其他神经元105F同步,以最小化DNN模块105内的内核数据流。
每个神经元105F可以包含乘法器、加法器、比较器和多个累加器(图1中未示出)。通过具有多个累加器,神经元105F能够一次为多个不同的活动内核保持上下文。每个累加器能够从对BaSRAM150(如下所述)的读取来加载。累加器可以将它们的值与来自其他神经元105F的其他累加器的内容组合。
DNN模块105接受平面数据作为输入,诸如图像数据。然而,到DNN模块105的输入不限于图像数据。而是,DNN模块105可以对以统一平面格式被呈现给DNN模块105的任何输入数据进行操作。在一个特定实施例中,DNN模块105可以接受多平面一字节或两字节数据帧作为输入。
每个输入帧可以与一组NxKxHxW个内核进行卷积,其中N是内核数目,K是每个内核的通道数目,H是高度,W是宽度。在跨输入数据的重叠间隔上执行卷积,其中间隔由X和Y方向上的跨度定义。这些功能由神经元105F执行,并且由DNN模块105和软件可见控制寄存器管理。
DNN模块105支持三种主要的数据类型:权重;输入数据/特征图;以及激活数据。在大多数情况下,输入数据/特征图和激活数据是用于同一数据的两个名称,区别在于,在提及层的输出时,使用术语激活数据。当提及层的输入时,使用术语输入数据/特征图。
DNN模块105中的神经元105F计算其输入的加权和,并且使加权和通过“激活函数”或“传递函数”。传递函数通常具有S形(sigmoid)形状,但也可以采用以下形式:分段线性函数、阶跃函数或另一类型函数。激活函数允许神经元105F在分类边界为非线性的情况下训练到较大的一组输入和期望输出。
DNN模块105对与神经网络的层相对应的层描述符列表进行操作。可以由DNN模块105将层描述符列表视为指令。这些描述符可以从存储器中预取到DNN模块105中并且按顺序执行。描述符列表用作对DNN模块105的一组指令。可以在DNN模块105外部的设备上执行软件工具和/或编译器,以创建在DNN模块105上执行的描述符列表。
通常,描述符可以有两大类:存储器到存储器移动(“M2M”)描述符;和操作描述符。M2M描述符可以用于将数据往返于主存储器与本地缓冲区(即,下文描述的排缓冲区(linebuffer)125)之间来回移动以供操作描述符消费。M2M描述符遵循与操作描述符不同的执行流水线。用于M2M描述符的目标流水线可以是内部DMA引擎105B或配置寄存器105G,而用于操作描述符的目标流水线可以是神经元105F。
操作描述符指定神经元105F应当对位于本地静态随机存取存储器(“SRAM”)存储器中的数据结构执行的特定操作。操作描述符按顺序处理,并且能够执行很多不同的层运算,本文中描述其中的至少一些。
如图1所示,DNN模块105具有带有唯一的L1和L2缓冲区结构的存储器子系统。图1所示的L1和L2缓冲区是专门为神经网络处理而设计的。作为示例,L2缓冲区150可以利用以所选择的频率操作的高速专用接口来维持所选择的存储容量。L1缓冲区125可以维持可以在内核数据与激活数据之间划分的所选择的存储容量。L1缓冲区125在本文中可以称为“排缓冲区125”,并且L2缓冲区150在本文中可以称为BaSRAM 150。
在一些实施例中,计算数据(即,输入数据、权重和激活数据)以行优先方式被存储在BaSRAM 150中。可以将计算数据组织成两个排缓冲区,其中一个排缓冲区包含输入数据(本文中可以称为“输入缓冲区”),并且另一排缓冲区(本文中可以称为“权重缓冲区”)包含内核权重。排缓冲区由加载/存储单元105C从BaSRAM 150填充。数据在每个排缓冲区中累积,直到其达到预定容量。然后,在一些实施例中,将排缓冲区数据复制到阴影缓冲区,并且呈现给神经元105F。
DNN模块105还可以包括多个其他组件,包括但不限于寄存器接口105G、预取单元105A、保存/恢复单元105E、层控制器105D和寄存器接口105G。在一些实施例中,DNN模块105可以包括附加或替代组件。
在一些配置中,DNN模块105与其他外部计算组件相结合操作。例如,在一些实施例中,DNN模块105连接到片上主机应用处理器系统(“主机SoC”)130。DNN模块105可以例如通过PCIe接口而连接到主机SoC 130。适当的PCIe组件(诸如PCIe端点135)可以用于启用这些连接。
主机SoC 130用作用于DNN模块105的应用处理器。主操作系统、应用和辅助传感器处理由主机SoC 130执行。主机SoC 130还可以连接到向DNN模块105提供输入数据(例如,图像数据)的输入数据源102(诸如外部相机)。
DDR DRAM 155还可以连接到可以用作主系统存储器的主机SoC 130。该存储器可以通过存储器控制器145跨高带宽结构120(例如,PCIe总线)从主机SoC 130访问。高带宽结构120提供双向直接存储器访问(“DMA”)小型消息发送事务和较大DMA事务。桥接器115和低带宽结构110可以将DNN模块105连接到主机SoC 130以用于子模块配置和其他功能。
DNN模块105可以包括被配置为将数据移到和移出主存储器155的DMA引擎105B。在一些实施例中,DMA引擎105B具有两个通道。一个通道专用于取回操作描述符,而另一通道专用于M2M操作。DMA描述符可以嵌入在M2M描述符中。这种上下文中的描述符是用于移动存储器的内容的DMA描述符,而勿与上面描述的操作描述符混淆。
为了卸载本地BaSRAM存储器150,并且为了提供用于输入数据和权重数据的更多空间,激活输出可以可选地直接流传输到DDR存储器155。当将数据流传输到DDR存储器155时,DNN模块105将累积足以用于高带宽结构120上的突发事务的数据,并且将缓冲足以最小化神经元105F上的背压的事务。下面将提供关于DNN模块105的操作的附加细节。
图2是示出根据一个实施例的神经元缓冲区、组分区器和调度器、组调度器以及累加器缓冲区的配置和操作的方面的计算架构图。特别地,图2示出了用于优化硬件中的人工神经网络的处理的DNN模块105的一部分的方面。
如图2所示并且在上面简要讨论的,一组神经元105F耦合到两个缓冲区或排缓冲区,在一个实施例中,其中一个排缓冲区包含输入数据(即,输入缓冲区202),而另一排缓冲区包含内核权重(即,权重缓冲区204)。输入缓冲区202和权重缓冲区204在本文中可以统称为“神经元缓冲区”。如上所述,在一个实施例中,排缓冲区由加载/存储单元105C从BaSRAM150填充。数据被累积在每个排缓冲区中,直到其达到预定容量。然后在一些实施例中,排缓冲区数据被复制到阴影缓冲区,并且被呈现给神经元105F。
尽管在图2中示出并且在下面描述输入缓冲区202和权重缓冲区204,但是应当理解,当仅利用输入缓冲区202时,本文中公开的实施例也可以跳过处理操作。例如,在神经元将输入数据乘以恒定值的情况下,就是这种情况。在这种情况下,可以以下面描述的方式跳过琐碎(trivial)操作的处理,诸如当输入值为零时。还应当理解,当第二缓冲区(即,权重缓冲区204)包含除权重数据以外的数据时,可以跳过处理操作。例如,第二缓冲区也可以包括输入数据。因此,涉及输入和权重的处理操作仅是说明性的,并且本文中公开的实施例不限于涉及输入数据和权重数据的处理操作。
在图2所示的实施例中,输入缓冲区202和权重缓冲区204被组织成N乘M的矩阵,其中N是行数,其对应于神经元105F的数目,并且M是列数,其对应于神经元缓冲区的“宽度”(即,可用于神经元105F的数据的周期数目)。神经元缓冲区的列表示由神经元105F在其间消耗数据的时钟周期。在图2所示的示例中,排缓冲区包含八列,其表示神经元105F在其上进行操作的八个数据周期。
在一个实施例中,每个排缓冲区有两个副本:主副本和影子副本。当存储排缓冲区的主副本的存储位置被填充时,神经元105F对排缓冲区的影子副本进行操作。一旦存储主副本的存储位置被填充,并且排缓冲区的影子副本被神经元105F消耗,则主副本数据被移至影子副本,并且用于存储主副本的存储位置可以用下一组数据来填充。
在本文中公开的各种实施例中,神经元105F可以同步或异步地处理排缓冲区中的数据。在同步操作模式下,每个神经元105F处理来自输入缓冲区的行,使得一个或多个列取决于神经元的容量按时钟周期被选择以用于处理。在同步操作模式下,神经元105F可以被组织成与神经元105F的数目相等的多个组。
在异步操作模式下,一组神经元105F对一组缓冲区排(即,神经元缓冲区中的行)工作。为了实现该功能,组分区器和调度器206工作以对缓冲区排进行分组,并且将其呈现给每个组调度器208A和208B(统称为“组调度器208”)。在一个实施例中,组分区器和调度器206使用静态分配的(即,预定的)分区模式将缓冲区排分配给组调度器208。在其他的一些实施例中,可以以其他方式将缓冲区排分配给组调度器208,例如,将缓冲区排分配给组以使得每个组具有相对相等的工作负载。
在缓冲区排已经被分区之后,组分区器和调度器206将缓冲区排分配给相应的组调度器208。组调度器208尝试平衡一组神经元105F内的工作负载。在图2所示的示例中,神经元N1和N2已经被分配给组1。这些神经元处理来自神经元缓冲区的前两行的数据。神经元N3和N4已经被分配给组2。这些神经元处理来自神经元缓冲区的第三行和第四行的数据。为了简单起见,组大小在图2中被示出为两个神经元105F,但是组大小可以是神经元105F的总数目的任何因子。
在一些实施例中,还利用累加器缓冲区210。在这些实施例中,一组累加器212被分配给每组神经元105F。在图2所示的示例中,例如,已经将一组累加器212A分配给第一组神经元105F(即,神经元N1和N2),并且将第二组累加器212B分配给第二组神经元105F(即,神经元N3和N4)。
每个累加器212能够从对BaSRAM 150的读取中被加载。另外,累加器212可以将自己与分配给其他神经元105F或神经元组的其他累加器的内容组合。如上所述,通过具有多个累加器212,神经元105F可以一次维护针对多个不同有效内核的上下文。
如上面简要描述的,人工神经网络通常产生稀疏激活。在ReLu激活函数(例如,ReLu(y=max(x,0)))的情况下,尤其如此,其中不成比例的激活比例(在某些情况下高达80%)为零。此外,如膨胀卷积的某些操作可能涉及稀疏(即,包含很多零)的权重矩阵(即,卷积滤波器)。这些激活又成为用于神经网络的下一层的输入。结果,人工神经网络的很多层最终执行了琐碎操作,其中操作的结果不受这些计算的影响。
本文中公开的技术利用人工神经网络产生稀疏激活的趋势,来改善神经元105F的性能,并且因此降低DNN模块105的功耗。下面关于图3-图5公开用于在DNN模块105中实现该优化的若干示例实施例。
图3是示出本文中公开的一个实施例中的由DNN模块105使用的说明性神经元缓冲区的方面的数据结构图,其中DNN模块105提供全列操作跳过。在该实施例中,DNN模块105维护输入缓冲区202和权重缓冲区204,使得所有神经元105F同步处理其中包含的数据。
DNN模块105还可以检测输入缓冲区202或权重缓冲区204的整个列是否仅包含在由神经元105F操作时将不影响最终结果的值。在一些实施例中,组分区器和调度器206执行该功能。例如,组分区器和调度器206可以确定输入缓冲区202或权重缓冲区204的整个列是否包含零或任何其他值(例如,接近零的值),其中所得到的操作将不影响最终结果。因为对这些类型的值的操作对最终结果没有影响,所以对这些值的操作可以被神经元105F跳过。该机制在本文中可以称为“全列操作跳过”或“按列零跳过”。
在一些实施例中,DNN模块105可以检测输入缓冲区202的列或权重缓冲区204的列是否包括小于或等于阈值的所有值(例如,小于1的值)或在值的范围(例如,-5到5)内的全部值。在某些实施例中,要针对其跳过操作的值、阈值或值的范围是用户定义的,从而使得用户能够定义要由DNN模块105跳过的操作。
在图3所示的示例中,例如,组分区器和调度器206已经检测到输入缓冲区202中的列C5包含全零。结果,由神经元105F对该列中的值执行的任何操作将以零作为最终结果。因此,神经元105F可以跳过原本将对神经元缓冲区的列C5和权重缓冲区的对应列C5中包含的值执行的所有处理操作。
在图3所示的示例中,组分区器和调度器206还检测到权重缓冲区204的列C7包含全零。结果,由神经元105F对该列中的值执行的任何操作也将以零作为最终结果。因此,神经元105F可以跳过原本将对神经元缓冲区的列C7和输入缓冲区的对应列中的值执行的所有处理操作。
因为在该示例中跳过了对列C5和C7中的值的处理,所以对神经元缓冲区中加载的数据的处理比预期快两个周期。通过以这种方式跳过处理操作,DNN模块105可以节省原本将花费在被跳过的处理操作上的功率。下面参考图4和图5描述用于通过跳过神经元105F处理操作来优化DNN模块105的操作的若干其他机制。
图4是示出本文中公开的一个实施例中的说明性神经元缓冲区的方面的数据结构图,其中DNN模块105提供异步的神经元处理和操作跳过。在以上关于图3描述的实施例中,DNN模块105中的神经元105F同步处理输入缓冲区202和权重缓冲区204中的值。然而,在其他的一些实施例中,DNN模块105中的神经元105F可以异步地处理神经元缓冲区中的值。如将在下面详细讨论的,与以上关于图3讨论的实施例相比,该配置可以导致更高的吞吐量和进一步的节省功率。
在异步神经元实现中,可以修改DNN模块105的操作,使得一组神经元105F对一组缓冲区排(即,神经元缓冲区中的行)工作。特别地,组分区器和调度器206可以对缓冲区排进行分组,并且以上文关于图2描述的方式将缓冲区排呈现给组调度器208。
在缓冲区排已经被分区之后,它们被分配给组调度器208,在一些实施例中,组调度器208试图平衡组内的工作负载。在图5所示的示例中,例如,神经元组1(即,神经元N1和N2)对神经元缓冲区的前两行工作。在一个实施例中,组分区器和调度器206中的逻辑标识每个缓冲区排中的非琐碎操作(例如,零或接近零的权重或输入值)。
关于是否需要处理特定行中的特定列的决策可以在缓冲区填充操作期间即时进行,并且因此可以对后续逻辑(例如,神经元105F)隐藏。例如,对于图4所示的示例神经元缓冲区的第一行,使用以下公式:IsTrivial(Input_C1)||IsTrivial(Weights_C1),可以确定列C1、C3、C4和C6是非琐碎的。
对于图4中的示例神经元缓冲区的第二行,所有操作都是非琐碎的。该信息由组分区器和调度器逻辑206传递到组1调度器208A,使得调度器可以在组中的神经元105F(即,神经元N1和N2)之间平均分配工作负载。
在图4所示的示例中,神经元N1将对四个操作(即,R1C1、R1C3、R1C4和R1C6)工作,而不是在未跳过R1C2、R1C5、R1C7和R1C8的情况下神经元N1将执行的八个操作。然后可以将神经元N1断电四个时钟周期,直到神经元N2完成其处理,从而节省了功率。
如图4所示,由于神经元N1和N2异步操作,因此神经元N2执行八个处理操作。与以上关于图3描述的实施例相比,通过异步地操作神经元105F并且在按行/列的基础上跳过琐碎的处理操作,可以获取附加的功率节省。应当理解,尽管出于讨论的目的而将行R2在图4中示出为没有琐碎操作,但是实际上,相邻神经元的琐碎操作的数目通常是相关的。
图5是示出根据一个实施例的在本文中公开的一个实施例中的说明性神经元缓冲区的方面的数据结构图,其中DNN模块105提供异步神经元处理、操作跳过和协同神经元处理。在该实施例中,通过使得提早完成处理的神经元105F能够协助其他神经元105F进行其分配的处理,可以获取甚至更高的效率。在一些实施例中,神经元105F可以专用于协助其他神经元105F处理它们在神经元缓冲区中的值。
在图5所示的示例中,例如,神经元N1将对四个操作(即,R1C1、R1C3、R1C4和R1C6)工作,并且对于四个时钟周期是空闲的,以接替来自其他神经元105F的操作。例如,在该示例中,神经元N1帮助神经元N2执行两个操作(即,R2C7和R2C8)。因此,该组神经元105F在六个周期而不是八个周期内完成其工作负载,因此,与上述示例相比,实现了吞吐量的提高。
因为神经元N1协助神经元N2,所以在使用边带求和将由神经元N1执行的处理操作的结果传递给其正确的所有者(在该示例中为神经元N2)的处理完成之后,执行合并操作。在一个实施例中,这是通过将累加器212配置为从神经元组中的所有神经元105F可访问的共享存储器的一部分来实现,其中每个神经元104F维护与神经元组中的行数目相等的累加器212的阵列。在周期的结束处,可以对部分结果执行按行求和,以获取针对每行的最终输出值。在其他的一些实施例中,可以利用在神经元105F之间传递处理操作的结果的其他机制。
图6A-图6C是示出根据本文中公开的一个实施例的若干例程的流程图,这些例程图示了用于同步和异步操作跳过的参考图1-图5描述的DNN模块的操作的方面。应当理解,本文中关于图6A-图6C和其他图描述的逻辑操作可以实现为(1)在计算设备上运行的一系列计算机实现的动作或程序模块,和/或(2)诸如DNN模块105等计算设备内的互连的机器逻辑电路或电路模块。
本文中公开的技术的特定实现是取决于计算设备的性能和其他要求的选择问题。因此,本文中描述的逻辑操作被不同地称为状态、操作、结构设备、动作或模块。这些状态、操作、结构设备、动作和模块可以用硬件、软件、固件、专用数字逻辑及其任何组合来实现。应当理解,可以执行比附图中示出和本文中描述的更多或更少的操作。这些操作也可以以与本文中描述的那些顺序不同的顺序被执行。
图6所示的例程600示出了上文针对全列操作跳过而描述的实施例的方面。例程600在操作602处开始,在操作602,DNN模块105确定神经元105F是否可以跳过对神经元缓冲区的整个列中的值的处理。例如,DNN模块105可以确定输入缓冲区202的整个列或权重缓冲区204的整个列是否是特定值或是否在值的范围内。
如果可以跳过输入缓冲区202或权重缓冲区204的任何列中的值,则例程600从操作606进行,在操作606,跳过原本将由DNN模块105的神经元105F对那些列执行的处理操作。如果不能跳过神经元缓冲区的任何列,则例程600从操作604进行到操作608,在操作608,由神经元105F处理神经元缓冲区的所有列中的值。例程600从操作606和608返回操作602,在操作602,可以以上述方式继续进行进一步的处理。
图6B所示的例程632示出了上文针对异步神经元处理/操作跳过而描述的实施例的各方面。例程632在操作634处开始,在操作634,DNN模块105确定是否可以跳过对神经元缓冲区的任何行/列中的值的处理。如上所述,例如,如果输入缓冲区或权重缓冲区的行中的值包括零或接近零的值,则可以跳过对值的处理。
如果可以跳过对神经元缓冲区中的值的处理,则例程632从操作636进行到操作638,在操作638,可以跳过由神经元105F对那些值的处理。如果没有值可以被跳过,则例程632从操作636进行到操作640,在操作640,由神经元105F处理神经元缓冲区中的所有值。例程632从操作640和638回到操作634,在操作634,可以以上述方式继续进行进一步的处理。
图6C所示的例程650示出了上文针对异步处理、操作跳过和协同神经元处理而描述的实施例的方面。该例程从操作652开始,在操作652,DNN模块105确定是否可以跳过对神经元缓冲区的任何行/列中的值的处理。如上所述,例如,如果输入缓冲区或权重缓冲区的行中的值包括零或接近零的值,则可以跳过对值的处理。
如果没有值可以被跳过,则例程650从操作654进行到操作656,在操作656,由神经元105F处理神经元缓冲区中的所有值。然而,如果可以跳过对神经元缓冲区中的值中的至少一些值的处理,则例程650从操作654进行到操作658,在操作658,跳过由神经元105F对那些值的处理。
例程650从操作658进行到操作660,在操作660,由于以上述方式跳过操作而提早完成其处理的神经元以上述方式被分配来自其他神经元的处理操作。例程650然后从操作660进行到操作662,在操作662,在使用边带求和或另一机制将由神经元105F执行的处理操作的结果传递给其正确的所有者的处理完成之后,执行组合操作。例程650从操作662和656返回操作652,在操作652,可以以上述方式继续进行进一步的处理。
图7是示出针对可以用作本文中提出的DNN模块105的应用主机的计算设备的说明性计算机硬件和软件架构的计算机架构图。特别地,图7所示的架构可以用于实现服务器计算机、移动电话、电子阅读器、智能电话、台式计算机、AR/VR设备、平板计算机、膝上型计算机、或适合于与DNN模块105一起使用的另一种类型的计算设备。
图7所示的计算机700包括:中央处理单元702(“CPU”)、包括随机存取存储器706(“RAM”)和只读存储器(“ROM”)708的系统存储器704、以及将存储器704耦合到CPU 702的系统总线710。包含帮助诸如在启动期间在计算机700内的元件之间传输信息的基本例程的基本输入/输出系统(“BIOS”或“固件”)可以被存储在ROM 708中。计算机700还包括用于存储操作系统722、应用程序和其他类型的程序的大容量存储设备712。大容量存储设备712还可以被配置为存储其他类型的程序和数据。
大容量存储设备712通过连接到总线710的大容量存储控制器(未示出)而连接到CPU 702。大容量存储设备712及其关联的计算机可读介质为计算机700提供非易失性存储。尽管本文中包含的计算机可读介质的描述是指大容量存储设备,诸如硬盘、CD-ROM驱动器、DVD-ROM驱动器或USB存储密钥,但是本领域技术人员应当理解,计算机可读介质可以是可以由计算机700访问的任何可用的计算机存储介质或通信介质。
通信介质包括以诸如载波或其他传输机制等经调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据,并且包括任何递送介质。术语“经调制数据信号”是指具有以将信息编码在信号中的方式来改变或设置其特性中的一个或多个特性的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接等有线介质、以及诸如声学、射频、红外和其他无线介质等无线介质。以上任何内容的组合也应当被包括在计算机可读介质的范围内。
作为示例而非限制,计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。例如,计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储技术、CD-ROM、数字多功能磁盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、或者可以用于存储期望信息并且可以由计算机700访问的任何其他介质。出于权利要求的目的,短语“计算机存储介质”及其变体不包括波或信号本身或通信介质。
根据各种配置,计算机700可以使用通过诸如网络720等网络到远程计算机的逻辑连接来在联网环境中操作。计算机700可以通过连接到总线710的网络接口单元716而连接到网络720。应当理解,网络接口单元716也可以用于连接到其他类型的网络和远程计算机系统。计算机700还可以包括用于接收和处理来自多个其他设备的输入的输入/输出控制器718,多个其他设备包括键盘、鼠标、触摸输入、电子笔(图7中未示出)或诸如视频相机的物理传感器。类似地,输入/输出控制器718可以向显示屏或其他类型的输出设备(在图7中也未示出)提供输出。
应当理解,本文中描述的软件组件在被加载到CPU 702中并且被执行时可以将CPU702和整个计算机700从通用计算设备转换为被定制为支持本文中介绍的功能的专用计算设备。CPU 702可以由可以单独或共同地呈现任何数目的状态的任何数目的晶体管或其他分立电路元件构成。更具体地,响应于本文中公开的软件模块中所包含的可执行指令,CPU702可以作为有限状态机操作。这些计算机可执行指令可以通过指定CPU 702如何在状态之间转换来对CPU 702进行转换,从而对构成CPU 702的晶体管或其他分立硬件元件进行转换。
对本文中提出的软件模块进行编码还可以变换本文中提出的计算机可读介质的物理结构。在本说明书的不同实现中,物理结构的特定变换取决于各种因素。这样的因素的示例包括但不限于用于实现计算机可读介质的技术,无论计算机可读介质被特征化为初级存储还是次级存储等。例如,如果计算机可读介质被实现为基于半导体的存储器,则可以通过变换半导体存储器的物理状态来将本文中公开的软件编码在计算机可读介质上。例如,该软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。软件还可以变换这些组件的物理状态,以便在其上存储数据。
作为另一示例,本文中公开的计算机可读介质可以使用磁性或光学技术来实现。在这样的实现中,当软件被编码在其中时,本文中提出的软件可以变换磁性或光学介质的物理状态。这些变换可以包括改变给定磁性介质内的特定位置的磁性特性。这些变换还可以包括改变给定光学介质内的特定位置的物理特征或特性,以改变那些位置的光学特性。在不背离本说明书的范围和精神的情况下,物理介质的其他变换也是可能的,其中提供前述示例仅是为了促进该讨论。
鉴于以上所述,应当理解,很多类型的物理变换在计算机700中发生,以便存储和执行本文中提出的软件组件。还应当理解,图7中针对计算机700示出的架构或类似架构可以用于实现其他类型的计算设备,包括手持计算机、视频游戏设备、嵌入式计算机系统、移动设备(诸如智能电话、平板计算机和AR/VR设备)、以及本领域技术人员已知的其他类型的计算设备。还设想,计算机700可以并非包括图7所示的所有组件,可以包括图7中未明确示出的其他组件,或者可以使用与图7所示的架构完全不同的架构。
图8是示出根据本文中呈现的各种实施例的可以在其中实现所公开的技术的方面的分布式网络计算环境800的网络图。如图8所示,一个或多个服务器计算机800A可以经由通信网络720(其可以是固定有线或无线LAN、WAN、内联网、外联网、对等网络、虚拟专用网络、因特网、蓝牙通信网络、专有低压通信网络或其他通信网络中的任一项或其组合)与多个客户端计算设备互连,客户端计算设备诸如但不限于平板计算机800B、游戏控制台800C、智能手表800D、电话800E(诸如智能电话)、个人计算机800F和AR/VR设备800G。
例如,在其中通信网络720是因特网的网络环境中,服务器计算机800A可以是专用服务器计算机,该专用服务器计算机可操作以经由多种已知协议中的任何一种来处理与客户端计算设备800B-800G的数据以及与客户端计算设备800B-800G传送数据,多种已知协议诸如超文本传输协议(“HTTP”)、文件传输协议(“FTP”)或简单对象访问协议(“SOAP”)。另外,联网的计算环境800可以利用各种数据安全协议,诸如安全套接字层(“SSL”)或优良保密协议(“PGP”)。客户端计算设备800B-800G中的每一个可以配备有操作系统,该操作系统可操作以支持一个或多个计算应用或终端会话,诸如web浏览器(图8中未示出)或其他图形用户界面(图8中未示出)或移动桌面环境(图8中未示出),以获取对服务器计算机800A的访问。
服务器计算机800A可以通信地耦合到其他计算环境(图8中未示出),并且接收有关参与用户的交互/资源网络的数据。在说明性操作中,用户(图8中未示出)可以与在客户端计算设备800B-800G上运行的计算应用交互,以获取期望数据和/或执行其他计算应用。
数据和/或计算应用可以被存储在一个或多个服务器800A上,并且通过示例性通信网络720通过客户端计算设备800B-800G而传送到合作用户。参与用户(图8中未示出)可以请求访问全部或部分容纳在服务器计算机7800A上的特定数据和应用。这些数据可以在客户端计算设备800B-800G与服务器计算机800A之间传送,以用于处理和存储。
服务器计算机800A可以托管用于数据和应用的生成、认证、加密和通信的计算应用、过程和小程序,并且可以与其他服务器计算环境(图8中未示出)、第三方服务供应方(图8中未示出)、网络附加存储(“NAS”)和存储区域网络(“SAN”)协同以实现应用/数据交易。
应当理解,图7所示的计算架构和图8所示的分布式网络计算环境为了便于讨论而被简化。还应当理解,计算架构和分布式计算网络可以包括和利用本文中未具体描述的更多的计算组件、设备、软件程序、网络设备和其他组件。
本文中提出的公开内容还涵盖以下条款中阐述的技术方案:
条款1.一种神经网络模块,包括:多个神经元;存储器设备,存储器设备存储第一缓冲区和第二缓冲区,第一缓冲区包括用于由神经网络模块中的多个神经元处理的第一数据,第二缓冲区存储用于由神经网络模块中的多个神经元处理的第二数据,其中第一缓冲区中的第一数据和第二缓冲区中的第二数据被组织成对应的行和列;以及其中神经网络模块被配置为确定第一缓冲区的列中的第一数据是否包括值或者第二缓冲区的对应列中的第二数据是否包括该值,以及如果第一数据或第二数据包括该值,则使得多个神经元跳过对第一数据和第二数据的处理。
条款2.根据条款1的神经网络模块,其中该值包括零、值的范围、或者高于或低于阈值的值。
条款3.根据条款1或2的神经网络模块,其中第一缓冲区中的第一数据包括到神经网络的输入数据。
条款4.根据条款1-3中的任一项的神经网络模块,其中第二缓冲区中的第二数据包括与神经网络相关联的权重。
条款5.根据条款1-4中的任一项的神经网络模块,其中神经网络模块还包括组分区器和调度器,并且其中组分区器和调度器确定第一缓冲区的列中的第一数据是否包括值或者第二缓冲区的列中的第二数据是否包括值。
条款6.根据条款1-5中的任一项的神经网络模块,其中多个神经元使用ReLu(y=max(x,0))作为用于神经网络的激活函数。
条款7.根据条款1-6中的任一项的神经网络模块,其中多个神经元被配置为同步地处理第一数据和第二数据。
条款8:一种神经网络模块,包括:多个神经元;存储器设备,所述存储器设备存储第一缓冲区,第一缓冲区存储用于由神经网络模块中的多个神经元处理的第一数据,并且其中神经网络模块被配置为确定第一缓冲区中的数据是否包括值,以及如果第一缓冲区中数据包括值,则跳过对该数据的处理。
条款9.根据条款8的神经网络模块,其中该值包括零、值的范围、或者高于或低于阈值的值。
条款10.根据条款8或9的神经网络模块,其中第一缓冲区中的第一数据包括到神经网络的输入数据。
条款11.根据条款8-10中的任一项的神经网络模块,其中神经网络模块还包括组分区器和调度器,并且其中组分区器和调度器确定位于第一缓冲区中的数据是否包括值。
条款12.根据条款8-11中的任一项的神经网络模块,其中多个神经元使用ReLu(y=max(x,0))作为用于神经网络的激活函数。
条款13.根据条款8-12中的任一项的神经网络模块,其中多个神经元被配置为异步地处理第一数据和第二缓冲区中的第二数据。
条款14.根据条款8-13中的任一项的神经网络模块,其中多个神经元被配置为同步地处理第一数据和第二缓冲区中的第二数据。
条款15:一种神经网络模块,包括:多个神经元;存储器设备,存储器设备第一缓冲区和第二缓冲区,第一缓冲区存储用于由神经网络模块中的多个神经元处理的第一数据,第二缓冲区存储用于由神经网络模块中的多个神经元处理的第二数据,其中第一缓冲区中的第一数据和第二缓冲区中的第二数据被组织成对应的行和列;并且其中神经网络模块被配置为确定位于第一缓冲区或第二缓冲区中的行和列的数据是否包括值,如果位于行和列的包括该值,则使得多个神经元中的第一神经元跳过对该数据的处理,以及响应于跳过对位于该行和列的数据的处理,使得多个神经元中的第一神经元代表多个神经元中的第二神经元执行至少一个操作。
条款16.根据条款15的神经网络模块,其中该值包括零、值的范围、或者高于或低于阈值的值。
条款17.根据条款15或16的神经网络模块,其中神经网络模块还被配置为将由第一神经元代表第二神经元执行的至少一个操作的结果与由第二神经元执行的一个或多个操作的结果相组合。
条款18.根据条款15-17中的任一项的神经网络模块,其中第一缓冲区中的第一数据包括到神经网络的输入数据,并且其中第二缓冲区中的第二数据包括与神经网络相关联的权重。
条款19.根据条款15-18中的任一项的神经网络模块,其中多个神经元使用ReLu(y=max(x,0))作为用于神经网络的激活函数。
条款20.根据条款15-19中的任一项的神经网络模块,其中多个神经元被配置为异步地处理第一数据和第二数据。
基于前述内容,应当理解,本文中已经公开了可以通过跳过对某些类型的处理操作的执行来降低功耗的神经网络模块或处理器。尽管已经以特定于处理器结构特征、方法和转换动作、特定的计算机器和计算机可读介质的语言描述了本文中介绍的技术方案,但是应当理解,所附权利要求书中提出的技术方案不必限于本文中描述的特定特征、动作或介质。相反,特定特征、动作和介质被公开作为实现所要求保护的技术方案的示例形式。
上述技术方案仅以示例的方式被提供,并且不应当被解释为是限制性的。可以在不遵循所示出和描述的示例配置和应用的情况下,并且在不脱离在所附权利要求中阐述的本公开的范围的情况下,对本文中描述的技术方案进行各种修改和改变。
Claims (10)
1.一种神经网络模块,包括:
多个神经元;
组分区器和调度器;以及
存储器设备,所述存储器设备存储:
第一缓冲区,所述第一缓冲区存储用于由所述神经网络模块中的所述多个神经元处理的第一数据,以及
第二缓冲区,所述第二缓冲区存储用于由所述神经网络模块中的所述多个神经元处理的第二数据,其中所述第一缓冲区中的所述第一数据和所述第二缓冲区中的所述第二数据被组织成对应的行和列,
其中所述多个神经元被配置为同时处理所述第一数据和所述第二数据,从而每个时钟周期所述列中的一个或多个列被选择用于处理,并且
其中所述组分区器和调度器被配置为:
确定所述第一缓冲区的整列中的所述第一数据是否包括预定值或值的范围,
如果所述第一缓冲区的所述整列中的所述第一数据包括所述预定值或值的范围,则使得所述多个神经元跳过对所述第一数据和所述第二数据的处理,
确定所述二缓冲区的所述整列中的所述第二数据是否包括所述预定值或值的范围,以及
确定所述二缓冲区的所述整列中的所述第二数据包括所述预定值或值的范围,使得所述多个神经元跳过所述第一数据和所述第二数据的处理。
2.根据权利要求1所述的神经网络模块,其中所述预定值包括零、值的范围、或者高于或低于阈值的值。
3.根据权利要求1所述的神经网络模块,其中所述第一缓冲区中的所述第一数据包括到神经网络的输入数据。
4.根据权利要求1所述的神经网络模块,其中所述第二缓冲区中的所述第二数据包括与神经网络相关联的权重。
5.根据权利要求1所述的神经网络模块,其中所述多个神经元使用ReLu(y=max(x,0))作为用于神经网络的激活函数。
6.根据权利要求1所述的神经网络模块,其中所述预定值或值的范围是用户可定义的。
7.一种神经网络模块,包括:
多个神经元;
组分区器和调度器;以及
存储器设备,所述存储器设备存储:
第一缓冲区,所述第一缓冲区存储用于由所述神经网络模块中的所述多个神经元处理的第一数据,所述第一数据包括到神经网络的输入数据,
第二缓冲区,所述第二缓冲区存储用于由所述神经网络模块中的所述多个神经元处理的第二数据,所述第二数据包括针对所述神经网络的权重数据,
其中所述第一缓冲区中的所述第一数据和所述第二缓冲区中的所述第二数据被组织成对应的行和列;
其中所述多个神经元被配置为同时处理所述第一数据和所述第二数据,从而每个时钟周期所述列中的一个或多个列被选择用于处理,并且
其中所述组分区器和调度器被配置为:
确定所述第一缓冲区中的整列中的所述第一数据是否包括预定值或值的范围,
如果所述第一缓冲区的所述整列中的所述第一数据数据包括所述预定值或值的范围,跳过对所述第一缓冲区中的所述第一数据的处理,
确定所述第二缓冲区的整列中的所述第二数据是否包括所述预定值或值的范围,以及
如果所述第二缓冲区的所述整列中的所述第二数据包括所述预定值或值的范围,则跳过对所述第二缓冲区中的所述第二数据的处理。
8.根据权利要求7所述的神经网络模块,其中所述预定值包括零、值的范围、或者高于或低于阈值的值。
9.根据权利要求7所述的神经网络模块,其中所述多个神经元使用ReLu(y=max(x,0))作为用于神经网络的激活函数。
10.根据权利要求7所述的神经网络模块,其中所述预定值或值的范围是用户可定义的。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762486432P | 2017-04-17 | 2017-04-17 | |
US62/486,432 | 2017-04-17 | ||
US15/953,195 US11341399B2 (en) | 2017-04-17 | 2018-04-13 | Reducing power consumption in a neural network processor by skipping processing operations |
US15/953,195 | 2018-04-13 | ||
PCT/US2018/027828 WO2018194988A1 (en) | 2017-04-17 | 2018-04-16 | Reducing power consumption in a neural network processor by skipping processing operations |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110546611A CN110546611A (zh) | 2019-12-06 |
CN110546611B true CN110546611B (zh) | 2023-05-02 |
Family
ID=63790158
Family Applications (16)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880024892.5A Active CN110506260B (zh) | 2017-04-17 | 2018-04-06 | 用于神经网络环境中的增强数据处理的方法、系统和介质 |
CN201880025244.1A Active CN110520856B (zh) | 2017-04-17 | 2018-04-06 | 处理不邻近存储器作为邻近存储器以提高神经网络的性能 |
CN202310874704.0A Pending CN116909985A (zh) | 2017-04-17 | 2018-04-06 | 对数据分区的动态排序 |
CN201880025415.0A Active CN110546628B (zh) | 2017-04-17 | 2018-04-06 | 用有向线缓冲器最小化存储器读取提高神经网络环境性能 |
CN201880025417.XA Active CN110520846B (zh) | 2017-04-17 | 2018-04-06 | 对数据分区的动态排序 |
CN201880025503.0A Active CN110520853B (zh) | 2017-04-17 | 2018-04-06 | 直接存储器访问的队列管理 |
CN201880025504.5A Active CN110520857B (zh) | 2017-04-17 | 2018-04-06 | 使用虚拟化数据迭代器对神经网络进行数据处理性能增强 |
CN201880025227.8A Active CN110520870B (zh) | 2017-04-17 | 2018-04-06 | 用于具有动态向量长度和码本大小的高吞吐量向量去量化的灵活硬件 |
CN202310865940.6A Pending CN116909984A (zh) | 2017-04-17 | 2018-04-06 | 使用虚拟化数据迭代器对神经网络进行数据处理性能增强 |
CN201880025488.XA Active CN110537194B (zh) | 2017-04-17 | 2018-04-13 | 被配置用于层和操作防护和依赖性管理的功率高效的深度神经网络处理器及方法 |
CN201880025426.9A Active CN110678843B (zh) | 2017-04-17 | 2018-04-16 | 在深度神经网络模块中动态划分工作负载以降低功率消耗 |
CN201880025126.0A Active CN110546610B (zh) | 2017-04-17 | 2018-04-16 | 通过数据共享和分配增强人工智能/机器硬件的处理性能 |
CN201880025130.7A Active CN110546654B (zh) | 2017-04-17 | 2018-04-16 | 通过构造接口的带宽控制来增强dnn模块的处理性能 |
CN201880025480.3A Active CN110546611B (zh) | 2017-04-17 | 2018-04-16 | 通过跳过处理操作来减少神经网络处理器中的功耗 |
CN201880025508.3A Active CN110582785B (zh) | 2017-04-17 | 2018-04-16 | 配置用于执行层描述符列表的具有功率效率的深度神经网络模块 |
CN201880025420.1A Active CN110520909B (zh) | 2017-04-17 | 2018-04-16 | 使用激活数据的压缩和解压缩来减少存储器带宽利用率的神经网络处理器 |
Family Applications Before (13)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880024892.5A Active CN110506260B (zh) | 2017-04-17 | 2018-04-06 | 用于神经网络环境中的增强数据处理的方法、系统和介质 |
CN201880025244.1A Active CN110520856B (zh) | 2017-04-17 | 2018-04-06 | 处理不邻近存储器作为邻近存储器以提高神经网络的性能 |
CN202310874704.0A Pending CN116909985A (zh) | 2017-04-17 | 2018-04-06 | 对数据分区的动态排序 |
CN201880025415.0A Active CN110546628B (zh) | 2017-04-17 | 2018-04-06 | 用有向线缓冲器最小化存储器读取提高神经网络环境性能 |
CN201880025417.XA Active CN110520846B (zh) | 2017-04-17 | 2018-04-06 | 对数据分区的动态排序 |
CN201880025503.0A Active CN110520853B (zh) | 2017-04-17 | 2018-04-06 | 直接存储器访问的队列管理 |
CN201880025504.5A Active CN110520857B (zh) | 2017-04-17 | 2018-04-06 | 使用虚拟化数据迭代器对神经网络进行数据处理性能增强 |
CN201880025227.8A Active CN110520870B (zh) | 2017-04-17 | 2018-04-06 | 用于具有动态向量长度和码本大小的高吞吐量向量去量化的灵活硬件 |
CN202310865940.6A Pending CN116909984A (zh) | 2017-04-17 | 2018-04-06 | 使用虚拟化数据迭代器对神经网络进行数据处理性能增强 |
CN201880025488.XA Active CN110537194B (zh) | 2017-04-17 | 2018-04-13 | 被配置用于层和操作防护和依赖性管理的功率高效的深度神经网络处理器及方法 |
CN201880025426.9A Active CN110678843B (zh) | 2017-04-17 | 2018-04-16 | 在深度神经网络模块中动态划分工作负载以降低功率消耗 |
CN201880025126.0A Active CN110546610B (zh) | 2017-04-17 | 2018-04-16 | 通过数据共享和分配增强人工智能/机器硬件的处理性能 |
CN201880025130.7A Active CN110546654B (zh) | 2017-04-17 | 2018-04-16 | 通过构造接口的带宽控制来增强dnn模块的处理性能 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880025508.3A Active CN110582785B (zh) | 2017-04-17 | 2018-04-16 | 配置用于执行层描述符列表的具有功率效率的深度神经网络模块 |
CN201880025420.1A Active CN110520909B (zh) | 2017-04-17 | 2018-04-16 | 使用激活数据的压缩和解压缩来减少存储器带宽利用率的神经网络处理器 |
Country Status (19)
Country | Link |
---|---|
US (20) | US10795836B2 (zh) |
EP (14) | EP3612942B1 (zh) |
JP (1) | JP7004741B2 (zh) |
KR (1) | KR102596644B1 (zh) |
CN (16) | CN110506260B (zh) |
AU (1) | AU2018256212B2 (zh) |
BR (1) | BR112019021541A2 (zh) |
CA (1) | CA3056660A1 (zh) |
CL (1) | CL2019002864A1 (zh) |
CO (1) | CO2019011014A2 (zh) |
IL (1) | IL269888B (zh) |
MX (1) | MX2019012388A (zh) |
MY (1) | MY201868A (zh) |
NZ (1) | NZ756870A (zh) |
PH (1) | PH12019550191A1 (zh) |
RU (1) | RU2767447C2 (zh) |
SG (1) | SG11201909175XA (zh) |
WO (15) | WO2018194847A1 (zh) |
ZA (1) | ZA201905874B (zh) |
Families Citing this family (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8515052B2 (en) | 2007-12-17 | 2013-08-20 | Wai Wu | Parallel signal processing system and method |
US10635969B2 (en) | 2016-10-14 | 2020-04-28 | International Business Machines Corporation | Core utilization optimization by dividing computational blocks across cores |
US10248906B2 (en) * | 2016-12-28 | 2019-04-02 | Intel Corporation | Neuromorphic circuits for storing and generating connectivity information |
US10795836B2 (en) | 2017-04-17 | 2020-10-06 | Microsoft Technology Licensing, Llc | Data processing performance enhancement for neural networks using a virtualized data iterator |
US11164071B2 (en) * | 2017-04-18 | 2021-11-02 | Samsung Electronics Co., Ltd. | Method and apparatus for reducing computational complexity of convolutional neural networks |
EP3657399A1 (en) * | 2017-05-23 | 2020-05-27 | Shanghai Cambricon Information Technology Co., Ltd | Weight pruning and quantization method for a neural network and accelerating device therefor |
CN110502330A (zh) * | 2018-05-16 | 2019-11-26 | 上海寒武纪信息科技有限公司 | 处理器及处理方法 |
US11514355B2 (en) * | 2017-06-28 | 2022-11-29 | General Electric Company | Flat representation of machine learning model |
KR102569086B1 (ko) * | 2017-11-20 | 2023-08-22 | 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 | 태스크 병렬 처리 방법, 장치, 시스템, 기억 매체 및 컴퓨터 기기 |
EP3489865B1 (en) * | 2017-11-22 | 2021-01-06 | Commissariat à l'énergie atomique et aux énergies alternatives | A stdp-based learning method for a network having dual accumulator neurons |
US10747844B2 (en) * | 2017-12-12 | 2020-08-18 | Tesla, Inc. | Systems and methods for converting a matrix input to a vectorized input for a matrix processor |
KR20190097930A (ko) * | 2018-02-13 | 2019-08-21 | 삼성전자주식회사 | 채널 별 메모리 용량을 조절하는 메모리 장치 및 이를 포함하는 메모리 시스템 |
US10948966B1 (en) * | 2018-03-07 | 2021-03-16 | Facebook, Inc. | Systems and methods for optimizing power usage for systems within quality-of-service constraints |
US11126362B2 (en) * | 2018-03-14 | 2021-09-21 | International Business Machines Corporation | Migrating storage data |
CN109313673A (zh) * | 2018-04-17 | 2019-02-05 | 深圳鲲云信息科技有限公司 | 网络模型的运行方法及相关产品 |
US10404276B1 (en) * | 2018-04-27 | 2019-09-03 | Nicira, Inc. | Stable variable-length order-preserving encoding scheme |
US20190340490A1 (en) * | 2018-05-04 | 2019-11-07 | Apple Inc. | Systems and methods for assigning tasks in a neural network processor |
US10360654B1 (en) * | 2018-05-25 | 2019-07-23 | Intel Corporation | Software scoreboard information and synchronization |
US10657087B2 (en) * | 2018-05-31 | 2020-05-19 | Toshiba Memory Corporation | Method of out of order processing of scatter gather lists |
US11561833B1 (en) * | 2018-06-28 | 2023-01-24 | Amazon Technologies, Inc. | Allocation and placement of resources for network computation |
EP3821346A1 (en) * | 2018-08-09 | 2021-05-19 | Huawei Technologies Co., Ltd. | Device and method for compacting compressed and uncompressed data blocks |
EP3640810A4 (en) * | 2018-08-28 | 2021-05-05 | Cambricon Technologies Corporation Limited | DATA PRE-PROCESSING PROCESS AND APPARATUS, COMPUTER DEVICE AND STORAGE MEDIA |
KR20200034499A (ko) * | 2018-09-21 | 2020-03-31 | 삼성전자주식회사 | 메모리 장치와 통신하는 데이터 처리 장치 및 방법 |
US11295205B2 (en) * | 2018-09-28 | 2022-04-05 | Qualcomm Incorporated | Neural processing unit (NPU) direct memory access (NDMA) memory bandwidth optimization |
CN109359732B (zh) | 2018-09-30 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 一种芯片及基于其的数据处理方法 |
US20200117981A1 (en) * | 2018-10-11 | 2020-04-16 | International Business Machines Corporation | Data representation for dynamic precision in neural network cores |
KR20200053886A (ko) * | 2018-11-09 | 2020-05-19 | 삼성전자주식회사 | 뉴럴 프로세싱 유닛, 뉴럴 프로세싱 시스템, 및 어플리케이션 시스템 |
CN109669774B (zh) * | 2018-11-14 | 2020-12-08 | 新华三技术有限公司成都分公司 | 硬件资源的量化方法、编排方法、装置及网络设备 |
US11663001B2 (en) | 2018-11-19 | 2023-05-30 | Advanced Micro Devices, Inc. | Family of lossy sparse load SIMD instructions |
KR102107077B1 (ko) * | 2018-11-20 | 2020-05-06 | 주식회사 아나패스 | 컨볼루션 신경망 추론에서 컨볼루션 연산을 수행하기 위한 라인 단위 메모리 관리 방법 및 그 추론 장치 |
US10990525B2 (en) * | 2018-12-12 | 2021-04-27 | Mipsology SAS | Caching data in artificial neural network computations |
US11342933B2 (en) * | 2018-12-14 | 2022-05-24 | Advanced Micro Devices, Inc. | Lossy significance compression with lossy restoration |
CN109657788A (zh) * | 2018-12-18 | 2019-04-19 | 北京中科寒武纪科技有限公司 | 数据处理方法、装置及相关产品 |
CN109740735B (zh) * | 2018-12-29 | 2020-12-29 | 百度在线网络技术(北京)有限公司 | 多神经网络输出方法及装置、服务器、计算机可读介质 |
CN109922007B (zh) * | 2019-01-15 | 2022-04-01 | 西安仙农电子科技有限公司 | 一种基于卷积神经网络的负载均衡方法 |
CN111488114B (zh) * | 2019-01-28 | 2021-12-21 | 北京灵汐科技有限公司 | 一种可重构的处理器架构及计算设备 |
US11625554B2 (en) | 2019-02-04 | 2023-04-11 | International Business Machines Corporation | L2-nonexpansive neural networks |
US11687783B2 (en) * | 2019-02-04 | 2023-06-27 | International Business Machines Corporation | L2-nonexpansive neural networks |
US11521014B2 (en) | 2019-02-04 | 2022-12-06 | International Business Machines Corporation | L2-nonexpansive neural networks |
US11036545B2 (en) * | 2019-03-15 | 2021-06-15 | Intel Corporation | Graphics systems and methods for accelerating synchronization using fine grain dependency check and scheduling optimizations based on available shared memory space |
CN111767078A (zh) * | 2019-04-02 | 2020-10-13 | 上海寒武纪信息科技有限公司 | 数据运行方法、装置和相关产品 |
CN111782577B (zh) * | 2019-04-04 | 2023-03-24 | 安徽寒武纪信息科技有限公司 | 数据处理装置及方法以及相关产品 |
CN109992225B (zh) * | 2019-04-04 | 2022-02-22 | 中科寒武纪科技股份有限公司 | 数据输出方法及相关装置 |
KR20200119164A (ko) * | 2019-04-09 | 2020-10-19 | 한국전자통신연구원 | 정보 처리 장치 및 그것에 포함된 신경망 연산 장치의 동작 방법 |
US10504005B1 (en) * | 2019-05-10 | 2019-12-10 | Capital One Services, Llc | Techniques to embed a data object into a multidimensional frame |
KR20200129957A (ko) * | 2019-05-10 | 2020-11-18 | 삼성전자주식회사 | 피처맵 데이터에 대한 압축을 수행하는 뉴럴 네트워크 프로세서 및 이를 포함하는 컴퓨팅 시스템 |
US11204745B2 (en) * | 2019-05-23 | 2021-12-21 | Xilinx, Inc. | Dataflow graph programming environment for a heterogenous processing system |
US11175898B2 (en) * | 2019-05-31 | 2021-11-16 | Apple Inc. | Compiling code for a machine learning model for execution on a specialized processor |
KR20200139909A (ko) | 2019-06-05 | 2020-12-15 | 삼성전자주식회사 | 전자 장치 및 그의 연산 수행 방법 |
BR112021024817A2 (pt) * | 2019-06-18 | 2022-01-25 | Qualcomm Inc | Desempenho de modelo de aprendizado por máquina de otimização |
US11403097B2 (en) | 2019-06-26 | 2022-08-02 | Intel Corporation | Systems and methods to skip inconsequential matrix operations |
US11461622B2 (en) * | 2019-06-28 | 2022-10-04 | Amazon Technologies, Inc. | Dynamic code loading for multiple executions on a sequential processor |
US11630770B2 (en) * | 2019-07-11 | 2023-04-18 | Meta Platforms Technologies, Llc | Systems and methods for reading and writing sparse data in a neural network accelerator |
US11816568B2 (en) * | 2019-09-13 | 2023-11-14 | Latent AI, Inc. | Optimizing execution of a neural network based on operational performance parameters |
US10915811B1 (en) | 2019-09-18 | 2021-02-09 | International Business Machines Corporation | Intercalation cells for multi-task learning |
US11475283B2 (en) * | 2019-10-24 | 2022-10-18 | Apple Inc. | Multi dimensional convolution in neural network processor |
KR20210053384A (ko) | 2019-11-01 | 2021-05-12 | 삼성전자주식회사 | 스토리지 장치 및 스토리지 장치의 동작 방법 |
US11513799B2 (en) | 2019-11-04 | 2022-11-29 | Apple Inc. | Chained buffers in neural network processor |
KR20210065605A (ko) * | 2019-11-27 | 2021-06-04 | 한국전자통신연구원 | 선인출 정보를 이용한 메모리 제어 방법 및 장치 |
CN111162792A (zh) * | 2019-12-19 | 2020-05-15 | 深圳市航天泰瑞捷电子有限公司 | 一种电力负荷数据的压缩方法及装置 |
CN111091184B (zh) * | 2019-12-19 | 2022-03-22 | 浪潮(北京)电子信息产业有限公司 | 一种深度神经网络的量化方法、装置、电子设备及介质 |
US11620516B2 (en) * | 2019-12-23 | 2023-04-04 | Arm Limited | Specializing neural networks for heterogeneous systems |
CN111178490B (zh) * | 2019-12-31 | 2021-08-24 | 北京百度网讯科技有限公司 | 数据输出方法、获取方法、装置和电子设备 |
CN111126589B (zh) * | 2019-12-31 | 2022-05-20 | 昆仑芯(北京)科技有限公司 | 神经网络数据处理装置、方法和电子设备 |
KR102399197B1 (ko) | 2020-01-17 | 2022-05-18 | 경희대학교 산학협력단 | 이상치 인지 근사적 코딩을 수행하는 전자 장치 그리고 그것의 동작 방법 |
US11023400B1 (en) | 2020-01-20 | 2021-06-01 | International Business Machines Corporation | High performance DMA transfers in host bus adapters |
US20210224191A1 (en) * | 2020-01-22 | 2021-07-22 | Alibaba Group Holding Limited | Compression and decompression module in a cache controller for reducing off-chip data traffic |
KR102498066B1 (ko) * | 2020-02-20 | 2023-02-10 | 한국과학기술원 | 딥러닝 강화학습 가속기 |
KR20210108749A (ko) | 2020-02-26 | 2021-09-03 | 삼성전자주식회사 | 가속기, 가속기의 동작 방법 및 이를 포함한 가속기 시스템 |
CN111431539B (zh) * | 2020-03-04 | 2023-12-08 | 嘉楠明芯(北京)科技有限公司 | 一种神经网络数据的压缩方法、装置及计算机可读存储介质 |
CN111290979B (zh) * | 2020-03-23 | 2021-08-17 | 优刻得科技股份有限公司 | 数据传输方法、装置及系统 |
CN111522643A (zh) * | 2020-04-22 | 2020-08-11 | 杭州迪普科技股份有限公司 | 基于fpga的多队列调度方法、装置、计算机设备及存储介质 |
CN113592082A (zh) * | 2020-04-30 | 2021-11-02 | 意法半导体股份有限公司 | 用于从人工神经网络分配中间数据的设备和方法 |
KR20210136476A (ko) * | 2020-05-07 | 2021-11-17 | 삼성전자주식회사 | 쿼드 트리 방법의 파라미터들을 이용하여 압축하는 장치 및 방법 |
US20210377122A1 (en) * | 2020-05-26 | 2021-12-02 | Synopsys, Inc. | Mixed-precision neural networks |
GB202008299D0 (en) * | 2020-06-02 | 2020-07-15 | Imagination Tech Ltd | Manipulation of data in a memory |
US20230267309A1 (en) * | 2020-06-18 | 2023-08-24 | Interdigital Vc Holdings France, Sas | Systems and methods for encoding/decoding a deep neural network |
CN111723053A (zh) * | 2020-06-24 | 2020-09-29 | 北京航天数据股份有限公司 | 一种数据的压缩方法及装置、解压方法及装置 |
US11275701B2 (en) * | 2020-06-24 | 2022-03-15 | Qualcomm Incorporated | Secure timer synchronization between function block and external SOC |
US20220004399A1 (en) * | 2020-07-03 | 2022-01-06 | Mediatek Inc. | Dynamic loading neural network inference at dram/on-bus sram/serial flash for power optimization |
CN111884658A (zh) * | 2020-07-09 | 2020-11-03 | 上海兆芯集成电路有限公司 | 数据解压缩方法、数据压缩方法及卷积运算装置 |
US11720404B2 (en) * | 2020-07-16 | 2023-08-08 | Samsung Electronics Co., Ltd. | Systems and methods for arbitrating access to a shared resource |
JPWO2022014500A1 (zh) * | 2020-07-17 | 2022-01-20 | ||
CN111858058A (zh) * | 2020-07-24 | 2020-10-30 | 成都成信高科信息技术有限公司 | 基于并行计算的sgd负载均衡方法、装置及存储介质 |
FR3113158B1 (fr) * | 2020-08-03 | 2024-04-05 | Commissariat Energie Atomique | Architecture de calcul systolique pour la mise en œuvre de réseaux de neurones artificiels traitant plusieurs types de convolutions |
JP6835285B1 (ja) * | 2020-09-15 | 2021-02-24 | 富士電機株式会社 | データ圧縮方法、データ圧縮装置、データ圧縮プログラム、データ伸長方法、データ伸長装置およびデータ伸長プログラム |
US11470004B2 (en) | 2020-09-22 | 2022-10-11 | Advanced Micro Devices, Inc. | Graded throttling for network-on-chip traffic |
JP2022094508A (ja) | 2020-12-15 | 2022-06-27 | 富士通株式会社 | 演算処理装置、演算処理方法および演算処理プログラム |
TWI745227B (zh) * | 2021-02-01 | 2021-11-01 | 國立陽明交通大學 | 用於進行原始服務端與外地服務端之間的第三方認證的通訊系統及方法 |
KR102298766B1 (ko) * | 2021-02-15 | 2021-09-07 | 주식회사 딥이티 | 타겟 디바이스에 대한 딥러닝 모델 변환 장치 및 방법 |
US11256987B1 (en) * | 2021-06-02 | 2022-02-22 | SambaNova Systems, Inc. | Memory efficient dropout, with reordering of dropout mask elements |
JP2023018365A (ja) | 2021-07-27 | 2023-02-08 | 富士通株式会社 | 情報処理プログラム、情報処理方法及び情報処理装置 |
US20230079975A1 (en) * | 2021-09-10 | 2023-03-16 | Arm Limited | Power management for system-on-chip |
WO2023075564A1 (ko) * | 2021-11-01 | 2023-05-04 | 엘지전자 주식회사 | 피쳐 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 |
EP4191476A1 (en) * | 2021-12-01 | 2023-06-07 | Nokia Technologies Oy | Machine learning accelerator |
US11816364B2 (en) * | 2022-01-13 | 2023-11-14 | Microsoft Technology Licensing, Llc | Performance evaluation of an application based on detecting degradation caused by other computing processes |
CN114466082B (zh) * | 2022-01-29 | 2024-01-09 | 上海阵量智能科技有限公司 | 数据压缩、数据解压方法、系统及人工智能ai芯片 |
US11720252B1 (en) * | 2022-03-04 | 2023-08-08 | Microsoft Technology Licensing, Llc | Method and apparatus for compressing and decompressing sparse data sets |
US20230350678A1 (en) * | 2022-04-28 | 2023-11-02 | Qualcomm Incorporated | Instruction Set Architecture for Neural Network Quantization and Packing |
WO2023250093A1 (en) * | 2022-06-22 | 2023-12-28 | Brainchip, Inc. | Method and system for implementing temporal convolution in spatiotemporal neural networks |
KR20240002346A (ko) * | 2022-06-29 | 2024-01-05 | 삼성전자주식회사 | Ai 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법 |
KR20240007495A (ko) * | 2022-07-08 | 2024-01-16 | 리벨리온 주식회사 | 뉴럴 코어, 이를 포함하는 뉴럴 프로세싱 장치 및 뉴럴 프로세싱 장치의 데이터 로드 방법 |
CN115309349B (zh) * | 2022-10-12 | 2023-01-20 | 深圳鲲云信息科技有限公司 | 深度学习的稀疏数据存储方法、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488563A (zh) * | 2015-12-16 | 2016-04-13 | 重庆大学 | 面向深度学习的稀疏自适应神经网络、算法及实现装置 |
CN105874477A (zh) * | 2014-01-23 | 2016-08-17 | 高通股份有限公司 | 配置稀疏神经网络 |
CN106204468A (zh) * | 2016-06-27 | 2016-12-07 | 深圳市未来媒体技术研究院 | 一种基于ReLU卷积神经网络的图像去噪方法 |
CN106462798A (zh) * | 2014-04-15 | 2017-02-22 | 英特尔公司 | 用于使用关联存储器的神经形态图压缩的方法、系统和计算机程序产品 |
CN106529670A (zh) * | 2016-10-27 | 2017-03-22 | 中国科学院计算技术研究所 | 一种基于权重压缩的神经网络处理器、设计方法、芯片 |
Family Cites Families (188)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4298954A (en) | 1979-04-30 | 1981-11-03 | International Business Machines Corporation | Alternating data buffers when one buffer is empty and another buffer is variably full of data |
JPH0642237B2 (ja) | 1983-12-28 | 1994-06-01 | 株式会社日立製作所 | 並列処理装置 |
EP0340901A3 (en) * | 1988-03-23 | 1992-12-30 | Du Pont Pixel Systems Limited | Access system for dual port memory |
EP0334624A3 (en) * | 1988-03-23 | 1993-03-31 | Du Pont Pixel Systems Limited | Microcoded computer system |
US5056015A (en) * | 1988-03-23 | 1991-10-08 | Du Pont Pixel Systems Limited | Architectures for serial or parallel loading of writable control store |
JP2703010B2 (ja) | 1988-12-23 | 1998-01-26 | 株式会社日立製作所 | ニユーラルネツト信号処理プロセツサ |
US5369773A (en) | 1991-04-26 | 1994-11-29 | Adaptive Solutions, Inc. | Neural network using virtual-zero |
US5357597A (en) * | 1991-06-24 | 1994-10-18 | International Business Machines Corporation | Convolutional expert neural system (ConExNS) |
US5487153A (en) | 1991-08-30 | 1996-01-23 | Adaptive Solutions, Inc. | Neural network sequencer and interface apparatus |
WO1993014459A1 (en) | 1992-01-17 | 1993-07-22 | Caelum Research Corporation | Modular parallel processing system |
JPH06195322A (ja) | 1992-10-29 | 1994-07-15 | Hitachi Ltd | 汎用型ニューロコンピュータとして用いられる情報処理装置 |
JP2938711B2 (ja) | 1993-05-10 | 1999-08-25 | 松下電器産業株式会社 | 並列計算機 |
US5859990A (en) | 1995-12-29 | 1999-01-12 | Intel Corporation | System for transferring data segments from a first storage device to a second storage device using an alignment stage including even and odd temporary devices |
US5933654A (en) | 1996-09-24 | 1999-08-03 | Allen-Bradley Company, Llc | Dynamic buffer fracturing by a DMA controller |
US6006325A (en) * | 1996-12-19 | 1999-12-21 | Institute For The Development Of Emerging Architectures, L.L.C. | Method and apparatus for instruction and data serialization in a computer processor |
US6547364B2 (en) * | 1997-07-12 | 2003-04-15 | Silverbrook Research Pty Ltd | Printing cartridge with an integrated circuit device |
KR100258355B1 (ko) * | 1997-12-26 | 2000-06-01 | 김영환 | 8 비트 병렬 셀 단위 인터리버 |
US6307867B1 (en) | 1998-05-14 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Data transmission over a communications link with variable transmission rates |
US6654761B2 (en) * | 1998-07-29 | 2003-11-25 | Inxight Software, Inc. | Controlling which part of data defining a node-link structure is in memory |
JP2000059227A (ja) | 1998-08-07 | 2000-02-25 | Matsushita Electric Ind Co Ltd | 符号化/復号化装置、及び符号化/復号化方法 |
JP2000261416A (ja) * | 1999-03-09 | 2000-09-22 | Nec Eng Ltd | 二重化データ転送回路 |
US6785239B1 (en) | 1999-06-01 | 2004-08-31 | Cisco Technology, Inc. | Reducing delays in a communication network using a re-fragmentation pipeline |
JP2001188767A (ja) | 1999-12-28 | 2001-07-10 | Fuji Xerox Co Ltd | ニューラルネットワーク演算装置及びニューラルネットワークの演算方法 |
US6424737B1 (en) | 2000-01-24 | 2002-07-23 | Sony Corporation | Method and apparatus of compressing images using localized radon transforms |
WO2001069411A2 (en) | 2000-03-10 | 2001-09-20 | Arc International Plc | Memory interface and method of interfacing between functional entities |
GB2382899B (en) | 2000-12-29 | 2003-12-17 | Zarlink Semiconductor Ltd | A data queue system |
JP2002259939A (ja) * | 2001-03-05 | 2002-09-13 | Kitakiyuushiyuu Techno Center:Kk | 連想メモリーベースコンピュータ |
US6990079B2 (en) | 2001-06-08 | 2006-01-24 | International Business Machines Corporation | Optimizing fragment sizes in frame relay networks |
US7012893B2 (en) | 2001-06-12 | 2006-03-14 | Smartpackets, Inc. | Adaptive control of data packet size in networks |
US7106968B2 (en) | 2001-07-06 | 2006-09-12 | Optix Networks Inc. | Combined SONET/SDH and OTN architecture |
US6954744B2 (en) * | 2001-08-29 | 2005-10-11 | Honeywell International, Inc. | Combinatorial approach for supervised neural network learning |
US6836767B2 (en) | 2001-10-03 | 2004-12-28 | International Business Machines Corporation | Pipelined hardware implementation of a neural network circuit |
US6961719B1 (en) * | 2002-01-07 | 2005-11-01 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Hybrid neural network and support vector machine method for optimization |
US7245627B2 (en) | 2002-04-23 | 2007-07-17 | Mellanox Technologies Ltd. | Sharing a network interface card among multiple hosts |
US7539608B1 (en) | 2002-05-10 | 2009-05-26 | Oracle International Corporation | Techniques for determining effects on system performance of a memory management parameter |
US7020207B1 (en) * | 2002-12-02 | 2006-03-28 | Hitachi, Ltd. | Video error concealment mechanism for block based video decompression |
US7444637B2 (en) | 2003-02-18 | 2008-10-28 | Microsoft Corporation | Systems and methods for scheduling coprocessor resources in a computing system |
US7137021B2 (en) * | 2003-05-15 | 2006-11-14 | International Business Machines Corporation | Power saving in FPU with gated power based on opcodes and data |
GB0313986D0 (en) * | 2003-06-17 | 2003-07-23 | Zarlink Semiconductor Inc | Data memory extension for use in double buffered TDM switches |
US20050125797A1 (en) * | 2003-12-09 | 2005-06-09 | International Business Machines Corporation | Resource management for a system-on-chip (SoC) |
CN100437456C (zh) | 2003-12-09 | 2008-11-26 | 松下电器产业株式会社 | 电子装置及其控制方法、主机装置及其控制方法 |
US7480640B1 (en) * | 2003-12-16 | 2009-01-20 | Quantum Leap Research, Inc. | Automated method and system for generating models from data |
US7376853B2 (en) | 2004-03-15 | 2008-05-20 | Canon Kabushiki Kaisha | Network apparatus, method for controlling the same, and program for the same |
US7284075B2 (en) | 2004-03-23 | 2007-10-16 | Intel Corporation | Inbound packet placement in host memory |
US7644239B2 (en) * | 2004-05-03 | 2010-01-05 | Microsoft Corporation | Non-volatile memory cache performance improvement |
US9143393B1 (en) * | 2004-05-25 | 2015-09-22 | Red Lambda, Inc. | System, method and apparatus for classifying digital data |
US20050289253A1 (en) * | 2004-06-24 | 2005-12-29 | Edirisooriya Samantha J | Apparatus and method for a multi-function direct memory access core |
US7363397B2 (en) | 2004-08-26 | 2008-04-22 | International Business Machines Corporation | System and method for DMA controller with multi-dimensional line-walking functionality |
US20060050693A1 (en) * | 2004-09-03 | 2006-03-09 | James Bury | Building data packets for an advanced switching fabric |
US20060100997A1 (en) * | 2004-10-27 | 2006-05-11 | Wall Gary C | Data caching |
US8190796B2 (en) * | 2004-11-02 | 2012-05-29 | Standard Microsystems Corporation | Hardware supported peripheral component memory alignment method |
CN1790918A (zh) | 2004-12-17 | 2006-06-21 | 中国科学院半导体研究所 | 基于虚拟信源和神经网络的无损数据压缩方法 |
US20060143401A1 (en) * | 2004-12-27 | 2006-06-29 | Jacob Doweck | Method and apparatus for prefetching based on cache fill buffer hits |
EP1701249A1 (en) * | 2005-03-11 | 2006-09-13 | Interuniversitair Microelektronica Centrum Vzw | Ultra low power ASIP (Application-Domain specific Instruction-set Processor) microcomputer |
US7793040B2 (en) * | 2005-06-01 | 2010-09-07 | Microsoft Corporation | Content addressable memory architecture |
US7747070B2 (en) * | 2005-08-31 | 2010-06-29 | Microsoft Corporation | Training convolutional neural networks on graphics processing units |
CN101401100B (zh) * | 2006-03-14 | 2012-10-10 | 国际商业机器公司 | 通过确定输入数据中的模式进行数据挖掘 |
EP2002617B1 (en) * | 2006-03-31 | 2012-01-25 | QUALCOMM Incorporated | Memory management for high speed media access control |
US9542642B2 (en) | 2006-04-06 | 2017-01-10 | Samuel F. Wood | Packet data neural network system and method |
US7764710B1 (en) * | 2006-04-25 | 2010-07-27 | Altera Corporation | Method and apparatus for processing communication protocol frame input |
US7620784B2 (en) * | 2006-06-09 | 2009-11-17 | Microsoft Corporation | High speed nonvolatile memory device using parallel writing among a plurality of interfaces |
US8718065B2 (en) | 2006-08-15 | 2014-05-06 | Broadcom Corporation | Transmission using multiple physical interface |
US7496707B2 (en) | 2006-08-22 | 2009-02-24 | International Business Machines Corporation | Dynamically scalable queues for performance driven PCI express memory traffic |
US20080091868A1 (en) * | 2006-10-17 | 2008-04-17 | Shay Mizrachi | Method and System for Delayed Completion Coalescing |
US8249171B2 (en) | 2006-11-10 | 2012-08-21 | Texas Instruments Incorporated | MPEG-2 transport stream packet synchronizer |
US20080168013A1 (en) * | 2006-12-05 | 2008-07-10 | Paul Cadaret | Scalable pattern recognition system |
WO2008070802A2 (en) * | 2006-12-06 | 2008-06-12 | Fusion Multisystems, Inc. (Dba Fusion-Io) | Apparatus, system, and method for an in-server storage area network |
EP2122542B1 (en) | 2006-12-08 | 2017-11-01 | Medhat Moussa | Architecture, system and method for artificial neural network implementation |
CN101221541B (zh) * | 2007-01-09 | 2011-04-20 | 张立军 | 用于soc的可编程通信控制器 |
US7620749B2 (en) * | 2007-01-10 | 2009-11-17 | International Business Machines Corporation | Descriptor prefetch mechanism for high latency and out of order DMA device |
JP5184824B2 (ja) * | 2007-06-15 | 2013-04-17 | キヤノン株式会社 | 演算処理装置及び方法 |
US8190834B2 (en) | 2007-06-15 | 2012-05-29 | Emc Corporation | Process for contiguously streaming data from a content addressed storage system |
US7822951B2 (en) | 2007-08-01 | 2010-10-26 | Advanced Micro Devices, Inc. | System and method of load-store forwarding |
US8200992B2 (en) * | 2007-09-24 | 2012-06-12 | Cognitive Electronics, Inc. | Parallel processing computer systems with reduced power consumption and methods for providing the same |
CN101183873B (zh) | 2007-12-11 | 2011-09-28 | 广州中珩电子科技有限公司 | 一种基于bp神经网络的嵌入式系统数据压缩解压缩方法 |
US8244953B1 (en) | 2007-12-18 | 2012-08-14 | Emc Corporation | System and method for faster data retrieval from tape media |
US8244721B2 (en) * | 2008-02-13 | 2012-08-14 | Microsoft Corporation | Using related users data to enhance web search |
US7730244B1 (en) * | 2008-03-27 | 2010-06-01 | Xilinx, Inc. | Translation of commands in an interconnection of an embedded processor block core in an integrated circuit |
US8201166B2 (en) * | 2008-04-30 | 2012-06-12 | Hewlett-Packard Development Company, L.P. | Virtualization platform configured with virtual connect control |
GB0811057D0 (en) | 2008-06-17 | 2008-07-23 | Univ Ulster | Artificial neural network architecture |
US8566515B2 (en) * | 2009-01-12 | 2013-10-22 | Maxim Integrated Products, Inc. | Memory subsystem |
US20100180100A1 (en) | 2009-01-13 | 2010-07-15 | Mavrix Technology, Inc. | Matrix microprocessor and method of operation |
US8392687B2 (en) * | 2009-01-21 | 2013-03-05 | Micron Technology, Inc. | Solid state memory formatting |
JP5458629B2 (ja) * | 2009-03-31 | 2014-04-02 | ブラザー工業株式会社 | ノード装置、ノード処理プログラム及び検索方法 |
US20100257174A1 (en) | 2009-04-02 | 2010-10-07 | Matthew Dino Minuti | Method for data compression utilizing pattern-analysis and matching means such as neural networks |
US20100281192A1 (en) | 2009-04-30 | 2010-11-04 | Novafora, Inc. | Apparatus and method for transferring data within a data processing system |
EP2259214B1 (en) | 2009-06-04 | 2013-02-27 | Honda Research Institute Europe GmbH | Implementing a neural associative memory based on non-linear learning of discrete synapses |
CN102460376B (zh) * | 2009-06-26 | 2016-05-18 | 英特尔公司 | 无约束事务存储器(utm)系统的优化 |
US8442927B2 (en) | 2009-07-30 | 2013-05-14 | Nec Laboratories America, Inc. | Dynamically configurable, multi-ported co-processor for convolutional neural networks |
US8316194B2 (en) * | 2009-12-15 | 2012-11-20 | Intel Corporation | Mechanisms to accelerate transactions using buffered stores |
US20110153877A1 (en) * | 2009-12-23 | 2011-06-23 | King Steven R | Method and apparatus to exchange data via an intermediary translation and queue manager |
WO2011085934A1 (en) * | 2010-01-18 | 2011-07-21 | Xelerated Ab | A packet buffer comprising a data section and a data description section |
US8713260B2 (en) | 2010-04-02 | 2014-04-29 | Intel Corporation | Adaptive block pre-fetching method and system |
US8549506B2 (en) * | 2010-04-27 | 2013-10-01 | Microsoft Corporation | Resumable methods |
US8965819B2 (en) * | 2010-08-16 | 2015-02-24 | Oracle International Corporation | System and method for effective caching using neural networks |
US8701099B2 (en) * | 2010-11-02 | 2014-04-15 | International Business Machines Corporation | Accelerating generic loop iterators using speculative execution |
US9300321B2 (en) * | 2010-11-05 | 2016-03-29 | University of Maribor | Light detection and ranging (LiDAR)data compression and decompression methods and apparatus |
US8515882B2 (en) | 2010-11-18 | 2013-08-20 | International Business Machines Corporation | Efficient storage of individuals for optimization simulation |
CN102480337B (zh) | 2010-11-30 | 2016-04-13 | 国际商业机器公司 | 无线电软件系统以及用于其的解码装置和方法 |
US8966413B2 (en) * | 2011-02-17 | 2015-02-24 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for a chip generator |
US8892488B2 (en) * | 2011-06-01 | 2014-11-18 | Nec Laboratories America, Inc. | Document classification with weighted supervised n-gram embedding |
WO2012170904A2 (en) * | 2011-06-10 | 2012-12-13 | Bytemobile, Inc. | Adaptive bitrate management on progressive download with indexed media files |
CN102332162A (zh) | 2011-09-19 | 2012-01-25 | 西安百利信息科技有限公司 | 基于人工神经网络的医学图像兴趣区自动识别和分级压缩方法 |
US9015092B2 (en) * | 2012-06-04 | 2015-04-21 | Brain Corporation | Dynamically reconfigurable stochastic learning apparatus and methods |
US9326075B2 (en) | 2011-10-07 | 2016-04-26 | Cochlear Limited | Flexible protocol for an implanted prosthesis |
US9235799B2 (en) * | 2011-11-26 | 2016-01-12 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
CN102523452B (zh) | 2011-12-29 | 2014-12-17 | 西安空间无线电技术研究所 | 图像转换压缩传输方法 |
CN102609222B (zh) * | 2012-02-13 | 2015-03-25 | 山东华芯半导体有限公司 | 基于命令描述符的闪存控制方法 |
US9128925B2 (en) * | 2012-04-24 | 2015-09-08 | Freescale Semiconductor, Inc. | System and method for direct memory access buffer utilization by setting DMA controller with plurality of arbitration weights associated with different DMA engines |
US9703500B2 (en) * | 2012-04-25 | 2017-07-11 | International Business Machines Corporation | Reducing power consumption by migration of data within a tiered storage system |
US9509632B2 (en) * | 2012-04-25 | 2016-11-29 | Empire Technology Development Llc | Workload prediction for network-based computing |
US9015096B2 (en) * | 2012-05-30 | 2015-04-21 | Qualcomm Incorporated | Continuous time spiking neural network event-based simulation that schedules co-pending events using an indexable list of nodes |
US9432489B2 (en) * | 2012-06-05 | 2016-08-30 | Intel Corporation | Systems and methods for processing encoded data streams |
US9159020B2 (en) * | 2012-09-14 | 2015-10-13 | International Business Machines Corporation | Multiplexing physical neurons to optimize power and area |
US20160013773A1 (en) * | 2012-11-06 | 2016-01-14 | Pavel Dourbal | Method and apparatus for fast digital filtering and signal processing |
WO2014085975A1 (zh) * | 2012-12-04 | 2014-06-12 | 中国科学院半导体研究所 | 可动态重构的多级并行单指令多数据阵列处理系统 |
US9348601B2 (en) | 2012-12-26 | 2016-05-24 | Intel Corporation | Coalescing adjacent gather/scatter operations |
WO2014116712A1 (en) * | 2013-01-22 | 2014-07-31 | Samplify Systems, Inc. | Data compression and decompression using simd instructions |
US10909137B2 (en) | 2014-10-06 | 2021-02-02 | Fisher-Rosemount Systems, Inc. | Streaming data for analytics in process control systems |
CN104050200B (zh) | 2013-03-15 | 2017-12-08 | 伊姆西公司 | 用于数据拷贝的方法和装置 |
US9760346B2 (en) * | 2013-05-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Deeply parallel source code compilation |
US9053015B2 (en) | 2013-06-17 | 2015-06-09 | Topcon Positioning Systems, Inc. | NAND flash memory interface controller with GNSS receiver firmware booting capability |
US20150081696A1 (en) * | 2013-09-19 | 2015-03-19 | Marketwire L.P. | Systems and Methods for Actively Composing Content for Use in Continuous Social Communication |
US9280465B2 (en) * | 2013-10-08 | 2016-03-08 | Globalfoundries Inc. | Techniques for moving checkpoint-based high-availability log and data directly from a producer cache to a consumer cache |
US20150286873A1 (en) * | 2014-04-03 | 2015-10-08 | Bruce L. Davis | Smartphone-based methods and systems |
US9286171B2 (en) * | 2013-12-12 | 2016-03-15 | International Business Machines Corporation | Priming failover of stateful offload adapters |
DE112013007700T5 (de) * | 2013-12-23 | 2016-09-08 | Intel Corporation | Eingabe-Ausgabe-Datenausrichtung |
US9851771B2 (en) | 2013-12-28 | 2017-12-26 | Intel Corporation | Dynamic power measurement and estimation to improve memory subsystem power performance |
US10097372B2 (en) * | 2014-01-09 | 2018-10-09 | Ciena Corporation | Method for resource optimized network virtualization overlay transport in virtualized data center environments |
EP2896428B1 (fr) * | 2014-01-16 | 2016-11-09 | Sorin CRM SAS | Ensemble de réseau de neurones pour l'évaluation et l'adaptation d'une thérapie antitachycardique par un défibrillateur implantable |
US9563369B2 (en) * | 2014-04-14 | 2017-02-07 | Microsoft Technology Licensing, Llc | Fine-grained bandwidth provisioning in a memory controller |
US9219499B2 (en) | 2014-05-16 | 2015-12-22 | Robert Bosch Gmbh | Run time compression method for a vehicle communication bus |
US9892125B1 (en) * | 2014-05-23 | 2018-02-13 | MapD Technologies, Inc. | Method for logging update queries |
US9959142B2 (en) | 2014-06-17 | 2018-05-01 | Mediatek Inc. | Dynamic task scheduling method for dispatching sub-tasks to computing devices of heterogeneous computing system and related computer readable medium |
RU2666631C2 (ru) * | 2014-09-12 | 2018-09-11 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Обучение dnn-студента посредством распределения вывода |
US9990307B1 (en) | 2014-10-29 | 2018-06-05 | Netronome Systems, Inc. | Split packet transmission DMA engine |
EP3035204B1 (en) | 2014-12-19 | 2018-08-15 | Intel Corporation | Storage device and method for performing convolution operations |
EP3035249B1 (en) | 2014-12-19 | 2019-11-27 | Intel Corporation | Method and apparatus for distributed and cooperative computation in artificial neural networks |
US10223635B2 (en) | 2015-01-22 | 2019-03-05 | Qualcomm Incorporated | Model compression and fine-tuning |
CN104573064B (zh) * | 2015-01-23 | 2017-12-08 | 四川中科腾信科技有限公司 | 一种大数据环境下的数据处理方法 |
US10234930B2 (en) * | 2015-02-13 | 2019-03-19 | Intel Corporation | Performing power management in a multicore processor |
CA2923600A1 (en) * | 2015-03-12 | 2016-09-12 | Staples, Inc. | Review sentiment analysis |
US10262190B2 (en) * | 2015-03-26 | 2019-04-16 | Beijing Kuangshi Technology Co., Ltd. | Method, system, and computer program product for recognizing face |
US9378044B1 (en) * | 2015-03-28 | 2016-06-28 | Vmware, Inc. | Method and system that anticipates deleterious virtual-machine state changes within a virtualization layer |
US9928144B2 (en) * | 2015-03-30 | 2018-03-27 | Commvault Systems, Inc. | Storage management of data using an open-archive architecture, including streamlined access to primary data originally stored on network-attached storage and archived to secondary storage |
FR3035243B1 (fr) * | 2015-04-20 | 2018-06-29 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Placement d'une tache de calcul sur un processeur fonctionnellement asymetrique |
US9965824B2 (en) * | 2015-04-23 | 2018-05-08 | Google Llc | Architecture for high performance, power efficient, programmable image processing |
US20160328644A1 (en) | 2015-05-08 | 2016-11-10 | Qualcomm Incorporated | Adaptive selection of artificial neural networks |
US20160335119A1 (en) | 2015-05-12 | 2016-11-17 | minds.ai inc | Batch-based neural network system |
US10083395B2 (en) * | 2015-05-21 | 2018-09-25 | Google Llc | Batch processing in a neural network processor |
US9595002B2 (en) * | 2015-05-29 | 2017-03-14 | Sas Institute Inc. | Normalizing electronic communications using a vector having a repeating substring as input for a neural network |
CN106203619B (zh) * | 2015-05-29 | 2022-09-13 | 三星电子株式会社 | 数据优化的神经网络遍历 |
US20160350653A1 (en) * | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
US20160358069A1 (en) * | 2015-06-03 | 2016-12-08 | Samsung Electronics Co., Ltd. | Neural network suppression |
CN106250981B (zh) * | 2015-06-10 | 2022-04-01 | 三星电子株式会社 | 减少存储器访问和网络内带宽消耗的脉冲神经网络 |
US10275001B2 (en) | 2015-06-26 | 2019-04-30 | Intel Corporation | Thermal throttling of electronic devices |
US20160378491A1 (en) | 2015-06-26 | 2016-12-29 | Microsoft Technology Licensing, Llc | Determination of target location for transfer of processor control |
US20160379109A1 (en) * | 2015-06-29 | 2016-12-29 | Microsoft Technology Licensing, Llc | Convolutional neural networks on hardware accelerators |
US11244225B2 (en) | 2015-07-10 | 2022-02-08 | Samsung Electronics Co., Ltd. | Neural network processor configurable using macro instructions |
DK3356999T3 (da) | 2015-10-04 | 2020-02-03 | Atomwise Inc | System til anvendelse af et konvolutionsnetværk til rumlige data |
US11029949B2 (en) * | 2015-10-08 | 2021-06-08 | Shanghai Zhaoxin Semiconductor Co., Ltd. | Neural network unit |
CN106503796B (zh) * | 2015-10-08 | 2019-02-12 | 上海兆芯集成电路有限公司 | 多运算神经网络单元 |
US10471594B2 (en) * | 2015-12-01 | 2019-11-12 | Kindred Systems Inc. | Systems, devices, and methods for the distribution and collection of multimodal data associated with robots |
US10007519B2 (en) * | 2015-12-22 | 2018-06-26 | Intel IP Corporation | Instructions and logic for vector bit field compression and expansion |
US11232085B2 (en) * | 2016-01-07 | 2022-01-25 | Amazon Technologies, Inc. | Outlier detection for streaming data |
CN105512723B (zh) * | 2016-01-20 | 2018-02-16 | 南京艾溪信息科技有限公司 | 一种用于稀疏连接的人工神经网络计算装置和方法 |
US10565207B2 (en) * | 2016-04-12 | 2020-02-18 | Hsilin Huang | Method, system and program product for mask-based compression of a sparse matrix |
CN106203624B (zh) * | 2016-06-23 | 2019-06-21 | 上海交通大学 | 基于深度神经网络的矢量量化系统及方法 |
US10528864B2 (en) * | 2016-08-11 | 2020-01-07 | Nvidia Corporation | Sparse convolutional neural network accelerator |
WO2018058452A1 (zh) * | 2016-09-29 | 2018-04-05 | 北京中科寒武纪科技有限公司 | 一种执行人工神经网络运算的装置和方法 |
US10296292B2 (en) * | 2016-10-20 | 2019-05-21 | Advanced Micro Devices, Inc. | Dynamic variable precision computation |
CN106530200B (zh) | 2016-10-23 | 2020-01-07 | 深圳大学 | 一种基于深度学习模型的隐写图像检测方法及系统 |
US9959498B1 (en) | 2016-10-27 | 2018-05-01 | Google Llc | Neural network instruction set architecture |
US10067710B2 (en) * | 2016-11-23 | 2018-09-04 | Advanced Micro Devices, Inc. | Detecting buffer overflows in general-purpose GPU applications |
US10037490B2 (en) * | 2016-12-13 | 2018-07-31 | Google Llc | Performing average pooling in hardware |
US20180164866A1 (en) * | 2016-12-13 | 2018-06-14 | Qualcomm Incorporated | Low-power architecture for sparse neural network |
US10169296B2 (en) * | 2016-12-30 | 2019-01-01 | Intel Corporation | Distributed matrix multiplication for neural networks |
US10417364B2 (en) | 2017-01-04 | 2019-09-17 | Stmicroelectronics International N.V. | Tool to create a reconfigurable interconnect framework |
US10096134B2 (en) * | 2017-02-01 | 2018-10-09 | Nvidia Corporation | Data compaction and memory bandwidth reduction for sparse neural networks |
US10333549B1 (en) * | 2017-03-08 | 2019-06-25 | iDensify LLC | System and components for encoding integers |
US10909447B2 (en) | 2017-03-09 | 2021-02-02 | Google Llc | Transposing neural network matrices in hardware |
US10795836B2 (en) | 2017-04-17 | 2020-10-06 | Microsoft Technology Licensing, Llc | Data processing performance enhancement for neural networks using a virtualized data iterator |
US10671349B2 (en) * | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US20190081637A1 (en) * | 2017-09-08 | 2019-03-14 | Nvidia Corporation | Data inspection for compression/decompression configuration and data type determination |
KR20190066473A (ko) * | 2017-12-05 | 2019-06-13 | 삼성전자주식회사 | 뉴럴 네트워크에서 컨볼루션 연산을 처리하는 방법 및 장치 |
US20200250842A1 (en) * | 2019-01-31 | 2020-08-06 | Samsung Electronics Co., Ltd. | Method and apparatus with convolution neural network processing |
US11671111B2 (en) * | 2019-04-17 | 2023-06-06 | Samsung Electronics Co., Ltd. | Hardware channel-parallel data compression/decompression |
CN112465129B (zh) * | 2019-09-09 | 2024-01-09 | 上海登临科技有限公司 | 片内异构人工智能处理器 |
-
2017
- 2017-09-01 US US15/694,663 patent/US10795836B2/en active Active
- 2017-09-12 US US15/702,311 patent/US10540584B2/en active Active
- 2017-09-28 US US15/719,351 patent/US11256976B2/en active Active
- 2017-10-17 US US15/786,514 patent/US20180300602A1/en not_active Abandoned
- 2017-11-15 US US15/813,952 patent/US11182667B2/en active Active
- 2017-12-01 US US15/829,832 patent/US10963403B2/en active Active
-
2018
- 2018-01-26 US US15/881,519 patent/US11010315B2/en active Active
- 2018-04-06 WO PCT/US2018/026354 patent/WO2018194847A1/en unknown
- 2018-04-06 EP EP18720710.5A patent/EP3612942B1/en active Active
- 2018-04-06 CN CN201880024892.5A patent/CN110506260B/zh active Active
- 2018-04-06 WO PCT/US2018/026356 patent/WO2018194849A1/en unknown
- 2018-04-06 WO PCT/US2018/026355 patent/WO2018194848A1/en unknown
- 2018-04-06 CN CN201880025244.1A patent/CN110520856B/zh active Active
- 2018-04-06 WO PCT/US2018/026352 patent/WO2018194845A1/en unknown
- 2018-04-06 EP EP18720861.6A patent/EP3612946B1/en active Active
- 2018-04-06 EP EP18724637.6A patent/EP3612948A1/en active Pending
- 2018-04-06 CN CN202310874704.0A patent/CN116909985A/zh active Pending
- 2018-04-06 EP EP18720863.2A patent/EP3612989A1/en active Pending
- 2018-04-06 CN CN201880025415.0A patent/CN110546628B/zh active Active
- 2018-04-06 CN CN201880025417.XA patent/CN110520846B/zh active Active
- 2018-04-06 WO PCT/US2018/026358 patent/WO2018194851A1/en unknown
- 2018-04-06 CN CN201880025503.0A patent/CN110520853B/zh active Active
- 2018-04-06 EP EP18720860.8A patent/EP3612945A1/en active Pending
- 2018-04-06 EP EP18725024.6A patent/EP3612937A1/en not_active Withdrawn
- 2018-04-06 WO PCT/US2018/026357 patent/WO2018194850A1/en unknown
- 2018-04-06 CN CN201880025504.5A patent/CN110520857B/zh active Active
- 2018-04-06 CN CN201880025227.8A patent/CN110520870B/zh active Active
- 2018-04-06 WO PCT/US2018/026353 patent/WO2018194846A1/en unknown
- 2018-04-06 EP EP18720862.4A patent/EP3612947B1/en active Active
- 2018-04-06 CN CN202310865940.6A patent/CN116909984A/zh active Pending
- 2018-04-11 US US15/950,644 patent/US10628345B2/en active Active
- 2018-04-11 US US15/950,550 patent/US11100390B2/en active Active
- 2018-04-11 US US15/951,106 patent/US11100391B2/en active Active
- 2018-04-12 US US15/951,690 patent/US11205118B2/en active Active
- 2018-04-13 WO PCT/US2018/027674 patent/WO2018194939A1/en unknown
- 2018-04-13 WO PCT/US2018/027680 patent/WO2018194940A1/en active Application Filing
- 2018-04-13 EP EP18721658.5A patent/EP3612990B1/en active Active
- 2018-04-13 CN CN201880025488.XA patent/CN110537194B/zh active Active
- 2018-04-13 US US15/953,195 patent/US11341399B2/en active Active
- 2018-04-13 US US15/953,388 patent/US11405051B2/en active Active
- 2018-04-13 US US15/953,330 patent/US11476869B2/en active Active
- 2018-04-13 US US15/953,356 patent/US11528033B2/en active Active
- 2018-04-16 JP JP2019555659A patent/JP7004741B2/ja active Active
- 2018-04-16 CN CN201880025426.9A patent/CN110678843B/zh active Active
- 2018-04-16 EP EP18723123.8A patent/EP3612936B1/en active Active
- 2018-04-16 CN CN201880025126.0A patent/CN110546610B/zh active Active
- 2018-04-16 WO PCT/US2018/027840 patent/WO2018194998A1/en unknown
- 2018-04-16 EP EP18724644.2A patent/EP3612988A2/en not_active Withdrawn
- 2018-04-16 MX MX2019012388A patent/MX2019012388A/es unknown
- 2018-04-16 CN CN201880025130.7A patent/CN110546654B/zh active Active
- 2018-04-16 WO PCT/US2018/027835 patent/WO2018194994A2/en unknown
- 2018-04-16 EP EP18722339.1A patent/EP3612933A1/en active Pending
- 2018-04-16 AU AU2018256212A patent/AU2018256212B2/en active Active
- 2018-04-16 WO PCT/US2018/027837 patent/WO2018194996A1/en unknown
- 2018-04-16 WO PCT/US2018/027828 patent/WO2018194988A1/en unknown
- 2018-04-16 CN CN201880025480.3A patent/CN110546611B/zh active Active
- 2018-04-16 NZ NZ756870A patent/NZ756870A/en unknown
- 2018-04-16 WO PCT/US2018/027836 patent/WO2018194995A1/en unknown
- 2018-04-16 CA CA3056660A patent/CA3056660A1/en active Pending
- 2018-04-16 SG SG11201909175X patent/SG11201909175XA/en unknown
- 2018-04-16 EP EP18721932.4A patent/EP3613026B1/en active Active
- 2018-04-16 MY MYPI2019006051A patent/MY201868A/en unknown
- 2018-04-16 RU RU2019136750A patent/RU2767447C2/ru active
- 2018-04-16 BR BR112019021541-7A patent/BR112019021541A2/pt unknown
- 2018-04-16 WO PCT/US2018/027834 patent/WO2018194993A1/en unknown
- 2018-04-16 CN CN201880025508.3A patent/CN110582785B/zh active Active
- 2018-04-16 CN CN201880025420.1A patent/CN110520909B/zh active Active
- 2018-04-16 EP EP18722340.9A patent/EP3612934A1/en active Pending
- 2018-04-16 EP EP18721665.0A patent/EP3612991B1/en active Active
- 2018-04-16 KR KR1020197033456A patent/KR102596644B1/ko active IP Right Grant
-
2019
- 2019-09-05 ZA ZA2019/05874A patent/ZA201905874B/en unknown
- 2019-09-14 PH PH12019550191A patent/PH12019550191A1/en unknown
- 2019-10-04 CO CONC2019/0011014A patent/CO2019011014A2/es unknown
- 2019-10-07 IL IL269888A patent/IL269888B/en unknown
- 2019-10-07 CL CL2019002864A patent/CL2019002864A1/es unknown
-
2020
- 2020-04-08 US US16/843,800 patent/US11176448B2/en active Active
- 2020-07-29 US US16/942,728 patent/US11030131B2/en active Active
-
2021
- 2021-04-15 US US17/232,074 patent/US11750212B2/en active Active
-
2022
- 2022-01-25 US US17/583,499 patent/US11722147B2/en active Active
- 2022-11-11 US US18/054,851 patent/US11909422B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105874477A (zh) * | 2014-01-23 | 2016-08-17 | 高通股份有限公司 | 配置稀疏神经网络 |
CN106462798A (zh) * | 2014-04-15 | 2017-02-22 | 英特尔公司 | 用于使用关联存储器的神经形态图压缩的方法、系统和计算机程序产品 |
CN105488563A (zh) * | 2015-12-16 | 2016-04-13 | 重庆大学 | 面向深度学习的稀疏自适应神经网络、算法及实现装置 |
CN106204468A (zh) * | 2016-06-27 | 2016-12-07 | 深圳市未来媒体技术研究院 | 一种基于ReLU卷积神经网络的图像去噪方法 |
CN106529670A (zh) * | 2016-10-27 | 2017-03-22 | 中国科学院计算技术研究所 | 一种基于权重压缩的神经网络处理器、设计方法、芯片 |
Non-Patent Citations (1)
Title |
---|
Cnvlutin: Ineffectual-Neuron-Free Deep Neural Network Computing;Jorge A等;《2016 ACM/IEEE 43rd Annual International Symposium Computer Architecture》;20161231;正文第1-13页 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110546611B (zh) | 通过跳过处理操作来减少神经网络处理器中的功耗 | |
US11494237B2 (en) | Managing workloads of a deep neural network processor | |
US11507349B2 (en) | Neural processing element with single instruction multiple data (SIMD) compute lanes | |
US20200410329A1 (en) | Increased precision neural processing element |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |