CN109191364A - 加速人工智能处理器的硬件架构 - Google Patents

加速人工智能处理器的硬件架构 Download PDF

Info

Publication number
CN109191364A
CN109191364A CN201810862182.1A CN201810862182A CN109191364A CN 109191364 A CN109191364 A CN 109191364A CN 201810862182 A CN201810862182 A CN 201810862182A CN 109191364 A CN109191364 A CN 109191364A
Authority
CN
China
Prior art keywords
engine
tensor
renderer
pincushion
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810862182.1A
Other languages
English (en)
Inventor
李云鹏
倪岭
邵平平
刘伟栋
蔡敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tian Zhi Zhi Technology Co Ltd
Original Assignee
Nanjing Tian Zhi Zhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tian Zhi Zhi Technology Co Ltd filed Critical Nanjing Tian Zhi Zhi Technology Co Ltd
Priority to CN201810862182.1A priority Critical patent/CN109191364A/zh
Publication of CN109191364A publication Critical patent/CN109191364A/zh
Priority to US16/237,610 priority patent/US11669715B2/en
Priority to PCT/IB2019/056517 priority patent/WO2020026157A2/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/10Program control for peripheral devices
    • G06F13/12Program control for peripheral devices using hardware independent of the central processor, e.g. channel or peripheral processor
    • G06F13/124Program control for peripheral devices using hardware independent of the central processor, e.g. channel or peripheral processor where hardware is a sequential transfer control unit, e.g. microprocessor, peripheral processor or state-machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Neurology (AREA)
  • Computer Hardware Design (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

加速人工智能处理器的硬件架构,包括:主机、前叶引擎、顶叶引擎、渲染器引擎、枕形引擎、颞叶引擎和内存;前叶引擎从主机得到5D张量,并将其分为若干组张量,并将这些组张量发送至顶叶引擎;顶叶引擎获取组张量并将其分成若干张量波,将这些张量波发送到渲染器引擎,以执行输入特征渲染器,并将部分张量输出到枕形引擎;枕形引擎积累部分张量,执行输出特征渲染器,以获得发送到颞叶引擎的最终张量;颞叶引擎进行数据压缩,并将最终张量写入内存中。本发明中人工智能工作被分成许多高度平行的部分,有些部分被分配到一个引擎中进行处理,引擎数量是可配置的,提高了可扩展性,所有的工作分区和分配都在此架构中实现,以此获得高性能功效。

Description

加速人工智能处理器的硬件架构
技术领域
本发明属于人工智能领域,具体涉及一种加速人工智能处理器的硬件架构。
背景技术
人工智能(AI)处理是近来的热门话题,它既是计算和内存密集型,也要求高性能-功耗效率。 使用CPU和GPU等当前设备加速并不容易,许多如GPU+ TensorCore、TPU、CPU+FPGA和AI ASIC等解决方案都试图解决这些问题。GPU+ TensorCore主要着眼于解决计算密集问题,TPU着眼于计算和数据重用,CPU+ FPGA/AI ASIC注重提高性能-功耗效率。
然而,GPU只有三分之一的逻辑用于AI,所以不可以获得更高的性能功效。TPU需要更多的软件工作来重塑数据布局,并将作业进行分割,并将它们发送到计算核心。至于CPU和DSP解决方案,它们的计算机核心是矢量处理器,不适用于AI管道工程。
因此,我们发明了以下的硬件架构以解决这些问题,虽然还有很多其他的AIASIC,但是我们的AI ASIC具有更好的架构。
发明内容
本发明针对现有技术中的不足,提供一种加速人工智能处理器的硬件架构。
为实现上述目的,本发明采用以下技术方案:
一种加速人工智能处理器的硬件架构,其特征在于,人工智能工作被视为5D张量,在每一维度中,工作被分成若干组,每一组进一步被分成若干波;
其中,硬件架构包括:主机、前叶引擎、顶叶引擎、渲染器引擎、枕形引擎、颞叶引擎和内存;前叶引擎从主机得到5D张量,并将其分为若干组张量,并将这些组张量发送至顶叶引擎;顶叶引擎获取组张量并将其分成若干张量波,顶叶引擎将这些张量波发送到渲染器引擎,以执行输入特征渲染器,并将部分张量输出到枕形引擎;枕形引擎积累部分张量,并执行输出特征渲染器,以获得发送到颞叶引擎的最终张量;颞叶引擎进行数据压缩,并将最终张量写入内存中。
为优化上述技术方案,采取的具体措施还包括:
每个顶叶引擎根据用户定义的输入特征渲染器处理组张量,并将部分和输出到枕形引擎中。
在统一渲染架构中,执行输出特征渲染器具体为:输出特征渲染器被发送回顶叶引擎,一旦顶叶引擎完成渲染,将结果发送回枕形引擎。
在分离渲染架构中,执行输出特征渲染器具体为:输出特征渲染器在枕形引擎中进行处理,枕形引擎将输出张量发送到颞叶引擎,颞叶引擎进行后处理,并将其发送到DRAM或者保持在缓存中以进一步处理。
顶叶引擎的数量是可配置的,前叶引擎以轮询调度的方式将组张量发送给顶叶引擎,每个顶叶引擎由特定的流式感知器处理器组成,所有的流式感知器处理器共享一个L2缓存和一个导出块。
流式感知器处理器由运算器和作为计算核心的神经元组成,运算器核用于一般计算,神经元核用于人工智能计算,神经元由L1缓存和乘法累加器组成。
张量波被发送到神经元,神经元在张量波上运行输入特征渲染器,结果被导出到枕形引擎,枕形引擎进行必要的累加后将结果发送回顶叶引擎,顶叶引擎在运算器上进行输出特征渲染器,并将结果输出到颞叶引擎。
顶叶引擎的数量为4个,每个顶叶引擎有2个流式感知器处理器,每个流式感知器处理器有4个神经元,每个神经元有8个乘法累加器组,每个乘法累加器组有4个乘法累加器。
本发明的有益效果是:人工智能工作被分成许多高度平行的部分,有些部分被分配到一个引擎中进行处理,引擎数量是可配置的,从而提高了可扩展性,所有的工作分区和分配都在此架构中实现,以此获得高性能功效。本发明能够加速人工智能的工作,可以使用可扩展性来配置产品以满足不同的客户需求,同时提供高性能功效。
附图说明
图1是人工智能特征图。
图2是矩阵乘法图。
图3是人工大脑引擎的流程图。
图4是引擎级架构图。
图5是可扩展架构的细节图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
如图1所示,人工智能特征图通常可以描述为四维张量[N,C,Y,X]。这四个维度为,特征图维度:X、Y;通道维度:C;批次维度:N。内核可以是四维张量[K,C,S,R]。AI工作是给出输入特征图张量和内核张量,我们根据图1中的公式计算输出张量[N,K,Y,X]。
人工智能中的另一个重要操作是矩阵乘法,这个操作也可以映射到特征图处理中。在图2中,矩阵A可以映射到张量[1,K,1,M],矩阵B映射到张量[N,K,1,1],结果C是张量[1,N,1,M]。
此外,还有其他的操作,比如规范化、激活,这些可以在通用硬件运算器中支持。
我们提出一个硬件架构来有效地支持这些操作,人工智能工作可以被视为5维张量[N,K,C,Y,X],在每一维度中,我们把这些工作分成许多组,每一组可以进一步被分成若干波。在我们的体系结构中,第一个引擎-前叶引擎(Frontal Engine,简称FE)从主机得到5D张量[N,K,C,Y,X],并将其分为许多组张量[Ng,Kg,Cg,Yg,Xg],并将这些组发送给顶叶引擎(Parietal Engine,简称PE)。PE获取组张量并将其分成若干波,将这些波发送到渲染器引擎,以执行输入特征渲染器(IF-Shader),并将部分张量[Nw,Kw,Yw,Xw]输出到枕形引擎(Occipital Engine,简称OE)。OE积累部分张量,并执行输出特征渲染器(OF-Shader),以获得发送到下一个引擎-颞叶引擎(Temporal Engine,简称TE)的最终张量。TE进行一些数据压缩,并将最终的张量写到内存中。图3为该设计的流程图。
根据AI算法,我们发明了一种高度可扩展、可并行、可编程且高效的架构。在这种体系结构中,AI工作被分成小部分,这些部分被发送到许多计算机核心进行处理。部分总和可以在计算核心中累积,然后发送到后端块进行进一步处理,如最终累积、池化和激活;也可以对这些后端块进行编程来运行其他通用计算。
图4是架构的引擎级流程图,我们将之称作“人工大脑架构”,该架构对于多种计算能力要求是完全可扩展的。一般情况下,在前叶引擎(Frontal Engine,简称FE)中,张量被分成若干组,这些组会被送入顶叶引擎(Parietal Engine,简称PE)。每个顶叶引擎根据用户定义的输入特征渲染器(IF-Shader)处理这些组,并将部分和输出到枕形引擎(Occipital Engine,简称OE)中,OE收集输出张量并调度输出特征渲染器来进一步处理张量。
执行输出特征渲染器(OF-Shader)有两种方法:在统一渲染架构中,输出特征渲染器被发送回顶叶引擎,一旦顶叶引擎完成渲染,它会将结果发送回OE;在分离渲染架构中,输出特征渲染器在OE中进行处理,OE的结果将输出张量发送到颞叶引擎(TemporalEngine,简称TE),TE进行一些后处理,并将它们发送到DRAM或将它们保存在缓存中以进一步处理。
为了可扩展性,顶叶引擎的数量是可配置的,前叶引擎以轮询调度的方式将组张量发送给顶叶引擎,因此很容易添加/减少顶叶引擎。每个顶叶引擎由特定的SPP(流式感知器处理器,Streaming Perceptron Processor)组成,如图5所示。所有这些SPP共享一个L2缓存和一个导出块,SPP由一些一般的运算器和一些作为计算核心的神经元组成,一般的运算器核用于一般计算,而神经元核用于人工智能计算。对于一般计算的不同细分市场,这两种核心的比例为架构的关键。
神经元由L1缓存和某些乘法累加器(multiplier-accumulator,简称MAC)组成。张量波被发送到神经元,其在这些张量波上运行一个输入特征渲染器,结果被导出到枕形引擎,枕形引擎做一些必要的累加并将结果发送回顶叶引擎。顶叶引擎在运算器ALU8上运行输出特征渲染器,并将结果输出到颞叶引擎。
在实施例中,我们有4个顶叶引擎,每个顶叶引擎有2个SPP,每个SPP有4个神经元,每个神经元有8个MAC组,每个MAC组有4个MAC。本发明所提出的架构非常新颖,且能使AI工作非常高效。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种加速人工智能处理器的硬件架构,其特征在于,人工智能工作被视为5D张量,在每一维度中,工作被分成若干组,每一组进一步被分成若干波;
其中,硬件架构包括:主机、前叶引擎、顶叶引擎、渲染器引擎、枕形引擎、颞叶引擎和内存;前叶引擎从主机得到5D张量,并将其分为若干组张量,并将这些组张量发送至顶叶引擎;顶叶引擎获取组张量并将其分成若干张量波,顶叶引擎将这些张量波发送到渲染器引擎,以执行输入特征渲染器,并将部分张量输出到枕形引擎;枕形引擎积累部分张量,并执行输出特征渲染器,以获得发送到颞叶引擎的最终张量;颞叶引擎进行数据压缩,并将最终张量写入内存中。
2.如权利要求1所述的一种加速人工智能处理器的硬件架构,其特征在于:每个顶叶引擎根据用户定义的输入特征渲染器处理组张量,并将部分和输出到枕形引擎中。
3.如权利要求1所述的一种加速人工智能处理器的硬件架构,其特征在于:在统一渲染架构中,执行输出特征渲染器具体为:输出特征渲染器被发送回顶叶引擎,一旦顶叶引擎完成渲染,将结果发送回枕形引擎。
4.如权利要求1所述的一种加速人工智能处理器的硬件架构,其特征在于:在分离渲染架构中,执行输出特征渲染器具体为:输出特征渲染器在枕形引擎中进行处理,枕形引擎将输出张量发送到颞叶引擎,颞叶引擎进行后处理,并将其发送到DRAM或者保持在缓存中以进一步处理。
5.如权利要求1所述的一种加速人工智能处理器的硬件架构,其特征在于:顶叶引擎的数量是可配置的,前叶引擎以轮询调度的方式将组张量发送给顶叶引擎,每个顶叶引擎由特定的流式感知器处理器组成,所有的流式感知器处理器共享一个L2缓存和一个导出块。
6.如权利要求5所述的一种加速人工智能处理器的硬件架构,其特征在于:流式感知器处理器由运算器和作为计算核心的神经元组成,运算器核用于一般计算,神经元核用于人工智能计算,神经元由L1缓存和乘法累加器组成。
7.如权利要求6所述的一种加速人工智能处理器的硬件架构,其特征在于:张量波被发送到神经元,神经元在张量波上运行输入特征渲染器,结果被导出到枕形引擎,枕形引擎进行必要的累加后将结果发送回顶叶引擎,顶叶引擎在运算器上进行输出特征渲染器,并将结果输出到颞叶引擎。
8.如权利要求6所述的一种加速人工智能处理器的硬件架构,其特征在于:顶叶引擎的数量为4个,每个顶叶引擎有2个流式感知器处理器,每个流式感知器处理器有4个神经元,每个神经元有8个乘法累加器组,每个乘法累加器组有4个乘法累加器。
CN201810862182.1A 2018-08-01 2018-08-01 加速人工智能处理器的硬件架构 Pending CN109191364A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810862182.1A CN109191364A (zh) 2018-08-01 2018-08-01 加速人工智能处理器的硬件架构
US16/237,610 US11669715B2 (en) 2018-08-01 2019-04-30 Hardware architecture for accelerating artificial intelligent processor
PCT/IB2019/056517 WO2020026157A2 (zh) 2018-08-01 2019-07-31 加速人工智能处理器的硬件架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810862182.1A CN109191364A (zh) 2018-08-01 2018-08-01 加速人工智能处理器的硬件架构

Publications (1)

Publication Number Publication Date
CN109191364A true CN109191364A (zh) 2019-01-11

Family

ID=64937655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810862182.1A Pending CN109191364A (zh) 2018-08-01 2018-08-01 加速人工智能处理器的硬件架构

Country Status (3)

Country Link
US (1) US11669715B2 (zh)
CN (1) CN109191364A (zh)
WO (1) WO2020026157A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933370A (zh) * 2019-02-01 2019-06-25 京微齐力(北京)科技有限公司 连接fpga和人工智能模块的系统芯片
CN111680791A (zh) * 2020-06-16 2020-09-18 北京字节跳动网络技术有限公司 适用于异构环境中的通信方法、装置、系统
WO2020026157A3 (zh) * 2018-08-01 2021-10-07 南京天数智芯科技有限公司 加速人工智能处理器的硬件架构
WO2020026159A3 (zh) * 2018-08-01 2021-10-07 南京天数智芯科技有限公司 用于人工智能设备的灵活数据流处理器和处理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11394799B2 (en) 2020-05-07 2022-07-19 Freeman Augustus Jackson Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data
US20230124075A1 (en) * 2021-10-15 2023-04-20 Habib Hajimolahoseini Methods, systems, and media for computer vision using 2d convolution of 4d video data tensors
CN117957577A (zh) * 2021-11-15 2024-04-30 上海科技大学 用于神经渲染的多核系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316312A1 (en) * 2016-05-02 2017-11-02 Cavium, Inc. Systems and methods for deep learning processor
US20170344880A1 (en) * 2016-05-24 2017-11-30 Cavium, Inc. Systems and methods for vectorized fft for multi-dimensional convolution operations
CN108304341A (zh) * 2018-03-13 2018-07-20 算丰科技(北京)有限公司 Ai芯片高速传输架构、ai运算板卡及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020608A1 (en) * 2004-07-09 2006-01-26 Microsoft Corporation Cube update tool
US20120276342A1 (en) * 2011-01-28 2012-11-01 Patrick Dudley Bray Artificial surface divider
JP5967577B2 (ja) * 2012-10-18 2016-08-10 パナソニックIpマネジメント株式会社 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
US10937216B2 (en) * 2017-11-01 2021-03-02 Essential Products, Inc. Intelligent camera
US20190340499A1 (en) * 2018-05-04 2019-11-07 Microsoft Technology Licensing, Llc Quantization for dnn accelerators
CN109191364A (zh) * 2018-08-01 2019-01-11 南京天数智芯科技有限公司 加速人工智能处理器的硬件架构

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316312A1 (en) * 2016-05-02 2017-11-02 Cavium, Inc. Systems and methods for deep learning processor
US20170344880A1 (en) * 2016-05-24 2017-11-30 Cavium, Inc. Systems and methods for vectorized fft for multi-dimensional convolution operations
CN108304341A (zh) * 2018-03-13 2018-07-20 算丰科技(北京)有限公司 Ai芯片高速传输架构、ai运算板卡及服务器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026157A3 (zh) * 2018-08-01 2021-10-07 南京天数智芯科技有限公司 加速人工智能处理器的硬件架构
WO2020026159A3 (zh) * 2018-08-01 2021-10-07 南京天数智芯科技有限公司 用于人工智能设备的灵活数据流处理器和处理方法
CN109933370A (zh) * 2019-02-01 2019-06-25 京微齐力(北京)科技有限公司 连接fpga和人工智能模块的系统芯片
CN111680791A (zh) * 2020-06-16 2020-09-18 北京字节跳动网络技术有限公司 适用于异构环境中的通信方法、装置、系统
CN111680791B (zh) * 2020-06-16 2023-04-18 北京字节跳动网络技术有限公司 适用于异构环境中的通信方法、装置、系统

Also Published As

Publication number Publication date
WO2020026157A2 (zh) 2020-02-06
US11669715B2 (en) 2023-06-06
US20200042867A1 (en) 2020-02-06
WO2020026157A3 (zh) 2021-10-07

Similar Documents

Publication Publication Date Title
CN109191364A (zh) 加速人工智能处理器的硬件架构
CN103049241B (zh) 一种提高cpu+gpu异构装置计算性能的方法
Betkaoui et al. A reconfigurable computing approach for efficient and scalable parallel graph exploration
CN111291858A (zh) 张量计算数据流加速器半导体电路
Budden et al. Deep tensor convolution on multicores
CN110097174A (zh) 基于fpga和行输出优先的卷积神经网络实现方法、系统及装置
CN106951926A (zh) 一种混合架构的深度学习系统方法及装置
CN109978161A (zh) 一种通用的卷积-池化同步处理卷积核系统
CN108170639A (zh) 基于分布式环境的张量cp分解实现方法
CN103279330A (zh) 一种基于虚拟机GPU计算下的MapReduce并行编程模型
CN109117949A (zh) 用于人工智能设备的灵活数据流处理器和处理方法
CN106484532B (zh) 面向sph流体模拟的gpgpu并行计算方法
Wan et al. Efficient inter-device task scheduling schemes for multi-device co-processing of data-parallel kernels on heterogeneous systems
Chang et al. VSCNN: Convolution neural network accelerator with vector sparsity
CN109416743A (zh) 一种用于识别人为动作的三维卷积装置
CN110796244B (zh) 用于人工智能设备的核心计算单元处理器及加速处理方法
Kerbyson et al. A Performance Analysis of Two-Level Heterogeneous Processing Systems on Wavefront Algorithms
Fakhi et al. New optimized GPU version of the k-means algorithm for large-sized image segmentation
Chen et al. Efficient Algorithms for the Summed Area Tables Primitive on GPUs
Song et al. Cambricon-R: A Fully Fused Accelerator for Real-Time Learning of Neural Scene Representation
Jiang et al. A distributed dynamic parallel algorithm for SIFT feature extraction
Kim et al. A configurable heterogeneous multicore architecture with cellular neural network for real-time object recognition
CN113436232A (zh) 一种基于跟踪算法的硬件加速方法
CN102955686B (zh) 一种N‑body问题近程作用计算在GPU结构的优化映射方法
Hu et al. Adaptive Multidimensional Parallel Fault Simulation Framework on Heterogeneous System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 201100 no.1628, sushao Road, Minhang District, Shanghai

Applicant after: Shanghai Tiantian smart core semiconductor Co., Ltd

Address before: 210012 4 floor, 5 software Avenue, Yuhuatai District, Nanjing, Jiangsu, 180

Applicant before: ILUVATAR COREX Inc.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 201100 no.1628, sushao Road, Minhang District, Shanghai

Applicant after: Shanghai Tiantian smart core semiconductor Co., Ltd

Address before: 210012 4 floor, 5 software Avenue, Yuhuatai District, Nanjing, Jiangsu, 180

Applicant before: ILUVATAR COREX Inc.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190111

RJ01 Rejection of invention patent application after publication