CN112347026B - 数据同步方法及装置以及相关产品 - Google Patents

数据同步方法及装置以及相关产品 Download PDF

Info

Publication number
CN112347026B
CN112347026B CN201910735393.3A CN201910735393A CN112347026B CN 112347026 B CN112347026 B CN 112347026B CN 201910735393 A CN201910735393 A CN 201910735393A CN 112347026 B CN112347026 B CN 112347026B
Authority
CN
China
Prior art keywords
data
descriptor
tensor
synchronized
tensor data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910735393.3A
Other languages
English (en)
Other versions
CN112347026A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Cambricon Information Technology Co Ltd
Original Assignee
Anhui Cambricon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201910735393.3A priority Critical patent/CN112347026B/zh
Application filed by Anhui Cambricon Information Technology Co Ltd filed Critical Anhui Cambricon Information Technology Co Ltd
Priority to JP2021510523A priority patent/JP7073581B2/ja
Priority to KR1020207032017A priority patent/KR20200142536A/ko
Priority to EP20785318.5A priority patent/EP3951666A4/en
Priority to PCT/CN2020/082803 priority patent/WO2020200246A1/zh
Priority to KR1020207036316A priority patent/KR102611169B1/ko
Priority to KR1020207036312A priority patent/KR102611162B1/ko
Priority to JP2020198200A priority patent/JP7121103B2/ja
Priority to JP2020198245A priority patent/JP7150803B2/ja
Publication of CN112347026A publication Critical patent/CN112347026A/zh
Priority to US17/489,671 priority patent/US11385895B2/en
Priority to US17/849,182 priority patent/US11886880B2/en
Application granted granted Critical
Publication of CN112347026B publication Critical patent/CN112347026B/zh
Priority to US18/531,734 priority patent/US20240111536A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17325Synchronisation; Hardware support therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据同步方法及装置以及相关产品,所述产品包括控制模块,所述控制模块包括:指令缓存单元、指令处理单元和存储队列单元;所述指令缓存单元,用于存储所述人工神经网络运算关联的计算指令;所述指令处理单元,用于对所述计算指令解析得到多个运算指令;所述存储队列单元,用于存储指令队列,该指令队列包括:按该队列的前后顺序待执行的多个运算指令或计算指令。通过以上方法,本公开可以提高相关产品在进行神经网络模型的运算时的运算效率。

Description

数据同步方法及装置以及相关产品
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据同步方法及装置以及相关产品。
背景技术
随着人工智能技术的不断发展,其应用领域越来越广泛,在图像识别、语音识别、自然语言处理等领域中都得到了良好的应用。然而,随着人工智能算法的复杂度提高,需要处理的数据量和数据维度都在不断增大,通常需要多核和/或多芯片进行数据处理。在进行核间或芯片间的数据同步时,采用相关技术的同步方式的同步开销较大,处理效率较低。
发明内容
有鉴于此,本公开提出了一种数据同步技术方案。
根据本公开的一方面,提供了一种数据同步方法,所述方法应用于第一处理器,包括:在接收到来自所述第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,其中,所述描述符用于指示待同步的张量数据的形状;根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据。
根据本公开的另一方面,提供了一种数据同步方法,所述方法应用于第二处理器,包括:根据待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,生成描述符同步请求指令,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符同步请求指令用于指示第一处理器根据所述描述符同步请求指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;向所述第一处理器发送所述描述符同步请求指令。
根据本公开的另一方面,提供了一种数据同步装置,所述装置应用于第一处理器,包括:描述符及数据量确定模块,用于在接收到来自所述第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,其中,所述描述符用于指示待同步的张量数据的形状;子数据确定模块,用于根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;同步指令生成及发送模块,用于根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据。
根据本公开的另一方面,提供了一种数据同步装置,所述装置应用于第二处理器,包括:请求指令生成模块,用于根据待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,生成描述符同步请求指令,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符同步请求指令用于指示第一处理器根据所述描述符同步请求指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;请求指令发送模块,用于向所述第一处理器发送所述描述符同步请求指令。
根据本公开的另一方面,提供了一种人工智能芯片,所述芯片包括如上所述的数据同步装置。
根据本公开的另一方面,提供了一种电子设备,所述电子设备包括如上所述的人工智能芯片。
根据本公开的另一方面,提供了一种板卡,所述板卡包括:存储器件、接口装置和控制器件以及如上所述的人工智能芯片;其中,所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;所述存储器件,用于存储数据;所述接口装置,用于实现所述人工智能芯片与外部设备之间的数据传输;所述控制器件,用于对所述人工智能芯片的状态进行监控。
根据本公开的实施例,通过设定指示张量数据的形状的描述符,能够根据描述符同步请求指令中的描述符确定张量数据,根据接收方的可同步数据量确定本次同步的子数据,根据该子数据生成并发送描述符同步指令,以使接收方获取本次同步的子数据,从而减少同步开销,提高数据同步的效率。
通过权要中的技术特征进行推导,能够达到对应背景技术中的技术问题的有益效果。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开实施例的数据同步方法的处理系统的示意图。
图2示出根据本公开实施例的数据同步方法的流程图。
图3示出根据本公开实施例的数据同步方法的流程图。
图4示出根据本公开实施例的数据同步方法的数据存储空间的示意图。
图5示出根据本公开实施例的数据同步装置的框图。
图6示出根据本公开实施例的数据同步装置的框图。
图7示出根据本公开实施例的板卡的结构框图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
应当理解,本公开的权利要求、说明书及附图中的术语“第一”、“第二”、和“第三”等是用于区别不同对象,而不是用于描述特定顺序。本公开的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本公开说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本公开。如在本公开说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本公开说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
根据本公开实施例的数据同步方法可应用于包括多个处理器(多核)的处理系统(例如人工智能芯片)的任意一个处理器中。该处理器可以是通用处理器,例如CPU(CentralProcessing Unit,中央处理器),也可以是用于执行人工智能运算的人工智能处理器(IPU)。人工智能运算可包括机器学习运算,类脑运算等。其中,机器学习运算包括神经网络运算、k-means运算、支持向量机运算等。该人工智能处理器可例如包括GPU(GraphicsProcessing Unit,图形处理单元)、NPU(Neural-Network Processing Unit,神经网络处理单元)、DSP(Digital Signal Process,数字信号处理单元)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)芯片中的一种或组合。本公开对处理器的具体类型不作限制。此外,处理系统中的多个处理器的类型可以相同或不同,本公开对此不作限制。
在一种可能的实现方式中,本公开中所提及的处理器可包括多个处理单元,每个处理单元可以独立运行所分配到的各种任务,如:卷积运算任务、池化任务或全连接任务等。本公开对处理单元及处理单元所运行的任务不作限制。
图1示出根据本公开实施例的数据同步方法的处理系统的示意图。如图1所示,处理系统100包括多个处理器101以及存储器102,多个处理器101用于执行指令序列,存储器102用于存储数据,可包括随机存储器(RAM,Random Access Memory)和寄存器堆。处理系统100中的多个处理器101既可共用部分存储空间,例如共用部分RAM存储空间和寄存器堆,又可同时拥有各自的存储空间。
图2示出根据本公开实施例的数据同步方法的流程图。如图2所示,该方法应用于第一处理器(处理系统中的任意一个处理器),该方法包括:
在步骤S11中:在接收到来自所述第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,其中,所述描述符用于指示待同步的张量数据的形状;
在步骤S12中:根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
在步骤S13中:根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据。
举例来说,待同步的数据可包括N维的张量数据(N为大于或等于零的整数,例如N=1、2或3),其中,张量可以包含多种形式的数据组成方式,张量可以是不同维度的,比如标量可以看作是0维张量,向量可以看作1维张量,而矩阵可以是2维或2维以上的张量。张量的形状包括张量的维度、张量各个维度的尺寸等信息。例如对于张量:
Figure BDA0002162011080000041
该张量的形状可以被描述符描述为(2,4),也即通过两个参数表示该张量为二维张量,且该张量的第一维度(列)的尺寸为2、第二维度(行)的尺寸为4。需要说明的是,本公开对于描述符指示张量形状的方式并不做限定。在存储器中存储张量数据时,根据其数据地址(或存储区域)无法确定张量数据的形状,进而也无法确定多个张量数据之间相互关系等相关信息,导致处理器对张量数据的存取效率较低,在进行数据同步时的复杂度也较大。
在该情况下,可设定描述符(或称为张量描述符)来指示张量数据(也即N维的张量数据)的形状。其中,N的取值可根据张量数据的维数(阶数)来确定,也可以根据张量数据的使用需要进行设定。例如,在N的取值为3时,张量数据为三维的张量数据,描述符可用来指示该三维的张量数据在三个维度方向上的形状(例如偏移量、尺寸等)。应当理解,本领域技术人员可以根据实际需要对N的取值进行设置,本公开对此不作限制。
在一种可能的实现方式中,描述符可包括标识和内容等,描述符的标识可用于对描述符进行区分,例如为编号;描述符的内容可包括表示张量数据的形状的至少一个形状参数(例如张量的各个维度方向上的尺寸等),还可以包括表示张量数据的地址的至少一个地址参数(例如数据基准点的基准地址)。本公开对描述符的内容包括的具体参数不作限制。
通过采用描述符来指示张量数据的方式,能够表达张量数据的形状,进而也能够确定多个张量数据之间的相互关系等相关信息,提高对张量数据的存取效率,从而降低数据同步时的复杂度。
在一种可能的实现方式中,在数据处理过程中,可能需要进行多个处理器(例如人工智能芯片的多个核)之间的数据同步,例如将处理器A1的运算结果同步到处理器A2中作为另一项运算的输入数据。在该情况下,可以采用基于描述符的数据同步机制实现数据同步。
在一种可能的实现方式中,各个处理器的非共用存储空间可分配给待同步的张量数据的空间可能有限,无法实现张量数据的整体同步。在该情况下,可进行张量数据的部分同步,通过多次的部分同步来实现整个张量数据的同步过程。
在一种可能的实现方式中,可由数据同步的接收方发起对张量数据的部分同步请求,也即接收方发出描述符同步请求指令,该指令中可指示待同步的张量数据的描述符以及针对该张量数据的可同步数据量,也即接收方的非共用存储空间能够分配给该张量数据的空间所能容纳的数据量。
在一种可能的实现方式中,可以设定多个处理器中的第一处理器是数据同步的发送方,第二处理器是数据同步的接收方。第一处理器和第二处理器均为多个处理器中的任意处理器,第二处理器可与第一处理器的类型相同或不同,本公开对第一处理器和第二处理器的类型不作限制。
在一种可能的实现方式中,第一处理器在步骤S11中接收到来自第二处理器的描述符同步请求指令时,可对该指令进行解析以得到该指令的内容(例如待同步的张量数据的描述符的标识、待同步的张量数据的数据特征、可同步数据量等),从而确定出待同步的张量数据的描述符以及可同步数据量。
在一种可能的实现方式中,在步骤S12中,第一处理器可根据描述符确定出待同步的张量数据,并根据可同步数据量从该张量数据中确定出本次可同步的部分数据,也即第一子数据。该第一子数据的数据量可与所述可同步数据量相对应,例如第一子数据的数据量小于或等于所述可同步数据量。
在一种可能的实现方式中,如果该张量数据的全部数据均未同步,则可从该张量数据中选择可同步数据量的数据作为第一子数据;如果该张量数据的部分数据未同步,且未同步的部分数据的数据量大于可同步数据量,则可从未同步的部分数据(也即该张量数据的第二子数据)中选择可同步数据量的数据作为第一子数据;如果未同步的部分数据的数据量小于或等于可同步数据量,则可将未同步的部分数据直接作为第一子数据,应当理解,本领域技术人员可根据实际情况确定第一子数据,本公开对此不作限制。
在一种可能的实现方式中,在步骤S13中,第一处理器可根据第一子数据生成描述符同步指令并向第二处理器发送描述符同步指令。该指令中可包括待同步的张量数据的描述符的标识及第一子数据。第二处理器在接收到描述符同步指令后,可解析该指令以确定待同步的张量数据的描述符及张量数据的第一子数据,根据描述符确定待同步的张量数据,并将张量数据的第一子数据存储到自身的非共用存储空间中。
根据本公开实施例的数据同步方法,通过设定指示张量数据的形状的描述符,能够根据描述符同步请求指令中的描述符确定张量数据,根据接收方的可同步数据量确定本次同步的子数据,根据该子数据生成并发送描述符同步指令,以使接收方获取本次同步的子数据,从而减少同步开销,提高数据同步的效率。
在一种可能的实现方式中,描述符同步请求指令可包括描述符的标识,步骤S11可包括:
解析所述描述符同步请求指令,获得所述描述符的标识及可同步数据量;
根据所述描述符的标识,确定所述待同步的张量数据的描述符。
举例来说,如果第一处理器和第二处理器中均已注册有指示该待同步的张量数据的描述符,则描述符同步指令可仅包括描述符的标识(例如在描述符的标识为TR1时,将描述符同步指令表示为Send TR1)及可同步数据量。第一处理器可解析描述符同步请求指令以获得描述符的标识及可同步数据量;进而根据描述符的标识,确定待同步的张量数据的描述符。
通过这种方式,能够减小同步时传输的数据量,提高处理效率。
在一种可能的实现方式中,描述符同步请求指令包括待同步的张量数据的数据特征,步骤S11可包括:
解析所述描述符同步请求指令,获得待同步的张量数据的数据特征及可同步数据量;
根据所述张量数据的数据特征,确定所述张量数据的描述符。
举例来说,如果第一处理器中未注册有指示该待同步的张量数据的描述符或描述符的标识不对应,则描述符同步指令可包括待同步的张量数据的数据特征。该数据特征可包括张量数据的标识、形状、来源、地址等信息。例如,该张量数据的数据来源为第K个发送方(第K个处理器)、该张量数据的数据来源为编号200的卷积操作的运算结果、该张量数据的地址为特定的地址区域(例如地址ADDR0-ADDR127)、该张量数据的形状为指定的形状(例如20*10的二维张量)等。本领域技术人员可根据实际情况设定待同步的张量数据的数据特征,本公开对此不作限制。
在一种可能的实现方式中,根据该数据特征,第一处理器可查找到待同步的张量数据,并确定该待同步的张量数据的描述符,例如直接获取或新注册对应的描述符。根据该待同步的张量数据的描述符,可确定该张量数据,进而根据可同步数据量确定本次同步的子数据。
通过这种方式,可以根据描述符同步请求指令中的数据特征确定待同步的张量数据的描述符,以便实现张量数据的部分同步,从而在同步时无需传输张量数据本身,减小了传输的数据量和同步开销,提高了处理效率。
在一种可能的实现方式中,步骤S12可包括:
根据所述张量数据的描述符,确定所述张量数据以及所述张量数据中处于待同步状态的第二子数据;
根据所述第二子数据及所述可同步数据量,确定第一子数据。
举例来说,可设定张量数据中数据的状态,将已同步的部分数据设定为已同步,并将未同步的部分数据设定为待同步。在该情况下,当第一处理器接收到来自第二处理器的描述符同步请求指令时,可根据描述符确定待同步的张量数据;根据张量数据中数据的状态,可确定出处于待同步状态的第二子数据;根据第二子数据以及描述符同步请求指令所指示的可同步数据量,可确定本次同步的第一子数据。
在一种可能的实现方式中,如果第二子数据的数据量大于可同步数据量,则可从第二子数据中选择出本次同步的第一子数据;如果第二子数据的数据量小于或等于可同步数据量,则可将第二子数据直接作为第一子数据。
通过这种方式,可确定出本次同步的部分数据,以便实现张量数据的部分同步,提高数据同步的效率。
在一种可能的实现方式中,所述方法还包括:将所述张量数据的第一子数据的状态由待同步状态变更为已同步状态。
举例来说,第一处理器在根据张量数据的第一子数据生成并发送描述符同步指令,使得第二处理器实现张量数据的第一子数据的同步后,第一处理器可对张量数据中数据的状态进行变更,也即,将第一子数据的状态由待同步状态变更为已同步状态。这样,在下一次接收到第二处理器的同步请求时,可以从处于待同步状态的部分数据中确定下一次同步的数据,从而避免数据的重复同步,提高数据同步的效率。
图3示出根据本公开实施例的数据同步方法的流程图。如图3所示,该方法应用于第二处理器,该方法包括:
在步骤S31中,根据待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,生成描述符同步请求指令,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符同步请求指令用于指示第一处理器根据所述描述符同步请求指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
在步骤S32中,向所述第一处理器发送所述描述符同步请求指令。
举例来说,可设定多个处理器中的第二处理器是数据同步的接收方,由第二处理器是发起对张量数据的部分同步请求。在步骤S31中,第二处理器中存在待同步的张量数据时,可确定张量数据的描述符以及第二处理器自身的非共用存储空间能够分配给该张量数据的空间所能容纳的数据量,也即可同步数据量。根据该张量数据的描述符及可同步数据量,第二处理器可生成描述符同步请求指令并在步骤S32中发送该指令。该描述符同步请求指令可包括描述符的标识、描述符的内容及张量数据的数据特征中的至少一种,用于指示第一处理器根据该指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据。
在一种可能的实现方式中,第一处理器在接收到描述符同步请求指令时,可对该指令进行解析,确定出待同步的张量数据的描述符以及可同步数据量;根据描述符确定出待同步的张量数据,并根据可同步数据量从该张量数据中确定出本次可同步的部分数据,也即第一子数据。该第一子数据的数据量可与所述可同步数据量相对应,例如第一子数据的数据量小于或等于所述可同步数据量。
在一种可能的实现方式中,如果该张量数据的全部数据均未同步,则可从该张量数据中选择可同步数据量的数据作为第一子数据;如果该张量数据的部分数据未同步,且未同步的部分数据的数据量大于可同步数据量,则可从未同步的部分数据(也即该张量数据的第二子数据)中选择可同步数据量的数据作为第一子数据;如果未同步的部分数据的数据量小于或等于可同步数据量,则可将未同步的部分数据直接作为第一子数据,应当理解,本领域技术人员可根据实际情况确定第一子数据,本公开对此不作限制。
在一种可能的实现方式中,描述符同步请求指令中也可包括待同步的张量数据的部分数据的范围,例如该部分子数据的描述符内容或存储地址范围等,以便指定获取待同步的部分数据。
通过这种方式,能够由接收方发起张量数据的部分同步请求,使得发送方确定本次同步的子数据,从而提高数据同步的效率。
在一种可能的实现方式中,所述方法还包括:
在接收到来自所述第一处理器的描述符同步指令时,确定待同步的张量数据的描述符及所述张量数据的第一子数据;
根据所述张量数据的描述符,存储所述张量数据的第一子数据。
举例来说,第一处理器可根据张量数据的描述符及第一子数据生成并发送描述符同步指令。第二处理器在接收到该描述符同步指令时,可解析该指令以确定待同步的张量数据的描述符及本次同步的该张量数据的第一子数据;进而根据描述符确定待同步的张量数据,并将张量数据的第一子数据存储到自身的非共用存储空间中。
通过这种方式,接收方能够根据描述符同步指令确定描述符并获取本次同步的子数据,从而减少同步开销,提高数据同步的效率。
在一种可能的实现方式中,在数据同步的发送方有待同步的张量数据,例如在第一处理器完成一项运算得到运算结果(张量数据)时,可由发送方查询接收方的状态,确定数据同步的接收方的非共用存储空间能够分配给该张量数据的空间所能容纳的数据量,以便进行张量数据的部分同步。
在一种可能的实现方式中,还提供了一种数据同步方法,应用于第一处理器,该方法包括:根据待同步的张量数据的描述符,生成状态查询指令,其中,所述描述符用于指示待同步的张量数据的形状,所述状态查询指令用于指示第二处理器确定针对所述张量数据的可同步数据量并生成同步状态指令,所述状态查询指令包括所述描述符的标识和/或所述描述符的内容;向第二处理器发送所述状态查询指令。
举例来说,在数据同步的发送方有待同步的张量数据,例如在第一处理器完成一项运算得到运算结果(张量数据)时,可由发送方查询接收方的状态,确定数据同步的接收方的非共用存储空间能够分配给该张量数据的空间所能容纳的数据量,以便进行张量数据的部分同步。可以设定多个处理器中的第一处理器是数据同步的发送方,第二处理器是数据同步的接收方。第一处理器和第二处理器均为多个处理器中的任意处理器,第二处理器可与第一处理器的类型相同或不同,本公开对第一处理器和第二处理器的类型不作限制。
在一种可能的实现方式中,第一处理器可根据待同步的张量数据的描述符,生成状态查询指令。该状态查询指令可包括待同步的张量数据的描述符的标识和/或描述符的内容,用于指示第二处理器确定并回复自身的状态(也即针对张量数据的可同步数据量)。
在一种可能的实现方式中,第一处理器可将状态查询指令发送到第二处理器。第二处理器接收到该状态查询指令后,可解析该指令,从而确定描述符的标识和/或描述符的内容。根据描述符的标识和/或描述符的内容,第二处理器可确定待同步的张量数据,进而确定能够分配给该张量数据的空间,确定针对该张量数据的可同步数据量。根据针对该张量数据的可同步数据量及描述符,第二处理器可生成并发送同步状态指令,以使得第一处理器能够确定待同步的张量数据的描述符以及本次同步的可同步数据量。
通过这种方式,能够由数据同步的发送方主动查询接收方的状态,以便实现发送方与接收方之间的部分数据同步,从而提高数据同步的效率。
在一种可能的实现方式中,所述方法还包括:
在接收到来自所述第二处理器的同步状态指令时,根据所述同步状态指令中的张量数据的描述符及可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据。
举例来说,第一处理器在接收到来自第二处理器的同步状态指令时,可对该指令进行解析以得到该指令的内容(例如描述符的标识、可同步数据量等)。根据描述符的标识,可确定待同步的张量数据的描述符,从而确定待同步的张量数据;并根据可同步数据量从该张量数据中确定出本次可同步的部分数据,也即第一子数据。该第一子数据的数据量可与所述可同步数据量相对应,例如第一子数据的数据量小于或等于所述可同步数据量。
在一种可能的实现方式中,如果该张量数据的全部数据均未同步,则可从该张量数据中选择可同步数据量的数据作为第一子数据;如果该张量数据的部分数据未同步,且未同步的部分数据的数据量大于可同步数据量,则可从未同步的部分数据(也即该张量数据的第二子数据)中选择可同步数据量的数据作为第一子数据;如果未同步的部分数据的数据量小于或等于可同步数据量,则可将未同步的部分数据直接作为第一子数据,应当理解,本领域技术人员可根据实际情况确定第一子数据,本公开对此不作限制。
在一种可能的实现方式中,同步状态指令中也可包括待同步的张量数据的部分数据的范围,例如该部分子数据的描述符内容或存储地址范围等,以便指定获取待同步的部分数据。第一处理器可根据该部分数据的范围直接确定待同步的第一子数据。
在一种可能的实现方式中,第一处理器可根据第一子数据生成描述符同步指令并向第二处理器发送描述符同步指令。该指令中可包括待同步的张量数据的描述符的标识及第一子数据。第二处理器在接收到描述符同步指令后,可解析该指令以确定待同步的张量数据的描述符及张量数据的第一子数据,根据描述符确定待同步的张量数据,并将张量数据的第一子数据存储到自身的非共用存储空间中。
通过这种方式,能够根据同步状态指令中的描述符确定张量数据,根据接收方的可同步数据量确定本次同步的子数据,根据该子数据生成并发送描述符同步指令,以使接收方获取本次同步的子数据,从而减少同步开销,提高数据同步的效率。
在一种可能的实现方式中,同步状态指令包括描述符的标识。在接收到来自所述第二处理器的同步状态指令时,根据所述同步状态指令中的张量数据的描述符及可同步数据量,确定所述张量数据的第一子数据的步骤,可包括:
解析所述同步状态指令,获得所述描述符的标识及可同步数据量;
根据所述描述符的标识,确定所述待同步的张量数据的描述符。
举例来说,同步状态指令中可包括描述符的标识(例如标识为TR1)及可同步数据量。第一处理器可解析同步状态指令以获得描述符的标识及可同步数据量;进而根据描述符的标识,确定待同步的张量数据的描述符。
通过这种方式,能够减小同步时传输的数据量,提高处理效率。
在一种可能的实现方式中,在接收到来自所述第二处理器的同步状态指令时,根据所述同步状态指令中的张量数据的描述符及可同步数据量,确定所述张量数据的第一子数据的步骤,可包括:
根据所述张量数据的描述符,确定所述张量数据以及所述张量数据中处于待同步状态的第二子数据;
根据所述第二子数据及所述同步状态指令中的可同步数据量,确定第一子数据。
举例来说,可设定张量数据中数据的状态,将已同步的部分数据设定为已同步,并将未同步的部分数据设定为待同步。在该情况下,当第一处理器接收到来自第二处理器的同步状态指令时,可根据描述符确定待同步的张量数据;根据张量数据中数据的状态,可确定出处于待同步状态的第二子数据;根据第二子数据以及同步状态指令所指示的可同步数据量,可确定本次同步的第一子数据。
在一种可能的实现方式中,如果第二子数据的数据量大于可同步数据量,则可从第二子数据中选择出本次同步的第一子数据;如果第二子数据的数据量小于或等于可同步数据量,则可将第二子数据直接作为第一子数据。
通过这种方式,可确定出本次同步的部分数据,以便实现张量数据的部分同步,提高数据同步的效率。
在一种可能的实现方式中,所述方法还包括:将所述张量数据的第一子数据的状态由待同步状态变更为已同步状态。
举例来说,第一处理器在根据张量数据的第一子数据生成并发送描述符同步指令,使得第二处理器实现张量数据的第一子数据的同步后,第一处理器可对张量数据中数据的状态进行变更,也即,将第一子数据的状态由待同步状态变更为已同步状态。这样,在下一次查询第二处理器的状态并接收到第二处理器的同步状态指令时,可以从处于待同步状态的部分数据中确定下一次同步的数据,从而避免数据的重复同步,提高数据同步的效率。
在一种可能的实现方式中,还提供了一种数据同步方法,应用于第一处理器,该方法包括:
在接收到来自第一处理器的状态查询指令时,确定待同步的张量数据的描述符,所述描述符用于指示待同步的张量数据的形状;
根据所述张量数据的描述符,确定针对所述张量数据的可同步数据量;
根据所述张量数据的描述符及所述可同步数据量,生成同步状态指令,所述同步状态指令用于指示所述第一处理器确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
向所述第一处理器发送所述同步状态指令。
举例来说,在数据同步的发送方有待同步的张量数据时,也可由发送方查询接收方的状态。第一处理器(发送方)可生成并发送状态查询指令,第二处理器接收到该状态查询指令时,可解析该指令,已确定待同步的张量数据的描述符。
在一种可能的实现方式中,第二处理器可根据该描述符确定待同步的张量数据,并确定自身的非共用存储空间能够分配给该张量数据的空间所能容纳的数据量,即可同步数据量,以便进行张量数据的部分同步。
在一种可能的实现方式中,第二处理器可根据确定出的可同步数据量及该张量数据的描述符,生成并向第一处理器发送同步状态指令,以指示第一处理器确定待同步的张量数据的描述符以及本次同步的可同步数据量。第一处理器在确定本次可同步的部分数据(也即第一子数据)后,可生成描述符同步指令并向第二处理器发送描述符同步指令。该指令中可包括待同步的张量数据的描述符的标识及第一子数据。
通过这种方式,可由发送方查询接收方的状态,接收方在接收到状态查询指令后确定并回复自身的状态(即可同步数据量),通过交互实现张量数据的部分同步,提高数据同步的效率。
在一种可能的实现方式中,所述方法还包括:
在接收到来自所述第一处理器的描述符同步指令时,确定待同步的张量数据的描述符及所述张量数据的第一子数据;
根据所述张量数据的描述符,存储所述张量数据的第一子数据。
举例来说,第二处理器在接收到描述符同步指令时,可解析该指令以确定待同步的张量数据的描述符及本次同步的该张量数据的第一子数据;进而根据描述符确定待同步的张量数据,并将张量数据的第一子数据存储到自身的非共用存储空间中。
通过这种方式,接收方能够根据描述符同步指令确定描述符并获取本次同步的子数据,从而减少同步开销,提高数据同步的效率。
在一种可能的实现方式中,描述符的标识和内容可存储在描述符存储空间中,该描述符存储空间可以为处理器的内部存储器(例如寄存器、片上的SRAM或其他介质缓存等)中的存储空间。描述符所指示的张量数据的数据存储空间可为处理器的内部存储器(例如片上缓存)或与处理器连接的外部存储器(片下存储器)中的存储空间。数据存储空间中的数据地址可以为实际的物理地址或虚拟地址。本公开对描述符存储空间及数据存储空间的位置以及数据地址的类型不作限制。
在一种可能的实现方式中,描述符的标识、内容以及描述符所指示的张量数据可以位于同一块区域,例如,可使用片上缓存的一块连续区域存储描述符的相关内容,其地址为ADDR0-ADDR1023,其中,地址ADDR0-ADDR31可用于存储描述符的标识,地址ADDR32-ADDR63可用于存储描述符的内容,地址ADDR64-ADDR1023可用于存储描述符指示的张量数据。其中,地址ADDR并不限于1位或一个字节,此处用来表示一个地址,是一个地址单位。本领域技术人员可以实际情况确定存储区域及其地址,本公开对此不作限制。
在一种可能的实现方式中,描述符的标识、内容以及描述符所指示的张量数据可以分开存储在内部存储器的不同区域,例如,可以将寄存器作为描述符存储空间,在寄存器中存储描述符的标识及内容,将片上缓存作为数据存储空间,存储描述符所指示的张量数据。
在一种可能的实现方式中,还可以设置专门供描述符使用的专用寄存器(SR),描述符中的数据可以是立即数也可以从专用寄存器中获取。在使用寄存器存储描述符的标识和内容时,可以使用寄存器的编号来表示描述符的标识,例如,寄存器的编号为0时,其存储的描述符的标识为0。当寄存器中的描述符有效时,可根据描述符所指示的张量数据的大小在缓存空间中分配一块区域(例如在缓存中为每个张量数据创建一个张量缓存单元)用于存储该张量数据。应当理解,也可以采用预设的缓存空间存储该张量数据,本公开对此不作限制。
在一种可能的实现方式中,描述符的标识及内容可存储在内部存储器,描述符所指示的张量数据可存储在外部存储器。例如,可以采用在片上存储描述符的标识及内容、在片下存储描述符所指示的张量数据的方式。
在一种可能的实现方式中,与描述符对应的数据存储空间的数据地址可以是固定地址。例如,可以为张量数据划分单独的数据存储空间,每个张量数据在数据存储空间的起始地址与描述符的标识一一对应。在这种情况下,处理器根据描述符的内容即可确定张量数据的数据地址。
在一种可能的实现方式中,在与描述符对应的数据存储空间的数据地址为可变地址时,所述描述符还可用于指示N维的张量数据的地址,其中,所述描述符的内容还可包括表示张量数据的地址的至少一个地址参数。例如,张量数据为3维数据,在描述符指向该张量数据的地址时,描述符的内容可包括表示该张量数据的地址的一个地址参数,例如张量数据的起始地址,也可以包括该张量数据的地址的多个地址参数,例如张量数据的起始地址+地址偏移量,或张量数据基于各维度的地址参数。本领域技术人员可以根据实际需要对地址参数进行设置,本公开对此不作限制。
在一种可能的实现方式中,所述张量数据的地址参数包括所述描述符的数据基准点在所述张量数据的数据存储空间中的基准地址。其中,基准地址可根据数据基准点的变化而不同。本公开对数据基准点的选取不作限制。
在一种可能的实现方式中,所述基准地址可包括所述数据存储空间的起始地址。在描述符的数据基准点是数据存储空间的第一个数据块时,描述符的基准地址即为数据存储空间的起始地址。在描述符的数据基准点是数据存储空间中第一个数据块以外的其他数据时,描述符的基准地址即为该数据块在数据存储空间中的物理地址。
在一种可能的实现方式中,所述张量数据的形状参数包括以下至少一种:所述张量数据的数据存储空间在N个维度方向的至少一个方向上的尺寸、所述存储区域在N个维度方向的至少一个方向上的尺寸、所述存储区域在N个维度方向的至少一个方向上的偏移量、处于N个维度方向的对角位置的至少两个顶点相对于所述数据基准点的位置、所述描述符所指示的张量数据的数据描述位置与数据地址之间的映射关系。其中,数据描述位置是描述符所指示的张量数据中的点或区域的映射位置,例如,张量数据为3维数据时,描述符可使用三维空间坐标(x,y,z)来表示该张量数据的形状,该张量数据的数据描述位置可以是使用三维空间坐标(x,y,z)表示的、该张量数据映射在三维空间中的点或区域的位置。
应当理解,本领域技术人员可以根据实际情况选择表示张量数据的形状参数,本公开对此不作限制。
图4示出根据本公开实施例的数据同步方法的数据存储空间的示意图。如图4所示,数据存储空间21采用行优先的方式存储了一个二维数据,可通过(x,y)来表示(其中,X轴水平向右,Y轴垂直向下),X轴方向上的尺寸(每行的尺寸)为ori_x(图中未示出),Y轴方向上的尺寸(总行数)为ori_y(图中未示出),数据存储空间21的起始地址PA_start(基准地址)为第一个数据块22的物理地址。数据块23是数据存储空间21中的部分数据,其在X轴方向上的偏移量25表示为offset_x,在Y轴方向上的偏移量24表示为offset_y,在X轴方向上的尺寸表示为size_x,在Y轴方向上的尺寸表示为size_y。
在一种可能的实现方式中,使用描述符来定义数据块23时,描述符的数据基准点可使用数据存储空间21的第一个数据块,描述符的基准地址为数据存储空间21的起始地址PA_start,然后可以结合数据存储空间21在X轴的尺寸ori_x、在Y轴上的尺寸ori_y,以及数据块23在Y轴方向的偏移量offset_y、X轴方向上的偏移量offset_x、X轴方向上的尺寸size_x以及Y轴方向上的尺寸size_y来确定数据块23的描述符的内容。
在一种可能的实现方式中,可以使用下述公式(1)来表示描述符的内容:
Figure BDA0002162011080000131
应当理解,虽然上述示例中,描述符描述的是二维空间,但本领域技术人员可以根据实际情况对描述符的内容表示的维度进行设置,本公开对此不作限制。
在一种可能的实现方式中,可根据所述描述符的数据基准点在所述数据存储空间中的基准地址、处于N个维度方向的对角位置的至少两个顶点相对于所述数据基准点的位置,确定所述张量数据的描述符的内容。
举例来说,可以使用描述符的数据基准点在数据存储空间中的基准地址PA_base,以及对角位置的两个顶点相对于数据基准点的位置,确定出图2中数据块23的描述符的内容。首先,确定描述符的数据基准点以及其在数据存储空间中的基准地址PA_base,例如,可以在数据存储空间21中选取一个数据(例如,位置为(2,2)的数据)作为数据基准点,将该数据在数据存储空间中的物理地址作为基准地址PA_base;然后,确定数据块23的对角位置的至少两个顶点相对于数据基准点的位置,例如,使用左上至右下方向的对角位置顶点相对于数据基准点的位置,其中,左上角顶点的相对位置为(x_min,y_min),右下角顶点的相对位置为(x_max,y_max),然后可以根据基准地址PA_base、左上角顶点的相对位置(x_min,y_min)以及右下角顶点的相对位置(x_max,y_max)确定出数据块23的描述符的内容。
在一种可能的实现方式中,可以使用下述公式(2)来表示描述符的内容:
Figure BDA0002162011080000141
应当理解,虽然上述示例中使用左上角和右下角两个顶点来确定描述符的内容,但本领域技术人员可以根据实际需要对至少两个顶点的具体顶点进行设置,本公开对此不作限制。
在一种可能的实现方式中,可根据所述描述符的数据基准点在所述数据存储空间中的基准地址,以及所述描述符所指示的张量数据的数据描述位置与数据地址之间的映射关系,确定所述张量数据的描述符的内容。其中,数据描述位置与数据地址之间的映射关系可以根据实际需要进行设定,例如,描述符所指示的张量数据为三维空间数据时,可是使用函数f(x,y,z)来定义数据描述位置与数据地址之间的映射关系。
在一种可能的实现方式中,可以使用下述公式(3)来表示描述符的内容:
Figure BDA0002162011080000142
应当理解,本领域技术人员可以根据实际情况对数据描述位置与数据地址之间的映射关系进行设定,本公开对此不作限制。
在采用公式(1)表示描述符的内容的情况下,对于张量数据中的任意一个数据点,设其数据描述位置为(xq,yq),那么,该数据点在数据存储空间中的数据地址PA2(x,y)可以使用下述公式(4)来确定:
PA2(x,y)=PA_start+(offset_y+yq-1)*ori_x+(offset_x+xq) (4)
通过这种方式,处理器可以根据描述符的内容计算出描述符所指示的张量数据在数据存储空间中的数据地址,进而根据该地址执行对应的处理(例如数据运算、数据同步等),从而可降低数据存取的复杂度,提高处理器的处理效率。
根据本公开实施例的数据同步方法,能够在数据同步的接收方空间不足时实现张量数据的部分同步,通过多次的部分同步来实现整个张量数据的同步,从而避免了在空间不足的情况下张量数据整体同步失败或同步延迟等问题,提高了数据同步的效率;并且设定有指示张量数据的形状的描述符,在数据同步过程中根据描述符来确定张量数据,从而减少了同步开销,降低了数据存取的复杂度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
进一步需要说明的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图5示出根据本公开实施例的数据同步装置的框图。该数据同步装置应用于第一处理器,如图5所示,该数据同步装置包括:
描述符及数据量确定模块51,用于在接收到来自所述第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,其中,所述描述符用于指示待同步的张量数据的形状;
子数据确定模块52,用于根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
同步指令生成及发送模块53,用于根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据。
在一种可能的实现方式中,所述子数据确定模块包括:
第一确定子模块,用于根据所述张量数据的描述符,确定所述张量数据以及所述张量数据中处于待同步状态的第二子数据;
第二确定子模块,用于根据所述第二子数据及所述可同步数据量,确定第一子数据。
在一种可能的实现方式中,所述装置还包括:
状态变更模块,用于将所述张量数据的第一子数据的状态由待同步状态变更为已同步状态。
在一种可能的实现方式中,所述描述符同步请求指令包括描述符的标识,其中,所述描述符及数据量确定模块包括:
第一解析子模块,用于解析所述描述符同步请求指令,获得所述描述符的标识及可同步数据量;
第一描述符确定子模块,用于根据所述描述符的标识,确定所述待同步的张量数据的描述符。
在一种可能的实现方式中,所述描述符同步请求指令包括所述待同步的张量数据的数据特征,其中,所述描述符及数据量确定模块包括:
第二解析子模块,用于解析所述描述符同步请求指令,获得待同步的张量数据的数据特征及可同步数据量;
第二描述符确定子模块,用于根据所述张量数据的数据特征,确定所述张量数据的描述符。
图6示出根据本公开实施例的数据同步装置的框图。该数据同步装置应用于第二处理器,如图6所示,该数据同步装置包括:
请求指令生成模块61,用于根据待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,生成描述符同步请求指令,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符同步请求指令用于指示第一处理器根据所述描述符同步请求指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
请求指令发送模块62,用于向所述第一处理器发送所述描述符同步请求指令。
在一种可能的实现方式中,所述装置还包括:
描述符及子数据确定模块,用于在接收到来自所述第一处理器的描述符同步指令时,确定待同步的张量数据的描述符及所述张量数据的第一子数据;
数据存储模块,用于根据所述张量数据的描述符,存储所述张量数据的第一子数据。
应该理解,上述的装置实施例仅是示意性的,本公开的装置还可通过其它的方式实现。例如,上述实施例中所述单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
另外,若无特别说明,在本公开各个实施例中的各功能单元/模块可以集成在一个单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元/模块如果以硬件的形式实现时,该硬件可以是数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于晶体管,忆阻器等等。若无特别说明,所述人工智能处理器可以是任何适当的硬件处理器,比如CPU、GPU、FPGA、DSP和ASIC等等。若无特别说明,所述存储单元可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM(Resistive Random Access Memory)、动态随机存取存储器DRAM(Dynamic RandomAccess Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等。
所述集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在一种可能的实现方式中,还公开了一种人工智能芯片,其包括了上述数据同步装置。
在一种可能的实现方式中,还公开了一种板卡,其包括存储器件、接口装置和控制器件以及上述人工智能芯片;其中,所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;所述存储器件,用于存储数据;所述接口装置,用于实现所述人工智能芯片与外部设备之间的数据传输;所述控制器件,用于对所述人工智能芯片的状态进行监控。
图7示出根据本公开实施例的板卡的结构框图,参阅图7,上述板卡除了包括上述芯片389以外,还可以包括其他的配套部件,该配套部件包括但不限于:存储器件390、接口装置391和控制器件392;
所述存储器件390与所述人工智能芯片通过总线连接,用于存储数据。所述存储器件可以包括多组存储单元393。每一组所述存储单元与所述人工智能芯片通过总线连接。可以理解,每一组所述存储单元可以是DDR SDRAM(英文:Double Data Rate SDRAM,双倍速率同步动态随机存储器)。
DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中,所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中,所述人工智能芯片内部可以包括4个72位DDR4控制器,上述72位DDR4控制器中64bit用于传输数据,8bit用于ECC校验。可以理解,当每一组所述存储单元中采用DDR4-3200颗粒时,数据传输的理论带宽可达到25600MB/s。
在一个实施例中,每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器,用于对每个所述存储单元的数据传输与数据存储的控制。
所述接口装置与所述人工智能芯片电连接。所述接口装置用于实现所述人工智能芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中,所述接口装置可以为标准PCIE接口。比如,待处理的数据由服务器通过标准PCIE接口传递至所述芯片,实现数据转移。优选的,当采用PCIE 3.0 X 16接口传输时,理论带宽可达到16000MB/s。在另一个实施例中,所述接口装置还可以是其他的接口,本公开并不限制上述其他的接口的具体表现形式,所述接口单元能够实现转接功能即可。另外,所述人工智能芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。
所述控制器件与所述人工智能芯片电连接。所述控制器件用于对所述人工智能芯片的状态进行监控。具体的,所述人工智能芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit,MCU)。如所述人工智能芯片可以包括多个处理芯片、多个处理核或多个处理电路,可以带动多个负载。因此,所述人工智能芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述人工智能芯片中多个处理芯片、多个处理和或多个处理电路的工作状态的调控。
在一种可能的实现方式中,公开了一种电子设备,其包括了上述人工智能芯片。电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
依据以下条款可更好地理解前述内容:
A1、一种数据同步方法,所述方法应用于第一处理器,包括:
在接收到来自第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,其中,所述描述符用于指示待同步的张量数据的形状;
根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据。
A2、根据权利要求A1所述的方法,根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,包括:
根据所述张量数据的描述符,确定所述张量数据以及所述张量数据中处于待同步状态的第二子数据;
根据所述第二子数据及所述可同步数据量,确定第一子数据。
A3、根据权利要求A1或A2所述的方法,所述方法还包括:
将所述张量数据的第一子数据的状态由待同步状态变更为已同步状态。
A4、根据权利要求A1-A3中任意一项所述的方法,所述描述符同步请求指令包括描述符的标识,
其中,在接收到来自所述第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,包括:
解析所述描述符同步请求指令,获得所述描述符的标识及可同步数据量;
根据所述描述符的标识,确定所述待同步的张量数据的描述符。
A5、根据权利要求A1-A3中任意一项所述的方法,所述描述符同步请求指令包括所述待同步的张量数据的数据特征,
其中,在接收到来自所述第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,包括:
解析所述描述符同步请求指令,获得待同步的张量数据的数据特征及可同步数据量;
根据所述张量数据的数据特征,确定所述张量数据的描述符。
A6、一种数据同步方法,所述方法应用于第二处理器,包括:
根据待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,生成描述符同步请求指令,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符同步请求指令用于指示第一处理器根据所述描述符同步请求指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
向所述第一处理器发送所述描述符同步请求指令。
A7、根据权利要求A6所述的方法,所述方法还包括:
在接收到来自所述第一处理器的描述符同步指令时,确定待同步的张量数据的描述符及所述张量数据的第一子数据;
根据所述张量数据的描述符,存储所述张量数据的第一子数据。
A8、一种数据同步装置,所述装置应用于第一处理器,包括:
描述符及数据量确定模块,用于在接收到来自第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,其中,所述描述符用于指示待同步的张量数据的形状;
子数据确定模块,用于根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
同步指令生成及发送模块,用于根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据。
A9、根据权利要求A8所述的装置,所述子数据确定模块包括:
第一确定子模块,用于根据所述张量数据的描述符,确定所述张量数据以及所述张量数据中处于待同步状态的第二子数据;
第二确定子模块,用于根据所述第二子数据及所述可同步数据量,确定第一子数据。
A10、根据权利要求A8或A9所述的装置,所述装置还包括:
状态变更模块,用于将所述张量数据的第一子数据的状态由待同步状态变更为已同步状态。
A11、根据权利要求A8-A10中任意一项所述的装置,所述描述符同步请求指令包括描述符的标识,其中,所述描述符及数据量确定模块包括:
第一解析子模块,用于解析所述描述符同步请求指令,获得所述描述符的标识及可同步数据量;
第一描述符确定子模块,用于根据所述描述符的标识,确定所述待同步的张量数据的描述符。
A12、根据权利要求A8-A10中任意一项所述的装置,所述描述符同步请求指令包括所述待同步的张量数据的数据特征,其中,所述描述符及数据量确定模块包括:
第二解析子模块,用于解析所述描述符同步请求指令,获得待同步的张量数据的数据特征及可同步数据量;
第二描述符确定子模块,用于根据所述张量数据的数据特征,确定所述张量数据的描述符。
A13、一种数据同步装置,所述装置应用于第二处理器,包括:
请求指令生成模块,用于根据待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,生成描述符同步请求指令,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符同步请求指令用于指示第一处理器根据所述描述符同步请求指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应;
请求指令发送模块,用于向所述第一处理器发送所述描述符同步请求指令。
A14、根据权利要求A13所述的装置,所述装置还包括:
描述符及子数据确定模块,用于在接收到来自所述第一处理器的描述符同步指令时,确定待同步的张量数据的描述符及所述张量数据的第一子数据;
数据存储模块,用于根据所述张量数据的描述符,存储所述张量数据的第一子数据。
A15、一种人工智能芯片,所述芯片包括如权利要求A8-A14中任意一项所述的数据同步装置。
A16、一种电子设备,所述电子设备包括如权利要求A15所述的人工智能芯片。
A17、一种板卡,所述板卡包括:存储器件、接口装置和控制器件以及如权利要求A15所述的人工智能芯片;其中,所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;所述存储器件,用于存储数据;所述接口装置,用于实现所述人工智能芯片与外部设备之间的数据传输;所述控制器件,用于对所述人工智能芯片的状态进行监控。
A18、根据权利要求A17所述的板卡,所述存储器件包括:多组存储单元,每一组所述存储单元与所述人工智能芯片通过总线连接,所述存储单元为:DDR SDRAM;所述芯片包括:DDR控制器,用于对每个所述存储单元的数据传输与数据存储的控制;所述接口装置为:标准PCIE接口。
以上对本公开实施例进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明仅用于帮助理解本公开的方法及其核心思想。同时,本领域技术人员依据本公开的思想,基于本公开的具体实施方式及应用范围上做出的改变或变形之处,都属于本公开保护的范围。综上所述,本说明书内容不应理解为对本公开的限制。

Claims (16)

1.一种数据同步方法,其特征在于,所述方法应用于第一处理器,包括:
在接收到来自第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符包括对应于所述张量数据的标识和对应于所述张量数据的内容,所述内容用于指示表征所述张量数据的形状的至少一个形状参数;
根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应,所述第一子数据用于指示所述张量数据中本次可同步的部分数据;
根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据;
其中,根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,包括:
根据所述张量数据的描述符,确定所述张量数据以及所述张量数据中处于待同步状态的第二子数据;
根据所述第二子数据及所述可同步数据量,确定第一子数据;
所述在接收到来自第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,包括:
解析所述描述符同步请求指令,获得所述待同步的张量数据的数据特征;
根据所述数据特征,确定所述待同步的张量数据的描述符。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述张量数据的第一子数据的状态由待同步状态变更为已同步状态。
3.根据权利要求1或2所述的方法,其特征在于,所述描述符同步请求指令包括描述符的标识,
其中,在接收到来自所述第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,包括:
解析所述描述符同步请求指令,获得所述描述符的标识及可同步数据量;
根据所述描述符的标识,确定所述待同步的张量数据的描述符。
4.根据权利要求1或2所述的方法,其特征在于,所述描述符同步请求指令包括所述待同步的张量数据的数据特征,
其中,在接收到来自所述第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,包括:
解析所述描述符同步请求指令,获得待同步的张量数据的数据特征及可同步数据量;
根据所述张量数据的数据特征,确定所述张量数据的描述符。
5.一种数据同步方法,其特征在于,所述方法应用于第二处理器,包括:
根据待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,生成描述符同步请求指令,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符同步请求指令用于指示第一处理器根据所述描述符同步请求指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应,所述描述符包括对应于所述张量数据的标识和对应于所述张量数据的内容,所述内容用于指示表征所述张量数据的形状的至少一个形状参数,所述第一子数据用于指示所述张量数据中本次可同步的部分数据;
向所述第一处理器发送所述描述符同步请求指令。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在接收到来自所述第一处理器的描述符同步指令时,确定待同步的张量数据的描述符及所述张量数据的第一子数据;
根据所述张量数据的描述符,存储所述张量数据的第一子数据。
7.一种数据同步装置,其特征在于,所述装置应用于第一处理器,包括:
描述符及数据量确定模块,用于在接收到来自第二处理器的描述符同步请求指令时,确定待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符包括对应于所述张量数据的标识和对应于所述张量数据的内容,所述内容用于指示表征所述张量数据的形状的至少一个形状参数;
子数据确定模块,用于根据所述张量数据的描述符及所述可同步数据量,确定所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应,所述第一子数据用于指示所述张量数据中本次可同步的部分数据;
同步指令生成及发送模块,用于根据所述第一子数据,生成描述符同步指令并向所述第二处理器发送所述描述符同步指令,以指示所述第二处理器获取所述第一子数据;
其中,所述子数据确定模块包括:
第一确定子模块,用于根据所述张量数据的描述符,确定所述张量数据以及所述张量数据中处于待同步状态的第二子数据;
第二确定子模块,用于根据所述第二子数据及所述可同步数据量,确定第一子数据;
所述描述符及数据量确定模块,还用于:
解析所述描述符同步请求指令,获得所述待同步的张量数据的数据特征;
根据所述数据特征,确定所述待同步的张量数据的描述符。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
状态变更模块,用于将所述张量数据的第一子数据的状态由待同步状态变更为已同步状态。
9.根据权利要求7或8所述的装置,其特征在于,所述描述符同步请求指令包括描述符的标识,其中,所述描述符及数据量确定模块包括:
第一解析子模块,用于解析所述描述符同步请求指令,获得所述描述符的标识及可同步数据量;
第一描述符确定子模块,用于根据所述描述符的标识,确定所述待同步的张量数据的描述符。
10.根据权利要求7或8所述的装置,其特征在于,所述描述符同步请求指令包括所述待同步的张量数据的数据特征,其中,所述描述符及数据量确定模块包括:
第二解析子模块,用于解析所述描述符同步请求指令,获得待同步的张量数据的数据特征及可同步数据量;
第二描述符确定子模块,用于根据所述张量数据的数据特征,确定所述张量数据的描述符。
11.一种数据同步装置,其特征在于,所述装置应用于第二处理器,包括:
请求指令生成模块,用于根据待同步的张量数据的描述符以及针对所述张量数据的可同步数据量,生成描述符同步请求指令,其中,所述描述符用于指示待同步的张量数据的形状,所述描述符同步请求指令用于指示第一处理器根据所述描述符同步请求指令确定待同步的张量数据的描述符以及所述张量数据的第一子数据,所述第一子数据的数据量与所述可同步数据量相对应,所述描述符包括对应于所述张量数据的标识和对应于所述张量数据的内容,所述内容用于指示表征所述张量数据的形状的至少一个形状参数,所述第一子数据用于指示所述张量数据中本次可同步的部分数据;
请求指令发送模块,用于向所述第一处理器发送所述描述符同步请求指令。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
描述符及子数据确定模块,用于在接收到来自所述第一处理器的描述符同步指令时,确定待同步的张量数据的描述符及所述张量数据的第一子数据;
数据存储模块,用于根据所述张量数据的描述符,存储所述张量数据的第一子数据。
13.一种人工智能芯片,其特征在于,所述芯片包括如权利要求7-12中任意一项所述的数据同步装置。
14.一种电子设备,其特征在于,所述电子设备包括如权利要求13所述的人工智能芯片。
15.一种板卡,其特征在于,所述板卡包括:存储器件、接口装置和控制器件以及如权利要求13所述的人工智能芯片;
其中,所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;
所述存储器件,用于存储数据;
所述接口装置,用于实现所述人工智能芯片与外部设备之间的数据传输;
所述控制器件,用于对所述人工智能芯片的状态进行监控。
16.根据权利要求15所述的板卡,其特征在于,
所述存储器件包括:多组存储单元,每一组所述存储单元与所述人工智能芯片通过总线连接,所述存储单元为:DDR SDRAM;
所述芯片包括:DDR控制器,用于对每个所述存储单元的数据传输与数据存储的控制;
所述接口装置为:标准PCIE接口。
CN201910735393.3A 2019-04-04 2019-08-09 数据同步方法及装置以及相关产品 Active CN112347026B (zh)

Priority Applications (12)

Application Number Priority Date Filing Date Title
CN201910735393.3A CN112347026B (zh) 2019-08-09 2019-08-09 数据同步方法及装置以及相关产品
KR1020207032017A KR20200142536A (ko) 2019-04-04 2020-04-01 데이터 처리 장치 및 관련 제품
EP20785318.5A EP3951666A4 (en) 2019-04-04 2020-04-01 DATA PROCESSING DEVICE AND ASSOCIATED PRODUCT
PCT/CN2020/082803 WO2020200246A1 (zh) 2019-04-04 2020-04-01 数据处理装置及相关产品
KR1020207036316A KR102611169B1 (ko) 2019-04-04 2020-04-01 데이터 처리 장치 및 관련 제품
KR1020207036312A KR102611162B1 (ko) 2019-04-04 2020-04-01 데이터 처리 장치 및 관련 제품
JP2021510523A JP7073581B2 (ja) 2019-04-04 2020-04-01 データ処理装置及び関連製品
JP2020198200A JP7121103B2 (ja) 2019-04-04 2020-11-30 データ処理装置及び関連製品
JP2020198245A JP7150803B2 (ja) 2019-04-04 2020-11-30 データ処理装置及び関連製品
US17/489,671 US11385895B2 (en) 2019-04-04 2021-09-29 Data processing apparatus and related products
US17/849,182 US11886880B2 (en) 2019-04-04 2022-06-24 Data processing apparatus and related products with descriptor management
US18/531,734 US20240111536A1 (en) 2019-04-04 2023-12-07 Data processing apparatus and related products

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910735393.3A CN112347026B (zh) 2019-08-09 2019-08-09 数据同步方法及装置以及相关产品

Publications (2)

Publication Number Publication Date
CN112347026A CN112347026A (zh) 2021-02-09
CN112347026B true CN112347026B (zh) 2023-03-31

Family

ID=74366881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910735393.3A Active CN112347026B (zh) 2019-04-04 2019-08-09 数据同步方法及装置以及相关产品

Country Status (1)

Country Link
CN (1) CN112347026B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766296A (zh) * 2019-01-08 2019-05-17 郑州云海信息技术有限公司 一种数据处理方法、装置、系统和dma控制器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461180B2 (en) * 2006-05-08 2008-12-02 Cisco Technology, Inc. Method and apparatus for synchronizing use of buffer descriptor entries for shared data packets in memory
US8683126B2 (en) * 2007-07-30 2014-03-25 Nvidia Corporation Optimal use of buffer space by a storage controller which writes retrieved data directly to a memory
US9785565B2 (en) * 2014-06-30 2017-10-10 Microunity Systems Engineering, Inc. System and methods for expandably wide processor instructions
CN107103004B (zh) * 2016-02-23 2020-11-06 创新先进技术有限公司 网页中的数据处理方法、装置及系统
CN109685201B (zh) * 2018-12-14 2020-10-30 安徽寒武纪信息科技有限公司 运算方法、装置及相关产品

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766296A (zh) * 2019-01-08 2019-05-17 郑州云海信息技术有限公司 一种数据处理方法、装置、系统和dma控制器

Also Published As

Publication number Publication date
CN112347026A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN110096310B (zh) 运算方法、装置、计算机设备和存储介质
CN112347186B (zh) 数据同步方法及装置以及相关产品
EP3825842A1 (en) Data processing method and apparatus, and related product
CN111831337B (zh) 数据同步方法及装置以及相关产品
US20240111536A1 (en) Data processing apparatus and related products
US20240004650A1 (en) Data processing method and apparatus, and related product
CN111857828A (zh) 处理器操作方法及装置以及相关产品
CN112306945B (zh) 数据同步方法及装置以及相关产品
WO2021027973A1 (zh) 数据同步方法及装置以及相关产品
CN112347026B (zh) 数据同步方法及装置以及相关产品
CN111047005A (zh) 运算方法、装置、计算机设备和存储介质
WO2021223642A1 (zh) 数据处理方法及装置以及相关产品
CN112347185A (zh) 数据同步方法及装置以及相关产品
CN111782274B (zh) 数据处理装置及相关产品
CN111831722A (zh) 数据同步方法及装置以及相关产品
US20240126553A1 (en) Data processing method and apparatus, and related product
CN112306949B (zh) 数据处理方法及装置以及相关产品
CN111831329B (zh) 数据处理方法及装置以及相关产品
CN111124497B (zh) 运算方法、装置、计算机设备和存储介质
CN111782267B (zh) 数据处理方法及装置以及相关产品
CN113807507A (zh) 数据处理方法及装置以及相关产品
CN113806246A (zh) 数据处理装置及方法以及相关产品
CN113626081A (zh) 数据处理方法及装置以及相关产品
CN113296736A (zh) 基于随机数的数据处理方法、随机数生成方法及装置
CN114282159A (zh) 数据处理装置、集成电路芯片、设备及其实现的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant