CN112528224A - 一种矩阵特征值分解分组循环迭代流水实现方法及系统 - Google Patents

一种矩阵特征值分解分组循环迭代流水实现方法及系统 Download PDF

Info

Publication number
CN112528224A
CN112528224A CN202011587357.6A CN202011587357A CN112528224A CN 112528224 A CN112528224 A CN 112528224A CN 202011587357 A CN202011587357 A CN 202011587357A CN 112528224 A CN112528224 A CN 112528224A
Authority
CN
China
Prior art keywords
grouping
matrix
iteration
cycle
eigenvalue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011587357.6A
Other languages
English (en)
Other versions
CN112528224B (zh
Inventor
刘义冬
张党胜
俞春祥
鲍路路
周晓玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Microwave Technology CETC 50 Research Institute
Original Assignee
Shanghai Institute of Microwave Technology CETC 50 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Microwave Technology CETC 50 Research Institute filed Critical Shanghai Institute of Microwave Technology CETC 50 Research Institute
Priority to CN202011587357.6A priority Critical patent/CN112528224B/zh
Publication of CN112528224A publication Critical patent/CN112528224A/zh
Application granted granted Critical
Publication of CN112528224B publication Critical patent/CN112528224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/552Powers or roots, e.g. Pythagorean sums

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种矩阵特征值分解分组循环迭代流水实现方法及系统,包括:基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量,形成一个总循环流水模块。本发明提出将此总迭代进行分组切分,每个分组只计算更小规模的迭代循环次数。这样每个分组之间进行级联流水,在不增加硬件资源的情况下增加吞吐量。和并行处理或其他流水实现方式相比,这种架构实现装置在实现了高计算吞吐率的同时,消耗更低资源。

Description

一种矩阵特征值分解分组循环迭代流水实现方法及系统
技术领域
本发明涉及矩阵特征向值分解(EVD:Eigen Value Decomposition)的一种硬件实现方式,具体地,涉及一种矩阵特征值分解分组循环迭代流水实现方法及系统,更为具体地,涉及基于乘幂法的矩阵特征值分解分组循环迭代流水实现方法及系统,一种基于乘幂法的分组循环迭代流水线在现场可编程逻辑阵列(FPGA:Field Programmable LogicArray)中的实现。
背景技术
矩阵特征值分解被应用于科研和工程的很多领域,如移动通信、主成分分析算法、人工视觉等。因此,对矩阵特征值分解的硬件实现进行研究,寻找一种较好的硬件实现架构具有十分重要的意义。
在现有的矩阵特征值分解算法中,乘幂法是用于求大型稀疏矩阵的主特征值的迭代方法,其公式简单,能很方便利用软件实现。反幂法主要应用于知道矩阵的近似特征值后,求取矩阵的特征向量,它的特点是收敛快并且精度高,求取特征向量非常有效。乘幂法每次只能求出矩阵的一个主特值及特征向量,而作为乘幂法的推广:子空间迭代法一次可求出矩阵的前几个按模最大特值及特征向量,非常适合于求解大型稀疏矩阵的特征值问题。对于对称矩阵的特征值分解,主要采用正交变换法,依据采用的分解办法的不同,分为雅克比(Jacobi)算法和正交三角(QR)分解法。其中Jacobi算法的精度是所有算法中最高的。乘幂法相对QR分解法而言,存在小特征值精度损失较大的问题,QR分解法为了减少乘幂法优先计算大特征值所带来的小特征值精度问题,一次计算出所有的特征值,但是迭代过程中存在QR分解矩阵计算步骤,计算较乘幂法复杂,硬件资源消耗和计算时间成本较高。乘幂法适合于求解稀疏矩阵的主特征值,反幂法适合于知道矩阵特征值求解相应特征向量的情况,而作为乘幂法推广的子空间迭代法适合于求解大型稀疏矩阵的特征值。
目前,关于矩阵特征值分解硬件实现的研究集中在对Jacobi算法的并行处理研究上。Jacobi计算使用脉动阵,阵列的每个处理单元通常由若干个CORDIC核组成,一个核用于计算角度,两个核用于处理左右角度的旋转,由脉动阵进行角度的传输,对于一个n×n规模的矩阵,一次循环通常需要迭代n个周期,直到对角线以外的元素符合收敛标准。因此,JACOBI算法虽然精度较高,但是处理周期和资源消耗也比较大。对于乘幂法的实现,根据算法步骤,通常实现的架构可以是单处理单元(PE:Process Element),通过并行增加吞吐量,也可以是流水线式处理单元,每个流水单元计算出一个特征值和特征向量。考虑一个PE输出K×K矩阵的K个特征值及其特征向量,处理周期是非常大的,在考虑固定N次迭代循环后输出一个特征向量,需要M×K个迭代循环时间加上循环外的其他计算开销,计算全部的特征向量耗时长,在大吞吐计算量的情况下,需要多个单元并行处理,整体资源消耗比流水方式的实现要高。流水方式实现是利用了乘幂法各个特征向量计算之间的依赖关系,每一级流水计算出一个特征向量,并向下一级传递矩阵更新结果。然而在实时性和吞吐量要求高的场合下,这样的流水线实现方式也不能保证满足要求。因此,需要更优的架构设计来满足在一定资源约束条件下的计算能力要求。
本发明的目的在于提出一种吞吐量和速率可调整的通用性架构,具有分组循环迭代流水的模式,消耗较少的硬件实现资源。由于特征值和特征向量的应用场合非常多,有很多场景下EVD分解只是整体算法的组成部分,在整体算法通常要求流水实现的情况下,特征值与特征向量分解的速度需要与整体算法进行速率匹配,这样本发明提供的实现架构可通过调整速率适用于大部分的求解应用场合,并且作为一个重要的组成部分,消耗的硬件资源也较低,使得特征值分解不成为整体算法实现的瓶颈。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种矩阵特征值分解分组循环迭代流水实现方法及系统。
根据本发明提供的一种矩阵特征值分解分组循环迭代流水实现方法,包括:基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量,形成一个总循环流水模块。
优选地,还包括:对预设循环迭代次数进行预设规模的分组,并将分组进行级联,分组延迟作为流水处理间隔,每个间隔接收新的输入矩阵特征值并对新输入的矩阵特征值进行处理,当输入k个矩阵特征值时,则包括k个总循环流水模块,从而实现低总循环迭代延迟以及高吞吐量。
优选地,所述k个总循环流水模块级联组成全流水架构,全流水架构各个总循环流水模块级联连接处流水输出k个特征值和特征向量。
优选地,所述对循环迭代进行预设规模的分组包括对循环迭代进行不同规模的分组,从而满足不同速率需求。
根据本发明提供的一种矩阵特征值分解分组循环迭代流水实现系统,包括:基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量,形成一个总循环流水模块。
优选地,还包括:对预设循环迭代次数进行预设规模的分组,并将分组进行级联,分组延迟作为流水处理间隔,每个间隔接收新的输入矩阵特征值并对新输入的矩阵特征值进行处理,当输入k个矩阵特征值时,则包括k个总循环流水模块,从而实现低总循环迭代延迟以及高吞吐量。
优选地,所述k个总循环流水模块级联组成全流水架构,全流水架构各个总循环流水模块级联连接处流水输出k个特征值和特征向量。
优选地,所述对循环迭代进行预设规模的分组包括对循环迭代进行不同规模的分组,从而满足不同速率需求。
与现有技术相比,本发明具有如下的有益效果:
1、本发明可以进一步提高吞吐量并进行灵活适配计算能力,同时由于只是利用原有资源拆散做循环迭代,并不增加额外硬件资源,整体资源消耗相比于并行架构更加优化;
2、本发明可以根据系统整体处理速率进行灵活匹配设计,适用场景更广泛。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为乘幂法计算流程及消耗时间示意图;
图2为并行计算架构示意图;
图3为流水计算架构示意图;
图4为分组循环迭代单元处理流程图;
图5为分组循环迭代流水处理架构组成框图;
图6为矩阵EVD顶层模块框图;
图7为单元处理PE模块框图;
图8为特征向量模块框图;
图9为矩阵分解模块输入输出时序图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
本发明的目的在于提供一种矩阵特征值分解的实现方法。
本发明的矩阵特征值分解是基于乘幂法实现的。
乘幂法的主要部分是K×K矩阵与K×1向量循环复乘并不断迭代的计算过程。作为一个基本的计算矩阵特征值和特征向量的方法,假设待分解矩阵为R,选择初始向量为x0,其中||x0||2=1,循环迭代n次,迭代计算主要过程可简单描述如下:
For i=0,1,2,…do
xi+1=R·xi
End
其中,R为K×K的矩阵;x为大小K×1的向量
这里的基础运算就是矩阵乘法R·xi,其包括复数乘法,他们的运算周期、实现需要消耗的资源等与输入数据的位宽、实现的架构和方式等紧密相关。输入R为K×K的矩阵,x为大小K×1的向量,为了更新xi,还需要进行额外的动态定标过程,其周期表示为Tagc。因此,循环迭代n次需要时间约为
Tcyc=(Tmtx+Tagc)·n(时钟周期) (1)
其中,Tagc为归一化或者动态定标所需要的周期,Tmtx为矩阵乘法运算时间;
既计算一个特征向量需要的时间约为
Tun=(Tcyc+TR)·Tclk(秒) (2)
为更新R矩阵所需要的周期;
为了完成k个特征向量分解,总计耗时需要大约
Tevd=Tun·k(秒)(3)
特征向量分解计算流程及消耗时间如图1所示。
首次迭代k=1,在迭代计算n次以后,输出当前的主特征向量uk,并由此更新矩阵Rk,如果k<K,k=k+1;K表示矩阵的第K个特征值及其对应的特征向量;继续执行如上迭代计算过程,计算当次的主向量uk,直至计算出所有特征向量。为了实现方便,可以确定一个固定的最大迭代次数N,其与收敛标准等相关。
为了提高计算吞吐量,可以使用如图2所示的m个单元并行处理m个输入矩阵R0_0,1,…,m-1,由于是处理单元复制m份,硬件资源消耗也将简单地增加为单个单元的m倍,吞吐量提高为单个单元的m倍。另一种使用多个单元处理的方式是通过级联这K个单元组成图3的架构,流水处理m个输入矩阵R0_0,1,…,m-1,级联流水处理可以在计算每个特征向量后接受新的矩阵输入,因此提高吞吐量K倍,相比于并行处理方式,流水方式减少了部分迭代判断等开销,资源开销略有减少。但是这种流水方式只能固定地提高计算能力K倍,不能适用更大吞吐量或者需要灵活适配计算流量的场景。为了适应更大吞吐量需求或者灵活适配系统整体计算能力,本发明提出了一种新型的分组循环迭代的实现方式,整体架构可以参见图5,其在每个分组循环处理完后就可以接收新的输入矩阵。这种方式可以进一步提高吞吐量并进行灵活适配计算能力,同时由于只是利用原有资源拆散做循环迭代,并不增加额外硬件资源,整体资源消耗相比于并行架构更加优化。其单个单元架构如图4所示,这里将N次的循环迭代进一步拆分成m个分组分别进行循环迭代处理,这样吞吐量在资源消耗与流水线相差不多的情况下,相比流水线架构可以进一步提高吞吐量m倍。同时硬件资源消耗在不考虑实际额外消耗的情况下理论上可以为相同吞吐量的并行化架构的1/m。此外,m可以根据系统整体处理速率进行灵活匹配设计,适用场景更广泛。
在5G移动通信中,用户终端可以采用2.5ms周期发送上行soundingd(探侦)信号,基站侧需要基于接收到的探侦信号进行信道检测。假设用户采用端口轮发,则基站可以基于轮发的多端口进行实时的信道空间分解,以便实现后续的波束赋形等功能。因此,需要实现在2.5ms内多用户的多端口信道矩阵分解。设矩阵规模为K=4例,输入EVD模块中的是每个用户的信道端口相关矩阵,进行分解后得到相关矩阵的4个特征向量。这里假设在合理的数据位宽及实现时序要求下,假设Tmtx=48(时钟周期),另设Tagc=2,迭代次数设定为n=32次,由(1)式得到Tcyc=1600(时钟周期),时钟周期Tclk=2.7ns,这里简单化假设更新R矩阵需要周期TR=100,根据(2)式可计算出单个特征向量运算需Tun=4.6微秒。最后由(3)式,可得计算一个频点上的4个特征向量需要的时间约为Tevd=18微秒。在小区满带宽条件下,假设需要计算128个频点时,计算16个用户的相关矩阵在无流水时耗时约35.4毫秒,在流水处理时需要耗时约为8.8毫秒。因此,此常规设计流程无法满足需求。在使用新的架构并设计m>=4增加吞吐量四倍以上后,Tmtx=12,Tcyc=(Tmtx+Tagc)·n/m=400,单个特征向量耗时约1.1微秒,16个终端用户的相关矩阵处理时间约为2.2毫秒,满足需要,同时由于硬件上分时复用的特性,实现资源相比并行等架构而言可大幅度减少。
实施例2
实施例2是实施例1的变化例
分组循环求解一个矩阵R的K个特征向量的具体实现实施步骤如下:
步骤1:初始化:矩阵特征向量索引k=1;
步骤2:向量x(0)进行初始化;总迭代次数iter=N;分组数设为m;分组级联计数im=0;
步骤3:分组迭代计数i=0;
步骤4:计算xi+1=R·xi
步骤5:i=i+1,如果i>=N/m,则进入步骤6);否则返回步骤4);
步骤6:im=im+1,如果im<m,则返回步骤3);否则进入步骤7);
步骤7:计算特征向量uk=xi/||xi||,其中||xi||为向量xi的范数。
步骤8:如果k=K-1,则计算完毕;否则,计算特征值λk并以此更新R=R-λk·uk·uk H
步骤9:k=k+1,如果k<K,跳转至步骤2),否则计算完成;
根据如上计算步骤,可以按照如图6所示的模块划分在现场可编程逻辑阵列(FPGA)平台或者其他方式进行硬件实现。对K×K矩阵R进行EVD分解,按照从上而下的构成方式,EVD模块顶层由K-1个处理单元(PE)级联,并在最后一级串联一个特征向量(eigen_vector)模块,参考图6可见,EVD输入为矩阵R,输出为矩阵的K个特征向量。由图7所示每个PE由一个eigen_vector模块和一个矩阵计算更新(R_cal)模块级联组成,处理并输出当前的主特征向量和根据该特征向量更新的矩阵,每个PE输入为当前的矩阵值,输出为当前的主特征向量。根据图8所示,每个eigen_vector模块由m个分组循环迭代模块级联而成,每个分组计算iter/n次循环后的xi向量,并输出给下一级,这样总共m个分组模块级联能够完成算法步骤5)中需求的iter次循环计算并输出xn至特征向量计算(Un_cal)模块,完成计算特征向量所需的其余计算步骤。
EVD模块输入输出时序如图9所示,其中Titer_t表示用于计算一个特征向量所需要的总循环迭代处理时间,Titer_g表示每个分组循环迭代所需的处理时间,Titer_g=Titer_t/m,m表示总循环迭代被拆分成m个分组循环。由改图可见,在完成第一个矩阵R0_0的第一个特征向量U0_0的输出前,由于拆分分组循环并且模块之间进行级联,在输入端,当每个分组循环结束时,都会将分组计算的结果传输至级联的下一个分组,同时接收新的输入矩阵即下一个矩阵R0_1,并以此类推。因此在计算出U0_0前,流水线同时在处理m个矩阵的循环迭代计算,这样吞吐量相对于没有拆分的流水线而言就增加了m倍。
以xilinxultrascale+FPGA的实现为例,对一个4×4的矩阵进行EVD分解按照图的流水结构实现的资源消耗如表所示约1.5万LUT。在时钟频率f下,吞吐量thpip可表示为
thpip=f/iter×4(流水线同时输出特征向量数)×4(每个向量包含4个样点)×32(每个样点包含实虚部,假设定标为16比特)
bps=C×f/iter bps (4)
其中系数C与具体待分解矩阵规模、定标等有关系。
当eigen_vector模块采用如图8所示的架构进行分组循环时,EVD资源消耗增加2倍多至3.8万LUT,同时吞吐量thfold_pip可表示为:
thfold_pip=f/iter×m(分组数)×4(流水线同时输出特征向量数)×4(每个向量包含4个样点)×32(每个样点包含实虚部,假设定标为16比特)bps
=m×C×f/iterbps (5)
比较式(4)和(5),可见吞吐量相对于流水线架构而言,增加了m倍,因为其每个分组循环迭代结束后都会接收新的矩阵输入,因此分组越多,每个分组的循环次数越少,分组的执行时间会缩短,从而使得流水线速度加快。分组循环迭代的资源消耗如表所示。要达到相同的吞吐量,也可以采用m个流水线并行的方式进行。从4×4的矩阵分解实现为例,单流水架构资源消耗如表1所示为1.5万LUT,分组循环流水的资源消耗如表2所示为3.8万LUT,而采用4个流水线并行达到相同吞吐量时,资源消耗约为6万LUT。因此,分组循环迭代流水线的架构在增加了额外的级联开销后仍旧可以节省较大硬件资源消耗,在本实现范例中节约开销36%以上。
表1.流水架构实现资源利用表
Figure BDA0002866286940000081
表2.分组循环迭代流水架构实现资源利用表
Figure BDA0002866286940000082
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种矩阵特征值分解分组循环迭代流水实现方法,其特征在于,包括:基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量,形成一个总循环流水模块。
2.根据权利要求1所述的矩阵特征值分解分组循环迭代流水实现方法,其特征在于,还包括:对预设循环迭代次数进行预设规模的分组,并将分组进行级联,分组延迟作为流水处理间隔,每个间隔接收新的输入矩阵特征值并对新输入的矩阵特征值进行处理,当输入k个矩阵特征值时,则包括k个总循环流水模块,从而实现低总循环迭代延迟以及高吞吐量。
3.根据权利要求2所述的矩阵特征值分解分组循环迭代流水实现方法,其特征在于,所述k个总循环流水模块级联组成全流水架构,全流水架构各个总循环流水模块级联连接处流水输出k个特征值和特征向量。
4.根据权利要求2所述的矩阵特征值分解分组循环迭代流水实现方法,其特征在于,所述对循环迭代进行预设规模的分组包括对循环迭代进行不同规模的分组,从而满足不同速率需求。
5.一种矩阵特征值分解分组循环迭代流水实现系统,其特征在于,包括:基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量,形成一个总循环流水模块。
6.根据权利要求5所述的矩阵特征值分解分组循环迭代流水实现系统,其特征在于,还包括:对预设循环迭代次数进行预设规模的分组,并将分组进行级联,分组延迟作为流水处理间隔,每个间隔接收新的输入矩阵特征值并对新输入的矩阵特征值进行处理,当输入k个矩阵特征值时,则包括k个总循环流水模块,从而实现低总循环迭代延迟以及高吞吐量。
7.根据权利要求6所述的矩阵特征值分解分组循环迭代流水实现系统,其特征在于,所述k个总循环流水模块级联组成全流水架构,全流水架构各个总循环流水模块级联连接处流水输出k个特征值和特征向量。
8.根据权利要求6所述的矩阵特征值分解分组循环迭代流水实现系统,其特征在于,所述对循环迭代进行预设规模的分组包括对循环迭代进行不同规模的分组,从而满足不同速率需求。
CN202011587357.6A 2020-12-28 2020-12-28 一种矩阵特征值分解分组循环迭代流水实现方法及系统 Active CN112528224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011587357.6A CN112528224B (zh) 2020-12-28 2020-12-28 一种矩阵特征值分解分组循环迭代流水实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011587357.6A CN112528224B (zh) 2020-12-28 2020-12-28 一种矩阵特征值分解分组循环迭代流水实现方法及系统

Publications (2)

Publication Number Publication Date
CN112528224A true CN112528224A (zh) 2021-03-19
CN112528224B CN112528224B (zh) 2022-09-13

Family

ID=74976975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011587357.6A Active CN112528224B (zh) 2020-12-28 2020-12-28 一种矩阵特征值分解分组循环迭代流水实现方法及系统

Country Status (1)

Country Link
CN (1) CN112528224B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028770B (zh) * 2023-01-18 2024-01-12 珠海微度芯创科技有限责任公司 适用于实、复协方差矩阵的特征值分解硬件实现方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296012A (zh) * 2007-04-24 2008-10-29 中兴通讯股份有限公司 空频编码级联循环延迟分集的导频插入及分集发射的方法
CN101431700A (zh) * 2008-12-19 2009-05-13 重庆邮电大学 一种输出式循环共享光分组交换网络缓存装置
CN105302624A (zh) * 2015-09-17 2016-02-03 哈尔滨工程大学 一种可重构编译器中循环流水迭代间启动间距自动分析方法
CN106095396A (zh) * 2016-06-20 2016-11-09 国家海洋局第海洋研究所 循环折叠cpu流水线优化方法
CN106230439A (zh) * 2016-07-26 2016-12-14 电子科技大学 一种提高流水线型逐次逼近模数转换器线性度的方法
CN106940689A (zh) * 2017-03-07 2017-07-11 电子科技大学 基于Jacobi迭代算法的高精度矩阵特征值分解实现方法
CN109475818A (zh) * 2016-06-06 2019-03-15 巴特尔纪念研究所 多段渗透辅助的反渗透系统和方法
CN109687877A (zh) * 2018-12-28 2019-04-26 深圳忆联信息系统有限公司 一种降低多级循环移位网络级联级数的方法及装置
CN109740114A (zh) * 2018-12-28 2019-05-10 中国航天科工集团八五一一研究所 基于fpga的实对称矩阵特征分解实时处理方法
CN109997154A (zh) * 2017-10-30 2019-07-09 上海寒武纪信息科技有限公司 信息处理方法及终端设备
CN111242289A (zh) * 2020-01-19 2020-06-05 清华大学 一种规模可扩展的卷积神经网络加速系统与方法
CN111723336A (zh) * 2020-06-01 2020-09-29 南京大学 一种采用循环迭代方式的基于cholesky分解的任意阶矩阵求逆硬件加速系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296012A (zh) * 2007-04-24 2008-10-29 中兴通讯股份有限公司 空频编码级联循环延迟分集的导频插入及分集发射的方法
CN101431700A (zh) * 2008-12-19 2009-05-13 重庆邮电大学 一种输出式循环共享光分组交换网络缓存装置
CN105302624A (zh) * 2015-09-17 2016-02-03 哈尔滨工程大学 一种可重构编译器中循环流水迭代间启动间距自动分析方法
CN109475818A (zh) * 2016-06-06 2019-03-15 巴特尔纪念研究所 多段渗透辅助的反渗透系统和方法
CN106095396A (zh) * 2016-06-20 2016-11-09 国家海洋局第海洋研究所 循环折叠cpu流水线优化方法
CN106230439A (zh) * 2016-07-26 2016-12-14 电子科技大学 一种提高流水线型逐次逼近模数转换器线性度的方法
CN106940689A (zh) * 2017-03-07 2017-07-11 电子科技大学 基于Jacobi迭代算法的高精度矩阵特征值分解实现方法
CN109997154A (zh) * 2017-10-30 2019-07-09 上海寒武纪信息科技有限公司 信息处理方法及终端设备
CN109687877A (zh) * 2018-12-28 2019-04-26 深圳忆联信息系统有限公司 一种降低多级循环移位网络级联级数的方法及装置
CN109740114A (zh) * 2018-12-28 2019-05-10 中国航天科工集团八五一一研究所 基于fpga的实对称矩阵特征分解实时处理方法
CN111242289A (zh) * 2020-01-19 2020-06-05 清华大学 一种规模可扩展的卷积神经网络加速系统与方法
CN111723336A (zh) * 2020-06-01 2020-09-29 南京大学 一种采用循环迭代方式的基于cholesky分解的任意阶矩阵求逆硬件加速系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周泉 等: "高性能图像匹配电路乘累加性能分析", 《微电子学与计算机》 *
杜非: "CAST-128 加密算法及实现", 《计算机安全》 *
陈建兵 等: "乘幂法求矩阵特征向量与特征值的初始向量及循环控制", 《教学的实践与认识》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028770B (zh) * 2023-01-18 2024-01-12 珠海微度芯创科技有限责任公司 适用于实、复协方差矩阵的特征值分解硬件实现方法

Also Published As

Publication number Publication date
CN112528224B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
Ryu et al. Bitblade: Area and energy-efficient precision-scalable neural network accelerator with bitwise summation
US9318813B2 (en) Signal processing block for a receiver in wireless communication
Echman et al. A scalable pipelined complex valued matrix inversion architecture
CN110361691B (zh) 基于非均匀阵列的相干信源doa估计fpga实现方法
CN111858465A (zh) 大规模矩阵qr分解并行计算结构
CN103516643A (zh) 一种mimo检测预处理装置及方法
Zhang et al. Tucker tensor decomposition on FPGA
CN112528224B (zh) 一种矩阵特征值分解分组循环迭代流水实现方法及系统
Patel et al. A low-complexity high-speed QR decomposition implementation for MIMO receivers
CN111199017A (zh) 多功能厄密对称矩阵求逆ip核的实现方法
CN107222246B (zh) 一种近似mmse性能的高效大规模mimo检测方法及系统
WO2024045895A1 (zh) 基带芯片、混合预编码方法及终端设备
CN113055060A (zh) 面向大规模mimo信号检测的粗粒度可重构架构系统
CN111178492B (zh) 计算装置及相关产品、执行人工神经网络模型的计算方法
Wang et al. Hardware efficient architectures of improved Jacobi method to solve the eigen problem
CN116822616A (zh) 一种用于大语言模型中Softmax函数训练的装置
CN111401533A (zh) 一种神经网络专用计算阵列及其计算方法
CN107346985B (zh) 一种结合发射天线选择技术的干扰对齐方法
CN110488097B (zh) 基于线极化平面阵列的极化参数求解方法
Alhamed et al. FPGA implementation of complex-valued QR decomposition
Gallivan et al. High-performance architectures for adaptive filtering based on the Gram-Schmidt algorithm
CN113592067B (zh) 一种用于卷积神经网络的可配置型卷积计算电路
Xie et al. Wpu: A fpga-based scalable, efficient and software/hardware co-design deep neural network inference acceleration processor
Sudrajat et al. GEMM-Based Quantized Neural Network FPGA Accelerator Design
Tseng et al. The VLSI architecture of a highly efficient configurable pre-processor for MIMO detections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant