CN109544440B

CN109544440B - 一种图像处理芯片、系统与方法

Info

Publication number: CN109544440B
Application number: CN201811654170.6A
Authority: CN
Inventors: 王绍迪
Original assignee: Beijing Witinmem Technology Co ltd
Current assignee: Hangzhou Zhicun Computing Technology Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-06-14
Anticipated expiration: 2038-12-29
Also published as: CN109544440A

Abstract

一种图像处理芯片、系统与方法，可以包括输入接口和闪存芯片。所述输入接口用于接收图像信号。所述图像信号表征至少一个图像。所述闪存芯片用于对所述图像信号进行运算，得到运算结果。其中，所述闪存芯片包括闪存阵列，所述闪存阵列用于在计算模式下对接收的数据进行计算，在编程模式下对参与所述计算的参数进行调整。

Description

一种图像处理芯片、系统与方法

技术领域

本申请一般涉及图像处理的应用，并且具体地涉及一种图像处理芯片、系统与方法。

背景技术

图像处理芯片是指可以接收、处理、存储和/或显示图像信号的IC(集成电路)。随着集成电路技术的不断发展，图像处理芯片对图像信号的处理功能也日渐丰富。例如，图像芯片可以实现对人脸识别、物体识别、符号识别、物体比对等功能。目前，人工智能的兴起，为图像处理技术赋予了更多的技术手段，也对图像芯片的运算、存储能力提出了新的挑战。因此，有必要提供一种运算、存储性能更适应的图像芯片。

发明内容

根据本申请的一个方面，一种图像处理芯片，可以包括输入接口和闪存芯片。所述输入接口用于接收图像信号，所述图像信号表征至少一个图像。所述闪存芯片用于对所述图像信号进行运算，得到运算结果。其中，所述闪存芯片包括闪存阵列，所述闪存阵列用于在计算模式下对接收的数据进行计算，在编程模式下对参与所述计算的参数进行调整。

在一些实施例中，所述闪存阵列包括多个阈值电压可调的可编程半导体器件。

在一些实施例中，所述闪存芯片用于利用深度学习网络对所述图像信号进行运算，得到运算结果；所述参与所述计算的参数包括深度学习网络的参数。

在一些实施例中，所述参与所述计算的参数通过调整所述闪存阵列中的可编程半导体器件的阈值电压设定。

在一些实施例中，所述图像芯片还包括采集电路。所述采集电路与所述输入接口具有信号连接，用于采集所述图像信号并输出给所述输入接口。

在一些实施例中，还包括预处理电路；所述预处理电路用于对所述图像信号进行滤波、灰度化、伽马校正、直方图均衡化、线性变换、亮度调整、饱和度调整和模拟/数字转化中的至少一种或多种处理。

在一些实施例中，所述图像芯片还包括微处理器。所述微处理器用于控制所述闪存芯片的工作模式，所述工作模式包括：计算模式和编程模式。

根据本申请的一个方面，一种图像处理方法可以包括至少一个如下操作。图像处理装置可以接收图像信号，所述图像信号表征至少一个图像。图像处理装置可以控制闪存芯片对所述图像信号进行运算，得到运算结果。其中，所述闪存芯片包括闪存阵列，所述闪存阵列用于在计算模式下对接收的数据进行计算，在编程模式下对参与所述计算的参数进行调整。

根据本申请的一个方面，一种图像处理系统包括接收模块和控制模块。所述接收模块用于接收图像信号，所述图像信号表征一个图像。所述控制模块用于控制闪存芯片对所述图像信号进行运算，得到运算结果。其中，所述闪存芯片包括闪存阵列，所述闪存阵列用于在计算模式下对接收的数据进行计算，在编程模式下对参与所述计算的参数进行调整。

根据本申请的一个方面，一种计算机可读存储介质，其特征在于，其上存储有计算机指令，当所述计算机指令被处理器执行时，实现以上所述的步骤。

另外的特征将在接下来的描述中部分地阐述，并且对于本领域技术人员在查阅下文和附图时将部分地变得显而易见，或者可以通过示例的生产或操作而被学习。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。

附图说明

本申请将结合示例性实施例进一步进行描述。这些示例性的实施例将结合参考图示进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的组件符号表示相同的结构，其中：

图1是根据本申请的一些实施例所示的示例性图像处理系统的示意图；

图2是根据本申请的一些实施例所示的示例性图像处理装置的示意图；

图3是根据本申请的一些实施例所示的示例性图像处理的流程图；

图4是根据本申请的一些实施例所示的深度学习网络的参数写入的示例性流程的流程图；

图5是根据本申请的一些实施例所示的闪存芯片FPU的示意图；以及

图6是根据本申请的一些实施例所示的一种模拟向量-矩阵乘法运算电路的示意图。

具体实施方式

以下描述是为了使本领域的普通技术人员能够实施和利用本申请，并在特定应用及其要求的上下文中提供。对于本领域的普通技术人员来讲，对本申请披露的实施例进行的各种修改是显而易见的，并且本文中定义的通则在不背离本申请的精神及范围的情况下，可以适用于其他实施例及应用。因此，本申请不限于所示的一些实施例，而是与权利要求一致的最宽范围。

本文中所使用的术语仅用于描述特定示例性实施例，并不限制本申请的范围。如本文使用的单数形式“一”、“一个”及“该”可以同样包括复数形式，除非上下文明确提示例外情形。还应当理解，如在本说明书中，术语“包括”、“包含”仅提示存在所述特征、整体、步骤、操作、组件和/或部件，但并不排除存在或添加一个或以上其他特征、整体、步骤、操作、组件、部件和/或其组合的情况。

根据以下对附图的描述，本申请的这些和其他的特征、特点、以及结构的相关元件的功能和操作方法，以及部件组合和制造经济更加显而易见，这些都构成说明书的一部分。然而，应当理解，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例的。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，流程图的操作不一定按照顺序来精确地执行。相反，可以按照倒序执行或同时处理各种步骤。此外，可以向流程图添加一个或以上其他操作。一个或以上操作也可以从流程图中删除。

图1是根据本申请的一些实施例所示的示例性图像处理系统的示意图。所述图像处理系统可以处理物体识别(如，人脸识别、车辆识别)、符号识别(如，车牌识别、文字识别、交通指示牌识别)、物体比对(如，人脸比对)等。如图1所示，图像处理系统100包括图像采集装置110、网络120、图像处理装置130和存储设备140。其中，图像信号采集装置110、图像处理装置130和存储设备140通过网络120相互通信连接。

图像信号采集装置110可以采集至少一个图像信号。其中，图像信号可以为模拟信号或数字信号。所述采集图像信号的方法可以包括但不仅限于：利用图像传感器获取图像、利用图像绘制设备绘制图像、直接获取已有的图像等。其中，图像传感器可以包括：电荷耦合器件(Charge Couple Device，CCD)、互补金属氧化物半导体(CMOS)图像传感器等。利用图像传感器获取图像包括利用配置有图像传感器的设备(如，数码相机、摄像机等)拍摄图像。直接获取已有的图像包括直接从本地存储设备中获取、从网上下载图像等。利用图像绘制设备绘制图像包括通过鼠标、触屏、手写板等设备绘制图像。

在一些实施例中，图像信号采集装置110可以同时采集多个图像信号，并可以将所采集的图像信号分别进行存储。在一些实施例中，图像信号采集装置110可以将所采集的同一幅图像的图像信号进行分段存储。例如，图像信号采集装置110可以配置多个采集设备110-1、110-2、110-3、110-4......等，来采集多个图像信号，然后将各自采集的图像信号进行存储，或将采集的同一图像信号进行分段存储。在一些实施例中，图像信号采集装置110可以将采集的图像信号存储在存储设备140中。在一些实施例中，图像信号采集装置110还可以将采集的图像信号通过网络120发送至图像处理装置130。

网络120可以促进信息和/或数据的交换。在一些实施例中，系统100中的至少一个部件(例如，图像采集装置110、图像处理装置130和存储设备140)可以通过网络120向系统100中的其他部件发送信息和/或数据。例如，图像处理装置130可以通过网络120从图像采集装置110或者存储设备140获取图像信号。在一些实施例中，网络120可以是有线网络或无线网络中的任意一种或其组合。仅仅举个例子，网络120可以包括布设于电路板上的信号传输线形成的信号传输网络、电缆网络、有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网络LAN、广域网络WAN、无线局域网络WLAN、城域网MAN、公共开关电话网络PSTN、蓝牙网络、无线个人域网、近场通信NFC网络、全球移动通信系统GSM网络、码分多址CDMA网络、时分多址TDMA网络、通用分组无线服务GPRS网络、增强数据速率GSM演进EDGE网络、宽带码分多址接入WCDMA网络、高速下行分组接入HSDPA网络、长期演进LTE网络、用户数据报协议UDP网络、传输控制协议/互联网协议TCP/IP网络、短信息服务SMS网络、无线应用协议WAP网络、超宽带UWB网络、红外线等中的一种，或类似或其任意组合。在一些实施例中，网络120可以包括至少一个网络接入点。例如，网络120可以包括有线或无线网络接入点，如基站和/或互联网交换点120-1、120-2、......，通过系统100的至少一个部件可以连接到网络120以交换数据和/或信息。

图像处理装置130可以对图像信号进行处理。所述图像处理可以包括物体识别(如，人脸识别、车辆识别)、符号识别(如，车牌识别、文字识别、交通指示牌识别)、物体比对(如，人脸比对)等。在一些实施例中，图像处理装置130可以从图像信号采集装置110处和/或存储设备140处接收图像信号，并对图像信号进行处理。在一些实施例中，图像处理装置130可以基于深度学习对图像信号进行运算处理，得到处理后的图像信号，并输出处理结果。

在一些实施例中，图像处理装置130可以是具备运算处理的计算机设备，也可以是集成有图像处理算法的图像处理芯片。例如，图像处理装置130可以是移动设备130-1、平板电脑130-2、笔记本电脑130-3和台式计算机130-4等中的一种，或类似或其任意组合。在一些实施例中，移动设备130-1可以包括智能家居装置、可穿戴式设备、移动设备、虚拟现实装置、增强实境装置等或类似或上述举例的任意组合。在一些实施例中，智能家居装置可以包括智能照明装置、智能电器的控制装置、智能监测装置、智能电视、智能摄影机、对讲机等或类似或上述举例的任意组合。在一些实施例中，可穿戴式设备可以包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能衣物、智能背包、智能配饰等或类似或上述举例的任意组合。在一些实施例中，移动设备可以包括移动电话、个人数字助理、游戏设备、导航装置、销售点POS机等中的一种，或类似或其任意组合。在一些实施例中，虚拟现实装置和/或增强实境装置可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强实境头盔、增强实境眼镜、增强实境眼罩等或类似或上述举例的任意组合。例如，虚拟现实装置和/或增强实境装置可以包括谷歌眼镜、虚拟现实眼镜、全息透镜、虚拟现实头盔等。

存储设备140可以存储数据和/或指令。在一些实施例中，存储设备140可以存储从图像信号采集装置110和/或图像处理装置130获得的数据。在一些实施例中，存储设备140可以存储供图像处理装置130执行或使用的数据和/或指令，图像处理装置130可以通过执行或使用所述数据和/或指令以实现本申请描述的示例性方法。在一些实施例中，存储设备140可以包括大容量存储器、可以移动存储器、挥发性读写内存、只读存储器ROM等或类似或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性的可以移动存储器可以包括快闪驱动器、软盘、光盘、存储卡、压缩磁盘、磁带等。示例性的挥发性读写内存可以包括随机存取存储器RAM。示例性的随机存取内存可以包括动态RAM、双倍速率同步动态RAM、静态RAM、晶闸管RAM和零电容RAM等。示例性的ROM可以包括掩蔽型ROM、可编程ROM、可擦除可编程ROM、电子可擦除可编程ROM、压缩磁盘ROM和数字通用磁盘ROM等。在一些实施例中，存储设备140可以在一个云平台上实现。仅仅举个例子，所述云平台可以包括私有云、公共云、混合云、小区云、分散云、内部云、多重云等中的一种或类似或其任意组合。

在一些实施例中，存储设备140可以与网络120连接以与系统100中的至少一个部件(例如，图像采集装置110和图像处理装置130等)通信。系统100中的至少一个部件可以通过网络120访问存储于存储设备140中的数据或指令。在一些实施例中，存储设备140可以直接与系统100中的至少一个部件(例如，图像采集装置110和图像处理装置130等)连接或通信。在一些实施例中，存储设备140可以是图像处理装置130的一部分。

在一些实施例中，图像数据采集装置110、网络120和存储设备140都可以包含在图像处理装置130中。例如，图像处理数据130可以是一台集成有图像处理算法的计算机，其上配置的图像传感器可以看成是图像采集装置，计算机内部的数据传输线路可以看成是网络120，计算机的硬盘和内存可以看成是存储设备。在一些实施例中，所述图像处理系统100可以集成在一个芯片上或者一个芯片架构上，通过控制芯片的工作模式，来实现图像数据的处理。

图2是根据本申请的一些实施例所示的示例性图像处理装置的示意图。如图2所示，图像处理装置130包括微处理器(Microprocessor)210、预处理器220、闪存芯片FPU(Flash processingunit，也可称为闪存处理单元)230、输出接口240和输入接口250。微处理器210、预处理器220、闪存芯片FPU230相互通信连接，其连接方式可以是有线的，也可以是无线的。

微处理器210可以控制整个图像处理装置的时序和工作。例如，微处理器210可以控制预处理器220、闪存芯片FPU230的工作，协调整个图像处理装置的正常运作。在一些实施例中，微处理器210可以控制预处理器220接收图像信号，并对图像信号进行预处理；微处理器210可以控制闪存芯片FPU230进一步对图像信号进行处理；以及微处理器220可以控制输出接口240对处理结果进行输出。在一些实施例中，微处理器210可以控制预处理器220接收图像信号，但不对图像信号进行预处理；微处理器210可以控制闪存芯片FPU 230对图像信号进行直接处理；以及微处理器220可以控制输出接口240对处理结果进行输出。

在一些实施例中，微处理器210的基本操作处理的数据位数可以是8位、16位或者32位的。可以根据不同的应用场景和开发需求，从而选择不同位数的微处理器。例如，8位微处理器的工作频率在16-50MHz之间，其由于程序简单、调试时间短、能耗较少和开发成本低廉而得到较多应用，以适应绿色产品开发需求。16位微处理器以16位运算、16/24位寻址能力及频率在24～100MHz为主流规格，部分16位微处理器额外提供32位加/减/乘/除的特殊指令。32位微处理器工作频率大多在100～350MHz之间，执行效能更佳，应用类型也相当多元，但32位微处理器会因为操作数与内存长度的增加，相同功能的程序代码长度较8/16位的微处理器增加30～40％，从而增加了内存容量，以及开发成本。实际的应用中，开发人员可以根据实际系统要求和开发需求选择最合适数位的微处理器210。

预处理器220可以接收图像信号，并对图像信号进行预处理。在一些实施例中，预处理器220可以经由网络120接收来自图像信号采集装置110和/或存储设备140的图像信号。例如，预处理器220可以由输入接口250接收图像信号，其中所述图像信号表征至少一个图像。然后，预处理器220可以对接收到的图像信号进行预处理。其中，预处理可以包括滤波、灰度化、伽马(Gamma)校正、直方图均衡化、线性变换、亮度调整、饱和度调整和模拟/数字转化等中的至少一种或多种处理。在一些实施例中，预处理器220可以对图像信号进行特征提取，然后将特征提取处理后的数据发送至闪存芯片FPU 230进行进一步的运算处理。

闪存芯片FPU 230可以接收经过或未经过预处理的图像信号，然后对其进行运算处理。例如，闪存芯片FPU 230可以对接收的图像信号，基于深度学习网络进行运算(例如，识别、比对等)。在一些实施例中，所述闪存芯片FPU 230可以包括至少两个工作模式：计算模式和编程模式。所述闪存芯片FPU230在计算模式下对接收的图像信号进行计算，在编程模式下对参与所述计算的参数进行调整，所述参与所述计算的参数包括深度学习模型的参数。

在一些实施例中，闪存芯片FPU 230可以至少包括闪存阵列。所述闪存阵列由多个阈值电压可调的可编程半导体器件组成，用于在计算模式下对接收的数据进行计算(如加法运算、乘法运算、矩阵乘法运算等)，在编程模式下进行数据编程以调整参与所述计算的参数。其中，可编程半导体器件的阈值电压可调，即每个可编程半导体器件的跨导可调，相当于每个可编程半导体器件中存储一个可变的模拟权重数据，闪存阵列模块中的多个可编程半导体器件形成模拟数据阵列，且阵列中的每个数据均可自由调节，根据欧姆定律与基尔霍夫定律可知，每个可编程半导体器件的输出电流等于输入模拟数据乘以模拟权重数据，多个可编程半导体器件的输出电流等于每个可编程半导体器件输出电流的和值，进而直接在闪存阵列模块中实现各种计算。

在一些实施例中，所述微处理器210可以根据待处理的数据控制所述闪存芯片的工作模式。所述工作模式包括计算模式和编程模式。在一些实施例中，可以由闪存芯片FPU230内部的模式控制器(未示出)根据待处理的数据控制所述闪存芯片的工作模式。此时，微处理器210主要用于控制图像处理装置130内部各部分之间的处理时序，例如，用于协调控制预处理器220与闪存芯片FPU230之间工作时序。在一些实施例中，当闪存阵列工作于计算模式时，可以对接收的数据进行计算，在工作于编程模式时进行数据编程，即数据存储或者说参数设置，进而实现了可以在闪存芯片中直接进行计算和数据存储，不需要在存储器与处理器之间来回传输数据，提高处理性能，分担了处理器的工作，进而提高了整体计算体系结构的性能。

在一些实施例中，闪存芯片FPU 230包括至少一个编程电路。所述编程电路包括：电压产生电路和电压控制电路，所述电压产生电路用于产生编程电压或者擦除电压，所述电压控制电路用于将所述编程电压加载至选定的可编程半导体器件的源极，或者将擦除电压加载至选定的可编程半导体器件的栅极或衬底，以调控可编程半导体器件的阈值电压。具体地，编程电路利用热电子注入效应，根据可编程半导体器件的阈值电压需求数据，向可编程半导体器件的源极施加高电压，将沟道电子加速到高速，从而增加可编程半导体器件的阈值电压。并且，编程电路利用隧穿效应，根据可编程半导体器件阈值电压需求数据，向可编程半导体器件的栅极或衬底施加高电压，将电子从可编程半导体器件中吸引出来，以减少可编程半导体器件的阈值电压。在编程模式下，闪存芯片FPU 230可以通过调整所述闪存阵列中的可编程半导体器件的阈值电压，从而设定所述参与计算的参数。

在一些实施例中，闪存芯片FPU 230采用的可编程半导体器件为浮栅晶体管，可以用于存储深度学习模型的参数并完成运算。所述闪存芯片使用的是非易失性闪存(norflash)芯片，该单元在下电后，数据和功能不会丢失。

输出接口240可以接收闪存芯片FPU 230输出的处理后的数据，并对所述处理后的数据进行输出。例如，输出接口240可以对处理后的数据输出给显示设备以进行图像展示、视频播放等。在一些实施例中，闪存芯片FPU 230处理结果可以是一个识别结果，也可以是一个对比结果等等，这取决于存储在闪存芯片FPU230中的计算参数或者处理算法。例如，对于物体识别(人脸识别、车辆识别等)和符号识别(车牌识别、文字识别、交通指示牌识别等)，处理结果可以是识别结果，可以反映识别出的图像内容，如识别出的人脸、车牌号、文字、数字、交通指示牌的具体符号等；对于物体比对(人脸比对)的图像处理，处理结果反映的物体之间的相似度，如多张人脸之间的相似度等。

图3是根据本申请的一些实施例所示的示例性图像处理的流程图。在一些实施中，图像处理装置130可以执行如图3中所描述的用于图像处理过程中的至少一个操作。例如，流程300可以以指令的形式存储在存储设备140和/或图像处理装置130的内存中，并且可以被图像处理装置130中的微处理器210调用和/或执行。

在步骤302中，图像处理装置130可以接收图像信号。所述图像信号表征至少一个图像。在一些实施例中，图像处理装置130可以经由网络120接收来自图像信号采集装置110和/或存储设备140的图像信号。在一些实施例中，图像处理装置130可以通过其上配置的图像采集装置(例如，图像传感器等)来直接采集和接收图像信号。例如，图像处理装置130中配置的图像传感器可以直接采集环境中的图像信号，并将其转换为可读的图像信号(包括数字信号和模拟信号)。在一些实施例中，图像处理装置130在接收到图像信号后，可以将其发送至预处理器进行预处理，例如，图像处理装置130在接收到模拟图像信号后，可以将其发送至预处理器进行模拟信号转化为数字信号的预处理。在一些实施例中，图像处理装置130在接收到图像信号后，可以将其发送至预处理器但不进行预处理。例如，图像处理装置130在接收到数字图像信号后，可以将其发送至闪存芯片FPU 230进行处理。

在步骤304中，图像处理装置130可以对所述图像信号进行预处理。所述预处理可以包括滤波、灰度化、Gamma校正、直方图均衡化、线性变换、亮度调整、饱和度调整和模拟/数字转化等中的至少一种或多种。在一些实施例中，图像处理装置130接收到的为模拟图像信号，则预处理器可以进行模拟/数字转化处理。在一些实施例中，图像处理装置130可以对图像信号进行特征提取。可以采用各种算法进行特征提取，包括但不限于局部二值模式(LPB)特征提取算法、方向梯度直方图(HOG)特征提取算法、Haar特征提取算法等。在一些实施例中，图像处理装置130可以保存所述预处理后的图像信号，并将其发送至闪存芯片进行下一步处理。在一些实施例中，图像处理装置130可以将采集的数字图像信号直接发送至闪存芯片FPU 230进行处理。应当注意的是，步骤304并非必须的，在一些实施例中，步骤304可省略，即不对图像信号进行预处理。

在步骤306中，图像处理装置130可以控制闪存芯片对经过或未经过预处理的图像信号进行运算，得到运算结果。其中，所述闪存芯片包括闪存阵列，所述闪存阵列用于在计算模式下对接收的数据进行计算，在编程模式下对参与所述计算的参数进行调整。在一些实施例中，闪存芯片可以利用深度学习模型对所述图像信号进行运算，得到运算结果；所述参与所述计算的参数包括深度学习模型的参数。图像处理装置130可以根据待处理的数据控制所述闪存芯片的工作模式，所述工作模式包括：计算模式和编程模式。在一些实施例中，当闪存芯片工作于计算模式时，可以对接收的数据进行计算，在工作于编程模式时进行数据编程，即数据存储，进而实现了可以在闪存芯片中直接进行计算和数据存储。

在一些实施例中，图像处理装置130对于经过预处理或未经过预处理的图像信号，可以通过芯片内置的深度学习网络进行处理，片上实现基于深度学习的功能。例如，图像处理装置130接收到至少一部分图像信号后，若图像信号为模拟信号则对图像信号进行模拟/数字转化预处理，将图像信号转化为数字信号，若图像信号为数字信号则不进行预处理；然后对数字信号进行运算和特征提取。并且基于芯片内的深度学习网络，将数字信号的相关数据输入到深度学习网络模型中，得到模型输出。图像处理装置130还可以对模型输出的数据进行解码和相关运算，得到图像识别和/或物体比对的结果，并通过图像、文字、图像方式等显示识别结果。

在一些实施例中，图像处理装置130可以基于深度学习模型对所述数字图像信号进行运算。其中，所述深度学习模型的参数可以存储于闪存芯片中。当深度学习模型进行训练后，其参数被确定，将所述参数写入闪存芯片，由闪存芯片对图像信号数据进行计算，以实现基于深度学习模型的图像处理(例如，图像识别、物体比对等)。

应当注意的是，上述有关流程300的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程300进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，可以删除步骤304。

图4是根据本申请的一些实施例所示的深度学习模型的参数写入的示例性流程的流程图。在一些实施例中，闪存芯片可以存储深度学习模型的参数，并基于该参数，对接收到的图像信号进行运算处理，以实现基于深度学习模型对图像信号进行处理。在一些实施例中，深度学习模型可以是在第三方计算机或者外部系统上训练获得，待其参数确定后，再将所述深度学习模型参数写入闪存芯片中。其中，所述闪存芯片采用的是非易失性闪存(nor flash)芯片，该单元在下电后，数据和功能不会丢失，无需重复写入所述深度学习网络参数。

在步骤402中，外部系统可以确定深度学习模型。在一些实施例中，所述深度学习模型的类型可以基于实际应用和系统需求来进行选择。在一些实施例中，深度学习模型可以是深度学习网络模型，例如是神经网络。所述神经网络可以包括BP神经网络、感知器、卷积神经网络、生成式对抗网络、Hopffield网络、玻尔兹曼机网络、受限玻尔兹曼机网络、支持向量机、深度置信网络、深度自动编码器等。外部系统可以基于实际需求，构建相应的深度学习模型。在一些实施例中，待深度学习模型确定后，外部系统可以进一步对深度学习模型进行训练。

在步骤404中，外部系统可以对深度学习模型进行训练和测试，确定深度学习模型的参数。在一些实施例中，外部系统可以利用大量的训练样本对构建的深度学习模型进行训练，并确定深度学习模型的相应参数(例如，神经网络中的网络权重等)；外部系统还可以利用测试集样本对深度学习模型进行测试和验证；并且不断迭代上述过程，以优化所述深度学习模型。其中，训练样本和测试样本都是已知可用的外部数据。

在步骤406中，外部系统可以将深度学习模型的参数写入闪存芯片FPU中。在一些实施例中，外部系统可以将优化确定好的深度学习网络的参数，通过闪存芯片的编程模式烧写入闪存芯片FPU中。

在一些实施例中，当闪存阵列处在编程模式时，闪存芯片可以通过调整所述闪存阵列中的可编程半导体器件的阈值电压，而设定所述参与计算的参数，从而将深度学习模型的参数写入闪存芯片中。例如，闪存芯片可以包括至少一个编程电路。所述编程电路包括：电压产生电路和电压控制电路，所述电压产生电路用于产生编程电压或者擦除电压，所述电压控制电路用于将所述编程电压加载至选定的可编程半导体器件的源极，或者将擦除电压加载至选定的可编程半导体器件的栅极或衬底，以调控可编程半导体器件的阈值电压。具体地，编程电路利用热电子注入效应，根据可编程半导体器件的阈值电压需求数据，向可编程半导体器件的源极施加高电压，将沟道电子加速到高速，从而增加可编程半导体器件的阈值电压。并且，编程电路利用隧穿效应，根据可编程半导体器件阈值电压需求数据，向可编程半导体器件的栅极或衬底施加高电压，将电子从可编程半导体器件中吸引出来，以减少可编程半导体器件的阈值电压。

在一些实施例中，由于闪存芯片采用的是非易失性闪存(nor flash)芯片，该单元在下电后，保存的数据和功能不会丢失，无需重复写入所述深度学习网络参数。但是，当深度学习网络的参数需要调整时，只需将调整后的参数数据重新烧写入闪存芯片即可，以实现对深度学习网络参数的调整。

应当注意的是，上述有关流程400的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程400进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，可以增加一个存储步骤用于存储流程400中的数据。又例如，可以将步骤402和步骤404合并，同时确定深度学习网络模型和参数。再例如，可以省略步骤402和步骤404，直接从外部系统获取训练好的深度学习模型参数。

图5是根据本申请的一些实施例所示的闪存芯片FPU的示意图。如图5所示，闪存芯片FPU在接收到数字图像信号后，可以经过数字/模拟转换器DAC将数字图像信号转换为模拟图像信号。其中，DAC为可选项，基于预处理后的图像信号的形式进行选择。例如，闪存芯片FPU在接收到的预处理后的图像信号已经是转换后的模拟图像信号，则无需经过DAC对其进行数字-模拟转换。

闪存芯片FPU包括多个计算闪存阵列CFA 510和模拟电路520。其中，计算闪存阵列CFA 510用于实现对接收的图像信号数据进行计算(如加法运算、乘法运算、矩阵乘法运算等)；模拟电路520用于缓存中间数据和对CFA的计算结果进行非线性运算(例如，对数运算、指数运算、开方运算、三角函数运算等)处理。在一些实施例中，闪存芯片FPU中的多个计算闪存阵列CFA 510和模拟电路520构成了多层的深度学习网络。可以理解为，每个模拟电路520可以对应于深度学习网络中的一层神经元，每层神经元(模拟电路520)接收计算闪存阵列CFA 510的线性计算结果，并对其进行非线性运算处理，直到最后得到输出的运算结果。

在一些实施例中，闪存芯片FPU在输出最后的运算结果后，可以经过模拟数字转换器ADC将模拟信号转换为数字信号。其中，ADC为可选项。例如，闪存芯片FPU也可以直接输出最后的运算结果，而不对其进行ADC转换。

图6是根据本申请的一些实施例所示的一种模拟向量-矩阵乘法运算电路的示意图。如图6所示，该模拟向量-矩阵乘法运算电路包括：N个模拟电压输入端Vb、一个M行×N列的可编程半导体器件阵列、M个偏置电压输入端V1-VM以及N个模拟电流输出端I1-IN。

该可编程半导体器件阵列中，每一列的所有可编程半导体器件的源极S均连接至同一模拟电压输入端，N列可编程半导体器件对应连接N个模拟电压输入端；每一行的所有可编程半导体器件的栅极G均连接至同一偏置电压输入端，M行可编程半导体器件对应连接M个偏置电压输入端；每一列的所有可编程半导体器件的漏极D均连接至同一个模拟电流输出端，N列可编程半导体器件对应连接N个模拟电流输出端。其中，每个可编程半导体器件的阈值电压均可调节。N为大于等于零的正整数，M为大于等于零的正整数，M和N可以相等，也可以不等。通过上述电路连接方式，形成源极耦合、漏极求和的拓扑结构。

其中，通过预先按照一定规则动态调节各可编程半导体器件的阈值电压，可将各可编程半导体器件看作一个可变的等效模拟权重(记为W_(k，j)，其中0＜k＜M和0＜j＜N分别代表行号和列号)，相当于存储一个模拟数据，而可编程半导体器件阵列则存储一个模拟数据阵列。

电路工作时，将一行模拟电压信号分别施加至N列可编程半导体器件，其中第K列所有可编程半导体器件的源极均得到一模拟电压信号Vk，栅极输入一偏置电压Vb，漏极分别输出电流信号I_k，1～I_k，N，其中，根据欧姆定律与基尔霍夫定律，可以推导出I＝V×W每个可编程半导体器件的漏极输出电流等于源极电压乘以该可编程半导体器件的权重，即I_k，N＝V_k×W_k，N，因为每一列的所有可编程半导体器件的漏极均连接至同一个模拟电流输出端，所以在该模拟电流输出端的电流I_j为该列所有可编程半导体器件的漏极电流之和，即为

多个模拟电流输出端输出多个对应的电流和，实现矩阵乘法运算功能。

本发明利用可编程半导体器件阵列实现模拟向量-矩阵乘法运算，因为可编程半导体器件集成度高、响应速度快、功耗低，所以采用可编程半导体器件实现的模拟向量-矩阵乘法运算电路有效减少了模数转换、数模转换、数据传输等带来的开销，其处理性能大大提高。

在一些实施例中，该模拟向量-矩阵乘法运算电路还可以包括：转换装置，转换装置连接在多个模拟电压输入端之前，用于将多个模拟电流输入信号分别转换为模拟电压输入信号，输至对应的模拟电压输入端。

应注意的是，上述的转换装置的实现方式只是一种示例，凡是能实现将电流输入信号转换为电压输入信号的电路结构或电路元件均可用于实施该转换装置，可以理解的是，上述转换装置中的可编程半导体器件也可以采用电阻器、金属半导体场效应晶体管等器件实现。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域技术人员而言，在本申请内容的指导下，可作出多种变形和修改。然而，变形和修改不会背离本申请的范围。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可以进行各种变更、改良和修改。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如，术语“一实施例”，“一些实施例”和/或“一些实施例”意味着结合一些实施例描述的特定特征，结构或特性包括在本申请的至少一个实施例中。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或以上实施例中的某些特征、结构或特性可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的制程、机器、产品或物质的组合，或对其任何新的和有用的改良。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可以表现为位于一个或以上计算机可读介质中的计算机产品，所述产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。这种传播信号可以采用多种形式中的任何一种，包括电磁，光学等，或其任何合适的组合。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质、或任何上述介质的组合。

本申请各方面操作所需的计算机程序码可以用一种或多种程序语言的任意组合编写，包括面向对象程序设计，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET，Python或类似的常规程序编程语言，如″C″编程语言，Visual Basic、Fortran1703、Perl、COBOL 1702、PHP、ABAP、动态编程语言如Python、Ruby和Groovy或其它编程语言。程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机上运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种图像处理芯片，其特征在于，包括：

输入接口，用于接收图像信号，所述图像信号表征至少一个图像；

闪存芯片，用于利用深度学习网络对所述图像信号进行运算，得到运算结果；

其中，所述闪存芯片包括闪存阵列和模拟电路，所述闪存阵列用于在计算模式下对接收的所述图像信号进行计算，在编程模式下对参与所述计算的参数进行调整，所述模拟电路用于对所述闪存阵列的计算结果进行非线性运算处理，每个所述模拟电路对应于所述深度学习网络中的一层神经元，所述闪存芯片中的所述闪存阵列和所述模拟电路构成多层的深度学习网络。

2.根据权利要求1所述的芯片，其特征在于，所述闪存阵列包括多个阈值电压可调的可编程半导体器件。

3.根据权利要求1或2所述的芯片，其特征在于，所述参与所述计算的参数包括深度学习网络的参数。

4.根据权利要求3所述的芯片，其特征在于，所述参与所述计算的参数通过调整所述闪存阵列中的可编程半导体器件的阈值电压设定。

5.根据权利要求1所述的芯片，其特征在于，还包括采集电路，所述采集电路与所述输入接口具有信号连接，用于采集所述图像信号并输出给所述输入接口。

6.根据权利要求1所述的芯片，其特征在于，还包括预处理电路，所述预处理电路用于对所述图像信号进行滤波、灰度化、伽马校正、直方图均衡化、线性变换、亮度调整、饱和度调整和模拟/数字转化中的至少一种或多种处理。

7.根据权利要求1所述的芯片，其特征在于，还包括微处理器，所述微处理器用于控制所述闪存芯片的工作模式，所述工作模式包括：计算模式和编程模式。

8.一种图像处理方法，其特征在于，包括：

接收图像信号，所述图像信号表征至少一个图像；

控制闪存芯片利用深度学习网络对所述图像信号进行运算，得到运算结果，

9.根据权利要求8所述的方法，其特征在于，所述闪存阵列包括多个阈值电压可调的可编程半导体器件。

10.根据权利要求8或9所述的方法，其特征在于，所述参与所述计算的参数包括深度学习网络的参数。

11.根据权利要求10所述的方法，其特征在于，还包括调整所述闪存阵列中的可编程半导体器件的阈值电压，设定所述参与所述计算的参数。

12.根据权利要求8所述的方法，其特征在于，还包括：

对所述图像信号进行滤波、灰度化、伽马校正、直方图均衡化、线性变换、亮度调整、饱和度调整和模拟/数字转化中的至少一种或多种处理。

13.根据权利要求8所述的方法，其特征在于，还包括：

根据待处理的数据控制所述闪存芯片的工作模式，所述工作模式包括：计算模式和编程模式。

14.根据权利要求8所述的方法，其特征在于，进一步包括：

对运算结果进行显示，所述显示方式包括文字显示、图像显示和视频播放中的至少一种。

15.一种图像处理系统，其特征在于，包括：

接收模块，用于接收图像信号，所述图像信号表征至少一块图像；

控制模块，用于控制闪存芯片利用深度学习网络对所述图像信号进行运算，得到运算结果；

16.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，当所述计算机指令被处理器执行时，实现如权利要求8-14任意一项所述的方法。