CN115130592A - 一种样本生成芯片 - Google Patents

一种样本生成芯片 Download PDF

Info

Publication number
CN115130592A
CN115130592A CN202210777408.4A CN202210777408A CN115130592A CN 115130592 A CN115130592 A CN 115130592A CN 202210777408 A CN202210777408 A CN 202210777408A CN 115130592 A CN115130592 A CN 115130592A
Authority
CN
China
Prior art keywords
sample
data selector
memory
target sample
logic gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210777408.4A
Other languages
English (en)
Other versions
CN115130592B (zh
Inventor
杨龚轶凡
闯小明
郑瀚寻
侯宗礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhonghao Xinying Hangzhou Technology Co ltd
Original Assignee
Zhonghao Xinying Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhonghao Xinying Hangzhou Technology Co ltd filed Critical Zhonghao Xinying Hangzhou Technology Co ltd
Priority to CN202210777408.4A priority Critical patent/CN115130592B/zh
Publication of CN115130592A publication Critical patent/CN115130592A/zh
Application granted granted Critical
Publication of CN115130592B publication Critical patent/CN115130592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/57Arithmetic logic units [ALU], i.e. arrangements or devices for performing two or more of the operations covered by groups G06F7/483 – G06F7/556 or for performing logical operations
    • G06F7/575Basic arithmetic logic units, i.e. devices selectable to perform either addition, subtraction or one of several logical operations, using, at least partially, the same circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4498Finite state machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种样本生成芯片,包括:控制器,用于获取原始样本、中心向量,以及原始样本和中心向量各自的类别标签;存储器,用于储存原始样本、中心向量,以及原始样本和中心向量各自的类别标签;数据选择器,用于从存储器中选择目标样本和中心向量,以及目标样本和中心向量各自的类别标签;判断器,用于判断数据选择器选择的目标样本的类别标签和中心向量的类别标签是否相同;生成器,用于根据判断结果,对目标样本进行更新,生成新样本;控制器,还用于基于新样本对目标样本进行迭代更新。本技术方案,向控制器输入已有样本,就可以快速生成新的仿真样本,与人工获取相比更加快速高效;在样本数量有限、获取难度较大的情景下,使用也较为方便。

Description

一种样本生成芯片
技术领域
本发明涉及芯片领域,特别涉及一种样本生成芯片。
背景技术
在人工智能、深度学习等领域,经常使用到大量的样本数据对人工智能模型或者深度学习模型进行训练,但是对于一些领域而言,会经常碰到样本数量有限、真实样本不足、人工获取难度较大的情况。另外,如果仅仅仅靠人工获取样本数据,速度较慢,效率较低。
发明内容
本发明的主要目的是提出一种样本生成芯片,旨在解决背景技术中所提到的问题。
为实现上述目的,本发明提出一种样本生成芯片,包括:控制器、存储器、数据选择器、判断器,以及生成器;
所述控制器与所述存储器连接,所述存储器与所述数据选择器连接,所述数据选择器分别与所述判断器、所述生成器以及所述控制器连接,所述判断器还与所述生成器连接;
所述控制器用于,获取原始样本集、所述原始样本集各个聚类类别的中心向量、所述原始样本集中各个原始样本的类别标签,以及各个所述中心向量的类别标签;
所述存储器用于,储存所述原始样本集、所述中心向量、各个所述原始样本的类别标签,以及各个所述中心向量的类别标签;
所述数据选择器用于,从所述存储器中选择目标样本和中心向量,以及所述目标样本和所述中心向量各自的类别标签;
所述判断器用于,判断所述数据选择器选择的目标样本的类别标签和中心向量的类别标签是否相同;
所述生成器用于,根据所述判断器的判断结果,对所述目标样本进行更新,以生成新样本;
所述控制器还用于,基于所述新样本对所述目标样本进行迭代更新。
在本申请实施例中,所述存储器包括:第一存储器、第二存储器,以及第三存储器,所述第一存储器用于储存所述原始样本集和所述中心向量,所述第三存储器用于储存各个所述原始样本的类别标签,以及各个所述中心向量的类别标签;
所述数据选择器包括:第一数据选择器、第二数据选择器,以及第三数据选择器;
所述控制器分别与所述第一存储器、所述第二存储器、所述第三存储器,以及所述第一数据选择器连接;
所述第一存储器与所述第一数据选择器连接,所述第二存储器与所述第二数据选择器连接,所述第三存储器与所述第三数据选择器连接;
所述第一数据选择器和所述第二数据选择器均与所述生成器连接,所述第三数据选择器与所述判断器连接;
所述判断器与生成器连接。
在本申请实施例中,所述第一数据选择器被配置为,响应于接收到第一数据选择指令,从所述第一存储器中的原始样本集中选择至少一个目标样本,并通过所述控制器,将所述至少一个目标样本存入所述第二存储器。
在本申请实施例中,所述第二数据选择器被配置为:响应于接收到第二样本选择指令,从所述第二存储器中选择任一目标样本,并将其发送至所述生成器;
所述第一数据选择器还被配置为:响应于接收到所述第二样本选择指令,从所述第一存储器中选择任一中心向量,并将其发送至所述生成器;
所述第三数据选择器被配置为:响应于接收到所述第二样本选择指令,从所述第三存储器中选择所述第二数据选择器所选择的目标样本的类别标签,以及所述第一数据选择器所选择的中心向量的类别标签,并将所选择的目标样本的类别标签和中心向量的类别标签发送至所述判断器;
所述判断器被配置为:判断从所述第三数据选择器接收到的目标样本的类别标签和中心向量的类别标签是否相同,并将判断结果发送至所述生成器;
所述生成器被配置为:根据从判断器接收到的判断结果,基于从所述第一数据选择器接收到的目标样本和从所述第二数据选择器接收到的中心向量,对所述目标样本进行更新,以生成新样本。
在本申请实施例中,所述生成器还被配置为:
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签相同时,将所述目标样本远离所述中心向量;
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签不同时,将所述目标样本靠近所述中心向量。
在本申请实施例中,所述生成器包括:第一减法逻辑门、第二减法逻辑门、乘法逻辑门,以及加法逻辑门;
所述第一数据选择器和所述第二数据选择器均与所述第一减法逻辑门连接,所述第一减法逻辑门与所述乘法逻辑门连接,所述乘法逻辑门分别与所述第二减法逻辑门和所述加法逻辑门连接,所述判断器分别与所述第二减法逻辑门和所述加法逻辑门连接;
所述第一减法逻辑门用于计算接收到的中心向量与目标向量的差值,并将其发送至所述乘法逻辑门;
所述乘法逻辑门用于计算所述差值与预设学习率的乘积,并将所述乘积分别发送至所述第二减法逻辑门和所述加法逻辑门;
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签相同时,所述判断器向所述第二减法逻辑门发送生成指令,所述第二减法逻辑门响应于收到所述生成指令,计算所述目标样本与所述乘积的之差,并将所述目标样本与所述乘积的之差作为所述新样本;
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签不同时,所述判断器向所述加法逻辑门发送生成指令,所述加法逻辑门响应于收到所述生成指令,计算所述目标样本与所述乘积之和,并将所述目标样本与所述乘积的之和作为所述新样本。
在本申请实施例中,所述生成器还包括第一输出触发器和第二输出触发器,所述第一输出触发器与所述第二减法逻辑门连接,所述第二输出触发器与所述加法逻辑门连接;
所述数据选择器还包括第四数据选择器和第五数据选择器,所述第四数据选择器与所述第一输出触发器连接,所述第五数据选择器与所述第二输出触发器连接,所述第四数据选择器和所述第五数据选择器还均与所述控制器连接;
所述第一输出触发器用于将所述第二减法逻辑门计算得到的新样本发送至所述第四数据选择器,所述第四数据选择器用于将从所述第一输出触发器接收的新样本发送至所述控制器;
所述第二输出触发器用于将所述加法逻辑门计算得到的新样本发送至所述第五数据选择器,所述第五数据选择器用于将从所述第二输出触发器接收的新样本发送至所述控制器;
所述控制器还被配置为:在所述第二存储器中,将所述目标样本迭代更新为所述新样本。
在本申请实施例中,所述控制器还被配置为:
每当所述目标样本更新一次后,控制所述第一数据选择器从所述第一存储器中选择另一个中心向量,并发送至所述第一减法逻辑门;以及
控制所述第三数据选择器从所述第三存储器中选择所述另一个中心向量的类别标签,并发送至所述判断器。
在本申请实施例中,所述控制器还被配置为:按照预设迭代次数对同一个目标样本进行迭代,当同一个目标样本达到预设迭代次数后,将所述目标样本最后一次的迭代结果作为基于所述目标样本最终生成的新样本。
在本申请实施例中,所述控制器还被配置为:当同一个目标样本达到预设迭代次数后,控制所述第二数据选择器从所述第二存储器中选择另一个目标样本,并将其发送至所述第一减法逻辑门;以及
控制所述第三数据选择器从所述第三存储器中选择所述另一个目标样本的类别标签,并将所述另一个目标样本的类别标签发送至所述判断器。
本发明提供的技术方案,通过设置控制器、存储器、数据选择器、判断器,以及生成器,在样本生成时,可以向控制器输入已有的样本,就可以快速生成新的仿真样本。与人工获取新样本相比更加的快速高效;另外,本样本生成芯片可以基于已有的样本生成新样本,故而在样本数量有限、获取难度较大的情景下,使用较为方便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明的样本生成芯片一实施例中的模块图;
图2为本发明的样本生成芯片一实施例中的架构图;
图3为本发明一实施例中的原始样本集的分布图;
图4为本发明一实施例中利用图3中的原始样本集生成的新样本集的分布图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此,本申请可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种样本生成芯片。
示例性装置
如图1所示,在本申请实施例中,所述样本生成芯片包括:控制器、存储器、数据选择器、判断器,以及生成器;所述控制器连接所述存储器,所述存储器连接所述数据选择器,所述数据选择器分别与所述判断器、所述生成器以及所述控制器连接,所述判断器还与所述生成器连接;所述控制器用于,获取原始样本集、所述原始样本集各个聚类类别的中心向量、所述原始样本集中各个原始样本的类别标签,以及各个所述中心向量的类别标签;所述存储器用于,储存所述原始样本集、所述中心向量、各个所述原始样本的类别标签,以及各个所述中心向量的类别标签;所述数据选择器用于,从所述存储器中选择目标样本和中心向量,以及所述目标样本和所述中心向量各自的类别标签;所述判断器用于,判断所述数据选择器选择的目标样本的类别标签和中心向量的类别标签是否相同;所述生成器用于,根据所述判断器的判断结果,对所述目标样本进行更新,以生成新样本;所述控制器还用于,基于所述新样本对所述目标样本进行迭代更新。
如图1、图2所示,在本申请实施例中,控制器可以为状态机控制器(FSMController),控制器具有输入端和输出端,通过输入端能够向状态机控制器发送控制指令,比如开始指令、结束指令、数据选择指令等等;通过输入端还能够向状态机控制器输入样本集、样本集各个聚类类别的中心向量、样本集中各个样本的类别标签,以及各个中心向量的类别标签等等。通过输出端能够输出得到新样本。
在本实施例中,可以通过控制器的输入端获取原始样本集、所述原始样本集各个聚类类别的中心向量、所述原始样本集中各个原始样本的类别标签,以及各个所述中心向量的类别标签。假设原始样本集为{x1,x2,…,xn},该原始样本集各个聚类类别的中心向量可以表示为{p1,p2,…,pq},其中x1,x2,…,xn为原始样本集中的各个原始样本,p1,p2,…,pq为该原始样本集经过聚类之后各个聚类类别的中心向量,假设原始样本集聚类后有5个类别,则q=5,那么5个聚类类别的中心向量则可以表示为{p1,p2,p3,p4,p5}。对于各个聚类类别的中心向量{p1,p2,…,pq}而言,每个中心向量都具有相应的类别标签,比如p1的类别标签为t1,pq的类别标签为tq。原始样本集经过聚类后,每个原始样本也会具有相应的类别标签,以y1,y2,…,yn分别表示x1,x2,…,xn的类别标签,则
Figure BDA0003725596230000061
假设原始样本x1聚类后所属的聚类类别的中心向量为p2,那么x1的类别标签y1则与中心向量p2的类别标签q2相同。
通过控制器获取原始样本集{x1,x2,…,xn}、所述原始样本集各个聚类类别的中心向量{p1,p2,…,pq}、所述原始样本集中各个原始样本的类别标签(y1,y2,…,yn),以及各个所述中心向量的类别标签{p1,p2,…,pq}后,还可以通过控制器,将原始样本集、各个中心向量,以及各自的类别标签存入存储器。
在本申请实施例中,控制器还可以收发控制指令。比如通过输入端可以向控制器输入开始指令,结束指令等等。又比如,当控制器将原始样本集、中心向量,以及原始样本和中心向量的类别标签存入存储器后,控制器还可以向数据选择器发送数据选择指令,其中数据选择指令至少表明数据选择器需要选择的数据,以及需要选择的数据的地址。比如,数据选择指令表明需要从存储器中选择目标样本、中心向量,以及该目标样本和该中心向量各自的类别标签。数据选择器在收到该数据选择指令,并进行选择相应的数据之后,可以将所选择的目标样本、中心向量发送至生成器,将该目标样本和该中心向量各自的类别标签发送至判断器。
判断器收到该目标样本和该中心向量各自的类别标签后,判断二者是否相同,并将判断结果发送至生成器,生成器收到判断结果过后就可以对该目标样本进行更新,并生成新样本。
如图2所示,在本申请实施例中,存储器包括第一存储器、第二存储器、第三存储器,第一存储器用于储存所述原始样本集和所述中心向量,所述第三存储器用于储存各个所述原始样本的类别标签,以及各个所述中心向量的类别标签。第一存储器可以为inputRAM,第二存储器可以为valueRAM,点存储器可以为labelsRANM。通过控制器(FSMController状态机控制器),可以将原始样本集和各个中心向量存入第一存储器中,将各个原始样本的类别标签和各个中心向量的类别标签存入第三存储器中。
数据选择器包括第一数据选择器(Mux1)、第二数据选择器(Mux2)、第三数据选择器(Mux3)。
其中,所述控制器分别与所述第一存储器、所述第二存储器、所述第三存储器,以及所述第一数据选择器连接;所述第一存储器与所述第一数据选择器连接,所述第二存储器与所述第二数据选择器连接,所述第三存储器与所述第三数据选择器连接;所述第一数据选择器和所述第二数据选择器均与所述生成器连接,所述第三数据选择器与所述判断器连接;所述判断器与生成器连接。
接下来结合图2对本申请样本生成的过程进行具体阐述。
首先通过状态机控制器的输入端口,输入原始样本集{x1,x2,…,xn}、所述原始样本集各个聚类类别的中心向量{p1,p2,…,pq}、所述原始样本集中各个原始样本的类别标签(y1,y2,…,yn),以及各个所述中心向量的类别标签{p1,p2,…,pq}。
然后,状态机控制器将原始样本集和中心向量存入第一存储器,将各个原始样本的类别标签,以及各个中心向量的类别标签存入第三存储器中。
通过状态机控制器的输出端发送开始指令,当状态机控制器收到开始指令时,状态机控制器向第一数据选择器发送第一数据选择指令,第一数据选择指令至少表明第一数据选择器需要选择的目标样本,其中,目标样本为原始样本中的一个或者多个。比如,目标样本可以为原始样本集中的一个原始样本,或者多个原始样本,也可以是全部原始样本。以目标样本为全部的原始样本为例,那么第一数据选择器收到第一数据选择指令后,会从第一存储器中获取全部的原始样本,并将全部的原始样本发送至状态机控制器,状态机控制器进而将全部的原始样本存入第二存储器中。
然后,状态机控制器分别向第一数据选择器、第二数据选择器以及第三数据选择器发送第二数据选择指令,第二数据选择指令表明第一数据选择器、第二数据选择器以及第三数据选择器所需要选择的数据。其中第一数据选择器收到第二数据选择指令后,可以从第一存储器中选择任一个中心向量,假设为p1,并将其发送至生成器;第二数据选择其收到第二数据选择指令后,可以从第二存储器中选择任一个目标样本(原始样本),假设为x1,并将其发送至生成器;第三数据选择器收到第二数据选择指令后,可以从第三存储器中选择第一数据选择器所选择的中心向量的类别标签,即q1,以及第二数据选择器所选择的目标样本的类别标签,即y1,并将其发送至判断器,即将y1和q1发送至判断器。
判断器收到y1和q1后,可以判断二者是否相同。
若y11,则说明目标样本x1属于中心向量p1所在的聚类类别,此时,生成器会将目标样本向远离所述中心向量的方向更新。
若y1≠q1,则说明目标样本x1不属于中心向量p1所在的聚类类别,此时,生成器会将目标样本向靠近所述中心向量的方向更新。
如图2所示,在本申请实施例中,所述生成器包括:第一减法逻辑门、第二减法逻辑门、乘法逻辑门,以及加法逻辑门;
所述第一数据选择器和所述第二数据选择器均与所述第一减法逻辑门连接,所述第一减法逻辑门与所述乘法逻辑门连接,所述乘法逻辑门分别与所述第二减法逻辑门和所述加法逻辑门连接,所述判断器分别与所述第二减法逻辑门和所述加法逻辑门连接;
所述第一减法逻辑门用于计算接收到的中心向量与目标向量的差值,并将其发送至所述乘法逻辑门;
所述乘法逻辑门用于计算所述差值与预设学习率的乘积,并将所述乘积分别发送至所述第二减法逻辑门和所述加法逻辑门;
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签相同时,所述判断器向所述第二减法逻辑门发送生成指令,所述第二减法逻辑门响应于收到所述生成指令,计算所述目标样本与所述乘积的之差,并将所述目标样本与所述乘积的之差作为所述新样本;
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签不同时,所述判断器向所述加法逻辑门发送生成指令,所述加法逻辑门响应于收到所述生成指令,计算所述目标样本与所述乘积之和,并将所述目标样本与所述乘积的之和作为所述新样本。
比如在本实施例中,生成器可以包括如下计算公式:
x′j=xj-η(pi-xj) (1);
x′j=xj+η(pi-xj) (2);
其中,η为学习率,可以预先设定,在本申请实施例中
Figure BDA0003725596230000091
第一减法逻辑门用于计算pi-xj;乘法逻辑门用于计算η(pi-xj);第二减法逻辑门用于计算xj-η(pi-xj);加法逻辑门用于计算xj+η(pi-xj)。
假设目标样本为x1,中心向量为p1,当判断器判断x1的类别标签与p1的类别标签相同时,可以基于公式(1)利用第一减法逻辑门、乘法逻辑门,以及第二减法逻辑门进行计算,则有:x′1=x1-η(p1-x1);
当判断器判断x1的类别标签与p1的类别标签不同时,可以基于公式(2)利用第一减法逻辑门、乘法逻辑门,以及加法逻辑门进行计算,则有:x′1=x1+η(p1-x1),其中,x′1为基于目标样本x1更新得到的新样本。
如图2所示,在本申请实施例中,所述生成器还包括第一输出触发器和第二输出触发器,所述第一输出触发器连接所述第二减法逻辑门,所述第二输出触发器连接所述加法逻辑门;所述数据选择器还包括第四数据选择器和第五数据选择器,所述第四数据选择器与所述第一输出触发器连接,所述第五数据选择器与所述第二输出触发器连接,所述第四数据选择器和所述第五数据选择器还均与所述控制器连接;所述第一输出触发器用于将所述第二减法逻辑门计算得到的新样本发送至所述第四数据选择器,所述第四数据选择器用于将从所述第一输出触发器接收的新样本发送至所述控制器;所述第二输出触发器用于将所述加法逻辑门计算得到的新样本发送至所述第五数据选择器,所述第五数据选择器用于将从所述第二输出触发器接收的新样本发送至所述控制器;所述控制器还被配置为:在所述第二存储器中,将所述目标样本迭代更新为所述新样本。
假设目标样本为x1,类别标签为y1,中心向量为p1,类别标签为q1,若y11,最终由第二减法逻辑门对目标样本x1进行更新,得到新样本x′1,由第一输出触发器(REG1)发送至第四数据选择器,第四数据选择器将新样本x′1发送至状态机控制器。若y1≠q1,最终由加法逻辑门对目标样本x1进行更新,得到新样本x′1,由第二输出触发器(REG2)发送至第五数据选择器,第五数据选择器将新样本x′1发送至状态机控制器。
状态机控制器收到新样本x′1后,将其存入第二存储器中,并删除x1,即将x1迭代为x′1,此时已经对目标样本x1完成一次迭代。
在对目标样本x1完成一次迭代后,状态机控制器控制第一数据选择器从第一存储器中选择另一个中心向量,比如p2,并将其发送至第一减法逻辑门,并控制第三数据选择器从第三存储器中选择第一数据选择器所选择的另一中心向量的类别标签,即q2,并将其发送至判断器。
判断器判断y1和q2是否相同,并将判断结果发送至生成器,生成器根据判断器的判断结果,基于上述式(1)或者式(2),对目标样本进行第二次更新。需要说明的是,此时的目标样本x1已经迭代为x′1,即生成器此时是根据判断器的判断结果对x′1进行更新,得到第二次更新后的新样本后,通过第四数据选择器或者第五数据选择器将第二次更新后的新样本发送至状态机控制器,再由状态机控制器将x′1迭代为第二更新后的新样本。然后,再由状态机控制器控制第一数据选择器选择另一个中心向量,控制第三数据选择器选择相应的中心向量的类别标签,进行下一次更新,如此循环,不断地对目标样本x1进行迭代更新,直至达到预设的迭代次数。需要说明是,预设的迭代次数需要大于中心向量的个数,以保证目标样本至少能够基于每一个中心向量进行更新一次,从而能够在原始样本集全局特征作用的作用下生成新样本,以提高生成的新样本的真实性。
在本申请实施例中,假设预设的迭代次数为100次,那么状态机控制器在对某一个目标样本迭代100次后,就会停止更新该目标样本,并将第100次更新得到的新样本作为该目标样本最终更新得到的新样本,并从输出端口输出。
在本申请实施例中,每完成一个目标样本的迭代更新后,状态机控制器可以控制第二数据选择器从第二存储器中选择另一目标样本,并将其发送至所述第一减法逻辑门;以及,控制所述第三数据选择器从所述第三存储器中选择所述另一个目标样本的类别标签,并将所述另一个目标样本的类别标签发送至所述判断器。比如在对目标样本x1迭代完成后,状态机控制器可以控制第二数据选择器从第二存储器中选择另一目标样本,如x2,并基于上述同样的过程对目标样本x2进行迭代更新,对目标样本x2迭代更新的过程,参照对目标样本x1迭代更新的过程,再次不一一赘述。当状态机控制器对目标样本x2迭代完成后,还可以控制第二数据选择器选择其他目标样本,直至将第二存储器中的目标样本全部迭代更新完成。
每当一个目标样本达到预设的迭代次数后,状态机控制器都会输出一个新样本,那么当全部目标样本(全部原始样本)都迭代更新完成后,就能够得到一个新的原本集。
利用本申请所提出的样本生成芯片生成的新样本,都是基于原始样本集中对应的原始样本进行迭代更新得到的,而每个原始样本迭代更新的过程,是基于原始样本集全部聚类类别的中心向量进行更新,即让每个原始样本逐渐远离其所属的聚类类别的中心向量,同时逐步靠近其他聚类类别的中心向量,从而使得到每个新样本,在保留了原始目标样本所属的聚类类别特征的前提下,在原始样本集的全局分布更加均匀。
如图3和图4所示,图3为本申请一实施例中的原始样本集,经过聚类后的分布图,从图3可知,原始样本集经过聚类后有三种聚类类别,每个聚类类别内的各个样本分布较为集中。图4为基于图3中的原始样本利用本申请所提出的样本生成芯片所生成的新样本集的分布图。从图3和图4可知,对于原始样本中的圆形样本,迭代更新后仍然为圆形样本,对于原始样本集中的方形样本,迭代更新后仍然为方形样本,对于原始样本集中的三角形样本,迭代更新后仍然为三角形样本,因此,对于生成的每个新样本而言,其都保留了各自对应的原始样本的基本特征。另外,对于生成的新样本中的圆形样本、方形样本,以及三角形样本,其分布较为扩散,相对于原始样本集的全局分布也更加的均匀。
在本申请另一个实施例中,还可以基于同一个原始样本集生成多个新样本集。比如设置多个迭代次数,基于每个迭代次数,都能够生成一个相应的样本集。因次,本申请提出的样本生成芯片可以基于有限的样本,生成大量的仿真样本。
本发明提供的技术方案,通过设置控制器、存储器、数据选择器、判断器,以及生成器,在样本生成时,可以向控制器输入已有的样本,就可以快速生成新的仿真样本。与人工获取新样本相比更加的快速高效;另外,本样本生成芯片可以基于已有的样本生成新样本,故而在样本数量有限、获取难度较大的情景下,使用较为方便。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
以上所述仅为本发明的可选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种样本生成芯片,其特征在于,包括:控制器、存储器、数据选择器、判断器,以及生成器;
所述控制器与所述存储器连接,所述存储器与所述数据选择器连接,所述数据选择器分别与所述判断器、所述生成器以及所述控制器连接,所述判断器还与所述生成器连接;
所述控制器用于,获取原始样本集、所述原始样本集各个聚类类别的中心向量、所述原始样本集中各个原始样本的类别标签,以及各个所述中心向量的类别标签;
所述存储器用于,储存所述原始样本集、所述中心向量、各个所述原始样本的类别标签,以及各个所述中心向量的类别标签;
所述数据选择器用于,从所述存储器中选择目标样本和中心向量,以及所述目标样本和所述中心向量各自的类别标签;
所述判断器用于,判断所述数据选择器选择的目标样本的类别标签和中心向量的类别标签是否相同;
所述生成器用于,根据所述判断器的判断结果,对所述目标样本进行更新,以生成新样本;
所述控制器还用于,基于所述新样本对所述目标样本进行迭代更新。
2.如权利要求1所述的样本生成芯片,其特征在于,所述存储器包括:第一存储器、第二存储器,以及第三存储器,所述第一存储器用于储存所述原始样本集和所述中心向量,所述第三存储器用于储存各个所述原始样本的类别标签,以及各个所述中心向量的类别标签;
所述数据选择器包括:第一数据选择器、第二数据选择器,以及第三数据选择器;
所述控制器分别与所述第一存储器、所述第二存储器、所述第三存储器,以及所述第一数据选择器连接;
所述第一存储器与所述第一数据选择器连接,所述第二存储器与所述第二数据选择器连接,所述第三存储器与所述第三数据选择器连接;
所述第一数据选择器和所述第二数据选择器均与所述生成器连接,所述第三数据选择器与所述判断器连接;
所述判断器与生成器连接。
3.如权利要求2所述的样本生成芯片,其特征在于,所述第一数据选择器被配置为,响应于接收到第一数据选择指令,从所述第一存储器中的原始样本集中选择至少一个目标样本,并通过所述控制器,将所述至少一个目标样本存入所述第二存储器。
4.如权利要求3所述的样本生成芯片,其特征在于,所述第二数据选择器被配置为:响应于接收到第二样本选择指令,从所述第二存储器中选择任一目标样本,并将其发送至所述生成器;
所述第一数据选择器还被配置为:响应于接收到所述第二样本选择指令,从所述第一存储器中选择任一中心向量,并将其发送至所述生成器;
所述第三数据选择器被配置为:响应于接收到所述第二样本选择指令,从所述第三存储器中选择所述第二数据选择器所选择的目标样本的类别标签,以及所述第一数据选择器所选择的中心向量的类别标签,并将所选择的目标样本的类别标签和中心向量的类别标签发送至所述判断器;
所述判断器被配置为:判断从所述第三数据选择器接收到的目标样本的类别标签和中心向量的类别标签是否相同,并将判断结果发送至所述生成器;
所述生成器被配置为:根据从判断器接收到的判断结果,基于从所述第一数据选择器接收到的目标样本和从所述第二数据选择器接收到的中心向量,对所述目标样本进行更新,以生成新样本。
5.如权利要求4所述的样本生成芯片,其特征在于,所述生成器还被配置为:
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签相同时,将所述目标样本远离所述中心向量;
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签不同时,将所述目标样本靠近所述中心向量。
6.如权利要求4所述的样本生成芯片,其特征在于,所述生成器包括:第一减法逻辑门、第二减法逻辑门、乘法逻辑门,以及加法逻辑门;
所述第一数据选择器和所述第二数据选择器均与所述第一减法逻辑门连接,所述第一减法逻辑门与所述乘法逻辑门连接,所述乘法逻辑门分别与所述第二减法逻辑门和所述加法逻辑门连接,所述判断器分别与所述第二减法逻辑门和所述加法逻辑门连接;
所述第一减法逻辑门用于计算接收到的中心向量与目标向量的差值,并将其发送至所述乘法逻辑门;
所述乘法逻辑门用于计算所述差值与预设学习率的乘积,并将所述乘积分别发送至所述第二减法逻辑门和所述加法逻辑门;
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签相同时,所述判断器向所述第二减法逻辑门发送生成指令,所述第二减法逻辑门响应于收到所述生成指令,计算所述目标样本与所述乘积的之差,并将所述目标样本与所述乘积的之差作为所述新样本;
当所述判断器判断所述目标样本的类别标签与所述中心向量的类别标签不同时,所述判断器向所述加法逻辑门发送生成指令,所述加法逻辑门响应于收到所述生成指令,计算所述目标样本与所述乘积之和,并将所述目标样本与所述乘积的之和作为所述新样本。
7.如权利要求6所述的样本生成芯片,其特征在于,所述生成器还包括第一输出触发器和第二输出触发器,所述第一输出触发器与所述第二减法逻辑门连接,所述第二输出触发器与所述加法逻辑门连接;
所述数据选择器还包括第四数据选择器和第五数据选择器,所述第四数据选择器与所述第一输出触发器连接,所述第五数据选择器与所述第二输出触发器连接,所述第四数据选择器和所述第五数据选择器还均与所述控制器连接;
所述第一输出触发器用于将所述第二减法逻辑门计算得到的新样本发送至所述第四数据选择器,所述第四数据选择器用于将从所述第一输出触发器接收的新样本发送至所述控制器;
所述第二输出触发器用于将所述加法逻辑门计算得到的新样本发送至所述第五数据选择器,所述第五数据选择器用于将从所述第二输出触发器接收的新样本发送至所述控制器;
所述控制器还被配置为:在所述第二存储器中,将所述目标样本迭代更新为所述新样本。
8.如权利要求7所述的样本生成芯片,其特征在于,所述控制器还被配置为:
每当所述目标样本更新一次后,控制所述第一数据选择器从所述第一存储器中选择另一个中心向量,并发送至所述第一减法逻辑门;以及
控制所述第三数据选择器从所述第三存储器中选择所述另一个中心向量的类别标签,并发送至所述判断器。
9.如权利要求8所述的样本生成芯片,其特征在于,所述控制器还被配置为:按照预设迭代次数对同一个目标样本进行迭代,当同一个目标样本达到预设迭代次数后,将所述目标样本最后一次的迭代结果作为基于所述目标样本最终生成的新样本。
10.如权利要求9所述的样本生成芯片,其特征在于,所述控制器还被配置为:当同一个目标样本达到预设迭代次数后,控制所述第二数据选择器从所述第二存储器中选择另一个目标样本,并将其发送至所述第一减法逻辑门;以及
控制所述第三数据选择器从所述第三存储器中选择所述另一个目标样本的类别标签,并将所述另一个目标样本的类别标签发送至所述判断器。
CN202210777408.4A 2022-07-01 2022-07-01 一种样本生成芯片 Active CN115130592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210777408.4A CN115130592B (zh) 2022-07-01 2022-07-01 一种样本生成芯片

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210777408.4A CN115130592B (zh) 2022-07-01 2022-07-01 一种样本生成芯片

Publications (2)

Publication Number Publication Date
CN115130592A true CN115130592A (zh) 2022-09-30
CN115130592B CN115130592B (zh) 2023-04-18

Family

ID=83382190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210777408.4A Active CN115130592B (zh) 2022-07-01 2022-07-01 一种样本生成芯片

Country Status (1)

Country Link
CN (1) CN115130592B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107906A1 (zh) * 2016-12-12 2018-06-21 腾讯科技(深圳)有限公司 一种训练分类模型的方法、数据分类的方法及装置
WO2021036471A1 (zh) * 2019-08-28 2021-03-04 腾讯科技(深圳)有限公司 样本生成方法、装置、计算机设备及存储介质
CN113255694A (zh) * 2021-05-21 2021-08-13 北京百度网讯科技有限公司 训练图像特征提取模型和提取图像特征的方法、装置
CN113392894A (zh) * 2021-06-09 2021-09-14 瓴域影诺(北京)科技有限公司 一种多组学数据的聚类分析方法和系统
CN113822262A (zh) * 2021-11-25 2021-12-21 之江实验室 一种基于无监督学习的行人重识别方法
CN114462290A (zh) * 2020-10-31 2022-05-10 华为云计算技术有限公司 一种生成预训练人工智能模型的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107906A1 (zh) * 2016-12-12 2018-06-21 腾讯科技(深圳)有限公司 一种训练分类模型的方法、数据分类的方法及装置
WO2021036471A1 (zh) * 2019-08-28 2021-03-04 腾讯科技(深圳)有限公司 样本生成方法、装置、计算机设备及存储介质
US20220036187A1 (en) * 2019-08-28 2022-02-03 Tencent Technology (Shenzhen) Company Limited Sample generation method and apparatus, computer device, and storage medium
CN114462290A (zh) * 2020-10-31 2022-05-10 华为云计算技术有限公司 一种生成预训练人工智能模型的方法及装置
CN113255694A (zh) * 2021-05-21 2021-08-13 北京百度网讯科技有限公司 训练图像特征提取模型和提取图像特征的方法、装置
CN113392894A (zh) * 2021-06-09 2021-09-14 瓴域影诺(北京)科技有限公司 一种多组学数据的聚类分析方法和系统
CN113822262A (zh) * 2021-11-25 2021-12-21 之江实验室 一种基于无监督学习的行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CV_ML_DP: "【机器学习】【样本数据生成器】聚类算法中使用make_blobs聚类数据生成器(sklearn.datasets.make_blobs)", 《CSDN》 *
JULIA.HANDL: "Cluster generators for high-dimensional data sets with large numbers if clusters", 《PERSONALPAGES.MANCHESTER.AC.UK》 *

Also Published As

Publication number Publication date
CN115130592B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US20180260714A1 (en) Global optimization, search and machine learning method based on the lamarckian principle of inheritance of acquired characteristics
CN111242282A (zh) 基于端边云协同的深度学习模型训练加速方法
EP4350572A1 (en) Method, apparatus and system for generating neural network model, devices, medium and program product
CN110689136B (zh) 一种深度学习模型获得方法、装置、设备及存储介质
CN112818588B (zh) 一种电力系统的最优潮流计算方法、装置及存储介质
JP7412489B2 (ja) 連合学習方法及び装置、電子機器、記憶媒体ならびにコンピュータプログラム
JP2022530447A (ja) ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
CN112651436A (zh) 一种基于权重不确定的图卷积神经网络的优化方法、装置
CN109298930A (zh) 一种基于多目标优化的云工作流调度方法及装置
CN113821983A (zh) 基于代理模型的工程设计优化方法、装置及电子设备
CN113011529A (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
Bhatnagar et al. Stochastic algorithms for discrete parameter simulation optimization
CN114756706A (zh) 一种资源合成方法、装置、设备及存储介质
CN115130592B (zh) 一种样本生成芯片
Gao et al. Optimization methods for large-scale machine learning
CN114297934A (zh) 一种基于代理模型的模型参数并行仿真优化方法及装置
Tembine Mean field stochastic games: Convergence, Q/H-learning and optimality
CN112734033A (zh) 模型训练方法、装置、设备和存储介质
JP5552023B2 (ja) クラスタリング・システム、方法及びプログラム
CN114841341B (zh) 图像处理模型训练及图像处理方法、装置、设备和介质
CN115953651A (zh) 一种基于跨域设备的模型训练方法、装置、设备及介质
Luo et al. Sampling-based adaptive bounding evolutionary algorithm for continuous optimization problems
CN115345303A (zh) 卷积神经网络权重调优方法、装置、存储介质和电子设备
Morell et al. A multi-objective approach for communication reduction in federated learning under devices heterogeneity constraints
CN114064235A (zh) 多任务教与学优化方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant