CN115049917A - 神经网络的训练方法、物体检测方法和智能终端设备 - Google Patents

神经网络的训练方法、物体检测方法和智能终端设备 Download PDF

Info

Publication number
CN115049917A
CN115049917A CN202210984093.0A CN202210984093A CN115049917A CN 115049917 A CN115049917 A CN 115049917A CN 202210984093 A CN202210984093 A CN 202210984093A CN 115049917 A CN115049917 A CN 115049917A
Authority
CN
China
Prior art keywords
vector
neural network
spectrum
feature vector
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210984093.0A
Other languages
English (en)
Other versions
CN115049917B (zh
Inventor
刘伟
王宇
黄志雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuguangcai Core Technology Co ltd
Original Assignee
Shanghai Yuguangcai Core Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuguangcai Core Technology Co ltd filed Critical Shanghai Yuguangcai Core Technology Co ltd
Priority to CN202210984093.0A priority Critical patent/CN115049917B/zh
Publication of CN115049917A publication Critical patent/CN115049917A/zh
Application granted granted Critical
Publication of CN115049917B publication Critical patent/CN115049917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及用于基于光谱的物体检测的神经网络的训练方法、物体检测方法和智能终端设备。该训练方法包括:获取训练用的预定物体的光谱数据和类型标签;将所述训练用的预定物体的光谱数据输入所述神经网络的级联的多个趋势编码器以获得分类特征,其中,每个趋势编码器包括串行连接的斜率注意力机制单元、级联单元、归一化单元和前向反馈单元;将所述分类特征输入多层感知机网络以获得所述分类特征的预测概率;以及,通过最小化所述预测概率与所述类型标签之间的损失函数来更新所述用于基于光谱的物体检测的神经网络的参数。这样,通过基于光谱数据使用神经网络模型来检测物体类型,可以实现物体的实时和准确检测。

Description

神经网络的训练方法、物体检测方法和智能终端设备
技术领域
本申请涉及光谱技术领域,更为具体地说,涉及一种用于基于光谱的物体检测的神经网络的训练方法、基于光谱的物体检测方法和使用上述方法的智能终端设备。
背景技术
随着科技与经济的发展,智能终端设备作为智能家居的一部分,因其简单操作的功能以及便利性,开始逐步走入中国家庭,例如扫地机器人。
目前智能终端设备使用的主要传感器为RGB相机,通过建图的方式来从距离、高度、深度以及物体类型等多个维度认识家庭空间。传统的RGB相机存在固有的检测缺陷,一方面RGB相机覆盖可见光波段,容易受到外界可见光的影响,一方面RGB相机因为只有R、G、B三个通道,所以缺乏光谱细节的信息,也就是说RGB相机不能真实反映入射光线的信息,容易在检测物体类型的时候出现错误,进而采取错误的控制和决策手段。
光谱是物质的指纹,光谱信息包含入射光在各个波长上的能量信息,相比RGB相机,包含信息更多且更加准确,在RGB相机的基础上增加光谱传感的功能,可以提升对物体类型尤其是地面识别的准确率,智能终端设备应对不同的物质类型进行不同的处理,例如扫地机器人对不同地面类型进行识别,比如识别当前位置是地毯还是地板,地毯是长毛还是短毛,地板上有没有水等。
因此,期望提供一种基于光谱分析来实现物体类型检测的方法。
发明内容
本申请实施例提供了一种用于基于光谱的物体检测的神经网络的训练方法、基于光谱的物体检测方法和智能终端设备,其通过基于光谱数据使用神经网络模型来检测物体类型,可以实现物体的实时和准确检测。
根据本申请的一方面,提供了一种用于基于光谱的物体检测的神经网络的训练方法,包括:获取训练用的预定物体的光谱数据和类型标签;将所述训练用的预定物体的光谱数据输入所述神经网络的级联的多个趋势编码器以获得分类特征,其中,每个趋势编码器包括串行连接的斜率注意力机制单元、级联单元、归一化单元和前向反馈单元;将所述分类特征输入多层感知机网络以获得所述分类特征的预测概率;以及,通过最小化所述预测概率与所述类型标签之间的损失函数来更新所述用于基于光谱的物体检测的神经网络的参数。
在上述用于基于光谱的物体检测的神经网络的训练方法中,获取训练用的预定物体的光谱数据和类型标签包括:使用光谱传感设备获得所述预定物体的光谱数据,并基于所述预定物体的类型进行标注以获得所述类型标签。
在上述用于基于光谱的物体检测的神经网络的训练方法中,所述预定物体的光谱数据为样本数为N且光谱通道数为M的N个1×M的输入光谱向量。
在上述用于基于光谱的物体检测的神经网络的训练方法中,获取训练用的预定物体的光谱数据和类型标签包括:将所述输入光谱向量乘以噪声因子以进行数据增强。
在上述用于基于光谱的物体检测的神经网络的训练方法中,获取训练用的预定物体的光谱数据和类型标签包括:对所述数据增强的输入光谱向量进行归一化。
在上述用于基于光谱的物体检测的神经网络的训练方法中,将所述训练用的预定物体的光谱数据输入所述神经网络的每个趋势编码器包括:获取级联的上一级趋势编码器输出的输入特征向量;将所述输入特征向量输入斜率注意力机制单元以获得斜率特征向量;将所述斜率特征向量与所述输入特征向量级联以获得级联特征向量;将所述级联特征向量进行层归一化以获得归一化特征向量;将所述第一归一化向量输入前向反馈单元以获得反馈特征向量;以及,将所述反馈特征向量进行层归一化以获得输出特征向量。
在上述用于基于光谱的物体检测的神经网络的训练方法中,将所述输入特征向量输入斜率注意力机制单元以获得斜率特征向量包括:计算所述输入特征向量与第一权重向量的内积以获得第一加权值;计算所述输入特征向量与第二权重向量的内积以获得第二加权值;计算所述输入特征向量的斜率矩阵,所述斜率矩阵的每个位置的值对应于相应的两个位置的输入特征向量的特征值之差与其对应的波长值之差的商;将第三权重向量乘以所述斜率矩阵以获得通道特征向量;以及,将所述第一加权值与所述第二加权值的乘积为指数的幂乘以所述通道特征向量以获得所述斜率特征向量。
在上述用于基于光谱的物体检测的神经网络的训练方法中,将所述归一化向量输入前向反馈单元以获得反馈特征向量包括:将所述归一化向量乘以第一权重矩阵并与第一偏置向量相加以获得第一变换向量;以Relu激活函数对所述第一变换向量进行激活以获得第二变换向量;以及,将所述第二变换向量乘以第二权重矩阵并与第二偏置向量相加以获得所述反馈特征向量。
在上述用于基于光谱的物体检测的神经网络的训练方法中,所述预定物体的光谱数据为B×M的输入光谱矩阵,所述类型标签是B×1的标签向量,所述分类特征是B×M的分类特征矩阵,且所述预测概率是B×num的预测概率矩阵。
根据本申请的另一方面,提供了一种基于光谱的物体检测方法,包括:获取光谱传感设备对预定物体输出的光谱数据;将所述光谱数据输入如上所述的用于基于光谱的物体检测的神经网络的训练方法所训练的用于基于光谱的物体检测的神经网络,以获得所述光谱数据的预测概率;以及,基于所述预测概率确定所述预定物体的类型。
根据本申请的又一方面,提供了一种智能终端设备,包括:光谱传感单元,用于接收经物体反射的光线,并基于光谱重建获得所述物体对应的光谱数据;预测单元,具有如上所述的用于基于光谱的物体检测的神经网络,以基于所述光谱数据确定所述物体的类型;以及,控制单元,基于所述物体的类型控制所述智能终端设备的操作。
本申请实施例提供的用于基于光谱的物体检测的神经网络的训练方法、基于光谱的物体检测方法和智能终端设备,可以通过基于光谱数据使用神经网络模型来检测物体类型,实现物体的实时和准确检测。
附图说明
通过阅读下文优选的具体实施方式中的详细描述,本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。
图1图示了根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法的示意性流程图。
图2图示了根据本申请实施例的神经网络的趋势编码器的结构的示意图。
图3图示了根据本申请实施例的神经网络的斜率注意力机制单元的向量表示的示意图。
图4图示了根据本申请实施例的用于基于光谱的物体检测的神经网络的多层感知机网络的示意图。
图5图示了根据本申请实施例的基于光谱的物体检测方法的流程图。
图6图示了根据本申请实施例的智能终端设备的示意性框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
示例性训练方法
图1图示了根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法的示意性流程图。
如图1所示,根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法包括如下步骤。
步骤S110,获取训练用的预定物体的光谱数据和类型标签。也就是,首先获取用于对神经网络模型进行训练的训练数据。
这里,所述预定物体的光谱数据可以使用光谱传感设备获得。所述光谱传感设备是基于光谱芯片的传感器,该传感器的核心部件光谱芯片由微纳结构层以及CMOS图像传感器组成,可以实现快速输出进入镜头的入射光的光谱数据,即由所述微纳结构层对入射光进行宽谱调制后,被所述图像传感器接收,从而获得光谱数据。
在获得所述预定物体的光谱数据之后,可以根据当前物体类型来对光谱数据进行标注,从而完成训练用数据集的制作。
此外,由于光谱数据的采集和标注相当耗时,所以难以制作大规模的数据集。然而数据集的质量对于神经网络模型的分类准确率非常重要,所以在本申请实施例中,在训练神经网络模型之前,优选地先对数据进行数据增强的操作,以此来丰富数据集的特征,从而使得模型更加的鲁棒。
具体地,在所述光谱传感设备为单点的光谱传感设备的情况下,其输出数据为单点的光谱信息1×M,其中M为光谱通道个数,共采集N个样本, 也就是,获得N个1×M的输入光谱向量。例如,每个输入光谱向量记为X=(x1, x2, …, xM),其中xi为光谱传感设备输出的光强值。
并且,在输入神经网络模型进行训练之前,首先引入一个噪声因子E来对数据本身进行增强,以此来提升模型的泛化性能,尤其是降低网络对于幅度的敏感性,而更多捕获趋势以及特征波段的信息,这里,E可以作为神经网络模型的超参数调试获得,这样,输入矩阵为X’为X’=X*E。
此外,还可以同时对输入向量X’进行归一化,例如记为fscale(·),以提升模型的收敛速度,也就是,归一化后的输入向量XS= fscale(X’)。
因此,在根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法中,获取训练用的预定物体的光谱数据和类型标签包括:使用光谱传感设备获得所述预定物体的光谱数据,并基于所述预定物体的类型进行标注以获得所述类型标签。
并且,在根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法中,所述预定物体的光谱数据为样本数为N且光谱通道数为M的N个1×M的输入光谱向量。
此外,在根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法中,获取训练用的预定物体的光谱数据和类型标签包括:将所述输入光谱向量乘以噪声因子以进行数据增强。
以及,在根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法中,获取训练用的预定物体的光谱数据和类型标签包括:对所述数据增强的输入光谱向量进行归一化。
步骤S120,将所述训练用的预定物体的光谱数据输入所述神经网络的级联的多个趋势编码器以获得分类特征,其中,每个趋势编码器包括串行连接的斜率注意力机制单元、级联单元、归一化单元和前向反馈单元。
图2图示了根据本申请实施例的神经网络的趋势编码器的结构的示意图。如图2所示,趋势编码器(tread encoder)用于将1×M的输入光谱向量,即如上所述的XS=(x1, x2,…, xM)映射为一个连续表示的特征值序列,即特征向量,例如记为TM=(t1, t2, …, tM)。并且,在根据本申请实施例的神经网络中,使用多个彼此串行连接的趋势编码器,例如L个趋势编码器,其中L作为超参数在训练过程中进行调节。
并且,趋势编码器由斜率注意力机制单元(Slope Attention)、级联单元(Concat)、归一化单元(Norm)和前向反馈(Feed Forward)单元组成。其中级联单元的操作是将前一趋势编码器的输出,也就是,该趋势编码器的输入与经过斜率注意力机制单元输出后的结果相拼接。基于此,趋势编码器的输出可以用公式表示为:TM=LN(FFN(LN(Concat(FSA(XS),XS))))。
其中XS表示输入光谱向量,LN(·)表示层归一化,即在每一个样本上计算均值和方差,将数据进行正态变换,以获得均值为0,方差为1的样本数据集。FSA(·)表示斜率注意力机制单元的操作,这将在下文中详细说明,FFN(·)表示前向反馈单元,Concat(·)表示级联操作。
并且,在本申请实施例中,将L个趋势编码器进行串行连接,也就是,第l-1个趋势 编码器的输出Tl-1作为第l个趋势编码器的输入,例如,可以表示为:Tl=FTE(Tl-1),
Figure 804021DEST_PATH_IMAGE001
为趋 势编码器的运算操作。
因此,在根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法中,将所述训练用的预定物体的光谱数据输入所述神经网络的每个趋势编码器包括:获取级联的上一级趋势编码器输出的输入特征向量;将所述输入特征向量输入斜率注意力机制单元以获得斜率特征向量;将所述斜率特征向量与所述输入特征向量级联以获得级联特征向量;将所述级联特征向量进行层归一化以获得归一化特征向量;将所述第一归一化向量输入前向反馈单元以获得反馈特征向量;以及,将所述反馈特征向量进行层归一化以获得输出特征向量。
这里,本领域技术人员可以理解,对于第一个趋势编码器来说,其输入为1×M向量形式的输入光谱向量。
下面,将详细说明根据本申请实施例的神经网络模型中的斜率注意力机制单元。
在基于光谱数据的对象检测过程中,由于光谱传感设备本身的检测精度,包括波长的准确度以及稳定性容易受到外界环境变化的影响,比如温度的变化以及光源强度的变化,这会导致光谱曲线出现基线漂移,即对应波长采样点的强度值会发生波动。如果神经网络模型只根据某几个波长采样点的强度值来实现预测,那么预测结果就会受到很大影响,从而出现检测错误的情况。针对上述问题,所述神经网络模型是针对光谱曲线的特点来设计的神经网络,其核心就是采用斜率注意力机制单元来捕获整个光谱曲线的趋势特征,以缓解神经网络模型对于强度值的依赖,从而增强模型的鲁棒性。这是由于对于相同类型但是不同颜色或者反射率的物质,其强度值会发生较大程度的变动,尤其是在可见光波段,而总体趋势是保持一致的。所以根据本申请实施例的神经网络模型设计的初衷就是在强度信息的基础之上,加上趋势的特征,共同实现对结果的预测。
基于此,斜率注意力机制单元会对每个波长通道处的全通道斜率进行权重的调节,而权重的大小由自注意力机制获得,使得经过权重调制的斜率表征趋势的特征。由此,通过将其与原始波长点处的强度信息相拼接,可以在每个波长点处加上趋势的特征,以丰富样本的特征,提升模型的鲁棒性,从而达到多维度信息的提取,这也是为什么在本申请实施例中其被称为斜率注意力机制单元的原因。
如上所述,在本申请实施例中,光谱数据表示M个波长点处的光强值,其表示为1×M的输入光谱向量,且向量的每个位置的值均为光强,也就是,特征维度只有光强。
在本申请实施例中,斜率注意力机制单元可以由下式表示:
Slope Attention(Q, K, I)=EXP(QK)S。
其中,Q、K由输入向量XS分别与M×1的权重向量Wq、Wk计算向量内积得到,也就是,Q和K均为标量。并且,由于XS=(x1, x2, …, xM)中的每个xi的光强值都对应一个波长点,也就是XS对应于波长向量(λ1, λ2, …, λM),因此光强值xi和xj具有对应的波长值λi和λj,这样,可以得到斜率pi,j=(xi-xj)/(λij),由此,就得到了M×M维度的斜率矩阵P,将该矩阵与1×M权重向量Wp相乘得到向量S,而EXP表示指数操作,来对权重进行一个缩放的操作,完成对趋势特征的捕获。最后,将EXP(QK)的标量值与1×M的向量S相乘,即将向量S的每个位置的值都乘以所述标量值,就得到了斜率注意力机制单元的输出向量。这里,图3图示了根据本申请实施例的神经网络的斜率注意力机制单元的向量表示的示意图。
也就是,上述斜率注意力机制单元的公式表示为:Q=XWq,K=XWk,S=WpP。其中,Wq和Wk是M×1的权重向量,且Wp是1×M的权重向量。其中,向量Wp与矩阵P相乘,可以看作是对斜率矩阵在通道维度上的坍塌,以获取每个通道与其他每个通道之间的斜率特征,将Q、K、S进一步运算EXP(QK)S,就得到最终输出的特征向量TSA= FSA(XS)。
因此,在根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法中,将所述输入特征向量输入斜率注意力机制单元以获得斜率特征向量包括:计算所述输入特征向量与第一权重向量的内积以获得第一加权值;计算所述输入特征向量与第二权重向量的内积以获得第二加权值;计算所述输入特征向量的斜率矩阵,所述斜率矩阵的每个位置的值对应于相应的两个位置的输入特征向量的特征值之差与其对应的波长值之差的商;将第三权重向量乘以所述斜率矩阵以获得通道特征向量;以及,将所述第一加权值与所述第二加权值的乘积为指数的幂乘以所述通道特征向量以获得所述斜率特征向量。
进一步地,针对特征向量TSA与输入向量XS的级联向量,例如记为TCA=(TSA,XS),在进行归一化之后,通过前向反馈网络来进行处理。这是为了增加特征向量中的可学习的参数,具体地,所述前向反馈网络可以包含两个变换以及一个非线性激活函数Relu组成,可以表示为:
FFN(TCA)=Relu(TCAW1+b1)W2+b2
其中,Relu(x)=max(0,x)
然后,再经过归一化之后,就可以得到输出的特征向量TM
因此,在根据本申请实施例的用于基于光谱的物体检测的神经网络的训练方法中,将所述归一化向量输入前向反馈单元以获得反馈特征向量包括:将所述归一化向量乘以第一权重矩阵并与第一偏置向量相加以获得第一变换向量;以Relu激活函数对所述第一变换向量进行激活以获得第二变换向量;以及,将所述第二变换向量乘以第二权重矩阵并与第二偏置向量相加以获得所述反馈特征向量。
步骤S130,将所述分类特征输入多层感知机网络以获得所述分类特征的预测概率。也就是,将上述级联的多个趋势编码器中的最后一个趋势编码器输出的分类特征,例如记为TL输入多层感知机网络,则根据本申请实施例的用于基于光谱的物体检测的神经网络模型的最终输出为Y=MLP(TL)。
在本申请实施例中,所述多层感知机网络包括三个全连接层,如图4所示。这里,图4图示了根据本申请实施例的用于基于光谱的物体检测的神经网络的多层感知机网络的示意图。如图4所示,由于全连接层为线性变换,不能实现非线性空间的映射关系,因此在前两层后添加Relu激活函数,而在输出层也就是最后一层使用Softmax函数输出每个类别的概率,取其最大值对应的类别即为判别类型。并且,类型数目num视实际需求确定,例如在扫地机器人上应用时,如只需要判别地毯还是地板,则num=2,如果判别地毯类型为长中短三种类型时,num=3。并且,如图4所示,TM=(t1, t2, …, tM)为最后一个趋势编码器输出的分类特征,M为光谱通道数。Yi为输出层第i个节点的数值,i=1~num,其中num为判别类型数目。
步骤S140,通过最小化所述预测概率与所述类型标签之间的损失函数来更新所述用于基于光谱的物体检测的神经网络的参数。
也就是,针对所述预测概率,例如如上所述的预测概率向量,计算其与标注的类型标签之间的损失函数,例如可以采用交叉熵损失函数。再通过最小化所述损失函数,使用反向传播的方式更新所述用于基于光谱的物体检测的神经网络的参数,以完成所述用于基于光谱的物体检测的神经网络模型的训练。
在上面的说明中,以单个光谱向量为例说明了根据本申请实施例的用于基于光谱的物体检测的神经网络模型的训练。本领域技术人员可以理解,在训练过程中,也可以基于多个光谱向量对所述神经网络模型批量进行训练。
例如,针对N个1×M的输入光谱向量,可以将其拼接为二维输入矩阵,该二维输入矩阵包含N个样本的M个通道的光谱信息。并且,对应的标签向量则为N×1,为N个样本的分类信息。
然后,在将样本分批次进行训练时,如果有N个样本的光谱,且批次大小(BatchSize)表示为B,则输入的数据矩阵的维度为B×M。
对于输入的数据矩阵的每个行向量,通过上述趋势编码器获得对应的输出特征向量,从而获得与输入的数据矩阵对应的分类特征矩阵,且分类特征矩阵的维度也为B×M。
然后,通过多层感知机网络,得到分类特征矩阵对应的预测矩阵,维度为B×num。相应地,所述分类特征矩阵对应的标签向量为B×1。这样,通过计算预测矩阵的概率与标签向量之间的损失函数,例如交叉熵损失函数,来对所述用于基于光谱的物体检测的神经网络模型的参数进行更新。
示例性检测方法
图5图示了根据本申请实施例的基于光谱的物体检测方法的流程图。
如图5所示,根据本申请实施例的基于光谱的物体检测方法包括:S210,获取光谱传感设备对预定物体输出的光谱数据;S220,将所述光谱数据输入如上所述的用于基于光谱的物体检测的神经网络以获得所述光谱数据的预测概率;以及,S230,基于所述预测概率确定所述预定物体的类型。
例如,在本申请实施例中,训练好的用于基于光谱的物体检测的神经网络模型可以保存为.pth文件(例如,使用pytorch深度学习框架),并将其部署在具有光谱传感设备的智能终端设备上,就可以实现实时输入光谱数据输出判别类型的功能。例如,可以以此来完成对扫地机器人所处位置地面类型的判断。
这样,根据本申请实施例的基于光谱的物体检测方法通过使用人工神经网络来拟合光谱数据和物质类型之间的映射关系,可以实现将模型部署在具有光谱传感设备的智能终端设备上实现实时判断并输出。
因此,根据本申请实施例的基于光谱的物体检测方法可以基于光谱数据来使得智能终端设备准确感知到当前物体的类型,加强物体类型识别能力,有助于智能终端设备做出准确的判断和决策。
也就是,智能终端设备在运行过程当中,经物体反射的光线进入光谱传感设备,该光谱传感设备经过光谱重建等操作实现输出光谱数据的功能,然后,光谱数据输入智能终端设备当中的预测模型,输出当前识别的物体类型,进而传输至智能终端设备的控制单元,智能终端设备根据判别类型,做出反应,完成闭环。
示例性智能终端设备
图6图示了根据本申请实施例的智能终端设备的示意性框图。
如图6所示,根据本申请实施例的智能终端设备300包括:光谱传感单元310,用于接收经物体反射的光线,并基于光谱重建获得所述物体对应的光谱数据;预测单元320,具有如上所述的用于基于光谱的物体检测的神经网络,以基于所述光谱数据确定所述物体的类型;以及,控制单元330,基于所述物体的类型控制所述智能终端设备的操作。
这里,本领域技术人员可以理解,上述智能终端设备300中的各个单元和模块的具体功能和操作已经在上面参考图1到图5描述的用于基于光谱的物体检测的神经网络的训练方法和基于光谱的物体检测方法中详细介绍,并因此,将省略其重复描述。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于基于光谱的物体检测的神经网络的训练方法和基于光谱的物体检测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于基于光谱的物体检测的神经网络的训练方法和基于光谱的物体检测方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (11)

1.一种用于基于光谱的物体检测的神经网络的训练方法,其特征在于,包括:
获取训练用的预定物体的光谱数据和类型标签;
将所述训练用的预定物体的光谱数据输入所述神经网络的级联的多个趋势编码器以获得分类特征,其中,每个趋势编码器包括串行连接的斜率注意力机制单元、级联单元、归一化单元和前向反馈单元;
将所述分类特征输入多层感知机网络以获得所述分类特征的预测概率;以及
通过最小化所述预测概率与所述类型标签之间的损失函数来更新所述用于基于光谱的物体检测的神经网络的参数。
2.根据权利要求1所述的训练方法,其中,获取训练用的预定物体的光谱数据和类型标签包括:
使用光谱传感设备获得所述预定物体的光谱数据,并基于所述预定物体的类型进行标注以获得所述类型标签。
3.根据权利要求2所述的训练方法,其中,所述预定物体的光谱数据为样本数为N且光谱通道数为M的N个1×M的输入光谱向量。
4.根据权利要求3所述的训练方法,其中,获取训练用的预定物体的光谱数据和类型标签包括:
将所述输入光谱向量乘以噪声因子以进行数据增强。
5.根据权利要求4所述的训练方法,其中,获取训练用的预定物体的光谱数据和类型标签包括:对所述数据增强的输入光谱向量进行归一化。
6.根据权利要求1所述的训练方法,其中,将所述训练用的预定物体的光谱数据输入所述神经网络的每个趋势编码器包括:
获取级联的上一级趋势编码器输出的输入特征向量;
将所述输入特征向量输入斜率注意力机制单元以获得斜率特征向量;
将所述斜率特征向量与所述输入特征向量级联以获得级联特征向量;
将所述级联特征向量进行层归一化以获得归一化特征向量;
将所述第一归一化向量输入前向反馈单元以获得反馈特征向量;以及,
将所述反馈特征向量进行层归一化以获得输出特征向量。
7.根据权利要求6所述的训练方法,其中,将所述输入特征向量输入斜率注意力机制单元以获得斜率特征向量包括:
计算所述输入特征向量与第一权重向量的内积以获得第一加权值;
计算所述输入特征向量与第二权重向量的内积以获得第二加权值;
计算所述输入特征向量的斜率矩阵,所述斜率矩阵的每个位置的值对应于相应的两个位置的输入特征向量的特征值之差与其对应的波长值之差的商;将第三权重向量乘以所述斜率矩阵以获得通道特征向量;以及,
将所述第一加权值与所述第二加权值的乘积为指数的幂乘以所述通道特征向量以获得所述斜率特征向量。
8.根据权利要求6所述的训练方法,其中,将所述归一化向量输入前向反馈单元以获得反馈特征向量包括:
将所述归一化向量乘以第一权重矩阵并与第一偏置向量相加以获得第一变换向量;
以Relu激活函数对所述第一变换向量进行激活以获得第二变换向量;以及,
将所述第二变换向量乘以第二权重矩阵并与第二偏置向量相加以获得所述反馈特征向量。
9.根据权利要求1所述的训练方法,其中,所述预定物体的光谱数据为B×M的输入光谱矩阵,所述类型标签是B×1的标签向量,所述分类特征是B×M的分类特征矩阵,且所述预测概率是B×num的预测概率矩阵。
10.一种基于光谱的物体检测方法,其特征在于,包括:
获取光谱传感设备对预定物体输出的光谱数据;
将所述光谱数据输入如权利要求1到9中任意一项所述的用于基于光谱的物体检测的神经网络的训练方法所训练的用于基于光谱的物体检测的神经网络,以获得所述光谱数据的预测概率;以及,
基于所述预测概率确定所述预定物体的类型。
11.一种智能终端设备,其特征在于,包括:
光谱传感单元,用于接收经物体反射的光线,并基于光谱重建获得所述物体对应的光谱数据;
预测单元,具有如上所述的用于基于光谱的物体检测的神经网络,以基于所述光谱数据确定所述物体的类型;以及,
控制单元,基于所述物体的类型控制所述智能终端设备的操作。
CN202210984093.0A 2022-08-17 2022-08-17 神经网络的训练方法、物体检测方法和智能终端设备 Active CN115049917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210984093.0A CN115049917B (zh) 2022-08-17 2022-08-17 神经网络的训练方法、物体检测方法和智能终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210984093.0A CN115049917B (zh) 2022-08-17 2022-08-17 神经网络的训练方法、物体检测方法和智能终端设备

Publications (2)

Publication Number Publication Date
CN115049917A true CN115049917A (zh) 2022-09-13
CN115049917B CN115049917B (zh) 2022-11-15

Family

ID=83168384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210984093.0A Active CN115049917B (zh) 2022-08-17 2022-08-17 神经网络的训练方法、物体检测方法和智能终端设备

Country Status (1)

Country Link
CN (1) CN115049917B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11842284B2 (en) * 2017-06-29 2023-12-12 Preferred Networks, Inc. Data discriminator training method, data discriminator training apparatus, non-transitory computer readable medium, and training method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050141773A1 (en) * 2003-12-26 2005-06-30 Mega Chips Lsi Solutions Inc. Compression encoder
CN107478598A (zh) * 2017-09-01 2017-12-15 广东省智能制造研究所 一种基于一维卷积神经网络的近红外光谱分析方法
CN111624164A (zh) * 2020-03-19 2020-09-04 自然资源部第一海洋研究所 基于光谱标准差特征分析的海洋溢油油种高光谱识别方法
US20210201147A1 (en) * 2018-11-28 2021-07-01 Tencent Technology (Shenzhen) Company Limited Model training method, machine translation method, computer device, and storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050141773A1 (en) * 2003-12-26 2005-06-30 Mega Chips Lsi Solutions Inc. Compression encoder
CN107478598A (zh) * 2017-09-01 2017-12-15 广东省智能制造研究所 一种基于一维卷积神经网络的近红外光谱分析方法
US20210201147A1 (en) * 2018-11-28 2021-07-01 Tencent Technology (Shenzhen) Company Limited Model training method, machine translation method, computer device, and storage medium
CN111624164A (zh) * 2020-03-19 2020-09-04 自然资源部第一海洋研究所 基于光谱标准差特征分析的海洋溢油油种高光谱识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11842284B2 (en) * 2017-06-29 2023-12-12 Preferred Networks, Inc. Data discriminator training method, data discriminator training apparatus, non-transitory computer readable medium, and training method

Also Published As

Publication number Publication date
CN115049917B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Gast et al. Lightweight probabilistic deep networks
JP7250126B2 (ja) 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ
US20080101705A1 (en) System for pattern recognition with q-metrics
Fernandez Borda et al. Automatic solar flare detection using neural network techniques
CN113312989B (zh) 一种基于聚合描述子与注意力的指静脉特征提取网络
CN110736707B (zh) 一种主仪器向从仪器光谱模型传递的光谱检测优化方法
CN115049917B (zh) 神经网络的训练方法、物体检测方法和智能终端设备
CN114332621A (zh) 一种基于多模型特征融合的病虫害识别方法及系统
Wang et al. Learning to detect local overheating of the high-power microwave heating process with deep learning
CN117094451B (zh) 一种耗电量的预测方法、装置及终端
CN116189800B (zh) 基于气体检测的模式识别方法、装置、设备及存储介质
KR20220113789A (ko) 분석 데이터에 기초한 특성화를 위한 머신 비전
CN115221932A (zh) 基于神经网络的光谱恢复方法、装置和电子设备
Wang et al. SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging
Knauer et al. Fusion trees for fast and accurate classification of hyperspectral data with ensembles of γ-divergence-based RBF networks
CN113686810B (zh) 一种基于卷积神经网络的近红外光谱波长选择方法
CN115423091A (zh) 一种条件对抗神经网络训练方法、场景生成方法和系统
CN114913415A (zh) 一种基于遥感监测的病虫害检测系统
Fu et al. Local-global gated convolutional neural network for hyperspectral image classification
CN109145887B (zh) 一种基于光谱潜变量混淆判别的阈值分析方法
Schumacher et al. Problem-specific optimized multispectral sensing for improved quantification of plant biochemical constituents
CN117274236B (zh) 基于高光谱图像的尿液成分异常检测方法及系统
CN114937034A (zh) 基于颜色识别的通信光纤管理方法、系统和电子设备
CN117110241A (zh) 一种聚丙烯弹性模量及低温脆化温度的评估方法及装置
Waldmann Dreaming of Atmospheres

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant