CN109271976A

CN109271976A - 一种基于语音图像双模态果蔬农产品智能识别装置

Info

Publication number: CN109271976A
Application number: CN201811393698.2A
Authority: CN
Inventors: 陶华伟; 傅洪亮; 吴剑峰; 张建华; 王珂; 姜鹏旭; 雷沛之; 王佳佳; 王梦哲; 李文娟; 李满意
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-01-25

Abstract

本发明公布了一种基于语音图像双模态果蔬农产品智能识别装置。首先，采用图像采集装置获取果蔬图像，对果蔬图像预处理，采用Alexnet网络提取果蔬图像特征，采用RGB颜色直方图算法提取颜色特征，采用局部方向纹理模式（LDTP）提取图像方向和纹理信息；其次，采用语音数据采集装置录制2S语音，录制期间操作员说出果蔬名称，对语音进行预处理，提取语音梅尔频率倒谱系数（MFCC）、线性预测倒谱系数（LPCC）特征；再次，采用自编码网络对语音特征和图像特征进行降维、融合，采用SVM分类器对融合后特征进行分类，实现果蔬农产品识别，该发明提出了一种基于语音和图像双模态果蔬识别方法，可以用于果蔬识别秤中，进一步提升果蔬识别准确度。

Description

一种基于语音图像双模态果蔬农产品智能识别装置

技术领域

本发明涉及一种基于语音图像双模态果蔬农产品智能识别装置

背景技术

现有超市主要依靠条形码识别不同种类的果蔬农产品，销售员需要花费大量时间对产品进行分类，粘贴条形码，浪费了大量的人力。基于此，近些年基于计算机视觉的果蔬农产品识别技术受到了广泛的关注，然而，由于果蔬产品众多，售卖环境光照情况复杂，识别性能依旧不高。

语音是人类沟通、交流的一种最重要的方式，也是人机交互的一种有效手段，为进一步提升果蔬农产品的识别性能，本发明利用图像和语音2种数据，融合2种数据的特征，用于识别果蔬种类，提升识别准确率。

发明内容

超市环境复杂，对果蔬识别的精确度有较大的影响，提出一种基于语音图像双模态果蔬农产品智能识别装置。具体步骤如下：

(1)图像采集装置拍摄果蔬彩色图片，语音采集装置录制2s操作人员语音，在录制期间，操作人员说出该果蔬名称，并将不同种类果蔬标上不同的数字标签(label)；

(2)对采集到的果蔬图像进行预处理，将图片剪切成N*N*3大小，改变尺度将其变为227*227*3大小图片，带标签227*227*3果蔬图片输入Alexnet网络中，并采用标签数据对Alexnet网络进行微调，得到用于提取特征的Alexnet网络，将Alexnet网络的输出结果作为提取到的特征；

(3)提取步骤(2)中227*227*3果蔬图片R、G、B颜色通道的直方图，并将3个直方图组合在一起构成RGB颜色直方图特征，将彩色RGB果蔬图片转为灰度图片，采用局部方向纹理模式(LocalDirectional Triple Pattern，LDTP)提取图像方向和纹理信息特征，将步骤(2)的Alexnet网络特征和RGB直方图特征、LDTP特征组合在一起，构成图像特征；

(4)对步骤(1)中语音数据进行预处理，处理方法包括：分帧、加重、端点检测，提取预处理后语音的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)特征；

(5)将步骤(2)、(3)和步骤(4)中的特征组合在一起，采用自编码网络对特征进行融合、降维；

(6)重复步骤(1)采集M组果蔬图片和语音数据，并将不同种类果蔬标上不同的数字标签，构成训练集数据，采用步骤(2)、(3)、(4)、(5)对训练集数据进行处理，得到训练集特征集合，采用该集合数据对SVM分类器进行训练，得到SVM分类模型；

(7)利用图像采集装置、语音采集装置获取待识别果蔬的图片和语音数据，采用步骤(2)、(3)、(4)、(5)对待识别果蔬数据进行处理，得到用于分类识别的特征，利用步骤(6)训练得到的SVM分类器对特征进行分类，最终识别果蔬种类。

附图说明

图1——基于语音图像双模态果蔬农产品智能识别算法流程图。

具体实施方式

下面结合具体实施方式对本发明做更进一步的说明。

(1)设共M种果蔬，图像采集装置采用30W像素的摄像头采集不同种类的果蔬图片I_i,(i＝1,L,M*T)，每类采集T张图片，共M*T张图片；语音采集装置录制2s操作人员语音，在录制期间，操作人员说出该果蔬名称，每种果蔬录制T条语音S_i,(i＝1,L,M*T)，共M*T条语音。将上述M*T张图片和语音构成训练集{I_i,S_i}，将不同果蔬记为1，2，L，M，则训练集{I_i,S_i}对应的标签集为L＝{1,1,L,1,L,M,L,M}。

(2)将训练集图片I_i,(i＝1,L,M*T)剪切成N*N*3大小，改变尺度将其变为227*227*3大小图片。首先，选取训练集带标签果蔬图片输入Alexnet网络中，采用有标签数据对其进行微调，得到用于提取特征的Alexnet网络，并采用Alexnet网络提取相关特征f_i ^Alex；提取处理后227*227*3图片R、G、B颜色通道的直方图，并将3个直方图组合在一起构成RGB颜色直方图特征f_i ^RGB；将彩色RGB图片转为灰度图片，采用局部方向纹理模式(LocalDirectional Triple Pattern，LDTP)提取图像纹理和方向信息特征f_i ^LDTP；将上述特征组合在一起，构成图像特征f_i ^IMG＝[f_i ^Alex,f_i ^RGB,f_i ^LDTP]。

(3)对训练集语音数据S_i,(i＝1,L,M*T)进行预处理，处理方法包括：分帧、加重、端点检测；提取预处理后语音的MFCC、LPCC特征f_i ^MFCC，f_i ^LPCC，将MFCC、LPCC特征组合在一起构成语音特征f_i ^SPE＝[f_i ^MFCC,f_i ^LPCC]。

(4)将步骤(2)和步骤(3)中的特征组合在一起f_i＝[f_i ^IMG,f_i ^SPE]，搭建2层无监督自编码网络，如公式(1)、(2)、(3)所示，设输入特征记为f，

输入层到隐层：h＝σ(W₁f+b₁)(1)

隐层到隐层：

数据f的重构误差损失函数：

(1)、(2)、(3)、(4)式中，W₁,W₂,W₃表示系数矩阵，b₁,b₂,b₃,b_SAE表示偏执量。

经过上述处理，实现对特征的融合、降维，最终得到用于识别的特征

(5)采用步骤(4)得到的训练集特征对SVM分类器进行训练，得到SVM分类模型。

(6)实际识别过程中，采用30W像素的摄像头采集果蔬图片，并在采集过程中，录制2s操作人员语音，在录制期间，操作人员说出该果蔬名称，得到待识别图像和语音。

(7)将待识别图像剪切成N*N*3大小，改变尺度将其变为227*227*3大小图片，利用步骤(2)训练的Alexnet网络提取Alexnet网络特征，提取RGB颜色直方图特征，提取LDTP纹理、方向特征，将上述特征组成一起，构成图像特征。

(8)按照步骤(3)的操作对待识别语音进行处理，提取到待识别语音的语音特征；

(9)将步骤(7)、步骤(8)提取到的图像特征、语音特征组合在一起，输入步骤(4)中的自编码网络中，进行融合、降维处理，将处理后的特征输入步骤(5)训练的SVM分类器中，最终输出识别果蔬的类型。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.本发明公布了一种基于语音图像双模态果蔬农产品智能识别装置，其特征在于，该装置包括以下几个部分：语音数据采集装置、图像数据采集装置、识别装置，且其操作如下：

（1）图像采集装置拍摄果蔬彩色图片，语音采集装置录制2s操作人员语音，在录制期间，操作人员说出该果蔬名称，并将不同种类果蔬标上不同的数字标签（label）；

（2）对采集到的果蔬图像进行预处理，将图片剪切成N*N*3大小，改变尺度将其变为227*227*3大小图片，带标签227*227*3果蔬图片输入Alexnet网络中，并采用标签数据对Alexnet网络进行微调，得到用于提取特征的Alexnet网络，将Alexnet网络的输出结果作为提取到的特征；

（3）提取步骤（2）中227*227*3果蔬图片R、G、B颜色通道的直方图，并将3个直方图组合在一起构成RGB颜色直方图特征，将彩色RGB果蔬图片转为灰度图片，采用局部方向纹理模式（Local Directional Triple Pattern，LDTP）[1]提取图像方向和纹理信息特征，将步骤（2）的Alexnet网络特征和RGB直方图特征、LDTP特征组合在一起，构成图像特征；

（4）对步骤（1）中语音数据进行预处理，处理方法包括：分帧、加重、端点检测，提取预处理后语音的梅尔频率倒谱系数（MFCC）、线性预测倒谱系数（LPCC）特征；

（5）将步骤（2）、（3）和步骤（4）中的特征组合在一起，采用自编码网络对特征进行融合、降维；

（6）重复步骤（1）采集M组果蔬图片和语音数据，并将不同种类果蔬标上不同的数字标签，构成训练集数据，采用步骤（2）、（3）、（4）、（5）对训练集数据进行处理，得到训练集特征集合，采用该集合数据对SVM分类器进行训练，得到SVM分类模型；

（7）利用图像采集装置、语音采集装置获取待识别果蔬的图片和语音数据，采用步骤（2）、（3）、（4）、（5）对待识别果蔬数据进行处理，得到用于分类识别的特征，利用步骤（6）训练得到的SVM分类器对特征进行分类，最终识别果蔬种类。