CN109271976A - 一种基于语音图像双模态果蔬农产品智能识别装置 - Google Patents
一种基于语音图像双模态果蔬农产品智能识别装置 Download PDFInfo
- Publication number
- CN109271976A CN109271976A CN201811393698.2A CN201811393698A CN109271976A CN 109271976 A CN109271976 A CN 109271976A CN 201811393698 A CN201811393698 A CN 201811393698A CN 109271976 A CN109271976 A CN 109271976A
- Authority
- CN
- China
- Prior art keywords
- fruits
- vegetables
- image
- feature
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000012055 fruits and vegetables Nutrition 0.000 title claims abstract description 54
- 230000002902 bimodal effect Effects 0.000 title claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000005713 exacerbation Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 5
- 230000004927 fusion Effects 0.000 abstract description 4
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于语音图像双模态果蔬农产品智能识别装置。首先,采用图像采集装置获取果蔬图像,对果蔬图像预处理,采用Alexnet网络提取果蔬图像特征,采用RGB颜色直方图算法提取颜色特征,采用局部方向纹理模式(LDTP)提取图像方向和纹理信息;其次,采用语音数据采集装置录制2S语音,录制期间操作员说出果蔬名称,对语音进行预处理,提取语音梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)特征;再次,采用自编码网络对语音特征和图像特征进行降维、融合,采用SVM分类器对融合后特征进行分类,实现果蔬农产品识别,该发明提出了一种基于语音和图像双模态果蔬识别方法,可以用于果蔬识别秤中,进一步提升果蔬识别准确度。
Description
技术领域
本发明涉及一种基于语音图像双模态果蔬农产品智能识别装置
背景技术
现有超市主要依靠条形码识别不同种类的果蔬农产品,销售员需要花费大量时间对产品进行分类,粘贴条形码,浪费了大量的人力。基于此,近些年基于计算机视觉的果蔬农产品识别技术受到了广泛的关注,然而,由于果蔬产品众多,售卖环境光照情况复杂,识别性能依旧不高。
语音是人类沟通、交流的一种最重要的方式,也是人机交互的一种有效手段,为进一步提升果蔬农产品的识别性能,本发明利用图像和语音2种数据,融合2种数据的特征,用于识别果蔬种类,提升识别准确率。
发明内容
超市环境复杂,对果蔬识别的精确度有较大的影响,提出一种基于语音图像双模态果蔬农产品智能识别装置。具体步骤如下:
(1)图像采集装置拍摄果蔬彩色图片,语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,并将不同种类果蔬标上不同的数字标签(label);
(2)对采集到的果蔬图像进行预处理,将图片剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,带标签227*227*3果蔬图片输入Alexnet网络中,并采用标签数据对Alexnet网络进行微调,得到用于提取特征的Alexnet网络,将Alexnet网络的输出结果作为提取到的特征;
(3)提取步骤(2)中227*227*3果蔬图片R、G、B颜色通道的直方图,并将3个直方图组合在一起构成RGB颜色直方图特征,将彩色RGB果蔬图片转为灰度图片,采用局部方向纹理模式(LocalDirectional Triple Pattern,LDTP)提取图像方向和纹理信息特征,将步骤(2)的Alexnet网络特征和RGB直方图特征、LDTP特征组合在一起,构成图像特征;
(4)对步骤(1)中语音数据进行预处理,处理方法包括:分帧、加重、端点检测,提取预处理后语音的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)特征;
(5)将步骤(2)、(3)和步骤(4)中的特征组合在一起,采用自编码网络对特征进行融合、降维;
(6)重复步骤(1)采集M组果蔬图片和语音数据,并将不同种类果蔬标上不同的数字标签,构成训练集数据,采用步骤(2)、(3)、(4)、(5)对训练集数据进行处理,得到训练集特征集合,采用该集合数据对SVM分类器进行训练,得到SVM分类模型;
(7)利用图像采集装置、语音采集装置获取待识别果蔬的图片和语音数据,采用步骤(2)、(3)、(4)、(5)对待识别果蔬数据进行处理,得到用于分类识别的特征,利用步骤(6)训练得到的SVM分类器对特征进行分类,最终识别果蔬种类。
附图说明
图1——基于语音图像双模态果蔬农产品智能识别算法流程图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
(1)设共M种果蔬,图像采集装置采用30W像素的摄像头采集不同种类的果蔬图片Ii,(i=1,L,M*T),每类采集T张图片,共M*T张图片;语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,每种果蔬录制T条语音Si,(i=1,L,M*T),共M*T条语音。将上述M*T张图片和语音构成训练集{Ii,Si},将不同果蔬记为1,2,L,M,则训练集{Ii,Si}对应的标签集为L={1,1,L,1,L,M,L,M}。
(2)将训练集图片Ii,(i=1,L,M*T)剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片。首先,选取训练集带标签果蔬图片输入Alexnet网络中,采用有标签数据对其进行微调,得到用于提取特征的Alexnet网络,并采用Alexnet网络提取相关特征fi Alex;提取处理后227*227*3图片R、G、B颜色通道的直方图,并将3个直方图组合在一起构成RGB颜色直方图特征fi RGB;将彩色RGB图片转为灰度图片,采用局部方向纹理模式(LocalDirectional Triple Pattern,LDTP)提取图像纹理和方向信息特征fi LDTP;将上述特征组合在一起,构成图像特征fi IMG=[fi Alex,fi RGB,fi LDTP]。
(3)对训练集语音数据Si,(i=1,L,M*T)进行预处理,处理方法包括:分帧、加重、端点检测;提取预处理后语音的MFCC、LPCC特征fi MFCC,fi LPCC,将MFCC、LPCC特征组合在一起构成语音特征fi SPE=[fi MFCC,fi LPCC]。
(4)将步骤(2)和步骤(3)中的特征组合在一起fi=[fi IMG,fi SPE],搭建2层无监督自编码网络,如公式(1)、(2)、(3)所示,设输入特征记为f,
输入层到隐层:h=σ(W1f+b1)(1)
隐层到隐层:
数据f的重构误差损失函数:
(1)、(2)、(3)、(4)式中,W1,W2,W3表示系数矩阵,b1,b2,b3,bSAE表示偏执量。
经过上述处理,实现对特征的融合、降维,最终得到用于识别的特征
(5)采用步骤(4)得到的训练集特征对SVM分类器进行训练,得到SVM分类模型。
(6)实际识别过程中,采用30W像素的摄像头采集果蔬图片,并在采集过程中,录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,得到待识别图像和语音。
(7)将待识别图像剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,利用步骤(2)训练的Alexnet网络提取Alexnet网络特征,提取RGB颜色直方图特征,提取LDTP纹理、方向特征,将上述特征组成一起,构成图像特征。
(8)按照步骤(3)的操作对待识别语音进行处理,提取到待识别语音的语音特征;
(9)将步骤(7)、步骤(8)提取到的图像特征、语音特征组合在一起,输入步骤(4)中的自编码网络中,进行融合、降维处理,将处理后的特征输入步骤(5)训练的SVM分类器中,最终输出识别果蔬的类型。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。
Claims (1)
1.本发明公布了一种基于语音图像双模态果蔬农产品智能识别装置,其特征在于,该装置包括以下几个部分:语音数据采集装置、图像数据采集装置、识别装置,且其操作如下:
(1) 图像采集装置拍摄果蔬彩色图片,语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,并将不同种类果蔬标上不同的数字标签(label);
(2)对采集到的果蔬图像进行预处理,将图片剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,带标签227*227*3果蔬图片输入Alexnet网络中,并采用标签数据对Alexnet网络进行微调,得到用于提取特征的Alexnet网络,将Alexnet网络的输出结果作为提取到的特征;
(3)提取步骤(2)中227*227*3果蔬图片R、G、B颜色通道的直方图,并将3个直方图组合在一起构成RGB颜色直方图特征,将彩色RGB果蔬图片转为灰度图片,采用局部方向纹理模式(Local Directional Triple Pattern,LDTP)[1]提取图像方向和纹理信息特征,将步骤(2)的Alexnet网络特征和RGB直方图特征、LDTP特征组合在一起,构成图像特征;
(4)对步骤(1)中语音数据进行预处理,处理方法包括:分帧、加重、端点检测,提取预处理后语音的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)特征;
(5)将步骤(2)、(3)和步骤(4)中的特征组合在一起,采用自编码网络对特征进行融合、降维;
(6)重复步骤(1)采集M组果蔬图片和语音数据,并将不同种类果蔬标上不同的数字标签,构成训练集数据,采用步骤(2)、(3)、(4)、(5)对训练集数据进行处理,得到训练集特征集合,采用该集合数据对SVM分类器进行训练,得到SVM分类模型;
(7)利用图像采集装置、语音采集装置获取待识别果蔬的图片和语音数据,采用步骤(2)、(3)、(4)、(5)对待识别果蔬数据进行处理,得到用于分类识别的特征,利用步骤(6)训练得到的SVM分类器对特征进行分类,最终识别果蔬种类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811393698.2A CN109271976A (zh) | 2018-11-21 | 2018-11-21 | 一种基于语音图像双模态果蔬农产品智能识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811393698.2A CN109271976A (zh) | 2018-11-21 | 2018-11-21 | 一种基于语音图像双模态果蔬农产品智能识别装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109271976A true CN109271976A (zh) | 2019-01-25 |
Family
ID=65189738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811393698.2A Pending CN109271976A (zh) | 2018-11-21 | 2018-11-21 | 一种基于语音图像双模态果蔬农产品智能识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271976A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139561A (zh) * | 2020-01-17 | 2021-07-20 | Tcl集团股份有限公司 | 一种垃圾分类方法、装置、终端设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436554A (zh) * | 2011-12-21 | 2012-05-02 | 中国农业科学院农业信息研究所 | 便携式农产品市场信息采集器 |
CN104732185A (zh) * | 2015-03-27 | 2015-06-24 | 中国农业科学院农业信息研究所 | 一种农产品市场信息采集方法及装置 |
CN105702255A (zh) * | 2016-03-28 | 2016-06-22 | 华智水稻生物技术有限公司 | 农业数据采集方法、装置及移动终端 |
CN108460334A (zh) * | 2018-01-23 | 2018-08-28 | 北京易智能科技有限公司 | 一种基于声纹和人脸图像特征融合的年龄预测系统及方法 |
CN108679922A (zh) * | 2018-04-24 | 2018-10-19 | 李桂香 | 一种基于智能家居的冰箱控制方法及智能冰箱 |
-
2018
- 2018-11-21 CN CN201811393698.2A patent/CN109271976A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436554A (zh) * | 2011-12-21 | 2012-05-02 | 中国农业科学院农业信息研究所 | 便携式农产品市场信息采集器 |
CN104732185A (zh) * | 2015-03-27 | 2015-06-24 | 中国农业科学院农业信息研究所 | 一种农产品市场信息采集方法及装置 |
CN105702255A (zh) * | 2016-03-28 | 2016-06-22 | 华智水稻生物技术有限公司 | 农业数据采集方法、装置及移动终端 |
CN108460334A (zh) * | 2018-01-23 | 2018-08-28 | 北京易智能科技有限公司 | 一种基于声纹和人脸图像特征融合的年龄预测系统及方法 |
CN108679922A (zh) * | 2018-04-24 | 2018-10-19 | 李桂香 | 一种基于智能家居的冰箱控制方法及智能冰箱 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139561A (zh) * | 2020-01-17 | 2021-07-20 | Tcl集团股份有限公司 | 一种垃圾分类方法、装置、终端设备及存储介质 |
CN113139561B (zh) * | 2020-01-17 | 2024-05-03 | Tcl科技集团股份有限公司 | 一种垃圾分类方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
Wei et al. | Improved optical character recognition with deep neural network | |
CN109344701B (zh) | 一种基于Kinect的动态手势识别方法 | |
CN111339913A (zh) | 一种视频中的人物情绪识别方法及装置 | |
Cao et al. | Marine animal classification using combined CNN and hand-designed image features | |
CN109255284B (zh) | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 | |
Liu et al. | Identifying immature and mature pomelo fruits in trees by elliptical model fitting in the Cr–Cb color space | |
CN103854016A (zh) | 基于方向性共同发生特征的人体行为分类识别方法及系统 | |
CN105956570B (zh) | 基于唇部特征和深度学习的笑脸识别方法 | |
CN115512259A (zh) | 一种基于多模态的短视频审核方法 | |
CN111723239A (zh) | 一种基于多模态的视频标注方法 | |
CN111949805B (zh) | 基于人工智能的字幕生成方法、装置、设备及存储介质 | |
CN104504161B (zh) | 一种基于机器人视觉平台的图像检索方法 | |
CN116129129A (zh) | 一种人物交互检测模型及检测方法 | |
CN114359088A (zh) | 一种对视频特定目标人物进行打码处理的方法 | |
CN112836651A (zh) | 基于动态融合机制的手势图像特征提取方法 | |
Nashat et al. | Automatic segmentation and classification of olive fruits batches based on discrete wavelet transform and visual perceptual texture features | |
Zhao et al. | A robust color-independent text detection method from complex videos | |
US12051138B2 (en) | Method and electronic device for description parameter based modification of images | |
CN114241309A (zh) | 一种基于ShuffleNetV2-Unet的水稻纹枯病识别方法和系统 | |
CN109271976A (zh) | 一种基于语音图像双模态果蔬农产品智能识别装置 | |
CN104573701A (zh) | 一种玉米雄穗性状的自动检测方法 | |
EP2345978B1 (en) | Detection of flash illuminated scenes in video clips and related ranking of video clips | |
CN118097544A (zh) | 一种荔枝果实生长情况监测方法 | |
Alizadeh et al. | Lip feature extraction and reduction for HMM-based visual speech recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |