CN109271976A - 一种基于语音图像双模态果蔬农产品智能识别装置 - Google Patents

一种基于语音图像双模态果蔬农产品智能识别装置 Download PDF

Info

Publication number
CN109271976A
CN109271976A CN201811393698.2A CN201811393698A CN109271976A CN 109271976 A CN109271976 A CN 109271976A CN 201811393698 A CN201811393698 A CN 201811393698A CN 109271976 A CN109271976 A CN 109271976A
Authority
CN
China
Prior art keywords
fruits
vegetables
image
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811393698.2A
Other languages
English (en)
Inventor
陶华伟
傅洪亮
吴剑峰
张建华
王珂
姜鹏旭
雷沛之
王佳佳
王梦哲
李文娟
李满意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201811393698.2A priority Critical patent/CN109271976A/zh
Publication of CN109271976A publication Critical patent/CN109271976A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于语音图像双模态果蔬农产品智能识别装置。首先,采用图像采集装置获取果蔬图像,对果蔬图像预处理,采用Alexnet网络提取果蔬图像特征,采用RGB颜色直方图算法提取颜色特征,采用局部方向纹理模式(LDTP)提取图像方向和纹理信息;其次,采用语音数据采集装置录制2S语音,录制期间操作员说出果蔬名称,对语音进行预处理,提取语音梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)特征;再次,采用自编码网络对语音特征和图像特征进行降维、融合,采用SVM分类器对融合后特征进行分类,实现果蔬农产品识别,该发明提出了一种基于语音和图像双模态果蔬识别方法,可以用于果蔬识别秤中,进一步提升果蔬识别准确度。

Description

一种基于语音图像双模态果蔬农产品智能识别装置
技术领域
本发明涉及一种基于语音图像双模态果蔬农产品智能识别装置
背景技术
现有超市主要依靠条形码识别不同种类的果蔬农产品,销售员需要花费大量时间对产品进行分类,粘贴条形码,浪费了大量的人力。基于此,近些年基于计算机视觉的果蔬农产品识别技术受到了广泛的关注,然而,由于果蔬产品众多,售卖环境光照情况复杂,识别性能依旧不高。
语音是人类沟通、交流的一种最重要的方式,也是人机交互的一种有效手段,为进一步提升果蔬农产品的识别性能,本发明利用图像和语音2种数据,融合2种数据的特征,用于识别果蔬种类,提升识别准确率。
发明内容
超市环境复杂,对果蔬识别的精确度有较大的影响,提出一种基于语音图像双模态果蔬农产品智能识别装置。具体步骤如下:
(1)图像采集装置拍摄果蔬彩色图片,语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,并将不同种类果蔬标上不同的数字标签(label);
(2)对采集到的果蔬图像进行预处理,将图片剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,带标签227*227*3果蔬图片输入Alexnet网络中,并采用标签数据对Alexnet网络进行微调,得到用于提取特征的Alexnet网络,将Alexnet网络的输出结果作为提取到的特征;
(3)提取步骤(2)中227*227*3果蔬图片R、G、B颜色通道的直方图,并将3个直方图组合在一起构成RGB颜色直方图特征,将彩色RGB果蔬图片转为灰度图片,采用局部方向纹理模式(LocalDirectional Triple Pattern,LDTP)提取图像方向和纹理信息特征,将步骤(2)的Alexnet网络特征和RGB直方图特征、LDTP特征组合在一起,构成图像特征;
(4)对步骤(1)中语音数据进行预处理,处理方法包括:分帧、加重、端点检测,提取预处理后语音的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)特征;
(5)将步骤(2)、(3)和步骤(4)中的特征组合在一起,采用自编码网络对特征进行融合、降维;
(6)重复步骤(1)采集M组果蔬图片和语音数据,并将不同种类果蔬标上不同的数字标签,构成训练集数据,采用步骤(2)、(3)、(4)、(5)对训练集数据进行处理,得到训练集特征集合,采用该集合数据对SVM分类器进行训练,得到SVM分类模型;
(7)利用图像采集装置、语音采集装置获取待识别果蔬的图片和语音数据,采用步骤(2)、(3)、(4)、(5)对待识别果蔬数据进行处理,得到用于分类识别的特征,利用步骤(6)训练得到的SVM分类器对特征进行分类,最终识别果蔬种类。
附图说明
图1——基于语音图像双模态果蔬农产品智能识别算法流程图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
(1)设共M种果蔬,图像采集装置采用30W像素的摄像头采集不同种类的果蔬图片Ii,(i=1,L,M*T),每类采集T张图片,共M*T张图片;语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,每种果蔬录制T条语音Si,(i=1,L,M*T),共M*T条语音。将上述M*T张图片和语音构成训练集{Ii,Si},将不同果蔬记为1,2,L,M,则训练集{Ii,Si}对应的标签集为L={1,1,L,1,L,M,L,M}。
(2)将训练集图片Ii,(i=1,L,M*T)剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片。首先,选取训练集带标签果蔬图片输入Alexnet网络中,采用有标签数据对其进行微调,得到用于提取特征的Alexnet网络,并采用Alexnet网络提取相关特征fi Alex;提取处理后227*227*3图片R、G、B颜色通道的直方图,并将3个直方图组合在一起构成RGB颜色直方图特征fi RGB;将彩色RGB图片转为灰度图片,采用局部方向纹理模式(LocalDirectional Triple Pattern,LDTP)提取图像纹理和方向信息特征fi LDTP;将上述特征组合在一起,构成图像特征fi IMG=[fi Alex,fi RGB,fi LDTP]。
(3)对训练集语音数据Si,(i=1,L,M*T)进行预处理,处理方法包括:分帧、加重、端点检测;提取预处理后语音的MFCC、LPCC特征fi MFCC,fi LPCC,将MFCC、LPCC特征组合在一起构成语音特征fi SPE=[fi MFCC,fi LPCC]。
(4)将步骤(2)和步骤(3)中的特征组合在一起fi=[fi IMG,fi SPE],搭建2层无监督自编码网络,如公式(1)、(2)、(3)所示,设输入特征记为f,
输入层到隐层:h=σ(W1f+b1)(1)
隐层到隐层:
数据f的重构误差损失函数:
(1)、(2)、(3)、(4)式中,W1,W2,W3表示系数矩阵,b1,b2,b3,bSAE表示偏执量。
经过上述处理,实现对特征的融合、降维,最终得到用于识别的特征
(5)采用步骤(4)得到的训练集特征对SVM分类器进行训练,得到SVM分类模型。
(6)实际识别过程中,采用30W像素的摄像头采集果蔬图片,并在采集过程中,录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,得到待识别图像和语音。
(7)将待识别图像剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,利用步骤(2)训练的Alexnet网络提取Alexnet网络特征,提取RGB颜色直方图特征,提取LDTP纹理、方向特征,将上述特征组成一起,构成图像特征。
(8)按照步骤(3)的操作对待识别语音进行处理,提取到待识别语音的语音特征;
(9)将步骤(7)、步骤(8)提取到的图像特征、语音特征组合在一起,输入步骤(4)中的自编码网络中,进行融合、降维处理,将处理后的特征输入步骤(5)训练的SVM分类器中,最终输出识别果蔬的类型。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (1)

1.本发明公布了一种基于语音图像双模态果蔬农产品智能识别装置,其特征在于,该装置包括以下几个部分:语音数据采集装置、图像数据采集装置、识别装置,且其操作如下:
(1) 图像采集装置拍摄果蔬彩色图片,语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,并将不同种类果蔬标上不同的数字标签(label);
(2)对采集到的果蔬图像进行预处理,将图片剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,带标签227*227*3果蔬图片输入Alexnet网络中,并采用标签数据对Alexnet网络进行微调,得到用于提取特征的Alexnet网络,将Alexnet网络的输出结果作为提取到的特征;
(3)提取步骤(2)中227*227*3果蔬图片R、G、B颜色通道的直方图,并将3个直方图组合在一起构成RGB颜色直方图特征,将彩色RGB果蔬图片转为灰度图片,采用局部方向纹理模式(Local Directional Triple Pattern,LDTP)[1]提取图像方向和纹理信息特征,将步骤(2)的Alexnet网络特征和RGB直方图特征、LDTP特征组合在一起,构成图像特征;
(4)对步骤(1)中语音数据进行预处理,处理方法包括:分帧、加重、端点检测,提取预处理后语音的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)特征;
(5)将步骤(2)、(3)和步骤(4)中的特征组合在一起,采用自编码网络对特征进行融合、降维;
(6)重复步骤(1)采集M组果蔬图片和语音数据,并将不同种类果蔬标上不同的数字标签,构成训练集数据,采用步骤(2)、(3)、(4)、(5)对训练集数据进行处理,得到训练集特征集合,采用该集合数据对SVM分类器进行训练,得到SVM分类模型;
(7)利用图像采集装置、语音采集装置获取待识别果蔬的图片和语音数据,采用步骤(2)、(3)、(4)、(5)对待识别果蔬数据进行处理,得到用于分类识别的特征,利用步骤(6)训练得到的SVM分类器对特征进行分类,最终识别果蔬种类。
CN201811393698.2A 2018-11-21 2018-11-21 一种基于语音图像双模态果蔬农产品智能识别装置 Pending CN109271976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811393698.2A CN109271976A (zh) 2018-11-21 2018-11-21 一种基于语音图像双模态果蔬农产品智能识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811393698.2A CN109271976A (zh) 2018-11-21 2018-11-21 一种基于语音图像双模态果蔬农产品智能识别装置

Publications (1)

Publication Number Publication Date
CN109271976A true CN109271976A (zh) 2019-01-25

Family

ID=65189738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811393698.2A Pending CN109271976A (zh) 2018-11-21 2018-11-21 一种基于语音图像双模态果蔬农产品智能识别装置

Country Status (1)

Country Link
CN (1) CN109271976A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139561A (zh) * 2020-01-17 2021-07-20 Tcl集团股份有限公司 一种垃圾分类方法、装置、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436554A (zh) * 2011-12-21 2012-05-02 中国农业科学院农业信息研究所 便携式农产品市场信息采集器
CN104732185A (zh) * 2015-03-27 2015-06-24 中国农业科学院农业信息研究所 一种农产品市场信息采集方法及装置
CN105702255A (zh) * 2016-03-28 2016-06-22 华智水稻生物技术有限公司 农业数据采集方法、装置及移动终端
CN108460334A (zh) * 2018-01-23 2018-08-28 北京易智能科技有限公司 一种基于声纹和人脸图像特征融合的年龄预测系统及方法
CN108679922A (zh) * 2018-04-24 2018-10-19 李桂香 一种基于智能家居的冰箱控制方法及智能冰箱

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436554A (zh) * 2011-12-21 2012-05-02 中国农业科学院农业信息研究所 便携式农产品市场信息采集器
CN104732185A (zh) * 2015-03-27 2015-06-24 中国农业科学院农业信息研究所 一种农产品市场信息采集方法及装置
CN105702255A (zh) * 2016-03-28 2016-06-22 华智水稻生物技术有限公司 农业数据采集方法、装置及移动终端
CN108460334A (zh) * 2018-01-23 2018-08-28 北京易智能科技有限公司 一种基于声纹和人脸图像特征融合的年龄预测系统及方法
CN108679922A (zh) * 2018-04-24 2018-10-19 李桂香 一种基于智能家居的冰箱控制方法及智能冰箱

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139561A (zh) * 2020-01-17 2021-07-20 Tcl集团股份有限公司 一种垃圾分类方法、装置、终端设备及存储介质
CN113139561B (zh) * 2020-01-17 2024-05-03 Tcl科技集团股份有限公司 一种垃圾分类方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
Wei et al. Improved optical character recognition with deep neural network
Cao et al. Marine animal classification using combined CNN and hand-designed image features
CN111339913A (zh) 一种视频中的人物情绪识别方法及装置
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN110348357B (zh) 一种基于深度卷积神经网络的快速目标检测方法
CN110969124A (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN113076861B (zh) 一种基于二阶特征的鸟类细粒度识别方法
CN116129129B (zh) 一种人物交互检测模型及检测方法
CN107330387B (zh) 基于图像数据的行人检测方法
CN111723239A (zh) 一种基于多模态的视频标注方法
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
CN115512259A (zh) 一种基于多模态的短视频审核方法
CN112101096A (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN114359088A (zh) 一种对视频特定目标人物进行打码处理的方法
CN112836651A (zh) 基于动态融合机制的手势图像特征提取方法
CN113112498A (zh) 一种基于细粒度对抗生成网络的葡萄叶片病斑识别方法
Nashat et al. Automatic segmentation and classification of olive fruits batches based on discrete wavelet transform and visual perceptual texture features
Zhao et al. A robust color-independent text detection method from complex videos
US20210174565A1 (en) Method and electronic device for description parameter based modification of images
CN109271976A (zh) 一种基于语音图像双模态果蔬农产品智能识别装置
Alizadeh et al. Lip feature extraction and reduction for HMM-based visual speech recognition systems
EP2345978A1 (en) Detection of flash illuminated scenes in video clips and related ranking of video clips
CN111949805A (zh) 基于人工智能的字幕生成方法、装置、设备及存储介质
Aziz et al. Embedded system design for visual scene classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination