CN110963209A - 一种基于深度强化学习的垃圾分拣装置与方法 - Google Patents

一种基于深度强化学习的垃圾分拣装置与方法 Download PDF

Info

Publication number
CN110963209A
CN110963209A CN201911383566.6A CN201911383566A CN110963209A CN 110963209 A CN110963209 A CN 110963209A CN 201911383566 A CN201911383566 A CN 201911383566A CN 110963209 A CN110963209 A CN 110963209A
Authority
CN
China
Prior art keywords
action
garbage
value
reinforcement learning
mechanical arm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911383566.6A
Other languages
English (en)
Inventor
胡青阳
叶晶晶
高思斌
王瑞琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETHIK Group Ltd
Original Assignee
CETHIK Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETHIK Group Ltd filed Critical CETHIK Group Ltd
Priority to CN201911383566.6A priority Critical patent/CN110963209A/zh
Publication of CN110963209A publication Critical patent/CN110963209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F1/00Refuse receptacles; Accessories therefor
    • B65F1/14Other constructional features; Accessories
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F1/00Refuse receptacles; Accessories therefor
    • B65F1/0033Refuse receptacles; Accessories therefor specially adapted for segregated refuse collecting, e.g. receptacles with several compartments; Combination of receptacles
    • B65F1/0053Combination of several receptacles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K17/00Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
    • G06K17/0022Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device
    • G06K17/0029Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device the arrangement being specially adapted for wireless interrogation of grouped or bundled articles tagged with wireless record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F1/00Refuse receptacles; Accessories therefor
    • B65F1/0033Refuse receptacles; Accessories therefor specially adapted for segregated refuse collecting, e.g. receptacles with several compartments; Combination of receptacles
    • B65F2001/008Means for automatically selecting the receptacle in which refuse should be placed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F2210/00Equipment of refuse receptacles
    • B65F2210/138Identification means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F2210/00Equipment of refuse receptacles
    • B65F2210/176Sorting means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F2210/00Equipment of refuse receptacles
    • B65F2210/178Steps
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W30/00Technologies for solid waste management
    • Y02W30/10Waste collection, transportation, transfer or storage, e.g. segregated refuse collecting, electric or hybrid propulsion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于深度强化学习的垃圾分拣装置和方法,装置包括工作台、设置在工作台上的机械臂、AI计算单元和摄像头,工作台设有用于放置待分拣垃圾的待分拣区域;摄像头定时获取图像数据,并将图像数据发送至所述AI计算单元,图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;AI计算单元根据摄像头获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;机械臂根据AI计算单元输出的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。本发明采用采用深度强化学习模型得到机械臂的最优行动,不依赖于垃圾的定位识别,分类速度快,且分类准确率高。

Description

一种基于深度强化学习的垃圾分拣装置与方法
技术领域
本申请属于垃圾分拣领域,具体涉及一种基于深度强化学习的垃圾分拣装置与方法。
背景技术
随着城市化进程加快,城市居民生活水平的提高,城市生活垃圾的产生量也在急剧增加。目前,国内许多城市的垃圾清运量已大大超过了处理设施的处理能力,未经处理的垃圾如若被简易堆放或填埋,则会占用土地,污染空气、土壤及地下水体。而垃圾分类作为一种对传统垃圾收集处置方式的改革,是对垃圾进行有效处置的一种科学方法。如得到有效执行,能够实现减少占地,减少污染,垃圾回收再利用等成效。
鉴于上述情况,国内许多城市已经在推行垃圾分类制度。然而,在实际操作过程中,依靠居民自主地对垃圾分类存在诸多问题,包括对垃圾分类知识的不足导致垃圾分类不正确,配套设施不到位,相关的监督管理模式操作困难等等。这些问题影响了垃圾分类政策的推广与实施成效,也引发了一些社会舆论对垃圾分类政策的探讨。更多地宣传垃圾分类知识,建设配套设施等举措能够一定程度上缓解上述问题,但同时也需要投入较多的额外成本。
另一方面,随着人工智能技术高速发展,各种AI算法已在多个领域实现了较强的智能水平。其中,以Alpha Go围棋的深度学习+蒙特卡洛树搜索、DeepQ-Learning为代表的深度强化学习技术在智能博弈与决策方面取得了显著的突破。强化学习的基本思想是,智能体依据某种行动策略作出行动与环境交互,环境返回这一行动所产生的奖励,智能体能够根据这一奖励优化自己的行动策略,从而将累积奖励的期望最大化,最终实现智能体的行动目标。
但是,由于垃圾分类面对的垃圾样式繁多,现有技术中的在垃圾智能分类方面还是具有很大空缺,对垃圾分类的准确性一直不尽人意,故如何利用人工智能技术在垃圾分类方面灵活应用成为现如今的研究热点。
发明内容
本申请的目的在于提供一种基于深度强化学习的垃圾分拣装置与方法,采用采用深度强化学习模型得到机械臂的最优行动,不依赖于垃圾的定位识别,分类速度快,且分类准确率高。
为实现上述目的,本申请所采取的技术方案为:
一种基于深度强化学习的垃圾分拣装置,所述的基于深度强化学习的垃圾分拣装置包括工作台,以及设置在所述工作台上的机械臂、AI计算单元和摄像头,其中:
所述工作台上设有用于放置待分拣垃圾的待分拣区域;
所述摄像头用于定时获取图像数据,并将所述图像数据发送至所述AI计算单元,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;
所述AI计算单元用于根据所述摄像头获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;
所述机械臂用于根据所述AI计算单元输出的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。
作为优选,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体;
所述深度强化学习模型的状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态;
所述深度强化学习模型的动作空间为机械臂的控制指令的集合;
所述深度强化学习模型的奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励;
所述深度强化学习模型的策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射。
作为优选,所述深度强化学习模型中的值函数的构建过程,包括以下步骤:
令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数
Figure BDA0002342899490000021
即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:
Figure BDA0002342899490000022
其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子。
作为优选,所述值函数的网络参数为θi时的损失函数公式定义为:
Figure BDA0002342899490000031
其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Lii)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。
作为优选,所述深度强化学习模型的训练过程包括:
1)初始化经验回收区D,设置经验回收区D的容量为N;
2)初始化Q值估计网络,随机生成权重θ,初始化Q值现实网络,所述Q值现实网络即为所述值函数,取权值θ′=θ;
3)初始化episode=1;
4)初始化初始状态为s1
5)初始化t=1;
6)以∈概率选择一个随机的动作作为st,或者取动作st=maxQ(s,a|θ);
7)执行动作at,获得奖励rt和新的状态st+1
8)将(st,at,rt,st+1)存入经验回收区D中;
9)从经验回收区D中随机抽取一组(st,at,rt,st+1),计算损失函数以训练Q值估计网络;
10)更新Q值现实网络,取权值θ′=θ;
11)若t≤T,则重新执行步骤6),若1>T,则执行步骤12);
12)若episode≤M,则重新执行步骤4),若episode>M,则结束。
作为优选,所述基于深度强化学习的垃圾分拣装置首先采用软件仿真环境训练,并在软件仿真环境训练后采用无人监督的真实环境训练;
在所述无人监督的真实环境训练,对用于训练的垃圾样本贴上RFID标签,根据RFID标签判断对应垃圾样本是否被正确分类,将判断结果作为返回的奖励。
本申请还提供一种基于深度强化学习的垃圾分拣方法,所述的基于深度强化学习的垃圾分拣方法,包括以下步骤:
定时获取图像数据,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;
根据所获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;
所述机械臂用于根据接收的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。
作为优选,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体,状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态,动作空间为机械臂的控制指令的集合,奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励,策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射;
所述深度强化学习模型中的值函数的构建过程,包括以下步骤:
令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数
Figure BDA0002342899490000043
即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:
Figure BDA0002342899490000041
其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子;
所述值函数的网络参数为θi时的损失函数公式定义为:
Figure BDA0002342899490000042
其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Lii)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。
作为优选,所述深度强化学习模型的训练过程包括:
1)初始化经验回收区D,设置经验回收区D的容量为N;
2)初始化Q值估计网络,随机生成权重θ,初始化Q值现实网络,所述Q值现实网络即为所述值函数,取权值θ′=θ;
3)初始化episode=1;
4)初始化初始状态为s1
5)初始化t=1;
6)以∈概率选择一个随机的动作作为st,或者取动作st=maxQ(s,a|θ);
7)执行动作at,获得奖励rt和新的状态st+1
8)将(st,at,rt,st+1)存入经验回收区D中;
9)从经验回收区D中随机抽取一组(st,at,rt,st+1),计算损失函数以训练Q值估计网络;
10)更新Q值现实网络,取权值θ′=θ;
11)若t≤T,则重新执行步骤6),若1>T,则执行步骤12);
12)若episode≤M,则重新执行步骤4),若episode>M,则结束。
作为优选,所述深度强化学习模型首先采用软件仿真环境训练,并在软件仿真环境训练后采用无人监督的真实环境训练;
在所述无人监督的真实环境训练,对用于训练的垃圾样本贴上RFID标签,根据RFID标签判断对应垃圾样本是否被正确分类,将判断结果作为返回的奖励。
本申请提供的基于深度强化学习的垃圾分拣装置与方法,采用采用深度强化学习模型得到机械臂的最优行动,将待分拣区域中待分拣垃圾的情况以及机械臂的状态直接映射到机械臂的控制指令,不依赖于垃圾的定位识别,分类速度快,且分类准确率高。
附图说明
图1为本申请的基于深度强化学习的垃圾分拣装置的结构示意图;
图2为本申请的基于深度强化学习的垃圾分拣装置的使用流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
如图1所示,其中一个实施例中,提供一种基于深度强化学习的垃圾分拣装置,本实施例的基于深度强化学习的垃圾分拣装置包括工作台,以及设置在所述工作台上的机械臂、AI计算单元和摄像头。
具体的,工作台上设有用于放置待分拣垃圾的待分拣区域。需要说明的是,待分拣区域可以是工作台本身,或者工作台本身内陷或凸起形成的区域,也可以是带有盛放功能的放置在工作台上的容器。
摄像头用于定时获取图像数据,并将所述图像数据发送至所述AI计算单元,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态。为了降低成本,在一实施例中,摄像头可采用普通高清摄像头。
AI计算单元用于根据摄像头获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂。AI计算单元承载基于图像输入实时运算并作出决策的功能,在计算能力满足功能需求的前提下,GPU、FPGA或其他专用芯片均可适用。
机械臂用于根据所述AI计算单元输出的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。需要说明的是,机械臂投放的动作针对对应类别的投放区域执行,即机械臂抓取的垃圾将投放至对应类别的投放区域中,该投放区域可以是面向不同垃圾类别的垃圾桶,或者围绕隔离形成的不同空间区域。
为了便于机械臂的抓取,优选设置待分拣区域中的待分拣垃圾为平铺,并且形成待分拣区域的容器或者区域设置为一种固定的纯色,以便于AI计算单元将其作为背景进行训练与决策。
本实施例的垃圾分拣装置主要面向居民区终端(如小区楼下)垃圾分拣场景,因而机械臂选用小型轻量级设备,机械臂的夹具使用机械手,从而能够拾取各种形状的生活垃圾,并且机械臂承重满足拾取生活垃圾所需的重量。
强化学习(Reinforcement Learning)是一种典型的机器学习框架,其中智能体(Agent)学习在环境中执行动作以最大的奖励。强化学习中两个主要组件是代表要解决的问题的环境以及代表学习算法的智能体。智能体承载智能算法,根据环境状态作出动作选择,
在一实施例中,设置深度强化学习模型的结构如下:
所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体,并且智能体承载的智能算法为SSD Inception算法。
所述深度强化学习模型的状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态。
所述深度强化学习模型的动作空间为机械臂的控制指令的集合。
所述深度强化学习模型的奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励。
所述深度强化学习模型的策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射。
Q-learning的核心是学习动作值函数,即Q函数,其定义过程为:
令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数
Figure BDA0002342899490000071
即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:
Figure BDA0002342899490000072
其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子。
因为在垃圾分拣场景中,状态及转移关系极其复杂,Q函数无法用一张收敛的Q表列出,因而需要用函数进行近似,并用机器学习方法学习该函数参数。深度强化学习方法用深度神经网络近似Q函数,该网络称作Q-网络,令其权重向量为θ,训练Q-网络的方法是在每个时间片i修正对应的θi,使得Bellman等式的均方误差最小化。Bellman等式与时间片i的损失函数Lii),即值函数的网络参数为θi时的损失函数Lii)公式定义为:
Figure BDA0002342899490000073
Figure BDA0002342899490000081
其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Lii)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。
在将深度强化学习模型植入AI计算单元前,首先需要对深度强化学习模型进行训练,使其达到所要求的精度,训练过程即对应优化上述损失函数的流程,在一实施例中,深度强化学习模型的训练过程包括:
1)初始化经验回收区D,设置经验回收区D的容量为N;
2)初始化Q值估计网络,随机生成权重θ,初始化Q值现实网络(即值函数),取权值θ′=θ;
3)初始化episode=1;
4)初始化初始状态为s1
5)初始化t=1;
6)以∈概率选择一个随机的动作作为st,或者取动作st=maxQ(s,a|θ);
7)执行动作at,获得奖励rt和新的状态st+1
8)将(st,at,rt,st+1)存入经验回收区D中;
9)从经验回收区D中随机抽取一组(st,at,rt,st+1),计算损失函数以训练Q值估计网络;
10)更新Q值现实网络,取权值θ′=θ;
11)若t≤T,则重新执行步骤6),若1>T,则执行步骤12);
12)若episode≤M,则重新执行步骤4),若episode>M,则结束。
训练过程需要模型给出的机械臂动作a能够影响环境,并从环境获得奖励r和新的状态st+1。在一实施例中,基于深度强化学习的垃圾分拣装置首先采用软件仿真环境训练,并在软件仿真环境训练后采用无人监督的真实环境训练。
软件仿真环境训练可以使机械臂动作快速收敛,从而加速训练,真实环境训练使模型能够被迁移到实物设备。并且在装置投入使用后,所述深度强化学习模型依然可以在有人监督的情况下进行训练以提升分类精度。
软件仿真环境下训练时,系统能够根据模型给出指令控制仿真机械臂的动作,移动并拾取垃圾,由于系统已知所有垃圾及垃圾桶的实时位置,从而能够判断垃圾是否被放入正确的垃圾桶内。当一个垃圾被放入正确的垃圾桶时,仿真环境返回正奖励值r1,若垃圾被投入错误垃圾桶,则返回负奖励r2,其余情况返回奖励0。r1,r2的取值可根据实际经验与算法训练阶段进行调整,例如训练刚开始时,希望机械臂能够尽快学习抓取垃圾并投入垃圾桶的动作,可令r1=1,r2=-1;当学习到一定阶段,希望装置能够提高分类精度时,可加大垃圾投入错误垃圾桶的惩罚,如设置r1=1,r2=-10。
在无人监督的真实环境下训练时,首先需要搭建一套真实设备,同时准备若干每一种类别的垃圾作为样本。机械臂控制的形式与仿真环境类似,由真实机械臂执行算法指令与环境进行交互。不同之处在于,在无人监督的真实环境情况下,垃圾是否被放入正确垃圾桶的信息无法直接获取。对此,可采用无线电射频识别(RFID)技术,对每一个垃圾样本贴上RFID标签,根据RFID标签判断对应垃圾样本是否被正确分类,将判断结果作为返回的奖励。这一信息与模型训练模块建立通信,就能够像仿真环境中一样为模型返回奖励,奖励设置方法与仿真环境相同。
此外,由于强化学习算法与交互学习的特性,即使在本实施例的垃圾分拣装置投入实际使用后,依然可以实现在人为监督的条件下进行学习与进化,以提升分类精度。在装置进行垃圾分拣的过程中,人类监督者可以对装置的行为给出奖励,奖励机制与其他训练方式相同。奖励数值通过AI计算单元的通信接口传递给模型,从而让模型能够进一步学习以优化模型参数,提高操作正确率。
如图2所示,本实施例的垃圾分拣装置规模较小,组装方便,成本可控,便于搬运、使用以及推广,因而适用于小区级的垃圾分类场景。同样的垃圾分类任务,如果通过人工完成,需要在丢弃垃圾前将不同类别的垃圾分别放入不同垃圾袋中,再丢入小区内的分类垃圾桶内。如果执行这一步的居民对垃圾分类知识不足,将部分垃圾错误分类,则需要在垃圾桶处有专人进行二次分拣,效率低下且耗费额外人力成本。
本实施例的垃圾分拣装置可代替人工垃圾分类,居民无需自行对垃圾分类,只需将未分类垃圾平铺于本装置台面的待分拣区域。此时,AI计算单元通过摄像头采集的图像数据自动判定启动算法运行,装置由待机状态进入分拣状态。在每一个执行时间片,AI计算单元都依据当前摄像头输入,计算能将预期收益最大化的机械臂控制动作,从而控制机械臂的行动。在一个执行时间片完成后,台面上垃圾与机械臂的状态发生了改变,算法进入下一个时间片,同样地,在新的时间片,算法根据状态变化后的摄像头输入计算控制动作。如此反复迭代,直到所有垃圾全部被放入对应垃圾桶内,装置再次进入待机状态,等待下一个分拣任务。
当垃圾分拣装置正常运作时,整个过程完全由装置自主完成,不需要人为干预。如果出现异常情况,如垃圾中出现机械臂无法抓取的物体,则需要人工处理对应异常,并将装置重置于待机状态。
在另一实施例中,还提供一种基于深度强化学习的垃圾分拣方法,所述的基于深度强化学习的垃圾分拣方法,包括以下步骤:
定时获取图像数据,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;
根据所获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;
所述机械臂用于根据接收的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。
具体地,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体,状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态,动作空间为机械臂的控制指令的集合,奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励,策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射。
所述深度强化学习模型中的值函数的构建过程,包括以下步骤:
令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数
Figure BDA0002342899490000102
即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:
Figure BDA0002342899490000101
其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子。
所述值函数的网络参数为θi时的损失函数公式定义为:
Figure BDA0002342899490000111
其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Lii)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。
具体地,所述深度强化学习模型的训练过程包括:
1)初始化经验回收区D,设置经验回收区D的容量为N;
2)初始化Q值估计网络,随机生成权重θ,初始化Q值现实网络,Q值现实网络即为值函数,取权值θ′=θ;
3)初始化episode=1;
4)初始化初始状态为s1
5)初始化t=1;
6)以∈概率选择一个随机的动作作为st,或者取动作st=maxQ(s,a|θ);
7)执行动作at,获得奖励rt和新的状态st+1
8)将(st,at,rt,st+1)存入经验回收区D中;
9)从经验回收区D中随机抽取一组(st,at,rt,st+1),计算损失函数以训练Q值估计网络;
10)更新Q值现实网络,取权值θ′=θ;
11)若t≤T,则重新执行步骤6),若1>T,则执行步骤12);
12)若episode≤M,则重新执行步骤4),若episode>M,则结束。
具体地,所述深度强化学习模型首先采用软件仿真环境训练,并在软件仿真环境训练后采用无人监督的真实环境训练;
在所述无人监督的真实环境训练,对用于训练的垃圾样本贴上RFID标签,根据RFID标签判断对应垃圾样本是否被正确分类,将判断结果作为返回的奖励。
关于基于深度强化学习的垃圾分拣方法的进一步限定可参见上述对于基于深度强化学习的垃圾分拣装置的限定,在此不再进行赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于深度强化学习的垃圾分拣装置,其特征在于,所述的基于深度强化学习的垃圾分拣装置包括工作台,以及设置在所述工作台上的机械臂、AI计算单元和摄像头,其中:
所述工作台上设有用于放置待分拣垃圾的待分拣区域;
所述摄像头用于定时获取图像数据,并将所述图像数据发送至所述AI计算单元,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;
所述AI计算单元用于根据所述摄像头获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;
所述机械臂用于根据所述AI计算单元输出的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。
2.如权利要求1所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体;
所述深度强化学习模型的状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态;
所述深度强化学习模型的动作空间为机械臂的控制指令的集合;
所述深度强化学习模型的奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励;
所述深度强化学习模型的策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射。
3.如权利要求2所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型中的值函数的构建过程,包括以下步骤:
令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数R:
Figure FDA0002342899480000011
即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:
Figure FDA0002342899480000012
其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子。
4.如权利要求3所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述值函数的网络参数为θi时的损失函数公式定义为:
Figure FDA0002342899480000021
Lii)=Es,a,r,s′[(y-Q(s,a;θi))2]+Es,a,r[Vs′[y]]
Figure FDA0002342899480000022
其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Lii)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。
5.如权利要求3所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型的训练过程包括:
1)初始化经验回收区D,设置经验回收区D的容量为N;
2)初始化Q值估计网络,随机生成权重θ,初始化Q值现实网络,所述Q值现实网络即为所述值函数,取权值θ′=θ;
3)初始化episode=1;
4)初始化初始状态为s1
5)初始化t=1;
6)以∈概率选择一个随机的动作作为st,或者取动作st=maxQ(s,a|θ);
7)执行动作at,获得奖励rt和新的状态st+1
8)将(st,at,rt,st+1)存入经验回收区D中;
9)从经验回收区D中随机抽取一组(st,at,rt,st+1),计算损失函数以训练Q值估计网络;
10)更新Q值现实网络,取权值θ′=θ;
11)若t≤T,则重新执行步骤6),若1>T,则执行步骤12);
12)若episode≤M,则重新执行步骤4),若episode>M,则结束。
6.如权利要求2所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述基于深度强化学习的垃圾分拣装置首先采用软件仿真环境训练,并在软件仿真环境训练后采用无人监督的真实环境训练;
在所述无人监督的真实环境训练,对用于训练的垃圾样本贴上RFID标签,根据RFID标签判断对应垃圾样本是否被正确分类,将判断结果作为返回的奖励。
7.一种基于深度强化学习的垃圾分拣方法,其特征在于,所述的基于深度强化学习的垃圾分拣方法,包括以下步骤:
定时获取图像数据,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;
根据所获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;
所述机械臂用于根据接收的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。
8.如权利要求7所述的基于深度强化学习的垃圾分拣方法,其特征在于,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体,状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态,动作空间为机械臂的控制指令的集合,奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励,策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射;
所述深度强化学习模型中的值函数的构建过程,包括以下步骤:
令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数R:
Figure FDA0002342899480000031
即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:
Figure FDA0002342899480000032
其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子;
所述值函数的网络参数为θi时的损失函数公式定义为:
Figure FDA0002342899480000033
Lii)=Es,a,r,s′[(y-Q(s,a;θi))2]+Es,a,r[Vs′[y]]
Figure FDA0002342899480000034
其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Lii)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。
9.如权利要求8所述的基于深度强化学习的垃圾分拣方法,其特征在于,所述深度强化学习模型的训练过程包括:
1)初始化经验回收区D,设置经验回收区D的容量为N;
2)初始化Q值估计网络,随机生成权重θ,初始化Q值现实网络,所述Q值现实网络即为所述值函数,取权值θ′=θ;
3)初始化episode=1;
4)初始化初始状态为s1
5)初始化t=1;
6)以∈概率选择一个随机的动作作为st,或者取动作st=maxQ(s,a|θ);
7)执行动作at,获得奖励rt和新的状态st+1
8)将(st,at,rt,st+1)存入经验回收区D中;
9)从经验回收区D中随机抽取一组(st,at,rt,st+1),计算损失函数以训练Q值估计网络;
10)更新Q值现实网络,取权值θ′=θ;
11)若t≤T,则重新执行步骤6),若1>T,则执行步骤12);
12)若episode≤M,则重新执行步骤4),若episode>M,则结束。
10.如权利要求8所述的基于深度强化学习的垃圾分拣方法,其特征在于,所述深度强化学习模型首先采用软件仿真环境训练,并在软件仿真环境训练后采用无人监督的真实环境训练;
在所述无人监督的真实环境训练,对用于训练的垃圾样本贴上RFID标签,根据RFID标签判断对应垃圾样本是否被正确分类,将判断结果作为返回的奖励。
CN201911383566.6A 2019-12-27 2019-12-27 一种基于深度强化学习的垃圾分拣装置与方法 Pending CN110963209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911383566.6A CN110963209A (zh) 2019-12-27 2019-12-27 一种基于深度强化学习的垃圾分拣装置与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911383566.6A CN110963209A (zh) 2019-12-27 2019-12-27 一种基于深度强化学习的垃圾分拣装置与方法

Publications (1)

Publication Number Publication Date
CN110963209A true CN110963209A (zh) 2020-04-07

Family

ID=70037028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911383566.6A Pending CN110963209A (zh) 2019-12-27 2019-12-27 一种基于深度强化学习的垃圾分拣装置与方法

Country Status (1)

Country Link
CN (1) CN110963209A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111469131A (zh) * 2020-05-10 2020-07-31 上海大学 一种装配机械臂的无人艇水面垃圾清理控制系统及方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111591616A (zh) * 2020-05-18 2020-08-28 上海睿斯科环保技术有限公司 一种基于互联网的分类回收监管系统
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN112037605A (zh) * 2020-10-20 2020-12-04 广州市萌酷信息科技有限责任公司 一种基于大数据解析的信息技术咨询终端
CN112784958A (zh) * 2020-12-31 2021-05-11 中电海康集团有限公司 一种基于持续学习方法的家庭服务型机器人
RU2755876C1 (ru) * 2020-11-17 2021-09-22 Федеральное государственное бюджетное учреждение науки Институт теплофизики им. С.С. Кутателадзе Сибирского отделения Российской академии наук Способ оптимизации роботизированной сортировки тко путём динамического планирования перемещений робота-сортировщика
CN113501226A (zh) * 2021-06-30 2021-10-15 淮阴工学院 一种智能识别分类垃圾装置
CN113780839A (zh) * 2021-09-15 2021-12-10 湖南视比特机器人有限公司 基于深度强化学习的演化式分拣作业调度方法及系统
CN114089656A (zh) * 2021-10-27 2022-02-25 广州大学 基于机器视觉和强化学习的海洋垃圾回收规划方法及系统
CN114435795A (zh) * 2022-02-25 2022-05-06 湘南学院 一种垃圾分类系统
CN116184892A (zh) * 2023-01-19 2023-05-30 盐城工学院 一种机器人取物的ai识别控制方法及系统
CN117208432A (zh) * 2023-11-09 2023-12-12 上海电子信息职业技术学院 Ai驱动的垃圾分类回收装置及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006096561A (ja) * 2005-10-25 2006-04-13 Mitachi Package Kk ごみ収集車
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109516032A (zh) * 2018-12-25 2019-03-26 吉林大学 一种组装式智能分类垃圾系统及其控制方法
CN110210635A (zh) * 2019-06-05 2019-09-06 周皓冉 一种能识别废弃物的智能分类回收系统
CN110497419A (zh) * 2019-07-15 2019-11-26 广州大学 建筑废弃物分拣机器人
WO2019241680A1 (en) * 2018-06-15 2019-12-19 Google Llc Deep reinforcement learning for robotic manipulation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006096561A (ja) * 2005-10-25 2006-04-13 Mitachi Package Kk ごみ収集車
WO2019241680A1 (en) * 2018-06-15 2019-12-19 Google Llc Deep reinforcement learning for robotic manipulation
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109516032A (zh) * 2018-12-25 2019-03-26 吉林大学 一种组装式智能分类垃圾系统及其控制方法
CN110210635A (zh) * 2019-06-05 2019-09-06 周皓冉 一种能识别废弃物的智能分类回收系统
CN110497419A (zh) * 2019-07-15 2019-11-26 广州大学 建筑废弃物分拣机器人

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
彭力: "《无线射频识别(RFID)技术基础》", 31 August 2016 *
王曌,胡立生: "基于深度Q学习的工业机械臂路径规划方法", 《化工自动化及仪表》 *
胡德文等编著: "《神经网络自适应控制》", 31 January 2006, 国防科技大学出版社 *
连志刚著: "《制造业信息化管控设计与优化》", 30 December 2016, 上海科学普及出版社 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111618847B (zh) * 2020-04-22 2022-06-21 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111469131A (zh) * 2020-05-10 2020-07-31 上海大学 一种装配机械臂的无人艇水面垃圾清理控制系统及方法
CN111591616A (zh) * 2020-05-18 2020-08-28 上海睿斯科环保技术有限公司 一种基于互联网的分类回收监管系统
CN111591616B (zh) * 2020-05-18 2020-12-11 上海睿斯科环保技术有限公司 一种基于互联网的分类回收监管系统
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111515961B (zh) * 2020-06-02 2022-06-21 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN112037605A (zh) * 2020-10-20 2020-12-04 广州市萌酷信息科技有限责任公司 一种基于大数据解析的信息技术咨询终端
RU2755876C1 (ru) * 2020-11-17 2021-09-22 Федеральное государственное бюджетное учреждение науки Институт теплофизики им. С.С. Кутателадзе Сибирского отделения Российской академии наук Способ оптимизации роботизированной сортировки тко путём динамического планирования перемещений робота-сортировщика
CN112784958A (zh) * 2020-12-31 2021-05-11 中电海康集团有限公司 一种基于持续学习方法的家庭服务型机器人
CN112784958B (zh) * 2020-12-31 2023-05-23 中电海康集团有限公司 一种基于持续学习方法的家庭服务型机器人
CN113501226A (zh) * 2021-06-30 2021-10-15 淮阴工学院 一种智能识别分类垃圾装置
CN113780839A (zh) * 2021-09-15 2021-12-10 湖南视比特机器人有限公司 基于深度强化学习的演化式分拣作业调度方法及系统
CN113780839B (zh) * 2021-09-15 2023-08-22 湖南视比特机器人有限公司 基于深度强化学习的演化式分拣作业调度方法及系统
CN114089656A (zh) * 2021-10-27 2022-02-25 广州大学 基于机器视觉和强化学习的海洋垃圾回收规划方法及系统
CN114089656B (zh) * 2021-10-27 2023-08-08 广州大学 基于机器视觉和强化学习的海洋垃圾回收规划方法及系统
CN114435795A (zh) * 2022-02-25 2022-05-06 湘南学院 一种垃圾分类系统
CN116184892A (zh) * 2023-01-19 2023-05-30 盐城工学院 一种机器人取物的ai识别控制方法及系统
CN116184892B (zh) * 2023-01-19 2024-02-06 盐城工学院 一种机器人取物的ai识别控制方法及系统
CN117208432A (zh) * 2023-11-09 2023-12-12 上海电子信息职业技术学院 Ai驱动的垃圾分类回收装置及方法
CN117208432B (zh) * 2023-11-09 2024-02-23 上海电子信息职业技术学院 Ai驱动的垃圾分类回收装置及方法

Similar Documents

Publication Publication Date Title
CN110963209A (zh) 一种基于深度强化学习的垃圾分拣装置与方法
CN107194612B (zh) 一种基于深度强化学习的列车运行调度方法及系统
CN106966298B (zh) 基于机器视觉的装配式建筑智能吊装方法与系统
CN109753751A (zh) 一种基于机器学习的mec随机任务迁移方法
Huang et al. Extract intelligible and concise fuzzy rules from neural networks
CN108600379A (zh) 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN108492568A (zh) 一种基于时空特性分析的短时交通流预测方法
CN111974704A (zh) 基于计算机视觉的垃圾分类检测系统及方法
CN111301886B (zh) 基于rbf神经网络的垃圾分类回收系统及控制方法
Gyawali et al. Comparative analysis of multiple deep CNN models for waste classification
CN108415254B (zh) 基于深度q网络的废品回收机器人控制方法
CN112560576B (zh) 一种ai识图的垃圾分类与智能回收方法
CN113076992A (zh) 一种生活垃圾检测方法及装置
CN112149573A (zh) 一种基于深度学习的垃圾分类与拾取机器人
CN107644255A (zh) 一种人工智能设备的数据处理方法、装置及系统
CN110216671A (zh) 一种基于计算机仿真的机械抓手训练方法及系统
CN110516625A (zh) 一种垃圾识别分类的方法、系统、终端及存储介质
CN111198550A (zh) 基于案例推理的云端智能生产优化调度在线决策方法及系统
Waris et al. Optimizing AI Pipelines: A Game‐Theoretic Cultural Algorithms Approach
CN112591333A (zh) 基于人工智能的自动垃圾分类装置及方法
CN210161172U (zh) 一种基于深度学习的瓶罐类垃圾识别分类机器人
CN115147488A (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
Yu et al. Garbage detection algorithm based on deep learning
CN109313635A (zh) 人工智能的行为控制数据库的建立方法及其设备、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200407

RJ01 Rejection of invention patent application after publication