CN110458494A - 一种无人机物流送货方法及系统 - Google Patents

一种无人机物流送货方法及系统 Download PDF

Info

Publication number
CN110458494A
CN110458494A CN201910653132.7A CN201910653132A CN110458494A CN 110458494 A CN110458494 A CN 110458494A CN 201910653132 A CN201910653132 A CN 201910653132A CN 110458494 A CN110458494 A CN 110458494A
Authority
CN
China
Prior art keywords
unmanned plane
human body
data
user
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910653132.7A
Other languages
English (en)
Inventor
李伟华
杨皓然
佘佳俊
张敏
梁祖懿
雷英佳
张泽恒
谭铭濠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
University of Jinan
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201910653132.7A priority Critical patent/CN110458494A/zh
Publication of CN110458494A publication Critical patent/CN110458494A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种无人机物流送货方法及系统,该方法的步骤为:无人机将图像及声音数据传输到无人机交互式控制系统;人体姿态识别模块识别出图像中的人体位置、关节节点和人脸数据,语音识别模块识别出语音声纹数据;人脸数据与语音声纹数据分别与数据库中的数据进行对比,验证用户的身份信息;当身份信息验证为正确时,无人机权限递交模块将无人机控制权限递交至用户,否则无人机悬停一段时间后返回;当货物完成交付后,无人机避障提升到设定的高度后,接收无人机飞控系统的控制信号,无人机导航返回。本发明实现无人机与用户之间的人机交互,使得物流运输中用户在接收时,能自主选择时间地点使得交付物品更加便利并节省物流公司的人力成本。

Description

一种无人机物流送货方法及系统
技术领域
本发明涉及无人机控制技术领域,具体涉及一种无人机物流送货方法及系统。
背景技术
在现代物流派送领域中的最后派送服务中,物流“最后一公里”,即“门到门”,按时按需送货上门的环节存在诸多不足,目前“最后一公里”仍然要依靠快递员的电动三轮车或双脚才能走完,没有物流车辆通道保证物流通畅,大部分物流的货运车辆在城内受交通限制,还存在物流车辆无处停靠的难题;完全使用人力徒步运送则会导致效率极端低下,人力成本急剧上升。以通常快递为例,末端集散中心在完成快递整理后,需要派遣专门的快递员携带快件出发,依次将其运送至每个相关的物流的自提柜或直接与收件人交接。
为了解决劳动力的问题,现有的派送开始使用物流无人机,但是目前无人机的操作上还需要人工进行操作或自主飞行到特定地点降落,这样的派送服务在一定程度上还是无法脱离人为的操作,需要耗费人力来控制或只能在指定地点工作,无法实现人机互动,存在一定的局限性,所以需要一套方案来解决目前派送上最后路程的全自动化运转。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种无人机物流送货方法及系统,实现无人机与用户之间的人机交互,使得物流运输中用户在接收时,能自主选择时间地点使得交付物品更加便利并节省物流公司的人力成本。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种无人机物流送货方法,包括下述步骤:
S1:无人机在收货点上空采集图像及声音数据,并将数据传输到无人机交互式控制系统;
S2:无人机交互式控制系统通过人体姿态识别模块识别出图像中的人体位置及人体关节节点后,识别人脸特征点数据,通过语音识别模块读取用户的语音数据,识别声纹特征点数据;
S3:采集的人脸特征点与数据库中的人脸数据进行对比,采集的声纹特征点数据与数据库中的语音数据进行对比,用户识别模块验证用户的身份信息;
S4:当身份信息验证为错误时,无人机权限递交模块控制无人机悬停,超过设定时间后无人机返回;当身份信息验证为正确时,无人机权限递交模块将无人机控制权限递交至用户,通过人体姿态识别模块或语音识别模块与无人机进行数据交互;
S5:通过对比数据库中的节点运作方式判断出人体姿态所对应的控制信号,或者通过对比数据库中的语音数据判断出用户语义并转换成控制信号,并回传至无人机飞控系统;
S6:当货物完成交付,无人机避障提升到设定的高度后,接收无人机飞控系统的控制信号,无人机返回。
作为优选的技术方案,步骤S2中所述识别人脸特征点数据,具体步骤包括:
构建回归函数F,图像I作为输入,输出θ为人脸特征点的位置,构建多个回归子函数逼近回归函数F,计算公式为:
θ=F(I)=fn(fn-1(…f10,I),I),I);
θi=fii-1,I),i=1,…,n;
其中,θ0为人脸特征点的初始形状。
作为优选的技术方案,步骤S2中所述人体姿态识别模块识别出图像中的人体位置及人体关节节点,具体包括:
采用初级神经网络计算图像中的人体关节像素坐标,将图像的人体关节坐标映射到深度图坐标,计算关节热点图像,将深度图像和关节热点图像输入次级神经网络,估算人体3D关节位置,根据人体3D关节点位置,采用图像分割方法计算腋下点。
作为优选的技术方案,所述初级神经网络采用CPN网络,包括GlobalNet和RefineNet,所述GlobalNet用于定位可见关键点,所述RefineNet用于定位隐藏关键点,所述RefineNet在不同层之间传输信息。
作为优选的技术方案,所述将深度图像和关节热点图像输入次级神经网络,估算人体3D关节位置,具体步骤包括:
进行选择性搜索,搜索出候选框,在卷积神经网络中进行特征提取得到特征图,然后在特征图中选取各个候选框的区域,对各个候选框采用金字塔进行空间池化,提取出固定长度的特征向量,采用SVM算法对特征向量进行分类识别,然后计算关节点之间的距离。
作为优选的技术方案,步骤S3中所述采集的人脸特征点与数据库中的人脸数据进行对比,具体步骤包括:
构建并训练深度卷积神经网络,设置欧式距离阈值,所述欧式距离阈值用于判断采集的人脸特征点与数据库中的人脸数据是否属于同一个用户,计算公式为:
其中,xi、yi分别表示各特征点的采集值和数据库中的值。
作为优选的技术方案,步骤S3中所述采集的声纹特征点数据与数据库中的语音数据进行对比,具体步骤包括:
收集用户语音进行特征提取,对声纹模型进行训练,与数据库中预设生成的模型进行对比,并对相似度进行打分,当分值超过设定阈值时,用户的身份信息验证通过。
本发明还提供一种无人机物流送货系统,包括:无人机、无人机交互式控制系统和无人机飞控系统;
所述无人机上搭载图像采集模块、声音采集模块、避障传感器、GPS导航模块和测距传感器;
所述无人机交互式控制系统包括人体姿态识别模块、语音识别模块、用户身份识别模块和无人机权限递交模块;
所述人体姿态识别模块用于识别人体位置和关节节点数据,提取人脸数据和人体姿态数据,所述语音识别模块用于识别用户的语音声纹数据,所述用户身份识别模块用于将人脸数据、语音声纹数据与数据库进行对比,验证用户身份信息,所述无人机权限递交模块用于将无人机控制权限递交至用户端;
所述无人机飞控系统用于接收人体姿态或语音数据对应的控制信号,控制无人机飞行状态。
作为优选的技术方案,所述无人机上还设置有无人机5G通信模块,所述无人机交互式控制系统上还设置有数据处理5G通信模块。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明通过用户人脸特征及声纹特征实现收货方的身份确认以及无人机操作权限的交替,通过识别人体姿态生成对应的控制信号,实现无人机与用户间的人机交互,物流运输中用户在接收时,能自主选择收货时间、地点和方式,使得交付物品更加便利,并节省物流公司的人力成本。
附图说明
图1为本实施例无人机物流送货系统的无人机交互式控制系统内部模块连接示意图;
图2为本实施例无人机物流送货系统的无人机飞控系统的功能示意图;
图3为本实施例无人机物流送货系统的语音识别模块功能示意图;
图4为本实施例无人机物流送货系统的用户身份识别模块功能示意图;
图5为本实施例无人机物流送货系统的无人机权限递交模块功能示意图;
图6为本实施例无人机物流送货系统的人体姿态识别模块功能示意图;
图7为本实施例无人机物流送货方法的流程示意图;
图8为本实施例无人机物流送货方法的声纹识别模型训练和识别流程示意图;
图9为本实施例无人机物流送货方法的BottleNeck特征训练iVector模型的流程示意图;
图10为本实施例的人体关节节点示意图;
图11为本实施例CPN网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
本实施例提供一种无人机物流送货系统,包括无人机交互式控制系统、无人机飞控系统和无人机;
在本实施例中,无人机上搭载图像采集模块、声音采集模块、避障传感器、GPS导航模块和测距传感器,其中避障传感器属于飞行过程中的自我保护系统,而测距传感器主要用于传递货物时对距离的控制;
如图1所示,在本实施例中,无人机交互式控制系统包括人体姿态识别模块、语音识别模块、用户身份识别模块和无人机操作权限递交安全模块;
在本实施例中,人体姿态识别模块用于识别人体位置和关节节点数据,提取人脸数据和人体姿态数据,语音识别模块用于识别用户的语音声纹数据,用户身份识别模块用于将人脸数据与语音声纹数据与数据库进行对比,验证用户身份信息,无人机权限递交模块用于将无人机控制权限递交至用户端;无人机飞控系统用于接收人体姿态或语音数据对应的控制信号,控制无人机飞行状态。
在本实施例中,无人机上还设置有无人机5G通信模块,无人机交互式控制系统上还设置有数据处理5G通信模块。
如图2所示,在本实施例中,无人机飞控系统能通过识别出的指令控制无人机,通过避障传感器实现自动避障,本实施例的避障传感器可采用超声波以及激光扫描等装置,在遇到障碍物时能自动传递操作指令到飞控系统实时控制,并能在派送的初期实现无障碍地飞行至目的地,在用户进行误操作或使无人机可能发生意外时能进行具体的自我控制(如悬停在空中或提升至一定高度悬停),以提高运行的安全性。
如图3所示,在本实施例中,语音识别模块通过对使用者的语音进行识别,并生成对无人机的操作指令,从而能让用户自主控制无人机,能透过用户的语音采集并回传到无人机交互式控制系统,利用现有的语音识别平台的接口进行识别,识别出用户指令内容,通过平台语义的回传在无人机的飞控系统中若有相应的指令,则无人机播报操作并实施指令内容,中途可由用户进行补充指令的操作,满足在较近距离内的人机语音互动。
如图4所示,在本实施例中,用户身份识别模块能通过用户的脸部信息以及声音信息来确认用户的身份,具体实现方式是:通过人体姿态识别模块判断出人体头部位置,控制无人机进行一定角度的调整后,对人脸的图像和声音信息进行回传到无人机交互式控制系统,通过识别出脸部特征点以及声纹特征点,对脸部特征点以及声纹特征点与数据库中数据进行相似度检测对比后确认用户身份,
在本实施例中,识别出对脸部特征点所采用的算法是:面部特征点定位问题可以看作是学习一个回归函数F,以图像I作为输入,输出θ为特征点的位置(人脸形状):θ=F(I),即学习多个回归函数{f1,…,fn-1,fn}来逼近函数F,其中,
θ=F(I)=fn(fn-1(…f10,I),I),I);
θi=fii-1,I),i=1,…,n;
本实施例的级联,即当前函数fi的输入依赖于上一级函数fi-1的输出θi-1,而每一个fi的学习目标都是逼近特征点的真实位置θ,θ0为初始形状。本实施例的fi不是直接回归真实位置θ,而回归当前形状θi-1与真实位置θ之间的差:Δθi=θ-θi-1,本实施例所采用的基本思路是找到68个人脸上普遍存在的点(如果追求高精度可以选择更多的样本);
其中对比人脸的算法:需要提高搜索特征点的数量,使用上述的级联原理制作并训练一个深度卷积神经网络,训练让其为脸部生成128个测量值,再通过下列式子得到128个D数值(即欧氏距离),设置一个认为是同一个人欧氏距离的阀值,即超过这个阀值就认定是同一个人。
其中对比声纹的算法:对于声纹识别而言,如果从用户所说语音内容的角度出发,则可以分为内容相关和内容无关两大类技术。顾名思义,“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容,而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以,由于内容大致类似,只需要考虑声音本身的差异,难度相对较小;而后者由于不限定内容,识别系统不仅需要考虑用户声音之间的特定差异,还需要处理内容不同而引起的语音差异,难度较大。本实施例采用一种介于两者之间的技术,可以称之为“有限内容相关”,会随机搭配一些数字或符号,用户需正确念出对应的内容才可识别声纹,这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异,这种特性正好与互联网的短随机数字串(如数字验证码)相契合,可以用来校验身份,或者和其他人脸等生物特征结合起来组成多因子认证手段。
如图5所示,在本实施例中,无人机权限递交模块在通过用户身份识别模块的身份确认后,将无人机的操作权限转交用户,实现用户的自主操作。
如图6所示,在本实施例中,人体姿态识别模块基于物理特征的方法根据人体形状的固有特征,利用截面周长、平均半径、曲率等信息计算人体模型表面的特征点(即为本实施例的转化为深度图像),提取人体关节中心的位置,从而确定出人体的头部位置以及人体的姿态,进而通过人体姿态对无人机进行操作,使其能飞行至特定的位置中悬停或降落;
如图7所示,本实施例还提供一种无人机物流送货方法,包括下述步骤:
S1:无人机飞控系统结合5G通信网络控制无人机飞行,无人机通过导航模块飞行至收货点上空并悬停,收货点为用户事先选择的具体坐标和高度,无人机通过摄像头和麦克风采集所在环境的图像及声音数据并通过5G通信网络回传到无人机交互式控制系统;
S2:无人机交互式控制系统对回传的数据进行分析处理,通过人体姿态识别模块识别出人体位置,识别出人体位置后,人体姿态识别模块识别出人体的骨骼节点,识别出人体头部位置,读取人脸数据,通过语音识别模块读取用户的语音数据,识别声纹特征点数据;
在本实施例中,人体姿态识别模块识别出图像中的人体位置,具体包括:
采用初级神经网络计算彩色图像中的人体关节像素坐标,将彩色图像的人体关节坐标映射到深度图坐标,即转化为深度图像,计算关节热点图像,将深度图像和关节热点图像输入次级神经网络,估算人体关节位置,根据人体关节点位置,采用图像分割方法计算腋下点,本实施例的手部动作所表达的肢体信息占比高,系统主要分析腋下点以下的手臂位置;
在本实施例中,初级神经网络采用CPN网络,包括GlobalNet和RefineNet,GlobalNet可有效定位简单的可见关键点(比如眼睛),却无法精确定位困难的隐藏关键点(比如臀部),RefineNet则显式处理“困难”关键点,为提升信息传输的效率,保证信息完整性,RefineNet在不同层之间传输信息,随着训练的进行,神经网络会倾向于关注占比较多的“简单”点,其重要性不及“困难”点,比如遮挡等情况,因此神经网络对两者的关注取得一个平衡;
S3:采集的人脸特征点与数据库中的人脸数据进行对比,采集的声纹特征点数据与数据库中的语音数据进行对比,用户识别模块验证用户的身份信息;
在本实施例中,采集的人脸特征点与数据库中的人脸数据进行对比,具体步骤包括:
构建并训练深度卷积神经网络,设置欧式距离阈值,所述欧式距离阈值用于判断采集的人脸特征点与数据库中的人脸数据是否属于同一个用户,计算公式为:
其中,xi、yi分别表示各特征点的采集值和数据库中的值;
在本实施例中,采集的声纹特征点数据与数据库中的语音数据进行对比,具体步骤包括:
收集用户语音进行特征提取,对声纹模型进行训练,与数据库中预设生成的模型进行对比,并对相似度进行打分,当分值超过设定阈值时,用户的身份信息验证通过;
S4:当身份信息验证为错误时,无人机权限递交模块控制无人机悬停,超过设定时间后无人机返回;当身份信息验证为正确时,无人机权限递交模块将无人机控制权限递交至用户,通过人体姿态识别模块或语音识别模块与无人机进行数据交互,同时出现两种操作指令时远距离以人体姿态为主、近距离以语音控制为主;
S5:通过对比数据库中的节点运作方式判断出人体姿态所对应的控制信号,或者通过对比数据库中的语音信息判断出用户语义并转换成控制信号,并回传至无人机飞控系统;
S6:当货物完成交付,用户通过后台确认收货后,无人机避障提升到设定的高度后,通过5G通信网络接收无人机飞控系统的控制信号,利用GPS导航返回,此时无人机的控制权限递交至无人机飞控系统。
如图8所示,本实施例语音识别采用的训练和识别框架包括:
在本实施例中,采用GMM聚类算法,每个component就是一个聚类中心。即在只有样本点,不知道样本分类(含有隐含变量)的情况下,计算出模型参数(π,u和Σ)再用训练好的模型去差别样本所属的分类,方法是:
step1:随机选择K个component中的一个(被选中的概率是πkπk);
step2:把样本代入刚选好的component,判断是否属于这个类别,如果不属于则回到step1,用以判断是否为所需要的声音内容。
在本实施例中,SVM支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力),SVM具体为对需要测试的语音建立测试对比模型,为数据对比的第一层对比。
本实施例基于DNN的Bottleneck特征代替DNN/iGvector模型中的PLP声学特征计算充分统计量来实现说话人识别,Bottleneck特征是DNN作为特征提取的工具,该DNN模型中间含有一层节点数较少的隐含层,称为Bottleneck层,该层节点的激励值可以看做是输入信号的一种低维表示,即Bottleneck特征,利用基于音素状态的DNN实现更准确的帧对准的同时,借助基于说话人的DNN模型提取得到包含更多说话人信息的Bottleneck特征共同计算充分统计量从而达到更好的分类效果。
如图9所示,使用BottleNeck特征训练iVector模型的结构图,使用的DNN模型中,输入为拼接了前后多帧的PLP特征,输出为说话人标签。多帧的输入使BottleNeck特征能从上下文获得更多信息,针对说话人识别任务的有监督训练能从数据中学习到更有利于说话人识别的特征表示。模型的训练先使用DBN对模型做预训练,然后通过BP算法对模型参数进一步调优。
在本实施例中,人体姿态识别模块能首先识别出人体的位置,利用初级神经网络计算彩色图像中的人体关节像素坐标,将彩色图像的人体关节坐标映射到深度图坐标,计算关节热图,将深度图像和关节热点图像输入次级神经网络,估算人体3D关节位置。根据人体3D关节点位置,采用图像分割方法进一步计算腋下点,如图10所示,将人体关节定义为15个关节点,人体3D关节位置预测分为两级网络,在初级神经网络中预测彩色图像的人体状态,通过极大似然法公式计算每个像素的人体关节似然值,取其最大值坐标作为关节坐标。
本实施例中极大似然估计法原理就是固定样本观测值,(x1,x2,...,xn)为预测数据点,挑选参数θ使这样得到的与样本值有关,称为参数θ的极大似然估计值,其相应的统计量称为θ的极大似然估计量,其中极大似然估计简记为MLE或
在本实施例中,初级神经网络使用自顶向下的算法:主要分为两个阶段,行人检测和单人姿态估计,行人检测对后面的单人姿态估计影响很大,通常会使用性能较好的检测器(比如fasterrcnn,fpn之类的),然后把检测到的行人框作为单人姿态估计的输入,输入后作为检测人体姿态的范围。
如图11所示,CPN网络作为检测人体姿态关键点的算法,CPN网络结构构建的步骤如下所述:
本实施例CPN网络整体结构非常的直观明了,包含两个部分GlobalNet和RefineNet,顾名思义,GlobalNet是一个全局的初步的检测,相当于一个粗检测,会得到一个不错的结果;而RefineNet是一个微调网络,在GlobalNet的输出基础上做进一步的精细检测,会得到更加精确的结果。
本实施例GlobalNet相当于是一个FPN结构,假设使用ResNet50作为backbone,右边的四个实心方块就是ResN50的res2-res5(包含[3,4,6,3]个Residualblock),右边的虚线方块就是特征融合的过程,不断通过上采样和elem-sum的过程做特征融合。共有4个层次,这样就会得到4个不同的结果,都需要计算loss,不同的层次对应groundtruth的heatmap使用的sigma大小不一样,根据实验来选择,通常使用7-15之间的奇数。
本实施例RefineNet把GlobalNet提取到的4个层次特征分别经过一些bottleneck(也是使用Residualblock)和一些不同倍数的上采样,然后在特征层上进行concat进行特征融合,最后再经过一个bottleneck,输出最后的结果,最后的结果是outputsize[0]*ouputsize[1]*num_points的形式,对于COCO数据集,num_points=17,output_size=[64,48](如果输入是256*192),共有17个featuremap,每一个表示一个关键点信息。在featuremap上的heatmap中热力值最大的点就表示对应的关键点。
本实施例次级神经网络将深度图像和多通道关节热图绑定作为输入,通过卷积神经网络进一步优化2D关节检测结果,获得3D人体关节姿态。使用空间金字塔池化法(spatialpyramidpooling,SPP),设计不受输入图像大小限制的卷积神经网络,具体步骤为:
首先通过选择性搜索,对待检测的图片进行搜索出2000个候选窗口;特征提取阶段使用卷积神经网络进行特征提取,使用的是金字塔池化,这一步骤的具体操作如下:把整张待检测的图片,输入CNN中,进行一次性特征提取,得到特征图featuremaps,然后在featuremaps中找到各个候选框的区域,再对各个候选框采用金字塔空间池化,提取出固定长度的特征向量,采用SVM算法进行特征向量分类识别。
接着计算关节点之间的距离:首先利用获得的场景深度信息求出人到相机的实际距离,利用获取的深度值求出目标到Kinect传感器的实际距离d,即
d=Ktan(Hdraw+L)-O (1)
其中,draw为深度值,H=3.5×10-4rad,K=12.36cm,L=1.18rad,O=3.7cm;深度图像素坐标为(ximage,yimage,zimage)到实际坐标(xworld,yworld,zworld)的变换公式:
其中,W、H、D'为转换空间大小,设D'=-10,放大倍数F=0.0021,设定体感器的分辨率w×h为1280×720,其中,X(x1,x2,x3),Y(y1,y2,y3)为空间坐标系的2个点,结合式(1)和式(2)就可得出关节点的实际坐标,最后利用欧氏距离:
求出两关节点之间的距离,计算出所有的关节点间的距离生成关节点热图进而对比数据系统中的人体姿态热点图,从而推断出人体姿态的控制指令。
本实施例再通过对比数据库中的关节点运动方式,从而判断出人体的姿态行为所表达的指令,通过该系统的识别并回传指令,使无人机能在较远的距离里通过用户的姿态进行操作,进而实现良好的人机互动。
本实施例给出一种人体的姿态行为所要对应的表达的指令示例,起飞的无人机指令对应于人体的双手朝上,降落指令对应于人体的双手放下,向左平飞对应于人体手臂的右手与水平面间举起角度大于30小于90度,向右平飞对应人体手臂的右手举起角度大于90度,向后平飞对应于人体手臂的左手与水平面间举起角度大于30小于90度,向前平飞对应人体手臂的左手举起角度大于90度。
在本实施例中,基于5G通信网络进行数据传输,能提高图像数据传输运行过程的识别率以及识别速度,以及在出现需要远程操作的情况下能快速反应。
在本实施例中,无人机在配送员设计的地点后,通过飞控系统能使无人机无障碍地飞行至预定地点的高空后,再通过用户进行自主操作完成传递。
在本实施例中,克服运输无人机物流运输的最后配送问题,解决了需要人工操作无人机的运作的人力资源消耗的问题,实现全自动的配送物件,本实施例采用的身份识别模块能够保证收货方的身份确认,进而完成无人机操作权限的交替,通过人体姿态的操作能够使得无人机能在各种地点下由用户自主选择收货地点和方式,实现无人机与用户间的人机交互使得物流运输中用户在接收时,能自主选择时间地点使得交付物品更加便利并节省物流公司的人力成本。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种无人机物流送货方法,其特征在于,包括下述步骤:
S1:无人机在收货点上空采集图像及声音数据,并将数据传输到无人机交互式控制系统;
S2:无人机交互式控制系统通过人体姿态识别模块识别出图像中的人体位置及人体关节节点后,识别人脸特征点数据,通过语音识别模块读取用户的语音数据,识别声纹特征点数据;
S3:采集的人脸特征点与数据库中的人脸数据进行对比,采集的声纹特征点数据与数据库中的语音数据进行对比,用户识别模块验证用户的身份信息;
S4:当身份信息验证为错误时,无人机权限递交模块控制无人机悬停,超过设定时间后无人机返回;当身份信息验证为正确时,无人机权限递交模块将无人机控制权限递交至用户,通过人体姿态识别模块或语音识别模块与无人机进行数据交互;
S5:通过对比数据库中的节点运作方式判断出人体姿态所对应的控制信号,或者通过对比数据库中的语音数据判断出用户语义并转换成控制信号,并回传至无人机飞控系统;
S6:当货物完成交付,无人机避障提升到设定的高度后,接收无人机飞控系统的控制信号,无人机返回。
2.根据权利要求1所述的无人机物流送货方法,其特征在于,步骤S2中所述识别人脸特征点数据,具体步骤包括:
构建回归函数F,图像I作为输入,输出θ为人脸特征点的位置,构建多个回归子函数逼近回归函数F,计算公式为:
θ=F(I)=fn(fn-1(…f10,I),I),I);
θi=fii-1,I),i=1,…,n;
其中,θ0为人脸特征点的初始形状。
3.根据权利要求1所述的无人机物流送货方法,其特征在于,步骤S2中所述人体姿态识别模块识别出图像中的人体位置及人体关节节点,具体包括:
采用初级神经网络计算图像中的人体关节像素坐标,将图像的人体关节坐标映射到深度图坐标,计算关节热点图像,将深度图像和关节热点图像输入次级神经网络,估算人体3D关节位置,根据人体3D关节点位置,采用图像分割方法计算腋下点。
4.根据权利要求3所述的无人机物流送货方法,其特征在于,所述初级神经网络采用CPN网络,包括GlobalNet和RefineNet,所述GlobalNet用于定位可见关键点,所述RefineNet用于定位隐藏关键点,所述RefineNet在不同层之间传输信息。
5.根据权利要求3所述的无人机物流送货方法,其特征在于,所述将深度图像和关节热点图像输入次级神经网络,估算人体3D关节位置,具体步骤包括:
进行选择性搜索,搜索出候选框,在卷积神经网络中进行特征提取得到特征图,然后在特征图中选取各个候选框的区域,对各个候选框采用金字塔进行空间池化,提取出固定长度的特征向量,采用SVM算法对特征向量进行分类识别,然后计算关节点之间的距离。
6.根据权利要求1所述的无人机物流送货方法,其特征在于,步骤S3中所述采集的人脸特征点与数据库中的人脸数据进行对比,具体步骤包括:
构建并训练深度卷积神经网络,设置欧式距离阈值,所述欧式距离阈值用于判断采集的人脸特征点与数据库中的人脸数据是否属于同一个用户,计算公式为:
其中,xi、yi分别表示各特征点的采集值和数据库中的值。
7.根据权利要求1或6所述的无人机物流送货方法,其特征在于,步骤S3中所述采集的声纹特征点数据与数据库中的语音数据进行对比,具体步骤包括:
收集用户语音进行特征提取,对声纹模型进行训练,与数据库中预设生成的模型进行对比,并对相似度进行打分,当分值超过设定阈值时,用户的身份信息验证通过。
8.一种无人机物流送货系统,其特征在于,包括:无人机、无人机交互式控制系统和无人机飞控系统;
所述无人机上搭载图像采集模块、声音采集模块、避障传感器、GPS导航模块和测距传感器;
所述无人机交互式控制系统包括人体姿态识别模块、语音识别模块、用户身份识别模块和无人机权限递交模块;
所述人体姿态识别模块用于识别人体位置和关节节点数据,提取人脸数据和人体姿态数据,所述语音识别模块用于识别用户的语音声纹数据,所述用户身份识别模块用于将人脸数据、语音声纹数据与数据库进行对比,验证用户身份信息,所述无人机权限递交模块用于将无人机控制权限递交至用户端;
所述无人机飞控系统用于接收人体姿态或语音数据对应的控制信号,控制无人机飞行状态。
9.根据权利要求8所述的无人机物流送货系统,其特征在于,所述无人机上还设置有无人机5G通信模块,所述无人机交互式控制系统上还设置有数据处理5G通信模块。
CN201910653132.7A 2019-07-19 2019-07-19 一种无人机物流送货方法及系统 Pending CN110458494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910653132.7A CN110458494A (zh) 2019-07-19 2019-07-19 一种无人机物流送货方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910653132.7A CN110458494A (zh) 2019-07-19 2019-07-19 一种无人机物流送货方法及系统

Publications (1)

Publication Number Publication Date
CN110458494A true CN110458494A (zh) 2019-11-15

Family

ID=68481450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910653132.7A Pending CN110458494A (zh) 2019-07-19 2019-07-19 一种无人机物流送货方法及系统

Country Status (1)

Country Link
CN (1) CN110458494A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241180A (zh) * 2020-10-22 2021-01-19 北京航空航天大学 一种无人机移动平台降落引导的视觉处理方法
CN113066499A (zh) * 2021-03-12 2021-07-02 四川大学 一种陆空通话说话人身份识别方法及装置
CN113311870A (zh) * 2021-05-28 2021-08-27 广东工业大学 一种基于无人机的精准物流投送方法
CN113362816A (zh) * 2020-03-02 2021-09-07 Oppo广东移动通信有限公司 增强现实交互方法、装置、系统、存储介质与电子设备
CN114566007A (zh) * 2022-01-25 2022-05-31 深圳市爱晴朗科技有限公司 一种基于无人机辅助的自动售卖系统
EP4064213A1 (en) * 2021-03-25 2022-09-28 Grazper Technologies ApS Utility vehicle and corresponding apparatus, method and computer program for a utility vehicle
CN116229582A (zh) * 2023-05-06 2023-06-06 南京弘伍软件技术有限公司 一种基于人体姿态识别的物流无人机及人机物流交互系统
CN116342010A (zh) * 2023-03-29 2023-06-27 南京弘伍软件技术有限公司 一种基于人体姿态识别的人机物流系统
CN116957434A (zh) * 2023-05-31 2023-10-27 武汉鸿源鼎信科技有限公司 一种配送无人机防损控制方法及系统
CN116342010B (zh) * 2023-03-29 2024-06-11 重庆瑞迈凯商贸有限公司 一种基于人体姿态识别的人机物流系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9459620B1 (en) * 2014-09-29 2016-10-04 Amazon Technologies, Inc. Human interaction with unmanned aerial vehicles
WO2018145309A1 (zh) * 2017-02-13 2018-08-16 深圳市大疆创新科技有限公司 无人机的控制方法、无人机和遥控设备
CN109145802A (zh) * 2018-08-14 2019-01-04 清华大学 基于Kinect的多人手势人机交互方法及装置
CN109241910A (zh) * 2018-09-07 2019-01-18 高新兴科技集团股份有限公司 一种基于深度多特征融合级联回归的人脸关键点定位方法
CN109858524A (zh) * 2019-01-04 2019-06-07 北京达佳互联信息技术有限公司 手势识别方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9459620B1 (en) * 2014-09-29 2016-10-04 Amazon Technologies, Inc. Human interaction with unmanned aerial vehicles
WO2018145309A1 (zh) * 2017-02-13 2018-08-16 深圳市大疆创新科技有限公司 无人机的控制方法、无人机和遥控设备
CN109145802A (zh) * 2018-08-14 2019-01-04 清华大学 基于Kinect的多人手势人机交互方法及装置
CN109241910A (zh) * 2018-09-07 2019-01-18 高新兴科技集团股份有限公司 一种基于深度多特征融合级联回归的人脸关键点定位方法
CN109858524A (zh) * 2019-01-04 2019-06-07 北京达佳互联信息技术有限公司 手势识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘今越等: ""面向移乘搬运护理机器人的人体姿态视觉识别"", 《机器人》 *
黄孝建等: "《多媒体技术》", 28 February 2010 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362816A (zh) * 2020-03-02 2021-09-07 Oppo广东移动通信有限公司 增强现实交互方法、装置、系统、存储介质与电子设备
CN112241180B (zh) * 2020-10-22 2021-08-17 北京航空航天大学 一种无人机移动平台降落引导的视觉处理方法
CN112241180A (zh) * 2020-10-22 2021-01-19 北京航空航天大学 一种无人机移动平台降落引导的视觉处理方法
CN113066499B (zh) * 2021-03-12 2022-06-03 四川大学 一种陆空通话说话人身份识别方法及装置
CN113066499A (zh) * 2021-03-12 2021-07-02 四川大学 一种陆空通话说话人身份识别方法及装置
EP4064213A1 (en) * 2021-03-25 2022-09-28 Grazper Technologies ApS Utility vehicle and corresponding apparatus, method and computer program for a utility vehicle
CN113311870A (zh) * 2021-05-28 2021-08-27 广东工业大学 一种基于无人机的精准物流投送方法
CN113311870B (zh) * 2021-05-28 2023-09-22 广东工业大学 一种基于无人机的精准物流投送方法
CN114566007A (zh) * 2022-01-25 2022-05-31 深圳市爱晴朗科技有限公司 一种基于无人机辅助的自动售卖系统
CN114566007B (zh) * 2022-01-25 2023-03-14 深圳市爱晴朗科技有限公司 一种基于无人机辅助的自动售卖系统
CN116342010A (zh) * 2023-03-29 2023-06-27 南京弘伍软件技术有限公司 一种基于人体姿态识别的人机物流系统
CN116342010B (zh) * 2023-03-29 2024-06-11 重庆瑞迈凯商贸有限公司 一种基于人体姿态识别的人机物流系统
CN116229582A (zh) * 2023-05-06 2023-06-06 南京弘伍软件技术有限公司 一种基于人体姿态识别的物流无人机及人机物流交互系统
CN116957434A (zh) * 2023-05-31 2023-10-27 武汉鸿源鼎信科技有限公司 一种配送无人机防损控制方法及系统

Similar Documents

Publication Publication Date Title
CN110458494A (zh) 一种无人机物流送货方法及系统
CN109803207A (zh) 对周围声音中的音频信号的标识以及响应于该标识的对自主交通工具的引导
Bai et al. A cloud and vision-based navigation system used for blind people
CN110538051A (zh) 一种自动寻路的盲人智能辅助装置及其方法
US11651302B2 (en) Method and device for generating synthetic training data for an artificial-intelligence machine for assisting with landing an aircraft
CN110097109A (zh) 一种基于深度学习的道路环境障碍物检测系统及方法
CN109033938A (zh) 一种基于可区分性特征融合的人脸识别方法
CN109359541A (zh) 一种基于深度迁移学习的素描人脸识别方法
CN109559320A (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN106407333A (zh) 基于人工智能的口语查询识别方法及装置
CN106250812A (zh) 一种基于快速r‑cnn深度神经网络的车型识别方法
CN109379564A (zh) 一种燃气管道无人机巡检装置及巡检方法
CN106168808A (zh) 一种基于深度学习的旋翼无人机自动巡航方法及其系统
US20190392820A1 (en) Artificial intelligence server for setting language of robot and method for the same
CN109297481A (zh) 互动导航方法、装置、计算机设备及存储介质
CN106951735B (zh) 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN110298257A (zh) 一种基于人体多部位特征的驾驶员行为识别方法
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
CN110175654A (zh) 一种轨迹路标的更新方法及系统
CN112966555A (zh) 一种基于深度学习和部件先验的遥感影像飞机识别方法
CN109444840A (zh) 一种基于机器学习的雷达杂波抑制方法
CN113299106B (zh) 一种基于物联网的公交到站时间预测系统
Luo et al. KeepEdge: A knowledge distillation empowered edge intelligence framework for visual assisted positioning in UAV delivery
Gan et al. Traffic sign recognition based on improved YOLOv4
CN106682638A (zh) 一种定位机器人智能互动的系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115