CN112149577A

CN112149577A - 基于神经网络图像识别的智能结算系统

Info

Publication number: CN112149577A
Application number: CN202011017170.2A
Authority: CN
Inventors: 郭伶伶; 陈菁菁; 娄颖; 李璜玮; 韦升阳
Original assignee: Sunyard System Engineering Co ltd
Current assignee: Sunyard System Engineering Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-29

Abstract

本申请公开了一种基于神经网络图像识别的智能结算系统，包括：若干结算终端设备，用于识别用户的生物识别数据和用户所选购商品的商品识别数据；服务器，用于与结算终端设备构成数据交互以使结算终端设备根据生物识别数据和结算识别数据生产结算账单数据；其中，结算终端设备的生物识别数据至少包括用户的人脸图像；商品识别数据至少包括商品图像；服务器至少具有一个经过建模的卷积神经网络以处理结算终端设备上传的人脸图像和商品图像；服务器的卷积神经网络将人脸图像和商品图像作为输入数据，将用户的身份数据以及商品ID数据作为输出数据。本申请的有益之处在于提供一种通过人工智能技术以及图像识别技术实现无人自助结算的基于神经网络图像识别的智能结算系统。

Description

基于神经网络图像识别的智能结算系统

技术领域

本申请涉及一种智能结算系统，具体而言，涉及一种基于神经网络图像识别的智能结算系统。

背景技术

人工智能作为新一轮产业变革的核心驱动力，将催生新的技术、产品、产业、业态、模式，从而引发经济结构的重大变革，实现社会生产力的整体提升。随着专用人工智能的发展，作为一个庞大的高新技术合集，“人工智能+”作为一只新经济业态已经开始萌芽，越来越多的行业开始拥抱人工智能，用“人工智能+”助力技术和产业的进一步发展。算法方面，在数学和计算机领域已经逐步成熟，但是受限于以前底层算力的限制，无法发挥其优势。在算力方面，近年来随着英伟达等知名芯片厂商不断推出性能更加强大的GPU加速器核心处理器，为整个人工智能产业插上了翅膀，让人工智能技术的商用化成为可能。随着上述底层算力问题的解决，相关智能型算法逐渐被人们所熟知和广泛应用，使深度学习研究的热潮持续高涨，各种开源深度学习框架也层出不穷，其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon。

目前随着技术的突破“人工智能+新零售”已经成为可能。目前整个传统的线下零售市场正在逐步的萎缩，每年的新开店量正在逐年减少，而以互联网技术为驱动的电商近几年也面临着增速放缓的病痛，并在业内已经被定义为传统零售。出现上述零售业微缩的原因，一是整个线下租金成本的高涨；二是人工成本逐渐增加，为商家盈利带来了巨大的压力；三是新消费群体的崛起，这一代主力消费群体已经逐渐向年轻化转变，人们更喜欢到线下购买，去体验产品，因此线下又成为未来零售竞争的主战场；四是以前的零售模式是人去找店，找商品，增加了用户的购买成本、感情成本，现在我们的方向是通过相关技术的应用以此减少人和店的距离，让商品更加贴近用户；五是传统的线下零售模式获客能力比较差，很难搜集用户消费数据并针对性的推出相关营销、经营策略；六是更多的人希望购物过程中拥有隐私感，不需要陌生人导购，只需要一个店型语音交互机器人为其提供贴心的购物导购服务。

尤其在餐饮行业，作为第三产业的重中之重，餐饮品类日趋细分。上世纪80年代，食堂承包及快餐开始在我国兴起并蓬勃发展至今，2016年调查数据显示，快餐和食堂在市场份额中的占比分别为1/5和1/3。他们凭借快速用餐的优势获得众多消费者的青睐，但是，随着我国餐饮业进入万亿时代，大众消费力增速迅猛，就餐压力日渐凸显，快餐及食堂领域百弊丛生。

首先，人工结算效率低下，就餐高峰期，快餐厅及食堂往往应接不暇，客流量激增给收银员带来不小的压力。顾客接踵而至，频繁的数字加减很容易造成计算失误，从而影响结算效率与顾客的就餐体验。另外，无论现金、刷卡还是扫码支付，均依赖于人工操作及当下网速，这就意味着结算周期可能进一步延长。

其次，高峰时段拥堵耗时，对那些忙于工作学习的人而言，就餐高峰期排队时间长是个棘手问题。宝贵的时间浪费在三餐中无意义的排队等待上，若长龙队伍出现在小门店里，场景更显混乱。

传统餐饮行业转型升级之路道阻且长，如何建立更加高效便捷的消费模式无疑是提高运营效率、重塑餐饮业态的关键所在。

在移动互联以及消费结构深度变化的背景下，通过技术渗透瞬息万变的市场才能立于不败之地。针对传统餐饮结算弊病，国内外公司过去的传统方案是基于RFID的餐盘识别技术，该项技术通过对餐具底部RFID射频芯片进行读写操作，借助于计算机及其通讯技术，实现对餐具底部RFID射频芯片的通信和管理，从而实现快速结算的功能。

但由于餐具内部需要封装RFID芯片，餐厅失去了自由选购权，其使用寿命及更换频率均将依赖于指定制造商，耗材成本大幅度上升。此外，批量识别存在误差、技术标准尚未统一、读写次数受限的尴尬特性意味着RFID技术注定无法成为解决传统餐饮结算方式的最佳选择。

另一方面，传统的依托于庞大数据的深度学习技术由于环境各异的餐厅、复杂多样的菜品、百貌丛生的餐具使得深度学习模型的训练任务异常繁重，受限于识别率，这一技术路线将消耗无法预估的时间与人力成本，无法广泛地、快速地推广到新餐饮的行业应用中。

发明内容

一种基于神经网络图像识别的智能结算系统，包括：若干结算终端设备，用于识别用户的生物识别数据和用户所选购商品的商品识别数据；服务器，用于与结算终端设备构成数据交互以使结算终端设备根据生物识别数据和结算识别数据生产结算账单数据；其中，结算终端设备的生物识别数据至少包括用户的人脸图像；商品识别数据至少包括商品图像；服务器至少具有一个经过建模的卷积神经网络以处理结算终端设备上传的人脸图像和商品图像；服务器的卷积神经网络将人脸图像和商品图像作为输入数据，将用户的身份数据以及商品ID数据作为输出数据。

进一步地，卷积神经网络包括：输入模块，用于输入图像数据的像素值；卷积模块，用于提取图像数据的数据特征；全连接模块，用于综合卷积模块的所有数据特征；输出模块，用于输出图像识别的结果。

进一步地，卷积模块包括：卷积层，用于实现卷积模块对数据特征的提取；下采样层，用于选择卷积层所提取的数据特征中的一部分。

进一步地，输出模块包括：输出层，用于输出图像数据的识别结果和置信度。

进一步地，结算终端设备包括：第一图像采集装置，用于采集用户的人脸图像；第二图像采集装置，用于采集用户选购商品的商品图像。

进一步地，基于神经网络图像识别的智能结算系统还包括：若干毫米波摄像机，用于采集用户在各个购物区域的毫米波图像。

进一步地，毫米波摄像机与服务器构成数据交互以卷积神经网络处理毫米波摄像机所采集的毫米波图像。

进一步地，基于神经网络图像识别的智能结算系统还包括：姿态摄像机，用于采集用户在各个购物区域的图像数据。

进一步地，姿态摄像装置与服务器构成数据交互以卷积神经网络处理姿态摄像机所采集的毫米波图像。

进一步地，结算终端设备包括：NFC模块，用于实现非接触的数据交换。

本申请的有益之处在于：提供一种通过人工智能技术以及图像识别技术实现无人自助结算的基于神经网络图像识别的智能结算系统。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的基于神经网络图像识别的智能结算系统的结构示意图；

图2是根据本申请一种实施例的服务器中神经网络的示意图；

图3是根据本申请一种实施例的结算终端设备的结构示意图；

图4是根据本申请一种实施例的基于神经网络图像识别的智能结算系统结构示意图框图。

图中附图标记的含义：

基于神经网络图像识别的智能结算系统100，终端结算设备200，毫米波摄像机300，姿态摄像机400，服务器500，移动终端设备600，后台管理设备700；

第一图像采集装置201，第二图像采集装置202，前显示屏203，设备壳体204。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参照图1至图4所示，基于神经网络图像识别的智能结算系统包括：若干终端结算设备、服务器、毫米波摄像机、姿态摄像机、移动终端设备和后台管理设备。

其中，结算终端设备用于识别用户的生物识别数据和用户所选购商品的商品识别数据。结算终端设备主要用于设置于新零售应用场景下的结算区域，比如无人超市出口处结算区域，再比如无人餐饮店或食堂出口处。本系统中移动终端设备可以为用户智能手机，其可以实现用户采用APP就可以获得相应的数据。后台管理设备为各个商铺或者中间层级管理数据的设备。

如图3所示，结算终端设备被构造为一个独立设备，其包括：装置壳体，该装置壳体用于容纳内部的装置和部件。在结算终端设备正面设有第一图像采集装置，其视角方向大致向前用于采集人脸图像。在结算终端设备正面还设有前显示屏用于显示用户所需要的信息，在其背面也设有后显示屏以向管理人员显示管理数据。用于采集商品图像的第二图像采集装置可以采用悬置方式，以使其向前伸出以获得足够的视域已覆盖用户选购的产品。

服务器用于与结算终端设备构成数据交互以使结算终端设备根据生物识别数据和结算识别数据生产结算账单数据。服务器的作用在于实现智能识别和数据处理的功能，这样既扩展了结算终端设备数据处理能力，更能将不同的具体应用场所的数据进行融合和共享。

作为具体方案，结算终端设备的生物识别数据至少包括用户的人脸图像。商品识别数据至少包括商品图像。服务器至少具有一个经过建模的卷积神经网络以处理结算终端设备上传的人脸图像和商品图像；服务器的卷积神经网络将人脸图像和商品图像作为输入数据，将用户的身份数据以及商品ID数据作为输出数据。

卷积神经网络通过人脸识别进行用户身份的识别以获取用户的账户信息以便进行无感付费，即用户并不需要操作，而由支付系统根据对用户身份的识别直接记账扣费。

具体而言，为了方便用户结算，采用人脸识别系统，通过该系统用户将自己的人脸特征信息与个人会员账户、电子支付账户等进行绑定便可实现无感刷脸支付。为了保证用户账户的资金安全，加入了活体检测功能，该功能主要由红外摄像头单元组成，通过检测用户脸部温度特征是否符合真实人脸来实现活体检测，同时为了更近一步提高识别准确率和安全性，该识别算法还通过检测用户脸部微表情变化(眨眼睛、脸部肌肉群活动)进一步确定是不是本人。

卷积神经网络主要用于实现对用户在佩戴眼镜、口罩等装饰品时，系统仍能准确的识别到用户的身份。

具体而言，本申请是根据人脸特征点数据结构具有唯一性的特性利用摄像头扫描人脸全图，进行脸部关键特征点的取样、预处理、特征提取，得到用户人脸特征数据，并将用户个人账户信息与个人人脸特征进行绑定，生成生物电子支付账户。用户可在任意授权手的脉支付设备上实现安全、快捷的刷脸支付。该技术作为一种非接触不可复制的识别技术，相较于传统的指纹、虹膜、声纹等外生物特征识别技术相比，在安全性上远远高于上述传统的生物支付技术，由于特殊的识别机理，理论上无法被复制。

为了使获取的人脸图像数据更加清晰，方便后台分析匹配，在硬件结构设计上我们创新的提出了一种新的结构布局设计。一是改进了发光二极管的布局结构，通过在图像传感器周围均匀设置八个led使其为整个人脸区域提供均匀的照射，同时进一步的增加了匀光层板，防止人脸局域曝光过度，同时在led内圈我们又增加了多个光强传感器，用来接收反射光线的光强变化，预估人脸位置及调整led的照射强度，进一步的优化了整个人脸识别采集图像的清晰性。在算法上我们引入了人脸图像自修正方法，我们通过阴影恢复形状技术(SFS),捕获被照射目标的图像亮度分布，以此来计算目标距离及相关修正系数。上述方法的采用有效改进了人脸识别过程中因用户刷脸角度等问题带来的匹配误差，提高了人脸匹配的效率有准确性。

卷积神经网络对产品的图像的识别以获得用户购买了哪些产品，从而实现自动生成账单数据，即无需工作人员既可以识别出用户购买了哪些产品。

采用CNN卷积神经网络学习和计算机视觉技术，以此来实现对商品以及人的特征识别。

通常跟踪算法使用的特征对目标的描述能力难以满足跟踪过程中目标多样性而复杂的变化，致使跟踪器丢失目标和识别错误。

本申请针对跟踪任务中的困难提出了一种基于深度学习的跟踪算法，首先通过卷积深度神经网络的对数万张通用目标图像进行离线预训练，得到对通用目标可以进行表示的从简单到复杂的结构性特征。使用预训练得到的具有结构性的特征，通过在线训练的方式得到可以对跟踪目标进行分类的分类器，之后在粒子滤波框架下对跟踪目标进行在线跟踪。

由于预训练的图像的种类是广泛的，使用的特征是具有结构性的，当目标发生遮挡和变化，仍然可以通过重新训练特征的参数对变化后的目标重新表示。采用基于卷积神经网络和粒子滤波框架的跟踪方法为解决目标发生的变化等问题提供了一个良好的实验框架。

本申请提出的跟踪方法以较好的实时性、准确性在多个测试视频序列中展现出了较好的跟踪能力。图像识别的一个实际应用是自动图像说明和场景描述。该技术在多人的购物场景中可以轻松的识别商品与人的关系，通过后台智能分析识别算法(人脸识别算法、检测算法、体态手势算法、情绪算法、推荐算法、外网搜索算法)，以此来判断用户情绪、拿起、放下、挑选等行为动作特征。

具体识别过程是将实时采集到的视频图像按帧连续分解成可识别图片，然后将图像进行增强分割处理(图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。)并对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。将预处理的图像输入经过训练好的CNN卷积神经神经网络，自行抽取图像特征包括颜色、纹理、形状及图像的拓扑结构，经算法分析得出最优输出值(即该图像输出结果所对应商品的最大概率，完成商品属性识别。

作为具体方案，卷积神经网络包括：输入模块、卷积模块、全连接模块、输出模块。其中，输入模块用于输入图像数据的像素值；卷积模块用于提取图像数据的数据特征；全连接模块用于综合卷积模块的所有数据特征；输出模块用于输出图像识别的结果。

其中，卷积模块包括：卷积层、下采样层。其中，卷积层，用于实现卷积模块对数据特征的提取；下采样层，用于选择卷积层所提取的数据特征中的一部分。输出模块包括：输出层，输出层用于输出图像数据的识别结果和置信度。

卷积神经网络通过卷积来模拟特征区分，并且通过卷积的权值共享及池化，来降低网络参数的数量级，最后通过传统神经网络完成分类等任务。输入层：对于输入是图像来说，输入数据是图像的像素值。卷积层：卷积神经网络的卷积层，也叫做特征提取层，包括二个部分。第一部分是真正的卷积层，主要作用是提取输入数据特征。每一个不同的卷积核提取输入数据的特征都不相同，卷积层的卷积核数量越多，就能提取越多输入数据的特征。第二部分是下采样层，主要目的是在保留有用信息的基础上减少数据处理量，加快训练网络的速度。通常情况下，卷积神经网络至少包含二层卷积层(这里把真正的卷积层和下采样层统称为卷积层)，即卷积层，下采样层，卷积层，下采样层。卷积层数越多，在前一层卷积层基础上能够提取更加抽象的特征。全连接层：可以包含多个全连接层，实际上就是多层感知机的隐含层部分。通常情况下后面层的神经节点都和前一层的每一个神经节点连接，同一层的神经元节点之间是没有连接的。每一层的神经元节点分别通过连接线上的权值进行前向传播，加权组合得到下一层神经元节点的输入。输出层：卷积神经网络输出层通常是一个分类器，输出该图片中目标的类别和置信度。

作为具体方案，毫米波摄像机用于采集用户在各个购物区域的毫米波图像。毫米波摄像机与服务器构成数据交互以卷积神经网络处理毫米波摄像机所采集的毫米波图像。姿态摄像机用于采集用户在各个购物区域的图像数据。姿态摄像装置与服务器构成数据交互以卷积神经网络处理姿态摄像机所采集的毫米波图像。

作为扩展方案，也可以将毫米波摄像机与姿态摄像机合并为一个设备。

作为其中一种可选方案，毫米波摄像机用于采集用户动作数据，从而获知用户身份，同时也能采集用户动作。这样既可以获得用户在某些特定区域的动作，这样帮助系统判断用户可能采购的商品，尤其是在用户的手与产品结合时进行图像采集。姿态摄像机可以采用一般光学摄像机也可以采用红外摄像机，其可以通过采集用户关节动作辅助用进行姿态分析。作为优选方案，可以直接采用毫米波摄像机的图像进行姿态分析。人体姿态检测算法采用Alphapose算法、OpenPose算法或者DensePose算法。

具体而言，服务器在进行姿态检测时生成在行人图片中选中人体的候选框；服务器包含：空间变换模块，用于在人体姿态关节点信息的结果没有达到预设标准时调整候选框的位置以改善人体姿态关节点信息。另外，服务器包含：姿态估计模块，用于进行姿态检测并输出人体姿态关节点信息；样本生成模块，用于根据不同人体姿态生成额外的检测候选框以训练姿态估计模块。服务器还包括：抑制器模块，用于通过新旧姿态的距离差比较它们的相似性从而消除冗余数据。

毫米波传感器能有效的消除一般光学摄像机收到光线的音响，其能够更好地还原物体形状。作为优选方案，结算终端设备的第二图像采集装置还可以包括毫米波成像单元，其能够直接拍摄商品的毫米波图像，在本申请应用于餐饮结算时，第二图像采集装置获取毫米波图像能直接还原菜品中食材的形状从而根据食材的搭配获知当前菜品信息，因为与超市结算不同，快餐菜品往往没有具体的固定形状。

作为优选方案，结算终端设备包括：NFC模块，用于实现非接触的数据交换。这样可以便于在系统中没有身份信息的用户通过非接触的方式进行支付。

另外，为了方便用户及时解决问题，结算终端设备还具有智能问答功能，其处理器能根据自身程序以及与服务器的交互实现智能问答。

具体而言，为实现人机交互，首先使用了实力语音厂家的语音识别引擎。具体交互过程分为主动交互和被动交互。其中主动交互是指在实际的购物场景中当用户入店或者拿起欲购商品时，系统通过对用户购物历史数据、门店优惠信息、商品信息等综合分析，为用户提供拟人化的导购服务；被动交互是指用户主动向系统询问当前门店商品等优惠活动等信息，同时我们集成了其他的生活服务类的信息知识库，可供用户查询。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于神经网络图像识别的智能结算系统，其特征在于：

所述基于神经网络图像识别的智能结算系统包括：

若干结算终端设备，用于识别用户的生物识别数据和用户所选购商品的商品识别数据；

服务器，用于与所述结算终端设备构成数据交互以使所述结算终端设备根据所述生物识别数据和结算识别数据生产结算账单数据；

其中，所述结算终端设备的生物识别数据至少包括用户的人脸图像；所述商品识别数据至少包括商品图像；

所述服务器至少具有一个经过建模的卷积神经网络以处理所述结算终端设备上传的所述人脸图像和商品图像；所述服务器的卷积神经网络将所述人脸图像和商品图像作为输入数据，将用户的身份数据以及商品ID数据作为输出数据。

2.根据权利要求1所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述卷积神经网络包括：

输入模块，用于输入图像数据的像素值；

卷积模块，用于提取图像数据的数据特征；

全连接模块，用于综合所述卷积模块的所有数据特征；

输出模块，用于输出图像识别的结果。

3.根据权利要求2所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述卷积模块包括：

卷积层，用于实现所述卷积模块对数据特征的提取；

下采样层，用于选择所述卷积层所提取的数据特征中的一部分。

4.根据权利要求3所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述输出模块包括：

输出层，用于输出图像数据的识别结果和置信度。

5.根据权利要求4所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述结算终端设备包括：

第一图像采集装置，用于采集用户的人脸图像；

第二图像采集装置，用于采集用户选购商品的商品图像。

6.根据权利要求5所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述基于神经网络图像识别的智能结算系统还包括：

若干毫米波摄像机，用于采集用户在各个购物区域的毫米波图像。

7.根据权利要求6所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述毫米波摄像机与所述服务器构成数据交互以所述卷积神经网络处理所述毫米波摄像机所采集的毫米波图像。

8.根据权利要求7所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述基于神经网络图像识别的智能结算系统还包括：

姿态摄像机，用于采集用户在各个购物区域的图像数据。

9.根据权利要求8所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述姿态摄像装置与所述服务器构成数据交互以所述卷积神经网络处理所述姿态摄像机所采集的毫米波图像。

10.根据权利要求9所述的基于神经网络图像识别的智能结算系统，其特征在于：

所述结算终端设备包括：

NFC模块，用于实现非接触的数据交换。