用于智能手机识别的方法及装置
技术领域
本公开通常涉及互联网技术领域,更具体地,涉及用于智能手机识别的方法及装置。
背景技术
随着人们生活水平的不断提高,所拥有的手机的更新换代越来越频繁,由此导致在人们手中会存留非常多的旧手机等。然而,这些旧手机通常还具有使用价值,并且可以提交到旧货交易平台上进行交易,或者出售给旧货回收平台。
在当前旧手机回收行业,智能手机和功能手机的回收价格差距明显,从而在进行旧手机回收时,需要先进行手机类型识别,即,识别所回收的旧手机是智能手机还是功能手机,然后基于识别结果来给出回收价格。比如,对于功能手机,可以按照50元或100元的固定价格回收,而对于智能手机,则需要按照具体手机型号和新旧程度等来单独估价。
在现有的一种手机类型识别方案中,利用人工观察手机型号,并对照生产厂家所提供的用户手册来完成智能手机的辨别。这种识别方案导致高昂的人工成本,并且不能满足自动化流程需求。
在现有的另一手机类型识别方案中,利用机器视觉方式来进行自动识别。在该自动识别方案中,首先提取手机的特征信息,比如手机颜色、纹理等,这里所提取的特征信息是根据经验来预先设定的。然后,将所提取的手机特征信息输入传统机器学习算法(比如,支持向量机和逻辑回归等算法)来进行智能手机辨别。在这种手机类型识别方案中,由于所提取的特征信息是用户根据经验设定的,不能完全涵盖所有针对智能手机和功能手机具有区分度的特性信息,并且所提取的特征信息还可能会由于遭受比如光照的环境影响而劣化,从而导致传统机器学习算法的识别效果并不理想。
发明内容
鉴于上述问题,本公开提供了一种智能手机识别的方法及装置。利用该方法及装置,可以高效且准确地进行智能手机识别。
根据本公开的一个方面,提供了一种用于智能手机识别的方法,包括:获取待识别手机的图片信息;使用目标检测模型来对所获取的待识别手机的图片信息执行手机轮廓定位提取;以及使用深度学习模型来对经过手机轮廓定位提取后的图片信息进行识别处理,以确定所述待识别手机是否是智能手机,其中,所述目标检测模型和所述深度学习模型是利用预先收集的智能手机图片集和功能手机图片集训练出的。
可选地,在上述方面的一个示例中,所述目标检测模型可以包括下述模型中的至少一种:R-CNN模型、fast R-CNN模型、Yolo模型、SSD模型和YoloV2模型。
可选地,在上述方面的一个示例中,所述深度学习模型包括深度神经网络模型。
可选地,在上述方面的一个示例中,所述深度神经网络模型包括下述深度神经网络模型中的至少一种:ANN模型(人工神经网络(Artificial Neural Network,ANN))、CNN模型和RNN模型(Recurrent Neural Network,循环或递归神经网络)。
可选地,在上述方面的一个示例中,所述深度神经网络模型的隐藏层的层数是基于所述目标检测模型的类型来设定的。
可选地,在上述方面的一个示例中,所述深度神经网络模型包括多种具有不同层数的隐藏层的深度神经网络模型,所述方法还可以包括:从所述多种深度神经网络模型中选择所具有的隐藏层的层数与所述目标检测模型的类型匹配的深度神经网络模型。
根据本公开的另一方面,提供一种用于智能手机识别的装置,包括:图片获取单元,被配置为获取待识别手机的图片信息;定位提取单元,被配置为使用目标检测模型来对所接收的待识别手机的图片信息执行手机轮廓定位提取;以及识别处理单元,被配置为使用深度学习模型来对经过手机轮廓定位提取后的图片信息进行识别处理,以确定所述待识别手机是否是智能手机,其中,所述目标检测模型和所述深度学习模型是利用预先收集的智能手机图片集和功能手机图片集训练的。
可选地,在上述方面的一个示例中,所述目标检测模型可以包括下述模型中的至少一种:R-CNN模型、fast R-CNN模型、Yolo模型、SSD模型和YoloV2模型。
可选地,在上述方面的一个示例中,所述深度学习模型可以包括深度神经网络模型。
可选地,在上述方面的一个示例中,所述深度神经网络模型可以包括下述深度神经网络模型中的至少一种:ANN模型、CNN模型和RNN模型。
可选地,在上述方面的一个示例中,所述装置还可以包括:神经网络模型设定单元,被配置为基于所述目标检测模型的类型来设定所述深度神经网络模型的隐藏层的层数。
可选地,在上述方面的一个示例中,所述深度神经网络模型包括多种具有不同层数的隐藏层的深度神经网络模型,所述装置还可以包括:模型选择单元,被配置为从所述多种深度神经网络模型中选择所具有的隐藏层的层数与所述目标检测模型的类型匹配的深度神经网络模型。
根据本公开的另一方面,提供一种计算设备,包括:一个或多个处理器,以及与所述一个或多个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的用于智能手机识别的方法。
根据本公开的另一方面,提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于智能手机识别的方法。
根据本公开的另一方面,提供一种智能手机识别系统,包括:图片摄取装置,被配置为摄取待识别手机的图片;以及如上所述的用于智能手机识别的装置。
附图说明
通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了根据本公开的实施例的智能手机识别系统的结构的方框图;
图2示出了根据本公开的实施例的智能手机识别装置的方框图;
图3示出了根据本公开的实施例的用于智能手机识别的方法的流程图;
图4示出了根据本公开的另一实施例的智能手机识别装置的方框图;
图5示出了根据本公开的另一实施例的用于智能手机识别的方法的流程图;
图6示出了根据本公开的实施例的用于智能手机识别的计算设备的方框图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
如本文中使用的,术语“智能手机”是指具有独立操作系统的手机。用户可以在智能手机上自行安装软件,并可以通过移动通讯网络来实现无线网络接入。术语“功能手机”是指不具有独立操作系统的手机。功能手机的运算能力弱,其主要功能是打电话和发送短信。术语“深度机器视觉”是指利用比如摄像机的图片摄取装置、计算机和深度学习算法来代替人眼对目标执行识别处理。
图1示出了根据本公开的实施例的智能手机识别系统10的结构的方框图。
如图1所示,智能手机识别系统10包括图片摄取装置100和智能手机识别装置200。图片摄取装置100被配置为摄取待识别的手机的图片信息,并且将所摄取的图片信息发送给智能手机识别装置200。智能手机识别装置200被配置为对所摄取的图片信息执行智能手机识别处理。
在本公开中,图片摄取装置100可以利用本领域公知的各种图像摄取装置来实现,比如摄像机、照相机、任何具有图片拍摄功能的装置等等。图片摄像装置100可以通过有线通信或无线通信的方式,将所摄取的待识别的手机的图片信息发送给智能手机识别装置200。此外,在本公开的一个示例中,图片摄像装置100可以与智能手机识别装置200集成在一起,或者也可以作为智能手机识别装置200的一个组件包括在智能手机识别装置200中。
图2示出了根据本公开的实施例的智能手机识别装置200的方框图。
如图2所示,智能手机识别装置200可以包括图片获取单元210、定位提取单元220和识别处理单元230。此外,智能手机识别装置200还可以包括目标检测模型240和深度学习模型250。
图片获取单元210被配置为获取待识别手机的图片信息。在图片摄取装置100与智能手机识别装置200是彼此分离的装置时,图片获取单元210可以利用例如接收器、通信单元等等来实现。图片获取单元210可以被配置为被动地从图片摄取装置100获取待识别手机的图片信息,例如,图片摄取装置100摄取到待识别手机的图片信息后,主动发送给图片获取单元210。图片获取单元210也可以被配置为从图片摄取装置100主动获取待识别手机的图片信息。例如,图片获取单元210可以向图片摄取装置100发送用于获取待识别手机的图片信息的请求,图片摄取装置100在收到该请求后,响应于该请求而将所摄取的待识别手机的图片信息发送给图片获取单元210。
定位提取单元220被配置为使用目标检测模型来对所获取的待识别手机的图片信息执行手机轮廓定位提取。在本公开中,定位提取单元220可以被配置为调用或访问目标检测模型240来执行手机轮廓定位提取。例如,定位提取单元220可以被配置为将所获取的待识别手机的图片信息作为目标检测模型240的输入来执行手机轮廓定位提取。
在本公开中,手机轮廓定位提取是指先从所摄取的图片信息中定位手机轮廓,然后从所摄取的图片信息中提取出手机轮廓所包括的图片信息作为手机图片信息。
在本公开中,对所获取的待识别手机的图片信息执行手机轮廓定位提取是使用目标检测模型(也称为目标检测算法)来实现的。目标检测是计算机视觉领域的重要任务之一,其目的是识别出一张图片所包括的多个物体,并且定位出不同物体的边界,从而准确地定位出各个物体,而避免图片中的其它物体对所定位的目标物体(例如,手机)产生影响。
目标检测模型主要分为两类:两步(two stage)目标检测模型以及一步(onestage)目标检测模型。Two stage目标检测模型是首先生成一系列作为样本的候选框,然后通过卷积神经网络来对所生成的样本进行样本分类。One stage目标检测模型则不用产生候选框,直接将目标边框定位的问题转化为回归问题处理。上述两种目标检测模型在性能上存在较大的差异,Two stage目标检测模型在检测准确率和定位精度上占优,而Onestage目标检测模型在算法速度上占优。
在本公开中,目标检测模型可以包括下述模型中的至少一种:基于区域的卷积神经网络模型(Region-based Convolutional Neural Networks,R-CNN模型)、快速R-CNN模型(fast R-CNN)、Yolo模型(You Only Look Once模型)、SSD模型(Single Shot MultiBoxDetector模型)和YoloV2模型。其中,R-CNN模型和fast R-CNN模型属于two stage目标检测模型,以及Yolo模型、SSD模型和YoloV2模型属于one stage目标检测模型。
识别处理单元230被配置为使用深度学习模型来对经过手机轮廓定位提取后的图片信息进行识别处理,以确定所述待识别手机是否是智能手机。在本公开中,识别处理单元230可以被配置为调用或访问深度学习模型250来执行智能手机识别。例如,识别处理单元230可以被配置为将经过手机轮廓定位提取后的图片信息作为深度学习模型250的输入来智能手机识别。
在本公开中,目标检测模块240和深度学习模型250是利用预先收集的智能手机图片集和功能手机图片集训练的。例如,用户可以收集并准备生活场景和回收场景中的多张智能手机图片(智能手机图片集)和多张功能手机图片(功能手机图片集),随后对所收集的智能手机图片集和功能手机图片集中的图片进行类型标注和位置标注(即,给图片打标签),然后利用经过类型标注和位置标注后的智能手机图片集和功能手机图片集对目标检测模型240和深度学习模型250进行训练。
可选地,在本公开的一个示例中,智能手机识别装置200还可以包括训练单元(未示出)。所述训练单元被配置为利用预先收集的智能手机图片集和功能手机图片集训练目标检测模型240和深度学习模型250。在本公开的另一示例中,智能手机识别装置200也可以不包括训练单元。
可选地,在本公开中,深度学习模型可以包括深度神经网络模型。例如,在本公开的一个示例中,深度神经网络模型可以包括下述深度神经网络模型中的至少一种:人工神经网络(Artificial Neural Network,ANN)模型、CNN模型和RNN(Recurrent NeuralNetwork,循环神经网络)模型。RNN模型也可以称为递归神经网络模型。
在本公开中,相对于单独考虑每个像素点的ANN模型以及注重考虑时序问题的RNN模型,深度学习模型优选考虑图像局部联系的CNN模型。
此外,深度学习神经网络模型可以包括不同层数的隐藏层。在避免发生过拟合的情况下,所包含的隐藏层的层数越多,分类预测(即,识别)的准确度越高,但需要花费更长的识别时间和更多的计算资源,从而导致识别速度变慢并且占用更多的计算资源。
在本公开中,可选地,为了提高智能手机识别效率,需要对识别准确度、识别速度和计算资源占用率进行折衷考虑。相应地,在本公开中,所述深度神经网络模型所具有的隐藏层的层数可以是基于目标检测模型的类型来设定。例如,在目标检测模型使用准确率较高,但速度较慢的two-stage目标检测模型时,深度学习神经网络(例如,CNN网络)可以考虑使用较少层数的隐藏层来减少参数,由此减少训练和识别时间。而在目标检测模型使用yolo系列的速度较快的目标检测模型时,深度学习神经网络(例如,CNN网络)可以考虑使用较多层数的隐藏层来提高识别准确度。
可选地,在本公开的一个示例中,智能手机识别装置200还可以包括神经网络模型设定单元(未示出)。所述神经网络模型设定单元被配置为基于目标检测模型的类型来设定深度神经网络模型的隐藏层的层数。在本公开的另一示例中,智能手机识别装置200也可以不包括神经网络模型设定单元。
此外,虽然在图2中示出智能手机识别装置200包括目标检测模型240和深度学习模型250,但是在本公开的其它示例中,智能手机识别装置200也可以不包括目标检测模型240和深度学习模型250中的任何一个或者两者。
图3示出了根据本公开的实施例的用于智能手机识别的方法的流程图,该方法由智能手机识别装置200来执行。
如图3所示,首先,在块310,通过智能手机识别装置200中的图片获取单元210来获取待识别手机的图片信息。块310的操作可以参照上面参照图2描述的图片获取单元210的操作。
在获取到待识别手机的图片信息后,在块320,通过智能手机识别装置200中的定位提取单元220,使用目标检测模型来对所获取的待识别手机的图片信息执行手机轮廓定位提取。块320的操作可以参照上面参照图2描述的定位提取单元220的操作。
然后,在块330,通过智能手机识别装置200中的识别处理单元230,使用深度学习模型来对经过手机轮廓定位提取后的图片信息进行识别处理,以确定待识别手机是否是智能手机。块330的操作可以参照上面参照图2描述的识别处理单元230的操作。
此外,在图3中示出的用于智能手机识别的方法中,还可以包括预先处理过程。在该预先处理过程中,利用预先收集的智能手机图片集和功能手机图片集来对目标检测模型和深度学习模型进行训练。
图4示出了根据本公开的另一实施例的智能手机识别装置400的方框图。图4中示出的手机识别装置400是针对图2中示出的智能手机识别装置200的改进。
如图4所示,手机识别装置400包括图片获取单元410、定位提取单元420、模型选择单元430、识别处理单元440、目标检测模型450和至少一个深度学习模型460。
图4中示出的图片获取单元410、定位提取单元420和目标检测模型450与图2中示出的图片获取单元210、定位提取单元220和目标检测模块240完全相同,在此不再赘述。
在图4中,所示出的深度学习模型460包括至少一个深度学习模型。这里,至少一个深度学习模型中的每个深度学习模型所具有的隐藏层的层数不同。此外,至少一个深度学习模型中的每个深度学习模型可以是相同类型的深度学习模型,也可以是不同类型的深度学习模型。
相应地,模型选择单元430被配置为从至少一种深度神经网络模型中选择所具有的隐藏层的层数与所使用的目标检测模型的类型匹配的深度神经网络模型。然后,识别处理单元440使用所选择的深度学习网络模型来对经过手机轮廓定位提取后的图片信息进行识别处理,以确定待识别手机是否是智能手机。
图5示出了根据本公开的另一实施例的用于智能手机识别的方法的流程图。
如图5所示,首先,在块510,通过智能手机识别装置400中的图片获取单元410来获取待识别手机的图片信息。块510的操作可以参照上面参照图4描述的图片获取单元410的操作。
在获取到待识别手机的图片信息后,在块520,通过智能手机识别装置400中的定位提取单元420,使用目标检测模型来对所获取的待识别手机的图片信息执行手机轮廓定位提取。块520的操作可以参照上面参照图4描述的定位提取单元420的操作。
然后,在块530,通过智能手机识别装置400中的定位提取单元430,从至少一种深度神经网络模型中选择所具有的隐藏层的层数与所使用的目标检测模型的类型匹配的深度神经网络模型。
接着,在块540,通过智能手机识别装置400中的识别处理单元440,使用深度学习模型来对经过手机轮廓定位提取后的图片信息进行识别处理,以确定待识别手机是否是智能手机。块540的操作可以参照上面参照图4描述的识别处理单元440的操作。
同样,在图5中示出的用于智能手机识别的方法中,也可以包括预先处理过程。在该预先处理过程中,利用预先收集的智能手机图片集和功能手机图片集来对目标检测模型和深度学习模型进行训练。
如上参照图1到图5,对根据本公开的用于智能手机识别的方法和装置的实施例进行了描述。
利用根据本公开的用于智能手机识别的方法和装置,通过使用目标检测模型来从所拍摄的待识别手机的图片信息中定位提取出待识别手机的手机轮廓图片,然后使用深度学习模型来对所提取出的手机轮廓图片进行智能手机辨别,可以消除所拍摄的图片信息中的其它物体对待识别手机的影响,并且无需用户预先定义和提取用于智能手机识别的手机特征信息,由此消除预先定义的手机特征信息不能完全涵盖所有类型的智能手机的特性信息以及所提取的特征信息由于遭受比如光照的环境影响而劣化所带来的不利影响,从而有效地提升智能手机识别的效果。
此外,利用根据本公开的用于智能手机识别的方法和装置,通过基于目标检测模型的类型来选择所使用的深度学习神经网络模型所具有的隐藏层的层数,从而可以综合考虑智能手机识别的识别准确度和识别速度,由此提升智能手机识别的效率。
如上参照图1到图5,对根据本公开的用于智能手机识别的方法和装置的实施例进行了描述。上面的智能手机识别装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图6示出了根据本公开的实施例的用于智能手机识别的计算设备600的方框图。根据一个实施例,计算设备600可以包括至少一个处理器610,该至少一个处理器610执行在计算机可读存储介质(即,存储器620)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器620中存储计算机可执行指令,其当执行时使得至少一个处理器610:获取待识别手机的图片信息;使用目标检测模型来对所获取的待识别手机的图片信息执行手机轮廓定位提取;以及使用深度学习模型来对经过手机轮廓定位提取后的图片信息进行识别处理,以确定所述待识别手机是否是智能手机,其中,所述目标检测模型和所述深度学习模型是利用预先收集的智能手机图片集和功能手机图片集训练出的。
应该理解,在存储器620中存储的计算机可执行指令当执行时使得至少一个处理器610进行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。
在本公开中,计算设备600可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。
根据一个实施例,提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。