CN111246110A

CN111246110A - 图像的输出方法和装置、存储介质及电子装置

Info

Publication number: CN111246110A
Application number: CN202010081918.9A
Authority: CN
Inventors: 沈建
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2020-06-05
Anticipated expiration: 2040-02-06
Also published as: CN111246110B

Abstract

本发明提供了一种图像的输出方法和装置、存储介质及电子装置，其中，该方法包括：基于检测到的声音信息控制摄像设备转动，并控制所述摄像设备对处于转动后的视野中的对象进行拍摄以得到目标图像；在确定所述目标图像中包括多个对象的图像时，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象；输出所述目标对象的图像。通过本发明，解决了获取目标对象的图像信息时，需要人工辅助，从而会导致目标对象的图像输出效率低的问题，有效提高了目标对象的图像输出效率，保证工作的高效进行。

Description

图像的输出方法和装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种图像的输出方法和装置、存储介质及电子装置。

背景技术

随着电商行业的不断崛起，人们网购占比越来越高，足不出户就可以买到想要的产品。目前各大电商网站均会记录用户的浏览记录，然后经过后台进行数据分析，进而给客户通过短信推荐商品，或者通过与电商合作的其他软件应用(Application，简称为APP)中给客户推荐商品或降价信息。

然而实体店在给客户推荐商品或降价信息上远不及电商巨头，因此整体的营销效果不如电商。目前虽然很多实体店(超市、精品店、专卖店等)有通过推广办理会员卡的方式促进客户消费，但实体店内无法实时获取客户关注的商品，只能通过结账时客户购买的商品进行分析，很多客户有意向但未购买的商品，实体店是无法获知的。

近年来，随着深度学习技术的发展，人脸抓拍摄像机已日渐成熟，抓拍准确率达到95％以上，甚至可达到99％。一部分实体店商家在店内安装人脸(人体)抓拍或客流统计摄像机统计用户对产品的喜好及关注度，这类方法可以统计哪些产品被客户高度关注，哪些产品关注度较低，但是无法做到像电商行业，可以细致到每个用户ID对应的浏览记录及停留时间。因此目前而言，实体店商家还无法像电商平台一样通过短信或第三方app推荐商品，客户人脸信息与客户电话信息无法关联，导致实体店的营销手段受限。虽然部分厂家推出了人脸抓拍系统，将抓拍到的人脸全部呈现到收银系统，但是需要收银员手动点击选择人脸。

在相关技术中，针对实体店商家人工收银柜台均无法细致到针对个体进行产品营销，此外收银柜台人工确认人脸方案虽然相对简单，但也增加了收银员的工作量，针对每个人脸均需要手动确认。

此外，除了实体商店需要获取消费者人脸之外，其他行业，例如银行等服务场所也可能会需要获取目标对象的图像信息，例如，用户的人脸信息，以便后续处理，例如，为用户推荐对应的产品，或提供对应的讯息等。

但是，由前述举例可知，相关技术中获取目标对象的图像信息时，需要人工辅助，从而会导致目标对象的图像输出效率低的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像的输出方法和装置、存储介质及电子装置，以至少解决相关技术中获取目标对象的图像信息时，需要人工辅助，从而会导致目标对象的图像输出效率低的问题。

根据本发明的一个实施例，提供了一种图像的输出方法，包括：基于检测到的声音信息控制摄像设备转动，并控制所述摄像设备对处于转动后的视野中的对象进行拍摄以得到目标图像；在确定所述目标图像中包括多个对象的图像时，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象；输出所述目标对象的图像。

根据本发明的另一个实施例，提供了一种图像的输出装置，包括：控制模块，用于基于检测到的声音信息控制摄像设备转动，并控制所述摄像设备对处于转动后的视野中的对象进行拍摄以得到目标图像；筛选模块，用于在确定所述目标图像中包括多个对象的图像时，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象；输出模块，用于输出所述目标对象的图像。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，在检测到声音信息后，可以控制摄像设备根据检测到的声音信息进行转动，拍摄处在转动后视野中的对象，得到被拍摄对象的目标图像，当目标图像包括多个对象的图像时，根据多个对象的排列顺序从目标图像中筛选出目标对象，并将目标对象的图像输出。由于摄像设备能够根据声音信息获取目标图像，并自动输出目标图像，解决了获取目标对象的图像信息时，需要人工辅助，从而会导致目标对象的图像输出效率低的问题，有效提高了目标对象的图像输出效率，保证工作的高效进行。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种图像的输出方法的移动终端的硬件结构框图；

图2是根据本发明实施例的图像的输出方法的流程图；

图3是根据本发明实施例的在人工收银柜台的横向排队方式图；

图4是根据本发明实施例的在人工收银柜台的纵向排队方式图；

图5是根据本发明具体实施例的结合人声定位的人脸抓拍流程图；

图6是根据本发明实施例的图像的输出装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种图像的输出方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的图像的输出方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种图像的输出方法，图2是根据本发明实施例的图像的输出方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，基于检测到的声音信息控制摄像设备转动，并控制所述摄像设备对处于转动后的视野中的对象进行拍摄以得到目标图像；

步骤S204，在确定所述目标图像中包括多个对象的图像时，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象；

步骤S206，输出所述目标对象的图像。

可选地，上述步骤的执行主体可以是后台处理器，或者其他的具备类似处理能力的设备，还可以是至少集成有声音检测设备、控制设备以及图像获取设备的机器，其中，声音检测设备可以包括声音采集模块，控制设备可以包括控制模块，图像获取设备可以包括摄像头等图形采集模块，但不限于此。

例如，当上述对象为人时，检测到的声音信息实际上是人声信息，因此，可以结合人声的方向信息(对应于上述检测到的声音信息)，由摄像机系统控制模块转动云台(云台上固定有上述摄像设备)，以使摄像设备抓拍人脸(对应于上述目标图像)；由于云台的转动是依据人声的位置信息进行转动的，因此摄像设备的视野中可能会存在多张人脸信息，由于多张人脸所对应的人的站位不同，确定目标人脸的方式也不同。在此，可以设置人脸位置坐标在画面中间区域的为第一优先人脸，其他区域的为第二优先人脸、第三优先人脸等，可依据规格进行细分，其中，中间区域的人脸可能有多个(例如，人群队伍的站立方向与摄像设备的拍摄方向平行)，在此，需要再选出目标对象。

通过本发明，在检测到声音信息，可以控制摄像设备根据检测到的声音信息进行转动，拍摄处在转动后视野中的对象，得到被拍摄对象的目标图像，当目标图像包括多个对象的图像时，根据多个对象的排列顺序从目标图像中筛选出目标对象，并将目标对象的图像输出。由于摄像设备能够根据声音信息获取目标图像，并自动输出目标图像，解决了获取目标对象的图像信息时，需要人工辅助，从而会导致目标对象的图像输出效率低的问题，有效提高了目标对象的图像输出效率，保证工作的高效进行。

在一个可选的实施例中，基于检测到的声音信息控制摄像设备转动包括：利用多mic(microphone，麦克风)设备确定发出声音的对象的目标位置；控制所述摄像设备朝着所述目标位置转动，以使所述目标位置处于所述摄像设备的视野的中间区域。在本实施例中，发出声音的对象可以包括人、动物、机器等，可根据不同的应用场景确定对象的主体。例如，在人工收银柜台，客户与收银员之间交互时，会发出一定的声音，例如，应答声、询问声等，在该情况下，可以结合收银系统及人脸采集摄像机系统(对应于上述摄像设备)确定并输出客户的图像。可选地，人脸采集摄像机系统可以同时支持人脸抓拍及多mic人声定位、摄像机云台转动等功能，其中，人脸采集摄像机负责在收银过程中人脸抓拍，多mic人声定位功能负责获取客户语音方向，进而转动摄像机(PT，Pan/Tilt，左右上下转动)进行人脸抓拍。需要说明的是，多mic人声定位设备还可以是集成在网络摄像机(Internet ProtocolCamera，简称为IPC)上的，也可以是外置的人声定位设备。

在一个可选的实施例中，利用多mic设备确定发出声音的对象的目标位置包括：在利用多mic设备检测到多种声音的情况下，确定所述多种声音中响度大于预定阈值的第一声音；在确定所述第一声音的数量为多个的情况下，确定所述第一声音中包括预定音节的第二声音；将发出所述第二声音的对象的位置确定为所述目标位置。在本实施例中，同一个对象在距离mic设备的距离不同时，mic设备获取到的声音响度是不同的，其中，该对象距离mic设备越近mic设备获取到的声音的响度越大；而一般距离mic设备最近的对象应当是上述的目标对象，因此，确定出多种声音中响度大于预定阈值的第一声音后，可以依据确定的第一声音确定出目标对象，进而可以排除距离mic设备较远的对象；此外，由于不同对象的正常声音响度是不一样的，可能会存在距离mic较远的对象发出的声音比距离mic较近的设备发出的声音响度大的情况，在该情况下，由于目标对象在会发出具备特定音节的声音，在响度大于预定阈值的声音为多个时，可以进一步基于特定的音节来确定出目标对象。在本实施例中，所述预定阈值可以是提前设定的值，本实施例对预定阈值不做限制，本领域技术人员可以根据实际的应用场景合理的设定预定阈值。所述预定音节可以包括人发出的音节(根据应用的场景，设置不同的音节)，当然也可以为某种动物发出的音节，机器启动、关闭或故障时发出的音节等，具体的音节类型可以基于特定的应用场景进行设定。

例如，在人工收银柜台场景中，收银员从开始揽货扫码到收银结束，收银员会询问客户，包括是否有会员卡(若客户有会员卡，客户会报出手机号或会员卡号等，若是客户说出手机号码，该类场景即变成配合式应用，人脸采集会变得容易)，是否需要袋子等，该过程中涉及语音交互，可以通过多mic人声定位功能，转动云台，更好的抓拍客户人脸。在上述场景中，所述预定音节可以包括：有、没有、是、不是、会员卡、购物袋等音节；当然也可以包括数字0-9等。

在一个可选的实施例中，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象包括：在确定所述多个对象的排列顺序为横向排列时，执行以下操作：对所述摄像设备拍摄的多帧所述目标图像中包括的对象进行聚类分析；基于聚类分析结果确定多帧所述目标图像中出现次数最多的对象，并将所述出现次数最多的对象确定为所述目标对象；或者，通过对比预先建立的对象数据库中包括的特征与对所述摄像设备拍摄的多帧目标图像中包括的对象的特征，以确定出多帧所述目标图像中包括的各对象所分别对应的对象数据库，其中，一个对象对应一个数据库；将对应同一对象数据库最多的对象确定为所述目标对象；其中，在所述横向排列中，所述多个对象排列的队列的方向与所述摄像设备的拍摄方向成第一角度。在本实施例中，多个对象排列的队列的方向(该队列的方向可以是基于队列中各对象的位置所确定出的一条直线)与所述摄像设备的拍摄方向可以是垂直的或者接近于垂直，当然，从空间占用角度或者排队区域设置的角度考虑，两个方向之间的夹角(即，上述的第一角度此处以两个方向之间的锐角为例进行说明)也可能是其他角度，例如，65°，75°，80°等。由于对象在排列的队列中存在移动的问题，所以摄像设备拍摄的图像可能为多个，并且，每个图像中可能包括多个对象，当然，也可能仅包括一个对象。例如，在人工收银柜台的场景中，顾客横向排队，由于人脸转动，结合多mic设备的人声定位功能转动摄像机来抓拍人脸(转动抑制时间可设置)，正常情况下，摄像机抓拍出来的多帧图像中应当都具有同一人脸，或者出现的某张人脸会最多，在此，可以将多帧图像中都具有的人脸或者出现最多的人脸确定为目标对象。其中，在人工收银柜台的横向排队方式可参见附图3。

在一个可选的实施中，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象包括：在确定所述多个对象的排列顺序为纵向排列时，执行以下操作至少之一：将所述摄像设备拍摄的所述目标图像中通过至少两次图像检测(例如，人脸检测)后所确定出的平均占用像素最多和/或完整度最大的对象确定为所述目标对象；基于所述摄像设备上配置的深度相机确定所述目标图像中包括的多个对象的深度信息，基于所述多个对象的深度信息确定出距离所述摄像设备最近的对象，并将距离所述摄像设备最近的对象确定为所述目标对象；其中，在所述纵向排列中，所述多个对象排列的队列的方向与所述摄像设备的拍摄方向成第二角度。在本实施例中，多个对象排列的队列的方向与所述摄像设备的拍摄方向可以是平行的或者接近于平行，当然，从空间占用角度或者排队区域设置的角度考虑，两个方向之间的夹角(即，上述的第一角度此处以两个方向之间的锐角为例进行说明)也可能是其他角度，例如，10°，15°，25°等。由于多个对象在摄像设备视野中沿着列队的方向依次排列，所以摄像设备拍摄的图像中会存在多个对象交叠在一起，即多个对象均在摄像设备视野的中心区域的情况，但是由于前后遮挡的问题，在视野中显示出的是完整的一个对象或/和多个不完整的对象的图像。例如，在人工收银柜台场景中，顾客沿着列队的方向依次排列，结合多mic人声定位功能，摄像机会抓拍到一张或多张人脸，抓拍出来的人脸在视频画面的位置信息可能都处于中间区域。其中，在人工收银柜台的纵向排队方式可参见附图4。

在一个可选的实施中，在输出所述目标对象的图像之后，所述方法还包括：关联所述目标对象的图像与所述目标对象的标识信息。在本实施例中，所述目标对象的标识信息可以包括但不限于以下信息至少之一：目标对象的联系方式(例如，手机号、住址等)、目标对象的身份信息、目标对象的住址、目标对象在某件物品前的停留时间、目标对象的浏览记录等。

在一个可选的实施中，在关联所述目标对象的图像与所述目标对象的标识信息之后，所述方法还包括：在所述标识信息包括所述目标对象的联系方式时，通过向所述联系方式发送多媒体信息的方式向所述目标对象推送目标信息。在本实施例中，多媒体信息可以包括文字、图片、影像等，目标信息可以包括营销产品、目标对象可能喜欢的产品、资讯等。

在前述实施例中，由于使用人声定位、人脸抓拍及优先级分类方案，输出可能性最高的人脸，并推送至系统中，实现人脸与客户信息(联系方式，如手机号码等)关联，能够较容易的向客户推送产品、资讯等。

下面结合人工收银，及顾客报手机号的具体场景对本发明进行举例说明：

图5是根据本发明具体实施例的结合人声定位的人脸抓拍流程图，如图5所示，包括如下步骤：

步骤S502，收银员开始收银，系统开始工作。

步骤S504，IPC云台转到初始位置，初始位置可以设置为收银员所面对的方向。

步骤S506，多mic人声定位，负责获取客户的声音方向。其中，多mic人声定位可以结合多mic拾音及声音信号分析算法或芯片，输出人声方向信息。

步骤S508，判断多mic设备是否获取到人声方向。如果能获取到人声方向，执行步骤S510，如果不能获取到人声方向，执行步骤S506。

步骤S510，转动IPC云台，使目标位置处于IPC的视野的中间区域。

步骤S512，IPC检测人脸。其中，该步骤可以在步骤S504后执行，也可以在步骤S510后执行。

步骤S514，IPC抓拍人脸。其中，当排队方式为横向排队时，结合多mic的人声定位功能，摄像机在收银期间会抓拍出一张人脸或多张人脸。例如，依据转动摄像机来抓拍人脸(转动抑制时间可设置)，由于人脸转动，存在摄像机抓拍出来的同一人脸可能在多张不同图片中的情况，还存在摄像机同时抓拍到不同人脸的情况。当排队方式为纵向排队时，相对于横向排队，因为多个对象在摄像设备视野中沿着列队的方向依次排列，结合多mic人声定位，抓拍出来的人脸在视频画面的位置信息可能都处于中间区域。

步骤S516，人工收银柜台类型较多，主要分为横向排队付款及纵向排队付款。

当排队方式为横向排队时，收银员正面方向或摄像机视场角与队伍是垂直的，会面临摄像机抓拍到左右多张人脸的情况，因此，需要通过一些策略进行人脸筛选。若抓拍到的人脸中包括多个对象的图像，可以根据多个对象的排列顺序从多个图像中筛选出目标对象。其中，可以由摄像机进行人脸聚类分析(或比如摄像机内部建立可以建立人脸小库，人脸提取特征值比对后，建立不同的人脸库(一人一库))；将人脸数目最多的客户人脸中挑选优选分数最高的人脸筛选出来(若抓拍的次数相同的人脸有多个，则显示第一优先最高的人脸，第二优先最高的人脸，依次类推)。若只抓拍到一张人脸时，直接将该人脸筛选出来。

当排队方式为纵向排队时，收银员正面方向或摄像机视场角与队伍基本是一条直线，会面临摄像机抓拍到前后多张人脸的情况，因此，需要通过一些策略进行人脸筛选。若抓拍到的人脸中包括多个对象的图像，抓拍出的人脸可能会都被认为是第一优先人脸，导致第一优先人脸数目相同的人脸ID不止一个；此时，可以结合在画面中的人脸像素大小不同(前后排队的客户与摄像机前后距离不同)、头肩检测的完整性(前后排队会存在遮挡，若遮挡比例高(比如大于1/3)，后面的人脸或头肩检测不稳定)等手段综合分析进行筛选。为了进一步的获取更精确的前后位置关系，可以使用双目深度相机获取深度信息来做筛选。若只抓拍到一张人脸时，直接将该人脸筛选出来。

步骤S518，向收银系统推送筛选出的人脸图片。

步骤S520，收银员结束收银。其中，结束收银后，可以结合实体店内客户的浏览记录及停留时间，通过后台的大数据分析，向用户发送手机短信方式营销产品；进一步的，亦可以与第三方软件app合作做产品推广。

本实施例中，步骤S506和步骤S512是可以并行的，即在执行步骤S504后，可以同时执行步骤S506和步骤S512。

在前述实施例中，针对零售收银柜台，使用人声定位及人脸抓拍方案，输出可能性最高的人脸，并推送至收银系统，实现人脸与客户信息(手机号码)关联。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种图像的输出装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的图像的输出装置的结构框图，如图6所示，该装置包括：

控制模块62，用于基于检测到的声音信息控制摄像设备转动，并控制所述摄像设备对处于转动后的视野中的对象进行拍摄以得到目标图像；筛选模块64，用于在确定所述目标图像中包括多个对象的图像时，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象；输出模块66，用于输出所述目标对象的图像。

在一个可选的实施例中，所述控制模块62可以通过以下方式基于检测到的声音信息控制摄像设备转动：利用多mic设备确定发出声音的对象的目标位置；控制所述摄像设备朝着所述目标位置转动，以使所述目标位置处于所述摄像设备的视野的中间区域。

在一个可选的实施例中，所述控制模块62可以通过以下方式利用多mic设备确定发出声音的对象的目标位置：在利用多mic设备检测到多种声音的情况下，确定所述多种声音中响度大于预定阈值的第一声音；在确定所述第一声音的数量为多个的情况下，确定所述第一声音中包括预定音节的第二声音；将发出所述第二声音的对象的位置确定为所述目标位置。

在一个可选的实施例中，所述筛选模块64可以通过以下方式基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象：在确定所述多个对象的排列顺序为横向排列时，执行以下操作：对所述摄像设备拍摄的多帧所述目标图像中包括的对象进行聚类分析；基于聚类分析结果确定多帧所述目标图像中出现次数最多的对象，并将所述出现次数最多的对象确定为所述目标对象；或者，通过对比预先建立的对象数据库中包括的特征与对所述摄像设备拍摄的多帧目标图像中包括的对象的特征，以确定出多帧所述目标图像中包括的各对象所分别对应的对象数据库，其中，一个对象对应一个数据库；将对应同一对象数据库最多的对象确定为所述目标对象；其中，在所述横向排列中，所述多个对象排列的队列的方向与所述摄像设备的拍摄方向成第一角度。

在一个可选的实施例中，所述筛选模块64可以通过以下方式基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象：在确定所述多个对象的排列顺序为纵向排列时，执行以下操作至少之一：将所述摄像设备拍摄的所述目标图像中通过至少两次图像检测后所确定出的平均占用像素最多和/或完整度最大的对象确定为所述目标对象；基于所述摄像设备上配置的深度相机确定所述目标图像中包括的多个对象的深度信息，基于所述多个对象的深度信息确定出距离所述摄像设备最近的对象，并将距离所述摄像设备最近的对象确定为所述目标对象；其中，在所述纵向排列中，所述多个对象排列的队列的方向与所述摄像设备的拍摄方向成第二角度。

在一个可选的实施例中，所述装置还用于：在输出所述目标对象的图像之后，关联所述目标对象的图像与所述目标对象的标识信息。

在一个可选的实施例中，所述装置还用于：在关联所述目标对象的图像与所述目标对象的标识信息之后，在所述标识信息包括所述目标对象的联系方式时，通过向所述联系方式发送多媒体信息的方式向所述目标对象推送目标信息。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，基于检测到的声音信息控制摄像设备转动，并控制所述摄像设备对处于转动后的视野中的对象进行拍摄以得到目标图像；

S2，在确定所述目标图像中包括多个对象的图像时，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象；

S3，输出所述目标对象的图像。

可选地，在本实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S3，输出所述目标对象的图像。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像的输出方法，其特征在于，包括：

基于检测到的声音信息控制摄像设备转动，并控制所述摄像设备对处于转动后的视野中的对象进行拍摄以得到目标图像；

在确定所述目标图像中包括多个对象的图像时，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象；

输出所述目标对象的图像。

2.根据权利要求1所述的方法，其特征在于，基于检测到的声音信息控制摄像设备转动包括：

利用多mic设备确定发出声音的对象的目标位置；

控制所述摄像设备朝着所述目标位置转动，以使所述目标位置处于所述摄像设备的视野的中间区域。

3.根据权利要求2所述的方法，其特征在于，利用多mic设备确定发出声音的对象的目标位置包括：

在利用多mic设备检测到多种声音的情况下，确定所述多种声音中响度大于预定阈值的第一声音；

在确定所述第一声音的数量为多个的情况下，确定所述第一声音中包括预定音节的第二声音；

将发出所述第二声音的对象的位置确定为所述目标位置。

4.根据权利要求1所述的方法，其特征在于，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象包括：

在确定所述多个对象的排列顺序为横向排列时，执行以下操作：

对所述摄像设备拍摄的多帧所述目标图像中包括的对象进行聚类分析；基于聚类分析结果确定多帧所述目标图像中出现次数最多的对象，并将所述出现次数最多的对象确定为所述目标对象；

或者，

通过对比预先建立的对象数据库中包括的特征与对所述摄像设备拍摄的多帧目标图像中包括的对象的特征，以确定出多帧所述目标图像中包括的各对象所分别对应的对象数据库，其中，一个对象对应一个数据库；将对应同一对象数据库最多的对象确定为所述目标对象；

其中，在所述横向排列中，所述多个对象排列的队列的方向与所述摄像设备的拍摄方向成第一角度。

5.根据权利要求1所述的方法，其特征在于，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象包括：

在确定所述多个对象的排列顺序为纵向排列时，执行以下操作至少之一：

将所述摄像设备拍摄的所述目标图像中通过至少两次图像检测后所确定出的平均占用像素最多和/或完整度最大的对象确定为所述目标对象；

基于所述摄像设备上配置的深度相机确定所述目标图像中包括的多个对象的深度信息，基于所述多个对象的深度信息确定出距离所述摄像设备最近的对象，并将距离所述摄像设备最近的对象确定为所述目标对象；

其中，在所述纵向排列中，所述多个对象排列的队列的方向与所述摄像设备的拍摄方向成第二角度。

6.根据权利要求1所述的方法，其特征在于，在输出所述目标对象的图像之后，所述方法还包括：

关联所述目标对象的图像与所述目标对象的标识信息。

7.根据权利要求6所述的方法，其特征在于，在关联所述目标对象的图像与所述目标对象的标识信息之后，所述方法还包括：

在所述标识信息包括所述目标对象的联系方式时，通过向所述联系方式发送多媒体信息的方式向所述目标对象推送目标信息。

8.一种图像的输出装置，其特征在于，包括：

控制模块，用于基于检测到的声音信息控制摄像设备转动，并控制所述摄像设备对处于转动后的视野中的对象进行拍摄以得到目标图像；

筛选模块，用于在确定所述目标图像中包括多个对象的图像时，基于所述多个对象的排列顺序从所述目标图像中筛选出目标对象；

输出模块，用于输出所述目标对象的图像。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。