CN114697611B

CN114697611B - 来访对讲控制方法、对讲控制装置、系统、电子设备及存储介质

Info

Publication number: CN114697611B
Application number: CN202011629375.6A
Authority: CN
Inventors: 钟浩华
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-07-14
Anticipated expiration: 2040-12-31
Also published as: CN114697611A; WO2022143300A1

Abstract

本申请实施例公开了一种来访对讲控制方法、对讲控制装置、系统、电子设备及存储介质，对讲控制方法应用于电子设备，包括：确定对讲过程中或者对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束，从而提升对讲控制的便捷性。

Description

来访对讲控制方法、对讲控制装置、系统、电子设备及存储介质

技术领域

本申请涉及通信控制领域，更具体而言，涉及一种来访对讲控制方法、对讲控制装置、系统、电子设备及存储介质。

背景技术

随着家居用品的智能化，越来越多的智能家居产品组网形成智慧家庭方便用户使用，例如智能门铃，可以进行视频拍摄、监控、对讲等功能，还可以与其他家居产品实现联动，例如进行对讲，但目前的门铃产品在对讲过程中仍然存在一些不方便。

发明内容

本申请实施例提供一种来访对讲控制方法、对讲控制装置、系统、电子设备及存储介质。提升对讲控制的便捷性。

第一方面，本申请实施例提供一种来访对讲控制方法，应用于电子设备，该方法包括：确定对讲过程中或者对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束。

第二方面，本申请实施例提供一种来访对讲控制方法，应用于电子设备，该方法包括：确定对讲过程中采集的图像数据和对讲过程中采集的对讲语音，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；对讲语音包括对讲请求端的语音和/或对讲接收端的语音；当图像数据满足第一预设条件且对讲语音满足第二预设条件时，触发对讲过程结束。

第三方面，本申请实施例提供一种来访对讲控制装置，该对讲控制装置包括：确定单元，被配置用于确定对讲过程中或者对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；触发单元，被配置用于当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束。

第四方面，本申请实施例提供一种来访对讲控制装置，该对讲控制装置包括：确定单元，被配置用于确定对讲过程中采集的图像数据和对讲过程中采集的对讲语音，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据，对讲语音包括对讲请求端的语音和/或对讲接收端的语音；触发单元，被配置用于当图像数据满足第一预设条件且对讲语音满足第二预设条件时，触发对讲过程结束。

第五方面，本申请实施例提供一种来访对讲系统，该系统包括门铃设备、电视机，门铃设备与电视机连接，门铃设备或电视机被配置用于确定对讲过程中或者对讲请求过程中采集的图像数据，图像数据包括门铃设备采集的对讲请求端的图像数据和/或电视机采集的对讲接收端的图像数据；当图像数据满足第一预设条件时，门铃设备或电视机被配置用于触发对讲过程结束或者触发对讲请求过程结束。

第六方面，本申请实施例提供一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如第一方面或第二方面相关的任一项的方法。

第七方面，本申请实施例提供一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行如第一方面或第二方面相关的任一项的方法。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请实施例提供的一种来访对讲控制方法的流程示意图

图2是本申请实施例提供的另一种来访对讲控制方法的流程示意图

图3是本申请实施例提供的一种来访对讲控制装置功能单元框图

图4是本申请实施例提供的一种来访对讲系统架构示意图

图5是本申请实施例提供的一种来访对讲系统的流程示意图

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请中的步骤编号仅用于举例，可能对应不同的实施方式，在不冲突的情况下，不限制其顺序。

本申请实施例提供一种来访对讲控制方法，应用于电子设备，电子设备包括：对讲请求端设备、对讲接收端设备、云端服务器中的至少一种；其中，对讲请求端设备可以理解为来访对讲中的室外设备，主要用于控制发起对讲，可以包括：门铃外机(可包括图像采集单元)、摄像头、门禁外机中的至少一种，其中摄像头可以是猫眼摄像头也可以是监控摄像头等，对此不做限制。对讲接收端设备可以理解为来访对讲中的室内设备，例如智能家居设备，主要用于控制接受对讲，可以包括：门铃内机、门禁内机、电视机、路由器、网关设备、客户前置设备CPE(Customer Premise Equipment)、音箱、智能摄像头、电视盒、电脑、手机中的至少一种。

可以理解的，在当有人来访时，发起对讲请求，一般由对讲请求端设备发起对讲请求，然后由对讲接收端设备接受对讲请求从而建立对讲，如果没有用户接收对讲请求，一般对讲请求会持续一段时间后结束，即使访客离开，如果还在设置的时间内仍然会继续处于对讲请求状态，造成资源的浪费或对周围环境不必要的干扰。该对讲可以是语音对讲也可以是视频对讲，视频对讲可以是单方视频对讲，即只有一方可以显示视频图像，也可以是双方或多方视频对讲，即可以显示多方的视频图像。由于在对讲中，一般需要用户手动才能结束对讲，例如通过按键结束对讲，不便于用户操作，特别是用户离对讲设备较远的情况下。需要说明的是，用户可以是受访用户，可以是来访用户(例如访客)。

为方便用户对讲，本申请实施例提供的一种来访对讲控制方法，包括：

步骤S10.确定对讲过程中或者对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；

需要说明的是，对讲过程可以理解为来访用户发起对讲但受访用户还未接受对讲的过程，例如来访者按压门铃、或门铃设备检测到有人来访等情况下，发起来访请求，对讲请求端或对讲接收端设备生成语音或图像等提示，这个阶段可以认为是对讲请求过程，用于请求和等待对讲接收端受访用户接受对讲；示例的，步骤S10包括：S101.确定对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据。对讲接收端的受访用户在感知到上述提示后，可通过对讲接收端设备接受对讲，从而可以理解为进入对讲过程，也就是说，对讲过程可以理解为受访用户接受了对讲请求后，进入对讲双方可对讲的阶段，在对讲过程中，对讲双方可以通过语音、视频等各种方式进行沟通。示例的，步骤S10包括：S102.确定对讲过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据。其中，在对讲过程中或者在对讲请求过程中，可以是在对讲请求过程中或者对讲过程中，；图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据，可以是只包括对讲请求端的图像数据，或者，只包括对讲接收端的图像数据，或者，包括对讲请求端的图像数据和对讲接收端的图像数据。

此外，对讲请求端的图像数据一般是指对讲请求端设备的图像采集单元采集的图像数据，而对讲接收端的图像数据一般是对讲接收端设备的图像采集单元采集的图像数据，但需要说明的是，也可以是与对讲接收端设备或对讲请求端设备连接的其他设备采集的图像数据，并且对讲接收端设备可能为多个。确定对讲过程中或者对讲请求过程中采集的图像数据，可以是图像采集单元(可以是请求端的也可以是接收端的)采集图像数据，由对讲请求端设备或者独家接收端设备或者云端服务器等获取的情况，可以是请求端设备、接收端设备的CPU或GPU等获取，传输可以是有线方式也可以是无线方式，采集的设备和执行上述S10的设备可能不同，此外，S10中确定的图像数据可以是对讲或对讲请求过程中采集的图像数据中的部分或全部数据。

可以理解的，在对讲过程和/或对讲请求过程中，对讲请求端设备的图像采集单元可以实时采集对讲请求端的图像数据，该对讲接收端的图像数据可以是对讲接收端设备的图像采集单元在对讲过程中实时采集的图像数据，其中对讲请求端的图像数据，一般是对讲请求端设备的图像采集单元能够采集到的图像数据，例如摄像头所能拍摄到的范围内的图像数据；对讲接收端的图像数据，一般是对讲接收端设备的图像采集单元能够采集到的图像数据，例如电视机摄像头能够拍摄到的范围内的图像数据。而对讲的请求端设备、对讲接收端设备、云端服务器等可以获取上述所采集的图像数据。

示例的，对讲请求端的设备为门铃外机，门铃外机可以理解为安装在门外的门铃设备，门铃外机接收到对讲请求指令后启动采集对讲请求端的图像数据并向门铃内机发送对讲请求指令，门铃内机接收到对讲请求指令后发出提示(例如声音提示、也可以是播放对讲请求端的图像数据进行提示、还可以是震动提示等，不做限制)以提醒受访用户接听对讲，门铃内机接收到接听对讲的指令后进入对讲过程，以使访客和受访用户可以通过门铃外机和门铃内机进行对讲，门铃内机可以接收门铃外机的图像采集单元(例如摄像头)采集的图像数据，进行图像播放，为了保障私密性，一般情况下对讲接收端的图像不向对讲请求端播放，即访客一般看不到对讲接收端受访用户的图像。门铃外机可以获取图像数据外，也可以是门铃内机(对讲接收端)、云端服务器等接收门铃外机采集的图像数据从而获得相关图像数据，例如门铃外机的图像采集单元实时采集图像数据后通过有线或无线通信的方式发送给门铃内机或云端服务器等；其中门铃内机一般是使用在室内的，也可以将门铃内机的相关功能集成在各种终端设备中，例如电视机、音箱、手机、平板电脑等。示例的，以电视机为例，当接收到对讲请求时，则在电视画面中弹出画面(如果电视机正在使用，还可以在播放的电视画面上显示画中画)以用于显示对讲请求端的图像，电视机接收到受访用户的对讲指令后，建立与门铃端的对讲。

需要说明的是，门铃外机的图像采集单元可以是在对讲请求发起时即开始采集图像数据，在对讲开始后继续采集，甚至更早就开始采集，例如门铃外机感应到访客到达预定区域时，启动图像采集单元。因此，该实施例的S10步骤还可以应用于对讲请求过程中，即在对讲请求过程中，获取对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据；该图像数据可以发送给对讲接收端也可以不发送。

S30.当图像数据满足第一预设条件时，触发对讲请求过程结束或者触发对讲过程结束。

可以理解的是，上述图像数据可以是对讲过程中或者对讲请求过程中实时采集的对讲请求端的图像数据，或者，对讲接收端的图像数据，或者，对讲请求端的图像数据和对讲接收端的图像数据。也就是说可以是对讲请求端的图像数据满足第一预设条件时，就触发对讲请求过程结束或触发对讲过程结束；也可以是对讲接收端的图像数据满足第一预设条件时，就触发对讲请求过程结束或触发对讲过程结束，还可以是对讲请求端的图像数据和对讲接收端的图像数据均满足第一预设条件时，就触发对讲请求过程结束或触发对讲过程结束。也就是说，当图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据时,当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束，包括：当对讲请求端的图像数据和/或对讲接收端的图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束。

需要说明的是，触发对讲过程结束可以理解为触发结束对讲，使得来访用户和受访用户双方无法通过上述对讲设备继续沟通。而触发对讲请求过程结束可以理解为触发结束对讲请求，也就是说，不再发出对讲请求以等待用户接受，这里一般是指受访用户未接受对讲请求的情况下，通过对图像数据分析触发的对讲请求过程结束。

可以理解的，步骤S30可以包括步骤S301或步骤S302，因此，步骤S10和步骤S30可以包括以下实施方式：

示例的，一种来访对讲控制方法，包括：

步骤S101.确定对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；

步骤S301.当图像数据满足第一预设条件时,触发对讲请求过程结束；

示例的，一种来访控制方法，包括：

步骤S102.确定对讲过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；

步骤S302.当图像数据满足第一预设条件时,触发对讲过程结束。

一般来说，在对讲请求过程中，根据对讲请求端的图像数据来控制对讲请求可以避免访客离开等情况下，由于对讲请求仍然无意义的保持一定时间，带来的功耗问题，或对周围或室内受访用户的打扰，或者需要访客或受访用户手动关闭带来的不便等。当然，在对讲请求过程中，也可以根据对讲接收端的图像数据来控制对讲请求，例如当接收端的图像满足第一预设条件时，例如没有包括人物特征信息等，则结束对讲请求，从而避免访客等待。当然，在对讲请求过程中，还可以根据对讲请求端的图像数据和对讲接收端的图像数据来控制对讲请求，可以是两者都满足第一预设条件时，才触发对讲请求过程结束，从而避免受访用户不在接收端设备监控的范围内或对访客或受访用户的特征信息误判等导致的误触发等情况。此外，在对讲过程中，也可以只根据对讲请求端的图像数据来控制对讲，避免访客离开后仍继续处于对讲请求状态等；或者只根据对讲接收端的图像数据来控制对讲，避免受访用户不在仍继续让访客等待等；或者结合对讲请求端和对讲接收端的图像数据来控制对讲，从而二者均满足第一预设条件时，才可以触发结束对讲，增强操作的便捷性以及控制的准确性等。

可以理解的，当图像数据满足第一预设条件时，可以是当获取的图像数据中的一采样帧图像满足第一预设条件(即当前采样帧图像满足第一预设条件)时，触发对讲请求过程结束或触发对讲过程结束，这种方式可以较为快速的触发结束对讲，但可能存在一些误判，例如访客因为某个姿势变化暂时超出了摄像头拍摄的范围。当图像数据满足第一预设条件时，还可以是当连续预设采样帧数图像满足第一预设条件时，这种情况要求多采样帧图像满足，从而提升了判断的准确性。当图像数据满足第一预设条件时，还可以是连续第一预设时间的图像数据满足第一预设条件，也就是说不通过帧数来衡量，而是通过持续时间来衡量，也可以提升判断的准确性。在不冲突的情况下，上述方式可以结合使用。

需要说明的是，采样帧图像可以是从确定的图像数据中选择出部分或全部帧的图像数据进行分析。其中，采样周期可以间隔特定帧数，该特定帧数可以为大于或等于零的正整数，也就是说，可以每一帧都采样分析，或间隔特定帧分析；当然，还可以间隔特定时间进行采样分析。

可以理解的，图像数据满足第一预设条件，可以是图像数据未检测到人物特征信息，或者，可以是图像数据中检测到人物预设行为信息等，还可以是，图像数据先检测到人物预设行为信息，然后再到未检测到人物特征信息，表示人物先做出了预设行为的变化，随即离开监控区域的过程等。其中，人物特征信息可以包括：人脸信息、人体轮廓信息、人体红外信息中的至少一种；人物预设行为信息包括：后转信息、侧转信息、远离信息中的至少一种；其中人脸信息可以包括但不限于五官信息、肤色信息、人脸轮廓信息、瞳孔信息等；人体轮廓信息可以是部分人体轮廓或者全部人体轮廓，例如头部轮廓、上半身轮廓、侧面轮廓、正面轮廓、背面轮廓等。可以理解的，后转信息或侧转信息或离开信息都可以根据人脸信息和人体轮廓信息的变化获得。例如后转信息可以是检测到正面轮廓到侧面轮廓再到背面轮廓的变化确定，侧转信息可以是检测到正面轮廓到侧面轮廓的变化确定的，而远离信息可以是检测到背面轮廓在图像中的比例变化确定的。

示例的，门铃外机的图像采集设备在对讲过程中实时采集图像数据，当采集的图像数据中检测不到人物特征数据时，可以认为访客已经离开图像采集单元的可采集范围，即访客离开，从而自动结束对讲，无需受访用户或访客主动结束对讲。例如，通过未检测到人脸信息，可以较快速的判断访客将要离开或者已经离开，例如当访客转身后就无法检测到人脸信息，因此自动结束对讲，可以避免用户手动操作，同时最快的让出资源供门铃内机实现其他功能，特别是门铃内机集成在其他设备上时，例如集成在电视机上，可以尽早的结束对讲方便受访用户继续看电视；又例如集成在音箱上，可以尽早的结束对讲方便受访用户听音乐等。而利用人体轮廓信息作为人物特征信息，当图像数据中未检测到人体轮廓信息时，说明访客已经离开，从而可以更准确的判断对讲是否需要结束，但对于那种可以拍摄较远距离的场景，可能会导致结束不够及时，因此也可以通过检测到人物预设行为信息来判断，或者结合人物特征信息和人物预设行为信息来综合判断，从而能够在对讲请求或者对讲过程中，自动结束对讲请求或结束对讲，无需用户或访客手动关闭，同时也避免访客离开或受访用户离开后对讲或对讲请求仍然保持导致的资源占用等问题。

可以理解的，图像数据中未检测到人物特征信息，可以包括以下至少一种：图像数据中的一采样帧图像未检测到人物特征信息；图像数据中连续预设采样帧数的图像未检测到人物特征信息；图像数据中未检测到人物特征信息持续第一预设时间。其中，图像数据的采集可以是实时采集的，图像数据的一采样帧图像未检测到人物特征信息可以理解为当前采样帧图像未检测到人物特征信息则可以触发对讲请求过程结束或对讲过程结束，当然采集和分析可以是两个过程，甚至两个设备来进行，因此从采集到当前图像数据，到完成对当前图像数据的分析会有一定的时间差，但一般影响较小，并且确定(获取)的图像数据可以是采集的图像数据的部分或全部图像数据，进一步的，用于分析的采样数据可以是该确定(获取)的图像数据的部分或全部图像数据。

此外，预设采样帧数和第一预设时间的设置可以增加检测的准确性，预设采样帧数可以通过计数来完成，每分析完连续预设采样帧数的图像数据就重新计数，当然也可以当确定当前采样帧图像数据未检测到人物特征信息时开始计数，第一预设时间也可以参照类似方式，当然还可以通过其他方式，在此不做限制。

可以理解的，图像数据中检测到人物预设行为信息，可以包括以下至少一种：图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓(可以认为是检测侧转信息的一种方式)；图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓再变为背面轮廓(可以认为是检测后转信息的一种方式)；图像数据中的连续第一预设采样帧数的图像中检测到人体轮廓在图像中的占比变小(可以认为是检测远离信息的一种方式，该方式能够检测出变化趋势，且可在满足连续第一预设采样帧数的图像变小时触发结束动作)；图像数据中的连续采样帧数的图像中检测到人体轮廓在图像中的占比变小且小于预设占比(可以认为是检测远离信息的一种方式)；图像数据中的连续第二预设采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加(可以认为是检测远离信息的一种方式，该方式能够检测出变化趋势，且可在连续第二预设采样帧数的图像比例增加时触发结束动作)；图像数据中的连续预设采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加且大于预设比例(可以认为是检测远离信息的一种方式)。

需要说明的是，在对图像数据进行分析时，可以每隔特定帧数采样一次，该特定帧数可以为大于或等于零的正整数；也可以每隔特定时间采样一次，也就是说，可以对每一帧图像进行分析，也可以采样其中的部分帧图像。由于人物行为可能是一个连续的动作，因此需要对连续采样帧数的图像数据进行分析才能确定。例如检测连续采样帧数的图像数据，当检测到完成预设人物行为后则触发对讲过程结束或对讲请求过程结束，比如，检测后转时，若检测到上述连续采样帧图像中的某一帧为背面轮廓时，则触发对讲过程结束或对讲请求过程结束。而远离行为中，可以通过人体轮廓在拍摄的图像中的占比来确定，一般来说远离时，人体轮廓所包含的面积占图像的总面积会变小，具体的，可以在上述变小的基础上，当所占面积小于预设占比时触发对讲过程结束或对讲请求过程结束；具体的，还可以在上述变小的基础上，计数变小的帧数，例如从开始变小的采样帧开始计数，当变小的采样帧数达到第一预设采样帧数时则触发相关结束动作。另一个角度，由于人远离时，摄像头可能是固定的，因此能够拍到的人体轮廓会增加，例如近的时候只能拍到人头部轮廓、再远一点可以拍到上半身轮廓、更远可能可以拍到人体全部轮廓，因此可以通过这种方式来判断人物的远离，可以检测到这样的一个趋势就触发结束对讲或对讲请求，也可以是在这个趋势的基础上当检测到大于预设比例时就触发对讲过程结束或对讲请求过程结束，还可以通过对增大比例的采样帧数进行计数，例如从开始增大比例的采样帧开始计数，当大于第二预设采样帧数时则触发相关结束动作。可以看到，在判断人物行为时，采用的是采样帧数，由于人物行为相对复杂，直接用采集的连续帧图像可能会增加误判。此外，检测效果可能跟图像采集模块的设置位置，设置方式有关，因此在不冲突的情况下可以结合上面多种方式来检测，提升适用性。

可以理解的，轮廓可以是头部、上半身、全身等，需要根据图像采集设备能够采集的情况确定，例如与摄像头的设置位置和摄像头的视角广度等有关。此外，正面轮廓或背面轮廓或侧面轮廓能够根据人脸信息确定，特别是正面的大轮廓与背面的大轮廓有可能相似，因此为了区分还可以结合五官等人脸信息来区分。当然，侧转信息、后转信息、远离信息等还可以通过其他的方式来确定。需要说明的是，通过检测到侧转信息，则触发终止对讲请求或终止对讲，可以较快速的响应，但是也会增加误判，例如有可能访客或受访对象(受访用户)只是调整了姿势，而非想结束对讲或对讲请求；而通过检测到后转信息，来触发终止对讲请求或终止对讲，相比侧转信息的可靠性要强，进一步地检测远离信息大概率说明访客离开从而关闭对讲或对讲请求准确性相对更高。但上述效果差异是相对的，在其他一些场景中效果差异可能不同。

可以理解的，当图像数据包括对讲请求端的图像数据和对讲接收端的图像数据时,当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束，可以包括：当对讲请求端的图像数据满足第一预设条件和对讲接收端的图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束，其中，由于如上所述，图像数据满足第一预设条件的具体实施方式可能有多种，因此，可以理解的，对讲请求端的图像数据满足的第一预设条件和对讲接收端的图像数据满足的第一预设条件可以相同或不同。也就是说，二者满足的具体条件可以是不同的，例如对讲请求端的图像数据满足图像数据中未检测到人物信息，而对讲接收端的图像数据满足图像数据中检测到远离行为等。

示例的，当图像数据中未检测到人脸信息或者人体轮廓信息或者人体红外信息时，可以认为对讲端的人物离开，例如在门铃对讲场景中，在对讲过程中对门铃外机实时拍摄的图像数据进行监测，当某一采样帧图像或者预设采样帧数图像检测到人脸信息，则触发对讲过程结束，预设采样帧数图像还可以防止访客在对讲过程中因暂时移动导致发生误判，对此，可以结合判断的准确性和触发的及时性来设置合适的预设采样帧数。

在实际应用中，一般对讲请求端的图像数据由对讲请求端设备采集；对讲接收端的图像数据由对讲接收端的设备采集。对接请求端设备可以安装在室外一般获取来访者的信息，而对讲接收端设备可以安装在室内，可以是专门的设备，例如门铃内机，也可以集成在其他电子设备中，如果电视机、音箱等，可以是一个也可以是多个。此外，图像数据的采集和图像数据的分析可以是不同设备来执行。

需要说明的是，上述例举的对讲请求端设备和对讲接收端设备中，传统的路由器、网关、CPE、音箱或电视盒等设备中可能不具备图像采集功能，但有的上述产品中也可以集成图像采集功能，甚至图像显示功能，例如带摄像头的音箱、带显示屏的音箱等。也就是说，上述列举的对讲接收端设备可以具备图像采集功能，也可以不具备图像采集功能，当其不具备图像采集功能时，如果需要获取对讲接收端的图像数据，可以通过与其连接的其他具备图像采集功能的设备来采集对讲接收端的图像数据，例如智能摄像头，因此如果某些场景下需要使用对讲接收端的图像数据，则可以认为上述对讲请求端设备或对讲接收端设备具备图像采集功能或者能够从具备图像采集功能的设备获取到对讲接收端的图像数据。

在实际应用中，可以根据对讲接收端设备确定的人物信息数据或者设备状态数据确定对讲请求端的图像数据的播放方式。具体的，可以包括但不限于以下方式：当确定电视机处于运行状态，则确定通过电视机采用画中画的方式播放对讲请求端的图像数据；这种情况下，可以减少对受访用户观看电视的影响；一种情况下，当确定电视机处于运行状态，且确定受访用户与电视机处于预设范围内，则确定通过电视机采用画中画的方式播放对讲请求端的图像数据；这种情况下，还有考虑受访用户与电视机的位置关系，从而推断受访用户是否能够获知到对讲请求或者是否方便受访用户进行对讲，该预设范围可以根据受访用户自己需要设置，也可以出厂时默认一个范围，例如默认为电视机摄像头可拍摄到的范围内，也就是说通过电视机摄像头拍摄的图像数据(如对讲接收端的图像数据)来检测是否有受访用户信息，如果有则认为在预设范围内。一种情况，当确定电视机处于关闭状态，则确定通过电视机采用全屏显示的方式播放对讲请求端的图像数据；此处的关闭状态可以是完全关闭，也可以是休眠状态，即电视屏幕不显示图像，因此，可以全屏方式来显示对讲请求端的图像数据，也不会影响受访用户看电视。一种情况，当确定电视机处于关闭状态，且确定受访用户与电视机处于预设范围内，则确定通过电视机采用全屏显示的方式播放对讲请求端的图像数据；该方法与前面类似都考虑到了受访用户与电视机的位置关系，在此不再赘述。除了电视场景，对讲接收端设备还可以是手机，一种情况，当确定手机处于受访用户使用状态，则确定通过手机播放对讲请求端的图像数据；该情况下，可以通过检测受访用户对手机显示屏的触摸动作或者是否在播放音视频数据等来判断受访用户是否在使用手机，当然也可以利用手机摄像头拍摄的图像数据来判断受访用户是否在使用，如果拍摄的图像数据有受访用户信息，则判定在使用。还可以是电脑场景，包括家用电脑、平板电脑等，当确定电脑处于受访用户使用状态，则确定通过电脑播放对讲请求端的图像数据，使用状态的确定可以采用手机或者电视的方式，在此不再赘述。上述几种方式在不冲突的情况下可以组合使用，以增加针对不同场景的适用性。因此，当受访用户在使用某个对讲接收端设备时，可以优先通过该对讲接收端设备来进行图像数据的播放，从而更快速的提醒受访用户有访客来访，或者更方便用户进行对讲等。

基于前面描述的技术方案，为了进一步方便用户的使用，上述来访对讲控制方法还包括：S20.确定对讲过程中采集的对讲语音。在对讲过程中，步骤S30.上述当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束，可以替换为步骤S40：当图像数据满足第一预设条件且对讲语音满足第二预设条件时，则触发对讲过程结束。也就是说，除了根据图像数据进行判断，还结合对讲语音数据进行判断，从而增加判断的准确性。此处，对讲语音满足第二预设条件，可以包括：对讲语音中包括预设关键词或未获取到对讲语音满足预设时间。例如，检测到语音中有“结束对讲”、“再见”等预设关键词时，则认为对讲语音满足第二预设条件，或者，当对讲双方沟通完毕后，预设时间内没有获取到对讲语音，可以是采集的声音信号中没有语音信号，也可以是采集不到任何声音信号，还可以是采集不到对讲双方的语音信号，也就是说可以识别出刚刚对讲双方的声音信息，从而判断双方是否停止对讲，这种方式在语音环境嘈杂的情况下能够提高准确性。

可以理解的，为了提升使用的便携性，以电视机作为接收端设备为例，在对讲请求过程中，若电视机或电视机的遥控器采集到(如电视上或者遥控器上的麦克风采集)对讲接收端的受访用户的第一预设语音，则触发进入对讲过程；或者，在对讲过程中，若电视机或电视机的遥控器采集到(如电视上或者遥控器上的麦克风采集)对讲接收端的受访用户的第二预设语音，则触发结束本次对讲。其中，第一预设语音可以用于接收对讲请求，从而触发进入对讲阶段，例如检测到受访用户说“接收对讲”“开启对讲”等预设语音，具体内容在此不做限制。而第二预设语音则可以用于结束对讲，可以是包含“结束对讲”、“再见”等预设关键词的语音。该方法通过语音进行控制，方便用户控制对讲。需要说明的是，此方案中，明确了是电视机或电视机遥控器采集的接收端用户语音，而非对讲语音，从而避免受来访客户的语音影响。而对于用于结束对讲或对讲请求的第二预设语音可以是电视或遥控器采集的受访用户语音，也可以对讲语音，其中对讲语音的方案类似前面关于“对讲语音满足第二预设条件”的描述，在此不再赘述。

需要说明的是，由于电子设备可以是对讲请求端设备、可以是对讲接收端设备、也可以是云端服务器，也就是说，步骤S10和S30可以均由对讲请求端设备执行，例如可以由对讲请求端设备的图像采集单元在对讲请求或者对讲过程中采集请求端的图像数据，可以由对讲接收端的图像采集单元在对讲请求或者对讲过程中采集接收端的图像数据，然后由对讲请求端设备(例如其处理器)来确定(可以理解为获取)图像数据(包括对讲请求端的图像数据和/或对讲接收端的图像数据)，并当对讲请求端设备确定图像数据满足第一预设条件时，触发对讲请求过程结束或对讲过程结束，此处的触发可以是直接控制结束，或者发出一个信号给对讲接收端设备，由对讲接收端设备控制结束，都可以属于触发的保护范围，对此不做限制。可选的，步骤S10和S30可以均由对讲接收端设备来执行，例如可以由对讲请求端设备的图像采集单元在对讲请求或者对讲过程中采集请求端的图像数据，可以由对讲接收端的图像采集单元在对讲请求或者对讲过程中采集接收端的图像数据，然后由对讲接收端设备(例如其处理器)来确定(可以理解为获取)图像数据(包括对讲请求端的图像数据和/或对讲接收端的图像数据)，并当对讲接收端设备确定图像数据满足第一预设条件时，触发对讲请求过程结束或对讲过程结束，此处的触发可以是直接控制结束，或者发出一个信号给对讲请求端设备，由对讲请求端设备控制结束，以上都可以属于触发的保护范围，对此不做限制。可选的，步骤S10和S30可以均由云端服务器来执行，例如可以由对讲请求端设备的图像采集单元在对讲请求或者对讲过程中采集请求端的图像数据，可以由对讲接收端的图像采集单元在对讲请求或者对讲过程中采集接收端的图像数据，然后由云端服务器来确定(可以理解为获取)图像数据(包括对讲请求端的图像数据和/或对讲接收端的图像数据)，并当云端服务器确定图像数据满足第一预设条件时，触发对讲请求过程结束或对讲过程结束，此处的触发可以是发出一个信号给对讲请求端设备或者发出一个信号给对讲接收端设备，由对讲请求端设备或对讲接收端设备控制结束，以上都可以属于触发的保护范围，对此不做限制。需要说明的是，由于电子设备可以包括讲请求端设备、对讲接收端设备、云端服务器中的至少一个，因此S10和S30步骤可以在相同或不同的电子设备上执行。

可以看出，确定对讲过程中或者对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束。从而可以无需用户手动操作，方便用户使用，进一步的，通过对第一预设条件的设置，可以提升结束对讲请求或结束对讲的及时性，及时释放资源，降低对用户使用其他设备的影响等。

本申请还提供另一种来访对讲控制方法，应用于电子设备，该来访对讲控制方法包括：

S100.确定对讲过程中采集的图像数据和对讲过程中采集的对讲语音，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；对讲语音包括对讲请求端的语音和/或对讲接收端的语音。

需要说明的是，在前面实施例的基础上，本实施例结合对讲过程中采集的对讲语音和图像数据来综合控制对讲，相比仅采用图像数据来控制，在某些情况下其准确性更高，对讲语音可以是对讲请求端设备的麦克风实时采集的，也可以是对讲接收端设备的麦克风实时采集的，确定对讲过程中采集的对讲语音，可以是确定采集的对讲语音中的部分或全部语音。此外，图像数据满足第一预设条件可以包括：图像数据未检测到人物特征信息，和/或，图像数据中检测到人物预设行为信息。人物特征信息可以包括：人脸信息、人体轮廓信息、人体红外信息中的至少一种；而人物预设行为信息可以包括：后转信息、侧转信息、远离信息中的至少一种。其中，后转信息或侧转信息或远离信息可根据人脸信息和人体轮廓信息的变化获得。可以理解的，图像数据中未检测到人物特征信息，可以包括但不限于：

(1)图像数据中的一采样帧图像未检测到人物特征信息；或者，

(2)图像数据中连续预设采样帧数的图像未检测到人物特征信息；或者，

(3)图像数据中未检测到人物特征信息持续第一预设时间。

可以理解的，图像数据中检测到人物预设行为信息，可以包括但不限于：

(1)图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓；或者，

(2)图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓再变为背面轮廓；或者，

(3)图像数据中的连续第一预设采样帧数的图像中检测到人体轮廓在图像中的占比变小；或者，

(4)图像数据中的连续采样帧数的图像中检测到人体轮廓在图像中的占比变小且小于预设占比；或者，

(5)图像数据中的连续预设第二采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加；或者，

(6)图像数据中的连续采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加。

需要说明的是，其中，正面轮廓或背面轮廓或侧面轮廓能够根据人脸信息确定。上述例举的各种图像数据中未检测到人物特征信息的具体方式，或，各种图像数据中检测到人物预设行为信息的具体方式，在不冲突的情形下可以组合使用。

S300.当图像数据满足第一预设条件且对讲语音满足第二预设条件时，触发对讲过程结束。

需要说明的，当图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据时,图像数据满足第一预设条件，包括：对讲请求端的图像数据和/或对讲接收端的图像数据满足第一预设条件。当对讲语音包括对讲请求端的语音和/或对讲接收端的语音时，对讲语音满足第二预设条件，包括：对讲请求端的语音和/或对讲接收端的语音满足第二预设条件。

可以理解的，对讲语音满足第二预设条件，包括：对讲语音中包括预设关键词或未获取到对讲语音满足预设时间。其中，预设关键词和未获取到对讲语音满足预设时间的进一步解释详见前面的描述，此处不再赘述。

可以理解的，电子设备包括：对讲请求端设备、对讲接收端设备、云端服务器中的至少一种；可选的，对讲请求端设备包括：门铃外机、摄像头、门禁外机中的至少一种；对讲接收端设备包括：门铃内机、门禁内机、电视机、路由器、网关设备、客户前置设备CPE(Customer Premise Equipment)、音箱、智能摄像头、电视盒、电脑、手机中的至少一种。

可以理解的，对讲请求端的图像数据由对讲请求端设备采集；对讲接收端的图像数据由对讲接收端的设备采集。

可以理解的，对讲接收端设备确定的人物信息数据和/或设备状态数据确定对讲请求端的图像数据的播放方式。进一步的，根据对讲接收端设备确定的人物信息数据和/或设备状态数据确定对讲请求端的图像数据的播放方式，包括但不限于：

当确定电视机处于运行状态，则确定通过电视机采用画中画的方式播放对讲请求端的图像数据；或者，

当确定电视机处于运行状态，且确定受访用户与电视机处于预设范围内，则确定通过电视机采用画中画的方式播放对讲请求端的图像数据；或者，

当确定电视机处于关闭状态，则确定通过电视机采用全屏显示的方式播放对讲请求端的图像数据；或者，

当确定电视机处于关闭状态，且确定受访用户与电视机处于预设范围内，则确定通过电视机采用全屏显示的方式播放对讲请求端的图像数据；或者，

当确定手机处于受访用户使用状态，则确定通过手机播放对讲请求端的图像数据；或者，

当确定电脑处于受访用户使用状态，则确定通过电脑播放对讲请求端的图像数据。

需要说明的，上述例举的具体播放方式在不冲突的情况下可以相互组合使用。

可以理解的，在对讲请求过程中，若电视机或电视机的遥控器采集到对讲接收端的受访用户的第一预设语音，则触发进入对讲过程；或者，在对讲过程中，若电视机或电视机的遥控器采集到对讲接收端的受访用户的第二预设语音，则触发结束本次对讲。其中第一预设语音和第二预设语音参考前面的解释，在此不再赘述。

本实施例针对对讲过程的控制，主要针对对讲过程的控制，有些技术方案中技术特征未进一步解释的或者相关技术效果未描述的请参考前面相关部分的描述，在此不再赘述。本实施例中的技术方案不仅考虑了图像数据还考虑了对讲语音，增加了对讲语音来控制对讲，既需要图像数据满足第一预设条件也需要对讲语音满足第二预设条件，因此进一步提升了控制的准确性。

可以理解的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述任一项的方法。

可以理解的，本申请还提供一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述任一项的方法。

本申请还提供一种来访对讲控制装置，该来访对讲控制装置包括：

确定单元，被配置用于确定对讲过程中或者对讲请求过程中采集的图像数据，其中图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；

触发单元，被配置用于当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束。

可以理解的，触发单元包括检测模块，被配置用于确定图像数据满足第一预设条件；进一步的，检测模块被配置用于确定图像数据未检测到人物特征信息，和/或，检测单元被配置用于确定图像数据中检测到人物预设行为信息。其中，人物特征信息包括：人脸信息、人体轮廓信息、人体红外信息中的至少一种；和/或，人物预设行为信息包括：后转信息、侧转信息、远离信息中的至少一种。进一步的，后转信息或侧转信息或远离信息根据人脸信息和人体轮廓信息的变化获得。

可以理解的，检测模块还可以被配置用于确定图像数据中的一采用帧图像未检测到人物特征信息；检测模块还可以被配置用于确定图像数据中连续预设采样帧数的图像未检测到人物特征信息；检测模块还可以被配置用于确定图像数据中未检测到人物特征信息持续第一预设时间。可以理解的，检测模块还可以被配置用于确定图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓；检测模块还可以被配置用于确定图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓再变为背面轮廓；检测模块还可以被配置用于确定图像数据中的连续第一预设采样帧数的图像中检测到人体轮廓在图像中的占比变小；检测模块还可以被配置用于确定图像数据中的连续第二预设采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加。其中，正面轮廓或背面轮廓或侧面轮廓能够根据人脸信息确定。

可以理解的，当图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据时,触发单元可以被配置用于当对讲请求端的图像数据和/或对讲接收端的图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束。

可以理解的，该来访对讲控制装置可以应用于电子设备中，上述电子设备包括但不限于：对讲请求端设备、对讲接收端设备、云端服务器中的至少一种。其中，对讲请求端设备包括但不限于：门铃外机、摄像头、门禁外机中的至少一种；对讲接收端设备包括但不限于：门铃内机、门禁内机、电视机、路由器、网关设备、客户前置设备CPE(Customer PremiseEquipment)、音箱、智能摄像头、电视盒、电脑、手机中的至少一种。由于对讲控制装置能够应用于电子设备中，而该电子设备可以是一种设备，也可以是多种设备(两种或两种以上)，因此，对讲控制装置中的各个单元、模块在不冲突的情况下可以应用于不同的电子设备。

可以理解的，对讲请求端的图像数据由对讲请求端设备采集；对讲接收端的图像数据由对讲接收端的设备采集。对讲控制装置还包括播放控制单元，可被配置用于根据对讲接收端设备确定的人物信息数据和/或设备状态数据确定对讲请求端的图像数据的播放方式。该对讲控制装置可以应用于对讲请求端，虽然对讲请求端的图像数据需要在对讲接收端播放，但当请求接收端设备具有多个时，可以有对讲请求端设备来确定由哪个对讲接收端装置播放。对于应用于云端服务器也是类似情况，在此不再赘述。当对讲控制装置应用于对讲接收端设备时，则由对讲接收端设备来确定对讲请求端的图像数据的播放方式。

可以理解的，该播放控制单元，可被配置用于当确定电视机处于运行状态，则通过电视机采用画中画的方式播放对讲请求端的图像数据；该播放控制单元，可被配置用于当确定电视机处于运行状态，且确定受访用户与电视机处于预设范围内，则通过电视机采用画中画的方式播放对讲请求端的图像数据；该播放控制单元，可被配置用于当确定电视机处于关闭状态，则通过电视机采用全屏显示的方式播放对讲请求端的图像数据；该播放控制单元，可被配置用于当确定电视机处于关闭状态，且确定受访用户与电视机处于预设范围内，则通过电视机采用全屏显示的方式播放对讲请求端的图像数据；该播放控制单元，可被配置用于当确定手机处于受访用户使用状态，则确定通过手机播放对讲请求端的图像数据；该播放控制单元，可被配置用于当确定电脑处于受访用户使用状态，则确定通过电脑播放对讲请求端的图像数据。

可以理解的，该对讲控制装置还包括启动对讲控制单元，被配置用于在对讲请求过程中，若电视机或电视机的遥控器采集到对讲接收端的受访用户的第一预设语音，则触发进入对讲过程；或者，该触发单元，还可以被配置用于在对讲过程中，若电视机或电视机的遥控器采集到对讲接收端的受访用户的第二预设语音，则触发结束本次对讲。需要说明的，对讲控制装置可以应用于电视机，也可以应用于其他电子设备。

可以理解的，在对讲过程中，该触发单元，可以被配置用于当图像数据满足第一预设条件且对讲语音满足第二预设条件时，触发对讲过程结束。进一步的，该触发单元，可以被配置用于确定对讲语音中包括预设关键词或未获取到对讲语音满足预设时间。

需要说明的是，上述来访对讲控制装置，能够根据对讲请求端和/或对讲接收端的图像数据来智能的确定是否触发结束对讲请求或结束对讲，从而可以无需手动操作，方便用户使用，进一步的，还可以结合语音控制等进一步方便用户的对讲操作。对于该装置部分未细化的技术效果，可参考相关方法部分，在此不再赘述。

本申请实施例还提供另一种来访对讲控制装置，该对讲控制装置包括：确定单元，被配置用于确定对讲过程中采集的图像数据和对讲过程中采集的对讲语音，其中，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据，对讲语音包括对讲请求端的语音和/或对讲接收端的语音；

触发单元，被配置用于当图像数据满足第一预设条件且对讲语音满足第二预设条件时，触发对讲过程结束。

该对讲控制装置与相关对讲控制方法对应，其他部分参考方法部分，在此不做赘述。

为了更清楚的解释本申请各实施例或实施方式，进一步例举一种来访对讲系统2000，该来访对讲系统能够为来访用户2010和受访用户2020提供便捷的对讲控制体验。该系统2000包括门铃设备2100、电视机2200，门铃设备2100与电视机2200连接，可以有线连接也可以无线连接，无线连接可以通过共同的网络连接，也可以通过蓝牙等直接连接，二者中的至少一个还可以与云端服务器(未示出)连接，除了电视机外还可以包括其他对讲接收端设备2300，例如平板电脑、手机等。该系统可以用于执行以下步骤：

S200.门铃设备2100或电视机2200确定对讲过程中或者对讲请求过程中采集的图像数据，图像数据包括门铃设备2100采集的对讲请求端的图像数据和/或电视机2200采集的对讲接收端的图像数据；

S400.当图像数据满足第一预设条件时，门铃设备2100或电视机2200触发对讲过程结束或者触发对讲请求过程结束。

可以理解的，图像数据满足第一预设条件进一步包括包括：图像数据未检测到人物特征信息，和/或，图像数据中检测到人物预设行为信息。人物特征信息包括：人脸信息、人体轮廓信息、人体红外信息中的至少一种；人物预设行为信息包括：后转信息、侧转信息、远离信息中的至少一种。后转信息或侧转信息或远离信息根据人脸信息和人体轮廓信息的变化获得。图像数据中未检测到人物特征信息，包括以下至少一种：图像数据中的一采用帧图像未检测到人物特征信息；图像数据中连续预设采样帧数的图像未检测到人物特征信息；图像数据中未检测到人物特征信息持续第一预设时间。图像数据中检测到人物预设行为信息，包括以下至少一种：图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓；图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓再变为背面轮廓；图像数据中的连续第一预设采样帧数的图像中检测到人体轮廓在图像中的占比变小；图像数据中的连续采样帧数的图像中检测到人体轮廓在图像中的占比变小且小于预设占比；图像数据中的连续预设采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加；图像数据中的连续采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加且大于预设比例。其中，正面轮廓或背面轮廓或侧面轮廓能够根据人脸信息确定。

可以理解的，当图像数据包括门铃设备采集的图像数据和/或电视机采集的图像数据时,当图像数据满足第一预设条件时，门铃设备或电视机触发对讲过程结束或者触发对讲请求过程结束，包括：当门铃设备采集的图像数据和/或电视机采集的图像数据满足第一预设条件时，门铃设备或电视机触发对讲过程结束或者触发对讲请求过程结束。

上述系统还可以包括云端服务器，该云端服务器可以用于确定图像数据满足第一预设条件。当然，确定图像数据满足第一预设条件也可以是该门铃设备或电视机来确定，除了云端服务器外，甚至可以是其他电子设备确定后再通知给门铃设备或电视机，以触发对讲请求过程结束或对讲过程结束，在此不做限制。

进一步的，该门铃设备或电视机根据电视机确定的人物信息数据和/或电视机状态数据确定门铃设备采集的图像数据的播放方式。根据电视机确定的人物信息数据和/或设备状态数据确定对讲请求端的图像数据的播放方式，包括但不限于：

当确定电视机处于关闭状态，且确定受访用户与电视机处于预设范围内，则确定通过电视机采用全屏显示的方式播放对讲请求端的图像数据。

可以理解的，在对讲请求过程中，若电视机或电视机的遥控器采集到对讲接收端的受访用户的第一预设语音，则门铃设备或电视机触发进入对讲过程；或者，在对讲过程中，若电视机或电视机的遥控器采集到对讲接收端的受访用户的第二预设语音，则门铃设备或电视机触发结束本次对讲。

可以理解的，当图像数据满足第一预设条件且对讲语音满足第二预设条件时，则门铃设备或电视机触发对讲过程结束。其中，对讲语音满足第二预设条件，包括：对讲语音中包括预设关键词或未获取到对讲语音满足预设时间。

可以看出，本申请提供的实施例，确定对讲过程中或者对讲请求过程中采集的图像数据，图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；当图像数据满足第一预设条件时，触发对讲过程结束或者触发对讲请求过程结束。从而可以无需用户手动操作，方便用户使用，进一步的，通过对第一预设条件、第二预设条件的设置，可以提升结束对讲请求或结束对讲的准确性，并合理释放资源，降低对用户使用其他设备的影响等。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种来访对讲控制方法，其特征在于，

应用于电子设备，所述方法包括：

确定对讲请求过程中采集的图像数据，所述图像数据包括对讲请求端的图像数据，或者，对讲请求端的图像数据和对讲接收端的图像数据；

当所述图像数据满足第一预设条件时，触发所述对讲请求过程结束；其中，

所述图像数据满足第一预设条件包括：所述图像数据未检测到人物特征信息，和/或，所述图像数据中检测到人物预设行为信息。

2.根据权利要求1所述的方法，其特征在于，

所述人物特征信息包括：人脸信息、人体轮廓信息、人体红外信息中的至少一种；

所述人物预设行为信息包括：后转信息、侧转信息、远离信息中的至少一种。

3.根据权利要求2所述的方法，其特征在于，

所述后转信息或所述侧转信息或所述远离信息根据所述人脸信息和所述人体轮廓信息的变化获得。

4.根据权利要求1所述的方法，其特征在于，

所述图像数据中未检测到人物特征信息，包括：

所述图像数据中的一采样帧图像未检测到人物特征信息；或者，

所述图像数据中连续预设采样帧数的图像未检测到人物特征信息；或者，

所述图像数据中未检测到人物特征信息持续第一预设时间。

5.根据权利要求1所述的方法，其特征在于，

所述图像数据中检测到人物预设行为信息，包括：

所述图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓；或者，

所述图像数据中的连续采样帧数的图像中检测到人体轮廓从正面轮廓变为侧面轮廓再变为背面轮廓；或者，

所述图像数据中的连续第一预设采样帧数的图像中检测到人体轮廓在图像中的占比变小；或者，

所述图像数据中的连续采样帧数的图像中检测到人体轮廓在图像中的占比变小且小于预设占比；或者，

所述图像数据中的连续第二预设采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加；或者，

所述图像数据中的连续采样帧数的图像中检测到人体轮廓占人体全部轮廓的比例增加且大于预设比例。

6.根据权利要求5所述的方法，其特征在于，

所述正面轮廓或所述背面轮廓或所述侧面轮廓根据人脸信息确定。

7.根据权利要求1所述的方法，其特征在于，

当所述图像数据包括对讲请求端的图像数据和所述对讲接收端的图像数据时,所述当所述图像数据满足第一预设条件时，触发所述对讲请求结束，包括：当所述对讲请求端的图像数据满足所述第一预设条件和所述对讲接收端的图像数据满足所述第一预设条件时，触发所述对讲请求过程结束，所述对讲请求端的图像数据满足的所述第一预设条件和所述对讲接收端的图像数据满足的所述第一预设条件相同或不同。

8.根据权利要求1所述的方法，其特征在于，

所述电子设备包括：对讲请求端设备、对讲接收端设备、云端服务器中的至少一种。

9.根据权利要求8所述的方法，其特征在于，

所述对讲请求端的图像数据由所述对讲请求端设备采集；所述对讲接收端的图像数据由所述对讲接收端的设备采集。

10.根据权利要求8所述的方法，其特征在于，

所述方法还包括：根据所述对讲接收端设备确定的人物信息数据和/或设备状态数据确定所述对讲请求端的图像数据的播放方式。

11.根据权利要求8-10任一所述的方法，其特征在于，

所述对讲请求端设备包括：门铃外机、摄像头、门禁外机中的至少一种；所述对讲接收端设备包括：门铃内机、门禁内机、电视机、路由器、网关设备、客户前置设备CPE(CustomerPremise Equipment)、音箱、智能摄像头、电视盒、电脑、手机中的至少一种。

12.根据权利要求11所述的方法，其特征在于，

所述根据所述对讲接收端设备确定的人物信息数据和/或设备状态数据确定所述对讲请求端的图像数据的播放方式，包括：

当确定所述电视机处于运行状态，则确定通过所述电视机采用画中画的方式播放所述对讲请求端的图像数据；或者，

当确定所述电视机处于运行状态，且确定受访用户与所述电视机处于预设范围内，则确定通过所述电视机采用画中画的方式播放所述对讲请求端的图像数据；或者，

当确定所述电视机处于关闭状态，则确定通过所述电视机采用全屏显示的方式播放所述对讲请求端的图像数据；或者，

当确定所述电视机处于关闭状态，且确定所述受访用户与所述电视机处于预设范围内，则确定通过所述电视机采用全屏显示的方式播放所述对讲请求端的图像数据；或者，

当确定所述手机处于受访用户使用状态，则确定通过所述手机播放所述对讲请求端的图像数据；或者，

当确定所述电脑处于受访用户使用状态，则确定通过所述电脑播放所述对讲请求端的图像数据。

13.一种来访对讲控制方法，其特征在于，

应用于电子设备，所述方法包括：

确定对讲过程中采集的图像数据，所述图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；

当所述图像数据满足第一预设条件时，触发所述对讲过程结束；

所述图像数据满足第一预设条件包括：所述图像数据未检测到人物特征信息；或，所述图像数据满足第一预设条件包括：所述图像数据中检测到人物预设行为信息且所述图像数据未检测到人物特征信息。

14.根据权利要求13所述的方法，其特征在于，

15.根据权利要求14所述的方法，其特征在于，

16.根据权利要求13所述的方法，其特征在于，

所述图像数据中检测到人物预设行为信息，包括：

17.一种来访对讲控制方法，其特征在于，

应用于电子设备，所述方法包括：

确定对讲过程中或者对讲请求过程中采集的图像数据，所述图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；

所述图像数据满足第一预设条件包括：所述图像数据中检测到人物预设行为信息；所述人物预设行为信息包括：后转信息、侧转信息、远离信息中的至少一种。

18.根据权利要求17所述的方法，其特征在于，

所述后转信息或所述侧转信息或所述远离信息根据人脸信息和人体轮廓信息的变化获得。

19.根据权利要求17所述的方法，其特征在于，

所述图像数据中检测到人物预设行为信息，包括：

20.一种来访对讲控制装置，其特征在于，

所述对讲控制装置包括：

确定单元，被配置用于确定对讲请求过程中采集的图像数据，所述图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；

触发单元，被配置用于当所述图像数据满足第一预设条件时，触发所述对讲请求过程结束，其中，所述图像数据满足第一预设条件包括：所述图像数据未检测到人物特征信息，和/或，所述图像数据中检测到人物预设行为信息。

21.一种来访对讲控制装置，其特征在于，

所述对讲控制装置包括：

确定单元，被配置用于确定对讲过程中采集的图像数据，所述图像数据包括对讲请求端的图像数据和/或对讲接收端的图像数据；

触发单元，被配置用于当所述图像数据满足第一预设条件时，触发所述对讲过程结束；所述图像数据满足第一预设条件包括：所述图像数据未检测到人物特征信息；或，所述图像数据满足第一预设条件包括：所述图像数据中检测到人物预设行为信息且所述图像数据未检测到人物特征信息；或者，

触发单元，被配置用于当所述图像数据满足第一预设条件时，触发所述对讲过程结束；所述图像数据满足第一预设条件包括：所述图像数据中检测到人物预设行为信息；所述人物预设行为信息包括：后转信息、侧转信息、远离信息中的至少一种。

22.一种电子设备，其特征在于，

包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-12或13-16或17-19任一项所述的方法。

23.一种计算机可读取存储介质，其特征在于，

所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-12或13-16或17-19任一项所述的方法。