CN112580409A - 目标物体选择方法及相关产品 - Google Patents

目标物体选择方法及相关产品 Download PDF

Info

Publication number
CN112580409A
CN112580409A CN201910944354.4A CN201910944354A CN112580409A CN 112580409 A CN112580409 A CN 112580409A CN 201910944354 A CN201910944354 A CN 201910944354A CN 112580409 A CN112580409 A CN 112580409A
Authority
CN
China
Prior art keywords
candidate
candidate frame
target
determining
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910944354.4A
Other languages
English (en)
Inventor
韩世广
方攀
陈岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910944354.4A priority Critical patent/CN112580409A/zh
Publication of CN112580409A publication Critical patent/CN112580409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本申请公开了一种目标物体选择方法及相关产品,应用于电子设备,其中,该方法包括:显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体;检测用户眼睛针对所述第一界面的第一注视位置;根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框;突出显示所述目标候选框和/或所述目标候选框中的目标物体。本申请实施例不仅能快速的减少图像中的候选框的个数,还能筛选出符合用户需求的候选框。

Description

目标物体选择方法及相关产品
技术领域
本申请涉及目标检测领域,具体涉及一种目标物体选择方法及相关产品。
背景技术
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术,通过计算机对图像中的物体进行识别的应用已经广泛用于日常生活领域,一般的实现方法是对相机预览的图像进行目标检测和分类,获取图像中的物体信息,但在目标检测的过程中,会出现同一个位置上产生大量候选框,且这些大量候选框还可能相互重叠的问题。
目前可以采用非极大值抑制算法和取靠近图片中心的物体候选框为唯一候选框的方式来实现从大量候选框中选择一个候选框的目的,但采用这两种方式也不能够准确的选择出包含用户真正想识别的物体的候选框。
发明内容
本申请实施例提供了一种目标物体选择方法及相关产品,可以在对物体进行识别时,从众多的候选框中选择出包含用户真正想要识别的物体的候选框。
第一方面,本申请实施例提供了一种目标物体选择方法,包括:
显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体;
检测用户眼睛针对所述第一界面的第一注视位置;
根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框;
突出显示所述目标候选框和/或所述目标候选框中的目标物体。
第二方面,本申请实施例提供了一种目标物体选择装置,应用于电子设备,所述装置包括处理单元和通信单元,其中,
所述处理单元,用于通过通信单元显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体;以及用于检测用户眼睛针对所述第一界面的第一注视位置;以及用于根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框;以及用于通过通信单元突出显示所述目标候选框和/或所述目标候选框中的目标物体。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了.一种计算机存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如本实施例第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中所描述的目标物体选择方法及相关产品,能够检测到用户在第一界面上的第一注视位置,进而根据第一注视位置从第一图像上显示的大量的候选框中选择出能够满足用户需求的候选框,并突出显示该选择出的候选框,这样不仅能快速的减少图像中的候选框的个数,还能筛选出符合用户需求的候选框。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种电子设备的背面示意图;
图2是本申请实施例提供的一种目标物体选择方法的流程示意图;
图2-1是本申请实施例提供的电子设备检测图像生成候选框的显示界面;
图2-2是本申请实施例提供的电子设备通过目标物体选择方法选择出目标候选框的界面示意图;
图3是本申请实施例提供的另一种目标物体选择方法的流程示意图;
图4是本申请实施例提供的一种电子设备的结构示意图;
图5是本申请实施例提供的一种目标物体选择装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备,该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
目前,对于利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的应用已经广泛用于日常生活领域,在电子设备上利用计算机对相机预览的图像进行目标检测和分类,往往在目标检测的过程中会出现在同一目标位置上会产生大量的候选框,这些候选框相互之间还会出现重叠,即使采用非极大值抑制算法和取靠近图片中心的候选框作为唯一候选框的方法,依然无法选择出数量既少又能符合用户需求的候选框。
针对上述问题,本申请实施例提供一种目标物体选择方法和产品,下面结合附图对本申请实施例进行详细介绍。
如图1所述,电子设备100包括眼球跟踪控制模块,电子设备100支持基于眼球跟踪技术检测和识别图像中的物体的功能,所述电子设备100在所述基于眼球跟踪技术检测和识别图像中的物体的功能状态下,通过所述眼球跟踪控制模块筛选出目标候选框。
请参阅图2,图2是本申请实施例提供的一种目标物体选择方法的流程示意图,如图所示,本目标物体选择方法包括:
S201,显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体。
其中,第一界面上显示的第一图像,可以是通过本地相册获得,当然也可以是通过云端获得,甚至可以是出现在相机视野内的图像,对于第一图像的获取方式可以是多样的,只要是能够显示在第一界面上的图像,都可以是第一图像。所述的候选框是在对第一图像中的物体进行目标检测时形成的,目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。在目标检测时生成的候选框往往有多个,而且各个候选框之间可能还会有重叠,每个候选框中都有一个主要的物体,有时候不可避免的有些候选框中还会出现其他物体,但此种方式,也可以大致的将图片中的物体利用候选框进行简单划分,方便后续选择出包含符合用户需求的图像的候选框,需要注意的是,通过此种方法生成的候选框应当至少有一个候选框内包含了用户真正需要识别的物体,生成候选框后,如果用户发现没有一个候选框包含了需要识别的物体,则可以重新生成一次候选框,直到存在包含了用户需要识别的候选框为止。
S202,检测用户眼睛针对所述第一界面的第一注视位置。
其中,对第一注视位置的检测利用的是眼球跟踪技术,当人的眼睛看向不同方向时,眼部会有细微的变化,这些变化会产生可以提取的特征,眼球跟踪技术可以是通过对眼球及眼球周边的特征变化进行跟踪,也可以是根据虹膜角度变化进行跟踪,还可以是主动投射红外线等光束到虹膜来提取特征,且通过一般的电脑或手机上的摄像头就可以获取眼球运动信息。对于第一注视位置的获取,可以是通过眼球跟踪技术将在一定的时间段里的眼睛的注视位置理解为第一注视位置,例如,在开始进行对图像中的物体识别后,在2s内,检测到的用户的眼睛观看的地方,就作为第一注视位置。当然,也可以是检测到用户对某一个位置的注视时间超过一定时间范围,则这个位置也可以作为第一注视位置,例如,用户对于图像中的某一个点的注视位置超过2s,那么这个位置也可以作为第一注视位置。还可能是用户在对图像中的物体进行识别时,图像并不是通过照片的形式呈现在界面上的,而是通过摄像的形式呈现的图像,因此当在这2s内,如果候选框移动了位置,则可以将最后一刻获取的注视位置作为第一注视位置,这几种方式既可以分开使用也可以通过结合的方式来选择第一注视位置。
通过眼球跟踪技术,检测用户眼睛针对第一界面的第一注视位置,不仅可以精确的捕捉到用户眼睛在图像上的注视位置,了解用户真正想要识别的图像是什么,而且还可以实时追踪用户的眼球运动,不断变化对第一注视位置的检测,快捷智能的根据用户注视位置的变化里了解用户的真实需求。
S203,根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框。
其中,根据第一注视位置和所多个候选框的位置,确定用户选择的目标候选框,是根据第一注视位置对于在目标检测过程中生成的多个候选框的相对位置来确定的,确定的目标候选框的个数可以是一个也可以是多个,只要候选框的位置满足与第一注视位置的条件,就可以成为目标候选框。从而实现对第一图像上的多个候选框进行筛选,选择出一个包含有用户真正需要识别的物体的候选框。
S204,突出显示所述目标候选框和/或所述目标候选框中的目标物体。
其中的突出显示目标候选框和/或所述目标候选框中的目标物体的方法,可以是通过改变候选框的边框的显示格式,例如将目标候选框的边框变为红色,或是将目标候选框的边框进行变粗加黑处理;也可以是通过只显示目标候选框的方法,例如选出目标候选框后,其余未选中的候选框自动消失,只在第一图像上留下目标候选框,对突出显示采用的方法不作限定,只要能达到突出作用,使得用户能清楚的了解哪些是目标候选框就可以了。突出显示目标候选框和/或所述目标候选框中的目标物体,可以使得用户快速了解到被选中的候选框的有哪些,可以使用户判断出选中的候选框中是否包含有用户真正想要识别的图像。
举一个例子,请参阅图2-1和图2-2,图2-1是本申请实施例提供的电子设备检测图像生成候选框的显示界面;图2-2是本申请实施例提供的电子设备通过目标物体选择方法选择出目标候选框的界面示意图。电子设备以手机为例,用户可以通过拍摄照片的方式,将图像呈现在界面上,当用户想要识别图像中的椅子时,首先是利用目标检测生成候选框,因为图像中既有窗户又有桌子还有椅子,因此生成的候选框有三个,由于桌子和椅子的位置较近,因此包含桌子和包含椅子的候选框出现了部分重叠;然后通过目标物体选择方法获取用户的注视位置,可以知道用户想要识别椅子,因此注视位置在椅子上;然后再根据用户注视位置和这三个候选框之间的关系确定最终的目标候选框,从图2-2可以看出,最终确定的目标候选框为仅包含了椅子的候选框,因此消除其他候选框,留下目标候选框。
再举例说明一下,电子设备以手机为例,例如,用户想要对花丛中的蝴蝶进行识别,用户可以打开手机的摄行功能,不用拍照,只需要界面上显示出带有蝴蝶的图像就可以了,然后通过目标检测,在拍摄的照片上生成多个候选框,这些候选框至少会有一个候选框包含有用户想要识别的蝴蝶,然后通过对用户的眼睛注视位置的追踪,确定用户的注视位置,在确定用户注视位置这段时间内,即使蝴蝶移动位置,但可以知道因为用户想要识别的物体是蝴蝶,因此在获取注视位置这个过程中用户会注视蝴蝶,候选框会根据蝴蝶的移动而变化,获取的用户的注视位置也会随之移动,将最后一刻的候选框的位置和获取的用户注视位置作为最终的候选框的位置和注视位置,因而获取的注视位置会在蝴蝶所在的区域内,然后通过对注视位置与每一个候选框所在的位置进行比对,选择出包含有蝴蝶的候选框作为目标候选框,最后将选出的候选框的边框标红,以红色的候选框为目标候选框。
可以看出,本申请实施例中,通过目标检测在图像中生成多个候选框,再利用眼球跟踪技术获取用户在图像上的注视位置,根据注视位置和候选框所在的位置的不同,选择出目标候选框,最后突出显示目标候选框和/或所述目标候选框中的目标物体。通过此种方法,既能够对众多的候选框进行筛选,也能使得选出的候选框是符合用户需求的,所选择出的候选框不仅包含有用户想要识别的物体,而且与用户想要识别的物体紧密相关。
在一个可能的实例中,所述第一注视位置为单个坐标点;所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框,包括:确定所述第一注视位置的坐标点;计算每个候选框的中心点与所述坐标点的距离;根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框。
其中,所述第一注视位置为单个坐标点,是利用眼球跟踪技术检测第一注视位置时,检测到用户是单点聚焦到某一个点上,即用户在注视第一图像时,眼睛没有移动得到的。根据计算结果,将距离坐标点最近的一个候选框作为目标候选框。若计算出各个候选框的中心点与第一注视位置的坐标点的距离最近的值所对应的候选框只有一个,则将这个候选框作为目标候选框;若计算出各个候选框的中心点与第一注视位置的坐标点的距离最近的值所对应的候选框有多个,则将这多个候选框都作为目标候选框。
可见,本示例中,若用户注视图像时是聚焦在一个点上的,则根据眼球跟踪技术获得的注视位置就为单个坐标点,利用计算坐标点与候选框中心的距离的方法来确定目标候选框,能够既快速又准确的筛选出符合用户需求的候选框。
在一个可能的实例中,所述根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框,包括:若所述距离最短的候选框包括单个参考候选框,则确定所述单个参考候选框为所述目标候选框;若所述距离最短的候选框包括多个参考候选框,则识别所述多个参考候选框中每个参考候选框的图像信息,得到多个图像信息;确定所述多个图像信息中与当前用户关联度最高的目标图像信息,确定所述目标图像信息对应的参考候选框为所述目标候选框。
其中,候选框中心与坐标点的距离最近的候选框的个数是不确定的,因此将候选框中心与坐标点的距离最近的候选框作为参考候选框,如果参考候选框只有一个,则就将这个参考候选框作为最后的目标候选框,若干参考候选框有多个,则还要根据候选框中的图像信息来确定最后的目标候选框。
所述图像信息包括,候选框中物体的类型,名字,用途等。所述与当前用户关联度最高的目标图像信息,可以是根据用户的历史数据统计分析得到的用户的喜好,根据用户喜好选择一个图像信息与之最接近的候选框,作为最终的目标候选框。当然也可以是根据最近几次的利用目标物体选择方法选择的目标候选框中所包含的物体的类型,名字或用途等内容,将当下参考候选框中与之前的图像信息相近似的物体所在的参考候选框作为目标候选框,例如,之前5次利用目标物体选择方法选择出的候选框中包含的图像信息,皆是狗,此次的参考候选框中包含的图像信息既有树木,桌子,还有猫和狗,则将包含有狗的参考候选框作为目标候选框,若此次的参考候选框中包含的图像信息有植物和动物,则将包含有动物的参考候选框作为目标候选框。
可见,本示例中,若用户注视图像时是聚焦在一个点上的,则根据眼球跟踪技术获得的注视位置就为单个坐标点,利用计算坐标点与候选框中心的距离的方法来确定目标候选框,能够既快速又准确的筛选出符合用户需求的候选框。当根据距离的远近筛选出的候选框不只一个时,再根据候选框中的图像信息与用户的关联程度来选择一个与用户最相关的图像信息所在的候选框,保证了最后筛选出的候选框不管是在空间上还是在内容上都与用户的注视位置和需求紧密联系。
在一个可能的实例中,所述第一注视位置为多个连续坐标点;所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框,包括:确定所述多个连续坐标点中处于每个候选框内的坐标点的个数;根据所述多个候选框中所述个数最多的一个或多个候选框确定所述目标候选框。
其中,所述第一注视位置为多个连续的坐标点,可以是在利用眼球跟踪技术检测用户注视位置时,用户眼睛沿着一定的轨迹滚动或滑动注视物体产生的,这多个连续的坐标点的轨迹可以是连续的环形框,也可以是连续的线段。若得到的所述坐标点的个数最多的值对应的候选框只有一个,则将这个候选框最为目标候选框,若得到的所述坐标点的个数最多的值对应的候选框有多个,则将这多个候选框均作为目标候选框。
可见,本示例中,若用户在注视图像时眼睛滑动或滚动注视时,就会使得第一注视位置为连续的坐标点,利用坐标点在每个候选框中的数量不同确定目标候选框,这样不仅可以使得目标候选框都包含有用户真正想要识别的物体,而且目标候选框还是与用户想要识别的物体也有足够的关联。
在一个可能的实施例中,所述根据所述多个候选框中所述个数最多的一个或多个候选框确定所述目标候选框,包括:若所述个数最多的候选框包括单个参考候选框,则确定所述单个参考候选框为所述目标候选框;若所述个数最多的候选框包括多个参考候选框,则确定所述多个参考候选框中每个参考候选框中包含的参考坐标点的数量相对于候选框坐标点数量的占比,所述参考坐标点为所述多个连续坐标点中处于所述每个参考候选框的坐标点;确定所述多个参考候选框中占比最大的参考候选框为所述目标候选框。
其中,包含坐标点个数最多的候选框的个数是不确定的,因此,将包含坐标点的个数最多的候选框作为参考候选框,若干参考候选框只有一个,则将这个参考候选框作为目标候选框,如果参考候选框有多个,则再次计算多个参考候选框中每个参考候选框中包含的参考坐标点的数量相对于候选框坐标点数量的占比,这里的占比是数量之比,当然还可以通过计算坐标点围成的图形的面积与候选框的面积之比,来确定最后的目标候选框。
可见,本示例中,若用户在注视图像时眼睛滑动或滚动注视时,就会使得第一注视位置为连续的坐标点,当得到的所述坐标点的个数最多的值对应的候选框有多个时,再通过计算每个参考候选框中包含的参考坐标点的数量相对于候选框坐标点数量的占比来确定最终的目标候选框,可以使得筛选出的候选框与第一注视位置的联系是最紧密的,因此更能符合用户的需求。
在一个可能的实施例中,所述突出显示所述目标候选框和/或所述目标候选框中的目标物体后,所述方法还包括:扫描所述目标候选框,获取所述目标候选框中的第二图像的影像识别信息,并在所述第一界面上显示所述影像识别信息。
其中,所述影像识别信息包括环形框中的物体的类型,名称,用途等,例如,目标候选框中的物体是一只狗,则通过对候选框中的狗进行识别,获取狗的品种和此类品种的狗的相关信息,如产地,外形,脾性等信息。
可见,本示例中,通过显示目标候选框中的影像识别信息,实现了用户想要识别第一图像中的物体的目的,通过先选择目标候选框再对候选框中的物体进行识别,可以使得最后显示出的影像识别信息是符合用户需求的,也能够节约用户时间和检测次数。
在一个可能的实施例中,所述检测用户眼睛针对所述第一界面的第一注视位置之后,所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框之前,所述方法还包括:若所述第一注视位置为单个坐标点,则根据所述坐标点所属分区确定所述第一注视位置为有效注视位置;若所述第一注视位置为多个连续坐标点,则根据所述多个连续坐标点的方向特性确定所述第一注视位置为有效注视位置。
其中,所述的坐标点所属分区包括,所述的坐标点所属的位置在第一图像上的位置,例如,将第一图像从图像的中心开始,划分成若干个环形区域,若所述坐标点的位置在最外面的环形区域或根本不在任何一个环形区域内,则确定所述坐标点对应的第一注视位置为无效注视位置,反之,则为有效注视位置。所述坐标点的方向特性包括,所述连续的坐标点形成的轨迹是单一的从一个方向到另一个方向,或者是从一个方向到另一个方向后,再返回原方向,这样的连续的坐标点所对应的第一注视位置,为有效注视位置,若所述的连续的坐标点形成的轨迹是无序混乱的,则确定所述连续的坐标点对应的第一注视位置是无效注视位置。
可见,本示例中,通过此种方法可以使得根据目标物体选择方法获得的注视位置对应的目标候选框包含得有用户真正想要识别的物体,也可以避免用户对第一图像的无意识的注视或随意浏览造成选中的候选框中不包含用户真正想要识别的物体。
与上述图2所示的实施例一致的,请参阅图3,图3是本申请实施例提供的另一种目标物体选择方法的流程示意图,如图所示,本申请一中目标物体选择方法包括以下步骤:
S301,显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体;
S302,检测用户眼睛针对所述第一界面的第一注视位置;
S303,所述第一注视位置为单个坐标点,确定所述第一注视位置的坐标点;
S304,计算每个候选框的中心点与所述坐标点的距离;
S304,根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框;
S308,突出显示所述目标候选框和/或所述目标候选框中的目标物体。
可以看出,本实施例中,所述第一注视位置为单个坐标点,也就是说是在利用眼球跟踪技术检测第一注视位置时,检测到用户是单点聚焦到某一个点上,即用户在注视第一图像时,眼睛没有移动得到的。若计算出各个候选框的中心点与第一注视位置的坐标点的距离最近的值所对应的候选框只有一个,则将这个候选框作为目标候选框;若计算出各个候选框的中心点与第一注视位置的坐标点的距离最近的值所对应的候选框有多个,则将这多个候选框都作为目标候选框。这样不仅可以使得目标候选框都包含有用户真正想要识别的物体,而且目标候选框还是与用户想要识别的物体紧密度足够的。
与上图2、图3所示的实施例一致的,请参阅图4,图4是本申请实施例提供的一种电子设备的结构示意图,如图所示,所述电子设备400包括应用处理器410、存储器420、通信接口430以及一个或多个程序421,其中,所述一个或多个程序421被存储在上述存储器420中,且被配置由上述应用处理器410执行,所述一个或多个程序421包括用于执行上述方法实施例中任一步骤的指令。
在一个可能的实例中,所述程序421中的指令用于执行以下操作:显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体;检测用户眼睛针对所述第一界面的第一注视位置;根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框;突出显示所述目标候选框和/或所述目标候选框中的目标物体。
可以看出,本申请实施例所描述的电子设备,能够检测到用户在第一界面上的第一注视位置,进而根据第一注视位置从第一图像上显示的大量的候选框中选择出能够满足用户需求的候选框,并突出显示该选择出的候选框,这样不仅能快速的筛选掉其他不符合用户需求的候选框,还能保证选出的候选框是用户真正想要的。
在一个可能的示例中,在所述第一注视位置为单个坐标点;所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框方面,所述程序指令421还包括用于执行以下操作的指令:确定所述第一注视位置的坐标点;计算每个候选框的中心点与所述坐标点的距离;根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框。
在一个可能的示例中,在所述根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框方面,所述程序指令421还包括用于执行以下操作的指令:
若所述距离最短的候选框包括单个参考候选框,则确定所述单个参考候选框为所述目标候选框;若所述距离最短的候选框包括多个参考候选框,则识别所述多个参考候选框中每个参考候选框的图像信息,得到多个图像信息;确定所述多个图像信息中与当前用户关联度最高的目标图像信息,确定所述目标图像信息对应的参考候选框为所述目标候选框。
在一个可能的示例中,在所述第一注视位置为多个连续坐标点;所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框方面,所述程序指令421还包括用于执行以下操作的指令:确定所述多个连续坐标点中处于每个候选框内的坐标点的个数;根据所述多个候选框中所述个数最多的一个或多个候选框确定所述目标候选框。
在一个可能的示例中,在所述根据所述多个候选框中所述个数最多的一个或多个候选框确定所述目标候选框方面,所述程序指令421还包括用于执行以下操作的指令:
若所述个数最多的候选框包括单个参考候选框,则确定所述单个参考候选框为所述目标候选框;若所述个数最多的候选框包括多个参考候选框,则确定所述多个参考候选框中每个参考候选框中包含的参考坐标点的数量相对于候选框坐标点数量的占比,所述参考坐标点为所述多个连续坐标点中处于所述每个参考候选框的坐标点;确定所述多个参考候选框中占比最大的参考候选框为所述目标候选框。
在一个可能的示例中,所述突出显示所述目标候选框和/或所述目标候选框中的目标物体后,所述程序指令421还包括用于执行以下操作的指令:扫描所述目标候选框,获取所述目标候选框中的第二图像的影像识别信息,并在所述第一界面上显示所述影像识别信息。
在一个可能的示例中,所述检测用户眼睛针对所述第一界面的第一注视位置之后,所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框之前,所述程序指令421还包括用于执行以下操作的指令:
若所述第一注视位置为单个坐标点,则根据所述坐标点所属分区确定所述第一注视位置为有效注视位置;若所述第一注视位置为多个连续坐标点,则根据所述多个连续坐标点的方向特性确定所述第一注视位置为有效注视位置。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述各个步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图5是本申请实施例提供的一种目标物体选择装置的功能单元组成框图。该目标物体选择装置500应用于支持眼球跟踪控制的电子设备,所述电子设备包括眼球跟踪控制模块,所述电子设备根据目标物体选择方法控制对候选框的选择,所述目标物体选择装置包括处理单元501和通信单元502,其中,所述处理单元501,用于执行如上述方法实施例中的任一步骤,且在执行诸如获取等数据传输时,可选择的调用所述通信单元502来完成相应操作。下面进行详细说明。
所述处理单元501,用于通过通信单元显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体;以及用于检测用户眼睛针对所述第一界面的第一注视位置;以及用于根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框;以及用于通过通信单元突出显示所述目标候选框和/或所述目标候选框中的目标物体。
在一个可能的实施例中,在所述第一注视位置为单个坐标点;所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框方面,所述处理单元501还可用于确定所述第一注视位置的坐标点;以及用于计算每个候选框的中心点与所述坐标点的距离;以及用于根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框。
在一个可能的实施例中,在所述根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框方面,所述处理单元501还可用于若所述距离最短的候选框包括单个参考候选框,则确定所述单个参考候选框为所述目标候选框;以及用于若所述距离最短的候选框包括多个参考候选框,则识别所述多个参考候选框中每个参考候选框的图像信息,得到多个图像信息;以及用于确定所述多个图像信息中与当前用户关联度最高的目标图像信息,确定所述目标图像信息对应的参考候选框为所述目标候选框。
在一个可能的实施例中,在所述第一注视位置为多个连续坐标点;所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框方面,所述处理单元501还可用于确定所述多个连续坐标点中处于每个候选框内的坐标点的个数;以及用于根据所述多个候选框中所述个数最多的一个或多个候选框确定所述目标候选框。
在一个可能的实施例中,在所述根据所述多个候选框中所述个数最多的一个或多个候选框确定所述目标候选框方面,所述处理单元501还可用于若所述个数最多的候选框包括单个参考候选框,则确定所述单个参考候选框为所述目标候选框;以及用于若所述个数最多的候选框包括多个参考候选框,则确定所述多个参考候选框中每个参考候选框中包含的参考坐标点的数量相对于候选框坐标点数量的占比,所述参考坐标点为所述多个连续坐标点中处于所述每个参考候选框的坐标点;以及用于确定所述多个参考候选框中占比最大的参考候选框为所述目标候选框。
在一个可能的实施例中,在所述突出显示所述目标候选框和/或所述目标候选框中的目标物体后,所述处理单元501还可用于扫描所述目标候选框,获取所述目标候选框中的第二图像的影像识别信息,并在所述第一界面上显示所述影像识别信息。
在一个可能的实施例中,在所述检测用户眼睛针对所述第一界面的第一注视位置之后,所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框之前,所述处理单元501还可用于若所述第一注视位置为单个坐标点,则根据所述坐标点所属分区确定所述第一注视位置为有效注视位置;以及用于若所述第一注视位置为多个连续坐标点,则根据所述多个连续坐标点的方向特性确定所述第一注视位置为有效注视位置。
其中,所述目标物体选择装置500还可以包括存储单元503,用于存储电子设备的程序代码和数据。所述处理单元501可以是处理器,所述通信单元502可以收发器,存储单元503可以是存储器。
可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请中方法实施例部分的内容应同步适配于装置实施例部分,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种目标物体选择方法,其特征在于,包括:
显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体;
检测用户眼睛针对所述第一界面的第一注视位置;
根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框;
突出显示所述目标候选框和/或所述目标候选框中的目标物体。
2.根据权利要求1所述的方法,其特征在于,所述第一注视位置为单个坐标点;所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框,包括:
确定所述第一注视位置的坐标点;
计算每个候选框的中心点与所述坐标点的距离;
根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个候选框中距离最短的一个或多个候选框确定所述目标候选框,包括:
若所述距离最短的候选框包括单个参考候选框,则确定所述单个参考候选框为所述目标候选框;
若所述距离最短的候选框包括多个参考候选框,则识别所述多个参考候选框中每个参考候选框的图像信息,得到多个图像信息;确定所述多个图像信息中与当前用户关联度最高的目标图像信息,确定所述目标图像信息对应的参考候选框为所述目标候选框。
4.根据权利要求1所述的方法,其特征在于,所述第一注视位置为多个连续坐标点;所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框,包括:
确定所述多个连续坐标点中处于每个候选框内的坐标点的个数;
根据所述多个候选框中所述个数最多的一个或多个候选框确定所述目标候选框。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个候选框中所述个数最多的一个或多个候选框确定所述目标候选框,包括:
若所述个数最多的候选框包括单个参考候选框,则确定所述单个参考候选框为所述目标候选框;
若所述个数最多的候选框包括多个参考候选框,则确定所述多个参考候选框中每个参考候选框中包含的参考坐标点的数量相对于候选框坐标点数量的占比,所述参考坐标点为所述多个连续坐标点中处于所述每个参考候选框的坐标点;
确定所述多个参考候选框中占比最大的参考候选框为所述目标候选框。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述突出显示所述目标候选框和/或所述目标候选框中的目标物体后,所述方法还包括:
扫描所述目标候选框,获取所述目标候选框中的第二图像的影像识别信息,并在所述第一界面上显示所述影像识别信息。
7.根据权利要求6所述的方法,其特征在于,所述检测用户眼睛针对所述第一界面的第一注视位置之后,所述根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框之前,所述方法还包括:
若所述第一注视位置为单个坐标点,则根据所述坐标点所属分区确定所述第一注视位置为有效注视位置;
若所述第一注视位置为多个连续坐标点,则根据所述多个连续坐标点的方向特性确定所述第一注视位置为有效注视位置。
8.一种目标物体选择装置,其特征在于,应用于电子设备,所述装置包括处理单元和通信单元,其中,
所述处理单元,用于通过通信单元显示第一界面,所述第一界面显示有第一图像,且所述第一图像上显示有多个候选框,每一候选框对应一个待选择目标物体;以及用于检测用户眼睛针对所述第一界面的第一注视位置;以及用于根据所述第一注视位置和所述多个候选框的位置,确定用户选择的目标候选框;以及用于通过通信单元突出显示所述目标候选框和/或所述目标候选框中的目标物体。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-5任一项所述的方法中的步骤的指令。
10.一种计算机存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。
CN201910944354.4A 2019-09-30 2019-09-30 目标物体选择方法及相关产品 Pending CN112580409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910944354.4A CN112580409A (zh) 2019-09-30 2019-09-30 目标物体选择方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910944354.4A CN112580409A (zh) 2019-09-30 2019-09-30 目标物体选择方法及相关产品

Publications (1)

Publication Number Publication Date
CN112580409A true CN112580409A (zh) 2021-03-30

Family

ID=75117325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910944354.4A Pending CN112580409A (zh) 2019-09-30 2019-09-30 目标物体选择方法及相关产品

Country Status (1)

Country Link
CN (1) CN112580409A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378742A (zh) * 2021-06-21 2021-09-10 梅卡曼德(北京)机器人科技有限公司 图像识别方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048964A1 (en) * 2014-08-13 2016-02-18 Empire Technology Development Llc Scene analysis for improved eye tracking
CN105512685A (zh) * 2015-12-10 2016-04-20 小米科技有限责任公司 物体识别方法和装置
CN106815604A (zh) * 2017-01-16 2017-06-09 大连理工大学 基于多层信息融合的注视点检测方法
CN108255299A (zh) * 2018-01-10 2018-07-06 京东方科技集团股份有限公司 一种图像处理方法及装置
CN109377508A (zh) * 2018-09-26 2019-02-22 北京字节跳动网络技术有限公司 图像处理方法和装置
CN110245250A (zh) * 2019-06-11 2019-09-17 Oppo广东移动通信有限公司 图像处理方法及相关装置
CN110286754A (zh) * 2019-06-11 2019-09-27 Oppo广东移动通信有限公司 基于眼球追踪的投射方法及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048964A1 (en) * 2014-08-13 2016-02-18 Empire Technology Development Llc Scene analysis for improved eye tracking
CN105512685A (zh) * 2015-12-10 2016-04-20 小米科技有限责任公司 物体识别方法和装置
CN106815604A (zh) * 2017-01-16 2017-06-09 大连理工大学 基于多层信息融合的注视点检测方法
CN108255299A (zh) * 2018-01-10 2018-07-06 京东方科技集团股份有限公司 一种图像处理方法及装置
CN109377508A (zh) * 2018-09-26 2019-02-22 北京字节跳动网络技术有限公司 图像处理方法和装置
CN110245250A (zh) * 2019-06-11 2019-09-17 Oppo广东移动通信有限公司 图像处理方法及相关装置
CN110286754A (zh) * 2019-06-11 2019-09-27 Oppo广东移动通信有限公司 基于眼球追踪的投射方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378742A (zh) * 2021-06-21 2021-09-10 梅卡曼德(北京)机器人科技有限公司 图像识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US10474233B2 (en) Enabling augmented reality using eye gaze tracking
US8218830B2 (en) Image editing system and method
US11520824B2 (en) Method for displaying information, electronic device and system
CN108919958A (zh) 一种图像传输方法、装置、终端设备及存储介质
EP3767520A1 (en) Method, device, equipment and medium for locating center of target object region
US20200081524A1 (en) Method and appartus for data capture and evaluation of ambient data
CN109996051B (zh) 一种投影区域自适应的动向投影方法、装置及系统
JP4061379B2 (ja) 情報処理装置、携帯端末、情報処理方法、情報処理プログラム、およびコンピュータ読取可能な記録媒体
JP2011029737A (ja) 監視映像検索装置及び監視システム
CN110286754B (zh) 基于眼球追踪的投射方法及相关设备
CN112632349B (zh) 展区指示方法、装置、电子设备及存储介质
CN113873166A (zh) 视频拍摄方法、装置、电子设备和可读存储介质
CN112887615B (zh) 拍摄的方法及装置
CN112817447B (zh) 一种ar内容显示方法及系统
CN112580409A (zh) 目标物体选择方法及相关产品
CN110933314B (zh) 追焦拍摄方法及相关产品
CN110262663B (zh) 基于眼球追踪技术的日程生成方法及相关产品
CN115883959B (zh) 用于隐私保护的画面内容控制方法及相关产品
CN116363725A (zh) 显示设备的人像追踪方法、系统、显示设备及存储介质
CN113342157A (zh) 眼球追踪处理方法及相关装置
US20220283698A1 (en) Method for operating an electronic device in order to browse through photos
CN111432131B (zh) 一种拍照框选的方法、装置、电子设备及存储介质
CN110941344B (zh) 获取注视点数据的方法及相关装置
CN114387157A (zh) 一种图像处理方法、装置及计算机可读存储介质
CN114610150A (zh) 图像处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination