CN111163261B - 目标检测方法、电路、视障辅助设备、电子设备和介质 - Google Patents
目标检测方法、电路、视障辅助设备、电子设备和介质 Download PDFInfo
- Publication number
- CN111163261B CN111163261B CN201911353328.0A CN201911353328A CN111163261B CN 111163261 B CN111163261 B CN 111163261B CN 201911353328 A CN201911353328 A CN 201911353328A CN 111163261 B CN111163261 B CN 111163261B
- Authority
- CN
- China
- Prior art keywords
- image
- bounding box
- target object
- distance
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
- H04N23/632—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
- H04N23/635—Region indicators; Field of view indicators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/02—Recognising information on displays, dials, clocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
- Character Input (AREA)
Abstract
提供一种目标检测方法、电路、视障辅助设备、电子设备和介质。所述目标检测方法包括:获取摄像机捕捉的图像;检测所述图像中是否存在包含目标对象的至少一部分的边界框;如果在所述图像中检测到所述边界框,则在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示;如果在所述图像中未检测到所述边界框,则提供检测不到边界框的提示。
Description
技术领域
本公开涉及图像处理领域,特别涉及一种目标检测方法、电子电路、视障辅助设备、电子设备和计算机可读存储介质。
背景技术
近年来,目标检测技术在各领域得到了广泛的应用,一直是业界关注的焦点之一。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一方面,提供一种目标检测方法,包括:获取摄像机捕捉的图像;检测所述图像中是否存在包含目标对象的至少一部分的边界框;如果在所述图像中检测到所述边界框,则在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示;如果在所述图像中未检测到所述边界框,则提供检测不到边界框的提示。
根据本公开的另一方面,提供一种电子电路,包括:被配置为执行上述的方法的步骤的电路。
根据本公开的另一方面,还提供一种视障辅助设备,包括:摄像机,被配置为获取图像;上述的电子电路;被配置为对所述图像中包含的文字进行文字检测和识别以获得文字数据的电路;被配置为将所述文字数据转换成声音数据的电路;以及被配置为输出所述声音数据和/或所述文字数据的电路。
根据本公开的另一方面,还提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的方法。
根据本公开的另一方面,还提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据本公开的一个示例性实施例的目标检测方法的流程图。
图2(a)示出了在图像中检测到的目标对象的边界框的示意图,图2(b)示出了在图像中检测到的目标对象的完整边界框的示意图。
图3示出了一个检测边界框的示例性过程的示意图。
图4示出了一个示例性的用于通过距离阈值来判断是否边界框的图示。
图5(a)、图5(b)、图5(c)、图5(d)、图5(e)、图5(f)示出了边界框的边与图像的边出现重合的示例情形。
图6给出了一个基于边界框的边与图像的相应边的距离范围判断是否边界框的示例。
图7(a)、图7(b)、图7(c)示出了边界框的边与图像的相应边的距离不在特定距离范围内的示例情形。
图8(a)、图8(b)给出了边界框的中心位置与图像的中心区域之间的位置关系的示例情形。
图9(a)、图9(b)、图9(c)给出边界框的面积与图像的面积之间的关系的示例情形。
图10给出了文本行倾斜的示例情形。
图11(a)、图11(b)、图11(c)、图11(d)、图11(e)、图11(f)示出了两两组合的判断方式的示例。
图12(a)、图12(b)、图12(c)示出了组合更多种判断条件来进行判断的示例,图12(d)示出了通过文本行倾斜角度来判断目标对象在图像中的位置是否合适的示例。
图13是示出根据本公开的另一个示例性实施例的目标检测方法的流程图。
图14是示出根据本公开的示例性实施例的电子设备的结构框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
对于不提供预览图(例如不带显示屏的可穿戴设备)或者无法看到预览图(例如视障用户)的情形,会存在摄像机未对准目标对象的情况,这种未对准的情况导致目标对象的识别存在问题。例如,在目标对象中包含文字的情况下,这种未对准的情况使得文字识别出现问题。
本公开提供了一种目标检测方法。图1是示出根据本公开的示例性实施例的目标检测方法的流程图。
如图1所示,根据本公开的示例性实施例的目标检测方法包括:步骤S101,获取摄像机捕捉的图像;步骤S102,检测所述图像中是否存在包含目标对象的至少一部分的边界框;步骤S103,如果在所述图像中检测到所述边界框,则在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示;以及步骤S104,如果在所述图像中未检测到所述边界框,则提供检测不到边界框的提示。
在步骤S101,获取摄像机捕捉的图像,以检测图像中是否存在目标对象。
根据一些实施例,用于捕捉图像的摄像机能够进行静态或动态的图像捕捉,其可以是独立装置(例如照相机、视频摄像机、摄像头等),也可以包括在各类电子设备(例如移动电话、计算机、个人数字助理、视障辅助设备、平板计算机、阅读辅助设备、可穿戴设备等)中。
根据一些实施例,在本步骤中,摄像机捕捉的图像可以是预览图像,而不必须是拍摄的图像。
根据一些实施例,摄像机可以设置于例如用户的可穿戴设备、辅助阅读眼镜、手持式设备等设备上,从而获取的所述图像可以是由例如在可穿戴设备或辅助阅读眼镜上设置的摄像机所捕捉的目标对象的图像。
根据一些实施例,目标对象可以是放置在某处的物体,或者可以是握持在用户手中或者由用户扶持的物体等。
根据一些实施例,目标对象可以具有规则的形状,也可以具有不规则的形状。
根据一些实施例,目标对象可以是不固定的,例如可以由用户移动,也可以通过用于移动目标对象的移动装置来移动,比如能够移动的目标对象可以为:身份证、名片、护照、驾照、读物、平板计算机、移动电话等;甚至,目标对象自身可以移动,例如车辆等。根据一些实施例,目标对象也可以是不能移动的,例如安装在墙上的电视、固定的公告牌等。
根据一些实施例,所述目标对象中可包含例如各种形式的文字、数字、字符、符号、图等内容。
根据一些实施例,所获取的图像可以直接是由摄像机捕捉的图像,也可以是在摄像机捕捉的图像基础上经过了某种或一些预先处理的图像,所述预先处理例如可以包括去躁、对比度增强、分辨率处理等等。
根据一些实施例,可以实时地从摄像机获取图像,也可以在摄像机捕捉图像之后的一段时间获取图像。
根据一些实施例,获取的图像可以是经过预先筛选的图像,例如经过多次捕捉,选取其中较为清楚的图像。
在步骤S102,在获取图像之后,检测所述图像中是否存在包含目标对象的至少一部分的边界框。
图2(a)示出了在图像801中检测到的、其中包含目标对象802的一部分的边界框803(不完整边界框),图2(b)示出了在图像801’中检测到的、其中包含整个目标对象802的边界框803’(完整边界框)。
在图像中检测到的目标对象的边界框至少包围被捕捉到图像中的目标对象(图像中可能包含整个目标对象,也有可能只包含目标对象的一部分),也就是说,目标对象的边界框至少包围由目标对象在图像中的实际轮廓构成的真实边框。
虽然图2(a)中示出的边界框803包围的区域不仅包括目标对象802的一部分,还包括捕捉到的目标对象802之外的区域,但是,边界框803也可以与捕捉到的目标对象802的那一部分的真实轮廓相吻合(大致吻合),此时的边界框为包围目标对象802的那一部分的真实轮廓的最小边界框。类似地,虽然图2(b)中示出的完整边界框803’包围的区域不仅包括整个目标对象802,还包括目标对象802之外的区域,但是,完整边界框803’也可以与目标对象802的整个真实轮廓相吻合(大致吻合),此时的完整边界框为包围目标对象802的整个真实轮廓的最小边界框。
换言之,本文所述的“边界框”可以指包括目标对象的至少一部分,即,可以是全部,也可以是一部分;而“完整边界框”可以指在该边界框中要包含整个目标对象。如果没有检测到边界框,则属于“检测不到包含目标对象的至少一部分的边界框”或者“确定在图像中不存在包含目标对象的至少一部分的边界框”。如果没有将整个目标对象捕捉进图像,导致在图像中检测不到目标对象的完整边界框,则属于“检测不到包含整个目标对象的完整边界框”或者“确定在图像中不存在包含整个目标对象的完整边界框”。
如果“检测不到包含目标对象的至少一部分的边界框”或者“确定在图像中不存在包含目标对象的至少一部分的边界框”,则表示在该图像很可能未捕捉到目标对象从而可能未包含目标对象。根据一些实施例,首先会判断是否存在检测不到边界框的这种情况,以自动地判断图像质量,并且如果确定存在这种情况,还将自动地给出适合用户的提示(“检测不到边界框的提示”),以有助于用户快速地调整目标对象与摄像机的相对位置,更快地获得满足质量要求(例如目标对象在图像中的位置和/或大小等是否合适)的图像,从而有效地节约了处理资源,大大地缩短了处理时间。
根据一些实施方式,本公开的目标检测方法和相关电路及设备等可以用于视障辅助和可穿戴设备,在视力障碍的用户难以用视觉判断图像质量或者用户佩戴的可穿戴设备不提供显示屏的情况下,通过自动帮助用户预先判断图像质量,并且还能进一步自动提示用户,从而获得更好质量的图像。
如图1所示,如果在所述图像中没有检测到包含目标对象的至少一部分的边界框,则可以转到步骤S104,提供检测不到边界框的提示。
根据一些实施例,检测不到边界框的提示可以包括使目标对象远离和/或使目标对象偏移。由于检测不到边界框,所以说明目标对象可能太大或者相对于摄像机的取景框位置有些偏,所以可以通过使目标对象远离和/或使目标对象偏移来进一步对准目标对象与摄像机。
根据一些实施例,可以先检测目标对象的边界框,在检测到目标对象的边界框(确认捕捉到目标对象)之后,再检测该边界框是否属于完整边界框,即该边界框是否包含了整个目标对象。
如图3所示,步骤S102中的所述“检测图像中是否存在包含目标对象的至少一部分的边界框”例如可以包括步骤S1021、S1022。
在步骤S1021,检测所述图像中是否存在与所述目标对象对应的边界框,即,包含所述目标对象的至少一部分的边界框。
根据一些实施例,可以使用目标检测算法(例如R-CNN、Fast R-CNN、RFCN等)来检测目标对象的边界框。目标检测算法在检测到图像上的目标对象之后,可以输出用于表示边界框的位置的参数,这样的参数可以包括该边界框的中心坐标、宽度和高度的信息。由此可以根据得到的边界框的中心坐标、宽度和高度的信息,获取边界框的各顶点的坐标。请注意,用于表示边界框的位置的参数还可以包括其它能够表示位置信息的参数组合,而不仅限于这里举出的示例。实际上,可以根据目标检测的具体需求来选择要使用哪些用于表示位置的参数。
根据一些实施例,目标对象的边界框还可以由用户检测,或采用其它的用于根据目标对象的位置来确定边界框的检测方式。
根据一些实施例,检测到的目标对象的边界框可以是一个矩形框,如图2(a)与图2(b)所示。此时,该矩形框例如可以通过四个顶点位置来确定。
根据一些实施例,检测到的目标对象的边界框还可以是矩形以外的形状,例如圆形、多边形、椭圆形等其他规则的形状,或者不规则的各种形状。本公开对于边界框的形状不加限制。
根据一些实施例,如果在步骤S1021中,在所述图像中未检测到所述边界框,则转到步骤S104,提供检测不到边界框的提示。
如果在步骤S1021中,在所述图像中检测到与所述边界框,则转到步骤S1022,通过检测所述边界框的边与所述图像的相应边之间是否有重合,来确定检测到的所述边界框是否为包含整个目标对象的完整边界框。
如果所述边界框的边与所述图像的相应边之间有重合(“是”),则确定检测到的所述边界框不是完整边界框,则转到步骤S105,提供检测不到完整边界框的提示。
关于所述边界框的边与所述图像的相应边之间有重合,可以是所述边界框的至少一条边的至少一部分与所述图像的相应边的至少一部分之间有重合。即,不一定是整条边重合才属于重合,而是边的一部分出现重合(不是整条边重合)也属于重合。因此,不仅整条边重合属于检测不到完整边界框,边的一部分出现重合也属于检测不到完整边界框。
如上所述,在本公开中,还可以在确定检测到目标对象的边界框之后,进一步确定图像中检测到的目标对象的边界框是否完整边界框,即,图像中是否包含完整的目标对象,或者说,图像中检测到的边界框是否能够包围整个目标对象。
例如,对于形状规则的身份证、读物(书、杂志等纸介质读物,或者电子书等电子读物)等的作为目标对象的物体,可以检测图像中拍到的该物体的轮廓是否露出。假如目标对象是一本纸介质的实体书,那么可以检测这本实体书的书边是否包含在该边界框中。例如,参照图2(b),在该图像801’中检测到了完整边界框803’,该完整边界框803’包围住了目标对象802的各个实际边。对于形状不规则的目标对象,也可以进行类似的检测,即确定图像中检测到的边界框是否包含完整的目标对象,例如可以通过检测到的边界框是否包含了该目标对象的轮廓来确定。
如上所述,在步骤S1022中,可以通过例如检测该边界框的边与该图像的相应边之间是否有重合,来确定检测到的边界框是否为包含整个目标对象的完整边界框。
如果所述边界框的边与所述图像的相应边至少部分重合(所述边之间的某个或某些距离等于0),则在步骤S105提供检测不到完整边界框的提示。
请注意,这里提供的是“检测不到完整边界框”的提示,与之前描述的“检测不到边界框”的提示不同。
如果所述边界框的边与所述图像的相应边之间没有重合(表示检测到完整边界框),则可以转到步骤S103。
为了容易理解和方便描述起见,下面将以检测到的边界框为矩形框的情况为例,对此进行说明。
如图5(a)~5(f)所示,其中,图5(a)、5(b)是检测到的边界框的边与图像的相应边完全重合的情形,图5(c)、5(d)、5(e)、5(f)是检测到的边界框的边与图像的相应边部分重合的情形。
其中,所述提供检测不到完整边界框的提示包括提示调整目标对象与摄像机之间的相对位置,使所述目标对象远离和/或偏移。
这里,提示使所述目标对象远离和/或偏移包括例如移动目标对象使其远离(放远)和/或偏移,比如可以相对于摄像机的取景框来放远和/或进行偏移,或者移动摄像机(例如设置在可穿戴设备或视障阅读设备之类的设备上)使其远离目标对象和/或偏移目标对象,也或者可以移动目标对象与摄像机两者,以实现远离和/或偏移目标对象。即,调整目标对象与摄像机之间的相对位置可以是调整目标对象的位置,也可以是调整摄像机的位置,甚至也可以是两者的位置都进行调整。
例如,如图5(a)所示,如果检测到的矩形框与所述图像有四条边重合,说明目标对象有一部分超出了取景框的视野而导致目标对象没被捕捉全;或者如图5(b)所示,说明目标对象刚好在取景框的视野范围而被捕捉全了,但是目标对象在图像中过大,对于四条边重合的这种情况,可以直接提示使目标对象远离,以使得目标对象更多进入取景框的视野范围。
如果检测到的矩形框与所述图像有三条边出现重合或者两条边出现重合,如图5(c)、5(d)、5(e)、5(f)所示,说明目标对象可能没被捕捉全,则可以直接提示使目标对象远离(例如图5(c)中有三条边重合、图5(d)中有两条边重合),和/或将所述目标对象沿与下述方位有关的方向移动:该方位通过所述边界框的、与所述图像的边重合的边所在的方位相反的方位来确定(例如图5(e),该边界框的两条边与图像的两条边分别在左上方向重合,则可以沿与左上方向相反的右下方向移动目标对象),或者通过沿所述与目标对象对应的边界框的中心位置相对于所述图像的中心位置或中心区域的方位相反的方位来确定(例如图5(f),该边界框的两条边与图像的两条边分别在右上方向重合,边界框的中心位置相对于图像的中心位置偏右上方向,则可以沿与右上方向相反的左下方向移动目标对象)。
当检测到的边界框与所述图像的边框完全重合时,即,当检测到的边界框的各边与所述图像的相应边之间的距离均等于0时,在上面的例子中,将这种情况视为未检测到完整边界框。不过,对于检测到的边界框与图像的边框完全重合的这种特例情况,也可以视为检测到完整边界框,即,本公开并不局限于将这种情况视为未检测到完整边界框,而是可以视实际需求来决定是否将与图像的边框完全重合的边界框作为一个完整边界框。
对于图像识别来说,目标对象的边界框与图像的边框完全重合,可能会影响图像边缘附近的图像识别效果,因为目前的摄像机所捕捉到的图像的边缘部分的清晰度相对低一些。所以,捕捉到的目标对象靠近图像中心时,识别效果会更好。因此,通过特定距离阈值的设置,可以使得获得的边界框小于图像的边框,由此可以使得所获得的边界框中的目标对象在所述图像中完整且尽量居中。另外,后面还将描述进一步通过其他方式或者进一步设定目标对象的边界框的边与图像的边的距离相关的距离范围参数来获得不仅完整、而且要大小合适且尽量居中的目标对象的一些示例性实施方式。
通过如上所述,自动地向用户给出针对各种相关情况的不同提示,能够有助于用户快速地调整目标对象与摄像机之间的相对位置,更快地获得满足质量要求(例如目标对象在图像中的位置和/或大小等是否合适)的图像,从而有效地节约了处理资源,大大地缩短了处理时间。
根据本公开的一些实施例,如图3所示,在步骤S104提供检测不到边界框的提示之后,可以转到步骤S101,重新获取摄像机重新捕捉的图像,并在步骤S102(更具体地,在步骤S1021)继续检测重新获取的图像中是否存在包含目标对象的至少一部分的边界框,直到在重新捕捉的图像中检测到与目标对象对应的边界框。
在通过自动判断,确定“检测不到边界框”或者进一步地“检测不到完整边界框”的情况下,如上所述,根据一些实施例,将自动地向用户提供提示,以有助于用户快速地调整目标对象与摄像机的相对位置,更快地获得满足质量要求(例如目标对象在图像中的位置和/或大小等是否合适)的图像,从而有效地节约了处理资源,大大地缩短了处理时间。
根据一些实施方式,本公开的目标检测方法和相关电路及设备等可以用于视障辅助和可穿戴设备等,在例如视力障碍用户或佩戴了不提供显示屏的可穿戴设备的用户无法判断图像质量的情况下,本公开的示例性实施方式可以通过自动帮助用户预先判断图像质量,并且通过进一步自动提示用户,获得更好质量的图像,以提高目标识别的准确度和速度,从而有效地节约了处理资源,大大地缩短了处理时间,帮助用户更快地获得所需的服务(例如阅读服务、引导服务等等)。
根据本公开的一些实施例,所述提供检测不到边界框的提示包括提示使所述目标对象远离和/或偏移。
根据一些实施例,检测不到边界框可能是因为目标对象不在摄像机的捕捉范围内,此时使目标对象远离(远离摄像机)(通过移动目标对象和/或移动摄像机)能够扩大捕捉范围,有可能把目标对象容纳进扩大后的捕捉范围。或者在当前的捕捉范围,可以偏移目标对象的位置,使其进入摄像机的捕捉范围。再或者,用户可以移动目标对象使其远离摄像机以扩大捕捉范围并且同时偏移目标对象使其进入摄像机的捕捉范围。尤其对于例如不提供预览图的情况或者对于用户是视障人士的情况而言,给出这样清晰明确的提示是非常重要的,可以避免用户盲目的尝试,由此使得能够快速地捕捉到含有目标对象的图像。
如果在步骤S102,在所述图像中检测到包含目标对象的至少一部分的边界框,则转到步骤S103。
在步骤S103,如果在所述图像中检测到所述边界框,则在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示。
这里的“几何关系”包括但不限于距离关系、面积比值关系、位置关系等等。
根据一些实施例,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的边与所述图像的相应边之间的距离不符合特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
根据一些实施例,所述特定距离要求可以包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值。
如图4所示,目标对象的矩形边界框与图像的四个边分别可以对应四个特定距离阈值,例如分别可以称为上侧距离阈值Dup、下侧距离阈值Ddown、左侧距离阈值Dleft、右侧距离阈值Dright(如图4中的虚线箭头所示)。只有当该边界框的每条边与该图像的相应边之间的距离均大于相应的特定距离阈值,即作为该边界框的上边与图像的上边之间的距离的上侧距离、作为该边界框的下边与图像的下边之间的距离的下侧距离、作为该边界框的左边与图像的左边之间的距离的左侧距离、作为该边界框的右边与图像的右边之间的距离的右侧距离(如图4中的实线箭头所示)分别大于与其相对应的上侧距离阈值Dup、下侧距离阈值Ddown、左侧距离阈值Dleft、右侧距离阈值Dright时,该边界框为完整边界框。
每个距离阈值的大小可以根据实际需求来设定,它们不一定相等。
根据本公开的一些实施例,每个距离阈值可以为0,也可以为大于0的值。由此,当检测到的边界框的边与所述图像的相应边的距离均大于各自相应的距离阈值时,检测到的该边界框为完整边界框,且该完整边界框小于图像的边框。
如上所述,每个距离阈值的大小可以根据实际需求来设定,本公开无需对其进行额外限制。不过,根据一些实施例,可以将各特定距离阈值设定为使得获得的完整边界框比图像边框小即可,即,无需将这里的特定距离阈值设置得过大。
顺便提及,当检测到的边界框的边与所述图像的相应边之间的距离有至少一个等于0时,出现前面描述过的边界框的边与图像的相应边有重合的情况,即前面描述的步骤S102(更具体地,步骤S1022)中检测边界框时判断边界框的边与图像的边之间是否有重合的情况。
根据一些实施例,所述如果所述边界框的每条边与所述图像的相应边之间的距离不符合特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果检测到的所述矩形框的每条边与所述图像的相应边之间的距离均小于相应的特定距离阈值,则直接提示使目标对象远离;以及
如果检测到的所述矩形框的边与所述图像的相应边之间的距离之中有三个或者更少数量的距离小于相应的特定距离阈值,则提示使目标对象远离,和/或使所述目标对象沿下述方位移动:该方位是沿所述边界框的中心位置相对于所述图像的中心位置或中心区域的方位相反的方位。
根据一些实施例,所述特定距离要求还可以包括所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内。
由此,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
如果所述边界框的边与所述图像的相应边之间的距离不在相应的特定距离范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
这里,通过进一步对边界框的边与图像的相应边之间的距离是否处于特定距离范围内的判断,来确定图像中的目标对象的位置是否合适。
虽然关于步骤S103所描述的实施例同样用到了目标对象的边界框的边与图像的相应边之间的距离,不过稍前的实施例通过例如检测目标对象的边界框的每条边与图像的相应边之间的距离是否均大于相应的特定距离阈值,来确定是否提供调整所述目标对象与所述摄像机的相对位置的提示。而稍后的实施例是通过基于边界框的边与所述图像的相应边之间的距离是否在相应的特定距离范围内,确定是否提供调整所述目标对象与所述摄像机的相对位置的提示。
换而言之,在步骤S103中,可以通过相应的特定距离阈值和/或相应的特定距离范围,来确定在步骤S102已经检测到的边界框的位置是否合适,以及如果不合适,可以例如确定该边界框的位置是否偏上、偏下、偏左、偏右等等(例如小于相应的特定距离阈值,或者小于相应的特定距离范围的下限或大于相应的特定距离范围的上限的情况等)。
另外,根据一些实施例,前述的与特定距离阈值有关的判断和上述的与特定距离范围有关的判断可以合并为一个判断步骤来实施。换言之,可以仅判断检测到的边界框的各边与图像的相应边之间的距离是否均在相应的特定距离范围内,便可以是进行了特定距离阈值判断和特定距离范围判断这两者,只要其中所述特定距离范围的下限为所述特定距离阈值即可。另一方面,当特定距离范围的下限大于所述特定距离阈值时,可以如上面描述的那样分开判断。总之,本公开的各实施例可以灵活变化,这里是否分开判断可以取决于实际的需求和/或对于处理资源的考虑等等。
总之,无论距离阈值还是距离范围,都是属于对于距离的要求,因此,本公开中可以统一使用“特定距离要求”来表述。关于特定距离要求,本公开包括但不限于上面例举出的距离阈值与距离范围。
通过上面的描述可知,无论是通过距离阈值还是通过距离范围来进行判断,能够符合相关距离要求的边界框都是完整边界框。
在本公开中,可以先进行边界框的判断,再进行其他条件的判断和/或调整位置的提示,以得到目标对象的位置和/或大小合适的图像。
也可以在进行边界框的判断之后,进一步进行是否完整边界框的判断,在判断是完整边界框的情况下,进一步进行其他的位置判断和/或调整位置的提示等操作,通常能更快地得到目标对象的位置和/或大小合适的图像。
图6将具体给出关于距离范围进行判断的例子。如图6所示,在检测到的边界框为矩形框的情况下,可以设定例如四个特定距离范围,分别称为上侧距离范围Dup-range、下侧距离范围Ddown-range、左侧距离范围Dleft-range、右侧距离范围Dright-range。
请注意,这里的距离范围与前面描述的“上侧距离阈值Dup、下侧距离阈值Ddown、左侧距离阈值Dleft、右侧距离阈值Dright”不同。主要的不同在于,每个距离范围通过各自的距离范围下限和距离范围上限这两者来限定,而前述的特定距离阈值是一个值。进一步地,每个距离范围的下限可以大于或等于上述的相应的距离阈值,在上述的合并判断的情况下,距离范围的下限等于相应的距离阈值,而在分开判断的情况下,距离范围的下限大于相应的距离阈值。这里,特定距离范围的判断条件比特定距离阈值的判断条件相对严格。
在图6中,上侧、下侧、左侧、右侧距离范围分别由图中的虚线箭头示出,由上侧、下侧、左侧、右侧距离范围的下限构成图6中的大虚线框,由上侧、下侧、左侧、右侧距离范围的上限构成图6中的小虚线框(为了清楚起见,图6中未示出边界框内的目标对象)。如果检测到的边界框的各边都位于该大虚线框与该小虚线框之间,如图6中的边界框803在该大虚线框与该小虚线框之间,说明该边界框的各边与所述图像的相应边之间的距离在各自相应的特定距离范围内(该边界框的各边与所述图像的相应边之间的距离均大于各自距离范围的下限且小于各自距离范围的上限),则可能无需提示调整目标对象与摄像机之间的相对位置,或者还可以通过其他条件来进一步确定是否需要提示调整该相对位置。否则,如果检测到的边界框的各边中至少一个边不位于该大虚线框与该小虚线框之间(该边界框的各边与所述图像的相应边之间的距离中至少一个距离不在相应的特定距离范围内),则认为可以提示调整该相对位置。
这里,如上所述,通过进一步对边界框的边与图像的相应边之间的距离是否处于特定距离范围内的判断,即,既有对于所述的边之间的距离的上限控制,又有对于所述的边之间的距离的下限控制,来确定图像中的目标对象的位置和/或大小是否合适。例如,判断所述的边之间的距离是否处于一定的距离范围内,能够进一步反映图像质量,比如当所述的边之间的某个或某些距离小于相应的距离范围的下限时,目标对象可能太靠近图像的边缘,由于图像边缘的分辨率低于图像中心部分的分辨率,因此可以通过提示用户如何调整目标对象与摄像机之间的相对距离(将在后面进行描述),以使得目标对象离开取景框边缘,靠近取景框中心,从而能够获得更好质量的图像。再比如当所述的边之间的某个或某些距离大于相应的距离范围上限时,可能目标对象在图像中的位置有偏移或者整个目标对象在图像中的尺寸过小,影响图像的质量,乃至进一步影响向用户提供的服务(比如视障阅读服务、引导服务等),由此同样可以通过提示用户如何调整目标对象与摄像机之间的相对距离(将在后面进行描述),以使得目标对象在图像中的位置和/或大小更合适,从而能够获得更好质量的图像。
根据一些实施例,步骤S103中的所述如果所述边界框的边与所述图像的相应边之间的距离不在相应的特定距离范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
分别检测所述边界框的上、下、左、右边与所述图像对应的上、下、左、右边之间的距离,相应地得到所述边界框与所述图像之间的上侧距离、下侧距离、左侧距离、右侧距离,即得到作为该边界框的上边与图像的上边之间的距离的上侧距离、作为该边界框的下边与图像的下边之间的距离的下侧距离、作为该边界框的左边与图像的左边之间的距离的左侧距离、作为该边界框的右边与图像的右边之间的距离的右侧距离(由于篇幅所限,图6中未示出这四个距离);以及
对于与所述图像的上、下、左、右边分别对应的上侧距离范围、下侧距离范围、左侧距离范围、右侧距离范围,每一个所述距离范围均由各自的距离上限和距离下限来共同限定,如果所述上侧距离、下侧距离、左侧距离、右侧距离中至少一个不在各自对应的上侧距离范围、下侧距离范围、左侧距离范围、右侧距离范围内(即,上侧距离、下侧距离、左侧距离、右侧距离中至少一个不在图6所示的大虚线框与小虚线框之间的位置),则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
请注意,可以根据实际需求来设定上述的特定距离范围(如图6中所示,上侧、下侧、左侧、右侧距离范围下限与上侧、下侧、左侧、右侧距离范围上限),本公开无需对此进行限制。举一个例子,对于普通摄像机捕捉的普通图像,可以设定上侧、下侧、左侧、右侧的距离范围均为[图像相应边的长度对应的像素数的10%, 图像相应边的长度对应的像素数的40%]。总之,所述距离范围下限可以为0或者大于0的值,而所述距离范围上限应为大于相应的距离范围下限的值。另外,上侧、下侧、左侧、右侧的特定距离范围可以不相等。当然,也可以如这里的例子一样,四个特定距离范围都相等。
请注意,图6中示出的仅是一个用于说明如何基于边界框的边与所述图像的相应边之间的距离是否在相应的特定距离范围内,确定是否提示调整所述目标对象与所述摄像机之间的相对位置的示例。本领域技术人员可知,本公开不限于该示例。
根据一些实施例,步骤S103中的在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的边与所述图像的相应边之间的距离中至少一个小于相应的特定距离范围的下限,则提示使目标对象远离和/或沿所述边界框的小于所述相应的特定距离范围下限的边所在方位相反的方向使目标对象偏移;以及
如果所述边界框的边与所述图像的相应边之间的距离中至少一个大于相应的特定距离范围的上限,则提示使目标对象靠近和/或沿与所述边界框的大于所述相应的特定距离范围的上限的边所在方位一致的方向使目标对象偏移。
如图7(a)、7(b)、7(c)所示,在检测到的边界框的边与所述图像的相应边之间的距离中至少一个小于相应的特定距离范围下限的情况下,提示用户使目标对象远离(参考图7(a))和/或沿所述边界框的小于所述相应的特定距离范围下限的边所在方位相反的方向使目标对象偏移(参考图7(c));在检测到的边界框的边与所述图像的相应边之间的距离中至少一个大于相应的特定距离范围上限的情况下,提示使目标对象靠近(参考图7(b))和/或沿与所述边界框的大于所述相应的特定距离范围上限的边所在方位一致的方向使目标对象偏移(参考图7(c))。
这里,如上所述,当判断边界框的边与图像的相应边之间的距离不处于特定距离范围内时,确定需要改善图像质量,在本实施方式中,通过提示用户如何调整目标对象与摄像机之间的相对距离,使得目标对象在图像中的位置和/或大小更合适,从而能够获得更好质量的图像。
请注意,图7(a)、7(b)、7(c)给出了“检测到的边界框的边与所述图像的相应边之间的距离不在相应的特定距离范围内”的几种示例情况以便容易理解,不代表本公开仅限于这几种示例情况。
另外,根据一些实施例,步骤S103中的在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
如果所述边界框的中心位置不在所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
这里,通过边界框的中心位置与图像的中心区域的比较,来判断图像中捕捉到的目标对象的位置是否居中。
根据一些实施例,所述边界框的中心位置可以通过该边界框在图像中的位置信息来确定。具体地例如,所述边界框的中心位置可以通过所述边界框在图像中的各顶点位置来确定。除了顶点位置之外,还可以通过边界框在图像中的其他位置信息来确定边界框的中心位置,本公开对此不作具体的限制。
另外,所述图像的中心区域可以是围绕该图像的中心点的一个区域。可以根据实际情况来确定中心区域的大小和形状,本公开对于其大小和形状不做特别的限制。对于中心区域的形状,例如可以是矩形、圆形等。
这里的中心点可以是例如几何中心,所以,图像的中心点例如也可以是中心区域的中心点(几何中心)。
这里,如上所述,通过对边界框的中心位置是否处于所述图像的中心区域中的判断,来确定图像中的目标对象的位置是否居中。例如,判断边界框的中心位置是否处于所述图像的中心区域中,能够进一步反映图像质量,比如当边界框的中心位置不处于所述图像的中心区域中时,目标对象可能位置没有居中,有些偏离图像的中心区域(或者中心位置),影响图像的质量,乃至进一步影响向用户提供的服务(比如视障阅读服务、引导服务等),由此同样可以通过提示用户如何调整目标对象与摄像机之间的相对距离(将在后面进行描述),以使得目标对象在图像中的位置更合适(比如尽量居中),从而能够获得更好质量的图像。
图8(a)示出了检测到的目标对象的边界框803的中心位置805不在所述图像801的中心区域804中的情形,此时可以提供调整所述目标对象与所述摄像机之间的相对位置的提示。另外,图8(b)示出了检测到的目标对象的边界框803的中心位置805在所述图像801的中心区域804中的情形,此时可以根据需要进行下一步操作。
根据一些实施例,步骤S103中的所述如果所述边界框的中心位置不在所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
基于所述边界框的中心位置相对于所述图像的中心区域的方向,提示用户沿与该方向相反的方向移动所述目标对象。
如前面描述了图8(a)中,检测到的边界框803的中心位置805不在所述图像801的中心区域804中的情形。从图8(a)可知,中心位置805在中心区域804的偏右上方向,则可以确定:可以沿与右上方向相反的左下方向移动目标对象,以使边界框803的中心位置805进入图像801的中心区域804中。
这里,如上所述,当判断边界框的中心位置不在所述图像的中心区域中时,确定需要改善图像质量,在本实施方式中,通过提示用户如何调整目标对象与摄像机之间的相对距离,使得目标对象在图像中的位置更合适,从而能够获得更好质量的图像。
另外,例如,根据一些实施例,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
如果所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
这里,通过面积比值的判断,来确定图像中捕捉到的目标对象的大小是否合适。
如图9(a)所示,边界框的面积与图像的面积的比值大约为1:9,面积比值过小;如图9(b)所示,边界框的面积与图像的面积的比值大约为94:100,比值过大;如图9(c)所示,边界框的面积与图像的面积的比值大约为3:4,面积比值合适。
关于上述的特定比值范围,可以根据具体的需求来进行设定,比如50%~85%的比值范围,或者其他的范围等等,本公开不作限制。
这里,如上所述,通过对边界框的面积与图像的面积的比值是否在特定比值范围内的判断,来确定图像中的目标对象的大小是否合适。例如,判断边界框的面积与图像的面积的比值是否处于特定比值范围(符合该比值范围的图像,图像大小较为合适,图像质量较好)中,能够进一步反映图像质量,比如当边界框的面积与图像的面积的比值不处于特定比值范围时,目标对象在图像中可能过大或过小,影响图像的质量,乃至进一步影响向用户提供的服务(比如视障阅读服务、引导服务等),由此同样可以通过提示用户如何调整目标对象与摄像机之间的相对距离(将在后面进行描述),以使得目标对象在图像中的大小更合适,从而能够获得更好质量的图像。
根据一些实施例,步骤S103中的所述如果所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
如果所述边界框的面积与所述图像的面积的比值高于所述特定比值范围的上限,则提示使目标对象远离;以及
如果所述边界框的面积与所述图像的面积的比值低于所述特定比值范围的下限,则提示使目标对象靠近。
例如,对于如图9(a)所示的面积比值过小的情形,可以提示使目标对象靠近。反之,对于如图9(b)所示的面积比值过大的情形,可以提示使把目标对象远离。
这里,如上所述,当判断边界框的面积与所述图像的面积的比值不在所述特定比值范围中时,确定需要改善图像质量,在本实施方式中,通过提示用户如何调整目标对象与摄像机之间的相对距离,使得目标对象在图像中的大小更合适,从而能够获得更好质量的图像。
根据一些实施例,所述目标对象中包含文本区域,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
确定所述目标对象的文本区域的文本行相对于所述图像的一条边的角度(以下简称为“文本行的倾斜角度”)是否位于特定角度范围内,如果所述角度不位于所述特定角度范围内,则提示用户调整所述目标对象与所述摄像机之间的相对角度。
对于上述的特定角度范围,例如可以为[-30°,30°]。考虑到算法精度以及捕捉稳定性等因素,本公开中,在文本行的倾斜角度位于所述特定角度范围内的情况下,即认为文本行基本上为水平的。可以理解的是,在算法更精细化以及捕捉稳定性得到提高的情况下,可以合理调整所述特定角度范围,例如可以调整为:[-20°,20°]、[-10°,10°]等等。
在本公开中,文本行的倾斜角度可以指文本行(比如可以选取第一个文本行)相对于所述图像的某条边(为了便于理解和描述,可以将该边定义为水平边,所述图像的与该边相邻的另一条边定义为垂直边)的角度。“文本行水平”可以指文本行基本与所述图像的水平边平行(例如,文本行的倾斜角度小于30度)。如果超出所述特定角度范围,则可以认为“文本行倾斜”,例如,图10中的文本行806与所述图像的水平边之间形成了大约45度的角度。在“文本行倾斜”的情况下,可以提示用户调整所述目标对象与所述摄像机之间的相对角度。
根据一些实施例,可以通过以下方法来检测文本行的倾斜角度:基于Hough变换的方法、基于交叉相关性的方法、基于投影的方法、基于Fourier变换的方法和K-最近邻簇方法等。
根据一些实施例,可以通过调整目标对象的角度来调整目标对象与摄像机之间的相对角度,所提供的目标对象的相对角度提示信息可以包括但并不局限于目标对象的旋转方向及旋转角度,也可以仅包括旋转方向或旋转角度,另外还可以包括其它提示信息,例如可以播放“请调整目标对象的角度”之类的语音。
这里,如上所述,通过对图像中目标对象的文本区域的文本行的倾斜角度的判断,来确定图像中的目标对象的位置和/或姿态是否合适。例如,判断图像中目标对象的文本区域的文本行的倾斜角度是否处于特定角度范围内,能够进一步反映图像质量,比如当图像中目标对象的文本区域的文本行的倾斜角度不在所述特定角度范围内时,影响对于图像中的文本的识别速度和准确度,乃至进一步影响向用户提供的服务(比如视障阅读服务、引导服务等),此时可能需要调整目标对象的姿态。因此,这里通过提示用户如何调整目标对象与摄像机之间的相对角度等,使得目标对象在图像中的位置和/或姿态更合适,从而能够获得更好质量的图像。
在上述的文本行的倾斜角度大于所述特定角度范围的情况下,可以使得摄像机重新捕捉图像并继续检测,直到重新捕捉的图像中的文本行的倾斜角度不小于所述特定角度范围,以获得满足质量要求的图像。
上面给出了三种基于边界框与图像的几何关系来判断是否提示用户调整目标对象与摄像机之间的相对位置的示例,即,边界框的边与图像的边的距离(特定距离要求,比如可以包括基于距离阈值的距离要求以及基于距离范围的距离要求)、边界框的中心位置是否在图像的中心区域、边界框的面积与图像的面积的比值。另外,还给出了一种基于文本行的倾斜角度来判断是否提示用户调整目标对象与摄像机之间的相对角度的示例。请注意,本公开不限于上面示例的这四种判断条件,而是还可以使用其他的判断条件,考虑到篇幅,在此不再展开叙述。
另外,上面给出的三种基于边界框与图像的几何关系的判断条件可以如上所述那样分别进行判断,也可以对这些条件进行任意组合来进行判断。比如,可以将其两两组合,例如先判断边界框的中心位置是否在图像的中心区域,再判断面积比值是否合适;当然,也可以反过来,先判断面积比值是否合适,再判断中心位置是否合适。也可以三个条件互相组合,比如先判断边界框的中心位置是否在图像的中心区域,再判断面积比值是否合适,最后可以判断边的距离是否符合特定距离要求(例如在设定的距离阈值之上和/或在设定的距离范围内)等等。另外,也可以将文本行的倾斜角度的判断与其他条件进行组合。判断条件越多,得到的目标对象在图像中的位置、大小等等可能越符合要求,但是相应地需要的计算资源和时间也会稍多。
通过组合判断,能够得到质量更好的图像,自动向用户提供更准确的提示,可以大大缩短处理时间,有效节约处理资源,而且还能够向用户提供更好更精准的服务。
为了更清楚起见,下面将结合示例来描述两两组合的方式的判断过程。
根据一些实施例,如图11(a)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述边界框的边与所述图像的相应边之间的距离是否符合特定距离要求;
如果所述边界框的边与所述图像的相应边之间的距离符合特定距离要求,则转到步骤S1032,确定所述边界框的中心位置是否处于所述图像的中心区域中;以及
如果确定所述边界框的中心位置不处于所述图像的中心区域中,则转到步骤S1033以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
另外,如果所述边界框的边与所述图像的相应边之间的距离不符合特定距离要求,则可以转到步骤S1033以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
这里,所述特定距离要求可以包括例如上述的基于距离阈值的距离要求和/或基于距离范围的距离要求。
本实施方式是将边界框与图像的边的距离的判断条件与边界框的中心位置的判断条件组合在一起,用于判断目标对象在图像中的位置和/或大小是否合适。在通过自动判断,确定不符合要求的情况下,如上所述,根据一些实施例,将自动地向用户提供提示,以有助于用户快速地调整目标对象与摄像机的相对位置,更快地获得满足质量要求(例如目标对象在图像中的位置和/或大小等是否合适)的图像,从而有效地节约了处理资源,大大地缩短了处理时间。
根据一些实施方式,在例如视力障碍用户或佩戴了不提供显示屏的可穿戴设备的用户无法判断图像质量的情况下,本公开的示例性实施方式通过自动帮助用户预先判断图像质量,并且通过进一步自动提示用户,获得更好质量的图像,以提高目标识别的准确度和速度,从而有效地节约了处理资源,大大地缩短了处理时间,帮助用户更快地获得所需的服务(例如阅读服务、引导服务等等)。
通过自动帮助用户预先判断图像质量,并且通过进一步自动提示用户,获得更好质量的图像,从而有效地节约了处理资源,大大地缩短了处理时间,帮助用户更快地获得所需的服务(例如阅读服务、引导服务等等)。
根据一些实施例,如图11(b)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述边界框的边与所述图像的相应边之间的距离是否符合特定距离要求;
如果所述边界框的边与所述图像的相应边之间的距离符合特定距离要求,则转到步骤S1032,确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则可以转到步骤S1033,提供调整所述目标对象与所述摄像机之间的相对位置的提示。
另外,如果所述边界框的边与所述图像的相应边之间的距离不符合特定距离要求,则可以转到步骤S1033以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
本实施方式是将边界框与图像的边的距离的判断条件与面积比值的判断条件组合在一起,用于判断目标对象在图像中的位置和大小是否合适。与上面类似地,在通过自动判断,确定不符合要求的情况下,如上所述,根据一些实施例,将自动地向用户提供提示,以有助于用户快速地调整目标对象与摄像机的相对位置,更快地获得满足质量要求(例如目标对象在图像中的位置和大小等合适)的图像,从而有效地节约了处理资源,大大地缩短了处理时间。同样,在例如视力障碍用户或佩戴了不提供显示屏的可穿戴设备的用户无法判断图像质量的情况下,通过自动帮助用户预先判断图像质量,并且通过进一步自动提示用户,获得更好质量的图像,从而有效地节约了处理资源,大大地缩短了处理时间,帮助用户更快地获得所需的服务(例如阅读服务、引导服务等等)。
根据一些实施例,如图11(c)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述边界框的中心位置是否处于所述图像的中心区域中;
如果确定所述边界框的中心位置处于所述图像的中心区域,则转到步骤S1032,确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则转到步骤S1033,以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
另外,如果所述边界框的中心位置不处于所述图像的中心区域中,则可以转到步骤S1033以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
本实施方式是将边界框的中心位置的判断条件与面积比值的判断条件组合在一起,用于判断目标对象在图像中的位置和大小是否合适。与上面类似地,在通过自动判断,确定不符合要求的情况下,将自动地向用户提供提示,以有助于用户快速地调整目标对象与摄像机的相对位置,更快地获得满足质量要求的图像,从而有效地节约了处理资源,大大地缩短了处理时间。同样,在例如视力障碍用户或佩戴了不提供显示屏的可穿戴设备的用户无法判断图像质量的情况下,通过自动帮助用户预先判断图像质量,并且通过进一步自动提示用户,获得更好质量的图像,从而有效地节约了处理资源,大大地缩短了处理时间,帮助用户更快地获得所需的服务(例如阅读服务、引导服务等等)。后面几种组合方式的有益技术效果与此类似,下面将不再赘述。
根据一些实施例,如图11(d)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述边界框的中心位置是否处于所述图像的中心区域中;
如果确定所述边界框的中心位置处于所述图像的中心区域中,则转到步骤S1032,确定所述边界框的边与所述图像的相应边之间的距离是否符合特定距离要求;以及
如果确定所述边界框的边与所述图像的相应边之间的距离不符合特定距离要求,则转到步骤S1033,以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
同样,如果所述边界框的中心位置不处于所述图像的中心区域中,则可以转到步骤S1033以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
本实施方式是将边界框的中心位置的判断条件与所述边界框与图像的边的距离的判断条件换了顺序组合在一起,用于判断目标对象在图像中的位置是否合适。
根据一些实施例,如图11(e)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则转到步骤S1032,确定所述边界框的边与所述图像的相应边之间的距离是否在特定距离范围内;以及
如果确定所述边界框的边与所述图像的相应边之间的距离不在特定距离范围内,则转到步骤S1033,以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
另外,如果所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则可以转到步骤S1033以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
本实施方式是将面积比值的判断条件与边界框的中心位置的判断条件换了顺序组合在一起,用于判断目标对象在图像中的位置和大小是否合适。
根据一些实施例,如图11(f)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则转到步骤S1032,确定所述边界框的中心位置是否处于所述图像的中心区域中;以及
如果确定所述边界框的中心位置不处于所述图像的中心区域中,则转到步骤S1033,提供调整所述目标对象与所述摄像机之间的相对位置的提示。
另外,如果所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则可以转到步骤S1033以提供调整所述目标对象与所述摄像机之间的相对位置的提示。
本实施方式是将面积比值的判断条件与边界框的中心位置的判断条件换了顺序组合在一起,用于判断目标对象在图像中的位置是否合适。
下面将举例说明三个判断条件组合的实施方式。通过组合更多的判断方式,能够得到质量更好的图像,自动向用户提供更准确的提示,可以大大缩短处理时间,有效节约处理资源,而且还能够向用户提供更好更精准的服务。
根据一些实施例,如图12(a)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述边界框的边与所述图像的相应边之间的距离是否符合特定距离要求;
如果所述边界框的边与所述图像的相应边之间的距离符合特定距离要求,则转到步骤S1032,确定所述边界框的中心位置是否处于所述图像的中心区域;
如果确定所述边界框的中心位置处于所述图像的中心区域,则转到步骤S1033,确定所述边界框的面积与所述图像的面积的比值是否在特定距离范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则转到步骤S1034,提供调整所述目标对象与所述摄像机之间的相对位置的提示。
本实施方式通过将边的距离、中心位置、面积比值三者按顺序组合在一起,用于判断目标对象在图像中的位置和大小是否合适,以便得到在图像中位置和大小更合适的目标对象。
根据一些实施例,如图12(b)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述目标对象的所述中心位置是否处于所述图像的中心区域;
如果所述中心位置处于所述中心区域,则转到步骤S1032,确定所述边界框的面积与所述图像的面积的比值是否在特定距离范围内;
如果所述边界框的面积与所述图像的面积的比值在特定距离范围内,则转到步骤S1033,确定所述边界框的各边与所述图像的相应边的距离是否符合特定距离要求;以及
如果所述边界框的各边与所述图像的相应边的距离不符合特定距离要求,则转到步骤S1034,提供调整所述目标对象与所述摄像机之间的相对位置的提示。
本实施方式通过将面积比值、边的距离、中心位置三者按顺序组合在一起,同样用于判断目标对象在图像中的位置和大小是否合适,以便得到在图像中位置和大小更合适的目标对象。
根据一些实施例,如图12(c)所示,步骤S103中的所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示可以包括:
步骤S1031,确定所述中心位置是否处于所述图像的中心区域;
如果确定所述中心位置处于所述图像的中心区域,则转到步骤S1032,确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则转到步骤S1033,确定所述边界框的各边与所述图像的相应边的距离是否符合特定距离要求;以及
如果确定所述边界框的各边与所述图像的相应边的距离不符合特定距离要求,则可以转到步骤S1034,提供调整所述目标对象与所述摄像机之间的相对位置的提示。
本实施方式通过将中心位置、面积比值、边的距离三者按顺序组合在一起,同样用于判断目标对象在图像中的位置和大小是否合适,以便得到在图像中位置和大小更合适的目标对象。而且,相对来说,这种组合方式能够更快速得到图像中位置和大小都合适的目标对象。
另外,如上所述,文本行的倾斜角度的判断条件也可以与其他条件进行组合,下面将结合示例来简单描述。
如图12(d)所示,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示还可以包括:
当所述目标对象中包含文本区域时,在步骤S1031’,确定所述目标对象的文本区域的文本行相对于所述图像的一条边的角度是否位于特定角度范围内;
如果所述目标对象的文本区域的文本行相对于所述图像的一条边的角度不位于特定角度范围内,则可以在步骤S1032’提示用户调整所述目标对象与所述摄像机之间的相对角度。
如前所述,所述特定角度范围例如可以为[-30°,30°],所述相对角度例如可以包括旋转角度和旋转方向这两个参量。
本实施方式给出了一种通过文本行倾斜角度来判断目标对象在图像中的位置是否合适的示例,这种方式同样可以如前面所述的那样,与例如中心位置、面积比值、边的距离这三者之中的至少一种进行组合,用于判断目标对象在图像中的位置和/或大小是否合适。因此,图12(d)除了步骤S1031’、S1032’之外,还可以包括前述的图11(a)~11(f)、图12(a)~12(c)中示出的那些步骤。换而言之,步骤S1031’、S1032’可以分别与图11(a)~11(f)、图12(a)~12(c)中的步骤进行组合。限于篇幅,在此不再展开叙述。
判断条件的组合方式不限于上面例举的那些,而且,如上所述,判断条件也不止上面描述的这几种。关于判断条件及其组合方式,本公开例举了足够多的示例来使得本公开更容易理解。而且,本公开不仅应当包括示例出的这些实施方式,还应该包括各种各样的替换方式、变形方式、以及扩展方式。
上面对于步骤S103进行了详细描述,下面将描述之后的步骤。
如图1所示,如果在所述图像中没有检测到包含目标对象的至少一部分的边界框,则转到步骤S104,提供检测不到边界框的提示。
如上所述,对于检测不到边界框的情形,可以调整目标对象与摄像机的远近以更多进入取景框的视野,或者调整目标对象的方向(上下左右的方向)来更多进入取景框的视野,当然,在远近和方向上都调整也是可以的。
根据一些实施例,对于检测不到边界框的情况,可以优选地调整目标对象的远近。
当检测到的边界框的各边与所述图像的相应边之间的距离中至少一个等于0时,检测到的边界框与图像的边框有重合,该特殊情形属于步骤S102(更具体地,步骤S1022)描述的情况,因此不再赘述。
根据一些实施例,本公开对于“检测不到边界框”的情况,自动地向用户提供提示,以有助于用户快速地调整目标对象与摄像机的相对位置,更快地获得满足质量要求(例如目标对象在图像中的位置和/或大小等合适)的图像,从而有效地节约了处理资源,大大地缩短了处理时间。根据一些实施方式,在例如视力障碍用户或佩戴了不提供预览图像的可穿戴设备的用户无法判断图像质量的情况下,通过自动帮助用户预先判断图像质量,并且通过进一步自动提示用户,获得更好质量的图像,从而有效地节约了处理资源,大大地缩短了处理时间,帮助用户更快地获得所需的服务(例如阅读服务、引导服务等等)。
根据一些实施例,在步骤S104提供检测不到边界框的提示之后,如图1所示,可以转到步骤S101,重新获取摄像机重新捕捉的图像并在步骤S102继续检测重新捕捉的图像中是否有边界框,直到在重新捕捉的图像中检测到边界框。
这里请注意,对于目标对象在图像中的大小和/或位置等不合适的情形,可以重新捕捉图像,以检测重新捕捉的图像中的目标对象的大小和/或位置是否合适。
另外,根据一些实施例,可以控制重新捕捉和检测以及提示的次数和/或时间。例如,可以由用户主动(人为地)启动停止检测指示;或者由处理器等设备自行启动停止检测指示,比如可以基于检测的次数、连续检测不到边界框的时间等,来停止图像的继续获取、继续检测、以及停止因为检测不到边界框或完整边界框、或者因为目标对象与摄像机的相对位置持续不合适等等而发出的提示,从而避免过于集中和频繁的提示,实现向用户提供满足需求的服务。
根据一些实施例,可以使得摄像机在至少间隔特定时间(比如2s)之后,才重新捕捉目标对象,以使得有足够的时间根据提示来移动目标对象和/或摄像机,防止在还没有准备好目标对象与摄像机的相对位置的情况下,过于频繁地捕捉目标对象。
使摄像机间隔特定时间再重新捕捉目标对象的实现方式例如可以采用间隔捕捉,即,以固定时间为间隔来进行捕捉,比如每2秒一次快门,在某些摄像机中可以设定这种间隔捕捉方式。
根据一些实施例,如图13所示,可以在使得摄像机执行图像的捕捉之前,在步骤S110,通过检测指引物,确认要捕捉的目标对象,以便在捕捉之前,先确认目标对象,防止图像中出现多个疑似目标对象,给后续的检测和识别造成困难。
根据一些实施例,所述指引物例如可以为用户的手指。
这里,可以使用例如计算机视觉算法来检测手指并确定手指的位置,例如,可以采用来自 OpenCV 的 算 法,比 如CascadeClassifier函数(https://docs.opencv.org/3.2.0/d1/de5/classcv_1_1CascadeClassifier.html),从图像中确定手指的位置,从而确认目标对象。
另外,所述指引物并不局限于手指,例如还可以是笔。
根据一些实施例,在没有确认过目标对象却在图像中检测到多个疑似目标对象的情况下,还可以通过文字或声音提示的形式,提示用户确认要捕捉的目标对象。
另外,根据一些实施例,如图13所示,本公开的目标检测方法还可以包括:步骤S106,识别所述图像中的所述目标对象并输出识别的目标对象。
根据一些实施例,在提示用户移动目标对象的场景中,如上所述,所述目标对象可以是可以移动的目标对象,例如身份证、名片、护照、驾照、读物(媒介读物或者电子读物)、平板计算机、移动电话等等。
根据一些实施例,所述识别图像中的目标对象可以包括识别目标对象中的文字,相应地,所述输出识别的目标对象可以包括输出所识别的目标对象中的文字。
根据一些实施例,输出的形式包括声音形式的输出和/或文字形式的输出等。
在例如视力障碍用户或佩戴了不提供预览图像的可穿戴设备的用户无法判断图像质量的情况下,本公开的示例性实施方式通过自动帮助用户预先判断图像质量,并且通过进一步自动提示用户,获得更好质量的图像,以提高目标识别的准确度和速度,从而有效地节约了处理资源,大大地缩短了处理时间,帮助用户更快地获得所需的服务(例如阅读服务、引导服务等等)。
根据一些实施例,可以使得摄像机先捕捉预览图像以便基于预览图像检测目标对象,并且在检测到目标对象的边界框或者检测到目标对象的完整边界框之后,再拍摄用于识别的图像,其中,所述预览图像的分辨率小于所述用于识别的图像的分辨率。
这样,通过在检测时使用低分辨率的图像,在识别时使用高分辨率的图像,使得在拍摄位置和/或大小合适的目标对象之前,捕捉的都是低分辨的图像,大大节约了有限的处理资源,而在真正识别时使用的是高分辨图像,由此又能够保证识别效果。
根据一些实施例,还可以在摄像机捕捉或确认目标对象与摄像机之间的相对位置合适从而要拍摄目标对象之前,提供保持目标对象的提示,以使得用户保持目标对象的位置,或者如果用户需要手持或扶持目标对象,可以使用户提前做好准备,手持或扶持得稳一些,以便于拍摄到清晰的图像。
根据一些实施例,上述的提示可以包括声音提示、震动提示、文字提示、图像提示、视频提示中的一种或者它们的任意组合。也就是说,本公开不限于某一种提示方式,而是可以多种方式组合起来提示。
对于通过震动来进行提示,比如提示远近,可以通过不同的震动模式来进行。比如短促的震动模式是需要放近,长而慢的震动模式表示需要放远等等。另外,关于通过震动来提示移动方向,例如可以通过相应方向上的震动来表明应该往该方向移动。震动提示对于无法听到正常声音的听障人士非常方便。
上面结合附图,描述了本公开的目标检测方法。本公开针对不提供预览图或者无法看到预览图的情形,提出了先在摄像机捕捉的图像中检测目标对象的边界框,然后在检测到目标对象的边界框的情况下,基于目标对象在所捕捉的图像中的位置信息,提供调整目标对象与摄像机的相对位置的提示,以便更方便地调整目标对象和/或摄像机的位置,从而使得摄像机更快地捕捉到位置和/或大小合适的目标对象。
由此,在例如视力障碍用户或佩戴了不提供预览图像的可穿戴设备的用户无法判断图像质量的情况下,本公开的示例性实施方式通过自动帮助用户预先判断图像质量,并且通过进一步自动提示用户,获得更好质量的图像,以提高目标识别的准确度和速度,从而有效地节约了处理资源,大大地缩短了处理时间,帮助用户更快地获得所需的服务(例如阅读服务、引导服务等等)。
根据本公开的另一方面,还提供一种电子电路,可以包括:被配置为执行上述的方法的步骤的电路。
根据本公开的另一方面,还提供一种阅读辅助设备,包括:摄像机,被配置为获取图像;上述的电子电路;被配置为对所述图像中包含的文字进行文字检测和识别以获得文字数据的电路;被配置为将所述文字数据转换成声音数据的电路;以及被配置为输出所述声音数据和/或所述文字数据的电路。
根据本公开的另一方面,还提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的方法。
根据本公开的另一方面,还提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的方法。
图14是示出根据本公开的示例性实施例的电子设备的示例的框图。要注意的是,图14所示出的结构仅是一个示例,根据具体的实现方式,本公开的电子设备可以仅包括图14所示出的组成部分中的一种或多个。
电子设备2000例如可以是通用计算机(例如膝上型计算机、平板计算机等等各种计算机)、移动电话、个人数字助理。根据一些实施例,电子设备2000可以是视障辅助设备。
电子设备2000可被配置为捕捉或拍摄图像,并对所捕捉的(例如预览)图像进行处理,并且响应于所述处理而提供提示。例如,电子设备2000可被配置为捕捉图像,对该图像进行文字检测和识别以获得文字数据,将文字数据转换成声音数据,并且可以输出声音数据供用户聆听,和/或输出文字数据供用户观看。
根据一些实施方式,所述电子设备2000可以被配置为包括眼镜架或者被配置为能够可拆卸地安装到眼镜架(例如眼镜架的镜框、连接两个镜框的连接件、镜腿或任何其他部分)上,从而能够捕捉或拍摄到近似包括用户的视野的图像。
根据一些实施方式,所述电子设备2000也可被安装到其它可穿戴设备上,或者与其它可穿戴设备集成为一体。所述可穿戴设备例如可以是:头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备等。根据一些实施例,所述电子设备可被实施为可附接到可穿戴设备上的配件,例如可被实施为可附接到头盔或帽子上的配件等。
根据一些实施方式,所述电子设备2000也可具有其他形式。例如,电子设备2000可以是移动电话、通用计算设备(例如膝上型计算机、平板计算机等)、个人数字助理,等等。电子设备2000也可以具有底座,从而能够被安放在桌面上。
根据一些实施方式,所述电子设备2000作为视障辅助设备可以用于辅助阅读,在这种情况下,所述电子设备2000有时也被称为“电子阅读器”或“阅读辅助设备”。借助于电子设备2000,无法自主阅读的用户(例如视力障碍人士、存在阅读障碍的人士等)可以采用类似阅读姿势的姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中,所述电子设备2000可以获取捕捉的图像,并对所述图像进行检测,确定所述图像中是否存在包围所述读物的边界框以确认该读物是否被捕捉进所述图像,并且如果确定存在边界框,但是所捕捉的读物的大小或位置不太合适,则可以基于边界框在图像中的位置,提示用户移动所述读物,以拍摄得到大小、位置合适的读物,并且对拍摄的大小、位置合适的读物进行文字检测和文字识别(例如利用光学文字识别OCR方法),以获得其中的文字数据,并可以将文字数据转换成声音数据,通过扬声器或耳机等声音输出设备输出所述声音数据供用户聆听。
通过在不提供预览图像或者无法预览图像的情况下,向用户提供移动目标对象的各种详尽的提示,能够帮助电子设备2000更快、更准确地获取到位置、大小合适的目标对象,从而能够更快、更准确地识别和输出给用户,能够大大提升响应速度、识别效率以及识别准确度。
电子设备2000可以包括摄像机2004,用于捕捉、拍摄、获取图像。摄像机2004可以捕捉和/或拍摄静态的图像,也可以捕捉和/或拍摄动态的图像,可以包括但不限于摄像头、照相机、视频摄像机等,被配置为获取包括目标对象的初始图像。电子设备2000还可以包括电子电路2100,所述电子电路2100包括被配置为执行如前所述的方法的步骤的电路。电子设备2100还可以包括文字识别电路2005,所述文字识别电路2005被配置为对所述图像中的文字进行文字检测和识别(例如OCR处理),从而获得文字数据。所述文字识别电路2005例如可以通过专用芯片实现。电子设备2000还可以包括声音转换电路2006,所述声音转换电路2006被配置为将所述文字数据转换成声音数据。所述声音转换电路2006例如可以通过专用芯片实现。电子设备2000还可以包括声音输出电路2007,所述声音输出电路2007被配置为输出所述声音数据。所述声音输出电路2007可以包括但不限于耳机、扬声器、或振动器等,及其相应驱动电路。
根据一些实施方式,所述电子设备2000还可以包括图像处理电路2008,所述图像处理电路2008可以包括被配置为对图像进行各种图像处理的电路。图像处理电路2008例如可以包括但不限于以下中的一个或多个:被配置为对图像进行降噪的电路、被配置为对图像进行去模糊化的电路、被配置为对图像进行几何校正的电路、被配置为对图像进行特征提取的电路、被配置为对图像中的目标对象进行目标检测和识别的电路、被配置为对图像中包含的文字进行文字检测的电路、被配置为从图像中提取文本行的电路、被配置为从图像中提取文字坐标的电路、被配置为从图像中提取边界框的电路、被配置为从图像中提取文本框的电路、被配置为基于图像进行版面分析(例如段落划分)的电路,等等。
根据一些实施方式,电子电路2100还可以包括文字处理电路2009,所述文字处理电路2009可以被配置为基于所提取的与文字有关的信息(例如文字数据、文本框、段落坐标、文本行坐标、文字坐标等)进行各种处理,从而获得诸如段落排序、文字语义分析、版面分析结果等处理结果。
上述的各种电路(例如文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、电子电路2100中的一个或多个可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现。例如,上述的各种电路中的一个或多个可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C ++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000还可以包括通信电路2010,所述通信电路2010可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
根据一些实施方式,电子设备2000还可以包括输入设备2011,所述输入设备2011可以是能向电子设备2000输入信息的任何类型的设备,并且可以包括但不限于各种传感器、鼠标、键盘、触摸屏、按钮、控制杆、麦克风和/或遥控器等等。
根据一些实施方式,电子设备2000还可以包括输出设备2012,所述输出设备2012可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、视觉输出终端、振动器和/或打印机等。尽管电子设备2000根据一些实施例用于视障辅助设备,基于视觉的输出设备可以方便用户的家人或维修工作人员等从电子设备2000获得输出信息。
根据一些实施方式,电子设备2000还可以包括处理器2001。所述处理器2001可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器2001例如可以是但不限于中央处理单元CPU或微处理器MPU等等。电子设备2000还可以包括工作存储器2002,所述工作存储器2002可以存储对处理器2001的工作有用的程序(包括指令)和/或数据(例如图像、文字、声音,以及其他中间数据等)的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。电子设备2000还可以包括存储设备2003,所述存储设备2003可以包括任何非暂时性存储设备,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。工作存储器2002和存储设备2003可以被集合地称为“存储器”,并且在有些情况下可以相互兼用。
根据一些实施方式,处理器2001可以对摄像机2004、文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、通信电路2010、电子电路2100以及电子设备2000包括的其他各种装置和电路中的至少一个进行控制和调度。根据一些实施方式,图14中所述的各个组成部分中的至少一些可通过线路2013而相互连接和/或通信。
软件要素(程序)可以位于所述工作存储器2002中,包括但不限于操作系统2002a、一个或多个应用程序2002b、驱动程序和/或其他数据和代码。
根据一些实施方式,用于进行前述的控制和调度的指令可以被包括在操作系统2002a或者一个或多个应用程序2002b中。
根据一些实施方式,执行本公开所述的方法步骤的指令可以被包括在一个或多个应用程序2002b中,并且上述电子设备2000的各个模块可以通过由处理器2001读取和执行一个或多个应用程序2002b的指令来实现。换言之,电子设备2000可以包括处理器2001以及存储程序的存储器(例如工作存储器2002和/或存储设备2003),所述程序包括指令,所述指令在由所述处理器2001执行时使所述处理器2001执行如本公开各种实施例所述的方法。
根据一些实施方式,文字识别电路2005、声音转换电路2006、图像处理电路2008、文字处理电路2009、电子电路2100中的至少一个所执行的操作中的一部分或者全部可以由处理器2001读取和执行一个或多个应用程序2002的指令来实现。
软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如所述存储设备2003)中,并且在执行时可以被存入工作存储器2001中(可能被编译和/或安装)。因此,本公开提供存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备(例如视障辅助设备)的处理器执行时,致使所述电子设备执行如本公开各种实施例所述的方法。根据另一种实施方式,软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现各个电路、单元、模块或者元件。例如,所公开的方法和设备所包含的电路、单元、模块或者元件中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C ++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000中的处理器2001可以分布在网络上。 例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。电子设备2001的其他模块也可以类似地分布。这样,电子设备2001可以被解释为在多个位置执行处理的分布式计算系统。
以下描述本公开的一些示例性方面。
方面1. 一种目标检测方法,包括:
获取摄像机捕捉的图像;
检测所述图像中是否存在包含目标对象的至少一部分的边界框;
如果在所述图像中检测到所述边界框,则在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示;
如果在所述图像中未检测到所述边界框,则提供检测不到边界框的提示。
方面2. 如方面1所述的目标检测方法,还包括:
在提供检测不到边界框的提示之后,重新获取图像并继续检测重新获取的图像中是否存在所述边界框,直到在重新获取的图像中检测到所述边界框。
方面3. 如方面1所述的目标检测方法,其中,所述检测所述图像中是否存在包含目标对象的至少一部分的边界框包括:
如果在所述图像中检测到所述边界框,则通过检测所述边界框的边与所述图像的相应边之间是否有重合,来确定检测到的所述边界框是否为包含整个目标对象的完整边界框,其中,所述边界框为矩形框,以及
如果确定检测到的边界框不是完整边界框,则提供检测不到完整边界框的提示。
方面4. 如方面1所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的边与所述图像的相应边之间的距离不符合特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面5. 如方面4所述的目标检测方法,其中,所述特定距离要求包括所述矩形框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值,以及
其中,所述如果所述边界框的边与所述图像的相应边之间的距离不符合特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果检测到的所述矩形框的每条边与所述图像的相应边之间的距离均小于相应的特定距离阈值,则直接提示使目标对象远离;以及
如果检测到的所述矩形框的边与所述图像的相应边之间的四个距离之中有三个或者更少数量的距离小于相应的特定距离阈值,则提示使目标对象远离,和/或将所述目标对象沿下述方位移动:该方位是沿所述边界框的中心位置相对于所述图像的中心位置或中心区域的方位相反的方位。
方面6. 如方面4所述的目标检测方法,其中,所述特定距离要求还包括所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内。
方面7. 如方面6所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的边与所述图像的相应边之间的距离中至少一个小于相应的特定距离范围的下限,则提示使目标对象远离和/或沿所述边界框的小于所述相应的特定距离范围下限的边所在方位相反的方向使目标对象偏移;以及
如果所述边界框的边与所述图像的相应边之间的距离中至少一个大于相应的特定距离范围的上限,则提示使目标对象靠近和/或沿与所述边界框的大于所述相应的特定距离范围的上限的边所在方位一致的方向使目标对象偏移。
方面8. 如方面1所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的中心位置不在所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面9. 如方面8所述的目标检测方法,其中,所述图像的中心区域是围绕该图像的中心点的一个区域。
方面10. 如方面8所述的目标检测方法,其中,所述如果所述边界框的中心位置不在所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
基于所述边界框的中心位置相对于所述图像的中心区域的方位,提示沿与该方位相反的方向使所述目标对象移动。
方面11. 如方面1所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示包括:
如果所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面12. 如方面11所述的目标检测方法,其中,所述如果所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的面积与所述图像的面积的比值高于所述特定比值范围的上限,则提示使目标对象放远离;
如果所述边界框的面积与所述图像的面积的比值低于所述特定比值范围的下限,则提示使将目标对象靠近。
方面13. 如方面1所述的目标检测方法,其中,所述目标对象中包含文本区域,
所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
确定所述目标对象的文本区域的文本行相对于所述图像的一条边的角度是否位于特定角度范围内,如果该角度不位于所述特定角度范围内,则提示调整所述目标对象与所述摄像机之间的相对角度。
方面14. 如方面4所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果所述边界框的边与所述图像的相应边之间的距离符合所述特定距离要求,则确定所述边界框的中心位置是否处于所述图像的中心区域中;以及
如果确定所述边界框的中心位置不处于所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面15. 如方面4所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果所述边界框的边与所述图像的相应边之间的距离符合所述特定距离要求,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面16. 如方面8所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面17. 如方面8所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的边与所述图像的相应边之间的距离是否符合特定距离要求,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值和/或所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内;以及
如果确定所述边界框的边与所述图像的相应边之间的距离不符合所述特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面18. 如方面11所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则确定所述边界框的边与所述图像的相应边之间的距离是否符合特定距离要求,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值和/或所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内;以及
如果确定所述边界框的边与所述图像的相应边之间的距离不符合所述特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面19. 如方面11所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则确定所述边界框的中心位置是否处于所述图像的中心区域中;以及
如果确定所述边界框的中心位置不处于所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面20. 如方面4所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果所述边界框的边与所述图像的相应边之间的距离符合所述特定距离要求,则确定所述边界框的中心位置是否处于所述图像的中心区域中;
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面21. 如方面8所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则确定所述边界框的各边与所述图像的相应边的距离是否符合特定距离要求,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值和/或所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内;以及
如果确定所述边界框的各边与所述图像的相应边的距离不符合所述特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面22. 如方面8所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的各边与所述图像的相应边的距离是否符合特定距离要求,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值和/或所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内;
如果确定所述边界框的各边与所述图像的相应边的距离符合所述特定距离要求,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
方面23. 如方面14~22中的任一项所述的目标检测方法,其中,所述目标对象中包含文本区域,
所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示还包括:
如果所述目标对象的文本区域的文本行相对于所述图像的一条边的角度不位于特定角度范围内,则提示用户调整所述目标对象与所述摄像机之间的相对角度。
方面24. 如方面3所述的目标检测方法,还包括:
在提供检测不到完整边界框的提示之后,重新获取图像并继续检测重新获取的图像中是否有完整边界框,直到在重新获取的图像中检测到完整边界框。
方面25. 如方面2所述的目标检测方法,还包括:
在重新获取的图像中检测到边界框的情况下,判断在重新获取的图像中检测到的边界框与图像的几何关系是否满足特定条件。
方面26. 如方面2、24和25中任一项所述的目标检测方法,其中,所述重新获取的图像是摄像机重新捕捉的图像,以及其中,使得摄像机在至少间隔特定时间之后才重新捕捉图像。
方面27. 如方面1~22、24、25中的任一项所述的目标检测方法,还包括:
在摄像机捕捉图像之前,通过检测指引物,确认目标对象。
方面28. 如方面1~22、24、25中的任一项所述的目标检测方法,还包括:
识别所述图像中的所述目标对象并输出识别的目标对象。
方面29. 如方面1~22、24、25中的任一项所述的目标检测方法,还包括:
所获取的图像为通过摄像机捕捉的预览图象,
其中,所述预览图像的分辨率小于所述图像的分辨率。
方面30. 如方面1~22、24、25中的任一项所述的目标检测方法,还包括:
在摄像机捕捉预览图像之前或者在确认所述目标对象与所述摄像机之间的相对位置合适之后,提供保持目标对象的位置的提示。
方面31. 一种电子电路,包括:
被配置为执行如方面1~30中任一项所述的方法的步骤的电路。
方面32. 一种视障辅助设备,包括:
摄像机,被配置为获取图像;
如方面31所述的电子电路;
被配置为对所述图像中包含的文字进行文字检测和识别以获得文字数据的电路;
被配置为将所述文字数据转换成声音数据的电路;以及
被配置为输出所述声音数据和/或所述文字数据的电路。
方面33. 一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行如方面1~30中任一项所述的方法。
方面34. 一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据方面1~30中任一项所述的方法。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本公开的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以用各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。
Claims (32)
1.一种目标检测方法,包括:
获取摄像机捕捉的图像;
检测所述图像中是否存在包含目标对象的至少一部分的边界框,其中,所述目标对象中包含文本区域;
如果在所述图像中检测到所述边界框,则确定检测到的所述边界框是否为包含整个目标对象的完整边界框;
如果所述边界框为完整边界框,则在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示;其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:如果所述边界框的中心位置不在所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示;
确定所述目标对象的文本区域的文本行相对于所述图像的一条边的角度是否位于特定角度范围内,如果该角度不位于所述特定角度范围内,则提示调整所述目标对象与所述摄像机之间的相对角度;以及
如果在所述图像中未检测到所述边界框,则提供检测不到边界框的提示。
2.如权利要求1所述的目标检测方法,还包括:
在提供检测不到边界框的提示之后,重新获取图像并继续检测重新获取的图像中是否存在所述边界框,直到在重新获取的图像中检测到所述边界框。
3.如权利要求1所述的目标检测方法,其中,所述确定检测到的所述边界框是否为包含整个目标对象的完整边界框包括:
通过检测所述边界框的边与所述图像的相应边之间是否有重合,来确定检测到的所述边界框是否为包含整个目标对象的完整边界框,其中,所述边界框为矩形框;
所述方法还包括:
如果确定检测到的边界框不是完整边界框,则提供检测不到完整边界框的提示。
4.如权利要求1所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的边与所述图像的相应边之间的距离不符合特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
5.如权利要求4所述的目标检测方法,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值,以及
其中,所述如果所述边界框的边与所述图像的相应边之间的距离不符合特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果检测到的所述边界框的每条边与所述图像的相应边之间的距离均小于相应的特定距离阈值,则直接提示使目标对象远离;以及
如果检测到的所述边界框的边与所述图像的相应边之间的四个距离之中有三个或者更少数量的距离小于相应的特定距离阈值,则提示使目标对象远离,和/或将所述目标对象沿下述方位移动:该方位是沿所述边界框的中心位置相对于所述图像的中心位置或中心区域的方位相反的方位。
6.如权利要求4所述的目标检测方法,其中,所述特定距离要求还包括所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内。
7.如权利要求6所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的边与所述图像的相应边之间的距离中至少一个小于相应的特定距离范围的下限,则提示使目标对象远离和/或沿所述边界框的小于所述相应的特定距离范围下限的边所在方位相反的方向使目标对象偏移;以及
如果所述边界框的边与所述图像的相应边之间的距离中至少一个大于相应的特定距离范围的上限,则提示使目标对象靠近和/或沿与所述边界框的大于所述相应的特定距离范围的上限的边所在方位一致的方向使目标对象偏移。
8.如权利要求1所述的目标检测方法,其中,所述图像的中心区域是围绕该图像的中心点的一个区域。
9.如权利要求1所述的目标检测方法,其中,所述如果所述边界框的中心位置不在所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
基于所述边界框的中心位置相对于所述图像的中心区域的方位,提示沿与该方位相反的方向使所述目标对象移动。
10.如权利要求1所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示包括:
如果所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
11.如权利要求10所述的目标检测方法,其中,所述如果所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示包括:
如果所述边界框的面积与所述图像的面积的比值高于所述特定比值范围的上限,则提示使目标对象放远离;
如果所述边界框的面积与所述图像的面积的比值低于所述特定比值范围的下限,则提示使将目标对象靠近。
12.如权利要求1所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果所述边界框的边与所述图像的相应边之间的距离符合特定距离要求,则确定所述边界框的中心位置是否处于所述图像的中心区域中;以及
如果确定所述边界框的中心位置不处于所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
13.如权利要求1所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果所述边界框的边与所述图像的相应边之间的距离符合特定距离要求,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
14.如权利要求7所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
15.如权利要求7所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的边与所述图像的相应边之间的距离是否符合特定距离要求,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值和/或所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内;以及
如果确定所述边界框的边与所述图像的相应边之间的距离不符合所述特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
16.如权利要求10所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则确定所述边界框的边与所述图像的相应边之间的距离是否符合特定距离要求,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值和/或所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内;以及
如果确定所述边界框的边与所述图像的相应边之间的距离不符合所述特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
17.如权利要求10所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则确定所述边界框的中心位置是否处于所述图像的中心区域中;以及
如果确定所述边界框的中心位置不处于所述图像的中心区域中,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
18.如权利要求1所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果所述边界框的边与所述图像的相应边之间的距离符合特定距离要求,则确定所述边界框的中心位置是否处于所述图像的中心区域中;
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
19.如权利要求7所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;
如果确定所述边界框的面积与所述图像的面积的比值在特定比值范围内,则确定所述边界框的各边与所述图像的相应边的距离是否符合特定距离要求,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值和/或所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内;以及
如果确定所述边界框的各边与所述图像的相应边的距离不符合所述特定距离要求,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
20.如权利要求7所述的目标检测方法,其中,所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机的相对位置的提示还包括:
如果确定所述边界框的中心位置处于所述图像的中心区域中,则确定所述边界框的各边与所述图像的相应边的距离是否符合特定距离要求,其中,所述特定距离要求包括所述边界框的每条边与所述图像的相应边之间的距离均大于相应的特定距离阈值和/或所述边界框的边与所述图像的相应边之间的距离在相应的特定距离范围内;
如果确定所述边界框的各边与所述图像的相应边的距离符合所述特定距离要求,则确定所述边界框的面积与所述图像的面积的比值是否在特定比值范围内;以及
如果确定所述边界框的面积与所述图像的面积的比值不在特定比值范围内,则提供调整所述目标对象与所述摄像机之间的相对位置的提示。
21.如权利要求12~20中的任一项所述的目标检测方法,其中,
所述在所述边界框与所述图像的几何关系满足特定条件的情况下,提供调整所述目标对象与所述摄像机之间的相对位置的提示还包括:
如果所述目标对象的文本区域的文本行相对于所述图像的一条边的角度不位于特定角度范围内,则提示用户调整所述目标对象与所述摄像机之间的相对角度。
22.如权利要求3所述的目标检测方法,还包括:
在提供检测不到完整边界框的提示之后,重新获取图像并继续检测重新获取的图像中是否有完整边界框,直到在重新获取的图像中检测到完整边界框。
23.如权利要求2所述的目标检测方法,还包括:
在重新获取的图像中检测到边界框的情况下,判断在重新获取的图像中检测到的边界框与图像的几何关系是否满足特定条件。
24.如权利要求2、22和23中任一项所述的目标检测方法,其中,所述重新获取的图像是摄像机重新捕捉的图像,以及其中,使得摄像机在至少间隔特定时间之后才重新捕捉图像。
25.如权利要求1~20、22、23中的任一项所述的目标检测方法,还包括:
在摄像机捕捉图像之前,通过检测指引物,确认目标对象。
26.如权利要求1~20、22、23中的任一项所述的目标检测方法,还包括:
识别所述图像中的所述目标对象并输出识别的目标对象。
27.如权利要求1~20、22、23中的任一项所述的目标检测方法,还包括:
所获取的图像为通过摄像机捕捉的预览图像,
其中,所述预览图像的分辨率小于所述图像的分辨率。
28.如权利要求1~20、22、23中的任一项所述的目标检测方法,还包括:
在摄像机捕捉预览图像之前或者在确认所述目标对象与所述摄像机之间的相对位置合适之后,提供保持目标对象的位置的提示。
29.一种电子电路,包括:
被配置为执行如权利要求1~28中任一项所述的方法的步骤的电路。
30.一种视障辅助设备,包括:
摄像机,被配置为获取图像;
如权利要求29所述的电子电路;
被配置为对所述图像中包含的文字进行文字检测和识别以获得文字数据的电路;
被配置为将所述文字数据转换成声音数据的电路;以及
被配置为输出所述声音数据和/或所述文字数据的电路。
31.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行如权利要求1~28中任一项所述的方法。
32.一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1~28中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353328.0A CN111163261B (zh) | 2019-12-25 | 2019-12-25 | 目标检测方法、电路、视障辅助设备、电子设备和介质 |
PCT/CN2020/076152 WO2021128553A1 (zh) | 2019-12-25 | 2020-02-21 | 目标检测方法、电路、视障辅助设备、电子设备和介质 |
EP20165254.2A EP3842992B1 (en) | 2019-12-25 | 2020-03-24 | Target detection method, circuit, device for assisting visually impaired people, electronic device, and medium |
US16/834,957 US10838056B1 (en) | 2019-12-25 | 2020-03-30 | Detection of target |
JP2020077313A JP6800501B1 (ja) | 2019-12-25 | 2020-04-24 | 目標検出方法、回路、視覚障害者補助装置、電子機器及び媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353328.0A CN111163261B (zh) | 2019-12-25 | 2019-12-25 | 目标检测方法、电路、视障辅助设备、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111163261A CN111163261A (zh) | 2020-05-15 |
CN111163261B true CN111163261B (zh) | 2022-03-01 |
Family
ID=70189656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911353328.0A Active CN111163261B (zh) | 2019-12-25 | 2019-12-25 | 目标检测方法、电路、视障辅助设备、电子设备和介质 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP3842992B1 (zh) |
JP (1) | JP6800501B1 (zh) |
CN (1) | CN111163261B (zh) |
WO (1) | WO2021128553A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114071005B (zh) * | 2020-08-07 | 2022-12-27 | 华为技术有限公司 | 一种对象检测方法、电子设备和计算机可读存储介质 |
CN112422829B (zh) * | 2020-11-19 | 2022-04-26 | 北京字节跳动网络技术有限公司 | 辅助拍摄图像的方法、装置、终端和存储介质 |
WO2022222047A1 (zh) * | 2021-04-20 | 2022-10-27 | Oppo广东移动通信有限公司 | 文档扫描方法及装置、存储介质及电子设备 |
CN113411477B (zh) * | 2021-06-10 | 2023-03-10 | 支付宝(杭州)信息技术有限公司 | 一种图像的采集方法、装置及设备 |
CN113255632B (zh) * | 2021-07-16 | 2023-01-03 | 深圳市赛菲姆科技有限公司 | 基于车牌识别的摄像头参数调整方法、装置、设备和介质 |
CN114895832B (zh) * | 2022-05-17 | 2023-08-08 | 网易(杭州)网络有限公司 | 对象的调整方法、装置、电子设备及计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096927A (zh) * | 2011-01-26 | 2011-06-15 | 北京林业大学 | 自主林业机器人目标跟踪方法 |
CN103139480A (zh) * | 2013-02-28 | 2013-06-05 | 华为终端有限公司 | 一种图像采集方法及装置 |
CN107404721A (zh) * | 2016-05-20 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 物联网设备配网方法、图像采集方法及设备 |
CN107645628A (zh) * | 2016-07-21 | 2018-01-30 | 中兴通讯股份有限公司 | 一种信息处理方法及装置 |
US10382673B2 (en) * | 2017-01-11 | 2019-08-13 | Hover Inc. | Automated guide for image capturing for 3D model creation |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120281874A1 (en) * | 2011-05-05 | 2012-11-08 | Lure Yuan-Ming F | Method, material, and apparatus to improve acquisition of human frontal face images using image template |
CN103813075A (zh) * | 2012-11-07 | 2014-05-21 | 联想(北京)有限公司 | 一种提醒方法和电子设备 |
CN104253938A (zh) * | 2013-06-26 | 2014-12-31 | 中兴通讯股份有限公司 | 终端及其智能拍照的方法 |
JP6700661B2 (ja) * | 2015-01-30 | 2020-05-27 | キヤノン株式会社 | 画像処理装置、画像処理方法、及び画像処理システム |
-
2019
- 2019-12-25 CN CN201911353328.0A patent/CN111163261B/zh active Active
-
2020
- 2020-02-21 WO PCT/CN2020/076152 patent/WO2021128553A1/zh active Application Filing
- 2020-03-24 EP EP20165254.2A patent/EP3842992B1/en active Active
- 2020-04-24 JP JP2020077313A patent/JP6800501B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096927A (zh) * | 2011-01-26 | 2011-06-15 | 北京林业大学 | 自主林业机器人目标跟踪方法 |
CN103139480A (zh) * | 2013-02-28 | 2013-06-05 | 华为终端有限公司 | 一种图像采集方法及装置 |
CN107404721A (zh) * | 2016-05-20 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 物联网设备配网方法、图像采集方法及设备 |
CN107645628A (zh) * | 2016-07-21 | 2018-01-30 | 中兴通讯股份有限公司 | 一种信息处理方法及装置 |
US10382673B2 (en) * | 2017-01-11 | 2019-08-13 | Hover Inc. | Automated guide for image capturing for 3D model creation |
Also Published As
Publication number | Publication date |
---|---|
CN111163261A (zh) | 2020-05-15 |
JP6800501B1 (ja) | 2020-12-16 |
WO2021128553A1 (zh) | 2021-07-01 |
EP3842992A1 (en) | 2021-06-30 |
JP2021103503A (ja) | 2021-07-15 |
EP3842992B1 (en) | 2023-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111163261B (zh) | 目标检测方法、电路、视障辅助设备、电子设备和介质 | |
US8289403B2 (en) | Image processing system | |
US11627007B2 (en) | Mobile information terminal | |
KR101808015B1 (ko) | 최적 문자 인식을 위한 모바일 문서 획득 지원 | |
US9930269B2 (en) | Apparatus and method for processing image in device having camera | |
CN111126394A (zh) | 文字识别方法、阅读辅助设备、电路和介质 | |
US10291843B2 (en) | Information processing apparatus having camera function and producing guide display to capture character recognizable image, control method thereof, and storage medium | |
KR102402148B1 (ko) | 전자 장치 및 그의 문자 인식 방법 | |
US10694098B2 (en) | Apparatus displaying guide for imaging document, storage medium, and information processing method | |
EP3493110A1 (en) | Electronic device recognizing text in image | |
US10838056B1 (en) | Detection of target | |
JP2006344066A (ja) | 図形コード読取装置 | |
CN110991455B (zh) | 图像文本播报方法及其设备、电子电路和存储介质 | |
WO2018184260A1 (zh) | 文档图像的校正方法及装置 | |
US20170046813A1 (en) | An apparatus and associated methods for image capture | |
US10452943B2 (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
EP4184931A1 (en) | Image capturing apparatus capable of suppressing detection of subject not intended by user, control method for image capturing apparatus, and storage medium | |
KR101832372B1 (ko) | 이동 단말기 및 그 제어방법 | |
US10514591B2 (en) | Camera apparatus, image processing device, and image processing method | |
US11776286B2 (en) | Image text broadcasting | |
KR20140134844A (ko) | 객체 기반 사진 촬영 방법 및 장치 | |
CN110969161B (zh) | 图像处理方法、电路、视障辅助设备、电子设备和介质 | |
KR20210138483A (ko) | 영상 촬영 가이드를 제공하는 방법 또는 장치 | |
CN113139537A (zh) | 图像处理方法、电子电路、视障辅助设备和介质 | |
CN112541506A (zh) | 文本图像的矫正方法及装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |