CN111711758A - 多指定位的试题拍摄方法、装置、电子设备和存储介质 - Google Patents

多指定位的试题拍摄方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111711758A
CN111711758A CN202010604455.XA CN202010604455A CN111711758A CN 111711758 A CN111711758 A CN 111711758A CN 202010604455 A CN202010604455 A CN 202010604455A CN 111711758 A CN111711758 A CN 111711758A
Authority
CN
China
Prior art keywords
target
image
nail
text
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010604455.XA
Other languages
English (en)
Other versions
CN111711758B (zh
Inventor
李俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN202010604455.XA priority Critical patent/CN111711758B/zh
Publication of CN111711758A publication Critical patent/CN111711758A/zh
Application granted granted Critical
Publication of CN111711758B publication Critical patent/CN111711758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • H04N23/632Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种多指定位的试题拍摄方法、装置、电子设备和存储介质。该方法包括:在电子设备处于点读场景下,启动图像采集装置对准承载体,获取预览图像;对预览图像中的指甲进行识别,得到一个或多个指甲区域;当存在且仅存在一个指甲区域时,接收到用户的意图指令后,对承载体进行拍照,得到拍摄图像;当存在多个指甲区域时,计算指甲区域的面积以及相邻两个指甲区域之间的最小距离;当指甲区域的面积小于预设面积且最小距离均小于预设距离时,接收到用户的意图指令后,对承载体进行拍照,得到拍摄图像。实施本发明实施例,通过预览图像定位多指,利用指甲区域的面积和距离来判定是否需要执行拍照操作,实现智能化拍照的目的。

Description

多指定位的试题拍摄方法、装置、电子设备和存储介质
技术领域
本发明涉及试题拍摄技术领域,具体涉及一种多指定位的试题拍摄方法、装置、电子设备和存储介质。
背景技术
当前很多电子教辅设备,大多具有点读场景,点读场景是指用户通过手指指向书本、练习册或试卷等承载体时,教辅设备会通过图像采集装置对承载体进行拍照,并识别手指的位置,从而根据手指位置确定用户意图,进而得到用户意图对应的图像,用于显示、搜题或者题目收录等,搜题可以是搜答案、搜读音或语义等。因为现有教辅设备是识别手指的位置,当出现多指时,例如一只手的多根手指伸展于承载体上或者两只手均放置于承载体上,其中一只手用于按压抚平承载体,现有的教辅设备均会执行拍照操作,然后识别出多个指尖位置,从而极易造成得到错误的意图图像,或者多个手指时,教辅设备不对承载体拍照,无法实现智能化。
发明内容
针对所述缺陷,本发明实施例公开了一种多指定位的试题拍摄方法、装置、电子设备和存储介质,其可以对多指进行定位,拍照更加智能化,减少误拍照或不拍照的可能性。
本发明实施例第一方面公开一种多指定位的试题拍摄方法,所述方法包括:
在电子设备处于点读场景下,启动图像采集装置对准承载体,获取预览图像;
对所述预览图像中的指甲进行识别,得到一个或多个指甲区域;
当存在且仅存在一个指甲区域时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像;
当存在多个指甲区域时,计算所述指甲区域的面积以及相邻两个指甲区域之间的最小距离;当所述指甲区域的面积小于预设面积且所述最小距离均小于预设距离时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像。
作为一种可选的实施方式,在本发明实施例第一方面中,对所述预览图像中的指甲进行识别,得到一个或多个指甲区域,包括:
利用肤色分割方法或基于机器学习的指甲识别模型对所述预览图像中的指甲进行识别。
作为一种可选的实施方式,在本发明实施例第一方面中,计算所述指甲区域的面积,包括:
获取每个指甲区域的像素点数;
计算所有指甲区域的像素点之和;
所述指甲区域的面积小于预设面积,包括:
所述像素点之和小于预设像素点个数。
作为一种可选的实施方式,在本发明实施例第一方面中,所述方法,还包括:
获取所述指甲区域中纵坐标最大的像素点,并将所述纵坐标最大的像素点作为目标坐标;
利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述用户的意图指令针对题目时,所述利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像,包括:
将所述拍摄图像输入实例分割模型,获取每一题目的文本边框;
在所述目标坐标落入其中一个文本边框内时,将所述其中一个文本边框作为目标文本边框;
在所述目标坐标落入多个文本边框内时,将所述多个文本边框中置信度最大的一个文本边框作为目标文本边框;
在所述目标坐标未落入任何一个文本边框时,将与目标坐标最近的文本边框作为目标文本边框;
根据所述目标文本边框对所述拍摄图像进行分割,得到目标图像,所述目标图像为目标文本边框内的拍摄图像部分。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述用户的意图指令针对词语时,所述利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像,包括:
将所述拍摄图像输入文本行检测模型,获取拍摄图像每一个文本行的文本行轮廓;
在所述目标坐标落入其中一个文本行轮廓内时,将所述其中一个文本行轮廓作为目标文本行轮廓;
在所述目标坐标落入多个文本行轮廓内时,将所述多个文本行轮廓中置信度最大的一个文本行轮廓作为目标文本行轮廓;
在所述目标坐标未落入任何一个文本行轮廓时,将与目标坐标最近的文本行轮廓作为目标文本行轮廓;
根据所述目标文本行轮廓对所述拍摄图像进行分割,得到目标图像,所述目标图像为目标文本行轮廓内的拍摄图像部分。
本发明实施例第二方面公开一种多指定位的试题拍摄装置,所述装置包括:
预览单元,用于在电子设备处于点读场景下,启动图像采集装置对准承载体,获取预览图像;
识别单元,用于对所述预览图像中的指甲进行识别,得到一个或多个指甲区域;
第一判断单元,用于当存在且仅存在一个指甲区域时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像;
第二判断单元,用于当存在多个指甲区域时,计算所述指甲区域的面积以及相邻两个指甲区域之间的最小距离;当所述指甲区域的面积小于预设面积且所述最小距离均小于预设距离时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像。
作为一种可选的实施方式,在本发明实施例第二方面中,所述识别单元,包括:
利用肤色分割方法或基于机器学习的指甲识别模型对所述预览图像中的指甲进行识别。
作为一种可选的实施方式,在本发明实施例第二方面中,所述第二判断单元,包括:
第一计算子单元,用于获取每个指甲区域的像素点数;
第二计算子单元,用于计算所有指甲区域的像素点之和;
比对子单元,用于所述像素点之和小于预设像素点个数。
作为一种可选的实施方式,在本发明实施例第二方面中,所述装置还包括获取单元,所述获取单元,包括:
检测子单元,用于获取所述指甲区域中纵坐标最大的像素点,并将所述纵坐标最大的像素点作为目标坐标;
目标图像获取子单元,用于利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种多指定位的试题拍摄方法的部分或全部步骤。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种多指定位的试题拍摄方法的部分或全部步骤。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种多指定位的试题拍摄方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种多指定位的试题拍摄方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,在电子设备处于点读场景下,启动图像采集装置对准承载体,获取预览图像;对所述预览图像中的指甲进行识别,得到一个或多个指甲区域;当存在且仅存在一个指甲区域时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像;当存在多个指甲区域时,计算所述指甲区域的面积以及相邻两个指甲区域之间的最小距离;当所述指甲区域的面积小于预设面积且所述最小距离均小于预设距离时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像。可见,实施本发明实施例,可以在点读场景下,通过预览图像定位多指,利用指甲区域的面积和距离来判定是否需要执行拍照操作,进而获取用户意图,实现智能化拍照的目的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种多指定位的试题拍摄方法的流程示意图;
图2为本发明实施例公开的一种多指定位的试题拍摄装置的结构示意图;
图3为本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种多指定位的试题拍摄方法、装置、电子设备和存储介质,可以在点读场景下,通过预览图像定位多指,利用指甲区域的面积和距离来判定是否需要执行拍照操作,进而获取用户意图,实现智能化拍照的目的,以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种多指定位的试题拍摄方法的流程示意图。如图1所示,该多指定位的试题拍摄方法包括以下步骤:
110、在电子设备处于点读场景下,启动图像采集装置对准承载体,获取预览图像。
点读场景可以是启动相应的点读app时自动进入点读场景下,在点读场景下,可以实现根据意图获取图像,进而实现搜题或题目收录等目的。电子设备可以是学习机、家教机、点读机以及具有学习功能的手机或平板电脑等。
承载体为纸质的书本、练习册、作业本或试卷等,在点读场景下,自动启动图像采集装置对准承载体,在电子设备的显示屏中显示承载体的预览图像,预览图像在显示之前可以经过一定的预处理,预处理包括但不限于图像增强和梯形矫正。在此过程中,电子设备也可以发出互动指令例如“请摆正承载体”等。
图像采集装置为执行拍照功能的器件,其可以集成于电子设备上,例如通过电子设备的前置摄像头对放置于电子设备前的承载体进行拍照,也可以是分立器件,通过有线或无线方式与电子设备建立通讯连接,执行电子设备发送的拍照指令,并将拍照得到的图像发送给电子设备。
在点读场景下,未接收到用户的意图指令之前,电子设备定时对多指进行定位,从而在接收到用户意图指令时可以快速做出反应。当然,用户可以设置待机时间,当在预设时间内仍未发出用户意图指令,则电子设备本身以及图像采集装置均进入待机状态。只有重新唤醒电子设备,才会回到点读场景中。
120、对所述预览图像中的指甲进行识别,得到一个或多个指甲区域。
用户通过手指手势来实现其意图,通过其使用手指在承载体上的点击定位,进而手指手势在预览图像中体现,通过对手指的识别,可以实现多指定位。多指定位包括是否存在多指以及每根手指的位置。
电子设备在预设间隔时间持续对预览图像中的多指进行定位。在本发明实施例中,通过指甲识别达到多指定位的目的。一般情况下,学生用户使用电子设备进行试题拍摄,其指甲面积处于可控的空间内,即可以针对不同年龄段的学生用户设置不同的指甲面积,进而达到即使多指存在也可以智能化拍照识别用户意图的目的。
示例性地,当用户使用单手执行点读操作时,即使多根手指展开,也视为可以识别其意图,而如果用户使用双手执行点读操作时,即使两只手放在一起,当指甲区域面积大于预设面积时,也视为无法识别其意图,因为双手执行点读操作,其具体定位不易判断,容易造成误操作的可能性。
基于此,通过指甲区域的面积和距离可以确定是否可以识别用户意图,在可以识别用户意图的情况下,接收到用户意图后,执行拍照操作。
对预览图像中的指甲区域识别方式可以通过肤色分割法实现,首先可以先将预览图像从RGB颜色空间转换到YCbCr颜色空间或HSV颜色空间,转换的目的在于RGB颜色空间的肤色容易受光照影响不易分离;然后通过肤色检测模型确定手指轮廓,进而确定指甲区域,肤色检测模型可以是阈值限定法或单高斯模型法等。
还可以通过基于机器学习方式实现指甲区域识别,通过大量带有手指的图片并人工标注指甲区域的位置,进而对机器学习模型进行训练,得到指甲识别模型,将预览图像输入指甲识别模型,可以确定预览图像中指甲区域的个数和位置。机器学习模型包括但不限于全连接神经网络模型、卷积神经网络模型、循环神经网络模型以及胶囊网络模型等。
130、当存在且仅存在一个指甲区域时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像。
当指甲区域的个数为一个时,则用户意图较为明确,电子设备接收到用户意图指令后,可以对承载体执行拍照功能,得到拍摄图像,进而确定目标图像,确定目标图像详见步骤160。
140、当存在多个指甲区域时,计算所述指甲区域的面积以及相邻两个指甲区域之间的最小距离;当所述指甲区域的面积小于预设面积且所述最小距离均小于预设距离时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像。
如果存在多个指甲区域时,基于步骤120所示原理,需要对指甲区域的面积和相邻两个指甲区域之间的最小距离进行计算,其中,指甲区域的面积通过像素点数进行统计,每个指甲区域占据的像素点数为该指甲区域的面积,预设面积也通过预设的像素点数实现。当所有的指甲区域的像素点数之和小于预设的像素点数时,则满足第一条件,再计算相邻两个指甲区域的最小距离,如果任意两个相邻的指甲区域的最小距离均小于预设距离,则满足第二条件,电子设备接收到用户意图指令后,可以对承载体执行拍照功能,得到拍摄图像,进而确定目标图像,确定目标图像详见步骤160。
用户意图指令可以是通过语音指令例如“请问这道题怎么做”或者“帮我收录这道题目”等,也可以是通过机械按键或触控按键触发生成的意图指令。用户意图指令根据具体情况可以分为两大类,一类是针对某个题目内容,例如搜原题、搜答案、题目收录等,一类是针对某个字、词或短语,例如搜含义、搜读音、搜近义词或反义词等。根据不同的用户意图可以得到不同的目标图像。
预设距离可以根据具体情况进行设定,示例性地,可以除大拇指外,其余四根手指展开时两个指甲区域的最大距离作为该预设距离,因为一般点读时,大拇指处于收起状态。可以理解的是,当两只手均位于承载体上,且相互靠拢,同时,识别到的指甲区域数量较少时,例如两只手均是食指定位于承载体上,而其余手指处于收起状态,则也会视为单手操作,满足上述的两个条件。
150、当预览图像未识别到指甲区域或者识别到多个指甲区域,该多个指甲区域的面积之和大于预设面积或/和存在一个或多个相邻指甲区域的最小距离大于预设距离时,在用户发出用户意图指令后,电子设备不会控制图像采集装置对承载体拍照,因为这些情况很难识别用户意图。
示例性地,当出现这些情况时,电子设备可以发出互动指令,提醒用户,如果未识别出指甲区域,则可以发出语音提醒指令或文字提醒指令,例如:“请将手指放于收录题目的下方空白处”。
160、根据用户意图指令确定目标图像。
首先,需要对目标坐标进行定位。根据一般使用习惯,用户大都将处于最上的手指作为定位手指,从而获取这些指甲区域(如果仅有一个指甲区域,则为该指甲区域)中纵坐标最大的像素点。拍摄图像可以是整个承载体图像,也可以是最大限定包括定位位置在内的承载体的部分图像,例如,分割得到指甲区域上5行,下3行之间的区域作为拍摄图像,这样做的目的在于方便后续的边框或轮廓识别。
确定的纵坐标最大的像素点作为目标坐标,即意图坐标。然后根据目标坐标、拍摄图像以及用户的意图指令获取目标图像,获取目标图像与用户的意图指令相关,具体地:
如果用户指令针对题目时,则将拍摄图像输入实例分割模型,得到每个题目的文本边框。实例分割模型可以采用MASK R-CNN等模型实现,在实例分割模型输出文本边框的同时,还会输出每个文本边框的置信度,可以在初期根据置信度过滤掉小于预设置信度的文本边框。
如果目标坐标落入其中一个文本边框内时,则将该其中一个文本边框作为目标文本边框;如果所述目标坐标落入多个文本边框(由于机器学习获取的文本边框,可能存在文本边框区域重叠的情况)内时,将这些多个文本边框中置信度最大的一个文本边框作为目标文本边框;如果所述目标坐标未落入任何一个文本边框时,将与目标坐标最近的文本边框作为目标文本边框。
由于文本边框针对的是各个题目,因此,可以将目标文本边框内的所述拍摄图像分割出来,得到目标图像,用于原题搜索,答案搜索以及题目收录等,需要说明的是,答案搜索可以是在原题搜索的基础上进行,在搜索到原题时,即目标图像OCR识别后在资源库中搜索得到相似度最高的题目作为原题,就可以直接得到原题相关联的答案或答案解析等,同样地,原题搜索得到的是文本格式,便于保存和编辑,因此,如果需要题目收录,也可以通过原题搜索后将文本格式的原题进行保存,当然,也可以直接保存目标图像,或者在搜索不到原题的情况下保存目标图像,作为题目收录内容。
如果用户指令针对字、词或短语时,则将所述拍摄图像输入文本行检测模型,获取拍摄图像每一个文本行的文本行轮廓,文本行检测模型例如PSENet检测模型等,文本行检测模型除输出文本行轮廓外,还会输出每个文本行轮廓的置信度。
如果所述目标坐标落入其中一个文本行轮廓内时,则将所述其中一个文本行轮廓作为目标文本行轮廓;如果所述目标坐标落入多个文本行轮廓内时,则将所述多个文本行轮廓中置信度最大的一个文本行轮廓作为目标文本行轮廓;如果所述目标坐标未落入任何一个文本行轮廓时,将与目标坐标最近的文本行轮廓作为目标文本行轮廓。
根据所述目标文本行轮廓对所述拍摄图像进行分割,得到目标图像,所述目标图像为目标文本行轮廓内的拍摄图像部分。由于最终的识别结果是针对字词或短语,因此,针对英语的单词,可以将目标图像OCR识别后距离目标坐标最近的单词用于搜索含义、读音等,针对汉语的字词或短语,可以将目标图像OCR识别后进行词组分解,得到距离目标坐标最近的词组,用于搜索含义、读音或近义词或反义词等。
实施本发明实施例,可以在点读场景下,通过预览图像定位多指,利用指甲区域的面积和距离来判定是否需要执行拍照操作,进而获取用户意图,实现智能化拍照的目的。
实施例二
请参阅图2,图2是本发明实施例公开的一种多指定位的试题拍摄装置的结构示意图。如图2所示,该多指定位的试题拍摄装置可以包括:
预览单元210,用于在电子设备处于点读场景下,启动图像采集装置对准承载体,获取预览图像;
识别单元220,用于对所述预览图像中的指甲进行识别,得到一个或多个指甲区域;
第一判断单元230,用于当存在且仅存在一个指甲区域时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像;
第二判断单元240,用于当存在多个指甲区域时,计算所述指甲区域的面积以及相邻两个指甲区域之间的最小距离;当所述指甲区域的面积小于预设面积且所述最小距离均小于预设距离时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像。
作为一种可选的实施方式,所述识别单元220,可以包括:
利用肤色分割方法或基于机器学习的指甲识别模型对所述预览图像中的指甲进行识别。
作为一种可选的实施方式,所述第二判断单元240,包括:
第一计算子单元241,用于获取每个指甲区域的像素点数;
第二计算子单元242,用于计算所有指甲区域的像素点之和;
比对子单元243,用于所述像素点之和小于预设像素点个数。
作为一种可选的实施方式,所述装置还可以包括获取单元250,所述获取单元250,可以包括:
检测子单元251,用于获取所述指甲区域中纵坐标最大的像素点,并将所述纵坐标最大的像素点作为目标坐标;
目标图像获取子单元252,用于利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像。
作为一种可选的实施方式,在所述用户的意图指令针对题目时,目标图像获取子单元252可以包括:
将所述拍摄图像输入实例分割模型,获取每一题目的文本边框;
在所述目标坐标落入其中一个文本边框内时,将所述其中一个文本边框作为目标文本边框;
在所述目标坐标落入多个文本边框内时,将所述多个文本边框中置信度最大的一个文本边框作为目标文本边框;
在所述目标坐标未落入任何一个文本边框时,将与目标坐标最近的文本边框作为目标文本边框;
根据所述目标文本边框对所述拍摄图像进行分割,得到目标图像,所述目标图像为目标文本边框内的拍摄图像部分。
作为一种可选的实施方式,在所述用户的意图指令针对词语时,目标图像获取子单元252可以包括:
将所述拍摄图像输入文本行检测模型,获取拍摄图像每一个文本行的文本行轮廓;
在所述目标坐标落入其中一个文本行轮廓内时,将所述其中一个文本行轮廓作为目标文本行轮廓;
在所述目标坐标落入多个文本行轮廓内时,将所述多个文本行轮廓中置信度最大的一个文本行轮廓作为目标文本行轮廓;
在所述目标坐标未落入任何一个文本行轮廓时,将与目标坐标最近的文本行轮廓作为目标文本行轮廓;
根据所述目标文本行轮廓对所述拍摄图像进行分割,得到目标图像,所述目标图像为目标文本行轮廓内的拍摄图像部分。
图2所示的多指定位的试题拍摄装置,可以在点读场景下,通过预览图像定位多指,利用指甲区域的面积和距离来判定是否需要执行拍照操作,进而获取用户意图,实现智能化拍照的目的。
实施例三
请参阅图3,图3是本发明实施例公开的一种电子设备的结构示意图。如图3所示,该电子设备可以包括:
存储有可执行程序代码的存储器310;
与存储器310耦合的处理器320;
其中,处理器320调用存储器310中存储的可执行程序代码,执行实施例一中多指定位的试题拍摄方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中多指定位的试题拍摄方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中多指定位的试题拍摄方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中多指定位的试题拍摄方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种多指定位的试题拍摄方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种多指定位的试题拍摄方法,其特征在于,包括:
在电子设备处于点读场景下,启动图像采集装置对准承载体,获取预览图像;
对所述预览图像中的指甲进行识别,得到一个或多个指甲区域;
当存在且仅存在一个指甲区域时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像;
当存在多个指甲区域时,计算所述指甲区域的面积以及相邻两个指甲区域之间的最小距离;当所述指甲区域的面积小于预设面积且所述最小距离均小于预设距离时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像。
2.根据权利要求1所述的试题拍摄方法,其特征在于,对所述预览图像中的指甲进行识别,得到一个或多个指甲区域,包括:
利用肤色分割方法或基于机器学习的指甲识别模型对所述预览图像中的指甲进行识别。
3.根据权利要求1所述的试题拍摄方法,其特征在于,计算所述指甲区域的面积,包括:
获取每个指甲区域的像素点数;
计算所有指甲区域的像素点之和;
所述指甲区域的面积小于预设面积,包括:
所述像素点之和小于预设像素点个数。
4.根据权利要求1-3任一项所述的试题拍摄方法,其特征在于,所述方法,还包括:
获取所述指甲区域中纵坐标最大的像素点,并将所述纵坐标最大的像素点作为目标坐标;
利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像。
5.根据权利要求4所述的试题拍摄方法,其特征在于,在所述用户的意图指令针对题目时,所述利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像,包括:
将所述拍摄图像输入实例分割模型,获取每一题目的文本边框;
在所述目标坐标落入其中一个文本边框内时,将所述其中一个文本边框作为目标文本边框;
在所述目标坐标落入多个文本边框内时,将所述多个文本边框中置信度最大的一个文本边框作为目标文本边框;
在所述目标坐标未落入任何一个文本边框时,将与目标坐标最近的文本边框作为目标文本边框;
根据所述目标文本边框对所述拍摄图像进行分割,得到目标图像,所述目标图像为目标文本边框内的拍摄图像部分。
6.根据权利要求4所述的试题拍摄方法,其特征在于,在所述用户的意图指令针对词语时,所述利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像,包括:
将所述拍摄图像输入文本行检测模型,获取拍摄图像每一个文本行的文本行轮廓;
在所述目标坐标落入其中一个文本行轮廓内时,将所述其中一个文本行轮廓作为目标文本行轮廓;
在所述目标坐标落入多个文本行轮廓内时,将所述多个文本行轮廓中置信度最大的一个文本行轮廓作为目标文本行轮廓;
在所述目标坐标未落入任何一个文本行轮廓时,将与目标坐标最近的文本行轮廓作为目标文本行轮廓;
根据所述目标文本行轮廓对所述拍摄图像进行分割,得到目标图像,所述目标图像为目标文本行轮廓内的拍摄图像部分。
7.一种多指定位的试题拍摄装置,其特征在于,所述装置包括:
预览单元,用于在电子设备处于点读场景下,启动图像采集装置对准承载体,获取预览图像;
识别单元,用于对所述预览图像中的指甲进行识别,得到一个或多个指甲区域;
第一判断单元,用于当存在且仅存在一个指甲区域时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像;
第二判断单元,用于当存在多个指甲区域时,计算所述指甲区域的面积以及相邻两个指甲区域之间的最小距离;当所述指甲区域的面积小于预设面积且所述最小距离均小于预设距离时,接收到用户的意图指令后,对所述承载体进行拍照,得到拍摄图像。
8.根据权利要求7所述的试题拍摄装置,其特征在于,所述识别单元,包括:
利用肤色分割方法或基于机器学习的指甲识别模型对所述预览图像中的指甲进行识别。
9.根据权利要求7所述的试题拍摄装置,其特征在于,所述第二判断单元,包括:
第一计算子单元,用于获取每个指甲区域的像素点数;
第二计算子单元,用于计算所有指甲区域的像素点之和;
比对子单元,用于所述像素点之和小于预设像素点个数。
10.根据权利要求7-9任一项所述的试题拍摄装置,其特征在于,所述装置还包括获取单元,所述获取单元,包括:
检测子单元,用于获取所述指甲区域中纵坐标最大的像素点,并将所述纵坐标最大的像素点作为目标坐标;
目标图像获取子单元,用于利用所述目标坐标和拍摄图像以及用户的意图指令获取目标图像。
11.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至6任一项所述的多指定位的试题拍摄方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至6任一项所述的多指定位的试题拍摄方法。
CN202010604455.XA 2020-06-29 2020-06-29 多指定位的试题拍摄方法、装置、电子设备和存储介质 Active CN111711758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010604455.XA CN111711758B (zh) 2020-06-29 2020-06-29 多指定位的试题拍摄方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010604455.XA CN111711758B (zh) 2020-06-29 2020-06-29 多指定位的试题拍摄方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111711758A true CN111711758A (zh) 2020-09-25
CN111711758B CN111711758B (zh) 2021-06-18

Family

ID=72544392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010604455.XA Active CN111711758B (zh) 2020-06-29 2020-06-29 多指定位的试题拍摄方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111711758B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114526709A (zh) * 2022-02-21 2022-05-24 中国科学技术大学先进技术研究院 基于无人机的面积测量方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059678A (zh) * 2019-04-17 2019-07-26 上海肇观电子科技有限公司 一种检测方法、装置及计算机可读存储介质
CN110070080A (zh) * 2019-03-12 2019-07-30 上海肇观电子科技有限公司 一种文字检测方法及装置、设备和计算机可读存储介质
US10514806B2 (en) * 2013-03-11 2019-12-24 Maxell, Ltd. Operation detection device, operation detection method and projector
CN111077997A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种点读模式下的点读控制方法及电子设备
CN111078083A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种点读内容的确定方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10514806B2 (en) * 2013-03-11 2019-12-24 Maxell, Ltd. Operation detection device, operation detection method and projector
CN110070080A (zh) * 2019-03-12 2019-07-30 上海肇观电子科技有限公司 一种文字检测方法及装置、设备和计算机可读存储介质
CN110059678A (zh) * 2019-04-17 2019-07-26 上海肇观电子科技有限公司 一种检测方法、装置及计算机可读存储介质
CN111077997A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种点读模式下的点读控制方法及电子设备
CN111078083A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种点读内容的确定方法及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114526709A (zh) * 2022-02-21 2022-05-24 中国科学技术大学先进技术研究院 基于无人机的面积测量方法、设备及存储介质

Also Published As

Publication number Publication date
CN111711758B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN111353501A (zh) 一种基于深度学习的书本点读方法及系统
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN111711757B (zh) 防手指遮挡的试题拍摄方法、装置、电子设备和存储介质
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
CN111026949A (zh) 一种基于电子设备的搜题方法及系统
CN111613100A (zh) 一种解读绘本方法、装置、电子设备和智能机器人
CN111711758B (zh) 多指定位的试题拍摄方法、装置、电子设备和存储介质
CN111680177A (zh) 数据搜索方法及电子设备、计算机可读存储介质
CN111753168A (zh) 一种搜题的方法、装置、电子设备及存储介质
CN115131693A (zh) 文本内容识别方法、装置、计算机设备和存储介质
CN111079777B (zh) 一种基于书页定位的点读方法及电子设备
CN110795918B (zh) 确定阅读位置的方法、装置及设备
CN111027353A (zh) 一种搜索内容的提取方法及电子设备
CN111432131B (zh) 一种拍照框选的方法、装置、电子设备及存储介质
CN111582281B (zh) 一种图片显示优化的方法、装置、电子设备和存储介质
CN111753715A (zh) 点读场景下试题拍摄的方法、装置、电子设备和存储介质
CN111079504A (zh) 一种文字识别方法及电子设备
CN111553365B (zh) 一种题目选取的方法、装置、电子设备及存储介质
CN112560728B (zh) 目标对象识别方法及装置
CN111027556B (zh) 一种基于图像预处理的搜题方法及学习设备
CN110543238A (zh) 基于人工智能的桌面交互方法
CN116434253A (zh) 图像处理方法、装置、设备、存储介质及产品
CN113449652A (zh) 基于生物特征识别的定位方法及装置
CN111079498B (zh) 一种基于口型识别的学习功能切换方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant