CN113420176B - 搜题方法、题目框绘制方法和装置、设备及存储介质 - Google Patents

搜题方法、题目框绘制方法和装置、设备及存储介质 Download PDF

Info

Publication number
CN113420176B
CN113420176B CN202110694942.4A CN202110694942A CN113420176B CN 113420176 B CN113420176 B CN 113420176B CN 202110694942 A CN202110694942 A CN 202110694942A CN 113420176 B CN113420176 B CN 113420176B
Authority
CN
China
Prior art keywords
image
question
position information
view interface
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110694942.4A
Other languages
English (en)
Other versions
CN113420176A (zh
Inventor
苏丽荣
丁小晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110694942.4A priority Critical patent/CN113420176B/zh
Publication of CN113420176A publication Critical patent/CN113420176A/zh
Application granted granted Critical
Publication of CN113420176B publication Critical patent/CN113420176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开公开了一种搜题方法,涉及人工智能领域,尤其涉及深度学习、计算机视觉、云计算、NLP、大数据和智能搜索等技术领域,可以应用于基于拍照的多题搜索场景。具体实现方案为:获取包含有至少一个题目的第一图像;将第一图像展示在视图界面中;针对视图界面中展示的至少一个题目中的每个题目,执行以下操作:响应于接收到第一服务器针对每个题目返回的位置信息,基于接收到的位置信息,在视图界面中为每个题目绘制对应的题目框,得到至少一个题目框;以及响应于至少一个题目框中的任意一个或多个题目框被触发,截取被触发的题目框内的图像,并将截取的图像发送至第二服务器进行搜题。

Description

搜题方法、题目框绘制方法和装置、设备及存储介质
技术领域
本公开涉及人工智能领域,尤其涉及深度学习、计算机视觉、云计算、NLP、大数据和智能搜索等技术领域,可以应用于基于拍照的多题搜索场景。具体涉及一种搜题方法、题目框绘制方法和装置、设备及存储介质。
背景技术
在学生作业场景中,学生常常需要完成一页书中的某几道习题,并且有时候需要完成一整页中的所有习题。因此学生使用搜题App时,很多时候会遇到需要搜索同一页书中的多道题的情景。因此需要找到一种高效搜索多题的解决方案。
发明内容
本公开提供了一种用于搜题方法、题目框绘制方法、装置、设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种搜题方法,包括:获取包含有至少一个题目的第一图像;将所述第一图像展示在视图界面中;针对所述视图界面中展示的所述至少一个题目中的每个题目,执行以下操作:响应于接收到第一服务器针对所述每个题目返回的位置信息,基于接收到的位置信息,在所述视图界面中为所述每个题目绘制对应的题目框,得到至少一个题目框;以及响应于所述至少一个题目框中的任意一个或多个题目框被触发,截取被触发的题目框内的图像,并将截取的图像发送至第二服务器进行搜题。
根据本公开的另一方面,提供了一种题目框绘制方法,包括:获取来自移动终端的第二图像,其中,所述第二图像是所述移动终端对第一图像进行压缩得到的,所述第一图像展示在所述移动终端的视图界面中且包含有至少一个题目;利用识别模型对所述第二图像进行识别,以识别出所述至少一个题目中的每个题目并确定出所述每个题目在所述第二图像中的位置信息;向所述移动终端返回所述位置信息,以使所述移动终端基于所述位置信息,在所述视图界面中为所述每个题目绘制对应的题目框。
根据本公开的另一方面,提供了一种搜题装置,包括:第一获取模块,用于获取包含有至少一个题目的第一图像;展示模块,用于将所述第一图像展示在视图界面中;操作执行模块,用于针对所述视图界面中展示的所述至少一个题目中的每个题目,通过以下单元执行对应的操作:绘制单元,用于响应于接收到第一服务器针对所述每个题目返回的位置信息,基于接收到的位置信息,在所述视图界面中为所述每个题目绘制对应的题目框,得到至少一个题目框;以及搜题单元,用于响应于所述至少一个题目框中的任意一个或多个题目框被触发,截取被触发的题目框内的图像,并将截取的图像发送至第二服务器进行搜题。
根据本公开的另一方面,提供了一种题目框绘制装置,包括:第二获取模块,用于获取来自移动终端的第二图像,其中,所述第二图像是所述移动终端对第一图像进行压缩得到的,所述第一图像展示在所述移动终端的视图界面中且包含有至少一个题目;识别模块,用于利用识别模型对所述第二图像进行识别,以识别出所述至少一个题目中的每个题目并确定出所述每个题目在所述第二图像中的位置信息;返回模块,用于向所述移动终端返回所述位置信息,以使所述移动终端基于所述位置信息,在所述视图界面中为所述每个题目绘制对应的题目框。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A示例性示出了适于本公开实施例的系统架构;
图1B示例性示出了可以实现本公开实施例的场景图;
图2示例性示出了根据本公开实施例的搜题方法的流程图;
图3示例性示出了根据本公开另一实施例的搜题方法的流程图;
图4示例性示出了根据本公开实施例的题目框绘制方法的流程图;
图5示例性示出了根据本公开实施例的搜题原理图;
图6示例性示出了根据本公开实施例的搜题装置的框图;
图7示例性示出了根据本公开实施例的题目框绘制装置的框图;以及
图8示例性示出了用来实现本公开实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
针对搜索多道作业题的应用场景,目前相关技术中提供了以下两种实现方案。
方案1,将包含有多个题目的图像发送至服务端,然后获取用户输入的一个或多个题目(用户指定的题目)在该图像中的坐标信息,并将用户输入的坐标信息也发送至该服务端,最后由该服务端返回与用户指定的题目对应的搜索结果。
方案2,将包含有多个题目的图像送至服务端,然后由服务端识别该图像中的文字,并将识别出的文字组合后在预设题库中进行匹配,最后由该服务端返回匹配频次符合要求的几道题。
应该理解,方案1与传统的搜索单个题目的方案相比并无太大提升。因为:方案1只是减少了用户拍摄照片的次数,但是用户仍需手动输入各题目的坐标信息。因而,方案1本质上还是由用户自己完成题目的框选,导致用户的交互体验不好。
还应该理解,方案2中虽然无需用户输入各题目的坐标信息,但是服务端返回的题目不受用户控制。特别是在用户想搜索的题目为低频题目时,很有可能出现无法搜索到用户想搜索的题目的情况。
基于此,本公开实施例提供了一种用于多题搜索场景的搜题方案,无需用户手动输入各题目的坐标信息,服务端可以自动识别图像中的各个题目以及各个题目的坐标信息,并将识别结果返回至移动终端,从而实现自动框题,并基于用户对题目框的选择进行搜题的目的。
以下将结合附图和具体实施例详细阐述本公开。
适于本公开实施例的系统架构介绍如下。
图1A示例性示出了适于本公开实施例的系统架构。需要注意的是,图1A所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他环境或场景。
如图1A所示,系统架构100可以包括:移动终端101、第一服务器102和第二服务器103。
用户可以通过移动终端101拍照搜题,并且一次可以拍摄一个或者多个题目。
第一服务器102可以用于基于移动终端101拍摄的包含一个或者多个题目的图像进行图像识别,以确定每个题目的位置信息,并将每个题目的位置信息返回至移动终端101。
移动终端101接收到第一服务器102返回的位置信息后,可以基于接收到的位置信息,自动为图像中包含的各个题目标注题目框。
在完成题目框标注后,用户可以依次触发各题目的题目框,从而截取出题目框内的图像区域,并将截取的图像区域发送至第二服务器103进行搜题。最后由第二服务器103向移动终端101返回对应的搜题结果。
需要说明的是,在本公开实施例中,第一服务器102和第二服务器103可以是同一服务器或者两个不同的服务器,本公开在此不做限定。
通过本公开实施例,可以自动框选出图像中的各个题目,从而实现高效搜索多题的目的。
应该理解,图1A中的移动终端和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的移动终端和服务器。
适于本公开实施例的应用场景介绍如下。
本公开实施例可以用于拍照搜题场景,尤其可以用于一次对多个题目进行拍照搜题的应用场景。
如图1B所示,图像中包括:题目1~题目N(N为整数),通过本公开实施例提供的搜题方案(包括搜题方法和题目框绘制方法)可以自动框出题目1~题目N中的每个题目,比如可以使用虚线框框出各题目。用户搜题时,可以依次触发其中的每个虚线框来搜索框内的题目。比如,用户触发题目1的虚线框时,可以搜索到与题目1关联的搜索结果。该搜索结果包括但不限于以下中的至少之一:题目1的答案、解析过程以及涉及的知识点等。应该理解,在本公开实施例中,也可以使用其他形式(如实线框)的方框框选出各个题目,本公开在此不做限定。
根据本公开的实施例,本公开提供了一种搜题方法。
图2示例性示出了根据本公开实施例的搜题方法的流程图。
如图2所示,搜题方法200可以包括:操作S210~S250。
在操作S210,获取包含有至少一个题目的第一图像。
在操作S220,将第一图像展示在视图界面中。
在操作S230,针对视图界面中展示的至少一个题目中的每个题目,执行以下操作S240和S250。
在操作S240,响应于接收到第一服务器针对每个题目返回的位置信息,基于接收到的位置信息,在视图界面中为每个题目绘制对应的题目框,得到至少一个题目框。
在操作S250,响应于至少一个题目框中的任意一个或多个题目框被触发,截取被触发的题目框内的图像,并将截取的图像发送至第二服务器进行搜题。
在本公开实施例中,在拍照搜题时,所拍摄的图像中可以只包含一个题目,或者也可以包含多个题目,本公开在此不做限定。
在本公开实施例中,针对一个或者多个题目拍摄图像后,可以将拍摄到的图像展示在移动终端的一个特定视图界面上。同时,可以将拍摄到的图像发送至服务端(如第一服务器),由该服务端识别出图像中包含的所有题目,并返回每个题目的位置信息(如包括题目对应的图像区域的左上角的坐标和该图像区域的宽度和高度等信息)。然后,移动终端可以根据服务端返回的位置信息,自动在上述的视图界面中绘制出各个题目的题目框。用户可以点击各个题目的题目框或者点击与各个题目关联的题目标签来快速选择需要搜索的题目,即触发各个题目的题目框来快速选择需要搜索的题目。各个题目的题目框被触发后,可以截取出每个题目框内的图像区域,并将截取出的图像区域发送至服务端(如第二服务器,其中,第二服务器与第一服务器可以是同一个服务器或者两个不同的服务器)进行题目搜索,并由该服务端返回对应的搜索结果。在本公开实施例中,在用户通过点击操作切换待搜索的题目,或者微调好被选定题目的题目框后,可以确认用户的搜索需求,移动终端可以截取对应题目框内的图像区域,将截取的图像区域上传至服务端,以搜索该题目对应的答案。
此外,在本公开的一个实施例中,在绘制出各个题目的题目框后,用户可以一个题目接着一个题目地进行搜题,即每次只搜索图像中的一个题目,在完成一个题目的搜索之后再搜索下一个题目。
在本公开的另一个实施例中,在绘制出各个题目的题目框后,用户也可以一次搜索图像中的多个题目,在完成这多个题目的搜索之后再搜索下一个题目或者其他的多个题目。
示例性的,如图3所示,可以按照如下操作进行多题搜索。
在操作S310,获取包含多个题目的图像。
在操作S320,自动为图像中的每个题目标注一个题目框。
在操作S330,用户点击其中任意一个题目的题目框。
在操作S340,截取被点击的题目框内的图像区域。
在操作S350,将截取的图像区域发送至第一服务器,以搜索题目框内的题目的答案。
在操作S360,本图像中是否还有需要搜索的题目。如果还有,则跳转至操作操作S330,以搜索下一个题目的答案。如果没有,则跳转至操作操作S310,以针对下一个图像进行多题搜索。
此外,在本公开实施例中,用户亦可以通过拖拽的方式微调题目框的大小和位置,以便更好地去搜索想要搜索的题目。
需要说明的是,实现多题的框选,需要利用图像识别模型对图像进行检测和识别。并且,当图像比较大时,为了保障较好的框题效果,选择的运算逻辑会比较复杂。在这种情况下,为了保障框题的准确性,可以采用服务端图像识别模型(简称服务端模型)对图像进行检测和识别。服务端模型可以通过调用大量的计算资源来检测和识别图像,从而提高框题的准确度,同时也能避免因图像识别模型设置在设备端(如移动终端侧)而给设备端带来巨大的能耗。
与相关技术中,基于拍照进行多题搜索时,需要用户手动框题,导致用户交互体验不佳,且搜题效率不高相比,本公开实施例在相同场景中,可以高效、准确地自动框题,大多数场景下用户只需要通过单击屏幕选择题目即可实现搜题,使得用户交互体验得以大幅提升。
并且,本公开实施例中,在服务端执行图像的检测和识别操作,能够精确又快速地框选出所拍摄图像中包含的所有题目,便于用户快速搜索同一页中的多个题目。
作为一种可选的实施例,将第一图像展示在视图界面中,可以包括:按照预设缩放比例,将第一图像展示在视图界面中。
其中,上述的预设缩放比例可以通过以下公式1计算得到:
公式1中,imgDrawScale表示预设缩放比例,WshowView表示视图界面的宽度,HshowView表示视图界面的高度,RshowView表示视图界面的宽高比,WbigImg表示第一图像的宽度,HbigImg表示第一图像的高度,RbigImg表示第一图像的宽高比。
也就是说,在本公开实施例中,上述视图界面的宽、高分别为WshowView和HshowView。因而,该视图界面的宽高比RshowView可以通过以下公式2计算得到:
此外,在本公开实施例中,第一图像的宽、高分别为WbigImg和HbigImg。因而,该第一图像的宽高比RbigImg可以通过以下公式3计算得到:
应该理解,在上述的视图界面中展示第一图像时,最好既能保证图像的完整性,又能保证图像不失真。因而,在展示第一图像时,如果第一图像的宽高比相对于视图界面的宽高比更大,则在展示第一图像时可以尽量使其宽占满整个视图界面的宽。相反,如果第一图像的宽高比相对于视图界面的宽高比更小,则在展示第一图像时可以尽量使其高占满整个视图界面的高。
具体地,按照上述公式1中描述的预设缩放比例,第一图像在视图界面中展示的图像宽度Wdraw和图像高度Hdraw可以分别通过公式4计算得到:
此外,在本公开实施例中,为了美观起见,第一图像在视图界面中可以居中展示。其中,第一图像在视图界面中的左边距leftOffset和上边距topOffset可以分别由如下公式5和公式6计算得到:
通过本公开实施例,可以保证将整个图像全部展示在视图界面上,或者将整个视图界面全部占满。
作为一种可选的实施例,该方法还包括如下操作。
将第一图像压缩成第二图像。
将第二图像发送至第一服务器,以使第一服务器利用识别模型并基于第二图像识别出图像中的至少一个题目中的每个题目,进而针对每个题目返回对应的位置信息,以便在视图界面中绘制每个题目的题目框。
应该理解,采用服务端模型进行图像的检测和识别,需要通过网络将图像发送至服务端,识别结果也需要通过网络传回设备端(终端设备侧),因而增加了一次网络请求。特别是对于图像上传而言,如果图像数据量大,则传输耗时也大,必然会影响框题速度。换言之,如果直接将原始的大图发送至服务端进行图像的检测和识别,则传输耗时较大,会影响框题速度,进而影响用户的交互体验。
对此,本公开实施例中,将包含有多个题目的第一图像(可称之为大图)绘制在终端设备的视图界面上,同时加载扫描动画,以告知用户,后台正在处理。与此同时,本公开实施例采用压缩-映射法,将上述大图按照预设的压缩系数进行尺寸压缩,得到第二图像(可称之为小图),并将小图传至服务端进行图像检测和识别。服务端可以通过图像识别模型识别小图中包含的所有题目,取得各个题目在小图中的坐标数据,并将这些坐标数据返回至移动终端。移动终端接收到各个题目在小图中的坐标数据之后,可以将其映射至大图中,并根据大图与视图界面之间的缩放比例,将其最终映射至视图界面上。
通过本公开实施例,在服务端进行图像检测和识别,可以提高框题的准确度,同时可以避免因图像识别模型设置在设备端而给设备端带来巨大的能耗。此外,在将图像传输至服务端之前,先将大图压缩成小图,可以保证图像的传输速度,进一步提高搜题效率。
进一步,作为一种可选的实施例,将第一图像压缩成第二图像,可以包括如下操作。
基于第一图像的大小和/或识别模型(即图像识别模型)对图像精度的要求,确定对应的压缩系数。
按照压缩系数,将第一图像压缩成第二图像。
需要说明的是,本公开实施例中,压缩系数scaleRadio可以结合原图的大小(即大图的大小)和/或服务端模型对图像精度的要求来确定。当scaleRadio取值合适时,既能大幅度提升图像的上传速度,从而保证框题速度,又能保证框题的准确度。在确定scaleRadio的值后,可以使用该值生成一个缩放转换矩阵,然后通过调用安卓接口createBitmap,即可得到按缩放转换矩阵压缩得到的小图。
将小图上传至服务端,服务端通过可以调用大量计算资源的图像识别模型来检测和识别小图中包含的所有题目,并取得各题目在小图中的坐标,然后将各题目在小图中的坐标数据返回至移动终端。移动终端在等待服务端返回数据的同时,可以将包含多题的大图绘制在产品设计好的视图界面上,并加载扫描动画,已告知用户,后台正在处理。
通过本公开实施例,采用预设的压缩系数进行图像压缩,可以保证图像不失真,进而保证图像识别的准确度。
更进一步,作为一种可选的实施例,基于接收到的位置信息,在视图界面中为每个题目绘制对应的题目框,得到至少一个题目框,可以包括针对视图界面中的每个题目,执行以下操作。
获取第一服务器返回的题目在第二图像中的第二位置信息。
按照压缩系数,对第二位置信息进行变换,得到题目在第一图像中的第一位置信息。
按照预设缩放比例,对第一位置信息进行变换,得到题目在视图界面中的目标位置信息。
基于目标位置信息,在视图界面中为题目绘制对应的题目框。
应该理解,对于图像中的每个题目,可以使用一个矩形框框住该题目。具体地,可以通过四个值(top,left,width,height)来唯一描述该题目框的位置。其中left,top为题目框的左上角的x坐标与y坐标,而width和height则为题目框的宽度和高度。
示例性的,假设服务端针对小图返回的一个题目框的位置信息为(top0,left0,width0,height0),那么按照大图和小图之间的压缩-映射关系,可以将(top0,left0,width0,height0)映射为该题目框在大图中的位置信息(top1,left1,width1,height1)。
进一步,按照大图与视图界面之间的缩放比例,可以将该题目框在大图中的位置信息(top1,left1,width1,height1)映射为(top2,left2,width2,height2)。
进一步,对于绘制在试图界面中的图像而言,需要绘制的题目框的宽width2和高height2可由以下公式计算得到:
此外,该题目框的左上角的坐标则可通过如下公式计算得到:
通过本公开实施例,根据公式7、8、9即可在视图界面中准确地绘制出的图像中包含的所有题目的题目框。
根据本公开的实施例,本公开提供了一种题目框绘制方法。
图4示例性示出了根据本公开实施例的题目框绘制方法的流程图。
如图4所示,题目框绘制方法400可以包括:操作S410~S430。
在操作S410,获取来自移动终端的第二图像,其中,第二图像是移动终端对第一图像进行压缩得到的,第一图像展示在移动终端的视图界面中且包含有至少一个题目。
在操作S420,利用识别模型对第二图像进行识别,以识别出至少一个题目中的每个题目并确定出每个题目在第二图像中的位置信息。
在操作S430,向移动终端返回位置信息,以使移动终端基于位置信息,在视图界面中为每个题目绘制对应的题目框。
需要说明的是,本公开实施例提供的题目框绘制方法可以应用于服务端。
此外,在本公开实施例中,由第一图像到第二图像所采用的压缩方法,可以参考前述实施例中的描述,本公开在此不再赘述。
此外,在本公开实施例中,将第一图像展示在视图界面上的所采用的方法,也可以参考前述实施例中的描述,本公开在此不再赘述。
此外,在本公开实施例中,移动终端根据服务端传回的位置信息绘制题目框的方法,也可以参考前述实施例中的描述,本公开在此不再赘述。
通过本公开实施例,在服务端进行图像的检测和识别,可以调用大量的计算资源,并实现复杂的计算逻辑,因而可以提高框题的准确度,同时可以减少移动终端上的功耗。并且,通过将大图压缩成小图后再传输至服务端,可以节约图像传输所消耗的时间,因而可以提高框题效率,进而可以提升用户的搜题体验。
以下将结合图5和具体实施例详细阐述本公开的实现原理。
如图5所示,用户搜题时,可以使用移动终端一次性针对多个题目进行拍照,并将拍得的大图展示在终端的视图界面上。同时,移动终端可以将拍得的大图压缩成小图,并将小图传输至服务端进行图像的检测和识别,之后由服务端返回小图中各题目的位置信息。移动终端再根据服务端传回的位置信息,在视图界面上绘制各题目的题目框。最后,用户可以直接点击界面上的题目框,或者先微调题目框再点击,以便选择框内的题目来实现搜题目的。
根据本公开的实施例,本公开还提供了一种搜题装置。
图6示例性示出了根据本公开实施例的搜题装置的框图。
如图6所示,搜题装置600可以包括:第一获取模块610、展示模块620、操作执行模块630、绘制单元640和搜题单元650。
具体地,第一获取模块610,用于获取包含有至少一个题目的第一图像。
展示模块620,用于将该第一图像展示在视图界面中。
操作执行模块630,用于针对该视图界面中展示的该至少一个题目中的每个题目,通过以下单元执行对应的操作。
绘制单元640,用于响应于接收到第一服务器针对该每个题目返回的位置信息,基于接收到的位置信息,在该视图界面中为该每个题目绘制对应的题目框,得到至少一个题目框。
搜题单元650,用于响应于该至少一个题目框中的任意一个或多个题目框被触发,截取被触发的题目框内的图像,并将截取的图像发送至第二服务器进行搜题。
作为一种可选的实施例,该展示模块还用于:按照预设缩放比例,将该第一图像展示在该视图界面中。其中,该预设缩放比例通过以下公式计算得到:
其中,imgDrawScale表示该预设缩放比例,WshowView表示该视图界面的宽度,HshowView表示该视图界面的高度,RshowView表示该视图界面的宽高比,WbigImg表示该第一图像的宽度,HbigImg表示该第一图像的高度,RbigImg表示该第一图像的宽高比。
作为一种可选的实施例,该装置还包括:压缩模块,用于将该第一图像压缩成第二图像;以及发送模块,用于将该第二图像发送至该第一服务器,以使该第一服务器利用识别模型并基于该第二图像识别出该至少一个题目中的每个题目,进而针对该每个题目返回对应的位置信息,以便在该视图界面中绘制该每个题目的题目框。
作为一种可选的实施例,该压缩模块包括:确定单元,用于基于该第一图像的大小和/或该识别模型对图像精度的要求,确定对应的压缩系数;以及压缩单元,用于按照该压缩系数,将该第一图像压缩成第二图像。
作为一种可选的实施例,该绘制单元包括,针对该视图界面中的该每个题目,通过以下子单元执行对应的操作:获取子单元,用于获取该第一服务器返回的题目在该第二图像中的第二位置信息;第一变换子单元,用于按照该压缩系数,对该第二位置信息进行变换,得到该题目在该第一图像中的第一位置信息;第二变换子单元,用于按照预设缩放比例,对该第一位置信息进行变换,得到该题目在该视图界面中的目标位置信息;以及绘制子单元,用于基于该目标位置信息,在该视图界面中为该题目绘制对应的题目框。
应该理解,本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似,所解决的技术问题和所达到的技术效果也对应相同或类似,本公开在此不再赘述。
根据本公开的实施例,本公开还提供了一种题目框绘制装置。
图7示例性示出了根据本公开实施例的题目框绘制装置的框图。
如图7所示,题目框绘制装置700可以包括:第二获取模块710、识别模块720和返回模块730。
第二获取模块710,用于获取来自移动终端的第二图像,其中,该第二图像是该移动终端对第一图像进行压缩得到的,该第一图像展示在该移动终端的视图界面中且包含有至少一个题目。
识别模块720,用于利用识别模型对该第二图像进行识别,以识别出该至少一个题目中的每个题目并确定出该每个题目在该第二图像中的位置信息。
返回模块730,用于向该移动终端返回该位置信息,以使该移动终端基于该位置信息,在该视图界面中为该每个题目绘制对应的题目框。
应该理解,本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似,所解决的技术问题和所达到的技术效果也对应相同或类似,本公开在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如搜题方法(或者题目框绘制方法)。例如,在一些实施例中,搜题方法(或者题目框绘制方法)可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的搜题方法(或者题目框绘制方法)的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行搜题方法(或者题目框绘制方法)。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
本公开的技术方案中,所涉及的信息的记录,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (9)

1.一种搜题方法,应用于终端,包括:
获取包含有至少一个题目的第一图像;
按照预设缩放比例,将所述第一图像展示在视图界面中,并将所述第一图像按照预设压缩系数进行压缩,得到第二图像,其中,所述预设压缩系数是基于识别模型对图像识别精度的要求确定的,所述预设压缩系数关联于所述第二图像的上传速度,且关联于所述题目的位置信息的准确度;
将所述第二图像发送给第一服务器,通过所述第一服务器使用所述识别模型识别出每个题目在所述第二图像中的位置信息,并接收所述第一服务器返回的每个题目在所述第二图像中的位置信息;
针对所述视图界面中展示的所述至少一个题目中的每个题目,执行以下操作:
响应于接收到第一服务器针对所述每个题目返回的在所述第二图像中的位置信息,按照所述预设压缩系数,将所述每个题目在所述第二图像中的位置信息转换为所述题目在所述第一图像中的位置信息;
按照所述预设缩放比例,将所述题目在所述第一图像中的位置信息,转换为所述题目在所述视图界面中的目标位置信息;
基于所述题目在所述视图界面中的目标位置信息,在所述视图界面中为所述每个题目绘制对应的题目框,得到至少一个题目框;以及
响应于所述至少一个题目框中的任意一个或多个题目框被触发,截取被触发的题目框内的图像,并将截取的图像发送至第二服务器进行搜题。
2.根据权利要求1所述的方法,其中,所述预设缩放比例通过以下公式计算得到:
其中,imgDrawScale表示所述预设缩放比例,WshowView表示所述视图界面的宽度,HshowView表示所述视图界面的高度,RshowView表示所述视图界面的宽高比,WbigImg表示所述第一图像的宽度,HbigImg表示所述第一图像的高度,RbigImg表示所述第一图像的宽高比。
3.一种题目框绘制方法,应用于第一服务器,包括:
获取来自移动终端的第二图像,其中,所述第二图像是所述移动终端对第一图像按照预设缩放比例进行缩放,再基于预设压缩系数进行压缩得到的,所述第一图像展示在所述移动终端的视图界面中且包含有至少一个题目,所述预设压缩系数是基于识别模型对图像识别精度的要求确定的,所述预设压缩系数关联于所述第二图像的上传速度,且关联于所述题目的位置信息的准确度;
利用识别模型对所述第二图像进行识别,以识别出所述至少一个题目中的每个题目并确定出所述每个题目在所述第二图像中的位置信息;
向所述移动终端返回所述位置信息,以使所述移动终端基于所述预设压缩系数,将所述题目在所述第二图像中的位置信息转换为在所述第一图像上的位置信息,再基于所述预设缩放比例,将所述题目在所述第一图像中的位置信息转换为所述题目在所述视图界面中的目标位置信息,基于所述目标位置信息在所述视图界面中为所述每个题目绘制对应的题目框。
4.一种搜题装置,设置于终端,包括:
第一获取模块,用于获取包含有至少一个题目的第一图像;
展示模块,用于按照预设缩放比例,将所述第一图像展示在视图界面中;
压缩模块,用于将所述第一图像按照预设压缩系数进行压缩,得到第二图像,其中,所述预设压缩系数是基于识别模型对图像识别精度的要求确定的,所述预设压缩系数关联于所述第二图像的上传速度,且关联于所述题目的位置信息的准确度;
交互模块,用于将所述第二图像发送给第一服务器,通过所述第一服务器使用所述识别模型识别出每个题目在所述第二图像中的位置信息,并接收所述第一服务器返回的每个题目在所述第二图像中的位置信息;
操作执行模块,用于针对所述视图界面中展示的所述至少一个题目中的每个题目,通过以下单元执行对应的操作:
第一转换单元,用于响应于接收到第一服务器针对所述每个题目返回的在所述第二图像中的位置信息,按照所述预设压缩系数,将所述每个题目在所述第二图像中的位置信息转换为所述题目在所述第一图像中的位置信息;
第二转换单元,用于按照所述预设缩放比例,将所述题目在所述第一图像中的位置信息,转换为所述题目在所述视图界面中的目标位置信息;
绘制单元,用于基于所述题目在所述视图界面中的目标位置信息,在所述视图界面中为所述每个题目绘制对应的题目框,得到至少一个题目框;以及
搜题单元,用于响应于所述至少一个题目框中的任意一个或多个题目框被触发,截取被触发的题目框内的图像,并将截取的图像发送至第二服务器进行搜题。
5.根据权利要求4所述的装置,其中,所述预设缩放比例通过以下公式计算得到:
其中,imgDrawScale表示所述预设缩放比例,WshowView表示所述视图界面的宽度,HshowView表示所述视图界面的高度,RshowView表示所述视图界面的宽高比,WbigImg表示所述第一图像的宽度,HbigImg表示所述第一图像的高度,RbigImg表示所述第一图像的宽高比。
6.一种题目框绘制装置,设置于第一服务器,包括:
第二获取模块,用于获取来自移动终端的第二图像,其中,所述第二图像是所述移动终端按照预设缩放比例进行缩放,再基于预设压缩系数对第一图像进行压缩得到的,所述第一图像展示在所述移动终端的视图界面中且包含有至少一个题目,所述预设压缩系数是基于识别模型对图像识别精度的要求确定的,所述预设压缩系数关联于所述第二图像的上传速度,且关联于所述题目的位置信息的准确度;
识别模块,用于利用识别模型对所述第二图像进行识别,以识别出所述至少一个题目中的每个题目并确定出所述每个题目在所述第二图像中的位置信息;
返回模块,用于向所述移动终端返回所述位置信息,以使所述移动终端基于所述预设压缩系数,将所述题目在所述第二图像中的位置信息转换为在所述第一图像上的位置信息,再基于所述预设缩放比例,将所述题目在所述第一图像中的位置信息转换为所述题目在所述视图界面中的目标位置信息,基于所述目标位置信息在所述视图界面中为所述每个题目绘制对应的题目框。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-3中任一项所述的方法。
9.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-3中任一项所述的方法。
CN202110694942.4A 2021-06-22 2021-06-22 搜题方法、题目框绘制方法和装置、设备及存储介质 Active CN113420176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110694942.4A CN113420176B (zh) 2021-06-22 2021-06-22 搜题方法、题目框绘制方法和装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110694942.4A CN113420176B (zh) 2021-06-22 2021-06-22 搜题方法、题目框绘制方法和装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113420176A CN113420176A (zh) 2021-09-21
CN113420176B true CN113420176B (zh) 2024-05-17

Family

ID=77716306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110694942.4A Active CN113420176B (zh) 2021-06-22 2021-06-22 搜题方法、题目框绘制方法和装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113420176B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372126A (zh) * 2016-08-24 2017-02-01 广东小天才科技有限公司 一种拍照搜题的方法及装置
CN108287900A (zh) * 2018-01-23 2018-07-17 广东小天才科技有限公司 一种手持拍照设备的搜题方法、系统及手持拍照设备
CN108595239A (zh) * 2018-04-18 2018-09-28 腾讯科技(深圳)有限公司 图片处理方法、装置、终端及计算机可读存储介质
CN110297681A (zh) * 2019-06-24 2019-10-01 腾讯科技(深圳)有限公司 图像处理方法、装置、终端及存储介质
CN111027537A (zh) * 2019-05-05 2020-04-17 广东小天才科技有限公司 一种搜题方法及电子设备
CN111563511A (zh) * 2020-04-30 2020-08-21 广东小天才科技有限公司 一种智能框题的方法、装置、电子设备及存储介质
CN111860443A (zh) * 2020-07-31 2020-10-30 上海掌学教育科技有限公司 语文作业题目文字识别方法、搜索方法、服务器及系统
CN112380372A (zh) * 2020-11-13 2021-02-19 上海哔哩哔哩科技有限公司 搜索图像的方法及计算设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2957584A1 (en) * 2016-02-12 2017-08-12 Coho Data, Inc. Methods, systems, and devices for adaptive data resource assignment and placement in distributed data storage systems

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372126A (zh) * 2016-08-24 2017-02-01 广东小天才科技有限公司 一种拍照搜题的方法及装置
CN108287900A (zh) * 2018-01-23 2018-07-17 广东小天才科技有限公司 一种手持拍照设备的搜题方法、系统及手持拍照设备
CN108595239A (zh) * 2018-04-18 2018-09-28 腾讯科技(深圳)有限公司 图片处理方法、装置、终端及计算机可读存储介质
CN111027537A (zh) * 2019-05-05 2020-04-17 广东小天才科技有限公司 一种搜题方法及电子设备
CN110297681A (zh) * 2019-06-24 2019-10-01 腾讯科技(深圳)有限公司 图像处理方法、装置、终端及存储介质
CN111563511A (zh) * 2020-04-30 2020-08-21 广东小天才科技有限公司 一种智能框题的方法、装置、电子设备及存储介质
CN111860443A (zh) * 2020-07-31 2020-10-30 上海掌学教育科技有限公司 语文作业题目文字识别方法、搜索方法、服务器及系统
CN112380372A (zh) * 2020-11-13 2021-02-19 上海哔哩哔哩科技有限公司 搜索图像的方法及计算设备

Also Published As

Publication number Publication date
CN113420176A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN109146892B (zh) 一种基于美学的图像裁剪方法及装置
CN111782977B (zh) 兴趣点处理方法、装置、设备及计算机可读存储介质
CN114092963B (zh) 关键点检测及模型训练方法、装置、设备和存储介质
CN112994980B (zh) 时延测试方法、装置、电子设备和存储介质
EP4224338A1 (en) Data labeling method, apparatus, and system, device, and storage medium
CN113837194B (zh) 图像处理方法、图像处理装置、电子设备以及存储介质
CN105488470A (zh) 确定人物属性信息的方法及装置
CN114792355A (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN114168793A (zh) 主播展示方法、装置、设备和存储介质
EP3564833B1 (en) Method and device for identifying main picture in web page
CN113420176B (zh) 搜题方法、题目框绘制方法和装置、设备及存储介质
CN112287945A (zh) 碎屏确定方法、装置、计算机设备及计算机可读存储介质
CN115994243A (zh) 跨模态检索模型处理方法、装置、设备、产品及介质
CN114445833B (zh) 文本识别方法、装置、电子设备和存储介质
CN114173158B (zh) 人脸识别方法、云端设备、客户端设备、电子设备及介质
CN113905040B (zh) 文件传输方法、装置、系统、设备以及存储介质
CN115937039A (zh) 数据扩充方法、装置、电子设备及可读存储介质
CN114782249A (zh) 一种图像的超分辨率重建方法、装置、设备以及存储介质
CN112925942A (zh) 一种数据搜索方法、装置、设备及存储介质
CN113823283B (zh) 信息处理的方法、设备、存储介质及程序产品
US20230119741A1 (en) Picture annotation method, apparatus, electronic device, and storage medium
CN115205555B (zh) 确定相似图像的方法、训练方法、信息确定方法及设备
CN113656629B (zh) 视觉定位方法、装置、电子设备及存储介质
CN113988893B (zh) 一种商品信息处理方法、装置、设备及存储介质
CN113703890B (zh) 显示控制方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant