CN110413731A - 搜题方法、装置、电子设备和存储介质 - Google Patents

搜题方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110413731A
CN110413731A CN201910627060.9A CN201910627060A CN110413731A CN 110413731 A CN110413731 A CN 110413731A CN 201910627060 A CN201910627060 A CN 201910627060A CN 110413731 A CN110413731 A CN 110413731A
Authority
CN
China
Prior art keywords
text
topic
row
mark
former
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910627060.9A
Other languages
English (en)
Inventor
王培坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910627060.9A priority Critical patent/CN110413731A/zh
Publication of CN110413731A publication Critical patent/CN110413731A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种搜题方法、装置、电子设备和存储介质,该方法包括:获取包括待搜索题目的图片;识别所述图片中的文字;将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。提高了一次性搜索多题时的准确率。

Description

搜题方法、装置、电子设备和存储介质
技术领域
本申请实施例涉及电子设备技术,尤其涉及一种搜题方法、装置、电子设备和存储介质。
背景技术
目前,市面上很多电子教育产品都可以实现搜题功能,用户可以通过题目的图片来搜索该题目所对应的答案。通常情况下,每次只能搜索一道试题。当用户需要搜索多个试题时,只能一个一个进行搜索。
因此,出现了用户需要搜索多个试题时的解决办法,例如拍摄的图片就会包括多个试题,这时,将不同的题目的文字混合在一起,这样去题库里搜索的匹配度会严重降低,从而导致搜不出原题。
发明内容
本申请提供了一种搜题方法、装置、电子设备和存储介质方法、装置、电子设备和存储介质,以解决现有技术中因待搜索的内容包含多道题目信息而导致难以搜出原题或搜索准确率较低的问题。
本发明采用如下技术方案:
第一方面,本申请实施例提供了一种搜题方法,该方法包括:
获取包括待搜索题目的图片;
识别所述图片中的文字;
将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;
按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。
第二方面,本申请实施例提供了一种搜题装置,该装置包括:
图片获取模块,用于获取包括待搜索题目的图片;
文字识别模块,用于识别所述图片中的文字;
第一原题标识确定模块,用于将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;
第二原题标识确定模块,用于按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。
第三方面,本申请实施例提供了一种电子设备,包括存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的搜题方法。
第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的搜题方法。
本发明采用的技术方案中有如下有益效果:获取包括待搜索题目的图片;识别所述图片中的文字;将每行文字或组合的多行文字与预设题库进行匹配,而不是直接将全部文字与题库进行匹配,这样,一方面提高了搜题效率,另一方面也提高了搜题准确率;确定对应的原题标识;按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识,这样,确定的原题标识的准确率更高,更接近于待搜索题目,因此,提高了一次性搜索多题的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请实施例提供的一种搜题方法的流程图;
图2是本申请实施例提供的另一种搜题方法的流程图;
图3是本申请实施例中适用的一种将图片识别为文字并进行行拆分的效果图;
图4是本申请实施例提供的一种搜题装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1给出了本申请实施例提供的一种搜题方法的流程图,本实施例提供的搜题方法可以由搜题装置来执行,该搜题装置可通过硬件和/或软件的方式实现。参考图1,该方法具体可以包括:
S101、获取包括待搜索题目的图片。
具体的,本申请实施例中的搜题的电子设备以智能手机为例,通过打开智能手机中搜题APP(Application,应用程序),来对待搜索题目进行框选,其中,该搜题APP可以是研发人员预先进行开发,智能手机可以将其下载并进行安装。智能手机在对待搜索题目进行框选后,将生成的图片发送至服务器,服务器获取到包括待搜索题目的图片。
在实际的应用过程中,待搜索题目的图片中可以包括任意数量的题目,由于智能手机拍摄并获取图片的过程为用户触发,需要搜索哪个题目,则对哪个题目进行拍摄。在一个具体的例子中,用户在应用搜题APP进行拍摄时,可以对用户进行提示,例如提示用户当前选了几道题。例如,提示方式可以是语音方式,还可以是以弹窗形式显示在智能手机的屏幕上。
可选的,待搜索题目的图片中包括多行文字或多道题目。在一次拍摄过程中,拍摄的照片中包括多行文字或者多道题目均可以,本申请实施例的技术方案并不局限于一行文字或者一道题目,而待搜索题目的图片中具体包括几行文字或者几道题目,可以根据用户的需求在拍摄过程中进行调整。例如,通过调整选题框的大小实现,这里只是用来举例,并不形成具体的限定。
S102、识别所述图片中的文字。
具体的,服务器在接收到包括待搜索题目的图片后,开启文字识别功能,例如,应用OCR(Optical Character Recognition,光学字符识别)算法识别图片中的文字,还可以通过其他文字识别方法识别,具体的识别过程可以参照相关技术中如何将图片识别为文字的方法,这里不进行赘述。
S103、将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识。
具体的,预设题库中存储有大量的题目和题目对应的答案,在一个具体的例子中,将与待搜索题目匹配的题目称为原题。其中,组合的多行文字可以是指,至少两行文字组合成的文字,而结合实际的需求,以两行文字组合为例,相邻两行文字组合后,搜索出对应的原题的几率更大。本申请实施例中,可以将每行文字,或者是组合的多行文字与预设题库进行匹配来确定对应的原题标识。其中,以组合的多行文字为例,具体的匹配过程可以是通过比对组合的多行文字与题库中的题目的文字的重合率来确定对应的原题标识,或者是其他方式,这里不进行限定。在一个具体的例子中,原题标识可以字母、数字或者字母与数字的组合,通过原题标识,即可获取到原题标识对应的答案。
S104、按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。
具体的,由于搜题方式分为单行或多行,而且,组合的多行文字也会包括多个不同的组合,这里会确定出多个原题标识,而不同的组合的多行文字匹配出来的原题标识可以相同,也可以不同,此时,可以统计各个原题标识出现的频次,其中,频次越高,表明该原题标识与待搜索题目匹配的准确率越高。最后,可以挑选频次较高的原题标识,将预设数量的频次较高的原题标识确定为待搜索题目对应的原题标识。
另外,在确定了与待搜索题目对应的原题标识后,可以将和原题标识对应的答案发送至电子设备进行展示。在一个具体的场景中,电子设备可以是家长的智能手机,智能手机接收到原题标识和对应得答案后,可以更好的辅导孩子作业。
本发明采用的技术方案中有如下有益效果:获取包括待搜索题目的图片;识别所述图片中的文字;将每行文字或组合的多行文字与预设题库进行匹配,而不是直接将全部文字与题库进行匹配,这样,一方面提高了搜题效率,另一方面也提高了搜题准确率;确定对应的原题标识;按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识,这样,确定的原题标识的准确率更高,更接近于待搜索题目,因此,提高了一次性搜索多题的准确率。
在上述实施例的基础上,图2给出了本申请实施例提供的另一种搜题方法流程图。该搜题方法是对上述搜题方法的具体化。参考图2,该搜题方法包括:
S201、获取包括待搜索题目的图片。
S202、识别所述图片中的文字。
S203、确定所述图片中每行文字的行标识。
具体的,在识别出图片中的文字后,然后确定文字所在的行,例如,通过获取每个文字的坐标数据,根据不同文字的坐标数据不同,来确定哪些文字属于同一行,哪些文字不属于同一行,此外,还可以确定文字所在行与行之间的位置关系,例如,相邻的行还是不相邻的行。另外,为了区分各个行,还可以为每行添加行标识,例如,行标识例如可以是数字、字母或者数据与字母的组合,以便对各个行进行区分。
可选的,确定所述图片中每行文字的行标识可以通过如下方式实现:识别所述文字的位置坐标;根据预设行宽和预设行高,确定所述文字所在行的行标识。
具体的,在识别图片中的文字的过程中,还可以获取到每个文字的位置坐标,每个文字的位置坐标可以表征该文字的位置,以及,不同文字的位置关系。其中,预设行宽和预设行高可以通过预先设定,设定规则可以是根据待搜索题目当前所在试题页面的尺寸以及容纳的文字的行数设定,这里只是一个示例,不进行任何限定。此时,根据每个文字的位置坐标、预设行宽和预设行高,就可以确定文字在哪行。为了区分各个行,为各行添加了标识,例如①、②、③、④、⑤等。
S204、根据各个行标识,按照预设排列组合规则,获取组合的多行文字。
具体的,相关技术中,是通过将各行文字进行合并,也就是将待搜索题目的中的全部文字,与题库中题目进行匹配,来搜出一定数量的最相似的原题,例如,搜出3道最相似的原题,但是,在一张图片中包括多个待搜索题目时,由于不同题目之间的文字的关联度可能不大,直接将文字合并搜索通常只会搜出文字较多的原题,例如,图片中哪些字出现的次数多,则搜出来的与这些字相关的原题越多,而这些原题中可能只是待搜索题目的一部分,或者不是待搜索题目中的。
因此,为了提高一次性搜多题的准确率,本申请实施例中,根据各个行标识,按照一定的预设排列组合规则,例如,每两行组合为一个组合的多行文字或者,每三行组合为另一个组合的多行文字,这样,就可以提高在预设题库中搜索的准确率。
下面用一个具体的例子来说明组合的多行文字的确定方法。可选的,预设排列组合规则包括每相邻N行文字进行组合以确定各组组合的多行文字,其中,N为大于0且小于M的自然数,所述M为所述待搜索题目的图片中文字的总行数。
根据各个行标识,N从1开始,依次取值,直到M,将所述文字组合为各个组合的多行文字。示例性的,图3示出了一种将图片识别为文字并进行行拆分的效果图,以图3为例,N可以取1、2、3、4;M取5,则预设排列组合规则包括以下几类:将第1行、第2行、第3行、第4行和第5行作为第一类组合的多行文字的5个组合的多行文字;将第1、2行、第2、3行、第3、4行和第4、5行作为第二类组合的多行文字的4个组合的多行文字;将第1、2、3行、第2、3、4行和第3、4、5行作为第三类组合的多行文字的3个组合的多行文字;将第1、2、3、4行和第2、3、4、5行作为第四类组合的多行文字的2个组合的多行文字;将第1、2、3、4、5行作为第五类组合的多行文字的1个组合的多行文字。在这个具体的例子中,M取5时,则一共有5类、15个组合的多行文字。
在一个具体的实施例中,若N为1且行文字数小于每行能容纳文字总数的预设比例时,将所述行文字合并至上一行作为一行,以组合为各个组合的多行文字;若N不为1,则N从1依次取值,直到M,将所述文字组合为各个组合的多行文字。
另外,为了节约计算量,如上述示例,当将第1行、第2行、第3行、第4行和第5行作为第一类组合的多行文字的5个组合的多行文字时,还可以进行进一步优化,例如,如果有哪行的文字数小于每行能容纳文字总数的1/3时,表明该行文字数量过少,即时单独作为一个组合的多行文字去预设题库进行搜索时,也可能得不到原题。因此,这种情况下可以将这样文字合并至上一行作为一行,如这个例子中,假设第4行的文字自由5个,小于每行能容纳文字总数的1/3,则此时可以将第4行的文字合并至第3行,则在这一类的组合的多行文字中,结果为第1行、第2行、第3、4行和第5行。
需要说明的是,这里称为组合的多行文字只是一个统称,当一个组合的多行文字中均为单独的一行时,可以理解为组合的特例。
S205、将所述每行文字或各个所述组合的多行文字与预设题库进行匹配,确定对应的原题标识。
S206、选取频次大于预设频次阈值的所述原题标识为所述待搜索题目对应的原题标识。
具体的,在上述具体的例子中,在15个组合的多行文字中,会搜索出15个原题标识,不过,这15个原题标识中可能存在相同的原题标识,例如,第一类组合的多行文字的搜索结果的原题标识为13、15、24、28和31;第二类组合的多行文字的搜索结果的原题标识为14、15、15、34;第三类组合的多行文字的搜索结果的原题标识为13、15、31;第四类组合的多行文字的搜索结果的原题标识为13、31;第五类组合的多行文字的搜索结果的原题标识为31。这样,原题标识13出现了3次、原题标识15出现了4次、原题标识31出现了4次、原题标识24出现了1次、原题标识28出现了1次、原题标识34出现了1次、原题标识14出现了1次。
可选的,预设频次阈值小于或等于M。在上述具体的例子中,M取5,则预设频次阈值可以取3,则将频次最大的前3个原题标识和对应的答案发送至电子设备进行展示。这个具体的例子中,将原题标识13、15和31以及分别对应的答案发送至电子设备进行展示,以供家长或者学生进行参考。
另外,在应用每行文字与预设题库进行匹配并确定对应的原题标识时,仍按照上述示例,可以得到5个答案标识,此时,可以选取与各行文字对应的频次最高的原题标识为待搜索题目的原题标识。
本申请实施例中,通过文字的位置坐标、预设行宽和预设行高来确定文字的行标识,以便更好的对行进行排列组合;在排列组合时,考虑了文字的总行数,以及,多种组合结果更能提高准确率;在搜题的过程中,根据不同组合的多行文字搜出来的原题标识的频次不同,将频次高原题标识确定为待搜索题目对应的原题标识;另外,还可以将待搜索题目对应的原题标识发送至电子设备进行展示,这样一方面提高了准确率,另一方面避免了将全部搜索结果让用户筛选带来的用户体验差的问题,直接不显示准确率低的结果,提高了用户体验。
在一个具体的实施例中,将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识,还可以通过以下方式实现:依次将每行文字或组合的多行文字与预设题库进行匹配;遍历多次匹配进程以将多个匹配结果确定为对应的原题标识。
具体的,与上述实施例相区别,本申请实施例中,无需事先获取到各组合的多行文字在进行搜索,也即,与预设题库进行匹配,而只需依次将每行文字或者组合的多行文字与预设题库进行匹配,例如,匹配过程可以和多行文字的组合过程同步进行,这样可以提高搜题效率。另外,依次将每行文字或组合的多行文字与预设题库进行匹配就可以得到多个原题标识,遍历多次匹配进程,就可以获得多个原题标识。而如何将每行文组进行组合,以及,如何从多个原题标识中确定待搜索题目对应的原题标识,可以参照本申请实施例中的表述,这里不再赘述。
在另一个具体的实施例中,将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识,还可以通过以下方式实现:将同一类型的待匹配文字与预设题库进行匹配;其中,同一类型的待匹配文字中的文字的行数相同;通过每个类型的待匹配文字对应的原题标识确定每行文字对应的原题标识或多行文字对应的原题标识。
具体的,与上述实施例相区别,本申请实施例中,可以将同一类型的待匹配文字作为一个匹配单位与预设题库进行匹配,其中,同一类型的待匹配文字中的文字的行数相同。例如,待搜索题目的图片中文字的总行数以5为例,则第一类型的待匹配文字是指每1行均作为待匹配文字,第二类型的待匹配文字是指每2行的组合均为待匹配文字,第三类型的待匹配文字是指每3行的组合均为待匹配文字,第四类型的待匹配文字是指每4行的组合均为待匹配文字,第五类型的待匹配文字是指每5行的组合均为待匹配文字。需要说明的是,考虑到实际的应用场景,通常情况下多行的组合为连续多行,这样搜索出来对应的原题标识的准确率更高。
这样,可以按类型为匹配单位来与预设题库进行匹配,每个类型的待匹配文字就会得到1组原题标识,这样就会得到5组原题标识。然后可以按照原题标识的频次,依次选出频次最高前几个原题标识作为待搜索题目对应的原题标识,或者,每组原题标识中选出一个频次最高的原题标识,这样就最后得到5个原题标识作为待搜索题目对应的原题标识。
在上述实施例的基础上,图4为本申请实施例提供的一种搜题装置的结构示意图。参考图4,本实施例提供的搜题装置具体包括:图片获取模块401、文字识别模块402、第一原题标识确定模块403和第二原题标识确定模块404。
其中,图片获取模块401,用于获取包括待搜索题目的图片;文字识别模块402,用于识别所述图片中的文字;第一原题标识确定模块403,用于将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;第二原题标识确定模块404,用于按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。
本发明采用的技术方案中有如下有益效果:获取包括待搜索题目的图片;识别所述图片中的文字;将每行文字或组合的多行文字与预设题库进行匹配,而不是直接将全部文字与题库进行匹配,这样,一方面提高了搜题效率,另一方面也提高了搜题准确率;确定对应的原题标识;按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识,这样,确定的原题标识的准确率更高,更接近于待搜索题目,因此,提高了一次性搜索多题的准确率。
进一步的,第一原题标识确定模块403具体用于:
依次将每行文字或组合的多行文字与预设题库进行匹配;
遍历多次匹配进程以将多个匹配结果确定为对应的原题标识。
进一步的,还包括行标识确定模块,用于将每行文字或组合的多行文字与预设题库进行匹配之前,确定所述图片中每行文字的行标识。
进一步的,第一原题标识确定模块403具体用于:
根据各个行标识,按照预设排列组合规则,获取组合的多行文字;
将所述每行文字或各个所述组合的多行文字与预设题库进行匹配,确定原题标识。
进一步的,第一原题标识确定模块403具体用于:
将同一类型的待匹配文字与预设题库进行匹配;其中,同一类型的待匹配文字中的文字的行数相同;
通过每个类型的待匹配文字对应的原题标识确定每行文字对应的原题标识或多行文字对应的原题标识。
进一步的,第二原题标识确定模块404具体用于:
选取频次大于预设频次阈值的所述原题标识为所述待搜索题目对应的原题标识。
进一步的,所述待搜索题目的图片中包括多行文字或多道题目。
进一步的,行标识确定模块具体用于:
识别所述文字的位置坐标;
根据预设行宽和预设行高,确定所述文字所在行的行标识。
本申请实施例提供的搜题装置可以用于执行上述实施例提供的搜题方法,具备相应的功能和有益效果。
本申请实施例提供了一种电子设备,且该电子设备中可集成本申请实施例提供的搜题装置。图5是本申请实施例提供的一种电子设备的结构示意图。参考图5,该电子设备包括:处理器50、存储器51。该电子设备中处理器50的数量可以是一个或者多个,图5中以一个处理器50为例。该电子设备中存储器51的数量可以是一个或者多个,图5中以一个存储器51为例。该电子设备的处理器50和存储器51可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的搜题方法对应的程序指令/模块(例如,搜题装置中的图片获取模块401、文字识别模块402、第一原题标识确定模块403和第二原题标识确定模块404)。存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的搜题方法,该搜题方法包括:获取包括待搜索题目的图片;识别所述图片中的文字;将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。
上述提供的电子设备可用于执行上述实施例提供的搜题方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种搜题方法,该搜题方法包括:获取包括待搜索题目的图片;识别所述图片中的文字;将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。
存储介质——任何的各种类型的存储器电子设备或存储电子设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的搜题方法,还可以执行本申请任意实施例所提供的搜题方法中的相关操作。
上述实施例中提供的搜题装置、存储介质及电子设备可执行本申请任意实施例所提供的搜题方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的搜题方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (11)

1.一种搜题方法,其特征在于,包括:
获取包括待搜索题目的图片;
识别所述图片中的文字;
将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;
按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。
2.根据权利要求1所述的方法,其特征在于,所述将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识,包括:
依次将每行文字或组合的多行文字与预设题库进行匹配;
遍历多次匹配进程以将多个匹配结果确定为对应的原题标识。
3.根据权利要求1所述的方法,其特征在于,所述将每行文字或组合的多行文字与预设题库进行匹配之前,还包括:
确定所述图片中每行文字的行标识。
4.根据权利要求3所述的方法,其特征在于,所述将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识,包括:
根据各个行标识,按照预设排列组合规则,获取组合的多行文字;
将所述每行文字或各个所述组合的多行文字与预设题库进行匹配,确定对应的原题标识。
5.根据权利要求1所述的方法,其特征在于,所述将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识,包括:
将同一类型的待匹配文字与预设题库进行匹配;其中,同一类型的待匹配文字中的文字的行数相同;
通过每个类型的待匹配文字对应的原题标识确定每行文字对应的原题标识或多行文字对应的原题标识。
6.根据权利要求1所述的方法,其特征在于,所述按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识,包括:
选取频次大于预设频次阈值的所述原题标识为所述待搜索题目对应的原题标识。
7.根据权利要求1所述的方法,其特征在于,所述待搜索题目的图片中包括多行文字或多道题目。
8.根据权利要求3所述的方法,其特征在于,所述确定所述文字所在行的行标识,包括:
识别所述文字的位置坐标;
根据预设行宽和预设行高,确定所述文字所在行的行标识。
9.一种搜题装置,其特征在于,包括:
图片获取模块,用于获取包括待搜索题目的图片;
文字识别模块,用于识别所述图片中的文字;
第一原题标识确定模块,用于将每行文字或组合的多行文字与预设题库进行匹配,确定对应的原题标识;
第二原题标识确定模块,用于按照各个所述原题标识出现的频次确定与所述待搜索题目对应的原题标识。
10.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一所述的搜题方法。
11.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一所述的搜题方法。
CN201910627060.9A 2019-07-12 2019-07-12 搜题方法、装置、电子设备和存储介质 Pending CN110413731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910627060.9A CN110413731A (zh) 2019-07-12 2019-07-12 搜题方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910627060.9A CN110413731A (zh) 2019-07-12 2019-07-12 搜题方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN110413731A true CN110413731A (zh) 2019-11-05

Family

ID=68361157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910627060.9A Pending CN110413731A (zh) 2019-07-12 2019-07-12 搜题方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110413731A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177441A (zh) * 2019-12-11 2020-05-19 广东小天才科技有限公司 一种搜题方法及电子设备
CN111241276A (zh) * 2020-01-06 2020-06-05 广东小天才科技有限公司 题目搜索方法、装置、设备及存储介质
CN111639155A (zh) * 2020-05-11 2020-09-08 广东小天才科技有限公司 数学口算算式题型分析方法、装置、电子设备和存储介质
CN111860443A (zh) * 2020-07-31 2020-10-30 上海掌学教育科技有限公司 语文作业题目文字识别方法、搜索方法、服务器及系统
CN113205091A (zh) * 2021-04-30 2021-08-03 作业帮教育科技(北京)有限公司 题目识别方法、装置、设备及介质
CN114581902A (zh) * 2022-03-14 2022-06-03 广东小天才科技有限公司 搜题方法、装置、终端设备和可读存储介质
CN114581919A (zh) * 2022-03-14 2022-06-03 广东小天才科技有限公司 搜题方法、装置、终端设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120197889A1 (en) * 2011-01-28 2012-08-02 Fujitsu Limited Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program
CN105426518A (zh) * 2015-12-03 2016-03-23 广东小天才科技有限公司 一种拍照搜题的方法及系统
CN105843855A (zh) * 2016-03-16 2016-08-10 广东小天才科技有限公司 搜题的方法、装置及智能设备
CN106202360A (zh) * 2016-07-06 2016-12-07 广东小天才科技有限公司 试题搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120197889A1 (en) * 2011-01-28 2012-08-02 Fujitsu Limited Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program
CN105426518A (zh) * 2015-12-03 2016-03-23 广东小天才科技有限公司 一种拍照搜题的方法及系统
CN105843855A (zh) * 2016-03-16 2016-08-10 广东小天才科技有限公司 搜题的方法、装置及智能设备
CN106202360A (zh) * 2016-07-06 2016-12-07 广东小天才科技有限公司 试题搜索方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177441A (zh) * 2019-12-11 2020-05-19 广东小天才科技有限公司 一种搜题方法及电子设备
CN111177441B (zh) * 2019-12-11 2023-04-25 广东小天才科技有限公司 一种搜题方法及电子设备
CN111241276A (zh) * 2020-01-06 2020-06-05 广东小天才科技有限公司 题目搜索方法、装置、设备及存储介质
CN111639155A (zh) * 2020-05-11 2020-09-08 广东小天才科技有限公司 数学口算算式题型分析方法、装置、电子设备和存储介质
CN111860443A (zh) * 2020-07-31 2020-10-30 上海掌学教育科技有限公司 语文作业题目文字识别方法、搜索方法、服务器及系统
CN113205091A (zh) * 2021-04-30 2021-08-03 作业帮教育科技(北京)有限公司 题目识别方法、装置、设备及介质
CN114581902A (zh) * 2022-03-14 2022-06-03 广东小天才科技有限公司 搜题方法、装置、终端设备和可读存储介质
CN114581919A (zh) * 2022-03-14 2022-06-03 广东小天才科技有限公司 搜题方法、装置、终端设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN110413731A (zh) 搜题方法、装置、电子设备和存储介质
Gupta et al. Towards general purpose vision systems: An end-to-end task-agnostic vision-language architecture
CN111753767B (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
Ingle et al. A scalable handwritten text recognition system
Shih et al. Where to look: Focus regions for visual question answering
CA2400345C (en) System and method for creating a searchable word index of a scanned document including multiple interpretations of a word at a given document location
CN102770862B (zh) 混合使用位置传感器数据和视觉查询来返回视觉查询的本地收录
WO2020248866A1 (en) Method and system for image search and cropping
CN110020059A (zh) 用于包容性captcha的系统和方法
CN105760356B (zh) 一种英文单词听写题目备选选项自动生成方法及系统
CN110471599A (zh) 屏幕取词搜索方法、装置、电子设备和存储介质
CN106250518A (zh) 智能搜题方法及装置
Liu et al. Compact feature learning for multi-domain image classification
CN106096524A (zh) 一种汉字美观度的获取方法及装置
CN109726333A (zh) 一种基于图像的搜题方法及家教设备
CN110297897A (zh) 问答处理方法及相关产品
CN110058838A (zh) 语音控制方法、装置、计算机可读存储介质和计算机设备
CN108133209B (zh) 一种文本识别中的目标区域搜索方法及其装置
CN106650720A (zh) 基于文字识别技术的网上评卷方法、装置及系统
KR20230062251A (ko) 텍스트 기반의 문서분류 방법 및 문서분류 장치
CN109697242A (zh) 拍照搜题方法、装置、存储介质和计算设备
Mermet et al. Face detection on pre-modern japanese artworks using r-CNN and image patching for semi-automatic annotation
CN107193922B (zh) 一种信息处理的方法及装置
CN106202442B (zh) 一种查找学习资料的方法和装置
CN106202539A (zh) 聚合搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination