CN111581367A - 一种题目录入的方法和系统 - Google Patents

一种题目录入的方法和系统 Download PDF

Info

Publication number
CN111581367A
CN111581367A CN202010393647.0A CN202010393647A CN111581367A CN 111581367 A CN111581367 A CN 111581367A CN 202010393647 A CN202010393647 A CN 202010393647A CN 111581367 A CN111581367 A CN 111581367A
Authority
CN
China
Prior art keywords
character information
server
target text
target
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010393647.0A
Other languages
English (en)
Inventor
杨一中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN202010393647.0A priority Critical patent/CN111581367A/zh
Publication of CN111581367A publication Critical patent/CN111581367A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及题目收集技术领域,公开了一种题目录入的方法和系统。该方法包括:客户端获取目标图像并将所述目标图像发送给服务器;服务器对所述目标图像进行文字识别,得到字符信息;服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;服务器将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。实施本发明实施例,可以通过文字识别和字符比对获取可编辑的目标文本替换目标图像,提升题目录入的显示效果,解决了后续打印时的排版问题。

Description

一种题目录入的方法和系统
技术领域
本发明涉及题目收集技术领域,具体涉及一种题目录入的方法和系统。
背景技术
错题本是一种能够提高学习效率、提升学习质量、巩固学习基础的重要手段。目前,大部分学生仍是通过手抄的方式将错题抄写到笔记本中来生成错题本,以这种方式生成错题本会花费学生大量时间,降低学习效率。
另外,还可以通过手动或自动设置选择框的方式选中待收集题目内容,保存成图片格式。这种方式在一定程度上提高了工作效率,但是这种收集方式在后期打印时很难保证排版的统一,而且,图片因拍摄角度或拍摄水平等影响,造成图片倾斜或清晰度较低。
发明内容
针对所述缺陷,本发明实施例公开了一种题目录入的方法和系统,其可以搜索可编辑的目标文本替换目标图像。
本发明实施例第一方面公开一种题目录入的方法,所述方法包括:
客户端获取目标图像并将所述目标图像发送给服务器;
服务器对所述目标图像进行文字识别,得到字符信息;
服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
服务器将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。
作为一种可选的实施方式,在本发明实施例第一方面中,所述服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本,包括:
所述服务器将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述题目库中的题目文本,获取与所述句特征向量相似度大于或等于预设阈值的题目文本作为所述目标文本。
作为一种可选的实施方式,在本发明实施例第一方面中,所述服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本,还包括:
如果题目文本与所述字符信息的相似度均小于预设阈值;或者,
在预设时间内,遍历所述题目库中,选择的题目文本与所述字符信息的相似度均小于预设阈值;
所述服务器向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
作为一种可选的实施方式,在本发明实施例第一方面中,所述服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本,包括:
所述服务器提取所述字符信息中的关键词,基于所述关键词,遍历所述题目库中的题目文本,获取包括所述关键词的一个或多个题目文本作为初始目标文本;
将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述初始目标文本,获取与所述句特征向量相似度大于或等于预设阈值的初始目标文本作为所述目标文本。
作为一种可选的实施方式,在本发明实施例第一方面中,所述服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本,还包括:
如果未获取所述初始目标文本;或者,
初始目标文本与所述字符信息的相似度均小于预设阈值;或者,
在预设的时间内,遍历所述题目库获取到的初始目标文本与所述字符信息的相似度均小于预设阈值;
所述服务器向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
本发明实施例第二方面公开一种题目录入的方法,所述方法包括:
客户端获取目标图像并将所述目标图像发送给服务器;
服务器保存所述目标图像,并对所述目标图像进行文字识别,得到字符信息;
服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
服务器保存所述目标文本,并建立所述目标文本和目标图像的关联。
本发明实施例第三方面公开一种题目录入的系统,所述系统包括:
获取单元,位于客户端中,用于获取目标图像并将所述目标图像发送给服务器;
识别单元,位于服务器中,用于对所述目标图像进行文字识别,得到字符信息;
搜索单元,位于服务器中,用于利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
发送单元,位于服务器中,用于将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。
作为一种可选的实施方式,在本发明实施例第三方面中,所述搜索单元,包括:
第一遍历子单元,用于将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述题目库中的题目文本,获取与所述句特征向量相似度大于或等于预设阈值的题目文本作为所述目标文本。
作为一种可选的实施方式,在本发明实施例第三方面中,所述搜索单元,还包括:
第一条件子单元,用于题目文本与所述字符信息的相似度均小于预设阈值;或者,
第二条件子单元,用于在预设时间内,遍历所述题目库中,选择的题目文本与所述字符信息的相似度均小于预设阈值;
第一反馈子单元,用于向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
作为一种可选的实施方式,在本发明实施例第三方面中,所述搜索单元,包括:
第二遍历子单元,用于提取所述字符信息中的关键词,基于所述关键词,遍历所述题目库中的题目文本,获取包括所述关键词的一个或多个题目文本作为初始目标文本;
第三遍历子单元,用于将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述初始目标文本,获取与所述句特征向量相似度大于或等于预设阈值的初始目标文本作为所述目标文本。
作为一种可选的实施方式,在本发明实施例第三方面中,所述搜索单元,还包括:
第三条件子单元,用于未获取所述初始目标文本;或者,
第四条件子单元,用于初始目标文本与所述字符信息的相似度均小于预设阈值;或者,
第五条件子单元,用于在预设的时间内,遍历所述题目库获取到的初始目标文本与所述字符信息的相似度均小于预设阈值;
第二反馈子单元,用于向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
本发明实施例第四方面公开一种题目录入的系统,所述系统包括:
获取单元,位于客户端中,用于获取目标图像并将所述目标图像发送给服务器;
识别单元,位于服务器中,用于保存所述目标图像,并对所述目标图像进行文字识别,得到字符信息;
搜索单元,位于服务器中,用于利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
保存单元,位于服务器中,用于保存所述目标文本,并建立所述目标文本和目标图像的关联。
本发明实施例第五方面公开一种客户端,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面或第二方面中公开的一种题目录入的方法中客户端执行的步骤。
本发明实施例第六方面公开一种服务器,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面或第二方面中公开的一种题目录入的方法中服务器执行的步骤。
本发明实施例第七方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面或第二方面公开的一种题目录入的方法的部分或全部步骤。
本发明实施例第八方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面或第二方面公开的一种题目录入的方法的部分或全部步骤。
本发明实施例第九方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面或第二方面公开的一种题目录入的方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,客户端获取目标图像并将所述目标图像发送给服务器;服务器对所述目标图像进行文字识别,得到字符信息;服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;服务器将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。可见,实施本发明实施例,其通过文字识别和字符比对获取可编辑的目标文本替换目标图像,提升题目录入的显示效果,解决了后续打印时的排版问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种题目录入的方法的流程示意图;
图2是本发明实施例公开的另一种题目录入的方法的流程示意图;
图3是本发明实施例公开的又一种题目录入的方法的流程示意图;
图4是本发明实施例公开的一种题目录入的系统的结构示意图;
图5是本发明实施例公开的另一种题目录入的系统的结构示意图;
图6是本发明实施例公开的又一种题目录入的系统的结构示意图;
图7是本发明实施例公开的一种电子设备的结构示意图;
图8是本发明实施例公开的又一种题目录入的系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种题目录入的方法和系统,其通过手写字体识别的颜色特征对未分割区域进行过滤,以实现印刷字体和手写字体的完全分离,通过印刷字体识别的颜色特征对未分割区域进行修复,改善印刷字体和手写字体重合区域的视觉体验,以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种题目录入方法的流程示意图。其中,本发明实施例所描述的方法在学习机、家教机、点读机、平板电脑或手机等智能终端与服务器的交互中实现题目录入过程。如图1所示,该题目录入方法包括以下步骤:
110、客户端获取目标图像并将所述目标图像发送给服务器。
客户端为智能终端中的一些应用程序,例如错题收集APP,也可以是一些专门用于错题收集的智能终端。目标图像为错题收集图片,其可以是用户使用智能终端实时拍照使用智能终端截图操作所得的图像,还可以是从互联网上下载所得的图像等,本发明实施例不作限定,
示例性地,作为错题收集的目标图像,用户通过手指等操作体在练习册等承载体上定位其要收集的错题,智能设备的摄像头或外部摄像头对承载体进行拍照,得到初始图像,并将用户在承载体上的操作轨迹转换到初始图像中,得到在初始图像中的选择框,基于这个选择框选中的部分即目标图像。现有技术基本是将目标图像直接保存到错题本数据库中,用于用户后续的查看或打印重做等。
客户端将目标图像发送给服务器可以是通过操作指令实现,例如通过触摸按键或机械按键等方式点击下一步操作时,将目标图像发送给服务器。也可以是客户端得到目标图像后,自动发送给服务器,即当用户确认该目标图像就是自己需要的错题图片时,例如客户端要保存该目标图像时,会将目标图像直接发送给服务器。
120、服务器对所述目标图像进行文字识别,得到字符信息。
服务器在对目标图像进行文字识别后,可以先对目标图像进行预处理,以保证字符识别的准确性。预处理包括但不限于预处理包括但不限于去噪、图像增强以及形状矫正等,图像增强用于改变初始图像的图像质量等,形状矫正主要针对摄像头视角问题拍摄到梯形图像或者题目出现卷曲情况,形状矫正可以通过霍夫变换等方式矫正,最终得到的目标图像中的文字方向与目标图像上边缘或下边缘平行。
预处理也可以是客户端完成。
字符识别可以通过成熟的OCR(Optical Character Recognition,光学字符识别)技术实现, OCR技术可以直接对彩色图像进行字符识别,也可以通过二值化后的图像进行字符识别,得到字符信息。字符包括汉字、字母、数字、标点符号等。
130、服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本。
因为是要通过可编辑的文本替换目标图像,因此,对目标图像的识别只需要识别到一部分即可,只要目标文本中全部覆盖目标图像中所有识别出的字符,基本认为二者是相同的。
具体地:
先将识别出的字符信息转换成句特征向量,转换方式可以有多种,示例性地,可以通过 BERT(Bidirectional Encoder Representations from Transformers)预训练中文模型实现。BERT 是Google开发的NLP(自然语言处理)预训练技术,为无监督数据训练模型。BERT本质上是一个两阶段式的NLP模型:第一个阶段为Pre-training(预训练),是利用现有无标记的语料训练一个语言模型;第二个阶段为Fine-tuning(微调),利用预训练好的语言模型,完成具体的NLP下游任务。
BERT预训练中文模型已经经过训练,可以直接输出句特征向量,但是如果需要特殊转化,则需要预先通过标注数据对其进行训练。
字符信息在输入预训练模型之前,需要进行预处理,预处理主要包括去除字符信息中的题目编号。如果字符信息中含有数学公式、化学式以及标点符号等特殊字符,则需要先对其进行转换,示例性地,可以将这些特殊转换成LaTex格式。
然后将句特征向量遍历题目库。题目库可以是根据需要自己组建的题目数据资源库,例如,某地区大部分学生使用的练习册为人教版的黄冈小状元,则将人教版的黄冈小状元的练习册中题目对于的可编辑文本组建题目数据资源库,题目库也可以是现有大量的网络资源或者其他开发商组建的资源库。题目库中的题目文本均是可编辑文本。
题目库中各个题目是分立的,因此目标图像一般认定为一道题目,如果是多道题目,则需要进行试题分割再去各个遍历题目库。
遍历题目库中的题目文本,也要将遍历到的题目文本转换成句特征向量,转换方式与目标图像的字符信息相似。获取与句特征向量相似度大于或等于预设阈值的题目文本作为目标文本。预设阈值根据需要固定设置,例如90%,此种适用于OCR识别率较高时,可以设定一个阈值,当OCR识别率在95%以上时,使用固定值的预设阈值。
也可以是根据题目文本的字符数量进行自适应调整。理论上,如果字符信息和题目文本相匹配,则题目文本的内容应该包括字符信息中所有内容,那么,在这种情况下,二者的相似度应该是:字符信息的所有内容除以题目文本的内容,示例性地,可以采用杰卡德相似性系数表示字符信息和题目文本的相似度,预设阈值为A/B-基础值,其中,A为字符信息的句特征向量个数,B为题目文本的句特征向量个数,基础值为设定值,例如5%,以对识别错误的字符信息进行适配。
如果搜索到多个大于预设阈值的目标文本,则将相似度最大的目标文本发送给客户端,或者将相似度按大小排列的前几个目标文本均发送给客户端。
如果不能搜索到目标文本,即遍历题目库,题目文本与字符信息的相似度均小于预设阈值,可以向客户端发送反馈信息,反馈信息例如可以是无法找到对应的目标文本等。用户直接保存目标图像,可以将目标图像保存于本地数据库,例如智能终端的错题本数据库中,也可以保存于服务器的错题本数据库中;或者先保存到本地数据库中,本地数据库定时将错题本内容上传到服务器中;或者先保存本地数据库中,服务器定时读取错题本数据库,更新服务器中对应的错题本数据库。
最终要把匹配的目标文本发送给客户端,由客户端确定是否要将目标文本替换目标图像进行保存,因此,在一定的应用场景中,为了防止等待搜索目标文本的时间过长,而影响用户体验,在本发明优选的实施例中,可以设定一个时间,如果在这个时间内,遍历题目库,搜索到目标文本,则执行步骤140的操作,反之,如果在预设时间内,不能搜索到对应的目标文本,则不再进行搜索,服务器向客户端发送反馈信息,反馈信息例如可以是无法找到对应的目标文本等。用户直接保存目标图像,可以将目标图像保存于本地数据库,例如智能终端的错题本数据库中,也可以保存于服务器的错题本数据库中;或者先保存到本地数据库中,本地数据库定时将错题本内容上传到服务器中;或者先保存本地数据库中,服务器定时读取错题本数据库,更新服务器中对应的错题本数据库。
140、服务器将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。
在搜索到目标文本时,服务器将目标文本发送给客户端,由用户确定是否使用目标文本替换目标图像进行保存,用户决定替换的依据是比对目标图像内容和目标文本内容,如果相同,则直接保存目标文本,如果不同,可以采用两种方式,第一是继续搜索以找到相同的目标文本,继续搜索方式对应步骤110~130,第二是不再搜索,保存目标图像。
目标图像或目标文本可以保存于本地数据库,例如智能终端的错题本数据库中,也可以保存于服务器的错题本数据库中,或者先保存到本地数据库中,本地数据库定时将错题本内容上传到服务器中,或者先保存本地数据库中,服务器定时读取错题本数据库,更新服务器中对应的错题本数据库。
实施本发明实施例,可以通过文字识别和字符比对获取可编辑的目标文本替换目标图像,提升题目录入的显示效果,解决了后续打印时的排版问题。
实施例二
请参阅图2,图2是本发明实施例公开的另一种题目录入方法的结构示意图。如图2所示,该方法可以包括:
210、客户端获取目标图像并将所述目标图像发送给服务器。
220、服务器对所述目标图像进行文字识别,得到字符信息。
230、服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本。
240、服务器将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。
步骤210、220和240与实施例一步骤110、120和140分别类似,这里不再赘述。
实施例一的步骤130中,将字符信息与题目文本直接进行相似度比对,其比对过程花费时间较长。因此,可以先通过关键词搜索的方式先对题目库的题目文本进行筛选,得到一个较小范围的数据库,然后再通过文本比对的方式确定最终的目标文本,可以大幅度缩短搜索时间。
具体地,步骤230可以包括以下步骤:
231、提取字符信息的关键词。
关键词的提取方式有多种,例如,通过经典的基于无监督的关键词提取算法(TFIDF、 TextRank以及YAKE等)或者预训练的神经网络模型等。这里不做限定,字符信息的关键词提取方式要与题目文本的关键词提取方式相同。
如果是自建题目库,则题目库中的每个题目文本的关键词可以事先提取,得到关键词组集合,关键词组集合中每个关键词组对应一个题目文本,关键词组包括一个或多个关键词。
通过字符信息提取的关键词遍历题目文本对应的关键词,可以获取包括字符信息对应的所有关键词的一个或多个题目文本,这个或这些题目文本构成缩小版的题目库,称为初始目标文本,步骤232正是基于该初始目标文本进行的。
232、文本比对。
将字符信息转换成句特征向量,遍历初始目标文本,得到相似度大于或等于预设阈值的目标文本。句特征向量的相似度比对与步骤130类似,这里不再赘述。
事实上,在实际应用中,也可以是通过关键词搜索中,先确定一个初始目标文本,将这个初始目标文本进行相似度比对,如果这个初始目标文本与字符信息的相似度大于或等于预设阈值,则不再进行关键词搜索,直接将这个初始目标文本作为目标文本,发送给客户端,如果相似度小于预设阈值,再进行关键词搜索,直至找到满足需求的目标文本,这种方式可以进一步缩短搜索时间。
233、如果未搜索到目标文本,向客户端发送反馈信息。
未搜索到目标文本,可能是在关键词搜索过程中,未获取到初始目标文本,也可能是字符信息相似度比对过程中,初始目标文本与字符信息的相似度均小于预设阈值,这种情况下,服务器向客户端发送反馈信息,反馈信息例如可以是无法找到对应的目标文本等。用户直接保存目标图像,可以将目标图像保存于本地数据库,例如智能终端的错题本数据库中,也可以保存于服务器的错题本数据库中;或者先保存到本地数据库中,本地数据库定时将错题本内容上传到服务器中;或者先保存本地数据库中,服务器定时读取错题本数据库,更新服务器中对应的错题本数据库。
最终要把匹配的目标文本发送给客户端,由客户端确定是否要将目标文本替换目标图像进行保存,因此,在一定的应用场景中,为了防止等待搜索目标文本的时间过长,而影响用户体验,在本发明优选的实施例中,可以设定一个时间,如果在这个时间内,基于关键词和句特征向量,遍历题目库,搜索到目标文本,则执行步骤240的操作,反之,如果在预设时间内,不能搜索到对应的初始目标文本或目标文本,则不再进行搜索,服务器向客户端发送反馈信息。
实施本发明实施例,可以通过文字识别和字符比对获取可编辑的目标文本替换目标图像,缩短搜索时间,提升题目录入的显示效果,解决了后续打印时的排版问题。
实施例三
请参阅图3,图3是本发明实施例公开的又一种题目录入方法的结构示意图。如图3所示,该方法可以包括:
310、客户端获取目标图像并将所述目标图像发送给服务器。
320、服务器保存所述目标图像,并对所述目标图像进行文字识别,得到字符信息。
步骤310和步骤320与实施例一步骤110和120分别类似,这里不再赘述。不过步骤320 中增加了对目标图像的保存过程,服务器将目标图像保存于客户端对应的错题本数据库中,以方便用户通过客户端查看或打印错题本数据库中的题目。
330、服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本。
步骤330可以采用实施例一的步骤130实现,也可以采用实施例二的步骤230实现,这里不再赘述。
340、服务器保存所述目标文本,并建立所述目标文本和目标图像的关联。
实施例三中,搜索目标文本的过程是服务器在后台执行,其相对于客户端是无感的,在搜索过程中,不需要向客户端反馈任何信息。对于用户而言,其只是将目标图像保存到服务器中,然后进行下一题目的收集。
服务器先保存目标文本,建立目标文本和目标图像的关联。待用户通过客户端查看服务器的错题本数据库中相关的目标图像时,触发关联机制,服务器也将目标文本同时呈现给客户端,并发送一定的选择信息,例如,请选择是否采用目标文本替换目标图像,如果用户选择替换,则服务器将目标文本替换目标图像。目标文本可以是一个或多个,出现多个目标文本时,如果用户选择了一个目标文本替换目标图像,则不再发送其他目标文本到客户端,如果用户选择不替换,则再将其他目标文本发送到客户端,直至用户选择了其中一个目标文本替换目标图像,或者均放弃替换。被放弃替换的目标文本直接删除,被替换的目标图像也会被删除。
如果在用户做选择时,服务器没有找到某个目标图像对应的目标文本,或者用户未选择服务器保存的该目标图像相关联目标文本替换目标图像,则服务器还会继续在后台搜索题目库去匹配题目文本,以找到合适的目标文本,再建立目标图像和目标文本的关联,供用户再去选择。
实施本发明实施例,可以通过文字识别和字符比对获取可编辑的目标文本替换目标图像,提升题目录入的显示效果,解决了后续打印时的排版问题,而且对用户无感,改善用户体验。
实施例四
请参阅图4,图4是本发明实施例公开的一种题目录入系统的结构示意图,其应用于客户端410和服务器420的交互中。如图4所示,该题目录入系统可以包括:
获取单元411,位于客户端410中,用于获取目标图像并将所述目标图像发送给服务器;
识别单元421,位于服务器420中,用于对所述目标图像进行文字识别,得到字符信息;
搜索单元422,位于服务器420中,用于利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
发送单元423,位于服务器420中,用于将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。
作为一种可选的实施方式,所述搜索单元422,可以包括:
第一遍历子单元4221,用于将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述题目库中的题目文本,获取与所述句特征向量相似度大于或等于预设阈值的题目文本作为所述目标文本。
作为一种可选的实施方式,所述搜索单元422,还可以包括:
第一条件子单元4222,用于题目文本与所述字符信息的相似度均小于预设阈值;或者,
第二条件子单元4223,用于在预设时间内,遍历所述题目库中,选择的题目文本与所述字符信息的相似度均小于预设阈值;
第一反馈子单元4224,用于向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
图4所示的题目录入系统,可以通过文字识别和字符比对获取可编辑的目标文本替换目标图像,提升题目录入的显示效果,解决了后续打印时的排版问题。
实施例五
请参阅图5,图5是本发明实施例公开的一种题目录入系统的结构示意图,其应用于客户端510和服务器520的交互中。如图5所示,该题目录入系统可以包括:
获取单元511,位于客户端510中,用于获取目标图像并将所述目标图像发送给服务器;
识别单元521,位于服务器520中,用于对所述目标图像进行文字识别,得到字符信息;
搜索单元522,位于服务器520中,用于利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
发送单元523,位于服务器520中,用于将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。
作为一种可选的实施方式,所述搜索单元522,可以包括:
第二遍历子单元5221,用于提取所述字符信息中的关键词,基于所述关键词,遍历所述题目库中的题目文本,获取包括所述关键词的一个或多个题目文本作为初始目标文本;
第三遍历子单元5222,用于将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述初始目标文本,获取与所述句特征向量相似度大于或等于预设阈值的初始目标文本作为所述目标文本。
作为一种可选的实施方式,所述搜索单元522,还可以包括:
第三条件子单元5223,用于未获取所述初始目标文本;或者,
第四条件子单元5224,用于初始目标文本与所述字符信息的相似度均小于预设阈值;或者,
第五条件子单元5225,用于在预设的时间内,遍历所述题目库获取到的初始目标文本与所述字符信息的相似度均小于预设阈值;
第二反馈子单元5226,用于向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
图5所示的题目录入系统,可以通过文字识别和字符比对获取可编辑的目标文本替换目标图像,缩短搜索时间,提升题目录入的显示效果,解决了后续打印时的排版问题。
实施例六
请参阅图6,图6是本发明实施例公开的一种题目录入系统的结构示意图,其应用于客户端610和服务器620的交互中。如图6所示,该题目录入系统可以包括:
获取单元611,位于客户端610中,用于获取目标图像并将所述目标图像发送给服务器;
识别单元621,位于服务器620中,用于保存所述目标图像,并对所述目标图像进行文字识别,得到字符信息;
搜索单元622,位于服务器620中,用于利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
保存单元623,位于服务器620中,用于保存所述目标文本,并建立所述目标文本和目标图像的关联。
其中,搜索单元622可以与实施例四中的搜索单元422类似,也可以与实施例五中的搜索单元522类似,这里不再赘述。
作为一种可选的实施方式,所述保存单元623,可以包括:
存储子单元6231,用于保存目标文本。
关联子单元6232,用于将目标文本和目标图像建立关联。
替换子单元6233,用于待用户通过客户端查看服务器的错题本数据库中相关的目标图像时,触发关联机制,服务器也将目标文本同时呈现给客户端,并发送一定的选择信息。
图6所示的题目录入系统,可以通过文字识别和字符比对获取可编辑的目标文本替换目标图像,提升题目录入的显示效果,解决了后续打印时的排版问题,而且对用户无感,改善用户体验。
实施例七
请参阅图7,图7是本发明实施例公开的一种电子设备的结构示意图,电子设备可以是客户端或服务器。如图7所示,该电子设备700可以包括:
存储有可执行程序代码的存储器710;
与存储器710耦合的处理器720;
其中,处理器720调用存储器710中存储的可执行程序代码,执行实施例一至实施例三任意一种题目录入的方法中客户端或服务器执行的步骤。
实施例八
请参阅图8,图8是本发明实施例公开的一种题目录入的系统的结构示意图。如图8所示,该系统800包括客户端810和服务器820。其中:
该客户端810可以包括:存储有可执行程序代码的存储器811;与存储器811耦合的处理器812;其中,处理器812调用存储器811中存储的可执行程序代码,执行实施例一至实施例三任意一种题目录入的方法中客户端执行的步骤。
该服务器820可以包括:存储有可执行程序代码的存储器821;与存储器821耦合的处理器822;其中,处理器822调用存储器821中存储的可执行程序代码,执行实施例一至实施例三任意一种题目录入的方法中服务器执行的步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一至实施例三任意一种题目录入的方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一至实施例三任意一种题目录入的方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一至实施例三任意一种题目录入的方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器 (Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种题目录入的方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种题目录入的方法,其特征在于,包括:
客户端获取目标图像并将所述目标图像发送给服务器;
服务器对所述目标图像进行文字识别,得到字符信息;
服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
服务器将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本,包括:
所述服务器将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述题目库中的题目文本,获取与所述句特征向量相似度大于或等于预设阈值的题目文本作为所述目标文本。
3.根据权利要求2所述的方法,其特征在于,所述服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本,还包括:
如果题目文本与所述字符信息的相似度均小于预设阈值;或者,
在预设时间内,遍历所述题目库中,选择的题目文本与所述字符信息的相似度均小于预设阈值;
所述服务器向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
4.根据权利要求1所述的方法,其特征在于,所述服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本,包括:
所述服务器提取所述字符信息中的关键词,基于所述关键词,遍历所述题目库中的题目文本,获取包括所述关键词的一个或多个题目文本作为初始目标文本;
将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述初始目标文本,获取与所述句特征向量相似度大于或等于预设阈值的初始目标文本作为所述目标文本。
5.根据权利要求4所述的方法,其特征在于,所述服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本,还包括:
如果未获取所述初始目标文本;或者,
初始目标文本与所述字符信息的相似度均小于预设阈值;或者,
在预设的时间内,遍历所述题目库获取到的初始目标文本与所述字符信息的相似度均小于预设阈值;
所述服务器向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
6.一种题目录入的方法,其特征在于,包括:
客户端获取目标图像并将所述目标图像发送给服务器;
服务器保存所述目标图像,并对所述目标图像进行文字识别,得到字符信息;
服务器利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
服务器保存所述目标文本,并建立所述目标文本和目标图像的关联。
7.一种题目录入的系统,其特征在于,包括:
获取单元,位于客户端中,用于获取目标图像并将所述目标图像发送给服务器;
识别单元,位于服务器中,用于对所述目标图像进行文字识别,得到字符信息;
搜索单元,位于服务器中,用于利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
发送单元,位于服务器中,用于将所述目标文本发送至客户端,以使所述客户端保存所述目标文本。
8.根据权利要求7所述的系统,其特征在于,所述搜索单元,包括:
第一遍历子单元,用于将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述题目库中的题目文本,获取与所述句特征向量相似度大于或等于预设阈值的题目文本作为所述目标文本。
9.根据权利要求8所述的系统,其特征在于,所述搜索单元,还包括:
第一条件子单元,用于题目文本与所述字符信息的相似度均小于预设阈值;或者,
第二条件子单元,用于在预设时间内,遍历所述题目库中,选择的题目文本与所述字符信息的相似度均小于预设阈值;
第一反馈子单元,用于向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
10.根据权利要求7所述的系统,其特征在于,所述搜索单元,包括:
第二遍历子单元,用于提取所述字符信息中的关键词,基于所述关键词,遍历所述题目库中的题目文本,获取包括所述关键词的一个或多个题目文本作为初始目标文本;
第三遍历子单元,用于将所述字符信息转换成句特征向量,基于所述句特征向量,遍历所述初始目标文本,获取与所述句特征向量相似度大于或等于预设阈值的初始目标文本作为所述目标文本。
11.根据权利要求10所述的系统,其特征在于,所述搜索单元,还包括:
第三条件子单元,用于未获取所述初始目标文本;或者,
第四条件子单元,用于初始目标文本与所述字符信息的相似度均小于预设阈值;或者,
第五条件子单元,用于在预设的时间内,遍历所述题目库获取到的初始目标文本与所述字符信息的相似度均小于预设阈值;
第二反馈子单元,用于向所述客户端发送反馈信息,以使所述客户端基于所述反馈信息保存所述目标图像。
12.一种题目录入的系统,其特征在于,包括:
获取单元,位于客户端中,用于获取目标图像并将所述目标图像发送给服务器;
识别单元,位于服务器中,用于保存所述目标图像,并对所述目标图像进行文字识别,得到字符信息;
搜索单元,位于服务器中,用于利用所述字符信息搜索题目库,得到与所述字符信息相匹配的目标文本;
保存单元,位于服务器中,用于保存所述目标文本,并建立所述目标文本和目标图像的关联。
CN202010393647.0A 2020-05-11 2020-05-11 一种题目录入的方法和系统 Pending CN111581367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010393647.0A CN111581367A (zh) 2020-05-11 2020-05-11 一种题目录入的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010393647.0A CN111581367A (zh) 2020-05-11 2020-05-11 一种题目录入的方法和系统

Publications (1)

Publication Number Publication Date
CN111581367A true CN111581367A (zh) 2020-08-25

Family

ID=72110862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010393647.0A Pending CN111581367A (zh) 2020-05-11 2020-05-11 一种题目录入的方法和系统

Country Status (1)

Country Link
CN (1) CN111581367A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381087A (zh) * 2020-08-26 2021-02-19 北京来也网络科技有限公司 结合rpa和ai的图像识别方法、装置、计算机设备和介质
CN112396009A (zh) * 2020-11-24 2021-02-23 广东国粒教育技术有限公司 一种基于全卷积神经网络模型的算题批改方法、算题批改装置
CN112558893A (zh) * 2020-12-22 2021-03-26 厦门喵宝科技有限公司 一种便携式智能打印装置及其控制方法
CN112861864A (zh) * 2021-01-28 2021-05-28 广东国粒教育技术有限公司 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质
CN113159029A (zh) * 2020-12-18 2021-07-23 深圳简捷电子科技有限公司 一种图片中局部信息精准抓取的方法和系统
CN113448925A (zh) * 2021-06-25 2021-09-28 东莞市小精灵教育软件有限公司 试题图片优化方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197300A (zh) * 2018-01-25 2018-06-22 广东小天才科技有限公司 一种搜题方法及系统
CN109902670A (zh) * 2017-12-08 2019-06-18 亿度慧达教育科技(北京)有限公司 数据录入方法及系统
CN111026924A (zh) * 2019-03-11 2020-04-17 广东小天才科技有限公司 一种待搜索内容的获取方法及电子设备
CN111091035A (zh) * 2019-05-05 2020-05-01 广东小天才科技有限公司 一种科目识别方法及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902670A (zh) * 2017-12-08 2019-06-18 亿度慧达教育科技(北京)有限公司 数据录入方法及系统
CN108197300A (zh) * 2018-01-25 2018-06-22 广东小天才科技有限公司 一种搜题方法及系统
CN111026924A (zh) * 2019-03-11 2020-04-17 广东小天才科技有限公司 一种待搜索内容的获取方法及电子设备
CN111091035A (zh) * 2019-05-05 2020-05-01 广东小天才科技有限公司 一种科目识别方法及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381087A (zh) * 2020-08-26 2021-02-19 北京来也网络科技有限公司 结合rpa和ai的图像识别方法、装置、计算机设备和介质
CN112396009A (zh) * 2020-11-24 2021-02-23 广东国粒教育技术有限公司 一种基于全卷积神经网络模型的算题批改方法、算题批改装置
CN113159029A (zh) * 2020-12-18 2021-07-23 深圳简捷电子科技有限公司 一种图片中局部信息精准抓取的方法和系统
CN112558893A (zh) * 2020-12-22 2021-03-26 厦门喵宝科技有限公司 一种便携式智能打印装置及其控制方法
CN112861864A (zh) * 2021-01-28 2021-05-28 广东国粒教育技术有限公司 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质
CN113448925A (zh) * 2021-06-25 2021-09-28 东莞市小精灵教育软件有限公司 试题图片优化方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111581367A (zh) 一种题目录入的方法和系统
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111753767A (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN110751137A (zh) 一种自动求解数学题的方法和系统
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN111738251A (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN110114776A (zh) 使用全卷积神经网络的字符识别的系统和方法
CN110222168B (zh) 一种数据处理的方法及相关装置
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
CN109344830A (zh) 语句输出、模型训练方法、装置、计算机设备及存储介质
US20140289238A1 (en) Document creation support apparatus, method and program
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN109299233A (zh) 文本数据处理方法、装置、计算机设备及存储介质
Valy et al. A new khmer palm leaf manuscript dataset for document analysis and recognition: Sleukrith set
CN113033711A (zh) 题目批改方法、装置、电子设备及计算机存储介质
CN110610180A (zh) 错别字词识别集的生成方法、装置、设备及存储介质
CN111241248A (zh) 同义问句生成模型训练方法及系统、同义问句生成方法
CN110110143B (zh) 一种视频分类方法及装置
CN113255331A (zh) 文本纠错方法、装置及存储介质
CN111241276A (zh) 题目搜索方法、装置、设备及存储介质
CN111582281B (zh) 一种图片显示优化的方法、装置、电子设备和存储介质
CN113569112A (zh) 基于题目的辅导策略提供方法、系统、装置及介质
CN111090720B (zh) 一种热词的添加方法和装置
Satav et al. Data extraction from invoices using computer vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination