CN111209418A - 一种数据录入方法、装置、电子设备及可读存储介质 - Google Patents

一种数据录入方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111209418A
CN111209418A CN202010006129.9A CN202010006129A CN111209418A CN 111209418 A CN111209418 A CN 111209418A CN 202010006129 A CN202010006129 A CN 202010006129A CN 111209418 A CN111209418 A CN 111209418A
Authority
CN
China
Prior art keywords
directory
book
title
content
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010006129.9A
Other languages
English (en)
Inventor
邵保杰
吴志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010006129.9A priority Critical patent/CN111209418A/zh
Publication of CN111209418A publication Critical patent/CN111209418A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请涉及一种数据录入方法、装置、电子设备及可读存储介质。本申请通过从获取目标书本中的书本页图片中查找出目录页图片,并从目录页图片中识别出书本目录中每个层级下的子目录,进而根据每个子目录下的题目页码,从书本页图片中获取每个题目对应的题目页图片,进一步地,从题目页图片中识别出题目内容,并将题目内容与对应的子目录进行关联后录入。基于上述方式,本申请通过题目内容与书本目录之间的关联关系对题目内容进行录入,在实现通过机器对目标书本的结构化录入的同时,还可以提升目标书本的录入效率和准确率。

Description

一种数据录入方法、装置、电子设备及可读存储介质
技术领域
本申请涉及数据录入技术领域,尤其涉及一种数据录入方法、装置、 电子设备及可读存储介质。
背景技术
数字化教学和在线教育开始在当前教育行业普及,数字化教学弥补了 了传统的教学上的不足,而这些数字化教学所依托的是数字化的教学数据, 其中最重要的是题库,为了尽可能的丰富题库内容,需要建设题库录入系 统,以及投入人力成本进行录入。
目前市场上纸质的教辅数量众多,将纸质的教辅书本进行文本录入是 建设题库的首要和重点环节,现有的做法是,通过一系列的技术手段辅助 人工进行录入,但是缺点是没有模块化流程,存在较多人工处理的环节, 所以不能有效提高生产效率,而且人工录入会存在录入错误的情况发生, 这样生产出来的题目数据质量难以得到保障,也比较难以形成规模。
发明内容
有鉴于此,本申请至少提供一种数据录入方法、装置、电子设备及可 读存储介质,在实现通过机器对目标书本的结构化录入的同时,还可以提 升目标书本的录入效率和准确率。
主要包括以下几个方面:
第一方面,本申请实施例提供一种数据录入方法,所述数据录入方法 包括:
获取目标书本中的书本页图片,并从所述书本页图片中查找出目录页 图片;
从所述目录页图片中识别出书本目录中每个层级下的子目录;
根据每个子目录下的题目页码,从所述书本页图片中获取每个题目对 应的题目页图片;
从所述题目页图片中识别出题目内容,将所述题目内容与对应的子目 录进行关联后录入。
在一种可能的实施方式中,所述从所述目录页图片中识别出书本目录 中每个层级下的子目录,包括:
从所述目录页图片中提取出所述书本目录的目录结构信息;
根据所述目录结构信息,确定所述书本目录中每个层级下的子目录。
在一种可能的实施方式中,在所述从所述目录页图片中识别出书本目 录中每个层级下的子目录之后,所述数据录入方法还包括:
对识别出的书本目录中每个层级下的子目录进行校对,并将识别错误 的子目录中的目录内容与其它目录内容进行区别显示。
在一种可能的实施方式中,所述对识别出的书本目录中每个层级下的 子目录进行校对,并将识别错误的子目录中的目录内容与其它目录内容进 行区别显示,包括:
利用所述目录页图片对所述书本目录进行内容校对,得到校对结果;
根据所述校对结果,将识别错误的子目录中的目录内容与其它目录内 容进行区别显示。
在一种可能的实施方式中,所述从所述题目页图片中识别出题目内容, 将所述题目内容与对应的子目录进行关联后录入,包括:
对于每个题目,计算从所述题目页图片中识别出的每个题目的题目内 容分别与题库中存储的多个试题之间的多个相似度;
采用对应的相似度满足预设条件的试题的试题内容,作为每个题目对 应的更新后的题目内容,将更新后的题目内容与对应的子目录进行关联后 录入。
在一种可能的实施方式中,在所述将更新后的题目内容与对应的子目 录进行关联后录入之后,所述数据录入方法包括:
根据从每个题目对应的题目页图片中识别出的题目内容,对录入的每 个题目的试题内容进行调整。
在一种可能的实施方式中,在所述计算从所述题目页图片中识别出的 每个题目的题目内容分别与题库中存储的多个试题之间的多个相似度之 后,所述数据录入方法还包括:
若不存在对应的相似度满足所述预设条件的试题的试题内容,则从所 述题目页图片中识别出每个题目的题目结构和题目内容;所述题目结构由 每个题目的题干、答案、解析和点评部分构成;
将每个题目的题目内容与对应的子目录进行关联后,按照对应的题目 结构进行录入。
在一种可能的实施方式中,在将所述题目内容与对应的子目录进行关 联后录入之后,所述数据录入方法还包括:
对录入的每个题目的题目内容中的公式,以及文本语义进行校对。
第二方面,本申请实施例还提供一种数据录入装置,所述数据录入装 置包括:
查找模块,用于获取目标书本中的书本页图片,并从所述书本页图片 中查找出目录页图片;
识别模块,用于从所述目录页图片中识别出书本目录中每个层级下的 子目录;
获取模块,用于根据每个子目录下的题目页码,从所述书本页图片中 获取每个题目对应的题目页图片;
关联模块,用于从所述题目页图片中识别出题目内容,将所述题目内 容与对应的子目录进行关联后录入。
在一种可能的实施方式中,所述识别模块包括:
提取单元,用于从所述目录页图片中提取出所述书本目录的目录结构 信息;
确定单元,用于根据所述目录结构信息,确定所述书本目录中每个层 级下的子目录。
在一种可能的实施方式中,所述数据录入装置还包括:
第一校对模块,用于对识别出的书本目录中每个层级下的子目录进行 校对,并将识别错误的子目录中的目录内容与其它目录内容进行区别显示。
在一种可能的实施方式中,所述第一校对模块包括:
校对单元,用于利用所述目录页图片对所述书本目录进行内容校对, 得到校对结果;
显示单元,用于根据所述校对结果,将识别错误的子目录中的目录内 容与其它目录内容进行区别显示。
在一种可能的实施方式中,所述关联模块包括:
计算单元,用于对于每个题目,计算从所述题目页图片中识别出的每 个题目的题目内容分别与题库中存储的多个试题之间的多个相似度;
关联单元,用于采用对应的相似度满足预设条件的试题的试题内容, 作为每个题目对应的更新后的题目内容,将更新后的题目内容与对应的子 目录进行关联后录入。
在一种可能的实施方式中,所述数据录入装置还包括:
调整模块,用于根据从每个题目对应的题目页图片中识别出的题目内 容,对录入的每个题目的试题内容进行调整。
在一种可能的实施方式中,所述关联模块还包括:
识别单元,用于若不存在对应的相似度满足所述预设条件的试题的试 题内容,则从所述题目页图片中识别出每个题目的题目结构和题目内容; 所述题目结构由每个题目的题干、答案、解析和点评部分构成;
录入单元,用于将每个题目的题目内容与对应的子目录进行关联后, 按照对应的题目结构进行录入。
在一种可能的实施方式中,所述数据录入装置还包括:
第二校对模块,用于对录入的每个题目的题目内容中的公式,以及文 本语义进行校对。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储 器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子 设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述 机器可读指令被所述处理器运行时执行上述第一方面或第一方面中任一种 可能的实施方式中所述的数据录入方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计 算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时 执行上述第一方面或第一方面中任一种可能的实施方式中所述的数据录入 方法的步骤。
本申请实施例中,通过从目标书本中的书本页图片中查找出目录页图 片,并从目录页图片中识别出书本目录中每个层级下的子目录,进而根据 每个子目录下的题目页码,从书本页图片中获取每个题目对应的题目页图 片,进一步地,从题目页图片中识别出题目内容,并将题目内容与对应的 子目录进行关联后录入。基于上述方式,本申请通过题目内容与书本目录 之间的关联关系对题目内容进行录入,在实现通过机器对目标书本的结构化录入的同时,还可以提升目标书本的录入效率和准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实 施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些 实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据录入方法的流程图;
图2示出了本申请实施例所提供的另一种数据录入方法的流程图;
图3示出了本申请实施例所提供的一种数据录入装置的功能模块图之 一;
图4示出了本申请实施例所提供的一种数据录入装置的功能模块图之 二;
图5示出了图3中识别模块的功能模块图;
图6示出了图4中第一校对模块的功能模块图;
图7示出了图3中关联模块的功能模块图;
图8示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本 申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定 本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。 本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当 理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可 以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下, 可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多 个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实 施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不 同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的 详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的 选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳 动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“书 本中数据的录入”,给出以下实施方式,对于本领域技术人员来说,在不 脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其 他实施例和应用场景。
本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以 应用于任何需要进行书本中数据的录入的场景,本申请实施例并不对具体 的应用场景作限制,任何使用本申请实施例提供的数据录入方法、装置、 电子设备及可读存储介质的方案均在本申请保护范围内。
值得注意的是,在本申请提出之前,现有方案中通过一系列的技术手 段辅助人工进行录入,但是缺点是没有模块化流程,存在较多人工处理的 环节,所以不能有效提高生产效率,而且人工录入会存在录入错误的情况 发生,这样生产出来的题目数据质量难以得到保障,也比较难以形成规模。
针对上述问题,本申请实施例通过从获取目标书本中的书本页图片中 查找出目录页图片,并从目录页图片中识别出书本目录中每个层级下的子 目录,进而根据每个子目录下的题目页码,从书本页图片中获取每个题目 对应的题目页图片,进一步地,从题目页图片中识别出题目内容,并将题 目内容与对应的子目录进行关联后录入。基于上述方式,本申请通过题目 内容与书本目录之间的关联关系对题目内容进行录入,在实现通过机器对 目标书本的结构化录入的同时,还可以提升目标书本的录入效率和准确率。
为便于对本申请进行理解,下面结合具体实施例对本申请提供的技术 方案进行详细说明。
图1为本申请实施例所提供的一种数据录入方法的流程图。如图1所 示,本申请实施例提供的数据录入方法,包括以下步骤:
S101:获取目标书本中的书本页图片,并从所述书本页图片中查找出 目录页图片。
在具体实施中,获取纸质的目标书本,并将目标书本处理为多张由书 本页图片构成的目标书本,并从这些书本页图片中查找出目录页图片。
这里,可以将纸质的目标书本进行扫描,得到目标书本的多张书本页 图片;也可以将纸质的目标书本中的每一页进行拍照,得到目标书本的多 张书本页图片。
需要说明的是,目标书本可能对应有一张或多张目录页图片。
S102:从所述目录页图片中识别出书本目录中每个层级下的子目录。
在具体实施中,对于每张目录页图片,利用文字识别技术可以从每张 目录页图片中识别出书本目录对应的目录文本,并通过对识别出的目录文 本进行分析,可以确定出书本目录对应的各个层级,进而得到书本目录中 每个层级下的子目录。
这里,书本目录对应的目录层级包括至少一个层级,每个层级由对应 的子目录构成。
需要说明的是,文字识别技术(Optical Character Recognition,OCR), 可以将图片、照片上的文字内容,直接转换为可编辑文本的技术,支持多 种图片格式,比如JPG、PNG、GIF、BMP、DOC等图片格式。
S103:根据每个子目录下的题目页码,从所述书本页图片中获取每个 题目对应的题目页图片。
在具体实施中,从目录页图片中识别出书本目录中每个层级下的子目 录,对于书本目录中的每个子目录,每个子目录都对应有一个页码,这个 页码为该子目录对应的题目的题目页码,这样,根据这个题目页码,可以 从多张书本页图片中找出该题目对应的题目页图片。
这里,通过书本目录中的各层级下的子目录对应的题目页码,可以从 目标书本对应的多张书本页图片中获取到对应的题目页图片,这样,通过 题目页码,可以将各个子目录与对应的题目之间建立关联。
S104:从所述题目页图片中识别出题目内容,将所述题目内容与对应 的子目录进行关联后录入。
在具体实施中,对于书本目录中的每个子目录,根据每个子目录下的 题目页码,可以从书本页图片中获取每个题目对应的题目页图片,并从该 题目页图片中识别出该题目,进一步地,对该题目对应的题目内容进行框 选,并对该题目页图片按照框选范围进行裁切,得到只包含该题目内容的 题目页图片,这样,可以从只包含该题目内容的题目页图片中准确地识别 出题目内容,不会受到题目页图片中除该题目内容之外的内容的干扰,而且本申请通过将题目内容与对应的子目录进行关联后录入,可以实现对目 标书本的结构化录入。
这里,在将整个目标书本中的题目完成录入后,用户通过点击书本目 录中任一子目录,可以直接查看到该子目录对应的题目内容,用户可以有 针对性的快速查找到想要回答的题目,可以提升用户找到所需题目的效率。
需要说明的是,目前市场上纸质的教辅数量众多,将纸质的教辅书本 进行文本录入是建设题库的首要和重点环节,现有技术直接将书本中题目 按照题目在书本中顺序进行人工录入,在完成整本书的录入后,用户只能 自行从录入的书本中一个一个题目的查找自己想要的题目,而本申请可以 实现根据书本目录查找到对应的题目,可以提升用户找到所需题目的效率, 而且本申请通过将目录与题目进行关联录入,实现了对目标书本的结构化 录入,即按照一定的规则进行题目的内容录入,可以提升题目内容录入的 效率。
在本申请实施例中,通过从获取目标书本中的书本页图片中查找出目 录页图片,并从目录页图片中识别出书本目录中每个层级下的子目录,进 而根据每个子目录下的题目页码,从书本页图片中获取每个题目对应的题 目页图片,进一步地,从题目页图片中识别出题目内容,并将题目内容与 对应的子目录进行关联后录入。基于上述方式,本申请通过题目内容与书 本目录之间的关联关系对题目内容进行录入,在实现通过机器对目标书本 的结构化录入的同时,还可以提升目标书本的录入效率和准确率。
图2为本申请实施例所提供的另一种数据录入方法的流程图。如图2 所示,本申请实施例提供的数据录入方法,包括以下步骤:
S201:获取目标书本中的书本页图片,并从所述书本页图片中查找出 目录页图片。
S202:从所述目录页图片中提取出所述书本目录的目录结构信息;根 据所述目录结构信息,确定所述书本目录中每个层级下的子目录。
在具体实施中,在从书本页图片中查找出目录页图片后,从目录页图 片中提取出书本目录的目录结构信息,这里,目录结构信息包括书本目录 由几个层级构成,以及每个层级对应的子目录,进而根据目录结构信息, 确定出书本目录中每个层级下的子目录,以及每个子目录对应的内容。
S203:根据每个子目录下的题目页码,从所述书本页图片中获取每个 题目对应的题目页图片。
S204:从所述题目页图片中识别出题目内容,将所述题目内容与对应 的子目录进行关联后录入。
其中,对S201、S203、S204的描述可以参照S101、S103、S104的描 述,并且能达到相同的技术效果,在此不再进行赘述。
进一步地,在步骤S202之后,所述数据录入方法还包括:
对识别出的书本目录中每个层级下的子目录进行校对,并将识别错误 的子目录中的目录内容与其它目录内容进行区别显示。
在具体实施中,在从目录页图片中识别出书本目录中每个层级下的子 目录,并将书本目录使用机器自动录入到题库录入系统之后,对于录入的 书本目录需要进行校对,以确保录入的书本目录的准确度,这里,可以依 次对识别出的书本目录中的每个层级下的子目录进行校对,并将识别错误 的子目录中的目录内容与其它目录内容进行区别显示,这样,可以辅助录 入人员可以快速地对错误的子目录进行修改,以提升录入的书本目录的质量。这里,区别显示比如可以为高亮显示、标红显示等,其中,其它目录 内容为书本目录中除识别错误的子目录之外的目录。
需要说明的是,可以利用比对算法将目录页图片与录入的书本目录进 行比对,得到校对结果;也可以将目录页图片和书本目录输入训练好的比 对模型中,得到校对结果;还可以对书本目录进行标点、语义的校对。
进一步地,所述对识别出的书本目录中每个层级下的子目录进行校对, 并将识别错误的子目录中的目录内容与其它目录内容进行区别显示,包括 以下步骤:
利用所述目录页图片对所述书本目录进行内容校对,得到校对结果; 根据所述校对结果,将识别错误的子目录中的目录内容与其它目录内容进 行区别显示。
在具体实施中,可以利用目录页图片来对录入的书本目录进行内容的 校对,具体地,可以对书本目录中的各个子目录的目录内容依次进行校对, 得到对书本目录进行校对的校对结果,进而,可以根据校对结果,将识别 错误的子目录中的目录内容与其它目录内容进行区别显示,这样,可以辅 助录入人员可以快速地对错误的子目录进行修改,可以提升录入的书本目 录的质量。
进一步地,步骤S204从所述题目页图片中识别出题目内容,将所述题 目内容与对应的子目录进行关联后录入,包括以下步骤:
步骤a:对于每个题目,计算从所述题目页图片中识别出的每个题目的 题目内容分别与题库中存储的多个试题之间的多个相似度。
在具体实施中,对于与书本目录中各层级下的子目录对应的每个题目, 先从每个题目对应的题目页图片中识别出该题目的题目内容,并计算出该 题目内容与预先设置好的题库中存储的多个试题之间的多个相似度,这里, 相似度为该题目内容与试题的试题内容之间的相似程度。
步骤b:采用对应的相似度满足预设条件的试题的试题内容,作为每个 题目对应的更新后的题目内容,将更新后的题目内容与对应的子目录进行 关联后录入。
在具体实施中,对于每个题目,选取与每个题目之间的相似度满足预 设条件的试题的试题内容,作为该题目对应的更新后的题目内容,进而将 更新后的题目内容与对应的子目录进行关联后存储。
这里,预设条件可以为从每个题目对应的多个相似度中选取相似度对 应的数值最高的相似度,预设条件也可以为从每个题目对应的多个相似度 选取相似度高于预设阈值的相似度,预设条件还可以从每个题目对应的多 个相似度选取相似度高于预设阈值且为相似度对应的数值最高的相似度。
进一步地,在步骤b中将更新后的题目内容与对应的子目录进行关联 后录入之后,所述数据录入方法包括:
根据从每个题目对应的题目页图片中识别出的题目内容,对录入的每 个题目的试题内容进行调整。
在具体实施中,在根据相似度录入与每个题目相对应的试题内容后, 由于代替题目内容录入的试题内容可能与该题目内容不完全相同,所以需 要对录入的试题内容进行调整,具体地,从每个题目对应的题目页图片中 识别出的题目内容,对录入的每个题目的试题内容进行调整,具体地,将 试题内容与题目内容不一致的内容,按照题目内容进行调整。
进一步地,在步骤a中计算从所述题目页图片中识别出的每个题目的 题目内容分别与题库中存储的多个试题之间的多个相似度之后,所述数据 录入方法还包括:
若不存在对应的相似度满足所述预设条件的试题的试题内容,则从所 述题目页图片中识别出每个题目的题目结构和题目内容;所述题目结构由 每个题目的题干、答案、解析和点评部分构成;将每个题目的题目内容与 对应的子目录进行关联后,按照对应的题目结构进行录入。
在具体实施中,对于书本目录中每个子目录对应的每个题目,计算出 题库中的各个试题的试题内容与该题目之间的多个相似度,若题库中不存 在与该题目对应的相似度满足预设条件的试题的试题内容,说明题库中不 存在与该题目的题目内容相近似的试题,故需要对该题目对应的题目页图 片中识别出的题目内容进行录入,具体地,先从题目页图片中识别出该题 目的题目结构和题目内容,进而将该题目的题目内容与对应的子目录进行 关联后,按照对应的题目结构进行录入。这里,题目结构由每个题目的题 干、答案、解析和点评部分构成,采用这种录入方式,可以使录入后的题 目内容具有题目结构,便于用户清晰明了地查看到题目内容中的各个部分。
需要说明的是,可以采用自然语言处理(Natural Language Processing, NLP)技术,从题目页图片中识别出每个题目的题目结构。
进一步地,在步骤S204中将所述题目内容与对应的子目录进行关联后 录入之后,所述数据录入方法还包括:
对录入的每个题目的题目内容中的公式,以及文本语义进行校对。
在具体实施中,在完成书本目录对应的每个题目的题目内容的录入后, 还需要对录入的题目内容进行校对,这里,对题目内容的校对包括对题目 内容中的公式以及文本语义进行校对,以便提升录入的题目内容的质量。
这里,对公式的校对,可以采用公式判别器来进行校对;对文本语义 进行校对,可以采用语义判别模型进行校对。
在本申请实施例中,通过从获取目标书本中的书本页图片中查找出目 录页图片,并从目录页图片中识别出书本目录中每个层级下的子目录,进 而根据每个子目录下的题目页码,从书本页图片中获取每个题目对应的题 目页图片,进一步地,从题目页图片中识别出题目内容,并将题目内容与 对应的子目录进行关联后录入。基于上述方式,本申请通过题目内容与书 本目录之间的关联关系对题目内容进行录入,在实现通过机器对目标书本 的结构化录入的同时,还可以提升目标书本的录入效率和准确率。
基于同一申请构思,本申请实施例中还提供了与上述提供的数据录入 方法对应的数据录入装置,由于本申请实施例中的装置解决问题的原理与 本申请上述实施例的数据录入方法相似,因此装置的实施可以参见方法的 实施,重复之处不再赘述。
参见图3至图7所示,图3为本申请实施例提供的一种数据录入装置 300的功能模块图之一;图4为本申请实施例所提供的一种数据录入装置 300的功能模块图之二;图5示出了图3中识别模块320的功能模块图;图6示出了图4中第一校对模块350的功能模块图;图7示出了图3中关联模 块340的功能模块图。
如图3和图4所示,所述数据录入装置300包括:
查找模块310,用于获取目标书本中的书本页图片,并从所述书本页图 片中查找出目录页图片;
识别模块320,用于从所述目录页图片中识别出书本目录中每个层级下 的子目录;
获取模块330,用于根据每个子目录下的题目页码,从所述书本页图片 中获取每个题目对应的题目页图片;
关联模块340,用于从所述题目页图片中识别出题目内容,将所述题目 内容与对应的子目录进行关联后录入。
在一种可能的实施方式中,如图5所示,所述识别模块320包括:
提取单元322,用于从所述目录页图片中提取出所述书本目录的目录结 构信息;
确定单元324,用于根据所述目录结构信息,确定所述书本目录中每个 层级下的子目录。
在一种可能的实施方式中,如图4所示,所述数据录入装置300还包 括:
第一校对模块350,用于对识别出的书本目录中每个层级下的子目录进 行校对,并将识别错误的子目录中的目录内容与其它目录内容进行区别显 示。
在一种可能的实施方式中,如图6所示,所述第一校对模块350包括:
校对单元352,用于利用所述目录页图片对所述书本目录进行内容校 对,得到校对结果;
显示单元354,用于根据所述校对结果,将识别错误的子目录中的目录 内容与其它目录内容进行区别显示。
在一种可能的实施方式中,如图7所示,所述关联模块340包括:
计算单元342,用于对于每个题目,计算从所述题目页图片中识别出的 每个题目的题目内容分别与题库中存储的多个试题之间的多个相似度;
关联单元344,用于采用对应的相似度满足预设条件的试题的试题内 容,作为每个题目对应的更新后的题目内容,将更新后的题目内容与对应 的子目录进行关联后录入。
在一种可能的实施方式中,如图4所示,所述数据录入装置300还包 括:
调整模块360,用于根据从每个题目对应的题目页图片中识别出的题目 内容,对录入的每个题目的试题内容进行调整。
在一种可能的实施方式中,如图7所示,所述关联模块340还包括:
识别单元346,用于若不存在对应的相似度满足所述预设条件的试题的 试题内容,则从所述题目页图片中识别出每个题目的题目结构和题目内容; 所述题目结构由每个题目的题干、答案、解析和点评部分构成;
录入单元348,用于将每个题目的题目内容与对应的子目录进行关联 后,按照对应的题目结构进行录入。
在一种可能的实施方式中,如图4所示,所述数据录入装置300还包 括:
第二校对模块370,用于对录入的每个题目的题目内容中的公式,以及 文本语义进行校对。
在本申请实施例中,通过从获取目标书本中的书本页图片中查找出目 录页图片,并从目录页图片中识别出书本目录中每个层级下的子目录,进 而根据每个子目录下的题目页码,从书本页图片中获取每个题目对应的题 目页图片,进一步地,从题目页图片中识别出题目内容,并将题目内容与 对应的子目录进行关联后录入。基于上述方式,本申请通过题目内容与书 本目录之间的关联关系对题目内容进行录入,在实现通过机器对目标书本 的结构化录入的同时,还可以提升目标书本的录入效率和准确率。
基于同一申请构思,参见图8所示,为本申请实施例提供的一种电子 设备800的结构示意图,包括:处理器810、存储器820和总线830,所述 存储器820存储有所述处理器810可执行的机器可读指令,当电子设备800 运行时,所述处理器810与所述存储器820之间通过所述总线830进行通 信,所述机器可读指令被所述处理器810运行时执行如上述所述的数据录 入方法的步骤。
具体地,所述机器可读指令被所述处理器810执行时可以执行如下处 理:
获取目标书本中的书本页图片,并从所述书本页图片中查找出目录页 图片;
从所述目录页图片中识别出书本目录中每个层级下的子目录;
根据每个子目录下的题目页码,从所述书本页图片中获取每个题目对 应的题目页图片;
从所述题目页图片中识别出题目内容,将所述题目内容与对应的子目 录进行关联后录入。
进一步地,所述机器可读指令被所述处理器810执行时可以执行如下 处理:
从所述目录页图片中提取出所述书本目录的目录结构信息;
根据所述目录结构信息,确定所述书本目录中每个层级下的子目录。
进一步地,所述机器可读指令被所述处理器810执行时可以执行如下 处理:
对识别出的书本目录中每个层级下的子目录进行校对,并将识别错误 的子目录中的目录内容与其它目录内容进行区别显示。
进一步地,所述机器可读指令被所述处理器810执行时可以执行如下 处理:
利用所述目录页图片对所述书本目录进行内容校对,得到校对结果;
根据所述校对结果,将识别错误的子目录中的目录内容与其它目录内 容进行区别显示。
进一步地,所述机器可读指令被所述处理器810执行时可以执行如下 处理:
对于每个题目,计算从所述题目页图片中识别出的每个题目的题目内 容分别与题库中存储的多个试题之间的多个相似度;
采用对应的相似度满足预设条件的试题的试题内容,作为每个题目对 应的更新后的题目内容,将更新后的题目内容与对应的子目录进行关联后 录入。
进一步地,所述机器可读指令被所述处理器810执行时可以执行如下 处理:
根据从每个题目对应的题目页图片中识别出的题目内容,对录入的每 个题目的试题内容进行调整。
进一步地,所述机器可读指令被所述处理器810执行时可以执行如下 处理:
若不存在对应的相似度满足所述预设条件的试题的试题内容,则从所 述题目页图片中识别出每个题目的题目结构和题目内容;所述题目结构由 每个题目的题干、答案、解析和点评部分构成;
将每个题目的题目内容与对应的子目录进行关联后,按照对应的题目 结构进行录入。
进一步地,所述机器可读指令被所述处理器810执行时可以执行如下 处理:
对录入的每个题目的题目内容中的公式,以及文本语义进行校对。
在本申请实施例中,通过从获取目标书本中的书本页图片中查找出目 录页图片,并从目录页图片中识别出书本目录中每个层级下的子目录,进 而根据每个子目录下的题目页码,从书本页图片中获取每个题目对应的题 目页图片,进一步地,从题目页图片中识别出题目内容,并将题目内容与 对应的子目录进行关联后录入。基于上述方式,本申请通过题目内容与书 本目录之间的关联关系对题目内容进行录入,在实现通过机器对目标书本 的结构化录入的同时,还可以提升目标书本的录入效率和准确率。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质, 所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器 运行时执行上述提供的数据录入方法的步骤。
具体地,所述存储介质能够为通用的存储介质,如移动磁盘、硬盘等, 所述存储介质上的计算机程序被运行时,能够执行上述数据录入方法,通 过题目内容与书本目录之间的关联关系对题目内容进行录入,在实现通过 机器对目标书本的结构化录入的同时,还可以提升目标书本的录入效率和 准确率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述 描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过 程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所 揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置 实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划 分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结 合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点, 所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通 信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的 形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使 用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。 基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的 部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算 机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设 备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施 例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、 只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易 想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保 护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据录入方法,其特征在于,所述数据录入方法包括:
获取目标书本中的书本页图片,并从所述书本页图片中查找出目录页图片;
从所述目录页图片中识别出书本目录中每个层级下的子目录;
根据每个子目录下的题目页码,从所述书本页图片中获取每个题目对应的题目页图片;
从所述题目页图片中识别出题目内容,将所述题目内容与对应的子目录进行关联后录入。
2.根据权利要求1所述的数据录入方法,其特征在于,所述从所述目录页图片中识别出书本目录中每个层级下的子目录,包括:
从所述目录页图片中提取出所述书本目录的目录结构信息;
根据所述目录结构信息,确定所述书本目录中每个层级下的子目录。
3.根据权利要求1所述的数据录入方法,其特征在于,在所述从所述目录页图片中识别出书本目录中每个层级下的子目录之后,所述数据录入方法还包括:
对识别出的书本目录中每个层级下的子目录进行校对,并将识别错误的子目录中的目录内容与其它目录内容进行区别显示。
4.根据权利要求3所述的数据录入方法,其特征在于,所述对识别出的书本目录中每个层级下的子目录进行校对,并将识别错误的子目录中的目录内容与其它目录内容进行区别显示,包括:
利用所述目录页图片对所述书本目录进行内容校对,得到校对结果;
根据所述校对结果,将识别错误的子目录中的目录内容与其它目录内容进行区别显示。
5.根据权利要求1所述的数据录入方法,其特征在于,所述从所述题目页图片中识别出题目内容,将所述题目内容与对应的子目录进行关联后录入,包括:
对于每个题目,计算从所述题目页图片中识别出的每个题目的题目内容分别与题库中存储的多个试题之间的多个相似度;
采用对应的相似度满足预设条件的试题的试题内容,作为每个题目对应的更新后的题目内容,将更新后的题目内容与对应的子目录进行关联后录入。
6.根据权利要求5所述的数据录入方法,其特征在于,在所述将更新后的题目内容与对应的子目录进行关联后录入之后,所述数据录入方法包括:
根据从每个题目对应的题目页图片中识别出的题目内容,对录入的每个题目的试题内容进行调整。
7.根据权利要求5所述的数据录入方法,其特征在于,在所述计算从所述题目页图片中识别出的每个题目的题目内容分别与题库中存储的多个试题之间的多个相似度之后,所述数据录入方法还包括:
若不存在对应的相似度满足所述预设条件的试题的试题内容,则从所述题目页图片中识别出每个题目的题目结构和题目内容;所述题目结构由每个题目的题干、答案、解析和点评部分构成;
将每个题目的题目内容与对应的子目录进行关联后,按照对应的题目结构进行录入。
8.一种数据录入装置,其特征在于,所述数据录入装置包括:
查找模块,用于获取目标书本中的书本页图片,并从所述书本页图片中查找出目录页图片;
识别模块,用于从所述目录页图片中识别出书本目录中每个层级下的子目录;
获取模块,用于根据每个子目录下的题目页码,从所述书本页图片中获取每个题目对应的题目页图片;
关联模块,用于从所述题目页图片中识别出题目内容,将所述题目内容与对应的子目录进行关联后录入。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7中任一项所述的数据录入方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的数据录入方法的步骤。
CN202010006129.9A 2020-01-03 2020-01-03 一种数据录入方法、装置、电子设备及可读存储介质 Pending CN111209418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010006129.9A CN111209418A (zh) 2020-01-03 2020-01-03 一种数据录入方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010006129.9A CN111209418A (zh) 2020-01-03 2020-01-03 一种数据录入方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111209418A true CN111209418A (zh) 2020-05-29

Family

ID=70785756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010006129.9A Pending CN111209418A (zh) 2020-01-03 2020-01-03 一种数据录入方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111209418A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446359A (zh) * 2020-12-15 2021-03-05 作业帮教育科技(北京)有限公司 纸质图书的信息提取方法、装置、系统及电子设备
CN113130023A (zh) * 2021-04-22 2021-07-16 嘉兴易迪希计算机技术有限公司 Edc系统中图文识别录入方法及系统
CN113762018A (zh) * 2021-01-13 2021-12-07 北京沃东天骏信息技术有限公司 内容同步方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783018B1 (en) * 2006-06-24 2010-08-24 Goldberg Mark S Directory display and configurable entry system
CN103714101A (zh) * 2012-10-04 2014-04-09 富士施乐株式会社 信息处理设备及信息处理方法
CN106156342A (zh) * 2016-07-19 2016-11-23 上海斐讯数据通信技术有限公司 一种数据批量导入方法
CN108628869A (zh) * 2017-03-16 2018-10-09 富士施乐实业发展(中国)有限公司 一种对电子文书进行类别划分的方法和装置
CN109902670A (zh) * 2017-12-08 2019-06-18 亿度慧达教育科技(北京)有限公司 数据录入方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783018B1 (en) * 2006-06-24 2010-08-24 Goldberg Mark S Directory display and configurable entry system
CN103714101A (zh) * 2012-10-04 2014-04-09 富士施乐株式会社 信息处理设备及信息处理方法
CN106156342A (zh) * 2016-07-19 2016-11-23 上海斐讯数据通信技术有限公司 一种数据批量导入方法
CN108628869A (zh) * 2017-03-16 2018-10-09 富士施乐实业发展(中国)有限公司 一种对电子文书进行类别划分的方法和装置
CN109902670A (zh) * 2017-12-08 2019-06-18 亿度慧达教育科技(北京)有限公司 数据录入方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446359A (zh) * 2020-12-15 2021-03-05 作业帮教育科技(北京)有限公司 纸质图书的信息提取方法、装置、系统及电子设备
CN113762018A (zh) * 2021-01-13 2021-12-07 北京沃东天骏信息技术有限公司 内容同步方法、装置、电子设备及存储介质
CN113130023A (zh) * 2021-04-22 2021-07-16 嘉兴易迪希计算机技术有限公司 Edc系统中图文识别录入方法及系统

Similar Documents

Publication Publication Date Title
CN111209418A (zh) 一种数据录入方法、装置、电子设备及可读存储介质
CN103714094B (zh) 识别视频中的对象的设备和方法
CN111582169B (zh) 图像识别数据纠错方法、装置、计算机设备和存储介质
KR102004180B1 (ko) 시험지 인식을 통한 유사 문제 추출 장치 및 그 방법
US9286526B1 (en) Cohort-based learning from user edits
CN110675677A (zh) 用于辅助数学应用题的方法及装置
JP2007026386A (ja) 画像検索システム及び方法
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN112381099A (zh) 一种基于数字教育资源的录题系统
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN102033866A (zh) 用于校验化学名称的方法及系统
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
JP2004252881A (ja) テキストデータ修正方法
US9672438B2 (en) Text parsing in complex graphical images
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
EP3779784A1 (en) Image processing device, image processing method, and storage medium storing program
CN108255866B (zh) 检查网站中链接的方法和装置
CN111079777A (zh) 一种基于书页定位的点读方法及电子设备
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
CN114220113A (zh) 一种论文质量检测方法、装置和设备
CN114780755A (zh) 一种基于知识图谱的播放数据定位方法、装置及电子设备
Granell et al. Processing a large collection of historical tabular images
CN115099213A (zh) 一种信息处理方法和信息处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information