CN113239717A - 用于处理题目的方法、装置、设备、介质和程序产品 - Google Patents

用于处理题目的方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN113239717A
CN113239717A CN202110221027.3A CN202110221027A CN113239717A CN 113239717 A CN113239717 A CN 113239717A CN 202110221027 A CN202110221027 A CN 202110221027A CN 113239717 A CN113239717 A CN 113239717A
Authority
CN
China
Prior art keywords
answer
question
text
stem
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110221027.3A
Other languages
English (en)
Inventor
徐博坤
李国洪
高菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110221027.3A priority Critical patent/CN113239717A/zh
Publication of CN113239717A publication Critical patent/CN113239717A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

根据本公开的示例实施例,提供了一种用于处理题目的方法、装置、设备、介质和程序产品。涉及人工智能领域,尤其涉及智能搜索、智能教育和深度学习技术领域。具体实现方案为:对包括至少一个题目的图像进行识别,以确定图像中的文本的文本内容和文本位置;基于文本内容,确定至少一个题目的题目类型;基于图像,确定至少一个题目的题干位置和答题位置;如果确定文本位置与题干位置相匹配,从文本内容中确定题干位置处的题干文本;以及在答题位置处显示至少一个题目的答案,答案基于题干文本和题目类型而被生成。根据本公开的实施例,可以准确地确定答题区域和答案。

Description

用于处理题目的方法、装置、设备、介质和程序产品
技术领域
本公开涉及人工智能领域,并且更具体地,涉及用于处理题目的方法、 装置、设备、计算机可读存储介质和计算机程序产品。
背景技术
随着物质文化、综合国力的大幅提升,人们对于孩子的教育投入日益 增长。一方面,家长直接参与孩子作业的审阅、批改、讲解等环节,家长 需要大量人工翻阅来确定答案来对题目进行审阅。另一方面,教师的批改 压力也越来越大。对于题目简单且题目数量较大的题目场景,耗费了教师、 家长大量的人力成本。因此,需要一种快速有效地处理题目的解决方案。
发明内容
根据本公开的示例实施例,提供了一种用于处理题目的方法、装置、 设备、计算机可读存储介质和计算机程序产品。
在本公开的第一方面中,提供了一种用于处理题目的方法。该方法包 括:对包括至少一个题目的图像进行识别,以确定图像中的文本的文本内 容和文本位置;基于文本内容,确定至少一个题目的题目类型;基于图像, 确定至少一个题目的题干位置和答题位置;如果确定文本位置与题干位置 相匹配,从文本内容中确定题干位置处的题干文本;以及在答题位置处显 示至少一个题目的答案,答案基于题干文本和题目类型而被生成。
在本公开的第二方面中,提供了一种用于处理题目的装置。该装置包 括:图像识别模块,被配置为对包括至少一个题目的图像进行识别,以确 定图像中的文本的文本内容和文本位置;类型确定模块,被配置为基于文 本内容,确定至少一个题目的题目类型;第一题目确定模块,被配置为基 于图像,确定至少一个题目的题干位置和答题位置;第一题干文本确定模 块,被配置为如果确定文本位置与题干位置相匹配,从文本内容中确定题 干位置处的题干文本;以及第一答案呈现模块,被配置为在答题位置处显 示至少一个题目的答案,答案基于题干文本和题目类型而被生成。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理 器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个 或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的 方法。
在本公开的第四方面中,提供了一种计算机可读介质,其上存储有计 算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
在本公开的第五方面中,提供了一种计算机程序产品,包括计算机程 序指令,该计算机程序指令被处理器实现如本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施 例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将 通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、 优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同 或相似的元素。附图用于更好地理解本方案,不构成对本公开的限定,其 中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意 图;
图2示出了根据本公开的一些实施例的用于处理题目的过程的示例 的流程图;
图3示出了根据本公开的一些实施例的确定题干位置和答题位置的 过程的示例的流程图;
图4示出了根据本公开的一些实施例的对包括题目的图像进行处理 的一个示意图;
图5示出了根据本公开的一些实施例的对包括题目的图像进行处理 的另一示意图;
图6示出了根据本公开的实施例的用于处理题目的装置的示意框图; 以及
图7示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本 公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现, 而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了 更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅 用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开 放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。 术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第 一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明 确的和隐含的定义。
在本公开的实施例的描述中,术语“模型”可以从训练数据中学习到相 应的输入与输出之间的关联,从而在训练完成后基于训练得到的参数集对 给定的输入进行处理以生成对应的输出。“模型”有时也可以被称为“神经 网络”、“学习模型”、“学习网络”或“网络”。这些术语在本文中可互换地使 用。
如以上提及的,在教育领域已经开发了用于处理题目的解决方案。在 传统方案中,获取包括题目的图像的OCR识别信息。然后根据OCR识别 信息确定题目的整体区域及题目类型。接着使用规则匹配,抽取出每个小 题的文字结果及填空区域。最后通过网络检索,获取答案,并根据填空区 域定位实现贴合。现有技术的缺陷在于(1)仅通过OCR识别涉及大量规 则,实现复杂。(2)仅通过OCR识别,不能准确地确定答案区域。
本公开的示例实施例提出了一种用于处理题目的方案。在该方案中, 首先对包括题目的图像进行识别,以确定图像中的文本内容和文本内容所 在的文本位置。然后根据文本内容,确定题目的类型。之后根据上述图像, 确定题目的题干位置和答题位置。接着根据与文本位置和题干位置之间的 对应位置关系,从文本内容中确定题干位置处的题干文本。最后根据题干 文本和题目类型确定答案,并且在答题位置处呈现答案。根据本公开的方案,将确定的文本内容所在的文本位置以及题干位置进行融合,可以准确 地确定题目的答案。最后根据答题位置,可以准确地呈现答案。进而提升 用户对题目的审阅和批改效率。
图1示出了本公开的多个实施例能够在其中实现的示例环境100的示 意图。应当理解,图1所示出的环境100仅仅是示例性的,而不应当构成 对本公开所描述的实现的功能和范围的任何限制。如图1所示,环境100 包括图像110、题目120-1和120-2(以下被统称为至少一个题目120)、 计算设备130和数据库140。虽然仅仅图示为一个图像和两个题目,但数 目仅仅是示例性的。还可以同时存在多个图像和多个题目,本公开在此不 做限制。
图像110可以是通过电子设备中的相机采集得到的图像,该图像110 还可以是对电子设备的显示屏幕中显示的内容进行截屏而得到的图像,或 者该图像110还可以是从其他设备传输的图像。图像可以为bmp、jpg、jpeg、 pdf等各种合适的格式。本公开对此不做限制。
图像110中可以包括至少一个题目120。在一些实施例中,至少一个 题目120为空白题目,即不存在答案。在一些实施例中,至少一个题目120 为存在答案的待批改题目。题目的类型包括但不限于近义词、反义词、成 语等。现在下文中,将以反义词作为示例进行描述,其不旨在限制本公开 的范围。
计算设备130可以对上述图像110进行各种处理来确定至少一个题目 120的文本内容和答题区域。例如,计算设备130可以利用OCR技术、 各种算法和预先训练好的模型对图像中的文本进行识别和处理,这将在下 文进一步详细描述。
计算设备130还可以根据上述确定的至少一个题目120的文本内容, 从数据库140中检索针对至少一个题目120的答案以用于呈现给用户或者 与已经存在的答案进行匹配以用于批改。虽然计算设备120被示出为数据 库140之外的实体,计算设备120也可以包括数据库140。计算设备120 可以是任何具有计算能力的设备。作为非限制性示例,计算设备130可以 是任意类型的固定计算设备、移动计算设备或便携式计算设备,包括但不 限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计 算机、多媒体计算机、移动电话等;计算设备130的全部组件或一部分组 件可以分布在云端。计算设备130至少包含处理器、存储器以及其他通常 存在于通用计算机中的组件,以便实现计算、存储、通信、控制等功能。
为了更清楚地理解本公开的实施例所提供的方案,将参照图2至图5 来进一步描述本公开的实施例。图2示出了根据本公开的实施例的用于处 理题目的过程200的流程图。过程200可以由图1的计算设备130实现。 为便于讨论,将结合图1来描述过程200。
在图2的210,计算设备130对包括至少一个题目120的图像110进 行识别,以确定图像110中的文本的文本内容和文本位置。例如,计算设 备130可以采用合适的文本识别技术对图像110进行识别。OCR具有较 高的识别速度和准确率。计算设备130可以对图像110进行二值化、噪声 去除、倾斜校正、字符切割等处理。然后通过特定的OCR算法得到图像 110中的文本内容和文本内容所在的位置。
为了清楚地阐述上述过程,参考图4描述。图4示出了根据本公开的 一些实施例的对包括题目的图像110进行处理的一个示意图400。在图4 中,计算设备130确定出文本内容401-412以及其在图像110中的文本位 置。
回到图2进行描述,在图2的220,计算设备130基于文本内容,确 定至少一个题目120的题目类型。例如,计算设备130可以遍历上述确定 的文本内容,匹配题目类型关键字来确定题目类型。
在一些实施例中,以图4为示例,计算设备130遍历文本内容401-412 后,可以确定其中的关键字为402-404,即“反义词”。然后可以确定该 题目类型为反义词类型。计算设备130还可以同时确定文本内容402-404 的位置,从而将距离其阈值范围内的文本内容确定为同一类型的题目。
备选地,在一些其他实施例中,计算设备130还可以提取整个文本内 容的特征并在数据库140中进行匹配以确定与其相同的题目,从而确定题 目类型。
在图2的230,计算设备130基于图像110,确定至少一个题目120 的题干位置和答题位置。将结合图3进一步描述步骤230。图3示出了根 据本公开的一些实施例的确定题干位置和答题位置的过程的示例的流程 图300。
在图3的310,计算设备130基于图像110中的文本的文本方向,校 正图像的方向。例如,计算设备130所获取的图像110可能是倒转的或者 方向不正的图像,其不利于后续的图像识别。计算设备130可以首先将图 片转正。
在一些实施例中,计算设备130可以利用题目方向检测模型来调整图 像的方向。题目方向检测模型可以将不同特征尺度的结果融合,充分利用 多层次感知视野信息,判断图像110的文本方向,进而校正图像110的方 向。题目方向检测模型可以是利用低时延、高吞吐的MobileNet轻量模型 而被预先训练的模型。通过首先校正图像110的方向,可以便于后续的题 干和答题位置检测,提高位置检测的准确率。
在图3的320,计算设备130基于经校正的图像,确定至少一个题干 位置和至少一个答题位置。
在一些实施例中,计算设备130可以获取与样本图像相关联的题干和 答题位置检测模型,题干和答题位置检测模型描述与样本图像相关的样本 题干位置和样本答题位置之间的关系。然后计算设备130可以基于题干和 答题位置检测模型和经校正的图像,确定至少一个题干位置和至少一个答 题位置。题干和答题位置检测模型可以采用基于YoloV3的目标检测模型, 利用经标注大量各形态的填空题目而被训练获得。
将参考图5描述上述步骤320的图像处理结果。图5示出了根据本公 开的一些实施例的对包括题目的图像进行处理的另一示意图500。计算设 备130可以利用题干和答题位置检测模型可以确定图像110中的至少一个 题干位置501、503和至少一个答题位置502和504。
回到图3进行描述,在图3的330,计算设备130对至少一个题干位 置和至少一个答题位置进行匹配,以确定至少一个题目120的题干位置和 答题位置。例如,计算设备130可以对上述检测到的至少一个题干位置 501、503和至少一个答题位置502和504进行匹配来确定与一个题目120 的相关联的题干位置和答题位置。
在一个实施例中,上述题干和答题位置检测模型可以同时输出所检测 的至少一个题干位置501、503和至少一个答题位置502和504的相应的 特征值。例如题干位置501的特征值为A,题干位置503的特征值为B, 答题位置502的特征值为C,答题位置504的特征值为D。计算设备130 可以确定通过特征值来确定其之间的匹配度,从而确定题目120-1的题干 位置501和答题位置502,以及确定题目120-2的题干位置503和答题位 置504。还可以利用其他合适的算法或者模型来确定题干位置和答题位置 之间的匹配度,本公开在此不做限制。通过利用上述题目方向检测模型和 题干和答题位置检测模型,可以准确且鲁棒地确定题目区域。为后续答案 确定和答案填写打下基础。
回到图2进行描述,在图2的240,计算设备130如果确定文本位置 与题干位置相匹配,从文本内容中确定题干位置处的题干文本。例如,计 算设备130可以将在步骤210和在步骤230所获取的图像110的处理结果 进行融合来确定题干位置处的题干文本。
在一个示例中,计算设备130如果确定文本位置与题干位置相匹配, 将与文本位置相对应的文本内容确定为题干位置处的题干文本。
在一些实施例中,计算设备130可以通过题干位置501在图像中的坐 标(例如查找其阈值坐标范围内的文本内容的坐标)来确定其包括文本内 容405和406,从而确定题目120-1的题干文本为“幼稚”。通过利用上 述获得准确的题干位置结合文本识别处理结果(例如OCR识别),可以 准确地确定题干的文本。
在250,计算设备130在答题位置处显示至少一个题目的答案,答案 基于题干文本和题目类型而被生成。例如,在确定了确定题干文本后,计 算设备130可以进一步确定答案并展示给用户。
在一些实施例中,计算设备130可以基于题目类型,从预先确定的数 据库140中确定与题干文本相匹配的目标文本。然后在答题位置处呈现目 标文本作为至少一个题目的答案。对于题目120-1,计算设备130可以在 数据库140中检索“幼稚”的反义词,例如得出“老练、成熟、老成”。 计算设备130然后可以将最合适的目标文本作为题目120-1的答案。
备选地,在一些实施例中,计算设备130检测在答题位置处存在的待 处理答案,并且计算设备130如果确定待处理答案与答案相匹配,呈现指 示待处理答案正确的标识。通过准确地识别答案位置,可以准确确定其中 存在的待处理答案,从而智能、高效地完成针对题目的批改。
根据本公开提出的用于处理题目的方法,可以准确地识别题目的题干 和答案位置,从而允许高效地将答案贴合到答案位置以便于家长实现快速 地答案审核和学生的自学。进一步地,通过智能地将待处理答案与所确定 的答案进行匹配,可以便于教师高效地批改题目。
图6示出了根据本公开的实施例的用于处理题目的装置600的示意框 图。如图6所示,装置600包括:图像识别模块610,被配置为对包括至 少一个题目的图像进行识别,以确定图像中的文本的文本内容和文本位 置;类型确定模块620,被配置为基于文本内容,确定至少一个题目的题 目类型;第一题目确定模块630,被配置为基于图像,确定至少一个题目的题干位置和答题位置;第一题干文本确定模块640,被配置为如果确定 文本位置与题干位置相匹配,从文本内容中确定题干位置处的题干文本; 以及第一答案呈现模块650,被配置为在答题位置处显示至少一个题目的 答案,答案基于题干文本和题目类型而被生成。
在一些实施例中,其中第一题目确定模块630可以包括:方向校正模 块,被配置为基于图像中的文本的文本方向,校正图像的方向第二题目确 定模块,被配置为基于经校正的图像,确定至少一个题干位置和至少一个 答题位置;以及第三题目确定模块,被配置为对至少一个题干位置和至少 一个答题位置进行匹配,以确定至少一个题目的题干位置和答题位置。
在一些实施例中,其中第二题目确定模块包括:检测模型获取模块, 被配置为获取与样本图像相关联的题干和答题位置检测模型,题干和答题 位置检测模型描述与样本图像相关的样本题干位置和样本答题位置之间 的关系;以及第四题目确定模块,被配置为基于题干和答题位置检测模型 和经校正的图像,确定至少一个题干位置和至少一个答题位置。
在一些实施例中,其中第一题干文本确定模块640可以包括:第二题 干文本确定模块,被配置为将与文本位置相对应的文本内容确定为题干位 置处的题干文本。
在一些实施例中,其中第一答案呈现模块650可以包括:目标文本确 定模块,被配置为基于题目类型,从预先确定的数据库中确定与题干文本 相匹配的目标文本;以及第二答案呈现模块,被配置为在答题位置处呈现 目标文本作为至少一个题目的答案。
在一些实施例中,装置600还可以包括:答案检测模块,被配置为检 测在答题位置处存在的待处理答案;以及答案匹配模块,被配置为如果确 定待处理答案与答案相匹配,呈现指示待处理答案正确的标识。
图7示出了可以用来实施本公开的实施例的示例电子设备800的示意 性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、 台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算 机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸 如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算 装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示 例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存 储器(ROM)702中的计算机程序或者从存储单元707加载到随机访问存 储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在 RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O) 接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706, 例如键盘、鼠标等;输出单元708,例如各种类型的显示器、扬声器等; 存储单元707,例如磁盘、光盘等;以及通信单元709,例如网卡、调制 解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网 的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理 组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图 形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机 器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的 处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如过程200和300。例如,在一些实施例中,过程200和300 可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储 单元707。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702 和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载 到RAM 703并由计算单元701执行时,可以执行上文描述的过程200和 300的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通 过其他任何适当的方式(例如,借助于固件)而被配置为执行过程200和 300。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路 系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、 专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑 设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这 些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或 者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行 和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从 存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并 且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个 输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的 任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其 他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控 制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可 以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机 器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含 或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设 备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读 储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电 磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组 合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连 接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑 盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的 任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技 术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极 射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如, 鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计 算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户 的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触 觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例 如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服 务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网 络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器 来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、 中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式 或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。 通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此 并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具 有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务 器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中 的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或 删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地 执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望 的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术 人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、 子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和 改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种用于处理题目的方法,所述方法包括:
对包括至少一个题目的图像进行识别,以确定所述图像中的文本的文本内容和文本位置;
基于所述文本内容,确定所述至少一个题目的题目类型;
基于所述图像,确定所述至少一个题目的题干位置和答题位置;
如果确定所述文本位置与所述题干位置相匹配,从所述文本内容中确定所述题干位置处的题干文本;以及
在所述答题位置处显示所述至少一个题目的答案,所述答案基于所述题干文本和所述题目类型而被生成。
2.根据权利要求1所述的方法,其中基于所述图像,确定所述至少一个题目的所述题干位置和所述答题位置包括:
基于所述图像中的所述文本的文本方向,校正所述图像的方向;
基于经校正的所述图像,确定至少一个题干位置和至少一个答题位置;以及
对所述至少一个题干位置和所述至少一个答题位置进行匹配,以确定所述至少一个题目的所述题干位置和所述答题位置。
3.根据权利要求2所述的方法,其中基于经校正的所述图像,确定至少一个题干位置和至少一个答题位置包括:
获取与样本图像相关联的题干和答题位置检测模型,所述题干和答题位置检测模型描述与所述样本图像相关的样本题干位置和样本答题位置之间的关系;以及
基于所述题干和答题位置检测模型和经校正的所述图像,确定所述至少一个题干位置和所述至少一个答题位置。
4.根据权利要求1所述的方法,其中如果确定所述文本位置与所述题干位置相匹配,从所述文本内容中确定所述题干位置处的题干文本包括:
将与所述文本位置相对应的文本内容确定为所述题干位置处的题干文本。
5.根据权利要求1所述的方法,其中在所述答题位置处显示所述至少一个题目的答案包括:
基于所述题目类型,从预先确定的数据库中确定与所述题干文本相匹配的目标文本;以及
在所述答题位置处显示所述目标文本作为所述至少一个题目的答案。
6.根据权利要求1所述的方法,还包括:
检测在所述答题位置处存在的待处理答案;以及
如果确定所述待处理答案与所述答案相匹配,呈现指示所述待处理答案正确的标识。
7.一种用于处理题目的装置,所述装置包括:
图像识别模块,被配置为对包括至少一个题目的图像进行识别,以确定所述图像中的文本的文本内容和文本位置;
类型确定模块,被配置为基于所述文本内容,确定所述至少一个题目的题目类型;
第一题目确定模块,被配置为基于所述图像,确定所述至少一个题目的题干位置和答题位置;
第一题干文本确定模块,被配置为如果确定所述文本位置与所述题干位置相匹配,从所述文本内容中确定所述题干位置处的题干文本;以及
第一答案呈现模块,被配置为在所述答题位置处显示所述至少一个题目的答案,所述答案基于所述题干文本和所述题目类型而被生成。
8.根据权利要求7所述的装置,其中所述第一题目确定模块包括:
方向校正模块,被配置为基于所述图像中的所述文本的文本方向,校正所述图像的方向;
第二题目确定模块,被配置为基于经校正的所述图像,确定至少一个题干位置和至少一个答题位置;以及
第三题目确定模块,被配置为对所述至少一个题干位置和所述至少一个答题位置进行匹配,以确定所述至少一个题目的所述题干位置和所述答题位置。
9.根据权利要求8所述的装置,其中所述第二题目确定模块包括:
检测模型获取模块,被配置为获取与样本图像相关联的题干和答题位置检测模型,所述题干和答题位置检测模型描述与所述样本图像相关的样本题干位置和样本答题位置之间的关系;以及
第四题目确定模块,被配置为基于所述题干和答题位置检测模型和经校正的所述图像,确定所述至少一个题干位置和所述至少一个答题位置。
10.根据权利要求7所述的装置,其中所述第一题干文本确定模块包括:
第二题干文本确定模块,被配置为将与所述文本位置相对应的文本内容确定为所述题干位置处的题干文本。
11.根据权利要求7所述的装置,其中所述第一答案呈现模块包括:
目标文本确定模块,被配置为基于所述题目类型,从预先确定的数据库中确定与所述题干文本相匹配的目标文本;以及
第二答案呈现模块,被配置为在所述答题位置处呈现所述目标文本作为所述至少一个题目的答案。
12.根据权利要求7所述的装置,还包括:
答案检测模块,被配置为检测在所述答题位置处存在的待处理答案;以及
答案匹配模块,被配置为如果确定所述待处理答案与所述答案相匹配,呈现指示所述待处理答案正确的标识。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
CN202110221027.3A 2021-02-26 2021-02-26 用于处理题目的方法、装置、设备、介质和程序产品 Pending CN113239717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110221027.3A CN113239717A (zh) 2021-02-26 2021-02-26 用于处理题目的方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110221027.3A CN113239717A (zh) 2021-02-26 2021-02-26 用于处理题目的方法、装置、设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN113239717A true CN113239717A (zh) 2021-08-10

Family

ID=77130190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110221027.3A Pending CN113239717A (zh) 2021-02-26 2021-02-26 用于处理题目的方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN113239717A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293624A (ja) * 1999-04-09 2000-10-20 Canon Inc 画像処理方法、装置及び記憶媒体
CN110750624A (zh) * 2019-10-30 2020-02-04 百度在线网络技术(北京)有限公司 信息输出方法及装置
US20200090539A1 (en) * 2018-08-13 2020-03-19 Hangzhou Dana Technology Inc. Method and system for intelligent identification and correction of questions
CN111353064A (zh) * 2020-02-28 2020-06-30 北京百度网讯科技有限公司 表情包生成方法、装置、设备和介质
CN111931731A (zh) * 2020-09-24 2020-11-13 北京易真学思教育科技有限公司 判题方法、装置、电子设备及存储介质
CN112000796A (zh) * 2020-08-05 2020-11-27 深圳中兴网信科技有限公司 答案生成方法、电子设备和计算机可读存储介质
CN112069349A (zh) * 2020-09-15 2020-12-11 杭州大拿科技股份有限公司 自动填写答案的方法、电子设备和可读存储介质
CN112183253A (zh) * 2020-09-15 2021-01-05 北京大米科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293624A (ja) * 1999-04-09 2000-10-20 Canon Inc 画像処理方法、装置及び記憶媒体
US20200090539A1 (en) * 2018-08-13 2020-03-19 Hangzhou Dana Technology Inc. Method and system for intelligent identification and correction of questions
CN110750624A (zh) * 2019-10-30 2020-02-04 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN111353064A (zh) * 2020-02-28 2020-06-30 北京百度网讯科技有限公司 表情包生成方法、装置、设备和介质
CN112000796A (zh) * 2020-08-05 2020-11-27 深圳中兴网信科技有限公司 答案生成方法、电子设备和计算机可读存储介质
CN112069349A (zh) * 2020-09-15 2020-12-11 杭州大拿科技股份有限公司 自动填写答案的方法、电子设备和可读存储介质
CN112183253A (zh) * 2020-09-15 2021-01-05 北京大米科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111931731A (zh) * 2020-09-24 2020-11-13 北京易真学思教育科技有限公司 判题方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
菅朋朋;王彦丽;夏盟;: "融合文本与图形理解的电路题目自动解答", 计算机应用与软件, no. 02 *

Similar Documents

Publication Publication Date Title
US11816710B2 (en) Identifying key-value pairs in documents
CN113836333A (zh) 图文匹配模型的训练方法、实现图文检索的方法、装置
CN113656582B (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
CN115082920A (zh) 深度学习模型的训练方法、图像处理方法和装置
CN113656613A (zh) 训练图文检索模型的方法、多模态图像检索方法及装置
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
CN113537192A (zh) 图像检测方法、装置、电子设备及存储介质
CN113641804A (zh) 预训练模型获取方法、装置、电子设备及存储介质
CN115984791A (zh) 自动驾驶感知模型的生成方法、装置及电子设备
US20220335274A1 (en) Multi-stage computationally efficient neural network inference
CN113901302B (zh) 数据处理方法、装置、电子设备和介质
CN113239717A (zh) 用于处理题目的方法、装置、设备、介质和程序产品
JP2020115175A (ja) 情報処理装置、情報処理方法及びプログラム
CN112801078A (zh) 兴趣点poi的匹配方法、装置、电子设备及存储介质
CN113033377A (zh) 字符位置修正方法、装置、电子设备和存储介质
CN112925913A (zh) 用于匹配数据的方法、装置、设备和计算机可读存储介质
US11763589B1 (en) Detection of blanks in documents
CN114677691B (zh) 文本识别方法、装置、电子设备及存储介质
CN115129816B (zh) 问答匹配模型的训练方法、装置及电子设备
CN113627350B (zh) 一种表格检测方法、装置、设备以及存储介质
CN115131709B (zh) 视频类别预测方法、视频类别预测模型的训练方法及装置
CN113408661B (zh) 误匹配确定方法、装置、设备和介质
CN113409288A (zh) 一种图像清晰度的检测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination