CN112000796A

CN112000796A - 答案生成方法、电子设备和计算机可读存储介质

Info

Publication number: CN112000796A
Application number: CN202010775254.6A
Authority: CN
Inventors: 罗铁; 陈瑞斌
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-11-27

Abstract

本发明提出了一种答案生成方法、电子设备和计算机可读存储介质。其中，方法包括：获取题目图像；检测题目图像的文本框；识别文本框的文本信息、文本位置信息和答题位置信息；根据文本位置信息和答题位置信息，确定答案的查询位置信息；根据查询位置信息和文本信息，在数据库中查询并输出答案。从而实现了通过题干区域和答题区域的位置逻辑，准确定位答案查询位置，简化用于查询答案的题目信息，优化答案查询方式，进而能够自动、快速生成问题的答案，减少用户的阅读成本，提升了答案生成效率和精准度，有效增强用户的使用体验度。

Description

答案生成方法、电子设备和计算机可读存储介质

技术领域

本发明涉及电子设备技术领域，具体而言，涉及一种答案生成方法、一种电子设备和一种计算机可读存储介质。

背景技术

随着深度学习技术进步，人工智能在教育方面的实际应用场景逐步发掘，实现了知识点关联分析，题目推荐，智能阅卷等一系列的技术，从而尽可能的减少教师的工作压力。同时，学生的学习负担和压力也是不同忽视的，学生通常会使用一些电子产品来辅助学习，压缩时间成本，提高学习效率。目前，市面上有部分家教机和应用程序(Application，APP)具备拍照搜题的功能。

目前在拍照搜题方面，存在以下缺陷：

(1)题目的更新速度快，且比较繁杂，拍照搜题可能无法获取到相应的内容；

(2)大部分拍照搜题提供的服务不够精细化，广而浅，不能根据学科类别和题目类型进行专业化，精细化。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的第一方面在于提出了一种答案生成方法。

本发明的第二方面在于提出了一种电子设备。

本发明的第三方面在于提出了一种计算机可读存储介质。

有鉴于此，根据本发明的第一方面，提出了一种答案生成方法，包括：获取题目图像；检测题目图像的文本框；识别文本框的文本信息、文本位置信息和答题位置信息；根据文本位置信息和答题位置信息，确定答案的查询位置信息；根据查询位置信息和文本信息，在数据库中查询并输出答案。

本发明提供的答案生成方法，通过检测题目图像中的文本框，确定题目图像中题目的位置，以便于精准识别题干的信息，避免字符漏检。同时识别文本框的文本信息、文本位置信息和答题位置信息，并根据文本位置信息和答题位置信息中的坐标确定答案的查询位置信息，也即确定出答题区域相对于题干区域的位置关系，根据查询位置信息和文本信息，在数据库中查询并输出对应的答案。从而实现了通过题干区域和答题区域的位置逻辑，准确定位答案查询位置，避免根据全部题干文字进行检索，简化用于查询答案的题目信息，优化答案查询方式，进而能够自动、快速生成复杂的诗词类、散文类等问题的答案，减少用户的阅读成本，提升了答案生成效率和精准度，有效增强用户的使用体验度。

具体地，可预先根据不同学科类别和题目类型构建本地数据库，从而避免互联网搜索，实现离线情况下的答案生成，例如，构建诗词库，收录所有的古诗词，以字典的形式保存，每一个键对应的值是一个列表，列表有2个元素，分别为键值内容的上一句和下一句，比如：{“举头望明月”：[“疑是地上霜”，“低头思故乡”]}。

进一步地，采用CTPN(Convolutional Text Proposal Network)模型检测题目图像的文本框。CTPN模型能够在检测过程中先检测多个小的、固定高度的文本段，并将图像中检测到的所有小文本段合并，得到完整的大文本框，从而实现文本框的检测任务，使得文本框具有较高的置信度，提高文本边界识别精度。

另外，根据本发明提供的上述技术方案中的答案生成方法，还可以具有如下附加技术特征：

在上述任一技术方案中，进一步地，识别文本框的文本信息、文本位置信息和答题位置信息的步骤，具体包括：根据文本框分割题目图像，得到子图像；采用OCR模型识别子图像，得到文本信息、文本位置信息和答题位置信息。

在该技术方案中，在识别出题目图像中的文本框后，根据文本框分割题目图像，得到多个不同文本框的子图像，利用OCR(Optical Character Recognition，光学字符识别)模型对多个子图像进行识别，达到文本框的文本信息、文本位置信息和答题位置信息。从而通过分割题目图像，提高字符识别精度，缓解甚至避免将复杂纹理背景误识别为字符的问题。其中，答题位置信息包含有答题区域(括号、横线等)所在的第一文本框的坐标，文本位置信息包含有题干文本所在的第二文本框的坐标，以便于定位题干区域和答题区域。

具体地，文本框的坐标表示为[(x1，y1)，(x2，y2)]，其中(x1，y1)为从文本框左上角开始的坐标，(x1，y1)为从文本框右上角开始的坐标。

在上述技术方案中，进一步地，根据文本位置信息和答题位置信息，确定答案的查询位置信息的步骤，具体包括：根据文本位置信息和答题位置信息，确定答题位置信息对应的第一文本框和文本位置信息对应的第二文本框的第一垂直距离；基于第一垂直距离小于距离阈值，则关联第一文本框和第二文本框；比较相互关联的第一文本框的答题位置信息中水平坐标和第二文本框的文本位置信息中水平坐标之间的大小关系；根据大小关系和第二文本框，确定查询位置信息。

在该技术方案中，答题区域所在的文本框记作第一文本框，题干所在的文本框记作第二文本框，根据文本位置信息和答题位置信息中的坐标，计算第一文本框和第二文本框之间的第一垂直距离，也即第一文本框和第二文本框y轴坐标之间的差值，例如，第一文本框的y1和第二文本框y1的差值绝对值，若第一垂直距离小于距离阈值，说明第一文本框和第二文本框属于同一行，此时关联该第一文本框和第二文本框，从而通过关联关系确定靠近答题区域的题干，进而对题干文本进行筛选，简化用于查询答案的题目信息，优化答案查询方式。确认全部文本框的关联关系后，比较相互关联的第一文本框的答题位置信息中水平坐标和第二文本框的文本位置信息中水平坐标之间的大小关系，也即比较第一文本框和第二文本框x轴坐标的大小。若第一文本框的水平坐标小于第二文本框的水平坐标，说明答题区域位于题干区域的左侧，也即查询位置为题干的前一句，若第一文本框的水平坐标大于第二文本框的水平坐标，说明答题区域位于题干区域的右侧，也即查询位置为题干的后一句。从而通过相互关联的题干区域和答题区域的位置逻辑，准确定位答案查询位置，进而能够自动、快速生成复杂的诗词类、散文类等填空题的答案，减少用户的阅读成本，提升了答案生成效率和精准度，有效增强用户的使用体验度。其中，距离阈值可根据文本行的高度和行间距合理设置，通过同一文本框y1和y2的差计算得到文本框高度。

在上述任一技术方案中，进一步地，比较相互关联的第一文本框的答题位置信息中水平坐标和第二文本框的文本位置信息中水平坐标之间的大小关系的步骤之前，还包括：基于第一文本框和多个第二文本框关联，则根据文本位置信息和答题位置信息，确定相互关联的第一文本框和第二文本框的水平距离；根据水平距离筛选第二文本框。

在该技术方案中，第一文本框和多个第二文本框关联，说明在同一行存在多句题干文本，则计算相互关联的第一文本框和第二文本框的水平距离，也即第一文本框和第二文本框x轴坐标之间的差值，例如，第一文本框的x1和第二文本框x1的差值绝对值。并比较不同第二文本框与第一文本框的水平距离，选取最小的水平距离对应的第二文本框作为目标题干，从而通过水平距离筛选出距离答题区域最近的题干信息，保证检测全面性的基础上，减少题干文本中的冗余信息，以便于后续通过第一文本框和第二文本框确定答案查询位置，进一步提高答案生成效率和精准度。

在上述任一技术方案中，进一步地，识别文本框的文本信息、文本位置信息和答题位置信息的步骤之后，还包括：基于当前第二文本框的前一个文本框为第二文本框，则根据文本位置信息和答题位置信息，确定当前第二文本框和前一个第二文本框的第二垂直距离；基于第二垂直距离满足预设距离范围，则合并当前第二文本框和前一个第二文本框。

在该技术方案中，在识别出文本框的位置信息和文本信息后，若当前第二文本框的前一个文本框为第二文本框，且当前第二文本框和前一个第二文本框的第二垂直距离满足预设距离范围，说明当前第二文本框为所在行的首个第二文本框，且前一个第二文本框为该行的前一行末尾的第二文本框，也即当前第二文本框和前一个第二文本框可能为同一句，此时合并当前第二文本框和前一个第二文本框，从而保证题干文本的完整度，避免字符漏检影响答案查询结果，进而提高答案生成效率和精准度。

具体地，基于当前第一文本框的前一个文本框为第一文本框，可先查询前一个第一文本框的答案，在按照前一个第一文本框的答案查询当前第一文本框的答案。

在上述任一技术方案中，进一步地，文本信息包括：编号信息、文字信息和符号信息；识别文本框的文本信息、文本位置信息和答题位置信息的步骤之后，还包括：删除编号信息；和/或根据符号信息分割文本框。

在该技术方案中，文本信息包括：编号信息、文字信息和符号信息。在识别出文本框的文本信息后，删除其中的编号信息，以消除与题干无关的信息，从而提高答案查询位置的定位准确度，保证答案的精准度。另外，通过符号信息分割文本框，每句题干文本与文本框的一致性，进一步提高题干区域和答题区域的定位精度，同时，能够便于筛选贴近第一文本框的第二文本框，在提高答案查询效率的同时，避免答案漏检。

在上述任一技术方案中，进一步地，检测题目图像的文本框的步骤，具体包括：基于在数据库中未查询到答案，上传题目图像。

在该技术方案中，基于本地数据库，若存在未检索到的内容，则将题目图片反馈到服务器端，服务端通过版本迭代，逐步完善数据库，从而实现题目和答案的更新，保证产品的适用范围，提高实用性。

在上述任一技术方案中，进一步地，获取题目图像的步骤之后，还包括：对题目图像进行预处理；预处理包括以下至少一种：灰度处理、去噪处理、二值化处理、倾斜度矫正处理。

在该技术方案中，在获取题目图像之后，对题目图像进行预处理，其中预处理包括灰度处理、去噪处理、二值化处理、倾斜度矫正处理中的至少一种，从而对题目图像进行矫正、过滤，有效去除图像当中的干扰信息，以便于后续准确提取出有效信息，增强有效信息的可检测性并最大限度简化数据，提升后续匹配、识别的可靠性。

根据本发明的第二方面，提出了一种电子设备，包括摄像装置，摄像装置被配置为采集题目图像；存储器，存储器存储有计算机程序；处理器，与摄像装置和存储器连接，处理器执行计算机程序时执行第一方面提供的答案生成方法。因此该电子设备具备上述任一项的答案生成方法的全部有益效果。

具体地，电子设备包括但不限于以下至少一种：计算机、手机和平板电脑等。

根据本发明的第三方面，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时执行如第一方面提供的答案生成方法的步骤。因此该计算机可读存储介质具备第一方面提供的答案生成方法的全部有益效果。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明一个实施例的答案生成方法流程示意图；

图2示出了本发明又一个实施例的答案生成方法流程示意图；

图3示出了本发明又一个实施例的答案生成方法流程示意图；

图4示出了本发明又一个实施例的答案生成方法流程示意图；

图5示出了本发明又一个实施例的答案生成方法流程示意图；

图6示出了本发明一个具体实施例的答案生成方法流程示意图；

图7示出了本发明一个具体实施例的试题图像；

图8示出了本发明一个实施例的电子设备示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

下面参照图1至图8描述根据本发明一些实施例的答案生成方法、电子设备和计算机可读存储介质。

实施例1：

如图1所示，根据本发明第一方面的实施例，提出了一种答案生成方法，该方法包括：

步骤102，获取题目图像；

步骤104，检测题目图像的文本框；

步骤106，识别文本框的文本信息、文本位置信息和答题位置信息；

步骤108，根据文本位置信息和答题位置信息，确定答案的查询位置信息；

步骤110，根据查询位置信息和文本信息，在数据库中查询并输出答案。

其中，文本信息包括：编号信息、文字信息和符号信息。

在该实施例中，通过检测题目图像中的文本框确定题目图像中题目的位置，以便于精准识别题干的信息，避免字符漏检。同时识别文本框的文本信息、文本位置信息和答题位置信息，并根据文本位置信息和答题位置信息中的坐标确定答案的查询位置信息，也即确定出答题区域相对于题干区域的位置关系，根据查询位置信息和文本信息，在数据库中查询并输出对应的答案。从而实现了通过题干区域和答题区域的位置逻辑，准确定位答案查询位置，避免根据全部题干文字进行检索，简化用于查询答案的题目信息，优化答案查询方式，进而能够自动、快速生成复杂的诗词类、散文类等填空题的答案，减少用户的阅读成本，提升了答案生成效率和精准度，有效增强用户的使用体验度。

另外，识别文本框的文本信息、文本位置信息和答题位置信息的步骤之后，还包括：删除编号信息，和/或根据符号信息分割文本框。通过删除文本信息中的编号信息，消除与题干无关的信息，从而提高答案查询位置的定位准确度，保证答案的精准度。通过符号信息分割文本框，每句题干文本与文本框的一致性，提高题干区域和答题区域的定位精度，同时，能够便于筛选贴近第一文本框的第二文本框，在提高答案查询效率的同时，避免答案漏检。

实施例2：

如图2所示，根据本发明的一个实施例，提出了一种答案生成方法，该方法包括：

步骤202，获取题目图像；

步骤204，检测题目图像的文本框；

步骤206，根据文本框分割题目图像，得到子图像；

步骤208，采用OCR模型识别子图像，得到文本框的文本信息、文本位置信息和答题位置信息；

步骤210，根据文本位置信息和答题位置信息，确定答案的查询位置信息；

步骤212，根据查询位置信息和文本信息，在数据库中查询并输出答案。

在该实施例中，在识别出题目图像中的文本框后，根据文本框分割题目图像，得到多个不同文本框的子图像，利用OCR(Optical Character Recognition，光学字符识别)模型对多个子图像进行识别，达到文本框的文本信息、文本位置信息和答题位置信息。从而通过分割题目图像，提高字符识别精度，缓解甚至避免将复杂纹理背景误识别为字符的问题。其中，答题位置信息包含有答题区域(括号、横线等)所在的第一文本框的坐标，文本位置信息包含有题干文本所在的第二文本框的坐标，以便于定位题干区域和答题区域。

实施例3：

如图3所示，根据本发明的一个实施例，提出了一种答案生成方法，该方法包括：

步骤302，获取题目图像；

步骤304，检测题目图像的文本框；

步骤306，识别文本框的文本信息、文本位置信息和答题位置信息；

步骤308，根据文本位置信息和答题位置信息，确定答题位置信息对应的第一文本框和文本位置信息对应的第二文本框的第一垂直距离；

步骤310，第一垂直距离是否小于距离阈值，若是，进入步骤312，若否，进入步骤308；

步骤312，关联第一文本框和第二文本框；

步骤314，第一文本框是否和多个第二文本框关联，若是，进入步骤316，若否，进入步骤320；

步骤316，根据文本位置信息和答题位置信息，确定相互关联的第一文本框和第二文本框的水平距离；

步骤318，根据水平距离筛选第二文本框；

步骤320，比较相互关联的第一文本框的答题位置信息中水平坐标和第二文本框的文本位置信息中水平坐标之间的大小关系；

步骤322，根据大小关系和第二文本框，确定查询位置信息；

步骤324，根据查询位置信息和文本信息，在数据库中查询并输出答案。

在该实施例中，答题区域所在的文本框记作第一文本框，题干所在的文本框记作第二文本框，根据文本位置信息和答题位置信息中的坐标，计算第一文本框和第二文本框之间的第一垂直距离，也即第一文本框和第二文本框y轴坐标之间的差值，例如，第一文本框的y1和第二文本框y1的差值绝对值，若第一垂直距离小于距离阈值，说明第一文本框和第二文本框属于同一行，此时关联该第一文本框和第二文本框，从而通过关联关系确定靠近答题区域的题干，进而对题干文本进行筛选，简化用于查询答案的题目信息，优化答案查询方式。确认全部文本框的关联关系后，比较相互关联的第一文本框的答题位置信息中水平坐标和第二文本框的文本位置信息中水平坐标之间的大小关系，也即比较第一文本框和第二文本框x轴坐标的大小。若第一文本框的水平坐标小于第二文本框的水平坐标，说明答题区域位于题干区域的左侧，也即查询位置为题干的前一句，若第一文本框的水平坐标大于第二文本框的水平坐标，说明答题区域位于题干区域的右侧，也即查询位置为题干的后一句。

进一步地，第一文本框和多个第二文本框关联，说明在同一行存在多句题干文本，则计算相互关联的第一文本框和第二文本框的水平距离，也即第一文本框和第二文本框x轴坐标之间的差值，例如，第一文本框的x1和第二文本框x1的差值绝对值。并比较不同第二文本框与第一文本框的水平距离，选取最小的水平距离对应的第二文本框作为目标题干，以在保证检测全面性的基础上，减少题干文本中的冗余信息。

从而通过相互关联的题干区域和答题区域的位置逻辑，准确定位答案查询位置，进而能够自动、快速生成复杂的诗词类、散文类等填空题的答案，减少用户的阅读成本，提升了答案生成效率和精准度，有效增强用户的使用体验度。其中，距离阈值可根据文本行的高度和行间距合理设置，通过同一文本框y1和y2的差计算得到文本框高度。

实施例4：

如图4所示，根据本发明的一个实施例，提出了一种答案生成方法，该方法包括：

步骤402，获取题目图像；

步骤404，检测题目图像的文本框；

步骤406，识别文本框的文本信息、文本位置信息和答题位置信息；

步骤408，当前第二文本框的前一个文本框是否为第二文本框，若是，进入步骤410，若否，进入步骤416；

步骤410，根据文本位置信息和答题位置信息，确定当前第二文本框和前一个第二文本框的第二垂直距离；

步骤412，第二垂直距离是否满足预设距离范围，若是，进入步骤414，若否，进入步骤416；

步骤414，合并当前第二文本框和前一个第二文本框；

步骤416，根据文本位置信息和答题位置信息，确定第一文本框和第二文本框的第一垂直距离；

步骤418，第一垂直距离是否小于距离阈值，若是，进入步骤420，若否，进入步骤416；

步骤420，比较相互关联的第一文本框的答题位置信息中水平坐标和第二文本框的文本位置信息中水平坐标之间的大小关系；

步骤422，根据大小关系和第二文本框，确定查询位置信息；

步骤424，根据查询位置信息和文本信息，在数据库中查询并输出答案。

在该实施例中，在识别出文本框的位置信息和文本信息后，若当前第二文本框的前一个文本框为第二文本框，且当前第二文本框和前一个第二文本框的第二垂直距离满足预设距离范围，说明当前第二文本框为所在行的首个第二文本框，且前一个第二文本框为该行的前一行末尾的第二文本框，也即当前第二文本框和前一个第二文本框可能为同一句，此时合并当前第二文本框和前一个第二文本框，从而保证题干文本的完整度，避免字符漏检影响答案查询结果，进而提高答案生成效率和精准度。其中，距离阈值和预设距离范围可根据文本行的高度和行间距合理设置，通过同一文本框y1和y2的差计算得到文本框高度。

实施例5：

如图5所示，根据本发明的一个实施例，提出了一种答案生成方法，该方法包括：

步骤502，获取题目图像，并对题目图像进行预处理；

步骤504，检测题目图像的文本框；

步骤506，识别文本框的文本信息、文本位置信息和答题位置信息；

步骤508，根据文本位置信息和答题位置信息，确定答案的查询位置信息；

步骤510，根据查询位置信息和文本信息，在本地数据库中查询并输出答案。

在该实施例中，在获取题目图像之后，对题目图像进行预处理，其中预处理包括灰度处理、去噪处理、二值化处理、倾斜度矫正处理中的至少一种，从而对题目图像进行矫正、过滤，有效去除图像当中的干扰信息，以便于后续准确提取出有效信息，增强有效信息的可检测性并最大限度简化数据，提升后续匹配、识别的可靠性。其中，二值化处理的步骤包括：确定灰度处理后图像的像素点的灰度值，若灰度值小于或等于二值化阈值，灰度值设置为0，若灰度值大于二值化阈值，灰度值设置为255。

进一步地，若存在未检索到的内容，则将题目图片反馈到服务器端，服务端通过版本迭代，逐步完善数据库，从而实现题目和答案的更新，保证产品的适用范围，提高实用性。

实施例6：

如图6所示，根据本发明的一个具体实施例，提出了一种答案生成方法，该方法包括：

步骤602，拍摄题目图片；

步骤604，图片校正；

步骤606，文本行检测；

步骤608，OCR识别图片内的答案；

步骤610，判断需求的答案；

步骤612，检索需求的答案；

步骤614，输出答案。

在该实施例中，首先构建诗词库，收录所有的古诗词，以字典的形式保存，每一个键对应的值是一个列表，列表有2个元素，分别为key内容的上一句,通过构建是诗词库来直接给出答案，不需要连接互联网。使用手机或者平板电脑对目标题目进行拍摄，在拍摄的时候尽可能只包含题目，排除其他的不相关的文字和符号。在拍摄完题目图片后，输入到图片的预处理程序中，进行图片矫正，图片矫正主要是倾斜度矫正。题目图片校正完之后，送入CTPN模型中，进行文本行检测，输出文本行的矩形框。根据矩形框裁剪子图，将子图送入OCR模型中，进行图片内容识别，识别出文本中的填空(横线、括号等)答题区域的位置，同时识别出题目图片中的文字。文字和符号都带有坐标信息。然后判断需求的答案，首先，调整文本内容，然后根据文本内容和符号的位置，进行判断。根据符号(横线、括号)和文本元素的位置来判断需求答案。例如，横线的X坐标位于文本行“疑是地上霜”X左边，且两者Y坐标的差距在一个字符的像素值内(根据文本框高度计算)，则认定为需求答案是“疑似地上霜”的上句。以此规则来处理需求答案的认定，包括连句式的填空。假如判定为上句，则检索的依据为“疑似地上霜”:0，如果是下句，则检索的依据为“疑似地上霜”:1。从而通过文本行检测和OCR识别结果的位置来判定需求答案，使用规则来精确需求答案。比如：{“举头望明月”：[“疑是地上霜”，“低头思故乡”]}。在判段需求的答案和检索需求的答案后，输出答案的句子。

具体地，如图7所示，OCR识别图片内容如下：

[['1.在下列横线上填写出相应的句子。(每空1分，共6分)','text'],

['(1)落红不是无情物，','text'],

['__________。','line'],

['(龚自珍《己亥杂诗》)','text'],

['(2)__________，','line'],

['拄杖无时夜叩门。','text'],

['(陆游《游山西村》)','text'],

['(3)我国古散文中，','text'],

['有许多描写景物的诗句。','text'],

['陶渊明用“夹岸数百步，中无杂树，”','text'],

['__________，','line'],

['__________','line'],

['”描写出推花林之景；柳宗元用“潭中鱼可','text'],

['百许头，','text'],

['__________，','line'],

['日光下澈，','text'],

['__________”','line'],

['描写出小石','text'],

['谭之景……当阅读这些句子的时候，我们眼前放佛出现了一幅幅美丽的图画。','text']]

OCR识别坐标内容如下：

[[[(5,1),(447,16)],'text'],

[[(27,25),(196,48)],'text'],

[[(204,25),(420,48)],line],

[[(451,22),(616,42)],'text'],

[[(28,51),(281,74)],'line'],

[[(290,51),(420,74)],'text'],

[[(452,51),(618,68)],'text'],

[[(29,80),(201,102)],'text'],

[[(209,78),(396,100)],'text'],

[[(404,76),(682,98)],'text'],

[[(64,106),(225,129)],'line'],

[[(230,105),(374,128)],'line'],

[[(379,104),(686,123)],'text'],

[[(68,134),(128,154)],'text'],

[[(134,135),(364,154)],'line'],

[[(371,132),(445,154)],'text'],

[[(452,131),(592,152)],'line'],

[[(68,135),(686,147)],'text'],

[[(63,107),(641,176)],'text']]

其中，框的排列顺序是从上到下，从左到右，按行排列。可以发现，line出现了6处。将标签为line的称为line框(横线框)，将line框周围的框称为对应框。根据坐标找出与line同行的文本框，那么[[(204,25),(420,48)],line]对应于[[(27,25),(196,48)],'text']和[[(451,22),(616,42)],'text']，[[(28,51),(281,74)],'line']对应于[[(290,51),(420,74)],'text']，[[(64,106),(225,129)],'line']和[[(230,105),(374,128)],'line']。

若出现两个连续的line框，只需要找第一个横线框的上一个框和第二横线框的下一个框即可，例如，[[(404,76),(682,98)],'text']和[[(379,104),(686,123)],'text']，[[(134,135),(364,154)],'line']对应的框是[[(68,134),(128,154)],'text']和[[(371,132),(445,154)],'text']，[[(452,131),(592,152)],'line']对应的框是[[(371,132),(445,154)],'text']和[[(68,135),(686,147)],'text']。

若line框拥有2个对应框的，取第一个框为检索内容，只有一个对应框的，则取仅有的框为检索内容。

若为连续的line框，将各自贴近的对应框作为检索内容。若无贴近框，则等邻接框第一轮检索完答案后，将检索出的答案作为无对应line框的对应框。

进一步地，在送入检索程序之前，会对文本行进行以下规则处理：

(1)数值删除；

(2)标点符号进行文本行分割(取贴近line框的元素进行检索)；

(3)合并文本框，假如下一行第一个元素为文本框，且上一行的最后一个元素为文本框，那么这两个文本框进行合并，然后然根据标点符号进行分割，同样取贴近line框的文本框内容进行检索。

最终，然后送入程序进行检索。例如：{“落红不是无情物”:1,“拄杖无时夜叩门”:0,“潭中鱼可百许头”:1,…}。然后检索出的答案有[“化作春泥更护花”，“从今若许闲乘月”,“芳草鲜美”，“落英缤纷”，“皆若空游无所依”，“影布石上”]。若存在未检索到的内容，则将图片反馈到服务器端，服务端通过版本迭代，逐步完善。

实施例7：

如图8所示，根据本发明第二方面的实施例，提出了一种电子设备800，包括摄像装置802，摄像装置802被配置为采集题目图像；存储器804，存储器804存储有计算机程序；处理器806，与摄像装置802和存储器804连接，处理器806执行计算机程序时执行第一方面提供的答案生成方法。因此该电子设备具备上述任一项的答案生成方法的全部有益效果。

实施例8：

根据本发明第三方面的实施例，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时执行如上述第一方面实施例的答案生成方法的步骤。因此该计算机可读存储介质具备上述第一方面实施例的答案生成方法的全部有益效果。

在本说明书的描述中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性，除非另有明确的规定和限定；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种答案生成方法，其特征在于，包括：

获取题目图像；

检测所述题目图像的文本框；

识别所述文本框的文本信息、文本位置信息和答题位置信息；

根据所述文本位置信息和所述答题位置信息，确定所述答案的查询位置信息；

根据所述查询位置信息和所述文本信息，在数据库中查询并输出所述答案。

2.根据权利要求1所述的答案生成方法，其特征在于，所述识别所述文本框的文本信息、文本位置信息和答题位置信息的步骤，具体包括：

根据所述文本框分割所述题目图像，得到子图像；

采用OCR模型识别所述子图像，得到所述文本信息、所述文本位置信息和所述答题位置信息。

3.根据权利要求1所述的答案生成方法，其特征在于，所述根据所述文本位置信息和所述答题位置信息，确定所述答案的查询位置信息的步骤，具体包括：

根据所述文本位置信息和所述答题位置信息，确定所述答题位置信息对应的第一文本框和所述文本位置信息对应的第二文本框的第一垂直距离；

基于所述第一垂直距离小于距离阈值，则关联所述第一文本框和所述第二文本框；

比较相互关联的所述第一文本框的所述答题位置信息中水平坐标和所述第二文本框的所述文本位置信息中水平坐标之间的大小关系；

根据所述大小关系和所述第二文本框，确定所述查询位置信息。

4.根据权利要求3所述的答案生成方法，其特征在于，所述比较相互关联的所述第一文本框的所述答题位置信息中水平坐标和所述第二文本框的所述文本位置信息中水平坐标之间的大小关系的步骤之前，还包括：

基于所述第一文本框和多个所述第二文本框关联，则根据所述文本位置信息和所述答题位置信息，确定相互关联的所述第一文本框和所述第二文本框的水平距离；

根据所述水平距离筛选所述第二文本框。

5.根据权利要求3所述的答案生成方法，其特征在于，所述识别所述文本框的文本信息、文本位置信息和答题位置信息的步骤之后，还包括：

基于当前第一文本框的前一个所述文本框为所述第一文本框，则根据所述文本位置信息和所述答题位置信息，确定所述当前第一文本框和前一个第一文本框的第二垂直距离；

基于所述第二垂直距离满足预设距离范围，则合并所述当前第一文本框和所述前一个第一文本框。

6.根据权利要求1所述的答案生成方法，其特征在于，所述文本信息包括：编号信息、文字信息和符号信息；所述识别所述文本框的文本信息、文本位置信息和答题位置信息的步骤之后，还包括：

删除所述编号信息；和/或

根据所述符号信息分割所述文本框。

7.根据权利要求1至6中任一项所述的答案生成方法，其特征在于，还包括：

基于在数据库中未查询到所述答案，上传所述题目图像。

8.根据权利要求1至6中任一项所述的答案生成方法，其特征在于，所述获取题目图像的步骤之后，还包括：

对所述题目图像进行预处理；

所述预处理包括以下至少一种：灰度处理、去噪处理、二值化处理、倾斜度矫正处理。

9.一种电子设备，其特征在于，包括：

摄像装置，所述摄像装置被配置为采集题目图像；

存储器，所述存储器存储有计算机程序；

处理器，与所述摄像装置和所述存储器连接，所述处理器执行所述计算机程序时执行如权利要求1至8中任一项所述的答案生成方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时执行了如权利要求1至8中任一项所述的答案的生成方法的步骤。