CN111507330A

CN111507330A - 习题识别方法、装置、电子设备及存储介质

Info

Publication number: CN111507330A
Application number: CN202010294830.5A
Authority: CN
Inventors: 郑岩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-07
Anticipated expiration: 2040-04-15
Also published as: CN111507330B

Abstract

本申请公开了一种习题识别方法、装置、电子设备及存储介质，涉及计算机技术领域。其中，该方法包括：获取习题图像及习题图像关联的指示动作，指示动作用于指示习题图像中的目标点，习题图像包括至少一个习题的题目信息；识别习题图像中习题的题目信息的位置；从习题图像中，确定题目信息的位置与目标点的位置相对应的习题作为目标习题；显示目标习题的题目信息。如此，只需用户进行简单的指示动作，即可从习题图像中确定用户需要的习题的题目信息。

Description

习题识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种习题识别方法、装置、电子设备及存储介质。

背景技术

一些场景中，电子教育产品需要获取习题的题目信息，而该习题无法直接被复制。一些方式中，用户可以在电子教育产品上手动输入习题的题目信息。另一些方式中，电子教育产品可以通过图像采集的方式获得习题图像，在此方式中，为了使采集的习题图像只包含习题的题目信息，以便电子教育产品识别，通常需要用户配合进行繁琐的操作。

发明内容

本申请提出了一种习题识别方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种习题识别方法，包括：获取习题图像及习题图像关联的指示动作，该指示动作用于指示习题图像中的目标点，该习题图像包括至少一个习题的题目信息；识别习题图像中习题的题目信息的位置；从习题图像中，确定题目信息的位置与目标点的位置相对应的习题，作为目标习题；显示目标习题的题目信息。

第二方面，本申请实施例提供了习题识别装置，包括：获取模块、识别模块和显示模块。其中，获取模块用于获取习题图像及习题图像关联的指示动作，该指示动作用于指示习题图像中的目标点，该习题图像包括至少一个习题的题目信息。识别模块用于识别习题图像中习题的题目信息的位置，并从习题图像中确定题目信息的位置与目标点的位置相对应的习题作为目标习题。显示模块用于显示目标习题的题目信息。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有程序代码，该程序代码可被处理器调用执行上述的方法。

本申请提供的方案，获取包括至少一个习题的习题图像，以及该习题图像关联的指示动作，指示动作用于指示习题图像中的目标点。识别习题图像中习题的题目信息的位置，从习题图像中确定题目信息所处位置与该目标点的位置相对应的习题作为目标习题，并显示目标习题的题目信息。如此，只需用户对所需的习题进行简单的指示动作，即可从习题图像中确定用户需要的习题，并获取该习题的题目信息，简化了操作方式，改善了用户体验，可以有效提升用户粘性。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了根据本申请一个实施例的习题识别方法流程图。

图3是本申请实施例提供的一个习题图像中习题的相关信息的示意图。

图4是图2所示步骤S202的一种子步骤示意图。

图5A是本申请实施例的一个例子中的指示动作获取方式示意图。

图5B是本申请实施例的另一个例子中的指示动作获取方式示意图。

图5C是本申请实施例的又一个例子中的指示动作获取方式示意图。

图5D是基于图5A-图5C所示例子显示的目标习题的题目信息示意图。

图6是图2所示步骤S202的另一种子步骤示意图。

图7是根据本申请另一个实施例的习题识别方法流程图。

图8是根据本申请又一个实施例的习题识别方法流程图。

图9A是本申请实施例的又一个例子中的习题图像示意图。

图9B是图9A所示习题图像中习题的层级关系示意图。

图10是图2所示的步骤S203的子步骤示意图。

图11是本申请实施例提供的一种获取习题层级关系的流程图。

图12是图11所示步骤S1101的子步骤示意图。

图13A是本申请实施例提供的一种CTPN模型的架构示意图。

图13B是本申请实施例提供的一种全连接层与文本候选框的对应关系示意图。

图14是本申请实施例提供的一种CRNN模型的架构示意图。

图15是图11所示步骤S1102的一种子步骤示意图。

图16A是基于图9A所示习题图像建立的坐标系示意图。

图16B是基于另一习题图像建立的坐标系示意图。

图17是图11所示步骤S1102的另一种子步骤示意图。

图18是图11所示步骤S1103的一种子步骤示意图。

图19是图11所示步骤S1103的另一种子步骤示意图。

图20A是处于倾斜状态的习题图像中文本行的边界示意图。

图20B是经过旋转矫正的习题图像中文本行的边界示意图。

图21是图11所示步骤S1103的又一种子步骤示意图。

图22是本申请实施例提供的一个习题图像中的图例示意图。

图23是图2所示实施例中习题识别方法的另一流程图。

图24是本申请实施例提供的一种习题识别装置的框图。

图25是是本申请实施例的用于执行根据本申请实施例的习题识别方法的电子设备的框图。

图26是本申请实施例的用于保存或者携带实现根据本申请实施例的习题识别方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实际应用中，电子教育产品(如，一些教育类的应用平台或其他具有教育功能的软件产品)在实现某些功能时需要获取习题的题目信息，而这些题目信息可能难以直接进行复制。比如，一些场景中，用户需要通过电子教育产品搜索纸质媒介上的特定习题的参考答案，此时，电子教育产品需要获取该纸质媒介上的习题的题目信息。另一些场景中，用户需要对纸质媒介上的某些习题打印出来，比如，需要将练习册上的错题单独打印出来，此时，电子教育产品需要获取练习册上的错题的题目信息。

可以理解，习题是指一门课程或一部教材为学生或读者提供的，可供练习和实践的问题。本申请实施例中，习题也可以理解成练习题、试题等。上述的纸质媒介可以是任意能用于记载习题的纸质材料，比如纸质试卷、练习册、作业簿、教科书等。当然，上述的无法直接进行复制的习题除了可以是记载于纸质媒介的习题之外，还可以是电子设备显示的习题。本申请实施例对此没有限制。

一些实施方式中，用户需要在图像采集过程中调整采集角度或是对采集到的图像进行处理，以使获得的习题图像只包括自己需要的特定习题的题目信息，以便后续可以从习题图像中准确地提取该特定习题的题目信息，并基于提取的题目信息进行后续处理，如显示、打印、搜索等。但是，这种方式所需的操作繁琐，非常不便。

发明人经过长期的研究，提出一种习题识别方法、装置、电子设备及存储介质，可以简化习题题目信息获取过程中需要用户进行的操作。下面将对该内容进行详细描述。

请参照图1，图1为适用于本申请实施例的应用环境示意图。其中，服务器100可以通过网络与终端设备200通信连接，终端设备200中运行有客户端210，终端设备200可以通过客户端210登录服务器100，通过与服务器100配合为用户提供相应的服务。

其中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算、大数据和人工智能平台等基础云计算服务的云服务器。终端设备200可以是，但不限于，智能手机、平板电脑、笔记本电脑、个人计算机(Personal Computer，PC)、便携式穿戴设备等。客户端210可以是任意支持习题搜索功能的应用程序。例如，可以为页面浏览平台、教育类应用平台等。

本申请实施例提供的习题识别方法及装置应用于电子设备，电子设备可以是图1所示的服务器100或者终端设备200。其中，当电子设备是终端设备200时，习题识别方法可以由终端设备200中的客户端210执行。

请参照图2，图2为本申请一实施例提供的一种习题识别方法，该方法应用于电子设备，本实施例以电子设备是终端设备200为例，对该方法的步骤进行描述。

S201，获取习题图像及所述习题图像关联的指示动作，所述指示动作用于指示所述习题图像中的目标点，所述习题图像包括至少一个习题的题目信息。

本实施例中，习题图像可以有多种类型。一种实施方式中，习题图像可以是通过图像采集器件拍摄的图片。示例性地，终端设备200的客户端210可以提供一题目信息获取界面，该界面例如可以设置有用于获取习题的选项标签。客户端210可以在检测到用户对该选项标签的点击或选中操作时，开启图像采集器件，以对特定的习题进行拍摄，从而得到习题图像。其中，图像采集器件例如可以是终端设备200的内置或外置摄像头。

另一种实施方式中，习题图像可以是视频流中的一个图像帧。例如，习题讲解视频等教学视频中，存在一个或多个包含习题的视频帧，则该包含习题的视频帧可以理解成本实施例中的习题图像。

再一种实施方式中，习题图像可以是一个图像组中的图像。所述图像组例如可以是演示文稿(PowerPoint，PPT)文件。演示文稿问句中演示页面可以包括习题的题目信息，则该演示页面可以理解成本实施例中的习题图像。

通过上述方式获得的习题图像中可以包含至少一个习题，所述至少一个习题中存在用户需要的目标习题。每个习题可以具有题目信息，及对应的答题区域。其中，题目信息例如可以包括题号以及题干信息，题干信息是用于限定习题的解题条件和需要解答的问题的信息。一些情况下，如果习题是选择题，则题目信息还可以包含选项信息。答题区域可供用户填写答案信息。比如，图3所示的例子中，区域R1和R3内的内容是题目信息，区域R2和R4则为答题区域。可以理解，习题图像中，每个习题的答题区域可以填写有答题信息，比如区域R2；也可以没有填写答题信息，即答题区域是空白的，比如区域R4。本实施例对此没有限制。

本实施例中，习题图像关联的指示动作可以是用于对习题图像中、用户需要获取的习题的题目信息进行指示的动作，该指示动作可以与习题图像中的一个位置点对应，该位置点即为S201中的目标点。示例性地，目标点的位置可以是目标点在基于习题图像建立的坐标系中的坐标信息。

本实施例中，指示动作的获取方式可以有多种。一个例子中，可以通过图4所示的流程获取，对应地，S201可以包括如下步骤。

S201-1，显示习题图像。

S201-2，若检测到针对习题图像的点击操作，则将点击操作确定为指示动作，其中，指示动作指示的目标点的位置为点击操作的点击坐标。

一种可选的方式中，客户端210在通过终端设备200的图像采集器件采集到习题图像之后，可以向用户显示采集的习题图像。

实施过程中，用户可以根据其需要获取的习题的题目信息的位置，对终端设备200的显示屏所显示的习题图像上的该习题进行点击操作。

以图3所示的习题图像为例，如果用户需要获取的是该习题图像中的题号为3的习题的题目信息，则可以通过图5A所示的方式对题号为3的习题的题目信息的目标位置(如，边缘处、题目信息所在位置、习题的答题区域所在位置等)进行点击。对应地，客户端210可以获取到用户的手指在终端设备200显示屏的点击位置P1，并可以获取点击位置P1在习题图像中的坐标(即，点击坐标)作为目标点的位置。

可选地，用户还可以通过鼠标、触控笔等其他操作器件实现点击操作。本实施例对此没有限制。比如图5B所示，用户可以通过鼠标对光标进行控制，以将光标移动至点P2后，进行点击操作。此时，客户端210可以获取到鼠标的点击位置P2，并可以获取点击位置P2在终端设备200显示的习题图像上的坐标(即，点击坐标)作为目标点的位置。

另一种可选的方式中，客户端210可以对用户选择的视频文件或演示文稿文件进行播放。或者，客户端210在处于开启状态时，可以检测到终端设备200中的其他应用是否正在播放视频文件或演示文稿文件。以演示文稿文件为例，其中存在包括习题的演示页面，当终端设备200停留在某一包含习题的演示页面上时，如果检测到用户对演示页面的点击操作，则可以将该点击操作确定为指示动作，并将该点击操作在演示页面上的坐标作为目标点的位置。

在获取指示动作的另一个例子中，用户可以用指示物体(如，手、笔)等来指向被拍摄习题中的目标习题的题目信息，然后再拍摄习题的题目信息。例如图5C所示，为用户通过手指指向作业簿上需要获取的习题3的情况下，客户端210获取到的习题图像。如此，获取的习题图像将包含有指示物体。对应地，客户端210可以根据习题图像中是否存在指示物体来检测指示动作。在此情况下，S201可以包括图6所示的步骤。

S201-3，识别习题图像中是否存在指示物体。

S201-4，若是，则生成指示动作，所述指示动作指示的目标点的位置为指示物体在习题图像中的位置。

其中，生成的指示动作可以是包含目标点的位置的动作指令，该动作指令例如可以用于触发客户端210按照该动作指令中目标点的位置来进行目标习题的确定。

本实施例中，客户端210可以通过任意目标识别模型来检测习题图像中是否包含指示物体，并在习题图像包含指示物体时，获取该指示物体在习题图像中的位置信息。

本实施例中，目标识别模型确定习题图像是否包含指示物体的方式可以有多种。一个例子中，目标检测模型可以通过模板匹配的方式来识别指示物体。比如，客户端210可以访问存储有指示物体的特征信息的数据库，并从习题图像中提取图像特征，检测提取的图像特征是否与存储的任一指示物体的特征信息匹配。若是，则确定习题图像包含指示物体。

另一个例子中，目标检测模型则可以为具有目标识别功能的机器学习模型，例如可以为R-CNN(Regions with Convolutional Neural Networks，区域卷积神经网络)模型、Faster-RCNN(快速区域卷积神经网络)等。本实施例对此不作限定。

实际应用中，指示物体在习题图像中通常占据了一定区域。实施过程中，可以根据指示物体在习题图像中的位置信息确定指示物体在习题图像中占据的区域，例如，可以是指示物体的边界围成的区域。然后，客户端210可以识别指示物体的特定位置，再将该特定位置在基于习题图像建立的坐标系中的坐标信息确定为目标点的位置。示例性地，特定位置可以预先配置，比如，如果指示物体是手指，则特定位置可以是手指指尖；如果指示物体是笔，则特定位置可以是笔尖。

S202，识别习题图像中习题的题目信息的位置。

本实施例中，客户端210在获取到习题图像后，可以从习题图像中识别出每个习题的题目信息及该题目信息所处的位置，并将题目信息及题目信息的位置存储于终端设备200或是服务器100中。示例性地，题目信息通常位于一个矩形框中，比如上述的图3所示的区域R1和区域R3。对应地，题目信息的位置例如可以采用题目信息所在矩形区域的四个顶点的位置信息(如，坐标信息)表示。

S203，从习题图像中，确定题目信息的位置与目标点的位置相对应的习题，作为目标习题。

实施过程中，当获得指示动作所指示的目标点的位置后，客户端210可以将目标点的位置与习题图像中每个习题的题目信息的位置进行对比，判断目标点的位置与该习题的题目信息的位置是否符合目标条件。如果符合，则将该习题确定为与目标点的位置对应的习题，即目标习题。

其中，目标条件可以灵活配置，比如可以依据统计数据或经验设置。一个例子中，客户端210可以根据习题的题目信息的位置确定一矩形区域，当目标点位于该矩形区域内时，可以确定目标点的位置与该习题的题目信息的位置符合目标条件。另一个例子中，客户端210可以根据习题的题目信息的位置确定一矩形边界，当目标点的位置与该矩形边界的间距小于设置的目标间距时，可以确定目标点的位置与该习题的题目信息的位置符合目标条件。可以理解，前述的目标条件仅为举例说明，并非用于限定本申请。

S204，显示所述目标习题的题目信息。

实施过程中，当客户端210确定目标习题之后，从终端设备200或是服务器100中获取目标习题的题目信息，并对获取的题目信息进行显示。示例性地，假设获取的习题图像为图5A-图5C中的任意一者，则通过S204显示的题目信息可以为图5D所示的题目信息。

通过本实施例提供的习题识别方法，客户端可以根据用户通过简单的指示动作提供的目标点的位置，来从习题图像中确定用户需要的习题的题目信息，简化了用户需要执行的操作，可以有效改善用户体验，提升用户粘性。

进一步地，在确定目标习题的题目信息之后，客户端210还可以根据用户操作对目标习题的题目信息进行后续处理。示例性地，用户可以在客户端210的显示界面上点击与不同操作对应的选项标签，例如，可以点击与打印操作对应的选项标签，则客户端210可以通过终端设备200连接的打印设备，对目标习题的题目信息进行打印。

又如，用户可以点击与搜索操作对应的选项标签，则客户端210可以向服务器100发送搜索请求，该搜索请求可以包括目标习题的题目信息，则服务器100可以基于该题目信息从题库中搜索目标习题的参考答案，并返回给客户端210。客户端210可以对接收的参考答案进行显示。

在本申请的另一实施例中，电子设备例如可以是图1所示的服务器100，上述的习题识别方法可以应用于服务器100中。请参照图7，图7示出了服务器100在实现该习题识别方法的过程中与客户端200的一种交互流程。

S701，客户端210获取习题图像，习题图像包括至少一个习题的题目信息。

这里的习题图像可以是通过终端设备200的图像采集器拍摄的静态图像，也可以是某一视频流或图像组中的图像。本实施例中，S701的实现过程与S201类似，在此不再赘述。

S702，客户端210显示习题图像，并在检测到针对所述习题图像的点击操作时，将点击操作确定为指示动作，指示动作所指示的目标点的位置是点击操作的点击坐标。

其中，S702的详细实现过程与图4所示的S201-1至S201-2类似，在此不再赘述。

S703，客户端210向服务器100发送习题图像和目标点的位置。

其中，客户端210在获得习题图像及用户在习题图像中点击的位置(目标点的位置)后，可以生成一请求信息，该请求信息包括习题图像和目标点的位置，并将请求信息发送给服务器100。

S704，服务器100识别习题图像中习题的题目信息的位置。

S705，服务器100从习题图像中，确定题目信息的位置与目标点的位置相对应的习题，作为目标习题。

其中，服务器100在接收到请求信息时，可以从请求信息中提取习题图像和目标点的位置，再基于提取的习题图像和目标点的位置执行S704。其中，S704的详细执行流程与S202至S203类似，在此不再赘述。

S706，服务器100向客户端210发送目标习题的题目信息。

S707，客户端210显示目标习题的题目信息。

服务器100在通过S705得到目标习题的题目信息后，可以将目标习题的题目信息返回给客户端210显示。

请参照图8，其中示出了服务器100在实现上述习题识别方法的过程中与客户端210的另一种交互流程。详细描述如下。

S801，客户端210获取习题图像，习题图像包括至少一个习题的题目信息。

其中，客户端210获取习题图像的过程可以参照本文对图5C及图6所示的S201-3至S201-4的描述，在此不再赘述。

S802，客户端210向服务器100发送习题图像。

实施过程中，客户端210可以在获得习题图像后，检测用户是否进行点击操作。若在目标时长后没有检测到点击操作，则可以生成包含习题图像的请求信息，并将该请求信息发送给服务器100。其中，目标时长可以灵活设置，例如可以是1-5秒，比如3秒。

S803，服务器100识别习题图像中是否存在指示物体，若是，则生成指示动作，指示动作指示的目标点的位置是指示物体在习题图像中的位置。

其中，服务器100在接收到请求信息时，可以确定请求信息包括习题图像且不包括目标点的位置，则可以从请求信息中提取习题图像，并对提取的习题图像执行S803。其中，S803的详细实现过程与上述的S201-3和S201-4类似，在此不再赘述。

S804，服务器100识别习题图像中习题的题目信息的位置。

S805，服务器100从习题图像中，确定题目信息的位置与目标点的位置相对应的习题，作为目标习题。

其中，S804-S805的详细实现流程与上述的S202-S203类似，在此不再赘述。

S806，服务器100向客户端210发送目标习题的题目信息。

S807，客户端210显示目标习题的题目信息。

服务器100在通过S805得到目标习题的题目信息后，可以将目标习题的题目信息返回给客户端210显示。

通过图7或图8所示的习题识别方法，可以基于用户通过简单的指示动作提供的目标点的位置，从习题图像中确定用户需要的目标习题的题目信息。

请再次参照图2，下面将对图2所示的步骤做进一步的详细阐述。

在S202中，客户端210可以获取到习题图像中的习题之间的层级关系，换言之，通过S202确定的是习题图像中每个层级的习题的题目信息的位置。

其中，层级关系可以是习题图像中的习题之间的树形结构关系，可以包括至少一个根层级习题，根层级习题可以理解成位于树形结构的根节点(node)的习题。每个根层级习题可以具有一个或多个子孙层级习题，子孙层级习题可以理解成位于根节点的子孙节点上的习题。其中，根节点的子树上的节点均可以视为根节点的子孙节点。

进一步地，子孙层级习题又可以根据包含关系区分为父层级习题和子层级习题。其中，父层级习题可以视为处于父节点上的习题，子层级习题可以视为处于子节点上的习题。父层级习题可以包含其子层级习题，根层级习题可以包含其子孙层级习题。

示例性地，请同时参照图9A和图9B，图9A示出了一个习题图像，其中包含3个习题分别为习题一、习题1、习题2和习题二，其中，“一”、“1”、“2”和“二”是指习题的题号。对应地，习题一、习题1、习题2和习题二的层级关系可以如图9B所示，其中，习题一和习题二均可以是根层级习题，习题一作为根层级习题，包括子层级习题1和2。同时，习题1和2也可以称为习题一的子孙层级习题，对应地，如果习题1和2还具有子层级习题，则习题1和2的子层级习题也可以称为习题一的子孙层级习题。习题二作为根层级习题，不包含子孙层级习题。

基于上述的层级关系，可以确定不同层级的习题的题目信息，进而可以确定每个层级的习题的题目信息的位置。在此情况下，S203中，目标点的位置所对应的目标习题可以通过图10所示的流程确定。详细描述如下。

S203-1，从习题图像中确定题目信息的位置与目标点的位置相对应的各层级的习题。

请再次参照图9A所示的习题图像，从该习题图像可以识别出根层级习题一和二，根层级习题一的子孙层级习题1和2，根层级习题二的子孙层级习题1。本实施例中，每个习题的题目信息可以分为一个或多个第一文本行，对应地，每个习题的题目信息的位置可以由该习题的题目信息所在的各第一文本行的位置来界定。其中，每个第一文本行的位置可以是该第一文本行所在的矩形区域的顶点的位置。

实施过程中，当目标点位于某个习题的题目信息所在的任一第一文本行的矩形区域内，则可以确定该习题的题目信息的位置与目标点的位置对应。进一步地，由于父层级习题通常是包含子层级习题的题，因此，当一个习题的题目信息的位置与目标点的位置对应时，该习题的所有父层级习题也可以被确定为与目标点的位置对应。比如，当目标点位于图9A所示的第一文本行L3所在区域时，可以确定与目标点的位置所对应的各层级习题包括：习题一和习题1。

S203-2，识别所述各层级的习题中最高层级习题的习题类型。

其中，最高层级习题是指所述各层级的习题中位于根节点上的习题，即，根层级习题。习题类型可以通过文本识别模型来识别，例如可以是FastText(快速文本)模型、Fast-CRNN(Fast-Convolutional Recurrent Neural Networks，快速卷积循环神经网络)模型等。本实施例对此没有限制

S203-3，根据所述习题类型，从所述各层级的习题中，确定与习题类型对应的层级的习题作为目标习题。

本实施例中，习题类型不同，不同层级的习题之间的关系也有所不同。比如，习题类型是填空题和选择题时，每个单独的小题都是一个独立的题，通常基于一个单独的小题可以单独求解，在此情形下，用户需要获取的通常是最低层级的习题，对应地，可以从目标点的位置所对应的各层级的习题中获取最低层级的习题作为目标习题。

又比如，当习题类型是阅读理解题时，通常需要基于叶子节点上的习题以及该叶子节点的所有祖先节点上的习题进行求解，在此情形中，可以将目标点的位置所对应的各层级的习题均作为目标习题。其中，叶子节点是指没有子节点的节点，祖先节点是指从叶子节点到根节点的路径上的所有节点。

通过图10所示流程，可以准确地确定用户提供的目标点的位置所对应的层级的习题，进而向用户展示准确的题目信息。换句话说，通过图10所示的流程，向用户展示的题目信息与用户的实际需求更加匹配。

可选地，为了确定上述的层级关系，图2所示的S202可以通过图11所示的流程确定。详细描述如下。

S1101，获取习题图像中的第一文本行，所述第一文本行为习题的题目信息所在的文本行。

本实施例中，习题图像中存在至少一个习题的相关信息。在不同情形中，习题的相关信息包含的内容不同。第一种情形中，习题图像中每个习题的答题区域均没有填写答案信息，在此情形下，每个习题的相关信息只包括该习题的题目信息。第二种情形中，习题图像中可能存在一个或多个习题的答题区域填写有答案信息，在此情形下，对于答案区域填写有答案信息的习题，其相关信息可以包括题目信息和答案信息。

上述两种情形中，习题的相关信息是分为多个文本行排列的。其中，文本行可以理解为一行文本信息，文本是指书面语言的表现形式，是指具有特定含义的一个或多个字符，例如可以是具有特定含义的字、词、短语、句子、段落或篇章。

在上述第一种情形中，习题图像中所有的文本行都只包含题目信息，因此习题图像中的所有文本行都可以理解成第一文本行。在上述第二种情形中，习题图像中存在三种文本行：第一种只包含题目信息，第二种只包含填写的答案信息，第三种则同时含有题目信息和填写的答案信息。在此情形下，第一文本行可以是上述的第一种文本行和第二种文本行。

可选地，本申请实施例中，S1101可以通过图12所示的流程实现。详细描述如下。

S1101-1，检测习题图像，确定习题图像中每个文本行的位置。

本实施例中，可以通过文本检测模型来实现S1101，以用于对习题图像中的文本行进行定位。其中，文本检测模型例如可以是Faster-RCNN(Faster-Regions withConvolutional Neural Networks，快速区域卷积神经网络)模型、SSD(Single ShotMultiBox Detector，单发多盒探测器)算法、CTPN(Connectionist Text ProposalNetwork，连接文本提案网络)模型等。

其中，CTPN模型是在Faster-RCNN模型的基础上串联LSTM(Long Short-termMemory，长短期记忆网络)模块和CNN(Convolutional Neural Networks，卷积神经网络)模块得到的。CTPN模型可以更加专注于文本检测，可以更好地检测出较长的文本行。

下面以CTPN模型为例，对S1101-1的实现过程进行介绍。

首先请参照图13A，其中示例性地示出了应用于本申请实施例的CTPN模型的架构示意图。CTPN模型采用CNN模型从习题图像中提取图像特征，得到一特征图(Feature map)。可选地，为了简化模型结构，提升处理速度，CNN模型例如可以是VGG16(Visual GeometryGroup Network，视觉几何群网络)模型。可以理解，图13A所示的场景即为CNN模型是VGG16模型的情况。

通过CNN模型提取的图像特征通常为空间特征，而需要从习题图像中识别的目标是文本序列，文本序列通常具有序列特征(又称，上下文特征)，因此，为了提升识别准确度，可以将从CNN模型中提取的特征图输入到时间序列处理模型中，以学习序列特征。LSTM模型可以根据未知字符前后的字符，来确定未知字符可能是哪些字符及未知字符可能是某一字符的概率大小。比如，给定一句话：“我的电视机坏了，我想xx一个新电视。”其中，“xx”表示未知字符，根据未知字符前后的内容可以确定未知字符是一个动词，且根据未知字符后面的“一个新电视”可以确定未知字符是“买”的几率比较大。类似地，在对习题图像中的文本行进行识别时，也可以参照上述原理，通过LSTM模型来学习每一文本行的序列特征，以提升识别结果的准确度。

本申请实施例中，CTPN模型在通过CNN模型和LSTM模型学习到习题图像的空间特征和序列特征之后，可以将这些特征输入FC(Fully Connected Layer，全连接层)。其中，FC的卷积层之后可以存在一RPN(Region Propodal network，区域建议网络)。

RPN可以包括两个分支，第一个分支可以为边界框回归(Bounding boxregression)层，即用于基于设置的文本候选框从FC的卷积层输出的特征图中提取对应的文本候选区域。其中，所述第一个分支为FC的卷积层输出的特征图中的每个像素点设置了高度不同、宽度一致的多个(比如，10个)文本候选框，这里的文本候选框又可以称为锚点(anchor)。例如图13B所示，其中示出了FC的卷积层输出的特征图中一个像素点对应的多个anchor。其中，所述多个anchor的宽度相同，比如均为16；所述多个anchor的高度各不相同，比如可以为[11,16,23,33,48,68,97,239,198,283]共10个不同的高度。应当理解，这里anchor的高度和宽度均为举例说明，而非对本申请的限定。

本申请实施例中，当anchor的宽度为16，且采用的CNN模型是VGG16模型时，anchor的宽度和VGG16模型进行卷积得到步长(stride)是一致的。换言之，通过VGG16模型得到的特征图中的一个像素，对应的是习题图像中16×16的范围，按照宽度为16的文本候选框来提取的感兴趣区域对应的是特征图中的一个像素。

通过上述设置的多个anchor，一方面可以确保在水平方向上，文本候选框能够覆盖原图中的每个点且不相互重叠；另一方面，由于同一文本行中的不同文本内容在纵向上高度差距比较大，设置高度不同的多个文本候选框可以覆盖不同高度的文本目标。

RPN的第二个分支可以是分类层(如，Softmax层)，用于对anchor进行分类，并输出基于anchor提取的文本候选区域内是否含有文本的得分。anchor对应的得分越高，表示基于该anchor提取的文本候选区域内含有文本的概率越大。实施过程中，Softmax层的输出可以只保留得分达到设置的阈值的目标anchor，上述的Bounding box regression层则可以对目标anchor的中心点的纵向坐标及目标anchor的高度进行修正处理。

通过上述处理，FC可以输出目标anchor的中心点的纵向坐标(如，y坐标)、目标anchor的高以及目标anchor对应的得分。此外，考虑到位于文本行两侧(如，左边界或右边界)的anchor可能只包含了少量的文字，而其中的大部分区域都不包含文本，对于这种情形，可以对位于左边界或右边界的anchor的水平方向坐标(如，x坐标)进行调整，以使得最终得到的整个文本行的边界位置更为准确。为了实现对anchor的水平方向坐标的调整，FC还可以输出每个目标anchor的水平偏移量，以表示每个目标anchor的水平方向坐标需要调整的大小。

基于CTPN模型，得到的是基于anchor识别出的一个个单独的包含文本的区域(即，text proposal)，可以通过文本线构造法，所述这些包含文本的区域连接成一个文本检测框，从而得到一个文本行。

参照上述流程对习题图像进行处理，可以得到习题图像中的多个文本行，且可以得到每个文本行的边框。S1101-1中，文本行的位置可以通过文本行的边框的顶点坐标表示。

本实施例中，可以通过训练数据集对CTPN模型进行训练。实施过程中，可以获取大量(如，10万份)真实习题图像，并为真实习题图像中的文本行添加标签信息，具体方式可以为：确定每个文本行的矩形边界，并获取矩形边界在真实习题图像中的顶点坐标作为该文本行的标签信息。然后，可以将添加有标签信息的真实习题图像作为样本数据加入到训练数据集中。

此外，还可以对真实习题图像进行数据增强处理，比如通过旋转、亮度调节、对比度调节、噪声叠加等方式对真实习题图像进行处理，然后再为数据增强后的真实习题图像添加标签信息。带有标签信息的数据增强后的真实习题图像也可以作为样本数据被添加到训练数据集内。如此，可以增加样本数据量，提高训练得到的CTPN模型的鲁棒性。

训练过程中，可以将样本数据输入CTPN模型，并根据CTPN模型的输出与样本数据携带的标签信息之间的差异调节CTPN模型的模型参数。其中，为了加快模型训练速度，可以在搭载有GPU(Graphics Processing Unit，视觉处理器)的设备上进行训练。进一步地，还可以对样本数据进行尺度变换处理，比如将样本数据处理成长边不超过500像素的图像，以进一步提升训练速度。

S1101-2，根据每个文本行的位置截取该文本行的切图。

以一个文本行txt-1为例，基于文本行txt-1的位置可以界定出一个文本框B1。实施时，可以从习题图像中截取该文本框B1中的图像内容，截取的图像内容即为文本行txt-1的切图。

S1101-3，识别文本行的切图中每个字符所属的类型，所述类型为手写字符或印刷字符。

本实施例中，可以通过文本识别模型对每个文本行的切图进行处理，以识别出该文本行中的每个字符。示例性地，文本识别模型例如可以是CRNN(ConvolutionalRecurrent Neural Network，卷积循环神经网络)。下面结合图14示出的CRNN模型的架构示意图，对S1101-3的实现过程进行介绍。

其中，CRNN模型采用CNN模型作为特征提取模块，以从文本行的切图中提取图像特征，得到特征图。该特征图将被输入LSTM模型，LSTM模型可以基于输入的特征图进行文字序列预测。可选地，图14中的LSTM模型可以是深层双向的LSTM模型，其中，深层双向的LSTM模型是一种深层RNN网络，即，超过两层的RNN网络。

详细地，针对文本行的切图包含的每个文字，LSTM模型可以输出该文字对应的一个或多个预测标签，每个预测标签表示该文字可能是的字符。此外，LSTM模型针对某个文字(比如“x”)输出的标签可以具有一个得分，得分表示的是文字“x”是该标签指示的字符的概率大小。实施时，可以从每个文字的各预测标签中确定得分最高的预测标签，作为该文字对应的识别结果。

本申请实施例中，每个习题的题目信息通常为印刷信息，而填写于答题区域的答题信息则通常为手写信息。因此，可以根据每个文本行中的文本信息是印刷文本信息还是手写文本信息，来区分该文本行是否是第一文本行。对应地，可以采用如下方式构建用于训练CRNN模型的训练数据集。

详细地，可以获取试卷、练习册、作业簿等的真实习题图像，并获取真实习题图像中的文本行区域作为真实文本图像。对真实文本图像进行数据增强，并将数据增强后的真实文本图像作为新的真实文本图像。将获得的真实文本图像添加到CRNN模型的训练数据集中，并为CRNN模型的训练数据集中的每个文字添加标签信息。其中，印刷文字的标签信息为该印刷文字对应的字符，比如，真实文本图像上存在文字“文”，对应地，可以采用字符“文”作为该文字“文”的标签信息。所有手写文字的标签信息可以采用相同的标识符表示，本实施例对该标识符没有限制，只要可以和其他印刷文字的标签信息区分开即可。

基于上述训练数据集训练得到的CRNN模型，针对手写文字将会输出相同的预测标签，而不必识别手写文字实际对应的字符，减少了需要识别的数据量，降低了识别难度。

训练过程中，可以将训练数据集中的真实文本图像输入CRNN模型，并通过损失层计算CRNN模型的输出与该真实文本图像中文字的标签信息之间的损失(loss)，从而基于所述损失调节CRNN模型的参数。实际应用中，输入CRNN模型的真实文本图像中的文本序列与CRNN模型输出的文本序列可能出现无法一一对应的情况，针对这一情况，可以采用CTC(Connectionist Temporal Classification，连接时间分类)层作为CRNN模型的损失层，以使输入CRNN模型的图像中的文本序列和CRNN模型输出的文本序列相对应。

通过S1101-3可以文本行的切图中每个文字对应的字符。换言之，文本行的切图中的每个文字均从图像信息转换成了字符信息。

S1101-4，若文本行的切图中包含的手写字符的数量没有达到阈值，则确定该文本行为第一文本行。

本申请实施例中，终端设备200可以存储有表示手写字符的标识符，为便于描述，下文将表示手写字符的标识符描述为手写标识符。

实施过程中，客户端210可以从文本行的切图对应的字符信息中，确定手写标识符的数量，并判断手写标识符的数量是否达到阈值。如果没有达到阈值，表示文本行中的文本信息大部分为印刷文字，因此可以将该文本行确定为印刷文本行，即第一文本行。如果达到阈值，则可以将该文本行确定为手写文本行，则可以丢弃手写文本行的位置信息(即，上述的文本检测模型的输出信息)和字符信息(即，上述的文本识别模型的输出信息)。

其中，阈值可以灵活设置，比如可以设置为文本行包含的字符数量的60％-80％。示例性地，在文本行包含10个字符的情况下，如果将阈值设置为文本行包含的字符数量的70％，则阈值可以为7。

S1102，从获取的第一文本行中，将包含题号的第一文本行确定为第二文本行。

其中，第二文本行是指包含题号的第一文本行。本实施例中，S1102以通过图15所示的流程实现。

S1102-1，沿第二方向依次对每个第一文本行进行题号识别。

本申请实施例中，第二方向可以是习题图像中列像素的排列方向。对应地，习题图像中行像素的排列方向可以视为第一方向。

可以理解，当成功检测出习题图像中的文本行，并成功识别出第一文本行之后，表示习题图像是被正确采集的，即，习题图像并非处于扭曲、旋转或倒置状态，否则上述的检测和识别过程将会出错。基于此，以图9A所示习题图像是N×V大小的图像为例，其像素分为N行、V列，N和V均为正整数。则第一方向可以是从第1行至第N行的方向，第二方向可以是从第1列至第V列的方向。

实施过程中，可以以习题图像的其中一个顶点为原点，以第一方向为X轴，第二方向为Y轴，建立直角坐标系。例如图16A所示，为以图9A所示习题图像的左下角顶点为原点O建立的直角坐标系，在此场景中，可以沿Y轴的负方向向依次识别第一文本行是否包含题号。

S1102-2，若识别出任一第一文本行的起始位置依次为数字字符和目标标点符号，则从该第一文本行提取该数字字符。

其中，数字字符可以是任意语言类型的数字字符，比如可以是罗马数字字符、中文数字字符、英文数字字符、阿拉伯数字字符等。目标标点符号可以根据统计数据或经验灵活设置，比如可以为顿号、英文格式的句号(实心点)等。可以理解，前述的数字字符和目标标点符号仅仅是举例说明，而非对本申请的限定。

本实施例中，建立直角坐标系的方式不同，确定第一文本行的起始位置的方式也有所不同。比如，图16A所示场景中，可以将每个第一文本行中X坐标最小的字符确定为第一文本行起始位置。对应地，如果第一文本行中的字符，从该起始位置开始依次为数字字符和目标标点符号，比如，图16A所示场景中，第一文本行L1的起始位置依次为“一”和“、”，则可以确定L1具有题号特征，从而可以提取数字字符“一”。第一文本行L2中，从起始位置开始依次为“1”和“.”，则可以确定L2具有题号特征，从而可以提取数字字符“1”。

特别地，一些情况下，题号特征还可以是数字字符和目标标点符号的其他组合形式，比如目标标点符号为括号时，第一文本行的起始位置可以是位于括号内的数字字符。在此情况下，可以将题号特征提取出来，并存储到题号序列中。

S1102-3，按照识别顺序在题号序列中依次存储提取的每个数字字符。

S1102-4，将所述题号序列中的数字字符所在的第一文本行确定为所述第二文本行。

以图16A所示习题图像为例，基于该习题图像得到的题号序列可以为[一,1,2,二,1]。其中，每个字符所在的第一文本行可以被视为第二文本行。

可选地，在一些情况下，可能出现第一文本行的起始位置依次为数字字符和目标标点符号，但该数字字符并非是题号的情形。比如图16B所示的习题图像中，题号依次为[二,1,2]，但是在第1题的题目信息中(即，第一文本行L5)出现了小数“6.5”，且小数6.5位于第一文本行L5的起始位置，在此情况下，“6.”将被识别为题号特征。对应地，基于图16B所示的习题图像得到的题号序列将会是[二,1,6,2]。这种情况下，可能出现题号识别出错的问题。

针对上述问题，本实施例中，S1102还可以包括图17所示的步骤S1102-5至S1102-7。其中，S1102-4和S1102-5可以在S1102-4之前被执行。

S1102-5，当完成对各第一文本行的所述题号识别时，从所述题号序列中获取字符类型相同、且连续存储的至少两个数字字符作为待检查字符组。

其中，字符类型相同是指语言类型相同且具有相同的数据格式。比如，均为罗马数字，或是均为括号和罗马数字的组合形式等。比如，基于图16B所示习题图像得到的题号序列中，1和2是字符类型相同的数字字符。又比如，假如某个题号序列中存在(1)、(2)、(3)等，则(1)、(2)、(3)是字符类型相同的数字字符。

连续存储是指在题号序列中的存储顺序相邻。比如在基于图16A所示的习题图像得到的题号序列中，二和1是连续存储的，1和2是连续存储的，二、1、2是连续存储的，二和2则不是连续存储的。

本申请实施例中，同层级习题的题号通常是按大小顺序排列的，因而可以对同层级的习题的题号进行检查，以确定其题号是否是误识别的题号。进一步地，由于同层级题号基本具有相同的字符类型，且识别顺序是连续的(因而，在题号序列中连续存储)，因此，可以通过S1102-5获得题号序列中同层级习题的题号，并将表征这些题号的数字字符添加到一个组中，该组即为一个待检查字符组，其中的每个字符为待检查字符。

可以理解，通过S1102-5可以得到一个或多个待检查字符组，每个待检查字符组包括至少两个待检查字符。

S1102-6，针对所述待检查字符组的每个待检查字符，确定该待检查字符在所述待检查字符组中的存储顺序以及该待检查字符在所述待检查字符组中的大小顺序。

S1102-7，若该待检查字符的所述存储顺序和所述大小顺序不相符，则从所述题号序列中删除该待检查字符。

实施过程中，对于获得的每个待检查字符组，客户端210可以对该待检查字符组中的各个待检查字符按照大小关系进行排序，比如，按照从小到大的顺序进行排序。将排序后的待检查字符组与排序前的待检查字符组中的字符一一对比。比如，将排序后的待检查字符组中的第n(n为正整数)个待检查字符与排序前的待检查字符组中的第n个待检查字符对比，如果两者不同，则将排序前的待检查字符组中的第n个待检查字符确定待删除字符，并可以从题号序列中删除该待删除字符。

以图16B所示习题图像为例，可以从该习题图像对应的题号序列中获得一个待检查字符组[1,6,2]，将该待检查字符组按照从小到大的顺序排序，可以得到排序后的待检查字符组[1,2,6]，则通过对比可以确定排序前的待检查字符组中的第2个字符“6”与排序后的待检查字符组中的第2个字符“2”不同。因此，可以确定“6”在待检查字符组中的存储顺序和大小顺序不相符，从而可以将“6”确定为待删除字符，并从题号序列中将其删除。

通过图17所示的流程，可以屏蔽掉误识别的题号，从而在S1102-4中基于识别的题号准确地确定第一文本行。

S1103，根据各第二文本行包含的题号在所述习题图像的第一方向上的相对位置关系，及所述各第二文本行包含的题号在所述习题图像的第二方向上的相对位置关系，确定所述各第二文本行包含的题号各自对应的习题之间的层级关系，其中，第一方向为平行于所述第一文本行的方向，第二方向为垂直于所述第一文本行的方向。

参照上文关于层级关系的介绍，本实施例中的层级关系是指习题图像中的习题之间的包含关系，通俗来讲，就是哪些习题是大题(如，根层级习题)，哪些习题是小题(如，子孙层级习题)，小题属于哪个大题等。

实际应用中，相同层级的习题的题号在习题图像的第一方向上的位置基本是相同的，而子层级习题的题号相较于其父层级习题的题号将会缩进一定距离。并且，一个根层级习题或父层级习题与其子孙层级习题通常是相邻设置的。基于此，可以S1103来确定习题图像中各个题号各自对应的习题之间的层级关系。

下面将结合图16A所示的具体例子来对S1103的详细实现过程进行描述。其中，S1103可以通过图18所示流程实现。

S1103-1，以习题图像的左下角顶点为原点、从第1列到第V列的方向为X轴正方向、从第N行到第1行的方向为Y轴正方向，建立直角坐标系。

S1103-2，获取习题图像中每个第二文本行包含的题号在所述直角坐标系中的坐标信息，所述坐标信息包括X坐标和Y坐标。

S1103-3，从习题图像包含的题号中获取X坐标最小的题号作为根层级题号，其中，根层级题号对应的习题是习题图像对应的根层级习题。

示例性地，图16A所示习题图像中，题号“一”和“二”的X坐标是相同的，且均为最小的，则可以将题号“一”和“二”分别确定为根层级题号。

S1103-4，按照Y坐标从大到小的顺序依次访问每个题号，针对当前访问的题号，对当前访问的题号和上一次访问的题号的X坐标进行比较。

S1103-5，若当前访问的题号的X坐标大于上一次访问的题号的X坐标，则将当前访问的题号对应的习题确定为上一次访问的题号对应的习题的子层级习题。

比如，上一次访问的题号是“一”，当前访问的题号是“1”，题号“1”的X坐标大于题号“一”的坐标，则可以确定习题1是习题一的子层级习题。

S1103-6，若当前访问的题号和上一次访问的题号具有相同的X坐标，则将当前访问的题号对应的习题和上一次访问的题号对应的习题确定为相同层级的习题。

比如，上一次访问的题号是“1”，当前访问的5题号是“2”，两者的X坐标相同，则可以将两者确定为相同层级的习题。

本实施例中，在将当前访问的题号对应的习题和上一次访问的题号对应的习题确定为相同层级的习题之后，还可以通过S1137确定当前访问的题号对应的习题的父层级习题。

S1103-7，判断上一次访问的题号对应的习题是否具有父层级习题，如果是，则将上一次访问的题号对应的习题的父层级习题，确定为当前访问的题号对应的习题的父层级习题。

比如，对于相同层级的题号“1”和“2”，习题1的父层级习题是习题一，则可以将习题2的父层级习题也确定为习题一。

S1103-8，若当前访问的题号的X坐标小于上一次访问的题号的X坐标，则判断当前访问的题号是否是根层级题号。若否，则执行S1103-9；若是，则执行S1103-10。

S1103-9，则访问下一个题号。

S1103-10，从Y坐标大于当前访问的题号的Y坐标的题号中，获取X坐标与当前访问的题号的X坐标相同、Y坐标与当前访问的题号的Y坐标的间距最小的目标题号，将目标题号对应的习题与当前访问的题号对应的习题确定为相同层级的习题。

比如，假设图16A所示场景中，习题1还具有子层级习题(1)，则题号“1”和题号“2”的X坐标均是小于题号“(1)”的X坐标的。那么，当上一次访问的是题号“(1)”，当前访问的是题号“2”的情况下，客户端210在确定题号“2”的X坐标小于题号“(1)”的X坐标时，可以判断出题号“2”不是根层级习题，从而可以从题号“一”、“1”、“(1)”中，查找X坐标与题号“2”的X坐标相同、Y坐标与题号“2”的Y坐标间距最小的题号，即，题号“1”作为目标题号。对应地，可以确定题号“2”和题号“1”是同层级题号，习题2和习题1是同层级习题。

可以理解，图18所示的层级关系的确定流程仅为举例说明，本申请实施例还可以通过其他方式来确定习题图像中各习题之间的层级关系。

比如，在一些情况下，采集的习题图像可能处于倾斜状态，在此情况下，文本行中的文字在通过上述的文本检测模型确定的文本行的边界中所占比例较小，可能导致文本识别模型从文本行中识别字符的准确度降低。针对这一问题，可以在执行S1103-1之前，通过图19所示步骤对习题图像的角度进行旋转矫正。

S1901，对所述习题图像中的文本行的边缘进行识别，得到用于表征文本行的边缘的至少两条直线。

本实施例中，可以通过任意边缘检测算子来识别习题图像中文本行的边缘。示例性地，边缘检测算子可以为Canny(卡安尼)边缘检测算子。由于文本行的边缘通常是一条直线，基于边缘检测算子可以得到与文本行边缘对应的至少两条直线。可以理解，这里的直线通常是表征文本行的上下边缘的直线，表征左右边缘的直线可以通过判断边缘长度的方式屏蔽掉。

可选地，为了使得习题图像中文本行的边缘特征更为明显，可以在S1901之前，对习题图像进行去噪处理。该去噪处理的实现过程例如可以是：将习题图像转换为灰度图，通过腐蚀膨胀算法对灰度图进行去噪。在得到去噪的灰度习题图像后，可以将去噪的灰度习题图像转换为二值图像，再供边缘检测算子对该二值图像进行处理。

S1902，对所述至少两条直线进行聚类，得到至少两个直线簇。

本实施例中，可以获取基于边缘检测算子从习题图像中识别的每条直线的角度，并按照直线的角度对获得的所有直线进行聚类。其中，直线的角度可以是直线相较于习题图像的第一方向的角度，或是相较于第二方向的角度。

S1903，从所述至少两个直线簇中确定包含的直线数量最多的目标直线簇。

其中，聚类结果中直线簇的数量可以根据经验灵活设置，通常为至少两个。通过聚类，可以得到至少两个直线簇，每个直线簇将包括至少一条直线。实施时，可以分别统计每个直线簇中的直线数量，并将直线的数量最多的一个直线簇确定为目标直线簇。

S1904，将所述目标直线簇的中心直线的角度确定为所述习题图像的角度。

通过聚类得到的每个直线簇具有一条中心直线，中心直线的角度可以是直线簇中所有直线的角度的平均值。

S1905，根据所述习题图像的角度，对所述习题图像进行旋转处理。

本实施例中，习题图像的角度的含义与直线的角度的含义类似。示例性地，如果直线的角度是直线相对于第一方向的角度，则习题图像的角度也是指习题图像相较于第一方向的角度。

在此情况下，可以判断习题图像的角度是否是0，或是与0的差值是否处于预设范围内，如果是，则可以不对习题图像进行旋转处理。如果不是，则可以对习题图像进行旋转，以使习题图像的角度与0的差值处于该预设范围内。

类似地，如果直线的角度是直线相对于第二方向的角度，则习题图像的角度也是指习题图像相较于第二方向的角度。对应地，可以判断习题图像的角度是否是90度，或者与90度的差值是否处于预设范围内。如果是，可以不做处理。如果不是，则可以对习题图像进行旋转处理，使习题图像的角度与90度的差值处于预设范围内。

通过图19所示流程，可以提高后续文本识别模型的识别准确度。示例性地，图20A示出了旋转矫正前的习题图像，图20B示出了旋转矫正后的习题图像，在旋转矫正前的习题图像中，第一文本行L6中文字部分占据的比例较小，基本只有1/4。而在旋转矫正后的习题图像中，第一文本行L6’中文字部分所占比例大于L6中文字部分所占比例。又比如，一些情况下，如图5A-图5C所示的例子中，习题图像中的习题是分栏显示的，这种情况下，可以在执行S1103-2之前，识别出习题图像中的每一栏，再按照S1103-2至S1103-10分别对每一栏进行层级关系的识别。

一种实施方式中，可以采用LSD(Line Segment Detector，直线段检测器)算法来识别用于分栏的直线，基于识别的直线进行分栏。这种方式适用于习题图像中存在用于分栏的直线的情形。另一种实施方式中，可以根据习题图像中各第一文本行的X坐标与X坐标阈值的关系来分栏，比如，图5A所示例子中，R1内的各个第一文本行的X坐标均处于一个范围内，R3内的各个第一文本行的X坐标均处于另一个范围内，这两个范围有明确的界限。通过设置表征该界限的阈值或阈值范围，并判断习题图像中每个第一文本行相较于该阈值或阈值范围所处的位置，可以实现对习题图像分栏。

可选地，本申请实施例中，从习题图像获取的第一文本行中还存在不包含题号的第一文本行。基于此，S1103还可以包括图21所示的流程。

S1103-11，从获取的各第一文本行中，将不包含题号的第一文本行确定为第三文本行。

本实施例中，在通过图14所示的S1102-1-S1102-4识别出某个第一文本行不包含题号时，可以将该第一文本行标识为第三文本行。

S1103-12，针对每个第三文本行，获取在第二方向上与该第三文本行的间距最小的第二文本行，根据该第二文本行中的题号确定为该第三文本行所属的习题。

本实施例中，第二方向上与第三文本行间距最小的第二文本行可能有两个，在此情况下，可以基于习题图像中建立的坐标系来确定第三文本行所属的习题。比如图16A所示的例子，其中，第一文本行L3不包含题号，可以被识别成第三文本行。对应地，第二方向上与L3间距最小的第二文本行分别是L2和L4。在图16A所示的坐标系中，可以将Y轴正方向上的L2中的题号“1”确定为L3所属的习题。

S1104，根据所述层级关系分别确定所述习题图像中每个层级的习题的题目信息的位置。

本实施例中，针对每个层级的习题，可以根据属于该习题的第二文本行的位置和属于该习题的第三文本行的位置，得到该习题的题目信息的位置。

其中，一个习题的题号所在的第二文本行是属于该习题的；属于子层级习题的文本行，可以是属于该子层级习题的父层级习题的。比如图16A所示的例子，包含题号的第二文本行L2和不包含题号的第三文本行L3属于习题1，包含题号的第二文本行L1属于习题一。对应地，习题1作为习题一的子层级习题，属于习题1的文本行L2和L3也是属于习题一的。

在确定属于每个层级的习题的文本行之后，可以将属于该习题的各文本行的边界所共同界定的范围作为该习题的题目信息的位置。

进一步地，在习题图像中，一些习题可能还具有图例，比如图22所示的场景中的图例I1。在此情况下，可以通过图23所示的流程来确定图例所属的习题。

S2301，检测所述习题图像中是否存在图例。

本实施例中，图例可以通过任意图像识别模型检测，例如PVAnet(Performance VsAccuracy-net，加速模型性能网络)、上述的RNN模型等。

S2302，若存在图例，则根据该图例的位置与所述习题图像中的每个习题的题目信息的位置之间的相对位置关系，确定该图例所属的习题。

本实施例中，通过图像识别模型可以确定图例所处区域的边界位置，根据边界位置可以确定图例的中心位置。一种实施方式中，可以从各层级的习题的位置中确定与该中心位置距离最小的习题，作为该图例所属的习题。

另一种实施方式中，可以从各层级的习题的位置中确定与该中心位置距离小于距离阈值的习题，并从所确定的每个习题中确定题目信息包含目标关键字(比如，“如图”，“参照图”，“图”等)的习题，并将题目信息包含目标关键字确定为图例所属的习题。

对应地，在向用户显示目标习题的题目信息时，如果目标习题具有图例，还可以向用户显示目标习题的图例。

请参照图24，其示出了本申请实施例提供的一种习题识别装置的结构框图。该习题识别装置2400可以应用于电子设备，该电子设备可以是图1所示的服务器100或终端设备200。该装置2400可以包括：获取模块2401、识别模块2402和显示模块2403。

其中，获取模块2401可以用于获取习题图像及习题图像关联的指示动作，所述指示动作用于指示所述习题图像中的目标点，所述习题图像包括至少一个习题的题目信息。

识别模块2402可以用于识别所述习题图像中习题的题目信息，并从所述习题图像中，确定题目信息的位置与所述目标点的位置对应的习题，作为目标习题。

显示模块2403可以用于显示所述目标习题的题目信息。

可选地，获取模块2401具体可以用于：显示所述习题图像；若检测到针对所述习题图像的点击操作，则将点击操作确定为指示动作，其中，指示动作所指示的目标点的位置为点击操作的点击坐标。

可选地，习题图像可以包括指示所述习题图像中任意一点的指示物体。对应地，获取模块2401具体还可以用于：识别所述习题图像中是否存在指示物体；若是，则生成指示动作，该指示动作指示的目标点的位置为所述指示物体在所述习题图像中的位置。

可选地，识别模块2402从所述习题图像中，确定题目信息的位置与所述目标点的位置相对应的习题，作为目标习题的方式可以是：从所述习题图像中确定题目信息的位置与所述目标点的位置相对应的各层级的习题；识别所述各层级的习题中最高层级习题的习题类型；根据所述习题类型，从所述各层级的习题中，确定与所述习题类型对应的层级的习题作为所述目标习题。

可选地，识别模块2402可以通过以下方式识别所述习题图像中习题的题目信息的位置：获取习题图像中的第一文本行，所述第一文本行为习题的题目信息所在的文本行；从获取的第一文本行中，将包含题号的第一文本行确定为第二文本行；根据各第二文本行包含的题号在所述习题图像的第一方向上的相对位置关系，及所述各第二文本行包含的题号在所述习题图像的第二方向上的相对位置关系，确定所述各第二文本行包含的题号各自对应的习题之间的层级关系，其中，所述第一方向是所述习题图像的行像素的排列方向，所述第二方向是所述习题图像的列像素的排列方向；根据所述层级关系分别确定所述习题图像中每个层级的习题的题目信息的位置。

可选地，识别模块2402可以通过如下方式获取习题图像中的第一文本行：检测所述习题图像，确定所述习题图像中每个文本行的位置；根据每个文本行的位置截取该文本行的切图；识别所述文本行的切图中每个字符所属的类型，所述类型为手写字符或印刷字符；若所述文本行的切图中包含的手写字符的数量没有达到阈值，确定所述文本行为所述第一文本行。

可选地，识别模块2402还可以用于：在检测习题图像之前，对所述习题图像中的文本行的边缘进行识别，得到用于表征文本行的边缘的至少两条直线；对所述至少两条直线进行聚类，得到至少两个直线簇；从所述至少两个直线簇中确定包含的直线数量最多的目标直线簇；将所述目标直线簇的中心直线的角度确定为所述习题图像的角度；根据所述习题图像的角度，对所述习题图像进行旋转处理。

可选地，识别模块2402从获取的第一文本行中，将包含题号的第一文本行确定为第二文本行的方式可以为：沿所述第二方向依次对每个第一文本行进行题号识别；若识别出任一第一文本行的起始位置依次为数字字符和目标标点符号，则从该第一文本行中提取该数字字符；按照识别顺序在题号序列中依次存储提取的每个数字字符；将所述题号序列中的数字字符所在的第一文本行确定为所述第二文本行。

可选地，识别模块2402从获取的第一文本行中，将包含题号的第一文本行确定为第二文本行的方式还可以为：当完成对各第一文本行的所述题号识别时，从所述题号序列中获取字符类型相同、且连续存储的至少两个数字字符作为待检查字符组；针对待检查字符组中的每个待检查字符，获取该待检查字符在所述待检查字符组中的存储顺序以及该待检查字符在所述待检查字符组中的大小顺序；若该待检查字符的所述存储顺序和所述大小顺序不相符，则从所述题号序列中删除该待检查字符。

可选地，识别模块2402还可以用于：在获取模块2401获取习题图像中的每个第一文本行之后，从获取的各第一文本行中，将不包含题号的第一文本行确定为第三文本行；针对每个第三文本行，获取在第二方向上与该第三文本行的间距最小的第二文本行，从该第二文本行中的题号所对应的习题中确定该第三文本行所属的习题。

可选地，识别模块2402根据所述层级关系分别确定所述习题图像中每个层级的习题的题目信息的位置的方式可以是：针对所确定的每个层级的习题，根据属于该习题的第二文本行的位置和属于该习题的第三文本行的位置，得到该习题的题目信息的位置。

可选地，识别模块2402还可以用于：检测所述习题图像中是否存在图例；若存在图例，则根据该图例的位置与所述习题图像中的每个习题的题目信息的位置之间的相对位置关系，确定该图例所属的习题。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图25，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备2500可以是图1所示的服务器100或终端设备200。本申请中的电子设备2500可以包括一个或多个如下部件：处理器2510、存储器2520、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器2520中并被配置为由一个或多个处理器2510执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器2510可以包括一个或者多个处理核。处理器2510利用各种接口和线路连接整个电子设备2500内的各个部分，通过运行或执行存储在存储器2520内的指令、程序、代码集或指令集，以及调用存储在存储器2520内的数据，执行电子设备2500的各种功能和处理数据。可选地，处理器2510可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器2510可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器2510中，单独通过一块通信芯片进行实现。

存储器2520可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器2520可用于存储指令、程序、代码、代码集或指令集。存储器2520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备2500在使用中所创建的数据(比如习题图像、层级关系、题目信息)等。

请参考图26，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质2600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质2600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质2600包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质2600具有执行上述方法中的任何方法步骤的程序代码2610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码2610可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种习题识别方法，其特征在于，包括：

获取习题图像及所述习题图像关联的指示动作，所述指示动作用于指示所述习题图像中的目标点，所述习题图像包括至少一个习题的题目信息；

识别所述习题图像中习题的题目信息的位置；

从所述习题图像中，确定题目信息的位置与所述目标点的位置相对应的习题，作为目标习题；

显示所述目标习题的题目信息。

2.根据权利要求1所述的方法，其特征在于，所述习题图像关联的指示动作通过以下方式获取：

显示所述习题图像；

若检测到针对所述习题图像的点击操作，则将所述点击操作确定为所述指示动作，其中，所述指示动作指示的所述目标点的位置为所述点击操作的点击坐标。

3.根据权利要求1所述的方法，其特征在于，所述习题图像关联的指示动作通过以下方式获取：

识别所述习题图像中是否存在指示物体；

若是，则生成所述指示动作，所述指示动作指示的所述目标点的位置为所述指示物体在所述习题图像中的位置。

4.根据权利要求1-3中任意一项所述的方法，其特征在于，所述从所述习题图像中，确定题目信息的位置与所述目标点的位置相对应的习题，作为目标习题，包括：

从所述习题图像中确定题目信息的位置与所述目标点的位置相对应的各层级的习题；

识别所述各层级的习题中最高层级习题的习题类型；

根据所述习题类型，从所述各层级的习题中，确定与所述习题类型对应的层级的习题作为所述目标习题。

5.根据权利要求1-3中任意一项所述的方法，其特征在于，所述识别所述习题图像中习题的题目信息的位置，包括：

获取所述习题图像中的第一文本行，所述第一文本行为习题的题目信息所在的文本行；

从获取的第一文本行中，将包含题号的第一文本行确定为第二文本行；

根据各第二文本行包含的题号在所述习题图像的第一方向上的相对位置关系，及所述各第二文本行包含的题号在所述习题图像的第二方向上的相对位置关系，确定所述各第二文本行包含的题号各自对应的习题之间的层级关系，其中，所述第一方向是所述习题图像的行像素的排列方向，所述第二方向是所述习题图像的列像素的排列方向；

根据所述层级关系分别确定所述习题图像中每个层级的习题的题目信息的位置。

6.根据权利要求5所述的方法，其特征在于，所述获取所述习题图像中的第一文本行，包括：

检测所述习题图像，确定所述习题图像中每个文本行的位置；

根据每个文本行的位置截取该文本行的切图；

识别所述文本行的切图中每个字符所属的类型，所述类型为手写字符或印刷字符；

若所述文本行的切图中包含的手写字符的数量没有达到阈值，确定所述文本行为所述第一文本行。

7.根据权利要求6所述的方法，其特征在于，在所述检测所述习题图像之前，所述方法还包括：

对所述习题图像中的文本行的边缘进行识别，得到用于表征文本行的边缘的至少两条直线；

对所述至少两条直线进行聚类，得到至少两个直线簇；

从所述至少两个直线簇中确定包含的直线数量最多的目标直线簇；

将所述目标直线簇的中心直线的角度确定为所述习题图像的角度；

根据所述习题图像的角度，对所述习题图像进行旋转处理。

8.根据权利要求5所述的方法，其特征在于，所述从获取的第一文本行中，将包含题号的第一文本行确定为第二文本行，包括：

沿所述第二方向依次对每个第一文本行进行题号识别；

若识别出任一第一文本行的起始位置依次为数字字符和目标标点符号，则从该第一文本行中提取该数字字符；

按照识别顺序在题号序列中依次存储提取的每个数字字符；

将所述题号序列中的数字字符所在的第一文本行确定为所述第二文本行。

9.根据权利要求8所述的方法，其特征在于，在所述将所述题号序列中的数字字符所在的第一文本行确定为所述第二文本行之前，所述从获取的第一文本行中，将包含题号的第一文本行确定为第二文本行，还包括：

当完成对各第一文本行的所述题号识别时，从所述题号序列中获取字符类型相同、且连续存储的至少两个数字字符作为待检查字符组；

针对待检查字符组中的每个待检查字符，获取该待检查字符在所述待检查字符组中的存储顺序以及该待检查字符在所述待检查字符组中的大小顺序；

若该待检查字符的所述存储顺序和所述大小顺序不相符，则从所述题号序列中删除该待检查字符。

10.根据权利要求5所述的方法，其特征在于，在所述获取所述习题图像中的第一文本行之后，所述方法还包括：

从获取的各第一文本行中，将不包含题号的第一文本行确定为第三文本行；

针对每个第三文本行，获取在第二方向上与该第三文本行的间距最小的第二文本行，从该第二文本行中的题号所对应的习题中确定该第三文本行所属的习题。

11.根据权利要求10所述的方法，其特征在于，所述根据所述层级关系分别确定所述习题图像中每个层级的习题的题目信息的位置，包括：

针对所确定的每个层级的习题，根据属于该习题的第二文本行的位置和属于该习题的第三文本行的位置，得到该习题的题目信息的位置。

12.根据权利要求11所述的方法，其特征在于，在所述获取习题图像之后，所述方法还包括：

检测所述习题图像中是否存在图例；

若存在图例，则根据该图例的位置与所述习题图像中的每个习题的题目信息的位置之间的相对位置关系，确定该图例所属的习题。

13.一种习题识别装置，其特征在于，包括：

获取模块，用于获取习题图像及所述习题图像关联的指示动作，所述指示动作用于指示所述习题图像中的目标点，所述习题图像包括至少一个习题的题目信息；

识别模块，用于识别所述习题图像中习题的题目信息的位置，并从所述习题图像中，确定题目信息的位置与所述目标点的位置对应的习题，作为目标习题；

显示模块，用于显示所述目标习题的题目信息。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-12中任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-12中任意一项所述的方法。