CN113822847A

CN113822847A - 基于人工智能的图像评分方法、装置、设备及存储介质

Info

Publication number: CN113822847A
Application number: CN202110620463.8A
Authority: CN
Inventors: 孙朝旭; 杨晓婉; 吴嫒博; 刘萌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-12-21

Abstract

本申请提供了一种基于人工智能的图像评分方法、装置、设备；方法包括：通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到文本图像中的文本内容在整体维度上的特征；对文本图像进行分块处理，得到包括至少两个图像块的图像块序列；通过图像评分模型的第二特征提取层，对图像块序列进行特征提取，得到文本图像中的文本内容在细节维度上的特征；通过图像评分模型的特征拼接层，将文本内容在整体维度上的特征以及文本内容在细节维度上的特征进行特征拼接，得到拼接特征；通过图像评分模型的评分预测层，对拼接特征进行评分预测，得到对应文本内容的第一评分。通过本申请，能够更加精准有效的对文本内容进行评分。

Description

基于人工智能的图像评分方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的图像评分方法、装置、设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

教育领域通过引进人工智能技术，使得智能教学发展迅速，通过对试卷扫描图像进行文字识别可进行智能评分。但往往智能评分仅参考识别后的文字结果，需要教研人员参与卷面分的打分环节。

相关卷面分评估方法中，基于字体模板匹配的技术虽然模型简单，但是只利用了字体库与试卷文本的相似度，并未参考整张试卷的整洁度。基于计算机视觉图像分类技术，主要是依靠标注后的结果对整张图像进行分类判分，难以关注到图像本质细节，对卷面分的评估不准确。

发明内容

本申请实施例提供一种基于人工智能的图像评分方法、装置及计算机可读存储介质，能够有效融合文本图像中的文本内容在细节维度上的特征以及文本图像中的文本内容在整体维度上的特征，更加精准有效的对文本内容进行评分。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的图像评分方法，包括：

通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到所述文本图像中的文本内容在整体维度上的特征；

对所述文本图像进行分块处理，得到包括至少两个图像块的图像块序列；

通过图像评分模型的第二特征提取层，对所述图像块序列进行特征提取，得到所述文本图像中的文本内容在细节维度上的特征；

通过图像评分模型的特征拼接层，将所述文本内容在整体维度上的特征以及所述文本内容在细节维度上的特征进行特征拼接，得到拼接特征；

通过图像评分模型的评分预测层，对所述拼接特征进行评分预测，得到对应所述文本内容的第一评分。

本申请实施例提供一种基于人工智能的图像评分装置，包括：

第一特征提取模块，用于通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到所述文本图像中的文本内容在整体维度上的特征；

图像分块模块，用于对所述文本图像进行分块处理，得到包括至少两个图像块的图像块序列；

第二特征提取模块，用于通过图像评分模型的第二特征提取层，对所述图像块序列进行特征提取，得到所述文本图像中的文本内容在细节维度上的特征；

特征拼接模块，用于通过图像评分模型的特征拼接层，将所述文本内容在整体维度上的特征以及所述文本内容在细节维度上的特征进行特征拼接，得到拼接特征；

评分预测模块，用于通过图像评分模型的评分预测层，对所述拼接特征进行评分预测，得到对应所述文本内容的第一评分。

上述方案中，所述装置还包括图像预处理模块，所述图像预处理模块，用于对待评分文本图像进行区域定位，以确定所述待评分文本图像中对应所述文本内容的目标区域；

基于所述目标区域，对所述待评分文本图像进行区域分割，得到所述文本图像。

上述方案中，所述图像预处理模块，还用于基于所述目标区域，对所述待评分文本图像进行区域分割，得到包括所述文本内容的分割图像；

对所述分割图像进行去干扰处理，得到所述文本图像。

上述方案中，所述第二特征提取模块包括映射层、上下文特征提取层以及细节特征提取层，所述第二特征提取模块还用于通过所述映射层，对所述图像块序列进行特征映射，得到所述图像块序列对应的图像表示序列；

通过所述上下文特征提取层，对所述图像表示序列进行上下文特征提取，得到上下文特征；

通过所述细节特征提取层，对所述上下文特征进行细节特征提取，得到所述文本图像中的文本内容在细节维度上的特征。

上述方案中，所述第二特征提取模块中的映射层包括转换层和位置编码层，所述第二特征提取模块还用于通过所述转换层，对所述图像块序列进行向量转换，得到相应的特征向量；

通过所述位置编码层，对所述图像块序列进行位置编码，得到相应的位置编码向量；

将所述特征向量以及所述位置编码向量对位相加，得到所述图像块序列对应的图像表示序列。

上述方案中，所述第二特征提取模块中的上下文特征提取层包括至少两个子特征提取层，所述第二特征提取模块还用于通过所述至少两个子特征提取层，分别对所述图像表示序列进行上下文特征提取，得到至少两个上下文特征；

相应的，所述第二特征提取模块还用于对所述至少两个上下文特征进行组合，得到对应所述图像表示序列的组合上下文特征；

对所述组合上下文特征进行细节特征提取，得到所述文本图像中的文本内容在细节维度上的特征。

上述方案中，所述装置还包括模型训练模块，所述模型训练模块，用于获取包括文本内容的文本图像样本及所述文本图像样本对应的标准评分；

通过图像评分模型的第一特征提取层，对所述文本图像样本进行特征提取，得到所述文本图像样本中的文本内容在整体维度上的特征；

对所述文本图像样本进行分块处理，得包括至少两个图像块的图像块序列；

通过图像评分模型的评分预测层，对所述拼接特征进行评分预测，得到对应所述文本内容的预测评分；

基于所述预测评分与所述标准评分之间的差异，更新所述图像评分模型的模型参数。

上述方案中，所述评分预测模块，还用于对所述文本图像的文本内容进行提取，得到目标文本内容；

将所述目标文本内容与标准文本内容进行匹配，得到匹配结果，并基于所述匹配结果，确定所述目标文本内容的第二评分；

基于所述第一评分及所述第二评分，确定对应所述文本内容的综合评分。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的图像评分方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的图像评分方法。

本申请实施例具有以下有益效果：

本申请实施例通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到文本图像中的文本内容在整体维度上的特征，基于此，可以有效关注到文本内容的整体特征；然后对文本图像进行分块处理，得到包括至少两个图像块的图像块序列；并通过图像评分模型的第二特征提取层，对图像块序列进行特征提取，得到文本图像中的文本内容在细节维度上的特征，基于此，可以有效提取文本内容对应的细节特征；接着通过图像评分模型的特征拼接层，将文本内容在整体维度上的特征以及文本内容在细节维度上的特征进行特征拼接，得到拼接特征，基于此，能够有效融合文本内容中整体特征以及文本内容的细节特征，提供更加丰富的特征信息；通过图像评分模型的评分预测层，对拼接特征进行评分预测，得到对应文本内容的第一评分。如此，能够有效融合文本图像中的文本内容在细节维度上的特征以及文本图像中的文本内容在整体维度上的特征，更加精准有效的对文本内容进行评分。

附图说明

图1是本申请实施例提供的基于人工智能的图像评分系统的一个可选的架构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3是本申请实施例提供的基于人工智能的图像评分方法的一个可选的流程示意图；

图4是本申请实施例提供的图像评分模型的一个可选的结构示意图；

图5是本申请实施例提供的待评分文本图像的一个可选的示意图；

图6是本申请实施例提供的图像分块的一个可选的示意图；

图7是本申请实施例提供的文本图像分块的一个可选的示意图；

图8是本申请实施例提供的第二特征提取层的一个可选的结构示意图；

图9是本申请实施例提供的第二特征提取层的一个可选的结构示意图；

图10是本申请实施例提供的注意力机制模型的一个可选的结构示意图；

图11是本申请实施例提供的基于人工智能的图像评分模型的训练方法的一个可选的流程示意图；

图12是本申请实施例提供的基于人工智能的图像评分方法的一个可选的流程示意图；

图13是本申请实施例提供的基于人工智能的图像评分系统的一个可选的结构示意图；

图14是本申请实施例提供的基于人工智能的图像评分方法的一个可选的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)变化编码器(Transformer Encoder)：Transformer Encoder模块使用了多头注意力Multi-Attention机制，不采用循环神经网络的顺序结构，使得模型可以并行化训练，而且能够拥有全局信息。

2)视觉变化编码器(Vision Transformer Encoder)：将计算机视觉和自然语言处理领域知识结合起来，对原始图片进行分块，展平成序列，输入进原始变换编码器(Transformer Encoder)部分，最后接入一个全连接层对图片进行分类。

3)视觉几何群网络(VGG，Visual Geometry Group Network)：VGG模型是传统的图像分类模型之一。VGG模型在多个迁移学习任务中的表现均优于大部分模型框架。VGG模型有多个版本，其网络结构有些许差异，其中比较通用的是VGG16。

相关技术中，针对文本图像中文本内容对应的卷面分评估方法主要有两种：一种是基于字体模板匹配的技术，其基本思想是建立不同字体模板库，通过图像与模板的匹配逐一计算试卷上手写体图像与模板图像的相似度，从而进行卷面分数的评分。基于字体模板匹配的技术虽然模型简单，但是只利用了字体库与试卷文本的相似度，并未参考整张试卷的整洁度。除此之外，基于模板匹配的技术也有计算速度慢，模板匹配不准等情况。

另一种是基于计算机视觉图像分类技术，通过传统的卷积神经网络对整个试卷扫描图像进行分类判分。基于计算机视觉图像分类技术，主要是依靠标注后的结果对整张图像进行分类判分，难以关注到图像本质细节。

基于此，本申请实施例提供一种基于人工智能的图像评分方法、装置、电子设备和计算机可读存储介质，能够有效融合文本图像中的文本内容在细节维度上的特征以及文本图像中的文本内容在整体维度上的特征，更加精准有效的对文本内容进行评分。

首先对本申请实施例提供的基于人工智能的图像评分系统进行说明，参见图1，图1是本申请实施例提供的基于人工智能的图像评分系统的一个可选的架构示意图，为实现支撑一个基于人工智能的图像评分应用，在基于人工智能的图像评分系统100中，终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200。

在一些实施例中，终端可以是笔记本电脑，平板电脑，台式计算机，智能手机，专用消息设备，便携式游戏设备，智能音箱，智能手表等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合。终端(示例性示出了终端400-1和终端400-2)以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，终端可以是笔记本电脑，平板电脑，台式计算机，智能手机，专用消息设备，便携式游戏设备，智能音箱，智能手表等，但并不局限于此。

服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

终端(如终端400-1)，用于发送评分请求至服务器200，以请求服务器200对评分请求中携带的文本图像中的文本内容进行评分。

服务器200，用于从评分请求中解析出包括文本内容的文本图像，通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到文本图像中的文本内容在整体维度上的特征；对文本图像进行分块处理，得到包括至少两个图像块的图像块序列；通过图像评分模型的第二特征提取层，对图像块序列进行特征提取，得到文本图像中的文本内容在细节维度上的特征；通过图像评分模型的特征拼接层，将文本内容在整体维度上的特征以及文本内容在细节维度上的特征进行特征拼接，得到拼接特征；通过图像评分模型的评分预测层，对拼接特征进行评分预测，得到对应文本内容的第一评分；

服务器200，还用于返回针对文本内容的第一评分给终端；

终端，还用于接收服务器200发送的针对文本内容的第一评分并呈现。

在一些实施例中，终端上设置有图像评分客户端(示例性示出了图像评分客户端410-1和图像评分客户端410-2)，用户基于图像评分客户端对文本图像中的文本内容进行评分，基于对包含文本内容的文本图像的选择操作，触发针对文本图像中文本内容的评分指令，图像评分客户端响应于评分指令，发送评分请求至服务器；服务器从评分请求中解析出包含文本内容的待评分文本图像后，通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到文本图像中的文本内容在整体维度上的特征；对文本图像进行分块处理，得到包括至少两个图像块的图像块序列；通过图像评分模型的第二特征提取层，对图像块序列进行特征提取，得到文本图像中的文本内容在细节维度上的特征；通过图像评分模型的特征拼接层，将文本内容在整体维度上的特征以及文本内容在细节维度上的特征进行特征拼接，得到拼接特征；通过图像评分模型的评分预测层，对拼接特征进行评分预测，得到对应文本内容的第一评分，并将第一评分返回至图像评分客户端，图像评分客户端呈现针对文本图像中的文本内容的第一评分。

接下来对本申请实施例提供的用于实施上述基于人工智能的图像评分方法的电子设备进行说明，参见图2，图2是本申请实施例提供的电子设备的结构示意图，在实际应用中，电子设备500可以实施为图1中的终端或服务器，以电子设备为图1所示的服务器200为例，对实施本申请实施例的基于人工智能的图像评分方法的电子设备进行说明。图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memo ry)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的基于人工智能的图像评分装置可以采用软件方式实现，图2示出了存储在存储器550中的基于人工智能的图像评分装置555，其可以是程序和插件等形式的软件，包括以下软件模块：第一特征提取模块5551、图像分块模块5552、第二特征提取模块5553、特征拼接模块5554和评分预测模块5555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的基于人工智能的图像评分装置可以采用硬件方式实现，作为示例，本申请实施例提供的基于人工智能的图像评分装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的基于人工智能的图像评分方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrate d Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

接下来说明本申请实施例提供的基于人工智能的图像评分方法。在一些实施例中，本申请实施例提供的基于人工智能的图像评分方法可以由终端或服务器单独实施，或者由终端及服务器协同实施。以服务器实施为例，参见图3，图3是本申请实施例提供的基于人工智能的图像评分方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

在步骤101中，服务器通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到所述文本图像中的文本内容在整体维度上的特征。

在通过图像评分模型对包括文本内容的文本图像进行评分之前，首先对图像评分模型的结构进行说明，参见图4，图4是本申请实施例提供的图像评分模型的一个可选的结构示意图，由于本申请实施例提供的图像评分模型需要同时关注到文本内容在整体维度上的特征以及文本内容在细节维度上的特征，因此，图像评分模型包括第一特征提取层(编号1)、第二特征提取层(编号2)、特征拼接层(编号3)以及评分预测层(编号4)。其中，第一特征提取层用于提取文本图像中的文本内容在整体维度上的特征；第二特征提取层用于提取文本图像中的文本内容在细节维度上的特征；特征拼接层用于对第一特征提取层的输出的整体特征以及第二特征提取层输出的细节特征进行特征拼接，得到同时融合了整体特征以及细节特征的拼接特征；评分预测层用于对特征拼接层输出的拼接特征进行评分预测得到针对文本内容的第一评分。

基于上述图像评分模型结构对第一特征提取层进行说明，第一特征提取层可以是常见的卷积神经网络模型。通过第一特征提取层的处理得到文本图像中的文本内容在整体维度上的特征(整体特征)，其中整体特征包括段落布局、涂改程度、行间距、段落间距、整洁度以及文本内容布局样式等。

在实际实施时，第一特征提取层可以采用VGG16卷积神经网络模型，VG G16卷积神经网络模型总共有16层，具体的层结构可以参见已有相关技术，这里不在赘述。通过VGG16卷积神经网络模型对文本图像中的文本内容进行特征提取，得到文本图像中的文本内容在整体维度上的特征。

在一些实施例中，服务器接收到的包含待评分文本内容的文本图像往往是一张包含多个文本内容区域的扫描图像，若需要对其中一个包含大篇幅文本内容的目标区域进行评分，需要先定位待评分的文本内容所在的目标区域。具体的，对待评分文本图像进行区域定位，以确定所述待评分文本图像中对应所述文本内容的目标区域；基于所述目标区域，对所述待评分文本图像进行区域分割，得到所述文本图像。

在实际实施时，对待评分文本图像进行区域定位是根据目标区域特有的集合特性完成区域定位，同时能够根据集合信息校正倾斜及透视畸形的原始扫描图像，得到仅保留待评分文本内容的文本图像。

示例性地，参见图5，图5为本申请实施例提供的待评分文本图像的一个可选的示意图，待评分文本图像为扫描的英语作文试卷，对作文区域(手写体区域)进行定位，获取左上角(编号1)、左下角(编号2)、右下角(编号3)以及右上角(编号4)对应的四点坐标，根据四点坐标信息对作文区域进行切割，得到待评分的作文区域对应的文本图像。

在一些实施例中，经过前述区域定位得到包含待评分文本内容的文本图像，经常会包含一些干扰信息以及图像扫描噪声，由于第一特征提取层即卷积神经网络模型对于处理的文本图像有一定的要求，因此需要对包含文本内容的文本图像进行图像预处理。具体的，基于所述目标区域，对所述待评分文本图像进行区域分割，得到包括所述文本内容的分割图像；对所述分割图像进行去干扰处理，得到所述文本图像。

在实际实施时，由于包含文本内容的文本图像多是经过扫描获取的扫描图像，为了减少扫描噪声以及其他干扰项的影响，需要对图像进行去干扰处理。其中，图像去干扰的方式包括但不限于对图像进行去噪、二值化等图像处理。本申请实施例对具体的图像去干扰方式不做限制。

在步骤102中，对文本图像进行分块处理，得到包括至少两个图像块的图像块序列。

对文本图像进行分块处理的原因进行说明，由于图4中图像评分模型的第二特征提取层是用于提取文本图像中的文本内容在细节维度上的特征(可称为细节特征)，其中，细节特征主要是指文本内容的书写情况，包括单词是否出现换行、单词间的连续性、重复程度、单词与单词之间的距离等。对于这种细节特征的提取，一般采用序列到序列(sequenceto sequence)的注意力机制模型，如Transformer Encoder模型，也即第二特征提取层中通常设置有序列到序列(sequence to sequence)的注意力机制模型。

但是，在实际应用中，sequence to sequence模型大部分是用来解决自然语言处理问题，要求输入的信息是一串序列，而包括文本内容的文本图像(不管是彩色模式图像还是灰度模式图像)是用矩阵表示的，因此在使用序列到序列的模型进行图像处理时，需要把图像对应的矩阵转换成序列表示，即需要对文本图像进行分块处理，得到一系列的图像块，基于图像块，将图像的矩阵表示转换成序列表示。

对将图像的矩阵表示转换成序列表示的转换方法进行说明，参见图6，图6是本申请实施例提供的图像分块的一个可选的示意图，获取一张完整的扫描文本图像，首先将文本图像划分成一系列连续的尺寸相同的图像块(编号1)，并按从左至右，从上至下的顺序组成图像序列块(编号2)，映射后的特征格式如下：

上述特征格式中，首先把X∈H×W×C的图像，变成一个X_P∈N×(P²·C)的展平的图像块序列，这个图像块序列中一共有N＝HW/P²个展平的图像块，每个块的维度是(P²·C)，其中P是每个图像块的大小，C是通道数，彩色模式的图像C等于3，灰度模式的图像时C等于1。

示例性地，参见图6，以扫描图像为英语作文扫描图像为例，设置文本图像是大小为48*48的灰度模式的图像，此时通道数为1，划分成多个大小为16*16的图像块(编号为1)，并按从左至右，从上至下的顺序组成图像块序列，图像块序列(编号2)中一共有9个展平的图像块，每个图像块被展平成一个维度D为256(16*16*1)的向量。最后得到文本图像的图像表示序列，该图像表示序列中包含9个连续的维度为256的向量。

在一些实施例中，输入的包含文本内容的文本图像通常是试卷主观题对应的文本图像，如英语作文、语文作文等主观题对应的文本图像。为了便于分块处理，可以直接按照行进行分块，参见图7，图7是本申请实施例提供的文本图像分块的一个可选的示意图，图7中将一张包含文本内容的灰度模式的文本图像按照行的方式，每一行被划分成一个图像块，编号1-9表示将文本图像按行分块，得到9个图像块，各图像块的大小相同。例如，图像块大小为24*16，将每个图像块被展平成一个维度为(24*16*1)的向量，得到文本图像的图像表示序列，该图像表示序列中包含9个连续的维度为(24*16*1)的向量。

在步骤103中，通过图像评分模型的第二特征提取层，对图像块序列进行特征提取，得到文本图像中的文本内容在细节维度上的特征。

由前述描述可知，第二特征提取层要求输入的信息是文本图像对应的图像序列表示，且第二特征提取层是提取文本内容在细节维度上的特征(细节特征)，其中，细节特征主要是指文本内容的书写情况，包括单词是否出现换行、单词间的连续性、重复程度、单词与单词之间的距离等。

在通过第二特征提取层提取文本内容在细节维度上的特征之前，首先对第二特征提取层的结构进行说明，在一些实施例中，参见图8，图8是本申请实施例提供的第二特征提取层的一个可选的结构示意图，第二特征提取层(编号1)可以划分为映射层(编号2)、上下文特征提取层(编号3)以及细节特征提取层(编号4)，映射层用于对图像块序列进行特征映射，得到图像块序列对应的图像表示序列；上下文特征提取层用于对图像表示序列进行上下文特征提取，得到上下文特征；细节特征提取层用于对上下文特征进行细节特征提取，得到文本图像中的文本内容在细节维度上的特征。其中，映射层(编号2)可以进一步划分为转换层以及位置编码层，转换层用于对图像块序列进行向量转换，得到相应的特征向量；位置编码层，用于对图像块序列进行位置编码，得到相应的位置编码向量；然后将特征向量中各图像块对应的子特征向量以及各图像块对应的位置编码向量对位相加，得到图像块序列对应的图像表示序列。

在实际实施时，映射层对图像块对应的向量做一个线性变换；上下文特征层可以是常见的sequence to sequence(序列to序列)的注意力机制模型；细节特征提取层可以是常见的多层前馈神经网络模型，用于对注意力机制模型输出的上下文特征进行分类或回归计算，得到对应的细节特征。

在实际实施时，上下文特征提取层通常使用注意力机制模型。例如，可以是一个基于Transformer Encoder的注意力机制模型；细节特征提取层可以是一个多层前馈神经网络，也称为多层感知机(MLP，Multilayer Perceptron)。其中，细节特征提取层针对上下文特征提取层输出的连续的上下文特征序列，可以选用离散区间分类方式或连续回归数值方式对上下文特征进行计算，得到相应的细节特征。细节特征提取层可以是多层感知网络(MLP)模型，MLP模型可以进行连续回归数值方式或离散区间分类方式计算，但是由于针对卷面分的评阅，得到的最终评分是离散数据且总体分数不高，可以选用离散区间分裂方式进行计算。

对获取图像表示序列的方式进行说明，在一些实施例中，参见图9，图9是本申请实施例提供的第二特征提取层的一个可选的结构示意图，对于输入第二特征提取层的图像块序列(编号1)，由于进行图像分块时，是直接把包含文本内容的文本图像拆分一系列连续的图像块，丢失了每个图像块相对于原始文本图像的位置信息。为了补偿丢失的位置信息，设置映射层，用于对每个图像块在文本图像中的原始位置信息进行位置编码，得到每个图像块对应的位置编码向量(Position Embedding)，并与图像块的表示向量(PatchEmbedding)进行对位相加，得到包含有位置信息的特征向量，如图中编号3表示第9个图像块经过映射层进行特征映射后得到的带有位置信息的特征向量，依此方法，分别对每个图像块进行上述操作，得到文本图像包含位置信息的图像表示序列。

在实际实施时，通常是给每一个位置规定一个表示位置信息的向量eⁱ，i是正整数，向量eⁱ与对应图像块的Patch Embedding对位相加之后得到携带有位置信息的编码向量，参与后面的运算过程。需要说明的是，这个向量eⁱ是由人工设定的，不是神经网络学习出来的。每一个位置都有一个不同的eⁱ，且eⁱ的维度与Patch Embedding的维度一致，并与图像块对应的Patch Embedding进行对位相加(即两个维度相同的向量，相同位置的元素进行相加)。

示例性地，图9中，输入一张48×48×1的目标文本图像(灰度模式的图像)，设定图像块大小P(如设置为16)，可以把图像划分为N个P×P×C(16×16×1)的区块，N＝H×W/(P×P)(N＝9)。得到N个图像块后使用线性变换转为D(D＝P×P×C，D＝16×16×1＝256)维特征向量，再加上位置编码向量即可。输入的目标文本图像一行有3个Patch，一列也有3个Patch，每个Pa tch大小为16*16(包含256个值得向量)。对每个图像块(Patch)按行的顺序编号，采用{1，2，3，4，5，6，7，8，9}这样编号作为位置编码层的输入，输出D维度的位置编码向量，即图像块对应的位置编码向量的维度与图像块对应的特征向量维度相同，然后将位置编码向量与对应Patch的特征向量进行对位相加得到各个图像块带有位置信息的特征向量。

对上下文特征提取层进行说明，在一些实施例中，参见图9中，上下文特征提取层可以是基于Transformer Encoder的多头注意力机制模型(编号5)。该层的输入信息是各个带有位置信息的图像块特征向量组合成的图像表示序列。

注意力机制的本质是从大量信息中筛选出高价值信息的手段，在大量信息中，不同信息对于结果的重要性是不同的，这种重要性可以通过赋予不同大小的注意力权重来体现，换言之，注意力机制可以理解成对多个输入进行合成时分配权重的一种机制。

参见图10，图10是本申请实施例提供的注意力机制模型的一个可选的结构示意图，Transformer Encoder注意力机制模型主要由多头自注意力(Multi-Head Attention)和多层感知网络或多层前馈神经网络(MLP)(两层使用GE LU激活函数的全连接网络)组成，在Multi-Head Attention和MLP之前加上L ayer Norm(归一化或标准化层，Norm层)和残差连接(Add层)，Add表示残差连接(Residual Connection)用于防止网络退化，Norm表示Layer Norma lization，用于对每一层的激活值进行归一化。

在一些实施例中，上下文特征提取层包括多个子特征提取层，每个子特征提取层的结构如图10所示，即多头注意力机制模型包括多个具有不同网络参数的注意力子网络，每个注意力子网络中的网络参数用于从不同角度表征各个上下文特征元素针对文本内容的评分的重要度(或影响程度)。将图像表示序列分别输入每个注意力子网络，并将所有注意力子网络的输出进行拼接，可以得到文本图像中文本内容对应的特征向量。具体的，通过所述至少两个子特征提取层，分别对所述图像表示序列进行上下文特征提取，得到至少两个上下文特征；相应的，所述通过所述细节特征提取层，对所述上下文特征进行细节特征提取，得到所述文本图像中的文本内容在细节维度上的特征，包括：对所述至少两个上下文特征进行组合，得到对应所述图像表示序列的组合上下文特征；对所述组合上下文特征进行细节特征提取，得到所述文本图像中的文本内容在细节维度上的特征。

采用多头注意力机制模型，可以从多个不同角度分别为文本内容在不同细节维度上的特征元素设置权重，例如，以英语作文对应的文本图像为例，可以基于单词与单词之间的粘连程度对应的细节特征，设置该细节特征在对文本内容进行评分(即评估英语作文卷面分)时的权重(体现单词与单词之间的粘连程度这一细节特征，在评估英语作文卷面分时的影响程度)。或者基于手写体大小不一致这个细节特征设置权重。或者基于分词与上下文其它分词之间的关系设置权重。从不同角度，综合考虑多种不同维度中各上下文特征对应权重的影响，可以提高针对文本内容评分的准确率(即评估英语作文卷面分的准确性)。

在步骤104中，通过图像评分模型的特征拼接层，将文本内容在整体维度上的特征以及文本内容在细节维度上的特征进行特征拼接，得到拼接特征。

在进行特征拼接之前，需要接收第一通知消息以及第二通知消息，其中，第一通知消息用于指示接收到第一特征提取层输出的文本图像中文本内容在整体维度上的特征(整体特征)，第二通知消息用于指示接收到第二特征提取层输出的文本图像中文本内容的在细节维度上的特征(细节特征)；接收到第一通知消息以及第二通知消息后，拼接得到的整体特征以及细节特征，得到拼接特征。

在实际实施时，得到的拼接特征融合了文本图像中文本内容的细节特征以及文本图像中文本内容的整体特征。参见图5中的英语作文对应的本文图像(或其他常见的主观题对应的文本图像)，拼接特征同时融合了该文本图像中整体卷面整洁度，以及文本图像中文本内容的书写情况，为评估该文本图像的卷面分提供了更丰富的特征信息，能够更加有效的提高评估卷面分的准确性。

在步骤105中，通过图像评分模型的评分预测层，对拼接特征进行评分预测，得到对应所述文本内容的第一评分。

这里，第一评分是基于文本图像中文本内容的细节特征以及文本图像中文本内容的整体特征融合得到的。若文本图像是常见的试卷中主观题对应的文本图像，第一评分就是该主观题的卷面分得分。

在一些实施例中，评分预测层可以是一层或多层全连接层，用于对拼接特征进行降维处理，将降维后的拼接特征输入分类器，分类器输出文本图像中的文本内容对应的评分所归属的评分等级或者与某个评分等级匹配的概率。其中，评分等级是在进行评分预测前，预先划分不同的分数段，每个分数段对应一个评分等级。本申请实施例对评分等级的划分形式不做限制。

在实际实施时，可以选用softmax分类器给出文本图像中文本内容对应的评分，该评分是基于文本图像中的文本内容在细节维度上的特征以及文本图像中的文本内容在整体维度上的特征得到的，更加准确。

在一些实施例中，参见图11，图11是本申请实施例提供的基于人工智能的图像评分模型的训练方法的一个可选的流程示意图，基于图3，在步骤101之前，还需要对图像评分模型进行训练，得到训练完成的图像评分模型，结合图11示出的步骤进行说明。

步骤201，服务器获取包括文本内容的文本图像样本及所述文本图像样本对应的标准评分。

步骤202，通过图像评分模型的第一特征提取层，对文本图像样本进行特征提取，得到文本图像样本中的文本内容在整体维度上的特征。

步骤203，对文本图像样本进行分块处理，得包括至少两个图像块的图像块序列。

步骤204，通过图像评分模型的第二特征提取层，对图像块序列进行特征提取，得到文本图像中的文本内容在细节维度上的特征。

步骤205，通过图像评分模型的特征拼接层，将文本内容在整体维度上的特征以及文本内容在细节维度上的特征进行特征拼接，得到拼接特征。

步骤206，通过图像评分模型的评分预测层，对拼接特征进行评分预测，得到对应文本内容的预测评分。

步骤207，基于预测评分与标准评分之间的差异，更新图像评分模型的模型参数。

重复执行步骤202至207，直至图像评分模型达到收敛条件，得到训练完成的图像评分模型。这里，收敛条件可以是模型损失函数收敛或者是模型参数收敛或者是达到最大迭代次数或者是达到最大训练时间。

在一些实施例中，将包括文本内容的文本图像输入至前述训练完成图像评分模型得到对应该文本内容的第一评分。若文本图像是试卷中主观题对应的文本图像，则第一评分就是该主观题的卷面分得分。为了获取该文本内容对应的综合评分，需要获取根据文本内容与标准答案信息之间的差异所确定的文本内容对应的第二评分，这里，第二评分是指主观题所答内容是否正确的评分。然后基于第一评分(卷面分)以及第二评分(答案是否正确的得分)确定主观题对应的最终评分。具体的，对所述文本图像的文本内容进行提取，得到目标文本内容；将所述目标文本内容与标准文本内容进行匹配，得到匹配结果，并基于所述匹配结果，确定所述目标文本内容的第二评分；基于所述第一评分及所述第二评分，确定对应所述文本内容的综合评分。

首先，对文本图像中的文本内容的提取方式进行说明，需要注意的是，文本内容的提取方式不是唯一的，其提取方式具有多元化的特性，包括但不限于以下的方式：通过光学字符识别(OCR，Optical Character Recognition)等技术提取文本图像中的文本内容；或者基于深度学习的语义分割方法提取文本图像中的文本内容。将从文本图像中提取的文本内容作为目标文本内容。如，若文本图像是扫描的试卷主观题图像，则目标文本内容一般是指手写体文本内容。

然后，基于获取的目标文本内容确定第二评分，第二评分是文本图像中的文本内容与标准文本内容(又称标准答案信息)进行匹配后的得分。在一些实施例中，将目标文本内容与标准文本内容进行匹配的具体方式可以包括，通过语义特征提取网络，分别提取目标文本内容对应的第一语义向量以及标准文本内容对应的第二语义向量，并对第一语义向量以及第二语义向量进行相似度计算，基于相似度计算结果，完成对目标文本内容的第二评分(即相似度越高说明文本内容与标准文本内容越相似，对应目标文本内容的第二评分越高)。

在另一些实施例中，获取的目标文本内容对应的第二评分，还可以通过获取并计算目标文本内容在每个评分维度下的维度分数，其中，评分维度可以包括扣题维度、语句通顺维度、文采维度、立意维度中的一种或多种组合，然后根据计算出的维度分数，确定目标文本内容的第二评分。其中，根据维度分数确定第二评分的具体方式可以包括将得到的各维度分数进行累加，得到的累加分数作为目标文本内容的第二评分；或者是为不同的评分维度设置对应的权重，根据得到的维度分数以及该维度分数对应评分维度的权重，确定目标文本内容的第二评分。本申请实施例中对确定目标文本内容的第二评分的方式不做限制。

在得到目标文本内容的第一评分以及第二评分后，确定目标文本内容的综合评分。需要说明的是，确定目标文本内容的综合评分的方式可以根据不同的应用场景或者不同的需求选择、设置适应性的确定方式。在一些实施例中，可以直接对得到的第一评分与第二评分求和，将求和分数作为文本内容的综合评分。在另一些实施例中，还可以预先设置第一评分对应的权重，以及第二评分对应的权重，然后，根据第一评分、第一评分对应的权重、第二评分、以及第二评分对应的权重确定文本内容的综合评分。示例性地，第一评分是A，第一评分对应的权重是wa，第二评分是B，第二评分对应的权重是w_b，则综合评分为w_a×A+w_b×B。本申请实施例对确定目标文本内容的综合评分的方式不做限制。

综上所述，本申请实施例通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到文本图像中的文本内容在整体维度上的特征，基于此，可以有效关注到文本图像的整体特征；然后对文本图像进行分块处理，得到包括至少两个图像块的图像块序列；并通过图像评分模型的第二特征提取层，对图像块序列进行特征提取，得到文本图像中的文本内容在细节维度上的特征，基于此，可以有效提取文本图像中的细节特征；接着通过图像评分模型的特征拼接层，将文本内容在整体维度上的特征以及文本内容在细节维度上的特征进行特征拼接，得到拼接特征，基于此，能够同时融合文本图像中的上下文信息以及文本图像整体特征，并提供更加丰富的特征信息；通过图像评分模型的评分预测层，对拼接特征进行评分预测，得到对应文本内容的第一评分。如此，能够有效融合文本图像中的文本内容在细节维度上的特征以及文本图像中的文本内容在整体维度上的特征，更加精准有效的对文本内容进行评分。

接下来继续对本申请实施例提供的基于人工智能的图像评分方法进行介绍，图12是本申请实施例提供的基于人工智能的图像评分方法的一个可选的流程示意图，参见图12，本申请实施例提供的基于人工智能的图像评分方法由客户端、服务器协同实施。结合图12示出的步骤进行说明。

步骤301，终端发送携带待评分文本图像的评分请求至服务器。

步骤302，服务器解析接收到评分请求，得到包含文本内容的待评分文本图像。

步骤303，服务器对得到的待评分文本图像进行区域定位，确定待评分文本图像中对应文本内容的目标区域。

步骤304，基于确定的目标区域，对待评分文本图像进行区域分割，得到目标文本图像。

这里，目标文本图像是仅包含需要评分的文本内容。

步骤305，服务器获取训练完成的图像评分模型，并将目标文本图像输入至图像评分模型的第一特征提取层。

步骤306，通过图像评分模型的第一特征提取层，对目标文本图像进行特征提取，得到目标文本图像中的文本内容的整体特征。

步骤307，对目标文本图像进行分块处理，得到包括至少两个图像块的图像块序列。

这里，目标文本图像经过步骤304输出的。

步骤308，通过图像评分模型的映射层，对图像块序列进行特征映射，得到图像块序列对应的图像表示序列。

步骤309，通过图像评分模型的上下文特征提取层，对图像表示序列进行上下文特征提取，得到上下文特征。

步骤310，通过图像评分模型的细节特征提取层，对上下文特征进行细节特征提取，得到文本图像中的文本内容在细节维度上的特征。

步骤311，通过图像评分模型的特征拼接层，将文本内容在整体维度上的特征以及文本内容在细节维度上的特征进行特征拼接，得到拼接特征。

步骤312，通过图像评分模型的评分预测层，对拼接特征进行评分预测，得到对应文本内容的第一评分。

步骤313，服务器将对应文本内容的第一评分发送至终端。

步骤314，终端接收到对应文本内容的第一评分并展示第一评分。

需要说明的是，步骤306是提取文本图像中的文本内容在整体维度上的特征，步骤307至步骤310是提取文本图像中的文本内容在细节维度上的特征。步骤306以及步骤307-310是并行处理的两个过程，相互独立。步骤306以及步骤307-310没有严格的前后执行顺序。

本申请实施例通过融合目标文本图像中文本内容在整体维度上的整体特征以及目标文本图像中文本内容在细节维度上的细节特征，得到特征更加丰富拼接特征，基于拼接特征对文本内容进行评分，能够精确的评估文本内容书写情况以及卷面整洁度，进而更加精准有效的评估文本内容对应的卷面分得分，并能大幅度减少教研人员人力成本，加速智能评估卷面分的流程。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

目前，教育领域对试卷扫描图像进行智能评分，往往仅参考识别后的文字结果，还需要教研人员参与卷面分的打分环节。

相关卷面分打分技术中，基于字体模板匹配的技术虽然模型简单，但是只利用了字体库与试卷文本的相似度，并未参考整张试卷的整洁度。除此之外，基于模板匹配的技术也有计算速度慢，模板匹配不准等情况。基于计算机视觉图像分类技术，主要是依靠标注后的结果对整张图像进行分类判分，难以关注到图像本质细节。

基于此，本申请实施例提出一种基于Transformer的图像判分算法，融合使用Transformer以及卷积神经网络对卷面分进行综合打分，综合考虑卷面分的评分维度包括整体维度和细节维度。其中，整体维度包括段落布局、涂改程度、行间距、字忽大忽小等；细节维度包括一个单词是否出现换行、单词间的连续性、重复程度、单词与单词之间的距离。得出可靠结果并节省人力成本。

本申请实施例在基于计算机视觉图像分类基础上进行了优化，通过融合Transformer模块以及Resnet Block模块(Transformer模块中使用Resnet Block对应的残差网络)构建模型，不仅可以有效的提取图像中的上下文信息(细节特征)，还可以关注到图像整体特征。本申请实施例通过改进的基于人工智能的图像评分模型能够更加精确的预测出学生的卷面分分数。参见图13，图13是本申请实施例提供的基于人工智能的图像评分系统的一个可选的结构示意图，结合图13可知，使用图像评分模型对学生作答扫描图像进行卷面分评分的整个处理过程包括图像预处理流程以及图像评分模型处理流程。具体处理过程，参见图14，图14是本申请实施例提供的基于人工智能的图像评分方法的一个可选的流程示意图，下面将结合图14示出的步骤进行说明。

步骤401，客户端采集学生作答扫描图像，并将学生作答扫描图像作为输入信息，发送至服务器。

步骤402，服务器接收到学生作答扫描图像，对该图像进行预处理，得到目标文本图像。

对图像进行预处理的方式进行说明，首先，基于试卷模板对学生作答扫描图像进行模板匹配，根据模板上标定的学生主观题作答区域进行图像切割，提取学生主观题作答区域相应的左上角、左下角、右下角、右上角对应的四点坐标，基于四点坐标确定作答区域文本图像。并对作答区域文本图像进行去噪及二值化等图像处理，减少扫描噪声影响，得到目标文本图像。

步骤403，将目标文本图像输入第一特征提取层，进行特征提取，得到全图特征。

这里，第一特征提取层是对目标文本图像执行图像分割操作，获取目标文本图像的整体特征。其中，第一特征提取层可以是常见的卷积神经网络结构，在实际实施时，可以使用基础的VGG16模型网络对目标文本图像进行特征提取，得到与目标文本图像对应的全图特征(整体特征)。全图特征(整体特征)一般指目标文本图像整体卷面的整洁度。

步骤404，将目标文本图像进行图像分块处理，得到包括至少两个图像块的图像块序列。

对于目标文本图像卷面评分时，还需要考虑目标文本的书写情况，比如目标文本中词与词之间的黏连情况、针对英文单词而言，单个单词是否存在跨行情况、词中的字或字母是否忽大忽小等。基于此，使用基于Transformer Encod er模型的第二特征提取层对目标文本图像的上下文特征进行提取，得到相应的上下文特征。但是，由于在实际应用中，Transformer Encoder是用来解决自然语言处理(NLP)问题，要求输入的信息是一串单词的序列，而目标文本图像(不管是彩色图像还是灰度图像)是用矩阵表示的，在使用Transformer进行图像处理时，需要把矩阵转换成序列。

对矩阵到序列的具体转换方法进行说明，参见图6，获取一张完整的目标文本图像，首先将目标文本图像划分成一系列连续的尺寸相同的图像块(编号1)，并按从左至右，从上至下的顺序组成图像序列块(编号2)，映射后的特征格式如下：

示例性地，参见图6，设置目标文本图像是大小为48*48的灰度模式的图像，此时通道数为1，划分成多个大小为16*16的图像块(编号为1)，并按从左至右，从上至下的顺序组成图像块序列，图像块序列(编号2)中一共有9个展平的图像块，每个图像块被展平成一个维度为256(16*16*1)的向量。

步骤405，将图像块序列输入至第二特征提取层，进行上下文特征提取，得到上下文特征。

这里，第二特征提取层采用Transformer Encoder模型结构，参见图10，一个Transformer Encoder模型可以包含多个编码层Encoder，如图中的“Lx”，表示编码层的个数L个，其中Transformer Encoder采用多头注意力(Multi-He ad Attention)机制代替原有单头注意力，融合特征效果更强。

步骤406，将得到的上下文特征输入至细节特征特征提取层，进行细节特征提取，得到目标文本图像中的文本内容在细节维度上的特征。

这里，细节特征提取层可以是多层感知网络(MLP)模型，MLP模型可以进行连续回归数值方式或离散区间分类方式计算，但是由于针对卷面分的评阅，得到的最终评分是离散数据且总体分数不高，可以选用离散区间分裂方式进行计算，得到相应的细节特征。

需要说明的是，步骤404至步骤406是基于Transformer Encoder模型对目标文本图像进行上下文特征提取的详细过程，与步骤403通过卷积神经网络(V GG)提取全图特征的处理过程是并行执行的。

步骤407，服务器接收到第一通知消息以及第二通知消息，将得到的整体特征和细节特征进行特征拼接，得到拼接特征。

在进行特征拼接之前，需要先接收第一通知消息以及第二通知消息，其中，第一通知消息用于指示接收到目标文本图像中文本内容的整体特征(即步骤403的输出)，第二通知消息用于指示接收到针对目标文本图像中文本内容的细节特征(即步骤406的输出)；接收到第一通知消息以及第二通知消息后，拼接得到的整体特征以及细节特征，得到拼接特征。

步骤408，将得到的拼接特征输出至评分预测层，进行卷面分得分预测，得到最终卷面分评分。

步骤409，将最终卷面分评分发送至客户端。

本申请实施例提供的卷面分数自动判分是以学生的答题结果扫描图像为训练样本，对构建图像评分模型进行训练，得到训练完成的图像评分模型，该模型同时考虑了图像中上下文信息以及图像整体特征，通过该模型对学生作答结果进行自动判分，能够精确的评估学生书写情况以及卷面整洁度，进而更加精准有效的评估学生卷面分得分，并能大幅度减少教研人员人力成本，加速智能判卷流程。

下面继续说明本申请实施例提供的基于人工智能的图像评分装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的基于人工智能的图像评分装置555中的软件模块可以包括：

第一特征提取模块5551，用于通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取，得到所述文本图像中的文本内容在整体维度上的特征；

图像分块模块5552，用于对所述文本图像进行分块处理，得到包括至少两个图像块的图像块序列；

第二特征提取模块5553，用于通过图像评分模型的第二特征提取层，对所述图像块序列进行特征提取，得到所述文本图像中的文本内容在细节维度上的特征；

特征拼接模块5554，用于通过图像评分模型的特征拼接层，将所述文本内容在整体维度上的特征以及所述文本内容在细节维度上的特征进行特征拼接，得到拼接特征；

评分预测模块5555，用于通过图像评分模型的评分预测层，对所述拼接特征进行评分预测，得到对应所述文本内容的第一评分。

在一些实施例中，所述装置还包括图像预处理模块，所述图像预处理模块，用于对待评分文本图像进行区域定位，以确定所述待评分文本图像中对应所述文本内容的目标区域；

在一些实施例中，所述图像预处理模块，还用于基于所述目标区域，对所述待评分文本图像进行区域分割，得到包括所述文本内容的分割图像；

对所述分割图像进行去干扰处理，得到所述文本图像。

在一些实施例中，所述第二特征提取模块包括映射层、上下文特征提取层以及细节特征提取层，所述第二特征提取模块还用于通过所述映射层，对所述图像块序列进行特征映射，得到所述图像块序列对应的图像表示序列；

在一些实施例中，所述第二特征提取模块中的映射层包括转换层和位置编码层，所述第二特征提取模块还用于通过所述转换层，对所述图像块序列进行向量转换，得到相应的特征向量；

在一些实施例中，所述第二特征提取模块中的上下文特征提取层包括至少两个子特征提取层，所述第二特征提取模块还用于通过所述至少两个子特征提取层，分别对所述图像表示序列进行上下文特征提取，得到至少两个上下文特征；

在一些实施例中，所述装置还包括模型训练模块，所述模型训练模块，用于获取包括文本内容的文本图像样本及所述文本图像样本对应的标准评分；

在一些实施例中，所述评分预测模块，还用于对所述文本图像的文本内容进行提取，得到目标文本内容；

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的图像评分方法，例如，如图3示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例能够有效融合文本图像中的文本内容在细节维度上的特征以及文本图像中的文本内容在整体维度上的特征，更加精准有效的对文本内容进行评分，并能大幅度减少教研人员人力成本，加速智能判卷流程。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的图像评分方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取之前，还包括：

对待评分文本图像进行区域定位，以确定所述待评分文本图像中对应所述文本内容的目标区域；

3.如权利要求2所述的方法，其特征在于，所述基于所述目标区域，对所述待评分文本图像进行区域分割，得到所述文本图像，包括：

基于所述目标区域，对所述待评分文本图像进行区域分割，得到包括所述文本内容的分割图像；

对所述分割图像进行去干扰处理，得到所述文本图像。

4.如权利要求1所述的方法，其特征在于，所述第二特征提取层包括映射层、上下文特征提取层以及细节特征提取层；

所述通过图像评分模型的第二特征提取层，对所述图像块序列进行特征提取，得到所述文本图像中的文本内容在细节维度上的特征，包括：

通过所述映射层，对所述图像块序列进行特征映射，得到所述图像块序列对应的图像表示序列；

5.如权利要求4所述的方法，其特征在于，所述映射层包括转换层和位置编码层，所述通过所述映射层，对所述图像块序列进行特征映射，得到所述图像块序列对应的图像表示序列，包括：

通过所述转换层，对所述图像块序列进行向量转换，得到相应的特征向量；

6.如权利要求4所述的方法，其特征在于，所述上下文特征提取层包括至少两个子特征提取层，所述通过所述上下文特征提取层，对所述图像表示序列进行上下文特征提取，得到上下文特征，包括：

通过所述至少两个子特征提取层，分别对所述图像表示序列进行上下文特征提取，得到至少两个上下文特征；

所述通过所述细节特征提取层，对所述上下文特征进行细节特征提取，得到所述文本图像中的文本内容在细节维度上的特征，包括：

对所述至少两个上下文特征进行组合，得到对应所述图像表示序列的组合上下文特征；

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

对所述文本图像的文本内容进行提取，得到目标文本内容；

8.如权利要求1所述的方法，其特征在于，所述通过图像评分模型的第一特征提取层，对包括文本内容的文本图像进行特征提取之前，还包括：

获取包括文本内容的文本图像样本及所述文本图像样本对应的标准评分；

9.一种基于人工智能的图像评分装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至8任一项所述的基于人工智能的图像评分的方法。