CN116229584A

CN116229584A - 一种人工智能领域的文本分割识别方法、系统、设备及介质

Info

Publication number: CN116229584A
Application number: CN202211736682.3A
Authority: CN
Inventors: 陈双浩; 覃勋辉; 刘科
Original assignee: Chongqing Aos Online Information Technology Co ltd
Current assignee: Chongqing Aos Online Information Technology Co ltd
Priority date: 2022-12-31
Filing date: 2022-12-31
Publication date: 2023-06-06

Abstract

本申请公开一种人工智能领域的文本分割识别方法，若干三元组构成手写签名文本‑图像数据集，预训练文本编码器、多尺度图像编码器分别将手写签名语义内容和包含签名的图像映射到特征嵌入空间，并对像素嵌入与对应的签名内容嵌入进行对齐，根据签名内容对图像特定区域进行分割，并鉴于语义相似的标签可能映射到嵌入空间中的相似区域；文本.图像后处理模块根据最终得到的像素特征嵌入，实现对手写输入文本的准确分割识别。本申请适用于电子商务、电子政务等中人工智能的应用。

Description

一种人工智能领域的文本分割识别方法、系统、设备及介质

技术领域

本发明涉及计算机信息处理技术领域、大数据、人工智能应用技术领域，具体是一种基于语义驱动的手写文本分割识别方法。

背景技术

文本自动处理属于人工智能的三大块领域之一，具有广阔应用。在对图像、语音等感知层面的处理完成后，进一步对文本进行认知层面的自动处理，模拟人类智慧分析过程，号称是人工智能皇冠上的明珠。

随着基于电子手写签署中生物特征识别技术实现的原笔迹签名产品在金融、政务、司法、公共安全、民生等众多领域的广泛推广，手写电子签名的应用场景也在逐步扩大，但随着手写电子签名笔迹在不同重要领域的应用，各种形式的攻击以及挑战也是层出不穷，这对于手写电子签名笔迹比对的精度以及抗攻击能力也带来了较大的威胁，因此提升优化电子手写签署笔迹识别验证的需求也就迫在眉睫。

公开号CN114758128A，名称“基于受控像素嵌入表征显式交互的场景全景分割方法及系统”，公开一种基于受控像素嵌入表征显式交互的场景全景分割方法及系统，包括对输入模型的图像进行特征编码，对特征编码器的输出进行解码，得到像素语义表征和实例表征；通过度量优化后模型输出的实例质心COI的高维特征向量与像素实例表征的相似度来进行实例分割，进而完成全景分割。该申请的视觉语义表征由模型自主学习而定，自由度较低，缺乏灵活性和通用性。

公开号：CN113239153A，名称“一种基于实例遮掩的文本与图像互检索方法”，公开一种基于实例遮掩的文本与图像互检索方法，输入由文本与图像构成的样本对；以将图像嵌入到视觉语义空间；以将文本嵌入到视觉语义空间；在视觉语义空间中度量向量间的相似度，以返回与查询样本相似度从高到低的序列。该申请侧重于整体文本图像的全局特征对齐，缺乏指定文本特征与局部像素特征对齐的能力，在图像分割任务上的迁移存在局限性。

发明内容

有鉴于此，针对现有手写签名分割方法无差别对文本像素进行分类，缺乏灵活性和通用性，提供了一种全新的视觉-语言学习方式，利用当前现代语言预训练模型获取指定内容的文本表征作为监督，在特征空间，约束像素嵌入与对应的签名内容嵌入进行对齐，实现根据签名内容对图像特定区域进行分割，基于现代语言模型，使用签名语义信息驱动签名分割。

根据本申请的一方面，提出一种人工智能领域的文本分割识别方法，包括，若干三元组构成手写签名文本-图像数据集，预训练文本编码器、多尺度图像编码器分别将手写签名语义内容和包含签名的图像映射到特征嵌入空间，并对像素嵌入与对应的签名内容嵌入进行对齐，根据签名内容对图像特定区域进行分割，并鉴于语义相似的标签可能映射到嵌入空间中的相似区域；文本.图像后处理模块根据最终得到的像素特征嵌入，实现对手写输入文本的准确分割识别。

进一步优选，由预训练文本编码器、多尺度图像编码器、文本-图像对后处理模块构成深度签名分割模型，通过深度签名分割模型训练计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，对应签名内容嵌入相同的像素特征，其中，预训练文本编码器以若干签名内容集合为输入，将其映射到特征嵌入空间；多尺度图像编码器以包含签名的图像为输入，进行多尺度特征编码，映射到特征嵌入空间；文本-图像后处理模块包含文本-图像对齐部分和对齐结果上采样部分，其中，文本-图像对齐部分计算像素特征嵌入与文本特征嵌入间的相似性，为每个像素嵌入匹配最相近的签名内容嵌入，对齐结果上采样部分对对齐结果进行上采样，还原至原始分辨率大小。

进一步优选，文本编码器采用基于对比学习预训练语言-图像模型，将签名内容映射到高维的特征嵌入空间，输出向量集合与输入标签的顺序不变，以N个签名内容集合为输入，经前向传播得到N个连续的文本特征嵌入T＝{T₁,T₂,…,T_N}。

进一步优选，多尺度图像编码器以ResNet50网络为基本骨架，移除其中的全连接层后，直接对图像进行特征编码，输入预定数量N个包含签名的图像，经前向传播，进行多尺度特征编码，得到N个尺度的中间特征图，对N个特征图依次上采样操作，统一至相同的分辨率大小尺度，送入到自适应尺度融合模块进行多尺度上下文信息融合，得到融合后的特征K∈R^C×H×W，通过卷积核大小为1x1的卷积操作，进行通道压缩，得到最终的像素特征嵌入I∈R^C×H×W。

进一步优选，在上采样之前，由一个基于深度可分离卷积和一个非线性激活层对融合特征F进行卷积处理，即，根据公式：J＝Upsample(MaxPooling(F)+Depthwise_Conv(F))获得手写签名文本最终的分割结果，其中，MaxPooling表示最大池化操作，Depthwise_Conv表示深度可分离卷积操作。

进一步优选，多尺度图像编码器使用自适应多尺度融合模块进行上下文融合，通过融合多个尺度的特征图上下文信息弥补下采样操作导致的笔画细节丢失，具体包括：基于多尺度图像编码器得到的N个不同尺度特征图依次进行上采样操作，统一到相同分辨率大小，根据特征图的高H和宽W确定特征图

其中第i个特征：X_i∈R^C×H×W，对N个特征图X依次执行通道连接、3x3卷积操作，得到中间特征图S∈R^N×H×W；将中间特征图S输入到空间注意模块得到文本图像注意力权重A∈R^N×H×W；将得到的注意力权重A沿着通道维度划分为N个部分，继续与N个特征图X进行特征加权，得到融合特征K∈R^N×C×H×W；基于融合特征K继续执行1x1卷积操作进行通道压缩，得到密集的文本图像嵌入I∈R^C×H×W。

进一步优选，所述对像素嵌入与对应的签名内容嵌入进行对齐包括：通过像素嵌入与所有签名嵌入的内积，根据标记在特征嵌入空间为每一个像素嵌入关联相应的文本特征嵌入，具体为：根据公式：F_ij＝I_ij·T计算像素嵌入I_ij与N个签名内容对应的特征嵌入匹配结果F_ij，获得融合特征，其中，I_ij∈R^1×C表示图像位置(i,j)的特征嵌入，T∈R^C×N表示N个签名内容对应的特征嵌入。

进一步优选，训练深度签名分割模型包括，计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，鼓励图像编码器提供对应真实签名类别的文本嵌入的像素嵌入，以交叉熵损失函数计算模型损失，根据公式：

确定交叉熵损失L，最大化每个像素嵌入与签名嵌入关联匹配后的结果，其中，y_i,j,c表示每个像素嵌入对应的手写文本标记，M表示训练集中总的手写文本个数，W、H分别表示文本-图像匹配结果的宽和高，t表示环境参数。

进一步优选，根据签名与背景像素的占比，计算签名和背景对应的权重系数，继续优化损失函数确定不同类别特征的损失L：

其中，w^c代表签名内容的权重系数，N_C和N分别代表训练集签名类别c的像素个数和文本-图像匹配结果中的像素个数。

根据本申请另一方面，提出一种人工智能领域的文本分割识别系统，包括：预训练文本编码器、多尺度图像编码器、文本.图像后处理模块，预训练文本编码器、多尺度图像编码器分别将手写签名语义内容和包含签名的图像映射到特征嵌入空间，并对像素嵌入与对应的签名内容嵌入进行对齐，根据签名内容对图像特定区域进行分割，并鉴于语义相似的标签可能映射到嵌入空间中的相似区域；文本.图像后处理模块根据最终得到的像素特征嵌入，实现对手写输入文本的准确分割识别。

进一步优选，多尺度图像编码器以ResNet50网络为基本骨架，移除其中的全连接层后，直接对图像进行特征编码，输入预定数量N个包含签名的图像，经前向传播，进行多尺度特征编码，得到N个尺度的中间特征图，对N个特征图依次上采样操作，统一至相同的分辨率大小尺度，送入到自适应尺度融合模块进行多尺度上下文信息融合，得到融合后的特征K∈R^N×C×H×W，通过卷积核大小为1x1的卷积操作，进行通道压缩，得到最终的像素特征嵌入I∈R^C×H×W。

其中第i个特征：X_i∈R^C×H×W，对N个特征图X依次执行通道连接、3x3卷积操作，得到中间特征图S∈R^N×H×W；将中间特征图S输入到空间注意模块得到文本图像注意力权重A∈R^N×H×W；将得到的注意力权重A沿着通道维度划分为N个部分，继续与N个特征图X进行特征加权，得到融合特征K∈R^N×C×H×W；基于融合特征F继续执行1x1卷积操作进行通道压缩，得到密集的文本图像嵌入I∈R^C×H×W。

进一步优选，训练深度签名分割模型包括，计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，鼓励图像编码器提供对应真实签名类别的文本嵌入的像素嵌入，根据公式：

其中，w^c代表签名内容的权重系数，N_C和N分别代表训练集签名类别c的像素个数和文本-图像匹配结果中的像素个数

根据本申请另一方面，提出一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上面所述的手写文本分割验证方法。

根据本申请另一方面，提出一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上面所述的写文本分割验证方法。

该申请采用采用类似图像分类模型(Contrastive Language-Image Pre-Training,CLIP)的文本-图像对匹配学习路线，使用一个预训练文本编码器和一个图像编码器分别将签名语义内容和包含签名的图像映射到公共特征空间，并对像素嵌入与对应的签名内容嵌入进行对齐，以实现根据签名内容对图像特定区域进行分割。其次，鉴于语义相似的标签可能映射到嵌入空间中的相似区域，针对一些未出现的类别，无需重新训练，本方法能实现对手写签署电子文本进行粗糙或精细分割，能够高效准确识别验证电子签名。

在大数据、人工智能应用中能够分辨提取准确信息，在对电子文件、电子合同等等的鉴定中起到非常重要作用，进一步提升手写电子签署笔迹比对系统的效率和安全性。可广泛用于电子商务、电子政务等电子手写输入识别验证的场景。

附图说明

图1所示为本申请示例性实施例基于语义驱动的手写签名分割方法流程示意图；

图2所示为能够用于实现本申请的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

应当理解，本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本申请实施例提供了一种签名语义驱动的手写文本分割方法，包括以下步骤：手写签名文本-图像数据集构建、深度签名分割网络搭建、深度签名分割模型训练；手写签名文本-图像数据集是模型训练的数据基础，由若干三元组(包含签名的图像、不同签名内容对应类别的像素级标记、与签名图像对应签名内容)构成；深度签名分割网络由预训练文本编码器、多尺度图像编码器、文本-图像对后处理模块构成，其中，预训练文本编码器以若干签名内容集合为输入，将其映射到特征嵌入空间；多尺度图像编码器以包含签名的图像为输入，进行多尺度特征编码，映射到特征嵌入空间；文本-图像后处理模块包含文本-图像对齐、对齐结果上采样两部分，其中，文本-图像对齐主要计算像素特征嵌入与文本特征嵌入间的相似性，为每个像素嵌入匹配最相近的签名内容嵌入，对齐结果上采样主要对对齐结果进行上采样，还原至原始分辨率大小；深度签名分割模型训练主要是计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，训练模型学习与对应签名内容嵌入相同的像素特征嵌入，用于推理最终的分割结果。

深度签名分割网络搭建，文本编码器主要目标是基于大规模语言预训练模型将签名内容映射到高维的特征嵌入空间，赋予其监督作用；具体的，本申请采用基于对比学习预训练语言-图像模型(Contrastive Language-Image Pre-Training,CLIP)中的文本编码器，作为文本编码器，该编码器支持输出向量集合与输入标签的顺序不变，并允许它们的数目N自由变化。在训练期间，文本编码器以N个签名内容集合为输入，经前向传播，得到N个连续的文本特征嵌入，记为T＝{T₁,T₂,…,T_N}；

多尺度图像编码器主要文本图像进行特征编码，将其映射到特征嵌入空间；在结构上，该图像编码器以ResNet50为基本骨架，移除其部的全连接层后，直接对图像进行特征编码。在训练期间，多尺度图像编码器以一定数量的包含签名的图像为输入，经前向传播，进行多尺度特征编码，得到N个尺度的中间特征图，紧接着，得到的N个特征图依次上采样操作，统一至相同的分辨率大小尺度(原始输入的1/4)，送入到自适应尺度融合模块(Adaptive Scale Fusion,ASF)进行多尺度上下文信息融合，得到融合后的特征K∈R^C×H×W，最后，通过卷积核大小为1x1卷积操作，进行通道压缩，得到最终的像素特征嵌入I∈R^C×H×W；

多尺度图像编码器使用自适应多尺度融合模块进行上下文融合，该模块主要通过融合多个尺度的特征图上下文信息弥补下采样操作导致的笔画细节丢失，具体包括:1)基于多尺度图像编码器得到的N个不同尺度特征图依次进行上采样操作，统一到相同分辨率大小(原始输入图像的1/4大小)，得到

(本文可取N为4，每个特征图X_i的大小R^C ^×H×W，C为通道个数，H、W分别为特征图的高和宽)；2)对N个特征图X依次执行通道连接、3x3卷积操作，得到中间特征图S∈R^N×H×W；3)将中间特征图S输入到空间注意模块得到文本图像注意力权重A∈R^N×H×W；4)将注意力权重A沿着通道维度划分为N个部分，继续与1)中得到的N个特征图X进行特征加权，得到融合特征K∈R^N×C×H×W，对应的数学表达如下:

S＝Conv(concat([X₀,X₁,…,X_N-1]))

A＝Spatial_Attention(S)

K＝Concat([E₀X₀,E₁X₁,…,E_N-1X_N-1])

其中,[X₀,X₁,…,X_N-1]为N个多尺度特征图，[E₀,E₁,…,E_N-1]为注意力权重A沿着通道维度划分的N个部分，concat表示通道连接操作，Conv表示3x3卷积操作，Spatial_Attention代表空间注意模块。

最后，基于得到的融合特征F，继续执行1x1卷积操作进行通道压缩，得到密集的文本图像嵌入I∈R^H×W×C,其中位置(i,j)的像素嵌入记为I_ij；

进一步优选，所述文本-图像对后处理模块中的文本-图像对齐，主要目标是根据标记在特征嵌入空间为每一个像素嵌入关联相应的文本特征嵌入，其中关联匹配操作主要通过像素嵌入与所有签名嵌入的内积实现，具体数学表达如下：

F_ij＝I_ij·T

其中，I_ij∈R^1×C表示图像位置(i,j)的特征嵌入，T∈R^C×N表示N个签名内容对应的特征嵌入,F_ij∈R^1×C表示像素嵌入I_ij与N个签名内容对应的特征嵌入的匹配结果。

文本-图像对后处理模块中对齐结果上采样模块主要目标是对匹配后的结果进行上采样操作，还原至原始输入分辨率大小(本文使用4倍速率进行上采样)；特殊的，为了在计算完像素级图文相似度后有一些可学习的参数来理解计算结果，在上采样之前，使用由一个基于深度可分离卷积和一个非线性激活层，例如Relu构成的瓶颈块(BottleneckBlock)对匹配后的结果进行卷积处理，具体操作如下：

J＝Upsample(ManPooling(F)+Depthwise_Conv(F))

其中，MaxPooling表示最大池化操作，Depthwise_Conv表示深度可分离卷积操作，J表示最终的分割结果；

深度签名分割模型训练，主要目标是计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，鼓励图像编码器提供靠近对应真实签名类别的文本嵌入的像素嵌入，具体的，本文主要通过交叉熵损失最大化每个像素嵌入与签名嵌入关联匹配后的Softmax结果来实现，具体的损失函数表达如下：

其中，y_i,j,c表示每个像素嵌入对应的签名标记，M表示训练集中总的签名个数，W、H分别表示文本-图像匹配结果的宽和高，t表示用户自定义的环境参数，本文设为0.07。

特别的，由于手写签名呈现出尺度小、空间结构复杂等特点，签名区域像素占比与背景像素占比存在严重失衡，因此，为加强模型针对小尺度文本区域特征的学习，在上述交叉熵损失L的基础上，根据签名与背景像素的占比大小，为签名和背景计算相应的权重系数，加权后的损失L为：

其中，w^c代表不同签名内容的权重系数，N_C和N分别代表训练集签名类别c的像素个数和和文本-图像匹配结果中的像素个数。

为进一步详细阐述本方法的技术方案，将结合具体实施例及附图，对本发明做进一步说明。

图1所示为本申请示例性实施例基于语义驱动的手写签名分割方法流程示意图。所述方法包括以下步骤：

签名图像进入多尺度卷积网络中经过多卷积层层间上采用控制，得到的多个上采用信息送入自适应尺度融合模块中进行融合，经过1*1卷积输出到文本.图像后处理模块；得到各签名内容集合输入预训练文本编码器，编码器以一定数量的包含签名的图像为输入，经前向传播，进行多尺度特征编码，得到N个尺度的中间特征图，将得到的N个特征图依次上采样操作，统一至相同的分辨率大小尺度，送入到自适应尺度融合模块进行多尺度上下文信息融合，得到融合后的特征，通过卷积核大小为1x1卷积操作，进行通道压缩，得到最终的像素特征嵌入，得到分割签名。

签名分割系统包括：手写签名文本-图像数据集、深度签名分割网络、深度签名分割模型。手写签名文本-图像数据集是模型训练的数据基础，由若干三元组(包含签名的图像、不同签名内容对应类别的像素级标记、与签名图像对应签名内容)构成；深度签名分割网络由预训练文本编码器、多尺度图像编码器、文本-图像对后处理模块构成，其中预训练文本编码器以若干签名内容集合为输入，将其映射到特征嵌入空间；多尺度图像编码器以包含签名的图像为输入，进行多尺度特征编码，映射到特征嵌入空间；文本-图像后处理模块包含文本-图像对齐、对齐结果上采样两部分，其中文本-图像对齐主要计算像素特征嵌入与文本特征嵌入间的相似性，为每个像素嵌入匹配最相近的签名内容嵌入，对齐结果上采样主要对对齐结果进行上采样，还原至原始分辨率大小；深度签名分割模型主要是计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，训练模型学习与对应签名内容嵌入相同的像素特征嵌入，用于推理最终的分割结果；

深度签名分割网络搭建，文本编码器基于大规模语言预训练模型将签名内容映射到高维的特征嵌入空间，赋予其监督作用；具体使用基于对比学习预训练语言-图像模型(Contrastive Language-Image Pre-Training,CLIP)中的文本编码器，作为文本编码器，该编码器支持输出向量集合与输入标签的顺序不变，并允许它们的数目N自由变化。

深度签名分割网络搭建，多尺度图像编码器以ResNet50为基本骨架，移除其部的全连接层后，直接对图像进行特征编码。训练期间，该编码器以一定数量的包含签名的图像为输入，经前向传播，进行多尺度特征编码，得到N个尺度的中间特征图，紧接着，得到的N个特征图依次上采样操作，统一至相同的分辨率大小尺度(原始输入的1/4)，送入到自适应尺度融合模块(Adaptive Scale Fusion,ASF)进行多尺度上下文信息融合，得到融合后的特征F∈R^C×H×W，最后，通过卷积核大小为1x1卷积操作，进行通道压缩，得到最终的像素特征嵌入I∈R^C×H×W，其中C表示特征图的通道个数，H表示特征图的高，W表示特征图的宽。

深度签名分割网络搭建，多尺度图像编码器使用自适应多尺度融合模块进行上下文融合，该模块通过融合多个尺度的特征图上下文信息弥补下采样操作导致的笔画细节丢失，具体包括:1)基于多尺度图像编码器得到的N个不同尺度特征图依次进行上采样操作，统一到相同分辨率大小(原始输入图像的1/4大小)，得到特征图

其中，N为特征图个数(本实施例中N最优可为4)，每个特征的大小为X_i∈R^N×C×H×W，其中，C为通道个数，H、W分别为特征图的高和宽。

2)对N个特征图X依次执行通道连接、3x3卷积操作，得到中间特征图S∈R^N×H×W；

3)将中间特征图S输入到空间注意模块得到文本图像注意力权重A∈R^N×H×W；

4)将注意力权重A沿着通道维度划分为N个部分，继续与1)中得到的N个特征图X进行特征加权，得到融合特征K∈R^N×C×H×W。

步骤2)3)4)对应的数学表达如下：

S＝Conv(concat([X₀,X₁,…,X_N-1]))

A＝Spatial_Attention(S)

K＝Concat([E₀X₀,E₁X₁,…,E_N-1X_N-1])

其中,[X₀,X₁,…,X_N-1]为N个多尺度特征图，[E₀,E₁,…,E_N-1]为注意力权重A沿着通道维度划分的N个部分,concat表示通道连接操作，Conv表示3x3卷积操作，Spatial_Attention代表空间注意模块；

最后，基于得到的融合特征F，继续执行1x1卷积操作进行通道压缩，得到密集的文本图像嵌入I∈R^H×W×C,其中，文本图像位置(i,j)的像素嵌入记为I_ij；

文本-图像对后处理模块中的文本-图像对齐，通过对像素嵌入与签名文本嵌入执行内积操作，实现像素嵌入与对应签名内容嵌入的关系匹配，具体调用如下公式：

F_ij＝I_ij·T

所述文本-图像对后处理模块中对齐结果上采样模块主要目标是对匹配后的结果进行上采样操作，还原至原始输入分辨率大小(本文使用4倍速率进行上采样)；特殊的，为了在计算完像素级图文相似度后有一些可学习的参数来理解计算结果，在上采样之前，使用由一个基于深度可分离卷积和一个非线性激活层例如Relu构成的瓶颈块(BottleneckBlock)对匹配后的结果进行卷积处理。

本实施例采用的具体操作为，调用公式计算得到最终的签名分割结果：

J＝Upsample(MaxPooling(F)+Depthwise_Conv(F))

其中，MaxPooling表示最大池化操作，Depthwise_Conv表示深度可分离卷积操作，Upsample表示上采样操作，J表示最终的分割结果。

深度签名分割模型训练，主要目标是计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，鼓励图像编码器提供靠近对应真实签名类别的文本嵌入的像素嵌入，具体的，本文通过交叉熵损失最大化每个像素嵌入与签名嵌入关联匹配后的Softmax结果来实现。本实施例具体采用如下公式构建损失函数，根据公式：

计算损失函数L。

其中，y_i,j,c表示每个像素嵌入对应的签名标记，M表示训练集中总的签名个数，W、H分别表示文本-图像匹配结果的宽和高，t表示用户自定义的环境参数，本实施例最优可设为0.07。其中，ln表示对数函数、softmax为深度学习函数。

特别的，由于手写签名呈现出尺度小、空间结构复杂等特点，签名区域像素占比与背景像素占比存在严重失衡，因此，为加强模型针对小尺度文本区域特征的学习，根据签名与背景像素的占比，为签名和背景计算相应的权重系数，本实施例具体采用如下公式：

计算权重系统L，其中，w^c代表不同签名内容的权重系数，N_C和N分别代表训练集签名类别c的像素个数和文本-图像匹配结果中的像素个数。

本申请示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本申请实施例的方法。

本申请示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

本申请示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

参考图2，现将描述可以作为本申请的服务器或客户端的电子设备300的结构框图，其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图2所示，电子设备300包括计算单元301，其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序，来执行各种适当的动作和处理。在RAM 303中，还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

电子设备300中的多个部件连接至I/O接口305，包括：输入单元306、输出单元307、存储单元308以及通信单元309。输入单元306可以是能向电子设备300输入信息的任何类型的设备，输入单元306可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元307可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元308可以包括但不限于磁盘、光盘。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理。例如，在一些实施例中，根据签名笔画的原始轨迹重绘出其肌肉运动轨迹的重构与分解，以及其对数速度曲线的分解等可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到电子设备300上。在一些实施例中，计算单元301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行签名笔迹动态获取实现方法。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本申请使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.基于人工智能应用的手写文本分割识别方法，其特征在于，包括，将手写签名文本-图像数据集中手写签名语义内容和包含签名的图像映射到特征嵌入空间，并对像素嵌入与对应的签名内容嵌入进行对齐，根据签名内容对图像特定区域进行分割，并将语义相似的标签可能映射到嵌入空间中的相似区域；文本.图像后处理模块根据最终得到的像素特征嵌入，实现对手写输入文本的准确分割识别。

2.根据权利要求1所述的方法，其特征在于，由预训练文本编码器、多尺度图像编码器、文本-图像对后处理模块构成深度签名分割模型，其中，预训练文本编码器以数据集中若干签名内容集合为输入，将其映射到特征嵌入空间；多尺度图像编码器以包含签名的图像进行多尺度特征编码，映射到特征嵌入空间；文本-图像后处理模块计算像素特征嵌入与文本特征嵌入间的相似性，为每个像素嵌入匹配最相近的签名内容嵌入，对对齐结果进行上采样，还原至原始分辨率大小。

3.根据权利要求2所述的方法，其特征在于，文本编码器采用基于对比学习预训练语言-图像模型，将签名内容映射到高维的特征嵌入空间，输出向量集合与输入标签的顺序不变，以N个签名内容集合为输入，经前向传播得到N个连续的文本特征嵌入T＝{T₁,T₂,…,T_N}。

4.根据权利要求2所述的方法，其特征在于，多尺度图像编码器以ResNet50网络为基本骨架，移除其中的全连接层后，直接对图像进行特征编码，输入预定数量N个包含签名的图像，经前向传播，进行多尺度特征编码，得到N个尺度的中间特征图，对N个特征图依次上采样，统一至相同的分辨率大小尺度，送入到自适应尺度融合模块进行多尺度上下文信息融合，得到融合后的特征K∈R^C×H×W，通过卷积核大小为1x1的卷积操作进行通道压缩，得到最终的像素特征嵌入I∈R^C×H×W。

5.根据权利要求2所述的方法，其特征在于，在上采样之前，由一个基于深度可分离卷积和一个非线性激活层对融合特征F进行卷积处理，即，根据公式：J＝Upsample(MaxPooling(F)+Depthwise_Conv(F))获得手写签名文本最终的分割结果，其中，MaxPooling表示最大池化操作，Depthwise_Conv表示深度可分离卷积操作。

6.根据权利要求1-5其中之一所述的方法，其特征在于，多尺度图像编码器使用自适应多尺度融合模块进行上下文融合，通过融合多个尺度的特征图上下文信息弥补下采样操作导致的笔画细节丢失，具体包括：基于多尺度图像编码器得到的N个不同尺度特征图依次进行上采样，统一到相同分辨率大小，根据特征图的高H和宽W确定特征图

其中第i个特征：X_i∈R^C×H×W，对N个特征图依次执行通道连接、3x3卷积操作，得到中间特征图S∈R^N ^×H×W；将中间特征图S输入到空间注意模块得到文本图像注意力权重A∈R^N×H×W；将得到的注意力权重A沿着通道维度划分为N个部分，继续与N个特征图X进行特征加权，得到融合特征K∈R^N×C×H×W；基于融合特征K继续执行1x1卷积操作进行通道压缩，得到密集的文本图像嵌入I∈R^C×H×W。

7.根据权利要求1-5其中之一的方法，其特征在于，所述对像素嵌入与对应的签名内容嵌入进行对齐包括：通过像素嵌入与所有签名嵌入的内积，根据标记在特征嵌入空间为每一个像素嵌入关联相应的文本特征嵌入，具体为：根据公式：F_ij＝I_ij·T计算像素嵌入I_ij与N个签名内容对应的特征嵌入匹配结果F_ij，获得融合特征，其中，I_ij∈R^1×C表示图像位置(i,j)的特征嵌入，T∈R^C×N表示N个签名内容对应的特征嵌入。

8.根据权利要求6或7所述的方法，其特征在于，训练深度签名分割模型包括，计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，图像编码器获取对应真实签名类别的文本嵌入的像素嵌入，根据公式：

确定损失L，最大化每个像素嵌入与签名嵌入关联匹配后的结果；根据签名与背景像素的占比大小，确定签名和背景对应的权重系数w^c，计算对不同类别特征的损失L：

其中，y_i,j,c表示每个像素嵌入对应的手写文本标记，M表示训练集中总的手写文本个数，W、H分别表示文本-图像匹配结果的宽和高，t表示环境参数其中，N_C和N分别代表训练集签名类别c的像素个数和文本-图像匹配结果中的像素个数。

9.基于人工智能应用的手写文本分割识别系统，其特征在于，若干三元组构成手写签名文本-图像数据集，由预训练文本编码器、多尺度图像编码器、文本-图像对后处理模块构成深度签名分割模型，通过深度签名分割模型训练计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播，对应签名内容嵌入相同的像素特征，将手写签名文本-图像数据集中手写签名语义内容和包含签名的图像映射到特征嵌入空间，并对像素嵌入与对应的签名内容嵌入进行对齐，根据签名内容对图像特定区域进行分割，并将语义相似的标签映射到嵌入空间中的相似区域；文本.图像后处理模块根据最终得到的像素特征嵌入，实现对与输入文本内容对应图像区域的准确分割识别。

10.根据权利要求9所述的系统，其特征在于，预训练文本编码器以若干签名内容集合为输入，将其映射到特征嵌入空间；多尺度图像编码器以包含签名的图像为输入，进行多尺度特征编码，映射到特征嵌入空间；文本-图像后处理模块包含文本-图像对齐部分和对齐结果上采样部分，其中，文本-图像对齐部分计算像素特征嵌入与文本特征嵌入间的相似性，为每个像素嵌入匹配最相近的签名内容嵌入，对齐结果上采样部分对对齐结果进行上采样，还原至原始分辨率大小。

11.根据权利要求9所述的系统，其特征在于，多尺度图像编码器以ResNet50网络为基本骨架，移除其中的全连接层后，直接对图像进行特征编码，输入预定数量N个包含签名的图像，经前向传播，进行多尺度特征编码，得到N个尺度的中间特征图，对N个特征图依次上采样，统一至相同的分辨率大小尺度，送入到自适应尺度融合模块进行多尺度上下文信息融合，得到融合后的特征K∈R^C×H×W，通过卷积核大小为1x1的卷积操作，进行通道压缩，得到最终的像素特征嵌入I∈R^C×H×W。

12.根据权利要求9-11其中之一所述的系统，其特征在于，多尺度图像编码器使用自适应多尺度融合模块进行上下文融合，通过融合多个尺度的特征图上下文信息弥补下采样操作导致的笔画细节丢失，具体包括：基于多尺度图像编码器得到的N个不同尺度特征图依次进行上采样操作，统一到相同分辨率大小，根据特征图的高H和宽W确定特征图

其中：X_i∈R^C×H×W为第i个特征，对N个特征图X依次执行通道连接、3x3卷积操作，得到中间特征图S∈R^N×H×W；将中间特征图S输入到空间注意模块得到文本图像注意力权重A∈R^N×H×W；将得到的注意力权重A沿着通道维度划分为N个部分，继续与N个特征图X进行特征加权，得到融合特征K∈R^N×C×H×W；基于融合特征K继续执行1x1卷积操作进行通道压缩，得到密集的文本图像嵌入I∈R^C×H×W；通过像素嵌入与所有签名嵌入的内积，根据标记在特征嵌入空间为每一个像素嵌入关联相应的文本特征嵌入，具体为：根据公式：F_ij＝I_ij·T计算像素嵌入I_ij与N个签名内容对应的特征嵌入匹配结果F_ij，获得融合特征，其中，I_ij∈R^1×C表示图像位置(i,j)的特征嵌入，T∈R^C×N表示N个签名内容对应的特征嵌入。

13.根据权利要求12所述的系统，其特征在于，训练深度签名分割模型包括，计算像素嵌入特征与对应文本嵌入特征的相似程度，通过反向传播机制，图像编码器提供对应真实签名类别的文本嵌入的像素嵌入，根据公式：

确定模型损失L，最大化每个像素嵌入与签名嵌入关联匹配后的结果，进一步，根据签名与背景像素的占比，计算签名和背景对应的权重系数w^c，继续优化损失L对不同类别特征的损失：

其中，y_i,j,c表示每个像素嵌入对应的手写文本标记，M表示训练集中总的手写文本个数，W、H分别表示文本-图像匹配结果的宽和高，t表示环境参数，N_C和N分别代表训练集签名类别c的像素个数和文本-图像匹配结果中的像素个数。

14.一种电子设备，包括：处理器；以及存储程序的存储器，其特征在于，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的基于人工智能应用的手写文本分割验证方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的基于人工智能应用的手写文本分割验证方法。