CN115527220A - 一种文档图像分类方法和装置 - Google Patents
一种文档图像分类方法和装置 Download PDFInfo
- Publication number
- CN115527220A CN115527220A CN202211243923.0A CN202211243923A CN115527220A CN 115527220 A CN115527220 A CN 115527220A CN 202211243923 A CN202211243923 A CN 202211243923A CN 115527220 A CN115527220 A CN 115527220A
- Authority
- CN
- China
- Prior art keywords
- features
- template
- image
- feature
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/43—Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文档图像分类方法和装置,在模板特征库中设置目标类别的模板特征;获取待分类的文档图像的类别特征;将所述待分类的文档图像的类别特征与模板特征库中目标类别的模板特征对比计算相似度;若获得与所述类别特征相似度最高且大于预设相似度阈值的模板特征,所述模板特征对应的目标类别为所述文档图像的类别;若没有获得与所述类别特征相似度大于预设相似度阈值的模板特征,则确认模板特征库中是否需要新增目标类别,若需要新增目标类别则获取所述类别特征作为新目标类别的模板特征,并添加到模板特征库中。扩充目标类别,不局限于已有的类别,提高识别的准确性,同时减少传统技术中基于指定类别进行分类的局限性。
Description
技术领域
本申请涉及文档图像处理技术领域,特别是涉及一种文档图像分类方法和装置。
背景技术
传统的文档图像分类一般有两种方式,一种是图像分类,适用于从图像特征的角度进行分类,但是文字内容很难进行区分分类,另一种是文本分类,只能基于文本特征进行分类,两种方式各有其局限性,不能做到文档与图像结合的全场景覆盖。因此,常采用多模态建模方案将图像特征和文本特征结合。但现有技术中,采用闭集的训练集构建模型,在实际使用时仅支持指定类别的数据,局限性大。
发明内容
基于上述问题,本申请提供了一种文档图像分类方法和装置,以使文档图像分类不再局限于指定类别。
本申请实施例公开了如下技术方案:
第一方面,本申请提出一种文档图像分类方法,包括:
获取待分类的文档图像的类别特征;
获取所述待分类的文档图像的类别特征与模板特征库中各个目标类别对应的模板特征的相似度;所述模板特征库包括多个目标类别对应的模板特征,其中所述模板特征为从对应的目标类别的文档图像中提取得到;
若所述模板特征库中存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则从中选取最高相似度的模板特征对应的目标类别作为所述待分类的文档图像的类别;
若所述模板特征库中不存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则判断所述模板特征库中是否需要新增目标类别;
若判断需要新增目标类别,则将所述待分类的文档图像的类别特征作为新增的目标类别的模板特征添加到所述模板特征库中。
可选的,所述获取待分类的文档图像的类别特征,包括:
获取所述待分类的文档图像的文本特征和图像特征;
设置提示特征;所述提示特征内设置有空占位符;
将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型;
提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征。
可选的,该方法进一步包括:
将所述空占位符对应的分类特征输入分类层,获得所述分类特征对应的类别字符;
所述空占位符的字节长度大于或等于所述类别字符的字节长度。
可选的,获取文档图像的文本特征,包括:
通过光学字符识别OCR获得所述文档图像的文本和所述文本对应的二维位置信息,将所述文本进行分词获得词令牌,根据所述二维位置信息获得词令牌位置信息;
将词令牌及词令牌位置信息输入编码层,编码层将词令牌及词令牌位置信息映射到特征空间,获得词特征和词二维位置特征;
根据词令牌的索引排序,采用绝对位置编码进行位置编码将所述排序的序号映射为词一维位置特征;
所述词特征、词二维位置特征及词一维位置特征为文本特征。
可选的,获取文档图像的图像特征,包括:
将所述文档图像均匀划分为多个图像块,将图像块按设定的位置顺序输入编码层,编码层将每一个图像块映射为多维特征,所述编码层输出一个图像特征序列;
将所述文档图像中每一个图像块对应的二维位置输入编码层,得到图像二维位置特征;所述二位位置为所述图像块在所述文档图像中的平面位置;
采用绝对位置编码对所述文档图像中每个图像块的一维位置顺序序号进行位置编码,得到图像一维位置特征;
所述图像特征序列、图像二维位置特征及图像一维位置特征为图像特征。
可选的,所述提示特征还包括提示字符。
可选的,从对应的目标类别的文档图像中提取模板特征,包括:
若所述目标类别只采集到一张文档图像,则获取所述文档图像的类别特征作为该目标类别的模板特征;
若所述目标类别采集到多张文档图像,则对多张文档图像的类别特征进行平均获得平均类别特征,设置所述平均类别特征作为该目标类别的模板特征。
可选的,所述目标类别有多个,每个目标类别一对一设置一个模板特征。
可选的,所述多模态特征提取模型采用transformer模型;
所述多模态特征提取模型在训练时,对应空占位符的输出位置设置损失函数进行训练,所述损失函数为平均交叉熵函数。
第二方面,本申请还提出一种文档图像分类装置,包括:特征获取模块、相似度获取模块、分类模块和新增目标类别模块,
所述特征获取模块用于获取待分类的文档图像的类别特征;
所述相似度获取模块用于获取所述待分类的文档图像的类别特征与模板特征库中各个目标类别对应的模板特征的相似度;所述模板特征库包括多个目标类别对应的模板特征,其中所述模板特征为从对应的目标类别的文档图像中提取得到;
所述分类模块用于若所述模板特征库中存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则从中选取最高相似度的模板特征对应的目标类别作为所述待分类的文档图像的类别;
所述新增目标类别模块用于若所述模板特征库中不存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则判断所述模板特征库中是否需要新增目标类别;若判断需要新增目标类别,则将所述待分类的文档图像的类别特征作为新增的目标类别的模板特征添加到所述模板特征库中。
可选的,所述特征获取模块包括:数据获取子模块、提示特征设置子模块、特征提取子模块和类别特征获取子模块,
所述数据获取子模块用于获取所述待分类的文档图像的文本特征和图像特征;
所述提示特征设置子模块用于设置提示特征;所述提示特征内设置有空占位符;
所述特征提取子模块用于将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型;
所述类别特征获取子模块用于提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征。
相较于现有技术,本申请具有以下有益效果:
本申请提到的一种文档图像分类方法和装置,采用对应目标类别设置模板特征,并对待分类的文档图像提取其类别特征,将待分类的文档图像的类别特征与目标类别的模板特征进行相似度对比,从而进行类别判断,不再是基于指定的类别数据训练的模型进行文档图像类别的直接判定,而是通过类别特征相似度对比,若从模板特征库中找到满足与所述类别特征相似度最高且大于预设相似度阈值的模板特征,则该模板特征对应的目标类别为所述文档图像的类别;若从模板特征库中没有上述模板特征,则确认模板特征库中是否需要新增目标类别,若需要新增目标类别则获取所述待分类文档图像的类别特征作为新目标类别的模板特征,并添加到模板特征库中。扩充目标类别,不局限于已有的类别,提高识别的准确性,同时减少传统技术中基于指定类别进行分类的局限性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文档图像分类方法流程图;
图2为本申请实施例提供的文档图像的类别特征获取流程图;
图3为本申请实施例提供的另一种文档图像分类方法流程图;
图4为本申请实施例提供的一种文档图像分类装置结构图;
图5为本申请实施例提供的一种特征获取模块结构图;
图6为本申请实施例提供的一种数据获取子模块结构图;
图7为本申请实施例提供的另一种数据获取子模块结构图。
具体实施方式
正如前文描述,传统的文档图像分类一般有两种方式,一种是图像分类,适用于从图像特征的角度进行分类,但是文字内容很难进行区分分类,另一种是文本分类,只能基于文本特征进行分类,两种方式各有其局限性,不能做到文档与图像结合的全场景覆盖,因此,常采用多模态建模方案将图像特征和文本特征结合,但现有技术中,采用闭集的训练集构建模型,在实际使用时仅支持指定类别的数据,且在训练集数据样本较少时,难以进行模型训练。
基于上述原因,本申请采用对应目标类别设置模板特征,并对待分类的文档图像提取其类别特征,将待分类的文档图像的类别特征与目标类别的模板特征进行相似度对比,从而进行类别判断,不再是基于指定的类别数据训练的模型进行文档图像类别的直接判定,而是通过类别特征相似度对比,若从模板特征库中找到满足与所述类别特征相似度最高且大于预设相似度阈值的模板特征,则该模板特征对应的目标类别为所述文档图像的类别;若从模板特征库中没有上述模板特征,则确认模板特征库中是否需要新增目标类别,若需要新增目标类别则获取所述待分类文档图像的类别特征作为新目标类别的模板特征,并添加到模板特征库中。扩充目标类别,不局限于已有的类别,提高识别的准确性,同时减少传统技术中基于指定类别进行分类的局限性;还可增加分类层,将要加入模板特征库中的类别特征输入分类层输出该类别特征对应的类别字符,进一步扩充目标类别的种类;此外,对于文档图像样本较少的情况,即使只有一张图像,通过多模态特征提取模型也能提取所述文档图像的类别特征,从而设置对应目标类别的类别特征,不再需要大量的文档图像进行模型训练,实现小样本数据的分类。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为一种文档图像分类方法流程图,参见图1,一种文档图像分类方法,包括:
S101、获取待分类的文档图像的类别特征。
文档图像的类别特征均采用多模态特征提取模型进行类别特征提取,所述多模态特征提取模型主体结构是带有空间感知自注意力机制的多模态Transformer网络。
S102、获取所述待分类的文档图像的类别特征与模板特征库中各个目标类别对应的模板特征的相似度;所述模板特征库包括多个目标类别对应的模板特征,其中所述模板特征为从对应的目标类别的文档图像中提取得到。
采用cos距离作为相似度的计算公式。
所述目标类别有多个,每个目标类别一对一设置一个模板特征。若所述目标类别只采集到一张文档图像,则获取所述文档图像的类别特征作为该目标类别的模板特征,若所述目标类别采集到多张文档图像,则对多张文档图像的类别特征进行平均获得平均类别特征,设置所述平均类别特征作为该目标类别的模板特征。
S103、若所述模板特征库中存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则从中选取最高相似度的模板特征对应的目标类别作为所述待分类的文档图像的类别。
从模板特征库的目标类别对应的类别特征中寻找满足相似度大于预设的相似度阈值且相似度最高的模板特征作为文档图像的类别特征,从而将文档图像归类到该模板特征对应的目标类别中。
S104、若所述模板特征库中不存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则判断所述模板特征库中是否需要新增目标类别。
当目标类别的模板特征中没有找到与文档图像的类别特征相似度达到要求的模板特征时,则可选择新增目标类别,提高分类的准确性,减少错误分类,也不局限于已有的目标类别。
S105、若判断需要新增目标类别,则将所述待分类的文档图像的类别特征作为新增的目标类别的模板特征添加到所述模板特征库。
若判断不需要新增目标类别则可根据需要分类归于除已有目标类别以外的其他类别中保存也可不进行保存。
将待分类的文档图像的类别特征与目标类别的模板特征进行相似度对比,若从模板特征库中找到满足与所述类别特征相似度最高且大于预设相似度阈值的模板特征,则该模板特征对应的目标类别为所述文档图像的类别;若从模板特征库中没有上述模板特征,则确认模板特征库中是否需要新增目标类别,若需要新增目标类别则获取所述待分类文档图像的类别特征作为新目标类别的模板特征,并添加到模板特征库中。扩充目标类别,不局限于已有的类别,提高识别的准确性,同时不再局限于指定类别进行分类。
图2为文档图像的类别特征获取流程图,参见图2,文档图像的类别特征获取具体步骤如下:
S201、获取所述待分类的文档图像的文本特征。
通过光学字符识别OCR获得所述文档图像的文本和所述文本对应的二维位置信息,将所述文本进行分词获得词令牌,根据所述二维位置信息获得词令牌位置信息;
将词令牌及词令牌位置信息输入编码层,编码层将词令牌及词令牌位置信息映射到特征空间,获得词特征和词二维位置特征;
根据词令牌的索引排序,采用绝对位置编码进行位置编码将所述排序的序号映射为词一维位置特征;
所述词特征、词二维位置特征及词一维位置特征为文本特征
S202、获取所述待分类的文档图像的图像特征。
将所述文档图像划分为均匀的P*P的图像块,将图像块按设定的位置顺序输入编码层,编码层将每一个图像块映射为多维特征,设定文本图像大小为H*W,则获得一个长度为H*W/P^2的图像特征序列;
将所述文档图像中每一个图像块对应的二维位置输入编码层,得到图像二维位置特征;所述二维位置为所述图像块在所述文档图像中的平面位置;
采用绝对位置编码对所述文档图像中每个图像块的一维位置顺序序号进行位置编码,得到图像一维位置特征;所述一维位置顺序序号为人为对所述文档图像中的每个图像块进行的顺序编号;
所述图像特征序列、图像二维位置特征及图像一维位置特征为图像特征。
文本特征可包括词特征、词二维位置特征和词一维位置特征;图像特征可包括图像特征序列、图像二维位置特征和图像一维位置特征,综合文本、图像和布局三种特征进行多模态分析,不仅考虑了文本的语言特征,还考虑了图像的版式特征和图像特征,相比于一般的图像模型和语言模型简单特征融合的结构,该模型在训练阶段进一步对齐了图像特征和文本特征,尤其在表格数据上更有优势,提高分析准确性。
S203、设置提示特征;所述提示特征内设置有空占位符。
S204、将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型。
可依次拼接提示特征、文档特征和图像特征,其中,所述多模态特征提取模型的主体结构是带有空间感知自注意力机制的多模态Transformer网络,可结合文本、图像、布局三种模态信息,提高后续进行分类特征提取的准确性。
S205、提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征。
所述多模态特征提取模型训练时,对应空占位符位置设置交叉熵损失函数进行训练,提高对应空占位符位置输出的分类特征的准确性。
进行类别特征提取时,获取多模态特征提取模型对应所述空占位符位置输出的分类特征,当空占位符设置有多个时,输出多个所述分类特征,多个所述分类特征拼接获得的总特征为所述文档图像的类别特征,当空占位符仅有一个时,获取多模态特征提取模型对应所述空占位符位置输出的分类特征即为所述文档图像的别特征,可根据文档图像的复杂度设置空占位符数目,提高类别分类的准确度。
对于文档图像样本较少的情况,即使只有一张图像,通过多模态特征提取模型也能提取所述文档图像的类别特征,从而设置对应目标类别的类别特征,不再需要大量的文档图像进行模型训练,实现小样本数据的分类。
图3为另一种文档图像分类方法流程图,参见图3,一种文档图像分类方法,包括:
S301、在模板特征库中设置目标类别,每个目标类别采集至少一张文档图像,获取所述文档图像的类别特征作为所述目标类别的模板特征。
S302、获取待分类的文档图像的文本特征与图像特征。
S303、设置提示特征;所述提示特征内设置有空占位符。
S304、将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型。
提示特征可包括提示特征和空占位符,所述提示特征的设置方法为,设置提示字符,对应提示字符设置空占位符,例如:这是一个[mask][mask][mask][mask]...文档。其中,这是一个文档为提示字符,[mask]为空占位符,所述空占位符可以设置一个或多个。
S305、提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征。
若设置有一个空占位符,则获取所述多模态特征提取模型对应该空占位符位置输出的分类特征为所述文档图像的类别特征;若设置有多个空占位符,则获取所述多模态特征提取模型对应该空占位符位置输出的多个分类特征,并将多个分类特征拼接后形成所述文档图像的类别特征。
S306、将所述待分类的文档图像的类别特征与模板特征库中目标类别的模板特征对比计算相似度。
采用cos距离作为相似度的计算公式。
S307、若获得与所述类别特征相似度最高且大于预设相似度阈值的模板特征,则根据模板特征确定待分类文档图像的目标类别。
若没有获得所述模板特征,则确认是否需要新增目标类别,若需要新增,则获取所述类别特征作为新目标类别的模板特征,并将对应空占位符位置输出的分类特征输入分类层,所述分类层输出所述分类特征对应的类别字符,所述类别字符为所述新目标类别的名称。
例如,这是一个[mask]...文档,通过分类层输出这是一个身份证[pad][pad]...文档,明确了解到这个一个身份证的目标类别。
所述空占位符占用字节长度大于或等于所述类别字符长度,所述[pad]用于填充[mask]中除身份证占用的字节外的其他空余位置。
此外,若不需要新增目标类别则可根据需要分类归于除已有目标类别以外的其他类别中保存也可不进行保存。
此外,还可将要加入模板特征库中的类别特征输入分类层输出该类别特征对应的类别字符,所述空占位符的字节长度大于或等于所述类别字符的字节长度,新增目标类别的种类,自动获得文档图像的相关信息,更好的了解新增目标类别的类型。
基于一种文档图像分类方法,本申请还提供一种文档图像分类装置。下面结合附图介绍该装置的具体实现。
图4为一种文档图像分类装置结构图,参见图4,一种文档图像分类装置,包括:特征获取模块、相似度获取模块、分类模块和新增目标类别模块,
所述特征获取模块用于获取待分类的文档图像的类别特征;
所述相似度获取模块用于获取所述待分类的文档图像的类别特征与模板特征库中各个目标类别对应的模板特征的相似度;所述模板特征库包括多个目标类别对应的模板特征,其中所述模板特征为从对应的目标类别的文档图像中提取得到;
所述分类模块用于若所述模板特征库中存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则从中选取最高相似度的模板特征对应的目标类别作为所述待分类的文档图像的类别;
所述新增目标类别模块用于若所述模板特征库中不存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则判断所述模板特征库中是否需要新增目标类别;若判断需要新增目标类别,则将所述待分类的文档图像的类别特征作为新增的目标类别的模板特征添加到所述模板特征库中。
相似度获取模块将待分类的文档图像的类别特征与目标类别的模板特征进行相似度对比;分类模块进行判断分类,若从模板特征库中找到满足与所述类别特征相似度最高且大于预设相似度阈值的模板特征,则该模板特征对应的目标类别为所述文档图像的类别;新增目标类别模块在从模板特征库中没有上述模板特征时,则确认模板特征库中是否需要新增目标类别,若需要新增目标类别则获取所述待分类文档图像的类别特征作为新目标类别的模板特征,并添加到模板特征库中。扩充目标类别,不局限于已有的类别,提高识别的准确性,同时不再局限于指定类别进行分类。
图5为一种特征获取模块结构图,参见图5,所述特征获取模块,包括:数据获取子模块、提示特征设置子模块、特征提取子模块和类别特征获取子模块,
所述数据获取子模块用于获取所述待分类的文档图像的文本特征和图像特征;
所述提示特征设置子模块用于设置提示特征;所述提示特征内设置有空占位符;
所述特征提取子模块用于将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型;
所述类别特征获取子模块用于提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征
图6为一种数据获取子模块结构图,参见图6,所述数据获取子模块包括:文本数据获取单元、文本数据编码单元、文本数据位置编码单元,
所述文本数据获取单元用于通过光学字符识别OCR获得所述文档图像的文本和所述文本对应的二维位置信息,将所述文本进行分词获得词令牌,根据所述二维位置信息获得词令牌位置信息。
所述文本数据编码单元用于将词令牌及词令牌位置信息输入编码层,编码层将词令牌及词令牌位置信息映射到特征空间,获得词特征和词二维位置特征。
所述文本数据位置编码单元用于根据词令牌的索引排序,采用绝对位置编码进行位置编码将所述排序的序号映射为词一维位置特征。
所述词特征、词二维位置特征及词一维位置特征为文本特征。
图7为另一种数据获取子模块结构图,参见图7,所述另一种数据获取子模块包括:图像数据获取单元、图像数据编码单元、图像数据位置编码单元,
所述图像数据获取单元用于将所述文档图像均匀划分为多个图像块,将图像块按设定的位置顺序输入编码层,编码层将每一个图像块映射为多维特征,所述编码层输出一个图像特征序列。
所述图像数据编码单元用于将所述文档图像中每一个图像块对应的二维位置输入编码层,得到图像二维位置特征;所述二维位置为所述图像块在所述文档图像中的平面位置。
所述图像数据位置编码单元用于采用绝对位置编码对所述文档图像中每个图像块的一维位置顺序序号进行位置编码。
所述图像特征序列、图像二维位置特征及图像一维位置特征为图像特征。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法及装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法及装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (11)
1.一种文档图像分类方法,其特征在于,包括:
获取待分类的文档图像的类别特征;
获取所述待分类的文档图像的类别特征与模板特征库中各个目标类别对应的模板特征的相似度;所述模板特征库包括多个目标类别对应的模板特征,其中所述模板特征为从对应的目标类别的文档图像中提取得到;
若所述模板特征库中存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则从中选取最高相似度的模板特征对应的目标类别作为所述待分类的文档图像的类别;
若所述模板特征库中不存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则判断所述模板特征库中是否需要新增目标类别;
若判断需要新增目标类别,则将所述待分类的文档图像的类别特征作为新增的目标类别的模板特征添加到所述模板特征库中。
2.根据权利要求1所述的方法,其特征在于,所述获取待分类的文档图像的类别特征,包括:
获取所述待分类的文档图像的文本特征和图像特征;
设置提示特征;所述提示特征内设置有空占位符;
将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型;
提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征。
3.根据权利要求2所述的方法,其特征在于,该方法进一步包括:
将所述空占位符对应的分类特征输入分类层,获得所述分类特征对应的类别字符;
所述空占位符的字节长度大于或等于所述类别字符的字节长度。
4.根据权利要求2所述的方法,其特征在于,获取文档图像的文本特征,包括:
通过光学字符识别OCR获得所述文档图像的文本和所述文本对应的二维位置信息,将所述文本进行分词获得词令牌,根据所述二维位置信息获得词令牌位置信息;
将词令牌及词令牌位置信息输入编码层,编码层将词令牌及词令牌位置信息映射到特征空间,获得词特征和词二维位置特征;
根据词令牌的索引排序,采用绝对位置编码进行位置编码将所述排序的序号映射为词一维位置特征;
所述词特征、词二维位置特征及词一维位置特征为文本特征。
5.根据权利要求2所述的方法,其特征在于,获取文档图像的图像特征,包括:
将所述文档图像均匀划分为多个图像块,将图像块按设定的位置顺序输入编码层,编码层将每一个图像块映射为多维特征,所述编码层输出一个图像特征序列;
将所述文档图像中每一个图像块对应的二维位置输入编码层,得到图像二维位置特征;所述二位位置为所述图像块在所述文档图像中的平面位置;
采用绝对位置编码对所述文档图像中每个图像块的一维位置顺序序号进行位置编码,得到图像一维位置特征;
所述图像特征序列、图像二维位置特征及图像一维位置特征为图像特征。
6.根据权利要求2所述的方法,其特征在于,所述提示特征还包括提示字符。
7.根据权利要求1所述的方法,其特征在于,从对应的目标类别的文档图像中提取模板特征,包括:
若所述目标类别只采集到一张文档图像,则获取所述文档图像的类别特征作为该目标类别的模板特征;
若所述目标类别采集到多张文档图像,则对多张文档图像的类别特征进行平均获得平均类别特征,设置所述平均类别特征作为该目标类别的模板特征。
8.根据权利要求1所述的方法,其特征在于,所述目标类别有多个,每个目标类别一对一设置一个模板特征。
9.根据权利要求2所述的方法,其特征在于,所述多模态特征提取模型采用transformer模型;
所述多模态特征提取模型在训练时,对应空占位符的输出位置设置损失函数进行训练,所述损失函数为平均交叉熵函数。
10.一种文档图像分类装置,其特征在于,包括:特征获取模块、相似度获取模块、分类模块和新增目标类别模块,
所述特征获取模块用于获取待分类的文档图像的类别特征;
所述相似度获取模块用于获取所述待分类的文档图像的类别特征与模板特征库中各个目标类别对应的模板特征的相似度;所述模板特征库包括多个目标类别对应的模板特征,其中所述模板特征为从对应的目标类别的文档图像中提取得到;
所述分类模块用于若所述模板特征库中存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则从中选取最高相似度的模板特征对应的目标类别作为所述待分类的文档图像的类别;
所述新增目标类别模块用于若所述模板特征库中不存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则判断所述模板特征库中是否需要新增目标类别;若判断需要新增目标类别,则将所述待分类的文档图像的类别特征作为新增的目标类别的模板特征添加到所述模板特征库中。
11.根据权利要求10所述的装置,其特征在于,所述特征获取模块包括:数据获取子模块、提示特征设置子模块、特征提取子模块和类别特征获取子模块,
所述数据获取子模块用于获取所述待分类的文档图像的文本特征和图像特征;
所述提示特征设置子模块用于设置提示特征;所述提示特征内设置有空占位符;
所述特征提取子模块用于将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型;
所述类别特征获取子模块用于提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211243923.0A CN115527220A (zh) | 2022-10-11 | 2022-10-11 | 一种文档图像分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211243923.0A CN115527220A (zh) | 2022-10-11 | 2022-10-11 | 一种文档图像分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527220A true CN115527220A (zh) | 2022-12-27 |
Family
ID=84702171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211243923.0A Pending CN115527220A (zh) | 2022-10-11 | 2022-10-11 | 一种文档图像分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527220A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403203A (zh) * | 2023-06-06 | 2023-07-07 | 武汉精臣智慧标识科技有限公司 | 一种标签生成方法、系统、电子设备及存储介质 |
-
2022
- 2022-10-11 CN CN202211243923.0A patent/CN115527220A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403203A (zh) * | 2023-06-06 | 2023-07-07 | 武汉精臣智慧标识科技有限公司 | 一种标签生成方法、系统、电子设备及存储介质 |
CN116403203B (zh) * | 2023-06-06 | 2023-08-29 | 武汉精臣智慧标识科技有限公司 | 一种标签生成方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8160402B2 (en) | Document image processing apparatus | |
CN110909725A (zh) | 识别文本的方法、装置、设备及存储介质 | |
KR101289085B1 (ko) | 객체 기반 영상 검색시스템 및 검색방법 | |
US8208765B2 (en) | Search and retrieval of documents indexed by optical character recognition | |
CN111324743A (zh) | 文本关系抽取的方法、装置、计算机设备及存储介质 | |
CN114465737B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
EP4181059A1 (en) | Medical image processing method, apparatus, device, storage medium, and product | |
CN108304530B (zh) | 知识库词条分类方法和装置、模型训练方法和装置 | |
KR101552525B1 (ko) | 폰트를 인식하고 폰트정보를 제공하는 시스템 및 그 방법 | |
CN105989001B (zh) | 图像搜索方法及装置、图像搜索系统 | |
CN110458078A (zh) | 一种人脸图像数据聚类方法、系统及设备 | |
CN109783624A (zh) | 基于知识库的答案生成方法、装置和智能会话系统 | |
CN111046879A (zh) | 证件图像分类方法、装置、计算机设备及可读存储介质 | |
CN113901954A (zh) | 一种文档版面的识别方法、装置、电子设备及存储介质 | |
CN110245573A (zh) | 一种基于人脸识别的签到方法、装置及终端设备 | |
CN115527220A (zh) | 一种文档图像分类方法和装置 | |
CN113408581A (zh) | 一种多模态数据匹配方法、装置、设备及存储介质 | |
CN112347223A (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN112036520A (zh) | 基于深度学习的大熊猫年龄识别方法、装置及存储介质 | |
EP2023266A1 (en) | Searching media content for objects specified using identifiers | |
CN115131801A (zh) | 基于多模态的文档识别方法、装置、设备和存储介质 | |
CN115909374A (zh) | 一种信息识别方法、装置、设备及存储介质、程序产品 | |
CN112199499A (zh) | 文本划分方法、文本分类方法、装置、设备及存储介质 | |
CN102567736A (zh) | 图像识别设备及方法 | |
CN115544200A (zh) | 一种文档影像分类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |