CN116152840A - 文件分类方法、装置、设备和计算机存储介质 - Google Patents

文件分类方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN116152840A
CN116152840A CN202310246419.4A CN202310246419A CN116152840A CN 116152840 A CN116152840 A CN 116152840A CN 202310246419 A CN202310246419 A CN 202310246419A CN 116152840 A CN116152840 A CN 116152840A
Authority
CN
China
Prior art keywords
file
text
text information
identified
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310246419.4A
Other languages
English (en)
Inventor
王炳乾
孙晴晴
孔岳
褚虓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202310246419.4A priority Critical patent/CN116152840A/zh
Publication of CN116152840A publication Critical patent/CN116152840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例提供一种文件分类方法、装置、设备和计算机存储介质。其中,文件分类方法包括:获取待识别文件图像;对待识别文件图像进行文字提取得到第一文件文本信息;为第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测第一待识别文本信息中的掩码所对应的标签;根据标签和预先设置的对应关系数据确定出待识别文件图像的类别,对应关系数据中记载有不同标签及其对应的类别。

Description

文件分类方法、装置、设备和计算机存储介质
技术领域
本公开涉及显示技术领域,具体涉及一种文件分类方法、装置、设备和计算机存储介质。
背景技术
在金融、医疗、保险、能源、物流等多个行业都存在大量的票据数据,例如出租车发票,合同,火车票,结算单,营执照,身份证等等。对于任何行业来说,票据的整理、归类和存档都是一件极其复杂的事情,因此对票据数据进行智能识别以及形成结构化信息越来越重要。
相关技术中,可以利用预训练语言模型对票据中的文本进行语义表征,通过额外的分类层(通常为全连接层加softmax)来进行分类。但这种方式需要较大的训练数据集去微调模型,额外增加了模型的参数量,且下游任务与预训练任务不一致造成模型的性能损失,此外在少样本情况下表现不佳,往往会出现过拟合的情况。
发明内容
本公开实施例提供一种文件分类方法、装置、设备和计算机存储介质。
第一方面,本公开实施例提供一种文件分类方法,方法包括:
获取待识别文件图像;
对所述待识别文件图像进行文字提取得到第一文件文本信息;
为所述第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测所述第一待识别文本信息中的掩码所对应的标签;
根据所述标签和预先设置的对应关系数据确定出所述待识别文件图像的类别,所述对应关系数据中记载有不同标签及其对应的类别。
在一些实施例中,所述第一文件文本信息包括多个文本组,每一文本组包括至少一个字符;
根据所述标签和预先设置的对应关系数据确定出所述待识别文件图像的类别的步骤之后,所述方法还包括:
根据所述待识别文件图像的类别确定所述待识别文件图像所对应的字段模板,所述字段模板中记载有对应文件图像中不同区域处所提取的文本组的字段;
根据所述待识别文件图像的所述字段模板确定出所述第一文件文本信息内各所述文本组的字段。
在一些实施例中,输出所述第一文件文本信息内各所述文本组以及各所述文本组所对应的字段。
在一些实施例中,所述提示文本模板中还包括有:无定义标志。
在一些实施例中,所述为所述第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测所述第一待识别文本信息中的掩码所对应的标签的步骤之前,还包括:
训练预测语言模型;
所述为所述第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测所述第一待识别文本信息中的掩码所对应的标签的步骤,包括:
使用已完成训练的所述预测语言模型为所述第一文件文本信息配置提示文本模板以构建所述第一待识别文本信息,并预测所述提示文本信息中的掩码所对应的标签。
在一些实施例中,训练所述预测语言模型的步骤,包括:
获取训练样本集,所述训练样本集包括多个训练样本文件图像;
对所述训练样本文件图像进行文字提取得到第二文件文本信息;
使用所述预测语言模型为所述第二文件文本信息配置所述提示文本模板以构建第二待识别文本信息,并根据所述训练样本集中至少部分所述训练样本文件图像所对应的所述第二待识别文本信息对所述预测语言模型进行训练。
在一些实施例中,对所述训练样本文件图像进行文字提取得到第二文件文本信息的步骤之后,还包括:
对所述第二文件文本信息进行分词处理;
对进行分词处理后的所述第二文件文本信息中的部分词进行更改。
在一些实施例中,对所述第二文件文本信息中的部分词进行更改的步骤,包括:
对所述第二文件文本信息中的部分词采用同义词进行替换;和/或,
对所述第二文件文本信息中的部分词采用近义词进行替换;和/或,
对所述第二文件文本信息中的部分词采用随机词进行替换。
在一些实施例中,提取所述待识别文件图像中的第一文件文本信息的步骤的同时,还包括:
提取所述第一文件文本信息中至少部分文本的属性信息;
所述预测所述第一待识别文本信息中的掩码所对应的标签的步骤包括:
根据所述第一文件文本信息、所述形态信息和所述位置信息,预测出所述第一待识别文本信息中的掩码所对应的标签。
在一些实施例中,所述属性信息包括:形态信息和/或位置信息。
在一些实施例中,所述提取所述第一文件文本信息中至少部分文本的属性信息的步骤,包括:
以Mac BERT网络为主干,并增设位置嵌入向量和输入图像嵌入向量,得到预测语言模型;
通过所述预测语言模型,提取所述第一文件文本信息中至少部分文本的属性信息,所述属性信息包括:文字方向、颜色、字体、文字在图像中的相对位置中的至少一个。
第二方面,本公开实施例提供一种文件分类装置,所述装置包括:
获取模块,配置为获取待识别文件图像;
提取模块,配置为对所述待识别文件图像进行文字提取得到第一文件文本信息;
处理模块,配置为为所述第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测所述第一待识别文本信息中的掩码所对应的标签;
映射模块,配置为根据所述标签和预先设置的对应关系数据确定出所述待识别文件图像的类别,所述对应关系数据中记载有不同标签及其对应的类别。
第三方面,本公开实施例提供一种文件分类设备,其中,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面所述的文件分类方法的步骤。
第四方面,本公开实施例提供一种计算机非瞬态可读存储介质,其中,该计算机非瞬态可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面所述的文件分类方法的步骤。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本公开实施例提供的一种文件分类方法的示意流程图。
图2为本公开实施例提供的另一种文件分类方法的示意流程图。
图3为本公开实施例提供的一种文件图像对应的字段模板示意图。
图4为步骤S3'的具体示意流程图。
图5为本公开实施例提供的一种文件分类装置的结构示意图。
图6为本公开实施例中提供的一种文件分类设备的结构示意图。
图7为本公开实施例中提供的计算机非瞬态可读存储介质的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另作定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
在金融、医疗、保险、能源、物流等多个行业都存在大量的文件数据,例如出租车发票,合同,火车票,结算单,营执照,身份证等等。对于任何行业来说,文件数据的整理、归类和存档都是一件极其复杂的事情,因此对文件数据进行智能识别以及形成结构化信息越来越重要。
相关技术中,可以利用预训练语言模型对票据中的文本进行语义表征,通过额外的分类层(通常为全连接层加softmax)对预训练预演模型进行微调,从而实现文件分类。
其中,预训练语言模型可以是GPT3网络模型,它的参数量最高能够达到1750亿,基于其巨大的参数量,可以让它在Few-Shot Learning(少样本学习),甚至Zero-ShotLearning(零样本学习)时也达到一个比较好的效果,从而提高检测/识别效率。但由此也带来了弊端,其超出寻常的参数量让用户在使用时无法在有限的计算资源和/或有限的时间内对它进行模型训练甚至是推理。因此,该模型无法直接适用于具体的检测场景中,需要微调优化后才能适用,上述增设额外分类层的方式为目前使用较多的微调方案之一。
具体地,基于预训练语言模型的文本分类任务中,采用BERT网络对输入的文本进行编码,通常输入的文本语句为[CLS]语句1[SEP],或者成对的语句[CLS]语句1[SEP]语句2[SEP],然后利用[CLS]向量接一个分类器(例如:全连接层+softmax回归网络)进行文本检测,确定文本所属文件的类型。其中,上述[CLS]标志被放在语句的首位,标识可以用于后续任务,[SEP]标志用于区分两个输入语句。
但这种方式需要较大的训练数据集去微调模型,额外增加了模型的参数量,且下游任务与预训练任务不一致造成模型的性能损失,此外在少样本情况下表现不佳,往往会出现过拟合的情况。并且在模型微调的过程中,全部模型权重都需要进行更新,降低模型检测速率。
为了解决上述技术问题中的至少一种,本公开实施例提供一种文件分类方法。
图1为本公开实施例提供的一种文件分类方法的示意流程图,如图1所示,文件分类方法包括步骤S1-S4:
步骤S1,获取待识别文件图像。
上述待识别文件图像可以是对待识别文件进行拍摄得到的,也可以是在视频中所截取的某一帧图像,且本公开实施例对待识别图像的分辨率、图像格式等均不作限定。
需要说明的是,待识别文件是指具有固定模板或固定格式的文件,该文件可以是凭证、表单、证件、票据等,例如:出租车票、发票、身份证、合同。
步骤S2,对待识别文件图像进行文字提取得到第一文件文本信息。
具体地,可以通过OCR文字识别技术对待识别文件图像中的文字进行识别并提取,也可以通过其他文字识别技术提取文本信息,本公开实施例对此不作限定。
在一个示例中,对一个身份证图像进行文字提取,得到的第一文件文本信息可以包括:“姓名张三性别女民族汉出生aaaa年bb月cc日住址广东省某某县某某镇公民身份号码mmmmmmaaaabbccnnnn”。
步骤S3,为第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测第一待识别文本信息中的掩码所对应的标签。
在与上述示例的相同示例中,对身份证图像中第一文件文本信息所配置的提示文本模板可以是“这是一条____信息”,则第一待识别文本信息为“姓名张三性别女民族汉出生aaaa年bb月cc日住址广东省广东省某某县某某镇公民身份号码mmmmmmaaaabbccnnnn,这是一条____信息”。
步骤S4,根据标签和预先设置的对应关系数据确定出待识别文件图像的类别,对应关系数据中记载有不同标签及其对应的类别。
应当理解的是,标签是对第一待识别文本信息中提示文本模板的掩码进行预测得到的,因此,在上述示例中所预测得到的标签为“身份”,补充到提示文本模板中为“这是一条身份信息”,但“身份”并不是一个类型,其对应的文件类型为“身份证”。因此,在根据步骤S3预测得到标签后,根据标签和预先设置的对应关系确定出类别,也就是说,将标签“身份”和对应关系中“身份”与“身份证”的对应关系,确定类别为“身份证”。另外,在标签与类型的对应关系中,并不是一一对应的,即同一类型可以对应一个或多个标签。
本公开实施例提供的文件分类方法中,为待识别文件图像中所提取的第一文件文本信息配置提示文本模板,以构建包含第一文件文本信息及其对应的提示文本模板的第一待识别文本信息,从而将检测任务由“识别待识别文件的类型”,转化为“根据第一待识别文本信息,预测提示文本模板中掩码所对应标签”,以在小样本情况下依旧能够保证文件分类的准确性,并提高检测效率。
另外,本公开实施例提供的文件分类方法中,对待识别文件图像进行分类识别,得到其对应的文件类型后,还可以根据分类结果,确定该类型对应的文件模板,将识别出的文本信息与模板信息结合,进行结构化输出,从而将文本信息与其对应文本含义进行实质性关联,即对文本中关键信息进行有效提取,以实现文件的自动归档、统计,节省人力成本,并提高工作效率。
图2为本公开实施例提供的另一种文件分类方法的示意流程图,在一些实施例中,如图2所示,步骤S3之前还包括步骤S3':训练预测语言模型。此时,步骤S3包括步骤S30:使用已完成训练的预测语言模型,为第一文件文本信息配置提示文本模板以构建第一待识别文本信息,并预测提示文本信息中的掩码所对应的标签。
其中步骤S3'中对预测语言模型的训练过程在以下实施例中作具体说明,此处暂不赘述。
应当理解的是,对文件进行检测识别的最终目的并不只是得到其所属类型,而是要基于分类结果以及预先获取的该分类字段模板,对文件图像中的第一文件文本信息进行结构化输出。具体地,在文件分类过程中,只能从文件图像上识别出图像中的文字,但并不能获取到文字所表征的含义,而对于同一类型下的不同文件来说,位于同一位置的文本信息表征相同的文本属性。因此,通过定位文件中的文字位置,建立不同类型文件所对应的字段模板,从而将第一文件文本信息结构化输出。
在一些实施例中,第一文件文本信息包括多个文本组,每一文本组包括至少一个字符;如图2所示,步骤S4之后,方法还包括:
步骤S5,根据待识别文件图像的类别确定待识别文件图像所对应的字段模板,字段模板中记载有对应文件图像中不同区域处所提取的文本组的字段。
步骤S6,根据待识别文件图像的字段模板,确定出第一文件文本信息内各文本组的字段。
步骤S7,输出第一文件文本信息内各文本组以及各文本组所对应的字段。
需要说明的是,上述字段模板是预先确定的。图3为本公开实施例提供的一种文件图像对应的字段模板示意图,如图3所示,在一个示例中,在文件类型为火车票的情况下,字段模板中记载的多个字段可以包括:“始发站”、“终点站”、“车次”、“票价”、“乘车人”和“证件号”。
进一步地,结合预先获取的字段模板以及所识别的第一文件文本信息可知,文本组“昆明”对应的字段为“始发站”,文本组“丽江”对应的字段为“终点站”,等等。最终,将各文本组及其对应的字段输出。上述输出可以是指将各文本组及其对应的字段输出至预设存储单元,以表格或其他预设形式进行存储,也可以是连接显示屏并在显示屏上进行展示,本公开实施例对此不作限定。
另外,上述字段模板可以通过以下方法步骤进行标注,即获取每一类型的字段模板,具体可以包括以下步骤:
步骤a:由用户上传一张待处理文件图像。
上述待处理文件图像的类别是已知的,例如:火车票。
步骤b:在待处理文件图像上标注锚点字段,以及多个文本组所在区域即多个文本框。
由于锚点字段用于文件分类图像位置,因此所标注的锚点字段应当具备“相同类型下的不同文件上均存在”的特征,例如,可以将图3中火车票右上角的
Figure BDA0004131964330000091
标注为锚点字段。
步骤c:对每一文本框进行人工标注,确定每一文本组所对应的字段,以形成与该文件类型对应的字段模板。
在一些实施例中,上述步骤S2的同时,文件分类方法还可以包括:对第一文件文本信息中至少部分文本的属性信息进行提取。此时,步骤S3可以包括:根据第一文件文本信息、属性信息,预测出第一待识别文本信息中掩码所对应的标签。
在一些实施例中,属性信息包括:形态信息和/或位置信息。
具体地,位置信息可以是指文本字符在二维空间中的位置布局信息,根据页面上字符位置的分布以及字体的大小,区分哪里是标题、哪里是正文、哪里是表格等。在一个示例中,位置信息可以包括六个数据,例如(x0,y0,x1,y1,w,h),其中x0和y0分别表示字符框左上角的坐标,x1和y1分别表示字符框右下角的坐标,w和h分别表示字符框的宽度和高度。形态信息可以是字符在文件图像中的字体、文字方向、颜色等视觉信息。综上,根据第一文件文本信息和属性信息,对标签进行预测,能够提高标签预测的准确性。
另外,上述位置信息可以通过在以Mac BERT为主干的模型中增设的2D位置嵌入向量来获取,上述形态信息可以通过输入图像嵌入向量来获取。在Mac BERT模型中增设2D位置嵌入向量和输入图像嵌入向量后,形成也就是说,预测语言模型可以是Layoutlm模型。
下面结合具体实施例对本公开实施例中预测语言模型的训练过程进行详细说明。下述实施例中,以预测语言模型采用预训练语言模型为例。
区别于相关技术中利用预训练语言模型以及增设分类层(通常为全连接层加softmax回归网络)来进行文件分类的方式,本公开实施例中提出通过Prompt-tuning(提示学习)的方式对预训练语言模型进行微调,即将Prompt信息(提示信息)加入到预训练语言模型的微调过程中,只对Prompt部分的参数进行训练调整,其他的模型参数固定不变,从而避免过拟合的情况,以在小样本数据下达到分类准确性较高的使用效果。
本公开实施例中,预训练语言模型可以利用现有的网络模型实现,例如在BERT网络模型上利用Transformer编码器并引入了双向屏蔽技术,允许每个语言双向关注其他标记,因此又称为掩码语言模型(Masked Language Model,MLM)。进一步地,对MLM模型的微调可以是将下游任务视为“自动补全”任务。
在一个示例中,可以通过使用[MASK](掩码)标记来替换部分文本,并将替换后的语句作为输入,使MLM模型通过上下文语义信息来预测每个[MASK]。例如,模型的输入为“[CLS]郭德纲是一名[MASK][MASK][MASK][MASK][SEP]”,其中,[CLS]标志被放在语句的首位,标识可以用于后续任务,[SEP]标志用于区分不同的输入语句。
在另一个示例中,输入为一段评论,输出结果为这个评论是积极还是消极,那么原始的输入语句为:“这款手机很轻便,续航能力也不错。(label为积极)”;在对MLM模型进行微调时,输入语句调整为:“这款手机很轻便,续航能力也不错,真_____!”,即输入至MLM中的信息为“[CLS]这款手机很轻便,续航能力也不错,真[MASK][SEP]”。上述的空格内的内容可限定在{好,差}两个字的集合内。即将预测标签映射到具体的字上,把积极的label映射到“好”字上,将消极的label映射到“差”字上,此时MLM的任务就转化为预测整个词表。
这样做的好处是,将BERT预训练时的MLM层的参数能利用上。而且,即使模型没有进行微调,这个模型本身就具有一定的准确率!根据语义来说,没可能预测出“这款手机很轻便,续航能力也不错,真好!”比“这款手机很轻便,续航能力也不错,真差!”的概率还小,因为前面一句很明显是语义矛盾的。
通过上述两个示例可以看出,这种微调方法重新使用了预先训练的参数权重,并且没有引入任何新参数来进行。同时还减少了微调和预训练之间的差距,这可以更有效地用于小样本场景。
以上,为模型训练的Pattern-Exploiting Training(PET)方式,也称PromptTuning,就是给输入的文本增加一个前缀或者后缀描述,并且Mask掉某些Token(占位符),转换为完形填空问题,这样的转换称为Prompt,文本所增加的前缀或者后缀描述成为Prompt信息,也即提示文本模板。提示文本模板要尽可能的与原本输入的文本组成一句自然的语句,不能过于生硬,因为MLM模型本身就是基于自然预演训练形成的。显然,对于同一段输入文本,可以配置有多种不同的提示文本模板,可以将提示文本模板放在文本最后,例如“这趟北京之旅我感觉很不错,_____满意”,也可以将提示文本模板多加几个字放在文本中间,例如“觉得如何?____满意。这趟北京之旅我感觉很不错”。
鉴于提示文本模板的不稳定性,接下来需要构建Mask所对应标签词的候选空间,并建立标签词到实际类别的映射关系,例如,在情感分类的文本中,候选空间是{很,不},映射关系是很→正面、不→负面,候选空间与实际类别之间不一定是一一映射,比如我们还可以加入“挺”、“太”、“难”字,并且认为{很,挺,太}→正面以及{不,难}→负面,等等。不难理解,不少预测任务都有可能进行这种转换,但显然这种转换一般只适用于候选空间有限的任务,也就是只用来做选择题,常见任务的就是分类任务。
综上,本公开实施例提供的文件分类方法,可以通过对预测语言模型进行微调,以形成适用于小样本环境下的文件分类模型。具体的,预测语言模型可以采用MLM模型,然后采用Prompt tuning的方式对MLM模型进行微调,以适用于小样本环境下的文件分类。
图4为步骤S3'的具体示意流程图,在一些实施例中,如图4所示,步骤S3'训练预测语言模型,具体可以包括:
步骤S301,获取训练样本集,训练样本集包括多个训练样本文件图像。
步骤S302,对训练样本文件图像进行文字提取得到第二文件文本信息。
具体地,可以通过OCR文字识别技术对训练样本文件图像中的文字进行识别并提取,也可以通过其他文字识别技术提取文本信息,本公开实施例对此不作限定。
步骤S303,使用预测语言模型为第二文件文本信息配置提示文本模板以构建第二待识别文本信息,并根据训练样本集中至少部分训练样本文件图像所对应的第二待识别文本信息对预测语言模型进行训练。
需要说明的是,对预测语言模型进行训练时,可以根据部分训练样本文件图像所对应的第二待识别文本信息,也可以根据全部训练样本文件图像所对应的第二待识别文本信息,本公开实施例对此不作限定。
在一个示例中,第二文件文本信息可以是:“A****某地1售某地1K**次某地2XXXX年XX月XX日06:58开无座¥B元新空调硬座快速限乘当日当次车在2日内到有效”。为第二文件文本信息构建的提示文本模板可以是:“这是一条[MASK][MASK]信息”,则输入至预测语言模型中进行训练的第二待识别文本信息为:“[CLS]S1,这是一个[MASK]信息。[SEP]”,其中,S1为被分类文本信息,即上述第二文件文本信息。其中[MASK]为标签词,其作为当前文本信息所属标签的替代词,在本专利中,"出租","合同","车票","结算","执照","证件"均为标签词,这些词不唯一,可根据票据内容信息进行适当调整。因此输入文本为xsrc,模型预测类别为y的概率,与输入构建的xprompt,prompt模板中[MASK]处预测为映射标签词M(y)的概率是等价的,计算方式如下所示:
Figure BDA0004131964330000121
Figure BDA0004131964330000131
其中,[MASK]表示Prompt即提示文本模板中被遮盖的部分,wM(y)为可训练的权重,h[mask]为被遮盖词隐藏层标识。模型的优化目标为p(y|xsrc)与真实标签M(y)的交叉熵损失。
根据上述训练方法,步骤S303中根据样本训练集中至少部分样本的第二待识别文本信息对预训练语言模型进行训练,得到符合损失函数要求的多个预训练语言模型。
在一些实施例中,如图4所示,步骤S3'还可以包括:
步骤S304,获取测试样本集,训练样本集包括多个测试样本文件图像;对测试样本文件图像进行文字提取得到第三文件文本信息;使用预测语言模型为第三文件文本信息配置提示文本模板以构建第三待识别文本信息,并根据测试样本集中至少部分训练样本文件图像所对应的第三待识别文本信息对多个预训练语言模型进行训练,以筛选出最优的预训练预语言模型。其中,所筛选的多个预训练语言模型为步骤S303中得到的符合损失函数要求的多个预训练语言模型。
在一个示例中,训练样本集和测试样本集之间的比例可以是9:1,本公开实施例对此不作限定。
可选的,在微调训练阶段可以在构建的提示文本模板的基础上,按照预训练阶段掩码策略,引入纠错掩码语言模型(Mac)训练任务,采用n-gram masking方式对输入的文本内容进行随机的mask,然后采用切词MASK方式加同义词替换MASK,有效解决了预训练阶段有mask标记,下游任务无mask,这种上下游任务不一致的问题。以及,采用切词MASK方式加形近词替换MASK,这一策略的是为了解决上游任务中OCR算法识别不精确,导致文件图像中所提取的文本信息中部分文本错误带来的影响。
在一些实施例中,步骤S302之后,文件分类方法还包括步骤S3021:对第二文件文本信息进行分词处理;对第二文件文本信息中的部分词进行更改。
具体地,第二文件文本信息与上述示例相同,分词处理后将第二文件文本信息分为多个文本字符串,且任一文本字符串中所包含的文本字符至少为一个,例如:“次”、“北京”、“当车次”等。在多个文本字符串中,采用n-gram masking方式随机选取n%进行MASK标记,其中,n%可以是本领域技术人员按模型训练需求自行设置的,例如15%。
在一个示例中,采用n-gram masking方式随机选取15%文本字符串进行MASK标记可以包括:按照40%、30%、20%、10%的概率,采用1-gram~4gram Masking的方式进行选取。例如,分词处理后将第二文件文本信息分为200个文本字符串,在其中选取30个文本字符串进行MASK标记,在这30个文本字符串中,有40%即12个文本字符串只包含1个文本字符,有30%即9个文本字符串包含2个文本字符,有20%即6个文本字符串包含3个文本字符,有10%即3个文本字符串包含4个文本字符。以上述选取规则,来选取进行MASK的文本内容。
在一些实施例中,上述对第二文件文本信息中的部分词进行更改的步骤可以包括:对第二文件文本信息中的部分词采用同义词进行替换;和/或,对第二文件文本信息中的部分词采用近义词进行替换;和/或,对第二文件文本信息中的部分词采用随机词进行替换。
具体地,在与上述示例的相同示例中,对第二文件文本信息中15%的词进行标记的策略可以是:40%用同义词代替;40%用形近词代替;10%用随机词代替;10%保持不变。通过在训练过程中引入纠错掩码语言模型(Mac)训练任务,实现如配副眼睛-配副眼镜的谐音字词纠错、流浪织女-牛郎织女的混淆字词纠错、想象难以-难以想象的语法纠错,以及高梁-高粱的形似字纠错,从而提高模型的泛化能力,提高文件分类的准确性。
另外,需要说明的是,不论是使用已完成训练的预测语言模型对待识别文件图像进行分类识别时,为第一文件文本信息配置提示文本模板的过程中,还是在对预测语言模型进行训练时,为第二文件文本信息配置提示文本模板的过程中,由于不同的提示文本模板和标签词选择对最终结果影响很大,因此,使用相同“标签词”,即使对“模板”进行较小改动(如换标点符号)也会呈现不同结果;使用相同“模板”,不同的“标签词”效果也不一样。
为了减少不同提示文本模板之间的差异性,提高下游任务的识别准确性,提示文本模板中还包括有:无定义标志,具体地,提示文本模板内除掩码之外的其他字符中的至少一个为无定义标志。
在一个示例中,无定义标识的表现形式可以是Unused Token。例如,第一/第二文件文本信息为:“A064684天津售天津K28次北京TianjinBeijing2008年10月30日06:58开无座¥22.00元新空调硬座快速限乘当日当次车在2日内到有效10157010161030A0646840137”,则为其配置的提示文本模板可以是“这是一条[MASK][MASK]信息”,为了最大程度的减少模板对分类/训练结果准确性的影响,提示文本模板可以是替换为“[Unused1][Unused2][Unused3][Unused4][MASK][MASK][Unused5][Unused6]”。
基于此,在模型训练过程中可以只针对当前的这些Unusedx Token的向量参数进行优化,让它们起到模板的作用,而其他的模型权重固定不变。这样学习参数变少,模型的训练速度相应会加快,因此,在少样本下也能学习出准确性较好的模板,不易过拟合。
图5为本公开实施例提供的一种文件分类装置的结构示意图,如图5所示,文件分类装置包括:
获取模块51,配置为获取待识别文件图像。
提取模块52,配置为对待识别文件图像进行文字提取得到第一文件文本信息。
处理模块53,配置为为第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测第一待识别文本信息中的掩码所对应的标签。
映射模块54,配置为根据标签和预先设置的对应关系数据确定出待识别文件图像的类别,对应关系数据中记载有不同标签及其对应的类别。
本公开实施例中文件分类装置所解决问题的原理,与本公开实施例上述文件分类方法所解决问题的原理相似,在此不再赘述。
图6为本公开实施例中提供的一种文件分类设备的结构示意图,如图6所示,文件分类设备100包括:存储器101、处理器102和总线103,存储器101上存储有计算机程序,其中,计算机程序被处理器102执行时实现上述的文件分类方法,例如实现图1中的步骤S1至S4。处理器102与存储器101之间通过总线103通信,使得处理器102在执行上述方法实施例中所提及的执行指令。
进一步的,上述文件分类设备通过Prompt-tuning(提示学习)的方式对预测语言模型进行微调,即将Prompt信息(提示文本模板)加入到预训练语言模型的微调过程中,只对Prompt部分的参数进行训练调整,其他的模型参数固定不变,从而避免过拟合的情况,以在小样本数据下达到分类准确性较高的使用效果,并且提高分类检测的准确性和检测效率。
文件分类设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。文件分类设备100可包括,但不仅限于,处理器102和存储器101。本领域技术人员可以理解,图6仅仅是文件分类设备100的示例,并不构成对文件分类设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述文件分类设备100还可以包括输入输出设备、网络接入设备。
处理器102可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器102可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器101可以是文件分类设备100的内部存储单元,例如文件分类设备100的硬盘或内存。所述存储器101也可以是所述文件分类设备100的外部存储设备,例如所述文件分类设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器101还可以既包括所述文件分类设备100的内部存储单元也包括外部存储设备。所存储器101用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。存储器101还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图7为本公开实施例中提供的计算机非瞬态可读存储介质的结构示意图,如图7所示,计算机可读存储介质200上存储有计算机程序201,其中,计算机程序201被处理器执行时实现上述文件分类方法,例如实现图1中的步骤S1至步骤S4。计算机可读存储介质200包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。

Claims (14)

1.一种文件分类方法,其特征在于,所述方法包括:
获取待识别文件图像;
对所述待识别文件图像进行文字提取得到第一文件文本信息;
为所述第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测所述第一待识别文本信息中的掩码所对应的标签;
根据所述标签和预先设置的对应关系数据确定出所述待识别文件图像的类别,所述对应关系数据中记载有不同标签及其对应的类别。
2.根据权利要求1所述的文件分类方法,其特征在于,所述第一文件文本信息包括多个文本组,每一文本组包括至少一个字符;
根据所述标签和预先设置的对应关系数据确定出所述待识别文件图像的类别的步骤之后,所述方法还包括:
根据所述待识别文件图像的类别确定所述待识别文件图像所对应的字段模板,所述字段模板中记载有对应文件图像中不同区域处所提取的文本组的字段;
根据所述待识别文件图像的所述字段模板确定出所述第一文件文本信息内各所述文本组的字段。
3.根据权利要求2所述的文件分类方法,其特征在于,输出所述第一文件文本信息内各所述文本组以及各所述文本组所对应的字段。
4.根据权利要求1所述的文件分类方法,其特征在于,所述提示文本模板中还包括有:无定义标志。
5.根据权利要求1所述的文件分类方法,其特征在于,所述为所述第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测所述第一待识别文本信息中的掩码所对应的标签的步骤之前,还包括:
训练预测语言模型;
所述为所述第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测所述第一待识别文本信息中的掩码所对应的标签的步骤,包括:
使用已完成训练的所述预测语言模型为所述第一文件文本信息配置提示文本模板以构建所述第一待识别文本信息,并预测所述提示文本信息中的掩码所对应的标签。
6.根据权利要求5所述的文件分类方法,其特征在于,训练所述预测语言模型的步骤,包括:
获取训练样本集,所述训练样本集包括多个训练样本文件图像;
对所述训练样本文件图像进行文字提取得到第二文件文本信息;
使用所述预测语言模型为所述第二文件文本信息配置所述提示文本模板以构建第二待识别文本信息,并根据所述训练样本集中至少部分所述训练样本文件图像所对应的所述第二待识别文本信息对所述预测语言模型进行训练。
7.根据权利要求6所述的文件分类方法,其特征在于,对所述训练样本文件图像进行文字提取得到第二文件文本信息的步骤之后,还包括:
对所述第二文件文本信息进行分词处理;
对进行分词处理后的所述第二文件文本信息中的部分词进行更改。
8.根据权利要求7所述的文件分类方法,其特征在于,对所述第二文件文本信息中的部分词进行更改的步骤,包括:
对所述第二文件文本信息中的部分词采用同义词进行替换;和/或,
对所述第二文件文本信息中的部分词采用近义词进行替换;和/或,
对所述第二文件文本信息中的部分词采用随机词进行替换。
9.根据权利要求1所述的文件分类方法,其特征在于,提取所述待识别文件图像中的第一文件文本信息的步骤的同时,还包括:
提取所述第一文件文本信息中至少部分文本的属性信息;
所述预测所述第一待识别文本信息中的掩码所对应的标签的步骤包括:
根据所述第一文件文本信息和所述属性信息,预测出所述第一待识别文本信息中的掩码所对应的标签。
10.根据权利要求9所述的文件分类方法,其特征在于,所述属性信息包括:形态信息和/或位置信息。
11.根据权利要求9所述的文件分类方法,其特征在于,所述提取所述第一文件文本信息中至少部分文本的属性信息的步骤,包括:
以Mac BERT网络为主干,并增设位置嵌入向量和输入图像嵌入向量,得到预测语言模型;
通过所述预测语言模型,提取所述第一文件文本信息中至少部分文本的属性信息,所述属性信息包括:文字方向、颜色、字体、文字在图像中的相对位置中的至少一个。
12.一种文件分类装置,其特征在于,所述装置包括:
获取模块,配置为获取待识别文件图像;
提取模块,配置为对所述待识别文件图像进行文字提取得到第一文件文本信息;
处理模块,配置为为所述第一文件文本信息配置包括有掩码的提示文本模板以构建出第一待识别文本信息,并预测所述第一待识别文本信息中的掩码所对应的标签;
映射模块,配置为根据所述标签和预先设置的对应关系数据确定出所述待识别文件图像的类别,所述对应关系数据中记载有不同标签及其对应的类别。
13.一种文件分类设备,其中,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1-11任意一项所述的文件分类方法的步骤。
14.一种计算机非瞬态可读存储介质,其中,该计算机非瞬态可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-11任意一项所述的文件分类方法的步骤。
CN202310246419.4A 2023-03-10 2023-03-10 文件分类方法、装置、设备和计算机存储介质 Pending CN116152840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310246419.4A CN116152840A (zh) 2023-03-10 2023-03-10 文件分类方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310246419.4A CN116152840A (zh) 2023-03-10 2023-03-10 文件分类方法、装置、设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN116152840A true CN116152840A (zh) 2023-05-23

Family

ID=86373685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310246419.4A Pending CN116152840A (zh) 2023-03-10 2023-03-10 文件分类方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN116152840A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN116861014A (zh) * 2023-09-05 2023-10-10 联通在线信息科技有限公司 一种基于预训练语言模型的图像信息抽取方法及装置
CN117079299A (zh) * 2023-10-12 2023-11-17 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN116738298B (zh) * 2023-08-16 2023-11-24 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN116861014A (zh) * 2023-09-05 2023-10-10 联通在线信息科技有限公司 一种基于预训练语言模型的图像信息抽取方法及装置
CN116861014B (zh) * 2023-09-05 2024-01-26 联通在线信息科技有限公司 一种基于预训练语言模型的图像信息抽取方法及装置
CN117079299A (zh) * 2023-10-12 2023-11-17 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117079299B (zh) * 2023-10-12 2024-01-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Hu et al. Iterative answer prediction with pointer-augmented multimodal transformers for textvqa
CN110135427B (zh) 用于识别图像中的字符的方法、装置、设备和介质
CN109543690B (zh) 用于提取信息的方法和装置
US11195006B2 (en) Multi-modal document feature extraction
CN116152840A (zh) 文件分类方法、装置、设备和计算机存储介质
CN114596566B (zh) 文本识别方法及相关装置
CN111507214A (zh) 文档识别方法、装置及设备
CN110866116A (zh) 政策文档的处理方法、装置、存储介质及电子设备
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN114399775A (zh) 文档标题生成方法、装置、设备及存储介质
CN113821602A (zh) 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN113902404A (zh) 基于人工智能的员工晋升分析方法、装置、设备及介质
CN116844182A (zh) 一种版式自动识别的卡证文字识别方法
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质
CN115294594A (zh) 文档分析方法、装置、设备及存储介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质
CN114385815A (zh) 基于业务需求的新闻筛选方法、装置、设备及存储介质
CN112101356A (zh) 一种图片中特定文本的定位方法、装置及存储介质
CN117494688B (zh) 表单信息抽取方法、装置、设备及存储介质
CN116740748A (zh) 票证识别方法、装置、电子设备及计算机可读存储介质
CN118447513A (zh) 一种基于多模态的影像自动识别和审核的方法及系统
CN118447514A (zh) 一种基金公告智能识别分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination