CN113255767B - 票据分类方法、装置、设备及存储介质 - Google Patents
票据分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113255767B CN113255767B CN202110574644.1A CN202110574644A CN113255767B CN 113255767 B CN113255767 B CN 113255767B CN 202110574644 A CN202110574644 A CN 202110574644A CN 113255767 B CN113255767 B CN 113255767B
- Authority
- CN
- China
- Prior art keywords
- bill
- coordinate information
- visual
- text
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000000007 visual effect Effects 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000005477 standard model Effects 0.000 abstract 2
- 238000002372 labelling Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种智能决策技术,揭露了一种票据分类方法、装置、设备及存储介质,该方法包括:识别训练集中的票据中的文字,得到文字的文字框坐标信息及票据的文本序列,利用文本序列构建票据的语义特征;将票据进行等分处理得到页面坐标信息及等分页面,将等分页面输入神经网络模型中,获取特征矩阵,利用特征矩阵构建票据的视觉特征;利用文字框坐标信息及页面坐标信息构建票据的布局特征;利用语义特征、视觉特征及布局特征构建票据的第一输入特征,将第一输入特征输入预定的多模态语言模型中进行训练;利用预测集对训练后的模型进行预测处理,得到标准模型;利用标准模型对待分类票据进行预测,得到票据类型。本发明能提高票据分类的准确率。
Description
技术领域
本发明涉及智能决策技术领域,尤其涉及一种票据分类方法、装置、设备及存储介质。
背景技术
在信息快速增长的时代,某些机构的票据可能会有多种类型,例如对于医院而言,其票据包括医疗票据及金融票据。对于票据的分类处理,目前采用的方法包括单一形态的基于图像进行分类及基于自然语言处理的深度学习方法进行分类。但这两种方法存在如下缺陷:基于图像进行票据分类的方法缺陷在于,类似医疗票据中诊断证明与检查报告这两类票据,在版面风格上较为近似,仅通过图像或版面风格较难区分,采用该方法分类的准确率并不高;基于自然语言进行票据分类的方法缺陷在于,类似费用明细单与费用结算单这两类票据,仅仅通过文本内容较难区分,采用该方法分类的准确率也并不高。因此,如何提高票据分类的准确率成为有待解决的问题。
发明内容
本发明的目的在于提供一种票据分类方法、装置、设备及存储介质,旨在提高票据分类的准确率。
本发明提供一种方法票据分类方法,所述票据分类方法包括以下步骤:
将第一预设数量的、已标注票据类型的票据作为训练集,识别所述票据中的文字,得到所述文字的文字框坐标信息及所述票据的文本序列,利用所述文本序列构建所述票据的语义特征,所述文字框坐标信息包括文字框的左上角坐标信息及右下角坐标信息;
将所述票据进行等分处理,得到等分后的页面坐标信息及等分页面,将所述等分页面输入预定的神经网络模型中,获取输出的特征矩阵,利用所述特征矩阵构建所述票据的视觉特征;
利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征;
利用所述语义特征、视觉特征及布局特征构建所述票据的第一输入特征,将所述第一输入特征输入预定的多模态语言模型中进行训练;
将第二预设数量的、未标注票据类型的票据作为预测集,利用所述预测集对训练后的多模态语言模型进行预测处理,获取经预测处理后得到的标准多模态语言模型;
获取待分类票据,利用所述标准多模态语言模型对所述待分类票据进行预测,得到预测后所述待分类票据的票据类型。
本发明还提供一种票据分类装置,包括:
第一构建模块,用于将第一预设数量的、已标注票据类型的票据作为训练集,识别所述票据中的文字,得到所述文字的文字框坐标信息及所述票据的文本序列,利用所述文本序列构建所述票据的语义特征,所述文字框坐标信息包括文字框的左上角坐标信息及右下角坐标信息;
第二构建模块,用于将所述票据进行等分处理,得到等分后的页面坐标信息及等分页面,将所述等分页面输入预定的神经网络模型中,获取输出的特征矩阵,利用所述特征矩阵构建所述票据的视觉特征;
第三构建模块,用于利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征;
训练模块,用于利用所述语义特征、视觉特征及布局特征构建所述票据的第一输入特征,将所述第一输入特征输入预定的多模态语言模型中进行训练;
预测处理模块,用于将第二预设数量的、未标注票据类型的票据作为预测集,利用所述预测集对训练后的多模态语言模型进行预测处理,获取经预测处理后得到的标准多模态语言模型;
分类模块,用于获取待分类票据,利用所述标准多模态语言模型对所述待分类票据进行预测,得到预测后所述待分类票据的票据类型。
本发明还提供一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的票据分类方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的票据分类方法的步骤。
本发明的有益效果是:本发明基于已标注票据类型的票据,构建票据的语义特征、视觉特征及布局特征,将视觉特征、语义特征及布局特征相交互融合,并将融合后得到的输入特征输入多模态语言模型中进行训练,得到标准多模态语言模型,利用标准多模态语言模型可以对新的票据进行票据类型预测,本实施例基于语义、视觉图像及布局特征的交互融合方式对票据的类型进行预测,实现多模态预测分类,相比单一形态的分类预测更准确。
附图说明
图1为本发明票据分类方法一实施例的流程示意图;
图2为图1中利用所述文本序列构建所述票据的语义特征的步骤的细化流程示意图;
图3为图1中利用所述特征矩阵构建所述票据的视觉特征的步骤的细化流程示意图;
图4为图1中利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征的步骤的细化流程示意图;
图5为多模态的LayoutLM语言模型的处理流程示意图;
图6为本发明票据分类装置一实施例的结构示意图;
图7为本发明计算机设备一实施例的硬件架构的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明票据分类方法一实施例的流程示意图,包括以下步骤:
步骤A,将第一预设数量的、已标注票据类型的票据作为训练集,识别所述票据中的文字,得到所述文字的文字框坐标信息及所述票据的文本序列,利用所述文本序列构建所述票据的语义特征;
在构建训练集时,以医院机构中的票据为例,收集各省市的医院机构的票据,票据类型包括住院病案首页、住院记录、门诊病历、处方、诊断证明、费用明细单、增值税发票、检查报告、费用结算单、检查单、医疗发票、手术记录、小票及其它材料共14类。对收集票据的票据类型进行标注,构建训练集。由于票据类型的标注一般采用人工标注的方法,因此,为了提高效率,训练集中票据的数量较小,例如占收集的票据的十分之一。
对于一张票据图片,采用OCR技术识别票据中的文字,得到文本序列{w1,w2,...},在识别过程中,得到每个文字的文字框坐标信息(x0,y0,x1,y1),文字框坐标信息为二维的坐标信息,包括文字框的左上角的横坐标、纵坐标(x0,y0)与右下角的横坐标、纵坐标(x1,y1)。
其中,如图2所示,利用所述文本序列构建所述票据的语义特征,具体包括:
a1,对所述文本序列的长度进行限制处理,得到预定长度的文本序列;
a2,对所述预定长度的文本序列进行编码得到文本编码,对所述预定长度的文本序列的一维位置进行编码得到文本位置编码,对所述预定长度的文本序列的类型进行编码得到文本类型编码;
a3,将所述文本编码、文本位置编码及文本类型编码进行串联,得到所述票据的语义特征。
对文本序列{w1,w2,...}的长度进行限制处理,得到预定长度L的文本序列,包括:
根据票据的文字数量及训练时硬件GPU显存的性能,设置文字序列的预定长度L,预定长度L优选为512,为了保证训练时硬件GPU显存的性能稳定及考虑到长度为512的文本序列基本能够满足各类型的票据的文字数量,因此将文本序列的预定长度L设置为512;
在文字序列的开头添加[CLS],作为起始的标志;
对于长度等于512的文本序列,在文本序列的结尾处添加[SEP],作为结束的标志;
对于长度小于512的文本序列,在文本序列的结尾处添加[SEP],并在[SEP]之后补若干[PAD],使得补齐后的文本序列的长度等于512,[PAD]为用于补齐的特殊字符。
预定长度L的文本序列为:S=[CLS],w1,w2,...,[SEP],[PAD],[PAD],...,|S|=L;
对预定长度L的文本序列S进行编码得到文本编码TokEmb(Si),i为文本序列S中每个值对应的一维位置(即序号),对预定长度L的文本序列S的一维位置i进行编码得到文本位置编码PosEmb1D(i),对预定长度L的文本序列S的类型进行编码得到文本类型编码SegEmb(|A|),A代表文本序列S的类型为文本类型。
将文本编码、文本位置编码及文本类型编码进行串联或相加,得到每一票据的语义特征T:
T=t1,t2,t3,…,ti,…;ti=TokEmb(Si)+PosEmb1D(i)+SegEmb(|A|),0≤i<L。
步骤B,将所述票据进行等分处理,得到等分后的页面坐标信息及等分页面,将所述等分页面输入预定的神经网络模型中,获取输出的特征矩阵,利用所述特征矩阵构建所述票据的视觉特征;
对一张宽为W、高为H的票据图片,首先缩放至统一大小,例如缩放到224*224,然后进行等分处理(例如,4等分或6等分等),等分处理后,得到等分页面及每一等分页面的页面坐标信息,页面坐标信息为二维的坐标信息,包括等分处理后每一等分页面的左上角及右下角的横坐标、纵坐标,例如,对票据图片做4等分处理,第一等分页面的左上角及右下角坐标为(0,0,W/2,H/2),第二等分页面的坐标为(W/2,0,W,H/2)。
优选地,预定的神经网络模型为卷积神经网络模型ResNet-50,当然也可以使用其他的卷积神经网络模型。
其中,如图3所示,利用所述特征矩阵构建所述票据的视觉特征,具体包括:
b1,对所述特征矩阵进行平均池化处理,得到预定宽高的矩阵;
b2,将所述预定宽高的矩阵展开成可视化嵌入序列;
b3,对所述可视化嵌入序列进行编码及维度变换得到视觉编码,对所述可视化嵌入序列的一维位置进行编码得到视觉位置编码,对所述可视化嵌入序列的类型进行编码得到视觉类型编码;
b4,将所述视觉编码、视觉位置编码及视觉类型编码进行串联,得到所述票据的视觉特征。
其中,平均池化处理是计算票据图像区域的像素平均值作为该区域池化后的值。矩阵按照从上到下、从左到右方式展开后得到长度为WH(即W*H)的可视化嵌入序列Ii,0≤i<WH。
对可视化嵌入序列Ii进行编码得到编码VisTokEmb(Ii),对VisTokEmb(Ii)进行维度变换(把高维变到低维,以便与文本编码的维度统一,同时把有用的信息保留下来)得到视觉编码Proj(VisTokEmb(Ii)),对可视化嵌入序列Ii的一维位置i进行编码得到视觉位置编码PosEmb1d(i),对可视化嵌入序列Ii的类型进行编码得到视觉类型编码SegEmb(|C|),C代表可视化嵌入序列Ii的类型为视觉类型。
将视觉编码、视觉位置编码及视觉类型编码进行串联或相加,得到每一票据的视觉特征V:
V=v1,v2,v3,…,vi,…;vi=Proj(VisTokEmb(Ii))+PosEmb1d(i)+SegEmb(|C|),0≤i<WH。
步骤C,利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征;
其中,如图4所示,利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征,具体包括:
c1,将所述文字框坐标信息进行归一化并离散至预定取值区间,将所述页面坐标信息进行归一化并离散至所述预定取值区间;
c2,将离散后的文字框坐标信息及离散后的页面坐标信息进行串联得到所述票据的布局特征。
布局特征由四个(x0、x1、y0、y1)2-D位置编码器构建,包括文字框坐标信息及页面坐标信息,其中文字框坐标信息由OCR检测文字框坐标得到,页面坐标信息由等分后的页面坐标得到。x0、y0代表文字框或等分页面的左上角坐标,x1、y1代表文字框或等分页面的右下角坐标,且位置坐标被归一化、离散至预定取值区间。
归一化是把坐标信息变成(0,1)之间的小数,把有量纲表达式变成无量纲表达式,主要是为了数据处理更加便捷快速。其中,预定取值区间例如为[0,1000]。
布局特征为l,l=l1,l2,l3,…,li,…,0≤i<WH+L;
li=PosEmb2D(x0)+PosEmb2D(y0)+PosEmb2D(x1)+PosEmb2D(y1),0≤i<WH+L。
步骤D,利用所述语义特征、视觉特征及布局特征构建所述票据的第一输入特征,将所述第一输入特征输入预定的多模态语言模型中进行训练;
利用语义特征、视觉特征及布局特征进行串联构建训练集中的每一票据的第一输入特征{x1,x2,x3,…,xi,…},xi=Xi+li,Xi∈{t1,t2,…,tL,v1,v2,…,vWH}。
将构建的每一票据的第一输入特征输入预定的多模态语言模型中进行训练,本实施例的训练采用主动学习的方法,优选地,预定的多模态语言模型为多模态的LayoutLM语言模型。
如图5所示的多模态的LayoutLM语言模型,票据图片10的初始处理包括两路,一路经OCR识别后得到文字的文字框坐标信息及票据的文本序列,文字框坐标信息包括文字框的左上角坐标信息及右下角坐标信息,利用文本序列构建语义特征:对文本序列的长度进行限制处理,得到预定长度的文本序列,对预定长度的文本序列进行编码得到文本编码,对预定长度的文本序列的一维位置进行编码得到文本位置编码,对预定长度的文本序列的类型进行编码得到文本类型编码,将文本编码、文本位置编码及文本类型编码进行串联,得到票据的语义特征;另一路对票据图片10进行等分处理,得到等分后的页面坐标信息及等分页面,将等分页面输入至ResNet-50模型中,ResNet-50模型输出特征矩阵,对输出的特征矩阵进行序列化处理:对特征矩阵进行平均池化处理,得到预定宽高的矩阵,将预定宽高的矩阵展开成可视化嵌入序列,对可视化嵌入序列进行编码及维度变换得到视觉编码,对可视化嵌入序列的一维位置进行编码得到视觉位置编码,对可视化嵌入序列的类型进行编码得到视觉类型编码,之后构建视觉特征:将视觉编码、视觉位置编码及视觉类型编码进行串联,得到视觉特征;此外,还利用文字框坐标信息及页面坐标信息构建布局特征:将文字框坐标信息进行归一化并离散至预定取值区间,将页面坐标信息进行归一化并离散至预定取值区间,例如预定取值区间为[0,1000],将离散后的文字框坐标信息及离散后的页面坐标信息进行串联得到布局特征。最后,将语义特征、视觉特征及布局特征串联后得到第一输入特征,将第一输入特征作为多模态语言模型的输入,这样就将视觉特征与语义特征相融合,再加上布局特征进行多模态分类。多模态的LayoutLM语言模型为具有多头注意力的Transformer模型,该模型在Transformer Layers之后,输出隐含层文本与视觉表征向量HV1,…,HV4,H[CLS],H[T1],…,H[T3],H[SEP],输出的向量接全连接层FC进行分类,经过全连接层FC层后进行票据类别的概率预测。
步骤E,将第二预设数量的、未标注票据类型的票据作为预测集,利用所述预测集对训练后的多模态语言模型中进行预测处理,获取经预测处理后得到的标准多模态语言模型;
其中,预测处理具体包括:
e1,构建所述预测集中的所述票据的第一输入特征,将所述第一输入特征输入至训练后的多模态语言模型中进行预测;
e2,获取所述多模态语言模型预测得到的类型概率,利用所述类型概率计算所述预测集中的所述票据的熵,选取所述熵大于预定阈值的票据进行票据类型的标注,利用标注后的所有票据再次训练所述多模态语言模型;
e3,利用所述预测集中所述熵小于等于所述预定阈值的票据对再次训练后的多模态语言模型进行预测,若预测后有票据的熵大于所述预定阈值,则返回所述e2进行训练,若预测后所有票据的熵均小于等于所述预定阈值,则得到所述标准多模态语言模型。
本实施例中,例如,收集了5w张票据,首先,从5w张票据中随机采样5000张,进行人工标注票据类型,标注完成后,从中分出500张票据作为验证集,其余4500张票据作为训练集训练模型;然后,将其余未标注的45000张票据作为预测集,构建预测集中的每一票据的第一输入特征,送入训练后的模型中进行预测,对于每一票据,预测得到票据属于每一票据类型的类型概率,根据票据属于每一票据类型的类型概率计算该票据的熵,按照熵从大到小排序,选出分类困难(熵较大)的票据继续标注,同训练集的4500张票据一起再次训练模型;最后,重复上述两步,直至模型预测未标注票据对应的熵小于预定阈值,表明通过已标注的票据训练出的模型足以预测未标注数据,此时停止标注及训练,得到标准多模态语言模型。
其中,熵的公式为-∑pi(logqi),pi为票据类型,qi为预测的票据属于每一票据类型的类型概率。
本实施例对于大量无标注的票据,通过主动学习方法挑选出困难分类样本进行标注,将标注后的样本加入训练集中再次训练模型,从而增加训练样本的多样性,解决样本标注效率低的问题,提高模型的训练效率及预测的准确性。
步骤F,获取待分类票据,利用所述标准多模态语言模型对所述待分类票据进行预测,得到预测后所述待分类票据的票据类型。
利用标准多模态语言模型对待分类票据进行预测时,将预测得到的类型概率最大所对应的票据类型作为该待分类票据的票据类型。
本实施例基于已标注票据类型的票据,构建票据的语义特征、视觉特征及布局特征,将视觉特征、语义特征及布局特征相交互融合,并将融合后得到的输入特征输入多模态语言模型中进行训练,得到标准多模态语言模型,利用标准多模态语言模型可以对新的票据进行票据类型预测,本实施例基于语义、视觉图像及布局特征的交互融合方式对票据的类型进行预测,实现多模态预测分类,相比单一形态的分类预测更准确。
在一实施例中,本发明提供一种票据分类装置,该票据分类装置与上述实施例中方法一一对应。如图6所示,该票据分类装置包括:
第一构建模块101,用于将第一预设数量的、已标注票据类型的票据作为训练集,识别所述票据中的文字,得到所述文字的文字框坐标信息及所述票据的文本序列,利用所述文本序列构建所述票据的语义特征,所述文字框坐标信息包括文字框的左上角坐标信息及右下角坐标信息;
第二构建模块102,用于将所述票据进行等分处理,得到等分后的页面坐标信息及等分页面,将所述等分页面输入预定的神经网络模型中,获取输出的特征矩阵,利用所述特征矩阵构建所述票据的视觉特征;
第三构建模块103,用于利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征;
训练模块104,用于利用所述语义特征、视觉特征及布局特征构建所述票据的第一输入特征,将所述第一输入特征输入预定的多模态语言模型中进行训练;
预测处理模块105,用于将第二预设数量的、未标注票据类型的票据作为预测集,利用所述预测集对训练后的多模态语言模型进行预测处理,获取经预测处理后得到的标准多模态语言模型;
分类模块106,用于获取待分类票据,利用所述标准多模态语言模型对所述待分类票据进行预测,得到预测后所述待分类票据的票据类型。
票据分类装置的具体限定可以参见上文中对于票据分类方法的限定,在此不再赘述。上述票据分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述计算机设备可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图7所示,所述计算机设备可包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,存储器11存储有可在处理器12上运行的计算机程序。需要指出的是,图7仅示出了具有组件11-13的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,存储器11可以是非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。本实施例中,存储器11的可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如存储本发明一实施例中的计算机程序的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或者处理数据,例如运行计算机程序等。
所述网络接口13可包括标准的无线网络接口、有线网络接口,该网络接口13通常用于在所述计算机设备与其他电子设备之间建立通信连接。
所述计算机程序存储在存储器11中,包括至少一个存储在存储器11中的计算机可读指令,该至少一个计算机可读指令可被处理器12执行,以实现本申请各实施例的方法,包括:
将第一预设数量的、已标注票据类型的票据作为训练集,识别所述票据中的文字,得到所述文字的文字框坐标信息及所述票据的文本序列,利用所述文本序列构建所述票据的语义特征,所述文字框坐标信息包括文字框的左上角坐标信息及右下角坐标信息;
将所述票据进行等分处理,得到等分后的页面坐标信息及等分页面,将所述等分页面输入预定的神经网络模型中,获取输出的特征矩阵,利用所述特征矩阵构建所述票据的视觉特征;
利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征;
利用所述语义特征、视觉特征及布局特征构建所述票据的第一输入特征,将所述第一输入特征输入预定的多模态语言模型中进行训练;
将第二预设数量的、未标注票据类型的票据作为预测集,利用所述预测集对训练后的多模态语言模型进行预测处理,获取经预测处理后得到的标准多模态语言模型;
获取待分类票据,利用所述标准多模态语言模型对所述待分类票据进行预测,得到预测后所述待分类票据的票据类型。
进一步地,所述利用所述文本序列构建所述票据的语义特征,具体包括:
a1,对所述文本序列的长度进行限制处理,得到预定长度的文本序列;
a2,对所述预定长度的文本序列进行编码得到文本编码,对所述预定长度的文本序列的一维位置进行编码得到文本位置编码,对所述预定长度的文本序列的类型进行编码得到文本类型编码;
a3,将所述文本编码、文本位置编码及文本类型编码进行串联,得到所述票据的语义特征。
进一步地,所述对所述文本序列的长度进行限制处理,具体包括:根据票据的文字数量及训练时硬件GPU显存的性能参数确定所述文本序列的预定长度,将所述文本序列的长度限制为所述预定长度。
进一步地,所述利用所述特征矩阵构建所述票据的视觉特征,具体包括:
b1,对所述特征矩阵进行平均池化处理,得到预定宽高的矩阵;
b2,将所述预定宽高的矩阵展开成可视化嵌入序列;
b3,对所述可视化嵌入序列进行编码及维度变换得到视觉编码,对所述可视化嵌入序列的一维位置进行编码得到视觉位置编码,对所述可视化嵌入序列的类型进行编码得到视觉类型编码;
b4,将所述视觉编码、视觉位置编码及视觉类型编码进行串联,得到所述票据的视觉特征。
进一步地,所述利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征,具体包括:
c1,将所述文字框坐标信息进行归一化并离散至预定取值区间,将所述页面坐标信息进行归一化并离散至所述预定取值区间;
c2,将离散后的文字框坐标信息及离散后的页面坐标信息进行串联得到所述票据的布局特征。
进一步地,所述预测处理,具体包括:
e1,构建所述预测集中的所述票据的第一输入特征,将所述第一输入特征输入至训练后的多模态语言模型中进行预测;
e2,获取所述多模态语言模型预测得到的类型概率,利用所述类型概率计算所述预测集中的所述票据的熵,选取所述熵大于预定阈值的票据进行票据类型的标注,利用标注后的所有票据再次训练所述多模态语言模型;
e3,利用所述预测集中所述熵小于等于所述预定阈值的票据对再次训练后的多模态语言模型进行预测,若预测后所有票据的熵均小于等于所述预定阈值,则得到所述标准多模态语言模型;若预测后有票据的熵大于所述预定阈值,则返回所述e2进行训练,直至预测后所有票据的熵均小于等于所述预定阈值。
本实施例基于已标注票据类型的票据,构建票据的语义特征、视觉特征及布局特征,将视觉特征、语义特征及布局特征相交互融合,并将融合后得到的输入特征输入多模态语言模型中进行训练,得到标准多模态语言模型,利用标准多模态语言模型可以对新的票据进行票据类型预测,本实施例基于语义、视觉图像及布局特征的交互融合方式对票据的类型进行预测,实现多模态预测分类,相比单一形态的分类预测更准确。
在一个实施例中,本发明提供了一种计算机可读存储介质,计算机可读存储介质可以是非易失性和/或易失性存储器,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中票据分类方法的步骤,例如图1所示的步骤A至步骤F。或者,计算机程序被处理器执行时实现上述实施例中票据分类装置的各模块/单元的功能,例如图6所示模块101至模块106的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种票据分类方法,其特征在于,所述票据分类方法包括以下步骤:
将第一预设数量的、已标注票据类型的票据作为训练集,识别所述票据中的文字,得到所述文字的文字框坐标信息及所述票据的文本序列,利用所述文本序列构建所述票据的语义特征,所述文字框坐标信息包括文字框的左上角坐标信息及右下角坐标信息;
将所述票据进行等分处理,得到等分后的页面坐标信息及等分页面,将所述等分页面输入预定的神经网络模型中,获取输出的特征矩阵,对所述特征矩阵进行平均池化处理,得到预定宽高的矩阵;将所述预定宽高的矩阵展开成可视化嵌入序列;对所述可视化嵌入序列进行编码及维度变换得到视觉编码,对所述可视化嵌入序列的一维位置进行编码得到视觉位置编码,对所述可视化嵌入序列的类型进行编码得到视觉类型编码;将所述视觉编码、视觉位置编码及视觉类型编码进行串联,得到所述票据的视觉特征;
利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征;
利用所述语义特征、视觉特征及布局特征构建所述票据的第一输入特征,将所述第一输入特征输入预定的多模态语言模型中进行训练;
将第二预设数量的、未标注票据类型的票据作为预测集,利用所述预测集对训练后的多模态语言模型进行预测处理,计算所述预测集中票据的熵,当熵小于等于预定阈值时得到标准多模态语言模型;
获取待分类票据,利用所述标准多模态语言模型对所述待分类票据进行预测,得到预测后所述待分类票据的票据类型。
2.根据权利要求1所述的票据分类方法,其特征在于,所述利用所述文本序列构建所述票据的语义特征,具体包括:
对所述文本序列的长度进行限制处理,得到预定长度的文本序列;
对所述预定长度的文本序列进行编码得到文本编码,对所述预定长度的文本序列的一维位置进行编码得到文本位置编码,对所述预定长度的文本序列的类型进行编码得到文本类型编码;
将所述文本编码、文本位置编码及文本类型编码进行串联,得到所述票据的语义特征。
3.根据权利要求2所述的票据分类方法,其特征在于,所述对所述文本序列的长度进行限制处理,具体包括:根据票据的文字数量及训练时硬件GPU显存的性能参数确定所述文本序列的预定长度,将所述文本序列的长度限制为所述预定长度。
4.根据权利要求1所述的票据分类方法,其特征在于,所述利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征,具体包括:
将所述文字框坐标信息进行归一化并离散至预定取值区间,将所述页面坐标信息进行归一化并离散至所述预定取值区间;
将离散后的文字框坐标信息及离散后的页面坐标信息进行串联得到所述票据的布局特征。
5.根据权利要求1至4任一项所述的票据分类方法,其特征在于,所述预测处理,计算所述预测集中票据的熵,当熵小于等于预定阈值时得到标准多模态语言模型,具体包括:
构建所述预测集中的所述票据的第一输入特征,将所述第一输入特征输入至训练后的多模态语言模型中进行预测;
获取所述多模态语言模型预测得到的类型概率,利用所述类型概率计算所述预测集中的所述票据的熵,选取所述熵大于预定阈值的票据进行票据类型的标注,利用标注后的所有票据再次训练所述多模态语言模型;
利用所述预测集中所述熵小于等于所述预定阈值的票据对再次训练后的多模态语言模型进行预测,若预测后所有票据的熵均小于等于所述预定阈值,则得到所述标准多模态语言模型。
6.根据权利要求5所述的票据分类方法,其特征在于,所述预测处理,还包括:若预测后有票据的熵大于所述预定阈值,则转至所述选取所述熵大于预定阈值的票据进行票据类型的标注的步骤,直至预测后所有票据的熵均小于等于所述预定阈值。
7.一种票据分类装置,其特征在于,包括:
第一构建模块,用于将第一预设数量的、已标注票据类型的票据作为训练集,识别所述票据中的文字,得到所述文字的文字框坐标信息及所述票据的文本序列,利用所述文本序列构建所述票据的语义特征,所述文字框坐标信息包括文字框的左上角坐标信息及右下角坐标信息;
第二构建模块,用于将所述票据进行等分处理,得到等分后的页面坐标信息及等分页面,将所述等分页面输入预定的神经网络模型中,获取输出的特征矩阵,对所述特征矩阵进行平均池化处理,得到预定宽高的矩阵;将所述预定宽高的矩阵展开成可视化嵌入序列;对所述可视化嵌入序列进行编码及维度变换得到视觉编码,对所述可视化嵌入序列的一维位置进行编码得到视觉位置编码,对所述可视化嵌入序列的类型进行编码得到视觉类型编码;将所述视觉编码、视觉位置编码及视觉类型编码进行串联,得到所述票据的视觉特征;
第三构建模块,用于利用所述文字框坐标信息及所述页面坐标信息构建所述票据的布局特征;
训练模块,用于利用所述语义特征、视觉特征及布局特征构建所述票据的第一输入特征,将所述第一输入特征输入预定的多模态语言模型中进行训练;
预测处理模块,用于将第二预设数量的、未标注票据类型的票据作为预测集,利用所述预测集对训练后的多模态语言模型进行预测处理,计算所述预测集中票据的熵,当熵小于等于预定阈值时得到标准多模态语言模型;
分类模块,用于获取待分类票据,利用所述标准多模态语言模型对所述待分类票据进行预测,得到预测后所述待分类票据的票据类型。
8.一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的票据分类方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的票据分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110574644.1A CN113255767B (zh) | 2021-05-25 | 2021-05-25 | 票据分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110574644.1A CN113255767B (zh) | 2021-05-25 | 2021-05-25 | 票据分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255767A CN113255767A (zh) | 2021-08-13 |
CN113255767B true CN113255767B (zh) | 2023-11-24 |
Family
ID=77184405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110574644.1A Active CN113255767B (zh) | 2021-05-25 | 2021-05-25 | 票据分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255767B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886578B (zh) * | 2021-09-16 | 2023-08-04 | 华清科盛(北京)信息技术有限公司 | 一种表单分类方法及装置 |
CN116030048B (zh) * | 2023-03-27 | 2023-07-18 | 山东鹰眼机械科技有限公司 | 灯检机及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN111191614A (zh) * | 2020-01-02 | 2020-05-22 | 中国建设银行股份有限公司 | 一种单据分类方法和装置 |
CN111832403A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 文档结构识别方法、文档结构识别的模型训练方法和装置 |
CN112214707A (zh) * | 2020-09-30 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 网页内容表征方法、分类方法、装置及设备 |
CN112560754A (zh) * | 2020-12-23 | 2021-03-26 | 北京百度网讯科技有限公司 | 票据信息的获取方法、装置、设备及存储介质 |
CN112612911A (zh) * | 2020-12-30 | 2021-04-06 | 华为技术有限公司 | 一种图像处理方法、系统、设备及介质、程序产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8831361B2 (en) * | 2012-03-09 | 2014-09-09 | Ancora Software Inc. | Method and system for commercial document image classification |
-
2021
- 2021-05-25 CN CN202110574644.1A patent/CN113255767B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN111191614A (zh) * | 2020-01-02 | 2020-05-22 | 中国建设银行股份有限公司 | 一种单据分类方法和装置 |
CN111832403A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 文档结构识别方法、文档结构识别的模型训练方法和装置 |
CN112214707A (zh) * | 2020-09-30 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 网页内容表征方法、分类方法、装置及设备 |
CN112560754A (zh) * | 2020-12-23 | 2021-03-26 | 北京百度网讯科技有限公司 | 票据信息的获取方法、装置、设备及存储介质 |
CN112612911A (zh) * | 2020-12-30 | 2021-04-06 | 华为技术有限公司 | 一种图像处理方法、系统、设备及介质、程序产品 |
Non-Patent Citations (1)
Title |
---|
层次型金融票据图像分类方法;殷绪成 等;《中文信息学报》;20050630;第19卷(第6期);第70-77页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255767A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084239B (zh) | 降低离线手写数学公式识别时网络训练过拟合的方法 | |
CN110135427B (zh) | 用于识别图像中的字符的方法、装置、设备和介质 | |
CN111275038A (zh) | 图像文本识别方法、装置、计算机设备及计算机存储介质 | |
CN113255767B (zh) | 票据分类方法、装置、设备及存储介质 | |
CN111695439A (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN113378710A (zh) | 图像文件的版面分析方法、装置、计算机设备和存储介质 | |
JP7373624B2 (ja) | 画像ブロックのスコアに基づく細粒度画像分類の方法及び装置 | |
CN113255583B (zh) | 数据标注方法、装置、计算机设备和存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN113936195B (zh) | 敏感图像识别模型的训练方法、训练装置和电子设备 | |
CN112860905A (zh) | 文本信息抽取方法、装置、设备及可读存储介质 | |
CN110796145B (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN112418206A (zh) | 基于位置检测模型的图片分类方法及其相关设备 | |
CN116719934A (zh) | 基于提示对比学习的持续学习下小样本关系抽取方法 | |
CN116052848A (zh) | 一种医学成像质控的数据编码方法及系统 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN114694150A (zh) | 一种提升数字图像分类模型泛化能力的方法及系统 | |
Álvaro et al. | Page segmentation of structured documents using 2d stochastic context-free grammars | |
CN111967391A (zh) | 医学化验单的文本识别方法和计算机可读存储介质 | |
Shahin et al. | Deploying Optical Character Recognition to Improve Material Handling and Processing | |
CN116151202B (zh) | 表格填写方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40051584 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |