CN118155211A - 一种票据文本检测方法及装置 - Google Patents
一种票据文本检测方法及装置 Download PDFInfo
- Publication number
- CN118155211A CN118155211A CN202410368176.6A CN202410368176A CN118155211A CN 118155211 A CN118155211 A CN 118155211A CN 202410368176 A CN202410368176 A CN 202410368176A CN 118155211 A CN118155211 A CN 118155211A
- Authority
- CN
- China
- Prior art keywords
- identified
- text
- bill image
- candidate
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims description 23
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开一种票据文本检测方法及装置,方法包括:获取待识别票据图像,并对待识别票据图像进行特征提取,获得第一文本特征;其中,第一文本特征包括待识别票据图像中所有文字的文本特征;基于第一文本特征,对待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征;其中,第二文本特征包括待识别票据图像中所有字段的文本特征,第二文本特征与待识别票据图像中的字段对应;根据第二文本特征,生成待识别票据图像中各个字段对应的候选边界框,并为候选边界框确定对应的边界框置信度;根据边界框置信度确定待识别票据图像中各个字段对应的结果边界框;基于结果边界框对待识别票据图像进行文本检测,提取结果边界框对应的文本信息。
Description
技术领域
本申请涉及数据处理领域,具体涉及一种票据文本检测方法及装置。
背景技术
票据文本检测是指从一张票据图像中检测用户想要提取的关键字段的位置信息。随着互联网和金融技术的发展,各种不同类型的票据数量飞速增长,例如火车票、机票行程单、增值税发票、银行支票等。各类票据中存在大量与金融业务相关的信息字段,为了提高对于票据中信息的管理效率,需要对票据进行数字化处理,如何实现对于票据中字段的内容识别和关键信息提取是当前亟待解决的一个技术问题。
相关技术中,往往通过手动确定文本信息特征,从图像中区分出文本信息,从而实现对于票据中文字的检测。但是,这种文本检测方法对于票据中文字进行检测的准确性较低。
发明内容
有鉴于此,本申请第一方面提供了一种票据文本检测方法,所述方法包括:
获取待识别票据图像,并对所述待识别票据图像进行特征提取,获得第一文本特征;其中,所述第一文本特征包括所述待识别票据图像中所有文字的文本特征;
基于所述第一文本特征,对所述待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征;其中,所述第二文本特征包括所述待识别票据图像中所有字段的文本特征,所述第二文本特征与所述待识别票据图像中的字段对应;
根据所述第二文本特征,生成所述待识别票据图像中各个字段对应的候选边界框,并为所述候选边界框确定对应的边界框置信度;
根据所述边界框置信度确定所述待识别票据图像中各个字段对应的结果边界框;基于所述结果边界框对所述待识别票据图像进行文本检测,提取所述结果边界框对应的文本信息。
可选地,所述对所述待识别票据图像进行特征提取,获得第一文本特征包括:
将所述待识别票据图像输入特征提取网络中,获得所述待识别票据图像对应的高层特征和低层特征;
对所述高层特征和所述低层特征进行特征融合处理,生成所述第一文本特征。
可选地,所述基于所述第一文本特征,对所述待识别票据图像的各个字段进行序列上下文分析,获得第二文本特征包括:
将所述第一文本特征输入序列上下文分析网络中,对所述待识别票据图像中的各个字段进行序列上下文分析,并根据所述字段对所述第一文本特征进行分组;其中,属于同一分组的所述第一文本特征在所述待识别票据图像中对应同一字段;
基于各个分组中的所述第一文本特征,生成与所述待识别票据图像中各个字段对应的所述第二文本特征。
可选地,所述根据所述第二文本特征,生成所述待识别票据图像中各个字段对应的候选边界框,并为所述候选边界框确定对应的边界框置信度包括:
基于各个字段在所述待识别票据图像中的位置信息,生成各个字段在所述待识别票据图像中的候选边界框;所述候选边界框包括候选上边界框、候选下边界框、候选左边界框和候选右边界框;
根据所述候选边界框与所述字段之间的位置关系,确定各个所述候选边界框对应的几何置信度;
根据所述候选边界框与所述字段之间的位置关系,以及所述几何置信度,确定所述候选边界框对应的边界框置信度。
可选地,所述根据所述边界框置信度确定所述待识别票据图像中各个字段对应的结果边界框,包括:
从所述候选边界框中,筛选出所述边界框置信度满足置信度条件的预设数量个目标边界框;
根据所述目标边界框对应的所述边界框置信度和所述目标边界框对应的几何置信度,进行加权平均运算,生成结果边界框;所述结果边界框包括结果上边界框、结果下边界框、结果左边界框和结果右边界框,所述几何置信度用于描述所述目标边界框与所述待识别票据图像中的所述字段之间的位置关系。
可选地,在所述获取待识别票据图像之前,所述方法还包括:
获取初始票据图像,对所述初始票据图像进行预处理,生成所述待识别票据图像。
本申请第二方面提供了一种票据文本检测装置,所述装置包括:
特征提取单元,用于:获取待识别票据图像,并对所述待识别票据图像进行特征提取,获得第一文本特征;其中,所述第一文本特征包括所述待识别票据图像中所有文字的文本特征;
特征分析单元,用于:基于所述第一文本特征,对所述待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征;其中,所述第二文本特征包括所述待识别票据图像中所有字段的文本特征,所述第二文本特征与所述待识别票据图像中的字段对应;
边界框生成单元,用于:根据所述第二文本特征,生成所述待识别票据图像中各个字段对应的候选边界框,并为所述候选边界框确定对应的边界框置信度;
结果确定单元,用于:根据所述边界框置信度确定所述待识别票据图像中各个字段对应的结果边界框;基于所述结果边界框对所述待识别票据图像进行文本检测,提取所述结果边界框对应的文本信息。
可选地,所述特征提取单元具体用于:
将所述待识别票据图像输入特征提取网络中,获得所述待识别票据图像对应的高层特征和低层特征;
对所述高层特征和所述低层特征进行特征融合处理,生成所述第一文本特征。
可选地,所述特征分析单元具体用于:
将所述第一文本特征输入序列上下文分析网络中,对所述待识别票据图像中的各个字段进行序列上下文分析,并根据所述字段对所述第一文本特征进行分组;其中,属于同一分组的所述第一文本特征在所述待识别票据图像中对应同一字段;
基于各个分组中的所述第一文本特征,生成与所述待识别票据图像中各个字段对应的所述第二文本特征。
可选地,所述边界框生成单元具体用于:
基于各个字段在所述待识别票据图像中的位置信息,生成各个字段在所述待识别票据图像中的候选边界框;所述候选边界框包括候选上边界框、候选下边界框、候选左边界框和候选右边界框;
根据所述候选边界框与所述字段之间的位置关系,确定各个所述候选边界框对应的几何置信度;
根据所述候选边界框与所述字段之间的位置关系,以及所述几何置信度,确定所述候选边界框对应的边界框置信度。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种票据文本检测方法及装置,首先,获取待识别票据图像,并对待识别票据图像进行特征提取,获得第一文本特征;其中,第一文本特征包括待识别票据图像中所有文字的文本特征,第一文本特征与待识别票据图像中的文字对应。其次,基于第一文本特征,对待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征;其中,第二文本特征包括待识别票据图像中所有字段的文本特征,第二文本特征与待识别票据图像中的字段对应;提高了第二文本特征的连续性,进而在利用第二文本特征进行决策时,提高了第二文本特征的可靠性以及决策结果的准确性。接下来,根据第二文本特征,生成待识别票据图像中各个字段对应的候选边界框,并为候选边界框确定对应的边界框置信度;由于第二文本特征与待识别票据图像中的各个字段对应,那么根据第二文本特征对各个字段确定候选边界框时,候选边界框的位置也能够与各个字段的位置对应。然后,根据边界框置信度,从多个候选边界框中确定出各个字段对应的、位置更加准确的结果边界框;使用位置更加准确结果边界框对待识别票据图像进行文本检测,提取结果边界框对应的文本信息,提高了对票据图像中的文本信息进行检测的准确性。
附图说明
图1为本申请实施例提供的一种票据文本检测方法的方法流程图;
图2为本申请场景实施例提供的一种票据文本检测方法的方法架构图;
图3为本申请实施例提供的一种票据文本检测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
参见图1,图1为本申请实施例提供的一种票据文本检测方法的方法流程图。该方法具体包括如下步骤:
步骤101:获取待识别票据图像,并对待识别票据图像进行特征提取,获得第一文本特征。
本申请实施例中,待识别票据图像是需要从中提取文本信息的票据图像,而文本信息由各个文字组成,所以在获取待识别票据图像后,首先需要该待识别票据图像进行特征提取,例如,对待识别票据图像中的每个特征点进行识别,计算每个特征点为文本特征的概率,并基于这种概率生成待识别票据图像对应的分数图,其中存储有各个特征点为文本特征的概率值。
对待识别票据图像的特征提取后,获得待识别票据图像中所有文字对应的第一文本特征,其中,该第一文本特征包括待识别票据图像中所有文字对应的文本特征。
在一种可能的实现方式中,对待识别票据图像进行特征提取,获得第一文本特征具体可以通过如下方式实现:
步骤11:将待识别票据图像输入特征提取网络中,获得待识别票据图像对应的高层特征和低层特征;
步骤12:对高层特征和低层特征进行特征融合处理,生成第一文本特征。
在待识别票据图像中,字段的尺度是多样的,既有由几十个字符组成的长字段,也有仅由几个字符组成的短字段,并且各个字段中字体的大小和格式可能也不同。此时,长字段在待识别票据图像中占据较大的位置,所以在待识别票据图像中提取长字段时,需要使用具有较大感受野的高层特征;对于短字段以及各个文字进行检测时,需要使用具有丰富细节的低层特征;因此,将待识别票据图像输入特征提取网络后,会获得待识别票据图像对应的高层特征和低层特征。
在获得高层特征和低层特征后,对高层特征和低层特征进行特征融合,最终生成从待识别票据图像中提取出的第一文本特征。具体地,本申请实施例中可以采用残差网络(Residual Network,ResNet50)作为特征提取网络,为了处理票据图像中具有较大纵横比的长字段,例如一行较长的文字,可以在较深的卷积块中应用可形变卷积,来扩大感受野;例如,可以在第四个卷积层和第五个卷积层的3×3卷积中应用可形变卷积,从而扩大特征提取时的感受野。另一方面,为了检测待识别票据图像中的小文本,可以将不同卷积块输出的特征相互融合,最终将不同尺度的特征图均融合进相对待识别票据图像1/4的特征图中,并将该特征图中所融合出的特征作为第一文本特征。
进一步地,在获取待识别票据之前,还可以包括如下步骤:
获取初始票据图像,对所述初始票据图像进行预处理,生成所述待识别票据图像。
本申请实施例中,初始票据图像可以是通过对原始票据进行拍照、扫描等方式获得的图像。在获得初始票据图像后,一方面,该初始票据图像中可能不仅包括原始票据,还包括其他不相关的背景内容;另一方面,初始票据图像中的文本行可能并不符合检测要求,例如,初始票据图像中的文本行可能是倾斜的,并不是水平的。因此,在获得初始票据图像后需要对该初始票据图像进行预处理,通过预处理过程对初始票据图像进行矫正增强,生成角度和清晰度均符合检测要求的待识别票据图像,进而提高对待识别票据图像进行文本检测的效率和准确率。
步骤102:基于第一文本特征,对待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征。
其中,所述第二文本特征包括所述待识别票据图像中所有字段的文本特征,所述第二文本特征与所述待识别票据图像中的字段对应。字段是通过对待识别票据图像中的所有文本进行序列上下文检测后确定的连续文本信息,一个字段中对应的文本信息是连续的。
在待识别票据图像中,由于各个字段中的文本之间距离较近,可能存在相邻文本粘连的情况,在这种情况下,进行特征提取时可能遗漏字体较小的短字段文本,进而导致所获得的文本特征的连贯性较差。在本申请实施例中,在获取第一文本特征后,可以对该第一文本特征进行序列上下文分析,从而获得待识别票据图像中各个字段对应的第二文本特征。
在一种可能的实现方式中,步骤102可以通过如下方式实现:
步骤21:将第一文本特征输入序列上下文分析网络中,对待识别票据图像中的各个字段进行序列上下文分析,并根据字段对第一文本特征进行分组;其中,属于同一分组的第一文本特征在待识别票据图像中对应同一字段;
步骤22:基于各个分组中的第一文本特征,生成与待识别票据图像中各个字段对应的第二文本特征。
在本申请实施例中,可以增加用于序列上下文分析的序列上下文分析网络,对于该序列上下文分析网络来说,以第一文本特征作为输入,学习文本特征序列之间的上下文信息,从而增强该网络输出特征的连续性。在待识别票据图像中,文字间通常是水平排列构成一个字段的,对于一个字段来说,其中的文字之间具有很强的序列特征;对于不同字段来说,也有着字段之间前后序列的差别。
在待识别票据图像中,若字段识别的准确率不高,那么一个长字段可能被识别出多个短字段,破坏了原本长字段的连续性。本申请实施例将第一文本特征输入序列上下文分析网络后,基于该第一文本特征对待识别票据图像中的各个字段进行序列上下文分析,并根据序列上下文分析结果对初步识别出的各个字段进行分组,将对应同一字段的第一文本特征划分至同一分组中,如此,能够将对应同一字段的第一文本特征分别集合在一起,并基于这些第一文本特征生成与各个字段对应的第二文本特征,提高了生成第二文本特征的效率。基于各个字段内的连续性,当出现文字或字段被遗漏时,会影响字段内或字段之间的连续性,所以通过序列上下文分析也能够避免出现小字符、短字段等被遗漏的情况。
具体地,本申请实施例中可以使用循环神经网络机制学习水平方向的文字序列特征的上下文信息,例如可以使用双向长短期记忆网络(Bi-directional Long Short-TermMemory,BilSTM)进行序列上下文分析,提取文本之间的序列特征。
步骤103:根据第二文本特征,生成待识别票据图像中各个字段对应的候选边界框,并为候选边界框确定对应的边界框置信度。
由于第二文本特征是与待识别票据图像中的字段对应的,所以根据第二文本特征可以确定各个字段对应的边界框,即候选边界框。为了描述候选边界框与各个字段之间的匹配程度,还根据候选边界框和各个字段之间的位置关系,为候选边界框确定其相对于对应字段的边界框置信度。该边界框置信度用于描述候选边界框与其对应字段之间的对应准确程度,当边界框置信度越大时,说明候选边界框与其对应字段之间的对应准确程度越高。
在一种可能的实现方式中,步骤103具体可以通过如下方式实现:
步骤31:基于各个字段在待识别票据图像中的位置信息,生成各个字段在待识别票据图像中的候选边界框;候选边界框包括候选上边界框、候选下边界框、候选左边界框和候选右边界框;
步骤32:根据候选边界框与字段之间的位置关系,确定各个候选边界框对应的几何置信度;
步骤33:根据候选边界框与字段之间的位置关系,以及几何置信度,确定候选边界框对应的边界框置信度。
其中,候选边界框是根据待识别票据图像中的字段位置生成的矩形边界框,在本申请实施例中,该候选边界框包括候选上边界框、候选下边界框、候选左边界框和候选右边界框。在确定了字段对应的各个候选边界框之后,首先为各个候选边界框确定对应的几何置信度,通过几何置信度来描述候选边界框与其对应字段之间的位置关系。
在确定了几何置信度后,可以根据该几何置信度以及位置关系为各个候选边界框确定对应的边界框置信度,其中,边界框置信度用于描述几何置信度的准确度。通过几何置信度对候选边界框及其对应的字段之间的位置关系进行评价,并根据边界框置信度对于几何置信度的准确性进行评价,多重评价方式进一步提高了使用边界框置信度对于候选边界框的评价准确性。
步骤104:根据边界框置信度确定待识别票据图像中各个字段对应的结果边界框;基于结果边界框对待识别票据图像进行文本检测,提取结果边界框对应的文本信息。
根据各个候选边界框及其对应的边界框置信度确定各个字段对应的结果边界框。在生成各个字段对应的候选边界框时,会根据字段位置为各个字段生成多个候选边界框,为了提高文本检测的准确度,需要根据多个候选边界框确定与字段匹配程度较高的结果边界框,基于该结果边界框进行文本检测,从待识别票据图像中提取所有文本信息,能够提高对于待识别票据图像进行文本检测的准确性和文本信息提取的全面性。
在一种可能的实现方式中,根据所述边界框置信度确定所述待识别票据图像中各个字段对应的结果边界框具体可以通过如下方式实现:
步骤41:从所述候选边界框中,筛选出所述边界框置信度满足置信度条件的预设数量个目标边界框;
步骤42:根据所述目标边界框对应的所述边界框置信度和所述目标边界框对应的几何置信度,进行加权平均运算,生成结果边界框。
其中,所述结果边界框包括结果上边界框、结果下边界框、结果左边界框和结果右边界框,所述几何置信度用于描述所述目标边界框与所述待识别票据图像中的所述字段之间的位置关系。
在生成各个字段对应的候选边界框时,会生成与字段对应的多个候选边界框,由于候选边界框包括候选上边界框、候选下边界框、候选左边界框和候选右边界框,所以一个字段会对应多个候选上边界框、多个候选下边界框、多个候选左边界框和多个候选右边界框。在确定字段最终对应的结果边界框时,需要分别从多个候选边界框中筛选出满足置信度条件的预设数量的目标边界框,该目标边界框也包括目标上边界框、目标下边界框、目标左边界框和目标右边界框,对多个目标边界框进行筛选、组合和处理,最终获得与各个字段唯一对应的结果边界框,该结果边界框也包括结果上边界框、结果下边界框、结果左边界框和结果右边界框。
具体地,置信度条件可以设置为一个置信度阈值,即当候选边界框的边界框置信度大于该置信度阈值时,认为该候选边界框满足置信度条件;也可以将该置信度条件设置为一个优选条件,即,对候选边界框的边界框置信度进行排序,将边界框置信度最大的n个候选边界框确定为满足置信度条件的边界框,其中,n为预设数量。本申请实施例中,预设数量可以根据实际应用场景来设置,例如,对于一个字段来说,从其对应的所有候选边界框中分别筛选出边界框置信度最大的3个候选上边界框、3个候选下边界框、3个候选左边界框和3个候选右边界框作为目标边界框,然后分别对上边界框、下边界框、左边界框和右边界框进行加权平均,以各个目标边界框的边界框置信度作为权重系数,对各个目标边界框的几何置信度进行加权平均,最终得出上边界框、下边界框、左边界框和右边界框分别对应的目标置信度,该目标置信度用于描述加权平均后的边界框与对应字段之间的位置关系,基于该目标置信度可以确定结果边界框的位置。
也就是说,本申请实施例通过筛选出边界框置信度较高的预设数量个目标边界框后,再根据目标边界框的置信度计算出一个综合结果,该综合结果即用于指示结果边界框的最终位置。
通过本申请提供的一种票据文本检测方法,获取待识别票据图像,并对待识别票据图像进行特征提取,获得第一文本特征。基于第一文本特征,对待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征;提高了第二文本特征的连续性,进而在利用第二文本特征进行决策时,提高了第二文本特征的可靠性以及决策结果的准确性。根据第二文本特征,生成待识别票据图像中各个字段对应的候选边界框,并为候选边界框确定对应的边界框置信度;由于第二文本特征与待识别票据图像中的各个字段对应,那么根据第二文本特征对各个字段确定候选边界框时,候选边界框的位置也能够与各个字段的位置对应。根据边界框置信度,从多个候选边界框中确定出各个字段对应的、位置更加准确的结果边界框;使用位置更加准确结果边界框对待识别票据图像进行文本检测,提取结果边界框对应的文本信息,提高了对票据图像中的文本信息进行检测的准确性。
参见图2,图2为本申请场景实施例提供的一种票据文本检测方法的方法架构图。首先,将矫正后的票据图像作为待识别票据图像输入文本检测模型中,通过多尺度特征提取网络对该待识别票据图像进行特征提取,获得待识别票据图像中的高层特征和低层特征。其次,将多尺度特征提取网络输出的结果输入至序列上下文信息获取网络,对其进行序列上下文分析,获得待识别票据图像对应的分数图(Score Map)、几何地图(GeometricMap,Geo Map)和置信图(Confidence Map);然后通过边界框自适应回归算法将边界框进行回归解耦,从各个字段对应的候选边界框中筛选出满足置信度较高的目标边界框,并根据目标边界框及其对应的置信度确定结果边界框,该结果边界框为多个目标边界框回归结果的加权平均。
具体地,用于执行图2中边界框自适应回归算法的伪代码如下表所示:
边界框自适应回归算法BoxAR的输入为待识别票据图像的分数图S、几何地图G、候选边界框集合B,置信图C和文本实例集合T,输出为待识别票据图像中各个文本实例对应的结果边界框R。
首先,将候选边界框集合B和文本实例集合T清空,设置为空集合。然后对于S中的每个特征点s,均判断其是否为文本特征点;在特征图S中,若特征点s的值大于0,那么确定该特征点s为文本特征点;将文本特征点对应的边界框保存在边界框集合B中。
接下来,对于边界框集合B中两个不同的边界框b1和b2,计算二者之间的文本重合度IoU,若二者之间的文本重合度大于重合度阈值σ,那么边界框b1和b2确定为对应同一个文本实例的边界框;在文本实例集合T中,保存有待识别票据图像中所有文本实例对应的边界框,并且这些边界框是按照其对应的文本实例分类保存的,对应同一个文本实例的边界框保存在同一个分类中。
然后,按照置信图C中记载的各个边界框对应的置信度,筛选出置信度最高的K个目标边界框,对目标边界框进行加权平均,获得结果边界框R。本申请实施例中,置信图C中记载有每个文本特征点对应的5种通道数据,分别为上边界、下边界、左边界、右边界和角度。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
参见图3,图3为本申请实施例提供的一种票据文本检测装置的结构示意图。所述装置包括:
特征提取单元301,用于:获取待识别票据图像,并对所述待识别票据图像进行特征提取,获得第一文本特征;其中,所述第一文本特征包括所述待识别票据图像中所有文字的文本特征;
特征分析单元302,用于:基于所述第一文本特征,对所述待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征;其中,所述第二文本特征包括所述待识别票据图像中所有字段的文本特征,所述第二文本特征与所述待识别票据图像中的字段对应;
边界框生成单元303,用于:根据所述第二文本特征,生成所述待识别票据图像中各个字段对应的候选边界框,并为所述候选边界框确定对应的边界框置信度;
结果确定单元304,用于:根据所述边界框置信度确定所述待识别票据图像中各个字段对应的结果边界框;基于所述结果边界框对所述待识别票据图像进行文本检测,提取所述结果边界框对应的文本信息。
可选地,所述特征提取单元301具体用于:
将所述待识别票据图像输入特征提取网络中,获得所述待识别票据图像对应的高层特征和低层特征;
对所述高层特征和所述低层特征进行特征融合处理,生成所述第一文本特征。
可选地,所述特征分析单元302具体用于:
将所述第一文本特征输入序列上下文分析网络中,对所述待识别票据图像中的各个字段进行序列上下文分析,并根据所述字段对所述第一文本特征进行分组;其中,属于同一分组的所述第一文本特征在所述待识别票据图像中对应同一字段;
基于各个分组中的所述第一文本特征,生成与所述待识别票据图像中各个字段对应的所述第二文本特征。
可选地,所述边界框生成单元303具体用于:
基于各个字段在所述待识别票据图像中的位置信息,生成各个字段在所述待识别票据图像中的候选边界框;所述候选边界框包括候选上边界框、候选下边界框、候选左边界框和候选右边界框;
根据所述候选边界框与所述字段之间的位置关系,确定各个所述候选边界框对应的几何置信度;
根据所述候选边界框与所述字段之间的位置关系,以及所述几何置信度,确定所述候选边界框对应的边界框置信度。
可选地,所述结果确定单元304具体用于:
从所述候选边界框中,筛选出所述边界框置信度满足置信度条件的预设数量个目标边界框;
根据所述目标边界框对应的所述边界框置信度和所述目标边界框对应的几何置信度,进行加权平均运算,生成结果边界框;所述结果边界框包括结果上边界框、结果下边界框、结果左边界框和结果右边界框,所述几何置信度用于描述所述目标边界框与所述待识别票据图像中的所述字段之间的位置关系。
可选地,所述装置还包括图像预处理单元,用于:
获取初始票据图像,对所述初始票据图像进行预处理,生成所述待识别票据图像。
本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种票据文本检测方法,其特征在于,所述方法包括:
获取待识别票据图像,并对所述待识别票据图像进行特征提取,获得第一文本特征;其中,所述第一文本特征包括所述待识别票据图像中所有文字的文本特征;
基于所述第一文本特征,对所述待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征;其中,所述第二文本特征包括所述待识别票据图像中所有字段的文本特征,所述第二文本特征与所述待识别票据图像中的字段对应;
根据所述第二文本特征,生成所述待识别票据图像中各个字段对应的候选边界框,并为所述候选边界框确定对应的边界框置信度;
根据所述边界框置信度确定所述待识别票据图像中各个字段对应的结果边界框;基于所述结果边界框对所述待识别票据图像进行文本检测,提取所述结果边界框对应的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别票据图像进行特征提取,获得第一文本特征包括:
将所述待识别票据图像输入特征提取网络中,获得所述待识别票据图像对应的高层特征和低层特征;
对所述高层特征和所述低层特征进行特征融合处理,生成所述第一文本特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本特征,对所述待识别票据图像的各个字段进行序列上下文分析,获得第二文本特征包括:
将所述第一文本特征输入序列上下文分析网络中,对所述待识别票据图像中的各个字段进行序列上下文分析,并根据所述字段对所述第一文本特征进行分组;其中,属于同一分组的所述第一文本特征在所述待识别票据图像中对应同一字段;
基于各个分组中的所述第一文本特征,生成与所述待识别票据图像中各个字段对应的所述第二文本特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二文本特征,生成所述待识别票据图像中各个字段对应的候选边界框,并为所述候选边界框确定对应的边界框置信度包括:
基于各个字段在所述待识别票据图像中的位置信息,生成各个字段在所述待识别票据图像中的候选边界框;所述候选边界框包括候选上边界框、候选下边界框、候选左边界框和候选右边界框;
根据所述候选边界框与所述字段之间的位置关系,确定各个所述候选边界框对应的几何置信度;
根据所述候选边界框与所述字段之间的位置关系,以及所述几何置信度,确定所述候选边界框对应的边界框置信度。
5.根据权利要求1或4所述的方法,其特征在于,所述根据所述边界框置信度确定所述待识别票据图像中各个字段对应的结果边界框,包括:
从所述候选边界框中,筛选出所述边界框置信度满足置信度条件的预设数量个目标边界框;
根据所述目标边界框对应的所述边界框置信度和所述目标边界框对应的几何置信度,进行加权平均运算,生成结果边界框;所述结果边界框包括结果上边界框、结果下边界框、结果左边界框和结果右边界框,所述几何置信度用于描述所述目标边界框与所述待识别票据图像中的所述字段之间的位置关系。
6.根据权利要求1所述的方法,其特征在于,在所述获取待识别票据图像之前,所述方法还包括:
获取初始票据图像,对所述初始票据图像进行预处理,生成所述待识别票据图像。
7.一种票据文本检测装置,其特征在于,所述装置包括:
特征提取单元,用于:获取待识别票据图像,并对所述待识别票据图像进行特征提取,获得第一文本特征;其中,所述第一文本特征包括所述待识别票据图像中所有文字的文本特征;
特征分析单元,用于:基于所述第一文本特征,对所述待识别票据图像中的各个字段进行序列上下文分析,获得第二文本特征;其中,所述第二文本特征包括所述待识别票据图像中所有字段的文本特征,所述第二文本特征与所述待识别票据图像中的字段对应;
边界框生成单元,用于:根据所述第二文本特征,生成所述待识别票据图像中各个字段对应的候选边界框,并为所述候选边界框确定对应的边界框置信度;
结果确定单元,用于:根据所述边界框置信度确定所述待识别票据图像中各个字段对应的结果边界框;基于所述结果边界框对所述待识别票据图像进行文本检测,提取所述结果边界框对应的文本信息。
8.根据权利要求7所述的装置,其特征在于,所述特征提取单元具体用于:
将所述待识别票据图像输入特征提取网络中,获得所述待识别票据图像对应的高层特征和低层特征;
对所述高层特征和所述低层特征进行特征融合处理,生成所述第一文本特征。
9.根据权利要求7所述的装置,其特征在于,所述特征分析单元具体用于:
将所述第一文本特征输入序列上下文分析网络中,对所述待识别票据图像中的各个字段进行序列上下文分析,并根据所述字段对所述第一文本特征进行分组;其中,属于同一分组的所述第一文本特征在所述待识别票据图像中对应同一字段;
基于各个分组中的所述第一文本特征,生成与所述待识别票据图像中各个字段对应的所述第二文本特征。
10.根据权利要求9所述的装置,其特征在于,所述边界框生成单元具体用于:
基于各个字段在所述待识别票据图像中的位置信息,生成各个字段在所述待识别票据图像中的候选边界框;所述候选边界框包括候选上边界框、候选下边界框、候选左边界框和候选右边界框;
根据所述候选边界框与所述字段之间的位置关系,确定各个所述候选边界框对应的几何置信度;
根据所述候选边界框与所述字段之间的位置关系,以及所述几何置信度,确定所述候选边界框对应的边界框置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410368176.6A CN118155211A (zh) | 2024-03-28 | 2024-03-28 | 一种票据文本检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410368176.6A CN118155211A (zh) | 2024-03-28 | 2024-03-28 | 一种票据文本检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118155211A true CN118155211A (zh) | 2024-06-07 |
Family
ID=91298296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410368176.6A Pending CN118155211A (zh) | 2024-03-28 | 2024-03-28 | 一种票据文本检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118155211A (zh) |
-
2024
- 2024-03-28 CN CN202410368176.6A patent/CN118155211A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816165B2 (en) | Identification of fields in documents with neural networks without templates | |
JP2575539B2 (ja) | 書類上の金額フィールドの位置特定方法および識別方法 | |
CN111178345A (zh) | 一种票据分析方法、分析装置、计算机设备和介质 | |
CN111931664A (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
EP3640847A1 (en) | Systems and methods for identifying form fields | |
US20240012846A1 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
IE832262L (en) | Image processors | |
JPH07230552A (ja) | 画像品質分析の方法および装置 | |
CN112395996A (zh) | 财务票据ocr识别及影像处理方法、系统及可读存储介质 | |
CN112418812A (zh) | 分布式全链路自动化智能通关系统、方法及存储介质 | |
JP3078318B2 (ja) | 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置 | |
CN111160188A (zh) | 金融票据识别方法、装置、设备及存储介质 | |
CN114971294A (zh) | 数据采集方法、装置、设备及存储介质 | |
WO2023078264A1 (zh) | 一种名片信息抽取系统训练方法及装置、计算机可读存储介质 | |
CN111914706A (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
CN111325207A (zh) | 基于预处理的票据识别方法及装置 | |
CN118155211A (zh) | 一种票据文本检测方法及装置 | |
JP2004171316A (ja) | Ocr装置及び文書検索システム及び文書検索プログラム | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
CN112308141B (zh) | 一种扫描票据分类方法、系统及可读存储介质 | |
Kumar et al. | Line based robust script identification for indianlanguages | |
CN114663899A (zh) | 金融票据的处理方法、装置、设备及介质 | |
CN111291726A (zh) | 医疗票据分拣方法、装置、设备和介质 | |
JP7420578B2 (ja) | 帳票仕分システム、帳票仕分方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |