CN114187586B - 一种行程单识别方法、装置、电子设备及存储介质 - Google Patents

一种行程单识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114187586B
CN114187586B CN202210140067.XA CN202210140067A CN114187586B CN 114187586 B CN114187586 B CN 114187586B CN 202210140067 A CN202210140067 A CN 202210140067A CN 114187586 B CN114187586 B CN 114187586B
Authority
CN
China
Prior art keywords
target
picture
candidate
detection frame
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210140067.XA
Other languages
English (en)
Other versions
CN114187586A (zh
Inventor
籍焱
章凡寿
王殿胜
唐红武
薄满辉
卞磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Mobile Technology Co Ltd
Original Assignee
China Travelsky Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Mobile Technology Co Ltd filed Critical China Travelsky Mobile Technology Co Ltd
Priority to CN202210140067.XA priority Critical patent/CN114187586B/zh
Publication of CN114187586A publication Critical patent/CN114187586A/zh
Application granted granted Critical
Publication of CN114187586B publication Critical patent/CN114187586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种行程单识别方法、装置、电子设备及存储介质,该方法包括:获取待识别图片;将所述待识别图片输入第一卷积神经网络中;分别获取C3、C4、C5的输出,得到C3’、C4’、C5’,根据C3’和C4’得到第一特征图,根据C4’和C5’得到第二特征图,根据C5’得到第三特征图;使用同一锚框分别对第一特征图、第二特征图和第三特征图进行目标识别,得到每一候选目标对应的检测框集合Bj{Kj 1,Kj 2,...Kj f(j)},对每一候选目标对应的检测框集合进行非极大值抑制处理,得到每一候选目标的目标检测框;根据每一所述目标检测框对所述待识别图片进行截取,获取每一所述候选目标对应的目标图片;判断T中是否包含目标词语;若是,确定所述待识别图片为行程单图片。

Description

一种行程单识别方法、装置、电子设备及存储介质
技术领域
本发明涉及行程单识别领域,尤其涉及一种行程单识别方法、装置、电子设备及存储介质。
背景技术
ocr字符识别是当前热门研究方向,字符识别传统流程可以简单分成以下几个步骤。首先输入图片,可能有多种图片的存储格式,常见的有OPENCV,PIL的图片格式。然后将图片进行二值化,由于彩色图像包含过多信息,对识别的影响并不是那么大,所以将图片进行‘黑白化’处理,图片仅仅保留前景和背景信息,这样计算速度得以大大加快。现实中图片总会存在各种噪声,一般会对图片根据噪点特征进行去噪。
但现有的ocr识别方法对行程单这种简单格式的文件进行识别,会存在方法过于复杂,运算量需求较大的问题。
发明内容
有鉴于此,本发明提供一种行程单识别方法、装置、电子设备及存储介质,至少部分解决现有技术中存在的问题。
根据本申请的一个方面,提供一种行程单识别方法,包括:
步骤S100,获取待识别图片;所述待识别图片中具有n个候选目标M1,M2,...Mn;每一所述候选目标对应的显示区域在水平方向上的尺寸均大于在竖直方向上的尺寸;
步骤S200,将所述待识别图片输入第一卷积神经网络中;所述第一卷积神经网络中包括依次连接的5个残差模块C1,C2,C3,C4,C5,Ck的输入为进Ck-1的处理结果,k=2~5;每一所述残差模块内均包括一个1*1卷积核和一个3*3卷积核;
步骤S300,分别获取C3、C4、C5的输出,得到C3’、C4’、C5’,根据C3’和C4’得到第一特征图,根据C4’和C5’得到第二特征图,根据C5’得到第三特征图;
步骤S400,使用同一锚框分别对第一特征图、第二特征图和第三特征图进行目标识别,得到每一候选目标对应的检测框集合Bj{Kj 1,Kj 2,...Kj f(j)},j=1~n,Kj f(j)为Mj对应的第f(j)个检测框;所述锚框的尺寸为a*b,其中a为所述锚框在竖直方向上的尺寸,b为所述锚框在水平方向上的尺寸,且b>a;
步骤S500,对每一候选目标对应的检测框集合进行非极大值抑制处理,得到每一候选目标的目标检测框;
步骤S600,根据每一所述目标检测框对所述待识别图片进行截取,获取每一所述候选目标对应的目标图片;
步骤S700,对每一所述目标图片进行文字识别,得到候选字段集合T{t1,t2,...tn};其中,tm为Mm对应的文字含义,m=1~n;
步骤S800,判断T中是否包含目标词语;若是,则执行步骤S900;
步骤S900,确定所述待识别图片为行程单图片。
在本申请的一种示例性实施例中,所述步骤S700,包括:
对将每一所述目标图片输入第二卷积神经网络,得到每一所述目标图片的特征序列;
对每一所述特征序列进行预测,得到每一所述特征序列的含义概率分布图;
根据每一所述含义概率分布图,得到所述候选字段集合T{t1,t2,...tn}。
在本申请的一种示例性实施例中,所述第二卷积神经网络,包括:7个卷积层,4个池化层,2个BN层构成;
其中,每一所述池化层使用的池化窗口的尺寸均为α*β,其中α为所述池化窗口在竖直方向上的尺寸,β为所述池化窗口在水平方向上的尺寸,且β>α。
在本申请的一种示例性实施例中,每一所述池化层均为最大池化层。
在本申请的一种示例性实施例中,在步骤步骤S900之后,所述方法还包括:
根据关键词列表确定候选字段集合T中的目标字段;
根据所述目标字段对应的关键词,将所述目标字段存储至设定位置。
在本申请的一种示例性实施例中,所述步骤S300-步骤S600,通过文字选择模型实现,所述文字选择模型在训练过程中使用的损失函数为:
Figure DEST_PATH_IMAGE002
其中,x为第一位置和第二位置的差值;
第一位置为候选目标对应的检测框的样本标注位置;
第二位置为候选目标对应的检测框的模型检测位置。
根据本申请的一个方面,提供一种行程单识别装置,包括:
获取模块,用户获取待识别图片;所述待识别图片中具有n个候选目标M1,M2,...Mn;每一所述候选目标对应的显示区域在水平方向上的尺寸均大于在竖直方向上的尺寸;
输入模块,用于将所述待识别图片输入第一卷积神经网络中;所述第一卷积神经网络中包括依次连接的5个残差模块C1,C2,C3,C4,C5,Ck的输入为进Ck-1的处理结果,k=2~5;每一所述残差模块内均包括一个1*1卷积核和一个3*3卷积核;
获取模块,用于分别获取C3、C4、C5的输出,得到C3’、C4’、C5’,根据C3’和C4’得到第一特征图,根据C4’和C5’得到第二特征图,根据C5’得到第三特征图;
识别模块,用于使用同一锚框分别对第一特征图、第二特征图和第三特征图进行目标识别,得到每一候选目标对应的检测框集合Bj{Kj 1,Kj 2,...Kj f(j)},j=1~n,Kj f(j)为Mj对应的第f(j)个检测框;所述锚框的尺寸为a*b,其中a为所述锚框在竖直方向上的尺寸,b为所述锚框在水平方向上的尺寸,且b>a;
处理模块,用于对每一候选目标对应的检测框集合进行非极大值抑制处理,得到每一候选目标的目标检测框;
截取模块,用于根据每一所述目标检测框对所述待识别图片进行截取,获取每一所述候选目标对应的目标图片;
识别模块,用于对每一所述目标图片进行文字识别,得到候选字段集合T{t1,t2,...tn};其中,tm为Mm对应的文字含义,m=1~n;
判断模块,用于判断T中是否包含目标词语;若是,则确定所述待识别图片为行程单图片。
根据本申请的一个方面,提供一种电子设备,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述任一项所述方法的步骤。
根据本申请的一个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行上述任一项所述方法的步骤。
本申请提供的行程单识别方法,通过将待识别图片输入进第一卷积神经网络中,并根据不同残差模块的输出结果得到大小不同的第一特征图、第二特征图和第三特征图。然后使用同一个固定尺寸的锚框分别对进行目标识别,从而别识别出待识别图片中的候选目标的检测框。并根据检测框中的内容得到候选目标的文字含义,从而完成行程单的识别。本申请提供的行程单识别方法,仅使用同一个锚框进行目标识别,而不需要设置多个不同尺寸的锚框,使得识别速度提升且计算量较小,能快速的完成行程单的识别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本实施例提供的一种行程单识别方法的流程图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
请参考图1所示,根据本申请的一个方面,提供一种行程单识别方法,包括以下:
步骤S100,获取待识别图片;所述待识别图片中具有n个候选目标M1,M2,...Mn;每一所述候选目标对应的显示区域在水平方向上的尺寸均大于在竖直方向上的尺寸。
步骤S200,将所述待识别图片输入第一卷积神经网络中;所述第一卷积神经网络中包括依次连接的5个残差模块C1,C2,C3,C4,C5,Ck的输入为进Ck-1的处理结果,k=2~5;每一所述残差模块内均包括一个1*1卷积核和一个3*3卷积核。
步骤S300,分别获取C3、C4、C5的输出,得到C3’、C4’、C5’,根据C3’和C4’得到第一特征图,根据C4’和C5’得到第二特征图,根据C5’得到第三特征图。
步骤S400,使用同一锚框分别对第一特征图、第二特征图和第三特征图进行目标识别,得到每一候选目标对应的检测框集合Bj{Kj 1,Kj 2,...Kj f(j)},j=1~n,Kj f(j)为Mj对应的第f(j)个检测框;所述锚框的尺寸为a*b,其中a为所述锚框在竖直方向上的尺寸,b为所述锚框在水平方向上的尺寸,且b>a。本实施例中,a*b=1*2。
步骤S500,对每一候选目标对应的检测框集合进行非极大值抑制处理,得到每一候选目标的目标检测框。
步骤S600,根据每一所述目标检测框对所述待识别图片进行截取,获取每一所述候选目标对应的目标图片。
步骤S700,对每一所述目标图片进行文字识别,得到候选字段集合T{t1,t2,...tn};其中,tm为Mm对应的文字含义,m=1~n。
步骤S800,判断T中是否包含目标词语;若是,则执行步骤S900。
步骤S900,确定所述待识别图片为行程单图片。
其中,获取待识别图片的方式可以为通过摄像头等采集设备进行采集,也可以直接获取本地存储或远端上传的图片。图片中的候选目标对应的显示区域为水平长度较大矩形区域,如横向书写的文字段。
第一卷积神经网络中的残差模块主要用于对待识别图片的特征信息进行提取。其中,排序越后面的残差模块,其提取的特征信息更深层。其处理过程为前一个残差模块的输出作为后一个残差模块的输入,例如C1的输出结果会作为C2的输入信息。其中,每一所述残差模块内均包括一个1*1卷积核和一个3*3卷积核。残差模块中设置两个卷积核的目的是大大减少了后续处理中卷积层的参数,使得整体方法的处理速度得以提升。
本实施例中,分别获取C3、C4、C5的输出,得到C3’、C4’、C5’,根据C3’和C4’得到第一特征图,根据C4’和C5’得到第二特征图,根据C5’得到第三特征图。其中,C3’、C4’、C5’为对应的残差模块提取出的特征信息。
具体的,根据C3’和C4’得到第一特征图为,将C3’和C4’进行叠加,然后调整成设定格式(如DBL)得到第一中间特征信息,并对第一中间特征信息做卷积处理,得到第一特征图。根据C4’和C5’得到第二特征图为,将C4’和C5’进行叠加,然后调整成设定格式(如DBL)得到第二中间特征信息,并对第二中间特征信息做卷积处理,得到第二特征图。根据C5’得到第三特征图位,将C5’调整成设定格式(如DBL)得到第三中间特征信息,并对第三中间特征信息做卷积处理,得到第三特征图。其中,第一特征图、第二特征图和第三特征图单位图像面积对应的感受野依次递增。
由于第一特征图、第二特征图和第三特征图对应的感受野依次增大,故而,本实施例采用同一锚框对三个特征图进行目标识别时,也可以对不同大小的候选目标进行识别可框选,然后将框选结果汇总,得到每个候选目标对应的检测框集合Bj{Kj 1,Kj 2,...Kj f(j)},j=1~n,Kj f(j)为Mj对应的第f(j)个检测框。需要说明的是,每一特征图内均包括了每一候选目标的对应信息,且在锚框的尺寸大于某一候选目标时,同一候选目标会识别出多个检测框,但数量不是完全相同的。故而每一候选目标对应的检测框集合的实际大小和长度是不一样的。其中,检测框是根据特征图的大小和待识别图片的大小之间的比例进行变换的,故而检测框是的实际大小是适应待识别图片的。
而为了方便后续处理,本方法通过对每一候选目标对应的检测框集合进行非极大值抑制处理,得到每一候选目标的目标检测框。使得每一候选目标最终只对应一个目标检测框,减小了后续处理的工作量。
得到目标检测框后,根据目标检测框的位置和范围,对待识别图片进行截取。并对截取后的目标图片(其中包含了候选目标)进行文字识别,得到候选字段集合T{t1,t2,...tn};其中,tm为Mm对应的文字含义,m=1~n。即,候选字段集合中的每一元素,就是一个候选目标对应的文字含义(也可理解为具体的文字信息)。并在,候选字段集合中某一元素为目标词语时,将待识别图片确定为行程单图片。
本实施例提供的行程单识别方法,通过将待识别图片输入进第一卷积神经网络中,并根据不同残差模块的输出结果得到大小不同的第一特征图、第二特征图和第三特征图。然后使用同一个固定尺寸的锚框分别对进行目标识别,从而别识别出待识别图片中的候选目标的检测框。并根据检测框中的内容得到候选目标的文字含义,从而完成行程单的识别。本实施例提供的行程单识别方法,仅使用同一个锚框进行目标识别,而不需要设置多个不同尺寸的锚框,使得识别速度提升且计算量较小,能快速的完成行程单的识别。
在本申请的一种示例性实施例中,所述步骤S300-步骤S600,通过文字选择模型实现,即文字选择模型中包含了第一卷积神经网络。所述文字选择模型在训练过程中使用的损失函数为:
Figure 100002_DEST_PATH_IMAGE001
其中,x为第一位置和第二位置的差值;
第一位置为候选目标对应的检测框的样本标注位置;即训练样本中标记的候选目标的实际位置。训练样本中包含了若干候选目标,并标注了每一候选目标的实际位置。
第二位置为候选目标对应的检测框的模型检测位置。
在模型训练过程中,需要通过上述的损失函数确定模型是否达到了预期的能力。本实施例通过上述的损失函数进行计算,在预测位置(第二位置)和实际位置(第一位置)差距较大时,梯度不会过大以至于网络训练发生发散,当预测位置和实际位置差距较小时,也不会出现梯度过小,网络训练效率低下,难以收敛的问题。同时,由于我们的目标检测只有文本一个类别(即候选目标均为文本),所以在训练过程中只需要加入置信度得分就可以进行文本类别的判定。这样使得整个训练过程的计算量较小且训练效果能够快速收敛。
在本申请的一种示例性实施例中,所述步骤S700,包括:
对将每一所述目标图片输入第二卷积神经网络,得到每一所述目标图片的特征序列;
对每一所述特征序列进行预测,得到每一所述特征序列的含义概率分布图;
根据每一所述含义概率分布图,得到所述候选字段集合T{t1,t2,...tn}。
本实施例中,在进行文字识别时,直接将目标图片分别输入进第二卷积神经网络中,得到每一目标图片的特征序列。每一特征序列中,均包含至少一个特征向量,其中,特征向量为每一个文字的对应特征信息组成的向量,即目标图片中对应了几个字符(一个字符为一个英文字母或一个汉字),那么特征序列中就有几个特征向量。然后可以使用BLSTM对特征序列进行预测,并对特征序列中的每个特征向量进行学习,得到预测标签的含义概率分布图。其中,预测标签为特征序列中,所有特征向量后表征的含义。例如目标图片对应的候选目标中包含了三个汉字,其特征向量分别表示三个字符对应的是“你”、“给”“我”。则预测标签可以有6个“你给我”、“你我给”、“给你我”、“给我你”、“我给你”、“我你给”,且每个预测标签都具有对应的概率。最后将概率最高的确定为目标图片(候选目标)对应的候选字段。将每一目标图片的候选字段确定出来后,组成了得到所述候选字段集合T{t1,t2,...tn},其中,tm为Mm对应的文字含义,m=1~n。
通过上述方式对目标图片进行文字识别,不需要进行字符切割,而是对每一候选目标进行整体含义识别。这样避免了文字切割时导致个别字符特征缺失的问题,且进行含义识别时,会关联每一字符的前后文含义,提高了含义识别的精准性。
在本申请的一种示例性实施例中,所述第二卷积神经网络,包括:7个卷积层,4个池化层,2个BN层构成;
其中,每一所述池化层使用的池化窗口的尺寸均为α*β,其中α为所述池化窗口在竖直方向上的尺寸,β为所述池化窗口在水平方向上的尺寸,且β>α。本实施例中,α*β=1*2,每一所述池化层均为最大池化层,即池化层采用最大池化。
其中,卷积层用于进行特征提取,池化层用于对特征进程池化处理,以在保留足够特征信息的前提下,减少特征数量,降低后续处理的计算量。BN层可以成为归一化层,用于对卷积层或池化层输出的特征信息进行归一化处理。
本实施例中,相较于常用正方形池化窗口,本方法对池化层做了进一步优化,将池化窗口从矩形修改成了水平长度更长的矩形(例如1*2的尺寸)。本实施例中,候选目标均为横向的矩形,本实施例通过将池化层的池化窗口调整为矩形区域,在进行最大池化时,能够更好地适应候选目标的形状,使得池化层后的特征信息不回缺少过多倒是信息不全的情况发生。
在本申请的一种示例性实施例中,在步骤步骤S900之后,所述方法还包括:
根据关键词列表确定候选字段集合T中的目标字段;
根据所述目标字段对应的关键词,将所述目标字段存储至设定位置。
得到候选字段集合T以后,需要首先通过字符匹配实现行程单内容提取,即对候选字段集合中的元素进行提取。因为不同航空公司的行程单中的信息排列方式和明明方式不同。故而,需要在确定待识别图像是否是行程单图像的同时,确定待识别图像对应的是哪个航空公司。故而,在确定候选字段集合中具有目标词语后(目标词语可以设置为携程等名称)。会根据目标词语匹配相应的内容提取方案。并根据内容提取方案确定对应的关键词列表。关键词列表中包含了需要提取的关键词(即需要提取出的信息对应的前述表征信息),例如候选目标对应的候选字段为“姓名:张三”,则姓名为关键词,张三为目标字段。故而可以通过管检测列表确定出目标字段,也就是需提取的信息为“张三”。并根据其对应的关键词“姓名”,将“张三”存储至对应的存储位置。如此完成行程单的内容提取。
根据本申请的一个方面,提供一种行程单识别装置,包括:
获取模块,用户获取待识别图片;所述待识别图片中具有n个候选目标M1,M2,...Mn;每一所述候选目标对应的显示区域在水平方向上的尺寸均大于在竖直方向上的尺寸;
输入模块,用于将所述待识别图片输入第一卷积神经网络中;所述第一卷积神经网络中包括依次连接的5个残差模块C1,C2,C3,C4,C5,Ck的输入为进Ck-1的处理结果,k=2~5;每一所述残差模块内均包括一个1*1卷积核和一个3*3卷积核;
获取模块,用于分别获取C3、C4、C5的输出,得到C3’、C4’、C5’,根据C3’和C4’得到第一特征图,根据C4’和C5’得到第二特征图,根据C5’得到第三特征图;
识别模块,用于使用同一锚框分别对第一特征图、第二特征图和第三特征图进行目标识别,得到每一候选目标对应的检测框集合Bj{Kj 1,Kj 2,...Kj f(j)},j=1~n,Kj f(j)为Mj对应的第f(j)个检测框;所述锚框的尺寸为a*b,其中a为所述锚框在竖直方向上的尺寸,b为所述锚框在水平方向上的尺寸,且b>a;
处理模块,用于对每一候选目标对应的检测框集合进行非极大值抑制处理,得到每一候选目标的目标检测框;
截取模块,用于根据每一所述目标检测框对所述待识别图片进行截取,获取每一所述候选目标对应的目标图片;
识别模块,用于对每一所述目标图片进行文字识别,得到候选字段集合T{t1,t2,...tn};其中,tm为Mm对应的文字含义,m=1~n;
判断模块,用于判断T中是否包含目标词语;若是,则确定所述待识别图片为行程单图片。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
根据本发明的这种实施方式的电子设备。电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:上述至少一个处理器、上述至少一个储存器、连接不同系统组件(包括储存器和处理器)的总线。
其中,所述储存器存储有程序代码,所述程序代码可以被所述处理器执行,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
储存器可以包括易失性储存器形式的可读介质,例如随机存取储存器(RAM)和/或高速缓存储存器,还可以进一步包括只读储存器(ROM)。
储存器还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线可以为表示几类总线结构中的一种或多种,包括储存器总线或者储存器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器通过总线与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种行程单识别方法,其特征在于,包括:
步骤S100,获取待识别图片;所述待识别图片中具有n个候选目标M1,M2,...Mn;每一所述候选目标对应的显示区域在水平方向上的尺寸均大于在竖直方向上的尺寸;
步骤S200,将所述待识别图片输入第一卷积神经网络中;所述第一卷积神经网络中包括依次连接的5个残差模块C1,C2,C3,C4,C5,Ck的输入为进Ck-1的处理结果,k=2~5;每一所述残差模块内均包括一个1*1卷积核和一个3*3卷积核;
步骤S300,分别获取C3、C4、C5的输出,得到C3’、C4’、C5’,根据C3’和C4’得到第一特征图,根据C4’和C5’得到第二特征图,根据C5’得到第三特征图;第一特征图、第二特征图和第三特征图单位图像面积对应的感受野依次递增;
步骤S400,使用同一锚框分别对第一特征图、第二特征图和第三特征图进行目标识别,得到每一候选目标对应的检测框集合Bj{Kj 1,Kj 2,...Kj f(j)},j=1~n,Kj f(j)为Mj对应的第f(j)个检测框;所述锚框的尺寸为a*b,其中a为所述锚框在竖直方向上的尺寸,b为所述锚框在水平方向上的尺寸,且b>a;a*b=1*2;
步骤S500,对每一候选目标对应的检测框集合进行非极大值抑制处理,得到每一候选目标的目标检测框;
步骤S600,根据每一所述目标检测框对所述待识别图片进行截取,获取每一所述候选目标对应的目标图片;
步骤S700,对每一所述目标图片进行文字识别,得到候选字段集合T{t1,t2,...tn};其中,tm为Mm对应的文字含义,m=1~n;
步骤S800,判断T中是否包含目标词语;若是,则执行步骤S900;
步骤S900,确定所述待识别图片为行程单图片;
所述步骤S700,包括:
对将每一所述目标图片输入第二卷积神经网络,得到每一所述目标图片的特征序列;每一特征序列中,均包含至少一个特征向量,其中,特征向量为每一个文字的对应特征信息组成的向量;
使用BLSTM对每一所述特征序列进行预测,得到每一所述特征序列的预测标签的含义概率分布图;
根据每一所述含义概率分布图,得到所述候选字段集合T{t1,t2,...tn};
所述第二卷积神经网络,包括:7个卷积层,4个池化层,2个BN层构成;
其中,每一所述池化层使用的池化窗口的尺寸均为α*β,其中α为所述池化窗口在竖直方向上的尺寸,β为所述池化窗口在水平方向上的尺寸,且β>α,α*β=1*2。
2.根据权利要求1所述的行程单识别方法,其特征在于,每一所述池化层均为最大池化层。
3.根据权利要求1所述的行程单识别方法,其特征在于,在步骤S900之后,所述方法还包括:
根据关键词列表确定候选字段集合T中的目标字段;
根据所述目标字段对应的关键词,将所述目标字段存储至设定位置。
4.根据权利要求1所述的行程单识别方法,其特征在于,所述步骤S300-步骤S600,通过文字选择模型实现,所述文字选择模型在训练过程中使用的损失函数为:
Figure DEST_PATH_IMAGE001
其中,x为第一位置和第二位置的差值;
第一位置为候选目标对应的检测框的样本标注位置;
第二位置为候选目标对应的检测框的模型检测位置。
5.一种电子设备,其特征在于,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至4任一项所述方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至4任一项所述方法的步骤。
CN202210140067.XA 2022-02-16 2022-02-16 一种行程单识别方法、装置、电子设备及存储介质 Active CN114187586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210140067.XA CN114187586B (zh) 2022-02-16 2022-02-16 一种行程单识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210140067.XA CN114187586B (zh) 2022-02-16 2022-02-16 一种行程单识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114187586A CN114187586A (zh) 2022-03-15
CN114187586B true CN114187586B (zh) 2022-05-06

Family

ID=80546030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210140067.XA Active CN114187586B (zh) 2022-02-16 2022-02-16 一种行程单识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114187586B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993057A (zh) * 2019-02-25 2019-07-09 平安科技(深圳)有限公司 语义识别方法、装置、设备及计算机可读存储介质
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN112132037A (zh) * 2020-09-23 2020-12-25 平安国际智慧城市科技股份有限公司 基于人工智能的人行道检测方法、装置、设备及介质
WO2021114031A1 (zh) * 2019-12-09 2021-06-17 深圳市大疆创新科技有限公司 一种目标检测方法和装置
CN113989758A (zh) * 2021-10-26 2022-01-28 清华大学苏州汽车研究院(相城) 一种用于自动驾驶的锚引导3d目标检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846379A (zh) * 2018-07-03 2018-11-20 南京览笛信息科技有限公司 面单识别方法、系统、终端设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993057A (zh) * 2019-02-25 2019-07-09 平安科技(深圳)有限公司 语义识别方法、装置、设备及计算机可读存储介质
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
WO2021114031A1 (zh) * 2019-12-09 2021-06-17 深圳市大疆创新科技有限公司 一种目标检测方法和装置
CN112132037A (zh) * 2020-09-23 2020-12-25 平安国际智慧城市科技股份有限公司 基于人工智能的人行道检测方法、装置、设备及介质
CN113989758A (zh) * 2021-10-26 2022-01-28 清华大学苏州汽车研究院(相城) 一种用于自动驾驶的锚引导3d目标检测方法及装置

Also Published As

Publication number Publication date
CN114187586A (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
US11074445B2 (en) Remote sensing image recognition method and apparatus, storage medium and electronic device
CN111488826B (zh) 一种文本识别方法、装置、电子设备和存储介质
CN108304835B (zh) 文字检测方法和装置
US11392792B2 (en) Method and apparatus for generating vehicle damage information
US11475588B2 (en) Image processing method and device for processing image, server and storage medium
CN110163205B (zh) 图像处理方法、装置、介质和计算设备
CN111311613B (zh) 图像分割模型训练方法、图像分割方法及装置
US20220237403A1 (en) Neural network based scene text recognition
CN110929802A (zh) 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN111753863A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN111199541A (zh) 图像质量评价方法、装置、电子设备及存储介质
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
CN111612010A (zh) 图像处理方法、装置、设备以及计算机可读存储介质
CN108229680B (zh) 神经网络系统、遥感图像识别方法、装置、设备及介质
CN112883818A (zh) 文本图像识别方法、系统、设备及存储介质
CN111950647A (zh) 分类模型训练方法和设备
CN114529750A (zh) 图像分类方法、装置、设备及存储介质
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN113223011A (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN114187586B (zh) 一种行程单识别方法、装置、电子设备及存储介质
KR20230133808A (ko) Roi 검출 모델 훈련 방법, 검출 방법, 장치, 설비 및 매체
CN115375657A (zh) 息肉检测模型的训练方法、检测方法、装置、介质及设备
CN115273148A (zh) 行人重识别模型训练方法、装置、电子设备及存储介质
CN116704593A (zh) 预测模型训练方法、装置、电子设备和计算机可读介质
CN112287144B (zh) 图片检索方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant