CN117746443A - 手写体文字识别方法、装置、设备及存储介质 - Google Patents
手写体文字识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117746443A CN117746443A CN202311766365.0A CN202311766365A CN117746443A CN 117746443 A CN117746443 A CN 117746443A CN 202311766365 A CN202311766365 A CN 202311766365A CN 117746443 A CN117746443 A CN 117746443A
- Authority
- CN
- China
- Prior art keywords
- handwriting
- image
- area
- identified
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000001514 detection method Methods 0.000 claims abstract description 79
- 238000012795 verification Methods 0.000 claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 14
- 230000000007 visual effect Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 238000007639 printing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000009432 framing Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提供一种手写体文字识别方法、装置、设备及存储介质,方法包括:获取待识别的图像,将待识别的图像输入预建立的目标检测模型,以使目标检测模型识别出所述待识别的图像中的手写体区域的范围;根据手写体区域的范围对待识别的图像进行裁剪,得到手写体区域图像,并确定手写体区域图像所属的区域类型;将手写体区域图像输入预建立的手写文字识别模型,以使手写文字识别模型对手写体区域图像中的手写体文字进行识别,得到字符串序列;根据预设置的各区域类型的检测识别信息校验规则对字符串序列的合理性进行校验;若校验通过,则输出字符串序列。本发明实现了手写体文字的快速和精准识别。
Description
技术领域
本发明涉及文字识别技术领域,尤其涉及一种手写体文字识别方法、装置、设备及存储介质。
背景技术
在信息化发展改革发展过程中,企业通常将终端人员的业务执行凭证进行拍照图片上传收入系统,在一些需要客户签署信息的行业领域,从纸质凭证中检测识别出基于业务需求的关键信息进行鉴别尤为重要,这样可以验证签署信息的合理性和准确性,以及凭证的有效性。
现有技术中的手写体信息识别通常是进行图片全文光学字符识别(OCR,OpticalCharacter Recognition)或者是基于附加设备只识别电子签署的手写字信息。
然而,使用图片全文OCR识别的方法,在有印刷体与手写体混合排版的图片中,由于手写体书写方式,通常不易识别出手写体,且在一些印刷体模版不完全一致的场景下,不易从识别出的全文中解析出手写体信息。
发明内容
本发明提供一种手写体文字识别方法、装置、设备及存储介质,用以解决现有技术中在有印刷体与手写体混合排版的图片中通常不易识别出手写体,且在一些印刷体模版不完全一致的场景下,不易从识别出的全文中解析出手写体信息的问题。
第一方面,本发明提供一种手写体文字识别方法,所述方法包括:
获取待识别的图像;
将所述待识别的图像输入预建立的目标检测模型,以使所述目标检测模型识别出所述待识别的图像中的手写体区域的范围;
根据手写体区域的范围对所述待识别的图像进行裁剪,得到手写体区域图像,并确定所述手写体区域图像所属的区域类型;
将所述手写体区域图像输入预建立的手写文字识别模型,以使所述手写文字识别模型对所述手写体区域图像中的手写体文字进行识别,得到字符串序列;
根据预设置的各区域类型的检测识别信息校验规则对所述字符串序列的合理性进行校验;
若校验通过,则输出所述字符串序列。
在一种可能的设计中,所述预建立的目标检测模型的建立过程,包括:获取预设定区域类型的包含待识别手写体文字的图像作为第一数据集;对所述第一数据集中的各包含待识别手写体文字的图像的手写体区域的范围进行标注,并对区域类型进行标注,得到各包含待识别手写体文字的图像的标注信息;将所述第一数据集和所述标注信息输入目标检测算法训练目标检测模型,直至满足收敛条件,得到预建立的目标检测模型。
在一种可能的设计中,所述预建立的手写体识别模型的建立过程,包括:获取包含待识别手写体文字的图像作为第二数据集;将所述第二数据集中的各包含待识别手写体文字的图像中的手写体区域进行裁剪,得到手写体区域图像;标注出各手写体区域中手写体文字的字符串序列;将所述手写体区域图像和所述字符串序列输入手写体识别算法训练手写文字识别模型,直至满足收敛条件,得到预建立的手写文字识别模型。
在一种可能的设计中,所述手写体识别算法为基于Transformer编码器-解码器网络结构的算法,Transformer编码器-解码器网络结构包含视觉编码器和文本解码器结构;相应地,所述将所述各区域类型的手写体区域和所述字符串序列输入手写体识别算法训练手写文字识别模型,包括:视觉编码器选用预训练的ViT模型参数;文本解码器选用包含待识别手写体文字的词汇标记器,用于解码生成包含手写体文字的字符串序列;其中,所述视觉编码器的图像特征与所述文本解码器的文本特征通过注意力机制进行参数拟合训练,所述注意力机制如下式所示:
其中,Q表示所述文本解码器的文本标记经过深度网络权重转换获取的状态向量,K、V表示视觉编码器的图像标记经过深度网络权重转换分别获取的状态向量,经过sim函数计算Q,K的相似度作为权重对V进行加权计算获取状态向量P,P经过网络转换输出预测词汇,Q、K、V都经过拟合训练。
在一种可能的设计中,所述根据所述检测识别信息校验规则对所述字符串序列的合理性进行校验之后,还包括:若校验未通过,则输出合理性校验未通过的通知信息。
第二方面,本发明提供一种手写体文字识别装置,包括:获取模块,用于获取待识别的图像;第一识别模块,用于将所述待识别的图像输入预建立的目标检测模型,以使所述目标检测模型识别出所述待识别的图像中的手写体区域的范围;裁剪模块,用于根据手写体区域的范围对所述待识别的图像进行裁剪,得到手写体区域图像,并确定所述手写体区域图像所属的区域类型;第二识别模块,用于将所述手写体区域图像输入预建立的手写文字识别模型,以使所述手写文字识别模型对所述手写体区域图像中的手写体文字进行手写体文字识别,得到字符串序列;校验模块,用于根据预设置的各区域类型的检测识别信息校验规则对所述字符串序列的合理性进行校验;输出模块,用于若校验通过,则输出所述字符串序列。
在一种可能的设计中,所述手写体文字识别装置还包括:第一建立模块,用于:获取预设定区域类型的包含待识别手写体文字的图像作为第一数据集;对所述第一数据集中的各包含待识别手写体文字的图像的手写体区域的范围进行标注,并对区域类型进行标注,得到各包含待识别手写体文字的图像的标注信息;将所述第一数据集和所述标注信息输入目标检测算法训练目标检测模型,直至满足收敛条件,得到预建立的目标检测模型。
第三方面,本发明提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上第一方面以及第一方面各种可能的设计所述的方法。
第五方面,本发明提供一种计算机程序产品,所述计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的方法。
本申请提供的手写体文字识别方法、装置、设备及存储介质,通过获取待识别的图像,将待识别的图像输入预建立的目标检测模型,以使目标检测模型识别出待识别的图像中的手写体区域的范围,根据手写体区域的范围对待识别的图像进行裁剪,得到手写体区域图像,并确定手写体区域图像所属的区域类型;将手写体区域图像输入预建立的手写文字识别模型,以使手写文字识别模型对手写体区域图像中的手写体文字进行识别,得到字符串序列,根据预设置的各区域类型的检测识别信息校验规则对字符串序列的合理性进行校验;若校验通过,则输出字符串序列,实现了对有印刷体与手写体混合排版的图片中的手写体文字的快速和精准识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的手写体文字识别方法流程示意图一;
图2为本发明实施例提供的手写体文字识别方法流程示意图二;
图3为本发明实施例提供的手写体文字识别方法流程示意图三;
图4为本发明实施例提供的手写体文字识别装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在信息化发展改革发展过程中,企业通常将终端人员的业务执行凭证进行拍照图片上传收入系统,在一些需要客户签署信息的行业领域,从纸质凭证中检测识别出基于业务需求的关键信息进行鉴别尤为重要,这样可以验证签署信息的合理性和准确性,以及凭证的有效性。现有技术中的手写体信息识别通常是进行OCR或者是基于附加设备只识别电子签署的手写字信息。然而,使用图片全文OCR识别的方法,很难解决以下问题:在印刷体与手写体混合排版的图片中检测出自定义的手写体区域,并区分出不同手写体区域的信息分类;手写体签署信息简短,且通常存在字符连写模式,需要整体识别出手写体区域包含的字符信息。在有印刷体与手写体混合排版的图片中,由于手写体书写方式,通常不易识别出手写体,且在一些印刷体模版不完全一致的场景下,不易从识别出的全文中解析出手写体信息。另外使用附加设备获取电子签署的方法在一些终端场景存在不适用的问题。
为了解决上述技术问题,本发明实施例提出以下技术方案:通过将待识别的图像先输入预建立的目标检测模型,识别并裁剪得到手写体区域图像以及手写体区域图像的区域类型,再将手写体区域图像输入预建立的手写文字识别模型,手写文字识别模型对手写体区域图像进行整体手写体文字识别,并采用检测识别信息校验规则对识别出的字符进行合理性校验,以实现对手写体文字的快速和精准识别。
下面采用详细的实施例进行详细说明。
图1为本发明实施例提供的手写体文字识别方法流程示意图一,本实施例的执行主体可以为服务器,本实施例此处不做特别限制。如图1所示,该方法包括:
S101:获取待识别的图像。
本实施例中,待识别的图像可以是印刷体与手写体混合排版的图片的图像。
具体地,待识别的图像可以是有手写体文字签署信息的印刷体与手写体混合排版的图片的图像。例如,待识别图像中包含印刷体文字和手写体文字,其中,手写体文字可以包括:签署姓名、签署证件号、签署联系方式、签署行程时间段、签署时间等文字。本实施例中的手写体文字识别方法用于将待识别图像中的手写体文字识别出来。
S102:将待识别的图像输入预建立的目标检测模型,以使目标检测模型识别出待识别的图像中的手写体区域的范围。
本实施例中,预建立的目标检测模型的作用是对待识别的图像中的手写体区域进行识别,识别出待识别图像中手写体区域的范围。
具体地,待识别图像中包括印刷体区域和手写体区域,将待识别的图像输入预建立的目标检测模型,目标检测模型检测的目标为待识别的图像中的手写体区域,通过检测识别得到待识别的图像中的手写体区域的范围。
S103:根据手写体区域的范围对待识别的图像进行裁剪,得到手写体区域图像,并确定手写体区域图像所属的区域类型。
本实施例中,图像裁剪是根据识别出的手写体区域范围对待识别的图像进行裁剪,图像裁剪可以采用现有技术中的图像裁剪方法来实现,例如,可以采用图片格式转换器对图像进行裁剪,或者使用PS等专业的作图工具对图像进行裁剪。此外可以对待识别的图像进行分幅裁剪,图像分幅裁剪分为两种类型:规则分幅裁剪和不规则分幅裁剪。规则分幅裁剪是指裁剪图像的边界范围是一个矩形,通过左上角和右下角两点的坐标,确定图像的裁剪位置。不规则分幅裁剪是指裁剪图像的边界范围是任意多边形,通过事先生成一个完整的闭合多边形区域来确定裁减位置。针对不同的情况采用不同的裁剪过程。对此本实施例不做具体的限制。
本实施例中,手写体区域的区域类型可以是自定义的,例如待识别的图像中的内容包括签署姓名、签署证件号、签署联系方式、签署行程时间段、签署时间等信息时,可以将手写体区域的区域类型定义为:签署姓名区域、签署证件号区域、签署联系方式区域、签署行程时间段区域、签署时间区域等区域类型。本实施例中通过裁剪得到手写体区域图像后,根据手写体区域图像中的内容确定手写体区域图像所属的区域类型。例如,某个手写体区域图像中的内容包括签署姓名,则将该手写体区域图像所属的区域类型确定为签署姓名区域。
S104:将手写体区域图像输入预建立的手写文字识别模型,以使手写文字识别模型对手写体区域图像中的手写体文字进行手写体文字识别,得到字符串序列。
本实施例中,预建立的手写文字识别模型的作用是对步骤S103中得到的手写体区域图像进行识别,将手写体区域图像中的手写体文字识别出来,得到字符串序列。
具体地,预建立的手写文字识别模型可以对各个手写体区域图像中的手写体区域进行整体识别,相比单个字符的切分识别,可以识别手写模式下的字符的连写特征,更准确识别手写体文字的字符。
S105:根据预设置的各区域类型的检测识别信息校验规则对字符串序列的合理性进行校验;若校验通过,则输出字符串序列。
本实施例中,预设置的各区域类型的检测识别信息校验规则可以根据不同的区域类型的业务场景进行设置,用于对识别出的手写体信息的合理性进行校验。
具体地,如步骤102中设定的手写体区域的区域类型可以包括:签署姓名区域、签署证件号区域、签署联系方式区域、签署行程时间段区域、签署时间区域等区域类型。设置以上各区域类型的检测识别信息校验规则时,可以设置签署姓名区域的检测识别信息校验规则为不应包含数字;设置签署证件号区域的检测识别信息校验规则为不应包含汉字且满足第一设定长度;设置签署联系方式区域的检测识别信息校验规则为不应包含汉字且满足第二设定长度。
例如,设置签署证件号区域的检测识别信息校验规则为不应包含汉字且满足设定长度为18位数字。
本实施例中,根据预设置的各区域类型的检测识别信息校验规则对字符串序列的合理性进行校验之后,还包括:
若校验未通过,则输出合理性校验未通过的通知信息。
具体地,根据检测识别信息校验规则对字符串序列的合理性进行校验可以验证出本发明实施例中的手写体文字识别方法从待识别的图像中识别出的字符串序列是否合理,若验证通过则可以将字符串序列输出,若验证不通过则输出合理性校验未通过的通知信息。
下面将以同时包含印刷体文字和手写体文字(其中,手写体文字包括:签署姓名、签署证件号、签署联系方式和签署时间)的待识别的图像为例,阐述手写体文字识别方法的具体步骤如下:
a:获取同时包含印刷体文字和手写体文字的待识别的图像,其中,手写体文字包括:签署姓名、签署证件号、签署联系方式和签署时间。
b:将待识别的图像输入预建立的目标检测模型,目标检测模型识别出待识别的图像中的手写体区域的范围,通过识别得到签署姓名区域的范围、签署证件号区域的范围、签署联系方式区域的范围和签署时间区域的范围。
c:根据步骤b中得到的四个范围,采用PS作图工具对对待识别的图像进行裁剪,裁剪出签署姓名区域的范围图像、签署证件号区域的范围图像、签署联系方式区域的范围图像和签署时间区域的范围图像,共四幅图像。
d:将签署姓名区域的范围图像、签署证件号区域的范围图像、签署联系方式区域的范围图像和签署时间区域的范围图像分别输入预建立的手写文字识别模型,手写文字识别模型分别对上述四幅图像中的手写体文字进行手写体文字识别,得到字符串序列。如对签署姓名区域的范围图像进行识别,得到签署姓名的字符串序列,对签署证件号区域的范围图像进行识别,得到签署证件号的字符串序列。
e:针对签署姓名区域、签署证件号区域、签署联系方式区域和签署时间区域,事先设置针对这四个区域的检测识别信息校验规则。例如,设置签署证件号区域的检测识别信息校验规则为:不应包含汉字且满足设定长度为18位数字。根据上述规则对签署证件号的字符串序列进行校验,如果签署证件号的字符串序列符合校验规则,则校验通过,校验通过后将签署证件号的字符串序列输出。如果签署证件号的字符串序列不符合校验规则,则校验未通过,输出合理性校验未通过的通知信息。
综上,本实施例提供的手写体文字识别方法,通过获取待识别的图像,将待识别的图像输入预建立的目标检测模型,以使目标检测模型识别出待识别的图像中的手写体区域的范围,根据手写体区域的范围对待识别的图像进行裁剪,得到手写体区域图像,并确定手写体区域图像所属的区域类型;将手写体区域图像输入预建立的手写文字识别模型,以使手写文字识别模型对手写体区域图像中的手写体文字进行识别,得到字符串序列,根据预设置的各区域类型的检测识别信息校验规则对字符串序列的合理性进行校验;若校验通过,则输出字符串序列,实现了对有印刷体与手写体混合排版的图片中的手写体文字的快速和精准识别。
图2为本发明实施例提供的手写体文字识别方法流程示意图二。本实施例对图1实施例中的预建立的目标检测模型的建立方法进行了详细说明。如图2所示,该方法包括:
S201:获取预设定区域类型的包含待识别手写体文字的图像作为第一数据集。
本实施例中,预设定区域类型为自定义的,在定义区域类型过程中,需要结合要检验识别的信息内容进行分类,不同信息属性的内容设置一个单独的类别,例如设置待识别的图像的签署姓名、签署证件号、签署联系方式、签署行程时间段、签署时间等信息类别,将预设定区域类型设定为签署姓名区域、签署证件号区域、签署联系方式区域、签署行程时间段区域、签署时间区域等区域类型。
具体地,基于区域类型的分类准备第一数据集的过程包括选定数据集的范围,应当选择一定数量的包含待识别手写体文字的图像,例如10000张包含待识别手写体文字的图像。
S202:对第一数据集中的各包含待识别手写体文字的图像的手写体区域的范围进行标注,并对区域类型进行标注,得到各包含待识别手写体文字的图像的标注信息。
本实施例中,基于步骤S201中预设定的区域类型,利用标注工具对第一数据集中的各包含待识别手写体文字的图像进行区域信息的标定,得到标定信息,标定信息中包含各待识别手写体文字的图像的区域范围和区域类型。
S203:将第一数据集和标注信息输入目标检测算法训练目标检测模型,直至满足收敛条件,得到预建立的目标检测模型。
本实施例中,目标检测算法可以选用现有的可实现改功能的算法框架,如YOLOS、DETR、Faster R-CNN,在此不做限制,在应用时可以根据要检测的区域的特征进行自主选择。
具体地,YOLOS是一个简单、快速、高效的网络,它利用了一个小的特征提取器,以及通过旁路和级联的跳过连接,以及一个重塑直通层来促进跨网络的特征重用,并将低级位置信息与更有意义的高级信息相结合。DETR是基于Transformer的端到端目标检测,整个由网络实现端到端的目标检测实现。Faster R-CNN是将RPN和Fast R-CNN将两个模块结合在一起而形成的统一的目标检测网络,第一个模块用于生成感兴趣区域,第二个模块用于判断目标种类并进行边框回归,因此也成为两阶段目标检测网络。
综上,本实施例提供的手写体文字识别方法,通过获取预设定区域类型的包含待识别手写体文字的图像作为第一数据集,对第一数据集中的各包含待识别手写体文字的图像的区域信息进行标注,得到各包含待识别手写体文字的图像的标注信息,将第一数据集和标注信息输入目标检测算法训练目标检测模型,直至满足收敛条件,得到预建立的目标检测模型,实现了目标检测模型的建立,该目标检测模型可以将待识别的图像中的手写体区域识别出来并识别各手写体区域的区域类型,为待识别的图像中手写体文字的识别打下基础。
图3为本发明实施例提供的手写体文字识别方法流程示意图三;本实施例对图1实施例中的预建立的手写体识别模型的建立方法进行了详细说明。
如图3所示,该方法包括:
S301:获取包含待识别手写体文字的图像作为第二数据集。
本实施例中,第二数据集可以为现有的图像库,图像库中的图像为包含待识别手写体文字的图像。第二数据集中图像数量的数量级应当达到一定的数量级,该数量级可以根据实际情况进行设定,本实施例不做具体的限定。
S302:将第二数据集中的各包含待识别手写体文字的图像中的手写体区域进行裁剪,得到手写体区域图像。
本实施例中,采用现有的图片处理工具将第二数据集中的各个图像进行裁剪,得到手写体区域图像。
S303:标注出各手写体区域中手写体文字的字符串序列。
本实施例中,采用已有数据集字符串序列标签或者人工识别手写体区域图像中包含的手写体文字的字符串序列。
S304:将手写体区域图像和字符串序列输入手写体识别算法训练手写文字识别模型,直至满足收敛条件,得到预建立的手写文字识别模型。
本实施例中,手写体识别算法为基于Transformer编码器-解码器网络结构的算法,Transformer编码器-解码器网络结构包含视觉编码器和文本解码器结构;
相应地,将各区域类型的手写体区域和字符串序列输入手写体识别算法训练手写文字识别模型,包括:
视觉编码器选用预训练的ViT模型参数;
文本解码器选用包含待识别手写体文字的词汇标记器(tokenizer),;其中,视觉编码器的图像特征与文本解码器的文本特征通过注意力机制进行参数拟合训练,注意力机制如下式所示:
其中,Q表示文本解码器的文本标记(token)经过深度网络权重转换获取的状态向量,K、V表示视觉编码器的图像标记经过深度网络权重转换分别获取的状态向量,经过sim函数计算Q,K的相似度作为权重对V进行加权计算获取状态向量P,P经过网络转换输出预测词汇,Q、K、V都经过拟合训练。
具体地,Transformer是一种基于注意力机制的神经网络模型,在自然语言处理领域中表现出色。Transformer模型由编码器encoder和解码器decoder两部分组成,encoder和decoder都由多个层组成,每个层都包含了多头自注意力机制和前馈神经网络。在encoder-decoder结构中,encoder将输入序列编码成一系列特征向量,然后decoder根据这些特征向量生成输出序列。在这个过程中,decoder会使用encoder的输出作为注意力机制的输入,以便更好地理解输入序列的含义。总的来说,Transformer encoder-decoder模型是一种非常强大的神经网络模型,它在机器翻译、文本摘要、对话生成等任务中都表现出了很好的效果。
综上,本实施例提供的手写体文字识别方法,通过获取包含待识别手写体文字的图像作为第二数据集,将第二数据集中的各包含待识别手写体文字的图像中的手写体区域进行裁剪,得到手写体区域图像;标注出各手写体区域中手写体文字的字符串序列;将手写体区域图像和字符串序列输入手写体识别算法训练手写文字识别模型,直至满足收敛条件,得到预建立的手写文字识别模型,实现了手写文字识别模型的建立,该手写文字识别模型可以对目标检测模型识别出的手写体区域图像执行整体识别,相比单个字符的切分识别,该手写文字识别模型可以有效学习手写模式下的字符连写特征,可以更准确和快速识别手写体文字。
图4为本发明实施例提供的手写体文字识别装置的结构示意图。如图4所示,该手写体文字识别装置包括:获取模块401、第一识别模块402、第二识别模块403、设置模块404以及校验模块405。
获取模块401,用于获取待识别的图像。
第一识别模块402,用于将待识别的图像输入预建立的目标检测模型,以使目标检测模型识别出待识别的图像中的手写体区域的范围。
裁剪模块403,用于根据手写体区域的范围对待识别的图像进行裁剪,得到手写体区域图像,并确定手写体区域图像所属的区域类型。
第二识别模块404,用于将手写体区域图像输入预建立的手写文字识别模型,以使手写文字识别模型对手写体区域图像中的手写体文字进行识别,得到字符串序列。
校验模块405,用于根据预设置的各区域类型的检测识别信息校验规则对字符串序列的合理性进行校验;若校验通过,则输出字符串序列。
在一种可能的实现方式中,手写体文字识别装置还包括:第一建立模块406,用于获取预设定区域类型的包含待识别手写体文字的图像作为第一数据集;对第一数据集中的各包含待识别手写体文字的图像的手写体区域的范围进行标注,并对区域类型进行标注,得到各包含待识别手写体文字的图像的标注信息;将第一数据集和标注信息输入目标检测算法训练目标检测模型,直至满足收敛条件,得到预建立的目标检测模型。
在一种可能的实现方式中,手写体文字识别装置还包括:第二建立模块407,用于获取包含待识别手写体文字的图像作为第二数据集;将第二数据集中的各包含待识别手写体文字的图像中的手写体区域进行裁剪,得到手写体区域图像;标注出各手写体区域中手写体文字的字符串序列;将手写体区域图像和字符串序列输入手写体识别算法训练手写文字识别模型,直至满足收敛条件,得到预建立的手写文字识别模型。
在一种可能的实现方式中,手写体识别算法为基于Transformer编码器-解码器网络结构的算法,Transformer编码器-解码器网络结构包含视觉编码器和文本解码器结构。相应地,第二建立模块408,还具体用于视觉编码器选用预训练的ViT模型参数;文本解码器选用包含待识别手写体文字的词汇标记器,用于解码生成包含手写体文字的字符串序列;其中,视觉编码器的图像特征与文本解码器的文本特征通过注意力机制进行参数拟合训练,注意力机制如下式所示:
其中,Q表示文本解码器的文本标记经过深度网络权重转换获取的状态向量,K、V表示视觉编码器的图像标记经过深度网络权重转换分别获取的状态向量,经过sim函数计算Q,K的相似度作为权重对V进行加权计算获取状态向量P,P经过网络转换输出预测词汇,Q、K、V都经过拟合训练。
在一种可能的实现方式中,手写体文字识别装置还包括:输出模块409,用于若校验未通过,则输出合理性校验未通过的通知信息。
本申请实施例提供的手写体文字识别装置,可用于执行上述实施例中手写体文字识别方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块401可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上获取模块401的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
图5为本申请实施例提供的电子设备的结构示意图。如图5所示,该电子设备可以包括:收发器501、处理器502、存储器503。
处理器502执行存储器存储的计算机执行指令,使得处理器502执行上述实施例中的方案。处理器502可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器503通过系统总线与处理器502连接并完成相互间的通信,存储器503用于存储计算机程序指令。
收发器501可以用于获取待运行任务和待运行任务的配置信息。
系统总线可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他计算机(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccess memory,RAM),也可能还包括非易失性存储器(non-volatile memory)。
本申请实施例提供的电子设备,可以是上述实施例的终端设备。
本申请实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中手写体文字识别方法的技术方案。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上述的手写体文字识别方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,其存储在计算机可读存储介质中,至少一个处理器可以从计算机可读存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现上述实施例中手写体文字识别方法的技术方案。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所描述方法的部分步骤。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种手写体文字识别方法,其特征在于,包括:
获取待识别的图像;
将所述待识别的图像输入预建立的目标检测模型,以使所述目标检测模型识别出所述待识别的图像中的手写体区域的范围;
根据手写体区域的范围对所述待识别的图像进行裁剪,得到手写体区域图像,并确定所述手写体区域图像所属的区域类型;
将所述手写体区域图像输入预建立的手写文字识别模型,以使所述手写文字识别模型对所述手写体区域图像中的手写体文字进行识别,得到字符串序列;
根据预设置的各区域类型检测识别信息校验规则对所述字符串序列的合理性进行校验;若校验通过,则输出所述字符串序列。
2.根据权利要求1所述的方法,其特征在于,所述预建立的目标检测模型的建立过程,包括:
获取预设定区域类型的包含待识别手写体文字的图像作为第一数据集;
对所述第一数据集中的各包含待识别手写体文字的图像的手写体区域的范围进行标注,并对区域类型进行标注,得到各包含待识别手写体文字的图像的标注信息;
将所述第一数据集和所述标注信息输入目标检测算法训练目标检测模型,直至满足收敛条件,得到预建立的目标检测模型。
3.根据权利要求1所述的方法,其特征在于,所述预建立的手写体识别模型的建立过程,包括:
获取包含待识别手写体文字的图像作为第二数据集;
将所述第二数据集中的各包含待识别手写体文字的图像中的手写体区域进行裁剪,得到手写体区域图像;
标注出各手写体区域中手写体文字的字符串序列;
将所述手写体区域图像和所述字符串序列输入手写体识别算法训练手写文字识别模型,直至满足收敛条件,得到预建立的手写文字识别模型。
4.根据权利要求3所述的方法,其特征在于,其中,所述手写体识别算法为基于Transformer编码器-解码器网络结构的算法,Transformer编码器-解码器网络结构包含视觉编码器和文本解码器结构;
相应地,所述将所述手写体区域图像和所述字符串序列输入手写体识别算法训练手写文字识别模型,包括:
视觉编码器选用预训练的ViT模型参数;
文本解码器选用包含待识别手写体文字的词汇标记器,用于解码生成包含手写体文字的字符串序列;其中,所述视觉编码器的图像特征与所述文本解码器的文本特征通过注意力机制进行参数拟合训练,所述注意力机制如下式所示:
其中,Q表示所述文本解码器的文本标记经过深度网络权重转换获取的状态向量,K、V表示视觉编码器的图像标记经过深度网络权重转换分别获取的状态向量,经过sim函数计算Q,K的相似度作为权重对V进行加权计算获取状态向量P,P经过网络转换输出预测词汇,Q、K、V都经过拟合训练。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述检测识别信息校验规则对所述字符串序列的合理性进行校验之后,还包括:
若校验未通过,则输出合理性校验未通过的通知信息。
6.一种手写体文字识别装置,其特征在于,包括:
获取模块,用于获取待识别的图像;
第一识别模块,用于将所述待识别的图像输入预建立的目标检测模型,以使所述目标检测模型识别出所述待识别的图像中的手写体区域的范围;
裁剪模块,用于根据手写体区域的范围对所述待识别的图像进行裁剪,得到手写体区域图像,并确定所述手写体区域图像所属的区域类型;
第二识别模块,用于将所述手写体区域图像输入预建立的手写文字识别模型,以使所述手写文字识别模型对所述手写体区域图像中的手写体文字进行手写体文字识别,得到字符串序列;
校验模块,用于根据预设置的各区域类型的检测识别信息校验规则对所述字符串序列的合理性进行校验;若校验通过,则输出所述字符串序列。
7.根据权利要求6所述的装置,其特征在于,还包括:第一建立模块,用于:
获取预设定区域类型的包含待识别手写体文字的图像作为第一数据集;
对所述第一数据集中的各包含待识别手写体文字的图像的手写体区域的范围进行标注,并对区域类型进行标注,得到各包含待识别手写体文字的图像的标注信息;
将所述第一数据集和所述标注信息输入目标检测算法训练目标检测模型,直至满足收敛条件,得到预建立的目标检测模型。
8.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311766365.0A CN117746443A (zh) | 2023-12-20 | 2023-12-20 | 手写体文字识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311766365.0A CN117746443A (zh) | 2023-12-20 | 2023-12-20 | 手写体文字识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117746443A true CN117746443A (zh) | 2024-03-22 |
Family
ID=90257463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311766365.0A Pending CN117746443A (zh) | 2023-12-20 | 2023-12-20 | 手写体文字识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746443A (zh) |
-
2023
- 2023-12-20 CN CN202311766365.0A patent/CN117746443A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200167558A1 (en) | Semantic page segmentation of vector graphics documents | |
TWI766855B (zh) | 一種字符識別方法和裝置 | |
US9626555B2 (en) | Content-based document image classification | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
CN111832382A (zh) | 基于视觉和文本内容的光学字符识别错误校正 | |
JP2019079347A (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
Thammarak et al. | Comparative analysis of Tesseract and Google Cloud Vision for Thai vehicle registration certificate | |
CN113177435A (zh) | 试卷分析方法、装置、存储介质及电子设备 | |
CN116152840A (zh) | 文件分类方法、装置、设备和计算机存储介质 | |
CN112926700B (zh) | 针对目标图像的类别识别方法和装置 | |
CN110796145A (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
WO2022126917A1 (zh) | 基于深度学习的人脸图像评估方法、装置、设备及介质 | |
CN114140649A (zh) | 票据分类方法、票据分类装置、电子设备和存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN117115823A (zh) | 一种篡改识别方法、装置、计算机设备和存储介质 | |
CN112989820B (zh) | 法律文书定位方法、装置、设备及存储介质 | |
CN115578736A (zh) | 证件信息提取方法、装置、存储介质及设备 | |
CN117746443A (zh) | 手写体文字识别方法、装置、设备及存储介质 | |
CN114495108A (zh) | 字符检测方法、装置、电子设备及可读介质 | |
CN114612919A (zh) | 一种票据信息处理系统及方法、装置 | |
JP7322468B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN109902724B (zh) | 基于支持向量机的文字识别方法、装置和计算机设备 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
CN112396057A (zh) | 一种字符识别方法、装置及电子设备 | |
Gayer et al. | Fast and Accurate Deep Learning Model for Stamps Detection for Embedded Devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |