CN115188012A - 文本识别模型更新方法、装置、电子设备及存储介质 - Google Patents
文本识别模型更新方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115188012A CN115188012A CN202210701189.1A CN202210701189A CN115188012A CN 115188012 A CN115188012 A CN 115188012A CN 202210701189 A CN202210701189 A CN 202210701189A CN 115188012 A CN115188012 A CN 115188012A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- text recognition
- recognition model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1916—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
Abstract
本申请实施例公开了一种文本识别模型更新方法、装置、电子设备及存储介质。其中方法包括:电子设备通过对初始图像进行预处理,得到预处理图像;将预处理图像输入至文本识别模型,得到文本识别结果;对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。本申请实施例中,电子设备可以利用识别错误的文本来实现对文本识别模型的自动更新。
Description
技术领域
本申请涉及图像处理技术领域,具体涉及一种文本识别模型更新方法、装置、电子设备及存储介质。
背景技术
随着图形识别技术的发展,目前一些应用可以对图像进行文本识别,从而确定其中的文本信息。目前主要采用的方式是通过预先设置的算法或者模型进行文本识别。
但是预先设置的算法或者模型并不能根据实际的文本识别场景而自我更新,导致对一些文本不能够识别或者识别错误,导致文本识别准确率较低。
发明内容
本申请实施例提供一种文本识别模型更新方法、装置、电子设备及存储介质。该文本识别模型更新方法可以实现文本识别模型的自动更新。
第一方面,本申请实施例提供了一种文本识别模型更新方法,包括:
对初始图像进行预处理,得到预处理图像;
将预处理图像输入至文本识别模型,得到文本识别结果;
对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;
根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。
第二方面,本申请实施例提供了一种文本识别模型更新装置,包括:
预处理模块,用于对初始图像进行预处理,得到预处理图像;
识别模块,用于将预处理图像输入至文本识别模型,得到文本识别结果;
纠错模块,用于对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;
训练模块,用于根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。
第三方面,本申请实施例提供了一种电子设备,包括:存储有可执行程序代码的存储器、与存储器耦合的处理器;处理器调用存储器中存储的可执行程序代码,执行本申请实施例中提供的文本识别模型更新方法中的步骤。
第四方面,本申请实施例提供了一种存储介质,存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例中提供的文本识别模型更新方法中的步骤。
本申请实施例中,电子设备通过对初始图像进行预处理,得到预处理图像;将预处理图像输入至文本识别模型,得到文本识别结果;对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。本申请实施例中,电子设备可以利用识别错误的文本来实现对文本识别模型的自动更新。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本识别模型更新方法的第一流程示意图。
图2是本申请实施例提供的文本识别模型更新方法的第二流程示意图。
图3是本申请实施例提供的文本识别模型更新装置的结构示意图。
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在现有技术中,对于文本识别模型的更新,往往是利用原始模型输出的数据进行人工标注,然后将人工标注的数据输入到原始模型中进行训练,从而实现对的更新,然后将更新后的模型应用于文本识别,但是更新后的模型不能实现自我更新,从而导致文本识别的准确率较差。
但是,在面临多种复杂的文本识别场景时,这些没有自我更新能力的模型往往会存在对部分文本识别不准确的问题,比如对一些图像中的文本识别错误,或者对一些文本识别不全等问题。
为了解决上述技术问题,本申请实施例提供了一种文本识别模型更新方法、装置、电子设备及存储介质。其中,该文本识别模型更新方法可以实现文本识别模型的自动更新。
需要说明的是,本申请中的文本识别模型更新方法可以应用于多种类型的电子设备,比如电脑、智能手机、平板电脑、智能穿戴设备等电子设备。该文本识别模型更新方法可以用于对银行内的金融文件进行文本识别,还可以应用于对个人图像进行文本识别。
请参阅图1,图1是本申请实施例提供的文本识别模型更新方法的第一流程示意图。该文本识别模型更新方法可以包括以下步骤:
110、对初始图像进行预处理,得到预处理图像。
在一些实施方式中,在电子设备得到初始图像后,可以对初始图像进行预处理,从而得到预处理图像,预处理图像更加有利于文本识别模型的识别。初始图像可以是银行业务单、文档、照片等不同类型的图像。
初始图像可以是不同格式类型的图像,比如初始图像可以为pdf格式、peg格式等不同格式的图像。
在一些实施方式中,电子设备可以获取初始图像的文件格式,并将初始图像的文件格式转换为预设文件格式,得到待处理初始图像;然后对待处理初始图像进行预处理,得到预处理图像。
比如,初始图像为pdf格式的图像,可以先将初始图像转换为jpg格式的图像,该jpg格式的图像就是待处理初始图像。
然后,电子设备可以对待处理初始图像的图像方向和图像参数进行调整,得到预处理图像。
具体的,电子设备可以先将待处理初始图像的图像方向调整为预设方向,得到第一图像。比如,电子设备可以对待处理初始图像进行旋转,从而使得待处理初始图像的方向为预设方向,得到第一图像。
其中,图像参数可以包括亮度和对比度,电子设备可以对第一图像的亮度和/或对比度进行调节,得到预处理图像。比如,当第一图像的亮度过亮或者过暗时,不利于文本识别模型对第一图像的识别,此时可以将第一图像的亮度调整为预设的正常亮度,从而更加有利于文本识别模型对文本的识别。
又比如,当第一图像中的文本不够清晰时,可以通过调节对比度来进一步来突出文本和背景之间的区别。例如,第一图像中的背景为白色,文本为黑色,则可以通过调节对比度,使得背景中的白色更白,黑色更黑。
需要说明的是,在本申请实施例中,可以采用单一的方式来对第一图像进行调节,比如只采用亮度调节。还可以采用多种方式来对第一图像进行调节,比如采用对比度和亮度来共同调节图像。
图像参数中还可以包括其他参数,例如锐化程度、色温、颜色等等。电子设备均可以采用多种图像参数来对第一图像进行调节。
在本申请实施例中,通过多种方式来对初始图像进行预处理,得到预处理图像,预处理图像能够更加容易被文本识别模型识别其中的文本内容。
120、将预处理图像输入至文本识别模型,得到文本识别结果。
在得到预处理图像之后,电子设备将预处理图像输入到文本识别模型中,文本识别模型可以对预设图像中的文本内容进行识别,从而得到对应额文本识别结果。
文本识别结果包括具体的文本和文本框信息,其中文本可以是文字、字符、数学公式、化学式等不同文本,文本框信息可以包括文本对应的文本框的长度和宽度,文本框信息还可以包括文本框对应的坐标信息。
例如,在文本识别结果中,文本框的文本框信息可以用boxes:[x,y,w,l]来进行表示,其中,x为以该文本框建立的平面坐标系的横轴坐标,y为以该文本框建立的平面坐标系的纵轴坐标,w为该文本框的宽度,l为该文本框的长度。
文本识别结果还可以包括文本中每个字符对应的字符置信度,比如可以采用confidences:[‘0.3’,’1.0’…]的方式来进行表示,其中0.3对应为第一个字的字符置信度,1.0为第二个字符对应的字符置信度。其中,字符置信度可以理解为识别出的字符的可信程度。
在一些实施方式中,文本识别模型在对预处理图像进行识别的过程中,可以先将预处理图像分割为多个子图像,然后获取每个子图像对应的尺寸信息,比如长度和宽度,然后将该尺寸信息作为每个子图像对应的文本框信息。
在控制文本识别模型识别多个子图像的时候,电子设备可以确定自身的算力,然后根据自身的算力确定文本识别模型可以同时识别的子图像数量,然后控制文本识别模型同时识别多张子图像,从而得到每一子图像对应的文本识别结果。
130、对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果。
在一些实施方式中,文本识别模型对预处理图像识别出的文本识别结果中可能存在错误的文本识别结果。比如,一些文本识别结果中存在文本识别错误,或者一些文本识别结果中存在漏识别等现象。因此,需要对文本识别结果进行纠错处理,从而确定出识别错误的目标文本识别结果。
在一些实施方式中,电子设备可以获取文本识别结果中每一文本框对应的已识别文本和文本框信息;对每一文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本;将目标已识别文本以及目标已识别文本对应的文本框信息作为目标文本识别结果。
例如,在预设处理图像中,文本识别模型确定出了多个文本框区域,每个文本框内均有对应的待识别文本,电子设备可以确定出每一个文本框中对应的已识别文本和对应的文本框信息。
然后电子设备对每一文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本,将目标已识别文本以及目标已识别文本对应的文本框信息作为目标文本识别结果。
具体的,电子设备可以获取每一文本框中已识别文本对应的正确文本,然后将正确文本和已识别文本进行对比,确定出识别错误的目标已识别文本。
例如,一个文本框中的已识别文本为英文字母“O”,而实际上该文本的正确文本为零“0”,电子设备可以将已识别文本和正确文本对比,则确定出该已识别文本为识别错误的目标已识别文本。然后电子设备将目标已识别文本以及目标已识别文本对应的文本框信息作为目标文本识别结果。
在一些实施方式中,电子设备还可以获取每一文本框的已识别文本对应的字符置信度,然后根据字符置信度对已识别文本进行纠错处理,确定出识别错误的目标已识别文本。
例如,在每一个文本框对应的已识别文本均有文本识别模型输出的字符置信度,当某一字符的字符置信度低于预设阈值的时候,则认为该字符可能为识别错误的字符。比如预设阈值为0.8,而某一字符的字符置信度为0.3,则说明该字符可能为识别错误的字符。
当认为文本框中的某些字符可能为错误的字符时,电子设备可以将文本框对应的已识别文本和正确文本进行对比,从而确定出识别错误的目标已识别文本。
140、根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。
在一些实施方式中,在得到目标识别结果之后,电子设备可以自动对目标识别结果进行标注,然后根据标注后的目标文本识别结果输入到文本识别模型中进行训练。
例如,电子设备可以对目标识别结果中的目标已识别文本设置对应的标签,还可以对目标已识别文本对应的正确的文本设置对应的标签。
在一些实施方式中,电子设备可以根据目标识别结果确定每一目标已识别文本对应的正确文本以及文本框信息,然后将文本框信息以及正确文本输入至文本识别模型中进行训练,以得到更新后的文本识别模型。
需要说明的是,本申请实施例中,文本识别模型在对一些图像的文本识别错误时,电子设备可以自动对文本识别模型进行训练,从而得到更新后的文本识别模型,避免了人工线下对文本识别模型进行更新,更新后的文本识别模型在对图像进行文本识别时,能够得到更加准确的文本识别结果。
本申请实施例中,电子设备通过对初始图像进行预处理,得到预处理图像;将预处理图像输入至文本识别模型,得到文本识别结果;对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。本申请实施例中,电子设备可以利用识别错误的文本来实现对文本识别模型的自动更新。更新后的文本识别模型拥有比原文本识别模型更高的识别准确度。
为了更加详细的了解本申请实施例提供的文本识别模型更新方法,请参阅图2,图2是本申请实施例提供的文本识别模型更新方法的第二流程示意图。该文本识别模型更新方法可以包括以下步骤:
201、获取初始图像的文件格式,并将初始图像的文件格式转换为预设文件格式,得到待处理初始图像。
初始图像可以是不同格式类型的图像,比如初始图像可以为pdf格式、peg格式等不同格式的图像。
在一些实施方式中,电子设备可以获取初始图像的文件格式,并将初始图像的文件格式转换为预设文件格式,得到待处理初始图像;然后对待处理初始图像进行预处理,得到预处理图像。
比如,初始图像为pdf格式的图像,可以先将初始图像转换为jpg格式的图像,该jpg格式的图像就是待处理初始图像。
202、对待处理初始图像的图像方向和图像参数进行调整,得到预处理图像。
电子设备可以对待处理初始图像的图像方向和图像参数进行调整,得到预处理图像。
具体的,电子设备可以先将待处理初始图像的图像方向调整为预设方向,得到第一图像。比如,电子设备可以对待处理初始图像进行旋转,从而使得待处理初始图像的方向为预设方向,得到第一图像。
其中,图像参数可以包括亮度和对比度,电子设备可以对第一图像的亮度和/或对比度进行调节,得到预处理图像。比如,当第一图像的亮度过亮或者过暗时,不利于文本识别模型对第一图像的识别,此时可以将第一图像的亮度调整为预设的正常亮度,从而更加有利于文本识别模型对文本的识别。
又比如,当第一图像中的文本不够清晰时,可以通过调节对比度来进一步来突出文本和背景之间的区别。例如,第一图像中的背景为白色,文本为黑色,则可以通过调节对比度,使得背景中的白色更白,黑色更黑。
需要说明的是,在本申请实施例中,可以采用单一的方式来对第一图像进行调节,比如只采用亮度调节。还可以采用多种方式来对第一图像进行调节,比如采用对比度和亮度来共同调节图像。
图像参数中还可以包括其他参数,例如锐化程度、色温、颜色等等。电子设备均可以采用多种图像参数来对第一图像进行调节。
在本申请实施例中,通过多种方式来对初始图像进行预处理,得到预处理图像,预处理图像能够更加容易被文本识别模型识别其中的文本内容。
203、将预处理图像输入至文本识别模型,得到文本识别结果。
在得到预处理图像之后,电子设备将预处理图像输入到文本识别模型中,文本识别模型可以对预设图像中的文本内容进行识别,从而得到对应额文本识别结果。
文本识别结果包括具体的文本和文本框信息,其中文本可以是文字、字符、数学公式、化学式等不同文本,文本框信息可以包括文本对应的文本框的长度和宽度,文本框信息还可以包括文本框对应的坐标信息。
例如,在文本识别结果中,文本框的文本框信息可以用boxes:[x,y,w,l]来进行表示,其中,x为以该文本框建立的平面坐标系的横轴坐标,y为以该文本框建立的平面坐标系的纵轴坐标,w为该文本框的宽度,l为该文本框的长度。
文本识别结果还可以包括文本中每个字符对应的字符置信度,比如可以采用confidences:[‘0.3’,’1.0’…]的方式来进行表示,其中0.3对应为第一个字的字符置信度,1.0为第二个字符对应的字符置信度。其中,字符置信度可以理解为识别出的字符的可信程度。
在一些实施方式中,电子设备可以建立文本框信息、已识别文本和字符置信度三者之间的映射关系,并保存该映射关系。
204、获取文本识别结果中每一文本框对应的已识别文本和文本框信息。
电子设备可以直接在文本识别结果中确定文本框和已识别文本。
205、对每一文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本。
在一些实施方式中,文本识别模型对预处理图像识别出的文本识别结果中可能存在错误的文本识别结果。比如,一些文本识别结果中存在文本识别错误,或者一些文本识别结果中存在漏识别等现象。因此,需要对文本识别结果进行纠错处理,从而确定出识别错误的目标文本识别结果。
例如,在预设处理图像中,文本识别模型确定出了多个文本框区域,每个文本框内均有对应的待识别文本,电子设备可以确定出每一个文本框中对应的已识别文本和对应的文本框信息。
然后电子设备对每一文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本,将目标已识别文本以及目标已识别文本对应的文本框信息作为目标文本识别结果。
具体的,电子设备可以获取每一文本框中已识别文本对应的正确文本,然后将正确文本和已识别文本进行对比,确定出识别错误的目标已识别文本。
例如,一个文本框中的已识别文本为英文字母“O”,而实际上该文本的正确文本为零“0”,电子设备可以将已识别文本和正确文本对比,则确定出该已识别文本为识别错误的目标已识别文本。
又比如,在一些已识别文本中,有部分文本存在漏识别空格字符,从而导致文字重叠在一起,此时,可以将该已识别文本作为目标已识别文本。
又比如,针对于一些证件信息的已识别文本,比如身份证、银行卡等证件的已识别文本,可以将识别的文本和正确的身份证信息或银行卡信息进行比对,如果出现身份证号码或者银行卡号码识别错误的情况,则将该已识别文本作为目标已识别文本。
在一些实施方式中,电子设备还可以根据已识别文本的语义来判断该已识别文本是否为识别错误的目标已识别文本。比如,已识别文本为“夏印件与原件相同”,该已识别文本存在语义不通的问题。实际正确文本为“复印件与原件相同”。则将该已识别文本确定为识别错误的目标已识别文本。
在一些实施方式中,电子设备还可以将每一文本框对应的已识别文本输入到对应的纠错模型中,通过纠错模型来输出识别错误的目标已识别文本。
在一些实施方式中,电子设备还可以获取每一文本框的已识别文本对应的字符置信度,然后根据字符置信度对已识别文本进行纠错处理,确定出识别错误的目标已识别文本。
例如,在每一个文本框对应的已识别文本均有文本识别模型输出的字符置信度,当某一字符的字符置信度低于预设阈值的时候,则认为该字符可能为识别错误的字符。比如预设阈值为0.8,而某一字符的字符置信度为0.3,则说明该字符可能为识别错误的字符。
当认为文本框中的某些字符可能为错误的字符时,电子设备可以将文本框对应的已识别文本和正确文本进行对比,从而确定出识别错误的目标已识别文本。
206、将目标已识别文本以及目标已识别文本对应的文本框信息作为目标文本识别结果。
在得到目标已识别文本之后,电子设备可以将目标已识别文本以及目标已识别文本对应的文本框信息作为目标文本识别结果。
207、根据目标识别结果确定每一目标已识别文本对应的正确文本以及文本框信息。
在一些实施方式中,电子设备根据目标识别结果确定出目标已识别文本,然后通过目标已识别文本确定出其对应的正确文本,最后将目标已识别文本对应的正确文本和文本框信息相关联。电子设备还可以对相关联的正确文本和文本框信息打上对应的标签。
208、将文本框信息以及正确文本输入至文本识别模型中进行训练,以得到更新后的文本识别模型。
需要说明的是,本申请实施例中,文本识别模型在对一些图像的文本识别错误时,电子设备可以自动对文本识别模型进行训练,从而得到更新后的文本识别模型,避免了人工线下对文本识别模型进行更新,更新后的文本识别模型在对图像进行文本识别时,能够得到更加准确的文本识别结果。
在一些应用场景下,比如通过更新后的文本识别模型对银行单据、复印文件的识别,识别出的结果会更加准确,从而保证一些银行人员或者个人的工作正常进行。
在本申请实施例中,电子设备通过获取初始图像的文件格式,并将初始图像的文件格式转换为预设文件格式,得到待处理初始图像。对待处理初始图像的图像方向和图像参数进行调整,得到预处理图像。
然后将预处理图像输入至文本识别模型,得到文本识别结果。再获取文本识别结果中每一文本框对应的已识别文本和文本框信息。对每一文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本。将目标已识别文本以及目标已识别文本对应的文本框信息作为目标文本识别结果。
最后根据目标识别结果确定每一目标已识别文本对应的正确文本以及文本框信息。将文本框信息以及正确文本输入至文本识别模型中进行训练,以得到更新后的文本识别模型。本申请实施例中,电子设备可以利用识别错误的文本来实现对文本识别模型的自动更新。更新后的文本识别模型拥有比原文本识别模型更高的识别准确度。
请参阅图3,图3是本申请实施例提供的文本识别模型更新装置的结构示意图。该文本识别模型更新装置300可以包括:
预处理模块310,用于对初始图像进行预处理,得到预处理图像。
预处理模块310还用于获取初始图像的文件格式,并将初始图像的文件格式转换为预设文件格式,得到待处理初始图像;对待处理初始图像进行预处理,得到预处理图像。
预处理模块310还用于对待处理初始图像的图像方向和图像参数进行调整,得到预处理图像。
图像参数包括亮度、对比度,预处理模块310还用于将待处理初始图像的图像方向调整为预设方向,得到第一图像;对第一图像的亮度和/或对比度进行调节,得到预处理图像。
识别模块320,用于将预处理图像输入至文本识别模型,得到文本识别结果。
纠错模块330,用于对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果。
纠错模块330还用于获取文本识别结果中每一文本框对应的已识别文本和文本框信息;对每一文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本;将目标已识别文本以及目标已识别文本对应的文本框信息作为目标文本识别结果。
纠错模块330还用于获取每一文本框中已识别文本对应的正确文本;将正确文本和已识别文本进行对比,确定出识别错误的目标已识别文本。
纠错模块330还用于获取每一文本框的已识别文本对应的字符置信度;根据字符置信度对已识别文本进行纠错处理,确定出识别错误的目标已识别文本。
训练模块340,用于根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。
训练模块340还用于根据目标识别结果确定每一目标已识别文本对应的正确文本以及文本框信息;将文本框信息以及正确文本输入至文本识别模型中进行训练,以得到更新后的文本识别模型。更新后的文本识别模型拥有比原文本识别模型更高的识别准确度。
本申请实施例中,预处理模块310通过对初始图像进行预处理,得到预处理图像;识别模块320将预处理图像输入至文本识别模型,得到文本识别结果;纠错模块330对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;训练模块340根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。本申请实施例中,电子设备可以利用识别错误的文本来实现对文本识别模型的自动更新。
相应的,本申请实施例还提供一种电子设备,如图4所示,该电子设备可以包括有一个或一个以上计算机可读存储介质的存储器401、输入单元402、显示单元403、传感器404、包括有一个或者一个以上处理核心的处理器405、以及电源406等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
存储器401可用于存储软件程序以及模块,处理器405通过运行存储在存储器401的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器401还可以包括存储器控制器,以提供处理器405和输入单元402对存储器401的访问。
输入单元402可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元402可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器405,并能接收处理器405发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元402还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元403可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元403可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器405以确定触摸事件的类型,随后处理器405根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
电子设备还可包括至少一种传感器404,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
处理器405是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器401内的软件程序和/或模块,以及调用存储在存储器401内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器405可包括一个或多个处理核心;优选的,处理器405可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器405中。
电子设备还包括给各个部件供电的电源406(比如电池),优选的,电源可以通过电源管理系统与处理器405逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源406还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器405会加载存储器401上存储的计算机程序,处理器405通过加载计算机程序,从而实现各种功能:
对初始图像进行预处理,得到预处理图像;
将预处理图像输入至文本识别模型,得到文本识别结果;
对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;
根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种文本识别模型更新方法中的步骤。例如,该指令可以执行如下步骤:
对初始图像进行预处理,得到预处理图像;
将预处理图像输入至文本识别模型,得到文本识别结果;
对文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;
根据目标文本识别结果对文本识别模型进行训练,以得到更新后的文本识别模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本识别模型更新方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本识别模型更新方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本识别模型更新方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种文本识别模型更新方法,其特征在于,包括:
对初始图像进行预处理,得到预处理图像;
将所述预处理图像输入至文本识别模型,得到文本识别结果;
对所述文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;
根据所述目标文本识别结果对所述文本识别模型进行训练,以得到更新后的文本识别模型。
2.根据权利要求1所述的文本识别模型更新方法,其特征在于,所述对初始图像进行预处理,得到预处理图像,包括:
获取所述初始图像的文件格式,并将所述初始图像的文件格式转换为预设文件格式,得到待处理初始图像;
对所述待处理初始图像进行预处理,得到所述预处理图像。
3.根据权利要求2所述的文本识别模型更新方法,其特征在于,所述对所述待处理初始图像进行预处理,得到所述预处理图像,包括:
对所述待处理初始图像的图像方向和图像参数进行调整,得到所述预处理图像。
4.根据权利要求3所述的文本识别模型更新方法,其特征在于,所述图像参数包括亮度、对比度,所述对所述待处理初始图像的图像方向和图像参数进行调整,得到所述预处理图像,包括:
将所述待处理初始图像的图像方向调整为预设方向,得到第一图像;
对所述第一图像的亮度和/或对比度进行调节,得到所述预处理图像。
5.根据权利要求1所述的文本识别模型更新方法,其特征在于,所述对所述文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果,包括:
获取所述文本识别结果中每一文本框对应的已识别文本和文本框信息;
对每一所述文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本;
将所述目标已识别文本以及所述目标已识别文本对应的文本框信息作为所述目标文本识别结果。
6.根据权利要求5所述的文本识别模型更新方法,其特征在于,所述对每一所述文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本,包括:
获取每一所述文本框中已识别文本对应的正确文本;
将所述正确文本和所述已识别文本进行对比,确定出识别错误的目标已识别文本。
7.根据权利要求5所述的文本识别模型更新方法,其特征在于,所述对每一所述文本框对应的已识别文本进行纠错处理,确定出识别错误的目标已识别文本,包括:
获取每一所述文本框的已识别文本对应的字符置信度;
根据所述字符置信度对所述已识别文本进行纠错处理,确定出识别错误的目标已识别文本。
8.根据权利要求5所述的文本识别模型更新方法,其特征在于,所述根据所述目标文本识别结果对所述文本识别模型进行训练,以得到更新后的文本识别模型,包括:
根据所述目标识别结果确定每一所述目标已识别文本对应的正确文本以及文本框信息;
将所述文本框信息以及所述正确文本输入至所述文本识别模型中进行训练,以得到所述更新后的文本识别模型。
9.一种文本识别模型更新装置,其特征在于,包括:
预处理模块,用于对初始图像进行预处理,得到预处理图像;
识别模块,用于将所述预处理图像输入至文本识别模型,得到文本识别结果;
纠错模块,用于对所述文本识别结果进行纠错处理,确定出识别错误的目标文本识别结果;
训练模块,用于根据所述目标文本识别结果对所述文本识别模型进行训练,以得到更新后的文本识别模型。
10.一种电子设备,其特征在于,包括:
存储有可执行程序代码的存储器、与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1至8任一项所述的文本识别模型更新方法中的步骤。
11.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的文本识别模型更新方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701189.1A CN115188012A (zh) | 2022-06-20 | 2022-06-20 | 文本识别模型更新方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701189.1A CN115188012A (zh) | 2022-06-20 | 2022-06-20 | 文本识别模型更新方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115188012A true CN115188012A (zh) | 2022-10-14 |
Family
ID=83516370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210701189.1A Pending CN115188012A (zh) | 2022-06-20 | 2022-06-20 | 文本识别模型更新方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115188012A (zh) |
-
2022
- 2022-06-20 CN CN202210701189.1A patent/CN115188012A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3712805B1 (en) | Gesture recognition method, device, electronic device, and storage medium | |
KR102240279B1 (ko) | 컨텐트 처리 방법 및 그 전자 장치 | |
US20190065476A1 (en) | Method and apparatus for translating text displayed on display | |
CN109684980B (zh) | 自动阅卷方法及装置 | |
CN107395871B (zh) | 一种开启应用的方法、装置、存储介质及终端 | |
CN111353458B (zh) | 文本框标注方法、装置和存储介质 | |
KR102546510B1 (ko) | 복수의 입력 간에 매핑된 정보 제공 방법 및 이를 지원하는 전자 장치 | |
US20150227852A1 (en) | Data processing device | |
CN111061383A (zh) | 文字检测方法及电子设备 | |
US20240045587A1 (en) | Electronic device and method for processing handwriting input thereof | |
US10909412B2 (en) | Electronic device and control method thereof | |
KR102147086B1 (ko) | 필기 서명 입력에 대한 검증 방법 및 장치 | |
KR102621809B1 (ko) | 저전력 상태에서 디스플레이를 통해 화면을 표시하기 위한 전자 장치 및 그의 동작 방법 | |
CN111598149A (zh) | 一种基于注意力机制的回环检测方法 | |
US20150169214A1 (en) | Graphical input-friendly function selection | |
CN115187988A (zh) | 区域文本识别方法、装置、电子设备及存储介质 | |
CN115188001A (zh) | 手写文本的识别方法、装置、电子设备及存储介质 | |
CN115187987A (zh) | 特殊区域外文本识别方法、装置、电子设备及存储介质 | |
CN115188003A (zh) | 基于模型的文本识别方法、装置、电子设备及存储介质 | |
CN115188012A (zh) | 文本识别模型更新方法、装置、电子设备及存储介质 | |
JP5330576B1 (ja) | 情報処理装置および筆跡検索方法 | |
US11482024B2 (en) | Electronic device and method for processing writing input | |
KR102570007B1 (ko) | 필기 입력을 보정하는 방법 및 전자 장치 | |
CN111796980B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN115187986A (zh) | 文本识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |