CN112613510B - 图片预处理方法、文字识别模型训练方法和文字识别方法 - Google Patents
图片预处理方法、文字识别模型训练方法和文字识别方法 Download PDFInfo
- Publication number
- CN112613510B CN112613510B CN202011573687.XA CN202011573687A CN112613510B CN 112613510 B CN112613510 B CN 112613510B CN 202011573687 A CN202011573687 A CN 202011573687A CN 112613510 B CN112613510 B CN 112613510B
- Authority
- CN
- China
- Prior art keywords
- picture
- processed
- input
- expansion
- column number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000012549 training Methods 0.000 title claims abstract description 65
- 238000007781 pre-processing Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010008 shearing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本申请提供了一种图片预处理方法、文字识别模型训练方法和文字识别方法,其中,该方法包括:获取待处理图片,该待处理图片为用于输入卷积循环神经网络模型中进行处理的图片,该卷积循环神经网络模型使用的损失函数为CTC损失函数;根据该卷积循环网络模型确定出每一输出值对应的输入像素数量,根据该输入像素数量对该待处理图片进行像素扩充,以得到扩充图片。能够使得基于处理后的图像训练得到的图像识别模型对图片的识别准确度更高、泛化能力更好。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种图片预处理方法、文字识别模型训练方法和文字识别方法。
背景技术
目前较多领域中都采用了计算机自动识别的方式对采集到的图片中的文字进行识别。例如,在车库管理系统,则通过采集到的车牌的图片实现对车牌号码的提取。
但是针对不同的识别场景,对图片文字的要求不同,目前相机采集到的图片是随机尺寸,可能导致采集到的图片不能够满足文字识别模型的处理需求。
发明内容
本申请的目的在于提供一种图片预处理方法、文字识别模型训练方法和文字识别方法,能够解决各异的图片不能够满足图像识别模型的处理需求的问题。
第一方面,本发明提供一种图片预处理方法,包括:
获取待处理图片,所述待处理图片为用于输入卷积循环神经网络模型中进行处理的图片,所述卷积循环神经网络模型使用的损失函数为CTC损失函数;
根据所述卷积循环网络模型确定出每一输出值对应的输入像素数量;
根据所述输入像素数量对所述待处理图片进行像素扩充,以得到扩充图片。
在可选的实施方式中,所述根据所述输入像素数量对所述待处理图片进行像素扩充,以得到扩充图片,包括:
根据所述输入像素数量确定出第一目标扩充列数,所述第一目标扩充列数小于所述输入像素数量;
以所述待处理图片第一边缘为起点,向所述待处理图片的第一边扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
在可选的实施方式中,所述以所述待处理图片第一边缘为起点,向所述待处理图片的第一边扩充所述第一目标扩充列数的列像素,以得到所述扩充图片,包括:
以所述待处理图片第一边缘为起点,向所述待处理图片的第一边以所述待处理图片的背景的像素点作为扩充像素点,扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
在可选的实施方式中,所述以所述待处理图片第一边缘为起点,向所述待处理图片的第一边扩充所述第一目标扩充列数的列像素,以得到所述扩充图片,包括:
以所述待处理图片第一边缘为起点,向所述待处理图片的第一边以所述待处理图片的第一边缘的像素点作为扩充像素点,扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
在上述实施方式中,使用背景的像素点或边缘像素点对图片进行扩充,可以减少针对扩充像素的选取处理,也使扩充图片能够更符合待处理图片的原始状态。
在可选的实施方式中,所述根据所述输入像素数量对所述待处理图片进行像素扩充,包括:
根据预设的图片剪切方式,确定出对所述待处理图片的剪切起点;
根据所述剪切起点和所述输入像素数量确定出第二目标扩充列数,所述第二目标扩充列数小于所述输入像素数量;
以所述待处理图片的剪切起点为扩充起点,向所述待处理图片的第一边扩充第二目标扩充列数的列像素,以得到所述扩充图片,所述第二目标扩充列数小于所述输入像素数量。
在上述实施方式中,根据不同的切割起点,可以采用不同的扩充方式,从而可以适应待处理图片以及不同图片识别模型的需求。
在可选的实施方式中,所述根据所述剪切起点和所述输入像素数量确定出第二目标扩充列数,包括:
根据所述剪切起点确定出所述待处理图片的有效像素列数;
根据所述有效像素列数以及所述输入像素数量,确定出所述第二目标扩充列数。
在上述实施方式中,通过剪切点的不同,确定出待处理图片中需要处理区域中的有效像素列数,以基于该有效像素列数进行扩充,从而可以使确定出的扩充图片能够满足切割需求。
第二方面,本发明提供一种文字识别模型训练方法,包括:
使用前述实施方式任意一项所述的图片预处理方法对训练数据集中的各个图片进行处理,得到的扩充训练图片集;
使用所述扩充训练图片集对初始识别模型进行训练,以得到文字识别模型,所述初始识别模型为一卷积循环神经网络模型。
第三方面,本发明提供一种文字识别方法,包括:
使用前述实施方式任意一项所述的图片预处理方法对待识别图片进行处理,得到的扩充识别图片;
将所述扩充识别图片输入前述实施方式所述的文字识别模型训练方法训练得到的文字识别模型进行识别,以得到文字识别结果。
第四方面,本发明提供一种图片预处理装置,包括:
第一确定模块,用于获取待处理图片,所述待处理图片为用于输入卷积循环神经网络模型中进行处理的图片,所述卷积循环神经网络模型使用的损失函数为CTC损失函数;
第二确定模块,用于根据所述卷积循环网络模型确定出每一输出值对应的输入像素数量;
第一扩充模块,用于根据所述输入像素数量对所述待处理图片进行像素扩充,以得到扩充图片。
第五方面,本发明提供一种文字识别模型训练装置,包括:
第二扩充模块,用于使用前述实施方式任意一项所述的图片预处理方法对训练数据集中的各个图片进行处理,得到的扩充训练图片集;
训练模块,用于使用所述扩充训练图片集对初始识别模型进行训练,以得到文字识别模型,所述初始识别模型为一卷积循环神经网络模型。
第六方面,本发明提供一种文字识别装置,包括:
第三扩充模块,用于使用前述实施方式任意一项所述的图片预处理方法对待识别图片进行处理,得到的扩充识别图片;
识别模块,用于将所述扩充识别图片输入前述实施方式所述的文字识别模型训练方法训练得到的文字识别模型进行识别,以得到文字识别结果。
第七方面,本发明提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。
第八方面,本发明提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。
本申请实施例的有益效果是:通过将待处理图片按照需求进行扩充,从而可以使扩充后的图片能够使基于卷积循环神经网络模型对图片的切分结果可以更多样,以满足具体的文字识别场景的模型训练的训练集中的图片需求。能够使基于处理后的图像训练得到的图像识别模型对图片的识别准确度更高和泛化能力更好。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图。
图2为本申请实施例提供的图片预处理方法的流程图。
图3为本申请实施例提供的图片预处理装置的功能模块示意图。
图4为本申请实施例提供的文字识别模型训练方法的流程图。
图5为本申请实施例提供的文字识别模型训练装置的功能模块示意图。
图6为本申请实施例提供的文字识别方法的流程图。
图7为本申请实施例提供的文字识别装置的功能模块示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
由于人工智能的普及,目前很多领域都采用了机器识别的方式,以减少所需的人力资源。例如,在图形领域中,通过图像识别以提取图像中的文字信息也得到了普遍的应用。例如,车牌信息提取,包括车牌定位和车牌识别。而图像中的文字提取的主要工作流程,包括文字检测和文字识别。
目前由于深度学习的普及,也产生了一些新的文字识别的方式,例如,长短期记忆人工神经网络(Long Short-Term Memory,LSTM),连接时间分类(Connectionist TemporalClassification,CTC)损失函数等新的方法。上述文字识别的方式,概括为:检测一行文字,然后对一行文字进行识别。则可以减少对每个字符标注的繁琐工作。其中,长短期记忆人工神经网络包括:卷积循环神经网络模型(convolution recurrent neural network,CRNN)。该卷积循环神经网络模型的文字图片的处理流程为:将一行文字图片输入卷积循环神经网络模型中,该文字图片目标标签是该行文字,该输入卷积循环神经网络模型对输入的一行文字图片划分成指定宽度的图片格,每个图片格预测一个字符,最后将所有图片格预测的字符合并则可以得到一行文字图片的识别结果。
基于上述研究,对于训练图像集的不同需求,本申请提供一种图片预处理方法、文字识别模型训练方法和文字识别方法,基于图片的预处理,能够使图片能够满足模型的训练或识别的需求。
实施例一
为便于对本实施例进行理解,首先对执行本申请实施例所公开的图片预处理方法、文字识别模型训练方法和文字识别方法的电子设备进行详细介绍。
如图1所示,是电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中,外设接口114,处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
上述的输入输出单元115用于提供给用户输入数据。所述输入输出单元115可以是,但不限于,鼠标和键盘等。
上述的显示单元116在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例描述图片预处理方法、文字识别模型训练方法和文字识别方法的实现过程。
实施例二
请参阅图2,是本申请实施例提供的图片预处理方法的流程图。下面将对图2所示的具体流程进行详细阐述。
步骤201,获取待处理图片。
本实施例中,上述待处理图片为用于输入卷积循环神经网络模型中进行处理的图片,所述卷积循环神经网络模型使用的损失函数为CTC损失函数。
可选地,可以是未被训练的原始模型,也可以是已经训练得到的可以识别图片中的字符的识别模型。
示例性地,该待处理图片可以是用于训练原始模型的训练数据集中的一张图片,也可以是待识别其中的文字信息的一张图。
可选地,若本实施例中的图片预处理方法用在模型的训练之前中,则待处理图片可以从训练数据集中获取待处理图片。
可选地,若本实施例中的图片预处理方法用在对特定场景中的图像进行文字识别之前中,则待处理图片可以通过摄像头采集得到。例如,本实施例中的图片预处理方法用在车库出入口的车牌识别系统中,用于识别进出车辆的车牌信息。则步骤201可以通过车库出入口的采集设备采集出入车辆得到。
步骤202,根据所述卷积循环网络模型确定出每一输出值对应的输入像素数量。
本实施例中,该卷积循环网络模型可以对输入的图片划分成指定宽度的图片格。
在一个实例中,CTC函数参数中有输入序列的长度T,例如,该指定输入长度为图片宽度/8,那么对应卷积循环网络模型的输出序列长度为T=图片宽度/8。也就是输入图片每8个像素输出一个预测值。在此实例中,则该输入像素数量则为8。当然根据CTC函数的需求不同,确定出的输入像素数量也就不同
步骤203,根据所述输入像素数量对所述待处理图片进行像素扩充,以得到扩充图片。
在一种实施方式中,若不需要对待处理图片进行剪切,则可以从图片的边缘进行扩充。步骤203可以包括:
步骤2031,根据所述输入像素数量确定出第一目标扩充列数。
第一目标扩充列数小于所述输入像素数量。
可选地,第一目标扩充列数可以是小于输入像素数量的任意一个数或多个数。
步骤2032,以所述待处理图片第一边缘为起点,向所述待处理图片的第一边扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
可选地,第一目标扩充列数也可以是小于输入像素数量的全部数,则可以根据第一目标扩充列数对待处理图片进行扩充,则可以得到N-1张扩充图片。其中,N等于输入像素数量。
可选地,第一目标扩充列数也可以是小于输入像素数量的随机一个数,则可以根据第一目标扩充列数对待处理图片进行扩充,则可以得到一张扩充图片。
在一种实施方式中,步骤2032可以包括:以所述待处理图片第一边缘为起点,向所述待处理图片的第一边以所述待处理图片的背景的像素点作为扩充像素点,扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
例如,以所述待处理图片左边缘为起点,向所述待处理图片的左边缘以所述待处理图片的背景的像素点作为扩充像素点,扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
示例性地,该第一边缘可以是待处理图片的左边缘,则第一边为左边。则可以将待处理图片以所述待处理图片的背景的像素点作为扩充像素点,向左边扩充第一目标扩充列数的列像素,以得到所述扩充图片。例如,当前待处理图片为k列像素,第一目标扩充列数为l,则经过扩充处理可以得到包括k+l列像素的扩充图片,然后去掉最后一列,还保持宽度不变。其中,k、l为正整数。
示例性地,该第一边缘可以是待处理图片的右边缘,则第一边为右边。则可以将待处理图片以所述待处理图片的背景的像素点作为扩充像素点,向右边扩充第一目标扩充列数的列像素,以得到所述扩充图片。
可选地,背景像素点可以是待处理图片中占比最大的像素点。
可选地,背景像素点也可以是待处理图片的指定比例的边缘中占比最大的像素点。例如,获取待处理图片左边缘或右边缘的五分之一部分图像,该左边缘或右边缘的五分之一部分图像中占比最大的像素点则为背景像素点。
在另一种实施方式中,步骤2032可以包括:以所述待处理图片第一边缘为起点,向所述待处理图片的第一边以所述待处理图片的第一边缘的像素点作为扩充像素点,扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
在另一种实施方式中,步骤203可以包括以下步骤。
步骤2033,根据预设的图片剪切方式,确定出对所述待处理图片的剪切起点。
可选地,剪切方式可以是从图片左起第M个像素点进行剪切,则剪切切点则可以左起第M个像素点。
步骤2034,根据所述剪切起点和所述输入像素数量确定出第二目标扩充列数。
第二目标扩充列数小于所述输入像素数量。
可选地,第二目标扩充列数也可以小于剪切起点至待处理图片的第二边缘的像素点数量。示例性地,该第二边缘为离该剪切起点最近的边缘。
可选地,可以先根据所述剪切起点确定出所述待处理图片的有效像素列数;根据所述有效像素列数以及所述输入像素数量,确定出所述第二目标扩充列数。
示例性地,当需要扩充一个像素列数为输入像素数量整数倍的图片时,则可以根据有效像素列数与输入像素数量,计算得到有效像素列数相对于输入像素数量的余数,将该余数作为第二目标扩充列数。
示例性地,当需要扩充一个像素列数比输入像素数量整数倍还多指定数量列像素的图片时,则可以根据有效像素列数与输入像素数量,计算得到有效像素列数相对于输入像素数量的余数,根据该余数确定出第二目标扩充列数。该指定数量为小于输入像素数量的正整数。
步骤2035,以所述待处理图片的剪切起点为扩充起点,向所述待处理图片的第一边扩充第二目标扩充列数的列像素,以得到所述扩充图片,所述第二目标扩充列数小于所述输入像素数量。
可选地,该扩充图片的列数可以是输入像素数量的整数倍。
可选地,该扩充图片的列数与输入像素数量的余数也可以是小于输入像素数量的非零数。
本实施例中,若图片预处理方法用于处理需要识别的图片时,则可以将预处理后的图片输入训练好的模型中进行识别。
本实施例中,若图片预处理方法用于处理训练数据集中的图片时,则可以将预处理后的图片输入初始模型中进行处理。
在本申请实施例提供的图片预处理方法中,通过将待处理图片按照需求进行扩充,从而可以使扩充后的图片能够使基于卷积循环神经网络模型对图片的切分结果可以更多样,以满足具体的文字识别场景的模型训练的训练集中的图片需求。能够使基于处理后的图像训练得到的图像识别模型对图片的识别准确度更高和泛化能力更好。
实施例三
基于同一申请构思,本申请实施例中还提供了与图片预处理方法对应的图片预处理装置,由于本申请实施例中的装置解决问题的原理与前述的图片预处理方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图3,是本申请实施例提供的图片预处理装置的功能模块示意图。本实施例中的图片预处理装置中的各个模块用于执行上述方法实施例中的各个步骤。图片预处理装置包括:第一确定模块301、第二确定模块302以及第一扩充模块303;其中,
第一确定模块301,用于获取待处理图片,所述待处理图片为用于输入卷积循环神经网络模型中进行处理的图片,所述卷积循环神经网络模型使用的损失函数为CTC损失函数;
第二确定模块301,用于根据所述卷积循环网络模型确定出每一输出值对应的输入像素数量;
第一扩充模块303,用于根据所述输入像素数量对所述待处理图片进行像素扩充,以得到扩充图片。
一种可能的实施方式中,第一扩充模块303,包括:第一确定单元和第一扩充单元。
第一确定单元,用于根据所述输入像素数量确定出第一目标扩充列数,所述第一目标扩充列数小于所述输入像素数量;
第一扩充单元,用于以所述待处理图片第一边缘为起点,向所述待处理图片的第一边扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
一种可能的实施方式中,第一扩充单元,用于:
以所述待处理图片第一边缘为起点,向所述待处理图片的第一边以所述待处理图片的背景的像素点作为扩充像素点,扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
一种可能的实施方式中,第一扩充单元,用于:
以所述待处理图片第一边缘为起点,向所述待处理图片的第一边以所述待处理图片的第一边缘的像素点作为扩充像素点,扩充所述第一目标扩充列数的列像素,以得到所述扩充图片。
一种可能的实施方式中,第一扩充模块303,包括:起点确定单元、第二确定单元和第二扩充单元。
起点确定单元,用于根据预设的图片剪切方式,确定出对所述待处理图片的剪切起点;
第二确定单元,用于根据所述剪切起点和所述输入像素数量确定出第二目标扩充列数,所述第二目标扩充列数小于所述输入像素数量;
第二扩充单元,用于以所述待处理图片的剪切起点为扩充起点,向所述待处理图片的第一边扩充第二目标扩充列数的列像素,以得到所述扩充图片,所述第二目标扩充列数小于所述输入像素数量。
一种可能的实施方式中,第二扩充单元,用于:
根据所述剪切起点确定出所述待处理图片的有效像素列数;
根据所述有效像素列数以及所述输入像素数量,确定出所述第二目标扩充列数。
实施例四
请参阅图4,是本申请实施例提供的文字识别模型训练方法的流程图。下面将对图4所示的具体流程进行详细阐述。
步骤401,使用图片预处理方法对训练数据集中的各个图片进行处理,得到的扩充训练图片集。
本实施例中所使用的图片预处理方法可以是实施例二提供的图片预处理方法。
步骤402,使用所述扩充训练图片集对初始识别模型进行训练,以得到文字识别模型。
本实施例中,该初始识别模型可以为一卷积循环神经网络模型。
实施例五
基于同一申请构思,本申请实施例中还提供了与文字识别模型训练方法对应的文字识别模型训练装置,由于本申请实施例中的装置解决问题的原理与前述的文字识别模型训练方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图5,是本申请实施例提供的文字识别模型训练装置的功能模块示意图。本实施例中的文字识别模型训练装置中的各个模块用于执行上述方法实施例中的各个步骤。文字识别模型训练装置包括:第二扩充模块501和训练模块502;其中,
第二扩充模块501,用于使用前述实施方式任意一项所述的图片预处理方法对训练数据集中的各个图片进行处理,得到的扩充训练图片集;
训练模块502,用于使用所述扩充训练图片集对初始识别模型进行训练,以得到文字识别模型,所述初始识别模型为一卷积循环神经网络模型。
实施例六
请参阅图6,是本申请实施例提供的文字识别方法的流程图。下面将对图6所示的具体流程进行详细阐述。
步骤601,使用图片预处理方法对待识别图片进行处理,得到的扩充识别图片。
可选地,当待识别图片输入文字识别模型进行识别后得到的结果未满足预期,则可以将待处理图片进行扩充处理。
可选地,当待识别图片输入文字识别模型进行识别后得到的结果未满足预期,也可以对待识别图片进行剪切。
本实施例中所使用的图片预处理方法可以是实施例二提供的图片预处理方法。
步骤602,将所述扩充识别图片输入上述的文字识别模型训练方法训练得到的文字识别模型进行识别,以得到文字识别结果。
在上述实施方式中,通过调整待识别图片的剪切起点,从而可以改变识别图片的尺寸,像素数量等,从而可以提高图片识别的有效性。
实施例七
基于同一申请构思,本申请实施例中还提供了与文字识别方法对应的文字识别装置,由于本申请实施例中的装置解决问题的原理与前述的文字识别方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图7,是本申请实施例提供的文字识别装置的功能模块示意图。本实施例中的文字识别装置中的各个模块用于执行上述方法实施例中的各个步骤。文字识别装置包括:第三扩充模块701和识别模块702;其中,
第三扩充模块701,用于使用前述实施方式任意一项所述的图片预处理方法对待识别图片进行处理,得到的扩充识别图片;
识别模块702,用于将所述扩充识别图片输入前述实施方式所述的文字识别模型训练方法训练得到的文字识别模型进行识别,以得到文字识别结果。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的图片预处理方法或文字识别模型训练方法或文字识别方法的步骤。
本申请实施例所提供的图片预处理方法、文字识别模型训练方法和文字识别方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的图片预处理方法或文字识别模型训练方法或文字识别方法的步骤,具体可参见上述方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (5)
1.一种图片预处理方法,其特征在于,包括:
获取待处理图片,所述待处理图片为用于输入卷积循环神经网络模型中进行处理的图片,所述卷积循环神经网络模型使用的损失函数为CTC损失函数;
根据所述卷积循环神经网络模型确定出每一输出值对应的输入像素数量,包括:根据所述CTC损失函数参数中输入序列的长度和指定宽度,确定出输入像素数量,其中,所述指定宽度为所述卷积循环网络模型输入的图片划分成的指定宽度;
根据所述输入像素数量对所述待处理图片进行像素扩充,以得到扩充图片;
所述根据所述输入像素数量对所述待处理图片进行像素扩充,包括:
根据预设的图片剪切方式,确定出对所述待处理图片的剪切起点;
根据所述剪切起点确定出所述待处理图片的有效像素列数;根据所述有效像素列数以及所述输入像素数量,确定出第二目标扩充列数;
所述第二目标扩充列数小于所述输入像素数量;以所述待处理图片的剪切起点为扩充起点,向所述待处理图片的第一边扩充第二目标扩充列数的列像素,以得到所述扩充图片;
所述根据所述有效像素列数以及所述输入像素数量,确定出所述第二目标扩充列数,包括:
在需要扩充一个像素列数为所述输入像素数量整数倍的图片的情况下,或者,在需要扩充一个像素列数比所述输入像素数量整数倍多指定数量列像素的图片的情况下,根据所述有效像素列数与所述输入像素数量,计算所述有效像素列数相对于所述输入像素数量的余数,根据所述余数确定所述第二目标扩充列数。
2.一种文字识别模型训练方法,其特征在于,包括:
使用权利要求1所述的图片预处理方法对训练数据集中的各个图片进行处理,得到的扩充训练图片集;
使用所述扩充训练图片集对初始识别模型进行训练,以得到文字识别模型,所述初始识别模型为一卷积循环神经网络模型。
3.一种文字识别模型训练方法,其特征在于,包括:
使用权利要求1所述的图片预处理方法对待识别图片进行处理,得到的扩充识别图片;
将所述扩充识别图片输入权利要求2所述的文字识别模型训练方法训练得到的文字识别模型进行识别,以得到文字识别结果。
4.一种图片预处理装置,其特征在于,包括:
第一确定模块,用于获取待处理图片,所述待处理图片为用于输入卷积循环神经网络模型中进行处理的图片,所述卷积循环神经网络模型使用的损失函数为CTC损失函数;
第二确定模块,用于根据所述卷积循环网络模型确定出每一输出值对应的输入像素数量;
第一扩充模块,用于根据所述输入像素数量对所述待处理图片进行像素扩充,以得到扩充图片;
所述第二确定模块,还用于根据所述CTC损失函数参数中输入序列的长度和指定宽度,确定出输入像素数量,其中,所述指定宽度为所述卷积循环网络模型输入的图片划分成的指定宽度;
所述第一扩充模块,还用于根据预设的图片剪切方式,确定出对所述待处理图片的剪切起点;根据所述剪切起点确定出所述待处理图片的有效像素列数;根据所述有效像素列数以及所述输入像素数量,确定出第二目标扩充列数;所述第二目标扩充列数小于所述输入像素数量;以所述待处理图片的剪切起点为扩充起点,向所述待处理图片的第一边扩充第二目标扩充列数的列像素,以得到所述扩充图片;
所述第一扩充模块,还用于在需要扩充一个像素列数为所述输入像素数量整数倍的图片的情况下,或者,在需要扩充一个像素列数比所述输入像素数量整数倍多指定数量列像素的图片的情况下,根据所述有效像素列数与所述输入像素数量,计算所述有效像素列数相对于所述输入像素数量的余数,根据所述余数确定所述第二目标扩充列数。
5.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至3任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573687.XA CN112613510B (zh) | 2020-12-25 | 2020-12-25 | 图片预处理方法、文字识别模型训练方法和文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573687.XA CN112613510B (zh) | 2020-12-25 | 2020-12-25 | 图片预处理方法、文字识别模型训练方法和文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613510A CN112613510A (zh) | 2021-04-06 |
CN112613510B true CN112613510B (zh) | 2023-10-31 |
Family
ID=75248046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011573687.XA Active CN112613510B (zh) | 2020-12-25 | 2020-12-25 | 图片预处理方法、文字识别模型训练方法和文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613510B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392780B (zh) * | 2021-06-17 | 2022-04-19 | 南开大学 | 一种面向ai识别汉字的文字图像扭曲变形方法 |
CN118172788B (zh) * | 2024-05-15 | 2024-07-16 | 中国人民解放军总医院第八医学中心 | 一种卡介苗接种记录ocr智能识别及管理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557768A (zh) * | 2016-11-25 | 2017-04-05 | 北京小米移动软件有限公司 | 对图片中的文字进行识别的方法及装置 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110175603A (zh) * | 2019-04-01 | 2019-08-27 | 佛山缔乐视觉科技有限公司 | 一种雕刻文字识别方法、系统及存储介质 |
CN110363252A (zh) * | 2019-07-24 | 2019-10-22 | 山东大学 | 趋向于端到端的场景文字检测与识别方法以及系统 |
CN110414519A (zh) * | 2019-06-27 | 2019-11-05 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置 |
CN111695385A (zh) * | 2019-03-15 | 2020-09-22 | 杭州海康威视数字技术股份有限公司 | 文本识别方法、装置及设备 |
-
2020
- 2020-12-25 CN CN202011573687.XA patent/CN112613510B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557768A (zh) * | 2016-11-25 | 2017-04-05 | 北京小米移动软件有限公司 | 对图片中的文字进行识别的方法及装置 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN111695385A (zh) * | 2019-03-15 | 2020-09-22 | 杭州海康威视数字技术股份有限公司 | 文本识别方法、装置及设备 |
CN110175603A (zh) * | 2019-04-01 | 2019-08-27 | 佛山缔乐视觉科技有限公司 | 一种雕刻文字识别方法、系统及存储介质 |
CN110414519A (zh) * | 2019-06-27 | 2019-11-05 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置 |
CN110363252A (zh) * | 2019-07-24 | 2019-10-22 | 山东大学 | 趋向于端到端的场景文字检测与识别方法以及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112613510A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106940799B (zh) | 文本图像处理方法和装置 | |
CN107358149B (zh) | 一种人体姿态检测方法和装置 | |
US20220058812A1 (en) | Target recognition method and appartus, storage medium, and electronic device | |
US11093789B2 (en) | Method and apparatus for object re-identification | |
CN109145867B (zh) | 人体姿态估计方法、装置、系统、电子设备、存储介质 | |
CN112613510B (zh) | 图片预处理方法、文字识别模型训练方法和文字识别方法 | |
CN111191533B (zh) | 行人重识别的处理方法、装置、计算机设备和存储介质 | |
CN111783665A (zh) | 一种动作识别方法、装置、存储介质和电子设备 | |
CN108234821B (zh) | 检测视频中的动作的方法、装置和系统 | |
AU2017417488B2 (en) | Detecting font size in a digital image | |
CN109711427A (zh) | 目标检测方法及相关产品 | |
CN113496208B (zh) | 视频的场景分类方法及装置、存储介质、终端 | |
CN108762936B (zh) | 基于人工智能图像识别的分布式计算系统及方法 | |
CN114758145B (zh) | 一种图像脱敏方法、装置、电子设备及存储介质 | |
CN111241961B (zh) | 人脸检测方法、装置及电子设备 | |
CN113298852A (zh) | 目标跟踪方法、装置、电子设备及计算机可读存储介质 | |
CN112802469A (zh) | 一种获取语音识别模型训练数据的方法及装置 | |
CN116994267A (zh) | 一种铭牌vin码识别方法、装置、存储介质及设备 | |
CN111783780B (zh) | 图像处理方法、装置及计算机可读存储介质 | |
CN113110782A (zh) | 图像的识别方法、装置、计算机设备及存储介质 | |
CN113221907A (zh) | 一种车辆部件分割方法、装置、设备及存储介质 | |
JP7107544B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN115346143A (zh) | 行为检测方法、电子设备、计算机可读介质 | |
CN114677691B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN118015385B (zh) | 一种基于多模态模型的长尾目标检测方法、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |