CN114708580B - 文本识别、模型训练方法、装置、设备、存储介质及程序 - Google Patents
文本识别、模型训练方法、装置、设备、存储介质及程序 Download PDFInfo
- Publication number
- CN114708580B CN114708580B CN202210367897.6A CN202210367897A CN114708580B CN 114708580 B CN114708580 B CN 114708580B CN 202210367897 A CN202210367897 A CN 202210367897A CN 114708580 B CN114708580 B CN 114708580B
- Authority
- CN
- China
- Prior art keywords
- image
- sampling
- text
- feature
- sampling points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 title claims abstract description 39
- 238000005070 sampling Methods 0.000 claims abstract description 330
- 238000012545 processing Methods 0.000 claims abstract description 85
- 238000011176 pooling Methods 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 26
- 238000002372 labelling Methods 0.000 claims description 23
- 230000009467 reduction Effects 0.000 claims description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 17
- 238000004590 computer program Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本公开提供了文本识别、模型训练方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可用于OCR场景。具体实现方案为:获取待识别的文本图像,对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1,根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征,根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。本公开提供的技术方案,针对包含任意形态字符的文本图像,均能够提高字符识别结果的准确性。
Description
技术领域
本公开涉及人工智能领域,具体为深度学习、图像处理、计算机视觉技术领域,尤其涉及一种文本识别、模型训练方法、装置、设备、存储介质及程序,可用于OCR场景。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、云分布存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
随着人工智能的发展,光学字符识别(Optical Character Recognition,OCR)技术被广泛应用于各种领域,包括但不限于:教育、医疗、金融、保险等业务领域。在实际应用场景中,文本中可能存在各种形态的字符,例如:倾斜字符、弯曲字符、手写字符等,因此,需要提供一种能够识别任意形态字符的文本识别方案。
发明内容
本公开提供了一种文本识别、模型训练方法、装置、设备、存储介质及程序。
根据本公开的第一方面,提供了一种文本识别方法,包括:
获取待识别的文本图像;
对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1;
根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征;
根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
根据本公开的第二方面,提供了一种文本识别模型的训练方法,包括:
获取样本文本图像及其对应的字符标注结果,所述字符标注结果包括所述样本文本图像中包含的字符序列;
通过待训练的文本识别模型对所述样本文本图像进行特征提取,得到所述样本文本图像对应的图像特征,所述图像特征在高度和宽度方向上的特征维度数均大于1;
通过所述文本识别模型根据所述图像特征,确定所述样本文本图像中的多个采样点对应的采样特征;
通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述样本文本图像对应的字符识别结果;
根据所述字符识别结果和所述字符标注结果,对所述文本识别模型的模型参数进行更新,以得到训练后的文本识别模型。
根据本公开的第三方面,提供了一种文本识别装置,包括:
获取模块,用于获取待识别的文本图像;
特征提取模块,用于对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1;
特征采样模块,用于根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征;
确定模块,用于根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
根据本公开的第四方面,提供了一种文本识别模型的训练装置,包括:
获取模块,用于获取样本文本图像及其对应的字符标注结果,所述字符标注结果包括所述样本文本图像中包含的字符序列;
特征提取模块,用于通过待训练的文本识别模型对所述样本文本图像进行特征提取,得到所述样本文本图像对应的图像特征,所述图像特征在高度和宽度方向上的特征维度数均大于1;
特征采样模块,用于通过所述文本识别模型根据所述图像特征,确定所述样本文本图像中的多个采样点对应的采样特征;
确定模块,用于通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述样本文本图像对应的字符识别结果;
更新模块,用于根据所述字符识别结果和所述字符标注结果,对所述文本识别模型的模型参数进行更新,以得到训练后的文本识别模型。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法,或者执行第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面所述的方法,或者根据第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法,或者执行第二方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一些文本图像的示意图;
图2为本公开实施例提供的一种文本识别方法的流程示意图;
图3为本公开实施例提供的另一种文本识别方法的流程示意图;
图4为本公开实施例提供的一种文本识别过程的示意图;
图5为本公开实施例涉及的一种系统架构的示意图;
图6为本公开实施例提供的又一种文本识别方法的流程示意图;
图7为本公开实施例提供的一种文本识别模型的结构示意图;
图8为本公开实施例提供的一种文本识别模型的训练方法的流程示意图;
图9为本公开实施例提供的一种文本识别装置的结构示意图;
图10为本公开实施例提供的一种文本识别模型的训练装置的结构示意图;
图11为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在实际应用场景中,文本中可能存在各种形态的字符,给文本识别带来困难。图1为本公开实施例提供的一些文本图像的示意图。参见图1,图像101示例的是自然场景下的文本图像,该文本图像中的字符水平排列,并且清晰易于辨识。图像102示例的文本图像中包含倾斜字符,图像103示例的文本图像中包含弯曲字符,图像104示例的文本图像中包含特殊字体的字符,图像105示例的文本图像中包含手写连笔的字符。应理解的是,实际应用中,除了上述图像102至图像105所示的复杂形态字符之外,还可能存在其他复杂形态字符,本实施例对此不作列举。
另外,本公开实施例中,文本图像中的字符可以为中文字符,也可以为英文字符,还可以为其他语言的字符,本实施例对此不做限定。为了便于示例,本公开附图中以英文字符为例进行举例说明。
目前,随着人工智能技术的发展,针对自然场景下的文本图像(例如图像101),可以采用OCR技术识别出文本图像中包含的字符。但是,针对包含复杂形态字符的文本图像(例如图像102至图像105),目前的文本识别方案通常无法识别,或者识别结果不佳。
本公开提供一种文本识别、模型训练方法、装置、设备、存储介质及程序,应用于人工智能领域中的深度学习、图像处理、计算机视觉等技术领域,旨在提供一种能够识别任意形态字符的文本识别方案。
在本公开技术方案中,可以获取待识别的文本图像,对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1;根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征,进而,根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
在上述文本识别过程中,由于图像特征在高度和宽度方向上的特征维度数均大于1,使得图像特征既包括图像宽度方向的特征信息,还包括图像高度方向的特征信息,即,图像特征中保留了文本图像的空间信息。从而,根据图像特征确定出的各采样点对应的采样特征,能够表征该采样点所在区域的区域特征。可见,在文本识别过程中考虑了文本图像的空间信息。因此,无论文本图像中包含的为何种形态的字符,采用本公开技术方案,均可以成功识别出文本图像中的字符。也就是说,本公开提供的文本识别方案,针对包含任意形态字符的文本图像,均能够提高识别结果的准确性。
下面结合具体的实施例对本公开技术方案进行详细说明。下面几个实施例可以相互结合。对于相同或者相似的概念或过程,可能在某些实施例中不再赘述。
图2为本公开实施例提供的一种文本识别方法的流程示意图。如图2所示,本实施例的方法,包括:
S201:获取待识别的文本图像。
其中,文本图像中包含一个或者多个字符。文本图像可以是对文本行进行拍摄或者扫描得到的图像。
本公开实施例中,文本图像中包含的字符可以为任意形态,包括但不限于图1中示例的水平形态的字符、弯曲形态的字符、倾斜形态的字符、特殊字体字符、手写连笔字符等。另外,本公开实施例中,文本图像中的字符可以为中文字符,还可以为英文字符,还可以为其他任何语言的字符,本实施例对此不做限定。
S202:对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1。
本公开实施例中,可以通过对文本图像进行卷积处理,以实现特征提取。示例性的,可以采用卷积神经网络(Convolutional Neural Networks,CNN)对文本图像进行特征提取,得到图像特征。其中,卷积神经网络可以为任意结构的卷积神经网络,例如,计算机视觉组(Visual Geometry Group,VGG)卷积神经网络、残差神经网络(Residual NeuralNetwork,ResNet)、稠密卷积网络(Dense Convolutional Network,DenseNet)、轻量化卷积神经网络(MobileNet)等。
在一些可能的实现方式中,在采用卷积神经网络进行特征提取时,还可以在卷积神经网络中添加用于改善网络效果的算子,例如,变形卷积算子(deform conv)、压缩激励算子(Squeeze-and-Excitation,SE)、空洞卷积(dilation conv)算子等。
本公开实施例中,经过对文本图像进行特征提取,得到的图像特征在高度和宽度方向上的特征维度数均大于1。也就是说,图像特征包括高度方向的特征和宽度方向的特征,即,图像特征中保留有文本图像的空间信息。
一些示例中,图像特征除了包括高度和宽度方向的特征,还可以包括通道方向的特征。即,图像特征在通道方向上的特征维度数也大于1。
假设文本图像的高度为H(即在高度方向上每一列有H个像素),宽度为W(即在宽度方向上每一行有W个像素)。在对文本图像进行特征提取时,可以按照预设比例在高度方向和宽度方向进行下采样处理,使得图像特征中的高度方向和宽度方向的特征维度数降低,以减少计算量。
另外,文本图像还可以包括多个通道,例如,文本图像的通道数可以为3(例如文本图像包括红R、绿G、蓝B3个通道)。在特征提取时,还可以增加在通道方向的特征维度数,以提高图像特征的表达能力。
假设经过特征提取之后,得到的图像特征在高度方向的特征维度数为H/k1,在宽度方向的特征维度数为W/k2,在通道方向的特征维度数为D。H/k1为大于1且小于H的整数,W/k2为大于1且小于W的整数。其中,k1表征的是在高度方向上的下采样倍数,k2表征的是在宽度方向上的下采样倍数。k1和k1可以相同也可以不同。
作为一个示例,假设k1=8,k2=4。若文本图像的高度H=32,宽度H=64,包括3个通道,则对文本图像(32,64,3)进行特征提取之后,得到图像特征的维度为(8,16,128),即图像特征在高度方向的特征维度数为8,在宽度方向的特征维度数为16,在通道方向的特征维度数为128。
应理解,由于提取得到的图像特征在高度和宽度方向上的特征维度数均大于1,使得图像特征既包括图像宽度方向的特征信息,还包括图像高度方向的特征信息,即,图像特征中保留了空间信息。
S203:根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征。
本公开实施例中,可以先在文本图像中确定出多个采样点。采样点为文本图像中的关键特征点。一些示例中,可以按照预设分布原则在文本图像中确定出多个采样点,另一些示例中,可以根据图像特征在文本图像中确定出多个采样点,例如,将特征满足预设条件的点确定为采样点。
其中,采样点的数量可以大于或等于文本图像中包括的字符数量。也就是说,在确定采样点时,可以在每个字符对应的区域中确定一个采样点,也可以在每个字符对应的区域中确定多个采样点。需要说明的是,本公开实施例对于采样点的数量不做限定。
进一步的,在确定出多个采样点之后,可以从图像特征中获取各采样点对应的采样特征。由于图像特征在高度和宽度方向上的特征维度数均大于1,即,图像特征中保留了文本图像的空间信息,因此,从图像特征中获取的每个采样点对应的采样特征,能够表征文本图像中该采样点所在区域的区域特征。
S204:根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
其中,字符识别结果中包括:从文本图像中识别得到的字符或者字符序列。
示例性的,可以对每个采样点对应的采样特征进行字符识别处理,得到该采样点对应的字符。进而,根据多个采样点对应的字符,确定文本图像对应的字符识别结果。
由于每个采样点对应的采样特征,表征的是文本图像中该采样点所在区域的区域特征,所以,本公开实施例在进行文本识别时,考虑的是采样点所在区域的区域特征,即考虑了文本图像的空间信息。因此,即使文本图像中包含的是复杂形态字符,也可以准确识别。
本实施例提供的文本识别方法,包括:获取待识别的文本图像,对所述文本图像进行特征提取,得到文本图像对应的图像特征,所述图像特征在高度和宽度方向上的特征维度数均大于1;根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征;根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。上述过程中,由于图像特征在高度和宽度方向上的特征维度数均大于1,使得图像特征中保留了空间信息,因此,根据图像特征得到的各采样点对应的采样特征,表征的是采样点所在区域的区域特征,也就是说,本公开实施例在进行文本识别考虑了文本图像的空间信息,因此,即使文本图像中包含的是复杂形态字符,也可以准确识别,并且,提高了文本识别结果的准确性。
能够理解的是,无论文本图像中包含的为何种形态的字符,采样本公开实施例,均可以成功识别出文本图像中的字符。也就是说,本公开提供的文本识别方案,针对包含任意形态字符的文本图像,均能够提高识别结果的准确性。
为使读者更深刻地理解本公开的实现原理,先结合图3至图7所示的实施例,对图2所示实施例进行进一步细化。
图3为本公开实施例提供的另一种文本识别方法的流程示意图。如图3所示,本实施例的方法包括:
S301:获取待识别的文本图像。
S302:对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1。
应理解,S301和S302的具体实现方式可以参见图2中的S201和S202的相关描述,此处不做赘述。
S303:根据所述图像特征,在所述文本图像中确定出所述多个采样点的位置信息。
本实施例中,可以根据图像特征,在文本图像中确定出多个关键特征点,这些关键特征点即可作为采样点。
假设图像特征在高度方向的特征维度数为H/k1,在宽度方向的特征维度数为W/k2,在通道方向的特征维度数为D,这样图像特征的维度可以记为(H/k1,W/k2,D)。应理解,若H/k1或者W/k2的结果不是整数,则可以向下取整或者向上取整。
假设所述多个采样点的数量为N。在一些可能的实现方式中,可以采用如下方式对图像特征进行处理,以得到N个采样点的位置信息。
(1)对所述图像特征进行池化处理,得到池化特征;其中,所述池化特征在高度方向、宽度方向的特征维度数均为1,所述池化特征在通道方向的特征维度数为所述D,也就是说,池化特征的维度为(1,1,D)。
示例性的,可以将图像特征输入池化单元,由池化单元对图像特征进行池化处理,并输出池化特征。池化单元可以在高度方向和宽度方式对图像特征进行池化处理,以降低高度方向和宽度方向的特征维度,使得高度方向和宽度方向的特征维度数降为1。这样,得到的池化特征的维度为(1,1,D),也就是说,池化特征可以视为一个维度数为D的向量。
应理解,上述池化处理的方式可以采用均值池化、最大值池化,还可以采用其他可能的池化方式,本实施例对此不做限定。
在一些可能的实现方式中,还可以先对图像特征进行非线性处理,得到非线性特征,然后在对非线性特征进行池化处理,得到池化特征。
应理解,非线性处理用于增加图像特征的非线性特性,提高图像特征的表达能力。通过对图像特征进行非线性处理,使得得到的非线性特征的表达能力由于图像特征的表达能力。
需要说明的是,本实施例对于非线性处理的方式不做限定。示例性的,可以采用卷积-批量归一化-线性整流函数(Conv-BN-ReLU)单元对图像特征进行非线性处理,将图像特征映射为非线性特征。
(2)对所述池化特征中的通道方向的特征进行降维处理,得到特征向量;其中,所述特征向量的维度数为N*2。
示例性的,可以将D维的池化特征输入线性映射单元,由线性映射单元对池化特征进行降维处理,并输出维度为N*2的特征向量。
(3)根据所述特征向量,在所述文本图像中确定所述N个采样点的位置信息。
上述维度为N*2的特征向量,可以视为N个采样点的坐标,每个采样点的坐标包括:采样点在图像高度方向的坐标、以及采样点在图像宽度方向的坐标。从而,根据N个采样点的坐标,可以得到N个采样点的位置信息。
S304:根据所述多个采样点的位置信息,从所述图像特征中获取所述多个采样点对应的采样特征。
在确定出多个采样点的位置信息之后,可以针对每个采样点,根据该采样点的位置信息,从图像特征中获取该采样点对应的采样特征。示例性的,可以将文本图像中的采样点投影到图像特征中,确定出采样点对应的投影点,将投影点对应的特征确定为该采样点对应的采样特征。每个采样点的采样特征的维度数为D。这样,N个采样点对应的采样特征的维度可以记为N*D。
S305:对所述多个采样点对应的采样特征进行字符识别处理,得到所述多个采样点对应的字符。
其中,每个采样点对应的字符,是指文本图像中该采样点所在区域中含有的字符。
针对所述多个采样点中的任意一个采样点,对该采样点对应的采样特征(维度数为D)进行字符识别处理,确定出该采样点对应的字符。示例性的,可以对该采样点对应的采样特征进行字符识别处理,得到该采样点分别对应多个预设字符的概率,将最大概率对应的预设字符,确定为该采样点对应的字符。
举例而言,在英文字符场景中,多个预设字符可以包括:26个英文字符(字符a至字符z)和空格字符(-)。即,多个预设字符的数量为C=27。针对每个采样点,根据该采样点对应的采样特征,识别出该采样点对应上述27个预设字符的概率,将最大概率对应的预设字符,确定为该采样点对应的字符。
S306:根据所述多个采样点对应的字符,确定所述文本图像对应的字符识别结果。
一些场景中,文本图像中的每个字符所占区域中存在一个采样点。该情况下,将多个采样点对应的字符,确定为文本图像对应的字符识别结果。例如,假设N=5,采样点1对应的字符为h,采样点2对应的字符为e,采样点3对应的字符为l,采样点4对应的字符为l,采样点5对应的字符为o,则文本图像对应的字符识别结果为“hello”。
另一些场景中,文本图像中的每个字符所占区域中存在的采样点数量可能大于1。该情况下,可以对多个采样点对应的字符进行去重处理、去空格处理中的至少一项,得到文本图像对应的字符识别结果。
例如,假设N个采样点(N=10)对应的字符依次为:hheelllloo。则经过字符去重处理之后,得到文本图像的字符识别结果“hello”。
又例如,假设N个采样点(N-15)对应的字符依次为:-hh-ee-ll-ll-oo,其中,字符“-”表示空格字符。对上述15个采样点对应的字符进行去重处理之后,得到“-h-e-l-l-o”。然后,针对去重处理后的结果进行去空格处理之后,得到“hello”,从而,确定文本图像的字符识别结果为“hello”。
本公开实施例提供的文本识别方法可以由终端设备执行,还可以由服务器执行。当由终端设备执行时,终端设备得到文本图像的字符识别结果之后,还可以显示文本图像对应的字符识别结果。当由服务器执行时,服务器得到文本图像的字符识别结果之后,可以向预设设备(例如终端设备)发送文本图像对应的字符识别结果,以便预设设备对字符识别结果进行显示,或者对字符识别结果进行进一步分析处理。
本实施例提供的文本处理方法,可以根据图像特征,在文本图像中确定出多个采样点的位置信息,并根据多个采样点的位置信息,从图像特征中获取多个采样点对应的采样特征,进而根据多个采样点对应的采样特征,确定文本图像对应的字符识别结果。上述过程实现简单,无需对文本图像进行矫正处理,也无需预先对文本图像中的字符进行分割,计算量较小,在准确识别任意形态字符的基础上,还提高了文本识别效率。
在图3所示实施例的基础上,下面结合一个示例对文本识别过程进行举例说明。
图4为本公开实施例提供的一种文本识别过程的示意图。如图4所示,以图1中文本图像105的识别过程为例进行举例说明。本实施例中,假设采样点的数量N=5,待识别的文本图像的高度H=24,宽度为W=36,包括3个通道,即文本图像可以记为(24,36,3)。
参见图4,文本识别过程如下:
(1)对文本图像进行特征提取,得到图像特征。
图像特征在高度方向的特征维度数为4,在宽度方向的特征维度数为9,在通道方向的特征维度数为128,即图像特征的维度可以记为(4,9,128)。
(2)根据图像特征,在文本图像中确定出5个采样点的坐标。
具体而言,对图像特征(4,9,128)进行非线性处理,得到非线性特征;对非线性特征进行池化处理,得到池化特征(1,1,128)。对维度为128的池化特征进行降维处理,得到维度为5*2=10的特征向量。进而,根据特征向量确定出5个采样点的坐标。
(3)将5个采样点投影到图像特征中,并基于投影点从图像特征中采样得到各采样点对应的采样特征(5×D)。
(4)对5个采样点对应的采样特征进行字符识别处理,得到字符识别结果“hello”。
应理解的是,图4所示示例中,以N=5为例进行示例。在实际应用中,N还可以为大于5的任意数值,本实施例对此不作限定。
上述图2或图4所示实施例可以通过机器学习模型实现。下面结合图5对本公开实施例的一种可能的系统架构进行说明。
图5为本公开实施例涉及的一种系统架构的示意图。如图5所示,该系统架构包括训练设备和执行设备。其中,执行设备可以为具有文本识别功能的电子设备,训练设备可以为服务器。本公开实施例涉及模型训练阶段和模型使用阶段,下面针对两个阶段分别进行说明。
在模型训练阶段,训练设备可以利用样本数据库中的多组训练样本,对待训练的文本识别模型进行训练,得到训练后的文本识别模型。其中,每组训练样本包括:样本文本图像、以及样本文本图像对应的字符标注结果。其中,字符标注结果包括样本文本图像包括的字符序列。应理解,样本数据库中的训练样本涵盖各种形态的字符。
训练后的文本识别模型可以部署到执行设备中。在模型使用阶段,执行设备获取待识别的文本图像,通过文本识别模型对文本图像进行识别处理,得到文本图像对应的字符识别结果。
下面结合图6至图8对文本识别模型的使用过程以及训练过程进行详细说明。
图6为本公开实施例提供的又一种文本识别方法的流程示意图。本实施例的文本识别过程具体由部署在执行设备中的文本识别模型实现。如图6所示,本实施例的方法,包括:
S601:获取待识别的文本图像。
S602:通过文本识别模型对文本图像进行特征提取,得到文本图像对应的图像特征,所述图像特征在高度和宽度方向上的特征维度数均大于1。
S603:通过文本识别模型根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征。
S604:通过文本识别模型根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
也就是说,图2中的S202至S204可以通过文本识别模型实现。类似的,图3中的S302至S306也可以通过文本识别模型实现。文本识别模型的具体处理过程可以参见图2或图3所示实施例的详细描述,此处不做赘述。
图7为本公开实施例提供的一种文本识别模型的结构示意图。如图7所示,文本识别模型可以包括:特征提取网络、采样点生成网络、采样网络和识别网络。
示例性的,参见图7,将文本图像输入文本识别模型之后,通过特征提取网络对文本图像进行特征提取,得到文本图像对应的图像特征,并将图像特征输入至采样点生成网络和采样网络。通过采样点生成网络根据图像特征,在文本图像中确定出多个采样点的位置信息,并将多个采样点的位置信息输入至采样网络。通过采样网络根据多个采样点的位置信息,从图像特征中获取多个采样点对应的采样特征,并将多个采样点对应的采样特征输入识别网络。通过识别网络对多个采样点对应的采样特征进行识别处理,得到文本图像对应的字符识别结果。
其中,特征提取网络、采样点生成网络、采样网络和识别网络的具体处理过程可以参见图2或图3所示实施例的详细描述,此处不做赘述。
图6和图7描述的是文本识别模型的使用过程。下面结合图8对文本识别模型的训练过程进行详细说明。
图8为本公开实施例提供的一种文本识别模型的训练方法的流程示意图。如图8所示,本实施例的方法包括:
S801:获取样本文本图像及其对应的字符标注结果,所述字符标注结果包括所述样本文本图像中包含的字符序列。
本实施例中,样本文本图像中的字符可以为任意形态的字符,包括但不限于图1中示例的水平字符、倾斜字符、弯曲字符、特殊字体字符、手写连笔字符等。所述字符标注结果可以是人工对样本文本图像进行标注得到的。
S802:通过待训练的文本识别模型对所述样本文本图像进行特征提取,得到所述样本文本图像对应的图像特征,所述图像特征在高度和宽度方向上的特征维度数均大于1。
S803:通过所述文本识别模型根据所述图像特征,确定所述样本文本图像中的多个采样点对应的采样特征。
S804:通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述样本文本图像对应的字符识别结果。
应理解,本实施例S802至S804中,通过文本识别模型对样本文本图像的处理过程与前述实施例是类似的,此处不做赘述。
S805:根据所述字符识别结果和所述字符标注结果,对所述文本识别模型的模型参数进行更新,以得到训练后的文本识别模型。
示例性的,可以根据字符识别结果和字符标注结果,确定损失函数。进而,根据损失函数对文本识别模型的模型参数进行更新,得到更新后的文本识别模型。进一步的,确定更新后的文本识别模型是否收敛。若是,则将更新后的文本识别模型作为训练完成的文本识别模型。若否,则重复执行S801至S805的训练过程,直至更新后的文本识别模型收敛。
一些可能的实现方式中,在S803中,根据所述图像特征,确定所述样本文本图像中的多个采样点对应的采样特征,包括:
根据所述图像特征,在所述样本文本图像中确定出所述多个采样点的位置信息;
根据所述多个采样点的位置信息,从所述图像特征中获取所述多个采样点对应的采样特征。
一种可能的实现方式中,所述多个采样点的数量为N;所述图像特征在通道方向的特征维度数量为D,所述D为大于N*2的整数;根据所述图像特征,在所述样本文本图像中确定出所述多个采样点的位置信息,包括:
对所述图像特征进行池化处理,得到池化特征;其中,所述池化特征在高度方向、宽度方向的特征维度数均为1,所述池化特征在通道方向的特征维度数为所述D;
对所述池化特征中的通道方向的特征进行降维处理,得到特征向量;其中,所述特征向量的维度数为N*2;
根据所述特征向量,在所述样本文本图像中确定所述N个采样点的位置信息。
一种可能的实现方式中,对所述图像特征进行池化处理,得到池化特征,包括:
对所述图像特征进行非线性处理,得到非线性特征;
对所述非线性特征进行池化处理,得到所述池化特征。
一种可能的实现方式中,上述S804中,根据所述多个采样点对应的采样特征,确定所述样本文本图像对应的字符识别结果,包括:
对所述多个采样点对应的采样特征进行字符识别处理,得到所述多个采样点对应的字符;
根据所述多个采样点对应的字符,确定所述样本文本图像对应的字符识别结果。
一种可能的实现方式中,针对所述多个采样点中的任意一个采样点,对所述采样点对应的采样特征进行识别处理,得到所述采样点对应的字符,包括:
对所述采样点对应的采样特征进行字符识别处理,得到所述采样点分别对应多个预设字符的概率;
将最大概率对应的预设字符,确定为所述采样点对应的字符。
一种可能的实现方式中,根据所述多个采样点对应的字符,确定所述文本图像对应的字符识别结果,包括:
将所述多个采样点对应的字符,确定为所述样本文本图像对应的字符识别结果;或者,
对所述多个采样点对应的字符进行去重处理、去空格处理中的至少一项,得到所述样本文本图像对应的字符识别结果。
本实施例提供的文本识别模型的训练方法,由于图像特征在高度和宽度方向上的特征维度数均大于1,使得图像特征既包括图像宽度方向的特征信息,还包括图像高度方向的特征信息,即,图像特征中保留了样本文本图像的空间信息。从而,根据图像特征确定出的各采样点对应的采样特征,能够表征该采样点所在区域的区域特征。可见,在文本识别模型的训练过程中考虑了样本文本图像的空间信息,因此,本实施例训练得到的文本识别模型能够识别任意形态字符,并且可以提高文本识别结果的准确性。
图9为本公开实施例提供的一种文本识别装置的结构示意图。该装置可以为软件和/或硬件的形式。示例性的,该装置可以为执行设备,或者为部署在执行设备中的模块、单元、芯片、芯片模组等。如图9所示,本实施例提供的文本识别装置900,包括:获取模块901、特征提取模块902、特征采样模块903和确定模块904。其中,
获取模块901,用于获取待识别的文本图像;
特征提取模块902,用于对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1;
特征采样模块903,用于根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征;
确定模块904,用于根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
一种可能的实现方式中,所述特征采样模块903包括:
第一确定单元,用于根据所述图像特征,在所述文本图像中确定出所述多个采样点的位置信息;
采样单元,用于根据所述多个采样点的位置信息,从所述图像特征中获取所述多个采样点对应的采样特征。
一种可能的实现方式中,所述多个采样点的数量为N,所述图像特征在通道方向的特征维度数量为D,所述D为大于N*2的整数;所述第一确定单元包括:
第一处理子单元,用于对所述图像特征进行池化处理,得到池化特征;其中,所述池化特征在高度方向、宽度方向的特征维度数均为1,所述池化特征在通道方向的特征维度数为所述D;
第二处理子单元,用于对所述池化特征中的通道方向的特征进行降维处理,得到特征向量;其中,所述特征向量的维度数为N*2;
第一确定子单元,用于根据所述特征向量,在所述文本图像中确定所述N个采样点的位置信息。
一种可能的实现方式中,所述第一处理子单元具体用于:
对所述图像特征进行非线性处理,得到非线性特征;
对所述非线性特征进行池化处理,得到所述池化特征。
一种可能的实现方式中,所述确定模块904包括:
识别单元,用于对所述多个采样点对应的采样特征进行字符识别处理,得到所述多个采样点对应的字符;
第二确定单元,用于根据所述多个采样点对应的字符,确定所述文本图像对应的字符识别结果。
一种可能的实现方式中,针对所述多个采样点中的任意一个采样点,所述识别单元包括:
识别子单元,用于对所述采样点对应的采样特征进行字符识别处理,得到所述采样点分别对应多个预设字符的概率;
第二确定子单元,用于将最大概率对应的预设字符,确定为所述采样点对应的字符。
一种可能的实现方式中,所述第二确定单元包括:
第三确定子单元,用于将所述多个采样点对应的字符,确定为所述文本图像对应的字符识别结果;或者,
第四确定子单元,用于对所述多个采样点对应的字符进行去重处理、去空格处理中的至少一项,得到所述文本图像对应的字符识别结果。
一种可能的实现方式中,所述特征提取模块902具体用于:通过文本识别模型对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;
所述特征采样模块903具体用于:通过所述文本识别模型根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征;
所述确定模块904具体用于:通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
一种可能的实现方式中,本实施例提供的装置还包括:
显示模块,用于显示所述文本图像对应的字符识别结果;或者,
发送模块,用于向预设设备发送所述文本图像对应的字符识别结果。
本实施例提供的文本识别装置,可用于执行上述任意方法实施例提供的文本识别方法,其实现原理和技术效果类似,此处不做赘述。
图10为本公开实施例提供的一种文本识别模型的训练装置的结构示意图。该装置可以为软件和/或硬件的形式。示例性的,该装置可以为训练设备,或者为部署在训练设备中的模块、单元、芯片、芯片模组等。如图10所示,本实施例提供的文本识别模型的训练装置1000,包括:获取模块1001、特征提取模块1002、特征采样模块1003、确定模块1004和更新模块1005。其中,
获取模块1001,用于获取样本文本图像及其对应的字符标注结果,所述字符标注结果包括所述样本文本图像中包含的字符序列;
特征提取模块1002,用于通过待训练的文本识别模型对所述样本文本图像进行特征提取,得到所述样本文本图像对应的图像特征,所述图像特征在高度和宽度方向上的特征维度数均大于1;
特征采样模块1003,用于通过所述文本识别模型根据所述图像特征,确定所述样本文本图像中的多个采样点对应的采样特征;
确定模块1004,用于通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述样本文本图像对应的字符识别结果;
更新模块1005,用于根据所述字符识别结果和所述字符标注结果,对所述文本识别模型的模型参数进行更新,以得到训练后的文本识别模型。
一些可能的实现方式中,特征采样模块1003包括:
第一确定单元,用于根据所述图像特征,在所述样本文本图像中确定出所述多个采样点的位置信息;
采样单元,用于根据所述多个采样点的位置信息,从所述图像特征中获取所述多个采样点对应的采样特征。
一种可能的实现方式中,所述多个采样点的数量为N;所述图像特征在通道方向的特征维度数量为D,所述D为大于N*2的整数;所述第一确定单元包括:
第一处理子单元,用于对所述图像特征进行池化处理,得到池化特征;其中,所述池化特征在高度方向、宽度方向的特征维度数均为1,所述池化特征在通道方向的特征维度数为所述D;
第二处理子单元,用于对所述池化特征中的通道方向的特征进行降维处理,得到特征向量;其中,所述特征向量的维度数为N*2;
第一确定子单元,用于根据所述特征向量,在所述样本文本图像中确定所述N个采样点的位置信息。
一种可能的实现方式中,所述第一处理子单元具体用于:
对所述图像特征进行非线性处理,得到非线性特征;
对所述非线性特征进行池化处理,得到所述池化特征。
一种可能的实现方式中,所述确定模块1004包括:
识别单元,用于对所述多个采样点对应的采样特征进行字符识别处理,得到所述多个采样点对应的字符;
第二确定单元,用于根据所述多个采样点对应的字符,确定所述样本文本图像对应的字符识别结果。
一种可能的实现方式中,针对所述多个采样点中的任意一个采样点,所述识别单元包括:
识别子单元,用于对所述采样点对应的采样特征进行字符识别处理,得到所述采样点分别对应多个预设字符的概率;
第二确定子单元,用于将最大概率对应的预设字符,确定为所述采样点对应的字符。
一种可能的实现方式中,所述第二确定单元包括:
第三确定子单元,用于将所述多个采样点对应的字符,确定为所述样本文本图像对应的字符识别结果;或者,
第四确定子单元,用于对所述多个采样点对应的字符进行去重处理、去空格处理中的至少一项,得到所述样本文本图像对应的字符识别结果。
本实施例提供的文本识别模型的训练装置,可用于执行上述任意方法实施例提供的文本识别模型的训练方法,其实现原理和技术效果类似,此处不做赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如文本识别方法或者文本识别模型的训练方法。例如,在一些实施例中,文本识别方法或者文本识别模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时,可以执行上文描述的文本识别方法或者文本识别模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本识别方法或者文本识别模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (18)
1.一种文本识别方法,包括:
获取待识别的文本图像;
对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度方向、宽度方向和通道方向上的特征维度数均大于1;
在所述高度方向、宽度方向和通道方向对所述图像特征进行降维处理,得到特征向量;
根据所述特征向量,在所述文本图像中确定多个采样点的位置信息;
根据所述多个采样点的位置信息,从所述图像特征中获取所述多个采样点对应的采样特征;
根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果;
其中,所述多个采样点的数量为N,所述图像特征在通道方向的特征维度数量为D,所述D为大于N*2的整数;所述在所述高度方向、宽度方向和通道方向对所述图像特征进行降维处理,得到特征向量,包括:
对所述图像特征进行池化处理,得到池化特征;其中,所述池化特征在高度方向、宽度方向的特征维度数均为1,所述池化特征在通道方向的特征维度数为所述D;
对所述池化特征中的通道方向的特征进行降维处理,得到特征向量;其中,所述特征向量的维度数为N*2。
2.根据权利要求1所述的方法,其中,对所述图像特征进行池化处理,得到池化特征,包括:
对所述图像特征进行非线性处理,得到非线性特征;
对所述非线性特征进行池化处理,得到所述池化特征。
3.根据权利要求1所述的方法,其中,根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果,包括:
对所述多个采样点对应的采样特征进行字符识别处理,得到所述多个采样点对应的字符;
根据所述多个采样点对应的字符,确定所述文本图像对应的字符识别结果。
4.根据权利要求3所述的方法,其中,针对所述多个采样点中的任意一个采样点,对所述采样点对应的采样特征进行识别处理,得到所述采样点对应的字符,包括:
对所述采样点对应的采样特征进行字符识别处理,得到所述采样点分别对应多个预设字符的概率;
将最大概率对应的预设字符,确定为所述采样点对应的字符。
5.根据权利要求3或4所述的方法,其中,根据所述多个采样点对应的字符,确定所述文本图像对应的字符识别结果,包括:
将所述多个采样点对应的字符,确定为所述文本图像对应的字符识别结果;或者,
对所述多个采样点对应的字符进行去重处理、去空格处理中的至少一项,得到所述文本图像对应的字符识别结果。
6.根据权利要求1至4任一项所述的方法,其中,对所述文本图像进行特征提取,得到所述文本图像对应的图像特征,包括:
通过文本识别模型对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;
根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征,包括:
通过所述文本识别模型根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征;
根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果,包括:
通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
7.根据权利要求1至4任一项所述的方法,还包括:
显示所述文本图像对应的字符识别结果;或者,
向预设设备发送所述文本图像对应的字符识别结果。
8.一种文本识别模型的训练方法,包括:
获取样本文本图像及其对应的字符标注结果,所述字符标注结果包括所述样本文本图像中包含的字符序列;
通过待训练的文本识别模型对所述样本文本图像进行特征提取,得到所述样本文本图像对应的图像特征,所述图像特征在高度方向、宽度方向和通道方向上的特征维度数均大于1;
通过所述文本识别模型根据所述图像特征,确定所述样本文本图像中的多个采样点对应的采样特征;
通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述样本文本图像对应的字符识别结果;
根据所述字符识别结果和所述字符标注结果,对所述文本识别模型的模型参数进行更新,以得到训练后的文本识别模型;
所述根据所述图像特征,确定所述样本文本图像中的多个采样点对应的采样特征,包括:
在所述高度方向、宽度方向和通道方向对所述图像特征进行降维处理,得到特征向量;
根据所述特征向量,在所述文本图像中确定多个采样点的位置信息;
根据所述多个采样点的位置信息,从所述图像特征中获取所述多个采样点对应的采样特征;
其中,所述多个采样点的数量为N,所述图像特征在通道方向的特征维度数量为D,所述D为大于N*2的整数;所述在所述高度方向、宽度方向和通道方向对所述图像特征进行降维处理,得到特征向量,包括:
对所述图像特征进行池化处理,得到池化特征;其中,所述池化特征在高度方向、宽度方向的特征维度数均为1,所述池化特征在通道方向的特征维度数为所述D;
对所述池化特征中的通道方向的特征进行降维处理,得到特征向量;其中,所述特征向量的维度数为N*2。
9.一种文本识别装置,包括:
获取模块,用于获取待识别的文本图像;
特征提取模块,用于对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度方向、宽度方向和通道方向上的特征维度数均大于1;
特征采样模块,用于根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征;
确定模块,用于根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果;
其中,所述特征采样模块包括:
第一确定单元,用于在所述高度方向、宽度方向和通道方向对所述图像特征进行降维处理,得到特征向量;根据所述特征向量,在所述文本图像中确定多个采样点的位置信息;
采样单元,用于根据所述多个采样点的位置信息,从所述图像特征中获取所述多个采样点对应的采样特征;
其中,所述多个采样点的数量为N,所述图像特征在通道方向的特征维度数量为D,所述D为大于N*2的整数;所述第一确定单元包括:
第一处理子单元,用于对所述图像特征进行池化处理,得到池化特征;其中,所述池化特征在高度方向、宽度方向的特征维度数均为1,所述池化特征在通道方向的特征维度数为所述D;
第二处理子单元,用于对所述池化特征中的通道方向的特征进行降维处理,得到特征向量;其中,所述特征向量的维度数为N*2。
10.根据权利要求9所述的装置,其中,所述第一处理子单元具体用于:
对所述图像特征进行非线性处理,得到非线性特征;
对所述非线性特征进行池化处理,得到所述池化特征。
11.根据权利要求9所述的装置,其中,所述确定模块包括:
识别单元,用于对所述多个采样点对应的采样特征进行字符识别处理,得到所述多个采样点对应的字符;
第二确定单元,用于根据所述多个采样点对应的字符,确定所述文本图像对应的字符识别结果。
12.根据权利要求11所述的装置,其中,针对所述多个采样点中的任意一个采样点,所述识别单元包括:
识别子单元,用于对所述采样点对应的采样特征进行字符识别处理,得到所述采样点分别对应多个预设字符的概率;
第二确定子单元,用于将最大概率对应的预设字符,确定为所述采样点对应的字符。
13.根据权利要求11或12所述的装置,其中,所述第二确定单元包括:
第三确定子单元,用于将所述多个采样点对应的字符,确定为所述文本图像对应的字符识别结果;或者,
第四确定子单元,用于对所述多个采样点对应的字符进行去重处理、去空格处理中的至少一项,得到所述文本图像对应的字符识别结果。
14.根据权利要求9至12任一项所述的装置,其中,
所述特征提取模块具体用于:通过文本识别模型对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;
所述特征采样模块具体用于:通过所述文本识别模型根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征;
所述确定模块具体用于:通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。
15.根据权利要求9至12任一项所述的装置,还包括:
显示模块,用于显示所述文本图像对应的字符识别结果;或者,
发送模块,用于向预设设备发送所述文本图像对应的字符识别结果。
16.一种文本识别模型的训练装置,包括:
获取模块,用于获取样本文本图像及其对应的字符标注结果,所述字符标注结果包括所述样本文本图像中包含的字符序列;
特征提取模块,用于通过待训练的文本识别模型对所述样本文本图像进行特征提取,得到所述样本文本图像对应的图像特征,所述图像特征在高度方向、宽度方向和通道方向上的特征维度数均大于1;
特征采样模块,用于通过所述文本识别模型根据所述图像特征,确定所述样本文本图像中的多个采样点对应的采样特征;
确定模块,用于通过所述文本识别模型根据所述多个采样点对应的采样特征,确定所述样本文本图像对应的字符识别结果;
更新模块,用于根据所述字符识别结果和所述字符标注结果,对所述文本识别模型的模型参数进行更新,以得到训练后的文本识别模型;
所述特征采样模块,具体用于在高度方向、宽度方向和通道方向对所述图像特征进行降维处理,得到特征向量;根据所述特征向量,在所述文本图像中确定多个采样点的位置信息;根据所述多个采样点的位置信息,从所述图像特征中获取所述多个采样点对应的采样特征;
所述多个采样点的数量为N,所述图像特征在通道方向的特征维度数量为D,所述D为大于N*2的整数;所述特征采样模块,具体用于对所述图像特征进行池化处理,得到池化特征;其中,所述池化特征在高度方向、宽度方向的特征维度数均为1,所述池化特征在通道方向的特征维度数为所述D;对所述池化特征中的通道方向的特征进行降维处理,得到特征向量;其中,所述特征向量的维度数为N*2。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法,或者执行权利要求8所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法,或者根据权利要求8所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210367897.6A CN114708580B (zh) | 2022-04-08 | 2022-04-08 | 文本识别、模型训练方法、装置、设备、存储介质及程序 |
US17/974,630 US20230050079A1 (en) | 2022-04-08 | 2022-10-27 | Text recognition method, electronic device, and non-transitory storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210367897.6A CN114708580B (zh) | 2022-04-08 | 2022-04-08 | 文本识别、模型训练方法、装置、设备、存储介质及程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114708580A CN114708580A (zh) | 2022-07-05 |
CN114708580B true CN114708580B (zh) | 2024-04-16 |
Family
ID=82173266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210367897.6A Active CN114708580B (zh) | 2022-04-08 | 2022-04-08 | 文本识别、模型训练方法、装置、设备、存储介质及程序 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230050079A1 (zh) |
CN (1) | CN114708580B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030471A (zh) * | 2022-12-29 | 2023-04-28 | 北京百度网讯科技有限公司 | 文本识别方法、文本识别模型的训练方法、装置及设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995034048A1 (en) * | 1994-06-07 | 1995-12-14 | Massachusetts Institute Of Technology | Method and apparatus for automated text recognition |
CN1255685A (zh) * | 1998-11-27 | 2000-06-07 | 英业达集团(西安)电子技术有限公司 | 一种无笔画顺序的手写字符辨识系统 |
CN103942550A (zh) * | 2014-05-04 | 2014-07-23 | 厦门大学 | 一种基于稀疏编码特征的场景文本识别方法 |
CN105825216A (zh) * | 2016-03-17 | 2016-08-03 | 中国科学院信息工程研究所 | 一种复杂背景图像中的文本定位方法 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN108537115A (zh) * | 2018-03-02 | 2018-09-14 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置及电子设备 |
WO2019001360A1 (zh) * | 2017-06-29 | 2019-01-03 | 华南理工大学 | 一种基于视觉刺激的人机交互方法 |
CN110427852A (zh) * | 2019-07-24 | 2019-11-08 | 北京旷视科技有限公司 | 文字识别方法、装置、计算机设备和存储介质 |
CN111178254A (zh) * | 2019-12-27 | 2020-05-19 | 上海眼控科技股份有限公司 | 一种签名识别方法及设备 |
KR20210036319A (ko) * | 2020-04-28 | 2021-04-02 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기 |
CN112668608A (zh) * | 2020-12-04 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 一种图像识别方法、装置、电子设备及存储介质 |
CN113313064A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 字符识别方法、装置、可读介质及电子设备 |
CN113420760A (zh) * | 2021-06-22 | 2021-09-21 | 内蒙古师范大学 | 一种基于分割和形变lstm的手写体蒙古文检测和识别方法 |
CN113822314A (zh) * | 2021-06-10 | 2021-12-21 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6898315B2 (en) * | 1998-03-23 | 2005-05-24 | Microsoft Corporation | Feature extraction for real-time pattern recognition using single curve per pattern analysis |
-
2022
- 2022-04-08 CN CN202210367897.6A patent/CN114708580B/zh active Active
- 2022-10-27 US US17/974,630 patent/US20230050079A1/en not_active Abandoned
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995034048A1 (en) * | 1994-06-07 | 1995-12-14 | Massachusetts Institute Of Technology | Method and apparatus for automated text recognition |
CN1255685A (zh) * | 1998-11-27 | 2000-06-07 | 英业达集团(西安)电子技术有限公司 | 一种无笔画顺序的手写字符辨识系统 |
CN103942550A (zh) * | 2014-05-04 | 2014-07-23 | 厦门大学 | 一种基于稀疏编码特征的场景文本识别方法 |
CN105825216A (zh) * | 2016-03-17 | 2016-08-03 | 中国科学院信息工程研究所 | 一种复杂背景图像中的文本定位方法 |
WO2019001360A1 (zh) * | 2017-06-29 | 2019-01-03 | 华南理工大学 | 一种基于视觉刺激的人机交互方法 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN108537115A (zh) * | 2018-03-02 | 2018-09-14 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置及电子设备 |
CN110427852A (zh) * | 2019-07-24 | 2019-11-08 | 北京旷视科技有限公司 | 文字识别方法、装置、计算机设备和存储介质 |
CN111178254A (zh) * | 2019-12-27 | 2020-05-19 | 上海眼控科技股份有限公司 | 一种签名识别方法及设备 |
KR20210036319A (ko) * | 2020-04-28 | 2021-04-02 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기 |
CN112668608A (zh) * | 2020-12-04 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 一种图像识别方法、装置、电子设备及存储介质 |
CN113822314A (zh) * | 2021-06-10 | 2021-12-21 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
CN113420760A (zh) * | 2021-06-22 | 2021-09-21 | 内蒙古师范大学 | 一种基于分割和形变lstm的手写体蒙古文检测和识别方法 |
CN113313064A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 字符识别方法、装置、可读介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
"自然场景图像中的文本检测与识别算法研究";李玥;《中国优秀硕士学位论文全文数据库信息科技辑》;第I138-476页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114708580A (zh) | 2022-07-05 |
US20230050079A1 (en) | 2023-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220270382A1 (en) | Method and apparatus of training image recognition model, method and apparatus of recognizing image, and electronic device | |
US11810319B2 (en) | Image detection method, device, storage medium and computer program product | |
CN113205041B (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
US20220036068A1 (en) | Method and apparatus for recognizing image, electronic device and storage medium | |
CN113657289A (zh) | 阈值估计模型的训练方法、装置和电子设备 | |
CN113780098A (zh) | 文字识别方法、装置、电子设备以及存储介质 | |
CN113657395A (zh) | 文本识别方法、视觉特征提取模型的训练方法及装置 | |
CN114708580B (zh) | 文本识别、模型训练方法、装置、设备、存储介质及程序 | |
CN112580666A (zh) | 图像特征的提取方法、训练方法、装置、电子设备及介质 | |
CN115101069A (zh) | 语音控制方法、装置、设备、存储介质以及程序产品 | |
CN113553428B (zh) | 文档分类方法、装置及电子设备 | |
CN113191261B (zh) | 图像类别的识别方法、装置和电子设备 | |
CN113610809A (zh) | 骨折检测方法、装置、电子设备以及存储介质 | |
CN113657248A (zh) | 人脸识别模型的训练方法、装置及计算机程序产品 | |
CN113361523A (zh) | 文本确定方法、装置、电子设备和计算机可读存储介质 | |
CN116402914B (zh) | 用于确定风格化图像生成模型的方法、装置及产品 | |
CN115457329B (zh) | 图像分类模型的训练方法、图像分类方法和装置 | |
CN113379592B (zh) | 图片中敏感区域的处理方法、装置和电子设备 | |
CN115937039A (zh) | 数据扩充方法、装置、电子设备及可读存储介质 | |
CN112560848B (zh) | 兴趣点poi预训练模型的训练方法、装置及电子设备 | |
CN114842541A (zh) | 模型的训练及人脸识别方法、装置、设备以及存储介质 | |
CN114549695A (zh) | 图像生成方法、装置、电子设备及可读存储介质 | |
CN114119972A (zh) | 模型获取及对象处理方法、装置、电子设备及存储介质 | |
CN113435257A (zh) | 表格图像的识别方法、装置、设备和存储介质 | |
CN112580620A (zh) | 标志图片处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |