CN112613502A - 文字识别方法及装置、存储介质、计算机设备 - Google Patents
文字识别方法及装置、存储介质、计算机设备 Download PDFInfo
- Publication number
- CN112613502A CN112613502A CN202011576748.8A CN202011576748A CN112613502A CN 112613502 A CN112613502 A CN 112613502A CN 202011576748 A CN202011576748 A CN 202011576748A CN 112613502 A CN112613502 A CN 112613502A
- Authority
- CN
- China
- Prior art keywords
- image
- character
- bottom layer
- training
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种文字识别方法及装置、存储介质、计算机设备,涉及文字识别技术领域,主要目的在于能够无需标注数据即可实现文字识别,提高文字的识别效率,同时利用区块链网络节点存储识别结果,提高识别结果的存储安全性。包括:获取文字图像;对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据;输出所述文本数据。本发明适用于文字的识别。
Description
技术领域
本发明涉及一种文字识别技术领域,特别是涉及一种文字识别方法及装置、存储介质、计算机设备。
背景技术
随着计算机技术的应用越来越广泛,文字识别也逐渐应用于不同的领域。文字识别是光学字符识别(Optical Character Recognition,OCR)中的关键步骤,在金融领域中的应用包括银行卡识别、身份证识别、票据识别等。近年来,随着东南亚国家金融数字化转型,小语种如泰语的文字识别需求愈发旺盛,针对泰语等小语种的文字识别技术也应运而生。
目前,传统的文字识别方法通常是基于深度学习模型,用CTC损失函数衡量预测结果和真实标注的误差。然而,这种方式需要有大量的标注数据,而小语种文字识别面临很大的挑战:现有小语种标注的数据少,且人工标注需要对小语种有较强的理解,标注难度大。
发明内容
有鉴于此,本发明提供一种文字识别方法及装置、存储介质、计算机设备,主要目的在于解决现有小语种标注的数据少,且人工标注需要对小语种有较强的理解,标注难度大的技术问题。
依据本发明一个方面,提供了一种文字识别方法,包括:
获取文字图像;
对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;
通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;
输出所述文本数据。
进一步地,所述对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量,包括:
对所述文字图像进行文字区域读取;
根据所述文字区域抽取底层颜色特征和底层纹理特征;
对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;
抽取所述文字区域的标签层全局特征;
将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
进一步地,所述根据所述文字区域抽取底层颜色特征和底层纹理特征;对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征,包括:
在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;
将所述文字区域转换为灰度图像;
在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;
将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。
进一步地,所述通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据之前,所述方法还包括:
利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;
利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
进一步地,所述通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据之前,所述方法还包括:
利用预先配置的多种尺寸的卷积核,预设卷积神经网络模型;
将获取的未标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第一训练数据集;
利用所述第一训练数据集对所述卷积神经网络模型进行训练,得到预训练模型;
将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集;
利用所述第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
进一步地,所述将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集之前,所述方法还包括:
根据获取的未标注图像,确定分割区域的最小尺寸;
根据所述分割区域的最小尺寸,将所述未标注图像进行超像素分割,得到分割图像;
基于所述分割图像确定图像融合阈值;
根据所述图像融合阈值,对所述分割图像进行区域融合,得到融合图像;
对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注,得到已标注图像。
进一步地,所述输出所述文本数据之后,所述方法还包括:
将输出的文本数据保存在预先建立的区块链网络的存储节点中。
依据本发明另一个方面,提供了一种文字识别装置,包括:
获取单元,用于获取文字图像;
提取单元,用于对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;
识别单元,用于通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;
输出单元,用于输出所述文本数据。
进一步地,所述提取单元,包括:
读取模块,用于对所述文字图像进行文字区域读取;
抽取模块,用于根据所述文字区域抽取底层颜色特征和底层纹理特征;
融合模块,用于对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;
所述抽取模块具体还用于抽取所述文字区域的标签层全局特征;
所述融合模块具体还用于将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
进一步地,所述抽取模块,包括:
在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;
将所述文字区域转换为灰度图像;
在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;
将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。
进一步地,所述装置还包括:
第一训练单元,用于利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;
第二训练单元,用于利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
进一步地,所述装置还包括:
配置单元,用于利用预先配置的多种尺寸的卷积核,预设卷积神经网络模型;
第一构造单元,用于将获取的未标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第一训练数据集;
所述第一训练单元具体用于利用所述第一训练数据集对所述卷积神经网络模型进行训练,得到预训练模型;
第二构造单元,用于将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集;
所述第二训练单元具体用于利用所述第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
进一步地,所述装置还包括:
确定单元,用于根据获取的未标注图像,确定分割区域的最小尺寸;
分割单元,用于根据所述分割区域的最小尺寸,将所述未标注图像进行超像素分割,得到分割图像;
所述确定单元具体用于基于所述分割图像确定图像融合阈值;
融合单元,用于根据所述图像融合阈值,对所述分割图像进行区域融合,得到融合图像;
标注单元,用于对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注,得到已标注图像。
进一步地,所述装置还包括:
保存单元,用于将输出的文本数据保存在预先建立的区块链网络的存储节点中。
根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述文字识别方法对应的操作。
根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文字识别方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种文字识别方法及装置、存储介质、计算机设备。与现有技术相比,本发明实施例通过获取文字图像;对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;输出所述文本数据。从而能够无需标注数据即可实现文字识别,提高文字的识别效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文字识别方法流程图;
图2示出了本发明实施例提供的一种文字识别装置组成框图;
图3示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种文字识别方法,如图1所示,该方法包括:
101、获取文字图像。
其中,所述文字图像具体可以为包含不同语种的文字的图像,近年来,随着东南亚国家金融数字化转型,小语种如泰语的文字识别需求愈发旺盛,针对泰语等小语种的文字识别技术也应运而生,网络上也存在海量的小语种文字图像,从而扩大本发明实施例的应用范围,快速获取训练样本和测试样本。
102、对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量。
其中,具体过程可以包括:对所述文字图像进行文字区域读取;根据所述文字区域抽取底层颜色特征和底层纹理特征;对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;抽取所述文字区域的标签层全局特征;将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。具体地,在所述文字图像中,仅需要将存在小语种文字的区域读取出来,并抽取所述小语种文字区域的底层颜色特征和底层纹理特征,将所述底层颜色特征和底层纹理特征进行叠加,得到融合后的底层局部特征。通过抽取所述小语种文字区域的标签层全局特征,并将所述底层局部特征与所述标签层全局特征进行直接叠加融合,即可得到所述小语种文字区域中所有像素的特征向量。以便于后续能够利用所述特征向量进行文字的识别,提高识别效率和准确性。
103、通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据。
其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的。所述文字识别模型具体可以为预先训练的卷积神经网络模型,预先网络上收集的海量未标注的文字图像作为训练样本数据和测试样本数据,如可以收集10W张未标注的小语种文字图像,将9W张未标注的小语种文字图像确定为训练样本数据,而将1W张未标注的小语种文字图像确定为测试样本数据。对所述训练样本数据和测试样本数据进行特征提取,得到特征向量,通过预先训练的文字识别模型对所述特征向量进行识别处理,从而能够得到文本数据。
104、输出所述文本数据。
具体地,在通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据之后,可以输出所述文本数据,在实际应用场景中,可以将输出的文本数据保存至预先建立的区块链网络节点中,以提高所述文本数据存储的安全性,尤其是对于一些涉及隐私的信息,能够有效防止信息的外泄。
本发明提供一种文字识别方法,能够获取文字图像;对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;输出所述文本数据。从而能够解决现有标注的数据少,且人工标注需要对有较强的理解,标注难度大的技术问题,无需标注数据即可实现文字识别,提高文字的识别效率。
进一步的,为了更好的说明上述文字识别方法的过程,作为对上述实施例的细化和扩展,本发明实施例提供了几种可选实施例,但不限于此,具体如下所示:
对于本发明实施例,所述方法还包括:对所述文字图像进行文字区域读取;根据所述文字区域抽取底层颜色特征和底层纹理特征;对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;抽取所述文字区域的标签层全局特征;将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
其中,纹理是描述图像的一个重要底层特征,它是一种全局特征,它是物体表面或者图像中描述区域的一种明显特征。图像的纹理特征反映了图像的灰度变化规律,也反映了图像的结构信息和空间分布信息,在分析图像时,可以将灰度变化规律数字化并提取纹理特征,所述纹理特征具有尺度不变性和旋转不变性。对于本发明实施例,所述底层纹理特征具体可以通过统计分析法、结构分析法或频谱分析法等得到,本发明实施例不做具体规定。颜色是图像另一个重要的底层特征,它描述的是图像或者多对区域的视觉特性,其在彩色图像处理中应用较为广泛,其抽取过程具体可以包括:选择合适的彩色空间描述颜色特征;采用一定的方法量化颜色特征。常用的颜色空间包括RGB、CMY等,本发明实施例不做具体规定。
对于本发明实施例,所述方法还包括:在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;将所述文字区域转换为灰度图像;在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。
其中,所述在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征的具体过程可以包括:首先将图像分解为R、G、B三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。所述在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征的过程具体可以包括:在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式进行合并其中i表示尺度,j表示方向,gabori表示尺度i的合并Gabor滤波图像,表示尺度i方向j上的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点的3×3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。具体地,可以先将彩色图像转换为灰色图像;在所述灰度图像上用同一频率Gabor滤波器分别在8个方向(0°、30°、45°、60°、90°、120°、135°、150°)和3个尺度上进行滤波;对每个尺度Gabor滤波后的输出图像进行合并处理,获得合并滤波图像;对于每幅图像,在每个尺度上可获得一幅合并Gabor滤波图像。在合并的Gabor滤波图像上对每个像素点的3×3邻域抽取相应的纹理特征;在每个像素点的3×3邻域抽取Gabor系数均值和方差作为每个像素点的纹理特征。在每个尺度上可抽取2维Gabor特征,所以在3各尺度上共抽取6维Gabor特征。
对于本发明实施例,所述方法还包括:利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
其中,所述第一训练数据集可以为未标注的文字图像。对于未标注的文字图像,通常文字是沿长边横向排列,则可以从图像的长边进行切分,将所述图像等分成若干子块,以便于识别各个子块中的字符,从而能够拼接为完整的一句话,由于分类的结果是单个字符,所以必须对图像进行切分,对于本发明实施例,图像划分为子块的数量可以根据需求进行设置,本发明实施例不做具体规定。按照预设的概率将子块随机打乱或者按照预设的概率从其他图像中用若干个子块替换当前图像的子块,如可以以50%的概率对多个子块进行随机打乱,或以50%的概率从其他图像中用3个子块替换当前图像的子块,从而得到用于预训练模型的第一训练数据集。需要说明的是,由于本步骤属于自监督学习的范畴,不需要人工进行标注处理,所以在实际应用场景中,可以通过代码进行实现,从而提高训练数据构造的效率和准确率。
所述卷积神经网络模型可以为对两个二分类任务求交叉熵损失,具体包括:1.当前图像子块的排列顺序是否正确;2.当前图像子块序列中是否有来自其他图像的子块。总的优化目标是最小化两个二分类任务的交叉熵损失之和,从而能够从大量的无标注图像数据中学习的语义信息。具体地,可以使用交叉熵作为损失函数,所述交叉熵经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。具体地,在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为p和1-p。此时表达式为:
其中:-yi——表示样本i的label,正类为1,负类为0;
-pi——表示样本i预测为正的概率。
对于本发明实施例,所述方法还包括:利用预先配置的多种尺寸的卷积核,预设卷积神经网络模型;将获取的未标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第一训练数据集;利用所述第一训练数据集对所述卷积神经网络模型进行训练,得到预训练模型;将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集;利用所述第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
其中,可以通过预先设计多尺度滑窗卷积神经网络对图像信息进行卷积处理,例如,假设输入图像的尺寸为W×H,则可以使用2×H、3×H、4×H三种尺寸的卷积核,分别学习2个像素,3个像素和4个像素间的上下文信息,每种尺寸卷积核可以以1个像素点为步长在所属图像上滑动,从而分别捕捉不同长度的上下文信息,而对于本申请,预先配置的卷积核数量和尺寸可以根据需求自行设置,本申请不做具体指定。具体地,如输入图像中包括abcd四个字符,每个字符占一个像素,则通过2×H尺寸的卷积核能提取ab的信息,通过3×H尺寸的卷积核能提取abc的信息,通过4×H尺寸的卷积核能提取abcd的信息。在实际场景中,由于获取的图像中句子的长度不同,而且拥有特定含义的词组长度不同,所以需要通过不同尺寸的卷积核才能更好地识别不同句子中的文字含义。
对于本发明实施例,所述方法还包括:根据获取的未标注图像,确定分割区域的最小尺寸;根据所述分割区域的最小尺寸,将所述未标注图像进行超像素分割,得到分割图像;基于所述分割图像确定图像融合阈值;根据所述图像融合阈值,对所述分割图像进行区域融合,得到融合图像;对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注,得到已标注图像。
其中,超像素分割是2003年Xiaofeng Ren提出和发展起来的图像分割技术,是指具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组,用少量的超像素代替大量的像素来表达图片特征,很大程度上降低了图像后处理的复杂度,所以通常作为分割算法的预处理步骤。
具体地,可以通过目标检测模型,确定所述待标注图像中的目标图像的坐标信息;基于所述坐标信息,确定分割区域的最小尺寸。获取当前分割图像中未标注的区域的像素的第二平均色彩值;基于所述第二平均色彩值,确定所述当前阈值。获取所述分割图像中各个分割区域内的像素的第一平均色彩值;根据所述当前阈值和所述第一平均色彩值,采用区域融合的方式,将所述分割图像中两个所述第一平均色彩值的差小于所述当前阈值的所述分割图像中对应的两个所述分割区域进行融合,得到当前融合图像。根据所述目标图像的类别,对所述局部区域中仅包括一个所述目标图像的局部区域进行标注。
对于本发明实施例,为了进一步提高识别结果的存储安全性,防止信息的外泄,所述方法还可以包括:将输出的文本数据保存在预先建立的区块链网络的存储节点中。
本发明提供一种文字识别方法,能够获取文字图像;对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;输出所述文本数据。从而能够解决现有标注的数据少,且人工标注需要对有较强的理解,标注难度大的技术问题,无需标注数据即可实现文字识别,提高文字的识别效率。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种文字识别装置,如图2所示,该装置包括:
获取单元21,可以用于获取文字图像;
提取单元22,可以用于对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;
识别单元23,可以用于通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;
输出单元24,可以用于输出所述文本数据。
进一步地,所述提取单元22,包括:
读取模块221,可以用于对所述文字图像进行文字区域读取;
抽取模块222,可以用于根据所述文字区域抽取底层颜色特征和底层纹理特征;
融合模块223,可以用于对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;
所述抽取模块222具体还可以用于抽取所述文字区域的标签层全局特征;
所述融合模块223具体还可以用于将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
进一步地,所述抽取模块222具体可以可以用于在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;将所述文字区域转换为灰度图像;在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。
进一步地,所述装置还包括:
第一训练单元25,可以用于利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;
第二训练单元26,可以用于利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
进一步地,所述装置还包括:
配置单元27,可以用于利用预先配置的多种尺寸的卷积核,预设卷积神经网络模型;
第一构造单元28,可以用于将获取的未标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第一训练数据集;
所述第一训练单元25具体可以用于利用所述第一训练数据集对所述卷积神经网络模型进行训练,得到预训练模型;
第二构造单元29,可以用于将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集;
所述第二训练单元26具体可以用于利用所述第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
进一步地,所述装置还包括:
确定单元210,可以用于根据获取的未标注图像,确定分割区域的最小尺寸;
分割单元211,可以用于根据所述分割区域的最小尺寸,将所述未标注图像进行超像素分割,得到分割图像;
所述确定单元210具体可以用于基于所述分割图像确定图像融合阈值;
融合单元212,可以用于根据所述图像融合阈值,对所述分割图像进行区域融合,得到融合图像;
标注单元213,可以用于对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注,得到已标注图像。
进一步地,所述装置还包括:
保存单元214,可以用于将输出的文本数据保存在预先建立的区块链网络的存储节点中。
本发明提供一种文字识别方法,能够获取文字图像;对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;输出所述文本数据。从而能够解决现有标注的数据少,且人工标注需要对有较强的理解,标注难度大的技术问题,无需标注数据即可实现文字识别,提高文字的识别效率。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文字识别方法。
图3示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图3所示,该计算机设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器302,用于执行程序310,具体可以执行上述文字识别方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器可以是非易失性的,也可以是易失性的。
程序310具体可以用于使得处理器302执行以下操作:
获取文字图像;
对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;
通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;
输出所述文本数据。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种文字识别方法,其特征在于,包括:
获取文字图像;
对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;
通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用未标注文字图像构造的第一训练数据集和已标注文字图像构造的第二训练数据集进行训练得到的;
输出所述文本数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量,包括:
对所述文字图像进行文字区域读取;
根据所述文字区域抽取底层颜色特征和底层纹理特征;
对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;
抽取所述文字区域的标签层全局特征;
将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文字区域抽取底层颜色特征和底层纹理特征,包括:
在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;
所述对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征,包括:
将所述文字区域转换为灰度图像;
在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;
将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。
4.根据权利要求1所述的方法,其特征在于,所述通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据之前,所述方法还包括:
利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;
利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
5.根据权利要求4所述的方法,其特征在于,所述利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型,包括:
利用预先配置的多种尺寸的卷积核,预设卷积神经网络模型;
将获取的未标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第一训练数据集;
利用所述第一训练数据集对所述卷积神经网络模型进行训练,得到预训练模型;
所述利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型,包括:
将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集;
利用所述第二训练数据集对所述预训练模型进行训练,得到文字识别模型。
6.根据权利要求5所述的方法,其特征在于,所述将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集之前,所述方法还包括:
根据获取的未标注图像,确定分割区域的最小尺寸;
根据所述分割区域的最小尺寸,将所述未标注图像进行超像素分割,得到分割图像;
基于所述分割图像确定图像融合阈值;
根据所述图像融合阈值,对所述分割图像进行区域融合,得到融合图像;
对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注,得到已标注图像。
7.根据权利要求1所述的方法,其特征在于,所述输出所述文本数据之后,所述方法还包括:
将输出的文本数据保存在预先建立的区块链网络的存储节点中。
8.一种文字识别装置,其特征在于,包括:
获取单元,用于获取文字图像;
提取单元,用于对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;
识别单元,用于通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;
输出单元,用于输出所述文本数据。
9.一种存储介质,所述存储介质中存储有可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的文字识别方法对应的操作。
10.一种计算机设备,包括:处理器、存储器,所述存储器用于存放可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文字识别方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576748.8A CN112613502A (zh) | 2020-12-28 | 2020-12-28 | 文字识别方法及装置、存储介质、计算机设备 |
PCT/CN2021/125181 WO2022142611A1 (zh) | 2020-12-28 | 2021-10-21 | 文字识别方法及装置、存储介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576748.8A CN112613502A (zh) | 2020-12-28 | 2020-12-28 | 文字识别方法及装置、存储介质、计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112613502A true CN112613502A (zh) | 2021-04-06 |
Family
ID=75248299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011576748.8A Pending CN112613502A (zh) | 2020-12-28 | 2020-12-28 | 文字识别方法及装置、存储介质、计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112613502A (zh) |
WO (1) | WO2022142611A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033465A (zh) * | 2021-04-13 | 2021-06-25 | 北京百度网讯科技有限公司 | 活体检测模型训练方法、装置、设备以及存储介质 |
CN113129298A (zh) * | 2021-05-06 | 2021-07-16 | 北京思图场景数据科技服务有限公司 | 文本图像的清晰度识别方法 |
CN113159223A (zh) * | 2021-05-17 | 2021-07-23 | 湖北工业大学 | 一种基于自监督学习的颈动脉超声图像识别方法 |
CN113420766A (zh) * | 2021-07-05 | 2021-09-21 | 北京理工大学 | 一种融合语言信息的低资源语种ocr方法 |
CN113449725A (zh) * | 2021-06-30 | 2021-09-28 | 平安科技(深圳)有限公司 | 对象分类方法、装置、设备及存储介质 |
CN113822275A (zh) * | 2021-09-27 | 2021-12-21 | 北京有竹居网络技术有限公司 | 一种图像语种识别方法及其相关设备 |
WO2022142611A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 文字识别方法及装置、存储介质、计算机设备 |
CN115273184A (zh) * | 2022-07-15 | 2022-11-01 | 北京百度网讯科技有限公司 | 人脸活体检测模型训练方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051686B (zh) * | 2023-01-13 | 2023-08-01 | 中国科学技术大学 | 图上文字擦除方法、系统、设备及存储介质 |
CN116939292B (zh) * | 2023-09-15 | 2023-11-24 | 天津市北海通信技术有限公司 | 轨道交通环境下的视频文本内容监测方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968637B (zh) * | 2012-12-20 | 2015-06-03 | 山东科技大学 | 一种复杂背景图像文字分割方法 |
CN106599051B (zh) * | 2016-11-15 | 2020-02-07 | 北京航空航天大学 | 一种基于生成图像标注库的图像自动标注的方法 |
CN112613502A (zh) * | 2020-12-28 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 文字识别方法及装置、存储介质、计算机设备 |
-
2020
- 2020-12-28 CN CN202011576748.8A patent/CN112613502A/zh active Pending
-
2021
- 2021-10-21 WO PCT/CN2021/125181 patent/WO2022142611A1/zh active Application Filing
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022142611A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 文字识别方法及装置、存储介质、计算机设备 |
CN113033465B (zh) * | 2021-04-13 | 2023-11-14 | 北京百度网讯科技有限公司 | 活体检测模型训练方法、装置、设备以及存储介质 |
CN113033465A (zh) * | 2021-04-13 | 2021-06-25 | 北京百度网讯科技有限公司 | 活体检测模型训练方法、装置、设备以及存储介质 |
CN113129298A (zh) * | 2021-05-06 | 2021-07-16 | 北京思图场景数据科技服务有限公司 | 文本图像的清晰度识别方法 |
CN113129298B (zh) * | 2021-05-06 | 2024-01-12 | 北京思图场景数据科技服务有限公司 | 文本图像的清晰度识别方法 |
CN113159223A (zh) * | 2021-05-17 | 2021-07-23 | 湖北工业大学 | 一种基于自监督学习的颈动脉超声图像识别方法 |
CN113449725A (zh) * | 2021-06-30 | 2021-09-28 | 平安科技(深圳)有限公司 | 对象分类方法、装置、设备及存储介质 |
CN113449725B (zh) * | 2021-06-30 | 2024-02-02 | 平安科技(深圳)有限公司 | 对象分类方法、装置、设备及存储介质 |
CN113420766A (zh) * | 2021-07-05 | 2021-09-21 | 北京理工大学 | 一种融合语言信息的低资源语种ocr方法 |
CN113420766B (zh) * | 2021-07-05 | 2022-09-16 | 北京理工大学 | 一种融合语言信息的低资源语种ocr方法 |
CN113822275A (zh) * | 2021-09-27 | 2021-12-21 | 北京有竹居网络技术有限公司 | 一种图像语种识别方法及其相关设备 |
CN113822275B (zh) * | 2021-09-27 | 2024-09-27 | 北京有竹居网络技术有限公司 | 一种图像语种识别方法及其相关设备 |
CN115273184A (zh) * | 2022-07-15 | 2022-11-01 | 北京百度网讯科技有限公司 | 人脸活体检测模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022142611A1 (zh) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613502A (zh) | 文字识别方法及装置、存储介质、计算机设备 | |
He et al. | Multi-scale multi-task fcn for semantic page segmentation and table detection | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
CN111985464B (zh) | 面向法院判决文书的多尺度学习的文字识别方法及系统 | |
Chandio et al. | Character classification and recognition for Urdu texts in natural scene images | |
Bose et al. | Light weight structure texture feature analysis for character recognition using progressive stochastic learning algorithm | |
Chen et al. | Page segmentation for historical handwritten document images using conditional random fields | |
Shehu et al. | Character recognition using correlation & hamming distance | |
Wu et al. | STR transformer: a cross-domain transformer for scene text recognition | |
Kataria et al. | CNN-bidirectional LSTM based optical character recognition of Sanskrit manuscripts: A comprehensive systematic literature review | |
Aravinda et al. | Template matching method for Kannada handwritten recognition based on correlation analysis | |
Hussein | Fast learning neural network based on texture for Arabic calligraphy identification | |
Vidhyalakshmi et al. | Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing | |
Li et al. | Salient traffic sign recognition based on sparse representation of visual perception | |
Yu et al. | Multiscale fully convolutional network‐based approach for multilingual character segmentation | |
CN114332493A (zh) | 一种跨维度交互式显著检测模型及其检测方法 | |
Alsimry et al. | A new approach for finding duplicated words in scanned Arabic documents based on OCR and SURF. | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
Shen et al. | Finding text in natural scenes by figure-ground segmentation | |
Mosannafat et al. | Farsi text detection and localization in videos and images | |
Islam et al. | An enhanced MSER pruning algorithm for detection and localization of bangla texts from scene images. | |
Gujjeti et al. | ‘Analysis of various approaches for scene text detection and recognition | |
Corcoll | Semantic Image Cropping | |
Kotecha et al. | Document Image Binarization Using U-Net | |
Dhali et al. | Pattern Recognition Techniques in Image-Based Material Classification of Ancient Manuscripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40049937 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |