CN116912852A - 名片的文本识别方法、装置及存储介质 - Google Patents
名片的文本识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116912852A CN116912852A CN202310922909.1A CN202310922909A CN116912852A CN 116912852 A CN116912852 A CN 116912852A CN 202310922909 A CN202310922909 A CN 202310922909A CN 116912852 A CN116912852 A CN 116912852A
- Authority
- CN
- China
- Prior art keywords
- text
- business card
- image
- data
- transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000009466 transformation Effects 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 238000001212 derivatisation Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 21
- 238000010276 construction Methods 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 102100032202 Cornulin Human genes 0.000 claims 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims 1
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本文公开名片的文本识别方法、装置及存储介质。所述方法包括:从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本;建立基于卷积神经网络的名片文本识别模型,利用训练数据集对模型进行训练得到训练后的模型;将待识别名片的图像数据输入所述模型进行文本识别处理。本文自动扩大了模型训练数据集的数据量,提高了名片文本识别的准确性。
Description
技术领域
本文涉及但不限于文本识别技术领域,尤其涉及一种名片的文本识别方法、装置及存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过文本识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
文本识别可以借助于模型进行,但是模型需要训练,训练用的数据集是标注过的数据集。在名片单场景文本识别任务中,因为文字相关数据集涉及隐私(比如:姓名、电话、地址等)较为敏感,从而不便于交流,所以相关的数据集比较少。并且对文本任务的标注成本远高于一般深度学习任务(比如目标检测任务)的标注成本,因此,名片单场景标注数据量少且成本高,影响了名片OCR技术的发展。
发明内容
第一方面,本公开实施例提供了一种名片的文本识别方法,包括:
从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本;
建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型;
将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。
第二方面,本公开实施例提供了一种名片的文本识别装置,包括:
样本处理模块,设置为从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本;
模型建立及训练模块,设置为建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型;
文本识别模块,设置为将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。
第三方面,本公开实施例提供了一种转换图像数据的装置,包括:存储器及处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现上述名片的文本识别方法的步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述名片的文本识别方法的步骤。
本公开实施例提供的名片的文本识别方法、装置及存储介质,从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本。上述训练数据集的生成方法自动扩大了训练数据集的数据量。建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型;将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。由于卷积神经网络模型可以进行深度学习,所以提高了名片文本识别的准确性。
附图说明
附图用来提供对本公开技术方案的理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
图1为本公开实施例提供的一种名片的文本识别方法的流程图;
图2为本公开实施例提供的一种名片图像的示意图;
图3为本公开实施例提供的一种手机号码的数据构造规则示意图;
图4为本公开实施例提供的一种地址的数据构造规则示意图;
图5为本公开实施例提供的一种背景纹理的示意图;
图6为本公开实施例提供的一种不同字体类型和大小的文本数据图像示意图;
图7为本公开实施例提供的一种变换后的背景纹理的示意图;
图8为本公开实施例提供的一种倾斜后的数字串示意图;
图9为本公开实施例提供的一种四个方向的运动模糊卷积核的示意图;
图10为本公开实施例提供的一种运动模糊处理后的数字串示意图;
图11为本公开实施例提供的一种卷积循环神经网络的结构示意图;
图12-1为本公开实施例提供的一种GRU模型的正向计算示意图;
图12-2为本公开实施例提供的一种GRU模型的反向计算示意图;
图13为本公开实施例提供的一种名片的文本识别装置的结构示意图;
图14为本公开实施例提供的另一种名片的文本识别装置的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,下文中将结合附图对本公开的实施例进行详细说明。注意,实施方式可以以多个不同形式来实施。所属技术领域的普通技术人员可以很容易地理解一个事实,就是方式和内容可以在不脱离本公开的宗旨及其范围的条件下被变换为各种各样的形式。因此,本公开不应该被解释为仅限定在下面的实施方式所记载的内容中。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。
本说明书中的“第一”、“第二”、“第三”等序数词是为了避免构成要素的混同而设置,而不是为了在数量方面上进行限定的。
如图1所示,本公开实施例提供了一种名片的文本识别方法,包括:
步骤S10,从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本;
步骤S20,建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型;
步骤S30,将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。
上述实施例提供的名片的文本识别方法,从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本。上述训练数据集的生成方法自动扩大了训练数据集的数据量。建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型;将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。由于卷积神经网络模型可以进行深度学习,所以提高了名片文本识别的准确性。
在一种示例性的实施方式中,名片的文本数据类型可以包括以下至少一种:个人姓名、个人手机号、个人电话、个人电子邮箱、个人职务、公司名称、公司地址、公司电话和公司网址。
图2提供了一种名片图像的示意图。如图2所示,名片的文本数据类型可以包括:公司名称、公司地址、公司网址、个人姓名、个人电话和个人邮箱。
在一种示例性的实施方式中,对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,包括:
对所述名片样本的任意一种文本数据的子图像进行文本识别确定文本内容和文本构造规则,根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据。
不同类型的文本数据有各自独有的数据构造规则。图3提供了一种手机号码数据的构造规则。如图3所示,手机号码一般由3位数字的号段(通常以数字1开头)加上8位数字构成。图4提供了一种地址数据的构造规则。如图4所示,地址是由省级行政区、地级行政区、县级行政区、乡级行政区和门牌号五级字段按照顺序构成的。
在一种示例性的实施方式中,根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据,包括:
根据文本数据的构造规则将所述文本数据的内容分割成至少一个原始字段,对每个原始字段的内容进行至少一次变换生成至少一个变换字段,由原始字段和变换字段的组合,以及变换字段和变换字段的组合生成至少一条新的衍生文本数据。
以手机号码为例。假设原始的手机号码为“13912345678”,该手机号码可以分成两个字段:第一字段(“3位数字的号段”)和第二字段(“8位数字”)。对第一字段进行变换生成“136”、“181”、“198”等。对第二字段进行变换生成任意多组8位数字。由原始的字段和变换字段的组合(第一字段和第二字段),以及变换字段和变换字段的组合(第一字段和第二字段)生成至少一条新的衍生文本数据。
在一种示例性的实施方式中,对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,还包括:
提取所述子图像的背景纹理数据,将每一条衍生文本数据与所述背景纹理数据进行融合生成融合图像,对所述融合图像进行字体变换和图像变换得到衍生文本图像。
图5提供了一种背景纹理的示意图。
在一种示例性的实施方式中,所述字体变换包括:改变字体的大小和/或类型。其中,字体的类型比如:黑体、宋体、幼圆、仿宋等。图6提供了一种不同字体类型和大小的文本数据图像。
在一种示例性的实施方式中,所述图像变换可以包括以下至少一种变换:背景纹理的变换、图像的投影变换、图像的明暗变换以及图像的模糊变换。
在一种示例性的实施方式中,所述背景纹理的变换包括以下至少一种:旋转、缩放和裁剪。
图7提供了一种变换后的背景纹理的示意图。图7所示的背景纹理是对图5所示的背景纹理进行旋转(旋转90度)、缩放和裁剪后得到的。
在一种示例性的实施方式中,图像的投影变换包括以下至少一种处理:倾斜、旋转和扭曲形变。
图8提供了一种倾斜后的数字串示意图。
在一种示例性的实施方式中,图像的明暗变换包括:通过第一卷积核对图像数据进行第一卷积操作,改变所述图像的亮度。
在一种示例性的实施方式中,通过第一卷积核对图像数据进行第一卷积操作,包括:对第一卷积核乘以相应的系数,如果第一卷积核各元素之和小于1,则图像亮度减小;如果第一卷积核各元素之和大于1,则图像亮度增加;如果第一卷积核各元素之和等于1,则图像亮度不变;所述系数的绝对值越大,则亮度变化量越大。
在一种示例性的实施方式中,图像的模糊变换,包括:通过第二卷积核对图像数据进行第二卷积操作,改变所述图像的清晰度。
在一种示例性的实施方式中,所述第二卷积核包括以下至少一种:均值模糊卷积核、中值模糊卷积核、高斯模糊卷积核和运动模糊卷积核。
名片图像的采集过程中,光线的明暗、相机的对焦和抖动都会导致图像的模糊,因此在生成衍生文本图像时也要考虑模糊的影响。对图像进行明暗变化涉及到卷积计算,其关键在于设计一个合适的滤波核(第一卷积核)。使用均值模糊、中值模糊或高斯模糊可以产生类似镜头模糊的效果。运动模糊卷积核可以模拟镜头运动造成的模糊效果。
在一种示例性的实施方式中,所述运动模糊卷积核包括至少一个运动方向的运动模糊卷积核:反对角线运动方向的运动模糊卷积核、对角线运动方向的运动模糊卷积核、竖直运动方向的运动模糊卷积核和水平运动方向的运动模糊卷积核。
图9示出了四个方向的运动模糊卷积核。如图9所示,四个运动模糊卷积核从左至右分别表示:沿反对角线方向、竖直方向、水平方向、对角线方向的运动模糊卷积核。
图10示出了运动模糊处理后的数字串示意图。如图10所示,从左到右的数字串分别是对原始的数字串进行了沿反对角线方向、竖直方向、水平方向、对角线方向的运动模糊处理。
在一种示例性的实施方式中,所述卷积神经网络包括CRNN(ConvolutionRecurrent Neural Network,卷积循环神经网络)。
在一种示例性的实施方式中,如图11所示,所述卷积循环神经网络包括:卷积层、循环层和转录层;
其中,所述卷积层作为底层的骨干网络,用于从输入图像中提取特征序列;所述循环层在卷积层的基础上构建递归网络,将图像特征转换为序列特征,预测每个帧的标签分布;所述转录层通过全连接网络和softmax激活函数,将每帧的预测转换为最终的标签序列。
在一种示例性的实施方式中,所述卷积循环神经网络的循环层使用GRU(GateRecurrent Unit,门控循环单元)模型。
在一种示例性的实施方式中,所述GRU模型包括:单向GRU模型或双向GRU模型。其中,所述单向GRU模型只进行正向计算,所述双向GRU模型进行正向计算和反向计算。
图12-1和图12-2分别提供了GRU模型的正向计算示意图和反向计算示意图。
如图12-1所示,在GRU模型的正向计算中,GRU模型的输入为t时刻的隐藏节点的输入xt和t-1时刻的隐藏层状态ht-1(隐藏层状态包含了t时刻之前隐藏节点的相关信息),GRU模型的输出为t时刻隐藏节点的输出yt和传递给下一个隐藏节点的隐藏层状态ht。在正向计算时,隐藏层的ht与ht-1有关。
如图12-2所示,在GRU模型的反向计算中,GRU模型的输入为t时刻的隐藏节点的输入xt和t+1时刻的隐藏层状态ht+1(隐藏层状态包含了t时刻之后隐藏节点的相关信息),GRU模型的输出为t时刻隐藏节点的输出yt和传递给上一个隐藏节点的的隐藏层状态ht。在反向计算时,隐藏层的ht与ht+1有关。
正向计算在处理特征向量时只能利用当前时刻之前的信息,割裂了特征向量上下文的整体联系。因此,为了让特征向量含有充足的时序信息,可以将正向计算和反向计算结合起来使用。因此,双向GRU模型相对于单向GRU模型,特征向量的时序信息更加充足,文本识别的识别准确率更高。
如图13所示,本公开实施例提供了一种名片的文本识别装置,包括:
样本处理模块10,设置为从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本;
模型建立及训练模块20,设置为建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型;
文本识别模块30,设置为将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。
上述实施例提供的名片的文本识别装置,样本处理模块从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本。上述训练数据集的生成方法自动扩大了训练数据集的数据量。模型建立及训练模块建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型。文本识别模块将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。由于卷积神经网络模型可以进行深度学习,所以提高了名片文本识别的准确性。
在一种示例性的实施方式中,样本处理模块,设置为采用以下方式对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换:对所述名片样本的任意一种文本数据的子图像进行文本识别确定文本内容和文本构造规则,根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据。
在一种示例性的实施方式中,名片的文本数据类型包括以下至少一种:个人姓名、个人手机号、个人电话、个人电子邮箱、个人职务、公司名称、公司地址、公司电话和公司网址。
在一种示例性的实施方式中,样本处理模块,还设置为采用以下方式对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换:提取所述子图像的背景纹理数据,将每一条衍生文本数据与所述背景纹理数据进行融合生成融合图像,对所述融合图像进行字体变换和图像变换得到衍生文本图像。
在一种示例性的实施方式中,样本处理模块,设置为采用以下方式根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据:根据文本数据的构造规则将所述文本数据的内容分割成至少一个原始字段,对每个原始字段的内容进行至少一次变换生成至少一个变换字段,由原始字段和变换字段的组合,以及变换字段和变换字段的组合生成至少一条新的衍生文本数据。
在一种示例性的实施方式中,所述字体变换包括:改变字体的大小和/或类型;
所述图像变换包括以下至少一种变换:背景纹理的变换、图像的投影变换、图像的明暗变换以及图像的模糊变换。
在一种示例性的实施方式中,所述背景纹理的变换包括以下至少一种:旋转、缩放和裁剪;
所述图像的投影变换包括以下至少一种处理:倾斜、旋转和扭曲形变;
所述图像的明暗变换包括:通过第一卷积核对图像数据进行第一卷积操作,改变所述图像的亮度;
所述图像的模糊变换包括:通过第二卷积核对图像数据进行第二卷积操作,改变所述图像的清晰度。
在一种示例性的实施方式中,所述第二卷积核包括以下至少一种:均值模糊卷积核、中值模糊卷积核、高斯模糊卷积核和运动模糊卷积核。
在一种示例性的实施方式中,所述运动模糊卷积核包括至少一个运动方向的运动模糊卷积核:反对角线运动方向的运动模糊卷积核、对角线运动方向的运动模糊卷积核、竖直运动方向的运动模糊卷积核和水平运动方向的运动模糊卷积核。
在一种示例性的实施方式中,所述卷积神经网络包括卷积循环神经网络CRNN。
其中,所述卷积循环神经网络包括:卷积层、循环层和转录层。
在一种示例性的实施方式中,所述卷积循环神经网络的循环层使用单向门控循环单元GRU模型或双向GRU模型。
如图14所示,本公开实施例提供了一种名片的文本识别装置,包括:存储器及处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现上述名片的文本识别方法的步骤。
本公开实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述名片的文本识别方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
应该注意,上述实施例或实施方式仅仅是示例性的,而不是限制性的。因此,本公开不限于在此具体示出和描述的内容。可以对实施的形式及细节进行多种修改、替换或省略,而不脱离本公开的范围。
Claims (14)
1.一种名片的文本识别方法,包括:
从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本;
建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型;
将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。
2.如权利要求1所述的方法,其特征在于:
对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,包括:
对所述名片样本的任意一种文本数据的子图像进行文本识别确定文本内容和文本构造规则,根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据。
3.如权利要求2所述的方法,其特征在于:
对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,还包括:
提取所述子图像的背景纹理数据,将每一条衍生文本数据与所述背景纹理数据进行融合生成融合图像,对所述融合图像进行字体变换和图像变换得到衍生文本图像。
4.如权利要求2所述的方法,其特征在于:
根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据,包括:
根据文本数据的构造规则将所述文本数据的内容分割成至少一个原始字段,对每个原始字段的内容进行至少一次变换生成至少一个变换字段,由原始字段和变换字段的组合,以及变换字段和变换字段的组合生成至少一条新的衍生文本数据。
5.如权利要求3所述的方法,其特征在于:
所述字体变换包括:改变字体的大小和/或类型;
所述图像变换包括以下至少一种变换:背景纹理的变换、图像的投影变换、图像的明暗变换以及图像的模糊变换。
6.如权利要求5所述的方法,其特征在于:
所述背景纹理的变换包括以下至少一种:旋转、缩放和裁剪;
所述图像的投影变换包括以下至少一种处理:倾斜、旋转和扭曲形变;
所述图像的明暗变换包括:通过第一卷积核对图像数据进行第一卷积操作,改变所述图像的亮度;
所述图像的模糊变换包括:通过第二卷积核对图像数据进行第二卷积操作,改变所述图像的清晰度。
7.如权利要求6所述的方法,其特征在于:
所述第二卷积核包括以下至少一种:均值模糊卷积核、中值模糊卷积核、高斯模糊卷积核和运动模糊卷积核。
8.如权利要求7所述的方法,其特征在于:
所述运动模糊卷积核包括至少一个运动方向的运动模糊卷积核:反对角线运动方向的运动模糊卷积核、对角线运动方向的运动模糊卷积核、竖直运动方向的运动模糊卷积核和水平运动方向的运动模糊卷积核。
9.如权利要求1所述的方法,其特征在于:
所述卷积神经网络包括卷积循环神经网络CRNN;
其中,所述卷积循环神经网络包括:卷积层、循环层和转录层。
10.如权利要求9所述的方法,其特征在于:
所述卷积循环神经网络的循环层使用单向门控循环单元GRU模型或双向GRU模型。
11.如权利要求1所述的方法,其特征在于:
名片的文本数据类型包括以下至少一种:个人姓名、个人手机号、个人电话、个人电子邮箱、个人职务、公司名称、公司地址、公司电话和公司网址。
12.一种名片的文本识别装置,包括:
样本处理模块,设置为从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像;对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换,得到所述子图像对应的衍生文本图像;将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本;
模型建立及训练模块,设置为建立基于卷积神经网络的名片文本识别模型,利用所述训练数据集对所述名片文本识别模型进行训练,得到训练后的名片文本识别模型;
文本识别模块,设置为将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。
13.一种名片的文本识别装置,包括:存储器及处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现权利要求1-11中任一项所述的名片的文本识别方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-11中任一项所述的名片的文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310922909.1A CN116912852B (zh) | 2023-07-25 | 2023-07-25 | 名片的文本识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310922909.1A CN116912852B (zh) | 2023-07-25 | 2023-07-25 | 名片的文本识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912852A true CN116912852A (zh) | 2023-10-20 |
CN116912852B CN116912852B (zh) | 2024-10-01 |
Family
ID=88364495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310922909.1A Active CN116912852B (zh) | 2023-07-25 | 2023-07-25 | 名片的文本识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912852B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948714A (zh) * | 2019-03-22 | 2019-06-28 | 华南理工大学 | 基于残差卷积和递归神经网络的中文场景文本行识别方法 |
CN110135411A (zh) * | 2019-04-30 | 2019-08-16 | 北京邮电大学 | 名片识别方法和装置 |
CN110414519A (zh) * | 2019-06-27 | 2019-11-05 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置 |
CN111428710A (zh) * | 2020-03-16 | 2020-07-17 | 五邑大学 | 一种文件分类协作机器人及基于其的图像文字识别方法 |
CN112633277A (zh) * | 2020-12-30 | 2021-04-09 | 杭州电子科技大学 | 基于深度学习的航道船牌检测、定位及识别方法 |
CN112818951A (zh) * | 2021-03-11 | 2021-05-18 | 南京大学 | 一种票证识别的方法 |
CN112989921A (zh) * | 2020-12-31 | 2021-06-18 | 上海智臻智能网络科技股份有限公司 | 一种目标图像信息识别方法及其装置 |
WO2021142765A1 (en) * | 2020-01-17 | 2021-07-22 | Microsoft Technology Licensing, Llc | Text line detection |
CN114049640A (zh) * | 2021-11-12 | 2022-02-15 | 上海浦东发展银行股份有限公司 | 一种票据文本检测方法、装置、电子设备及存储介质 |
CN114241495A (zh) * | 2022-02-28 | 2022-03-25 | 天津大学 | 一种用于脱机手写文本识别的数据增强方法 |
CN114419636A (zh) * | 2022-01-10 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备以及存储介质 |
US20220245954A1 (en) * | 2020-03-25 | 2022-08-04 | Tencent Technology (Shenzhen) Company Limited | Image recognition method, apparatus, terminal, and storage medium |
CN115393867A (zh) * | 2022-07-21 | 2022-11-25 | 阿里巴巴(中国)有限公司 | 文本识别模型生成方法、文本识别方法、设备及存储介质 |
-
2023
- 2023-07-25 CN CN202310922909.1A patent/CN116912852B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948714A (zh) * | 2019-03-22 | 2019-06-28 | 华南理工大学 | 基于残差卷积和递归神经网络的中文场景文本行识别方法 |
CN110135411A (zh) * | 2019-04-30 | 2019-08-16 | 北京邮电大学 | 名片识别方法和装置 |
CN110414519A (zh) * | 2019-06-27 | 2019-11-05 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置 |
WO2021142765A1 (en) * | 2020-01-17 | 2021-07-22 | Microsoft Technology Licensing, Llc | Text line detection |
CN111428710A (zh) * | 2020-03-16 | 2020-07-17 | 五邑大学 | 一种文件分类协作机器人及基于其的图像文字识别方法 |
US20220245954A1 (en) * | 2020-03-25 | 2022-08-04 | Tencent Technology (Shenzhen) Company Limited | Image recognition method, apparatus, terminal, and storage medium |
CN112633277A (zh) * | 2020-12-30 | 2021-04-09 | 杭州电子科技大学 | 基于深度学习的航道船牌检测、定位及识别方法 |
CN112989921A (zh) * | 2020-12-31 | 2021-06-18 | 上海智臻智能网络科技股份有限公司 | 一种目标图像信息识别方法及其装置 |
CN112818951A (zh) * | 2021-03-11 | 2021-05-18 | 南京大学 | 一种票证识别的方法 |
CN114049640A (zh) * | 2021-11-12 | 2022-02-15 | 上海浦东发展银行股份有限公司 | 一种票据文本检测方法、装置、电子设备及存储介质 |
CN114419636A (zh) * | 2022-01-10 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备以及存储介质 |
CN114241495A (zh) * | 2022-02-28 | 2022-03-25 | 天津大学 | 一种用于脱机手写文本识别的数据增强方法 |
CN115393867A (zh) * | 2022-07-21 | 2022-11-25 | 阿里巴巴(中国)有限公司 | 文本识别模型生成方法、文本识别方法、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
DUC PHAN VAN HOAI等: "Text recognition for Vietnamese identity card based on deep featuresnetwork", 《INTERNATIONAL JOURNAL ON DOCUMENT ANALYSIS AND RECOGNITION (IJDAR)》, 17 February 2021 (2021-02-17), pages 1 - 19 * |
王来兵: "基于卷积神经网络与GPU计算的名片文本识别算法研究", 《长春工程学院学报(自然科学版)》, vol. 21, no. 3, 31 December 2020 (2020-12-31), pages 100 - 104 * |
Also Published As
Publication number | Publication date |
---|---|
CN116912852B (zh) | 2024-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN108710847B (zh) | 场景识别方法、装置及电子设备 | |
Guo et al. | Eaten: Entity-aware attention for single shot visual text extraction | |
CN111476067A (zh) | 图像的文字识别方法、装置、电子设备及可读存储介质 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN108765532B (zh) | 儿童绘本模型建立方法、阅读机器人及存储设备 | |
CN111340035A (zh) | 一种火车票识别方法、系统、设备以及介质 | |
CN112990172B (zh) | 一种文本识别方法、字符识别方法及装置 | |
CN110210480B (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
CN112861842A (zh) | 基于ocr的案件文本识别方法及电子设备 | |
CN112597918A (zh) | 文本检测方法及装置、电子设备、存储介质 | |
Shah et al. | Efficient portable camera based text to speech converter for blind person | |
CN111291619A (zh) | 一种在线识别理赔单据中文字的方法、装置及客户端 | |
CN111339869A (zh) | 一种人脸识别方法、装置、计算机可读存储介质及设备 | |
CN113988223B (zh) | 证件图像识别方法、装置、计算机设备及存储介质 | |
CN113807218B (zh) | 版面分析方法、装置、计算机设备和存储介质 | |
CN112348024B (zh) | 一种基于深度学习优化网络的图文识别方法及系统 | |
CN116912852B (zh) | 名片的文本识别方法、装置及存储介质 | |
CN112801960B (zh) | 图像处理方法及装置、存储介质、电子设备 | |
CN112132150B (zh) | 文本串识别方法、装置及电子设备 | |
CN115311664A (zh) | 图像中文本类别的识别方法、装置、介质及设备 | |
CN112287653B (zh) | 产生电子合同的方法、计算设备和计算机存储介质 | |
CN115761389A (zh) | 图像样本的增广方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |