CN112464931A - 文本检测方法、模型训练方法及相关设备 - Google Patents

文本检测方法、模型训练方法及相关设备 Download PDF

Info

Publication number
CN112464931A
CN112464931A CN202011230246.XA CN202011230246A CN112464931A CN 112464931 A CN112464931 A CN 112464931A CN 202011230246 A CN202011230246 A CN 202011230246A CN 112464931 A CN112464931 A CN 112464931A
Authority
CN
China
Prior art keywords
text image
text
layer
image block
image blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011230246.XA
Other languages
English (en)
Other versions
CN112464931B (zh
Inventor
陈圣
蒋宁
王洪斌
周迅溢
吴海英
曾定衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202011230246.XA priority Critical patent/CN112464931B/zh
Publication of CN112464931A publication Critical patent/CN112464931A/zh
Application granted granted Critical
Publication of CN112464931B publication Critical patent/CN112464931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种文本检测方法、模型训练方法及相关设备,该方法包括:文本检测方法包括:对目标图像进行文本检测,获得至少一个文本区域;将每一所述文本区域进行分割获得至少一个文本图像块;将每一所述文本图像块的尺寸调整为预设尺寸;将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于确定所述文本图像块包括手写体文本的概率。本申请实施例可以避免手写体文本对文本识别准确度的影响。

Description

文本检测方法、模型训练方法及相关设备
技术领域
本申请涉及图像处理技术领域,尤其涉及一种文本检测方法、模型训练方法及相关设备。
背景技术
随着视频或图像处理等技术的发展,在图像中实现文本的自动识别和检测得到了广泛的应用。传统技术中,针对图像中文字的识别通常是统一进行识别,当存在用户手写输入的文本时,通常无法正确的识别出手写的文本,从而导致识别出错。因此,现有技术中存在手写体文本影响文本识别准确度的问题。
发明内容
本申请实施例提供一种文本检测方法、模型训练方法及相关设备,以解决手写体文本影响文本识别准确度的问题。
第一方面,本申请实施例提供了一种文本检测方法,包括:
对目标图像进行文本检测,获得至少一个文本区域;
将每一所述文本区域进行分割获得至少一个文本图像块;
将每一所述文本图像块的尺寸调整为预设尺寸;
将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于表示所述文本图像块包括手写体文本的概率。
第二方面,本申请实施例提供了一种分类模型训练方法,包括:
利用第一样本数据集中的文本图像块对卷积神经网络进行训练得到分类模型;
其中,所述第一样本数据集中的文本图像块的尺寸均为预设尺寸,所述第一样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述卷积神经网络为使用混合深度卷积核结构构建的。
第三方面,本申请实施例提供了一种模糊判断模型训练方法,包括:
利用第二样本数据集中的文本图像块对待训练的模糊判断模型进行训练得到模糊判断模型;
其中,所述第一样本数据集中的文本图像块的尺寸均为预设尺寸,所述第一样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述模糊判断模型包括浅层特征提取网络层、交叉注意模块、全局池化网络层、第一全连接网络层和第一softmax函数。
第四方面,本申请实施例提供了一种文本检测装置,包括:
检测模块,用于对目标图像进行文本检测,获得至少一个文本区域;
分割模块,用于将每一所述文本区域进行分割获得至少一个文本图像块;
调整模块,用于将每一所述文本图像块的尺寸调整为预设尺寸;
输入模块,将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于表示所述文本图像块包括手写体文本的概率。
第五方面,本申请实施例提供了一种分类模型训练装置,包括:
第一训练模块,用于利用第一样本数据集中的文本图像块对卷积神经网络进行训练得到分类模型;
其中,所述第一样本数据集中的文本图像块的尺寸均为预设尺寸,所述第一样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述卷积神经网络为使用混合深度卷积核结构构建的。
第六方面,本申请实施例提供了一种模糊判断模型训练方法,包括:
第二训练模块,用于利用第二样本数据集中的文本图像块对待训练模糊判断模型进行训练得到模糊判断模型;
其中,所述第一样本数据集中的文本图像块的尺寸均为预设尺寸,所述第一样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述待训练模糊判断模型包括浅层特征提取网络层、交叉注意模块、全局池化网络层、第一全连接网络层和第一softmax函数。
第七方面,本申请实施例提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述文本检测方法的步骤,或者,所述计算机程序被所述处理器执行时实现上述分类模型训练方法的步骤,或者,所述计算机程序被所述处理器执行时实现上述模糊判断模型训练方法的步骤。
第八方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述文本检测方法的步骤,或者,所述计算机程序被处理器执行时实现上述分类模型训练方法的步骤,或者,所述计算机程序被所述处理器执行时实现上述模糊判断模型训练方法的步骤。
本申请实施例中,通过对目标图像进行文本检测,获得至少一个文本区域;将每一所述文本区域进行分割获得至少一个文本图像块;将每一所述文本图像块的尺寸调整为预设尺寸;将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于表示所述文本图像块包括手写体文本的概率。这样,实现了对手写体文本和印刷体文本的分类,从而可以仅对印刷体文本进行识别,或者对印刷体文本和手写体文本分别进行独立的识别。因此,本申请实施例可以避免手写体文本对文本识别准确度的影响。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本检测方法的流程图;
图2是本申请实施例提供的文本检测方法中模糊判断模型的结构图;
图3是本申请实施例提供的文本检测方法中交叉注意模块的结构图;
图4是本申请实施例提供的文本检测方法中注意力块的结构图;
图5是本申请实施例提供的文本检测方法中分类模型的结构图;
图6是本申请实施例提供的分类模型训练方法的流程图;
图7是本申请实施例提供的模糊判断模型训练方法的流程图;
图8是本申请实施例提供的文本检测装置的结构图;
图9是本申请实施例提供的分类模型训练装置的结构图;
图10是本申请实施例提供的模糊判断模型训练装置的结构图;
图11是本申请实施例提供的电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的一种文本检测方法的流程图,如图1所示,包括以下步骤:
步骤101,对目标图像进行文本检测,获得至少一个文本区域;
本申请实施例中,上述目标图像可以为一个视频中的一帧或者多帧图像,也可以为拍照等方式获取的单一图片。目标图像中包括文本,该文本可以为由汉字、数字、字母和标点符号中的至少一者组成的字符串。上述目标图像中可以包括印刷体文本和手写体文本中的至少一者。其中,印刷体文本可以包括但不限于通过计算机输入的文本,上述手写体文本可以理解为用户手写输入的文本,以一个合同为例,可以首先通过计算机编辑合同模版内容,然后将合同模版内容打印出来,最后由用户手动写入相关信息,例如签名等。此时合同模版内容可以理解为印刷体文本,手写签名为手写体文本。
上述文本检测可以理解为,检测目标图像中是否存在文本,当存在文本的时候,提取该文本对应的文本区域。例如,可以通过craft算法提取出包含文本的图像块,该图像块可以称之为文本区域,在目标图像中可以包括一个或者多个文本区域。
需要说明的是,当上述目标图像为视频中的图像时,还需要提取视频中的图像帧,获得上述目标图像。也就是说,在本申请实施例中,所述对目标图像进行文本检测,获得至少一个文本区域的步骤之前,所述方法还包括:
每隔预设时间间隔提取待检测的视频中的图像帧,获得所述目标图像。
上述预设时间间隔可以根据实际需要进行设置,例如,可以为2帧对应的时间,即每间隔两帧提取一图像帧,得到目标图像。由于将每间隔两帧提取的图像帧作为目标图像,这样可以减小图像的处理量。
步骤102,将每一所述文本区域进行分割获得至少一个文本图像块;
本申请实施例中,对于分割的方式可以根据实际需要进行设置,例如,在一些实施例中,可以基于文本区域的高度,按照一定比例对文本区域进行分割,从而得到至少一个文本图像块,也可以按照固定的长度,对文本图像块进行分割,从而得到至少一个文本图像块,还可以基于文本区域的整体长度的大小进行均匀间隔分割,得到多个长度一致的文本图像块。
步骤103,将每一所述文本图像块的尺寸调整为预设尺寸;
本实施例中,由于craft算法提取的文本区域的大小长度不一,通过进行分割和调整可以将得到的文本图像块统一调整为预设尺寸。文本区域的大小可以理解为文本区域的高度。上述预设尺寸可以根据实际需要进行设置,例如,在一实施例中,该尺寸可以为30像素*75像素。
应理解,每一个文本区域可以分割获得一个或者多个文本图像块,不同文本区域可分割得到的文本图像块的数量可以相同或者不同,其中,分割后的图像块的尺寸可以为预设尺寸,也可以大于预设尺寸,还可以小于预设尺寸,具体的,可以将不为预设尺寸的文本图像块统一调整为大小为预设尺寸的文本图像块输入到分类模型进行分类。
步骤104,将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于表示所述文本图像块为包括写体文本的概率。
本申请实施例中,上述第一置信度可以为手写体置信度,也可以为印刷体置信度,该手写体置信度和印刷体置信度之和为1,手写体置信度用于表示文本图像块包括手写体文本的概率,印刷体置信度用于表示文本图像块包括印刷体文本的概率。其中,文本图像块包括手写体文本可以理解为该文本图像块包括的文本为手写体文本,此时可以称包括手写体文本的文本图像块为手写体文本图像块;文本图像块包括印刷体文本可以理解为该文本图像块包括的文本为印刷体文本,此时可以称包括印刷体文本的文本图像块为印刷体文本图像块。
应理解,在本申请实施例中,当上述第一置信度为手写体置信度的情况下,若第一置信度大于第一值,则可以认为当前检测的文本图像块包括手写体文本图像块,否则认为当前检测的文本图像块为印刷体文本图像块;当上述第一置信度为印刷体置信度的情况下,若第一置信度小于第二值,则可以认为当前检测的文本图像块为手写体文本图像块,否则认为当前检测的文本图像块为印刷体文本图像块。其中第一值和第二值可以相同,例如为0.5,当然在其他实施例中,该第一值和第二值可以为不同的取值,为保证判断的一致性,可以理解的是,第一值和第二值之和为1。
需要说明的是,在确定出某一个或者多个文本图像块为手写体文本块后,可以仅对印刷体文本图像块进行文本识别,也可以针对手写体文本图像块和印刷体文本图像块分开进行独立的识别,从而提高文本识别的准确度。
本申请实施例中,通过对目标图像进行文本检测,获得至少一个文本区域;将每一所述文本区域进行分割获得至少一个文本图像块;将每一所述文本图像块的尺寸调整为预设尺寸;将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于表示所述文本图像块包括手写体文本的概率。这样,实现了对手写体文本和印刷体文本的分类,从而可以仅对印刷体文本进行识别,或者对印刷体文本和手写体文本分别进行独立的识别。因此,本申请实施例可以避免手写体文本对文本识别准确度的影响。
进一步地,在一实施例中,所述将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度之后,所述方法还包括:
获取第一文本图像块的位置信息,所述第一文本图像块的所述第一置信度大于第一预设值;
根据所述位置信息,确定所述目标图像中是否存在手写签名。
本申请实施例中,上述第一文本图像块可以理解为手写体文本图像块。上述文本检测方法可以应用在识别手写签名的应用场景中,例如,在部分合同签订中,除签名以外的所有信息都可以预先打印出来,以展示给用户查看,在用户查看完成后,可以在手写签名区域进行手写签名操作。通过上述第一置信度,可以确定目标图像中是否存在手写签名。可选地,可以通过判断指定的手写签名区域对应的文本图像块为手写体文本图像块时,确定存在手写签名。例如,可以首先基于分类模型获得每一文本图像块的第一置信度,然后基于该第一置信度确定手写体文本图像块,然后基于该手写体文本图像块的位置信息确定是否进行了手写签名。
进一步地,可以确定多个手写签名区域中,是否都存在对应的手写体文本图像块,若某手写签名区域缺少对应的手写体文本图像块,则输出提示信息提示缺少手写签名。
可选地,在一实施例中,所述将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度的步骤包括:
将调整后的所述文本图像块输入至预先训练的模糊判断模型中,获得属于目标模糊程度分类的第二文本图像块;
将所述第二文本图像块输入至所述分类模型中,获得所述第二文本图像块的所述第一置信度;
其中,所述模糊判断模型用于将文本图像块划分为模糊程度从小到大的第一模糊程度分类、第二模糊程度分类和第三模糊程度分类,所述目标模糊程度分类包括所述第二模糊程度分类和所述第三模糊程度分类。
可选地,上述第一模糊程度分类可以理解为看不清,即属于第一模糊程度分类的文本图像块可以称之为看不清的文本图像块;上述第二模糊程度分类可以理解为模糊,即属于第二模糊程度分类的文本图像块可以称之为模糊的文本图像块;上述第三模糊程度分类可以理解为清晰,即属于第三模糊程度分类的文本图像块可以称之为清晰的文本图像块。
本申请实施例中,上述模糊判断模型可以采用CANet网络,其网络结构可以参照图2所示,在本实施例中,模块判断模型包括浅层特征提取网络层、交叉注意模块、全局池化(Global pool)网络层、第一全连接网络层和第一softmax函数。由于采用交叉注意模块,使得卷积后的感受野可以更大概率的落在字迹上,从而可以快速定位文字,提高模糊判断的准确性和速度。
其中,上述浅层特征提取网络层可以为两个3*3的卷积网络层,用于对浅层字迹纹理特征提取,并将提取的浅层字迹纹理特征输入至交叉注意模块。
上述交叉注意模块可以称之为交叉注意力模块,该交叉注意模块可以由一个或者多个串接形成,串接是指前一个网络的输出作为后一个网络的输入。如图3所示,在本申请实施例中,考虑到性能和速度,可以设置3个交叉注意模块。交叉注意模块中的网络结构可以参照图3所示,在本申请实施例中,该交叉注意模块可以包括3*3的第六卷积层、第四混合深度卷积核(Mixed Depthwise Convolutional Kernels,MixConv)层、第四连接(concat)层、第五混合深度卷积核层、第五连接层、1*1的卷积层、3*3的第七卷积层、注意力模块(Attention block)和3*3的第八卷积层。其中,第四MixConv层和第五MixConv层均为1*1、3*3和5*5的混合深度卷积核层,即将1*1、3*3和5*5的卷积进行交叉连接。
应理解,上述交叉注意模块,用于对输入的浅层字迹纹理特征进行高频抽象细节特征提取,并将获得的高频抽象特征输入到第一全连接网络层。
上述第一全连接层可以包括两层,用于对输入的高频抽象特征进行降维处理,获得用于表示模糊程度的权重值,最后将该权重值输入到第一softmax函数中进行模糊度计算,从而确定模糊分类。
在本申请实施例中,所述将调整后的所述文本图像块输入至预先训练的模糊判断模型中,获得属于目标模糊程度分类的第二文本图像块的步骤包括:
将调整后的所述文本图像块输入至浅层特征提取网络层,获得浅层字迹纹理特征;
利用交叉注意模块对所述浅层字迹纹理特征进行特征提取,获得高频抽象细节特征,所述高频抽象细节特征用于表示所述文本图像块模糊程度的权重;
将所述高频抽象细节特征经过所述全局池化网络层进行池化处理;
将所述全局池化网络层的输出结果经过所述第一全连接网络层处理后,输出至所述第一softmax函数进行模糊程度分类,获得所述第一模糊程度分类对应的第二置信度,其中所述第二置信度用于表示文本图像块属于第一模糊分类的概率值;
将所述第二置信度小于第二预设值的文本图像块确定为所述第二文本图像块。
应理解,在一些可选实施例中,上述第一softmax函数的输出可以包括三个置信度,例如包括:第一模糊程度分类对应的第二置信度、第二模糊程度分类对应的第三置信度和第三模糊程度分类对应的第四置信度,针对同一文本图像块第一softmax函数可以输出第二置信度、第三置信度和第四置信度,其中,每一置信度用于表示当前的文本图像块对应的模糊程度分类的概率,且第二置信度、第三置信度和第四置信度之和为1。
可选地,上述第二预设值的大小可以根据实际需要进行设置,例如在一些实施例中,上述第二预设值为0.5,即可以将第二置信度大于或等于0.5的文本图像块确定为属于第一模糊文本的文本图像块,将第二置信度小于0.5文本图像块确定为第二文本图像块。
本申请实施例中可以首先使用2层3*3的卷积进行对第二文本图像块进行浅层字迹纹理特征提取,再将提取的浅层字迹纹理特征送进交叉注意模块进行高频抽象细节特征提取。
在交叉注意模块中,可以通过第四concat层将第四MixConv层和第五MixConv层进行交叉连接,从而实现了将不同卷积核提取的不同的感受野特征进行融合连接,对于不同的纹理特征有更好的交互。然后通过第五concat层将第五MixConv层提取的特征进行融合,输入到1*1的卷积中进行降维处理,得到低维度的特征值,并将低维度的特征值输入到注意力块中进行权重提取,获得64个通道的权重值,再通过相乘的形式加权到3*3的卷积中,并将相乘的结果输入到第3*3的第八卷积层。其中,由于使用1*1的卷积作为瓶颈层进行降维,从而可以降低参数以及计算量。此外,在3*3的第八卷积层中使用步长为2的卷积而非池化层进行池化,这样可以最大限度的保存特征。
经过3个交叉注意模块后,可以使用全局池化网络层进行池化,再经过连接2层全连接层后,使用softmax进行三分类。该三分类可以包括清晰、模糊和看不清三种类型,获得清晰的文本图像块、模糊的文本图像块和看不清的文本图像块。例如,某一文本图像块被划分到清晰或模糊分类的情况下,则确定该文本图像块为第二文本图像块。
应理解,上述注意力模块的网络结构可以根据实际需要进行设置,如图4所示,在一实施例中,该注意力模块包括1*1的第一卷积层、1*1的第二卷积层、全局池化网络层和sigmoid函数,其中,注意力模块的输入经过1*1的第一卷积层进行下采样后,再经过1*1的第二卷积层进行向上采样,接着将第二卷积的输出结果与3*3的第六卷积层的输入进行减残差后输入到全局池化网络层进行全局池化,最后使用sigmoid进行64分类,得到64个通道的权重。经过注意力模块后,使得卷积后的感受野可以更大概率的落在字迹上。
需要说明的是,在本申请实施例中,上述模糊判断模型的最终输出F2满足:F2=H(F1),其中,H表示两个全连接层和第一softmax函数对应的softmax层。F1=Cout(CAd(CAd-1...(CA1(ILR2))))+ILR1,CAd表示第d个交叉注意模块的输出,Cout表示最后一个全局池化网络层的输出,ILR1表示浅层特征提取网络层中第一个3*3的卷积层的特征提取,ILR2表示浅层特征提取网络层中第二个3*3的卷积层的特征提取。
应理解在进行模型训练前,首先制作初始样本数据集,例如,可以首先打印一份合同,然后一张一张进行合同展示,以录制视频。然后制作样板合同,由不同的用户进行签字,然后和之前的合同一样进行同样的录制。然后每跳3帧保存一张图像(即每间隔2帧提取一种图像),最后将所有的图像输入到craft模型中对其中带文字图片进行文字检测,获得文本图像区域,由于提取的文字区域大小长度不一,无法直接送入之后的网络进行训练,因此需要将检测到的文字块进行预处理。例如,将文字区域的高度固定,其宽度按照文本图像块高的2.5倍进行切割,对于长比高大于1.5且小于2.5倍的文本图像块,可以将其复制2份,按高进行拼接,然后再按比例进行切割。最后将所有切割好的文本图像块固定比例大小为30*75,最终得到的初始样本数据集中包含印刷体的191116张文本图像块,包含手写体的50000张文本图像块。其中,拼接操作的好处是防止文本图像块调整时变形。
然后,可以随机选取3000张文本图像块输入到上述待训练的初始模糊判断模型中进行训练,得到中间模糊判断模型,利用中模糊判断模型对剩余的文本图像块进行分类,并剔除看不清的文本图像块,得到待训练的样本数据集。基于待训练的样本数据集对中间模糊判断模型进行训练,最终获得糊判断模型。
本申请实施例中,在训练中间模糊判断模型时,首先将待训练的样本数据集进行手动的标注分类获得三大类,清晰、模糊和看不清。然后将待训练的样本数据集作进行分组,获得多组文本图像块,基于多组文本图像块进行多次迭代训练。在训练的过程中,采用交叉熵损失函数比较中间模糊判断模型输出的结果与人工标注的三大分类之间差异,获得损失值,当连续多次训练使得损失值基本保持不变,则将当前训练的中间模糊判断模型确定为模糊判断模型。
在一次迭代训练过程中,将一组文本图像块输入到中间模糊判断模型,在中间模糊判断模型中,首先通过2层3*3的卷积对文本图像块进行浅层字迹纹理特征提取,并输入交叉注意模块中,经过2个交叉注意模块进行高频抽象细节特征提取后,将最终提取的高频抽象特征输入到Global pool网络层进行池化,Global pool网络层进行池化后的结果输入到第一全连接网络层中,经两层全连接网络层进行降维处理,得到模糊权重,然后基于第一softmax函数进行计算确定文本图像块的分类。最后基于分类结果与之前标注内容进行比较调整中间模糊判断模型的变量参数,以进行下一次迭代训练。
可选地,在一实施例中,上述分类模型包括多层卷积网络层、第二全连接网络层和第二softmax函数;所述将所述第二文本图像块输入至所述分类模型中,获得所述第二文本图像块的所述第一置信度,包括:
将所述第二文本图像块输入至所述多层卷积网络层中进行特征提取和融合处理,得到融合后的高频抽象特征;
将所述高频抽象特征输入至所述第二全连接网络层进行降维处理,得到手写体权重值和印刷体权重值;
将所述手写体权重值和印刷体权重值输入至所述第二softmax函数进行计算,获得所述第一置信度。
本申请实施例中,上述分类模型为使用MixConv结构搭建的递减级联网络。具体如图5所示,所述多层卷积网络层由以下网络层依次串联形成:两个3*3的第一卷积层、第一混合深度卷积核层、第一连接层、1*1的第二卷积层、第二混合深度卷积核层、第二连接层、1*1的第三卷积层、第三混合深度卷积核层、第三连接层、1*1的第四卷积层、3*3的第五卷积层、1*2的卷积层、2*1的卷积层和压平(flatten)层,其中,所述第一混合深度卷积核层为3*3、5*5、7*7和9*9的混合深度卷积核层,所述第二混合深度卷积核层为3*3、5*5和7*7的混合深度卷积核层,所述第三混合深度卷积核层为3*3和5*5的混合深度卷积核层。
在本申请实施例中,分类模型的处理流程如下:
步骤1,进行特征提取和融合处理,得到融合后的高频抽象特征;
在步骤1中,可以首先使用2个3*3的卷积进行浅层字迹纹理特征提取后,接着使用3*3、5*5、7*7和9*9的MixConv层进行第一次高频抽象提取;然后,在经过concat层进行通道融合后使用1*1的卷积层作为瓶颈层进行降维以及特征融合;再使用3*3、5*5和7*7的MinxConv层进行第二次高频抽象提取;接着在经过concat层进行通道融合后,使用1*1的卷积层降维;使用3*3、5*5的MinxConv层进行对降维后的特征进行第三次高频抽象提取;接着在经过concat层进行通道融合后,使用1*1的卷积层降维;再经过concat层进行通道融合后,使用1*1的卷积层降维;接着使用3*3的卷积层进行平滑处理后,使用1*2的卷积层进行去形处理;最后经过1*1的卷积层进行降维后,通过使用flatten层进行伸展处理,得到融合后的高频抽象特征。应理解,由于通过将第一混合深度卷积核层、第二混合深度卷积核层和第三混合深度卷积核层依次递减级联,从而可以很好的提取抽象特征。
步骤2,对高频抽象特征进行降维处理,得到手写体权重值和印刷体权重值。
该步骤中,可以将flatten层输出的高频抽象特征作为两个串联的第二全连接网络进行降维,从而得到手写体权重值和印刷体权重值。
步骤3,将所述手写体权重值和印刷体权重值输入至所述第二softmax函数进行计算,获得所述第一置信度。
本申请实施例中,由于采用了模糊判断模型对文本图像块进行了模糊判断,因此提高了输入到分类模型中文本图像块的清晰度,从而可以提高分类模型分类的准确度。
可选地,在一实施例中,所述将每一所述文本区域进行分割获得至少一个文本图像块包括:
按照目标尺寸比例将每一所述文本区域进行分割获得至少一个文本图像块,其中,所述目标尺寸比例与所述预设尺寸的尺寸比例相同。
本申请实施例中,可以固定文本区域的高度,即以文本区域的高度为基准按照目标尺寸比例进行分割,上述目标尺寸比例的大小可以根据实际需要进行设置,例如,在一实施例中,上述目标尺寸比例为2.5,即分割后的文本图像块的长度与高度的比值为2.5。由于采用目标尺寸比例进行分割得到文本图像块,在将文本图像块调整为预设尺寸时,具体表现为等比例尺寸放大或缩小,因此可以保证文本图像块不会变形。
需要说明的是,对于长比高大于1.5且小于2.5倍的文本图像块,可以将其复制2份,将复制后的两份按高进行拼接(即保证拼接后的高度不变),然后再按比例进行切割。对于长比高小于或等于1.5倍的文本图像块进行丢弃。
需要说明的是,本申请实施例中介绍的多种可选的实施方式,彼此可以相互结合实现,也可以单独实现,对此本申请实施例不作限定。
参照图6,本申请实施例还提供一种分类模型训练方法,包括:
步骤601,利用第一样本数据集中的文本图像块对卷积神经网络进行训练得到分类模型;
其中,所述第一样本数据集中的文本图像块的尺寸均为预设尺寸,所述第一样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述卷积神经网络为使用混合深度卷积核结构构建的。
本申请实施例中,可以对混合深度卷积核结构进行压缩处理,简化混合深度卷积核结构得到上述卷积神经网络,该卷积神经网络可以称之为简化的混合深度卷积核结构。可选地,在本申请实施例中,上述卷积神经网络可以包括多层卷积网络层、第二全连接网络层和第二softmax函数,所述多层卷积网络层由以下网络层依次串联形成:两个3*3的第一卷积层、第一混合深度卷积核层、第一连接层、1*1的第二卷积层、第二混合深度卷积核层、第二连接层、1*1的第三卷积层、第三混合深度卷积核层、第三连接层、1*1的第四卷积层、3*3的第五卷积层、1*2的卷积层、2*1的卷积层和压平(flatten)层,其中,所述第一混合深度卷积核层为3*3、5*5、7*7和9*9的混合深度卷积核层,所述第二混合深度卷积核层为3*3、5*5和7*7的混合深度卷积核层,所述第三混合深度卷积核层为3*3和5*5的混合深度卷积核层。在上述多层卷积网络中,通过使用深度可分离卷积的MixConv结构搭建的递减级联网络,其计算量小,从而可以很好的提取抽象特征。
应理解,上述第一样本数据集中的文本图像块的尺寸均为预设尺寸,所述第一样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块。
应理解在进行模型训练前,首先制作初始样本数据集,例如,可以首先打印一份合同,然后一张一张进行合同展示,以录制视频。然后制作样板合同,由不同的用户进行签字,然后同之前的合同一样进行同样的录制。然后每跳3帧保存一张图像(即每间隔2帧提取一种图像),最后将所有的图像输入到craft模型中对其中带文字图片进行文字检测,获得文本图像区域,由于提取的文字区域大小长度不一,无法直接送入之后的网络进行训练,因此需要将检测到的文字块进行预处理。例如,将文字区域的高度固定,其宽度按照文本图像块高的2.5倍进行切割,对于长比高大于1.5且小于2.5倍的文本图像块,可以将其复制2份,按高进行拼接,然后再按比例进行切割。最后将所有切割好的文本图像块固定比例大小为30*75,最终得到的初始样本数据集中包含印刷体的191116张文本图像块,包含手写体的50000张文本图像块。其中,拼接操作的好处是防止文本图像块调整时变形。
然后,可以将所有的文本图像块输入到已经训练好的模糊判断模型中进行分类,并剔除看不清的文本图像块,得到待训练的第一样本数据集。基于待训练的第一样本数据集对所述卷积神经网络进行训练得到所述分类模型。
需要说明的是,在对所述卷积神经网络进行训练时,可以首先对文本图像块进行人工标注划分为手写体文本图像块和印刷体文本图像块,然后将第一样本数据集进行分组,获得多组文本图像块,基于多组文本图像块进行多次迭代训练。在训练的过程中,采用交叉熵损失函数比较卷积神经网络输出的结果与人工标注的分类结果之间差异,获得损失值,当连续多次训练使得损失值基本保持不变,则将当前训练的卷积神经网络确定为模糊判断模型。
在一次迭代训练过程中,将一组文本图像块输入到卷积神经网络,并基于卷积神经网络的输出结果对卷积神经网络中的参数变量进行调整,在完成多次迭代后,即可得到上述分类模型。也就是说,在本申请实施例中,所述利用第一样本数据集中的文本图像块对卷积神经网络进行训练得到分类模型的步骤包括:
将所述第一样本数据集作进行分组,获得多组文本图像块;
基于多组文本图像块对所述卷积神经网络进行多次迭代训练,得到所述分类模型;
其中,在第n次迭代训练的过程中,将对应的一组文本图像块中的第三文本图像块输入至所述多层卷积网络层中进行特征提取和融合处理,得到融合后的高频抽象特征;将所述高频抽象特征输入至所述第二全连接网络层进行降维处理,得到手写体权重值和印刷体权重值;将所述手写体权重值和印刷体权重值输入至所述第二softmax函数进行计算,获得第三文本图像块的第五置信度,所述第五置信度用于确定所述第三文本图像块包括手写体文本的概率;基于每一所述第三文本图像块的第五置信度对所述卷积神经网络的变量参数进行调整。
其中,卷积神经网络中各网络结构对文本图像块的处理流程可以参照上述实施例中分类模型的处理流程,在此不再赘述。
本申请实施例,通过利用训练的分类模型检测图像中是否存在手写体文本,实现了对手写体文本和印刷体文本的分类,从而可以仅对印刷体文本进行识别,或者对印刷体文本和手写体文本分别进行独立的识别。因此,本申请实施例可以避免手写体文本对文本识别准确度的影响。
参照图7,本申请实施例还提供一种模糊判断模型训练方法,包括:
步骤701,利用第二样本数据集中的文本图像块对待训练模糊判断模型进行训练得到模糊判断模型;
其中,所述第二样本数据集中的文本图像块的尺寸均为预设尺寸,所述第二样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述待训练模糊判断模型包括浅层特征提取网络层、交叉注意模块、全局池化网络层、第一全连接网络层和第一softmax函数。
本申请实施例中,上述交叉注意模块的结构可以参照上述实施例,在此不再赘述。上述第二样本数据集可以理解为上述实施例中的初始样本数据集。
可选地,在一实施例中,上述利用第二样本数据集中的文本图像块对待训练模糊判断模型进行训练得到模糊判断模型的步骤包括:
将所述第二样本数据集作进行分组,获得多组文本图像块;
基于多组文本图像块对所述待训练模糊判断模型进行多次迭代训练,得到所述模糊判断模型;
其中,在第n次迭代训练的过程中,将对应的一组文本图像块中的第四文本图像块输入至浅层特征提取网络层,获得浅层字迹纹理特征;利用交叉注意模块对所述浅层字迹纹理特征进行特征提取,获得高频抽象细节特征,所述高频抽象细节特征用于表示所述文本图像块模糊程度的权重;将所述高频抽象细节特征经过所述全局池化网络层进行池化处理;将所述全局池化网络层的输出结果经过所述第一全连接网络层处理后,输出至所述第一softmax函数进行模糊程度分类,获得第一模糊程度分类对应的第六置信度,第二模糊程度分类对应的第七置信度和第三模糊程度分类对应的第八置信度;基于每一所述第四文本图像块对应的所述第六置信度、第七置信度和第八置信度,调整所述模糊判断模型的变量参数。
其中,上述第六置信度用于表示第四文本图像块属于第一模糊程度分类的概率值,上述第七置信度用于表示第四文本图像块属于第二模糊程度分类的概率值,上述第八置信度用于表示第四文本图像块属于第三模糊程度分类的概率值。具体的,上述待训练模糊判断模型中各层网络对文本图像块的处理流程可以参照上述实施例中对模糊判断模型训练的过程,在此不再赘述。由于训练得到模糊判断模型,利用模糊判断模型可以对文本图像块进行模糊分类剔除看不清的文本图像块,从而提高分类模型对文本图像块进行分类识别的准确性。
参见图8,图8是本申请实施例提供的文本检测装置的结构图,如图8所示,文本检测装置800包括:
检测模块801,用于对目标图像进行文本检测,获得至少一个文本区域;
分割模块802,用于将每一所述文本区域进行分割获得至少一个文本图像块;
调整模块803,用于将每一所述文本图像块的尺寸调整为预设尺寸;
输入模块804,将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于表示所述文本图像块包括手写体文本的概率。
可选地,所述文本检测装置800还包括:
获取模块,用于获取第一文本图像块的位置信息,所述第一文本图像块的所述第一置信度确定大于第一预设值;
确定模块,用于根据所述位置信息,确定所述目标图像中是否存在手写签名。
可选地,所述输入模块804具体用于:将调整后的所述文本图像块输入至预先训练的模糊判断模型中,获得模糊程度小于第一预设值的第二文本图像块;将所述第二文本图像块输入至所述分类模型中,获得所述第二文本图像块的所述第一置信度。
可选地,所述模糊判断模型包括浅层特征提取网络层、交叉注意模块、全局池化网络层、第一全连接网络层和第一softmax函数;所述输入模块804具体用于:
将调整后的所述文本图像块输入至浅层特征提取网络层,获得浅层字迹纹理特征;
利用交叉注意模块对所述浅层字迹纹理特征进行特征提取,获得高频抽象细节特征,所述高频抽象细节特征用于表示所述文本图像块模糊程度的权重;
将所述高频抽象细节特征经过所述全局池化网络层进行池化处理;
将所述全局池化网络层的输出结果经过所述第一全连接网络层处理后,输出至所述第一softmax函数进行分类,获得模糊程度的权重小于预设权重的第二文本图像块。
可选地,所述分类模型包括多层卷积网络层、第二全连接网络层和第二softmax函数;所述输入模块804具体用于:
将所述第二文本图像块输入至所述多层卷积网络层中进行特征提取和融合处理,得到融合后的高频抽象特征;
将所述高频抽象特征输入至所述第二全连接网络层进行将维度处理,得到手写体权重值和印刷体权重值;
将所述手写体权重值和印刷体权重值输入至所述第二softmax函数进行计算,获得所述第一置信度。
可选地,所述分割模块802用于:按照目标尺寸比例将每一所述文本区域进行分割获得至少一个文本图像块,其中,所述目标尺寸比例与所述预设尺寸的尺寸比例相同。
可选地,所述文本检测装置800还包括:
获取模块,用于每隔预设时间间隔提取待检测的视频中的图像帧,获得所述目标图像。
本申请实施例提供的文本检测装置能够实现图1至图5的方法实施例中的各个过程,为避免重复,这里不再赘述。
参见图9,图9是本申请实施例提供的分类模型训练装置的结构图,如图9所示,分类模型训练装置900包括:
第一训练模块901,用于利用第一样本数据集中的文本图像块对卷积神经网络进行训练得到分类模型;
其中,所述第一样本数据集中的文本图像块的尺寸均为预设尺寸,所述第一样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述卷积神经网络为使用混合深度卷积核结构构建的。
可选地,所述卷积神经网络包括多层卷积网络层、第二全连接网络层和第二softmax函数,所述多层卷积网络层由以下网络层依次串联形成:两个3*3的第一卷积层、第一混合深度卷积核层、第一连接层、1*1的第二卷积层、第二混合深度卷积核层、第二连接层、1*1的第三卷积层、第三混合深度卷积核层、第三连接层、1*1的第四卷积层、3*3的第五卷积层、1*2的卷积层、2*1的卷积层和压平(flatten)层,其中,所述第一混合深度卷积核层为3*3、5*5、7*7和9*9的混合深度卷积核层,所述第二混合深度卷积核层为3*3、5*5和7*7的混合深度卷积核层,所述第三混合深度卷积核层为3*3和5*5的混合深度卷积核层。
本申请实施例提供的分类模型训练装置能够实现图6的方法实施例中的各个过程,为避免重复,这里不再赘述。
参见图10,图10是本申请实施例提供的模糊判断模型训练装置的结构图,如图10所示,模糊判断模型训练装置1000包括:
第二训练模块1001,用于利用第二样本数据集中的文本图像块对待训练模糊判断模型进行训练得到模糊判断模型;
其中,所述第二样本数据集中的文本图像块的尺寸均为预设尺寸,所述第二样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述待训练模糊判断模型包括浅层特征提取网络层、交叉注意模块、全局池化网络层、第一全连接网络层和第一softmax函数。
本申请实施例提供的模糊判断模型训练装置能够实现图7的方法实施例中的各个过程,为避免重复,这里不再赘述。
图11为实现本申请各个实施例的一种电子设备的硬件结构示意图。
该电子设备1100包括但不限于:射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、处理器1110、以及电源1111等部件。本领域技术人员可以理解,图11中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本申请实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器1110,用于:
对目标图像进行文本检测,获得至少一个文本区域;
将每一所述文本区域进行分割获得至少一个文本图像块;
将每一所述文本图像块的尺寸调整为预设尺寸;
将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于确定所述文本图像块包括手写体文本的概率。
或者,处理器1110,用于:
使用混合深度卷积核结构建立卷积神经网络;
利用样本数据集中的文本图像块对所述卷积神经网络进行训练得到所述分类模型;
其中,所述样本数据集中的文本图像块的尺寸均为预设尺寸,所述样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块。
或者,处理器1110,用于:
利用第二样本数据集中的文本图像块对待训练模糊判断模型进行训练得到模糊判断模型;
其中,所述第二样本数据集中的文本图像块的尺寸均为预设尺寸,所述第二样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述待训练模糊判断模型包括浅层特征提取网络层、交叉注意模块、全局池化网络层、第一全连接网络层和第一softmax函数。
应理解的是,本申请实施例中,射频单元1101可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器1110处理;另外,将上行的数据发送给基站。通常,射频单元1101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元1101还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块1102为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元1103可以将射频单元1101或网络模块1102接收的或者在存储器1109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元1103还可以提供与电子设备1100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元1103包括扬声器、蜂鸣器以及受话器等。
输入单元1104用于接收音频或视频信号。输入单元1104可以包括图形处理器(Graphics Processing Unit,GPU)11041和麦克风11042,图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1106上。经图形处理器11041处理后的图像帧可以存储在存储器1109(或其它存储介质)中或者经由射频单元1101或网络模块1102进行发送。麦克风11042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1101发送到移动通信基站的格式输出。
电子设备1100还包括至少一种传感器1105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板11061的亮度,接近传感器可在电子设备1100移动到耳边时,关闭显示面板11061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器1105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元1106用于显示由用户输入的信息或提供给用户的信息。显示单元1106可包括显示面板11061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板11061。
用户输入单元1107可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元1107包括触控面板11071以及其他输入设备11072。触控面板11071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板11071上或在触控面板11071附近的操作)。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1110,接收处理器1110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板11071。除了触控面板11071,用户输入单元1107还可以包括其他输入设备11072。具体地,其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板11071可覆盖在显示面板11061上,当触控面板11071检测到在其上或附近的触摸操作后,传送给处理器1110以确定触摸事件的类型,随后处理器1110根据触摸事件的类型在显示面板11061上提供相应的视觉输出。虽然在图11中,触控面板11071与显示面板11061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板11071与显示面板11061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元1108为外部装置与电子设备1100连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备1100内的一个或多个元件或者可以用于在电子设备1100和外部装置之间传输数据。
存储器1109可用于存储软件程序以及各种数据。存储器1109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1110是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器1109内的软件程序和/或模块,以及调用存储在存储器1109内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器1110可包括一个或多个处理单元;优选的,处理器1110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1110中。
电子设备1100还可以包括给各个部件供电的电源1111(比如电池),优选的,电源1111可以通过电源管理系统与处理器1110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备1100包括一些未示出的功能模块,在此不再赘述。
优选的,本申请实施例还提供一种电子设备,包括处理器1110,存储器1109,存储在存储器1109上并可在所述处理器1110上运行的计算机程序,该计算机程序被处理器1110执行时实现上述文本检测方法或者分类模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文本检测方法或者分类模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种文本检测方法,其特征在于,包括:
对目标图像进行文本检测,获得至少一个文本区域;
将每一所述文本区域进行分割获得至少一个文本图像块;
将每一所述文本图像块的尺寸调整为预设尺寸;
将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度,所述第一置信度用于表示所述文本图像块包括手写体文本的概率。
2.根据权利要求1所述的方法,其特征在于,所述将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度之后,所述方法还包括:
获取第一文本图像块的位置信息,所述第一文本图像块的所述第一置信度大于第一预设值;
根据所述位置信息,确定所述目标图像中是否存在手写签名。
3.根据权利要求1所述的方法,其特征在于,所述将调整后的所述文本图像块输入至预先训练的分类模型中获得第一置信度的步骤包括:
将调整后的所述文本图像块输入至预先训练的模糊判断模型中,获得属于目标模糊程度分类的第二文本图像块;
将所述第二文本图像块输入至所述分类模型中,获得所述第二文本图像块的所述第一置信度;
其中,所述模糊判断模型用于将文本图像块划分为模糊程度从小到大的第一模糊程度分类、第二模糊程度分类和第三模糊程度分类,所述目标模糊程度分类包括所述第二模糊程度分类和所述第三模糊程度分类。
4.根据权利要求3所述的方法,其特征在于,所述模糊判断模型包括浅层特征提取网络层、交叉注意模块、全局池化网络层、第一全连接网络层和第一softmax函数;所述将调整后的所述文本图像块输入至预先训练的模糊判断模型中,获得属于目标模糊程度分类的第二文本图像块的步骤包括:
将调整后的所述文本图像块输入至浅层特征提取网络层,获得浅层字迹纹理特征;
利用交叉注意模块对所述浅层字迹纹理特征进行特征提取,获得高频抽象细节特征,所述高频抽象细节特征用于表示所述文本图像块模糊程度的权重;
将所述高频抽象细节特征经过所述全局池化网络层进行池化处理;
将所述全局池化网络层的输出结果经过所述第一全连接网络层处理后,输出至所述第一softmax函数进行模糊程度分类,获得所述第一模糊程度分类对应的第二置信度,其中所述第二置信度用于表示文本图像块属于第一模糊分类的概率值;
将所述第二置信度小于第二预设值的文本图像块确定为所述第二文本图像块。
5.根据权利要求3所述的方法,其特征在于,所述分类模型包括多层卷积网络层、第二全连接网络层和第二softmax函数;所述将所述第二文本图像块输入至所述分类模型中,获得所述第二文本图像块的所述第一置信度,包括:
将所述第二文本图像块输入至所述多层卷积网络层中进行特征提取和融合处理,得到融合后的高频抽象特征;
将所述高频抽象特征输入至所述第二全连接网络层进行降维处理,得到手写体权重值和印刷体权重值;
将所述手写体权重值和印刷体权重值输入至所述第二softmax函数进行计算,获得所述第一置信度。
6.一种分类模型训练方法,其特征在于,包括:
利用第一样本数据集中的文本图像块对卷积神经网络进行训练得到分类模型;
其中,所述第一样本数据集中的文本图像块的尺寸均为预设尺寸,所述第一样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述卷积神经网络为使用混合深度卷积核结构构建的。
7.根据权利要求6所述的方法,其特征在于,所述卷积神经网络包括多层卷积网络层、第二全连接网络层和第二softmax函数,所述多层卷积网络层由以下网络层依次串联形成:两个3*3的第一卷积层、第一混合深度卷积核层、第一连接层、1*1的第二卷积层、第二混合深度卷积核层、第二连接层、1*1的第三卷积层、第三混合深度卷积核层、第三连接层、1*1的第四卷积层、3*3的第五卷积层、1*2的卷积层、2*1的卷积层和压平层,其中,所述第一混合深度卷积核层为3*3、5*5、7*7和9*9的混合深度卷积核层,所述第二混合深度卷积核层为3*3、5*5和7*7的混合深度卷积核层,所述第三混合深度卷积核层为3*3和5*5的混合深度卷积核层。
8.根据权利要求7所述的方法,其特征在于,所述利用第一样本数据集中的文本图像块对卷积神经网络进行训练得到分类模型的步骤包括:
将所述第一样本数据集作进行分组,获得多组文本图像块;
基于多组文本图像块对所述卷积神经网络进行多次迭代训练,得到所述分类模型;
其中,在第n次迭代训练的过程中,将对应的一组文本图像块中的第三文本图像块输入至所述多层卷积网络层中进行特征提取和融合处理,得到融合后的高频抽象特征;将所述高频抽象特征输入至所述第二全连接网络层进行降维处理,得到手写体权重值和印刷体权重值;将所述手写体权重值和印刷体权重值输入至所述第二softmax函数进行计算,获得第三文本图像块的第五置信度,所述第五置信度用于确定所述第三文本图像块包括手写体文本的概率;基于每一所述第三文本图像块的第五置信度对所述卷积神经网络的变量参数进行调整。
9.一种模糊判断模型训练方法,其特征在于,包括:
利用第二样本数据集中的文本图像块对待训练模糊判断模型进行训练得到模糊判断模型;
其中,所述第二样本数据集中的文本图像块的尺寸均为预设尺寸,所述第二样本数据集包括第一类文本图像块和第二类文本图像块,所述第一类文本图像块为包括手写体文本的文本图像块,所述第二类文本图像块为包括印刷体文本的文本图像块,所述待训练模糊判断模型包括浅层特征提取网络层、交叉注意模块、全局池化网络层、第一全连接网络层和第一softmax函数。
10.根据权利要求9所述的方法,其特征在于,所述利用第二样本数据集中的文本图像块对待训练模糊判断模型进行训练得到模糊判断模型的步骤包括:
将所述第二样本数据集作进行分组,获得多组文本图像块;
基于多组文本图像块对所述待训练模糊判断模型进行多次迭代训练,得到所述模糊判断模型;
其中,在第n次迭代训练的过程中,将对应的一组文本图像块中的第四文本图像块输入至浅层特征提取网络层,获得浅层字迹纹理特征;利用交叉注意模块对所述浅层字迹纹理特征进行特征提取,获得高频抽象细节特征,所述高频抽象细节特征用于表示所述文本图像块模糊程度的权重;将所述高频抽象细节特征经过所述全局池化网络层进行池化处理;将所述全局池化网络层的输出结果经过所述第一全连接网络层处理后,输出至所述第一softmax函数进行模糊程度分类,获得第一模糊程度分类对应的第六置信度,第二模糊程度分类对应的第七置信度和第三模糊程度分类对应的第八置信度;基于每一所述第四文本图像块对应的所述第六置信度、第七置信度和第八置信度,调整所述模糊判断模型的变量参数。
11.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的文本检测方法的步骤,或者,所述计算机程序被所述处理器执行时实现如权利要求6至8中任一项所述的分类模型训练方法的步骤,或者,所述计算机程序被所述处理器执行时实现如权利要求9至10中任一项所述的模糊判断模型训练方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的文本检测方法的步骤,或者,所述计算机程序被处理器执行时实现权利要求6至8中任一项所述的分类模型训练方法的步骤,或者,所述计算机程序被所述处理器执行时实现如权利要求9至10中任一项所述的模糊判断模型训练方法的步骤。
CN202011230246.XA 2020-11-06 2020-11-06 文本检测方法、模型训练方法及相关设备 Active CN112464931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011230246.XA CN112464931B (zh) 2020-11-06 2020-11-06 文本检测方法、模型训练方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011230246.XA CN112464931B (zh) 2020-11-06 2020-11-06 文本检测方法、模型训练方法及相关设备

Publications (2)

Publication Number Publication Date
CN112464931A true CN112464931A (zh) 2021-03-09
CN112464931B CN112464931B (zh) 2021-07-30

Family

ID=74826224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011230246.XA Active CN112464931B (zh) 2020-11-06 2020-11-06 文本检测方法、模型训练方法及相关设备

Country Status (1)

Country Link
CN (1) CN112464931B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837965A (zh) * 2021-09-26 2021-12-24 北京百度网讯科技有限公司 图像清晰度识别方法、装置、电子设备及存储介质
CN114065868A (zh) * 2021-11-24 2022-02-18 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN114937274A (zh) * 2022-05-31 2022-08-23 平安科技(深圳)有限公司 基于人工智能的手写字体擦除方法、装置、设备及介质
WO2023284502A1 (zh) * 2021-07-13 2023-01-19 杭州睿胜软件有限公司 图像处理方法、装置、设备和存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834941A (zh) * 2015-05-19 2015-08-12 重庆大学 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN105043554A (zh) * 2015-07-13 2015-11-11 北京理工大学 一种热像仪的最小可分辨温差客观测试方法
CN106096605A (zh) * 2016-06-02 2016-11-09 史方 一种基于深度学习的图像模糊区域检测方法及装置
CN107909532A (zh) * 2017-11-30 2018-04-13 公安部物证鉴定中心 一种基于模糊数学与概率论相结合的指纹特征评价方法
CN109308318A (zh) * 2018-08-14 2019-02-05 深圳大学 跨领域文本情感分类模型的训练方法、装置、设备及介质
CN110008983A (zh) * 2019-01-17 2019-07-12 西安交通大学 一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及系统
CN110851594A (zh) * 2019-10-08 2020-02-28 浙江工业大学 一种基于多通道深度学习模型的文本分类方法及其装置
CN110942004A (zh) * 2019-11-20 2020-03-31 深圳追一科技有限公司 基于神经网络模型的手写识别方法、装置及电子设备
CN111079742A (zh) * 2019-11-29 2020-04-28 安徽七天教育科技有限公司 一种扫描试卷中作文区域图像文本块精准定位方法
CN111475642A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分类方法、装置及模型训练方法
CN111582273A (zh) * 2020-05-09 2020-08-25 中国工商银行股份有限公司 图像文本识别方法及装置
CN111814606A (zh) * 2020-06-24 2020-10-23 枫烨(深圳)科技有限公司 一种技术图像处理和模式识别的自动阅卷系统及实现方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834941A (zh) * 2015-05-19 2015-08-12 重庆大学 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN105043554A (zh) * 2015-07-13 2015-11-11 北京理工大学 一种热像仪的最小可分辨温差客观测试方法
CN106096605A (zh) * 2016-06-02 2016-11-09 史方 一种基于深度学习的图像模糊区域检测方法及装置
CN107909532A (zh) * 2017-11-30 2018-04-13 公安部物证鉴定中心 一种基于模糊数学与概率论相结合的指纹特征评价方法
CN109308318A (zh) * 2018-08-14 2019-02-05 深圳大学 跨领域文本情感分类模型的训练方法、装置、设备及介质
CN110008983A (zh) * 2019-01-17 2019-07-12 西安交通大学 一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及系统
CN110851594A (zh) * 2019-10-08 2020-02-28 浙江工业大学 一种基于多通道深度学习模型的文本分类方法及其装置
CN110942004A (zh) * 2019-11-20 2020-03-31 深圳追一科技有限公司 基于神经网络模型的手写识别方法、装置及电子设备
CN111079742A (zh) * 2019-11-29 2020-04-28 安徽七天教育科技有限公司 一种扫描试卷中作文区域图像文本块精准定位方法
CN111475642A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分类方法、装置及模型训练方法
CN111582273A (zh) * 2020-05-09 2020-08-25 中国工商银行股份有限公司 图像文本识别方法及装置
CN111814606A (zh) * 2020-06-24 2020-10-23 枫烨(深圳)科技有限公司 一种技术图像处理和模式识别的自动阅卷系统及实现方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
G. S. NG等: "Classification of Handwritten Digits Using Evolving Fuzzy Neural network", 《2004 8TH INTERNATIONAL CONFERENCE ON CONTROL. AUTOMATION, ROBOTICS AND VISION》 *
MINGXING TAN等: "MixConv: Mixed Depthwise Convolutional Kernels", 《ARXIV:1907.09595V3 [CS.CV] 1DEC 2019》 *
YINGJIE TIAN等: "Concatenated Attention Neural Network for Image Restoration", 《ARXIV:2006.11162V1 [EESS.IV] 19 JUN 2020》 *
朱小燕等: "手写体字符识别研究关", 《模式识别与人工智能》 *
王煜: "神经网络与污损的手写印刷体字符的识别", 《河北大学学报(自然科学版)》 *
王煜等: "基于模糊决策树的文本分类规则抽取", 《计算机应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023284502A1 (zh) * 2021-07-13 2023-01-19 杭州睿胜软件有限公司 图像处理方法、装置、设备和存储介质
CN113837965A (zh) * 2021-09-26 2021-12-24 北京百度网讯科技有限公司 图像清晰度识别方法、装置、电子设备及存储介质
CN114065868A (zh) * 2021-11-24 2022-02-18 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN114065868B (zh) * 2021-11-24 2022-09-02 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN114937274A (zh) * 2022-05-31 2022-08-23 平安科技(深圳)有限公司 基于人工智能的手写字体擦除方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112464931B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN112464931B (zh) 文本检测方法、模型训练方法及相关设备
CN111260665B (zh) 图像分割模型训练方法和装置
CN110706179B (zh) 一种图像处理方法及电子设备
CN108234882B (zh) 一种图像虚化方法及移动终端
CN111586237B (zh) 一种图像显示方法及电子设备
CN107766403B (zh) 一种相册处理方法、移动终端以及计算机可读存储介质
CN112820299B (zh) 声纹识别模型训练方法、装置及相关设备
CN110930329A (zh) 星空图像处理方法及装置
CN112418214A (zh) 一种车辆识别码识别方法、装置、电子设备及存储介质
CN111881813B (zh) 人脸识别终端的数据存储方法及系统
CN114399813B (zh) 人脸遮挡检测方法、模型训练方法、装置及电子设备
CN111080747B (zh) 一种人脸图像处理方法及电子设备
CN113744160B (zh) 图像处理模型训练方法、图像处理方法、装置及电子设备
CN114140797A (zh) 图像处理方法、智能终端及存储介质
CN110443752B (zh) 一种图像处理方法和移动终端
CN110602384B (zh) 曝光控制方法及电子设备
CN111145083B (zh) 一种图像处理方法、电子设备及计算机可读存储介质
CN112464831B (zh) 视频分类方法、视频分类模型的训练方法及相关设备
CN113870862A (zh) 声纹识别模型训练方法、声纹识别方法及相关设备
CN117541770A (zh) 数据增强方法、装置及电子设备
CN110012225B (zh) 一种图像处理的方法、装置以及移动终端
CN113314126A (zh) 知识蒸馏方法、语音识别处理方法及相关设备
CN111402273A (zh) 一种图像处理方法和电子设备
CN111126388A (zh) 图像识别的方法及电子设备
CN111383298A (zh) 一种思维导图的转换方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant