CN110659702A - 基于生成式对抗网络模型书法字帖评价系统及方法 - Google Patents

基于生成式对抗网络模型书法字帖评价系统及方法 Download PDF

Info

Publication number
CN110659702A
CN110659702A CN201910988836.XA CN201910988836A CN110659702A CN 110659702 A CN110659702 A CN 110659702A CN 201910988836 A CN201910988836 A CN 201910988836A CN 110659702 A CN110659702 A CN 110659702A
Authority
CN
China
Prior art keywords
module
calligraphy
evaluating
network model
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910988836.XA
Other languages
English (en)
Inventor
秦毅
米红丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Deya Culture Media Co Ltd
Original Assignee
Heilongjiang Deya Culture Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang Deya Culture Media Co Ltd filed Critical Heilongjiang Deya Culture Media Co Ltd
Priority to CN201910988836.XA priority Critical patent/CN110659702A/zh
Publication of CN110659702A publication Critical patent/CN110659702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

基于生成式对抗网络模型书法字帖评价系统及方法,涉及图像处理技术领域,为解决现有技术中因人工主观性的影响,导致对书写质量评价准确性低的问题,包括展示层、业务层和数据库,展示层用于用户交互;业务层包括定位模块、识别模块和相似对比模块,定位模块根据用户所上传的字帖图像进行文本框定位,然后传给识别模块,识别模块利用定位模块所定位的文本框的位置并通过Inception‑V3网络框架进行文字识别,选择概率最大的文字输出文字的索引,相似对比模块依据识别模块输出的索引在数据库中找到相对应的文字进行相似对比;数据库用于存放文字信息数据。本发明减少了人为的参与,提高了书写质量评价的准确性。

Description

基于生成式对抗网络模型书法字帖评价系统及方法
技术领域
本发明涉及图像处理技术领域,具体为一种基于生成式对抗网络模型书法字帖评价系统及方法。
背景技术
汉字亦称中文字、中国字、国字,属于表意文字的词素音节文字,由汉人发明并改进,是世界上最古老的四大自源文字(两河流域的楔形文字、古埃及的圣书字、中国商朝甲骨文、玛雅文字)中唯一沿用至今的文字。
汉字是中国迄今为止连续使用时间最长的主要文字,中国历代皆以汉字为主要官方文字。隶变是汉字发展史上的一个里程碑,汉字发展至汉朝隶书时被取名为“汉字”。
书法,是中国及深受中国文化影响过的周边国家和地区特有的一种文字美的艺术表现形式。包括汉字书法、蒙古文书法、阿拉伯书法和英文书法等。其"中国书法",是中国汉字特有的一种传统艺术。
从广义讲,书法是指文字符号的书写法则。换言之,书法是指按照文字特点及其含义,以其书体笔法、结构和章法书写,使之成为富有美感的艺术作品。汉字书法为汉族独创的表现艺术,被誉为:无言的诗,无行的舞;无图的画,无声的乐等。
发明内容
本发明的目的是:针对现有技术中因人工主观性的影响,导致对书写质量评价准确性低的问题,提出一种基于生成式对抗网络模型书法字帖评价系统及方法。
本发明为了解决上述技术问题采取的技术方案是:基于生成式对抗网络模型书法字帖评价系统,包括展示层、业务层和数据库,所述展示层用于用户交互;
所述业务层包括定位模块、识别模块和相似对比模块,所述定位模块根据用户所上传的字帖图像进行文本框定位,然后传给识别模块,所述识别模块利用定位模块所定位的文本框的位置并通过Inception-V3网络框架进行文字识别,选择概率最大的文字输出文字的索引,所述相似对比模块依据识别模块输出的索引在数据库中找到相对应的文字进行相似对比;
所述数据库用于存放文字信息数据。
基于生成式对抗网络模型书法字帖评价方法,包括以下步骤:
步骤一:将图像进行预处理,得到固定大小的图片;
步骤二:利用darknet-53网络模型得到三种不同大小的特征图;
步骤三:选择和真实目标的具有最大交并比的anchor box进行预测,得到预测坐标;
步骤四:利用Inception-v3对字帖中目标定位后的文字进行识别;
步骤五:利用Inception-v3的瓶颈层进行特征向量提取,并计算两个特征向量的距离损失,根据距离损失,并引入排名机制得到最终评价。
进一步的,所述步骤一中预处理包括去噪和裁剪。
进一步的,所述步骤三的详细步骤为:首先将每种特征图都划分为小网格,每种特征图对应三种不同大小的anchor box,由物体中心对应的网格进行预测,选择和真实目标具有最大交并比的anchor box进行预测,然后通过NMS筛选重叠预测框,最后以张量形式得到整张图的文本框的预测坐标。
进一步的,所述步骤三中还包括使用YOLO-V3网络的步骤。
进一步的,所述步骤四的具体步骤为:首先利用网络中的瓶颈层进行训练,并将最后的激活函数softmax的节点个数修改为文字的个数。
进一步的,所述步骤四的具体步骤为:首先利用网络中的瓶颈层进行训练,并将最后的激活函数softmax的节点个数修改为文字的个数。
进一步的,所述距离损失通过欧式距离计算。
本发明的有益效果是:本发明采用神经网络对书法字帖进行处理,从而对书写质量进行评价,本发明减少了人为的参与,提高了书写质量评价的准确性。
附图说明
图1为系统构架图。
图2为darknet-53网络框架图。
图3为Darknet-53网络结构说明图。
图4为预测输出图。
图5为误差损失示意图。
图6为检测结果示意图。
图7为Inception-v3网络架构图。
图8为Inception-v3分支结构图。
图9为Inception-v3模型示意图。
图10为具体实施例数据图。
具体实施方式
具体实施方式一:参照图具体说明本实施方式,本实施方式所述的基于生成式对抗网络模型书法字帖评价系统,包括展示层、业务层和数据库,所述展示层用于用户交互;
所述业务层包括定位模块、识别模块和相似对比模块,所述定位模块根据用户所上传的字帖图像进行文本框定位,然后传给识别模块,所述识别模块利用定位模块所定位的文本框的位置并通过Inception-V3网络框架进行文字识别,选择概率最大的文字输出文字的索引,所述相似对比模块依据识别模块输出的索引在数据库中找到相对应的文字进行相似对比;
所述数据库用于存放文字信息数据。
展示层:系统前台,项目中的所用载体为微信小程序。其中包括的主要功能有评分功能、得分记录等。
业务层:业务层分为三个模块。定位模块根据用户所拍照上传的字帖照片进行文本框的定位,并传给识别模块进行调用;识别模块利用定位模块所定位的文本框的位置,通过Inception-v3网络框架进行文字识别,选择概率最大的文字输出文字的索引;相似度对比模块主要依据识别模块所输出的索引号在数据库中找到相对应的文字进行相似性对比,从而进行评分。
数据库:最底层为数据库,存储着小学生所要掌握的标准文字以及各种结构表,结构表用于存放用户的各种信息。如图2所示。
目标定位是计算机视觉领域对于目标检测方向的实际应用。项目采用YOLOv3目标检测方法,YOLOv3目标检测方法是YOLOv1和YOLOv2方法的改进版,是目前计算机视觉目标检测领域时效性和准确性综合效率最高的目标检测方法。
文字定位采用YOLOv3方法,它采用了darknet-53网络框架,利用深度学习的卷积技术通过对大量的数据集的标注和训练实现对于字帖中每个文本框的坐标定位。如图2所示。
首先将图像进行预处理得到固定大小的图片,然后利用darknet-53网络模型得到三种不同大小的特征图。
在darknet-53网络结构中,利用残差网络技术来加速损失熵的收敛,防止出现梯度消失问题;利用Batch Normalization(批次归一化)使得数据处于同一分布,避免出现过拟合问题;利用上采样技术使得顶层网络与上一层的网络进行连接,从而得到三种不同大小的特征图,使得能够更加精准的识别每一个文本框。如图3所示。
然后对三种不同的特征图进行预测处理。将每种特征图都划分为小网格,物体中心落在哪个网格就由哪个网格进行预测。最后通过NMS(非极大值抑制,Non-MaximumSuppresion)筛选重叠预测框,最终以张量形式得到整张图的文本框的预测坐标。
为了避免出现模型的不稳定,模型预测的是边界框中心点相对于对应网格左上角位置的相对偏移值(tx,ty),以及tw,th。为了将边界框中心点约束在当前网格,使用sigmoid函数处理偏移值。若物体中心点所对应的网格左上角的顶点坐标为(Cx,Cy),anchor box所对应的width为Pw,high为Ph,则所对应的最终预测结果bx,by,bw,bh如图4所示。
YOLO-V3的损失函数采用平方和误差损失。通过对坐标损失(有目标)、类别损失、目标损失(有目标和没有目标)通过Adam目标优化算法进行梯度更新,从而使梯度下降,达到目标精确的效果。如图5所示。
通过大量数据集的训练以及超参数的调试,检测结果如图6所示。
利用Inception-v3网络架构,将最后一层的卷积层后面添加全连接层,训练过程中利用dropout技术,并将最后的激活函数softmax的节点个数修改为小学生文字的个数,实现对字帖中目标定位所得到的每个文字的识别。如图7所示。
Inception-v3是对Inception-v1网络结构和Inception-v2网络结构的改进。利用N×1卷积后接1×N卷积来代替N×N卷积核,在不影响优化效果的前提下,节约了大量参数,从而加快运行速度并减轻过拟合。项目训练过程中,利用定位模块大量训练图片,并将训练好的模型进行冻结用于测试。应用过程中把定位模块输出的每个边界框的坐标作为输入,利用Inception-V3网络框架进行特征处理并进行全局平均化,使得每个汉字最后通过softmax激活函数输出节点,每个节点对应着每个小学生文字的概率,选择最大概率的文字作为索要识别的文字,将其所对应的索引号进行输出。如图8所示。
相似性计算主要依据识别模块文字索引找到数据库中的标准文字进行相似性对比,从而进行打分。本算法可以将打分问题简化成传入的手写汉字数据与标准字数据的相似程度的量化。通多对欧氏距离、曼哈顿距离、余弦相似度等多种相似性计算方法对比,采用CNN网络框架提取特征特征向量,利用相似度距离算法进行距离计算,并引入打分机制进行相似度计算。如图9所示。
通过对欧氏距离、曼哈顿距离、切比雪夫距离等距离算法的试验比较,采用欧氏距离进行相似度计算,并引入排名机制,其优点是更加符合现实中人们的打分标准。
此算法通过将所要识别文字和数据库文字利用InceptionV3的瓶颈层进行特征向量提取,并利用欧式距离计算两个特征向量的距离损失,引入排名机制,每一个手写汉字加入到字库中所对应的文字列表中并进行重新排序,将图片的距离损失在所有该字上的距离的排名位置加上基础分数最终得到这个字的打分结果。一张字帖上包含多组手写汉字,最终字帖的得分就是所有手写汉字得分的平均值,最后将结果返回给用户。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (8)

1.基于生成式对抗网络模型书法字帖评价系统,其特征在于:包括展示层、业务层和数据库,所述展示层用于用户交互;
所述业务层包括定位模块、识别模块和相似对比模块,所述定位模块根据用户所上传的字帖图像进行文本框定位,然后传给识别模块,所述识别模块利用定位模块所定位的文本框的位置并通过Inception-V3网络框架进行文字识别,选择概率最大的文字输出文字的索引,所述相似对比模块依据识别模块输出的索引在数据库中找到相对应的文字进行相似对比;
所述数据库用于存放文字信息数据。
2.基于生成式对抗网络模型书法字帖评价方法,其特征在于包括以下步骤:
步骤一:将图像进行预处理,得到固定大小的图片;
步骤二:利用darknet-53网络模型得到三种不同大小的特征图;
步骤三:选择和真实目标的具有最大交并比的anchor box进行预测,得到预测坐标;
步骤四:利用Inception-v3对字帖中目标定位后的文字进行识别;
步骤五:利用Inception-v3的瓶颈层进行特征向量提取,并计算两个特征向量的距离损失,根据距离损失,并引入排名机制得到最终评价。
3.根据权利要求2所述的基于生成式对抗网络模型书法字帖评价方法,其特征在于所述步骤一中预处理包括去噪和裁剪。
4.根据权利要求2所述的基于生成式对抗网络模型书法字帖评价方法,其特征在于所述步骤三的详细步骤为:首先将每种特征图都划分为小网格,每种特征图对应三种不同大小的anchor box,由物体中心对应的网格进行预测,选择和真实目标具有最大交并比的anchor box进行预测,然后通过NMS筛选重叠预测框,最后以张量形式得到整张图的文本框的预测坐标。
5.根据权利要求2所述的基于生成式对抗网络模型书法字帖评价方法,其特征在于所述步骤三中还包括使用YOLO-V3网络的步骤。
6.根据权利要求2所述的基于生成式对抗网络模型书法字帖评价方法,其特征在于所述步骤四的具体步骤为:首先利用网络中的瓶颈层进行训练,并将最后的激活函数softmax的节点个数修改为文字的个数。
7.根据权利要求6所述的基于生成式对抗网络模型书法字帖评价方法,其特征在于所述训练利用dropout技术进行。
8.根据权利要求2所述的基于生成式对抗网络模型书法字帖评价方法,其特征在于所述距离损失通过欧式距离计算。
CN201910988836.XA 2019-10-17 2019-10-17 基于生成式对抗网络模型书法字帖评价系统及方法 Pending CN110659702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910988836.XA CN110659702A (zh) 2019-10-17 2019-10-17 基于生成式对抗网络模型书法字帖评价系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910988836.XA CN110659702A (zh) 2019-10-17 2019-10-17 基于生成式对抗网络模型书法字帖评价系统及方法

Publications (1)

Publication Number Publication Date
CN110659702A true CN110659702A (zh) 2020-01-07

Family

ID=69041112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910988836.XA Pending CN110659702A (zh) 2019-10-17 2019-10-17 基于生成式对抗网络模型书法字帖评价系统及方法

Country Status (1)

Country Link
CN (1) CN110659702A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582345A (zh) * 2020-04-29 2020-08-25 中国科学院重庆绿色智能技术研究院 一种小样本下复杂环境的目标识别方法
CN111626297A (zh) * 2020-04-13 2020-09-04 小船出海教育科技(北京)有限公司 文字书写质量评价方法、装置、电子设备和记录介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232377A (zh) * 2019-01-07 2019-09-13 广东爱贝佳科技有限公司 一种字帖练习书法的人工智能评分系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232377A (zh) * 2019-01-07 2019-09-13 广东爱贝佳科技有限公司 一种字帖练习书法的人工智能评分系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WOOO: "Inception v3", 《知乎》 *
小哼哼: "pytorch yolov3 知识点总结", 《知乎》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626297A (zh) * 2020-04-13 2020-09-04 小船出海教育科技(北京)有限公司 文字书写质量评价方法、装置、电子设备和记录介质
CN111582345A (zh) * 2020-04-29 2020-08-25 中国科学院重庆绿色智能技术研究院 一种小样本下复杂环境的目标识别方法
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112507866B (zh) * 2020-12-03 2021-07-13 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
JP7044898B2 (ja) ナンバープレート認識方法、および、そのシステム
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN107403130A (zh) 一种字符识别方法及字符识别装置
JP2017091525A (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
CN104463101A (zh) 用于文字性试题的答案识别方法及系统
CN112070658A (zh) 一种基于深度学习的汉字字体风格迁移方法
CN106778852A (zh) 一种修正误判的图像内容识别方法
CN110659702A (zh) 基于生成式对抗网络模型书法字帖评价系统及方法
CN111062277B (zh) 基于单目视觉的手语-唇语转化方法
CN112085835B (zh) 三维卡通人脸生成方法、装置、电子设备及存储介质
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
CN114596566A (zh) 文本识别方法及相关装置
CN115393872A (zh) 一种训练文本分类模型的方法、装置、设备及存储介质
CN112329830B (zh) 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及系统
CN116361502B (zh) 一种图像检索方法、装置、计算机设备及存储介质
Reshna et al. Recognition of static hand gestures of Indian sign language using CNN
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
Wang et al. Generative model with coordinate metric learning for object recognition based on 3D models
CN114708462A (zh) 多数据训练的检测模型生成方法、系统、设备及存储介质
Boroujerdi et al. Deep interactive region segmentation and captioning
CN113409327A (zh) 一种基于排序与语义一致性约束的实例分割改进方法
CN113420760A (zh) 一种基于分割和形变lstm的手写体蒙古文检测和识别方法
Wang et al. Convolutional neural network-based recognition method for volleyball movements
CN112836467A (zh) 一种图像处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Qin Yuheng

Inventor after: Liu Yong

Inventor after: Yuan Jie

Inventor after: Zang Wenbin

Inventor after: Qin Yi

Inventor after: Mi Hongdan

Inventor before: Qin Yi

Inventor before: Mi Hongdan

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200107