CN111582148B - 京剧人物识别方法、设备、存储介质及装置 - Google Patents
京剧人物识别方法、设备、存储介质及装置 Download PDFInfo
- Publication number
- CN111582148B CN111582148B CN202010375181.1A CN202010375181A CN111582148B CN 111582148 B CN111582148 B CN 111582148B CN 202010375181 A CN202010375181 A CN 202010375181A CN 111582148 B CN111582148 B CN 111582148B
- Authority
- CN
- China
- Prior art keywords
- information
- beijing opera
- opera character
- image information
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及京剧人物识别技术领域,公开了一种京剧人物识别方法、设备、存储介质及装置。本发明通过获取当前京剧人物图像信息;将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息;根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息;将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息,从而通过京剧人物分类网络结合注意力机制网络实现对京剧人物的识别,达到提高京剧人物识别准确性的目的。
Description
技术领域
本发明涉及京剧人物识别的技术领域,尤其涉及京剧人物识别方法、设备、存储介质及装置。
背景技术
目前,对人物的识别主要采用的都是传统机器学习算法聚焦于脸部,进行实现人脸识别,而对于整体轮廓而言的采用基于深度学习的细粒度图像分类大多也只是面向于鸟类、车类以及花类等对象,针对这些细粒度图像对象由于类间长相相似以及类内由于姿态以及背景不同等因素进行识别。
但是,通过这些细粒度图像的识别过程中,仅仅通过传统的深度学习进行人物识别在采集的样本数量较少的情况下,容易造成识别的准确率不高的问题。
发明内容
本发明的主要目的在于提供京剧人物识别方法、设备、存储介质及装置,旨在解决如何提高京剧人物识别的准确性。
为实现上述目的,本发明提供一种京剧人物识别方法,所述京剧人物识别方法包括以下步骤:
获取当前京剧人物图像信息;
将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息;
根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息;
将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息。
优选地,所述获取当前京剧人物图像信息之前,所述方法还包括:
获取原始京剧人物图像信息;
将所述原始京剧人物图像信息由三原色图像信息转换为灰度图像信息;
获取降采样规则信息,根据所述降采样规则信息对所述灰度图像信息进行降采样,生成预设尺寸的缩略图像信息;
获取所述缩略图像信息边界区域中的噪点像素信息;
根据所述噪点像素信息对所述缩略图像信息进行裁剪,得到当前京剧人物图像信息。
优选地,所述获取所述缩略图像信息边界区域中的噪点像素信息,包括:
获取所述缩略图像信息边界区域中参考像素信息对应的预设方向算子;
将所述预设方向算子与所述缩略图像信息的预设卷积值进行比较,得到预设方向算子与所述缩略图像信息的预设卷积值的差值信息;
将所述差值信息与门槛值进行比较,根据比较结果确定所述缩略图像信息边界区域中的噪点像素信息。
优选地,所述根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息,包括:
根据所述分类信息确定特征区域信息中的像素点集合信息;
根据所述像素点集合信息得到每个像素点的视觉重要权重值;
对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值,并根据所述相对视觉重要权重值得到上下文特征向量信息;
根据所述上下文特征向量信息通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息。
优选地,所述根据所述像素点集合信息得到每个像素点的视觉重要权重值,包括:
获取线性仿射变换函数以及系数矩阵;
根据所述像素点集合信息、线性仿射变换函数以及系数矩阵得到每个像素点的视觉重要权重值。
优选地,所述对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值,并根据所述相对视觉重要权重值得到上下文特征向量信息,包括:
对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值;
对所述相对视觉重要权重值进行线性加权,得到上下文特征向量信息。
优选地,所述将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息之后,所述方法还包括:
获取搜索指令,根据所述搜索指令获取所述目标分类信息对应的标签信息;
根据所述标签信息查找所述目标分类信息对应的京剧人物介绍信息,并将所述京剧人物介绍信息进行展示。
此外,为实现上述目的,本发明还提出一种京剧人物识别设备,所述京剧人物识别设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行京剧人物识别程序,所述京剧人物识别程序被所述处理器执行时实现如上文所述的京剧人物识别方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有京剧人物识别程序,所述京剧人物识别程序被处理器执行时实现如上文所述的京剧人物识别方法的步骤。
此外,为实现上述目的,本发明还提出一种京剧人物识别装置,所述京剧人物识别装置包括:
获取模块,用于获取当前京剧人物图像信息;
识别模块,用于将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息;
放大模块,用于根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息;
所述识别模块,还用于将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息。
本发明提供的技术方案,通过获取当前京剧人物图像信息;将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息;根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息;将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息,从而通过京剧人物分类网络结合注意力机制网络实现对京剧人物的识别,达到提高京剧人物识别准确性的目的。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的京剧人物识别设备结构示意图;
图2为本发明京剧人物识别方法第一实施例的流程示意图;
图3为本发明京剧人物识别方法一实施例的京剧人物区域识别示意图;
图4为本发明京剧人物识别方法一实施例的京剧人物展示示意图;
图5为本发明京剧人物识别方法第二实施例的流程示意图;
图6为本发明京剧人物识别方法第三实施例的流程示意图;
图7为本发明京剧人物识别装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的京剧人物识别设备结构示意图。
如图1所示,该京剧人物识别设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口以及无线接口,而用户接口1003的有线接口在本发明中可为通用串行总线(Universal Serial Bus,USB)接口。网络接口1004可选的可以包括标准的有线接口以及无线接口(如WI-FI接口)。存储器1005可以是高速随机存取存储器(Random Access Memory,RAM);也可以是稳定的存储器,比如,非易失存储器(Non-volatile Memory),具体可为,磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对京剧人物识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及京剧人物识别程序。
在图1所示的京剧人物识别设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接外设;所述京剧人物识别设备通过处理器1001调用存储器1005中存储的京剧人物识别程序,并执行本发明实施例提供的京剧人物识别方法。
基于上述硬件结构,提出本发明京剧人物识别方法的实施例。
参照图2,图2为本发明京剧人物识别方法第一实施例的流程示意图。
在第一实施例中,所述京剧人物识别方法包括以下步骤:
步骤S10:获取当前京剧人物图像信息。
需要说明的是,本实施例的执行主体为京剧人物识别设备,还可为其他可实现相同或相似功能的设备,本实施例对此不作限制,在本实施例中,以京剧人物识别设备为例进行说明。
在具体实现中,在用户收看电视中播放的京剧视频时,可通过识别指令,根据所述识别指令截取当前播放视频中的京剧人物的图像信息,将截取到京剧人物的图像信息作为当前京剧人物图像信息,以便进行当前京剧人物的识别,其中,所述识别指令可为通过遥控器操作的识别指令,还可为通过电视界面上的菜单进行的识别指令,还可为其他形式的识别指令,本实施例对此不作限制,在本实施例中,以电视机上的操作界面进行识别操作为例进行说明。
在本实施例中,可基于电视播放的京剧视频某一帧图片的静态识别,将视频文件的某一帧的图片截取作为京剧人物分类网络的输入,然后通过训练好的京剧人物分类网络进行分类,得到识别结果。
步骤S20:将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息。
可以理解的是,所述京剧人物分类网络可为基于深度学习训练得到的京剧人物分类网络,还可基于其他网络训练得到的,本实施例对此不作限制,在本实施例中,以基于卷积神经网络为例进行说明,京剧人物的行当,即类别,包括生旦净丑等四大类别,生角包括老生(中年男性)和小生(青年男性),旦角包括青衣(中年女性)、花旦(青年女性)以及老旦(老年女性),净角包括花脸,即性格特征明显的特殊群体,例张飞或者包拯,丑角的特征为丑,即特征明显的特殊群体,插科打诨的人,其中,所述分类信息包括行当的类别,即分类信息包括老生或者花旦等行当信息。
在本实施例中,老生的脸谱妆较浅、均有髯口,即胡子;小生脸谱妆相较于老生而言更浓,不戴髯口,所以可以对其相应特征明显的区域进行标记,从而实现京剧人物的分类信息。
在具体实现中,获取京剧人物分类网络,将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息,为了获取京剧人物分类网络,首先需要充实各个行当(类别)的图片数据量,采集一定图片后,进行行当归类并对部分图片的特征区域进行辅助框标记,以“老生”和“花脸”为例,识别京剧人物是老生还是花脸,可以通过脸部妆容图以及髯口的不同来区分,“老生”的脸妆比较淡,和普通人造型无异,“老生”的胡子是三片,即三髯,“老生”的造型一般比较规矩,通常穿戴颜色较淡的衣物,且没有较大幅度的肢体变化,“花脸”的脸妆特色鲜明,较夸张,呈现有五颜六色的脸谱,“花脸”的胡子是一片,即满髯;“花脸”的造型一般比较夸张,通常伴有佩剑、令旗、将袍等物品,通过对京剧人物的脸部、胡子以及整体进行标注,如图3所示京剧人物区域识别示意图,其中,虚线框标注的为京剧人物的脸部、胡子以及整体信息,然后记录下相应框的坐标,基于卷积神经网络对特征区域进行学习训练,得到京剧人物分类网络。
步骤S30:根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息。
在本实施例中,还设有注意力机制网络,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息,继续如图3所示的特征区域,将特征区域中的特征信息进行放大处理,通过采用基于视觉注意力机制网络以及基于目标块标记的半监督学习训练网络,具体表现为视觉系统在看东西的时候,先通过快速扫描全局图像获得需要关注的目标区域,而后抑制其他无用信息以获取感兴趣的目标,同时,再对特征区域通过特征框标记加以辅助提升训练效果。
在具体实现中,首先通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息,注意力机制网络通过京剧人物分类网络的最后一层卷积层作为输入,计算出特征区域的决定性因素信息,即中心点等坐标信息,然后通过图像分割操作实现特征区域放大。
在本实施例中,通过放大剪切出来的图像重新作为京剧人物分类网络的数据输入进分类网络,从而提高了脸部以及胡子等重要特征在图像中的占比率,使识别效果有显著的提高。
步骤S40:将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息。
在本实施例中,所述京剧人物识别网络包含三个级别子网络,每个级别子网络的网络结构都是一样的,只是网络参数不一样,每个级别子网络又包含两种类型的网络:京剧人物分类网络和注意力机制网络,京剧人物分类网络对标记框的数据集进行特征提取并分类,然后注意力机制网络基于提取到的特征进行训练得到注意集中区域信息,再将注意集中区域裁剪出来并放大,作为第二个级别网络的输入,重复进行三次就得到了三个级别网络的输出结果,最后将三个级别网络的结果进行融合得到输出,这样反复进行的学习调参,可以使模型对不同类别脸部的纹理、身体信息特征,例如胡子,服饰上的特殊饰物,例如头冠、御带以及水袖等等特征信息进行识别,最终达到对不同类别的京剧人物的识别效果。
进一步地,所述步骤S40之后,所述方法还包括:
获取搜索指令,根据所述搜索指令获取所述目标分类信息对应的标签信息。根据所述标签信息查找所述目标分类信息对应的京剧人物介绍信息,并将所述京剧人物介绍信息进行展示。
需要说明的是,所述搜索指令可为基于电视界面进行搜索操作,还可通过其他方式进行操作,本实施例对此不作限制,在本实施例中,以基于电视界面进行搜索操作为例进行说明。
如图4所示的京剧人物展示示意图,当在观看京剧视频时,选择某一即时场景,点击电视左下角的一个搜索按钮,后台就会调用中间件接口,对图片中出现的京剧人物进行分析,图片经过京剧人物识别网络得到各类别信息的识别率,选取识别率最大的行当类别,展示其事先标记好的标签信息。随后就能通过弹出信息框的形式向用户展示这些基本信息,即京剧人物介绍信息,用户也就能更深一步的了解这一京剧人物所属行当的基本信息。
本实施例通过上述方案,通过获取当前京剧人物图像信息;将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息;根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息;将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息,从而通过京剧人物分类网络结合注意力机制网络实现对京剧人物的识别,达到提高京剧人物识别准确性的目的。
参照图5,图5为本发明京剧人物识别方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明京剧人物识别方法的第二实施例。
第二实施例中,所述步骤S10之前,所述方法还包括:
步骤S101,获取原始京剧人物图像信息。
需要说明的是,所述当前京剧人物图像信息为已经经过处理后的图像信息,为了保证的识别的准确性,需要预先对原始京剧人物图像信息进行处理,保证当前京剧人物图像信息的有效性。
步骤S102,将所述原始京剧人物图像信息由三原色图像信息转换为灰度图像信息。
步骤S103,获取降采样规则信息,根据所述降采样规则信息对所述灰度图像信息进行降采样,生成预设尺寸的缩略图像信息。
在本实施例中,所述降采样规则信息可为降采样倍数,根据所述降采样倍数对所述灰度图像信息进行降采样,生成预设尺寸的缩略图像信息,例如210*260尺寸的图像信息,经过降采样之后得到110*84的缩略图。
步骤S104,获取所述缩略图像信息边界区域中的噪点像素信息。
在具体实现中,通过获取所述缩略图像信息边界区域中参考像素信息对应的预设方向算子;将所述预设方向算子与所述缩略图像信息的预设卷积值进行比较,得到预设方向算子与所述缩略图像信息的预设卷积值的差值信息;将所述差值信息与门槛值进行比较,根据比较结果确定所述缩略图像信息边界区域中的噪点像素信息。
可以理解的是,所述预设方向算子可为四方向算子,例如水平、垂直、斜左上以及斜左下四个方向,还其他参数的方向算子,本实施例对此不作限制,在本实施例中,以四方向算子为例进行说明,在进行噪声识别时,当4个方向算子与源图像像素的卷积的最小值Val大于或等于门槛tol时,则当前像素点被认为是一个噪声像素,采用中值滤波进行去噪,否则认为它是信号像素而保持不变。
步骤S105,根据所述噪点像素信息对所述缩略图像信息进行裁剪,得到当前京剧人物图像信息。
本实施例通过上述方案,通过对原始京剧人物图像信息进预处理,将原始京剧人物图像信息转换为有效的当前京剧人物图像信息,从而保证京剧人物识别的准确性。
参照图6,图6为本发明京剧人物识别方法第三实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明京剧人物识别方法的第三实施例。
第三实施例中,所述步骤S30,包括:
步骤S301,根据所述分类信息确定特征区域信息中的像素点集合信息。
在本实施例中,所述特征区域信息可为在预设分类信息与区域信息对应关系中查找到的区域信息,例如通过京剧人物分类网络初步识别当前京剧人物为老生时,则对脸部妆容以及髯口等区域通过注意力机制网络进行方法处理。
步骤S302,根据所述像素点集合信息得到每个像素点的视觉重要权重值。
在具体实现中,通过获取线性仿射变换函数以及系数矩阵;根据所述像素点集合信息、线性仿射变换函数以及系数矩阵得到每个像素点的视觉重要权重值,即根据所述像素点集合信息、线性仿射变换函数以及系数矩阵采用以下公式(一)得到每个像素点的视觉重要权重值:
步骤S303,对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值,并根据所述相对视觉重要权重值得到上下文特征向量信息。
在具体实现中,对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值;对所述相对视觉重要权重值进行线性加权,得到上下文特征向量信息,即通过以下公式(二)得到每个像素点的相对视觉重要权重值:
通过以下公式(三)对所述相对视觉重要权重值进行线性加权,得到上下文特征向量信息:
其中,Ct表示上下文特征向量信息。
步骤S304,根据所述上下文特征向量信息通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息。
本实施例通过上述方案,通过根据所述上下文特征向量信息通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息,从而通过上下文特征向量感知多个时间步上的关键信息。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有京剧人物识别程序,所述京剧人物识别程序被处理器执行时实现如上文所述的终端入网方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
此外,参照图7,本发明实施例还提出一种京剧人物识别装置,所述京剧人物识别装置包括:
获取模块10,用于获取当前京剧人物图像信息。
在具体实现中,在用户收看电视中播放的京剧视频时,可通过识别指令,根据所述识别指令截取当前播放视频中的京剧人物的图像信息,将截取到京剧人物的图像信息作为当前京剧人物图像信息,以便进行当前京剧人物的识别,其中,所述识别指令可为通过遥控器操作的识别指令,还可为通过电视界面上的菜单进行的识别指令,还可为其他形式的识别指令,本实施例对此不作限制,在本实施例中,以电视机上的操作界面进行识别操作为例进行说明。
在本实施例中,可基于电视播放的京剧视频某一帧图片的静态识别,将视频文件的某一帧的图片截取作为京剧人物分类网络的输入,然后通过训练好的京剧人物分类网络进行分类,得到识别结果。
识别模块20,用于将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息。
可以理解的是,所述京剧人物分类网络可为基于深度学习训练得到的京剧人物分类网络,还可基于其他网络训练得到的,本实施例对此不作限制,在本实施例中,以基于卷积神经网络为例进行说明,京剧人物的行当,即类别,包括生旦净丑等四大类别,生角包括老生(中年男性)和小生(青年男性),旦角包括青衣(中年女性)、花旦(青年女性)以及老旦(老年女性),净角包括花脸,即性格特征明显的特殊群体,例张飞或者包拯,丑角的特征为丑,即特征明显的特殊群体,插科打诨的人,其中,所述分类信息包括行当的类别,即分类信息包括老生或者花旦等行当信息。
在本实施例中,老生的脸谱妆较浅、均有髯口,即胡子;小生脸谱妆相较于老生而言更浓,不戴髯口,所以可以对其相应特征明显的区域进行标记,从而实现京剧人物的分类信息。
在具体实现中,获取京剧人物分类网络,将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息,为了获取京剧人物分类网络,首先需要充实各个行当(类别)的图片数据量,采集一定图片后,进行行当归类并对部分图片的特征区域进行辅助框标记,以“老生”和“花脸”为例,识别京剧人物是老生还是花脸,可以通过脸部妆容图以及髯口的不同来区分,“老生”的脸妆比较淡,和普通人造型无异,“老生”的胡子是三片,即三髯,“老生”的造型一般比较规矩,通常穿戴颜色较淡的衣物,且没有较大幅度的肢体变化,“花脸”的脸妆特色鲜明,较夸张,呈现有五颜六色的脸谱,“花脸”的胡子是一片,即满髯;“花脸”的造型一般比较夸张,通常伴有佩剑、令旗、将袍等物品,通过对京剧人物的脸部、胡子以及整体进行标注,如图3所示京剧人物区域识别示意图,其中,虚线框标注的为京剧人物的脸部、胡子以及整体信息,然后记录下相应框的坐标,基于卷积神经网络对特征区域进行学习训练,得到京剧人物分类网络。
放大模块30,用于根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息。
在本实施例中,还设有注意力机制网络,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息,继续如图3所示的特征区域,将特征区域中的特征信息进行放大处理,通过采用基于视觉注意力机制网络以及基于目标块标记的半监督学习训练网络,具体表现为视觉系统在看东西的时候,先通过快速扫描全局图像获得需要关注的目标区域,而后抑制其他无用信息以获取感兴趣的目标,同时,再对特征区域通过特征框标记加以辅助提升训练效果。
在具体实现中,首先通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息,注意力机制网络通过京剧人物分类网络的最后一层卷积层作为输入,计算出特征区域的决定性因素信息,即中心点等坐标信息,然后通过图像分割操作实现特征区域放大。
在本实施例中,通过放大剪切出来的图像重新作为京剧人物分类网络的数据输入进分类网络,从而提高了脸部以及胡子等重要特征在图像中的占比率,使识别效果有显著的提高。
所述识别模块20,还用于将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息。
在本实施例中,所述京剧人物识别网络包含三个级别子网络,每个级别子网络的网络结构都是一样的,只是网络参数不一样,每个级别子网络又包含两种类型的网络:京剧人物分类网络和注意力机制网络,京剧人物分类网络对标记框的数据集进行特征提取并分类,然后注意力机制网络基于提取到的特征进行训练得到注意集中区域信息,再将注意集中区域裁剪出来并放大,作为第二个级别网络的输入,重复进行三次就得到了三个级别网络的输出结果,最后将三个级别网络的结果进行融合得到输出,这样反复进行的学习调参,可以使模型对不同类别脸部的纹理、身体信息特征,例如胡子,服饰上的特殊饰物,例如头冠、御带以及水袖等等特征信息进行识别,最终达到对不同类别的京剧人物的识别效果。
进一步地,所述步骤S40之后,所述方法还包括:
获取搜索指令,根据所述搜索指令获取所述目标分类信息对应的标签信息。根据所述标签信息查找所述目标分类信息对应的京剧人物介绍信息,并将所述京剧人物介绍信息进行展示。
需要说明的是,所述搜索指令可为基于电视界面进行搜索操作,还可通过其他方式进行操作,本实施例对此不作限制,在本实施例中,以基于电视界面进行搜索操作为例进行说明。
如图4所示的京剧人物展示示意图,当在观看京剧视频时,选择某一即时场景,点击电视左下角的一个搜索按钮,后台就会调用中间件接口,对图片中出现的京剧人物进行分析,图片经过京剧人物识别网络得到各类别信息的识别率,选取识别率最大的行当类别,展示其事先标记好的标签信息。随后就能通过弹出信息框的形式向用户展示这些基本信息,即京剧人物介绍信息,用户也就能更深一步的了解这一京剧人物所属行当的基本信息。
本实施例通过上述方案,通过获取当前京剧人物图像信息;将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息;根据所述分类信息确定特征区域信息,通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息;将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息,从而通过京剧人物分类网络结合注意力机制网络实现对京剧人物的识别,达到提高京剧人物识别准确性的目的。
本发明所述京剧人物识别装置采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种京剧人物识别方法,其特征在于,所述京剧人物识别方法包括以下步骤:
获取当前京剧人物图像信息;
将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息;
根据所述分类信息确定特征区域信息中的像素点集合信息;
根据所述像素点集合信息得到每个像素点的视觉重要权重值;
对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值,并根据所述相对视觉重要权重值得到上下文特征向量信息;
根据所述上下文特征向量信息通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息;
将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息。
2.如权利要求1所述的京剧人物识别方法,其特征在于,所述获取当前京剧人物图像信息之前,所述方法还包括:
获取原始京剧人物图像信息;
将所述原始京剧人物图像信息由三原色图像信息转换为灰度图像信息;
获取降采样规则信息,根据所述降采样规则信息对所述灰度图像信息进行降采样,生成预设尺寸的缩略图像信息;
获取所述缩略图像信息边界区域中的噪点像素信息;
根据所述噪点像素信息对所述缩略图像信息进行裁剪,得到当前京剧人物图像信息。
3.如权利要求2所述的京剧人物识别方法,其特征在于,所述获取所述缩略图像信息边界区域中的噪点像素信息,包括:
获取所述缩略图像信息边界区域中参考像素信息对应的预设方向算子;
将所述预设方向算子与所述缩略图像信息边界区域中参考像素的卷积的最小值与门槛值进行比较,根据比较结果确定所述缩略图像信息边界区域中的噪点像素信息。
4.如权利要求1所述的京剧人物识别方法,其特征在于,所述根据所述像素点集合信息得到每个像素点的视觉重要权重值,包括:
获取线性仿射变换函数以及系数矩阵;
根据所述像素点集合信息、线性仿射变换函数以及系数矩阵得到每个像素点的视觉重要权重值。
5.如权利要求1所述的京剧人物识别方法,其特征在于,所述对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值,并根据所述相对视觉重要权重值得到上下文特征向量信息,包括:
对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值;
对所述相对视觉重要权重值进行线性加权,得到上下文特征向量信息。
6.如权利要求1至3中任一项所述的京剧人物识别方法,其特征在于,所述将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息之后,所述方法还包括:
获取搜索指令,根据所述搜索指令获取所述目标分类信息对应的标签信息;
根据所述标签信息查找所述目标分类信息对应的京剧人物介绍信息,并将所述京剧人物介绍信息进行展示。
7.一种京剧人物识别设备,其特征在于,所述京剧人物识别设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行京剧人物识别程序,所述京剧人物识别程序被所述处理器执行时实现如权利要求1至6中任一项所述的京剧人物识别方法的步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有京剧人物识别程序,所述京剧人物识别程序被处理器执行时实现如权利要求1至6中任一项所述的京剧人物识别方法的步骤。
9.一种京剧人物识别装置,其特征在于,所述京剧人物识别装置包括:
获取模块,用于获取当前京剧人物图像信息;
识别模块,用于将所述当前京剧人物图像信息通过京剧人物分类网络进行识别,得到所述当前京剧人物图像信息的分类信息;
放大模块,用于根据所述分类信息确定特征区域信息中的像素点集合信息;根据所述像素点集合信息得到每个像素点的视觉重要权重值;对所述视觉重要权重值进行归一化,得到每个像素点的相对视觉重要权重值,并根据所述相对视觉重要权重值得到上下文特征向量信息;根据所述上下文特征向量信息通过注意力机制网络对所述特征区域信息进行区域放大,得到放大后的特征信息;
所述识别模块,还用于将所述放大后的特征信息重新通过所述京剧人物分类网络进行识别,得到目标分类信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010375181.1A CN111582148B (zh) | 2020-05-06 | 2020-05-06 | 京剧人物识别方法、设备、存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010375181.1A CN111582148B (zh) | 2020-05-06 | 2020-05-06 | 京剧人物识别方法、设备、存储介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111582148A CN111582148A (zh) | 2020-08-25 |
CN111582148B true CN111582148B (zh) | 2023-06-06 |
Family
ID=72122750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010375181.1A Active CN111582148B (zh) | 2020-05-06 | 2020-05-06 | 京剧人物识别方法、设备、存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111582148B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393468A (zh) * | 2021-06-28 | 2021-09-14 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、装置和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106101696A (zh) * | 2016-06-16 | 2016-11-09 | 北京数智源科技股份有限公司 | 视频质量诊断系统及视频质量分析算法 |
CN106952221A (zh) * | 2017-03-15 | 2017-07-14 | 中山大学 | 一种三维京剧脸谱自动化妆方法 |
CN110084794A (zh) * | 2019-04-22 | 2019-08-02 | 华南理工大学 | 一种基于注意力卷积神经网络的皮肤癌图片识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7471827B2 (en) * | 2003-10-16 | 2008-12-30 | Microsoft Corporation | Automatic browsing path generation to present image areas with high attention value as a function of space and time |
JP5718197B2 (ja) * | 2011-09-14 | 2015-05-13 | 株式会社バンダイナムコゲームス | プログラム及びゲーム装置 |
-
2020
- 2020-05-06 CN CN202010375181.1A patent/CN111582148B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106101696A (zh) * | 2016-06-16 | 2016-11-09 | 北京数智源科技股份有限公司 | 视频质量诊断系统及视频质量分析算法 |
CN106952221A (zh) * | 2017-03-15 | 2017-07-14 | 中山大学 | 一种三维京剧脸谱自动化妆方法 |
CN110084794A (zh) * | 2019-04-22 | 2019-08-02 | 华南理工大学 | 一种基于注意力卷积神经网络的皮肤癌图片识别方法 |
Non-Patent Citations (1)
Title |
---|
Jianlong Fu et al.Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).2017,第4476-4484页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111582148A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738101B (zh) | 行为识别方法、装置及计算机可读存储介质 | |
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
WO2021036059A1 (zh) | 图像转换模型训练方法、异质人脸识别方法、装置及设备 | |
US20120068917A1 (en) | System and method for dynamic gesture recognition using geometric classification | |
WO2014088871A1 (en) | Facial expression editing in images based on collections of images | |
CN103810490A (zh) | 一种确定人脸图像的属性的方法和设备 | |
CN110097616B (zh) | 一种联合绘画方法、装置、终端设备及可读存储介质 | |
CN106960181A (zh) | 一种基于rgbd数据的行人属性识别方法 | |
CN105426810A (zh) | 信息处理装置和图像修改方法 | |
CN113191216B (zh) | 基于姿态识别和c3d网络的多人实时动作识别方法和系统 | |
CN111814569A (zh) | 一种人脸遮挡区域的检测方法及系统 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
US11157765B2 (en) | Method and system for determining physical characteristics of objects | |
CN111582148B (zh) | 京剧人物识别方法、设备、存储介质及装置 | |
CN115661903B (zh) | 一种基于空间映射协同目标过滤的识图方法及装置 | |
CN112884074B (zh) | 基于决策树的图像设计方法、设备、存储介质及装置 | |
CN113392820B (zh) | 动态手势识别方法、装置、电子设备及可读存储介质 | |
CN108256401B (zh) | 一种获取目标属性特征语义的方法及装置 | |
CN111507139A (zh) | 图像效果生成方法、装置和电子设备 | |
CN112860060B (zh) | 一种图像识别方法、设备及存储介质 | |
CN112839167B (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN111291756B (zh) | 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质 | |
CN114639033A (zh) | 一种人员识别方法、装置、设备和计算机可读存储介质 | |
CN113034420B (zh) | 一种频率空间域特征的工业产品表面缺陷分割方法及系统 | |
CN113850245A (zh) | 图像处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |