CN111597966B - 一种表情图像识别方法、装置及系统 - Google Patents

一种表情图像识别方法、装置及系统 Download PDF

Info

Publication number
CN111597966B
CN111597966B CN202010404516.8A CN202010404516A CN111597966B CN 111597966 B CN111597966 B CN 111597966B CN 202010404516 A CN202010404516 A CN 202010404516A CN 111597966 B CN111597966 B CN 111597966B
Authority
CN
China
Prior art keywords
image
frame
outline
sample data
contour
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010404516.8A
Other languages
English (en)
Other versions
CN111597966A (zh
Inventor
申世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010404516.8A priority Critical patent/CN111597966B/zh
Publication of CN111597966A publication Critical patent/CN111597966A/zh
Application granted granted Critical
Publication of CN111597966B publication Critical patent/CN111597966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种表情图像识别方法、装置、电子设备以及存储介质,用以至少解决相关技术中在对聊天截图进行安全检测时,由于无法识别出聊天截图中的聊天表情,而导致检测结果准确性较低的问题,方法包括:使用预先训练得到的基于卷积神经网络的图像分类器对预先获取的待检测图像集中的图像进行分类,以从所述待检测图像集中确定出待识别图像;利用预先训练得到的轮廓框检测模型,对所述待识别图像进行检测,以确定所述待识别图像中所包含的轮廓框;根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。

Description

一种表情图像识别方法、装置及系统
技术领域
本公开涉及计算机技术领域,尤其涉及一种表情图像识别方法、装置、电子设备以及存储介质系统。
背景技术
随着互联网信息技术的飞速发展,互联网中可访问的网站数量及内容也呈现出爆炸性增加的趋势。由于互联网的开放性,每个用户都可以通过互联网进行内容的分享,这也就导致互联网上信息良莠不齐的情况。
为了避免用户上传的违法信息对互联网环境的污染,各大互联网公司往往会对用户上传的内容进行监测,以屏蔽包含不良信息的违规内容,净化网络环境。
目前,为了对用户上传的内容进行监测,互联网公司往往会通过图像识别、视频识别以及文字识别等技术对用户上传的不同类型的内容进行识别。比如,针对用户上传的文字内容,则可以通过文字识别技术以确定该文字是否含有违法内容。
而在实际使用中,用户可能会截取一部分在即时通信应用上的聊天记录(截取的聊天记录可能包括文字内容以及聊天表情等)来发布到互联网上进行分享,该分享内容从类型上说虽然是图片形式,但其中既包含了文字内容,还包含了图片(如聊天表情)内容,此时如果仍然按照上述识别方式,仅对聊天截图中的聊天文字或者聊天表情部分进行识别,则不可避免地会遗漏很多内容,进而导致判断结果不准确的问题。
由此可见,目前亟需一种可以对聊天截图中聊天表情识进行识别的方案,以便后续可以针对聊天截图的聊天文字以及聊天表情分别进行安全检测,进而保证最终识别结果的准确性。
发明内容
本公开提供一种表情图像识别方法、装置、电子设备以及存储介质,以至少解决相关技术中在对聊天截图进行安全检测时,由于无法识别出聊天截图中的聊天表情,而导致检测结果准确性较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种表情图像识别方法,包括:
使用预先训练得到的基于卷积神经网络的图像分类器对预先获取的待检测图像集中的图像进行分类,以从所述待检测图像集中确定出待识别图像;利用预先训练得到的轮廓框检测模型,对所述待识别图像进行检测,以确定所述待识别图像中所包含的轮廓框;根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。
根据本公开实施例的第二方面,提供一种表情图像识别装置,包括:
图像分类单元,被配置为执行使用预先训练得到的基于卷积神经网络的图像分类器对预先获取的待检测图像集中的图像进行分类,以从所述待检测图像集中确定出待识别图像;
轮廓框检测单元,被配置为执行利用预先训练得到的轮廓框检测模型,对所述待识别图像进行检测,以确定所述待识别图像中所包含的轮廓框;
筛选单元,被配置为执行根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。
根据本公开实施例的第三方面,提供一种表情图像识别电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述第一方面中任一项表情图像识别方法步骤。
根据本公开实施例的第四方面,提供一种存储介质,包括:当所述存储介质中的指令由表情图像识别电子设备的处理器执行时,使得所述表情图像识别电子设备能够执行上述第一方面中任一项表情图像识别方法步骤。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括:
当其在设备上运行时,使得项目打包设备执行:上述第一方面中任一项表情图像识别方法步骤。
本公开的实施例提供的技术方案至少带来以下有益效果:
采用本公开实施例提供的表情图像识别方法,在对待检测图像集合中的图像进行检测前,首先会使用预先训练得到的基于卷积神经网络的图像分类器对待检测图像集合中的图像进行分类,以从待检测图像集中确定出需要进行表情图像识别的待识别图像(比如,聊天截图),进而针对该些待识别图像,利用预先训练得到的轮廓框检测模型,检测出该些待识别图像中所包含的轮廓框,进而按照预先设置的筛选规则,根据该些轮廓框在待识别图像中的位置,对轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。通过上述方案可以从待检测图像中筛选出需要进行表情识别的待识别图像(如聊天截图),并可以根据在图像中检测出的轮廓框的位置,以从待识别图像中识别出表情图像,从而可以分别对该图像的文字部分以及从该图像中识别出的表情图像分别进行安全检测,以避免采用现有技术在对聊天截图进行安全检测时,由于无法识别出聊天截图中的聊天表情,而导致检测结果准确性较低的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种表情图像识别方法的流程图;
图2是根据一示例性实施例示出的一种待识别图片的示意图;
图3是根据一示例性实施例示出的另一种待识别图片的示意图;
图4是根据一示例性实施例示出的一种轮廓框检测模型的结构图;
图5是根据一示例性实施例示出的一种聊天图像示意图;
图6是根据一示例性实施例示出的一种表情图像识别装置的框图;
图7是根据一示例性实施例示出的一种表情图像识别电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
以下结合附图,详细说明本公开的实施例所提供的技术方案。
本公开的实施例提供了一种表情图像识别方法,用以至少解决相关技术中在对聊天截图进行安全检测时,由于无法识别出聊天截图中的聊天表情,而导致检测结果准确性较低的问题。
本公开的实施例提供的表情图像识别方法的执行主体,可以但不限于为手机、平板电脑、个人电脑(Personal Computer,PC)、智能电视以及任何可以运行应用程序的终端设备中的至少一种。或者,该方法的执行主体也可以是安装在上述设备上的应用程序本身。此外该方法的执行主体还可以是服务器,例如,视频网站的服务器、短视频APP的服务器、新闻网站的服务器以及广告网站的服务器,等等。
为便于描述,下文以该方法的执行主体为短视频APP的服务器为例,对本公开的实施例所提供的表情图像识别方法进行介绍。可以理解,该方法的执行主体为短视频APP的服务器只是一种示例性的说明,并不应理解为对本公开实施例的限定。
图1是根据一示例性实施例示出的一种表情图像识别方法的流程图,如图1所示,该表情图像识别方法用于短视频APP服务器中,包括以下步骤:
在步骤S101中,使用预先训练得到的基于卷积神经网络的图像分类器对预先获取的待检测图像集中的图像进行分类,以从所述待检测图像集中确定出待识别图像;
其中,该基于卷积神经网络的图像分类器具体可以采用下述方法训练生成:
获取特定数量的聊天截图作为正样本数据;获取特定数量的非聊天截图作为负样本数据;采用卷积神经网络,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为聊天截图作为输出,建立所述图像分类器,所述图像分类器用于判断待检测图像是否为聊天截图。
由于训练一个深度卷积神经网络需要大量的数据、较高配置的计算机以及较长的时间周期,因而在本申请实施例中可以采用迁移学习的方法,利用谷歌公司已经训练好的Inception-v3模型,来重新训练模型,可以较为高效的实现图像分类器模的训练,且由于是利用的已有模型进行的重新训练,因而构建基础模型时所需的数据量也较少,对计算机的配置要求较低。将预先获取的聊天截图作为训练该图像分类器的正样本数据,并将预先获取的、相同数量的非聊天截图图像作为训练该图像分类器的负样本数据,并基于该些正样本数据以及负样本数据共同构成数据训练集,将该些数据训练集中的数据输入该Inception-v3模型,以重训练得到图像分类器。
具体地,本申请实施例提供的图像分类器重训练方法可以包括:
根据google开发的Inception V3建立卷积神经网络的结构。卷积神经网络具有进行自学习和特征提取的多层架构。Inception-v3的基本配置中有四个卷积模块,包含一个42层的深卷积网络,拥有超过130层的299×299接受域。将原始图像数据输入卷积神经网络,对于每一层,卷积层对前一层的输出进行卷积运算和激活操作提取特征,激活函数可以采用tanh函数。
通过卷积层操作获得图像的特征之后,为了进一步降低网络训练参数及模型的过拟合程度,需要通过池化层进行池化操作。经过卷积、池化多次操作后,通过构建一个顶层卷积层,即全连接层,并且将该全连接层添加到经过卷积、池化多次操作后得到的特征提取模块后,得到第一卷积神经网络模型。
利用数据训练集中的正样本数据以及负样本数据对该第一卷积神经网络模型进行训练,已将该第一卷积神经网络模型训练成用于对聊天截图进行分类识别的分类器。
另外,在一种实施方式中,在上述构建图像分类器的过程中,还可以选取出多个已知的聊天截图作为数据验证集,并利用数据验证集中的数据进行对训练得到的图像分类器进行验证,进而根据验证结果对图像分类器的优化器、学习率和迭代次数等参数进行调整,进而可以不断提高模型精度以及训练迭代速度,具体地可以按照下述方式进行调整:
采用相应的验证数据输入所述图像分类器,得到分类结果;根据所述分类结果,计算所述图像分类器的分类准确率;判断所述分类准确率是否大于预先设定的准确率阈值;当判断结果为是时,则确定所述预测模型可用;当判断结果为否时,则调整建立图像分类器所使用的数据、重新建立相应的图像分类器,直至图像分类器的分类准确率大于预先设定的准确率阈值。
在第一卷积神经网络模型中,使用多种不同的优化器,分别通过数据训练集中的正负样本数据对第一卷积神经网络模型进行训练,然后通过数据验证集验证训练得到的图像分类器的分类准确率以及对应训练迭代次数,选出迭代次数最少就能达到相应分类准确率要求的优化器,作为图像分类器的优化器。另外,在第一卷积神经网络模型中,使用了多个学习率数值,分别通过数据训练集中的正负样本数据对第一卷积神经网络模型进行训练,在训练达到收敛时观察相应学习率下的分类准确率,选取最佳分类准确率对应的学习率作为图像分类器的学习率。在确定优化器和学习率后,采用十折交叉验证法,确定收敛到最佳分类准确率时的迭代次数,作为训练图像分类器的迭代次数。
在步骤S102中,利用预先训练得到的轮廓框检测模型,对通过执行步骤101确定的待识别图像进行检测,以确定待识别图像中所包含的轮廓框;
其中,轮廓框是指在图像中明显不同于背景的图像区域与图片背景之间的分界框,在本申请实施例中,该轮廓框可以是指图片中真实存在的轮廓框,比如,如图2所示,该张图像中包含多个照相框,则可以将该照相框确定为该张图片所包含的轮廓框;此外,该轮廓框还可以是指一张图像中不同区域之间的分界线,例如如图3所示,在该张聊天截图中包含有一张表情图片,很明显该张表情图片与整张图片的背景有明显不同,虽然在该张聊天截图中,表情图片周围并不存在如图2所示的真实相框,但是在本方案中仍可以将表情图片与聊天截图背景之间的分界线作为轮廓框。
在本申请实施例中,该轮框框检测模型可以是利用标注出轮廓框的图像样本以及未经标注的图像样本,对利用目标检测算法构建的模型进行训练而得到的,从而可以保证采用该种方式训练得到的轮廓框检测模型具有较高的识别精度,同时由于训练样本中正样本是由开发人员标注的,从而可以保证该模型可以根据需要对特定满足设计需要的轮廓框进行识别,进而避免对其他类似轮廓框的误识别。具体的,在本申请实施例中,该轮廓框检测模型可以是采用下述方式训练得到的:
获取特定数量的、预先标注有轮廓框的图像作为正样本数据;获取特定数量的、未标注有轮廓框的图像作为负样本数据;采用目标检测算法,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为包含轮廓框作为输出,建立所述轮廓框检测模型,所述轮廓框检测模型用于判断待检测图像是否包含轮廓框。
在本申请实施例中,具体可以利用目标检测算法Faster-RCNN构建深度学习物体检测框架作为该轮廓框检测模型的主要网络结构。在构建好深度学习物体检测框架后,可以利用特定数量的、预先标注有轮廓框的图像(约占所有训练样本的10%)预训练模型得到一个初始模型,并利用剩余未标注有轮廓框的训练样本继续对该初始模型进行训练,最终得到训练好的轮廓框检测模型。
在一种实施方式中,本申请实施例所提供的轮廓框检测模型的具体训练过程如下:
子步骤1:将训练样本输入构建好的深度学习物体检测框架;
子步骤2:将作为训练样本的图像输入卷积神经网络CNN层,进行特征提取;
子步骤3:将通过执行子步骤2提取到的特征输入区域候选网络(Region ProposalNetworks,RPN)层,通过RPN层生成若干锚框(Anchor box),并对其进行裁剪过滤后通过softmax函数判断anchors属于前景或者后景,即进行二分类,判断是物体or不是物体,以根据Anchor box确定建议窗口。
子步骤4:把通过执行子步骤3确定的建议窗口映射到CNN的最后一层卷积featuremap上,并通过矩形框池化(RoI pooling)层使每个矩形框RoI生成固定尺寸的featuremap;
子步骤5:最后利用Softmax Loss(探测分类概率)和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)进行联合训练,并重复上述步骤完成对轮廓框检测模型的训练。
采用上述方案训练得到的轮廓框检测模型的结构如图4所示,包括:转换层(Convlayers)、RPN层、RoI pooling层以及分类层(Classification)。
其中,通过Conv layers层提取图像(image)的特征图feature maps。该featuremaps被共享用于后续RPN层和全连接层。
RPN层用于生成region proposals。该层通过softmax对anchors进行分类。
Roi Pooling层收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。
Classification层。利用proposal feature maps计算proposal的类别,同时再次bounding box regression获得检测框最终的精确位置,进而最终确定轮廓框在待检测图像中的位置。
则在本方案中,通过将待识别图像输入到预先训练的轮廓框检测模型中,即可通过该轮廓框检测模型识别出该张图片中所包含的轮廓框,进而继续执行步骤S103。
在步骤S103中,根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。
一般地,在一张聊天截图中可能包含三部分内容,即用户头像图片、聊天表情图片以及背景图片,且通过执行上述步骤S102同样可以识别出针对用户头像图片的轮廓框,针对聊天表情图片的轮廓框以及针对背景图片的轮廓框,而根据前文介绍可知,本方案仅需要识别出聊天截图中的聊天表情图片,因而在步骤S103中需要对通过执行步骤S102识别出的其他非聊天表情图片对应的轮廓框进行筛选。
这里需要说明的是,在一张聊天截图中,用户头像图片往往位于聊天截图中的指定位置区域,例如如图3所示,用户头像均位于聊天截图的左侧或者右侧,而聊天表情图片则均位于两个用户头像之间,则在本申请实施例中,可以根据轮廓框在聊天截图中的位置,对通过执行步骤S102确定出的轮廓框进行筛选,以确定出聊天截图中的聊天表情图片,通过该种方式既可以准确的识别符合后续使用需要的轮廓框区域,同时通过简单的筛选规则来实现轮廓框的筛选,从而不需要重新对轮廓框检测模型进行训练,极大的提高模型训练效率,且节省了模型训练成本。
本申请实施例对轮廓框进行筛选的方式具体可以包括:在所述待识别图像中筛选出位于特定区域外的第一轮廓框集合,以及位于特定区域内的第二轮廓框集合;针对所述第一轮廓框集合中的各第一轮廓框,根据相距距离,分别在所述第二轮廓框集合中确定出对应的边缘相距距离最近的第二轮廓框;根据所述第一轮廓框与所述对应的第二轮廓框之间的相距距离,对所述第一轮廓框集合进行筛选;将所述第一轮廓框集合中与对应的第二轮廓框之间的相距距离小于预设阈值的第一轮廓框中的图像确定为表情图像。
具体地,在一种实施方式中,可以将从聊天截图左右两边a厘米的区域设置为用户头像区域(即上文所述的特定区域),如图5所述,则落在该区域内的轮廓框所包含的图片均为用户头像图片,而落在该区域外的轮廓框即为聊天表情或者背景图片所对应的轮廓框。同时由于在聊天截图中,聊天背景图片往往覆盖了整张图片,而聊天表情仅出现两个用户头像之间,即聊天内容部分,则在本方案中可以进一步根据位于用户头像区域外的轮廓框与用户头像对应的轮廓框之间的距离,来进一步筛选出聊天表情所对应的轮廓框。
例如,如图5所示,图中轮廓框1位于用户头像区域以外,且该轮廓框1的左边缘与用户头像a相距距离最近,则根据筛选规则可以确定轮廓框1与用户头像a对应,且二者之间的距离小于预设的距离阈值,进而可以将该轮廓框1中所包含的图像确定为聊天表情图像。
采用本公开实施例提供的表情图像识别方法,在对待检测图像集合中的图像进行检测前,首先会使用预先训练得到的基于卷积神经网络的图像分类器对待检测图像集合中的图像进行分类,以从待检测图像集中确定出需要进行表情图像识别的待识别图像(比如,聊天截图),进而针对该些待识别图像,利用预先训练得到的轮廓框检测模型,检测出该些待识别图像中所包含的轮廓框,进而按照预先设置的筛选规则,根据该些轮廓框在待识别图像中的位置,对轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。通过上述方案可以从待检测图像中筛选出需要进行表情识别的待识别图像(如聊天截图),并可以根据在图像中检测出的轮廓框的位置,以从待识别图像中识别出表情图像,从而可以分别对该图像的文字部分以及从该图像中识别出的表情图像分别进行安全检测,以避免采用现有技术在对聊天截图进行安全检测时,由于无法识别出聊天截图中的聊天表情,而导致检测结果准确性较低的问题。
图6是根据一示例性实施例示出的一种表情图像识别装置框图,用以至少解决相关技术中在对聊天截图进行安全检测时,由于无法识别出聊天截图中的聊天表情,而导致检测结果准确性较低的问题。参照图6,该装置包括图像分类单元121,轮廓框检测单元122和筛选单元123。
其中,该图像分类单元121被配置为执行使用预先训练得到的基于卷积神经网络的图像分类器对预先获取的待检测图像集中的图像进行分类,以从所述待检测图像集中确定出待识别图像;
该轮廓框检测单元122被配置为执行利用预先训练得到的轮廓框检测模型,对所述待识别图像进行检测,以确定所述待识别图像中所包含的轮廓框;
该筛选单元123被配置为执行根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。
在一种实施例中,还包括图像分类器生成单元,具体被配置为执行:获取特定数量的聊天截图作为正样本数据;获取特定数量的非聊天截图作为负样本数据;采用卷积神经网络,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为聊天截图作为输出,建立所述图像分类器,所述图像分类器用于判断待检测图像是否为聊天截图。
在一种实施例中,图像分类器生成单元,具体被配置为执行:采用相应的验证数据输入所述图像分类器,得到分类结果;根据所述分类结果,计算所述图像分类器的分类准确率;判断所述分类准确率是否大于预先设定的准确率阈值;当判断结果为是时,则确定所述预测模型可用;当判断结果为否时,则调整建立图像分类器所使用的数据、重新建立相应的图像分类器,直至图像分类器的分类准确率大于预先设定的准确率阈值。
在一种实施例中,还包括轮廓框检测模型生成单元,具体被配置为执行:获取特定数量的、预先标注有轮廓框的图像作为正样本数据;获取特定数量的、未标注有轮廓框的图像作为负样本数据;采用目标检测算法,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为包含轮廓框作为输出,建立所述轮廓框检测模型,所述轮廓框检测模型用于判断待检测图像是否包含轮廓框。
在一种实施例中,筛选单元123具体被配置为执行在所述待识别图像中筛选出位于特定区域外的第一轮廓框集合,以及位于特定区域内的第二轮廓框集合;针对所述第一轮廓框集合中的各第一轮廓框,根据相距距离,分别在所述第二轮廓框集合中确定出对应的边缘相距距离最近的第二轮廓框;根据所述第一轮廓框与所述对应的第二轮廓框之间的相距距离,对所述第一轮廓框集合进行筛选;将所述第一轮廓框集合中与对应的第二轮廓框之间的相距距离小于预设阈值的第一轮廓框中的图像确定为表情图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
采用本公开实施例提供的表情图像识别装置,在对待检测图像集合中的图像进行检测前,首先会使用预先训练得到的基于卷积神经网络的图像分类器对待检测图像集合中的图像进行分类,以从待检测图像集中确定出需要进行表情图像识别的待识别图像(比如,聊天截图),进而针对该些待识别图像,利用预先训练得到的轮廓框检测模型,检测出该些待识别图像中所包含的轮廓框,进而按照预先设置的筛选规则,根据该些轮廓框在待识别图像中的位置,对轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。通过上述方案可以从待检测图像中筛选出需要进行表情识别的待识别图像(如聊天截图),并可以根据在图像中检测出的轮廓框的位置,以从待识别图像中识别出表情图像,从而可以分别对该图像的文字部分以及从该图像中识别出的表情图像分别进行安全检测,以避免采用现有技术在对聊天截图进行安全检测时,由于无法识别出聊天截图中的聊天表情,而导致检测结果准确性较低的问题。
图7是根据一示例性实施例示出的一种用于表情图像识别的电子设备300的结构示意图。请参考图7,在硬件层面,该表情图像识别电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据同步装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
使用预先训练得到的基于卷积神经网络的图像分类器对预先获取的待检测图像集中的图像进行分类,以从所述待检测图像集中确定出待识别图像;
利用预先训练得到的轮廓框检测模型,对所述待识别图像进行检测,以确定所述待识别图像中所包含的轮廓框;
根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像。
上述如本公开图7所示实施例揭示的表情图像识别电子设备执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现视频分类装置在图1所示实施例中的功能,本公开实施例在此不再赘述。
当然,除了软件实现方式之外,本公开的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器,上述指令可由电子设备300的处理器320执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种表情图像识别方法,其特征在于,包括:
使用预先训练得到的基于卷积神经网络的图像分类器对预先获取的待检测图像集中的图像进行分类,以从所述待检测图像集中确定出待识别图像;
利用预先训练得到的轮廓框检测模型,对所述待识别图像进行检测,以确定所述待识别图像中所包含的轮廓框;
根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像;
其中,根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像,具体包括:
在所述待识别图像中筛选出位于特定区域外的第一轮廓框集合,以及位于特定区域内的第二轮廓框集合;
针对所述第一轮廓框集合中的各第一轮廓框,根据相距距离,分别在所述第二轮廓框集合中确定出对应的边缘相距距离最近的第二轮廓框;
根据所述第一轮廓框与所述对应的第二轮廓框之间的相距距离,对所述第一轮廓框集合进行筛选;
将所述第一轮廓框集合中与对应的第二轮廓框之间的相距距离小于预设阈值的第一轮廓框中的图像确定为表情图像。
2.根据权利要求1所述的表情图像识别方法,其特征在于,所述图像分类器采用下述方式生成:
获取特定数量的聊天截图作为正样本数据;
获取特定数量的非聊天截图作为负样本数据;
采用卷积神经网络,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为聊天截图作为输出,建立所述图像分类器,所述图像分类器用于判断待检测图像是否为聊天截图。
3.根据权利要求2所述的表情图像识别方法,其特征在于,采用卷积神经网络,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为聊天截图作为输出,建立所述图像分类器后,所述方法还包括:
采用相应的验证数据输入所述图像分类器,得到分类结果;
根据所述分类结果,计算所述图像分类器的分类准确率;
判断所述分类准确率是否大于预先设定的准确率阈值;
当判断结果为是时,则确定预测模型可用;当判断结果为否时,则调整建立图像分类器所使用的数据、重新建立相应的图像分类器,直至图像分类器的分类准确率大于预先设定的准确率阈值。
4.根据权利要求1所述的表情图像识别方法,其特征在于,所述轮廓框检测模型采用下述方式生成:
获取特定数量的、预先标注有轮廓框的图像作为正样本数据;
获取特定数量的、未标注有轮廓框的图像作为负样本数据;
采用目标检测算法,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为包含轮廓框作为输出,建立所述轮廓框检测模型,所述轮廓框检测模型用于判断待检测图像是否包含轮廓框。
5.一种表情图像识别装置,其特征在于,包括:
图像分类单元,被配置为执行使用预先训练得到的基于卷积神经网络的图像分类器对预先获取的待检测图像集中的图像进行分类,以从所述待检测图像集中确定出待识别图像;
轮廓框检测单元,被配置为执行利用预先训练得到的轮廓框检测模型,对所述待识别图像进行检测,以确定所述待识别图像中所包含的轮廓框;
筛选单元,被配置为执行根据预先设置的筛选规则,按照所述轮廓框在所述待识别图像中的位置,对所述轮廓框进行筛选,并将符合筛选规则的轮廓框中的图像确定为表情图像;
其中,筛选单元具体被配置为执行:
在所述待识别图像中筛选出位于特定区域外的第一轮廓框集合,以及位于特定区域内的第二轮廓框集合;
针对所述第一轮廓框集合中的各第一轮廓框,根据相距距离,分别在所述第二轮廓框集合中确定出对应的边缘相距距离最近的第二轮廓框;
根据所述第一轮廓框与所述对应的第二轮廓框之间的相距距离,对所述第一轮廓框集合进行筛选;
将所述第一轮廓框集合中与对应的第二轮廓框之间的相距距离小于预设阈值的第一轮廓框中的图像确定为表情图像。
6.根据权利要求5所述的表情图像识别装置,其特征在于,还包括图像分类器生成单元,具体被配置为执行:
获取特定数量的聊天截图作为正样本数据;
获取特定数量的非聊天截图作为负样本数据;
采用卷积神经网络,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为聊天截图作为输出,建立所述图像分类器,所述图像分类器用于判断待检测图像是否为聊天截图。
7.根据权利要求6所述的表情图像识别装置,其特征在于,所述图像分类器生成单元,具体被配置为执行:
采用相应的验证数据输入所述图像分类器,得到分类结果;
根据所述分类结果,计算所述图像分类器的分类准确率;
判断所述分类准确率是否大于预先设定的准确率阈值;
当判断结果为是时,则确定预测模型可用;当判断结果为否时,则调整建立图像分类器所使用的数据、重新建立相应的图像分类器,直至图像分类器的分类准确率大于预先设定的准确率阈值。
8.根据权利要求5所述的表情图像识别装置,其特征在于,还包括轮廓框检测模型生成单元,具体被配置为执行:
获取特定数量的、预先标注有轮廓框的图像作为正样本数据;
获取特定数量的、未标注有轮廓框的图像作为负样本数据;
采用目标检测算法,分别以所述正样本数据以及所述负样本数据作为输入数据,以所述样本数据是否为包含轮廓框作为输出,建立所述轮廓框检测模型,所述轮廓框检测模型用于判断待检测图像是否包含轮廓框。
9.一种表情图像识别电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一权项所述的表情图像识别方法。
10.一种存储介质,当所述存储介质中的指令由表情图像识别电子设备的处理器执行时,使得所述表情图像识别电子设备能够执行如权利要求1至4中任一权项所述的表情图像识别方法。
CN202010404516.8A 2020-05-13 2020-05-13 一种表情图像识别方法、装置及系统 Active CN111597966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010404516.8A CN111597966B (zh) 2020-05-13 2020-05-13 一种表情图像识别方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010404516.8A CN111597966B (zh) 2020-05-13 2020-05-13 一种表情图像识别方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111597966A CN111597966A (zh) 2020-08-28
CN111597966B true CN111597966B (zh) 2023-10-10

Family

ID=72188729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010404516.8A Active CN111597966B (zh) 2020-05-13 2020-05-13 一种表情图像识别方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111597966B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216640B (zh) * 2020-10-19 2021-08-06 高视科技(苏州)有限公司 一种半导体芯片定位方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750555A (zh) * 2012-06-28 2012-10-24 北京理工大学 一种应用于即时通讯工具的表情机器人
CN109726712A (zh) * 2018-11-13 2019-05-07 平安科技(深圳)有限公司 文字识别方法、装置及存储介质、服务器
CN110276281A (zh) * 2019-06-10 2019-09-24 浙江工业大学 一种面向移动端的截屏图文识别提取方法及系统
WO2020000879A1 (zh) * 2018-06-27 2020-01-02 北京字节跳动网络技术有限公司 图像识别方法和装置
CN111144320A (zh) * 2019-12-27 2020-05-12 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750555A (zh) * 2012-06-28 2012-10-24 北京理工大学 一种应用于即时通讯工具的表情机器人
WO2020000879A1 (zh) * 2018-06-27 2020-01-02 北京字节跳动网络技术有限公司 图像识别方法和装置
CN109726712A (zh) * 2018-11-13 2019-05-07 平安科技(深圳)有限公司 文字识别方法、装置及存储介质、服务器
CN110276281A (zh) * 2019-06-10 2019-09-24 浙江工业大学 一种面向移动端的截屏图文识别提取方法及系统
CN111144320A (zh) * 2019-12-27 2020-05-12 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111597966A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN107358157B (zh) 一种人脸活体检测方法、装置以及电子设备
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN110929617B (zh) 一种换脸合成视频检测方法、装置、电子设备及存储介质
CN110706261A (zh) 车辆违章检测方法、装置、计算机设备和存储介质
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN112464809A (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN117409419A (zh) 图像检测方法、设备及存储介质
CN116129224A (zh) 检测模型的训练方法、分类方法、装置及电子设备
CN111401343A (zh) 识别图像中人的属性的方法、识别模型的训练方法和装置
CN111597966B (zh) 一种表情图像识别方法、装置及系统
CN111292377A (zh) 目标检测方法、装置、计算机设备和存储介质
CN114091551A (zh) 色情图像识别方法、装置、电子设备及存储介质
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
CN115223022B (zh) 一种图像处理方法、装置、存储介质及设备
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN113220553B (zh) 一种文本预测模型性能的评估方法和装置
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN115272682A (zh) 目标对象检测方法、目标检测模型的训练方法及电子设备
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant