CN112528920A - 一种基于深度残差网络的宠物图像情绪识别方法 - Google Patents

一种基于深度残差网络的宠物图像情绪识别方法 Download PDF

Info

Publication number
CN112528920A
CN112528920A CN202011519922.5A CN202011519922A CN112528920A CN 112528920 A CN112528920 A CN 112528920A CN 202011519922 A CN202011519922 A CN 202011519922A CN 112528920 A CN112528920 A CN 112528920A
Authority
CN
China
Prior art keywords
emotion
pet
network
residual error
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011519922.5A
Other languages
English (en)
Inventor
郭祥
谢衍涛
宋娜
王鼎
陈继
梅启鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Gexiang Technology Co ltd
Original Assignee
Hangzhou Gexiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Gexiang Technology Co ltd filed Critical Hangzhou Gexiang Technology Co ltd
Priority to CN202011519922.5A priority Critical patent/CN112528920A/zh
Publication of CN112528920A publication Critical patent/CN112528920A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度残差网络的宠物图像情绪识别方法,该方法包括:获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;通过训练后的模型对宠物进行目标检测和情绪推断。本发明能提高宠物情绪识别的确定性,提高识别的推断速度和精度。

Description

一种基于深度残差网络的宠物图像情绪识别方法
技术领域
本发明涉及情绪识别技术领域,尤其涉及一种基于深度残差网络的宠物图像情绪识别方法。
背景技术
当前家庭宠物越来越多,人与宠物之间的交流也越来越多,然而人们常对宠物表达的情绪无法进行有效识别,造成交流障碍,引起宠物的不受控制,出现宠物咬伤路人的情况。而经验丰富的宠物主人可以通过宠物声音的音调、音量、频次等,准确地判断宠物的情绪,从而给出有效的安抚方式,而这种能力不是每个宠物主人都拥有的。
现有基于音频数据的识别方法,主要通过倒谱系数共振峰和过零率作为特征参数,建立例如高斯混合模型等统计模型,或使用无监督聚类方法对宠物情绪进行分类。但该方法在使用过程中存在以下缺点:1、音频信号采集困难,干扰较大,不容易采集到信噪比较好的信号用于识别;2、对同时有多个宠物在场的情况无法支持;3、需要在时域上累积一段时间的数据才可以用于情绪识别,限制了现实中的使用;4、某些情况下宠物可能没有发出足够的声音用于识别。因而如何准确掌握宠物的情绪,以便更好的安抚和互动成为宠物主人想要解决的问题。
发明内容
本发明提供一种基于深度残差网络的宠物图像情绪识别方法,解决现基于音频数据的宠物情绪识别存在识别不准确的问题,能提高宠物情绪识别的确定性,提高识别的推断速度和精度。
为实现以上目的,本发明提供以下技术方案:
一种基于深度残差网络的宠物图像情绪识别方法,包括:
获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;
根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;
构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;
通过训练后的模型对宠物进行目标检测和情绪推断。
优选的,构建宠物情绪分类算法模型包括:
构建二级网络,前级网络用于对图片内的宠物进行目标检测,获取检测的位置框,并根据所述位置框对单帧图片进行切图和增强处理;
后级网络用于对裁剪出的图片进行情绪识别,以得到推断结果。
优选的,所述前级网络为宠物目标检测网络,使用改进的yolov4网络结构,主力网络使用增加注意力机制的mobilenetv3进行特征提取,以进行宠物分类和区域切图。
优选的,所述后级网络为深度残差网络,在ResNet网络中加入注意力模块,以单张已分类宠物图片作为输入进行快速识别宠物情绪。
优选的,所述根据所述音频进行预处理及提取声音特征,包括:
采用经验模态分解的方式去除短时非平稳信号的高频噪声,以克服傅里叶变换在有限时长和非平稳信号上不准确;
采用HHT变换获得声音信号的边际谱,并获取边际谱能量;
使用短时边际谱能量和短时平均过零率作为门限,检测语音端点,切分语音片段。
优选的,所述根据所述音频进行预处理及提取声音特征,还包括:
对切分好的语音片段进行削波处理,计算峰值所在的位置并在边际谱上读出基音频率;
对语音片段的边际谱积分获得能量;
对语音片段进行线性预测获得共振峰;
对语音片段的0-2000Hz、2000Hz以上进行边际谱能量积分,并将二者的比值作为高低频段功率比。
优选的,所述根据所述声音特征对所述音频进行统计分类和情绪标记,包括:
建立情绪分类的支持向量机SVM,并通过所述支持向量机SVM对所述声音特征进行情绪分类;
将所述声音特征分为高兴、愤怒、悲伤和其他,以进行情绪标记。
优选的,所述根据时序和所述视频提取对应的单帧图片,包括:
对所述视频进行视频抽帧以形成单帧图片,并根据情绪标记的宠物声音得到该时序对应的多角度的单帧图片;
对多张单帧图片进行筛选并进行情绪标记,以形成带有情绪标记的单帧图片。
优选的,所述根据所述位置框对单帧图片进行切图和增强处理,包括:
确定宠物区域,并根据所述位置框进行宠物区域切图,使裁剪后的图片获得专注的情绪表征;
根据所述位置框对宠物具有情绪表征的位置进行增强处理。
优选的,所述将所述宠物图像情绪数据集作为训练数据进行模型训练,包括:
对二级网络进行分阶段训练,首先训练宠物目标检测网络,观察输出图的注意力情况,防止网络对于宠物产生过拟合,训练时采取对目标分块随机遮挡和马赛克遮挡的训练策略,通过网络输出的注意力热图观察,防止前级网络在识别目标时注意力分布过于集中,以提升其鲁棒性;
其次训练后级级网络,使用所述宠物图像情绪数据集,从视频中抽取带有情绪标记的单帧图片,分成训练集和验证集,使用旋转模糊透明叠加手段增广图片集之后,输入前级网络获得目标切图,再输入后级网络,使用情绪标签进行训练,最后使用验证集进行整个网络的准确性验证。
本发明提供一种基于深度残差网络的宠物图像情绪识别方法,获取宠物视频和音频,根据音频数据进行分类和情绪标记,建立目标宠物的宠物图像情绪数据集,构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练,通过训练后的模型对宠物进行目标检测和情绪推断。解决现基于音频数据的宠物情绪识别存在识别不准确的问题,能提高宠物情绪识别的确定性,提高识别的推断速度和精度。
附图说明
为了更清楚地说明本发明的具体实施例,下面将对实施例中所需要使用的附图作简单地介绍。
图1是本发明提供的一种基于深度残差网络的宠物图像情绪识别方法的示意图。
图2是本发明实施例提供的宠物图像情绪识别方法的技术流程图。
图3是本发明实施例提供的二级网络的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对当前对宠物的情绪无法精确识别,宠物主人不能更好的安抚和互动的问题,本发明提供一种基于深度残差网络的宠物图像情绪识别方法,获取宠物视频和音频,根据音频数据进行分类和情绪标记,建立目标宠物的宠物图像情绪数据集,构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练,通过训练后的模型对宠物进行目标检测和情绪推断。解决现基于音频数据的宠物情绪识别存在识别不准确的问题,能提高宠物情绪识别的确定性,提高识别的推断速度和精度。
如图1所示,一种基于深度残差网络的宠物图像情绪识别方法,包括:
S1:获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;
S2:根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;
S3:构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;
S4:通过训练后的模型对宠物进行目标检测和情绪推断。
具体地,如图2所示,对于特定的宠物,在不同的情绪下,采集单只宠物声音信号,处理音频信号,获得声音特征,所述声音特征包括:倒谱系数、共振峰、过零率、高低频段功率比等。与此同时拍摄只有单独宠物的视频。对采集到的宠物的声音特征参数进行统计分析,基于机器学习算法,建立支持向量机模型,对宠物声音数据做情绪标记,并在时序上和视频对应,提取单帧图片,筛选后获得带有情绪标记的图片数据集。建立宠物分类算法模型,通过宠物情绪图像数据集对模型进行训练,利训练后模型对目标宠物进行宠物情绪推断。该方法能利用单张图像快速识别宠物的情绪,为解决特征维度增高带来高计算量和干扰导致的识别精确度低等问题,提高宠物情绪识别的确定性,提高识别的推断速度和精度。
其中,构建宠物情绪分类算法模型包括:构建二级网络,前级网络用于对图片内的宠物进行目标检测,获取检测的位置框,并根据所述位置框对单帧图片进行切图和增强处理。后级网络用于对裁剪出的图片进行情绪识别,以得到推断结果。
进一步,所述前级网络为宠物目标检测网络,使用改进的yolov4网络结构,主力网络使用增加注意力机制的mobilenetv3进行特征提取,以进行宠物分类和区域切图。
在实际应用中,宠物目标检测网络的输入头节点是一个3*3的卷积层,后接mobilenetv3的特殊模块bneck,该模块继承了mobilenetv2的线性瓶颈倒残差结构,并加入了深度可分离卷积和轻量级的注意力结构增加性能,使用h-swish函数替代原有的swish激活函数减少运算量,本实例中使用了small类型的mobilenetv3以进一步缩小在移动端部署的模型尺寸,共使用11个级联的bneck结构,其中第1、4、5、6、7、8、9、10、11层bneck加入了轻量注意力机制,接下来连接1*1卷积、池化和两层1*1卷积最终输出结果。主干网络从darknet改为mobilenetv3,可以更好的适应移动端环境,提升网络推断速度,加入注意力机制提升网络鲁棒性。
更进一步,所述后级网络为深度残差网络,在ResNet网络中加入注意力模块,以单张已分类宠物图片作为输入进行快速识别宠物情绪。
在实际应用中,深度残差网络的输入头结点为3*3的卷基层,后接通道注意力和空间注意力模块,后接三个残差模块,每个残差模块包含两个卷积层,后接通道注意力和空间注意力模块,最后使用全连接层进行输出。深度残差网络融合注意力机制可以提升推断速度和精度,快速在单张图片中定位多个宠物并识别其情绪。
在实际应用中,如图3所示,可通过构建一个二级网络,前级用于对图像内宠物进行检测,获取位置框;后级用于对位置裁剪出的图片进行情绪识别。宠物目标检测网络可使用改进的yolov4进行迁移学习,特征提取的骨干网络替换为mobilenetv3,添加通道和空间两个注意力模块,以实现对应于数据集包含宠物类型的目标检测网络,该网络返回宠物类型名和位置框。根据位置框裁剪图像输入后级网络,以提升感受野,在resnet8残差网络加入注意力模块提取有用的特征,并最终降维输出情绪分类,避免无关信息干扰,增加识别速度和精度。
所述根据所述音频进行预处理及提取声音特征,包括:采用经验模态分解的方式去除短时非平稳信号的高频噪声,以克服傅里叶变换在有限时长和非平稳信号上不准确。采用HHT变换获得声音信号的边际谱,并获取边际谱能量。使用短时边际谱能量和短时平均过零率作为门限,检测语音端点,切分语音片段。
进一步,所述根据所述音频进行预处理及提取声音特征,还包括:对切分好的语音片段进行削波处理,计算峰值所在的位置并在边际谱上读出基音频率。对语音片段的边际谱积分获得能量。对语音片段进行线性预测获得共振峰。对语音片段的0-2000Hz、2000Hz以上进行边际谱能量积分,并将二者的比值作为高低频段功率比。
所述根据所述声音特征对所述音频进行统计分类和情绪标记,包括:建立情绪分类的支持向量机SVM,并通过所述支持向量机SVM对所述声音特征进行情绪分类。将所述声音特征分为高兴、愤怒、悲伤和其他,以进行情绪标记。
所述根据时序和所述视频提取对应的单帧图片,包括:对所述视频进行视频抽帧以形成单帧图片,并根据情绪标记的宠物声音得到该时序对应的多角度的单帧图片。对多张单帧图片进行筛选并进行情绪标记,以形成带有情绪标记的单帧图片。
所述根据所述位置框对单帧图片进行切图和增强处理,包括:确定宠物区域,并根据所述位置框进行宠物区域切图,使裁剪后的图片获得专注的情绪表征。根据所述位置框对宠物具有情绪表征的位置进行增强处理。
所述将所述宠物图像情绪数据集作为训练数据进行模型训练,包括:
对二级网络进行分阶段训练,首先训练宠物目标检测网络,观察输出图的注意力情况,防止网络对于宠物产生过拟合,训练时采取对目标分块随机遮挡和马赛克遮挡的训练策略,通过网络输出的注意力热图观察,防止前级网络在识别目标时注意力分布过于集中,以提升其鲁棒性;
其次训练后级级网络,使用所述宠物图像情绪数据集,从视频中抽取带有情绪标记的单帧图片,分成训练集和验证集,使用旋转模糊透明叠加手段增广图片集之后,输入前级网络获得目标切图,再输入后级网络,使用情绪标签进行训练,最后使用验证集进行整个网络的准确性验证。
可见,本发明提供一种基于深度残差网络的宠物图像情绪识别方法,获取宠物视频和音频,根据音频数据进行分类和情绪标记,建立目标宠物的宠物图像情绪数据集,构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练,通过训练后的模型对宠物进行目标检测和情绪推断。解决现基于音频数据的宠物情绪识别存在识别不准确的问题,能提高宠物情绪识别的确定性,提高识别的推断速度和精度。
以上依据图示所示的实施例详细说明了本发明的构造、特征及作用效果,以上所述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (10)

1.一种基于深度残差网络的宠物图像情绪识别方法,其特征在于,包括:
获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;
根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;
构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;
通过训练后的模型对宠物进行目标检测和情绪推断。
2.根据权利要求1所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,构建宠物情绪分类算法模型包括:
构建二级网络,前级网络用于对图片内的宠物进行目标检测,获取检测的位置框,并根据所述位置框对单帧图片进行切图和增强处理;
后级网络用于对裁剪出的图片进行情绪识别,以得到推断结果。
3.根据权利要求2所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述前级网络为宠物目标检测网络,使用改进的yolov4网络结构,主力网络使用增加注意力机制的mobilenetv3进行特征提取,以进行宠物分类和区域切图。
4.根据权利要求3所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述后级网络为深度残差网络,在ResNet网络中加入注意力模块,以单张已分类宠物图片作为输入进行快速识别宠物情绪。
5.根据权利要求4所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述根据所述音频进行预处理及提取声音特征,包括:
采用经验模态分解的方式去除短时非平稳信号的高频噪声,以克服傅里叶变换在有限时长和非平稳信号上不准确;
采用HHT变换获得声音信号的边际谱,并获取边际谱能量;
使用短时边际谱能量和短时平均过零率作为门限,检测语音端点,切分语音片段。
6.根据权利要求5所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述根据所述音频进行预处理及提取声音特征,还包括:
对切分好的语音片段进行削波处理,计算峰值所在的位置并在边际谱上读出基音频率;
对语音片段的边际谱积分获得能量;
对语音片段进行线性预测获得共振峰;
对语音片段的0-2000Hz、2000Hz以上进行边际谱能量积分,并将二者的比值作为高低频段功率比。
7.根据权利要求6所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述根据所述声音特征对所述音频进行统计分类和情绪标记,包括:
建立情绪分类的支持向量机SVM,并通过所述支持向量机SVM对所述声音特征进行情绪分类;
将所述声音特征分为高兴、愤怒、悲伤和其他,以进行情绪标记。
8.根据权利要求7所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述根据时序和所述视频提取对应的单帧图片,包括:
对所述视频进行视频抽帧以形成单帧图片,并根据情绪标记的宠物声音得到该时序对应的多角度的单帧图片;
对多张单帧图片进行筛选并进行情绪标记,以形成带有情绪标记的单帧图片。
9.根据权利要求8所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述根据所述位置框对单帧图片进行切图和增强处理,包括:
确定宠物区域,并根据所述位置框进行宠物区域切图,使裁剪后的图片获得专注的情绪表征;
根据所述位置框对宠物具有情绪表征的位置进行增强处理。
10.根据权利要求9所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述将所述宠物图像情绪数据集作为训练数据进行模型训练,包括:
对二级网络进行分阶段训练,首先训练宠物目标检测网络,观察输出图的注意力情况,防止网络对于宠物产生过拟合,训练时采取对目标分块随机遮挡和马赛克遮挡的训练策略,通过网络输出的注意力热图观察,防止前级网络在识别目标时注意力分布过于集中,以提升其鲁棒性;
其次训练后级级网络,使用所述宠物图像情绪数据集,从视频中抽取带有情绪标记的单帧图片,分成训练集和验证集,使用旋转模糊透明叠加手段增广图片集之后,输入前级网络获得目标切图,再输入后级网络,使用情绪标签进行训练,最后使用验证集进行整个网络的准确性验证。
CN202011519922.5A 2020-12-21 2020-12-21 一种基于深度残差网络的宠物图像情绪识别方法 Pending CN112528920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011519922.5A CN112528920A (zh) 2020-12-21 2020-12-21 一种基于深度残差网络的宠物图像情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011519922.5A CN112528920A (zh) 2020-12-21 2020-12-21 一种基于深度残差网络的宠物图像情绪识别方法

Publications (1)

Publication Number Publication Date
CN112528920A true CN112528920A (zh) 2021-03-19

Family

ID=75002014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011519922.5A Pending CN112528920A (zh) 2020-12-21 2020-12-21 一种基于深度残差网络的宠物图像情绪识别方法

Country Status (1)

Country Link
CN (1) CN112528920A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392768A (zh) * 2021-06-16 2021-09-14 新疆爱华盈通信息技术有限公司 一种宠物识别方法
CN113743379A (zh) * 2021-11-03 2021-12-03 杭州魔点科技有限公司 一种多模态特征的轻量活体识别方法、系统、装置和介质
CN113823292A (zh) * 2021-08-19 2021-12-21 华南理工大学 基于通道注意力深度可分卷积网络的小样本话者辨认方法
CN114596536A (zh) * 2022-05-07 2022-06-07 陕西欧卡电子智能科技有限公司 无人船沿岸巡检方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN104700829A (zh) * 2015-03-30 2015-06-10 中南民族大学 动物声音情绪识别系统及其方法
CN108377418A (zh) * 2018-02-06 2018-08-07 北京奇虎科技有限公司 一种视频标注处理方法和装置
CN110175526A (zh) * 2019-04-28 2019-08-27 平安科技(深圳)有限公司 狗情绪识别模型训练方法、装置、计算机设备及存储介质
US20190354235A1 (en) * 2018-05-21 2019-11-21 Motorola Mobility Llc Methods and Systems for Augmenting Images in an Electronic Device
CN111183455A (zh) * 2017-08-29 2020-05-19 互曼人工智能科技(上海)有限公司 图像数据处理系统与方法
CN111179965A (zh) * 2020-03-20 2020-05-19 万不知 一种宠物情绪识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN104700829A (zh) * 2015-03-30 2015-06-10 中南民族大学 动物声音情绪识别系统及其方法
CN111183455A (zh) * 2017-08-29 2020-05-19 互曼人工智能科技(上海)有限公司 图像数据处理系统与方法
CN108377418A (zh) * 2018-02-06 2018-08-07 北京奇虎科技有限公司 一种视频标注处理方法和装置
US20190354235A1 (en) * 2018-05-21 2019-11-21 Motorola Mobility Llc Methods and Systems for Augmenting Images in an Electronic Device
CN110175526A (zh) * 2019-04-28 2019-08-27 平安科技(深圳)有限公司 狗情绪识别模型训练方法、装置、计算机设备及存储介质
CN111179965A (zh) * 2020-03-20 2020-05-19 万不知 一种宠物情绪识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周锋,张昕然著: "《跨库语音情感识别技术研究》", 江苏大学出版社, pages: 126 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392768A (zh) * 2021-06-16 2021-09-14 新疆爱华盈通信息技术有限公司 一种宠物识别方法
CN113823292A (zh) * 2021-08-19 2021-12-21 华南理工大学 基于通道注意力深度可分卷积网络的小样本话者辨认方法
CN113743379A (zh) * 2021-11-03 2021-12-03 杭州魔点科技有限公司 一种多模态特征的轻量活体识别方法、系统、装置和介质
CN114596536A (zh) * 2022-05-07 2022-06-07 陕西欧卡电子智能科技有限公司 无人船沿岸巡检方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN112528920A (zh) 一种基于深度残差网络的宠物图像情绪识别方法
CN109285538B (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN112465008B (zh) 一种基于自监督课程学习的语音和视觉关联性增强方法
CN101546556B (zh) 用于音频内容识别的分类系统
CN103035247B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
Su et al. Environmental sound classification for scene recognition using local discriminant bases and HMM
Khdier et al. Deep learning algorithms based voiceprint recognition system in noisy environment
Qi et al. Audio recording device identification based on deep learning
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
Wang et al. Audio event detection and classification using extended R-FCN approach
CN112183107A (zh) 音频的处理方法和装置
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN107274912B (zh) 一种手机录音的设备来源辨识方法
Hertel et al. Classifying variable-length audio files with all-convolutional networks and masked global pooling
Cao et al. Underwater target classification at greater depths using deep neural network with joint multiple‐domain feature
CN110246509A (zh) 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
Sameer et al. Source camera identification model: Classifier learning, role of learning curves and their interpretation
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN116434759A (zh) 一种基于srs-cl网络的说话人识别方法
CN110299133A (zh) 基于关键字判定非法广播的方法
US20230027645A1 (en) Hierarchical generated audio detection system
CN114299986A (zh) 一种基于跨域迁移学习的小样本声音识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210319