CN110222227A - 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法 - Google Patents

一种融合听觉感知特征和视觉特征的中国民歌地域分类方法 Download PDF

Info

Publication number
CN110222227A
CN110222227A CN201910394433.2A CN201910394433A CN110222227A CN 110222227 A CN110222227 A CN 110222227A CN 201910394433 A CN201910394433 A CN 201910394433A CN 110222227 A CN110222227 A CN 110222227A
Authority
CN
China
Prior art keywords
feature
folk song
chmm
visual signature
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910394433.2A
Other languages
English (en)
Other versions
CN110222227B (zh
Inventor
杨新宇
罗晶
王银瑞
董怡卓
魏洁
夏小景
张亦弛
吉姝蕾
崔宇涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910394433.2A priority Critical patent/CN110222227B/zh
Publication of CN110222227A publication Critical patent/CN110222227A/zh
Application granted granted Critical
Publication of CN110222227B publication Critical patent/CN110222227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合听觉感知特征和视觉特征的中国民歌地域分类方法。本发明提出同时提取听觉感知特征和视觉特征用于中国民歌的地域分类,并且提出要充分考虑两种特征对于中国民歌地域分类的适用性,从而对它们做了改进。提取听觉感知特征时,充分考虑特征对音乐语义的清晰性表达与特征的时序结构,采用CHMM模型对每类民歌建模,然后计算每首民歌对应于各个CHMM的输出概率,进而将每首歌曲的听觉感知特征转化为新的特征向量。提取音频视觉特征时,采用彩色语谱图替代灰度图以捕捉更多的纹理信息,并且同时采用纹理模式特征与模式强度特征以更全面的表征纹理。实验表明,本发明不仅可以有效识别不同地域的民歌,而且优于现有的民歌地域识别方法。

Description

一种融合听觉感知特征和视觉特征的中国民歌地域分类方法
技术领域
本发明属于机器学习与数据挖掘领域,具体涉及一种融合听觉感知特征和视觉特征的中国民歌地域分类方法。
背景技术
近年来,随着数字音频音乐的增加以及互联网的迅猛发展,具有独特民族风格与浓郁地方色彩的中国民歌开始被更多的人接触、喜欢与研究。然而由于中国民歌一般是即兴编作、口头传唱,不如流派歌曲创作规则明显,民歌的地域风格界限较为模糊,增加了地域识别的难度,因此目前中国民歌的地域识别研究比较少,急需学术界和工业界提出相关新的研究。
听觉感知特征在声学特征的基础上提出,其充分考虑人耳的听觉特性,融入大量的音乐感知信息,能够更贴近人耳与神经系统感知与处理音乐的过程,因此成为音乐分类中重要的特征选择。此外,通过将音乐音频信号转化成语谱图,进而提取视觉特征间接反映音乐节奏、韵律等特点,同样在音乐分类领域具有很大的潜力。听觉感知特征与视觉特征的巨大优势在中国民歌的地域识别的研究中应用的还非常少,尤其是视觉特征几乎没有应用。
发明内容
本发明的目的是解决现有研究中存在的缺乏探究新特征的不足问题,提出了一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,该方法同时提取听觉感知特征与视觉特征对中国民歌进行地域识别,通过前者捕捉民歌中的感知信息,通过后者捕捉民歌中的纹理特征,提高了中国民歌地域分类准确率。
为了达到上述目的,本发明采用如下的技术方案来实现:
一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,首先,对原始音频信号按帧提取听觉感知特征并进行时序相关性建模;其次,将原始音频信号的整体转化为彩色语谱图提取视觉特征;最后,将提取到的两部分特征进行决策级融合得到最终的分类结果;具体包括以下步骤:
1)听觉感知特征的提取:包括按帧提取音频特征,帧特征时序相关性建模,新的特征向量集合,归一化处理,具体包括以下步骤:
1-1)按帧提取音频特征:针对原始音频信号按帧提取梅尔频率倒谱系数、谱质心及Chroma特征作为听觉感知特征;
1-2)帧特征时序相关性建模:采用连续隐马尔科夫模型为每类民歌建立模型,连续隐马尔科夫模型简称CHMM模型;
1-3)新的特征向量集合:计算每首民歌对应于所有CHMM模型的输出概率,并将这些输出概率组合成新的特征向量集合;
1-4)归一化处理:对得到的新特征向量进行归一化处理,作为最终用于分类的听觉感知特征向量集合;
2)视觉特征的提取:视觉特征的提取过程,包括视觉图像的获取,视觉纹理特征的提取,以及视觉特征的降维处理,具体包括以下步骤:
2-1)视觉图像的获取:将每首民歌的音频信号的整体转化为彩色语谱图,并将每幅彩色语谱图转化为RGB三个颜色通道的灰度图像;
2-2)视觉纹理特征的提取:分别对每个颜色通道的灰度图像提取均匀二值模式和对比度特征,同时考虑对不同颜色通道之间的uniform LBP特征相关性进行计算,考虑Contrast特征提取时算子取值离散化问题;
2-3)视觉特征的降维处理:采用概率分析方法来获得不同地域民歌各种颜色通道内LBP特征中差异比较大的模式,然后只保留这些模式,从而达到降维的目的;
3)地域分类器融合:分别将提取到的听觉感知特征、视觉特征输入到各自的支持向量机分类器,对得到的SVM分类器分数向量进行融合作为最终的分类结果。
本发明进一步的改进在于,所述步骤1-2)具体操作为:将每首民歌提取的听觉感知特征作为观测向量,采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型;具体步骤如下:
1)CHMM的初值选择
CHMM的参数训练过程,需要输入初始的模型参数;其中HMM初始状态概率向量初值π0与初始状态转移矩阵A0对模型的建立影响不大,随机给出;而HMM状态数W与GMM模型个数P,则尝试采用不同组合来确定,以寻找最优的CHMM模型;GMM的初始参数选择则采取K均值分段算法来设置;
2)CHMM参数训练过程
CHMM参数训练过程分为以下两步:
E-step:给定观察向量序列递归计算出第t帧处于状态Sj中的前向概率αt(Sj)与后向概率βt(Sj),并由二者计算出第t帧处于状态Si且第t+1帧处于状态Sj的概率如式(1),以及第t帧处于状态Sj中第m个高斯模型的概率如式(2):
M-step:根据γt(Sj)重新估计CHMM的参数:计算GMM各模型平均值向量μjm、协方差矩阵∑jm,权重cjm;状态转移概率aij,初始状态概率向量π;各参数表达式如下:
本发明进一步的改进在于,所述步骤1-3)具体操作为:将每首民歌的感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率,然后将其串接成一维向量其中表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率,从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合
本发明进一步的改进在于,所述步骤1-4)将所有歌曲的特征向量作归一化处理,作为听觉感知特征最终的训练向量集合。
本发明进一步的改进在于,所述步骤2-2)具体操作为:首先分别对每个颜色通道的灰度图像进行与VARP,R运算,然后为解决三个颜色通道之间的相关性,对不同颜色通道两两做运算,运算时邻域中心的像素和周围像素分别取自不同的通道,最后为解决不同局部区域内部得到的VARP,R算子值是连续的问题,在计算VARP,R直方图特征向量之前对VARP,R特征空间进行了量化,降低特征维数,其中R为邻域半径、P为采样点数。
本发明进一步的改进在于,所述步骤2-3)采用变异系数CV对相同颜色通道内的相同模式做差异度衡量,CV越大表示在该模式上差异越大,只保留这些差异大的模式,从而达到降维的目的。
本发明具有如下有益的技术效果:
本发明提供的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,融合听觉感知特征与视觉特征对中国民歌的地域识别。在提取两种特征的时候不仅充分考虑民歌音乐自身的特点,而且还进行了相应的改进。提取感知特征时,充分考虑各帧特征之间的时序关系,首先采用CHMM模型对每类民歌建模,然后计算每首民歌对应于各个CHMM的输出概率,进而将每首歌曲的听觉感知特征转化为新的特征向量。提取视觉特征时,采用彩色语谱图替代灰度图,以捕捉更多的纹理信息,并且为了更好的表征图像的纹理,不仅考虑纹理的模式,而且还考虑了纹理模式的强度。首先将每首歌曲的音频文件整体转化为彩色语谱图,进而将彩色语谱图转化成RGB三个颜色通道的灰度图像,然后提取视觉特征,并对提取的视觉特征采用变异系数降维。实验表明,本发明不仅可以有效识别不同地域的民歌,而且优于现有的民歌地域识别方法。
附图说明
图1为本发明提出的融合听觉感知特征和视觉特征的中国民歌地域分类整体处理流程图;
图2为本发明中听觉感知特征提取及处理过程示意图;
图3为本发明中视觉特征提取及处理过程示意图。
具体实施方式
下面结合附图对本发明做进一步详细描述:。
参照图1,本发明提供的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,首先,对原始音频信号按帧提取听觉感知特征,采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型;其次,将原始音频信号的整体转化为彩色语谱图,进而转化成RGB三个颜色通道的灰度图像提取视觉特征,同时采用变异系数降维;最后,分别将提取到的两部分特征输入到各自的SVM分类器进行决策级融合,具体包括以下步骤:
1)听觉感知特征的提取:听觉感知特征的提取过程,包括按帧提取音频特征,帧特征时序相关性建模,新的特征向量集合,归一化处理,参照图2,具体包括以下步骤,
Step1按帧提取音频特征:针对原始音频信号按帧提取梅尔频率倒谱系数、谱质心及Chroma特征作为听觉感知特征;
Step2帧特征时序相关性建模:采用连续隐马尔科夫模型(Continuous HiddenMarkov Model,CHMM)为每类民歌建立模型,采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型;具体步骤如下:
1)CHMM的初值选择
CHMM的参数训练过程,需要输入初始的模型参数;其中HMM初始状态概率向量初值π0与初始状态转移矩阵A0对模型的建立影响不大,随机给出;而HMM状态数W与GMM模型个数P,则尝试采用不同组合来确定,以寻找最优的CHMM模型;GMM的初始参数选择则采取K均值分段算法来设置;
2)CHMM参数训练过程
CHMM参数训练过程分为以下两步:
E-step:给定观察向量序列递归计算出第t帧处于状态Sj中的前向概率αt(Sj)与后向概率βt(Sj),并由二者计算出第t帧处于状态Si且第t+1帧处于状态Sj的概率如式(1),以及第t帧处于状态Sj中第m个高斯模型的概率如式(2):
M-step:根据γt(Sj)重新估计CHMM的参数:计算GMM各模型平均值向量μjm、协方差矩阵∑jm,权重cjm;状态转移概率aij,初始状态概率向量π;各参数表达式如下:
Step3新的特征向量集合:将每首民歌的感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率,然后将其串接成一维向量其中表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率,从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合
Step4归一化处理:对得到的新特征向量进行归一化处理,作为最终用于分类的听觉感知特征向量集合;
2)视觉特征的提取:视觉特征的提取过程,包括视觉图像的获取,视觉纹理特征的提取,视觉特征的降维处理,参照图3,具体包括以下步骤,
Step1视觉图像的获取:将每首民歌的音频信号的整体转化为彩色语谱图,并将每幅彩色语谱图转化为RGB三个颜色通道的灰度图像;
Step2视觉纹理特征的提取:分别对每个颜色通道的灰度图像提取均匀二值模式(uniform Local Binary Pattern,uniform LBP)和对比度(Contrast)特征,同时考虑对不同颜色通道之间的uniform LBP特征相关性进行计算,考虑Contrast特征提取时算子取值离散化问题;具体分别对每个颜色通道的灰度图像进行与VARP,R运算;为解决三个颜色通道之间的相关性,对不同颜色通道两两做运算,运算时邻域中心的像素和周围像素分别取自不同的通道;为解决不同局部区域内部得到的VARP,R算子值是连续的问题,在计算VARP,R直方图特征向量之前对VARP,R特征空间进行了量化,大大降低特征空间的特征维数,其中R为邻域半径、P为采样点数。以G通道为中心的视觉特征的提取过程为例,主要步骤如下所示:
1)针对每一首歌,从G通道灰度图像中取一个像素点A,其像素值为以该像素点为中心,分别从R,B两个外部通道以及G内部通道灰度图像中提取其邻域R周围的P个点的像素值,分别记为
2)针对A点的像素值计算三组邻域值 对应的LBP编码及三个算子;
3)计算邻域值对应的VARP,R算子;
4)重复上述步骤,直至得到G通道图像中每个像素点对应的3个算子与1个VARP,R值,然后分别对G-R,G-B两个交互通道以及G内部通道中的各种算子进行统计,便可以得到G通道图像对应的三个LBP直方图序列;对G内部通道中各种VARP,R值进行统计,便可以得到G通道图像对应的一个Contrast直方图序列。
Step3视觉特征的降维处理:采用概率分析方法来获得不同地域民歌各种颜色通道内LBP特征中差异比较大的模式,然后只保留这些模式,从而达到降维的目的;具体采用变异系数CV(Coefficient of Variance)对三个地域民歌相同颜色通道内的相同模式做差异度衡量,CV越大则三个地域的民歌在该模式上差异越大,反之越小。本发明认为内部通道模式CV小于α的为差异较小的模式,交互通道内模式CV小于β的为差异较小的模式,进而将这些模式删除以达到降维的目的。
3)地域分类器融合:分别将提取到的听觉感知特征、视觉特征输入到各自的(Support Vector Machine,SVM)分类器,对得到的分类器分数向量进行融合作为最终的分类结果。
为了证明融合听觉感知特征与音频视觉特征的中国民歌地域分类算法在民歌地域分类上的优越性,本发明将其与其它基于音频的民歌地域分类算法做了比较,参照表1所示,融合听觉感知特征与音频视觉特征的中国民歌地域分类算法在现有的基于音频的中国民歌地域分类算法中分类准确率是最高的,这也说明将这两类特征结合研究中国民歌的地域分类比直接采用声学特征的研究方式更符合中国民歌的音乐特点。
表1:本发明中民歌地域分类方法与其它民歌地域分类方法的分类准确率对比结果。

Claims (6)

1.一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,首先,对原始音频信号按帧提取听觉感知特征并进行时序相关性建模;其次,将原始音频信号的整体转化为彩色语谱图提取视觉特征;最后,将提取到的两部分特征进行决策级融合得到最终的分类结果;具体包括以下步骤:
1)听觉感知特征的提取:包括按帧提取音频特征,帧特征时序相关性建模,新的特征向量集合,归一化处理,具体包括以下步骤:
1-1)按帧提取音频特征:针对原始音频信号按帧提取梅尔频率倒谱系数、谱质心及Chroma特征作为听觉感知特征;
1-2)帧特征时序相关性建模:采用连续隐马尔科夫模型为每类民歌建立模型,连续隐马尔科夫模型简称CHMM模型;
1-3)新的特征向量集合:计算每首民歌对应于所有CHMM模型的输出概率,并将这些输出概率组合成新的特征向量集合;
1-4)归一化处理:对得到的新特征向量进行归一化处理,作为最终用于分类的听觉感知特征向量集合;
2)视觉特征的提取:视觉特征的提取过程,包括视觉图像的获取,视觉纹理特征的提取,以及视觉特征的降维处理,具体包括以下步骤:
2-1)视觉图像的获取:将每首民歌的音频信号的整体转化为彩色语谱图,并将每幅彩色语谱图转化为RGB三个颜色通道的灰度图像;
2-2)视觉纹理特征的提取:分别对每个颜色通道的灰度图像提取均匀二值模式和对比度特征,同时考虑对不同颜色通道之间的uniform LBP特征相关性进行计算,考虑Contrast特征提取时算子取值离散化问题;
2-3)视觉特征的降维处理:采用概率分析方法来获得不同地域民歌各种颜色通道内LBP特征中差异比较大的模式,然后只保留这些模式,从而达到降维的目的;
3)地域分类器融合:分别将提取到的听觉感知特征、视觉特征输入到各自的支持向量机分类器,对得到的SVM分类器分数向量进行融合作为最终的分类结果。
2.根据权利要求1所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,所述步骤1-2)具体操作为:将每首民歌提取的听觉感知特征作为观测向量,采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型;具体步骤如下:
1)CHMM的初值选择
CHMM的参数训练过程,需要输入初始的模型参数;其中HMM初始状态概率向量初值π0与初始状态转移矩阵A0对模型的建立影响不大,随机给出;而HMM状态数W与GMM模型个数P,则尝试采用不同组合来确定,以寻找最优的CHMM模型;GMM的初始参数选择则采取K均值分段算法来设置;
2)CHMM参数训练过程
CHMM参数训练过程分为以下两步:
E-step:给定观察向量序列递归计算出第t帧处于状态Sj中的前向概率αt(Sj)与后向概率βt(Sj),并由二者计算出第t帧处于状态Si且第t+1帧处于状态Sj的概率ξt (k)(Si,Sj),如式(1),以及第t帧处于状态Sj中第m个高斯模型的概率如式(2):
M-step:根据γt(Sj)重新估计CHMM的参数:计算GMM各模型平均值向量μjm、协方差矩阵∑jm,权重cjm;状态转移概率aij,初始状态概率向量π;各参数表达式如下:
3.根据权利要求2所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,所述步骤1-3)具体操作为:将每首民歌的感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率,然后将其串接成一维向量其中表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率,从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合
4.根据权利要求3所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,所述步骤1-4)将所有歌曲的特征向量作归一化处理,作为听觉感知特征最终的训练向量集合。
5.根据权利要求4所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,所述步骤2-2)具体操作为:首先分别对每个颜色通道的灰度图像进行与VARP,R运算,然后为解决三个颜色通道之间的相关性,对不同颜色通道两两做运算,运算时邻域中心的像素和周围像素分别取自不同的通道,最后为解决不同局部区域内部得到的VARP,R算子值是连续的问题,在计算VARP,R直方图特征向量之前对VARP,R特征空间进行了量化,降低特征维数,其中R为邻域半径、P为采样点数。
6.根据权利要求5所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,所述步骤2-3)采用变异系数CV对相同颜色通道内的相同模式做差异度衡量,CV越大表示在该模式上差异越大,只保留这些差异大的模式,从而达到降维的目的。
CN201910394433.2A 2019-05-13 2019-05-13 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法 Active CN110222227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910394433.2A CN110222227B (zh) 2019-05-13 2019-05-13 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910394433.2A CN110222227B (zh) 2019-05-13 2019-05-13 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法

Publications (2)

Publication Number Publication Date
CN110222227A true CN110222227A (zh) 2019-09-10
CN110222227B CN110222227B (zh) 2021-03-23

Family

ID=67820904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910394433.2A Active CN110222227B (zh) 2019-05-13 2019-05-13 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法

Country Status (1)

Country Link
CN (1) CN110222227B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532424A (zh) * 2019-09-26 2019-12-03 西南科技大学 一种基于深度学习和云平台的肺音特征分类系统及方法
CN113793580A (zh) * 2021-08-31 2021-12-14 云境商务智能研究院南京有限公司 一种基于深度学习的音乐流派分类方法
CN114330453A (zh) * 2022-01-05 2022-04-12 东北农业大学 基于声学特征和视觉特征融合的生猪咳嗽声音识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761997A (zh) * 2003-03-19 2006-04-19 英特尔公司 用于连续视听语音识别的耦合隐马尔可夫模型(chmm)
CN103136971A (zh) * 2011-11-21 2013-06-05 学习时代公司 语言音素的练习引擎
CN105005558A (zh) * 2015-08-14 2015-10-28 武汉大学 一种基于群智感知的多模态数据融合方法
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
KR20180065049A (ko) * 2016-12-06 2018-06-18 (주)엠아이웨어 다중 영상 입력 장치 및 영상 처리 알고리즘을 이용한 차량 후방 모니터링 장치
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108492323A (zh) * 2018-01-18 2018-09-04 天津大学 融合机器视觉与听觉的水下运动物体检测与识别方法
CN109521870A (zh) * 2018-10-15 2019-03-26 天津大学 一种基于rsvp范式的视听觉结合的脑-机接口方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761997A (zh) * 2003-03-19 2006-04-19 英特尔公司 用于连续视听语音识别的耦合隐马尔可夫模型(chmm)
CN103136971A (zh) * 2011-11-21 2013-06-05 学习时代公司 语言音素的练习引擎
CN105005558A (zh) * 2015-08-14 2015-10-28 武汉大学 一种基于群智感知的多模态数据融合方法
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
KR20180065049A (ko) * 2016-12-06 2018-06-18 (주)엠아이웨어 다중 영상 입력 장치 및 영상 처리 알고리즘을 이용한 차량 후방 모니터링 장치
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108492323A (zh) * 2018-01-18 2018-09-04 天津大学 融合机器视觉与听觉的水下运动物体检测与识别方法
CN109521870A (zh) * 2018-10-15 2019-03-26 天津大学 一种基于rsvp范式的视听觉结合的脑-机接口方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532424A (zh) * 2019-09-26 2019-12-03 西南科技大学 一种基于深度学习和云平台的肺音特征分类系统及方法
CN113793580A (zh) * 2021-08-31 2021-12-14 云境商务智能研究院南京有限公司 一种基于深度学习的音乐流派分类方法
CN113793580B (zh) * 2021-08-31 2024-05-24 云境商务智能研究院南京有限公司 一种基于深度学习的音乐流派分类方法
CN114330453A (zh) * 2022-01-05 2022-04-12 东北农业大学 基于声学特征和视觉特征融合的生猪咳嗽声音识别方法

Also Published As

Publication number Publication date
CN110222227B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN105022835B (zh) 一种群智感知大数据公共安全识别方法及系统
CN110222227A (zh) 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN105005786B (zh) 一种基于BoF和多特征融合的纹理图像分类方法
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
Pampalk et al. On the evaluation of perceptual similarity measures for music
CN109151501A (zh) 一种视频关键帧提取方法、装置、终端设备及存储介质
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN103714806B (zh) 一种结合svm和增强型pcp特征的和弦识别方法
CN102956230B (zh) 对音频信号进行歌曲检测的方法和设备
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN110120218A (zh) 基于gmm-hmm的高速公路大型车辆识别方法
CN104395953A (zh) 来自音乐音频信号的拍子、和弦和强拍的评估
CN110148425A (zh) 一种基于完整局部二进制模式的伪装语音检测方法
CN107507620A (zh) 一种语音播报声音设置方法、装置、移动终端及存储介质
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN109961794A (zh) 一种基于模型聚类的分层说话人识别方法
CN108766464A (zh) 基于电网频率波动超矢量的数字音频篡改自动检测方法
Seyerlehner et al. Frame level audio similarity-a codebook approach
CN105283916B (zh) 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
Gong et al. Classification of tennis video types based on machine learning technology
CN116612542A (zh) 基于多模态生物特征一致性的音视频人物识别方法及系统
CN115579021A (zh) 一种基于神经网络和视听融合的声乐表演评分方法及系统
Kaiser Music structure segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant