CN110222227B - 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法 - Google Patents

一种融合听觉感知特征和视觉特征的中国民歌地域分类方法 Download PDF

Info

Publication number
CN110222227B
CN110222227B CN201910394433.2A CN201910394433A CN110222227B CN 110222227 B CN110222227 B CN 110222227B CN 201910394433 A CN201910394433 A CN 201910394433A CN 110222227 B CN110222227 B CN 110222227B
Authority
CN
China
Prior art keywords
features
visual
auditory perception
chmm
folk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910394433.2A
Other languages
English (en)
Other versions
CN110222227A (zh
Inventor
杨新宇
罗晶
王银瑞
董怡卓
魏洁
夏小景
张亦弛
吉姝蕾
崔宇涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910394433.2A priority Critical patent/CN110222227B/zh
Publication of CN110222227A publication Critical patent/CN110222227A/zh
Application granted granted Critical
Publication of CN110222227B publication Critical patent/CN110222227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合听觉感知特征和视觉特征的中国民歌地域分类方法。本发明提出同时提取听觉感知特征和视觉特征用于中国民歌的地域分类,并且提出要充分考虑两种特征对于中国民歌地域分类的适用性,从而对它们做了改进。提取听觉感知特征时,充分考虑特征对音乐语义的清晰性表达与特征的时序结构,采用CHMM模型对每类民歌建模,然后计算每首民歌对应于各个CHMM的输出概率,进而将每首歌曲的听觉感知特征转化为新的特征向量。提取音频视觉特征时,采用彩色语谱图替代灰度图以捕捉更多的纹理信息,并且同时采用纹理模式特征与模式强度特征以更全面的表征纹理。实验表明,本发明不仅可以有效识别不同地域的民歌,而且优于现有的民歌地域识别方法。

Description

一种融合听觉感知特征和视觉特征的中国民歌地域分类方法
技术领域
本发明属于机器学习与数据挖掘领域,具体涉及一种融合听觉感知特征和视觉特征的中国民歌地域分类方法。
背景技术
近年来,随着数字音频音乐的增加以及互联网的迅猛发展,具有独特民族风格与浓郁地方色彩的中国民歌开始被更多的人接触、喜欢与研究。然而由于中国民歌一般是即兴编作、口头传唱,不如流派歌曲创作规则明显,民歌的地域风格界限较为模糊,增加了地域识别的难度,因此目前中国民歌的地域识别研究比较少,急需学术界和工业界提出相关新的研究。
听觉感知特征在声学特征的基础上提出,其充分考虑人耳的听觉特性,融入大量的音乐感知信息,能够更贴近人耳与神经系统感知与处理音乐的过程,因此成为音乐分类中重要的特征选择。此外,通过将音乐音频信号转化成语谱图,进而提取视觉特征间接反映音乐节奏、韵律等特点,同样在音乐分类领域具有很大的潜力。听觉感知特征与视觉特征的巨大优势在中国民歌的地域识别的研究中应用的还非常少,尤其是视觉特征几乎没有应用。
发明内容
本发明的目的是解决现有研究中存在的缺乏探究新特征的不足问题,提出了一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,该方法同时提取听觉感知特征与视觉特征对中国民歌进行地域识别,通过前者捕捉民歌中的感知信息,通过后者捕捉民歌中的纹理特征,提高了中国民歌地域分类准确率。
为了达到上述目的,本发明采用如下的技术方案来实现:
一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,首先,对原始音频信号按帧提取听觉感知特征并进行时序相关性建模;其次,将原始音频信号的整体转化为彩色语谱图提取视觉特征;最后,将提取到的两部分特征进行决策级融合得到最终的分类结果;具体包括以下步骤:
1)听觉感知特征的提取:包括按帧提取音频特征,帧特征时序相关性建模,新的特征向量集合,归一化处理,具体包括以下步骤:
1-1)按帧提取音频特征:针对原始音频信号按帧提取梅尔频率倒谱系数、谱质心及Chroma特征作为听觉感知特征;
1-2)帧特征时序相关性建模:采用连续隐马尔科夫模型为每类民歌建立模型,连续隐马尔科夫模型简称CHMM模型;
1-3)新的特征向量集合:计算每首民歌对应于所有CHMM模型的输出概率,并将这些输出概率组合成新的特征向量集合;
1-4)归一化处理:对得到的新特征向量进行归一化处理,作为最终用于分类的听觉感知特征向量集合;
2)视觉特征的提取:视觉特征的提取过程,包括视觉图像的获取,视觉纹理特征的提取,以及视觉特征的降维处理,具体包括以下步骤:
2-1)视觉图像的获取:将每首民歌的音频信号的整体转化为彩色语谱图,并将每幅彩色语谱图转化为RGB三个颜色通道的灰度图像;
2-2)视觉纹理特征的提取:分别对每个颜色通道的灰度图像提取均匀二值模式和对比度特征,同时考虑对不同颜色通道之间的uniform LBP特征相关性进行计算,考虑Contrast特征提取时算子取值离散化问题;
2-3)视觉特征的降维处理:采用概率分析方法来获得不同地域民歌各种颜色通道内LBP特征中差异比较大的模式,然后只保留这些模式,从而达到降维的目的;
3)地域分类器融合:分别将提取到的听觉感知特征、视觉特征输入到各自的支持向量机分类器,对得到的SVM分类器分数向量进行融合作为最终的分类结果。
本发明进一步的改进在于,所述步骤1-2)具体操作为:将每首民歌提取的听觉感知特征作为观测向量,采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型;具体步骤如下:
1)CHMM的初值选择
CHMM的参数训练过程,需要输入初始的模型参数;其中HMM初始状态概率向量初值π0与初始状态转移矩阵A0对模型的建立影响不大,随机给出;而HMM状态数W与GMM模型个数P,则尝试采用不同组合来确定,以寻找最优的CHMM模型;GMM的初始参数选择则采取K均值分段算法来设置;
2)CHMM参数训练过程
CHMM参数训练过程分为以下两步:
E-step:给定观察向量序列
Figure BDA0002057705600000031
递归计算出第t帧处于状态Sj中的前向概率αt(Sj)与后向概率βt(Sj),并由二者计算出第t帧处于状态Si且第t+1帧处于状态Sj的概率
Figure BDA0002057705600000032
如式(1),以及第t帧处于状态Sj中第m个高斯模型的概率
Figure BDA0002057705600000033
如式(2):
Figure BDA0002057705600000034
Figure BDA0002057705600000035
M-step:根据γt(Sj)重新估计CHMM的参数:计算GMM各模型平均值向量μjm、协方差矩阵∑jm,权重cjm;状态转移概率aij,初始状态概率向量π;各参数表达式如下:
Figure BDA0002057705600000041
Figure BDA0002057705600000042
Figure BDA0002057705600000043
Figure BDA0002057705600000044
Figure BDA0002057705600000045
本发明进一步的改进在于,所述步骤1-3)具体操作为:将每首民歌的感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率,然后将其串接成一维向量
Figure BDA0002057705600000046
其中
Figure BDA0002057705600000047
表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率,从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合
Figure BDA0002057705600000048
本发明进一步的改进在于,所述步骤1-4)将所有歌曲的特征向量作归一化处理,作为听觉感知特征最终的训练向量集合。
本发明进一步的改进在于,所述步骤2-2)具体操作为:首先分别对每个颜色通道的灰度图像进行
Figure BDA0002057705600000049
与VARP,R运算,然后为解决三个颜色通道之间的相关性,对不同颜色通道两两做
Figure BDA0002057705600000051
运算,运算时邻域中心的像素和周围像素分别取自不同的通道,最后为解决不同局部区域内部得到的VARP,R算子值是连续的问题,在计算VARP,R直方图特征向量之前对VARP,R特征空间进行了量化,降低特征维数,其中R为邻域半径、P为采样点数。
本发明进一步的改进在于,所述步骤2-3)采用变异系数CV对相同颜色通道内的相同模式做差异度衡量,CV越大表示在该模式上差异越大,只保留这些差异大的模式,从而达到降维的目的。
本发明具有如下有益的技术效果:
本发明提供的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,融合听觉感知特征与视觉特征对中国民歌的地域识别。在提取两种特征的时候不仅充分考虑民歌音乐自身的特点,而且还进行了相应的改进。提取感知特征时,充分考虑各帧特征之间的时序关系,首先采用CHMM模型对每类民歌建模,然后计算每首民歌对应于各个CHMM的输出概率,进而将每首歌曲的听觉感知特征转化为新的特征向量。提取视觉特征时,采用彩色语谱图替代灰度图,以捕捉更多的纹理信息,并且为了更好的表征图像的纹理,不仅考虑纹理的模式,而且还考虑了纹理模式的强度。首先将每首歌曲的音频文件整体转化为彩色语谱图,进而将彩色语谱图转化成RGB三个颜色通道的灰度图像,然后提取视觉特征,并对提取的视觉特征采用变异系数降维。实验表明,本发明不仅可以有效识别不同地域的民歌,而且优于现有的民歌地域识别方法。
附图说明
图1为本发明提出的融合听觉感知特征和视觉特征的中国民歌地域分类整体处理流程图;
图2为本发明中听觉感知特征提取及处理过程示意图;
图3为本发明中视觉特征提取及处理过程示意图。
具体实施方式
下面结合附图对本发明做进一步详细描述:。
参照图1,本发明提供的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,首先,对原始音频信号按帧提取听觉感知特征,采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型;其次,将原始音频信号的整体转化为彩色语谱图,进而转化成RGB三个颜色通道的灰度图像提取视觉特征,同时采用变异系数降维;最后,分别将提取到的两部分特征输入到各自的SVM分类器进行决策级融合,具体包括以下步骤:
1)听觉感知特征的提取:听觉感知特征的提取过程,包括按帧提取音频特征,帧特征时序相关性建模,新的特征向量集合,归一化处理,参照图2,具体包括以下步骤,
Step1按帧提取音频特征:针对原始音频信号按帧提取梅尔频率倒谱系数、谱质心及Chroma特征作为听觉感知特征;
Step2帧特征时序相关性建模:采用连续隐马尔科夫模型(Continuous HiddenMarkov Model,CHMM)为每类民歌建立模型,采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型;具体步骤如下:
1)CHMM的初值选择
CHMM的参数训练过程,需要输入初始的模型参数;其中HMM初始状态概率向量初值π0与初始状态转移矩阵A0对模型的建立影响不大,随机给出;而HMM状态数W与GMM模型个数P,则尝试采用不同组合来确定,以寻找最优的CHMM模型;GMM的初始参数选择则采取K均值分段算法来设置;
2)CHMM参数训练过程
CHMM参数训练过程分为以下两步:
E-step:给定观察向量序列
Figure BDA0002057705600000061
递归计算出第t帧处于状态Sj中的前向概率αt(Sj)与后向概率βt(Sj),并由二者计算出第t帧处于状态Si且第t+1帧处于状态Sj的概率
Figure BDA0002057705600000071
如式(1),以及第t帧处于状态Sj中第m个高斯模型的概率
Figure BDA0002057705600000072
如式(2):
Figure BDA0002057705600000073
Figure BDA0002057705600000074
M-step:根据γt(Sj)重新估计CHMM的参数:计算GMM各模型平均值向量μjm、协方差矩阵∑jm,权重cjm;状态转移概率aij,初始状态概率向量π;各参数表达式如下:
Figure BDA0002057705600000075
Figure BDA0002057705600000076
Figure BDA0002057705600000077
Figure BDA0002057705600000078
Figure BDA0002057705600000079
Step3新的特征向量集合:将每首民歌的感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率,然后将其串接成一维向量
Figure BDA00020577056000000710
其中
Figure BDA00020577056000000711
表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率,从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合
Figure BDA0002057705600000081
Step4归一化处理:对得到的新特征向量进行归一化处理,作为最终用于分类的听觉感知特征向量集合;
2)视觉特征的提取:视觉特征的提取过程,包括视觉图像的获取,视觉纹理特征的提取,视觉特征的降维处理,参照图3,具体包括以下步骤,
Step1视觉图像的获取:将每首民歌的音频信号的整体转化为彩色语谱图,并将每幅彩色语谱图转化为RGB三个颜色通道的灰度图像;
Step2视觉纹理特征的提取:分别对每个颜色通道的灰度图像提取均匀二值模式(uniform Local Binary Pattern,uniform LBP)和对比度(Contrast)特征,同时考虑对不同颜色通道之间的uniform LBP特征相关性进行计算,考虑Contrast特征提取时算子取值离散化问题;具体分别对每个颜色通道的灰度图像进行
Figure BDA0002057705600000082
与VARP,R运算;为解决三个颜色通道之间的相关性,对不同颜色通道两两做
Figure BDA0002057705600000083
运算,运算时邻域中心的像素和周围像素分别取自不同的通道;为解决不同局部区域内部得到的VARP,R算子值是连续的问题,在计算VARP,R直方图特征向量之前对VARP,R特征空间进行了量化,大大降低特征空间的特征维数,其中R为邻域半径、P为采样点数。以G通道为中心的视觉特征的提取过程为例,主要步骤如下所示:
1)针对每一首歌,从G通道灰度图像中取一个像素点A,其像素值为
Figure BDA0002057705600000084
以该像素点为中心,分别从R,B两个外部通道以及G内部通道灰度图像中提取其邻域R周围的P个点的像素值,分别记为
Figure BDA0002057705600000085
2)针对A点的像素值
Figure BDA0002057705600000086
计算三组邻域值
Figure BDA0002057705600000087
Figure BDA0002057705600000088
对应的LBP编码及三个
Figure BDA0002057705600000089
算子;
3)计算邻域值
Figure BDA0002057705600000091
对应的VARP,R算子;
4)重复上述步骤,直至得到G通道图像中每个像素点对应的3个
Figure BDA0002057705600000092
算子与1个VARP,R值,然后分别对G-R,G-B两个交互通道以及G内部通道中的各种
Figure BDA0002057705600000093
算子进行统计,便可以得到G通道图像对应的三个LBP直方图序列;对G内部通道中各种VARP,R值进行统计,便可以得到G通道图像对应的一个Contrast直方图序列。
Step3视觉特征的降维处理:采用概率分析方法来获得不同地域民歌各种颜色通道内LBP特征中差异比较大的模式,然后只保留这些模式,从而达到降维的目的;具体采用变异系数CV(Coefficient of Variance)对三个地域民歌相同颜色通道内的相同模式做差异度衡量,CV越大则三个地域的民歌在该模式上差异越大,反之越小。本发明认为内部通道模式CV小于α的为差异较小的模式,交互通道内模式CV小于β的为差异较小的模式,进而将这些模式删除以达到降维的目的。
3)地域分类器融合:分别将提取到的听觉感知特征、视觉特征输入到各自的(Support Vector Machine,SVM)分类器,对得到的分类器分数向量进行融合作为最终的分类结果。
为了证明融合听觉感知特征与音频视觉特征的中国民歌地域分类算法在民歌地域分类上的优越性,本发明将其与其它基于音频的民歌地域分类算法做了比较,参照表1所示,融合听觉感知特征与音频视觉特征的中国民歌地域分类算法在现有的基于音频的中国民歌地域分类算法中分类准确率是最高的,这也说明将这两类特征结合研究中国民歌的地域分类比直接采用声学特征的研究方式更符合中国民歌的音乐特点。
表1:本发明中民歌地域分类方法与其它民歌地域分类方法的分类准确率对比结果。
Figure BDA0002057705600000094
Figure BDA0002057705600000101

Claims (6)

1.一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,首先,对原始音频信号按帧提取听觉感知特征并进行时序相关性建模;其次,将原始音频信号的整体转化为彩色语谱图提取视觉特征;最后,将提取到的两部分特征进行决策级融合得到最终的分类结果;具体包括以下步骤:
1)听觉感知特征的提取:包括按帧提取音频特征,帧特征时序相关性建模,新的特征向量集合,归一化处理,具体包括以下步骤:
1-1)按帧提取音频特征:针对原始音频信号按帧提取梅尔频率倒谱系数、谱质心及Chroma特征作为听觉感知特征;
1-2)帧特征时序相关性建模:采用连续隐马尔科夫模型为每类民歌建立模型,连续隐马尔科夫模型简称CHMM模型;
1-3)新的特征向量集合:计算每首民歌对应于所有CHMM模型的输出概率,并将这些输出概率组合成新的特征向量集合;
1-4)归一化处理:对得到的新特征向量进行归一化处理,作为最终用于分类的听觉感知特征向量集合;
2)视觉特征的提取:视觉特征的提取过程,包括视觉图像的获取,视觉纹理特征的提取,以及视觉特征的降维处理,具体包括以下步骤:
2-1)视觉图像的获取:将每首民歌的音频信号的整体转化为彩色语谱图,并将每幅彩色语谱图转化为RGB三个颜色通道的灰度图像;
2-2)视觉纹理特征的提取:分别对每个颜色通道的灰度图像提取均匀二值模式和对比度特征,同时考虑对不同颜色通道之间的uniform LBP特征相关性进行计算,考虑Contrast特征提取时算子取值离散化问题;
2-3)视觉特征的降维处理:采用概率分析方法来获得不同地域民歌各种颜色通道内uniform LBP特征中差异比较大的模式,然后只保留这些模式,从而达到降维的目的;
3)地域分类器融合:分别将提取到的听觉感知特征、视觉特征输入到各自的支持向量机分类器,对得到的SVM分类器分数向量进行融合作为最终的分类结果。
2.根据权利要求1所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,步骤1-2)具体操作为:将每首民歌提取的听觉感知特征作为观测向量,采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型;具体步骤如下:
1)CHMM的初值选择
CHMM的参数训练过程,需要输入初始的模型参数;其中HMM初始状态概率向量初值π0与初始状态转移矩阵A0对模型的建立影响不大,随机给出;而HMM状态数W与GMM模型个数P,则尝试采用不同组合来确定,以寻找最优的CHMM模型;GMM的初始参数选择则采取K均值分段算法来设置;
2)CHMM参数训练过程
CHMM参数训练过程分为以下两步:
E-step:给定观察向量序列
Figure FDA0002849505100000021
递归计算出第t帧处于状态Sj中的前向概率αt(Sj)与后向概率βt(Sj),并由二者计算出第t帧处于状态Si且第t+1帧处于状态Sj的概率
Figure FDA0002849505100000022
如式(1),以及第t帧处于状态Sj中第m个高斯模型的概率
Figure FDA0002849505100000023
如式(2):
Figure FDA0002849505100000024
Figure FDA0002849505100000025
M-step:根据γt(Sj)重新估计CHMM的参数:计算GMM各模型平均值向量μjm、协方差矩阵∑jm,权重cjm;状态转移概率aij,初始状态概率向量π;各参数表达式如下:
Figure FDA0002849505100000031
Figure FDA0002849505100000032
Figure FDA0002849505100000033
Figure FDA0002849505100000034
Figure FDA0002849505100000035
3.根据权利要求2所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,步骤1-3)具体操作为:将每首民歌的听觉感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率,然后将其串接成一维向量
Figure FDA0002849505100000036
其中
Figure FDA0002849505100000037
表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率,从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合
Figure FDA0002849505100000038
4.根据权利要求3所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,步骤1-4)将所有歌曲的特征向量作归一化处理,作为听觉感知特征最终的训练向量集合。
5.根据权利要求4所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,步骤2-2)具体操作为:首先分别对每个颜色通道的灰度图像进行
Figure FDA0002849505100000041
与VARP,R运算,然后为解决三个颜色通道之间的相关性,对不同颜色通道两两做
Figure FDA0002849505100000042
运算,运算时邻域中心的像素和周围像素分别取自不同的通道,最后为解决不同局部区域内部得到的VARP,R算子值是连续的问题,在计算VARP,R直方图特征向量之前对VARP,R特征空间进行了量化,降低特征维数,其中R为邻域半径、P为采样点数。
6.根据权利要求5所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法,其特征在于,步骤2-3)采用变异系数CV对相同颜色通道内的相同模式做差异度衡量,CV越大表示在该模式上差异越大,只保留这些差异大的模式,从而达到降维的目的。
CN201910394433.2A 2019-05-13 2019-05-13 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法 Active CN110222227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910394433.2A CN110222227B (zh) 2019-05-13 2019-05-13 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910394433.2A CN110222227B (zh) 2019-05-13 2019-05-13 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法

Publications (2)

Publication Number Publication Date
CN110222227A CN110222227A (zh) 2019-09-10
CN110222227B true CN110222227B (zh) 2021-03-23

Family

ID=67820904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910394433.2A Active CN110222227B (zh) 2019-05-13 2019-05-13 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法

Country Status (1)

Country Link
CN (1) CN110222227B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532424A (zh) * 2019-09-26 2019-12-03 西南科技大学 一种基于深度学习和云平台的肺音特征分类系统及方法
CN113793580B (zh) * 2021-08-31 2024-05-24 云境商务智能研究院南京有限公司 一种基于深度学习的音乐流派分类方法
CN114330453A (zh) * 2022-01-05 2022-04-12 东北农业大学 基于声学特征和视觉特征融合的生猪咳嗽声音识别方法
CN114792375A (zh) * 2022-03-02 2022-07-26 东南大学 一种基于视听信息融合的地形分类方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454342B2 (en) * 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
US9058751B2 (en) * 2011-11-21 2015-06-16 Age Of Learning, Inc. Language phoneme practice engine
CN105005558A (zh) * 2015-08-14 2015-10-28 武汉大学 一种基于群智感知的多模态数据融合方法
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
KR20180065049A (ko) * 2016-12-06 2018-06-18 (주)엠아이웨어 다중 영상 입력 장치 및 영상 처리 알고리즘을 이용한 차량 후방 모니터링 장치
CN108200483B (zh) * 2017-12-26 2020-02-28 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108492323B (zh) * 2018-01-18 2022-01-28 天津大学 融合机器视觉与听觉的水下运动物体检测与识别方法
CN109521870A (zh) * 2018-10-15 2019-03-26 天津大学 一种基于rsvp范式的视听觉结合的脑-机接口方法

Also Published As

Publication number Publication date
CN110222227A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110222227B (zh) 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
Chen et al. K-means clustering-based kernel canonical correlation analysis for multimodal emotion recognition in human–robot interaction
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN108830853A (zh) 一种基于人工智能的黑色素瘤辅助诊断方法
CN101794372B (zh) 基于频域分析的步态特征表示及识别方法
JP5567448B2 (ja) 画像領域分割装置、画像領域分割方法および画像領域分割プログラム
CN111666845B (zh) 基于关键帧采样的小样本深度学习多模态手语识别方法
CN102103690A (zh) 一种自动的头发区域分割方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN113112498B (zh) 一种基于细粒度对抗生成网络的葡萄叶片病斑识别方法
Zhao et al. Predicting tongue motion in unlabeled ultrasound videos using convolutional LSTM neural networks
CN111326139B (zh) 一种语种识别方法、装置、设备及存储介质
CN111126280B (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
CN107045621A (zh) 基于lbp与lda的人脸表情识别方法
CN110232331B (zh) 一种在线人脸聚类的方法及系统
CN107392105B (zh) 一种基于反向协同显著区域特征的表情识别方法
CN116612542A (zh) 基于多模态生物特征一致性的音视频人物识别方法及系统
CN116312484B (zh) 跨语言域不变声学特征提取方法和系统
CN113435477A (zh) 一种提高计算机辅助预测应力性骨折系统预测性能的方法
CN108319935A (zh) 基于区域稀疏的人脸族群识别算法
CN109886325B (zh) 一种非线性颜色空间分类的模板选择与加速匹配方法
Pan et al. Preferential image segmentation using trees of shapes
CN106531153B (zh) 基于唱段和念白提取的戏曲分类方法
CN113468907B (zh) 一种基于积分投影结合双交叉模式直方图的焦虑、抑郁、愤怒情绪识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant