CN110148428A - 一种基于子空间表示学习的声学事件识别方法 - Google Patents
一种基于子空间表示学习的声学事件识别方法 Download PDFInfo
- Publication number
- CN110148428A CN110148428A CN201910447562.3A CN201910447562A CN110148428A CN 110148428 A CN110148428 A CN 110148428A CN 201910447562 A CN201910447562 A CN 201910447562A CN 110148428 A CN110148428 A CN 110148428A
- Authority
- CN
- China
- Prior art keywords
- acoustic events
- feature
- sub
- signal
- subspace
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Machine Translation (AREA)
Abstract
一种基于子空间表示学习的声学事件识别方法,涉及声音信号处理技术领域,为解决现有技术在AER任务中,语义特征提取时不能兼顾原始信号本质内容和时序结构的问题,包括:步骤1、信号预处理,步骤2、帧级特征提取,步骤3、子声学事件特征提取,步骤4、子声学事件特征的时序扩展,步骤5、子声学事件特征间的整体语义特征提取,步骤6、声学事件的识别,本发明提取语义特征时,能够兼顾原始信号的整体内容信息和全局时序结构。
Description
技术领域
本发明涉及声音信号处理技术领域,具体为一种基于子空间表示学习的声学事件识别方法。
背景技术
声学事件是人类感知周围环境的重要媒介。声学事件识别(Audio EventRecognition, AER)是利用计算机通过模拟人类听觉机理来判断声学事件类别的过程。由于存在许多潜在的应用,如环境监测、噪音控制等,AER在最近几年受到了越来越多研究者的重视。
为了使计算机具备类似于人耳对声学事件的认知与理解能力,对声学事件信号提取语义特征是AER任务中一个重要且极具挑战的部分。一般的,语义特征本质上是所对应声学事件信号的压缩与抽象,对其基本要求是能保持声学事件信号的本质内容。同时,由于声学事件信号往往由多个具有一定持续时长和明确语义的子声学事件构成,且这些子声学事件发生的前后顺序具有一种不可打乱的结构属性,所以,在提取语义特征时也要兼顾考虑这种全局性的、特定的时序结构信息。因此,在AER任务中,如何提取能够兼顾原始信号本质内容和时序结构的整体语义特征,就成为一个既迫切又富有挑战性的研究问题。
发明内容
本发明的目的是:针对现有技术在AER任务中,语义特征提取时不能兼顾原始信号本质内容和时序结构的问题,提出一种基于子空间表示学习的声学事件识别方法。
本发明采用如下技术方案实现:一种基于子空间表示学习的声学事件识别方法,包括以下步骤:
步骤1、信号预处理:首先对原始声学事件信号进行训练集和测试集的分割,然后将分割后的声学事件信号转换为单信道信号,最后对上述单信道信号进行采样;
步骤2、帧级特征提取:首先将采样后的单信道信号切分为多个音频帧,并对多个音频帧分别提取梅尔倒谱系数特征,得到帧级特征;
步骤3、子声学事件特征提取:先对步骤2中得到的帧级特征进行聚类,得到多个聚类中心,再根据相邻的多个帧级特征与聚类中心的距离统计声学事件信号的局部语义特性,即得到子声学事件特征;
步骤4、子声学事件特征的时序扩展:对子声学事件特征利用时域变换平均的方法进行平滑,并利用卡方核对平滑后的子声学事件特征进行非线性扩展;
步骤5、子声学事件特征间的整体语义特征提取:将步骤4中得到的子声学事件特征用向量xi表示,且xi∈RD,将N个特征向量xi拼接成矩阵X用于描述由N个子声学事件构成的声学事件信号,其中X∈RD×N,i=1,...,N,子声学事件间蕴含的整体语义特征可由如下目标函数实现:
其中,u∈RD×d,u是一个d维子空间S的基,uuTX为X在子空间S上的投影;
步骤6、声学事件的识别:对于训练集和测试集中的每一个声学事件信号,先对其分别进行上述步骤1至步骤5中所述的预处理及特征提取过程,再利用训练集中所有样本的语义特征作为SVM的输入进行训练,然后利用测试集完成模型的测试,最后利用训练好的SVM分类器,完成声学事件识别任务。
进一步的,所述步骤1中分割比例为训练集占总声学事件信号数量的75%,测试集占总声学事件信号数量的25%。
进一步的,所述步骤1采样信号为频率16000Hz的单信道信号。
进一步的,所述步骤2中梅尔倒谱系数特征的提取步骤为:使用长为25毫秒的汉明窗以及10毫秒的窗移,并得到40维的梅尔倒谱稀疏特征,然后提取MFCCs的一阶差分和二阶差分,最终得到原始信号的帧级特征,其特征维度为120维。
进一步的,所述步骤3的具体步骤为:首先使用K-means聚类方法将帧级特征进行聚类,聚类中心个数设置为2000,再对每20帧的帧级特征进行直方图统计特征的提取,即得到子声学事件特征。
进一步的,所述步骤5还包括如下步骤:首先利用截断式SVD将X分解为三部分,表达式为:
X=A∑BT
其中,A包含X的左奇异向量,B包含右奇异向量,且∑包含所有的奇异值,其中右奇异向量包含了X与时域相关主成分,则投影系数应满足:
uTX=BT
最终,子空间的基u可以表示为:
u=pinv(X)TB
其中,pinv(·)代表矩阵的Moore-Penrose伪逆。
本发明采用上述技术方案,具有如下有益效果:本发明沿用了子空间对于保证子声学事件特征本质内容的优势,进一步设计一种使得子空间能够刻画子声学事件间时序结构的机制,首先,通过最小化子声学事件特征与其在子空间内投影之间的误差,使得该子空间具有能最大化保留原始信号整体内容的能力;其次,通过建立子声学事件特征在该子空间内的投影系数与其时域主成分之间的联系,使得该子空间具有能反映全局时序结构的能力;最后,将学习到的子空间作为原始信号的语义特征表示,并进一步用于AER任务中。本发明提取语义特征时,能够兼顾原始信号的整体内容信息和全局时序结构。
具体实施方式
具体实施方式一:下面具体说明本实施方式,本实施方式,一种基于子空间表示学习的声学事件识别方法,包括以下步骤:
步骤1、信号预处理:首先对原始声学事件信号进行训练集和测试集的分割,然后将分割后的声学事件信号转换为单信道信号,最后对上述单信道信号进行采样;
分割比例为训练集占总声学事件信号数量的75%,测试集占总声学事件信号数量的 25%;再将声学事件信号转换为单信道信号;最后对声学事件信号进行采样处理,产生采样频率为16000Hz的单信道信号。
步骤2、帧级特征提取:首先将采样后的单信道信号切分为多个音频帧,并对多个音频帧分别提取AER任务中经典的梅尔倒谱系数特征,得到帧级特征;
为刻画原始信号的包络信息,首先将原始信号分割为多个音频帧,并对其分别提取 AER任务中经典的梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCCs)特征。具体的,使用长为25毫秒的汉明窗以及10毫秒的窗移,并得到40维的梅尔倒谱稀疏特征。在此基础上,为刻画相邻的几个音频帧间的局部动态变化,提取MFCCs的一阶差分和二阶差分,最终得到原始信号的帧级特征,其特征维度为120维。
步骤3、子声学事件特征提取:先对步骤2中得到的帧级特征进行聚类,得到多个聚类中心,再根据相邻的多个帧级特征与聚类中心的距离统计声学事件信号的局部语义特性,并认为这样的局部语义特征可近似表示一个子声学事件,即子声学事件特征;
为刻画具有一定时长和明确语义的子声学事件,帧级特征往往因其包含信息过少而存在一定局限性。为此,将相邻的多个帧级特征进一步抽象为段级特征是一种常用的子声学事件特征提取方法。具体的,本发明选取经典的音频词袋特征(Bag of Audio Word,BoAW),特征先对步骤2中得到的帧级特征进行聚类操作,得到多个聚类中心,再根据相邻的多个帧级特征与聚类中心的距离统计声学事件信号的局部语义特性,并认为这样的局部语义特征可近似表示一个子声学事件,即子声学事件特征。
在提取音频词袋特征时,首先使用经典的K-means聚类方法将帧级特征进行聚类,聚类中心个数设置为2000,再对每20帧的帧级特征进行直方图统计特征的提取,并认为每20帧所提取的统计特征都可近似表示一个子声学事件的局部语义特征,即子声学事件特征。
步骤4、子声学事件特征的时序扩展:对子声学事件特征利用时域变换平均的方法进行平滑,并利用卡方核对平滑后的子声学事件特征进行非线性扩展;
为突显子声学事件间所蕴含的时序结构变化,对子事件特征进行时域平滑操作是一种常用的方法,具体的,本发明采用时域变化平均的方法对步骤3中提取到的子声学事件特征进行平滑。进一步,上述时序结构变化在AER任务中往往是非线性的,为了考虑这种非线性变化的可能性,本发明利用卡方核对平滑后的子声学事件特征进行非线性扩展,其中,卡方核的扩展系数设置为1,同质程度设置为0.5。
步骤5、子声学事件特征间的整体语义特征提取:将步骤4中得到的子声学事件特征用向量xi表示,且xi∈RD,将N个特征向量xi拼接成矩阵X用于描述由N个子声学事件构成的声学事件信号,其中X∈RD×N,i=1,...,N,子声学事件间蕴含的整体语义特征可由如下目标函数实现:
其中,u∈RD×d,u是一个d维子空间S的基,uuTX为X在子空间S上的投影;在上述目标函数中,为最大化的保留X中的本质内容,本发明利用表示学习机制来最小化X 和其在子空间S上投影uuTX之间的误差,且为刻画原始信号最具代表性的全局内容信息,本发明认为其存在与一个一维子空间的基内。
步骤6、声学事件的识别:对于训练集和测试集中的每一个声学事件信号,先对其分别进行上述步骤1至步骤5中所述的预处理及特征提取过程,再利用训练集中所有样本的语义特征作为SVM的输入进行训练,然后利用测试集完成模型的测试,最后利用训练好的SVM分类器,完成声学事件识别任务。
此外,为进一步约束上述目标函数所学习到的整体语义特征对时序结构信息的描述,对上述目标函数进行重新考虑。具体的,上述目标函数的基本目标是保证子声学事件特征序列x1,...,xN的正交投影uuTx1,...,uuTxN中尽量保留x1,...,xN中的本质内容,且任意正交投影 uuTxi可以看作是对子空间基u进行uTxi倍的扩展(uTxi一般称为投影系数),那么,不难发现,在uuTx1,...,uuTxN中,子空间的基u随着x1,...,xN的时序演变保持不变,而投影系数uTx1,...,uTxN随段落的改变而发生变化。因此,若信号X的子声学事件特征间存在时序结构的变化,投影系数是刻画这一动态变化的一个有效途径。此外,利用奇异值分解(Singular Vector Decomposition,SVD)对信号进行主成分提取也是刻画信号时序结构变化的一个经典方法。那么,学习子空间S的一种途径是将投影系数和反映时序变化的主成分之间建立联系。
具体的,首先,利用截断式SVD将X分解为三部分,可表示如下:
X=A∑BT
其中,A包含X的左奇异向量,B包含右奇异向量,且∑包含所有的奇异值。其中右奇异向量包含了X与时域相关主成分,所以,一种求解子空间S的方法是让投影系数满足:
uTX=BT
最终,子空间的基u可以表示为:
u=pinv(X)TB
其中,pinv(·)代表矩阵的Moore-Penrose伪逆。
声学事件信号的整体语义特征一般建立在具有明确语义的子声学事件基础上,且其提取过程本质上是对多个子声学事件所具有的局部语义特征的进一步抽象。本发明将子声学事件所具有的局部语义特征统称为子声学事件特征。在上述整体语义提取过程中,为了保持这些子声学事件特征中蕴含的本质内容,直接、有效的方式是找到该子声学事件特征空间的一个最大子集,即子空间。然而,其在反映子声学事件间存在的时序结构方面仍存在缺陷。
为解决这一问题,本发明沿用了子空间对于保证子声学事件特征本质内容的优势,进一步设计一种使得子空间能够刻画子声学事件间时序结构的机制,并提供一种基于子空间表示学习(Subspace rePresentation leArning,SPA)的整体语义特征提取方法。首先,通过最小化子声学事件特征与其在子空间内投影之间的误差,使得该子空间具有能最大化保留原始信号整体内容的能力;其次,通过建立子声学事件特征在该子空间内的投影系数与其时域主成分之间的联系,使得该子空间具有能反映全局时序结构的能力;最后,将学习到的子空间作为原始信号的语义特征表示,并进一步用于AER任务中。本发明所提出的方法对于提取可兼顾原始信号整体内容信息和全局时序结构的语义特征十分有效。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。
Claims (6)
1.一种基于子空间表示学习的声学事件识别方法,其特征在于包括以下步骤:
步骤1、信号预处理:首先对原始声学事件信号进行训练集和测试集的分割,然后将分割后的声学事件信号转换为单信道信号,最后对上述单信道信号进行采样;
步骤2、帧级特征提取:将采样后的单信道信号切分为多个音频帧,并对多个音频帧分别提取梅尔倒谱系数特征,得到帧级特征;
步骤3、子声学事件特征提取:先对步骤2中得到的帧级特征进行聚类,得到多个聚类中心,再根据相邻的多个帧级特征与聚类中心的距离统计声学事件信号的局部语义特性,即得到子声学事件特征;
步骤4、子声学事件特征的时序扩展:对子声学事件特征利用时域变换平均的方法进行平滑,并利用卡方核对平滑后的子声学事件特征进行非线性扩展;
步骤5、子声学事件特征间的整体语义特征提取:将步骤4中得到的子声学事件特征用向量xi表示,且xi∈RD,将N个特征向量xi拼接成矩阵X用于描述由N个子声学事件构成的声学事件信号,其中X∈RD×N,i=1,...,N,子声学事件间蕴含的整体语义特征可由如下目标函数实现:
其中,u∈RD×d,u是一个d维子空间S的基,uuTX为X在子空间S上的投影;
步骤6、声学事件的识别:对于训练集和测试集中的每一个声学事件信号,先对其分别进行上述步骤1至步骤5中所述的预处理及特征提取过程,再利用训练集中所有样本的语义特征作为SVM的输入进行训练,然后利用测试集完成模型的测试,最后利用训练好的SVM分类器,完成声学事件识别任务。
2.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法,其特征在于:所述步骤1中分割比例为训练集占总声学事件信号数量的75%,测试集占总声学事件信号数量的25%。
3.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法,其特征在于:所述步骤1采样信号为频率16000Hz的单信道信号。
4.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法,其特征在于所述步骤2中梅尔倒谱系数特征的提取步骤为:使用长为25毫秒的汉明窗以及10毫秒的窗移,并得到40维的梅尔倒谱稀疏特征,然后提取MFCCs的一阶差分和二阶差分,最终得到原始信号的帧级特征,其特征维度为120维。
5.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法,其特征在于所述步骤3的具体步骤为:首先使用K-means聚类方法将帧级特征进行聚类,聚类中心个数设置为2000,再对每20帧的帧级特征进行直方图统计特征的提取,即得到子声学事件特征。
6.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法,其特征在于所述步骤5还包括如下步骤:首先利用截断式SVD将X分解为三部分,表达式为:
X=A∑BT
其中,A包含X的左奇异向量,B包含右奇异向量,且∑包含所有的奇异值,其中右奇异向量包含了X与时域相关主成分,则投影系数应满足:
uTX=BT
子空间的基u可以表示为:
u=pinv(X)TB
其中,pinv(·)代表矩阵的Moore-Penrose伪逆。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910447562.3A CN110148428B (zh) | 2019-05-27 | 2019-05-27 | 一种基于子空间表示学习的声学事件识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910447562.3A CN110148428B (zh) | 2019-05-27 | 2019-05-27 | 一种基于子空间表示学习的声学事件识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110148428A true CN110148428A (zh) | 2019-08-20 |
CN110148428B CN110148428B (zh) | 2021-04-02 |
Family
ID=67593290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910447562.3A Active CN110148428B (zh) | 2019-05-27 | 2019-05-27 | 一种基于子空间表示学习的声学事件识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110148428B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365884A (zh) * | 2020-11-10 | 2021-02-12 | 珠海格力电器股份有限公司 | 耳语的识别方法和装置、存储介质、电子装置 |
CN113361592A (zh) * | 2021-06-03 | 2021-09-07 | 哈尔滨工业大学 | 一种基于公共子空间表示学习的声学事件识别方法 |
CN113707175A (zh) * | 2021-08-24 | 2021-11-26 | 上海师范大学 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102571486A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种基于BoW模型和统计特征的流量识别方法 |
CN103226948A (zh) * | 2013-04-22 | 2013-07-31 | 山东师范大学 | 一种基于声学事件的音频场景识别方法 |
CN104268568A (zh) * | 2014-09-17 | 2015-01-07 | 电子科技大学 | 基于独立子空间网络的行为识别方法 |
CN105244039A (zh) * | 2015-03-07 | 2016-01-13 | 孙瑞峰 | 一种对语音的语义感知理解的方法和系统 |
CN106022351A (zh) * | 2016-04-27 | 2016-10-12 | 天津中科智能识别产业技术研究院有限公司 | 一种基于非负字典对学习的鲁棒多视角聚类方法 |
WO2016170561A1 (en) * | 2015-04-24 | 2016-10-27 | Nec Corporation | An information processing system and an information processing method for semantic enrichment of text |
CN106571135A (zh) * | 2016-10-27 | 2017-04-19 | 苏州大学 | 一种耳语音特征提取方法及系统 |
WO2017139764A1 (en) * | 2016-02-12 | 2017-08-17 | Sri International | Zero-shot event detection using semantic embedding |
WO2018005620A1 (en) * | 2016-06-28 | 2018-01-04 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
-
2019
- 2019-05-27 CN CN201910447562.3A patent/CN110148428B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102571486A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种基于BoW模型和统计特征的流量识别方法 |
CN103226948A (zh) * | 2013-04-22 | 2013-07-31 | 山东师范大学 | 一种基于声学事件的音频场景识别方法 |
CN104268568A (zh) * | 2014-09-17 | 2015-01-07 | 电子科技大学 | 基于独立子空间网络的行为识别方法 |
CN105244039A (zh) * | 2015-03-07 | 2016-01-13 | 孙瑞峰 | 一种对语音的语义感知理解的方法和系统 |
WO2016170561A1 (en) * | 2015-04-24 | 2016-10-27 | Nec Corporation | An information processing system and an information processing method for semantic enrichment of text |
WO2017139764A1 (en) * | 2016-02-12 | 2017-08-17 | Sri International | Zero-shot event detection using semantic embedding |
CN106022351A (zh) * | 2016-04-27 | 2016-10-12 | 天津中科智能识别产业技术研究院有限公司 | 一种基于非负字典对学习的鲁棒多视角聚类方法 |
WO2018005620A1 (en) * | 2016-06-28 | 2018-01-04 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
CN106571135A (zh) * | 2016-10-27 | 2017-04-19 | 苏州大学 | 一种耳语音特征提取方法及系统 |
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
Non-Patent Citations (5)
Title |
---|
BABAEE E.: ""an overview of audio event detection methods from feature extraction to classification"", 《APPLIED ARTIFICIAL INTELLIGENCE》 * |
HUY PHAN: ""audio phrases for audio eventrecognition"", 《EUSIPCO》 * |
ZHANG LIWEN: ""unsupervised temporal feature learning based on sparse coding embedded BoAW for acoustic event recognition"", 《INTERSPEECH》 * |
冯霄: ""基于中间语义的场景分类算法的研究"", 《中国硕士学位论文全文数据库信息科技辑》 * |
张瑞杰: ""基于局部语义概念表示的图像场景分类技术研究"", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365884A (zh) * | 2020-11-10 | 2021-02-12 | 珠海格力电器股份有限公司 | 耳语的识别方法和装置、存储介质、电子装置 |
CN113361592A (zh) * | 2021-06-03 | 2021-09-07 | 哈尔滨工业大学 | 一种基于公共子空间表示学习的声学事件识别方法 |
CN113707175A (zh) * | 2021-08-24 | 2021-11-26 | 上海师范大学 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
CN113707175B (zh) * | 2021-08-24 | 2023-12-19 | 上海师范大学 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110148428B (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tzinis et al. | Improving universal sound separation using sound classification | |
Latif et al. | Deep representation learning in speech processing: Challenges, recent advances, and future trends | |
US20190147854A1 (en) | Speech Recognition Source to Target Domain Adaptation | |
CN111753549A (zh) | 一种基于注意力机制的多模态情感特征学习、识别方法 | |
Dennis | Sound event recognition in unstructured environments using spectrogram image processing | |
Pokorny et al. | Detection of negative emotions in speech signals using bags-of-audio-words | |
CN110148428A (zh) | 一种基于子空间表示学习的声学事件识别方法 | |
CN111429938A (zh) | 一种单通道语音分离方法、装置及电子设备 | |
CN113066499B (zh) | 一种陆空通话说话人身份识别方法及装置 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
Maheswari et al. | A hybrid model of neural network approach for speaker independent word recognition | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN114566189A (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
Yasmeen et al. | Csvc-net: Code-switched voice command classification using deep cnn-lstm network | |
CN113053361B (zh) | 语音识别方法、模型训练方法、装置、设备及介质 | |
CN113870863A (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
Bhowmick et al. | Identification/segmentation of indian regional languages with singular value decomposition based feature embedding | |
CN114792518A (zh) | 一种基于调度域技术的语音识别系统及其方法、存储介质 | |
Miyazaki et al. | Environmental sound processing and its applications | |
Sharma et al. | Speech Emotion Recognition System using SVD algorithm with HMM Model | |
KR102348689B1 (ko) | 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약 | |
CN113658582A (zh) | 一种音视协同的唇语识别方法及系统 | |
Thasleema et al. | Time–domain non-linear feature parameter for consonant classification | |
Shome et al. | A robust DNN model for text-independent speaker identification using non-speaker embeddings in diverse data conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |