CN106205609A - 一种基于音频事件和主题模型的音频场景识别方法及其装置 - Google Patents
一种基于音频事件和主题模型的音频场景识别方法及其装置 Download PDFInfo
- Publication number
- CN106205609A CN106205609A CN201610525055.3A CN201610525055A CN106205609A CN 106205609 A CN106205609 A CN 106205609A CN 201610525055 A CN201610525055 A CN 201610525055A CN 106205609 A CN106205609 A CN 106205609A
- Authority
- CN
- China
- Prior art keywords
- audio
- documents
- event
- training
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000011159 matrix material Substances 0.000 claims abstract description 121
- 238000012549 training Methods 0.000 claims abstract description 112
- 238000009826 distribution Methods 0.000 claims abstract description 63
- 238000013145 classification model Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 239000012141 concentrate Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 11
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 206010008190 Cerebrovascular accident Diseases 0.000 claims description 5
- 208000006011 Stroke Diseases 0.000 claims description 5
- 239000004744 fabric Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 24
- 238000011160 research Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- JOCBASBOOFNAJA-UHFFFAOYSA-N N-tris(hydroxymethyl)methyl-2-aminoethanesulfonic acid Chemical compound OCC(CO)(CO)NCCS(O)(=O)=O JOCBASBOOFNAJA-UHFFFAOYSA-N 0.000 description 2
- 235000012364 Peperomia pellucida Nutrition 0.000 description 2
- 240000007711 Peperomia pellucida Species 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了基于音频事件和主题模型的音频场景识别方法及其装置,该方法包括训练音频场景分类模型;提取待识别音频文档的主题分布作为音频特征,并将提取的音频特征代入音频场景分类模型中进行分类识别,最终输出待识别音频文档的音频场景类别。本发明提出以音频事件作为统计单元,创新性地对音频文档‑音频事件共现矩阵进行主题分析,其与人类的音频场景识别模式更加一致,因此本发明提出的音频场景识别思路更加合理,更能提高识别的准确率。
Description
技术领域
本发明属于音频识别领域,尤其涉及一种基于音频事件和主题模型的音频场景识别方法及其装置。
背景技术
音频场景识别是指对于一个音频文档,识别出该音频文档所发生的环境,或者换句话说,音频场景识别是指通过音频信息来感知周围环境。音频场景识别技术具有非常广泛的应用价值,将其用于移动终端设备可以使设备很好地感知周围环境,进而能自动地调整设备状态;音频场景识别还可以用于智能家居、老年人健康监护等等。
主题模型是在文本分析领域广泛应用的一类模型,近几年有很多研究将其用于音频领域,并且已有研究将主题模型用于音频场景识别。当前的研究在将主题模型用于音频场景识别时一般都是遵循以下范式:首先将音频文档进行分割处理得到一系列帧;然后将这些帧进行聚类以创建音频字典;根据字典将帧映射成音频字;对映射后的音频字进行统计以生成音频文档-音频字共现矩阵;用主题模型对音频文档-音频字共现矩阵进行分析可以得到每个音频文档的主题分布;用主题分布作为音频特征来表征音频文档,最后通过分类模型实现音频场景识别。
从以上范式可以看出当前的研究主要都是对音频文档-音频字共现矩阵进行主题分析,这种传统的将主题模型用于音频场景识别时所遵循的范式与人类进行音频场景识别的思维模式不一致:通常人类在进行音频场景识别时会首先分析音频文档中都有哪些音频事件,然后根据这些音频事件进一步分析这些音频事件想要反映什么主题,最后,通过对这些主题的分析做出识别判断;而上述传统的做法中没有考虑音频事件,而是以音频字作为统计单元,音频字没有明确的物理含义,也不是人类进行场景识别时所考虑的物理单元,因此上述传统的识别方法与人类进行音频场景识别的思维模式不一致。人工智能领域的专家一直都在致力于研究如何让机器模仿人类的思维模式进行思考,研究表明,使机器模仿人类的思维模式进行思考能很好地提高机器的智能水平,因此,与那些和人类识别思维模式一致的方法相比,上述传统的识别方法的识别准确率会相对较低,为了解决上述问题,本发明提出对音频文档-音频事件共现矩阵进行主题分析。
在求音频文档-音频事件共现矩阵时,常规的方法是首先对音频文档中的音频事件进行分类识别,然后进行统计得到音频文档-音频事件共现矩阵。常规方法在分类识别音频事件时需要创建分类模型,当音频事件类别较多时,计算量将会非常大;此外,常规的求取方法容易受音频事件误分类的影响,导致训练集的音频文档-音频事件共现矩阵和测试集的音频文档-音频事件共现矩阵的一致性较差,进而降低音频场景识别准确率。
发明内容
为了解决现有技术的缺点,本发明提供一种基于音频事件和主题模型的音频场景识别方法及其装置。本发明的该方法对音频文档-音频事件共现矩阵进行主题分析;同时,为了突出音频文档的主题,对音频文档的音频事件分布进行了加权处理,加权的权值是根据音频事件的主题熵来确定的。
为了实现上述目的,本发明采用如下技术方案:
一种基于音频事件和主题模型的音频场景识别方法,包括:
步骤(1):训练音频场景分类模型;
训练音频场景分类模型的具体过程包括:
步骤(1.1):获取训练音频文档并存储至训练音频文档集中,对训练音频文档集中的训练音频文档进行分帧和提取特征处理,创建音频字典;
步骤(1.2):求取训练音频文档集的音频文档-音频事件共现矩阵;
步骤(1.3):用主题模型PLSA对训练音频文档集的音频文档-音频事件共现矩阵进行主题分析,求得训练音频文档集中每个音频文档的主题分布;
步骤(1.4):将每个音频文档的主题分布作为音频文档的音频特征来训练音频场景分类模型;
步骤(2):求取待识别音频文档的主题分布作为音频特征,并将求取的音频特征代入音频场景分类模型中进行分类识别,最终输出待识别音频文档的音频场景类别。
本发明对音频文档-音频事件共现矩阵进行主题分析,对音频文档-音频事件共现矩阵进行主题分析与人类的音频场景识别模式更加一致,因此本发明提出的音频场景识别思路更加合理,能有效地提高识别准确率。
在步骤(1.1)中对训练音频文档集中的训练音频文档进行分帧处理的过程中,因为音频文档是短时平稳的,如果相邻两帧之间没有重叠的话,很可能会导致后续特征提取步骤中提取的音频特征在相邻两帧之间的变化较大,因此,为了使音频特征平滑变化,在分帧处理时设置帧与帧之间有50%的重叠。
在步骤(1.1)中还对训练音频文档集中的训练音频文档提取MFCC特征,在对训练音频文档集中的训练音频文档提取MFCC特征之后,对训练音频文档集里每一音频场景类中的所有帧进行聚类,聚类后取簇质心组成音频字典,簇质心为音频字典的音频字。采用聚类的方法生成音频字典是在用主题模型对音频文档进行主题分析时业内常用的方法,该方法简单高效。
在所述步骤(1.2)中求取训练音频文档集的音频文档-音频事件共现矩阵的过程中,包括:
根据音频字典将训练音频文档集中所有帧映射成音频字;
统计训练音频文档集里每个音频文档中各个音频字的出现次数,得到训练音频文档集的音频文档-音频字共现矩阵;
统计训练音频文档集里每个标注的音频事件中各个音频字的出现次数,得到训练音频文档集的音频事件-音频字共现矩阵。对于具有多个音频事件标签的音频帧,其在参与统计音频事件-音频字共现矩阵时,是按比例分配给其内包含的各个音频事件,在标签序列中排序越靠前的音频事件获得的比例成分越大;
采用主题模型PLSA将音频文档-音频字共现矩阵分解成第一子矩阵和第二子矩阵相乘的形式,其中,第一子矩阵为音频事件-音频字共现矩阵,第二子矩阵中的每一列对应一个训练音频文档在各个音频事件上的概率分布;
采用主题模型PLSA对第一子矩阵进行矩阵分解,生成音频事件-主题矩阵,音频事件-主题矩阵的每一列表示一个音频事件在各个主题上的概率分布;
根据音频事件-主题矩阵的每一列中的音频事件-主题分布求取各个音频事件的主题熵;
根据主题熵求取各个音频事件的加权系数;
采用各个音频事件的加权系数对训练音频文档中的音频事件分布进行加权,对加权后的音频事件分布进行归一化,并乘上训练音频文档集中音频帧的总数目,最终得到训练音频文档集的音频文档-音频事件共现矩阵。
根据音频字典将训练音频文档集中所有帧映射成音频字的方法为:
对训练音频文档集中的每个帧,从音频字典中找出与其最近邻的音频字来表示相应的帧。
本发明提出的通过矩阵分解求取音频文档-音频事件共现矩阵的方法能很好地保证训练集的音频文档-音频事件共现矩阵和测试集的音频文档-音频事件共现矩阵的一致性,因而能有效地提高音频场景识别准确率。
此外,音频事件分布加权处理后,音频文档的主题将更加突出,将能更好地表征不同的音频场景,因而更有利于后续的音频场景识别;本发明提出的加权方法并不局限于对音频事件分布的加权,该加权方法的思路可以推广至任何其它使用主题模型进行分类识别的方法中。
所述步骤(2)求取待识别音频文档的主题分布作为音频特征的过程,包括:
获取待识别音频文档并存储至待识别音频文档集中,求取待识别音频文档集的音频文档-音频事件共现矩阵;
采用主题模型PLSA对待识别音频文档集的音频文档-音频事件共现矩阵进行主题分析,求得待识别音频文档集中每个音频文档的主题分布;
将待识别音频文档集中每个音频文档的主题分布作为待识别音频文档的音频特征。
每个音频文档中可能包含多个主题,但是这些主题的主次地位不同,那些分布概率大的主题是音频文档的主要主题,那些分布概率小的主题是次要主题;同理,每一种音频场景类可能包含多个主题,这些主题的主次地位不同,同一音频场景类中的音频文档的主要主题将集中于某几个主题上,不同音频场景类中的音频文档的主要主题趋向于集中在不同的主题上,因此音频文档的主题分布能很好地表征其场景类别信息,将使得不同音频场景类下的音频文档具有很好的区分性。
待识别音频文档集的音频文档-音频事件共现矩阵求取过程,包括:
对待识别音频文档进行分帧处理,帧与帧之间有50%的重叠,并提取待识别音频文档每一帧的MFCC特征;
根据音频字典将待识别音频文档集中所有帧映射成音频字;
统计待识别音频文档集里每个音频文档中各个音频字的出现次数,得到待识别音频文档集的音频文档-音频字共现矩阵;
采用主题模型PLSA将待识别音频文档集的音频文档-音频字共现矩阵分解成第一子矩阵和第二子矩阵相乘的形式,其中,第一子矩阵为训练音频文档集的音频事件-音频字共现矩阵;第二子矩阵中的每一列对应一个待识别音频文档在各个音频事件上的概率分布;
采用训练阶段求得的各个音频事件的加权系数对待识别音频文档中的音频事件分布进行加权,对加权后的音频事件分布进行归一化,并乘上待识别音频文档集中音频帧的总数目,最终得到待识别音频文档集的音频文档-音频事件共现矩阵。
根据音频字典将待识别音频文档集中所有帧映射成音频字的方法为:
对待识别音频文档集中的每个帧,从音频字典中找出与其最近邻的音频字来表示相应的帧。
一种基于音频事件和主题模型的音频场景识别装置,包括:
音频场景分类模型生成模块,所述音频场景分类模型生成模块包括音频字典创建模块,其被配置为获取训练音频文档并存储至训练音频文档集中,对训练音频文档集中的训练音频文档进行分帧和提取特征处理,创建音频字典;
音频文档-音频事件共现矩阵求取模块,其被配置为求取训练音频文档集的音频文档-音频事件共现矩阵;
音频文档的主题分布求取模块,其被配置为采用主题模型PLSA对训练音频文档集的音频文档-音频事件共现矩阵进行主题分析,求得训练音频文档集中每个音频文档的主题分布;
音频场景分类模型训练模块,其被配置为将每个训练音频文档的主题分布作为音频文档的音频特征来训练音频场景分类模型;
所述音频场景识别装置还包括音频特征提取模块,其被配置为提取待识别音频文档的主题分布作为音频特征;
输出模块,其被配置为将待识别音频文档的音频特征代入音频场景分类模型中进行分类识别,并输出待识别音频文档的音频场景类别。
本发明的有益效果为:
(1)本发明提出以音频事件作为统计单元,创新性地对音频文档-音频事件共现矩阵进行主题分析,其与人类的音频场景识别模式更加一致,因此本发明提出的音频场景识别思路更加合理,更能提高识别的准确率。
(2)为了突出音频文档的音频主题,本发明提出对音频文档的音频事件分布进行加权;该加权方法的权值是通过音频事件的主题熵确定的,因此那些主题突出的音频事件将得到加强,而那些主题不突出的音频事件将被削弱。加权处理后,音频文档的主题将更加突出,将能更好地表征不同的音频场景,因而更有利于后续的音频场景识别;本发明提出的加权方法并不局限于对音频事件分布的加权,该加权方法的思路可以推广至任何其它使用主题模型进行分类识别的方法中。
(3)本发明通过PLSA矩阵分解的方法求取音频文档-音频事件共现矩阵,本发明提出的音频文档-音频事件共现矩阵求取方法和常规的求取方法相比具有以下优势:本发明提出的矩阵分解方法不需要创建分类模型,因而计算量小,求解的效率高;能很好地保证训练集的音频文档-音频事件共现矩阵和测试集的音频文档-音频事件共现矩阵的一致性,因而能有效地提高音频场景识别准确率。
附图说明
图1是本发明提出的音频场景识别方法示意图;
图2是训练音频文档集的音频文档-音频字共现矩阵分解过程示意图;
图3是训练音频文档集的音频文档-音频事件共现矩阵分解过程示意图;
图4是待识别音频文档集的音频文档-音频字共现矩阵分解过程示意图;
图5是识别阶段对待识别音频文档集的音频文档-音频事件共现矩阵分解过程示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
如图1所示,本发明提出的音频场景识别方法主要分为两大模块:训练过程和识别过程。其中,训练过程包括创建音频字典、求取音频文档-音频事件共现矩阵、基于PLSA的主题分析和训练分类模型四部分;识别过程包括求取音频文档-音频事件共现矩阵、基于PLSA的主题分析和识别输出三部分。以下将对各个部分做详细介绍。
首先介绍训练过程:
(一)创建音频字典
对训练音频文档进行分帧处理。因为对音频信号提取频域特征时,要求信号必须是平稳的,而音频信号具有短时平稳特性,因此分帧时帧长不能取得过长,通常帧长在20~60毫秒之间取值,本发明将帧长设定为30毫秒,将音频文档分割成30毫秒长的帧。为了使相邻帧的特征平滑变化,设定帧与帧之间有50%的重叠。对每个帧提取39维的MFCC特征。标准的MFCC特征是13维的,标准MFCC只反映了音频的静态特征。研究表明把静态、动态特征结合起来能有效地提高系统的识别性能,为此,本发明在提取标准MFCC的同时,通过一阶差分和二阶差分求得动态MFCC特征,静态、动态特征总计39维。对训练集里每一音频场景类中的所有帧进行k均值聚类,聚类后取簇质心组成音频字典,也就是说音频字典是由训练集中各个音频场景类聚类后的簇质心创建成的,这些簇质心称为音频字典的音频字。
(二)求取音频文档-音频事件共现矩阵
首先根据音频字典将训练集中所有帧映射成音频字,映射的方法是:对每个帧,从音频字典中找出与其最近邻(基于欧氏距离)的音频字,用此音频字来表示该帧;其次,统计训练集里每个音频文档中各个音频字的出现次数,得到训练集的音频文档-音频字共现矩阵,记为Ctrain。训练音频文档中的音频事件可以提前进行标注,因此训练集中各个帧的音频事件标签是已知的,为此,可以统计训练集里每个音频事件中各个音频字的出现次数,进而得到训练集的音频事件-音频字共现矩阵,记为Atrain。
假设训练集中共有N个音频文档和n个不同的音频事件,分别记为{d1,…,dN}和{e1,e2,…,en},假设音频字典中共有M个音频字,则Ctrain是一个M×N的矩阵,Atrain是一个M×n的矩阵。用主题模型PLSA(Probabilistic Latent Semantic Analysis)对矩阵Ctrain进行分解,将Ctrain分解成Atrain和Btrain相乘的形式,如图2所示。Btrain是一个n×N的矩阵,其每一列对应一个音频文档,表示音频文档在各个音频事件上的概率分布;其中,N、M和n均为大于等于1的正整数。
由于在音频文档中,同一时刻经常会有多个音频事件同时发生,因此在为训练音频文档标注音频事件时,某一时间段若有多个音频事件同时发生,将标注所有的音频事件标签,但是要对这些标签根据人类感知特性进行排序,也就是说最突出的、首先被感知的音频事件的标签排在第一位,其次被感知的音频事件的标签排在第二位,以此类推。在此标注情况下,训练集的音频事件-音频字共现矩阵Atrain的统计方法如下:
假设训练集中某个音频文档的某一帧的音频事件标签有m个,其音频事件标签序列为[l1,l2,…,lm],li(i=1,…,m)表示其音频事件标签序列中的第i个标签,li从{e1,e2,…,en}中取值。其中,m为大于等于1的正整数。在统计音频事件-音频字共现矩阵Atrain时,这一音频帧将参与其内包含的所有音频事件的统计,但参与的比例不同。在统计该音频文档中由li所代表的音频事件的出现次数时,该音频帧参与的比例co(li)为:
满足
这表明:对于具有多个音频事件标签的音频帧,其在参与统计音频事件-音频字共现矩阵Atrain时,是按比例分配给其内包含的各个音频事件,在标签序列中排序越靠前的音频事件获得的比例成分越大。之所以如此设置是因为人类在识别音频场景时,主要是根据音频文档中的突出音频事件进行判断,而将其它次要音频事件作为辅助,因此按照公式(1)将一帧按比例分配给各个音频事件将有助于强调音频文档中的突出音频事件。
在反映音频文档的主题时,各个音频事件所发挥的作用是不同的,为了突出强调那些对反映主题起重要作用的音频事件,有必要对音频文档的音频事件分布进行加权。本发明认为如果一个音频事件的主题十分突出,则这样的音频事件更加重要。
本发明用主题熵反映音频事件的重要性,为此,首先通过PLSA对音频事件-音频字共现矩阵Atrain进行矩阵分解。假设有T1个潜在主题{z1,…,zT1},z1表示第1个潜在主题,zT1表示第T1个潜在主题,则经过PLSA矩阵分解后可以生成一个尺寸为T1×n的音频事件-主题矩阵,记为E,E的每一列表示一个音频事件在主题{z1,…,zT1}上的概率分布。矩阵E的第(i,j)个元素记为其中,zi表示第i个主题,ej表示第j个音频事件,表示音频事件ej在主题zi上的概率值。用尺寸为1×n的向量H表示各个音频事件的主题熵,其第j个元素记为H(ej),H(ej)表示音频事件ej的主题熵,其值通过下式求解:
其中,表示矩阵E的第(i,j)个元素,zi表示第i个主题,ej表示第j个音频事件。对音频事件来说,主题熵值越小意味着其主题越突出,换句话说,主题熵越小意味着该音频事件的发生主要反映少数几个主题;而主题熵值越大意味着该音频事件的发生将会反映很多不同的主题。因此,本发明认为主题熵越小的音频事件,其对反映音频场景的主题的重要性越大。基于主题熵,本发明设计了一个系数,用其来评价音频事件的重要性,并用其对音频文档的音频事件分布进行加权。用尺寸为1×n的向量c来表示各个音频事件的加权系数,其第i个元素记为c(ei),c(ei)表示音频事件ei的加权系数,其求解方法如下:
c(ei)=c(ei)/min(c) (5)
公式(5)表示的是将c(ei)用min(c)进行归一化以后再重新覆盖原来的c(ei)的值。
其中,H(ei)表示音频事件ei的主题熵,min(H)表示求向量H中元素的最小值,var(H)表示求向量H中元素的方差,min(c)表示求向量c中元素的最小值。
记矩阵Btrain的第(i,j)个元素为dj表示第j个音频文档,ei表示第i个音频事件。用c对训练音频文档中的音频事件分布进行加权,即对Btrain中的各列进行加权:
加权后,为了使矩阵Btrain中的各列表达的是音频文档中各个音频事件的出现次数,而不是在各个音频事件上的概率分布,为此还要对Btrain做以下处理:
其中,表示矩阵Btrain的第j列,表示对进行归一化,fNum表示训练集中的帧的总数量。在做了以上处理之后的Btrain即为求取的训练集的音频文档-音频事件共现矩阵。
(三)基于PLSA的主题分析
本发明采用PLSA作为主题模型。用PLSA对(二)中求取的训练集的音频文档-音频事件共现矩阵Btrain进行矩阵分解,矩阵分解如图3所示。假设共有T2个潜在主题,则矩阵分解后的Ptrain是一个尺寸为n×T2的矩阵,Qtrain是一个尺寸为T2×N的矩阵。Qtrain的每一列对应一个音频文档,表示音频文档在T2个潜在主题上的概率分布。Qtrain中的每一列即为对训练音频文档集经过PLSA主题分析后所得到的训练音频文档的主题分布。
(四)训练分类模型
Qtrain的每一列对应一个音频文档的主题分布,将该主题分布作为音频文档的音频特征,并用其训练分类模型。本发明采用支持向量机SVM(Support Vector Machine)作为分类模型。SVM是二值分类模型,在用其分类多个音频场景时采用一对一的多类分类策略。
以下介绍识别过程:
(一)求取音频文档-音频事件共现矩阵
识别阶段对音频文档-音频事件共现矩阵的求取和训练阶段类似。首先将待识别的音频文档进行分帧处理,帧长30毫秒,帧与帧之间有50%的重叠;然后,对于每一帧,通过在字典中找到其最近邻以将其映射成音频字;统计待识别音频文档中各个音频字的出现次数即可得到待识别音频文档的音频文档-音频字共现矩阵,记为Ctest;用PLSA对Ctest进行矩阵分解,将Ctest分解成Atrain和Btest相乘的形式,矩阵分解如图4所示。假设待识别的音频文档数目为Ntest,则Btest是尺寸为n×Ntest的矩阵。记矩阵Btest的第(i,k)个元素为dk表示第k个待识别的音频文档,ei表示第i个音频事件,用训练阶段求得的系数向量c对待识别音频文档中的音频事件分布进行如下加权:
为了使矩阵Btest中的各列表达的是音频文档中各个音频事件的出现次数,对Btest做以下处理:
其中,表示矩阵Btest的第k列,表示对进行归一化,fNumtest表示待识别音频文档集中的帧的总数量。做了以上处理之后的Btest即为求取的待识别音频文档集的音频文档-音频事件共现矩阵。公式(11)表示的是将用fNumtest与的乘积重新覆盖原来的的值。
(二)基于PLSA的主题分析
在训练阶段对矩阵Btrain进行矩阵分解得到了尺寸为n×T2的矩阵Ptrain;在识别阶段用PLSA对矩阵Btest进行矩阵分解,将其分解成矩阵Ptrain和矩阵Qtest相乘的形式,矩阵分解如图5所示。矩阵分解后得到的Qtest是一个尺寸为T2×Ntest的矩阵,Qtest的每一列对应一个音频文档,表示音频文档在T2个潜在主题上的概率分布。Qtest的每一列即为对待识别音频文档集经过PLSA主题分析后所得到的待识别音频文档的主题分布。
(三)识别输出
Qtest的每一列对应一个音频文档的主题分布,将该主题分布作为音频文档的音频特征,并将其代入训练阶段训练得到的SVM分类模型中进行分类识别,根据一对一的多类分类策略最终输出得到待识别音频文档的音频场景类别。
本发明的基于音频事件和主题模型的音频场景识别装置,包括:
音频场景分类模型生成模块,所述音频场景分类模型生成模块包括音频字典创建模块,其被配置为获取训练音频文档并存储至训练音频文档集中,对训练音频文档集中的训练音频文档进行分帧和提取特征处理,创建音频字典;
音频文档-音频事件共现矩阵求取模块,其被配置为求取训练音频文档集的音频文档-音频事件共现矩阵;
音频文档的主题分布求取模块,其被配置为采用主题模型PLSA对训练音频文档集的音频文档-音频事件共现矩阵进行主题分析,求得训练音频文档集中每个音频文档的主题分布;
音频场景分类模型训练模块,其被配置为将每个训练音频文档的主题分布作为音频文档的音频特征来训练音频场景分类模型;
所述音频场景识别装置还包括音频特征提取模块,其被配置为提取待识别音频文档的主题分布作为音频特征;
输出模块,其被配置为将待识别音频文档的音频特征代入音频场景分类模型中进行分类识别,并输出待识别音频文档的音频场景类别。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.一种基于音频事件和主题模型的音频场景识别方法,其特征在于,包括:
步骤(1):训练音频场景分类模型;
训练音频场景分类模型的具体过程包括:
步骤(1.1):获取训练音频文档并存储至训练音频文档集中,对训练音频文档集中的训练音频文档进行分帧和提取特征处理,创建音频字典;
步骤(1.2):求取训练音频文档集的音频文档-音频事件共现矩阵;
步骤(1.3):用主题模型PLSA对训练音频文档集的音频文档-音频事件共现矩阵进行主题分析,求得训练音频文档集中每个音频文档的主题分布;
步骤(1.4):将每个音频文档的主题分布作为音频文档的音频特征来训练音频场景分类模型;
步骤(2):求取待识别音频文档的主题分布作为音频特征,并将求取的音频特征代入音频场景分类模型中进行分类识别,最终输出待识别音频文档的音频场景类别。
2.如权利要求1所述的一种基于音频事件和主题模型的音频场景识别方法,其特征在于,在步骤(1.1)中对训练音频文档集中的训练音频文档进行分帧处理的过程中,设置帧与帧之间有50%的重叠。
3.如权利要求1所述的一种基于音频事件和主题模型的音频场景识别方法,其特征在于,在步骤(1.1)中还对训练音频文档集中的训练音频文档提取MFCC特征,在对训练音频文档集中的训练音频文档提取MFCC特征之后,对训练音频文档集里每一音频场景类中的所有帧进行聚类,聚类后取簇质心组成音频字典,簇质心为音频字典的音频字。
4.如权利要求1所述的一种基于音频事件和主题模型的音频场景识别方法,其特征在于,在所述步骤(1.2)中求取训练音频文档集的音频文档-音频事件共现矩阵的过程中,包括:
根据音频字典将训练音频文档集中所有帧映射成音频字;
统计训练音频文档集里每个音频文档中各个音频字的出现次数,得到训练音频文档集的音频文档-音频字共现矩阵;
统计训练音频文档集里每个标注的音频事件中各个音频字的出现次数,得到训练音频文档集的音频事件-音频字共现矩阵。对于具有多个音频事件标签的音频帧,其在参与统计音频事件-音频字共现矩阵时,是按比例分配给其内包含的各个音频事件,在标签序列中排序越靠前的音频事件获得的比例成分越大;
采用主题模型PLSA将音频文档-音频字共现矩阵分解成第一子矩阵和第二子矩阵相乘的形式,其中,第一子矩阵为音频事件-音频字共现矩阵,第二子矩阵中的每一列对应一个训练音频文档在各个音频事件上的概率分布;
采用主题模型PLSA对第一子矩阵进行矩阵分解,生成音频事件-主题矩阵,音频事件-主题矩阵的每一列表示一个音频事件在各个主题上的概率分布;
根据音频事件-主题矩阵的每一列中的音频事件-主题分布求取各个音频事件的主题熵;
根据主题熵求取各个音频事件的加权系数;
采用各个音频事件的加权系数对训练音频文档中的音频事件分布进行加权,对加权后的音频事件分布进行归一化,并乘上训练音频文档集中音频帧的总数目,最终得到训练音频文档集的音频文档-音频事件共现矩阵。
5.如权利要求4所述的一种基于音频事件和主题模型的音频场景识别方法,其特征在于,根据音频字典将训练音频文档集中所有帧映射成音频字的方法为:
对训练音频文档集中的每个帧,从音频字典中找出与其最近邻的音频字来表示相应的帧。
6.如权利要求1所述的一种基于音频事件和主题模型的音频场景识别方法,其特征在于,所述步骤(2)求取待识别音频文档的主题分布作为音频特征的过程,包括:
获取待识别音频文档并存储至待识别音频文档集中,求取待识别音频文档集的音频文档-音频事件共现矩阵;
采用主题模型PLSA对待识别音频文档集的音频文档-音频事件共现矩阵进行主题分析,求得待识别音频文档集中每个音频文档的主题分布;
将待识别音频文档集中每个音频文档的主题分布作为待识别音频文档的音频特征。
7.如权利要求6所述的一种基于音频事件和主题模型的音频场景识别方法,其特征在于,求取待识别音频文档集的音频文档-音频事件共现矩阵的过程,包括:
对待识别音频文档进行分帧处理,帧与帧之间有50%的重叠,并提取待识别音频文档每一帧的MFCC特征;
根据音频字典将待识别音频文档集中所有帧映射成音频字;
统计待识别音频文档集里每个音频文档中各个音频字的出现次数,得到待识别音频文档集的音频文档-音频字共现矩阵;
采用主题模型PLSA将待识别音频文档集的音频文档-音频字共现矩阵分解成第一子矩阵和第二子矩阵相乘的形式,其中,第一子矩阵为训练音频文档集的音频事件-音频字共现矩阵;第二子矩阵中的每一列对应一个待识别音频文档在各个音频事件上的概率分布;
采用训练阶段求得的各个音频事件的加权系数对待识别音频文档中的音频事件分布进行加权,对加权后的音频事件分布进行归一化,并乘上待识别音频文档集中音频帧的总数目,最终得到待识别音频文档集的音频文档-音频事件共现矩阵。
8.如权利要求7所述的一种基于音频事件和主题模型的音频场景识别方法,其特征在于,根据音频字典将待识别音频文档集中所有帧映射成音频字的方法为:
对待识别音频文档集中的每个帧,从音频字典中找出与其最近邻的音频字来表示相应的帧。
9.一种基于音频事件和主题模型的音频场景识别装置,其特征在于,包括:
音频场景分类模型生成模块,所述音频场景分类模型生成模块包括音频字典创建模块,其被配置为获取训练音频文档并存储至训练音频文档集中,对训练音频文档集中的训练音频文档进行分帧和提取特征处理,创建音频字典;
音频文档-音频事件共现矩阵求取模块,其被配置为求取训练音频文档集的音频文档-音频事件共现矩阵;
音频文档的主题分布求取模块,其被配置为采用主题模型PLSA对训练音频文档集的音频文档-音频事件共现矩阵进行主题分析,求得训练音频文档集中每个音频文档的主题分布;
音频场景分类模型训练模块,其被配置为将每个训练音频文档的主题分布作为音频文档的音频特征来训练音频场景分类模型;
所述音频场景识别装置还包括音频特征提取模块,其被配置为提取待识别音频文档的主题分布作为音频特征;
输出模块,其被配置为将待识别音频文档的音频特征代入音频场景分类模型中进行分类识别,并输出待识别音频文档的音频场景类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610525055.3A CN106205609B (zh) | 2016-07-05 | 2016-07-05 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610525055.3A CN106205609B (zh) | 2016-07-05 | 2016-07-05 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106205609A true CN106205609A (zh) | 2016-12-07 |
CN106205609B CN106205609B (zh) | 2019-05-28 |
Family
ID=57464882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610525055.3A Active CN106205609B (zh) | 2016-07-05 | 2016-07-05 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106205609B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107204193A (zh) * | 2017-06-12 | 2017-09-26 | 山东师范大学 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
CN108764304A (zh) * | 2018-05-11 | 2018-11-06 | Oppo广东移动通信有限公司 | 场景识别方法、装置、存储介质及电子设备 |
CN109346055A (zh) * | 2018-11-23 | 2019-02-15 | 安克创新科技股份有限公司 | 主动降噪方法、装置、耳机及计算机存储介质 |
CN109448703A (zh) * | 2018-11-14 | 2019-03-08 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN110136696A (zh) * | 2019-05-22 | 2019-08-16 | 上海声构信息科技有限公司 | 音频数据的监控处理方法和系统 |
CN110853672A (zh) * | 2019-11-08 | 2020-02-28 | 山东师范大学 | 一种用于音频场景分类的数据扩充方法及装置 |
CN112863518A (zh) * | 2021-01-29 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN113012685A (zh) * | 2019-12-20 | 2021-06-22 | 北京世纪好未来教育科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN113220932A (zh) * | 2021-04-02 | 2021-08-06 | 山东师范大学 | 一种基于多任务学习的音频场景识别方法及装置 |
CN113497953A (zh) * | 2020-04-07 | 2021-10-12 | 北京达佳互联信息技术有限公司 | 音乐的场景识别方法、装置、服务器及存储介质 |
CN113590903A (zh) * | 2021-09-27 | 2021-11-02 | 广东电网有限责任公司 | 一种情报数据的管理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902978A (zh) * | 2012-08-31 | 2013-01-30 | 电子科技大学 | 一种面向对象的高分辨率遥感图像分类方法 |
CN103226948A (zh) * | 2013-04-22 | 2013-07-31 | 山东师范大学 | 一种基于声学事件的音频场景识别方法 |
FR2981189B1 (fr) * | 2011-10-10 | 2013-11-01 | Thales Sa | Systeme et procede non supervise d'analyse et de structuration thematique multi resolution de flux audio |
CN105243083A (zh) * | 2015-09-08 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 文档主题挖掘方法及装置 |
-
2016
- 2016-07-05 CN CN201610525055.3A patent/CN106205609B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2981189B1 (fr) * | 2011-10-10 | 2013-11-01 | Thales Sa | Systeme et procede non supervise d'analyse et de structuration thematique multi resolution de flux audio |
CN102902978A (zh) * | 2012-08-31 | 2013-01-30 | 电子科技大学 | 一种面向对象的高分辨率遥感图像分类方法 |
CN103226948A (zh) * | 2013-04-22 | 2013-07-31 | 山东师范大学 | 一种基于声学事件的音频场景识别方法 |
CN105243083A (zh) * | 2015-09-08 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 文档主题挖掘方法及装置 |
Non-Patent Citations (3)
Title |
---|
LENG YAN等: "A SVM Active Learning Method Based on Confidence ,KNN and Diversity", 《2015 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA ANDEXPO》 * |
周成豪: "基于概率潜在语义分析的音频场景识别方法", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
辛欣等: "采用潜在概率语音模型和K临近分类器的音频分类算法", 《华侨大学学报(自然科学版)》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107204193B (zh) * | 2017-06-12 | 2020-05-29 | 山东师范大学 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
CN107204193A (zh) * | 2017-06-12 | 2017-09-26 | 山东师范大学 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
CN108764304A (zh) * | 2018-05-11 | 2018-11-06 | Oppo广东移动通信有限公司 | 场景识别方法、装置、存储介质及电子设备 |
CN109448703A (zh) * | 2018-11-14 | 2019-03-08 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN109448703B (zh) * | 2018-11-14 | 2021-05-11 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN109346055A (zh) * | 2018-11-23 | 2019-02-15 | 安克创新科技股份有限公司 | 主动降噪方法、装置、耳机及计算机存储介质 |
CN110136696B (zh) * | 2019-05-22 | 2021-05-18 | 上海声构信息科技有限公司 | 音频数据的监控处理方法和系统 |
CN110136696A (zh) * | 2019-05-22 | 2019-08-16 | 上海声构信息科技有限公司 | 音频数据的监控处理方法和系统 |
CN110853672A (zh) * | 2019-11-08 | 2020-02-28 | 山东师范大学 | 一种用于音频场景分类的数据扩充方法及装置 |
CN110853672B (zh) * | 2019-11-08 | 2022-04-01 | 山东师范大学 | 一种用于音频场景分类的数据扩充方法及装置 |
CN113012685A (zh) * | 2019-12-20 | 2021-06-22 | 北京世纪好未来教育科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN113497953A (zh) * | 2020-04-07 | 2021-10-12 | 北京达佳互联信息技术有限公司 | 音乐的场景识别方法、装置、服务器及存储介质 |
CN112863518A (zh) * | 2021-01-29 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN112863518B (zh) * | 2021-01-29 | 2024-01-09 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN113220932A (zh) * | 2021-04-02 | 2021-08-06 | 山东师范大学 | 一种基于多任务学习的音频场景识别方法及装置 |
CN113220932B (zh) * | 2021-04-02 | 2022-06-10 | 山东师范大学 | 一种基于多任务学习的音频场景识别方法及装置 |
CN113590903A (zh) * | 2021-09-27 | 2021-11-02 | 广东电网有限责任公司 | 一种情报数据的管理方法及装置 |
CN113590903B (zh) * | 2021-09-27 | 2022-01-25 | 广东电网有限责任公司 | 一种情报数据的管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106205609B (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106205609A (zh) | 一种基于音频事件和主题模型的音频场景识别方法及其装置 | |
CN103984681B (zh) | 基于时序分布信息和主题模型的新闻事件演化分析方法 | |
US11501082B2 (en) | Sentence generation method, sentence generation apparatus, and smart device | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
WO2019165678A1 (zh) | 一种慕课的关键词提取方法 | |
CN109388700A (zh) | 一种意图识别方法及系统 | |
CN105427869A (zh) | 一种基于深度学习的会话情感自动分析方法 | |
CN106096004A (zh) | 一种建立大规模跨领域文本情感倾向性分析框架的方法 | |
CN102262634A (zh) | 一种自动问答方法及系统 | |
CN103473380B (zh) | 一种计算机文本情感分类方法 | |
CN107194600A (zh) | 一种电力负荷季节特性分类方法 | |
CN113505586A (zh) | 一种融合语义分类与知识图谱的坐席辅助问答方法与系统 | |
CN110310647A (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN109815336A (zh) | 一种文本聚合方法及系统 | |
CN110414837B (zh) | 基于错因分析的人机交互系统 | |
CN108334493A (zh) | 一种基于神经网络的题目知识点自动提取方法 | |
CN103336832A (zh) | 基于质量元数据的视频分类器构造方法 | |
CN105389326A (zh) | 基于弱匹配概率典型相关性模型的图像标注方法 | |
CN109472462A (zh) | 一种基于多模型堆栈融合的项目风险评级方法及装置 | |
CN109949799A (zh) | 一种语义解析方法及系统 | |
CN102201237A (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN106601235A (zh) | 一种半监督多任务特征选择的语音识别方法 | |
CN114186983B (zh) | 视频面试多维评分方法、系统、计算机设备及存储介质 | |
CN103294811A (zh) | 考虑特征可靠性的视频分类器构造方法 | |
CN114048327A (zh) | 一种基于知识图谱的主观题自动评分方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |