CN110827854A - 一种环境声音识别方法、装置及可读存储介质 - Google Patents
一种环境声音识别方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN110827854A CN110827854A CN201911029386.8A CN201911029386A CN110827854A CN 110827854 A CN110827854 A CN 110827854A CN 201911029386 A CN201911029386 A CN 201911029386A CN 110827854 A CN110827854 A CN 110827854A
- Authority
- CN
- China
- Prior art keywords
- source data
- model
- denoising self
- target data
- establishing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种环境声音识别方法、装置及可读存储介质,所述方法包括,基于堆叠去噪自编码机,建立源数据的识别模型;基于所述源数据的识别模型,将目标数据与所述源数据进行匹配;根据匹配结果建立目标数据的识别模型。本发明方法通过基于所述源数据的识别模型,对目标数据与源数据进行匹配;根据匹配结果建立目标数据的识别模型,由此解决了现有技术的效率低的问题。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种环境声音识别方法、装置及可读存储介质。
背景技术
作为一种感知周围环境十分有效的方法,环境声音识别技术被广泛的应用在机器人导航、移动机器人、音频检索、音频取证以及其它基于情景感知、可穿戴的应用中,如何能够准确的识别出使用者所处的真实、复杂的环境声音,实现高性能的环境声音识别,就成为一个迫切又具有挑战性的研究课题。
目前,多种经典的分类器被广泛的应用在环境声音识别问题中,但其性能还远未达到理想的水平。现有环境声音识别技术主要流程分为四步:音频信号输入、音频声学特征提取、模型训练、给出分类结果,其中模型训练步骤依赖于具体的训练数据,若声音场景类别发生变化或新增训练数据,则模型需要重新训练。
环境声音识别一直是音频信号处理领域中的研究重点,但现有方法存在以下缺点:
(1)随着计算机技术、网络技术及多媒体技术的迅猛发展,环境声音音频语料极易获得,训练数据急剧增加,对于新训练数据,经典分类器中需要重新训练模型,十分耗时,代价巨大且效率低下;
(2)真实的环境声音有别于纯净的音频信号,总是夹杂着许多对模型训练无效的信息,这一点在很大程度上妨碍了环境声音识别准确率的提升。
发明内容
本发明实施例提供一种环境声音识别方法、装置及可读存储介质,用以进一步提升环境声音识别任务的准确率和识别速率,从而解决现有技术中存在的问题。
第一方面,本发明实施例提供一种环境声音识别方法,所述方法包括,
基于堆叠去噪自编码机,建立源数据的识别模型;
基于所述源数据的识别模型,将目标数据与所述源数据进行匹配;
根据匹配结果建立目标数据的识别模型。
可选的,所述基于堆叠去噪自编码机,建立源数据的识别模型,包括:
通过堆叠去噪自编码机对源数据进行训练,建立关于源数据的特征表示模型;
根据所述特征表示模型,通过最小化无监督代价函数,确定所述去噪自编码机的网络参数;
根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化。
可选的,根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化之前,所述方法还包括:
多次堆叠去噪自编码机,并在最后一个去噪自编码机的隐藏层加入一层Softmax神经单元以获得分类的堆叠去噪自编码机。
可选的,在根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化之后,所述方法还包括:
重新确定有监督的代价函数以完成源数据的识别模型的建立。
可选的,基于所述源数据的识别模型,对目标数据与所述源数据进行匹配,包括:
将目标数据在所建立的源数据的识别模型上进行计算;
根据计算结果确定匹配直方图;
根据所述直方图确定目标数据在堆叠去噪自编码机网络上对应的标签。
可选的,根据匹配结果建立目标数据的识别模型,包括:
通过所述源数据的识别模型对所述目标数据进行重新训练;
根据目标函数匹配出的标签对重新训练后的源数据的识别模型进行代价函数最小化以获得目标数据的识别模型。
第二方面,本发明实施例提供一种环境声音识别装置,所述装置包括:
模型建立模块,用于基于堆叠去噪自编码机,建立源数据的识别模型;
数据匹配模块,用于基于所述源数据的识别模型,对目标数据与所述源数据进行匹配;
所述模型建立模块,还用于根据匹配结果建立目标数据的识别模型。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如前述的方法的步骤。
本发明实施例通过基于所述源数据的识别模型,对目标数据与源数据进行匹配;根据匹配结果建立目标数据的识别模型,由此解决了现有技术的效率低的问题,取得了积极的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明第一实施例流程图;
图2为本发明第一实施例去噪自编码机结构示意图;
图3为本发明第一实施例分类的堆叠去噪自编码机网络结构示意图;
图4为本发明第二实施例迁移学习的环境声音识别方法示意图
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
近年来,在深度学习的框架下,自编码机再一次受到了研究者的青睐,去噪自编码机作为自编码机的一种变形,其与受限玻尔兹曼机、自编码机等一样作为深度学习中的基本训练模块,具有良好的学习数据集特征的能力。通过堆叠去噪自编码机可以得到堆叠去噪自编码机,其训练过程中的无监督学习为其和迁移学习的融合提供了良好的基础,且其能进一步学习到原始数据集中的特征,更加适合于无监督的分类任务的训练。
第一方面,本发明第一实施例提出一种环境声音识别方法,如图1所示,所述方法包括:
基于堆叠去噪自编码机,建立源数据的识别模型;
基于所述源数据的识别模型,将目标数据与所述源数据进行匹配;
根据匹配结果建立目标数据的识别模型。
本发明在采用堆叠去噪自编码机的基础上,通过迁移学习理论的指导,实现在搭建已有源数据识别网络的基础上,将未知的目标数据与源数据进行匹配,再通过在已有源数据识别网络上进行微调得到目标数据的识别网络,最终实现目标数据识别的目的。简化了传统方法处理未知数据常用的网络重新训练的方法,是一种针对环境声音识别任务简洁、有效的方法。
本发明实施例通过基于所述源数据的识别模型,对目标数据与源数据进行匹配;根据匹配结果建立目标数据的识别模型,由此解决了现有技术的效率低的问题。
可选的,根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化之前,所述方法还包括:
多次堆叠去噪自编码机,并在最后一个去噪自编码机的隐藏层加入一层Softmax神经单元以获得分类的堆叠去噪自编码机。
具体的说,如图3所示为分类的堆叠去噪自编码机网络结构示意图,本实施例中,可以在图2的去噪自编码机结构的基础上进行多次堆叠,为了让堆叠去噪自编码机具有分类功能,本实施例中在最后一个去噪自动编码机的隐藏层上加入一层Softmax神经单元,将整个堆叠去噪自编码机和新加入的Softmax神经单元构成一个神经网络,并以有监督的方式对其进行微调。
可选的,所述基于堆叠去噪自编码机,建立源数据的识别模型,包括:
通过堆叠去噪自编码机对源数据进行训练,建立关于源数据的特征表示模型;
根据所述特征表示模型,通过最小化无监督代价函数,确定所述去噪自编码机的网络参数;
根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化。
具体的说,参见图2为去噪自编码机结构示意图,在本实施例中去噪自编码机通过一个随机的映射变换将输入数据映射为受到噪声干扰的噪音数据。进一步对噪音数据进行编码和解码处理,通过指定的目标函数对网络进行训练,得到去除噪音的纯净的、与输入数据尽可能相近的重构数据。
本发明实施例在采用堆叠去噪自编码机的基础上,通过迁移学习理论的指导,实现在已有源数据识别网络建立的基础上,对未知的目标数据进行网络的匹配,最后通过在已有源数据识别网络上进行微调得到目标数据的识别网络,进一步实现目标数据识别的目的。
进一步说,在本实施例中,基于堆叠去噪自编码机,建立源数据的识别模型,如图3所示,包括:
对于给定的源数据X(s),将其作为堆叠去噪自编码机网络的输入,建立关于X(s)的识别模型,最小化无监督网络代价函数,求得堆叠去噪自编码机网络参数θ。
可选的,在根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化之后,所述方法还包括:
重新确定有监督的代价函数以完成源数据的识别模型的建立。
在本实施例中,根据前述求得的堆叠去噪自编码机网络参数θ作为基于分类的堆叠去噪自编码机的网络初始参数,然后定义代价函数如下:
其中Y(s)——源数据的数据标签;Y(sup)——第sup个DA的隐藏层输出。
且Y(sup)满足如下关系式:
可选的,基于所述源数据的识别模型,对目标数据与所述源数据进行匹配,包括:
将目标数据在所建立的源数据的识别模型上进行计算;
根据计算结果确定匹配直方图;
根据所述直方图确定目标数据在堆叠去噪自编码机网络上对应的标签。
具体的说,在本实施例中,将目标数据x(t)在已经训练好的堆叠去噪自编码机分类器上进行前向计算,并根据Softmax网络层输出值画出匹配直方图,最后根据匹配直方图确定x(t)在堆叠去噪自编码机识别网络上对应的标签Y(t)。
进一步的,为了清晰的描述确定直方图的策略,在本实施例中,将原始数据标签个数记为Ns,目标数据标签个数记为Nt,且目标数据的标签l满足l=1,2,...,Nt,堆叠去噪自编码机网络输出v满足则本实施例中,目标数据中第l个标签的概率值为:
式中Zh——配分函数,在实际计算时可以省略,hl(v)满足:
最终目标数据的标签Y(t)通过下式进行确定:
式中Y(t)={v(l)|l=1,2,...,Nt}。
可选的,根据匹配结果建立目标数据的识别模型,包括:
通过所述源数据的识别模型对所述目标数据进行重新训练;
根据目标函数匹配出的标签对重新训练后的源数据的识别模型进行代价函数最小化以获得目标数据的识别模型。
具体的在本实施例中,将目标数据x(t)在已经训练好堆叠去噪自编码机分类器上进行重训,本实施例中,重训的核心是保留已经训练好的网络权值,并在此基础上进一步训练,最小化如下代价函数:
式中,Y(t)——目标数据的数据标签;
Y(sup)——第sup个DA的隐藏层输出。
且Y(sup)满足如下关系式:
综上,本实施例的方法主要包括三个步骤,如图4所示,分别为:源数据识别模型的建立、源数据与目标数据的匹配,目标数据识别模型的建立。首先对源数据和对应标签进行堆叠去噪自编码机网络模型的训练,然后在此基础上,将源数据和目标数据进行匹配,在此基础上对源数据识别网络模型进行微调,最终目标数据识别的功能。
本发明克服了环境声音识别问题中存在的音频数量巨大、声音信号复杂等困难,更有效、快速的进行识别,提高环境声音识别的准确率。
本发明在采用堆叠去噪自编码机的基础上,通过迁移学习理论的指导,实现在搭建已有源数据识别网络的基础上,将未知的目标数据与源数据进行匹配,再通过在已有源数据识别网络上进行微调得到目标数据的识别网络,最终实现目标数据识别的目的。这一过程简化了传统方法处理未知数据常用的网络重新训练的方法,是一种针对环境声音识别任务简洁、有效的方法。
本发明提出的基于迁移学习的环境声音识别方法具有高效、简洁、识别性能高等特点,是适合环境声音识别问题的高效、准确方法。
第二方面,本发明实施例提供一种环境声音识别装置,所述装置包括:
模型建立模块,用于基于堆叠去噪自编码机,建立源数据的识别模型;
数据匹配模块,用于基于所述源数据的识别模型,对目标数据与所述源数据进行匹配;
所述模型建立模块,还用于根据匹配结果建立目标数据的识别模型。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如前述的方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (8)
1.一种环境声音识别方法,其特征在于,所述方法包括,
基于堆叠去噪自编码机建立源数据的识别模型;
基于所述源数据的识别模型将目标数据与所述源数据进行匹配;
根据匹配结果建立目标数据的识别模型。
2.如权利要求1所述的方法,其特征在于,所述基于堆叠去噪自编码机,建立源数据的识别模型,包括:
通过堆叠去噪自编码机对源数据进行训练,建立关于源数据的特征表示模型;
根据所述特征表示模型,通过最小化无监督代价函数,确定所述去噪自编码机的网络参数;
根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化。
3.如权利要求2所述的方法,其特征在于,根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化之前,所述方法还包括:
多次堆叠去噪自编码机,并在最后一个去噪自编码机的隐藏层加入一层Softmax神经单元以获得分类的堆叠去噪自编码机。
4.如权利要求3所述的方法,其特征在于,在根据所述网络参数对基于分类的堆叠去噪自编码机进行网络初始化之后,所述方法还包括:
重新确定有监督的代价函数以完成源数据的识别模型的建立。
5.如权利要求4所述的方法,其特征在于,基于所述源数据的识别模型,对目标数据与所述源数据进行匹配,包括:
将目标数据在所建立的源数据的识别模型上进行计算;
根据计算结果确定匹配直方图;
根据所述直方图确定目标数据在堆叠去噪自编码机网络上对应的标签。
6.如权利要求5所述的方法,其特征在于,根据匹配结果建立目标数据的识别模型,包括:
通过所述源数据的识别模型对所述目标数据进行重新训练;
根据目标函数匹配出的标签对重新训练后的源数据的识别模型进行代价函数最小化以获得目标数据的识别模型。
7.一种环境声音识别装置,其特征在于,所述装置包括:
模型建立模块,用于基于堆叠去噪自编码机,建立源数据的识别模型;
数据匹配模块,用于基于所述源数据的识别模型,对目标数据与所述源数据进行匹配;
所述模型建立模块,还用于根据匹配结果建立目标数据的识别模型。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911029386.8A CN110827854A (zh) | 2019-10-28 | 2019-10-28 | 一种环境声音识别方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911029386.8A CN110827854A (zh) | 2019-10-28 | 2019-10-28 | 一种环境声音识别方法、装置及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110827854A true CN110827854A (zh) | 2020-02-21 |
Family
ID=69550692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911029386.8A Pending CN110827854A (zh) | 2019-10-28 | 2019-10-28 | 一种环境声音识别方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827854A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN110024030A (zh) * | 2016-09-30 | 2019-07-16 | 杜比实验室特许公司 | 情境感知听力优化引擎 |
-
2019
- 2019-10-28 CN CN201911029386.8A patent/CN110827854A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110024030A (zh) * | 2016-09-30 | 2019-07-16 | 杜比实验室特许公司 | 情境感知听力优化引擎 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
史秋莹: ""基于深度学习和迁移学习的环境声音识别"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273502B (zh) | 一种基于空间认知学习的图像地理标注方法 | |
CN112232241B (zh) | 一种行人重识别方法、装置、电子设备和可读存储介质 | |
WO2014136316A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN103514170B (zh) | 一种语音识别的文本分类方法和装置 | |
CN110210468B (zh) | 一种基于卷积神经网络特征融合迁移的文字识别方法 | |
WO2020164278A1 (zh) | 一种图像处理方法、装置、电子设备和可读存储介质 | |
CN112580436B (zh) | 一种基于黎曼流形坐标对齐的脑电信号域适应方法 | |
CN111241992B (zh) | 人脸识别模型构建方法、识别方法、装置、设备及存储介质 | |
JP2019211913A (ja) | 特徴量抽出装置、方法、及びプログラム | |
WO2022127814A1 (zh) | 一种图像的显著性物体检测方法、装置、设备及存储介质 | |
CN114625858A (zh) | 一种基于神经网络的政务问答智能回复方法及装置 | |
CN107403618B (zh) | 基于堆叠基稀疏表示的音频事件分类方法及计算机设备 | |
CN115563327A (zh) | 基于Transformer网络选择性蒸馏的零样本跨模态检索方法 | |
CN109637529A (zh) | 基于语音的功能定位方法、装置、计算机设备及存储介质 | |
CN111798828A (zh) | 合成音频检测方法、系统、移动终端及存储介质 | |
CN113642714B (zh) | 基于小样本学习的绝缘子污秽放电状态识别方法及系统 | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN113342935A (zh) | 语义识别方法、装置、电子设备及可读存储介质 | |
CN110827854A (zh) | 一种环境声音识别方法、装置及可读存储介质 | |
CN114722822B (zh) | 命名实体识别方法、装置、设备和计算机可读存储介质 | |
CN113516209B (zh) | 一种用于少样本意图识别的对比任务适应学习方法 | |
CN111462760B (zh) | 声纹识别系统、方法、装置及电子设备 | |
CN114155554A (zh) | 一种基于Transformer的相机域适应行人重识别方法 | |
CN108256572B (zh) | 一种基于改进朴素贝叶斯的室内视觉特征分类方法 | |
CN113704479B (zh) | 无监督的文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |