CN109949827A - 一种基于深度学习与强化学习的室内声学行为识别方法 - Google Patents
一种基于深度学习与强化学习的室内声学行为识别方法 Download PDFInfo
- Publication number
- CN109949827A CN109949827A CN201910199994.7A CN201910199994A CN109949827A CN 109949827 A CN109949827 A CN 109949827A CN 201910199994 A CN201910199994 A CN 201910199994A CN 109949827 A CN109949827 A CN 109949827A
- Authority
- CN
- China
- Prior art keywords
- characteristic
- learning
- deeply
- batch
- learning network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明一种基于深度学习与强化学习的室内声学行为识别方法,涉及室内声学行为识别技术领域。本发明包括A通过终端声音传感器实时获取室内原始声音数据,并将其转换成不包含隐私的特征数据;B将特征数据中包含的用户行为作为标签和特征数据,输入到深度强化学习网络中训练;C在训练过程中,每次提供一定批次的特征数据给深度强化学习网络,并由深度强化学习网络进行预测,根据其预测结果,动态决定下一批次所提供的各分类特征数据的比例及回报值R的值;D根据深度强化学习网络对上一批次的各个分类进行预测的错误率,决定是否停止训练等步骤。本发明在只使用不平衡数据集作训练深度强化学习网络的情况下,极大提高深度强化学习网络预测准确率。
Description
技术领域
本发明涉及室内声学行为识别技术领域,具体指一种基于深度学习与强化学习的室内声学行为识别方法。
背景技术
为了实时识别室内环境下的用户行为,使智能家居等应用更好的服务用户,促进了基于声学行为识别的发展。现有技术通常采用深度学习方法在原始声音数据上进行训练。由于现有用于训练的数据样本中存在类别不平衡的问题,部分行为类别下的样本数目远小于其他类别下的样本数目。因此,目前针对声学分类的各种深度学习算法都没有很好的解决类别不平衡的声学分类的问题,导致声学分类更多的倾向于学习大类样本的特征,而忽略了小类样本,然而小样本中通常包含着很多重要信息,而且对小类别的样本的识别准确率与对大样本的识别准确率同样重要。
其中,类别不平衡问题是是机器学习领域中的一个常见的问题,具体表现为:数据集中的属于一个分类或几个分类的样本数量,远低于属于其他分类的样本的数量。例如在贷款申请的数据集中,绝大多数的用户都是守信的,只有极小比例的用户的行为会被判定诈骗,各个分类的比例是不平衡的。如果不去对数据集本身或者算法策略进行相应的改进,直接进行分类训练,会导致对具有少数样本的分类产生较差的预测结果,甚至有可能会被当作噪声而忽略,从而导致分类结果的严重偏差。基于此,如何改进数据集或算法来应对类别不平衡的情况,并从中得到理想中的结果,就成为需要深入研究的问题。对于分类不平衡问题,目前有两种主流的优化思想:(1)改变数据集的原始分布,对多数类样本进行降采样,或对少数类样本进行过采样,或二者结合,使得数据集不同类别之间的数量尽量均衡;(2)优化分类器模型,如在训练的过程中,对少数类样本的权重进行提升,使其得到充分重视。许多研究和实验都表明两种方法对分类结果的准确性皆有良好提升。
发明内容
本发明的目的在于提供一种基于深度学习与强化学习的室内声学行为识别方法,以解决传统的深度学习网络在针对不平衡数据集进行声学行为分类时,存在对于小类别样本分类效果差的问题。
一种基于深度学习与强化学习的室内声学行为识别方法,包括如下步骤:
A.通过终端声音传感器实时获取室内原始声音数据,并将其转换成不包含隐私的特征数据。
进一步,
A1.将原始声音数据输入到经基于深度学习方法预训练的、不可逆式特征提取VGGish模型,以秒为单位,将原始声音数据转换为特征数据;
A2.丢弃原始声音数据,保存特征数据在本地。
B.将特征数据中包含的用户行为作为标签和特征数据,两者同时输入到深度强化学习网络中训练。
所述B步骤中用于训练深度强化学习网络Deep Q Learning包括:自定义环境Environment,以特征数据批次作为状态State、以预测结果作为行动Action。
进一步,
所述深度强化学习网络,基于CNN与RNN结合的方法,包括构建数据输入层、卷积层、Batch Normalization层、LSTM层、全连接层以及Attention Model层,
其中,
所述数据输入层,用于接收特征数据;
所述卷积层,用于提取特征数据中的特征;
所述Batch Normalization层,用于对特征数据进行规范化处理;
所述LSTM层,用于提取出特征数据的时序关系;
所述全连接层,用于对特征数据进行线性变换;
所述Attention Model层,用于以多标签分类的形式计算预测类别和标签类别的误差。
C.在训练过程中,每次提供一定批次的特征数据给深度强化学习网络,并由深度强化学习网络进行预测,根据其预测结果,动态决定下一批次所提供的各分类特征数据的比例及回报值R的值。
进一步,
C1.在第一次将特征数据及其标签输入到深度强化学习网络中时,将各个分类的特征数据以相同的比例作为当前的输入批次;
C2.在使用特征数据对深度强化学习网络进行训练的过程中,根据深度强化学习网络对环境提供的上一批次的数据的预测的结果,计算出其对各个行为分类的预测的错误率,并将回报值R设置为其对各行为分类的预测错误率的平均值的负值。
D.根据深度强化学习网络对上一批次的各个分类进行预测的错误率,决定是否停止训练。
进一步,
D1.如不停止训练,则决定下一批次提供的特征数据的分类的比例,该比例与深度强化学习网络对上一批次特征数据的各个分类的预测的错误率成正比;
D2.如深度强化学习网络对某分类的错误率比高对其他分类都高,则下一批次提供更多该类数据。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明将用户的声学特征数据作为状态,将各分类的错误率的平均值作为奖励值,采用基于深度学习与强化学习的用户行为检测方法对用户的声学行为数据进行识别,能充分地解决数据的类别不平衡问题,能提高声学行为识别的准确度。本发明利用强化学习的优势,动态地改变数据集的分布,解决了数据分类不平衡的问题。本发明采用改变数据集的原始分布,利用强化学习的动态优化分布优势,根据当前批次的预测效果,动态地改变下一批次的数据分布,提高分类器准确率。
附图说明
图1为本发明一种基于深度学习与强化学习的室内声学行为识别方法流程框图;
图2为本发明实施例的模型训练的流程框图;
图3为本发明实施例的网络结构框图。
具体实施方式
以下结合附图和实施例对本发明作进一步描述
本发明一种基于深度学习与强化学习的室内声学行为识别方法(如图1所示),包括如下步骤:
A.通过终端声音传感器(麦克风)实时获取室内原始声音数据,并将其转换成不包含隐私的特征数据。
进一步,
A1.将原始声音数据输入到经基于深度学习方法预训练的、不可逆式特征提取VGGish模型,每条特征数据的时间长度为10秒,每秒128维特征,输入格式为(10,128,1)。
A2.丢弃原始声音数据,保存特征数据在本地。
保证用户谈话内容等隐私不被存储,仅保留不可逆的特征数据用于进一步分析。
B.将特征数据中包含的用户行为作为标签和特征数据,两者同时输入到深度强化学习网络中训练。
所述B步骤中用于训练深度强化学习网络深度强化学习方法Deep Q Learning的流程(如附图2所示),包括:自定义环境Environment,以特征数据批次作为状态State、以预测结果作为行动Action。
进一步,
所述深度强化学习网络(如图3所示),基于CNN与RNN结合的方法,包括构建数据输入层、卷积层、Batch Normalization层、LSTM层、全连接层以及Attention Model层。
其中,
所述数据输入层,用于接收特征数据。
所述卷积层,用于提取特征数据的特征。
所述Batch Normalization层,用于对特征数据进行规范化处理。
所述LSTM层,用于提取出特征数据的时序关系。
所述全连接层,用于对特征数据进行线性变换。
所述Attention Model层,用于以多标签分类的形式计算预测类别和标签类别的误差。
进一步,
获取输入后使用3层CNN网络提取特征数据,每个CNN网络使用BatchNormalization进行批正则化。
在CNN网络后使用LSTM提取时序相关的特征。
最终使用Attention Model来实现网络的多类别分类功能。
C.在训练过程中,每次提供一定批次的特征数据给深度强化学习网络,并使用深度强化学习网络进行预测,根据其预测结果,动态决定下一批次所提供的各分类特征数据的比例及回报值R的值。
进一步,
C1.在第一次将特征数据及其标签输入到深度强化学习网络中时,将各个分类的特征数据以相同的比例作为当前的输入批次。
C2.在使用特征数据对深度强化学习网络进行训练的过程中,根据深度强化学习网络对环境提供的上一批次的数据的预测的结果,计算出其对各个行为分类的预测的错误率,并将回报值R设置为其对各行为分类的预测错误率的平均值的负值。
D.根据深度强化学习网络对上一批次的各个分类进行预测的错误率,决定是否停止训练。
进一步,
D1.如不停止训练,则决定下一批次提供的特征数据的分类的比例,该比例与深度强化学习网络对上一批次特征数据的各个分类的预测的错误率成正比。
D2.如深度强化学习网络对某分类的错误率比高对其他分类都高,则下一批次提供更多该类数据。
实施例,批次的大小为50,共对5个分类进行预测,深度强化学习网络对上一批次错误率分别为[0.1,0.3,0.4,0.1,0.1]那么下一批次提供的各分类的数量则为50×[0.1,0.3,0.4,0.1,0.1]/(0.1+0.3+0.4+0.1+0.1)=[5,15,20,5,5]。
如连续20个批次,各分类的分类错误率均低于2%,则停止训练。
综上所述,根据本发明提出的基于深度学习与强化学习的室内声学行为识别方法,使用预训练的深度学习模型,将用户信息转换为特征数据,并使用深度强化学习方法对行为分类进行预测。本发明在只使用不平衡数据集用作训练集来训练深度强化学习网络的情况下,能实现较好的分类效果,极大程度地提高了深度强化学习网络的预测准确率。
Claims (6)
1.一种基于深度学习与强化学习的室内声学行为识别方法,其特征在于,包括如下步骤:
A.通过终端声音传感器实时获取室内原始声音数据,并将其转换成不包含隐私的特征数据;
B.将以特征数据中包含的用户行为作为标签和特征数据,两者同时输入到深度强化学习网络中训练;
C.在训练过程中,每次提供一定批次的特征数据给深度强化学习网络,并由深度强化学习网络进行预测,根据其预测结果,动态决定下一批次所提供的各分类特征数据的比例及回报值R的值;
D.根据深度强化学习网络对上一批次的各个分类进行预测的错误率,决定是否停止训练。
2.如权利要求1所述的一种基于深度学习与强化学习的室内声学行为识别方法,其特征在于,所述A步骤还包括:
A1.将原始声音数据输入到经基于深度学习方法预训练的、不可逆式特征提取VGGish模型,以秒为单位,将原始声音数据转换为特征数据;
A2.丢弃原始声音数据,保存特征数据在本地。
3.如权利要求1所述的一种基于深度学习与强化学习的室内声学行为识别方法,其特征在于,所述B步骤中用于训练深度强化学习网络Deep Q Learning包括:自定义环境Environment,以特征数据批次作为状态State、以预测结果作为行动Action。
4.如权利要求3所述的一种基于深度学习与强化学习的室内声学行为识别方法,其特征在于,所述深度强化学习网络,基于CNN与RNN结合的方法,包括构建数据输入层、卷积层、Batch Normalization层、LSTM层、全连接层以及Attention Model层,
其中,
所述数据输入层,用于接收特征数据;
所述卷积层,用于提取特征数据的特征;
所述Batch Normalization层,用于对特征数据进行规范化处理;
所述LSTM层,用于提取出特征数据的时序关系;
所述全连接层,用于对特征数据进行线性变换;
所述Attention Model层,用于以多标签分类的形式计算预测类别和标签类别的误差。
5.如权利要求1所述的一种基于深度学习与强化学习的室内声学行为识别方法,其特征在于,所述C步骤还包括:
C1.在第一次将特征数据及其标签输入到深度强化学习网络中时,将各个分类的特征数据以相同的比例作为当前的输入批次;
C2.在使用特征数据对深度强化学习网络进行训练的过程中,根据深度强化学习网络对环境提供的上一批次的数据的预测的结果,计算出其对各个行为分类的预测的错误率,并将回报值R设置为其对各行为分类的预测错误率的平均值的负值。
6.如权利要求1所述的一种基于深度学习与强化学习的室内声学行为识别方法,其特征在于,所述D步骤还包括:
D1.如不停止训练,则决定下一批次提供的特征数据的分类的比例,该比例与深度强化学习网络对上一批次特征数据的各个分类的预测的错误率成正比;
D2.如深度强化学习网络对某分类的错误率比高对其他分类都高,则下一批次提供更多该类数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199994.7A CN109949827A (zh) | 2019-03-15 | 2019-03-15 | 一种基于深度学习与强化学习的室内声学行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199994.7A CN109949827A (zh) | 2019-03-15 | 2019-03-15 | 一种基于深度学习与强化学习的室内声学行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109949827A true CN109949827A (zh) | 2019-06-28 |
Family
ID=67009982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910199994.7A Pending CN109949827A (zh) | 2019-03-15 | 2019-03-15 | 一种基于深度学习与强化学习的室内声学行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109949827A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516599A (zh) * | 2019-08-27 | 2019-11-29 | 中国科学院自动化研究所 | 基于渐进式关系学习的群体行为识别模型及其训练方法 |
CN111782905A (zh) * | 2020-06-29 | 2020-10-16 | 中国工商银行股份有限公司 | 一种数据组包方法和装置、终端设备和可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255934A (zh) * | 2017-12-07 | 2018-07-06 | 北京奇艺世纪科技有限公司 | 一种语音控制方法及装置 |
CN108363690A (zh) * | 2018-02-08 | 2018-08-03 | 北京十三科技有限公司 | 基于神经网络的对话语义意图预测方法及学习训练方法 |
CN108985342A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种基于深度增强学习的不平衡分类方法 |
CN109065069A (zh) * | 2018-10-10 | 2018-12-21 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN109146082A (zh) * | 2017-06-27 | 2019-01-04 | 发那科株式会社 | 机器学习装置、机器人控制系统和机器学习方法 |
CN109189950A (zh) * | 2018-09-03 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
US20190050875A1 (en) * | 2017-06-22 | 2019-02-14 | NewVoiceMedia Ltd. | Customer interaction and experience system using emotional-semantic computing |
CN109461001A (zh) * | 2018-10-22 | 2019-03-12 | 阿里巴巴集团控股有限公司 | 基于第二模型获取第一模型的训练样本的方法和装置 |
CN110633688A (zh) * | 2019-09-23 | 2019-12-31 | 中国科学技术大学 | 翻译模型的训练方法及装置和手语视频翻译方法及装置 |
-
2019
- 2019-03-15 CN CN201910199994.7A patent/CN109949827A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190050875A1 (en) * | 2017-06-22 | 2019-02-14 | NewVoiceMedia Ltd. | Customer interaction and experience system using emotional-semantic computing |
CN109146082A (zh) * | 2017-06-27 | 2019-01-04 | 发那科株式会社 | 机器学习装置、机器人控制系统和机器学习方法 |
CN108255934A (zh) * | 2017-12-07 | 2018-07-06 | 北京奇艺世纪科技有限公司 | 一种语音控制方法及装置 |
CN108363690A (zh) * | 2018-02-08 | 2018-08-03 | 北京十三科技有限公司 | 基于神经网络的对话语义意图预测方法及学习训练方法 |
CN108985342A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种基于深度增强学习的不平衡分类方法 |
CN109189950A (zh) * | 2018-09-03 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN109065069A (zh) * | 2018-10-10 | 2018-12-21 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN109461001A (zh) * | 2018-10-22 | 2019-03-12 | 阿里巴巴集团控股有限公司 | 基于第二模型获取第一模型的训练样本的方法和装置 |
CN110633688A (zh) * | 2019-09-23 | 2019-12-31 | 中国科学技术大学 | 翻译模型的训练方法及装置和手语视频翻译方法及装置 |
Non-Patent Citations (4)
Title |
---|
JIANFENG CHEN ET AL.: "An Automatic Acoustic Bathroom Monitoring System", 《2005 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS》 * |
TAKU KATO ET AL.: "REINFORCEMENT LEARNING OF SPEECH RECOGNITION SYSTEM BASED ON POLICY GRADIENT AND HYPOTHESIS SELECTION", 《ICASSP 2018》 * |
刘全等: "一种基于视觉注意力机制的深度循环Q网络模型", 《计算机学报》 * |
刘全等: "深度强化学习综述", 《计算机学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516599A (zh) * | 2019-08-27 | 2019-11-29 | 中国科学院自动化研究所 | 基于渐进式关系学习的群体行为识别模型及其训练方法 |
CN111782905A (zh) * | 2020-06-29 | 2020-10-16 | 中国工商银行股份有限公司 | 一种数据组包方法和装置、终端设备和可读存储介质 |
CN111782905B (zh) * | 2020-06-29 | 2024-02-09 | 中国工商银行股份有限公司 | 一种数据组包方法和装置、终端设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN107563385B (zh) | 基于深度卷积生成式对抗网络的车牌字符识别方法 | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN109816092A (zh) | 深度神经网络训练方法、装置、电子设备及存储介质 | |
CN110598620B (zh) | 基于深度神经网络模型的推荐方法和装置 | |
CN107203775B (zh) | 一种图像分类的方法、装置和设备 | |
CN110781829A (zh) | 一种轻量级深度学习的智慧营业厅人脸识别方法 | |
CN108717663A (zh) | 基于微表情的面签欺诈判断方法、装置、设备及介质 | |
CN105956570B (zh) | 基于唇部特征和深度学习的笑脸识别方法 | |
CN111723666B (zh) | 一种基于半监督学习的信号识别方法和装置 | |
CN111461025A (zh) | 一种自主进化的零样本学习的信号识别方法 | |
CN107480723B (zh) | 基于局部二进制阈值学习网络的纹理识别方法 | |
CN105549885A (zh) | 滑屏操控中用户情绪的识别方法和装置 | |
WO2021129236A1 (zh) | 一种采用一维卷积神经网络的声学垃圾分类方法 | |
CN109949827A (zh) | 一种基于深度学习与强化学习的室内声学行为识别方法 | |
CN111160959B (zh) | 一种用户点击转化预估方法及装置 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN114980122A (zh) | 一种小样本射频指纹智能识别系统与方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN112085164A (zh) | 一种基于无锚框网络的区域推荐网络提取方法 | |
CN104468276B (zh) | 基于随机抽样多分类器的网络流量识别方法 | |
CN109657710A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN115240647A (zh) | 声音事件检测方法、装置、电子设备及存储介质 | |
WO2022262141A1 (zh) | 人机回圈方法、装置、系统、电子设备和存储介质 | |
CN111898473B (zh) | 一种基于深度学习的司机状态实时监测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190628 |