CN109949827A

CN109949827A - 一种基于深度学习与强化学习的室内声学行为识别方法

Info

Publication number: CN109949827A
Application number: CN201910199994.7A
Authority: CN
Inventors: 黄继风; 刘明; 茅红伟; 陈海光; 陈军华
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University; University of Shanghai for Science and Technology
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-28

Abstract

本发明一种基于深度学习与强化学习的室内声学行为识别方法，涉及室内声学行为识别技术领域。本发明包括A通过终端声音传感器实时获取室内原始声音数据，并将其转换成不包含隐私的特征数据；B将特征数据中包含的用户行为作为标签和特征数据，输入到深度强化学习网络中训练；C在训练过程中，每次提供一定批次的特征数据给深度强化学习网络，并由深度强化学习网络进行预测，根据其预测结果，动态决定下一批次所提供的各分类特征数据的比例及回报值R的值；D根据深度强化学习网络对上一批次的各个分类进行预测的错误率，决定是否停止训练等步骤。本发明在只使用不平衡数据集作训练深度强化学习网络的情况下，极大提高深度强化学习网络预测准确率。

Description

一种基于深度学习与强化学习的室内声学行为识别方法

技术领域

本发明涉及室内声学行为识别技术领域，具体指一种基于深度学习与强化学习的室内声学行为识别方法。

背景技术

为了实时识别室内环境下的用户行为，使智能家居等应用更好的服务用户，促进了基于声学行为识别的发展。现有技术通常采用深度学习方法在原始声音数据上进行训练。由于现有用于训练的数据样本中存在类别不平衡的问题，部分行为类别下的样本数目远小于其他类别下的样本数目。因此，目前针对声学分类的各种深度学习算法都没有很好的解决类别不平衡的声学分类的问题，导致声学分类更多的倾向于学习大类样本的特征，而忽略了小类样本，然而小样本中通常包含着很多重要信息，而且对小类别的样本的识别准确率与对大样本的识别准确率同样重要。

其中，类别不平衡问题是是机器学习领域中的一个常见的问题，具体表现为：数据集中的属于一个分类或几个分类的样本数量，远低于属于其他分类的样本的数量。例如在贷款申请的数据集中，绝大多数的用户都是守信的，只有极小比例的用户的行为会被判定诈骗，各个分类的比例是不平衡的。如果不去对数据集本身或者算法策略进行相应的改进，直接进行分类训练，会导致对具有少数样本的分类产生较差的预测结果，甚至有可能会被当作噪声而忽略，从而导致分类结果的严重偏差。基于此，如何改进数据集或算法来应对类别不平衡的情况，并从中得到理想中的结果，就成为需要深入研究的问题。对于分类不平衡问题，目前有两种主流的优化思想：(1)改变数据集的原始分布，对多数类样本进行降采样，或对少数类样本进行过采样，或二者结合，使得数据集不同类别之间的数量尽量均衡；(2)优化分类器模型，如在训练的过程中，对少数类样本的权重进行提升，使其得到充分重视。许多研究和实验都表明两种方法对分类结果的准确性皆有良好提升。

发明内容

本发明的目的在于提供一种基于深度学习与强化学习的室内声学行为识别方法，以解决传统的深度学习网络在针对不平衡数据集进行声学行为分类时，存在对于小类别样本分类效果差的问题。

一种基于深度学习与强化学习的室内声学行为识别方法，包括如下步骤：

A.通过终端声音传感器实时获取室内原始声音数据，并将其转换成不包含隐私的特征数据。

进一步，

A1.将原始声音数据输入到经基于深度学习方法预训练的、不可逆式特征提取VGGish模型，以秒为单位，将原始声音数据转换为特征数据；

A2.丢弃原始声音数据，保存特征数据在本地。

B.将特征数据中包含的用户行为作为标签和特征数据，两者同时输入到深度强化学习网络中训练。

所述B步骤中用于训练深度强化学习网络Deep Q Learning包括：自定义环境Environment，以特征数据批次作为状态State、以预测结果作为行动Action。

进一步，

所述深度强化学习网络，基于CNN与RNN结合的方法，包括构建数据输入层、卷积层、Batch Normalization层、LSTM层、全连接层以及Attention Model层，

其中，

所述数据输入层，用于接收特征数据；

所述卷积层，用于提取特征数据中的特征；

所述Batch Normalization层，用于对特征数据进行规范化处理；

所述LSTM层，用于提取出特征数据的时序关系；

所述全连接层，用于对特征数据进行线性变换；

所述Attention Model层，用于以多标签分类的形式计算预测类别和标签类别的误差。

C.在训练过程中，每次提供一定批次的特征数据给深度强化学习网络，并由深度强化学习网络进行预测，根据其预测结果，动态决定下一批次所提供的各分类特征数据的比例及回报值R的值。

进一步，

C1.在第一次将特征数据及其标签输入到深度强化学习网络中时，将各个分类的特征数据以相同的比例作为当前的输入批次；

C2.在使用特征数据对深度强化学习网络进行训练的过程中，根据深度强化学习网络对环境提供的上一批次的数据的预测的结果，计算出其对各个行为分类的预测的错误率，并将回报值R设置为其对各行为分类的预测错误率的平均值的负值。

D.根据深度强化学习网络对上一批次的各个分类进行预测的错误率，决定是否停止训练。

进一步，

D1.如不停止训练，则决定下一批次提供的特征数据的分类的比例，该比例与深度强化学习网络对上一批次特征数据的各个分类的预测的错误率成正比；

D2.如深度强化学习网络对某分类的错误率比高对其他分类都高，则下一批次提供更多该类数据。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明将用户的声学特征数据作为状态，将各分类的错误率的平均值作为奖励值，采用基于深度学习与强化学习的用户行为检测方法对用户的声学行为数据进行识别，能充分地解决数据的类别不平衡问题，能提高声学行为识别的准确度。本发明利用强化学习的优势，动态地改变数据集的分布，解决了数据分类不平衡的问题。本发明采用改变数据集的原始分布，利用强化学习的动态优化分布优势，根据当前批次的预测效果，动态地改变下一批次的数据分布，提高分类器准确率。

附图说明

图1为本发明一种基于深度学习与强化学习的室内声学行为识别方法流程框图；

图2为本发明实施例的模型训练的流程框图；

图3为本发明实施例的网络结构框图。

具体实施方式

以下结合附图和实施例对本发明作进一步描述

本发明一种基于深度学习与强化学习的室内声学行为识别方法(如图1所示)，包括如下步骤：

A.通过终端声音传感器(麦克风)实时获取室内原始声音数据，并将其转换成不包含隐私的特征数据。

进一步，

A1.将原始声音数据输入到经基于深度学习方法预训练的、不可逆式特征提取VGGish模型，每条特征数据的时间长度为10秒，每秒128维特征，输入格式为(10，128，1)。

A2.丢弃原始声音数据，保存特征数据在本地。

保证用户谈话内容等隐私不被存储，仅保留不可逆的特征数据用于进一步分析。

所述B步骤中用于训练深度强化学习网络深度强化学习方法Deep Q Learning的流程(如附图2所示)，包括：自定义环境Environment，以特征数据批次作为状态State、以预测结果作为行动Action。

进一步，

所述深度强化学习网络(如图3所示)，基于CNN与RNN结合的方法，包括构建数据输入层、卷积层、Batch Normalization层、LSTM层、全连接层以及Attention Model层。

其中，

所述数据输入层，用于接收特征数据。

所述卷积层，用于提取特征数据的特征。

所述Batch Normalization层，用于对特征数据进行规范化处理。

所述LSTM层，用于提取出特征数据的时序关系。

所述全连接层，用于对特征数据进行线性变换。

进一步，

获取输入后使用3层CNN网络提取特征数据，每个CNN网络使用BatchNormalization进行批正则化。

在CNN网络后使用LSTM提取时序相关的特征。

最终使用Attention Model来实现网络的多类别分类功能。

C.在训练过程中，每次提供一定批次的特征数据给深度强化学习网络，并使用深度强化学习网络进行预测，根据其预测结果，动态决定下一批次所提供的各分类特征数据的比例及回报值R的值。

进一步，

C1.在第一次将特征数据及其标签输入到深度强化学习网络中时，将各个分类的特征数据以相同的比例作为当前的输入批次。

进一步，

D1.如不停止训练，则决定下一批次提供的特征数据的分类的比例，该比例与深度强化学习网络对上一批次特征数据的各个分类的预测的错误率成正比。

实施例，批次的大小为50，共对5个分类进行预测，深度强化学习网络对上一批次错误率分别为[0.1，0.3，0.4，0.1，0.1]那么下一批次提供的各分类的数量则为50×[0.1，0.3，0.4，0.1，0.1]/(0.1+0.3+0.4+0.1+0.1)＝[5，15，20，5，5]。

如连续20个批次，各分类的分类错误率均低于2％，则停止训练。

综上所述，根据本发明提出的基于深度学习与强化学习的室内声学行为识别方法，使用预训练的深度学习模型，将用户信息转换为特征数据，并使用深度强化学习方法对行为分类进行预测。本发明在只使用不平衡数据集用作训练集来训练深度强化学习网络的情况下，能实现较好的分类效果，极大程度地提高了深度强化学习网络的预测准确率。

Claims

1.一种基于深度学习与强化学习的室内声学行为识别方法，其特征在于，包括如下步骤：

A.通过终端声音传感器实时获取室内原始声音数据，并将其转换成不包含隐私的特征数据；

B.将以特征数据中包含的用户行为作为标签和特征数据，两者同时输入到深度强化学习网络中训练；

C.在训练过程中，每次提供一定批次的特征数据给深度强化学习网络，并由深度强化学习网络进行预测，根据其预测结果，动态决定下一批次所提供的各分类特征数据的比例及回报值R的值；

2.如权利要求1所述的一种基于深度学习与强化学习的室内声学行为识别方法，其特征在于，所述A步骤还包括：

A2.丢弃原始声音数据，保存特征数据在本地。

3.如权利要求1所述的一种基于深度学习与强化学习的室内声学行为识别方法，其特征在于，所述B步骤中用于训练深度强化学习网络Deep Q Learning包括：自定义环境Environment，以特征数据批次作为状态State、以预测结果作为行动Action。

4.如权利要求3所述的一种基于深度学习与强化学习的室内声学行为识别方法，其特征在于，所述深度强化学习网络，基于CNN与RNN结合的方法，包括构建数据输入层、卷积层、Batch Normalization层、LSTM层、全连接层以及Attention Model层，

其中，

所述数据输入层，用于接收特征数据；

所述卷积层，用于提取特征数据的特征；

所述Batch Normalization层，用于对特征数据进行规范化处理；

所述LSTM层，用于提取出特征数据的时序关系；

所述全连接层，用于对特征数据进行线性变换；

5.如权利要求1所述的一种基于深度学习与强化学习的室内声学行为识别方法，其特征在于，所述C步骤还包括：

6.如权利要求1所述的一种基于深度学习与强化学习的室内声学行为识别方法，其特征在于，所述D步骤还包括：