CN110689040B

CN110689040B - 一种基于主播画像的声音分类方法

Info

Publication number: CN110689040B
Application number: CN201910765774.6A
Authority: CN
Inventors: 朱玉婷; 杜睿
Original assignee: Guangzhou Lizhi Network Technology Co ltd
Current assignee: Guangzhou Lizhi Network Technology Co ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-10-18
Anticipated expiration: 2039-08-19
Also published as: CN110689040A

Abstract

本发明提供一种基于主播画像的声音分类方法，包括如下步骤：构建主播画像系统，该画像系统用来描述主播历史行为，以及主播与音频内容之间的关系；音频类别分类，基于主播画像系统，采用深度学习算法，通过主播历史上传的节目及分类信息、主播上传频率，构建模型算法，完成音频类别分类；错误数据分类，对于分类错误的数据进行人工标记以及人工分类，并且将相关数据更新到主播画像系统中。本发明具备自我学习能力的，适合各大音频平台的音频分类方法，对于音频内容进行自动分类，实现对海量音频资源的快速处理，节省服务器资源。

Description

一种基于主播画像的声音分类方法

技术领域

本发明属于大数据领域，为AI人工智能方向，具体涉及一种基于主播画像的声音分类方法。

背景技术

随着信息化社会、AI以及5G的快速发展，人们通过各种渠道获取文字、视频、音频等信息越来越多。在移动互联网相关的应用中，音频占用非常重要的地位。而对于音频信息的各种处理中，音频类型的判断与分类是最重要的处理过程之一。

在现阶段互联网各大音频平台上，音频分类方法的技术方案一般为：首先，对于输入的语音信号进行预处理，剔除音频录入中噪音等问题；然后，对于音频内容进行相关特征提取。

上述音频分类方法，对于互联网相关的音频平台来说的不足之处在于：

一、由于移动互联网(互联网)相关音频平台，每天要处理海量音频数据，使用传统方式进行，会消耗大量计算资源及存储资源来进行音频特征的提取，以完成音频内容的分类；

二、特征与分类信息以及分类算法强依赖，音频的分类依据于规定好的类别完成分类，当产品需求发生改变，整体系统需要优化和升级可扩展性差；

三、音频分类不具备自我学习及自我增长性，新增类目均需要独立研发。

发明内容

为解决上述存在的不足之处，本发明提供一种基于主播画像的声音分类方法，本发明的具体方案如下：一种基于主播画像的声音分类方法，包括如下步骤：

构建主播画像系统，该画像系统用来描述主播历史行为，以及主播与音频内容之间的关系；

音频类别分类，基于主播画像系统，采用深度学习算法，通过主播历史上传的节目及分类信息、主播上传频率，构建模型算法，完成音频类别分类；

错误数据分类，对于分类错误的数据进行人工标记以及人工分类，并且将相关数据更新到主播画像系统中。产品以及用户通过反馈渠道，反馈给系统，对于分类错误的音频；系统自动将更新后的音频分类更新到主播画像，完成分类错误的矫正。

进一步，所述构建主播画像系统包括：

采集主播以及音频相关服务端操作日志；

基于采集到的日志，采用数据挖掘的算法，挖掘关键信息；

至少提取的关键信息为：主播上传音频的时间；主播上传音频时定义的分类。

将挖掘好的信息，根据主播的唯一标识，进行合并与聚类，形成主播画像系统。

进一步，基于主播画像系统，构建模型训练数据集合，测试集合每一条包含如下信息：主播相关唯一标识；音频内容的唯一标识；具体音频内容的上传时间；具体音频内容的分类.

进一步，按照如下步骤进行训练模型：步骤一，根据主播历史数据，生成主播特征向量；步骤二，通过朴素贝叶斯提取类别概率分布特征，通过长短期记忆网络提取时间序列波动规律；步骤三，模型预测；步骤四，模型迭代优化。

所述步骤一中算法中使用到两种特征向量：a、主播上传节目类型序列特征；b、主播上传节目类型概率分布特征。

生成主播上传节目类型序列特征向量和label的方式：

a.把用户上传的节目按照上传时间排序，生成上传节目时间序列；

b.设置时间序列窗口长度k，k作为模型超参，k根据序列长度和模型训练验证集精确度调整；

c.根据时间窗把上传节目类别时间序列生成模型训练特征数据。

序列数据转化为特征向量方式如下：

Ti为该主播第i个节目上传时的时间点，Xi为该主播第i个节目，L(Xi)为节目Xi的类别

序列数据：

特征数据：

Feature1	Feature2	…	Featurek	label
					L(X1)	L(X2)	…	L(Xk+1)	L(Xk+2)
L(X2)	L(X3)	…	L(Xk+2)	L(Xk+3)

生成节目类别概率分布特征和label的方式：

针对每个主播上传节目序列的每个时间点，统计该时间点前该主播上传的每个类别的节目的频率，label为该时间点对应的上传节目的类别；

主播上传节目序列生成节目概率特征的格式：

Feature1	Feature2	…	Featurek	label
					N1/S	N2/S	…	Nk/S	O(X1)

Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量。S为节目x上传的时间点之前主播上传节目总数量；O(Xi)为Xi的类别的onehot编码。

模型训练方法：

2.1、所有由时间序列生成的训练数据平均分为两组，第一组为lstm模型训练数据，第二组为DNN模型训练数据，使用第一组数据训练lstm模型；

2.2、lstm模型训练方法：训练lstm时把序列数据转化为序列特征向量，对于每条训练数据序列，向网络逐条输入序列中的每条特征向量，网络最终把数据序列映射为一个二维特征向量，二维特征向量经softmax函数映射为每个节目类别的概率分布，把概率分布与真实概率分布对比，通过损失函数计算损失，把损失反向传播迭代更新参数；

2.3、使用第二组训练数据训练DNN模型；对于每条训练数据，生成类别概率分布特征和序列特征，把类别概率分布特征输入贝叶斯模型，贝叶斯模型使用的数据为第一组训练数据；把序列特征输入2.2中训练的lstm模型；拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码；使用拼接特征作为新特征，训练dnn模型。

Stacking公式如下：

D1＝{xi,yi},i＝[1,m]

i＝{h1(t1(xi)),h2(t2(xi))}

h3(′i)

t1(xi)为数据xi的概率分布特征向量，t2(xi)为数据xi的序列特征向量；h1为贝叶斯算法，h2为lstm,h3为dnn。

模型预测方法，

3.1.使用所有历史数据生成贝叶斯模型；计算当前主播上传节目概率分布向量；通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布。

3.2.使用最近k个时间点数据生成时间序列特征向量；输入2.2中训练的lstm，得到下一个节目的类别概率分布。

3.3.使用2中相同的顺序拼接贝叶斯模型和lstm模型输出结果的特征向量，把拼接的特征向量输入2.2中训练的dnn模型，最终输出的onehot编码为模型预测类别的概率分布，概率最高的类别为模型预测下一个音频的类别。

模型迭代优化：

对于每个主播，取全量该主播历史上传节目数据，字段包括上传节目时间和节目类别。生成该主播节目概率分布特征和主播节目序列特征。使用全量数据训练lstm和dnn模型；

主播上传新节目时，人工对节目分类，当发现人工分类与模型分类不同，把该数据作为错误样本存入数据库；定时使用数据库中的错误样本微调模型，模型的错误率低于阈值后，可以省去人工分类，把模型自动化使用。

本发明的有益效果：具备自我学习能力的，适合各大音频平台的音频分类方法，对于音频内容进行自动分类，实现对海量音频资源的快速处理，节省服务器资源。

解决了从音频生产者角度，短期内不会更改自己擅长的音频方向，如擅长脱口秀的音频生产者，短期内并不会大量做新闻类音频的技术问题。

附图说明

图1是根据一示例性实施例示出的一种基于主播画像的声音分类方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于主播画像的声音分类方法的流程图；如图1所示，

一种基于主播画像的声音分类方法，包括如下步骤：

A:构建主播画像系统，该画像系统用来描述主播历史行为，以及主播与音频内容之间的关系；

B:音频类别分类，基于主播画像系统，采用深度学习算法，通过主播历史上传的节目及分类信息、主播上传频率，构建模型算法，完成音频类别分类；

C:错误数据分类，对于分类错误的数据进行人工标记以及人工分类，并且将相关数据更新到主播画像系统中。

其中，步骤A具体包括：

A1：采集主播以及音频相关服务端操作日志；

A2：基于采集到的日志，采用数据挖掘的算法，至少挖掘如下关键信息：

(1)：主播上传音频的时间；

(2)：主播上传音频时定义的分类；

A3：将挖掘好的信息，根据主播的唯一标识，进行合并与聚类，形成主播相关画像。

其中，步骤B具体内容包括：

B1：基于主播画像系统，构建模型训练数据集合，测试集合每一条包含如下信息：(1)：主播相关唯一标识；(2)：音频内容的唯一标识；(3)：具体音频内容的上传时间；(4)：具体音频内容的分类；

B2：按照如下方法训练模型：

1.根据主播历史数据，生成主播特征向量。算法中使用到两种特征向量：

a.主播上传节目类型序列特征

b.主播上传节目类型概率分布特征。

生成主播上传节目类型序列特征向量和label的方式：

a.把用户上传的节目按照上传时间排序，生成上传节目时间序列。

b.设置时间序列窗口长度k，k作为模型超参。k根据序列长度和模型训练验证集精确度调整。

c.根据时间窗把上传节目类别时间序列生成模型训练特征数据，序列数据转化为特征向量方式如下：

序列数据：

特征数据：

生成节目类别概率分布特征和label的方式：

针对每个主播上传节目序列的每个时间点，统计该时间点前该主播上传的每个类

别的节目的频率，label为该时间点对应的上传节目的类别.

主播上传节目序列生成节目概率特征的格式：

Feature1	Feature2	…	Featurek	label
					N1/S	N2/S	…	Nk/S	O(X1)

Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量。S为节目x上传的时间点之前主播上传节目总数量。O(Xi)为Xi的类别的onehot编码。

2.分类模型采用bayes(朴素贝叶斯)与lstm(长短期记忆网络)的融合模型，融合方式为stacking。bayes用于提取类别概率分布特征，lstm用于提取时间序列波动规律。模型训练方法：

2.1所有由时间序列生成的训练数据平均分为两组，第一组为lstm模型训练数据，第二组为DNN模型训练数据。使用第一组数据训练lstm模型。

2.2lstm模型训练方法：训练lstm时把序列数据转化为序列特征向量，对于每条训练数据序列，向网络逐条输入序列中的每条特征向量，网络最终把数据序列映射为一个二维特征向量，二维特征向量经softmax函数映射为每个节目类别的概率分布，把概率分布与真实概率分布对比，通过损失函数计算损失，把损失反向传播迭代更新参数。

2.3使用第二组训练数据训练DNN模型。对于每条训练数据，生成类别概率分布特征和序列特征，把类别概率分布特征输入贝叶斯模型，贝叶斯模型使用的数据为第一组训练数据。把序列特征输入2.2中训练的lstm模型。拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码。使用拼接特征作为新特征，训练dnn模型。

Stacking公式如下：

D1＝{xi,yi},i＝[1,m]

′i＝{h1(t1(xi)),h2(t2(xi))}

h3(′i)

t1(xi)为数据xi的概率分布特征向量，t2(xi)为数据xi的序列特征向量。h1为贝叶斯算法，h2为lstm,h3为dnn。

3.模型预测方法：

3.1.使用所有历史数据生成贝叶斯模型。计算当前主播上传节目概率分布向量。通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布。

3.2.使用最近k个时间点数据生成时间序列特征向量，k与1.2中k的取值相同。输入2.2中训练的lstm，得到下一个节目的类别概率分布。

模型迭代优化：

1.对于每个主播，取全量该主播历史上传节目数据，字段包括上传节目时间和节目类别。生成该主播节目概率分布特征和主播节目序列特征。使用全量数据训练lstm和dnn模型。

主播上传新节目时，人工对节目分类，当发现人工分类与模型分类不同，

2.把该数据作为错误样本存入数据库。定时使用数据库中的错误样本微调模型，模型的错误率低于阈值后，可以省去人工分类，把模型自动化使用。

其中C部分包括：

C1：产品以及用户通过反馈渠道，反馈给系统，对于分类错误的音频。

C2：系统自动将更新后的音频分类更新到主播画像，完成分类错误的矫正。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

Claims

1.一种基于主播画像的声音分类方法，其特征在于，

包括如下步骤：

构建主播画像系统，该画像系统用来描述主播历史行为，以及主播与音频内容之间的关系；音频类别分类，基于主播画像系统，采用深度学习算法，通过主播历史上传的节目及分类信息、主播上传频率，构建模型算法，完成音频类别分类；

错误数据分类，对于分类错误的数据进行人工标记以及人工分类，并且将相关数据更新到主播画像系统中；

基于主播画像系统，构建模型训练数据集合，测试集合每一条包含如下信息：主播相关唯一标识；音频内容的唯一标识；具体音频内容的上传时间；具体音频内容的分类；

按照如下步骤进行训练模型：步骤一，根据主播历史数据，生成主播特征向量；步骤二，通过朴素贝叶斯提取类别概率分布特征，通过长短期记忆网络提取时间序列波动规律；步骤三，模型预测；步骤四，模型迭代优化；

所述步骤一中算法中使用到两种特征向量：a、主播上传节目类型序列特征；b、主播上传节目类型概率分布特征；

所述步骤一中，生成主播上传节目类型序列特征向量和label的方式：

c.根据时间窗把上传节目类别时间序列生成模型训练特征数据；

所述步骤一中，

序列数据转化为特征向量方式如下：

序列数据：

特征数据：

生成节目类别概率分布特征和label的方式：

主播上传节目序列生成节目概率特征的格式：

Feature1 Feature2 … Featurek label N1/S N2/S … Nk/S O(X1)

Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量；

S为节目x上传的时间点之前主播上传节目总数量；O(Xi)为Xi的类别的onehot编码；

其中所述步骤二中，模型训练方法：

2.1、所有由时间序列生成的训练数据平均分为两组，第一组为Istm模型训练数据，第二组为DNN模型训练数据，使用第一组数据训练Istm模型；

2.2、Istm模型训练方法：训练Istm时把序列数据转化为序列特征向量，对于每条训练数据序列，向网络逐条输入序列中的每条特征向量，网络最终把数据序列映射为一个二维特征向量，二维特征向量经softmax函数映射为每个节目类别的概率分布，把概率分布与真实概率分布对比，通过损失函数计算损失，把损失反向传播迭代更新参数；

2.3、使用第二组训练数据训练DNN模型；对于每条训练数据，生成类别概率分布特征和序列特征，把类别概率分布特征输入贝叶斯模型，贝叶斯模型使用的数据为第一组训练数据；把序列特征输入2.2中训练的lstm模型；拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码；使用拼接特征作为新特征，训练dnn模型；

Stacking公式如下：

D1＝{xi，yi}，i＝[1，m]

′i＝{h1(t1(xi)),h2(t2(xi))}

h3(′i)

t1(xi)为数据xi的概率分布特征向量，t2(xi)为数据xi的序列特征向量；h1为贝叶斯算法，h2为lstm，h3为dnn。

2.根据权利要求1所述的一种基于主播画像的声音分类方法，其特征在于，

所述构建主播画像系统包括：

采集主播以及音频相关服务端操作日志；

基于采集到的日志，采用数据挖掘的算法，挖掘关键信息；

3.根据权利要求2所述的一种基于主播画像的声音分类方法，其特征在于，

所述关键信息包括：主播上传音频的时间；主播上传音频时定义的分类。

4.根据权利要求1所述的一种基于主播画像的声音分类方法，其特征在于，其中步骤三中：模型预测方法，

3.1.使用所有历史数据生成贝叶斯模型；计算当前主播上传节目概率分布向量；通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布；

3.2.使用最近k个时间点数据生成时间序列特征向量；输入2.2中训练的lstm，得到下一个节目的类别概率分布；

5.根据权利要求4所述的一种基于主播画像的声音分类方法，其特征在于，其中步骤四中：模型迭代优化：

对于每个主播，取全量该主播历史上传节目数据，字段包括上传节目时间和节目类别，生成该主播节目概率分布特征和主播节目序列特征，使用全量数据训练lstm和dnn模型；

6.根据权利要求5所述的一种基于主播画像的声音分类方法，其特征在于：产品以及用户通过反馈渠道，反馈给系统，对于分类错误的音频；系统自动将更新后的音频分类更新到主播画像，完成分类错误的矫正。