CN110689040B - 一种基于主播画像的声音分类方法 - Google Patents
一种基于主播画像的声音分类方法 Download PDFInfo
- Publication number
- CN110689040B CN110689040B CN201910765774.6A CN201910765774A CN110689040B CN 110689040 B CN110689040 B CN 110689040B CN 201910765774 A CN201910765774 A CN 201910765774A CN 110689040 B CN110689040 B CN 110689040B
- Authority
- CN
- China
- Prior art keywords
- model
- anchor
- data
- program
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 230000006399 behavior Effects 0.000 claims abstract description 4
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于主播画像的声音分类方法,包括如下步骤:构建主播画像系统,该画像系统用来描述主播历史行为,以及主播与音频内容之间的关系;音频类别分类,基于主播画像系统,采用深度学习算法,通过主播历史上传的节目及分类信息、主播上传频率,构建模型算法,完成音频类别分类;错误数据分类,对于分类错误的数据进行人工标记以及人工分类,并且将相关数据更新到主播画像系统中。本发明具备自我学习能力的,适合各大音频平台的音频分类方法,对于音频内容进行自动分类,实现对海量音频资源的快速处理,节省服务器资源。
Description
技术领域
本发明属于大数据领域,为AI人工智能方向,具体涉及一种基于主播画像的声音分类方法。
背景技术
随着信息化社会、AI以及5G的快速发展,人们通过各种渠道获取文字、视频、音频等信息越来越多。在移动互联网相关的应用中,音频占用非常重要的地位。而对于音频信息的各种处理中,音频类型的判断与分类是最重要的处理过程之一。
在现阶段互联网各大音频平台上,音频分类方法的技术方案一般为:首先,对于输入的语音信号进行预处理,剔除音频录入中噪音等问题;然后,对于音频内容进行相关特征提取。
上述音频分类方法,对于互联网相关的音频平台来说的不足之处在于:
一、由于移动互联网(互联网)相关音频平台,每天要处理海量音频数据,使用传统方式进行,会消耗大量计算资源及存储资源来进行音频特征的提取,以完成音频内容的分类;
二、特征与分类信息以及分类算法强依赖,音频的分类依据于规定好的类别完成分类,当产品需求发生改变,整体系统需要优化和升级可扩展性差;
三、音频分类不具备自我学习及自我增长性,新增类目均需要独立研发。
发明内容
为解决上述存在的不足之处,本发明提供一种基于主播画像的声音分类方法,本发明的具体方案如下:一种基于主播画像的声音分类方法,包括如下步骤:
构建主播画像系统,该画像系统用来描述主播历史行为,以及主播与音频内容之间的关系;
音频类别分类,基于主播画像系统,采用深度学习算法,通过主播历史上传的节目及分类信息、主播上传频率,构建模型算法,完成音频类别分类;
错误数据分类,对于分类错误的数据进行人工标记以及人工分类,并且将相关数据更新到主播画像系统中。产品以及用户通过反馈渠道,反馈给系统,对于分类错误的音频;系统自动将更新后的音频分类更新到主播画像,完成分类错误的矫正。
进一步,所述构建主播画像系统包括:
采集主播以及音频相关服务端操作日志;
基于采集到的日志,采用数据挖掘的算法,挖掘关键信息;
至少提取的关键信息为:主播上传音频的时间;主播上传音频时定义的分类。
将挖掘好的信息,根据主播的唯一标识,进行合并与聚类,形成主播画像系统。
进一步,基于主播画像系统,构建模型训练数据集合,测试集合每一条包含如下信息:主播相关唯一标识;音频内容的唯一标识;具体音频内容的上传时间;具体音频内容的分类.
进一步,按照如下步骤进行训练模型:步骤一,根据主播历史数据,生成主播特征向量;步骤二,通过朴素贝叶斯提取类别概率分布特征,通过长短期记忆网络提取时间序列波动规律;步骤三,模型预测;步骤四,模型迭代优化。
所述步骤一中算法中使用到两种特征向量:a、主播上传节目类型序列特征;b、主播上传节目类型概率分布特征。
生成主播上传节目类型序列特征向量和label的方式:
a.把用户上传的节目按照上传时间排序,生成上传节目时间序列;
b.设置时间序列窗口长度k,k作为模型超参,k根据序列长度和模型训练验证集精确度调整;
c.根据时间窗把上传节目类别时间序列生成模型训练特征数据。
序列数据转化为特征向量方式如下:
Ti为该主播第i个节目上传时的时间点,Xi为该主播第i个节目,L(Xi)为节目Xi的类别
序列数据:
特征数据:
Feature1 | Feature2 | … | Featurek | label |
L(X1) | L(X2) | … | L(Xk+1) | L(Xk+2) |
L(X2) | L(X3) | … | L(Xk+2) | L(Xk+3) |
生成节目类别概率分布特征和label的方式:
针对每个主播上传节目序列的每个时间点,统计该时间点前该主播上传的每个类别的节目的频率,label为该时间点对应的上传节目的类别;
主播上传节目序列生成节目概率特征的格式:
Feature1 | Feature2 | … | Featurek | label |
N1/S | N2/S | … | Nk/S | O(X1) |
Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量。S为节目x上传的时间点之前主播上传节目总数量;O(Xi)为Xi的类别的onehot编码。
模型训练方法:
2.1、所有由时间序列生成的训练数据平均分为两组,第一组为lstm模型训练数据,第二组为DNN模型训练数据,使用第一组数据训练lstm模型;
2.2、lstm模型训练方法:训练lstm时把序列数据转化为序列特征向量,对于每条训练数据序列,向网络逐条输入序列中的每条特征向量,网络最终把数据序列映射为一个二维特征向量,二维特征向量经softmax函数映射为每个节目类别的概率分布,把概率分布与真实概率分布对比,通过损失函数计算损失,把损失反向传播迭代更新参数;
2.3、使用第二组训练数据训练DNN模型;对于每条训练数据,生成类别概率分布特征和序列特征,把类别概率分布特征输入贝叶斯模型,贝叶斯模型使用的数据为第一组训练数据;把序列特征输入2.2中训练的lstm模型;拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码;使用拼接特征作为新特征,训练dnn模型。
Stacking公式如下:
D1={xi,yi},i=[1,m]
i={h1(t1(xi)),h2(t2(xi))}
h3(′i)
t1(xi)为数据xi的概率分布特征向量,t2(xi)为数据xi的序列特征向量;h1为贝叶斯算法,h2为lstm,h3为dnn。
模型预测方法,
3.1.使用所有历史数据生成贝叶斯模型;计算当前主播上传节目概率分布向量;通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布。
3.2.使用最近k个时间点数据生成时间序列特征向量;输入2.2中训练的lstm,得到下一个节目的类别概率分布。
3.3.使用2中相同的顺序拼接贝叶斯模型和lstm模型输出结果的特征向量,把拼接的特征向量输入2.2中训练的dnn模型,最终输出的onehot编码为模型预测类别的概率分布,概率最高的类别为模型预测下一个音频的类别。
模型迭代优化:
对于每个主播,取全量该主播历史上传节目数据,字段包括上传节目时间和节目类别。生成该主播节目概率分布特征和主播节目序列特征。使用全量数据训练lstm和dnn模型;
主播上传新节目时,人工对节目分类,当发现人工分类与模型分类不同,把该数据作为错误样本存入数据库;定时使用数据库中的错误样本微调模型,模型的错误率低于阈值后,可以省去人工分类,把模型自动化使用。
本发明的有益效果:具备自我学习能力的,适合各大音频平台的音频分类方法,对于音频内容进行自动分类,实现对海量音频资源的快速处理,节省服务器资源。
解决了从音频生产者角度,短期内不会更改自己擅长的音频方向,如擅长脱口秀的音频生产者,短期内并不会大量做新闻类音频的技术问题。
附图说明
图1是根据一示例性实施例示出的一种基于主播画像的声音分类方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种基于主播画像的声音分类方法的流程图;如图1所示,
一种基于主播画像的声音分类方法,包括如下步骤:
A:构建主播画像系统,该画像系统用来描述主播历史行为,以及主播与音频内容之间的关系;
B:音频类别分类,基于主播画像系统,采用深度学习算法,通过主播历史上传的节目及分类信息、主播上传频率,构建模型算法,完成音频类别分类;
C:错误数据分类,对于分类错误的数据进行人工标记以及人工分类,并且将相关数据更新到主播画像系统中。
其中,步骤A具体包括:
A1:采集主播以及音频相关服务端操作日志;
A2:基于采集到的日志,采用数据挖掘的算法,至少挖掘如下关键信息:
(1):主播上传音频的时间;
(2):主播上传音频时定义的分类;
A3:将挖掘好的信息,根据主播的唯一标识,进行合并与聚类,形成主播相关画像。
其中,步骤B具体内容包括:
B1:基于主播画像系统,构建模型训练数据集合,测试集合每一条包含如下信息:(1):主播相关唯一标识;(2):音频内容的唯一标识;(3):具体音频内容的上传时间;(4):具体音频内容的分类;
B2:按照如下方法训练模型:
1.根据主播历史数据,生成主播特征向量。算法中使用到两种特征向量:
a.主播上传节目类型序列特征
b.主播上传节目类型概率分布特征。
生成主播上传节目类型序列特征向量和label的方式:
a.把用户上传的节目按照上传时间排序,生成上传节目时间序列。
b.设置时间序列窗口长度k,k作为模型超参。k根据序列长度和模型训练验证集精确度调整。
c.根据时间窗把上传节目类别时间序列生成模型训练特征数据,序列数据转化为特征向量方式如下:
Ti为该主播第i个节目上传时的时间点,Xi为该主播第i个节目,L(Xi)为节目Xi的类别
序列数据:
特征数据:
Feature1 | Feature2 | … | Featurek | label |
L(X1) | L(X2) | … | L(Xk+1) | L(Xk+2) |
L(X2) | L(X3) | … | L(Xk+2) | L(Xk+3) |
生成节目类别概率分布特征和label的方式:
针对每个主播上传节目序列的每个时间点,统计该时间点前该主播上传的每个类
别的节目的频率,label为该时间点对应的上传节目的类别.
主播上传节目序列生成节目概率特征的格式:
Feature1 | Feature2 | … | Featurek | label |
N1/S | N2/S | … | Nk/S | O(X1) |
Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量。S为节目x上传的时间点之前主播上传节目总数量。O(Xi)为Xi的类别的onehot编码。
2.分类模型采用bayes(朴素贝叶斯)与lstm(长短期记忆网络)的融合模型,融合方式为stacking。bayes用于提取类别概率分布特征,lstm用于提取时间序列波动规律。模型训练方法:
2.1所有由时间序列生成的训练数据平均分为两组,第一组为lstm模型训练数据,第二组为DNN模型训练数据。使用第一组数据训练lstm模型。
2.2lstm模型训练方法:训练lstm时把序列数据转化为序列特征向量,对于每条训练数据序列,向网络逐条输入序列中的每条特征向量,网络最终把数据序列映射为一个二维特征向量,二维特征向量经softmax函数映射为每个节目类别的概率分布,把概率分布与真实概率分布对比,通过损失函数计算损失,把损失反向传播迭代更新参数。
2.3使用第二组训练数据训练DNN模型。对于每条训练数据,生成类别概率分布特征和序列特征,把类别概率分布特征输入贝叶斯模型,贝叶斯模型使用的数据为第一组训练数据。把序列特征输入2.2中训练的lstm模型。拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码。使用拼接特征作为新特征,训练dnn模型。
Stacking公式如下:
D1={xi,yi},i=[1,m]
′i={h1(t1(xi)),h2(t2(xi))}
h3(′i)
t1(xi)为数据xi的概率分布特征向量,t2(xi)为数据xi的序列特征向量。h1为贝叶斯算法,h2为lstm,h3为dnn。
3.模型预测方法:
3.1.使用所有历史数据生成贝叶斯模型。计算当前主播上传节目概率分布向量。通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布。
3.2.使用最近k个时间点数据生成时间序列特征向量,k与1.2中k的取值相同。输入2.2中训练的lstm,得到下一个节目的类别概率分布。
3.3.使用2中相同的顺序拼接贝叶斯模型和lstm模型输出结果的特征向量,把拼接的特征向量输入2.2中训练的dnn模型,最终输出的onehot编码为模型预测类别的概率分布,概率最高的类别为模型预测下一个音频的类别。
模型迭代优化:
1.对于每个主播,取全量该主播历史上传节目数据,字段包括上传节目时间和节目类别。生成该主播节目概率分布特征和主播节目序列特征。使用全量数据训练lstm和dnn模型。
主播上传新节目时,人工对节目分类,当发现人工分类与模型分类不同,
2.把该数据作为错误样本存入数据库。定时使用数据库中的错误样本微调模型,模型的错误率低于阈值后,可以省去人工分类,把模型自动化使用。
其中C部分包括:
C1:产品以及用户通过反馈渠道,反馈给系统,对于分类错误的音频。
C2:系统自动将更新后的音频分类更新到主播画像,完成分类错误的矫正。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
Claims (6)
1.一种基于主播画像的声音分类方法,其特征在于,
包括如下步骤:
构建主播画像系统,该画像系统用来描述主播历史行为,以及主播与音频内容之间的关系;音频类别分类,基于主播画像系统,采用深度学习算法,通过主播历史上传的节目及分类信息、主播上传频率,构建模型算法,完成音频类别分类;
错误数据分类,对于分类错误的数据进行人工标记以及人工分类,并且将相关数据更新到主播画像系统中;
基于主播画像系统,构建模型训练数据集合,测试集合每一条包含如下信息:主播相关唯一标识;音频内容的唯一标识;具体音频内容的上传时间;具体音频内容的分类;
按照如下步骤进行训练模型:步骤一,根据主播历史数据,生成主播特征向量;步骤二,通过朴素贝叶斯提取类别概率分布特征,通过长短期记忆网络提取时间序列波动规律;步骤三,模型预测;步骤四,模型迭代优化;
所述步骤一中算法中使用到两种特征向量:a、主播上传节目类型序列特征;b、主播上传节目类型概率分布特征;
所述步骤一中,生成主播上传节目类型序列特征向量和label的方式:
a.把用户上传的节目按照上传时间排序,生成上传节目时间序列;
b.设置时间序列窗口长度k,k作为模型超参,k根据序列长度和模型训练验证集精确度调整;
c.根据时间窗把上传节目类别时间序列生成模型训练特征数据;
所述步骤一中,
序列数据转化为特征向量方式如下:
Ti为该主播第i个节目上传时的时间点,Xi为该主播第i个节目,L(Xi)为节目Xi的类别
序列数据:
特征数据:
生成节目类别概率分布特征和label的方式:
针对每个主播上传节目序列的每个时间点,统计该时间点前该主播上传的每个类别的节目的频率,label为该时间点对应的上传节目的类别;
主播上传节目序列生成节目概率特征的格式:
Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量;
S为节目x上传的时间点之前主播上传节目总数量;O(Xi)为Xi的类别的onehot编码;
其中所述步骤二中,模型训练方法:
2.1、所有由时间序列生成的训练数据平均分为两组,第一组为Istm模型训练数据,第二组为DNN模型训练数据,使用第一组数据训练Istm模型;
2.2、Istm模型训练方法:训练Istm时把序列数据转化为序列特征向量,对于每条训练数据序列,向网络逐条输入序列中的每条特征向量,网络最终把数据序列映射为一个二维特征向量,二维特征向量经softmax函数映射为每个节目类别的概率分布,把概率分布与真实概率分布对比,通过损失函数计算损失,把损失反向传播迭代更新参数;
2.3、使用第二组训练数据训练DNN模型;对于每条训练数据,生成类别概率分布特征和序列特征,把类别概率分布特征输入贝叶斯模型,贝叶斯模型使用的数据为第一组训练数据;把序列特征输入2.2中训练的lstm模型;拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码;使用拼接特征作为新特征,训练dnn模型;
Stacking公式如下:
D1={xi,yi},i=[1,m]
′i={h1(t1(xi)),h2(t2(xi))}
h3(′i)
t1(xi)为数据xi的概率分布特征向量,t2(xi)为数据xi的序列特征向量;h1为贝叶斯算法,h2为lstm,h3为dnn。
2.根据权利要求1所述的一种基于主播画像的声音分类方法,其特征在于,
所述构建主播画像系统包括:
采集主播以及音频相关服务端操作日志;
基于采集到的日志,采用数据挖掘的算法,挖掘关键信息;
将挖掘好的信息,根据主播的唯一标识,进行合并与聚类,形成主播画像系统。
3.根据权利要求2所述的一种基于主播画像的声音分类方法,其特征在于,
所述关键信息包括:主播上传音频的时间;主播上传音频时定义的分类。
4.根据权利要求1所述的一种基于主播画像的声音分类方法,其特征在于,其中步骤三中:模型预测方法,
3.1.使用所有历史数据生成贝叶斯模型;计算当前主播上传节目概率分布向量;通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布;
3.2.使用最近k个时间点数据生成时间序列特征向量;输入2.2中训练的lstm,得到下一个节目的类别概率分布;
3.3.使用2中相同的顺序拼接贝叶斯模型和lstm模型输出结果的特征向量,把拼接的特征向量输入2.2中训练的dnn模型,最终输出的onehot编码为模型预测类别的概率分布,概率最高的类别为模型预测下一个音频的类别。
5.根据权利要求4所述的一种基于主播画像的声音分类方法,其特征在于,其中步骤四中:模型迭代优化:
对于每个主播,取全量该主播历史上传节目数据,字段包括上传节目时间和节目类别,生成该主播节目概率分布特征和主播节目序列特征,使用全量数据训练lstm和dnn模型;
主播上传新节目时,人工对节目分类,当发现人工分类与模型分类不同,把该数据作为错误样本存入数据库;定时使用数据库中的错误样本微调模型,模型的错误率低于阈值后,可以省去人工分类,把模型自动化使用。
6.根据权利要求5所述的一种基于主播画像的声音分类方法,其特征在于:产品以及用户通过反馈渠道,反馈给系统,对于分类错误的音频;系统自动将更新后的音频分类更新到主播画像,完成分类错误的矫正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910765774.6A CN110689040B (zh) | 2019-08-19 | 2019-08-19 | 一种基于主播画像的声音分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910765774.6A CN110689040B (zh) | 2019-08-19 | 2019-08-19 | 一种基于主播画像的声音分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689040A CN110689040A (zh) | 2020-01-14 |
CN110689040B true CN110689040B (zh) | 2022-10-18 |
Family
ID=69108370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910765774.6A Active CN110689040B (zh) | 2019-08-19 | 2019-08-19 | 一种基于主播画像的声音分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689040B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127074B (zh) * | 2023-02-23 | 2024-03-01 | 哈尔滨工业大学 | 基于LDA主题模型和kmeans聚类算法的主播画像分类方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102740158A (zh) * | 2012-07-04 | 2012-10-17 | 合一网络技术(北京)有限公司 | 一种供用户上传3d视频到视频网站的系统和方法 |
CN105845128A (zh) * | 2016-04-06 | 2016-08-10 | 中国科学技术大学 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN107679227A (zh) * | 2017-10-23 | 2018-02-09 | 柴建华 | 视频索引标签设置方法、装置及服务器 |
CN108257614A (zh) * | 2016-12-29 | 2018-07-06 | 北京酷我科技有限公司 | 音频数据标注的方法及其系统 |
CN108875781A (zh) * | 2018-05-07 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
CN108932451A (zh) * | 2017-05-22 | 2018-12-04 | 北京金山云网络技术有限公司 | 音视频内容分析方法及装置 |
CN110110143A (zh) * | 2019-04-15 | 2019-08-09 | 厦门网宿有限公司 | 一种视频分类方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
-
2019
- 2019-08-19 CN CN201910765774.6A patent/CN110689040B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102740158A (zh) * | 2012-07-04 | 2012-10-17 | 合一网络技术(北京)有限公司 | 一种供用户上传3d视频到视频网站的系统和方法 |
CN105845128A (zh) * | 2016-04-06 | 2016-08-10 | 中国科学技术大学 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
CN108257614A (zh) * | 2016-12-29 | 2018-07-06 | 北京酷我科技有限公司 | 音频数据标注的方法及其系统 |
CN108932451A (zh) * | 2017-05-22 | 2018-12-04 | 北京金山云网络技术有限公司 | 音视频内容分析方法及装置 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN107679227A (zh) * | 2017-10-23 | 2018-02-09 | 柴建华 | 视频索引标签设置方法、装置及服务器 |
CN108875781A (zh) * | 2018-05-07 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
CN110110143A (zh) * | 2019-04-15 | 2019-08-09 | 厦门网宿有限公司 | 一种视频分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
DEEP LSTM FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION;Xu Tian,Jun Zhang,Zejun Ma;《arXiv:1703.07090v1[cs.CL]》;20170321;全文 * |
基于长短时记忆和动态贝叶斯网络的序列预测;司阳,肖秦琨;《计算机技术与发展》;20180930;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110689040A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423442B (zh) | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 | |
CN111199343B (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
US11645554B2 (en) | Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium | |
US10586178B1 (en) | Systems and methods for continuous active machine learning with document review quality monitoring | |
CN112910690A (zh) | 基于神经网络模型的网络流量预测方法、装置及设备 | |
CN111160191A (zh) | 一种视频关键帧提取方法、装置及存储介质 | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及系统 | |
EP4364061A1 (en) | Method, device and storage medium for knowledge recommendation | |
CN110689040B (zh) | 一种基于主播画像的声音分类方法 | |
CN112634992A (zh) | 分子性质预测方法及其模型的训练方法及相关装置、设备 | |
CN103729473A (zh) | 一种基于lda主题模型的相关软件历史数据提取方法 | |
CN110866169B (zh) | 一种基于学习的物联网实体消息解析方法 | |
CN116340726A (zh) | 一种能源经济大数据清洗方法、系统、设备及存储介质 | |
Oppel et al. | On the automation of flood event separation from continuous time series | |
CN117408650B (zh) | 基于人工智能的数字化招标文件制作和评估系统 | |
CN114842371A (zh) | 一种无监督视频异常检测方法 | |
CN113988156A (zh) | 一种时间序列聚类方法、系统、设备以及介质 | |
CN111709231B (zh) | 一种基于自注意变分自编码的类案推荐方法 | |
CN113256335A (zh) | 数据筛选方法、多媒体数据的投放效果预测方法及装置 | |
CN113223502A (zh) | 语音识别系统优化方法、装置、设备及可读存储介质 | |
CN115345600B (zh) | 一种rpa流程的生成方法和装置 | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 | |
CN115114462A (zh) | 模型训练方法、装置、多媒体推荐方法、设备及存储介质 | |
Zhang et al. | Impute vs. ignore: Missing values for prediction | |
CN114978765A (zh) | 服务于信息攻击防御的大数据处理方法及ai攻击防御系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |