CN109582553A - 一种媒体播放行为的检测方法、装置及存储介质 - Google Patents

一种媒体播放行为的检测方法、装置及存储介质 Download PDF

Info

Publication number
CN109582553A
CN109582553A CN201811341327.XA CN201811341327A CN109582553A CN 109582553 A CN109582553 A CN 109582553A CN 201811341327 A CN201811341327 A CN 201811341327A CN 109582553 A CN109582553 A CN 109582553A
Authority
CN
China
Prior art keywords
behavior
media play
network model
data sample
nerve network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811341327.XA
Other languages
English (en)
Inventor
刘馨阳
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIGU Culture Technology Co Ltd
Original Assignee
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MIGU Culture Technology Co Ltd filed Critical MIGU Culture Technology Co Ltd
Priority to CN201811341327.XA priority Critical patent/CN109582553A/zh
Publication of CN109582553A publication Critical patent/CN109582553A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种媒体播放行为的检测方法、装置及存储介质,包括:基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,所述人工神经网络模型用于检测所述媒体播放行为的行为属性。本发明实施例还提供另一种媒体播放行为的检测方法及装置。

Description

一种媒体播放行为的检测方法、装置及存储介质
技术领域
本发明涉及计算机网络领域,尤其涉及一种媒体播放行为的检测方法、装置及存储介质。
背景技术
随着互联网5G时代的到来以及智能终端的快速普及,用户观看视频的习惯正逐渐从传统电视和本地视频播放转向在线媒体播放,在线媒体播放行业得到了飞速的发展。
与媒体播放相关的有效统计分析数据,如媒体文件播放量、媒体文件观看时长、播放应用(Application,APP)的使用时长等,也成为在线媒体播放行业所关注的重点。同时,也出现了一种人为使用恶意工具软件刷媒体文件播放量的现象,这种现象会造成媒体文件的异常播放行为,从而导致媒体播放相关的统计分析数据异常,使分析数据失去了准确性和有效性,对媒体播放平台造成多方面的不良影响,进而影响到媒体制作公司、投资机构、媒体播放平台、广告商等多方的经济利益。
如何全面、精确的识别媒体文件的异常播放行为,目前尚无有效解决方案。
发明内容
为解决上述技术问题,本发明实施例提供了一种媒体播放行为的检测方法、装置及存储介质,能够全面、精确的识别媒体文件的异常播放行为。
本发明的技术方案是这样实现的:
第一方面,本发明实施例提供了一种媒体播放行为的检测方法,所述方法包括:
基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;
以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,所述人工神经网络模型用于检测所述媒体播放行为的行为属性。
在上述方案中,所述以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,包括:
基于不同的行为属性对应的数据样本,分别构建输入向量矩阵;
基于所述输入向量矩阵包括的数据样本和行为属性,确定所述人工神经网络模型的隐含层神经元的输入和输出;
基于预设的误差函数修正所述人工神经网络模型的输出层的权值及隐含层的权值;
确定全局误差,并在所述全局误差满足预设条件时,输出所述人工神经网络模型的输出层的权值及隐含层的权值;其中,输出的人工神经网络模型的输出层的权值及隐含层的权值用于判定所述媒体播放行为的行为属性。
在上述方案中,所述基于预设的误差函数修正所述人工神经网络模型的输出层的权值及隐含层的权值,包括:
基于预设的误差函数确定所述输出层神经元的偏导数,以及所述隐含层神经元的偏导数;
基于所述输出层神经元的偏导数修正所述输出层的权值;
基于所述隐含层神经元的偏导数修正所述隐含层的权值。
第二方面,本发明实施例提供了另一种媒体播放行为的检测方法,所述方法包括:
实时采集表征媒体播放行为的数据样本;
对所述数据样本进行用于适配人工神经网络模型的预处理;
在所述人工神经网络模型中,根据经过预处理的数据样本检测所述媒体播放行为的行为属性。
上述方案中,所述根据经过预处理的数据样本检测所述媒体播放行为的行为属性之后,所述方法还包括:
基于媒体播放行为的总数量与媒体播放行为中异常播放行为的数量的差值,获得正常播放行为的数量。
上述方案中,所述根据经过预处理的数据样本检测所述媒体播放行为的行为属性之后,所述方法还包括:
将检测的所述媒体播放行为的行为属性以及对应的经过预处理的数据样本作为所述人工神经网络模型的训练样本集合;
以所述训练样本集合包括的数据样本为输入,并以所述训练样本包括的行为属性为输出,训练目标人工神经网络模型检测所述媒体播放行为的行为属性的性能。
第三方面,本发明实施例提供了一种媒体播放行为的检测装置,所述装置包括:
构建模块,用于基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;
训练模块,用于以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,所述人工神经网络模型用于检测所述媒体播放行为的行为属性。
第四方面,本发明实施例提供了另一种媒体播放行为的检测装置,所述装置包括:
采集模块,用于实时采集表征媒体播放行为的数据样本;
预处理模块,用于对所述数据样本进行用于适配人工神经网络模型的预处理;
检测模块,用于在所述人工神经网络模型中,根据经过预处理的数据样本检测所述媒体播放行为的行为属性。
上述方案中,所述装置还包括:
获得模块,用于基于媒体播放行为的总数量与媒体播放行为中异常播放行为的数量的差值,获得正常播放行为的数量。
第五方面,本发明实施例提供了又一种媒体播放行为的检测装置,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行第一方面或第二方面所述方法的步骤。
第六方面,本发明实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第二方面所述方法的步骤。
本发明提供的媒体播放行为的检测方法、装置及存储介质,基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;根据所述训练样本集合训练人工神经网络模型检测所述媒体播放行为的行为属性的性能;并在所述人工神经网络模型中,根据实时采集的数据样本来检测媒体播放行为的行为属性。采用本发明的方法,能够基于数据样本不同维度的特征,全面、精确的识别媒体文件的异常播放行为;本发明实施例中,通过实时更新的媒体播放行为的数据样本,循环训练人工神经网络模型,进一步提高所述人工神经网络模型的检测精度,进而得到更为准确、有效的媒体播放相关的统计分析数据。
附图说明
图1为本发明实施例提供的一种媒体播放行为的检测方法的流程示意图;
图2为本发明实施例提供的一种构建训练样本集合的流程示意图;
图3为本发明实施例提供的一种训练人工神经网络模型的性能的流程示意图;
图4为本发明实施例提供的另一种媒体播放行为的检测方法的流程示意图;
图5为本发明实施例提供的一种媒体播放行为的检测装置的结构示意图;
图6为本发明实施例提供的一种构建单元的结构示意图;
图7为本发明实施例提供的一种训练单元的结构示意图;
图8为本发明实施例提供的另一种媒体播放行为的检测装置的结构示意图;
图9为本发明实施例提供的又一种媒体播放行为的检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例一
本发明实施例一提供了一种媒体播放行为的检测方法,如图1所示,该方法包括以下步骤:
步骤S101:基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;
本发明实施例中,如图2所示,步骤S101可以通过以下过程实现:
S1011:采集媒体播放行为的账户信息和播放信息;
在具体实施时,媒体播放行为的检测装置通过SDK代码埋点的方式获取表征媒体播放行为的数据信息,所述数据信息包括用户的账户信息和播放信息,具体可以包含:视频观看时长、APP使用时长、APP起始使用时间、账号注册时间、用户网络协议(InternetProtocol,IP)信息、账号用登录登出APP的时间、视频播放时间、视频时长等内容。将采集到的数据信息以日志的形式定期传送到服务端存储,使用分布式文件系统(HadoopDistributed File System,HDFS)及Hive工具将日志文件映射到数据仓库中,经过数据抽取、清洗、转换、装载等处理过程,形成人工神经网络模型可使用的数据样本存储在数据仓库中。
S1012:将所述账户信息和播放信息作为数据样本,对所述数据样本进行用于适配人工神经网络模型的预处理;
在具体实施时,媒体播放行为的检测装置从历史数据样本中抽取用户特征行为数据,其中,所述用户特征行为数据可以包含:视频观看时长、APP使用时长、APP起始使用时间、账号注册时间、用户IP信息等内容。
这里,对所述数据样本进行用于适配人工神经网络模型的预处理,是指对用户特征行为数据进行处理;所述处理至少包括降维、降噪处理,使用的处理方法可以是主成分分析方法,对每一条数据样本形成m维的用户特征行为数据样本,例如,当视频观看时长为10分钟、APP使用时长为24分钟、APP起始使用时间为15点、…时,形成如[10,24,15…]的用户特征行为数据样本,从而得到经过预处理的数据样本。
S1013:将经过预处理的数据样本与表征媒体播放行为的行为属性合并,形成相应媒体播放行为的训练样本;合并基于不同媒体播放行为构建的训练样本和行为属性形成训练样本集合。
在具体实施时,媒体播放行为的检测装置按照媒体播放行为的行为属性,将经过预处理的数据样本形成正训练样本和负训练样本,将正常播放行为对应的数据样本作为正训练样本,将异常播放行为对应的数据样本作为负训练样本,最终形成n条m维的训练样本集合,其中,n表示训练样本数量,取值范围可以为3000-6000;m表示用户特征行为的数量,取值范围可以为5-10。
步骤S102:以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,所述人工神经网络模型用于检测所述媒体播放行为的行为属性。
本发明实施例中,如图3所示,步骤S102可以通过以下过程实现:
S1021:基于不同的行为属性对应的数据样本,分别构建输入向量矩阵;
在具体实施时,媒体播放行为的检测装置对正常播放行为对应的数据样本和异常播放行为对应的数据样本分别构建输入向量矩阵。并设定误差阈值,用(-1,1)内的随机数初始化误差函数,设定精度为0.001,以及最大迭代次数500,所述误差函数公式如下:
其中,xi为输入向量(数据样本),x=(x,,x2,…,xn);为期望输出向量(行为属性),
S1022:基于所述输入向量矩阵包括的数据样本和行为属性,确定所述人工神经网络模型的隐含层神经元的输入和输出;
在具体实施时,媒体播放行为的检测装置随机选取第k个输入数据样本及对应的行为属性,计算隐含层各神经元的输出为:
其中,s为隐含层输出向量,s=(s1,s2,…,sn);激活函数ωs为隐含层权值,由0到1的随机数构成;bs为隐含层各神经元阈值,取值为0.6。
同样的,可以计算输出层各神经元的输出为:
其中,y为输出层输出向量,y=(y1,y2,…,yn);激活函数ωy为输出层权值,由0到1的随机数构成;by为输出层各神经元阈值,取值为0.6。
所述行为属性包括:正常播放行为和异常播放行为。
S1023:基于预设的误差函数修正所述人工神经网络模型的输出层的权值及隐含层的权值;
本发明实施例中,步骤S1023可以包括:基于预设的误差函数确定所述输出层神经元的偏导数为:
以及所述隐含层神经元的偏导数为:
基于所述输出层神经元的偏导数修正所述输出层的权值,输出层权值的修正量为:
其中,μ取值为0.5。
得到修正后的输出层权值为:
基于所述隐含层神经元的偏导数修正所述隐含层的权值,隐含层权值的修正量为:
其中,μ取值为0.5。
得到修正后的隐含层权值为:
S1024:确定全局误差,在所述全局误差满足预设条件时,执行步骤S1025;在所述全局误差不满足预设条件时,执行步骤S1022;
所述全局误差的计算公式为:
在一些实施例中,所述预设条件至少包括下述中的一种:全局误差小于误差阈值;迭代次数等于最大迭代次数。
S1025:输出所述人工神经网络模型的输出层的权值及隐含层的权值。
其中,输出的人工神经网络模型的输出层的权值及隐含层的权值用于判定所述媒体播放行为的行为属性。
需要说明的是,在本发明实施例中,由于所述数据样本中包含了多个维度的用户播放行为特征,即可以基于多个维度的数据样本来训练人工神经网络模型。与相关技术中单纯基于视频播放量一个维度对媒体播放行为进行检测相比,本发明实施例从多个维度检测媒体播放行为能够避免误识别或漏识别的情况;与相关技术中通过识别黑名单计算机对媒体播放行为进行检测相比,本发明实施例对机器设备没有依赖性,且识别特征能够完全适用于移动终端APP的场景;因此,所述本发明实施例提供的媒体播放行为检测方法能够全面、精确的识别媒体文件的异常播放行为,得到更为准确、有效的媒体播放相关的统计分析数据。
实施例二
本发明实施例二提供了另一种媒体播放行为的检测方法,如图4所示,该方法包括以下步骤:
S201:实时采集表征媒体播放行为的数据样本;
在具体实施时,媒体播放行为的检测装置通过SDK代码埋点的方式实时获取表征媒体播放行为的数据信息,所述数据信息包括用户的账户信息和播放信息,具体可以包含:视频观看时长、APP使用时长、APP起始使用时间、账号注册时间、用户IP信息、账号用登录登出APP的时间、视频播放时间、视频时长等内容。将当天采集到的数据信息以日志的形式定期传送到服务端存储,使用HDFS文件系统及Hive工具将日志文件映射到数据仓库中,经过数据抽取、清洗、转换、装载等处理过程,形成人工神经网络模型可使用的数据样本存储在数据仓库中。
S202:对所述数据样本进行用于适配人工神经网络模型的预处理;
在具体实施时,媒体播放行为的检测装置从当天的数据样本中抽取用户特征行为数据,其中,所述用户特征行为数据可以包含:视频观看时长、APP使用时长、APP起始使用时间、账号注册时间、用户IP信息等内容。
这里,对所述数据样本进行用于适配人工神经网络模型的预处理,是指对用户特征行为数据进行处理;所述处理至少包括降维、降噪处理,使用的处理方法可以是主成分分析方法,对每一条数据样本形成m维的用户特征行为数据样本,例如,当视频观看时长为10分钟、APP使用时长为24分钟、APP起始使用时间为15点、…时,形成如[10,24,15…]的用户特征行为数据样本,从而得到经过预处理的数据样本。
S203:在所述人工神经网络模型中,根据经过预处理的数据样本检测所述媒体播放行为的行为属性;
在具体实施时,媒体播放行为的检测装置将经过预处理的数据样本输入到人工神经网络模型中,基于所述人工神经网络模型输出检测结果,得到所述数据样本对应的媒体播放行为的行为属性为正常播放行为或者异常播放行为。
本发明实施例中,上述方法还可以包括以下步骤:
S204:检测所述媒体播放行为的行为属性为异常播放行为时,存储所述数据样本;
在具体实施时,媒体播放行为的检测装置将人工神经网络模型输出的异常播放行为对应的数据样本储存至HDFS文件系统,并将异常播放行为对应的数据样本录入Hive库。
S205:基于媒体播放行为的总数量与媒体播放行为中异常播放行为的数量的差值,获得正常播放行为的数量;
S206:将检测的所述媒体播放行为的行为属性以及对应的经过预处理的数据样本作为所述人工神经网络模型的训练样本集合;以所述训练样本集合包括的数据样本为输入,并以所述训练样本包括的行为属性为输出,训练目标人工神经网络模型检测所述媒体播放行为的行为属性的性能。
在具体实施时,媒体播放行为的检测装置在检测到的数据样本及对应的行为属性中随机抽取部分数据或者全部数据,循环训练所述人工神经网络模型,形成新的人工神经网络模型。
需要说明的是,本发明实施例中提供的步骤S204、步骤S205和步骤S206之间的执行顺序没有固定要求,可以根据实际情况而确定。
根据本发明实施例的媒体播放行为的检测方法,能够全面、精确的识别媒体文件的异常播放行为,并且通过实时更新的媒体播放行为的数据样本,循环训练人工神经网络模型,进一步提高所述人工神经网络模型的检测精度,使得所述人工神经网络模型的检测结果更加准确,进而得到更为准确、有效的媒体播放相关的统计分析数据。
实施例三
本发明实施例三提供了一种媒体播放行为的检测装置,所述媒体播放行为的检测装置的结构示意图,如图5所示,所述媒体播放行为的检测装置50包括:构建单元501和训练单元502;其中,
所述构建单元501,用于基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;
本发明实施例中,所述构建单元501的结构示意图,如图6所示,所述构建单元501具体可以包括:第一采集模块5011、第一预处理模块5012和形成模块5013,其中,
所述第一采集模块5011,用于采集媒体播放行为的账户信息和播放信息;
在具体实施时,所述第一采集模块5011通过SDK代码埋点的方式获取表征媒体播放行为的数据信息,所述数据信息包括用户的账户信息和播放信息,具体可以包含:视频观看时长、APP使用时长、APP起始使用时间、账号注册时间、用户IP信息、账号用登录登出APP的时间、视频播放时间、视频时长等内容。将采集到的数据信息以日志的形式定期传送到服务端存储,使用HDF S文件系统及Hive工具将日志文件映射到数据仓库中,经过数据抽取、清洗、转换、装载等处理过程,形成人工神经网络模型可使用的数据样本存储在数据仓库中。
所述第一预处理模块5012,用于将所述账户信息和播放信息作为数据样本,对所述数据样本进行用于适配人工神经网络模型的预处理;
在具体实施时,所述第一预处理模块5012从历史数据样本中抽取用户特征行为数据,其中,所述用户特征行为数据可以包含:视频观看时长、APP使用时长、APP起始使用时间、账号注册时间、用户IP信息等内容。
这里,对所述数据样本进行用于适配人工神经网络模型的预处理,是指对用户特征行为数据进行处理;所述处理至少包括降维、降噪处理,使用的处理方法可以是主成分分析方法,对每一条数据样本形成m维的用户特征行为数据样本,例如,当视频观看时长为10分钟、APP使用时长为24分钟、APP起始使用时间为15点、…时,形成如[10,24,15…]的用户特征行为数据样本,从而得到经过预处理的数据样本。
所述形成模块5013,用于将经过预处理的数据样本与表征媒体播放行为的行为属性合并,形成相应媒体播放行为的训练样本;合并基于不同媒体播放行为构建的训练样本和行为属性形成训练样本集合。
在具体实施时,所述形成模块5013将经过预处理的数据样本按照媒体播放行为的行为属性将用户特征行为数据样本形成正训练样本和负训练样本,将正常播放行为对应的数据样本作为正训练样本,将异常播放行为对应的数据样本作为负训练样本,最终形成n条m维的训练样本集合,其中,n表示训练样本数量,取值范围可以为3000-6000;m表示用户特征行为的数量,取值范围可以为5-10。
所述训练单元502,用于以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,所述人工神经网络模型用于检测所述媒体播放行为的行为属性。
本发明实施例中,所述训练单元502的结构示意图,如图7所示,所述训练单元502具体可以包括:构建模块5021、第一确定模块5022、修正模块5023、第二确定模块5024和输出模块5025,其中,
所述构建模块5021,用于基于不同的行为属性对应的数据样本,分别构建输入向量矩阵;
在具体实施时,所述构建模块5021对正常播放行为对应的数据样本和异常播放行为对应的数据样本分别构建输入向量矩阵。并设定误差阈值,用(-1,1)内的随机数初始化误差函数,设定精度为0.001,以及最大迭代次数500,所述误差函数公式如下:
其中,xi为输入向量(数据样本),x=(x,,x2,…,xn);为期望输出向量(行为属性),
所述第一确定模块5022,用于基于所述输入向量矩阵包括的数据样本和行为属性,确定所述人工神经网络模型的隐含层神经元的输入和输出;
在具体实施时,所述第一确定模块5022随机选取第k个输入数据样本及对应的行为属性,计算隐含层各神经元的输出为:
其中,s为隐含层输出向量,s=(s1,s2,…,sn);激活函数ωs为隐含层权值,由0到1的随机数构成;bs为隐含层各神经元阈值,取值为0.6。
同样的,可以计算输出层各神经元的输出为:
其中,y为输出层输出向量,y=(y1,y2,…,yn);激活函数ωy为输出层权值,由0到1的随机数构成;by为输出层各神经元阈值,取值为0.6。
所述行为属性包括:正常播放行为和异常播放行为。
所述修正模块5023,用于基于预设的误差函数修正所述人工神经网络模型的输出层的权值及隐含层的权值;
在具体实施时,所述修正模块5023基于预设的误差函数确定所述输出层神经元的偏导数为:
以及所述隐含层神经元的偏导数为:
基于所述输出层神经元的偏导数修正所述输出层的权值,输出层权值的修正量为:
其中,μ取值为0.5。
得到修正后的输出层权值为:
基于所述隐含层神经元的偏导数修正所述隐含层的权值,隐含层权值的修正量为:
其中,μ取值为0.5。
得到修正后的隐含层权值为:
所述第二确定模块5024,用于确定全局误差,在所述全局误差满足预设条件时,执行所述输出模块5025的处理;在所述全局误差不满足预设条件时,执行所述第一确定模块5022的处理;
所述全局误差的计算公式为:
在一些实施例中,所述预设条件至少包括下述中的一种:全局误差小于误差阈值;迭代次数等于最大迭代次数。
所述输出模块5025,用于输出所述人工神经网络模型的输出层的权值及隐含层的权值。
其中,输出的人工神经网络模型的输出层的权值及隐含层的权值用于判定所述媒体播放行为的行为属性。
需要说明的是,在本发明实施例中,由于所述数据样本中包含了多个维度的用户播放行为特征,即可以基于多个维度的数据样本来训练人工神经网络模型。与相关技术中单纯基于视频播放量一个维度对媒体播放行为进行检测相比,本发明实施例从多个维度检测媒体播放行为能够避免误识别或漏识别的情况;与相关技术中通过识别黑名单计算机对媒体播放行为进行检测相比,本发明实施例对机器设备没有依赖性,且识别特征能够完全适用于移动终端APP的场景;因此,所述本发明实施例提供的媒体播放行为检测方法能够全面、精确的识别媒体文件的异常播放行为,得到更为准确、有效的媒体播放相关的统计分析数据。
实施例四
本发明实施例四提供了另一种媒体播放行为的检测装置,所述媒体播放行为的检测装置的结构示意图,如图8所示,所述媒体播放行为的检测装置80包括:第二采集模块801、第二预处理模块802和检测模块803;其中,
所述第二采集模块801,用于实时采集表征媒体播放行为的数据样本;
在具体实施时,所述第二采集模块801通过SDK代码埋点的方式实时获取表征媒体播放行为的数据信息,所述数据信息包括用户的账户信息和播放信息,具体可以包含:视频观看时长、APP使用时长、APP起始使用时间、账号注册时间、用户IP信息、账号用登录登出APP的时间、视频播放时间、视频时长等内容。将当天采集到的数据信息以日志的形式定期传送到服务端存储,使用HDFS文件系统及Hive工具将日志文件映射到数据仓库中,经过数据抽取、清洗、转换、装载等处理过程,形成人工神经网络模型可使用的数据样本存储在数据仓库中。
所述第二预处理模块802,用于对所述数据样本进行用于适配人工神经网络模型的预处理;
在具体实施时,所述第二预处理模块802从当天的数据样本中抽取用户特征行为数据,其中,所述用户特征行为数据可以包含:视频观看时长、APP使用时长、APP起始使用时间、账号注册时间、用户IP信息等内容。
这里,对所述数据样本进行用于适配人工神经网络模型的预处理,是指对用户特征行为数据进行处理;所述处理至少包括降维、降噪处理,使用的处理方法可以是主成分分析方法,对每一条数据样本形成m维的用户特征行为数据样本,例如,当视频观看时长为10分钟、APP使用时长为24分钟、APP起始使用时间为15点、…时,形成如[10,24,15…]的用户特征行为数据样本,从而得到经过预处理的数据样本。
所述检测模块803,用于在所述人工神经网络模型中,根据经过预处理的数据样本检测所述媒体播放行为的行为属性;
在具体实施时,所述检测模块803将经过预处理的数据样本输入到人工神经网络模型中,并输出检测结果,得到所述数据样本对应的媒体播放行为的行为属性为正常播放行为或者异常播放行为。
本发明实施例中,所述媒体播放行为的检测装置80还可以包括:存储模块804、获得模块805和训练模块806;其中,
所述存储模块804,检测所述媒体播放行为的行为属性为异常播放行为时,存储所述数据样本;
在具体实施时,所述存储模块804将人工神经网络模型输出的异常播放行为对应的数据样本储存至HDFS文件系统,并将异常播放行为对应的数据样本录入Hive库。
所述获得模块805,用于基于媒体播放行为的总数量与媒体播放行为中异常播放行为的数量的差值,获得正常播放行为的数量;
所述训练模块806,用于将检测的所述媒体播放行为的行为属性以及对应的经过预处理的数据样本作为所述人工神经网络模型的训练样本集合;以所述训练样本集合包括的数据样本为输入,并以所述训练样本包括的行为属性为输出,训练目标人工神经网络模型检测所述媒体播放行为的行为属性的性能。
在具体实施时,所述训练模块806在检测到的数据样本及对应的行为属性中随机抽取部分数据或者全部数据,循环训练所述人工神经网络模型,形成新的人工神经网络模型。
根据本发明实施例的媒体播放行为的检测方法,能够全面、精确的识别媒体文件的异常播放行为,并且通过实时更新的媒体播放行为的数据样本,循环训练人工神经网络模型,进一步提高所述人工神经网络模型的检测精度,进而得到更为准确、有效的媒体播放相关的统计分析数据。
实施例五
基于前述的实施例,本发明实施例五还提供又一种媒体播放行为的检测装置,所述媒体播放行为的检测装置的结构示意图,如图9所示,所述装置包括处理器902和用于存储能够在处理器902上运行的计算机程序的存储器901;其中,所述处理器902用于运行所述计算机程序时,以实现:
基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;
以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,所述人工神经网络模型用于检测所述媒体播放行为的行为属性。
本发明实施例中,所述处理器902基于不同的行为属性对应的数据样本,分别构建输入向量矩阵;
基于所述输入向量矩阵包括的数据样本和行为属性,确定所述人工神经网络模型的隐含层神经元的输入和输出;
基于预设的误差函数修正所述人工神经网络模型的输出层的权值及隐含层的权值;
确定全局误差,并在所述全局误差满足预设条件时,输出所述人工神经网络模型的输出层的权值及隐含层的权值;其中,输出的人工神经网络模型的输出层的权值及隐含层的权值用于判定所述媒体播放行为的行为属性。
本发明实施例中,所述处理器902基于预设的误差函数确定所述输出层神经元的偏导数,以及所述隐含层神经元的偏导数;
基于所述输出层神经元的偏导数修正所述输出层的权值;
基于所述隐含层神经元的偏导数修正所述隐含层的权值。
本发明实施例中,所述处理器902还用于
实时采集表征媒体播放行为的数据样本;
对所述数据样本进行用于适配人工神经网络模型的预处理;
在所述人工神经网络模型中,根据经过预处理的数据样本检测所述媒体播放行为的行为属性。
本发明实施例中,所述处理器902还用于
基于媒体播放行为的总数量与媒体播放行为中异常播放行为的数量的差值,获得正常播放行为的数量。
本发明实施例中,所述处理器902还用于
将检测的所述媒体播放行为的行为属性以及对应的经过预处理的数据样本作为所述人工神经网络模型的训练样本集合;
以所述训练样本集合包括的数据样本为输入,并以所述训练样本包括的行为属性为输出,训练目标人工神经网络模型检测所述媒体播放行为的行为属性的性能。
所述处理器902可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过所述处理器902中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器902可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器902可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器901,所述处理器902读取存储器901中的信息,结合其硬件完成前述方法的步骤。
可以理解,本发明实施例的存储器(存储器901)可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-OnlyMemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
这里需要指出的是:以上媒体播放行为的检测装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本发明终端实施例中未披露的技术细节,本领域的技术人员请参照本发明方法实施例的描述而理解,为节约篇幅,这里不再赘述。
实施例六
在示例性实施例中,本发明实施例六还提供了一种存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器901,上述计算机程序可由处理器902处理,以实现:
本发明实施例中,所述处理器902基于不同的行为属性对应的数据样本,分别构建输入向量矩阵;
基于所述输入向量矩阵包括的数据样本和行为属性,确定所述人工神经网络模型的隐含层神经元的输入和输出;
基于预设的误差函数修正所述人工神经网络模型的输出层的权值及隐含层的权值;
确定全局误差,并在所述全局误差满足预设条件时,输出所述人工神经网络模型的输出层的权值及隐含层的权值;其中,输出的人工神经网络模型的输出层的权值及隐含层的权值用于判定所述媒体播放行为的行为属性。
本发明实施例中,所述处理器902基于预设的误差函数确定所述输出层神经元的偏导数,以及所述隐含层神经元的偏导数;
基于所述输出层神经元的偏导数修正所述输出层的权值;
基于所述隐含层神经元的偏导数修正所述隐含层的权值。
本发明实施例中,所述处理器902还用于
实时采集表征媒体播放行为的数据样本;
对所述数据样本进行用于适配人工神经网络模型的预处理;
在所述人工神经网络模型中,根据经过预处理的数据样本检测所述媒体播放行为的行为属性。
本发明实施例中,所述处理器902还用于
基于媒体播放行为的总数量与媒体播放行为中异常播放行为的数量的差值,获得正常播放行为的数量。
本发明实施例中,所述处理器902还用于
将检测的所述媒体播放行为的行为属性以及对应的经过预处理的数据样本作为所述人工神经网络模型的训练样本集合;
以所述训练样本集合包括的数据样本为输入,并以所述训练样本包括的行为属性为输出,训练目标人工神经网络模型检测所述媒体播放行为的行为属性的性能。
所述存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
这里需要指出的是:以上存储介质实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本发明终端实施例中未披露的技术细节,本领域的技术人员请参照本发明方法实施例的描述而理解,为节约篇幅,这里不再赘述。
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种媒体播放行为的检测方法,其特征在于,所述方法包括:
基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;
以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,所述人工神经网络模型用于检测所述媒体播放行为的行为属性。
2.根据权利要求1所述的方法,其特征在于,所述以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,包括:
基于不同的行为属性对应的数据样本,分别构建输入向量矩阵;
基于所述输入向量矩阵包括的数据样本和行为属性,确定所述人工神经网络模型的隐含层神经元的输入和输出;
基于预设的误差函数修正所述人工神经网络模型的输出层的权值及隐含层的权值;
确定全局误差,并在所述全局误差满足预设条件时,输出所述人工神经网络模型的输出层的权值及隐含层的权值;其中,输出的人工神经网络模型的输出层的权值及隐含层的权值用于判定所述媒体播放行为的行为属性。
3.根据权利要求2所述的方法,其特征在于,所述基于预设的误差函数修正所述人工神经网络模型的输出层的权值及隐含层的权值,包括:
基于预设的误差函数确定所述输出层神经元的偏导数,以及所述隐含层神经元的偏导数;
基于所述输出层神经元的偏导数修正所述输出层的权值;
基于所述隐含层神经元的偏导数修正所述隐含层的权值。
4.一种媒体播放行为的检测方法,其特征在于,所述方法包括:
实时采集表征媒体播放行为的数据样本;
对所述数据样本进行用于适配人工神经网络模型的预处理;
在所述人工神经网络模型中,根据经过预处理的数据样本检测所述媒体播放行为的行为属性。
5.根据权利要求4所述的方法,其特征在于,所述根据经过预处理的数据样本检测所述媒体播放行为的行为属性之后,所述方法还包括:
基于媒体播放行为的总数量与媒体播放行为中异常播放行为的数量的差值,获得正常播放行为的数量。
6.根据权利要求4或5所述的方法,其特征在于,所述根据经过预处理的数据样本检测所述媒体播放行为的行为属性之后,所述方法还包括:
将检测的所述媒体播放行为的行为属性以及对应的经过预处理的数据样本作为所述人工神经网络模型的训练样本集合;
以所述训练样本集合包括的数据样本为输入,并以所述训练样本包括的行为属性为输出,训练目标人工神经网络模型检测所述媒体播放行为的行为属性的性能。
7.一种媒体播放行为的检测装置,其特征在于,所述装置包括:
构建模块,用于基于采集到的表征媒体播放行为的数据样本和行为属性,构建训练样本集合;
训练模块,用于以所述训练样本集合包括的数据样本为输入,并以所述训练样本集合包括的行为属性为输出,训练人工神经网络模型的性能,所述人工神经网络模型用于检测所述媒体播放行为的行为属性。
8.一种媒体播放行为的检测装置,其特征在于,所述装置包括:
采集模块,用于实时采集表征媒体播放行为的数据样本;
预处理模块,用于对所述数据样本进行用于适配人工神经网络模型的预处理;
检测模块,用于在所述人工神经网络模型中,根据经过预处理的数据样本检测所述媒体播放行为的行为属性。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
获得模块,用于基于媒体播放行为的总数量与媒体播放行为中异常播放行为的数量的差值,获得正常播放行为的数量。
10.一种媒体播放行为的检测装置,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行权利要求1至3任一项所述方法的步骤;
或所述处理器用于运行所述计算机程序时,执行权利要求4至6任一项所述方法的步骤。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述方法的步骤;
或所述计算机程序被处理器执行时实现权利要求4至6任一项所述方法的步骤。
CN201811341327.XA 2018-11-12 2018-11-12 一种媒体播放行为的检测方法、装置及存储介质 Pending CN109582553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811341327.XA CN109582553A (zh) 2018-11-12 2018-11-12 一种媒体播放行为的检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811341327.XA CN109582553A (zh) 2018-11-12 2018-11-12 一种媒体播放行为的检测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN109582553A true CN109582553A (zh) 2019-04-05

Family

ID=65922088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811341327.XA Pending CN109582553A (zh) 2018-11-12 2018-11-12 一种媒体播放行为的检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109582553A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279674A (zh) * 2015-10-13 2016-01-27 精硕世纪科技(北京)有限公司 移动广告投放设备作弊行为的判断方法和装置
CN105740667A (zh) * 2014-12-10 2016-07-06 阿里巴巴集团控股有限公司 一种基于用户行为的信息识别方法及装置
CN106204108A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 广告反作弊方法及广告反作弊装置
CN106326497A (zh) * 2016-10-10 2017-01-11 合网络技术(北京)有限公司 一种作弊视频用户识别方法及装置
CN107168854A (zh) * 2017-06-01 2017-09-15 北京京东尚科信息技术有限公司 互联网广告异常点击检测方法、装置、设备及可读存储介质
US10108791B1 (en) * 2015-03-19 2018-10-23 Amazon Technologies, Inc. Authentication and fraud detection based on user behavior
CN108768743A (zh) * 2018-06-11 2018-11-06 北京奇艺世纪科技有限公司 一种用户识别方法、装置及服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740667A (zh) * 2014-12-10 2016-07-06 阿里巴巴集团控股有限公司 一种基于用户行为的信息识别方法及装置
US10108791B1 (en) * 2015-03-19 2018-10-23 Amazon Technologies, Inc. Authentication and fraud detection based on user behavior
CN105279674A (zh) * 2015-10-13 2016-01-27 精硕世纪科技(北京)有限公司 移动广告投放设备作弊行为的判断方法和装置
CN106204108A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 广告反作弊方法及广告反作弊装置
CN106326497A (zh) * 2016-10-10 2017-01-11 合网络技术(北京)有限公司 一种作弊视频用户识别方法及装置
CN107168854A (zh) * 2017-06-01 2017-09-15 北京京东尚科信息技术有限公司 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN108768743A (zh) * 2018-06-11 2018-11-06 北京奇艺世纪科技有限公司 一种用户识别方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊振宇: "BP神经网络模型与学习算法", 《软件导刊》 *

Similar Documents

Publication Publication Date Title
Kwon et al. Time series classification of cryptocurrency price trend based on a recurrent LSTM neural network
US10193772B1 (en) User behavior analyzer
Mateo et al. Effects of the number of presences on reliability and stability of MARS species distribution models: the importance of regional niche variation and ecological heterogeneity
CN109034209A (zh) 主动风险实时识别模型的训练方法和装置
CN109561052B (zh) 网站异常流量的检测方法及装置
CN104866699B (zh) 一种网络游戏智能化数据分析方法
CN112529663A (zh) 商品推荐方法、装置、终端设备及存储介质
KR20200107389A (ko) 생성적 적대 신경망에 기반한 평점 증강 및 아이템 추천 방법 및 시스템
CN116362823A (zh) 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置
CN110533439A (zh) 一种评价广告投放价值的方法及装置
CN109582553A (zh) 一种媒体播放行为的检测方法、装置及存储介质
Aggrawal et al. Modelling successive generations for products-in-use and number of products sold in the market
CN109359346A (zh) 一种热负荷预测方法、装置、可读介质及电子设备
CN109489660A (zh) 机器人定位方法及设备
CN116702891A (zh) 一种基于汽车制造业的故障溯源方法及终端
CN111143372A (zh) 数据处理方法和装置
CN116155597A (zh) 访问请求的处理方法、装置及计算机设备
Zhang et al. Impute vs. ignore: Missing values for prediction
CN115577798A (zh) 基于随机加速梯度下降的半联邦学习方法及装置
CN115907194A (zh) 一种光伏发电功率预测方法、系统及产品
CN108241643B (zh) 关键词的指标数据分析方法及装置
CN110019357A (zh) 数据库查询脚本生成方法及装置
CN109947713A (zh) 一种日志的监控方法及装置
CN116263794A (zh) 对比学习增强的双流模型推荐系统及算法
CN109657160B (zh) 基于随机游走访问频数的入度信息估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190405