CN109168051A

CN109168051A - 一种基于蓝光存储的网络直播平台监管取证系统

Info

Publication number: CN109168051A
Application number: CN201811057983.7A
Authority: CN
Inventors: 王春东; 李云龙; 赵春蕾; 宫良; 宫良一; 洪睿旗
Original assignee: TIANJIN YIHUALU INFORMATION TECHNOLOGY Co Ltd; Tianjin University of Technology
Current assignee: TIANJIN YIHUALU INFORMATION TECHNOLOGY Co Ltd; Tianjin University of Technology
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2019-01-08
Anticipated expiration: 2038-09-11
Also published as: CN109168051B

Abstract

本发明提供一种基于蓝光存储的网络直播平台监管取证系统，系统后台服务包括数据读取服务、数据库连接服务、数据字典建立服务、情感语义分析服务、机器学习服务和直播平台安全态势预测服务。一种基于蓝光存储的网络直播平台监管取证系统，可用于网络直播平台的管理员监管自己的网络平台，使用机器学习算法对弹幕进行情感分类，从侧面放映主播直播间的行为，帮助管理员监管直播平台，减少管理员的人力物力的消耗。同时，将弹幕的内容采用蓝光存储技术将它存储在本地，实现对网络直播平台的取证分析。

Description

一种基于蓝光存储的网络直播平台监管取证系统

技术领域

本发明涉及计算机存储、机器学习技术领域，尤其涉及一种基于蓝光存储的网络直播平台监管取证系统。

背景技术

随着互联网经济文化的快速发展，信息化、智能化应运而生。在这个文化大爆炸的境况下，网络直播平台的出现无疑是一个亮点，它通过网络及时迅速地将发生的事件扩散开来，然而也正是由此，导致不堪的舆论、网络的混乱、语言暴力等问题也随之而来。由于网络直播平台流量大，及时性强等特点，十分难以监管与取证。

目前传统的网络直播平台的监管方案大多数采用人工审核的监管过程，此过程中将消耗大量的人力，一个管理员最多同时观看20个直播间的直播，来对这些直播的直播内容进行监管，而目前主流的直播平台都拥有数百个直播间，只靠管理员很难对直播内容进行实时有效的监管，通过管理员也将消耗大量的人力财力资源。

由于网络直播平台每天都会产生大量的数据，通常直播平台不会保存如此大量的直播数据，对以后取证造成了极大的不便。

发明内容

本发明要解决以上技术问题，提供一种基于蓝光存储的网络直播平台监管取证系统。

为解决上述技术问题，本发明采用的技术方案是：一种基于蓝光存储的网络直播平台监管取证系统，系统后台服务包括数据读取服务、数据库连接服务、数据字典建立服务、情感语义分析服务、机器学习服务和直播平台安全态势预测服务，包括以下操作流程：

第一步，建立蓝光存储数据库，设计数据库表结构，所述蓝光存储数据库用于保存弹幕信息数据；

第二步，制作训练集，采用机器学习算法支持向量机来训练模型，生成弹幕情感分类器，反复训练，得到最佳的准确率；制作敏感词字典，实现敏感词检测功能；

第三步，打开系统界面，输入需要监控的直播间的房间号，开始监控进入直播平台安全监控模块；

第四步，开始监控后，系统后台获取所监控的每个直播间的每一条弹幕，通过计算评估算法计算出每一个直播间的评分，并将结果存储到蓝光存储数据库中，具体包括以下步骤：

(1)弹幕数据收集：对当前直播间内的全部弹幕进行收集，实现弹幕数据实时更新；

(2)关键词提取：通过所述弹幕情感分类器对所述关键词按照消极词汇提取和积极词汇进行提取；

(3)评分系统建立：通过计算评估算法对直播间进行评分建立评分系统，所述评分系统包括当前评分模块和历史评分模块；

(4)数据库建立存储：将所述评分系统存储到所述蓝光存储数据库中；

(5)系统整体评分走势：将当前直播间的评分进行汇总，以周为单位进行平台走势图的绘制，并使用线性回归方法进行未来走势的预测；

(6)网络直播平台安全态势预测：以当前直播间的当前评分模块以及历史评分模块作为依据，将网络直播平台安全态势预测分为正常、警告和危险三个档次；

(7)信息可视化；

第五步，系统前端使用web进行界面显示，将获取的数据可视化，当直播间的评分低于前期设定的阈值，发出警告，提醒管理员，所述系统前端分为直播平台监控、主播个人监控、禁播列表、主播视频监控、监控主播列表及弹幕信息界面；

第六步，统计弹幕数据、直播数据，生成当日监控报表，存储到所述蓝光存储数据库中。

所述蓝光存储数据库通过NAS存储网关以网络文件系统形式为归档存储服务器提供存储空间，所述NAS存储网关用于连接所述蓝光存储数据库和磁盘存储，所述磁盘存储用于所述弹幕信息数据读写缓存。

所述计算评估算法由机器学习支持向量机算法生成，具体算法如下：

将所有的弹幕通过弹幕情感分类器，进行情感分类与敏感词匹配，当一个直播间开始直播时，初始的直播间评分是5分，开播后对弹幕数进行统计，记为N，积极情感的弹幕记为N1,消极情感的弹幕记为N2，中性弹幕记为N3，N＝N1+N2+N3；当N满100条时，计算N1/N>20％时，评分+0.5，当N2/N<20％时，评分-0.5，然后重置直播间N、N1、N2、N3，每隔一小时，重置房间评分为初始值，评分上限为10，下限为0；当评分低于4时，发出警告；低于3时，发出特别警告，应当立刻停止直播间的内容，对消极情感的弹幕进行统计，当消极弹幕达到每分钟三十条时，发出警告；敏感词检测作为对弹幕分析的辅助手段，当出现预先设定的敏感词时，提示管理员。

所述线性回归方法是在给定训练集上学习得到一个线性函数，在损失函数的约束下，求解相关系数，最终在测试集上测试模型的回归效果，线性模型的形式如下：

写成向量形式就是

h_θ(x)＝θ^Tx ②

其中x可以看成特征，θ看成是权重，目标就是找出所有的θ值，进而出现新的x值时，可以对函数的输出进行估计；假设输入的特征为x₁,x₂,...x_n，对应的样本值为y₁,y₂,...y_n，用模型估计出的值为估计值与真实值之间的误差表示为：

J(θ)成为损失函数，损失函数的自变量为θ，所以需要找到J(θ),最小时θ的取值；在机器学习中采用梯度下降算法求解该方程,计算则有：

θ＝(X^TX)^-1X^TY ④

通过以上公式，进行线性回归的预测，对今后直播平台的评分状况进行预测。

本发明具有的优点和积极效果是：一种基于蓝光存储的网络直播平台监管取证系统，可用于网络直播平台的管理员监管自己的网络平台，使用机器学习算法对弹幕进行情感分类，从侧面放映主播直播间的行为，帮助管理员监管直播平台，减少管理员的人力物力的消耗。同时，将弹幕的内容采用蓝光存储技术将它存储在本地，实现对网络直播平台的取证分析。

附图说明

图1是一种基于蓝光存储的网络直播平台监管取证系统的系统流程图；

图2是蓝光存储数据库存储方案图；

图3是系统后台服务图；

图4是系统前端管理图；

图5是直播平台安全监控模块图。

具体实施方式

下面结合附图对本发明的具体实施例做详细说明。

如图1-5所示，一种基于蓝光存储的网络直播平台监管取证系统，系统后台服务包括数据读取服务、数据库连接服务、数据字典建立服务、情感语义分析服务、机器学习服务和直播平台安全态势预测服务，包括以下操作流程：

(7)信息可视化；

写成向量形式就是

h_θ(x)＝θ^Tx ②

θ＝(X^TX)^-1X^TY ④

一种基于蓝光存储的网络直播平台监管取证系统的最佳实施方式，操作流程如图1所示，具体系统实施方式如下：

第一步，建立蓝光存储数据库，设计数据库表结构，用来保存弹幕信息等各类数据。

针对网络直播平台存储系统需求特点，采用光盘库存储系统方案即蓝光存储光盘库通过NAS网关以网络文件系统形式(CIFS/NFS)为归档存储服务器提供存储空间。实际环境下，所用档案管理软件系统架构不同，服务器设置可能不同。归档存储服务器往往就是档案管理服务器。

光盘库NAS存储网关连接光盘库和具有一定存储容量的磁盘存储。其中，磁盘存储作为数据读写缓存，数据写入光盘库时，首先暂存在该磁盘空间上，刻录完成后再定期删除。数据读取时，从光盘库读回的数据也首先缓存在该磁盘空间。

第二步，制作训练集，采用机器学习算法支持向量机(SVM)来训练模型，生成弹幕情感分类器，反复训练，得到最佳的准确率；制作敏感词字典，实现敏感词检测功能。

首先收集大量弹幕，对大量的弹幕数据进行预处理，去掉重复的弹幕，纯数字的弹幕。对弹幕数据集进行人工分类，生成积极情感和消极情感两类数据集，通过机器学习算法生成分类器。之后收到的每一条弹幕，都会通过分类器。根据每小时内的消极弹幕的数量对主播进行评分，当分数达到一定阈值时，通知平台管理员迅速采取行动。使用python语言的自然语言处理包Natural Language Toolkit进行实验，Natural Language Toolkit是进行自然语言处理的强大工具。首先使用人工标注的方法，建立数据集，共计2000条积极弹幕和2000条消极弹幕，之后选择双词搭配作为特征，并根据数据集的词频特征进行特征降维。选择80％的数据集作为训练集，余下的20％数据集作为测试集。

采用SVM算法来进行机器学习，SVM是Vapnik等人于20世纪90年代提出的一种机器学习方法。由于其具有扎实的理论基础，近几年在模式识别、函数估计等领域备受关注。

它在小样本、非线性及商维模式识别中表现出许多特有的优势，假设线性分类面的形式为：

g(D)＝ω·D+b＝0 (1)

其中ω为分类面的权系数向量，b为分类阀值，将判别函数归一化，使得所有样本都满足|g(D)|＝1即:

y_i[(ω·D_i)+b]-1≥0 (2)

其中i＝1,2...N。y_i是样本的类别标记即当样本属于类C时y_i＝1否则y_i＝－1；D_i是相应的样本。定义拉格朗日函数：

其中α_i＞0为拉格朗日乘数，对ω和b求偏微分并令其为0。为了判断某个样本是否属于类别C，计算如下最优分类函数：

f(D)＝sign{(ω^*·D)+b^*}＝sign{∑α_i ^*y_i(D_i·D)+b^*} (4)

α_i ^*为最优解，ω^*为最优分类面的权系数向量，b^*最优分类面的分类阀值，若f(D)＝1就属于该类；否则就不属于该类。

第三步，打开系统界面，输入需要监控的直播间的房间号，开始监控。

将系统按功能需求分为：弹幕数据收集(实现弹幕数据实时更新)-关键词(消极、积极)提取-(当前、历史)评分系统建立-数据库建立存储–系统整体评分走势–直播安全情况预测–信息可视化。

在该模型中，将关键词提取模块划分为消极词汇提取模块和积极词汇提取模块，其中消极词汇模块又细分为色情、暴力、谩骂、反动和其他子模块；将评分系统分为当前评分模块和历史评分模块，为系统评分系统建立实时与离线评估。

在进行弹幕收集时，使用的是直播平台的官方API，可以收集到当前直播间内的全部弹幕，在收集弹幕的同时，将弹幕通过预先设置的分类器，提取出积极情感的弹幕与消极情感的弹幕。然后将通过计算评估算法对直播进行一个打分，这个评分会随着弹幕的积极情感数与消极情感数而变化，具体算法详见图5。对于系统整体评分，将所有主播的直播间的评分进行一个汇总，以周为单位进行平台走势图的绘制，并使用线性回归方法进行未来走势的预测，并生成检测报告向管理员提交。

线性回归是机器学习算法中最简单的算法之一，它是监督学习的一种算法，主要思想是在给定训练集上学习得到一个线性函数，在损失函数的约束下，求解相关系数，最终在测试集上测试模型的回归效果。线性模型的形式如下：

写成向量形式就是

h_θ(x)＝θ^Tx (6)

其中x可以看成特征，θ看成是权重。目标就是找出所有的θ值，进而出现新的x值时，可以对函数的输出进行估计。假设输入的特征为x₁,x₂,...x_n，对应的样本值为y₁,y₂,...y_n，用模型估计出的值为估计值与真实值之间的误差表示为：

J(θ)成为损失函数，损失函数的自变量为θ，所以需要找到J(θ),最小时θ的取值。在机器学习中采用梯度下降算法求解该方程,计算则有：

θ＝(X^TX)^-1X^TY (8)

通过以上公式，进行线性回归的预测，对今后几天的直播平台的评分状况进行预测。

针对于敏感词的匹配方案，采用如下的放来进行匹配：

采用结巴分词API库来进行分词，是根据数据字典词库和频度打分机制的的一个初步分词结果。对于未在数据字典出现的词语，由于基于频度打分的分词会倾向于把不能识别的词组一个字一个字地切割开，所以对这些字的归并就是识别未知词语并且优化分词结果的一个方向。对此进行处理的需要隐含马尔科夫模型(HMM)和维特比算法(Viterbi)。

在HMM中有两种状态，一种是具有决定性的隐含着的状态(简称状态)，另一种是显性输出的状态(简称输出)。在结巴分词中状态有4种，分别是B,M,E,S，对应于一个汉字在词语中的地位即B(开头),M(中间),E(结尾),S(独立成词)，而输出就是一个汉字。在HMM中还有三种状态概率分别是状态分布概率，状态转移概率和发射概率(发射概率是一个条件概率，表示在某一状态下得到某一输出的概率)。即一串输出，而想要知道的是这串汉字最有可能的BMES组合形式，从而进行分词。这就需要使用到维特比算法了。

所有的概率值为了防止0的出现，都做了对数变换，0对于一个句子，第一个汉字的状态概率称为初始概率，可以用贝叶斯公式得到：

P(i)*P(k/i)＝P(k)*P(i/k) (9)

其中P(i)表示状态的概率，P(k/i)即发射概率，而P(k)即某个汉字出现的概率，忽略不计。则有：

P(i/k)＝P(i)*P(k/i) (10)

根据这个公式就有了句子第一个字的状态的概率值。那么第二个字的状态概率就是：

P(i²)＝[P(i₁)*P(i₂|i₁)*P(i₂|k₂)]/P(i₂)＝P(i₁)*P(i₂|i¹)*P(k²|i²) (11)

其中P(i¹)表示第一个字的状态概率，P(i₂)表示第二个字的状态概率，P(i₂|i₁)表示状态i₁到i₂的转移概率，P(k₂|i₂)表示发射概率。

以此类推，由于每一个状态都有4种选择(BMES)，所以根据每种选择导致的状态转移路径计算得出的概率值也不同，维特比算法的目的就在于找出概率最大的一种转移路径。维特比算法的特点：其实到达某一种中间状态的路径有很多条，比如在第三个节点到达状态M，可能路径有S→B→M，也可以是B→M→M，维特比算法会在中间这一步中就进行“剪枝”，它只记住路径中概率较大的那一条路径，而概率较小的忽略不计，所以只用记住到达这个节点的一条路径就行了。

第四步，开始监控后，系统后台获取所监控的每个直播间的每一条弹幕，通过特定的算法计算出每一个直播间的评分，并将结果存储到蓝光数据库中。

在直播间监管方案提出过程中，以当前主播评分以及主播历史评分作为依据，分为正常、警告和危险三个档次，以此来确定直播间系统整体评分走势，从而预测网络直播平台整体安全情况，并达到主播评分可视化目的，为监管系统提供便利条件。

在数据库存储的环节中，采用mysql数据库进行存储，对于直播平台的每一个主播，都生成一个对应的数据表，在表中存储着该直播间的弹幕信息，包括序号，发布时间，发弹幕的观众的ID，弹幕内容，弹幕评分，弹幕分类，积极率，消极率。其中积极率与消极率是由机器学习支持向量机算法生成。在所设计的数据库中，可以轻松的查找到任意ID发的所有弹幕，也可以根据特定的关键词进行检索，使得对网络直播平台的调查取证更加方便。将每一条弹幕所包含的信息存储在数据库中，并使用蓝光存储的方案，长久保存。

系统数据处理流程为：内部需求提出，协调网络资源，发送请求命令，数据请求，数据读取，数据导入，弹幕数据预处理，建立关键词数据字典，行程内部项目文档数据，录入项目管理平台图，结束数据处理流程。

第五步，前端使用web进行界面显示，将获取的数据可视化，当直播间的评分低于前期设定的阈值，发出警告，提醒管理员。在web界面，采用javascript的可视化库进行可视化，每收到一条弹幕，都会将结果反映到web的可视化界面上，使得监测结果与各个直播间的状态动态可以实时的被管理员所掌控。

具体的评分计算算法如下：将所有的弹幕通过分类器，进行情感分类与敏感词匹配。当一个直播间开始直播时，初始的直播间评分是5分，开播后对弹幕数进行统计，记为N，积极情感的弹幕记为N1,消极情感的弹幕记为N2，中性弹幕记为N3。N＝N1+N2+N3。当N满100条时，计算N1/N>20％时，评分+0.5，当N2/N<20％时，评分-0.5，然后重置直播间N、N1、N2、N3，每隔一小时，重置房间评分为初始值。评分上限为10，下限为0.当评分低于4时，发出警告，低于3时，发出特别警告，应当立刻停止直播间的内容，对消极情感的弹幕进行统计，当消极弹幕达到每分钟三十条时，发出警告。敏感词检测作为对弹幕分析的辅助手段，当出现预先设定的敏感词时，提示管理员。

第六步，统计弹幕数据、直播数据，生成当日监控报表，存储到蓝光数据库中，方便于平台的的取证分析。

一种基于蓝光存储的网络直播平台监管取证系统，可用于网络直播平台的管理员监管自己的网络平台，使用机器学习算法对弹幕进行情感分类，从侧面放映主播直播间的行为，帮助管理员监管直播平台，减少管理员的人力物力的消耗。同时，将弹幕的内容采用蓝光存储技术将它存储在本地，实现对网络直播平台的取证分析。

以上对本发明的实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等，均应仍归属于本专利涵盖范围之内。

Claims

1.一种基于蓝光存储的网络直播平台监管取证系统，其特征在于：系统后台服务包括数据读取服务、数据库连接服务、数据字典建立服务、情感语义分析服务、机器学习服务和直播平台安全态势预测服务，包括以下操作流程：

(7)信息可视化；

2.根据权利要求1所述的一种基于蓝光存储的网络直播平台监管取证系统，其特征在于：所述蓝光存储数据库通过NAS存储网关以网络文件系统形式为归档存储服务器提供存储空间，所述NAS存储网关用于连接所述蓝光存储数据库和磁盘存储，所述磁盘存储用于所述弹幕信息数据读写缓存。

3.根据权利要求1所述的一种基于蓝光存储的网络直播平台监管取证系统，其特征在于：所述计算评估算法由机器学习支持向量机算法生成，具体算法如下：

4.根据权利要求1所述的一种基于蓝光存储的网络直播平台监管取证系统，其特征在于：所述线性回归方法是在给定训练集上学习得到一个线性函数，在损失函数的约束下，求解相关系数，最终在测试集上测试模型的回归效果，线性模型的形式如下：

写成向量形式就是

h_θ(x)＝θ^Tx ②

θ＝(X^TX)^-1X^TY ④