CN116109990A

CN116109990A - 一种视频的敏感违规内容检测系统

Info

Publication number: CN116109990A
Application number: CN202310398948.6A
Authority: CN
Inventors: 黄育涛
Original assignee: Nanjing Jinyun Zhikai Software Co ltd
Current assignee: Nanjing Jinyun Zhikai Software Co ltd
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-05-12
Anticipated expiration: 2043-04-14
Also published as: CN116109990B

Abstract

本发明提供一种视频的敏感违规内容检测系统，涉及视频违规内容检测技术领域，包括语言分析模块、文字分析模块、图片分析模块、波动分析模块以及终端处理器，所述语言分析模块、文字分析模块、图片分析模块、波动分析模块与终端处理器通讯连接；所述终端处理器包括存储单元、评估单元以及预警处理单元；所述存储单元存储有有害语言库、有害文字库以及有害图片库；本发明通过对获取到的视频进行分析预警，以解决视频上传或获取过程中含有敏感或违规信息的问题。

Description

一种视频的敏感违规内容检测系统

技术领域

本发明涉及视频违规内容检测技术领域，尤其涉及一种视频的敏感违规内容检测系统。

背景技术

由于短视频领域的不断发展，对于短视频的内容进行检查的工作量也大大增加，获取到的视频资源通常涉及很多领域，视频资源中可能会存在违规的图片、文字以及语言等内容，含有上述内容的视频资源一旦发布到网络上会造成不良影响，因此有必要对网络获取的视频资源内的违规内容进行检测；

现有的视频获取技术通常涉及两类事情，一类是数据的获取，主要针对特定规则下的大数据量的信息获取，另一类是自动化需求，主要应用于在类似信息聚合、搜索等方面，现有的技术在获取直播视频时，无法对直播视频的内容进行分析预警，可能会获取到含有敏感或违规的直播视频，现有的视频检测方法对于敏感违规内容的检测不够精准，且视频检测的效率不高，有鉴于此，需要对获取到的视频进行分析预警，以达到防止上传含有敏感或违规信息的直播视频的目的。

发明内容

针对现有技术存在的不足，本发明通过对获取到的视频进行分析预警，以解决视频上传或获取过程中含有敏感或违规信息的问题。

本发明提供一种视频的敏感违规内容检测系统，包括语言分析模块、文字分析模块、图片分析模块、波动分析模块以及终端处理器，所述语言分析模块、文字分析模块、图片分析模块、波动分析模块与终端处理器通讯连接；

所述语言分析模块用于对获取的直播视频中视频内人物的语言进行处理，将语言转化为文字，将转化后的文字记为语言文字，通过对语言文字进行分析获得有害语言系数；

所述文字分析模块用于对获取的直播视频中视频内出现的文字以及观看用户发送的评论文字进行分析，获得直播视频的有害文字系数；

所述图片分析模块用于对获取的直播视频中视频内出现的图片以及观看用户发送的图片进行分析，获得直播视频的有害图片系数；

所述波动分析模块用于对获取的直播视频中观看用户的评论波动程度较大的视频片段进行筛选，将筛选出的视频片段记为高频视频区间，对高频视频区间进行分析，获得直播视频的有害波动系数；

所述终端处理器包括存储单元、评估单元以及预警处理单元；

所述存储单元存储有有害语言库、有害文字库以及有害图片库；

所述评估单元基于有害语言系数、有害波动系数、有害文字系数以及有害图片系数对直播视频进行综合分析评估，获得直播视频的有害系数；

所述预警处理单元用于基于有害系数以及波动分析模块的分析结果对直播视频进行相应的处理。

进一步地，所述存储单元用于存储违规的语言、文字以及图片，所述有害文字库用于存储若干条约中设定的违规文字以及用词，所述有害语言库用于存储若干条约中设定的违规用语以及言论，所述有害图片库用于存储若干条约中设定的违规图片。

进一步地，所述语言分析模块配置有语言预警策略，所述语言预警策略配置包括：

通过语音转文字技术获得直播视频中人物每句语音对应的语言文字，记为语言文字1至语言文字N；

将语言文字1至语言文字N进行关键词提取，得到直播视频中语言文字1至语言文字N的若干语言关键词，将若干语言关键词与有害语言库中存储的若干条约中设定的违规用语以及言论的若干关键词进行匹配，若语言文字1至语言文字N中的若干语言关键词中的关键词N1与有害语言库中存储的若干条约中设定的违规用语以及言论的若干关键词的其中一条关键词相同，将关键词N1对应的语言文字记为有害语言文字；

获取语言文字1至语言文字N中的有害语言文字，记为有害语言文字1至有害语言文字P1；获取有害语言文字1至有害语言文字P1出现在直播视频中的时间点，记为有害语言时间1至有害语言时间W1；

通过有害语言算法得出有害语言系数，所述有害语言算法包括将有害语言文字的数量与语言文字的数量的比值乘以100%，将得到的结果记为有害语言系数。

进一步地，所述文字分析模块配置有文字分析策略，所述文字分析策略包括：

将直播视频中直播间内出现的各条文字以及观看用户的各条文字评论进行关键词提取，得到直播视频中直播间内出现的各条文字以及观看用户的各条文字评论的若干文字关键词，将若干文字关键词与有害文字库中存储的若干条约中设定的违规文字以及用词进行匹配；

若直播视频中直播间内出现的一条文字或一条文字评论对应的关键词与有害文字库中的违规文字以及用词相同，将这一关键词对应的一条文字或一条文字评论记为有害文字；

获取直播视频中直播间内出现的文字以及观看用户的文字评论中所有的有害文字，记为有害文字1至有害文字P2，将有害文字1至有害文字P2出现在直播视频中的时间点记为有害文字时间1至有害文字时间W2；

通过有害文字算法得出有害文字系数，所述有害文字算法包括将有害文字的数量与直播间内出现的文字以及观看用户的文字评论的数量的比值乘以100%，将得到的结果记为有害文字系数。

进一步地，所述图片分析模块配置有图片分析策略，所述图片分析策略包括：

获取直播视频中直播间内出现的图片以及观看用户发送的图片，将得到的图片与有害图片库中的违规图片进行比对，获取直播间内出现的图片以及观看用户发送的图片与若干违规图片的相似度，若直播间内出现的任意一张图片或观看用户发送的任意一张图片与违规图片的相似度大于标准相似度，将某图片记为有害图片；

获取直播间内出现的图片以及观看用户发送的图片中所有的有害图片，记为有害图片1至有害图片P3，将有害图片1至有害图片P3出现的时间记为有害图片时间1至有害图片时间W3；

通过有害图片算法得出有害图片系数，所述有害图片算法包括将有害图片的数量与直播间内出现的图片以及观看用户发送的图片的数量的比值乘以100%，将得到的结果记为有害图片系数。

进一步地，所述波动分析模块配置有波动分析策略，所述波动分析策略包括：

将直播视频从开始每隔第一间隔时间对直播视频进行切割，记为视频区间1至视频区间Y，对视频区间1至视频区间Y内直播间中出现的评论数量进行获取，将所有第一间隔时间内获取到的评论数量记为评论数1至评论数S，将评论数1至评论数S中的众数记为常规评论数，获取评论数1至评论数S中大于常规评论数的评论数并依次记为高频评论数1至高频评论数X，获取高频评论数1至高频评论数X所在的视频区间1至视频区间X，其中，视频区间X为视频区间1至视频区间Y内的任意一个视频区间，将视频区间1至视频区间X记为高频视频区间1至高频视频区间X；

获取有害语言时间1至有害语言时间W1、有害文字时间1至有害文字时间W2以及有害图片时间1至有害图片时间W3，将有害语言时间1至有害语言时间W1、有害文字时间1至有害文字时间W2以及有害图片时间1至有害图片时间W3与高频视频区间1至高频视频区间X进行匹配，当在高频视频区间1至高频视频区间X中任意一个高频视频区间内出现至少一次有害语言时间、有害文字时间或有害图片时间时，将对应的高频视频区间中每段高频视频区间后第二间隔时间包括在内记为有害视频区间；

获取高频视频区间1至高频视频区间X中所有的有害视频区间，记为有害视频区间1至有害视频区间V；

获取高频视频区间1至高频视频区间X内除了有害视频区间1至有害视频区间V以外的高频视频区间，记为存疑视频区间1至存疑视频区间K，其中K+V=X；

对存疑视频区间1至存疑视频区间K使用语言预警策略、文字分析策略以及图片分析策略，将检测到含有有害语言文字、有害文字以及有害图片的存疑视频区间记为存疑有害区间；

获取有害视频区间1至有害视频区间V以及存疑有害区间中出现的用户评论数量，记为有害评论数量1至有害评论数量F，将有害评论数量1至有害评论数量F中的最大值有害评论数量F1与危险评论数量进行比对，当有害评论数量F1大于危险评论数量时，向预警处理单元发送有害评论激增信号；

通过有害波动算法得出有害波动系数，所述有害波动算法包括将有害视频区间的数量与视频区间的数量的比值乘以100%，将得到的结果记为有害波动系数。

进一步地，所述评估单元配置有综合评估策略，所述综合评估策略包括：

通过评估算法计算得到有害系数，基于有害系数对预警处理单元发送信号，所述评估算法包括：，其中H为有害系数，a1为第一综合系数，a2为第二综合系数，a3为第三综合系数，a4为第四综合系数，T1为有害语言系数，T2为有害文字系数，T3为有害图片系数，T4为有害波动系数；

当有害系数小于等于第一标准系数时，向预警处理单元发送低危险信号；

当有害系数大于第一标准系数且小于等于第二标准系数时，向预警处理单元发送中危险信号；

当有害系数大于第二标准系数时，向预警处理单元发送高危险信号。

进一步地，所述预警处理单元配置有预警处理策略，所述预警处理策略包括：

当接收到低危险信号时，向工作人员发送第一预警信号；

当接收到中危险信号时，向工作人员发送第二预警信号；

当接收到有害评论激增信号或高危险信号时，向工作人员发送第三预警信号并保留直播视频等待人工检查。

本发明的有益效果：

1.本发明通过获取的直播视频内的语言、文字以及图片进行分析，通过与有害语言库、有害文字库以及有害图片库内的违规关键词和图片进行对比分析，获取直播视频中的有害语言文字、有害文字以及有害图片以及有害语言文字、有害文字以及有害图片出现的时间，这样的好处在于能够准确的对直播视频中违规的语言、文字以及图片进行判断，并且记录出现的时间对后续的判断提供帮助；

2.本发明还通过对获取到的有害语言文字、有害文字以及有害图片进行计算，得出有害语言系数、有害文字系数以及有害图片系数，基于有害语言系数、有害文字系数以及有害图片系数进行综合分析，得出分析的视频的有害系数，对有害系数进行分析，基于分析结果向预警处理单元发送信号，这样的好处在于能够对有害语言文字、有害文字以及有害图片进行综合分析，能够减少人工的工作量，对于含有违规因素高的视频再通过人工进行处理；

3.本发明还通过获取直播视频中各个时间段内评论的数量，基于获取到的评论数量判断直播视频中出现波动的时间点，通过评论较多的时间点与有害语言文字、有害文字以及有害图片出现的时间进行匹配分析，基于分析结果判断是否向预警处理单元发送有害评论激增信号，这样的好处在于能够基于直播波动的时间点分析是否是因为有害语言文字、有害文字或有害图片导致的直播波动，以此对直播视频进行二次判断，当直播有波动且在波动时间内有有害因素时，向预警处理单元发送有害评论激增信号，以达到对直播视频预警的目的。

本发明附加方面的优点将在下面的具体实施方式的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1为本发明的一种视频的敏感违规内容检测系统的原理框图；

图2为本发明的对直播视频进行时间轴切割后的评论数分布示意图。

实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

请参阅图1所示，本发明提供一种视频的敏感违规内容检测系统，包括语言分析模块、文字分析模块、图片分析模块、波动分析模块以及终端处理器，所述语言分析模块、文字分析模块、图片分析模块、波动分析模块与终端处理器通讯连接；

所述语言分析模块配置有语言预警策略，所述语言预警策略配置包括：

现有技术通过语言转换出来的文字与直接使用的文字有差异，因此将语言与文字分开进行处理，语言通过语言转文字再进行分析；

将所有语言文字中的有害语言文字筛选处理，有利于后续的判断和使用；

获取有害语言时间是为了后续在波动分析模块进行比对分析处理；

通过有害语言算法得出有害语言系数，所述有害语言算法包括将有害语言文字的数量与语言文字的数量的比值乘以100%，将得到的结果记为有害语言系数；

在具体实施过程中，检测到有害语言文字数量为60，语言文字数量为100，计算可得有害语言系数为60%；

所述文字分析模块配置有文字分析策略，所述文字分析策略包括：

提取到的关键词一般为国家、人物、地点等常用名词以及网络用语；

将所有文字中的有害文字时间进行筛选处理，有利于后续的判断和使用；

通过有害文字算法得出有害文字系数，所述有害文字算法包括将有害文字的数量与直播间内出现的文字以及观看用户的文字评论的数量的比值乘以100%，将得到的结果记为有害文字系数；

在具体实施过程中，检测到有害文字数量为10，文字数量为50，计算可得有害语言系数为20%；

所述图片分析模块配置有图片分析策略，所述图片分析策略包括：

在具体实施过程中，图片相似度的对比通过颜色对比和图案对比综合分析，首先对图片中的颜色进行分析，比如检测到了红色，然后对红色所在的图案进行分析，比如检测到了水滴状，将颜色和形状进行综合判断，得出图片中的图案近似为红色的血滴，在相关文件中红色的血滴为违规图案，因此将监测的图片记为有害图片；

将所有图片的有害图片时间进行筛选处理，有利于后续的判断和使用；

通过有害图片算法得出有害图片系数，所述有害图片算法包括将有害图片的数量与直播间内出现的图片以及观看用户发送的图片的数量的比值乘以100%，将得到的结果记为有害图片系数；

在具体实施过程中，检测到有害图片数量为30，图片数量为100，计算可得有害语言系数为30%；

所述波动分析模块配置有波动分析策略，所述波动分析策略包括：

请参阅图2所示，将直播视频从开始每隔第一间隔时间对直播视频进行切割，记为视频区间1至视频区间Y，对视频区间1至视频区间Y内直播间中出现的评论数量进行获取，将所有第一间隔时间内获取到的评论数量记为评论数1至评论数S，将评论数1至评论数S中的众数记为常规评论数，获取评论数1至评论数S中大于常规评论数的评论数并依次记为高频评论数1至高频评论数X，获取高频评论数1至高频评论数X所在的视频区间1至视频区间X，其中，视频区间X为视频区间1至视频区间Y内的任意一个视频区间，将视频区间1至视频区间X记为高频视频区间1至高频视频区间X；

在具体实施过程中，常规评论数由评论数1至评论数S中的众数进行获取而不是一个定量，这样有利于在分析不同直播视频中，根据直播视频的实际情况设定合适的常规评论数；

在具体实施过程中，在直播间内出现违规或者有害的语言、文字或图片时，一段时间内直播间内的评论量相比于平常通常会激增，将第二间隔时间设定为1小时，标记出评论量激增的视频区间后，与有害语言时间1至有害语言时间W1、有害文字时间1至有害文字时间W2以及有害图片时间1至有害图片时间W3进行匹配验证，用来判断是否是因为违规和有害言论造成的评论量激增，以达到双重验证的目的；

在具体实施过程中，这样做是为了防止语言预警模块、文字分析模块以及图片分析模块在分析时出现漏洞，使对直播视频的分析更加全面；

在具体实施过程中，有害评论激增信号代表对应的直播视频是由违规牵扯到评论量激增，因此对应的直播视频造成的影响较大，应当对直播视频进行人工监测；

通过有害波动算法得出有害波动系数，所述有害波动算法包括将有害视频区间的数量与视频区间的数量的比值乘以100%，将得到的结果记为有害波动系数；

在具体实施过程中，监测到有害视频区间的数量为5，视频区间的数量为25，计算得到有害波动系数为20%；

所述存储单元用于存储违规的语言、文字以及图片，所述有害文字库用于存储若干条约中设定的违规文字以及用词，所述有害语言库用于存储若干条约中设定的违规用语以及言论，所述有害图片库用于存储若干条约中设定的违规图片。

所述评估单元配置有综合评估策略，所述综合评估策略包括：

在评估算法中选择用ln是因为ln的函数图像在函数值大于零时，增长速率由快变慢，能够更加敏锐地检测到有害因素的变化，在自变量较小时，因变量能够以较大的速率正常，在自变量达到一定值后，因变量增长速率比较缓慢，保证在发送第三预警信号时有足够的违规因素；

当有害系数大于第二标准系数时，向预警处理单元发送高危险信号；

在具体实施过程中，第一标准系数为ln10，第二标准系数为ln15，第三标准系数为ln20，第一综合系数至第四综合系数设定为15、15、30、40监测到有害语言系数为30%，有害文字系数为10%，有害图片系数为4%，有害波动系数为10%，计算得到有害系数为ln12.2，向预警处理单元发送中危险信号；

所述预警处理单元用于基于有害系数以及波动分析模块的分析结果对直播视频进行相应的处理；

所述预警处理单元配置有预警处理策略，所述预警处理策略包括：

当接收到低危险信号时，向工作人员发送第一预警信号；

当接收到中危险信号时，向工作人员发送第二预警信号；

工作原理：本发明通过获取的直播视频内的语言、文字以及图片进行分析，通过与有害语言库、有害文字库以及有害图片库内的违规关键词和图片进行对比分析，获取直播视频中的有害语言文字、有害文字以及有害图片以及有害语言文字、有害文字以及有害图片出现的时间，对获取到的有害语言文字、有害文字以及有害图片进行计算，得出有害语言系数、有害文字系数以及有害图片系数，基于有害语言系数、有害文字系数以及有害图片系数进行综合分析，得出分析的视频的有害系数，对有害系数进行分析，基于分析结果向预警处理单元发送信号；本发明还通过获取直播视频中各个时间段内评论的数量，基于获取到的评论数量判断直播视频中出现波动的时间点，通过评论较多的时间点与有害语言文字、有害文字以及有害图片出现的时间进行匹配分析，基于分析结果判断是否向预警处理单元发送有害评论激增信号；预警处理单元基于评估单元的分析结果以及接收到的信号对直播视频进行预警处理。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static RandomAccess Memory，简称SRAM），电可擦除可编程只读存储器（Electrically ErasableProgrammable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（ErasableProgrammable Read Only Memory，简称EPROM），可编程只读存储器（Programmable Red-Only Memory，简称PROM），只读存储器（Read-OnlyMemory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频的敏感违规内容检测系统，其特征在于，包括语言分析模块、文字分析模块、图片分析模块、波动分析模块以及终端处理器，所述语言分析模块、文字分析模块、图片分析模块、波动分析模块与终端处理器通讯连接；

2.根据权利要求1所述的一种视频的敏感违规内容检测系统，其特征在于，所述存储单元用于存储违规的语言、文字以及图片，所述有害文字库用于存储若干条约中设定的违规文字以及用词，所述有害语言库用于存储若干条约中设定的违规用语以及言论，所述有害图片库用于存储若干条约中设定的违规图片。

3.根据权利要求1所述的一种视频的敏感违规内容检测系统，其特征在于，所述语言分析模块配置有语言预警策略，所述语言预警策略配置包括：

4.根据权利要求1所述的一种视频的敏感违规内容检测系统，其特征在于，所述文字分析模块配置有文字分析策略，所述文字分析策略包括：

若直播视频中直播间内出现的任意一条文字或任意一条文字评论对应的关键词与有害文字库中的违规文字以及用词相同，将这一关键词对应的一条文字或一条文字评论记为有害文字；

5.根据权利要求1所述的一种视频的敏感违规内容检测系统，其特征在于，所述图片分析模块配置有图片分析策略，所述图片分析策略包括：

6.根据权利要求5所述的一种视频的敏感违规内容检测系统，其特征在于，所述波动分析模块配置有波动分析策略，所述波动分析策略包括：

7.根据权利要求6所述的一种视频的敏感违规内容检测系统，其特征在于，所述评估单元配置有综合评估策略，所述综合评估策略包括：

8.根据权利要求7所述的一种视频的敏感违规内容检测系统，其特征在于，所述预警处理单元配置有预警处理策略，所述预警处理策略包括：

当接收到低危险信号时，向工作人员发送第一预警信号；

当接收到中危险信号时，向工作人员发送第二预警信号；