CN112685128B - 一种直播图片色情检测和图片过滤的方法 - Google Patents
一种直播图片色情检测和图片过滤的方法 Download PDFInfo
- Publication number
- CN112685128B CN112685128B CN202110144541.1A CN202110144541A CN112685128B CN 112685128 B CN112685128 B CN 112685128B CN 202110144541 A CN202110144541 A CN 202110144541A CN 112685128 B CN112685128 B CN 112685128B
- Authority
- CN
- China
- Prior art keywords
- picture
- screenshot
- service
- live
- pictures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种直播图片色情检测和图片过滤的方法,对直播流进行抽帧截图,并按顺序进行编号存储;读取带编号的截图进行前后图片相似度的检测;相似度检测通过后再把图片送到对应的服务商进行送检;对多个服务商的检测结果进行融合。本发明的直播图片色情检测和图片过滤的方法,在不增加成本的情况下,融合了多家服务商的识别结果,增加了识别的有效率和准确率;相似度过滤机制,有效在保障了识别效果的前提下,大大减少了送检图片的数量,节省了送检成本。
Description
技术领域
本发明涉及具体涉及一种直播图片色情检测和图片过滤的方法。
背景技术
随着互联网时代来临,各直播平台层出不穷,由于国家政策监管和平台调性需要,直播内容需要合法合规,因此直播内容不允许色情等违规行为的产生。
在以上背景下,需要一个能对用户直播内容进行系统自动识别、及时监管和检测的系统,在技术初期,主要是将直播内容按固定时间截图,送往服务方进行图片色情检测,然后针对返回的服务结果进行对应的结果标注,但由于技术盲点,而且直播画面也存在画面静止的情况,若画面静止或变动较小,这时候全量送审则图片检测成本较高,因各服务商的训练模型不同,训练出来的识别效果也有差异,无法对色情内容进行全面的打击和检测,所以单家服务商效果总是有限,误识别和漏识别率较高。加上服务商还有不稳定的因素存在,容易造成单点故障。
因此,有必要针对上述问题进行改进提出一种新的直播图片色情检测和图片过滤的方法。
发明内容
本发明的目的解决现有技术存在的问题,提供一种直播图片色情检测和图片过滤的方法,通过对直播图片进行截图、相似度检测,减少送检图片的漏检和重复检测,提高并融合多家服务商对直播图片的色情检测的有效性。
为实现上述目的,本发明的技术方案为一种直播图片色情检测和图片过滤的方法,包括如下步骤:
对直播流进行抽帧截图,并按顺序进行编号存储;读取带编号的截图进行前后图片相似度的检测;相似度检测通过后再把图片送到对应的服务商进行送检;对多个服务商的检测结果进行融合。
作为本发明进一步的方案,通过截图模块对直播流进行抽帧截图,截图模块将直播流按固定速度抽帧截图,截图的文件名采取序号递增形式保存,根据序号创建截图编号编号,截图编号为所述序号加1得到的值;将图片文件上传至云存储。
作为本发明进一步的方案,通过相似度检测服务模块对前后两张图片的相似度进行检测,具体包括以下步骤:
图片相似度服务使用截图编号来判断是否有新图片更新,图片有更新后,将最新的图片与上一张图片数据进行对比,当这图片差异度值>指定值时,将图片推入送检模块,并记录本次的图片送检点,此处送检点截图编号的记录,主要用于后续图片相似度对比模式的判断;
其中,所述图片相似度差异度值指的是:将两张图片进行 phash 算法算出的差异度值,phash 算法指的是:通过离散余弦变换(DCT)降低图片频率,将图片从像素域变换为频率域,计算DCT均值;再将每个DCT值,与平均值进行比较,大于或等于平均值,记为1,小于平均值,记为0,由此生成二进制数组,即可计算出两种图片的汉明距离即图片相似差异度值,差异度值越小,说明两张图片越相近,反之则图片差异度值较大,当相邻的两张图片很相似的时,可以认为直播画面变动很小,因此可判定图片的色情风险很低,此时可以不进行色情检测。通过日常测试,差异度值在20以下图片的变化很小只有稍微的光线的或头或嘴的变化,因此将指定值设置为20,在漏检率&成本上得到了比较好的平衡。
作为本发明进一步的方案,在相似度对比中,共分为两种模式,一种是严格模式,一种是普通模式,两种模式在对比过程中,由系统自动判定,判断逻辑为:本次检测的截图编号距离上一次图片送审的截图编号大于 7时,认定为严格模式(此时已经有多张截图未进行色情检测了),小于7时则为普通模型,此模式主要解决了在多张图片没有送审检测的情况下,降低相识度服务的敏感度,用于送审最新的截图。
其中,普通模式指的是正常相似度对比,判断条件为:上述步骤记录的上一次送检点图片距离当前图片没有超过固定的阀值(7张),此模式下两张相似度差异度值为20,当相近的两张图片差异度值 >20时则可判断直播画面有较大的变动,此时需要送检,推入到送审模块,此处阀值7张的依据是 7张图片*2(截图2秒1张)= 14秒(直播)系统认定14秒的画面变动较少时可认定为直播用户已经离开较长时间,此时可切成严格模式检查;
严格模式指的是,直播画面已经有连续有多张图片相似度<20,此时直播画面变动较小,则已经有多张没有送审,此时为严格模式,严格模式的图片差异度值为>10,当差异度值>10则推入送检模块;
兜底机制,在连续有多张(100张)没有进行色情检测时,此时为避免违规图片产生,将不进行相识度检测,直接送审进行色情检测,此处100张的依据是 100张图片 = 2秒1张图片 = 200秒(3分钟)此时为避免色情风险,因此需要将最新的图片进行色情检测,此策略主要用于避免漏检的情况。
作为本发明进一步的方案,根据相似度检测后得到的带序号的送检截图通过送审模块对应服务商进行送检包括以下步骤:
送审模块根据送检配置,通过对截图的截图编号的尾数求余,求余逻辑为:截图编号除以10,比如19 除以10 = 9,得出该截图编号的尾号后按预先设定好的送检配置进行送检,预先送检配置譬如:尾号数=1,3,5的送往 a服务商,2,4,6送往 b服务商;
作为本发明进一步的方案,送检配置还可根据 ab服务商接口返回的耗时情况动态分配,当请求 a服务商服务返回结果耗时比较长时,将逐步降低对 a服务商的送检比例,增加 b服务商送检,此处耗时较长的检测规则是:
耗时通过对服务请求前时间的记录和服务拿到结果的时间差所得;
通过对多次服务请求的时间差,在服务多次返回的耗时相比正常情况高出100%时,此时认定为服务商服务异常,同时服务还会对送审队列进行待送审数量的监控,当待送审数量积压较多时,也将触发动态分配逻辑。此方法有效对服务商的进行了均衡分配,大大降低了对某一家服务商的依赖。
作为本发明进一步的方案,采用结果融合模块对各服务商的检测结果进行融合,具体包括以下步骤:
在服务商的结果返回后,根据返回结果的不同,将没有涉黄的结果剔除,将各家服务商涉黄的结果集合推入到 redis 队列中,
消费结果队列,将识别到的结果&图片的编号&服务商名称,标记到对应的直播上,如色情90分,服务商 a,图片编号2;色情80分,服务商 b,图片编号5,同时进行数据存储。
根据前述步骤的数据存储结果,统一映射到可视化界面上,审核人员即可在可视化界面上进行查看&识别结果参考,从而实现了对识别结果融合。
与现有技术相比,本发明的有益效果:本发明的直播图片色情检测和图片过滤的方法,在不增加成本的情况下,融合了多家服务商的识别结果,增加了识别的有效率和准确率;相似度过滤机制,有效在保障了识别效果的前提下,大大减少了送检图片的数量,节省了送检成本。
附图说明
图1为本发明的流程图。
图2为本发明中耗时情况动态分配方法的流程图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的技术方案为一种直播图片色情检测和图片过滤的方法,包括如下步骤:
通过截图服务中的截图模块对直播流进行抽帧截图,截图模块将直播流按固定速度抽帧截图,并保存最新的截图序号;截图的文件名采取序号递增形式保存,根据序号创建截图编号,截图编号为所述序号加1得到的值;将图片文件上传至云存储。由于直播流文件较大,不能将直播的直播流直接进行色情检测,因此需要对直播流进行抽帧截图,截图模块将直播流按2秒一张(既减少了视频流的体积,又能及时进行色情检测)抽帧截图,截图成功后,读取当前已截图的数量,若数量为0,则当前图片的文件名命名为1.jpg,否则则在已有的数量上+1命名(如,读取到的数量是10,则本次的截图文件名为11.jpg),并将截图数量保存起来,便于下次截图获取数量。
本实施例的截图模块的具体技术方案为:通过全量正在直播的服务,获取到当前正在直播的全量直播 id,此时需要判定当前的截图机器集群数,把直播 live_id 和截图机器的集群数求余,当余数等于当前机器序号时,通过 ps 命令判断该直播间的截图进程是否存在,若存在,则忽略,若不存在则启动截图进程。此时还需要注意点是:若目前正在运行的截图进程,不在正在直播的 id里,则需要对此进程进行停止。
截图进程通过直播 id,获取到直播的拉流地址,使用 ffmpeg 进行定时抽帧,ffmpeg抽帧成功后将图片使用直播 id 作为文件夹保存在本地,此时上传脚本会实时扫描各个截图目录下新增的截图图片,将新增的截图上传至 oss 上,上传完成后,删除本地对应的图片。
通过相似度检测服务模块对前后两张图片的相似度进行检测,具体包括以下步骤:
图片相似度服务使用截图的序号用来判断是否有新图片更新,图片有更新后,将图片最新的图片与上一张图片数据进行对比,当这图片差异度值>指定值时,将图片推入送检模块,并记录本次的图片送检点,此处送检点的记录,主要用于后续图片相似度对比模式的判断;
其中,所述图片相似度差异度值指的是:将两张图片进行 phash 算法算出的差异度值,phash 算法指的是:通过离散余弦变换(DCT)降低图片频率,将图片从像素域变换为频率域,计算DCT均值;再将每个DCT值,与平均值进行比较,大于或等于平均值,记为1,小于平均值,记为0,由此生成二进制数组,即可计算出两种图片的汉明距离即图片相似差异度值,差异度值越小,说明两张图片越相近,反之则图片差异度值较大,当相邻的两张图片很相似的时,可以认为直播画面变动很小,因此可判定图片的色情风险很低,此时可以不进行色情检测。通过日常测试,差异度值在20以下图片的变化很小只有稍微的光线的或头或嘴的变化,因此将指定值设置为20,在漏检率&成本上得到了比较好的平衡。
本实施例的相似度对比中,共分为两种模式,一种是严格模式,一种是普通模式,两种模式在对比过程中,由系统自动判定,判断逻辑为:本次检测的图片编号距离上一次图片送审的图片编号大于 7张时,认定为严格模式(此时已经有多张截图未进行色情检测了),小于7张时则为普通模型,此模式主要解决了在多张图片没有送审检测的情况下,降低相识度服务的敏感度,用于送审最新的截图。
其中,普通模式指的是正常相似度对比,判断条件为:上述步骤记录的上一次送检点图片距离当前图片没有超过固定的阀值(7张),此模式下两张相似度差异度值为20,当相近的两张图片差异度值 >20时则可判断直播画面有较大的变动,此时需要送检,推入到送审模块,此处阀值7张的依据是 7张图片*2(截图2秒1张)= 14秒(直播)系统认定14秒的画面变动较少时可认定为直播用户已经离开较长时间,此时可切成严格模式检查;
严格模式指的是,直播画面已经有连续有多张图片相似度<20,此时直播画面变动较小,则已经有多张没有送审,此时为严格模式,严格模式的图片差异度值为>10,当差异度值>10则推入送检模块;
兜底机制,在连续有多张(100张)没有进行色情检测时,此时为避免违规图片产生,将不进行相识度检测,直接送审进行色情检测,此处100张的依据是 100张图片 = 2秒1张图片 = 200秒(3分钟)此时为避免色情风险,因此需要将最新的图片进行色情检测,此策略主要用于避免漏检的情况。
根据相似度检测后得到的带序号的送检截图通过送审模块对应服务商进行送检包括以下步骤:
送审模块根据送检配置,通过对截图编号的尾数求余,求余逻辑为:截图编号除以10,比如19 除以10 = 9,得出该图片编号的尾号后按配置好的送检配置送检,送检配置譬如:尾号数=1,3,5的送往 a服务商,2,4,6送往 b服务商;
参见图2,作为本发明进一步的方案,送检配置还可根据 ab服务商接口返回的耗时情况动态分配,当请求 a服务商服务返回结果耗时比较长时,将逐步降低对 a服务商的送检比例,增加 b服务商送检,此处耗时较长的检测规则是:
耗时通过对服务请求前时间的记录和服务拿到结果的时间差所得;
通过对多次服务请求的时间差,在服务多次返回的耗时相比正常情况高出100%时,此时认定为服务商服务异常,同时服务还会对送审队列进行待送审数量的监控,当待送审数量积压较多时,也将触发动态分配逻辑。此方法有效对服务商的进行了均衡分配,大大降低了对某一家服务商的依赖。
作为本发明进一步的方案,采用结果融合模块对各服务商的检测结果进行融合,具体包括以下步骤:
在服务商的结果返回后,根据返回结果的不同,将没有涉黄的结果剔除,将各家服务商涉黄的结果集合推入到 redis 队列中,
消费结果队列,将识别到的结果&图片的编号&服务商名称,标记到对应的直播上,如色情90分,服务商 a,图片编号2;色情80分,服务商 b,图片编号5,同时进行数据存储。
根据前述步骤的数据存储结果,统一映射到可视化界面上,审核人员即可在可视化界面上查看涉黄结果,从而实现了对识别结果融合。
本发明的直播图片色情检测和图片过滤的方法,在不增加成本的情况下,融合了多家服务商的识别结果,增加了识别的有效率和准确率;相似度过滤机制,有效在保障了识别效果的前提下,大大减少了送检图片的数量,节省了送检成本。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种直播图片色情检测和图片过滤的方法,其特征在于,包括如下步骤:
对直播流进行抽帧截图,并按顺序进行编号存储;读取带编号的截图进行前后图片相似度的检测,通过相似度检测服务模块对前后两张图片的相似度进行检测,具体包括以下步骤:
图片相似度服务使用截图编号来判断是否有新图片更新,图片有更新后,将最新的图片与上一张图片进行对比,当两张图片差异度值>指定值时,将最新的图片推入送检模块,并记录本次的图片送检点,此处送检点的记录,用于后续图片相似度对比模式的判断;在相似度对比中,共分为两种模式,一种是严格模式,一种是普通模式;两种模式在对比过程中,由系统自动判定,判断逻辑为:本次送检点的截图编号距离上一次图片送检点的截图编号大于7时,认定为严格模式,小于7时则为普通模式,其中,所述严格模式下的所述指定值为第一指定值,所述普通模式下的所述指定值为第二指定值,且第二指定值大于第一指定值;所述送检模块把图片送到对应的服务商进行送检;对多个服务商的检测结果进行融合。
2.根据权利要求1所述的直播图片色情检测和图片过滤的方法,其特征在于,通过截图模块对直播流进行抽帧截图,截图模块将直播流按固定速度抽帧截图,记录序号,截图的文件名采取序号递增形式保存,根据序号创建截图编号,截图编号为所述序号加1得到的值;带有截图编号文件名的截图图片文件上传至云存储。
3.根据权利要求2所述的直播图片色情检测和图片过滤的方法,其特征在于,所述第二指定值设置为20。
4.根据权利要求3所述的直播图片色情检测和图片过滤的方法,其特征在于,判定连续有100张没有进行色情检测时,此时为避免违规图片产生,将不进行相似度检测,直接送审进行色情检测。
5.根据权利要求4所述的直播图片色情检测和图片过滤的方法,其特征在于,根据相似度检测后得到的送检截图通过所述送检模块对应服务商进行送检包括以下步骤:
送检模块根据送检配置,通过对截图文件名中的截图编号的尾数求余,求余逻辑为:图片截图编号除以10,得出该图片截图编号的尾号后按预先设定好的送检配置进行送检。
6.根据权利要求5所述的直播图片色情检测和图片过滤的方法,其特征在于,送检配置还包括根据服务商接口返回的耗时情况进行动态分配,当请求某服务商服务返回结果耗时比较长时,将逐步降低对该服务商的送检比例,增加其他服务商送检。
7.根据权利要求6所述的直播图片色情检测和图片过滤的方法,其特征在于,耗时的检测规则是:
耗时通过对服务请求前时间的记录和服务拿到结果的时间差所得;
通过对多次服务请求的时间差,在服务多次返回的耗时相比正常情况高出100%时,此时认定为服务商服务异常,同时服务还会对送检队列进行待送检数量的监控,当待送检数量积压较多时,也将触发动态分配逻辑。
8.根据权利要求7所述的直播图片色情检测和图片过滤的方法,其特征在于,采用结果融合模块对各服务商的检测结果进行融合,具体包括以下步骤:
在服务商的结果返回后,根据返回结果的不同,将没有涉黄的结果剔除,将各家服务商涉黄的结果集合推入到redis队列中,
消费结果队列,将识别到的结果、图片的截图编号和服务商名称,标记到对应的直播上,同时进行数据存储;
根据前述步骤的数据存储结果,统一映射到可视化界面上,审核人员即可在可视化界面上查看到各个服务商的涉黄结果,从而实现对识别结果融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144541.1A CN112685128B (zh) | 2021-02-03 | 2021-02-03 | 一种直播图片色情检测和图片过滤的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144541.1A CN112685128B (zh) | 2021-02-03 | 2021-02-03 | 一种直播图片色情检测和图片过滤的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112685128A CN112685128A (zh) | 2021-04-20 |
CN112685128B true CN112685128B (zh) | 2023-05-02 |
Family
ID=75457860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110144541.1A Active CN112685128B (zh) | 2021-02-03 | 2021-02-03 | 一种直播图片色情检测和图片过滤的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685128B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116208802A (zh) * | 2023-05-05 | 2023-06-02 | 广州信安数据有限公司 | 视频数据多模态合规检测方法、存储介质和合规检测设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996327A (zh) * | 2010-09-02 | 2011-03-30 | 西安电子科技大学 | 基于加权张量子空间背景建模的视频异常检测方法 |
CN109151499A (zh) * | 2018-09-26 | 2019-01-04 | 央视国际网络无锡有限公司 | 视频审核方法及装置 |
CN111345772A (zh) * | 2018-12-20 | 2020-06-30 | 重庆金山医疗器械有限公司 | 一种调节图像采集帧率的方法及胶囊内窥镜系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100354207B1 (ko) * | 2000-05-22 | 2002-09-27 | (주)인터정보 | 인터넷상의 음란물을 차단하는 방법 및 장치 |
US20040101042A1 (en) * | 2002-11-25 | 2004-05-27 | Yi-Kai Chen | Method for shot change detection for a video clip |
CN109144731A (zh) * | 2018-08-31 | 2019-01-04 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN111182314B (zh) * | 2018-11-12 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 直播流处理方法、装置及数据处理方法 |
CN111797752A (zh) * | 2020-06-29 | 2020-10-20 | 广州市百果园信息技术有限公司 | 违规视频检测方法、装置、设备及存储介质 |
-
2021
- 2021-02-03 CN CN202110144541.1A patent/CN112685128B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996327A (zh) * | 2010-09-02 | 2011-03-30 | 西安电子科技大学 | 基于加权张量子空间背景建模的视频异常检测方法 |
CN109151499A (zh) * | 2018-09-26 | 2019-01-04 | 央视国际网络无锡有限公司 | 视频审核方法及装置 |
CN111345772A (zh) * | 2018-12-20 | 2020-06-30 | 重庆金山医疗器械有限公司 | 一种调节图像采集帧率的方法及胶囊内窥镜系统 |
Non-Patent Citations (1)
Title |
---|
邹国奇 .不良视频检测系统的研究设计和实现.《中国优秀硕士论文 信息科技》 .2013,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112685128A (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729210B (zh) | 分布式服务集群的异常诊断方法和装置 | |
US20160197874A1 (en) | System for Social Media Tag Extraction | |
US11586842B2 (en) | System and method for machine learning based video quality assessment | |
CN111428083A (zh) | 视频监控警示方法、装置、设备及存储介质 | |
CN109710439B (zh) | 故障处理方法和装置 | |
CN111836118B (zh) | 视频处理方法、装置、服务器及存储介质 | |
CN112685128B (zh) | 一种直播图片色情检测和图片过滤的方法 | |
CN112686165A (zh) | 视频中目标对象的识别方法、装置、电子设备及存储介质 | |
TW202201969A (zh) | 用於對有害視頻文件進行過濾的裝置及方法 | |
US11282179B2 (en) | System and method for machine learning based video quality assessment | |
CN116189079A (zh) | 一种用于监控设备的异常检测方法及设备 | |
CN113824987B (zh) | 直播间首帧耗时的确定方法、介质、装置和计算设备 | |
CN114840286B (zh) | 基于大数据的业务处理方法及服务器 | |
CN111464835B (zh) | 基于动态验证的在线视频输出检测方法及服务器 | |
KR100930529B1 (ko) | 비디오 식별을 통한 유해 동영상 검열 시스템 및 방법 | |
CN115550638A (zh) | 一种摄像头状态检测系统及方法 | |
CN113569719B (zh) | 视频侵权判定方法、装置、存储介质及电子设备 | |
KR102308303B1 (ko) | 유해 동영상 파일을 필터링 하기 위한 장치 및 방법 | |
CN111553408B (zh) | 视频识别软件自动测试的方法 | |
CN113923443A (zh) | 一种网络录像机测试方法、装置及计算机可读存储介质 | |
CN110211085B (zh) | 一种图像融合质量评价方法和系统 | |
CN111818338A (zh) | 一种异常显示检测方法、装置、设备及介质 | |
CN110705518A (zh) | 一种视频检测方法及系统 | |
CN115017014B (zh) | 一种高速公路机电监测系统及方法 | |
CN113765738B (zh) | 基于多任务学习和层次分类的加密流量QoE检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |