CN110941729A

CN110941729A - 一种基于敏感标记的内容审查方法

Info

Publication number: CN110941729A
Application number: CN201911044646.9A
Authority: CN
Inventors: 刘桂荣
Original assignee: Yantai Vocational College
Current assignee: Yantai Vocational College
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-03-31

Abstract

本发明公开一种基于敏感标记的内容审查方法，该方法包括下述步骤：步骤一：通过数据采集模块获取敏感标记的内容文件，并将其传输到整合单元进行分类整合操作，得到音频文件、图像文件和文本文档；步骤二：整合单元将音频文件数据、图像文件数据和文本文档数据传输到识别单元，识别单元依据步骤一中标记的YPi、TXa和WBb识别文件种类，并将其分别传输到分析模块内的对应单元内，本发明通过音频分析单元和图像分析单元的设置，对音频和图像进行违规识别，同时，文本分析单元通过拼音个数、拼音首字母、拼音尾部以及声调对文本文档数据进行逐层筛选，并根据声调和拼音尾部数据进行敏感次出现频率计算，增加对敏感字的精确判断。

Description

一种基于敏感标记的内容审查方法

技术领域

本发明涉及内容审查技术领域，具体为一种基于敏感标记的内容审查方法。

背景技术

审查制度是指官方较权威机构对面向公众的文学、艺术、网络资源等领域的检查筛选，以达到其所预期的目的，这些是为了去除一些不健康内容，或者一些关键性的词语或内容。

公告号为CN100456830C的一种实现流媒体内容审查的用户终端设备，该实现流媒体内容审查的用户终端设备，解决了现有技术中如何在用户终端设备上实现视频码流的深度内容审查的问题，但是该实现流媒体内容审查的用户终端设备，无法在文件传输的过程中对文件进行快速的识别，对于一些敏感词相同字音无法识别，导致精确度较低，对于敏感内容没有明确的等级划分，为此，我们提出一种基于敏感标记的内容审查方法。

发明内容

本发明的目的在于通过数据采集模块获取敏感标记的内容文件，并将其传输到整合单元进行分类整合操作，整合单元将音频文件数据、图像文件数据和文本文档数据传输到识别单元，识别单元依据步骤一中标记的YPi、TXa和WBb识别文件种类，分析模块内的音频分析单元、图像分析单元和文本分析单元分别接收识别模块传输的音频文件数据、图像文件数据和文本文档数据，并将其与敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据一同进行分析操作，得出敏感字出现的频率数据，通过分析操作将步骤三中的敏感字出现的频率数据、生成图像违规信号和生成音频违规信号传输到判定单元，判定单元用于对敏感字出现的频率进行敏感判定，同时设定敏感等级，警报单元用于将一级违规信号、二级违规信号、三级违规信号和四级违规信号转换成一级警报信号、二级警报信号、三级警报信号和四级警报信号。

本发明所要解决的技术问题为：

(1)如何通过整合单元和识别单元的设置，将敏感标记的内容文件按照不同的类型进行分类并标记，来解决现有技术中难以快速的查询不同种类文件的问题；

(2)如何通过音频分析单元和图像分析单元的设置，对音频和图像进行违规识别，同时，文本分析单元通过拼音个数、拼音首字母、拼音尾部以及声调对文本文档数据进行逐层筛选，来解决现有技术中难以对敏感字进行精确识别的问题；

(3)如何通过分析操作的设置，对敏感字进行违规判断，同时制定违规等级，对判定后的违规信息设定等级划分，来解决现有技术中无法对敏感字的影响程度进行判断的问题。

本发明的目的可以通过以下技术方案实现：一种基于敏感标记的内容审查方法，该方法包括下述步骤：

步骤一：通过数据采集模块获取敏感标记的内容文件，并将其传输到整合单元进行分类整合操作，得到音频文件、图像文件和文本文档；

步骤二：整合单元将音频文件数据、图像文件数据和文本文档数据传输到识别单元，识别单元依据步骤一中标记的YPi、TXa和WBb识别文件种类，并将其分别传输到分析模块内的对应单元内；

步骤三：数据库内存储有敏感字数据，敏感字数据包括敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据，分析模块内的音频分析单元、图像分析单元和文本分析单元分别接收识别模块传输的音频文件数据、图像文件数据和文本文档数据，并将其与敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据一同进行分析操作，得到敏感字出现频率和同音字出现频率；

步骤四：通过分析操作将步骤三中的敏感字出现的频率数据、生成图像违规信号和生成音频违规信号传输到判定单元，判定单元用于对敏感字出现的频率进行敏感判定，同时设定敏感等级，得到一级违规信号、二级违规信号、三级违规信号和四级违规信号，并将其传输到警报单元；

步骤五：警报单元用于将一级违规信号、二级违规信号、三级违规信号和四级违规信号转换成一级警报信号、二级警报信号、三级警报信号和四级警报信号，并将警报信号传输至智能设备。

作为本发明的进一步改进方案：分类整合操作的具体操作过程为：

S1：获取铭感标记的内容文件并识别其拓展名，依据其拓展名对其进行分类；

S2：当拓展名为rm、mpg和avi的文件时，将其归为音频文件，并将其标记为YPi，i＝1，2,3......n；

S3：当拓展名为Pcx、Bmp、Gif和Jpg的文件时，将其归为图像文件，并将其标记为TXa,a＝1,2,3......m；

S4：当拓展名为Txt时将其归为文本文档，并将其标记为WBb，b＝1,2,3......c。

作为本发明的进一步改进方案：分析操作的具体操作过程为：

E1：音频分析单元获取音频文件数据，并通过智能音频识别技术对多组特定的语音进行识别，特定的语音为工作人员设定的多个敏感字汇，当智能音频识别技术识别到多组特定语音中任意一种时，则判定该音频文件数据违规，生成音频违规信号，当智能音频识别技术没有识别到上述特定语音时，则判定该音频文件数据安全，生成音频安全信号；

E2：图像分析单元获取图像文件数据，并通过图像识别技术对图像文件数据进行识别，将识别后的图像数据与数据库内存储的涉嫌违规图像进行比对，当识别后的图像数据∈涉嫌违规图像时，则判定该图像文件数据涉嫌或违规，生成图像违规信号，当识别后的图像数据

涉嫌违规图像时，则判定该图像文件数据安全，生成图像安全信号；

E3：文本分析单元获取文本文档数据，并通过监测单元对文本文档数据进行分析，具体为：

C1：获取文本文档数据内的文字总数数据、拼音个数数据、拼音首字母数据、尾部拼音数据和声调数据，并将拼音个数数据、拼音首字母数据、尾部拼音数据和声调数据依次标记为Zo、Go、Po、Bo和Do，o＝1,2,3......u，且Go、Po、Bo和Do一一对应；

C2：获取敏感文字数据，将敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据分别标记为G_效、P_效、B_效和D_效；

C3：首先根据不同敏感文字的拼音位数对文本文档进行筛选，选取出拼音个数数据相同的文字表示为Go＝G_效，再从拼音个数数据相同的文字中选取出首字母相同的文字表示为Po＝P_效，从首字母相同的文字中选取出尾部拼音相同的文字表示为Bo＝B_效，最终从尾部拼音相同的文字中选取出声调相同的文字表示为Do＝D_效；

C4：获取Do＝D_效的相同个数，并将其次数标记为CD，依据计算式敏感字出现频率＝CD/Zo，获取Bo＝B_效的相同个数，并将其次数标记为CB，依据计算式同音字出现频率＝CB/Zo。

作为本发明的进一步改进方案：敏感判定的具体判定过程如下：

H1：获取敏感字出现频率数据和同音字出现频率，设定一个预设值和第二预设值，将敏感字出现频率和同音字出现频率分别与预设值进行比对，当敏感字出现频率＞第一预设值时，则判定该文本文档内容涉及到敏感内容，生成文字违规信号，当敏感字出现频率＜第一预设值时，则判定该文本文档内容没有涉及到敏感内容，当同音字出现频率＞第二预设值时，则判定该文本文档内容涉及到敏感内容，生成同音字违规信号，当同音字出现频率＜第二预设值时，则判定该文本文档内容没有涉及到敏感内容；

H2：根据上述步骤三中的分析结果，对敏感标记的内容信息进行判定，具体为：当判定单元接收到同音字违规信号、文字违规信号、图像违规信号和音频违规信号三者中的任意一种信号时，均判定该敏感标记的内容信息存在违规；

H3：针对上述H1和H2设计的违规内容，制定违规等级，违规等级的设定具体为：

①当判定单元接收到同音字违规信号、文字违规信号、图像违规信号和音频违规信号四者中的任意一种信号时，则将违规等级标定为一级违规信号；

②当判定单元接收到同音字违规信号、文字违规信号、图像违规信号和音频违规信号四者中的任意二种信号时，则将违规等级标定为二级违规信号；

③当判定单元接收到同音字违规信号、文字违规信号、图像违规信号和音频违规信号四者中的任意三种信号时，则将违规等级标定位三级违规信号；

④当判定单元接收到同音字违规信号、文字违规信号、图像违规信号和音频违规信号四种信号时，则将违规等级标定为四级违规信号；

H4：判定单元将一级违规信号、二级违规信号、三级违规信号和四级违规信号传输到警报单元。

本发明的有益效果：

(1)通过数据采集模块获取敏感标记的内容文件，并将其传输到整合单元进行分类整合操作，整合单元将音频文件数据、图像文件数据和文本文档数据传输到识别单元，识别单元依据步骤一中标记的YPi、TXa和WBb识别文件种类，并将其分别传输到分析模块内的对应单元内，通过整合单元和识别单元的设置，将敏感标记的内容文件按照不同的类型进行分类并标记，便于快速的识别不同种类的文件数据，节省查询时间，提高工作效率。

(2)数据库内存储有敏感字数据，敏感字数据包括敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据，分析模块内的音频分析单元、图像分析单元和文本分析单元分别接收识别模块传输的音频文件数据、图像文件数据和文本文档数据，并将其与敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据一同进行分析操作，通过音频分析单元和图像分析单元的设置，对音频和图像进行违规识别，同时，文本分析单元通过拼音个数、拼音首字母、拼音尾部以及声调对文本文档数据进行逐层筛选，并根据声调和拼音尾部数据进行敏感次出现频率计算，增加对敏感字的精确判断。

(3)通过分析操作将步骤三中的敏感字出现的频率数据、生成图像违规信号和生成音频违规信号传输到判定单元，判定单元用于对敏感字出现的频率进行敏感判定，同时设定敏感等级，警报单元用于将一级违规信号、二级违规信号、三级违规信号和四级违规信号转换成一级警报信号、二级警报信号、三级警报信号和四级警报信号，并将警报信号传输至智能设备，通过分析操作的设置，对敏感字进行违规判断，同时制定违规等级，对判定后的违规信息设定等级划分，从而对敏感标记的内容的危害性进行更精确的判断，增加敏感标记的内容对社会及他人的影像。

具体实施方式

对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明为一种基于敏感标记的内容审查方法，其特征在于，该方法包括下述步骤：

步骤一：通过数据采集模块获取敏感标记的内容文件，并将其传输到整合单元进行分类整合操作，分类整合操作的具体操作过程为：

S4：当拓展名为Txt时将其归为文本文档，并将其标记为WBb，b＝1,2,3......c；

步骤三：数据库内存储有敏感字数据，敏感字数据包括敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据，分析模块内的音频分析单元、图像分析单元和文本分析单元分别接收识别模块传输的音频文件数据、图像文件数据和文本文档数据，并将其与敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据一同进行分析操作，分析操作的具体操作过程为：

C1：获取文本文档数据内的文字总数数据、拼音个数数据、拼音首字母数据、尾部拼音数据和声调数据，文字总数数据指代该敏感标记的内容文件中所有的文字总数，拼音个数数据指代每一个文字拼音的位数，尾部拼音数据指代该文字除了首字母之外所有的拼音，声调数据指代每个文字拼音的声调，并将拼音个数数据、拼音首字母数据、尾部拼音数据和声调数据依次标记为Zo、Go、Po、Bo和Do，o＝1,2,3......u，且Go、Po、Bo和Do一一对应；

C4：获取Do＝D_效的相同个数，并将其次数标记为CD，依据计算式敏感字出现频率＝CD/Zo，获取Bo＝B_效的相同个数，并将其次数标记为CB，依据计算式同音字出现频率＝CB/Zo；

步骤四：通过分析操作将步骤三中的敏感字出现的频率数据、生成图像违规信号和生成音频违规信号传输到判定单元，判定单元用于对敏感字出现的频率进行敏感判定，同时设定敏感等级，具体判定过程如下：

H4：判定单元将一级违规信号、二级违规信号、三级违规信号和四级违规信号传输到警报单元；

本发明在工作时，通过数据采集模块获取敏感标记的内容文件，并将其传输到整合单元进行分类整合操作，整合单元将音频文件数据、图像文件数据和文本文档数据传输到识别单元，识别单元依据步骤一中标记的YPi、TXa和WBb识别文件种类，并将其分别传输到分析模块内的对应单元内，数据库内存储有敏感字数据，敏感字数据包括敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据，分析模块内的音频分析单元、图像分析单元和文本分析单元分别接收识别模块传输的音频文件数据、图像文件数据和文本文档数据，并将其与敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据一同进行分析操作，通过分析操作将步骤三中的敏感字出现的频率数据、生成图像违规信号和生成音频违规信号传输到判定单元，判定单元用于对敏感字出现的频率进行敏感判定，同时设定敏感等级，警报单元用于将一级违规信号、二级违规信号、三级违规信号和四级违规信号转换成一级警报信号、二级警报信号、三级警报信号和四级警报信号，并将警报信号传输至智能设备。

本发明通过获取铭感标记的内容文件并识别其拓展名，依据其拓展名对其进行分类，当拓展名为rm、mpg和avi的文件时，将其归为音频文件，并将其标记为YPi，当拓展名为Pcx、Bmp、Gif和Jpg的文件时，将其归为图像文件，并将其标记为TXa,a＝1；当拓展名为Txt时将其归为文本文档，并将其标记为WBb，便于文件的快速识别和读取节省查找时间；

同时文本分析单元获取文本文档数据，并通过监测单元对文本文档数据进行分析，具体为：获取文本文档数据内的文字总数数据、拼音个数数据、拼音首字母数据、尾部拼音数据和声调数据，并将拼音个数数据、拼音首字母数据、尾部拼音数据和声调数据依次标记为Zo、Go、Po、Bo和Do，获取敏感文字数据，将敏感拼音个数数据、敏感拼音首字母数据、敏感文字尾部拼音数据和敏感文字声调数据分别标记为G_效、P_效、B_效和D_效，首先根据不同敏感文字的拼音位数对文本文档进行筛选，选取出拼音个数数据相同的文字表示为Go＝G_效，再从拼音个数数据相同的文字中选取出首字母相同的文字表示为Po＝P_效，从首字母相同的文字中选取出尾部拼音相同的文字表示为Bo＝B_效，最终从尾部拼音相同的文字中选取出声调相同的文字表示为Do＝D_效，获取Do＝D_效的相同个数，并将其次数标记为CD，依据计算式敏感字出现频率＝CD/Zo，获取Bo＝B_效的相同个数，并将其次数标记为CB，依据计算式同音字出现频率＝CB/Zo，通过文本分析单元依据拼音位数、首字母、拼音尾部以及声调的逐步筛选，获取精确的敏感字出现频率。

同时获取敏感字出现频率数据和同音字出现频率，设定一个预设值和第二预设值，将敏感字出现频率和同音字出现频率分别与预设值进行比对，当敏感字出现频率＞第一预设值时，则判定该文本文档内容涉及到敏感内容，生成文字违规信号，当敏感字出现频率＜第一预设值时，则判定该文本文档内容没有涉及到敏感内容，当同音字出现频率＞第二预设值时，则判定该文本文档内容涉及到敏感内容，生成同音字违规信号，当同音字出现频率＜第二预设值时，则判定该文本文档内容没有涉及到敏感内容，根据上述步骤三中的分析结果，对敏感标记的内容信息进行判定，具体为：当判定单元接收到同音字违规信号、文字违规信号、图像违规信号和音频违规信号三者中的任意一种信号时，均判定该敏感标记的内容信息存在违规，针对上述H1和H2设计的违规内容，制定违规等级，通过对敏感字出现频率和同音字出现频率的分析比对与图像违规和音频违规进行分析，从而设定违规等级制度，对敏感标记的内容进行审查。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于敏感标记的内容审查方法，其特征在于，该方法包括下述步骤：

2.根据权利要求1所述的一种基于敏感标记的内容审查方法，其特征在于，分类整合操作的具体操作过程为：

3.根据权利要求1所述的一种基于敏感标记的内容审查方法，其特征在于，分析操作的具体操作过程为：

4.根据权利要求1所述的一种基于敏感标记的内容审查方法，其特征在于，具体判定过程如下：