CN109918638A - 一种网络数据监测方法 - Google Patents
一种网络数据监测方法 Download PDFInfo
- Publication number
- CN109918638A CN109918638A CN201811482480.4A CN201811482480A CN109918638A CN 109918638 A CN109918638 A CN 109918638A CN 201811482480 A CN201811482480 A CN 201811482480A CN 109918638 A CN109918638 A CN 109918638A
- Authority
- CN
- China
- Prior art keywords
- character
- deserted
- semantic
- text
- repertoire
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种网络数据监测方法,该方法包括以下几个步骤:步骤1:待识别的文本数据获取并预处理;步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与无语义字符数B;步骤4:制定警告规则,提示网络监管。本发明的有益效果:1、人性化的根据企业要求制定监管策略,可以提高信息审查的效率,避免因人工监管带来的疏忽以及信息泄露,安全高效;2、根据不同的需求以及检查结果,及时的更新无语义字符库和冷僻字符库以及冷僻字符搭配表,可以提高信息检查的准确新,减少信息泄露的风险。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种网络数据监测方法。
背景技术
文本分类是指对文本按照一定的分类体系或者标准进行自动分类标记,文本分类包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程。
信息作为一种资源,它的普遍性、共享性、增值性、可处理性和多效用性,使其对于人类具有特别重要的意义。信息安全的实质就是要保护信息系统或信息网络中的信息资源免受各种类型的威胁、干扰和破坏,即保证信息的安全性。根据国际标准化组织的定义,信息安全性的含义主要是指信息的完整性、可用性、保密性和可靠性。信息安全是任何国家、政府、部门、行业都必须十分重视的问题,是一个不容忽视的国家安全战略。对于不同的部门和行业来说,其对信息安全的要求和重点却是有区别的。
对于一个企业来说,如果发生未公开信息或者方案遭到泄密对一个企业来说是存在很大的隐患的,因此在信息加密以及信息监控方面需要不断去开发新技术,以应对不同企业的不同需求,保证信息安全。
中国专利,公开号:CN 104539624 A,公开日:2015年4月22日,公开了一种文本中号码信息的安全监测方法及装置,本发明提供一种文本中号码信息的安全监测方法,包括以下步骤:获取包含号码的文本消息;提取文本消息中的号码信息;发送包含号码信息的安全检测请求至服务器端;获取服务器端返回的检测结果,当该检测结果表征号码信息应被拦截时,拦截号码信息对应的文本消息。该方法能够将上述方式通过将文本消息中的号码信息与黑号码库中的信息进行匹配,能够准确地识别垃圾消息,减少用户损失。但不能及时的根据文本消息中的内容去区别黑号码,也不能及时的更新黑号码库,当遇到新的黑号码内容时,不能保证下一次能够拦截。
发明内容
本发明的目是针对企业文件中一些涉及信息泄露的关键字或关键词,在文案倒出过程中需要对文案的整体信息进行一个泄密排查,提出了一种网络数据监测方法,该方法可以有效监察到文档中涉及到的泄密内容,并作出警告以及后续的警告处理步骤。
为实现上述技术目的,本发明提供的一种技术方案是,一种网络数据监测方法,该方法包括以下几个步骤:
步骤1:待识别的文本数据获取并预处理;
步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;
步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与无语义字符数B;
步骤4:制定警告规则,提示网络监管。
进一步的,所述步骤1包括:
步骤11:网络文本数据的获取;
步骤12:对获取到的网络文本数据进行分词处理,对文本中的无语义字符和冷僻字符进行提取和分类。本方案中,网络文本来源可以是企业的文档,也可以是大型论坛,贴吧等公共网络舆论场所;将文本中的的汉字以及字符通过所占字符数进行区分,特别的,对文档中的数字内容可以根据设定规则作为冷僻字,用于防止因为数字串对应的代码、编码或者暗号而产生的信息泄密。
进一步的,所述步骤2包括:
步骤21:建立无语义字符库和冷僻字符库,搭建冷僻字符搭配表,将与冷僻字相邻的一定字符长度的字符串制定一个字符串集合,以冷僻字作为搜索关键字核心目标进行匹配。本方案中,无语义字符库和冷僻字符库都是根据大数据分析采集训练得到,无语义字符库和冷僻字符库根据数据监管的力度以及涉密级别的大小不断的调整阀值N,达到企业需要达到的保密及被,提高数据处理效率;
步骤22:设定文本中的字符遍历相同字符出现的次数阀值N,用以制定警告,提示需要网络监管。本方案中,所述的阀值可以更具企业的对文档的安全系数进行调整。
进一步的,所述步骤3包括:
步骤31:对文本进行特征提取,将冷僻字符和无语义字符进行类别识别;
步骤32:分别遍历冷僻字符相邻的无语义字符数以及冷僻字符,通过与无语义字符库和冷僻字符库的对照,记录无语义字符以及冷僻字符出现的次数;
进一步的,所述步骤4包括:
步骤41:统计遍历整篇文本的冷僻字符出现次数A和无语义字符数B,与设定阀值N进行对比;
步骤42:判定:若A>=N,则剔除整篇文档的无语义字符,将剔除无语义字符后的生僻字符与冷僻字符库进行匹配,若匹配成功,则生成关键字;若匹配不成功,更新所述冷僻字符库和所述冷僻字符搭配表;若B >=N,将剔除生僻字符的文档与无语义字符表匹配,若匹配成功,则发出警告,若匹配不成功,更新无语义字符表。
步骤43:制定关键词集合,以关键字为中心,提取关键字以及相邻的字符作为关键词,生成关键词集合;
步骤44:将关键词集合与冷僻字符搭配表进行匹配,若匹配成功,提示警告,需要网络监管。
进一步的,所述的步骤42包括:更新冷僻字符库以及更新冷僻字符搭配表;
所述关键字如果不在冷僻字符库,需要更新所述冷僻字符库和所述冷僻字符搭配表,具体步骤如下:
步骤421:将关键字作为冷僻字添加到冷僻字符表中,生成新的冷僻字符表作为下一次遍历文本的冷僻字符表;
进一步的,所述的更新冷僻字符搭配表有以下规则;
步骤422:遍历整篇文档,记录无语义字符的个数B,若B>=A/2,则将此无语义的字符以及与其相邻的冷僻字符作为关键词,放入关键词集合,将生成的关键词集合添加到所述冷僻字符搭配表中,生成新的冷僻字符搭配表供下一次遍历文本对照。
进一步的,所述的冷僻字符表可以对关键词集合进行语义分析,通过企业对不同信息的安全级别要求,通过计算语义权重,进行语义判别,制定不同的警告策略。
进一步的,所述的警告策略根据语义分析以及所占语义的权重制定不同的网络监管方法,所述网络监管方法分别为注销IP以及IP跟踪、禁止输入、文本模糊化处理。
本发明的有益效果:按照本发明的计算机文本信息安全自动监控预警方法,对待处理文档进行识别预处理,预处理后的文档与无语义字符库和冷僻字符库进行匹配,根据企业对信息安全级别制定判定规则,进行无语义字符库和冷僻字符库以及冷僻字符搭配表的更新,方便对信息进行检测和警告。该方法具有以下优点:1、人性化的根据企业要求制定监管策略,可以提高信息审查的效率,避免因人工监管带来的疏忽以及信息泄露,安全高效;2、根据不同的需求以及检查结果,及时的更新无语义字符库和冷僻字符库以及冷僻字符搭配表,可以提高信息检查的准确新,减少信息泄露的风险。
附图说明
图1为本发明的一种网络数据监测方法流程图。
图2为本发明的一种网络数据监测方法的字符库更新流程图。
具体实施方式
为使本发明的目的、技术方案以及优点更加清楚明白,下面结合附图和实施例对本发明作进一步详细说明,应当理解的是,此处所描述的具体实施方式仅是本发明的一种最佳实施例,仅用以解释本发明,并不限定发明的保护范围,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种网络数据监测方法,该方法包括以下几个步骤:
步骤1:待识别的文本数据获取并预处理;
步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;
步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与无语义字符数B;
步骤4:制定警告规则,提示网络监管。
进一步的,所述步骤1包括:
步骤11:网络文本数据的获取;
步骤12:对获取到的网络文本数据进行分词处理,对文本中的无语义字符和冷僻字符进行提取和分类。本实施例中,网络文本来源可以是企业的文档,也可以是大型论坛,贴吧等公共网络舆论场所;将文本中的的汉字以及字符通过所占字符数进行区分,特别的,对文档中的数字内容可以根据设定规则作为冷僻字,用于防止因为数字串对应的代码、编码或者暗号而产生的信息泄密。
进一步的,所述步骤2包括:
步骤21:建立无语义字符库和冷僻字符库,搭建冷僻字符搭配表,将与冷僻字相邻的一定字符长度的字符串制定一个字符串集合,以冷僻字作为搜索关键字核心目标进行匹配。本方案中,无语义字符库和冷僻字符库都是根据大数据分析采集训练得到,无语义字符库和冷僻字符库根据数据监管的力度以及涉密级别的大小不断的调整阀值N,达到企业需要达到的保密及被,提高数据处理效率;
步骤22:设定文本中的字符遍历相同字符出现的次数阀值N,用以制定警告,提示需要网络监管。本实施中,所述的阀值可以更具企业的对文档的安全系数进行调整。
进一步的,所述步骤3包括:
步骤31:对文本进行特征提取,将冷僻字符和无语义字符进行类别识别;
步骤32:分别遍历冷僻字符相邻的无语义字符数以及冷僻字符,通过与无语义字符库和冷僻字符库的对照,记录无语义字符以及冷僻字符出现的次数;
进一步的,所述步骤4包括:
步骤41:统计遍历整篇文本的冷僻字符出现次数A和无语义字符数B,与设定阀值N进行对比;
步骤42:判定:若A>=N,则剔除整篇文档的无语义字符,将剔除无语义字符后的生僻字符与冷僻字符库进行匹配,若匹配成功,则生成关键字;若匹配不成功,更新所述冷僻字符库和所述冷僻字符搭配表;若B >=N,将剔除生僻字符的文档与无语义字符表匹配,若匹配成功,则发出警告,若匹配不成功,更新无语义字符表。
步骤43:制定关键词集合,以关键字为中心,提取关键字以及相邻的字符作为关键词,生成关键词集合;
步骤44:将关键词集合与冷僻字符搭配表进行匹配,若匹配成功,提示警告,需要网络监管。
进一步的,所述的步骤42包括:更新冷僻字符库以及更新冷僻字符搭配表;
所述关键字如果不在冷僻字符库,需要更新所述冷僻字符库和所述冷僻字符搭配表,具体步骤如下:
步骤421:将关键字作为冷僻字添加到冷僻字符表中,生成新的冷僻字符表作为下一次遍历文本的冷僻字符表;
进一步的,所述的更新冷僻字符搭配表有以下规则;
步骤422:遍历整篇文档,记录无语义字符的个数B,若B>=A/2,则将此无语义的字符以及与其相邻的冷僻字符作为关键词,放入关键词集合,将生成的关键词集合添加到所述冷僻字符搭配表中,生成新的冷僻字符搭配表供下一次遍历文本对照。
进一步的,所述的冷僻字符表可以对关键词集合进行语义分析,通过企业对不同信息的安全级别要求,通过计算语义权重,进行语义判别,制定不同的警告策略。
进一步的,所述的警告策略根据语义分析以及所占语义的权重制定不同的网络监管方法,所述网络监管方法分别为注销IP以及IP跟踪、禁止输入、文本模糊化处理。
另一种具体实施例有以下判别规则举例说明:
无语义字符库X=[@ # ! ~$ * ^ & e y I o K];
冷僻字符库Y=[1 2 3 5 4 6 7 密码卡号码秘];
冷僻字符搭配表Z=[密码@ # e 12 卡号秘密号码123 卡号235 ];
设置N=10,当遍历到了“密”字记录次数为A=15时,则看“密”相邻的是什么字符,若是“码”,则与冷僻字符搭配表进行匹配,所述“密码”在冷僻字符搭配表中有对应,可以判别信息有泄露安全风险;
设置N=10,当遍历到了“@”字符记录次数为B=15时,则看“@”相邻的是什么字符,若是“#”,则与冷僻字符搭配表进行匹配,所述“@#”在冷僻字符搭配表中有对应,可以判别信息有泄露安全风险;若此时以“#”作为关键字继续遍历,检测到相邻字符为“e”,则安全泄露警告级别需要提高。
当遍历到的“姓”字记录了20遍,当冷僻字表中没有,需要跟新冷僻字表,新更新的冷僻字表为Y1=[1 2 3 5 4 6 7 密码卡号码秘姓];遍历“姓”字相邻的字或字符,若是“名”,则更新冷僻字符搭配表,新更新的冷僻字符搭配表为Z1=[密码@ # e 12 卡号秘密号码123 卡号235 姓名]。
以上所述之具体实施方式为本发明一种网络数据监测方法的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明之形状、结构所作的等效变化均在本发明的保护范围内。
Claims (9)
1.一种网络数据监测方法,其特征在于:该方法包括以下几个步骤;
步骤1:待识别的文本数据获取并预处理;
步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;
步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与冷僻字符相邻的无语义字符数B;
步骤4:制定警告规则,提示网络监管。
2.根据权利要求1所述的一种网络数据监测方法,其特征在于:所述步骤1包括:
步骤11:网络文本数据的获取;
步骤12:对获取到的网络文本数据进行分词处理,对文本中的无语义字符和冷僻字符进行提取和分类。
3.根据权利要求1所述的一种网络数据监测方法,其特征在于:所述步骤2包括:
步骤21:建立无语义字符库和冷僻字符库,搭建冷僻字符搭配表,将与冷僻字相邻的一定字符长度的字符串制定一个字符串集合,以冷僻字作为搜索核心目标进行匹配;
步骤22:设定文本中的字符遍历相同字符出现的次数阀值,用以制定警告,提示需要网络监管。
4.根据权利要求1所述的一种网络数据监测方法,其特征在于:所述步骤3包括:
步骤31:对文本进行特征提取,将冷僻字符和无语义字符进行类别识别;
步骤32:分别遍历无语义字符以及冷僻字符,通过与无语义字符库和冷僻字符库的对照,记录无语义字符以及冷僻字符出现的次数。
5.根据权利要求1所述的一种网络数据监测方法,其特征在于:所述步骤4包括:
步骤41:统计遍历整篇文本的冷僻字符出现次数A和冷僻字符相邻的无语义字符数B,与设定值N进行对比;
步骤42:判定:若A>=N,则剔除整篇文档的无语义字符,将剔除无语义字符后的生僻字符与冷僻字符库进行匹配,若匹配成功,则生成关键字;若匹配不成功,更新所述冷僻字符库和所述冷僻字符搭配表;
步骤43:制定关键词集合,以关键字为中心,提取关键字以及相邻的字符作为关键词,蘘荷生成关键词集合;
步骤44:将关键词集合与冷僻字符搭配表进行匹配,若匹配成功,提示警告,需要网络监管。
6.根据权利要求5所述的一种网络数据监测方法,其特征在于:所述的步骤42包括:更新冷僻字符库以及更新冷僻字符搭配表;
所述关键字如果不在冷僻字符库,需要更新所述冷僻字符库和所述冷僻字符搭配表,具体步骤如下:
步骤421:将关键字作为冷僻字添加到冷僻字符表中,生成新的冷僻字符表作为下一次遍历文本的冷僻字符表。
7.根据权利要求5或6所述的一种网络数据监测方法,其特征在于:所述的更新冷僻字符搭配表有以下规则;
步骤422:遍历整篇文档,记录与冷僻字相邻的无语义字符的个数B,若B>=A/2,则将此无语义的字符以及与其相邻的冷僻字符作为关键词,放入关键词集合,将生成的关键词集合添加到所述冷僻字符搭配表中,生成新的冷僻字符搭配表供下一次遍历文本对照。
8.根据权利要求1或3或5或6或7所述的一种网络数据监测方法:其特征在于:所述的冷僻字符表可以对关键词集合进行语义分析,通过计算语义权重,进行语义判别,制定不同的警告策略。
9.根据权利要求1或3或5或8所述的一种网络数据监测方法:其特征在于:所述的警告策略根据语义分析以及所占语义的权重制定不同的网络监管方法,所述网络监管方法分别为注销IP以及IP跟踪、禁止输入、文本模糊化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811482480.4A CN109918638B (zh) | 2018-12-05 | 2018-12-05 | 一种网络数据监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811482480.4A CN109918638B (zh) | 2018-12-05 | 2018-12-05 | 一种网络数据监测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918638A true CN109918638A (zh) | 2019-06-21 |
CN109918638B CN109918638B (zh) | 2023-03-24 |
Family
ID=66959737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811482480.4A Active CN109918638B (zh) | 2018-12-05 | 2018-12-05 | 一种网络数据监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918638B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627883A (zh) * | 2021-08-09 | 2021-11-09 | 杜量 | 一种云定制招聘会方法及系统 |
CN113836563A (zh) * | 2021-09-29 | 2021-12-24 | 北京中教高科信息技术有限公司 | 一种加密考试技术或者离线加密考试系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007128224A (ja) * | 2005-11-02 | 2007-05-24 | Research Organization Of Information & Systems | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム |
WO2008061483A1 (fr) * | 2006-11-24 | 2008-05-29 | Hangzhou H3C Technologies Co., Ltd. | Procédé et appareil d'identification de contenu de données |
CN103425257A (zh) * | 2012-05-24 | 2013-12-04 | 北京搜狗科技发展有限公司 | 一种生僻字符信息的提示方法和装置 |
CN103514238A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 基于分类查找的敏感词识别处理方法 |
CN104750673A (zh) * | 2013-12-31 | 2015-07-01 | 中国移动通信集团公司 | 文本匹配过滤方法及装置 |
CN108647299A (zh) * | 2018-05-09 | 2018-10-12 | 北京启明星辰信息安全技术有限公司 | 生僻字符匹配方法、字符串模式匹配方法及存储介质 |
-
2018
- 2018-12-05 CN CN201811482480.4A patent/CN109918638B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007128224A (ja) * | 2005-11-02 | 2007-05-24 | Research Organization Of Information & Systems | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム |
WO2008061483A1 (fr) * | 2006-11-24 | 2008-05-29 | Hangzhou H3C Technologies Co., Ltd. | Procédé et appareil d'identification de contenu de données |
CN103425257A (zh) * | 2012-05-24 | 2013-12-04 | 北京搜狗科技发展有限公司 | 一种生僻字符信息的提示方法和装置 |
CN103514238A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 基于分类查找的敏感词识别处理方法 |
CN104750673A (zh) * | 2013-12-31 | 2015-07-01 | 中国移动通信集团公司 | 文本匹配过滤方法及装置 |
CN108647299A (zh) * | 2018-05-09 | 2018-10-12 | 北京启明星辰信息安全技术有限公司 | 生僻字符匹配方法、字符串模式匹配方法及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627883A (zh) * | 2021-08-09 | 2021-11-09 | 杜量 | 一种云定制招聘会方法及系统 |
CN113836563A (zh) * | 2021-09-29 | 2021-12-24 | 北京中教高科信息技术有限公司 | 一种加密考试技术或者离线加密考试系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109918638B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | OFS-NN: an effective phishing websites detection model based on optimal feature selection and neural network | |
Sun et al. | Detecting anomalous user behavior using an extended isolation forest algorithm: an enterprise case study | |
Li et al. | LSTM based phishing detection for big email data | |
CN104217160B (zh) | 一种中文钓鱼网站检测方法及系统 | |
CN109547423B (zh) | 一种基于机器学习的web恶意请求深度检测系统及方法 | |
CN110990836B (zh) | 一种基于自然语言处理技术的代码泄露检测系统和方法 | |
CN116781430B (zh) | 用于燃气管网的网络信息安全系统及其方法 | |
CN114021040B (zh) | 基于业务访问的恶意事件的告警及防护方法和系统 | |
CN112199677A (zh) | 一种数据处理方法和装置 | |
CN111953697A (zh) | 一种apt攻击识别及防御方法 | |
CN109918638A (zh) | 一种网络数据监测方法 | |
Kayhan et al. | Cyber threat detection: Unsupervised hunting of anomalous commands (UHAC) | |
KR20210083510A (ko) | 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법 | |
Sauerwein et al. | Towards Automated Classification of Attackers' TTPs by combining NLP with ML Techniques | |
CN118013032A (zh) | 一种sql注入语句识别的方法 | |
CN113542252A (zh) | Web攻击的检测方法、检测模型和检测装置 | |
CN117792741A (zh) | 基于行为特征分析的网络攻击检测及溯源方法 | |
Oudah et al. | SQL injection detection using machine learning with different TF-IDF feature extraction approaches | |
CN111970272A (zh) | 一种apt攻击操作识别方法 | |
Shravasti et al. | Smishing detection: Using artificial intelligence | |
CN112199573A (zh) | 一种非法交易主动探测方法及系统 | |
Yang et al. | A Spam Message Detection Model Based on Bayesian Classification | |
Adnaan et al. | A Detailed Study on Preventing the Malicious URLs from Cyber Attacks | |
Yang et al. | A Survey of Property Crime Incident Links and Their Discovery Techniques | |
Chen | Using data mining technology to detect unknown network security threats in power system digital transformation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |