CN108920710B - 一种对互联网信息进行涉密涉敏信息监测方法及系统 - Google Patents

一种对互联网信息进行涉密涉敏信息监测方法及系统 Download PDF

Info

Publication number
CN108920710B
CN108920710B CN201810815712.7A CN201810815712A CN108920710B CN 108920710 B CN108920710 B CN 108920710B CN 201810815712 A CN201810815712 A CN 201810815712A CN 108920710 B CN108920710 B CN 108920710B
Authority
CN
China
Prior art keywords
quick
concerning security
security matters
relate
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810815712.7A
Other languages
English (en)
Other versions
CN108920710A (zh
Inventor
汪敏
刘鹏飞
严妍
周键
王静
林珂珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cape Cloud Information Technology Co Ltd
Beijing Puyun Mdt Infotech Ltd
Original Assignee
Cape Cloud Information Technology Co Ltd
Beijing Puyun Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cape Cloud Information Technology Co Ltd, Beijing Puyun Mdt Infotech Ltd filed Critical Cape Cloud Information Technology Co Ltd
Priority to CN201810815712.7A priority Critical patent/CN108920710B/zh
Publication of CN108920710A publication Critical patent/CN108920710A/zh
Application granted granted Critical
Publication of CN108920710B publication Critical patent/CN108920710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Alarm Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种对互联网信息进行涉密涉敏信息监测的方法,具体包括以下步骤:S1、构建涉密涉敏信息识别模型;S2、构建涉密涉敏词库和规则库:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;S3、采集互联网信息,对其进行涉密涉敏信息检测,判断其涉密涉敏信息泄漏级别;S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。另外,本发明还提供了一种对互联网信息进行涉密涉敏信息监测的系统,本发明的技术方案解决了当前对海量互联网信息进行涉密涉敏信息监测无法实时过滤,并且高误报得问题,能够高效、快速、准确地对互联网中的涉密涉敏相关信息进行识别。

Description

一种对互联网信息进行涉密涉敏信息监测方法及系统
技术领域
本发明属于互联网内容安全检测领域,尤其涉及一种互联网信息涉密涉敏监测信息方法及系统。
背景技术
随着信息时代的到来,互联网成为政府进行信息公开的主要窗口。但在政府信息公开的同时,一些涉密涉敏信息也正面临着日益突出的网络及信息安全问题。目前,内容安全已经上升为网络安全一级大类,国务院办公厅和网信办对内容安全工作提出更高要求。而在互联网web端、移动端的网页/扫描件/附件内容,其中可能存在一些涉及到公民个人隐私、涉密信息、内部不宜公开信息、军队番号等不希望被公开、违反法律法规、易引起侵权投诉、或限制发布的涉密涉敏信息,政府网站一旦泄露或发布不应该被公开的信息,或者是限制发布的信息,可能会违反国家法律,或者会给网站带来麻烦,或者影响网站的声誉。因此如何准确及时地对互联网涉密涉敏信息进行监测成为信息安全管理以及政务信息化过程中一个重要课题。
目前,传统的互联网涉密涉敏信息监测主要是基于文本多模式串匹配算法,经典的如Aho-Corasick多模式匹配算法、Wu-Manber经典多模式匹配算法,对互联网网页内容进行涉密涉敏信息监测,但是这些信息监测方法存在许多问题,比如内存开销过大,数据结构复杂,执行时间速度慢等问题。另外,单纯依赖一种经典算法,缺乏良好的预处理和事后信息过滤等手段时,易造成误报率较高,导致系统的实用性较差。在如今的大数据时代,政府对全互联网监控提出了更高的要求,传统的涉密涉敏信息监测方法,不管从准确度还是处理速度,都难以满足现实应用的需求。如何对海量网页进行实时过滤,并且减少机械匹配中产生的高误报问题,高效快速地对政府网站中涉密涉敏相关信息进行识别,这是本领域所亟待解决的问题。
发明内容
为了对海量的互联网信息进行涉密涉敏信息的实时监控,提高涉密涉敏信息识别的准确率,本发明提供了一种对互联网信息进行涉密涉敏信息监测的方法及系统,其基于大数据和机器学习技术,对政务网站大规模网页训练,提取预处理特征,加快涉密涉敏信息的检查速度;另外,通过广泛分析政务网站环境下的语料库,构建全面专业的语料库;并在经典的多模式串匹配算法的基础上,基于双数组Tries(DoubleArrayTries)技术重构涉密涉敏词典,提高词典的检索效率,并且降低系统所占资源;最后,通过使用规则引擎降低涉密涉敏信息的误报率,提高了对互联网信息进行涉密涉敏信息监测的准确性。
本发明提供的一种对互联网信息进行涉密涉敏信息监测的方法,具体包括以下步骤:
S1、构建涉密涉敏信息识别模型;
S2、构建涉密涉敏词库和规则库:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;
S3、采集互联网信息,对其进行涉密涉敏信息检测,得到其涉密涉敏信息泄漏级别;
S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。
其中,所述步骤S1进一步包括:
S1.1、收集大量包含涉密涉敏信息互联网信息,所述互联网信息包括网页、扫描件以及附件;
S1.2、从互联网信息中提取出涉密涉敏特征;所述涉密涉敏特征包括文章页特征、网页table特征、关键词特征、图片特征等;
S1.3、通过不断的机器学习训练,构建基于SVM的涉密涉敏信息识别模型。
其中,所述步骤S3进一步包括:
S3.1、从互联网信息中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该涉密涉敏特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;
S3.2、通过步骤S2构建的词库、规则库,对从互联网信息中提取到的有效特征进行如下分析,分析是否存在涉密涉敏信息;在进行分析时具体可采用经典的多模式串匹配算法,如Aho-Corasick多模式匹配算法、Wu-Manber经典多模式匹配算法进行涉密涉敏信息分析;
S3.3、对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断该互联网信息涉密涉敏信息的泄漏级别;所述泄漏级别包括一般、严重和重大级别。
另外,本发明还提供了一种对互联网信息进行涉密涉敏信息监测的系统,该系统具体包括以下模块:
涉密涉敏信息识别模型构建模块;
涉密涉敏词库和规则库构建模块:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;
涉密涉敏信息检测模块:采集互联网信息,对其进行涉密涉敏信息检测,得到其涉密涉敏信息泄漏级别;
预警模块:将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。
其中,所述涉密涉敏信息识别模型构建模块进一步包括:
信息采集子模块:收集大量包含涉密涉敏信息互联网信息;
特征提取子模块:从互联网信息中提取出涉密涉敏特征;
模型生成子模块:通过不断的机器学习训练,构建基于SVM的涉密涉敏信息识别模型。
其中,所述涉密涉敏词库和规则库构建模块中“根据词库特点定义规则库”进一步包括:根据不同业务需要,构建相应双数组trie树;根据双数组true树制定规则,分为分词规则、不分词规则。
其中,所述涉密涉敏信息检测模块进一步包括:
有效涉密涉敏特征提取子模块:从互联网信息中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该涉密涉敏特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;
涉密涉敏信息分析子模块:通过涉密涉敏词库和规则库构建模块构建的词库、规则库,对从互联网信息中提取到的有效特征进行分析,分析是否存在涉密涉敏信息;
涉密涉敏信息的泄漏级别判断子模块:对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断该互联网信息涉密涉敏信息的泄漏级别;所述泄漏级别包括一般、严重和重大级别。
其中,所述涉密涉敏信息检测模块中进行涉密涉敏信息分析采用的算法为Aho-Corasick多模式匹配算法或Wu-Manber经典多模式匹配算法。
根据本发明的一种对互联网信息进行涉密涉敏信息监测的方法和系统可以看出,本发明解决了当前对海量互联网信息进行涉密涉敏信息监测无法实时过滤,并且高误报得问题,能够高效、快速、准确地对政府网站中涉密涉敏相关信息进行识别。
附图说明
图1为本发明一种对互联网信息进行涉密涉敏信息监测的方法的流程图。
图2为本发明对互联网信息进行涉密涉敏信息监测具体流程。
图3为本发明一种对互联网信息进行涉密涉敏信息监测的系统的功能模块图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。
实施例一
图1为本发明一种对互联网信息进行涉密涉敏信息监测的方法的具体流程:
S1、构建涉密涉敏信息识别模型;
S1.1、收集大量包含涉密涉敏信息互联网信息,具体包括网页、扫描件以及附件;
S1.2、从网页、扫描件、附件中提取出涉密涉敏特征;具体特征包括文章页特征、网页table特征、关键词特征、图片特征等;
S1.3、通过不断的机器学习训练,构建基于SVM的涉密涉敏信息识别模型,该模型用于判断涉密涉敏特征是否包含涉密涉敏信息;
S2、构建涉密涉敏词库和规则库:通过对政务网站进行分析将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建“知识面”全面且专业的涉密涉敏词库,并根据词库特点定义规则库;在本实施例中通过识别网页中的涉密涉敏词,将其加入涉密涉敏词库中,构建涉密涉敏词库,并根据不同业务需要,构建相应双数组trie树;根据双数组trie树制定规则,分为分词规则、不分词规则,得到规则库。
S3、涉密涉敏信息识别:采集互联网信息,对其进行涉密涉敏信息检测,得到其涉密涉敏信息泄漏级别。该步骤进一步包括:
S3.1、采集web端、移动端网页以及其扫描件、附件内容,利用步骤S1生成的涉密涉敏信息识别模型,判断是否需要进行涉密涉敏信息分析;所述web端是指pc端;
对于web端、移动端网页具体包括:从网页中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;
对于扫描件/附件具体包括:下载扫描件、附件,从扫描件、附件中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征。
S3.2、涉密涉敏信息分析:通过步骤S2构建的词库、规则库,对从网页、扫描件、附件中提取到的有效特征进行如下分析,分析是否存在涉密涉敏信息;在进行分析时具体可采用经典的多模式串匹配算法,如Aho-Corasick多模式匹配算法、Wu-Manber经典多模式匹配算法进行涉密涉敏信息分析。
身份证号、通讯信息、银行卡信息、家庭地址、未成年的个人信息、个人身体健康信息,病史等
婚姻家庭、继承纠纷案件中的当事人及其法定代理人
被判处三年有期徒刑以下刑罚以及免于刑事处罚,且不属于累犯或者惯犯的被告人
刑事案件中被害人及其法定代理人、证人、鉴定人/犯罪嫌疑人家属/案件涉及的未成年人
采用人工授精等辅助生育手段的孕、产妇
严重传染病患者/精神病患者/艾滋病患者/有吸毒史或强迫戒毒的人员
被暴力胁迫卖淫的妇女
军队番号
涉密文件
内部日常性信息:应急预案/工资/奖金/福利/补贴/报销/招待费/清单/流水/经费等容易引发网络舆情的信息。
S3.3、对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断出该互联网信息涉密涉敏信息的泄漏级别;泄漏级别包括一般、严重和重大。
该方法进一步包括S4、将涉密涉敏信息泄漏级别为严重以及重大级别的网页通过短信、或微信、或邮件的方式通知用户。
实施例二
图2为本发明对互联网信息进行涉密涉敏信息监测具体流程。
首先,通过爬虫获取待监测的互联网信息,对于其中的网页信息进行DOM解析,对于扫描件、附件则尽心下载;
然后,对得到的互联网信息进行涉密涉敏特征提取,具体特征包括文章页特征、网页table特征、关键词特征、图片特征等;
接下来,对得到的特征利用涉密涉敏信息识别模型,对互联网信息进行涉密涉敏的初步分析,得到包含涉敏涉敏信息的有效特征,并构建涉敏涉敏词库以及规则库;
对得到的包含涉敏涉敏信息的有效特征,利用多模式匹配算法进行涉密涉敏信息二次校验,并利用涉敏涉敏词库以及规则库确定涉密涉敏信息泄露等级;
对较为严重的涉密涉敏互联网信息,通过邮件、短信、微信等方式通知用户。
实施例三
图3为本发明提供的一种对互联网信息进行涉密涉敏信息监测的系统,该系统具体包括以下模块:
涉密涉敏信息识别模型构建模块;
涉密涉敏词库和规则库构建模块:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;
涉密涉敏信息检测模块:采集互联网信息,对其进行涉密涉敏信息检测,得到其涉密涉敏信息泄漏级别;
预警模块:将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。
其中,所述涉密涉敏信息识别模型构建模块进一步包括:
信息采集子模块:收集大量包含涉密涉敏信息互联网信息;
特征提取子模块:从互联网信息中提取出涉密涉敏特征;
模型生成子模块:通过不断的机器学习训练,构建基于SVM的涉密涉敏信息识别模型。
其中,所述涉密涉敏词库和规则库构建模块中“根据词库特点定义规则库”进一步包括:根据不同业务需要,构建相应双数组trie树;根据双数组true树制定规则,分为分词规则、不分词规则。
其中,所述涉密涉敏信息检测模块进一步包括:
有效涉密涉敏特征提取子模块:从互联网信息中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该涉密涉敏特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;
涉密涉敏信息分析子模块:通过涉密涉敏词库和规则库构建模块构建的词库、规则库,对从互联网信息中提取到的有效特征进行分析,分析是否存在涉密涉敏信息;
涉密涉敏信息的泄漏级别判断子模块:对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断该互联网信息涉密涉敏信息的泄漏级别;所述泄漏级别包括一般、严重和重大级别。
其中,所述涉密涉敏信息检测模块中进行涉密涉敏信息分析采用的算法为Aho-Corasick多模式匹配算法或Wu-Manber经典多模式匹配算法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种对互联网信息进行涉密涉敏信息监测的方法,具体包括以下步骤:
S1、构建涉密涉敏信息识别模型;
S2、构建涉密涉敏词库和规则库:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;
S3、采集互联网信息,对其进行涉密涉敏信息检测,判断其涉密涉敏信息泄漏级别;
S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户;
其中,所述步骤S1进一步包括:
S1.1、收集大量包含涉密涉敏信息互联网信息;
S1.2、从互联网信息中提取出涉密涉敏特征;
S1.3、通过不断的机器学习训练,构建基于SVM的涉密涉敏信息识别模型;
所述步骤S2中“根据词库特点定义规则库”进一步包括:根据不同业务需要,构建相应双数组trie树;根据双数组trie树制定规则,分为分词规则、不分词规则;
所述步骤S3进一步包括:
S3.1、采集web端、移动端网页以及其扫描件、附件内容,利用步骤S1生成的涉密涉敏信息识别模型,判断是否需要进行涉密涉敏信息分析;所述web端是指pc端;
对于web端、移动端网页具体包括:从网页中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;
对于扫描件/附件具体包括:下载扫描件、附件,从扫描件、附件中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;
S3.2、涉密涉敏信息分析:通过步骤S2构建的词库、规则库,对从网页、扫描件、附件中提取到的有效特征进行多模式串匹配算法分析,分析是否存在涉密涉敏信息;
S3.3、对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断出该互联网信息涉密涉敏信息的泄漏级别;泄漏级别包括一般、严重和重大。
2.如权利要求1所述的一种对互联网信息进行涉密涉敏信息监测的方法,其特征在于:所述步骤S3.2中进行多模式串匹配算法分析采用的算法为Aho-Corasick多模式匹配算法或Wu-Manber经典多模式匹配算法。
3.一种对互联网信息进行涉密涉敏信息监测的系统,该系统具体包括以下模块:
涉密涉敏信息识别模型构建模块;
涉密涉敏词库和规则库构建模块:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;
涉密涉敏信息检测模块:采集互联网信息,对其进行涉密涉敏信息检测,得到其涉密涉敏信息泄漏级别;
预警模块:将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户;
其中,所述涉密涉敏信息识别模型构建模块进一步包括:
信息采集子模块:收集大量包含涉密涉敏信息互联网信息;
特征提取子模块:从互联网信息中提取出涉密涉敏特征;
模型生成子模块:通过不断的机器学习训练,构建基于SVM的涉密涉敏信息识别模型;
所述涉密涉敏词库和规则库构建模块中“根据词库特点定义规则库”进一步包括:根据不同业务需要,构建相应双数组trie树;根据双数组trie树制定规则,分为分词规则、不分词规则;
所述涉密涉敏信息检测模块进一步包括:
有效涉密涉敏特征提取子模块:采集web端、移动端网页以及其扫描件、附件内容,利用涉密涉敏信息识别模型构建模块生成的涉密涉敏信息识别模型,判断是否需要进行涉密涉敏信息分析;所述web端是指pc端;
对于web端、移动端网页具体包括:从网页中提取出涉密涉敏特征,使用涉密涉敏信息识别模型构建模块生成的涉密涉敏信息识别模型,判断该特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;
对于扫描件/附件具体包括:下载扫描件、附件,从扫描件、附件中提取出涉密涉敏特征,使用涉密涉敏信息识别模型构建模块生成的涉密涉敏信息识别模型,判断该特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;
涉密涉敏信息分析子模块:涉密涉敏信息分析:通过涉密涉敏词库和规则库构建模块构建的词库、规则库,对从网页、扫描件、附件中提取到的有效特征进行多模式串匹配算法分析,分析是否存在涉密涉敏信息;
涉密涉敏信息的泄漏级别判断子模块:对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断出该互联网信息涉密涉敏信息的泄漏级别;泄漏级别包括一般、严重和重大。
4.如权利要求3述的一种对互联网信息进行涉密涉敏信息监测的方法,其特征在于:所述涉密涉敏信息分析子模块中进行涉密涉敏信息分析采用的算法为Aho-Corasick多模式匹配算法或Wu-Manber经典多模式匹配算法。
CN201810815712.7A 2018-07-20 2018-07-20 一种对互联网信息进行涉密涉敏信息监测方法及系统 Active CN108920710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810815712.7A CN108920710B (zh) 2018-07-20 2018-07-20 一种对互联网信息进行涉密涉敏信息监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810815712.7A CN108920710B (zh) 2018-07-20 2018-07-20 一种对互联网信息进行涉密涉敏信息监测方法及系统

Publications (2)

Publication Number Publication Date
CN108920710A CN108920710A (zh) 2018-11-30
CN108920710B true CN108920710B (zh) 2019-07-09

Family

ID=64416998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810815712.7A Active CN108920710B (zh) 2018-07-20 2018-07-20 一种对互联网信息进行涉密涉敏信息监测方法及系统

Country Status (1)

Country Link
CN (1) CN108920710B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186657A (zh) * 2022-07-28 2022-10-14 北京网景盛世技术开发中心 错敏信息检测方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488100A (zh) * 2015-11-18 2016-04-13 国信司南(北京)地理信息技术有限公司 一种非涉密环境下涉密地理数据的高效检测发现系统
CN105868905A (zh) * 2016-03-28 2016-08-17 国网天津市电力公司 一种基于敏感内容感知的管控系统
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法
CN109543084B (zh) * 2018-11-09 2021-01-19 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Also Published As

Publication number Publication date
CN108920710A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN106055541B (zh) 一种新闻内容敏感词过滤方法及系统
CN108073569B (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN103914494B (zh) 一种微博用户身份识别方法及系统
Foong et al. Cyberbullying system detection and analysis
CN111444353B (zh) 一种警情知识图谱的构建及使用方法
US10942919B2 (en) Generating further knowledge to process query
US11176126B2 (en) Generating a reliable response to a query
Klaithin et al. Traffic information extraction and classification from Thai Twitter
Fang et al. Witness identification in twitter
CN113065330A (zh) 一种从非结构化数据中提取敏感信息的方法
Yimam et al. Analysis of the Ethiopic Twitter dataset for abusive speech in Amharic
CN108920710B (zh) 一种对互联网信息进行涉密涉敏信息监测方法及系统
CN113761128A (zh) 领域同义词典与模式匹配相结合的事件关键信息抽取方法
KR102480293B1 (ko) 위험 검출 장치, 위험 검출 방법, 및 위험 검출 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
CN114118398A (zh) 目标类型网站的检测方法、系统、电子设备及存储介质
CN104933097B (zh) 一种用于检索的数据处理方法和装置
Fu et al. Mining newsworthy events in the traffic accident domain from Chinese microblog
CN115129808A (zh) 一种食药环热线类事件犯罪线索筛查方法及系统
Boufaden et al. PEEP-An Information Extraction base approach for Privacy Protection in Email.
Rastogi et al. An Adaptive Approach for Fake News Detection in Social Media: Single vs Cross Domain
Lwin Tun et al. Supporting crime script analyses of scams with natural language processing
CN112561714A (zh) 基于nlp技术的核保风险预测方法、装置及相关设备
US11288583B2 (en) Remedying defective knowledge of a knowledge database
US20210406470A1 (en) Accessing a knowledge database
Wolters et al. Framing the Refugee Debate'

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing

Applicant after: Beijing Puyun Mdt InfoTech Ltd

Applicant after: Cape Cloud Information Technology Co., Ltd.

Address before: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing

Applicant before: Beijing Puyun Mdt InfoTech Ltd

Applicant before: Guangdong Puyun information Polytron Technologies Inc

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant