CN107807966A - 一种敏感信息屏蔽方法和服务端 - Google Patents

一种敏感信息屏蔽方法和服务端 Download PDF

Info

Publication number
CN107807966A
CN107807966A CN201710952246.2A CN201710952246A CN107807966A CN 107807966 A CN107807966 A CN 107807966A CN 201710952246 A CN201710952246 A CN 201710952246A CN 107807966 A CN107807966 A CN 107807966A
Authority
CN
China
Prior art keywords
information content
sensitive
described information
service end
sensitive word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710952246.2A
Other languages
English (en)
Inventor
庄家栋
叶丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xunlei Network Technology Co Ltd
Original Assignee
Shenzhen Xunlei Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xunlei Network Technology Co Ltd filed Critical Shenzhen Xunlei Network Technology Co Ltd
Priority to CN201710952246.2A priority Critical patent/CN107807966A/zh
Publication of CN107807966A publication Critical patent/CN107807966A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种敏感信息屏蔽方法和服务端,该方法包括:服务端获取用户端请求的信息内容;所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析;若所述信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容;若所述信息内容为二级敏感信息,则所述服务端通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则所述服务端响应所述用户端针对信息内容的请求。可以提高敏感信息屏蔽的效果。

Description

一种敏感信息屏蔽方法和服务端
技术领域
本发明涉及网络技术领域,尤其涉及一种敏感信息屏蔽方法和服务端。
背景技术
网络社交是人们当前主要的应用场景,例如:发布信息、评论信息或者获取他人分享的信息等等。然而,目前在网络社交过程中可能会出现各种广告、色情暴力或者政治敏感词等敏感信息,严重的污染了健康的社交圈,影响到用户体验。然而,目前主要是通过人工对用户请求的信息(例如:用户发布或者获取的信息)进行人工分析,以确定用户请求的信息是否为敏感信息,若是敏感信息,则不允许用户的请求,例如:不允许用户发布该信息。而人工分析的效率比较低,处理有邂逅,从而导致敏感信息屏蔽的效果比较差。
发明内容
本发明实施例提供了一种敏感信息屏蔽方法和服务端,可以提高敏感信息屏蔽的效果。
第一方面,本发明实施例提供一种敏感信息屏蔽方法,包括:
服务端获取用户端请求的信息内容;
所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析;
若所述信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容;
若所述信息内容为二级敏感信息,则所述服务端通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;
若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则所述服务端响应所述用户端针对信息内容的请求。
第二方面,本发明实施例提供一种服务端,包括:
获取模块,用于获取用户端请求的信息内容;
敏感分析模块,用于通过构建的敏感词词库,对所述信息内容进行敏感分析;
第一屏蔽模块,用于若所述信息内容为一级敏感信息,则屏蔽所述信息内容;
第二屏蔽模块,用于若所述信息内容为二级敏感信息,则通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;
响应模块,用于若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则响应所述用户端针对信息内容的请求。
本发明实施例中,服务端获取用户端请求的信息内容;所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析;若所述信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容;若所述信息内容为二级敏感信息,则所述服务端通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则所述服务端响应所述用户端针对信息内容的请求。这样可以一级敏感信息直接屏蔽,而二级敏感信息通过人工系统进行分析,从而可以提高敏感信息屏蔽的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例可以应用于网络系统的结构图;
图2是本发明实施例的一种敏感信息屏蔽方法的流程示意图;
图3是本发明实施例的一种敏感信息屏蔽的举例示意图;
图4是本发明实施例的另一种敏感信息屏蔽方法的流程示意图;
图5是本发明实施例的另一种敏感信息屏蔽的举例示意图;
图6是本发明实施例的另一种敏感信息屏蔽的举例示意图;
图7是本发明实施例提供的一种服务端的结构图示意图;
图8是本发明实施例提供的另一种服务端的结构图示意图;
图9是本发明实施例提供的另一种服务端的结构图示意图;
图10是本发明实施例提供的另一种服务端的结构图示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明实施例可以应用于网络系统的结构图,如图1所示,包括:客户端101和服务端102,其中,客户端101可以是安装在用户终端上的应用程序(例如:浏览器),或者客户端可以理解为用户终端,例如:计算机、手机、平板电脑等等。客户端101可以通过服务端102请求信息内容,例如:发布信息内容或者获取的信息内容等等,服务器102可以对用户端101请求的信息内容进行敏感分析,以决定是否屏蔽用户端101请求的信息内容。
请参考图2,图2是本发明实施例的一种敏感信息屏蔽方法的流程示意图,如图2所示,包括以下步骤:
201、服务端获取用户端请求的信息内容。
其中,上述用户端请求的信息内容可以是用户端请求发布的信息内容、请求获取的信息内容、请求修改昵称的信息内容、请求修改签名的信息内容、请求评论的信息内容等等需要在网络中共享的信息内容。
202、所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析。
其中,上述敏感词词库可以是服务端预先构建好的,敏感词词库可以包括多个分类的敏感词,以及还可以包括敏感词的敏感程度的评分(简称:敏感评分),例如:如下表所示:
词(Word) 分类(Category) 评分(score)
敏感词 敏感词分类 敏感词敏感程度的评分
另外,本发明实施例中,敏感词词库可以是不断进行更新的,其中,这里的更新可以是对敏感词进行更新,例如:添加或者删除敏感词,以及还可以是对敏感词的分类或者评分进行更新等等。
其中,上述通过构建的敏感词词库,对所述信息内容进行敏感分析可以是,将上述信息内容与敏感词词库中的敏感词进行匹配,若匹配命中敏感词,则可以将该敏感词对应的敏感级别作为上述信息内容的敏感级别,若未命中,则可以确定上述信息内容不为敏感词,即通过。
203、若所述信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容。
信息内容为一级敏感信息可以理解为,信息内容的敏感级别为一级,其中,一级敏感信息可以是预先定义好的,例如:严重敏感信息,通过步骤203可以实现若信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容,即用户端针对该信息内容请求失败,例如:无法发布该信息内容。
204、若所述信息内容为二级敏感信息,则所述服务端通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容。
信息内容为二级敏感信息可以理解为,上述信息内容的敏感级别为二级,其中,二级敏感信息可以是预先定义好的,例如:疑似敏感。其中,上述人工系统可以是人工审核系统,即通过人工审核来确定上述信息内容是否为需要屏蔽的敏感信息。通过步骤204可以实现人工审核系统在敏感词智能分析结果为二级时,进行人工干预,提供屏蔽的准确性。同时根据人工审核的操作历史分析,能够进一步校对敏感词分析系统的分值,形成一个不断优化的良性闭环,以进一步提高敏感信息屏蔽效果。
205、若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则所述服务端响应所述用户端针对信息内容的请求。
其中,若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过可以理解为上述信息内容通过敏感词分析系统。而上述响应所述用户端针对信息内容的请求可以是服务端允许上述用户终端请求上述信息内容,例如:成功发布该信息内容。
在社交的他人关注和直播弹幕时会有大量的广告和其他敏感词,通过上述方法可以有效的规避这类情况,且随着新型敏感词的加入,通过上述方法能有效的屏蔽历史海量数据中的敏感词,保证平台的持续健康。
下面,以图3进行举例,用户端填写昵称、个性签名或者评论的内容,其中,图3以修改昵称进行举例,发送到服务端请求更新。服务端接收客户端的修改通知,判断是否为一级敏感词,如果是,则不予更新,即返回并存储默认昵称;如果不是一级敏感词,则判断是否为二级敏感词,如果是,则可以不予更新,即返回并存储默认昵称,并进入到人工审核系统,如果不是二级敏感词,则允许修改,即返回当前昵称,整个流程能实时有效的过滤敏感词,以提高敏感信息屏蔽的效果,且可以保证新发布的信息内容都为健康有效的。
本发明实施例中,服务端获取用户端请求的信息内容;所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析;若所述信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容;若所述信息内容为二级敏感信息,则所述服务端通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则所述服务端响应所述用户端针对信息内容的请求。这样可以一级敏感信息直接屏蔽,而二级敏感信息通过人工系统进行分析,从而可以提高敏感信息屏蔽的效果。
请参考图4,图4是本发明实施例的一种敏感信息屏蔽方法的流程示意图,如图4所示,包括以下步骤:
401、服务端获取用户端请求的信息内容。
402、所述服务端通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果确定所述信息内容的敏感级别。
其中,上述敏感词词库可以融合多类型词库,通过词添加敏感分类属性,如‘迅雷官网’在昵称中非法,在评论合法。上述对信息内容进行敏感词分类可以是确定用户端针对该信息内容请求的分类,例如:发布、评论、获取或者修改昵称等。当分类确定后,就可以将该信息内容与上述敏感词词库中该信息内容所属的敏感词进行分类匹配,例如:上述信息内容的分类为修改昵称,则可以将该信息内容与敏感词词库中修改昵称的敏感词进行匹配,如果与某一个敏感词匹配成功,则可以将该敏感词的敏感级别作为上述信息内容的敏感级别。
需要说明的是,通过步骤402进行分类匹配,可以提高敏感信息屏蔽的准确度。
另外,步骤402确定的敏感级别可以包括一级敏感信息、二级敏感信息,以及不为敏感信息。
可选的,上述服务端通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果确定所述信息内容的敏感级别,包括:
所述服务端通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果命中的目标敏感词的敏感评分确定所述信息内容的敏感评分,将所述敏感评分对应的敏感级别作为所述信息内容的敏感级别。
其中,上述将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配可以是,在字典树过滤算法的基础上,结合全匹配、模糊匹配、拼音匹配和繁体象形字匹配中的至少一项匹配对上述信息内容进行匹配,之后,可以根据不同匹配方式的命中情况,以及命中的敏感词的敏感评分,得到上述信息内容的敏感评分。例如:全匹配命中某一个敏感词,则可能将该敏感词的敏感评分作为上述信息内容的敏感评分,例如:拼音匹配命中某个敏感词,则可以将该敏感词的敏感评分乘以一个预设系数得到上述信息内容的敏感评分。上述将所述敏感评分对应的敏感级别作为所述信息内容的敏感级别可以是,若敏感评分大于预设阈值(例如:60分),则设置上述信息内容为一级敏感信息,若等于或者小于预设阈值,则设置上述信息内容为二级敏感信息;若未命中敏感词,则确认上述信息内容不为敏感信息。
该实施方式中,通过上述敏感评分准确地确定信息内容的敏感级别,从而提高敏感信息屏蔽的准确度。
需要说明的是,本实施例中,上述敏感词词库可以是通过全局的词库版本对敏感词词库进行更新控制(例如:每次更新词库时,词库版本也同时更新),且在获取用户端发布信息内容时,对未通过最新版本的内容进行再分析,保证海量的历史数据实时的对接到最新敏感词词库。另外,上述敏感词词库中敏感词的分数可以及时更新,例如:可以结合后续的人工审核结果分析,加入人工智能(Artificial Intelligence,AI)算法对敏感词的评分进行更新。
403、若所述信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容。
信息内容为一级敏感信息可以理解为,信息内容的敏感级别为一级,其中,一级敏感信息可以是预先定义好的,例如:严重敏感信息,通过步骤403可以实现若信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容,即用户端针对该信息内容请求失败,例如:无法发布该信息内容。
404、若所述信息内容为二级敏感信息,则所述服务端通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容。
其中,上述人式系统对所述信息内容进行分析可以参见图5,如图5所示,以用户端更新用户昵称为例,如果人工审核通过,则用户端更新用户昵称,如果人工审核不通过,则可以永久锁定用户端不可以修改昵称,或者锁定用户端N天不可以修改昵称,其中,N表示为锁定时间为,当前时间开始计算N乘24小时。
405、若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则所述服务端响应所述用户端针对信息内容的请求。
其中,若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过可以理解为上述信息内容通过敏感词分析系统。而上述响应所述用户端针对信息内容的请求可以是服务端允许上述用户终端请求上述信息内容,例如:成功发布该信息内容。
可选的,上述方法还包括:
所述服务端对所述用户端请求的所述信息内容添加用户内容版本标记,所述用户内容版本标记为对所述信息内容进行敏感分析时所述敏感词词库的词库版本标记。
该实施方式中,可以实现若用户端请求的信息内容通过敏感信息分析系统时,给该信息内容添加对所述信息内容进行敏感分析时所述敏感词词库的词库版本标记。例:敏感词词库系统在版本1的时候不存在敏感词“小明”,用户A发布昵称“小明”成功,“小明”的昵称版本=1,其中,该昵称版本为上述用户内容版本标记。这样可以实现标记信息内容是通过哪个版本的敏感词词库系统的,从而实现对用户端的信息内容进行版本控制,避免重复过滤的情况。
可选的,该实施方式,所述方法还包括:
若所述服务端再次接收到用户端请求的所述信息内容,则将所述信息内容的用户内容版本标记与所述敏感词词库的当前词库版本标记进行比对;
若所述信息内容的用户内容版本标记小于所述敏感词词库的当前词库版本标记,则所述服务端重复执行所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析的步骤;
若所述信息内容的用户内容版本标记等于所述敏感词词库的当前词库版本标记,则所述服务端直接返回预先对所述信息内容进行敏感词分析的分析结果。
需要说明的是,本实施例中,上述敏感词词库可以是及时更新,且每次更新时需要更新敏感词词库的词库版本标记,其中,上述敏感词词库的当前词库版本标记可以理解为,敏感词词库的最新词库版本标记。
该实施方式中,可以实现如果用户端请求的信息内容的版本小于词库版本,会重新过敏感词分析系统进行分析,如果等于,则直接返回之前对所述信息内容进行敏感词分析的分析结果,以避免重复过滤的情况,提高敏感信息屏蔽效率。
例如:客户端带上身份令牌,向服务端请求获取自己或其他用户的昵称、个性签名或者评论列表,服务端获取用户端请求的信息内容以及对应的敏感词库版本。如果用户版本=词库版本,则直接返回数据库内容,其中,该数据库内容包括之前对该信息内容进行敏感信息分析结果,即不需要再次进行敏感信息分析。如果用户版本<词库版本,表示有敏感词更新,返回客户端前需要再过敏感词分析系统,同上述敏感信息分析流程一样,这样可以实现用成本最小的方式,完成历史海量数据的敏感词屏蔽。例:敏感词词库系统在版本1的时候不存在敏感词“小明”,用户A发布昵称“小明”成功,昵称版本=1,当敏感词词库更新了“小明”,词库版本=2.这时,用户本人或其他用户查看A的昵称,会重新过敏感词分析系统,用户昵称版本更新为2,“小明”作为敏感词不会展示到用户端。
另外,本实施例中,为了提高敏感信息屏蔽的效果,还可以是对一些用户进行锁定,例如:图6所示,用户端填写昵称、个性签名或者评论的内容,其中,图6以修改昵称进行举例,发送到服务端请求更新。服务端接收客户端的修改通知,判断该用户是否被系统锁定,如果已锁定,表示为信誉低用户,不予更新。如果未锁定,进入敏感信息分析系统,自动识别信息内容的敏感评分,如果触发一级敏感词关键字,不予更新。如果触发二级敏感词,进入到人工审核系统,人工审核结果即为最终结果,整个流程能实时有效的过滤敏感词,以提高敏感信息屏蔽的效果,且可以保证新发布的信息内容都为健康有效的。
本实施例中,在图2所示的实施例的基础上增加了多种可选的实施方式,且均可以提高敏感信息屏蔽的效果。
请参阅图7,图7是本发明实施例提供的一种服务端的结构图示意图,如图7所示,包括:
获取模块701,用于获取用户端请求的信息内容;
敏感分析模块702,用于通过构建的敏感词词库,对所述信息内容进行敏感分析;
第一屏蔽模块703,用于若所述信息内容为一级敏感信息,则屏蔽所述信息内容;
第二屏蔽模块704,用于若所述信息内容为二级敏感信息,则通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;
响应模块705,用于若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则响应所述用户端针对信息内容的请求。
可选的,所述敏感分析模块702用于通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果确定所述信息内容的敏感级别。
可选的,所述敏感分析模块702用于通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果命中的目标敏感词的敏感评分确定所述信息内容的敏感评分,将所述敏感评分对应的敏感级别作为所述信息内容的敏感级别。
可选的,如图8所示,所述服务端还包括:
标记模块706,用于对所述用户端请求的所述信息内容添加用户内容版本标记,所述用户内容版本标记为对所述信息内容进行敏感分析时所述敏感词词库的词库版本标记。
可选的,如图9所示,所述服务端还包括:
比对模块707,用于若所述服务端再次接收到用户端请求的所述信息内容,则将所述信息内容的用户内容版本标记与所述敏感词词库的当前词库版本标记进行比对;
重复执行触发模块708,用于若所述信息内容的用户内容版本标记小于所述敏感词词库的当前词库版本标记,则触发所述敏感分析模块重复通过构建的敏感词词库,对所述信息内容进行敏感分析;
返回模块709,用于若所述信息内容的用户内容版本标记等于所述敏感词词库的当前词库版本标记,则所述服务端直接返回预先对所述信息内容进行敏感词分析的分析结果。
本实施例中,服务端作为本发明实施例提供的网络访问方法中的服务端,其实施方式均可以参见方法的实施方式,此处不作赘述,且可以达到相同有益效果。
请参阅图10,图10是本发明实施例提供的另一种服务端的结构示意图,如图10所示,包括:存储器101,以及与存储器101连接的处理器102,其中,存储器101用于存储程序代码,处理器102用于调用存储器101存储的程序,执行如下操作:
获取用户端请求的信息内容;
通过构建的敏感词词库,对所述信息内容进行敏感分析;
若所述信息内容为一级敏感信息,则屏蔽所述信息内容;
若所述信息内容为二级敏感信息,则通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;
若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则响应所述用户端针对信息内容的请求。
可选的,处理器102执行的通过构建的敏感词词库,对所述信息内容进行敏感分析,包括:
通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果确定所述信息内容的敏感级别。
可选的,处理器102执行的通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果确定所述信息内容的敏感级别,包括:
通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果命中的目标敏感词的敏感评分确定所述信息内容的敏感评分,将所述敏感评分对应的敏感级别作为所述信息内容的敏感级别。
可选的,处理器102还用于:
对所述用户端请求的所述信息内容添加用户内容版本标记,所述用户内容版本标记为对所述信息内容进行敏感分析时所述敏感词词库的词库版本标记。
可选的,处理器102还用于:
若所述服务端再次接收到用户端请求的所述信息内容,则将所述信息内容的用户内容版本标记与所述敏感词词库的当前词库版本标记进行比对;
若所述信息内容的用户内容版本标记小于所述敏感词词库的当前词库版本标记,则重复执行所述通过构建的敏感词词库,对所述信息内容进行敏感分析的步骤;
若所述信息内容的用户内容版本标记等于所述敏感词词库的当前词库版本标记,则直接返回预先对所述信息内容进行敏感词分析的分析结果。
本实施例中,服务端作为本发明实施例提供的网络访问方法中的服务端,其实施方式均可以参见方法的实施方式,此处不作赘述,且可以达到相同有益效果。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的敏感信息屏蔽方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种敏感信息屏蔽方法,其特征在于,包括:
服务端获取用户端请求的信息内容;
所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析;
若所述信息内容为一级敏感信息,则所述服务端屏蔽所述信息内容;
若所述信息内容为二级敏感信息,则所述服务端通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;
若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则所述服务端响应所述用户端针对信息内容的请求。
2.如权利要求1所述的方法,其特征在于,所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析,包括:
所述服务端通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果确定所述信息内容的敏感级别。
3.如权利要求2所述的方法,其特征在于,所述服务端通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果确定所述信息内容的敏感级别,包括:
所述服务端通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果命中的目标敏感词的敏感评分确定所述信息内容的敏感评分,将所述敏感评分对应的敏感级别作为所述信息内容的敏感级别。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
所述服务端对所述用户端请求的所述信息内容添加用户内容版本标记,所述用户内容版本标记为对所述信息内容进行敏感分析时所述敏感词词库的词库版本标记。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
若所述服务端再次接收到用户端请求的所述信息内容,则将所述信息内容的用户内容版本标记与所述敏感词词库的当前词库版本标记进行比对;
若所述信息内容的用户内容版本标记小于所述敏感词词库的当前词库版本标记,则所述服务端重复执行所述服务端通过构建的敏感词词库,对所述信息内容进行敏感分析的步骤;
若所述信息内容的用户内容版本标记等于所述敏感词词库的当前词库版本标记,则所述服务端直接返回预先对所述信息内容进行敏感词分析的分析结果。
6.一种服务端,其特征在于,包括:
获取模块,用于获取用户端请求的信息内容;
敏感分析模块,用于通过构建的敏感词词库,对所述信息内容进行敏感分析;
第一屏蔽模块,用于若所述信息内容为一级敏感信息,则屏蔽所述信息内容;
第二屏蔽模块,用于若所述信息内容为二级敏感信息,则通过人工系统对所述信息内容进行分析,若所述人工系统对所述信息内容分析结果为不通过,则屏蔽所述信息内容;
响应模块,用于若所述信息内容不为敏感信息,或者所述人工系统对所述信息内容分析结果为通过,则响应所述用户端针对信息内容的请求。
7.如权利要求6所述的服务端,其特征在于,所述敏感分析模块用于通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果确定所述信息内容的敏感级别。
8.如权利要求7所述的服务端,其特征在于,所述敏感分析模块用于通过构建的敏感词词库,对所述信息内容进行敏感词分类,将所述信息内容与所述敏感词词库中所述信息内容所属分类的敏感词进行分类匹配,根据分类匹配结果命中的目标敏感词的敏感评分确定所述信息内容的敏感评分,将所述敏感评分对应的敏感级别作为所述信息内容的敏感级别。
9.如权利要求6所述的服务端,其特征在于,所述服务端还包括:
标记模块,用于对所述用户端请求的所述信息内容添加用户内容版本标记,所述用户内容版本标记为对所述信息内容进行敏感分析时所述敏感词词库的词库版本标记。
10.如权利要求9所述的服务端,其特征在于,所述服务端还包括:
比对模块,用于若所述服务端再次接收到用户端请求的所述信息内容,则将所述信息内容的用户内容版本标记与所述敏感词词库的当前词库版本标记进行比对;
重复执行触发模块,用于若所述信息内容的用户内容版本标记小于所述敏感词词库的当前词库版本标记,则触发所述敏感分析模块重复通过构建的敏感词词库,对所述信息内容进行敏感分析;
返回模块,用于若所述信息内容的用户内容版本标记等于所述敏感词词库的当前词库版本标记,则所述服务端直接返回预先对所述信息内容进行敏感词分析的分析结果。
CN201710952246.2A 2017-10-13 2017-10-13 一种敏感信息屏蔽方法和服务端 Pending CN107807966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710952246.2A CN107807966A (zh) 2017-10-13 2017-10-13 一种敏感信息屏蔽方法和服务端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710952246.2A CN107807966A (zh) 2017-10-13 2017-10-13 一种敏感信息屏蔽方法和服务端

Publications (1)

Publication Number Publication Date
CN107807966A true CN107807966A (zh) 2018-03-16

Family

ID=61584954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710952246.2A Pending CN107807966A (zh) 2017-10-13 2017-10-13 一种敏感信息屏蔽方法和服务端

Country Status (1)

Country Link
CN (1) CN107807966A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108540864A (zh) * 2018-04-13 2018-09-14 上海哔哩哔哩科技有限公司 网络视频弹幕云屏蔽方法、系统及存储介质
CN108768840A (zh) * 2018-06-12 2018-11-06 北京京东金融科技控股有限公司 一种账号管理的方法和装置
CN109766441A (zh) * 2018-12-28 2019-05-17 北京奇安信科技有限公司 文本分类方法、装置及系统
CN109977403A (zh) * 2019-03-18 2019-07-05 北京金堤科技有限公司 恶意评论信息识别方法及装置
CN110363024A (zh) * 2019-06-28 2019-10-22 赛意(上海)信息科技有限公司 基于移动设备应用的防截屏方法
CN110826319A (zh) * 2019-10-30 2020-02-21 维沃移动通信有限公司 应用信息的处理方法及终端设备
CN111107380A (zh) * 2018-10-10 2020-05-05 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
CN112069183A (zh) * 2020-09-07 2020-12-11 中国平安财产保险股份有限公司 屏蔽数据管理方法、装置、电子设备及可读存储介质
CN112231484A (zh) * 2020-11-19 2021-01-15 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
CN112559776A (zh) * 2020-12-21 2021-03-26 绿瘦健康产业集团有限公司 一种敏感信息的定位方法及系统
CN112597400A (zh) * 2021-03-04 2021-04-02 中南大学 一种人群的特定倾向性感知方法和系统
CN113824804A (zh) * 2021-11-24 2021-12-21 飞狐信息技术(天津)有限公司 一种关键词检测的方法及相关装置
CN114257563A (zh) * 2021-12-20 2022-03-29 创盛视联数码科技(北京)有限公司 一种直播间聊天内容回调的过滤方法
CN114266247A (zh) * 2021-12-20 2022-04-01 中国农业银行股份有限公司 一种敏感词过滤方法、装置、存储介质及电子设备
CN114793172A (zh) * 2022-04-15 2022-07-26 广东迅数智联科技有限公司 一种私信处理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083514A1 (en) * 2005-10-07 2007-04-12 International Business Machines Corporation System and method for protecting sensitive data
CN101964000A (zh) * 2010-11-09 2011-02-02 焦点科技股份有限公司 一种敏感词自动过滤管理系统
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN103347009A (zh) * 2013-06-20 2013-10-09 新浪网技术(中国)有限公司 一种信息过滤方法及装置
CN103544184A (zh) * 2012-07-15 2014-01-29 常州白相相文化传媒有限公司 一种网站敏感词屏蔽系统
CN107066543A (zh) * 2017-03-14 2017-08-18 北京潘达互娱科技有限公司 敏感词过滤方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083514A1 (en) * 2005-10-07 2007-04-12 International Business Machines Corporation System and method for protecting sensitive data
CN101964000A (zh) * 2010-11-09 2011-02-02 焦点科技股份有限公司 一种敏感词自动过滤管理系统
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN103544184A (zh) * 2012-07-15 2014-01-29 常州白相相文化传媒有限公司 一种网站敏感词屏蔽系统
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN103347009A (zh) * 2013-06-20 2013-10-09 新浪网技术(中国)有限公司 一种信息过滤方法及装置
CN107066543A (zh) * 2017-03-14 2017-08-18 北京潘达互娱科技有限公司 敏感词过滤方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108540864A (zh) * 2018-04-13 2018-09-14 上海哔哩哔哩科技有限公司 网络视频弹幕云屏蔽方法、系统及存储介质
CN108768840A (zh) * 2018-06-12 2018-11-06 北京京东金融科技控股有限公司 一种账号管理的方法和装置
CN111107380B (zh) * 2018-10-10 2023-08-15 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
CN111107380A (zh) * 2018-10-10 2020-05-05 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
CN109766441A (zh) * 2018-12-28 2019-05-17 北京奇安信科技有限公司 文本分类方法、装置及系统
CN109977403A (zh) * 2019-03-18 2019-07-05 北京金堤科技有限公司 恶意评论信息识别方法及装置
CN110363024A (zh) * 2019-06-28 2019-10-22 赛意(上海)信息科技有限公司 基于移动设备应用的防截屏方法
CN110826319A (zh) * 2019-10-30 2020-02-21 维沃移动通信有限公司 应用信息的处理方法及终端设备
CN112069183A (zh) * 2020-09-07 2020-12-11 中国平安财产保险股份有限公司 屏蔽数据管理方法、装置、电子设备及可读存储介质
CN112069183B (zh) * 2020-09-07 2024-05-03 中国平安财产保险股份有限公司 屏蔽数据管理方法、装置、电子设备及可读存储介质
CN112231484A (zh) * 2020-11-19 2021-01-15 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
CN112231484B (zh) * 2020-11-19 2022-11-08 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
CN112559776A (zh) * 2020-12-21 2021-03-26 绿瘦健康产业集团有限公司 一种敏感信息的定位方法及系统
CN112597400A (zh) * 2021-03-04 2021-04-02 中南大学 一种人群的特定倾向性感知方法和系统
CN113824804A (zh) * 2021-11-24 2021-12-21 飞狐信息技术(天津)有限公司 一种关键词检测的方法及相关装置
CN114257563A (zh) * 2021-12-20 2022-03-29 创盛视联数码科技(北京)有限公司 一种直播间聊天内容回调的过滤方法
CN114266247A (zh) * 2021-12-20 2022-04-01 中国农业银行股份有限公司 一种敏感词过滤方法、装置、存储介质及电子设备
CN114257563B (zh) * 2021-12-20 2023-10-24 创盛视联数码科技(北京)有限公司 一种直播间聊天内容回调的过滤方法
CN114793172A (zh) * 2022-04-15 2022-07-26 广东迅数智联科技有限公司 一种私信处理方法及系统

Similar Documents

Publication Publication Date Title
CN107807966A (zh) 一种敏感信息屏蔽方法和服务端
US11194965B2 (en) Keyword extraction method and apparatus, storage medium, and electronic apparatus
KR100996311B1 (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
CN103914494B (zh) 一种微博用户身份识别方法及系统
CN111178950B (zh) 一种用户画像构建方法、装置及计算设备
US20190114668A1 (en) Application recommendation method and server
CN107147621A (zh) 互联网医疗黄牛风险控制的实现方法
CN103646074B (zh) 一种确定图片簇描述文本核心词的方法及装置
CN106874356B (zh) 地理位置信息管理方法和装置
CN110365691B (zh) 基于深度学习的钓鱼网站判别方法及装置
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
CN109840676B (zh) 基于大数据的风控方法、装置、计算机设备及存储介质
CN109543089A (zh) 一种网络安全情报数据的分类方法、系统及相关装置
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN113791837B (zh) 页面处理方法、装置、设备和存储介质
Tran et al. Are anonymity-seekers just like everybody else? An analysis of contributions to Wikipedia from Tor
CN109284590A (zh) 访问行为安全防护的方法、设备、存储介质及装置
CN116455623A (zh) 基于大数据识别技术的计算机信息安全共享系统及方法
Hamitouche et al. Status and distribution of the Algerian Nuthatch’s population (Sitta ledanti Vielliard, 1976) in the Tamentout forest (north-eastern Algeria)
CN114265983A (zh) 信息推送方法及装置、电子设备、计算机可读存储介质
CN112685389A (zh) 数据管理方法、数据管理装置、电子设备及存储介质
CN108345613A (zh) 一种风险识别方法和装置
CN113935307A (zh) 广告文案的特征提取方法及装置
CN113434560A (zh) 排序方法、电子设备及相关产品
Ramamurthy Fraudster Mobile Apps Detector in Google Playstore

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180316

RJ01 Rejection of invention patent application after publication