CN111198983A - 一种敏感资讯信息检测方法、装置及存储介质 - Google Patents
一种敏感资讯信息检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111198983A CN111198983A CN201911394070.9A CN201911394070A CN111198983A CN 111198983 A CN111198983 A CN 111198983A CN 201911394070 A CN201911394070 A CN 201911394070A CN 111198983 A CN111198983 A CN 111198983A
- Authority
- CN
- China
- Prior art keywords
- information
- detection model
- sensitive
- title
- sensitive information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种敏感资讯信息检测方法、装置及存储介质。所述方法包括:获取资讯信息;对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息,从而提高敏感资讯信息的检测效率、以及提高敏感资讯信息的检测精度。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种敏感资讯信息检测方法、装置及存储介质。
背景技术
随着互联网技术的迅速发展和普及,对网络内容管理、监控和有害(或垃圾)信息过滤的需求越来越大,网络信息的主观倾向性分类受到越来越多的关注。对于网络服务提供商,为了提供更高的网络服务质量,提供健康的网络信息,需要对大量的信息数据进行审核,及时监控和过滤有害(或垃圾)信息。例如,针对国际化的金融资讯平台,由于国内外政治或互联网监管政策差异原因,从接口接收国外/境外金融资讯时,经常会出现政治敏感型或不符合资讯类信息规范的内容,对于资讯发布平台,通常需要对资讯内容做逐条人工审核,使得人力成本耗费巨大。
现有技术中,可以通过检测资讯信息中是否包含敏感词来对资讯内容进行审核,这类检测方法往往通过提前存储特定的敏感词词库,针对需要检测的资讯,可以采用正则表达式,或者字典树结构来进行对敏感词进行检测,并针对资讯内容与敏感词词库中内容进行对比。
但是基于敏感词词库对资讯的检索方法,首先需要组建词库,当词库不完善时,资讯有可能出现漏判的情形。其次,采用词库检测方法时,资讯内容需要和敏感词词库进行对比,这一过程使得时间复杂度较高。同时在中,英文资讯混合的情况下,需要针对中文,英文分别建立词库。
发明内容
本说明书实施例的目的是提供一种敏感资讯信息检测方法、装置及存储介质,以提高敏感资讯信息的检测效率、以及提高敏感资讯信息的检测精度。
为解决上述问题,本说明书实施例提供一种敏感资讯信息检测方法、装置及存储介质是这样实现的。
一种敏感资讯信息检测方法,所述方法包括:获取资讯信息;对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
一种敏感资讯信息检测装置,所述装置包括:获取模块,用于获取资讯信息;第一预处理模块,用于对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;检测模块,用于将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被执行时实现:获取资讯信息;对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
由以上本说明书实施例提供的技术方案可见,本说明书实施例提供的敏感资讯信息检测方法,可以获取资讯信息;对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息,以避免对已经检测过的资讯信息进行检测,提高了敏感资讯信息的检测效率,以及使用了基于机器学习的方法构建的检测模型,能够提供敏感信息的检测精度。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一种敏感资讯信息检测方法的流程图;
图2为本说明书实施例敏感资讯检测实现示意图;
图3为本说明书实施例一种敏感资讯信息检测装置的功能模块图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
传统的敏感资讯信息检测方法往往通过提前存储特定的敏感词,建立敏感词词库,针对需要检测的信息,可以采用正则表达式,或者字典树结构来对信息内容进行检测,并针对信息内容与敏感词词库中内容进行对比,从而达到检测信息是否为敏感资讯信息的目的。但是基于敏感词词库对信息的检测方法,首先需要组建词库,当词库不完善时,信息有可能出现漏判的情形。其次,采用词库检测方法时,信息内容需要和敏感词词库进行对比,这一过程使得时间复杂度较高,并且对于海量的信息,海量的信息中往往包含了很多重复内容的信息,使得在对信息进行检测是,浪费了大量的资源。考虑到如果在检测信息是否为敏感资讯信息之前,对信息进行预处理,判断信息是否重复,针对不重复的信息进行检测,并且采用机器学习的方法对信息是否为敏感资讯信息进行检测,则有望解决上述问题,提高敏感资讯信息的检测效率、以及提高敏感资讯信息的检测精度。
随着数据源产生的资讯信息越来越多,处理资讯信息的实时性需求越来越大,如实时分析国内外新闻类资讯信息是否包括敏感资讯信息,如果不能实时检测各类资讯信息是否包括敏感资讯信息,在经过一段时间的检测后再发布资讯信息,则可能导致新闻类的资讯信息的价值降低。例如,在网上产生的股市震荡数据或者地震预测消息是有价值,时间长消息的价值就降低了。
本说明书实施例中,由于获取的资讯信息的量比较大,多个资讯信息数据源不断更新,新的资讯信息不断接收,且对资讯信息是否为敏感资讯信息检测实时性要求较高,因此可以通过流式计算来对所述资讯信息进行处理。其中,所述流式计算对数据流进行处理,是一种实时计算方法,具有计算实时、低延迟等特点,可以应用于时效性要求较高的场景。
所述流式计算可以通过流式计算引擎来实现,所述流式计算引擎可以包括面向行的流式计算引擎如Apache Flink、Storm,其特点是延迟低,但吞吐率也低;所述流式计算引擎也可以包括面向微批量处理的流式计算引擎如Spark Streaming,其特点是延迟高,但吞吐率也高。考虑到本说明书实施例中所需要处理的资讯信息的量大,且实时性要求较高,因此,在一些实施例中,可以选择Spark Streaming实现流式计算来对获取的资讯信息进行敏感资讯信息检测。
图1为本说明书实施例一种敏感资讯信息检测方法的流程图,所述敏感资讯信息检测方法可以应用于服务器端。如图1所示,所述敏感资讯信息检测方法可以包括以下步骤。
S110:获取资讯信息。
在一些实施例中,所述资讯信息可以是能够给用户带来价值的信息。所述资讯信息可以包括新闻、供求、动态、技术、政策、评论、观点和学术等范畴的信息。
在一些实施例中,服务器可以获取来自不同数据源的资讯信息,例如从新浪新闻、财经新闻等国内资讯网站获取资讯信息,从谷歌新闻、雅虎新闻、纽约时报等国外资讯网站获取资讯信息。
在一些实施例中,所述服务器中可以包括消息队列组件和流式计算引擎,服务器可以通过消息队列组件获取来自不同数据源的资讯信息,并将所述资讯信息发送至流式计算引擎,所述流式计算引擎可以获取所述资讯信息。其中所述消息队列组件可以包括RocketMQ、RabbitMQ、kafka等。其中,所述RocketMQ是一个纯java、分布式、队列模型的开源消息中间件,具有高性能、高可靠、高实时、分布式特点,但队列的容量受机器硬盘的限制,队列满后会影响吞吐量。所述RabbitMQ是使用Erlang语言来编写的,支持如AMQP,XMPP,SMTP,STOMP等协议,性能较好,适合于企业级的开发,但是不利于做二次开发和维护。所述kafka是一个分布式的、高吞吐量、易于扩展的基于主题发布/订阅的消息系统,作为消息队列,kafka由于拥有高吞吐量,并且内置消息主题分区、备份、容错等特性,更适合使用在大规模,高强度的消息数据处理的系统中。
在一些实施例中,由于获取的资讯消息的量比较大,而且资讯信息产生与接收,是一个源源不断更新的过程,多个资讯信息数据源不断更新,新的资讯信息不断接收,因此可以选择kafka消息队列组件来获取资讯信息,并将所述资讯信息发送至流式计算引擎,所述流式计算引擎可以获取所述资讯信息。使用kafka消息队列组件,可以从多个数据源监听资讯信息的发布动态,当获得资讯更新时,可以立即进行获取。
S120:对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复。
在一些实施例中,所述流式计算引擎在获取资讯信息后,可以对所述资讯信息进行预处理。具体的,可以进行以下预处理:可以对获取的资讯信息的标题作一次存档,并将获取的资讯信息的标题与历史存储的资讯信息的标题相比较,从而判断出获取的资讯信息在之前是否已经获取过。其中,如果获取的资讯信息的标题与历史存储的资讯信息的标题相同,则可以表明获取的资讯信息在之前已经获取过,所述资讯信息为重复获取的信息;如果获取的资讯信息的标题与历史存储的资讯信息的标题不相同,则可以表明获取的资讯信息在之前没有获取过,所述资讯信息为没有重复获取的信息。
在一些实施例中,在判断所述资讯信息与历史获取的资讯信息是否重复之后,可以为没有重复获取的资讯信息建立标识,从而可以区分出重复获取的资讯信息和没有重复获取的资讯信息。还可以为重复获取的资讯信息建立标识,或者是分别为没有重复获取的资讯信息和重复获取的资讯信息建立标识,从而可以区分出重复获取的资讯信息和没有重复获取的资讯信息。当然,在判断所述资讯信息与历史获取的资讯信息是否重复之后,也可以通过其他任何方式区分出重复获取的资讯信息和没有重复获取的资讯信息,本说明书实施例对此不作限定。
在一些实施例中,由于获取的资讯信息的数据源较多,获取的资讯信息的数据量较大,因此,在较短的时间内,例如获取的资讯信息的标题与之前一个小时内获取的资讯信息的标题相同,则可以判断资讯信息的内容也相同;但是在较长的时间内,例如获取的资讯信息的标题与之前三个月之外获取的资讯信息的标题相同,则不能判断资讯信息的内容也相同。因此,为进一步提高判断所述资讯信息与历史获取的资讯信息是否重复的准确性,所述预处理还可以包括:标记所述资讯信息的接收时间,相应的,所述根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复标识包括:根据所述资讯信息的标题判断所述资讯信息与预设历史时间段内获取的资讯信息是否重复。其中,所述预设历史时间段可以从所述资讯信息的接收时间起算。例如,预设历史时间段为1天,则可以从所述资讯信息的接收时间起算,在所述资讯信息接收时的1天内,如果所述资讯信息的标题与1天内获取的资讯信息的标题相同,则可以判断获取资讯信息重复。
在一些实施例中,在判断所述资讯信息与历史获取的资讯信息是否重复之后,还可以对不重复的资讯信息进行解析,获取所述资讯信息的发送方和接收方,从而在后续检测步骤中出现敏感资讯信息实现可追溯。
在一些实施例中,在判断所述资讯信息与历史获取的资讯信息是否重复之后,还可以对不重复的资讯信息进行分词和去停用词处理。所述停用词可以是文本中出现频率很高,但实际意义又不大的词,这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语,如常见的“的”、“在”、“和”、“接着”之类的词。文本数据中如果大量使用停用词容易对文本数据中的有效信息造成噪音干扰,所以本说明书实施例可以对所述资讯信息进行停用词处理,适当地减少停用词出现的频率,可以有效提高检测的效率。
S130:将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
在一些实施例中,所述检测模型可以基于不同种类的机器学习算法得到的。具体的,可以基于朴素贝叶斯算法、支持向量机算法或逻辑回归算法等机器学习算法建立模型,使用敏感资讯信息和正常资讯信息作为训练样本对模型进行训练,将训练后的模型作为检测模型。
在一些实施例中,所述输出结果包括所述资讯信息为敏感资讯信息、正常资讯信息或可疑资讯信息。其中,所述敏感资讯信息为包括敏感信息的资讯信息,所述正常资讯信息为不包括敏感信息的资讯信息,所述可疑资讯信息为所述检测模型不能确定该资讯信息是否包括敏感信息的资讯信息。
在一些实施例中,在所述输出结果包括所述资讯信息为可疑资讯信息的情况下,流式计算引擎可以进一步判断该可疑资讯信息是否为敏感信息。例如可以将所述可疑资讯信息推送至人工审核,审核人员可以确定所述可疑资讯信息是否为敏感资讯信息,并对敏感资讯信息中的敏感信息进行标注,审核人员可以将审核结果再发送至流式计算引擎,所述流式计算引擎可以接收所述审核结果,并根据所述审核结果判断该可疑资讯信息是否为敏感信息。
在一些实施例中,服务器还可以对敏感信息进行存储,以便于根据所述敏感资讯信息对检测模型进行优化,将优化后的检测模型作为所述信息检测平台中的检测模型;其中,所述根据所述敏感资讯信息对检测模型进行优化包括:将所述敏感资讯信息作为训练集,对检测模型进行训练,得到优化后的检测模型。
具体的,如图2所示,kafka消息队列组件可以将获取的资讯信息发送至SparkStreaming流式计算引擎,Spark Streaming流式计算引擎接收所述资讯信息后对所资讯信息进行预处理,将预处理后的资讯信息输入至检测模型中,可以得到敏感资讯信息、正常资讯信息和可疑资讯信息,再进一步确定所述可疑资讯信息是否为敏感信息,然后存储所述敏感资讯信息。当然,检测模型对于资讯信息的检测结果并不能达到100%的准确,因此,对于正常资讯信息,如果用户反馈该正常资讯信息中包括了敏感信息,也可以存储该正常资讯信息,并对正常资讯信息中的敏感信息进行标注。进一步的,可以将存储的敏感资讯信息和正常资讯信息作为训练集对检测模型进行训练,将训练后的检测模型作为新的检测模型来实现对资讯信息是否为敏感资讯信息的检测,从而能够提高检测模型的检测精度。
在一些实施例中,服务器还可以统计资讯信息的接收数量以及经过检测得到的敏感资讯信息的数量,并将资讯信息的接收数量以及经过检测得到的敏感资讯信息的数量可视化展示,以便于用户了解资讯信息的检测情况。
本说明书实施例提供的敏感资讯信息检测方法,可以获取资讯信息;对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息,以避免对已经检测过的资讯信息进行检测,提高了敏感资讯信息的检测效率,以及使用了基于机器学习的方法构建的检测模型,并存储检测得到的敏感资讯信息,增加了训练样本,能够对检测模型进行优化,能够提供敏感信息的检测精度。
本说明书实施例还提供了一种敏感资讯信息检测方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取资讯信息;对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可用于存储所述计算机程序和/或模块,所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据用户终端的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器。在本说明书实施例中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图3,在软件层面上,本说明书实施例还提供了一种敏感资讯信息检测装置,该装置具体可以包括以下的结构模块。
获取模块310,用于获取资讯信息;
第一预处理模块320,用于对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;
检测模块330,用于将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
在一些实施例中,所述预处理还包括:标记所述资讯信息的接收时间;相应的,所述根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复标识包括:根据所述资讯信息的标题判断所述资讯信息与预设历史时间段内获取的资讯信息是否重复。
在一些实施例中,所述装置还包括:第二预处理模块,用于在将不重复的资讯信息输入至检测模型之前,还进行以下处理中的至少一种:确定带有标识的资讯信息的发送方和接收方;对带有标识的资讯信息进行分词和去停用词处理。
在一些实施例中,所述装置还包括:审核模块,用于在所述输出结果包括所述资讯信息为可疑资讯信息的情况下,判断所述可疑资讯信息是否为敏感资讯信息。
在一些实施例中,所述装置还包括:存储模块,用于存储敏感资讯信息,以便于根据所述敏感资讯信息对检测模型进行优化,将优化后的检测模型作为新的检测模型;其中,所述根据所述敏感资讯信息对检测模型进行优化包括:将所述敏感资讯信息作为训练集,对检测模型进行训练,得到优化后的检测模型。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (12)
1.一种敏感资讯信息检测方法,其特征在于,所述方法包括:
获取资讯信息;
对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;
将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
2.根据权利要求1所述的方法,其特征在于,所述预处理还包括:
标记所述资讯信息的接收时间;
相应的,所述根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复标识包括:
根据所述资讯信息的标题判断所述资讯信息与预设历史时间段内获取的资讯信息是否重复。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:在将不重复的资讯信息输入至检测模型之前,还进行以下处理中的至少一种:
确定不重复的资讯信息的发送方和接收方;
对不重复的资讯信息进行分词和去停用词处理。
4.根据权利要求1所述的方法,其特征在于,所述输出结果包括所述资讯信息为敏感资讯信息、正常资讯信息或可疑资讯信息。
5.根据权利要求1所述的方法,其特征在于,在所述输出结果包括所述资讯信息为可疑资讯信息的情况下,判断所述可疑资讯信息是否为敏感资讯信息。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
存储敏感资讯信息,以便于根据所述敏感资讯信息对检测模型进行优化,将优化后的检测模型作为新的检测模型;其中,所述根据所述敏感资讯信息对检测模型进行优化包括:将所述敏感资讯信息作为训练集,对检测模型进行训练,得到优化后的检测模型。
7.一种敏感资讯信息检测装置,其特征在于,所述装置包括:
获取模块,用于获取资讯信息;
第一预处理模块,用于对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;
检测模块,用于将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
8.根据权利要求7所述的装置,其特征在于,所述预处理还包括:
标记所述资讯信息的接收时间;
相应的,所述根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复标识包括:
根据所述资讯信息的标题判断所述资讯信息与预设历史时间段内获取的资讯信息是否重复。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二预处理模块,用于在将不重复的资讯信息输入至检测模型之前,还进行以下处理中的至少一种:
确定带有标识的资讯信息的发送方和接收方;
对带有标识的资讯信息进行分词和去停用词处理。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
审核模块,用于在所述输出结果包括所述资讯信息为可疑资讯信息的情况下,判断所述可疑资讯信息是否为敏感资讯信息。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
存储模块,用于存储敏感资讯信息,以便于根据所述敏感资讯信息对检测模型进行优化,将优化后的检测模型作为新的检测模型;其中,所述根据所述敏感资讯信息对检测模型进行优化包括:将所述敏感资讯信息作为训练集,对检测模型进行训练,得到优化后的检测模型。
12.一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被执行时实现:获取资讯信息;对所述资讯信息进行预处理;所述预处理包括:存储所述资讯信息的标题,根据所述资讯信息的标题判断所述资讯信息与历史获取的资讯信息是否重复;将不重复的资讯信息输入至检测模型,根据所述检测模型的输出结果确定所述资讯信息是否为敏感资讯信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911394070.9A CN111198983A (zh) | 2019-12-30 | 2019-12-30 | 一种敏感资讯信息检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911394070.9A CN111198983A (zh) | 2019-12-30 | 2019-12-30 | 一种敏感资讯信息检测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111198983A true CN111198983A (zh) | 2020-05-26 |
Family
ID=70747127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911394070.9A Pending CN111198983A (zh) | 2019-12-30 | 2019-12-30 | 一种敏感资讯信息检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198983A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112671849A (zh) * | 2020-12-08 | 2021-04-16 | 北京健康之家科技有限公司 | 基于实时流量分析的敏感数据处理方法及装置 |
CN113691614A (zh) * | 2021-08-23 | 2021-11-23 | 城云科技(中国)有限公司 | 资讯处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120226677A1 (en) * | 2011-03-01 | 2012-09-06 | Xbridge Systems, Inc. | Methods for detecting sensitive information in mainframe systems, computer readable storage media and system utilizing same |
CN105701223A (zh) * | 2016-01-15 | 2016-06-22 | 中国人民解放军国防科学技术大学 | 基于Spark Streaming的财经信息情感趋势分析方法 |
CN109766719A (zh) * | 2018-12-28 | 2019-05-17 | 微梦创科网络科技(中国)有限公司 | 一种敏感信息检测方法、装置及电子设备 |
CN110442771A (zh) * | 2019-08-12 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种基于深度学习的检测站点篡改的方法及装置 |
-
2019
- 2019-12-30 CN CN201911394070.9A patent/CN111198983A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120226677A1 (en) * | 2011-03-01 | 2012-09-06 | Xbridge Systems, Inc. | Methods for detecting sensitive information in mainframe systems, computer readable storage media and system utilizing same |
CN105701223A (zh) * | 2016-01-15 | 2016-06-22 | 中国人民解放军国防科学技术大学 | 基于Spark Streaming的财经信息情感趋势分析方法 |
CN109766719A (zh) * | 2018-12-28 | 2019-05-17 | 微梦创科网络科技(中国)有限公司 | 一种敏感信息检测方法、装置及电子设备 |
CN110442771A (zh) * | 2019-08-12 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种基于深度学习的检测站点篡改的方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112671849A (zh) * | 2020-12-08 | 2021-04-16 | 北京健康之家科技有限公司 | 基于实时流量分析的敏感数据处理方法及装置 |
CN113691614A (zh) * | 2021-08-23 | 2021-11-23 | 城云科技(中国)有限公司 | 资讯处理方法和装置 |
CN113691614B (zh) * | 2021-08-23 | 2023-07-18 | 城云科技(中国)有限公司 | 资讯处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10387455B2 (en) | On-the-fly pattern recognition with configurable bounds | |
CN110427487B (zh) | 一种数据标注方法、装置及存储介质 | |
US11184313B1 (en) | Message content cleansing | |
CN111198983A (zh) | 一种敏感资讯信息检测方法、装置及存储介质 | |
CN113239204A (zh) | 文本分类方法及装置、电子设备、计算机可读存储介质 | |
CN113190682B (zh) | 基于树模型的事件影响度获取方法、装置及计算机设备 | |
US11501058B2 (en) | Event detection based on text streams | |
GB2521637A (en) | Messaging digest | |
CN111582565A (zh) | 数据融合方法、装置和电子设备 | |
US20180329989A1 (en) | Recursive agglomerative clustering of time-structured communications | |
CN117035695B (zh) | 一种信息预警的方法、装置、可读存储介质以及电子设备 | |
CN113158001B (zh) | 一种网络空间ip资产归属及相关性判别方法及系统 | |
US20170126605A1 (en) | Identifying and merging duplicate messages | |
US11968162B1 (en) | Message content cleansing | |
US20240013258A1 (en) | Messaging account management system | |
CN113971216B (zh) | 数据处理方法、装置、电子设备和存储器 | |
CN113901816A (zh) | 一种视频文件分词方法、装置及电子设备 | |
CN117971403A (zh) | 一种事件处理方法、装置、电子设备及存储介质 | |
CN114186551A (zh) | 座席语音服务质量的分析方法及相关装置 | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN115827927A (zh) | 一种数据元素构建方法、装置、电子设备及存储介质 | |
CN118152341A (zh) | 一种日志查询语句生成方法、装置、设备及存储介质 | |
CN114416174A (zh) | 基于元数据的模型重构方法、装置、电子设备及存储介质 | |
CN114428891A (zh) | 一种网络资源的处理方法、装置、系统、设备及存储介质 | |
CN115146692A (zh) | 数据聚类方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |