CN109492118A - 一种数据检测方法及检测装置 - Google Patents

一种数据检测方法及检测装置 Download PDF

Info

Publication number
CN109492118A
CN109492118A CN201811286207.4A CN201811286207A CN109492118A CN 109492118 A CN109492118 A CN 109492118A CN 201811286207 A CN201811286207 A CN 201811286207A CN 109492118 A CN109492118 A CN 109492118A
Authority
CN
China
Prior art keywords
data
matching
sensitive word
sensitive
heading message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811286207.4A
Other languages
English (en)
Other versions
CN109492118B (zh
Inventor
李海波
帅伟良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201811286207.4A priority Critical patent/CN109492118B/zh
Publication of CN109492118A publication Critical patent/CN109492118A/zh
Application granted granted Critical
Publication of CN109492118B publication Critical patent/CN109492118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据检测方法及检测装置,其中方法包括:获取待检测数据的标题信息;利用预先建立的敏感词匹配树对待检测数据的标题信息进行匹配处理,得到标题信息中的敏感词;将匹配得到的敏感词转换为哈希值;利用预先建立的哈希数组对哈希值进行匹配处理;当哈希值匹配成功时,确定待检测数据中存在敏感信息。本发明实施例提供的一种数据检测方法及检测装置,能够提高数据中敏感信息的检测效率,尤其适合需进行海量检测运算的影音服务网站应用。

Description

一种数据检测方法及检测装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据检测方法及检测装置。
背景技术
影音服务网站通过抓取站外资源以更新网站内容,这些站外资源通常包括视频数据、音频数据等数据。在抓取上述资源的过程中,由于数据本身存在涉黄词语等其它敏感信息,因此需要对该数据进行屏蔽。例如,如果网站抓取到的一条视频数据的标题中含有色情信息,则会将该视频数据屏蔽,因此需要对数据中的敏感信息进行检测,以作为是否对数据进行屏蔽的条件。
现有的数据检测方法,通常基于关键字匹配来检测数据中的敏感信息。具体而言,通过构成各敏感词的关键字预先组成一个大的正则表达式,当服务器获取数据的标题信息后,将标题信息中的各个关键字与正则表达式进行匹配,如果匹配成功,则表明该数据的标题信息含有敏感信息,需要被屏蔽。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
现有的基于关键字匹配的数据检测方法,由于是将数据标题信息的各个关键字与正则表达式进行匹配,当数据中敏感信息较多时关键字也随之增多,因此服务器需要花费更多的时间进行匹配。目前的影音服务网站每天都会抓取海量的数据,需要进行数亿次的检测,现有的基于关键字匹配的数据检测方法,在检测数据中是否含有敏感信息时,存在检测效率低的问题。
发明内容
本发明实施例的目的在于提供一种数据检测方法及检测装置,以实现提高在检测数据中是否含有敏感信息时的检测效率。具体技术方案如下:
第一方面,本发明实施例提供了一种数据检测方法,所述方法包括:
获取待检测数据的标题信息,所述待检测数据为视频数据、图片数据、音频数据或者文本数据;
利用预先建立的敏感词匹配树对所述待检测数据的标题信息进行匹配处理,得到所述标题信息中的敏感词,所述敏感词匹配树基于Aho-Corasick算法建立;
将匹配得到的所述敏感词转换为哈希值;
利用预先建立的哈希数组对所述哈希值进行匹配处理,所述哈希数组中记录有样本屏蔽词对应的哈希值;
当所述哈希值匹配成功时,确定所述待检测数据中存在敏感信息。
可选地,所述获取待检测数据的标题信息之后,所述方法还包括:
将所述标题信息中的文字转换为Unicode码。
可选地,所述利用预先建立的敏感词匹配树对所述待检测数据的标题信息进行匹配处理,得到所述标题信息中的敏感词的步骤,包括:
利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词。
可选地,所述利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词之后,所述方法还包括:
将多个所述敏感词组合为新的敏感词;
所述将匹配得到的所述敏感词转换为哈希值的步骤,包括:
将所述新的敏感词转换为哈希值字符串。
可选地,所述所利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词之后,所述方法还包括:
按照预设排序方法,对多个所述敏感词进行排序;
所述将多个所述敏感词组合为新的敏感词的步骤,包括:
将经排序后的多个所述敏感词组合为新的敏感词。
可选地,所述哈希数组中还记录有样本屏蔽词组合对应的哈希值字符串,所述利用预先建立的哈希数组对所述哈希值进行匹配处理的步骤,包括:
利用预先建立的哈希数组对所述哈希值字符串进行匹配处理。
可选地,所述当所述哈希值匹配成功时,确定所述待检测数据中存在敏感信息的步骤,包括:
当所述哈希值字符串匹配成功时,确定所述待检测数据中存在敏感信息。
第二方面,本发明实施例还提供了一种数据检测装置,所述装置包括:
获取模块,用于获取待检测数据的标题信息,所述待检测数据为视频数据、图片数据、音频数据或者文本数据;
第一匹配模块,用于利用预先建立的敏感词匹配树对所述待检测数据的标题信息进行匹配处理,得到所述标题信息中的敏感词,所述敏感词匹配树基于Aho-Corasick算法建立;
第一转换模块,用于将匹配得到的所述敏感词转换为哈希值;
第二匹配模块,用于利用预先建立的哈希数组对所述哈希值进行匹配处理,所述哈希数组中记录有样本屏蔽词对应的哈希值;
确定模块,用于当所述哈希值匹配成功时,确定所述待检测数据中存在敏感信息。
可选地,所述装置还包括:
第二转换模块,用于将所述标题信息中的文字转换为Unicode码。
可选地,所述第一匹配模块,具体用于:
利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词。
可选地,所述装置还包括:
组合模块,用于将多个所述敏感词组合为新的敏感词;
所述第一转换模块,具体用于:
将所述新的敏感词转换为哈希值字符串。
可选地,所述装置还包括:
排序模块,用于按照预设排序方法,对多个所述敏感词进行排序;
所述组合模块,具体用于:
将经排序后的多个所述敏感词组合为新的敏感词。
可选地,所述哈希数组中还记录有样本屏蔽词组合对应的哈希值字符串,所述第二匹配模块,具体用于:
利用预先建立的哈希数组对所述哈希值字符串进行匹配处理。
可选地,所述确定模块,具体用于:
当所述哈希值字符串匹配成功时,确定所述待检测数据中存在敏感信息。
第三方面,本发明实施例还提供了一种服务器,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述数据检测方法的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的数据检测方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据检测方法。
本发明实施例提供的一种数据检测方法及装置,首先,利用预先建立的敏感词匹配树对所获取的待检测数据的标题信息进行匹配处理,从而匹配得到标题信息中的敏感词;然后,将敏感词转换为哈希值,再利用预先建立的哈希数组对哈希值进行匹配处理,从而确定待检测数据中是否存在敏感信息。本发明实施例提供的数据检测方法,由于是将敏感词转换为哈希值,并将该哈希值作为一个整体直接与预设哈希数组中样本屏蔽词的哈希值进行匹配,而不是基于关键字对敏感词中的各关键字逐字进行匹配,因此能够减少在逐字匹配时的运算量,从而提高数据中敏感信息的检测效率,尤其适合需进行海量检测运算的影音服务网站应用。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的数据检测方法的一种流程示意图;
图2为本发明实施例提供的数据检测方法的另一种流程示意图;
图3为本发明实施例提供的数据检测装置的一种结构示意图;
图4为本发明实施例提供的数据检测装置的另一种结构示意图;
图5为本发明实施例提供的数据检测装置的再一种结构示意图;
图6为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
现有的基于关键字匹配的数据检测方法,对于一条待检测数据而言,假设单个敏感词平均长度为m,敏感词个数为n,关键字文本平均长度为tn,则每次匹配的效率可以表示为(tn*m)*n(其中,*表示乘号,即,tn与m的相乘后,所得乘积与n相乘),可见,随着敏感词个数增加,或者随着关键字文本平均长度增加,虽然匹配效率线性增加,但是,目前的影音服务网站每天需要进行数亿次的检测,现有的基于关键字匹配的数据检测方法,检测效率仍然偏低。
有鉴于此,本发明实施例提供了一种数据检测方法及装置,首先,利用预先建立的敏感词匹配树对所获取的待检测数据的标题信息进行匹配处理,从而匹配得到标题信息中的敏感词;然后,将敏感词转换为哈希值,再利用预先建立的哈希数组对哈希值进行匹配处理,从而确定待检测数据中是否存在敏感信息。本发明实施例提供的数据检测方法,由于是将敏感词转换为哈希值,并将该哈希值作为一个整体直接与预设哈希数组中样本屏蔽词的哈希值进行匹配,而不是基于关键字对敏感词中的各关键字逐字进行匹配,因此能够减少在逐字匹配时的运算量,从而提高数据中敏感信息的检测效率。
下面首先对本发明实施例所提供的一种数据检测方法进行介绍。
本发明实施例提供了一种数据检测方法,如图1所示,该方法包括:
S110,获取待检测数据的标题信息。
待检测数据可以为站外资源,服务器可以抓取这些数据,并为这些数据建立索引信息。容易理解,对于视频数据、图片数据等数据而言通常存在一个标题信息,用于标明数据的内容,因此在数据抓取的过程中,服务器可以获取这些数据的标题信息,也即,获取待检测数据的标题信息。本发明实施例中,上述待检测数据指待进行敏感信息检测的数据,可以包括:视频数据、图片数据、音频数据以及文本数据。
S120,利用预先建立的敏感词匹配树对待检测数据的标题信息进行匹配处理,得到标题信息中的敏感词。
本发明实施例中,可以通过Aho-Corasick算法,预先建立一个字典树,具体可以为敏感词匹配树,敏感词匹配树的各节点中记录有用于构成敏感词的单个关键字,然后利用该敏感词匹配树对待检测数据的标题信息进行匹配处理,从而得到标题信息中的敏感词。需要说明的是,基于字典树匹配得到敏感词的过程可以通过现有的Aho-Corasick算法实现,具体过程本发明实施例在此不再赘述。
Aho-Corasick算法是字典树和KMP算法(The Knuth-Morris-Pratt Algorithm,克努特-莫里斯-普拉特算法)的综合,从字典树的各单个关键字中提取敏感词的效率可以表示为(tn+m)*log(n),其中,m表示单个敏感词的平均长度,n表示敏感词个数,tn表示关键字文本平均长度,可见,这种匹配方法随着敏感词个数增加,其匹配效率呈对数增长。
S130,将匹配得到的敏感词转换为哈希值。
哈希值是利用散列算法得到的具有固定长度的散列值,可以利用现有的散列算法,将敏感词转换为哈希值,例如,MD5(Message Digest Algorithm MD5,消息摘要算法第五版)和SHA-1(Secure Hash Algorithm 1,安全散列算法1)等算法。
S140,利用预先建立的哈希数组对哈希值进行匹配处理。
本发明实施例中,可以预先建立一个哈希数组,该哈希数组中可以按序号记录有不同样本屏蔽词对应的哈希值,上述样本屏蔽词可以是根据真实场景收集得到的敏感词,例如,真实对话场景中人们使用的敏感词。样本屏蔽词可以作为判断标题信息中是否含有敏感信息的判断依据。
根据上述内容可知,将敏感词转换为哈希值后,即可利用哈希数组对该哈希值进行匹配处理。
S150,当哈希值匹配成功时,确定待检测数据中存在敏感信息。
如果敏感词对应的哈希值与哈希数组中的哈希值匹配成功,表明数据的标题信息中存在与样本屏蔽词一致的敏感词,则可以确定待检测数据中存在敏感信息。例如,敏感词A对应的哈希值为am,哈希数组中序号7处同样记录有哈希值am,则敏感词A对应的哈希值为am与哈希数组中序号7处的哈希值匹配成功。其中,a和m均表示一个数字或字母。
本发明实施例提供的一种数据检测方法,首先,利用预先建立的敏感词匹配树对所获取的待检测数据的标题信息进行匹配处理,从而匹配得到标题信息中的敏感词;然后,将敏感词转换为哈希值,再利用预先建立的哈希数组对哈希值进行匹配处理,从而确定待检测数据中是否存在敏感信息。本发明实施例提供的数据检测方法,由于是将敏感词转换为哈希值,并将该哈希值作为一个整体直接与预设哈希数组中样本屏蔽词的哈希值进行匹配,而不是基于关键字对敏感词中的各关键字逐字进行匹配,因此能够减少在逐字匹配时的运算量,从而提高数据中敏感信息的检测效率,尤其适合需进行海量检测运算的影音服务网站应用。
如图2所示,本发明实施例还提供了一种数据检测方法,该方法包括:
S210,获取待检测数据的标题信息。
该步骤与图1所示实施例的S110相同,在此不再赘述。
S220,将标题信息中的文字转换为Unicode码。
发明人发现,有些待检测数据的标题信息中,存在既包含中文又包含英文或者其他外文的情况,此时可以先将标题信息转换为Unicode码。由于几乎全球所有文字均可以转换为统一的Unicode码,因此,经过上述转换处理后,无论标题信息中含有哪种外文,计算机均可以基于Unicode码得到的哈希值进行匹配,从而提高后续敏感词匹配时对不同文字的通用性。
S230,利用预先建立的敏感词匹配树,对转换为Unicode码后的标题信息进行匹配处理,得到标题信息中的多个敏感词。
本发明实施例中,敏感词匹配树的各节点中可以记录有用于构成敏感词的单个关键字对应的Unicode码,因此可以利用该敏感词匹配树,对转换为Unicode码后的标题信息进行匹配处理。经匹配处理后,有时可以得到标题信息中的多个敏感词,例如,2个敏感词或者3个敏感词,虽然这些敏感词采用Unicode码表示,但它们表示的实际含义并没有改变,仅仅是以不同的表示方法进行表示。
S240,将多个敏感词组合为新的敏感词。
得到多个敏感词后,可以将这些敏感词组合为一个新的敏感词,示例性地,多个敏感词中,敏感词A具体为“唐老鸭”,敏感词B具体为“舌头”,则可以将它们组合为新的敏感词“唐老鸭舌头”。
S250,将新的敏感词转换为哈希值字符串。
根据上述内容可知,新的敏感词是由多个敏感词组合而成的,因此在得到新的敏感词后,可以将该新的敏感词转换为对应的哈希值字符串。
S260,利用预先建立的哈希数组对哈希值字符串进行匹配处理。
本发明实施例中,预先建立的哈希数组中还可以记录有样本屏蔽词组合对应的哈希值字符串,从而利用该哈希数组对步骤S250得到的哈希值字符串进行匹配处理。示例性地,哈希数组中序号20处记录有哈希值字符串adnq,敏感词A和敏感词B组成的新的敏感词所对应的哈希值字符串也为adnq,则新的敏感词对应的哈希值字符串adnq与哈希数组中序号20的哈希值字符串匹配成功。其中,a、d、n、q均表示一个数字或字母。
根据上述内容可知,本发明实施例中新的敏感词对应的哈希值字符串本质上仍为哈希值,也就是说,服务器在对待检测数据的敏感信息进行匹配时,不需要再对待检测数据标题信息中的每个敏感词均进行一次哈希值匹配运算,而是将组合后的新的敏感词作为一个整体进行哈希值匹配运算,运算次数显著减少,匹配效率显著提高。
S270,当哈希值字符串匹配成功时,确定待检测数据中存在敏感信息。
当哈希值字符串匹配成功时,表明待检测数据的标题信息中同时含有多个敏感词。存在一种情况,对于某个待检测数据的标题信息而言,单个敏感词可能并不会构成敏感信息,只有当多个敏感词组合在一起时才会构成敏感信息,针对这种情况,本发明实施例中在对敏感词匹配时采用的是与操作,即,只有当多个敏感词满足同时出现在待检测数据的标题信息中时,才会确定该数据存在敏感信息,而不是只要标题信息中含有敏感词,数据便会被屏蔽,这样能够降低服务器对待检测数据的误判程度。
当然,对于不同的检测严格程度,可以预先设定不同的敏感词语法,例如,对于涉及色情的敏感词,只要当多个敏感词在待检测数据的标题信息中出现其中一个,即可判定该数据中存在敏感信息。
在图2所示数据检测方法的基础上,本发明实施例一种可选的实施例中,匹配得到多个敏感词后,此时可以先按照预设排序方法对敏感词进行排序,再将经排序后的多个敏感词组合为新的敏感词,然后再将新的敏感词转换为对应的哈希值字符串。
其中,按照预设排序方法对多个敏感词进行排序的步骤,可以包括:
按照各敏感词在待检测数据的标题信息中的位置先后顺序,对多个敏感词进行排序;或者,按照各敏感词首字母的字典字母顺序,对多个敏感词进行排序。
如果不对敏感词进行排序处理,则当敏感词个数较多时,由于它们是无序的,则转换后的哈希值字符串中,不同的排列形式会产生不同的哈希值字符串,这就需要服务器预先在哈希数组中保存多种排列情况下对应的哈希值字符串,一方面造成匹配次数多而导致匹配效率下降,另一方面容易造成服务器在匹配时,由于匹配次数多而造成运算量增大,因此,将敏感词按照预设的排序方法进行排序后,能够显著减少服务器在进行哈希值字符串匹配时的匹配次数,并能降低运算量。
本发明实施例提供的一种数据检测方法,获取待检测数据的标题信息后,能够将将标题信息中的文字转换为Unicode码,从而提高后续敏感词匹配时对不同文字的通用性;对于匹配得到的标题信息中的多个敏感词,能够将各敏感词组合为新的敏感词,再将新的敏感词转换为哈希值字符串,然后利用预先建立的哈希数组对哈希值字符串进行匹配处理,当哈希值字符串匹配成功时,表明待检测数据的标题信息中同时含有多个敏感词,从而确定待检测数据中存在敏感信息,而不是只要标题信息中含有敏感词数据便会被屏蔽,能够降低服务器对待检测数据的误判程度。并且,由于是将新的敏感词对应的一个哈希值字符串进行匹配运算,而不是对组成新的敏感词的每个敏感词均进行一次匹配运算,因此能够显著提高匹配效率。
本发明实施例还提供了一种数据检测装置,与图1所示方法的流程对应,如图3所示,包括:
获取模块310,用于获取待检测数据的标题信息,待检测数据为视频数据、图片数据、音频数据或者文本数据。
第一匹配模块320,用于利用预先建立的敏感词匹配树对待检测数据的标题信息进行匹配处理,得到标题信息中的敏感词,敏感词匹配树基于Aho-Corasick算法建立。
第一转换模块330,用于将匹配得到的敏感词转换为哈希值。
第二匹配模块340,用于利用预先建立的哈希数组对哈希值进行匹配处理,哈希数组中记录有样本屏蔽词对应的哈希值。
确定模块350,用于当哈希值匹配成功时,确定待检测数据中存在敏感信息。
本发明实施例提供的一种数据检测装置,首先,利用预先建立的敏感词匹配树对所获取的待检测数据的标题信息进行匹配处理,从而匹配得到标题信息中的敏感词;然后,将敏感词转换为哈希值,再利用预先建立的哈希数组对哈希值进行匹配处理,从而确定待检测数据中是否存在敏感信息。本发明实施例提供的数据检测方法,由于是将敏感词转换为哈希值,并将该哈希值作为一个整体直接与预设哈希数组中样本屏蔽词的哈希值进行匹配,而不是基于关键字对敏感词中的各关键字逐字进行匹配,因此能够减少在逐字匹配时的运算量,从而提高数据中敏感信息的检测效率,尤其适合需进行海量检测运算的影音服务网站应用。
本发明实施例还提供了一种数据检测装置,在图3所示装置结构的基础上,如图4所示,包括:
第二转换模块410,用于将标题信息中的文字转换为Unicode码。
其中,第一匹配模块320,具体用于:
利用预先建立的敏感词匹配树,对转换为Unicode码后的标题信息进行匹配处理,得到标题信息中的多个敏感词。
组合模块420,用于将多个敏感词组合为新的敏感词。
其中,第一转换模块330,具体用于:
将新的敏感词转换为哈希值字符串。
其中,第二匹配模块340,具体用于:
利用预先建立的哈希数组对哈希值字符串进行匹配处理。
作为本发明实施例一种可选的实施方式,在图4所示装置结构的基础上,如图5所示,本发明实施例的数据检测装置,包括:
排序模块430,用于用于按照预设排序方法,对多个敏感词进行排序。
其中,组合模块420,具体用于:
将经排序后的多个敏感词组合为新的敏感词。
本发明实施例提供的一种数据检测装置,获取待检测数据的标题信息后,能够将将标题信息中的文字转换为Unicode码,从而提高后续敏感词匹配时对不同文字的通用性;对于匹配得到的标题信息中的多个敏感词,能够将各敏感词组合为新的敏感词,再将新的敏感词转换为哈希值字符串,然后利用预先建立的哈希数组对哈希值字符串进行匹配处理,当哈希值字符串匹配成功时,表明待检测数据的标题信息中同时含有多个敏感词,从而确定待检测数据中存在敏感信息,而不是只要标题信息中含有敏感词数据便会被屏蔽,能够降低服务器对待检测数据的误判程度。并且,由于是将新的敏感词对应的一个哈希值字符串进行匹配运算,而不是对组成新的敏感词的每个敏感词均进行一次匹配运算,因此能够显著提高匹配效率。
本发明实施例还提供了一种服务器,如图6所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取待检测数据的标题信息,待检测数据为视频数据、图片数据、音频数据或者文本数据;
利用预先建立的敏感词匹配树对待检测数据的标题信息进行匹配处理,得到标题信息中的敏感词,敏感词匹配树基于Aho-Corasick算法建立;
将匹配得到的敏感词转换为哈希值;
利用预先建立的哈希数组对哈希值进行匹配处理,哈希数组中记录有样本屏蔽词对应的哈希值;
当哈希值匹配成功时,确定待检测数据中存在敏感信息。
本发明实施例提供的一种服务器,首先,利用预先建立的敏感词匹配树对所获取的待检测数据的标题信息进行匹配处理,从而匹配得到标题信息中的敏感词;然后,将敏感词转换为哈希值,再利用预先建立的哈希数组对哈希值进行匹配处理,从而确定待检测数据中是否存在敏感信息。本发明实施例提供的数据检测方法,由于是将敏感词转换为哈希值,并将该哈希值作为一个整体直接与预设哈希数组中样本屏蔽词的哈希值进行匹配,而不是基于关键字对敏感词中的各关键字逐字进行匹配,因此能够减少在逐字匹配时的运算量,从而提高数据中敏感信息的检测效率,尤其适合需进行海量检测运算的影音服务网站应用。
上述服务器提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (15)

1.一种数据检测方法,其特征在于,所述方法包括:
获取待检测数据的标题信息,所述待检测数据为视频数据、图片数据、音频数据或者文本数据;
利用预先建立的敏感词匹配树对所述待检测数据的标题信息进行匹配处理,得到所述标题信息中的敏感词,所述敏感词匹配树基于Aho-Corasick算法建立;
将匹配得到的所述敏感词转换为哈希值;
利用预先建立的哈希数组对所述哈希值进行匹配处理,所述哈希数组中记录有样本屏蔽词对应的哈希值;
当所述哈希值匹配成功时,确定所述待检测数据中存在敏感信息。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测数据的标题信息之后,所述方法还包括:
将所述标题信息中的文字转换为Unicode码。
3.根据权利要求2所述的方法,其特征在于,所述利用预先建立的敏感词匹配树对所述待检测数据的标题信息进行匹配处理,得到所述标题信息中的敏感词的步骤,包括:
利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词。
4.根据权利要求3所述的方法,其特征在于,所述利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词之后,所述方法还包括:
将多个所述敏感词组合为新的敏感词;
所述将匹配得到的所述敏感词转换为哈希值的步骤,包括:
将所述新的敏感词转换为哈希值字符串。
5.根据权利要求4所述的方法,其特征在于,所利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词之后,所述方法还包括:
按照预设排序方法,对多个所述敏感词进行排序;
所述将多个所述敏感词组合为新的敏感词的步骤,包括:
将经排序后的多个所述敏感词组合为新的敏感词。
6.根据权利要求5所述的方法,其特征在于,所述哈希数组中还记录有样本屏蔽词组合对应的哈希值字符串,所述利用预先建立的哈希数组对所述哈希值进行匹配处理的步骤,包括:
利用预先建立的哈希数组对所述哈希值字符串进行匹配处理。
7.根据权利要求6所述的方法,其特征在于,所述当所述哈希值匹配成功时,确定所述待检测数据中存在敏感信息的步骤,包括:
当所述哈希值字符串匹配成功时,确定所述待检测数据中存在敏感信息。
8.一种数据检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测数据的标题信息,所述待检测数据为视频数据、图片数据、音频数据或者文本数据;
第一匹配模块,用于利用预先建立的敏感词匹配树对所述待检测数据的标题信息进行匹配处理,得到所述标题信息中的敏感词,所述敏感词匹配树基于Aho-Corasick算法建立;
第一转换模块,用于将匹配得到的所述敏感词转换为哈希值;
第二匹配模块,用于利用预先建立的哈希数组对所述哈希值进行匹配处理,所述哈希数组中记录有样本屏蔽词对应的哈希值;
确定模块,用于当所述哈希值匹配成功时,确定所述待检测数据中存在敏感信息。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二转换模块,用于将所述标题信息中的文字转换为Unicode码。
10.根据权利要求9所述的装置,其特征在于,所述第一匹配模块,具体用于:
利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
组合模块,用于将多个所述敏感词组合为新的敏感词;
所述第一转换模块,具体用于:
将所述新的敏感词转换为哈希值字符串。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
排序模块,用于按照预设排序方法,对多个所述敏感词进行排序;
所述组合模块,具体用于:
将经排序后的多个所述敏感词组合为新的敏感词。
13.根据权利要求12所述的装置,其特征在于,所述哈希数组中还记录有样本屏蔽词组合对应的哈希值字符串,所述第二匹配模块,具体用于:
利用预先建立的哈希数组对所述哈希值字符串进行匹配处理。
14.根据权利要求13所述的装置,其特征在于,所述确定模块,具体用于:
当所述哈希值字符串匹配成功时,确定所述待检测数据中存在敏感信息。
15.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
CN201811286207.4A 2018-10-31 2018-10-31 一种数据检测方法及检测装置 Active CN109492118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811286207.4A CN109492118B (zh) 2018-10-31 2018-10-31 一种数据检测方法及检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811286207.4A CN109492118B (zh) 2018-10-31 2018-10-31 一种数据检测方法及检测装置

Publications (2)

Publication Number Publication Date
CN109492118A true CN109492118A (zh) 2019-03-19
CN109492118B CN109492118B (zh) 2021-04-16

Family

ID=65693463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811286207.4A Active CN109492118B (zh) 2018-10-31 2018-10-31 一种数据检测方法及检测装置

Country Status (1)

Country Link
CN (1) CN109492118B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110502612A (zh) * 2019-08-08 2019-11-26 南京逸杰软件科技有限公司 一种基于黑名单智能识别的交通信息发布安全检测方法
CN110889035A (zh) * 2019-10-12 2020-03-17 深圳前海金融资产交易所有限公司 敏感信息过滤方法、装置及计算机可读存储介质
CN111191443A (zh) * 2019-12-19 2020-05-22 深圳壹账通智能科技有限公司 基于区块链的敏感词检测方法、装置、计算机设备和存储介质
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN113704382A (zh) * 2021-07-28 2021-11-26 上海销氪信息科技有限公司 一种文本匹配方法及装置
CN117112684A (zh) * 2023-07-18 2023-11-24 河北信服科技有限公司 基于物联网的数字化可视化分析系统及方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332146A1 (en) * 2012-06-07 2013-12-12 International Business Machines Corporation High Speed Large Scale Dictionary Matching
CN103514238A (zh) * 2012-06-30 2014-01-15 重庆新媒农信科技有限公司 基于分类查找的敏感词识别处理方法
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法
CN103678651A (zh) * 2013-12-20 2014-03-26 Tcl集团股份有限公司 一种敏感词查找方法及装置
EP3087509A1 (en) * 2013-12-23 2016-11-02 British Telecommunications Public Limited Company Improved pattern matching machine with mapping table
CN106372122A (zh) * 2016-08-23 2017-02-01 温州大学瓯江学院 一种基于维基语义匹配的文档分类方法及系统
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106528581A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 文本检测方法及装置
CN106570166A (zh) * 2016-11-07 2017-04-19 北京航空航天大学 一种基于多个局部敏感哈希表的视频检索方法及装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN108153728A (zh) * 2017-12-22 2018-06-12 新奥(中国)燃气投资有限公司 一种关键词确定方法及装置
CN108228760A (zh) * 2017-12-25 2018-06-29 湛江正信科技服务有限公司 敏感词过滤的方法、装置、移动终端及存储介质
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108536693A (zh) * 2017-03-02 2018-09-14 北京京东尚科信息技术有限公司 一种敏感词过滤方法、装置、电子设备、存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332146A1 (en) * 2012-06-07 2013-12-12 International Business Machines Corporation High Speed Large Scale Dictionary Matching
CN103514238A (zh) * 2012-06-30 2014-01-15 重庆新媒农信科技有限公司 基于分类查找的敏感词识别处理方法
CN103678651A (zh) * 2013-12-20 2014-03-26 Tcl集团股份有限公司 一种敏感词查找方法及装置
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法
EP3087509A1 (en) * 2013-12-23 2016-11-02 British Telecommunications Public Limited Company Improved pattern matching machine with mapping table
CN106528581A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 文本检测方法及装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106372122A (zh) * 2016-08-23 2017-02-01 温州大学瓯江学院 一种基于维基语义匹配的文档分类方法及系统
CN106570166A (zh) * 2016-11-07 2017-04-19 北京航空航天大学 一种基于多个局部敏感哈希表的视频检索方法及装置
CN108536693A (zh) * 2017-03-02 2018-09-14 北京京东尚科信息技术有限公司 一种敏感词过滤方法、装置、电子设备、存储介质
CN108153728A (zh) * 2017-12-22 2018-06-12 新奥(中国)燃气投资有限公司 一种关键词确定方法及装置
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108228760A (zh) * 2017-12-25 2018-06-29 湛江正信科技服务有限公司 敏感词过滤的方法、装置、移动终端及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AMRITPALSINGH 等: "Ensemble based spam detection in social IoT using probabilistic data structures", 《FUTURE GENERATION COMPUTER SYSTEMS》 *
JANNE NIEMINEN 等: "Efficient implementation of", 《SOFTWARE—PRACTICE AND EXPERIENCE》 *
何孝金: "垃圾短信过滤系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李晓娟: "地图标注内容的文本异常识别", 《中国优秀硕士学位论文全文数据库 基础科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110502612A (zh) * 2019-08-08 2019-11-26 南京逸杰软件科技有限公司 一种基于黑名单智能识别的交通信息发布安全检测方法
CN110889035A (zh) * 2019-10-12 2020-03-17 深圳前海金融资产交易所有限公司 敏感信息过滤方法、装置及计算机可读存储介质
CN111191443A (zh) * 2019-12-19 2020-05-22 深圳壹账通智能科技有限公司 基于区块链的敏感词检测方法、装置、计算机设备和存储介质
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN113704382A (zh) * 2021-07-28 2021-11-26 上海销氪信息科技有限公司 一种文本匹配方法及装置
CN113704382B (zh) * 2021-07-28 2024-06-07 上海销氪信息科技有限公司 一种文本匹配方法及装置
CN117112684A (zh) * 2023-07-18 2023-11-24 河北信服科技有限公司 基于物联网的数字化可视化分析系统及方法

Also Published As

Publication number Publication date
CN109492118B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN109492118A (zh) 一种数据检测方法及检测装置
CN108763928B (zh) 一种开源软件漏洞分析方法、装置和存储介质
US9323839B2 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
Thakur et al. An intelligent algorithmically generated domain detection system
US10511617B2 (en) Method and system for detecting malicious code
CN103294778B (zh) 一种推送资讯信息的方法及系统
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN105072214B (zh) 基于域名特征的c&c域名识别方法
CN106874253A (zh) 识别敏感信息的方法及装置
EP2657853A1 (en) Webpage information detection method and system
CN111181922A (zh) 一种钓鱼链接检测方法及系统
Low et al. Distinguishing between fake news and satire with transformers
Raja et al. Fake news detection on social networks using Machine learning techniques
Hai et al. Detection of malicious URLs based on word vector representation and ngram
CN108470126A (zh) 数据处理方法、装置及存储介质
CN107786529B (zh) 网站的检测方法、装置及系统
CN113722484A (zh) 基于深度学习的谣言检测方法、装置、设备及存储介质
Alneyadi et al. A semantics-aware classification approach for data leakage prevention
Izzah et al. Classification of pornographic content on Twitter using support vector machine and Naive Bayes
US11120129B2 (en) System and method for detecting leaked documents on a computer network
Saini et al. A Hybrid LSTM-BERT and Glove-based Deep Learning Approach for the Detection of Fake News
CN106547780A (zh) 文章转载量的统计方法及装置
Xiao et al. The challenges of machine learning for trust and safety: A case study on misinformation detection
Yin et al. Research of integrated algorithm establishment of a spam detection system
JP7140268B2 (ja) 警告装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant