CN108984530A - 一种网络敏感内容的检测方法及检测系统 - Google Patents
一种网络敏感内容的检测方法及检测系统 Download PDFInfo
- Publication number
- CN108984530A CN108984530A CN201810809775.1A CN201810809775A CN108984530A CN 108984530 A CN108984530 A CN 108984530A CN 201810809775 A CN201810809775 A CN 201810809775A CN 108984530 A CN108984530 A CN 108984530A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- text
- vocabulary
- content
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000035945 sensitivity Effects 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 229910002056 binary alloy Inorganic materials 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 33
- 230000008569 process Effects 0.000 abstract description 12
- 230000008451 emotion Effects 0.000 abstract description 6
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 238000003786 synthesis reaction Methods 0.000 abstract description 4
- 238000007796 conventional method Methods 0.000 abstract description 3
- 101150039208 KCNK3 gene Proteins 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种网络敏感内容的检测方法及检测系统。本发明将敏感词汇的变形词汇与敏感词汇的指纹值定义为一个,极大的考虑了变形词与原词的关联性,并且改进了语义指纹的确定方法,然后,采用改进的语义指纹技术判断待检测文本是否为已检测过的相同或相似敏感内容。若是则直接判为敏感内容;否则,通过提出的综合敏感内容和文本情感倾向的多任务卷积神经网络模型进行敏感内容检测,不仅可以避免传统方法需要训练两个模型的复杂过程,而且还可以有效的提高检测的准确性。本发明与现有方法和系统相比,不仅准确率有了较大的提升而且快速、能够保证实时性检测。
Description
技术领域
本发明涉及敏感内容检测领域,特别是涉及一种网络敏感内容的检测方法及检测系统。
背景技术
社交网络以其方便、灵活的信息发布和快速、高效的网络传播方式深受广大网民的喜爱,已经成为广大网民沟通交流的重要平台和获取信息的重要入口。
然而,社交网络的广泛应用同样给敏感内容的传播提供了网络空间。为了加强对网络内容的管理,营造一个风清气正的网络空间,培育积极健康、向上向善的网络文化,必须采用先进的技术手段对社交网络内容进行必要的检测和过滤。对社交网络中的敏感内容进行高效、准确的检测不仅可以确保网络用户远离有害信息侵扰、打击违法犯罪行为,对维护社会安定、呵护青少年身心健康等都具有十分重要的意义。
由于,敏感信息发布者常对敏感词进行各种变形来躲避检测,现有敏感内容检测方法在进行敏感词检测时只是将识别出的各种变形词加入敏感词库,按此与分词处理后的社交网络发布信息进行匹配检测,但忽略了变形词与原词之间的关联性,导致传统的基于关键词匹配的方法识别准确率并不理想,存在较多漏判、误判现象,准确率较低。
发明内容
本发明的目的是提供一种网络敏感内容的检测方法及检测系统,用来提高敏感内容检测的准确率。
为实现上述目的,本发明提供了如下方案:
一种网络敏感内容的检测方法,所述检测方法包括:
对待发布文本进行预处理,得到文档集合,所述文档集合包括多个分词结果,且所述分词结果之间以空格分隔;
根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别;
根据哈希函数确定各所述分词结果的指纹值;其中,敏感词汇与其对应的变形词汇的指纹值是一样的;
根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹;
计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离;
判断所述语义距离是否大于设定阈值,得到判断结果;
当所述判断结果表示所述语义距离小于等于设定阈值时,确定所述待发布文本为敏感内容;
当所述判断结果表示所述语义距离大于设定阈值时,构建基于多任务学习的卷积神经网络模型;其中,多任务包括:敏感内容检测和文本情感极性识别;
将各所述分词结果转化为词向量矩阵;
将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中,得到输出结果;
当输出结果的敏感内容检测大于0时,确定所述待发布文本为敏感内容;
当输出结果的敏感内容检测为0时,确定所述待发布文本为正常文本内容。
可选的,所述对待发布文本进行预处理,具体包括:
将特殊表示符号进行替换处理,提取规范内容;
对所述替换处理后的文本进行词语切分,去除停用词,得到以空格分隔词语的文档集合。
可选的,所述根据变形识别算法识别敏感词汇的变形词汇,具体包括:
去除夹杂的特殊符号、若出现繁体字则进行繁简转化;
若分词结果中出现连续3个及以上的单字,则将连续出现的单字转化为对应的拼音;若分词结果中出现拼音,则以此拼音为中心,将前后4个词汇均转为汉字对应的拼音;判断拼音序列顺序组合检测是否为敏感词汇所对应的拼音,若是,则判断为敏感词汇的变形词汇;
若分词结果中出现拼音首字母,则以此拼音首字母为中心,将前后4个词汇均转为汉字对应的拼音首字母,判断拼音首字母序列顺序组合检测是否为敏感词汇所对应的拼音首字母,若是,判断为敏感词汇的变形词汇。
可选的,根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹,具体包括:
计算每个分词结果出现的频率,即词频;
根据每个分词结果的词频处理每个分词结果的指纹值,得到权重处理结果,所述指纹值为64位二进制值,若每位的二进制值为1时,则在该位加上词频,若每位的二进制值为0时,则在该位减去词频;
将各权重处理结果的相应位上的数字求和,得到求和结果,
将所述求和结果根据数字的符号转换位二进制数字,若符号为正,则转换为1,若符号为负,则转换为0。
可选的,所述语义距离的计算公式如下:
式中,函数NumberOf1用来求二进制数中1的个数,为异或运算,Fi与Fj为64位二进制数,表示语义指纹值。
可选的,构建基于多任务学习的卷积神经网络模型,具体包括:
对完成预处理以及分词后的训练集文本内容进行人工标注,每个训练文本包括敏感内容和情感极性两个标签;
将各所述训练文本转换为词向量矩阵;
将各所述词向量矩阵通过深度学习,得到基于多任务学习的卷积神经网络模型。
可选的,将敏感内容和情感极性两个任务通过一个优化器进行优化,实现联合训练。
可选的,将敏感内容和情感极性两个任务通过两个不同的优化器进行优化,实现交替训练。
可选的,敏感内容为二分类任务,有两个值0或1,0代表为正常文本内容,1代表为敏感内容;或者敏感内容为多分类任务,有多个取值,0代表正常文本内容,1代表第一类敏感内容,2代表第二类敏感内容……以此类推。
一种网络敏感内容的检测系统,所述检测系统包括:
预处理模块,用于对待发布文本进行预处理,得到文档集合,所述文档集合包括多个分词结果,且所述分词结果之间以空格分隔;
敏感词汇的变形词汇的识别模块,用于根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别;
分词结果的指纹值的确定模块,用于根据哈希函数确定各所述分词结果的指纹值;其中,敏感词汇与其对应的变形词汇的指纹值是一样的;
待发布文本的语义指纹的计算模块,用于根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹;
语义距离计算模块,用于计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离;
判断模块,用于判断所述语义距离是否大于设定阈值,得到判断结果;
第一敏感内容确定模块,用于当所述判断结果表示所述语义距离小于等于设定阈值时,确定所述待发布文本为敏感内容;
卷积神经网络模型构建模块,用于当所述判断结果表示所述语义距离大于设定阈值时,构建基于多任务学习的卷积神经网络模型;其中,多任务包括:敏感内容检测和文本情感极性识别;
词向量矩阵转换模块,用于将各所述分词结果转换为词向量矩阵;
输出结果确定模块,用于将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中,得到输出结果;
第二敏感内容确定模块,用于当输出结果的敏感内容检测大于0 时,则确定所述待发布文本为敏感内容;
正常文本内容确定模块,用于当输出结果的敏感内容检测为0 时,则确定所述待发布文本为正常文本内容。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将敏感词汇的变形词汇与敏感词汇的指纹值定义为一个,极大的考虑了变形词与原词的关联性,并且改进了语义指纹的确定方法,然后,采用改进的语义指纹技术判断待检测文本是否为已检测过的相同或相似敏感内容。若是则直接判为敏感内容;否则,通过提出的综合敏感内容和文本情感倾向的多任务卷积神经网络模型进行敏感内容检测,不仅可以避免传统方法需要训练两个模型的复杂过程,而且还可以有效的提高检测的准确性。本发明与现有方法和系统相比,不仅准确率有了较大的提升而且快速、能够保证实时性检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网络敏感内容的检测方法的流程图;
图2为本发明对待发布文本进行预处理的流程图;
图3为本发明计算待发布文本的语义指纹的流程图;
图4为本发明构建基于多任务学习的卷积神经网络模型的流程图;
图5为本发明网络敏感内容的检测系统的结构连接图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有敏感内容检测方法存在两个问题:1)在进行敏感词检测时只是将识别出的各种变形词加入敏感词库,按此与分词处理后的社交网络发布信息进行匹配检测,但忽略了变形词与原词之间的关联性。 2)在检测方法与模型上,现有方法并未充分考虑到语义特征和情感信息等,存在较多漏判、误判现象,准确率较低。而且有些方法需要训练两个模型,然后综合进行判定,从而严重影响检测效率。
针对以上问题,本发明将待检测文本进行预处理后,首先构建敏感指纹词库D_sw,采用提出的“敏感词指纹汇聚”方法将识别出的各种敏感变形词打上指纹并与原词进行关联。然后,采用改进的语义指纹技术判断待检测文本是否为已检测过的相同或相似敏感内容。若是则直接判为敏感内容;否则,通过提出的综合敏感内容和文本情感倾向的多任务卷积神经网络模型(MTL-CNN)进行敏感内容检测,不仅可以避免传统方法需要训练两个模型的复杂过程,而且还可以有效的提高检测的准确性。本发明与现有方法和系统相比,检测性能得到了明显提升。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明网络敏感内容的检测方法的流程图,如图1所示,所述检测方法包括:
步骤10:对待发布文本进行预处理,得到文档集合,所述文档集合包括多个分词结果,且所述分词结果之间以空格分隔。
图2为本发明对待发布文本进行预处理的流程图;如图2所示,具体包括:
步骤101:将特殊表示符号进行替换处理,提取规范内容。
对社交网络中的待发布文本进行预处理,对于微博内容来说,将其中的表情符号、链接、图片、以及@符号等特殊表示形式进行替换处理,从而从文本数据中提取较为规范的内容,剔除噪声信息。替换处理结果如下:
处理前:@用户名,处理后:[好友];处理前:链接,处理后: URL;处理前:图片,处理后:img;处理前:表情符号,处理后:[表情名]。
步骤102:对所述替换处理后的文本进行词语切分,去除停用词,得到以空格分隔词语的文档集合。
调用分词工具对上述预处理后的文本进行词语切分,然后去除停用词,得到以空格分隔词语的文档集合;
步骤20:根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别。
变形词识别算法如下:
(1)去除文本中夹杂的特殊符号、若出现繁体字则进行繁简转化。
(2)对于分词结果中若出现连续单字情况(即,连续3个及以上单个字成词),则将连续单字转化为汉字对应的拼音。对此拼音序列顺序组合检测是否为敏感关键词所对应的拼音,若为,则成功识别。
(3)若文本中出现拼音,则以此拼音为中心,将前后4个词汇均转为汉字对应的拼音。对此拼音序列顺序组合检测是否为敏感关键词所对应的拼音,若为,则成功识别。
(4)若文本中出现拼音首字母,则一次拼音首字母为中心,将前后4个词汇均转为汉字对应的拼音首字母。对此拼音首字母序列顺序组合检测是否为敏感关键词所对应的拼音首字母,若为,则成功识别。
步骤30:根据哈希函数确定各所述分词结果的指纹值;其中,敏感词汇与其对应的变形词汇的指纹值是一样的。通过敏感词指纹汇聚方法,为敏感词汇、敏感词的变形词汇打上指纹,使原始敏感词汇与其变形词汇相关联。
使用Jenkins Hash哈希函数对分词结果进行哈希处理,得到的一个k位的哈希值即为该分词结果的指纹值。
其中,敏感词指纹定义:使用Jenkins Hash哈希函数对原始的敏感词w_i进行哈希处理,得到的一个k位的哈希值即为该敏感词的指纹值,每类敏感词的指纹具有唯一性。
注意,实际当中我们将采用64位的指纹。
敏感词指纹汇聚过程的原理及过程如下:
将敏感词的各种变体词汇均映射到原始敏感词的指纹上。这样无论多少的变体词汇,每个变体词汇均代表这个原始的敏感词。
步骤40:根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹。
图3为本发明计算待发布文本的语义指纹的流程图;如图3所示,具体包括:
步骤401:计算每个分词结果出现的频率,即词频;
步骤402:根据每个分词结果的词频处理每个分词结果的指纹值,得到权重处理结果,所述指纹值为6个二进制值,若每位的二进制值为1时,则在该位加上词频,若每位的二进制值为0时,则在该位减去词频;
步骤403:将各权重处理结果的相应位上的数字求和,得到求和结果,
步骤404:将所述求和结果根据数字的符号转换位二进制数字,若符号为正,则转换为1,若符号为负,则转换为0。
虽然敏感词进行了变形伪装,但其语义与原始敏感词保持一致,为提高敏感文本相似度检测性能,本发明的语义指纹生成方法考虑敏感词的各种变形情况,引入敏感词指纹汇聚方法,具体过程如下:计算词频作为每个词项(其中敏感词和它的变形词是一个词项)的权值,同时通过普通的hash函数计算得到各元素的一个二进制哈希值(64 位)。由于敏感变形词与原词的关联关系,此时敏感变形词的出现相当于原词的再次出现,因此计算一个敏感词的词频,即文本中出现的原始敏感词与其敏感变形词的次数之和。然后将所有元素的哈希值加权累加,得到一个同样位数的向量V,最后根据V中各位的符号生成文本的语义指纹。
本发明的语义指纹生成方法融入了敏感变形词指纹汇聚过程,使得敏感变形词与原词采用相同的编码表示这组敏感词。避免了经典 Simhash语义指纹生成算法无法支持同义词、敏感词与敏感变形词之间的语义问题,从而提高了敏感文本相似度检测性能。
步骤50:计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离;所述语义距离的计算公式如下:
式中,函数NumberOf1用来求二进制数中1的个数,为异或运算,与为64位二进制数,表示语义指纹值,Disth(Fi,Fj)为求得的汉明距离,即语义距离。
步骤60:判断所述语义距离是否大于设定阈值,得到判断结果。
步骤70:当所述判断结果表示所述语义距离小于等于设定阈值时,确定所述待发布文本为敏感内容。
我们事先建立好一个敏感文本指纹库,将已知敏感文本的语义指纹入库,并不断更新敏感文本指纹库,这样相同的敏感文本下次将会被自动识别,由于算法过程仅是CPU运算和指纹查找,相对于其它采用机器学习模型进行检测的过程在检测速度上具有明显的优势。
步骤80:当所述判断结果表示所述语义距离大于设定阈值时,构建基于多任务学习的卷积神经网络模型;其中,多任务包括:敏感内容检测和文本情感极性识别。
图4为本发明构建基于多任务学习的卷积神经网络模型的流程图;如图4所示,构建基于多任务学习的卷积神经网络模型,具体包括:
步骤801:对完成预处理以及分词后的训练集文本内容进行人工标注,每个训练文本包括敏感内容和情感极性两个标签;
步骤802:将各所述训练文本转换为词向量矩阵;
步骤803:将各所述词向量矩阵通过深度学习,得到基于多任务学习的卷积神经网络模型。
对训练语料集分词好的数据合并生成词级别的训练语料,使用 gensim的word2vec工具词向量工具来训练一个词向量空间。
在词向量训练过程中,本文采用的训练参数配置如下:a)选用速度更快的CBOW(Continuous Bag-Of-Words)模型;b)上下文滑动窗口大小一般为[5,10]之间,此处我们取经验值8;c)单词向量维度取经验值300。对于未出现在词向量语料中的词汇,则进行随机初始化操作。
对完成预处理以及分词后的训练集文本内容,通过训练好的词向量模型顺序映射为词向量,将文本内容转化为词向量矩阵作为输入,使用Google开源深度学习框架TensorFlow训练得到一个基于多任务学习的敏感内容检测卷积神经网络模型。所述基于多任务学习的敏感内容检测卷积神经网络模型包括训练得到的参数和深度学习工具,两个任务分别为:敏感内容检测(Task1)、文本情感极性识别(Task2)。其中,Task1为我们的主任务,即最终关注的结果;Task2作为辅助任务,即在进行敏感内容检测的同时,可以充分利用文本情感倾向特征。在网络模型的训练过程中,由于Task1和Task2两个任务可以通过共享参数的方式获得两个任务之间的共享特征,因而对比两个单独的任务来说,可以获得更好的学习效果。
其中,训练集文本进行人工标注过程中,每条数据有两个标签, lable1:是否为敏感内容;lable2:情感极性。其中,Task2为二分类任务,lable2有两个值0或1,0代表情感极性为负,1代表情感极性为正;当数据中为一类敏感内容时,Task1为二分类任务,lable1有两个值0或1,0代表为正常文本内容,1代表为敏感内容;当数据中有多类敏感内容时,Task1为多分类任务,lable1有多个取值,0 代表正常文本内容,1代表第一类敏感内容,2代表第二类敏感内容……以此类推。
在网络模型中的可调参数设置如下:a)卷积核函数为 ReLu(RectifiedLinearUnits)函数,RELU的表达能力更强,ReLU由于非负区间的梯度为常数,因此不存在梯度消失问题,使得模型的收敛速度维持在一个稳定状态。b)过滤器滑动窗口大小h分为别3,4, 5。c)过滤器数量设为128,每种卷积核都能发现输入样本中不同的局部特征,充分考虑了各个词的上下文信息;d)优化器选择 AdagradOptimizer,可以自动变更学习速率。e)选用的块大小为100; f)丢弃率为0.1;g)训练的迭代次数为1000。
在训练过成中,预设两个方案如下:
方案1:联合训练,如公式(2)所示,得到模型的总损失,将两者联合在一起,通过一个优化器进行优化,即两个任务同时训练。
Lloss=Llosstask1+λ*Llosstask2 (2)
其中,Llosstask1表示Task1的损失函数,Llosstask2表示Task2的损失函数,λ用来权衡这两个任务之间的相对重要程度。在损失函数的选择上,我们采用交叉熵损失(crossentropyloss)作为监督信息,并在此基础上又引入了L2正则化(Regularization)。
方案2:交替训练,每个任务的loss后面接一个优化器,即每一次的优化只针对于当前任务,也就是说另一个任务是完全不管的。
实验的实际效果表明方案1效果更好,因此选择最优的方案1作为我们的检测模型。
步骤90:将各所述分词结果转化为词向量矩阵。
步骤100:将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中,得到输出结果。
步骤110:当输出结果的敏感内容检测大于0时,确定所述待发布文本为敏感内容。如果敏感内容选择二分类任务,有两个值0或1, 0代表为正常文本内容,1代表为敏感内容。当输出结果的敏感内容检测为1时,则可以确定待发布文本为敏感内容。
如果敏感内容为多分类任务,有多个取值,0代表正常文本内容, 1代表第一类敏感内容,2代表第二类敏感内容……以此类推。则输出结果的敏感内容只要大于0,都可以确定待发布文本为敏感内容,而且还可以得到敏感内容的具体类别。
步骤120:当输出结果的敏感内容检测为0时,确定所述待发布文本为正常文本内容。无论敏感内容检测选择二分类还是多分类任务,当输出结果为0时,都可以确定待发布文本为正常文本内容。
例如:例2中的文本经过网络模型进行检测的输出结果为:Task1: 1;Task2:1。注意,我们最终关注Task1的分类结果,标签为1代表是敏感内容,标签为0代表是正常文本内容。
针对上述方法,本申请还提供了一种网络敏感内容的检测系统。图5为本发明网络敏感内容的检测系统的结构连接图。如图5所示,所述监测系统包括:
预处理模块1301,用于对待发布文本进行预处理,得到文档集合,所述文档集合包括多个分词结果,且所述分词结果之间以空格分隔;
敏感词汇的变形词汇的识别模块1302,用于根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别;
分词结果的指纹值的确定模块1303,用于根据哈希函数确定各所述分词结果的指纹值;其中,敏感词汇与其对应的变形词汇的指纹值是一样的;
待发布文本的语义指纹的计算模块1304,用于根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹;
语义距离计算模块1305,用于计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离;
判断模块1306,用于判断所述语义距离是否大于设定阈值,得到判断结果;
第一敏感内容确定模块1307,用于当所述判断结果表示所述语义距离小于等于设定阈值时,确定所述待发布文本为敏感内容;
卷积神经网络模型构建模块1308,用于当所述判断结果表示所述语义距离大于设定阈值时,构建基于多任务学习的卷积神经网络模型;其中,多任务包括:敏感内容检测和文本情感极性识别;
词向量矩阵转换模块1309,用于将各所述分词结果转换为词向量矩阵;
输出结果确定模块1310,用于将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中,得到输出结果;
第二敏感内容确定模块1311,用于当输出结果的敏感内容检测大于0时,则确定所述待发布文本为敏感内容;
正常文本内容确定模块1312,用于当输出结果的敏感内容检测为0时,则确定所述待发布文本为正常文本内容。
本发明提供的检测系统和检测方法相同,因此细节不再赘述,具体细节参照方法的描述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种网络敏感内容的检测方法,其特征在于,所述检测方法包括:
对待发布文本进行预处理,得到文档集合,所述文档集合包括多个分词结果,且所述分词结果之间以空格分隔;
根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别;
根据哈希函数确定各所述分词结果的指纹值;其中,敏感词汇与其对应的变形词汇的指纹值是一样的;
根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹;
计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离;
判断所述语义距离是否大于设定阈值,得到判断结果;
当所述判断结果表示所述语义距离小于等于设定阈值时,确定所述待发布文本为敏感内容;
当所述判断结果表示所述语义距离大于设定阈值时,构建基于多任务学习的卷积神经网络模型;其中,多任务包括:敏感内容检测和文本情感极性识别;
将各所述分词结果转化为词向量矩阵;
将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中,得到输出结果;
当输出结果的敏感内容检测大于0时,确定所述待发布文本为敏感内容;
当输出结果的敏感内容检测为0时,确定所述待发布文本为正常文本内容。
2.根据权利要求1所述的检测方法,其特征在于,所述对待发布文本进行预处理,具体包括:
将特殊表示符号进行替换处理,提取规范内容;
对所述替换处理后的文本进行词语切分,去除停用词,得到以空格分隔词语的文档集合。
3.根据权利要求1所述的检测方法,其特征在于,所述根据变形识别算法识别敏感词汇的变形词汇,具体包括:
去除夹杂的特殊符号、若出现繁体字则进行繁简转化;
若分词结果中出现连续3个及以上的单字,则将连续出现的单字转化为对应的拼音;若分词结果中出现拼音,则以此拼音为中心,将前后4个词汇均转为汉字对应的拼音;判断拼音序列顺序组合检测是否为敏感词汇所对应的拼音,若是,则判断为敏感词汇的变形词汇;
若分词结果中出现拼音首字母,则以此拼音首字母为中心,将前后4个词汇均转为汉字对应的拼音首字母,判断拼音首字母序列顺序组合检测是否为敏感词汇所对应的拼音首字母,若是,判断为敏感词汇的变形词汇。
4.根据权利要求1所述的检测方法,其特征在于,根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹,具体包括:
计算每个分词结果出现的频率,即词频;
根据每个分词结果的词频处理每个分词结果的指纹值,得到权重处理结果,所述指纹值为64位二进制值,若每位的二进制值为1时,则在该位加上词频,若每位的二进制值为0时,则在该位减去词频;
将各权重处理结果的相应位上的数字求和,得到求和结果,
将所述求和结果根据数字的符号转换位二进制数字,若符号为正,则转换为1,若符号为负,则转换为0。
5.根据权利要求1所述的检测方法,其特征在于,所述语义距离的计算公式如下:
式中,函数NumberOf1用来求二进制数中1的个数,为异或运算,Fi与Fj为64位二进制数,表示语义指纹值。
6.根据权利要求1所述的检测方法,其特征在于,构建基于多任务学习的卷积神经网络模型,具体包括:
对完成预处理以及分词后的训练集文本内容进行人工标注,每个训练文本包括敏感内容和情感极性两个标签;
将各所述训练文本转换为词向量矩阵;
将各所述词向量矩阵通过深度学习,得到基于多任务学习的卷积神经网络模型。
7.根据权利要求6所述的检测方法,其特征在于,将敏感内容和情感极性两个任务通过一个优化器进行优化,实现联合训练。
8.根据权利要求6所述的检测方法,其特征在于,将敏感内容和情感极性两个任务通过两个不同的优化器进行优化,实现交替训练。
9.根据权利要求6所述的检测方法,其特征在于,敏感内容为二分类任务,有两个值0或1,0代表为正常文本内容,1代表为敏感内容;或者敏感内容为多分类任务,有多个取值,0代表正常文本内容,1代表第一类敏感内容,2代表第二类敏感内容……以此类推。
10.一种网络敏感内容的检测系统,其特征在于,所述检测系统包括:
预处理模块,用于对待发布文本进行预处理,得到文档集合,所述文档集合包括多个分词结果,且所述分词结果之间以空格分隔;
敏感词汇的变形词汇的识别模块,用于根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别;
分词结果的指纹值的确定模块,用于根据哈希函数确定各所述分词结果的指纹值;其中,敏感词汇与其对应的变形词汇的指纹值是一样的;
待发布文本的语义指纹的计算模块,用于根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹;
语义距离计算模块,用于计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离;
判断模块,用于判断所述语义距离是否大于设定阈值,得到判断结果;
第一敏感内容确定模块,用于当所述判断结果表示所述语义距离小于等于设定阈值时,确定所述待发布文本为敏感内容;
卷积神经网络模型构建模块,用于当所述判断结果表示所述语义距离大于设定阈值时,构建基于多任务学习的卷积神经网络模型;其中,多任务包括:敏感内容检测和文本情感极性识别;
词向量矩阵转换模块,用于将各所述分词结果转换为词向量矩阵;
输出结果确定模块,用于将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中,得到输出结果;
第二敏感内容确定模块,用于当输出结果的敏感内容检测大于0时,则确定所述待发布文本为敏感内容;
正常文本内容确定模块,用于当输出结果的敏感内容检测为0时,则确定所述待发布文本为正常文本内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810809775.1A CN108984530B (zh) | 2018-07-23 | 2018-07-23 | 一种网络敏感内容的检测方法及检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810809775.1A CN108984530B (zh) | 2018-07-23 | 2018-07-23 | 一种网络敏感内容的检测方法及检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108984530A true CN108984530A (zh) | 2018-12-11 |
CN108984530B CN108984530B (zh) | 2022-04-12 |
Family
ID=64550136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810809775.1A Active CN108984530B (zh) | 2018-07-23 | 2018-07-23 | 一种网络敏感内容的检测方法及检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108984530B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657243A (zh) * | 2018-12-17 | 2019-04-19 | 江苏满运软件科技有限公司 | 敏感信息识别方法、系统、设备及存储介质 |
CN109783614A (zh) * | 2019-01-25 | 2019-05-21 | 北京信息科技大学 | 一种社交网络待发布文本的差分隐私泄露检测方法及系统 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110647505A (zh) * | 2019-08-21 | 2020-01-03 | 杭州电子科技大学 | 一种基于指纹特征的计算机辅助密点标注方法 |
CN110750981A (zh) * | 2019-10-16 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的高准确度网站敏感词检测方法 |
CN111078879A (zh) * | 2019-12-09 | 2020-04-28 | 北京邮电大学 | 基于深度学习的卫星互联网文本敏感信息检测方法及装置 |
CN111309855A (zh) * | 2019-12-24 | 2020-06-19 | 中国银行股份有限公司 | 一种文本信息的处理方法及系统 |
CN111339251A (zh) * | 2020-02-25 | 2020-06-26 | 上海昌投网络科技有限公司 | 一种微信公众号是否有敏感词汇的检测方法及装置 |
CN111368535A (zh) * | 2018-12-26 | 2020-07-03 | 珠海金山网络游戏科技有限公司 | 一种敏感词识别方法、装置及设备 |
CN111460247A (zh) * | 2019-01-21 | 2020-07-28 | 重庆邮电大学 | 网络图片敏感文字自动检测方法 |
CN111581386A (zh) * | 2020-05-08 | 2020-08-25 | 深圳市第五空间网络科技有限公司 | 多输出文本分类模型的构建方法、装置、设备及介质 |
CN111814822A (zh) * | 2020-05-25 | 2020-10-23 | 北京印刷学院 | 一种敏感图片检测方法、装置及电子设备 |
CN111859914A (zh) * | 2020-07-24 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 敏感信息检测方法、装置、计算机设备及存储介质 |
CN112001170A (zh) * | 2020-05-29 | 2020-11-27 | 中国人民大学 | 一种识别经过变形的敏感词的方法和系统 |
CN112036167A (zh) * | 2020-08-25 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN112036146A (zh) * | 2020-08-25 | 2020-12-04 | 广州视源电子科技股份有限公司 | 一种评语生成方法、装置、终端设备及存储介质 |
CN112417194A (zh) * | 2020-11-20 | 2021-02-26 | 济南浪潮高新科技投资发展有限公司 | 恶意图文的多模态检测方法 |
WO2021047341A1 (zh) * | 2019-09-11 | 2021-03-18 | 上海爱数信息技术股份有限公司 | 文本分类方法、电子设备及计算机可读存储介质 |
CN112560472A (zh) * | 2019-09-26 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 一种识别敏感信息的方法及装置 |
CN112559672A (zh) * | 2021-02-22 | 2021-03-26 | 深圳市优讯通信息技术有限公司 | 信息检测方法、电子设备及计算机存储介质 |
CN112597770A (zh) * | 2020-12-16 | 2021-04-02 | 盐城数智科技有限公司 | 基于深度学习的敏感信息查询方法 |
CN112885371A (zh) * | 2021-01-13 | 2021-06-01 | 北京爱数智慧科技有限公司 | 音频脱敏的方法、装置、电子设备以及可读存储介质 |
CN113033610A (zh) * | 2021-02-23 | 2021-06-25 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN113033217A (zh) * | 2021-04-19 | 2021-06-25 | 广州欢网科技有限责任公司 | 字幕敏感信息自动屏蔽转译方法和装置 |
CN113468856A (zh) * | 2020-03-31 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 变异文本的生成、翻译模型的训练、文本分类方法和装置 |
CN113904851A (zh) * | 2021-10-11 | 2022-01-07 | 中国电信股份有限公司 | 网络信息处理方法、用户面功能系统、介质和电子设备 |
CN114338155A (zh) * | 2021-12-28 | 2022-04-12 | 四川邦辰信息科技有限公司 | 基于多维度指纹混淆的网络隐私保护方法及系统 |
CN114417883A (zh) * | 2022-01-10 | 2022-04-29 | 马上消费金融股份有限公司 | 一种数据处理方法、装置及设备 |
CN117113988A (zh) * | 2023-08-23 | 2023-11-24 | 北京深维智信科技有限公司 | 一种基于nlp的敏感词汇屏蔽方法及系统 |
CN118133350A (zh) * | 2024-04-30 | 2024-06-04 | 贵州安融科技发展有限公司 | 一种融合隐私保护的数据治理方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
-
2018
- 2018-07-23 CN CN201810809775.1A patent/CN108984530B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
Non-Patent Citations (3)
Title |
---|
MOSES S. CHARIKAR 等: ""Similarity Estimation Techniques from Rounding Algorithms"", 《HTTPS://DOI.ORG/10.1145/509907.509965》 * |
李扬 等: ""基于短文本情感分析的敏感信息识别"", 《西安交通大学学报》 * |
欧阳宁 等: ""基于多任务学习的多姿态人脸重建与识别"", 《计算机应用》 * |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657243A (zh) * | 2018-12-17 | 2019-04-19 | 江苏满运软件科技有限公司 | 敏感信息识别方法、系统、设备及存储介质 |
CN111368535A (zh) * | 2018-12-26 | 2020-07-03 | 珠海金山网络游戏科技有限公司 | 一种敏感词识别方法、装置及设备 |
CN111368535B (zh) * | 2018-12-26 | 2024-01-16 | 珠海金山数字网络科技有限公司 | 一种敏感词识别方法、装置及设备 |
CN111460247B (zh) * | 2019-01-21 | 2022-07-01 | 重庆邮电大学 | 网络图片敏感文字自动检测方法 |
CN111460247A (zh) * | 2019-01-21 | 2020-07-28 | 重庆邮电大学 | 网络图片敏感文字自动检测方法 |
CN109783614A (zh) * | 2019-01-25 | 2019-05-21 | 北京信息科技大学 | 一种社交网络待发布文本的差分隐私泄露检测方法及系统 |
CN109783614B (zh) * | 2019-01-25 | 2020-11-24 | 北京信息科技大学 | 一种社交网络待发布文本的差分隐私泄露检测方法及系统 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110647505B (zh) * | 2019-08-21 | 2021-06-29 | 杭州电子科技大学 | 一种基于指纹特征的计算机辅助密点标注方法 |
CN110647505A (zh) * | 2019-08-21 | 2020-01-03 | 杭州电子科技大学 | 一种基于指纹特征的计算机辅助密点标注方法 |
WO2021047341A1 (zh) * | 2019-09-11 | 2021-03-18 | 上海爱数信息技术股份有限公司 | 文本分类方法、电子设备及计算机可读存储介质 |
CN112560472B (zh) * | 2019-09-26 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 一种识别敏感信息的方法及装置 |
CN112560472A (zh) * | 2019-09-26 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 一种识别敏感信息的方法及装置 |
CN110750981A (zh) * | 2019-10-16 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的高准确度网站敏感词检测方法 |
CN111078879A (zh) * | 2019-12-09 | 2020-04-28 | 北京邮电大学 | 基于深度学习的卫星互联网文本敏感信息检测方法及装置 |
CN111309855A (zh) * | 2019-12-24 | 2020-06-19 | 中国银行股份有限公司 | 一种文本信息的处理方法及系统 |
CN111339251A (zh) * | 2020-02-25 | 2020-06-26 | 上海昌投网络科技有限公司 | 一种微信公众号是否有敏感词汇的检测方法及装置 |
CN113468856A (zh) * | 2020-03-31 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 变异文本的生成、翻译模型的训练、文本分类方法和装置 |
CN111581386A (zh) * | 2020-05-08 | 2020-08-25 | 深圳市第五空间网络科技有限公司 | 多输出文本分类模型的构建方法、装置、设备及介质 |
CN111814822B (zh) * | 2020-05-25 | 2023-07-28 | 北京印刷学院 | 一种敏感图片检测方法、装置及电子设备 |
CN111814822A (zh) * | 2020-05-25 | 2020-10-23 | 北京印刷学院 | 一种敏感图片检测方法、装置及电子设备 |
CN112001170A (zh) * | 2020-05-29 | 2020-11-27 | 中国人民大学 | 一种识别经过变形的敏感词的方法和系统 |
CN112001170B (zh) * | 2020-05-29 | 2023-05-09 | 中国人民大学 | 一种识别经过变形的敏感词的方法和系统 |
CN111859914B (zh) * | 2020-07-24 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 敏感信息检测方法、装置、计算机设备及存储介质 |
CN111859914A (zh) * | 2020-07-24 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 敏感信息检测方法、装置、计算机设备及存储介质 |
CN112036167B (zh) * | 2020-08-25 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN112036146A (zh) * | 2020-08-25 | 2020-12-04 | 广州视源电子科技股份有限公司 | 一种评语生成方法、装置、终端设备及存储介质 |
CN112036167A (zh) * | 2020-08-25 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN112417194A (zh) * | 2020-11-20 | 2021-02-26 | 济南浪潮高新科技投资发展有限公司 | 恶意图文的多模态检测方法 |
CN112597770A (zh) * | 2020-12-16 | 2021-04-02 | 盐城数智科技有限公司 | 基于深度学习的敏感信息查询方法 |
CN112597770B (zh) * | 2020-12-16 | 2024-06-11 | 盐城数智科技有限公司 | 基于深度学习的敏感信息查询方法 |
CN112885371A (zh) * | 2021-01-13 | 2021-06-01 | 北京爱数智慧科技有限公司 | 音频脱敏的方法、装置、电子设备以及可读存储介质 |
CN112559672B (zh) * | 2021-02-22 | 2021-07-13 | 深圳市优讯通信息技术有限公司 | 信息检测方法、电子设备及计算机存储介质 |
CN112559672A (zh) * | 2021-02-22 | 2021-03-26 | 深圳市优讯通信息技术有限公司 | 信息检测方法、电子设备及计算机存储介质 |
CN113033610A (zh) * | 2021-02-23 | 2021-06-25 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN113033610B (zh) * | 2021-02-23 | 2022-09-13 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN113033217B (zh) * | 2021-04-19 | 2023-09-15 | 广州欢网科技有限责任公司 | 字幕敏感信息自动屏蔽转译方法和装置 |
CN113033217A (zh) * | 2021-04-19 | 2021-06-25 | 广州欢网科技有限责任公司 | 字幕敏感信息自动屏蔽转译方法和装置 |
CN113904851A (zh) * | 2021-10-11 | 2022-01-07 | 中国电信股份有限公司 | 网络信息处理方法、用户面功能系统、介质和电子设备 |
CN114338155A (zh) * | 2021-12-28 | 2022-04-12 | 四川邦辰信息科技有限公司 | 基于多维度指纹混淆的网络隐私保护方法及系统 |
CN114338155B (zh) * | 2021-12-28 | 2024-04-30 | 四川邦辰信息科技有限公司 | 基于多维度指纹混淆的网络隐私保护方法及系统 |
CN114417883A (zh) * | 2022-01-10 | 2022-04-29 | 马上消费金融股份有限公司 | 一种数据处理方法、装置及设备 |
CN114417883B (zh) * | 2022-01-10 | 2022-10-25 | 马上消费金融股份有限公司 | 一种数据处理方法、装置及设备 |
CN117113988A (zh) * | 2023-08-23 | 2023-11-24 | 北京深维智信科技有限公司 | 一种基于nlp的敏感词汇屏蔽方法及系统 |
CN117113988B (zh) * | 2023-08-23 | 2024-06-07 | 北京深维智信科技有限公司 | 一种基于nlp的敏感词汇屏蔽方法及系统 |
CN118133350A (zh) * | 2024-04-30 | 2024-06-04 | 贵州安融科技发展有限公司 | 一种融合隐私保护的数据治理方法及系统 |
CN118133350B (zh) * | 2024-04-30 | 2024-06-25 | 贵州安融科技发展有限公司 | 一种融合隐私保护的数据治理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108984530B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN110717339A (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN108763216A (zh) | 一种基于中文数据集的文本情感分析方法 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
CN110781273B (zh) | 文本数据处理方法、装置、电子设备及存储介质 | |
CN110765769B (zh) | 一种基于子句特征的实体属性依赖情感分析方法 | |
CN110096575B (zh) | 面向微博用户的心理画像方法 | |
CN107273348B (zh) | 一种文本的话题和情感联合检测方法及装置 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN107862087A (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN107491435A (zh) | 基于计算机自动识别用户情感的方法及装置 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN114387061A (zh) | 产品推送方法、装置、电子设备及可读存储介质 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240429 Address after: 1211, Building A, China International Science and Technology Exhibition Center, No. 12 Yumin Road, Chaoyang District, Beijing, 100029 Patentee after: Beijing jiuweiwei'an Technology Co.,Ltd. Country or region after: China Address before: No.12, Xiaoying East Road, Qinghe, Haidian District, Beijing Patentee before: BEIJING INFORMATION SCIENCE AND TECHNOLOGY University Country or region before: China |
|
TR01 | Transfer of patent right |