CN109492219A - 一种基于特征分类和情感语义分析的诈骗网站识别方法 - Google Patents
一种基于特征分类和情感语义分析的诈骗网站识别方法 Download PDFInfo
- Publication number
- CN109492219A CN109492219A CN201811250384.7A CN201811250384A CN109492219A CN 109492219 A CN109492219 A CN 109492219A CN 201811250384 A CN201811250384 A CN 201811250384A CN 109492219 A CN109492219 A CN 109492219A
- Authority
- CN
- China
- Prior art keywords
- website
- word
- swindle
- text
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000002996 emotional effect Effects 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 44
- 230000008451 emotion Effects 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 20
- 230000007787 long-term memory Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及网络安全技术领域,尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。该方法包括以下步骤:为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;将词的序列转换为词的向量,作为特征向量;使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。本发明利用BP神经网络模型先对采集到的网站进行识别,只有在采集到的网站是诈骗网站的情况下,才对采集到的网站进行基于情感分析的判断,有利于降低误判率,提高网站识别准确率,还有利于提高用户体验,节约时间。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。
背景技术
随着近年来国内互联网的发展,网站的数量日益增多。非正常、不安全的网站数量也逐渐增多,而且让人难以分辨,非正常网站包括恶意网站、钓鱼网站、诈骗网站等,一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息,获取用户个人隐私等,给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一,在网络安全中,对其进行识别是确保网络安全的重中之重。
现有的网站监测或者识别技术主要是通过维护黑名单来判断用户访问的网站是否为恶意、钓鱼、诈骗网站,这种方法需要极高的人工成本进行筛选;另一种网站识别方法是通过URL(Uniform Resoure Locator,统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址)特征,其识别速度快,能主动发现非正常网站,但由于URL包含的信息有限,仅从URL并不能很好的判断出一个网站属于非正常网站还是正常网站,所以现在也有一些基于网站内容的网站识别方法。基于内容的网站分类涉及到文本分类,现有的文本分类技术主要流程为提取敏感关键词,计算文本中关键词的TF-IDF(term frequency–inverse document frequency,是一种用于信息检索与数据挖掘的常用加权技术)作为特征向量,然后用SVM(Support Vector Machine,支持向量机)训练这些特征向量生成分类模型。但是在实际情况中,有些安全、正常网站中也包含有同样的关键词和相似的词频,如“反诈骗联盟”等,由于网站中含有“诈骗”这个非安全网站的敏感词语,现有的网站识别模型也会把正常网站识别为诈骗网站。
因此,为了提高网站识别的准确率,降低误判率,急需一种基于特征分类和情感语义分析的诈骗网站识别方法。
发明内容
本发明提供了一种基于特征分类和情感语义分析的诈骗网站识别方法,以解决现有技术中网站识别方法误判率高的问题。
本发明提供了一种基于特征分类和情感语义分析的诈骗网站识别方法,包括以下步骤:
为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;
将词的序列转换为词的向量,作为特征向量;
使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。
进一步地,还包括步骤:将采集的网站中的文本输入训练好的BP神经网络模型,若输出结果为诈骗网站,则将采集的网站中的文本分成多个词,为采集的网站文本中的每一个词添加情感标识。
进一步地,训练BP神经网络模型包括以下步骤:
将采集到的多个网站分别标识为安全网站和诈骗网站;
将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本;
计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词;
计算出各文本中出现的每个敏感词的正反向词频,作为各文本的特征向量;
根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。
进一步地,计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词的步骤包括以下步骤:
将各文本分别分成多个词;
对各文本中的词进行过滤;
计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词。
进一步地,对各文本中的词进行过滤的方法为:删掉停用词,停用词包括介词、语气助词。
进一步地,根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤:
将所有文本的特征向量进行归一化处理;
根据所有归一化处理后文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。
进一步地,计算词的卡方统计量的公式为:
其中,w为词,c为安全网站和诈骗网站中的任一,A为w出现在类别为c中的文本数,B为w出现在类别不为c中的文本数,C为w不出现在类别为c中的文本数,D为w不出现在类别不为c中的文本数,N为文本总数,χ2(w,c)为w在c中的卡方统计量。
进一步地,计算敏感词的正反向词频的公式为:
TF-IDFw=TFw×IDFw (3)
其中,w为词,TFw为w的词频,IDFw为w的逆向文件词频,TF-IDFw为w的正反向词频。
进一步地,为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一的步骤包括以下步骤:
对多个词进行筛选,将出现次数小于预设频率的词删除;
为筛选后的每个词添加情感标识,情感标识为积极和消极中的任一。
进一步地,使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型的步骤包括以下步骤:
将所有特征向量进行归一化处理;
使用长短期记忆网络对所有归一化处理后的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。
本发明提供的基于特征分类和情感语义分析的诈骗网站识别方法,与现有技术相比具有以下进步:
(1)先为采集到的网站中的每一个词添加情感标识,再使用长短期记忆网络对特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型,利用该情感分析分类模型对网站进行识别的结果准确率高、误判率低,且具有结构简单、操作方便的优点。
(2)利用BP神经网络模型先对采集到的网站进行识别,只有在采集到的网站是诈骗网站的情况下,才对采集到的网站进行基于情感分析的判断,有利于降低误判率,提高网站识别准确率,还有利于提高用户体验,节约时间。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例中基于特征分类和情感语义分析的诈骗网站识别方法的步骤图;
图2为本发明实施例中训练BP神经网络模型的步骤图;
图3为本发明实施例中步骤130具体实施时的步骤图;
图4为本发明实施例中步骤150具体实施时的步骤图;
图5为本发明实施例中步骤200具体实施时的步骤图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
本实施例提供了一种基于特征分类和情感语义分析的诈骗网站识别方法。
如图1,本实施例的基于特征分类和情感语义分析的诈骗网站识别方法,包括以下步骤:
步骤200、为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;
步骤300、将词的序列转换为词的向量,作为特征向量;
步骤400、使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。
本实施例的基于特征分类和情感语义分析的诈骗网站识别方法,先为采集到的网站中的每一个词添加情感标识,再使用长短期记忆网络对特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型,利用该情感分析分类模型对网站进行识别的结果准确率高、误判率低,且具有结构简单、操作方便的优点。
如图1,本实施例的基于特征分类和情感语义分析的诈骗网站识别方法在具体实施时,还包括步骤100、将采集的网站中的文本输入训练好的BP神经网络模型,若输出结果为诈骗网站,则进行步骤200。
利用BP神经网络模型先对采集到的网站进行识别,只有在采集到的网站是诈骗网站的情况下,才对采集到的网站进行基于情感分析的判断,有利于降低误判率,提高网站识别准确率,还有利于提高用户体验,节约时间。
如图2,训练BP神经网络模型包括以下步骤:
步骤110、将采集到的多个网站分别标识为安全网站和诈骗网站;
步骤120、将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本;
步骤130、计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词;
步骤140、计算出各文本中出现的每个敏感词的正反向词频,作为各文本的特征向量;
步骤150、根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。
以预先采集的安全网站和诈骗网站及其包含的文本为数据源,筛选出文本中的敏感词,再利用敏感词计算出各文本的特征向量,以所有文本的特征向量作为样本对BP(backpropagation)神经网络模型(一种按照误差逆向传播算法训练的多层前馈神经网络)进行训练,最终得到用于识别网站是否为诈骗网站的BP神经网络模型,方法简单、操作方便、易于实施,具有网站识别准确率高的优点。
具体实施时,如图3,步骤130包括以下步骤:
步骤131、将各文本分别分成多个词;
步骤132、对各文本中的词进行过滤;
步骤133、计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词。
对各文本中的词进行过滤的方法为:删掉停用词,停用词包括介词、语气助词、连接词等无意义的词。在计算词的卡方统计量之前,先对各文本中的词进行过滤,去除掉一些无意义的词,提高后续模型训练的工作效率,有利于提高最终BP神经网络模型建立的准确度和可靠度。
如图4,本实施例的基于特征分类和情感语义分析的诈骗网站识别方法具体实施时,步骤150包括以下步骤:
步骤151、将所有文本的特征向量进行归一化处理;
步骤152、根据所有归一化处理后文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。
归一化处理的方法可以是线性函数归一化,在训练BP神经网络模型之前,首先对所有文本的特征向量进行归一化处理,消弭误差,使最终得到的BP神经网络模型更加符合需求,易于推广和使用。
具体实施时,在
计算词的卡方统计量的公式为:
其中,w为词,c为安全网站和诈骗网站中的任一,A为w出现在类别为c中的文本数,B为w出现在类别不为c中的文本数,C为w不出现在类别为c中的文本数,D为w不出现在类别不为c中的文本数,N为文本总数,χ2(w,c)为w在c中的卡方统计量。
计算敏感词的正反向词频的公式为:
TF-IDFw=TFw×IDFw (3)
其中,w为词,TFw为w的词频,IDFw为w的逆向文件词频,TF-IDFw为w的正反向词频。
如图5,本实施例的基于特征分类和情感语义分析的诈骗网站识别方法具体实施时,步骤200包括以下步骤:
步骤210、对多个词进行筛选,将出现次数小于预设频率的词删除;
步骤220、为筛选后的每个词添加情感标识,情感标识为积极和消极中的任一。
对多个词进行筛选,将出现次数小于预设频率的词删除,有利于保证最终情感分析分类模型建立的有效性,提高网站识别模型建立的效率。
本实施例的基于特征分类和情感语义分析的诈骗网站识别方法具体实施时,使用word2vec模型将词的序列转换为词的向量,且将词的向量输入到word2vec模型的Embeding层,输出降低维度后的词的向量,作为特征向量,降低词的向量的维度,有利于提高最终建立的情感分析分类模型的准确性和可靠性。
本实施例的基于特征分类和情感语义分析的诈骗网站识别方法具体使用时,先将采集到的网站输入训练好的BP神经网络模型,若输出结果为诈骗网站,则将采集到的网站中的文本中的每一个词都添加情感标识,情感标识为积极和消极中的任一。将具有情感标识的词的序列转化为词的索引序列,词的索引序列用整数表示,如:[今天 没有 下雨]->[44 12 15],再将词的索引序列输入训练好的Embeding层和长短期记忆网络(LSTM)组合模型,即本实施例方法建立的情感分析分类模型,若输出结果小于预设值,则判定为积极(赞成);若输出结果大于预设值,则判定为消极(反对);将判定结果为消极的网站排除掉,判定结果为积极的就是诈骗网站,能够有效的降低网站识别的误判率。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,包括以下步骤:
为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;
将词的序列转换为词的向量,作为特征向量;
使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。
2.根据权利要求1所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,还包括步骤:将采集的网站中的文本输入训练好的BP神经网络模型,若输出结果为诈骗网站,则将采集的网站中的文本分成多个词,为采集的网站文本中的每一个词添加情感标识。
3.根据权利要求2所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,训练BP神经网络模型包括以下步骤:
将采集到的多个网站分别标识为安全网站和诈骗网站;
将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本;
计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词;
计算出各文本中出现的每个敏感词的正反向词频,作为各文本的特征向量;
根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。
4.根据权利要求3所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词的步骤包括以下步骤:
将各文本分别分成多个词;
对各文本中的词进行过滤;
计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词。
5.根据权利要求4所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,对各文本中的词进行过滤的方法为:删掉停用词,停用词包括介词、语气助词。
6.根据权利要求5所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤:
将所有文本的特征向量进行归一化处理;
根据所有归一化处理后文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。
7.根据权利要求6所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,计算词的卡方统计量的公式为:
其中,w为词,c为安全网站和诈骗网站中的任一,A为w出现在类别为c中的文本数,B为w出现在类别不为c中的文本数,C为w不出现在类别为c中的文本数,D为w不出现在类别不为c中的文本数,N为文本总数,χ2(w,c)为w在c中的卡方统计量。
8.根据权利要求7所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,计算敏感词的正反向词频的公式为:
TF-IDFw=TFw×IDFw (3)
其中,w为词,IDFw为w的词频,IDFw为w的逆向文件词频,TF-IDFw为w的正反向词频。
9.根据权利要求1-8中任一权利要求所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一的步骤包括以下步骤:
对多个词进行筛选,将出现次数小于预设频率的词删除;
为筛选后的每个词添加情感标识,情感标识为积极和消极中的任一。
10.根据权利要求9所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型的步骤包括以下步骤:
将所有特征向量进行归一化处理;
使用长短期记忆网络对所有归一化处理后的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811250384.7A CN109492219A (zh) | 2018-10-25 | 2018-10-25 | 一种基于特征分类和情感语义分析的诈骗网站识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811250384.7A CN109492219A (zh) | 2018-10-25 | 2018-10-25 | 一种基于特征分类和情感语义分析的诈骗网站识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492219A true CN109492219A (zh) | 2019-03-19 |
Family
ID=65691557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811250384.7A Pending CN109492219A (zh) | 2018-10-25 | 2018-10-25 | 一种基于特征分类和情感语义分析的诈骗网站识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492219A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
US10803387B1 (en) | 2019-09-27 | 2020-10-13 | The University Of Stavanger | Deep neural architectures for detecting false claims |
CN113254844A (zh) * | 2021-07-07 | 2021-08-13 | 成都无糖信息技术有限公司 | 一种基于知识图谱和图片特征的诈骗网站识别方法与系统 |
CN113314103A (zh) * | 2021-05-31 | 2021-08-27 | 中国工商银行股份有限公司 | 基于实时语音情感分析的非法信息识别方法及装置 |
CN113343711A (zh) * | 2021-06-29 | 2021-09-03 | 南方电网数字电网研究院有限公司 | 工单生成方法、装置、设备及存储介质 |
CN114049508A (zh) * | 2022-01-12 | 2022-02-15 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN114239591A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886108A (zh) * | 2014-04-13 | 2014-06-25 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN106919661A (zh) * | 2017-02-13 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种情感类型识别方法及相关装置 |
CN108566627A (zh) * | 2017-11-27 | 2018-09-21 | 浙江鹏信信息科技股份有限公司 | 一种利用深度学习识别诈骗短信的方法及系统 |
-
2018
- 2018-10-25 CN CN201811250384.7A patent/CN109492219A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886108A (zh) * | 2014-04-13 | 2014-06-25 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN106919661A (zh) * | 2017-02-13 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种情感类型识别方法及相关装置 |
CN108566627A (zh) * | 2017-11-27 | 2018-09-21 | 浙江鹏信信息科技股份有限公司 | 一种利用深度学习识别诈骗短信的方法及系统 |
Non-Patent Citations (4)
Title |
---|
徐威: "一种文本分类方法在诈骗短信识别中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
杜洋: "基于特征选择分类和双向LSTM神经网络的钓鱼网站检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
杨新武: "基于BP网络的中文文本分类技术", 《微计算机应用》 * |
邓洋: "使用深度学习技术的中文微博情感分析研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
US10803387B1 (en) | 2019-09-27 | 2020-10-13 | The University Of Stavanger | Deep neural architectures for detecting false claims |
CN113314103A (zh) * | 2021-05-31 | 2021-08-27 | 中国工商银行股份有限公司 | 基于实时语音情感分析的非法信息识别方法及装置 |
CN113314103B (zh) * | 2021-05-31 | 2023-03-03 | 中国工商银行股份有限公司 | 基于实时语音情感分析的非法信息识别方法及装置 |
CN113343711A (zh) * | 2021-06-29 | 2021-09-03 | 南方电网数字电网研究院有限公司 | 工单生成方法、装置、设备及存储介质 |
CN113343711B (zh) * | 2021-06-29 | 2024-05-10 | 南方电网数字电网研究院有限公司 | 工单生成方法、装置、设备及存储介质 |
CN113254844A (zh) * | 2021-07-07 | 2021-08-13 | 成都无糖信息技术有限公司 | 一种基于知识图谱和图片特征的诈骗网站识别方法与系统 |
CN113254844B (zh) * | 2021-07-07 | 2021-09-24 | 成都无糖信息技术有限公司 | 一种基于知识图谱和图片特征的诈骗网站识别方法与系统 |
CN114239591A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN114239591B (zh) * | 2021-12-01 | 2023-08-18 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN114049508A (zh) * | 2022-01-12 | 2022-02-15 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN114049508B (zh) * | 2022-01-12 | 2022-04-01 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492219A (zh) | 一种基于特征分类和情感语义分析的诈骗网站识别方法 | |
Xue et al. | Detecting fake news by exploring the consistency of multimodal data | |
Shejwalkar et al. | Membership inference attacks against nlp classification models | |
Mao et al. | BaitAlarm: detecting phishing sites using similarity in fundamental visual features | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
CN107786575A (zh) | 一种基于dns流量的自适应恶意域名检测方法 | |
CN107992764B (zh) | 一种敏感网页识别与检测方法及装置 | |
CN105138570B (zh) | 网络言论数据疑似犯罪度计算方法 | |
CN109005145A (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
Saksesi et al. | Analysis text of hate speech detection using recurrent neural network | |
CN104217160A (zh) | 一种中文钓鱼网站检测方法及系统 | |
CN104077396A (zh) | 一种钓鱼网站检测方法及装置 | |
CN108038173B (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
CN112989348B (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
CN110830489B (zh) | 基于内容抽象表示的对抗式欺诈网站检测方法及系统 | |
CN112001170A (zh) | 一种识别经过变形的敏感词的方法和系统 | |
CN111753171A (zh) | 一种恶意网站的识别方法和装置 | |
Ren et al. | A bi-directional LSTM model with attention for malicious URL detection | |
KR102257139B1 (ko) | 다크웹 정보 수집 방법 및 장치 | |
CN108023868A (zh) | 恶意资源地址检测方法和装置 | |
CN103902619A (zh) | 一种网络舆情监控方法及系统 | |
CN108073708A (zh) | 信息输出方法和装置 | |
Aloshban | Act: Automatic fake news classification through self-attention | |
Paraschiv et al. | A unified graph-based approach to disinformation detection using contextual and semantic relations | |
Petrou et al. | A Multiple change-point detection framework on linguistic characteristics of real versus fake news articles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |