CN111601314A - 预训练模型加短信地址双重判定不良短信的方法和装置 - Google Patents

预训练模型加短信地址双重判定不良短信的方法和装置 Download PDF

Info

Publication number
CN111601314A
CN111601314A CN202010457020.7A CN202010457020A CN111601314A CN 111601314 A CN111601314 A CN 111601314A CN 202010457020 A CN202010457020 A CN 202010457020A CN 111601314 A CN111601314 A CN 111601314A
Authority
CN
China
Prior art keywords
short message
text
classification label
training model
purified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010457020.7A
Other languages
English (en)
Other versions
CN111601314B (zh
Inventor
林飞
潘练
王森
蒋天翔
古元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Branch Of National Computer Network And Information Security Management Center
Beijing Act Technology Development Co ltd
Original Assignee
Anhui Branch Of National Computer Network And Information Security Management Center
Beijing Act Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Branch Of National Computer Network And Information Security Management Center, Beijing Act Technology Development Co ltd filed Critical Anhui Branch Of National Computer Network And Information Security Management Center
Priority to CN202010457020.7A priority Critical patent/CN111601314B/zh
Publication of CN111601314A publication Critical patent/CN111601314A/zh
Application granted granted Critical
Publication of CN111601314B publication Critical patent/CN111601314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

预训练模型加短信地址双重判定不良短信的方法和装置涉及信息技术领域。本发明由已分类短信样品集、预训练模型模块、短信采集器、文本处理器、地址提取器、网络爬虫和不良短信判断器组成;实现本发明解决传统机器学习在不良短信识别中对特征的依赖,与深度学习相比,不仅不需要大量的训练集,而且可以通过短信中的url短链接进行判断,使得语义信息稀疏的短信得到很好的识别;同时结合文本信息和短信地址来判断短信的性质比仅依据短信地址的ip判断短信的性质拥有更好的解释性和更直观的分析效果。

Description

预训练模型加短信地址双重判定不良短信的方法和装置
技术领域
本发明涉及信息技术领域,特别是信息安全技术领域。
背景技术
目前手机短信的信息安全问题已经得到了全社会的重视,不良短信识别方面的研究,主要为基于文本分类的分析方式和基于短信中url的分析方式。
基于文本的不良信息分析中,主要是基于传统机器学习算法和基于深度学习的方式。传统的机器学习,如发明专利号CN110147448A通过两重特征工程的构造,进行特征的选择,不良短信的文本特征千变万化,传统的机器学习中文本特征提取办法并不能完全适用于不良短信分类的实际情况;专利号CN110267272A采用将未知短信转化为向量,与存在黑库中的短信进行相似度对比,相似度较高的则为不良短信,同样也依赖于特征选择来实现文本的向量化,且对现有不良短信依赖较高,如果现有不良短信种类较少,很难判断出新的不良短信。基于深度学习的方式,如CN108566627A和CN109982272A,需要大量的训练样本来训练神经网络的参数,搜集海量样本的过程较长,且可能耗费大量人力物力资源。
基于短信中url的不良短信分析,如专利CN106941673A通过核对短信中url的ip信息和收发短信方的ip是否一致,来判断是否为不良短信。这种方式缺乏数据支持,存在过于片面的缺点。
现有技术说明
预训练模型XLNet 是一个类似 BERT 的模型,而不是完全不同的模型。总之,XLNet是一种通用的自回归预训练方法。它是CMU和Google Brain团队在2019年6月份发布的模型,最终,XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果(state-of-the-art),包括机器问答、自然语言推断、情感分析和文档排序。作者表示,BERT 这样基于去噪自编码器的预训练模型可以很好地建模双向语境信息,性能优于基于自回归语言模型的预训练方法。然而,由于需要 mask 一部分输入,BERT 忽略了被 mask位置之间的依赖关系,因此出现预训练和微调效果的差异(pretrain-finetunediscrepancy)。基于这些优缺点,该研究提出了一种泛化的自回归预训练模型 XLNet。
XLNet 可以:
通过最大化所有可能的因式分解顺序的对数似然,学习双向语境信息;
用自回归本身的特点克服 BERT 的缺点;
此外,XLNet 还融合了当前最优自回归模型 Transformer-XL 的思路。
XLNet与BERT比较
尽管看上去,XLNet在预训练机制引入的Permutation Language Model这种新的预训练目标,和Bert采用Mask标记这种方式,有很大不同。其实深入思考一下,会发现,两者本质是类似的。
区别主要在于:
Bert是直接在输入端显示地通过引入Mask标记,在输入侧隐藏掉一部分单词,让这些单词在预测的时候不发挥作用,要求利用上下文中其它单词去预测某个被Mask掉的单词;
而XLNet则抛弃掉输入侧的Mask标记,通过Attention Mask机制,在Transformer内部随机Mask掉一部分单词(这个被Mask掉的单词比例跟当前单词在句子中的位置有关系,位置越靠前,被Mask掉的比例越高,位置越靠后,被Mask掉的比例越低),让这些被Mask掉的单词在预测某个单词的时候不发生作用。
所以,本质上两者并没什么太大的不同,只是Mask的位置,Bert更表面化一些,XLNet则把这个过程隐藏在了Transformer内部而已。这样,就可以抛掉表面的[Mask]标记,解决它所说的预训练里带有[Mask]标记导致的和Fine-tuning过程不一致的问题。至于说XLNet说的,Bert里面被Mask掉单词的相互独立问题,也就是说,在预测某个被Mask单词的时候,其它被Mask单词不起作用,这个问题,深入思考一下,其实是不重要的,因为XLNet在内部Attention Mask的时候,也会Mask掉一定比例的上下文单词,只要有一部分被Mask掉的单词,其实就面临这个问题。而如果训练数据足够大,其实不靠当前这个例子,靠其它例子,也能弥补被Mask单词直接的相互关系问题,因为总有其它例子能够学会这些单词的相互依赖关系。
当然,XLNet这种改造,维持了表面看上去的自回归语言模型的从左向右的模式,这个Bert做不到,这个有明显的好处,就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息。所以看上去,XLNet貌似应该对于生成类型的NLP任务,会比Bert有明显优势。另外,因为XLNet还引入了Transformer XL的机制,所以对于长文档输入类型的NLP任务,也会比Bert有明显优势。
发明内容
鉴于现有技术的不足,本发明提供的预训练模型加短信地址双重判定不良短信的方法和装置由已分类短信样品集、预训练模型模块、短信采集器、文本处理器、地址提取器、网络爬虫和不良短信判断器组成;
已分类短信样品集存储已分类的短信样品,已分类短信样品的数量大于150篇,且小于1000篇;
预训练模型模块使用XLNet预训练模型对已分类短信样品集进行分类计算,对已分类短信样品集进行分类计算后的预训练模型模块能够在输入文本的情况下对输入的文本给出分类标签;
预训练模型模块对输入的文本给出分类标签的方法是程序加载XLNet预训练模型,先格式化一个tf_record文件,然后对输入的文本进行特征提取,存入到tf_record文件中,作为语义文件,使用softmax将文本的分类概率归一化,得到输入的文本所属的分类标签;
短信采集器负责采集待分类的短信内容;
文本处理器负责将待分类的短信内容进行去噪处理,生成提纯后的短信文本;
文本处理器去噪处理过程是通过正则表达式将语料中的用户名、停用词、转发符号和标记信息去除,调用Python的re模块进行语料处理,本方法主要使用re.sub()函数,此函数的原型为:re.sub(pattern, repl, string, count=0, flags=0);此函数有五个参数,分别是:匹配的正则表达式、用于替换的字符串、被替换的字符串、设置替换次数、标志位;
文本处理器将提纯后的短信文本发送给预训练模型模块,预训练模型模块对输入的提纯后的短信文本给出第一次短信分类标签;
文本处理器将提纯后的短信文本发送给地址提取器,地址提取器提取提纯后的短信内容中的网络地址;
地址提取器的执行方式是用正则表达式扫描提纯后的短信内容,采用Python中的re模块,提取文本中的短链接,使用长链接爬虫程序,将短链接输入进去,得出其对应的长链接,短链接对应的长链接就是提纯后的短信内容中的网络地址;
地址提取器将提纯后的短信内容中的网络地址发送给网络爬虫,网络爬虫读取提纯后的短信内容中的网络地址所对应页面的网页标题和网页内容生成网页文本;网页文本包括网页标题和网页内容;
网络爬虫将网页文本发送给文本处理器,文本处理器负责将网页文本进行去噪处理,生成提纯后的网页文本;
文本处理器将提纯后的网页文本发送给预训练模型模块,预训练模型模块对输入的提纯后的网页文本给出第二次短信分类标签;
由不良短信判断器读取第一次短信分类标签和第二次短信分类标签;当一个未分类短信只取得第一次短信分类标签,未取得第二次短信分类标签时,将第一次短信分类标签作为判断依据;当一个未分类短信同时取得第一次短信分类标签和第二次短信分类标签时,只有第一次短信分类标签和第二次短信分类标签同时为良性短信分类标签时,判断该未分类短信为良性短信;当一个未分类短信同时取得第一次短信分类标签和第二次短信分类标签时,第一次短信分类标签和第二次短信分类标签任意一个为不良短信分类标签时,判断该未分类短信为不良短信。
有益效果
实现本发明解决传统机器学习在不良短信识别中对特征的依赖,与深度学习相比,不仅不需要大量的训练集,而且可以通过短信中的url短链接进行判断,使得语义信息稀疏的短信得到很好的识别;同时结合文本信息和短信地址来判断短信的性质比仅依据短信地址的ip判断短信的性质拥有更好的解释性和更直观的分析效果。
附图说明
图1是本发明的系统结构图。
具体实施方式
参看图1实现本发明的预训练模型加短信地址双重判定不良短信的方法和装置由已分类短信样品集1、预训练模型模块2、短信采集器3、文本处理器4、地址提取器5、网络爬虫6和不良短信判断器7组成;
已分类短信样品集1存储已分类的短信样品,已分类短信样品的数量大于150篇,且小于1000篇;
预训练模型模块2使用XLNet预训练模型对已分类短信样品集1进行分类计算,对已分类短信样品集1进行分类计算后的预训练模型模块2能够在输入文本的情况下对输入的文本给出分类标签;
预训练模型模块2对输入的文本给出分类标签的方法是程序加载XLNet预训练模型,先格式化一个tf_record文件,然后对输入的文本进行特征提取,存入到tf_record文件中,作为语义文件,使用softmax将文本的分类概率归一化,得到输入的文本所属的分类标签;
短信采集器3负责采集待分类的短信内容;
文本处理器4负责将待分类的短信内容进行去噪处理,生成提纯后的短信文本;
文本处理器4去噪处理过程是通过正则表达式将语料中的用户名、停用词、转发符号和标记信息去除,调用Python的re模块进行语料处理,本方法主要使用re.sub()函数,此函数的原型为:re.sub(pattern, repl, string, count=0, flags=0);此函数有五个参数,分别是:匹配的正则表达式、用于替换的字符串、被替换的字符串、设置替换次数、标志位;
文本处理器4将提纯后的短信文本发送给预训练模型模块2,预训练模型模块2对输入的提纯后的短信文本给出第一次短信分类标签21;
文本处理器4将提纯后的短信文本发送给地址提取器5,地址提取器5提取提纯后的短信内容中的网络地址;
地址提取器5的执行方式是用正则表达式扫描提纯后的短信内容,采用Python中的re模块,提取文本中的短链接,使用长链接爬虫程序,将短链接输入进去,得出其对应的长链接,短链接对应的长链接就是提纯后的短信内容中的网络地址;
地址提取器5将提纯后的短信内容中的网络地址发送给网络爬虫6,网络爬虫6读取提纯后的短信内容中的网络地址所对应页面的网页标题和网页内容生成网页文本;网页文本包括网页标题和网页内容;
网络爬虫6将网页文本发送给文本处理器4,文本处理器4负责将网页文本进行去噪处理,生成提纯后的网页文本;
文本处理器4将提纯后的网页文本发送给预训练模型模块2,预训练模型模块2对输入的提纯后的网页文本给出第二次短信分类标签22;
由不良短信判断器7读取第一次短信分类标签21和第二次短信分类标签22;当一个未分类短信只取得第一次短信分类标签21,未取得第二次短信分类标签22时,将第一次短信分类标签21作为判断依据;当一个未分类短信同时取得第一次短信分类标签21和第二次短信分类标签22时,只有第一次短信分类标签21和第二次短信分类标签22同时为良性短信分类标签时,判断该未分类短信为良性短信;当一个未分类短信同时取得第一次短信分类标签21和第二次短信分类标签22时,第一次短信分类标签21和第二次短信分类标签22任意一个为不良短信分类标签时,判断该未分类短信为不良短信。

Claims (1)

1.预训练模型加短信地址双重判定不良短信的装置,其特征在于由已分类短信样品集、预训练模型模块、短信采集器、文本处理器、地址提取器、网络爬虫和不良短信判断器组成;
已分类短信样品集存储已分类的短信样品,已分类短信样品的数量大于150篇,且小于1000篇;
预训练模型模块使用XLNet预训练模型对已分类短信样品集进行分类计算,对已分类短信样品集进行分类计算后的预训练模型模块能够在输入文本的情况下对输入的文本给出分类标签;
预训练模型模块对输入的文本给出分类标签的方法是程序加载XLNet预训练模型,先格式化一个tf_record文件,然后对输入的文本进行特征提取,存入到tf_record文件中,作为语义文件,使用softmax将文本的分类概率归一化,得到输入的文本所属的分类标签;
短信采集器负责采集待分类的短信内容;
文本处理器负责将待分类的短信内容进行去噪处理,生成提纯后的短信文本;
文本处理器去噪处理过程是通过正则表达式将语料中的用户名、停用词、转发符号和标记信息去除,调用Python的re模块进行语料处理,本方法主要使用re.sub()函数,此函数的原型为:re.sub(pattern, repl, string, count=0, flags=0);此函数有五个参数,分别是:匹配的正则表达式、用于替换的字符串、被替换的字符串、设置替换次数、标志位;
文本处理器将提纯后的短信文本发送给预训练模型模块,预训练模型模块对输入的提纯后的短信文本给出第一次短信分类标签;
文本处理器将提纯后的短信文本发送给地址提取器,地址提取器提取提纯后的短信内容中的网络地址;
地址提取器的执行方式是用正则表达式扫描提纯后的短信内容,采用Python中的re模块,提取文本中的短链接,使用长链接爬虫程序,将短链接输入进去,得出其对应的长链接,短链接对应的长链接就是提纯后的短信内容中的网络地址;
地址提取器将提纯后的短信内容中的网络地址发送给网络爬虫,网络爬虫读取提纯后的短信内容中的网络地址所对应页面的网页标题和网页内容生成网页文本;网页文本包括网页标题和网页内容;
网络爬虫将网页文本发送给文本处理器,文本处理器负责将网页文本进行去噪处理,生成提纯后的网页文本;
文本处理器将提纯后的网页文本发送给预训练模型模块,预训练模型模块对输入的提纯后的网页文本给出第二次短信分类标签;
由不良短信判断器读取第一次短信分类标签和第二次短信分类标签;当一个未分类短信只取得第一次短信分类标签,未取得第二次短信分类标签时,将第一次短信分类标签作为判断依据;当一个未分类短信同时取得第一次短信分类标签和第二次短信分类标签时,只有第一次短信分类标签和第二次短信分类标签同时为良性短信分类标签时,判断该未分类短信为良性短信;当一个未分类短信同时取得第一次短信分类标签和第二次短信分类标签时,第一次短信分类标签和第二次短信分类标签任意一个为不良短信分类标签时,判断该未分类短信为不良短信。
CN202010457020.7A 2020-05-27 2020-05-27 预训练模型加短信地址双重判定不良短信的方法和装置 Active CN111601314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457020.7A CN111601314B (zh) 2020-05-27 2020-05-27 预训练模型加短信地址双重判定不良短信的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457020.7A CN111601314B (zh) 2020-05-27 2020-05-27 预训练模型加短信地址双重判定不良短信的方法和装置

Publications (2)

Publication Number Publication Date
CN111601314A true CN111601314A (zh) 2020-08-28
CN111601314B CN111601314B (zh) 2023-04-28

Family

ID=72186526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457020.7A Active CN111601314B (zh) 2020-05-27 2020-05-27 预训练模型加短信地址双重判定不良短信的方法和装置

Country Status (1)

Country Link
CN (1) CN111601314B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723484A (zh) * 2021-08-20 2021-11-30 深圳万顺叫车云信息技术有限公司 短链接生成方法、系统和电子设备
CN114020651A (zh) * 2022-01-06 2022-02-08 深圳市明源云科技有限公司 基于接口地址去重方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078191A1 (en) * 2009-09-28 2011-03-31 Xerox Corporation Handwritten document categorizer and method of training
US20160344770A1 (en) * 2013-08-30 2016-11-24 Rakesh Verma Automatic Phishing Email Detection Based on Natural Language Processing Techniques
US20170289082A1 (en) * 2016-03-31 2017-10-05 Alibaba Group Holding Limited Method and device for identifying spam mail
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078191A1 (en) * 2009-09-28 2011-03-31 Xerox Corporation Handwritten document categorizer and method of training
US20160344770A1 (en) * 2013-08-30 2016-11-24 Rakesh Verma Automatic Phishing Email Detection Based on Natural Language Processing Techniques
US20170289082A1 (en) * 2016-03-31 2017-10-05 Alibaba Group Holding Limited Method and device for identifying spam mail
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何蔓微 等: "垃圾短信的智能识别和实时处理" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723484A (zh) * 2021-08-20 2021-11-30 深圳万顺叫车云信息技术有限公司 短链接生成方法、系统和电子设备
CN113723484B (zh) * 2021-08-20 2022-08-02 深圳万顺叫车云信息技术有限公司 短链接生成方法、系统和电子设备
CN114020651A (zh) * 2022-01-06 2022-02-08 深圳市明源云科技有限公司 基于接口地址去重方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN111601314B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111198995B (zh) 一种恶意网页识别方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN109831460B (zh) 一种基于协同训练的Web攻击检测方法
CN106919673A (zh) 基于深度学习的文本情绪分析系统
CN110609983B (zh) 一种政策文件结构化分解方法
CN111078978A (zh) 一种基于网站文本内容的网贷网站实体识别方法及系统
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN109829499A (zh) 基于同一特征空间的图文数据融合情感分类方法和装置
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN111601314A (zh) 预训练模型加短信地址双重判定不良短信的方法和装置
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN114372470A (zh) 基于边界检测和提示学习的中文法律文本实体识别方法
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN114254077A (zh) 一种基于自然语言对稿件完整性的评估方法
CN111538893B (zh) 一种从非结构化数据中提取网络安全新词的方法
Theophilo et al. Explainable artificial intelligence for authorship attribution on social media
CN109947932B (zh) 一种推送信息分类方法及系统
CN115759081A (zh) 一种基于短语相似度的攻击模式抽取方法
CN113886529B (zh) 一种面向网络安全领域的信息抽取方法及其系统
CN113704400B (zh) 虚假新闻识别方法、装置、设备及芯片
CN115344563A (zh) 数据去重方法及装置、存储介质、电子设备
CN114881012A (zh) 基于自然语言处理的文章标题及内容的智能改写系统及方法
Bhanap et al. Twitter sentiment polarity classification & feature extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant