CN111984762B - 一种对抗攻击敏感的文本分类方法 - Google Patents
一种对抗攻击敏感的文本分类方法 Download PDFInfo
- Publication number
- CN111984762B CN111984762B CN202010798650.0A CN202010798650A CN111984762B CN 111984762 B CN111984762 B CN 111984762B CN 202010798650 A CN202010798650 A CN 202010798650A CN 111984762 B CN111984762 B CN 111984762B
- Authority
- CN
- China
- Prior art keywords
- classification
- model
- text data
- word
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明为一种对抗攻击敏感的文本分类方法,属于大数据、人工智能的分类领域。该方法包含以下步骤:S1:选择文本数据源;S2:对文本数据进行预处理,并采用词向量技术进行词向量训练,生成词库;S3:结合词库,建立特征提取模型,得到特征向量;S4:建立原型聚类模型,实现特征向量基于原型的分类;S5:训练步骤S3~步骤S4中的模型,将训练好的模型用于新文本数据的分类。本发明方法在拒绝和增量分类学习任务上都有很大的优势,能很好地拒绝噪声样本和异常值,在提升分类性能的同时提升了模型的鲁棒性,更进一步,优化了基于距离的中心损失函数,增加了正则化项,有效防止过拟合现象,进一步提高了本发明的泛化能力。
Description
技术领域
本发明涉及一种对抗攻击敏感的文本分类方法,属于大数据挖掘、人工智能分类领域,尤其适用于大规模的文本分类处理。
背景技术
文本分类是自然语言处理当中的核心技术,有着广泛的应用场景。文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判断为事先确定的若干个类别的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。国内外对文本分类以及相关的信息检索、信息抽取领域进行了较为深入的研究。
以医药专利分类为例。专利作为知识产权的重要载体,已成为各行业高科技企业和科研机构的重要战略资源,特别是在生物医药行业领域。在这样的背景下,为了进一步了解医疗研发的现状,制药公司在研制新药的同时往往会对涉及新药的专利分布情况进行详细的调研,以免触碰知识产权的保护范围。因此,根据制药企业的不同需求对专利进行定制化分类具有重要意义。在当今全球疫情严重的情况下,好的医药专利分类方法能够迅速地帮助制药公司和科研机构从现有的专利库里面找到有助于抑制新冠抗病毒类的相关医药专利,从而加快抑制新冠病毒药品的研发进度,具有一定的社会效益和发展前景。
目前,对于文本数据的分类工作更多的还是依靠人工分类或者强约束策略式分类方法,所谓的策略式分类往往是领域专家依靠自身经验制定的关键词匹配规则,来对文本数据进行简单的分类。虽然这些方法都能够在一定程度上对文本数据达到分类的目的,但是人工分类方法效率低下,人力资源成本过高,而强策略式分类方法受限于领域专家的知识,虽然有一定的准确率保障,但查全率往往表现很不理想。
随着机器学习技术的迅速发展,机器学习的方法如——最近邻(KNN)、支持向量机(SVM)、随机森林(RF)等分类器已被应用于文本分类,但仅适合于小样本数据集,且分类性能有待提高。深度学习方法如——卷积神经网络(CNN)、长短时记忆网络(LSTM)等能很好的处理大数据集样本,通过提取数据潜在的信息和使用softmax损失函数层进行分类,能很好的提升分类的精度。分类的准确度长期以来都是评价分类模型性能的最核心甚至唯一标准。但最近研究表明,即使是充分训练好的深度神经网络模型也很容易被对抗攻击算法攻破。以图像为例,对抗攻击是指在图像上加入特定的且人眼无法察觉的微量噪声,使得目标模型对加噪之后得到的对抗样本做出错误分类,对于文本分类而言,对抗攻击的敏感性则是指目标模型对异常文本(如噪声样本、外来样本)的辨识能力。
发明内容
有鉴于此,本发明提供一种对抗攻击敏感的文本分类方法,通过一维特征提取模型和原型聚类模型相结合,不仅能够针对不平衡文本数据进行自动分类,提高准确率和查全率,而且能够提高模型的鲁棒性和泛化能力,对抗数据干扰。
为达到上述目的,本发明提供如下技术方案:
一种对抗攻击敏感的文本分类方法,包括如下步骤:
S1:选择文本数据源;
S2:对文本数据进行预处理,并采用词向量技术进行词向量训练,生成词库;
S3:结合词库,建立特征提取模型,得到特征向量;
S4:建立原型聚类模型,实现特征向量基于原型的分类;
S5:训练步骤S3~步骤S4中的模型,将训练好的模型用于新文本数据的分类。
进一步,步骤S1根据所选取的数据源,将其分为训练集、验证集和测试集三部分,其中,训练集和验证集为已分类的文本数据,测试集为未分类文本数据——对应步骤S5中的新文本数据。
进一步,步骤S2具体为:首先,对步骤S1所选的专利数据源所有的文本数据进行分词,然后对分词后的数据进行数据清洗,去除掉停用词、低频词以及无用符号等,数据清洗完成后进行POS(part of speech tagging)词性标注和TF-IDF关键词提取,最后,采用Word2ver(word to vector)或GloVe(Global vectors for word representation)等NLP(natural language process,自然语言处理)词向量技术,选择固定的词向量长度n来对每个单词或者单字进行词向量训练,生成词库,其中n为人为选取的正整数。
进一步,步骤S3所述的特征提取模型由一个一维卷积神经网络串联一个双向的长短时记忆网络(Bi-LSTM),最后再串联一个全连接层(Dense)构成;该模型以词库的词向量的数值形式作为输入,以特征向量作为输出。
进一步,步骤S4取代了传统的softmax层进行分类,将S3得到的特征向量直接作为原型聚类模型的输入来实现自适应聚类,以距离数值作为输出,所述的原型聚类模型为K-Means原型聚类模型。
进一步,步骤S5得训练模型具体为:首先,使用训练集来实现优化目标,训练步骤S3~步骤S4的模型参数,然后使用验证集来验证训练模型分类的准确性,直到满足需求到达训练目的。
步骤S5所述的训练步骤S3中的特征提取模型的优化目标为:
所采用的中心损失函数loss为带有正则项的基于距离的中心损失函数,具体为:
其中,E(i)=e-γ·D,γ为控制参数,λ为正则化权重参数。
本发明的有益效果在于:本发明提供了一种对抗攻击敏感的文本分类方法,首先利用词向量技术建立词库,然后利用深度网络提取文本特征,最后取代传统的softmax层进行分类,使用K-Means原型聚类方法来实现文本数据的自分类任务,在拒绝和增量分类学习任务上都有很大的优势,能很好地拒绝噪声样本和异常值,在提升分类性能的同时提升了模型的鲁棒性,起到了抵抗对抗攻击的作用;更进一步,优化了基于距离的中心损失函数,增加了正则化项,有效防止过拟合现象,进一步提高了本发明的泛化能力。
附图说明
为了使本发明的目的、技术方案,本发明提供如下附图进行说明:
图1为一种对抗攻击敏感的文本分类方法流程图;
图2为本发明实施例1结构图;
图3为本发明实施例1的医药专利英文文本数据柱状图。
具体实施方式
为使本发明的目的和技术方案更加清晰明白,下面结合附图及实施例对本发明进行详细的描述。
实施例:为了解决缺乏面向医药专利文本的特定知识发现和挖掘模型及方法等问题,某公司提供423996条已分类的医药专利文本,如图3所示,数据分布存在明显的不平衡性,为了解决数据不平衡性问题以及分类方法鲁棒性差、泛化能力弱等问题,本实施例提供“一种对抗攻击敏感的专利文本分类方法”,结合图2,该方法包含以下步骤:
步骤一:
将该公司提供423996条已分类的医药专利文本数据按照用户需求划分为十二个类别,分别为:NME(化合物),NDT(药物衍生物),MIP(医药中间体),NCF(晶型),NFP(制剂),NCP(组合物),NUS(用途),NSP(制备方法),NAM(诊断、分析与测定专利),DDD(给药装置),BTN(生物技术专利),BLA(生物药),再按照7∶1∶2的比例划分为训练集、验证集和测试集,其分类结果如图3所示,在这里我们并不对专利本身做太多完备性约束,只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。
步骤二:
对专利文本数据进行文本预处理,首先使用Jieba进行分词,然后剔除文本数据中的无用字符、低频词和停用词,其次使用POS词性标注法保留专业的医学名词,并使用TF-IDF提取专利说明书部分的前30个关键词结合标题和摘要进行专利文本的词向量训练。最后,使用GloVe方法进行词向量的训练,设置词的维度为300维,生成一个专业的医药专利词典库。
步骤三:结合词库,建立特征提取模型,得到特征向量;
特征提取模型由一维CNN和Bi-LSTM组成,预处理好的专利文本数据根据步骤二得到的词向量库找到对应词向量作为输入进行深度特征提取,结合了卷积神经网络的速度与轻量与循环神经网络的顺序敏感性,CNN将长的输入序列转换成高级特征组成的更短序列,将提取的有用特征组成序列输入到Bi-LSTM中进行处理。
步骤四:建立原型聚类模型,实现特征向量基于原型的分类;
取代了传统的softmax分类层进行分类,使用K-Means原型聚类模型。首先,随机初始化每一类的原型中心,将每个聚类对象的均值作为中心对象,计算每个对象与这些中心对象的距离;然后,将步骤三得到的训练集的特征向量作为输入通过欧氏距离不断迭代更新每一类的原型聚类中心位置,并用验证集对模型进行评估。
步骤五:
首先,使用训练集来实现优化目标,训练步骤S3~步骤S4的模型参数,然后使用验证集来验证训练模型分类的准确性,直到满足需求到达训练目的。
建立特征提取模型的优化目标为:
所采用的中心损失函数loss为带有正则项的基于距离的中心损失函数,具体为:
其中,E(i)=e-γ·D,γ为控制参数,λ为正则化权重参数。
本实施例分别采用传统的支持向量机(SVM)和针对不平衡文本的Bi-LSTM分类器做对比试验,对专利文本数据分类做对比实验。实验结果如表1所示,其中,评价该分类结果的标准为查准率(Precision)和查全率(Recall),查准率和查全率的取值范围均为[0,1],值越接近1,分类性能越好。其中,查准率=预测正确类别样本数/预测类别的样本数,查全率=预测正确类别样本数/类别样本总数。由表1可见,本发明方法的查准率和查全率相对于其他方法而言都表现较好,在每一个分类上几乎都优于或接近于现有分类方法,且每一类的查准率和查全率都达到了92%以上。
表1本发明方法对医药专利文本的分类结果
表2基于不同阈值的接受率和拒绝率结果
Thresholds | AR | RR |
0.4 | 94.39 | 100.00 |
0.5 | 97.54 | 100.00 |
0.6 | 98.36 | 99.97 |
0.65 | 99.02 | 99.91 |
为了验证本发明的鲁棒性,将专利测试数据和选取的部分Amazon review数据(或别的非专利数据)作为异常值一起放入到训练好的模型中,来测试模型的接受能力和拒绝能力,实验结果如表2所示。这里使用接受率(AR)和拒绝率(RR)作为评价指标,取值范围均为[0,1],值越接近1,则说明分类的鲁棒性越好。
本实施例使用一个基于距离阈值(Thresholds)的拒绝策略,当样本特性值和每个类的原型之间的距离大于预定义的阈值时,那么它会被拒绝,否则,它将被接受。其中,接受率(AR)=被接受的医药专利测试数据条数/总的医药专利测试数据条数,拒绝率(RR)=被拒绝的噪声样本数据条数/总的噪声样本数据条数。由表2结果可见,本发明方法具有很好的接受拒绝能力,鲁棒性好。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (1)
1.一种对抗攻击敏感的文本分类方法,其特征在于,该方法包含以下步骤:
S1:选择文本数据源;
S2:对文本数据进行预处理,并采用词向量技术进行词向量训练,生成词库;
S3:结合词库,建立特征提取模型,得到特征向量;
S4:建立原型聚类模型,实现特征向量基于原型的分类;
S5:训练步骤S3~步骤S4中的模型,将训练好的模型用于新文本数据的分类;
步骤S3所述的特征提取模型由一个一维卷积神经网络串联一个双向的长短时记忆网络,最后再串联一个全连接层构成;该模型以词库的词向量的数值形式作为输入,以特征向量作为输出;
步骤S4所述的原型聚类模型为K-Means原型聚类模型,该模型以特征向量作为输入,以距离数值作为输出;
步骤S5所述的训练步骤S3中的特征提取模型的优化目标为:
所采用的中心损失函数loss为带有正则项的基于距离的中心损失函数,具体为:
其中,E(i)=e-γ·D,γ为控制参数,λ为正则化权重参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010798650.0A CN111984762B (zh) | 2020-08-05 | 2020-08-05 | 一种对抗攻击敏感的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010798650.0A CN111984762B (zh) | 2020-08-05 | 2020-08-05 | 一种对抗攻击敏感的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984762A CN111984762A (zh) | 2020-11-24 |
CN111984762B true CN111984762B (zh) | 2022-12-13 |
Family
ID=73445512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010798650.0A Active CN111984762B (zh) | 2020-08-05 | 2020-08-05 | 一种对抗攻击敏感的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984762B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628584A (zh) * | 2023-07-21 | 2023-08-22 | 国网智能电网研究院有限公司 | 电力敏感数据处理方法、装置、电子设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN109960726A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN110249341A (zh) * | 2017-02-03 | 2019-09-17 | 皇家飞利浦有限公司 | 分类器训练 |
CN110390013A (zh) * | 2019-06-25 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种基于聚类与ann融合应用的文本分类方法 |
CN110609898A (zh) * | 2019-08-19 | 2019-12-24 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
CN110750645A (zh) * | 2019-10-15 | 2020-02-04 | 广东外语外贸大学 | 基于对抗训练的跨领域虚假评论识别方法 |
CN110929029A (zh) * | 2019-11-04 | 2020-03-27 | 中国科学院信息工程研究所 | 一种基于图卷积神经网络的文本分类方法及系统 |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11621076B2 (en) * | 2018-05-24 | 2023-04-04 | Snout, Inc. | Machine learning system and method for pet health records |
-
2020
- 2020-08-05 CN CN202010798650.0A patent/CN111984762B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110249341A (zh) * | 2017-02-03 | 2019-09-17 | 皇家飞利浦有限公司 | 分类器训练 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN109960726A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN110390013A (zh) * | 2019-06-25 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种基于聚类与ann融合应用的文本分类方法 |
CN110609898A (zh) * | 2019-08-19 | 2019-12-24 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
CN110750645A (zh) * | 2019-10-15 | 2020-02-04 | 广东外语外贸大学 | 基于对抗训练的跨领域虚假评论识别方法 |
CN110929029A (zh) * | 2019-11-04 | 2020-03-27 | 中国科学院信息工程研究所 | 一种基于图卷积神经网络的文本分类方法及系统 |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
Non-Patent Citations (2)
Title |
---|
"Research on Text Classification Based on CNN and LSTM";Yuandong Luan;《2019 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA)》;20191017;第352-355页 * |
"一种基于CNN与双向LSTM融合的文本情感分类方法";张翠 等;《计算机时代》;20191213;第38-41页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111984762A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Network intrusion detection combined hybrid sampling with deep hierarchical network | |
Roffo et al. | Infinite latent feature selection: A probabilistic latent graph-based ranking approach | |
US20200279105A1 (en) | Deep learning engine and methods for content and context aware data classification | |
Meng et al. | Semi-supervised heterogeneous fusion for multimedia data co-clustering | |
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
Tan | An improved KNN text classification algorithm based on K-medoids and rough set | |
Grzegorczyk | Vector representations of text data in deep learning | |
Gangadharan et al. | Paraphrase detection using deep neural network based word embedding techniques | |
Remya et al. | Using weighted majority voting classifier combination for relation classification in biomedical texts | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN111831822A (zh) | 一种基于文本多分类混合式均分聚类采样算法的不平衡数据集文本多分类方法 | |
CN111984762B (zh) | 一种对抗攻击敏感的文本分类方法 | |
Zobeidi et al. | Effective text classification using multi-level fuzzy neural network | |
Lopes et al. | Automatic cluster labeling through artificial neural networks | |
Banerjee et al. | A novel centroid based sentence classification approach for extractive summarization of COVID-19 news reports | |
Khazaee et al. | Using fuzzy c-means algorithm for improving intrusion detection performance | |
Melethadathil et al. | Classification and clustering for neuroinformatics: Assessing the efficacy on reverse-mapped NeuroNLP data using standard ML techniques | |
Solorio-Fernández et al. | Ranking based unsupervised feature selection methods: An empirical comparative study in high dimensional datasets | |
Shi et al. | An ensemble tree classifier for highly imbalanced data classification | |
Broda et al. | Evaluation of clustering algorithms for Polish word sense disambiguation | |
Hossain et al. | Bangla-news-headlines-categorization | |
Teng et al. | A two-stage deep learning model based on feature combination effects | |
Wang et al. | Cosine kernel based density peaks clustering algorithm | |
Zhang et al. | Fast instance selection method for SVM training based on fuzzy distance metric | |
Sami et al. | Incorporating random forest trees with particle swarm optimization for automatic image annotation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |