CN113590818A - 一种基于cnn与gru及knn融合的政务文本数据分类方法 - Google Patents

一种基于cnn与gru及knn融合的政务文本数据分类方法 Download PDF

Info

Publication number
CN113590818A
CN113590818A CN202110742255.5A CN202110742255A CN113590818A CN 113590818 A CN113590818 A CN 113590818A CN 202110742255 A CN202110742255 A CN 202110742255A CN 113590818 A CN113590818 A CN 113590818A
Authority
CN
China
Prior art keywords
cnn
gru
training sample
sample
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110742255.5A
Other languages
English (en)
Other versions
CN113590818B (zh
Inventor
王运兵
姬少培
杨辉
颜亮
刘栋
谢建武
陈兵
董贵山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC 30 Research Institute
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute, CETC Big Data Research Institute Co Ltd filed Critical CETC 30 Research Institute
Priority to CN202110742255.5A priority Critical patent/CN113590818B/zh
Publication of CN113590818A publication Critical patent/CN113590818A/zh
Application granted granted Critical
Publication of CN113590818B publication Critical patent/CN113590818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于CNN与GRU及KNN融合的政务文本数据分类方法,包括:将政务文本数据划分为原始训练样本与待测样本;从原始训练样本中提取标题信息,构建标题信息训练样本;提取训练样本的特征,分别得到各自的特征向量,输入至CNN进行处理得到CNN特征向量以及输入至GRU得到各自的GRU特征向量;将CNN特征向量与GRU特征向量融合,分别得到原始训练样本的融合特征向量与标题信息训练样本的融合特征向量;分别对融合特征向量进行降维,并将降维后的融合特征向量加权合并得到最终的训练样本特征向量;对待测样本进行类似处理得到待测样本特征向量;采用KNN方法完成待测样本分类。本发明提出的方法能够提取出更多有效的特征信息,有效的提高了文本分类的准确率。

Description

一种基于CNN与GRU及KNN融合的政务文本数据分类方法
技术领域
本发明涉及文本处理领域,特别涉及一种基于CNN与GRU及KNN融合的政务文本数据分类方法。
背景技术
在数字中国的背景下,随着政府行业数字化转型的不断深入,智慧城市、数字新基建等战略的深入推进,越老越多的政府机构运用现代计算机技术和网络技术,将其管理和服务职能转到网络上去完成,同时实现政府组织机构和工作流程的重组优化,超越时间和部门分隔的制约,向社会提供高效、优质、规范、透明和全方位的管理和服务。各级政府部门通过网络向公众宣传和推送的公告、政策法规等政务文本数据越来越多。据不完全统计,仅国家部委在近五年通过政府公开网站发布的公文数量就超过15万篇。面对日益繁重的政务文本数据信息,如何针对这些政务文本数据进行自动化分类,完成针对政务文本数据的有效分类管理是一个非常重要的研究课题。
目前,政务文本分类技术中深度学习技术取得的效果较好,但是深度学习技术的效果依赖于对句子的语义特征提取。传统的基于深度学习方法是基于非动态字向量或者词向量作为输入,字向量或者词向量并不能根据它的上下文去改变,信息涵盖量比较单一;另外由于政务领域的文本文件,其编写要符合标准规范,尤其是同类的标题具有高度的概括性和相似性,现有的分类方法并未充分考虑政务文本数据的这一特性。
现有方法存在以下问题:
(1)卷积神经网络(CNN)、门循环单元(GRU)、KNN在自然语言处理上已得到广泛应用,但由于自然语言在结构上存在着前后依赖关系,仅仅依靠CNN、GRU等进行政务文本分类时存在特征维度过高的问题,从而导致分类准确度及效率较低;
(2)现有的方法并未充分考虑文本数据高度的概括性和相似性,如果采取将整个文本统一处理,会极大的损失标题给分类带来的重要信息;
发明内容
针对现有技术中存在的问题,提供了一种基于CNN与GRU及KNN融合的政务文本数据分类方法,充分利用政务文本自身规范性,以及文本标题的重要信息,利用卷积神经网络(CNN)和门循环单元(GRU)提取区分度更高的特征同时降低特征维数,将KNN作为文本分类器进行文本分类,结合了深度学习能够得到抽象的高层特征表达的特点与机器学习方法成熟、理论基础较为坚实、分类效果较好、应用广泛的优点。
本发明采用的技术方案如下:一种基于CNN与GRU及KNN融合的政务文本数据分类方法,包括以下过程:
步骤1、将政务文本数据划分为原始训练样本与待测样本;
步骤2、从原始训练样本中提取标题信息,构建标题信息训练样本;
步骤3、提取原始训练样本与标题信息训练样本的特征,分别得到各自的特征向量;
步骤4、将各自的特征向量分别作为输入数据输入至CNN进行处理得到各自的CNN特征向量;将各自的特征向量分别作为输入数据输入至GRU进行处理得到各自的GRU特征向量;
步骤5、将原始训练样本的CNN特征向量与GRU特征向量融合、标题信息训练样本的CNN特征向量与GRU特征向量融合,分别得到原始训练样本的融合特征向量与标题信息训练样本的融合特征向量;
步骤6、分别对原始训练样本和标题信息训练样本融合特征向量进行降维,并将降维后的融合特征向量加权合并得到最终的训练样本特征向量;
步骤7、对待测样本执行步骤2-步骤6类似过程得到待测样本特征向量;
步骤8、采用KNN方法完成待测样本分类。
进一步的,所述步骤3包括以下子步骤:
步骤3.1、文本预处理;
步骤3.2、特征向量计算。
进一步的,所述步骤3.1中文本预处理包括:去除文本中乱码以及非文本内容,并采用分词工具进行分词并删除其中停用词。
进一步的,所述步骤3.2具体包括:忽略特征项在文档中的先后顺序并要求特征项互异,将文档简化为以特征项的权重为分量的向量表示,并采用TF-IDF方法得到原始训练样本特征向量和标题信息训练样本的特征向量。
进一步的,所述步骤4中CNN的处理过程为:CNN对输入的特征向量依次进行卷积、激活、池化处理过程并重复两次得到多维特征,每次重复的输入为前次处理的结果;并采用Flatten层将处理后得到的多维特征转换为以为特征,得到CNN特征向量。
进一步的,所述步骤4中GRU的处理过程为:GRU对输入的特征向量进行双向运算,得到运算结果再进行非线性激活层的运算,得到GRU特征向量。
进一步的,所述步骤6中采用全连接层进行线性降维。
进一步的,所述步骤6中的加权合并方法为:
T=(αF4;(1-α)F′4)
其中α∈(0,1),代表权重系数。
进一步的,所述步骤8具体过程包括:计算训练样本与待测样本的相似度,并按照相似度从大到小的方式进行排序,在相似度排名前K的特征向量中,特征向量数量所在类别最多的类别即为待测样本所属类别。
与现有技术相比,采用上述技术方案的有益效果为:
(1)将政务文本数据的标题信息作为单独样本进行特征提取,能够提取出更多有效的特征信息;
(2)采用CNN、GRU来提取特征,比起常用的单层神经网络或是双层神经网络得到的数据更加准确,而且在进行特征提取时,挖掘到的数据更加全面详细,捕获到的序列信息更加充分。
(3)通过特征融合方式,融合两种不同的文本特征表达,得到文本更多样化、丰富的特征表达。
(4)把得到的文本特征利用KNN进行分类,有效的提高了文本分类的准确率。
附图说明
图1是本发明提出的文本数据分类方法流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
如图1所示,本发明提供了一种基于CNN与GRU及KNN融合的政务文本数据分类方法,该方法主要将CNN、GRU、KNN等结合起来进行政务文本数据分类,包括以下过程:
步骤1、将政务文本数据划分为原始训练样本与待测样本;
步骤2、从原始训练样本中提取标题信息,构建标题信息训练样本;
步骤3、提取原始训练样本与标题信息训练样本的特征,分别得到各自的特征向量;
步骤4、将各自的特征向量分别作为输入数据输入至CNN进行处理得到各自的CNN特征向量;将各自的特征向量分别作为输入数据输入至GRU进行处理得到各自的GRU特征向量;
步骤5、将原始训练样本的CNN特征向量与GRU特征向量融合、标题信息训练样本的CNN特征向量与GRU特征向量融合,分别得到原始训练样本的融合特征向量与标题信息训练样本的融合特征向量;
步骤6、分别对原始训练样本和标题信息训练样本融合特征向量进行降维,并将降维后的融合特征向量加权合并得到最终的训练样本特征向量;
步骤7、对待测样本执行步骤2-步骤6类似过程得到待测样本特征向量;
步骤8、采用KNN方法完成待测样本分类。
具体的,
在步骤3中,首先进行文本预处理,掉文本当中的乱码以及非文本的内容,利用分词工具jieba进行分词,删除其中的停用词;再进行特征向量计算。
在特征向量计算时,忽略特征项在文档中的先后顺序并要求特征项互异,将文档简化为以特征项的权重为分量的向量表示。利用TF-IDF方法得到原始训练样本特征向量C1(c11;c12;...;c1q),C2(c21;c22;...;c2q),...,Cs(cs1;cs2;…;csq)和标题信息训练样本特征向量C1′(x11;x12;...;x1q′),C2′(x21;x22;...;x2q′),...,Cs′(xs1;xs2;...;xsq′),其中s为文本数量,q和q'分别为原始训练样本的特征项个数和标题信息训练样本的特征项个数。
在步骤4中,分别将原始训练样本的特征向量和标题信息训练样本的特征向量作为输入数据,分别依次输入CNN和GRU,对特征向量进行深度编码。以特征向量C1、C′1为例,进行说明:
步骤4.1.1、将C1和C′1输入CNN,经过第一个卷积层,采用256个100×5的卷积核对输入C1和C′1进行卷积运算,得到特征f1和f′1
步骤4.1.2、通过激活函数Relu对f1和f′1进行计算得到输出为f2和f′2
步骤4.1.3、将f2和f′2作为输入最大值池化层,用1×101的池化核进行步长为1的池化,得到输出为f3和f′3
步骤4.1.4、重复步骤4.1.1到4.1.3两次(每次重复时的输入为上次处理得到的输出),在第二次重复时将其中部分参数替换:卷积层改用128个1×1的卷积核进行卷积,最大值池化层改用1×1的池化核进行步长为2的池化,最终得到输出为f4和f′4
步骤4.1.5、使用Flatten层将多维特征f4和f′4压缩为一个一维向量,得到CNN的最终输出为F1和F′1,F1={F11,F21,…,Fk1},F1′={F11′,F21′,…,Fk1′}其中,k是CNN第三个池化层输出的神经元数。
步骤4.2.1、将C1和C′1输入GRU,进行序列上的双向运算,得到的结果经过非线性激活层的运算,得到GRU特征向量F2和F′2,其中F2={F21,F22,…,F2n},F2′={F21′,F22′,…,F2n′},n为GRU隐藏层神经元个数。
在得到CNN和RNN输出的特征向量后,分别将特征向量F1和F2、F1′和F2′进行特征融合,得到融合特征向量F3和F′3,F3和F′3再经过全连接层进行线性降维,得到降维后的原始训练样本特征向量F4和标题信息训练样本特征向量F′4,对原始训练样本特征向量F4和标题信息训练样本特征向量F′4进行加权合并得到最终的特征向量T=(αF4;(1-α)F′4),其中α∈(0,1),代表权重系数。
采用同样的方法对待测样本进行处理得到待测样本的特征向量T′,包括标题信息提取构成待测样本的标题信息训练样本;提取待测样本及其标题信息训练样本的特征向量,再分别通过CNN和GRU进行深度编码,对编码后的特征向量进行融合降维再进行加权合并得到待测样本最终的特征向量T′。
计算T与T′之间的相似度,并将相似度从大到小的方式进行排序,在相似度排在前K的特征向量中,具有较多特征向量的类别即为待测样本所属类别,完成分类。
本发明提出的方案的有益效果和优点主要包括四点:
(1)将政务文本数据的标题信息作为单独样本进行特征提取,能够提取出更多有效的特征信息;
(2)采用CNN、GRU来提取特征,比起常用的单层神经网络或是双层神经网络得到的数据更加准确,而且在进行特征提取时,挖掘到的数据更加全面详细,捕获到的序列信息更加充分。
(3)通过特征融合方式,融合两种不同的文本特征表达,得到文本更多样化、丰富的特征表达。
(4)把得到的文本特征利用KNN进行分类,有效的提高了文本分类的准确率。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (9)

1.一种基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,包括以下步骤:
步骤1、将政务文本数据划分为原始训练样本与待测样本;
步骤2、从原始训练样本中提取标题信息,构建标题信息训练样本;
步骤3、提取原始训练样本与标题信息训练样本的特征,分别得到各自的特征向量;
步骤4、将各自的特征向量分别输入至CNN进行处理得到各自的CNN特征向量;将各自的特征向量分别输入至GRU进行处理得到各自的GRU特征向量;
步骤5、将原始训练样本的CNN特征向量与GRU特征向量融合、标题信息训练样本的CNN特征向量与GRU特征向量融合,分别得到原始训练样本的融合特征向量与标题信息训练样本的融合特征向量;
步骤6、分别对原始训练样本和标题信息训练样本融合特征向量进行降维,并将降维后的融合特征向量加权合并得到最终的训练样本特征向量;
步骤7、对待测样本执行步骤2-步骤6类似过程得到待测样本特征向量;
步骤8、根据最终的训练样本特征向量与待测样本特征向量,采用KNN方法完成待测样本分类。
2.根据权利要求1所述的基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,所述步骤3包括以下子步骤:
步骤3.1、文本预处理;
步骤3.2、特征向量计算。
3.根据权利要求2所述的基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,所述步骤3.1中文本预处理包括:去除文本中乱码以及非文本内容,并采用分词工具进行分词并删除其中停用词。
4.根据权利要求3所述的基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,所述步骤3.2具体包括:忽略特征项在文档中的先后顺序并要求特征项互异,将文档简化为以特征项的权重为分量的向量表示,并采用TF-IDF方法得到原始训练样本特征向量和标题信息训练样本的特征向量。
5.根据权利要求4所述的基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,所述步骤4中CNN的处理过程为:CNN对输入的特征向量依次进行卷积、激活、池化处理过程并重复两次得到多维特征,每次重复的输入为前次处理的结果;并采用Flatten层将处理后得到的多维特征转换为以为特征,得到CNN特征向量。
6.根据权利要求5所述的基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,所述步骤4中GRU的处理过程为:GRU对输入的特征向量进行双向运算,得到运算结果再进行非线性激活层的运算,得到GRU特征向量。
7.根据权利要求1所述的基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,所述步骤6中采用全连接层进行线性降维。
8.根据权利要求1所述的基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,所述步骤6中的加权合并方法为:
T=(αF4;(1-α)F′4)
其中α∈(0,1),代表权重系数。
9.根据权利要求1所述的基于CNN与GRU及KNN融合的政务文本数据分类方法,其特征在于,所述步骤8具体过程包括:计算训练样本与待测样本的相似度,并按照相似度从大到小的方式进行排序,在相似度排名前K的特征向量中,特征向量数量所在类别最多的类别即为待测样本所属类别。
CN202110742255.5A 2021-06-30 2021-06-30 一种基于cnn与gru及knn融合的政务文本数据分类方法 Active CN113590818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110742255.5A CN113590818B (zh) 2021-06-30 2021-06-30 一种基于cnn与gru及knn融合的政务文本数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110742255.5A CN113590818B (zh) 2021-06-30 2021-06-30 一种基于cnn与gru及knn融合的政务文本数据分类方法

Publications (2)

Publication Number Publication Date
CN113590818A true CN113590818A (zh) 2021-11-02
CN113590818B CN113590818B (zh) 2023-05-26

Family

ID=78245615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110742255.5A Active CN113590818B (zh) 2021-06-30 2021-06-30 一种基于cnn与gru及knn融合的政务文本数据分类方法

Country Status (1)

Country Link
CN (1) CN113590818B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781555A (zh) * 2022-06-21 2022-07-22 深圳市鼎合丰科技有限公司 改进knn方法的电子元器件数据分类方法
CN116662434A (zh) * 2023-06-21 2023-08-29 河北维嘉信息科技有限公司 一种多源异构大数据处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128390A (zh) * 2019-12-20 2020-05-08 昆明理工大学 一种基于骨科症状特征选取的文本处理方法
CN111144094A (zh) * 2019-12-09 2020-05-12 中国电子科技集团公司第三十研究所 一种基于CNN与Bi-GRU的文本分类方法
CN112101408A (zh) * 2020-08-03 2020-12-18 联想(北京)有限公司 一种分类方法及分类装置
CN112307755A (zh) * 2020-09-28 2021-02-02 天津大学 基于多特征和深度学习的垃圾评论识别方法
US20210098134A1 (en) * 2019-09-27 2021-04-01 Pricewaterhousecoopers Llp Multi-task learning in pharmacovigilance

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210098134A1 (en) * 2019-09-27 2021-04-01 Pricewaterhousecoopers Llp Multi-task learning in pharmacovigilance
CN111144094A (zh) * 2019-12-09 2020-05-12 中国电子科技集团公司第三十研究所 一种基于CNN与Bi-GRU的文本分类方法
CN111128390A (zh) * 2019-12-20 2020-05-08 昆明理工大学 一种基于骨科症状特征选取的文本处理方法
CN112101408A (zh) * 2020-08-03 2020-12-18 联想(北京)有限公司 一种分类方法及分类装置
CN112307755A (zh) * 2020-09-28 2021-02-02 天津大学 基于多特征和深度学习的垃圾评论识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAMENG LI 等: "Denoising by Markov Random Filed in distantly supervised relation extraction" *
杜永萍 等: "基于CNN-LSTM模型的短文本情感分类" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781555A (zh) * 2022-06-21 2022-07-22 深圳市鼎合丰科技有限公司 改进knn方法的电子元器件数据分类方法
CN116662434A (zh) * 2023-06-21 2023-08-29 河北维嘉信息科技有限公司 一种多源异构大数据处理系统
CN116662434B (zh) * 2023-06-21 2023-10-13 河北维嘉信息科技有限公司 一种多源异构大数据处理系统

Also Published As

Publication number Publication date
CN113590818B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN110704606B (zh) 一种基于图文融合的生成式摘要生成方法
CN101853250A (zh) 对文档进行分类的方法及装置
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
CN113590818A (zh) 一种基于cnn与gru及knn融合的政务文本数据分类方法
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
CN111309777A (zh) 一种基于互斥表达的改进关联规则报表数据挖掘方法
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN112541083A (zh) 一种基于主动学习混合神经网络的文本分类方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN111651602A (zh) 一种文本分类方法及系统
CN115186069A (zh) 一种基于CNN-BiGRU的学术文本摘要自动分类方法
CN117009521A (zh) 一种基于知识图谱的发动机智能工艺检索及匹配方法
Prasomphan Toward Fine-grained Image Retrieval with Adaptive Deep Learning for Cultural Heritage Image.
TWI452477B (zh) 以模糊相似度與k最近鄰居法為基礎之多標籤文件分類方法
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
CN112231476A (zh) 一种改进的图神经网络科技文献大数据分类方法
CN115795037A (zh) 一种基于标签感知的多标签文本分类方法
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Wei et al. The instructional design of Chinese text classification based on SVM
Zhu et al. Chinese texts classification system
CN109857906B (zh) 基于查询的无监督深度学习的多视频摘要方法
Chandrasekaran et al. Efficient visual sentiment prediction approaches using deep learning models
Ahmad et al. Sentiment analysis of social media contents using machine learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant