CN108197295A - 基于多粒度属性树的属性约简在文本分类中的应用方法 - Google Patents
基于多粒度属性树的属性约简在文本分类中的应用方法 Download PDFInfo
- Publication number
- CN108197295A CN108197295A CN201810059050.5A CN201810059050A CN108197295A CN 108197295 A CN108197295 A CN 108197295A CN 201810059050 A CN201810059050 A CN 201810059050A CN 108197295 A CN108197295 A CN 108197295A
- Authority
- CN
- China
- Prior art keywords
- attribute
- data
- trees
- granularity
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据挖掘技术领域,特别涉及一种基于多粒度属性树的属性约简在文本分类中的应用方法,包括:数据获取,并对数据进行初步预处理;构建多粒度属性树;根据多粒度属性树对微博数据约简;保存约简结果,利用数据挖掘算法进行进一步分析;本发明在遍历的过程中,由于子树的删除,子树的叶子结点代表的词语都一次性被删除,避免了再逐一测试子树中其他词语是否可删的操作,减少了解空间的范围,在确保得到约简结果的同时极大提升约简速度。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于多粒度属性树的属性约 简在文本分类中的应用方法。
技术背景
微博数据是一种文本数据,其特征通常数以亿计,是典型的高维数据。在 这些特征中,存在大量的冗余特征,从而使得挖掘效率不高。因此,微博数据 挖掘必须通过属性约简去除冗余特征,尽可能减少分类算法的时间与空间复杂 度。
基于粗糙集的属性约简方法不需要先验知识,因而被广泛地应用于数据挖 掘、机器学习、模式识别等领域。针对粗糙集属性约简速度慢的问题,人们已 经提出了多种属性约简的高效算法。文献“倪茂树,时达明与林鸿飞,基于粗糙 集属性约简的文本分类.郑州大学学报(理学版),2007(02):第100-103页.”针对 文本分类,计算区分矩阵得到属性核,接着穷举出所有不包含核属性的属性组 合,放弃了复杂的规则匹配算法,选取包含属性个数最多的一组属性组,其余 属性组析取得到筛选的特征。文献“刘毅,基于粗糙集的文本分类技术研究,2007, 西南交通大学.第66页.”在文本的向量空间将文本属性权值离散化,得到决策 信息表,按照属性重要性从大到小,逐步将条件属性加入到约简中,直到得到 约简为止,避免了求核属性的复杂计算。
然而,现有的基于粗糙集的属性约简方法在面对微博数据这样的高维数据 时,效率还有待提高。
发明内容
为了解决传统的粗糙集约简流程面对海量文本数据时约简的低效性,本发 明提出一种基于多粒度属性树的属性约简在文本分类中的应用方法,如图1,包 括:
S1、获取文本数据,并对数据进行初步预处理;
S2、构建多粒度属性树;
S3、根据多粒度属性树对文本数据约简,得到属性约简的数据。
优选的,文本数据获取,并进行初步数据预处理包括:
获取文本数据,若是获取微博的文本数据,可以利用爬虫与微博的应用程 序编程接口API获取微博的文本数据;
将文本数据中有主题的数据筛选出来,并将有主题的文本数据的主题提取 出来作为这条文本数据的主题;
对有主题的文本数据内容分词,得到组成该数据的一系列词汇,再删除其 中的标点符号、停用词、非中文字符;
将有主题的文本数据都如上处理,最终将所有词汇与文本数据的主题构成 预处理数据。
优选的,构建多粒度属性树包括:
所有预处理数据的分词结果组成一个大的词汇集合,作为根结点,根结点 在树的第0层;
将根结点中的词汇分为m组,每组之间相交为空集,各个分组是根结点的 子结点,处于多粒度属性树的第1层;
再将第1层的子结点看作根结点,递归的将每个结点分为m组,以此类推, 直到结点不可再分,在分组的过程中,当m大于根结点中的词数,则m取根结 点中的总词数。
优选的,根据多粒度属性树对文本数据约简包括:
对多粒度属性树,从根结点开始,以广度优先遍历的顺序判断每个结点的 删除导致条件属性的变化,变化后的微博数据的正区域是否与原始数据的正区 域相等,若相等,则删除该结点及其子树,继续遍历多粒度属性树;否则则继 续进行广度优先遍历。
对于遍历后的多粒度属性树,提取其所有叶子结点代表的属性,这些属性 作为要保留的条件属性,与微博主题属性组成新的数据。
本发明在剪枝的过程中,留下的单个词语都被测试过,这与传统的粗糙集 约简流程——直接逐一遍历每个词语得到的约简结果达到了同样的目的,所以 通过多粒度属性树约简的结果是一个约简而不是近似约简,新提出的约简流程 是可行的;本发明在遍历的过程中,由于子树的删除,子树的叶子结点代表的 词语都一次性被删除,避免了再逐一测试子树中其他词语是否可删的操作,减 少了解空间的范围,在确保得到解的同时极大提升约简速度。
附图说明
图1为本发明基于多粒度属性树的属性约简在文本分类中的应用方法的实 施例1流程图;
图2为本发明基于多粒度属性树的属性约简在文本分类中的应用方法的实 施例2流程图;
图3为发明的多粒度属性树示意图;
图4为发明的优选实例微博多粒度属性树;
图5为发明的优选实例约简后的多粒度属性树;
图6为发明的优选实例约简后的最终多粒度属性树。
具体实施方式
为了解决传统的粗糙集约简流程面对海量文本数据时约简的低效性,本发 明提出一种基于多粒度属性树的属性约简在文本分类中的应用方法,通过构建 多粒度属性树,将多个分词集合看做一个树的一个结点,通过遍历树的结点, 对树进行剪枝,缩小约简的解空间,避免了必须对每个分词结果测试的流程, 极大地提高微博数据的约简速度,本发明的文本数据以微博为例,如图2,具体 包括:
S1、获取微博数据,并对数据进行初步预处理;
S2、构建多粒度属性树;
S3、根据多粒度属性树对微博数据约简;
S4、利用其他数据挖掘算法对属性约简的数据进行进一步分析。
所述S1、获取微博数据,并对数据进行初步预处理,包括:
通过selenium自动化测试工具模拟登陆新浪微博,再用Scrapy框架编写微 博爬虫,选择一个初始用户的ID爬取其粉丝,再递归爬取粉丝的粉丝,对于已 经爬取到的粉丝不进行递归爬取。当爬取到海量用户的ID后,再爬取每个用户 微博;保留有以下格式的微博:“#猫#我今天看见一只漂亮的猫咪!”、“#红 楼梦#我喜欢红楼梦”;其中“#......#”之间是微博的主题,微博的主题后面是 微博内容,本发明实施例中令“#猫#我今天看见一只漂亮的猫咪!”为第一条 微博,“#红楼梦#我喜欢红楼梦”为第二条微博。
文本数据构成的决策信息表如表1所示,其中Dm表示第m条文档, {T1,T2,…,Tn}表示所有文档的分词结果,Tn表示某一个词语,Wm,n表示第m条 文档是否包含Tn这个词汇,包含取值为1,不包含取值为0;Topic m表示第m 条文档的主题,为决策属性。
表1形如“#主题#词1词2……”的微博文本决策信息表
文档编号 | 主题Topic | T1 | T2 | … | Tn |
D1 | Topic1 | W1,1 | W1,2 | … | W1,n |
D2 | Topic2 | W2,1 | W2,2 | … | W2,n |
… | … | … | … | … | … |
Dm | Topicm | Wm,1 | Wm,2 | … | Wm,n |
将表1中的多个分词集合{T1,T2,…,Tn}划分到多粒度属性树的相应结点中, 通过遍历树的结点,对树进行剪枝,缩小约简的解空间,将对每个分词结果测 试的流程变为对属性集的测试,极大地提高微博数据的约简速度。
对于爬取的数据,提取微博的主题,去除微博内容中所有非中文字符与标 点符号与停用词,再用NLPIR汉语分词系统对微博内容进行分词,得到数据如 表2:
表2微博数据处理结果1
微博 | 主题 | 内容 |
第一微博 | 猫 | 我,今天,看见,一只,漂亮,猫咪 |
第二微博 | 红楼梦 | 我,喜欢,红楼梦 |
根据表2,将每个分词结果看做一个属性,一条微博的分词结果若在某属性 下出现,则该属性值记为1,否则记为0,得到表2数据:
表3微博数据处理结果2
微博 | 主题 | 我 | 今天 | 看见 | 一只 | 漂亮 | 猫咪 | 喜欢 | 红楼梦 |
第一微博 | 猫 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 |
第二微博 | 红楼梦 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
实际中微博数据上百万条,表3的属性个数往往是千、万、百万的级别。 对于这么庞大的数据集,对其进行属性约简后进行挖掘是必须的;属性约简后 的数据能够在保留原始数据集分类能力没有大幅减少的情况下,减少数据量, 给数据的保存、管理、挖掘提供方便;同时由于保留的属性是优质属性,也能 提高数据挖掘结果的精度。
所述S2、构建多粒度属性树,具体包括:
在构建多粒度属性树的过程中,所有有主题微博的分词结果组成一个大的 词汇集合,作为根结点,根结点在多粒度属性树的第0层;
将根结点中的词汇分为m组,每组之间相交为空集,各个分组是根结点的 子结点,处于多粒度属性树的第1层;
再将第1层的子结点看作根结点,递归的将每个结点分为m组,以此类推, 直到结点不可再分,在分组的过程中,当m大于根结点中的词数,则m取根结 点中的总词数。
如图4,假设根结点中包括N个属性词,将这N个属性词分为m组,多粒 度属性树包括根结点和子结点,多粒度属性树一共有层;本发明实施 例中第一条微博和第二条微博一共有8个属性词,此处构建多粒度属性树每一 层的分组数量为m=3,此时多粒度属性树的层数为:即多粒度属 性树一共有三层,如图5所示。
所述S3、根据多粒度属性树对微博数据约简,得到约简数据,具体包括:
对多粒度属性树,从根结点开始计算正区域,以广度优先遍历的方法判断 每个结点的删除导致条件属性的变化,变化后的微博数据的正区域是否与根结 点的正区域相等,若相等,则删除该结点及其子树,继续遍历多粒度属性树; 否则继续进行广度优先遍历。
对于遍历后的多粒度属性树,提取其所有子结点代表的属性,这些属性作 为要保留的条件属性,与微博主题属性组成新的数据。
以下是正区域计算说明。
定义决策信息表中,将一条文本数据记为x,如表2,文本数据的条件属性 为文本数据的内容,文本数据的决策属性为文本数据的主题,将与x在条件属 性C中取值完全相同的其他文本数据与x归为一个类别集合,把该类别集合称 为x的等价类,记作[x];若这个类别中的所有文本的决策属性D完全一致,则 将这个类别集合称条为件属性集C相对于决策属性集D的正区域,记作POSCD。
表3中,若令条件属性集C={“我”,“今天”,“看见”,“一只”,“漂亮”, “猫咪”,“喜欢”,“红楼梦”},决策属性集D={“主题”},本发明实施例中 以第一微博和第二微博为样本,故条件属性集C为第一微博和第二微博的并集, 则条件属性集C相对于决策属性集D的正区域POSCD计算如下:
遍历表3,求得[第一微博]={第一微博};同理,[第二微博]={第二微博};
分别遍历[第一微博]、[第二微博],查表3易知它们各自元素的决策属性相 同的,即第一微博中所有元素的“主题”为“猫”,第二微博中所有元素的“主 题”为“红楼梦”;故样本第一微博、第二微博在条件属性集C相对于决策属性 集D的正区域中,记作POSCD={第一微博,第二微博},本发明简称条件属性 集C的正区域;
若令条件属性集C={“我”}时,[第一微博]={第一微博,第二微博},[第 二微博]={第一微博,第二微博};
遍历表2分别知[第一微博]、[第二微博]各自元素的决策属性{第一微博:猫, 第二微博:红楼梦},猫与红楼梦不一致,故第一微博与第二微博不在POSCD, 此时条件属性集C的正区域,即POSCD为其余情况的正区域计算以此类推。
令C为表3中的所有条件属性,D为决策属性,对于第一条微博和第二条 微博,根结点的正区域POSCD=P={第一微博,第二微博},令P2为新数据集的 正区域,遍历图5的多粒度属性树的第1层的子结点,分别判断c1:“我、今 天、看见”、c2:“一只、漂亮、猫咪”、c3:“喜欢、红楼梦”是否可删;在 多粒度属性树第二层结点中,POSc-c1D=P2=P,则c1可以删除,同理可知c2可 删除;若c3删除,则剩余条件属性为空,不用计算正域即知c3不可删;
由上分析对图5所示的多粒度属性树剪枝,得到如图6所示的多粒度属性 树;继续遍历多粒度属性树的第三层结点,令c4=“喜欢”,c5=“红楼梦”, 根据第1层的正区域计算过程可知c4可删,c5不可删;对其剪枝得如图5的多 粒度属性树,其中叶子结点为“红楼梦”,最后将多粒度属性树的叶子结点作 为约简结果,约简后的多粒度属性树如图6所示,得到新的决策信息表,见表4。
表4表2的约简结果
微博 | 主题 | 红楼梦 |
第一微博 | 猫 | 0 |
第二微博 | 红楼梦 | 1 |
表4通过“红楼梦”属性可从表3区别出两条微博所属的主题,这样在保 持了原始信息决策表的分类能力不变的情况下,减少了数据量。
利用上述方法,计算了根结点正区域与c1、c2、c4结点的正区域,共计算 了4次正区域;传统的约简流程需要计算原始数据集的正区域,每个属性被删 除计算一次正区域,直到最后至少保留一个属性,在本实施例中传统的约简流 程需要测试每个属性共8次正区域,明显可见本文中的算法在速度上有明显的 优势。
优选的,在步骤S3之后还可以包括:
S4、保存约简结果,利用数据挖掘算法进行进一步分析,具体为例如:
对于新的未知主题微博,将其用约简后数据的属性进行表示,再利用最近 邻(k-NearestNeighbor,KNN)算法,计算出新微博的主题;
对约简数据集训练word2vec模型,将所有微博用词向量表示,由于去掉了 无用的分词结果,可提高词向量表达的准确度;
对约简数据集训练LDA、Plsa、Lsa模型,用来挖掘微博数据集的主题分布, 通过判断各微博与某主题的相似度,相似度高的归为一类,最终达到对所有微 博聚类与挖掘微博主题的目的。
此处挖掘微博的话题,以根据微博内容预测微博主题为例,在实际中,表4 样本以及属性数的数据量仍然非常大,对于没有主题的微博3“红楼梦是曹雪芹 写的”,进行分词、去除停用词后得到“红楼梦,曹雪芹,写”;通过表4中 的属性表示该微博,则该微博被表示为“红楼梦:1”;利用KNN算法计算微 博的主题,其中KNN算法中的参数k的大小是对实际中数据中微博数目的10% 取上整,此处k=1,KNN距离采用欧式距离计算微博之间的距离,例如微博3 与第一微博距离为:与第二微博距离为0<1,所以该微博的最近邻第二微博,最终预测该微博主题同第二微博:“红楼梦”。
其中,KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的 样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别 上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的 类别来决定待分样本所属的类别。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤 是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存 储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细 说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不 用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等 同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,包括:
S1、获取文本数据,并对文本进行初步预处理;
S2、构建多粒度属性树;
S3、根据多粒度属性树对文本属性数据约简,得到文本约简的数据。
2.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,所述文本数据获取,并进行初步数据预处理包括:
获取文本数据;
将文本数据中有主题的数据筛选出来,并将有主题的文本数据的主题提取出来作为这条文本数据的类别;
对有主题的文本数据内容进行分词,得到组成该文本的一系列词汇,再删除其中的标点符号、停用词、非中文字符;
将有主题的文本数据都如上处理,最终将所有词汇与文本数据的主题构成预处理数据结果。
3.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,所述构建多粒度属性树包括:
将初步预处理获得的文本数据分词结果组成词汇集合,作为根结点,根结点在树的第0层;
将根结点中的词汇分为m组,每组之间相交为空集,各个分组是根结点的子结点,处于多粒度属性树的第1层;
再将多粒度属性树第1层的子结点视为根结点,递归的将每个结点分为m组,以此类推,直到结点不可再分,在分组的过程中,当m大于根结点中的词数,则m取根结点中的总词数。
4.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,所述根据多粒度属性树对文本数据约简,得到属性约简的数据包括:
对多粒度属性树,从根结点开始,以广度优先遍历的顺序判断每个结点的删除是否改变原始数据的正区域,若没有改变,则删除该结点及其子树,继续遍历多粒度属性树;否则继续进行广度优先遍历。
对于遍历后的多粒度属性树,提取其所有子结点代表的属性,这些属性作为要保留的条件属性,与文本数据主题属性组成新的数据。
5.根据权利要求4所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,广度优先遍历过程包括:
首先从多粒度属性树中选择根结点V0,并访问此根结点;
从根结点V0出发,访问根结点V0的各个未曾访问的孩子结点W1,W2,…,Wk;
然后,依次从W1,W2,…,Wk出发访问各自未被访问的孩子结点;
进行上述步骤,直到多粒度属性树中的所有结点都被访问过,遍历结束。
6.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,在步骤S3之后还包括:
S4、利用数据挖掘算法对属性约简的数据进行进一步分析,包括利用约简后数据的属性计算未知主题文本的主题。
7.根据权利要求6所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,利用约简后数据的属性计算未知主题微博的主题包括:
对于未知主题文本,将其用约简后数据的属性进行表示,再利用K最近邻KNN算法,计算出新微博的主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810059050.5A CN108197295B (zh) | 2018-01-22 | 2018-01-22 | 基于多粒度属性树的属性约简在文本分类中的应用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810059050.5A CN108197295B (zh) | 2018-01-22 | 2018-01-22 | 基于多粒度属性树的属性约简在文本分类中的应用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197295A true CN108197295A (zh) | 2018-06-22 |
CN108197295B CN108197295B (zh) | 2022-03-11 |
Family
ID=62590132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810059050.5A Active CN108197295B (zh) | 2018-01-22 | 2018-01-22 | 基于多粒度属性树的属性约简在文本分类中的应用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197295B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255029A (zh) * | 2018-09-05 | 2019-01-22 | 大连海事大学 | 一种采用加权优化训练集增强自动Bug报告分配的方法 |
CN109670037A (zh) * | 2018-11-08 | 2019-04-23 | 太原理工大学 | 基于主题模型和粗糙集的K-means文本聚类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272665A (ja) * | 1998-03-20 | 1999-10-08 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 日本語構文解析装置 |
JP2004240517A (ja) * | 2003-02-03 | 2004-08-26 | Toshiba Corp | テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム |
CN102004796A (zh) * | 2010-12-24 | 2011-04-06 | 钱钢 | 一种网页文本的无阻滞层次分类方法与装置 |
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
CN106202116A (zh) * | 2015-05-08 | 2016-12-07 | 北京信息科技大学 | 一种基于粗糙集与knn的文本分类方法及系统 |
CN112199501A (zh) * | 2020-10-13 | 2021-01-08 | 华中科技大学 | 一种科技信息文本分类方法 |
-
2018
- 2018-01-22 CN CN201810059050.5A patent/CN108197295B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272665A (ja) * | 1998-03-20 | 1999-10-08 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 日本語構文解析装置 |
JP2004240517A (ja) * | 2003-02-03 | 2004-08-26 | Toshiba Corp | テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム |
CN102004796A (zh) * | 2010-12-24 | 2011-04-06 | 钱钢 | 一种网页文本的无阻滞层次分类方法与装置 |
CN106202116A (zh) * | 2015-05-08 | 2016-12-07 | 北京信息科技大学 | 一种基于粗糙集与knn的文本分类方法及系统 |
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
CN112199501A (zh) * | 2020-10-13 | 2021-01-08 | 华中科技大学 | 一种科技信息文本分类方法 |
Non-Patent Citations (1)
Title |
---|
黄丽宇: ""基于压缩树技术的属性约简算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255029A (zh) * | 2018-09-05 | 2019-01-22 | 大连海事大学 | 一种采用加权优化训练集增强自动Bug报告分配的方法 |
CN109670037A (zh) * | 2018-11-08 | 2019-04-23 | 太原理工大学 | 基于主题模型和粗糙集的K-means文本聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108197295B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN105786991B (zh) | 结合用户情感表达方式的中文情感新词识别方法和系统 | |
CN107992481B (zh) | 一种基于多叉树的正则表达式匹配方法、装置及系统 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN102915365A (zh) | 基于Hadoop的分布式搜索引擎构建方法 | |
CN104462301A (zh) | 一种网络数据的处理方法和装置 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
CN107145516A (zh) | 一种文本聚类方法及系统 | |
CN108763496A (zh) | 一种基于网格和密度的动静态数据融合客户分类算法 | |
CN106557777A (zh) | 一种基于SimHash改进的Kmeans聚类方法 | |
CN105956158B (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN103034656B (zh) | 章节内容分层方法和装置、文章内容分层方法和装置 | |
CN110688593A (zh) | 一种社交媒体账号识别方法及系统 | |
CN108197295A (zh) | 基于多粒度属性树的属性约简在文本分类中的应用方法 | |
Sun et al. | Graph force learning | |
CN103870489B (zh) | 基于搜索日志的中文人名自扩展识别方法 | |
CN111930944A (zh) | 文件标签分类方法及装置 | |
CN108664548B (zh) | 一种退化条件下的网络访问行为特征群体动态挖掘方法及系统 | |
CN115982390A (zh) | 一种产业链构建和迭代扩充开发方法 | |
CN115617981A (zh) | 一种面向社交网络短文本的信息层次摘要提取方法 | |
Annam et al. | Entropy based informative content density approach for efficient web content extraction | |
CN111259117B (zh) | 短文本批量匹配方法及装置 | |
Yu et al. | Mining hidden interests from twitter based on word similarity and social relationship for OLAP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |