CN106886569B - 一种基于mpi的ml-knn多标签中文文本分类方法 - Google Patents

一种基于mpi的ml-knn多标签中文文本分类方法 Download PDF

Info

Publication number
CN106886569B
CN106886569B CN201710026254.4A CN201710026254A CN106886569B CN 106886569 B CN106886569 B CN 106886569B CN 201710026254 A CN201710026254 A CN 201710026254A CN 106886569 B CN106886569 B CN 106886569B
Authority
CN
China
Prior art keywords
mpi
knn
data
word
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710026254.4A
Other languages
English (en)
Other versions
CN106886569A (zh
Inventor
王进
晏世凯
邵帅
李颖
欧阳卫华
胡峰
李智星
邓欣
陈乔松
雷大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University Of Technology Press Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710026254.4A priority Critical patent/CN106886569B/zh
Publication of CN106886569A publication Critical patent/CN106886569A/zh
Application granted granted Critical
Publication of CN106886569B publication Critical patent/CN106886569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。

Description

一种基于MPI的ML-KNN多标签中文文本分类方法
技术领域
本发明涉及机器学习和高性能计算领域,具体涉及一种基于MPI编程并行化多标签分类算法ML-KNN。
背景技术
近年来,信息技术迅猛发展,互联网数据规模随之呈海量增长,其表现形式也愈加丰富,然而传统的监督学习认为每个样本只有一个标签,对事物的复杂语义信息缺乏准确表述的能力,多标签学习(Multi-Label Learning)应运而生。多标签学习认为单个样本存在多个标签与之关联,与多个标签关联的样本能够更好的表述。近年来,多标签学习问题受到了机器学习学术界和工业界越来越多的重视,已成为机器学习界的研究热点之一。
ML-KNN(multi-label k Nearest Neighbor)是张敏灵和周志华提出的一种多标签分类算法,该算法是由经典的单标签学习算法KNN(k Nearest Neighbor)改进而来的。ML-KNN首先求出待预测样本的k个最近邻类别标签出现的先验概率和后验概率,再基于最大化后验概率的原则去确定待预测样本的标签集。算法在文本分类、生物信息学、信息检索、网页挖掘等诸多领域表现出了良好的效果。
设Ξ为特征空间,Ψ是有限个标签的集合。对于任一样本x(x∈Ξ),其标签的集合
Figure BDA0001209501790000011
为样本x的类别向量,向量中的元素为(l∈Ψ),若l∈Y,则的值为1,否则为0。此外,定义N(x)为样本x在训练集中的K近邻的集合,其中样本之间相似度用欧氏距离度量,则成员统计向量被定义为:
Figure BDA0001209501790000012
用于统计在样本x的K近邻中标签为l的样本的个数。
对于测试样本t,表示事件:样本t含有标签l;则表示事件:样本t不含标签l;表示事件:在样本t的K近邻中,恰好有j个样本含有标签l。利用最大化后验概率准则(Maximum aPosteriori,MAP),测试样本t的标签向量为:
Figure BDA0001209501790000021
通过贝叶斯公式,上式可转换为:
Figure BDA0001209501790000022
Figure BDA0001209501790000023
Figure BDA0001209501790000024
成立的先验概率,通过统计训练集中与标签l相关的样本数量得到;
Figure BDA0001209501790000025
表示当
Figure BDA0001209501790000026
成立时,测试样本t的K近邻中有
Figure BDA0001209501790000027
个样本含有标签l的概率。
2.多标签文本分类
Internet上存在的海量数据主要包括文本、声音、图像数据等。其中,文本数据与其他数据相比,具有占用网络资源小的特点,这使得网上的数据大多是以文本的形式呈现的。为了有效的管理和利用这些文本数据,从中发现有价值的信息,基于内容的信息检索和数据挖掘技术倍受关注。而文本分类技术是信息检索的基础,其主要任务是按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。
文本分类最初是应信息检索的需求而出现的,早期以人工构建分类器为主,经过几十年的发展,基于机器学习的文本分类技术成为了主流,该方法包涵文本预处理,特征选择,分类器的构建三个步骤,实现了文本的自动分类。在互联网广泛使用的今天,网络信息快速膨胀,基于机器学习的文本分类技术已成为信息检索与数据挖掘领域的核心技术。
文本分类可根据分类后类标签的个数分为单标签文本分类和多标签文本分类。区别于多类别文本分类,多标签文本分类是指单个文本具有两个及其以上的标签与之关联。在现实世界中,多标签文本分类是相当普遍的,比如,一篇新闻报道可能包含里约奥运会、女排、决赛等多个主题。
3.MPI
MPI(Message Passing Interface,消息传递接口)是由MPI论坛(MPI Forum)提出的一种消息传递编程模型,并成为这种编程模型的代表和事实上的标准,具有高效率,方便移植,功能强大等特点。MPI是一个库,而不是一门独立的编程语言,可以被FORTRAN和C/C++调用,其适用于共享和分布式存储的并行计算环境,用它编写的程序可以直接在SMP(Symmetric Multi-Processor,对称式多处理器)集群上运行。
本发明旨在解决ML-KNN的具体实现中大规模分类问题,控制计算的时间和空间代价。鉴于VSM仍是文本表示的主要方法,导致样本的特征空间维度较高,在大规模分类问题中具有一定的特殊性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种在处理高维数据的时候的中文文本分类方法。本发明的技术方案如下:
一种基于MPI的ML-KNN多标签中文文本分类方法,其包括以下步骤:
1)对训练集和待预测数据集中的所有文本进行预处理,包括分词,去停用词及去低频词在内的步骤;
2)对预处理后的训练集进行特征词汇提取得到特征词汇表,再根据特征词汇表对训练集和待预测数据集作文本矢量化表示;
3)构造分类器并分类:首先基于并行编程模型MPI将ML-KNN算法并行,然后使用训练集对并行后的ML-KNN分类器进行训练,最后使用训练好的ML-KNN分类器对待预测文本数据集进行分类,得到待预测文本数据集分类结果。
进一步的,所述步骤1)中的分词步骤是将原始文本中的中文句子按照一定的规范重新组合成词序列的过程;去除停用词的步骤是根据停用词汇表删除对分类没有意义的停用词汇,;去除低频词的步骤是指去掉某些只在极少的文本中出现过的单词,这样的词留在集合中会导致大部分文本样本在该特征词汇下的值为0。
进一步的,步骤2)特征的提取只针对训练集,具体做法是将预处理后的训练集进行词频统计,将在训练集中出现次数大于设定阈值T的单词加入特征词汇表,并计算特征词汇表中的每个单词的IDF值以及每个单词在文档中的词频TF,将含有IDF值和TF值的特征词汇表通过MPI_Bcast函数广播至各个进程,再在各个进程中求出与该进程相对应文档中单词的TF-IDF值,实现文档的向量化表示。
进一步的,步骤4)将ML-KNN分类器并行化的步骤包括:
首先将训练数据集以特征为单位均匀划分成p个特征数据列,再将每个特征数据列均与划分成q个特征数据子集,则原数据集被划分成了p*q个特征数据子集;
将划分好的特征数据子集通过MPI_Send函数传入p*q个进程中,各个进程
通过MPI_Recv函数接收,每个进程有且只有一个特征数子集,数据子集进
行距离运算,
再进行训练集特征矩阵的划分,得到近邻矩阵N(xj);
将由人工标记的训练集标签信息传入进程0,在进程0中计算先验概率
Figure BDA0001209501790000041
同时利用得到的近邻矩阵N(xj)计算出后验概率
Figure BDA0001209501790000042
进而求出测试样本t对于标签l的概率Pt,l(b)以及t是否含有标签l。
进一步的,所述距离公式使用的距离公式为:
dist(a,b)=a*b+b2
其中a为当前样本的特征向量,b为目标样本的特征向量,dist(a,b)表示当前样本到其他目标样本的距离,计算过程中需要用到的其他特征数据子集通过调用广播函数MPI_Bcast传入。
进一步的,在进行广播前,需调用MPI_Comm_split函数将原始通信域划分成q个独立的通信域,即每个特征数据列所对应的进程为一个独立的通信域,然后将计算好的包括样本编号,特征名称信息,与近邻样本的距离信息在内的结果通过MPI_Gatherv函数收集到进程0,在进程0中通过加法运算即得到ML-KNN算法中所需的近邻矩阵N(xj)。
本发明的优点及有益效果如下:
本发明基于并行编程模型MPI将多标签文本数据的预处理、特征提取以及ML-KNN算法分类三个过程并行化,相比传统的串行方法,极大的提高了效率。值得一提的是,在数据的划分方面,相比其他并行方案的只以样本为单位划分,提出了一种新的针对文本数据的划分方法,即既可以以样本为单位划分,又可以以特征为单位划分,使得本发明在处理高维数据的时候,具有更大的优势。
附图说明
图1是本发明提供优选实施例是基于MPI的ML-KNN多标签中文文本分类流程图;
图2是基于MPI并行化的数据预处理流程图;
图3是基于MPI并行化的文本特征提取流程图;
图4是基于MPI并行化的文本向量化流程图;
图5是基于MPI的ML-KNN多标签学习算法并行—数据划分图;
图6是基于MPI的ML-KNN多标签学习算法并行—距离计算图;
图7是基于MPI的ML-KNN多标签学习算法并行—近邻矩阵求取;
图8是基于MPI的ML-KNN多标签学习算法并行—预测流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明根据ML-KNN算法的特点,在MPI并行编程模型下并行化的实现了文本分类的每个步骤。包括文本数据预处理,文本特征提取及向量化,ML-KNN算法并行和分类几个部分。本发明具体按以下步骤实施:
(1)数据预处理。其中包括分词、去停用词、低频词三个部分。
(2)特征提取与向量化。包括词频统计,特征词汇表的构建,滤除不在特征词汇表中的词汇,计算特征词汇的IDF值,文档向量化,特征提取的目的是筛选出区分能力最强,最具有代表性的特征,向量化的目的是为了适应机器学习算法,即本发明中的ML-KNN算法。
(3)ML-KNN算法的并行化与分类。基于并行编程模型MPI将传统的ML-KNN算法并行,在保证精度的情况下提升分类的效率。
基于MPI的ML-KNN多标签中文文本分类流程如图1所示,下面将结合其他的附图对本发明的具体过程作进一步阐述。
1.数据预处理
此步骤是对训练集和待预测数据集中的所有文本进行处理,包括分词,去停用词,去低频词三个部分。分词是将原始文本中的中文句子按照一定的规范重新组合成词序列的过程;去除停用词是根据停用词汇表删除对分类没有意义的停用词汇,如:“啊”、“的”、“我”。低频词是指某些单词只在极少的文本中出现过,如一两个文本中出现,这样的词留在集合中会导致大部分文本样本在该特征词汇下的值为0,所以需要将这些低频词过滤掉。
在此步骤,文本数据的格式为:每行为一个样本(文本),包含文本名和文本内容。如图2所示,假设现有计算资源:p*q个进程(MPI以进程为单位)。首先进程0读入数据并将数据集以行为单位均匀划分成p*q个互不相交子集,再通过MPI_Send函数将划分好的子集传入p*q个进程中,且要求传入每个进程中的子集不相同,各个进程通过MPI_Recv函数接收子集,即每个进程中有且只有唯一的子集。其次,在每个进程中对其相应的子集进行分词,去除分词结果中包含在停用词汇表中的停用词并进行词频统计与去除低频词操作,待这些操作全部完成后,每个进程将其处理后的结果通过MPI_Gatherv函数收集到进程0,在进程0中进行合并得到预处理后的数据。
训练集和待预测数据集在此步骤是一致的,但此步骤中待预测数据集的中间结果将用于待预测数据集的向量化,而训练集的中间结果则是用于特征的提取。
2.特征的提取与向量化
本步骤中的特征的提取只针对训练集,具体做法是将预处理后的训练集进行词频统计,将在训练集中出现次数大于某个阈值T(本发明取值为5)的单词加入特征词汇表,并计算特征词汇表中的每个单词的IDF值。
在此步骤,输入是预处理后的训练数据集,其内容包括:文本名,文本分词后产生的词序列。如图3所示,与步骤1的划分方式相似,将预处理后的训练集以样本为单位均匀划分成p*q个互不相交子集传入p*q个进程,即每个进程有且只有唯一的子集,发送节点调用MPI_Send函数,接收节点调用MPI_Recv函数。在每个进程中,对与之相对应的子集进行词频统计操作,然后将统计后的结果通过MPI_Reduce函数归约求和,结果保存到进程0,返回的统计结果包括:该子集中所有的单词及该单词在该子集中出现的次数,该子集中的文档名以及该文档的单词个数。
进程0将每个进程返回的结果通过设置阈值的方式,选出词频超过阈值的单词,用以生成特征词汇表,本发明在此步骤阈值设置为5。再将特征词汇表通过MPI_Bcast函数广播至每个进程,在每个进程中,对每个特征词汇表中的单词,统计单词在不同的文档中出现的次数以及在每个文档中出现的次数,再通过MPI_Reduce函数将统计结果归约至进程0,得到总的该单词在不同文档中出现的次数以及在每个文档中出现的次数。然后通过汇总的两个值计算出每个单词的IDF值以及每个单词在文档中的词频TF,将含有IDF值和TF值的特征词汇表通过MPI_Bcast函数广播至各个进程,再在各个进程中求出与该进程相对应文档中单词的TF-IDF值,实现文档的向量化。最后,通过MPI_Gatherv函数将各进程向量化后的文档收集至进程0,如图4所示。
本过程中的文档向量化部分,训练集和待预测数据集保持一致。
3.ML-KNN的并行化与分类
本步骤将传统的多标签学习算法ML-KNN并行,以高效的对多标签文本进行分类。对于数据集的划分如图5所示,首先将训练数据集以特征为单位均匀划分成p个特征数据列,再将每个特征数据列均与划分成q个特征数据子集,则原数据集被划分成了p*q个特征数据子集。
将划分好的特征数据子集通过MPI_Send函数传入p*q个进程中,各个进程通过MPI_Recv函数接收,每个进程有且只有一个特征数子集。如图6所示,在每个进程中,对与之相对应的数据子集进行距离运算,距离计算公式使用的距离公式dist(a,b)=a*b+b2,为了并行的计算距离,同时提高计算效率。
其中a为当前样本的特征向量,b为目标样本的特征向量。Dist(a,b)表示当前样本到其他目标样本的距离。
阐述的距离公式。在对每个特征数据子集的距离运算中,需要用到该特征子集所在特征数据列的全部数据,本发明采用了与存储了该特征数据列数据的所有进程通过MPI_Bcast函数互相广播的方案,需要注意的是该方案需要先将存储该特征数据列的进程集合划分成一个独立的通信域,即有p个独立的通信域,再在每个通信域中进行广播。如图7所示。每个进程计算出不完整的距离值后,将结果使用MPI_Reduce函数归约求和到进程0,返回结果包括:文本名称,与其他样本的不完整距离向量。进程0再将返回的结果按样本为单位整合,得到距离矩阵。例如:样本A和样本B的特征被分到了p个进程中,在p个进程中分别计算了一次样本A到样本B的不完整距离,返回给了进程0p个不完整距离,只需将这p个不完整距离相加,即可得到真实的样本A到样本B的距离的度量。
利用求出距离矩阵,就可以求出每个样本的K个最近邻样本,由此得到近邻矩阵。近邻矩阵的求取待预测数据集与训练集是一致的。如图8所示,利用训练集的近邻矩阵N(xj)和多标签文本的标签信息,通过原始ML-KNN算法中的公式,即可求出先验概率
Figure BDA0001209501790000091
和后验概率
Figure BDA0001209501790000092
对每个测试样本来说,通过与训练集一致的方式求出待预测数据集的近邻矩阵N(t),可进而求出
Figure BDA0001209501790000093
将其代入训练集的后验概率
Figure BDA0001209501790000094
中求得测试样本后验概率
Figure BDA0001209501790000095
进而求出测试样本对于标签l的概率Pt,l(b),其计算方式如下:
Figure BDA0001209501790000096
其中b∈{0,1},Pt,l(1)表示测试样本t具有标签l的概率,Pt,l(0)表示测试样本t不具有标签l的概率。若Pt,l(1)大于Pt,l(0),则测试样本t对于标签l,其值被判定为1;若Pt,l(1)小于Pt,l(0),则测试样本t对于标签l,其值被判定为0。对待预测数据集中的所有样本重复上述步骤即可求出待预测数据集的标签集合。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,包括以下步骤:
1)对训练集和待预测数据集中的所有文本进行预处理,包括分词,去停用词及去低频词在内的步骤;
2)对预处理后的训练集进行特征词汇提取得到特征词汇表,再根据特征词汇表对训练集和待预测数据集作文本矢量化表示;
3)构造分类器并分类:首先基于并行编程模型MPI将ML-KNN算法并行,然后使用训练集对并行后的ML-KNN分类器进行训练,最后使用训练好的ML-KNN分类器对待预测文本数据集进行分类,得到待预测文本数据集分类结果;
步骤3)将ML-KNN分类器并行化的步骤包括:
首先将训练数据集以特征为单位均匀划分成p个特征数据列,再将每个特征数据列均匀划分成q个特征数据子集,则原数据集被划分成了p*q个特征数据子集;
将划分好的特征数据子集通过MPI_Send函数传入p*q个进程中,各个进程通过MPI_Recv函数接收,每个进程有且只有一个特征数子集,数据子集进行距离运算,再进行训练集特征矩阵的划分,得到近邻矩阵N(xj);
将由人工标记的训练集标签信息传入进程0,在进程0中计算先验概率
Figure FDA0002372860560000011
同时利用得到的近邻矩阵N(xj)计算出后验概率
Figure FDA0002372860560000012
xj表示矩阵的特征值,H 表示没有训练数据时的事件,b表示标签l的个数,E表示训练数据;
进而求出测试样本t对于标签l的概率Pt,l(b)以及t是否含有标签l。
2.根据权利要求1所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,所述步骤1)中的分词步骤是将原始文本中的中文句子按照一定的规范重新组合成词序列的过程;去除停用词的步骤是根据停用词汇表删除对分类没有意义的停用词汇;去除低频词的步骤是指去掉某些只在极少的文本中出现过的单词,这样的词留在集合中会导致大部分文本样本在该特征词汇下的值为0。
3.根据权利要求1或2所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,步骤2)特征的提取只针对训练集,具体做法是将预处理后的训练集进行词频统计,将在训练集中出现次数大于设定阈值T的单词加入特征词汇表,并计算特征词汇表中的每个单词的IDF值以及每个单词在文档中的词频TF,将含有IDF值和TF值的特征词汇表通过MPI_Bcast函数广播至各个进程,再在各个进程中求出与该进程相对应文档中单词的TF-IDF值,实现文档的向量化表示。
4.根据权利要求1所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,使用的距离公式为:
dist(a,b)=a*b+b2
其中a为当前样本的特征向量,b为目标样本的特征向量,dist(a,b)表示当前样本到其他目标样本的距离,计算过程中需要用到的其他特征数据子集通过调用广播函数MPI_Bcast传入。
5.根据权利要求4所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,在进行广播前,需调用MPI_Comm_split函数将原始通信域划分成q个独立的通信域,即每个特征数据列所对应的进程为一个独立的通信域,然后将计算好的包括样本编号,特征名称信息,与近邻样本的距离信息在内的结果通过MPI_Gatherv函数收集到进程0,在进程0中通过加法运算即得到ML-KNN算法中所需的近邻矩阵N(xj)。
CN201710026254.4A 2017-01-13 2017-01-13 一种基于mpi的ml-knn多标签中文文本分类方法 Active CN106886569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710026254.4A CN106886569B (zh) 2017-01-13 2017-01-13 一种基于mpi的ml-knn多标签中文文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710026254.4A CN106886569B (zh) 2017-01-13 2017-01-13 一种基于mpi的ml-knn多标签中文文本分类方法

Publications (2)

Publication Number Publication Date
CN106886569A CN106886569A (zh) 2017-06-23
CN106886569B true CN106886569B (zh) 2020-05-12

Family

ID=59176400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710026254.4A Active CN106886569B (zh) 2017-01-13 2017-01-13 一种基于mpi的ml-knn多标签中文文本分类方法

Country Status (1)

Country Link
CN (1) CN106886569B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526805B (zh) * 2017-08-22 2019-12-24 杭州电子科技大学 一种基于权重的ML-kNN多标签中文文本分类方法
CN107748783A (zh) * 2017-10-24 2018-03-02 天津大学 一种基于句向量的多标签公司描述文本分类方法
CN107679244A (zh) * 2017-10-30 2018-02-09 中国联合网络通信集团有限公司 文本分类方法及装置
CN107832456B (zh) * 2017-11-24 2021-11-26 云南大学 一种基于临界值数据划分的并行knn文本分类方法
CN108108251B (zh) * 2017-11-30 2021-07-20 重庆邮电大学 一种基于MPI并行化的参考点k近邻分类方法
CN108111294B (zh) * 2017-12-13 2021-05-25 南京航空航天大学 一种基于ML-kNN的保护隐私的多标记分类方法
CN108287911B (zh) * 2018-02-01 2020-04-24 浙江大学 一种基于约束化远程监督的关系抽取方法
CN108804718B (zh) * 2018-06-11 2021-12-14 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109783636B (zh) * 2018-12-12 2023-03-28 重庆邮电大学 一种基于分类器链的汽车评论主题提取方法
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN110362043A (zh) * 2019-05-29 2019-10-22 贵州电网有限责任公司 一种调度运行信息稀疏编码方法、系统和可读存储介质
CN111177369A (zh) * 2019-11-19 2020-05-19 厦门二五八网络科技集团股份有限公司 一种文章自动标签分类的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102707955A (zh) * 2012-05-18 2012-10-03 天津大学 采用MPI和OpenMP编程实现支持向量机方法
CN104899596A (zh) * 2015-03-16 2015-09-09 景德镇陶瓷学院 一种多标签分类方法及其装置
CN105183813A (zh) * 2015-08-26 2015-12-23 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805845B1 (en) * 2013-07-31 2014-08-12 LinedIn Corporation Framework for large-scale multi-label classification
US10325220B2 (en) * 2014-11-17 2019-06-18 Oath Inc. System and method for large-scale multi-label learning using incomplete label assignments

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102707955A (zh) * 2012-05-18 2012-10-03 天津大学 采用MPI和OpenMP编程实现支持向量机方法
CN104899596A (zh) * 2015-03-16 2015-09-09 景德镇陶瓷学院 一种多标签分类方法及其装置
CN105183813A (zh) * 2015-08-26 2015-12-23 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Review on Multi-Label Learning Algorithms;Min-Ling Zhang et al.;《IEEE》;20140831;全文 *
ML-KNN:A lazy learning approach to multi-label learning;Zhang Min Ling et al.;《Pattern Recognition》;20071231;全文 *
基于Spark的Apriori并行算法优化实现;王青 等;《万方数据》;20170107;全文 *

Also Published As

Publication number Publication date
CN106886569A (zh) 2017-06-23

Similar Documents

Publication Publication Date Title
CN106886569B (zh) 一种基于mpi的ml-knn多标签中文文本分类方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
Zhai et al. The emerging" big dimensionality"
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN106874292B (zh) 话题处理方法及装置
CN106407406B (zh) 一种文本处理方法和系统
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
JP2012042990A (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN112749326A (zh) 信息处理方法、装置、计算机设备及存储介质
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN114117213A (zh) 一种推荐模型训练、推荐方法、装置、介质和设备
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN114328919A (zh) 文本内容分类方法、装置、电子设备及存储介质
CN106886613B (zh) 一种并行化的文本聚类方法
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN103970888A (zh) 基于网络度量指标的文档分类方法
CN111831819A (zh) 一种文本更新方法及装置
Chen et al. See more for scene: Pairwise consistency learning for scene classification
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230328

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240514

Address after: 116000, No. 2 Linggong Road, Lingshui Town, Dalian High tech Industrial Park, Dalian, Liaoning Province

Patentee after: Dalian University of Technology Press Co.,Ltd.

Country or region after: China

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

Country or region before: China