CN105512277B - 一种面向图书市场书名的短文本聚类方法 - Google Patents

一种面向图书市场书名的短文本聚类方法 Download PDF

Info

Publication number
CN105512277B
CN105512277B CN201510886332.9A CN201510886332A CN105512277B CN 105512277 B CN105512277 B CN 105512277B CN 201510886332 A CN201510886332 A CN 201510886332A CN 105512277 B CN105512277 B CN 105512277B
Authority
CN
China
Prior art keywords
cluster
text data
term vector
feature words
data term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510886332.9A
Other languages
English (en)
Other versions
CN105512277A (zh
Inventor
李欢
孙阳
刘海星
张立
尤树林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chemical Industry Press
Beijing University of Aeronautics and Astronautics
Original Assignee
Chemical Industry Press
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chemical Industry Press, Beijing University of Aeronautics and Astronautics filed Critical Chemical Industry Press
Priority to CN201510886332.9A priority Critical patent/CN105512277B/zh
Publication of CN105512277A publication Critical patent/CN105512277A/zh
Application granted granted Critical
Publication of CN105512277B publication Critical patent/CN105512277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向图书市场书名的短文本聚类方法,包括:对文本数据及设定的聚类关键词进行词向量化,计算文本数据词向量到所述聚类关键词向量的距离,根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据的聚类类型,根据所述文本数据的聚类类型将所述文本数据划分到对应的聚类集合;计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频‑逆向文件频率TF‑IDF值,确定TF‑IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词;根据所述更新后的聚类关键词确定所述文本数据的聚类类型。采用本发明实施例提供的方法,能够更加准确地确定文本数据的聚类类型,使聚类结果能够更接近用户的实际需求。

Description

一种面向图书市场书名的短文本聚类方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种面向图书市场书名的短文本聚类方法。
背景技术
随着在互联网对传统行业的深度改造,互联网电子商务网站迅速发展,网上购物成了潮流。电商网站拥有海量的商品。由于网上的商品信息错综复杂,分类繁琐,更新比率快,对商品进人工标注往往会耗费大量的人力,因此自动化的将商品进行分类成为了电商的基本需求。针对于商品的分类,国内外往往采用数据挖掘的方法进行操作。
现有技术中,通常采用K均值(K-means)聚类算法对商品进行分类。K-means算法是无监督聚类算法,是基于数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。例如,在短文本聚类领域,针对书籍名称进行聚类时,通过K-means算法随机选定k个聚类关键词,计算每个书籍名称相对于选定聚类关键词的距离,选取距离最小的聚类关键词作为书籍名称的类,根据每一类中书籍名称的平均值,重新计算每个聚类关键词,重复进行以上过程,直到每个类中的书籍名称不再变化。
但是,采用传统的k-means聚类算法,聚类关键词的数目不可预测,且采用不同的初始聚类关键词得到的聚类结果往往会有较大偏差,如果聚类关键词选择了密集数据的边缘区域或者噪声数据,会对聚类结果造成极大影响。
发明内容
本发明实施例提供一种面向图书市场书名的短文本聚类方法,用于解决现有技术中的聚类方法不能准确地对图书市场书名进行聚类的问题。
本发明实施例提供一种面向图书市场书名的短文本聚类方法,包括:
对文本数据及设定的聚类关键词进行词向量化,形成文本数据词向量及聚类关键词向量;
计算文本数据词向量到所述聚类关键词向量的距离;
根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型,根据所述文本数据词向量的聚类类型将所述文本数据词向量划分到对应的聚类集合;
计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率,以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率,得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值;
确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词;
根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。
另一实施例中,所述计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的词频,以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率,得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值,包括:
根据TF×IDF得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值,其中,TF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率,IDF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合外的其它聚类集合中的出现频率,nik为第i个聚类集合中包含特征词k的文本数据词向量的数量,Si为第i个聚类集合中的文本数据词向量的总数,n~ik为在第i个聚类集合之外的其它聚类集合中包含特征词k的文本数据词向量的数量,S~i为在第i个聚类集合之外的其它聚类集合中的文本数据词向量的总数;i和k为大于等于1的整数。
另一实施例中,所述计算所述文本数据词向量到所述聚类关键词向量的距离包括:
根据计算第m个文本数据词向量到第n个聚类关键词向量的距离,其中,cm表示所述第m个文本数据词向量,cn表示所述第n个聚类关键词向量,m及n为大于等于1的整数。
另一实施例中,所述根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型包括:确定与所述文本数据词向量相距距离最小的聚类关键词为所述文本数据词向量的聚类类型。
另一实施例中,所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词包括:
将TF-IDF值最大的前五个特征词作为所述第i个聚类集合更新后的聚类关键词。
另一实施例中,所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词之前,还包括:对所述第i个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值进行排序,去除所述设定的聚类关键词中已经包括在所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词。
另一实施例中,所述设定阈值大于等于10。
另一实施例中,所述设定的聚类关键词有多个,所述多个聚类关键词之间具有语义上的互斥关系。
本发明实施例提供的一种面向图书市场书名的短文本聚类方法,通过对文本数据及设定的聚类关键词进行词向量化,计算文本数据词向量到所述聚类关键词向量的距离,根据根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型,根据所述文本数据的聚类类型将所述文本数据词向量划分到对应的聚类集合;然后计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值,确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词;根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。采用本发明实施例提供的短文本聚类方法,根据用户需求提前设定所述聚类关键词的数量及内容的初始值,并使用改进的TF-IDF算法,体现出特征词在不同聚类中的重要性,能够更加准确地确定文本数据词向量的聚类类型,使聚类结果能够更接近用户的实际需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种面向图书市场书名的短文本聚类方法的流程示意图。
图2为本发明实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着互联网电子商务网站的迅速发展,将商品进行自动化分类成为了互联网电子商务网站的基本需求。针对于商品的分类,现有技术通常采用K均值(K-means)聚类算法对商品进行分类。但是,传统的k-means聚类算法,聚类关键词的数目不可预测,且采用不同的初始聚类关键词得到的聚类结果往往会有较大偏差,如果聚类关键词选择了密集数据的边缘区域或者噪声数据,会对聚类结果造成极大影响。
基于此,本发明实施例提供一种短文本聚类方法,用于对大量的文本数据进行分类。本发明实施例提供的短文本聚类方法基于设置初始聚类关键词向量及聚类关键词向量的扩展算法,有效的提高了K-MEANS算法在短文本聚类时的准确率,使聚类结果更接近于使用者的实际需求。
图1为本发明实施例一种面向图书市场书名的短文本聚类方法的流程示意图。图2为本发明实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意图。请参阅图1及图2,所述方法包括:
S101:对文本数据及设定的聚类关键词进行词向量化,形成文本数据词向量及聚类关键词向量;
具体地,所述设定的聚类关键词有多个,所述多个聚类关键词之间具有语义上的互斥关系。例如,计算机,数学,化学。所述设定的聚类关键词的数量及内容由用户输入。
将所述设定的聚类关键词向量化,将每个聚类关键词转化为一个聚类关键词向量,所述聚类关键词向量使用HASHSET数据结构存储。
对于数据库中的每一条文本数据,首先使用结巴分词开源库将所述文本数据进行最大化分词。对于分词后的结果,只保留名词与动词,将其他连词,介词等无法作为特征词的分词结果舍掉,并将所述文本数据进行词向量化,形成文本数据词向量,使用HASHSET数据结构存储。
S102:计算文本数据词向量到所述聚类关键词向量的距离;
计算每一条文本数据词向量与所述聚类关键词向量之间的距离,遍历每一条文本数据词向量中的每一个特征词,在所述聚类关键词向量中查询是否存在所述特征词,若存在,则所述文本数据词向量与所述聚类关键词向量点积加1。
具体地,根据计算第m个文本数据词向量到第n个聚类关键词向量的距离,其中,cm表示所述第m个文本数据词向量,cn表示所述第n个聚类关键词向量,m及n为大于等于1的整数。
S103:根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型,根据所述文本数据的聚类类型将所述文本数据词向量划分到对应的聚类集合;
具体地,确定与所述第m个文本数据词向量相距距离最小的聚类关键词为第m个文本数据的聚类类型。在数据库中将所述第m个文本数据词向量对应的第m个文本数据标记为对应的聚类。若所述第m个文本数据词向量与各聚类关键词向量的距离均为1,则表示所述第m个文本数据不属于任何一个类型。
S104:计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的词频,以及所述聚类集合中的所有文本数据词向量中的特征词在所述第i个聚类集合之外的其它聚类集合中的逆向文件频率,得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率(TermFrequency–Inverse Document Frequency,TF-IDF)值;
具体地,根据TF×IDF得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值,其中,TF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率,IDF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合外的其它聚类集合中的出现频率,nik为第i个聚类集合中包含特征词k的文本数据词向量的数量,Si为第i个聚类集合中的文本数据词向量的总数,n~ik为在第i个聚类集合之外的其它聚类集合中包含特征词k的文本数据词向量数量,S~i为在第i个聚类集合之外的其它聚类集合中的文本数据词向量的总数;i和k为大于等于1的整数。所述IDF值反映了特征词在不同聚类中的重要性,能够更加准确地确定文本数据的聚类类型。
在所述步骤S104之后,对所述第i个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值进行排序,去除所述设定的聚类关键词中已经包括在所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词,以保证选定的特征词的可靠性。例如,所述设定阈值可以大于等于10。所述第i个聚类集合中的文本数据词向量中的特征词的TF-IDF值越大,说明所述特征词的区分度越高。如果所述第i个聚类集合中的文本数据词向量中的特征词的TF-IDF值等于零,则说明所述特征词没有区分度,则舍弃所述特征词。
S105:确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词;
具体地,经过步骤S104中对所述特征词的TF-IDF值进行排序后,将TF-IDF值最大的前五个特征词作为所述第i个聚类集合更新后的聚类关键词。
S106:根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。
重复上述步骤S101-S106,直到每个聚类集合中的文本数据词向量不再改变,对所述文本数据的聚类过程结束,数据库中对各个文本数据标记的聚类类型即为所述各个文本数据对应的聚类。
本发明实施例提供的一种面向图书市场书名的短文本聚类方法,通过对文本数据及设定的聚类关键词进行词向量化,计算文本数据词向量到所述聚类关键词向量的距离,根据根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据的聚类类型,根据所述文本数据的聚类类型将所述文本数据划分到对应的聚类集合;然后计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值,确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词;根据所述更新后的聚类关键词确定所述文本数据的聚类类型。采用本发明实施例提供的一种面向图书市场书名的短文本聚类方法,根据用户需求提前设定所述聚类关键词的数量及内容的初始值,并使用改进的TF-IDF算法,体现出特征词在不同聚类中的重要性,能够更加准确地确定文本数据的聚类类型,使聚类结果能够更接近用户的实际需求。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种面向图书市场书名的短文本聚类方法,其特征在于,包括:
根据用户需求提前设定聚类关键词的数量及内容的初始值,对文本数据及设定的聚类关键词进行词向量化,形成文本数据词向量及聚类关键词向量;所述设定的聚类关键词有多个,多个聚类关键词之间具有语义上的互斥关系;
计算文本数据词向量到所述聚类关键词向量的距离;
根据计算第m个文本数据词向量到第n个聚类关键词向量的距离,其中,cm表示所述第m个文本数据词向量,cn表示所述第n个聚类关键词向量,m及n为大于等于1的整数;
根据每个文本数据词向量到所述聚类关键词向量的距离,确定所述文本数据词向量的聚类类型;根据所述文本数据词向量的聚类类型,将所述文本数据词向量划分到对应的聚类集合;
计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率,以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率,得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值;
对第i个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值进行排序,去除所述设定的聚类关键词中已经包括在所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词;i为大于等于1的整数;
确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词;
根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型;
所述计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率,以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率,得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值,包括:
根据TF×IDF得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值,其中,TF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率,IDF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合外的其它聚类集合中的出现频率,nik为第i个聚类集合中包含特征词k的文本数据词向量的数量,Si为第i个聚类集合中的文本数据词向量的总数,n~ik为在第i个聚类集合之外的其它聚类集合中包含特征词k的文本数据词向量的数量,S~i为在第i个聚类集合之外的其它聚类集合中的文本数据词向量的总数;i和k为大于等于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述根据每个文本数据词向量到所述聚类关键词向量的距离,确定所述文本数据词向量的聚类类型包括:确定与所述文本数据词向量相距距离最小的聚类关键词向量为所述文本数据词向量的聚类类型。
3.根据权利要求1所述的方法,其特征在于,所述确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词包括:
将TF-IDF值最大的前五个特征词作为所述第i个聚类集合更新后的聚类关键词。
4.根据权利要求1所述的方法,其特征在于,所述设定阈值大于等于10。
CN201510886332.9A 2015-12-04 2015-12-04 一种面向图书市场书名的短文本聚类方法 Active CN105512277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510886332.9A CN105512277B (zh) 2015-12-04 2015-12-04 一种面向图书市场书名的短文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510886332.9A CN105512277B (zh) 2015-12-04 2015-12-04 一种面向图书市场书名的短文本聚类方法

Publications (2)

Publication Number Publication Date
CN105512277A CN105512277A (zh) 2016-04-20
CN105512277B true CN105512277B (zh) 2019-09-20

Family

ID=55720259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510886332.9A Active CN105512277B (zh) 2015-12-04 2015-12-04 一种面向图书市场书名的短文本聚类方法

Country Status (1)

Country Link
CN (1) CN105512277B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153781A (zh) * 2016-12-05 2018-06-12 北京国双科技有限公司 提取业务领域的关键词的方法和装置
CN106970988A (zh) 2017-03-30 2017-07-21 联想(北京)有限公司 数据处理方法、装置及电子设备
CN107943982B (zh) * 2017-11-30 2020-08-21 鼎富智能科技有限公司 内置约束规则的k-means文本聚类方法及装置
CN109766437A (zh) * 2018-12-07 2019-05-17 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN110288004B (zh) * 2019-05-30 2021-04-20 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
CN111782812A (zh) * 2020-07-06 2020-10-16 河北工程大学 K-Means文本聚类方法、装置及终端设备
CN113239687B (zh) * 2021-05-08 2024-03-22 北京天空卫士网络安全技术有限公司 一种数据处理方法和装置
CN114021676B (zh) * 2021-11-04 2023-11-17 海信集团控股股份有限公司 图书管理方法、服务器、终端及书架

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN103473218A (zh) * 2013-09-04 2013-12-25 盈世信息科技(北京)有限公司 一种电子邮件分类方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN103473218A (zh) * 2013-09-04 2013-12-25 盈世信息科技(北京)有限公司 一种电子邮件分类方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于K_Means的文本聚类算法研究;周尧;《中国优秀硕士学位论文全文数据库信息科技辑》;20150115;论文第26页第7段,第31页第6段,第49页第3段-第51页第1段,第54页第1段-57页第4段,图4.2、图4.15、图5.5 *
文本分类中TF-IDF方法的改进研究;覃世安,李法运;《现代图书情报技术》;20131015;28页右栏第4段-29页右栏第5段 *

Also Published As

Publication number Publication date
CN105512277A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN105512277B (zh) 一种面向图书市场书名的短文本聚类方法
Abualigah et al. Text feature selection with a robust weight scheme and dynamic dimension reduction to text document clustering
WO2019218508A1 (zh) 一种基于主题情感联合概率的电子商务虚假评论识别方法
Daumé et al. Search-based structured prediction
US8918348B2 (en) Web-scale entity relationship extraction
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
US9092734B2 (en) Systems and methods for interactive displays based on associations for machine-guided rule creation
CN107220311B (zh) 一种利用局部嵌入话题建模的文本表示方法
US9117174B2 (en) System for efficiently generating K-maximally predictive association rules with a given consequent
US20160321357A1 (en) Discovery informatics system, method and computer program
CN106599148A (zh) 一种文摘生成方法及装置
Fitriyani et al. The K-means with mini batch algorithm for topics detection on online news
CN108664512B (zh) 文本对象分类方法及装置
Shivashankar et al. Multi-view methods for protein structure comparison using latent dirichlet allocation
CN108776709A (zh) 计算机可读存储介质及词典更新方法
Sun et al. Feature-frequency–adaptive on-line training for fast and accurate natural language processing
Du et al. Topic modeling with document relative similarities
CN102693321A (zh) 一种跨媒体间信息分析与检索的方法
Sanchez-Gomez et al. A multi-objective memetic algorithm for query-oriented text summarization: Medicine texts as a case study
CN112417082B (zh) 一种科研成果数据消歧归档存储方法
Zhao et al. Entropy-aware self-training for graph convolutional networks
KR101246101B1 (ko) 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
JP2010267017A (ja) 文書分類装置、文書分類方法および文書分類プログラム
Sharma et al. A trend analysis of significant topics over time in machine learning research
Lioma et al. Exploiting the bipartite structure of entity grids for document coherence and retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant