CN110413777A - 一种对长文本生成特征向量实现分类的系统 - Google Patents

一种对长文本生成特征向量实现分类的系统 Download PDF

Info

Publication number
CN110413777A
CN110413777A CN201910608140.XA CN201910608140A CN110413777A CN 110413777 A CN110413777 A CN 110413777A CN 201910608140 A CN201910608140 A CN 201910608140A CN 110413777 A CN110413777 A CN 110413777A
Authority
CN
China
Prior art keywords
word
participle
text
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910608140.XA
Other languages
English (en)
Inventor
龙凌云
张华�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hongyi Software Technology Co Ltd
Original Assignee
Shanghai Hongyi Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hongyi Software Technology Co Ltd filed Critical Shanghai Hongyi Software Technology Co Ltd
Priority to CN201910608140.XA priority Critical patent/CN110413777A/zh
Publication of CN110413777A publication Critical patent/CN110413777A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种对长文本生成特征向量实现分类的系统,包括:数据预处理模块、计算词向量模块,高维聚类模块,长文本分类模块。通过数据预处理模块,删除冗余无效数据,减少数据复杂度与处理维度,提高性能及结果精确度。计算词向量模块基于改进的动态维度的Skip‑Gram算法,计算词向量,然后通过高维聚类模块,对词向量进行聚类。长文本分类模块根据聚类结果,实现对长文本的分类。

Description

一种对长文本生成特征向量实现分类的系统
技术领域
本发明涉及互联网技术领域,为一种对长文本生成特征向量实现分类的系统。
背景技术
随着互联网时代的到来,互联网信息数据正以极快的速度增长。随着大数据的发展,也迫切的需要一种快速、大量、稳定获取互联网信息的方法,因此网络信息提取系统有着非常广泛的应用前景。传统的网络信息提取方法大多是基于页面的静态分析,提取页面中的链接标签,从而获取其他页面的链接。这些网络信息提取系统主要针对企业级用户,功能单一,且不够灵活易用。基于分布式网络的网络信息提取系统的稳定性也较差,系统工作依赖于主节点,一旦主节点异常,整个网络提取系统就会瘫痪。而且由于每个从节点都要与主节点进行通信,资源分配的方式是按顺序分配,缺乏统一的资源调度,导致系统性能较差。
发明内容
有鉴于此,本发明提供一种解决或部分解决上述问题的,一种对长文本生成特征向量实现分类的系统。
为达到上述技术方案的效果,本发明的技术方案为:一种对长文本生成特征向量实现分类的系统,包含以下步骤:
数据预处理模块(S1),包括所述分词处理模块(S1-1)、所述去除文本无关词模块(S1-2);首先将原始的文本数据基于Trie树进行分词处理,然后去除文本无关词,分别对高词频分词和低词频分词进行不同的处理,去除高词频分词中无意义的虚词、介词、代词等停用词,对低词频分词进行文本关联度计算,当低词频分词与文档关联度的计算值小于设定的阈值,将该词从文本的分词数据表中去除,得到与文本内容相关且有意义的有效分词数据表,从而减少数据复杂度与处理维度,提高性能及结果精确度;
分词处理模块(S1-1)接收用户输入的原始的文本数据,并将所述分词处理模块(S1-1)的处理数据输入到所述去除文本无关词模块(S1-2);所述分词处理模块(S1-1)基于Trie树结构,以模糊方式进行分词,生成原始的文本中汉字所有可能的成词情况的向量表,然后结合分词字典中的分词词频概率值与基于动态查找的最大概率路径,计算文本中的成词概率,将原始的文本按成词概率进行分词,并记录分词的词频结果,该结果作为所述去除文本无关词模块 (S1-2)的输入;
去除文本无关词模块(S1-2),将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表,将高词频分词数据表中的数据与高频无效词字典进行分词匹配,匹配时采用交叉匹配的方法,减少了匹配的复杂度,当匹配成功时,即判定该词为文本无关词,将其从文本分词结果中去除;对于低频分词数据表,基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性,当相关性低于阈值时,认为分词与文本内容的相关性较低,将其作为文本无关词从文本分词中去除;
计算词向量模块(S2),接收经所述数据预处理模块(S1)处理过的数据,计算分词向量,步骤如下:
S2-1、将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表;
S2-2、将高词频分词数据表中的数据与高频无效词字典进行分词匹配,匹配时采用交叉匹配的方法,减少了匹配的复杂度,当匹配成功时,即判定该词为文本无关词,将其从文本分词结果中去除;
S2-3、对于低频分词数据表,基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性,当相关性低于阈值时,认为分词与文本内容的相关性较低,将其作为文本无关词从文本分词中去除;
S2-4、基于改进的动态维度的Skip-Gram算法,根据文本分词数据量的大小动态选择词向量维度,生成一棵当前维度的霍夫曼树和目标优化函数,然后计算分词向量的余弦距离;
S2-5、然后将词向量维度变为原来的一半,再次计算当前维度的霍夫曼树、目标优化函数和该维度下的余弦距离;
S2-6、结合两个余弦距离表,将同一分词的两次结果的平均值作为分词的余弦计算值,从而得到二维空间的分词向量;
高维聚类模块(S3),接收所述计算词向量模块(S2)生成的分词向量表,对其进行聚类,包括以下步骤:
S3-1、将分词表中的分词随机排序,并进行二等分,依次从分词表一和分词表二中选取前n个分词作为聚类算法的初始化中心点;
S3-2、依次计算两个分词表中每个词向量到中心点的距离,然后以该距离作为该词向量的加权概率因子,从分词表一中再选取一个新的中心点,加入中心点集合,依次重复该步骤;
S3-3、当聚类数量达到预期数量k时,或者最小平方误差小于设定值e时,停止聚类;
S3-4、依次计算两个分词表中,每个词向量到中心点的距离,选择距离聚类中心最近的m个词;
S3-5、将上述步骤中选择的2m个词,作为整体分词表聚类的中心点,计算表中所有词向量到该点的距离,并选择出最小距离,当距离小于聚类阈值时,该词向量属于该聚类中心,当距离大于聚类阈值时,则形成一个新的聚类中心;
S3-6、重复上述步骤,直到聚类数据不再有变化,停止循环,选择距离聚类中心最近的k个词作为关键词;
长文本分类模块(S4),接收一个长文本,基于所述高维聚类模块(S3) 生成的关键字和类别标签,并对其进行分类,包括以下步骤:
S4-1、基于TFIDF算法,对长文本生成词序列及对应的TFIDF值;
S4-2、基于高维聚类模块中对词的聚类结果,每个词都有一个从1-1000的类别标签,将其TFIDF值按类别标签映射到1000维向量的对应维度(1-1000),对每个维度每个词语的TFIDF累加,由此生成的1000位向量作为长文本的特征向量表示;
S4-3、对每个分类设定一组样本文本,计算给定文本与给定分类的一组文本的向量夹角余弦平均值,该值作为给定文本和给定分类的相似度值;
S4-4、按相似度值进行分类,对于单分类,将相似度值最大的分类作为返回结果;对于多分类,对每个分类固定一个相似度门槛值,大于门槛值的多个分类作为文本的分类返回结果。
附图说明
图1为一种对长文本生成特征向量实现分类的系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例1:下面将对一一种对长文本生成特征向量实现分类的系统的应用场景举例如下:
一种对长文本生成特征向量实现分类的系统,方法包含以下步骤:
包括:数据预处理模块、计算词向量模块,高维聚类模块,长文本分类模块;
数据预处理模块,包括所述分词处理模块、所述去除文本无关词模块;首先将原始的文本数据基于Trie树进行分词处理,然后去除文本无关词,分别对高词频分词和低词频分词进行不同的处理,去除高词频分词中无意义的虚词、介词、代词等停用词,对低词频分词进行文本关联度计算,当低词频分词与文档关联度的计算值小于设定的阈值,将该词从文本的分词数据表中去除,得到与文本内容相关且有意义的有效分词数据表,从而减少数据复杂度与处理维度,提高性能及结果精确度;
分词处理模块接收用户输入的原始的文本数据,并将所述分词处理模块的处理数据输入到所述去除文本无关词模块;所述分词处理模块基于Trie树结构,以模糊方式进行分词,生成原始的文本中汉字所有可能的成词情况的向量表,然后结合分词字典中的分词词频概率值与基于动态查找的最大概率路径,计算文本中的成词概率,将原始的文本按成词概率进行分词,并记录分词的词频结果,该结果作为所述去除文本无关词模块的输入;
去除文本无关词模块,将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表,将高词频分词数据表中的数据与高频无效词字典进行分词匹配,匹配时采用交叉匹配的方法,减少了匹配的复杂度,当匹配成功时,即判定该词为文本无关词,将其从文本分词结果中去除;对于低频分词数据表,基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性,当相关性低于阈值时,认为分词与文本内容的相关性较低,将其作为文本无关词从文本分词中去除;
计算词向量模块,接收经所述数据预处理模块处理过的数据,计算分词向量,步骤如下:
S2-1、将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表;
S2-2、将高词频分词数据表中的数据与高频无效词字典进行分词匹配,匹配时采用交叉匹配的方法,减少了匹配的复杂度,当匹配成功时,即判定该词为文本无关词,将其从文本分词结果中去除;
S2-3、对于低频分词数据表,基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性,当相关性低于阈值时,认为分词与文本内容的相关性较低,将其作为文本无关词从文本分词中去除;
S2-4、基于改进的动态维度的Skip-Gram算法,根据文本分词数据量的大小动态选择词向量维度,生成一棵当前维度的霍夫曼树和目标优化函数,然后计算分词向量的余弦距离;
S2-5、然后将词向量维度变为原来的一半,再次计算当前维度的霍夫曼树、目标优化函数和该维度下的余弦距离;
S2-6、结合两个余弦距离表,将同一分词的两次结果的平均值作为分词的余弦计算值,从而得到二维空间的分词向量;
高维聚类模块,接收所述计算词向量模块生成的分词向量表,对其进行聚类,包括以下步骤:
S3-1、将分词表中的分词随机排序,并进行二等分,依次从分词表一和分词表二中选取前n个分词作为聚类算法的初始化中心点;
S3-2、依次计算两个分词表中每个词向量到中心点的距离,然后以该距离作为该词向量的加权概率因子,从分词表一中再选取一个新的中心点,加入中心点集合,依次重复该步骤;
S3-3、当聚类数量达到预期数量k时,或者最小平方误差小于设定值e时,停止聚类;
S3-4、依次计算两个分词表中,每个词向量到中心点的距离,选择距离聚类中心最近的m个词;
S3-5、将上述步骤中选择的2m个词,作为整体分词表聚类的中心点,计算表中所有词向量到该点的距离,并选择出最小距离,当距离小于聚类阈值时,该词向量属于该聚类中心,当距离大于聚类阈值时,则形成一个新的聚类中心;
S3-6、重复上述步骤,直到聚类数据不再有变化,停止循环,选择距离聚类中心最近的k个词作为关键词;
所述长文本分类模块(S4),接收一个长文本,基于所述高维聚类模块(S3) 生成的关键字和类别标签,并对其进行分类,包括以下步骤:
S4-1、基于TFIDF算法,对长文本生成词序列及对应的TFIDF值;
S4-2、基于高维聚类模块中对词的聚类结果,每个词都有一个从1-1000的类别标签,将其TFIDF值按类别标签映射到1000维向量的对应维度(1-1000),对每个维度每个词语的TFIDF累加,由此生成的1000位向量作为长文本的特征向量表示;
S4-3、对每个分类设定一组样本文本,计算给定文本与给定分类的一组文本的向量夹角余弦平均值,该值作为给定文本和给定分类的相似度值;
S4-4、按相似度值进行分类,对于单分类,将相似度值最大的分类作为返回结果;对于多分类,对每个分类固定一个相似度门槛值,大于门槛值的多个分类作为文本的分类返回结果。
本发明的有益成果为:本发明提供了一种对长文本生成特征向量实现分类的系统,通过数据预处理模块,删除冗余无效数据,减少数据复杂度与处理维度,提高性能及结果精确度。计算词向量模块基于改进的动态维度的Skip-Gram 算法,计算词向量,然后通过高维聚类模块,对词向量进行聚类。长文本分类模块根据聚类结果,实现对长文本的分类。
以上所述仅为本发明之较佳实施例,并非用以限定本发明的权利要求保护范围。同时以上说明,对于相关技术领域的技术人员应可以理解及实施,因此其他基于本发明所揭示内容所完成的等同改变,均应包含在本权利要求书的涵盖范围内。

Claims (1)

1.一种对长文本生成特征向量实现分类的系统,其特征在于,包括:数据预处理模块(S1)、计算词向量模块(S2),高维聚类模块(S3),长文本分类模块(S4);
所述数据预处理模块(S1),包括所述分词处理模块(S1-1)、所述去除文本无关词模块(S1-2);首先将原始的文本的数据基于Trie树进行分词处理,去除文本无关词,分别对高词频分词和低词频分词进行不同的处理,去除高词频分词中无意义的停用词,即虚词、介词、代词;然后对低词频分词进行文本关联度计算,当低词频分词与文档关联度的计算值小于设定的阈值,将低词频分词从文本的分词数据表中去除,得到与文本内容相关且有意义的有效分词数据表,从而减少数据复杂度与处理维度,提高性能及结果精确度;
所述分词处理模块(S1-1)接收用户输入的原始的文本的数据,并将所述分词处理模块(S1-1)的处理数据输入到所述去除文本无关词模块(S1-2);所述分词处理模块(S1-1)基于Trie树结构,以模糊方式进行分词,生成原始的文本中汉字所有可能的成词情况的向量表,然后结合分词字典中的分词词频概率值与基于动态查找的最大概率路径,计算文本中的成词概率,将原始的文本按成词概率进行分词,并记录分词的词频结果,词频结果作为所述去除文本无关词模块(S1-2)的输入;
所述去除文本无关词模块(S1-2),将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表,将高词频分词数据表中的数据与高频无效词字典进行分词匹配,匹配时采用交叉匹配的方法,减少了匹配的复杂度,当匹配成功时,即判定高词频分词为文本无关词,将其从文本分词结果中去除;对于低频分词数据表,基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性,当相关性低于阈值时,认为分词与文本内容的相关性较低,将其作为文本无关词从文本分词中去除;
所述计算词向量模块(S2),接收经所述数据预处理模块(S1)处理过的数据,计算分词向量,步骤如下:
S2-1、将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表;
S2-2、将高词频分词数据表中的数据与高频无效词字典进行分词匹配,匹配时采用交叉匹配的方法,减少了匹配的复杂度,当匹配成功时,即判定分词为文本无关词,将其从文本分词结果中去除;
S2-3、对于低频分词数据表,基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性,当相关性低于阈值时,认为分词与文本内容的相关性较低,将其作为文本无关词从文本分词中去除;
S2-4、基于改进的动态维度的Skip-Gram算法,根据文本分词数据量的大小动态选择词向量维度,生成一棵当前维度的霍夫曼树和目标优化函数,然后计算分词向量的余弦距离;
S2-5、然后将词向量维度变为原来的一半,再次计算当前维度的霍夫曼树、目标优化函数和该维度下的余弦距离;
S2-6、结合两个余弦距离表,将同一分词的两次结果的平均值作为分词的余弦计算值,从而得到二维空间的分词向量;
所述高维聚类模块(S3),接收所述计算词向量模块(S2)生成的分词向量表,对其进行聚类,包括以下步骤:
S3-1、将分词表中的分词随机排序,并进行二等分,依次从分词表一和分词表二中选取前n个分词作为聚类算法的初始化中心点;
S3-2、依次计算两个分词表中每个词向量到中心点的距离,然后以该距离作为该词向量的加权概率因子,从分词表一中再选取一个新的中心点,加入中心点集合,依次重复该步骤;
S3-3、当聚类数量达到预期数量k时,或者最小平方误差小于设定值e时,停止聚类;
S3-4、依次计算两个分词表中,每个词向量到中心点的距离,选择距离聚类中心最近的m个词,m为整数;
S3-5、将上述步骤中选择的2m个词,作为整体分词表聚类的中心点,计算表中所有词向量到该点的距离,并选择出最小距离,当距离小于聚类阈值时,该词向量属于该聚类中心,当距离大于聚类阈值时,则形成一个新的聚类中心;
S3-6、重复上述步骤,直到聚类数据不再有变化,停止循环,选择距离聚类中心最近的k个词作为关键词,k为整数;
所述长文本分类模块(S4),接收一个长文本,基于所述高维聚类模块(S3)生成的关键字和类别标签,并对其进行分类,包括以下步骤:
S4-1、基于TFIDF算法,对长文本生成词序列及对应的TFIDF值;
S4-2、基于高维聚类模块中对词的聚类结果,每个词都有一个从1-1000的类别标签,将其TFIDF值按类别标签映射到1000维向量的对应维度(1-1000),对每个维度每个词语的TFIDF累加,由此生成的1000位向量作为长文本的特征向量表示;
S4-3、对每个分类设定一组样本文本,计算给定文本与给定分类的一组文本的向量夹角余弦平均值,该值作为给定文本和给定分类的相似度值;
S4-4、按相似度值进行分类,对于单分类,将相似度值最大的分类作为返回结果;对于多分类,对每个分类固定一个相似度门槛值,大于门槛值的多个分类作为文本的分类返回结果。
CN201910608140.XA 2019-07-08 2019-07-08 一种对长文本生成特征向量实现分类的系统 Pending CN110413777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910608140.XA CN110413777A (zh) 2019-07-08 2019-07-08 一种对长文本生成特征向量实现分类的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910608140.XA CN110413777A (zh) 2019-07-08 2019-07-08 一种对长文本生成特征向量实现分类的系统

Publications (1)

Publication Number Publication Date
CN110413777A true CN110413777A (zh) 2019-11-05

Family

ID=68360500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910608140.XA Pending CN110413777A (zh) 2019-07-08 2019-07-08 一种对长文本生成特征向量实现分类的系统

Country Status (1)

Country Link
CN (1) CN110413777A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955767A (zh) * 2019-12-04 2020-04-03 中国太平洋保险(集团)股份有限公司 一种机器人对话系统中生成意图候选集列表集合的算法及装置
CN111143515A (zh) * 2019-12-27 2020-05-12 三角兽(北京)科技有限公司 文本匹配方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042793A1 (en) * 2000-08-23 2002-04-11 Jun-Hyeog Choi Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps
CN108733653A (zh) * 2018-05-18 2018-11-02 华中科技大学 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法
CN109614484A (zh) * 2018-11-09 2019-04-12 华南理工大学 一种基于分类效用的文本聚类方法及其系统
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042793A1 (en) * 2000-08-23 2002-04-11 Jun-Hyeog Choi Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps
CN108733653A (zh) * 2018-05-18 2018-11-02 华中科技大学 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法
CN109614484A (zh) * 2018-11-09 2019-04-12 华南理工大学 一种基于分类效用的文本聚类方法及其系统
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955767A (zh) * 2019-12-04 2020-04-03 中国太平洋保险(集团)股份有限公司 一种机器人对话系统中生成意图候选集列表集合的算法及装置
CN111143515A (zh) * 2019-12-27 2020-05-12 三角兽(北京)科技有限公司 文本匹配方法及装置
CN111143515B (zh) * 2019-12-27 2023-04-18 腾讯科技(深圳)有限公司 文本匹配方法及装置

Similar Documents

Publication Publication Date Title
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
Yang et al. A generalized framework for mining spatio-temporal patterns in scientific data
Zakariya et al. Combining visual features of an image at different precision value of unsupervised content based image retrieval
CN109885692A (zh) 知识数据存储方法、装置、计算机设备和存储介质
Zadghorban et al. An algorithm on sign words extraction and recognition of continuous Persian sign language based on motion and shape features of hands
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN110110792A (zh) 一种基于增量学习的多标签数据流分类方法
Koo et al. Partglot: Learning shape part segmentation from language reference games
CN110232331B (zh) 一种在线人脸聚类的方法及系统
WO2019056569A1 (zh) 滑动窗口下基于位置top-k关键词查询的优先查询算法及系统
CN110413777A (zh) 一种对长文本生成特征向量实现分类的系统
He et al. Exploiting scene graphs for human-object interaction detection
Elnekave et al. Incremental clustering of mobile objects
Zhong et al. Spottingnet: Learning the similarity of word images with convolutional neural network for word spotting in handwritten historical documents
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
Qian et al. Time and location aware points of interest recommendation in location-based social networks
Gaber et al. Detection and classification of changes in evolving data streams
CN110019070A (zh) 一种基于Hadoop的安全日志聚类方法与追责系统
Rahman et al. An efficient approach for selecting initial centroid and outlier detection of data clustering
Xhafa et al. Apache Mahout's k-Means vs Fuzzy k-Means Performance Evaluation
CN107146215A (zh) 一种基于颜色直方图和凸包的显著性检测方法
Fan et al. Dynamic textures clustering using a hierarchical pitman-yor process mixture of dirichlet distributions
Mezuman et al. Globally optimizing graph partitioning problems using message passing
JP2005275556A (ja) 分割クラスタリング装置及び分割データ数決定方法
Mostafa et al. Predicting the tweet location based on KNN-sentimental analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191105

WD01 Invention patent application deemed withdrawn after publication