CN106294394A - 数据聚类方法和数据聚类系统 - Google Patents

数据聚类方法和数据聚类系统 Download PDF

Info

Publication number
CN106294394A
CN106294394A CN201510259872.4A CN201510259872A CN106294394A CN 106294394 A CN106294394 A CN 106294394A CN 201510259872 A CN201510259872 A CN 201510259872A CN 106294394 A CN106294394 A CN 106294394A
Authority
CN
China
Prior art keywords
word
feedback
words
centre
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510259872.4A
Other languages
English (en)
Other versions
CN106294394B (zh
Inventor
于晓明
刘克松
张丹
贺敏
刘玮
王博
马宏远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201510259872.4A priority Critical patent/CN106294394B/zh
Publication of CN106294394A publication Critical patent/CN106294394A/zh
Application granted granted Critical
Publication of CN106294394B publication Critical patent/CN106294394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种数据聚类方法和一种数据聚类系统,其中,所述方法包括:接收创建命令,创建反馈词集合;根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。通过本发明的技术方案,通过用户的反馈对反馈词集合进行更新,从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的,进而提高了数据聚类的准确率和效率。

Description

数据聚类方法和数据聚类系统
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据聚类方法和一种数据聚类系统。
背景技术
目前,相关技术中的数据聚类都是对一定规模的当前数据进行聚类,得到当前数据的多个类别,然后将这多个类别的聚类结果呈现给用户。但是,呈现给用户的聚类结果通常不是用户感兴趣的,具体有以下两种情况:
(1)异常数据,在当前数据中可能存在这样一类数据:单纯从分析和聚类的角度,这些数据与正常的数据无异,其聚类特征良好,因此,各种数据聚类的算法都无法将其判定为异常数据,但用户并不关心这类数据,不希望呈现此类数据的聚类结果。
(2)特殊的聚类要求,聚类分析的结果最终是为客户服务的,因此,当前数据的聚类结果纯粹从数据和数据分析的角度是毫无疑问合适的,其聚类特征也是非常明显的,但在具体应用中,由于业务的需要,对当前数据有特殊的聚类需求,而在聚类分析的当前数据中无法发现与特殊的聚类需求对应的聚类结果,只有通过用户反馈,才能得到用户真正感兴趣的聚类结果。
因此,如何对当前数据进行聚类得到的是用户感兴趣的聚类结果,从而提高数据聚类的准确率和效率,成为亟待解决的问题。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,通过用户的反馈对反馈词集合进行更新,则根据更新后的反馈词集合对数据进行聚类,得到的聚类结果是用户所感兴趣的,从而提高了数据聚类的准确率和效率。
有鉴于此,本发明的一方面提出了一种数据聚类方法,包括:接收创建命令,创建反馈词集合;根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。
在该技术方案中,根据用户对聚类结果中的多个当前类别的第一反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的反馈聚类得到的,进而将用户可能关心的类别呈现给用户,同时淘汰用户不感兴趣的类别,进一步地提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,根据所述反馈词集合对所述当前数据进行聚类,以将所述当前数据聚类成所述多个当前类别,具体包括:对所述当前数据进行聚类,以将所述当前数据聚类成多个聚类类别;获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重;根据所述反馈词集合更新所述第一中心词的所述第一词权重,以在所述多个聚类类别中确定所述多个当前类别。
在该技术方案中,由于反馈词集合是根据用户的需求来创建或更新的,因此,根据反馈词集合对多个聚类类别的第一中心词的第一词权重进行更新,即是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别,即是根据用户的需求确定的多个当前类别,从而使呈现给用户的多个当前类别是用户感兴趣或关心的类别,进而提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,还包括:判断所述第一中心词是否与所述反馈词集合中的反馈词匹配;在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时,将所述第一中心词的所述第一词权重取反,以得到所述第一中心词的第三词权重;在判断结果为否时,设置所述第一中心词的所述第一词权重为第一预设值,以得到所述第一中心词的第三词权重,其中,所述第三词权重与所述第一预设值相同;根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重,并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。
在该技术方案中,根据多个聚类类别中的每个聚类类别的第一中心词是否在反馈词集合中,对第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别,由于反馈词集合是根据用户的需求来创建或更新的,因此,是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别时,是根据用户的需求确定的多个当前类别,进而使呈现给用户的多个当前类别是用户感兴趣或关心的类别,进一步地提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,接收所述用户对所述多个当前类别的所述第一反馈,以对所述反馈词集合进行更新,具体包括:获取所述多个当前类别中的每个当前类别的第二中心词;根据所述第二中心词和所述第一反馈,对所述反馈词集合进行更新。
在该技术方案中,根据多个当前类别中的每个当前类别的第二中心词和用户对多个当前类别的第一反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的反馈聚类得到的,进而将用户可能感兴趣的类别呈现给用户,同时淘汰用户不感兴趣的类别,进一步地提高了数据聚类的准确率和聚类效率。
在上述技术方案中,优选地,还包括:接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈;根据所述关键词和所述第二反馈,对所述反馈词集合进行更新。
在该技术方案中,还可以根据用户输入的关键词以及用户对该关键词的第二反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的第二反馈聚类得到的,进而将用户可能感兴趣的类别呈现给用户,同时淘汰用户不感兴趣的类别,这样,根据用户输入的关键词和第二反馈聚类的结果更加具有针对性,从而使聚类的结果更加准确。
在上述技术方案中,优选地,对所述反馈词集合进行更新,具体包括:判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词;在判断结果为是时,对所述目标反馈词的所述第二词权重进行更新;否则,将所述第二中心词或所述关键词添加到所述反馈词集合中,并设置所述第二中心词或所述关键词的权重初值。
在该技术方案中,在根据用户对多个当前类别的第一反馈或根据用户输入的关键词与其第二反馈对反馈词集合进行更新时,根据反馈词集合中是否存在与每个当前类别的第二中心词或关键词匹配的目标反馈词,对反馈词集合进行更新,从而使更新后的反馈词集合更符合用户的需求,进而使根据更新后的反馈词再次进行聚类时得到的是用户感兴趣的类别。
本发明的另一方面提出了一种数据聚类系统,包括:创建单元,接收创建命令,创建反馈词集合;聚类单元,根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;第一接收单元,接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。
在该技术方案中,根据用户对聚类结果中的多个当前类别的第一反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的反馈聚类得到的,进而将用户可能关心的类别呈现给用户,同时淘汰用户不感兴趣的类别,进一步地提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,所述聚类单元具体包括:分类单元,用于对所述当前数据进行聚类,以将所述当前数据聚类成多个聚类类别;第一获取单元,用于获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重;确定单元,用于根据所述反馈词集合更新所述第一中心词的所述第一词权重,以在所述多个聚类类别中确定所述多个当前类别。
在该技术方案中,由于反馈词集合是根据用户的需求来创建或更新的,因此,根据反馈词集合对多个聚类类别的第一中心词的第一词权重进行更新,即是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别,即是根据用户的需求确定的多个当前类别,从而使呈现给用户的多个当前类别是用户感兴趣或关心的类别,进而提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,所述聚类单元还包括:第一判断单元,用于判断所述第一中心词是否与所述反馈词集合中的反馈词匹配;处理单元,用于在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时,将所述第一中心词的所述第一词权重取反,以得到所述第一中心词的第三词权重;设置单元,用于在判断结果为否时,设置所述第一中心词的所述第一词权重为第一预设值,以得到所述第一中心词的第三词权重,其中,所述第三词权重与所述第一预设值相同;以及所述确定单元具体用于:根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重,并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。
在该技术方案中,根据多个聚类类别中的每个聚类类别的第一中心词是否在反馈词集合中,对第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别,由于反馈词集合是根据用户的需求来创建或更新的,因此,是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别时,是根据用户的需求确定的多个当前类别,进而使呈现给用户的多个当前类别是用户感兴趣或关心的类别,进一步地提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,所述第一接收单元具体包括:第二获取单元,用于获取所述多个当前类别中的每个当前类别的第二中心词;第一更新单元,用于根据所述第二中心词和所述第一反馈,对所述反馈词集合进行更新。
在该技术方案中,根据多个当前类别中的每个当前类别的第二中心词和用户对多个当前类别的第一反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的反馈聚类得到的,进而将用户可能感兴趣的类别呈现给用户,同时淘汰用户不感兴趣的类别,进一步地提高了数据聚类的准确率和聚类效率。
在上述技术方案中,优选地,还包括:第二接收单元,用于接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈;第二更新单元,用于根据所述关键词和所述第二反馈,对所述反馈词集合进行更新。
在该技术方案中,还可以根据用户输入的关键词以及用户对该关键词的第二反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的第二反馈聚类得到的,进而将用户可能感兴趣的类别呈现给用户,同时淘汰用户不感兴趣的类别,这样,根据用户输入的关键词和第二反馈聚类的结果更加具有针对性,从而使聚类的结果更加准确。
在上述技术方案中,优选地,还包括:第二判断单元,用于判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词;第三更新单元,用于在判断结果为是时,对所述目标反馈词的所述第二词权重进行更新;添加单元,用于在判断结果为否时,将所述第二中心词或所述关键词添加到所述反馈词集合中,并设置所述第二中心词或所述关键词的权重初值。
在该技术方案中,在根据用户对多个当前类别的第一反馈或根据用户输入的关键词与其第二反馈对反馈词集合进行更新时,根据反馈词集合中是否存在与每个当前类别的第二中心词或关键词匹配的目标反馈词,对反馈词集合进行更新,从而使更新后的反馈词集合更符合用户的需求,进而使根据更新后的反馈词再次进行聚类时得到的是用户感兴趣的类别。
通过本发明的技术方案,通过用户的反馈对反馈词集合进行更新,从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的,进而提高了数据聚类的准确率和效率。
附图说明
图1示出了根据本发明的一个实施例的数据聚类方法的流程示意图;
图2示出了根据本发明的一个实施例的数据聚类系统的结构示意图;
图3示出了根据本发明的另一个实施例的数据聚类方法的流程示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的数据聚类方法的流程示意图。
如图1所示,根据本发明的一个实施例的数据聚类方法,包括:
步骤102,接收创建命令,创建反馈词集合;
步骤104,根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;
步骤106,接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。
在该技术方案中,根据用户对聚类结果中的多个当前类别的第一反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的反馈聚类得到的,进而将用户可能关心的类别呈现给用户,同时淘汰用户不感兴趣的类别,进一步地提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,根据所述反馈词集合对所述当前数据进行聚类,以将所述当前数据聚类成所述多个当前类别,具体包括:对所述当前数据进行聚类,以将所述当前数据聚类成多个聚类类别;获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重;根据所述反馈词集合更新所述第一中心词的所述第一词权重,以在所述多个聚类类别中确定所述多个当前类别。
在该技术方案中,由于反馈词集合是根据用户的需求来创建或更新的,因此,根据反馈词集合对多个聚类类别的第一中心词的第一词权重进行更新,即是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别,即是根据用户的需求确定的多个当前类别,从而使呈现给用户的多个当前类别是用户感兴趣或关心的类别,进而提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,还包括:判断所述第一中心词是否与所述反馈词集合中的反馈词匹配;在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时,将所述第一中心词的所述第一词权重取反,以得到所述第一中心词的第三词权重;在判断结果为否时,设置所述第一中心词的所述第一词权重为第一预设值,以得到所述第一中心词的第三词权重,其中,所述第三词权重与所述第一预设值相同;根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重,并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。
在该技术方案中,根据多个聚类类别中的每个聚类类别的第一中心词是否在反馈词集合中,对第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别,由于反馈词集合是根据用户的需求来创建或更新的,因此,是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别时,是根据用户的需求确定的多个当前类别,进而使呈现给用户的多个当前类别是用户感兴趣或关心的类别,进一步地提高了数据聚类的准确率和效率,具体地,当第一中心词与反馈词集合中的反馈词匹配时,如果与第一中心词匹配的反馈词的第二词权重为负数,则说明用户对第一中心词所在的聚类类别不感兴趣,将将第一中心词的第一词权重取反,以得到第一中心词的第三词权重,如果与第一中心词匹配的反馈词的第二词权重为正数,则说明用户对第一中心词所在的聚类类别感兴趣,将第一中心词的第一词权重保持不变,另一方面,当第一中心词与反馈词集合中的反馈词不匹配时,设置第一中心词的所述第一词权重为第一预设值,例如设置为零,从而得到第一中心词的第三词权重,在得到第一中心词的第三词权重之后,将每个聚类类别的所有中心词的第三词权重相加,得到每个聚类类别的总词权重,当任一聚类类别的总词权重为正数时,则说明任一聚类类别是用户感兴趣的,可以将任一聚类类别确定为多个当前类别中的一个,当任一聚类类别的总词权重为负数时,则说明任一聚类类别是用户不感兴趣的,可以将任一聚类类别从多个聚类类别中删除,从而在多个聚类类别中筛选出多个当前类别。
在上述技术方案中,优选地,接收所述用户对所述多个当前类别的所述第一反馈,以对所述反馈词集合进行更新,具体包括:获取所述多个当前类别中的每个当前类别的第二中心词;根据所述第二中心词和所述第一反馈,对所述反馈词集合进行更新。
在该技术方案中,根据多个当前类别中的每个当前类别的第二中心词和用户对多个当前类别的第一反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的反馈聚类得到的,进而将用户可能感兴趣的类别呈现给用户,同时淘汰用户不感兴趣的类别,进一步地提高了数据聚类的准确率和聚类效率。
在上述技术方案中,优选地,还包括:接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈;根据所述关键词和所述第二反馈,对所述反馈词集合进行更新。
在该技术方案中,还可以根据用户输入的关键词以及用户对该关键词的第二反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的第二反馈聚类得到的,进而将用户可能感兴趣的类别呈现给用户,同时淘汰用户不感兴趣的类别,这样,根据用户输入的关键词和第二反馈聚类的结果更加具有针对性,从而使聚类的结果更加准确。
在上述技术方案中,优选地,对所述反馈词集合进行更新,具体包括:判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词;在判断结果为是时,对所述目标反馈词的所述第二词权重进行更新;否则,将所述第二中心词或所述关键词添加到所述反馈词集合中,并设置所述第二中心词或所述关键词的权重初值。
在该技术方案中,在根据用户对多个当前类别的第一反馈或根据用户输入的关键词与其第二反馈对反馈词集合进行更新时,根据反馈词集合中是否存在与每个当前类别的第二中心词或关键词匹配的目标反馈词,对反馈词集合进行更新,从而使更新后的反馈词集合更符合用户的需求,进而使根据更新后的反馈词再次进行聚类时得到的是用户感兴趣的类别,具体地,当第二中心词在反馈词集合中时,如果用户对第二中心词所在的当前类别的反馈为正反馈,则将反馈词集合中的与第二中心词匹配的反馈词的第二词权重减第二预设值,例如,将反馈词集合中的与第二中心词匹配的反馈词的第二词权重减1,如果用户对第二中心词所在的当前类别的反馈为负反馈,则将反馈词集合中的与第二中心词匹配的反馈词的第二词权重加第二预设值,例如,将反馈词集合中的与第二中心词匹配的反馈词的第二词权重加1,另一方面,当第二中心词不在反馈词集合中时,如果用户对第二中心词所在的当前类别的反馈为正反馈,则将第二中心词添加到反馈词集合中,并设置与第二中心词匹配的反馈词的第二词权重为第三预设值,例如,设置与第二中心词匹配的反馈词的第二词权重为1,如果用户对第二中心词所在的当前类别的反馈为负反馈,则将第二中心词添加到反馈词集合中,并设置与第二中心词匹配的反馈词的第二词权重为第四预设值,优选地,第三预设值与第四预设值互为相反数,例如,设置与第二中心词匹配的反馈词的第二词权重为-1。
图2示出了根据本发明的一个实施例的数据聚类系统200的结构示意图。
如图2所示,根据本发明的一个实施例的数据聚类系统200,包括:创建单元202,接收创建命令,创建反馈词集合;聚类单元204,根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;第一接收单元206,接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。
在该技术方案中,根据用户对聚类结果中的多个当前类别的第一反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的反馈聚类得到的,进而将用户可能关心的类别呈现给用户,同时淘汰用户不感兴趣的类别,进一步地提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,所述聚类单元204具体包括:分类单元2042,用于对所述当前数据进行聚类,以将所述当前数据聚类成多个聚类类别;第一获取单元2044,用于获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重;确定单元2046,用于根据所述反馈词集合更新所述第一中心词的所述第一词权重,以在所述多个聚类类别中确定所述多个当前类别。
在该技术方案中,由于反馈词集合是根据用户的需求来创建或更新的,因此,根据反馈词集合对多个聚类类别的第一中心词的第一词权重进行更新,即是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别,即是根据用户的需求确定的多个当前类别,从而使呈现给用户的多个当前类别是用户感兴趣或关心的类别,进而提高了数据聚类的准确率和效率。
在上述技术方案中,优选地,所述聚类单元204还包括:第一判断单元2048,用于判断所述第一中心词是否与所述反馈词集合中的反馈词匹配;处理单元20410,用于在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时,将所述第一中心词的所述第一词权重取反,以得到所述第一中心词的第三词权重;设置单元20412,用于在判断结果为否时,设置所述第一中心词的所述第一词权重为第一预设值,以得到所述第一中心词的第三词权重,其中,所述第三词权重与所述第一预设值相同;以及所述确定单元2046具体用于:根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重,并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。
在该技术方案中,根据多个聚类类别中的每个聚类类别的第一中心词是否在反馈词集合中,对第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别,由于反馈词集合是根据用户的需求来创建或更新的,因此,是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新,从而在多个聚类类别中确定多个当前类别时,是根据用户的需求确定的多个当前类别,进而使呈现给用户的多个当前类别是用户感兴趣或关心的类别,进一步地提高了数据聚类的准确率和效率,具体地,当第一中心词与反馈词集合中的反馈词匹配时,如果与第一中心词匹配的反馈词的第二词权重为负数,则说明用户对第一中心词所在的聚类类别不感兴趣,将将第一中心词的第一词权重取反,以得到第一中心词的第三词权重,如果与第一中心词匹配的反馈词的第二词权重为正数,则说明用户对第一中心词所在的聚类类别感兴趣,将第一中心词的第一词权重保持不变,另一方面,当第一中心词与反馈词集合中的反馈词不匹配时,设置第一中心词的所述第一词权重为第一预设值,例如设置为零,从而得到第一中心词的第三词权重,在得到第一中心词的第三词权重之后,将每个聚类类别的所有中心词的第三词权重相加,得到每个聚类类别的总词权重,当任一聚类类别的总词权重为正数时,则说明任一聚类类别是用户感兴趣的,可以将任一聚类类别确定为多个当前类别中的一个,当任一聚类类别的总词权重为负数时,则说明任一聚类类别是用户不感兴趣的,可以将任一聚类类别从多个聚类类别中删除,从而在多个聚类类别中筛选出多个当前类别。
在上述技术方案中,优选地,所述第一接收单元206具体包括:第二获取单元2062,用于获取所述多个当前类别中的每个当前类别的第二中心词;第一更新单元2064,用于根据所述第二中心词和所述第一反馈,对所述反馈词集合进行更新。
在该技术方案中,根据多个当前类别中的每个当前类别的第二中心词和用户对多个当前类别的第一反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的反馈聚类得到的,进而将用户可能感兴趣的类别呈现给用户,同时淘汰用户不感兴趣的类别,进一步地提高了数据聚类的准确率和聚类效率。
在上述技术方案中,优选地,还包括:第二接收单元208,用于接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈;第二更新单元210,用于根据所述关键词和所述第二反馈,对所述反馈词集合进行更新。
在该技术方案中,还可以根据用户输入的关键词以及用户对该关键词的第二反馈,对反馈词集合进行更新,由此,根据更新后的反馈词集合再次进行聚类,从而使此次的聚类结果是根据用户的第二反馈聚类得到的,进而将用户可能感兴趣的类别呈现给用户,同时淘汰用户不感兴趣的类别,这样,根据用户输入的关键词和第二反馈聚类的结果更加具有针对性,从而使聚类的结果更加准确。
在上述技术方案中,优选地,还包括:第二判断单元212,用于判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词;第三更新单元214,用于在判断结果为是时,对所述目标反馈词的所述第二词权重进行更新;添加单元216,用于在判断结果为否时,将所述第二中心词或所述关键词添加到所述反馈词集合中,并设置所述第二中心词或所述关键词的权重初值。
在该技术方案中,在根据用户对多个当前类别的第一反馈或根据用户输入的关键词与其第二反馈对反馈词集合进行更新时,根据反馈词集合中是否存在与每个当前类别的第二中心词或关键词匹配的目标反馈词,对反馈词集合进行更新,从而使更新后的反馈词集合更符合用户的需求,进而使根据更新后的反馈词再次进行聚类时得到的是用户感兴趣的类别,具体地,当第二中心词在反馈词集合中时,如果用户对第二中心词所在的当前类别的反馈为正反馈,则将反馈词集合中的与第二中心词匹配的反馈词的第二词权重减第二预设值,如果用户对第二中心词所在的当前类别的反馈为负反馈,则将反馈词集合中的与第二中心词匹配的反馈词的第二词权重加第二预设值,另一方面,当第二中心词不在反馈词集合中时,如果用户对第二中心词所在的当前类别的反馈为正反馈,则将第二中心词添加到反馈词集合中,并设置与第二中心词匹配的反馈词的第二词权重为第三预设值,如果用户对第二中心词所在的当前类别的反馈为负反馈,则将第二中心词添加到反馈词集合中,并设置与第二中心词匹配的反馈词的第二词权重为第四预设值,优选地,第三预设值与第四预设值互为相反数。
图3示出了根据本发明的另一个实施例的数据聚类方法的流程示意图。
如图3所示,根据本发明的另一个实施例的数据聚类方法,包括:
步骤302,创建反馈词集合。
步骤304,根据反馈词集合对当前数据进行聚类,以将当前数据聚类成多个当前类别。
步骤306,为用户呈现聚类结果,即将多个当前类别呈现给用户。
步骤308,接收用户对多个当前类别的负正向反馈(第一反馈)。
步骤310,接收用户输入的关键词以及用户对关键词的第二反馈。
步骤312,根据第一反馈或第二反馈,更新反馈词集合,以根据更新后的反馈词集合对数据再次进行聚类,以得到用户感兴趣的数据。
以上结合附图详细说明了本发明的技术方案,通过用户的反馈对反馈词集合进行更新,从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的,进而提高了数据聚类的准确率和效率。
在本发明中,术语“第一”、“第二”、“第三”、“第四”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”表示两个或两个以上。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种数据聚类方法,其特征在于,包括:
接收创建命令,创建反馈词集合;
根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;
接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。
2.根据权利要求1所述的数据聚类方法,其特征在于,根据所述反馈词集合对所述当前数据进行聚类,以将所述当前数据聚类成所述多个当前类别,具体包括:
对所述当前数据进行聚类,以将所述当前数据聚类成多个聚类类别;
获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重;
根据所述反馈词集合更新所述第一中心词的所述第一词权重,以在所述多个聚类类别中确定所述多个当前类别。
3.根据权利要求2所述的数据聚类方法,其特征在于,还包括:
判断所述第一中心词是否与所述反馈词集合中的反馈词匹配;
在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时,将所述第一中心词的所述第一词权重取反,以得到所述第一中心词的第三词权重;
在判断结果为否时,设置所述第一中心词的所述第一词权重为第一预设值,以得到所述第一中心词的第三词权重,其中,所述第三词权重与所述第一预设值相同;
根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重,并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。
4.根据权利要求3所述的数据聚类方法,其特征在于,接收所述用户对所述多个当前类别的所述第一反馈,以对所述反馈词集合进行更新,具体包括:
获取所述多个当前类别中的每个当前类别的第二中心词;
根据所述第二中心词和所述第一反馈,对所述反馈词集合进行更新。
5.根据权利要求1所述的数据聚类方法,其特征在于,还包括:
接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈;
根据所述关键词和所述第二反馈,对所述反馈词集合进行更新。
6.根据权利要求4或5所述的数据聚类方法,其特征在于,对所述反馈词集合进行更新,具体包括:
判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词;
在判断结果为是时,对所述目标反馈词的所述第二词权重进行更新;
否则,将所述第二中心词或所述关键词添加到所述反馈词集合中,并设置所述第二中心词或所述关键词的权重初值。
7.一种数据聚类系统,其特征在于,包括:
创建单元,接收创建命令,创建反馈词集合;
聚类单元,根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;
第一接收单元,接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。
8.根据权利要求7所述的数据聚类系统,其特征在于,所述聚类单元具体包括:
分类单元,用于对所述当前数据进行聚类,以将所述当前数据聚类成多个聚类类别;
第一获取单元,用于获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重;
确定单元,用于根据所述反馈词集合更新所述第一中心词的所述第一词权重,以在所述多个聚类类别中确定所述多个当前类别。
9.根据权利要求8所述的数据聚类系统,其特征在于,所述聚类单元还包括:
第一判断单元,用于判断所述第一中心词是否与所述反馈词集合中的反馈词匹配;
处理单元,用于在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时,将所述第一中心词的所述第一词权重取反,以得到所述第一中心词的第三词权重;
设置单元,用于在判断结果为否时,设置所述第一中心词的所述第一词权重为第一预设值,以得到所述第一中心词的第三词权重,其中,所述第三词权重与所述第一预设值相同;以及
所述确定单元具体用于:根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重,并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。
10.根据权利要求9所述的数据聚类系统,其特征在于,所述第一接收单元具体包括:第二获取单元,用于获取所述多个当前类别中的每个当前类别的第二中心词;
第一更新单元,用于根据所述第二中心词和所述第一反馈,对所述反馈词集合进行更新。
11.根据权利要求7所述的数据聚类系统,其特征在于,还包括:
第二接收单元,用于接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈;
第二更新单元,用于根据所述关键词和所述第二反馈,对所述反馈词集合进行更新。
12.根据权利要求10或11所述的数据聚类系统,其特征在于,还包括:第二判断单元,用于判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词;
第三更新单元,用于在判断结果为是时,对所述目标反馈词的所述第二词权重进行更新;
添加单元,用于在判断结果为否时,将所述第二中心词或所述关键词添加到所述反馈词集合中,并设置所述第二中心词或所述关键词的权重初值。
CN201510259872.4A 2015-05-20 2015-05-20 数据聚类方法和数据聚类系统 Active CN106294394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510259872.4A CN106294394B (zh) 2015-05-20 2015-05-20 数据聚类方法和数据聚类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510259872.4A CN106294394B (zh) 2015-05-20 2015-05-20 数据聚类方法和数据聚类系统

Publications (2)

Publication Number Publication Date
CN106294394A true CN106294394A (zh) 2017-01-04
CN106294394B CN106294394B (zh) 2019-10-15

Family

ID=57632563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510259872.4A Active CN106294394B (zh) 2015-05-20 2015-05-20 数据聚类方法和数据聚类系统

Country Status (1)

Country Link
CN (1) CN106294394B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241420A (zh) * 2018-08-24 2019-01-18 北京金山安全软件有限公司 应用首页内容推荐方法、装置、计算机设备和存储介质
CN113065876A (zh) * 2019-12-13 2021-07-02 阿里巴巴集团控股有限公司 用户反馈信息的处理方法及装置、系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271476A (zh) * 2008-04-25 2008-09-24 清华大学 网络图像搜索中基于聚类的相关反馈检索方法
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN102547623A (zh) * 2010-12-08 2012-07-04 中国电信股份有限公司 垃圾短信处理方法和系统
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
US8688704B1 (en) * 2010-11-24 2014-04-01 Google Inc. User feedback in people search clustering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271476A (zh) * 2008-04-25 2008-09-24 清华大学 网络图像搜索中基于聚类的相关反馈检索方法
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
US8688704B1 (en) * 2010-11-24 2014-04-01 Google Inc. User feedback in people search clustering
CN102547623A (zh) * 2010-12-08 2012-07-04 中国电信股份有限公司 垃圾短信处理方法和系统
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241420A (zh) * 2018-08-24 2019-01-18 北京金山安全软件有限公司 应用首页内容推荐方法、装置、计算机设备和存储介质
CN109241420B (zh) * 2018-08-24 2022-06-07 北京乐蜜科技有限责任公司 应用首页内容推荐方法、装置、计算机设备和存储介质
CN113065876A (zh) * 2019-12-13 2021-07-02 阿里巴巴集团控股有限公司 用户反馈信息的处理方法及装置、系统

Also Published As

Publication number Publication date
CN106294394B (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
Degnan et al. Factors associated with the diversification of the gut microbial communities within chimpanzees from Gombe National Park
Medvar et al. Comprehensive database of human E3 ubiquitin ligases: application to aquaporin-2 regulation
Bind et al. When possible, report a Fisher-exact P value and display its underlying null randomization distribution
Castellana et al. MitImpact: an exhaustive collection of pre‐computed pathogenicity predictions of human mitochondrial non‐synonymous variants
Scheinfeldt et al. Working toward a synthesis of archaeological, linguistic, and genetic data for inferring African population history
Agrawal et al. Mapping posttranscriptional regulation of the human glycome uncovers microRNA defining the glycocode
Zirbel et al. Identifying novel sequence variants of RNA 3D motifs
US20120011121A1 (en) Data analysis using multiple systems
Beretta et al. Genome-wide whole blood transcriptome profiling in a large European cohort of systemic sclerosis patients
Gratton et al. Testing classical species properties with contemporary data: how “bad species” in the brassy ringlets (Erebia tyndarus complex, Lepidoptera) turned good
McKennan et al. Accounting for unobserved covariates with varying degrees of estimability in high-dimensional biological data
Cheng et al. Latent cellular analysis robustly reveals subtle diversity in large-scale single-cell RNA-seq data
Ivanova et al. Bivariate isotonic design for dose‐finding with ordered groups
Wang et al. Bias in machine learning models can be significantly mitigated by careful training: Evidence from neuroimaging studies
Kwak et al. Phase II clinical trials with time‐to‐event endpoints: optimal two‐stage designs with one‐sample log‐rank test
Mao et al. Historical introgression and the persistence of ghost alleles in the intermediate horseshoe bat (Rhinolophus affinis)
US20160259844A1 (en) Model directed sampling system
Xiong et al. DegNorm: normalization of generalized transcript degradation improves accuracy in RNA-seq analysis
Zhang et al. Down-Regulation of miR-186 Correlates with Poor Survival in de novo Acute Myeloid Leukemia.
Tie et al. Metabolite-disease association prediction algorithm combining DeepWalk and random forest
CN106294394A (zh) 数据聚类方法和数据聚类系统
Froussios et al. Relative abundance of transcripts (RATs): identifying differential isoform abundance from RNA-seq
Linder et al. Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation
Ferraro et al. Diverse transcriptomic signatures across human tissues identify functional rare genetic variation
JP2013105215A (ja) レコメンド情報生成装置、レコメンド情報生成方法及びレコメンド情報生成プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220624

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right