CN112579780A - 基于Single-pass的聚类方法、系统、装置、存储介质 - Google Patents

基于Single-pass的聚类方法、系统、装置、存储介质 Download PDF

Info

Publication number
CN112579780A
CN112579780A CN202011563949.4A CN202011563949A CN112579780A CN 112579780 A CN112579780 A CN 112579780A CN 202011563949 A CN202011563949 A CN 202011563949A CN 112579780 A CN112579780 A CN 112579780A
Authority
CN
China
Prior art keywords
clustering
similarity
last
new
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011563949.4A
Other languages
English (en)
Other versions
CN112579780B (zh
Inventor
代少兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingniuzhisheng Technology Co ltd
Original Assignee
Qingniuzhisheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingniuzhisheng Technology Co ltd filed Critical Qingniuzhisheng Technology Co ltd
Priority to CN202011563949.4A priority Critical patent/CN112579780B/zh
Publication of CN112579780A publication Critical patent/CN112579780A/zh
Application granted granted Critical
Publication of CN112579780B publication Critical patent/CN112579780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于Single‑pass的聚类方法、系统、装置、存储介质,所提供方法具体是:设置新一轮循环中初次聚类的相似度;进而,根据Single‑pass以及初次聚类的相似度,进行聚类;进而,若有未被聚类的:根据上一次聚类的相似度以及预设的降值规则,获取相似度;将上一次聚类所得的短文本主题导入新一次聚类中,根据相似度以及Single‑pass,对上一次未被聚类的进行聚类;进而,判断获取相似度的步骤的执行次数是否已达到预设的总次数;进而,若未达到,跳转到获取相似度的步骤;若已达到,判断是否满足进行新一轮循环的条件;若满足,取倒数第二次聚类的相似度为最佳相似度;若不满足,跳转到设置相似度的步骤。同时解决了阈值难以确定以及长尾的问题。

Description

基于Single-pass的聚类方法、系统、装置、存储介质
技术领域
本发明涉及数据处理技术领域,更具体地说,涉及基于Single-pass的聚类方法、系统、装置、存储介质。
背景技术
提供信息化服务的过程中,是否可以快速、准确地处理、分析网络文本信息尤为重要;其中,短文本聚类分析是常见的分析场景,通过聚类可以快速获取短文本的主题;由于聚类结果有较好的可解释性,因此,常会选用Single-pass或层次聚类。
然而,仅使用Single-pass进行聚类,容易出现长尾问题,大量句子未被聚类;仅使用层次聚类,一是难以确定合适的阈值,二是不具备有效的指标用于评估阈值选择的合理性。
因此,仍需对聚类方法做改进,以解决上述问题。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供基于Single-pass的聚类方法、基于Single-pass的聚类系统、基于Single-pass的聚类装置,以及计算机可读存储介质。
本发明解决其技术问题所采用的技术方案是:
第一,提供了一种基于Single-pass的聚类方法,其中,包括如下步骤:
设置新一轮循环中初次聚类的相似度;其中,新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等;
根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;
若有未被聚类的短文本:根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;将上一次聚类所得的短文本主题导入新一次聚类中,根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;
判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数,其中,预设的总次数不小于2;
若未达到,跳转到获取新一次聚类的相似度的步骤;
若已达到,判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍,其中,N≥2;
若满足条件,取倒数第二次聚类的相似度为最佳相似度;
若不满足条件,跳转到设置新一轮循环中初次聚类的相似度的步骤。
第二,提供了基于Single-pass的聚类系统,基于上述的基于Single-pass的聚类方法,其中,所述系统包括:
设置单元,用于设置新一轮循环中初次聚类的相似度;其中,新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等;
聚类单元,用于根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;
第一获取单元,用于根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;
导入单元,用于将上一次聚类所得的短文本主题导入新一次聚类中;
所述聚类单元,还用于根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;
判断单元,用于判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数,其中,预设的总次数不小于2;
跳转单元,用于跳转到获取新一次聚类的相似度的步骤;
所述判断单元,还用于判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍,其中,N≥2;
读取单元,用于取倒数第二次聚类的相似度为最佳相似度;
所述跳转单元,还用于跳转到设置新一轮循环中初次聚类的相似度的步骤。
第三,提供了基于Single-pass的聚类装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述方法的步骤。
第四,提供了计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述方法的步骤。
本发明的有益效果在于:设置新一轮循环中初次聚类的相似度;进而,根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;进而,若有未被聚类的短文本:根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;将上一次聚类所得的短文本主题导入新一次聚类中,根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;进而,判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数;进而,若未达到,跳转到获取新一次聚类的相似度的步骤;若已达到,判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍;若满足条件,取倒数第二次聚类的相似度为最佳相似度;若不满足条件,跳转到设置新一轮循环中初次聚类的相似度的步骤。前述方法,对层级聚类及Single-pass进行了结合,同时解决了阈值难以确定以及长尾的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图及实施例对本发明作进一步说明,下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图:
图1是本发明实施例一提供的基于Single-pass的聚类方法的流程图;
图2是本发明实施例二提供的基于Single-pass的聚类方法的组成示意图;
图3是本发明实施例二提供的基于Single-pass的聚类装置的组成示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
实施例一
本发明实施例提供了基于Single-pass的聚类方法,如图1所示,包括如下步骤:
步骤S1:设置新一轮循环中初次聚类的相似度;其中,新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等。
本实施例中,设置新一轮循环中初次聚类的相似度之前,还包括:对短文本进行预处理;获取各个短文本的bert embedding。
本实施例中,各轮循环初次聚类的相似度不同,以便可以形成多份聚类结果,便于更全面地进行比对,并观察分类情况。
步骤S2:根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类。
步骤S3:若有未被聚类的短文本:根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;将上一次聚类所得的短文本主题导入新一次聚类中,根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类。
本实施例中,降值规则包括:新一次聚类的相似度=上一次聚类的相似度-A,其中,A为恒定的正值。
本实施例中,导入上一次聚类所得的短文本主题,节省了重复建立短文本主题的过程,提高了效率;降低相似度,以便有更多的短文本可以被聚类,以便解决长尾问题。
步骤S4:判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数,其中,预设的总次数不小于2。
本实施例中,优选的,预设的总次数为2,既有较好的聚类效果,又保证了效率。
步骤S5:
若未达到,跳转到获取新一次聚类的相似度的步骤;
若已达到,判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍,其中,N≥2;
若满足条件,取倒数第二次聚类的相似度为最佳相似度;
若不满足条件,跳转到设置新一轮循环中初次聚类的相似度的步骤。
本实施例所提供方法具体是:设置新一轮循环中初次聚类的相似度;进而,根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;进而,若有未被聚类的短文本:根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;将上一次聚类所得的短文本主题导入新一次聚类中,根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;进而,判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数;进而,若未达到,跳转到获取新一次聚类的相似度的步骤;若已达到,判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍;若满足条件,取倒数第二次聚类的相似度为最佳相似度;若不满足条件,跳转到设置新一轮循环中初次聚类的相似度的步骤。前述方法,对层级聚类及Single-pass进行了结合,同时解决了阈值难以确定以及长尾的问题。
实施例二
本发明实施例提供了基于Single-pass的聚类系统,基于实施例一所提供的基于Single-pass的聚类方法,如图2所示,系统包括:
设置单元10,用于设置新一轮循环中初次聚类的相似度;其中,新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等;
聚类单元11,用于根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;
第一获取单元12,用于根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;
导入单元13,用于将上一次聚类所得的短文本主题导入新一次聚类中;
聚类单元,还用于根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;
判断单元14,用于判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数,其中,预设的总次数不小于2;
跳转单元15,用于跳转到获取新一次聚类的相似度的步骤;
判断单元,还用于判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍,其中,N≥2;
读取单元16,用于取倒数第二次聚类的相似度为最佳相似度;
跳转单元,还用于跳转到设置新一轮循环中初次聚类的相似度的步骤。
优选的,降值规则包括:新一次聚类的相似度=上一次聚类的相似度-A,其中,A为恒定的正值。
优选的,预设的总次数为2。
优选的,聚类系统还包括:
预处理单元17,用于对短文本进行预处理;
第二获取单元18,用于获取各个短文本的bert embedding。
本实施例所提供系统的工作过程是:借助设置单元设置新一轮循环中初次聚类的相似度;进而,根据Single-pass以及新一轮循环中初次聚类的相似度,聚类单元对全部短文本进行聚类;进而,若有未被聚类的短文本:第一获取单元根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;导入单元将上一次聚类所得的短文本主题导入新一次聚类中,聚类单元根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;进而,判断单元判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数;进而,若未达到,跳转单元跳转到获取新一次聚类的相似度的步骤;若已达到,判断单元还判断是否满足进行新一轮循环的条件;若满足条件,读取单元取倒数第二次聚类的相似度为最佳相似度;若不满足条件,跳转单元跳转到设置新一轮循环中初次聚类的相似度的步骤。前述工作过程,对层级聚类及Single-pass进行了结合,同时解决了阈值难以确定以及长尾的问题。
实施例三
本发明实施例提供了基于Single-pass的聚类装置,如图3所示,包括存储器20、处理器21以及存储在存储器20中并可在处理器21上运行的计算机程序22,处理器21执行计算机程序22时实现实施例一所提供的方法。
实施例四
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现实施例一所提供的方法。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于Single-pass的聚类方法,其特征在于,包括如下步骤:
设置新一轮循环中初次聚类的相似度;其中,新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等;
根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;
若有未被聚类的短文本:根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;将上一次聚类所得的短文本主题导入新一次聚类中,根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;
判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数,其中,预设的总次数不小于2;
若未达到,跳转到获取新一次聚类的相似度的步骤;
若已达到,判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍,其中,N≥2;
若满足条件,取倒数第二次聚类的相似度为最佳相似度;
若不满足条件,跳转到设置新一轮循环中初次聚类的相似度的步骤。
2.根据权利要求1所述的基于Single-pass的聚类方法,其特征在于,降值规则包括:新一次聚类的相似度=上一次聚类的相似度-A,其中,A为恒定的正值。
3.根据权利要求1所述的基于Single-pass的聚类方法,其特征在于,预设的总次数为2。
4.根据权利要求1所述的基于Single-pass的聚类方法,其特征在于,设置新一轮循环中初次聚类的相似度的步骤之前,所述方法还包括:
对短文本进行预处理;
获取各个短文本的bert embedding。
5.一种基于Single-pass的聚类系统,基于权利要求1-4任一所述的基于Single-pass的聚类方法,其特征在于,所述系统包括:
设置单元,用于设置新一轮循环中初次聚类的相似度;其中,新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等;
聚类单元,用于根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;
第一获取单元,用于根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;
导入单元,用于将上一次聚类所得的短文本主题导入新一次聚类中;
所述聚类单元,还用于根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;
判断单元,用于判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数,其中,预设的总次数不小于2;
跳转单元,用于跳转到获取新一次聚类的相似度的步骤;
所述判断单元,还用于判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍,其中,N≥2;
读取单元,用于取倒数第二次聚类的相似度为最佳相似度;
所述跳转单元,还用于跳转到设置新一轮循环中初次聚类的相似度的步骤。
6.根据权利要求5所述的基于Single-pass的聚类系统,其特征在于,降值规则包括:新一次聚类的相似度=上一次聚类的相似度-A,其中,A为恒定的正值。
7.根据权利要求5所述的基于Single-pass的聚类系统,其特征在于,预设的总次数为2。
8.根据权利要求5所述的基于Single-pass的聚类系统,其特征在于,所述聚类系统还包括:
预处理单元,用于对短文本进行预处理;
第二获取单元,用于获取各个短文本的bert embedding。
9.一种基于Single-pass的聚类装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述方法的步骤。
CN202011563949.4A 2020-12-25 2020-12-25 基于Single-pass的聚类方法、系统、装置、存储介质 Active CN112579780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011563949.4A CN112579780B (zh) 2020-12-25 2020-12-25 基于Single-pass的聚类方法、系统、装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011563949.4A CN112579780B (zh) 2020-12-25 2020-12-25 基于Single-pass的聚类方法、系统、装置、存储介质

Publications (2)

Publication Number Publication Date
CN112579780A true CN112579780A (zh) 2021-03-30
CN112579780B CN112579780B (zh) 2022-02-15

Family

ID=75140593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011563949.4A Active CN112579780B (zh) 2020-12-25 2020-12-25 基于Single-pass的聚类方法、系统、装置、存储介质

Country Status (1)

Country Link
CN (1) CN112579780B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351840B1 (en) * 1999-12-09 2002-02-26 Silicon Perspective Corporation Method for balancing a clock tree
US20080183665A1 (en) * 2007-01-29 2008-07-31 Klaus Brinker Method and apparatus for incorprating metadata in datas clustering
CN105224954A (zh) * 2015-10-10 2016-01-06 福州大学 一种基于Single-pass去除小话题影响的话题发现方法
CN107609102A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种短文本在线聚类方法
CN108549647A (zh) * 2018-01-17 2018-09-18 中移在线服务有限公司 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
US20190205649A1 (en) * 2017-12-28 2019-07-04 Microsoft Technology Licensing, Llc Querying video data with reduced latency and cost
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN111694958A (zh) * 2020-06-05 2020-09-22 深兰人工智能芯片研究院(江苏)有限公司 基于词向量与single-pass融合的微博话题聚类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351840B1 (en) * 1999-12-09 2002-02-26 Silicon Perspective Corporation Method for balancing a clock tree
US20080183665A1 (en) * 2007-01-29 2008-07-31 Klaus Brinker Method and apparatus for incorprating metadata in datas clustering
CN105224954A (zh) * 2015-10-10 2016-01-06 福州大学 一种基于Single-pass去除小话题影响的话题发现方法
CN107609102A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种短文本在线聚类方法
US20190205649A1 (en) * 2017-12-28 2019-07-04 Microsoft Technology Licensing, Llc Querying video data with reduced latency and cost
CN108549647A (zh) * 2018-01-17 2018-09-18 中移在线服务有限公司 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN111694958A (zh) * 2020-06-05 2020-09-22 深兰人工智能芯片研究院(江苏)有限公司 基于词向量与single-pass融合的微博话题聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘红兵等: "基于LDA模型和多层聚类的微博话题检测", 《计算机技术与发展》 *
王丽颖等: "增量式聚类的新闻热点话题发现研究", 《计算机与现代化》 *

Also Published As

Publication number Publication date
CN112579780B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN109583325B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
JP6634515B2 (ja) 自動質問応答システムにおける質問クラスタリング処理方法及び装置
CN111031346A (zh) 一种增强视频画质的方法和装置
CN108491302B (zh) 一种检测spark集群节点状态的方法
CN107273883B (zh) 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN111491202B (zh) 一种视频发布方法、装置、设备和存储介质
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN108388508A (zh) 一种基于用户会话和层次聚类算法的测试用例选择方法
CN112446441B (zh) 模型训练数据筛选方法、装置、设备及存储介质
US20180329983A1 (en) Search apparatus and search method
CN113850300A (zh) 训练分类模型的方法和装置
CN106610977B (zh) 一种数据聚类方法和装置
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN110909768B (zh) 一种标注数据获取方法及装置
CN112182237A (zh) 题目知识点关联方法、题目知识点关联系统和存储介质
CN113780365B (zh) 样本生成方法和装置
CN112579780B (zh) 基于Single-pass的聚类方法、系统、装置、存储介质
CN114048816A (zh) 一种图神经网络数据采样方法、装置、设备及存储介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN112416301A (zh) 深度学习模型开发方法及装置、计算机可读存储介质
CN112529172A (zh) 数据处理方法和数据处理设备
CN111078564A (zh) 一种ui测试用例管理方法、装置、计算机设备以及计算机可读存储介质
US20230214451A1 (en) System and method for finding data enrichments for datasets
CN115146191A (zh) 基于ai进行视频监控资产识别的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant